Метаразметка и визуализация данных в корпусе текстов по корпусной лингвистике
Аннотация
В статье представлены результаты проекта по представлению и визуализации метаданных для корпуса статей по корпусной лингвистике, разработанного на кафедре математической лингвистики СПбГУ. Корпус создан под руководством В. П. Захарова и включает в себя тексты докладов конференции «Корпусная лингвистика» с 2002 по 2021 гг., семинара «Компьютерная лингвистика и вычислительные онтологии» конференции IMS с 2011 по 2023 гг., а также некоторые другие материалы. В ходе работы над корпусным ресурсом был унифицирован формат разметки данных о статьях и их авторах и реализован алгоритм автоматизированного дополнения метаинформации. Осуществлены эксперименты по визуализации связей между элементами метаданных с использованием инструментов для построения графов Gephi, WebOWL, Protégé, библиотек PyGraphviz и NetworkX для языка программирования Python. Проведен анализ результатов визуализации, реализован поиск и навигация по построенным графам в формате веб-страницы.
Ключевые слова
корпусная лингвистика; материалы конференций; графовый анализ; метаразметка; визуализация; информационный поиск; онтологии; именованные сущности
Полный текст:
PDFDOI: https://doi.org/10.17586/2541-9781-2024-8-45-60
Ссылки
- На текущий момент ссылки отсутствуют.
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.