Корпус текстов по корпусной лингвистике: состав и этапы формирования
Аннотация
Статья посвящена проблемам разработки корпуса статей по корпусной лингвистике, создаваемого на кафедре математической лингвистики СПбГУ. Корпус создан под руководством В. П. Захарова и включает в себя тексты докладов конференции «Корпусная лингвистика» с 2002 по 2021 гг., семинара «Компьютерная лингвистика и вычислительные онтологии» с 2011 по 2023 гг., а также некоторые другие материалы. В ходе работы над корпусным ресурсом была проведена унификация формата представления текстов, исследована структура статей. Осуществлены эксперименты по генерации ключевых слов и аннотаций в тех случаях, когда авторский текст не содержал данную информацию. Исследованы типы именованных сущностей, зафиксированных в корпусе, реализован алгоритм их разметки. Проведен анализ распределения докладов по тематическим блокам конференций в соответствии со схемой экспертной разметки.
Ключевые слова
корпусная лингвистика; материалы конференций; разметка; ключевые слова; аннотации; тематическая разметка; именованные сущности
Полный текст:
PDFDOI: https://doi.org/10.17586/2541-9781-2024-8-13-29
Ссылки
- На текущий момент ссылки отсутствуют.
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.