Корпус текстов по корпусной лингвистике: состав и этапы формирования

Ольга Александровна Митрофанова, Мария Антоновна Адамова, Людмила Александровна Букреева, Алиса Кирилловна Зернова, Анна Артемовна Литвинова, Владислава Станиславовна Павликова, Полина Сергеевна Сологуб

Аннотация


Статья посвящена проблемам разработки корпуса статей по корпусной лингвистике, создаваемого на кафедре математической лингвистики СПбГУ. Корпус создан под руководством В. П. Захарова и включает в себя тексты докладов конференции «Корпусная лингвистика» с 2002 по 2021 гг., семинара «Компьютерная лингвистика и вычислительные онтологии» с 2011 по 2023 гг., а также некоторые другие материалы. В ходе работы над корпусным ресурсом была проведена унификация формата представления текстов, исследована структура статей. Осуществлены эксперименты по генерации ключевых слов и аннотаций в тех случаях, когда авторский текст не содержал данную информацию. Исследованы типы именованных сущностей, зафиксированных в корпусе, реализован алгоритм их разметки. Проведен анализ распределения докладов по тематическим блокам конференций в соответствии со схемой экспертной разметки.

Ключевые слова


корпусная лингвистика; материалы конференций; разметка; ключевые слова; аннотации; тематическая разметка; именованные сущности

Полный текст:

PDF


DOI: https://doi.org/10.17586/2541-9781-2024-8-13-29

Ссылки

  • На текущий момент ссылки отсутствуют.


Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.