Разработка тематических моделей корпуса по корпусной лингвистике с автоматическим назначением меток тем

Ольга Александровна Митрофанова, Ростислав Васильевич Голубев, Полина Андреевна Гусяцкая, Кирилл Владимирович Макеев, Елизавета Алексеевна Плюснина, Даниил Дмитриевич Сухан, Александра Валерьевна Трошина, Александра Алексеевна Уткина

Аннотация


В статье представлены результаты экспериментов по обучению семейства тематических моделей корпуса текстов по корпусной лингвистике, создаваемого на кафедре математической лингвистики СПбГУ под руководством В. П. Захарова. Тематическое моделирование корпуса ТКиКЛ осуществлено с помощью алгоритмов NMF, LSA, LDA, Biterm. Обобщение тем с помощью меток реализовано на основе обработки данных из выдачи информационно-поисковой системы, статических предсказывающих моделей Word2Vec, обученных на корпусе, а также большой языковой модели ChatGPT. Результаты тематического моделирования с назначением меток тем сопоставляются с данными о распределении докладов по тематическим блокам конференций в соответствии со схемой экспертной разметки.

Ключевые слова


корпусная лингвистика; материалы конференций; тематическое моделирование; метки тем; рубрикация

Полный текст:

PDF


DOI: https://doi.org/10.17586/2541-9781-2024-8-30-44

Ссылки

  • На текущий момент ссылки отсутствуют.


Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.