Тематическое    моделирование русскоязычных текстов с опорой на леммы и лексические    конструкции

Анастасия Георгиевна Седова; Ольга Александровна Митрофанова

doi:10.17586/2541-9781-2017-1-132-144

Тематическое моделирование русскоязычных текстов с опорой на леммы и лексические конструкции

Анастасия Георгиевна Седова, Ольга Александровна Митрофанова

Аннотация

Исследование посвящено усовершенствованию методов вероятностного тематического моделирования, направленных на выявление скрытых взаимосвязей между словами, документами и темами в текстовых коллекциях. В большинстве тематических моделей темы представлены исключительно униграммами, что в некоторых случаях влечет за собой ухудшение точности и повышает сложность содержательной интерпретации выделяемых тем. Нами предложен новый алгоритм на основе метода LDA, позволяющий автоматически выделять в корпусе словосочетания, состоящие из двух слов, и добавлять их в тематические модели. В статье изложена работа алгоритма и приведены результаты его применения в автоматической обработке корпусов специальных текстов.

Ключевые слова

тематическое моделирование; LDA; биграммы

Полный текст:

PDF

DOI: https://doi.org/10.17586/2541-9781-2017-1-132-144

Ссылки

На текущий момент ссылки отсутствуют.

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.

Имя пользователя
Пароль
Запомнить меня