Тематическое моделирование русскоязычных текстов с опорой на леммы и лексические конструкции
Аннотация
Исследование посвящено усовершенствованию методов вероятностного тематического моделирования, направленных на выявление скрытых взаимосвязей между словами, документами и темами в текстовых коллекциях. В большинстве тематических моделей темы представлены исключительно униграммами, что в некоторых случаях влечет за собой ухудшение точности и повышает сложность содержательной интерпретации выделяемых тем. Нами предложен новый алгоритм на основе метода LDA, позволяющий автоматически выделять в корпусе словосочетания, состоящие из двух слов, и добавлять их в тематические модели. В статье изложена работа алгоритма и приведены результаты его применения в автоматической обработке корпусов специальных текстов.
Ключевые слова
тематическое моделирование; LDA; биграммы
Полный текст:
PDFDOI: https://doi.org/10.17586/2541-9781-2017-1-132-144
Ссылки
- На текущий момент ссылки отсутствуют.
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.