Тематическое моделирование русскоязычных текстов с опорой на леммы и лексические конструкции
Аннотация
Исследование посвящено    усовершенствованию методов вероятностного тематического моделирования, направленных    на выявление скрытых взаимосвязей между словами, документами и темами в    текстовых коллекциях. В большинстве тематических моделей темы представлены    исключительно униграммами, что в некоторых случаях влечет за собой ухудшение    точности и повышает сложность содержательной интерпретации выделяемых тем.    Нами предложен новый алгоритм на основе метода LDA, позволяющий автоматически    выделять в корпусе словосочетания, состоящие из двух слов, и добавлять их в    тематические модели. В статье изложена работа алгоритма и приведены    результаты его применения в автоматической обработке корпусов специальных    текстов.
		Ключевые слова
тематическое    моделирование;  LDA;  биграммы
		Полный текст:
PDFDOI: https://doi.org/10.17586/2541-9781-2017-1-132-144
Ссылки
- На текущий момент ссылки отсутствуют.

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.
 

 
  
  
  Отправить эту статью по почте
			Отправить эту статью по почте 
