Сравнение моделей векторизации текстов для задачи анализа тональности коротких сообщений из социальных сетей

Анна Владимировна Чижик

Аннотация


Анализ тональности текстов является одной из актуальных задач, которая способна выявлять важные факторы, влияющие на вектор социального настроения общества. При использовании для решения этой задачи методов машинного обучения требуется преобразовать текст в его векторное представление. Существует ряд методов векторизации текстов. В данной статье сравниваются три актуальных на данный момент подхода к созданию векторного представления: учет веса слова в документе (TF-IDF), использование дистрибутивной семантики при создании векторов слов (Word2Vec) и векторизация целых предложений (Laser). Сравнивая эти три модели векторизации текстов для задачи анализа тональности коротких сообщений из социальных сетей, можно сказать, что каждая из них имеет свои преимущества и недостатки. В статье описан дизайн исследования, приведены метрики качества, описаны данные, на которых проводились опыты.

Ключевые слова


векторизация текстов, анализ тональности, социальные медиа

Полный текст:

PDF


DOI: https://doi.org/10.17586/2541-9781-2024-7-81-89

Ссылки

  • На текущий момент ссылки отсутствуют.


Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.