Разработка системы анализа разноплановых характеристик поэтического текста
Аннотация
В статье рассматриваются аспекты разработки модулей для автоматизации анализа поэтических текстов средствами машинного обучения и компьютерной лингвистики. Мы рассматриваем особенности структуры поэтических текстов и подходов к их анализу, а также способы вычисления разноплановых характеристик: разработаны и оценены алгоритмические и нейросетевые модели для определения силлабо-тонических стихотворных размеров, выполнен семантический анализ на базе трансформера RuBERT, позволяющий автоматически выделять ключевые темы стихотворения на основе косинусного сходства эмбеддингов, проведено синтаксическое (подсчет доли частей речи, определение параллелизма) и лексическое (подсчет доли редких слов на основе созданного словаря частотных слов в поэзии) исследование поэтических текстов. Анализ проведен с помощью библиотек языка программирования Python. Материалом исследования послужили открытые русскоязычные поэтические корпусы. Реализованные модули мы интегрировали в разработанное веб-приложение для анализа разноплановых характеристик стихотворений. Полученное в результате работы приложение может быть использовано в образовательных учреждениях для наглядного демонстрирования приемов стихосложения и анализа стихотворных форм, а также на платформах литературных сообществ для предоставления возможностей интерактивного анализа поэзии. В дальнейшем веб-приложение планируется масштабировать и расширить новыми моделями и корпусами.
Ключевые слова
компьютерная лингвистика; автоматический анализ; русская поэзия; машинное обучение
Полный текст:
PDFDOI: https://doi.org/10.17586/3033-5582-2025-9-120-129
Ссылки
- На текущий момент ссылки отсутствуют.

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.


