Геометрия падежей в векторных моделях русского языка

Илья Алексеевич Суров, Кирилл Михайлович Черников

Аннотация


Падежные системы естественных языков выражают их смысловую структуру, информативную для задач лингвистического анализа. Без связи с архитектурами современных языковых моделей эта информация практически не используется, что приводит к смысловой неопределённости и другим трудоёмким проблемам машинного обучения. В данной работе такая связь установлена для векторных моделей GloVe и FastText, чувствительных к морфологии. Для этого рассмотрены примерно 3 тыс. наиболее используемых существительных русского языка, падежные формы которых кодируются моделями в виде 300-мерных векторов. Структура падежей в этом массиве данных изучалась методом линейного дискриминантного анализа. В 300-мерных пространствах обеих моделей найдено четырёхмерное подпространство, оси которого разделяют падежные классы с точностью от 75 % до 90 %. В этом подпространстве падежные словоформы образуют четырёхмерный тетраэдр, в котором падежам соответствуют вершины, центр и соединяющие их лучи. Разделительные функции осей и симметрии падежных распределений совпадают для обеих моделей. Найденная структура падежной семантики открывает возможности машинного анализа русскоязычных текстов, недоступные для английского и китайского. Полученный результат намечает пути природоподобного развития машинных моделей языков с сильной морфологией.

Ключевые слова


векторные модели; дистрибутивная семантика; семантическое пространство; падеж; геометрия; русский язык; морфология; дискриминантный анализ

Полный текст:

PDF


DOI: https://doi.org/10.17586/3033-5582-2025-9-48-59

Ссылки

  • На текущий момент ссылки отсутствуют.


Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.