Геометрия падежей в векторных моделях русского языка
Аннотация
Падежные системы естественных языков выражают их смысловую структуру, информативную для задач лингвистического анализа. Без связи с архитектурами современных языковых моделей эта информация практически не используется, что приводит к смысловой неопределённости и другим трудоёмким проблемам машинного обучения. В данной работе такая связь установлена для векторных моделей GloVe и FastText, чувствительных к морфологии. Для этого рассмотрены примерно 3 тыс. наиболее используемых существительных русского языка, падежные формы которых кодируются моделями в виде 300-мерных векторов. Структура падежей в этом массиве данных изучалась методом линейного дискриминантного анализа. В 300-мерных пространствах обеих моделей найдено четырёхмерное подпространство, оси которого разделяют падежные классы с точностью от 75 % до 90 %. В этом подпространстве падежные словоформы образуют четырёхмерный тетраэдр, в котором падежам соответствуют вершины, центр и соединяющие их лучи. Разделительные функции осей и симметрии падежных распределений совпадают для обеих моделей. Найденная структура падежной семантики открывает возможности машинного анализа русскоязычных текстов, недоступные для английского и китайского. Полученный результат намечает пути природоподобного развития машинных моделей языков с сильной морфологией.
Ключевые слова
векторные модели; дистрибутивная семантика; семантическое пространство; падеж; геометрия; русский язык; морфология; дискриминантный анализ
Полный текст:
PDFDOI: https://doi.org/10.17586/3033-5582-2025-9-48-59
Ссылки
- На текущий момент ссылки отсутствуют.

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.


