Оценка лингвистической компетенции больших языковых моделей на материале корпуса согласовательной вариативности

Ксения Андреевна Студеникина, Екатерина Анатольевна Лютикова, Анастасия Алексеевна Герасимова

Аннотация


Данное исследование нацелено на оценку сходства и различия лингвистической компетенции носителей языка и больших языковых моделей (БЯМ). Материалом для сравнения служит созданный нами корпус вариативного согласования (КВаС). Он содержит 6803 предложения с оценками по шкале от 1 до 7, полученными при проведении 20 синтаксических экспериментов по изучению вариативного согласования. Корпус фиксирует средние оценки русских предложений с различными условиями согласования, полученные от носителей языка, и позволяет выяснить, как БЯМ справляются с градуальной оценкой приемлемости. Мы приводим результаты тестирования четырех моделей: преимущественно русскоязычных YandexGPT 5 Pro и GigaChat 2 Max, а также мультиязычных Llama 3.3 70B и Mistral Large. Для каждой модели было опробовано два режима тестирования: zero-shot, содержащий только инструкцию, и few-shot, где добавлены тренировочные предложения и их оценки. Поскольку данные в КВаС демонстрируют различный уровень приемлемости в зависимости от экспериментальных условий, подсчет только средней ошибки для предсказанных моделями оценок будет недостаточно показателен. Нами разработана метрика, позволяющая оценить, какая доля контрастов между экспериментальными условиями, релевантными для людей, выявляется с помощью БЯМ. Результаты показывают, что среднее значение ошибки меньше для предложений без вариативного согласования. Примеры с согласовательной вариативностью оказываются сложнее для БЯМ. Качество моделей проседает для одного и того же типа конструкций — сочинения. Модели значительно лучше определяют контрасты для конструкций с постпозитивными относительными предложениями, количественными конструкциями и управляющими квантификаторами. Наиболее точное совпадение при выделении значимых контрастов по сравнению с носителями языка демонстрирует Mistral. Наименьшее количество контрастов выделяет модель Llama. Русскоязычные модели занимают промежуточную позицию, при этом YandexGPT превосходит GigaChat. Добавление примеров в режиме few-shot улучшает среднее качество, но различие незначительно. Результаты показывают, что качество решения задачи градуальной оценки приемлемости сильно отличается для разных классов лингвистических феноменов. Сравнение моделей демонстрирует, что для достижения лучшего качества наиболее важным оказывается количество параметров модели, которое, однако, может быть компенсировано объемом русскоязычных данных при обучении.

Ключевые слова


языковая способность; синтаксис; согласование; обработка естественного языка; большие языковые модели; бенчмарк

Полный текст:

PDF


DOI: https://doi.org/10.17586/3033-5582-2025-9-100-119

Ссылки

  • На текущий момент ссылки отсутствуют.


Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.