Применение больших языковых моделей для решения лингвистических задач: сравнительный анализ на материале тестовых заданий по русской лексикологии
Аннотация
В настоящее время большие языковые модели находят все большее применение в различных отраслях знаний, при этом для оценки качества работы больших языковых моделей применяются те или иные виды тестирования, бенчмарков (наборов задач, на которых тестируются модели и сопоставляются ответы). Одним из наиболее распространенных бенчмарков для тестирования больших языковых моделей на сегодняшний день является бенчмарк MMLU, который предполагает ответы моделей на вопросы из разных областей знаний в формате выбора одного правильного ответа из нескольких вариантов. Однако в данном и иных основных используемых бенчмарках не тестируется способность моделей глубоко понимать русский язык, его единицы (лексемы и фразеологизмы), их дифференциальные признаки, лексико-семантические варианты, внутреннюю форму, системные связи, социолингвистическую обусловленность. В данной работе производится сравнительный анализ качества работы основных зарубежных и отечественных больших языковых моделей для решения лингвистических задач в виде тестовых заданий по курсу «Лексикология современного русского языка» в системе высшего филологического образования. В итоге было выявлено, что наилучшие результаты как суммарно, так и по отдельным блокам вопросов продемонстрировала модель Claude 3 Opus от компании Anthropic, за ней следуют GPT-4 от OpenAI и GigaChat Pro от Сбера. Анализ результатов по тематическим блокам показал, что наибольшие трудности у моделей вызвали задания по фразеологии, а наилучшие результаты были достигнуты в блоке вопросов по лексикографии.
Ключевые слова
большая языковая модель; бенчмарк; сравнительный анализ; лингвистика; русский язык; лексикология
Полный текст:
PDFСсылки
- На текущий момент ссылки отсутствуют.