Сравнение нейросетевых синтаксических анализаторов для русского языка

Елена Денисовна Шамаева

Аннотация


Статья посвящена сравнению качества работы нейросетевых синтаксических анализаторов русского языка UDPipe, Stanza, Natasha, DeepPavlov, spacy. Оценка производилась на тестовых выборках датасетов синтаксически размеченных предложений GSD, PUD, SynTagRus, Poetry, Taiga, входящих в проект Universal Dependencies. Наиболее высокую скорость работы показали анализаторы Natasha, UDPipe и spacy, наилучшее качество работы — анализаторы DeepPavlov, Stanza и spacy. На большинстве анализаторов и датасетов метрика UAS равна 1.0 не более чем для 40 % предложений, метрика LAS — не более чем для 25 % предложений. Помимо стандартной оценки с помощью измерения средних значений метрик UAS и LAS на всем тестовом наборе предложений и на наборах предложений с определенной длиной, в статье исследуются распределения метрик на тестовых предложениях. Кроме того, приведена информация о качестве работы синтаксических анализаторов на наборах токенов с определенными характеристиками: эталонным типом связи, глубиной в эталонном дереве зависимостей, расстоянием до эталонного главного токена. Представленные в статье статистические данные результатов сравнения могут быть использованы для выбора синтаксического анализатора, наиболее подходящего под прикладную задачу. Реализация исследования представлена по адресу https://github.com/Derinhelm/parser_stat.

Ключевые слова


синтаксис; синтаксические анализаторы; дерево зависимостей; проект Universal Dependencies

Полный текст:

PDF


DOI: https://doi.org/10.17586/3033-5582-2025-9-26-47

Ссылки

  • На текущий момент ссылки отсутствуют.


Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.