Сравнение нейросетевых синтаксических анализаторов для русского языка
Аннотация
Статья посвящена сравнению качества работы нейросетевых синтаксических анализаторов русского языка UDPipe, Stanza, Natasha, DeepPavlov, spacy. Оценка производилась на тестовых выборках датасетов синтаксически размеченных предложений GSD, PUD, SynTagRus, Poetry, Taiga, входящих в проект Universal Dependencies. Наиболее высокую скорость работы показали анализаторы Natasha, UDPipe и spacy, наилучшее качество работы — анализаторы DeepPavlov, Stanza и spacy. На большинстве анализаторов и датасетов метрика UAS равна 1.0 не более чем для 40 % предложений, метрика LAS — не более чем для 25 % предложений. Помимо стандартной оценки с помощью измерения средних значений метрик UAS и LAS на всем тестовом наборе предложений и на наборах предложений с определенной длиной, в статье исследуются распределения метрик на тестовых предложениях. Кроме того, приведена информация о качестве работы синтаксических анализаторов на наборах токенов с определенными характеристиками: эталонным типом связи, глубиной в эталонном дереве зависимостей, расстоянием до эталонного главного токена. Представленные в статье статистические данные результатов сравнения могут быть использованы для выбора синтаксического анализатора, наиболее подходящего под прикладную задачу. Реализация исследования представлена по адресу https://github.com/Derinhelm/parser_stat.
Ключевые слова
синтаксис; синтаксические анализаторы; дерево зависимостей; проект Universal Dependencies
Полный текст:
PDFDOI: https://doi.org/10.17586/3033-5582-2025-9-26-47
Ссылки
- На текущий момент ссылки отсутствуют.

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.


