К вопросу о сходстве мер ассоциации применительно к задаче автоматического извлечения глагольных коллокаций
Аннотация
Извлечение коллокаций представляет собой одну из актуальных задач в обработке естественного языка, результаты которой важны и востребованы в разных областях прикладной лингвистики. Наше исследование посвящено сравнению пятнадцати статистических мер, проведенному на подмножестве русскоязычного корпуса «Тайга». Были рассмотрены автоматически извлеченные глагольные коллокации. В ходе экспериментов изучались отличия между статистичсекими метриками, а также была предпринята попытка найти наиболее эффективную из них для русского языка. Вычислялся коэффициент ранговой корреляции Спирмена между мерами, а также извлеченные словосочетания оценивались относительно данных словаря, то есть проводилось сравнение между полученными автоматически и «вручную» словосочетаниями. Полученные результаты показывают, что некоторые меры показывают сходство и относительную взаимозаменяемость.
Ключевые слова
глагольные коллокации; корпус текстов; статистика; словари; меры ассоциации; оценка
Полный текст:
PDFDOI: https://doi.org/10.17586/2541-9781-2019-3-9-18
Ссылки
- На текущий момент ссылки отсутствуют.
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.