К вопросу о сходстве мер ассоциации применительно к задаче автоматического извлечения глагольных коллокаций

Мария Владимировна Хохлова

Аннотация


Извлечение коллокаций представляет собой одну из актуальных задач в обработке естественного языка, результаты которой важны и востребованы в разных областях прикладной лингвистики. Наше исследование посвящено сравнению пятнадцати статистических мер, проведенному на подмножестве русскоязычного корпуса «Тайга». Были рассмотрены автоматически извлеченные глагольные коллокации. В ходе экспериментов изучались отличия между статистичсекими метриками, а также была предпринята попытка найти наиболее эффективную из них для русского языка. Вычислялся коэффициент ранговой корреляции Спирмена между мерами, а также извлеченные словосочетания оценивались относительно данных словаря, то есть проводилось сравнение между полученными автоматически и «вручную» словосочетаниями. Полученные результаты показывают, что некоторые меры показывают сходство и относительную взаимозаменяемость.

Ключевые слова


глагольные коллокации; корпус текстов; статистика; словари; меры ассоциации; оценка

Полный текст:

PDF


DOI: https://doi.org/10.17586/2541-9781-2019-3-9-18

Ссылки

  • На текущий момент ссылки отсутствуют.


Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.