Определение семантической близости текстов с использованием инструмента DKPro Similarity

Анна Владимировна Крюкова

Аннотация


В данной работе рассматривается проблема оценки семантической близости текстов на русском языке. Мы описываем преимущества использования открытой компьютерной платформы DKPro Similarity для решения этой проблемы, сосредоточив внимание на строковых метриках оценки близости текстов. Эксперименты проводятся на материале тестовой выборки, включающей сходные фрагменты художественных, научных и новостных текстов. Мы используем несколько представленных в платформе DKPro Similarity метрик и передаем полученные значения алгоритмам машинного обучения в качестве признаков. Результаты работы показывают, что простые строковые метрики позволяют достичь высоких результатов при определении отнесенности текстов к одной группе с помощью линейных моделей. В исследовании также предлагается метод оценки релевантности метрик для конкретных задач.

Ключевые слова


семантическая близость; метрики семантической близости; DKPro Similarity; машинное обучение; компьютерная лингвистика

Полный текст:

PDF


DOI: https://doi.org/10.17586/2541-9781-2017-1-87-97

Ссылки

  • На текущий момент ссылки отсутствуют.


Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.