К вопросу о разрешении семантической омонимии топонимов в русскоязычных текстах

Кирилл Кириллович Боярский, Евгений Александрович Каневский, Дарья Андреевна Буторина

Аннотация


Одним из способов анализа документов на естественном языке является извлечение именованных сущностей, в частности, топонимов. Особенность данной задачи заключается в необходимости разрешать омонимию топонимов с другими словами языка. Областью исследования являются русскоязычные тексты, имеющие общеполитический, художественный и узкоспециальный характер. В качестве инструмента семантико-синтаксического анализа использовался парсер SemSin . Для снятия омонимии топонимов проводился поиск сопутствующих слов двух типов: определяющих, называющих классы географических объектов (река, город), и маркерных, образующих достаточно частотные словосочетаниями с топонимами (излучина, предместье). Составлены «микрословари» маркерных слов для топонимов классов рек, городов и гор. Показано, что их использование в ряде случаев позволяет однозначно определить, что данное слово является топонимом соответствующего класса, в том числе для слов, отсутствующих в словаре. Полученные результаты не зависят от конкретного парсера и словаря и могут быть использованы для повышения точности технологий TextMining .

Ключевые слова


топонимы; омонимия; анализ текста; парсер; маркерные слова

Полный текст:

PDF


DOI: https://doi.org/10.17586/2541-9781-2019-3-19-28

Ссылки

  • На текущий момент ссылки отсутствуют.


Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.