Компьютерная лингвистика и вычислительные онтологии, № 3 (2019)

К вопросу о разрешении семантической омонимии топонимов в русскоязычных текстах

Кирилл Кириллович Боярский, Евгений Александрович Каневский, Дарья Андреевна Буторина

Аннотация


Одним из способов анализа документов на естественном языке является извлечение именованных сущностей, в частности, топонимов. Особенность данной задачи заключается в необходимости разрешать омонимию топонимов с другими словами языка. Областью исследования являются русскоязычные тексты, имеющие общеполитический, художественный и узкоспециальный характер. В качестве инструмента семантико-синтаксического анализа использовался парсер SemSin . Для снятия омонимии топонимов проводился поиск сопутствующих слов двух типов: определяющих, называющих классы географических объектов (река, город), и маркерных, образующих достаточно частотные словосочетаниями с топонимами (излучина, предместье). Составлены «микрословари» маркерных слов для топонимов классов рек, городов и гор. Показано, что их использование в ряде случаев позволяет однозначно определить, что данное слово является топонимом соответствующего класса, в том числе для слов, отсутствующих в словаре. Полученные результаты не зависят от конкретного парсера и словаря и могут быть использованы для повышения точности технологий TextMining .