К вопросу о разрешении семантической омонимии топонимов в русскоязычных текстах
Аннотация
Одним из способов анализа документов на естественном языке является извлечение именованных сущностей, в частности, топонимов. Особенность данной задачи заключается в необходимости разрешать омонимию топонимов с другими словами языка. Областью исследования являются русскоязычные тексты, имеющие общеполитический, художественный и узкоспециальный характер. В качестве инструмента семантико-синтаксического анализа использовался парсер SemSin . Для снятия омонимии топонимов проводился поиск сопутствующих слов двух типов: определяющих, называющих классы географических объектов (река, город), и маркерных, образующих достаточно частотные словосочетаниями с топонимами (излучина, предместье). Составлены «микрословари» маркерных слов для топонимов классов рек, городов и гор. Показано, что их использование в ряде случаев позволяет однозначно определить, что данное слово является топонимом соответствующего класса, в том числе для слов, отсутствующих в словаре. Полученные результаты не зависят от конкретного парсера и словаря и могут быть использованы для повышения точности технологий TextMining .
Ключевые слова
топонимы; омонимия; анализ текста; парсер; маркерные слова
Полный текст:
PDFDOI: https://doi.org/10.17586/2541-9781-2019-3-19-28
Ссылки
- На текущий момент ссылки отсутствуют.
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.