Возможности использования семантического поискового образа в задаче выявления определений понятий

Ольга Леонидовна Голицына, Анастасия Сергеевна Гаврилкина

Аннотация


Представлены результаты эксперимента по выявлению определений понятий в полных слабоструктурированных текстах научно-технических статей в рамках задачи семантического индексирования текстов документов. Содержание текста рассматривается как совокупность отражаемых триплетами элементарных фактов, включающих имена сущностей и отношений (ситуативных и имманентных). Методика построения триплетов основана на применении лексико-синтаксических шаблонов, позволяющих формировать триплеты для отдельных предложений текста. Для типизации ситуативных отношений используется таксономия отношений, в которой классы включают множества лингвистических конструкций. Использование таксономии отношений как дополнительного лингвистического обеспечения позволяет для конкретной лингвистической конструкции определить тип отношения, построить унифицированную (с точностью до типов отношений, включенных в таксономию) теоретико-графовую модель текста и тем самым обеспечить сопоставимость смыслов, выраженных разными лингвистическими конструкциями.
Эксперимент проведен для класса таксономии отношений «Определение понятия», в котором рассмотрены три лингвистические конструкции – «называть», «понимать под» и «подразумевать под». Для каждой лингвистической конструкции рассчитаны полнота и точность выявления определений понятий на материале полных текстов 115 научно-технических статей по тематике «Атомная энергетика». Приведены примеры фрагментов текста, соответствующих триплетам с отношением из класса «Определение понятия».

Ключевые слова


обработка текста; извлечение фактов; онтология; таксономия отношений; определение понятий

Полный текст:

PDF


DOI: https://doi.org/10.17586/0000-0000-2021-5-29-38

Ссылки

  • На текущий момент ссылки отсутствуют.


Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.