Извлечение семантических отношений для создания предметного тезауруса

Мария Сергеевна Каряева

Аннотация


Данная работа посвящена разработке методов для автоматического построения тезауруса. Под тезаурусом обычно понимают словарь концептов с определенной структурой хранения данных и набором семантических отношений. Особое значение наряду с отношением основным отношением, используемым в тезаурусах, синонимией, мы исследовали такие виды семантических отношений как часть-целое, род-вид и отношение ассоциации. В качестве предметной области для проведения первичных исследований была выбрана поэтология . Под поэтологией понимается группа дисциплин, ориентированных на всестороннее теоретическое и историческое изучение поэзии. Основным объектом изучения предметной области «Поэтология » является стихотворное произведение того или иного автора. На прошлом этапе была создана терминологическая коллекция (32 тыс. терминов), путем извлечения терминов различной длины из оцифрованных источников. В качестве начального этапа для задания предметной области служил словник (1,5 тыс. терминов), составленный вручную экспертами предметной области.

Ключевые слова


  тезаурус; семантические отношения; data mining; knowledge acquisition; domain engineering; machine learning; word2vec

Полный текст:

PDF


DOI: https://doi.org/10.17586/2541-9781-2018-2-17-24

Ссылки

  • На текущий момент ссылки отсутствуют.


Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.