Извлечение семантических отношений для создания предметного тезауруса

Мария Сергеевна Каряева

Аннотация


Данная работа посвящена разработке методов для автоматического построения тезауруса. Под тезаурусом обычно понимают словарь концептов с определенной структурой хранения данных и набором семантических отношений. Особое значение наряду с отношением основным отношением, используемым в тезаурусах, синонимией, мы исследовали такие виды семантических отношений как часть-целое, род-вид и отношение ассоциации. В качестве предметной области для проведения первичных исследований была выбрана поэтология . Под поэтологией понимается группа дисциплин, ориентированных на всестороннее теоретическое и историческое изучение поэзии. Основным объектом изучения предметной области «Поэтология » является стихотворное произведение того или иного автора. На прошлом этапе была создана терминологическая коллекция (32 тыс. терминов), путем извлечения терминов различной длины из оцифрованных источников. В качестве начального этапа для задания предметной области служил словник (1,5 тыс. терминов), составленный вручную экспертами предметной области.

Ключевые слова


  тезаурус; семантические отношения; data mining; knowledge acquisition; domain engineering; machine learning; word2vec

Полный текст:

PDF

Ссылки

  • На текущий момент ссылки отсутствуют.