Ещё раз о способах снятия структурной омонимии: выбор единственной структуры в парсере Hurma
Аннотация
Целью проекта Хурма является создание исследовательской платформы для анализа текстов на естественном языке, в первую очередь на русском. Данная платформа предполагает анализ текстов на различных языковых уровнях, в том числе и на синтаксическом. Возможность выбора единственной синтаксической структуры в результате синтаксического анализа востребована в большинстве прикладных задач, использующих синтаксическую информацию: для создания размеченных корпусов, извлечения информации из текста (фактов и именованных сущностей), машинного перевода и т.д. Наше исследование посвящено способам выбора наиболее правильной синтаксической структуры и выделению критериев, по которым такой выбор становится возможным. Мы предлагаем гибридный подход к взвешиванию синтаксических структур, использующий как критерии, задаваемые вручную, так и статистическую информацию о лексической сочетаемости синтаксически связываемых слов.
Ключевые слова
синтаксический анализ; структуры составляющих; структуры зависимостей; взвешенное дерево; лексическая сочетаемость; алгоритм CYK
Полный текст:
PDFСсылки
- На текущий момент ссылки отсутствуют.