Разработка ядра синтаксического анализатора для русского языка на основе библиотек NLTK
Аннотация
Целью проекта является создание синтаксического анализатора для русского языка с использованием инструментов NLTK для Python . В NLTK есть возможность создавать категориальные грамматики ( feature - based grammars ), основывающиеся на морфологической информации о входном тексте. При написании правил грамматики мы опираемся на систему морфологической разметки, принятую в морфоанализаторе PyMorphy 2. На данный момент создано ядро синтаксического анализатора, рассчитанное на обработку основных синтаксических групп внутри простого предложения для русского языка. В будущем мы планируем расширить функционал парсера так, чтобы он мог анализировать любые грамматически верные предложения русского языка.
Ключевые слова
автоматическая обработка текстов; синтаксический анализатор; русский язык; NLTK
Полный текст:
PDFСсылки
- На текущий момент ссылки отсутствуют.