Разработка и реализация методов генерации правил для автоматической проверки правописания

Павел Ярославович Бахвалов

Аннотация


Задача автоматической проверки правописания является актуальной: Количество написанного текста увеличивается с каждым годом, также, как и количество людей, начинающих изучать новые языки, и всем нам, как людям, свойственно делать ошибки. Существует два основных подхода к решению данной задачи: подход, основанный на машинном обучении, и подход, основанный на правилах. Первый имеет более высокое качество и не требует привлечение лингвистов, но с другой стороны второй позволяет объяснить пользователю причину ошибки и требует значительно меньше вычислительных ресурсов. Эти подходы можно комбинировать, объединяя их преимущества, и получать выигрыш в качестве. В настоящей работе представлен способ автоматического получения правил из аннотированного набора данных, которыми могут быть расширены системы автоматической проверки правописания после добавления описания. За основу был взят подход Transformation-Based Learning (TBL), который был доработан для использования на данных с большим количеством признаков. В результате были сгенерированы 1238 правил для 36 категорий ошибок. После этого, существующая система по проверке правописания LanguageTool была расширена полученными правилами и показала улучшение качества работы.

Ключевые слова


проверка правописания; автоматическое исправление ошибок; генерация правил; детектирование ошибок

Полный текст:

PDF


DOI: https://doi.org/10.17586/2541-9781-2020-4-83-97

Ссылки

  • На текущий момент ссылки отсутствуют.


Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.