Выделение русских заимствований в якутских текстах
Аннотация
Якутский язык включает в себя значительное количество русских заимствований. В процессе адаптации к якутскому языку русские основы могут претерпевать различные трансформации в соответствии с принципами якутского письма или сохранять исходное написание. Часто оба написания более или менее одинаково распространены для одних и тех же лексических единиц, и носители якутского языка сталкиваются с вопросом, какой вариант использовать. Правописание заимствований из русского языка актуально не только для областей языковой политики и языкового планирования: параллельно с усилиями по регламентации правильного написания ведутся исследования по установлению тенденции употребления. Для этого лексикографы должны просмотреть огромное количество письменного материала. Задачу выделения русских заимствований в якутских текстах можно сформулировать в рамках области исследования автоматической идентификации языка (language identification). Автоматическая идентификация языка (LI) относится к проблеме определения языка, на котором написан документ или его часть. В целом, LI может быть рассмотрена как задача классификации текста, то есть сопоставление документа с заранее определенным набором классов. В данной статье представлены результаты эксперимента по обучению классификатора для автоматического выделения русских заимствований в якутских текстах, сохранивших исходную орфографию. Классификатор реализован на основе модели 3-грамм.
Ключевые слова
якутский язык, русские заимствования, идентификация языка, 3-граммы, лексикография
Полный текст:
PDFDOI: https://doi.org/10.17586/2541-9781-2021-5-41-54
Ссылки
- На текущий момент ссылки отсутствуют.
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.