Проблемы исследования словообразовательного потенциала с использованием современных поисковых систем: автоматизированный отбор дериватов через Яндекс
Аннотация
Один из ключевых этапов исследования деривационного потенциала тех или иных слов — отбор производных единиц, позволяющий выявить в составе словообразовательных парадигм имеющиеся реализации и «пустые места» — лакуны. Однако словообразовательные словари не отражают весь перечень дериватов, используемых в языке, а толковые словари не всегда фиксируют новые лексические единицы. В то же время интернет представляет собой ценный источник данных о реальном функционировании производных слов, хотя в настоящее время отсутствует общепринятый метод их автоматизированного извлечения.
В данной работе предлагается один из подходов к отбору дериватов с использованием поисковой системы Яндекс. Метод включает в себя конструирование гипотетических производных на основе производящих основ и аффиксов, участвующих в словообразовании, их автоматизированную верификацию через Яндекс Search API, а также создание датасета, содержащего найденные производные, ссылки на соответствующие интернет-страницы и сниппеты, в которых встречаются дериваты. Дополнительно предлагается классификация собранных контекстов по их стилистической принадлежности на основе заданного алгоритма, анализирующего фрагменты интернет-ссылок. Это позволит в дальнейшем определять, насколько сбалансированно используются некодифицированные производные слова в разных сферах. Представленный метод позволяет более объективно оценивать словообразовательный потенциал лексем, в частности — прилагательных, обозначающих психические характеристики человека, а также исследовать причины деривационной лакунарности в сфере производства отадъективных имен лиц. Исследование имеет прикладное значение для автоматизированного составления динамических словообразовательных ресурсов и расширения возможностей компьютерной лексикографии.
В данной работе предлагается один из подходов к отбору дериватов с использованием поисковой системы Яндекс. Метод включает в себя конструирование гипотетических производных на основе производящих основ и аффиксов, участвующих в словообразовании, их автоматизированную верификацию через Яндекс Search API, а также создание датасета, содержащего найденные производные, ссылки на соответствующие интернет-страницы и сниппеты, в которых встречаются дериваты. Дополнительно предлагается классификация собранных контекстов по их стилистической принадлежности на основе заданного алгоритма, анализирующего фрагменты интернет-ссылок. Это позволит в дальнейшем определять, насколько сбалансированно используются некодифицированные производные слова в разных сферах. Представленный метод позволяет более объективно оценивать словообразовательный потенциал лексем, в частности — прилагательных, обозначающих психические характеристики человека, а также исследовать причины деривационной лакунарности в сфере производства отадъективных имен лиц. Исследование имеет прикладное значение для автоматизированного составления динамических словообразовательных ресурсов и расширения возможностей компьютерной лексикографии.
Ключевые слова
словообразовательный потенциал; дериват; Яндекс Поиск; парсинг; поисковые системы; обработка естественного языка
Полный текст:
PDFDOI: https://doi.org/10.17586/3033-5582-2025-9-78-92
Ссылки
- На текущий момент ссылки отсутствуют.

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.


