Разработка метода извлечения наименований городских сервисов из неформализованных текстов социальных сетей

Глеб Юрьевич Худяков

Аннотация


Работа посвящена проблеме обработки неформализованных сообщений граждан о городской инфраструктуре. Обращения граждан — один из немногих источников данных, необходимых для организации мероприятий по улучшению городской среды, управления и проведения различных исследований, связанных с городом. Разработанный метод, на основе NLP (обработка естественного языка), призван обеспечить возможность извлечения обращений и сообщений о городской среде, упоминаемых в них городских сервисов. В центре метода находится модель машинного обучения, которая была обучена на 10 тыс. комментариях граждан в социальной сети «ВКонтакте». Данные для обучения модели были размечены при помощи большой языковой модели GPT-4. Этот подход позволит получить актуальную информацию о сервисах, которые, при сочетании с другими методами и подходами, могут быть использованы как для проведения различных научных исследований, так и для трансформации городской среды.

Ключевые слова


обработка естественного языка; тексты социальных сетей; цифровая урбанистика; граф знаний; машинное обучение

Полный текст:

PDF

Ссылки

  • На текущий момент ссылки отсутствуют.