Разработка метода извлечения наименований городских сервисов из неформализованных текстов социальных сетей
Аннотация
Работа посвящена проблеме обработки неформализованных сообщений граждан о городской инфраструктуре. Обращения граждан — один из немногих источников данных, необходимых для организации мероприятий по улучшению городской среды, управления и проведения различных исследований, связанных с городом. Разработанный метод, на основе NLP (обработка естественного языка), призван обеспечить возможность извлечения обращений и сообщений о городской среде, упоминаемых в них городских сервисов. В центре метода находится модель машинного обучения, которая была обучена на 10 тыс. комментариях граждан в социальной сети «ВКонтакте». Данные для обучения модели были размечены при помощи большой языковой модели GPT-4. Этот подход позволит получить актуальную информацию о сервисах, которые, при сочетании с другими методами и подходами, могут быть использованы как для проведения различных научных исследований, так и для трансформации городской среды.
Ключевые слова
обработка естественного языка; тексты социальных сетей; цифровая урбанистика; граф знаний; машинное обучение
Полный текст:
PDFСсылки
- На текущий момент ссылки отсутствуют.