Обработка текстовой медицинской информации: метод сбора и маркировки симптомов заболеваний
Аннотация
Данная статья посвящена описанию проблем при сборе обучающего набора данных для создания диалогового агента для медицинской сферы. Авторами описывается собственный эксперимент, заключающийся в разработке стратегии выкачивания данных из сети интернет и последующего анализа слабоструктурированных текстов с целью выделения фактов и именованных сущностей. Итогом проведенного исследования является опубликованный датасет.
Ключевые слова
датасет, NER, анализ текста
Полный текст:
PDFDOI: https://doi.org/10.17586/2541-9781-2022-6-12-19
Ссылки
- На текущий момент ссылки отсутствуют.

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.