Обработка текстовой медицинской информации: метод сбора и маркировки симптомов заболеваний

Анна Владимировна Чижик, Светлана Андреевна Мельникова

Аннотация


Данная статья посвящена описанию проблем при сборе обучающего набора данных для создания диалогового агента для медицинской сферы. Авторами описывается собственный эксперимент, заключающийся в разработке стратегии выкачивания данных из сети интернет и последующего анализа слабоструктурированных текстов с целью выделения фактов и именованных сущностей. Итогом проведенного исследования является опубликованный датасет.

Ключевые слова


датасет, NER, анализ текста

Полный текст:

PDF


DOI: https://doi.org/10.17586/2541-9781-2022-6-12-19

Ссылки

  • На текущий момент ссылки отсутствуют.


Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.