"Черные лебеди": извлечение редких событий из текста

А. М. Попов, Ю. В. Адаскина

Аннотация


Задача поиска аномалий в текстах становится все более востребованной в области анализа клиентского опыта. Это связано как с наработанными за последние годы знаниями об отзывах клиентов, так и со сдвигом интереса от статистически значимого к статистически незначимому в других научных дисциплинах. Статистический анализ частотных и легко прогнозируемых причин обращения клиентов в службу контроля качества и клиентского негативного опыта — задача не новая и до известной степени решенная. Противоположная же ей задача — поиск и идентификация редких и нечастотных аспектов негативного опыта клиента — задача весьма новая и не имеющая на сегодняшний день стандартных подходов к решению. Извлечение аномалий (anomaly detection) существует как самостоятельная задача во многих областях, где применяется машинное обучение и анализ большого объема данных, а также при создании различных систем мониторинга.

Полный текст:

PDF

Литература


Mahapatra A., Srivastava N., Srivastava J. Contextual Anomaly Detection in Text Data // Algorithms. 2012. №5.

Cilibrasi R., Vitanyi P. The google similarity distance // IEEE Transactions on Knowledge and Data Engeneering. 2007. №19.

Lin D. An Information-Theoretic Definition of Similarity // Proceedings of the 15th International Conference on Machine Learning (Madison, WI, USA, 24–27 July 1998). 1998. P. 296–304.

Manevitz L. Yousef M. Document Classification on Neural Networks Using Only Positive Examples // Proceedings of the 23rd Annual International ACM SIGIR Conference Research and Development in Information Retrieval (New Orleans, USA, 24–28 July 2000). 2000. Vol. 34. P. 304–306.

Manevitz L. Yousef M. One-class SVMs for document classification // Journal of Machine Learning Research. 2002. №2.


Ссылки

  • На текущий момент ссылки отсутствуют.