Некоторые проблемы автоматизированного извлечения данных из веб-страниц

Евгений Сергеевич Чиркин

Аннотация


Статья посвящена описанию частых проблем и некоторых их решений при автоматизированном извлечении данных (data extraction) для их последующего глубинного анализа (data mining) из сети Интернет.

The some problems of automated data extraction from web pages

The article describes the some frequent problems and their solutions in some automate the extraction of data (data ex-traction) for further in-depth analysis (data mining) from the Internet.


Полный текст:

PDF

Литература


Ершов А. «Мы фанаты машинного обучения»: главный специалист «Яндекса» по ранжированию рассказал о персонализации и счастье пользователей [Электронный ресурс]. URL: http://lenta.ru/articles/2013/06/17/yandexsearch/

(дата обращения: 13.08.2013).

Chow T., Lin Y., Chan W. The Development of a Web-based Demographic Data Extraction Tool for Population Monitoring // Transactions in GIS, 2011. Vol. 15. P. 479—494.

IBM Watson: a sophisticated data analytics & insight engine [Электронный ресурс]. URL: http://www-01.ibm.com/software/ebusiness/jstart/watson/ (дата обращения: 13.08.2013).

Li Z., Ng W., Sun A. Web data extraction based on structural similarity // Knowledge and Information Systems, 2005. Vol. 8. P. 438—461.

Liddle S., Yau S., Embley D. On the Automatic Extraction of Data from the Hidden Web // H. Arisawa, Y. Kambayashi (Eds.): ER 2001 Workshops, LNCS 2465, 2002. P. 212—226.

Velasquez J., Palade V. A Knowledge Base for the maintenance of knowledge extracted from web data // Knowledge-Based Systems. 2007. Vol. 20. P. 238—248.

Zhai Y., Liu B. Extracting Web Data Using Instance-Based Learning. // Proceedings of 6th International Conference on Web Information Systems Engineering (WISE-05), 2005.


Ссылки

  • На текущий момент ссылки отсутствуют.