Автоматическое построение тезаурусных расширений для корпоративного информационного поиска

Д. О. Донцов


В данной статье описывается подход к автоматическому построению словаря синонимов для продукции компании Hewlett-Packard. Такие словари используются для расширения пользовательского запроса в поисковых механизмах корпоративного веб-сайта. Статья включает описание алгоритма генерации словаря синонимов.

Ключевые слова

словарь синонимов; компания Hewlett-Packard; пользовательский запрос; поисковые механизмы; корпоративный веб-сайт

Полный текст:



Маннинг, К.Д. Введение в информационный поиск / Кристофер Д. Маннинг, Прабхакар Рагхаван, Хайнрих Шютце. М.: Вильямс, 2011. С. 168-169.

Frei, Y. Concept Based Query Expansion / Frei, Y. Qiu and H.P.,// Proceedings of the 16th ACM International Conference on Research and Development in Information Retrieval. Pittsburgh, 1993.

Gibson, D. The volume and evolution of web page templates / D. Gibson, K. Punera, A. Tomkins // Proceedings of the 14th international conference on World Wide Web. New York, NY, USA, 2005.

Baluja, S. Browsing on small screens: recasting web-page segmentation into an efficient machine learning framework // Proceedings of the 15th international conference on World Wide Web. New York, NY, USA, 2006.

Chakrabarti, D. A graph-theoretic approach to webpage segmentation / D. Chakrabarti, R. Kumar, K. Punera // Proceeding of the 17th international conference on World Wide Web, New York, USA, 2008.

Chakrabarti, D. Page-level template detection via isotonic smoothing / D. Chakrabarti, R. Kumar, K. Punera // Proceedings of the 16th international conference on World Wide Web, 2007.

Lan, Y. Eliminating noisy information in Web pages for data mining / Lan Yi, Bing Liu, and Xiaoli L // Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining (KDD '03), New York, NY, USA, 2003.

Kohlschütter, Ch. Boilerplate detection using shallow text features / Christian Kohlschütter, Peter Fankhauser, Wolfgang Nejdl // Proceedings of the third ACM international conference on Web search and data mining (WSDM '10), New York, NY, USA, 2010.

Lafferty, J. Conditional random fields: Probabilistic models for segmenting and labeling sequence data / Lafferty, J., McCallum, A., Pereira, F. // Proceedings of the 18th International Conference on Machine Learning, 2001.

McCallum, A. Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons / Andrew McCallum, Li Wei // Proceedings of the seventh conference on Natural language learning at HLTNAACL 2003, Edmonton, Canada.

Simanovsky, A. Mining Text Patterns for Synonyms Extraction / Andrey Simanovsky, Alexander Ulanov // Accepted for publication at the 1st International Workshop on Exploiting Large Knowledge Repositories, 2011.


  • На текущий момент ссылки отсутствуют.