Автоматизированное извлечение адресов из неструктурированных текстов

А. А. Менщиков, А. В. Комарова, Ю. А. Гатчин

Аннотация


Как известно, поиск информации включает в себя сбор, обработку и передачу полученной информации заинтересованным лицам. Более конкретно, данный процесс состоит из следующих этапов: определение и формулировка информационного запроса, выявление информационных источников, извлечение информации, оценка полученных результатов поиска. В данной статье мы сосредотачиваемся на вопросе извлечения из текста информации, содержащей почтовые адреса и географические ориентиры. Данная проблема возникает при решении задач автоматизированного определения адресов организаций и помещений на основе анализа контента, собранного в автоматическом режиме с веб-ресурсов.

Полный текст:

PDF

Литература


Schmidt, Sebastian, et al. Extraction of address data from unstructured text using free knowledge resources. - Proceedings of the 13th International Conference on Knowledge Management and Knowledge Technologies. ACM. 2013. Article №7. http://dl.acm.org/citation.cfm?doid=2494188.2494193 (дата обращения: 15.04.2017).

Алексеев С. С., Морозов В. В., Симаков К. В. Методы машинного обучения в задачах извлечения информации из текстов по эталону // Труды 11й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL’2009, Петрозаводск, Россия, 2009. С. 237-246. http://rcdl.ru/doc/2009/237_246_Section07-1.pdf (дата обращения 14.04.2017).

Chang, Chia-Hui, Chia-Yi Huang, and Yueng-Sheng Su. On Chinese Postal Address and Associated Information Extraction // The 26th Annual Conference of the Japanese Society for Artificial Intelligence, 2012. Pp. 1-7. https://www.researchgate.net/publication/267422107_On_Chinese_Postal_Address_and_Associated_Information_Extraction (дата обращения 15.04.2017).

Nesi, Paolo, Gianni Pantaleo, and Marco Tenti. Geographical localization of web domains and organization addresses recognition by employing natural language processing, Pattern Matching and clustering // Engineering Applications of Artificial Intelligence 51, 2016. Рр. 202-211. http://dl.acm.org/citation.cfm?id=2910172 (дата обращения 16.04.2017).

Zheyuan Yu. High accuracy postal address extraction from web pages // Masters Abstracts International. Vol. 45. No. 05. 2007.

Asadi S., Yang G., Zhou X., Shi Y., Zhai B., Jiang W. Pattern-Based Extraction of Addresses from Web Page Content // APWeb 2008. Pp. 407-418. https://link.springer.com/chapter/10.1007/978-3-540-78849-2_41 (дата обращения 15.04.2017).

Pasternack J. and Roth D. Extracting Article Text from The Web With Maximum Subsequence Segmentation // WWW 2009. Pp. 971-980. http://www.academia.edu/2661588/Extracting_article_text_from_the_web_with_maximum_subsequence_segmentation (дата обращения 14.04.2017).


Ссылки

  • На текущий момент ссылки отсутствуют.