Особенности построения системы массового оптического распознавания архивных документов

С. В. Смирнов

Аннотация


В статье рассматривается проблематика построения систем массового оптического распознавания. Описывается алгоритм корректировки ошибок распознавания, архитектура и компонентная модель разработанной системы. Также приводятся сведения об эксплуатации в центральных государственных архивах Санкт-Петербурга.


Ключевые слова


распознавание образов; обработка архивных документов; оптическое распознавание; корректировка ошибок распознавания; архитектура системы; компонентная модель; алгоритм; метод; информационный поиск; массовое распознавание;

Полный текст:

PDF

Литература


Anderson N. IMPACT Best Practice Guide: Optical Character Recognition – Part 1. 2010 URL: http://www.impactproject.eu/uploads/media/IMPACT-ocr-bpg-pilots1.pdf (дата обращения: 06.06.2012)

Tanner S. Deciding Whether Optical Character Recognition is Feasible. 2004. URL: http://www.odl.ox.ac.uk/papers/OCRFeasibility_final.pdf (дата обращения: 06.06.2012)

Kai N. Unsupervised Post-Correction of OCR Errors // Hannover: Leibniz University. 2010.

Kukich K. Techniques for automatically Correcting Words in Text // ACM computing survey Computational Linguistic. 1992. vol. 24. no. 4. pp. 377–439.

Смирнов С.В. Методы автоматической постобработки результатов распознавания в задачах оцифровки архивных документов // Информационно-измерительные и управляющие системы. 2013. №9. С. 22–32.

Смирнов С.В. Корректировка ошибок оптического распознавания на основе рейтинго- ранговой модели текста // Труды СПИИРАН. 2014. Выпуск 4(35).

Левенштейн В. Двоичные коды с исправлением выпадений, вставок и замещений символов // Доклады Академий Наук СССР. 1965. Т. 163. № 4. С. 845-848.

Reynaert M. Non-interactive OCR Post-correction for Giga-Scale Digitization Projects // Computational Linguistics and Intelligent Text Processing. 2008. pp. 617–630.

Java. URL: http://java.com (дата обращения 18.09.2014).

Mordani R. Java Servlet Specification, Version 3.0. USA. 2009.

ImageMagick: Convert, Edit, Or Compose Bitmap Images. URL: http://www.imagemagick.org/ (дата обращения 18.09.2014).

Tesseract-ocr. URL: http://code.google.com/p/tesseract-ocr/ (дата обращения: 29.04.2014).

Cuneiform Windows. URL: http://cognitiveforms.com/ru/products_and_services/cuneiform (дата обращения: 29.04.2014).


Ссылки

  • На текущий момент ссылки отсутствуют.