ISSN 0021-3454 (печатная версия)
ISSN 2500-0381 (онлайн версия)
Меню

5
Содержание
том 68 / Май, 2025
СТАТЬЯ

DOI 10.17586/0021-3454-2024-67-9-767-775

УДК 004.8.81

РАСПОЗНАВАНИЕ РУКОПИСНОГО ТЕКСТА ИСТОРИЧЕСКИХ ДОКУМЕНТОВ С ПРИМЕНЕНИЕМ ТЕХНОЛОГИЙ ГЛУБОКИХ НЕЙРОННЫХ СЕТЕЙ

Унтерберг А. М.
Сибирский федеральный университет, Институт космических и информационных технологий, кафедра систем искусственного интеллекта ;


Пятаева А. В.
Сибирский федеральный университет, Институт космических и информационных технологий, кафедра систем искусственного интеллекта; руководитель научно-учебной лаборатории систем искусственного интеллекта


Замыслова С. С.
Сибирский федеральный университет, Институт космических и информационных технологий, кафедра систем искусственного интеллекта ;


Рукосуева Е. Д.
Сибирский федеральный университет, Институт космических и информационных технологий, кафедра систем искусственного интеллекта ;


Богданов К. В.
Сибирский федеральный университет, Институт космических и информационных технологий, кафедра программной инженерии;


Читать статью полностью 
Ссылка для цитирования : Унтерберг А. М., Пятаева А. В., Замыслова С. С., Рукосуева Е. Д., Богданов К. В. Распознавание рукописного текста исторических документов с применением технологий глубоких нейронных сетей // Изв. вузов. Приборостроение. 2024. Т. 67, № 9. С. 767–775. DOI: 10.17586/0021-3454-2024-67-9-767-775.

Аннотация. Рассматривается задача распознавания рукописного текста на дореформенном русском языке с применением технологий глубоких нейронных сетей. В качестве исходных данных использованы отсканированные JPGснимки исторических документов, в частности XIX века, содержащие различные шумы и помехи, что затрудняет работу алгоритма распознавания. Распознавание текста выполнено в три этапа: устранение шумов, сегментация (выделение) строк текста на изображении, так как входными данными для работы глубокой нейронной сети являются именно строки, и затем распознавание текста выделенных срок с помощью дообученной модели Tesseract OCR, осуществляющей электронный перевод изображений рукописного или печатного текста в текстовые данные. В качестве модели использована сверточно-рекуррентная нейронная сеть; модель представляет собой комбинацию сверточной нейронной сети для извлечения локальных признаков из изображения и рекуррентной нейронной сети, представленной двумя слоями двунаправленных сетей LSTM для обработки последовательности. Использование именно такой модели позволяет достоверно распознавать рукописный текст.
Ключевые слова: нейронные сети, обработка естественного языка, исторические документы, глубокое обучение, библиотека Tesseract OCR

Список литературы:
  1. Carbonell M., Fornés A., Villegas M., Lladós J. A neural model for text localization, transcription and named entity recognition in full pages // Pattern Recognition Letters. 2020. Vol. 136. P. 219–227. DOI: 10.1016/j.patrec.2020.05.001.
  2. Mestha P., Asif S., Mayekar M. Handwritten Text Line Recognition Using Deep Learning // Lecture Notes in Networks and Systems. 2022. P. 567–580. DOI: 10.1007/978-3-030-84760-9_48.
  3. Souibgui M. A., Fornes A., Kessentini Y., Megyesi B. Few shots are all you need: A progressive learning approach for low resource handwritten text recognition // Pattern Recognition Letters. 2022. Vol. 160. P. 43–49. DOI: 10.1016/j. patrec.2022.06.003.
  4. Kang L., Riba P., Rusinol M., Fornes A., Villegas M. Pay attention to what you read: Non-recurrent handwritten textLine recognition //Pattern Recognition. 2022. Vol. 129. P. 108766. DOI: 10.1016/j.patcog.2022.108766.
  5. Gonwirat S., Surinta O. CycleAugment: Efficient data augmentation strategy for handwritten text recognition in historical document images // Engineering and Applied Science Research. 2022. Vol. 49, N. 4 P. 505–520. DOI: 10.14456/easr.2022.50.
  6. Aradillas J., Murillo-Fuentes J., Olmos P. Boosting Offline Handwritten Text Recognition in Historical Documents with Few Labeled Lines // IEEE Access. 2021. Vol. 9. P. 76674–76688. DOI: 10.1109/ACCESS.2021.3082689.
  7. Im C., Kim Y., Mandl T. Deep learning for historical books: classification of printing technology for digitized images // Multimedia Tools and Applications. 2022. Vol. 81. P. 5867–5888. DOI: 10.1007/s11042-021-11754-7.
  8. Jiju A., Tuscano S., Badgujar C. OCR Text Extraction // Intern. Journal of Engineering and Management Research. 2021. Vol. 11. P. 83–86. DOI:10.31033/ijemr.11.2.11.
  9. Lombardi F., Marinai S. Deep Learning for Historical Document Analysis and Recognition — A Survey // Journal of Imaging. 2020. Vol. 6, N. 10. P. 110 DOI: 10.3390/jimaging6100110.
  10. Sporici D., Cusnir E., Boiangiu C. Improving the accuracy of Tesseract 4.0 OCR engine using convolution-based preprocessing // Symmetry. 2020. Vol. 12, N. 5. P. 715. DOI: 10.3390/sym12050715.
  11. Pyataeva A. V., Genza S. A. Artificial neural network technology for text recognition // CEUR Workshop Proc. 2019. Vol. 2534. P. 248–252.