DOI 10.17586/0021-3454-2024-67-9-767-775
УДК 004.8.81
РАСПОЗНАВАНИЕ РУКОПИСНОГО ТЕКСТА ИСТОРИЧЕСКИХ ДОКУМЕНТОВ С ПРИМЕНЕНИЕМ ТЕХНОЛОГИЙ ГЛУБОКИХ НЕЙРОННЫХ СЕТЕЙ
Сибирский федеральный университет, Институт космических и информационных технологий, кафедра систем искусственного интеллекта ;
Пятаева А. В.
Сибирский федеральный университет, Институт космических и информационных технологий, кафедра систем искусственного интеллекта; руководитель научно-учебной лаборатории систем искусственного интеллекта
Замыслова С. С.
Сибирский федеральный университет, Институт космических и информационных технологий, кафедра систем искусственного интеллекта ;
Рукосуева Е. Д.
Сибирский федеральный университет, Институт космических и информационных технологий, кафедра систем искусственного интеллекта ;
Богданов К. В.
Сибирский федеральный университет, Институт космических и информационных технологий, кафедра программной инженерии;
Читать статью полностью

Ссылка для цитирования : Унтерберг А. М., Пятаева А. В., Замыслова С. С., Рукосуева Е. Д., Богданов К. В. Распознавание рукописного текста исторических документов с применением технологий глубоких нейронных сетей // Изв. вузов. Приборостроение. 2024. Т. 67, № 9. С. 767–775. DOI: 10.17586/0021-3454-2024-67-9-767-775.
Аннотация. Рассматривается задача распознавания рукописного текста на дореформенном русском языке с применением технологий глубоких нейронных сетей. В качестве исходных данных использованы отсканированные JPGснимки исторических документов, в частности XIX века, содержащие различные шумы и помехи, что затрудняет работу алгоритма распознавания. Распознавание текста выполнено в три этапа: устранение шумов, сегментация (выделение) строк текста на изображении, так как входными данными для работы глубокой нейронной сети являются именно строки, и затем распознавание текста выделенных срок с помощью дообученной модели Tesseract OCR, осуществляющей электронный перевод изображений рукописного или печатного текста в текстовые данные. В качестве модели использована сверточно-рекуррентная нейронная сеть; модель представляет собой комбинацию сверточной нейронной сети для извлечения локальных признаков из изображения и рекуррентной нейронной сети, представленной двумя слоями двунаправленных сетей LSTM для обработки последовательности. Использование именно такой модели позволяет достоверно распознавать рукописный текст.
Аннотация. Рассматривается задача распознавания рукописного текста на дореформенном русском языке с применением технологий глубоких нейронных сетей. В качестве исходных данных использованы отсканированные JPGснимки исторических документов, в частности XIX века, содержащие различные шумы и помехи, что затрудняет работу алгоритма распознавания. Распознавание текста выполнено в три этапа: устранение шумов, сегментация (выделение) строк текста на изображении, так как входными данными для работы глубокой нейронной сети являются именно строки, и затем распознавание текста выделенных срок с помощью дообученной модели Tesseract OCR, осуществляющей электронный перевод изображений рукописного или печатного текста в текстовые данные. В качестве модели использована сверточно-рекуррентная нейронная сеть; модель представляет собой комбинацию сверточной нейронной сети для извлечения локальных признаков из изображения и рекуррентной нейронной сети, представленной двумя слоями двунаправленных сетей LSTM для обработки последовательности. Использование именно такой модели позволяет достоверно распознавать рукописный текст.
Ключевые слова: нейронные сети, обработка естественного языка, исторические документы, глубокое обучение, библиотека Tesseract OCR
Список литературы:
Список литературы:
- Carbonell M., Fornés A., Villegas M., Lladós J. A neural model for text localization, transcription and named entity recognition in full pages // Pattern Recognition Letters. 2020. Vol. 136. P. 219–227. DOI: 10.1016/j.patrec.2020.05.001.
- Mestha P., Asif S., Mayekar M. Handwritten Text Line Recognition Using Deep Learning // Lecture Notes in Networks and Systems. 2022. P. 567–580. DOI: 10.1007/978-3-030-84760-9_48.
- Souibgui M. A., Fornes A., Kessentini Y., Megyesi B. Few shots are all you need: A progressive learning approach for low resource handwritten text recognition // Pattern Recognition Letters. 2022. Vol. 160. P. 43–49. DOI: 10.1016/j. patrec.2022.06.003.
- Kang L., Riba P., Rusinol M., Fornes A., Villegas M. Pay attention to what you read: Non-recurrent handwritten textLine recognition //Pattern Recognition. 2022. Vol. 129. P. 108766. DOI: 10.1016/j.patcog.2022.108766.
- Gonwirat S., Surinta O. CycleAugment: Efficient data augmentation strategy for handwritten text recognition in historical document images // Engineering and Applied Science Research. 2022. Vol. 49, N. 4 P. 505–520. DOI: 10.14456/easr.2022.50.
- Aradillas J., Murillo-Fuentes J., Olmos P. Boosting Offline Handwritten Text Recognition in Historical Documents with Few Labeled Lines // IEEE Access. 2021. Vol. 9. P. 76674–76688. DOI: 10.1109/ACCESS.2021.3082689.
- Im C., Kim Y., Mandl T. Deep learning for historical books: classification of printing technology for digitized images // Multimedia Tools and Applications. 2022. Vol. 81. P. 5867–5888. DOI: 10.1007/s11042-021-11754-7.
- Jiju A., Tuscano S., Badgujar C. OCR Text Extraction // Intern. Journal of Engineering and Management Research. 2021. Vol. 11. P. 83–86. DOI:10.31033/ijemr.11.2.11.
- Lombardi F., Marinai S. Deep Learning for Historical Document Analysis and Recognition — A Survey // Journal of Imaging. 2020. Vol. 6, N. 10. P. 110 DOI: 10.3390/jimaging6100110.
- Sporici D., Cusnir E., Boiangiu C. Improving the accuracy of Tesseract 4.0 OCR engine using convolution-based preprocessing // Symmetry. 2020. Vol. 12, N. 5. P. 715. DOI: 10.3390/sym12050715.
- Pyataeva A. V., Genza S. A. Artificial neural network technology for text recognition // CEUR Workshop Proc. 2019. Vol. 2534. P. 248–252.