СРАВНИТЕЛЬНОЕ ИССЛЕДОВАНИЕ АРХИТЕКТУР НЕЙРОННЫХ СЕТЕЙ ДЛЯ ИНТЕГРАЛЬНОЙ СИСТЕМЫ РАСПОЗНАВАНИЯ РЕЧИ Известия высших учебных заведений Приборостроение

DOI 10.17586/0021-3454-2020-63-11-1027-1033
УДК 004.522

СРАВНИТЕЛЬНОЕ ИССЛЕДОВАНИЕ АРХИТЕКТУР НЕЙРОННЫХ СЕТЕЙ ДЛЯ ИНТЕГРАЛЬНОЙ СИСТЕМЫ РАСПОЗНАВАНИЯ РЕЧИ

Кипяткова И. С.
Санкт-Петербургский институт информатики и автоматизации Российской академии наук (СПИИРАН), Санкт-Петербург, 199178, Российская Федерация; старший научный сотрудник

Карпов А. А.
Санкт-Петербургский Федеральный исследовательский центр Российской академии наук, Санкт-Петербург, 199178, Российская Федерация; профессор, руководитель лаборатории

Читать статью полностью

Аннотация. Обсуждается проблема усовершенствования архитектуры интегральной нейросетевой модели распознавания русской речи. Модель создана путем объединения кодер-декодер-модели с механизмом внимания и модели на основе коннекционной временной классификации. Исследовано применение в интегральной модели таких архитектур нейронных сетей, как магистральные нейронные сети (Highway Wetworks), остаточные нейронные сети (ResNet) и Dense-соединения (DenseNet); кроме того, исследовано применение функции gumbel-softmax вместо активационной функции softmax при декодировании. Модели были обучены с использованием метода переноса знаний, вначале выполнено предварительное обучение на англоязычном корпусе, затем — на небольшом корпусе слитной русской речи объемом 60 ч. Разработанные модели показали высокую точность распознавания речи по сравнению с базовой интегральной моделью. Приведены результаты экспериментов по распознаванию слитной русской речи: наилучший результат составил 10,8 % по показателю количества неправильно распознанных символов и 29,1 % по показателю количества неправильно распознанных слов.

Ключевые слова: распознавание речи, интегральные модели, магистральные нейронные сети, остаточные соединения, Dense-соединения, русская речь

Список литературы:

Марковников Н. М., Кипяткова И. C. Аналитический обзор интегральных систем распознавания речи // Тр. СПИИРАН. 2018. Вып. 58. C. 77—110.
Марковников Н. М., Кипяткова И. С. Исследование методов построения моделей кодер-декодер для распознавания русской речи // Информационно-управляющие системы. 2019. № 4. C. 45—53.
Markovnikov N., Kipyatkova I. Investigating joint CTC-attention models for end-to-end russian speech recognition // Lecture Notes in Computer Science, SPECOM 2019. Springer LNAI. 2019. Vol. 11658. P. 337—347.
Watanabe S. et al. Espnet: End-to-end speech processing toolkit // Proc. of Interspeech-2018, Hyderabad, India, 2—6 Sept. 2018. P. 2207—2211.
Kim S., Hori T., Watanabe S. Joint CTC-attention based end-to-end speech recognition using multi-task learning // IEEE Intern. Conf. on Acoustics, Speech and Signal Processing (ICASSP-2017). 2017. P. 4835—4839.
Srivastava N., Hinton G., Krizhevsky A., Sutskever I., Salakhutdinov R. Dropout: a simple way to prevent neural networks from overfitting // J. of Machine Learning Research. 2014. Vol. 15, N 1. P. 1929—1958.
Szegedy C., Vanhoucke V., Ioffe S., Shlens J., Wojna Z. Rethinking the inception architecture for computer vision // IEEE Conf. on Computer Vision and Pattern Recognition. 2016. P. 2818—2826.
Simonyan K., Zisserman A. Very deep convolutional networks for large-scale image recognition // arXiv preprint arXiv:1409.1556. 2014 [Электронный ресурс]: , 18.11.2020.
Glorot X., Bordes A., Bengio Y. Deep sparse rectifier neural networks // Proc. of the 14th Intern. Conf. on Artificial Intelligence and Statistics. 2011. P. 315—323.
Chorowski J. K., Bahdanau D., Serdyuk D., Cho K., Bengio Y. Attention-based models for speech recognition // Advances in Neural Information Processing Systems. 2015. P. 577—585.
Kipyatkova I. Experimenting with hybrid TDNN/HMM acoustic models for russian speech recognition // Lecture Notes in Computer Science, SPECOM-2017. Springer LNCS. 2017. Vol. 10458. P. 362—369.
Kipyatkova I., Karpov A. Lexicon Size and Language Model Order Optimization for Russian LVCSR // Lecture Notes in Computer Science, SPECOM 2013. Springer LNAI. 2013. Vol. 8113. P. 219—226.
Srivastava R. K., Greff K., Schmidhuber J. Highway networks //arXiv preprint arXiv:1505.00387. 2015 [Электронный ресурс]: , 18.11.2020.
He K., Zhang X., Ren S., Sun J. Deep residual learning for image recognition // IEEE Conf. on Computer Vision and Pattern Recognition. 2016. P. 770—778.
Ioffe S., Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift // arXiv preprint arXiv:1502.03167. 2015 [Электронный ресурс]: , 18.11.2020.
Iandola F., Moskewicz M., Karayev S., Girshick R., Darrell T., Keutzer K. Densenet: Implementing efficient convnet descriptor pyramids // arXiv preprint arXiv:1404.1869. 2014 [Электронный ресурс]: , 18.11.2020.
Карпов А. А., Кипяткова И. С. Методология оценивания работы систем автоматического распознавания речи // Изв. вузов. Приборостроение. 2012. Т. 55, № 11. С. 38—43.
Freitag M., Al-Onaizan Y. Beam search strategies for neural machine translation // arXiv preprint arXiv:1702.01806. 2017 [Электронный ресурс]: , 18.11.2020.
Jang E., Gu S., Poole B. Categorical reparameterization with gumbel-softmax // arXiv preprint arXiv:1611.01144. 2016 [Электронный ресурс]: , 18.11.2020.

Партнеры

СРАВНИТЕЛЬНОЕ ИССЛЕДОВАНИЕ АРХИТЕКТУР НЕЙРОННЫХ СЕТЕЙ ДЛЯ ИНТЕГРАЛЬНОЙ СИСТЕМЫ РАСПОЗНАВАНИЯ РЕЧИ