ПОДХОД К АВТОМАТИЧЕСКОМУ РАСПОЗНАВАНИЮ ЭМОЦИЙ В ТРАНСКРИПЦИЯХ РЕЧИ Известия высших учебных заведений Приборостроение

DOI 10.17586/0021-3454-2023-66-10-818-827
УДК 004.934.2

ПОДХОД К АВТОМАТИЧЕСКОМУ РАСПОЗНАВАНИЮ ЭМОЦИЙ В ТРАНСКРИПЦИЯХ РЕЧИ

Двойникова А. А.
Санкт-Петербургский Федеральный исследовательский центр РАН, лаборатория речевых и многомодульных интерфейсов; мл. научный сотрудник

Кондратенко К. О.
Санкт-Петербургский государственный университет, кафедра фонетики и методики преподавания иностранных языков;

Читать статью полностью

Ссылка для цитирования : Двойникова А. А., Кондратенко К. О. Подход к автоматическому распознаванию эмоций в транскрипциях речи // Изв. вузов. Приборостроение. 2023. Т. 66, № 10. С. 818—827. DOI: 10.17586/0021-3454-2023-66-10-818-827.

Аннотация. Исследован актуальный в различных областях вопрос распознавания эмоций в транскрипциях речи. Проанализировано влияние методов предобработки (удаление стоп-слов, лемматизация, стемминг) на точность распознавания эмоций в текстовых данных на русском и английском языках. Для проведения экспериментальных исследований использовались орфографические транскрипции диалогов из многомодальных корпусов RAMAS и CMU-MOSEI на русском и английском языке соответственно. Аннотирование этих корпусов выполнялось по следующим эмоциям: радость, удивление, страх, злость, грусть, отвращение и нейтральное состояние. Предобработка текстовых данных включала в себя удаление знаков пунктуации и стоп-слов, токенизацию, лемматизацию и стемминг. Векторизация полученного материала была осуществлена при помощи методов TF-IDF, BoW, Word2Vec. В качестве классификаторов выступили метод опорных векторов и логистическая регрессия. Разработан подход автоматического распознавания эмоций в текстовых данных, представляющий собой комбинацию методов. Для русского языка достигнута наибольшая точность распознавания эмоций по взвешенной F-мере = 92,63 %, для английского языка — 47,21 %. Кроме того, проведены исследования по выявлению количества удаленных стоп-стоп для эффективного распознавания эмоций по текстовым данным. Результаты экспериментов показывают, что сохранение стоп-слов в исходном тексте позволяет достичь наиболее высокой точности классификации текстов.

Ключевые слова: распознавание эмоций, методы предобработки текстовых данных, удаление стоп-слов, многоклассовая классификация, анализ текстовых данных

Благодарность: работа выполнена в рамках проекта Российского научного фонда (раздел „Подход к классификации текстовых данных по эмоциям“ выполнен в рамках проекта № 22-11-00321), остальные исследования выполнены частично в рамках ведущей научной школы РФ (грант № НШ-17.2022.1.6) и бюджетной темы СПб ФИЦ РАН (№ FFZF-2022-0005).

Список литературы:

Acheampong F. A., Wenyu C., Nunoo-Mensah H. Text-based emotion detection: Advances, challenges, and opportunities // Engineering Reports. 2020. Vol. 2, N 7. P. e12189. DOI: 10.1002/eng2.12189.
Dzedzickis A., Kaklauskas A., Bucinskas V. Human emotion recognition: Review of sensors and methods // Sensors. 2020. Vol. 20, N 3. P. 592. DOI: 10.3390/s20030592.
Рюмина Е. В., Карпов А. А. Аналитический обзор методов распознавания эмоций по выражениям лица человека // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 20, № 2. С. 163—176. DOI: 10.17586/2226-1494-2020-20-2-163-176.
Мубаракшина Р. Т., Яковенко Р. Т. Обзор подходов к проблеме распознавания эмоций по параметрам устной̆ речи // Системный анализ в проектировании и управлении. 2019. Т. 23, № 1. С. 392—397.
Богданов А. Л., Дуля И. С. Сентимент-анализ коротких русскоязычных текстов в социальных медиа // Вестник Томского государственного университета. Экономика. 2019. № 47. С. 220—241. DOI: 10.17223/19988648/47/17.
Дюличева Ю. Ю. Учебная аналитика МООК как инструмент анализа математической тревожности // Вопросы образования. 2021. № 4. С. 243—265. DOI: 10.17323/1814-9545-2021-4-243-265.
Adoma A. F., Henry N. M., Chen W. Comparative analyses of bert, roberta, distilbert, and xlnet for text-based emotion recognition // 2020 17th Intern. Computer Conf. on Wavelet Active Media Technology and Information Processing (ICCWAMTIP). 2020. P. 117—121. DOI: 10.1109/iccwamtip51612.2020.9317379.
Verkholyak O., Dvoynikova A., Karpov A. A Bimodal Approach for Speech Emotion Recognition using Audio and Text // J. Internet Serv. Inf. Secur. 2021. Vol. 11, N 1. P. 80—96.
Liu Y., Fu G. Emotion recognition by deeply learned multi-channel textual and EEG features // Future Generation Computer Systems. 2021. Vol. 119. P. 1—6. DOI: 10.1016/j.future.2021.01.010.
Овсянникова В. В. К вопросу о классификации эмоций: категориальный и многомерный подходы // Финансовая аналитика: проблемы и решения. 2013. Т. 37, № 175. С. 43—48.
Ekman P. Basic emotions // Handbook of cognition and emotion. 1999. P. 45—60.
Изард К. Э. Психология эмоций. СПб: Питер, 1999. 464 с.
Sogancioglu G., Verkholyak O., Kaya H., Fedotov D., Cadée T., Salah A. A., Karpov A. Is Everything Fine, Grandma? Acoustic and Linguistic Modeling for Robust Elderly Speech Emotion Recognition // INTERSPEECH. 2020. P. 2097—2101. DOI: 10.21437/interspeech.2020-3160.
Russell J. A. Culture and the categorization of emotions // Psychological bulletin. 1991. Vol. 110, N 3. P. 426—450. DOI: 10.1037/0033-2909.110.3.426.
Двойникова А. А., Карпов А. А. Аналитический обзор подходов к распознаванию тональности русскоязычных текстовых данных // Информационно-управляющие системы. 2020. № 4(107). С. 20—30. DOI:10.31799/1684-8853-2020-4-20-30.
Henry E. R., Hofrichter J. Singular value decomposition: Application to analysis of experimental data // Methods in enzymology. Academic Press, 1992. Vol. 210. P. 129—192. DOI: 10.1016/0076-6879(92)10010-B.
Pennington J., Socher R., Manning C. D. Glove: Global vectors for word representation // Proc. of the 2014 Conf. on Empirical Methods in Natural Language Processing (EMNLP). 2014. P. 1532—1543. DOI: 10.3115/v1/d14-1162.
Bojanowski P., Grave E., Joulin A., Mikolov T. Enriching word vectors with subword information // Transactions of the association for computational linguistics. 2017. Vol. 5. P. 135—146. DOI: 10.1162/tacl_a_00051.
Mikolov T., Sutskever I., Chen K., Corrado G. S., Dean J. Distributed representations of words and phrases and their compositionality // Advances in neural information processing systems. 2013. Vol. 26. P. 1—9.
Devlin J., Chang M. W. Lee K., Toutanova K. Bert: Pre-training of deep bidirectional transformers for language understanding // arXiv preprint arXiv:1810.04805. 2018. DOI: 10.48550/arXiv.1810.04805.
Peters M., Neumann M., Iyyer M., Gardner M., Clark C., Lee K., Zettle-moyer L. Deep contextualized word representations // Proc. of the 2018 Conf. of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2018. Vol. 1. P. 2227—2237.
Halim L. R., Suryadibrata A. Cyberbullying Sentiment Analysis with Word2Vec and One-Against-All Support Vector Machine // IJNMT (International Journal of New Media Technology). 2021. Vol. 8, N 1. P. 57—64. DOI: 10.31937/ijnmt.v8i1.2047.
Duong H. T., Nguyen-Thi T. A. A review: preprocessing techniques and data augmentation for sentiment analysis // Computational Social Networks. 2021. Vol. 8, N 1. P. 1—16. DOI: 10.1186/s40649-020-00080-x.
Perepelkina O., Kazimirova E., Konstantinova M. RAMAS: Russian multimodal corpus of dyadic interaction for affective computing // Intern. Conf. on Speech and Computer. Springer, Cham, 2018. P. 501—510. DOI: 10.1007/978-3-319-99579-3_52.
Двойникова А. А., Верхоляк О. В., Карпов А. А. Сентимент-анализ разговорной речи при помощи метода, основанного на тональных словарях // Альманах научных работ молодых ученых Университета ИТМО. 2020. Т. 3. С. 75—80.
Zadeh A. B., Liang P. P., Poria S., Cambria E., Morency L. P. Multimodal language analysis in the wild: Cmu-mosei dataset and interpretable dynamic fusion graph // Proc. of the 56th Annual Meeting of the Association for Computational Linguistics. 2018. Vol. 1: Long Papers. P. 2236—2246. DOI: 10.18653/v1/p18-1208.

Партнеры

ПОДХОД К АВТОМАТИЧЕСКОМУ РАСПОЗНАВАНИЮ ЭМОЦИЙ В ТРАНСКРИПЦИЯХ РЕЧИ