DOI 10.17586/0021-3454-2024-67-11-984-993
УДК 004.048
МЕТОДИКА СОЗДАНИЯ МНОГОМОДАЛЬНЫХ КОРПУСОВ ДАННЫХ ДЛЯ АУДИОВИЗУАЛЬНОГО АНАЛИЗА ВОВЛЕЧЕННОСТИ И ЭМОЦИЙ УЧАСТНИКОВ ВИРТУАЛЬНОЙ КОММУНИКАЦИИ
Санкт-Петербургский Федеральный исследовательский центр РАН, лаборатория речевых и многомодульных интерфейсов; мл. научный сотрудник
Карпов А. А.
Санкт-Петербургский Федеральный исследовательский центр Российской академии наук, Санкт-Петербург, 199178, Российская Федерация; профессор, руководитель лаборатории
Ссылка для цитирования : Двойникова А. А., Карпов А. А. Методика создания многомодальных корпусов данных для аудиовизуального анализа вовлеченности и эмоций участников виртуальной коммуникации // Изв. вузов. Приборостроение. 2024. Т. 67, № 11. С. 984–993. DOI: 10.17586/0021-3454-2024-67-11-984-993.
Аннотация. Представлена методика создания многомодальных корпусов данных, предназначенных для анализа поведенческих проявлений участников виртуальной коммуникации. Предложенная методика направлена на создание корпусов данных групповой коммуникации (более двух собеседников) с использованием систем телеконференций и учитывает особенности естественных проявлений поведенческих аспектов (вовлеченности и эмоций) участников разговора. Выделенные особенности составляют новизну предложенной методики. Методика состоит из трех основных этапов — подготовительного, записи и аннотирования данных. Методика была апробирована и валидирована при создании нового многомодального корпуса данных ENERGI, содержащего русскоязычные аудиовизуальные записи групповой коммуникации участников с помощью систем телеконференций. Созданный корпус предназначен для решения задач распознавания вовлеченности участников в коммуникацию, а также анализа проявления эмоций во время диалога. Предложенная методика является универсальной и может быть применима для сбора различных корпусов данных виртуальной коммуникации.
Аннотация. Представлена методика создания многомодальных корпусов данных, предназначенных для анализа поведенческих проявлений участников виртуальной коммуникации. Предложенная методика направлена на создание корпусов данных групповой коммуникации (более двух собеседников) с использованием систем телеконференций и учитывает особенности естественных проявлений поведенческих аспектов (вовлеченности и эмоций) участников разговора. Выделенные особенности составляют новизну предложенной методики. Методика состоит из трех основных этапов — подготовительного, записи и аннотирования данных. Методика была апробирована и валидирована при создании нового многомодального корпуса данных ENERGI, содержащего русскоязычные аудиовизуальные записи групповой коммуникации участников с помощью систем телеконференций. Созданный корпус предназначен для решения задач распознавания вовлеченности участников в коммуникацию, а также анализа проявления эмоций во время диалога. Предложенная методика является универсальной и может быть применима для сбора различных корпусов данных виртуальной коммуникации.
Ключевые слова: методика создания корпусов данных, многомодальный корпус, анализ вовлеченности, анализ эмоций, аннотирование данных, виртуальная коммуникация
Благодарность: работа выполнена в рамках бюджетной темы № FFZF-2022-0005.
Список литературы:
Благодарность: работа выполнена в рамках бюджетной темы № FFZF-2022-0005.
Список литературы:
- Ткаченя А. В., Давыдов А. Г., Киселёв В. В., Хитров М. В. Классификация эмоционального состояния диктора с использованием метода опорных векторов и критерия Джини // Изв. вузов. Приборостроение. 2013. Т. 56, № 2. С. 61–66.
- Cafaro A., Wagne, J., Baur T., Dermouche S., Torres Torres M. et al. The NoXi database: multimodal recordings of mediated novice-expert interactions // Proc. of the 19th ACM Intern. Conf. on Multimodal Interaction. 2017. P. 350–359. DOI: 10.1145/3136755.313678.
- Guhan P., Agarwal M., Awasthi N., Reeves G., Manocha D. et al. ABC-Net: Semi-Supervised Multimodal GAN-based Engagement Detection using an Affective, Behavioral and Cognitive Model // arXiv preprint arXiv:2011.08690. 2020.
- Celiktutan O., Skordos E., Gunes H. Multimodal human-human-robot interactions (MHHRI) dataset for studying personality and engagement //IEEE Trans. on Affective Computing. 2017. Vol. 10, N 4. P. 484–497. DOI: 10.1109/ TAFFC.2017.2737019.
- Ringeval F., Sonderegger A., Sauer J., Lalanne D. Introducing the RECOLA multimodal corpus of remote collaborative and affective interactions // Proc. of the 10th IEEE Intern. Conf. and Workshops on Automatic Face and Gesture Recognition. 2013. P. 1–8. DOI: 10.1109/FG.2013.6553805.
- Kaur A., Mustafa A., Mehta L., Dhall A. Prediction and localization of student engagement in the wild // Digital Image Computing: Techniques and Applications (DICTA). 2018. P. 1–8. DOI: 10.1109/DICTA.2018.8615851.
- Gupta A., D’Cunha A., Awasthi K., Balasubramanian V. DAiSEE: Towards user engagement recognition in the wild // arXiv preprint arXiv:1609.01885. 2016.
- Sümer Ö., Goldberg P., D’Mello S., Gerjets P., Trautwein U., Kasneci E. Multimodal engagement analysis from facial videos in the classroom // IEEE Trans. on Affective Computing. 2021. Vol. 14, N 2. P. 1012–1027. DOI: 10.1109/ TAFFC.2021.3127692.
- Whitehill J., Serpell Z., Lin Y. C., Foster A., Movellan J. R. The faces of engagement: Automatic recognition of student engagementfrom facial expressions // IEEE Trans. on Affective Computing. 2014. Vol. 5, N 1. P. 86–98. DOI: 10.1109/ TAFFC.2014.2316163.
- Psaltis A., Apostolakis K. C., Dimitropoulos K., Daras P. Multimodal student engagement recognition in prosocial games // IEEE Trans. on Games. 2017. Vol. 10, N 3. P. 292–303. DOI: 10.1109/TCIAIG.2017.2743341.
- Двойникова А. А., Кагиров И. А., Карпов А. А. Аналитический обзор методов автоматического распознавания вовлеченности пользователя в виртуальную коммуникацию // Информационно-управляющие системы. 2022. № 5(120). С. 12–22. DOI: 10.31799/1684-8853-2022-5-12-22.
- Двойникова А. А., Маркитантов М. В., Рюмина Е. В., Уздяев М. Ю., Величко А. Н. и др. Анализ информацион- ного и математического обеспечения для распознавания аффективных состояний человека // Информатика и автоматизация. 2022. Т. 21, № 6. С. 1097–1144. DOI: 10.15622/ia.21.6.2.
- Dhall A., Goecke R., Gedeon T. Collecting large, richly annotated facial-expression databases from movies // Journal of Latex Class Files. 2007. Vol. 6, N 1.
- Kollias D., Zafeiriou S. Aff-wild2: Extending the aff-wild database for affect recognition // arXiv preprint arXiv:1811.07770. 2018.
- Busso C., Bulut M., Lee C. C., Kazemzadeh A., Mower E. et al. IEMOCAP: Interactive emotional dyadic motion capture database // Language Resources and Evaluation. 2008. Vol. 42, N 4. P. 335–359. DOI: 10.1007/s10579-008- 9076-6.
- Poria S., Hazarika D., Majumder N., Naik G., Cambria E. et al. Meld: A multimodal multi-party dataset for emotion recognition in conversations // Proc. of the 57th Annual Meeting of the Association for Computational Linguistics. 2019. P. 527–536.
- Zadeh A. B., Liang P. P., Poria S., Cambria E., Morency L. P. Multimodal Language Analysis in the Wild: CMU- MOSEI Dataset and Interpretable Dynamic Fusion Graph // Proc. of the 56th Annual Meeting of the Association for Computational Linguistics. 2018. P. 2236–2246. DOI: 10.18653/v1/P18-1208.
- Perepelkina O., Kazimirova E., Konstantinova M. RAMAS: Russian multimodal corpus of dyadic interaction for affective computing // Proc. of the Intern. Conf. on Speech and Computer. 2018. P. 501–510. DOI: 10.1007/978-3- 319-99579-3_52.
- Jones S. R. G. Was there a Howthorne effect? // American Journal of Sociology. 1992. Vol. 98, N 3. P. 451–468.
- Viola P., Jones M. Rapid Object Detection using a Boosted Cascade of Simple Features // Proc. of the IEEE Computer Society Conf. on Computer Vision and Pattern Recognition. (CVPR). 2001. Vol. 1. P. I–I. DOI: 10.1109/ CVPR.2001.990517.
- Pat. 3069654 USA. Method and means for recognizing complex patterns / P. V. C. Hough. 1962 [Электронный ре- сурс]: https://patents.google.com/patent/US3069654.
- Lausberg H., Sloetjes H. Coding gestural behavior with the NEUROGES-ELAN system // Behavior Research Methods. 2009. Vol. 41, N 3. P. 841–849. DOI: 10.3758/BRM.41.3.841.
- Люсин Д. В. Новая методика для измерения эмоционального интеллекта: опросник ЭмИн // Психологическая диагностика. 2006. Т. 4. С. 3–22.
- Люсин Д. В., Овсянникова В. В. Измерение способности к распознаванию эмоций с помощью видеотеста // Психологический журнал. 2013. Т. 34, № 6. С. 82–94.
- Свид. о рег. № 2023624954. База данных проявлений вовлеченности и эмоций русскоязычных участников те- леконференций (ENERGI — ENgagement and Emotion Russian Gathering Interlocutors) / А. А. Двойникова, А. А. Карпов. 25.12.2023.