ISSN 0021-3454 (печатная версия)
ISSN 2500-0381 (онлайн версия)
Меню

12
Содержание
том 68 / Декабрь, 2025
СТАТЬЯ

DOI 10.17586/0021-3454-2025-68-12-1011-1019

УДК 004.622

МНОГОМОДАЛЬНЫЙ КОРПУС ДАННЫХ ВЗАИМОДЕЙСТВИЯ УЧАСТНИКОВ ВИРТУАЛЬНОЙ КОММУНИКАЦИИ ENERGI

Двойникова А. А.
Санкт-Петербургский Федеральный исследовательский центр РАН, лаборатория речевых и многомодульных интерфейсов; мл. научный сотрудник


Величко А. Н.
Санкт-Петербургский Федеральный исследовательский центр Российской академии наук, Санкт-Петербург, 199178, Российская Федерация; старший научный сотрудник


Карпов А. А.
Санкт-Петербургский Федеральный исследовательский центр Российской академии наук, Санкт-Петербург, 199178, Российская Федерация; профессор, руководитель лаборатории

Ссылка для цитирования : Двойникова А. А., Величко А. Н., Карпов А. А. Многомодальный корпус данных взаимодействия участников виртуальной коммуникации ENERGI // Изв. вузов. Приборостроение. 2025. Т. 68, № 12. С. 1011–1019. DOI: 10.17586/0021-3454-2025-68-12-1011-1019.

Аннотация. Выполнен статистический анализ многомодального корпуса данных ENERGI (ENgagement and Emotion Russian Gathering Interlocutors), содержащего аудиовидеозаписи коммуникации на русском языке группы людей, полученные с использованием системы телеконференций Zoom. Данные корпуса размечены по трем классам: вовлеченности (высокий, средний, низкий) участников в разговор, эмоционального возбуждения (высокий, средний, низкий) и валентности эмоций (положительный, нейтральный, негативный), а также десяти классам коммуникативных жестов. Корпус содержит 6,4 часов видеозаписей групповых коммуникаций участников, всего 18 уникальных дикторов; разметка данных выполнена на 10-секундных временных интервалах. Преимущества ENERGI относительно других корпусов заключаются в многомодальности, русскоязычности, разнообразии дикторов, естественных условиях записи данных и расширенной аннотации по нескольким параметрам поведения участников коммуникации. Корпус может быть использован для разработки многомодальной автоматической системы анализа поведенческих аспектов участников групповой виртуальной коммуникации.
Ключевые слова: корпус данных, вовлеченность участников, эмоциональное возбуждение, валентность эмоций, коммуникативные жесты

Благодарность: работа выполнена в рамках бюджетной темы СПб ФИЦ РАН № FFZF-2025-0003.

Список литературы:
  1. Уздяев М. Ю., Карпов А. А. Создание и анализ многомодального корпуса данных для автоматического распоз- навания агрессивного поведения людей // Научно-технический вестник информационных технологий, меха- ники и оптики. 2024. Т. 24, № 5. С. 834–842.
  2. Gupta A., Balasubramanian V. Daisee: Towards user engagement recognition in the wild // arXiv preprint arXiv:1609.01885. 2016.
  3. Ben-Youssef A., Clavel C., Essid S. et al. UE-HRI: a new dataset for the study of user engagement in spontaneous human-robot interactions // Proc. of the 19th ACM Intern. Conf. on Multimodal Interaction (ICMI). 2017. P. 464–472. DOI: 10.1145/3136755.3136814.
  4. Del Duchetto F., Baxter P., Hanheide M. Are you still with me? Continuous engagement assessment from a robot’s point of view // Frontiers in Robotics and AI. 2020. Vol. 7. DOI: 10.3389/frobt.2020.00116.
  5. Kaur A., Mustafa A., Mehta L., Dhall A. Prediction and localization of student engagement in the wild // 2018 Digital Image Computing: Techniques and Applications (DICTA). 2018. P. 1–8. DOI: 10.1109/DICTA.2018.8615851.
  6. Delgado K., Origgi J. M., Hasanpoor T. et al. Student engagement dataset // Proc. of the IEEE/CVF Intern. Conf. on Computer Vision. 2021. P. 3628–3636.
  7. Чураев Е. Н. Персонализированные модели распознавания психоэмоционального состояния и вовлеченности лиц по видео: автореф. дис. … канд. тех. наук. СПб, 2025. 134 с.
  8. Karimah S. N., Hasegawa S. Automatic engagement estimation in smart education/learning settings: a systematic review of engagement definitions, datasets, and methods // Smart Learning Environments. 2022. Vol. 9, N 1. P. 31. DOI: 10.1186/s40561-022-00212-y.
  9. Celiktutan O., Skordos E., Gunes H. Multimodal human-human-robot interactions (mhhri) dataset for studying personality and engagement // IEEE Transactions on Affective Computing. 2017. Vol. 10, N 4. P. 484–497. DOI: 10.1109/TAFFC.2017.2737019.
  10. Pabba C., Kumar P. An intelligent system for monitoring students’ engagement in large classroom teaching through facial expression recognition // Expert Systems. 2022. Vol. 39, N 1. P. e12839. DOI: 10.1111/exsy.12839.
  11. Chatterjee I., Goršič M., Clapp J. D., Novak D. Automatic estimation of interpersonal engagement during naturalistic conversation using dyadic physiological measurements // Frontiers in Neuroscience. 2021. Vol. 15. P. 757381. DOI: 10.3389/fnins.2021.757381.
  12. Sümer Ö., Goldberg P., D’Mello S. et al. Multimodal engagement analysis from facial videos in the classroom // IEEE Transactions on Affective Computing. 2021. Vol. 14, N 2. P. 1012–1027. DOI: 10.1109/TAFFC.2021.3127692.
  13. Vanneste P., Oramas J., Verelst T. et al. Computer vision and human behaviour, emotion and cognition detection: A use case on student engagement // Mathematics. 2021. Vol. 9, N 3. P. 287. DOI: 10.3390/math9030287.
  14. Dresvyanskiy D., Sinha Y., Busch M. et al. DyCoDa: A multi-modal data collection of multi-user remote survival game recordings // Speech and Computer. SPECOM 2022. Lecture Notes in Computer Science. 2022. P. 163–177. DOI: 10.1007/978-3-031-20980-2_15.
  15. Cafaro A., Wagner J., Baur T. et al. The NoXi database: multimodal recordings of mediated novice-expert interactions // Proc. of the ICMI. 2017. P. 350–359. DOI: 10.1145/3136755.3136780.
  16. Busso C., Bulut M., Lee C. C. et al. IEMOCAP: Interactive emotional dyadic motion capture database // Language resources and evaluation. 2008. Vol. 42, N 4. P. 335–359. DOI: 10.1007/s10579-008-9076-6.
  17. Ringeval F., Sonderegger A., Sauer J., Lalanne D. Introducing the RECOLA multimodal corpus of remote collaborative and affective interactions // 10th IEEE Intern. Conf. and Workshops on Automatic Face and Gesture Recognition (FG). 2013. P. 1–8. DOI: 10.1109/FG.2013.6553805.
  18. Kossaifi J., Walecki R., Panagakis Y. et al. Sewa db: A rich database for audio-visual emotion and sentiment research in the wild // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2019. Vol. 43, N 3. P. 1022–1040. DOI: 10.1109/TPAMI.2019.2944808.
  19. Двойникова А. А. Аналитический обзор многомодальных корпусов данных для распознавания эмоций // Альманах научных работ молодых ученых Университета ИТМО. 2023. Т. 1. С. 251–256.
  20. Свид. о рег. № 2023624954. База данных проявлений вовлеченности и эмоций русскоязычных участников те- леконференций (ENERGI — ENgagement and Emotion Russian Gathering Interlocutors), А. А. Карпов, А. А. Двойникова. 03.11.2023.
  21. Двойникова А. А., Карпов А. А. Методика создания многомодальных корпусов данных для аудиовизуального анализа вовлеченности и эмоций участников виртуальной коммуникации // Изв. вузов. Приборостроение. 2024. Т. 67, № 11. С. 984–993. DOI: 10.17586/0021-3454-2024-67-11-984-993.
  22. Sloetjes H., Wittenburg P. Annotation by category-ELAN and ISO DCR // Proc. of the 6th Intern. Conf. on Language Resources and Evaluation (LREC 2008). 2008.
  23. Люсин Д. В. Новая методика для измерения эмоционального интеллекта: опросник ЭмИн // Психологическая диагностика. 2006. Т. 4. С. 3–22.