Лаборатория речевых и многомодальных интерфейсов

Статья в международном журнале Pattern Recognition Letters (Q1)

Наша лаборатория опубликовала статью в международном журнале Pattern Recognition Letters (Scopus, Q1):

Ryumina E., Ryumin D., Axyonov A., Ivanko D., Karpov A. Multi-corpus emotion recognition method based on cross-modal gated attention fusion // Pattern Recognition Letters, 2025, vol. 190, pp. 192–200. (WOS IF=3.3 Q2, Scopus SJR=1.00 Q1 CV & PR; Q2 AI)

В статье предлагается мультикорпусная мультимодальная методика распознавания эмоций с высокой обобщающей способностью, оценённая по протоколу «leave-one-corpus-out». Метод использует по три дообученных энкодера на каждую из модальностей (аудио, видео и текст) и декодер с контекст-независимым «gated attention» для объединения признаков всех трёх модальностей. Исследование проведено на четырёх эталонных корпусах: MOSEI, MELD, IEMOCAP и AFEW. Предложенный метод достигает результатов уровня SOTA на этих корпусах и закладывает первую базовую линию для мультикорпусных исследований. Мы показываем, что из-за богатой эмоциональной выразительности во всех трёх модальностях модели, обученные на MELD, лучше всего обобщают на другие корпуса. Кроме того, аннотации AFEW лучше коррелируют с аннотациями MOSEI, MELD и IEMOCAP и демонстрируют наилучшую межкорпусную производительность, что согласуется с широко признанными теориями базовых эмоций.