Лаборатория речевых и многомодальных интерфейсов

Интеллектуальная система многомодального распознавания аффективных состояний человека

Данный междисциплинарный проект РНФ направлен на решение задач многомодального анализа и распознавания аффективных состояний людей по их поведению с использованием современных методов цифровой обработки сигналов и глубокого машинного обучения. Проблема аффективных вычислений является очень актуальной и значимой с научно-технической и практической точек зрения. В этой области имеется множество нерешенных проблем, при этом практическое применение систем распознавания аффективных состояний человека исключительно по одномодальным данным (например, только по аудио- или видеоданным) имеет ряд существенных ограничений. Наиболее естественным способом взаимодействия и обмена информацией для человека является многомодальное общение, которое задействует несколько модальностей (каналов взаимодействия) одновременно, в том числе естественную речь и звуки, мимику и артикуляцию лица, жесты рук и тела, направление взгляда, общее поведение, текстовую информацию и т.д. Многомодальные системы анализа аффективных состояний человека имеют значительные преимущества перед одномодальными методами, позволяя проводить анализ в сложных условиях зашумленности одного из каналов передачи информации (акустический шум или недостаток освещения), а также при полном отсутствии информации в одном из каналов (человек молчит или не обращен к камере). Кроме того, многомодальный анализ позволяет зачастую распознавать и такие неоднозначные аффективные явления, как сарказм и ирония, которые характеризуются явным несовпадением смысла высказывания (анализ текста) с интонацией голоса (анализ аудио) и мимикой лица (анализ видео). Поэтому одновременный анализ нескольких составляющих человеческого поведения (речь, мимика, жесты, направление взгляда, текстовые транскрипции высказываний) позволит повысить качество работы и точность распознавания автоматических систем анализа аффективных состояний в таких задачах, как распознавание эмоций, сентимента, агрессии, депрессии и т.д. Все эти задачи имеют важное практическое значение в области технологий эмоционального искусственного интеллекта (Emotional AI), а также в психологии, медицине, банковской сфере, судебно-криминалистической сфере, когнитивных науках и т.д. Они имеют высокую научно-техническую, а также социальную и экономическую значимость.

Основной целью данного проекта РНФ является разработка и исследование новой интеллектуальной компьютерной системы для многомодального анализа поведения людей с целью распознавания проявленных аффективных состояний на основе аудио, видео и текстовых данных от человека. Особенностью системы будет являться то, что она сможет осуществлять многомодальный анализ, т.е. одновременно автоматически анализировать речь и видеоданные пользователя, а также смысл его высказываний на предмет определения различных психоэмоциональных (аффективных) состояний человека, в том числе эмоций, сентимента, агрессии и депрессии. При этом целевая аудитория разрабатываемой автоматической системы будет включать не только русскоязычное население, а любого человека вне зависимости от пола, возраста, расовой принадлежности и языка. Таким образом, данное исследование является актуальным и масштабным как в рамках российской, так и мировой науки.

Основными задачами данного проекта являются разработка, теоретические и экспериментальные исследования математического, программного и информационно-лингвистического обеспечения для перспективной интеллектуальной системы многомодального анализа аффективного поведения людей.

Для достижения основной цели проекта должны быть решены указанные задачи, сведенные в 3 последовательных этапа работ:

разработка информационно-лингвистического и математического обеспечения для интеллектуальной системы многомодального анализа аффективных состояний (2022 г.);
разработка и исследование математического и программного обеспечения для интеллектуальной системы многомодального анализа аффективных состояний (2023 г.);
экспериментальные исследования и оценивание интеллектуальной системы многомодального анализа аффективных состояний, разработка демонстратора системы и обобщение результатов (2024 г.).

Результаты за 2024 год

На заключительном этапе разработано и исследовано математическое и программное обеспечения для обработки многомодальных данных, создана интеллектуальная система анализа аффективных состояний человека, выполняющая распознавание одновременно нескольких аффективных состояний. Получены следующие основные научные результаты:

Метод распознавания вербальной и физической агрессии на основе механизма маскированного самовнимания. Механизм самовнимания посредством формирования специальной маски исключает из обработки определенные векторы признаков отсутствующих модальностей. Данный метод учитывает особенности сочетания различных модальностей и корректно обрабатывает ситуации с отсутствующими модальностями, что позволяет гибко реагировать на условия, встречающиеся в реальных задачах анализа аффективных состояний.
Метод распознавания депрессии на основе трех типов признаков: акустических (DenseNet), визуальных (OpenFace) и текстовых (Word2Vec). Для классификации используются детерминированные методы классификации, такие как Catboost, а итоговое решение принимается посредством голосования.
Метод многозадачного распознавания эмоций и сентимента, основанный на стратегии тройного объединения, которая учитывает высокоуровневые признаки (wav2vec2, EmoAffectNet, RoBERTa) всех модальностей. Моделирование эмоций и сентимента происходит с помощью трансформер слоев. Разработанный метод позволил одновременно решать задачи распознавания эмоций и сентимента, оптимально используя вычислительные ресурсы и улучшая обобщающие способности модели.
Метод иерархического распознавания эмоций, сентимента и депрессии, в основе которого лежит двухуровневый подход, интегрирующий методы многомодального распознавания депрессии, эмоций и сентимента. На первом уровне происходит распознавание эмоций и сентимента, которые затем передаются в качестве признаков на второй уровень, где выполняется бинарное распознавание депрессии. В иерархическом методе эмоции и сентимент рассматриваются как факторы, влияющие на распознавание депрессии, поскольку наличие депрессии часто связано со стойкой негативной эмоциональностью и снижением позитивных реакций.

Проведены экспериментальные исследования по классификации эмоций и сентимента (на корпусах RAMAS, MELD, CMU-MOSEI), агрессии (AVABOS) и депрессии (CMDC, MENHIR, DAIC):

Для распознавания агрессии исследование различных сочетаний модальностей показало важность выбора исходной модальности для конкретного вида агрессии (текст для вербальной, видео для физической). Введение дополнительной модальности позволило увеличить точность распознавания физической и вербальной агрессии при условии, что изначальная модальность для соответствующего вида агрессии показывает высокие результаты распознавания.
Для анализа депрессии основное внимание уделено поиску оптимальных параметров, размера временного окна и типов признаков, а также сравнению классификаторов. Эксперименты с видеоданными показали, что признаки OpenFace в сочетании с деревьями решений, являются наиболее эффективным представлением данных. В экспериментах с текстовыми данными метод Catboost с признаками Word2Vec оказался наилучшим, поскольку обеспечил сбалансированные результаты распознавания. Итоговый результат объединения модальностей подтверждает эффективность и сопоставимость с мировыми исследованиями, демонстрируя сбалансированные результаты классификации между классами.
Для многозадачной классификации эмоций и сентимента выполнено сравнение эффективности темпоральных моделей: трансформер моделей, Mamba и xLSTM. Выполнено сравнение четырех стратегий объединения многомодальных данных. Лучшую среднюю точность распознавания показала стратегия тройного объединения TFS, которая использует все три модальности в равной степени.
Для задачи иерархического распознавания эмоций, сентимента и депрессии проведены экспериментальные исследования. Из-за ограничений корпуса DAIC нами использованы только аудио и текстовые данные. При добавлении информации о сентименте удалось улучшить результаты распознавания депрессии с использованием аудио и текстовых данных относительно базового метода без учета эмоций и сентимента.

Сравнение разработанных методов с известными в литературе показало высокую эффективность стратегий объединения многомодальных данных с использованием механизмов внимания. Предложенные методы продемонстрировали конкурентоспособную и/или превосходящую точность распознавания аффективных состояний. Эксперименты подтвердили, что совместный анализ акустических, визуальных и текстовых признаков позволяет более глубоко смоделировать природу аффективных состояний и повысить надежность распознавания.

Разработанная интеллектуальная система зарегистрирована в Роспатенте в виде программы для ЭВМ «Интеллектуальная система многомодального анализа аффективных состояний человека». Она представляет собой многомодальную и многозадачную систему распознавания эмоций и сентимента, реализованную как веб-приложение. Система MASAI работает с мультимедийными файлами, которые можно загрузить с локального компьютера или записать с помощью веб-камеры и микрофона, и размещена на платформе Hugging Face.

Принято участие в соревнованиях по анализу аффективного поведения в натурных условиях ABAW при конференции CVPR 2024. Наша объединенная международная команда приняла участие в двух конкурсах по оцениванию валентности/активации эмоций, и распознаванию составных эмоций. В первом конкурсе нами предложен аудиовизуальный метод на основе акустической PDEM модели и визуальной модели EfficientNet для анализа лица человека, а также нескольких стратегий объединения акустических и визуальных признаков. Во втором конкурсе предложенный нами метод AVCER решал задачу распознавания составных эмоций. Метод комбинирует акустическую модель (wav2vec2) и две визуальных модели (статическая ResNet-50 и LSTM) для распознавания базовых эмоций. Решение о распознавании составных эмоций принимается на основе попарной суммы взвешенных распределений вероятностей базовых эмоций.

Опубликован цикл из 6 научных работ в изданиях и журналах, индексируемых в международных системах Scopus, Web of Science и RSCI, в том числе, в российских журналах “Информатика и автоматизация”, “Научно-технический вестник информационных технологий, механики и оптики” и “Информационно-управляющие системы”, а также в трудах конференций CVPR Workshops 2024 и SPECOM 2024.

Адреса ресурсов в Интернете, подготовленных Проекту:

Величко А. Н., Карпов А. А. Подход к распознаванию депрессии по речи человека с использованием полуавтоматической разметки данных // Информационно-управляющие системы, 2024, №. 4, С. 2-11.
Двойникова А. А., Кагиров И. А., Карпов А. А. Метод распознавания сентимента и эмоций в транскрипциях русскоязычной речи с использованием машинного перевода // Информатика и автоматизация, № 23(4), С. 1173-1198.
Уздяев М.Ю., Карпов А.А. Создание и анализ многомодального корпуса данных для автоматического распознавания агрессивного поведения людей // Научно-технический вестник информационных технологий, механики и оптики, 2024, Т. 24, № 5, С. 834-842.
Dresvyanskiy D., Markitantov M., Yu J., Kaya H., Karpov A. Multi-modal Arousal and Valence Estimation under Noisy Conditions // In Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2024, pp. 4773-4783.
Ryumina E., Markitantov M., Ryumin D., Kaya H., Karpov A. Zero-Shot Audio-Visual Compound Expression Recognition Method based on Emotion Probability Fusion // In Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2024, pp. 4752-4760.
Mamontov D., Zepf S., Karpov A., Minker W. Cross-Cultural Automatic Depression Detection Based on Audio Signals // In Proc. of International Conference on Speech and Computer (SPECOM), 2025, pp. 309-323.
Программа для ЭВМ «Интеллектуальная система многомодального анализа аффективных состояний человека (MASAI – Intelligent system for Multimodal Affective States Analysis)», авторы: Рюмин Д.А., Маркитантов М.В., Рюмина Е.В., Двойникова А.А., Карпов А.А., правообладатель: СПб ФИЦ РАН, дата регистрации: 02.11.2024, рег. номер: 2024685861
Веб-приложение демонстратора «Интеллектуальная система многомодального анализа аффективных состояний человека (MASAI – Intelligent system for Multimodal Affective States Analysis)»

Результаты за 2023 год

В 2023 году выполнен 2-й этап проекта, связанный с разработкой и исследованием математического и программного обеспечения для обработки отдельных модальностей (аудио, видео, текст), а также созданием бимодальных моделей (аудио+видео и аудио+текст) интеллектуальной системы анализа аффективных состояний человека.

Усовершенствованы методы классификации и регрессии для анализа отдельных аффективных состояний с использованием одномодальных данных: бинарной классификации агрессии (отсутствие или наличие состояния) по аудиоданным; классификации сентимента на три (отрицательный, нейтральный, положительный) и два класса (отрицательный, положительный) класса по текстовым данным; бинарной классификации агрессии (отсутствие или наличие), эмоций (злость, печаль, страх, отвращение, счастье, нейтральное состояние). Проведены экспериментальные исследования по автоматическому распознаванию агрессии (на корпусе AVABOS), сентимента (CMU-MOSEI), эмоций (CREMA-D) для подбора наиболее эффективных нейросетевых признаков, а также моделей с рекуррентными, полносвязными и слоями с механизмами внимания (МВ) для их моделирования и анализа.

Предложен иерархический метод для бинарной классификации лжи (ложность или истинность информации), агрессии (низкий, средний или высокий уровень) и депрессии (наличие или отсутствие признаков заболевания) с использованием аудиоданных. При его разработке использовался теоретический базис корреляции между рассматриваемыми паралингвистическими явлениями: результаты классификации методов распознавания агрессии и лжи являются входными данными метода определения депрессии. Предложена методика интегрального оценивания степени выраженности деструктивных явлений в речи. Проведены экспериментальные исследования по автоматическому распознаванию лжи (на корпусе DSD), депрессии (DAIC) и агрессии (SD&TR).

Предложены многозадачные методы для одновременной классификации эмоций (удивление, злость, печаль, страх, отвращение, счастье) и сентимента (отрицательный, нейтральный, положительный) с использованием одномодальных данных (аудио, видео, текст). Проведены экспериментальные исследования по многозадачному распознаванию эмоций и сентимента (на корпусах RAMAS и CMU-MOSEI), с обучением на однокорпусных/многокорпусных данных, в том числе:

с использованием аудиоданных выполнено сравнение эффективности моделей-трансформеров для извлечения акустических признаков, которые затем обрабатывались моделью на основе GRU. Наиболее эффективной оказалась нейросетевая модель EW2V, которая превзошла другие модели в среднем на 3,5%. Комбинирование МВ и рекуррентных слоев также внесло положительный вклад в точность распознавания. Предложенный метод для распознавания эмоций превзошел современные результаты на корпусе CMU-MOSEI на 3,3% по показателю mWAcc;
с использованием текстовых данных выполнено сравнение эффективности моделей-трансформеров для извлечения лингвистических признаков, которые затем обрабатывались моделью с МВ. Наиболее эффективными признаками оказались лингвистические признаки RoBERTa, которые превзошли другие признаки в среднем на 2%. Лучший набор признаков обрабатывался двумя идентичными нейронными сетями с МВ (для эмоций и сентимента). Наилучший метод, основанный на данных признаках и нейронной сети с МВ, превзошел другие в среднем на 3%. Это связано с различными процедурами обучения исходных моделей-трансформеров. Предложенный метод для распознавания эмоций превзошел современные результаты на корпусе CMU-MOSEI на 6,6% (mWAcc);
с использованием видеоданных выполнено сравнение эффективности визуальных признаков, которые обрабатывались моделью типа LSTM. Наиболее эффективными признаками оказались EmoFF, которые превзошли другие в среднем на 2,4%. EmoFF способны выявлять сложные нелинейные зависимости и особенности лица. Предложенный метод для распознавания эмоций превзошел современные результаты на корпусе CMU-MOSEI на 7,2% (mWAcc).

Предложены многозадачные методы для классификации одновременно эмоций (удивление, злость, печаль, страх, отвращение, счастье) и сентимента (отрицательный, нейтральный, положительный) с использованием бимодальных данных (аудио+видео, аудио+текст). Проведены экспериментальные исследования по распознаванию одновременно эмоций и сентимента (на корпусах RAMAS и CMU-MOSEI):

с использованием аудио- и видеоданных выполнено сравнение эффективности различных методов объединения модальностей. Предложен метод CMGSAF основанный на использовании статистических функционалов, полносвязных слоев и двух последовательных слоев внимания. CMGSAF превзошел рассмотренные классические методы объединения модальностей на 2,2%. Из результатов видно, что для RAMAS видео эффективнее аудиоданных, тогда как для CMU-MOSEI верно обратное. CMGSAF превзошел другие современные методы в задаче распознавания эмоций на корпусе RAMAS на 0,7% (UAR) и на корпусе CMU-MOSEI - на 18,2% (mWAcc) и 1,6% (mWF1);
с использованием аудио и текстовых данных выполнено сравнение эффективности методов объединения модальностей. Предложен метод FCF основанный на конкатенации признаков, которые обрабатываются двумя идентичными нейронными сетями с МВ (для эмоций и сентимента). FCF превзошел другие методы объединения модальностей на 1%, включая объединение, основанное на МВ. Из результатов видно, что аудиоданные эффективнее текстовых при распознавании эмоций, тогда как для сентимента верно обратное. Метод FCF превзошел другие современные методы в задаче распознавания эмоций на 2,82% (mWAcc) и 0,7% (mWF1) и в задаче распознавания сентимент-анализа на 7,13% (Acc) и 6,06% (WF1) на корпусе CMU-MOSEI.

Результаты показывают, что для распознавания эмоций эффективнее использовать аудио- и видеоданные, в то время как для сентимент-анализа текстовые данные более информативны.

Разработаны и зарегистрированы в Роспатенте две программы для ЭВМ: 1) Программный комплекс для аудиовизуального распознавания эмоций и сентимента (Audio-Visual Emotions and Sentiment Recognition - AVESR); 2) Программный комплекс для иерархического распознавания деструктивных явлений в речи (Destructive Behaviour Detection - DesBDet). AVESR с использованием веб-камеры может выполнять распознавание эмоций (удивление, злость, печаль, страх, отвращение, счастье) и сентимента (отрицательный, нейтральный, положительный) в режиме реального времени. DesBDet выполняет иерархическое распознавание деструктивных явлений (ложной или истинной информации, уровня агрессии и отсутствия/наличия депрессии) в речи. Программы могут записывать аудиофайлы с помощью микрофона или считывать их с диска. Модели программных комплексов характеризуются хорошей обобщающей способностью за счет применения кросс-корпусных моделей обучения, быстротой срабатывания, а также высокой точностью распознавания.

В 2023 году опубликован цикл из 7 научных работ в изданиях и журналах, индексируемых в международных системах цитирования Scopus, Web of Science и RSCI, в том числе, в международном журнале Mathematics (Q1 WoS), в российских журналах “Информационно-управляющие системы” (Scopus) и “Известия высших учебных заведений. Приборостроение” (RSCI), а также в трудах юбилейной 25-й Международной конференции "Speech and Computer" SPECOM-2023 (Дхарвад, Индия); 7-й Международной научной конференции "Интеллектуальные информационные технологии в технике и на производстве" IITI-2023 (Санкт-Петербург, приглашенный доклад А.А. Карпова); 29-й Международной конференции по компьютерной лингвистике и интеллектуальным технологиям ДИАЛОГ-2023 (Москва); 5-й Международной конференции по методам фотограмметрии и компьютерного зрения для видеонаблюдения, биометрии и биомедицины PSBB-2023 (Москва).

Адреса ресурсов в Интернете, подготовленных Проекту:

Ryumina E., Markitantov M., Karpov A. Multi-Corpus Learning for Audio-Visual Emotions and Sentiment Recognition // Mathematics, 2023, vol. 11(16), ID 3519.
Ryumina E., Karpov A. Impact of visual modalities in multimodal personality and affective computing // The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2023, vol. XLVIII-2/W3-2023, pp. 217–224.
Karpov A., Dvoynikova A., Ryumina E. Intelligent Interfaces and Systems for Human-Computer Interaction // In Proc. of 7th International Conference «Intelligent Information Technologies for Industry» IITI 2023, St. Petersburg, Springer, Lecture Notes in Networks and Systems LNNS, 2023, vol. 776, pp. 3-13.</li
Dvoynikova A., Karpov A. Bimodal sentiment and emotion classification with multi-head attention fusion of acoustic and linguistic information // Computational Linguistics and Intellectual Technologies. In Proc. of 29th International Conference DIALOGUE-2023, Moscow, 2023, pp. 51-61.
Величко А. Н., Карпов, А. А. Методика и программная система интегрального анализа деструктивных паралингвистических явлений в разговорной речи // Информационно-управляющие системы, 2023, № 4, C. 2-11.
Ivanko D., Ryumina E., Ryumin D., Axyonov A., Kashevnik A., Karpov A. EMO-AVSR: Two-Level Approach for Audio-Visual Emotional Speech Recognition // In Proc. of SPECOM 2023, 2023, Springer LNCS vol. 14338, pp 1-14.
Двойникова А.А., Кондратенко К.О. Подход к автоматическому распознаванию эмоций в транскрипциях речи // Изв. вузов. Приборостроение, 2023, Т. 66, № 10, С. 818-827.
Программа для ЭВМ «Программный комплекс для аудиовизуального распознавания эмоций и сентимента (Audio-Visual Emotions and Sentiment Recognition - AVESR)», авторы: Маркитантов М.В., Рюмина Е.В., Карпов А.А., правообладатель: СПб ФИЦ РАН, дата регистрации: 03.11.2023, рег. номер: 023683228
Программа для ЭВМ «Программный комплекс для иерархического распознавания деструктивных явлений в речи (Destructive Behaviour Detection - DesBDet)», авторы: Величко А.Н., Карпов А.А., правообладатель: СПб ФИЦ РАН, дата регистрации: 03.11.2023, рег. номер: 2023683229

Результаты за 2022 год

В 2022 году выполнен 1-й этап проекта, связанный с разработкой и исследованием метематического и информационно-лингвистического обеспечения интеллектуальной системы многомодального распознавания аффективных состояний человека.

Выполнен аналитический обзор современной научно-технической литературы по теме многомодального моделирования аудиовизуальных сигналов для анализа аффективных состояний. Можно сделать вывод, что нейросетевые методы постепенно вытесняют традиционные за счет достижения большей точности распознавания аффективных состояний и быстрой обработке больших объемов данных. Проведен анализ существующего информационно-лингвистического обеспечения и получены ряд многомодальных корпусов для анализа эмоций (AFEW, AFEW-VA, AffWild2, SEWA, AffectNet); эмоций и сентимента (CMU-MOSEI, MELD); агрессии (части корпусов TR и SD, объединенные в один корпус); депрессии (DAIC).

Собран и размечен аудиовизуальный корпус данных поведенческой агрессии в ходе онлайн трансляций (англ. Audiovisual Aggressive Behavior in Online Streams dataset – AVABOS). Данный корпус содержит видеофайлы, полученные из открытых источников в сети Интернет, на которых присутствует индивидуальное и групповое агрессивное поведение русскоязычных коммуникантов, проявляемое в ходе прямых видеотрансляций. База данных предназначена для автоматического аудиовизуального анализа агрессивного поведения и официально зарегистрирована в Роспатенте, свидетельство № 2022623239 от 05.12.2022.

Разработано новое и усовершенствовано существующее математическое обеспечение для извлечения информативных признаков из аудио, видео и текстовой модальностей в целях моделирования и распознавания отдельных аффективных состояний:

для задачи распознавания эмоций, агрессии и депрессии по аудиомодальности разработан метод, основанный на использовании экспертных и нейросетевых признаков (openSMILE, openXBOW, AuDeep, DeepSpectrum, PANN, Wav2Vec). Проведен анализ влияния качества аннотации данных на эффективность методов классификации эмоций на корпусе RAMAS. Количественное оценивание разработанных методов распознавания эмоций, агрессии и депрессии проводилось на корпусах RAMAS, TR & SD и DAIC, соответственно. Для аудиомодальности разработан комбинированный метод аугментации аудиоданных, основанный на модификации изображений спектрограмм: повороте, изменении масштаба, сдвиге по ширине и высоте, изменении яркости, горизонтальном отражении, растягивании, сжатии, а также SpecAugment;
для распознавания эмоций и сентимента на корпусах RAMAS и CMU-MOSEI с использованием текстовой модальности разработаны и исследованы методы предобработки орфографических текстовых транскрипций (токенизация, удаление пунктуации, понижение регистра, лемматизация для русскоязычных и стемминг для англоязычных данных), а также нейросетевой метод векторизации Word2Vec, преимущество которого заключается в сохранении синтаксической и семантической информации текста после векторизации, небольшой размер векторного пространства и возможности использования различных моделей для русского и английского языков. Для аугментации текстовых данных разработан подход, объединяющий в себе методы модификации текстовых данных: удаление, перестановка, замена слов, перестановка предложений, обратный перевод, генеративные модели и доменную аугментацию;
для распознавания эмоций по видеомодальности разработан метод на основе сверточной нейронной сети ResNet-50, которая обучалась на корпусе AffectNet и способна извлекать текстурные признаки лица разной размерности, которые могут подаваться как на классические детерминированные, так и нейросетевые методы машинного обучения. Разработанный метод также эффективен для задач распознавания других аффективных состояний, в частности, агрессии и депрессии. Для видеомодальности разработан метод аугментации видеоданных, основанный на применении методов модификации изображений: Mixup, аффинных преобразованиях, регулировке контрастности и взвешивании классов.

Известно, что при коммуникации люди используют как вербальные, так и невербальные проявления аффективных состояний (эмоций, сентимента, агрессии, депрессии). При этом смысловое содержание коммуникативного высказывания диктор выражает с помощью вербальной информации, которая является репрезентативной для выражения сентимента или полярности эмоции. При этом интенсивность эмоций отражается в невербальных проявлениях, и лучше передается посредством аудиомодальности, чем видео. Для анализа проявления депрессии эффективнее использовать визуальную и акустическую информацию, лингвистическая информация в данном случае не может в полной мере и однозначно передавать состояние аффективного расстройства и проявления эмоций, однако может показать отрицательную полярность высказывания, которая в свою очередь может играть вспомогательную роль при многомодальном подходе к распознаванию аффективного состояния. Многомодальное распознавание аффективных состояний человека позволяет анализировать проявление вербальной и невербальной информации диктора одновременно и получать достоверную информацию о психологическом состоянии коммуниканта.

По результатам проведенных в 2022 году теоретических и экспериментальных исследований подготовлен и опубликован цикл из 5 научных статей по текущим результатам в изданиях и журналах, индексируемых в международных системах цитирования Scopus, Web of Science и RSCI, в том числе, в российских журналах “Информатика и автоматизация” (Scopus и RSCI) и “Вестник ВГУ. Серия: Системный анализ и информационные технологии” (RSCI), а также в трудах 24-й международной конференции “Speech and Computer” SPECOM (Индия, конференция топ-уровня согласно международному порталу Research.com, 2 статьи опубликованы в серии Springer Lecture Notes in Computer Science), 24-го международного конгресса по акустике International Congress on Acoustics ICA (Корея, престижный конгресс проходит раз в 3 года). Кроме того, представлен приглашенный доклад на 4-й международной конференции по инженерной и прикладной лингвистике «Пиотровские чтения 2022» (Санкт-Петербург).

Адреса ресурсов в Интернете, подготовленных Проекту:

Репортаж Автоматизированные call-центры: путь от IVR до "детектора лжи" Деловой Петербург
Величко А.Н. Разработка метода анализа речевого сигнала для автоматического определения агрессии в разговорной речи // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии, 2022, № 4, С. 1-9.
Dvoynikova A., Markitantov M., Ryumina E., Uzdiaev M., Velichko A., Kagirov I., Kipyatkova I., Lyakso E., Karpov A. An analysis of automatic techniques for recognizing human's affective states by speech and multimodal data // In Proc. of the 24th International Congress on Acoustics ICA-2022, 2022, pp. 22-33.
Двойникова А.А., Маркитантов М.В., Рюмина Е.В., Уздяев М.Ю., Величко А.Н., Рюмин Д.А., Ляксо Е.Е, Карпов А.А. Анализ информационного и математического обеспечения для распознавания аффективных состояний человека // Информатика и автоматизация. 2022, Т. 21, № 6, С. 1097-1144.
Mamontov D., Minker W., Karpov A. Self-Configuring Genetic Programming Feature Generation in Affect Recognition Tasks // In Proc. of International Conference on Speech and Computer (SPECOM), 2022, pp. 464-476.
Ryumina E., Ivanko D. Emotional Speech Recognition Based on Lip-Reading // In Proc. of International Conference on Speech and Computer (SPECOM), 2022, pp. 616-625.
Аудиовизуальный корпус данных поведенческой агрессии в ходе онлайн трансляций (Audio-Visual Aggressive Behavior in Online Streams corpus – AVABOS)

Руководитель проекта

Карпов А.А.

Номер

№ 22-11-00321

Сроки

2022-2024

Финансирование

Российский научный фонд