Лаборатория речевых и многомодальных интерфейсов

Интеллектуальная система многомодального распознавания аффективных состояний человека

Интеллектуальная система многомодального распознавания аффективных состояний человека

Данный междисциплинарный проект РНФ направлен на решение задач многомодального анализа и распознавания аффективных состояний людей по их поведению с использованием современных методов цифровой обработки сигналов и глубокого машинного обучения. Проблема аффективных вычислений является очень актуальной и значимой с научно-технической и практической точек зрения. В этой области имеется множество нерешенных проблем, при этом практическое применение систем распознавания аффективных состояний человека исключительно по одномодальным данным (например, только по аудио- или видеоданным) имеет ряд существенных ограничений. Наиболее естественным способом взаимодействия и обмена информацией для человека является многомодальное общение, которое задействует несколько модальностей (каналов взаимодействия) одновременно, в том числе естественную речь и звуки, мимику и артикуляцию лица, жесты рук и тела, направление взгляда, общее поведение, текстовую информацию и т.д. Многомодальные системы анализа аффективных состояний человека имеют значительные преимущества перед одномодальными методами, позволяя проводить анализ в сложных условиях зашумленности одного из каналов передачи информации (акустический шум или недостаток освещения), а также при полном отсутствии информации в одном из каналов (человек молчит или не обращен к камере). Кроме того, многомодальный анализ позволяет зачастую распознавать и такие неоднозначные аффективные явления, как сарказм и ирония, которые характеризуются явным несовпадением смысла высказывания (анализ текста) с интонацией голоса (анализ аудио) и мимикой лица (анализ видео). Поэтому одновременный анализ нескольких составляющих человеческого поведения (речь, мимика, жесты, направление взгляда, текстовые транскрипции высказываний) позволит повысить качество работы и точность распознавания автоматических систем анализа аффективных состояний в таких задачах, как распознавание эмоций, сентимента, агрессии, депрессии и т.д. Все эти задачи имеют важное практическое значение в области технологий эмоционального искусственного интеллекта (Emotional AI), а также в психологии, медицине, банковской сфере, судебно-криминалистической сфере, когнитивных науках и т.д. Они имеют высокую научно-техническую, а также социальную и экономическую значимость.

Основной целью данного проекта РНФ является разработка и исследование новой интеллектуальной компьютерной системы для многомодального анализа поведения людей с целью распознавания проявленных аффективных состояний на основе аудио, видео и текстовых данных от человека. Особенностью системы будет являться то, что она сможет осуществлять многомодальный анализ, т.е. одновременно автоматически анализировать речь и видеоданные пользователя, а также смысл его высказываний на предмет определения различных психоэмоциональных (аффективных) состояний человека, в том числе эмоций, сентимента, агрессии и депрессии. При этом целевая аудитория разрабатываемой автоматической системы будет включать не только русскоязычное население, а любого человека вне зависимости от пола, возраста, расовой принадлежности и языка. Таким образом, данное исследование является актуальным и масштабным как в рамках российской, так и мировой науки.

Основными задачами данного проекта являются разработка, теоретические и экспериментальные исследования математического, программного и информационно-лингвистического обеспечения для перспективной интеллектуальной системы многомодального анализа аффективного поведения людей.

Для достижения основной цели проекта должны быть решены указанные задачи, сведенные в 3 последовательных этапа работ:

  1. разработка информационно-лингвистического и математического обеспечения для интеллектуальной системы многомодального анализа аффективных состояний (2022 г.);
  2. разработка и исследование математического и программного обеспечения для интеллектуальной системы многомодального анализа аффективных состояний (2023 г.);
  3. экспериментальные исследования и оценивание интеллектуальной системы многомодального анализа аффективных состояний, разработка демонстратора системы и обобщение результатов (2024 г.).

Результаты за 2023 год

В 2023 году выполнен 2-й этап проекта, связанный с разработкой и исследованием математического и программного обеспечения для обработки отдельных модальностей (аудио, видео, текст), а также созданием бимодальных моделей (аудио+видео и аудио+текст) интеллектуальной системы анализа аффективных состояний человека.

Усовершенствованы методы классификации и регрессии для анализа отдельных аффективных состояний с использованием одномодальных данных: бинарной классификации агрессии (отсутствие или наличие состояния) по аудиоданным; классификации сентимента на три (отрицательный, нейтральный, положительный) и два класса (отрицательный, положительный) класса по текстовым данным; бинарной классификации агрессии (отсутствие или наличие), эмоций (злость, печаль, страх, отвращение, счастье, нейтральное состояние). Проведены экспериментальные исследования по автоматическому распознаванию агрессии (на корпусе AVABOS), сентимента (CMU-MOSEI), эмоций (CREMA-D) для подбора наиболее эффективных нейросетевых признаков, а также моделей с рекуррентными, полносвязными и слоями с механизмами внимания (МВ) для их моделирования и анализа.

Предложен иерархический метод для бинарной классификации лжи (ложность или истинность информации), агрессии (низкий, средний или высокий уровень) и депрессии (наличие или отсутствие признаков заболевания) с использованием аудиоданных. При его разработке использовался теоретический базис корреляции между рассматриваемыми паралингвистическими явлениями: результаты классификации методов распознавания агрессии и лжи являются входными данными метода определения депрессии. Предложена методика интегрального оценивания степени выраженности деструктивных явлений в речи. Проведены экспериментальные исследования по автоматическому распознаванию лжи (на корпусе DSD), депрессии (DAIC) и агрессии (SD&TR).

Предложены многозадачные методы для одновременной классификации эмоций (удивление, злость, печаль, страх, отвращение, счастье) и сентимента (отрицательный, нейтральный, положительный) с использованием одномодальных данных (аудио, видео, текст). Проведены экспериментальные исследования по многозадачному распознаванию эмоций и сентимента (на корпусах RAMAS и CMU-MOSEI), с обучением на однокорпусных/многокорпусных данных, в том числе:

  • с использованием аудиоданных выполнено сравнение эффективности моделей-трансформеров для извлечения акустических признаков, которые затем обрабатывались моделью на основе GRU. Наиболее эффективной оказалась нейросетевая модель EW2V, которая превзошла другие модели в среднем на 3,5%. Комбинирование МВ и рекуррентных слоев также внесло положительный вклад в точность распознавания. Предложенный метод для распознавания эмоций превзошел современные результаты на корпусе CMU-MOSEI на 3,3% по показателю mWAcc;
  • с использованием текстовых данных выполнено сравнение эффективности моделей-трансформеров для извлечения лингвистических признаков, которые затем обрабатывались моделью с МВ. Наиболее эффективными признаками оказались лингвистические признаки RoBERTa, которые превзошли другие признаки в среднем на 2%. Лучший набор признаков обрабатывался двумя идентичными нейронными сетями с МВ (для эмоций и сентимента). Наилучший метод, основанный на данных признаках и нейронной сети с МВ, превзошел другие в среднем на 3%. Это связано с различными процедурами обучения исходных моделей-трансформеров. Предложенный метод для распознавания эмоций превзошел современные результаты на корпусе CMU-MOSEI на 6,6% (mWAcc);
  • с использованием видеоданных выполнено сравнение эффективности визуальных признаков, которые обрабатывались моделью типа LSTM. Наиболее эффективными признаками оказались EmoFF, которые превзошли другие в среднем на 2,4%. EmoFF способны выявлять сложные нелинейные зависимости и особенности лица. Предложенный метод для распознавания эмоций превзошел современные результаты на корпусе CMU-MOSEI на 7,2% (mWAcc).

Предложены многозадачные методы для классификации одновременно эмоций (удивление, злость, печаль, страх, отвращение, счастье) и сентимента (отрицательный, нейтральный, положительный) с использованием бимодальных данных (аудио+видео, аудио+текст). Проведены экспериментальные исследования по распознаванию одновременно эмоций и сентимента (на корпусах RAMAS и CMU-MOSEI):

  • с использованием аудио- и видеоданных выполнено сравнение эффективности различных методов объединения модальностей. Предложен метод CMGSAF основанный на использовании статистических функционалов, полносвязных слоев и двух последовательных слоев внимания. CMGSAF превзошел рассмотренные классические методы объединения модальностей на 2,2%. Из результатов видно, что для RAMAS видео эффективнее аудиоданных, тогда как для CMU-MOSEI верно обратное. CMGSAF превзошел другие современные методы в задаче распознавания эмоций на корпусе RAMAS на 0,7% (UAR) и на корпусе CMU-MOSEI - на 18,2% (mWAcc) и 1,6% (mWF1);
  • с использованием аудио и текстовых данных выполнено сравнение эффективности методов объединения модальностей. Предложен метод FCF основанный на конкатенации признаков, которые обрабатываются двумя идентичными нейронными сетями с МВ (для эмоций и сентимента). FCF превзошел другие методы объединения модальностей на 1%, включая объединение, основанное на МВ. Из результатов видно, что аудиоданные эффективнее текстовых при распознавании эмоций, тогда как для сентимента верно обратное. Метод FCF превзошел другие современные методы в задаче распознавания эмоций на 2,82% (mWAcc) и 0,7% (mWF1) и в задаче распознавания сентимент-анализа на 7,13% (Acc) и 6,06% (WF1) на корпусе CMU-MOSEI.

Результаты показывают, что для распознавания эмоций эффективнее использовать аудио- и видеоданные, в то время как для сентимент-анализа текстовые данные более информативны.

Разработаны и зарегистрированы в Роспатенте две программы для ЭВМ: 1) Программный комплекс для аудиовизуального распознавания эмоций и сентимента (Audio-Visual Emotions and Sentiment Recognition - AVESR); 2) Программный комплекс для иерархического распознавания деструктивных явлений в речи (Destructive Behaviour Detection - DesBDet). AVESR с использованием веб-камеры может выполнять распознавание эмоций (удивление, злость, печаль, страх, отвращение, счастье) и сентимента (отрицательный, нейтральный, положительный) в режиме реального времени. DesBDet выполняет иерархическое распознавание деструктивных явлений (ложной или истинной информации, уровня агрессии и отсутствия/наличия депрессии) в речи. Программы могут записывать аудиофайлы с помощью микрофона или считывать их с диска. Модели программных комплексов характеризуются хорошей обобщающей способностью за счет применения кросс-корпусных моделей обучения, быстротой срабатывания, а также высокой точностью распознавания.

В 2023 году опубликован цикл из 7 научных работ в изданиях и журналах, индексируемых в международных системах цитирования Scopus, Web of Science и RSCI, в том числе, в международном журнале Mathematics (Q1 WoS), в российских журналах “Информационно-управляющие системы” (Scopus) и “Известия высших учебных заведений. Приборостроение” (RSCI), а также в трудах юбилейной 25-й Международной конференции "Speech and Computer" SPECOM-2023 (Дхарвад, Индия); 7-й Международной научной конференции "Интеллектуальные информационные технологии в технике и на производстве" IITI-2023 (Санкт-Петербург, приглашенный доклад А.А. Карпова); 29-й Международной конференции по компьютерной лингвистике и интеллектуальным технологиям ДИАЛОГ-2023 (Москва); 5-й Международной конференции по методам фотограмметрии и компьютерного зрения для видеонаблюдения, биометрии и биомедицины PSBB-2023 (Москва).

Адреса ресурсов в Интернете, подготовленных Проекту:

  1. Ryumina E., Markitantov M., Karpov A. Multi-Corpus Learning for Audio-Visual Emotions and Sentiment Recognition // Mathematics, 2023, vol. 11(16), ID 3519.
  2. Ryumina E., Karpov A. Impact of visual modalities in multimodal personality and affective computing // The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2023, vol. XLVIII-2/W3-2023, pp. 217–224.
  3. Karpov A., Dvoynikova A., Ryumina E. Intelligent Interfaces and Systems for Human-Computer Interaction // In Proc. of 7th International Conference «Intelligent Information Technologies for Industry» IITI 2023, St. Petersburg, Springer, Lecture Notes in Networks and Systems LNNS, 2023, vol. 776, pp. 3-13.</li
  4. Dvoynikova A., Karpov A. Bimodal sentiment and emotion classification with multi-head attention fusion of acoustic and linguistic information // Computational Linguistics and Intellectual Technologies. In Proc. of 29th International Conference DIALOGUE-2023, Moscow, 2023, pp. 51-61.
  5. Величко А. Н., Карпов, А. А. Методика и программная система интегрального анализа деструктивных паралингвистических явлений в разговорной речи // Информационно-управляющие системы, 2023, № 4, C. 2-11.
  6. Ivanko D., Ryumina E., Ryumin D., Axyonov A., Kashevnik A., Karpov A. EMO-AVSR: Two-Level Approach for Audio-Visual Emotional Speech Recognition // In Proc. of SPECOM 2023, 2023, Springer LNCS vol. 14338, pp 1-14.
  7. Двойникова А.А., Кондратенко К.О. Подход к автоматическому распознаванию эмоций в транскрипциях речи // Изв. вузов. Приборостроение, 2023, Т. 66, № 10, С. 818-827.
  8. Программа для ЭВМ «Программный комплекс для аудиовизуального распознавания эмоций и сентимента (Audio-Visual Emotions and Sentiment Recognition - AVESR)», авторы: Маркитантов М.В., Рюмина Е.В., Карпов А.А., правообладатель: СПб ФИЦ РАН, дата регистрации: 03.11.2023, рег. номер: 023683228
  9. Программа для ЭВМ «Программный комплекс для иерархического распознавания деструктивных явлений в речи (Destructive Behaviour Detection - DesBDet)», авторы: Величко А.Н., Карпов А.А., правообладатель: СПб ФИЦ РАН, дата регистрации: 03.11.2023, рег. номер: 2023683229

 

Результаты за 2022 год

В 2022 году выполнен 1-й этап проекта, связанный с разработкой и исследованием метематического и информационно-лингвистического обеспечения интеллектуальной системы многомодального распознавания аффективных состояний человека.

Выполнен аналитический обзор современной научно-технической литературы по теме многомодального моделирования аудиовизуальных сигналов для анализа аффективных состояний. Можно сделать вывод, что нейросетевые методы постепенно вытесняют традиционные за счет достижения большей точности распознавания аффективных состояний и быстрой обработке больших объемов данных. Проведен анализ существующего информационно-лингвистического обеспечения и получены ряд многомодальных корпусов для анализа эмоций (AFEW, AFEW-VA, AffWild2, SEWA, AffectNet); эмоций и сентимента (CMU-MOSEI, MELD); агрессии (части корпусов TR и SD, объединенные в один корпус); депрессии (DAIC).

Собран и размечен аудиовизуальный корпус данных поведенческой агрессии в ходе онлайн трансляций (англ. Audiovisual Aggressive Behavior in Online Streams dataset – AVABOS). Данный корпус содержит видеофайлы, полученные из открытых источников в сети Интернет, на которых присутствует индивидуальное и групповое агрессивное поведение русскоязычных коммуникантов, проявляемое в ходе прямых видеотрансляций. База данных предназначена для автоматического аудиовизуального анализа агрессивного поведения и официально зарегистрирована в Роспатенте, свидетельство № 2022623239 от 05.12.2022.

Разработано новое и усовершенствовано существующее математическое обеспечение для извлечения информативных признаков из аудио, видео и текстовой модальностей в целях моделирования и распознавания отдельных аффективных состояний:

  • для задачи распознавания эмоций, агрессии и депрессии по аудиомодальности разработан метод, основанный на использовании экспертных и нейросетевых признаков (openSMILE, openXBOW, AuDeep, DeepSpectrum, PANN, Wav2Vec). Проведен анализ влияния качества аннотации данных на эффективность методов классификации эмоций на корпусе RAMAS. Количественное оценивание разработанных методов распознавания эмоций, агрессии и депрессии проводилось на корпусах RAMAS, TR & SD и DAIC, соответственно. Для аудиомодальности разработан комбинированный метод аугментации аудиоданных, основанный на модификации изображений спектрограмм: повороте, изменении масштаба, сдвиге по ширине и высоте, изменении яркости, горизонтальном отражении, растягивании, сжатии, а также SpecAugment;
  • для распознавания эмоций и сентимента на корпусах RAMAS и CMU-MOSEI с использованием текстовой модальности разработаны и исследованы методы предобработки орфографических текстовых транскрипций (токенизация, удаление пунктуации, понижение регистра, лемматизация для русскоязычных и стемминг для англоязычных данных), а также нейросетевой метод векторизации Word2Vec, преимущество которого заключается в сохранении синтаксической и семантической информации текста после векторизации, небольшой размер векторного пространства и возможности использования различных моделей для русского и английского языков. Для аугментации текстовых данных разработан подход, объединяющий в себе методы модификации текстовых данных: удаление, перестановка, замена слов, перестановка предложений, обратный перевод, генеративные модели и доменную аугментацию;
  • для распознавания эмоций по видеомодальности разработан метод на основе сверточной нейронной сети ResNet-50, которая обучалась на корпусе AffectNet и способна извлекать текстурные признаки лица разной размерности, которые могут подаваться как на классические детерминированные, так и нейросетевые методы машинного обучения. Разработанный метод также эффективен для задач распознавания других аффективных состояний, в частности, агрессии и депрессии. Для видеомодальности разработан метод аугментации видеоданных, основанный на применении методов модификации изображений: Mixup, аффинных преобразованиях, регулировке контрастности и взвешивании классов.

Известно, что при коммуникации люди используют как вербальные, так и невербальные проявления аффективных состояний (эмоций, сентимента, агрессии, депрессии). При этом смысловое содержание коммуникативного высказывания диктор выражает с помощью вербальной информации, которая является репрезентативной для выражения сентимента или полярности эмоции. При этом интенсивность эмоций отражается в невербальных проявлениях, и лучше передается посредством аудиомодальности, чем видео. Для анализа проявления депрессии эффективнее использовать визуальную и акустическую информацию, лингвистическая информация в данном случае не может в полной мере и однозначно передавать состояние аффективного расстройства и проявления эмоций, однако может показать отрицательную полярность высказывания, которая в свою очередь может играть вспомогательную роль при многомодальном подходе к распознаванию аффективного состояния. Многомодальное распознавание аффективных состояний человека позволяет анализировать проявление вербальной и невербальной информации диктора одновременно и получать достоверную информацию о психологическом состоянии коммуниканта.

По результатам проведенных в 2022 году теоретических и экспериментальных исследований подготовлен и опубликован цикл из 5 научных статей по текущим результатам в изданиях и журналах, индексируемых в международных системах цитирования Scopus, Web of Science и RSCI, в том числе, в российских журналах “Информатика и автоматизация” (Scopus и RSCI) и “Вестник ВГУ. Серия: Системный анализ и информационные технологии” (RSCI), а также в трудах 24-й международной конференции “Speech and Computer” SPECOM (Индия, конференция топ-уровня согласно международному порталу Research.com, 2 статьи опубликованы в серии Springer Lecture Notes in Computer Science), 24-го международного конгресса по акустике International Congress on Acoustics ICA (Корея, престижный конгресс проходит раз в 3 года). Кроме того, представлен приглашенный доклад на 4-й международной конференции по инженерной и прикладной лингвистике «Пиотровские чтения 2022» (Санкт-Петербург).

Адреса ресурсов в Интернете, подготовленных Проекту:

  1. Репортаж Автоматизированные call-центры: путь от IVR до "детектора лжи" Деловой Петербург
  2. Величко А.Н. Разработка метода анализа речевого сигнала для автоматического определения агрессии в разговорной речи // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии, 2022, № 4, С. 1-9.
  3. Dvoynikova A., Markitantov M., Ryumina E., Uzdiaev M., Velichko A., Kagirov I., Kipyatkova I., Lyakso E., Karpov A. An analysis of automatic techniques for recognizing human's affective states by speech and multimodal data // In Proc. of the 24th International Congress on Acoustics ICA-2022, 2022, pp. 22-33.
  4. Двойникова А.А., Маркитантов М.В., Рюмина Е.В., Уздяев М.Ю., Величко А.Н., Рюмин Д.А., Ляксо Е.Е, Карпов А.А. Анализ информационного и математического обеспечения для распознавания аффективных состояний человека // Информатика и автоматизация. 2022, Т. 21, № 6, С. 1097-1144.
  5. Mamontov D., Minker W., Karpov A. Self-Configuring Genetic Programming Feature Generation in Affect Recognition Tasks // In Proc. of International Conference on Speech and Computer (SPECOM), 2022, pp. 464-476.
  6. Ryumina E., Ivanko D. Emotional Speech Recognition Based on Lip-Reading // In Proc. of International Conference on Speech and Computer (SPECOM), 2022, pp. 616-625.
  7. Аудиовизуальный корпус данных поведенческой агрессии в ходе онлайн трансляций (Audio-Visual Aggressive Behavior in Online Streams corpus – AVABOS)
Карпов А.А.
Руководитель проекта
Номер
№ 22-11-00321
Сроки
2022-2024
Финансирование
Российский научный фонд