Лаборатория речевых и многомодальных интерфейсов

Интеллектуальная система многомодального распознавания аффективных состояний человека

Интеллектуальная система многомодального распознавания аффективных состояний человека

Данный междисциплинарный проект РНФ направлен на решение задач многомодального анализа и распознавания аффективных состояний людей по их поведению с использованием современных методов цифровой обработки сигналов и глубокого машинного обучения. Проблема аффективных вычислений является очень актуальной и значимой с научно-технической и практической точек зрения. В этой области имеется множество нерешенных проблем, при этом практическое применение систем распознавания аффективных состояний человека исключительно по одномодальным данным (например, только по аудио- или видеоданным) имеет ряд существенных ограничений. Наиболее естественным способом взаимодействия и обмена информацией для человека является многомодальное общение, которое задействует несколько модальностей (каналов взаимодействия) одновременно, в том числе естественную речь и звуки, мимику и артикуляцию лица, жесты рук и тела, направление взгляда, общее поведение, текстовую информацию и т.д. Многомодальные системы анализа аффективных состояний человека имеют значительные преимущества перед одномодальными методами, позволяя проводить анализ в сложных условиях зашумленности одного из каналов передачи информации (акустический шум или недостаток освещения), а также при полном отсутствии информации в одном из каналов (человек молчит или не обращен к камере). Кроме того, многомодальный анализ позволяет зачастую распознавать и такие неоднозначные аффективные явления, как сарказм и ирония, которые характеризуются явным несовпадением смысла высказывания (анализ текста) с интонацией голоса (анализ аудио) и мимикой лица (анализ видео). Поэтому одновременный анализ нескольких составляющих человеческого поведения (речь, мимика, жесты, направление взгляда, текстовые транскрипции высказываний) позволит повысить качество работы и точность распознавания автоматических систем анализа аффективных состояний в таких задачах, как распознавание эмоций, сентимента, агрессии, депрессии и т.д. Все эти задачи имеют важное практическое значение в области технологий эмоционального искусственного интеллекта (Emotional AI), а также в психологии, медицине, банковской сфере, судебно-криминалистической сфере, когнитивных науках и т.д. Они имеют высокую научно-техническую, а также социальную и экономическую значимость.

Основной целью данного проекта РНФ является разработка и исследование новой интеллектуальной компьютерной системы для многомодального анализа поведения людей с целью распознавания проявленных аффективных состояний на основе аудио, видео и текстовых данных от человека. Особенностью системы будет являться то, что она сможет осуществлять многомодальный анализ, т.е. одновременно автоматически анализировать речь и видеоданные пользователя, а также смысл его высказываний на предмет определения различных психоэмоциональных (аффективных) состояний человека, в том числе эмоций, сентимента, агрессии и депрессии. При этом целевая аудитория разрабатываемой автоматической системы будет включать не только русскоязычное население, а любого человека вне зависимости от пола, возраста, расовой принадлежности и языка. Таким образом, данное исследование является актуальным и масштабным как в рамках российской, так и мировой науки.

Основными задачами данного проекта являются разработка, теоретические и экспериментальные исследования математического, программного и информационно-лингвистического обеспечения для перспективной интеллектуальной системы многомодального анализа аффективного поведения людей.

Для достижения основной цели проекта должны быть решены указанные задачи, сведенные в 3 последовательных этапа работ:

  1. разработка информационно-лингвистического и математического обеспечения для интеллектуальной системы многомодального анализа аффективных состояний (2022 г.);
  2. разработка и исследование математического и программного обеспечения для интеллектуальной системы многомодального анализа аффективных состояний (2023 г.);
  3. экспериментальные исследования и оценивание интеллектуальной системы многомодального анализа аффективных состояний, разработка демонстратора системы и обобщение результатов (2024 г.).

Результаты за 2022 год

В 2022 году выполнен 1-й этап проекта, связанный с разработкой и исследованием метематического и информационно-лингвистического обеспечения интеллектуальной системы многомодального распознавания аффективных состояний человека.

Выполнен аналитический обзор современной научно-технической литературы по теме многомодального моделирования аудиовизуальных сигналов для анализа аффективных состояний. Можно сделать вывод, что нейросетевые методы постепенно вытесняют традиционные за счет достижения большей точности распознавания аффективных состояний и быстрой обработке больших объемов данных. Проведен анализ существующего информационно-лингвистического обеспечения и получены ряд многомодальных корпусов для анализа эмоций (AFEW, AFEW-VA, AffWild2, SEWA, AffectNet); эмоций и сентимента (CMU-MOSEI, MELD); агрессии (части корпусов TR и SD, объединенные в один корпус); депрессии (DAIC).

Собран и размечен аудиовизуальный корпус данных поведенческой агрессии в ходе онлайн трансляций (англ. Audiovisual Aggressive Behavior in Online Streams dataset – AVABOS). Данный корпус содержит видеофайлы, полученные из открытых источников в сети Интернет, на которых присутствует индивидуальное и групповое агрессивное поведение русскоязычных коммуникантов, проявляемое в ходе прямых видеотрансляций. База данных предназначена для автоматического аудиовизуального анализа агрессивного поведения и официально зарегистрирована в Роспатенте, свидетельство № 2022623239 от 05.12.2022.

Разработано новое и усовершенствовано существующее математическое обеспечение для извлечения информативных признаков из аудио, видео и текстовой модальностей в целях моделирования и распознавания отдельных аффективных состояний:

  • для задачи распознавания эмоций, агрессии и депрессии по аудиомодальности разработан метод, основанный на использовании экспертных и нейросетевых признаков (openSMILE, openXBOW, AuDeep, DeepSpectrum, PANN, Wav2Vec). Проведен анализ влияния качества аннотации данных на эффективность методов классификации эмоций на корпусе RAMAS. Количественное оценивание разработанных методов распознавания эмоций, агрессии и депрессии проводилось на корпусах RAMAS, TR & SD и DAIC, соответственно. Для аудиомодальности разработан комбинированный метод аугментации аудиоданных, основанный на модификации изображений спектрограмм: повороте, изменении масштаба, сдвиге по ширине и высоте, изменении яркости, горизонтальном отражении, растягивании, сжатии, а также SpecAugment;
  • для распознавания эмоций и сентимента на корпусах RAMAS и CMU-MOSEI с использованием текстовой модальности разработаны и исследованы методы предобработки орфографических текстовых транскрипций (токенизация, удаление пунктуации, понижение регистра, лемматизация для русскоязычных и стемминг для англоязычных данных), а также нейросетевой метод векторизации Word2Vec, преимущество которого заключается в сохранении синтаксической и семантической информации текста после векторизации, небольшой размер векторного пространства и возможности использования различных моделей для русского и английского языков. Для аугментации текстовых данных разработан подход, объединяющий в себе методы модификации текстовых данных: удаление, перестановка, замена слов, перестановка предложений, обратный перевод, генеративные модели и доменную аугментацию;
  • для распознавания эмоций по видеомодальности разработан метод на основе сверточной нейронной сети ResNet-50, которая обучалась на корпусе AffectNet и способна извлекать текстурные признаки лица разной размерности, которые могут подаваться как на классические детерминированные, так и нейросетевые методы машинного обучения. Разработанный метод также эффективен для задач распознавания других аффективных состояний, в частности, агрессии и депрессии. Для видеомодальности разработан метод аугментации видеоданных, основанный на применении методов модификации изображений: Mixup, аффинных преобразованиях, регулировке контрастности и взвешивании классов.

Известно, что при коммуникации люди используют как вербальные, так и невербальные проявления аффективных состояний (эмоций, сентимента, агрессии, депрессии). При этом смысловое содержание коммуникативного высказывания диктор выражает с помощью вербальной информации, которая является репрезентативной для выражения сентимента или полярности эмоции. При этом интенсивность эмоций отражается в невербальных проявлениях, и лучше передается посредством аудиомодальности, чем видео. Для анализа проявления депрессии эффективнее использовать визуальную и акустическую информацию, лингвистическая информация в данном случае не может в полной мере и однозначно передавать состояние аффективного расстройства и проявления эмоций, однако может показать отрицательную полярность высказывания, которая в свою очередь может играть вспомогательную роль при многомодальном подходе к распознаванию аффективного состояния. Многомодальное распознавание аффективных состояний человека позволяет анализировать проявление вербальной и невербальной информации диктора одновременно и получать достоверную информацию о психологическом состоянии коммуниканта.

По результатам проведенных в 2022 году теоретических и экспериментальных исследований подготовлен и опубликован цикл из 5 научных статей по текущим результатам в изданиях и журналах, индексируемых в международных системах цитирования Scopus, Web of Science и RSCI, в том числе, в российских журналах “Информатика и автоматизация” (Scopus и RSCI) и “Вестник ВГУ. Серия: Системный анализ и информационные технологии” (RSCI), а также в трудах 24-й международной конференции “Speech and Computer” SPECOM (Индия, конференция топ-уровня согласно международному порталу Research.com, 2 статьи опубликованы в серии Springer Lecture Notes in Computer Science), 24-го международного конгресса по акустике International Congress on Acoustics ICA (Корея, престижный конгресс проходит раз в 3 года). Кроме того, представлен приглашенный доклад на 4-й международной конференции по инженерной и прикладной лингвистике «Пиотровские чтения 2022» (Санкт-Петербург).

Адреса ресурсов в Интернете, подготовленных Проекту:

  1. Репортаж Автоматизированные call-центры: путь от IVR до "детектора лжи" Деловой Петербург
  2. Величко А.Н. Разработка метода анализа речевого сигнала для автоматического определения агрессии в разговорной речи // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. 2022. № 4. С. 1-9.
  3. Dvoynikova A., Markitantov M., Ryumina E., Uzdiaev M., Velichko A., Kagirov I., Kipyatkova I., Lyakso E., Karpov A. An analysis of automatic techniques for recognizing human's affective states by speech and multimodal data // In Proc. of the 24th International Congress on Acoustics ICA-2022. 2022. pp. 22-33.
  4. Двойникова А.А., Маркитантов М.В., Рюмина Е.В., Уздяев М.Ю., Величко А.Н., Рюмин Д.А., Ляксо Е.Е, Карпов А.А. Анализ информационного и математического обеспечения для распознавания аффективных состояний человека // Информатика и автоматизация. 2022. Т. 21. № 6. С. 1097-1144.
  5. Mamontov D., Minker W., Karpov A. Self-Configuring Genetic Programming Feature Generation in Affect Recognition Tasks // In Proc. of International Conference on Speech and Computer (SPECOM). 2022. pp. 464-476.
  6. Ryumina E., Ivanko D. Emotional Speech Recognition Based on Lip-Reading // In Proc. of International Conference on Speech and Computer (SPECOM). 2022. pp. 616-625.
  7. Аудиовизуальный корпус данных поведенческой агрессии в ходе онлайн трансляций (Audio-Visual Aggressive Behavior in Online Streams corpus – AVABOS)
Руководитель проекта
Номер
№ 22-11-00321
Сроки
2022-2024
Финансирование
Российский научный фонд