Лаборатория речевых и многомодальных интерфейсов

Разработка и исследование интеллектуальной системы для комплексного паралингвистического анализа речи

Компьютерная паралингвистика (computational paralinguistics) является одной из новых и самых динамично развивающихся областей современных речевых технологий, она изучает и анализирует различные невербальные аспекты в естественной речи, текстах и многомодальной коммуникации: эмоции, акценты, интонации, психофизиологические состояния, особенности произношения, параметры голоса человека и другие невербальные характеристики речи. Паралингвистика касается, в основном, вопросов как речь произносится, а не что конкретно произносится. Автоматическое распознавание эмоций в речи (emotional/affective computing) является наиболее популярной и востребованной областью компьютерной паралингвистики, она тесно связана с такими исследованиями как распознавание состояния диктора и анализ особенностей его голоса. Текущее состояние говорящего, как правило, соответствует динамично изменяющимся окружающим условиям и может описываться такими параметрами как психоэмоциональное и физиологическое состояние, состояние здоровья, усталость, стресс, депрессия и т.д. Особенности же диктора соответствуют неизменным или относительно постоянным характеристикам человека: пол, возраст, рост, акцент, этническая принадлежность, медицинские заболевания, например, болезнь Паркинсона или Альцгеймера, и т.д.
Основной целью данного проекта РНФ является создание новой интеллектуальной компьютерной системы для комплексного паралингвистического анализа разговорной речи вне зависимости от языка. Особенностью создаваемой системы будет являться то, что она сможет осуществлять комплексный паралингвистический анализ речевых аудиосигналов, т.е. одновременно автоматически анализировать речь диктора на предмет определения его пола и возраста, психоэмоционального состояния, давать оценку истинности/ложности высказываний, а также анализировать иные паралингвистические характеристики речи. При этом автоматическая система будет нацелена не только на обработку русской речи, но также и речи на других мировых языках для обеспечения возможности универсального паралингвистического анализа речи. Таким образом, данное исследование является актуальным и масштабным как в рамках российской, так и мировой науки. В отличие от других речевых технологий (систем автоматического распознавания и понимания речи, синтеза речи, машинного перевода речи), системы паралингвистического анализа речи не завязаны на конкретный естественный язык, поэтому возможно создать практически универсальные методы обработки невербальной акустической информации, конечно, с учетом того, что средства/качества выражения эмоций в некоторой степени отличаются у разных народов и культур.
Основными задачами данного проекта являются разработка, теоретические и экспериментальные исследования математического, программного и информационно-лингвистического обеспечения для перспективной интеллектуальной системы паралингвистического анализа речи.
Для успешного выполнения проекта должны быть решены эти задачи, сведенные в 3 последовательных этапа работ:

разработка информационно-лингвистического и математического обеспечения для интеллектуальной системы комплексного паралингвистического анализа речи (2018 г.);
разработка и исследование математического и программного обеспечения для интеллектуальной системы комплексного паралингвистического анализа речи (2019 г.);
тестирование и количественное оценивание интеллектуальной системы комплексного паралингвистического анализа речи, обобщение результатов (2020 г.).

Результаты за 2020 год

В 2020-м году коллективом исполнителей был выполнен 3-й этап проекта РНФ, связанный с тестированием и количественным оцениванием интеллектуальной системы комплексного паралингвистического анализа речи, а также обобщением результатов работ и получены следующие основные результаты:

Проведено исследование методик комплексирования компьютерных алгоритмов и методов для автоматического анализа и обнаружения различных паралингвистических явлений в разговорной речи дикторов:
- разработаны новые математические модели и методы, в том числе, использующие гендерно-возрастную информации на этапе распознавания эмоций диктора, а также для использования информации об эмоциональном состоянии на этапе определения истинности/ложности речевого высказывания;
- проведены экспериментальные исследования и количественное оценивание результатов комплексного паралингвистического анализа речи с использованием собранных речевых корпусов, доказывающие эффективность предложенных математических моделей.
Разработано новое математическое обеспечение и усовершенствованы существующие модели, методы, и алгоритмы для задачи распознавания истинности/ложности речевого сообщения по голосовым характеристикам диктора. Проведены экспериментальные исследования на двух речевых базах данных: DSD и RLTDDD2.
В 2020 г. были разработаны и зарегистрированы в Роспатенте две Программы для ЭВМ:
- Программная система комплексного анализа паралингвистических явлений в речи (ComPAS — Complex Paralinguistic Analysis of Speech), свидетельство о государственной регистрации № 2020664233 от 10.11.2020 г., авторы: Верхоляк О.В., Маркитантов М.В., Величко А.Н., Кипяткова И.С., Карпов А.А., правообладатель: СПБ ФИЦ РАН. Представленная система ComPAS является первой и единственной зарегистрированной программой, позволяющей дать комплексную паралингвистическую оценку голосовому сигналу, включающую пол и возраст говорящего, а также эмоциональную окраску и истинность высказывания.
- Программная система для распознавания эмоций в речи (ProSpER – Program for Speech Emotion Recognition), свидетельство о государственной регистрации № 2020664234 от 10.11.2020 г., авторы: Величко А.Н., Верхоляк О.В., Карпов А.А., правообладатель: СПБ ФИЦ РАН. Данная программа характеризуется эффективной схемой адаптации к зарегистрированным пользователям, высокой обобщающей способностью за счет применения кросс-корпусных моделей обучения, быстротой срабатывания, а также высокой точностью распознавания по 4 основным эмоциональным классам: счастье, злость, грусть и нейтральное состояние.
В рамках проекта принято участие в нескольких международных соревнованиях по компьютерной паралингвистике. В 12-х международных соревнованиях по компьютерной паралингвистике INTERSPEECH 2020 Computational Paralinguistics Challenge (онлайн конференция, 25-29 октября 2020 г.) коллектив исполнителей проекта участвовал в конкурсах по трем направлениям:
- распознавание эмоций пожилых людей,
- распознавание фазы дыхания,
- распознавание наличия медицинской маски по речи диктора.
В 2-х из 3-х конкурсах наша объединенная команда заняла первое место, добившись самой высокой точности распознавания. По результатам участия в соревнованиях получены два диплома за первое место по направлениям распознавания эмоций пожилых людей и определения фазы дыхания диктора. Нами были предложены и разработаны 3 компьютерные системы, обученные на предложенных речевых базах данных, и совмещающие в себе ансамблевый подход к классификации паралингвистических явлений для достижения наилучшей эффективности функционирования на новых данных, а также эффективный подход к обучению на основе кросс-валидации, который показал наилучшие результаты по сравнению с традиционным разделением данных на обучающую и валидационную выборку. Исследованы как акустические, так и лингвистические признаки разговорной речи, а также нейросетевые подходы, использующие предобученные модели, позволяющие улучшить процесс обучения на ограниченных наборах обучающих данных. Результаты соревнований можно посмотреть на официальном интернет-сайте соревнования ComParE.
Помимо соревнований INTERSPEECH ComParE-2020 коллектив исполнителей проекта также принял участие в международных соревнованиях FG-2020 Competition: Affective Behavior Analysis in-the-wild (ABAW), где предложенные нами аудиовизуальные системы распознавания, основанные на глубоких нейросетевых архитектурах и трансферном обучении, заняли третье место в конкурсе по распознаванию семи базовых эмоциональных выражений лиц: злость, отвращение, страх, счастье, грусть, удивление и нейтральное состояние. С помощью предложенных методов удалось достичь значения официального показателя точности распознавания 42,1%, что превышает базовое значение на 6,1%.
Помимо заявленного плана работ, на 3-м этапе проекта также были исследованы дополнительные методы повышения эффективности работы классификаторов, в том числе, распознавание эмоций по выражениям лиц и семантике высказывания, распознавание адресата высказывания, а также распознавание типа дыхания и наличия медицинской маски по речи диктора. Рассмотрена возможность практического применения систем распознавания эмоций дикторов на примере работы симулированного телефонного контакт-центра. Применение предложенного алгоритма перераспределения звонков на основе распознавания текущего психоэмоционального состояния абонента позволяет значительно сократить время ожидания для приоритетных звонков.
В рамках выполнения данного проекта РНФ в 2020 году всего было опубликовано 15 научных работ, в том числе: 5 журнальных статей, 9 статей в трудах научных конференций и одна глава в коллективной монографии. Среди этих работ 10 были опубликованы в международных англоязычных изданиях, индексируемых базами данных WoS/Scopus, включая труды высокорейтинговых международных конференций (INTERSPEECH, SPECOM, ACM ICMI Workshop WoCBU и др.) и журналы уровня Q1 (Sensors и Applied Sciences), а остальные – в русскоязычных изданиях, индексируемых в РИНЦ и ВАК.
Помимо этого, результаты данного проекта РНФ активно освещались в СМИ. Информационно-сервисный интернет-портале о науке Indicator.Ru опубликовал интервью с руководителем проекта А.А. Карповым “Нейросети научили лучше распознавать паралингвистические явления”, интернет-изданием ITMO.NEWS опубликовано интервью с основным исполнителем проекта О.В. Верхоляк “Компьютерная паралингвистика на службе у старения”, а газетой "Коммерсантъ" опубликована статья “Чуткий собеседник без ключевого слова. Усовершенствованный голосовой помощник на равных поговорит с человеком”.

Результаты за 2019 год

В 2019 году командой исполнителей был выполнен 2-й этап проекта РНФ, связанный с разработкой и исследованием математического и программного обеспечения для интеллектуальной системы комплексного паралингвистического анализа речи и получены следующие основные результаты:

Разработано новое математическое обеспечение и усовершенствованы существующие модели, методы, и алгоритмы для задач классификации паралингвистических явлений в разговорной речи в нескольких направлениях:
- автоматическое распознавание естественных эмоций (психоэмоциональных состояний) диктора, в том числе в диалоговой речи;
- автоматическое распознавание потенциальной лжи (состояний внутреннего психологического давления и стресса) в высказываниях;
- автоматическое определение пола и возрастной группы диктора;
- автоматическое определение типа адресата речевого сообщения.
На данном этапе нами были разработаны и исследованы 5 различных нейросетевых архитектур моделей на основе глубокого обучения, 3 подхода с использованием традиционных методов машинного обучения, а также методы отбора информативных признаков, алгоритмической композиции, доменной адаптации, и многоуровневого анализа контекста. На основе предложенных математических моделей разработано новое программное обеспечение в виде прототипов компьютерных программ для ЭВМ на языке программирования высокого уровня Python.
В целях интеграции существующих программных средств в разрабатываемую интеллектуальную систему был проведен анализ и изучение открытого прикладного программного обеспечения, предназначенного для автоматической обработки и распознавания паралингвистической информации в речи.
Подготовлена и успешно подана заявка на регистрацию разработанной программы для ЭВМ в Роспатенте: Программная система для определения пола и возраста диктора по голосу (GASpeakerRecognizer), Свидетельство о государственной регистрации № 2019662952 от 07.10.2019 г., авторы: Маркитантов М. В., Карпов А.А., правообладатель: СПИИРАН. Данная компьютерная программа позволяет захватывать речевые данные диктора онлайн с помощью микрофона, а также считывать имеющиеся аудиофайлы и анализировать их на предмет паралингвистической информации.
Разработан прототип программного обеспечения для распознавания 4-х категорий естественных эмоций человека по речи (радость, грусть, злость, нейтральное состояние). После прохождения процедуры регистрации, состоящей из записи голоса предполагаемого пользователя, все последующие тестовые записи нормализуются и адаптируются под данного пользователя.
Расширено доступное для исследований и разработок информационно-лингвистическое обеспечение (многодикторные речевые корпуса, транскрипции речевых записей и словари) на различных естественных языках.
Проведены экспериментальные исследования и получены количественные результаты работы программной подсистемы распознавания эмоциональных состояний дикторов в кросс-корпусной установке с применением метода доменной адаптации и анализа акустического контекста как самого говорящего, так и его партнера в речевом диалоге.
Предварительные результаты экспериментов, посвященных выявлению характеристик потенциальной лжи человека в его речевых высказываниях.
Проведены экспериментальные исследования и получены количественные результаты работы интеллектуальной компьютерной системы в задаче автоматического анализа пола и возраста дикторов по речи с использованием многодикторных речевых данных.
Наша команда, включающая исполнителей проекта, приняла участие в 11-х международных соревнованиях по компьютерной паралингвистике INTERSPEECH 2019 Computational Paralinguistics Challenge (Грац, Австрия). Коллектив исполнителей занял почетное 2-е место в конкурсе по распознаванию звуков детей Baby Sounds Sub-Challenge; 4-е место в конкурсе по распознаванию степени сонливости диктора (Continuous Sleepiness Sub-Challenge); 4-е место в конкурсе по распознаванию диалектов Штирии по речи носителей (Styrian Dialects Sub-Challenge. Кроме этого, коллектив исполнителей проекта принял участие в нескольких направлениях соревнования по аудио-визуальному распознаванию эмоций 9th International Audio/Visual Emotion Challenge AVEC-2019 (Ницца, Франция). В задаче определения кросс-культурного проявления эмоций наша команда (SUN) заняла 3-е место, а в задаче по определению уровня стресса – 5-е.
В 2019 году были опубликованы 8 статей в изданиях, индексируемых международными базами данных Scopus, Web of Science и РИНЦ. Руководитель и исполнители проекта участвовали и выступали с устными, стендовыми и приглашенными докладами по результатам проекта на следующих международных научных конференциях: 44-я IEEE Международная конференция ICASSP-2019; 9-й ACM Международный семинар AVEC-2019; 20-я ACL Международная конференция SIGDial-2019; 21-я Международная конференция SPECOM-2019; 13-й Международный симпозиум IDC-2019; III Международная научная конференция по инженерной и прикладной лингвистике «Пиотровские Чтения – 2019» (А.А. Карпов выступил с приглашенным пленарным докладом); 8-й Междисциплинарный семинар «Анализ разговорной русской речи» АР3-2019; VIII Конгресс молодых ученых КМУ ИТМО 2019.
Результаты данного проекта освещались в СМИ: новости информационного агентства ТАСС и сюжет в телепередаче "Матрица науки" на телеканале «Санкт-Петербург».

Руководитель проекта

Карпов А.А.

Номер

№ 18-11-00145

Сроки

2018-2020

Финансирование

Российский научный фонд

Результаты за 2018 год