Лаборатория речевых и многомодальных интерфейсов

Разработка и исследование интеллектуальной системы для комплексного паралингвистического анализа речи

Разработка и исследование интеллектуальной системы для комплексного паралингвистического анализа речи

Компьютерная паралингвистика (computational paralinguistics) является одной из новых и самых динамично развивающихся областей современных речевых технологий, она изучает и анализирует различные невербальные аспекты в естественной речи, текстах и многомодальной коммуникации: эмоции, акценты, интонации, психофизиологические состояния, особенности произношения, параметры голоса человека и другие невербальные характеристики речи. Паралингвистика касается, в основном, вопросов как речь произносится, а не что конкретно произносится. Автоматическое распознавание эмоций в речи (emotional/affective computing) является наиболее популярной и востребованной областью компьютерной паралингвистики, она тесно связана с такими исследованиями как распознавание состояния диктора и анализ особенностей его голоса. Текущее состояние говорящего, как правило, соответствует динамично изменяющимся окружающим условиям и может описываться такими параметрами как психоэмоциональное и физиологическое состояние, состояние здоровья, усталость, стресс, депрессия и т.д. Особенности же диктора соответствуют неизменным или относительно постоянным характеристикам человека: пол, возраст, рост, акцент, этническая принадлежность, медицинские заболевания, например, болезнь Паркинсона или Альцгеймера, и т.д.
Основной целью данного проекта РНФ является создание новой интеллектуальной компьютерной системы для комплексного паралингвистического анализа разговорной речи вне зависимости от языка. Особенностью создаваемой системы будет являться то, что она сможет осуществлять комплексный паралингвистический анализ речевых аудиосигналов, т.е. одновременно автоматически анализировать речь диктора на предмет определения его пола и возраста, психоэмоционального состояния, давать оценку истинности/ложности высказываний, а также анализировать иные паралингвистические характеристики речи. При этом автоматическая система будет нацелена не только на обработку русской речи, но также и речи на других мировых языках для обеспечения возможности универсального паралингвистического анализа речи. Таким образом, данное исследование является актуальным и масштабным как в рамках российской, так и мировой науки. В отличие от других речевых технологий (систем автоматического распознавания и понимания речи, синтеза речи, машинного перевода речи), системы паралингвистического анализа речи не завязаны на конкретный естественный язык, поэтому возможно создать практически универсальные методы обработки невербальной акустической информации, конечно, с учетом того, что средства/качества выражения эмоций в некоторой степени отличаются у разных народов и культур.
Основными задачами данного проекта являются разработка, теоретические и экспериментальные исследования математического, программного и информационно-лингвистического обеспечения для перспективной интеллектуальной системы паралингвистического анализа речи.
Для успешного выполнения проекта должны быть решены эти задачи, сведенные в 3 последовательных этапа работ:
  1. разработка информационно-лингвистического и математического обеспечения для интеллектуальной системы комплексного паралингвистического анализа речи (2018 г.);
  2. разработка и исследование математического и программного обеспечения для интеллектуальной системы комплексного паралингвистического анализа речи (2019 г.);
  3. тестирование и количественное оценивание интеллектуальной системы комплексного паралингвистического анализа речи, обобщение результатов (2020 г.).

Результаты за 2019 год

В 2019 году командой исполнителей был выполнен 2-й этап проекта РНФ, связанный с разработкой и исследованием математического и программного обеспечения для интеллектуальной системы комплексного паралингвистического анализа речи и получены следующие основные результаты:
  1. Разработано новое математическое обеспечение и усовершенствованы существующие модели, методы, и алгоритмы для задач классификации паралингвистических явлений в разговорной речи в нескольких направлениях:
    • автоматическое распознавание естественных эмоций (психоэмоциональных состояний) диктора, в том числе в диалоговой речи;
    • автоматическое распознавание потенциальной лжи (состояний внутреннего психологического давления и стресса) в высказываниях;
    • автоматическое определение пола и возрастной группы диктора;
    • автоматическое определение типа адресата речевого сообщения.
  2. На данном этапе нами были разработаны и исследованы 5 различных нейросетевых архитектур моделей на основе глубокого обучения, 3 подхода с использованием традиционных методов машинного обучения, а также методы отбора информативных признаков, алгоритмической композиции, доменной адаптации, и многоуровневого анализа контекста. На основе предложенных математических моделей разработано новое программное обеспечение в виде прототипов компьютерных программ для ЭВМ на языке программирования высокого уровня Python.
  3. В целях интеграции существующих программных средств в разрабатываемую интеллектуальную систему был проведен анализ и изучение открытого прикладного программного обеспечения, предназначенного для автоматической обработки и распознавания паралингвистической информации в речи.
  4. Подготовлена и успешно подана заявка на регистрацию разработанной программы для ЭВМ в Роспатенте: Программная система для определения пола и возраста диктора по голосу (GASpeakerRecognizer), Свидетельство о государственной регистрации № 2019662952 от 07.10.2019 г., авторы: Маркитантов М. В., Карпов А.А., правообладатель: СПИИРАН. Данная компьютерная программа позволяет захватывать речевые данные диктора онлайн с помощью микрофона, а также считывать имеющиеся аудиофайлы и анализировать их на предмет паралингвистической информации.
  5. Разработан прототип программного обеспечения для распознавания 4-х категорий естественных эмоций человека по речи (радость, грусть, злость, нейтральное состояние). После прохождения процедуры регистрации, состоящей из записи голоса предполагаемого пользователя, все последующие тестовые записи нормализуются и адаптируются под данного пользователя.
  6. Расширено доступное для исследований и разработок информационно-лингвистическое обеспечение (многодикторные речевые корпуса, транскрипции речевых записей и словари) на различных естественных языках.
  7. Проведены экспериментальные исследования и получены количественные результаты работы программной подсистемы распознавания эмоциональных состояний дикторов в кросс-корпусной установке с применением метода доменной адаптации и анализа акустического контекста как самого говорящего, так и его партнера в речевом диалоге.
  8. Предварительные результаты экспериментов, посвященных выявлению характеристик потенциальной лжи человека в его речевых высказываниях.
  9. Проведены экспериментальные исследования и получены количественные результаты работы интеллектуальной компьютерной системы в задаче автоматического анализа пола и возраста дикторов по речи с использованием многодикторных речевых данных.
  10. Наша команда, включающая исполнителей проекта, приняла участие в 11-х международных соревнованиях по компьютерной паралингвистике INTERSPEECH 2019 Computational Paralinguistics Challenge (Грац, Австрия). Коллектив исполнителей занял почетное 2-е место в конкурсе по распознаванию звуков детей Baby Sounds Sub-Challenge; 4-е место в конкурсе по распознаванию степени сонливости диктора (Continuous Sleepiness Sub-Challenge); 4-е место в конкурсе по распознаванию диалектов Штирии по речи носителей (Styrian Dialects Sub-Challenge. Кроме этого, коллектив исполнителей проекта принял участие в нескольких направлениях соревнования по аудио-визуальному распознаванию эмоций 9th International Audio/Visual Emotion Challenge AVEC-2019 (Ницца, Франция). В задаче определения кросс-культурного проявления эмоций наша команда (SUN) заняла 3-е место, а в задаче по определению уровня стресса – 5-е.
  11. В 2019 году были опубликованы 8 статей в изданиях, индексируемых международными базами данных Scopus, Web of Science и РИНЦ. Руководитель и исполнители проекта участвовали и выступали с устными, стендовыми и приглашенными докладами по результатам проекта на следующих международных научных конференциях: 44-я IEEE Международная конференция ICASSP-2019; 9-й ACM Международный семинар AVEC-2019; 20-я ACL Международная конференция SIGDial-2019; 21-я Международная конференция SPECOM-2019; 13-й Международный симпозиум IDC-2019; III Международная научная конференция по инженерной и прикладной лингвистике «Пиотровские Чтения – 2019» (А.А. Карпов выступил с приглашенным пленарным докладом); 8-й Междисциплинарный семинар «Анализ разговорной русской речи» АР3-2019; VIII Конгресс молодых ученых КМУ ИТМО 2019.
  12. Результаты данного проекта освещались в СМИ: новости информационного агентства ТАСС и сюжет в телепередаче "Матрица науки" на телеканале «Санкт-Петербург».
Руководитель проекта
Номер
№ 18-11-00145
Сроки
2018-2020
Финансирование
Российский научный фонд