Лаборатория речевых и многомодальных интерфейсов

Математическое, программное и информационное обеспечение интеллектуального анализа видео- и аудиоинформации в ассистивных транспортных мобильных системах

В последние годы направление автоматизации и интеллектуализации транспортных средств становится все более популярным. Основным фактором, определяющим интерес исследователей, является высокий уровень аварийности на дорогах общего пользования, как в России, так и за рубежом. При этом водитель транспортного средства привносит в управление человеческий фактор, который является причиной больше половины дорожных происшествий. В рамках проекта предлагается новый подход к решению проблемы отвлечения рук и визуального внимания водителя от управления транспортным средством на основе бесконтактного голосового интерфейса для взаимодействия с ассистивными системами транспортных средств. Системы голосового управления различаются по набору поддерживаемых языков, количеству распознавания команд, числу реализуемых функций управления и т.п. Но подобные системы голосового управления имеют одну общую черту – они плохо работают в условиях сильного акустического шума, который характерен для транспортных средств в условиях дорожного движения, особенно на больших скоростях. В акустически зашумленных условиях очень важную роль играет визуальная информация о речи. Для повышения качества автоматического распознавания и анализа речи (точности распознавания речи и робастности по отношению аудиошумам) предлагается разработка и исследование системы аудиовизуального распознавания русской речи, основанной на совместной обработке разноракурсной видео- и аудиоинформации, интегрирующей современные методы машинного зрения для автоматического «чтения речи по губам диктора» и методы анализа звучащей речи и аудиоинформации.

В ходе выполнения проекта разработано новое математическое, программное и информационное обеспечение интеллектуального анализа видео- и аудиоинформации в ассистивных транспортных мобильных системах. Разработан комплекс моделей и методов, который позволяет автоматически распознавать управляющие голосовые команды водителя транспортного средства, посредством анализа речевой информации от двух модальностей (акустического сигнала речи и анализа изображений губ) в рамках заданного определенного словаря команд. Также разработаны модели и методы определения деструктивного психоэмоционального состояния водителя, которое оказывает влияние на его речь, что позволяет повысить точность распознавания голосовых команд.

Результаты за 2022 год

В рамках третьего этапа проекта разработано и экспериментально исследовано программное обеспечение автоматической системы аудиовизуального распознавания русской речи, которая основана на обработке видео- и аудиоинформации, и предназначена для применения в ассистивных транспортных мобильных системах. Также разработано программное обеспечение модуля определения деструктивного психоэмоционального состояния водителя с использованием данных скорости и акселерометра совместно с видеосигналами человека для формирования контекста при распознавании речи в подвижном транспортном средстве. Проведены экспериментальные исследования с разработанной системой аудиовизуального распознавания русской речи на основе собранной аудиовизуальной базы данных речи водителей RUSAVIC и данных о психоэмоциональном состоянии водителей. Выполнена интеграция системы аудиовизуального распознавания слитной речи в разработанную ранее систему предупреждения аварийных ситуаций транспортных средств на основе мобильных видеоизмерений поведения водителя.

В рамках проекта были опубликованы 20 статей в журналах и изданиях, индексируемых в международных системах Scopus и Web of Science, включая 2 статьи в международных журналах первого квартиля Q1 согласно рейтингам Scopus (IEEE Access) и Web of Science (Mathematics), а также 3 статьи в журналах из перечня ВАК (РИНЦ). По результатам проекта представлены 12 докладов на ведущих международных конференциях. Также в Роспатенте официально зарегистрированы 3 разработанных Программы для ЭВМ и одна База данных RUSAVIC. Результаты разработки также представлены телеканалами Россия 1, Пятый канал и канал 78, в рамках репортажей, в которых был продемонстрирован прототип разработанной системы.

Адреса ресурсов в Интернете, подготовленных Проекту:

Программа для ЭВМ «Мобильная система автоматического распознавания аудиовизуальной речи водителя (DAVIS – Driver’s Audio-Visual Speech Recognition)», авторы: Иванько Д.В., Рюмин Д.А., Аксёнов А.А., Карпов А.А., Кашевник А.М., правообладатель: СПб ФИЦ РАН, дата регистрации: 22.05.2023, рег. номер: 2023660509
Программа для ЭВМ «Ассистивная мобильная система аудиовизуального человеко-машинного взаимодействия для обеспечения безопасного вождения (MIDriveSafely – Multimodal Interaction for Drive Safely)», авторы: Иванько Д.В., Рюмин Д.А., Аксёнов А.А., Карпов А.А., Кашевник А.М., правообладатель: СПб ФИЦ РАН, дата регистрации: 22.05.2023, рег. номер: 2023660524
Программа для ЭВМ «Программное обеспечение для обработки, синхронизации и аннотации аудио и разноракурсных видеоданных», авторы: Рюмин Д.А., Иванько Д.В., Аксёнов А.А., Карпов А.А., правообладатель: СПб ФИЦ РАН, дата регистрации: 21.07.2021, рег. номер: 2021661753
База данных «Многомодальная база данных русской речи водителей в кабине транспортных средств (RUSAVIC)», авторы: Лашков И.Б., Аксёнов А., Иванько Д., Рюмин Д., Карпов А.А., Кашевник А.М, правообладатель: СПб ФИЦ РАН и авторы, дата регистрации: 27.10.2020, рег. номер: 2020622063
Веб-страница о системе распознавания и корпусе на сайте системы DriveSafely
Аксёнов А.А., Рюмин Д.А., Кашевник А.М., Иванько Д.В., Карпов А.А. Метод визуального анализа лица водителя для автоматического чтения речи по губам при управлении транспортным средством // Компьютерная оптика. 2022. Т. 46. № 6. С. 955-962.
Ivanko D., Kashevnik A., Ryumin D., Kitenko A., Axyonov A., Lashkov I., Karpov A. MIDriveSafely: Multimodal Interaction for Drive Safely // In Proc. of ACM International Conference on Multimodal Interaction (ICMI-2022). 2022. pp. 733-735.
Ivanko D., Axyonov A., Ryumin D., Kashevnik A., Karpov A. RUSAVIC Corpus: Russian Audio-Visual Speech in Cars // In Proc. of 13th Language Resources and Evaluation Conference (LREC 2022). 2022. pp. 1555-1559.
Ivanko D., Ryumin D., Kashevnik A., Axyonov A., Karpov A. Visual Speech Recognition in a Driver Assistance System // In Proc. of 30th European Conference on Signal Processing (EUSIPCO 2022). 2022. pp. 1131-1135.
Аксёнов А.А., Иванько Д.В., Лашков И.Б., Рюмин Д.А., Кашевник А.М., Карпов А.А. Методика создания многомодального корпуса для аудиовизуального распознавания речи в ассистивных транспортных системах // Информатизация и связь. № 4. 2020. С. 49-55.
Dresvyanskiy D., Ryumina E., Kaya H., Markitantov M., Karpov A., Minker W. End-to-end Modelling and Transfer Learning for Audiovisual Emotion Recognition in the Wild // Multimodal Technologies and Interaction. 2022. Vol. 6(2). ID 11.
Ivanko D., Ryumin D., Karpov A. A. Review of Recent Advances on Deep Learning Methods for Audio-Visual Speech Recognition // Mathematics. 2023. Vol. 11(12). ID 2665
Kashevnik A., Lashkov I., Axyonov A., Ivanko D., Ryumin D., Kolchin A., Karpov A. Multimodal corpus design for audio-visual speech recognition in vehicle cabin // IEEE Access. 2021. Vol. 9. pp. 34986–35003
Lashkov I., Kashevnik A. Aggressive Behavior Detection Based on Driver Heart Rate and Hand Movement Data // In Proc. of IEEE International Intelligent Transportation Systems Conference (ITSC2021). 2021. pp. 1490–1495.
Ivanko D., Ryumin D., Axyonov A., Kashevnik A. Speaker-dependent visual command recognition in vehicle cabin: methodology and evaluation // In Proc. of 23rd International Conference on Speech and Computer (SPECOM-2021). 2021. pp. 291-302.

Результаты за 2021 год

В рамках второго этапа проекта выполнена разработка и исследование методов эффективного параметрического представления разноракурсных видео- и аудиосигналов для бимодального анализа и распознавания русской речи. Предложен метод определения границ речи в аудиовизуальных сигналах, основанный на технологиях компьютерного зрения, машинного обучения и системе определения границ речи Silero-VAD. Предложен метод синхронизации аудио- и видеоинформации в системе распознавания речи, основанный на синхронизации двух потоков с применением метода определения границ речи и синхронизации сенсорной информации на основе сервера времени. Разработаны и исследованы новые методы распознавания речи на основе разноракурсной видео- и аудиоинформации с использованием вероятностных моделей акустических и визуальных единиц речи. Созданы и обучены гибридные нейросетевые модели для системы распознавания русской речи отдельно по видео- и аудиоинформации. Разработаны метод и алгоритм определения деструктивного психоэмоционального состояния водителя с использованием данных скорости и акселерометра совместно с видеоинформацией от человека для формирования контекста при распознавании речи в подвижном транспортном средстве.

Результаты за 2020 год

В рамках первого этапа проекта выполнен аналитический обзор в области ассистивных транспортных систем и имеющихся корпусов аудиовизульной речи, также разработано математическое и программное обеспечение для создания корпуса (информационное обеспечение), включающего в себя разноракурсные видео- и аудио записи голосовых команд в ходе движения транспортного средства, синхронизированные с доступными мобильными сенсорами в кабине. На основе анализа видеопотока с камеры смартфона, направленной на водителя, синхронизированной с сенсорной информацией (GPS, акселерометр, гироскоп), предложено определять психоэмоциональное состояние водителя, определение которого нужно для более точного распознавания аудиовизуальной речи. Предложена новая методика создания корпусов речевых аудиовизуальных данных, позволяющая записывать разноракурсные данных с использованием предложенных методов и алгоритмов. Для обучения моделей бимодального распознавания русской речи в ассистивных мобильных транспортных системах в натурных и полунатурных условиях записан аудиовизуальный корпус RUSAVIC, включающий в себя записи 20 дикторов-носителей русского языка. Выходные данные RUSAVIC состоят из 21 100 аудио/видеофайлов c разметкой. Бимодальный корпус записан с использованием трех смартфонов, управляемых посредством разработанного программного обеспечения для операционной системы Android.

Руководитель проекта

Карпов А.А.

Номер

№ 19-29-09081-мк

Сроки

2019-2022

Финансирование

Российский фонд фундаментальных исследований (РФФИ)