Лаборатория речевых и многомодальных интерфейсов

Математическое, программное и информационное обеспечение интеллектуального анализа видео- и аудиоинформации в ассистивных транспортных мобильных системах

Математическое, программное и информационное обеспечение интеллектуального анализа видео- и аудиоинформации в ассистивных транспортных мобильных системах

В последние годы направление автоматизации и интеллектуализации транспортных средств становится все более популярным. Основным фактором, определяющим интерес исследователей, является высокий уровень аварийности на дорогах общего пользования, как в России, так и за рубежом. При этом водитель транспортного средства привносит в управление человеческий фактор, который является причиной больше половины дорожных происшествий. В рамках проекта предлагается новый подход к решению проблемы отвлечения рук и визуального внимания водителя от управления транспортным средством на основе бесконтактного голосового интерфейса для взаимодействия с ассистивными системами транспортных средств. Системы голосового управления различаются по набору поддерживаемых языков, количеству распознавания команд, числу реализуемых функций управления и т.п. Но подобные системы голосового управления имеют одну общую черту – они плохо работают в условиях сильного акустического шума, который характерен для транспортных средств в условиях дорожного движения, особенно на больших скоростях. В акустически зашумленных условиях очень важную роль играет визуальная информация о речи. Для повышения качества автоматического распознавания и анализа речи (точности распознавания речи и робастности по отношению аудиошумам) предлагается разработка и исследование системы аудиовизуального распознавания русской речи, основанной на совместной обработке разноракурсной видео- и аудиоинформации, интегрирующей современные методы машинного зрения для автоматического «чтения речи по губам диктора» и методы анализа звучащей речи и аудиоинформации.

В ходе 3-летних научно-исследовательских работ будет получен ряд принципиально новых научно-технических результатов: 1) новое информационное обеспечение - многодикторный аудиовизуальный корпус (бимодальная речевая база данных) слитной русской речи с разноракурсными видеоданными и микрофонными аудиоданными содержащий записи десятков дикторов-носителей русского языка; 2) математическое и программное обеспечение для записи видео- и аудиоинформации, аудиовизуального распознавания и анализа русской речи по видео- и аудиоинформации, позволяющей автоматически распознавать русскую речь в диалоговых приложениях с малым и средним словарем; 3) математическое и программное обеспечение для записи данных с сенсоров акселерометра и скорости, синхронизированных с записями видео- и аудиосигналов для отслеживания психоэмоционального состояния водителя транспортного средства. Данные результаты предлагается использовать в ассистивной транспортной мобильной системе для бесконтактного голосового управления и решения проблемы отвлечения внимания и рук водителя транспортного средства. Подобных систем, комплексирующих обработку разноракурсных видеоданных и микрофонных аудиоданных, с целью робастного распознавания русской речи в акустически зашумленных условиях дорожного движения не проводилось ни в России, ни за рубежом.

Руководитель проекта
Номер
№ 19-29-09081-мк
Сроки
2019-2022
Финансирование
Российский фонд фундаментальных исследований (РФФИ)