Лаборатория речевых и многомодальных интерфейсов

Статья в международном журнале Expert Systems with Applications (Q1)

Наша лаборатория опубликовала статью в международном журнале Expert Systems with Applications (Scopus, Q1):

Ryumin D., Axyonov A., Ryumina E., Ivanko D., Kashevnik A., Karpov A. Audio–visual speech recognition based on regulated transformer and spatio–temporal fusion strategy for driver assistive systems // Expert Systems with Applications. Elsevier, vol. 252 A, 15 October 2024, ID 124159 (WOS IF=7.5 Q1, Scopus SJR=1.88 Q1 AI)

В данной статье представлена методология исследования аудиовизуального распознавания речи в системах помощи водителю. Эти системы требуют постоянного взаимодействия с водителем во время движения посредством голосового управления в целях безопасности. В статье представлен новая аудиовизуальная модель распознавания речевых команд, основанная на трансформере (AVCRFormer), специально разработанная для надежного аудиовизуального распознавания речи. Мы предлагаем (i) стратегию многомодального слияния, основанную на пространственно-временном слиянии матриц акустических и визуальных признаков, (ii) регулируемый трансформер на основе модуля итеративного уточнения модели с несколькими кодировщиками, (iii) стратегию ансамбля классификаторов на основе нескольких декодеров. Стратегия пространственно-временного слияния сохраняет контекстную информацию обеих модальностей и обеспечивает их синхронизацию. Модуль итеративного уточнения модели позволяет преодолеть разрыв между акустическими и визуальными данными, используя их влияние на точность распознавания речи. Предложенная стратегия многократного предсказания демонстрирует превосходную производительность по сравнению с традиционной стратегией однократного предсказания, демонстрируя адаптивность модели к различным аудиовизуальному контексту. Предложенная модель AVCRFormer достигла лучших значений точности распознавания речевых команд, составивших 98,87% и 98,81% на корпусах RUSAVIC и LRW соответственно. Данное исследование имеет большое значение для развития человеко-машинного взаимодействия.