Лаборатория речевых и многомодальных интерфейсов

Статьи в международном журнале Mathematics (Q1)

Наша лаборатория опубликовала несколько статей в международном журнале Mathematics (Scopus, Q1, WOS Q1) в специальном выпуске Recent Advances in Neural Networks and Applications:

  • Ivanko D, Ryumin D, Karpov A. A Review of Recent Advances on Deep Learning Methods for Audio-Visual Speech Recognition // Mathematics, 2023, vol. 11(12), 2665.

    В данной статье представлен подробный обзор последних достижений в области аудиовизуального распознавания речи (AVSR) за последнее десятилетие (2013-2023 гг.). Несмотря на недавний успех систем распознавания речи, проблема декодирования аудиовизуальной речи остается сложной. По сравнению с предыдущими обзорами, мы в основном фокусируемся на важном прогрессе, достигнутом с внедрением глубокого обучения в эту область, и пропускаем описание давно известных традиционных методов. В завершение статьи мы представляем наше видение будущих исследований.

     

  • Ryumina E, Markitantov M, Karpov A. Multi-Corpus Learning for Audio-Visual Emotions and Sentiment Recognition // Mathematics, 2023, vol. 11(16), 3519.

    Распознавание эмоций и настроения (аффективных состояний) по аудиовизуальной информации человека широко используется в здравоохранении, образовании, развлечениях и других областях, поэтому оно стало весьма активной областью исследований. Большое разнообразие корпусов с разнородными данными, доступных для разработки однокорпусных подходов к распознаванию аффективных состояний, может привести к тому, что подходы, обученные на одном корпусе, окажутся менее эффективными на другом. В этой статье мы предлагаем многокорпусный аудиовизуальный подход для распознавания эмоций и настроения. Он основан на извлечении признаков среднего уровня на уровне сегментов с помощью двух многокорпусных временных моделей и на предсказании аффективных состояний с помощью двух однокорпусных кросс-модальных моделей самовнимания. Предложенный подход был апробирован на корпусах RAMAS и CMU-MOSEI. На сегодняшний день наш подход превосходит современные аудиовизуальные подходы к распознаванию эмоций на 18,2% (78,1% vs 59,9%) для корпуса CMU-MOSEI по взвешенной точности и на 0,7% (82,8% vs 82,1%) для корпуса RAMAS по невзвешенной средней полноте.

     

  • Kipyatkova I, Kagirov I. Deep Models for Low-Resourced Speech Recognition: Livvi-Karelian Case // Mathematics, 2023, vol. 11(18), 3814.

    В настоящее время наблюдается рост числа исследований, посвященных автоматической обработке малоресурсных языков. Недостаточный объем имеющихся речевых и текстовых данных тормозит развитие речевых технологий для подобных языков. В данной статье представлена система автоматического распознавания речи для ливвиковского наречия карельского языка. Акустические модели, основанные на гибридных моделях, объединяющих скрытые марковские модели и искуственные нейронные сети, были обучены на речевом корпусе объемом 3,5 часа. Для увеличения объема обучающих данных были применены методы аугментации, в том числе изменение частоты основного тона, скорости речи, а также метод аугментации спектрограмм SpecAugment, кроме того, была использовалась комбинация данных методов. Языковые модели, основанные на n-граммах и нейронных сетях, были обучены как на письменных текстах, так и на расшифровках речевых данных. Наименьшая ошибка распознавания слов составила 22,8%, что сопоставимо с мировыми результатами, полученными для других малоресурсных языков. Представленная система является первой системой распознавания речи для ливвиковского наречия карельского языка. Полученные результаты могут иметь определенную значимость для создания систем автоматического распознавания речи не только для карельского, но и для других малоресурсных языков.

     

  • Ryumin D, Ryumina E, Ivanko D. EMOLIPS: Towards Reliable Emotional Speech Lip-Reading // Mathematics, 2023, vol. 11(23), 4787.

    В этой статье мы представляем новый двухуровневый подход к распознаванию эмоциональной речи по губам (EMOLIPS). Он основан на обработке визуальных данных, мотивирован человеческим восприятием и последними достижениями в области многомодального глубокого обучения. Предлагаемый подход использует визуальные данные речи для определения типа речевой эмоции. Затем речевые данные обрабатываются с помощью одной из эмоциональных моделей чтения речи по губам, обученных с нуля. Это, по сути, решает проблему многоэмоционального чтения по губам, связанную с большинством реальных сценариев. Мы реализовали эти модели в виде комбинации архитектуры EMO-3DCNN-GRU для распознавания эмоций и архитектуры 3DCNN-BiLSTM для автоматического чтения по губам. Предложенный подход был апробирован на корпусах CREMA-D и RAVDESS.