Лаборатория речевых и многомодальных интерфейсов

Автоматическое многоязычное распознавание речи с переключением кодов (на примере русского и карельского языков)

Автоматическое многоязычное распознавание речи с переключением кодов (на примере русского и карельского языков)

Целью данного проекта является разработка прототипа системы автоматического многоязычного распознавания речи с поддержкой переключения кодов (на примере карельского и русского языков).

В мире существует множество сообществ, в которых в повседневной коммуникации используются два или более языка (полиязычие). Одним из ярких примеров полиязычия является Индия (свыше 400 живых языков, и абсолютное большинство граждан Индии владеет как минимум двумя языками). В России существует свыше 150 языков, что привело к возникновению развитого полиязычия в ряде регионов (Республика Татарстан, Республика Тыва, Республика Дагестан и др.).

Одним из характерных для полиязычных сообществ феноменом является переключение кодов (или мена кода; англ. code switching). Переключение кодов – это спонтанный переход говорящего с одного языка или диалекта на другой. Переключение кодов может происходить как между высказываниями, так и внутри предложения.

Разработка системы автоматического распознавания речи с поддержкой переключения кодов является существенно более сложной задачей, чем создание простой многоязычной системы. Основной трудностью оказывается недостаток обучающих данных. Особенно это актуально для текстовых данных, поскольку письменные тексты зачастую подвергаются стилистической обработке, исключающей переключение кодов. Решение этой проблемы подразумевает большую работу по сбору и аннотации специфического языкового материала, а также разработку методов аугментации обучающих данных. Само по себе акустическое и языковое моделирование речи с переключением кодов является нетривиальной задачей, и в целом системы автоматического распознавания такого типа демонстрируют худшие результаты, чем системы распознавания, не поддерживающие переключение кодов. Разработка системы распознавания речи для языковой пары «карельский-русский» дополнительно осложняется тем, что карельский язык принадлежит к малоресурсным языкам – языкам с незначительным информационным обеспечением (отсутствие или незначительное количество интернет-ресурсов, оцифрованных баз данных, программного обеспечения для обработки языка).

Создание заявленной системы актуально по двум причинам: во-первых, примененные подходы и решения будут иметь значимость для разработок систем распознавания речи с переключением кодов и для других языков; во-вторых, появление подобной системы способствует исследованиям карельского языка, что особенно важно в связи с тем, что карельский язык находится под угрозой исчезновения.

Практическая ценность исследований состоит в том, что создание заявленной системы способствует исследованиям малоресурсного карельского языка, и результаты проекта могут найти применение в работе полевых лингвистов, занимающихся языковыми контактами и современным карельским языком.

Результаты за 2024 год

На первом этапе проекта в 2024 г. коллективом исполнителей были выполнены работы, включающие в себя проведение аналитического обзора по тематике исследования, запись, расшифровку и сегментацию на отдельные фразы речевых данных на карельском языке, содержащих переключение кода карельский-русский, формирование фонемного алфавита, объединяющего фонемы карельского и русского языков, и разработку фонематического словаря для карельско-русской системы распознавания речи.

Аналитический обзор включает в себя более 50 источников. В обзоре рассматриваются основные методы и подходы к построению систем распознавания речи с переключением кода. Также рассматриваются основные методы, применяемые для обучения системы при недостаточном объеме обучающих данных. Делается вывод, что одним из наиболее эффективных методов обучения подобных систем является использование предварительно обученных многоязычных моделей с последующим их дообучением на данных целевых языков. Кроме того, могут применяться различные методы аугментации речевых и текстовых данных, в том числе синтез речи, частичный автоматический перевод текста, модификация текста.

Выполнена запись спонтанной речи на ливвиковском наречии карельского языка. В записи приняли участие 37 носителей карельского языка (16 мужчин и 21 женщина). Объем речевого корпуса после удаления неподходящих для использования фрагментов составил 3 часа. Встраиваемый русский код в записях составляет 27%. Записи хранятся в wav-файлах с частотой дискретизации 16 кГц, 16 бит на отсчет, моно.

Была выполнена расшифровка аудиозаписей и сегментация на отдельные фразы. На основе собранного речевого материала и его расшифровок был сформирован речевой корпус, названный «Речевая база данных с переключением кодов карельский-русский (KarRusCoS – Speech Database with Karelian-Russian Code-Switching)». KarRusCoS содержит аудиозаписи карельской речи, а также аннотацию, включающую идентификационный номер диктора, пол диктора, расшифровки высказываний, длительность каждой фразы, количество слов на карельском, количество слов на русском, количество слов с внутрисловной меной кода и общее количество слов во фразе. Получено свидетельство о регистрации базы данных в ФИПС.

Сформирован фонемный алфавит путем слияния фонемных наборов для карельского и русского языков. Общее число фонем - 68.

Создан фонематический словарь, объединяющий словоформы для карельского и русского языков, кроме того, для учета внутрисловного переключения кода в словарь были добавлены русские основы слов и карельские окончания. Для всех слов, вошедших в словарь, были автоматически созданы фонематические транскрипции.

Результаты проведенных в 2024 году исследований были представлены на Международной конференции «Speech and Computer (SPECOM 2024)» (Белград, Сербия), V Международной научной конференции по инженерной и прикладной лингвистике “Пиотровские чтения 2024” (г. Санкт-Петербург), XX научной конференции “Бубриховские чтения: традиции и новации в исследовании финно-угорских языков и культур” (г. Петрозаводск) и опубликованы в издании Lecture Notes in Computer Science.

Адреса ресурсов в Интернете, подготовленных Проекту:

  1. Kipyatkova I., Kagirov I., Dolgushin M., Rodionova A. Towards a Livvi-Karelian End-to-End ASR System // In Proc. of 26th International Conference on Speech and Computer SPECOM 2024, Springer LNCS, vol. 15299, Belgrade, Serbia, 2024, pp. 57-68.
  2. Речевая база данных с переключением кодов карельский-русский (KarRusCoS – Speech Database with Karelian-Russian Code-Switching)

 

Руководитель проекта
Номер
№ 24-21-00276
Сроки
2024-2025
Финансирование
Российский научный фонд