Лаборатория речевых и многомодальных интерфейсов

Автоматическое распознавание речи для малоресурсных языков России (на примере карельского языка)

Автоматическое распознавание речи для малоресурсных языков России (на примере карельского языка)

В ходе данного проекта планируется провести исследование по созданию системы распознавания речи для малоресурсных языков России на примере карельского языка. Разработка системы автоматического преобразования карельской речи в текстовую форму является достаточно сложной задачей, прежде всего, потому, что карельский язык принадлежит к так называемым малоресурсным языкам – языкам, для которых не создано сколько-нибудь значительных по объему речевых и текстовых корпусов. Это обстоятельство затрудняет применение стандартных подходов к автоматическому преобразованию речи в текст, подразумевающих обучение системы за счет больших наборов данных.

На карельском языке говорит около 30 тысяч человек по всему миру, порядка 25 тысяч из которых проживают в России. При этом пока не существует каких-либо систем автоматического распознавания карельской речи, сам же карельский язык является малоресурсным и находится под угрозой исчезновения.

Создание заявленной системы автоматического представления карельской речи в текстовой форме актуально по ряду причин. Во-первых, примененные подходы и решения будут иметь значимость для создания подобных систем для иных малоресурсных языков, в том числе и систем автоматического распознавания речи, и машинного перевода. Кроме того, карельский язык – один из языков России, которые, согласно созданному ЮНЕСКО "Атласу языков мира, находящихся под угрозой исчезновения", находится под угрозой исчезновения; создание заявленной системы способствует исследованиям языка, в том числе может найти применение в работе полевых лингвистов, занимающихся записью образцов языка.

Целью проекта является разработка прототипа системы автоматического преобразования речи на карельском языке в текстовую форму. Основными задачами проекта являются: подготовка речевого корпуса карельской речи; сбор и обработка текстовых данных на карельском языке; создание акустических моделей; создание моделей языка.

Практическая ценность исследований состоит в том, что разрабатываемые акустические и языковые модели будут использоваться в системе автоматического представления в текстовом виде речи на карельском языке. Данная система распознавания речи может быть использована для голосового машинного перевода с карельского на русский. Кроме того, системы автоматического распознавания речи могут быть использованы для компьютерного стенографирования речи на малоресурсных языках и языках, находящихся под угрозой исчезновения, с целью их документирования и изучения.

Результаты за 2023 год

На втором этапе проекта в 2023 г. коллективом исполнителей были выполнены работы, включающие в себя обучение акустических и языковых моделей для карельского языка, внедрение разработанных моделей в прототип системы автоматического распознавания карельской речи, а также тестирование разработанного прототипа.

Для акустического моделирования использовались скрытые марковские модели (СММ) и модели на основе искусственных нейронных сетей (ИНС), представляющие собой гибридные СММ/ИНС модели. Обучение акустических моделей осуществлялось на речевом корпусе, собранном в ходе первого этапа проекта и расширенного в ходе текущего этапа проекта, кроме того, для увеличения объема обучающих данных были применены такие методы аугментации, как изменение частоты основного тона и темпа речи. Были исследованы ИНС с различной архитектурой. В ходе экспериментальных исследований, проведенных на отладочной части речевого корпуса, наименьшее значение показателя количества неправильно распознанных слов (англ. Word Error Rate; WER) показала гибридная модель с факторизованной ИНС с временными задержками (англ. Factorized Time Delay Neural Networks; TDNN-F).

Для языкового моделирования была обучена модель на основе триграмм слов и модели на основе рекуррентных искусственных нейронных сетей, а также была выполнена линейная интерполяция триграммной и нейросетевой моделей. Для обучения использовался текстовый корпус, собранный в ходе первого этапа проекта. Триграммная модель языка использовалась на этапе декодирования речи. Неройсетевые модели применялись на этапе постобработки для переоценки списка лучших гипотез распознавания (англ. N-best list) и выбора наилучшей гипотезы распознавания. Языковые модели оценивались как по показателю коэффициент неопределенности (англ. perplexity) на тестовой части текстового корпуса, а также по показателю WER при применении моделей для распознавания речи. Наилучшие результаты были получены при использовании модели на основе двунаправленной сети с долгой кратковременной памятью (Bidirectional Long Short-Term Memory; BiLSTM) с двумя скрытыми слоями, интерполированной с триграммной моделью с коэффициентом интерполяции 0,5.

Разработанные в ходе выполнения проекта акустические и языковые модели были внедрены в прототип системы автоматического распознавания карельской речи, позволяющий преобразовывать предварительно записанные фразы на ливвиковском наречии карельского языка в текстовую форму. Для создания системы использовался свободно-доступный комплекс программных средств Kaldi. Проведены экспериментальные исследования созданного прототипа и количественное оценивание результатов его работы по показателю WER. При тестировании на отладочной части корпуса наилучший результат составил WER = 23,22%, при этом на тестовом корпусе указанные выше модели показали WER=25,40%. Полученные результаты находятся на уровне мировых результатов для других малоресурсных языков.

В ходе текущего этапа проекта опубликовано четыре статьи, в том числе статья в журнале Mathematics, входящем в квартиль Q1 по WoS, а также журналах “Информационно-управляющие системы” (Scopus), Lecture Notes in Computer Science (Scopus), “Ученые записки Петрозаводского государственного университета” (РИНЦ, Google Scholar, ERIH PLUS). Сделан доклад на международной конференции «Speech and Computer (SPECOM 2023)» (г. Хубли-Дхарвад, Индия, 29 ноября - 1 декабря 2023 г.). Получено свидетельство о регистрации в ФИПС базы данных “База данных аннотаций речевых записей на карельском языке (AnKaS – Database of Annotations of Karelian Speech Recordings)”.

Адреса ресурсов в Интернете, подготовленных Проекту:

  1. Kipyatkova I, Kagirov I. Deep Models for Low-Resourced Speech Recognition: Livvi-Karelian Case Подробнее
  2. Kipyatkova I., Kagirov I. Deep Models for Low-Resourced Speech Recognition: Livvi-Karelian Case // Mathematics. 2023, vol. 11(18), ID 3814.
  3. Кипяткова И.С., Кагиров И.А. Система автоматического распознавания карельской речи // Информационно-управляющие системы. 2023, № 3, С. 16-25.
  4. Kipyatkova I., Kagirov I. Phone Durations Modeling for Livvi-Karelian ASR // In Proc. 25th International Conference SPECOM 2023, Dharwad, India, Springer Lecture Notes in Computer Science, vol. 14339, 2023, pp. 87-99.
  5. Кипяткова И.С., Родионова А.П., Кагиров И.А., Крижановский А.А. Подготовка речевых и текстовых данных для создания системы автоматического распознавания карельской речи // Ученые записки Петрозаводского государственного университета. 2023. Т. 45, № 5. С. 89–98.
  6. База данных аннотаций речевых записей на карельском языке (AnKaS – Database of Annotations of Karelian Speech Recordings)

 

Результаты за 2022 год

На первом этапе проекта в 2022 г. коллективом исполнителей были выполнены работы, включающие в себя проведение аналитического обзора по тематике исследования, подготовку и аннотирование корпуса слитной карельской речи, подготовку корпуса текстов на карельском языке.

Аналитический обзор по тематике исследований включает в себя более 70 источников, более 50 из которых опубликованы за последние 7 лет. В обзоре рассматривается понятие малоресурсных языков, определены основные трудности, возникающие при разработке систем распознавания речи для малоресурсных языков, и очерчен круг основных методов, использующихся для решения обозначенных проблем. Из проведенного обзора можно сделать вывод, что основными способами решения проблемы недостаточного объема обучающих данных, возникающей при создании систем распознавания речи для малоресурсных языков, являются расширение обучающих корпусов (аугментация данных) и перенос параметров моделей, обученных на данных других языков, для инициализации параметров модели целевого языка (перенос знаний).

Проведено исследование лингвистических и фонетических особенностей карельского языка, по результатам которого был сформирован фонематический алфавит для ливвиковского наречия карельского языка, в котором были выделены ударные и безударные гласные, твердые и мягкие согласные, долгие гласные и удвоенные согласные (долгота звуков в карельском языке имеет смыслоразличительную функцию), кроме того, как отдельная фонема трактуется заднерядный аллофон фонемы /i/. Таким образом, было выделено 26 гласных фонем и 56 согласных. Сформированный алфавит использовался для создания фонематических транскрипций для слов на карельском языке. Для автоматического создания транскрипций был создан программный модуль на языке программирования Python, выполняющий преобразование графема-фонема для поданного ей на вход списка слов в соответствии с правилами транскрибирования для карельского языка.

Подготовлен речевой корпус ливвиковского наречия карельского языка на основе записей 10 радиопередач «Kodirandaine» («Родной берег»), предоставленных ГТРК «Карелия». В состав речевого корпуса вошли аудиозаписи 15 дикторов (6 мужчин и 9 женщин). Объем речевого корпуса после удаления неподходящих для использования фрагментов составил 3,5 часа. Была выполнена расшифровка аудиозаписей. Корпус был аннотирован и сегментирован на отдельные фразы. Корпус разбит на обучающую и тестовую части. В обучающую часть вошли 90% фраз, в тестовую – 10% фраз. Была выполнена аугментация обучающей части речевого корпуса путем изменения темпа речи и частоты основного тона. Полученные путем аугментации речевые данные были добавлены к реальным обучающим данным.

Подготовлен корпус текстов на ливвиковском наречии карельского языка, который был составлен из книг, предоставленных издательствами «Периодика» и «Версо», текстов на ливвиковском из открытого корпуса вепсского и карельского языков ВепКар, текстовых данных из других открытых источников, а также расшифровок аудиозаписей обучающей части речевого корпуса. Выполнена автоматическая предварительная обработка текстового корпуса с помощью разработанного программного модуля, которая включала в себя разбиение текста на отдельные предложения, удаление знаков препинания, замену заглавных букв на строчные, удаление текста, написанного в скобках и повторяющихся предложений. Объем корпуса после удаления повторяющихся предложений – более 5 млн словоупотреблений. На базе собранного текстового корпуса был сформирован словарь, который в дальнейшем будет использоваться в системе распознавания карельской речи. Для всех слов, вошедших в словарь, были автоматически созданы фонематические транскрипции.

Результаты проведенных в 2022-м году исследований были опубликованы в журнале «Информатика и автоматизация», индексируемом в базах данных Scopus, RSCI, РИНЦ, и представлены на конференции «Бубриховские чтения: языки и культуры в эпоху цифровизации».

Адреса ресурсов в Интернете, подготовленных Проекту:

  1. Кипяткова И. С., Кагиров И. А. Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков // Информатика и автоматизация. 2022. № 21(4). С. 678-709.
Кипяткова И.С.
Руководитель проекта
Номер
№ 22-21-00843
Сроки
2022-2023
Финансирование
Российский научный фонд