Лаборатория речевых и многомодальных интерфейсов

Анализ голосовых и лицевых характеристик человека в маске

Анализ голосовых и лицевых характеристик человека в маске

В связи с неожиданным возникновением и стремительным глобальным распространением пандемии коронавируса COVID-19 самой актуальной задачей становится мониторинг уровня безопасности отдельных людей и всего общества в новом мире социального дистанцирования и «масочной» культуры. В последние годы периодическое ношение защитных масок для лица в общественных местах стало абсолютно привычным и обыденным для многих жителей густонаселенных стран Азии (Япония, Сингапур, Малайзия, Китай и др.), так они предохранялись от людей с возможными респираторными заболеваниями, загрязнения воздуха и аллергенов. Именно такая масочная культура и неукоснительное соблюдение карантинных требований населением этих азиатских стран стала основным залогом угасания распространения в них COVID-19. В последние месяцы маски стали элементом и европейской культуры и даже моды, прочно войдя в наш дресс-код. Сейчас и в ближайшие годы имеется актуальная потребность в автоматизированной проверке наличия защитной маски у людей, которые находятся в общественных местах, либо контактируют с инфицированными людьми или входящими в группу риска заражения. Поэтому в рамках данного проекта РФФИ предлагается разработка и исследования новой программной системы для автоматического бимодального анализа голосовых и лицевых характеристик человека в маске.

В ходе 2-летних научно-исследовательских работ будет впервые получен ряд принципиально новых научных результатов: 1) информационное обеспечение - бимодальная русскоязычная база данных (корпус), содержащая разноракурсные изображения лиц людей в различных вариациях защитных масок, а также аудиозаписи слитной русской речи людей в масках, в т.ч. в одноразовых медицинских масках различной плотности, многоразовых тканевых масках различных цветов с рисунками и без, специальных респираторов и других средств защиты слизистых поверхностей лица; 2) новые методы и модели автоматического анализа голосовых характеристик людей по речи, в т.ч. наличия защитной маски при говорении, детектирование кашля, состояния респираторного заболевания и др.; 3) новые методы и модели анализа лицевых характеристик людей по видеоданным, в т.ч. детекции наличия или отсутствия защитной маски на лице, биометрических характеристик открытой части лица (верхней части головы) человека; 4) прототип программной системы для автоматического бимодального анализа голосовых и лицевых характеристик человека в маске.

Результаты данных исследований на основе современных технологий искусственного интеллекта можно будет напрямую использовать в борьбе с распространением вирусных эпидемий (коронавирусов, включая COVID-19, вирусов гриппа, а также других не менее патогенных типов вирусов в будущем) как в России, так в во всем мире.

Результаты за 2020 год

В рамках 1-го этапа проекта РФФИ № 20-04-60529 был выполнен расширенный аналитический обзор в области детектирования средств индивидуальной защиты на лице человека по голосовым и лицевым характеристикам, респираторных заболеваний, а также автоматического распознавания COVID-19 по речи и звукам человека, в том числе доступных на сегодняшний день корпусов аудиовизуальной речи. Разработано программное обеспечение (ПО) для записи видеоданных с целью сбора и аннотирования бимодального корпуса данных с разноракурсными лицами людей в различных вариациях защитных масок и аудиозаписями слитной русской речи людей в масках. Отличительная особенность ПО заключается в возможности захвата и записи видеоданных одновременно с нескольких мобильных устройств в параллельном режиме (до 3-х устройств). Была предложена новая методика создания корпусов речевых аудиовизуальных данных, позволяющая записывать разноракурсные видеоданные и спонтанную речь. С целью решения фундаментальной задачи детектирования средств индивидуальной защиты на лице человека по голосовым и лицевым характеристикам была записана бимодальная русскоязычная база данных (корпус) BRAVE-MASKS, включающая в себя записи 30 дикторов-носителей русского языка. Корпус содержит 44820 видеофайлов в формате MOV, 180 файлов с орфографическим текстом произнесенных фраз в формате TXT, а также около 2 млн. покадрово выделенных изображений из видеозаписей в формате JPG. Корпус был записан с использованием двух смартфонов и одного планшета, управляемых разработанным программным обеспечением для операционной системы iOS. Кроме того, получены предварительные результаты исследований по автоматическому распознаванию наличия/отсутствия защитной маски на лице человека как по видео-, так и аудиоинформации. Предложен подход к созданию синтетического набора видеоданных с помощью метода наложения защитных масок на изображения лиц людей, обучению моделей и тестирования классификаторов.

В ходе 1-го этапа проекта подготовлен и опубликована цикл статей по текущим результатам в изданиях и журналах, индексируемых в международных системах цитирования Scopus и Web of Science, в том числе в трудах международных конференций INTERSPEECH (топ-конференция уровня A международного рейтинга CORE), PSBB (ISPRS International Workshop “Photogrammetric and computer vision techniques for video Surveillance, Biometrics and Biomedicine”), Завалишинские чтения, а также подготовлена обзорная статья для российского журнала «Информатика и автоматизация» (индексируется в Scopus). Официально зарегистрированы в Роспатенте разработанные в ходе проекта Программа для ЭВМ «Программное обеспечение для записи аудиовизуальных данных людей в защитных масках» и База данных «Корпус аудиовизуальных русскоязычных данных людей в защитных масках (BRAVE-MASKS - Biometric Russian Audio-Visual Extended MASKS corpus)».

Адреса ресурсов в Интернете, подготовленных Проекту:

  1. Корпус аудиовизуальных русскоязычных данных людей в защитных масках (BRAVE-MASKS - Biometric Russian Audio-Visual Extended MASKS corpus)
  2. Программное обеспечение для записи аудиовизуальных данных людей в защитных масках
  3. Ryumina E., Ryumin D., Ivanko D., Karpov A. A Novel Method for Protective Face Mask Detection Using Convolutional Neural Networks and Image Histograms // International Archives of the Photogrammetry Remote Sensing and Spatial Information Sciences – 2021. – 2021. – Vol. XLIV-2/W1-2021. – pp. 177–182. DOI: 10.5194/isprs-archives-XLIV-2-W1-2021-177-2021
  4. Markitantov M., Dresvyanskiy D., Mamontov D., Kaya H., Minker W., Karpov A. Ensembling End-to-End Deep Models for Computational Paralinguistics Tasks: ComParE 2020 Mask and Breathing Sub-Challenges // INTERSPEECH 2020. – 2020. – pp. 2072-2076. DOI: 10.21437/Interspeech.2020-2666
  5. Ryumina, E., Verkholyak, O., Karpov, A. Annotation Confidence vs. Training Sample Size: Trade-Off Solution for Partially-Continuous Categorical Emotion Recognition // INTERSPEECH 2021. – 2021. – pp. 3690-3694. DOI: 10.21437/Interspeech.2021-1636
  6. Letenkov M., Iakovlev R., Karpov A. Approach to Image-Based Recognition of User Face in Setting of Partial Face Occlusion by Personal Protective Equipment // Electromechanics and Robotics. Smart Innovation, Systems and Technologies. – Vol. 232. – 2021. – pp. 249-258. DOI: 10.1007/978-981-16-2814-6_22
  7. Двойникова А.А., Маркитантов М.В., Рюмина Е.В., Рюмин Д.А., Карпов А.А. Аналитический обзор аудиовизуальных систем для определения средств индивидуальной защиты на лице человека // Информатика и автоматизация. – № 20(5). – 2021. – C. 1116-1152. DOI: 10.15622/20.5.5
Руководитель проекта
Номер
№ 20-04-60529-вирусы
Сроки
2020-2022
Финансирование
Российский фонд фундаментальных исследований (РФФИ)