Лаборатория речевых и многомодальных интерфейсов

Анализ голосовых и лицевых характеристик человека в маске

В связи с неожиданным возникновением и стремительным глобальным распространением пандемии коронавируса COVID-19 самой актуальной задачей становится мониторинг уровня безопасности отдельных людей и всего общества в новом мире социального дистанцирования и «масочной» культуры. В последние годы периодическое ношение защитных масок для лица в общественных местах стало абсолютно привычным и обыденным для многих жителей густонаселенных стран Азии (Япония, Сингапур, Малайзия, Китай и др.), так они предохранялись от людей с возможными респираторными заболеваниями, загрязнения воздуха и аллергенов. Именно такая масочная культура и неукоснительное соблюдение карантинных требований населением этих азиатских стран стала основным залогом угасания распространения в них COVID-19. В последние месяцы маски стали элементом и европейской культуры и даже моды, прочно войдя в наш дресс-код. Сейчас и в ближайшие годы имеется актуальная потребность в автоматизированной проверке наличия защитной маски у людей, которые находятся в общественных местах, либо контактируют с инфицированными людьми или входящими в группу риска заражения. Поэтому в рамках данного проекта РФФИ предлагается разработка и исследования новой программной системы для автоматического бимодального анализа голосовых и лицевых характеристик человека в маске.

В ходе 2-летних научно-исследовательских работ будет впервые получен ряд принципиально новых научных результатов: 1) информационное обеспечение - бимодальная русскоязычная база данных (корпус), содержащая разноракурсные изображения лиц людей в различных вариациях защитных масок, а также аудиозаписи слитной русской речи людей в масках, в т.ч. в одноразовых медицинских масках различной плотности, многоразовых тканевых масках различных цветов с рисунками и без, специальных респираторов и других средств защиты слизистых поверхностей лица; 2) новые методы и модели автоматического анализа голосовых характеристик людей по речи, в т.ч. наличия защитной маски при говорении, детектирование кашля, состояния респираторного заболевания и др.; 3) новые методы и модели анализа лицевых характеристик людей по видеоданным, в т.ч. детекции наличия или отсутствия защитной маски на лице, биометрических характеристик открытой части лица (верхней части головы) человека; 4) прототип программной системы для автоматического бимодального анализа голосовых и лицевых характеристик человека в маске.

Результаты данных исследований на основе современных технологий искусственного интеллекта можно будет напрямую использовать в борьбе с распространением вирусных эпидемий (коронавирусов, включая COVID-19, вирусов гриппа, а также других не менее патогенных типов вирусов в будущем) как в России, так в во всем мире.

Результаты за 2021 год

В рамках 2-го этапа проекта разработаны и исследованы новые методы и модели анализа голосовых характеристик людей по их естественной речи и аудиосигналам, в т.ч. наличия защитной маски при говорении, распознавания типа защитной маски и детектирование кашля, которые основаны на современных предобученных сверточных нейронных сетях, в том числе PANN, и методах аугментации SpecAugment, а также анализа лицевых характеристик людей по видеоданным, в т.ч. наличия защитной маски на лице и распознавания ее типа. Предложенные методы основаны на предобученных нейронных сетях ResNet, детекторах объектов Yolov5 и методах аугментации Mixup, Insert и Mosaic. Для задачи анализа биометрических характеристик открытой части лица выполнен аналитический обзор современных решений в области аудиовизуального распознавания людей в масках, разработаны и исследованы детерминированный и нейросетевой методы распознавания, последний основан на модели ArcFace. Предложены методы генерации синтетического набора изображений и видеоданных для увеличения объема обучающих данных с помощью метода наложения защитных масок на изображения лиц людей. Разработана программная система автоматического бимодального анализа голосовых и лицевых характеристик человека в маске, и проведены экспериментальные исследования с ней. Программное обеспечение в режиме реального времени получает аудиоданные с микрофона и последовательности изображений с видеокамеры, производит предварительную обработку сигналов, извлечение признаков, вычисление вероятностного прогноза и объединение полученных предсказаний результатов распознавания. Объединение информации от разных модальностей происходит на последнем уровне предсказаний/гипотез распознавания. Экспериментальные исследования показали, что комбинация аудио- и видеомодальностей позволяет компенсировать слабые места одномодальных систем.

Полученные результаты оформлены в виде цикла научных публикаций, включающего в себя 11 статей: 5 – в трудах международных конференций и 6 – в профильных российских журналах, индексируемых в системах цитирования Scopus, Web of Science и RSCI: «Компьютерная оптика» (Q1-2), «Информатика и автоматизация», «Научная визуализация», «Научно-технический вестник информационных технологий, механики и оптики» и «Известия высших учебных заведений. Приборостроение». Представлены 5 докладов на конференциях международного и российского уровня, включая 2 доклада на топовой международной конференции INTERSPEECH уровня A международного рейтинга CORE.

Созданы и зарегистрированы в Роспатенте три результата интеллектуальной деятельности: 1) программа для ЭВМ «Программное обеспечение для записи аудиовизуальных данных людей в защитных масках»; 2) база данных «Корпус аудиовизуальных русскоязычных данных людей в защитных масках (BRAVE-MASKS – Biometric Russian Audio-Visual Extended MASKS corpus)»; 3) программа для ЭВМ «Программный комплекс аудиовизуального распознавания средств индивидуальной защиты на лице человека (Audio-visual facial masks detection – AVIFAME)». Также поданы две заявки на регистрацию патентов РФ на изобретения «Способ аудиовизуального распознавания средств индивидуальной защиты на лице человека» и «Способ генерации цветных защитных масок на изображениях лиц людей».

Адреса ресурсов в Интернете, подготовленных Проекту:

Интернет-страница корпуса аудиовизуальных русскоязычных данных людей в защитных масках Biometric Russian Audio-Visual Extended MASKS (BRAVE-MASKS)
Интернет-страница базы изображений фронтальных лиц в масках Masked Frontal-Faces Database
Корпус аудиовизуальных русскоязычных данных людей в защитных масках (BRAVE-MASKS - Biometric Russian Audio-Visual Extended MASKS corpus)
Программное обеспечение для записи аудиовизуальных данных людей в защитных масках
Программное обеспечение для аудиовизуального распознавания средств индивидуальной защиты на лице человека (Audio-visual facial masks detection - AVIFAME)
Ryumina E., Ryumin D., Ivanko D., Karpov A. A Novel Method for Protective Face Mask Detection Using Convolutional Neural Networks and Image Histograms // International Archives of the Photogrammetry Remote Sensing and Spatial Information Sciences 2021. 2021. Vol. XLIV-2/W1-2021. pp. 177-182. DOI: 10.5194/isprs-archives-XLIV-2-W1-2021-177-2021
Markitantov M., Dresvyanskiy D., Mamontov D., Kaya H., Minker W., Karpov A. Ensembling End-to-End Deep Models for Computational Paralinguistics Tasks: ComParE 2020 Mask and Breathing Sub-Challenges // In Proc. of INTERSPEECH. 2020. pp. 2072-2076. DOI: 10.21437/Interspeech.2020-2666
Markitantov M., Ryumina E., Ryumin D., Karpov A. Biometric Russian Audio-Visual Extended MASKS (BRAVE-MASKS) Corpus: Multimodal Mask Type Recognition Task // In Proc. of INTERSPEECH. 2022. pp. 1756-1760. 10.21437/Interspeech.2022-10240
Рюмина Е.В., Рюмин Д.А., Маркитантов М.В., Карпов А.А. Метод генерации обучающих данных для компьютерной системы обнаружения защитных масок на лицах людей // Компьютерная оптика. Т. 46. № 4. 2022. С. 603-612. DOI: 10.18287/2412-6179-CO-1039.
Двойникова А.А., Маркитантов М.В., Рюмина Е.В., Рюмин Д.А., Карпов А.А. Аналитический обзор аудиовизуальных систем для определения средств индивидуальной защиты на лице человека // Информатика и автоматизация. № 20(5). 2021. C. 1116-1152. DOI: 10.15622/20.5.5
Ryumina, E., Verkholyak, O., Karpov, A. Annotation Confidence vs. Training Sample Size: Trade-Off Solution for Partially-Continuous Categorical Emotion Recognition // In Proc. of INTERSPEECH. 2021. pp. 3690-3694. DOI: 10.21437/Interspeech.2021-1636
Letenkov M.A., Iakovlev R.N., Markitantov M.V., Ryumin D.A., Saveliev A.I., Karpov A.A. Method for Generating Synthetic Images of Masked Human Faces // Научная визуализация (Scientific Visualization). Т. 14. №. 2. 2022. С. 1-17. DOI: 10.26583/sv.14.2.01.
Косулин К.Э., Карпов А.А. Методы аудиовизуального распознавания людей в масках // Научно-технический вестник информационных технологий, механики и оптики. Т. 22. № 3. 2022. С. 415-432. DOI: 10.17586/2226-1494-2022-22-3-415-432.
Кухарев Г.А., Рюмина Е.В., Шульгин Н.А. Метод генерации масок на изображениях лиц и системы их распознавания // Научно-технический вестник информационных технологий, механики и оптики. Т. 22. № 3. 2022. С. 547-558. DOI: 10.17586/2226-1494-2022-22-3-547-558.
Letenkov M., Iakovlev R., Karpov A. Approach to Image-Based Recognition of User Face in Setting of Partial Face Occlusion by Personal Protective Equipment // Electromechanics and Robotics. Smart Innovation, Systems and Technologies. Vol. 232. 2021. pp. 249-258. DOI: 10.1007/978-981-16-2814-6_22

Результаты за 2020 год

В рамках 1-го этапа проекта РФФИ № 20-04-60529 был выполнен расширенный аналитический обзор в области детектирования средств индивидуальной защиты на лице человека по голосовым и лицевым характеристикам, респираторных заболеваний, а также автоматического распознавания COVID-19 по речи и звукам человека, в том числе доступных на сегодняшний день корпусов аудиовизуальной речи. Разработано программное обеспечение (ПО) для записи видеоданных с целью сбора и аннотирования бимодального корпуса данных с разноракурсными лицами людей в различных вариациях защитных масок и аудиозаписями слитной русской речи людей в масках. Отличительная особенность ПО заключается в возможности захвата и записи видеоданных одновременно с нескольких мобильных устройств в параллельном режиме (до 3-х устройств). Была предложена новая методика создания корпусов речевых аудиовизуальных данных, позволяющая записывать разноракурсные видеоданные и спонтанную речь. С целью решения фундаментальной задачи детектирования средств индивидуальной защиты на лице человека по голосовым и лицевым характеристикам была записана бимодальная русскоязычная база данных (корпус) BRAVE-MASKS, включающая в себя записи 30 дикторов-носителей русского языка. Корпус содержит 44820 видеофайлов в формате MOV, 180 файлов с орфографическим текстом произнесенных фраз в формате TXT, а также около 2 млн. покадрово выделенных изображений из видеозаписей в формате JPG. Корпус был записан с использованием двух смартфонов и одного планшета, управляемых разработанным программным обеспечением для операционной системы iOS. Кроме того, получены предварительные результаты исследований по автоматическому распознаванию наличия/отсутствия защитной маски на лице человека как по видео-, так и аудиоинформации. Предложен подход к созданию синтетического набора видеоданных с помощью метода наложения защитных масок на изображения лиц людей, обучению моделей и тестирования классификаторов.

Руководитель проекта

Карпов А.А.

Номер

№ 20-04-60529-вирусы

Сроки

2020-2022

Финансирование

Российский фонд фундаментальных исследований (РФФИ)