Корпус Biometric Russian Audio-Visual Extended MASKS (BRAVE-MASKS)
Корпус BRAVE-MASKS содержит многоракурсные изображения лиц людей в различных видах защитных масок, а также аудиозаписи непрерывной русской речи людей в масках. Многомодальные данные были записаны с использованием трех устройств: двух смартфонов Apple iPhone XS Max (слева и справа) и планшета Apple iPad Pro (в центре) в обычных офисных условиях на неоднородном фоне. К одному телефону был подключен петличный микрофон Boya BY-M1. Одновременно велись три непрерывные аудио-видеозаписи. В настоящее время в корпусе представлены записи 30 носителей русского языка (15 мужчин и 15 женщин в возрасте от 19 до 86 лет, средний возраст 40,84 года, стандартное отклонение 19,02 года) как в различных защитных масках, так и без них. Во время записи информанты выполняли различные задания и сценарии как без маски, так и в различных защитных масках (одноразовые медицинские маски, многоразовые тканевые маски различных цветов и принтов, медицинские и специальные респираторы как с фильтрами, так и без них, защитные щитки). Всего использовались 33 защитные маски. Аналогичные защитные маски были объединены в один класс. Таким образом, получилось 6 классов (типов масок): тканевая маска (Tissue Mask, TM), медицинская маска (Medical Mask, MM), защитные маски (Protective Mask, PM) FFP2 и FFP3, респиратор (Respirator, R), защитный щиток (Protective Face Shield, PFS) и без маски (No Mask, NM). Каждый информант был записан в 6 сессиях в 3-х канальном режиме: один раз без маски и 5 раз в 5 различных масках. Корпус состоит из двух частей: бимодальной (аудиовизуальные данные) и унимодальной (видеоданные).
Бимодальная часть
Бимодальная часть содержит аудиовизуальные записи речевых высказываний. Аудиоданные были записаны с частотой 48 кГц, 16 бит, моно. Параметры видеоданных эквивалентны унимодальной части (см. Унимодальная часть). Все дикторы зачитывали предложения из Приложения Г к ГОСТ Р 50840-95 "Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости" (при этом для каждого диктора использовался свой набор фраз) и из фонетически представительного текста «Был тихий, серый вечер» (Степанова С. Б. Фонетические свойства русской речи: реализация и транскрипция: Дис. канд. филол. наук. Л., 1988.). Оставшиеся фразы представляли из себя спонтанную речь. Описание изображений или рассказ о себе: любимый фильм, любимая игра, кулинарное блюдо, страна в которой хотел бы побывать диктор и т. д. (при этом для каждой сессии использовалась своя тематика и разные изображения).
Унимодальная часть
Унимодальная часть содержит только видео (без аудио) записи вращения головы (по часовой стрелке и против часовой стрелки) с 8 разных точек в помещении: с расстояния от 0,9 (для аудиоустановки) до 3,2 метра (для видеоустановки) под разными углами. Параметры видеофайлов: разрешение видеоданных 4K 3840x2160 пикселей, частота кадров 60 (для смартфонов) и 30 (для планшетов) кадров в секунду, цветность 24 бита на пиксель.
Аннотирование корпуса
Данные каждого информанта записывались непрерывно. Мы разделили полученные файлы на сеансы и высказывания полуавтоматическим способом. После этого мы разбили все данные на наборы Train/Development/Test с поддержанием диктронезависимости в каждом наборе, примерно с одинаковым распределением по возрасту и полу.
Для каждого канала бимодальной части мы получили 30 дикторов x 6 масок x 83 высказывания = 14940 видеофайлов, всего 20 ч 57 мин 33 сек. Продолжительность высказываний варьировалась от 0,42 до 514,9 сек. (самое длинное спонтанная речь).
Все записанные видеофайлы в унимодальной части с вращениями головы (30 информантов х 3 канала x 2 сценария вращения = 180 видео) были разрезаны на фрагменты для каждой маски (180 видео х 6 масок = 1080 фрагментов). Из полученных фрагментов извлекались изображения (1 кадр в секунду). Для каждого информанта было извлечено от 7800 до 13300 изображений (в среднем 9350) в формате JPG. Кроме того, мы выполнили аннотацию области интереса. Для этого использовался детектор RetinaFace. Выяснилось, что у этого детектора было много ложных срабатываний (различные нелицевые объекты), поэтому приходилось вручную проверять аннотации для каждого кадра и удалять ошибочные случаи.
Возможное применение
- многоклассовое распознавание типа маски диктора по речи и изображению лица,
- бинарная классификация дикторов в маске или без маски,
- задача регресии, в частности, определить, насколько голос в маске изменяется по сравнению с голосом без маски,
- задачи верификации и идентификации дикторов.
Доступ к корпусу
Этот корпус находится в открытом доступе. Разрешение на использование, но не на воспроизведение или распространение нашего корпуса предоставляется всем исследователям при условии, что будут правильно выполнены следующие шаги:
Отправьте письмо Максиму Маркитантову (m.markitantov@yandex.ru), чтобы получить ссылку на скачивание корпуса и пароль для доступа к его файлам. Ваше письмо ДОЛЖНО быть отправлено с действующего университетского аккаунта и ДОЛЖНО содержать следующий текст:
1. Тема письма: Соглашение для загрузки набора данных BRAVE-MASKS. 2. Имя: <ваши имя и фамилия> 3. Аффилиация: <Университет, в котором вы работаете> 4. Отдел: <ваш отдел> 5. Должность: <ваша должность> 6. Электронная почта: <должен быть адрес электронной почты указанного выше учреждения> Я прочитал и согласен с условиями, указанными на веб-странице базы данных BRAVE-MASKS. Эта база данных будет использоваться только в исследовательских целях. Я не буду предоставлять какую-либо часть этой базы данных третьим лицам. Я не буду продавать какую-либо часть этой базы данных или получать прибыль от ее использования.
Если вы собираетесь использовать упомянутые выше данные, вы ДОЛЖНЫ сослаться на статью, представленную ниже:
Markitantov M., Ryumina E., Ryumin D., Karpov A. Biometric Russian Audio-Visual Extended MASKS (BRAVE-MASKS) Corpus: Multimodal Mask Type Recognition Task // In Proc. of INTERSPEECH, 2022, pp. 1756-1760.
или:
@inproceedings{bravemasks_corpus, title={Biometric Russian {Audio-Visual} Extended MASKS ({BRAVE-MASKS}) Corpus: Multimodal Mask Type Recognition Task}, author={Maxim Markitantov and Elena Ryumina and Dmitry Ryumin and Alexey Karpov}, booktitle={Proc. of INTERSPEECH}, pages={1756--1760}, year={2022}, doi={10.21437/Interspeech.2022-10240} }