Лаборатория речевых и многомодальных интерфейсов

Корпус Biometric Russian Audio-Visual Extended MASKS (BRAVE-MASKS)

6 классов в корпусе BRAVE-MASKS
30 информантов: 15 мужчин, 15 женщин
Возраст: 19-86 (mean: 40.83, STD: 19.01)
Общая длительность: 21 ч. 00 мин. 09 сек. (для одного канала)
Длительность высказываний: 0.42 сек. - 514.9 сек.
Устройства записи: iPhone XS Max (левый канал), iPad Pro (центральный канал), iPhone XS Max + Boya BY-M1 (правый канал)
Параметры аудио: 48 кГц, 16 бит, моно (PCM WAV)
Параметры видео: 4K 3840x2160 пикселей, 60 (для смартфонов) и 30 (для планшета) кадров в секунду (MOV)
Объем данных: ~185 Гб
Примеры файлов из корпуса BRAVE-MASKS: скачать

Корпус BRAVE-MASKS содержит многоракурсные изображения лиц людей в различных видах защитных масок, а также аудиозаписи непрерывной русской речи людей в масках. Многомодальные данные были записаны с использованием трех устройств: двух смартфонов Apple iPhone XS Max (слева и справа) и планшета Apple iPad Pro (в центре) в обычных офисных условиях на неоднородном фоне. К одному телефону был подключен петличный микрофон Boya BY-M1. Одновременно велись три непрерывные аудио-видеозаписи. В настоящее время в корпусе представлены записи 30 носителей русского языка (15 мужчин и 15 женщин в возрасте от 19 до 86 лет, средний возраст 40,84 года, стандартное отклонение 19,02 года) как в различных защитных масках, так и без них. Во время записи информанты выполняли различные задания и сценарии как без маски, так и в различных защитных масках (одноразовые медицинские маски, многоразовые тканевые маски различных цветов и принтов, медицинские и специальные респираторы как с фильтрами, так и без них, защитные щитки). Всего использовались 33 защитные маски. Аналогичные защитные маски были объединены в один класс. Таким образом, получилось 6 классов (типов масок): тканевая маска (Tissue Mask, TM), медицинская маска (Medical Mask, MM), защитные маски (Protective Mask, PM) FFP2 и FFP3, респиратор (Respirator, R), защитный щиток (Protective Face Shield, PFS) и без маски (No Mask, NM). Каждый информант был записан в 6 сессиях в 3-х канальном режиме: один раз без маски и 5 раз в 5 различных масках. Корпус состоит из двух частей: бимодальной (аудиовизуальные данные) и унимодальной (видеоданные).

Возрастное и половое распределение корпуса BRAVE-MASKS
Установка для записи корпуса BRAVE-MASKS

Бимодальная часть

Бимодальная часть содержит аудиовизуальные записи речевых высказываний. Аудиоданные были записаны с частотой 48 кГц, 16 бит, моно. Параметры видеоданных эквивалентны унимодальной части (см. Унимодальная часть). Все дикторы зачитывали предложения из Приложения Г к ГОСТ Р 50840-95 "Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости" (при этом для каждого диктора использовался свой набор фраз) и из фонетически представительного текста «Был тихий, серый вечер» (Степанова С. Б. Фонетические свойства русской речи: реализация и транскрипция: Дис. канд. филол. наук. Л., 1988.). Оставшиеся фразы представляли из себя спонтанную речь. Описание изображений или рассказ о себе: любимый фильм, любимая игра, кулинарное блюдо, страна в которой хотел бы побывать диктор и т. д. (при этом для каждой сессии использовалась своя тематика и разные изображения).

Унимодальная часть

Унимодальная часть содержит только видео (без аудио) записи вращения головы (по часовой стрелке и против часовой стрелки) с 8 разных точек в помещении: с расстояния от 0,9 (для аудиоустановки) до 3,2 метра (для видеоустановки) под разными углами. Параметры видеофайлов: разрешение видеоданных 4K 3840x2160 пикселей, частота кадров 60 (для смартфонов) и 30 (для планшетов) кадров в секунду, цветность 24 бита на пиксель.

Аннотирование корпуса

Данные каждого информанта записывались непрерывно. Мы разделили полученные файлы на сеансы и высказывания полуавтоматическим способом. После этого мы разбили все данные на наборы Train/Development/Test с поддержанием диктронезависимости в каждом наборе, примерно с одинаковым распределением по возрасту и полу.

Для каждого канала бимодальной части мы получили 30 дикторов x 6 масок x 83 высказывания = 14940 видеофайлов, всего 20 ч 57 мин 33 сек. Продолжительность высказываний варьировалась от 0,42 до 514,9 сек. (самое длинное спонтанная речь).

Все записанные видеофайлы в унимодальной части с вращениями головы (30 информантов х 3 канала x 2 сценария вращения = 180 видео) были разрезаны на фрагменты для каждой маски (180 видео х 6 масок = 1080 фрагментов). Из полученных фрагментов извлекались изображения (1 кадр в секунду). Для каждого информанта было извлечено от 7800 до 13300 изображений (в среднем 9350) в формате JPG. Кроме того, мы выполнили аннотацию области интереса. Для этого использовался детектор RetinaFace. Выяснилось, что у этого детектора было много ложных срабатываний (различные нелицевые объекты), поэтому приходилось вручную проверять аннотации для каждого кадра и удалять ошибочные случаи.

Возможное применение

  • многоклассовое распознавание типа маски диктора по речи и изображению лица,
  • бинарная классификация дикторов в маске или без маски,
  • задача регресии, в частности, определить, насколько голос в маске изменяется по сравнению с голосом без маски,
  • задачи верификации и идентификации дикторов.

Доступ к корпусу

Этот корпус находится в открытом доступе. Разрешение на использование, но не на воспроизведение или распространение нашего корпуса предоставляется всем исследователям при условии, что будут правильно выполнены следующие шаги:

  • Отправьте письмо Максиму Маркитантову (m.markitantov@yandex.ru), чтобы получить ссылку на скачивание корпуса и пароль для доступа к его файлам. Ваше письмо ДОЛЖНО быть отправлено с действующего университетского аккаунта и ДОЛЖНО содержать следующий текст:

    1. Тема письма: Соглашение для загрузки набора данных BRAVE-MASKS.
    2. Имя: <ваши имя и фамилия>
    3. Аффилиация: <Университет, в котором вы работаете>
    4. Отдел: <ваш отдел>
    5. Должность: <ваша должность>
    6. Электронная почта: <должен быть адрес электронной почты указанного выше учреждения>
    
    Я прочитал и согласен с условиями, указанными на веб-странице базы данных BRAVE-MASKS.
    Эта база данных будет использоваться только в исследовательских целях.
    Я не буду предоставлять какую-либо часть этой базы данных третьим лицам.
    Я не буду продавать какую-либо часть этой базы данных или получать прибыль от ее использования.
    
  • Если вы собираетесь использовать упомянутые выше данные, вы ДОЛЖНЫ сослаться на статью, представленную ниже:

    Markitantov M., Ryumina E., Ryumin D., Karpov A. Biometric Russian Audio-Visual Extended MASKS (BRAVE-MASKS) Corpus: Multimodal Mask Type Recognition Task // In Proc. of INTERSPEECH, 2022, pp. 1756-1760.

    или:

    @inproceedings{bravemasks_corpus,
      title={Biometric Russian {Audio-Visual} Extended MASKS ({BRAVE-MASKS}) Corpus: Multimodal Mask Type Recognition Task},
      author={Maxim Markitantov and Elena Ryumina and Dmitry Ryumin and Alexey Karpov},
      booktitle={Proc. of INTERSPEECH},
      pages={1756--1760},
      year={2022},
      doi={10.21437/Interspeech.2022-10240}
    }