Статья в международном журнале Expert Systems with Applications (Q1)
Наша лаборатория опубликовала статью в международном журнале Expert Systems with Applications (Scopus, Q1):
Markitantov M., Ryumina E., Karpov A. Audio-visual occlusion-robust gender recognition and age estimation approach based on multi-task cross-modal attention // Expert Systems with Applications, 2026, vol. 296, 127473. (WOS IF=7.5 Q1, Scopus SJR=1.85 Q1 AI)
Распознавание пола и оценка возраста — ключевые задачи «мягкой биометрии», поддерживающие широкий спектр приложений. В реальных условиях задачи усложняются частичной окклюзией лица, скрывающей важные голосовые и визуальные признаки, что подчёркивает необходимость разработки устойчивых и эффективных подходов. В работе представлен новый аудио-визуальный подход ORAGEN (Occlusion-Robust Gender Recognition and Age Estimation), основанный на промежуточных признаках унимодальных моделей трансформеров и двух блоках «Multi-Task Cross-Modal Attention» (MTCMA) для совместного предсказания пола, возраста и типа защитной маски по голосовым и лицевым характеристикам. Проведены детальные межкорпусные эксперименты на TIMIT, aGender, CommonVoice, LAGENDA, IMDB-Clean, AFEW, VoxCeleb2 и BRAVE-MASKS. Предложенные унимодальные модели превосходят SOTA в задачах распознавания пола и оценки возраста; дополнительно показано, как различные типы масок влияют на качество. На тестовой выборке VoxCeleb2 получены значения: UAR=99.51% (пол), MAE=5.42 (возраст), UAR=100% (тип маски); на тестовой выборке BRAVE-MASKS: UAR=96.63%, MAE=7.52 и UAR=95.87% соответственно. Результаты показывают, что данные с людьми в масках и включение задачи распознавания типа маски повышают качество всех рассматриваемых задач; ORAGEN может быть интегрирован в экспертные системы (напр., OCEAN-AI) для прикладных сценариев в здравоохранении и промышленной безопасности.