Мы заняли 1-е место в соревновании ABAW-2025 Compound Expression Challenge на ICCV-2025
Мы приняли участие в соревновании ABAW 2025 - Compound Expression Recognition Challenge и заняли 1-е место. Соревнование проходит в рамках 9th Workshop & Competition on Affective & Behavior Analysis in-the-wild (ABAW) на конференции ICCV 2025.
ICCV 2025 пройдёт: 19–23 октября 2025 г. в Гонолулу, Гавайи, США. Дни воркшопов - 19–20 октября. (Источник: The Computer Vision Foundation / ICCV.)
О соревновании: Compound Expression Recognition (ABAW-2025)
Трек посвящён распознаванию составных эмоций на видео «в диких условиях». Для оценки используется подмножество аудиовизуальной базы C-EXPR-DB (56 видео), а метрика — macro-F1 по кадрам (среднее F1 по всем классам).
Какие эмоции распознавались
- Fearfully Surprised — испуганно-удивлённый
- Happily Surprised — радостно-удивлённая
- Sadly Surprised — грустно-удивлённый
- Disgustedly Surprised — брезгливо-удивлённый
- Angrily Surprised — сердито-удивлённый
- Sadly Fearful — грустно-испуганный
- Sadly Angry — грустно-злой
Аннотация нашей статьи
Распознавание составных выражений (Compound Expression Recognition, CER), подзадача аффективных вычислений, нацеленая на выявление сложных эмоциональных состояний, образованных комбинациями базовых эмоций. В этой работе мы представляем новый мультимодальный zero-shot-подход к CER, объединяющий шесть гетерогенных модальностей в едином методе: статические и динамические выражения лица, сопоставление сцены и меток, контекст сцены, аудио и текст. В отличие от прежних подходов, опирающихся на специализированные обучающие данные, наш метод использует zero-shot-компоненты, включая сопоставление меток на основе CLIP и Qwen-VL для семантического понимания сцены. Мы также вводим модуль Multi-Head Probability Fusion (MHPF), который динамически взвешивает модально-специфичные предсказания, после чего выполняется преобразование базовых эмоций в составные с использованием Pair-wise Probability Aggregation (PPA) или Pair-wise Feature Similarity Aggregation (PFSA). При оценке в режиме multi-corpus наш подход достигает macro-F1: 46.95% на AffWild2, 49.02% на AFEW и 34.85% на C-EXPR-DB при zero-shot-тестировании, что сравнимо с контролируемыми подходами, обученными на целевых данных. Таким образом, наш метод эффективно захватывает составные выражения (CE) без доменной адаптации. Исходный код доступен по адресу: github.com/SMIL-SPCRAS/ICCVW_25.