Лаборатория речевых и многомодальных интерфейсов

Интеллектуальная система многомодального распознавания когнитивных нарушений людей

Интеллектуальная система многомодального распознавания когнитивных нарушений людей

Данный проект РНФ направлен на решение актуальной проблемы многомодального распознавания когнитивных нарушений людей по анализу их разговорной речи и визуального проявления мимики и поведения с использованием современных методов цифровой обработки сигналов и глубокого машинного обучения. Целью проекта является разработка и исследование интеллектуальной компьютерной системы для многомодального анализа поведения людей с целью распознавания когнитивных нарушений (при таких заболеваниях как болезни Альцгеймера и Паркинсона, деменция, депрессия и др.) на основе аудио, видео и текстовых данных для повышения эффективности и оперативности бесконтактного диагностирования заболевания. Исследования по автоматической диагностике речевых и многомодальных проявлений когнитивных нарушений являются крайне востребованной междисциплинарной областью применения новейших информационных технологий и искусственного интеллекта в обеспечении здравоохранения и благополучия (healthcare and wellbeing) людей. Это объясняется перспективностью использования методов искусственного интеллекта для оперативной, дистанционной и нетребовательной к оборудованию медицинской диагностики, особенно значимой для людей, которые могут быть ограничены в перемещении в силу особенностей возраста, состояния здоровья, либо по причине удаленного места проживания и невозможности очного приема у медицинского специалиста. Такие исследования обязаны соответствовать высоким требованиям к качеству распознавания нарушений со стороны пользователей и специалистов, а также этическим требованиям, поэтому особую актуальность и значимость имеет разработка новых эффективных, надежных и объяснимых методов искусственного интеллекта (explainable AI) для интерпретации принимаемых решений.

В ходе работы над проектом планируется разработать и исследовать новые и усовершенствовать известные модели, методы, алгоритмы и программные решения для комплексного многомодального распознавания когнитивных нарушений людей. В частности, планируется решить актуальные проблемы, связанные с аугментацией (augmentation) обучающих аудиовизуальных данных на различных языках и изучить возможности получения новых языконезависимых наборов признаков и их применения для русскоязычных данных с использованием экспертных, нейросетевых подходов и больших языковых моделей. Также планируется исследовать подходы для машинной классификации (наличия или отсутствия патологии) или регрессии (определения степени тяжести когнитивного заболевания) рассматриваемых когнитивных нарушений, подходы к обеспечению объяснимости экспертных и нейросетевых признаков, вероятностных моделей когнитивных нарушений. Основным результатом данного проекта должен стать прототип интеллектуальной экспертной системы для автоматического распознавания когнитивных нарушений людей на основе комплексного многомодального анализа акустических характеристик голоса, визуальных характеристик мимики, жестов и поведения человека, а также лингвистических составляющих его речевых высказываний. Ожидается, что полученные результаты будут отвечать современным требованиям и стандартам в данной области и находиться на передовом мировом уровне. Практическая и научно-техническая значимость поставленных в проекте задач подтверждается высоким спросом на разрабатываемые технологии на рынке речевых и многомодальных экспертных технологий для обеспечения здравоохранения и благополучия людей, а также большим количеством зарубежных научных публикаций, посвященных данной проблеме в ведущих научных журналах и трудах международных конференций. Разработанная интеллектуальная система будет уникальной в своем роде ввиду возможности комплексного многомодального определения рассматриваемых когнитивных нарушений в речи и многомодальной коммуникации, использования новых наборов анализируемых признаков, а также применения многоуровневых методов анализа с учетом взаимозависимостей между рассматриваемыми когнитивными нарушениями.

Результаты за 2025 год

В 2025 году выполнен 1-й этап проекта, связанный с исследованием математического и информационного обеспечения интеллектуальной системы многомодального распознавания когнитивных нарушений людей.

Выполнен аналитический обзор современной научно-технической литературы по теме речевых и многомодальных методов распознавания когнитивных нарушений людей. Из аналитического обзора можно сделать вывод, что несмотря на прогресс в области развития нейросетевых методов, ограниченные размеры имеющихся наборов данных и требования медицинской прозрачности и высокой точности методов вынуждают использовать линейные модели, либо развивать архитектуры, поддерживающие возможность объяснения полученных результатов (XAI). Проведен анализ существующего информационного обеспечения и получен доступ к нескольким открытым речевым и многомодальным корпусам, содержащим данные людей с когнитивными нарушениями (ADReSS, ADReSSo, Taukadial, GRAADRD), болезнью Паркинсона (WSM), депрессией (DAIC-WOZ, eDAIC-WOZ).

Проведен патентный поиск глубиной 2005-2025 гг. В результате исследования обнаружены 24 релевантных патента, из которых 9 – российских. В результате не было обнаружено работ, направленных на распознавание одновременно нескольких когнитивных нарушений. Также не было найдено патентных документов, предполагающих одновременный анализ всех модальностей (видео, аудио и текст), что определяет потенциал для наших исследований.

Разработано новое и усовершенствовано существующее математическое обеспечение (модели, методы и алгоритмы) для автоматического моделирования различных когнитивных нарушений:

  1. Предложены и реализованы методы предобработки, нормализации и шумоочистки с использованием классических и нейросетевых технологий. Для видеоданных (влоги WSM) создан единый процесс обработки, включающий методы и модули Silero VAD для определения голосовой активности, whisper-timestamped (Whisper-large-v3-turbo) для распознавания речи с выравниванием и OCEAN-AI для детекции лица. Длинные видеозаписи сегментируются, после чего сохраняются только фрагменты, содержащие речь и лицо информанта, что обеспечивает высокое качество данных. Для клинических аудиоданных используется метод speaker-diarization-3.1 для выделения дикторов, шумоподавление noisereduce и нормализация по громкости. Для извлечения транскрипций применяется связка Silero VAD, whisper-timestamped и моделей Whisper-large-v3-turbo / Whisper-large-v3 с языкоспецифичными промптами, позволяющими минимизировать ошибки распознавания речи и сохранять речевые сбои как потенциальные маркеры нарушений.
  2. Предложены и реализованы методы извлечения экспертных и нейросетевых признаков из аудиоданных и текста с учетом особенностей естественных языков. Используются акустические и просодические аудиопризнаки eGeMAPs (OpenSMILE) и DigiPsych Prosody (WebRTC VAD), а также текстовые представления, формируемые на основе транскрипций Whisper. Применяются экспертные аудиопризнаки OpenSMILE и текстовые признаки BlaBla, а также параметры, полученные из систем распознавания речи при когнитивных нарушениях. В результате предложен новый кросс-языковой набор признаков, пригодный для моделирования когнитивных нарушений в многомодальной среде.
  3. Предложены и реализованы методы аугментации текстовых данных с применением LLM и обратного машинного перевода. Показано, что различные когнитивные нарушения характеризуются специфическими лингвистическими паттернами (повторы, упрощение синтаксиса и др.), что требует различных стратегий аугментации текстовых данных: для деменции, умеренных когнитивных нарушений, биполярных расстройств, болезней Паркинсона и Альцгеймера используется LLM-перефразирование; для депрессии и контрольной группы – обратный машинный перевод Качество аугментации текстовых данных контролируется с использованием количественных показателей BLEU и BERT-score.
  4. Реализованы и исследованы методы объединения экспертных и нейросетевых признаков различных модальностей на корпусах eDAIC-WOZ и WSM. В рамках экспериментальный исследований производилось позднее объединение на уровне предсказаний (аудио, видео и текст), при котором каждая модальность обрабатывается отдельной моделью, а результаты объединяются методом ансамбля классификаторов с голосования большинством. Эксперименты с ранним объединением на уровне признаков показали более низкую точность распознавания. В дальнейшем предполагается использовать архитектуры на основе графов и кросс-модального внимания, которые ранее не применялись в данной области и представляют перспективный подход к повышению качества многомодального анализа когнитивных нарушений.

В процессе исследования было выявлено, что лингвистическая информация наиболее значима при определении когнитивных отклонений, поскольку они оказывают значительное влияние на словарный запас, однако лингвистические текстовые признаки языкозависимы, что ограничивает применимость подобных методов для кросс-языкового анализа. Аудио и видеопризнаки могут передавать важную дополнительную информацию, что позволяет повысить достоверность и снизить влияние языковых особенностей на гипотезы предсказания нарушений.

По результатам проведенных в 2025 году аналитических, теоретических и экспериментальных исследований подготовлен и опубликован цикл из 3-х научных статей в журналах и изданиях, индексируемых в международных системах цитирования Scopus и RSCI, в том числе в российских научных журналах “Информатика и автоматизация” (Scopus и RSCI, УБС 2), “Научно-технический вестник информационных технологий, механики и оптики” (Scopus и RSCI, УБС 2) а также в трудах 27-й международной конференции “Speech and Computer” SPECOM-2025 (г. Сегед, Венгрия) в периодическом научном издании “Lecture Notes in Computer Science” издательства Springer Nature (индексируется в Scopus, уровень Q2).

 

Руководитель проекта
Номер
№ 25-11-00319
Сроки
2025-2027
Финансирование
Российский научный фонд