Многомодальный интерфейс на основе жестов и речи для управления ассистивным мобильным информационным роботом
Многомодальный интерфейс на основе жестов и речи для управления ассистивным мобильным информационным роботом
Основной целью проекта является разработка программных средств многомодального пользовательского интерфейса для взаимодействия ассистивных мобильных информационных роботов с различными группами пользователей, включая людей с ограниченными возможностями по слуху и зрению, посредством автоматического распознавания и синтеза жестовой и речевой информации. В ходе выполнения двустороннего российско-чешского проекта будет получен ряд принципиально новых научно-технических результатов: математическое, программное и информационное обеспечение для бесконтактного взаимодействия с мобильными информационными роботами. Основные ожидаемые научные результаты данного проекта следующие:
- Промежуточные и заключительный отчеты, содержащие:
- Анализ научно-технической литературы, нормативно-технической документации и других материалов, относящихся к предлагаемой теме;
- Обоснование и выбор направления исследований;
- Результаты анализа и теоретических изысканий;
- Результаты и протоколы экспериментальных исследований разработанного многомодального интерфейса.
- Отчеты о патентных исследованиях, оформленные в соответствии с ГОСТ 15.011-96.
- База данных элементов жестового языка, записанная с применением сенсора MS Kinect v2.
- Новые математические модели, методы и алгоритмы для цифровой обработки трехмерных видеосигналов, вероятностного моделирования жестовой и речевой информации.
- Программно-аппаратная реализация автоматического распознавания статических и динамических жестов рук.
- 3D аватар для организации жестового взаимодействия с роботами.
- Многомодальный интерфейс для организации бесконтактного взаимодействия с ассистивным мобильным информационным роботом.
- Серия научных публикаций по результатам проекта и свидетельства о регистрации РИД.
Научно-технические результаты проекта за 2020 год
В ходе этапе 3 «Проведение экспериментальных исследований и обобщение результатов проекта» в 2020 г. Исполнителем СПИИРАН были получены следующие основные результаты:
- Произведено внедрение жестового и речевого интерфейсов в прототип ассистивного мобильного информационного робота.
- Проведенены экспериментальные исследования по многомодальному взаимодействию человека и робота.
- Подготовлен цикт из трех публикаций по результатам третьего этапа работ.
- Представлены устные и стендовые доклады на двух конференциях: 1) XLIX научная и учебно-методическая конференция Университета ИТМО (февраль 2020, Россия, Санкт-Петербург, Университет ИТМО); 2) IX Всероссийский конгресс молодых ученых «КМУ-2020» (апрель 2020, Россия, Санкт-Петербург, Университет ИТМО).
- Проведены патентные исследования, включая отчет о дополнительных патентных исследованиях в соответствии с требованиями ГОСТ Р 15.011-96. Отчет о дополнительных патентных исследованиях содержит результат анализ актуальных патентов из патентных баз данных РФ (Роспатент), Европы и США в промежутке за 2019-20 гг. Дополнительные патентные исследования проводились Исполнителем СПИИРАН для подготовки и подачи заявки на получение патента на изобретение, которое относится к программной части управления ассистивным мобильным информационным роботом (изобретение № 2020112646 от 27.03.2020 «Способ многомодального бесконтактного управления мобильным информационным роботом»).
- Подготовлены документы для государственной регистрации результатов интеллектуальной деятельности (РИД).
- Обобщены результаты работы.
- Разработан заключительный отчет «Проведение экспериментальных исследований и обобщение результатов проекта» о выполненных работах и отчетной документации в соответствии с требованиями технического задания и нормативных актов Минобрнауки России.
Все работы выполнялись в соответствии с планом-графиком исполнения обязательств при проведении исследований, представленном в Соглашении.
Научно-технические результаты проекта за 2019 год
На этапе 2 проекта в 2019 г. Исполнителем СПИИРАН были получены следующие основные результаты:
- Разработано новое и усовершенствовано существующее математическое обеспечение для видеоанализа движений рук и распознавания жестов, включающее модели, методы и алгоритмы для автоматического распознавания элементов русского жестового языка.
- Подготовлена аннотированная база данных элементов русского жестового языка TheRuSLan, записанная с использованием сенсора MS Kinect v2.
См. примеры для жестов ХЛЕБ (видео; транскрипция жеста в HamNoSys) и ЯБЛОКО (видео; транскрипция жеста в HamNoSys), показанных студентами ФКПОУ «Межрегиональный центр реабилитации лиц с проблемами слуха (колледж)» Минтруда России Марией Лукачевой (19 лет) и Никитой Потехиным (22 года). - Разработано программное обеспечение жестового интерфейса для организации бесконтактного взаимодействия с роботами на объектно-ориентированных языках программирования C++ и Python для операционной системы семейства Microsoft Windows 8/8.1/10 64 бит. Разработан комплект необходимой программной документации в соответствии с ЕСПД с описанием разработанного программного обеспечения.
- Разработано программное обеспечение речевого интерфейса для организации вербального взаимодействия с роботами на объектно-ориентированных языках программирования C++ и Python для операционной системы семейства Microsoft Windows 8/8.1/10 64 бит. Разработан комплект необходимой программной документации в соответствии с ЕСПД с описанием разработанного программного обеспечения.
- Подготовлен и опубликован цикл из четырех статьей по текущим результатам проекта в журналах и серийных изданиях, индексируемых международными базами данных Scopus/Web of Science.По результатам проекта представлены устные и стендовые доклады на трех международных конференциях: 1) 21-я Международная конференция «Speech and Computer» SPECOM-2019, Стамбул, Турция, август 2019, СПИИРАН – со-организатор конференции; 2) 17-я Международная конференция по повсеместным вычислениям PerCom-2019 «IEEE International Conference on Pervasive Computing and Communications PerCom-2019, 1st International Workshop on Pervasive Computing and Spoken Dialogue Systems PerDial-2019», Киото, Япония, март 2019; 3) 3-й Международный семинар по фотограмметрии и методам компьютерного зрения в задачах видеонаблюдения, биометрии и биомедицины «Photogrammetric and computer vision techniques for video surveillance, biometrics and biomedicine (PSBB- 19)», Москва, Россия, май 2019.
- Подготовлены документы для государственной регистрации результатов интеллектуальной деятельности (РИД), зарегистрирован РИД с получением патента РФ на изобретение.
- Подготовлены промежуточный отчет об исследованиях и необходимая отчетная документации по этапу 2 проекта.
Научно-технические результаты проекта за 2018 год
На этапе 1 "Выбор направления исследований и сбор данных" проекта в 2018 г. получены следующие основные результаты:
- Аналитический обзор современной научно-технической, нормативной, методической литературы, затрагивающей научно-техническую проблему, исследуемую в рамках исследований, в том числе обзор научных информационных источников за последние 5 лет (более 50 источников).
- Патентные исследования, включая отчет о патентных исследованиях в соответствии с требованиями ГОСТ Р 15.011-96. Отчет о патентных исследованиях содержит результат анализ актуальных патентов из патентных баз данных РФ (Роспатент), Европы и США.
- Программное обеспечение, получившее название MulGesRecDB, на объектно-ориентированном языке программирования высокого уровня С++ для операционной системы семейства Microsoft Windows 8/10 64 бит при помощи сенсора-камеры Microsoft Kinect v2.0, позволяющее записывать жестовые данные для создания базы данных элементов русского жестового языка. Разработан комплект необходимой программной документации в соответствии с ЕСПД с описанием разработанного программного обеспечения.
- Мультимедийная база данных элементов русского жестового языка, получившая название TheRuSLan (Thesaurus of Russian Sign Language), с использованием разработанного программного обеспечения MulGesRecDB и сенсора-камеры Microsoft Kinect v2.0. Мультимедийная база данных TheRuSLan содержит видеозаписи в оптическом формате FullHD, в инфракрасном диапазоне и в режиме карты глубины (3D видеоданные) 164 различных лексических единиц (лексем и фраз) в исполнении 13 информантов минимум в 5 итерациях, общее число жестовых фраз составило более 2 тысяч, общая длительность видеоданных – более 8 часов, общий размер файлов – более 3,8 Тб в оригинальном формате.
- Цикл из трех статьей по текущим результатам проекта, в том числе совместно с Иностранным партнером, 2 из которых индексируются в Scopus.
- Доклады по результатам проекта на трех международных конференциях: 20-я юбилейная международная конференция "Речь и Компьютер" SPECOM-2018 (Лейпциг, Германия, сентябрь 2018); 3-я международная конференция по интерактивной коллаборативной робототехнике ICR-2018 (Лейпциг, Германия, сентябрь 2018) и Конференция «Информационные технологии в управлении» ИТУ-2018 в рамках XI Российской мультиконференции по проблемам управления МКПУ-2018 (Санкт-Петербург, октябрь 2018).
- Промежуточный отчет об исследованиях и необходимая отчетная документации.
- Иностранным партнером - Западночешским университетом (г. Пльзень, Чешская Республика) выполнены научно-исследовательские работы, включая проведение обзора и анализа языка жестов в контексте научно-технических аспектов проекта, запись жестовой базы данных с использованием системы захвата движения Vicon, Data gloves и Kinect v2, разработку соответствующей отчетной документации.