Speech and Multimodal Interfaces Laboratory

Multi-modal interface based on gestures, speech, and sign language for control of an assistive mobile information robot (AMIR)

Основной целью проекта является разработка программных средств многомодального пользовательского интерфейса для взаимодействия ассистивных мобильных информационных роботов с различными группами пользователей, включая людей с ограниченными возможностями по слуху и зрению, посредством автоматического распознавания и синтеза жестовой и речевой информации. В ходе выполнения двустороннего российско-чешского проекта будет получен ряд принципиально новых научно-технических результатов: математическое, программное и информационное обеспечение для бесконтактного взаимодействия с мобильными информационными роботами. Основные ожидаемые научные результаты данного проекта следующие:

Промежуточные и заключительный отчеты, содержащие:

Анализ научно-технической литературы, нормативно-технической документации и других материалов, относящихся к предлагаемой теме;
Обоснование и выбор направления исследований;
Результаты анализа и теоретических изысканий;
Результаты и протоколы экспериментальных исследований разработанного многомодального интерфейса.

Отчеты о патентных исследованиях, оформленные в соответствии с ГОСТ 15.011-96.
База данных элементов жестового языка, записанная с применением сенсора MS Kinect v2.
Новые математические модели, методы и алгоритмы для цифровой обработки трехмерных видеосигналов, вероятностного моделирования жестовой и речевой информации.
Программно-аппаратная реализация автоматического распознавания статических и динамических жестов рук.
3D аватар для организации жестового взаимодействия с роботами.
Многомодальный интерфейс для организации бесконтактного взаимодействия с ассистивным мобильным информационным роботом.
Серия научных публикаций по результатам проекта и свидетельства о регистрации РИД.

Научно-технические результаты проекта за 2020 год

В ходе этапе 3 «Проведение экспериментальных исследований и обобщение результатов проекта» в 2020 г. Исполнителем СПИИРАН были получены следующие основные результаты:

Произведено внедрение жестового и речевого интерфейсов в прототип ассистивного мобильного информационного робота.
Проведенены экспериментальные исследования по многомодальному взаимодействию человека и робота.
Подготовлен цикт из трех публикаций по результатам третьего этапа работ.
Представлены устные и стендовые доклады на двух конференциях: 1) XLIX научная и учебно-методическая конференция Университета ИТМО (февраль 2020, Россия, Санкт-Петербург, Университет ИТМО); 2) IX Всероссийский конгресс молодых ученых «КМУ-2020» (апрель 2020, Россия, Санкт-Петербург, Университет ИТМО).
Проведены патентные исследования, включая отчет о дополнительных патентных исследованиях в соответствии с требованиями ГОСТ Р 15.011-96. Отчет о дополнительных патентных исследованиях содержит результат анализ актуальных патентов из патентных баз данных РФ (Роспатент), Европы и США в промежутке за 2019-20 гг. Дополнительные патентные исследования проводились Исполнителем СПИИРАН для подготовки и подачи заявки на получение патента на изобретение, которое относится к программной части управления ассистивным мобильным информационным роботом (изобретение № 2020112646 от 27.03.2020 «Способ многомодального бесконтактного управления мобильным информационным роботом»).
Подготовлены документы для государственной регистрации результатов интеллектуальной деятельности (РИД).
Обобщены результаты работы.
Разработан заключительный отчет «Проведение экспериментальных исследований и обобщение результатов проекта» о выполненных работах и отчетной документации в соответствии с требованиями технического задания и нормативных актов Минобрнауки России.

Все работы выполнялись в соответствии с планом-графиком исполнения обязательств при проведении исследований, представленном в Соглашении.

Научно-технические результаты проекта за 2019 год

На этапе 2 проекта в 2019 г. Исполнителем СПИИРАН были получены следующие основные результаты:

Разработано новое и усовершенствовано существующее математическое обеспечение для видеоанализа движений рук и распознавания жестов, включающее модели, методы и алгоритмы для автоматического распознавания элементов русского жестового языка.
There was compiled and annotated the database of RSL lexical units (TheRuSLan), collected using MS Kinect v2 sensor.
Watch video examples for BREAD (video; HamNoSys transcription) and APPLE (video; HamNoSys transcription) gestures, signed by students of Pavlovsk Interregional Center (College) for the Rehabilitation of Persons with Hearing Impairment Maria Lukachyova (19 y.o., prelingual deaf) and Nikita Potexin (22 y.o., prelingual deaf).
Разработано программное обеспечение жестового интерфейса для организации бесконтактного взаимодействия с роботами на объектно-ориентированных языках программирования C++ и Python для операционной системы семейства Microsoft Windows 8/8.1/10 64 бит. Разработан комплект необходимой программной документации в соответствии с ЕСПД с описанием разработанного программного обеспечения.
Разработано программное обеспечение речевого интерфейса для организации вербального взаимодействия с роботами на объектно-ориентированных языках программирования C++ и Python для операционной системы семейства Microsoft Windows 8/8.1/10 64 бит. Разработан комплект необходимой программной документации в соответствии с ЕСПД с описанием разработанного программного обеспечения.
Подготовлен и опубликован цикл из четырех статьей по текущим результатам проекта в журналах и серийных изданиях, индексируемых международными базами данных Scopus/Web of Science.По результатам проекта представлены устные и стендовые доклады на трех международных конференциях: 1) 21-я Международная конференция «Speech and Computer» SPECOM-2019, Стамбул, Турция, август 2019, СПИИРАН – со-организатор конференции; 2) 17-я Международная конференция по повсеместным вычислениям PerCom-2019 «IEEE International Conference on Pervasive Computing and Communications PerCom-2019, 1st International Workshop on Pervasive Computing and Spoken Dialogue Systems PerDial-2019», Киото, Япония, март 2019; 3) 3-й Международный семинар по фотограмметрии и методам компьютерного зрения в задачах видеонаблюдения, биометрии и биомедицины «Photogrammetric and computer vision techniques for video surveillance, biometrics and biomedicine (PSBB- 19)», Москва, Россия, май 2019.
Подготовлены документы для государственной регистрации результатов интеллектуальной деятельности (РИД), зарегистрирован РИД с получением патента РФ на изобретение.
Подготовлены промежуточный отчет об исследованиях и необходимая отчетная документации по этапу 2 проекта.

Научно-технические результаты проекта за 2018 год

На этапе 1 "Выбор направления исследований и сбор данных" проекта в 2018 г. получены следующие основные результаты:

Аналитический обзор современной научно-технической, нормативной, методической литературы, затрагивающей научно-техническую проблему, исследуемую в рамках исследований, в том числе обзор научных информационных источников за последние 5 лет (более 50 источников).
Патентные исследования, включая отчет о патентных исследованиях в соответствии с требованиями ГОСТ Р 15.011-96. Отчет о патентных исследованиях содержит результат анализ актуальных патентов из патентных баз данных РФ (Роспатент), Европы и США.
Программное обеспечение, получившее название MulGesRecDB, на объектно-ориентированном языке программирования высокого уровня С++ для операционной системы семейства Microsoft Windows 8/10 64 бит при помощи сенсора-камеры Microsoft Kinect v2.0, позволяющее записывать жестовые данные для создания базы данных элементов русского жестового языка. Разработан комплект необходимой программной документации в соответствии с ЕСПД с описанием разработанного программного обеспечения.
Мультимедийная база данных элементов русского жестового языка, получившая название TheRuSLan (Thesaurus of Russian Sign Language), с использованием разработанного программного обеспечения MulGesRecDB и сенсора-камеры Microsoft Kinect v2.0. Мультимедийная база данных TheRuSLan содержит видеозаписи в оптическом формате FullHD, в инфракрасном диапазоне и в режиме карты глубины (3D видеоданные) 164 различных лексических единиц (лексем и фраз) в исполнении 13 информантов минимум в 5 итерациях, общее число жестовых фраз составило более 2 тысяч, общая длительность видеоданных – более 8 часов, общий размер файлов – более 3,8 Тб в оригинальном формате.
Цикл из трех статьей по текущим результатам проекта, в том числе совместно с Иностранным партнером, 2 из которых индексируются в Scopus.
Доклады по результатам проекта на трех международных конференциях: 20-я юбилейная международная конференция "Речь и Компьютер" SPECOM-2018 (Лейпциг, Германия, сентябрь 2018); 3-я международная конференция по интерактивной коллаборативной робототехнике ICR-2018 (Лейпциг, Германия, сентябрь 2018) и Конференция «Информационные технологии в управлении» ИТУ-2018 в рамках XI Российской мультиконференции по проблемам управления МКПУ-2018 (Санкт-Петербург, октябрь 2018).
Промежуточный отчет об исследованиях и необходимая отчетная документации.
Иностранным партнером - Западночешским университетом (г. Пльзень, Чешская Республика) выполнены научно-исследовательские работы, включая проведение обзора и анализа языка жестов в контексте научно-технических аспектов проекта, запись жестовой базы данных с использованием системы захвата движения Vicon, Data gloves и Kinect v2, разработку соответствующей отчетной документации.

Project's head

Karpov A.A.

Number

Agreement № 14.616.21.0095 (ID Number: RFMEFI61618X0095)

Period

2018-2020

Financing

Ministry of Science and Higher Education of the Russian Federation

Co-executor

The University of West Bohemia, Pilsen, Czech Republic

2 stage 2019 (rus) 1 stage 2018 (rus)