RU2737231C1 - Способ многомодального бесконтактного управления мобильным информационным роботом - Google Patents

Способ многомодального бесконтактного управления мобильным информационным роботом Download PDF

Info

Publication number
RU2737231C1
RU2737231C1 RU2020112646A RU2020112646A RU2737231C1 RU 2737231 C1 RU2737231 C1 RU 2737231C1 RU 2020112646 A RU2020112646 A RU 2020112646A RU 2020112646 A RU2020112646 A RU 2020112646A RU 2737231 C1 RU2737231 C1 RU 2737231C1
Authority
RU
Russia
Prior art keywords
user
video
gesture
mobile information
robot
Prior art date
Application number
RU2020112646A
Other languages
English (en)
Inventor
Дмитрий Рюмин
Ирина Сергеевна Кипяткова
Ильдар Амирович Кагиров
Александр Аксёнов
Алексей Анатольевич Карпов
Original Assignee
Федеральное государственное бюджетное учреждение науки "Санкт-Петербургский Федеральный исследовательский центр Российской академии наук" (СПб ФИЦ РАН)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Федеральное государственное бюджетное учреждение науки "Санкт-Петербургский Федеральный исследовательский центр Российской академии наук" (СПб ФИЦ РАН) filed Critical Федеральное государственное бюджетное учреждение науки "Санкт-Петербургский Федеральный исследовательский центр Российской академии наук" (СПб ФИЦ РАН)
Priority to RU2020112646A priority Critical patent/RU2737231C1/ru
Application granted granted Critical
Publication of RU2737231C1 publication Critical patent/RU2737231C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Изобретение относится к области искусственного интеллекта. Технический результат заключается в расширении функциональности мобильного информационного робота за счет использования многомодального человеко-машинного взаимодействия, под которым понимается управление мобильным информационным роботом через комбинирование аудио и видео модальностей. Изобретение содержит способ многомодального бесконтактного управления мобильным информационным роботом, состоящий из захвата трехмерного пространства, распознавания жеста, отличающийся тем, что происходит комбинированная обработка видео- и аудиоинформации от пользователя, последовательная обработка видеоинформации от пользователя, формирование областей с людьми на каждом трехмерном (3D) кадре карты глубины, вычисление 3D 25-точечных моделей скелетов людей, слежение за ближайшим человеком, преобразование 3D 25-точечной скелетной модели ближайшего человека в 2D 25-точечную скелетную модель, определение графической области лица и форм рук в пределах сформированной прямоугольной области с человеком, вычисление визуальных признаков жеста в определенный момент времени, последовательная обработка аудиоинформации от пользователя, вычисление акустических признаков, распознавание речевых команд. 1 ил.

Description

Изобретение относится к области искусственного интеллекта, а именно к человеко-машинному взаимодействию. Оно может быть использовано в любой ситуации, где необходимо бесконтактное взаимодействие различных групп пользователей, включая людей с ограниченными возможностями по слуху и зрению, с мобильными информационными роботами посредством автоматического распознавания жестовой и речевой информации.
Заявленное изобретение способно обрабатывать как естественные управляющие жесты рук, так и элементы жестового языка глухих людей, а также управляющие речевые команды пользователя.
Для решения задач человеко-машинного взаимодействия возможно использовать интерактивные информационные системы на базе естественных и универсальных способов обмена информацией (жесты, речь). Так, например, крупнейшая японская автомобильная компания Toyota начиная с 2004 года разрабатывает социальных роботов с искусственным интеллектом, в рамках проекта «Partner Robot Family» (https://www.toyota-global.com/innovation/partner_robot/) в июле 2015 года на выставке в Японии она представила робота Human Support Robot (HSR), ориентированного на помощь людям с инвалидностью в повседневной жизни и коммуникации («ассистивные технологии»). Робот HSR управляется голосовыми командами, жестами или графическим интерфейсом на базе мобильного устройства (смартфон, планшет) и направлен на решение таких задач, как открытие дверей, включение света, захват предметов или доставку (к примеру, бутылок с водой или таблеток) и т.д. Кроме того, робот снабжен функциями телеприсутствия и удаленного контроля, что облегчает стороннюю заботу о человеке с ограниченными возможностями здоровья. В свою очередь, Американское космическое Национальное управление по аэронавтике и исследованию космического пространства (NASA) ведет разработки управляемого жестами космонавтов космического робота-ассистента «Mars 2020 Rover» в рамках программы «Марс-2020», целью которой является исследование Марса (https://mars.nasa.gov/mars2020/). Также Европейское космическое агентство (ESA) в рамках проекта «MOONWALK» разработало технологии для будущих космических миссий на Луну и Марс, в том числе интеллектуальный жестовый/многомодальный интерфейс для бесконтактного управления мобильным роботом-ассистентом в имитируемых условиях лунного ландшафта с возможностью автоматизированного следования за космонавтом (режим «Follow Me») (http://www.projectmoonwalk.net/moonwalk/).
Кроме описанных решений также известен способ, содержащий систему распознавания жестов с распознаванием статической позы кисти руки, основанным на динамическом изменении масштаба времени (патент RU 2014101965 A), который состоит из следующих этапов: идентифицирует представляющую интерес область кисти руки на изображении; извлекает контур области кисти руки; вычисляет вектор признаков на основе извлеченного контура; распознает статическую позу, которая представляет интерес области кисти руки с помощью операции динамического изменения масштаба времени на основе вектора признаков. К числу недостатков данного решения следует отнести отсутствие распознавания динамических жестов.
Известен способ распознавания жестов в динамике для последовательности стереокадров (патент RU 2280894 С2), который позволяет интерпретировать жесты с высокой точностью. Данный результат достигается за счет получения стереоизображений объекта, по которым строится карта различий в глубинах. Автоматическая инициализация системы происходит с помощью вероятностной модели верхней части тела объекта (человека). Моделирование верхней части тела осуществляется через три плоскости (туловище и руки человека), а также три гауссовские компоненты (голова и кисти человека). Из недостатков данного решения следует заметить использование только оптических камер.
Известно устройство и способ для распознавания жестов с использованием радиочастотного датчика (патент RU 2641269 C1), который позволяет получить следующие преимущества: непрерывную обработку жестов во время перемещения пользователя; наличие возможности встраивания в различные носимые устройства; отсутствие необходимости фиксации устройства для распознавания жестов на теле пользователя, поскольку настоящее изобретение использует радиочастотные сигналы, имеющие длины волн, которые длиннее, чем возможные расстояния смещения устройства на части тела пользователя; удобное управление устройством с помощью жеста; использование небольшого числа датчиков (антенн). Таким образом, данное изобретение позволяет распознавать жесты с помощью радиочастотного датчика, который последовательно генерирует набор радиочастотных сигналов с помощью передатчика и последовательно испускает набор радиочастотных сигналов в ткани частей тела пользователя через антенны; прием наборов радиочастотных сигналов, отраженных и искаженных тканями частей тела пользователя осуществляется через приемник и антенну; разделение каждого принятого радиочастотного сигнала в каждом наборе сигналов на первый и второй радиочастотные сигналы с помощью приемника, при этом первый радиочастотный сигнал представляет амплитуду, а второй сигнал представляет фазовый сдвиг; преобразование радиочастотных сигналов в цифровые сигналы осуществляется при помощи аналого-цифрового преобразователя, чтобы получать наборы цифровых сигналов, причем каждый набор цифровых сигналов получается из соответствующего набора радиочастотных сигналов; обработку наборов цифровых сигналов в центральном процессоре посредством искусственной нейронной сети с использованием опорных наборов данных для распознавания жестов, причем каждый опорный набор данных соответствует конкретному жесту и получен обучением искусственной нейронной сети.
Известен способ, содержащий систему распознавания жестов для управления телевизором (патент US 9213890 B2). Данная система использует метод на основе определения цвета кожи в сочетании с информацией о движении для выполнения сегментации в режиме реального времени. Фильтр Калмана используется для отслеживания центров тяжести рук. Вычисляются центры ладоней и их нижняя координата, а также наибольшее расстояние от центра ладоней до их контуров, которые вычисляются на основе извлеченных масок рук. Вычисленные расстояния затем сравнивается с заданным порогом, чтобы определить, являются ли текущие положения «открытыми» или «закрытыми». В предпочтительном варианте осуществления переход между положением «открыто» и «закрыто» позволяет определить, находится ли текущий жест в состоянии «выбрать» или «захватить». К минусам данного способа можно отнести возможность распознавания только жестов, когда руки закрыты или открыты.
Известен способ распознавания жестов на основе карты глубины и компьютерного зрения (патент WO 2019/091491 Al), который использует систему устройств из цветной камеры и карты глубины для идентификации переднего плана видеоинформации на основе информации полученной от карты глубины и определение того, соответствует ли она заранее заданному жесту в базе данных. В случае совпадения определяется дальнейшие совпадения видеокадров с предопределенными жестами. К числу недостатков данного подхода следует отнести распознавание только одноручных статических жестов.
Известен способ распознавания речи на основе двухуровнего морфофонетического префиксного графа (патент RU 2597498 C1), который позволяет распознавать слитную непрерывную речь вне зависимости от индивидуальных особенностей говорящего на основе определения групп фонем по характеризующим их признакам и метода последовательного декодирования последовательностей символов, обозначающих группы фонем, на основе двухуровнего морфофонемного префиксного графа в цепочку слов, составляющих высказывание (текст). К числу недостатков данного подхода следует отнести: вариативность морфем в русском языке из-за чередования звуков, затрудняющую правильное формирование слов; короткий размер единиц словаря (морфем), приводящий к появлению большого числа омонимов, что затрудняет построение модели языка.
Наиболее близким по технической сущности к заявляемому способу и выбранным в качестве прототипа является способ управления устройством с помощью жестов (патент RU 2455676 C2), включающий подачу жеста пользователем, захват трехмерного изображения, распознавание жеста и выдачу на управляемое устройство соответствующей жесту команды, отличающийся тем, что в окружающем пользователя пространстве выделяют, по меньшей мере, одну сенсорную область, с каждой сенсорной областью ассоциируют, по меньшей мере, один ожидаемый жест и с каждой комбинацией сенсорной области и жеста ассоциируют одну команду, определяют положение глаз пользователя, положение его головы и положение его руки, определяют условную линию взгляда, исходящую из органа зрения пользователя и направленную в видимую пользователем точку окружающего пространства, проверяют, направлена ли условная линия взгляда на сенсорную область, анализируют подаваемый рукой пользователя жест и в случае, если жест подают одновременно с наведением условной линии взгляда на сенсорную область, то на управляемое устройство выдают команду, ассоциированную с данной комбинацией сенсорной области и поданного жеста.
Основными недостатками существующих аналогов в предметной области является их узкая функциональная направленность, выраженная в решении задач с использованием только одной модальности (аудио или видео).
Техническая проблема, решение которой обеспечивается настоящим изобретением, заключается в необходимости расширения функциональности мобильного информационного робота за счет использования многомодального человеко-машинного взаимодействия, под которым понимается управление мобильным информационным роботом через комбинирование аудио и видео модальностей.
Технический результат достигается за счет того, что способ многомодального бесконтактного управления мобильным информационным роботом, заключающийся в комбинированной обработке видео- и аудиоинформации от пользователя.
Кроме того, комбинированная обработка видео- и аудиоинформации от пользователя заключается в последовательной обработке видеоинформации от пользователя, включающей прием цветных видеоданных и карты глубины; формировании областей с людьми на каждом трехмерном (3D) кадре карты глубины; вычислении 3D 25-точечных моделей скелетов людей; слежении за ближайшим человеком; преобразовании 3D 25-точечной скелетной модели ближайшего человека в 2D 25-точечную скелетную модель; определении графической области лица и форм рук в пределах сформированных прямоугольной области с человеком; вычислении визуальных признаков жеста в определенный момент времени; распознавании жеста; последовательной обработке аудиоинформации от пользователя, включающей определение границ речи; вычислении акустических признаков; распознавании речевых команд. Действие мобильного информационного робота происходит на основании полученных результатов распознанных аудио и видео модальностей.
Сущность изобретения поясняется фиг. 1, на которой отображена функциональная схема способа многомодального бесконтактного управления мобильным информационным роботом.
В способе многомодального бесконтактного управления мобильным информационным роботом (фиг. 1) входные данные представляют в виде видеосигнала (100) и аудиосигнала (200). В роли приемника видеосигнала (101) выступает устройство, способное получать цветные видеоданные и карту глубины (например, сенсор Kinect v2). Качество цветопередачи цветного (120) видеопотока составляет 8 бит с разрешением видеопотока 1920×1080 (FullHD) пикселей и частотой 30 кадров в секунду, а для карты глубины (110) 16 бит с разрешением видеопотока 512×424 пикселей и такой же частотой кадров, как у цветного видеопотока. В роли приемника аудиосигнала (201) выступает устройство, способное получать аудиоданные с частотой дискретизации 16 КГц, 16 бит на цифровой отсчет и отношением аудиосигнал/шум - не менее 20 дБ (например, смартфон на базе операционной системы Android версии 7.0 и выше). Данные устройства получения сигналов устанавливают на мобильный информационный робот на высоту от 1 до 1.5 метра, также способ предполагает соблюдение расстояния от человека, который выполняет бесконтактное управление до робота в диапазоне от 1.2 до 3.5 метров.
Формирование областей с людьми (111) на каждом 3D кадре карты глубины (110) и вычисление 3D 25-ти точечных моделей скелетов людей (112) осуществляют с помощью набора средств разработки приемника, который формирует карту глубины (например, набор средств разработки сенсора Kinect v2 [https://docs.microsoft.com/en-us/previous-versions/windows/kinect/dn758675(v=ieb.10)]).
Слежение за ближайшим человеком (113) производят на основании определения ближайшей 3D скелетной модели по оси Z трехмерного пространства путем вычисления минимального значения из всех средних значений оси Z 25-ти точечных моделей скелетов людей.
Преобразование 3D 25-ти скелетной модели ближайшего человека в 2D 25-ти скелетную модель (121) осуществляют, например, с помощью набора средств разработки приемника, что позволяет формировать 2D области (122) с ближайшим человеком.
Кроме того, в пределах сформированной прямоугольной области с человеком производят определение графической области лица (130) и форм рук (140). Задачу по детектированию лиц (130) людей решают с помощью обученного детектора на основе сверточной нейронной сети, который, например, реализован в библиотеке компьютерного зрения и машинного обучения Dlib [https://www.dlib.net] и имеет следующие особенности: используется детектор для обнаружения объектов [D.E. King. Max-margin object detection // arXiv preprint arXiv:1502.00046, 2015] с функциями на основе сверточной нейронной сети; для обучения модели применяют такие наборы данных, как: ImageNet [J. Deng, W. Dong, R. Socher, L.J. Li, K. Li, L. Fei-Fei. Imagenet: A large-scale hierarchical image database // In 2009 IEEE conference on computer vision and pattern recognition, 2009, pp. 248–255; A. Krizhevsky, I. Sutskever, G.E. Hinton. Imagenet classification with deep convolutional neural networks // In Advances in neural information processing systems, 2012, pp. 1097–1105], PASCAL VOC [M. Everingham, L. Van Gool, C.K. Williams, J. Winn, A. Zisserman. The pascal visual object classes (voc) challenge // International journal of computer vision, Vol. 88, No. 2, 2010, pp. 303–338], VGG [O.M. Parkhi, A. Vedaldi, A. Zisserman. Deep face recognition // In BMVC, Vol. 1, No. 3, 2015, p. 6], WIDER [S. Yang, P. Luo, C.C. Loy, X. Tang. Wider face: A face detection benchmark // In Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 5525–5533], Face Scrub [H.W. Ng, S. Winkler. A data-driven approach to cleaning large face datasets // In 2014 IEEE International Conference on Image Processing, ICIP, 2014, pp. 343–347]. Обученный детектор лиц работает при разных ориентациях лица, устойчив к окклюзиям, а также работает в режиме реального времени как на центральном процессоре (CPU), так и на графическом процессоре (GPU).
Кроме того, в случае с определением графической области с формами рук (140) человека используют глубокую сверточную нейронную сеть с архитектурой MobileNetV2 [M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, L.C. Chen. Mobilenetv2: Inverted residuals and linear bottlenecks // In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 4510–4520], которая, например, включена в платформу распознавания объектов с открытым исходным кодом TensorFlow Object Detection API [J. Huang, V. Rathod, Ch. Sun, M. Zhu, A. Korattikara, A. Fathi, I. Fischer, Z. Wojna, Y. Song, S. Guadarrama, K. Murphy. Speed/Accuracy Trade-Offs for Modern Convolutional Object Detectors // Proceedings of 30th IEEE Conference on Computer Vision and Pattern Recognition, CVPR-2017, 2017, pp. 3296–3297] и основана на инвертированной остаточной структуре. Непосредственное обучение глубокой сверточной нейронной сети производили с помощью размеченных данных с формами рук из базы данных Thesaurus of Russian Sign Language (мультимедийная база данных) [И.А. Кагиров, Д.А. Рюмин, А.А. Аксенов, А.А. Карпов. Мультимедийная база данных жестов русского жестового языка в трехмерном формате // Вопросы языкознания, 2020, №1: С. 104–123. DOI: 10.31857/S0373658X0008302-1]. Аннотированные области рук сохраняли в специальном формате PASCAL VOC [M. Everingham, L. Van Gool, C.K. Williams, J. Winn, A. Zisserman. The pascal visual object classes (voc) challenge // International journal of computer vision, Vol. 88, No. 2, 2010, pp. 303–338] в виде текстовых файлов XML при помощи, например, инструмента LabelImg [https://github.com/tzutalin/labelImg]. Распознавание форм рук осуществляли при следующих условиях: обученная модель глубокой сверточной нейронной сети определяет форму руки; центральная координата руки, полученная на этапе вычисления 2D 25-ти точечной модели скелета человека (121), находится в пределах распознанной области с формой руки.
Также вычисление визуальных признаков (150) направлено на извлечение отличительных характеристик жеста в определенный момент времени. При этом формируют следующие визуальные признаки: нормализованные 2D расстояния от лица до рук (зона артикуляции жеста); нормализованные 2D площади пересечения лица и рук; формы рук (представляются числовым значением); результат детектирования области рта (представлен числовым значением).
Технический результат распознавания жестов (160) достигается за счет использования глубокой нейронной сети с длинной кратковременной памятью (LSTM [S. Hochreiter, J. Schmidhuber. Long short-term memory // Neural computation, Vol. 9, No. 8, 1997, pp.1735–1780]), которая в общем понимании – это своего рода рекуррентная нейронная сеть. В свою очередь, рекуррентная нейронная сеть – это нейронная сеть, которая пытается смоделировать некоторое поведение, зависящее от времени или последовательности, например, видеоанализ движений рук для распознавания жестов. Это выполняли при помощи обратной связи выхода уровня нейронной сети в момент времени t с входом того же уровня сети в момент времени t+1. Однако обычная рекуррентная нейронная сеть имеет недостаток, который заключается в исчезающем градиенте. Данная проблема возникает в случае, когда сеть пытается смоделировать зависимость внутри длинной последовательности обучающей выборки. Это связано с тем, что небольшие градиенты или веса (значения меньше 1) многократно умножаются на протяжении нескольких временных шагов, и следовательно градиенты сжимаются до нуля. Это означает, что веса более ранних шагов не будут существенно изменены, и, следовательно, сеть не будет изучать долгосрочные зависимости. Сеть LSTM позволяет решить данную проблему. Кроме того, на вход данной нейронной сети подавали функциональные ядра жестов, которые состоят из контекстно-независимых движений рук по отношению к другим жестам. В более расширенном понимании, LSTM нейронная сеть принимает последовательность N кадров × 8 значений из характеристик жеста, в частности: нормализованные 2D расстояния от лица до рук представляют собой число с плавающей точкой; нормализованные 2D площади пересечения лица и рук также представляют собой число с плавающей точкой; формы рук – целое число; результат детектирования области рта представлен числами 0 (область не найдена) и 1 (область найдена). Процесс обучения производили, например, с помощью библиотеки глубокого машинного обучения Keras [https://keras.io] и библиотеки с открытым исходным кодом TensorFlow [M. Abadi, P. Barham, J. Chen, Z. Chen, A. Davis, J. Dean, M. Devin, S. Ghemawat, G. Irving, M. Isard, M. Kudlur. Tensorflow: A system for large-scale machine learning // In 12th Symposium on Operating Systems Design and Implementation, 2016, pp. 265–283; https://www.tensorflow.org].
Кроме того, определение границ речи (210) в аудио модальности выполняют таким образом, что непрерывный цифровой аудиосигнал разделяется на короткие сегменты сигнала длительностью 10 миллисекунд, следующие с 50% перекрытием. Все поступающие сегменты звука сохраняют в буфер памяти аудиоданных и выполняют проверку каждого поступающего сегмента на наличие в нем речи человека. На каждом сегменте сигнала вычисляют значения энергии
Figure 00000001
для каждого сегмента сигнала, которое состоит из цифровых отсчетов
Figure 00000002
фиксированной длины, и выполняют его логарифмирование:
Figure 00000003
Кроме того, сравнивают логарифм энергии сегмента с заранее установленным пороговым значением
Figure 00000004
, которое зависит от окружающих акустических условий, и, если значение превосходит порог, то данный сегмент признается речью человека, в противном случае – считается тишиной (акустический фон). Такую проверку выполняют для каждого поступающего аудиосегмента.
Кроме того, применяют логико-временную обработку функции значений энергии
Figure 00000001
сегментов аудиосигнала, учитывающую допустимые на практике длительности речевых и неречевых фрагментов, определенных с применением заданного порога. Такая обработка требуется, так как во многих случаях такие звуковые артефакты, как щелканье или неречевые участки сигнала, ошибочно могут приниматься за речь, и наоборот, некоторые участки, содержащие речь, отбрасываются из-за специфических акустических характеристик. Применяя пороговое значение к функции
Figure 00000001
, возможно определить чередующиеся речевые и неречевые участки на функции
Figure 00000001
и применить для обработки 2 константы:
Figure 00000005
минимальная длительность речевого участка;
Figure 00000006
максимальная длительность безречевого участка между соседними речевыми сегментами.
Учитывая тот факт, что человек не может производить очень короткие речевые фрагменты, а также то, что в речи всегда присутствуют определенные паузы (например, смычки перед взрывными согласными), устанавливают пороговые значения минимальной длительности речевого участка
Figure 00000007
и максимальной длительности безречевого участка
Figure 00000008
соответственно (их значения зависят от акустических условий). Анализ обнаруженных речевых фрагментов и неречевого фрагмента между ними производят следующим образом:
Figure 00000009
Данное правило итеративно применяют ко всем соседним размеченным фрагментам (участкам) анализируемой функции энергии сегментов аудиосигнала. Таким образом, если речевые участки в некотором сигнале имеют длительности не менее
Figure 00000007
сегментов, а безречевой участок между ними – не более
Figure 00000008
сегментов, то все данные участки объединяются в единый речевой фрагмент.
Вычисление акустических признаков (220) осуществляют, например, посредством спектрального анализа сегментов сигнала с вычислением мел-частотных кепстральных коэффициентов (Mel-Frequency Cepstral Coefficients, MFCC) с их первой и второй производными. Для этого выполняют кратковременный спектральный анализ сегментов аудиосигнала (для более точного описания сигнала речевые сегменты берут с перекрытием) и перемножают сигнал с некоторой функцией окна для того, чтобы разрывы на границах окна были ослаблены, в качестве функции окна обычно используют окно Хэмминга:
Figure 00000010
где
Figure 00000011
– ширина окна в цифровых отсчетах
Figure 00000012
.
Вычисляют быстрое преобразование Фурье (БПФ) над перекрывающимися сегментами речи длительностью 10 миллисекунд. Полученный спектр сигнала преобразуют к мел-шкале путем применения набора перекрывающихся треугольных фильтров, расположенных в частотной области в соответствии с мел-шкалой частот, определяемой формулой:
Figure 00000013
где
Figure 00000014
– значение частоты аудиосигнала.
Значения БПФ, включенные в каждый фильтр, пересчитывают с учетом треугольного окна, определяют интегральную энергию на выходе каждого фильтра и производят логарифмирование выхода каждого фильтра. Этот набор векторов признаков подвергают дискретному косинусному преобразованию. В результате получают мел-частотные кепстральные коэффициенты, определяемые по следующей формуле:
Figure 00000015
где
Figure 00000016
– номер кепстрального коэффициента,
Figure 00000011
– количество треугольных фильтров,
Figure 00000017
– энергия сигнала.
Распознавание речи (230) осуществляют посредством заранее обученных акустических моделей (например, скрытых марковских моделей (СММ) [L. Rabiner, B.-H. Juang. Fundamentals of Speech Recognition // Prentice Hall. 1993. 507 p.] или гибридных акустических моделей, объединяющих искусственные нейронные сети и СММ [D. Yu, L. Deng. Automatic Speech Recognition - A Deep Learning Approach // Springer. 2015. 322 p.]) и языковой модели или грамматики [Ф. Джелинек Распознавание непрерывной речи статистическими методами // ТИИЭР, 1976, Т. 64, № 4, С. 131–160]. Для распознавания слитной речи используют модифицированный алгоритм Витерби, называемый методом передачи маркеров (token passing method) [S. Young et al. The HTK Book (for HTK Version 3.4) // Cambridge, UK, 2009, 375 p.], который определяет прохождение возможных путей по состояниям объединенной СММ. В начало каждого слова из словаря ставится маркер и применяется итеративный алгоритм оптимизации Витерби, при этом на каждом шаге сдвигается маркер и для него вычисляется вероятностная оценка по акустической и языковой модели. После обработки всей последовательности векторов наблюдений выбирается маркер, имеющий наибольшую вероятность. Когда наилучший маркер (с наибольшей акустико-языковой вероятностью) достигает конца обрабатываемого сигнала (последовательности наблюдений), то путь, которым он проходит через сеть, известен в виде истории (хранящейся в маркере), и из маркера считывается последовательность пройденных слов, которая и является гипотезой распознавания фразы.
Процесс отправки управляющей команды (300), соответствующей распознанному управляющему жесту или речевой команды пользователя, в электронную систему управления мобильным информационным роботом осуществляют, например, через Wi-Fi 802.11 соединение по протоколу TPC/IP и специально выделенный порт.
Действие мобильного информационного робота (400) происходит на основании результата распознания аудио- или видеоинформации от пользователя.
Таким образом, указанные отличительные особенности способа многомодального бесконтактного управления мобильным информационным роботом позволяют бесконтактно взаимодействовать различным группам пользователей, включая людей с ограниченными возможностями по слуху и зрению, с мобильным информационным роботом посредством автоматического распознавания жестовой и речевой информации.
Проведенный заявителем анализ уровня аналогов позволил установить, что способ многомодального бесконтактного управления мобильным информационным роботом, характеризующийся совокупностями признаков, соответствует условию патентоспособности "Новизна".
Результаты поиска известных решений в данной и смежной областях техники с целью выявления признаков, совпадающих с отличительными от прототипов признаками заявляемого изобретения, показали, что они не следуют явным образом из уровня техники. Из определенного заявителем уровня техники не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности "Изобретательский уровень".

Claims (1)

  1. Способ многомодального бесконтактного управления мобильным информационным роботом, состоящий из захвата трехмерного пространства, распознавания жеста, отличающийся тем, что происходит комбинированная обработка видео- и аудиоинформации от пользователя, последовательная обработка видеоинформации от пользователя, формирование областей с людьми на каждом трехмерном (3D) кадре карты глубины, вычисление 3D 25-точечных моделей скелетов людей, слежение за ближайшим человеком, преобразование 3D 25-точечной скелетной модели ближайшего человека в 2D 25-точечную скелетную модель, определение графической области лица и форм рук в пределах сформированной прямоугольной области с человеком, вычисление визуальных признаков жеста в определенный момент времени, последовательная обработка аудиоинформации от пользователя, вычисление акустических признаков, распознавание речевых команд.
RU2020112646A 2020-03-27 2020-03-27 Способ многомодального бесконтактного управления мобильным информационным роботом RU2737231C1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2020112646A RU2737231C1 (ru) 2020-03-27 2020-03-27 Способ многомодального бесконтактного управления мобильным информационным роботом

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2020112646A RU2737231C1 (ru) 2020-03-27 2020-03-27 Способ многомодального бесконтактного управления мобильным информационным роботом

Publications (1)

Publication Number Publication Date
RU2737231C1 true RU2737231C1 (ru) 2020-11-26

Family

ID=73543607

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2020112646A RU2737231C1 (ru) 2020-03-27 2020-03-27 Способ многомодального бесконтактного управления мобильным информационным роботом

Country Status (1)

Country Link
RU (1) RU2737231C1 (ru)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114637404A (zh) * 2022-03-28 2022-06-17 湖南大学 一种多模态分层融合的人机交互方法和系统
CN116382476A (zh) * 2023-03-30 2023-07-04 哈尔滨工业大学 一种用于月表人机协同作业的穿戴式交互系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2004104758A (ru) * 2001-07-18 2005-07-10 Зао Интел (Ru) Распознавание жестов в динамике для последовательности стереокадров
JP2011042011A (ja) * 2009-08-21 2011-03-03 Tokyo Metropolitan Univ ロボット制御装置、ロボット制御方法、ロボット制御プログラム、及びロボット
RU2011127116A (ru) * 2011-07-04 2011-10-10 Общество с ограниченной ответственностью "ТРИДИВИ" (RU) Способ управления устройством с помощью жестов и 3d-сенсор для его осуществления
US20120069168A1 (en) * 2010-09-17 2012-03-22 Sony Corporation Gesture recognition system for tv control
RU2641269C1 (ru) * 2017-03-02 2018-01-16 Самсунг Электроникс Ко., Лтд. Устройство и способ для распознавания жестов с использованием радиочастотного датчика

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2004104758A (ru) * 2001-07-18 2005-07-10 Зао Интел (Ru) Распознавание жестов в динамике для последовательности стереокадров
JP2011042011A (ja) * 2009-08-21 2011-03-03 Tokyo Metropolitan Univ ロボット制御装置、ロボット制御方法、ロボット制御プログラム、及びロボット
US20120069168A1 (en) * 2010-09-17 2012-03-22 Sony Corporation Gesture recognition system for tv control
RU2011127116A (ru) * 2011-07-04 2011-10-10 Общество с ограниченной ответственностью "ТРИДИВИ" (RU) Способ управления устройством с помощью жестов и 3d-сенсор для его осуществления
RU2641269C1 (ru) * 2017-03-02 2018-01-16 Самсунг Электроникс Ко., Лтд. Устройство и способ для распознавания жестов с использованием радиочастотного датчика

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114637404A (zh) * 2022-03-28 2022-06-17 湖南大学 一种多模态分层融合的人机交互方法和系统
CN114637404B (zh) * 2022-03-28 2024-09-06 湖南大学 一种多模态分层融合的人机交互方法和系统
CN116382476A (zh) * 2023-03-30 2023-07-04 哈尔滨工业大学 一种用于月表人机协同作业的穿戴式交互系统
CN116382476B (zh) * 2023-03-30 2023-10-13 哈尔滨工业大学 一种用于月表人机协同作业的穿戴式交互系统

Similar Documents

Publication Publication Date Title
US10109219B2 (en) System and method for automated sign language recognition
Gao et al. Sign language recognition based on HMM/ANN/DP
US20150325240A1 (en) Method and system for speech input
Luettin Visual speech and speaker recognition
KR20060090687A (ko) 시청각 콘텐츠 합성을 위한 시스템 및 방법
Arsan et al. Sign language converter
RU2737231C1 (ru) Способ многомодального бесконтактного управления мобильным информационным роботом
Caballero-Morales et al. 3D modeling of the mexican sign language for a speech-to-sign language system
Basak et al. Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems.
CN111554279A (zh) 一种基于Kinect的多模态人机交互系统
Shinde et al. Real time two way communication approach for hearing impaired and dumb person based on image processing
Richmond et al. The use of articulatory movement data in speech synthesis applications: An overview—application of articulatory movements using machine learning algorithms—
Hamidia et al. Voice interaction using Gaussian mixture models for augmented reality applications
Riad et al. Signsworld; deeping into the silence world and hearing its signs (state of the art)
Nakamura et al. Learning novel objects for extended mobile manipulation
Asadiabadi et al. Multimodal speech driven facial shape animation using deep neural networks
Iribe et al. Improvement of animated articulatory gesture extracted from speech for pronunciation training
Nandyala et al. Real time isolated word speech recognition system for human computer interaction
Tanaka et al. Pronunciation adaptive self speaking agent using wavegrad
Argyropoulos et al. Multimodal user interface for the communication of the disabled
Robi et al. Active Speaker Detection using Audio, Visual and Depth Modalities: A Survey
Zuo et al. Detecting robot-directed speech by situated understanding in object manipulation tasks
Ren et al. [Retracted] Articulatory‐to‐Acoustic Conversion Using BiLSTM‐CNN Word‐Attention‐Based Method
Bozorg et al. Autoregressive articulatory wavenet flow for speaker-independent acoustic-to-articulatory inversion
Muhammad Ghazali et al. Malay Cued Speech Recognition Using Image Analysis: A Review