RU2280894C2

RU2280894C2 - Распознавание жестов в динамике для последовательности стереокадров

Info

Publication number: RU2280894C2
Application number: RU2004104758/09A
Authority: RU
Inventors: Ара Виктор НЕФИАН (US); Ара Виктор НЕФИАН; Виктор Львович Ерухимов (RU); Виктор Львович Ерухимов; Радек ГРЗЕЩУК (US); Радек ГРЗЕЩУК
Original assignee: Зао Интел
Priority date: 2001-07-18
Filing date: 2001-07-18
Publication date: 2006-07-27
Also published as: RU2004104758A

Abstract

Изобретение относится к устройству и способу для распознавания жестов в динамике из последовательности стереокадров. Его применение позволяет получить технический результат в виде создания простой и легкой в использовании системы, которая интерпретирует жесты с высокой точностью. Этот результат достигается благодаря тому, что получают последовательность стереоизображений объекта, по ней строят карту различий в глубинах. Система автоматически инициализируется на основе вероятностной модели верхней части тела объекта. Верхняя часть тела объекта моделируется как три плоскости, представляющие туловище и руки объекта, и три гауссовские компоненты, представляющие голову и кисти объекта. Отслеживание движений верхней части тела осуществляется с использованием вероятностной модели верхней части тела и извлечения трехмерных признаков совершенных жестов. 3 н. и 32 з.п. ф-лы, 12 ил.

Description

Область техники, к которой относится изобретение

Изобретение относится, в общем, к системным интерфейсам и более конкретно относится к распознаванию жестов в динамике для последовательности стереокадров.

Уровень техники

В компьютерных системах в последнее время развивается область распознавания жестов. В общем, система распознавания жестов распознает физические жесты человека и отвечает в соответствии с интерпретацией жестов. Распознавание жестов может использоваться в компьютерных интерфейсах для интерпретирования языка жестов, в управлении в промышленности, в развлекательных приложениях или для различных других целей. Задача систем распознавания жестов - предложить простую, легкую в использовании систему, которая очень точно интерпретирует жесты.

В традиционных системах распознавания жестов процесс может протекать так, как показано на фиг.1. В блоке 100 последовательность видеокадров получается из некоторого видеоисточника, такого как обычная видеокамера. В процессе удаления заднего плана, блок 110, из последовательности видеокадров устраняется фон, который представляет собой любую часть изображения, не содержащую жестикулирующего человека, жесты которого необходимо интерпретировать. Если видеокадр является первым кадром в последовательности видеокадров, блок 120, то работа процесса переходит к этапу ручной инициализации, блок 130. При ручной инициализации, блок 120, определяется позиция и ориентация видимых частей (обычно, головы, кистей, рук и туловища) человека. Традиционные системы, как правило, используют процессы ручной инициализации, в которых, например, процесс может быть инициализирован следующим образом: человека просят начать жестикулировать с некоторого заранее заданного положения его или ее рук или кистей. В других системах система может настраиваться на объект следующим образом: на кисти объекта надевают цветные перчатки или делают цветные пометки на кистях и голове объекта.

Если видеокадр не является первым кадром последовательности, блок 120, то работа традиционной системы продолжается процессом отслеживания верхней части тела объекта, блок 140. После инициализации системы или отслеживания перемещений верхней части тела объекта к новому положению идет процесс выделения признаков, блок 150, в котором определяются признаки, которые наилучшим образом описывают жесты рук и выделяют их среди множества других жестов. Часто признаки, используемые в распознавании жестов рук, определяются из положения рук на плоскости изображения или выводятся из взаимного расположения рук и головы объекта. В традиционной системе входом для системы является двумерное изображение и верхняя часть тела может описываться шестью гауссовскими «пятнами», которые охватывают голову, туловище, две руки и две кисти объекта. Далее обычная система продолжает работу в блоках 160 распознавания, которые предназначены для идентификации жеста объекта. Блоки распознавания могут содержать скрытые марковские модели (СММ).

Традиционная система распознавания жестов ограничена в нескольких местах. Использование двумерных изображений может предоставлять информацию о глубине резкости, которой может быть недостаточно для правильного определения положения верхней части тела, что может привести к неправильной интерпретации жестов. Необходимость инициализации или настройки системы распознавания жестов с помощью определенных жестов или использовании определенных устройств порождает дополнительные сложности при использовании системы и может «отбить охоту» пользователя попытаться воспользоваться системой, содержащей распознавание жестов.

Краткое описание чертежей

Признаки настоящего изобретения будут тщательно изложены в пунктах формулы изобретения. Изобретение вместе со своими достоинствами можно лучше понять из дальнейшего подробного изложения, сопровождающегося чертежами, в которых:

фиг.1 изображает блок-схему, иллюстрирующую традиционную систему распознавания жестов;

фиг.2 изображает блок-схему, иллюстрирующую некоторую реализацию системы распознавания жестов в динамике;

на фиг.3 изображена блок-схема скрытой марковской модели, используемой в некоторой реализации;

фиг.4 иллюстрирует расположение системы распознавания жестов в динамике;

фиг.5 изображает блок-схему, иллюстрирующую сегментацию изображения во время процесса инициализации;

фиг.6 изображает изображение объекта и заднего плана;

фиг.7 изображает изображение объекта с удаленным задним планом;

фиг.8 изображает процесс выделения туловища;

фиг.9 изображает процесс выделения головы;

фиг.10 изображает процесс выделения рук;

фиг.11 изображает процесс выделения кистей.

Подробное описание изобретения

Далее описывается способ и устройство для распознавания жестов в динамике из последовательности стереокадров.

В дальнейшем описании, с целью лучшего объяснения, будут приводиться многочисленные конкретные детали. Это делается для того, чтобы добиться тщательного понимания настоящего изобретения. Тем не менее, любому специалисту в данной области очевидно, что настоящее изобретение может быть реализовано без некоторых из данных конкретных деталей. В других случаях хорошо известные системы и устройства показаны в виде блок-схем.

Настоящее изобретение содержит различные процессы, которые будут описаны ниже. Процессы из данного изобретения могут быть выполнены аппаратно или реализовываться с помощью выполнимых на машине команд. Данные команды программируют процессор общего назначения или специальный процессор или логическую схему так, чтобы указанное устройство реализовывало упомянутые процессы. Также процессы могут быть реализованы с помощью комбинации аппаратных и программных средств.

Фиг.2 показывает блок-схему, иллюстрирующую некоторую реализацию системы распознавания жестов в динамике. В данной реализации, изображения берутся из последовательностей стереовидеокадров, блок 200. Последовательности стереовидеокадров получаются с помощью стереокамер или с использованием нескольких камер. Затем по стереоизображениям система создает карту различий в глубинах, блок 210, из которой можно определить глубину резко изображаемого пространства. Затем система удаляет задний план (блок 220), что, согласно одной реализации, может быть осуществлено с помощью удаления тех частей изображения, которые находятся слишком далеко от устройства, формирующего изображение, чтобы быть частью объекта.

Если видеокадр является первым кадром в последовательности видеокадров, блок 230, то работа реализации изобретения переходит к этапу автоматической инициализации, блок 240, в котором происходит сопоставление верхней части тела объекта и вероятностной модели верхней части тела человека. Если видеокадр не является первым кадром последовательности, блок 230, то данная реализация изобретения продолжает свою работу в блоке 250: отслеживает верхнюю часть тела объекта, используя модель верхней части тела. Если отслеживания объекта не достаточно, блок 260, то процесс возвращается к автоматической инициализации, блок 240, для того, чтобы повторно инициализировать систему. Таким образом, данная реализация описывает критерий для принятия решения об ошибке системы слежения.

После инициализации системы или отслеживания перемещения верхней части тела в новую позицию применяется процесс выделения трехмерных признаков, блок 270. В традиционных системах выделение происходит в двумерном пространстве. После данного этапа происходит переход к блокам распознавания для трехмерных признаков, блок 280, которые предназначены для идентификации жеста в динамике. В отдельной реализации устройства 280 распознавания могут использоваться скрытые модели Маркова. Тем не менее, в отличие от традиционных систем, скрытые модели Маркова описывают траектории кистей в трехмерном пространстве. В одной реализации, жест, совершенный объектом, распознается и интерпретируется с помощью сравнения жеста в динамике с информацией из базы данных известных трехмерных жестов, блок 290.

Скрытые модели Маркова являются хорошо известными системами обработки данных и, следовательно, не будут описываться подробно. Скрытая модель Маркова представляет собой конечное множество состояний, каждое из которых характеризуется распределением вероятностей. Переходы между состояниями модели происходят под управлением набора вероятностей, которые называются переходными вероятностями. Имеется возможность проводить наблюдения за каждым конкретным состоянием модели, но действительное состояние не может быть определено. Поэтому состояния называются скрытыми. В конкретной реализации, используется непрерывная слева-направо скрытая модель Маркова с пятью состояниями. В данной реализации не существует пропускаемых состояний, и каждое состояние моделируется смесью трех плотностей нормального распределения. Модель проиллюстрирована на фиг.3, где пять состояний модели помечены числами 300, 310, 320, 330 и 340.

Расположение оборудования для конкретной реализации показано на фиг.4. В данной реализации объект 400 сидит перед компьютером или терминалом 410. Над терминалом располагается устройство 420, формирующее изображение. Устройство 420, формирующее изображение и показанное на фиг.4, является стереокамерой, однако в других реализациях может использоваться несколько камер.

В реализации изобретения для сегментации верхней части тела используется вероятностная основа. В реализации предусматривается отслеживание движений верхней части тела с помощью стереоизображений. В реализации в качестве наблюдений для системы распознавания трехмерных жестов на основе СММ используются траектории движения кистей объекта. В системе, основанной на стереоизображениях, используются карты различий в плотности. Система обеспечивает точное распознавание жестов даже, когда сталкивается с различными условиями освещения, частичными затемнениями и когда объект затемняет сам себя. В отличие от традиционных систем распознавания жестов, в которых инициализация управляется пользователем, в реализации настоящего изобретения при инициализации в подходе к сегментации верхней части тела используется минимальное количество предположений, касающихся взаимного расположения объекта и устройства, формирующего изображение. После инициализации параметры модели отслеживаются в последующих кадрах и корректируются новые значения параметров или повторно вычисляются с использованием алгоритма максимизации математического ожидания. Трехмерное положение кистей объекта используется в системе распознавания жестов в качестве векторов наблюдений.

Согласно некоторой реализации последовательность видеокадров является новым стереоизображением объекта. В соответствии с одной реализацией карта различий в глубинах строится по стереоизображению. В соответствии с другой реализацией стереоизображение получается от стереокамеры, которая сама генерирует необходимую информацию по глубине, при этом не нужно строить дополнительную карту различий в глубине. Использование подобной стереокамеры позволяет системе функционировать без необходимости проведения большого объема вычислений, которые требуются для построения карты различий в глубине.

Дополнительные подробности относительно системы распознавания жестов описываются следующим образом.

Модель изображения и модель верхней части тела - Вероятностная модель верхней части тела состоит из набора трех плоскостных компонентов, описывающих туловище и руки объекта и множества, и набора трех гауссовских пятнообразных компонент, представляющих голову и руки объекта. В данном описании параметры каждого плоскостного компонента (m-й плоскостной компонент) будут обозначаться через π_m, а параметры каждого гауссовского компонента (n-й гауссовский компонент) будут обозначаться через β_n. Набор плоскостных и гауссовских компонент, которые описывают состояния верхней части тела объекта, таким образом, представляет собой

В изображении объекта вектор наблюдений О_i,j является пикселем в i-й строке и j-м столбце изображения и состоит из трехмерного положения пикселя О^d _ij={х, у, z}_ij, получаемого из карты различий в глубинах, и из цвета пикселя в пространстве изображения O^c _ij, О_ij получается соединением цвета O^c _ij и различия в глубине О^d _ij.

Если предположить, что вектора наблюдений независимы, то вероятность конкретной последовательности наблюдений

для данной модели изображения равна

где Р(O_ij| Ω) является вероятностью вектора наблюдений при заданной модели верхней части тела и через Р(O_ij|фон) обозначается вероятность вектора наблюдений при данном заднем плане данного объекта. В одной реализации вероятность вектора наблюдений для данного фона получается из нормального распределения каждого пикселя изображения, полученного из последовательности «чистых» задних планов, без объекта. В другой реализации вычислительная сложность системы снижается благодаря моделированию только векторов наблюдений, которые не связаны с задним планом. В трехмерной системе, в которой можно определить глубину резкости, любое изображение, которое не достаточно близко располагается к камере, чтобы являться частью объекта, считается частью заднего плана. Так как объект находится на переднем плане, то вероятность последовательности наблюдений переднего плана

при заданной модели верхней части тела определяется следующим образом:

где u_i,j - равномерное распределение, которое моделирует шум на изображении, а

и

являются априорными вероятностями плоскостных и гауссовских состояний модели верхней части тела. В одной реализации начальные значения априорных вероятностей выбираются из равномерного распределения для всех компонент верхней части тела.

После инициализации модели верхней части тела оцениваются значения априорных вероятностей с помощью соответствующих параметров состояний модели. Вероятности Р(О_i,j|π_m) и Р(O_i,j|β_n) являются вероятностями векторов наблюдений O_i,j при заданных плоскостной π_m и гауссовской β_n компонентах. Учитывая эти вероятности, функция плотности распределения (фпр) для гауссовской компоненты изображения имеет вид

где

- вектор математических ожиданий и С - ковариационная матрица плотности нормального распределения. Для данной реализации системы распознавания жестов параметры гауссовских компонент обозначаются как

. Так как распределение цветов и трехмерная позиция могут рассматриваться как независимые случайные величины, вероятность векторов наблюдений О_i,j при заданных плоскостных компонентах (руках и туловище) можно разложить следующим образом:

В равенстве [5] вероятность Р(O^c _i,j|π) может быть плотностью нормального распределения или смеси плотностей нормальных распределений, описывающих распределение цвета пикселей плоскости. В соответствии с одной реализацией, для упрощения, используется равномерное распределение на множестве значений цветов (например, 0,...255 для 256 цветов). Вероятность векторов наблюдений О^d _i,j при заданном плоскостном компоненте π можно вычислить следующим образом:

Из формулы [6] можно понять, что плоскостная плотность распределения описывает нормальное распределение со средним μ=ax_i,j+by_i,j+с и дисперсией σ² _z. В описании параметры плоскостной компоненты будем обозначать π_m=(а, b, с, σ² _z) для m=1, 2, 3.

Сегментация верхней части тела - Модель инициализации - Оптимальный набор параметров для модели верхней части тела получается с помощью алгоритма максимизации и оценки (МО), в котором находится максимум

по параметрам модели. Это связано с алгоритмом максимизации и оценки, применяемым для модели верхней части тела. Так как алгоритм максимизации и оценки, по существу, является алгоритмом локальной оптимизации, то его сходимость к глобальному решению сильно зависит от начальной оценки параметров модели. Для гарантирования правильной сходимости алгоритма максимизации и оценки алгоритм сегментации разбивается на два процесса. В первом процессе система инициализирует параметры каждого класса и определяется видимость каждого компонента на изображении. Во втором процессе все параметры модели одновременно оцениваются еще раз, и таким образом достигается лучшее соответствие данным.

Процесс инициализации является, по существу, последовательностью задач классификации двух типов, которые повторяются для каждой компоненты модели. В каждой из данных задач данные приписываются или одной компоненте верхней части тела или «оставшемуся» классу данных, никуда не приписанных. Данные, приписанные к классу оставшихся данных при решении первой задачи классификации, становятся входом для процесса второй классификации, где они либо присваиваются следующему компоненту тела или становятся частью нового класса оставшихся данных. Данный процесс продолжается до тех пор, пока все данные не будут классифицированы или все компоненты верхней части тела не будут инициализированы. Последний оставшийся класс моделируется с помощью равномерного распределения. Заметим, что здесь описанная реализация использует определенный порядок выделения, но специалисты в данной области знают, что возможны другие порядки выделения, и реализации не ограничиваются изложенным здесь описанием.

Блок-схема процесса инициализации показана на фиг.5. В блоке 500 процесса разбиения передний план - задний план удаляется задний план изображения объекта. В одной реализации все пиксели изображения, имеющие глубину, показывающую, что расстояние до камеры или другого устройства, формирующего изображение, больше определенной величины, приписываются заднему плану и исключаются. Оставшиеся пиксели приписываются к переднему плану. В процессе выделения туловища, блок 510, на переднем плане определяется плоскость туловища и остальные пиксели, входящие в класс оставшихся данных. В процессе выделения головы, блок 520, определяется гауссовское пятно головы и остальные пиксели, входящие в класс оставшихся данных. В процессе выделения рук, блок 530, аналогично плоскости туловища, определяются плоскости левой и правой рук и остальные пиксели, входящие в новый класс оставшихся данных. Используя пиксели из класса оставшихся данных, в процессе выделения кистей, блок 540, определяются гауссовские пятна левой и правой кистей.

Реализации процессов сегментации при инициализации более подробно описываются далее.

Разбиение передний план - задний план - Первым процессом инициализации модели является процесс выделения заднего плана. Все пиксели изображения, которые находятся от камеры дальше, чем заранее заданный порог или для которых нет состоятельной информации о глубине, приписываются заднему плану. Остальные пиксели считаются принадлежащими к верхней части тела. В случае неподвижного заднего плана использование цвета может улучшить результаты сегментации. Тем не менее, условие неподвижности заднего плана часто не выполняется, и неправильное предположение по поводу статистики заднего плана может значительно снизить точность результатов выделения. По этой причине в конкретной реализации для разбиения передний план - задний план используется только информация о глубине.

Фиг.6 показывает изображение объекта, полученное камерой или другим устройством формирования изображения. Заметим, что представленное здесь изображение ограничено двумя измерениями, а изображения из реализации содержат информацию о глубине, таким образом формируются трехмерные данные об изображении. Изображение 600 состоит из переднего плана 610, который является объектом, и заднего плана 620. Результат разделения передний план - задний план показан на фиг.7. Если разделение прошло правильно, то изображение 700 содержит только передний план 710, включающий пиксели, показывающие объект, в то время как пиксели заднего плана 720 исключаются. Для простоты на фиг. с 7 по 11 все пиксели заднего плана исключены, но на практике определенные пиксели заднего плана могут быть отнесены к переднему плану и некоторые пиксели переднего плана могут быть включены в задний план. Аналогично пиксели, представляющие определенные части тела объекта, могут быть приписаны другим частям тела.

Выделение туловища - Любой пиксель, отнесенный к переднему плану, либо порождается либо плоскостью туловища, либо классом оставшихся данных, имеющих равномерное распределение. Предполагая, что все наблюдения являются независимыми случайными величинами, вероятность векторов наблюдения О_i,j при заданной модели переднего плана изображения Ω_F представляется следующим образом:

где u_i,j - равномерное распределение, которое описывает все элементы класса оставшихся данных. Цель алгоритма МО заключается в отыскании параметров плоскости, таких, что в точке π вероятность

будет достигать максимума. Так как величина О^c _i,j равномерно распределена, то ее можно игнорировать при рассмотрении алгоритма МО. Через

обозначим параметры плоскости после проведения повторного оценивания. Новые параметры плоскости получаются после приравнивания к нулю производных от Е{Р(O)logP(O)} по параметрам плоскостных состояний π. В результате заново оцененные плоскостные параметры получаются после решения следующих уравнений М-шага (максимизация):

Ковариационная матрица С имеет вид

Из этого апостериорная вероятность γ_i,j(π), вектор математических ожиданий

и вектор ковариаций С получаются после решения следующих уравнений Е-шага (оценка):

[0042] Алгоритм МО повторяется до тех пор, пока он не сойдется, что произойдет тогда, когда

на последующей итерации опустится ниже порога сходимости. Учитывая заново оцененные плоскостные параметры, все пиксели, для которых выполняется

, будут отнесены к плоскости туловища. Одно необходимое условие сходимости алгоритма МО к правильному набору параметров заключается в том, что туловище является самой большой частью верхней части тела. При множестве различных ситуаций, за исключением случаев, когда руки сильно загораживают туловище, можно предположить, что упомянутое условие во время стадии инициализации выполняется.

Фиг.8 иллюстрирует выделение туловища в соответствии с некоторой реализацией. Изображение 800 содержит плоскость туловища 810 и класс 820 оставшихся пикселей. Класс оставшихся пикселей будет включать в себя остальные пиксели, показывающие объект, то есть те, которые показывают голову, руки и кисти объекта.

Выделение головы -- Начальное положение головы определяется с помощью поиска площади, находящейся выше головы. Тем не менее, возможно, что голова будет включена в плоскость туловища и площадь над туловищем содержит небольшое количество точек с шумом. В данном случае, система ищет голову в верхней части туловища. Далее, используя информацию о глубине, можно получить примерный размер головы на плоскости изображения с помощью расстояния и ориентировки плоскости туловища из камеры. Вероятность последовательности наблюдений О_H в начальной области поиска головы Н находится по следующей формуле:

В формуле [16] u_ij - это плотность равномерного распределения, соответствующего классу оставшихся данных в области головы. Параметры гауссовского пятна, соответствующего голове, пересчитываются с использованием алгоритма МО для плотности нормального распределения:

где

Все пиксели, для которых выполняется

будут отнесены к области головы, а оставшиеся пиксели снова будут считаться классом оставшихся данных. Данный процесс проиллюстрирован на фиг.9. Теперь изображение 900 содержит туловище 910, которое идентифицировали ранее, и голову 920 объекта. Новый класс 930 оставшихся пикселей включает в себя остальные пиксели переднего плана, в состав которых входят руки и кисти объекта.

Выделение рук -- Руки моделируются функциями плотностей распределений для плоскостей. Модель распределений для плоскости не ограничивает естественные степени свободы движений рук и обеспечивает хорошее описание данных по движениям рук, доступных из стереоизображений. Параметры плоскостей, соответствующих левой и правой рукам, получаются с использованием таких же формул, как и в случае плоскости для туловища. Области поиска левой и правой рук состоят из пикселей по левую и правую сторону от центра туловища, причем данные пиксели раньше не должны быть приписаны туловищу или голове.

Фиг.10 иллюстрирует процесс выделения рук. После идентификации левой и правой рук объект изображение 1000 содержит туловище 1010 и голову 1020 объекта, идентифицированные ранее, и правую руку 1030 и левую руку 1040 объекта. Класс 1050 оставшихся пикселей включает в себя остальные пиксели переднего плана, которые включают в себя левую и правую кисти объекта.

Выделение кистей - Кисти моделируются с использованием плотностей нормального распределения. Аналогично моделированию головы объекта наблюдения моделей кистей состоят из трехмерной позиции и значения цвета пикселей. Некоторые традиционные подходы к распознаванию жестов используют для обнаружения на изображении кистей и/или лица априорную информацию о цвете кожи. Тем не менее, данные подходы часто ошибаются в случае, если окружающая обстановка отличается сильными перепадами в освещении. Вместо описанного реализация настоящего изобретения определяет положение рук с помощью отыскания областей плоскостей рук, имеющих цвет, сходный со значением оттенка цвета, полученного при выделении головы. Поэтому параметры гауссовских пятен для кистей определяются с использованием такого же алгоритма МО для плотностей нормальных распределений, который используется для оценки параметров пятен для головы.

Фиг.11 иллюстрирует процесс выделения кистей. После выполнения процесса идентификации изображение 1100 содержит туловище 1110, голову 1120, правую руку 1130 и левую руку 1140 объекта, идентифицированные ранее, и правую кисть 1150 и левую руку 1160 объекта. Для простоты фиг.10 и 11 показывают, что до процесса выделения кистей класс оставшихся пикселей содержит только кисти объекта, но на практике другие пиксели, которые не были отнесены к заднему плану или к другим частям тела объекта, также могут быть включены в упомянутый класс.

Модель для отслеживания движений верхней части тела - Начальные параметры, полученные отдельно для туловища, головы, рук и кистей, перерабатываются после одновременной их оценки. Оптимальный набор параметров для модели верхней части тела получается с помощью алгоритма МО, приравнивая к нулю производные

по параметрам модели Ω. Априорные вероятности

и

векторов наблюдений вычисляются для оцениваемых параметров модели из предыдущего кадра. Данные параметры оцениваются посредством предсказателя Калмана. Во время М-процесса алгоритма МО апостериорные вероятности параметров модели при полученных данных вычисляются следующим образом:

Во время Е-процесса (оценивание) новый набор параметров плоскости переоценивается в соответствии с формулами [8]-[11] и параметры гауссовских пятен переоцениваются с использованием формул [17] и [18]. Пиксели, для которых выполняется неравенство

приписываются к плоскости π_k. Аналогично пиксели, удовлетворяющие неравенству

приписываются гауссовскому пятну β_k.

Распознавание жестов - Скрытые модели Маркова (СММ) являются широко распространенным инструментом для классификации жестов в динамике благодаря гибкости таких моделей при моделировании сигналов и одновременном сохранении главной структуры жестов кистей. В реализации, описанной в настоящем документе, система распознавания жестов на основе СММ использует, в качестве векторов наблюдений, траектории движения кистей рук объекта в трехмерном пространстве. Хотя траектории движения кистей на плоскости изображения являются традиционным признаком для распознавания жестов, траектории в двумерной плоскости изображения не могут однозначно описывать движение кистей в плоскости, перпендикулярной плоскости изображения. Использование карт различия в глубине позволяет получить траектории движения кистей в трехмерном пространстве, и данные траектории используются в реализации в качестве векторов наблюдений. Более того, использование карт различия в глубине совместно с информацией о цвете выливается в устойчивое сегментирование верхней части тела, которое в значительной степени не зависит от условий освещения или изменений заднего плана.

Использование карт различия в глубине для распознавания жестов полезно, так как стерео значительно более устойчиво, по сравнению с одной цветовой информацией, к изменениям условий освещения и благодаря тому, что карты различия в глубинах уменьшают неустранимую неопределенность глубины в двумерных изображениях и таким образом позволяют более точно сегментировать изображения при частичном загораживании и загораживании самого себя.

Использование карт глубины резкости добавляет некоторые трудности в процесс распознавания жестов. Стереоалгоритмы часто трудно разрабатывать, это требует много времени. Также они требуют больших вычислений. Стереоалгоритмы, основанные на согласованности, могут генерировать карты различий в глубине с большим количеством шумов. Тем не менее, потребительские стереокамеры стали более доступными, и производительность персональных компьютеров увеличилась настолько, что стереовычисления могут проводиться при разумной частоте смены кадров. Примером может служить камера, которая использовалась в реализации, = это Digiclops Stereo Vision System, разработанная Point Grey Research Inc, Ванкувер, Британская Колумбия. Так как производительность системы распознавания жестов в динамике сильно зависит от качества последовательностей векторов наблюдений, то использование стереоизображений в системе требует дополнительной осторожности. Использование карт глубины вместо информации о цвете для описания модели верхней части тела является одним очень важным элементом при построении системы, которая обеспечивает устойчивую эффективность при различных условиях освещения, теневых эффектах, подвижном заднем плане и в случаях, когда что-либо или сами части тела загораживают какие-либо участки верхней части тела.

В последующей детализации, изобретение описано со ссылками на свои конкретные реализации. Тем не менее, очевидно, что возможно предложить различные модификации и изменения, не выходящие, однако, за более широкий «дух» и рамки настоящего изобретения. Описания и чертежи, соответственно, надо рассматривать в иллюстративном смысле, а не в смысле каких-либо ограничений.

Claims

1. Способ распознавания жестов, осуществляемый при помощи компьютерной системы, включающий

получение последовательности стереоизображений, при этом изображения содержат, по крайней мере, часть объекта, совершающего жест в динамике;

получение различий в глубинах, связанных со стереоизображениями;

отслеживание объекта;

извлечение трехмерных признаков из стереоизображений и

интерпретация жеста в динамике, совершенного объектом.

2. Способ по п.1, отличающийся тем, что дополнительно содержит сегментирование изображения объекта на составные части.

3. Способ по п.2, отличающийся тем, что составные части представляют, по крайней мере, туловище, голову, руки и кисти объекта,

4. Способ по п.1, отличающийся тем, что дополнительно содержит автоматически инициализируемые параметры вероятностной модели объекта.

5. Способ по п.4, отличающийся тем, что вероятностная модель объекта моделирует руки и туловище объекта в виде плоскостей.

6. Способ по п.4, отличающийся тем, что вероятностная модель объекта моделирует голову и кисти объекта как гауссовские компоненты.

7. Способ по п.1, отличающийся тем, что дополнительно содержит удаление заднего плана из стереоизображений.

8. Способ по п.7, отличающийся тем, что удаление заднего плана из стерео-изображений включает в себя удаление всех частей стереоизображений, которые находятся на расстоянии, большем заданного расстояния от некоторого места.

9. Способ по п.1, отличающийся тем, что стереоизображения получаются с использованием стереокамеры.

10. Способ по п.1, отличающийся тем, что получение различия в глубинах предусматривает построение карты различий в глубинах.

11. Способ по п.1, отличающийся тем, что интерпретация жеста в динамике включает сравнение жеста в динамике с трехмерной моделью жеста.

12. Способ по п.11, отличающийся тем, что сравнение жеста в динамике с трехмерной моделью жеста предусматривает использование скрытых моделей Маркова трехмерных жестов.

13. Система распознавания жестов, содержащая

устройство формирования изображения, предназначенное для получения последовательности трехмерных изображений, по крайней мере, части объекта и заднего плана, при этом объект совершает жест в динамике;

процессор, предназначенный для выполнения операций, включающих:

обработку набора различий в глубинах, связанных со стереоизображением;

отслеживание объекта;

извлечение трехмерных признаков объекта и

интерпретацию жеста в динамике, совершенного объектом.

14. Система распознавания жестов по п.13, отличающаяся тем, что устройство формирования изображения является стереовидеокамерой.

15. Система распознавания жестов по п.13, отличающаяся тем, что процессор дополнительно выполняет операции, содержащие удаление заднего плана из последовательности стереоизображений.

16. Система распознавания жестов по п.15, отличающаяся тем, что удаление заднего плана из последовательности стереоизображений включает в себя удаление всех частей стереоизображений, которые находятся на расстоянии, большем заданного расстояния от устройства формирования изображения.

17. Система распознавания жестов по п.13, отличающаяся тем, что процессор дополнительно выполняет операции, содержащие разбиение изображения объекта на составные части.

18. Система распознавания жестов по п.17, отличающаяся тем, что составные части представляют, по крайней мере, туловище, голову, руки и кисти объекта.

19. Система распознавания жестов по п.13, отличающаяся тем, что процессор дополнительно выполняет операции, включающие автоматическую инициализацию параметров вероятностной модели объекта.

20. Система распознавания жестов по п.19, отличающаяся тем, что вероятностная модель объекта моделирует руки и туловище объекта в виде плоскостей.

21. Система распознавания жестов по п.19, отличающаяся тем, что вероятностная модель объекта моделирует голову и кисти объекта как гауссовские компоненты.

22. Система распознавания жестов по п.13, отличающаяся тем, что интерпретация жеста в динамике, совершенного объектом, включает сравнение жеста в динамике с трехмерной моделью жеста.

23. Система распознавания жестов по п.22, отличающаяся тем, что сравнение жеста в динамике с трехмерной моделью жеста предусматривает использование скрытых моделей Маркова трехмерных жестов.

24. Машинно-считываемый носитель, на котором хранятся данные, представляющие последовательность команд, выполнение которых на машине приводит к тому, что машина выполняет операции, включающие в себя

отслеживание объекта;

25. Носитель по п.24, отличающийся тем, что дополнительно содержит последовательность команд, выполнение которых на машине приводит к тому, что машина выполняет операции, включающие сегментирование изображения объекта на составные части.

26. Носитель по п.25, отличающийся тем, что составные части представляют, по крайней мере, туловище, голову, руки и кисти объекта.

27. Носитель по п.24, отличающийся тем, что дополнительно содержит последовательность команд, выполнение которых на машине приводит к тому, что машина выполняет операции, включающие автоматическую инициализацию параметров вероятностной модели объекта.

28. Носитель по п.27, отличающийся тем, что вероятностная модель объекта моделирует руки и туловище объекта в виде плоскостей.

29. Носитель по п.27, отличающийся тем, что вероятностная модель объекта моделирует голову и кисти объекта как гауссовские компоненты.

30. Носитель по п.24, отличающийся тем, что дополнительно содержит последовательность команд, выполнение которых на машине приводит к тому, что машина выполняет операции, включающие удаление заднего плана из стереоизображений.

31. Носитель по п.30, отличающийся тем, что удаление заднего плана из стереоизображений включает в себя удаление всех частей стереоизображений, которые находятся на расстоянии, большем заданного расстояния от некоторого места.

32. Носитель по п.24, отличающийся тем, что стереоизображения получаются с использованием стереокамеры.

33. Носитель по п.24, отличающийся тем, что получение различия в глубинах предусматривает построение карты различий в глубинах.

34. Носитель по п.24, отличающийся тем, что интерпретация жеста в динамике включает сравнение жеста в динамике с трехмерной моделью жеста.

35. Носитель по п.34, отличающийся тем, что сравнение жеста в динамике с трехмерной моделью жеста предусматривает использование скрытых моделей Маркова трехмерных жестов.