RU2422878C1 - Способ управления телевизором с помощью мультимодального интерфейса - Google Patents

Способ управления телевизором с помощью мультимодального интерфейса Download PDF

Info

Publication number
RU2422878C1
RU2422878C1 RU2010103629/09A RU2010103629A RU2422878C1 RU 2422878 C1 RU2422878 C1 RU 2422878C1 RU 2010103629/09 A RU2010103629/09 A RU 2010103629/09A RU 2010103629 A RU2010103629 A RU 2010103629A RU 2422878 C1 RU2422878 C1 RU 2422878C1
Authority
RU
Russia
Prior art keywords
user
interface
algorithms
television
menu
Prior art date
Application number
RU2010103629/09A
Other languages
English (en)
Inventor
Владимир Валентинович Девятков (RU)
Владимир Валентинович Девятков
Александр Николаевич Алфимцев (RU)
Александр Николаевич Алфимцев
Original Assignee
Владимир Валентинович Девятков
Александр Николаевич Алфимцев
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Владимир Валентинович Девятков, Александр Николаевич Алфимцев filed Critical Владимир Валентинович Девятков
Priority to RU2010103629/09A priority Critical patent/RU2422878C1/ru
Application granted granted Critical
Publication of RU2422878C1 publication Critical patent/RU2422878C1/ru

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

Изобретение относится к области вычислительной техники и служит для управления телевизором с использованием мультимодального интерфейса (ММИ). Техническим результатом является расширение взаимодействия между пользователем и дисплейной системой электронной аппаратуры телевизора. Технический результат достигается тем, что способ управления телевизором с помощью ММИ включает визуальное взаимодействие между пользователем и дисплейной системой телевизора. С помощью ММИ, содержащего в качестве системы управления телевизором персональный компьютер, видеокамеру и микрофон, осуществляют управление телевизором путем взаимодействия пользователя с дисплейной системой телевизора, используя алгоритм обнаружения и распознавания пользователя, алгоритм распознавания жестов и алгоритм распознавания голосовых сигналов и экстраполирования динамического ряда данных этих алгоритмов по определенным формулам, в которых математически выражена зависимость алгоритмов этих трех модальностей, взаимодействующих с графическим меню ММИ, выявляют путем математического анализа алгоритмы трех совокупностей сигнальных команд управления телевизором, которые включаются в базу данных и память ММИ интерфейса, в результате ММИ автоматически выявляет индивидуальные для каждого пользователя алгоритмы трех совокупностей сигнальных команд, взаимодействующих с его графическим меню, и осуществляет с их помощью управление телевизором. 9 ил.

Description

Изобретение относится к области вычислительной техники и служит для управления телевизором с использованием мультимодального интерфейса. Интерфейс позволяет человеку управлять телевизором с помощью трех модальностей: динамические жесты рукой, голосовые команды, изображения лица человека. К телевизору присоединяется видеокамера, получающая изображения в реальном времени, микрофон, получающий аудиосигналы в реальном времени и компьютер, который обрабатывает полученную информацию и выдает изображение на экран телевизора, в зависимости от команд, которые он воспринял от разных модальностей человека. Способ управления упрощает процесс взаимодействия человека с телевизором и позволяет давать команды управления естественным и интуитивным способом. Одна из первых идей управления телевизором с помощью жестов была предложена в 1995 году В.Т.Фриманом (William Т. Freeman) в статье "Управление телевизором с помощью жестов" ("Television control by hand gestures" by William T. Freeman, Craig D.Weissman (1995)), им были получены патенты: "Система управления машиной с помощью жестов рук" (W.Т.Freeman and С.D.Weissman, Hand gesture machine control system, U.S. Patent #5,594,469, January, 1997) и "Система управления с помощью жестов рук" (Hand gesture control system, U.S. Patent #6,002,808, December, 1999). В данных работах пользователь мог использовать один статический жест как управляющую команду: открытая ладонь, направленная фронтально к камере, и два динамических жеста: движение руки влево и вправо. Статический жест - это жест, выполняемый заданием определенного положения кисти и пальцев кисти в пространстве, без перемещения в пространстве. Динамический жест - это жест, выполняемый путем перемещения кисти или всей руки человека во времени и пространстве. В предложенной системе на экране телевизора появлялось изображение руки, которая следовала за движением настоящей руки пользователя. Используя перемещение этого изображения и наводя им на различные графические элементы интерфейса на экране телевизора, пользователь мог управлять телевизором.
Профессор П.Премаратне (Prashan Premaratne) и К.Нгиен (Quang Nguyen) в научной статье "Система управления потребительской электроникой с использованием инвариантов моментов жестов руки" ("Consumer electronics control system based on hand gesture moment invariants", IET Computer Vision, vol. 1-1, pp.35-41 (2007)) предлагает интерфейс для телевизора, основанный на шести статических жестах.
Профессор К.Книл (Kate Knill) из исследовательской команды фирмы Тошиба предложил интерфейс управления телевизором с помощью динамических и статических жестов рук. (2008, Электронный ресурс URL: http://www.thainian.com/newsportal/indianews/hand-gesture-sensing-tv-sets-to-make-remote-controls-history-re-issue_10093184.html#). Видеокамера, как и в большинстве работ, устанавливается на телевизоре. Система фиксирует, когда человек входит в зону перед телевизором и пытается распознать жесты. Используя динамические жесты вверх/вниз, пользователь может регулировать громкость телевизора, статический жест, рука вверх: пауза для DVD проигрывателя, статический жест, большой палец вверх: выполняется системой как команда "выбрать" для меню телевизора, на который наведен курсор меню.
Известно «Синхронное понимание семантических объектов для высокоинтерактивного интерфейса», включающий способ взаимодействия с компьютерной системой, содержащий этапы, на которых принимают ввод от пользователя, воспринимают его для обработки, осуществляют разпознавание относительно ввода для получения семантической информации, относящейся к первой части ввода, и выводят семантический объект, используя языковую модель.
Патент РФ №2352979, МПК: G06F 3/16, G10L 15/00, опубл. 2009.04.20.
Известна «Многофункциональная хирургическая система управления и переключающий интерфейс», включающая хирургическое устройство, содержащее роботизированную руку, лазер, электроприжигающее устройство, операционный стол, и переключающий интерфейс, снабженный селекторным входным каналом, соединенным с речевым интерфейсом, принимающим команды голосом и позволяющим хирургу управлять любым устройством.
Патент РФ №2182468, МПК: G06F 13/00, опубл. 2002.05.20.
Известен «Мультимодальный пользовательский интерфейс ("Multimodal user interface" BRITSH TELEKOM (Великобритания)), позволяющий с помощью электронной системы распознать только набор статических жестов и переводит их в управляющий набор команд для одного или нескольких управляемых устройств.
Патент US №6779060, МПК: G06F 13/00; опубл. 2004.08.17.
Наиболее близким аналогом к предложенному техническому решению является «Способ, основанный на распознавании речи, с помощью пользовательского интерфейса», который включает систему электронных приборов, реагирующих на голосовые модуляции пользователя. ("Speech recognition user interface", патентообладатели: Zuberec, Sarah E. (Seattle, WA, US)ioDuval, Cynthia (Shoreline, WA, US), Rabelos, Benjamin N. (Seattle, WA, US)).
Патент US №6965863, МПК: G10L 15/00; опубл. 2005.11.15.
К техническому результату относится расширение взаимодействия между пользователем и дисплейной системой электронной аппаратуры телевизора путем использования мультимодального интерфейса, который с помощью алгоритмов трех модальностей: обнаружение и распознавание пользователя, динамических жестов рукой и его голосовых сигналов, обеспечивает надежную связь между пользователем и дисплейной системой электронной аппаратуры телевизора путем запоминания индивидуальных для каждого пользователя алгоритмов трех совокупностей сигнальных команд, взаимодействующих с графическим меню мультимодального интерфейса.
Технический результат достигается тем, что способ управления телевизором с помощью мультимодального интерфейса включает визуальное взаимодействие между пользователем и дисплейной системой электронной аппаратуры телевизора. С помощью мультимодального интерфейса, содержащего в качестве системы управления телевизором персональный компьютер, видеокамеру и микрофон, осуществляют управление телевизором путем взаимодействия пользователя с дисплейной системой электронной аппаратуры телевизора.
При этом путем использования алгоритма обнаружения и распознавания пользователя, алгоритма распознавания жестов последнего или алгоритма распознавания его голосовых сигналов и экстраполирования динамического ряда данных этих алгоритмов по определенным формулам, в которых математически выражена зависимость алгоритмов этих трех модальностей, взаимодействующих с графическим меню мультимодального интерфейса, выявляют путем математического анализа алгоритмы трех совокупностей сигнальных команд управления телевизором. Последние затем включаются в базу данных и память мультимодального интерфейса, в результате чего мультимодальный интерфейс автоматически выявляет индивидуальные для каждого пользователя алгоритмы трех совокупностей сигнальных команд, взаимодействующих с его графическим меню, и осуществляет с их помощью управление телевизором.
Существующие интерфейсы в основном используют такие средства как монитор, мышь, клавиатура, причем жестовые и голосовые модальности, то есть способы взаимодействия, с помощью которых чаще всего общаются пользователи между собой в обычной жизни, в современных человеко-машинных интерфейсах совершенно не учитываются. В данном случае предлагается способ управления телевизором с помощью интерфейса, который решает проблему взаимодействия и ограниченности, присущей современным способам использования интерфейсов только одной направленности.
Рассматриваемый интерфейс является мультимодальным, так как он использует три модальности при взаимодействии с пользователем: динамические жесты рукой, голосовые команды, изображения лица человека. Под индивидуальностью интерфейса понимается его способность запоминать и затем распознавать конкретных людей, работающих с интерфейсом, в данном случае, использующих телевизор. Под интуитивностью интерфейса понимается отсутствие необходимости в специальном обучении пользователя для работы с ним. Под естественностью интерфейса понимается способность управлять телевизором с помощью жестов и голоса.
Учитывая большую роль жестов в человеческой коммуникации, большая часть мультимодального интерфейса основана на управлении с помощью жестов. Предлагаемый интерфейс не зависит от пользователя и не требует специального обучения для работы с новыми пользователями.
Примеры осуществления способа поясняются на фиг.1, 2, 3, 4, 6, 7, 8 и 9.
Фиг.1 - схема подключения элементов системы управления интерфейса;
фиг.2 - схема обработки видеоданных на персональном компьютере;
фиг.3 - последовательность работы алгоритмов определения;
фиг.4 - первое состояние графического интерфейса;
фиг.5 - второе состояние графического интерфейса;
фиг.6 - третье состояние графического интерфейса, «Открыто меню»;
фиг.7 - открытый пункт меню "Персоны" графического интерфейса;
фиг.8 - открытый пункт меню "Звук/Канал" графического интерфейса с открытым пунктом "Канал";
фиг.9 - открытый пункт меню "Звук/Канал" графического интерфейса с открытым пунктом "Громкость звука".
Способ управления телевизором с помощью мультимодального интерфейса позволяет определять присутствие одного или нескольких пользователей перед телевизором, распознавать пользователя, обеспечивать или ограничивать специальные возможности телевизора для распознанного пользователя, позволяет пользователю управлять меню телевизора с помощью жестовых или голосовых команд.
Определение присутствия одного или нескольких пользователей перед телевизором, основывается на автоматическом обнаружении человеческих лиц в видеопотоке, поступающем от видеокамеры. Обнаруженный человек перед телевизором считается пользователем и после этого начинается процесс распознавания пользователя. В базе данных хранятся изображения всех пользователей, работавших с телевизором. Под процессом распознавания понимается процесс обнаружения сходства изображения лица пользователя с одним из хранимых изображений лиц в базе данных. Во время первого включения телевизора база данных не содержит ни одной записи, но в процессе взаимодействия с пользователями изображения их лиц автоматически добавляются в базу данных. В базе данных все изображения лиц хранятся в профилях пользователя. В профиле пользователя, кроме изображений лиц, также хранятся основные настройки телевизора (настройки цвета экрана, яркости экрана, контрастности экрана, громкость звука), список любимых каналов данного пользователя, уровень доступа. Уровень доступа задает для каждого пользователя телевизора уровень его доступа к настройкам телевизора, к выбору канала, к изменению ограничений. Изменяя уровень доступа пользователей, можно обеспечивать или ограничивать специальные возможности телевизора. При заданном уровне доступа телевизор способен автоматически ограничивать или обеспечивать возможности для распознанного пользователя. Жестовые ("вверх", "вниз", "влево", "вправо") и голосовые команды ("открыть меню", "закрыть меню", "следующий канал", "предыдущий канал") позволяют управлять телевизором и его меню без использования пульта дистанционного управления или других, каких-либо дополнительных физических устройств.
Для осуществления способа используют индивидуальный мультимодальный интерфейс "человек-телевизор", который содержит подключенную к телевизору систему управления интерфейса, включающую компьютер, Веб-камеру и микрофон. Интерфейс с системой управления подключается к телевизору (это может быть телевизор любой марки с диагональю экрана не менее 17 дюймов), и включает персональный компьютер (Pentium 4/3 GHz/2 GB RAM или любой компьютер с аналогичными характеристиками), Веб-камера (любая видеокамера с разрешением не менее 320×240 пикселей), микрофон (Genius MIC-01A или аналог). Персональный компьютер соединяется с телевизором. Веб-камера и микрофон устанавливаются в середине верхней части телевизора, в направлении предполагаемого размещения пользователя телевизора.
(Фиг.1 - схема подключения элементов системы управления интерфейса).
Способ управления телевизором при этом осуществляется следующим образом: видеоданные генерирует Веб-камера в реальном времени.
(Фиг.2 - схема обработки видеоданных на персональном компьютере).
Программная часть индивидуального мультимодального интерфейса "человек - телевизор" включает: алгоритм определения присутствия человека перед телевизором, алгоритм выбора человека для взаимодействия, алгоритм распознавания человека, алгоритм распознавания жестов, алгоритм распознавания голосовых команд, а также графическое меню интерфейса. Алгоритм определения присутствия человека перед телевизором основан на нахождении лиц в видеопотоке, используя каскадный детектор характерных признаков Хаара. Каскадный детектор характерных признаков Хаара был разработан, опираясь на идею, предложенную П.Виолой в своей научной статье (Viola, Р., & Jones, M. (2001) Rapid Object Detection using a Boosted Cascade of Simple Features. IEEE CVPR, 1, 511-518). Алгоритм может обнаружить от одного до десяти лиц, то есть обнаружить до десяти людей перед телевизором, если их лица не загораживают друг друга.
Алгоритм выбора человека для взаимодействия основан на определении размера лиц, найденных алгоритмом из пункта 4. Так как видеопоток представляет собой упорядоченную во времени последовательность двухмерных цифровых изображений (видеокадров), то размеры лица человека на изображении, который находится ближе к камере, больше размеров лица человека, который находится дальше от камеры. Алгоритм выбора человека для взаимодействия выбирает человека с наибольшим размером лица, то есть человека, находящегося ближе всех к Веб-камере.
Алгоритм распознавания человека основан на применении трех алгоритмов распознавания: Скрытых Марковских моделей. Алгоритма определения цвета и Алгоритма обнаружения соотношений на лице.
Скрытые Марковские модели (СММ) как алгоритм распознавания человека по изображению его лица был разработан, опираясь на А.В.Нефиана (Аrа. V.Nefian and Monson H. Hayes III, Face detection and recognition using Hidden Markov Models, IEEE International Conference on Image Processing, 1998).
Алгоритм определения цвета использует среднее значение цвета области лица, найденной алгоритмом из пункта 4, для того чтобы сравнить с хранимыми средними значениями цветов из базы данных профилей пользователей. В качестве метрики средней близости применяется Евклидово расстояние. Алгоритм обнаружения соотношений на лице использует для распознавания расстояние между глазами, глазом и носом, носом и ртом, глазом и ртом, глазом и подбородком. Эти расстояния с помощью Евклидовой метрики сравниваются с хранимыми расстояниями на лицах других пользователей.
Результаты распознавания этих трех алгоритмов агрегируются, и принимается решение: соответствует ли пользователь одному из хранимых профилей в базе данных. Агрегирование разработано на основе оригинальной идеи, предложенной в статье авторов заявки (Devyatkov, V., & Alfimtsev A. (2008). Optimal Fuzzy Aggregation of Secondary Attributes in Recognition Problems. Proc. of 16-th International Conference in Central Europe on Computer Graphics, Visualization and Computer Vision. Plzen, 78-85).
Каждый алгоритм распознавания должен быть обучен перед началом своей работы. Но в данном интерфейсе алгоритмы автоматически обучаются на лицах пользователей, находящихся перед телевизором. Если пользователь, который зашел в зону перед телевизором, не распознан, то есть его профиля нет в базе данных из-за того что: это первый старт интерфейса или пользователь просто первый раз появился перед этим телевизором, его профиль автоматически будет добавлен в базу данных. И в следующий раз, когда пользователь зайдет в зону перед телевизором, он будет распознан. Последовательность работы алгоритмов определения присутствия, выбора и распознавания представлена на фиг.3 - последовательность работы алгоритмов определения.
Алгоритм распознавания жестов основан на оригинальной идее, предложенной авторами заявки (Devyatkov, V., & Alfimtsev, A. (2007). Gesture-based control of telerobots. Proc. of 23rd ISPE International Conference on CARS & FOF 07, Bogota, 59-67). Индивидуальный мультимодальный интерфейс "человек - телевизор" использует четыре динамических жеста "вверх", "вниз", "влево", "вправо". Эти жесты выполняются путем перемещения руки в пространстве (левой или правой). Жесты распознаются только тогда, когда рука пользователя, выполняющего жест, находится напротив графических элементов меню интерфейса. Алгоритм распознавания голосовых команд был разработан на основе идеи, высказанной С.Н.Вригли (Wrigley S.N. Speech Recognition by Dynamic Time arping, http://www.dcs.shef.ac.uk/~stu/com326/index.html). Индивидуальный мультимодальный интерфейс "человек - телевизор" использует четыре голосовые команды "открыть меню", "закрыть меню", "следующий канал", "предыдущий канал".
Графическое меню интерфейса используется для отображения на экране телевизора настроек телевизора и настроек самого интерфейса, которыми пользователь может управлять с помощью жестов. Графическое меню интерфейса может находиться в трех состояниях. В первом состоянии, когда нет ни одного человека напротив телевизора, видеопоток от Веб-камеры не отображается в левом верхнем углу экрана телевизора и вся остальная область экрана телевизора остается пустой (фиг.4 - первое состояние графического интерфейса. Нет ни одного человека напротив телевизора). Если один или несколько человек входят в зону напротив телевизора, их лица автоматически находятся в видеопотоке, один человек выбирается для распознавания и взаимодействия, (с этого момента лицо человека, выбранного для взаимодействия, будет отслеживаться и дальше, но с частотой 1 раз в 20 секунд).
Если для данного человека есть профиль в базе данных, то он считается пользователем и результат его распознавания в виде полутонового изображения его лица отображается в левой части экрана телевизора. Если пользователя нет в базе данных, на экране телевизора в течение 2 секунд отображается надпись "Обучение", для пользователя будет автоматически сформирован новый профиль и изображение его лица будет отображено в левой части экрана телевизора. На этапе распознавания человека и обучения на новом человеке графическое меню интерфейса переходит во второе состояние. Во втором состоянии (фиг.5 - второе состояние графического интерфейса) графического меню интерфейса вся область экрана телевизора (после распознавания или обучения) заполняется проигрыванием некоторого канала. Этот канал выбирается в зависимости от результата распознавания. Также автоматически устанавливаются другие настройки телевизора, такие как яркость, уровень звука и др. Эта информация хранится в профиле пользователя. Это одно из основных свойств индивидуального мультимодального интерфейса "человек - телевизор". Свойство позволяет автоматически обеспечивать и ограничивать возможности телевизора для пользователя.
Кроме того, во втором состоянии, в правой верхней области экрана телевизора появляется область жеста. В этой области пользователь может выполнить жесты "влево" и "вправо", тем самым вызвав на экран телевизора основное меню телевизора (при этом графическое меню интерфейса перейдет в третье состояние). Вместо жестов, для того чтобы вызвать или убрать основное меню, пользователь может использовать голосовые команды "открыть меню", "закрыть меню". Результат распознавания, телевизионный канал и другие настройки телевизора отображены на экране в соответствии с результатом распознавания. Осуществив переход в третье состояние графического интерфейса с помощью жестов или голосовой команды, пользователь может начать работать с пунктами меню телевизора.
Одним из ключевых моментов отображения на экране телевизора графического интерфейса в третьем состоянии является разделение экрана телевизора на две части: в левой части экрана продолжает отображаться телевизионный канал, в правой части телевизионный канал начинает отображаться совместно с видеопотоком, идущим от Веб-камеры. Это сделано для того, чтобы пользователь мог продолжать смотреть телевизионный канал и одновременно видеть движения своей руки по экрану телевизора, что облегчает взаимодействие с интерфейсом с помощью жестов. Пункты меню телевизора отображаются на экране телевизора с правой стороны. Используя жесты "вверх" или "вниз", пользователь может перемещаться по пунктам меню (фиг.6 - третье состояние графического интерфейса. Открыто меню). Для того чтобы закрыть меню, пользователь может снова выполнить жесты "вправо" и "влево" в области жеста, или использовать голосовую команду "закрыть меню". Меню телевизора индивидуального мультимодального интерфейса содержит следующие пункты: Персоны, Источники, Яркость, Звук/Канал.
Пункт меню "Персоны" позволяет установить уровень доступа пользователям телевизора. Когда пользователь откроет этот пункт меню (выполнив жест "влево" в области этого пункта), на экране телевизора появляются два дополнительных пункта: изображения лиц пользователей из базы данных, уровень доступа для каждого пользователя (фиг.7 - открытый пункт меню "Персоны" графического интерфейса). Используя жесты "вправо", "влево", пользователь может выбрать каждый из этих пунктов. Используя жесты "вверх", "вниз", пользователь может выбрать изображения лиц из базы данных или увеличить/уменьшить уровень доступа пользователя. В интерфейсе предусмотрено два уровня доступа: 0 и 1. С уровнем доступа 0 пользователь может использовать любой пункт меню телевизора. С уровнем доступа 1 пользователь может только использовать пункт меню "Звук/Канал". Это одно из основных свойств индивидуального мультимодального интерфейса "человек - телевизор". Свойство позволяет для пользователя, у которого поставлен низкий уровень доступа 1, автоматически ограничивать возможности телевизора (при распознавании присутствия этого пользователя перед телевизором).
Пункт меню "Источники" позволяет пользователю выбирать источник сигнала: от телевизионного кабеля или от DVD-плеера. Используя жесты "вверх" и "вниз", пользователь может выбрать источник из списка.
Пункт меню "Яркость" позволяет пользователю изменять уровень яркости экрана телевизора. Внешний вид пунктов 14 и 15 соответствует пункту "Громкость звука", рассматриваемому далее. Пункт меню "Звук/Канал" позволяет пользователю переключать каналы (фиг.8 - открытый пункт меню "Звук/Канал" графического интерфейса с открытым пунктом "Канал") или изменять громкость звука (фиг.9 - Открытый пункт меню "Звук/Канал" графического интерфейса с открытым пунктом "Громкость звука"), используя жесты "вверх" или "вниз". Также для переключения каналов пользователь может использовать голосовые команды "следующий канал", "предыдущий канал" вне зависимости от того, в каком состоянии находится графический интерфейс. Пользователь может выбрать телевизионный канал, из списка каналов, используя жесты "вниз" или "вверх".
Пользователь может изменить громкость звука телевизора, используя жесты "вниз" или "вверх".
Следовательно, в предложенном в качестве изобретения способе управления телевизором с помощью мультимодального интерфейса используются алгоритмы компьютерного зрения для обнаружения и распознавания человека, причем в ракурсе трех модальностей; динамических жестов рукой, голосовых команд и изображений лица человека. При этом применяют три алгоритма распознавания пользователя по изображению его лица: а) скрытых Марковских моделей, б) алгоритм определения цвета, в) алгоритм обнаружения соотношений на лице.
Для автоматического создания профиля пользователя в базе данных для нового пользователя используют автоматическое обучение алгоритмов распознавания на новом пользователе в скрытом режиме, также автоматически обеспечиваются возможности опознания для уже зарегистрированных интерфейсом пользователей телевизора. Жестовые и голосовые команды не требуют дополнительного обучения на новых пользователях.
Преимущества предлагаемого решения заключаются в отсутствии активных датчиков: лазеров, инфракрасной подсветки, световой подсветки, сонара, что обеспечивает безопасность для здоровья пользователя, кроме того, в аппаратном обеспечении интерфейса отсутствуют любые движущееся части, что повышает надежность и долговечность работы интерфейса.
Отсутствует физический контакт пользователя с устройством управления, что увеличивает интуитивность и естественность управления.
Нет необходимости в дорогом аппаратном обеспечении и для обеспечения способа требуется лишь бытовая Веб-камера, ненаправленный микрофон и персональный компьютер, подключаемый к телевизору. Распознавание лица пользователя, жестовых и голосовых команд происходит в реальном времени (менее 1 сек) и распознавание лица пользователя, жестовых и голосовых команд происходит в условиях помещения при обычном электрическом или дневном освещении, кроме того, распознавание лица пользователя, жестовых и голосовых команд происходит без каких-либо специальных маркеров на теле пользователя.

Claims (1)

  1. Способ управления телевизором с помощью мультимодального интерфейса, включающий визуальное взаимодействие между пользователем и дисплейной системой электронной аппаратуры телевизора, отличающийся тем, что с помощью мультимодального интерфейса, содержащего в качестве системы управления телевизором персональный компьютер, видеокамеру и микрофон, осуществляют управление телевизором путем взаимодействия пользователя с дисплейной системой электронной аппаратуры телевизора, при этом путем использования алгоритма обнаружения и распознавания пользователя, алгоритма распознавания жестов последнего или алгоритма распознавания его голосовых сигналов и экстраполирования динамического ряда данных этих алгоритмов по определенным формулам, в которых математически выражена зависимость алгоритмов этих трех модальностей, взаимодействующих с графическим меню мультимодального интерфейса, выявляют путем математического анализа алгоритмы трех совокупностей сигнальных команд управления телевизором, которые затем включаются в базу данных и память мультимодального интерфейса, в результате чего мультимодальный интерфейс автоматически выявляет индивидуальные для каждого пользователя алгоритмы трех совокупностей сигнальных команд, взаимодействующих с его графическим меню, и осуществляет с их помощью управление телевизором.
RU2010103629/09A 2010-02-04 2010-02-04 Способ управления телевизором с помощью мультимодального интерфейса RU2422878C1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2010103629/09A RU2422878C1 (ru) 2010-02-04 2010-02-04 Способ управления телевизором с помощью мультимодального интерфейса

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2010103629/09A RU2422878C1 (ru) 2010-02-04 2010-02-04 Способ управления телевизором с помощью мультимодального интерфейса

Publications (1)

Publication Number Publication Date
RU2422878C1 true RU2422878C1 (ru) 2011-06-27

Family

ID=44739387

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2010103629/09A RU2422878C1 (ru) 2010-02-04 2010-02-04 Способ управления телевизором с помощью мультимодального интерфейса

Country Status (1)

Country Link
RU (1) RU2422878C1 (ru)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8638989B2 (en) 2012-01-17 2014-01-28 Leap Motion, Inc. Systems and methods for capturing motion in three-dimensional space
RU2544743C2 (ru) * 2011-12-29 2015-03-20 Самсунг Электроникс Ко., Лтд. Устройство отображения и устройство дистанционного управления для управления этим устройством и способы управления этими устройствами
US9285893B2 (en) 2012-11-08 2016-03-15 Leap Motion, Inc. Object detection and tracking with variable-field illumination devices
US9465461B2 (en) 2013-01-08 2016-10-11 Leap Motion, Inc. Object detection and tracking with audio and optical signals
US9495613B2 (en) 2012-01-17 2016-11-15 Leap Motion, Inc. Enhanced contrast for object detection and characterization by optical imaging using formed difference images
US9613262B2 (en) 2014-01-15 2017-04-04 Leap Motion, Inc. Object detection and tracking for providing a virtual device experience
US9679215B2 (en) 2012-01-17 2017-06-13 Leap Motion, Inc. Systems and methods for machine control
RU2625439C2 (ru) * 2011-08-05 2017-07-13 Самсунг Электроникс Ко., Лтд. Электронное устройство и способ для предоставления пользовательского интерфейса для него
US9733895B2 (en) 2011-08-05 2017-08-15 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
US9916009B2 (en) 2013-04-26 2018-03-13 Leap Motion, Inc. Non-tactile interface systems and methods
US9945660B2 (en) 2012-01-17 2018-04-17 Leap Motion, Inc. Systems and methods of locating a control object appendage in three dimensional (3D) space
RU2667375C2 (ru) * 2013-07-24 2018-09-19 Гизеке+Девриент Каренси Текнолоджи Гмбх Способ и устройство обработки ценных документов
US10585193B2 (en) 2013-03-15 2020-03-10 Ultrahaptics IP Two Limited Determining positional information of an object in space
US10609285B2 (en) 2013-01-07 2020-03-31 Ultrahaptics IP Two Limited Power consumption in motion-capture systems
US10691219B2 (en) 2012-01-17 2020-06-23 Ultrahaptics IP Two Limited Systems and methods for machine control
US10739862B2 (en) 2013-01-15 2020-08-11 Ultrahaptics IP Two Limited Free-space user interface and control using virtual constructs
US10846942B1 (en) 2013-08-29 2020-11-24 Ultrahaptics IP Two Limited Predictive information for free space gesture control and communication
US11720180B2 (en) 2012-01-17 2023-08-08 Ultrahaptics IP Two Limited Systems and methods for machine control
US11740705B2 (en) 2013-01-15 2023-08-29 Ultrahaptics IP Two Limited Method and system for controlling a machine according to a characteristic of a control object
US11778159B2 (en) 2014-08-08 2023-10-03 Ultrahaptics IP Two Limited Augmented reality with motion sensing
US11775033B2 (en) 2013-10-03 2023-10-03 Ultrahaptics IP Two Limited Enhanced field of view to augment three-dimensional (3D) sensory space for free-space gesture interpretation
US11868687B2 (en) 2013-10-31 2024-01-09 Ultrahaptics IP Two Limited Predictive information for free space gesture control and communication

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Gesture and Sign Languages in Human-Computer Interaction, Lecture Notes in Computer Science, International Gesture Workshop, GW 2001, London, UK, April 18-20, 2001, Springer Berlin/Heidelberg, Volume 2298. MCKENZIE MILLS K. ET AL, Integrating speech and two-dimensional gesture input-a study of redundancy between modes, COMPUTER HUMAN INTERACTION CONFERENCE, 1998. PROCEEDINGS, AUSTRALIA, 30 NOV. - 4 DEC. 1998, LOS ALAMITOS, IEEE COMPUT. SOC, c.6-13. *
ДЕВЯТКОВ В.В. и др. Метод мультимодального распознавания сцен. - МГТУ им. Н.Э.Баумана, Proceedings of the International Conference on System Analysis and Information Technologies, Issue 2009, Session 2, CAIT-2009, Киев, Украина, 28 мая 2009, найдено в Интернет на http://sait.org.ua/eproc/2009/2/s2201.pdf/view. *

Cited By (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2625439C2 (ru) * 2011-08-05 2017-07-13 Самсунг Электроникс Ко., Лтд. Электронное устройство и способ для предоставления пользовательского интерфейса для него
US9733895B2 (en) 2011-08-05 2017-08-15 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
RU2544743C2 (ru) * 2011-12-29 2015-03-20 Самсунг Электроникс Ко., Лтд. Устройство отображения и устройство дистанционного управления для управления этим устройством и способы управления этими устройствами
US11994377B2 (en) 2012-01-17 2024-05-28 Ultrahaptics IP Two Limited Systems and methods of locating a control object appendage in three dimensional (3D) space
US9672441B2 (en) 2012-01-17 2017-06-06 Leap Motion, Inc. Enhanced contrast for object detection and characterization by optical imaging based on differences between images
US11720180B2 (en) 2012-01-17 2023-08-08 Ultrahaptics IP Two Limited Systems and methods for machine control
US9934580B2 (en) 2012-01-17 2018-04-03 Leap Motion, Inc. Enhanced contrast for object detection and characterization by optical imaging based on differences between images
US12086327B2 (en) 2012-01-17 2024-09-10 Ultrahaptics IP Two Limited Differentiating a detected object from a background using a gaussian brightness falloff pattern
US9626591B2 (en) 2012-01-17 2017-04-18 Leap Motion, Inc. Enhanced contrast for object detection and characterization by optical imaging
US9652668B2 (en) 2012-01-17 2017-05-16 Leap Motion, Inc. Enhanced contrast for object detection and characterization by optical imaging based on differences between images
US9945660B2 (en) 2012-01-17 2018-04-17 Leap Motion, Inc. Systems and methods of locating a control object appendage in three dimensional (3D) space
US9679215B2 (en) 2012-01-17 2017-06-13 Leap Motion, Inc. Systems and methods for machine control
US9697643B2 (en) 2012-01-17 2017-07-04 Leap Motion, Inc. Systems and methods of object shape and position determination in three-dimensional (3D) space
US10767982B2 (en) 2012-01-17 2020-09-08 Ultrahaptics IP Two Limited Systems and methods of locating a control object appendage in three dimensional (3D) space
US9153028B2 (en) 2012-01-17 2015-10-06 Leap Motion, Inc. Systems and methods for capturing motion in three-dimensional space
US9741136B2 (en) 2012-01-17 2017-08-22 Leap Motion, Inc. Systems and methods of object shape and position determination in three-dimensional (3D) space
US10699155B2 (en) 2012-01-17 2020-06-30 Ultrahaptics IP Two Limited Enhanced contrast for object detection and characterization by optical imaging based on differences between images
US9778752B2 (en) 2012-01-17 2017-10-03 Leap Motion, Inc. Systems and methods for machine control
US11308711B2 (en) 2012-01-17 2022-04-19 Ultrahaptics IP Two Limited Enhanced contrast for object detection and characterization by optical imaging based on differences between images
US9495613B2 (en) 2012-01-17 2016-11-15 Leap Motion, Inc. Enhanced contrast for object detection and characterization by optical imaging using formed difference images
US9436998B2 (en) 2012-01-17 2016-09-06 Leap Motion, Inc. Systems and methods of constructing three-dimensional (3D) model of an object using image cross-sections
US9767345B2 (en) 2012-01-17 2017-09-19 Leap Motion, Inc. Systems and methods of constructing three-dimensional (3D) model of an object using image cross-sections
US10691219B2 (en) 2012-01-17 2020-06-23 Ultrahaptics IP Two Limited Systems and methods for machine control
US10366308B2 (en) 2012-01-17 2019-07-30 Leap Motion, Inc. Enhanced contrast for object detection and characterization by optical imaging based on differences between images
US10410411B2 (en) 2012-01-17 2019-09-10 Leap Motion, Inc. Systems and methods of object shape and position determination in three-dimensional (3D) space
US11782516B2 (en) 2012-01-17 2023-10-10 Ultrahaptics IP Two Limited Differentiating a detected object from a background using a gaussian brightness falloff pattern
US10565784B2 (en) 2012-01-17 2020-02-18 Ultrahaptics IP Two Limited Systems and methods for authenticating a user according to a hand of the user moving in a three-dimensional (3D) space
US8638989B2 (en) 2012-01-17 2014-01-28 Leap Motion, Inc. Systems and methods for capturing motion in three-dimensional space
US9285893B2 (en) 2012-11-08 2016-03-15 Leap Motion, Inc. Object detection and tracking with variable-field illumination devices
US10609285B2 (en) 2013-01-07 2020-03-31 Ultrahaptics IP Two Limited Power consumption in motion-capture systems
US10097754B2 (en) 2013-01-08 2018-10-09 Leap Motion, Inc. Power consumption in motion-capture systems with audio and optical signals
US9465461B2 (en) 2013-01-08 2016-10-11 Leap Motion, Inc. Object detection and tracking with audio and optical signals
US11874970B2 (en) 2013-01-15 2024-01-16 Ultrahaptics IP Two Limited Free-space user interface and control using virtual constructs
US10739862B2 (en) 2013-01-15 2020-08-11 Ultrahaptics IP Two Limited Free-space user interface and control using virtual constructs
US11740705B2 (en) 2013-01-15 2023-08-29 Ultrahaptics IP Two Limited Method and system for controlling a machine according to a characteristic of a control object
US11353962B2 (en) 2013-01-15 2022-06-07 Ultrahaptics IP Two Limited Free-space user interface and control using virtual constructs
US10585193B2 (en) 2013-03-15 2020-03-10 Ultrahaptics IP Two Limited Determining positional information of an object in space
US11693115B2 (en) 2013-03-15 2023-07-04 Ultrahaptics IP Two Limited Determining positional information of an object in space
US10452151B2 (en) 2013-04-26 2019-10-22 Ultrahaptics IP Two Limited Non-tactile interface systems and methods
US9916009B2 (en) 2013-04-26 2018-03-13 Leap Motion, Inc. Non-tactile interface systems and methods
US11099653B2 (en) 2013-04-26 2021-08-24 Ultrahaptics IP Two Limited Machine responsiveness to dynamic user movements and gestures
RU2667375C2 (ru) * 2013-07-24 2018-09-19 Гизеке+Девриент Каренси Текнолоджи Гмбх Способ и устройство обработки ценных документов
US11776208B2 (en) 2013-08-29 2023-10-03 Ultrahaptics IP Two Limited Predictive information for free space gesture control and communication
US11282273B2 (en) 2013-08-29 2022-03-22 Ultrahaptics IP Two Limited Predictive information for free space gesture control and communication
US10846942B1 (en) 2013-08-29 2020-11-24 Ultrahaptics IP Two Limited Predictive information for free space gesture control and communication
US11461966B1 (en) 2013-08-29 2022-10-04 Ultrahaptics IP Two Limited Determining spans and span lengths of a control object in a free space gesture control environment
US12086935B2 (en) 2013-08-29 2024-09-10 Ultrahaptics IP Two Limited Predictive information for free space gesture control and communication
US11775033B2 (en) 2013-10-03 2023-10-03 Ultrahaptics IP Two Limited Enhanced field of view to augment three-dimensional (3D) sensory space for free-space gesture interpretation
US11868687B2 (en) 2013-10-31 2024-01-09 Ultrahaptics IP Two Limited Predictive information for free space gesture control and communication
US9613262B2 (en) 2014-01-15 2017-04-04 Leap Motion, Inc. Object detection and tracking for providing a virtual device experience
US11778159B2 (en) 2014-08-08 2023-10-03 Ultrahaptics IP Two Limited Augmented reality with motion sensing
US12095969B2 (en) 2014-08-08 2024-09-17 Ultrahaptics IP Two Limited Augmented reality with motion sensing

Similar Documents

Publication Publication Date Title
RU2422878C1 (ru) Способ управления телевизором с помощью мультимодального интерфейса
US10126826B2 (en) System and method for interaction with digital devices
US8830292B2 (en) Enhanced interface for voice and video communications
Lian et al. Automatic user state recognition for hand gesture based low-cost television control system
Bailly et al. Shoesense: a new perspective on gestural interaction and wearable applications
CN103353935B (zh) 一种用于智能家居系统的3d动态手势识别方法
EP1186162B1 (en) Multi-modal video target acquisition and re-direction system and method
CN109074819A (zh) 基于操作-声音的多模式命令的优选控制方法及应用其的电子设备
CN110785735A (zh) 用于语音命令情景的装置和方法
KR101302638B1 (ko) 머리의 제스처 및 손의 제스처를 감지하여 컨텐츠를 제어하기 위한 방법, 단말 장치 및 컴퓨터 판독 가능한 기록 매체
WO2018000519A1 (zh) 一种基于投影的用户交互图标的交互控制方法及系统
US20210333884A1 (en) Method and device for adjusting the control-display gain of a gesture controlled electronic device
Kjeldsen Head gestures for computer control
CN111898407A (zh) 一种基于人脸动作识别的人机交互操作系统
CN103135746A (zh) 基于静态姿势和动态姿势的非接触控制方法、系统和设备
WO2023044352A1 (en) Touchless image-based input interface
US20240176425A1 (en) Method for Controlling Wearable Device and Wearable Device
Hwang et al. A gesture based TV control interface for visually impaired: Initial design and user study
CN103218124B (zh) 基于深度摄像头的菜单控制方法及系统
Anand et al. Beyond touch: Natural interactions using facial expressions
CN114610153A (zh) 一种显示设备及动态手势交互方法
WO2019071649A1 (zh) 一种基于声学感知的交互输入方法、系统及介质
CN113989834A (zh) 基于机器视觉的手势控制的智能魔镜
WO2023077886A1 (zh) 一种显示设备及其控制方法
Ruser et al. Evaluating the accuracy and user experience of a gesture-based infrared remote control in smart homes

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20120205