RU2422878C1

RU2422878C1 - Способ управления телевизором с помощью мультимодального интерфейса

Info

Publication number: RU2422878C1
Application number: RU2010103629/09A
Authority: RU
Inventors: Владимир Валентинович Девятков (RU); Владимир Валентинович Девятков; Александр Николаевич Алфимцев (RU); Александр Николаевич Алфимцев
Original assignee: Владимир Валентинович Девятков; Александр Николаевич Алфимцев
Priority date: 2010-02-04
Filing date: 2010-02-04
Publication date: 2011-06-27

Abstract

Изобретение относится к области вычислительной техники и служит для управления телевизором с использованием мультимодального интерфейса (ММИ). Техническим результатом является расширение взаимодействия между пользователем и дисплейной системой электронной аппаратуры телевизора. Технический результат достигается тем, что способ управления телевизором с помощью ММИ включает визуальное взаимодействие между пользователем и дисплейной системой телевизора. С помощью ММИ, содержащего в качестве системы управления телевизором персональный компьютер, видеокамеру и микрофон, осуществляют управление телевизором путем взаимодействия пользователя с дисплейной системой телевизора, используя алгоритм обнаружения и распознавания пользователя, алгоритм распознавания жестов и алгоритм распознавания голосовых сигналов и экстраполирования динамического ряда данных этих алгоритмов по определенным формулам, в которых математически выражена зависимость алгоритмов этих трех модальностей, взаимодействующих с графическим меню ММИ, выявляют путем математического анализа алгоритмы трех совокупностей сигнальных команд управления телевизором, которые включаются в базу данных и память ММИ интерфейса, в результате ММИ автоматически выявляет индивидуальные для каждого пользователя алгоритмы трех совокупностей сигнальных команд, взаимодействующих с его графическим меню, и осуществляет с их помощью управление телевизором. 9 ил.

Description

Изобретение относится к области вычислительной техники и служит для управления телевизором с использованием мультимодального интерфейса. Интерфейс позволяет человеку управлять телевизором с помощью трех модальностей: динамические жесты рукой, голосовые команды, изображения лица человека. К телевизору присоединяется видеокамера, получающая изображения в реальном времени, микрофон, получающий аудиосигналы в реальном времени и компьютер, который обрабатывает полученную информацию и выдает изображение на экран телевизора, в зависимости от команд, которые он воспринял от разных модальностей человека. Способ управления упрощает процесс взаимодействия человека с телевизором и позволяет давать команды управления естественным и интуитивным способом. Одна из первых идей управления телевизором с помощью жестов была предложена в 1995 году В.Т.Фриманом (William Т. Freeman) в статье "Управление телевизором с помощью жестов" ("Television control by hand gestures" by William T. Freeman, Craig D.Weissman (1995)), им были получены патенты: "Система управления машиной с помощью жестов рук" (W.Т.Freeman and С.D.Weissman, Hand gesture machine control system, U.S. Patent #5,594,469, January, 1997) и "Система управления с помощью жестов рук" (Hand gesture control system, U.S. Patent #6,002,808, December, 1999). В данных работах пользователь мог использовать один статический жест как управляющую команду: открытая ладонь, направленная фронтально к камере, и два динамических жеста: движение руки влево и вправо. Статический жест - это жест, выполняемый заданием определенного положения кисти и пальцев кисти в пространстве, без перемещения в пространстве. Динамический жест - это жест, выполняемый путем перемещения кисти или всей руки человека во времени и пространстве. В предложенной системе на экране телевизора появлялось изображение руки, которая следовала за движением настоящей руки пользователя. Используя перемещение этого изображения и наводя им на различные графические элементы интерфейса на экране телевизора, пользователь мог управлять телевизором.

Профессор П.Премаратне (Prashan Premaratne) и К.Нгиен (Quang Nguyen) в научной статье "Система управления потребительской электроникой с использованием инвариантов моментов жестов руки" ("Consumer electronics control system based on hand gesture moment invariants", IET Computer Vision, vol. 1-1, pp.35-41 (2007)) предлагает интерфейс для телевизора, основанный на шести статических жестах.

Профессор К.Книл (Kate Knill) из исследовательской команды фирмы Тошиба предложил интерфейс управления телевизором с помощью динамических и статических жестов рук. (2008, Электронный ресурс URL: http://www.thainian.com/newsportal/indianews/hand-gesture-sensing-tv-sets-to-make-remote-controls-history-re-issue_10093184.html#). Видеокамера, как и в большинстве работ, устанавливается на телевизоре. Система фиксирует, когда человек входит в зону перед телевизором и пытается распознать жесты. Используя динамические жесты вверх/вниз, пользователь может регулировать громкость телевизора, статический жест, рука вверх: пауза для DVD проигрывателя, статический жест, большой палец вверх: выполняется системой как команда "выбрать" для меню телевизора, на который наведен курсор меню.

Известно «Синхронное понимание семантических объектов для высокоинтерактивного интерфейса», включающий способ взаимодействия с компьютерной системой, содержащий этапы, на которых принимают ввод от пользователя, воспринимают его для обработки, осуществляют разпознавание относительно ввода для получения семантической информации, относящейся к первой части ввода, и выводят семантический объект, используя языковую модель.

Патент РФ №2352979, МПК: G06F 3/16, G10L 15/00, опубл. 2009.04.20.

Известна «Многофункциональная хирургическая система управления и переключающий интерфейс», включающая хирургическое устройство, содержащее роботизированную руку, лазер, электроприжигающее устройство, операционный стол, и переключающий интерфейс, снабженный селекторным входным каналом, соединенным с речевым интерфейсом, принимающим команды голосом и позволяющим хирургу управлять любым устройством.

Патент РФ №2182468, МПК: G06F 13/00, опубл. 2002.05.20.

Известен «Мультимодальный пользовательский интерфейс ("Multimodal user interface" BRITSH TELEKOM (Великобритания)), позволяющий с помощью электронной системы распознать только набор статических жестов и переводит их в управляющий набор команд для одного или нескольких управляемых устройств.

Патент US №6779060, МПК: G06F 13/00; опубл. 2004.08.17.

Наиболее близким аналогом к предложенному техническому решению является «Способ, основанный на распознавании речи, с помощью пользовательского интерфейса», который включает систему электронных приборов, реагирующих на голосовые модуляции пользователя. ("Speech recognition user interface", патентообладатели: Zuberec, Sarah E. (Seattle, WA, US)ioDuval, Cynthia (Shoreline, WA, US), Rabelos, Benjamin N. (Seattle, WA, US)).

Патент US №6965863, МПК: G10L 15/00; опубл. 2005.11.15.

К техническому результату относится расширение взаимодействия между пользователем и дисплейной системой электронной аппаратуры телевизора путем использования мультимодального интерфейса, который с помощью алгоритмов трех модальностей: обнаружение и распознавание пользователя, динамических жестов рукой и его голосовых сигналов, обеспечивает надежную связь между пользователем и дисплейной системой электронной аппаратуры телевизора путем запоминания индивидуальных для каждого пользователя алгоритмов трех совокупностей сигнальных команд, взаимодействующих с графическим меню мультимодального интерфейса.

Технический результат достигается тем, что способ управления телевизором с помощью мультимодального интерфейса включает визуальное взаимодействие между пользователем и дисплейной системой электронной аппаратуры телевизора. С помощью мультимодального интерфейса, содержащего в качестве системы управления телевизором персональный компьютер, видеокамеру и микрофон, осуществляют управление телевизором путем взаимодействия пользователя с дисплейной системой электронной аппаратуры телевизора.

При этом путем использования алгоритма обнаружения и распознавания пользователя, алгоритма распознавания жестов последнего или алгоритма распознавания его голосовых сигналов и экстраполирования динамического ряда данных этих алгоритмов по определенным формулам, в которых математически выражена зависимость алгоритмов этих трех модальностей, взаимодействующих с графическим меню мультимодального интерфейса, выявляют путем математического анализа алгоритмы трех совокупностей сигнальных команд управления телевизором. Последние затем включаются в базу данных и память мультимодального интерфейса, в результате чего мультимодальный интерфейс автоматически выявляет индивидуальные для каждого пользователя алгоритмы трех совокупностей сигнальных команд, взаимодействующих с его графическим меню, и осуществляет с их помощью управление телевизором.

Существующие интерфейсы в основном используют такие средства как монитор, мышь, клавиатура, причем жестовые и голосовые модальности, то есть способы взаимодействия, с помощью которых чаще всего общаются пользователи между собой в обычной жизни, в современных человеко-машинных интерфейсах совершенно не учитываются. В данном случае предлагается способ управления телевизором с помощью интерфейса, который решает проблему взаимодействия и ограниченности, присущей современным способам использования интерфейсов только одной направленности.

Рассматриваемый интерфейс является мультимодальным, так как он использует три модальности при взаимодействии с пользователем: динамические жесты рукой, голосовые команды, изображения лица человека. Под индивидуальностью интерфейса понимается его способность запоминать и затем распознавать конкретных людей, работающих с интерфейсом, в данном случае, использующих телевизор. Под интуитивностью интерфейса понимается отсутствие необходимости в специальном обучении пользователя для работы с ним. Под естественностью интерфейса понимается способность управлять телевизором с помощью жестов и голоса.

Учитывая большую роль жестов в человеческой коммуникации, большая часть мультимодального интерфейса основана на управлении с помощью жестов. Предлагаемый интерфейс не зависит от пользователя и не требует специального обучения для работы с новыми пользователями.

Примеры осуществления способа поясняются на фиг.1, 2, 3, 4, 6, 7, 8 и 9.

Фиг.1 - схема подключения элементов системы управления интерфейса;

фиг.2 - схема обработки видеоданных на персональном компьютере;

фиг.3 - последовательность работы алгоритмов определения;

фиг.4 - первое состояние графического интерфейса;

фиг.5 - второе состояние графического интерфейса;

фиг.6 - третье состояние графического интерфейса, «Открыто меню»;

фиг.7 - открытый пункт меню "Персоны" графического интерфейса;

фиг.8 - открытый пункт меню "Звук/Канал" графического интерфейса с открытым пунктом "Канал";

фиг.9 - открытый пункт меню "Звук/Канал" графического интерфейса с открытым пунктом "Громкость звука".

Способ управления телевизором с помощью мультимодального интерфейса позволяет определять присутствие одного или нескольких пользователей перед телевизором, распознавать пользователя, обеспечивать или ограничивать специальные возможности телевизора для распознанного пользователя, позволяет пользователю управлять меню телевизора с помощью жестовых или голосовых команд.

Определение присутствия одного или нескольких пользователей перед телевизором, основывается на автоматическом обнаружении человеческих лиц в видеопотоке, поступающем от видеокамеры. Обнаруженный человек перед телевизором считается пользователем и после этого начинается процесс распознавания пользователя. В базе данных хранятся изображения всех пользователей, работавших с телевизором. Под процессом распознавания понимается процесс обнаружения сходства изображения лица пользователя с одним из хранимых изображений лиц в базе данных. Во время первого включения телевизора база данных не содержит ни одной записи, но в процессе взаимодействия с пользователями изображения их лиц автоматически добавляются в базу данных. В базе данных все изображения лиц хранятся в профилях пользователя. В профиле пользователя, кроме изображений лиц, также хранятся основные настройки телевизора (настройки цвета экрана, яркости экрана, контрастности экрана, громкость звука), список любимых каналов данного пользователя, уровень доступа. Уровень доступа задает для каждого пользователя телевизора уровень его доступа к настройкам телевизора, к выбору канала, к изменению ограничений. Изменяя уровень доступа пользователей, можно обеспечивать или ограничивать специальные возможности телевизора. При заданном уровне доступа телевизор способен автоматически ограничивать или обеспечивать возможности для распознанного пользователя. Жестовые ("вверх", "вниз", "влево", "вправо") и голосовые команды ("открыть меню", "закрыть меню", "следующий канал", "предыдущий канал") позволяют управлять телевизором и его меню без использования пульта дистанционного управления или других, каких-либо дополнительных физических устройств.

Для осуществления способа используют индивидуальный мультимодальный интерфейс "человек-телевизор", который содержит подключенную к телевизору систему управления интерфейса, включающую компьютер, Веб-камеру и микрофон. Интерфейс с системой управления подключается к телевизору (это может быть телевизор любой марки с диагональю экрана не менее 17 дюймов), и включает персональный компьютер (Pentium 4/3 GHz/2 GB RAM или любой компьютер с аналогичными характеристиками), Веб-камера (любая видеокамера с разрешением не менее 320×240 пикселей), микрофон (Genius MIC-01A или аналог). Персональный компьютер соединяется с телевизором. Веб-камера и микрофон устанавливаются в середине верхней части телевизора, в направлении предполагаемого размещения пользователя телевизора.

(Фиг.1 - схема подключения элементов системы управления интерфейса).

Способ управления телевизором при этом осуществляется следующим образом: видеоданные генерирует Веб-камера в реальном времени.

(Фиг.2 - схема обработки видеоданных на персональном компьютере).

Программная часть индивидуального мультимодального интерфейса "человек - телевизор" включает: алгоритм определения присутствия человека перед телевизором, алгоритм выбора человека для взаимодействия, алгоритм распознавания человека, алгоритм распознавания жестов, алгоритм распознавания голосовых команд, а также графическое меню интерфейса. Алгоритм определения присутствия человека перед телевизором основан на нахождении лиц в видеопотоке, используя каскадный детектор характерных признаков Хаара. Каскадный детектор характерных признаков Хаара был разработан, опираясь на идею, предложенную П.Виолой в своей научной статье (Viola, Р., & Jones, M. (2001) Rapid Object Detection using a Boosted Cascade of Simple Features. IEEE CVPR, 1, 511-518). Алгоритм может обнаружить от одного до десяти лиц, то есть обнаружить до десяти людей перед телевизором, если их лица не загораживают друг друга.

Алгоритм выбора человека для взаимодействия основан на определении размера лиц, найденных алгоритмом из пункта 4. Так как видеопоток представляет собой упорядоченную во времени последовательность двухмерных цифровых изображений (видеокадров), то размеры лица человека на изображении, который находится ближе к камере, больше размеров лица человека, который находится дальше от камеры. Алгоритм выбора человека для взаимодействия выбирает человека с наибольшим размером лица, то есть человека, находящегося ближе всех к Веб-камере.

Алгоритм распознавания человека основан на применении трех алгоритмов распознавания: Скрытых Марковских моделей. Алгоритма определения цвета и Алгоритма обнаружения соотношений на лице.

Скрытые Марковские модели (СММ) как алгоритм распознавания человека по изображению его лица был разработан, опираясь на А.В.Нефиана (Аrа. V.Nefian and Monson H. Hayes III, Face detection and recognition using Hidden Markov Models, IEEE International Conference on Image Processing, 1998).

Алгоритм определения цвета использует среднее значение цвета области лица, найденной алгоритмом из пункта 4, для того чтобы сравнить с хранимыми средними значениями цветов из базы данных профилей пользователей. В качестве метрики средней близости применяется Евклидово расстояние. Алгоритм обнаружения соотношений на лице использует для распознавания расстояние между глазами, глазом и носом, носом и ртом, глазом и ртом, глазом и подбородком. Эти расстояния с помощью Евклидовой метрики сравниваются с хранимыми расстояниями на лицах других пользователей.

Результаты распознавания этих трех алгоритмов агрегируются, и принимается решение: соответствует ли пользователь одному из хранимых профилей в базе данных. Агрегирование разработано на основе оригинальной идеи, предложенной в статье авторов заявки (Devyatkov, V., & Alfimtsev A. (2008). Optimal Fuzzy Aggregation of Secondary Attributes in Recognition Problems. Proc. of 16-th International Conference in Central Europe on Computer Graphics, Visualization and Computer Vision. Plzen, 78-85).

Каждый алгоритм распознавания должен быть обучен перед началом своей работы. Но в данном интерфейсе алгоритмы автоматически обучаются на лицах пользователей, находящихся перед телевизором. Если пользователь, который зашел в зону перед телевизором, не распознан, то есть его профиля нет в базе данных из-за того что: это первый старт интерфейса или пользователь просто первый раз появился перед этим телевизором, его профиль автоматически будет добавлен в базу данных. И в следующий раз, когда пользователь зайдет в зону перед телевизором, он будет распознан. Последовательность работы алгоритмов определения присутствия, выбора и распознавания представлена на фиг.3 - последовательность работы алгоритмов определения.

Алгоритм распознавания жестов основан на оригинальной идее, предложенной авторами заявки (Devyatkov, V., & Alfimtsev, A. (2007). Gesture-based control of telerobots. Proc. of 23rd ISPE International Conference on CARS & FOF 07, Bogota, 59-67). Индивидуальный мультимодальный интерфейс "человек - телевизор" использует четыре динамических жеста "вверх", "вниз", "влево", "вправо". Эти жесты выполняются путем перемещения руки в пространстве (левой или правой). Жесты распознаются только тогда, когда рука пользователя, выполняющего жест, находится напротив графических элементов меню интерфейса. Алгоритм распознавания голосовых команд был разработан на основе идеи, высказанной С.Н.Вригли (Wrigley S.N. Speech Recognition by Dynamic Time arping, http://www.dcs.shef.ac.uk/~stu/com326/index.html). Индивидуальный мультимодальный интерфейс "человек - телевизор" использует четыре голосовые команды "открыть меню", "закрыть меню", "следующий канал", "предыдущий канал".

Графическое меню интерфейса используется для отображения на экране телевизора настроек телевизора и настроек самого интерфейса, которыми пользователь может управлять с помощью жестов. Графическое меню интерфейса может находиться в трех состояниях. В первом состоянии, когда нет ни одного человека напротив телевизора, видеопоток от Веб-камеры не отображается в левом верхнем углу экрана телевизора и вся остальная область экрана телевизора остается пустой (фиг.4 - первое состояние графического интерфейса. Нет ни одного человека напротив телевизора). Если один или несколько человек входят в зону напротив телевизора, их лица автоматически находятся в видеопотоке, один человек выбирается для распознавания и взаимодействия, (с этого момента лицо человека, выбранного для взаимодействия, будет отслеживаться и дальше, но с частотой 1 раз в 20 секунд).

Если для данного человека есть профиль в базе данных, то он считается пользователем и результат его распознавания в виде полутонового изображения его лица отображается в левой части экрана телевизора. Если пользователя нет в базе данных, на экране телевизора в течение 2 секунд отображается надпись "Обучение", для пользователя будет автоматически сформирован новый профиль и изображение его лица будет отображено в левой части экрана телевизора. На этапе распознавания человека и обучения на новом человеке графическое меню интерфейса переходит во второе состояние. Во втором состоянии (фиг.5 - второе состояние графического интерфейса) графического меню интерфейса вся область экрана телевизора (после распознавания или обучения) заполняется проигрыванием некоторого канала. Этот канал выбирается в зависимости от результата распознавания. Также автоматически устанавливаются другие настройки телевизора, такие как яркость, уровень звука и др. Эта информация хранится в профиле пользователя. Это одно из основных свойств индивидуального мультимодального интерфейса "человек - телевизор". Свойство позволяет автоматически обеспечивать и ограничивать возможности телевизора для пользователя.

Кроме того, во втором состоянии, в правой верхней области экрана телевизора появляется область жеста. В этой области пользователь может выполнить жесты "влево" и "вправо", тем самым вызвав на экран телевизора основное меню телевизора (при этом графическое меню интерфейса перейдет в третье состояние). Вместо жестов, для того чтобы вызвать или убрать основное меню, пользователь может использовать голосовые команды "открыть меню", "закрыть меню". Результат распознавания, телевизионный канал и другие настройки телевизора отображены на экране в соответствии с результатом распознавания. Осуществив переход в третье состояние графического интерфейса с помощью жестов или голосовой команды, пользователь может начать работать с пунктами меню телевизора.

Одним из ключевых моментов отображения на экране телевизора графического интерфейса в третьем состоянии является разделение экрана телевизора на две части: в левой части экрана продолжает отображаться телевизионный канал, в правой части телевизионный канал начинает отображаться совместно с видеопотоком, идущим от Веб-камеры. Это сделано для того, чтобы пользователь мог продолжать смотреть телевизионный канал и одновременно видеть движения своей руки по экрану телевизора, что облегчает взаимодействие с интерфейсом с помощью жестов. Пункты меню телевизора отображаются на экране телевизора с правой стороны. Используя жесты "вверх" или "вниз", пользователь может перемещаться по пунктам меню (фиг.6 - третье состояние графического интерфейса. Открыто меню). Для того чтобы закрыть меню, пользователь может снова выполнить жесты "вправо" и "влево" в области жеста, или использовать голосовую команду "закрыть меню". Меню телевизора индивидуального мультимодального интерфейса содержит следующие пункты: Персоны, Источники, Яркость, Звук/Канал.

Пункт меню "Персоны" позволяет установить уровень доступа пользователям телевизора. Когда пользователь откроет этот пункт меню (выполнив жест "влево" в области этого пункта), на экране телевизора появляются два дополнительных пункта: изображения лиц пользователей из базы данных, уровень доступа для каждого пользователя (фиг.7 - открытый пункт меню "Персоны" графического интерфейса). Используя жесты "вправо", "влево", пользователь может выбрать каждый из этих пунктов. Используя жесты "вверх", "вниз", пользователь может выбрать изображения лиц из базы данных или увеличить/уменьшить уровень доступа пользователя. В интерфейсе предусмотрено два уровня доступа: 0 и 1. С уровнем доступа 0 пользователь может использовать любой пункт меню телевизора. С уровнем доступа 1 пользователь может только использовать пункт меню "Звук/Канал". Это одно из основных свойств индивидуального мультимодального интерфейса "человек - телевизор". Свойство позволяет для пользователя, у которого поставлен низкий уровень доступа 1, автоматически ограничивать возможности телевизора (при распознавании присутствия этого пользователя перед телевизором).

Пункт меню "Источники" позволяет пользователю выбирать источник сигнала: от телевизионного кабеля или от DVD-плеера. Используя жесты "вверх" и "вниз", пользователь может выбрать источник из списка.

Пункт меню "Яркость" позволяет пользователю изменять уровень яркости экрана телевизора. Внешний вид пунктов 14 и 15 соответствует пункту "Громкость звука", рассматриваемому далее. Пункт меню "Звук/Канал" позволяет пользователю переключать каналы (фиг.8 - открытый пункт меню "Звук/Канал" графического интерфейса с открытым пунктом "Канал") или изменять громкость звука (фиг.9 - Открытый пункт меню "Звук/Канал" графического интерфейса с открытым пунктом "Громкость звука"), используя жесты "вверх" или "вниз". Также для переключения каналов пользователь может использовать голосовые команды "следующий канал", "предыдущий канал" вне зависимости от того, в каком состоянии находится графический интерфейс. Пользователь может выбрать телевизионный канал, из списка каналов, используя жесты "вниз" или "вверх".

Пользователь может изменить громкость звука телевизора, используя жесты "вниз" или "вверх".

Следовательно, в предложенном в качестве изобретения способе управления телевизором с помощью мультимодального интерфейса используются алгоритмы компьютерного зрения для обнаружения и распознавания человека, причем в ракурсе трех модальностей; динамических жестов рукой, голосовых команд и изображений лица человека. При этом применяют три алгоритма распознавания пользователя по изображению его лица: а) скрытых Марковских моделей, б) алгоритм определения цвета, в) алгоритм обнаружения соотношений на лице.

Для автоматического создания профиля пользователя в базе данных для нового пользователя используют автоматическое обучение алгоритмов распознавания на новом пользователе в скрытом режиме, также автоматически обеспечиваются возможности опознания для уже зарегистрированных интерфейсом пользователей телевизора. Жестовые и голосовые команды не требуют дополнительного обучения на новых пользователях.

Преимущества предлагаемого решения заключаются в отсутствии активных датчиков: лазеров, инфракрасной подсветки, световой подсветки, сонара, что обеспечивает безопасность для здоровья пользователя, кроме того, в аппаратном обеспечении интерфейса отсутствуют любые движущееся части, что повышает надежность и долговечность работы интерфейса.

Отсутствует физический контакт пользователя с устройством управления, что увеличивает интуитивность и естественность управления.

Нет необходимости в дорогом аппаратном обеспечении и для обеспечения способа требуется лишь бытовая Веб-камера, ненаправленный микрофон и персональный компьютер, подключаемый к телевизору. Распознавание лица пользователя, жестовых и голосовых команд происходит в реальном времени (менее 1 сек) и распознавание лица пользователя, жестовых и голосовых команд происходит в условиях помещения при обычном электрическом или дневном освещении, кроме того, распознавание лица пользователя, жестовых и голосовых команд происходит без каких-либо специальных маркеров на теле пользователя.

Claims

Способ управления телевизором с помощью мультимодального интерфейса, включающий визуальное взаимодействие между пользователем и дисплейной системой электронной аппаратуры телевизора, отличающийся тем, что с помощью мультимодального интерфейса, содержащего в качестве системы управления телевизором персональный компьютер, видеокамеру и микрофон, осуществляют управление телевизором путем взаимодействия пользователя с дисплейной системой электронной аппаратуры телевизора, при этом путем использования алгоритма обнаружения и распознавания пользователя, алгоритма распознавания жестов последнего или алгоритма распознавания его голосовых сигналов и экстраполирования динамического ряда данных этих алгоритмов по определенным формулам, в которых математически выражена зависимость алгоритмов этих трех модальностей, взаимодействующих с графическим меню мультимодального интерфейса, выявляют путем математического анализа алгоритмы трех совокупностей сигнальных команд управления телевизором, которые затем включаются в базу данных и память мультимодального интерфейса, в результате чего мультимодальный интерфейс автоматически выявляет индивидуальные для каждого пользователя алгоритмы трех совокупностей сигнальных команд, взаимодействующих с его графическим меню, и осуществляет с их помощью управление телевизором.