RU2336560C2

RU2336560C2 - Диалоговое управление для электрического устройства

Info

Publication number: RU2336560C2
Application number: RU2004136294/09A
Authority: RU
Inventors: Мартин ОЕРДЕР (DE); Мартин ОЕРДЕР
Original assignee: Конинклейке Филипс Электроникс Н.В.
Priority date: 2002-05-14
Filing date: 2003-05-09
Publication date: 2008-10-20
Also published as: AU2003230067A1; JP2005525597A; BR0304830A; CN100357863C; CN1653410A; EP1506472A1; TWI280481B; US20050159955A1; RU2004136294A; PL372592A1; TW200407710A; WO2003096171A1

Abstract

Предлагается прибор для связи между пользователем и электрическим устройством, содержащий средство для восприятия и распознавания речевых сигналов, и способ управления электрическим устройством. Прибор содержит персонифицирующий элемент, который может механически перемещаться. Определяется положение пользователя, и персонифицирующий элемент, который может содержать, например, представление человеческого лица, перемещается так, чтобы его передняя сторона указывала в направлении положения пользователя. На персонифицирующем элементе могут быть расположены микрофоны, громкоговорители и камера. Пользователь может проводить речевой диалог с прибором, в котором устройство представлено в виде персонифицирующего элемента. Электрическое устройство может управляться согласно речевому вводу пользователя. Также возможен диалог пользователя с персонифицирующим элементом с целью инструктирования пользователя. Технический результат - обеспечение легкого оперирования с прибором. 11 з.п. ф-лы, 2 ил.

Description

Настоящее изобретение относится к прибору, содержащему средство для восприятия и распознавания речевых сигналов, и к способу установления связи пользователем с электронным устройством.

Известно средство распознавания речи, с помощью которого воспринятые акустические речевые сигналы могут быть присвоены слову или соответствующей последовательности слов. Системы распознавания речи часто используются для управления электрическими устройствами как диалоговые системы в комбинации с синтезом речи. Диалог с пользователем может использоваться в качестве единственного интерфейса для функционирования электрического устройства. Также в качестве одного из множества средств связи можно использовать ввод и, возможно, вывод речи.

Патент США A-6118888 описывает управляющий прибор и способ управления электрическим устройством, например компьютером или устройством, используемым в области развлекательной электроники. Для управления устройством пользователь имеет множество аппаратных средств ввода. Это механические аппаратные средства ввода, такие как, например, клавиатура или мышь, а также распознавание речи. Более того, управляющий прибор содержит камеру, с которой может восприниматься жестикуляция и мимика пользователя, которые могут обрабатываться как дополнительные входные сигналы. Связь с пользователем реализуется в форме диалога, в котором система имеет в своем распоряжении множество режимов для передачи информации пользователю. Она содержит синтез речи и вывод речи. В частности, она также содержит антропоморфическое представление, например, человека, человеческого лица или животного. Указанное представление отображается пользователю в форме графика, построенного с помощью компьютера на экране дисплея.

Хотя диалоговые системы в настоящее время уже используются в специальных применениях, например в телефонных информационных системах, их принятие в других областях, например в управлении электрическими устройствами в быту, в развлекательной электронике, по-прежнему остается незначительным.

Задача настоящего изобретения заключается в том, чтобы обеспечить прибор, содержащий средство восприятия для распознавания речевых сигналов, и способ функционирования электронного устройства, позволяющий пользователю легко оперировать прибором посредством речевого управления.

Указанная задача решается посредством прибора, определенного в п. 1 формулы, и способа, определенного в п. 11 формулы. Зависимые пункты формулы раскрывают преимущественные варианты воплощения изобретения. Прибор согласно настоящему изобретению содержит механически перемещающийся персонифицирующий элемент. Он представляет собой часть прибора, которая служит для персонификации диалогового партнера для пользователя. Конкретное воплощение такого персонифицирующего элемента может быть весьма различным. Например, он может быть частью корпуса, который может перемещаться посредством двигателя по отношению к стационарному корпусу электрического прибора. Существенно то, что персонифицирующий элемент имеет переднюю сторону, которая может распознаваться пользователем. Если эта передняя сторона обращена к пользователю, то он будет иметь ощущение, что прибор является 'внимательным', то есть он может принимать речевые команды.

Согласно другому варианту воплощения изобретения персонифицирующий элемент имеет антропоморфическое представление. Оно может быть представлением человека или животного, но также фантазийной фигурой, например роботом. Предпочтительно представление человеческого лица. Оно может быть реалистичным или только символичным представлением, в котором показаны, например, только очертания глаз, носа и рта.

Также прибор предпочтительно содержит средство для обеспечения речевых сигналов. Действительно, распознавание речи особенно существенно для управления электронным устройством. Однако ответы, подтверждения, запросы и т.д. могут быть реализованы средством вывода речи. Они могут содержать воспроизведение предварительно сохраненных речевых сигналов, а также синтез реальной речи. Управление полным диалогом может быть реализовано с помощью средства вывода речи. Диалоги также могут проводиться с пользователем с целью его развлечения.

Согласно другому варианту воплощения изобретения прибор содержит множество микрофонов и/или, по меньшей мере, одну камеру. Речевые сигналы могут быть восприняты даже единственным микрофоном. Однако, с одной стороны, при использовании множества микрофонов может быть достигнута конфигурация чувствительных элементов. С другой стороны, положение пользователя можно найти, принимая речевой сигнал от пользователя через множество микрофонов. Окружение прибора может наблюдаться через камеру. Положение пользователя также может быть определено из воспринятого изображения посредством соответствующей обработки изображений. Микрофоны, камера и/или громкоговорители для обеспечения речевых сигналов могут быть расположены на механически перемещающемся персонифицирующем элементе. Например, для персонифицирующего элемента в форме человеческой головы две камеры могут быть расположены в области глаз, громкоговоритель - в положении рта и два микрофона - вблизи ушей.

Предпочтительно, чтобы было обеспечено средство для идентификации пользователя. Указанная процедура может быть достигнута, например, путем оценки воспринятого сигнала изображения (визуального или распознавания лица) или путем оценки воспринятого акустического сигнала (распознавание речи). Тем самым прибор может определять текущего пользователя из нескольких человек в окружении прибора и направлять персонифицирующий элемент на этого пользователя.

Существует широкое разнообразие возможностей воплощения средства движения для механического перемещения персонифицирующего элемента. Например, указанное средство может быть электродвигателем или гидравлическим средством регулировки. Персонифицирующий элемент также может перемещаться средством движения. Однако предпочтительно, чтобы персонифицирующий элемент был способен только вращаться относительно стационарной части. Например, в этом случае возможны движения вращения вокруг горизонтального и/или вертикального вала.

Устройство настоящего изобретения может составлять часть электрического устройства, такого как устройство для развлекательной электроники (например, ТВ, воспроизводящие приборы для аудио и/или видео и т.д.). В этом случае прибор представляет интерфейс пользователя для устройства. Более того, устройство может также содержать другое средство управления (клавиатура и т.д.). Альтернативно, прибор согласно настоящему изобретению может быть независимым устройством, которое служит управляющим прибором для управления одним или несколькими отдельными электрическими устройствами. В этом случае приборы, которые должны управляться, имеют электрический управляющий терминал (например, беспроводный терминал или подходящую управляющую шину), через который прибор управляет устройствами согласно речевым командам, принимаемым от пользователя.

В частности, прибор согласно настоящему изобретению может служить для пользователя в качестве системы для хранения данных и/или запроса. Для этой цели устройство содержит внутренние запоминающие устройства или прибор подключается к внешнему запоминающему устройству, например, через компьютерную сеть или Интернет. Во время диалога пользователь может сохранять данные (например, телефонные номера, памятки и т.д.) или запрашивать данные (например, время, новости, текущие телепрограммы и т.д.).

Более того, диалоги с пользователем также могут использоваться для настройки параметров самого прибора и изменять его конфигурацию.

Когда обеспечиваются громкоговоритель для озвучивания акустических сигналов, а также микрофон для восприятия указанных сигналов, может быть обеспечена обработка сигналов с подавлением помех, то есть воспринятые акустические сигналы обрабатываются так, что части акустического сигнала, исходящего из громкоговорителя, подавляются. Последнее особенно выгодно, когда громкоговоритель и микрофон располагаются в пространственной близости, например на персонифицирующем элементе.

В дополнение к вышеупомянутому использованию прибора для управления электрическим устройством он также может быть использован для проведения диалога с пользователем, обслуживания других целей, как например, информации, развлечения или инструкции для пользователя. Согласно дополнительному варианту воплощения изобретения обеспечиваются средства диалога, с которыми диалог может проводиться для инструктирования пользователя. Тогда диалог предпочтительно проводится так, что пользователю даются инструкции и воспринимаются его ответы. Инструкциями могут быть сложные вопросы, но предпочтительно задавать вопросы о коротких предметах обучения, например словаре иностранного языка, в котором инструкция (например, определение слова) и ответ (например, слово на иностранном языке) являются относительно короткими. Диалог проводится пользователем с персонифицирующим элементом и может осуществляться визуальным и/или звуковым способом.

Предлагается способ возможно эффективного обучения, в котором запоминается набор предметов обучения (например, словарь иностранного языка), в котором для каждого предмета обучения запоминается, по меньшей мере, один вопрос (например, определение), решение (например, словарь) и мера периода времени от последнего вопроса пользователю или от правильного решения вопроса пользователем. Во время диалога предметы обучения выбираются и задаются один за другим, причем вопрос задается пользователю и ответ пользователя сравнивается с сохраненным решением. Выбор предмета обучения, о котором должны задаваться вопросы, учитывает сохраненную меру, то есть время, истекшее от последнего вопроса о предмете. Указанная процедура может быть реализована, например, через подходящую модель обучения с предполагаемой или заданной частотой появления ошибок. Дополнительно каждый предмет обучения также может оцениваться мерой важности, которая учитывается в выборе, в дополнение к мере времени.

Указанные, а также и другие аспекты настоящего изобретения станут очевидными со ссылкой на варианты воплощения, описанные здесь ниже.

В дальнейшем изобретение поясняется описанием конкретных вариантов его воплощения со ссылками на сопровождающие чертежи, на которых:

фиг. 1 - блок-схема элементов управляющего прибора,

фиг. 2 - общий вид электронного устройства, содержащего управляющий прибор.

Фиг. 1 - блок схема управляющего прибора 10 и устройства 12, управляемого указанным прибором. Управляющий прибор 10 представлен в форме персонифицирующего элемента 14 для пользователя. Микрофон 16, громкоговоритель 18 и датчик положения здесь в форме камеры 20 для положения пользователя расположены на персонифицирующем элементе 14. Все вместе указанные элементы составляют механический модуль 22. Персонифицирующий элемент 14 и, следовательно, механический модуль 22 вращаются вокруг вертикального вала двигателем 24. Центральный модуль 26 управления управляет двигателем 24 через задающую схему 28. Персонифицирующий элемент 14 является независимым механическим модулем. Он имеет переднюю сторону, которая может распознаваться как таковая пользователем. Микрофон 16, громкоговоритель 18 и камера 20 расположены на персонифицирующем элементе 14 в направлении его передней стороны.

Микрофон 16 обеспечивает акустический сигнал. Этот сигнал воспринимается схемой 30 восприятия и обрабатывается модулем 32 распознавания речи. Результат распознавания речи, то есть последовательность слов, приписанная воспринятому акустическому сигналу, отправляется в центральный модуль 26 управления.

Центральный модуль 26 управления также управляет модулем 34 синтеза речи, который обеспечивает подачу синтезированного речевого сигнала через модуль 36 генерации звука и громкоговоритель 18.

Изображение, воспринятое камерой 20, обрабатывается модулем 38 обработки изображения. Модуль 38 обработки изображения определяет положение пользователя из сигнала изображения, обеспеченного камерой 20. Информация положения отправляется в центральный модуль 26 управления.

Механический модуль 22 служит в качестве интерфейса пользователя, через который центральный модуль 26 управления принимает входные данные от пользователя (модуль 34 синтеза речи, громкоговоритель 18). В этом случае модуль 10 управления используется для управления электрическим устройством 12, например устройством, используемым в области развлекательной электроники.

Функциональные модули управляющего прибора 10 показаны на фиг. 1 только символически. Различные модули, например центральный модуль 26 управления, модуль 32 распознавания речи, модуль 38 обработки изображения, могут быть представлены как отдельные группы в конкретной перегруппировке. Таким же образом возможно чисто программное воплощение перечисленных модулей, в которых функциональные возможности множества или всех перечисленных модулей реализуются выполнением программы на центральном модуле.

Не обязательно, чтобы указанные модули находились в пространственной близости друг с другом или с механическим модулем 22. Механический модуль 22, то есть персонифицирующий элемент 14, а также модули микрофона 16, громкоговорителя 18 и датчика 20, предпочтительно, но не обязательно расположенные на этом элементе, могут быть расположены отдельно от остального управляющего прибора 10 и имеют только сообщение через сигнал с ними через линии связи или беспроводное подключение.

В процессе работы управляющий прибор 10 постоянно выясняет, находится ли пользователь вблизи от него. Определяется положение пользователя. Центральный модуль 26 управления управляет двигателем 24 так, чтобы передняя сторона персонифицирующего элемента 14 была направлена к пользователю.

Модуль 38 обработки изображения также содержит распознавание лица. Когда камера 20 обеспечивает изображение множества людей, лицо определяется посредством распознавания лица, то есть какой именно человек является пользователем, который известен системе. Персонифицирующий элемент 14 направляется к пользователю. Когда обеспечивается множество микрофонов, сигналы из данных микрофонов могут обрабатываться таким образом, что получается конфигурация восприятия сигнала в направлении известного положения пользователя.

Модуль 38 обработки изображения дополнительно может быть реализован так, чтобы он 'понимал' сцену, воспринятую камерой 20 в окрестности механического модуля 22. Затем сцена, представляющая интерес, может быть присвоена нескольким заданным состояниям. Например, таким образом центральному модулю 26 управления известно, находится ли в комнате один или несколько человек. Модуль также может распознавать и идентифицировать поведение пользователя, то есть, например, смотрит ли пользователь в направлении механического модуля 22 или говорит ли он с другим человеком. Оценивая распознаваемые таким образом состояния, производительность распознавания может быть явно улучшена. Например, можно избежать того, чтобы части беседы между двумя людьми ошибочно интерпретировались как речевые команды.

В диалоге с пользователем центральный модуль управления определяет входные данные и соответствующим образом управляет устройством 12. Так, диалог для управления объемом звука аудиоустройства 12 воспроизведения может проходить, например, следующим образом:

- Пользователь меняет свое положение и становится лицом к персонифицирующему элементу 14. Персонифицирующий элемент 14 постоянно направляется двигателем 24 так, чтобы его передняя сторона была обращена к пользователю. Для этой цели задающая схема 28 управляется центральным модулем 26 управления прибора 10 согласно определенному положению пользователя.

- Пользователь дает речевую команду, например 'объем ТВ'. Речевая команда воспринимается микрофоном 16 и распознается модулем 32 распознавания речи.

- Центральный модуль 26 управления реагирует вопросом: 'Выше или ниже?' из громкоговорителя 18 через модуль 34 синтеза речи.

- Пользователь дает речевую команду 'ниже'. После распознавания речевого сигнала центральный модуль 26 управления управляет устройством 12 так, чтобы объем снизился.

Фиг. 2 изображает общий вид электронного устройства 40 с интегрированным управляющим прибором. На этой фигуре можно видеть только персонифицирующий элемент 14 управляющего прибора 10, причем элемент может вращаться вокруг вертикального вала относительно стационарного корпуса 42 устройства 40. В данном примере персонифицирующий элемент имеет плоскую прямоугольную форму. На передней стороне 44 имеется объектив камеры, а также громкоговоритель 18. Два микрофона расположены по сторонам. Механический модуль 22 вращается двигателем (не показан) так, чтобы передняя сторона всегда указывала в направлении пользователя.

В одном из вариантов воплощения изобретения (не показан) прибор 10 (фиг. 1) используется не для управления устройством 12, а для проведения диалога с объектом инструктирования пользователя. Центральный модуль 26 управления выполняет обучающую программу, с помощью которой пользователь может учить иностранный язык. Набор предметов обучения сохраняется в запоминающем устройстве. Это индивидуальные наборы данных, каждый из которых показывает определение слова, соответствующее слово на иностранном языке, меру оценки значимости слова (частота появления слова в языке) и меру времени для продолжительности времени, истекшего от последнего вопроса в записи данных.

Обучающий модуль сейчас работает так, что записи данных выбираются и опрашиваются одна за другой. В этом случае пользователю дается инструкция, то есть определение, сохраненное в записи данных, указывается оптически или подается акустически. Вопрос пользователя, например, введенный посредством клавиатуры и предпочтительно воспринимаемый через микрофон 16, и автоматическое распознавание 32 речи воспринимаются и сохраняются вместе с сохраненным решением (словарь). Пользователь информируется о том, признано ли решение как правильное решение. В случае ошибочных ответов пользователь может информироваться о правильном решении или может один или несколько раз получить возможность дать дополнительные ответы. После того как запись данных обработана указанным путем, сохраненная мера продолжительности времени от последнего вопроса обновляется, то есть устанавливается на ноль.

Затем выбирается и запрашивается дальнейшая запись данных. Выбор записи данных, которая должна запрашиваться, реализуется посредством модели памяти. Простая модель памяти представлена формулой:

P(k) = exp(-t(k)*r(c(k))),

в которой P(k) обозначает вероятность того, что предмет обучения k известен, exp обозначает экспоненциальную функцию, t(k) обозначает время, прошедшее после запроса объекта, c(k) обозначает класс обучения предмета, и r(c(k)) представляет частоту появления ошибок, специфическую для класса обучения. Время может использоваться как t. Время t также может даваться в шагах обучения. Классы обучения могут задаваться различными подходящими способами. Возможная модель состоит в том, чтобы присваивать нужный класс для каждого N > 0 всех предметов, на которые правильно отвечают N раз. Для частоты появления ошибок можно принять подходящее фиксированное значение или подходящее исходное значение может выбираться и, например, обновляться посредством градиентного алгоритма.

Задача инструкции состоит в максимизации меры знания. Эта мера знания задается как часть предмета обучения набора, известного пользователю, и взвешивается с мерой значимости. Поскольку вопрос о предмете k дает вероятность P(k) к единице, для оптимизации меры знания предполагается, что на каждом шаге запрашивается предмет, имеющий самую низкую вероятность знания P(k), возможно взвешенную с мерой значимости U(k), U(k)*l-P(k). С помощью модели мера знания может вычисляться после каждого шага и показываться пользователю. Способ оптимизируется так, чтобы дать пользователю возможно более широкие знания предмета обучения текущего набора. Используя хорошую модель памяти, таким способом можно достичь эффективной стратегии обучения.

Возможно множество модификаций и дальнейших улучшений для вышеописанного вопросительного диалога. Например, один вопрос (определение) может иметь множество правильных ответов (словарь). Это можно учитывать, например, используя сохраненные меры значимости, и таким образом выделяя более значимые (наиболее частые) слова. Значимые наборы предметов обучения могут содержать, например, несколько тысяч слов. Это могут быть, например, предметы обучения, то есть специфический словарь для данных пользователей, например, в области литературы, бизнеса, техники и т.д.

В итоге, изобретение относится к прибору, содержащему средство для восприятия и распознавания речевых сигналов, и к способу для связи с электрическим устройством. Прибор содержит персонифицирующий элемент, который может механически перемещаться. Определяется положение пользователя, и персонифицирующий элемент, который может содержать, например, представление человеческого лица, перемещается так, чтобы его передняя сторона указывала направление положения пользователя. На персонифицирующем элементе могут быть расположены микрофоны, громкоговорители и камера. Пользователь может проводить речевой диалог с прибором, в котором устройство представлено в виде персонифицирующего элемента. Электрическое устройство может управляться согласно речевому вводу пользователя. Также возможен диалог пользователя с персонифицирующим элементом с целью инструктирования пользователя.

Claims

1. Прибор для связи между пользователем и электрическим устройством, содержащий модуль (26) управления, средство (30, 32) восприятия и распознавания речевых сигналов, средство для определения положения пользователя, персонифицирующий элемент (14), имеющий переднюю сторону (44), и средство (24) движения для механического перемещения персонифицирующего элемента (14), при этом модуль (26) управления принимает распознанные речевые сигналы и информацию о положении пользователя для управления средством (24) движения так, чтобы передняя сторона (44) персонифицирующего элемента (14) указывала в направлении положения пользователя.

2. Прибор по п.1, который также содержит средство (34, 36, 18) для обеспечения речевых сигналов.

3. Прибор по п.1, в котором персонифицирующий элемент (14) содержит антропоморфическое представление, которое может быть представлением человека, в частности представлением человеческого лица.

4. Прибор по п.1, который также содержит множество микрофонов (16) для восприятия речевых сигналов и/или, по меньшей мере, одну камеру (20) для восприятия изображения, при этом микрофоны (16) и/или камера (20) предпочтительно расположены на персонифицирующем элементе (14).

5. Прибор по любому одному из предшествующих пунктов, который содержит средство для идентификации, по меньшей мере, одного пользователя.

6. Прибор по п.1, в котором средство (24) движения обеспечивает возможность вращения персонифицирующего элемента (14) вокруг, по меньшей мере, одного вала.

7. Прибор по п.1, который содержит, по меньшей мере, одно внешнее электрическое устройство (12), которое управляется модулем (26) управления согласно воспринятым речевым сигналам.

8. Прибор по п.1, который содержит, по меньшей мере, один громкоговоритель (8) для обеспечения акустических сигналов, по меньшей мере, один микрофон (16) для восприятия акустических сигналов и модуль (3) обработки сигналов для обработки воспринятых акустических сигналов, в котором подавляется часть сигналов, исходящих из акустических сигналов, испускаемых громкоговорителем (18).

9. Прибор по п.1, который содержит средство для проведения диалога для инструктирования пользователя, причем в этом диалоге пользователю даются инструкции визуальным способом и/или посредством аудио, и ответы пользователя воспринимаются посредством клавиатуры и/или микрофона.

10. Прибор по п.9, в котором средство для проведения диалога содержит средство хранения для набора предметов обучения, при этом для каждого предмета обучения запоминается, по меньшей мере, одна инструкция, одно решение и одна мера продолжительности времени от инструкции, обработанные пользователем, и средство для проведения диалога сформировано так, чтобы предметы обучения могли выбираться и запрашиваться, давая пользователю инструкции и сравнивая ответ пользователя с сохраненным решением, и в котором сохраненная мера учитывается в выборе предметов обучения.

11. Способ связи между пользователем и электрическим устройством (12), по которому воспринимают и распознают речевые сигналы, воспринимают и обрабатывают изображение для определения положения пользователя, при этом распознанные речевые сигналы и информация о положении пользователя передаются в модуль (26) управления для управления перемещением персонифицирующего элемента (14) так, чтобы передняя сторона (44) персонифицирующего элемента (14) указывала в направлении положения пользователя.

12. Способ по п.11, по которому, по меньшей мере, одно внешнее электрическое устройство (12) управляется модулем (26) управления согласно воспринятым речевым сигналам.