RU2526758C2 - Коснитесь любого места, чтобы говорить - Google Patents
Коснитесь любого места, чтобы говорить Download PDFInfo
- Publication number
- RU2526758C2 RU2526758C2 RU2011150255/08A RU2011150255A RU2526758C2 RU 2526758 C2 RU2526758 C2 RU 2526758C2 RU 2011150255/08 A RU2011150255/08 A RU 2011150255/08A RU 2011150255 A RU2011150255 A RU 2011150255A RU 2526758 C2 RU2526758 C2 RU 2526758C2
- Authority
- RU
- Russia
- Prior art keywords
- touch
- touch screen
- screen interface
- speech recognition
- mobile computing
- Prior art date
Links
- 230000007246 mechanism Effects 0.000 claims abstract description 58
- 230000000007 visual effect Effects 0.000 claims abstract description 29
- 230000003213 activating effect Effects 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 38
- 230000003993 interaction Effects 0.000 claims description 18
- 238000012790 confirmation Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 abstract description 9
- 230000000694 effects Effects 0.000 abstract 1
- 239000000126 substance Substances 0.000 abstract 1
- 230000009471 action Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 235000013550 pizza Nutrition 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/22—Details of telephonic subscriber devices including a touch pad, a touch sensor or a touch detector
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
- Position Input By Displaying (AREA)
Abstract
Изобретение относится к мобильным вычислительным устройствам. Технический результат заключается в предоставлении максимальной величины целевой поверхности экрана для начала прослушивания блока распознавания речи. Такой результат достигается тем, что принимают индикацию касания в любом месте на интерфейсе сенсорного экрана мобильного вычислительного устройства, после приема индикации касания в любом месте на интерфейсе сенсорного экрана активируют механизм прослушивания блока распознавания речи и отображают динамическую визуальную обратную связь измеренного уровня громкости произносимого высказывания, принимаемого блоком распознавания речи, при этом отображаемая визуальная обратная связь формируется как центрированная вокруг зоны на сенсорном экране, в которой принято касание. 3 н. и 12 з.п. ф-лы, 7 ил.
Description
УРОВЕНЬ ТЕХНИКИ ИЗОБРЕТЕНИЯ
Мобильные вычислительные устройства, такие как мобильные телефоны и персональные цифровые секретари, стали повсеместной технологией в сегодняшнем обществе. Такие устройства в настоящее время предоставляют интерфейсы, которые позволяют пользователю взаимодействовать с различными мобильными приложениями с помощью множества механизмов ввода (например, цифровая клавиатура, QWERTY-клавиатура, сенсорный экран, распознавание речи, и так далее). Недавно произошел подъем технологий распознавания речи для ввода. С распознаванием речи, речевые команды пользователя записываются в виде звуковых файлов, и либо обрабатываются с помощью встроенного блока распознавания речи, расположенного на мобильном устройстве, либо передаются через беспроводное соединение на сервер, где они обрабатываются. Одним из способов включения механизма прослушивания блока распознавания речи является модель взаимодействия нажать-чтобы-говорить, которая позволяет пользователю подавать сигнал, когда приложению стоит начать и закончить запись с помощью механизма ввода. Многие мобильные приложения используют существующую аппаратную клавишу устройства, многофункциональную клавишу или заданную границу кнопки на интерфейсе сенсорного экрана в качестве механизма ввода для включения механизма прослушивания блока распознавания речи.
Ввод с помощью многофункциональных клавиш или специализированных аппаратных интерфейсов, таких как кнопки, колесики прокрутки и так далее, может быть обременительным из-за множества факторов, которое не ограничивается малым размером кнопок, сложностью обнаружения или нахождения кнопки и/или наличием у пользователя слепой зоны расположения кнопок (например, расположенной на стороне мобильного устройства). Даже если кнопку легко обнаружить и найти, она доступна в данном приложении и находится в эргономическом местоположении, пользователь может быть занят другой задачей (например, он идет, ведет автомобиль и так далее), что может сделать сложным посмотреть на ее/его мобильное устройство и/или попасть в кнопку. При использовании специализированного аппаратного интерфейса, такого как кнопка, для включения режима прослушивания распознавания речи, из-за ее расположения на устройстве нажатие на нее может закрыть микрофон, что может негативно повлиять на выполнение распознавания речи.
Многие мобильные вычислительные устройства сегодня используют интерфейсы сенсорного экрана. Сенсорный экран может иметь выбираемые графические объекты, которые соответствуют нажимным кнопкам традиционных телефонов, клавишам традиционной клавиатуры и различным мобильным задачам. Сенсорными экранами и устройствами ввода, содержащими сенсорные экраны, иногда сложно управлять. Например, пользователь, который использует кончик своего пальца для активации сенсорного экрана, может легко коснуться активной поверхности сенсорного экрана в положении, в котором пользователь не намеревался активировать сенсорный экран. Во многих случаях такая непреднамеренная активация приводит к выполнению непреднамеренных функций.
Именно ввиду этих и других соображений было создано настоящее изобретение.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Варианты осуществления настоящего изобретения направлены на предоставление пользовательского интерфейса на мобильном вычислительном устройстве для предоставления максимальной величины целевой поверхности на экране для начала прослушивания блока распознавания речи. Согласно вариантам осуществления, пользователь может нажать на любое место сенсорного экрана мобильного вычислительного устройства для активации прослушивания во взаимодействии с распознаванием речи. Вместо поиска сложной для обнаружения кнопки или нажатия на маленькую электростатическую клавишу, требующего от пользователя посмотреть на ее/его мобильное вычислительное устройство, весь сенсорный экран является механизмом ввода для активации устройства прослушивания блока распознавания речи.
Согласно варианту осуществления, когда мобильное вычислительное устройство принимает индикацию касания в любом месте на его интерфейсе сенсорного экрана, механизм прослушивания активируется и становится способным принимать ввод речи, и может формироваться подтверждение в ответ на прием индикации касания в любом месте на интерфейсе сенсорного экрана, чтобы уведомить пользователя о том, что механизм прослушивания был активирован. Согласно другому варианту осуществления, визуальная обратная связь, указывающая на измеряемый уровень громкости принятого ввода речи, может формироваться на сенсорном экране в местоположении, в котором принято касание.
Согласно другому варианту осуществления настоящего изобретения, контекст дисплея (экрана) также может использоваться в качестве ввода вдобавок к вводу речи для завершения набора задач. Например, дополнительный контекстный ввод может помочь в сужении результатов поиска для предоставления пользователю улучшенного качества распознавания речи.
Эти и другие признаки и преимущества будут очевидны из прочтения нижеследующего подробного описания и обзора связанных с ним чертежей. Стоит понимать, что как предыдущее общее описание, так и нижеследующее подробное описание являются лишь примерными и не являются ограничивающими заявленное изобретение.
Это краткое изложение сущности изобретения предоставлено, чтобы ввести подборку понятий в упрощенной форме, которые дополнительно описываются ниже в подробном описании. Это краткое изложение сущности изобретения не предназначено для определения ключевых признаков или важнейших признаков заявленного изобретения, и не предназначено для использования в качестве поддержки при определении объема заявленного изобретения.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Фиг. 1 является диаграммой примерного мобильного вычислительного устройства.
Фиг. 2 является упрощенной блок-схемой, иллюстрирующей компоненты мобильного вычислительного устройства, которое может служить в качестве примерной среды функционирования для вариантов осуществления настоящего изобретения.
Фиг. 3 является упрощенной блок-схемой компьютерной архитектуры для использования блока коснуться-любого-места-чтобы-говорить, чтобы задействовать механизм прослушивания во взаимодействии с распознаванем речи на мобильном вычислительном устройстве.
Фиг. 4 является логической блок-схемой последовательности операций способа задействования механизма прослушивания во взаимодействии с распознаванием речи, используя блок коснуться-любого-места-чтобы-говорить.
Фиг. 5 является иллюстрацией примера визуальной обратной связи, предоставляемой блоком коснуться-любого-места-чтобы-говорить.
Фиг. 6 является иллюстрацией примера отображения индикатора уровня громкости, предоставляемого блоком коснуться-любого-места-чтобы-говорить.
Фиг. 7 является логической блок-схемой последовательности операций, иллюстрирующей способ для включения механизма прослушивания во взаимодействии с распознаванием речи, используя блок коснуться-любого-места-чтобы-говорить, в связи с указанием и использованием контекстных данных касания.
ПОДРОБНОЕ ОПИСАНИЕ
Как кратко описано выше, варианты осуществления настоящего изобретения направлены на задействование механизма прослушивания во взаимодействии с распознаванием речи на мобильном вычислительном устройстве. Посредством нажатия на любую заданную зону экрана мобильного вычислительного устройства блок коснуться-любого-места-чтобы-говорить (TATS) активирует механизм прослушивания блока распознавания речи для приема голосового ввода пользователя таким образом, чтобы блок распознавания речи мог преобразовать произносимые слова в машинно-читаемый ввод. Приложения распознавания речи могут использоваться на мобильных вычислительных устройствах для множества задач, включая, но не в качестве ограничения, голосовой набор номера (например, "позвонить Бобу"), открытый поиск в интернете (например, "пицца Сан-Франциско Калифорния" для нахождения ресторанов пиццы в Сан-Франциско), и преобразование речи в текст (например, текстовые сообщения или электронные письма).
Существует много способов ввода для задействования механизма прослушивания во взаимодействии с распознаванием речи на мобильном вычислительном устройстве, каждый из которых имеет свой собственный набор недостатков и иногда с трудом перевешивает выгоды от использования распознавания речи. Многие пользователи используют распознавание речи, потому что они используют свои мобильные вычислительные устройства в отвлекающей обстановке (например, во время ходьбы или вождения), что делает сложным смотреть на экран их устройства для выполнения задачи, используя аппаратные клавиши, многофункциональные клавиши, или заданные границы кнопок на интерфейсе сенсорного экрана. Варианты осуществления настоящего изобретения используют максимальную величину целевой поверхности на экране мобильного вычислительного устройства для активации механизма прослушивания, позволяя использование без зрительного взаимодействия. Включение режима прослушивания распознавания речи с вариантами осуществления настоящего изобретения не требует, чтобы пользователь смотрел на экран его/ее устройства, чтобы узнать, попадает ли он/она в конкретную целевую зону, также он/она не должен будет смотреть на или нащупывать тактильную кнопку, чтобы убедиться, что он/она нажимает на правильную кнопку.
Когда пользователь нажимает и удерживает экран мобильного вычислительного устройства своим пальцем, стилусом или другим устройством выбора, блок коснуться-любого-места-чтобы-говорить может дать либо визуальную, либо звуковую, либо тактильную индикацию, либо комбинацию их трех, чтобы указать, что механизм прослушивания активирован и блок распознавания речи готов записывать ввод речи. Когда получена индикация того, что пользователь закончил свой ввод речи, блок коснуться-любого-места-чтобы-говорить может дать любую другую индикацию (визуальную, звуковую, тактильную, или комбинацию их трех), чтобы указать, что механизм прослушивания деактивирован. Блок распознавания речи может либо обрабатывать данные локально на устройстве, либо удаленно через беспроводное соединение с сервером, на котором они могут обрабатываться. Приложение распознавания речи может затем принимать распознанный вывод и после этого может либо активировать заданное приложение, либо отобразить заданную информацию, либо выполнить заданную задачу, которую указал пользователь через приложение распознавания речи.
Согласно другому варианту осуществления, блок TATS может также быть реализован в виде "слоя" над существующим пользовательским интерфейсом. Когда блок TATS реализован в виде "слоя" над существующим пользовательским интерфейсом, он может использовать также чувствительную к контексту информацию визуального интерфейса вдобавок к неограниченным временным командам, чтобы помочь пользователю выполнить набор задач. На основании контекста экрана мобильного устройства и/или местоположения на экране, которого касается пользователь, может быть сделано определение контекста ввода речи пользователя. Например, если пользователь просматривает карту на своем мобильном вычислительном устройстве, он/она может коснуться конкретной зоны на интерфейсе карты и сказать "кинотеатры". Блок TATS может принять голосовой ввод, "кинотеатры", также как и содержащее контекст местоположение на интерфейсе карты, которого пользователь коснулся, чтобы получить информацию, относящуюся к кинотеатрам в окрестности географической зоны, связанной с выбранной зоной на интерфейсе карты. В качестве другого примера, касаясь картинки или веб-страницы и говоря "послать Бобу", пользователь мог бы послать объект, которого он коснулся, распознанному контакту, Бобу.
Нижеследующее подробное описание ссылается на сопроводительные чертежи. Где это возможно, одинаковые ссылочные числа используются на чертежах и в нижеследующем описании, чтобы указывать на одинаковые или схожие элементы. В то время как варианты осуществления изобретения могут быть описаны, возможны изменения, приспособления и другие осуществления. Например, замены, добавления или изменения могут быть произведены с элементами, проиллюстрированными на чертежах, а способы, описываемые в материалах настоящей заявки, могут быть изменены путем замены, переупорядочения или добавления этапов к раскрытым способам. Соответственно, нижеследующее подробное описание не ограничивает изобретение, а вместо этого точный объем изобретения определен прилагаемой формулой изобретения.
Стоит понимать, что различные варианты осуществления настоящего изобретения могут быть реализованы (1) в виде последовательности выполняемых компьютером действий или программных модулей, исполняемых на вычислительной системе и/или (2) в виде взаимосвязанных машинных логических схем или схемных модулей внутри вычислительной системы. Реализация является вопросом выбора, зависящим от требований производительности вычислительной системы, реализующей изобретение. Соответственно, логические операции, включающие связанные алгоритмы, могут упоминаться различными способами как операции, структурные устройства, действия или блоки. Специалисту в данной области техники будет понятно, что эти операции, структурные устройства, действия и блоки могут быть реализованы в программном обеспечении, микропрограммном обеспечении, цифровой логической схеме специального назначения и любой их комбинации без отклонения от существа и объема настоящего изобретения, определяемого формулой изобретения, приведенной в материалах настоящей заявки.
Нижеследующее является описанием подходящего мобильного вычислительного устройства, например мобильного телефона, с помощью которого могут быть осуществлены на практике варианты осуществления настоящего изобретения. Со ссылкой на фиг. 1, проиллюстрирован пример мобильного вычислительного устройства 100 для реализации вариантов осуществления. В базовой конфигурации мобильное вычислительное устройство 100 является портативным компьютером, имеющим как элементы ввода, так и элементы вывода. Элементы ввода могут включать в себя сенсорный дисплей 105 и кнопки 115 ввода, которые позволяют пользователю вводить информацию в мобильное вычислительное устройство 100. Мобильное вычислительное устройство 100 может также включать в себя необязательный боковой элемент 125 ввода, делающий возможным дополнительный пользовательский ввод. Необязательный боковой элемент 125 ввода может являться поворотным переключателем, кнопкой или любым другим типом элемента ручного ввода. В альтернативных вариантах осуществления мобильное вычислительное устройство 100 может включать в себя больше или меньше элементов ввода. Например, дисплей 105 может не являться сенсорным в некоторых вариантах осуществления. В еще одном варианте осуществления, мобильное вычислительное устройство является системой портативного телефона, такой как сотовый телефон, имеющий дисплей 105 и кнопки ввода 115. Мобильное вычислительное устройство 100 может также включать в себя необязательную клавиатуру 115. Необязательная клавиатура 115 может являться физической клавиатурой, или "мягкой" клавиатурой, формируемой на сенсорном дисплее.
Мобильное вычислительное устройство 100 включает в себя элементы вывода, такие как дисплей 105, который может отображать графический пользовательский интерфейс (GUI). Другие элементы вывода включают в себя динамик 130 и светодиодный (СИД, LED) индикатор 120. Вдобавок, мобильное вычислительное устройство 100 может включать в себя блок вибрации (не показано), который вызывает вибрацию мобильного вычислительного устройства 100, чтобы уведомить пользователя о событии. В еще одном варианте осуществления, мобильное вычислительное устройство 100 может включать в себя разъем для наушников (не показано) для предоставления еще одного средства предоставления выходных сигналов.
Хотя изобретение описано в материалах настоящей заявки в сочетании с мобильным вычислительным устройством 100, в альтернативных вариантах осуществления оно может использоваться в сочетании с любым количеством компьютерных систем, таких как среда настольной системы, компьютерные системы ноутбука, многопроцессорные системы, основанной на микропроцессоре или программируемой бытовой электронике, сетевые персональные компьютеры (ПК, PC), миникомпьютеры, мейнфреймы и тому подобное. Варианты осуществления изобретения могут также осуществляться в распределенных компьютерных средах, в которых задачи выполняются удаленными обрабатывающими устройствами, которые соединены через сеть связи в распределенной компьютерной среде; программы могут быть расположены как на локальных, так и на удаленных запоминающих устройствах. В итоге, любая компьютерная система, имеющая множество датчиков среды, множество элементов вывода для предоставления уведомлений пользователю и множество типов событий уведомления, может включать в себя варианты осуществления настоящего изобретения.
Фиг. 2 является блок-схемой, иллюстрирующей компоненты мобильного вычислительного устройства, используемого в одном из вариантов осуществления, такого как мобильное вычислительное устойство, показанное на фиг. 1. То есть мобильное вычислительное устройство 100 (фиг. 1) может включать в себя систему 200 для реализации некоторых вариантов осуществления. Например, система 200 может использоваться в реализации "смартфона", который может выполнять одно или более приложений, схожих с приложениями на настольном компьютере или ноутбуке, такими как, например, браузер, электронная почта, составление расписания, мгновенный обмен сообщениями и приложения медиа проигрывателя. Система 200 может выполнять операционную систему (ОС, OS), такую как WINDOWS XP®, WINDOWS CE®, доступные от корпорации Майкрософт, Редмонд, Вашингтон. В некоторых вариантах осуществления система 200 встроена в виде вычислительного устройства, такого как встроенный персональный цифровой секретарь (PDA) и беспроводной телефон.
Одна или более прикладных программ 266 могут загружаться в память 262 и выполняться на или в связи с операционной системой 264. Примеры прикладных программ включают в себя программы набора номера, программы электронной почты, программы личной информационной системы (PIM), программы текстовой обработки, программы обработки электронных таблиц, программы Интернет браузера, программы отправки сообщений и так далее. Система 200 также включает в себя энергонезависимое запоминающее устройство 268 в составе памяти 262. Энергонезависимое запоминающее устройство 268 может использоваться для хранения постоянной информации, которая не должна теряться, если система 200 выключается. Приложения 266 могут использовать и хранить информацию в энергонезависимом запоминающем устройстве 268, такую как электронные письма или другие сообщения, используемые приложением электронной почты и тому подобное. Приложение синхронизации (не показано) также находиться в системе 200 и запрограммировано взаимодействовать с соответствующим приложением синхронизации, находящемся на главном компьютере, чтобы поддерживать информацию, хранимую в энергонезависимом запоминающем устройстве 268, синхронизированной с соответствующей информацией, хранимой на главном компьютере. Стоит понимать, что другие приложения также могут загружаться в память 262 и выполняться на устройстве 100.
Согласно варианту осуществления, приложение 265 коснуться-любого-места-чтобы-говорить приспособлено для активации механизма прослушивания блока распознавания речи, выполненного с возможностью приема речевой информации от пользователя для использования в различных приложениях, как описано ниже.
Система 200 имеет источник 270 питания, который может быть реализован в виде одной или более батарей. Источник 270 питания может дополнительно включать в себя внешний источник энергии, такой как внешний блок питания или питаемое установочное гнездо, которое дополняет или перезаряжает батареи.
Система 200 может также включать в себя радио 272, которое выполняет функцию передачи и приема радиочастотной связи. Радио 272 обеспечивает беспроводную связь между системой 200 и "внешним миром" с помощью коммуникационного носителя или поставщика услуг. Передачи на и с радио 272 выполняются под управлением ОС 264. Другими словами, передачи, принимаемые радио 272, могут быть распределены по программам 266 с помощью ОС 264, и наоборот.
Радио 272 позволяет системе 200 осуществлять связь с другими вычислительными устройствами, например, через сеть. Радио 272 является одним из примеров средств связи. Среды связи могут типично воплощать машинно-читаемые команды, структуры данных, программные модули или другие данные в модулированном сигнале данных, таком как несущая волна или другой механизм передачи, и включают любые среды доставки информации. Термин "модулированный сигнал данных" означает сигнал, который имеет одну или более характеристик, устанавливаемых или изменяемых таким образом, чтобы закодировать информацию в сигнале. В качестве примера, но не ограничения, среды связи включают в себя проводные среды, такие как проводная сеть или прямое проводное соединение, и беспроводные среды, такие как акустические, радиочастотные (РЧ, RF), инфракрасные и другие беспроводные среды. Термин “машинно-читаемый носитель”, используемый в материалах настоящей заявки, охватывает как носители данных, так и среды связи.
Этот вариант осуществления системы 200 показан с двумя устройствами вывода уведомлений, СИД 120, который может использоваться для предоставления визуальных уведомлений, и аудио интерфейс 274, который может использоваться с динамиком 130 для предоставления звуковых уведомлений. Эти устройства могут быть прямо подключены к источнику 270 питания таким образом, чтобы при активации они оставались включенными в течение времени, определенного механизмом уведомления, даже если процессор 260 и другие компоненты могут выключиться для сохранения заряда батареи. СИД 120 может быть запрограммирован оставаться включенным неограниченно до тех пор, пока пользователь выполняет действие, чтобы указывать на включенный статус устройства. Аудио интерфейс 274 используется, чтобы предоставлять звуковые сигналы пользователю и принимать звуковые сигналы от него. Например, вдобавок к тому, что аудио интерфейс 274 соединен с динамиком 130, он также может быть соединен с микрофоном, чтобы принимать звуковой ввод, например, чтобы способствовать телефонному разговору. В соответствии с вариантами осуществления настоящего изобретения, микрофон также может служить в качестве звукового датчика, чтобы способствовать управлению уведомлениями, как будет описано ниже.
Система 200 может дополнительно включать в себя видео интерфейс 276, который делает возможным функционирование встроенной камеры 135 для записи неподвижных изображений, потока видео и тому подобного.
Мобильное вычислительное устройство, реализующее систему 200, может иметь дополнительные признаки или функциональность. Например, устройство может также включать в себя дополнительные запоминающие устройства (сменные и/или несменные), такие как магнитные диски, оптические диски или лента. Такое дополнительное запоминающее устройство проиллюстрировано на фиг. 2 с помощью запоминающего устройства 268. Компьютерные носители данных могут включать в себя энергозависимые и энергонезависимые, сменные и несменные носители, реализуемые любым способом или технологией для хранения информации, такой как машинно-читаемые команды, структуры данных, программные модули или другие данные.
Данные/информация, формируемые или записываемые устройством 100 и сохраняемые с помощью системы 200, могут храниться локально на устройстве 100, как описано выше, или данные могут храниться на любом количестве носителей данных, к которым можно осуществить доступ с помощью радио 272 или с помощью проводного соединения между устройством 100 и отдельным вычислительным устройством 330, связанным с устройством 100, например, серверным компьютером в распределенной вычислительной сети 320, такой как Интернет. Как стоит понимать, к таким данным/информации можно осуществить доступ с помощью устройства 100 посредством радио 272 или посредством распределенной вычислительной сети 320. Подобным образом, такие данные/информация могут быть переданы между вычислительными устройствами для хранения и использования согласно известным средствам передачи и хранения данных/информации, включая электронные письма и системы совместного использования общих данных/информации.
Фиг. 3 является упрощенной блок-схемой компьютерной архитектуры для использования блока 265 коснуться-любого-места-чтобы-говорить (TATS) для инициирования прослушивания блока 330 распознавания речи на мобильном вычислительном устройстве 100. Согласно варианту осуществления, после того, как индикация касания экрана 105 мобильного вычислительного устройства 100 принимается блоком 265 TATS, процесс распознавания речи, посредством которого распознается принимаемый звуковой ввод, может быть выполнен с помощью архитектуры распознавания речи, как проиллюстрировано на фиг. 4. Как стоит понимать, архитектура 330 распознавания речи, проиллюстрированная на фиг. 4, может быть объединена с блоком 265 TATS, или архитектура распознавания речи, проиллюстрированная на фиг. 4, может вызываться блоком 265 TATS для получения распознавания звукового ввода.
Согласно одному из вариантов осуществления, как только заданный звуковой ввод распознается как текстовая строка, например, "пицца город Нью-Йорк", и идентифицируется, как связанный с заданной задачей, например, Интернет поиском, блок 340 действия может активироваться, чтобы передать распознанную текстовую строку на локальный источник 310 информации или через распределенную вычислительную сеть 320 на удаленный источник 350 для извлечения информации, применимой к текстовой строке. Например, если звуковой ввод, "Боб", распознается блоком 330 распознавания как контакт в адресной книге пользователя или списке контактов, то блок 340 действия может передать идентифицированную текстовую строку на все источники информации, содержащиеся на локальном источнике 310 и/или удаленном источнике 350, через распределенную вычислительную сеть 320 для получения доступной информации, связанной с выбранной текстовой строкой. Согласно варианту осуществления, блок 340 действия может предоставлять пользователю варианты выполнения мобильной задачи, связанной с распознанным контактом. Вновь со ссылкой на вышеприведенный пример, в котором пользователь говорит "Боб" и ввод распознается как контакт в адресной книге пользователя, блок 340 действия может предоставить пользователю варианты выполнения действия, например, заказать разговор по телефону… либо отправить электронное письмо или мгновенное сообщение распознанному контакту, Бобу.
Информация, соответствующая текстовой строке, из каждого доступного источника может возвращаться на блок 265 TATS для предоставления пользователю для последовательного использования в желаемом приложении программного обеспечения или мобильной задаче. Например, если было обнаружено, что звуковой ввод "Боб" соответствует двум возможным совпадениям, "Боб Смит" и "Боб Дэвис", тогда обе соответствующих записи могут быть представлены пользователю на пользовательском интерфейсе, отображаемом на его/ее мобильном вычислительном устройстве 100, чтобы позволить пользователю выбрать его/ее желаемую запись. Как только пользователь выберет желаемую запись, выбранная текстовая строка может быть передана одному или более приложениям программного обеспечения, как более подробно описано ниже. Как стоит понимать, блок 330 распознавания речи может быть запрограммирован для распознавания многих типов данных, например команд, адресов, географических местоположений, названий книг, названий фильмов и так далее. Если пользователю представлены варианты (опции), которые не соответствуют желаемой для пользователя записи, пользователь может осуществить нажатие на и удерживать экран 105 мобильного вычислительного устройства 100, чтобы вновь обеспечить звуковой ввод, или он/она может осуществить нажатие вне зоны отображаемых соответствий, чтобы избежать необходимости возврата к предыдущему экрану ввода, чтобы нажать и говорить.
Фиг. 4 является логической блок-схемой последовательности операций, иллюстрирующей способ для предоставления блока 265 коснуться-любого-места-чтобы-говорить (TATS) для задействования механизма прослушивания во взаимодействии с распознавание речи на мобильном вычислительном устройстве 100. Описав выше примерную среду функционирования и аспекты вариантов осуществления настоящего изобретения относительно фиг. 1-3, теперь полезно описать примерное функционирование варианта осуществления настоящего изобретения. Со ссылкой на фиг. 4, способ 400 начинается в операции 405 начала и переходит к операции 410, в которой блок 265 TATS выбирается и открывается пользователем. Пользователь может открывать блок 265 TATS с помощью известных способов ввода, например, касаясь ярлыка или текстовой строки, представляющей блок 265 TATS на экране 105 мобильного вычислительного устройства 100.
После того как блок 265 TATS открыт, способ переходит к операции 415, в которой блок TATS принимает индикацию касания любого места на сенсорном экране 105 мобильного вычислительного устройства 100. Как следует понимать, касание может быть касанием пальца пользователя или посредством устройства, такого как стилус. Согласно вариантам осуществления изобретения, принятое касание является способом, посредством которого режим прослушивания включается во взаимодействии распознавания речи. То есть варианты осуществления настоящего изобретения позволяют пользователю касаться любого места на сенсорном экране 105 устройства 100, чтобы указать блоку распознавания речи начать прослушивание звукового ввода. Варианты осуществления настоящего изобретения позволяют пользователю касаться любого места на экране 105 устройства 100, чтобы задействовать механизм прослушивания, в противоположность взаимодействию нажать-чтобы-говорить с помощью альтернативного способа ввода, такого как аппаратный боковой элемент 125 ввода, который может являться поворотным переключателем, кнопкой или любым другим типом элемента ручного ввода, аппаратными кнопками 115 ввода, многофункциональными кнопками, заданными границами кнопок на интерфейсе сенсорного экрана 105, или другими известными элементами.
Согласно варианту осуществления, касание может являться компонентом модели взаимодействия нажать-и-удерживать, где пользователь касается экрана 105, чтобы активировать прослушивание, удерживает свой палец (или другой механизм, используемый для касания интерфейса сенсорного экрана) на экране, пока он/она производит звуковой ввод, а затем отпускает свой палец или иной механизм касания, чтобы деактивировать прослушивание. Согласно другому варианту осуществления, касание может являться моделью взаимодействия нажать-и-отпустить, в которой, как и в предыдущей модели, пользователь касается экрана 105, чтобы активировать прослушивание; однако при отпускании его/ее пальца или иного механизма касания, приложение 330 распознавания речи остается в режиме прослушивания. Механизм прослушивания может быть деактивирован посредством индикации последующего касания, если тишина определяется в течение заданного промежутка времени, или с помощью другого способа, посредством которого индикация конца речи может быть обнаружена данным приложением.
После того, как индикация касания принята блоком 265 TATS, в операции 420 может быть предоставлена обратная связь, для подтверждения приема касания. Согласно варианту осуществления, и как проиллюстрировано на фиг. 5 в связи с фиг. 4, обратная связь 505 может являться визуальной обратной связью (например, анимированное отображение на экране 105), звуковой обратной связью (например, проигрываемый через динамик 130 звуковой тон), тактильной обратной связью (например, вибрация), или комбинацией их трех. Согласно варианту осуществления, визуальная обратная связь 505 может указывать, какого участка экрана 105 коснулся пользователь. Например, как проиллюстрировано на фиг. 5, изображение 505 может отображаться на экране 105, чтобы предупредить пользователя о том, что индикация касания была принята в местоположении, в котором отображается изображение. Обратная связь может предупредить пользователя о том, что блок 265 TATS принял ввод касания и, соответственно, был активирован механизм прослушивания, как показано в операции 425, как проиллюстрировано на фиг. 4. Согласно одному из вариантов осуществления блок 265 TATS может посылать обратную связь, подтверждающую прием касания, пользователю (операция 420) и активировать механизм прослушивания (операция 425) одновременно. Согласно другому варианту осуществления, операция 420 может происходить перед операцией 425. Согласно другому варианту осуществления, операция 425 может происходить перед операцией 420.
Как только механизм прослушивания активирован, блок 330 распознавания речи готов принимать звуковой ввод от пользователя. В операции 430 пользователь может говорить, а его произносимое высказывание может приниматься механизмом прослушивания. Как должно быть понятно специалистам в данной области техники, распознавание речи является известной технологией, которая не будет обсуждаться на протяжении материалов настоящей заявки.
В операции 431, в то время как принимается 430 произносимое высказывание, на экране отображается визуальная обратная связь измеряемого уровня громкости произносимого высказывания. Со ссылкой на фиг. 6 в связи с фиг. 4, обратная связь может являться индикатором 605 уровня громкости. Согласно варианту осуществления, индикатор уровня громкости может быть сформирован в виде последовательности концентрических колец, исходящих из тронутого местоположения по мере того, как обнаруживается больший уровень громкости. Согласно другому варианту осуществления, концентрические кольца могут изменять цвет или затенение по мере того, как уровень громкости возрастает. Как проиллюстрировано на фиг. 6, примерный индикатор 605 уровня громкости отображается на экране 105 мобильного вычислительного устройства 100, отражая уровень громкости, на котором говорит пользователь. В этом примере уровень громкости, на котором говорит пользователь, показан обнаруженным на третьем уровне из максимума в пять уровней. Если пользователь говорит громче, следующее кольцо может изменить цвет или затенение, чтобы сообщить пользователю, что уровень громкости его голоса вырос. Если пользователь говорит более тихо, количество имеющих цвет или затененных колец может уменьшиться, чтобы сообщить пользователю, что уровень громкости его голоса снизился. Анимированное отображение является способом предоставления визуальной обратной связи и помощи в самокоррекции.
Все еще со ссылкой на фиг. 4, после того как пользователь заканчивает свое произносимое высказывание, в операции 435 принимается указание закончить режим прослушивания. Как описано выше, согласно одному из вариантов осуществления, может использоваться модель взаимодействия нажать-и-удерживать, в которой пользователь касается экрана 105, чтобы активировать прослушивание, удерживает свой палец (или другой механизм, используемый для касания интерфейса сенсорного экрана) на экране, пока он/она производит звуковой ввод, а затем отпускает свой палец или иной механизм касания, чтобы указать блоку 265 TATS деактивировать прослушивание. Согласно другому варианту осуществления, может использоваться модель нажать-и-отпустить, в которой указание закончить прослушивание может происходить с помощью индикации последующего касания. Согласно другому варианту осуществления, тишина, обнаруженная в течение заданного промежутка времени, может являться указанием механизму прослушивания заканчивать прослушивание. Как стоит понимать, могут использоваться другие способы, чтобы указать, что пользователь закончил говорить, и что приложение должно выйти из режима прослушивания.
Когда получено указание закончить прослушивание, в операции 440 механизм деактивируется, и блок 330 распознавания речи больше не принимает звуковой ввод до тех пор, пока он снова не получит указание активировать механизм прослушивания. В операции 445 блок 265 TATS подтверждает, что он принял указание деактивировать прослушивание и, следовательно, механизм прослушивания был деактивирован. Согласно варианту осуществления, подтверждение может являться визуальной обратной связью, звуковой обратной связью, тактильной обратной связью или комбинацией их трех. Согласно одному из вариантов осуществления, операции 440 и 445 могут происходить одновременно. Согласно другому варианту осуществления, операция 440 может происходить перед операцией 445. Согласно другому варианту осуществления, операция 440 может происходить после операции 445.
В операции 450 принятый звуковой ввод отправляется блоку распознавания речи, где он может быть переведен в цифровые данные, проанализирован, и может быть определено, что сказал пользователь. Блок 330 распознавания речи может быть встроен в мобильное вычислительное устройство 100 или располагаться удаленно и быть доступным через беспроводное соединение с сервером. Когда речь распознана, она может быть отправлена блоку 340 действия для выполнения распознанной желаемой функции пользователя. Например, если было определено, что пользователь сказал "перечень фильмов, Даллас, Техас", блок 340 действия может отправить данные поисковой машине через беспроводное соединение, чтобы извлечь информацию о текущем перечне фильмов в Далласе, Техас. В операции 455 извлеченные данные могут быть отправлены пользователю и отображены на экране 105 мобильного вычислительного устройства. Согласно варианту осуществления, извлеченные данные могут требовать использование других мобильных приложений. Например, в случае поиска перечней фильмов, чтобы извлечь определенные данные, может понадобиться использовать приложение браузера. Способ заканчивается в операции 460.
Как кратко описано ранее, вариант осуществления настоящего изобретения включает в себя использование чувствительной к контексту информации визуального интерфейса вдобавок к неограниченным временным командам, чтобы помочь пользователю выполнить набор задач. Фиг. 7 является логической блок-схемой последовательности операций, иллюстрирующей способ для предоставления блока 265 коснуться-любого-места-чтобы-говорить (TATS) для задействования механизма прослушивания во взаимодействии с распознаванием речи на мобильном вычислительном устройстве 100, в котором контекст экрана, где пользователь совершил касание, может быть обнаружен и использован в связи с принятым звуковым вводом.
Согласно варианту осуществления, блок 265 TATS может быть выполнен с возможностью использования данных, связанных с касанием, чтобы не только задействовать механизм прослушивания блока 330 распознавания речи, но также чтобы задействовать механизм прослушивания в пределах контекста местоположения или другой контекстной информации, к которой прикасаются. На основании контекста экрана 105 мобильного устройства 100 и/или местоположения на экране 105, которого касается пользователь, блок 265 TATS может определить контекст ввода речи пользователя. Соответственно, пользователю предоставляется более нацеленная информация. Например, если пользователь просматривает карту на своем мобильном вычислительном устройстве 100, и он касается конкретной зоны на интерфейсе карты и говорит "кофе", блок 265 TATS может принимать голосовой ввод "кофе", так же как и осведомленное о контексте местоположение на интерфейсе карты, в котором пользователь коснулся сенсорного экрана, чтобы извлечь информацию, относящуюся к кофе и специфицированную по местоположению выбранной зоны на интерфейсе карты. Если пользователь просматривает ту же карту, что и в предыдущем примере, и говорит "кофе", но касается другой точки на интерфейсе карты, возвращенные результаты могут быть другими, потому что ввод контекстного местоположения изменился. Снабжение контекстных визуальных данных произносимыми данными может сделать возможными огромное количество возможных приложений. Например, произнося инструктивную команду (например, "увеличить масштаб") и касаясь при этом интерфейса карты, можно произвести другие результаты, чем произнося высказывание, подразумеваемое как поисковый запрос.
Со ссылкой на фиг. 7, способ 700 начинается в операции 705 начала и переходит к операции 710, в которой блок 265 TATS выбирается и открывается пользователем. Пользователь может открывать блок 265 TATS с помощью известных способов ввода, например, касаясь ярлыка или текстовой строки, представляющей блок 265 TATS на экране 105 мобильного вычислительного устройства 100.
После того как блок 265 TATS открыт, способ переходит к операции 715, в которой блок TATS принимает индикацию касания внутри контекстной зоны сенсорного экрана 105 мобильного вычислительного устройства 100. Как следует понимать, касание может быть касанием пальца пользователя или посредством устройства, такого как стилус. Согласно вариантам осуществления изобретения, принятое касание является способом, посредством которого режим прослушивания включается во взаимодействии распознавания речи. Варианты осуществления настоящего изобретения позволяют пользователю касаться любого места в пределах контекстной зоны на сенсорном экране 105 устройства 100, чтобы указать блоку распознавания речи начать прослушивание звукового ввода.
Согласно варианту осуществления, касание может являться компонентом модели взаимодействия нажать-и-удерживать, в которой пользователь касается экрана 105, чтобы активировать прослушивание, удерживает свой палец (или другой механизм, используемый для касания интерфейса сенсорного экрана) на контекстной зоне экрана, пока он/она производит звуковой ввод, а затем отпускает свой палец или иной механизм касания, чтобы деактивировать прослушивание. Согласно другому варианту осуществления, касание может являться моделью взаимодействия нажать-и-отпустить, в которой, как и в предыдущей модели, пользователь касается контекстной зоны экрана 105, чтобы активировать прослушивание; однако при отпускании его/ее пальца или иного механизма касания, приложение 330 распознавания речи остается в режиме прослушивания. Механизм прослушивания может быть деактивирован посредством индикации последующего касания, если тишина определяется в течение заданного промежутка времени, или с помощью другого способа, посредством которого индикация конца речи может быть обнаружена данным приложением.
После того как индикация касания принята блоком 265 TATS, в операции 720 может быть предоставлена обратная связь, чтобы подтвердить прием касания. Согласно варианту осуществления, обратная связь 505 может являться визуальной обратной связью (например, анимированное отображение на экране 105), звуковой обратной связью (например, проигрываемый через динамик 130 звуковой тон), тактильной обратной связью (например, вибрация) или комбинацией их трех. Согласно варианту осуществления, визуальная обратная связь 505 может указывать, какого участка экрана 105 коснулся пользователь. Например, вновь со ссылкой на фиг. 5, изображение 505 может отображаться на экране 105, чтобы предупредить пользователя о том, что индикация касания была принята в местоположении, в котором отображается изображение. Обратная связь 505 может предупредить пользователя о том, что блок 265 TATS принял ввод касания и, соответственно, был активирован механизм прослушивания, как показано в операции 725, как проиллюстрировано на фиг. 7. Согласно одному из вариантов осуществления, блок 265 TATS может посылать обратную связь, подтверждающую прием касания, пользователю (операция 720) и активировать механизм прослушивания (операция 725) одновременно. Согласно другому варианту осуществления, операция 720 может происходить перед операцией 725. Согласно другому варианту осуществления, операция 725 может происходить перед операцией 720.
Как только механизм прослушивания активирован, блок 330 распознавания речи готов принимать звуковой ввод от пользователя. В операции 730 пользователь может говорить, а его произносимое высказывание может приниматься механизмом прослушивания. Как должно быть понятно специалистам в данной области техники, распознавание речи является известной технологией, которая не будет обсуждаться на протяжении материалов настоящей заявки.
В операции 731, в то время как принимается 730 произносимое высказывание пользователя, как описано ранее со ссылкой на операцию 431 на фиг. 4, визуальная обратная связь 605 измеренного уровня громкости произносимого высказывания может отображаться на экране 105 сформированной как центрированная вокруг зоны на сенсорном экране 105, в которой принято касание.
Продолжая в операции 732, блок 265 TATS может определять контекстные данные касания и определять идентификацию касания в связи с определенными контекстными данными. В операции 733 идентификация касания может быть передана блоку 265 TATS. Например, если пользователь просматривает карту города, он/она может коснуться конкретной зоны карты и произнести высказывание. Конкретная зона карты, отображаемая на интерфейсе экрана, которой коснулся пользователь, может считываться и определяться как конкретная широта и долгота, которые надо использовать в связи с принятыми голосовыми данными, чтобы выполнять распознанную желаемую функцию пользователя.
В операции 735 принимается указание закончить режим прослушивания. Соответственно, в операции 740 механизм прослушивания деактивируется, а в операции 745 предоставляется подтверждение того, что механизм прослушивания был деактивирован.
В операции 750 принятый звуковой ввод отправляется блоку распознавания речи, где он может быть переведен в цифровые данные, проанализирован в связи с определенными контекстными данными касания, и может быть определено, что сказал пользователь. Блок 330 распознавания речи может быть встроен в мобильное вычислительное устройство 100 или располагаться удаленно и быть доступным через беспроводное соединение с сервером. Когда речь распознана, она может быть отправлена блоку 340 действия для выполнения распознанной желаемой функции пользователя. Согласно варианту осуществления, определение и использование контекстных данных касания могут происходить на различных этапах в процессе, и не обязательно в операции 750.
В операции 755 извлеченные данные могут быть отправлены пользователю и отображены на экране 105 мобильного вычислительного устройства. Согласно варианту осуществления, извлеченные данные могут требовать использование других мобильных приложений. Способ заканчивается в операции 760.
Согласно варианту осуществления, взаимодействие нажать-и-удерживать может сделать возможными определенные функции распознавания речи; в то время как, в качестве альтернативы, взаимодействие нажать и отпустить может сделать возможными другие функциональности. Например, если пользователь касается своим пальцем экрана 105 своего мобильного устройства 100 и затем убирает свой палец с экрана 105, блок 265 TATS может включить механизм прослушивания для взаимодействия распознавания речи. Однако, если он касается своим пальцем экрана 105 своего мобильного устройства и оставляет свой палец на экране 105, блок 265 TATS может включить механизм прослушивания для взаимодействия распознавания речи в пределах контекста касания. Согласно этому примеру, действие нажать и удерживать делает различие для блока 265 TATS, чтобы применять контекст визуального интерфейса вдобавок к звуковому вводу. Стоит понимать, что могут существовать другие способы для разграничения между желаемыми приложениями взаимодействия. Хотя изобретение было описано в связи с различными вариантами осуществления, специалистам в данной области техники будет понятно, что в них можно сделать много изменений в пределах объема нижеследующих пунктов формулы изобретения.
Claims (15)
1. Способ предоставления функциональности ввода для блока взаимодействия с распознаванием речи, содержащий этапы, на которых:
принимают индикацию касания в любом месте на интерфейсе сенсорного экрана мобильного вычислительного устройства 415;
после приема индикации касания в любом месте на интерфейсе сенсорного экрана активируют механизм прослушивания блока распознавания речи 425; и
отображают динамическую визуальную обратную связь измеренного уровня громкости произносимого высказывания, принимаемого блоком распознавания речи, при этом отображаемая визуальная обратная связь формируется как центрированная вокруг зоны на сенсорном экране, в которой принято касание 431.
принимают индикацию касания в любом месте на интерфейсе сенсорного экрана мобильного вычислительного устройства 415;
после приема индикации касания в любом месте на интерфейсе сенсорного экрана активируют механизм прослушивания блока распознавания речи 425; и
отображают динамическую визуальную обратную связь измеренного уровня громкости произносимого высказывания, принимаемого блоком распознавания речи, при этом отображаемая визуальная обратная связь формируется как центрированная вокруг зоны на сенсорном экране, в которой принято касание 431.
2. Способ по п.1, дополнительно содержащий этап, на котором:
формируют подтверждение в ответ на прием индикации касания в любом месте на интерфейсе сенсорного экрана мобильного вычислительного устройства 420.
формируют подтверждение в ответ на прием индикации касания в любом месте на интерфейсе сенсорного экрана мобильного вычислительного устройства 420.
3. Способ по п.1, в котором при приеме индикации касания в любом месте на интерфейсе сенсорного экрана мобильного вычислительного устройства принимают индикацию касания и удерживания в любом месте на интерфейсе сенсорного экрана мобильного вычислительного устройства 415.
4. Способ по п.1, в котором при активации механизма прослушивания блока распознавания речи:
определяют, принял ли интерфейс сенсорного экрана касание 415; и
активируют механизм прослушивания 425.
определяют, принял ли интерфейс сенсорного экрана касание 415; и
активируют механизм прослушивания 425.
5. Способ по п.2, в котором подтверждение приема индикации касания в любом месте на интерфейсе сенсорного экрана представлено в форме визуальной обратной связи 420.
6. Способ по п.2, в котором подтверждение приема индикации касания в любом месте на интерфейсе сенсорного экрана представлено в форме звуковой обратной связи 420.
7. Способ по п.2, в котором подтверждение приема индикации касания в любом месте на интерфейсе сенсорного экрана представлено в форме тактильной обратной связи 420.
8. Способ по п.2, в котором подтверждение приема индикации касания в любом месте на интерфейсе сенсорного экрана представлено в форме комбинации звуковой, визуальной и/или тактильной обратной связи 420.
9. Способ предоставления функциональности ввода для блока взаимодействия с распознаванием речи, содержащий этапы, на которых:
принимают индикацию касания внутри контекстной зоны на интерфейсе сенсорного экрана мобильного вычислительного устройства 715; и
после приема индикации касания внутри контекстной зоны на интерфейсе сенсорного экрана:
определяют контекстные данные касания и определяют идентификацию касания в связи с этими определенными контекстными данными 732:
передают идентификацию касания одному или более приложениям программного обеспечения 733;
активируют механизм прослушивания блока распознавания речи 725
принимают произносимое высказывание 730
используют идентификацию касания в связи с упомянутыми определенными контекстными данными 750, и вызывают выполнение функциональности этих одного или более приложений программного обеспечения на основании упомянутых определенных контекстных данных и
отображают динамическую визуальную обратную связь измеренного уровня громкости произносимого высказывания, принимаемого блоком распознавания речи, при этом отображаемая визуальная обратная связь формируется как центрированная вокруг зоны на сенсорном экране, в которой принято касание внутри контекстной зоны 731.
принимают индикацию касания внутри контекстной зоны на интерфейсе сенсорного экрана мобильного вычислительного устройства 715; и
после приема индикации касания внутри контекстной зоны на интерфейсе сенсорного экрана:
определяют контекстные данные касания и определяют идентификацию касания в связи с этими определенными контекстными данными 732:
передают идентификацию касания одному или более приложениям программного обеспечения 733;
активируют механизм прослушивания блока распознавания речи 725
принимают произносимое высказывание 730
используют идентификацию касания в связи с упомянутыми определенными контекстными данными 750, и вызывают выполнение функциональности этих одного или более приложений программного обеспечения на основании упомянутых определенных контекстных данных и
отображают динамическую визуальную обратную связь измеренного уровня громкости произносимого высказывания, принимаемого блоком распознавания речи, при этом отображаемая визуальная обратная связь формируется как центрированная вокруг зоны на сенсорном экране, в которой принято касание внутри контекстной зоны 731.
10. Способ по п.9, дополнительно содержащий этап, на котором формируют подтверждение в ответ на прием индикации касания в любом месте внутри контекстной зоны на интерфейсе сенсорного экрана мобильного вычислительного устройства 720.
11. Способ по п.10, в котором подтверждение приема индикации касания внутри контекстной зоны на интерфейсе сенсорного экрана может быть представлено в форме звуковой обратной связи, визуальной обратной связи, тактильной обратной связи или любой комбинации их трех 720.
12. Способ по п.9, в котором на этапе приема индикации касания внутри контекстной зоны на интерфейсе сенсорного экрана мобильного вычислительного устройства принимают индикацию приема касания и удерживания внутри контекстной зоны на интерфейсе сенсорного экрана мобильного вычислительного устройства 715.
13. Машиночитаемый носитель, содержащий машиноисполняемые команды, которыми при их исполнении компьютером выполняется способ предоставления функциональности ввода для блока взаимодействия с распознаванием речи, содержащий этапы, на которых:
принимают индикацию касания в любом месте на интерфейсе сенсорного экрана мобильного вычислительного устройства 100;
активируют механизм прослушивания блока распознавания речи 330;
формируют подтверждение в ответ на прием индикации касания в любом месте на интерфейсе сенсорного экрана мобильного вычислительного устройства; и
отображают динамическую визуальную обратную связь измеренного уровня громкости произносимого высказывания, принимаемого блоком распознавания речи, при этом отображаемая визуальная обратная связь формируется как центрированная вокруг зоны на сенсорном экране, в которой принято касание внутри контекстной зоны.
принимают индикацию касания в любом месте на интерфейсе сенсорного экрана мобильного вычислительного устройства 100;
активируют механизм прослушивания блока распознавания речи 330;
формируют подтверждение в ответ на прием индикации касания в любом месте на интерфейсе сенсорного экрана мобильного вычислительного устройства; и
отображают динамическую визуальную обратную связь измеренного уровня громкости произносимого высказывания, принимаемого блоком распознавания речи, при этом отображаемая визуальная обратная связь формируется как центрированная вокруг зоны на сенсорном экране, в которой принято касание внутри контекстной зоны.
14. Машиночитаемый носитель по п.13, при этом при приеме индикации касания в любом месте на интерфейсе сенсорного экрана 105 мобильного вычислительного устройства 100 принимают индикацию касания внутри контекстной зоны на интерфейсе сенсорного экрана.
15. Машиночитаемый носитель по п.14, в котором при приеме индикации касания внутри контекстной зоны на интерфейсе сенсорного экрана 105:
принимают касание на части интерфейса сенсорного экрана, в которой заданная информация отображается приложением программного обеспечения, работающим в мобильном вычислительном устройстве 100;
определяют контекстные данные, связанные с контекстной зоной на интерфейсе сенсорного экрана;
принимают произносимое высказывание посредством активированного механизма прослушивания блока 330 распознавания речи, связанного с упомянутыми определенными контекстными данными;
передают команду, представляющую принятое произносимое высказывание, одному или более приложениям 266 программного обеспечения, приспособленным для выполнения функции, связанной с упомянутыми определенными контекстными данными; и
предписывают упомянутому приложению 266 программного обеспечения выполнить функцию, связанную с упомянутыми определенными контекстными данными, и отобразить результат выполненной функции на интерфейсе сенсорного экрана 105.
принимают касание на части интерфейса сенсорного экрана, в которой заданная информация отображается приложением программного обеспечения, работающим в мобильном вычислительном устройстве 100;
определяют контекстные данные, связанные с контекстной зоной на интерфейсе сенсорного экрана;
принимают произносимое высказывание посредством активированного механизма прослушивания блока 330 распознавания речи, связанного с упомянутыми определенными контекстными данными;
передают команду, представляющую принятое произносимое высказывание, одному или более приложениям 266 программного обеспечения, приспособленным для выполнения функции, связанной с упомянутыми определенными контекстными данными; и
предписывают упомянутому приложению 266 программного обеспечения выполнить функцию, связанную с упомянутыми определенными контекстными данными, и отобразить результат выполненной функции на интерфейсе сенсорного экрана 105.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/482,429 US8412531B2 (en) | 2009-06-10 | 2009-06-10 | Touch anywhere to speak |
US12/482,429 | 2009-06-10 | ||
PCT/US2010/038213 WO2010144732A2 (en) | 2009-06-10 | 2010-06-10 | Touch anywhere to speak |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2011150255A RU2011150255A (ru) | 2013-06-20 |
RU2526758C2 true RU2526758C2 (ru) | 2014-08-27 |
Family
ID=43307159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2011150255/08A RU2526758C2 (ru) | 2009-06-10 | 2010-06-10 | Коснитесь любого места, чтобы говорить |
Country Status (10)
Country | Link |
---|---|
US (1) | US8412531B2 (ru) |
EP (1) | EP2440988B1 (ru) |
CN (1) | CN102460346A (ru) |
AU (1) | AU2010258675B2 (ru) |
BR (1) | BRPI1010584B1 (ru) |
CA (1) | CA2760993C (ru) |
HK (1) | HK1169725A1 (ru) |
RU (1) | RU2526758C2 (ru) |
TW (1) | TWI497406B (ru) |
WO (1) | WO2010144732A2 (ru) |
Families Citing this family (170)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
KR20090107365A (ko) * | 2008-04-08 | 2009-10-13 | 엘지전자 주식회사 | 이동 단말기 및 그 메뉴 제어방법 |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US20110126094A1 (en) * | 2009-11-24 | 2011-05-26 | Horodezky Samuel J | Method of modifying commands on a touch screen user interface |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US20110246194A1 (en) * | 2010-03-30 | 2011-10-06 | Nvoq Incorporated | Indicia to indicate a dictation application is capable of receiving audio |
US20110283241A1 (en) * | 2010-05-14 | 2011-11-17 | Google Inc. | Touch Gesture Actions From A Device's Lock Screen |
US20120089392A1 (en) * | 2010-10-07 | 2012-04-12 | Microsoft Corporation | Speech recognition user interface |
KR101275582B1 (ko) * | 2010-12-31 | 2013-06-17 | 엘지전자 주식회사 | 휴대 단말기의 동작방법 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9368107B2 (en) * | 2011-04-20 | 2016-06-14 | Nuance Communications, Inc. | Permitting automated speech command discovery via manual event to command mapping |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
EP2721607A1 (en) * | 2011-06-15 | 2014-04-23 | Bone Tone Communications (Israel) Ltd. | System, device and method for detecting speech |
US20130218836A1 (en) * | 2012-02-22 | 2013-08-22 | Microsoft Corporation | Deep Linking From Task List Based on Intent |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
CN103294183B (zh) * | 2012-03-05 | 2017-03-01 | 联想(北京)有限公司 | 终端设备及其对压力进行反馈的方法 |
EP2833980A4 (en) * | 2012-04-03 | 2016-01-13 | Senseapp Internat Ltd | MULTI-PURPOSE HOUSING FOR COMPUTER DEVICE |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
KR101987255B1 (ko) * | 2012-08-20 | 2019-06-11 | 엘지이노텍 주식회사 | 음성 인식 장치 및 이의 음성 인식 방법 |
TWI468983B (zh) * | 2012-09-21 | 2015-01-11 | Univ Nat Chiao Tung | 服務啟動方法及系統 |
KR20150104615A (ko) | 2013-02-07 | 2015-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10795528B2 (en) * | 2013-03-06 | 2020-10-06 | Nuance Communications, Inc. | Task assistant having multiple visual displays |
US10783139B2 (en) | 2013-03-06 | 2020-09-22 | Nuance Communications, Inc. | Task assistant |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
KR101437572B1 (ko) * | 2013-05-09 | 2014-09-04 | (주)오픈벡스 | 휴대단말기의 보이스 토크 제어방법 |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
CN104301497A (zh) * | 2013-07-15 | 2015-01-21 | 中兴通讯股份有限公司 | 一种来电界面的显示方法及装置 |
KR102089444B1 (ko) | 2013-07-25 | 2020-03-16 | 삼성전자 주식회사 | 음성 인식 기능을 지원하는 전자 기기의 음성 입력 제어 방법 및 장치 장치 |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
CN105934791B (zh) | 2014-01-31 | 2019-11-22 | 惠普发展公司,有限责任合伙企业 | 语音输入命令 |
CN104754395A (zh) * | 2014-02-26 | 2015-07-01 | 苏州乐聚一堂电子科技有限公司 | 声感视觉特效系统及声感视觉特效处理方法 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10698995B2 (en) | 2014-08-28 | 2020-06-30 | Facetec, Inc. | Method to verify identity using a previously collected biometric image/data |
US10915618B2 (en) | 2014-08-28 | 2021-02-09 | Facetec, Inc. | Method to add remotely collected biometric images / templates to a database record of personal information |
CA3186147A1 (en) | 2014-08-28 | 2016-02-28 | Kevin Alan Tussy | Facial recognition authentication system including path parameters |
US11256792B2 (en) | 2014-08-28 | 2022-02-22 | Facetec, Inc. | Method and apparatus for creation and use of digital identification |
US10614204B2 (en) | 2014-08-28 | 2020-04-07 | Facetec, Inc. | Facial recognition authentication system including path parameters |
US10803160B2 (en) | 2014-08-28 | 2020-10-13 | Facetec, Inc. | Method to verify and identify blockchain with user question data |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
CN107077846B (zh) | 2014-10-24 | 2021-03-16 | 索尼互动娱乐股份有限公司 | 控制装置、控制方法、程序和信息存储介质 |
WO2016063621A1 (ja) * | 2014-10-24 | 2016-04-28 | 株式会社ソニー・コンピュータエンタテインメント | 制御装置、制御方法、プログラム及び情報記憶媒体 |
US9904450B2 (en) | 2014-12-19 | 2018-02-27 | At&T Intellectual Property I, L.P. | System and method for creating and sharing plans through multimodal dialog |
US9633661B1 (en) * | 2015-02-02 | 2017-04-25 | Amazon Technologies, Inc. | Speech-responsive portable speaker |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
USD803233S1 (en) * | 2015-08-14 | 2017-11-21 | Sonos, Inc. | Display device with animated graphical user interface element |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US20170076626A1 (en) * | 2015-09-14 | 2017-03-16 | Seashells Education Software, Inc. | System and Method for Dynamic Response to User Interaction |
USD803245S1 (en) * | 2015-10-08 | 2017-11-21 | Smule, Inc. | Display screen or portion thereof with graphical user interface |
USD800752S1 (en) * | 2015-10-08 | 2017-10-24 | Smule, Inc. | Display screen or portion thereof with animated graphical user interface |
WO2017061149A1 (ja) * | 2015-10-08 | 2017-04-13 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
USD800751S1 (en) * | 2015-10-08 | 2017-10-24 | Smule, Inc. | Display screen or portion thereof with animated graphical user interface |
USD801999S1 (en) * | 2015-10-08 | 2017-11-07 | Smule, Inc. | Display screen or portion thereof with graphical user interface |
USD800753S1 (en) * | 2015-10-08 | 2017-10-24 | Smule, Inc. | Display screen or portion thereof with animated graphical user interface |
USD855629S1 (en) * | 2015-10-23 | 2019-08-06 | Sony Corporation | Display panel or screen or portion thereof with an animated graphical user interface |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
FR3044436B1 (fr) | 2015-11-27 | 2017-12-01 | Thales Sa | Procede d'utilisation d'un dispositif d'interface homme-machine pour aeronef comportant une unite de reconnaissance de la parole |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
CN106855780A (zh) * | 2015-12-09 | 2017-06-16 | 阿里巴巴集团控股有限公司 | 输入操作的处理方法、装置和智能终端 |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
USD798902S1 (en) * | 2016-04-20 | 2017-10-03 | Google Inc. | Display screen with animated graphical user interface |
USD987653S1 (en) | 2016-04-26 | 2023-05-30 | Facetec, Inc. | Display screen or portion thereof with graphical user interface |
USD803870S1 (en) * | 2016-05-25 | 2017-11-28 | Microsoft Corporation | Display screen with animated graphical user interface |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10909371B2 (en) * | 2017-01-19 | 2021-02-02 | Samsung Electronics Co., Ltd. | System and method for contextual driven intelligence |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
JP1618244S (ru) * | 2018-01-31 | 2019-01-21 | ||
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
JP7023743B2 (ja) * | 2018-02-28 | 2022-02-22 | シャープ株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
USD890773S1 (en) * | 2018-04-03 | 2020-07-21 | Samsung Electronics Co., Ltd. | Display screen or portion thereof with transitional graphical user interface |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
CN108804010B (zh) * | 2018-05-31 | 2021-07-30 | 北京小米移动软件有限公司 | 终端控制方法、装置及计算机可读存储介质 |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
USD916724S1 (en) * | 2018-10-30 | 2021-04-20 | Juul Labs, Inc. | Display screen or portion thereof with animated graphical user interface |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
CN109857326A (zh) * | 2019-02-01 | 2019-06-07 | 思特沃克软件技术(西安)有限公司 | 一种车载触摸屏及其控制方法 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
USD914701S1 (en) * | 2019-03-29 | 2021-03-30 | Snap Inc. | Display screen or portion thereof with a transitional graphical user interface |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
USD952661S1 (en) * | 2020-10-12 | 2022-05-24 | Apple Inc. | Display screen or portion thereof with animated graphical user interface |
USD973082S1 (en) * | 2021-04-20 | 2022-12-20 | Apple Inc. | Display screen or portion thereof with graphical user interface |
USD995553S1 (en) * | 2021-04-28 | 2023-08-15 | Hyperconnect LLC | Display panel with animated graphical user interface |
USD978894S1 (en) * | 2021-06-05 | 2023-02-21 | Apple Inc. | Display screen or portion thereof with animated graphical user interface |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6115482A (en) * | 1996-02-13 | 2000-09-05 | Ascent Technology, Inc. | Voice-output reading system with gesture-based navigation |
US7249023B2 (en) * | 2003-03-11 | 2007-07-24 | Square D Company | Navigated menuing for industrial human machine interface via speech recognition |
RU2349969C2 (ru) * | 2003-05-29 | 2009-03-20 | Майкрософт Корпорейшн | Синхронное понимание семантических объектов, реализованное с помощью тэгов речевого приложения |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5487671A (en) * | 1993-01-21 | 1996-01-30 | Dsp Solutions (International) | Computerized system for teaching speech |
FI981154A (fi) | 1998-05-25 | 1999-11-26 | Nokia Mobile Phones Ltd | Menetelmä ja laite puheen tunnistamiseksi |
GB9814398D0 (en) * | 1998-07-02 | 1998-09-02 | Nokia Mobile Phones Ltd | Electronic apparatus |
US6232957B1 (en) * | 1998-09-14 | 2001-05-15 | Microsoft Corporation | Technique for implementing an on-demand tool glass for use in a desktop user interface |
US7720682B2 (en) | 1998-12-04 | 2010-05-18 | Tegic Communications, Inc. | Method and apparatus utilizing voice input to resolve ambiguous manually entered text input |
US6233560B1 (en) | 1998-12-16 | 2001-05-15 | International Business Machines Corporation | Method and apparatus for presenting proximal feedback in voice command systems |
US7292986B1 (en) | 1999-10-20 | 2007-11-06 | Microsoft Corporation | Method and apparatus for displaying speech recognition progress |
US8287374B2 (en) * | 2000-07-07 | 2012-10-16 | Pryor Timothy R | Reconfigurable control displays for games, toys, and other applications |
CN1300929A (zh) * | 2000-11-14 | 2001-06-27 | 陈远燮 | 一种数字多功能家用电冰箱 |
JP3919210B2 (ja) * | 2001-02-15 | 2007-05-23 | アルパイン株式会社 | 音声入力案内方法及び装置 |
US6990180B2 (en) * | 2001-04-05 | 2006-01-24 | Nokia Mobile Phones Limited | Short voice message (SVM) service method, apparatus and system |
KR100457509B1 (ko) | 2001-07-07 | 2004-11-17 | 삼성전자주식회사 | 터치스크린과 음성인식을 통해 동작 제어되는 정보단말기 및 그의 명령 실행 방법 |
US7542026B2 (en) * | 2003-11-03 | 2009-06-02 | International Business Machines Corporation | Apparatus method and system for improved feedback of pointing device event processing |
EP1560199B1 (en) | 2004-01-29 | 2008-07-09 | Harman Becker Automotive Systems GmbH | Multimodal data input |
US20050198265A1 (en) * | 2004-01-30 | 2005-09-08 | Peter Veprek | Method and apparatus for information notification |
US20050197843A1 (en) * | 2004-03-07 | 2005-09-08 | International Business Machines Corporation | Multimodal aggregating unit |
US7672845B2 (en) | 2004-06-22 | 2010-03-02 | International Business Machines Corporation | Method and system for keyword detection using voice-recognition |
CN100585546C (zh) | 2004-08-02 | 2010-01-27 | 皇家飞利浦电子股份有限公司 | 数据处理系统、压力敏感触摸屏以及便于用户与数据处理系统相互作用的方法 |
CN1885976A (zh) * | 2005-06-24 | 2006-12-27 | 英华达(上海)电子有限公司 | 将声音在手机显示屏上图形化显示并播放的方法 |
US20070112571A1 (en) | 2005-11-11 | 2007-05-17 | Murugappan Thirugnana | Speech recognition at a mobile terminal |
WO2007073798A1 (en) | 2005-12-27 | 2007-07-05 | Koninklijke Kpn N.V. | Call routing based on context sensitive speech recognition |
US20070266077A1 (en) * | 2006-03-31 | 2007-11-15 | Alcatel | Presence and preference-enabled push to talk telephony system |
US20080109222A1 (en) | 2006-11-04 | 2008-05-08 | Edward Liu | Advertising using extracted context sensitive information and data of interest from voice/audio transmissions and recordings |
US20090192898A1 (en) * | 2006-11-29 | 2009-07-30 | E-Meal, Llc | Remote Ordering System |
US8219406B2 (en) * | 2007-03-15 | 2012-07-10 | Microsoft Corporation | Speech-centric multimodal user interface design in mobile technology |
US20080317219A1 (en) | 2007-06-21 | 2008-12-25 | Siemens Communications, Inc. | Method and apparatus for context based voice dialing |
DE102008051756A1 (de) | 2007-11-12 | 2009-05-14 | Volkswagen Ag | Multimodale Benutzerschnittstelle eines Fahrerassistenzsystems zur Eingabe und Präsentation von Informationen |
US8195220B2 (en) * | 2008-02-01 | 2012-06-05 | Lg Electronics Inc. | User interface for mobile devices |
US8065143B2 (en) * | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
CN101295223A (zh) * | 2008-06-06 | 2008-10-29 | 马晶 | 实现快捷操作的系统及其操作方法、通讯终端及使用方法 |
-
2009
- 2009-06-10 US US12/482,429 patent/US8412531B2/en active Active
-
2010
- 2010-04-20 TW TW099112393A patent/TWI497406B/zh not_active IP Right Cessation
- 2010-06-10 WO PCT/US2010/038213 patent/WO2010144732A2/en active Application Filing
- 2010-06-10 EP EP10786862.2A patent/EP2440988B1/en active Active
- 2010-06-10 BR BRPI1010584A patent/BRPI1010584B1/pt active IP Right Grant
- 2010-06-10 CN CN2010800263948A patent/CN102460346A/zh active Pending
- 2010-06-10 AU AU2010258675A patent/AU2010258675B2/en active Active
- 2010-06-10 CA CA2760993A patent/CA2760993C/en active Active
- 2010-06-10 RU RU2011150255/08A patent/RU2526758C2/ru active
-
2012
- 2012-10-18 HK HK12110374.1A patent/HK1169725A1/xx not_active IP Right Cessation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6115482A (en) * | 1996-02-13 | 2000-09-05 | Ascent Technology, Inc. | Voice-output reading system with gesture-based navigation |
US7249023B2 (en) * | 2003-03-11 | 2007-07-24 | Square D Company | Navigated menuing for industrial human machine interface via speech recognition |
RU2349969C2 (ru) * | 2003-05-29 | 2009-03-20 | Майкрософт Корпорейшн | Синхронное понимание семантических объектов, реализованное с помощью тэгов речевого приложения |
Also Published As
Publication number | Publication date |
---|---|
AU2010258675B2 (en) | 2014-05-29 |
CA2760993C (en) | 2016-08-02 |
EP2440988A2 (en) | 2012-04-18 |
TWI497406B (zh) | 2015-08-21 |
EP2440988B1 (en) | 2014-11-19 |
EP2440988A4 (en) | 2013-08-28 |
TW201044265A (en) | 2010-12-16 |
CN102460346A (zh) | 2012-05-16 |
BRPI1010584B1 (pt) | 2020-01-28 |
HK1169725A1 (en) | 2013-02-01 |
CA2760993A1 (en) | 2010-12-16 |
US20100318366A1 (en) | 2010-12-16 |
WO2010144732A3 (en) | 2011-03-24 |
US8412531B2 (en) | 2013-04-02 |
BRPI1010584A2 (pt) | 2016-03-15 |
AU2010258675A1 (en) | 2011-11-24 |
RU2011150255A (ru) | 2013-06-20 |
WO2010144732A2 (en) | 2010-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2526758C2 (ru) | Коснитесь любого места, чтобы говорить | |
US11954403B1 (en) | Systems and methods for communicating notifications and textual data associated with applications | |
US9111538B2 (en) | Genius button secondary commands | |
US9620126B2 (en) | Electronic device, control method, and control program | |
US8019606B2 (en) | Identification and selection of a software application via speech | |
US8995625B2 (en) | Unified interface and routing module for handling audio input | |
EP2588945B1 (en) | Method and apparatus for implementing a multiple display mode | |
JP5826753B2 (ja) | モバイル通信装置のためのユーザーが選択可能な環境 | |
US9661133B2 (en) | Electronic device and method for extracting incoming/outgoing information and managing contacts | |
US20170308353A1 (en) | Method and apparatus for triggering execution of operation instruction | |
JP2009253970A (ja) | 移動端末機及びそのメニュー制御方法 | |
KR101954774B1 (ko) | 문자 데이터를 이용한 음성 통화를 제공하기 위한 전자 장치 및 방법 | |
KR20070088029A (ko) | 이동 단말기에서 사용자 인터페이스 제공 장치 및 방법 | |
KR101947462B1 (ko) | 사용자 디바이스에서 단축번호 제공 방법 및 장치 | |
KR20150007889A (ko) | 어플리케이션 운용 방법 및 그 전자 장치 | |
KR102142699B1 (ko) | 어플리케이션 운용 방법 및 그 전자 장치 | |
US20130218997A1 (en) | Apparatus and method for providing a message service in an electronic device | |
JP2008536237A (ja) | 筆記による及び/又は可聴音によるユーザ指示に応える、電子デバイス内のデータ管理のための、方法、電子デバイス、及びコンピュータプログラム製品 | |
US20240220194A1 (en) | Systems and Methods for Communicating Notifications and Textual Data Associated with Applications | |
CN109120499A (zh) | 一种信息处理方法及装置 | |
KR100703437B1 (ko) | 휴대단말기에서 대기화면 디스플레이 방법 | |
KR20050073254A (ko) | 음성인식을 통한 휴대폰 특정기능 사용법 안내 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PC41 | Official registration of the transfer of exclusive right |
Effective date: 20150526 |