RU2349969C2 - Синхронное понимание семантических объектов, реализованное с помощью тэгов речевого приложения - Google Patents

Синхронное понимание семантических объектов, реализованное с помощью тэгов речевого приложения Download PDF

Info

Publication number
RU2349969C2
RU2349969C2 RU2004116304/09A RU2004116304A RU2349969C2 RU 2349969 C2 RU2349969 C2 RU 2349969C2 RU 2004116304/09 A RU2004116304/09 A RU 2004116304/09A RU 2004116304 A RU2004116304 A RU 2004116304A RU 2349969 C2 RU2349969 C2 RU 2349969C2
Authority
RU
Russia
Prior art keywords
language model
recognition
semantic
input
input data
Prior art date
Application number
RU2004116304/09A
Other languages
English (en)
Other versions
RU2004116304A (ru
Inventor
Куансан ВАНГ (US)
Куансан ВАНГ
Original Assignee
Майкрософт Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Майкрософт Корпорейшн filed Critical Майкрософт Корпорейшн
Publication of RU2004116304A publication Critical patent/RU2004116304A/ru
Application granted granted Critical
Publication of RU2349969C2 publication Critical patent/RU2349969C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephone Function (AREA)

Abstract

Изобретение относится к доступу и представлению информации в компьютерной системе с использованием распознавания и понимания. Система понимания речи содержит языковую модель, содержащую комбинацию языковой модели N-граммы и языковой модели контекстно-свободной грамматики. В языковой модели хранится информация, относящаяся к словам, и семантическая информация, подлежащая распознаванию. Модуль адаптирован для приема ввода от пользователя и восприятию ввода для обработки. Модуль также адаптирован для приема программных интерфейсов приложений, использующих SALT, относящихся к распознаванию ввода. Модуль способен обрабатывать программные интерфейсы приложений, использующих SALT, и ввод для получения семантической информации, относящейся к первой части ввода, и выводить семантический объект, содержащий текст и семантическую информацию для первой части, путем доступа к языковой модели, причем операция распознавания и вывод семантического объекта осуществляются в то время, когда продолжается восприятие последующих частей ввода. Технический результат - упрощение в использовании благодаря большей естественности для пользователя. 2 н. и 8 з.п. ф-лы, 7 ил.

Description

Предпосылки изобретения
Настоящее изобретение относится к доступу и представлению информации в компьютерной системе. В частности, настоящее изобретение относится к доступу к информации с использованием распознавания и понимания.
В последнее время появилась технология, позволяющая пользователю обращаться к информации в компьютерной системе посредством речевых команд. Получив команду пользователя, компьютерная система осуществляет распознавание речи на средстве пользовательского ввода и далее обрабатывает введенный сигнал, чтобы выявить намерение пользователя в отношении действия, которое должна выполнить компьютерная система.
В некоторых случаях ввод, обеспечиваемый пользователем, является неполным или неопределенным, из-за чего компьютерной системе требуется запрашивать у пользователя дополнительную информацию посредством визуальных или звуковых приглашений. Таким образом, между пользователем и компьютерной системой может установиться диалог, в котором стороны по очереди задают вопросы, получают ответы и/или подтверждения, пока не будет выяснено намерение пользователя и не будет выполнено действие. В других случаях создание такого диалога является предпочтительным режимом для взаимодействия с компьютерной системой.
Для облегчения речи как жизнеспособной модальности ввода/вывода для современной конструкции пользовательского интерфейса был внедрен формат SALT (Speech Application Language Tags) [тэги языка речевого приложения]. Конструктивной задачей SALT является упрощение обычных речевых заданий для программы и в то же время обеспечение расширенных возможностей с непосредственной реализацией. SALT разработан для многих приложений. Таковым является, например, чисто речевое телефонное приложение, взаимодействующее с пользователями исключительно посредством разговорного диалога.
SALT включает в себя входной и выходной речевые объекты («слушать» (“listen”) и «приглашать» (“prompt”)), имеющие модальную конструкцию для привлечения технологий обнаружения начала и конца пользовательского этапа. Соответственно, многие речевые приложения используют пользовательские интерфейсы, которые требуют, чтобы пользователь сигнализировал о начале пользовательского этапа. Некоторые компьютерные системы включают в себя переносные компьютеры, активируемые речью модальные или мультимодальные (речевой ввод обеспечивается для полей, выбранных с помощью устройства ввода, например, мышью) устройства и другие приложения, не требующие зрения. Тем не менее в каждой из этих сред по-прежнему присутствует определение переключения пользовательского/компьютерного этапа в диалоге.
Однако в разговоре между людьми обычно не существует переключаемого упорядоченного диалога между участниками. Напротив, разговоры могут включать в себя квитирования, подтверждения, вопросы со стороны одного участника и т.д., тогда как другой предоставляет информацию, которая может существенно влиять, незначительно влиять или совсем не влиять на способ, которым говорящий предоставляет информацию. Людям, ведущим разговор, нравится такая естественная форма общения. Аналогично, в телефонных системах применяется полнодуплексная технология, позволяющая вести такие разговоры.
Напротив, в диалоговых интерфейсах применяется режим работы с жестким переключением между пользователем и компьютерной системой, в результате чего компьютерной системе приходится ожидать окончания диалога с пользователем прежде, чем начать обработку и выполнить следующее действие. Хотя простая обратная связь, например визуальные указания наподобие увеличивающегося количества точек на экране компьютера, может давать пользователю некоторую уверенность в том, что компьютерная система, по меньшей мере, что-то обрабатывает, пока пользователь не закончит свой этап, и компьютерная система не ответит, степень понимания компьютерной системы не известна.
Соответственно, требуется усовершенствовать компьютерные системы, основанные на распознавании и понимании. Такие усовершенствования обеспечивают систему или способ доступа к информации, которые проще в использовании благодаря большей естественности для пользователя.
Сущность изобретения
Способ и система обеспечивают режим речевого ввода, который динамически сообщает результаты частичного семантического анализа в то время, как восприятие аудиосигнала все еще продолжается. Результаты семантического анализа можно оценивать по исходу, немедленно сообщаемому пользователю.
Согласно одному аспекту система понимания речи содержит языковую модель, содержащую комбинацию языковой модели N-граммы (последовательности из N элементов) и языковой модели контекстно-свободной грамматики. В языковой модели хранится информация, относящаяся к словам, и семантическая информация, подлежащая распознаванию. Модуль адаптирован к приему ввода от пользователя и восприятию (захвата) ввода для обработки. Модуль также адаптирован к приему программных интерфейсов приложений SALT, относящихся к распознаванию ввода. Модуль выполнен с возможностью обрабатывать программные интерфейсы приложений SALT и ввод для получения семантической информации, относящейся к первой части ввода, и выводить семантический объект, содержащий текст и семантическую информацию для первой части, путем доступа к языковой модели, причем операция распознавания и вывод семантического объекта осуществляются в то время, как продолжается восприятие последующих частей ввода.
Краткое описание чертежей
Фиг.1 - блок-схема системы представления данных.
Фиг.2 - упрощенный вид операционной среды вычислительного устройства.
Фиг.3 - блок-схема вычислительного устройства, изображенного на фиг.2.
Фиг.4 - упрощенный вид телефона.
Фиг.5 - блок-схема компьютера общего назначения.
Фиг.6 - блок-схема архитектуры системы клиент-сервер.
Фиг.7 - блок-схема модуля распознавания и понимания речи.
Подробное описание иллюстративных вариантов осуществления изобретения
На фиг.1 показана блок-схема системы 10 представления данных для представления данных на основании голосового ввода. Система 10 содержит модуль 12 речевого интерфейса, модуль 14 распознавания и понимания речи и модуль 16 представления данных. Пользователь обеспечивает ввод (входной сигнал, данные) в виде голосового запроса на модуль 12 речевого интерфейса. Модуль 12 речевого интерфейса собирает (накапливает) речевую информацию от пользователя и выдает сигнал, указывающий это. После того как модуль 12 речевого интерфейса соберет входную речь, модуль 14 распознавания и понимания речи распознает речь с использованием распознавателя речи, а также осуществляет понимание речи, при котором согласно одному аспекту настоящего изобретения обеспечивают результаты частичного семантического анализа полученного к этому времени ввода, в то время как все еще продолжается восприятие аудиосигнала речевого ввода.
Результаты частичного семантического анализа, которые обычно включают в себя текст для принятого ввода (или другие данные, указывающие текст ввода), а также выявленную семантическую информацию, поступают на модуль 16 приложения, который может принимать многообразные формы. Например, в одном варианте осуществления модуль 16 приложения может представлять собой электронную записную книжку (ЭЗК) и использоваться для отправки, получения сообщений электронной почты и ответа на них, организации встреч и т.п. Таким образом, пользователь может выдавать звуковые команды для выполнения этих задач. Тем не менее важнее то, что модуль 16 приложения может обеспечивать интерактивную обратную связь и/или выполнять действия над информацией результатов частичных семантических анализов по мере их поступления, тем самым обеспечивая пользователя высокоинтерактивным интерфейсом для модуля 16 приложения. Например, при работе в чисто голосовом режиме выход 20 может содержать слышимые утверждения, обращенные к пользователю, хотя, конечно, возможно выполнение других задач, относящихся к приложению. Частичные семантические анализы (результаты) или семантические объекты можно использовать для выполнения диалоговой логики в приложении. Например, диалоговая логика может представлять пользователю опцию или совокупность или список опций на основании одного или более семантических объектов.
Это позволяет системе 10 сообщать исходы, основанные на частичном фрагменте речи, немедленно, а именно до окончания пользовательского этапа. Другими словами, благодаря использованию связи по обратному каналу для сообщения и выполнения задания, обычно связанного с системным этапом, определение пользовательского и системного этапов размывается. В большинстве исследований традиционного диалога, особенно основанных на диалогах между людьми, часто рассматривают связь по обратному каналу как ненавязчивую обратную связь, которая переносит только простые сигналы, например, положительного, отрицательного или нейтрального подтверждения. Однако обратная связь, обеспеченная выходом 20, может потенциально нести больше информации, тем самым являясь несколько более навязчивой по отношению к продолжающемуся пользовательскому фрагменту речи, которая может понуждать или не понуждать пользователя пояснять намерения или директивы пользователя. Тем не менее этот подход обеспечивает более реалистический человеческий диалог между пользователем и системой 10, что во многих случаях не будет считаться докучливым, но, напротив, более удобным для пользователя и устанавливать нужную пользователю степень конфиденциальности.
В этой связи следует заметить, что настоящее изобретение не ограничивается исключительно голосовой операционной средой, но, напротив, может включать в себя другие формы обратной связи с пользователем на основании обработки результатов частичного семантического анализа или объектов. Например, в рассмотренном выше применении, где модуль 16 приложения выполняет задания электронной почты, выход 20 может включать в себя визуальную обратную связь, например активацию модуля электронной почты только на основании выражения, например, «Отправить электронную почту» в непрерванной команде от пользователя, содержащей «Отправить электронную почту Бобу», причем обработка выражения «Бобу» может принудить модуль приложения обратиться к дополнительной информации в хранилище данных 18 и представить список людей, носящих имя «Боб». Просматривая список, пользователь легко идентифицирует нужного получателя как «Боб Грин», которого затем можно выбрать, поскольку система может получить другой семантический объект для частичного фрагмента речи «Боб Грин», который, будучи получен приложением и обработан, приводит к выбору «Боб Грин».
Согласно указанному выше модуль 16 приложения может принимать многочисленные формы, в которых могут иметь преимущество аспекты настоящего изобретения, дополнительно рассмотренные ниже. Без ограничения, модуль 16 приложения может также быть модулем диктовки для обеспечения текстуального вывода произносимого ввода пользователя. Однако благодаря также обработке семантической информации для частичного ввода или выражений ввода можно получить более точную транскрипцию.
Хотя описанное выше относится к вводу от пользователя, содержащему голосовые команды, аспекты настоящего изобретения можно также применять к другим формам ввода, например рукописному вводу, ДТМЧН (двухтональному многочастотному набору), жестам или визуальным указаниям.
Ввиду широкой применимости обработки частичных семантических выражений или объектов может быть полезно описать в общих чертах вычислительные устройства, которые могут функционировать в вышеописанной системе 10. Специалистам в данной области известно, что компоненты системы 10 могут размещаться в одном компьютере или быть распределены по распределенной вычислительной среде, в которой используются сетевые соединения и протоколы.
На фиг.2 представлена примерная форма мобильного устройства, например устройств управления данными (ЭЗК, персональный цифровой ассистент ПЦА и др.), обозначенная позицией 30. Однако предполагается, что настоящее изобретение можно также осуществлять на практике с использованием других вычислительных устройств, рассмотренных ниже. Например, пользоваться преимуществами настоящего изобретения будут также телефоны и/или устройства управления данными. Такие устройства будут более полезны, чем существующие портативные персональные устройства управления информацией или другие портативные электронные устройства.
В иллюстративной форме мобильного устройства 30 управления данными, показанного на фиг.2, мобильное устройство 30 содержит корпус 32 и имеет пользовательский интерфейс, включающий в себя дисплей 34, в котором используется сенсорный экран в сочетании с пером 33. Перо 33 используется для нажима на дисплей 34 или касания его в указанных координатах для выбора поля, избирательного перемещения начального положения курсора или иного обеспечения командной информации, например, посредством жестов или рукописного ввода. Альтернативно или дополнительно, в состав устройства 30 может входить одна или несколько кнопок 35 для навигации. Кроме того, можно предусмотреть другие механизмы ввода, например вращающиеся колесики, ролики и т.п. Однако следует заметить, что изобретение не призвано ограничиваться этими формами механизмов ввода. Например, другая форма ввода может включать в себя визуальный ввод, например, посредством компьютерного визуального восприятия.
На фиг.3 изображена блок-схема, на которой показаны функциональные компоненты мобильного устройства 30. Центральный процессор (ЦП) 50 реализует функции управления программного обеспечения. СП 50 подключен к дисплею 34, чтобы текст и графические иконки, генерируемые в соответствии с управляющим программным обеспечением, появлялись на экране 34. Громкоговоритель 43 обычно подключен к ЦП 50 через цифроаналоговый преобразователь 59 для обеспечения слышимого выхода. Данные, загружаемые или вводимые пользователем в мобильное устройство 30, сохраняются в энергонезависимом запоминающем устройстве 54 произвольного доступа для чтения/записи, двусторонне подключенном к ЦП 50. Память произвольного доступа (ЗУПД) 54 обеспечивает временное хранение команд, выполняемых ЦП 50, и хранение временных данных, например значений регистров. Значения по умолчанию для опций настройки и других переменных хранятся в постоянной памяти (ПЗУ) 58. ПЗУ 58 также может использоваться для хранения программного обеспечения операционной системы для устройства, которая управляет основными функциями мобильного устройства 30 и другими функциями ядра операционной системы (например, загрузкой компонентов программного обеспечения в ЗУПД 54).
ЗУПД 54 также используется в качестве хранилища для кода наподобие жесткого диска на ПК, который применяется для хранения прикладных программ. Заметим, что хотя для хранения кода используется энергонезависимая память, его альтернативно можно хранить в энергозависимой памяти, которая не используется для выполнения кода.
Мобильное устройство может передавать/принимать беспроводные сигналы через беспроводной приемопередатчик 52, подключенный к ЦП 50. Необязательный интерфейс 60 связи может также быть предусмотрен для загрузки данных, по желанию, непосредственно от компьютера (например, настольного компьютера) или из проводной сети. Соответственно, интерфейс 60 может содержать различные формы устройств связи, например устройство инфракрасной связи, модем, сетевую карту и т.п.
Мобильное устройство 30 включает в себя микрофон 29 и аналого-цифровой преобразователь (АЦП) 37 и необязательную программу распознавания (речи, ДТМЧН, рукописного ввода, жестов или компьютерного визуального восприятия), хранящуюся в памяти 54. Например, в ответ на звуковую информацию, инструкции или команды от пользователя устройства 30 микрофон 29 выдает речевые сигналы, которые оцифровываются АЦП 37. Программа распознавания речи может осуществлять функции нормализации и/или извлечения признаков над оцифрованными речевыми сигналами для получения промежуточных результатов распознавания речи. Используя беспроводной приемопередатчик 52 или интерфейс связи 60, речевые данные можно передавать на сервер 204 удаленного распознавания, рассмотренный ниже и проиллюстрированный в архитектуре, показанной на фиг.6. Затем результаты распознавания могут возвращаться на мобильное устройство 30 для представления (например, визуального и/или звукового) на нем и для возможной передачи на веб-сервер 202 (фиг.6), причем веб-сервер 202 и мобильное устройство 30 соотносятся как сервер и клиент соответственно.
Аналогичную обработку можно использовать для других форм ввода. Например, рукописный ввод можно оцифровывать с предварительной обработкой на устройстве 30 и без нее. Как и речевые данные, эту форму ввода можно передавать на сервер 204 распознавания для распознавания, причем результаты распознавания возвращаются на устройство 30 и/или веб-сервер 202. Данные ДЧМТН, данные жеста и визуальные данные можно обрабатывать аналогичным образом. В зависимости от формы ввода устройство 30 (и другие формы клиентов, рассмотренные ниже) будут включать в себя необходимое оборудование, например камеру для визуального ввода.
На фиг.4 показан упрощенный вид иллюстративного варианта осуществления портативного телефона 80. Телефон 80 включает в себя дисплей 82 и клавиатуру 84. В целом, блок-схема, показанная на фиг.3, применима к телефону, показанному на фиг.4, хотя может потребоваться дополнительная схема, необходимая для осуществления других функций. Например, для варианта осуществления, показанного на фиг.3, может потребоваться приемопередатчик, действующий как телефон; однако такая схема не относится к настоящему изобретению.
Помимо вышеописанных портативных или мобильных вычислительных устройств нужно также понимать, что настоящее изобретение можно использовать со многими другими вычислительными устройствами, например настольным компьютером общего назначения. Например, настоящее изобретение позволит пользователю с ограниченными физическими возможностями вводить текст в компьютер или другое вычислительное устройство, когда другие традиционные устройства ввода, например полную буквенно-цифровую клавиатуру, слишком трудно применять.
Изобретение также применимо ко многим другим вычислительным системам, средам или конфигурациям общего или специального назначения. Примеры общеизвестных вычислительных систем, сред и/или конфигураций, которые могут быть пригодны для использования в соответствии с изобретением, включают в себя, но не исключительно, обычные телефоны (без экрана), персональные компьютеры, компьютеры-серверы, карманные или портативные компьютеры, планшетные компьютеры, многопроцессорные системы, системы на основе микропроцессора, телевизионные приставки, программируемую бытовую электронику, сетевые ПК, миникомпьютеры, универсальные компьютеры, распределенные вычислительные среды, которые включают в себя любые из вышеперечисленных систем или устройств и т.п.
Ниже приведено краткое описание компьютера 120 общего назначения, показанного на фиг.5. Однако компьютер 120 является всего лишь примером подходящего вычислительного устройства и не призван как-либо ограничивать объем использования или функциональные возможности изобретения. Также компьютер 120 не следует рассматривать как имеющий какую-либо зависимость или требование в отношении к любому из проиллюстрированных здесь компонентов или их комбинации.
Изобретение можно описать в общем контексте компьютерно-выполняемых команд, например программных модулей, выполняемых компьютером. В целом, программные модули включают в себя процедуры, программы, объекты, компоненты, структуры данных и т.п., которые выполняют конкретные задания или реализуют определенные абстрактные типы данных. Изобретение также можно применять на практике в распределенных вычислительных средах, где задания выполняются удаленными обрабатывающими устройствами, связанными посредством сети связи. В распределенной вычислительной среде программные модули могут размещаться как на локальных, так и на удаленных компьютерных носителях данных, включая запоминающие устройства. Задания, выполняемые программами и модулями, описаны ниже со ссылками на чертежи. Специалисты в данной области могут реализовать описание и чертежи в виде команд, выполняемых процессором, которые могут быть записаны на компьютерно-считываемых носителях любого типа.
Согласно фиг.5 компоненты компьютера 120 могут включать в себя, но не исключительно, процессор 140, системную память 150 и системную шину 141, которая подсоединяет различные компоненты системы, включая системную память, к процессору 140. Системная шина 141 может относиться к любому из нескольких типов шинных структур, включая шину памяти или контроллер памяти, периферийную шину и локальную шину, с использованием разнообразных шинных архитектур. В качестве примера, но не ограничения, такие архитектуры включают в себя шину архитектуры промышленного стандарта (ISA), Universal Serial Bus (USB), шину микроканальной архитектуры (MCA), шину расширенного стандарта ISA (EISA), локальную шину Ассоциации по стандартам в области видеоэлектроники (VESA) и шину подключений периферийных компонентов (PCI), также именуемую шиной расширения. Компьютер 120 обычно содержит разнообразные компьютерно-считываемые носители. Компьютерно-считываемые носители могут представлять собой любые имеющиеся носители, к которым может осуществлять доступ компьютер 120, и включают в себя энергозависимые и энергонезависимые носители, сменные и стационарные носители. В качестве примера, но не ограничения, компьютерно-считываемый носитель может представлять собой компьютерный носитель данных или среду передачи данных. Компьютерные носители данных включают в себя энергозависимые и энергонезависимые, сменные и стационарные носители, реализованные посредством любого способа или технологии для хранения информации, например, компьютерно-считываемых команд, структур данных, программных модулей или других данных. Компьютерные носители данных включают в себя, но не исключительно, ОЗУ, ПЗУ, ЭСППЗУ, флэш-память или другую технологию памяти, CD-ROM, цифровые универсальные диски (DVD) или иные оптические дисковые носители данных, магнитные кассеты, магнитную ленту, магнитные дисковые носители данных или иные магнитные запоминающие устройства или любой другой носитель, который можно использовать для хранения полезной информации и к которому компьютер 120 может осуществлять доступ.
Среды передачи данных обычно воплощают компьютерно-считываемые команды, структуры данных, программные модули или другие данные в виде модулированного сигнала данных, например, несущей волны или иного транспортного механизма. Среды передачи данных также включают в себя любые среды доставки информации. Термин «модулированный сигнал данных» означает сигнал, одна или несколько характеристик которого изменяются так, чтобы кодировать информацию в сигнале. В порядке примера, но не ограничения, среды передачи данных содержат проводные среды, например проводную сеть или прямое проводное соединение, и беспроводные среды, например акустические, РЧ, инфракрасные и другие беспроводные среды. В число компьютерно-считываемых сред входят также комбинации любых из вышеперечисленных позиций.
Системная память 150 содержит компьютерные носители данных в виде энергозависимой и/или энергонезависимой памяти, например, постоянной памяти (ПЗУ) 151 и оперативной памяти (ОЗУ) 152. Базовая система ввода/вывода (BIOS) 153, содержащая основные процедуры, которые помогают переносить информацию между элементами компьютера 120, например, при запуске, хранится в ПЗУ 151. ОЗУ 152 обычно содержит данные и/или программные модули, которые непосредственно доступны процессору 140 и/или в данный момент обрабатываются им. В порядке примера, но не ограничения, на фиг.5 показаны операционная система 154, прикладные программы 155, другие программные модули 156 и программные данные 157.
Компьютер 120 может также включать в себя другие сменные/стационарные, энергозависимые/энергонезависимые компьютерные носители данных. В порядке примера, на фиг.5 показан жесткий диск 161, который производит считывание со стационарного энергонезависимого магнитного носителя и запись на него, привод 171 магнитного диска, который производит считывание со сменного энергонезависимого магнитного диска 172 и запись на него, и привод 175 оптического диска, который производит считывание со сменного энергонезависимого оптического диска 176, например CD-ROM или другого оптического носителя, и запись на него. Другие сменные/стационарные, энергозависимые/энергонезависимые компьютерные носители данных, которые можно использовать в иллюстративной операционной среде, включают в себя, но не исключительно, кассеты с магнитной лентой, карты флэш-памяти, цифровые универсальные диски, ленту для цифрового видео, полупроводниковое ОЗУ, полупроводниковое ПЗУ и т.д. Жесткий диск 161 обычно подключен к системной шине 141 посредством интерфейса стационарной памяти, например интерфейса 160, а привод 171 магнитного диска и привод 175 оптического диска обычно подключены к системной шине 141 посредством интерфейса сменной памяти, например интерфейса 170.
Приводы и соответствующие компьютерные носители данных, описанные выше и показанные на фиг.5, обеспечивают хранение компьютерно-считываемых команд, структур данных, программных модулей и других данных для компьютера 120. Например, на фиг.5 показано, что на жестком диске 161 хранятся операционная система 164, прикладные программы 165, другие программные модули 166 и программные данные 167. Заметим, что эти компоненты могут быть идентичны операционной системе 154, прикладным программам 155, другим программным модулям 156 и программным данным 157 или отличны от них. Операционная система 164, прикладные программы 165, другие программные модули 166 и программные данные 167 обозначены здесь другими позициями, чтобы показать, что они, как минимум, представляют собой разные копии.
Пользователь может вводить команды и информацию в компьютер 120 через устройства ввода, например клавиатуру 182, микрофон 183 и указательное устройство 181, например мышь, шаровой манипулятор или сенсорную панель. Другие устройства ввода (не показаны) могут включать в себя джойстик, игровую панель, спутниковую антенну, сканер и т.п. Эти и другие устройства ввода часто подключают к процессору 140 через интерфейс 180 пользовательского ввода, который подключен к системной шине, но можно подключать посредством других структур интерфейса и шины, например, параллельного порта, игрового порта или универсальной последовательной шины (USB). Монитор 184 или устройство отображения другого типа также подключен к системной шине 141 через интерфейс, например видеоинтерфейс 185. Помимо монитора компьютеры могут содержать другие периферийные устройства вывода, например громкоговорители 187 и принтер 186, которые могут быть подключены через интерфейс 188 периферийных устройств вывода.
Компьютер 120 может работать в сетевой среде с использованием логических соединений с одним или несколькими удаленными компьютерами, например удаленным компьютером 194. В качестве удаленного компьютера 194 может выступать персональный компьютер, портативное устройство, сервер, маршрутизатор, сетевой ПК, равноправное устройство или другой общий сетевой узел, который обычно содержит многие или все элементы, описанные выше применительно к компьютеру 120. Логические соединения, указанные на фиг.5, включают в себя локальную сеть (ЛС) 191 и глобальную сеть (ГС) 193, но также могут включать в себя другие сети. Такие сетевые среды обычно используются в офисных, производственных компьютерных сетях, интрасетях и в Интернет.
При использовании в сетевой среде ЛС компьютер 120 подключен к ЛС 191 через сетевой интерфейс или адаптер 190. При использовании в сетевой среде ГС компьютер 120 обычно содержит модем 192 или другие средства установления соединений по ГС 193, например Интернет. Модем 192, который может быть внутренним или внешним, может быть подключен к системной шине 141 через интерфейс 180 пользовательского ввода или другой соответствующий механизм. В сетевой среде программные модули, указанные в отношении компьютера 120, или часть из них могут храниться в удаленном запоминающем устройстве. В порядке примера, но не ограничения, на фиг.5 показано, что удаленные прикладные программы 195 размещены в запоминающем устройстве 194. Очевидно, что показанные сетевые соединения являются иллюстративными и что можно использовать другие средства установления линии(й) связи между компьютерами.
На фиг.6 показана архитектура 200 распознавания и представления данных на основе web, которая является одним иллюстративным вариантом осуществления настоящего изобретения. В целом, к информации, хранящейся на веб-сервере 202, можно осуществлять доступ через клиент 100, например мобильное устройство 30 или компьютер 120 (который здесь представляет другие формы вычислительных устройств, имеющих экран дисплея, микрофон, камеру, сенсорную панель и т.д., необходимые в зависимости от типа ввода), или через телефон 80, в котором информация запрашивается голосом или посредством тонов, генерируемых телефоном 80 при нажатии клавиш, причем информация поступает от веб-сервера 202 обратно к пользователю только в звуковом виде.
Согласно этому варианту осуществления архитектура 200 универсальна в том смысле, что всякий раз при получении информации через клиент 100 или телефон 80 с использованием распознавания речи один сервер 204 распознавания может поддерживать любой режим работы. Кроме того, архитектура 200 действует с использованием расширения общеизвестных языков разметки (например, HTML, XHTML, cHTML, XML, WML и т.п.). Таким образом, к информации, хранящейся на веб-сервере 202, можно также осуществлять доступ с использованием общеизвестных способов ГИП (графического интерфейса пользователя), имеющихся в этих языках разметки. Использование расширения общеизвестных языков разметки позволяет упростить авторскую систему на веб-сервере 202 и легко модифицировать существующие в настоящее время унаследованные приложения также для включения распознавания голоса.
В общем случае, клиент 100 выполняет страницы HTML, сценарии и т.п., обозначенные общей позицией 206, предоставленные веб-сервером 202, с использованием обозревателя (браузера). Когда требуется распознавание голоса, например речевые данные, которые могут быть оцифрованными аудиосигналами или речевыми признаками, причем аудиосигналы предварительно обработаны клиентом 100 согласно рассмотренному выше, поступают на сервер 204 распознавания с указанием грамматической или языковой модели 220, используемой при распознавании речи, которая может быть обеспечиваться клиентом 100. Альтернативно, языковую модель 220 может содержать речевой сервер 204. Реализация сервера 204 распознавания может принимать многочисленные формы, одна из которых проиллюстрирована, но в общем случае содержит распознаватель 211. Результаты распознавания поступают обратно на клиент 100 для локального представления, по желанию или необходимости. При желании, для передачи на клиент 100 произносимого текста можно использовать модуль 222 преобразования текста в речь. После компиляции информации посредством распознавания и любого графического интерфейса пользователя, если таковой используется, клиент 100 отправляет эту информацию на веб-сервер 202 для дальнейшей обработки и получения дополнительных страниц HTML/сценариев, при необходимости.
Согласно фиг.6 клиент 100, веб-сервер 202 и сервер 204 распознавания связаны друг с другом и раздельно адресуемы через сеть 205, в данном случае глобальную сеть, например Интернет. Поэтому эти устройства не обязаны физически располагаться рядом друг с другом. В частности, веб-сервер 202 не обязательно включает в себя сервер 204 распознавания. Таким образом, авторская система на веб-сервере 202 может сосредоточиться на приложении, для которого она предназначена, и авторам не нужно вникать в детали работы сервера 204 распознавания. Напротив, сервер 204 распознавания может быть независимым устройством, подключенным к сети 205, и таким образом иметь возможность обновления или усовершенствования, не влекущего необходимость в дополнительных изменениях на веб-сервере 202. Веб-сервер 202 может также включать в себя механизм авторской системы, способный динамически генерировать разметки и сценарии клиентской стороны. Согласно другому варианту осуществления веб-сервер 202, сервер 204 распознавания и клиент 100 могут быть объединены в зависимости от возможностей реализующих машин. Например, если клиент 100 содержит компьютер общего назначения, например персональный компьютер, то клиент может включать в себя сервер 204 распознавания. Аналогично, при желании, веб-сервер 202 и сервер 204 распознавания можно включить в состав одной машины.
Доступ к веб-серверу 202 через телефон 80 включает в себя подключение телефона 80 к проводной или беспроводной телефонной сети 208, которая, в свою очередь, подключает телефон 80 к шлюзу 210 третьей стороны. Шлюз 210 подключает телефон 80 к телефонному голосовому обозревателю (браузеру) 212. Телефонный голосовой обозреватель 212 содержит медиа-сервер 214, который обеспечивает телефонный интерфейс, и голосовой обозреватель 216. Как и клиент 100, телефонный голосовой обозреватель 212 принимает от веб-сервера 202 страницы HTML/сценарии и т.п. Согласно одному варианту осуществления страницы HTML/сценарии сходны со страницами HTML/сценариями, поступающими на клиент 100. Таким образом, веб-серверу 202 не нужно по отдельности поддерживать клиента 100 и телефон 80 и даже не нужно по отдельности поддерживать стандартные клиенты ГИП. Напротив, можно использовать общий язык разметки. Кроме того, аналогично клиенту 100 распознавание голоса из слышимых сигналов, передаваемых телефоном 80, поступает от голосового обозревателя 216 на сервер 204 распознавания либо по сети 205, либо по выделенной линии 207, например, с использованием TCP/IP. Веб-сервер 202, сервер 204 распознавания и телефонный голосовой обозреватель 212 можно реализовать в любой пригодной вычислительной среде, например настольном компьютере общего пользования, показанном на фиг.5.
Описав различные среды и архитектуры, действующие в системе 10, обратимся к более подробному описанию различных компонентов и функций системы 10. На фиг.7 показана блок-схема модуля 14 распознавания и понимания речи. Входная речь, принятая от модуля 12 речевого интерфейса, поступает на модуль 14 распознавания и понимания речи. Модуль 14 распознавания и понимания речи содержит машину 306 распознавания, с которой связана языковая модель 310. Машина 306 распознавания использует языковую модель 310 для идентификации возможных поверхностных семантических структур для представления каждого из выражений, образующих ввод, обеспечивая результаты частичного семантического анализа или объекты по мере поступления ввода. В отличие от систем, ожидающих, пока пользователь закончит фрагмент речи, а затем обрабатывающих полностью полученный ввод, модуль 14 непрерывно выдает семантические объекты, базируясь только на том, что получено на данный момент.
Машина 306 распознавания обеспечивает, по меньшей мере, один выходной поверхностный семантический объект на основании частичного фрагмента речи. В некоторых вариантах осуществления машина 306 распознавания способна обеспечивать несколько альтернативных поверхностных семантических объектов для каждой альтернативной структуры.
Хотя согласно фиг.7 предусмотрен речевой ввод, настоящее изобретение можно использовать с распознаванием рукописного ввода, распознаванием жестов или графическими интерфейсами пользователя (предусматривающим взаимодействие с пользователем посредством клавиатуры или другого устройства ввода). В этих других вариантах осуществления распознаватель 306 речи заменен соответствующей машиной распознавания, известной из уровня техники. Для графических интерфейсов пользователя грамматика (имеющая языковую модель) связана с пользовательским вводом, например, через окно ввода. Соответственно, ввод пользователя обрабатывается соответствующим образом без значительной модификации в зависимости от способа ввода.
Рассмотренный выше интерактивный диалог, который также включает в себя другие формы информативной обратной связи, осуществляемой системой 10 на основании результатов частичного семантического анализа или объектов, можно реализовать с использованием SALT [тэги языка речевого приложения] или иных API (программных интерфейсов приложения) распознавания речи, рукописного ввода и образов, которые поддерживают конструкцию языковой модели, которая может обеспечить языковую информацию на основании выбранной схемы для данного приложения и синхронное декодирование семантических объектов. SALT - это развивающийся стандарт для обеспечения доступа к информации, приложениям и веб-услугам со стороны, например, персональных компьютеров, телефонов, планшетных ПК и беспроводных мобильных устройств, но может также применяться к интерфейсам приложений без соединения посредством сети. SALT расширяет существующие языки разметки, например, HTML, XHTML и XML. Техническое описание SALT 1.0 можно найти в Интернет по адресу http://www.SALTforum.org. Заметим, что SALT может обеспечивать семантическую информацию на основании ввода пользователя, например, от сервера 204, причем такая информация формирует объекты, передаваемые модулю 16 представления данных по завершении фрагмента речи; однако, как дополнительно рассмотрено ниже, SALT можно использовать так, как не было предусмотрено ранее, для обеспечения частичных семантических анализов или объектов. Использование расширений SALT или аналогичных расширений в других API обеспечивает поддержку взаимодействия с пользователем, инициируемого высокоинтерактивными событиями.
Используя SALT, например, объект «listen» SALT можно использовать для выполнения как распознавания речи, так и заданий понимания. Дело в том, что конструкция соответствует точке зрения и формулировке, согласно которым понимание речи рассматривается как задача распознавания образов, наподобие распознавания речи. И там, и там нужно найти образ из совокупности возможных исходов, которые наилучшим образом совпадают с данным речевым сигналом. Для распознавания речи искомый образ представляет собой строку слов, а для понимания - дерево семантических объектов. Традиционное задание распознавания речи инструктирует процесс поиска с помощью языковой модели при составлении правдоподобных строк слов. Аналогичным образом, задание понимания речи может управлять той же машиной поиска для составления подходящих деревьев семантических объектов с помощью семантической модели. Наподобие языковой модели, которая часто предусматривает лексикон и правила составления сегментов выражения из элементов лексикона, семантическая модель предусматривает словарь всех семантических объектов и правила их составления. В то время как исходом распознавания является строка текста, результатом понимания является дерево семантических объектов.
Хотя для возвращения (получения) структурированного исхода поиска можно расширить N-грамму, наиболее типичные приложения понимания речи базируются на вероятностной контекстно-свободной грамматике (PCFG), где разработчики могут задавать правила составления семантических объектов без массивных обучающих данных, аннотированных банком дерева. Один способ задания таких правил состоит в связывании каждого правила PCFG с директивами создания для каждой поисковой машины относительно того, как преобразовывать дерево частичных анализов PCFG в дерево семантических объектов. Ниже приведен пример, записанный в формате программного интерфейса речевых приложений Microsoft (SAPI) (который также является примером речевого API, который можно использовать в настоящем изобретении).
<rule name=”nyc”>
<list>
<phrase>Нью-Йорк ?город</phrase>
<phrase>?большого яблока</phrase>
</list>
<output>
<city_location>
<city>Нью-Йорк</city>
<state>Нью-Йорк</state>
<country>США</country>
</city_location>
</output>
</rule>
<rule name=”NewMeeting”>
<ruleref min=”0” name=”CarrierPhrase”/>
<ruleref max=”inf” name=”ApptProperty”/>
<output>
<NewMeeting>
<DateTime>
<xsl:apply-templates select=”//Date”/>
<xsl:apply-templates select=”//Time”/>
<xsl:apply-templates select=”//Duration”/>
</DateTime>
<Invitees>
<xsl:apply-templates select=”//Person”/>
</Invitees>
….
</NewMeeting>
</output>
</rule>
<rule name=”ApptProperty”/>
<list>
<ruleref name=”Date”/>
<ruleref name=”Duration”/>
<ruleref name=”Person” max=”inf”/>
<ruleref name=”ApptSubject”/>
….
</list>
</rule>
….
Сегмент грамматики содержит три правила. В первом, пре-терминале, названном “nyc”, перечислены выражения для города Нью-Йорк. Тэги <output> в этом примере охватывают правила построения семантических объектов. Они вызываются, когда путь поиска выходит из грамматического узла, обозначенного маркером, непосредственно предшествующим ему. В данном случае создается семантический объект, представленный элементом <city_location> в XML, когда путь поиска выходит из правила “nyc”. Этот семантический объект, в свою очередь, состоит из трех семантических объектов: название города, аббревиатуры штата и страны соответственно.
Составление семантических объектов также может быть динамическим процессом, например, при планировании новой встречи. Например, когда пользователь заканчивает задавать свойства встречи, например дату, время, продолжительность и участников, создается семантический объект NewMeeting. Для вставки в семантический объект NewMeeting других семантических объектов в качестве его составляющих можно использовать шаблоны. Тот же принцип можно также применять к другим правилам, которые здесь не показаны. Например, фрагмент речи «запланировать встречу с Ли Денгом и Алексом Акеро на первое января в течение одного часа» даст следующий семантический объект:
<NewMeeting>
<DateTime>
<Date>01/01/2003</Date>
<Duration>3600</Duration>
</DateTime>
<Invitees>
<Person>Ли Денг</Person>
<Person>Алекс Акеро</Person>
</Invitees>
</NewMeeting>
В реальных приложениях усовершенствование покрытия PCFG является серьезной задачей. Поэтому желательно иметь возможность использовать N-грамму для моделирования, помимо прочего, функциональных выражений, которые не несут существенной семантической информации, но обычно имеют значительные вариации в синтаксической структуре (например, «Могу ли я…», «Можете Вы мне показать…», «Пожалуйста, покажите мне…»). В одном варианте осуществления языковая модель 310 содержит семантическую языковую модель, которая объединяет PCFG с N-граммой. Техника слегка отличается от универсальной языковой модели, которую также можно использовать. Универсальная языковая модель является естественным расширением до традиционной N-граммы классов, за исключением того, что она позволяет моделировать в качестве отдельного маркера N-граммы не просто список слов, а фрагменты CFG (контекстно-свободной грамматики). Распознаватель 306, использующий эту модель, по-прежнему создает строку текста, подлежащую дальнейшему анализу. Таким образом, универсальная языковая модель предназначена для привлечения определенной лингвистической структуры для помощи в транскрибировании текста.
С другой стороны, семантическая языковая модель нацелена на использование декодера или распознавателя для поиска семантической структуры, которая обычно лучше воспринимается посредством PCFG. Поэтому вместо внедрения фрагментов CFG в N-грамму используется PCFG, чтобы вместить N-грамму благодаря созданию особого пре-терминала PCFG, который соответствует нужной N-грамме. В формате грамматики SAPI Microsoft ее можно обозначить с использованием пре-терминала с тэгом <dictation> XML, например, так:
LCFG <dictation max=”inf”/> RCFG,
где LCFG и RCFG обозначают левый и правый контекст внедренной N-граммы соответственно. Процесс поиска обрабатывает тэг <dictation> как маркер и расширяет в N-грамму, как при вводе регулярного не-терминала. Атрибут «max» в тэге задает максимальное количество слов, которые может потребить N-грамма. Внутри этой N-граммы вероятность строки слов вычисляется путем интерполяции отката N-граммы с PCFG, а именно
Figure 00000001
(1)
где λ - это вес интерполяции N-граммы, и P(RCFG|wn-1,…) использует вероятность отката N-граммы, т.е. wn обрабатывается, как если бы оно было несловарным словом. Согласно одному варианту осуществления член P(wn|RCFG) допускает только двоичное значение, зависящее от того, достигнут ли максимальный размер слова N-граммы, и находится ли слово в области покрытия фрагмента CFG. Поскольку слова, извлеченные из PCFG, часто имеют более высокую вероятность, пути, которые действительно должны быть покрыты CFG, имеют тенденцию к преобладанию над своими аналогами в N-грамме, даже если максимальный счет слов N-граммы установлен равным бесконечности. Помимо функциональных выражений внедренную N-грамму можно также использовать для моделирования семантических объектов с диктационноподобным свойством. Например, в нашей задаче предмет встречи - это модель наподобие
<rule name=”ApptSubject”>
<p> <dictation max=”inf”/> </p>
Дополнительные детали, касающиеся семантической языковой модели, описаны в статье К. Ванга (K. Wang) «Семантическое моделирование для диалоговых систем в структуре распознавания образов» (“Semantic modeling for dialog systems in a pattern recognition framework”) в Proc. ASRU-2001, Тренто, Италия 2001 г., которая полностью включена сюда посредством ссылки.
Еще один аспект настоящего изобретения включает в себя новое использование объекта «listen» SALT. SALT обеспечивает набор элементов XML, с которыми связаны атрибуты, а также свойства, события и методы объектов DOM (Document Object Model), которые можно использовать в сочетании с исходным документом разметки для применения речевого интерфейса к исходной странице. В общем случае, главные элементы включают в себя:
<prompt …> для настройки синтеза речи и воспроизведения приглашения
<listen …> для настройки распознавателя речи, выполнения и последующей обработки распознавания и для записи
<dtmf …> для настройки и управления ДЧМТН
<smex …> для связи общего назначения с компонентами платформы
Объекты «listen» и «dtmf» также содержат средства управления грамматики и связывания:
<grammar …> для задания входных грамматических ресурсов
<bind …> для обработки результатов распознавания
Элемент «listen» может включать в себя атрибут “mode” (режим), позволяющий различать три режима распознавания и предписывающий серверу распознавания (например, 204), как и когда возвращать результаты. Возвращение результатов предусматривает обеспечение события “onReco” или активацию элементов “bind” (связывания) по мере необходимости.
В первом режиме - “automatic” (автоматическом) - речевая платформа, а не приложение, определяет, когда останавливать процесс распознавания. Этот режим полезен для телефонии или сценариев, не предусматривающих использование рук. По получении результата распознавания и/или по истечении периода времени, указывающего молчание, речевая платформа автоматически останавливает распознаватель и возвращает его результат, который затем можно связать с соответствующим полем посредством элемента «bind».
Во втором режиме работы - “single” (однократном) - возвращение результата распознавания осуществляется под управлением явного вызова “stop” («остановка»). Вызов “stop” соответствует событию, например, “pen-up” («отрыв пера») со стороны пользователя, и этот режим полезен для использования в мультимодальной среде, где устройство допускает речевой ввод, но пользователь обычно получает предписания, когда и какие поля выбирать, например, с помощью пера 33 (фиг.1).
Третий режим работы распознавателя речи - это «multiple mode» («многократный режим»). Этот режим работы используется для сценария “open-microphone” («открытый микрофон») или диктования. Обычно, в этом режиме работы результаты распознавания возвращаются с интервалами, пока не будет получен явный вызов “stop” или не истекут те или иные периоды времени, связанные с нераспознанным вводом или максимальным временем прослушивания. Обычно, в этом режиме работы для каждого распознанного выражения создается событие “onReco” и результат возвращается, пока не будет принят вызов stop ().
Однако этот режим работы в качестве другого аспекта настоящего изобретения может предоставлять машинам поиска средство демонстрации пользователям возможностей более интенсивного взаимодействия, позволяя им сообщать сразу же по достижении лингвистического «ориентира» молчания. В этом режиме можно непосредственно использовать общеизвестные алгоритмы поиска, основанные на синхронном декодировании. Один такой алгоритм описан в статье Х. Нея и С. Ортманса (H. Ney, S. Ortmanns) «Динамическое программирование поиска для непрерывного распознавания речи» (“Dynamic programming search for continuous speech recognition”), IEEE Signal Processing Magazine, стр.64-83, 1999 г. Для распознавания речи лингвистический ориентир обычно соответствует границе слова или выражения. Поэтому распознавание в режиме “multiple” SALT можно использовать для динамического отображения гипотез строк слов по мере их поступления, эффекта ПИ (пользовательского интерфейса), обычно наблюдаемого во многих коммерческих программах диктования. Однако согласно настоящему изобретению в «многократном» режиме экземпляры семантических объектов можно обрабатывать как лингвистические ориентиры и сообщать, т.е. обеспечивать некий ответ на них в зависимости от того, что было понято, обратно приложению также в динамическом режиме. Для разработчика приложения это выглядит, как если бы SALT осуществлял синхронное понимание семантического объекта.
Этот режим работы можно лучше понять, сравнив его с мультимодальным сценарием. В мультимодальном сценарии пользователь указывает поле, например, помещая и удерживая перо в поле ввода во время говорения. Хотя пользователь может ткнуть в общее поле и произнести законченную фразу, чтобы заполнить многие поля в одной фразе, тем не менее интерфейс «ткни и говори» предусматривает использование глаз и рук пользователя, что неприемлемо во многих ситуациях. Кроме того, хотя «ткни и говори» отличается насыщенной связью обратного канала, которая отображает громкость и индикатор выполнения обработки разговорного языка на более низком уровне, эти обратные связи обеспечивают очень примитивные подходы к качеству обработки разговорного языка в отношении скорости и точности. Это потенциально более проблематично для более длинных фраз, в которых ошибки могут распространяться в более широких пределах, что, в конце концов, затрудняет даже проверку и корректировку исходов распознавания и понимания. Поскольку исследования практичности, похоже, говорят о том, что длинные фразы являются фактором принципиального различия, который демонстрирует большую полезность речи по сравнению с расширением или альтернативой клавиатуры, для успешного использования речи в качестве жизнеспособной модальности абсолютно необходим удовлетворительный опыт использования ПИ.
Синхронное понимание семантических объектов путем сообщения частичных семантических анализов или объектов по мере их появления эффективно для развития восприятия человека и компьютера как тесно сотрудничающих партнеров, стремящихся к общей цели. В одном варианте осуществления, для этого используется «многократный» режим элемента “listen” в SALT. В частности, для элемента “listen” указывают «многократный» режим, а затем задают все грамматики распознавания для входной речи, подлежащей распознаванию. В объекте “listen” также задают присвоение результатов. Например, код ввода HTML для получения необходимой информации, как то: даты, времени, места, предмета и участников встречи и т.д., для создания новой встречи может выглядеть следующим образом:
<listen mode=”multiple”…>
<grammar src=”subject.grm”/>
<grammar src=”date.grm”/>
<grammar src=”time_duration.grm”/>
<grammar src=”attendees.grm”/>
<bind targetElement=”subject” value=”//ApptSubject”/>
<bind targetElement=”date” value=”//DateTime”/>
<bind targetElement=”start_time”
value=”//start_time”
targetElement=”end_time”
value=”//end_time”
targetElement=”duration”
value='//DateTime/duration”/>
</listen>
Множественные грамматики образуют пространство параллельного поиска для распознавания с нулевым переходом, возвращающим цикл к точке ввода. В этом режиме SALT позволяет объекту listen инициировать событие сразу же по выходу из грамматики. Событие «ответвляет» параллельный процесс, чтобы последовательно вызвать директивы связывания, пока продолжаются сбор и распознавание аудиоданных на более низком уровне, тем самым создавая для пользователя эффект, что соответствующие поля формы заполняются во время произнесения речевой команды, для приложения, которое имеет визуальное представление полей.
Для пользовательского интерфейса приложений, не предусматривающих использование зрения, могут быть желательны сопровождающие речевые выводы. В этом случае объекты «prompt» SALT можно использовать, чтобы обеспечивать промежуточные обратные связи. Например, следующий объект «prompt» SALT можно использовать, чтобы синтезировать ответ на основании динамического содержимого в поле даты, и синтез речи можно запускать с помощью следующих дополнительных директив «bind» SALT:
<prompt id=”say_date”>
в день <value targetElement=”date”/>
</prompt>
<listen …>
<bind targetElement=”date”
value=”//date”
targetElement=”say_date”
targetMethod=”Start”/>
</listen>
Конечный эффект состоит в том, что пользователь чувствует, что он говорит другой стороне, которая не только записывает, но и повторяет услышанное, как в «Запланировать встречу (новая встреча) на два часа (начинается в два часа дня) в следующий вторник (в день 10/29/02) в течение двух часов (продолжительность: два часа)», где выражения, обеспеченные в пояснениях, представляют звуковые и/или визуальные приглашения (которые также можно синхронизировать) обратно пользователю.
Заметим, что SALT позволяет разработчикам присоединять специализированные обработчики событий распознавания, которые выполняют усложненные вычисления помимо простых присвоений, например, с помощью директив «bind» SALT. В вышеприведенном примере нормализация даты может осуществляться в семантической грамматике, которая, однако, не может облегчить усовершенствованное разрешение ссылок (например, «Запланировать встречу с Ли Денгом и его начальником»). В этих случаях алгоритмы можно реализовать как объекты сценария, доступные соответствующим обработчикам событий, чтобы осуществлять доступ к сохраненным данным с целью уточнения неопределенных ссылок. Такие алгоритмы описаны в статье К. Ванга (K. Wang) «Диалоговая система на плановой основе с вероятностными интерфейсами» (“A plan based dialog system with probabilistic inferences”) в Proc. ICSLP-2000, Пекин, Китай, 2000 г. и в европейской патентной заявке ЕР 1199630А2, опубликованной 24 апреля 2002 г., которые полностью включены сюда посредством ссылки.
Заметим, что, хотя для объекта «listen» существовал многократный режим работы, в современных реализациях этот режим обеспечивает только текст для принятого ввода, например в сценарии диктования. Однако в этом аспекте настоящего изобретения частичные результаты по мере поступления ввода представляют собой не только текст, но также включают в себя соответствующую семантическую информацию, относящуюся к тексту, и таким образом выход содержит результаты частичного семантического анализа или объекты, которые можно использовать согласно описанному выше для предоставления пользователю более качественной обратной связи, что компьютер правильно понял, что получил. В зависимости от сложности приложения, принимающего результаты частичного семантического анализа или объекты, система может предоставлять обратно пользователю подтверждения, альтернативы, исправления и пояснения на основании принятых частичных семантических анализов.
Хотя известно, что мультимодальные приложения включают в себя множественные грамматики, позволяя пользователю свободно говорить и таким образом обеспечивают возможность предоставлять информацию, которая не была указана, возможно, лучше использовать элемент «listen» в многократном режиме работы, поскольку это предоставляет пользователю более высокое указание понимания. В только голосовом приложении генерируется естественная форма диалога, тогда как в случае использования визуальных представлений приложение может начинать обработку (осуществление действий, отображение внутренних результатов или опций, например, с помощью всплывающих окон) на основании только частичных семантических анализов того, что пользователь до сих пор предоставил, и в то время, как пользователь продолжает говорить.
Хотя настоящее изобретение описано применительно к частичным вариантам осуществления, специалисты в данной области могут предложить изменения, касающиеся формы и деталей, не выходя за пределы сущности и объема изобретения.

Claims (10)

1. Система понимания речи, содержащая
языковую модель, содержащую комбинацию языковой модели N-граммы и языковой модели контекстно-свободной грамматики, причем в языковой модели хранится информация, относящаяся к словам, и семантическая информация, подлежащая распознаванию,
модуль, адаптированный для приема вводимых данных пользователя и захвата упомянутых вводимых данных для обработки, причем этот модуль дополнительно адаптирован к приему интерфейсов прикладного программирования, использующих тэги языка речевого приложения (SALT), относящихся к распознаванию вводимых данных, при этом упомянутый модуль способен обрабатывать интерфейсы прикладного программирования SALT и вводимые данные для получения семантической информации, относящейся к первой части вводимых данных, и выводить семантический объект, содержащий текст и семантическую информацию для первой части, посредством обращения к языковой модели, причем операция распознавания и вывод семантического объекта осуществляются в то время, когда продолжается захват последующих частей вводимых данных.
2. Система по п.1, отличающаяся тем, что языковая модель содержит универсальную языковую модель.
3. Система по п.1, отличающаяся тем, что языковая модель содержит семантическую языковую модель.
4. Система по пп.1, 2 или 3, отличающаяся тем, что модуль адаптирован к идентификации объекта «listen» SALT в многократном режиме для осуществления операции распознавания и вывода семантического объекта в то время как продолжается захват последующих частей вводимых данных.
5. Система по п.4, отличающаяся тем, что модуль адаптирован для идентификации грамматических объектов для задания пространства поиска языковой модели.
6. Система по пп.1, 2 или 3, отличающаяся тем, что модуль адаптирован для идентификации грамматических объектов для задания пространства поиска языковой модели.
7. Считываемый компьютером носитель, содержащий команды, считываемые вычислительным устройством, выполнение которых приводит к тому, что вычислительное устройство обрабатывает информацию, выполняя этапы, на которых
принимают вводимые данные от пользователя и захватывают эти вводимые данные для обработки,
принимают интерфейсы прикладного программирования, использующие SALT (тэги языка речевого приложения), чтобы идентифицировать языковую модель для осуществления распознавания и понимания, причем языковая модель адаптирована для текста распознанных вводимых данных и семантической информации для принятых вводимых данных,
обрабатывают вводимые данные посредством обращения к языковой модели для осуществления распознавания в отношении вводимых данных, чтобы получить семантическую информацию, относящуюся к первой части вводимых данных, и вывода семантического объекта, содержащего текст распознанных вводимых данных и семантическую информацию для упомянутой первой части, причем выполнение распознавания и вывод семантического объекта осуществляют в то время, когда продолжается захват последующих частей вводимых данных.
8. Считываемый компьютером носитель по п.7, отличающийся тем, что обработка включает в себя идентификацию объекта «слушать» из SALT для настройки распознавания речи в «многократном» режиме для осуществления операции распознавания и вывода семантического объекта в то время, когда продолжается захват последующих частей вводимых данных.
9. Считываемый компьютером носитель по п.8, отличающийся тем, что прием интерфейсов прикладного программирования с SALT включает в себя идентификацию грамматических объектов для задания пространства поиска языковой модели.
10. Считываемый компьютером носитель по п.7, отличающийся тем, что прием интерфейсов прикладного программирования SALT включает в себя идентификацию грамматических объектов для задания пространства поиска языковой модели.
RU2004116304/09A 2003-05-29 2004-05-28 Синхронное понимание семантических объектов, реализованное с помощью тэгов речевого приложения RU2349969C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/448,018 US7200559B2 (en) 2003-05-29 2003-05-29 Semantic object synchronous understanding implemented with speech application language tags
US10/448,018 2003-05-29

Publications (2)

Publication Number Publication Date
RU2004116304A RU2004116304A (ru) 2005-11-10
RU2349969C2 true RU2349969C2 (ru) 2009-03-20

Family

ID=33131605

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2004116304/09A RU2349969C2 (ru) 2003-05-29 2004-05-28 Синхронное понимание семантических объектов, реализованное с помощью тэгов речевого приложения

Country Status (16)

Country Link
US (1) US7200559B2 (ru)
EP (2) EP1970897A1 (ru)
JP (1) JP4768970B2 (ru)
KR (1) KR101042119B1 (ru)
CN (1) CN100578614C (ru)
AT (1) ATE398325T1 (ru)
AU (1) AU2004201992B2 (ru)
BR (1) BRPI0401850B1 (ru)
CA (1) CA2467220C (ru)
DE (1) DE602004014316D1 (ru)
HK (1) HK1071466A1 (ru)
MX (1) MXPA04005122A (ru)
MY (1) MY142974A (ru)
RU (1) RU2349969C2 (ru)
TW (1) TWI376681B (ru)
ZA (1) ZA200403492B (ru)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2526758C2 (ru) * 2009-06-10 2014-08-27 Майкрософт Корпорейшн Коснитесь любого места, чтобы говорить
RU2648572C1 (ru) * 2017-01-12 2018-03-26 Общество с ограниченной ответственностью "Инвестиционная группа "Коперник" Алгоритм поиска в компьютерных системах и базах данных
RU2685392C1 (ru) * 2016-02-24 2019-04-17 ГУГЛ ЭлЭлСи Обеспечение автономной семантической обработки в устройстве с ограниченными ресурсами
RU2735363C1 (ru) * 2019-08-16 2020-10-30 Бейджин Сяоми Мобайл Софтвеа Ко., Лтд. Способ и устройство для обработки звука и носитель информации

Families Citing this family (245)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6630800A (en) * 1999-08-13 2001-03-13 Pixo, Inc. Methods and apparatuses for display and traversing of links in page character array
US8645137B2 (en) * 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US20110267263A1 (en) 2000-07-17 2011-11-03 Microsoft Corporation Changing input tolerances based on device movement
US7249018B2 (en) * 2001-01-12 2007-07-24 International Business Machines Corporation System and method for relating syntax and semantics for a conversational speech application
ITFI20010199A1 (it) * 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US20080313282A1 (en) 2002-09-10 2008-12-18 Warila Bruce W User interface, operating system and architecture
US7386449B2 (en) * 2002-12-11 2008-06-10 Voice Enabling Systems Technology Inc. Knowledge-based flexible natural speech dialogue system
US7426329B2 (en) 2003-03-06 2008-09-16 Microsoft Corporation Systems and methods for receiving, storing, and rendering digital video, music, and pictures on a personal media player
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
US7966188B2 (en) * 2003-05-20 2011-06-21 Nuance Communications, Inc. Method of enhancing voice interactions using visual messages
US8301436B2 (en) * 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
US7532196B2 (en) * 2003-10-30 2009-05-12 Microsoft Corporation Distributed sensing techniques for mobile devices
US7739117B2 (en) * 2004-09-20 2010-06-15 International Business Machines Corporation Method and system for voice-enabled autofill
US20060155530A1 (en) * 2004-12-14 2006-07-13 International Business Machines Corporation Method and apparatus for generation of text documents
TWI276046B (en) * 2005-02-18 2007-03-11 Delta Electronics Inc Distributed language processing system and method of transmitting medium information therefore
US20060247925A1 (en) * 2005-04-27 2006-11-02 International Business Machines Corporation Virtual push-to-talk
US20060277525A1 (en) * 2005-06-06 2006-12-07 Microsoft Corporation Lexical, grammatical, and semantic inference mechanisms
JP4733436B2 (ja) * 2005-06-07 2011-07-27 日本電信電話株式会社 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US7636794B2 (en) 2005-10-31 2009-12-22 Microsoft Corporation Distributed sensing techniques for mobile devices
US7817991B2 (en) * 2006-02-14 2010-10-19 Microsoft Corporation Dynamic interconnection of mobile devices
US7865357B2 (en) * 2006-03-14 2011-01-04 Microsoft Corporation Shareable filler model for grammar authoring
US7752152B2 (en) * 2006-03-17 2010-07-06 Microsoft Corporation Using predictive user models for language modeling on a personal device with user behavior models based on statistical modeling
US8032375B2 (en) * 2006-03-17 2011-10-04 Microsoft Corporation Using generic predictive models for slot values in language modeling
US20070239453A1 (en) * 2006-04-06 2007-10-11 Microsoft Corporation Augmenting context-free grammars with back-off grammars for processing out-of-grammar utterances
US7689420B2 (en) * 2006-04-06 2010-03-30 Microsoft Corporation Personalizing a context-free grammar using a dictation language model
US7505951B2 (en) * 2006-05-30 2009-03-17 Motorola, Inc. Hierarchical state machine generation for interaction management using goal specifications
US7797672B2 (en) * 2006-05-30 2010-09-14 Motorola, Inc. Statechart generation using frames
US7493293B2 (en) * 2006-05-31 2009-02-17 International Business Machines Corporation System and method for extracting entities of interest from text using n-gram models
US8140267B2 (en) * 2006-06-30 2012-03-20 International Business Machines Corporation System and method for identifying similar molecules
US8346555B2 (en) * 2006-08-22 2013-01-01 Nuance Communications, Inc. Automatic grammar tuning using statistical language model generation
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8024173B1 (en) 2006-09-11 2011-09-20 WordRake Holdings, LLC Computer processes for detecting and correcting writing problems associated with nominalizations
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US8515733B2 (en) * 2006-10-18 2013-08-20 Calculemus B.V. Method, device, computer program and computer program product for processing linguistic data in accordance with a formalized natural language
ES2302640B1 (es) * 2006-12-21 2009-05-21 Juan Jose Bermudez Perez Sistema para la interaccion mediante voz en paginas web.
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US7912828B2 (en) * 2007-02-23 2011-03-22 Apple Inc. Pattern searching methods and apparatuses
US8977255B2 (en) * 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
ITFI20070177A1 (it) 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
US8074199B2 (en) * 2007-09-24 2011-12-06 Microsoft Corporation Unified messaging state machine
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8364694B2 (en) 2007-10-26 2013-01-29 Apple Inc. Search assistant for digital media assets
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US8386260B2 (en) * 2007-12-31 2013-02-26 Motorola Mobility Llc Methods and apparatus for implementing distributed multi-modal applications
US8370160B2 (en) * 2007-12-31 2013-02-05 Motorola Mobility Llc Methods and apparatus for implementing distributed multi-modal applications
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8327272B2 (en) 2008-01-06 2012-12-04 Apple Inc. Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US20100082328A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for speech preprocessing in text to speech synthesis
US8352272B2 (en) * 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US8396714B2 (en) * 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8355919B2 (en) * 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8380507B2 (en) * 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US9189472B2 (en) 2009-03-30 2015-11-17 Touchtype Limited System and method for inputting text into small screen devices
US9424246B2 (en) 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
GB0917753D0 (en) 2009-10-09 2009-11-25 Touchtype Ltd System and method for inputting text into electronic devices
GB0905457D0 (en) 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
US10191654B2 (en) 2009-03-30 2019-01-29 Touchtype Limited System and method for inputting text into electronic devices
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110010179A1 (en) * 2009-07-13 2011-01-13 Naik Devang K Voice synthesis and processing
KR20110036385A (ko) * 2009-10-01 2011-04-07 삼성전자주식회사 사용자 의도 분석 장치 및 방법
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) * 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9104670B2 (en) 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
TWI423044B (zh) * 2010-10-25 2014-01-11 Univ Nat Taiwan Science Tech 基於普及運算的意見交流方法與系統
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US20120265784A1 (en) * 2011-04-15 2012-10-18 Microsoft Corporation Ordering semantic query formulation suggestions
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US20130204619A1 (en) * 2012-02-03 2013-08-08 Kextil, Llc Systems and methods for voice-guided operations
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9294539B2 (en) 2013-03-14 2016-03-22 Microsoft Technology Licensing, Llc Cooperative federation of digital devices via proxemics and device micro-mobility
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
CN110096712B (zh) 2013-03-15 2023-06-20 苹果公司 通过智能数字助理的用户培训
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN105144133B (zh) 2013-03-15 2020-11-20 苹果公司 对中断进行上下文相关处理
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
US9437186B1 (en) * 2013-06-19 2016-09-06 Amazon Technologies, Inc. Enhanced endpoint detection for speech recognition
US9123336B1 (en) * 2013-06-25 2015-09-01 Google Inc. Learning parsing rules and argument identification from crowdsourcing of proposed command inputs
US9026431B1 (en) * 2013-07-30 2015-05-05 Google Inc. Semantic parsing with multiple parsers
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US9495359B1 (en) * 2013-08-21 2016-11-15 Athena Ann Smyros Textual geographical location processing
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US8868409B1 (en) 2014-01-16 2014-10-21 Google Inc. Evaluating transcriptions with a semantic parser
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
WO2016044321A1 (en) 2014-09-16 2016-03-24 Min Tang Integration of domain information into state transitions of a finite state transducer for natural language processing
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
WO2016061309A1 (en) 2014-10-15 2016-04-21 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
GB201610984D0 (en) 2016-06-23 2016-08-10 Microsoft Technology Licensing Llc Suppression of input images
US10140260B2 (en) * 2016-07-15 2018-11-27 Sap Se Intelligent text reduction for graphical interface elements
US10503808B2 (en) 2016-07-15 2019-12-10 Sap Se Time user interface with intelligent text reduction
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
CN107665706B (zh) * 2016-07-29 2021-05-04 科大讯飞股份有限公司 快速语音交互方法及系统
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10311860B2 (en) * 2017-02-14 2019-06-04 Google Llc Language model biasing system
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
TWI640877B (zh) * 2017-06-14 2018-11-11 財團法人資訊工業策進會 語意分析裝置、方法及其電腦程式產品
US11037554B1 (en) * 2017-09-12 2021-06-15 Wells Fargo Bank, N.A. Network of domain knowledge based conversational agents
CN108010525A (zh) * 2017-12-07 2018-05-08 横琴七弦琴知识产权服务有限公司 一种语音控制智能抽屉系统
CN108133701B (zh) * 2017-12-25 2021-11-12 江苏木盟智能科技有限公司 一种机器人语音交互的系统与方法
CN109994105A (zh) * 2017-12-29 2019-07-09 宝马股份公司 信息输入方法、装置、系统、车辆以及可读存储介质
CN108831482A (zh) * 2018-08-24 2018-11-16 深圳市云采网络科技有限公司 一种基于语音识别搜索电子元器件的方法
US11430433B2 (en) 2019-05-05 2022-08-30 Microsoft Technology Licensing, Llc Meeting-adapted language model for speech recognition
CN110379428A (zh) * 2019-07-16 2019-10-25 维沃移动通信有限公司 一种信息处理方法及终端设备
CN113223510B (zh) * 2020-01-21 2022-09-20 青岛海尔电冰箱有限公司 冰箱及其设备语音交互方法、计算机可读存储介质

Family Cites Families (119)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2981254A (en) * 1957-11-12 1961-04-25 Edwin G Vanderbilt Apparatus for the gas deflation of an animal's stomach
US3657744A (en) * 1970-05-08 1972-04-25 Univ Minnesota Method for fixing prosthetic implants in a living body
US3788327A (en) * 1971-03-30 1974-01-29 H Donowitz Surgical implant device
US3874388A (en) * 1973-02-12 1975-04-01 Ochsner Med Found Alton Shunt defect closure system
US4014318A (en) * 1973-08-20 1977-03-29 Dockum James M Circulatory assist device and system
US4086665A (en) * 1976-12-16 1978-05-02 Thermo Electron Corporation Artificial blood conduit
US4212463A (en) * 1978-02-17 1980-07-15 Pratt Enoch B Humane bleeder arrow
DE3019996A1 (de) * 1980-05-24 1981-12-03 Institute für Textil- und Faserforschung Stuttgart, 7410 Reutlingen Hohlorgan
US4808183A (en) * 1980-06-03 1989-02-28 University Of Iowa Research Foundation Voice button prosthesis and method for installing same
EP0203124B1 (en) * 1984-11-15 1991-06-05 NAZARI, Stefano Device for selective bronchial intubation and separate lung ventilation
ES8705239A1 (es) * 1984-12-05 1987-05-01 Medinvent Sa Un dispositivo para implantar,mediante insercion en un lugarde dificil acceso, una protesis sustancialmente tubular y radialmente expandible
US4759758A (en) * 1984-12-07 1988-07-26 Shlomo Gabbay Prosthetic heart valve
US4831550A (en) * 1986-03-27 1989-05-16 International Business Machines Corporation Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events
US4832680A (en) * 1986-07-03 1989-05-23 C.R. Bard, Inc. Apparatus for hypodermically implanting a genitourinary prosthesis
US4795449A (en) * 1986-08-04 1989-01-03 Hollister Incorporated Female urinary incontinence device
US4852568A (en) * 1987-02-17 1989-08-01 Kensey Nash Corporation Method and apparatus for sealing an opening in tissue of a living being
DE3723078A1 (de) 1987-07-11 1989-01-19 Philips Patentverwaltung Verfahren zur erkennung von zusammenhaengend gesprochenen woertern
DE3821631A1 (de) * 1987-07-28 1989-02-09 Bader Paul Verschluss fuer eine maennliche harnroehre
DE3739681A1 (de) * 1987-11-24 1989-06-08 Philips Patentverwaltung Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens
US4830003A (en) * 1988-06-17 1989-05-16 Wolff Rodney G Compressive stent and delivery system
JP2710355B2 (ja) * 1988-09-20 1998-02-10 日本ゼオン株式会社 医用弁装置
US4846836A (en) * 1988-10-03 1989-07-11 Reich Jonathan D Artificial lower gastrointestinal valve
DE3834545A1 (de) * 1988-10-11 1990-04-12 Rau Guenter Flexibles schliessorgan, insbesondere herzklappe, und verfahren zur herstellung desselben
WO1990014804A1 (en) * 1989-05-31 1990-12-13 Baxter International Inc. Biological valvular prosthesis
US5263117A (en) 1989-10-26 1993-11-16 International Business Machines Corporation Method and apparatus for finding the best splits in a decision tree for a language model for a speech recognizer
US5411552A (en) * 1990-05-18 1995-05-02 Andersen; Henning R. Valve prothesis for implantation in the body and a catheter for implanting such valve prothesis
DK124690D0 (da) * 1990-05-18 1990-05-18 Henning Rud Andersen Klapprotes til implantering i kroppen for erstatning af naturlig klap samt kateter til brug ved implantering af en saadan klapprotese
US5193525A (en) * 1990-11-30 1993-03-16 Vision Sciences Antiglare tip in a sheath for an endoscope
US5116360A (en) * 1990-12-27 1992-05-26 Corvita Corporation Mesh composite graft
US5477451A (en) 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5123919A (en) * 1991-11-21 1992-06-23 Carbomedics, Inc. Combined prosthetic aortic heart valve and vascular graft
DE69324239T2 (de) * 1992-01-21 1999-11-04 Univ Minnesota Verschlusseinrichtung eines septumschadens
US5329887A (en) * 1992-04-03 1994-07-19 Vision Sciences, Incorporated Endoscope control assembly with removable control knob/brake assembly
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
US5382261A (en) * 1992-09-01 1995-01-17 Expandable Grafts Partnership Method and apparatus for occluding vessels
JP3378595B2 (ja) * 1992-09-30 2003-02-17 株式会社日立製作所 音声対話システムおよびその対話進行制御方法
US5409019A (en) * 1992-10-30 1995-04-25 Wilk; Peter J. Coronary artery by-pass method
US5419310A (en) * 1992-11-03 1995-05-30 Vision Sciences, Inc. Partially inflated protective endoscope sheath
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
US5306234A (en) * 1993-03-23 1994-04-26 Johnson W Dudley Method for closing an atrial appendage
US5447148A (en) * 1993-07-08 1995-09-05 Vision Sciences, Inc. Endoscopic contamination protection system to facilitate cleaning of endoscopes
EP0645757B1 (en) 1993-09-23 2000-04-05 Xerox Corporation Semantic co-occurrence filtering for speech recognition and signal transcription applications
US5615296A (en) * 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US5483951A (en) * 1994-02-25 1996-01-16 Vision-Sciences, Inc. Working channels for a disposable sheath for an endoscope
US5520607A (en) * 1994-03-04 1996-05-28 Vision Sciences, Inc. Holding tray and clamp assembly for an endoscopic sheath
US5499995C1 (en) * 1994-05-25 2002-03-12 Paul S Teirstein Body passageway closure apparatus and method of use
US5417226A (en) * 1994-06-09 1995-05-23 Juma; Saad Female anti-incontinence device
US5675819A (en) 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US5752052A (en) * 1994-06-24 1998-05-12 Microsoft Corporation Method and system for bootstrapping statistical processing into a rule-based natural language parser
US5755770A (en) * 1995-01-31 1998-05-26 Boston Scientific Corporatiion Endovascular aortic graft
US5689617A (en) 1995-03-14 1997-11-18 Apple Computer, Inc. Speech recognition system which returns recognition results as a reconstructed language model with attached data values
IT1279171B1 (it) * 1995-03-17 1997-12-04 Ist Trentino Di Cultura Sistema di riconoscimento di parlato continuo
DE29507519U1 (de) * 1995-05-05 1995-08-10 Angiomed Ag, 76227 Karlsruhe Endosphinkter und Set zum freigebbaren Verschließen der Urethra
US5710866A (en) * 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure
US5667476A (en) * 1995-06-05 1997-09-16 Vision-Sciences, Inc. Endoscope articulation system to reduce effort during articulation of an endoscope
US5680511A (en) 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
US5645565A (en) * 1995-06-13 1997-07-08 Ethicon Endo-Surgery, Inc. Surgical plug
ATE515237T1 (de) * 1995-10-13 2011-07-15 Medtronic Vascular Inc Vorrichtung und system bei einem interstitiellen transvaskulären eingriff
JPH09114488A (ja) * 1995-10-16 1997-05-02 Sony Corp 音声認識装置,音声認識方法,ナビゲーション装置,ナビゲート方法及び自動車
CA2203132C (en) * 1995-11-04 2004-11-16 Upali Bandara Method and apparatus for adapting the language model's size in a speech recognition system
US6567778B1 (en) * 1995-12-21 2003-05-20 Nuance Communications Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores
US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
US5937384A (en) 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
DE69732104T2 (de) * 1996-05-20 2005-12-08 Medtronic Percusurge, Inc., Sunnyvale Katheterventil mit niedrigem profil
EP0808614B1 (en) * 1996-05-23 2003-02-26 Samsung Electronics Co., Ltd. Flexible self-expandable stent and method for making the same
US5835888A (en) 1996-06-10 1998-11-10 International Business Machines Corporation Statistical language model for inflected languages
KR980000327U (ko) * 1996-06-13 1998-03-30 이정행 귀걸이 설치용 귀걸이홀 성형구
US5855601A (en) * 1996-06-21 1999-01-05 The Trustees Of Columbia University In The City Of New York Artificial heart valve and method and device for implanting the same
US5963903A (en) 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
US5685822A (en) * 1996-08-08 1997-11-11 Vision-Sciences, Inc. Endoscope with sheath retaining device
US5782916A (en) * 1996-08-13 1998-07-21 Galt Laboratories, Inc. Device for maintaining urinary continence
JPH1097280A (ja) * 1996-09-19 1998-04-14 Hitachi Ltd 音声画像認識翻訳装置
US5819220A (en) 1996-09-30 1998-10-06 Hewlett-Packard Company Web triggered word set boosting for speech interfaces to the world wide web
US5905972A (en) * 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
US5829000A (en) 1996-10-31 1998-10-27 Microsoft Corporation Method and system for correcting misrecognized spoken words or phrases
GB9701866D0 (en) 1997-01-30 1997-03-19 British Telecomm Information retrieval
DE19708183A1 (de) 1997-02-28 1998-09-03 Philips Patentverwaltung Verfahren zur Spracherkennung mit Sprachmodellanpassung
US6083255A (en) * 1997-04-07 2000-07-04 Broncus Technologies, Inc. Bronchial stenter
US6200333B1 (en) * 1997-04-07 2001-03-13 Broncus Technologies, Inc. Bronchial stenter
US6245102B1 (en) * 1997-05-07 2001-06-12 Iowa-India Investments Company Ltd. Stent, stent graft and stent valve
US5855597A (en) * 1997-05-07 1999-01-05 Iowa-India Investments Co. Limited Stent valve and stent graft for percutaneous surgery
US6073091A (en) * 1997-08-06 2000-06-06 International Business Machines Corporation Apparatus and method for forming a filtered inflected language model for automatic speech recognition
US5954766A (en) * 1997-09-16 1999-09-21 Zadno-Azizi; Gholam-Reza Body fluid flow control device
US6154722A (en) 1997-12-18 2000-11-28 Apple Computer, Inc. Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
DE59812219D1 (de) * 1998-03-04 2004-12-09 Schneider Europ Gmbh Buelach Vorrichtung zum Einführen einer Endoprothese in einen Katheterschaft
US6182039B1 (en) * 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6141641A (en) 1998-04-15 2000-10-31 Microsoft Corporation Dynamically configurable acoustic model for speech recognition system
US6009614A (en) * 1998-04-21 2000-01-04 Advanced Cardiovascular Systems, Inc. Stent crimping tool and method of use
US5974652A (en) * 1998-05-05 1999-11-02 Advanced Cardiovascular Systems, Inc. Method and apparatus for uniformly crimping a stent onto a catheter
US6174323B1 (en) * 1998-06-05 2001-01-16 Broncus Technologies, Inc. Method and assembly for lung volume reduction
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
US6174280B1 (en) * 1998-11-19 2001-01-16 Vision Sciences, Inc. Sheath for protecting and altering the bending characteristics of a flexible endoscope
US6020380A (en) * 1998-11-25 2000-02-01 Tap Holdings Inc. Method of treating chronic obstructive pulmonary disease
US6051022A (en) * 1998-12-30 2000-04-18 St. Jude Medical, Inc. Bileaflet valve having non-parallel pivot axes
US6530881B1 (en) * 1999-01-21 2003-03-11 Vision Sciences, Inc. Sheath apparatus for endoscopes and methods for forming same
US6350231B1 (en) * 1999-01-21 2002-02-26 Vision Sciences, Inc. Apparatus and method for forming thin-walled elastic components from an elastomeric material
US6081799A (en) * 1999-05-05 2000-06-27 International Business Machines Corporation Executing complex SQL queries using index screening for conjunct or disjunct index operations
US6206918B1 (en) * 1999-05-12 2001-03-27 Sulzer Carbomedics Inc. Heart valve prosthesis having a pivot design for improving flow characteristics
US6234996B1 (en) * 1999-06-23 2001-05-22 Percusurge, Inc. Integrated inflation/deflation device and method
US6287290B1 (en) * 1999-07-02 2001-09-11 Pulmonx Methods, systems, and kits for lung volume reduction
US6712812B2 (en) * 1999-08-05 2004-03-30 Broncus Technologies, Inc. Devices for creating collateral channels
US6190330B1 (en) * 1999-08-09 2001-02-20 Vision-Sciences, Inc. Endoscopic location and vacuum assembly and method
US6416554B1 (en) * 1999-08-24 2002-07-09 Spiration, Inc. Lung reduction apparatus and method
US6293951B1 (en) * 1999-08-24 2001-09-25 Spiration, Inc. Lung reduction device, system, and method
US6402754B1 (en) * 1999-10-20 2002-06-11 Spiration, Inc. Apparatus for expanding the thorax
US6398775B1 (en) * 1999-10-21 2002-06-04 Pulmonx Apparatus and method for isolated lung access
US6510846B1 (en) * 1999-12-23 2003-01-28 O'rourke Sam Sealed back pressure breathing device
US6865528B1 (en) * 2000-06-01 2005-03-08 Microsoft Corporation Use of a unified language model
AU2001275974A1 (en) * 2000-07-19 2002-01-30 University Of Florida Method for treating chronic obstructive pulmonary disorder
TW472232B (en) * 2000-08-11 2002-01-11 Ind Tech Res Inst Probability-base fault-tolerance natural language understanding method
US6785651B1 (en) 2000-09-14 2004-08-31 Microsoft Corporation Method and apparatus for performing plan-based dialog
US6527761B1 (en) * 2000-10-27 2003-03-04 Pulmonx, Inc. Methods and devices for obstructing and aspirating lung tissue segments
JP2004530982A (ja) * 2001-05-04 2004-10-07 ユニシス コーポレーション Webサーバからの音声アプリケーション情報の動的な生成
JP4602602B2 (ja) * 2001-07-19 2010-12-22 オリンパス株式会社 医療器具
US20030018327A1 (en) * 2001-07-20 2003-01-23 Csaba Truckai Systems and techniques for lung volume reduction
JP4094255B2 (ja) * 2001-07-27 2008-06-04 日本電気株式会社 コマンド入力機能つきディクテーション装置
US20030050648A1 (en) * 2001-09-11 2003-03-13 Spiration, Inc. Removable lung reduction devices, systems, and methods
US6592594B2 (en) * 2001-10-25 2003-07-15 Spiration, Inc. Bronchial obstruction device deployment system and method
JP4000828B2 (ja) * 2001-11-06 2007-10-31 株式会社デンソー 情報システム、電子機器、プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2526758C2 (ru) * 2009-06-10 2014-08-27 Майкрософт Корпорейшн Коснитесь любого места, чтобы говорить
RU2685392C1 (ru) * 2016-02-24 2019-04-17 ГУГЛ ЭлЭлСи Обеспечение автономной семантической обработки в устройстве с ограниченными ресурсами
RU2648572C1 (ru) * 2017-01-12 2018-03-26 Общество с ограниченной ответственностью "Инвестиционная группа "Коперник" Алгоритм поиска в компьютерных системах и базах данных
RU2735363C1 (ru) * 2019-08-16 2020-10-30 Бейджин Сяоми Мобайл Софтвеа Ко., Лтд. Способ и устройство для обработки звука и носитель информации
US11264027B2 (en) 2019-08-16 2022-03-01 Beijing Xiaomi Mobile Software Co., Ltd. Method and apparatus for determining target audio data during application waking-up

Also Published As

Publication number Publication date
ATE398325T1 (de) 2008-07-15
AU2004201992A1 (en) 2004-12-16
EP1482481B1 (en) 2008-06-11
JP2004355630A (ja) 2004-12-16
RU2004116304A (ru) 2005-11-10
DE602004014316D1 (de) 2008-07-24
EP1970897A1 (en) 2008-09-17
KR101042119B1 (ko) 2011-06-17
HK1071466A1 (en) 2005-07-15
MY142974A (en) 2011-01-31
TW200515369A (en) 2005-05-01
US20040243393A1 (en) 2004-12-02
MXPA04005122A (es) 2005-02-17
US7200559B2 (en) 2007-04-03
AU2004201992B2 (en) 2009-10-22
BRPI0401850A (pt) 2005-03-08
CN1573928A (zh) 2005-02-02
KR20040103445A (ko) 2004-12-08
CA2467220A1 (en) 2004-11-29
EP1482481A1 (en) 2004-12-01
TWI376681B (en) 2012-11-11
JP4768970B2 (ja) 2011-09-07
BRPI0401850B1 (pt) 2018-09-11
CN100578614C (zh) 2010-01-06
ZA200403492B (en) 2006-04-26
CA2467220C (en) 2014-07-08

Similar Documents

Publication Publication Date Title
RU2349969C2 (ru) Синхронное понимание семантических объектов, реализованное с помощью тэгов речевого приложения
RU2352979C2 (ru) Синхронное понимание семантических объектов для высокоинтерактивного интерфейса
US8086463B2 (en) Dynamically generating a vocal help prompt in a multimodal application
US7873523B2 (en) Computer implemented method of analyzing recognition results between a user and an interactive application utilizing inferred values instead of transcribed speech
US9349367B2 (en) Records disambiguation in a multimodal application operating on a multimodal device
JP2009059378A (ja) ダイアログを目的とするアプリケーション抽象化のための記録媒体及び方法
US20030200080A1 (en) Web server controls for web enabled recognition and/or audible prompting
US20070006082A1 (en) Speech application instrumentation and logging
JP2005149485A (ja) 逐次的なマルチモーダル入力

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20130529