MX2007013017A - Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes. - Google Patents

Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes.

Info

Publication number
MX2007013017A
MX2007013017A MX2007013017A MX2007013017A MX2007013017A MX 2007013017 A MX2007013017 A MX 2007013017A MX 2007013017 A MX2007013017 A MX 2007013017A MX 2007013017 A MX2007013017 A MX 2007013017A MX 2007013017 A MX2007013017 A MX 2007013017A
Authority
MX
Mexico
Prior art keywords
asr
grammar
client
voice
server
Prior art date
Application number
MX2007013017A
Other languages
English (en)
Inventor
Pamela Leigh Dragosh
David Bjorn Roe
Robert Douglas Sharp
Original Assignee
At & T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by At & T Corp filed Critical At & T Corp
Publication of MX2007013017A publication Critical patent/MX2007013017A/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M7/00Arrangements for interconnection between switching centres
    • H04M7/006Networks other than PSTN/ISDN providing telephone service, e.g. Voice over Internet Protocol (VoIP), including next generation networks with a packet-switched transport layer
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99948Application of database or data structure, e.g. distributed, multimedia, or image

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer And Data Communications (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Un sistema y método para operar un servicio de reconocimiento de voz automático que usa una arquitectura cliente-servidor se usa para hacer los servicios ASR accesibles a un cliente que se encuentra lejos de la localización de la máquina ASR principal. La presente invención utiliza las comunicaciones cliente-servidor sobre una red paquete, tal como la Internet, en donde el servidor ASR recibe una gramática del cliente, recibe información que representa la voz del cliente, efectúa el reconocimiento de la voz, y regresa información basada en la voz reconocida al cliente.

Description

METODO PARA OPERAR UN SERVICIO DE RECONOCIMIENTO AUTOMATICO DE VOZ ACCESIBLE EN FORMA REMOTA POR EL CLIENTE SOBRE UNA RED EN PAQUETES CAMPO TECNICO Esta invención se relaciona con el reconocimiento de voz en general y, de manera más particular, proporciona una maneta de proporcionar servicios de reconocimiento de voz automático accesibles remotamente vía una red paquete.
ANTECEDENTES DE LA INVENCION Las técnicas para lograr el reconocimiento de voz automático (ASR) son bien conocidas. Entre las técnicas ASR conocidas se encuentran aquellas que usan gramáticas. Una gramática es una representación del lenguaje o frases que se espera sean usadas o hablas en un contexto dado. En un sentido, entonces, las gramáticas ASR típicamente restringen el recorocedor de la voz en un vocabulario que es un subconjunto del universo de las palabras potenciálmente habladas,I y las gramáticas pueden incluir subgramáticas . Una regla de ¡gramática ASR puede entonces usarse para representar el conjunto de "frases" o combinaciones de palabras de una o más gramáticas o subgramáticas que pueden esperarse en un Ref: 187130 de la metodología de reconocimiento de voz automático ("ASR") han sido recientemente introducidos comercialmente . Por ejemplo, AT&T ha desarrollado una máquina ASR basada en una gramática llamada WATSON que permite el desarrollo de servicios ASR complejos. Los atributos deseables de los servicias ASR complejos que podrían utilizar tal tecnología ASR incluyen una alta exactitud en el reconocimiento; robusteá para permitir' el reconocimiento en donde los locutores tienen diferentes acentos o dialectos, y/o en I presencia de ruido de fondo; capacidad para manejar vocabularios grandes; y comprender el lenguaje natural. Para lograr ésos atributos para los servicios ASR complejos, las técnicas y máquinas ASR típicamente requieren sistemas a base de computadora que tengan una capacidad de procesamiento significativa para lograr la capacidad de reconocimiento de voz deseada. La capacidad de procesamiento como se usa aquí se refiere a la velocidad del procesador, memoria, espacio de ¦disco, así como al acceso de bases de datos de aplicación. Tales requerimientos han restringido el desarrollo de los serviciós ASR complejos que están disponibles en el escritorio de uno, debido a que los requerimientos de procesamiento exceden las capacidades de la mayoría de los sistemas! de escritorio, ios cuales se basan típicamente en la tecnología de la computadora personal (PC) . i Las redes paquetes son redes de datos de propósitj) general las cuales son muy adecuadas para enviar datos al†acenados de varios tipos, incluyendo voz o audio. La Internet,! la más grande y más renombrada de las redes de paquetes existentes, conecta más de 4 millones de computadoras en unos 140 países. El crecimiento global y exponencial de Internet es de conocimiento común hoy día. : Típicamente, uno tiene acceso a una red de paquetes,) tal como la Internet, a través de un programa de cliente que se ejecuta en una computadora, tal como una PC, y de este | modo las redes paquetes restan inherentemente orientadas al cliente/servidor. Una manera de tener acceso a í ia inforidación sobre una red paquete es a través del uso j de un explorador u hojeador de la red (tal como el Netscape Navigator!, disponible de Netscape Communications, Inc., y el Internet 'Explorer, disponible de Microsoft Corp.) el cual permite a un cliente interactuar con los servidores de la red. Los ¡servidores de la red y la información disponible en ella son ¡identificados típicamente y tratados a través de un Localizador de Recursos Uniforme (URL) - de dirección i compatible. El direccionamiento URL es ampliamente usado en aplicaciones de Internet e intranet y es bien conocido por í aqueilosi expertos en la técnica (un "intranet" es una red paquete ' modelada en f ncionalidad basada en la Internet y se usa, por, ejemplo, por compañías local o internamente) . Lo que se desea es una manera de permitir que los serviciois ASR puedan ser disponibles a un usuario en un lugar, tal como en su escritorio, es decir remotos del sistema ¡que aloja la máquina ASR.
BREVE DESCRIPCION DE LA ?E¡VENC?QE3 Se usa un sistema y método de operación de un servicio de reconocimiento de voz automático que usa una i arquitectura cliente-servidor para hacer los servicios ASR accesibles a un cliente que se localiza lejos del lugar de la máquina ASR principal. De acuerdo con la presente invención, usando comunicaciones cliente-servidor sobre una red de paquetes, tal como la Internet, el servidor ASR recibe una gramátiqa del cliente, recibe información que representa la voz del cliente, efectúa el reconocimiento de voz, y regresa la información basada en la voz reconocida al cliente. Las modalidajdes alternativas de la presente incluyen una variedad de maneras para tener acceso a la gramática deseada, el uso de la compresión o extracción de características como un paso de procesamiento en el cliente ASR antes de transferir la información hablada al servidor ASR, estableciendo un diálogo entre eli cliente y el servidor, y operando un servicio de llenado de forma.
BREVE DESCRIPCION DE LOS DIBUJOS La FIGURA 1 es un diagrama que muestra una relación cliente-servidor de un sistema que proporciona servicios ASR remotos de acuerdo con la presente invención. La FIGURA 2 es un diagrama que muestra un proceso de instalación para permitir los servicios de ASR remotos de acuerdo con la presente invención. La FIGURA 3 es un diagrama que muestra un proceso de instalación alternativo para permitir los servicios de ASR remotos de acuerdo con la presente invención. La FIGURA 4 es un diagrama que muestra un proceso para reglamentar la selección de acuerdo con la presente invención. La FIGURA 5 es un diagrama que muestra un proceso para permitir el reconocimiento de voz automático remoto de acuerdo cpn la presente invención. La FIGURA 6 es un diagrama que muestra un proceso alternativo para permitir el reconocimiento de voz automático remoto de' acuerdo con la presente invención.
La FIGURA 7 es un diagrama que muestra otro proceso alternativo para permitir el reconocimiento de voz automático remoto eje acuerdo con la presente invención. i DESCRIPCION DETALLADA DE XA INVENCION i La presente invención está dirigida a un sistema basado én la arquitectura cliente-servidor para proporcionar serviciqs ASR disponibles remotamente. De acuerdo con la i presente; invención, los servicios ASR pueden ser proporcionados a un usuario -- por ejemplo, en el escritorio del usuario-- sobre una red paquete ', tal como la Internet!, si la necesidad de que el usuario obtenga equipo de cómputo í que tenga la capacidad de procesamiento extensiva requerida para ejecutar todas las técnicas ASR. Una arquitectura cliente-servidor básica usada de acuerdo 'con la presente invención se muestra en la FIGURA 1. Un servidor ASR 100 es una máquina con programas y sistemas de programación ASR, los cuales se ejecutan en un sistema, denotado; como nodo del servidor 110, que puede ligarse a través de la red de paquetes 120 (tal como la Internet) a otras computadoras. El nodo del servidor 110 puede ser típicamente una computadora que tenga capacidad de procesamliento suficiente para ejecutar aplicaciones a base de ASR complejas, tales como el sistema WATSON de AT&T . La red paquete 120 puede, de manera ilustrativa, ser la Internet o una intranet. El cliente ASR 130 es un programa relativamente pequeño '(cuando se compara con el servidor ASR 100) que se ejecuta en la PC del cliente 140. La PC del cliente 140 es una computadora, tal como una computadora personal (PC) , que tiene suficiente capacidad de procesamiento para ejecutar aplicacicnes de cliente, tales como un Examinador u hojeador de la red. La PC del cliente incluye componentes físicos de computación, tales como un micrófono, y programas y sistemas de programación para la entrada y captura de sonidos de audio, tales como la voz. Los métodos para conectar I micrófonos a una PC y capturar sonidos de audio, tales como la voz, 1 en la PC son bien conocidos. Los ejemplos de capacidades de manejo de voz para PC incluyen Interfase de Programador de Aplicación de Voz (SAPI) de Microsoft y la Interfase ; de Programador de Aplicación de Voz Avanzada de AT&T (ASAPI) . Los detalles de la SAPI de Microsoft se encuentran en, por ejemplo, una publicación titulada "Speech API Developers Guide, Windows 95 Edition", Versión 1.0, Microsoft Corporation (1995), y los detalles de la ASAPI de AT&T se proporcionan en una publicación titulada "Advanced Speech API Developers Guide", Versión 1.0, AT&T Corporation (1996); cada una de esas publicaciones se incorpora aquí como referencia. Una modalidad alternativa de la presente ínvenciqn puede utilizar una interfase entre el cliente ASR 130 y unjo o más canales de voz, de modo que la entrada de voz pueda se¡r proporcionada por otras fuentes de audio diferentes a un mic|rófono. La PC del cliente 140 también tiene la capacidad de comunicarse con otras computadoras sobre una red paquete (tal comjo la Internet) . Los métodos para establecer un enlace i de comunicaciones con otras computadoras sobre una red paquete : (tal como la Internet) son bien conocidos e incluyen> por ejemplo, el uso de un módem para marcar a un proveedor de servicios de Internet sobre una linea i i telefónica . 1 El servidor ASR 100, a través del nodo del servidor 110, y el cliente ASR 130, a través de la PC del cliente 140, pueden comunicarse con otro sobre la red de paquetes 120 usando métodos conocidos adecuados para comunicar información (incluyendo la transmisión de datos) sobre una red de paquetes ¡ usando, por ejemplo, un protocolo de comunicaciones estándar tal como el Protocolo de control de Transmisión/Protocolo de Internet (TCP/IP) . Una conexión TCP/IP es análoga a una "tubería" a través de la cual la información puede ser transmitida sobre la red paquete de un punto a otro. El establecimiento de una conexión TCP/IP entre el servidor 1 ASR 100 y el cliente ASR 130 permitirá la .r; ..sfeijencia de datos entre ei servidor ASR 100 y el cliente ASR 130 ¡sobre la red paquete 120 necesaria para permitir les servicios ASR de acuerdo con la presente invención. El i :iiente I ASR 130 también se interconecta con capacidades de entrada |y salida de audio/voz y capacidades de despliegue de textos/gráficas de la PC del cliente 140. Los métodos e ínter fas es para manejar la entrada y salida de audio y voz son bien conocidos, y los métodos e interfas-es para manejar el despliegue de textos y gráficas también son bien conocideis. El cliente ASR 130 puede ser instalado para ejecutarse en una PC del cliente 140 de varias formas. Por ejemplo,! el cliente ASR 130 puede ser cargado en la PC del cliente 140 desde un medio de almacenamiento de datos permanente, tal como un disco magnético o CD-ROM. De manera alternativa, el cliente ASR 130 puede ser descargado de una fuente de información o datos localizables sobre la red paquete tal como la Internet. La descarga del cliente ASR 130 puede, por ejemplo, efectuarse una vez para que resida i permanentemente en la PC del cliente 140; de manera alternativa, el cliente ASR 130 puede ser descargado para propósitos de un solo uso o limitado. El cliente ÁSR 130 puede ser implementado, por ejemplo como un módulo de programas y sistemas de programación intercambiable pequeño para otrío programa, tal como un examinador u hojeador de la red, que¡ se ejecuta en la PC del cliente 140. Una forma de lograr esto es hacer que el cliente ASR 130 un. componente de programa- y sistemas de programación X Activo de acuerdo al estándar i X Activo de Microsoft. De esta manera, el cliente ASR 130 puede, por ejemplo, ser cargado en la PC del cliente 140 en c njunto con una sesión del examinador u hojeador de la red cpmo sigue: un usuario examina la red mundial usando la PC del cliente 140, se introduce en un sitio de la red que tenga capacidad ASR; el sitio de la red solicita permiso al usuario para descargar un módulo de cliente ASR en la PC de cliente 140 de acuerdo con el control X Activo señalado; i después cié la autorización del usuario, el cliente ASR 130 es descargado en la PC del cliente 140. De manera similar, el servidor ASR 100 puede ser instalado para ejecutarse en el nodo del servidor 110 de varias formas, por ejemplo, el servidor ASR puede ser cargado en el nodo del servidor 100 desde un medio de almacenamiento de datos permanente, tal como un disco magnético, o CD-ROM, o, de manera alternativa, el servidor ASR 100 puede ser descargado de una fuente de información o datos localizables sobre la red paquete , tal como la Internet. Ahora se describirán los detalles adicionales para proporcionar servicios ASR remotos de acuerdo con la presente invención1 con referencia a las FIGURAS 2-7. Se presume para la discusión siguiente con respecto a cada una de esas i figuras que la relación cliente-servidor es como se muestra en la EjlGURA 1. Se usó una fase de instalación para preparar el servidor ASR 100 y el cliente ASR 130 para efectuar una tarea de reconocimiento de voz automático como parte de la aplicación ASR. Por conveniencia, los puntos mostrados en la ? FIGURA 1 y que aparecen en otras figuras serán identificados por los mismo números de referencia que en la i FIGURA 1. Refiriéndose ahora a la FIGURA 2, ahora se describirá una fase de instalación en un proceso para proporcionar servicios ASR remotos. En el paso 201, el cliente : ASR 130 recibe una petición de la solicitud para cargar úna gramática del cliente. La gramática del cliente es ilustratjivamente un archivo de datos que contiene información que representa el lenguaje (por ejemplo, palabras y frases) que se áspera sean habladas en el contexto de la aplicación ASR particular. El archivo de datos puede estar en un formato conocido!, tal como el formato de gramática estándar (SGF) el cual es parte de la SAPI Microsoft. Para propósitos de ilustración, se usaré una aplicación ASR para tomar la orden de una pizza para describir la presente invención. Una aplicación de servicios ASR, tal! como una aplicación para ordenar una pizza, podria incluir típicamente un programa que se interconecta con y usa el cliente ASR 130 como un recurso usado para efectuar las :areas de la aplicación ASR . Tal aplicación ASR podría recidir y ejecutarse, teda o en parte, en una PC del cliente 140. Considerando el ejemplo de ordenar una pizza, la gramática del cliente PIZZA podría incluir información que representa palabras que uno puede usar para ordenar una pizza, tales como "pizza", "pepperoni", etc. En efecto, pueden usarse subgramáticas para construir una gramática apropiada. Para el ejemplo de ordenar una pizza, las subgramáticas para la gramática PIZZA podrían incluir TAMAÑO y COBERT RA. La subgramática TAMAÑO podría consistir de las palabras I usadas para describir el tamaño de la pizza deseada, tales como "pequeña", "mediana" y "grande". El subgramática COBERTURA puede consistir de las palabras usadas para describir las diferentes coberturas que se pueden ordenar con una pi|zza, por ejemplo, "salchicha", "pepperoni", "champiñones" y similares. Un cliente ASR 130 se le puede dar la gramática deseada desde la aplicación o, de manera alternativa, el i cliente ASR 130 puede elegir la gramática de un conjunto predeterminado basado en la información proporcionada por la aplicación. De cualquier manera, el cliente ASR 130 entonces en el pjaso 202 envía el archivo de gramática deseado al servidor , ASR 100 sobre una conexión TCP/IP. Se puede hacer una nueva conexión TCP/IP como parte del establecimiento de una nueva cesión de comunicaciones entre la PC del cliente 140 y el nodo {del servidor 100, o la conexión TCP/IP puede existir ya como rebultado de una cesión de comunicaciones establecida entre lá PC del cliente 140 y el nodo de servidor 110 que no ha sido terminada. En la ilustración de ordenar una pizza, el i cliente 1 ASR 130 podría efectuar la transmisión de un archivo que contiene la gramática PIZZA al servidor ASR 100 sobre una conexión TCP/IP. En el paso 203, el servidor ASR 100 recibe la gramática del cliente enviada desde el cliente ASR 130 y, en el paso, 204, el servidor ASR carga la gramática del cliente transmitida. Como se usa aquí, "cargar" la gramática del cliente significa hacer la gramática accesible para su uso por el servidor ASR 100, por ejemplo almacenando la gramática en - la RAM del nodo del servidor 110. En el paso 205, el servidor ASR 100 regresa un "manipulador" de gramática al cliente 130. Un "manipulador" de gramática es un marcador, tal comb, por ejemplo, un apuntador para la memoria que contiene la gramática cargada, que permite que el cliente ASR i se refiera fácilmente a la gramática durante el resto de la cesión de comunicaciones o la ejecución de la aplicación. El cliente ; ASR 130 recibe el manipulador de gramática del servidor ASR 100 en el paso 206 y retorna el manipulador a la aplicación en el paso 207. Para el ejemplo de ordenar una pizza, eil servidor ASR 100 podría recibir y cargar el archivo de gramática de pizza transmitido y transmitirlo nuevamente al cliente ASR 130 un manipulador que apunta a la gramática PIZZA cargada. El cliente ASR, a su vez, podría recibir el manipulador de PIZZA del servidor ASR 100 y regresarj el manipulador de PIZZA a la aplicación para ordenar una pizza. De esta manera, la aplicación puede referirse simplemente al manipulador de PIZZA cuando lleva a cabo o inicia una tarea ASR como parte de la aplicación para ordenar una pizz¡a. Ahora se describirá un método de instalación alternativo con referencia a la FIGURA 3. Se asume para el resto de la descripción aquí que la transmisión o comunicación de información o datos entre el servidor ASR 100 y eil cliente ASR 130 toman lugar sobre una conexión TCP/IP establecida. En el paso 301, el cliente ASR 130 recibe una petición de la aplicación para cargar una gramática del cliente. ' En lugar de enviar la gramática del cliente como un archivo de datos al servidor ASR 100 en el paso 302, sin embargo, , el cliente ASR 130 en su lugar envía al servidor ASR 100 un identificador que representa una gramática "enlatada"; una gramática "enlatada" podría, por ejemplo, ser una gramática común, tal como la HORA DEL DIA o FECHA, la cual el servidor ASR 100 podría ya tener almacenada. De manera alternativa, el cliente ASR 130 podría enviar al servidor ASR 100 una dirección IP, tal como una dirección compatible con URL, en¡ donde el servidor ASR 100 podría encontrar el archivo I de la gramática deseada. El servidor ASR 100 en el paso 303 recibe el identificador de la gramática o dirección de la I gramática URL del cliente ASR 130, localiza y carga la gramática del cliente solicitada en el paso 304, y en el paso i 305 regresa un manipulador de gramática al cliente ASR 130. De manera similar los pasos descritos anteriormente con respectó a la FIGURA 2, el cliente ASR 130 recibe el manipulador de gramática del servidor ASR 100 en el paso 306 y regresa al manipulador a la aplicación en el paso 307. Para el ejemplo de ordenar una pizza, los pasos descritos anteriorlmente en relación a la FIGURA 2 podrían ser los mismos, excepto que el cliente ASR 130 podría enviar al servidor! ASR 100 un identificador de gramática para la gramática PIZZA (si esta fuese una gramática "enlatada") o una dirección URL para la localización de un archivo que contiene la gramática PIZZA; el servidor ASR 100 podría, a su vez, recuperar un archivo de la gramática PIZZA basado en el identificador de gramática o dirección URL (como el enviado por el cliente ASR) y a continuación cargar la gramática PIZZA solicitada. Después de que la gramática ha sido cargada y el manipulador de gramática ha regresado al cliente ASR 130, una aplicación de servicio ASR necesita seleccionar una · regla de gramática a ser activada. La FIGURA 4 muestra un proceso para la selección de la regla de gramática de acuerdo con la presente1] invención. El cliente ASR 130 recibe de la solicitud la peticjión de activar una regla de gramática en el paso 401. En el pajso 402, el cliente ASR envía la petición de activar una regla al servidor ASR 100; como se muestra en la FIGURA 4, el cliente ASR 130 también en el paso 402 envía al servidor ASR 100 el manipulador de gramática previamente regresado (el cual puede permitir al servidor ASR activar la i regla de gramática apropiada para la gramática particular de acuerdo a lo identificado por el manipulador de gramática) .
El servidor ASR 100 en el paso 403 recibe la petición de activar la regla y el manipulador de gramática (si se envió) . En el paso 404, el servidor ASR 100 activa la regla solicitada y, en el paso 405, regresa al cliente ASR 130 la notificación de que la regla solicitada ha sido activada. El cliente ÁSR 130 recibe en el paso 406 la notificación de la activación de la regla y notifica a la aplicación en el paso 407 que la regla ha sido activada. Una vez que la aplicación recibe la noticia de activación de la regla, puede entonces iniciar e;l reconocimiento de voz. Para propósitos de ilustración del proceso mostrado en la FIGURA 4, nuevamente considere el ejemplo de ordenar una pizza¡. Una regla que puede usarse para el reconocimiento de una orden de pizza puede fijar la frase deseada en un orden para incluir las subgramáticas TAMAÑO y COBERTURAS i I7 junto c n la palabra "pizza", y puede denotarse de la siguiente manera: {ORDEN = TAMAÑO "pizza" "con" COBERTURAS}. Con referencia nuevamente a la FIGURA 4, el cliente ASR 130 podría rlecibir de la aplicación la solicitud de activar una regla para ordenar una pizza y enviar la regla de ORDEN expuestai anteriormente al servidor ASR 100 junto con el manipulador de la gramática PIZZA. El servidor ASR recibe la peticióni de activar la regla junto con el manipulador de la gramática PIZZA y activa la gramática del ORDEN, de modo que el reconocedor podría restringirse a reconocer palabras de la subgramática TAMAÑO, la palabra "pizza", la palabra "con" y las palabras de la subgramática COBERTURAS. Después de activar la regla de ORDEN, el servidor ASR 100 envía la notificación de la activación de la regla al cliente ASR 130 el cual, a su vez lo notifica a la aplicación. Una vez que ha sido activada una regla de gramática, el procesamiento de voz para propósitos de reconocimiento de palabras en la gramática de acuerdo a la regla puede tomar lugar. Refiriéndose a la FIGURA 5, en el paso 501 el cliente ASR 130 recibe una petición de la solicitud para iniciar una tarea de reconocimiento de voz. En el paso 502, el cliente ASR 130 solicita propagar el audio de la entrada de audio de la PC 140. La propagación del audio se refiere al audio que está siendo procesado "en el aire" mientras 'viene más suave; el sistema no espera que entre todo el audio ¡ (es decir, toda la voz) antes de enviar el audio al i procesamiento digital; la propagación del audio también puede referirse a la transmisión parcial o parte de la señal de audio cujando está siendo introducido audio adicional. De manera ilustrativa, una petición de propagación de audio puede efectuarse haciendo una llamada de programas y sistemas de programación apropiada al sistema operativo que está siendo ejecutado en la PC del cliente 140 de modo que la propagación del audio en el micrófono de entrada sea digitalizada por el procesador de sonido de la PC del cliente 140. La propagación del audio digitalizado de la entrada del micrófono' se hace pasar entonces a lo largo del cliente ASR 130. El cliente ASR 130 inicia entonces la transmisión del audio digitalizado propagado al servidor ASR 100 en el paso 503; al igual que la entrada de audio del micrófono, el audio digitaliziado es enviado al servidor ASR 100 "al aire" aún cuando continúe entrando voz. ¡ En el paso 504, el servidor ASR 100 efectúa el reconocimiento de la voz en el audio digitalizado propagado a medida que el audio es recibido del cliente ASR 130. El reconocimiento de la voz se efectúa usando los algoritmos de reconocimientos conocidos, tales como aquellos empleados por la máquina de reconocimiento de voz WATSON de AT&T, y se efectúa dentro de las restricciones de la gramática seleccionada de acuerdo a lo definido por la regla activada.
En el |paso 505, el servidor ASR 100 retorna el texto propagado (es decir, voz parcialmente reconocida) cuando la voz de ' entrada es reconocida. De este modo, cuando el servidor, ASR 100 alcanza sus resultados iniciales, regresa a i aquellos! resultados al cliente ASR 130 aún cuando el servidor ASR 100 jcontinúe el proceso de audio propagado adicional que está siendo enviado por el cliente ASR 130. Este proceso de regresar¡ el texto reconocido "al aire" permite que el cliente ASR 130 (o la aplicación de interconexión con el cliente ASR 130) proporcione retroalimentación al locutor. Cuando el servidor ASR 100 continua procesando el audio de entrada propagado adicional, puede corregir los resultados del reconocimiento de voz inicial, de modo que el texto regresado pueda realmente actualizar (o corregir) partes del texto ya regresadas al cliente ASR 130 como parte de la tarea de reconocimiento de la voz. Una vez que todo el audio propagado ha sido ; recibido del cliente ASR 130, el servidor ASR completa su proceso de reconocimiento de voz y regresa una versión 1 final del texto reconocido (incluyendo las correcciones) en el paso 506. ' En el paso 507, el cliente ASR 130 recibe el texto reconocido del servidor ASR 100 y regresa el texto a la aplicacióln en el paso 508. Nuevamente, esto puede hacerse "al aire" mientras el texto reconocido entra, y el cliente ASR pasa a ,1a aplicación cualesquier correcciones del texto reconocido recibido del servidor ASR 100. Refiriéndose al ejemplo de ordenar una pizza, una vez que ¡la regla ORDENAR ha sido activada y la aplicación notificada, el cliente ASR 130 recibirá la solicitud de iniciar ? reconocimiento de voz e iniciara la propagación del audió de la entrada del micrófono. Puede solicitarse al locutor o'rdenar la pizza, y una vez que comience a hablar, el cliente ASR 130 envía el audio propagado digitalizado al servidor |ASR 100. De este modo, cuando el locutor establece, por ejemplo, que desea ordenar una "pizza grande con salchichas y pepperoni", el cliente ASR 130 habrá enviado el audio propagado digitalizado para la primer palabra de la orden a lo largo del servidor ASR 100 aún cuando la segunda palabra esté siendo hablada. El servidor ASR 100, cuando a orden sea hablada, retornará la primer palabra como texto "grande" cuando el resto de la orden esté siendo hablada. Finalmente, una vez que el locutor deja de hablar, el texto reconocido final para la orden, "pizza grande con salchichas, pepperoni puede ser regresado al cliente ASR 130 y, en consecuencia, a la aplicación. Una modalidad alternativa para llevar a cabo el proceso de reconocimiento de voz de acuerdo con la presente invención se muestra en la FIGURA 6. De manera similar al proceso de reconocimiento de voz mostrado en la FIGURA 5, en el pasO| 601 el cliente ASR 130 recibe la petición de la solicitud para iniciar una tarea de reconocimiento de voz, y en el piso 602, el cliente ASR 130 solicita la propagación del audio desde la entrada del audio de la PC del cliente 140. La propagación del audio digitalizado de la entrada del I micrófonb se hace pasar entonces a lo largo del cliente ASR 130. En el paso 603, el cliente ASR 130 comprime el audio digitalizado "al aire" y a continuación inicia la transmisión del audio digitalizado comprimido propagado al servidor ASR 100, mientras la entrada de voz continúa. En el paso 604, el servidor ASR 100 descomprime el aire comprimido recibo del cliente ASR 130 antes de efectuar el reconocimiento de voz del audio digitalizado propagado. Como se describió anteriormente con referencia a la FIGURA 5, el reconocimiento de voz se efectúa dentro de las descripciones de la gramática seleccionada de acuerdo a lo definido por la regla activada. En el paso 605, el servidor ASR 100 retorna el texto propagado (es decir, voz parcialmente reconocida) a medida que la voz entrante es reconocida. De este modo, el servidor ASR 100 regresa los resultados iniciales al cliente ASR 130 aún cuando el servidor ASR 100 continua procesando el audio propagado comprimido adicional que está siendo enviado por el cliente SR 130, y puede actualizar o corregir partes del texto ya regresadas al cliente ASR 130 como parte de la tarea de reconocimiento de la voz. Una vez que todo el audio propagado ha sido: recibido del cliente ASR 130, el servidor ASR completaj su procesamiento de reconocimiento de la voz y I regresa la versión final del texto reconocido (incluyendo las correcciones) en el paso 606. El cliente ASR 130 recibe el i texto re onocido del servidor ASR 100 en el paso 607 a medida que entra y regresa el texto a la aplicación en el paso 608. Otra modalidad alternativa para llevar a cabo el proceso de reconocimiento de voz de acuerdo con la presente invención se muestra en la FIGURA 7. De manera similar al proceso de reconocimiento de voz mostrado en las FIGURAS 5 y 6, en el paso 701 el cliente ASR 130 recibe la petición de aplicación para iniciar una tarea de reconocimiento de voz y, en el paso 702, el cliente ASR 130 solicita propagar el audio de la entrada de audio de la PC del cliente 140. La propagación del audio digitalizado de la entrada del micrófono se hace pasar entonces al cliente ASR 130. En el paso 703,, el cliente ASR 130 procesa el audio digitalizado "al airei" para extraer las características útiles para el proceso de reconocimiento de la voz y a continuación . inicia la transmisión de las características extraídas al servidor ASR 100, mientras la entrada de voz continua. La extracción de las carácter! sticas relevantes de la voz implica un i proceso ^independiente de la gramática que es típicamente parte de j los algoritmos empleados para el reconocimiento de la voz, y puede efectuarse usando los métodos conocidos por aquellos j expertos en la técnica, tales como aquellos basados en el código de predicción lineal (LPC) o el procesamiento de banco de filtros Mel. La extracción de características proporcicjna la información obtenida de las características de las seña'les de voz eliminando a la vez la información I innecesaria, tal como el volumen. Después de recibir las características extraídas del cliente ASR 130, el servidor ASR 100 en el paso 704 efectúa el reconocimiento de la voz sobre las características I entrantes1 que están arribando "al aire" (es decir, de manera i análoga a la propagación del audio) . El reconocimiento de la I voz se efectúa dentro de las restricciones de la gramática seleccionada de acuerdo a lo definido por la regla activada. Como es él caso con las modalidades discutidas anteriormente con referencia a las FIGURAS 5 y 6, en el paso 705 el servidor 'ASR 100 regresa el texto propagado (es decir, voz parcialmente reconocida) al cliente ASR 130 cuando las caracteríéticas de entrada son reconocidas. El servidor ASR 100 continua procesando las características extraídas adicionales que están siendo enviadas al cliente ASR 130, y puede actualizar o corregir partes del texto ya regresado al cliente ASR 130. El servidor ASR completa su proceso de reconocimiento de voz de la recepción de todas las características extraídas del cliente ASR 130, y regresa una versión final del texto reconocido (incluyendo las i correcciones) en el paso 706. El cliente ASR 130 recibe el texto reconocido del servidor ASR 100 en el paso 707 cero ©ttra y regresa el texto a la aplicación en el paso 708. j Las modalidades alternativas descritas anteriormente con respecto a las FIGURAS 6 y 7 proporcionan cada un^ el procesamiento adicional en el extremo del cliente, j Para ia modalidad en la FIGURA 6, esto comprende la compresión del audio propagado (con la descompresión del audio en¡ el extremo del servidor) para la modalidad en la i FIGURA 7, esta parte incluyó el proceso de reconocimiento de voz en forma de extracción de características. Usando tal procesamiento adicional en el extremo del cliente se reduce significativamente la cantidad de datos transmitidos desde el cliente j ASR 130 al servidor ASR 100. De este modo, se i requieren menos datos para representar las señales de voz que I están ¡siendo transmitidas. Donde la extracción de características se efectúa en el extremo del cliente, tales benefici|os se incrementan potencialmente de manera aguda, debido que las características extraídas (en oposición a las señáles de voz digitalizadas ) requieren menos datos y no se necesitan enviar características durante los periodos de silencio'. La reducción de datos produce un beneficio doble deseado:1 (1) permite la reducción en el ancho de banda requerido para lograr un cierto nivel de funcionamiento, y (2) reduce el tiempo de transmisión para enviar datos de voz del cliente ASR al servidor ASR a través de la conexión TCP/IP. Aunque típicamente una regla de gramática será activada , antes del inicio de la transmisión de la información de voz del cliente ASR 130 al servidor ASR 100, la activación de la regla podría tomar lugar después de que algo o toda de la información de voz a ser reconocida ha sido enviada del cliente ASR 130 al servidor ASR 100. En tales circunstancias, el servidor ASR 100 podría efectuar esfuerzos de reconocimiento de la voz hasta que la regla de gramática haya sido activada. La voz enviada por el cliente ASR 130 antes de la activación de una regla de gramática podría ser almacenada temporalmente por el servidor ASR 100 para ser procesada por el reconócedor o, de manera alternativa, tal voz podría ser ignorada. Además, las tareas de reconocimiento de voz múltiples pueden ser ejecutadas usando las técnicas de la presente : invención. Por ejemplo, una aplicación ASR podría solicita del cliente ASR 130 dar instrucciones al servidor ASR 100 para cargar una gramática enlatada por un número telefónico (por ejemplo, "NUMERO TELEFONICO") y a continuación solicitar la activación de los números mencionados que cubran la regla. Después de que es mencionado un número telefónico y reconocido de acuerdo con la presente invención (por ejemplo, en respuesta a una petición de mencionar el número telefónico, el cliente ASR 130 envía los números mencionados digitalizados al servidor ASR 100 para su reconocimiento) , la aplicación ASR podría ser entonces solicitar al cliente ASR 130 que instale e inicie el i reconocimiento de ordenar una pizza (por ejemplo, cargar gramática PIZZA, activar regla de ORDEN, e iniciar el reconocimiento de la voz) de acuerdo con los ejemplos descritos anteriormente con referencia a las FIGURAS 2-5. Además del ejemplo sencillo de ordenar una pizza usado anteriormente para ilustración, puede proporcionarse un arreglo j amplio de servidores ASR potenciales sobre una red paquete, de acuerdo con la presente invención. Un ejemplo de aplicación ASR permitida por la presente solicitud es un servició de llenado de formas para completar una forma en respuesta a las respuestas habladas para la información requerida para cada uno de un número de espacios en blanco en la forma. De acuerdo con la presente invención, puede implemeritarse un servicio de llenado de formas en donde el cliente! ASR 130 envía las gramáticas que representan las elecciones posibles para cada uno de los espacios en blanco al servidor ASR 100. Para cada espacio en blanco, el cliente ASR 130 solicita la activación de la regla de gramática i apropiaba y envía una respuesta hablada correspondiente hecha en respuesta a la solicitud de la información necesaria para completar el espacio en blanco. El servidor ASR 100 aplica un algoritmo de reconocimiento de voz apropiado de acuerdo con la gramíática y regla seleccionada, y regresa el texto a ser insertado en la forma. ; Otros servicios ASR pueden implicar un intercambio de información (per ejemplo, un diálogo) entre el servidor y el cliente. Por ejemplo, una aplicación de servicio ASR para manejar reservaciones de vuelo pueden, de acuerdo con la presenté invención como se describió aquí, utilizar un dialogo , entre el servidor ASR 100 y el cliente ASR 130 para efectuar la tarea ASR. Un dialogo puede proceder como sigue: Locutor (a través del cliente ASR 130 al servidor ASR 100) : "Deseo un vuelo a los Angeles" La respuesta del servidor ASR al cliente ASR (en fonro de t£xto o, alternativcmente, la voz regresada oor una nráquina operando en ??pta dede texto a voz (ITS) el servidor ASR 100 al cliente ASR 130): "¿De qué ciudad saldrá'?" Locutor (a través del cliente ASR al servidor ASR) : "Washington, DC . " . La respuesta del servidor ASR al cliente ASR: "¿Que día desea salir?" 23 Locutor (del cliente ASR al servidor ASR) : "Martes". , Respuesta del servidor ASR al cliente ASR: "¿A qué hora desea salir?" Locutor (del cliente ASR al servidor ASR) : "A las 4 en punto en la tarde". 1 La respuesta del cliente ASR al servidor ASR: "Puedo registrarlo en el vuelo 4567 de la .Aerolínea XYZ de Washington, DC a los Angeles el Martes a las i 4 en punto PM. ¿Desea reservar un asiento en este vuelo?" En este caso, la información recibida del servidor ASR 110 i no es literalmente el texto de la voz reconocida, pero su ¡información se basó en la v o z reconocida (lo cual dependerá de la aplicación) . Cada parte del dialogo puede efectuarse de acuerdo con el método cliente-servidor ASR descrito anteriormente. Como puede observarse a partir de este ejemplo, tal aplicación de servicio ASR requiere que el cliente ¡ASR y el servidor ASR no únicamente tengan la capacidad de manejar el lenguaje natural, sino también acceso i a una ba se 'de datos grande que esté c amb i ando c o n s t a n t e m e n t e . P a r a lograr e,sto, puede ser deseable tener una aplicación de servicios : ASR y TTS instalados y ejecutándose en un nodo de servidor 110, en lugar de una PC de cliente 140. La PC del cliente 140, podría, en este caso, simplemente tener que ejecutar un programa de "agente" relativamente pequeño que, en el ¡ control del programa de aplicación que está e ecutándose en el nodo del servidor 110, inicie al cliente ASR 130 y cuide la entrada de la voz a través del cliente ASR 130 a lo largo del servidor ASR 100. Un ejemplo de tal programa | de "agente" puede ser, por ejemplo, uno que coloque un "encabezado de conversación" sobre la pantalla de la PC del cliejnte 140 para ayudar a la interacción entre un individuq que está usando la aplicación de servicio ASR en la PC del cliente 140 y, a través del cliente ASR 130 y el servidor ASR 100, que envíe información hablada de la persona a lo largp del servidor ASR 100 para su reconocimiento. , En resumen, la presente invención proporciona una forma de; proporcionar servicios ASR que pueden hacerse disponibles a usuarios sobre una red paquete , tal como la Internet, , a un lugar remoto del sistema que aloja una máquina i SR y una mqquina TTS usando una arquitectura cliente-servidor.
Lo que se ha descrito es meramente ilustrativo de la aplica'ción de los principios de la presente invención. i Otros arreglos y métodos pueden ser implementados por aquellos expertos en la técnica sin apartarse del espíritu y alcance de la presente invención.
Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la práctica | la citada invención, es el que resulta claro de presente jdescripción de la invención. Habiéndose descrito la invención como antecede, reclama como propiedad lo contenido en las siguientes:

Claims (17)

  1. REIVINDICACIONES Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes reivindicaciones : 1. Un método para proporcionar voz desde un servidor accesible en forma remota sobre una red, el método i está caracterizado porque comprende, en el servidor: ! recibir una identificación de una aplicación de diálogo1 hablado que tiene una gramática asociada; i i reconocer la voz de usuario recibida usando la gramática asociada; y 1 transmitir la voz generada desde el servidor en respuesta a la información de voz de usuario reconocida sobre la red. 2. El método de conformidad con la reivindicación 1, caracterizado porque comprende además: I identificar una sub-porción de un diálogo con un usuario; seleccionar una gramática secundaria de acuerdo con i la sub-porción identificada del dialogo; y ! reconocer voz del usuario para la sub-porción identifijcada del diálogo usando la gramática secundaria seleccionada . j 3. El método de conformidad con la reivindicación 1, caracterizado porque cada gramática secundaria está asociada con una tarea 1 4. El método de conformidad con la reivindicación 1, caracterizado porque la gramática asociada se identifica por un& dirección compatible con localizador universal de recurso (URL) asociada con la aplicación de diálogo hablado. I 5. El método de conformidad con la reivindicación 1, caracterizado porque la red es una red de Protocolo de i Internet . I 6. Un sistema para proporcionar voz sobre una red, el sistema caracterizado porque comprende: un módulo configurado para recibir una identificación de aplicación de diálogo hablado que tiene una gramática asociada; un módulo configurado para reconocer la voz del usuario usando la gramática asociada; y un módulo configurado para transmitir voz generada en respuesta a la información de salida de voz de usuario í reconocida sobre la red. I 7. El sistema de conformidad con la reivindicación 6, caracterizado porque comprende además: un módulo configurado para identificar una sub-porción) de un diálogo con un usuario; un módulo configurado para seleccionar una gramática secundaria de acuerdo con la sub-porción identificada del diálogo; y un módulo configurado para reconocer la voz del usuarioj para la sub-porción identificada del diálogo usando la gramática secundaria seleccionada. 8. El sistema de conformidad con la reivindicación 7, carjacterizado porque cada gramática secundaria está asociada con una tarea. 9. El método de conformidad con la reivindicación 6, carajcterizado porque la gramática asociada se identifica por una dirección compatible con localizador universal de recursos (URL) asociada con la aplicación de diálogo hablado. 10. Un medio legible por computadora que almacena instrucciones para controlar un dispositivo de cómputo para proporcionar voz sobre una red, las instrucciones caracterizadas porque comprenden: I ' recibir sobre una identificación de una aplicación i de diálogo hablado que tiene una gramática asociada; reconocer la voz del usuario usando la gramática asociada; y transmitir la voz generada desde el servidor en respuesjta a la información de voz de usuario reconocida sobre la red.j 11. El medio legible por computadora de conformidad con la jreivindicación 10, caracterizado porque la red es una red de Protocolo de Internet. I ^ 12. El medio legible por computadora de conformidad con l reivindicación 10, caracterizado porque las instrucciones comprenden además: identificar una sub-porción de un diálogo con un usuario} | seleccionar una gramática secundaria de acuerdo con la sub-porción identificada del dialogo; y ! reconocer voz del usuario para la sub-porción identificada del diálogo usando la gramática secundaria seleccionada . 13. El medio legible por computadora de conformidad con la reivindicación 12, caracterizado porque cada gramática secundaria está asociada con una tarea. I 14. El medio legible por computadora de conformidad con la j reivindicación 10, caracterizado porque la gramática asociacja se identifica por una dirección compatible con localizador universal de recursos (URL) asociada con la aplicación de diálogo hablado. 15. Un método para proporcionar voz desde un servidojr accesible en forma remota sobre una red, el método está caracterizado porque comprende, en el servidor: recibir información de voz desde un usuario; reconocer la información de voz usando una gramática seleccionada de una pluralidad de gramáticas; y | transmitir la voz generada desde el servidor en respuesta a la información de voz de usuario reconocida sobre la red. 16. El método de conformidad con la reivindicación 15, caracterizado porque la red es una red de Protocolo de Internet . 17. El método de conformidad con la reivindicación 15, caracterizado porque la gramática se selecciona con base en una ¡identificación recibida de una aplicación de diálogo hablado !que tiene la gramática seleccionada.
MX2007013017A 1997-04-14 2007-10-18 Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes. MX2007013017A (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/833,210 US6078886A (en) 1997-04-14 1997-04-14 System and method for providing remote automatic speech recognition services via a packet network

Publications (1)

Publication Number Publication Date
MX2007013017A true MX2007013017A (es) 2009-02-13

Family

ID=25263756

Family Applications (2)

Application Number Title Priority Date Filing Date
MX2007013017A MX2007013017A (es) 1997-04-14 2007-10-18 Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes.
MX2007013015A MX2007013015A (es) 1997-04-14 2007-10-18 Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes.

Family Applications After (1)

Application Number Title Priority Date Filing Date
MX2007013015A MX2007013015A (es) 1997-04-14 2007-10-18 Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes.

Country Status (6)

Country Link
US (3) US6078886A (es)
EP (1) EP0872827B1 (es)
JP (3) JPH10333693A (es)
CA (1) CA2228917C (es)
DE (1) DE69829604T2 (es)
MX (2) MX2007013017A (es)

Families Citing this family (299)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7168084B1 (en) 1992-12-09 2007-01-23 Sedna Patent Services, Llc Method and apparatus for targeting virtual objects
US9286294B2 (en) 1992-12-09 2016-03-15 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator content suggestion engine
AU2744097A (en) 1996-04-26 1997-11-19 At & T Corporation Method and apparatus for data transmission using multiple transmit antennas
US6856960B1 (en) * 1997-04-14 2005-02-15 At & T Corp. System and method for providing remote automatic speech recognition and text-to-speech services via a packet network
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US8209184B1 (en) 1997-04-14 2012-06-26 At&T Intellectual Property Ii, L.P. System and method of providing generated speech via a network
US6671745B1 (en) * 1998-03-23 2003-12-30 Microsoft Corporation Application program interfaces and structures in a resource limited operating system
US6434526B1 (en) * 1998-06-29 2002-08-13 International Business Machines Corporation Network application software services containing a speech recognition capability
US7003463B1 (en) * 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
WO2000022597A1 (en) * 1998-10-15 2000-04-20 Planetlingo Inc. Method for computer-aided foreign language instruction
US6185535B1 (en) * 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
DE19910236A1 (de) * 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
DE19910234A1 (de) * 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren mit mehreren Spracherkennern
ATE281689T1 (de) * 1999-03-26 2004-11-15 Scansoft Inc Client-server spracherkennungssystem
US6526380B1 (en) 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
WO2000058942A2 (en) * 1999-03-26 2000-10-05 Koninklijke Philips Electronics N.V. Client-server speech recognition
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US20050261907A1 (en) * 1999-04-12 2005-11-24 Ben Franklin Patent Holding Llc Voice integration platform
US20050091057A1 (en) * 1999-04-12 2005-04-28 General Magic, Inc. Voice application development methodology
WO2000062222A1 (en) * 1999-04-14 2000-10-19 Syvox Corporation Interactive voice unit for giving instruction to a worker
DE19918382B4 (de) * 1999-04-22 2004-02-05 Siemens Ag Erstellen eines Referenzmodell-Verzeichnisses für ein sprachgesteuertes Kommunikationsgerät
GB9911971D0 (en) 1999-05-21 1999-07-21 Canon Kk A system, a server for a system and a machine for use in a system
DE19930407A1 (de) * 1999-06-09 2000-12-14 Philips Corp Intellectual Pty Verfahren zur sprachbasierten Navigation in einem Kommunikationsnetzwerk und zur Implementierung einer Spracheingabemöglichkeit in private Informationseinheiten
EP1192530A1 (en) * 1999-06-09 2002-04-03 Scansoft, Inc. Method of speech-based navigation in a communications network and of implementing a speech input possibility in private information units.
GB2356318A (en) * 1999-09-04 2001-05-16 Marconi Comm Ltd Server with voice recognition
US7330815B1 (en) 1999-10-04 2008-02-12 Globalenglish Corporation Method and system for network-based speech recognition
EP1098297A1 (en) * 1999-11-02 2001-05-09 BRITISH TELECOMMUNICATIONS public limited company Speech recognition
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7110947B2 (en) * 1999-12-10 2006-09-19 At&T Corp. Frame erasure concealment technique for a bitstream-based feature extractor
US6792405B2 (en) 1999-12-10 2004-09-14 At&T Corp. Bitstream-based feature extraction method for a front-end speech recognizer
US6424945B1 (en) 1999-12-15 2002-07-23 Nokia Corporation Voice packet data network browsing for mobile terminals system and method using a dual-mode wireless connection
US6434529B1 (en) * 2000-02-16 2002-08-13 Sun Microsystems, Inc. System and method for referencing object instances and invoking methods on those object instances from within a speech recognition grammar
US6853714B2 (en) 2000-02-25 2005-02-08 Keith A. Liljestrand Apparatus and method for providing enhanced telecommunications services
US7120585B2 (en) * 2000-03-24 2006-10-10 Eliza Corporation Remote server object architecture for speech recognition
KR20010025230A (ko) * 2000-11-09 2001-04-06 차정만 음성도메인에 의한 인터넷접속 매개장치와 매개방법 및음성도메인의 데이터 베이스 생성방법
US6785653B1 (en) * 2000-05-01 2004-08-31 Nuance Communications Distributed voice web architecture and associated components and methods
US7716163B2 (en) 2000-06-06 2010-05-11 Microsoft Corporation Method and system for defining semantic categories and actions
US7770102B1 (en) 2000-06-06 2010-08-03 Microsoft Corporation Method and system for semantically labeling strings and providing actions based on semantically labeled strings
US7712024B2 (en) 2000-06-06 2010-05-04 Microsoft Corporation Application program interfaces for semantically labeling strings and providing actions based on semantically labeled strings
US7788602B2 (en) 2000-06-06 2010-08-31 Microsoft Corporation Method and system for providing restricted actions for recognized semantic categories
DE60039076D1 (de) * 2000-06-26 2008-07-10 Mitsubishi Electric Corp System zum Betreiben eines Gerätes
KR100383391B1 (ko) * 2000-06-28 2003-05-12 김지한 음성인식서비스 시스템 및 방법
FI115868B (fi) * 2000-06-30 2005-07-29 Nokia Corp Puhesynteesi
US20030115167A1 (en) * 2000-07-11 2003-06-19 Imran Sharif Web browser implemented in an Internet appliance
US7245291B2 (en) 2000-07-11 2007-07-17 Imran Sharif System and method for internet appliance data entry and navigation
US6980313B2 (en) * 2000-07-11 2005-12-27 Imran Sharif Fax-compatible internet appliance
US20020078445A1 (en) * 2000-07-11 2002-06-20 Imran Sharif Internet appliance for interactive audio/video display using a remote control unit for user input
US7139709B2 (en) * 2000-07-20 2006-11-21 Microsoft Corporation Middleware layer between speech related applications and engines
GB2365189A (en) * 2000-07-26 2002-02-13 Canon Kk Voice-controlled machine
DE60128372T2 (de) * 2000-07-31 2008-01-10 Eliza Corp., Beverly Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem
AU2001284713A1 (en) * 2000-08-02 2002-02-13 Speaklink, Inc. System and method for voice-activated web content navigation
FI20001918A (fi) 2000-08-30 2002-03-01 Nokia Corp Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä
DE60125597T2 (de) * 2000-08-31 2007-05-03 Hitachi, Ltd. Vorrichtung für die Dienstleistungsvermittlung
US6556563B1 (en) * 2000-09-11 2003-04-29 Yahoo! Inc. Intelligent voice bridging
US7095733B1 (en) * 2000-09-11 2006-08-22 Yahoo! Inc. Voice integrated VOIP system
US6567419B1 (en) 2000-09-11 2003-05-20 Yahoo! Inc. Intelligent voice converter
US6580786B1 (en) 2000-09-11 2003-06-17 Yahoo! Inc. Message store architecture
US7454346B1 (en) * 2000-10-04 2008-11-18 Cisco Technology, Inc. Apparatus and methods for converting textual information to audio-based output
GB2368441A (en) * 2000-10-26 2002-05-01 Coles Joseph Tidbold Voice to voice data handling system
US7136814B1 (en) * 2000-11-03 2006-11-14 The Procter & Gamble Company Syntax-driven, operator assisted voice recognition system and methods
JP3581648B2 (ja) * 2000-11-27 2004-10-27 キヤノン株式会社 音声認識システム、情報処理装置及びそれらの制御方法、プログラム
US6823306B2 (en) 2000-11-30 2004-11-23 Telesector Resources Group, Inc. Methods and apparatus for generating, updating and distributing speech recognition models
EP1352316A2 (en) * 2000-12-01 2003-10-15 The Trustees Of Columbia University In The City Of New York A method and system for voice activating web pages
US6937986B2 (en) * 2000-12-28 2005-08-30 Comverse, Inc. Automatic dynamic speech recognition vocabulary based on external sources of information
US20020143553A1 (en) * 2001-01-24 2002-10-03 Michael Migdol System, method and computer program product for a voice-enabled universal flight information finder
FR2820872B1 (fr) * 2001-02-13 2003-05-16 Thomson Multimedia Sa Procede, module, dispositif et serveur de reconnaissance vocale
DE10109156C2 (de) * 2001-02-24 2003-01-09 Diehl Ako Stiftung Gmbh & Co Intelligente Haushaltsgrossgeräte
US7805310B2 (en) * 2001-02-26 2010-09-28 Rohwer Elizabeth A Apparatus and methods for implementing voice enabling applications in a converged voice and data network environment
US20020178003A1 (en) * 2001-03-09 2002-11-28 Motorola, Inc. Method and apparatus for providing voice recognition service to a wireless communication device
US6985862B2 (en) * 2001-03-22 2006-01-10 Tellme Networks, Inc. Histogram grammar weighting and error corrective training of grammar weights
KR100549482B1 (ko) 2001-03-22 2006-02-08 캐논 가부시끼가이샤 정보 처리 장치, 정보처리 방법, 및 프로그램을 기억하는 컴퓨터 판독가능 기억 매체
US7233903B2 (en) * 2001-03-26 2007-06-19 International Business Machines Corporation Systems and methods for marking and later identifying barcoded items using speech
US6885735B2 (en) * 2001-03-29 2005-04-26 Intellisist, Llc System and method for transmitting voice input from a remote location over a wireless data channel
US7778816B2 (en) 2001-04-24 2010-08-17 Microsoft Corporation Method and system for applying input mode bias
CN1279465C (zh) * 2001-05-04 2006-10-11 微软公司 Web启用的识别体系结构
US7409349B2 (en) * 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
CN101833952B (zh) * 2001-05-04 2013-02-13 微软公司 客户服务器系统中处理输入数据的方法
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7506022B2 (en) * 2001-05-04 2009-03-17 Microsoft.Corporation Web enabled recognition architecture
US20020178182A1 (en) * 2001-05-04 2002-11-28 Kuansan Wang Markup language extensions for web enabled recognition
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US7203188B1 (en) 2001-05-21 2007-04-10 Estara, Inc. Voice-controlled data/information display for internet telephony and integrated voice and data communications using telephones and computing devices
US7203643B2 (en) * 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
US7366673B2 (en) * 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
JP3885523B2 (ja) * 2001-06-20 2007-02-21 日本電気株式会社 サーバ・クライアント型音声認識装置及び方法
US20030009331A1 (en) * 2001-07-05 2003-01-09 Johan Schalkwyk Grammars for speech recognition
US7194513B2 (en) * 2001-07-08 2007-03-20 Imran Sharif System and method for using an internet appliance to send/receive digital content files as E-mail attachments
US20030014254A1 (en) * 2001-07-11 2003-01-16 You Zhang Load-shared distribution of a speech system
US7793326B2 (en) 2001-08-03 2010-09-07 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator
US7908628B2 (en) 2001-08-03 2011-03-15 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator content coding and formatting
US7313526B2 (en) 2001-09-05 2007-12-25 Voice Signal Technologies, Inc. Speech recognition using selectable recognition modes
US7467089B2 (en) * 2001-09-05 2008-12-16 Roth Daniel L Combined speech and handwriting recognition
US7526431B2 (en) * 2001-09-05 2009-04-28 Voice Signal Technologies, Inc. Speech recognition using ambiguous or phone key spelling and/or filtering
US7505911B2 (en) * 2001-09-05 2009-03-17 Roth Daniel L Combined speech recognition and sound recording
US7809574B2 (en) 2001-09-05 2010-10-05 Voice Signal Technologies Inc. Word recognition using choice lists
US7444286B2 (en) 2001-09-05 2008-10-28 Roth Daniel L Speech recognition using re-utterance recognition
US7324947B2 (en) * 2001-10-03 2008-01-29 Promptu Systems Corporation Global speech user interface
US8644475B1 (en) 2001-10-16 2014-02-04 Rockstar Consortium Us Lp Telephony usage derived presence information
US7711570B2 (en) 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US8229753B2 (en) * 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
JP2003143256A (ja) 2001-10-30 2003-05-16 Nec Corp 端末装置と通信制御方法
US7246060B2 (en) * 2001-11-06 2007-07-17 Microsoft Corporation Natural input recognition system and method using a contextual mapping engine and adaptive user bias
US6816578B1 (en) * 2001-11-27 2004-11-09 Nortel Networks Limited Efficient instant messaging using a telephony interface
US7124085B2 (en) * 2001-12-13 2006-10-17 Matsushita Electric Industrial Co., Ltd. Constraint-based speech recognition system and method
US20030135624A1 (en) * 2001-12-27 2003-07-17 Mckinnon Steve J. Dynamic presence management
US7013275B2 (en) * 2001-12-28 2006-03-14 Sri International Method and apparatus for providing a dynamic speech-driven control and remote service access system
US7203644B2 (en) * 2001-12-31 2007-04-10 Intel Corporation Automating tuning of speech recognition systems
US20030144846A1 (en) * 2002-01-31 2003-07-31 Denenberg Lawrence A. Method and system for modifying the behavior of an application based upon the application's grammar
US7054813B2 (en) * 2002-03-01 2006-05-30 International Business Machines Corporation Automatic generation of efficient grammar for heading selection
US6895379B2 (en) * 2002-03-27 2005-05-17 Sony Corporation Method of and apparatus for configuring and controlling home entertainment systems through natural language and spoken commands using a natural language server
JP2003295890A (ja) * 2002-04-04 2003-10-15 Nec Corp 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム
US7707496B1 (en) 2002-05-09 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting dates between calendars and languages based upon semantically labeled strings
US20030217149A1 (en) * 2002-05-20 2003-11-20 International Business Machines Corporation Method and apparatus for tunneling TCP/IP over HTTP and HTTPS
US7707024B2 (en) 2002-05-23 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting currency values based upon semantically labeled strings
US7742048B1 (en) 2002-05-23 2010-06-22 Microsoft Corporation Method, system, and apparatus for converting numbers based upon semantically labeled strings
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7827546B1 (en) 2002-06-05 2010-11-02 Microsoft Corporation Mechanism for downloading software components from a remote source for use by a local software application
US7356537B2 (en) 2002-06-06 2008-04-08 Microsoft Corporation Providing contextually sensitive tools and help content in computer-generated documents
US8073930B2 (en) * 2002-06-14 2011-12-06 Oracle International Corporation Screen reader remote access system
US7716676B2 (en) 2002-06-25 2010-05-11 Microsoft Corporation System and method for issuing a message to a program
US7209915B1 (en) 2002-06-28 2007-04-24 Microsoft Corporation Method, system and apparatus for routing a query to one or more providers
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7797159B2 (en) * 2002-09-16 2010-09-14 Movius Interactive Corporation Integrated voice navigation system and method
US8392609B2 (en) 2002-09-17 2013-03-05 Apple Inc. Proximity detection for media proxies
US7149688B2 (en) * 2002-11-04 2006-12-12 Speechworks International, Inc. Multi-lingual speech recognition with cross-language context modeling
US7783614B2 (en) 2003-02-13 2010-08-24 Microsoft Corporation Linking elements of a document to corresponding fields, queries and/or procedures in a database
US20050049922A1 (en) * 2003-03-24 2005-03-03 Ipdev Co. Method and apparatus for specifying toppings and their placement on a pizza and confirming same
US7013282B2 (en) * 2003-04-18 2006-03-14 At&T Corp. System and method for text-to-speech processing in a portable device
US7260539B2 (en) * 2003-04-25 2007-08-21 At&T Corp. System for low-latency animation of talking heads
US7260535B2 (en) 2003-04-28 2007-08-21 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting for call controls
US7711550B1 (en) 2003-04-29 2010-05-04 Microsoft Corporation Methods and system for recognizing names in a computer-generated document and for providing helpful actions associated with recognized names
US20040230637A1 (en) * 2003-04-29 2004-11-18 Microsoft Corporation Application controls for speech enabled recognition
US20050015256A1 (en) * 2003-05-29 2005-01-20 Kargman James B. Method and apparatus for ordering food items, and in particular, pizza
US9202467B2 (en) * 2003-06-06 2015-12-01 The Trustees Of Columbia University In The City Of New York System and method for voice activating web pages
US7720683B1 (en) * 2003-06-13 2010-05-18 Sensory, Inc. Method and apparatus of specifying and performing speech recognition operations
JP4267385B2 (ja) 2003-06-30 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム
JP2005031758A (ja) * 2003-07-07 2005-02-03 Canon Inc 音声処理装置及び方法
US7073203B2 (en) * 2003-08-08 2006-07-11 Simms Fishing Products Corporation Foot-covering component of a stocking foot wader including gravel guard and method for manufacturing
US8311835B2 (en) 2003-08-29 2012-11-13 Microsoft Corporation Assisted multi-modal dialogue
US7519042B2 (en) 2003-09-12 2009-04-14 Motorola, Inc. Apparatus and method for mixed-media call formatting
US20050065789A1 (en) * 2003-09-23 2005-03-24 Sherif Yacoub System and method with automated speech recognition engines
US20050102625A1 (en) * 2003-11-07 2005-05-12 Lee Yong C. Audio tag retrieval system and method
US9118574B1 (en) 2003-11-26 2015-08-25 RPX Clearinghouse, LLC Presence reporting using wireless messaging
KR100600522B1 (ko) * 2003-12-16 2006-07-13 에스케이 주식회사 상담원과 음성 인식 엔진을 이용한 품질보장형 콜라우팅시스템 및 그 방법
US20050171781A1 (en) * 2004-01-08 2005-08-04 Poploskie Jon M. Speech information system
US7552055B2 (en) 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
US8160883B2 (en) * 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
FR2865846A1 (fr) * 2004-02-02 2005-08-05 France Telecom Systeme de synthese vocale
US7925512B2 (en) * 2004-05-19 2011-04-12 Nuance Communications, Inc. Method, system, and apparatus for a voice markup language interpreter and voice browser
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
US7940746B2 (en) 2004-08-24 2011-05-10 Comcast Cable Holdings, Llc Method and system for locating a voice over internet protocol (VoIP) device connected to a network
US7739117B2 (en) * 2004-09-20 2010-06-15 International Business Machines Corporation Method and system for voice-enabled autofill
US7783028B2 (en) * 2004-09-30 2010-08-24 International Business Machines Corporation System and method of using speech recognition at call centers to improve their efficiency and customer satisfaction
KR100695127B1 (ko) * 2004-10-08 2007-03-14 삼성전자주식회사 다 단계 음성 인식 장치 및 방법
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US8024194B2 (en) * 2004-12-08 2011-09-20 Nuance Communications, Inc. Dynamic switching between local and remote speech rendering
US8706501B2 (en) * 2004-12-09 2014-04-22 Nuance Communications, Inc. Method and system for sharing speech processing resources over a communication network
US20060149551A1 (en) * 2004-12-22 2006-07-06 Ganong William F Iii Mobile dictation correction user interface
US7529677B1 (en) 2005-01-21 2009-05-05 Itt Manufacturing Enterprises, Inc. Methods and apparatus for remotely processing locally generated commands to control a local device
DE102005010285A1 (de) * 2005-03-01 2006-09-07 Deutsche Telekom Ag Verfahren und System zur Spracherkennung
US20060247925A1 (en) * 2005-04-27 2006-11-02 International Business Machines Corporation Virtual push-to-talk
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7542904B2 (en) * 2005-08-19 2009-06-02 Cisco Technology, Inc. System and method for maintaining a speech-recognition grammar
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
EP1934971A4 (en) 2005-08-31 2010-10-27 Voicebox Technologies Inc DYNAMIC LANGUAGE SCRIPTURE
US7788590B2 (en) 2005-09-26 2010-08-31 Microsoft Corporation Lightweight reference user interface
US7992085B2 (en) 2005-09-26 2011-08-02 Microsoft Corporation Lightweight reference user interface
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
WO2007117626A2 (en) * 2006-04-05 2007-10-18 Yap, Inc. Hosted voice recognition system for wireless devices
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
JP4859642B2 (ja) * 2006-11-30 2012-01-25 富士通株式会社 音声情報管理装置
US8296139B2 (en) * 2006-12-22 2012-10-23 International Business Machines Corporation Adding real-time dictation capabilities for speech processing operations handled by a networked speech processing system
JP5240457B2 (ja) * 2007-01-16 2013-07-17 日本電気株式会社 拡張認識辞書学習装置と音声認識システム
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
JP2010518456A (ja) * 2007-02-13 2010-05-27 エヌテラ リミテッド アクティブマトリクス反射表示デバイスのための電圧フィードバック回路
TWI321313B (en) * 2007-03-03 2010-03-01 Ind Tech Res Inst Apparatus and method to reduce recognization errors through context relations among dialogue turns
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US8352264B2 (en) 2008-03-19 2013-01-08 Canyon IP Holdings, LLC Corrective feedback loop for automated speech recognition
US8086457B2 (en) 2007-05-30 2011-12-27 Cepstral, LLC System and method for client voice building
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8099289B2 (en) * 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
US8255224B2 (en) * 2008-03-07 2012-08-28 Google Inc. Voice recognition grammar selection based on context
US8831950B2 (en) * 2008-04-07 2014-09-09 Nuance Communications, Inc. Automated voice enablement of a web page
US9047869B2 (en) * 2008-04-07 2015-06-02 Nuance Communications, Inc. Free form input field support for automated voice enablement of a web page
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8019608B2 (en) * 2008-08-29 2011-09-13 Multimodal Technologies, Inc. Distributed speech recognition using one way communication
CA2748695C (en) 2008-12-31 2017-11-07 Bce Inc. System and method for unlocking a device
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
JP5244663B2 (ja) * 2009-03-18 2013-07-24 Kddi株式会社 音声によってテキストを入力する音声認識処理方法及びシステム
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9099087B2 (en) * 2010-09-03 2015-08-04 Canyon IP Holdings, LLC Methods and systems for obtaining language models for transcribing communications
US20120078635A1 (en) * 2010-09-24 2012-03-29 Apple Inc. Voice control system
US9953653B2 (en) 2011-01-07 2018-04-24 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
KR20130016644A (ko) * 2011-08-08 2013-02-18 삼성전자주식회사 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법
US8914288B2 (en) 2011-09-01 2014-12-16 At&T Intellectual Property I, L.P. System and method for advanced turn-taking for interactive spoken dialog systems
WO2014055076A1 (en) 2012-10-04 2014-04-10 Nuance Communications, Inc. Improved hybrid controller for asr
US9691377B2 (en) 2013-07-23 2017-06-27 Google Technology Holdings LLC Method and device for voice recognition training
US9275638B2 (en) 2013-03-12 2016-03-01 Google Technology Holdings LLC Method and apparatus for training a voice recognition model database
US10811004B2 (en) * 2013-03-28 2020-10-20 Nuance Communications, Inc. Auto-generation of parsing grammars from a concept ontology
US10170114B2 (en) 2013-05-30 2019-01-01 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
US9548047B2 (en) 2013-07-31 2017-01-17 Google Technology Holdings LLC Method and apparatus for evaluating trigger phrase enrollment
US9218804B2 (en) 2013-09-12 2015-12-22 At&T Intellectual Property I, L.P. System and method for distributed voice models across cloud and device for embedded text-to-speech
US9558736B2 (en) * 2014-07-02 2017-01-31 Bose Corporation Voice prompt generation combining native and remotely-generated speech data
JP6390264B2 (ja) * 2014-08-21 2018-09-19 トヨタ自動車株式会社 応答生成方法、応答生成装置及び応答生成プログラム
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
US9626703B2 (en) 2014-09-16 2017-04-18 Voicebox Technologies Corporation Voice commerce
US9747896B2 (en) 2014-10-15 2017-08-29 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
EP3341933A1 (en) * 2015-10-21 2018-07-04 Google LLC Parameter collection and automatic dialog generation in dialog systems
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10097919B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Music service selection
US10192555B2 (en) * 2016-04-28 2019-01-29 Microsoft Technology Licensing, Llc Dynamic speech recognition data evaluation
US11010820B2 (en) * 2016-05-05 2021-05-18 Transform Sr Brands Llc Request fulfillment system, method, and media
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10592611B2 (en) * 2016-10-24 2020-03-17 Conduent Business Services, Llc System for automatic extraction of structure from spoken conversation using lexical and acoustic features
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
US20180218729A1 (en) * 2017-01-31 2018-08-02 Interactive Intelligence Group, Inc. System and method for speech-based interaction resolution
US10757058B2 (en) 2017-02-17 2020-08-25 International Business Machines Corporation Outgoing communication scam prevention
US10102868B2 (en) * 2017-02-17 2018-10-16 International Business Machines Corporation Bot-based honeypot poison resilient data collection
US10810510B2 (en) 2017-02-17 2020-10-20 International Business Machines Corporation Conversation and context aware fraud and abuse prevention agent
US10332505B2 (en) * 2017-03-09 2019-06-25 Capital One Services, Llc Systems and methods for providing automated natural language dialogue with customers
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10796088B2 (en) * 2017-04-21 2020-10-06 International Business Machines Corporation Specifying a conversational computer agent and its outcome with a grammar
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
DE102017213946B4 (de) 2017-08-10 2022-11-10 Audi Ag Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US11343374B1 (en) * 2017-12-14 2022-05-24 Amazon Technologies, Inc. Message aggregation and comparing
US10715470B1 (en) * 2017-12-14 2020-07-14 Amazon Technologies, Inc. Communication account contact ingestion and aggregation
US11145291B2 (en) * 2018-01-31 2021-10-12 Microsoft Technology Licensing, Llc Training natural language system with generated dialogues
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10861440B2 (en) * 2018-02-05 2020-12-08 Microsoft Technology Licensing, Llc Utterance annotation user interface
US11133001B2 (en) * 2018-03-20 2021-09-28 Microsoft Technology Licensing, Llc Generating dialogue events for natural language system
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US10885912B2 (en) * 2018-11-13 2021-01-05 Motorola Solutions, Inc. Methods and systems for providing a corrected voice command
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US10867604B2 (en) * 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
CN111081247A (zh) * 2019-12-24 2020-04-28 腾讯科技(深圳)有限公司 语音识别的方法以及终端、服务器和计算机可读存储介质
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11574622B2 (en) 2020-07-02 2023-02-07 Ford Global Technologies, Llc Joint automatic speech recognition and text to speech conversion using adversarial neural networks
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3088739B2 (ja) * 1989-10-06 2000-09-18 株式会社リコー 音声認識システム
JPH04372037A (ja) * 1991-06-21 1992-12-25 Matsushita Electric Ind Co Ltd システム管理情報設定装置
EP0542628B1 (en) 1991-11-12 2001-10-10 Fujitsu Limited Speech synthesis system
US5425128A (en) * 1992-05-29 1995-06-13 Sunquest Information Systems, Inc. Automatic management system for speech recognition processes
JP2524472B2 (ja) * 1992-09-21 1996-08-14 インターナショナル・ビジネス・マシーンズ・コーポレイション 電話回線利用の音声認識システムを訓練する方法
JP2818362B2 (ja) * 1992-09-21 1998-10-30 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識装置のコンテキスト切換えシステムおよび方法
CA2105034C (en) * 1992-10-09 1997-12-30 Biing-Hwang Juang Speaker verification with cohort normalized scoring
US5632002A (en) * 1992-12-28 1997-05-20 Kabushiki Kaisha Toshiba Speech recognition interface system suitable for window systems and speech mail systems
KR100312920B1 (ko) * 1993-03-31 2001-12-28 내쉬 로저 윌리엄 연결된음성인식의방법및장치
US5524169A (en) * 1993-12-30 1996-06-04 International Business Machines Incorporated Method and system for location-specific speech recognition
JPH07222248A (ja) * 1994-02-08 1995-08-18 Hitachi Ltd 携帯型情報端末における音声情報の利用方式
US5586171A (en) * 1994-07-07 1996-12-17 Bell Atlantic Network Services, Inc. Selection of a voice recognition data base responsive to video data
US5623605A (en) * 1994-08-29 1997-04-22 Lucent Technologies Inc. Methods and systems for interprocess communication and inter-network data transfer
US5752232A (en) * 1994-11-14 1998-05-12 Lucent Technologies Inc. Voice activated device and method for providing access to remotely retrieved data
US5682478A (en) * 1995-01-19 1997-10-28 Microsoft Corporation Method and apparatus for supporting multiple, simultaneous services over multiple, simultaneous connections between a client and network server
US5732219A (en) * 1995-03-17 1998-03-24 Vermeer Technologies, Inc. Computer system and computer-implemented process for remote editing of computer files
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5745754A (en) * 1995-06-07 1998-04-28 International Business Machines Corporation Sub-agent for fulfilling requests of a web browser using an intelligent agent and providing a report
US5745874A (en) * 1996-03-04 1998-04-28 National Semiconductor Corporation Preprocessor for automatic speech recognition system
US6456974B1 (en) * 1997-01-06 2002-09-24 Texas Instruments Incorporated System and method for adding speech recognition capabilities to java
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network

Also Published As

Publication number Publication date
JP4849894B2 (ja) 2012-01-11
MX2007013015A (es) 2009-02-17
MX9802754A (es) 1998-12-31
EP0872827A2 (en) 1998-10-21
US6078886A (en) 2000-06-20
US20020091528A1 (en) 2002-07-11
JP2003050594A (ja) 2003-02-21
DE69829604T2 (de) 2006-02-09
DE69829604D1 (de) 2005-05-12
EP0872827B1 (en) 2005-04-06
JPH10333693A (ja) 1998-12-18
US6604077B2 (en) 2003-08-05
JP2006146262A (ja) 2006-06-08
CA2228917A1 (en) 1998-10-14
EP0872827A3 (en) 1999-04-21
CA2228917C (en) 2002-03-19
US6366886B1 (en) 2002-04-02

Similar Documents

Publication Publication Date Title
MX2007013017A (es) Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes.
US7139715B2 (en) System and method for providing remote automatic speech recognition and text to speech services via a packet network
US8209184B1 (en) System and method of providing generated speech via a network
US9761241B2 (en) System and method for providing network coordinated conversational services
EP1125279B1 (en) System and method for providing network coordinated conversational services
US8175883B2 (en) Speech recognition system and method
RU2349969C2 (ru) Синхронное понимание семантических объектов, реализованное с помощью тэгов речевого приложения
JP5179375B2 (ja) クライアント−サーバー計算システムにおいて音声アプリケーションを処理する方法及びサーバー
US6208972B1 (en) Method for integrating computer processes with an interface controlled by voice actuated grammars
US20040249640A1 (en) Method for integrating processes with a multi-faceted human centered interface
WO2002069320A2 (en) Spoken language interface
MXPA98002754A (es) Sistema y metodo para proporcionar servicios de reconocimiento de voz automatico remoto via una redpaquete
Demesticha et al. Aspects of design and implementation of a multi-channel and multi-modal information system

Legal Events

Date Code Title Description
FG Grant or registration