MX2007013017A - Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes. - Google Patents
Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes.Info
- Publication number
- MX2007013017A MX2007013017A MX2007013017A MX2007013017A MX2007013017A MX 2007013017 A MX2007013017 A MX 2007013017A MX 2007013017 A MX2007013017 A MX 2007013017A MX 2007013017 A MX2007013017 A MX 2007013017A MX 2007013017 A MX2007013017 A MX 2007013017A
- Authority
- MX
- Mexico
- Prior art keywords
- asr
- grammar
- client
- voice
- server
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000004044 response Effects 0.000 claims description 13
- 235000013550 pizza Nutrition 0.000 description 38
- 230000008569 process Effects 0.000 description 21
- 230000000644 propagated effect Effects 0.000 description 15
- 238000012545 processing Methods 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000004913 activation Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 238000009434 installation Methods 0.000 description 3
- 235000013580 sausages Nutrition 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011900 installation process Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M7/00—Arrangements for interconnection between switching centres
- H04M7/006—Networks other than PSTN/ISDN providing telephone service, e.g. Voice over Internet Protocol (VoIP), including next generation networks with a packet-switched transport layer
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99948—Application of database or data structure, e.g. distributed, multimedia, or image
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer And Data Communications (AREA)
- Information Transfer Between Computers (AREA)
- Telephonic Communication Services (AREA)
Abstract
Un sistema y método para operar un servicio de reconocimiento de voz automático que usa una arquitectura cliente-servidor se usa para hacer los servicios ASR accesibles a un cliente que se encuentra lejos de la localización de la máquina ASR principal. La presente invención utiliza las comunicaciones cliente-servidor sobre una red paquete, tal como la Internet, en donde el servidor ASR recibe una gramática del cliente, recibe información que representa la voz del cliente, efectúa el reconocimiento de la voz, y regresa información basada en la voz reconocida al cliente.
Description
METODO PARA OPERAR UN SERVICIO DE RECONOCIMIENTO AUTOMATICO DE VOZ ACCESIBLE EN FORMA REMOTA POR EL CLIENTE SOBRE UNA RED EN PAQUETES
CAMPO TECNICO
Esta invención se relaciona con el reconocimiento de voz en general y, de manera más particular, proporciona una maneta de proporcionar servicios de reconocimiento de voz automático accesibles remotamente vía una red paquete.
ANTECEDENTES DE LA INVENCION
Las técnicas para lograr el reconocimiento de voz automático (ASR) son bien conocidas. Entre las técnicas ASR conocidas se encuentran aquellas que usan gramáticas. Una gramática es una representación del lenguaje o frases que se espera sean usadas o hablas en un contexto dado. En un sentido, entonces, las gramáticas ASR típicamente restringen el recorocedor de la voz en un vocabulario que es un subconjunto del universo de las palabras potenciálmente habladas,I y las gramáticas pueden incluir subgramáticas . Una regla de ¡gramática ASR puede entonces usarse para representar el conjunto de "frases" o combinaciones de palabras de una o más gramáticas o subgramáticas que pueden esperarse en un Ref: 187130
de la metodología de reconocimiento de voz automático ("ASR") han sido recientemente introducidos comercialmente . Por ejemplo, AT&T ha desarrollado una máquina ASR basada en una gramática llamada WATSON que permite el desarrollo de servicios ASR complejos. Los atributos deseables de los servicias ASR complejos que podrían utilizar tal tecnología ASR incluyen una alta exactitud en el reconocimiento; robusteá para permitir' el reconocimiento en donde los locutores tienen diferentes acentos o dialectos, y/o en
I presencia de ruido de fondo; capacidad para manejar vocabularios grandes; y comprender el lenguaje natural. Para lograr ésos atributos para los servicios ASR complejos, las técnicas y máquinas ASR típicamente requieren sistemas a base de computadora que tengan una capacidad de procesamiento significativa para lograr la capacidad de reconocimiento de voz deseada. La capacidad de procesamiento como se usa aquí se refiere a la velocidad del procesador, memoria, espacio de ¦disco, así como al acceso de bases de datos de aplicación. Tales requerimientos han restringido el desarrollo de los serviciós ASR complejos que están disponibles en el
escritorio de uno, debido a que los requerimientos de procesamiento exceden las capacidades de la mayoría de los sistemas! de escritorio, ios cuales se basan típicamente en la tecnología de la computadora personal (PC) . i Las redes paquetes son redes de datos de propósitj) general las cuales son muy adecuadas para enviar datos al†acenados de varios tipos, incluyendo voz o audio. La Internet,! la más grande y más renombrada de las redes de paquetes existentes, conecta más de 4 millones de computadoras en unos 140 países. El crecimiento global y exponencial de Internet es de conocimiento común hoy día. : Típicamente, uno tiene acceso a una red de paquetes,) tal como la Internet, a través de un programa de cliente que se ejecuta en una computadora, tal como una PC, y de este | modo las redes paquetes restan inherentemente orientadas al cliente/servidor. Una manera de tener acceso a í ia inforidación sobre una red paquete es a través del uso j de un explorador u hojeador de la red (tal como el Netscape Navigator!, disponible de Netscape Communications, Inc., y el Internet 'Explorer, disponible de Microsoft Corp.) el cual permite a un cliente interactuar con los servidores de la red. Los ¡servidores de la red y la información disponible en ella son ¡identificados típicamente y tratados a través de un
Localizador de Recursos Uniforme (URL) - de dirección i compatible. El direccionamiento URL es ampliamente usado en
aplicaciones de Internet e intranet y es bien conocido por í aqueilosi expertos en la técnica (un "intranet" es una red paquete ' modelada en f ncionalidad basada en la Internet y se usa, por, ejemplo, por compañías local o internamente) . Lo que se desea es una manera de permitir que los serviciois ASR puedan ser disponibles a un usuario en un lugar, tal como en su escritorio, es decir remotos del sistema ¡que aloja la máquina ASR.
BREVE DESCRIPCION DE LA ?E¡VENC?QE3
Se usa un sistema y método de operación de un servicio de reconocimiento de voz automático que usa una i arquitectura cliente-servidor para hacer los servicios ASR accesibles a un cliente que se localiza lejos del lugar de la máquina ASR principal. De acuerdo con la presente invención, usando comunicaciones cliente-servidor sobre una red de paquetes, tal como la Internet, el servidor ASR recibe una gramátiqa del cliente, recibe información que representa la voz del cliente, efectúa el reconocimiento de voz, y regresa la información basada en la voz reconocida al cliente. Las modalidajdes alternativas de la presente incluyen una variedad de maneras para tener acceso a la gramática deseada, el uso de la compresión o extracción de características como un paso de procesamiento en el cliente ASR antes de transferir la
información hablada al servidor ASR, estableciendo un diálogo entre eli cliente y el servidor, y operando un servicio de llenado de forma.
BREVE DESCRIPCION DE LOS DIBUJOS
La FIGURA 1 es un diagrama que muestra una relación cliente-servidor de un sistema que proporciona servicios ASR remotos de acuerdo con la presente invención. La FIGURA 2 es un diagrama que muestra un proceso de instalación para permitir los servicios de ASR remotos de acuerdo con la presente invención. La FIGURA 3 es un diagrama que muestra un proceso de instalación alternativo para permitir los servicios de ASR remotos de acuerdo con la presente invención. La FIGURA 4 es un diagrama que muestra un proceso para reglamentar la selección de acuerdo con la presente invención. La FIGURA 5 es un diagrama que muestra un proceso para permitir el reconocimiento de voz automático remoto de acuerdo cpn la presente invención. La FIGURA 6 es un diagrama que muestra un proceso alternativo para permitir el reconocimiento de voz automático remoto de' acuerdo con la presente invención.
La FIGURA 7 es un diagrama que muestra otro proceso alternativo para permitir el reconocimiento de voz automático remoto eje acuerdo con la presente invención.
i DESCRIPCION DETALLADA DE XA INVENCION i
La presente invención está dirigida a un sistema basado én la arquitectura cliente-servidor para proporcionar serviciqs ASR disponibles remotamente. De acuerdo con la i presente; invención, los servicios ASR pueden ser proporcionados a un usuario -- por ejemplo, en el escritorio del usuario-- sobre una red paquete ', tal como la
Internet!, si la necesidad de que el usuario obtenga equipo de cómputo í que tenga la capacidad de procesamiento extensiva requerida para ejecutar todas las técnicas ASR. Una arquitectura cliente-servidor básica usada de acuerdo 'con la presente invención se muestra en la FIGURA 1. Un servidor ASR 100 es una máquina con programas y sistemas de programación ASR, los cuales se ejecutan en un sistema, denotado; como nodo del servidor 110, que puede ligarse a través de la red de paquetes 120 (tal como la Internet) a otras computadoras. El nodo del servidor 110 puede ser típicamente una computadora que tenga capacidad de procesamliento suficiente para ejecutar aplicaciones a base de ASR complejas, tales como el sistema WATSON de AT&T . La red
paquete 120 puede, de manera ilustrativa, ser la Internet o una intranet. El cliente ASR 130 es un programa relativamente pequeño '(cuando se compara con el servidor ASR 100) que se ejecuta en la PC del cliente 140. La PC del cliente 140 es una computadora, tal como una computadora personal (PC) , que tiene suficiente capacidad de procesamiento para ejecutar aplicacicnes de cliente, tales como un Examinador u hojeador de la red. La PC del cliente incluye componentes físicos de computación, tales como un micrófono, y programas y sistemas de programación para la entrada y captura de sonidos de audio, tales como la voz. Los métodos para conectar
I micrófonos a una PC y capturar sonidos de audio, tales como la voz, 1 en la PC son bien conocidos. Los ejemplos de capacidades de manejo de voz para PC incluyen Interfase de Programador de Aplicación de Voz (SAPI) de Microsoft y la Interfase ; de Programador de Aplicación de Voz Avanzada de AT&T (ASAPI) . Los detalles de la SAPI de Microsoft se encuentran en, por ejemplo, una publicación titulada "Speech API Developers Guide, Windows 95 Edition", Versión 1.0, Microsoft Corporation (1995), y los detalles de la ASAPI de AT&T se proporcionan en una publicación titulada "Advanced Speech API Developers Guide", Versión 1.0, AT&T Corporation (1996); cada una de esas publicaciones se incorpora aquí como referencia. Una modalidad alternativa de la presente
ínvenciqn puede utilizar una interfase entre el cliente ASR 130 y unjo o más canales de voz, de modo que la entrada de voz pueda se¡r proporcionada por otras fuentes de audio diferentes a un mic|rófono. La PC del cliente 140 también tiene la capacidad de comunicarse con otras computadoras sobre una red paquete
(tal comjo la Internet) . Los métodos para establecer un enlace i de comunicaciones con otras computadoras sobre una red paquete : (tal como la Internet) son bien conocidos e incluyen> por ejemplo, el uso de un módem para marcar a un proveedor de servicios de Internet sobre una linea i i telefónica . 1 El servidor ASR 100, a través del nodo del servidor 110, y el cliente ASR 130, a través de la PC del cliente 140, pueden comunicarse con otro sobre la red de paquetes 120 usando métodos conocidos adecuados para comunicar información (incluyendo la transmisión de datos) sobre una red de paquetes ¡ usando, por ejemplo, un protocolo de comunicaciones estándar tal como el Protocolo de control de Transmisión/Protocolo de Internet (TCP/IP) . Una conexión TCP/IP es análoga a una "tubería" a través de la cual la información puede ser transmitida sobre la red paquete de un punto a otro. El establecimiento de una conexión TCP/IP entre el servidor 1 ASR 100 y el cliente ASR 130 permitirá la
.r; ..sfeijencia de datos entre ei servidor ASR 100 y el cliente ASR 130 ¡sobre la red paquete 120 necesaria para permitir les servicios ASR de acuerdo con la presente invención. El i :iiente I ASR 130 también se interconecta con capacidades de entrada |y salida de audio/voz y capacidades de despliegue de textos/gráficas de la PC del cliente 140. Los métodos e ínter fas es para manejar la entrada y salida de audio y voz son bien conocidos, y los métodos e interfas-es para manejar el despliegue de textos y gráficas también son bien conocideis. El cliente ASR 130 puede ser instalado para ejecutarse en una PC del cliente 140 de varias formas. Por ejemplo,! el cliente ASR 130 puede ser cargado en la PC del cliente 140 desde un medio de almacenamiento de datos permanente, tal como un disco magnético o CD-ROM. De manera alternativa, el cliente ASR 130 puede ser descargado de una fuente de información o datos localizables sobre la red paquete tal como la Internet. La descarga del cliente ASR
130 puede, por ejemplo, efectuarse una vez para que resida i permanentemente en la PC del cliente 140; de manera alternativa, el cliente ASR 130 puede ser descargado para propósitos de un solo uso o limitado. El cliente ÁSR 130 puede ser implementado, por ejemplo como un módulo de programas y sistemas de programación intercambiable pequeño para otrío programa, tal como un examinador u hojeador de la
red, que¡ se ejecuta en la PC del cliente 140. Una forma de lograr esto es hacer que el cliente ASR 130 un. componente de programa- y sistemas de programación X Activo de acuerdo al estándar i X Activo de Microsoft. De esta manera, el cliente ASR 130 puede, por ejemplo, ser cargado en la PC del cliente 140 en c njunto con una sesión del examinador u hojeador de la red cpmo sigue: un usuario examina la red mundial usando la PC del cliente 140, se introduce en un sitio de la red que tenga capacidad ASR; el sitio de la red solicita permiso al usuario para descargar un módulo de cliente ASR en la PC de cliente 140 de acuerdo con el control X Activo señalado; i después cié la autorización del usuario, el cliente ASR 130 es descargado en la PC del cliente 140. De manera similar, el servidor ASR 100 puede ser instalado para ejecutarse en el nodo del servidor 110 de varias formas, por ejemplo, el servidor ASR puede ser cargado en el nodo del servidor 100 desde un medio de almacenamiento de datos permanente, tal como un disco magnético, o CD-ROM, o, de manera alternativa, el servidor ASR 100 puede ser descargado de una fuente de información o datos localizables sobre la red paquete , tal como la Internet. Ahora se describirán los detalles adicionales para proporcionar servicios ASR remotos de acuerdo con la presente invención1 con referencia a las FIGURAS 2-7. Se presume para la discusión siguiente con respecto a cada una de esas
i figuras que la relación cliente-servidor es como se muestra en la EjlGURA 1. Se usó una fase de instalación para preparar el servidor ASR 100 y el cliente ASR 130 para efectuar una tarea de reconocimiento de voz automático como parte de la aplicación ASR. Por conveniencia, los puntos mostrados en la ? FIGURA 1 y que aparecen en otras figuras serán identificados por los mismo números de referencia que en la i FIGURA 1. Refiriéndose ahora a la FIGURA 2, ahora se describirá una fase de instalación en un proceso para proporcionar servicios ASR remotos. En el paso 201, el cliente : ASR 130 recibe una petición de la solicitud para cargar úna gramática del cliente. La gramática del cliente es ilustratjivamente un archivo de datos que contiene información que representa el lenguaje (por ejemplo, palabras y frases) que se áspera sean habladas en el contexto de la aplicación ASR particular. El archivo de datos puede estar en un formato conocido!, tal como el formato de gramática estándar (SGF) el cual es parte de la SAPI Microsoft. Para propósitos de ilustración, se usaré una aplicación ASR para tomar la orden de una pizza para describir la presente invención. Una aplicación de servicios ASR, tal! como una aplicación para ordenar una pizza, podria incluir típicamente un programa que se interconecta con y usa el cliente ASR 130 como un recurso usado para efectuar las
:areas de la aplicación ASR . Tal aplicación ASR podría recidir y ejecutarse, teda o en parte, en una PC del cliente 140. Considerando el ejemplo de ordenar una pizza, la gramática del cliente PIZZA podría incluir información que representa palabras que uno puede usar para ordenar una pizza, tales como "pizza", "pepperoni", etc. En efecto, pueden usarse subgramáticas para construir una gramática apropiada. Para el ejemplo de ordenar una pizza, las subgramáticas para la gramática PIZZA podrían incluir TAMAÑO y COBERT RA. La subgramática TAMAÑO podría consistir de las palabras I usadas para describir el tamaño de la pizza deseada, tales como "pequeña", "mediana" y "grande". El subgramática COBERTURA puede consistir de las palabras usadas para describir las diferentes coberturas que se pueden ordenar con una pi|zza, por ejemplo, "salchicha", "pepperoni", "champiñones" y similares. Un cliente ASR 130 se le puede dar la gramática deseada desde la aplicación o, de manera alternativa, el i cliente ASR 130 puede elegir la gramática de un conjunto predeterminado basado en la información proporcionada por la aplicación. De cualquier manera, el cliente ASR 130 entonces en el pjaso 202 envía el archivo de gramática deseado al servidor , ASR 100 sobre una conexión TCP/IP. Se puede hacer una nueva conexión TCP/IP como parte del establecimiento de
una nueva cesión de comunicaciones entre la PC del cliente 140 y el nodo {del servidor 100, o la conexión TCP/IP puede existir ya como rebultado de una cesión de comunicaciones establecida entre lá PC del cliente 140 y el nodo de servidor 110 que no ha sido terminada. En la ilustración de ordenar una pizza, el i cliente 1 ASR 130 podría efectuar la transmisión de un archivo que contiene la gramática PIZZA al servidor ASR 100 sobre una conexión TCP/IP. En el paso 203, el servidor ASR 100 recibe la gramática del cliente enviada desde el cliente ASR 130 y, en el paso, 204, el servidor ASR carga la gramática del cliente transmitida. Como se usa aquí, "cargar" la gramática del cliente significa hacer la gramática accesible para su uso por el servidor ASR 100, por ejemplo almacenando la gramática en - la RAM del nodo del servidor 110. En el paso 205, el servidor ASR 100 regresa un "manipulador" de gramática al cliente 130. Un "manipulador" de gramática es un marcador, tal comb, por ejemplo, un apuntador para la memoria que contiene la gramática cargada, que permite que el cliente ASR i se refiera fácilmente a la gramática durante el resto de la cesión de comunicaciones o la ejecución de la aplicación. El cliente ; ASR 130 recibe el manipulador de gramática del servidor ASR 100 en el paso 206 y retorna el manipulador a la aplicación en el paso 207. Para el ejemplo de ordenar una pizza, eil servidor ASR 100 podría recibir y cargar el archivo
de gramática de pizza transmitido y transmitirlo nuevamente al cliente ASR 130 un manipulador que apunta a la gramática PIZZA cargada. El cliente ASR, a su vez, podría recibir el manipulador de PIZZA del servidor ASR 100 y regresarj el manipulador de PIZZA a la aplicación para ordenar una pizza. De esta manera, la aplicación puede referirse simplemente al manipulador de PIZZA cuando lleva a cabo o inicia una tarea ASR como parte de la aplicación para ordenar una pizz¡a. Ahora se describirá un método de instalación alternativo con referencia a la FIGURA 3. Se asume para el resto de la descripción aquí que la transmisión o comunicación de información o datos entre el servidor ASR 100 y eil cliente ASR 130 toman lugar sobre una conexión TCP/IP establecida. En el paso 301, el cliente ASR 130 recibe una petición de la aplicación para cargar una gramática del cliente. ' En lugar de enviar la gramática del cliente como un archivo de datos al servidor ASR 100 en el paso 302, sin embargo, , el cliente ASR 130 en su lugar envía al servidor ASR 100 un identificador que representa una gramática "enlatada"; una gramática "enlatada" podría, por ejemplo, ser una gramática común, tal como la HORA DEL DIA o FECHA, la cual el servidor ASR 100 podría ya tener almacenada. De manera alternativa, el cliente ASR 130 podría enviar al servidor ASR 100 una dirección IP, tal como una dirección compatible con
URL, en¡ donde el servidor ASR 100 podría encontrar el archivo
I de la gramática deseada. El servidor ASR 100 en el paso 303 recibe el identificador de la gramática o dirección de la
I gramática URL del cliente ASR 130, localiza y carga la gramática del cliente solicitada en el paso 304, y en el paso i 305 regresa un manipulador de gramática al cliente ASR 130. De manera similar los pasos descritos anteriormente con respectó a la FIGURA 2, el cliente ASR 130 recibe el manipulador de gramática del servidor ASR 100 en el paso 306 y regresa al manipulador a la aplicación en el paso 307. Para el ejemplo de ordenar una pizza, los pasos descritos anteriorlmente en relación a la FIGURA 2 podrían ser los mismos, excepto que el cliente ASR 130 podría enviar al servidor! ASR 100 un identificador de gramática para la gramática PIZZA (si esta fuese una gramática "enlatada") o una dirección URL para la localización de un archivo que contiene la gramática PIZZA; el servidor ASR 100 podría, a su vez, recuperar un archivo de la gramática PIZZA basado en el identificador de gramática o dirección URL (como el enviado por el cliente ASR) y a continuación cargar la gramática PIZZA solicitada. Después de que la gramática ha sido cargada y el manipulador de gramática ha regresado al cliente ASR 130, una aplicación de servicio ASR necesita seleccionar una · regla de gramática a ser activada. La FIGURA 4 muestra un proceso para
la selección de la regla de gramática de acuerdo con la presente1] invención. El cliente ASR 130 recibe de la solicitud la peticjión de activar una regla de gramática en el paso 401. En el pajso 402, el cliente ASR envía la petición de activar una regla al servidor ASR 100; como se muestra en la FIGURA 4, el cliente ASR 130 también en el paso 402 envía al servidor ASR 100 el manipulador de gramática previamente regresado (el cual puede permitir al servidor ASR activar la i regla de gramática apropiada para la gramática particular de acuerdo a lo identificado por el manipulador de gramática) .
El servidor ASR 100 en el paso 403 recibe la petición de activar la regla y el manipulador de gramática (si se envió) . En el paso 404, el servidor ASR 100 activa la regla solicitada y, en el paso 405, regresa al cliente ASR 130 la notificación de que la regla solicitada ha sido activada. El cliente ÁSR 130 recibe en el paso 406 la notificación de la activación de la regla y notifica a la aplicación en el paso 407 que la regla ha sido activada. Una vez que la aplicación recibe la noticia de activación de la regla, puede entonces iniciar e;l reconocimiento de voz. Para propósitos de ilustración del proceso mostrado en la FIGURA 4, nuevamente considere el ejemplo de ordenar una pizza¡. Una regla que puede usarse para el reconocimiento de una orden de pizza puede fijar la frase deseada en un orden para incluir las subgramáticas TAMAÑO y COBERTURAS
i
I7
junto c n la palabra "pizza", y puede denotarse de la siguiente manera: {ORDEN = TAMAÑO "pizza" "con" COBERTURAS}. Con referencia nuevamente a la FIGURA 4, el cliente ASR 130 podría rlecibir de la aplicación la solicitud de activar una regla para ordenar una pizza y enviar la regla de ORDEN expuestai anteriormente al servidor ASR 100 junto con el manipulador de la gramática PIZZA. El servidor ASR recibe la peticióni de activar la regla junto con el manipulador de la gramática PIZZA y activa la gramática del ORDEN, de modo que el reconocedor podría restringirse a reconocer palabras de la subgramática TAMAÑO, la palabra "pizza", la palabra "con" y las palabras de la subgramática COBERTURAS. Después de activar la regla de ORDEN, el servidor ASR 100 envía la notificación de la activación de la regla al cliente ASR 130 el cual, a su vez lo notifica a la aplicación. Una vez que ha sido activada una regla de gramática, el procesamiento de voz para propósitos de reconocimiento de palabras en la gramática de acuerdo a la regla puede tomar lugar. Refiriéndose a la FIGURA 5, en el paso 501 el cliente ASR 130 recibe una petición de la solicitud para iniciar una tarea de reconocimiento de voz. En el paso 502, el cliente ASR 130 solicita propagar el audio de la entrada de audio de la PC 140. La propagación del audio se refiere al audio que está siendo procesado "en el aire" mientras 'viene más suave; el sistema no espera que entre todo
el audio ¡ (es decir, toda la voz) antes de enviar el audio al i procesamiento digital; la propagación del audio también puede referirse a la transmisión parcial o parte de la señal de audio cujando está siendo introducido audio adicional. De manera ilustrativa, una petición de propagación de audio puede efectuarse haciendo una llamada de programas y sistemas de programación apropiada al sistema operativo que está siendo ejecutado en la PC del cliente 140 de modo que la propagación del audio en el micrófono de entrada sea digitalizada por el procesador de sonido de la PC del cliente 140. La propagación del audio digitalizado de la entrada del micrófono' se hace pasar entonces a lo largo del cliente ASR 130. El cliente ASR 130 inicia entonces la transmisión del audio digitalizado propagado al servidor ASR 100 en el paso 503; al igual que la entrada de audio del micrófono, el audio digitaliziado es enviado al servidor ASR 100 "al aire" aún cuando continúe entrando voz. ¡ En el paso 504, el servidor ASR 100 efectúa el reconocimiento de la voz en el audio digitalizado propagado a medida que el audio es recibido del cliente ASR 130. El reconocimiento de la voz se efectúa usando los algoritmos de reconocimientos conocidos, tales como aquellos empleados por la máquina de reconocimiento de voz WATSON de AT&T, y se efectúa dentro de las restricciones de la gramática seleccionada de acuerdo a lo definido por la regla activada.
En el |paso 505, el servidor ASR 100 retorna el texto propagado (es decir, voz parcialmente reconocida) cuando la voz de ' entrada es reconocida. De este modo, cuando el servidor, ASR 100 alcanza sus resultados iniciales, regresa a i aquellos! resultados al cliente ASR 130 aún cuando el servidor ASR 100 jcontinúe el proceso de audio propagado adicional que está siendo enviado por el cliente ASR 130. Este proceso de regresar¡ el texto reconocido "al aire" permite que el cliente ASR 130 (o la aplicación de interconexión con el cliente ASR 130) proporcione retroalimentación al locutor. Cuando el servidor ASR 100 continua procesando el audio de entrada propagado adicional, puede corregir los resultados del reconocimiento de voz inicial, de modo que el texto regresado pueda realmente actualizar (o corregir) partes del texto ya regresadas al cliente ASR 130 como parte de la tarea de reconocimiento de la voz. Una vez que todo el audio propagado ha sido ; recibido del cliente ASR 130, el servidor ASR completa su proceso de reconocimiento de voz y regresa una versión 1 final del texto reconocido (incluyendo las correcciones) en el paso 506. ' En el paso 507, el cliente ASR 130 recibe el texto reconocido del servidor ASR 100 y regresa el texto a la aplicacióln en el paso 508. Nuevamente, esto puede hacerse "al aire" mientras el texto reconocido entra, y el cliente ASR
pasa a ,1a aplicación cualesquier correcciones del texto reconocido recibido del servidor ASR 100. Refiriéndose al ejemplo de ordenar una pizza, una vez que ¡la regla ORDENAR ha sido activada y la aplicación notificada, el cliente ASR 130 recibirá la solicitud de iniciar ? reconocimiento de voz e iniciara la propagación del audió de la entrada del micrófono. Puede solicitarse al locutor o'rdenar la pizza, y una vez que comience a hablar, el cliente ASR 130 envía el audio propagado digitalizado al servidor |ASR 100. De este modo, cuando el locutor establece, por ejemplo, que desea ordenar una "pizza grande con salchichas y pepperoni", el cliente ASR 130 habrá enviado el audio propagado digitalizado para la primer palabra de la orden a lo largo del servidor ASR 100 aún cuando la segunda palabra esté siendo hablada. El servidor ASR 100, cuando a orden sea hablada, retornará la primer palabra como texto "grande" cuando el resto de la orden esté siendo hablada. Finalmente, una vez que el locutor deja de hablar, el texto reconocido final para la orden, "pizza grande con salchichas, pepperoni puede ser regresado al cliente ASR 130 y, en consecuencia, a la aplicación. Una modalidad alternativa para llevar a cabo el proceso de reconocimiento de voz de acuerdo con la presente invención se muestra en la FIGURA 6. De manera similar al proceso de reconocimiento de voz mostrado en la FIGURA 5, en
el pasO| 601 el cliente ASR 130 recibe la petición de la solicitud para iniciar una tarea de reconocimiento de voz, y en el piso 602, el cliente ASR 130 solicita la propagación del audio desde la entrada del audio de la PC del cliente 140. La propagación del audio digitalizado de la entrada del
I micrófonb se hace pasar entonces a lo largo del cliente ASR 130. En el paso 603, el cliente ASR 130 comprime el audio digitalizado "al aire" y a continuación inicia la transmisión del audio digitalizado comprimido propagado al servidor ASR 100, mientras la entrada de voz continúa. En el paso 604, el servidor ASR 100 descomprime el aire comprimido recibo del cliente ASR 130 antes de efectuar el reconocimiento de voz del audio digitalizado propagado. Como se describió anteriormente con referencia a la FIGURA 5, el reconocimiento de voz se efectúa dentro de las descripciones de la gramática seleccionada de acuerdo a lo definido por la regla activada. En el paso 605, el servidor ASR 100 retorna el texto propagado (es decir, voz parcialmente reconocida) a medida que la voz entrante es reconocida. De este modo, el servidor ASR 100 regresa los resultados iniciales al cliente ASR 130 aún cuando el servidor ASR 100 continua procesando el audio propagado comprimido adicional que está siendo enviado por el cliente SR 130, y puede actualizar o corregir partes del texto ya regresadas al cliente ASR 130 como parte de la tarea de
reconocimiento de la voz. Una vez que todo el audio propagado ha sido: recibido del cliente ASR 130, el servidor ASR completaj su procesamiento de reconocimiento de la voz y
I regresa la versión final del texto reconocido (incluyendo las correcciones) en el paso 606. El cliente ASR 130 recibe el i texto re onocido del servidor ASR 100 en el paso 607 a medida que entra y regresa el texto a la aplicación en el paso 608. Otra modalidad alternativa para llevar a cabo el proceso de reconocimiento de voz de acuerdo con la presente invención se muestra en la FIGURA 7. De manera similar al proceso de reconocimiento de voz mostrado en las FIGURAS 5 y 6, en el paso 701 el cliente ASR 130 recibe la petición de aplicación para iniciar una tarea de reconocimiento de voz y, en el paso 702, el cliente ASR 130 solicita propagar el audio de la entrada de audio de la PC del cliente 140. La propagación del audio digitalizado de la entrada del micrófono se hace pasar entonces al cliente ASR 130. En el paso 703,, el cliente ASR 130 procesa el audio digitalizado "al airei" para extraer las características útiles para el proceso de reconocimiento de la voz y a continuación . inicia la transmisión de las características extraídas al servidor
ASR 100, mientras la entrada de voz continua. La extracción de las carácter! sticas relevantes de la voz implica un i proceso ^independiente de la gramática que es típicamente
parte de j los algoritmos empleados para el reconocimiento de la voz, y puede efectuarse usando los métodos conocidos por aquellos j expertos en la técnica, tales como aquellos basados en el código de predicción lineal (LPC) o el procesamiento de banco de filtros Mel. La extracción de características proporcicjna la información obtenida de las características de las seña'les de voz eliminando a la vez la información
I innecesaria, tal como el volumen. Después de recibir las características extraídas del cliente ASR 130, el servidor ASR 100 en el paso 704 efectúa el reconocimiento de la voz sobre las características
I entrantes1 que están arribando "al aire" (es decir, de manera i análoga a la propagación del audio) . El reconocimiento de la
I voz se efectúa dentro de las restricciones de la gramática seleccionada de acuerdo a lo definido por la regla activada. Como es él caso con las modalidades discutidas anteriormente con referencia a las FIGURAS 5 y 6, en el paso 705 el servidor 'ASR 100 regresa el texto propagado (es decir, voz parcialmente reconocida) al cliente ASR 130 cuando las caracteríéticas de entrada son reconocidas. El servidor ASR 100 continua procesando las características extraídas adicionales que están siendo enviadas al cliente ASR 130, y puede actualizar o corregir partes del texto ya regresado al cliente ASR 130. El servidor ASR completa su proceso de reconocimiento de voz de la recepción de todas las
características extraídas del cliente ASR 130, y regresa una versión final del texto reconocido (incluyendo las i correcciones) en el paso 706. El cliente ASR 130 recibe el texto reconocido del servidor ASR 100 en el paso 707 cero ©ttra y regresa el texto a la aplicación en el paso 708. j Las modalidades alternativas descritas anteriormente con respecto a las FIGURAS 6 y 7 proporcionan cada un^ el procesamiento adicional en el extremo del cliente, j Para ia modalidad en la FIGURA 6, esto comprende la compresión del audio propagado (con la descompresión del audio en¡ el extremo del servidor) para la modalidad en la i FIGURA 7, esta parte incluyó el proceso de reconocimiento de voz en forma de extracción de características. Usando tal procesamiento adicional en el extremo del cliente se reduce significativamente la cantidad de datos transmitidos desde el cliente j ASR 130 al servidor ASR 100. De este modo, se i requieren menos datos para representar las señales de voz que
I están ¡siendo transmitidas. Donde la extracción de características se efectúa en el extremo del cliente, tales benefici|os se incrementan potencialmente de manera aguda, debido que las características extraídas (en oposición a las señáles de voz digitalizadas ) requieren menos datos y no se necesitan enviar características durante los periodos de silencio'. La reducción de datos produce un beneficio doble deseado:1 (1) permite la reducción en el ancho de banda
requerido para lograr un cierto nivel de funcionamiento, y (2) reduce el tiempo de transmisión para enviar datos de voz del cliente ASR al servidor ASR a través de la conexión TCP/IP. Aunque típicamente una regla de gramática será activada , antes del inicio de la transmisión de la información de voz del cliente ASR 130 al servidor ASR 100, la activación de la regla podría tomar lugar después de que algo o toda de la información de voz a ser reconocida ha sido enviada del cliente ASR 130 al servidor ASR 100. En tales circunstancias, el servidor ASR 100 podría efectuar esfuerzos de reconocimiento de la voz hasta que la regla de gramática haya sido activada. La voz enviada por el cliente ASR 130 antes de la activación de una regla de gramática podría ser almacenada temporalmente por el servidor ASR 100 para ser procesada por el reconócedor o, de manera alternativa, tal voz podría ser ignorada. Además, las tareas de reconocimiento de voz múltiples pueden ser ejecutadas usando las técnicas de la presente : invención. Por ejemplo, una aplicación ASR podría solicita del cliente ASR 130 dar instrucciones al servidor ASR 100 para cargar una gramática enlatada por un número telefónico (por ejemplo, "NUMERO TELEFONICO") y a continuación solicitar la activación de los números mencionados que cubran la regla. Después de que es mencionado
un número telefónico y reconocido de acuerdo con la presente invención (por ejemplo, en respuesta a una petición de mencionar el número telefónico, el cliente ASR 130 envía los números mencionados digitalizados al servidor ASR 100 para su reconocimiento) , la aplicación ASR podría ser entonces solicitar al cliente ASR 130 que instale e inicie el i reconocimiento de ordenar una pizza (por ejemplo, cargar gramática PIZZA, activar regla de ORDEN, e iniciar el reconocimiento de la voz) de acuerdo con los ejemplos descritos anteriormente con referencia a las FIGURAS 2-5. Además del ejemplo sencillo de ordenar una pizza usado anteriormente para ilustración, puede proporcionarse un arreglo j amplio de servidores ASR potenciales sobre una red paquete, de acuerdo con la presente invención. Un ejemplo de aplicación ASR permitida por la presente solicitud es un servició de llenado de formas para completar una forma en respuesta a las respuestas habladas para la información requerida para cada uno de un número de espacios en blanco en la forma. De acuerdo con la presente invención, puede implemeritarse un servicio de llenado de formas en donde el cliente! ASR 130 envía las gramáticas que representan las elecciones posibles para cada uno de los espacios en blanco al servidor ASR 100. Para cada espacio en blanco, el cliente ASR 130 solicita la activación de la regla de gramática
i
apropiaba y envía una respuesta hablada correspondiente hecha en respuesta a la solicitud de la información necesaria para completar el espacio en blanco. El servidor ASR 100 aplica un algoritmo de reconocimiento de voz apropiado de acuerdo con la gramíática y regla seleccionada, y regresa el texto a ser insertado en la forma. ; Otros servicios ASR pueden implicar un intercambio de información (per ejemplo, un diálogo) entre el servidor y el cliente. Por ejemplo, una aplicación de servicio ASR para manejar reservaciones de vuelo pueden, de acuerdo con la presenté invención como se describió aquí, utilizar un dialogo , entre el servidor ASR 100 y el cliente ASR 130 para efectuar la tarea ASR. Un dialogo puede proceder como sigue: Locutor (a través del cliente ASR 130 al servidor
ASR 100) : "Deseo un vuelo a los Angeles" La respuesta del servidor ASR al cliente ASR (en fonro de t£xto o, alternativcmente, la voz regresada oor una nráquina operando en ??pta dede texto a voz (ITS) el servidor ASR 100 al cliente ASR 130): "¿De qué ciudad saldrá'?" Locutor (a través del cliente ASR al servidor ASR) : "Washington, DC . " . La respuesta del servidor ASR al cliente ASR: "¿Que día desea salir?"
23
Locutor (del cliente ASR al servidor ASR) : "Martes". , Respuesta del servidor ASR al cliente ASR: "¿A qué hora desea salir?" Locutor (del cliente ASR al servidor ASR) : "A las 4 en punto en la tarde". 1 La respuesta del cliente ASR al servidor ASR: "Puedo registrarlo en el vuelo 4567 de la
.Aerolínea XYZ de Washington, DC a los Angeles el Martes a las i 4 en punto PM. ¿Desea reservar un asiento en este vuelo?" En este caso, la información recibida del servidor ASR 110 i no es literalmente el texto de la voz reconocida, pero su ¡información se basó en la v o z reconocida (lo cual dependerá de la aplicación) . Cada parte del dialogo puede efectuarse de acuerdo con el método cliente-servidor ASR descrito anteriormente. Como puede observarse a partir de este ejemplo, tal aplicación de servicio ASR requiere que el cliente ¡ASR y el servidor ASR no únicamente tengan la capacidad de manejar el lenguaje natural, sino también acceso i a una ba se 'de datos grande que esté c amb i ando c o n s t a n t e m e n t e . P a r a lograr e,sto, puede ser deseable tener una aplicación de servicios : ASR y TTS instalados y ejecutándose en un nodo de servidor 110, en lugar de una PC de cliente 140. La PC del cliente 140, podría, en este caso, simplemente tener que ejecutar un programa de "agente" relativamente pequeño que,
en el ¡ control del programa de aplicación que está e ecutándose en el nodo del servidor 110, inicie al cliente ASR 130 y cuide la entrada de la voz a través del cliente ASR 130 a lo largo del servidor ASR 100. Un ejemplo de tal programa | de "agente" puede ser, por ejemplo, uno que coloque un "encabezado de conversación" sobre la pantalla de la PC del cliejnte 140 para ayudar a la interacción entre un individuq que está usando la aplicación de servicio ASR en la PC del cliente 140 y, a través del cliente ASR 130 y el servidor ASR 100, que envíe información hablada de la persona a lo largp del servidor ASR 100 para su reconocimiento. , En resumen, la presente invención proporciona una forma de; proporcionar servicios ASR que pueden hacerse disponibles a usuarios sobre una red paquete , tal como la Internet, , a un lugar remoto del sistema que aloja una máquina i SR y una mqquina TTS usando una arquitectura cliente-servidor.
Lo que se ha descrito es meramente ilustrativo de la aplica'ción de los principios de la presente invención. i Otros arreglos y métodos pueden ser implementados por aquellos expertos en la técnica sin apartarse del espíritu y alcance de la presente invención.
Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la
práctica | la citada invención, es el que resulta claro de presente jdescripción de la invención. Habiéndose descrito la invención como antecede, reclama como propiedad lo contenido en las siguientes:
Claims (17)
- REIVINDICACIONES Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes reivindicaciones : 1. Un método para proporcionar voz desde un servidor accesible en forma remota sobre una red, el método i está caracterizado porque comprende, en el servidor: ! recibir una identificación de una aplicación de diálogo1 hablado que tiene una gramática asociada; i i reconocer la voz de usuario recibida usando la gramática asociada; y 1 transmitir la voz generada desde el servidor en respuesta a la información de voz de usuario reconocida sobre la red. 2. El método de conformidad con la reivindicación 1, caracterizado porque comprende además: I identificar una sub-porción de un diálogo con un usuario; seleccionar una gramática secundaria de acuerdo con i la sub-porción identificada del dialogo; y ! reconocer voz del usuario para la sub-porción identifijcada del diálogo usando la gramática secundaria seleccionada . j 3. El método de conformidad con la reivindicación 1, caracterizado porque cada gramática secundaria está asociada con una tarea 1 4. El método de conformidad con la reivindicación 1, caracterizado porque la gramática asociada se identifica por un& dirección compatible con localizador universal de recurso (URL) asociada con la aplicación de diálogo hablado. I 5. El método de conformidad con la reivindicación 1, caracterizado porque la red es una red de Protocolo de i Internet . I 6. Un sistema para proporcionar voz sobre una red, el sistema caracterizado porque comprende: un módulo configurado para recibir una identificación de aplicación de diálogo hablado que tiene una gramática asociada; un módulo configurado para reconocer la voz del usuario usando la gramática asociada; y un módulo configurado para transmitir voz generada en respuesta a la información de salida de voz de usuario í reconocida sobre la red. I 7. El sistema de conformidad con la reivindicación 6, caracterizado porque comprende además: un módulo configurado para identificar una sub-porción) de un diálogo con un usuario; un módulo configurado para seleccionar una gramática secundaria de acuerdo con la sub-porción identificada del diálogo; y un módulo configurado para reconocer la voz del usuarioj para la sub-porción identificada del diálogo usando la gramática secundaria seleccionada. 8. El sistema de conformidad con la reivindicación 7, carjacterizado porque cada gramática secundaria está asociada con una tarea. 9. El método de conformidad con la reivindicación 6, carajcterizado porque la gramática asociada se identifica por una dirección compatible con localizador universal de recursos (URL) asociada con la aplicación de diálogo hablado. 10. Un medio legible por computadora que almacena instrucciones para controlar un dispositivo de cómputo para proporcionar voz sobre una red, las instrucciones caracterizadas porque comprenden: I ' recibir sobre una identificación de una aplicación i de diálogo hablado que tiene una gramática asociada; reconocer la voz del usuario usando la gramática asociada; y transmitir la voz generada desde el servidor en respuesjta a la información de voz de usuario reconocida sobre la red.j 11. El medio legible por computadora de conformidad con la jreivindicación 10, caracterizado porque la red es una red de Protocolo de Internet. I ^ 12. El medio legible por computadora de conformidad con l reivindicación 10, caracterizado porque las instrucciones comprenden además: identificar una sub-porción de un diálogo con un usuario} | seleccionar una gramática secundaria de acuerdo con la sub-porción identificada del dialogo; y ! reconocer voz del usuario para la sub-porción identificada del diálogo usando la gramática secundaria seleccionada . 13. El medio legible por computadora de conformidad con la reivindicación 12, caracterizado porque cada gramática secundaria está asociada con una tarea. I 14. El medio legible por computadora de conformidad con la j reivindicación 10, caracterizado porque la gramática asociacja se identifica por una dirección compatible con localizador universal de recursos (URL) asociada con la aplicación de diálogo hablado. 15. Un método para proporcionar voz desde un servidojr accesible en forma remota sobre una red, el método está caracterizado porque comprende, en el servidor: recibir información de voz desde un usuario; reconocer la información de voz usando una gramática seleccionada de una pluralidad de gramáticas; y | transmitir la voz generada desde el servidor en respuesta a la información de voz de usuario reconocida sobre la red. 16. El método de conformidad con la reivindicación 15, caracterizado porque la red es una red de Protocolo de Internet . 17. El método de conformidad con la reivindicación 15, caracterizado porque la gramática se selecciona con base en una ¡identificación recibida de una aplicación de diálogo hablado !que tiene la gramática seleccionada.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/833,210 US6078886A (en) | 1997-04-14 | 1997-04-14 | System and method for providing remote automatic speech recognition services via a packet network |
Publications (1)
Publication Number | Publication Date |
---|---|
MX2007013017A true MX2007013017A (es) | 2009-02-13 |
Family
ID=25263756
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
MX2007013017A MX2007013017A (es) | 1997-04-14 | 2007-10-18 | Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes. |
MX2007013015A MX2007013015A (es) | 1997-04-14 | 2007-10-18 | Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes. |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
MX2007013015A MX2007013015A (es) | 1997-04-14 | 2007-10-18 | Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes. |
Country Status (6)
Country | Link |
---|---|
US (3) | US6078886A (es) |
EP (1) | EP0872827B1 (es) |
JP (3) | JPH10333693A (es) |
CA (1) | CA2228917C (es) |
DE (1) | DE69829604T2 (es) |
MX (2) | MX2007013017A (es) |
Families Citing this family (299)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7168084B1 (en) | 1992-12-09 | 2007-01-23 | Sedna Patent Services, Llc | Method and apparatus for targeting virtual objects |
US9286294B2 (en) | 1992-12-09 | 2016-03-15 | Comcast Ip Holdings I, Llc | Video and digital multimedia aggregator content suggestion engine |
AU2744097A (en) | 1996-04-26 | 1997-11-19 | At & T Corporation | Method and apparatus for data transmission using multiple transmit antennas |
US6856960B1 (en) * | 1997-04-14 | 2005-02-15 | At & T Corp. | System and method for providing remote automatic speech recognition and text-to-speech services via a packet network |
US6078886A (en) * | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
US8209184B1 (en) | 1997-04-14 | 2012-06-26 | At&T Intellectual Property Ii, L.P. | System and method of providing generated speech via a network |
US6671745B1 (en) * | 1998-03-23 | 2003-12-30 | Microsoft Corporation | Application program interfaces and structures in a resource limited operating system |
US6434526B1 (en) * | 1998-06-29 | 2002-08-13 | International Business Machines Corporation | Network application software services containing a speech recognition capability |
US7003463B1 (en) * | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
WO2000022597A1 (en) * | 1998-10-15 | 2000-04-20 | Planetlingo Inc. | Method for computer-aided foreign language instruction |
US6185535B1 (en) * | 1998-10-16 | 2001-02-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Voice control of a user interface to service applications |
DE19910236A1 (de) * | 1999-03-09 | 2000-09-21 | Philips Corp Intellectual Pty | Verfahren zur Spracherkennung |
DE19910234A1 (de) * | 1999-03-09 | 2000-09-21 | Philips Corp Intellectual Pty | Verfahren mit mehreren Spracherkennern |
ATE281689T1 (de) * | 1999-03-26 | 2004-11-15 | Scansoft Inc | Client-server spracherkennungssystem |
US6526380B1 (en) | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
WO2000058942A2 (en) * | 1999-03-26 | 2000-10-05 | Koninklijke Philips Electronics N.V. | Client-server speech recognition |
US6408272B1 (en) * | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
US20050261907A1 (en) * | 1999-04-12 | 2005-11-24 | Ben Franklin Patent Holding Llc | Voice integration platform |
US20050091057A1 (en) * | 1999-04-12 | 2005-04-28 | General Magic, Inc. | Voice application development methodology |
WO2000062222A1 (en) * | 1999-04-14 | 2000-10-19 | Syvox Corporation | Interactive voice unit for giving instruction to a worker |
DE19918382B4 (de) * | 1999-04-22 | 2004-02-05 | Siemens Ag | Erstellen eines Referenzmodell-Verzeichnisses für ein sprachgesteuertes Kommunikationsgerät |
GB9911971D0 (en) | 1999-05-21 | 1999-07-21 | Canon Kk | A system, a server for a system and a machine for use in a system |
DE19930407A1 (de) * | 1999-06-09 | 2000-12-14 | Philips Corp Intellectual Pty | Verfahren zur sprachbasierten Navigation in einem Kommunikationsnetzwerk und zur Implementierung einer Spracheingabemöglichkeit in private Informationseinheiten |
EP1192530A1 (en) * | 1999-06-09 | 2002-04-03 | Scansoft, Inc. | Method of speech-based navigation in a communications network and of implementing a speech input possibility in private information units. |
GB2356318A (en) * | 1999-09-04 | 2001-05-16 | Marconi Comm Ltd | Server with voice recognition |
US7330815B1 (en) | 1999-10-04 | 2008-02-12 | Globalenglish Corporation | Method and system for network-based speech recognition |
EP1098297A1 (en) * | 1999-11-02 | 2001-05-09 | BRITISH TELECOMMUNICATIONS public limited company | Speech recognition |
US9076448B2 (en) * | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7050977B1 (en) * | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7110947B2 (en) * | 1999-12-10 | 2006-09-19 | At&T Corp. | Frame erasure concealment technique for a bitstream-based feature extractor |
US6792405B2 (en) | 1999-12-10 | 2004-09-14 | At&T Corp. | Bitstream-based feature extraction method for a front-end speech recognizer |
US6424945B1 (en) | 1999-12-15 | 2002-07-23 | Nokia Corporation | Voice packet data network browsing for mobile terminals system and method using a dual-mode wireless connection |
US6434529B1 (en) * | 2000-02-16 | 2002-08-13 | Sun Microsystems, Inc. | System and method for referencing object instances and invoking methods on those object instances from within a speech recognition grammar |
US6853714B2 (en) | 2000-02-25 | 2005-02-08 | Keith A. Liljestrand | Apparatus and method for providing enhanced telecommunications services |
US7120585B2 (en) * | 2000-03-24 | 2006-10-10 | Eliza Corporation | Remote server object architecture for speech recognition |
KR20010025230A (ko) * | 2000-11-09 | 2001-04-06 | 차정만 | 음성도메인에 의한 인터넷접속 매개장치와 매개방법 및음성도메인의 데이터 베이스 생성방법 |
US6785653B1 (en) * | 2000-05-01 | 2004-08-31 | Nuance Communications | Distributed voice web architecture and associated components and methods |
US7716163B2 (en) | 2000-06-06 | 2010-05-11 | Microsoft Corporation | Method and system for defining semantic categories and actions |
US7770102B1 (en) | 2000-06-06 | 2010-08-03 | Microsoft Corporation | Method and system for semantically labeling strings and providing actions based on semantically labeled strings |
US7712024B2 (en) | 2000-06-06 | 2010-05-04 | Microsoft Corporation | Application program interfaces for semantically labeling strings and providing actions based on semantically labeled strings |
US7788602B2 (en) | 2000-06-06 | 2010-08-31 | Microsoft Corporation | Method and system for providing restricted actions for recognized semantic categories |
DE60039076D1 (de) * | 2000-06-26 | 2008-07-10 | Mitsubishi Electric Corp | System zum Betreiben eines Gerätes |
KR100383391B1 (ko) * | 2000-06-28 | 2003-05-12 | 김지한 | 음성인식서비스 시스템 및 방법 |
FI115868B (fi) * | 2000-06-30 | 2005-07-29 | Nokia Corp | Puhesynteesi |
US20030115167A1 (en) * | 2000-07-11 | 2003-06-19 | Imran Sharif | Web browser implemented in an Internet appliance |
US7245291B2 (en) | 2000-07-11 | 2007-07-17 | Imran Sharif | System and method for internet appliance data entry and navigation |
US6980313B2 (en) * | 2000-07-11 | 2005-12-27 | Imran Sharif | Fax-compatible internet appliance |
US20020078445A1 (en) * | 2000-07-11 | 2002-06-20 | Imran Sharif | Internet appliance for interactive audio/video display using a remote control unit for user input |
US7139709B2 (en) * | 2000-07-20 | 2006-11-21 | Microsoft Corporation | Middleware layer between speech related applications and engines |
GB2365189A (en) * | 2000-07-26 | 2002-02-13 | Canon Kk | Voice-controlled machine |
DE60128372T2 (de) * | 2000-07-31 | 2008-01-10 | Eliza Corp., Beverly | Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem |
AU2001284713A1 (en) * | 2000-08-02 | 2002-02-13 | Speaklink, Inc. | System and method for voice-activated web content navigation |
FI20001918A (fi) | 2000-08-30 | 2002-03-01 | Nokia Corp | Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä |
DE60125597T2 (de) * | 2000-08-31 | 2007-05-03 | Hitachi, Ltd. | Vorrichtung für die Dienstleistungsvermittlung |
US6556563B1 (en) * | 2000-09-11 | 2003-04-29 | Yahoo! Inc. | Intelligent voice bridging |
US7095733B1 (en) * | 2000-09-11 | 2006-08-22 | Yahoo! Inc. | Voice integrated VOIP system |
US6567419B1 (en) | 2000-09-11 | 2003-05-20 | Yahoo! Inc. | Intelligent voice converter |
US6580786B1 (en) | 2000-09-11 | 2003-06-17 | Yahoo! Inc. | Message store architecture |
US7454346B1 (en) * | 2000-10-04 | 2008-11-18 | Cisco Technology, Inc. | Apparatus and methods for converting textual information to audio-based output |
GB2368441A (en) * | 2000-10-26 | 2002-05-01 | Coles Joseph Tidbold | Voice to voice data handling system |
US7136814B1 (en) * | 2000-11-03 | 2006-11-14 | The Procter & Gamble Company | Syntax-driven, operator assisted voice recognition system and methods |
JP3581648B2 (ja) * | 2000-11-27 | 2004-10-27 | キヤノン株式会社 | 音声認識システム、情報処理装置及びそれらの制御方法、プログラム |
US6823306B2 (en) | 2000-11-30 | 2004-11-23 | Telesector Resources Group, Inc. | Methods and apparatus for generating, updating and distributing speech recognition models |
EP1352316A2 (en) * | 2000-12-01 | 2003-10-15 | The Trustees Of Columbia University In The City Of New York | A method and system for voice activating web pages |
US6937986B2 (en) * | 2000-12-28 | 2005-08-30 | Comverse, Inc. | Automatic dynamic speech recognition vocabulary based on external sources of information |
US20020143553A1 (en) * | 2001-01-24 | 2002-10-03 | Michael Migdol | System, method and computer program product for a voice-enabled universal flight information finder |
FR2820872B1 (fr) * | 2001-02-13 | 2003-05-16 | Thomson Multimedia Sa | Procede, module, dispositif et serveur de reconnaissance vocale |
DE10109156C2 (de) * | 2001-02-24 | 2003-01-09 | Diehl Ako Stiftung Gmbh & Co | Intelligente Haushaltsgrossgeräte |
US7805310B2 (en) * | 2001-02-26 | 2010-09-28 | Rohwer Elizabeth A | Apparatus and methods for implementing voice enabling applications in a converged voice and data network environment |
US20020178003A1 (en) * | 2001-03-09 | 2002-11-28 | Motorola, Inc. | Method and apparatus for providing voice recognition service to a wireless communication device |
US6985862B2 (en) * | 2001-03-22 | 2006-01-10 | Tellme Networks, Inc. | Histogram grammar weighting and error corrective training of grammar weights |
KR100549482B1 (ko) | 2001-03-22 | 2006-02-08 | 캐논 가부시끼가이샤 | 정보 처리 장치, 정보처리 방법, 및 프로그램을 기억하는 컴퓨터 판독가능 기억 매체 |
US7233903B2 (en) * | 2001-03-26 | 2007-06-19 | International Business Machines Corporation | Systems and methods for marking and later identifying barcoded items using speech |
US6885735B2 (en) * | 2001-03-29 | 2005-04-26 | Intellisist, Llc | System and method for transmitting voice input from a remote location over a wireless data channel |
US7778816B2 (en) | 2001-04-24 | 2010-08-17 | Microsoft Corporation | Method and system for applying input mode bias |
CN1279465C (zh) * | 2001-05-04 | 2006-10-11 | 微软公司 | Web启用的识别体系结构 |
US7409349B2 (en) * | 2001-05-04 | 2008-08-05 | Microsoft Corporation | Servers for web enabled speech recognition |
CN101833952B (zh) * | 2001-05-04 | 2013-02-13 | 微软公司 | 客户服务器系统中处理输入数据的方法 |
US7610547B2 (en) * | 2001-05-04 | 2009-10-27 | Microsoft Corporation | Markup language extensions for web enabled recognition |
US7506022B2 (en) * | 2001-05-04 | 2009-03-17 | Microsoft.Corporation | Web enabled recognition architecture |
US20020178182A1 (en) * | 2001-05-04 | 2002-11-28 | Kuansan Wang | Markup language extensions for web enabled recognition |
US7941313B2 (en) * | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
US7203188B1 (en) | 2001-05-21 | 2007-04-10 | Estara, Inc. | Voice-controlled data/information display for internet telephony and integrated voice and data communications using telephones and computing devices |
US7203643B2 (en) * | 2001-06-14 | 2007-04-10 | Qualcomm Incorporated | Method and apparatus for transmitting speech activity in distributed voice recognition systems |
US7366673B2 (en) * | 2001-06-15 | 2008-04-29 | International Business Machines Corporation | Selective enablement of speech recognition grammars |
JP3885523B2 (ja) * | 2001-06-20 | 2007-02-21 | 日本電気株式会社 | サーバ・クライアント型音声認識装置及び方法 |
US20030009331A1 (en) * | 2001-07-05 | 2003-01-09 | Johan Schalkwyk | Grammars for speech recognition |
US7194513B2 (en) * | 2001-07-08 | 2007-03-20 | Imran Sharif | System and method for using an internet appliance to send/receive digital content files as E-mail attachments |
US20030014254A1 (en) * | 2001-07-11 | 2003-01-16 | You Zhang | Load-shared distribution of a speech system |
US7793326B2 (en) | 2001-08-03 | 2010-09-07 | Comcast Ip Holdings I, Llc | Video and digital multimedia aggregator |
US7908628B2 (en) | 2001-08-03 | 2011-03-15 | Comcast Ip Holdings I, Llc | Video and digital multimedia aggregator content coding and formatting |
US7313526B2 (en) | 2001-09-05 | 2007-12-25 | Voice Signal Technologies, Inc. | Speech recognition using selectable recognition modes |
US7467089B2 (en) * | 2001-09-05 | 2008-12-16 | Roth Daniel L | Combined speech and handwriting recognition |
US7526431B2 (en) * | 2001-09-05 | 2009-04-28 | Voice Signal Technologies, Inc. | Speech recognition using ambiguous or phone key spelling and/or filtering |
US7505911B2 (en) * | 2001-09-05 | 2009-03-17 | Roth Daniel L | Combined speech recognition and sound recording |
US7809574B2 (en) | 2001-09-05 | 2010-10-05 | Voice Signal Technologies Inc. | Word recognition using choice lists |
US7444286B2 (en) | 2001-09-05 | 2008-10-28 | Roth Daniel L | Speech recognition using re-utterance recognition |
US7324947B2 (en) * | 2001-10-03 | 2008-01-29 | Promptu Systems Corporation | Global speech user interface |
US8644475B1 (en) | 2001-10-16 | 2014-02-04 | Rockstar Consortium Us Lp | Telephony usage derived presence information |
US7711570B2 (en) | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
US8229753B2 (en) * | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
JP2003143256A (ja) | 2001-10-30 | 2003-05-16 | Nec Corp | 端末装置と通信制御方法 |
US7246060B2 (en) * | 2001-11-06 | 2007-07-17 | Microsoft Corporation | Natural input recognition system and method using a contextual mapping engine and adaptive user bias |
US6816578B1 (en) * | 2001-11-27 | 2004-11-09 | Nortel Networks Limited | Efficient instant messaging using a telephony interface |
US7124085B2 (en) * | 2001-12-13 | 2006-10-17 | Matsushita Electric Industrial Co., Ltd. | Constraint-based speech recognition system and method |
US20030135624A1 (en) * | 2001-12-27 | 2003-07-17 | Mckinnon Steve J. | Dynamic presence management |
US7013275B2 (en) * | 2001-12-28 | 2006-03-14 | Sri International | Method and apparatus for providing a dynamic speech-driven control and remote service access system |
US7203644B2 (en) * | 2001-12-31 | 2007-04-10 | Intel Corporation | Automating tuning of speech recognition systems |
US20030144846A1 (en) * | 2002-01-31 | 2003-07-31 | Denenberg Lawrence A. | Method and system for modifying the behavior of an application based upon the application's grammar |
US7054813B2 (en) * | 2002-03-01 | 2006-05-30 | International Business Machines Corporation | Automatic generation of efficient grammar for heading selection |
US6895379B2 (en) * | 2002-03-27 | 2005-05-17 | Sony Corporation | Method of and apparatus for configuring and controlling home entertainment systems through natural language and spoken commands using a natural language server |
JP2003295890A (ja) * | 2002-04-04 | 2003-10-15 | Nec Corp | 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム |
US7707496B1 (en) | 2002-05-09 | 2010-04-27 | Microsoft Corporation | Method, system, and apparatus for converting dates between calendars and languages based upon semantically labeled strings |
US20030217149A1 (en) * | 2002-05-20 | 2003-11-20 | International Business Machines Corporation | Method and apparatus for tunneling TCP/IP over HTTP and HTTPS |
US7707024B2 (en) | 2002-05-23 | 2010-04-27 | Microsoft Corporation | Method, system, and apparatus for converting currency values based upon semantically labeled strings |
US7742048B1 (en) | 2002-05-23 | 2010-06-22 | Microsoft Corporation | Method, system, and apparatus for converting numbers based upon semantically labeled strings |
US7398209B2 (en) * | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7827546B1 (en) | 2002-06-05 | 2010-11-02 | Microsoft Corporation | Mechanism for downloading software components from a remote source for use by a local software application |
US7356537B2 (en) | 2002-06-06 | 2008-04-08 | Microsoft Corporation | Providing contextually sensitive tools and help content in computer-generated documents |
US8073930B2 (en) * | 2002-06-14 | 2011-12-06 | Oracle International Corporation | Screen reader remote access system |
US7716676B2 (en) | 2002-06-25 | 2010-05-11 | Microsoft Corporation | System and method for issuing a message to a program |
US7209915B1 (en) | 2002-06-28 | 2007-04-24 | Microsoft Corporation | Method, system and apparatus for routing a query to one or more providers |
US7693720B2 (en) | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US7797159B2 (en) * | 2002-09-16 | 2010-09-14 | Movius Interactive Corporation | Integrated voice navigation system and method |
US8392609B2 (en) | 2002-09-17 | 2013-03-05 | Apple Inc. | Proximity detection for media proxies |
US7149688B2 (en) * | 2002-11-04 | 2006-12-12 | Speechworks International, Inc. | Multi-lingual speech recognition with cross-language context modeling |
US7783614B2 (en) | 2003-02-13 | 2010-08-24 | Microsoft Corporation | Linking elements of a document to corresponding fields, queries and/or procedures in a database |
US20050049922A1 (en) * | 2003-03-24 | 2005-03-03 | Ipdev Co. | Method and apparatus for specifying toppings and their placement on a pizza and confirming same |
US7013282B2 (en) * | 2003-04-18 | 2006-03-14 | At&T Corp. | System and method for text-to-speech processing in a portable device |
US7260539B2 (en) * | 2003-04-25 | 2007-08-21 | At&T Corp. | System for low-latency animation of talking heads |
US7260535B2 (en) | 2003-04-28 | 2007-08-21 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting for call controls |
US7711550B1 (en) | 2003-04-29 | 2010-05-04 | Microsoft Corporation | Methods and system for recognizing names in a computer-generated document and for providing helpful actions associated with recognized names |
US20040230637A1 (en) * | 2003-04-29 | 2004-11-18 | Microsoft Corporation | Application controls for speech enabled recognition |
US20050015256A1 (en) * | 2003-05-29 | 2005-01-20 | Kargman James B. | Method and apparatus for ordering food items, and in particular, pizza |
US9202467B2 (en) * | 2003-06-06 | 2015-12-01 | The Trustees Of Columbia University In The City Of New York | System and method for voice activating web pages |
US7720683B1 (en) * | 2003-06-13 | 2010-05-18 | Sensory, Inc. | Method and apparatus of specifying and performing speech recognition operations |
JP4267385B2 (ja) | 2003-06-30 | 2009-05-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム |
JP2005031758A (ja) * | 2003-07-07 | 2005-02-03 | Canon Inc | 音声処理装置及び方法 |
US7073203B2 (en) * | 2003-08-08 | 2006-07-11 | Simms Fishing Products Corporation | Foot-covering component of a stocking foot wader including gravel guard and method for manufacturing |
US8311835B2 (en) | 2003-08-29 | 2012-11-13 | Microsoft Corporation | Assisted multi-modal dialogue |
US7519042B2 (en) | 2003-09-12 | 2009-04-14 | Motorola, Inc. | Apparatus and method for mixed-media call formatting |
US20050065789A1 (en) * | 2003-09-23 | 2005-03-24 | Sherif Yacoub | System and method with automated speech recognition engines |
US20050102625A1 (en) * | 2003-11-07 | 2005-05-12 | Lee Yong C. | Audio tag retrieval system and method |
US9118574B1 (en) | 2003-11-26 | 2015-08-25 | RPX Clearinghouse, LLC | Presence reporting using wireless messaging |
KR100600522B1 (ko) * | 2003-12-16 | 2006-07-13 | 에스케이 주식회사 | 상담원과 음성 인식 엔진을 이용한 품질보장형 콜라우팅시스템 및 그 방법 |
US20050171781A1 (en) * | 2004-01-08 | 2005-08-04 | Poploskie Jon M. | Speech information system |
US7552055B2 (en) | 2004-01-10 | 2009-06-23 | Microsoft Corporation | Dialog component re-use in recognition systems |
US8160883B2 (en) * | 2004-01-10 | 2012-04-17 | Microsoft Corporation | Focus tracking in dialogs |
FR2865846A1 (fr) * | 2004-02-02 | 2005-08-05 | France Telecom | Systeme de synthese vocale |
US7925512B2 (en) * | 2004-05-19 | 2011-04-12 | Nuance Communications, Inc. | Method, system, and apparatus for a voice markup language interpreter and voice browser |
US8036893B2 (en) * | 2004-07-22 | 2011-10-11 | Nuance Communications, Inc. | Method and system for identifying and correcting accent-induced speech recognition difficulties |
US7940746B2 (en) | 2004-08-24 | 2011-05-10 | Comcast Cable Holdings, Llc | Method and system for locating a voice over internet protocol (VoIP) device connected to a network |
US7739117B2 (en) * | 2004-09-20 | 2010-06-15 | International Business Machines Corporation | Method and system for voice-enabled autofill |
US7783028B2 (en) * | 2004-09-30 | 2010-08-24 | International Business Machines Corporation | System and method of using speech recognition at call centers to improve their efficiency and customer satisfaction |
KR100695127B1 (ko) * | 2004-10-08 | 2007-03-14 | 삼성전자주식회사 | 다 단계 음성 인식 장치 및 방법 |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
US8024194B2 (en) * | 2004-12-08 | 2011-09-20 | Nuance Communications, Inc. | Dynamic switching between local and remote speech rendering |
US8706501B2 (en) * | 2004-12-09 | 2014-04-22 | Nuance Communications, Inc. | Method and system for sharing speech processing resources over a communication network |
US20060149551A1 (en) * | 2004-12-22 | 2006-07-06 | Ganong William F Iii | Mobile dictation correction user interface |
US7529677B1 (en) | 2005-01-21 | 2009-05-05 | Itt Manufacturing Enterprises, Inc. | Methods and apparatus for remotely processing locally generated commands to control a local device |
DE102005010285A1 (de) * | 2005-03-01 | 2006-09-07 | Deutsche Telekom Ag | Verfahren und System zur Spracherkennung |
US20060247925A1 (en) * | 2005-04-27 | 2006-11-02 | International Business Machines Corporation | Virtual push-to-talk |
US7640160B2 (en) * | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7620549B2 (en) | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US7542904B2 (en) * | 2005-08-19 | 2009-06-02 | Cisco Technology, Inc. | System and method for maintaining a speech-recognition grammar |
US7949529B2 (en) | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
EP1934971A4 (en) | 2005-08-31 | 2010-10-27 | Voicebox Technologies Inc | DYNAMIC LANGUAGE SCRIPTURE |
US7788590B2 (en) | 2005-09-26 | 2010-08-31 | Microsoft Corporation | Lightweight reference user interface |
US7992085B2 (en) | 2005-09-26 | 2011-08-02 | Microsoft Corporation | Lightweight reference user interface |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
WO2007117626A2 (en) * | 2006-04-05 | 2007-10-18 | Yap, Inc. | Hosted voice recognition system for wireless devices |
US8510109B2 (en) | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
JP4859642B2 (ja) * | 2006-11-30 | 2012-01-25 | 富士通株式会社 | 音声情報管理装置 |
US8296139B2 (en) * | 2006-12-22 | 2012-10-23 | International Business Machines Corporation | Adding real-time dictation capabilities for speech processing operations handled by a networked speech processing system |
JP5240457B2 (ja) * | 2007-01-16 | 2013-07-17 | 日本電気株式会社 | 拡張認識辞書学習装置と音声認識システム |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
JP2010518456A (ja) * | 2007-02-13 | 2010-05-27 | エヌテラ リミテッド | アクティブマトリクス反射表示デバイスのための電圧フィードバック回路 |
TWI321313B (en) * | 2007-03-03 | 2010-03-01 | Ind Tech Res Inst | Apparatus and method to reduce recognization errors through context relations among dialogue turns |
US9973450B2 (en) | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
US8352264B2 (en) | 2008-03-19 | 2013-01-08 | Canyon IP Holdings, LLC | Corrective feedback loop for automated speech recognition |
US8086457B2 (en) | 2007-05-30 | 2011-12-27 | Cepstral, LLC | System and method for client voice building |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US8099289B2 (en) * | 2008-02-13 | 2012-01-17 | Sensory, Inc. | Voice interface and search for electronic devices including bluetooth headsets and remote systems |
US8255224B2 (en) * | 2008-03-07 | 2012-08-28 | Google Inc. | Voice recognition grammar selection based on context |
US8831950B2 (en) * | 2008-04-07 | 2014-09-09 | Nuance Communications, Inc. | Automated voice enablement of a web page |
US9047869B2 (en) * | 2008-04-07 | 2015-06-02 | Nuance Communications, Inc. | Free form input field support for automated voice enablement of a web page |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8589161B2 (en) | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8019608B2 (en) * | 2008-08-29 | 2011-09-13 | Multimodal Technologies, Inc. | Distributed speech recognition using one way communication |
CA2748695C (en) | 2008-12-31 | 2017-11-07 | Bce Inc. | System and method for unlocking a device |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
JP5244663B2 (ja) * | 2009-03-18 | 2013-07-24 | Kddi株式会社 | 音声によってテキストを入力する音声認識処理方法及びシステム |
US9502025B2 (en) | 2009-11-10 | 2016-11-22 | Voicebox Technologies Corporation | System and method for providing a natural language content dedication service |
US9171541B2 (en) | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
US9099087B2 (en) * | 2010-09-03 | 2015-08-04 | Canyon IP Holdings, LLC | Methods and systems for obtaining language models for transcribing communications |
US20120078635A1 (en) * | 2010-09-24 | 2012-03-29 | Apple Inc. | Voice control system |
US9953653B2 (en) | 2011-01-07 | 2018-04-24 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
KR20130016644A (ko) * | 2011-08-08 | 2013-02-18 | 삼성전자주식회사 | 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법 |
US8914288B2 (en) | 2011-09-01 | 2014-12-16 | At&T Intellectual Property I, L.P. | System and method for advanced turn-taking for interactive spoken dialog systems |
WO2014055076A1 (en) | 2012-10-04 | 2014-04-10 | Nuance Communications, Inc. | Improved hybrid controller for asr |
US9691377B2 (en) | 2013-07-23 | 2017-06-27 | Google Technology Holdings LLC | Method and device for voice recognition training |
US9275638B2 (en) | 2013-03-12 | 2016-03-01 | Google Technology Holdings LLC | Method and apparatus for training a voice recognition model database |
US10811004B2 (en) * | 2013-03-28 | 2020-10-20 | Nuance Communications, Inc. | Auto-generation of parsing grammars from a concept ontology |
US10170114B2 (en) | 2013-05-30 | 2019-01-01 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
US9548047B2 (en) | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
US9218804B2 (en) | 2013-09-12 | 2015-12-22 | At&T Intellectual Property I, L.P. | System and method for distributed voice models across cloud and device for embedded text-to-speech |
US9558736B2 (en) * | 2014-07-02 | 2017-01-31 | Bose Corporation | Voice prompt generation combining native and remotely-generated speech data |
JP6390264B2 (ja) * | 2014-08-21 | 2018-09-19 | トヨタ自動車株式会社 | 応答生成方法、応答生成装置及び応答生成プログラム |
US9898459B2 (en) | 2014-09-16 | 2018-02-20 | Voicebox Technologies Corporation | Integration of domain information into state transitions of a finite state transducer for natural language processing |
US9626703B2 (en) | 2014-09-16 | 2017-04-18 | Voicebox Technologies Corporation | Voice commerce |
US9747896B2 (en) | 2014-10-15 | 2017-08-29 | Voicebox Technologies Corporation | System and method for providing follow-up responses to prior natural language inputs of a user |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
EP3341933A1 (en) * | 2015-10-21 | 2018-07-04 | Google LLC | Parameter collection and automatic dialog generation in dialog systems |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10097919B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Music service selection |
US10192555B2 (en) * | 2016-04-28 | 2019-01-29 | Microsoft Technology Licensing, Llc | Dynamic speech recognition data evaluation |
US11010820B2 (en) * | 2016-05-05 | 2021-05-18 | Transform Sr Brands Llc | Request fulfillment system, method, and media |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
WO2018023106A1 (en) | 2016-07-29 | 2018-02-01 | Erik SWART | System and method of disambiguating natural language processing requests |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10592611B2 (en) * | 2016-10-24 | 2020-03-17 | Conduent Business Services, Llc | System for automatic extraction of structure from spoken conversation using lexical and acoustic features |
US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
US20180218729A1 (en) * | 2017-01-31 | 2018-08-02 | Interactive Intelligence Group, Inc. | System and method for speech-based interaction resolution |
US10757058B2 (en) | 2017-02-17 | 2020-08-25 | International Business Machines Corporation | Outgoing communication scam prevention |
US10102868B2 (en) * | 2017-02-17 | 2018-10-16 | International Business Machines Corporation | Bot-based honeypot poison resilient data collection |
US10810510B2 (en) | 2017-02-17 | 2020-10-20 | International Business Machines Corporation | Conversation and context aware fraud and abuse prevention agent |
US10332505B2 (en) * | 2017-03-09 | 2019-06-25 | Capital One Services, Llc | Systems and methods for providing automated natural language dialogue with customers |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
US10796088B2 (en) * | 2017-04-21 | 2020-10-06 | International Business Machines Corporation | Specifying a conversational computer agent and its outcome with a grammar |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
DE102017213946B4 (de) | 2017-08-10 | 2022-11-10 | Audi Ag | Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
US11343374B1 (en) * | 2017-12-14 | 2022-05-24 | Amazon Technologies, Inc. | Message aggregation and comparing |
US10715470B1 (en) * | 2017-12-14 | 2020-07-14 | Amazon Technologies, Inc. | Communication account contact ingestion and aggregation |
US11145291B2 (en) * | 2018-01-31 | 2021-10-12 | Microsoft Technology Licensing, Llc | Training natural language system with generated dialogues |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US10861440B2 (en) * | 2018-02-05 | 2020-12-08 | Microsoft Technology Licensing, Llc | Utterance annotation user interface |
US11133001B2 (en) * | 2018-03-20 | 2021-09-28 | Microsoft Technology Licensing, Llc | Generating dialogue events for natural language system |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US10885912B2 (en) * | 2018-11-13 | 2021-01-05 | Motorola Solutions, Inc. | Methods and systems for providing a corrected voice command |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US10867604B2 (en) * | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
CN111081247A (zh) * | 2019-12-24 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 语音识别的方法以及终端、服务器和计算机可读存储介质 |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11574622B2 (en) | 2020-07-02 | 2023-02-07 | Ford Global Technologies, Llc | Joint automatic speech recognition and text to speech conversion using adversarial neural networks |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3088739B2 (ja) * | 1989-10-06 | 2000-09-18 | 株式会社リコー | 音声認識システム |
JPH04372037A (ja) * | 1991-06-21 | 1992-12-25 | Matsushita Electric Ind Co Ltd | システム管理情報設定装置 |
EP0542628B1 (en) | 1991-11-12 | 2001-10-10 | Fujitsu Limited | Speech synthesis system |
US5425128A (en) * | 1992-05-29 | 1995-06-13 | Sunquest Information Systems, Inc. | Automatic management system for speech recognition processes |
JP2524472B2 (ja) * | 1992-09-21 | 1996-08-14 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 電話回線利用の音声認識システムを訓練する方法 |
JP2818362B2 (ja) * | 1992-09-21 | 1998-10-30 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声認識装置のコンテキスト切換えシステムおよび方法 |
CA2105034C (en) * | 1992-10-09 | 1997-12-30 | Biing-Hwang Juang | Speaker verification with cohort normalized scoring |
US5632002A (en) * | 1992-12-28 | 1997-05-20 | Kabushiki Kaisha Toshiba | Speech recognition interface system suitable for window systems and speech mail systems |
KR100312920B1 (ko) * | 1993-03-31 | 2001-12-28 | 내쉬 로저 윌리엄 | 연결된음성인식의방법및장치 |
US5524169A (en) * | 1993-12-30 | 1996-06-04 | International Business Machines Incorporated | Method and system for location-specific speech recognition |
JPH07222248A (ja) * | 1994-02-08 | 1995-08-18 | Hitachi Ltd | 携帯型情報端末における音声情報の利用方式 |
US5586171A (en) * | 1994-07-07 | 1996-12-17 | Bell Atlantic Network Services, Inc. | Selection of a voice recognition data base responsive to video data |
US5623605A (en) * | 1994-08-29 | 1997-04-22 | Lucent Technologies Inc. | Methods and systems for interprocess communication and inter-network data transfer |
US5752232A (en) * | 1994-11-14 | 1998-05-12 | Lucent Technologies Inc. | Voice activated device and method for providing access to remotely retrieved data |
US5682478A (en) * | 1995-01-19 | 1997-10-28 | Microsoft Corporation | Method and apparatus for supporting multiple, simultaneous services over multiple, simultaneous connections between a client and network server |
US5732219A (en) * | 1995-03-17 | 1998-03-24 | Vermeer Technologies, Inc. | Computer system and computer-implemented process for remote editing of computer files |
US5890123A (en) * | 1995-06-05 | 1999-03-30 | Lucent Technologies, Inc. | System and method for voice controlled video screen display |
US5745754A (en) * | 1995-06-07 | 1998-04-28 | International Business Machines Corporation | Sub-agent for fulfilling requests of a web browser using an intelligent agent and providing a report |
US5745874A (en) * | 1996-03-04 | 1998-04-28 | National Semiconductor Corporation | Preprocessor for automatic speech recognition system |
US6456974B1 (en) * | 1997-01-06 | 2002-09-24 | Texas Instruments Incorporated | System and method for adding speech recognition capabilities to java |
US6078886A (en) * | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
-
1997
- 1997-04-14 US US08/833,210 patent/US6078886A/en not_active Expired - Lifetime
-
1998
- 1998-02-05 CA CA002228917A patent/CA2228917C/en not_active Expired - Lifetime
- 1998-04-08 JP JP10095930A patent/JPH10333693A/ja active Pending
- 1998-04-08 DE DE69829604T patent/DE69829604T2/de not_active Expired - Lifetime
- 1998-04-08 EP EP98106446A patent/EP0872827B1/en not_active Expired - Lifetime
-
2000
- 2000-03-24 US US09/533,820 patent/US6366886B1/en not_active Expired - Lifetime
-
2002
- 2002-02-05 US US10/067,464 patent/US6604077B2/en not_active Expired - Lifetime
- 2002-05-29 JP JP2002156302A patent/JP2003050594A/ja active Pending
-
2006
- 2006-01-18 JP JP2006010432A patent/JP4849894B2/ja not_active Expired - Lifetime
-
2007
- 2007-10-18 MX MX2007013017A patent/MX2007013017A/es active IP Right Grant
- 2007-10-18 MX MX2007013015A patent/MX2007013015A/es active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
JP4849894B2 (ja) | 2012-01-11 |
MX2007013015A (es) | 2009-02-17 |
MX9802754A (es) | 1998-12-31 |
EP0872827A2 (en) | 1998-10-21 |
US6078886A (en) | 2000-06-20 |
US20020091528A1 (en) | 2002-07-11 |
JP2003050594A (ja) | 2003-02-21 |
DE69829604T2 (de) | 2006-02-09 |
DE69829604D1 (de) | 2005-05-12 |
EP0872827B1 (en) | 2005-04-06 |
JPH10333693A (ja) | 1998-12-18 |
US6604077B2 (en) | 2003-08-05 |
JP2006146262A (ja) | 2006-06-08 |
CA2228917A1 (en) | 1998-10-14 |
EP0872827A3 (en) | 1999-04-21 |
CA2228917C (en) | 2002-03-19 |
US6366886B1 (en) | 2002-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
MX2007013017A (es) | Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes. | |
US7139715B2 (en) | System and method for providing remote automatic speech recognition and text to speech services via a packet network | |
US8209184B1 (en) | System and method of providing generated speech via a network | |
US9761241B2 (en) | System and method for providing network coordinated conversational services | |
EP1125279B1 (en) | System and method for providing network coordinated conversational services | |
US8175883B2 (en) | Speech recognition system and method | |
RU2349969C2 (ru) | Синхронное понимание семантических объектов, реализованное с помощью тэгов речевого приложения | |
JP5179375B2 (ja) | クライアント−サーバー計算システムにおいて音声アプリケーションを処理する方法及びサーバー | |
US6208972B1 (en) | Method for integrating computer processes with an interface controlled by voice actuated grammars | |
US20040249640A1 (en) | Method for integrating processes with a multi-faceted human centered interface | |
WO2002069320A2 (en) | Spoken language interface | |
MXPA98002754A (es) | Sistema y metodo para proporcionar servicios de reconocimiento de voz automatico remoto via una redpaquete | |
Demesticha et al. | Aspects of design and implementation of a multi-channel and multi-modal information system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FG | Grant or registration |