MX2007013015A - Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes. - Google Patents
Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes.Info
- Publication number
- MX2007013015A MX2007013015A MX2007013015A MX2007013015A MX2007013015A MX 2007013015 A MX2007013015 A MX 2007013015A MX 2007013015 A MX2007013015 A MX 2007013015A MX 2007013015 A MX2007013015 A MX 2007013015A MX 2007013015 A MX2007013015 A MX 2007013015A
- Authority
- MX
- Mexico
- Prior art keywords
- asr
- client
- grammar
- server
- dialogue
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000004891 communication Methods 0.000 claims abstract description 10
- 230000004044 response Effects 0.000 claims description 10
- 235000013550 pizza Nutrition 0.000 description 38
- 230000008569 process Effects 0.000 description 22
- 238000012545 processing Methods 0.000 description 13
- 230000000644 propagated effect Effects 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 10
- 230000004913 activation Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 3
- 238000009434 installation Methods 0.000 description 3
- 235000013580 sausages Nutrition 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011900 installation process Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 235000001674 Agaricus brunnescens Nutrition 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000016507 interphase Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M7/00—Arrangements for interconnection between switching centres
- H04M7/006—Networks other than PSTN/ISDN providing telephone service, e.g. Voice over Internet Protocol (VoIP), including next generation networks with a packet-switched transport layer
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99948—Application of database or data structure, e.g. distributed, multimedia, or image
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer And Data Communications (AREA)
- Information Transfer Between Computers (AREA)
- Telephonic Communication Services (AREA)
Abstract
Un sistema y método para operar un servicio de reconocimiento de voz automático que usa una arquitectura cliente-servidor se usa para hacer los servicios ASR accesibles a un cliente que se encuentra lejos de la localización de la máquina ASR principal. La presente invención utiliza las comunicaciones cliente-servidor sobre una red paquete, tal como la Internet, en donde el servidor ASR recibe una gramática del cliente, recibe información que representa la voz del cliente, efectúa el reconocimiento de la voz, y regresa información basada en la voz reconocida al cliente.
Description
METODO PARA OPERAR UN SERVICIO DE RECONOCIMIENTO AUTOMATICO DE VOZ ACCESIBLE EN FORMA REMOTA POR EL CLIENTE SOBRE UNA RED EN PAQUETES
CAMPO TECNICO
Esta invención se relaciona con el reconocimiento de voz en general y, de manera más particular, proporciona una manera de proporcionar servicios de reconocimiento de voz automático accesibles remotamente vía una red paquete.
ANTECEDENTES DE LA INVENCION
Las técnicas para lograr el reconocimiento de voz automático (ASR) son bien conocidas. Entre las técnicas ASR conocidas se encuentran aquellas que usan gramáticas. Una gramática es una representación del lenguaje o frases que se espera sean usadas o hablas en un contexto dado. En un sentido, ¡ entonces, las gramáticas ASR típicamente restringen el reconocedor de la voz en un vocabulario que es un subconjunto del universo de las palabras potencialmente habladas; y las gramáticas pueden incluir subgramáticas . Una regla de! gramática ASR puede entonces usarse para representar el conjunto de "frases" o combinaciones de palabras de una o más gramáticas o subgramáticas que pueden esperarse en un Ref: 187116
contexto j dado. La "gramática" también puede referirse de
I manera general a un modelo de lenguaje estadístico (en donde un modelo representa frases) , tales como aquellas usadas en los sistemas de comprensión de lenguaje. I Los productos y servicios que utilizan alguna forma de la metodología de reconocimiento de voz automático ("ASR") han sido recientemente introducidos comercialmente . Por ejemplo, AT&T ha desarrollado una máquina ASR basada en una gramática llamada WATSON que permite el desarrollo de servicios ASR complejos. Los atributos deseables de los servicios ASR complejos que podrían utilizar tal tecnología ASR incluyen una alta exactitud en el reconocimiento; robustez : para permitir el reconocimiento en donde los locutores tienen diferentes acentos o dialectos, y/o en presencia de ruido de fondo; capacidad para manejar vocabularios grandes; y comprender el lenguaje natural. Para i lograr esos atributos para los servicios ASR complejos, las técnicas y máquinas ASR típicamente requieren sistemas a base de compútadora que tengan una capacidad de procesamiento significativa para lograr la capacidad de reconocimiento de voz deseada. La capacidad de procesamiento como se usa aquí se refiere a la velocidad del procesador, memoria, espacio de disco, así como al acceso de bases de datos de aplicación. Tales requerimientos han restringido el desarrollo de los servicios ASR complejos que están disponibles en el
escritorio de uno, debido a que los requerimientos de procesamiento exceden las capacidades de la mayoría de los sistemas de escritorio, los cuales se basan típicamente en la tecnología de la computadora personal (PC) . Las redes paquetes son redes de datos de propósito: general las cuales son muy adecuadas para enviar datos almacenados de varios tipos, incluyendo voz o audio. La Internet,: la más grande y más renombrada de las redes de paquetes existentes, conecta más de 4 millones de computaddras en unos 140 países. El crecimiento global y exponencial de Internet es de conocimiento común hoy día. Típicamente, uno tiene acceso a una red de paquetes, tal como la Internet, a través de un programa de cliente que se ejecuta en una computadora, tal como una PC, y de este modo las redes paquetes restan inherentemente orientadas al cliente/servidor. Una manera de tener acceso a la información sobre una red paquete es a través del uso de un explorador u hojeador de la red (tal como el Netscape Navigator, disponible de Netscape Communications, Inc., y el Internet, Explorer, disponible de Microsoft Corp.) el cual permite a un cliente interactuar con los servidores de la red. Los I servidores de la red y la información disponible en ella son identificados típicamente y tratados a través de un Localizador de Recursos Uniforme (URL)- de dirección compatible. El direccionamiento URL es ampliamente usado en
aplicacijones de Internet e intranet y es bien conocido por aquellos! expertos en la técnica (un "intranet" es una red paquete modelada en funcionalidad basada en la Internet y se usa, por! ejemplo, por compañías local o internamente) . Lo que se desea es una manera de permitir que los servicio¡s ASR puedan ser disponibles a un usuario en un lugar, tal como en su escritorio, es decir remotos del sistema que aloja la máquina ASR.
BREVE DESCRIPCION DE LA INVE CION
Se usa un sistema y método de operación de un servicio de reconocimiento de voz automático que usa una arquitectura cliente-servidor para hacer los servicios ASR accesibles a un cliente que se localiza lejos del lugar de la máquina ;ASR principal. De acuerdo con la presente invención, usando comunicaciones cliente-servidor sobre una red de paquetes, tal como la Internet, el servidor ASR recibe una
I gramática del cliente, recibe información que representa la voz del : cliente, efectúa el reconocimiento de voz, y regresa la información basada en la voz reconocida al cliente. Las modalidades alternativas de la presente incluyen una variedad de maneras para tener acceso a la gramática deseada, el uso de la compresión o extracción de características como un paso de procesamiento en el cliente ASR antes de transferir la
informad|ón hablada al servidor ASR, estableciendo un diálogo entre el cliente y el servidor, y operando un servicio de llenado d!e forma
BREVE DESCRIPCION DE LOS DIBUJOS
La FIGURA 1 es un diagrama que muestra una relación cliente-servidor de un sistema que proporciona servicios ASR remotos dje acuerdo con la presente invención. La FIGURA 2 es un diagrama que muestra un proceso de instalación para permitir los servicios de ASR remotos de acuerdo con la presente invención. La FIGURA 3 es un diagrama que muestra un proceso de instalación alternativo para permitir los servicios de ASR remotos de acuerdo con la presente invención. La FIGURA 4 es un diagrama que muestra un proceso para reglamentar la selección de acuerdo con la presente invención;. La FIGURA 5 es un diagrama que muestra un proceso para permitir el reconocimiento de voz automático remoto de acuerdo con la presente invención. La FIGURA 6 es un diagrama que muestra un proceso alternativo para permitir el reconocimiento de voz automático remoto de acuerdo con la presente invención.
La FIGURA 7 es un diagrama que muestra otro proceso alternativo para permitir el reconocimiento de voz automático remoto dé acuerdo con la presente invención.
DESCRIPCION DETALLADA DE XA INVENCION
La presente invención está dirigida a un sistema basado en la arquitectura cliente-servidor para proporcionar servicios ASR disponibles remotamente. De acuerdo con la i presente invención, los servicios ASR pueden ser proporcionados a un usuario -- por ejemplo, en el escritorio del usuario-- sobre una red paquete ', tal como la
Internet, si la necesidad de que el usuario obtenga equipo de cómputo que tenga la capacidad de procesamiento extensiva requeridla para ejecutar todas las técnicas ASR. Una arquitectura cliente-servidor básica usada de acuerdo ;con la presente invención se muestra en la FIGURA 1. Un servidor ASR 100 es una máquina con programas y sistemas de programación ASR, los cuales se ejecutan en un sistema, denotadoj como nodo del servidor 110, que puede ligarse a través de la red de paquetes 120 (tal como la Internet) a otras computadoras. El nodo del servidor 110 puede ser típicamente una computadora que tenga capacidad de procesamiento suficiente para ejecutar aplicaciones a base de ASR complejas, tales como el sistema WATSON de AT&T. La red
paquete 120 puede, de manera ilustrativa, ser la Internet o una intranet. lEl cliente ASR 130 es un programa relativamente pequeño (¡cuando se compara con el servidor ASR 100) que se ejecuta e|n la PC del cliente 140. La PC del cliente 140 es una computadora, tal como una computadora personal (PC), que tiene suficiente capacidad de procesamiento para ejecutar aplicaciones de cliente, tales como un Examinador u hojeador de la reá. La PC del cliente incluye componentes físicos de computación, tales como un micrófono, y programas y sistemas de programación para la entrada y captura de sonidos de audio, tales como la voz. Los métodos para conectar micrófonos a una PC y capturar sonidos de audio, tales como la voz, en la PC son bien conocidos. Los ejemplos de capacidades de manejo de voz para PC incluyen Interfase de Programador de Aplicación de Voz (SAPI) de Microsoft y la Interfase 'de Programador de Aplicación de Voz Avanzada de AT&T (ASAPI) . Los detalles de la SAPI de Microsoft se encuentran en, por ejemplo, una publicación titulada "Speech API Developers Guide, WindowsMR 95 Edition", Versión 1.0, Microsoft Corporation (1995), y los detalles de la ASAPI de AT&T se ¡proporcionan en una publicación titulada "Advanced Speech A|PI Developers Guide", Versión 1.0, AT&T Corporation (1996) ; cada una de esas publicaciones se incorpora aquí como referencia. Una modalidad alternativa de la presente
invención puede utilizar una interfase entre el cliente ASR 130 y uno o más canales de voz, de modo que la entrada de voz pueda ser proporcionada por otras fuentes de audio diferentes a un micrófono. ; La PC del cliente 140 también tiene la capacidad de comunicarse con otras computadoras sobre una red paquete (tal como la Internet) . Los métodos para establecer un enlace de comunicaciones con otras computadoras sobre una red paquete ¡ (tal como la Internet) son bien conocidos e incluyen,; por ejemplo, el uso de un módem para marcar a un proveedor de servicios de Internet sobre una linea telefónica . El servidor ASR 100, a través del nodo del servidor 110, y el cliente ASR 130, a través de la PC del cliente 140, pueden comunicarse con otro sobre la red de paquetes 120 usando métodos conocidos adecuados para comunicar información (incluyendo la transmisión de datos) sobre una red de paquetes usando, por ejemplo, un protocolo de comunicaciones estándar; tal como el Protocolo de control de Transmisión/Protocolo de Internet (TCP/IP) . Una conexión TCP/IP efe análoga a una "tubería" a través de la cual la información puede ser transmitida sobre la red paquete de un punto ¡ a otro . El establecimiento de una conexión TCP/IP entre el servidor : ASR 100 y el cliente ASR 130 permitirá la
.r; .sferencia de datos entre ei servidor ASR 100 y el cliente ASR 130 bobre la red paquete 120 necesaria para permitir les serviieios ASR de acuerdo con la presente invención. El :iiente ASR 130 también se interconecta con capacidades de entrada y salida de audio/voz y capacidades de despliegue de textos/gráficas de la PC del cliente 140. Los métodos 9 ínter fases para manejar la entrada y salida de audio y voz son bien conocidos, y los métodos e interfases para manejar el despliegue de textos y gráficas también son bien conocidos . El cliente ASR 130 puede ser instalado para ejecutarse en una PC del cliente 140 de varias formas. Por ejemplo, el cliente ASR 130 puede ser cargado en la PC del cliente 140 desde un medio de almacenamiento de datos permanente, tal como un disco magnético o CD-ROM. De manera alternativa, el cliente ASR 130 puede ser descargado de una fuente de información o datos localizables sobre la red paquete tal como la Internet. La descarga del cliente ASR 130 puede, por ejemplo, efectuarse una vez para que resida permanenitemente en la PC del cliente 140; de manera alternativa, el cliente ASR 130 puede ser descargado para propósitos de un solo uso o limitado. El cliente ÁSR 130 puede s¡er implementado, por ejemplo como un módulo de programáis y sistemas de programación intercambiable pequeño para otro programa, tal como un examinador u hojeador de la
red, que se ejecuta en la PC del cliente 140. Una forma de lograr esto es hacer que el cliente ASR 130 un componente de programas] y sistemas de programación X Activo de acuerdo al estándar ¡X Activo de Microsoft. De esta manera, el cliente ASR 130 puede, por ejemplo, ser cargado en la PC del cliente j 140 en conjunto con una sesión del examinador u hojeador de la red como sigue: un usuario examina la red mundial usando la PC delj cliente 140, se introduce en un sitio de la red que tenga capacidad ASR; el sitio de la red solicita permiso al usuario para descargar un módulo de cliente ASR en la PC de cliente Í40 de acuerdo con el control X Activo señalado; después d¡e la autorización del usuario, el cliente ASR 130 es descargadjo en la PC del cliente 140. De manera similar, el servidor ¡ASR 100 puede ser instalado para ejecutarse en el nodo del: servidor 110 de varias formas, por ejemplo, el servidor ASR puede ser cargado en el nodo del servidor 100 desde un ¦ medio de almacenamiento de datos permanente, tal como un d!isco magnético, o CD-ROM, o, de manera alternativa, el servidor ASR 100 puede ser descargado de una fuente de informaci n o datos localizables sobre la red paquete , tal como la Internet. Ahora se describirán los detalles adicionales para proporcionar servicios ASR remotos de acuerdo con la presente invención! con referencia a las FIGURAS 2-7. Se presume para la discusión siguiente con respecto a cada una de esas
i
figuras que la relación cliente-servidor es como se muestra en la FIGURA 1. Se usó una fase de instalación para preparar el servidor ASR 100 y el cliente ASR 130 para efectuar una tarea dé reconocimiento de voz automático como parte de la aplicación ASR. Por conveniencia, los puntos mostrados en la FIGURA ; 1 y que aparecen en otras figuras serán identifilcados por los mismo números de referencia que en la FIGURA 1!. Refiriéndose ahora a la FIGURA 2, ahora se describijrá una fase de instalación en un proceso para proporcionar servicios ASR remotos. En el paso 201, el cliente ¡ASR 130 recibe una petición de la solicitud para cargar una gramática del cliente. La gramática del cliente es
I ilustrativamente un archivo de datos que contiene información
I que representa el lenguaje (por ejemplo, palabras y frases) que se espera sean habladas en el contexto de la aplicación ASR particular. El archivo de datos puede estar en un formato conocido tal como el formato de gramática estándar (SGF) el cual és parte de la SAPI Microsoft. ¦ Para propósitos de ilustración, se usará una aplicación ASR para tomar la orden de una pizza para describir la presente invención. Una aplicación de servicios
ASR, tal; como una aplicación para ordenar una pizza, podría incluir típicamente un programa que se interconecta con y usa el cliente ASR 130 como un recurso usado para efectuar las
•:areas d!e la aplicación ASR. Tai aplicación ASR podría recidir y ejecutarse, toda o en parte, en una PC del cliente 140. Considerando el ejemplo de ordenar una pizza, la gramática del cliente PIZZA podría incluir información que representa palabras que uno puede usar para ordenar una pizza, tales como "pizza", "pepperoni", etc. En efecto, pueden ujsarse subgramáticas para construir una gramática apropiada'. Para el ejemplo de ordenar una pizza, las subgramátjicas para la gramática PIZZA podrían incluir TAMAÑO y COBERTERA. La subgramática TAMAÑO podría consistir de las palabras ¡usadas para describir el tamaño de la pizza deseada, tales como "pequeña", "mediana" y "grande". El subgramática COBERTURA puede consistir de las palabras usadas para describir las diferentes coberturas que se pueden ordenar con una pizza, por ejemplo, "salchicha", "pepperoni", "champiñones" y similares. Un cliente ASR 130 se le puede dar la gramática deseada desde la aplicación o, de manera alternativa, el cliente ASR 130 puede elegir la gramática de un conjunto predeterminado basado en la información proporcionada por la aplicación. De cualquier manera, el cliente ASR 130 entonces en el pjaso 202 envía el archivo de gramática deseado al servidor 1 ASR 100 sobre una conexión TCP/IP. Se puede hacer una nuev conexión TCP/IP como parte del establecimiento de
una nueva cesión de comunicaciones entre la PC del cliente 140 y el nodo ¿el servidor 100, o la conexión TCP/IP puede existir ya como resultado de una cesión de comunicaciones establecida entre lá PC del cliente 140 y el nodo de servidor 110 que no ha sido terminada. En la ilustración de ordenar una pizza, el cliente ASR 130 podría efectuar la transmisión de un archivo que ccntjiene la gramática PIZZA al servidor ASR 100 sobre una conexión' TCP/IP. En el paso 203, el servidor ASR 100 recibe la gramática del cliente enviada desde el cliente ASR 130 y, en el paso 204, el servidor ASR carga la gramática del cliente transmitida. Como se usa aquí, "cargar" la gramática del cliente significa hacer la gramática accesible para su uso por el servidor ASR 100, por ejemplo almacenando la gramática en - la RAM del nodo del servidor 110. En el paso 205, el servidor ASR 100 regresa un "manipulador" de gramática al cliente '130. Un "manipulador" de gramática es un marcador, tal como, por ejemplo, un apuntador para la memoria que contiene la gramática cargada, que permite que el cliente ASR se refi ra fácilmente a la gramática durante el resto de la cesión de comunicaciones o la ejecución de la aplicación. El cliente ASR 130 recibe el manipulador de gramática del servidor ASR 100 en el paso 206 y retorna el manipulador a la aplicaci n en el paso 207. Para el ejemplo de ordenar una pizza, el servidor ASR 100 podría recibir y cargar el archivo
de gramática de pizza transmitido y transmitirlo nuevamente al cliente ASR 130 un manipulador gue apunta a la gramática PIZZA cargada. El cliente ASR, a su vez, podría recibir >el manipulador de PIZZA del servidor ASR 100 y regresar: el manipulador de PIZZA a la aplicación para ordenar una pizzja. De esta manera, la aplicación puede referirse simplemente al manipulador de PIZZA cuando lleva a cabo o inicia una tarea ASR como parte de la aplicación para ordenar una pizz . Ahora se describirá un método de instalación alternativo con referencia a la FIGURA 3. Se asume para el resto de la descripción aquí que la transmisión o comunicación de información o datos entre el servidor ASR 100 y el cliente ASR 130 toman lugar sobre una conexión TCP/IP establecida. En el paso 301, el cliente ASR 130 recibe una petición de la aplicación para cargar una gramática del cliente. ;En lugar de enviar la gramática del cliente como un archivo de datos al servidor ASR 100 en el paso 302, sin embargo, el cliente ASR 130 en su lugar envía al servidor ASR 100 un identificador que representa una gramática "enlatada"; una gramática "enlatada" podría, por ejemplo, ser una gramática; común, tal como la HORA DEL DIA o FECHA, la cual el servidor j ASR 100 podría ya tener almacenada. De manera alternativa, el cliente ASR 130 podría enviar al servidor ASR 100 una dirección IP, tal como una dirección compatible con
URL, en donde el servidor ASR 100 podría encontrar el archivo de la gramática deseada. El servidor ASR 100 en el paso 303 recibe el identificador de la gramática o dirección de la gramática URL del cliente ASR 130, localiza y carga la gramáticja del cliente solicitada en el paso 304, y en el paso 305 regruesa un manipulador de gramática al cliente ASR 130. De manera similar los pasos descritos anteriormente con respecto a la FIGURA 2, el cliente ASR 130 recibe el manipulador de gramática del servidor ASR 100 en el paso 306 y regresa al manipulador a la aplicación en el paso 307. Para
I el ejemplo de ordenar una pizza, los pasos descritos anteriormente en relación a la FIGURA 2 podrían ser los mismos, excepto que el cliente ASR 130 podría enviar al servidor ASR 100 un identificador de gramática para la gramática PIZZA (si esta fuese una gramática "enlatada") o una direjcción URL para la localización de un archivo que contiene ¡la gramática PIZZA; el servidor ASR 100 podría, a su vez, recuperar un archivo de la gramática PIZZA basado en el identificador de gramática o dirección URL (como el enviado por el cliente ASR) y a continuación cargar la gramática PIZZA solicitada. Después de que la gramática ha sido cargada y el manipulador de gramática ha regresado al cliente ASR 130, una aplicación de servicio ASR necesita seleccionar una · regla de gramática a ser activada. La FIGURA 4 muestra un proceso para
la selección de la regla de gramática de acuerdo con la presente 'invención. El cliente ASR 130 recibe de la solicitud la petición de activar una regla de gramática en el paso 401. i En el paéo 402, el cliente ASR envía la petición de activar una regla al servidor ASR 100; como se muestra en la FIGURA 4, el cliente ASR 130 también en el paso 402 envía al servidor ASR 100 el manipulador de gramática previamente regresado (el cual puede permitir al servidor ASR activar la regla de ¡ gramática apropiada para la gramática particular de acuerdo a lo identificado por el manipulador de gramática) . El servidor ASR 100 en el paso 403 recibe la petición de activar la regla y el manipulador de gramática (si se envió) . En el paso 404, el servidor ASR 100 activa la regla solicitada y, en el paso 405, regresa al cliente ASR 130 la notificación de que la regla solicitada ha sido activada. El cliente A!SR 130 recibe en el paso 406 la notificación de la activación de la regla y notifica a la aplicación en el paso 407 que la regla ha sido activada. Una vez que la aplicación recibe la noticia de activación de la regla, puede entonces iniciar el reconocimiento de voz. Para propósitos de ilustración del proceso mostrado en la FIGURA 4, nuevamente considere el ejemplo de ordenar una pizza¡. Una regla que puede usarse para el reconocimiento de una orden de pizza puede fijar la frase deseada en un orden para incluir las subgramáticas TAMAÑO y COBERTURAS
junto con la palabra "pizza", y puede denotarse de la
siguiente; manera: (ORDEN = TAMAÑO "pizza" "con" COBERTURAS).
Con referencia nuevamente a la FIGURA 4, el cliente ASR 130 podría recibir de la aplicación la solicitud de activar una regla paira ordenar una pizza y enviar la regla de ORDEN expuesta anteriormente al servidor ASR 100 junto con el manipulador de la gramática PIZZA. El servidor ASR recibe la petición de activar la regla junto con el manipulador de la gramática^ PIZZA y activa la gramática del ORDEN, de modo que el reconcjcedor podría restringirse a reconocer palabras de la subgramática TAMAÑO, la palabra "pizza", la palabra "con" y las palabras de la subgramática COBERTURAS. Después de activar la regla de ORDEN, el servidor ASR 100 envía la notificación de la activación de la regla al cliente ASR 130 el cual, ¡a su vez lo notifica a la aplicación. ¡ Una vez que ha sido activada una regla de
I gramática', el procesamiento de voz para propósitos de reconocimiento de palabras en la gramática de acuerdo a la regla puede tomar lugar. Refiriéndose a la FIGURA 5, en el paso 501 el cliente ASR 130 recibe una petición de la solicitud para iniciar una tarea de reconocimiento de voz. En el paso 502, el cliente ASR 130 solicita propagar el audio de i la entrada de audio de la PC 140. La propagación del audio se refiere al audio que está siendo procesado "en el aire" mientras viene más suave; el sistema no espera que entre todo
el audio es decir, toda la voz) antes de enviar el audio al procesamiento digital; la propagación del audio también puede referirse I a la transmisión parcial o parte de la señal de audio cuándo está siendo introducido audio adicional . De manera ilustrativa, una petición de propagación de audio puede efectuarse haciendo una llamada de programas y sistemas de programación apropiada al sistema operativo que está
I siendo ejjecutado en la PC del cliente 140 de modo que la i propagación del audio en el micrófono de entrada sea digitalizada por el procesador de sonido de la PC del cliente 140. La propagación del audio digitalizado de la entrada del micrófono' se hace pasar entonces a lo largo del cliente ASR 130. El cliente ASR 130 inicia entonces la transmisión del audio digitalizado propagado al servidor ASR 100 en el paso 503; al igual que la entrada de audio del micrófono, el audio digitalizado es enviado al servidor ASR 100 "al aire" aún cuando cohtinúe entrando voz. ?? el paso 504, el servidor ASR 100 efectúa el reconocimiento de la voz en el audio digitalizado propagado a medida que el audio es recibido del cliente ASR 130. El reconocimiento de la voz se efectúa usando los algoritmos de reconocimientos conocidos, tales como aquellos empleados por la máquina de reconocimiento de voz ATSON de AT&T, y se efectúa ¡dentro de las restricciones de la gramática seleccionada de acuerdo a lo definido por la regla activada.
En el ]jaso 505, el servidor ASR 100 retorna el texto propagadc|> (es decir, voz parcialmente reconocida) cuando la voz de j entrada es reconocida. De este modo, cuando el servidor i ASR 100 alcanza sus resultados iniciales, regresa a aquellos ¡ resultados al cliente ASR 130 aún cuando el servidor
ASR 100 continúe el proceso de audio propagado adicional que
I está siendo enviado por el cliente ASR 130. Este proceso de i regresar ¡el texto reconocido "al aire" permite que el cliente ASR 130 ¡o la aplicación de interconexión con el cliente ASR 130) proporcione retroalimentación al locutor. Cuando el servidor ASR 100 continua procesando el audio de entrada propagado; adicional, puede corregir los resultados del reconocimiento de voz inicial, de modo que el texto regresado pueda realmente actualizar (o corregir) partes del texto ya regresadas al cliente ASR 130 como parte de la tarea de reconocimiento de la voz. Una vez que todo el audio propagado ha sido ' recibido del cliente ASR 130, el servidor ASR completa :su proceso de reconocimiento de voz y regresa una versión ' final del texto reconocido (incluyendo las correcciones) en el paso 506. En el paso 507, el cliente ASR 130 recibe el texto reconocido del servidor ASR 100 y regresa el texto a la aplicación en el paso 508. Nuevamente, esto puede hacerse "al i aire" miejntras el texto reconocido entra, y el cliente ASR
i
pasa a la aplicación cualesquier correcciones del texto reconocido recibido del servidor ASR 100. Refiriéndose al ejemplo de ordenar una pizza, una vez que la regla ORDENAR ha sido activada y la aplicación notificada, el cliente ASR 130 recibirá la solicitud de iniciar e;l reconocimiento de voz e iniciara la propagación del audio de la entrada del micrófono. Puede solicitarse al locutor ordenar la pizza, y una vez que comience a hablar, el cliente ASR 130 envía el audio propagado digitalizado al servidor ^.SR 100. De este modo, cuando el locutor establece, por ejemplo, que desea ordenar una "pizza grande con salchichas y pepperoni", el cliente ASR 130 habrá enviado el audio propagado digitalizado para la primer palabra de la orden a lo largo del servidor ASR 100 aún cuando la segunda palabra esté siendo hablada. El servidor ASR 100, cuando a orden sea, hablada, retornará la primer palabra como texto "grande" cuando el resto de la orden esté siendo hablada. Finalmente, una vez que el locutor deja de hablar, el texto reconocido final para la orden, "pizza grande con salchichas, pepperoni" puede ser regresado al cliente ASR 130 y, en consecuencia, a la aplicación. Una modalidad alternativa para llevar a cabo el proceso dé reconocimiento de voz de acuerdo con la presente invención se muestra en la FIGURA 6. De manera similar al proceso de reconocimiento de voz mostrado en la FIGURA 5, en
el paso ¡601 el cliente ASR 130 recibe la petición de la
I solicitud para iniciar una tarea de reconocimiento de voz, y en el pa|so 602, el cliente ASR 130 solicita la propagación del audió desde la entrada del audio de la PC del cliente 140. La propagación del audio digitalizado de la entrada del micrófonó se hace pasar entonces a lo largo del cliente ASR 130. En ¡el paso 603, el cliente ASR 130 comprime el audio digitalizado "al aire" y a continuación inicia la transmisión i del audio digitalizado comprimido propagado al servidor ASR 100, mientras la entrada de voz continúa. En el paso 604, el servidor ASR 100 descomprime el aire comprimido recibo del cliente ASR 130 antes de efectuar el reconocimiento de voz del audio digitalizado propagado. Como se describió anteriormente con referencia a la FIGURA 5, dentro de las de acuerdo a lo 605, el servidor (es decir, voz voz entrante es 100 regresa los
resultadas iniciales al cliente ASR 130 aún cuando el servidor : ASR 100 continua procesando el audio propagado comprimido adicional que está siendo enviado por el cliente SR 130, y puede actualizar o corregir partes del texto ya regresadas al cliente ASR 130 como parte de la tarea de
i
reconocimiento de la voz. Una vez que todo el audio propagado ha sido ; recibido del cliente ASR 130, el servidor ASR completa j su procesamiento de reconocimiento de la voz y regresa la versión final del texto reconocido (incluyendo las correcciónes ) en el paso 606. El cliente ASR 130 recibe el texto reconocido del servidor ASR 100 en el paso 607 a medida que entra y regresa el texto a la aplicación en el paso 608. Otra modalidad alternativa para llevar a cabo el proceso de reconocimiento de voz de acuerdo con la presente invención se muestra en la FIGURA 7. De manera similar al proceso de reconocimiento de voz mostrado en las FIGURAS 5 y 6, en el paso 701 el cliente ASR 130 recibe la petición de aplicación para iniciar una tarea de reconocimiento de voz y, en el paso 702, el cliente ASR 130 solicita propagar el audio i de la ejntrada de audio de la PC del cliente 140. La propagación del audio digitalizado de la entrada del micrófono se hace pasar entonces al cliente ASR 130. En el paso 703, el cliente ASR 130 procesa el audio digitalizado "al aire" para extraer las características útiles para el proceso de reconocimiento de la voz y a continuación ¦ inicia la transmisión de las características extraídas al servidor
I
ASR 100, ¡mientras la entrada de voz continua. La extracción de las características relevantes de la voz implica un proceso independiente de la gramática que es típicamente
i
parte de ¡los algoritmos empleados para el reconocimiento de la voz, y puede efectuarse usando los métodos conocidos por aquellos expertos en la técnica, tales como aquellos basados en el código de predicción lineal (LPC) o el procesamiento de banco de filtros Mel. La extracción de características proporciona la información obtenida de las características de las señales de voz eliminando a la vez la información innecesaria, tal como el volumen. Después de recibir las características extraídas del clieríte ASR 130, el servidor ASR 100 en el paso 704 efectúa el reconocimiento de la voz sobre las características entrantes que están arribando "al aire" (es decir, de manera análoga a| la propagación del audio) . El reconocimiento de la voz se efectúa dentro de las restricciones de la gramática seleccionada de acuerdo a lo definido por la regla activada. Como es e¡l caso con las modalidades discutidas anteriormente con referencia a las FIGURAS 5 y 6, en el paso 705 el servidor ASR 100 regresa el texto propagado (es decir, voz parcialmente reconocida) al cliente ASR 130 cuando las características de entrada son reconocidas. El servidor ASR 100 continua procesando las características extraídas adicionales que están siendo enviadas al cliente ASR 130, y puede actualizar o corregir partes del texto ya regresado al cliente ASR 130. El servidor ASR completa su proceso de reconocimiento de voz de la recepción de todas las
características extraídas del cliente ASR 130, y regresa una versión final del texto reconocido (incluyendo las correcciones) en el paso 706. El cliente A5R 130 recibe el texto redonocido del servidor ASR 100 en el paso 707 coro ertra y regresa el texto a la aplicación en el paso 708. Las modalidades alternativas descritas anteriormente con respecto a las FIGURAS 6 y 7 proporcionan cada una el procesamiento adicional en el extremo del cliente. Para la modalidad en la FIGURA 6, esto comprende la compresión del audio propagado (con la descompresión del audio en el extremo del servidor) para la modalidad en la FIGURA 7, esta parte incluyó el proceso de reconocimiento de voz en forma de extracción de características. Usando tal procesamiento adicional en el extremo del cliente se reduce significativamente la cantidad de datos transmitidos desde el cliente ASR 130 al servidor ASR 100. De este modo, se requieren menos datos para representar las señales de voz que están siendo transmitidas. Donde la extracción de características se efectúa en el extremo del cliente, tales beneficias se incrementan potencialmente de manera aguda, debido a. que las características extraídas (en oposición a las señales de voz digitalizadas ) requieren menos datos y no se necesjitan enviar características durante los periodos de silencio. La reducción de datos produce un beneficio doble deseado: (1) permite la reducción en el ancho de banda
requeridq para lograr un cierto nivel de funcionamiento, y (2) reduce el tiempo de transmisión para enviar datos de voz del cliente ASR al servidor ASR a través de la conexión TCP/IP. Aunque típicamente una regla de gramática será activada ¡antes del inicio de la transmisión de la información de voz del cliente ASR 130 al servidor ASR 100, la activación de la regla podría tomar lugar después de que algo o toda de la información de voz a ser reconocida ha sido enviada del cliente ASR 130 al servidor ASR 100. En tales circunstancias, el servidor ASR 100 podría efectuar esfuerzos de reconocimiento de la voz hasta que la regla de gramática haya sido activada. La voz enviada por el cliente ASR 130 antes de la activación de una regla de gramática podría ser almacenada temporalmente por el servidor ASR 100 para ser procesada por el reconócedor o, de manera alternativa, tal voz podría ser ignorada. Además, las tareas de reconocimiento de voz múltiples pueden ser ejecutadas usando las técnicas de la presente invención. Por ejemplo, una aplicación ASR podría solicitar del cliente ASR 130 dar instrucciones al servidor ASR 100 para cargar una gramática enlatada por un número telefónico (por ejemplo, "NUMERO TELEFONICO") y a continuación solicitar la activación de los números mencionados que cubran la regla. Después de que es mencionado
un númeijo telefónico y reconocido de acuerdo con la presente invención (por ejemplo, en respuesta a una petición de mencionajr el número telefónico, el cliente ASR 130 envia los números jmencionados digitalizados al servidor ASR 100 para su reconocimiento) , la aplicación ASR podria ser entonces solicitar al cliente ASR 130 que instale e inicie el reconocimiento de ordenar una pizza (por ejemplo, cargar gramática PIZZA, activar regla de ORDEN, e iniciar el reconocimiento de la voz) de acuerdo con los ejemplos descritos anteriormente con referencia a las FIGURAS 2-5. Además del ejemplo sencillo de ordenar una pizza usado anteriormente para ilustración, puede proporcionarse un arreglo amplio de servidores ASR potenciales sobre una red paquete, de acuerdo con la presente invención. Un ejemplo de aplicación ASR permitida por la presente solicitud es un servició de llenado de formas para completar una forma en respuesta a las respuestas habladas para la información requerida para cada uno de un número de espacios en blanco en la forma. De acuerdo con la presente invención, puede implemehtarse un servicio de llenado de formas en donde el cliente1 ASR 130 envia las gramáticas que representan las elecciones posibles para cada uno de los espacios en blanco al servidor ASR 100. Para cada espacio en blanco, el cliente ASR 130 solicita la activación de la regla de gramática
apropiada y envía una respuesta hablada correspondiente hecha j en respuesta a la solicitud de la información necesaria para ccrcpletár el espacio en blanco. El servidor ASR 100 aplica un algoritmo de reconocimiento de voz apropiado de acuerdo con la gramática y regla seleccionada, y regresa el texto a ser insertado en la forma. Otros servicios ASR pueden implicar un intercambio de información (per ejemplo, un diálogo) entre el servidor y t el cliente. Por ejemplo, una aplicación de servicio ASR para manejarj reservaciones de vuelo pueden, de acuerdo con la presente invención como se describió aquí, utilizar un dialogo; entre el servidor ASR 100 y el cliente ASR 130 para efectuar la tarea ASR. Un dialogo puede proceder como sigue: Locutor (a través del cliente ASR 130 al servidor
ASR 100) : "Deseo un vuelo a los Angeles" La respuesta del servidor ASR al cliente ASR (en fonra de texto o, alternativamente, la voz regresada oor uno máquina operando en -formo
dede texto :a voz (ITS) ei servidor ASR 100 al cliente ASR 130): "¿De qué ciudad saldrá'?" Locutor (a través del cliente ASR al servidor ASR) : "Washington, DC . " . La respuesta del servidor ASR al cliente ASR: "¿Que día desea salir?"
Locutor (del cliente ASR al servidor ASR) : "Martes". Respuesta del servidor ASR al cliente ASR: "¿A qué hora desea salir?" Locutor (del cliente ASR al servidor ASR) : "A las 4 en punto en la tarde". La respuesta del cliente ASR al servidor ASR: "Puedo registrarlo en el vuelo 4567 de ia Aerolínea YZ de Washington, DC a los Angeles el Martes a las 4 en punto PM. ¿Desea reservar un asiento en este vuelo?" En este caso, la información recibida del servidor ASR 110 no es literalmente el texto de la voz reconocida, pero su información se basó en la v o z reconocida (lo cual dependerá de la aplicación) . Cada parte del dialogo puede efectuarse de acuerdo con el método cliente-servidor ASR desdrito anteriormente. Como puede observarse a partir de es t e ejémplo, tal aplicación de servicio ASR requiere que el cliente ASR y el servidor ASR no únicamente cengan la capacidad de manejar el lenguaje natural, sino también acceso a una ba se] de datos grande que esté camb i ando c o n s t a n t e m e n t e . P a r a lograr esto, puede ser deseable tener una aplicación de servicios ASR y TTS instalados y ejecutándose en un nodo de servidor 110, en lugar de una PC de cliente 140. La PC del cliente 140, podría, en este caso, simplemente tener que ejecutar un programa de "agente" relativamente pequeño que,
en el ¡control del programa de aplicación que está e ecutándose en el nodo del servidor 110, inicie al cliente ASR 130 cuide la entrada de la voz a través del cliente ASR 130 a lo largo del servidor ASR 100. Un ejemplo de tal programa ,de "agente" puede ser, por ejemplo, uno que coloque un "encabezado de conversación" sobre la pantalla de la PC del cliente 140 para ayudar a la interacción entre un individuo que está usando la aplicación de servicio ASR en la PC del cliente 140 y, a través del cliente ASR 130 y el servidor ASR 100, que envíe información hablada de la persona a lo largo del servidor ASR 100 para su reconocimiento. En resumen, la presente invención proporciona una forma de proporcionar servicios ASR que pueden hacerse disponiblés a usuarios sobre una red paquete , tal como la Internet, a un lugar remoto del sistema que aloja una máquina SR y una máquina TTS usando una arquitectura cliente-servidor. Lo que se ha descrito es meramente ilustrativo de la aplicación de los principios de la presente invención. Otros arreglos y métodos pueden ser implementados por aquellos expertos en la técnica sin apartarse del espíritu y alcance de la presente invención.
Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la
práctica jla citada invención, es el que resulta claro de presente (descripción de la invención. Habiéndose descrito la invención como antecede, reclama cpmo propiedad lo contenido en las siguientes:
Claims (20)
1. Un método para operar un servicio de reconocimiento automático de voz accesible en forma remota I por el cliente sobre una red de Protocolo Internet, el método está caracterizado porque comprende: recibir sobre una red de Protocolo de Internet una identificación de una aplicación de reconocimiento automático de voz; \ seleccionar una gramática de la pluralidad de gramáticas de acuerdo con la aplicación de reconocimiento automático de voz reconocida; recibir información de voz sobre la red de Protocolo de Internet; y utilizar la gramática seleccionada, reconociendo la información de voz recibida.
2. El método de conformidad con la reivindicación 1, caracterizado porque comprende además enviar información con basé en la voz reconocida sobre la red de Protocolo de Internet a un cliente.
3. El método de conformidad con la reivindicación 2, caracterizado porque la pluralidad de gramáticas se almacena en forma local por el servicio de reconocimiento automático de voz . 1
4. El método de conformidad con la reivindicación 2, carácterizado porque la pluralidad de gramáticas se almacena en forma remota desde el servicio de reconocimiento automático de voz .
5. El método de conformidad con la reivindicación 1, caracterizado porque la aplicación de reconocimiento automático de voz identificada se identifica por una dirección compatible con localizador universal de recursos (URL) de la aplicación de reconocimiento automático de voz.
6. El método de conformidad con la reivindicación 1, caracterizado porque la aplicación de reconocimiento automático de voz es un componente de un servicio de diálogo hablado J
7. El método de conformidad con la reivindicación 6, caracterizado porque la aplicación de diálogo hablado transmite voz sintética a un cliente sobre una red de Protocolo de Internet para continuar en un diálogo con un usuario en comunicación con el cliente.
' 8. El método de conformidad con la reivindicación 1, caracterizado porque comprende además: identificar una sub-porción de un diálogo con un usuario; i seleccionar una gramática secundaria de acuerdo con la sub-porción identificada del dialogo; y reconocer voz del usuario para la sub-porción identificada del diálogo usando la gramática secundaria seleccionada . j
9. El método de conformidad con la reivindicación 8, caracterizado porque la sub-porción del diálogo se refiere a una tarea. i j ¡ !
10. El método de conformidad con la reivindicación 1, caracterizado porque la gramática seleccionada comprende una plujralidad de gramáticas secundarias y cada gramática secunda ia se selecciona y se usa para reconocer voz desde un usuario de acuerdo con una porción de un diálogo con un usuario
11. El método de conformidad con la reivindicación 10, caracterizado porque cada gramática secundaria está asociad^ con una tarea. i j
12. Un método para operar un servicio de diálogo i hablado [ en un servidor accesible en forma remota sobre una i red de j Protocolo Internet, el método está caracterizado porque ¿omprende, en el servidor: I recibir sobre una red de Protocolo de Internet una identificación de una aplicación de diálogo hablado que tiene una gramática asociada; recibir información de voz desde un usuario; transmitir la información de voz al servidor; , reconocer la voz usando la gramática asociada; y transmitir la voz generada desde el servidor en i respuesjta a la voz de usuario reconocida sobre la red de Protocolo de Internet.
13. El método de conformidad con la reivindicación 12, caracterizado porque comprende además: identificar una sub-porción de un diálogo con un usuarios- seleccionar una gramática secundaria de acuerdo con la sub-jporción identificada del dialogo; y reconocer la voz del usuario para la sub-porción identiflicada del diálogo usando la gramática secundaria seleccionada .
14. El método de conformidad con la reivindicación 13, caracterizado porque la sub-porción del diálogo está asociada con una tarea. 1 15. El método de conformidad con la reivindicación
I 12, caracterizado porque la gramática asociada se identifica por una dirección compatible con localizador universal de recursos (URL) asociada con aplicación de diálogo hablado.
16. Un sistema para operar una aplicación de reconocimiento automático de voz en forma remota accesible sobre ¡una red de Protocolo de Internet, el sistema caracterizado porque comprende: ! medios para recibir sobre una red de Protocolo de Internet una identificación de una aplicación de reconocimiento automático de voz; medios para seleccionar una gramática de una pluralidad de gramáticas de acuerdo con la aplicación de reconocimiento automático de voz identificada; medios para recibir información de voz sobre una red de ¡Protocolo de Internet; y medios para usar la gramática seleccionada para reconocer la información de voz recibida.
17. Un sistema para operar una aplicación de reconocimiento automático de voz en forma remota accesible sobre una red de Protocolo de Internet, el sistema caracterizado porque comprende: un módulo configurado para recibir sobre una red de Protocolo de Internet una identificación de una aplicación de reconocimiento automático de voz; un módulo configurado para seleccionar una gramática de una pluralidad de gramáticas de acuerdo con la aplicación de reconocimiento automático de voz identificada; i un módulo configurado para recibir información de voz sob-jre una red de Protocolo de Internet; y ' un módulo que usa la gramática seleccionada para reconocer la información de voz recibida.
El sistema de conformidad con la reivindicación zado porque el sistema comprende un servicio de diálogo hablado que comprende una aplicación de reconocimiento automático de voz
19. Un medio legible por computadora que almacena instrucciones para controlar un dispositivo de cómputo para operar ¡una aplicación de reconocimiento automático de voz Ij accesible en forma remota sobre una red de Protocolo de Internet!, las instrucciones caracterizadas porque comprenden: recibir sobre una red de Protocolo de Internet una identificación de una aplicación de reconocimiento automático de voz; seleccionar una gramática de una pluralidad de gramáticas de acuerdo con la aplicación de reconocimiento automático de voz identificada; recibir información de voz sobre una red de Protocolo de Internet; y i usar la gramática seleccionada, reconociendo la información de voz recibida.
20. El medio legible por computadora de conformidad con la ¡reivindicación 19, caracterizado porque la aplicación de reconocimiento automático de voz es parte de un servicio de diálogo hablado.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/833,210 US6078886A (en) | 1997-04-14 | 1997-04-14 | System and method for providing remote automatic speech recognition services via a packet network |
Publications (1)
Publication Number | Publication Date |
---|---|
MX2007013015A true MX2007013015A (es) | 2009-02-17 |
Family
ID=25263756
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
MX2007013015A MX2007013015A (es) | 1997-04-14 | 2007-10-18 | Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes. |
MX2007013017A MX2007013017A (es) | 1997-04-14 | 2007-10-18 | Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes. |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
MX2007013017A MX2007013017A (es) | 1997-04-14 | 2007-10-18 | Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes. |
Country Status (6)
Country | Link |
---|---|
US (3) | US6078886A (es) |
EP (1) | EP0872827B1 (es) |
JP (3) | JPH10333693A (es) |
CA (1) | CA2228917C (es) |
DE (1) | DE69829604T2 (es) |
MX (2) | MX2007013015A (es) |
Families Citing this family (299)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7168084B1 (en) | 1992-12-09 | 2007-01-23 | Sedna Patent Services, Llc | Method and apparatus for targeting virtual objects |
US9286294B2 (en) | 1992-12-09 | 2016-03-15 | Comcast Ip Holdings I, Llc | Video and digital multimedia aggregator content suggestion engine |
AU2744097A (en) | 1996-04-26 | 1997-11-19 | At & T Corporation | Method and apparatus for data transmission using multiple transmit antennas |
US6856960B1 (en) * | 1997-04-14 | 2005-02-15 | At & T Corp. | System and method for providing remote automatic speech recognition and text-to-speech services via a packet network |
US8209184B1 (en) | 1997-04-14 | 2012-06-26 | At&T Intellectual Property Ii, L.P. | System and method of providing generated speech via a network |
US6078886A (en) * | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
US6671745B1 (en) * | 1998-03-23 | 2003-12-30 | Microsoft Corporation | Application program interfaces and structures in a resource limited operating system |
US6434526B1 (en) * | 1998-06-29 | 2002-08-13 | International Business Machines Corporation | Network application software services containing a speech recognition capability |
US7003463B1 (en) | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
AU6292799A (en) * | 1998-10-15 | 2000-05-01 | Luther Marvin Shannon | Method for computer-aided foreign language instruction |
US6185535B1 (en) * | 1998-10-16 | 2001-02-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Voice control of a user interface to service applications |
DE19910234A1 (de) * | 1999-03-09 | 2000-09-21 | Philips Corp Intellectual Pty | Verfahren mit mehreren Spracherkennern |
DE19910236A1 (de) * | 1999-03-09 | 2000-09-21 | Philips Corp Intellectual Pty | Verfahren zur Spracherkennung |
KR20010108402A (ko) * | 1999-03-26 | 2001-12-07 | 요트.게.아. 롤페즈 | 클라이언트 서버 음성 인식 |
US6526380B1 (en) * | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
WO2000058942A2 (en) * | 1999-03-26 | 2000-10-05 | Koninklijke Philips Electronics N.V. | Client-server speech recognition |
US20050261907A1 (en) * | 1999-04-12 | 2005-11-24 | Ben Franklin Patent Holding Llc | Voice integration platform |
US20050091057A1 (en) * | 1999-04-12 | 2005-04-28 | General Magic, Inc. | Voice application development methodology |
US6408272B1 (en) * | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
WO2000062222A1 (en) * | 1999-04-14 | 2000-10-19 | Syvox Corporation | Interactive voice unit for giving instruction to a worker |
DE19918382B4 (de) * | 1999-04-22 | 2004-02-05 | Siemens Ag | Erstellen eines Referenzmodell-Verzeichnisses für ein sprachgesteuertes Kommunikationsgerät |
GB9911971D0 (en) | 1999-05-21 | 1999-07-21 | Canon Kk | A system, a server for a system and a machine for use in a system |
DE19930407A1 (de) * | 1999-06-09 | 2000-12-14 | Philips Corp Intellectual Pty | Verfahren zur sprachbasierten Navigation in einem Kommunikationsnetzwerk und zur Implementierung einer Spracheingabemöglichkeit in private Informationseinheiten |
AU5399300A (en) * | 1999-06-09 | 2001-01-02 | Koninklijke Philips Electronics N.V. | Method of speech-based navigation in a communications network and of implementing a speech input possibility in private information units. |
GB2356318A (en) * | 1999-09-04 | 2001-05-16 | Marconi Comm Ltd | Server with voice recognition |
US7330815B1 (en) | 1999-10-04 | 2008-02-12 | Globalenglish Corporation | Method and system for network-based speech recognition |
EP1098297A1 (en) * | 1999-11-02 | 2001-05-09 | BRITISH TELECOMMUNICATIONS public limited company | Speech recognition |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US9076448B2 (en) * | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7050977B1 (en) * | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US6792405B2 (en) | 1999-12-10 | 2004-09-14 | At&T Corp. | Bitstream-based feature extraction method for a front-end speech recognizer |
US7110947B2 (en) | 1999-12-10 | 2006-09-19 | At&T Corp. | Frame erasure concealment technique for a bitstream-based feature extractor |
US6424945B1 (en) | 1999-12-15 | 2002-07-23 | Nokia Corporation | Voice packet data network browsing for mobile terminals system and method using a dual-mode wireless connection |
US6434529B1 (en) * | 2000-02-16 | 2002-08-13 | Sun Microsystems, Inc. | System and method for referencing object instances and invoking methods on those object instances from within a speech recognition grammar |
AU2001239880A1 (en) | 2000-02-25 | 2001-09-03 | Pulsar Communications, Inc. | Apparatus and method for providing enhanced telecommunications services |
EP1279165B1 (en) * | 2000-03-24 | 2011-01-05 | Eliza Corporation | Speech recognition |
KR20010025230A (ko) * | 2000-11-09 | 2001-04-06 | 차정만 | 음성도메인에 의한 인터넷접속 매개장치와 매개방법 및음성도메인의 데이터 베이스 생성방법 |
US6785653B1 (en) * | 2000-05-01 | 2004-08-31 | Nuance Communications | Distributed voice web architecture and associated components and methods |
US7788602B2 (en) | 2000-06-06 | 2010-08-31 | Microsoft Corporation | Method and system for providing restricted actions for recognized semantic categories |
US7712024B2 (en) | 2000-06-06 | 2010-05-04 | Microsoft Corporation | Application program interfaces for semantically labeling strings and providing actions based on semantically labeled strings |
US7716163B2 (en) | 2000-06-06 | 2010-05-11 | Microsoft Corporation | Method and system for defining semantic categories and actions |
US7770102B1 (en) | 2000-06-06 | 2010-08-03 | Microsoft Corporation | Method and system for semantically labeling strings and providing actions based on semantically labeled strings |
WO2002001550A1 (fr) * | 2000-06-26 | 2002-01-03 | Mitsubishi Denki Kabushiki Kaisha | Procede et systeme de commande d'un dispositif |
KR100383391B1 (ko) * | 2000-06-28 | 2003-05-12 | 김지한 | 음성인식서비스 시스템 및 방법 |
FI115868B (fi) * | 2000-06-30 | 2005-07-29 | Nokia Corp | Puhesynteesi |
US20020078445A1 (en) * | 2000-07-11 | 2002-06-20 | Imran Sharif | Internet appliance for interactive audio/video display using a remote control unit for user input |
US20030115167A1 (en) * | 2000-07-11 | 2003-06-19 | Imran Sharif | Web browser implemented in an Internet appliance |
US7245291B2 (en) | 2000-07-11 | 2007-07-17 | Imran Sharif | System and method for internet appliance data entry and navigation |
US6980313B2 (en) * | 2000-07-11 | 2005-12-27 | Imran Sharif | Fax-compatible internet appliance |
US7139709B2 (en) | 2000-07-20 | 2006-11-21 | Microsoft Corporation | Middleware layer between speech related applications and engines |
GB2365189A (en) * | 2000-07-26 | 2002-02-13 | Canon Kk | Voice-controlled machine |
WO2002011121A1 (en) * | 2000-07-31 | 2002-02-07 | Eliza Corporation | Method of and system for improving accuracy in a speech recognition system |
WO2002011120A1 (en) * | 2000-08-02 | 2002-02-07 | Speaklink, Inc. | System and method for voice-activated web content navigation |
FI20001918A (fi) | 2000-08-30 | 2002-03-01 | Nokia Corp | Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä |
DE60125597T2 (de) * | 2000-08-31 | 2007-05-03 | Hitachi, Ltd. | Vorrichtung für die Dienstleistungsvermittlung |
US7095733B1 (en) * | 2000-09-11 | 2006-08-22 | Yahoo! Inc. | Voice integrated VOIP system |
US6567419B1 (en) | 2000-09-11 | 2003-05-20 | Yahoo! Inc. | Intelligent voice converter |
US6580786B1 (en) | 2000-09-11 | 2003-06-17 | Yahoo! Inc. | Message store architecture |
US6556563B1 (en) * | 2000-09-11 | 2003-04-29 | Yahoo! Inc. | Intelligent voice bridging |
US7454346B1 (en) * | 2000-10-04 | 2008-11-18 | Cisco Technology, Inc. | Apparatus and methods for converting textual information to audio-based output |
GB2368441A (en) * | 2000-10-26 | 2002-05-01 | Coles Joseph Tidbold | Voice to voice data handling system |
US7136814B1 (en) * | 2000-11-03 | 2006-11-14 | The Procter & Gamble Company | Syntax-driven, operator assisted voice recognition system and methods |
JP3581648B2 (ja) * | 2000-11-27 | 2004-10-27 | キヤノン株式会社 | 音声認識システム、情報処理装置及びそれらの制御方法、プログラム |
US6823306B2 (en) | 2000-11-30 | 2004-11-23 | Telesector Resources Group, Inc. | Methods and apparatus for generating, updating and distributing speech recognition models |
ES2391983T3 (es) * | 2000-12-01 | 2012-12-03 | The Trustees Of Columbia University In The City Of New York | Procedimiento y sistema para la activación por voz de páginas web |
US6937986B2 (en) * | 2000-12-28 | 2005-08-30 | Comverse, Inc. | Automatic dynamic speech recognition vocabulary based on external sources of information |
US20020143553A1 (en) * | 2001-01-24 | 2002-10-03 | Michael Migdol | System, method and computer program product for a voice-enabled universal flight information finder |
FR2820872B1 (fr) * | 2001-02-13 | 2003-05-16 | Thomson Multimedia Sa | Procede, module, dispositif et serveur de reconnaissance vocale |
DE10109156C2 (de) * | 2001-02-24 | 2003-01-09 | Diehl Ako Stiftung Gmbh & Co | Intelligente Haushaltsgrossgeräte |
US7805310B2 (en) * | 2001-02-26 | 2010-09-28 | Rohwer Elizabeth A | Apparatus and methods for implementing voice enabling applications in a converged voice and data network environment |
US20020178003A1 (en) * | 2001-03-09 | 2002-11-28 | Motorola, Inc. | Method and apparatus for providing voice recognition service to a wireless communication device |
US6985862B2 (en) * | 2001-03-22 | 2006-01-10 | Tellme Networks, Inc. | Histogram grammar weighting and error corrective training of grammar weights |
KR100549482B1 (ko) | 2001-03-22 | 2006-02-08 | 캐논 가부시끼가이샤 | 정보 처리 장치, 정보처리 방법, 및 프로그램을 기억하는 컴퓨터 판독가능 기억 매체 |
US7233903B2 (en) * | 2001-03-26 | 2007-06-19 | International Business Machines Corporation | Systems and methods for marking and later identifying barcoded items using speech |
US6885735B2 (en) * | 2001-03-29 | 2005-04-26 | Intellisist, Llc | System and method for transmitting voice input from a remote location over a wireless data channel |
US7778816B2 (en) * | 2001-04-24 | 2010-08-17 | Microsoft Corporation | Method and system for applying input mode bias |
CN1279465C (zh) * | 2001-05-04 | 2006-10-11 | 微软公司 | Web启用的识别体系结构 |
US7610547B2 (en) * | 2001-05-04 | 2009-10-27 | Microsoft Corporation | Markup language extensions for web enabled recognition |
US20020178182A1 (en) * | 2001-05-04 | 2002-11-28 | Kuansan Wang | Markup language extensions for web enabled recognition |
US7506022B2 (en) * | 2001-05-04 | 2009-03-17 | Microsoft.Corporation | Web enabled recognition architecture |
CN101833952B (zh) * | 2001-05-04 | 2013-02-13 | 微软公司 | 客户服务器系统中处理输入数据的方法 |
US7409349B2 (en) * | 2001-05-04 | 2008-08-05 | Microsoft Corporation | Servers for web enabled speech recognition |
US7941313B2 (en) * | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
US7203188B1 (en) | 2001-05-21 | 2007-04-10 | Estara, Inc. | Voice-controlled data/information display for internet telephony and integrated voice and data communications using telephones and computing devices |
US7203643B2 (en) * | 2001-06-14 | 2007-04-10 | Qualcomm Incorporated | Method and apparatus for transmitting speech activity in distributed voice recognition systems |
US7366673B2 (en) * | 2001-06-15 | 2008-04-29 | International Business Machines Corporation | Selective enablement of speech recognition grammars |
JP3885523B2 (ja) | 2001-06-20 | 2007-02-21 | 日本電気株式会社 | サーバ・クライアント型音声認識装置及び方法 |
US20030009331A1 (en) * | 2001-07-05 | 2003-01-09 | Johan Schalkwyk | Grammars for speech recognition |
US7194513B2 (en) * | 2001-07-08 | 2007-03-20 | Imran Sharif | System and method for using an internet appliance to send/receive digital content files as E-mail attachments |
US20030014254A1 (en) * | 2001-07-11 | 2003-01-16 | You Zhang | Load-shared distribution of a speech system |
US7793326B2 (en) | 2001-08-03 | 2010-09-07 | Comcast Ip Holdings I, Llc | Video and digital multimedia aggregator |
US7908628B2 (en) | 2001-08-03 | 2011-03-15 | Comcast Ip Holdings I, Llc | Video and digital multimedia aggregator content coding and formatting |
US7467089B2 (en) * | 2001-09-05 | 2008-12-16 | Roth Daniel L | Combined speech and handwriting recognition |
US7505911B2 (en) * | 2001-09-05 | 2009-03-17 | Roth Daniel L | Combined speech recognition and sound recording |
US7444286B2 (en) | 2001-09-05 | 2008-10-28 | Roth Daniel L | Speech recognition using re-utterance recognition |
US7313526B2 (en) | 2001-09-05 | 2007-12-25 | Voice Signal Technologies, Inc. | Speech recognition using selectable recognition modes |
US7809574B2 (en) | 2001-09-05 | 2010-10-05 | Voice Signal Technologies Inc. | Word recognition using choice lists |
US7526431B2 (en) * | 2001-09-05 | 2009-04-28 | Voice Signal Technologies, Inc. | Speech recognition using ambiguous or phone key spelling and/or filtering |
US7324947B2 (en) | 2001-10-03 | 2008-01-29 | Promptu Systems Corporation | Global speech user interface |
US8644475B1 (en) | 2001-10-16 | 2014-02-04 | Rockstar Consortium Us Lp | Telephony usage derived presence information |
US8229753B2 (en) * | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
US7711570B2 (en) | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
JP2003143256A (ja) * | 2001-10-30 | 2003-05-16 | Nec Corp | 端末装置と通信制御方法 |
US7246060B2 (en) * | 2001-11-06 | 2007-07-17 | Microsoft Corporation | Natural input recognition system and method using a contextual mapping engine and adaptive user bias |
US6816578B1 (en) * | 2001-11-27 | 2004-11-09 | Nortel Networks Limited | Efficient instant messaging using a telephony interface |
US7124085B2 (en) * | 2001-12-13 | 2006-10-17 | Matsushita Electric Industrial Co., Ltd. | Constraint-based speech recognition system and method |
US20030135624A1 (en) * | 2001-12-27 | 2003-07-17 | Mckinnon Steve J. | Dynamic presence management |
US7013275B2 (en) * | 2001-12-28 | 2006-03-14 | Sri International | Method and apparatus for providing a dynamic speech-driven control and remote service access system |
US7203644B2 (en) * | 2001-12-31 | 2007-04-10 | Intel Corporation | Automating tuning of speech recognition systems |
US20030144846A1 (en) * | 2002-01-31 | 2003-07-31 | Denenberg Lawrence A. | Method and system for modifying the behavior of an application based upon the application's grammar |
US7054813B2 (en) * | 2002-03-01 | 2006-05-30 | International Business Machines Corporation | Automatic generation of efficient grammar for heading selection |
US6895379B2 (en) * | 2002-03-27 | 2005-05-17 | Sony Corporation | Method of and apparatus for configuring and controlling home entertainment systems through natural language and spoken commands using a natural language server |
JP2003295890A (ja) * | 2002-04-04 | 2003-10-15 | Nec Corp | 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム |
US7707496B1 (en) | 2002-05-09 | 2010-04-27 | Microsoft Corporation | Method, system, and apparatus for converting dates between calendars and languages based upon semantically labeled strings |
US20030217149A1 (en) * | 2002-05-20 | 2003-11-20 | International Business Machines Corporation | Method and apparatus for tunneling TCP/IP over HTTP and HTTPS |
US7707024B2 (en) | 2002-05-23 | 2010-04-27 | Microsoft Corporation | Method, system, and apparatus for converting currency values based upon semantically labeled strings |
US7742048B1 (en) | 2002-05-23 | 2010-06-22 | Microsoft Corporation | Method, system, and apparatus for converting numbers based upon semantically labeled strings |
US7398209B2 (en) * | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7827546B1 (en) | 2002-06-05 | 2010-11-02 | Microsoft Corporation | Mechanism for downloading software components from a remote source for use by a local software application |
US7356537B2 (en) | 2002-06-06 | 2008-04-08 | Microsoft Corporation | Providing contextually sensitive tools and help content in computer-generated documents |
US8073930B2 (en) * | 2002-06-14 | 2011-12-06 | Oracle International Corporation | Screen reader remote access system |
US7716676B2 (en) | 2002-06-25 | 2010-05-11 | Microsoft Corporation | System and method for issuing a message to a program |
US7209915B1 (en) | 2002-06-28 | 2007-04-24 | Microsoft Corporation | Method, system and apparatus for routing a query to one or more providers |
US7693720B2 (en) | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US7797159B2 (en) * | 2002-09-16 | 2010-09-14 | Movius Interactive Corporation | Integrated voice navigation system and method |
US8392609B2 (en) | 2002-09-17 | 2013-03-05 | Apple Inc. | Proximity detection for media proxies |
US7149688B2 (en) * | 2002-11-04 | 2006-12-12 | Speechworks International, Inc. | Multi-lingual speech recognition with cross-language context modeling |
US7783614B2 (en) | 2003-02-13 | 2010-08-24 | Microsoft Corporation | Linking elements of a document to corresponding fields, queries and/or procedures in a database |
US20050049922A1 (en) * | 2003-03-24 | 2005-03-03 | Ipdev Co. | Method and apparatus for specifying toppings and their placement on a pizza and confirming same |
US7013282B2 (en) * | 2003-04-18 | 2006-03-14 | At&T Corp. | System and method for text-to-speech processing in a portable device |
US7260539B2 (en) * | 2003-04-25 | 2007-08-21 | At&T Corp. | System for low-latency animation of talking heads |
US7260535B2 (en) | 2003-04-28 | 2007-08-21 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting for call controls |
US7711550B1 (en) | 2003-04-29 | 2010-05-04 | Microsoft Corporation | Methods and system for recognizing names in a computer-generated document and for providing helpful actions associated with recognized names |
US20040230637A1 (en) * | 2003-04-29 | 2004-11-18 | Microsoft Corporation | Application controls for speech enabled recognition |
US20050015256A1 (en) * | 2003-05-29 | 2005-01-20 | Kargman James B. | Method and apparatus for ordering food items, and in particular, pizza |
JP4891072B2 (ja) * | 2003-06-06 | 2012-03-07 | ザ・トラスティーズ・オブ・コロンビア・ユニバーシティ・イン・ザ・シティ・オブ・ニューヨーク | ウェブ・ページを音声付勢するためのシステム及び方法 |
US7720683B1 (en) * | 2003-06-13 | 2010-05-18 | Sensory, Inc. | Method and apparatus of specifying and performing speech recognition operations |
JP4267385B2 (ja) | 2003-06-30 | 2009-05-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム |
JP2005031758A (ja) * | 2003-07-07 | 2005-02-03 | Canon Inc | 音声処理装置及び方法 |
US7073203B2 (en) * | 2003-08-08 | 2006-07-11 | Simms Fishing Products Corporation | Foot-covering component of a stocking foot wader including gravel guard and method for manufacturing |
US8311835B2 (en) | 2003-08-29 | 2012-11-13 | Microsoft Corporation | Assisted multi-modal dialogue |
US7519042B2 (en) | 2003-09-12 | 2009-04-14 | Motorola, Inc. | Apparatus and method for mixed-media call formatting |
US20050065789A1 (en) * | 2003-09-23 | 2005-03-24 | Sherif Yacoub | System and method with automated speech recognition engines |
US20050102625A1 (en) * | 2003-11-07 | 2005-05-12 | Lee Yong C. | Audio tag retrieval system and method |
US9118574B1 (en) | 2003-11-26 | 2015-08-25 | RPX Clearinghouse, LLC | Presence reporting using wireless messaging |
KR100600522B1 (ko) * | 2003-12-16 | 2006-07-13 | 에스케이 주식회사 | 상담원과 음성 인식 엔진을 이용한 품질보장형 콜라우팅시스템 및 그 방법 |
US20050171781A1 (en) * | 2004-01-08 | 2005-08-04 | Poploskie Jon M. | Speech information system |
US7552055B2 (en) | 2004-01-10 | 2009-06-23 | Microsoft Corporation | Dialog component re-use in recognition systems |
US8160883B2 (en) * | 2004-01-10 | 2012-04-17 | Microsoft Corporation | Focus tracking in dialogs |
FR2865846A1 (fr) * | 2004-02-02 | 2005-08-05 | France Telecom | Systeme de synthese vocale |
US7925512B2 (en) * | 2004-05-19 | 2011-04-12 | Nuance Communications, Inc. | Method, system, and apparatus for a voice markup language interpreter and voice browser |
US8036893B2 (en) | 2004-07-22 | 2011-10-11 | Nuance Communications, Inc. | Method and system for identifying and correcting accent-induced speech recognition difficulties |
US7940746B2 (en) | 2004-08-24 | 2011-05-10 | Comcast Cable Holdings, Llc | Method and system for locating a voice over internet protocol (VoIP) device connected to a network |
US7739117B2 (en) * | 2004-09-20 | 2010-06-15 | International Business Machines Corporation | Method and system for voice-enabled autofill |
US7783028B2 (en) * | 2004-09-30 | 2010-08-24 | International Business Machines Corporation | System and method of using speech recognition at call centers to improve their efficiency and customer satisfaction |
KR100695127B1 (ko) * | 2004-10-08 | 2007-03-14 | 삼성전자주식회사 | 다 단계 음성 인식 장치 및 방법 |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
US8024194B2 (en) * | 2004-12-08 | 2011-09-20 | Nuance Communications, Inc. | Dynamic switching between local and remote speech rendering |
US8706501B2 (en) * | 2004-12-09 | 2014-04-22 | Nuance Communications, Inc. | Method and system for sharing speech processing resources over a communication network |
US20060149551A1 (en) * | 2004-12-22 | 2006-07-06 | Ganong William F Iii | Mobile dictation correction user interface |
US7529677B1 (en) | 2005-01-21 | 2009-05-05 | Itt Manufacturing Enterprises, Inc. | Methods and apparatus for remotely processing locally generated commands to control a local device |
DE102005010285A1 (de) * | 2005-03-01 | 2006-09-07 | Deutsche Telekom Ag | Verfahren und System zur Spracherkennung |
US20060247925A1 (en) * | 2005-04-27 | 2006-11-02 | International Business Machines Corporation | Virtual push-to-talk |
US7640160B2 (en) | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7620549B2 (en) * | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US7542904B2 (en) * | 2005-08-19 | 2009-06-02 | Cisco Technology, Inc. | System and method for maintaining a speech-recognition grammar |
US7949529B2 (en) | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
WO2007027989A2 (en) * | 2005-08-31 | 2007-03-08 | Voicebox Technologies, Inc. | Dynamic speech sharpening |
US7788590B2 (en) | 2005-09-26 | 2010-08-31 | Microsoft Corporation | Lightweight reference user interface |
US7992085B2 (en) | 2005-09-26 | 2011-08-02 | Microsoft Corporation | Lightweight reference user interface |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
WO2007117626A2 (en) * | 2006-04-05 | 2007-10-18 | Yap, Inc. | Hosted voice recognition system for wireless devices |
US8510109B2 (en) | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
JP4859642B2 (ja) * | 2006-11-30 | 2012-01-25 | 富士通株式会社 | 音声情報管理装置 |
US8296139B2 (en) * | 2006-12-22 | 2012-10-23 | International Business Machines Corporation | Adding real-time dictation capabilities for speech processing operations handled by a networked speech processing system |
JP5240457B2 (ja) * | 2007-01-16 | 2013-07-17 | 日本電気株式会社 | 拡張認識辞書学習装置と音声認識システム |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
JP2010518456A (ja) * | 2007-02-13 | 2010-05-27 | エヌテラ リミテッド | アクティブマトリクス反射表示デバイスのための電圧フィードバック回路 |
TWI321313B (en) * | 2007-03-03 | 2010-03-01 | Ind Tech Res Inst | Apparatus and method to reduce recognization errors through context relations among dialogue turns |
US8352264B2 (en) | 2008-03-19 | 2013-01-08 | Canyon IP Holdings, LLC | Corrective feedback loop for automated speech recognition |
US9973450B2 (en) | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
US8086457B2 (en) | 2007-05-30 | 2011-12-27 | Cepstral, LLC | System and method for client voice building |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US8099289B2 (en) * | 2008-02-13 | 2012-01-17 | Sensory, Inc. | Voice interface and search for electronic devices including bluetooth headsets and remote systems |
US8255224B2 (en) | 2008-03-07 | 2012-08-28 | Google Inc. | Voice recognition grammar selection based on context |
US8831950B2 (en) * | 2008-04-07 | 2014-09-09 | Nuance Communications, Inc. | Automated voice enablement of a web page |
US9047869B2 (en) * | 2008-04-07 | 2015-06-02 | Nuance Communications, Inc. | Free form input field support for automated voice enablement of a web page |
US8589161B2 (en) | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8019608B2 (en) | 2008-08-29 | 2011-09-13 | Multimodal Technologies, Inc. | Distributed speech recognition using one way communication |
CA2748695C (en) * | 2008-12-31 | 2017-11-07 | Bce Inc. | System and method for unlocking a device |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
JP5244663B2 (ja) * | 2009-03-18 | 2013-07-24 | Kddi株式会社 | 音声によってテキストを入力する音声認識処理方法及びシステム |
US9171541B2 (en) | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
US9502025B2 (en) | 2009-11-10 | 2016-11-22 | Voicebox Technologies Corporation | System and method for providing a natural language content dedication service |
US9099087B2 (en) * | 2010-09-03 | 2015-08-04 | Canyon IP Holdings, LLC | Methods and systems for obtaining language models for transcribing communications |
US20120078635A1 (en) * | 2010-09-24 | 2012-03-29 | Apple Inc. | Voice control system |
US8898065B2 (en) | 2011-01-07 | 2014-11-25 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
KR20130016644A (ko) * | 2011-08-08 | 2013-02-18 | 삼성전자주식회사 | 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법 |
US8914288B2 (en) | 2011-09-01 | 2014-12-16 | At&T Intellectual Property I, L.P. | System and method for advanced turn-taking for interactive spoken dialog systems |
KR20150063423A (ko) | 2012-10-04 | 2015-06-09 | 뉘앙스 커뮤니케이션즈, 인코포레이티드 | Asr을 위한 개선된 하이브리드 컨트롤러 |
US9691377B2 (en) | 2013-07-23 | 2017-06-27 | Google Technology Holdings LLC | Method and device for voice recognition training |
US9275638B2 (en) | 2013-03-12 | 2016-03-01 | Google Technology Holdings LLC | Method and apparatus for training a voice recognition model database |
US10811004B2 (en) * | 2013-03-28 | 2020-10-20 | Nuance Communications, Inc. | Auto-generation of parsing grammars from a concept ontology |
US10170114B2 (en) | 2013-05-30 | 2019-01-01 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
US9548047B2 (en) | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
US9218804B2 (en) | 2013-09-12 | 2015-12-22 | At&T Intellectual Property I, L.P. | System and method for distributed voice models across cloud and device for embedded text-to-speech |
US9558736B2 (en) * | 2014-07-02 | 2017-01-31 | Bose Corporation | Voice prompt generation combining native and remotely-generated speech data |
JP6390264B2 (ja) * | 2014-08-21 | 2018-09-19 | トヨタ自動車株式会社 | 応答生成方法、応答生成装置及び応答生成プログラム |
WO2016044290A1 (en) | 2014-09-16 | 2016-03-24 | Kennewick Michael R | Voice commerce |
WO2016044321A1 (en) | 2014-09-16 | 2016-03-24 | Min Tang | Integration of domain information into state transitions of a finite state transducer for natural language processing |
US9747896B2 (en) | 2014-10-15 | 2017-08-29 | Voicebox Technologies Corporation | System and method for providing follow-up responses to prior natural language inputs of a user |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US10331312B2 (en) * | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
CN116628157A (zh) * | 2015-10-21 | 2023-08-22 | 谷歌有限责任公司 | 对话系统中的参数收集和自动对话生成 |
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10743101B2 (en) | 2016-02-22 | 2020-08-11 | Sonos, Inc. | Content mixing |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US10192555B2 (en) * | 2016-04-28 | 2019-01-29 | Microsoft Technology Licensing, Llc | Dynamic speech recognition data evaluation |
US11010820B2 (en) * | 2016-05-05 | 2021-05-18 | Transform Sr Brands Llc | Request fulfillment system, method, and media |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
WO2018023106A1 (en) | 2016-07-29 | 2018-02-01 | Erik SWART | System and method of disambiguating natural language processing requests |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10592611B2 (en) * | 2016-10-24 | 2020-03-17 | Conduent Business Services, Llc | System for automatic extraction of structure from spoken conversation using lexical and acoustic features |
US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
AU2018216823B2 (en) * | 2017-01-31 | 2020-10-15 | Genesys Cloud Services, Inc. | System and method for speech-based interaction resolution |
US10102868B2 (en) * | 2017-02-17 | 2018-10-16 | International Business Machines Corporation | Bot-based honeypot poison resilient data collection |
US10757058B2 (en) | 2017-02-17 | 2020-08-25 | International Business Machines Corporation | Outgoing communication scam prevention |
US10810510B2 (en) | 2017-02-17 | 2020-10-20 | International Business Machines Corporation | Conversation and context aware fraud and abuse prevention agent |
US10332505B2 (en) * | 2017-03-09 | 2019-06-25 | Capital One Services, Llc | Systems and methods for providing automated natural language dialogue with customers |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
US10796088B2 (en) * | 2017-04-21 | 2020-10-06 | International Business Machines Corporation | Specifying a conversational computer agent and its outcome with a grammar |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
DE102017213946B4 (de) * | 2017-08-10 | 2022-11-10 | Audi Ag | Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
US10715470B1 (en) * | 2017-12-14 | 2020-07-14 | Amazon Technologies, Inc. | Communication account contact ingestion and aggregation |
US11343374B1 (en) * | 2017-12-14 | 2022-05-24 | Amazon Technologies, Inc. | Message aggregation and comparing |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US11145291B2 (en) * | 2018-01-31 | 2021-10-12 | Microsoft Technology Licensing, Llc | Training natural language system with generated dialogues |
US10861440B2 (en) * | 2018-02-05 | 2020-12-08 | Microsoft Technology Licensing, Llc | Utterance annotation user interface |
US11133001B2 (en) * | 2018-03-20 | 2021-09-28 | Microsoft Technology Licensing, Llc | Generating dialogue events for natural language system |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US10885912B2 (en) * | 2018-11-13 | 2021-01-05 | Motorola Solutions, Inc. | Methods and systems for providing a corrected voice command |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US10867604B2 (en) * | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
CN111081247A (zh) * | 2019-12-24 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 语音识别的方法以及终端、服务器和计算机可读存储介质 |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11574622B2 (en) | 2020-07-02 | 2023-02-07 | Ford Global Technologies, Llc | Joint automatic speech recognition and text to speech conversion using adversarial neural networks |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3088739B2 (ja) * | 1989-10-06 | 2000-09-18 | 株式会社リコー | 音声認識システム |
JPH04372037A (ja) * | 1991-06-21 | 1992-12-25 | Matsushita Electric Ind Co Ltd | システム管理情報設定装置 |
US5673362A (en) | 1991-11-12 | 1997-09-30 | Fujitsu Limited | Speech synthesis system in which a plurality of clients and at least one voice synthesizing server are connected to a local area network |
US5425128A (en) * | 1992-05-29 | 1995-06-13 | Sunquest Information Systems, Inc. | Automatic management system for speech recognition processes |
JP2818362B2 (ja) * | 1992-09-21 | 1998-10-30 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声認識装置のコンテキスト切換えシステムおよび方法 |
JP2524472B2 (ja) * | 1992-09-21 | 1996-08-14 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 電話回線利用の音声認識システムを訓練する方法 |
CA2105034C (en) * | 1992-10-09 | 1997-12-30 | Biing-Hwang Juang | Speaker verification with cohort normalized scoring |
EP0607615B1 (en) * | 1992-12-28 | 1999-09-15 | Kabushiki Kaisha Toshiba | Speech recognition interface system suitable for window systems and speech mail systems |
NZ263230A (en) * | 1993-03-31 | 1997-07-27 | British Telecomm | Token passing connected speech recognition |
US5524169A (en) * | 1993-12-30 | 1996-06-04 | International Business Machines Incorporated | Method and system for location-specific speech recognition |
JPH07222248A (ja) * | 1994-02-08 | 1995-08-18 | Hitachi Ltd | 携帯型情報端末における音声情報の利用方式 |
US5666400A (en) * | 1994-07-07 | 1997-09-09 | Bell Atlantic Network Services, Inc. | Intelligent recognition |
US5623605A (en) * | 1994-08-29 | 1997-04-22 | Lucent Technologies Inc. | Methods and systems for interprocess communication and inter-network data transfer |
US5752232A (en) * | 1994-11-14 | 1998-05-12 | Lucent Technologies Inc. | Voice activated device and method for providing access to remotely retrieved data |
US5682478A (en) * | 1995-01-19 | 1997-10-28 | Microsoft Corporation | Method and apparatus for supporting multiple, simultaneous services over multiple, simultaneous connections between a client and network server |
US5732219A (en) * | 1995-03-17 | 1998-03-24 | Vermeer Technologies, Inc. | Computer system and computer-implemented process for remote editing of computer files |
US5890123A (en) * | 1995-06-05 | 1999-03-30 | Lucent Technologies, Inc. | System and method for voice controlled video screen display |
US5745754A (en) * | 1995-06-07 | 1998-04-28 | International Business Machines Corporation | Sub-agent for fulfilling requests of a web browser using an intelligent agent and providing a report |
US5745874A (en) * | 1996-03-04 | 1998-04-28 | National Semiconductor Corporation | Preprocessor for automatic speech recognition system |
US6456974B1 (en) * | 1997-01-06 | 2002-09-24 | Texas Instruments Incorporated | System and method for adding speech recognition capabilities to java |
US6078886A (en) * | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
-
1997
- 1997-04-14 US US08/833,210 patent/US6078886A/en not_active Expired - Lifetime
-
1998
- 1998-02-05 CA CA002228917A patent/CA2228917C/en not_active Expired - Lifetime
- 1998-04-08 EP EP98106446A patent/EP0872827B1/en not_active Expired - Lifetime
- 1998-04-08 JP JP10095930A patent/JPH10333693A/ja active Pending
- 1998-04-08 DE DE69829604T patent/DE69829604T2/de not_active Expired - Lifetime
-
2000
- 2000-03-24 US US09/533,820 patent/US6366886B1/en not_active Expired - Lifetime
-
2002
- 2002-02-05 US US10/067,464 patent/US6604077B2/en not_active Expired - Lifetime
- 2002-05-29 JP JP2002156302A patent/JP2003050594A/ja active Pending
-
2006
- 2006-01-18 JP JP2006010432A patent/JP4849894B2/ja not_active Expired - Lifetime
-
2007
- 2007-10-18 MX MX2007013015A patent/MX2007013015A/es active IP Right Grant
- 2007-10-18 MX MX2007013017A patent/MX2007013017A/es active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
CA2228917A1 (en) | 1998-10-14 |
JP4849894B2 (ja) | 2012-01-11 |
EP0872827B1 (en) | 2005-04-06 |
US6078886A (en) | 2000-06-20 |
DE69829604T2 (de) | 2006-02-09 |
JP2006146262A (ja) | 2006-06-08 |
MX9802754A (es) | 1998-12-31 |
EP0872827A2 (en) | 1998-10-21 |
MX2007013017A (es) | 2009-02-13 |
JP2003050594A (ja) | 2003-02-21 |
US6604077B2 (en) | 2003-08-05 |
US20020091528A1 (en) | 2002-07-11 |
JPH10333693A (ja) | 1998-12-18 |
EP0872827A3 (en) | 1999-04-21 |
DE69829604D1 (de) | 2005-05-12 |
US6366886B1 (en) | 2002-04-02 |
CA2228917C (en) | 2002-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
MX2007013015A (es) | Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes. | |
US6856960B1 (en) | System and method for providing remote automatic speech recognition and text-to-speech services via a packet network | |
US8209184B1 (en) | System and method of providing generated speech via a network | |
CA2345660C (en) | System and method for providing network coordinated conversational services | |
US9761241B2 (en) | System and method for providing network coordinated conversational services | |
JP5179375B2 (ja) | クライアント−サーバー計算システムにおいて音声アプリケーションを処理する方法及びサーバー | |
US7496516B2 (en) | Open architecture for a voice user interface | |
US6192338B1 (en) | Natural language knowledge servers as network resources | |
WO2002069320A2 (en) | Spoken language interface | |
MXPA98002754A (es) | Sistema y metodo para proporcionar servicios de reconocimiento de voz automatico remoto via una redpaquete | |
Demesticha et al. | Aspects of design and implementation of a multi-channel and multi-modal information system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FG | Grant or registration |