MX2007013017A

MX2007013017A - Metodo para operar un servicio de reconocimiento automatico de voz accesible en forma remota por el cliente sobre una red en paquetes.

Info

Publication number: MX2007013017A
Application number: MX2007013017A
Authority: MX
Inventors: Pamela Leigh Dragosh; David Bjorn Roe; Robert Douglas Sharp
Original assignee: At & T Corp
Priority date: 1997-04-14
Filing date: 2007-10-18
Publication date: 2009-02-13
Also published as: JP4849894B2; MX2007013015A; MX9802754A; EP0872827A2; US6078886A; US20020091528A1; JP2003050594A; DE69829604T2; DE69829604D1; EP0872827B1; JPH10333693A; US6604077B2; JP2006146262A; CA2228917A1; EP0872827A3; CA2228917C; US6366886B1

Abstract

Un sistema y método para operar un servicio de reconocimiento de voz automático que usa una arquitectura cliente-servidor se usa para hacer los servicios ASR accesibles a un cliente que se encuentra lejos de la localización de la máquina ASR principal. La presente invención utiliza las comunicaciones cliente-servidor sobre una red paquete, tal como la Internet, en donde el servidor ASR recibe una gramática del cliente, recibe información que representa la voz del cliente, efectúa el reconocimiento de la voz, y regresa información basada en la voz reconocida al cliente.

Description

METODO PARA OPERAR UN SERVICIO DE RECONOCIMIENTO AUTOMATICO DE VOZ ACCESIBLE EN FORMA REMOTA POR EL CLIENTE SOBRE UNA RED EN PAQUETES CAMPO TECNICO Esta invención se relaciona con el reconocimiento de voz en general y, de manera más particular, proporciona una maneta de proporcionar servicios de reconocimiento de voz automático accesibles remotamente vía una red paquete.

ANTECEDENTES DE LA INVENCION Las técnicas para lograr el reconocimiento de voz automático (ASR) son bien conocidas. Entre las técnicas ASR conocidas se encuentran aquellas que usan gramáticas. Una gramática es una representación del lenguaje o frases que se espera sean usadas o hablas en un contexto dado. En un sentido, entonces, las gramáticas ASR típicamente restringen el recorocedor de la voz en un vocabulario que es un subconjunto del universo de las palabras potenciálmente habladas,I y las gramáticas pueden incluir subgramáticas . Una regla de ¡gramática ASR puede entonces usarse para representar el conjunto de "frases" o combinaciones de palabras de una o más gramáticas o subgramáticas que pueden esperarse en un Ref: 187130 de la metodología de reconocimiento de voz automático ("ASR") han sido recientemente introducidos comercialmente . Por ejemplo, AT&T ha desarrollado una máquina ASR basada en una gramática llamada WATSON que permite el desarrollo de servicios ASR complejos. Los atributos deseables de los servicias ASR complejos que podrían utilizar tal tecnología ASR incluyen una alta exactitud en el reconocimiento; robusteá para permitir' el reconocimiento en donde los locutores tienen diferentes acentos o dialectos, y/o en I presencia de ruido de fondo; capacidad para manejar vocabularios grandes; y comprender el lenguaje natural. Para lograr ésos atributos para los servicios ASR complejos, las técnicas y máquinas ASR típicamente requieren sistemas a base de computadora que tengan una capacidad de procesamiento significativa para lograr la capacidad de reconocimiento de voz deseada. La capacidad de procesamiento como se usa aquí se refiere a la velocidad del procesador, memoria, espacio de ¦disco, así como al acceso de bases de datos de aplicación. Tales requerimientos han restringido el desarrollo de los serviciós ASR complejos que están disponibles en el escritorio de uno, debido a que los requerimientos de procesamiento exceden las capacidades de la mayoría de los sistemas! de escritorio, ios cuales se basan típicamente en la tecnología de la computadora personal (PC) . i Las redes paquetes son redes de datos de propósitj) general las cuales son muy adecuadas para enviar datos al†acenados de varios tipos, incluyendo voz o audio. La Internet,! la más grande y más renombrada de las redes de paquetes existentes, conecta más de 4 millones de computadoras en unos 140 países. El crecimiento global y exponencial de Internet es de conocimiento común hoy día. : Típicamente, uno tiene acceso a una red de paquetes,) tal como la Internet, a través de un programa de cliente que se ejecuta en una computadora, tal como una PC, y de este | modo las redes paquetes restan inherentemente orientadas al cliente/servidor. Una manera de tener acceso a í ia inforidación sobre una red paquete es a través del uso j de un explorador u hojeador de la red (tal como el Netscape Navigator!, disponible de Netscape Communications, Inc., y el Internet 'Explorer, disponible de Microsoft Corp.) el cual permite a un cliente interactuar con los servidores de la red. Los ¡servidores de la red y la información disponible en ella son ¡identificados típicamente y tratados a través de un Localizador de Recursos Uniforme (URL) - de dirección i compatible. El direccionamiento URL es ampliamente usado en aplicaciones de Internet e intranet y es bien conocido por í aqueilosi expertos en la técnica (un "intranet" es una red paquete ' modelada en f ncionalidad basada en la Internet y se usa, por, ejemplo, por compañías local o internamente) . Lo que se desea es una manera de permitir que los serviciois ASR puedan ser disponibles a un usuario en un lugar, tal como en su escritorio, es decir remotos del sistema ¡que aloja la máquina ASR.

BREVE DESCRIPCION DE LA ?E¡VENC?QE3 Se usa un sistema y método de operación de un servicio de reconocimiento de voz automático que usa una i arquitectura cliente-servidor para hacer los servicios ASR accesibles a un cliente que se localiza lejos del lugar de la máquina ASR principal. De acuerdo con la presente invención, usando comunicaciones cliente-servidor sobre una red de paquetes, tal como la Internet, el servidor ASR recibe una gramátiqa del cliente, recibe información que representa la voz del cliente, efectúa el reconocimiento de voz, y regresa la información basada en la voz reconocida al cliente. Las modalidajdes alternativas de la presente incluyen una variedad de maneras para tener acceso a la gramática deseada, el uso de la compresión o extracción de características como un paso de procesamiento en el cliente ASR antes de transferir la información hablada al servidor ASR, estableciendo un diálogo entre eli cliente y el servidor, y operando un servicio de llenado de forma.

BREVE DESCRIPCION DE LOS DIBUJOS La FIGURA 1 es un diagrama que muestra una relación cliente-servidor de un sistema que proporciona servicios ASR remotos de acuerdo con la presente invención. La FIGURA 2 es un diagrama que muestra un proceso de instalación para permitir los servicios de ASR remotos de acuerdo con la presente invención. La FIGURA 3 es un diagrama que muestra un proceso de instalación alternativo para permitir los servicios de ASR remotos de acuerdo con la presente invención. La FIGURA 4 es un diagrama que muestra un proceso para reglamentar la selección de acuerdo con la presente invención. La FIGURA 5 es un diagrama que muestra un proceso para permitir el reconocimiento de voz automático remoto de acuerdo cpn la presente invención. La FIGURA 6 es un diagrama que muestra un proceso alternativo para permitir el reconocimiento de voz automático remoto de' acuerdo con la presente invención.

La FIGURA 7 es un diagrama que muestra otro proceso alternativo para permitir el reconocimiento de voz automático remoto eje acuerdo con la presente invención. i DESCRIPCION DETALLADA DE XA INVENCION i La presente invención está dirigida a un sistema basado én la arquitectura cliente-servidor para proporcionar serviciqs ASR disponibles remotamente. De acuerdo con la i presente; invención, los servicios ASR pueden ser proporcionados a un usuario -- por ejemplo, en el escritorio del usuario-- sobre una red paquete ', tal como la Internet!, si la necesidad de que el usuario obtenga equipo de cómputo í que tenga la capacidad de procesamiento extensiva requerida para ejecutar todas las técnicas ASR. Una arquitectura cliente-servidor básica usada de acuerdo 'con la presente invención se muestra en la FIGURA 1. Un servidor ASR 100 es una máquina con programas y sistemas de programación ASR, los cuales se ejecutan en un sistema, denotado; como nodo del servidor 110, que puede ligarse a través de la red de paquetes 120 (tal como la Internet) a otras computadoras. El nodo del servidor 110 puede ser típicamente una computadora que tenga capacidad de procesamliento suficiente para ejecutar aplicaciones a base de ASR complejas, tales como el sistema WATSON de AT&T . La red paquete 120 puede, de manera ilustrativa, ser la Internet o una intranet. El cliente ASR 130 es un programa relativamente pequeño '(cuando se compara con el servidor ASR 100) que se ejecuta en la PC del cliente 140. La PC del cliente 140 es una computadora, tal como una computadora personal (PC) , que tiene suficiente capacidad de procesamiento para ejecutar aplicacicnes de cliente, tales como un Examinador u hojeador de la red. La PC del cliente incluye componentes físicos de computación, tales como un micrófono, y programas y sistemas de programación para la entrada y captura de sonidos de audio, tales como la voz. Los métodos para conectar I micrófonos a una PC y capturar sonidos de audio, tales como la voz, 1 en la PC son bien conocidos. Los ejemplos de capacidades de manejo de voz para PC incluyen Interfase de Programador de Aplicación de Voz (SAPI) de Microsoft y la Interfase ; de Programador de Aplicación de Voz Avanzada de AT&T (ASAPI) . Los detalles de la SAPI de Microsoft se encuentran en, por ejemplo, una publicación titulada "Speech API Developers Guide, Windows 95 Edition", Versión 1.0, Microsoft Corporation (1995), y los detalles de la ASAPI de AT&T se proporcionan en una publicación titulada "Advanced Speech API Developers Guide", Versión 1.0, AT&T Corporation (1996); cada una de esas publicaciones se incorpora aquí como referencia. Una modalidad alternativa de la presente ínvenciqn puede utilizar una interfase entre el cliente ASR 130 y unjo o más canales de voz, de modo que la entrada de voz pueda se¡r proporcionada por otras fuentes de audio diferentes a un mic|rófono. La PC del cliente 140 también tiene la capacidad de comunicarse con otras computadoras sobre una red paquete (tal comjo la Internet) . Los métodos para establecer un enlace i de comunicaciones con otras computadoras sobre una red paquete : (tal como la Internet) son bien conocidos e incluyen> por ejemplo, el uso de un módem para marcar a un proveedor de servicios de Internet sobre una linea i i telefónica . 1 El servidor ASR 100, a través del nodo del servidor 110, y el cliente ASR 130, a través de la PC del cliente 140, pueden comunicarse con otro sobre la red de paquetes 120 usando métodos conocidos adecuados para comunicar información (incluyendo la transmisión de datos) sobre una red de paquetes ¡ usando, por ejemplo, un protocolo de comunicaciones estándar tal como el Protocolo de control de Transmisión/Protocolo de Internet (TCP/IP) . Una conexión TCP/IP es análoga a una "tubería" a través de la cual la información puede ser transmitida sobre la red paquete de un punto a otro. El establecimiento de una conexión TCP/IP entre el servidor 1 ASR 100 y el cliente ASR 130 permitirá la .r; ..sfeijencia de datos entre ei servidor ASR 100 y el cliente ASR 130 ¡sobre la red paquete 120 necesaria para permitir les servicios ASR de acuerdo con la presente invención. El i :iiente I ASR 130 también se interconecta con capacidades de entrada |y salida de audio/voz y capacidades de despliegue de textos/gráficas de la PC del cliente 140. Los métodos e ínter fas es para manejar la entrada y salida de audio y voz son bien conocidos, y los métodos e interfas-es para manejar el despliegue de textos y gráficas también son bien conocideis. El cliente ASR 130 puede ser instalado para ejecutarse en una PC del cliente 140 de varias formas. Por ejemplo,! el cliente ASR 130 puede ser cargado en la PC del cliente 140 desde un medio de almacenamiento de datos permanente, tal como un disco magnético o CD-ROM. De manera alternativa, el cliente ASR 130 puede ser descargado de una fuente de información o datos localizables sobre la red paquete tal como la Internet. La descarga del cliente ASR 130 puede, por ejemplo, efectuarse una vez para que resida i permanentemente en la PC del cliente 140; de manera alternativa, el cliente ASR 130 puede ser descargado para propósitos de un solo uso o limitado. El cliente ÁSR 130 puede ser implementado, por ejemplo como un módulo de programas y sistemas de programación intercambiable pequeño para otrío programa, tal como un examinador u hojeador de la red, que¡ se ejecuta en la PC del cliente 140. Una forma de lograr esto es hacer que el cliente ASR 130 un. componente de programa- y sistemas de programación X Activo de acuerdo al estándar i X Activo de Microsoft. De esta manera, el cliente ASR 130 puede, por ejemplo, ser cargado en la PC del cliente 140 en c njunto con una sesión del examinador u hojeador de la red cpmo sigue: un usuario examina la red mundial usando la PC del cliente 140, se introduce en un sitio de la red que tenga capacidad ASR; el sitio de la red solicita permiso al usuario para descargar un módulo de cliente ASR en la PC de cliente 140 de acuerdo con el control X Activo señalado; i después cié la autorización del usuario, el cliente ASR 130 es descargado en la PC del cliente 140. De manera similar, el servidor ASR 100 puede ser instalado para ejecutarse en el nodo del servidor 110 de varias formas, por ejemplo, el servidor ASR puede ser cargado en el nodo del servidor 100 desde un medio de almacenamiento de datos permanente, tal como un disco magnético, o CD-ROM, o, de manera alternativa, el servidor ASR 100 puede ser descargado de una fuente de información o datos localizables sobre la red paquete , tal como la Internet. Ahora se describirán los detalles adicionales para proporcionar servicios ASR remotos de acuerdo con la presente invención1 con referencia a las FIGURAS 2-7. Se presume para la discusión siguiente con respecto a cada una de esas i figuras que la relación cliente-servidor es como se muestra en la EjlGURA 1. Se usó una fase de instalación para preparar el servidor ASR 100 y el cliente ASR 130 para efectuar una tarea de reconocimiento de voz automático como parte de la aplicación ASR. Por conveniencia, los puntos mostrados en la ? FIGURA 1 y que aparecen en otras figuras serán identificados por los mismo números de referencia que en la i FIGURA 1. Refiriéndose ahora a la FIGURA 2, ahora se describirá una fase de instalación en un proceso para proporcionar servicios ASR remotos. En el paso 201, el cliente : ASR 130 recibe una petición de la solicitud para cargar úna gramática del cliente. La gramática del cliente es ilustratjivamente un archivo de datos que contiene información que representa el lenguaje (por ejemplo, palabras y frases) que se áspera sean habladas en el contexto de la aplicación ASR particular. El archivo de datos puede estar en un formato conocido!, tal como el formato de gramática estándar (SGF) el cual es parte de la SAPI Microsoft. Para propósitos de ilustración, se usaré una aplicación ASR para tomar la orden de una pizza para describir la presente invención. Una aplicación de servicios ASR, tal! como una aplicación para ordenar una pizza, podria incluir típicamente un programa que se interconecta con y usa el cliente ASR 130 como un recurso usado para efectuar las :areas de la aplicación ASR . Tal aplicación ASR podría recidir y ejecutarse, teda o en parte, en una PC del cliente 140. Considerando el ejemplo de ordenar una pizza, la gramática del cliente PIZZA podría incluir información que representa palabras que uno puede usar para ordenar una pizza, tales como "pizza", "pepperoni", etc. En efecto, pueden usarse subgramáticas para construir una gramática apropiada. Para el ejemplo de ordenar una pizza, las subgramáticas para la gramática PIZZA podrían incluir TAMAÑO y COBERT RA. La subgramática TAMAÑO podría consistir de las palabras I usadas para describir el tamaño de la pizza deseada, tales como "pequeña", "mediana" y "grande". El subgramática COBERTURA puede consistir de las palabras usadas para describir las diferentes coberturas que se pueden ordenar con una pi|zza, por ejemplo, "salchicha", "pepperoni", "champiñones" y similares. Un cliente ASR 130 se le puede dar la gramática deseada desde la aplicación o, de manera alternativa, el i cliente ASR 130 puede elegir la gramática de un conjunto predeterminado basado en la información proporcionada por la aplicación. De cualquier manera, el cliente ASR 130 entonces en el pjaso 202 envía el archivo de gramática deseado al servidor , ASR 100 sobre una conexión TCP/IP. Se puede hacer una nueva conexión TCP/IP como parte del establecimiento de una nueva cesión de comunicaciones entre la PC del cliente 140 y el nodo {del servidor 100, o la conexión TCP/IP puede existir ya como rebultado de una cesión de comunicaciones establecida entre lá PC del cliente 140 y el nodo de servidor 110 que no ha sido terminada. En la ilustración de ordenar una pizza, el i cliente 1 ASR 130 podría efectuar la transmisión de un archivo que contiene la gramática PIZZA al servidor ASR 100 sobre una conexión TCP/IP. En el paso 203, el servidor ASR 100 recibe la gramática del cliente enviada desde el cliente ASR 130 y, en el paso, 204, el servidor ASR carga la gramática del cliente transmitida. Como se usa aquí, "cargar" la gramática del cliente significa hacer la gramática accesible para su uso por el servidor ASR 100, por ejemplo almacenando la gramática en - la RAM del nodo del servidor 110. En el paso 205, el servidor ASR 100 regresa un "manipulador" de gramática al cliente 130. Un "manipulador" de gramática es un marcador, tal comb, por ejemplo, un apuntador para la memoria que contiene la gramática cargada, que permite que el cliente ASR i se refiera fácilmente a la gramática durante el resto de la cesión de comunicaciones o la ejecución de la aplicación. El cliente ; ASR 130 recibe el manipulador de gramática del servidor ASR 100 en el paso 206 y retorna el manipulador a la aplicación en el paso 207. Para el ejemplo de ordenar una pizza, eil servidor ASR 100 podría recibir y cargar el archivo de gramática de pizza transmitido y transmitirlo nuevamente al cliente ASR 130 un manipulador que apunta a la gramática PIZZA cargada. El cliente ASR, a su vez, podría recibir el manipulador de PIZZA del servidor ASR 100 y regresarj el manipulador de PIZZA a la aplicación para ordenar una pizza. De esta manera, la aplicación puede referirse simplemente al manipulador de PIZZA cuando lleva a cabo o inicia una tarea ASR como parte de la aplicación para ordenar una pizz¡a. Ahora se describirá un método de instalación alternativo con referencia a la FIGURA 3. Se asume para el resto de la descripción aquí que la transmisión o comunicación de información o datos entre el servidor ASR 100 y eil cliente ASR 130 toman lugar sobre una conexión TCP/IP establecida. En el paso 301, el cliente ASR 130 recibe una petición de la aplicación para cargar una gramática del cliente. ' En lugar de enviar la gramática del cliente como un archivo de datos al servidor ASR 100 en el paso 302, sin embargo, , el cliente ASR 130 en su lugar envía al servidor ASR 100 un identificador que representa una gramática "enlatada"; una gramática "enlatada" podría, por ejemplo, ser una gramática común, tal como la HORA DEL DIA o FECHA, la cual el servidor ASR 100 podría ya tener almacenada. De manera alternativa, el cliente ASR 130 podría enviar al servidor ASR 100 una dirección IP, tal como una dirección compatible con URL, en¡ donde el servidor ASR 100 podría encontrar el archivo I de la gramática deseada. El servidor ASR 100 en el paso 303 recibe el identificador de la gramática o dirección de la I gramática URL del cliente ASR 130, localiza y carga la gramática del cliente solicitada en el paso 304, y en el paso i 305 regresa un manipulador de gramática al cliente ASR 130. De manera similar los pasos descritos anteriormente con respectó a la FIGURA 2, el cliente ASR 130 recibe el manipulador de gramática del servidor ASR 100 en el paso 306 y regresa al manipulador a la aplicación en el paso 307. Para el ejemplo de ordenar una pizza, los pasos descritos anteriorlmente en relación a la FIGURA 2 podrían ser los mismos, excepto que el cliente ASR 130 podría enviar al servidor! ASR 100 un identificador de gramática para la gramática PIZZA (si esta fuese una gramática "enlatada") o una dirección URL para la localización de un archivo que contiene la gramática PIZZA; el servidor ASR 100 podría, a su vez, recuperar un archivo de la gramática PIZZA basado en el identificador de gramática o dirección URL (como el enviado por el cliente ASR) y a continuación cargar la gramática PIZZA solicitada. Después de que la gramática ha sido cargada y el manipulador de gramática ha regresado al cliente ASR 130, una aplicación de servicio ASR necesita seleccionar una · regla de gramática a ser activada. La FIGURA 4 muestra un proceso para la selección de la regla de gramática de acuerdo con la presente1] invención. El cliente ASR 130 recibe de la solicitud la peticjión de activar una regla de gramática en el paso 401. En el pajso 402, el cliente ASR envía la petición de activar una regla al servidor ASR 100; como se muestra en la FIGURA 4, el cliente ASR 130 también en el paso 402 envía al servidor ASR 100 el manipulador de gramática previamente regresado (el cual puede permitir al servidor ASR activar la i regla de gramática apropiada para la gramática particular de acuerdo a lo identificado por el manipulador de gramática) .

El servidor ASR 100 en el paso 403 recibe la petición de activar la regla y el manipulador de gramática (si se envió) . En el paso 404, el servidor ASR 100 activa la regla solicitada y, en el paso 405, regresa al cliente ASR 130 la notificación de que la regla solicitada ha sido activada. El cliente ÁSR 130 recibe en el paso 406 la notificación de la activación de la regla y notifica a la aplicación en el paso 407 que la regla ha sido activada. Una vez que la aplicación recibe la noticia de activación de la regla, puede entonces iniciar e;l reconocimiento de voz. Para propósitos de ilustración del proceso mostrado en la FIGURA 4, nuevamente considere el ejemplo de ordenar una pizza¡. Una regla que puede usarse para el reconocimiento de una orden de pizza puede fijar la frase deseada en un orden para incluir las subgramáticas TAMAÑO y COBERTURAS i I7 junto c n la palabra "pizza", y puede denotarse de la siguiente manera: {ORDEN = TAMAÑO "pizza" "con" COBERTURAS}. Con referencia nuevamente a la FIGURA 4, el cliente ASR 130 podría rlecibir de la aplicación la solicitud de activar una regla para ordenar una pizza y enviar la regla de ORDEN expuestai anteriormente al servidor ASR 100 junto con el manipulador de la gramática PIZZA. El servidor ASR recibe la peticióni de activar la regla junto con el manipulador de la gramática PIZZA y activa la gramática del ORDEN, de modo que el reconocedor podría restringirse a reconocer palabras de la subgramática TAMAÑO, la palabra "pizza", la palabra "con" y las palabras de la subgramática COBERTURAS. Después de activar la regla de ORDEN, el servidor ASR 100 envía la notificación de la activación de la regla al cliente ASR 130 el cual, a su vez lo notifica a la aplicación. Una vez que ha sido activada una regla de gramática, el procesamiento de voz para propósitos de reconocimiento de palabras en la gramática de acuerdo a la regla puede tomar lugar. Refiriéndose a la FIGURA 5, en el paso 501 el cliente ASR 130 recibe una petición de la solicitud para iniciar una tarea de reconocimiento de voz. En el paso 502, el cliente ASR 130 solicita propagar el audio de la entrada de audio de la PC 140. La propagación del audio se refiere al audio que está siendo procesado "en el aire" mientras 'viene más suave; el sistema no espera que entre todo el audio ¡ (es decir, toda la voz) antes de enviar el audio al i procesamiento digital; la propagación del audio también puede referirse a la transmisión parcial o parte de la señal de audio cujando está siendo introducido audio adicional. De manera ilustrativa, una petición de propagación de audio puede efectuarse haciendo una llamada de programas y sistemas de programación apropiada al sistema operativo que está siendo ejecutado en la PC del cliente 140 de modo que la propagación del audio en el micrófono de entrada sea digitalizada por el procesador de sonido de la PC del cliente 140. La propagación del audio digitalizado de la entrada del micrófono' se hace pasar entonces a lo largo del cliente ASR 130. El cliente ASR 130 inicia entonces la transmisión del audio digitalizado propagado al servidor ASR 100 en el paso 503; al igual que la entrada de audio del micrófono, el audio digitaliziado es enviado al servidor ASR 100 "al aire" aún cuando continúe entrando voz. ¡ En el paso 504, el servidor ASR 100 efectúa el reconocimiento de la voz en el audio digitalizado propagado a medida que el audio es recibido del cliente ASR 130. El reconocimiento de la voz se efectúa usando los algoritmos de reconocimientos conocidos, tales como aquellos empleados por la máquina de reconocimiento de voz WATSON de AT&T, y se efectúa dentro de las restricciones de la gramática seleccionada de acuerdo a lo definido por la regla activada.

En el |paso 505, el servidor ASR 100 retorna el texto propagado (es decir, voz parcialmente reconocida) cuando la voz de ' entrada es reconocida. De este modo, cuando el servidor, ASR 100 alcanza sus resultados iniciales, regresa a i aquellos! resultados al cliente ASR 130 aún cuando el servidor ASR 100 jcontinúe el proceso de audio propagado adicional que está siendo enviado por el cliente ASR 130. Este proceso de regresar¡ el texto reconocido "al aire" permite que el cliente ASR 130 (o la aplicación de interconexión con el cliente ASR 130) proporcione retroalimentación al locutor. Cuando el servidor ASR 100 continua procesando el audio de entrada propagado adicional, puede corregir los resultados del reconocimiento de voz inicial, de modo que el texto regresado pueda realmente actualizar (o corregir) partes del texto ya regresadas al cliente ASR 130 como parte de la tarea de reconocimiento de la voz. Una vez que todo el audio propagado ha sido ; recibido del cliente ASR 130, el servidor ASR completa su proceso de reconocimiento de voz y regresa una versión 1 final del texto reconocido (incluyendo las correcciones) en el paso 506. ' En el paso 507, el cliente ASR 130 recibe el texto reconocido del servidor ASR 100 y regresa el texto a la aplicacióln en el paso 508. Nuevamente, esto puede hacerse "al aire" mientras el texto reconocido entra, y el cliente ASR pasa a ,1a aplicación cualesquier correcciones del texto reconocido recibido del servidor ASR 100. Refiriéndose al ejemplo de ordenar una pizza, una vez que ¡la regla ORDENAR ha sido activada y la aplicación notificada, el cliente ASR 130 recibirá la solicitud de iniciar ? reconocimiento de voz e iniciara la propagación del audió de la entrada del micrófono. Puede solicitarse al locutor o'rdenar la pizza, y una vez que comience a hablar, el cliente ASR 130 envía el audio propagado digitalizado al servidor |ASR 100. De este modo, cuando el locutor establece, por ejemplo, que desea ordenar una "pizza grande con salchichas y pepperoni", el cliente ASR 130 habrá enviado el audio propagado digitalizado para la primer palabra de la orden a lo largo del servidor ASR 100 aún cuando la segunda palabra esté siendo hablada. El servidor ASR 100, cuando a orden sea hablada, retornará la primer palabra como texto "grande" cuando el resto de la orden esté siendo hablada. Finalmente, una vez que el locutor deja de hablar, el texto reconocido final para la orden, "pizza grande con salchichas, pepperoni puede ser regresado al cliente ASR 130 y, en consecuencia, a la aplicación. Una modalidad alternativa para llevar a cabo el proceso de reconocimiento de voz de acuerdo con la presente invención se muestra en la FIGURA 6. De manera similar al proceso de reconocimiento de voz mostrado en la FIGURA 5, en el pasO| 601 el cliente ASR 130 recibe la petición de la solicitud para iniciar una tarea de reconocimiento de voz, y en el piso 602, el cliente ASR 130 solicita la propagación del audio desde la entrada del audio de la PC del cliente 140. La propagación del audio digitalizado de la entrada del I micrófonb se hace pasar entonces a lo largo del cliente ASR 130. En el paso 603, el cliente ASR 130 comprime el audio digitalizado "al aire" y a continuación inicia la transmisión del audio digitalizado comprimido propagado al servidor ASR 100, mientras la entrada de voz continúa. En el paso 604, el servidor ASR 100 descomprime el aire comprimido recibo del cliente ASR 130 antes de efectuar el reconocimiento de voz del audio digitalizado propagado. Como se describió anteriormente con referencia a la FIGURA 5, el reconocimiento de voz se efectúa dentro de las descripciones de la gramática seleccionada de acuerdo a lo definido por la regla activada. En el paso 605, el servidor ASR 100 retorna el texto propagado (es decir, voz parcialmente reconocida) a medida que la voz entrante es reconocida. De este modo, el servidor ASR 100 regresa los resultados iniciales al cliente ASR 130 aún cuando el servidor ASR 100 continua procesando el audio propagado comprimido adicional que está siendo enviado por el cliente SR 130, y puede actualizar o corregir partes del texto ya regresadas al cliente ASR 130 como parte de la tarea de reconocimiento de la voz. Una vez que todo el audio propagado ha sido: recibido del cliente ASR 130, el servidor ASR completaj su procesamiento de reconocimiento de la voz y I regresa la versión final del texto reconocido (incluyendo las correcciones) en el paso 606. El cliente ASR 130 recibe el i texto re onocido del servidor ASR 100 en el paso 607 a medida que entra y regresa el texto a la aplicación en el paso 608. Otra modalidad alternativa para llevar a cabo el proceso de reconocimiento de voz de acuerdo con la presente invención se muestra en la FIGURA 7. De manera similar al proceso de reconocimiento de voz mostrado en las FIGURAS 5 y 6, en el paso 701 el cliente ASR 130 recibe la petición de aplicación para iniciar una tarea de reconocimiento de voz y, en el paso 702, el cliente ASR 130 solicita propagar el audio de la entrada de audio de la PC del cliente 140. La propagación del audio digitalizado de la entrada del micrófono se hace pasar entonces al cliente ASR 130. En el paso 703,, el cliente ASR 130 procesa el audio digitalizado "al airei" para extraer las características útiles para el proceso de reconocimiento de la voz y a continuación . inicia la transmisión de las características extraídas al servidor ASR 100, mientras la entrada de voz continua. La extracción de las carácter! sticas relevantes de la voz implica un i proceso ^independiente de la gramática que es típicamente parte de j los algoritmos empleados para el reconocimiento de la voz, y puede efectuarse usando los métodos conocidos por aquellos j expertos en la técnica, tales como aquellos basados en el código de predicción lineal (LPC) o el procesamiento de banco de filtros Mel. La extracción de características proporcicjna la información obtenida de las características de las seña'les de voz eliminando a la vez la información I innecesaria, tal como el volumen. Después de recibir las características extraídas del cliente ASR 130, el servidor ASR 100 en el paso 704 efectúa el reconocimiento de la voz sobre las características I entrantes1 que están arribando "al aire" (es decir, de manera i análoga a la propagación del audio) . El reconocimiento de la I voz se efectúa dentro de las restricciones de la gramática seleccionada de acuerdo a lo definido por la regla activada. Como es él caso con las modalidades discutidas anteriormente con referencia a las FIGURAS 5 y 6, en el paso 705 el servidor 'ASR 100 regresa el texto propagado (es decir, voz parcialmente reconocida) al cliente ASR 130 cuando las caracteríéticas de entrada son reconocidas. El servidor ASR 100 continua procesando las características extraídas adicionales que están siendo enviadas al cliente ASR 130, y puede actualizar o corregir partes del texto ya regresado al cliente ASR 130. El servidor ASR completa su proceso de reconocimiento de voz de la recepción de todas las características extraídas del cliente ASR 130, y regresa una versión final del texto reconocido (incluyendo las i correcciones) en el paso 706. El cliente ASR 130 recibe el texto reconocido del servidor ASR 100 en el paso 707 cero ©ttra y regresa el texto a la aplicación en el paso 708. j Las modalidades alternativas descritas anteriormente con respecto a las FIGURAS 6 y 7 proporcionan cada un^ el procesamiento adicional en el extremo del cliente, j Para ia modalidad en la FIGURA 6, esto comprende la compresión del audio propagado (con la descompresión del audio en¡ el extremo del servidor) para la modalidad en la i FIGURA 7, esta parte incluyó el proceso de reconocimiento de voz en forma de extracción de características. Usando tal procesamiento adicional en el extremo del cliente se reduce significativamente la cantidad de datos transmitidos desde el cliente j ASR 130 al servidor ASR 100. De este modo, se i requieren menos datos para representar las señales de voz que I están ¡siendo transmitidas. Donde la extracción de características se efectúa en el extremo del cliente, tales benefici|os se incrementan potencialmente de manera aguda, debido que las características extraídas (en oposición a las señáles de voz digitalizadas ) requieren menos datos y no se necesitan enviar características durante los periodos de silencio'. La reducción de datos produce un beneficio doble deseado:1 (1) permite la reducción en el ancho de banda requerido para lograr un cierto nivel de funcionamiento, y (2) reduce el tiempo de transmisión para enviar datos de voz del cliente ASR al servidor ASR a través de la conexión TCP/IP. Aunque típicamente una regla de gramática será activada , antes del inicio de la transmisión de la información de voz del cliente ASR 130 al servidor ASR 100, la activación de la regla podría tomar lugar después de que algo o toda de la información de voz a ser reconocida ha sido enviada del cliente ASR 130 al servidor ASR 100. En tales circunstancias, el servidor ASR 100 podría efectuar esfuerzos de reconocimiento de la voz hasta que la regla de gramática haya sido activada. La voz enviada por el cliente ASR 130 antes de la activación de una regla de gramática podría ser almacenada temporalmente por el servidor ASR 100 para ser procesada por el reconócedor o, de manera alternativa, tal voz podría ser ignorada. Además, las tareas de reconocimiento de voz múltiples pueden ser ejecutadas usando las técnicas de la presente : invención. Por ejemplo, una aplicación ASR podría solicita del cliente ASR 130 dar instrucciones al servidor ASR 100 para cargar una gramática enlatada por un número telefónico (por ejemplo, "NUMERO TELEFONICO") y a continuación solicitar la activación de los números mencionados que cubran la regla. Después de que es mencionado un número telefónico y reconocido de acuerdo con la presente invención (por ejemplo, en respuesta a una petición de mencionar el número telefónico, el cliente ASR 130 envía los números mencionados digitalizados al servidor ASR 100 para su reconocimiento) , la aplicación ASR podría ser entonces solicitar al cliente ASR 130 que instale e inicie el i reconocimiento de ordenar una pizza (por ejemplo, cargar gramática PIZZA, activar regla de ORDEN, e iniciar el reconocimiento de la voz) de acuerdo con los ejemplos descritos anteriormente con referencia a las FIGURAS 2-5. Además del ejemplo sencillo de ordenar una pizza usado anteriormente para ilustración, puede proporcionarse un arreglo j amplio de servidores ASR potenciales sobre una red paquete, de acuerdo con la presente invención. Un ejemplo de aplicación ASR permitida por la presente solicitud es un servició de llenado de formas para completar una forma en respuesta a las respuestas habladas para la información requerida para cada uno de un número de espacios en blanco en la forma. De acuerdo con la presente invención, puede implemeritarse un servicio de llenado de formas en donde el cliente! ASR 130 envía las gramáticas que representan las elecciones posibles para cada uno de los espacios en blanco al servidor ASR 100. Para cada espacio en blanco, el cliente ASR 130 solicita la activación de la regla de gramática i apropiaba y envía una respuesta hablada correspondiente hecha en respuesta a la solicitud de la información necesaria para completar el espacio en blanco. El servidor ASR 100 aplica un algoritmo de reconocimiento de voz apropiado de acuerdo con la gramíática y regla seleccionada, y regresa el texto a ser insertado en la forma. ; Otros servicios ASR pueden implicar un intercambio de información (per ejemplo, un diálogo) entre el servidor y el cliente. Por ejemplo, una aplicación de servicio ASR para manejar reservaciones de vuelo pueden, de acuerdo con la presenté invención como se describió aquí, utilizar un dialogo , entre el servidor ASR 100 y el cliente ASR 130 para efectuar la tarea ASR. Un dialogo puede proceder como sigue: Locutor (a través del cliente ASR 130 al servidor ASR 100) : "Deseo un vuelo a los Angeles" La respuesta del servidor ASR al cliente ASR (en fonro de t£xto o, alternativcmente, la voz regresada oor una nráquina operando en ??pta dede texto a voz (ITS) el servidor ASR 100 al cliente ASR 130): "¿De qué ciudad saldrá'?" Locutor (a través del cliente ASR al servidor ASR) : "Washington, DC . " . La respuesta del servidor ASR al cliente ASR: "¿Que día desea salir?" 23 Locutor (del cliente ASR al servidor ASR) : "Martes". , Respuesta del servidor ASR al cliente ASR: "¿A qué hora desea salir?" Locutor (del cliente ASR al servidor ASR) : "A las 4 en punto en la tarde". 1 La respuesta del cliente ASR al servidor ASR: "Puedo registrarlo en el vuelo 4567 de la .Aerolínea XYZ de Washington, DC a los Angeles el Martes a las i 4 en punto PM. ¿Desea reservar un asiento en este vuelo?" En este caso, la información recibida del servidor ASR 110 i no es literalmente el texto de la voz reconocida, pero su ¡información se basó en la v o z reconocida (lo cual dependerá de la aplicación) . Cada parte del dialogo puede efectuarse de acuerdo con el método cliente-servidor ASR descrito anteriormente. Como puede observarse a partir de este ejemplo, tal aplicación de servicio ASR requiere que el cliente ¡ASR y el servidor ASR no únicamente tengan la capacidad de manejar el lenguaje natural, sino también acceso i a una ba se 'de datos grande que esté c amb i ando c o n s t a n t e m e n t e . P a r a lograr e,sto, puede ser deseable tener una aplicación de servicios : ASR y TTS instalados y ejecutándose en un nodo de servidor 110, en lugar de una PC de cliente 140. La PC del cliente 140, podría, en este caso, simplemente tener que ejecutar un programa de "agente" relativamente pequeño que, en el ¡ control del programa de aplicación que está e ecutándose en el nodo del servidor 110, inicie al cliente ASR 130 y cuide la entrada de la voz a través del cliente ASR 130 a lo largo del servidor ASR 100. Un ejemplo de tal programa | de "agente" puede ser, por ejemplo, uno que coloque un "encabezado de conversación" sobre la pantalla de la PC del cliejnte 140 para ayudar a la interacción entre un individuq que está usando la aplicación de servicio ASR en la PC del cliente 140 y, a través del cliente ASR 130 y el servidor ASR 100, que envíe información hablada de la persona a lo largp del servidor ASR 100 para su reconocimiento. , En resumen, la presente invención proporciona una forma de; proporcionar servicios ASR que pueden hacerse disponibles a usuarios sobre una red paquete , tal como la Internet, , a un lugar remoto del sistema que aloja una máquina i SR y una mqquina TTS usando una arquitectura cliente-servidor.

Lo que se ha descrito es meramente ilustrativo de la aplica'ción de los principios de la presente invención. i Otros arreglos y métodos pueden ser implementados por aquellos expertos en la técnica sin apartarse del espíritu y alcance de la presente invención.

Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la práctica | la citada invención, es el que resulta claro de presente jdescripción de la invención. Habiéndose descrito la invención como antecede, reclama como propiedad lo contenido en las siguientes:

Claims

REIVINDICACIONES Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes reivindicaciones : 1. Un método para proporcionar voz desde un servidor accesible en forma remota sobre una red, el método i está caracterizado porque comprende, en el servidor: ! recibir una identificación de una aplicación de diálogo1 hablado que tiene una gramática asociada; i i reconocer la voz de usuario recibida usando la gramática asociada; y 1 transmitir la voz generada desde el servidor en respuesta a la información de voz de usuario reconocida sobre la red. 2. El método de conformidad con la reivindicación 1, caracterizado porque comprende además: I identificar una sub-porción de un diálogo con un usuario; seleccionar una gramática secundaria de acuerdo con i la sub-porción identificada del dialogo; y ! reconocer voz del usuario para la sub-porción identifijcada del diálogo usando la gramática secundaria seleccionada . j 3. El método de conformidad con la reivindicación 1, caracterizado porque cada gramática secundaria está asociada con una tarea 1 4. El método de conformidad con la reivindicación 1, caracterizado porque la gramática asociada se identifica por un& dirección compatible con localizador universal de recurso (URL) asociada con la aplicación de diálogo hablado. I 5. El método de conformidad con la reivindicación 1, caracterizado porque la red es una red de Protocolo de i Internet . I 6. Un sistema para proporcionar voz sobre una red, el sistema caracterizado porque comprende: un módulo configurado para recibir una identificación de aplicación de diálogo hablado que tiene una gramática asociada; un módulo configurado para reconocer la voz del usuario usando la gramática asociada; y un módulo configurado para transmitir voz generada en respuesta a la información de salida de voz de usuario í reconocida sobre la red. I 7. El sistema de conformidad con la reivindicación 6, caracterizado porque comprende además: un módulo configurado para identificar una sub-porción) de un diálogo con un usuario; un módulo configurado para seleccionar una gramática secundaria de acuerdo con la sub-porción identificada del diálogo; y un módulo configurado para reconocer la voz del usuarioj para la sub-porción identificada del diálogo usando la gramática secundaria seleccionada. 8. El sistema de conformidad con la reivindicación 7, carjacterizado porque cada gramática secundaria está asociada con una tarea. 9. El método de conformidad con la reivindicación 6, carajcterizado porque la gramática asociada se identifica por una dirección compatible con localizador universal de recursos (URL) asociada con la aplicación de diálogo hablado. 10. Un medio legible por computadora que almacena instrucciones para controlar un dispositivo de cómputo para proporcionar voz sobre una red, las instrucciones caracterizadas porque comprenden: I ' recibir sobre una identificación de una aplicación i de diálogo hablado que tiene una gramática asociada; reconocer la voz del usuario usando la gramática asociada; y transmitir la voz generada desde el servidor en respuesjta a la información de voz de usuario reconocida sobre la red.j 11. El medio legible por computadora de conformidad con la jreivindicación 10, caracterizado porque la red es una red de Protocolo de Internet. I ^ 12. El medio legible por computadora de conformidad con l reivindicación 10, caracterizado porque las instrucciones comprenden además: identificar una sub-porción de un diálogo con un usuario} | seleccionar una gramática secundaria de acuerdo con la sub-porción identificada del dialogo; y ! reconocer voz del usuario para la sub-porción identificada del diálogo usando la gramática secundaria seleccionada . 13. El medio legible por computadora de conformidad con la reivindicación 12, caracterizado porque cada gramática secundaria está asociada con una tarea. I 14. El medio legible por computadora de conformidad con la j reivindicación 10, caracterizado porque la gramática asociacja se identifica por una dirección compatible con localizador universal de recursos (URL) asociada con la aplicación de diálogo hablado. 15. Un método para proporcionar voz desde un servidojr accesible en forma remota sobre una red, el método está caracterizado porque comprende, en el servidor: recibir información de voz desde un usuario; reconocer la información de voz usando una gramática seleccionada de una pluralidad de gramáticas; y | transmitir la voz generada desde el servidor en respuesta a la información de voz de usuario reconocida sobre la red. 16. El método de conformidad con la reivindicación 15, caracterizado porque la red es una red de Protocolo de Internet . 17. El método de conformidad con la reivindicación 15, caracterizado porque la gramática se selecciona con base en una ¡identificación recibida de una aplicación de diálogo hablado !que tiene la gramática seleccionada.