MXPA04005122A

MXPA04005122A - Entendimiento sincronico de objeto semantico implementado con etiquetas de lenguaje de aplicacion del habla.

Info

Publication number: MXPA04005122A
Application number: MXPA04005122A
Authority: MX
Inventors: Wang Kuansan
Original assignee: Microsoft Corp
Priority date: 2003-05-29
Filing date: 2004-05-28
Publication date: 2005-02-17
Also published as: KR20040103445A; RU2004116304A; TWI376681B; CN100578614C; CA2467220A1; KR101042119B1; AU2004201992B2; TW200515369A; EP1482481B1; JP2004355630A; CA2467220C; JP4768970B2; AU2004201992A1; EP1970897A1; MY142974A; CN1573928A; EP1482481A1; ATE398325T1; ZA200403492B; BRPI0401850B1

Abstract

Un sistema de entendimiento de habla o lenguaje incluye un modelo de lenguaje que comprende una combinacion de un modelo de lenguaje N-grama y un modelo de lenguaje de gramatica libre de contexto. El modelo de lenguaje almacena informacion relacionada con palabras e informacion semantica que sera reconocida. Un modulo esta adaptado para recibir una entrada de un usuario y capturar la entrada para procesamiento. El modulo ademas esta adaptado para recibir interfases de programa de aplicacion de SALT que pertenecen al reconocimiento de la entrada. El modulo esta configurado para procesar las interfases de programa de aplicacion de SALT y la entrada para determinar informacion semantica que pertenece a una primera porcion de la entrada y producir un objeto semantico comprendiendo texto o informacion semantica para la primera porcion accesando el modelo de lenguaje, en donde la realizacion de reconocimiento y produccion del objeto semantico se realiza mientras la captura continua para porciones subsecuentes de la entrada.

Description

ENTENDIMIENTO SINCRONICO DE OBJETO SEMANTICO I PLE MENTADO CON ETIQUETAS DE LENGUAJE DE APLICACION DEL HABLA ANTECEDENTES DE LA INVENCION La presente invención se refiere al acceso y ejecución de información en un sistema de computadora. Más particularmente, la presente invención se refiere al acceso de información utilizando reconocimiento y entendimiento. Recientemente, la tecnología ha avanzado para permitir que el usuario tenga acceso a información en un sistema de computadora proporcionando comandos de lenguaje o habla. Al recibir un comando de un usuario, el sistema de computadora realiza reconocimiento de lenguaje en la entrada del usuario y además procesa la entrada con el fin de determinar el intento del usuario con el fin de que el sistema de computadora realice una acción deseada. En algunas situaciones, la entrada provista por el usuario está en incompleta o es indefinida, lo cual requerirá que el sistema de computadora solicite más información del usuario ya sea en la forma de indicadores visuales o audibles. De esta manera, un diálogo puede ser establecido entre el usuario y el sistema de computadora, en donde cada uno toma turnos proporcionando preguntas, respuestas, y/o reconocimientos hasta que el intento del usuario es determinado y se puede realizar una acción. En otras situaciones, la creación de dicho diálogo es el modo preferido para interactuar con el sistema de computadora. Se han introducido Etiquetas de Lenguaje de Aplicación del Habla (SALT, según sus siglas en inglés) para facilitar el lenguaje como una modalidad de entrada/salida viable para el diseño de interfase de usuario moderno. El objetivo del diseño para SALT es hacer que las tareas de lenguaje comunes sean más simples de programar, y que aún permitan capacidades avanzadas con una realización directa. SALT fue diseñado para muchas aplicaciones. Una siendo, por ejemplo, una aplicación de solo lenguaje, a base de teléfono, que solamente interactúa con usuarios exclusivamente a través de diálogo hablado. SALT incluye objetos de entrada y salida de lenguaje ("escuchar" y "incitar"), los cuales tienen un diseño de modo para incorporar tecnologías para detectar el inicio y el fin del turno del usuario. Por consiguiente, muchas aplicaciones de lenguaje emplean interfases de usuario que requieren que el usuario señale el inicio de un turno del usuario. Algunos sistemas de computadora incluyen computadoras usables, dispositivos modales o multimodales habilitados con el habla o lenguaje (entrada de lenguaje provista para campo seleccionados por un dispositivo de entrada tal como un ratón) y otras aplicaciones ojos libres. Sin embargo, en cada uno de estos ambientes, una definición de corte limpia en el usuario contra el turno del sistema de computadora en el diálogo sigue presente. Sin embargo, la conversación humana generalmente no sigue un corte limpio, tomando un diálogo de turno entre participantes. Más bien, las con ersaciones pueden incluir reconocimientos, confirmaciones, preguntas por parte de cada participante, etc., mientras que el otro está proporcionando información que drásticamente pueda afectar, ligeramente afectar o no afectar la forma en la cual el interlocutor está proporcionando información. Los interlocutores humanos disfrutan esta forma natural de conversación. Asimismo, los sistemas telefónicos emplean tecnología totalmente dúplex con el fin de permitir que dichas conversaciones se presenten. En contraste, las interfases a base de diálogo emplean un modo de turno rígido de operación entre un usuario y un sistema de computadora, que hace que el sistema de computadora espere para la finalización del diálogo del usuario antes de procesar y tomar una acción subsecuente. Aunque una simple realimentación, tal como indicaciones visuales como una serie de puntos que progresan a través de una pantalla por computadora, puede proporcionar al usuario algo de seguridad de que el sistema de computadora por lo menos está procesando algo, hasta que el usuario termina su turno y el sistema de computadora responde, el grado de entendimiento por parte del sistema de computadora no es conocido. Por consiguiente, existe la necesidad de mejoras en un sistema de computadora que se base en reconocimiento y entendimiento. Dichas mejoras podrían proporcionar un sistema y método para introducir información que podría ser más fácil de utilizar siendo más natural para el usuario.

COMPENDIO DE LA INVENCION Un método y un sistema proporcionan un modo de entrada de lenguaje o habla que dinámicamente reporta análisis semánticos parciales, mientras la ilustración de audio sigue en progreso. Los análisis semánticos pueden ser evaluados con un resultado inmediatamente reportado de regreso al usuario. En un aspecto, un sistema de entendimiento de habla o lenguaje incluye un modelo de lenguaje que comprende una combinación de modelo de lenguaje de N-grama y un modelo de lenguaje gramático libre de contexto. El modelo de lenguaje almacena información relacionada con palabras e información semántica que será reconocida. Un módulo está adaptado para recibir la entrada por parte de un usuario y capturar la entrada para procesamiento. El módulo además está adaptado para recibir ¡nterfases de programa de aplicación de SALT que pertenecen al reconocimiento de la entrada. El módulo está configurado para procesar las interfases de programa de aplicación de SALT y la entrada para determinar información semántica que pertenece a una primera porción de la entrada y producir un objeto semántico que comprende texto e Información semántica para la primera porción accesando el modelo de lenguaje, en donde la realización y los resultados del objeto semántico se realizan mientras la captura continua para porciones subsecuentes de la entrada.

BREVE DESCRIPCION DE LOS DIBUJOS La Figura 1 es un diagrama de bloque de un sistema de presentación de datos. La Figura 2 es una vista en planta de un ambiente de operación del dispositivo de cómputo. La Figura 3 es un diagrama de bloque del dispositivo de cómputo de la Figura 2. La Figura 4 es una vista en planta de un teléfono. La Figura 5 es un diagrama de bloque de una computadora de propósito general. La Figura 6 es un diagrama de bloque de una arquitectura para un sistema de cliente/servidor. La Figura 7 es un diagrama de bloque de un módulo de reconocimiento y entendimiento de lenguaje o habla.

DESCRIPCION DETALLADA DE LAS MODALIDADES ILUSTRATIVAS La Figura 1 es un diagrama de bloque de un sistema de presentación de datos 10 para presentar o ejecutar datos con base en una entrada de voz. El sistema 10 incluye un módulo de interfase de lenguaje 12, un módulo de reconocimiento y entendimiento de lenguaje 14 y un módulo de ejecución de datos 16. Un usuario proporciona una entrada en la forma de una consulta de voz al módulo de interfase de lenguaje 12. El módulo de interfase de lenguaje 12 reúne la información de lenguaje de un usuario y proporciona una señal indicativa de la misma. Después de que el lenguaje de entrada ha sido reunido por el módulo de interfase de lenguaje 12, el módulo de reconocimiento y entendimiento de lenguaje 14 reconoce el lenguaje utilizando un reconocedor de lenguaje y también realiza el entendimiento de lenguaje, en donde en un aspecto de la presente invención, proporciona análisis semánticos parciales de la entrada en cuanto se recibe, mientras que la entrada de lenguaje de audio se sigue capturando. Los análisis semánticos parciales, los cuales típicamente incluyen el texto para la entrada recibida (u otros datos indicativos del texto de la entrada), pero también información semántica determinada, son provistos a un módulo de aplicación 16 que pueden tener muchas diferentes formas. Por ejemplo, en una modalidad, el módulo de aplicación 16 puede ser un administrador de información personal que se utiliza para enviar, recibir y contestar correos electrónicos, disponer reuniones, y similares. De esta manera, el usuario puede proporcionar comandos audibles para realizar estas tareas. De manera más importante, el módulo de aplicación 16 puede proporcionar realimentación interactiva y/o tomar acciones en la información de análisis semánticos parciales en cuanto se recibe, proporcionando así al usuario con una interfase altamente interactiva para el módulo de aplicación 16. Por ejemplo, en un modo de operación de sólo voz, una salida 20 puede incluir determinaciones audibles que se regresan al usuario, mientras que, por supuesto, posiblemente realizan otras tareas con relación a la aplicación. Los análisis semánticos parciales u objetos semánticos pueden ser utilizados para ejecutar lógica de diálogo en aplicación. Por ejemplo, la lógica del diálogo puede presentar una opción, o una pluralidad o lista de opciones, al usuario basándose en uno o más objetos semánticos. Esto permite que el sistema 10 reporte inmediatamente resultados con base en una declaración parcial, principalmente antes de que el turno del usuario haya finalizado. En otras palabras, al utilizar la comunicación de canal de regreso para reportar y realizar tareas normalmente asociadas con el turno de un sistema, la definición de un usuario y un turno del sistema es borrosa. Estudios de diálogo más convencionales, especialmente aquellos a base de diálogos de humano a humano, por lo regular ven las comunicaciones de canal de regreso como una realimentación no intrusiva que transporta solo señales simples tales como reconocimiento positivo, negativo o neutro. Sin embargo, la realimentación provista por la salida 20 potencialmente puede llevar más información, de manera que es un poco intrusiva a la declaración del usuario, lo cual puede o no ocasionar que el usuario aclare la intención o dirección del usuario. Sin embargo, este aspecto proporciona un diálogo humano más real entre el usuario y el sistema 10, que en muchos casos no será considerado como molesto, pero más bien es más cómodo para el usuario e implantar confidencia que el usuario desea satisfacer. En este punto se debe observar que la presente invención no está limitada a un ambiente de operación solo con voz, sino que más bien puede incluir otras formas de realimentación para el usuario basándose en el procesamiento de análisis semánticos parciales u objetos. Por ejemplo, en la aplicación discutida anteriormente, en donde el módulo de aplicación 16 realiza tareas de correo electrónico, la salida 20 puede incluir realimentación visual tal como activación de un módulo de correo electrónico basándose solamente en la recepción de una frase tal como "enviar correo electrónico" en un comando no interrumpido a partir del usuario comprendiendo "enviar correo electrónico Bob", en donde el procesamiento de la frase "a Bob" puede hacer que el módulo de aplicación tenga acceso a más información en el almacenamiento de datos 18 y presentar una lista de personas que tienen como primer nombre "Bob". Por lo que al ver la lista, el usuario simplemente identifica al receptor pretendido como "Bob Green", el cual después puede ser seleccionado ya que el sistema podría haber provisto otro objeto semántico para la declaración parcial de "Bob Green", quien después de recibir por la aplicación y procesarse podría ocasionar que "Bob Green" sea seleccionado. Como se indicó anteriormente, el módulo de aplicación 16 puede tomar muchas formas, en donde los aspectos de la presente invención discutidos más adelante serán benéficos. Sin limitación, el módulo de aplicación 16 también puede ser un módulo de dictado para proporcionar una salida de texto de la entrada del usuario que habla. Sin embargo, al procesar la información semántica para una entrada parcial o frases de entrada también, se puede obtener una transcripción más exacta. Aunque descrito anteriormente con respecto a una entrada del usuario comprendiendo comandos de voz, los aspectos de la presente invención también pueden ser aplicados a otras formas de entrada tales como escritura, DTMF, gestos o indicaciones visuales. Dada la amplia aplicabilidad de frases semánticas parciales de procesamiento u objetos, puede ser útil describir en general dispositivos de cómputo que pueden funcionar en el sistema 10 descrito anteriormente. Como se apreciará por aquellos expertos en la técnica, los componentes del sistema 10 pueden ser localizados dentro de una sola computadora o a través de un ambiente de cómputo distribuido utilizando conexiones y protocolos de red. Haciendo referencia ahora a la Figura 2, en 30 se ilustra una forma de ejemplo de un dispositivo móvil tal como un dispositivo de administración de datos (PIM, PDA, o similares). Sin embargo, se contempla que la presente invención también puede ser practicada utilizando otros dispositivos de cómputo discutidos más adelante. Por ejemplo, los teléfonos y/o dispositivos de administración de datos también serán benéficos a partir de la presente invención. Dichos dispositivos tendrán una utilidad mejorada comparado con los dispositivos de administración de información personales portátiles existentes u otros dispositivos electrónicos portátiles. 1 o En la forma ilustrativa de un dispositivo móvil de administración de datos 30 que se ilustra en la Figura 2, el dispositivo móvil 30 incluye un alojamiento 32 y tiene una interfase de usuario incluyendo una presentación 34, la cual utiliza una pantalla de presentación sensible al tacto junto con un estilete 33. El estilete 33 se utiliza para oprimir o hacer contacto la pantalla 34 en coordenadas designadas para seleccionar un campo, para mover selectivamente una posición de partida de un cursor, o de otra manera para proporcionar información de comando tal como a través de gestos o escritura. Alternativamente, o además, uno o más botones 35 pueden ser incluidos en el dispositivo 30 para la navegación. Además, también se pueden proporcionar otros mecanismos de entrada tales como ruedas giratorias, rodillos, o similares. Sin embargo, se debe observar que la invención no está destinada a ser limitada por estas formas de mecanismos de entrada. Por ejemplo, otra forma de entrada puede incluir una entrada visual tal como a través de una visión de computadora. Ahora haciendo referencia a la Figura 3, un diagrama de bloque ilustra a los componentes funcionales que comprenden el dispositivo móvil 30. Una unidad de procesamiento central (CPU) 50 implementa las funciones de control de software. La CPU 50 está acoplada a la presentación 34, de manera que iconos de texto y gráficos generados de acuerdo con el software de control aparecen en la presentación 34. Una bocina 43 puede ser acoplada a la CPU 50 típicamente con un convertidor digital a analógico 59 para proporcionar una salida audible. Los datos que son descargados o introducidos por el usuario al dispositivo móvil 30 son almacenados en un almacenamiento de memoria de lectura no volátil/de acceso aleatorio de escritura 54 bidireccionalmente acoplado a la CPU 50. La memoria de acceso aleatorio (RAM) 54 proporciona almacenamiento volátil para instrucciones que son ejecutadas por la CPU 50, y almacenamiento para datos temporales, tales como valores de registro. Los valores por omisión para opciones de configuración y otras variables son almacenados en una memoria de solo lectura (ROM) 58. La memoria ROM 58 también puede ser usada para almacenar el software del sistema operativo para el dispositivo que controla la funcionalidad básica del dispositivo móvil 30 y otras funciones de kernel (núcleo de un sistema operativo) del sistema operativo (por ejemplo, la carga de componentes de software en la RAM 54). La memoria RAM 54 también sirve como un almacenamiento para el código en la forma análoga a la función de una unidad de disco duro en una PC que se utiliza para almacenar programas de aplicación. Se debe observar que aunque la memoria no volátil se utiliza para almacenar el código, alternativamente puede ser almacenado en memoria volátil que no se utiliza para la ejecución del código. Las señales inalámbricas pueden ser transmitidas/recibidas por el dispositivo móvil a través de un transceptor inalámbrico 52, el cual está acoplado a la CPU 50. También se puede proporcionar una interfase de comunicación 60 opcional para la descarga de datos directamente de una computadora (por ejemplo, una computadora de escritorio), o de una red mediante cables, si se desea. Por consiguiente, la interfase 60 puede comprender varias formas de dispositivos de comunicación, por ejemplo, un enlace infrarrojo, módem, tarjeta de red, o similares. El dispositivo móvil 30 Incluye un micrófono 29 y un convertidor análogo a digital (A/D) 37, y un programa de reconocimiento opcional (lenguaje, DTMF, escritura, gesto o visión de computadora) almacenado en el almacenamiento 54. A manera de ejemplo, en respuesta a la información audible, las instrucciones o comando de un usuario del dispositivo 30, micrófono 29 proporcionan señales de lenguaje, las cuales son digitalizadas por el convertido A/D 37. El programa de reconocimiento de lenguaje puede realizar funciones de normalización y/o extracción de aspectos en las señales de lenguaje digitalizadas para obtener resultados de reconocimiento de lenguaje intermedios. Al utilizar el transceptor inalámbrico 52 o la interfase de comunicación 60, los datos de lenguaje pueden ser transmitidos a un servidor de reconocimiento remoto 204, discutido más adelante e ilustrado en la arquitectura de la Figura 6. Los resultados del reconocimiento entonces pueden ser regresados al dispositivo móvil 30 para su presentación (por ejemplo, visual y/o audible), y transmisión eventual a un servidor web 202 (Figura 6), en donde el servidor web 202 y el dispositivo móvil 30 operan en una relación de cliente/servidor. Se puede utilizar un procesamiento similar para otras formas de entrada. Por ejemplo, la entrada mediante escritura puede ser digitalizada con o sin pre-procesamiento en el dispositivo 30. Como los datos de lenguaje, esta forma de entrada puede ser transmitida al servidor de reconocimiento 204 para reconocimiento, en donde los resultados de reconocimiento son regresados a por lo menos uno del dispositivo 30 y/o servidor web 202. Asimismo, los datos DTMF, datos de gestos y datos visuales pueden ser procesados en forma similar. Dependiendo de la forma de entrada, el dispositivo 30 (y las otras formas de clientes discutidas más adelante) podrían incluir hardware necesario tal como una cámara para entrada visual. La Figura 4 es una vista en planta de una modalidad ilustrativa de un teléfono portátil 80. El teléfono 80 incluye una presentación 82 y un teclado numérico 84. En general, el diagrama de bloque de la Figura 3 se aplica al teléfono de la Figura 4, aunque se puede requerir de un sistema de circuito adicional necesario para realizar otras funciones. Por ejemplo, se requerirá de un transceptor necesario para operar como un teléfono para la modalidad de la Figura 3; sin embargo, dicho sistema de circuito no es pertinente a la presente invención. Además, de los dispositivos de cómputo portátiles o móviles descritos anteriormente, también se debe entender que la presente invención puede ser utilizada con numerosos otros dispositivos de cómputo tales como una computadora de escritorio general. Por ejemplo, la presente invención permitirá que un usuario tenga habilidades físicas limitadas para introducir o meter texto en una computadora u otro dispositivo de cómputo cuando otros dispositivos de entrada convencional, tales como un teclado alfanumérico total, son demasiado difícil de operar. La invención también opera con numerosos otros sistemas de cómputo de propósito general o de propósito especial, ambientes o configuraciones. Ejemplos de sistemas, ambientes y/o configuraciones de cómputo bien conocidos que pueden ser adecuados para utilizarse con la invención incluye, pero no se limitan a, teléfonos reguladores (sin ninguna pantalla), Computadoras personales, computadoras de servidor, dispositivos portátiles o manuales, computadoras de tableta, sistemas de multiprocesador, sistemas a base de microprocesador, cajas de TV por cable, electrónica de consumidor programable, PCs en red, minicomputadoras, macrocomputadoras, ambientes de cómputo distribuidos que incluyen cualquiera de los sistemas o dispositivos anteriores, y similares. Lo siguiente es una breve descripción de una computadora de propósito general 120 ilustrada en la Figura 5. Sin embargo, la computadora 120 otra vez es solamente un ejemplo de un ambiente de cómputo adecuado y no pretende sugerir ninguna limitación al alcance de uso o funcionalidad de la invención. Ni la computadora 120 debe ser interpretada como teniendo cualquier dependencia o requerimiento con relación a cualquiera o a alguna combinación de los componentes ilustrados aquí. La invención puede ser descrita en el contexto general de instrucciones ejecutables por computadora, tales como módulos de programa, siendo ejecutadas por una computadora. En general, los módulos de programa incluyen rutinas, programas, objetos, componentes, estructuras de datos, etc., que realizan tareas particulares o ¡mplementan tipos de datos abstractos particulares. La invención también puede ser practicada en ambientes de cómputo distribuidos, en donde las tareas son realizadas a través de dispositivos de procesamiento remotos que están enlazados a través de una red de comunicaciones. En un ambiente de cómputo distribuido, los módulos de programa pueden ser ubicados tanto en medios de almacenamiento de computadora locales como remotos, incluyendo dispositivos de almacenamiento de memoria. Las tareas realizadas por los programas y módulos se describen más adelante y con la ayuda de los dibujos. Aquellos expertos en la técnica pueden implementar la descripción y dibujos como instrucciones ejecutables por procesador, las cuales pueden ser escritas en cualquier forma de un medio legible por computadora. Con referencia a la Figura 5, los componentes de la computadora 120 pueden incluir, pero no se limitan a, una unidad de procesamiento 140, una memoria de sistema 150 y una barra colectora de sistema 141 que acopla varios componentes de sistema, incluyendo la memoria de sistema a la unidad de procesamiento 140. La barra colectora de sistema 141 puede ser cualquiera de los varios tipos de estructuras de barra colectora incluyendo una barra colectora de memoria o controlador de memoria, una barra colectora periférica y una barra colectora local utilizando cualquiera de una variedad de arquitectura de barra colectora. A manera de ejemplo, y no de limitación, dichas arquitecturas incluyen Barra Colectora de Arquitectura Estándar de Industria (ISA), barra colectora Serial Universal (USD), barra colectora de Arquitectura de Microcanal (MCA), barra colectora de ISA mejorada (EISA), barra colectora local de asociación de estándares de electrónica de video (VESA), y la barra colectora de interconexión de componente periférico (PCI) también conocida como barra colectora de Mezanine. La computadora 120 típicamente incluye una variedad de medios legibles por computadora. Los medios legibles por computadora pueden ser cualquier medio disponible que pueda ser accesado por la computadora 120 e incluya medios tanto volátiles como no volátiles, medios removibles y no removibles. A manera de ejemplo, y no de limitación, los medios legibles por computadora pueden comprender medios de almacenamiento por computadora y medios de comunicación. Los medios de almacenamiento por computadora incluyen medios tanto volátiles como no volátiles, removibles como no removibles, implementados en cualquier método o tecnología para el almacenamiento de información, tal como instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos. Los medios de almacenamiento por computadora incluyen, pero no se limitan a RAM, ROM, EEPROM, memoria flash u otra tecnología de memoria, CDROM, discos versátiles digitales (DVD) u otro almacenamiento de disco óptico, casetes magnéticos, cinta magnética, almacenamiento en disco magnético u otros dispositivos de almacenamiento magnético, o cualquier otro medio que pueda ser utilizado para almacenar la información deseada y el cual pueda ser accesado por la computadora 120. Los medios de comunicación típicamente modalizan instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos en una señal de datos modulada tal como una onda portadora u otro mecanismo de transporte e incluye cualquier medio de suministro de información. El término "señal de datos modulada" significa una señal que tiene una o más de sus características fijadas o cambiadas de tal manera que codifique información en la señal. A manera de ejemplo, y no de limitación, los medios de comunicación incluyen medios mediante cables tales como una red medíante cables o una conexión de cables directos, y medios inalámbricos tales como medios acústicos, FR, infrarrojos y otros medios inalámbricos. Las combinaciones de cualquiera de los anteriores también deben ser incluidas dentro del alcance del medio legible por computadora. La memoria de sistema 150 incluye medios de almacenamiento por computadora en la forma de memoria volátil y/o no volátil tal como memoria de solo lectura (ROM) 151 y memoria de acceso aleatorio (RAM) 152. Un sistema básico de entrada/salida 153 (BIOS), conteniendo las rutinas básicas que ayudan a transferir información entre elementos dentro de la computadora 120, tal como durante el arranque, típicamente se almacena en la ROM 151. La RAM 152 típicamente contiene datos y/o módulos de programa que son inmediatamente accesibles y/o en realidad son operados en una unidad de procesamiento 140. A manera de ejemplo, y no de limitación, la Figura 5 ilustra un sistema operativo 154, programas de aplicación 155, otros módulos de programa 156 y datos de programa 157. La computadora 120 también puede incluir otros medios de almacenamiento por computadora removibles/no removibles, volátiles/no volátiles. A manera de ejemplo solamente, la Figura 5 ilustra una unidad de disco duro 161 que lee de o escribe a medios magnéticos no removibles, no volátiles, una unidad de disco magnético 171 que lee o escribe a un disco magnético removible, no volátil 172, y una unidad de disco óptico 175 que lee de o escribe a un disco óptico removible, no volátil 176, tal como un CD ROM u otros medios ópticos. Otros medios de almacenamiento por computadora removibles/no removibles, volátiles/no volátiles que pueden ser utilizados en el ambiente ilustrativo de operación incluyen, pero no se limitan, casetes de cinta magnética, tarjetas de memoria flash, discos versátiles digitales, cinta de vídeo digital, RAM de esta sólido, ROM de estado sólido, y similares. La unidad de disco duro 161 típicamente está conectada a la barra colectora 141 del sistema a través de una interfase de memoria no removible tal como la interfase 160, y la unidad de disco magnético 171 y la unidad de disco óptico 175 típicamente están conectadas a la barra colectora 141 del sistema a través de una interfase de memoria removible, tal como la interfase 170. Las unidades y sus medios de almacenamiento por computadora asociados discutidos anteriormente, e ilustrados en la Figura 5, proporcionan almacenamiento de instrucciones legibles por computadora, estructuras de datos, módulos de programa y otros datos para la computadora 120. En la Figura 5, la unidad de disco duro 161 se ilustra almacenando el sistema operativo 164, programas de aplicación 165, otros módulos de programa 166, y datos de programa 167. Observar que estos componentes pueden ser ya sea iguales o diferentes del sistema operativo 154, programas de aplicación 155, otros módulos de programa 156 y datos de programa 157. El sistema operativo 164, programas de aplicación 165, otros módulos de programa 166, y datos de programa 167 se les proporcionan números diferentes datos aquí para ilustrar que, a un mínimo, son diferentes copias. Un usuario puede introducir comandos e información a la computadora 120 a través de dispositivos de entrada tales como un teclado 182, un micrófono 183, y un dispositivo de señalamiento 181, tal como un ratón, bola rodante o almohadilla táctil. Otros dispositivos de entrada (no mostrados) pueden incluir una palanca de mando, una almohadilla de juegos, una antena de satélite, un explorador, o similares. Estos y otros dispositivos de entrada por lo regular están conectados a la unidad de procesamiento 140 a través de una interfase de entrada de usuario 180 que está acoplada a la barra colectora del sistema, pero puede estar conectada a través de otras estructuras de interfase de barra colectora, tal como un puerto paralelo, puerto de juegos, o una barra colectora serial universal (USB). Un monitor 184 u otro tipo de dispositivo de presentación también está conectado a la barra colectora 141 del sistema a través de una interfase tal como una interfase de vídeo 185. Además del monitor, las computadoras también pueden incluir otros dispositivos de salida periféricos tales como bocinas 187 e impresoras 186, que pueden ser conectadas a través de una interfase periférica de salida 188. La computadora 120 puede operar en un ambiente en red utilizando conexiones lógicas a una o más computadoras remotas, tales como una computadora remota 194. La computadora remota 194 puede ser una computadora personal, un dispositivo portátil, un servidor, un enrutador, una PC de red, un dispositivo de par en par u otro nodo de red común, típicamente incluye muchos o todos los elementos descritos anteriormente con relación a la computadora 120. Las conexiones lógicas ilustradas en la Figura 5 incluyen una red de área local (LAN) 191 y una red de área amplia (WAN) 193, pero también pueden incluir otras redes. Dichos ambientes en red son lugares comunes en oficinas, redes en computadora en empresas, intranets e Internet. Cuando se utiliza en un ambiente en red de LAN, la computadora 120 está conectada a la LAN 191 a través de una interfase de red o adaptador 190. Cuando se utiliza en un ambiente en red de WAN, la computadora 120 típicamente incluye un módem 192 u otros medios para establecer comunicaciones a través de la WAN 193, tal como el Internet. El módem 192, el cual puede ser interno o externo, puede ser conectado a la barra colectora 141 del sistema a través de la interfase de entrada de usuario 180, u otro mecanismo apropiado. En un ambiente en red, los módulos de programa ilustrados con relación a la computadora 120, o sus porciones, pueden ser almacenados en el dispositivo de almacenamiento de memoria remoto. A manera de ejemplo, y no de limitación, la Figura 5 ilustra programas de aplicación remotos 195 residentes en una computadora remota 194. Se apreciará que las conexiones de red mostradas son ilustrativas y que se pueden utilizar otros medios para establecer un enlace de comunicaciones entre las computadoras. La Figura 6 ilustra la arquitectura 200 para un reconocimiento a base de web y presentación o ejecución de datos, que es un ambiente ilustrativo para la presente invención. En general, la información almacenada en un servidor web 202 puede ser accesada a través de un cliente 100 tal como un dispositivo móvil 30 o computadora 120 (la cual aquí representa otras formas de dispositivos de cómputo teniendo una pantalla de presentación, un micrófono, una cámara, un panel sensible al tacto, etc., según requerido basándose en la forma de la entrada), o través del teléfono 80, en donde la información es solicitada en forma audible o a través de tonos generados por el teléfono 80 en respuesta a teclas oprimidas, en donde la información del servidor web 202 está provista solo en forma audible de regreso al usuario. En esta modalidad, la arquitectura 200 está no definida ya que si la información se obtiene a través del cliente 100 o el teléfono 80 utilizando el reconocimiento de lenguaje o habla, un solo servidor de reconocimiento 204 puede soportar cualquier modo de operación. Además, la arquitectura 200 opera utilizando una extensión de los lenguajes de marcación bien conocidos (por ejemplo, HTML, XHTML, cHTML, XML, WML, y similares). De esta manera, la información almacenada en el servidor web 202 también puede ser accesada utilizando cualquiera de los métodos de GUI bien conocidos encontrados en estos lenguajes de marcación. A utilizar una extensión de los lenguajes de marcación bien conocidos, la autorización en el servidor web 202 es más fácil, y las aplicaciones de legalidad actualmente existentes también pueden ser fácilmente modificadas para incluir reconocimiento de voz. En general, el cliente 100 ejecuta páginas HTML, manuscritos, o similares, generalmente indicados en 206, provistos por el servidor web 202 utilizando un navegador. Cuando se requiere reconocimiento de voz, a manera de ejemplo, los datos de lenguaje o habla, los cuales pueden ser señales de audio digitalizadas o características de lenguaje, en donde las señales de audio han sido pre-procesadas por el cliente 100 como se describió anteriormente, son provistas al servidor de reconocimiento 204 con una indicación de un modelo de gramática o lenguaje 220 para utilizarse durante el reconocimiento de lenguaje o habla, que puede ser provisto por el cliente 100.

Alternativamente, el servidor de lenguaje o habla 204 puede incluir el modelo de lenguaje 220. La implementación del servidor de reconocimiento 204 puede tomar cualquier forma, una de las cuales se ilustra, pero generalmente incluye un reconocedor 211. Los resultados del reconocimiento son provistos de regreso al cliente 100 para la presentación local si se desea o es apropiado. Si se desea, se puede utilizar el módulo de texto al lenguaje 222 para proporcionar texto hablado al cliente 100. Después de la compilación de la información a través del reconocimiento y de cualquier interfase de usuario gráfica si se utiliza, el cliente 100 envía la información al servidor web 202 para procesamiento adicional y recepción de páginas HTML/manuscritos adicionales, si es necesario.

Como se ilustra en la Figura 6, el cliente 100, el servidor web 202 y el servidor de reconocimiento 204 están conectados comúnmente, y pueden estar dirigidos en forma separada, a través de una red 205, aquí una red de área amplia tal como el Internet. Por lo tanto, no es necesario que ninguno de estos dispositivos esté físicamente localizado adyacente entre sí. En particular, no es necesario que el servidor web 202 incluya un servidor de reconocimiento 204. De esta manera, la autorización en el servidor web 202 puede ser enfocada en la aplicación a la cual está destinada sin que los autores necesiten saber las complejidades del servidor de reconocimiento 204. Más bien, el servidor de reconocimiento 204 puede ser independientemente diseñado y conectado a la red 205, y de esta manera, puede ser actualizado mejorado sin cambios adicionales requeridos en el servidor web 202. El servidor web 202 también puede incluir un mecanismo de autorización que puede generar dinámicamente marcaciones y manuscritos del lado del cliente. En una modalidad adicional, el servidor web 202, el servidor de reconocimiento 204 y el cliente 100 puede combinarse dependiendo de las capacidades de las máquinas de implementación. Por ejemplo, si el cliente 100 comprende una computadora de propósito general, por ejemplo, una computadora personal, el cliente puede incluir el servidor de reconocimiento 204. Asimismo, si se desea, el servidor web 202 y el servidor de reconocimiento 204 pueden ser incorporados en una sola máquina. El acceso al servidor web 202 a través del teléfono 80 incluye la conexión del teléfono 80 a una red telefónica con cables o inalámbrica 208, que a su vez, conecta el teléfono 80 a una compuerta 210 de terceras partes. La compuesta 210 conecta el teléfono 80 a un navegador de voz de telefonía 212. El navegador de voz de telefonía 212 incluye un servidor de medios 214 que proporciona una interfase de telefonía y un navegador de voz 216. Como el cliente 100, el navegador de voz de telefonía 212 recibe páginas HTML/manuscritos o similares del servidor web 202. En una modalidad, las páginas HTML/manuscritos son de la forma similar a las páginas HTML/manuscritos provistas al cliente 100. De esta manera, el servidor web 202 no necesita soportar al cliente 100 y al teléfono 80 en forma separada, o aún soportar a clientes de GUI estándares en forma separada. Más bien, se puede utilizar un lenguaje de marcación común. Además, como el cliente 100, el reconocimiento de voz de señales audibles transmitidas por el teléfono 80 se proporciona del navegador de voz 216 al servidor de reconocimiento 204, ya sea a través de la red 205, o a través de la linea dedicada 207, por ejemplo, utilizando TCP/IP. El servidor web 202, el servidor de reconocimiento 204 y el navegador de voz de teléfono 212 pueden ser modalizados en cualquier ambiente de cómputo adecuado tal como la computadora de escritorio de propósito general ilustrada en la Figura 5. Habiendo descrito varias modalidades y arquitecturas que funcionan en el sistema 10, se proporciona una descripción más detalla de los varios componentes y la función del sistema 10. La Figura 7 ilustra un diagrama de bloque del módulo de reconocimiento de lenguaje y entendimiento 14. El lenguaje o habla de entrada recibido del módulo de interfase de lenguaje 12 es enviado al módulo de reconocimiento y entendimiento del lenguaje 14. El módulo de reconocimiento y entendimiento del lenguaje 14 incluye un motor de reconocimiento 306, el cual tiene un modelo de lenguaje asociado 310. El motor de reconocimiento 306 utiliza el modelo de lenguaje 310 para identificar posibles estructuras de semántica de superficie para representar cada una de las frases que forman la entrada, proporcionando análisis semánticos parciales u objetos a medida que la entrada es recibida. A diferencia de los sistemas que esperan a que el usuario complete la declaración y después procese la entrada completa recibida, el módulo 14 continuamente proporciona objetos semánticos basándose solamente en lo que ha recibido. El motor de reconocimiento 306 proporciona por lo menos un objeto de salida semántico de superficie basándose en la declaración parcial. En algunas modalidades, el motor de reconocimiento 306 es capaz de proporcionar más de un objeto de semántica de superficie alternativo para cada estructura alternativa. Aunque ilustrado en la Figura 7, en donde se proporciona la entrada de lenguaje o habla la presente invención puede ser utilizada con reconocimiento de escritura, reconocimiento de ejemplos o interfases de usuario gráficas (en donde el usuario interactúa como un teclado u otro dispositivo de entrada). En estas otras modalidades, el reconocedor de lenguaje o habla 306 es reemplazado por un motor de reconocimiento adecuado como es conocido en la técnica. Para interfases de usuario gráficas, una gramática (teniendo el modelo de lenguaje) está asociada con la entrada el usuario tal como a través de una caja de entrada. Por consiguiente, la entrada de un usuario es procesada en una forma consistente sin modificación importante basándose en la forma de la entrada. El diálogo interactivo discutido anteriormente, el cual también incluye otras formas de realimentación informativa a través del sistema 10 basándose en análisis semánticos parciales u objetos, puede ser implementado utilizando SALT (Etiquetas de Lenguaje de Aplicación del Habla, según sus siglas en inglés) u otro lenguaje o habla, escritura, y APIs de reconocimiento de patrón (Interfases de Programa de Aplicación) que soportan una construcción de modelo de lenguaje que puede proporcionar información semántica basándose en un esquema seleccionado para una aplicación dada y descodificación sincrónica del objeto semántico. La SALT es un estándar en desarrollo para permitir el acceso a información, aplicaciones y servicios de web a partir de computadoras personales, teléfonos, PCs de tableta, y dispositivos móviles inalámbricos, por ejemplo, pero también puede ser aplicada a interfases de aplicación así como sin interconexión a través de una red. SALT extiende lenguajes de marcación existentes tales como HTML, XHTML y XML. La especificación de SALT 1.0 puede ser encontrada en linea en http://www.SALTforum.org. Se debe observar que SALT puede proporcionar información semántica basándose en la entrada del usuario, por ejemplo, del servidor de lenguaje o habla 204, en donde dicha información forma los objetos provistos al módulo de ejecución o presentación de datos 16 después de completar una declaración; sin embargo, como se discute más adelante, SALT puede ser utilizado en una forma no previamente contemplada para proporcionar análisis semánticos parciales u objetos. El uso de extensiones de SALT, o extensiones similares en otras APIs, proporciona soporte para la interacción del usuario dirigida por un evento altamente interactivo. Al utilizar SALT a manera de ejemplo, se puede utilizar el objeto escuchar de SALT para realizar tareas tanto de reconocimiento como de entendimiento de lenguaje. Esto es porque el diseño sigue el punto de vista y formulación que trata al entendimiento de lenguaje o habla como un problema de reconocimiento de patrón, justo como el reconocimiento del habla o lenguaje. Ambos insisten en encontrar un patrón de una colección de posibles resultados que mejor coincida con una señal de lenguaje o habla dada. Para el reconocimiento de lenguaje o habla, el patrón que será encontrado es una cadena de palabras mientras que, para el entendimiento, es un árbol de objetos semánticos. Una tarea de reconocimiento de lenguaje tradicional instruye al proceso de búsqueda con un modelo de lenguaje en la forma de cadenas o tiras de palabras. En una forma similar, una tarea de entendimiento de lenguaje puede guiar al mismo motor de búsqueda para formar los árboles de objeto semántico adecuados como un modelo semántico. Como un modelo de lenguaje que por lo regular implica un léxico y las reglas de formar segmentos de frase de las entradas del léxico, un modelo semántico implica un diccionario de todos los objetos semánticos y las reglas que lo componen. Aunque el resultado de reconocimiento es una cadena de texto, el resultado de entendimiento es un árbol de objetos semánticos. Aunque es posible extender N-gramática para regresar un resultado de búsqueda estructurado, las aplicaciones de entendimiento de lenguaje o habla más típicas se basan en la gramática libre de contexto probabilistica (PCFG), en donde los diseñadores pueden especificar reglas de la composición de objetos semánticos sin datos de entrenamiento anotados de banco de árbol masivos. Un método para especificar dichas reglas es asociar cada regla de PCFG con directivos de producción para el motor de búsqueda sobre cómo transformar el árbol de análisis de PCFG parcial a un árbol de objeto semántico. Un ejemplo escrito en un formato de Interfase de aplicación de lenguaje de Microsoft (SAPI) (el cual también es un ejemplo de una API de lenguaje que puede ser utilizada en la presente invención) se muestra a continuación: <nombre regla = "nyc"> <lista> <fase>nueva york ? ciudad</fase> <fase> ?la gran manzana </fase> </lista> <salida> <ciudad_ubicación> <ciudad>Nueva York </ciudad> <estado>nueva york </estado> <país>EUA</pais> </ciuidad_ubicación> </salida> </regla> <regla nombre = "nueva junta"> <reglaref min = "0" nombre = "FrasePortador > <reglaref max = "inf" nombre = "PropiedadApt"/> <salida> <Nueva Junta> <FechaHora> <xsl:aplicar- seleccionar p I a n t i 11 a s = "//Fecha"/> <xsl:aplicar- seleccionar planti llas= "//Hora"/> <xsl:aplicar- seleccionar plantillas^ "//Duración"/> </Fecha Hora> <lnvitados> <xsl:apl ¡car- seleccionar plantillas= "//Persona"/> </lnvitados> </NuevaJunta> </salida> </regla> <nombre regla = "Propiedad Apt < I ista > <reglaref nombre = "Fecha7> <reglaref nombre = "Duración' '/> <reglaref nombre = "Hora7> <reglaref nombre = "Persona" max <reglaref nombre = "AptSujeto7> </lista> </regla> El segmento de gramática contiene tres reglas. La primera, una pre-terminal denominada "nyc" lista las expresiones para la ciudad de Nueva York. Las etiquetas <salida> en este ejemplo abarcan las reglas para la construcción de objetos semánticos. Se invocan cuando la trayectoria de búsqueda sale del nodo de gramática denotado por la señal inmediatamente que le precede. En el caso, un objeto semántico, representado en XML con un elemento de <ubicación_ciudad> , se crea cuando una trayectoria de búsqueda sale de la regla "nyc". Este objeto de semántica a su vez está compuesto de tres objetos de semántica: las abreviaturas para el nombre de ciudad, estado y nombre de país, respectivamente. La composición de objetos semánticos también puede ser un procedimiento dinámico, por ejemplo, en la programación de una nueva junta. Por ejemplo, un objeto semántico de Nueva Junta será producido cuando el usuario termine la especificación de las propiedades de la junta tales como fecha, hora, duración y asistentes. Se puede utilizar plantillas para pegar otros objetos semánticos como constituyentes en el objeto semántico de Nueva Junta. El mismo principio también puede ser aplicado a otras reglas no mostradas aquí. Como un ejemplo, una determinación "programar una junta con Li Deng y Alex Acero el 1o. de enero a primera hora" dará como resultado el siguiente objeto semántico: <NuevaJunta> <FechaHora> <Fecha>01/01/2003</Fecha> <Durac¡ón>3600</Duración> </FechaHora> <lnvitados> <Persona>Li Deng</Persona> <Persona>Alex Acero</persona> </lnvitados> </NuevaJunta> En aplicaciones reales, la cobertura de PCFG mejorada es una tarea intimidada. Por lo tanto, es deseable poder utilizar un N-grama para modelar, entre otras cosas, frases funcionales que no lleven información semántica crítica pero usualmente tengan variaciones de capacidad de tamaño en la estructura sintáctica (por ejemplo, "puedo", "me puede enseñar "por favor me muestra ..."). En una modalidad, el modelo de lenguaje 310 comprende un modelo de lenguaje semántico que combina PCFG con N-grama. La técnica es ligeramente diferente de un modelo de lenguaje unificado, el cual también puede ser utilizado. El modelo de lenguaje unificado es una extensión natural a la clase convencional N-grama, excepto que permite que fragmentos de CFG, no solo una lista de palabras, sean modelados como una señal individual en el N-grama. El reconocedor 306 que utiliza este modelo sigue produciendo una cadena de texto que tiene que ser subsecuentemente analizada. El modelo de lenguaje unificado de esta manera está diseñado para incorporar cierta estructura lingüística para ayudar a la transcripción de texto. El modelo de lenguaje semántico, por otro lado, tiene por objeto utilizar el descodif icador o reconocedor para buscar la estructura semántica, que usualmente se captura mejor a través de PCFG. Por lo tanto, en lugar de modernizar fragmentos CFG a N-grama, el PCFG se utiliza para contener N-grama creando una pre-terminal de PCFG especial que corresponde a un N-grama de intereses. En el formato de gramática de SAPI de Microsoft, esto puede ser denotado utilizando una pre-terminal con una etiqueta de <dictado> de XML, como en: LCFG <dictado max = "inf"/> RCFG en donde LCFG y RCFG denotan el contexto izquierdo y derecho del N-grama embebido, respectivamente. El procedimiento de búsqueda trata la etiqueta de <dictado> como una señal y la expande al N-grama como si entrara a una no terminal regular. El atributo máximo en la etiqueta especifica el número máximo de palabras que pueden ser consumidas por el N-grama. Dentro de este N-grama, la probabilidad de cadena de palabras es calculada interpolando el N-grama de retroceso con el PCFG, más específicamente: P(wn | wn-i,wn -2.... ) = ??(??? | Ngrama, w„.,, wn-2,...) + (1-??(??? | RCFG)P(RCFG | wn-1, wn-2,...) (1) en donde ? es el peso de interpolación de N-grama y P(RCFG | wn. !,...) utiliza la probabilidad de retroceso del N-grama, es decir, wn se trata como si fuera una salida de la palabra de vocabulario. En una modalidad, el término P(wn | RCFG) asume solamente el valor binario dependiendo de que si el tamaño de cadena de palabra de N-grama máximo es alcanzado y la palabra está en la cobertura del fragmento CFG o no. Ya que las palabras trazadas de PCFG por lo regular tienen una probabilidad más alta, las trayectorias que realmente pertenecen a lo que va a ser cubierto por CFG tienden a ganar sus contrapartes de N-grama a un cuando la cuenta máxima de palabra de N-grama se fije en infinito. Además de frases funcionales, el N-grama embebido también puede ser utilizado para modelar objetos semánticos con un dictado tipo propiedad. Por ejemplo, el tema de junta se modela en una tarea como: <regla nombre = "AptSujeto" <dictado max = "inf'7> </p> Otros detalles con respecto al modelo de lenguaje semántico se describen por K. Wang, "Semantic modeling for dialog systems in a pattern recognition framework", in Proc. AZUR-2002, Trento Italia, 2001, la cual se incorpora aquí por referencia en su totalidad. Un aspecto más de la presente invención incluye el nuevo uso del objeto escuchar de SALT. SALT proporciona un grupo de elementos XML, con atributos asociados y propiedades de objeto DOM eventos y modelos, los cuales pueden ser utilizados junto con un documento de marcación de fuente para aplicar una interfase de lenguaje a una página fuente. En general, los elementos principales incluye: <¡ncitar...> para configuración de síntesis de lenguaje e incitar reproducción <escuchar...> para configuración de reconocedor de lenguaje, ejecución de reconocimiento y procesamiento posterior y grabación <dtmf...> para configuración y control de DTMF <smex...> para comunicación de propósito general con componente de plataforma Los objetos escuchar y dtmf también contienen controles de gramática y de unión: <gramática ...> para especificar recursos de gramática de entrada <unir ...> para procesar resultados de reconocimiento El elemento escuchar puede incluir un atributo de "modo" para distinguir tres modos de reconocimiento, los cuales instruyen al servidor de reconocimiento (por ejemplo, 204) como y cuando regresar los resultados. El regreso de resultados implica proporcionar el evento "onReco" o activar los elementos de "unir" según sea apropiado. En un primer modo, "automático", la plataforma de lenguaje o de habla, en lugar de la aplicación, está en control de cuando detener el procedimiento de reconocimiento. Este modo ha sido avanzado para telefonía o escenarios a manos libres. Tan pronto quede disponible un resultado de reconocimiento, y/o cuando un periodo de tiempo haya transcurrido indicando silencio, la plataforma de lenguaje o habla automáticamente retiene el reconocedor y regresa a su resultado, el cual después puede ser asociado con el campo apropiado a través del elemento de unión. En un segundo modo de operación, "individual", el regreso de un resultado de reconocimiento está bajo el control de una llamada explícita de "detener". La llamada de detener puede corresponder a un evento tal como "encerrado" por el usuario, y este modo es avanzado para ser utilizado en un ambiente multimodal en donde el dispositivo permite la entrada de lenguaje o habla, pero el usuario generalmente está bajo el control del cual y cuando selecciona campos, por ejemplo, a través del uso del estilete 33 (Figura 1). Un tercer modo de operación del reconocedor de lenguaje es un "modo múltiple". Este modo de operación se utiliza para un "micrófono abierto" o en un escenario de dictado. En general, en este modo de operación, los resultados del reconocimiento son regresados a intervalos hasta que se recibe una llamada de detención explícita o los otros periodos de tiempo asociados con una entrada no reconocida o un tiempo máximo para escuchar, son excedidos. En general, en este modo de operación, para cada frase que es reconocida, se emite un evento de "OnReco" y el resultado es regresado hasta que se recibe la llamada de detención (). Sin embargo, este modo de operación, como otro aspecto de la presente invención, puede proporcionar un medio para que los motores de búsqueda expongan capacidades más interactivas a los usuarios permitiéndoles reportar de inmediato cada vez que se alcanza una marca lingüística saliente. Son bien conocidos los algoritmos de búsqueda que se basan en descodificación sincrónica con el tiempo y se pueden emplear para este modo en una forma directa. Uno de estos algoritmos se describe por H. Ney, S. Ortmanns, "Dynamic programming search for continuous speech recognition", IEE Signal Processing Magazine, pág. 64-83, 1999. Para reconocimiento de lenguaje o habla, la marca lingüística usualmente corresponde a una palabra a un límite de frase. Un reconocimiento de modo múltiple de SALT de esta manera se puede utilizar para presentar dinámicamente las hipótesis de cadena de palabras en cuanto estén disponibles, un efecto Ul comúnmente visto en muchos software de dictado comercial. Sin embargo, en la presente invención, el modo múltiple puede tratar las instancias de objetos semánticos como marcas lingüísticas y reporte, es decir, proporcionar cierta respuesta como una función de los que se entendió, de regreso a la aplicación en ellos en una forma dinámica también. Esto aparece al diseñador de aplicación como si SALT estuviera realizando un entendimiento sincrónico de objeto semántico. Este modo de operación puede ser mejor entendido comparándolo con un escenario multimodal. En el escenario multimodal un usuario indica un campo, por ejemplo, señalando y manteniendo el estilete en un campo de entrada mientras se está hablando. Aunque el usuario puede derivar sobre un campo genérico y declarar una oración elaborada para llenar muchos campos en la oración individual, la interferencia de ahusamiento y habla sin embargo acopla los ojos y las manos del usuario, un esquema no apropiado para muchas situaciones. Además, aunque la derivación y el habla caracterizan una comunicación de canal de regreso rica que presenta el volumen y una barra de progreso del procedimiento de lenguaje hablado subyacente, aquellas realimentaciones proporcionan solamente claves muy primitivas de la calidad del procesamiento de lenguaje hablado en términos de velocidad y exactitud. Esto puede ser potencialmente más problemático para oraciones más largas, en donde se pueden propagar errores a un campo más amplio que finalmente requiere de más esfuerzos para verificar y corregir meramente los resultados de reconocimiento y entendimiento. Ya que los estudios de capacidad de uso parecen indicar que las oraciones largas son un factor de diferenciación de clave que demuestra la utilidad del lenguaje o habla, como más que una mejora de teclado o alternativa, es absolutamente necesaria une experiencia de Ul que quede satisfecha para el éxito de utilizar el lenguaje o habla con una modalidad viable. Con el fin de promover la percepción del humano-computadora como patrones estrechamente colaboradores para lograr un objetivo común, el entendimiento sincrónico de objeto semántico, reportando los análisis semánticos parciales u objetos siempre que estén disponibles, es efectivo. En una modalidad, esto se logra utilizando el modo múltiple del elemento de escuchar el SALT. En particular, para el elemento de escuchar, se designa un modo múltiple y todas las gramáticas de reconocimiento después se satisfacen para que el lenguaje de entrada sea reconocido. La asignación de resultados también se especifica en el objeto de escuchar. Por ejemplo, el código de entrada de HTML para adquirir información necesaria, tal como fecha, hora, ubicación, tema, y invitados a la junta, etc., para una nueva junta puede tomar la forma de <escuchar modo = "múltiple" ...> <gramática src = "sujeto. grm"/> <gramática src = "fecha. grm"/> <gramática src = "hora_duración.grm'7> <gramática src = "asistentes. grm"/> < u n i r Elementoobjetivo = "sujeto" valor = "//AptSujeto"/> <unir Elementoobjetivo = "fecha" valor = 7/FechaHora7> <unir Elementoobjetivo = "hora_inicio" valor = 7/hora_inic¡o" elementoobjetivo = "hora_término" valor = "//hora_término" Elementoobjetivo = "duración" Valor = //FechaHora / duración7> </escuchar> Las múltiples gramáticas componen un espacio de búsqueda paralelo para el reconocimiento con un lazo de transición nulo de regreso al punto de entrada. En este modo, SALT permite que el objeto escuchar incremente un evento siempre que se produzca una gramática. El evento ataca un procedimiento paralelo para invocar a los directivos de unión en secuencia mientras se está presentando la recolección y reconocimiento de audio subyacente, creando así el efecto para el usuario de que campos importantes en la forma están siendo llenados mientras un comando hablado sigue siendo determinado para una aplicación que tiene una ejecución o presentación visual de campos. La interfase de usuario para aplicaciones libres de ojos, se pueden desear salidas de lenguaje acompañadas. En este caso, se puede utilizar objetos de incitar SALT para proporcionar realimentaciones inmediatas. Por ejemplo, el objeto incitar de SALT siguiente puede ser utilizado para sincronizar respuestas basándose en los contenidos dinámicos de campo de fechas, y la síntesis del lenguaje puede ser activada con directivos de unión de SALT adicionales, como sigue: < incitar id = "decir_fecha"> en <valor Elementoobjetivo = "fecha"/> </iniciar> <escuchar ... > <unir Elementoobjetivo = "fecha" valor = "//fecha Elementoobjetivo = "decir_fecha" Métodoobjetivo = "lnicio"/> </escuchar> El efecto neto es que el usuario siente como si estuviera hablando con otra parte que no solamente anotan sino que repite lo que escuchan, como en "programar una junta (nueva junta) a las dos (empezando a las dos PM) el siguiente martes (el 10/29/02) durante 2 horas (duración: 2 horas)", en donde las frases provistas (representan los indicadores audibles y/o visuales (los cuales también pueden estar sincronizados) de regreso al usuario. Se debe observar que SALT permite que los diseñadores unan manejadores de evento de reconocimiento adaptados que realicen cómputos sofisticados más allá de las simples asignaciones como con los directivos de unión de SALT. En el ejemplo anterior, la normalización de fecha puede lograrse en la gramática semántica que, sin embargo, no puede facilitar una resolución de referencia avanzada (por ejemplo, "programar una junta con Li Deng y su administrador"). Para tales casos, se pueden implementar algoritmos como objetos de manuscrito accesibles a manejadores de evento apropiados para tener acceso a datos almacenados para determinar referencias indefinidas. Dicho algoritmos se describen por K. Wang, "A plan based dialog system with probabilistic interferences", en Proc. ICSLP-2000, Beijing China, 2000, y la solicitud de patente Europea EP 1199630A2, publicada el 24 de abril del 2002, las cuales se incorporan aquí por referencia en su totalidad. Se debe observar que aunque la operación de modo múltiple existió para el objeto escuchar, en implementaciones actuales, este modo proporciona solamente texto para la entrada recibida tal como en el escenario de dictado. Sin embargo, en este aspecto de la presente invención, los resultados parciales como entrada que están siendo recibidos no son solamente el texto, sino que también incluyen la información de semántica correspondiente que pertenece al texto, y de esta manera la salida comprende análisis semánticos parciales u objetos, que se pueden utilizar como se describe anteriormente para proporcionar al usuario una realimentación con más calidad de que la computadora ha entendido con propiedad lo que ha recibido. Dependiendo de la sofisticación de la aplicación que recibe los análisis semánticos parciales u objetos, el sistema puede proporcionar de regreso al usuario confirmaciones, alternativas, correcciones y aclaraciones basándose en los análisis semánticos parciales recibidos. Aunque en aplicaciones multimodales se sabe incluir múltiples gramáticas para permitir que el usuario hable, y de esta manera, proporcionan la habilidad de proveer información que no ha sido indicada, utilizando el elemento escuchar en la operación de modo múltiples puede ser mejor, ya que proporciona al usuario una indicación superior de entendimiento. En una aplicación de solo voz, una forma natural de diálogo es generada, mientras que si se emplean ejecuciones o presentaciones visuales, una aplicación puede comenzar a procesarse (tomando acciones, presentando resultados u opciones, por ejemplo, a través de ventanas de menú de desplazamiento) basándose solamente en los análisis semánticos parciales de lo que el usuario ya ha provisto y mientras el usuario sigue hablando. Aunque la presente invención ha sido descrita con referencia a modalidades particulares, aquellos expertos en la técnica reconocerán que se pueden hacer cambios en la forma y detalla sin apartarse del espíritu y alcance de la invención.

Claims

REIVINDICACIONES

1. - Un sistema de entendimiento de habla que comprende: un modelo de lenguaje comprendiendo una combinación de un modelo de lenguaje de N-grama y un modelo de lenguaje de gramática libre de contexto, el modelo de lenguaje almacena información con relación a palabras e información de semántica que será reconocida; un modelo adaptado para recibir una entrada por parte de un usuario y capturar la entrada para procesamiento, el modelo además estando adaptado para recibir interfases de programa de aplicación de SALT que pertenecen al reconocimiento de la entrada, el módulo configurado para procesar las interfases de programa de aplicación de SALT y la entrada para determinar cierta información semántica que pertenece a una primera porción de la entrada y producir un objeto semántico comprendiendo texto e información semántica para la primera porción accesando el modelo de lenguaje, en donde la realización de reconocimiento y producción de resultados del objeto semántico se realizan mientras la captura se continua para porciones subsecuentes de la entrada.

2. - El sistema de acuerdo con la reivindicación 1, en donde el modelo de lenguaje comprende un modelo de lenguaje unificado.

3. - El sistema de acuerdo con la reivindicación 1, en donde el modelo de lenguaje comprende un modelo de lenguaje semántico. 4.- El sistema de acuerdo con la reivindicación 1, 2 ó 3, en donde el módulo está adaptado para identificar un objeto de escuchar de SALT en un modo múltiple con el fin de realizar el reconocimiento y producir resultados del objeto semántico, mientras la captura continua para porciones subsecuentes de la entrada. 5.- El sistema de acuerdo con la reivindicación 4, en donde el módulo está adaptado para identificar objetos de gramática para definir un espacio de búsqueda del modelo de lenguaje. 6. - El sistema de acuerdo con la reivindicación 1, 2 ó 3, en donde el módulo está adaptado para identificar objetos de gramática para definir un espacio de búsqueda del modelo de lenguaje. 7. - Un medio legible por computadora que incluye instrucciones legibles por un dispositivo de cómputo que, cuando se implementan, hacen que el dispositivo de cómputo maneje información para realizar pasos, que comprende: recibir una entrada de un usuario y capturar la entrada para procesamiento; recibir interfases de programa de aplicación de SALT para identificar un modelo de lenguaje para realizar el reconocimiento y entendimiento, el modelo de lenguaje adaptado para proporcionar texto de entrada reconocida e información semántica para la entrada recibida; procesar la entrada accesando el modelo de lenguaje para realizar el reconocimiento en la entrada para determinar la información semántica que pertenece a una primera porción de la entrada y producir un objeto semántico que comprende texto de la entrada reconocida e información semántica para la primera porción, en donde la realización de reconocimiento y producción del objeto semántico se realizan mientras la captura continua para porciones subsecuentes de la entrada. 8. - El medio legible por computadora de acuerdo con la reivindicación 7, en donde el procesamiento incluye identificar un objeto de escuchar de SALT en un modo múltiple con el fin de realizar reconocimiento y producir el objeto semántico, mientras se continúa la captura para porciones subsecuentes de la entrada. 9. - El medio legible por computadora de acuerdo con la reivindicación 8, en donde la recepción de interfases de programa de aplicación de SALT incluye identificar objetos de gramática para definir un espacio de búsqueda del modelo de lenguaje. 10. - El medio legible por computadora de acuerdo con la reivindicación 7, en donde la recepción de interfases de programa de aplicación de SALT incluye identificar objetos de gramática para definir un espacio de búsqueda del modelo de lenguaje.