MXPA04005122A - Entendimiento sincronico de objeto semantico implementado con etiquetas de lenguaje de aplicacion del habla. - Google Patents

Entendimiento sincronico de objeto semantico implementado con etiquetas de lenguaje de aplicacion del habla.

Info

Publication number
MXPA04005122A
MXPA04005122A MXPA04005122A MXPA04005122A MXPA04005122A MX PA04005122 A MXPA04005122 A MX PA04005122A MX PA04005122 A MXPA04005122 A MX PA04005122A MX PA04005122 A MXPA04005122 A MX PA04005122A MX PA04005122 A MXPA04005122 A MX PA04005122A
Authority
MX
Mexico
Prior art keywords
input
language model
semantic
recognition
language
Prior art date
Application number
MXPA04005122A
Other languages
English (en)
Inventor
Wang Kuansan
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of MXPA04005122A publication Critical patent/MXPA04005122A/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephone Function (AREA)

Abstract

Un sistema de entendimiento de habla o lenguaje incluye un modelo de lenguaje que comprende una combinacion de un modelo de lenguaje N-grama y un modelo de lenguaje de gramatica libre de contexto. El modelo de lenguaje almacena informacion relacionada con palabras e informacion semantica que sera reconocida. Un modulo esta adaptado para recibir una entrada de un usuario y capturar la entrada para procesamiento. El modulo ademas esta adaptado para recibir interfases de programa de aplicacion de SALT que pertenecen al reconocimiento de la entrada. El modulo esta configurado para procesar las interfases de programa de aplicacion de SALT y la entrada para determinar informacion semantica que pertenece a una primera porcion de la entrada y producir un objeto semantico comprendiendo texto o informacion semantica para la primera porcion accesando el modelo de lenguaje, en donde la realizacion de reconocimiento y produccion del objeto semantico se realiza mientras la captura continua para porciones subsecuentes de la entrada.

Description

ENTENDIMIENTO SINCRONICO DE OBJETO SEMANTICO I PLE MENTADO CON ETIQUETAS DE LENGUAJE DE APLICACION DEL HABLA ANTECEDENTES DE LA INVENCION La presente invención se refiere al acceso y ejecución de información en un sistema de computadora. Más particularmente, la presente invención se refiere al acceso de información utilizando reconocimiento y entendimiento. Recientemente, la tecnología ha avanzado para permitir que el usuario tenga acceso a información en un sistema de computadora proporcionando comandos de lenguaje o habla. Al recibir un comando de un usuario, el sistema de computadora realiza reconocimiento de lenguaje en la entrada del usuario y además procesa la entrada con el fin de determinar el intento del usuario con el fin de que el sistema de computadora realice una acción deseada. En algunas situaciones, la entrada provista por el usuario está en incompleta o es indefinida, lo cual requerirá que el sistema de computadora solicite más información del usuario ya sea en la forma de indicadores visuales o audibles. De esta manera, un diálogo puede ser establecido entre el usuario y el sistema de computadora, en donde cada uno toma turnos proporcionando preguntas, respuestas, y/o reconocimientos hasta que el intento del usuario es determinado y se puede realizar una acción. En otras situaciones, la creación de dicho diálogo es el modo preferido para interactuar con el sistema de computadora. Se han introducido Etiquetas de Lenguaje de Aplicación del Habla (SALT, según sus siglas en inglés) para facilitar el lenguaje como una modalidad de entrada/salida viable para el diseño de interfase de usuario moderno. El objetivo del diseño para SALT es hacer que las tareas de lenguaje comunes sean más simples de programar, y que aún permitan capacidades avanzadas con una realización directa. SALT fue diseñado para muchas aplicaciones. Una siendo, por ejemplo, una aplicación de solo lenguaje, a base de teléfono, que solamente interactúa con usuarios exclusivamente a través de diálogo hablado. SALT incluye objetos de entrada y salida de lenguaje ("escuchar" y "incitar"), los cuales tienen un diseño de modo para incorporar tecnologías para detectar el inicio y el fin del turno del usuario. Por consiguiente, muchas aplicaciones de lenguaje emplean interfases de usuario que requieren que el usuario señale el inicio de un turno del usuario. Algunos sistemas de computadora incluyen computadoras usables, dispositivos modales o multimodales habilitados con el habla o lenguaje (entrada de lenguaje provista para campo seleccionados por un dispositivo de entrada tal como un ratón) y otras aplicaciones ojos libres. Sin embargo, en cada uno de estos ambientes, una definición de corte limpia en el usuario contra el turno del sistema de computadora en el diálogo sigue presente. Sin embargo, la conversación humana generalmente no sigue un corte limpio, tomando un diálogo de turno entre participantes. Más bien, las con ersaciones pueden incluir reconocimientos, confirmaciones, preguntas por parte de cada participante, etc., mientras que el otro está proporcionando información que drásticamente pueda afectar, ligeramente afectar o no afectar la forma en la cual el interlocutor está proporcionando información. Los interlocutores humanos disfrutan esta forma natural de conversación. Asimismo, los sistemas telefónicos emplean tecnología totalmente dúplex con el fin de permitir que dichas conversaciones se presenten. En contraste, las interfases a base de diálogo emplean un modo de turno rígido de operación entre un usuario y un sistema de computadora, que hace que el sistema de computadora espere para la finalización del diálogo del usuario antes de procesar y tomar una acción subsecuente. Aunque una simple realimentación, tal como indicaciones visuales como una serie de puntos que progresan a través de una pantalla por computadora, puede proporcionar al usuario algo de seguridad de que el sistema de computadora por lo menos está procesando algo, hasta que el usuario termina su turno y el sistema de computadora responde, el grado de entendimiento por parte del sistema de computadora no es conocido. Por consiguiente, existe la necesidad de mejoras en un sistema de computadora que se base en reconocimiento y entendimiento. Dichas mejoras podrían proporcionar un sistema y método para introducir información que podría ser más fácil de utilizar siendo más natural para el usuario.
COMPENDIO DE LA INVENCION Un método y un sistema proporcionan un modo de entrada de lenguaje o habla que dinámicamente reporta análisis semánticos parciales, mientras la ilustración de audio sigue en progreso. Los análisis semánticos pueden ser evaluados con un resultado inmediatamente reportado de regreso al usuario. En un aspecto, un sistema de entendimiento de habla o lenguaje incluye un modelo de lenguaje que comprende una combinación de modelo de lenguaje de N-grama y un modelo de lenguaje gramático libre de contexto. El modelo de lenguaje almacena información relacionada con palabras e información semántica que será reconocida. Un módulo está adaptado para recibir la entrada por parte de un usuario y capturar la entrada para procesamiento. El módulo además está adaptado para recibir ¡nterfases de programa de aplicación de SALT que pertenecen al reconocimiento de la entrada. El módulo está configurado para procesar las interfases de programa de aplicación de SALT y la entrada para determinar información semántica que pertenece a una primera porción de la entrada y producir un objeto semántico que comprende texto e Información semántica para la primera porción accesando el modelo de lenguaje, en donde la realización y los resultados del objeto semántico se realizan mientras la captura continua para porciones subsecuentes de la entrada.
BREVE DESCRIPCION DE LOS DIBUJOS La Figura 1 es un diagrama de bloque de un sistema de presentación de datos. La Figura 2 es una vista en planta de un ambiente de operación del dispositivo de cómputo. La Figura 3 es un diagrama de bloque del dispositivo de cómputo de la Figura 2. La Figura 4 es una vista en planta de un teléfono. La Figura 5 es un diagrama de bloque de una computadora de propósito general. La Figura 6 es un diagrama de bloque de una arquitectura para un sistema de cliente/servidor. La Figura 7 es un diagrama de bloque de un módulo de reconocimiento y entendimiento de lenguaje o habla.
DESCRIPCION DETALLADA DE LAS MODALIDADES ILUSTRATIVAS La Figura 1 es un diagrama de bloque de un sistema de presentación de datos 10 para presentar o ejecutar datos con base en una entrada de voz. El sistema 10 incluye un módulo de interfase de lenguaje 12, un módulo de reconocimiento y entendimiento de lenguaje 14 y un módulo de ejecución de datos 16. Un usuario proporciona una entrada en la forma de una consulta de voz al módulo de interfase de lenguaje 12. El módulo de interfase de lenguaje 12 reúne la información de lenguaje de un usuario y proporciona una señal indicativa de la misma. Después de que el lenguaje de entrada ha sido reunido por el módulo de interfase de lenguaje 12, el módulo de reconocimiento y entendimiento de lenguaje 14 reconoce el lenguaje utilizando un reconocedor de lenguaje y también realiza el entendimiento de lenguaje, en donde en un aspecto de la presente invención, proporciona análisis semánticos parciales de la entrada en cuanto se recibe, mientras que la entrada de lenguaje de audio se sigue capturando. Los análisis semánticos parciales, los cuales típicamente incluyen el texto para la entrada recibida (u otros datos indicativos del texto de la entrada), pero también información semántica determinada, son provistos a un módulo de aplicación 16 que pueden tener muchas diferentes formas. Por ejemplo, en una modalidad, el módulo de aplicación 16 puede ser un administrador de información personal que se utiliza para enviar, recibir y contestar correos electrónicos, disponer reuniones, y similares. De esta manera, el usuario puede proporcionar comandos audibles para realizar estas tareas. De manera más importante, el módulo de aplicación 16 puede proporcionar realimentación interactiva y/o tomar acciones en la información de análisis semánticos parciales en cuanto se recibe, proporcionando así al usuario con una interfase altamente interactiva para el módulo de aplicación 16. Por ejemplo, en un modo de operación de sólo voz, una salida 20 puede incluir determinaciones audibles que se regresan al usuario, mientras que, por supuesto, posiblemente realizan otras tareas con relación a la aplicación. Los análisis semánticos parciales u objetos semánticos pueden ser utilizados para ejecutar lógica de diálogo en aplicación. Por ejemplo, la lógica del diálogo puede presentar una opción, o una pluralidad o lista de opciones, al usuario basándose en uno o más objetos semánticos. Esto permite que el sistema 10 reporte inmediatamente resultados con base en una declaración parcial, principalmente antes de que el turno del usuario haya finalizado. En otras palabras, al utilizar la comunicación de canal de regreso para reportar y realizar tareas normalmente asociadas con el turno de un sistema, la definición de un usuario y un turno del sistema es borrosa. Estudios de diálogo más convencionales, especialmente aquellos a base de diálogos de humano a humano, por lo regular ven las comunicaciones de canal de regreso como una realimentación no intrusiva que transporta solo señales simples tales como reconocimiento positivo, negativo o neutro. Sin embargo, la realimentación provista por la salida 20 potencialmente puede llevar más información, de manera que es un poco intrusiva a la declaración del usuario, lo cual puede o no ocasionar que el usuario aclare la intención o dirección del usuario. Sin embargo, este aspecto proporciona un diálogo humano más real entre el usuario y el sistema 10, que en muchos casos no será considerado como molesto, pero más bien es más cómodo para el usuario e implantar confidencia que el usuario desea satisfacer. En este punto se debe observar que la presente invención no está limitada a un ambiente de operación solo con voz, sino que más bien puede incluir otras formas de realimentación para el usuario basándose en el procesamiento de análisis semánticos parciales u objetos. Por ejemplo, en la aplicación discutida anteriormente, en donde el módulo de aplicación 16 realiza tareas de correo electrónico, la salida 20 puede incluir realimentación visual tal como activación de un módulo de correo electrónico basándose solamente en la recepción de una frase tal como "enviar correo electrónico" en un comando no interrumpido a partir del usuario comprendiendo "enviar correo electrónico Bob", en donde el procesamiento de la frase "a Bob" puede hacer que el módulo de aplicación tenga acceso a más información en el almacenamiento de datos 18 y presentar una lista de personas que tienen como primer nombre "Bob". Por lo que al ver la lista, el usuario simplemente identifica al receptor pretendido como "Bob Green", el cual después puede ser seleccionado ya que el sistema podría haber provisto otro objeto semántico para la declaración parcial de "Bob Green", quien después de recibir por la aplicación y procesarse podría ocasionar que "Bob Green" sea seleccionado. Como se indicó anteriormente, el módulo de aplicación 16 puede tomar muchas formas, en donde los aspectos de la presente invención discutidos más adelante serán benéficos. Sin limitación, el módulo de aplicación 16 también puede ser un módulo de dictado para proporcionar una salida de texto de la entrada del usuario que habla. Sin embargo, al procesar la información semántica para una entrada parcial o frases de entrada también, se puede obtener una transcripción más exacta. Aunque descrito anteriormente con respecto a una entrada del usuario comprendiendo comandos de voz, los aspectos de la presente invención también pueden ser aplicados a otras formas de entrada tales como escritura, DTMF, gestos o indicaciones visuales. Dada la amplia aplicabilidad de frases semánticas parciales de procesamiento u objetos, puede ser útil describir en general dispositivos de cómputo que pueden funcionar en el sistema 10 descrito anteriormente. Como se apreciará por aquellos expertos en la técnica, los componentes del sistema 10 pueden ser localizados dentro de una sola computadora o a través de un ambiente de cómputo distribuido utilizando conexiones y protocolos de red. Haciendo referencia ahora a la Figura 2, en 30 se ilustra una forma de ejemplo de un dispositivo móvil tal como un dispositivo de administración de datos (PIM, PDA, o similares). Sin embargo, se contempla que la presente invención también puede ser practicada utilizando otros dispositivos de cómputo discutidos más adelante. Por ejemplo, los teléfonos y/o dispositivos de administración de datos también serán benéficos a partir de la presente invención. Dichos dispositivos tendrán una utilidad mejorada comparado con los dispositivos de administración de información personales portátiles existentes u otros dispositivos electrónicos portátiles. 1 o En la forma ilustrativa de un dispositivo móvil de administración de datos 30 que se ilustra en la Figura 2, el dispositivo móvil 30 incluye un alojamiento 32 y tiene una interfase de usuario incluyendo una presentación 34, la cual utiliza una pantalla de presentación sensible al tacto junto con un estilete 33. El estilete 33 se utiliza para oprimir o hacer contacto la pantalla 34 en coordenadas designadas para seleccionar un campo, para mover selectivamente una posición de partida de un cursor, o de otra manera para proporcionar información de comando tal como a través de gestos o escritura. Alternativamente, o además, uno o más botones 35 pueden ser incluidos en el dispositivo 30 para la navegación. Además, también se pueden proporcionar otros mecanismos de entrada tales como ruedas giratorias, rodillos, o similares. Sin embargo, se debe observar que la invención no está destinada a ser limitada por estas formas de mecanismos de entrada. Por ejemplo, otra forma de entrada puede incluir una entrada visual tal como a través de una visión de computadora. Ahora haciendo referencia a la Figura 3, un diagrama de bloque ilustra a los componentes funcionales que comprenden el dispositivo móvil 30. Una unidad de procesamiento central (CPU) 50 implementa las funciones de control de software. La CPU 50 está acoplada a la presentación 34, de manera que iconos de texto y gráficos generados de acuerdo con el software de control aparecen en la presentación 34. Una bocina 43 puede ser acoplada a la CPU 50 típicamente con un convertidor digital a analógico 59 para proporcionar una salida audible. Los datos que son descargados o introducidos por el usuario al dispositivo móvil 30 son almacenados en un almacenamiento de memoria de lectura no volátil/de acceso aleatorio de escritura 54 bidireccionalmente acoplado a la CPU 50. La memoria de acceso aleatorio (RAM) 54 proporciona almacenamiento volátil para instrucciones que son ejecutadas por la CPU 50, y almacenamiento para datos temporales, tales como valores de registro. Los valores por omisión para opciones de configuración y otras variables son almacenados en una memoria de solo lectura (ROM) 58. La memoria ROM 58 también puede ser usada para almacenar el software del sistema operativo para el dispositivo que controla la funcionalidad básica del dispositivo móvil 30 y otras funciones de kernel (núcleo de un sistema operativo) del sistema operativo (por ejemplo, la carga de componentes de software en la RAM 54). La memoria RAM 54 también sirve como un almacenamiento para el código en la forma análoga a la función de una unidad de disco duro en una PC que se utiliza para almacenar programas de aplicación. Se debe observar que aunque la memoria no volátil se utiliza para almacenar el código, alternativamente puede ser almacenado en memoria volátil que no se utiliza para la ejecución del código. Las señales inalámbricas pueden ser transmitidas/recibidas por el dispositivo móvil a través de un transceptor inalámbrico 52, el cual está acoplado a la CPU 50. También se puede proporcionar una interfase de comunicación 60 opcional para la descarga de datos directamente de una computadora (por ejemplo, una computadora de escritorio), o de una red mediante cables, si se desea. Por consiguiente, la interfase 60 puede comprender varias formas de dispositivos de comunicación, por ejemplo, un enlace infrarrojo, módem, tarjeta de red, o similares. El dispositivo móvil 30 Incluye un micrófono 29 y un convertidor análogo a digital (A/D) 37, y un programa de reconocimiento opcional (lenguaje, DTMF, escritura, gesto o visión de computadora) almacenado en el almacenamiento 54. A manera de ejemplo, en respuesta a la información audible, las instrucciones o comando de un usuario del dispositivo 30, micrófono 29 proporcionan señales de lenguaje, las cuales son digitalizadas por el convertido A/D 37. El programa de reconocimiento de lenguaje puede realizar funciones de normalización y/o extracción de aspectos en las señales de lenguaje digitalizadas para obtener resultados de reconocimiento de lenguaje intermedios. Al utilizar el transceptor inalámbrico 52 o la interfase de comunicación 60, los datos de lenguaje pueden ser transmitidos a un servidor de reconocimiento remoto 204, discutido más adelante e ilustrado en la arquitectura de la Figura 6. Los resultados del reconocimiento entonces pueden ser regresados al dispositivo móvil 30 para su presentación (por ejemplo, visual y/o audible), y transmisión eventual a un servidor web 202 (Figura 6), en donde el servidor web 202 y el dispositivo móvil 30 operan en una relación de cliente/servidor. Se puede utilizar un procesamiento similar para otras formas de entrada. Por ejemplo, la entrada mediante escritura puede ser digitalizada con o sin pre-procesamiento en el dispositivo 30. Como los datos de lenguaje, esta forma de entrada puede ser transmitida al servidor de reconocimiento 204 para reconocimiento, en donde los resultados de reconocimiento son regresados a por lo menos uno del dispositivo 30 y/o servidor web 202. Asimismo, los datos DTMF, datos de gestos y datos visuales pueden ser procesados en forma similar. Dependiendo de la forma de entrada, el dispositivo 30 (y las otras formas de clientes discutidas más adelante) podrían incluir hardware necesario tal como una cámara para entrada visual. La Figura 4 es una vista en planta de una modalidad ilustrativa de un teléfono portátil 80. El teléfono 80 incluye una presentación 82 y un teclado numérico 84. En general, el diagrama de bloque de la Figura 3 se aplica al teléfono de la Figura 4, aunque se puede requerir de un sistema de circuito adicional necesario para realizar otras funciones. Por ejemplo, se requerirá de un transceptor necesario para operar como un teléfono para la modalidad de la Figura 3; sin embargo, dicho sistema de circuito no es pertinente a la presente invención. Además, de los dispositivos de cómputo portátiles o móviles descritos anteriormente, también se debe entender que la presente invención puede ser utilizada con numerosos otros dispositivos de cómputo tales como una computadora de escritorio general. Por ejemplo, la presente invención permitirá que un usuario tenga habilidades físicas limitadas para introducir o meter texto en una computadora u otro dispositivo de cómputo cuando otros dispositivos de entrada convencional, tales como un teclado alfanumérico total, son demasiado difícil de operar. La invención también opera con numerosos otros sistemas de cómputo de propósito general o de propósito especial, ambientes o configuraciones. Ejemplos de sistemas, ambientes y/o configuraciones de cómputo bien conocidos que pueden ser adecuados para utilizarse con la invención incluye, pero no se limitan a, teléfonos reguladores (sin ninguna pantalla), Computadoras personales, computadoras de servidor, dispositivos portátiles o manuales, computadoras de tableta, sistemas de multiprocesador, sistemas a base de microprocesador, cajas de TV por cable, electrónica de consumidor programable, PCs en red, minicomputadoras, macrocomputadoras, ambientes de cómputo distribuidos que incluyen cualquiera de los sistemas o dispositivos anteriores, y similares. Lo siguiente es una breve descripción de una computadora de propósito general 120 ilustrada en la Figura 5. Sin embargo, la computadora 120 otra vez es solamente un ejemplo de un ambiente de cómputo adecuado y no pretende sugerir ninguna limitación al alcance de uso o funcionalidad de la invención. Ni la computadora 120 debe ser interpretada como teniendo cualquier dependencia o requerimiento con relación a cualquiera o a alguna combinación de los componentes ilustrados aquí. La invención puede ser descrita en el contexto general de instrucciones ejecutables por computadora, tales como módulos de programa, siendo ejecutadas por una computadora. En general, los módulos de programa incluyen rutinas, programas, objetos, componentes, estructuras de datos, etc., que realizan tareas particulares o ¡mplementan tipos de datos abstractos particulares. La invención también puede ser practicada en ambientes de cómputo distribuidos, en donde las tareas son realizadas a través de dispositivos de procesamiento remotos que están enlazados a través de una red de comunicaciones. En un ambiente de cómputo distribuido, los módulos de programa pueden ser ubicados tanto en medios de almacenamiento de computadora locales como remotos, incluyendo dispositivos de almacenamiento de memoria. Las tareas realizadas por los programas y módulos se describen más adelante y con la ayuda de los dibujos. Aquellos expertos en la técnica pueden implementar la descripción y dibujos como instrucciones ejecutables por procesador, las cuales pueden ser escritas en cualquier forma de un medio legible por computadora. Con referencia a la Figura 5, los componentes de la computadora 120 pueden incluir, pero no se limitan a, una unidad de procesamiento 140, una memoria de sistema 150 y una barra colectora de sistema 141 que acopla varios componentes de sistema, incluyendo la memoria de sistema a la unidad de procesamiento 140. La barra colectora de sistema 141 puede ser cualquiera de los varios tipos de estructuras de barra colectora incluyendo una barra colectora de memoria o controlador de memoria, una barra colectora periférica y una barra colectora local utilizando cualquiera de una variedad de arquitectura de barra colectora. A manera de ejemplo, y no de limitación, dichas arquitecturas incluyen Barra Colectora de Arquitectura Estándar de Industria (ISA), barra colectora Serial Universal (USD), barra colectora de Arquitectura de Microcanal (MCA), barra colectora de ISA mejorada (EISA), barra colectora local de asociación de estándares de electrónica de video (VESA), y la barra colectora de interconexión de componente periférico (PCI) también conocida como barra colectora de Mezanine. La computadora 120 típicamente incluye una variedad de medios legibles por computadora. Los medios legibles por computadora pueden ser cualquier medio disponible que pueda ser accesado por la computadora 120 e incluya medios tanto volátiles como no volátiles, medios removibles y no removibles. A manera de ejemplo, y no de limitación, los medios legibles por computadora pueden comprender medios de almacenamiento por computadora y medios de comunicación. Los medios de almacenamiento por computadora incluyen medios tanto volátiles como no volátiles, removibles como no removibles, implementados en cualquier método o tecnología para el almacenamiento de información, tal como instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos. Los medios de almacenamiento por computadora incluyen, pero no se limitan a RAM, ROM, EEPROM, memoria flash u otra tecnología de memoria, CDROM, discos versátiles digitales (DVD) u otro almacenamiento de disco óptico, casetes magnéticos, cinta magnética, almacenamiento en disco magnético u otros dispositivos de almacenamiento magnético, o cualquier otro medio que pueda ser utilizado para almacenar la información deseada y el cual pueda ser accesado por la computadora 120. Los medios de comunicación típicamente modalizan instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos en una señal de datos modulada tal como una onda portadora u otro mecanismo de transporte e incluye cualquier medio de suministro de información. El término "señal de datos modulada" significa una señal que tiene una o más de sus características fijadas o cambiadas de tal manera que codifique información en la señal. A manera de ejemplo, y no de limitación, los medios de comunicación incluyen medios mediante cables tales como una red medíante cables o una conexión de cables directos, y medios inalámbricos tales como medios acústicos, FR, infrarrojos y otros medios inalámbricos. Las combinaciones de cualquiera de los anteriores también deben ser incluidas dentro del alcance del medio legible por computadora. La memoria de sistema 150 incluye medios de almacenamiento por computadora en la forma de memoria volátil y/o no volátil tal como memoria de solo lectura (ROM) 151 y memoria de acceso aleatorio (RAM) 152. Un sistema básico de entrada/salida 153 (BIOS), conteniendo las rutinas básicas que ayudan a transferir información entre elementos dentro de la computadora 120, tal como durante el arranque, típicamente se almacena en la ROM 151. La RAM 152 típicamente contiene datos y/o módulos de programa que son inmediatamente accesibles y/o en realidad son operados en una unidad de procesamiento 140. A manera de ejemplo, y no de limitación, la Figura 5 ilustra un sistema operativo 154, programas de aplicación 155, otros módulos de programa 156 y datos de programa 157. La computadora 120 también puede incluir otros medios de almacenamiento por computadora removibles/no removibles, volátiles/no volátiles. A manera de ejemplo solamente, la Figura 5 ilustra una unidad de disco duro 161 que lee de o escribe a medios magnéticos no removibles, no volátiles, una unidad de disco magnético 171 que lee o escribe a un disco magnético removible, no volátil 172, y una unidad de disco óptico 175 que lee de o escribe a un disco óptico removible, no volátil 176, tal como un CD ROM u otros medios ópticos. Otros medios de almacenamiento por computadora removibles/no removibles, volátiles/no volátiles que pueden ser utilizados en el ambiente ilustrativo de operación incluyen, pero no se limitan, casetes de cinta magnética, tarjetas de memoria flash, discos versátiles digitales, cinta de vídeo digital, RAM de esta sólido, ROM de estado sólido, y similares. La unidad de disco duro 161 típicamente está conectada a la barra colectora 141 del sistema a través de una interfase de memoria no removible tal como la interfase 160, y la unidad de disco magnético 171 y la unidad de disco óptico 175 típicamente están conectadas a la barra colectora 141 del sistema a través de una interfase de memoria removible, tal como la interfase 170. Las unidades y sus medios de almacenamiento por computadora asociados discutidos anteriormente, e ilustrados en la Figura 5, proporcionan almacenamiento de instrucciones legibles por computadora, estructuras de datos, módulos de programa y otros datos para la computadora 120. En la Figura 5, la unidad de disco duro 161 se ilustra almacenando el sistema operativo 164, programas de aplicación 165, otros módulos de programa 166, y datos de programa 167. Observar que estos componentes pueden ser ya sea iguales o diferentes del sistema operativo 154, programas de aplicación 155, otros módulos de programa 156 y datos de programa 157. El sistema operativo 164, programas de aplicación 165, otros módulos de programa 166, y datos de programa 167 se les proporcionan números diferentes datos aquí para ilustrar que, a un mínimo, son diferentes copias. Un usuario puede introducir comandos e información a la computadora 120 a través de dispositivos de entrada tales como un teclado 182, un micrófono 183, y un dispositivo de señalamiento 181, tal como un ratón, bola rodante o almohadilla táctil. Otros dispositivos de entrada (no mostrados) pueden incluir una palanca de mando, una almohadilla de juegos, una antena de satélite, un explorador, o similares. Estos y otros dispositivos de entrada por lo regular están conectados a la unidad de procesamiento 140 a través de una interfase de entrada de usuario 180 que está acoplada a la barra colectora del sistema, pero puede estar conectada a través de otras estructuras de interfase de barra colectora, tal como un puerto paralelo, puerto de juegos, o una barra colectora serial universal (USB). Un monitor 184 u otro tipo de dispositivo de presentación también está conectado a la barra colectora 141 del sistema a través de una interfase tal como una interfase de vídeo 185. Además del monitor, las computadoras también pueden incluir otros dispositivos de salida periféricos tales como bocinas 187 e impresoras 186, que pueden ser conectadas a través de una interfase periférica de salida 188. La computadora 120 puede operar en un ambiente en red utilizando conexiones lógicas a una o más computadoras remotas, tales como una computadora remota 194. La computadora remota 194 puede ser una computadora personal, un dispositivo portátil, un servidor, un enrutador, una PC de red, un dispositivo de par en par u otro nodo de red común, típicamente incluye muchos o todos los elementos descritos anteriormente con relación a la computadora 120. Las conexiones lógicas ilustradas en la Figura 5 incluyen una red de área local (LAN) 191 y una red de área amplia (WAN) 193, pero también pueden incluir otras redes. Dichos ambientes en red son lugares comunes en oficinas, redes en computadora en empresas, intranets e Internet. Cuando se utiliza en un ambiente en red de LAN, la computadora 120 está conectada a la LAN 191 a través de una interfase de red o adaptador 190. Cuando se utiliza en un ambiente en red de WAN, la computadora 120 típicamente incluye un módem 192 u otros medios para establecer comunicaciones a través de la WAN 193, tal como el Internet. El módem 192, el cual puede ser interno o externo, puede ser conectado a la barra colectora 141 del sistema a través de la interfase de entrada de usuario 180, u otro mecanismo apropiado. En un ambiente en red, los módulos de programa ilustrados con relación a la computadora 120, o sus porciones, pueden ser almacenados en el dispositivo de almacenamiento de memoria remoto. A manera de ejemplo, y no de limitación, la Figura 5 ilustra programas de aplicación remotos 195 residentes en una computadora remota 194. Se apreciará que las conexiones de red mostradas son ilustrativas y que se pueden utilizar otros medios para establecer un enlace de comunicaciones entre las computadoras. La Figura 6 ilustra la arquitectura 200 para un reconocimiento a base de web y presentación o ejecución de datos, que es un ambiente ilustrativo para la presente invención. En general, la información almacenada en un servidor web 202 puede ser accesada a través de un cliente 100 tal como un dispositivo móvil 30 o computadora 120 (la cual aquí representa otras formas de dispositivos de cómputo teniendo una pantalla de presentación, un micrófono, una cámara, un panel sensible al tacto, etc., según requerido basándose en la forma de la entrada), o través del teléfono 80, en donde la información es solicitada en forma audible o a través de tonos generados por el teléfono 80 en respuesta a teclas oprimidas, en donde la información del servidor web 202 está provista solo en forma audible de regreso al usuario. En esta modalidad, la arquitectura 200 está no definida ya que si la información se obtiene a través del cliente 100 o el teléfono 80 utilizando el reconocimiento de lenguaje o habla, un solo servidor de reconocimiento 204 puede soportar cualquier modo de operación. Además, la arquitectura 200 opera utilizando una extensión de los lenguajes de marcación bien conocidos (por ejemplo, HTML, XHTML, cHTML, XML, WML, y similares). De esta manera, la información almacenada en el servidor web 202 también puede ser accesada utilizando cualquiera de los métodos de GUI bien conocidos encontrados en estos lenguajes de marcación. A utilizar una extensión de los lenguajes de marcación bien conocidos, la autorización en el servidor web 202 es más fácil, y las aplicaciones de legalidad actualmente existentes también pueden ser fácilmente modificadas para incluir reconocimiento de voz. En general, el cliente 100 ejecuta páginas HTML, manuscritos, o similares, generalmente indicados en 206, provistos por el servidor web 202 utilizando un navegador. Cuando se requiere reconocimiento de voz, a manera de ejemplo, los datos de lenguaje o habla, los cuales pueden ser señales de audio digitalizadas o características de lenguaje, en donde las señales de audio han sido pre-procesadas por el cliente 100 como se describió anteriormente, son provistas al servidor de reconocimiento 204 con una indicación de un modelo de gramática o lenguaje 220 para utilizarse durante el reconocimiento de lenguaje o habla, que puede ser provisto por el cliente 100.
Alternativamente, el servidor de lenguaje o habla 204 puede incluir el modelo de lenguaje 220. La implementación del servidor de reconocimiento 204 puede tomar cualquier forma, una de las cuales se ilustra, pero generalmente incluye un reconocedor 211. Los resultados del reconocimiento son provistos de regreso al cliente 100 para la presentación local si se desea o es apropiado. Si se desea, se puede utilizar el módulo de texto al lenguaje 222 para proporcionar texto hablado al cliente 100. Después de la compilación de la información a través del reconocimiento y de cualquier interfase de usuario gráfica si se utiliza, el cliente 100 envía la información al servidor web 202 para procesamiento adicional y recepción de páginas HTML/manuscritos adicionales, si es necesario.
Como se ilustra en la Figura 6, el cliente 100, el servidor web 202 y el servidor de reconocimiento 204 están conectados comúnmente, y pueden estar dirigidos en forma separada, a través de una red 205, aquí una red de área amplia tal como el Internet. Por lo tanto, no es necesario que ninguno de estos dispositivos esté físicamente localizado adyacente entre sí. En particular, no es necesario que el servidor web 202 incluya un servidor de reconocimiento 204. De esta manera, la autorización en el servidor web 202 puede ser enfocada en la aplicación a la cual está destinada sin que los autores necesiten saber las complejidades del servidor de reconocimiento 204. Más bien, el servidor de reconocimiento 204 puede ser independientemente diseñado y conectado a la red 205, y de esta manera, puede ser actualizado mejorado sin cambios adicionales requeridos en el servidor web 202. El servidor web 202 también puede incluir un mecanismo de autorización que puede generar dinámicamente marcaciones y manuscritos del lado del cliente. En una modalidad adicional, el servidor web 202, el servidor de reconocimiento 204 y el cliente 100 puede combinarse dependiendo de las capacidades de las máquinas de implementación. Por ejemplo, si el cliente 100 comprende una computadora de propósito general, por ejemplo, una computadora personal, el cliente puede incluir el servidor de reconocimiento 204. Asimismo, si se desea, el servidor web 202 y el servidor de reconocimiento 204 pueden ser incorporados en una sola máquina. El acceso al servidor web 202 a través del teléfono 80 incluye la conexión del teléfono 80 a una red telefónica con cables o inalámbrica 208, que a su vez, conecta el teléfono 80 a una compuerta 210 de terceras partes. La compuesta 210 conecta el teléfono 80 a un navegador de voz de telefonía 212. El navegador de voz de telefonía 212 incluye un servidor de medios 214 que proporciona una interfase de telefonía y un navegador de voz 216. Como el cliente 100, el navegador de voz de telefonía 212 recibe páginas HTML/manuscritos o similares del servidor web 202. En una modalidad, las páginas HTML/manuscritos son de la forma similar a las páginas HTML/manuscritos provistas al cliente 100. De esta manera, el servidor web 202 no necesita soportar al cliente 100 y al teléfono 80 en forma separada, o aún soportar a clientes de GUI estándares en forma separada. Más bien, se puede utilizar un lenguaje de marcación común. Además, como el cliente 100, el reconocimiento de voz de señales audibles transmitidas por el teléfono 80 se proporciona del navegador de voz 216 al servidor de reconocimiento 204, ya sea a través de la red 205, o a través de la linea dedicada 207, por ejemplo, utilizando TCP/IP. El servidor web 202, el servidor de reconocimiento 204 y el navegador de voz de teléfono 212 pueden ser modalizados en cualquier ambiente de cómputo adecuado tal como la computadora de escritorio de propósito general ilustrada en la Figura 5. Habiendo descrito varias modalidades y arquitecturas que funcionan en el sistema 10, se proporciona una descripción más detalla de los varios componentes y la función del sistema 10. La Figura 7 ilustra un diagrama de bloque del módulo de reconocimiento de lenguaje y entendimiento 14. El lenguaje o habla de entrada recibido del módulo de interfase de lenguaje 12 es enviado al módulo de reconocimiento y entendimiento del lenguaje 14. El módulo de reconocimiento y entendimiento del lenguaje 14 incluye un motor de reconocimiento 306, el cual tiene un modelo de lenguaje asociado 310. El motor de reconocimiento 306 utiliza el modelo de lenguaje 310 para identificar posibles estructuras de semántica de superficie para representar cada una de las frases que forman la entrada, proporcionando análisis semánticos parciales u objetos a medida que la entrada es recibida. A diferencia de los sistemas que esperan a que el usuario complete la declaración y después procese la entrada completa recibida, el módulo 14 continuamente proporciona objetos semánticos basándose solamente en lo que ha recibido. El motor de reconocimiento 306 proporciona por lo menos un objeto de salida semántico de superficie basándose en la declaración parcial. En algunas modalidades, el motor de reconocimiento 306 es capaz de proporcionar más de un objeto de semántica de superficie alternativo para cada estructura alternativa. Aunque ilustrado en la Figura 7, en donde se proporciona la entrada de lenguaje o habla la presente invención puede ser utilizada con reconocimiento de escritura, reconocimiento de ejemplos o interfases de usuario gráficas (en donde el usuario interactúa como un teclado u otro dispositivo de entrada). En estas otras modalidades, el reconocedor de lenguaje o habla 306 es reemplazado por un motor de reconocimiento adecuado como es conocido en la técnica. Para interfases de usuario gráficas, una gramática (teniendo el modelo de lenguaje) está asociada con la entrada el usuario tal como a través de una caja de entrada. Por consiguiente, la entrada de un usuario es procesada en una forma consistente sin modificación importante basándose en la forma de la entrada. El diálogo interactivo discutido anteriormente, el cual también incluye otras formas de realimentación informativa a través del sistema 10 basándose en análisis semánticos parciales u objetos, puede ser implementado utilizando SALT (Etiquetas de Lenguaje de Aplicación del Habla, según sus siglas en inglés) u otro lenguaje o habla, escritura, y APIs de reconocimiento de patrón (Interfases de Programa de Aplicación) que soportan una construcción de modelo de lenguaje que puede proporcionar información semántica basándose en un esquema seleccionado para una aplicación dada y descodificación sincrónica del objeto semántico. La SALT es un estándar en desarrollo para permitir el acceso a información, aplicaciones y servicios de web a partir de computadoras personales, teléfonos, PCs de tableta, y dispositivos móviles inalámbricos, por ejemplo, pero también puede ser aplicada a interfases de aplicación así como sin interconexión a través de una red. SALT extiende lenguajes de marcación existentes tales como HTML, XHTML y XML. La especificación de SALT 1.0 puede ser encontrada en linea en http://www.SALTforum.org. Se debe observar que SALT puede proporcionar información semántica basándose en la entrada del usuario, por ejemplo, del servidor de lenguaje o habla 204, en donde dicha información forma los objetos provistos al módulo de ejecución o presentación de datos 16 después de completar una declaración; sin embargo, como se discute más adelante, SALT puede ser utilizado en una forma no previamente contemplada para proporcionar análisis semánticos parciales u objetos. El uso de extensiones de SALT, o extensiones similares en otras APIs, proporciona soporte para la interacción del usuario dirigida por un evento altamente interactivo. Al utilizar SALT a manera de ejemplo, se puede utilizar el objeto escuchar de SALT para realizar tareas tanto de reconocimiento como de entendimiento de lenguaje. Esto es porque el diseño sigue el punto de vista y formulación que trata al entendimiento de lenguaje o habla como un problema de reconocimiento de patrón, justo como el reconocimiento del habla o lenguaje. Ambos insisten en encontrar un patrón de una colección de posibles resultados que mejor coincida con una señal de lenguaje o habla dada. Para el reconocimiento de lenguaje o habla, el patrón que será encontrado es una cadena de palabras mientras que, para el entendimiento, es un árbol de objetos semánticos. Una tarea de reconocimiento de lenguaje tradicional instruye al proceso de búsqueda con un modelo de lenguaje en la forma de cadenas o tiras de palabras. En una forma similar, una tarea de entendimiento de lenguaje puede guiar al mismo motor de búsqueda para formar los árboles de objeto semántico adecuados como un modelo semántico. Como un modelo de lenguaje que por lo regular implica un léxico y las reglas de formar segmentos de frase de las entradas del léxico, un modelo semántico implica un diccionario de todos los objetos semánticos y las reglas que lo componen. Aunque el resultado de reconocimiento es una cadena de texto, el resultado de entendimiento es un árbol de objetos semánticos. Aunque es posible extender N-gramática para regresar un resultado de búsqueda estructurado, las aplicaciones de entendimiento de lenguaje o habla más típicas se basan en la gramática libre de contexto probabilistica (PCFG), en donde los diseñadores pueden especificar reglas de la composición de objetos semánticos sin datos de entrenamiento anotados de banco de árbol masivos. Un método para especificar dichas reglas es asociar cada regla de PCFG con directivos de producción para el motor de búsqueda sobre cómo transformar el árbol de análisis de PCFG parcial a un árbol de objeto semántico. Un ejemplo escrito en un formato de Interfase de aplicación de lenguaje de Microsoft (SAPI) (el cual también es un ejemplo de una API de lenguaje que puede ser utilizada en la presente invención) se muestra a continuación: <nombre regla = "nyc"> <lista> <fase>nueva york ? ciudad</fase> <fase> ?la gran manzana </fase> </lista> <salida> <ciudad_ubicación> <ciudad>Nueva York </ciudad> <estado>nueva york </estado> <país>EUA</pais> </ciuidad_ubicación> </salida> </regla> <regla nombre = "nueva junta"> <reglaref min = "0" nombre = "FrasePortador > <reglaref max = "inf" nombre = "PropiedadApt"/> <salida> <Nueva Junta> <FechaHora> <xsl:aplicar- seleccionar p I a n t i 11 a s = "//Fecha"/> <xsl:aplicar- seleccionar planti llas= "//Hora"/> <xsl:aplicar- seleccionar plantillas^ "//Duración"/> </Fecha Hora> <lnvitados> <xsl:apl ¡car- seleccionar plantillas= "//Persona"/> </lnvitados> </NuevaJunta> </salida> </regla> <nombre regla = "Propiedad Apt < I ista > <reglaref nombre = "Fecha7> <reglaref nombre = "Duración' '/> <reglaref nombre = "Hora7> <reglaref nombre = "Persona" max <reglaref nombre = "AptSujeto7> </lista> </regla> El segmento de gramática contiene tres reglas. La primera, una pre-terminal denominada "nyc" lista las expresiones para la ciudad de Nueva York. Las etiquetas <salida> en este ejemplo abarcan las reglas para la construcción de objetos semánticos. Se invocan cuando la trayectoria de búsqueda sale del nodo de gramática denotado por la señal inmediatamente que le precede. En el caso, un objeto semántico, representado en XML con un elemento de <ubicación_ciudad> , se crea cuando una trayectoria de búsqueda sale de la regla "nyc". Este objeto de semántica a su vez está compuesto de tres objetos de semántica: las abreviaturas para el nombre de ciudad, estado y nombre de país, respectivamente. La composición de objetos semánticos también puede ser un procedimiento dinámico, por ejemplo, en la programación de una nueva junta. Por ejemplo, un objeto semántico de Nueva Junta será producido cuando el usuario termine la especificación de las propiedades de la junta tales como fecha, hora, duración y asistentes. Se puede utilizar plantillas para pegar otros objetos semánticos como constituyentes en el objeto semántico de Nueva Junta. El mismo principio también puede ser aplicado a otras reglas no mostradas aquí. Como un ejemplo, una determinación "programar una junta con Li Deng y Alex Acero el 1o. de enero a primera hora" dará como resultado el siguiente objeto semántico: <NuevaJunta> <FechaHora> <Fecha>01/01/2003</Fecha> <Durac¡ón>3600</Duración> </FechaHora> <lnvitados> <Persona>Li Deng</Persona> <Persona>Alex Acero</persona> </lnvitados> </NuevaJunta> En aplicaciones reales, la cobertura de PCFG mejorada es una tarea intimidada. Por lo tanto, es deseable poder utilizar un N-grama para modelar, entre otras cosas, frases funcionales que no lleven información semántica crítica pero usualmente tengan variaciones de capacidad de tamaño en la estructura sintáctica (por ejemplo, "puedo", "me puede enseñar "por favor me muestra ..."). En una modalidad, el modelo de lenguaje 310 comprende un modelo de lenguaje semántico que combina PCFG con N-grama. La técnica es ligeramente diferente de un modelo de lenguaje unificado, el cual también puede ser utilizado. El modelo de lenguaje unificado es una extensión natural a la clase convencional N-grama, excepto que permite que fragmentos de CFG, no solo una lista de palabras, sean modelados como una señal individual en el N-grama. El reconocedor 306 que utiliza este modelo sigue produciendo una cadena de texto que tiene que ser subsecuentemente analizada. El modelo de lenguaje unificado de esta manera está diseñado para incorporar cierta estructura lingüística para ayudar a la transcripción de texto. El modelo de lenguaje semántico, por otro lado, tiene por objeto utilizar el descodif icador o reconocedor para buscar la estructura semántica, que usualmente se captura mejor a través de PCFG. Por lo tanto, en lugar de modernizar fragmentos CFG a N-grama, el PCFG se utiliza para contener N-grama creando una pre-terminal de PCFG especial que corresponde a un N-grama de intereses. En el formato de gramática de SAPI de Microsoft, esto puede ser denotado utilizando una pre-terminal con una etiqueta de <dictado> de XML, como en: LCFG <dictado max = "inf"/> RCFG en donde LCFG y RCFG denotan el contexto izquierdo y derecho del N-grama embebido, respectivamente. El procedimiento de búsqueda trata la etiqueta de <dictado> como una señal y la expande al N-grama como si entrara a una no terminal regular. El atributo máximo en la etiqueta especifica el número máximo de palabras que pueden ser consumidas por el N-grama. Dentro de este N-grama, la probabilidad de cadena de palabras es calculada interpolando el N-grama de retroceso con el PCFG, más específicamente: P(wn | wn-i,wn -2.... ) = ??(??? | Ngrama, w„.,, wn-2,...) + (1-??(??? | RCFG)P(RCFG | wn-1, wn-2,...) (1) en donde ? es el peso de interpolación de N-grama y P(RCFG | wn. !,...) utiliza la probabilidad de retroceso del N-grama, es decir, wn se trata como si fuera una salida de la palabra de vocabulario. En una modalidad, el término P(wn | RCFG) asume solamente el valor binario dependiendo de que si el tamaño de cadena de palabra de N-grama máximo es alcanzado y la palabra está en la cobertura del fragmento CFG o no. Ya que las palabras trazadas de PCFG por lo regular tienen una probabilidad más alta, las trayectorias que realmente pertenecen a lo que va a ser cubierto por CFG tienden a ganar sus contrapartes de N-grama a un cuando la cuenta máxima de palabra de N-grama se fije en infinito. Además de frases funcionales, el N-grama embebido también puede ser utilizado para modelar objetos semánticos con un dictado tipo propiedad. Por ejemplo, el tema de junta se modela en una tarea como: <regla nombre = "AptSujeto" <dictado max = "inf'7> </p> Otros detalles con respecto al modelo de lenguaje semántico se describen por K. Wang, "Semantic modeling for dialog systems in a pattern recognition framework", in Proc. AZUR-2002, Trento Italia, 2001, la cual se incorpora aquí por referencia en su totalidad. Un aspecto más de la presente invención incluye el nuevo uso del objeto escuchar de SALT. SALT proporciona un grupo de elementos XML, con atributos asociados y propiedades de objeto DOM eventos y modelos, los cuales pueden ser utilizados junto con un documento de marcación de fuente para aplicar una interfase de lenguaje a una página fuente. En general, los elementos principales incluye: <¡ncitar...> para configuración de síntesis de lenguaje e incitar reproducción <escuchar...> para configuración de reconocedor de lenguaje, ejecución de reconocimiento y procesamiento posterior y grabación <dtmf...> para configuración y control de DTMF <smex...> para comunicación de propósito general con componente de plataforma Los objetos escuchar y dtmf también contienen controles de gramática y de unión: <gramática ...> para especificar recursos de gramática de entrada <unir ...> para procesar resultados de reconocimiento El elemento escuchar puede incluir un atributo de "modo" para distinguir tres modos de reconocimiento, los cuales instruyen al servidor de reconocimiento (por ejemplo, 204) como y cuando regresar los resultados. El regreso de resultados implica proporcionar el evento "onReco" o activar los elementos de "unir" según sea apropiado. En un primer modo, "automático", la plataforma de lenguaje o de habla, en lugar de la aplicación, está en control de cuando detener el procedimiento de reconocimiento. Este modo ha sido avanzado para telefonía o escenarios a manos libres. Tan pronto quede disponible un resultado de reconocimiento, y/o cuando un periodo de tiempo haya transcurrido indicando silencio, la plataforma de lenguaje o habla automáticamente retiene el reconocedor y regresa a su resultado, el cual después puede ser asociado con el campo apropiado a través del elemento de unión. En un segundo modo de operación, "individual", el regreso de un resultado de reconocimiento está bajo el control de una llamada explícita de "detener". La llamada de detener puede corresponder a un evento tal como "encerrado" por el usuario, y este modo es avanzado para ser utilizado en un ambiente multimodal en donde el dispositivo permite la entrada de lenguaje o habla, pero el usuario generalmente está bajo el control del cual y cuando selecciona campos, por ejemplo, a través del uso del estilete 33 (Figura 1). Un tercer modo de operación del reconocedor de lenguaje es un "modo múltiple". Este modo de operación se utiliza para un "micrófono abierto" o en un escenario de dictado. En general, en este modo de operación, los resultados del reconocimiento son regresados a intervalos hasta que se recibe una llamada de detención explícita o los otros periodos de tiempo asociados con una entrada no reconocida o un tiempo máximo para escuchar, son excedidos. En general, en este modo de operación, para cada frase que es reconocida, se emite un evento de "OnReco" y el resultado es regresado hasta que se recibe la llamada de detención (). Sin embargo, este modo de operación, como otro aspecto de la presente invención, puede proporcionar un medio para que los motores de búsqueda expongan capacidades más interactivas a los usuarios permitiéndoles reportar de inmediato cada vez que se alcanza una marca lingüística saliente. Son bien conocidos los algoritmos de búsqueda que se basan en descodificación sincrónica con el tiempo y se pueden emplear para este modo en una forma directa. Uno de estos algoritmos se describe por H. Ney, S. Ortmanns, "Dynamic programming search for continuous speech recognition", IEE Signal Processing Magazine, pág. 64-83, 1999. Para reconocimiento de lenguaje o habla, la marca lingüística usualmente corresponde a una palabra a un límite de frase. Un reconocimiento de modo múltiple de SALT de esta manera se puede utilizar para presentar dinámicamente las hipótesis de cadena de palabras en cuanto estén disponibles, un efecto Ul comúnmente visto en muchos software de dictado comercial. Sin embargo, en la presente invención, el modo múltiple puede tratar las instancias de objetos semánticos como marcas lingüísticas y reporte, es decir, proporcionar cierta respuesta como una función de los que se entendió, de regreso a la aplicación en ellos en una forma dinámica también. Esto aparece al diseñador de aplicación como si SALT estuviera realizando un entendimiento sincrónico de objeto semántico. Este modo de operación puede ser mejor entendido comparándolo con un escenario multimodal. En el escenario multimodal un usuario indica un campo, por ejemplo, señalando y manteniendo el estilete en un campo de entrada mientras se está hablando. Aunque el usuario puede derivar sobre un campo genérico y declarar una oración elaborada para llenar muchos campos en la oración individual, la interferencia de ahusamiento y habla sin embargo acopla los ojos y las manos del usuario, un esquema no apropiado para muchas situaciones. Además, aunque la derivación y el habla caracterizan una comunicación de canal de regreso rica que presenta el volumen y una barra de progreso del procedimiento de lenguaje hablado subyacente, aquellas realimentaciones proporcionan solamente claves muy primitivas de la calidad del procesamiento de lenguaje hablado en términos de velocidad y exactitud. Esto puede ser potencialmente más problemático para oraciones más largas, en donde se pueden propagar errores a un campo más amplio que finalmente requiere de más esfuerzos para verificar y corregir meramente los resultados de reconocimiento y entendimiento. Ya que los estudios de capacidad de uso parecen indicar que las oraciones largas son un factor de diferenciación de clave que demuestra la utilidad del lenguaje o habla, como más que una mejora de teclado o alternativa, es absolutamente necesaria une experiencia de Ul que quede satisfecha para el éxito de utilizar el lenguaje o habla con una modalidad viable. Con el fin de promover la percepción del humano-computadora como patrones estrechamente colaboradores para lograr un objetivo común, el entendimiento sincrónico de objeto semántico, reportando los análisis semánticos parciales u objetos siempre que estén disponibles, es efectivo. En una modalidad, esto se logra utilizando el modo múltiple del elemento de escuchar el SALT. En particular, para el elemento de escuchar, se designa un modo múltiple y todas las gramáticas de reconocimiento después se satisfacen para que el lenguaje de entrada sea reconocido. La asignación de resultados también se especifica en el objeto de escuchar. Por ejemplo, el código de entrada de HTML para adquirir información necesaria, tal como fecha, hora, ubicación, tema, y invitados a la junta, etc., para una nueva junta puede tomar la forma de <escuchar modo = "múltiple" ...> <gramática src = "sujeto. grm"/> <gramática src = "fecha. grm"/> <gramática src = "hora_duración.grm'7> <gramática src = "asistentes. grm"/> < u n i r Elementoobjetivo = "sujeto" valor = "//AptSujeto"/> <unir Elementoobjetivo = "fecha" valor = 7/FechaHora7> <unir Elementoobjetivo = "hora_inicio" valor = 7/hora_inic¡o" elementoobjetivo = "hora_término" valor = "//hora_término" Elementoobjetivo = "duración" Valor = //FechaHora / duración7> </escuchar> Las múltiples gramáticas componen un espacio de búsqueda paralelo para el reconocimiento con un lazo de transición nulo de regreso al punto de entrada. En este modo, SALT permite que el objeto escuchar incremente un evento siempre que se produzca una gramática. El evento ataca un procedimiento paralelo para invocar a los directivos de unión en secuencia mientras se está presentando la recolección y reconocimiento de audio subyacente, creando así el efecto para el usuario de que campos importantes en la forma están siendo llenados mientras un comando hablado sigue siendo determinado para una aplicación que tiene una ejecución o presentación visual de campos. La interfase de usuario para aplicaciones libres de ojos, se pueden desear salidas de lenguaje acompañadas. En este caso, se puede utilizar objetos de incitar SALT para proporcionar realimentaciones inmediatas. Por ejemplo, el objeto incitar de SALT siguiente puede ser utilizado para sincronizar respuestas basándose en los contenidos dinámicos de campo de fechas, y la síntesis del lenguaje puede ser activada con directivos de unión de SALT adicionales, como sigue: < incitar id = "decir_fecha"> en <valor Elementoobjetivo = "fecha"/> </iniciar> <escuchar ... > <unir Elementoobjetivo = "fecha" valor = "//fecha Elementoobjetivo = "decir_fecha" Métodoobjetivo = "lnicio"/> </escuchar> El efecto neto es que el usuario siente como si estuviera hablando con otra parte que no solamente anotan sino que repite lo que escuchan, como en "programar una junta (nueva junta) a las dos (empezando a las dos PM) el siguiente martes (el 10/29/02) durante 2 horas (duración: 2 horas)", en donde las frases provistas (representan los indicadores audibles y/o visuales (los cuales también pueden estar sincronizados) de regreso al usuario. Se debe observar que SALT permite que los diseñadores unan manejadores de evento de reconocimiento adaptados que realicen cómputos sofisticados más allá de las simples asignaciones como con los directivos de unión de SALT. En el ejemplo anterior, la normalización de fecha puede lograrse en la gramática semántica que, sin embargo, no puede facilitar una resolución de referencia avanzada (por ejemplo, "programar una junta con Li Deng y su administrador"). Para tales casos, se pueden implementar algoritmos como objetos de manuscrito accesibles a manejadores de evento apropiados para tener acceso a datos almacenados para determinar referencias indefinidas. Dicho algoritmos se describen por K. Wang, "A plan based dialog system with probabilistic interferences", en Proc. ICSLP-2000, Beijing China, 2000, y la solicitud de patente Europea EP 1199630A2, publicada el 24 de abril del 2002, las cuales se incorporan aquí por referencia en su totalidad. Se debe observar que aunque la operación de modo múltiple existió para el objeto escuchar, en implementaciones actuales, este modo proporciona solamente texto para la entrada recibida tal como en el escenario de dictado. Sin embargo, en este aspecto de la presente invención, los resultados parciales como entrada que están siendo recibidos no son solamente el texto, sino que también incluyen la información de semántica correspondiente que pertenece al texto, y de esta manera la salida comprende análisis semánticos parciales u objetos, que se pueden utilizar como se describe anteriormente para proporcionar al usuario una realimentación con más calidad de que la computadora ha entendido con propiedad lo que ha recibido. Dependiendo de la sofisticación de la aplicación que recibe los análisis semánticos parciales u objetos, el sistema puede proporcionar de regreso al usuario confirmaciones, alternativas, correcciones y aclaraciones basándose en los análisis semánticos parciales recibidos. Aunque en aplicaciones multimodales se sabe incluir múltiples gramáticas para permitir que el usuario hable, y de esta manera, proporcionan la habilidad de proveer información que no ha sido indicada, utilizando el elemento escuchar en la operación de modo múltiples puede ser mejor, ya que proporciona al usuario una indicación superior de entendimiento. En una aplicación de solo voz, una forma natural de diálogo es generada, mientras que si se emplean ejecuciones o presentaciones visuales, una aplicación puede comenzar a procesarse (tomando acciones, presentando resultados u opciones, por ejemplo, a través de ventanas de menú de desplazamiento) basándose solamente en los análisis semánticos parciales de lo que el usuario ya ha provisto y mientras el usuario sigue hablando. Aunque la presente invención ha sido descrita con referencia a modalidades particulares, aquellos expertos en la técnica reconocerán que se pueden hacer cambios en la forma y detalla sin apartarse del espíritu y alcance de la invención.

Claims (10)

REIVINDICACIONES
1. - Un sistema de entendimiento de habla que comprende: un modelo de lenguaje comprendiendo una combinación de un modelo de lenguaje de N-grama y un modelo de lenguaje de gramática libre de contexto, el modelo de lenguaje almacena información con relación a palabras e información de semántica que será reconocida; un modelo adaptado para recibir una entrada por parte de un usuario y capturar la entrada para procesamiento, el modelo además estando adaptado para recibir interfases de programa de aplicación de SALT que pertenecen al reconocimiento de la entrada, el módulo configurado para procesar las interfases de programa de aplicación de SALT y la entrada para determinar cierta información semántica que pertenece a una primera porción de la entrada y producir un objeto semántico comprendiendo texto e información semántica para la primera porción accesando el modelo de lenguaje, en donde la realización de reconocimiento y producción de resultados del objeto semántico se realizan mientras la captura se continua para porciones subsecuentes de la entrada.
2. - El sistema de acuerdo con la reivindicación 1, en donde el modelo de lenguaje comprende un modelo de lenguaje unificado.
3. - El sistema de acuerdo con la reivindicación 1, en donde el modelo de lenguaje comprende un modelo de lenguaje semántico. 4.- El sistema de acuerdo con la reivindicación 1, 2 ó 3, en donde el módulo está adaptado para identificar un objeto de escuchar de SALT en un modo múltiple con el fin de realizar el reconocimiento y producir resultados del objeto semántico, mientras la captura continua para porciones subsecuentes de la entrada. 5.- El sistema de acuerdo con la reivindicación 4, en donde el módulo está adaptado para identificar objetos de gramática para definir un espacio de búsqueda del modelo de lenguaje. 6. - El sistema de acuerdo con la reivindicación 1, 2 ó 3, en donde el módulo está adaptado para identificar objetos de gramática para definir un espacio de búsqueda del modelo de lenguaje. 7. - Un medio legible por computadora que incluye instrucciones legibles por un dispositivo de cómputo que, cuando se implementan, hacen que el dispositivo de cómputo maneje información para realizar pasos, que comprende: recibir una entrada de un usuario y capturar la entrada para procesamiento; recibir interfases de programa de aplicación de SALT para identificar un modelo de lenguaje para realizar el reconocimiento y entendimiento, el modelo de lenguaje adaptado para proporcionar texto de entrada reconocida e información semántica para la entrada recibida; procesar la entrada accesando el modelo de lenguaje para realizar el reconocimiento en la entrada para determinar la información semántica que pertenece a una primera porción de la entrada y producir un objeto semántico que comprende texto de la entrada reconocida e información semántica para la primera porción, en donde la realización de reconocimiento y producción del objeto semántico se realizan mientras la captura continua para porciones subsecuentes de la entrada. 8. - El medio legible por computadora de acuerdo con la reivindicación 7, en donde el procesamiento incluye identificar un objeto de escuchar de SALT en un modo múltiple con el fin de realizar reconocimiento y producir el objeto semántico, mientras se continúa la captura para porciones subsecuentes de la entrada. 9. - El medio legible por computadora de acuerdo con la reivindicación 8, en donde la recepción de interfases de programa de aplicación de SALT incluye identificar objetos de gramática para definir un espacio de búsqueda del modelo de lenguaje. 10. - El medio legible por computadora de acuerdo con la reivindicación 7, en donde la recepción de interfases de programa de aplicación de SALT incluye identificar objetos de gramática para definir un espacio de búsqueda del modelo de lenguaje.
MXPA04005122A 2003-05-29 2004-05-28 Entendimiento sincronico de objeto semantico implementado con etiquetas de lenguaje de aplicacion del habla. MXPA04005122A (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/448,018 US7200559B2 (en) 2003-05-29 2003-05-29 Semantic object synchronous understanding implemented with speech application language tags

Publications (1)

Publication Number Publication Date
MXPA04005122A true MXPA04005122A (es) 2005-02-17

Family

ID=33131605

Family Applications (1)

Application Number Title Priority Date Filing Date
MXPA04005122A MXPA04005122A (es) 2003-05-29 2004-05-28 Entendimiento sincronico de objeto semantico implementado con etiquetas de lenguaje de aplicacion del habla.

Country Status (16)

Country Link
US (1) US7200559B2 (es)
EP (2) EP1970897A1 (es)
JP (1) JP4768970B2 (es)
KR (1) KR101042119B1 (es)
CN (1) CN100578614C (es)
AT (1) ATE398325T1 (es)
AU (1) AU2004201992B2 (es)
BR (1) BRPI0401850B1 (es)
CA (1) CA2467220C (es)
DE (1) DE602004014316D1 (es)
HK (1) HK1071466A1 (es)
MX (1) MXPA04005122A (es)
MY (1) MY142974A (es)
RU (1) RU2349969C2 (es)
TW (1) TWI376681B (es)
ZA (1) ZA200403492B (es)

Families Citing this family (249)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6630800A (en) * 1999-08-13 2001-03-13 Pixo, Inc. Methods and apparatuses for display and traversing of links in page character array
US8645137B2 (en) * 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US20110267263A1 (en) 2000-07-17 2011-11-03 Microsoft Corporation Changing input tolerances based on device movement
US7249018B2 (en) * 2001-01-12 2007-07-24 International Business Machines Corporation System and method for relating syntax and semantics for a conversational speech application
ITFI20010199A1 (it) * 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US20080313282A1 (en) 2002-09-10 2008-12-18 Warila Bruce W User interface, operating system and architecture
US7386449B2 (en) * 2002-12-11 2008-06-10 Voice Enabling Systems Technology Inc. Knowledge-based flexible natural speech dialogue system
US7426329B2 (en) 2003-03-06 2008-09-16 Microsoft Corporation Systems and methods for receiving, storing, and rendering digital video, music, and pictures on a personal media player
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
US7966188B2 (en) * 2003-05-20 2011-06-21 Nuance Communications, Inc. Method of enhancing voice interactions using visual messages
US8301436B2 (en) * 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
US7532196B2 (en) * 2003-10-30 2009-05-12 Microsoft Corporation Distributed sensing techniques for mobile devices
US8190419B1 (en) 2006-09-11 2012-05-29 WordRake Holdings, LLC Computer processes for analyzing and improving document readability
US7739117B2 (en) * 2004-09-20 2010-06-15 International Business Machines Corporation Method and system for voice-enabled autofill
US20060155530A1 (en) * 2004-12-14 2006-07-13 International Business Machines Corporation Method and apparatus for generation of text documents
TWI276046B (en) * 2005-02-18 2007-03-11 Delta Electronics Inc Distributed language processing system and method of transmitting medium information therefore
US20060247925A1 (en) * 2005-04-27 2006-11-02 International Business Machines Corporation Virtual push-to-talk
US20060277525A1 (en) * 2005-06-06 2006-12-07 Microsoft Corporation Lexical, grammatical, and semantic inference mechanisms
JP4733436B2 (ja) * 2005-06-07 2011-07-27 日本電信電話株式会社 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US7636794B2 (en) 2005-10-31 2009-12-22 Microsoft Corporation Distributed sensing techniques for mobile devices
US7817991B2 (en) * 2006-02-14 2010-10-19 Microsoft Corporation Dynamic interconnection of mobile devices
US7865357B2 (en) * 2006-03-14 2011-01-04 Microsoft Corporation Shareable filler model for grammar authoring
US8032375B2 (en) * 2006-03-17 2011-10-04 Microsoft Corporation Using generic predictive models for slot values in language modeling
US7752152B2 (en) * 2006-03-17 2010-07-06 Microsoft Corporation Using predictive user models for language modeling on a personal device with user behavior models based on statistical modeling
US20070239453A1 (en) * 2006-04-06 2007-10-11 Microsoft Corporation Augmenting context-free grammars with back-off grammars for processing out-of-grammar utterances
US7689420B2 (en) * 2006-04-06 2010-03-30 Microsoft Corporation Personalizing a context-free grammar using a dictation language model
US7505951B2 (en) * 2006-05-30 2009-03-17 Motorola, Inc. Hierarchical state machine generation for interaction management using goal specifications
US7797672B2 (en) * 2006-05-30 2010-09-14 Motorola, Inc. Statechart generation using frames
US7493293B2 (en) * 2006-05-31 2009-02-17 International Business Machines Corporation System and method for extracting entities of interest from text using n-gram models
US8140267B2 (en) * 2006-06-30 2012-03-20 International Business Machines Corporation System and method for identifying similar molecules
US8346555B2 (en) * 2006-08-22 2013-01-01 Nuance Communications, Inc. Automatic grammar tuning using statistical language model generation
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8073681B2 (en) * 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US8515733B2 (en) * 2006-10-18 2013-08-20 Calculemus B.V. Method, device, computer program and computer program product for processing linguistic data in accordance with a formalized natural language
ES2302640B1 (es) * 2006-12-21 2009-05-21 Juan Jose Bermudez Perez Sistema para la interaccion mediante voz en paginas web.
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US7912828B2 (en) * 2007-02-23 2011-03-22 Apple Inc. Pattern searching methods and apparatuses
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
ITFI20070177A1 (it) 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
US8074199B2 (en) * 2007-09-24 2011-12-06 Microsoft Corporation Unified messaging state machine
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8364694B2 (en) 2007-10-26 2013-01-29 Apple Inc. Search assistant for digital media assets
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US8370160B2 (en) * 2007-12-31 2013-02-05 Motorola Mobility Llc Methods and apparatus for implementing distributed multi-modal applications
US8386260B2 (en) * 2007-12-31 2013-02-26 Motorola Mobility Llc Methods and apparatus for implementing distributed multi-modal applications
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8327272B2 (en) 2008-01-06 2012-12-04 Apple Inc. Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US20100082328A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for speech preprocessing in text to speech synthesis
US8396714B2 (en) * 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8352272B2 (en) * 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8355919B2 (en) * 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US9424246B2 (en) 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
US9189472B2 (en) 2009-03-30 2015-11-17 Touchtype Limited System and method for inputting text into small screen devices
GB0905457D0 (en) 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
GB0917753D0 (en) 2009-10-09 2009-11-25 Touchtype Ltd System and method for inputting text into electronic devices
US10191654B2 (en) 2009-03-30 2019-01-29 Touchtype Limited System and method for inputting text into electronic devices
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US8412531B2 (en) * 2009-06-10 2013-04-02 Microsoft Corporation Touch anywhere to speak
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110010179A1 (en) * 2009-07-13 2011-01-13 Naik Devang K Voice synthesis and processing
KR20110036385A (ko) * 2009-10-01 2011-04-07 삼성전자주식회사 사용자 의도 분석 장치 및 방법
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9104670B2 (en) 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
TWI423044B (zh) * 2010-10-25 2014-01-11 Univ Nat Taiwan Science Tech 基於普及運算的意見交流方法與系統
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8983995B2 (en) * 2011-04-15 2015-03-17 Microsoft Corporation Interactive semantic query suggestion for content search
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US20130204619A1 (en) * 2012-02-03 2013-08-08 Kextil, Llc Systems and methods for voice-guided operations
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9294539B2 (en) 2013-03-14 2016-03-22 Microsoft Technology Licensing, Llc Cooperative federation of digital devices via proxemics and device micro-mobility
CN105190607B (zh) 2013-03-15 2018-11-30 苹果公司 通过智能数字助理的用户培训
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014168730A2 (en) 2013-03-15 2014-10-16 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
US9437186B1 (en) * 2013-06-19 2016-09-06 Amazon Technologies, Inc. Enhanced endpoint detection for speech recognition
US9123336B1 (en) * 2013-06-25 2015-09-01 Google Inc. Learning parsing rules and argument identification from crowdsourcing of proposed command inputs
US9026431B1 (en) * 2013-07-30 2015-05-05 Google Inc. Semantic parsing with multiple parsers
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9495359B1 (en) * 2013-08-21 2016-11-15 Athena Ann Smyros Textual geographical location processing
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US8868409B1 (en) 2014-01-16 2014-10-21 Google Inc. Evaluating transcriptions with a semantic parser
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9747896B2 (en) 2014-10-15 2017-08-29 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9836527B2 (en) * 2016-02-24 2017-12-05 Google Llc Customized query-action mappings for an offline grammar model
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
GB201610984D0 (en) 2016-06-23 2016-08-10 Microsoft Technology Licensing Llc Suppression of input images
US10503808B2 (en) 2016-07-15 2019-12-10 Sap Se Time user interface with intelligent text reduction
US10140260B2 (en) * 2016-07-15 2018-11-27 Sap Se Intelligent text reduction for graphical interface elements
CN107665706B (zh) * 2016-07-29 2021-05-04 科大讯飞股份有限公司 快速语音交互方法及系统
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
RU2648572C1 (ru) * 2017-01-12 2018-03-26 Общество с ограниченной ответственностью "Инвестиционная группа "Коперник" Алгоритм поиска в компьютерных системах и базах данных
US10311860B2 (en) * 2017-02-14 2019-06-04 Google Llc Language model biasing system
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
TWI640877B (zh) * 2017-06-14 2018-11-11 財團法人資訊工業策進會 語意分析裝置、方法及其電腦程式產品
US11037554B1 (en) * 2017-09-12 2021-06-15 Wells Fargo Bank, N.A. Network of domain knowledge based conversational agents
CN108010525A (zh) * 2017-12-07 2018-05-08 横琴七弦琴知识产权服务有限公司 一种语音控制智能抽屉系统
CN108133701B (zh) * 2017-12-25 2021-11-12 江苏木盟智能科技有限公司 一种机器人语音交互的系统与方法
CN109994105A (zh) * 2017-12-29 2019-07-09 宝马股份公司 信息输入方法、装置、系统、车辆以及可读存储介质
CN108831482A (zh) * 2018-08-24 2018-11-16 深圳市云采网络科技有限公司 一种基于语音识别搜索电子元器件的方法
US11430433B2 (en) * 2019-05-05 2022-08-30 Microsoft Technology Licensing, Llc Meeting-adapted language model for speech recognition
CN110379428A (zh) * 2019-07-16 2019-10-25 维沃移动通信有限公司 一种信息处理方法及终端设备
CN110619873A (zh) * 2019-08-16 2019-12-27 北京小米移动软件有限公司 音频处理方法、装置及存储介质
CN113223510B (zh) * 2020-01-21 2022-09-20 青岛海尔电冰箱有限公司 冰箱及其设备语音交互方法、计算机可读存储介质

Family Cites Families (119)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2981254A (en) * 1957-11-12 1961-04-25 Edwin G Vanderbilt Apparatus for the gas deflation of an animal's stomach
US3657744A (en) * 1970-05-08 1972-04-25 Univ Minnesota Method for fixing prosthetic implants in a living body
US3788327A (en) * 1971-03-30 1974-01-29 H Donowitz Surgical implant device
US3874388A (en) * 1973-02-12 1975-04-01 Ochsner Med Found Alton Shunt defect closure system
US4014318A (en) * 1973-08-20 1977-03-29 Dockum James M Circulatory assist device and system
US4086665A (en) * 1976-12-16 1978-05-02 Thermo Electron Corporation Artificial blood conduit
US4212463A (en) * 1978-02-17 1980-07-15 Pratt Enoch B Humane bleeder arrow
DE3019996A1 (de) * 1980-05-24 1981-12-03 Institute für Textil- und Faserforschung Stuttgart, 7410 Reutlingen Hohlorgan
US4808183A (en) * 1980-06-03 1989-02-28 University Of Iowa Research Foundation Voice button prosthesis and method for installing same
DE3583141D1 (de) * 1984-11-15 1991-07-11 Stefano Nazari Einrichtung zur selektiven bronchialintubation und getrennten lungenventilation.
ES8705239A1 (es) * 1984-12-05 1987-05-01 Medinvent Sa Un dispositivo para implantar,mediante insercion en un lugarde dificil acceso, una protesis sustancialmente tubular y radialmente expandible
US4759758A (en) * 1984-12-07 1988-07-26 Shlomo Gabbay Prosthetic heart valve
US4831550A (en) 1986-03-27 1989-05-16 International Business Machines Corporation Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events
US4832680A (en) * 1986-07-03 1989-05-23 C.R. Bard, Inc. Apparatus for hypodermically implanting a genitourinary prosthesis
US4795449A (en) * 1986-08-04 1989-01-03 Hollister Incorporated Female urinary incontinence device
US4852568A (en) * 1987-02-17 1989-08-01 Kensey Nash Corporation Method and apparatus for sealing an opening in tissue of a living being
DE3723078A1 (de) 1987-07-11 1989-01-19 Philips Patentverwaltung Verfahren zur erkennung von zusammenhaengend gesprochenen woertern
DE3821631A1 (de) * 1987-07-28 1989-02-09 Bader Paul Verschluss fuer eine maennliche harnroehre
DE3739681A1 (de) 1987-11-24 1989-06-08 Philips Patentverwaltung Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens
US4830003A (en) * 1988-06-17 1989-05-16 Wolff Rodney G Compressive stent and delivery system
JP2710355B2 (ja) * 1988-09-20 1998-02-10 日本ゼオン株式会社 医用弁装置
US4846836A (en) * 1988-10-03 1989-07-11 Reich Jonathan D Artificial lower gastrointestinal valve
DE3834545A1 (de) * 1988-10-11 1990-04-12 Rau Guenter Flexibles schliessorgan, insbesondere herzklappe, und verfahren zur herstellung desselben
CA2054728C (en) * 1989-05-31 2003-07-29 Rodolfo C. Quijano Biological valvular prosthesis
US5263117A (en) 1989-10-26 1993-11-16 International Business Machines Corporation Method and apparatus for finding the best splits in a decision tree for a language model for a speech recognizer
US5411552A (en) * 1990-05-18 1995-05-02 Andersen; Henning R. Valve prothesis for implantation in the body and a catheter for implanting such valve prothesis
DK124690D0 (da) * 1990-05-18 1990-05-18 Henning Rud Andersen Klapprotes til implantering i kroppen for erstatning af naturlig klap samt kateter til brug ved implantering af en saadan klapprotese
US5193525A (en) * 1990-11-30 1993-03-16 Vision Sciences Antiglare tip in a sheath for an endoscope
US5116360A (en) * 1990-12-27 1992-05-26 Corvita Corporation Mesh composite graft
US5477451A (en) 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5123919A (en) * 1991-11-21 1992-06-23 Carbomedics, Inc. Combined prosthetic aortic heart valve and vascular graft
DE69324239T2 (de) * 1992-01-21 1999-11-04 Univ Minnesota Verschlusseinrichtung eines septumschadens
US5329887A (en) * 1992-04-03 1994-07-19 Vision Sciences, Incorporated Endoscope control assembly with removable control knob/brake assembly
US5502774A (en) 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
US5382261A (en) * 1992-09-01 1995-01-17 Expandable Grafts Partnership Method and apparatus for occluding vessels
JP3378595B2 (ja) * 1992-09-30 2003-02-17 株式会社日立製作所 音声対話システムおよびその対話進行制御方法
US5409019A (en) * 1992-10-30 1995-04-25 Wilk; Peter J. Coronary artery by-pass method
US5419310A (en) * 1992-11-03 1995-05-30 Vision Sciences, Inc. Partially inflated protective endoscope sheath
US5384892A (en) 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
US5306234A (en) * 1993-03-23 1994-04-26 Johnson W Dudley Method for closing an atrial appendage
US5447148A (en) * 1993-07-08 1995-09-05 Vision Sciences, Inc. Endoscopic contamination protection system to facilitate cleaning of endoscopes
EP0645757B1 (en) 1993-09-23 2000-04-05 Xerox Corporation Semantic co-occurrence filtering for speech recognition and signal transcription applications
US5615296A (en) 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US5483951A (en) * 1994-02-25 1996-01-16 Vision-Sciences, Inc. Working channels for a disposable sheath for an endoscope
US5520607A (en) * 1994-03-04 1996-05-28 Vision Sciences, Inc. Holding tray and clamp assembly for an endoscopic sheath
US5499995C1 (en) * 1994-05-25 2002-03-12 Paul S Teirstein Body passageway closure apparatus and method of use
US5417226A (en) * 1994-06-09 1995-05-23 Juma; Saad Female anti-incontinence device
US5675819A (en) 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US5752052A (en) 1994-06-24 1998-05-12 Microsoft Corporation Method and system for bootstrapping statistical processing into a rule-based natural language parser
US5755770A (en) * 1995-01-31 1998-05-26 Boston Scientific Corporatiion Endovascular aortic graft
US5689617A (en) 1995-03-14 1997-11-18 Apple Computer, Inc. Speech recognition system which returns recognition results as a reconstructed language model with attached data values
IT1279171B1 (it) 1995-03-17 1997-12-04 Ist Trentino Di Cultura Sistema di riconoscimento di parlato continuo
DE29507519U1 (de) * 1995-05-05 1995-08-10 Angiomed Ag, 76227 Karlsruhe Endosphinkter und Set zum freigebbaren Verschließen der Urethra
US5710866A (en) 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure
US5667476A (en) * 1995-06-05 1997-09-16 Vision-Sciences, Inc. Endoscope articulation system to reduce effort during articulation of an endoscope
US5680511A (en) 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
US5645565A (en) * 1995-06-13 1997-07-08 Ethicon Endo-Surgery, Inc. Surgical plug
US5830222A (en) * 1995-10-13 1998-11-03 Transvascular, Inc. Device, system and method for intersititial transvascular intervention
JPH09114488A (ja) * 1995-10-16 1997-05-02 Sony Corp 音声認識装置,音声認識方法,ナビゲーション装置,ナビゲート方法及び自動車
CA2203132C (en) 1995-11-04 2004-11-16 Upali Bandara Method and apparatus for adapting the language model's size in a speech recognition system
US6567778B1 (en) 1995-12-21 2003-05-20 Nuance Communications Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores
US5913193A (en) 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
US5937384A (en) 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
WO1997044085A2 (en) * 1996-05-20 1997-11-27 Percusurge, Inc. Low profile catheter valve
DE69719237T2 (de) * 1996-05-23 2003-11-27 Samsung Electronics Co Ltd Flexibler, selbstexpandierbarer Stent und Verfahren zu dessen Herstellung
US5835888A (en) 1996-06-10 1998-11-10 International Business Machines Corporation Statistical language model for inflected languages
KR980000327U (ko) * 1996-06-13 1998-03-30 이정행 귀걸이 설치용 귀걸이홀 성형구
US5855601A (en) * 1996-06-21 1999-01-05 The Trustees Of Columbia University In The City Of New York Artificial heart valve and method and device for implanting the same
US5963903A (en) 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
US5685822A (en) * 1996-08-08 1997-11-11 Vision-Sciences, Inc. Endoscope with sheath retaining device
US5782916A (en) * 1996-08-13 1998-07-21 Galt Laboratories, Inc. Device for maintaining urinary continence
JPH1097280A (ja) * 1996-09-19 1998-04-14 Hitachi Ltd 音声画像認識翻訳装置
US5819220A (en) 1996-09-30 1998-10-06 Hewlett-Packard Company Web triggered word set boosting for speech interfaces to the world wide web
US5905972A (en) 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
US5829000A (en) 1996-10-31 1998-10-27 Microsoft Corporation Method and system for correcting misrecognized spoken words or phrases
GB9701866D0 (en) 1997-01-30 1997-03-19 British Telecomm Information retrieval
DE19708183A1 (de) 1997-02-28 1998-09-03 Philips Patentverwaltung Verfahren zur Spracherkennung mit Sprachmodellanpassung
US6200333B1 (en) * 1997-04-07 2001-03-13 Broncus Technologies, Inc. Bronchial stenter
US6083255A (en) * 1997-04-07 2000-07-04 Broncus Technologies, Inc. Bronchial stenter
US6245102B1 (en) * 1997-05-07 2001-06-12 Iowa-India Investments Company Ltd. Stent, stent graft and stent valve
US5855597A (en) * 1997-05-07 1999-01-05 Iowa-India Investments Co. Limited Stent valve and stent graft for percutaneous surgery
US6073091A (en) 1997-08-06 2000-06-06 International Business Machines Corporation Apparatus and method for forming a filtered inflected language model for automatic speech recognition
US5954766A (en) * 1997-09-16 1999-09-21 Zadno-Azizi; Gholam-Reza Body fluid flow control device
US6154722A (en) 1997-12-18 2000-11-28 Apple Computer, Inc. Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
DE59812219D1 (de) * 1998-03-04 2004-12-09 Schneider Europ Gmbh Buelach Vorrichtung zum Einführen einer Endoprothese in einen Katheterschaft
US6182039B1 (en) 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6141641A (en) 1998-04-15 2000-10-31 Microsoft Corporation Dynamically configurable acoustic model for speech recognition system
US6009614A (en) * 1998-04-21 2000-01-04 Advanced Cardiovascular Systems, Inc. Stent crimping tool and method of use
US5974652A (en) * 1998-05-05 1999-11-02 Advanced Cardiovascular Systems, Inc. Method and apparatus for uniformly crimping a stent onto a catheter
US6174323B1 (en) * 1998-06-05 2001-01-16 Broncus Technologies, Inc. Method and assembly for lung volume reduction
US6188976B1 (en) 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
US6174280B1 (en) * 1998-11-19 2001-01-16 Vision Sciences, Inc. Sheath for protecting and altering the bending characteristics of a flexible endoscope
US6020380A (en) * 1998-11-25 2000-02-01 Tap Holdings Inc. Method of treating chronic obstructive pulmonary disease
US6051022A (en) * 1998-12-30 2000-04-18 St. Jude Medical, Inc. Bileaflet valve having non-parallel pivot axes
US6350231B1 (en) * 1999-01-21 2002-02-26 Vision Sciences, Inc. Apparatus and method for forming thin-walled elastic components from an elastomeric material
US6530881B1 (en) * 1999-01-21 2003-03-11 Vision Sciences, Inc. Sheath apparatus for endoscopes and methods for forming same
US6081799A (en) 1999-05-05 2000-06-27 International Business Machines Corporation Executing complex SQL queries using index screening for conjunct or disjunct index operations
US6206918B1 (en) * 1999-05-12 2001-03-27 Sulzer Carbomedics Inc. Heart valve prosthesis having a pivot design for improving flow characteristics
US6234996B1 (en) * 1999-06-23 2001-05-22 Percusurge, Inc. Integrated inflation/deflation device and method
US6287290B1 (en) * 1999-07-02 2001-09-11 Pulmonx Methods, systems, and kits for lung volume reduction
US6712812B2 (en) * 1999-08-05 2004-03-30 Broncus Technologies, Inc. Devices for creating collateral channels
US6190330B1 (en) * 1999-08-09 2001-02-20 Vision-Sciences, Inc. Endoscopic location and vacuum assembly and method
US6293951B1 (en) * 1999-08-24 2001-09-25 Spiration, Inc. Lung reduction device, system, and method
US6416554B1 (en) * 1999-08-24 2002-07-09 Spiration, Inc. Lung reduction apparatus and method
US6402754B1 (en) * 1999-10-20 2002-06-11 Spiration, Inc. Apparatus for expanding the thorax
US6398775B1 (en) * 1999-10-21 2002-06-04 Pulmonx Apparatus and method for isolated lung access
US6510846B1 (en) * 1999-12-23 2003-01-28 O'rourke Sam Sealed back pressure breathing device
US6865528B1 (en) * 2000-06-01 2005-03-08 Microsoft Corporation Use of a unified language model
US6568387B2 (en) * 2000-07-19 2003-05-27 University Of Florida Method for treating chronic obstructive pulmonary disorder
TW472232B (en) * 2000-08-11 2002-01-11 Ind Tech Res Inst Probability-base fault-tolerance natural language understanding method
US6785651B1 (en) * 2000-09-14 2004-08-31 Microsoft Corporation Method and apparatus for performing plan-based dialog
US6527761B1 (en) * 2000-10-27 2003-03-04 Pulmonx, Inc. Methods and devices for obstructing and aspirating lung tissue segments
EP1410381A4 (en) * 2001-05-04 2005-10-19 Unisys Corp DYNAMIC GENERATION OF VOICE APPLICATION INFORMATION FROM A WEB SERVER
JP4602602B2 (ja) * 2001-07-19 2010-12-22 オリンパス株式会社 医療器具
US20030018327A1 (en) * 2001-07-20 2003-01-23 Csaba Truckai Systems and techniques for lung volume reduction
JP4094255B2 (ja) * 2001-07-27 2008-06-04 日本電気株式会社 コマンド入力機能つきディクテーション装置
US20030050648A1 (en) * 2001-09-11 2003-03-13 Spiration, Inc. Removable lung reduction devices, systems, and methods
US6592594B2 (en) * 2001-10-25 2003-07-15 Spiration, Inc. Bronchial obstruction device deployment system and method
JP4000828B2 (ja) * 2001-11-06 2007-10-31 株式会社デンソー 情報システム、電子機器、プログラム

Also Published As

Publication number Publication date
KR20040103445A (ko) 2004-12-08
RU2004116304A (ru) 2005-11-10
TWI376681B (en) 2012-11-11
CN100578614C (zh) 2010-01-06
CA2467220A1 (en) 2004-11-29
KR101042119B1 (ko) 2011-06-17
AU2004201992B2 (en) 2009-10-22
TW200515369A (en) 2005-05-01
EP1482481B1 (en) 2008-06-11
JP2004355630A (ja) 2004-12-16
CA2467220C (en) 2014-07-08
JP4768970B2 (ja) 2011-09-07
AU2004201992A1 (en) 2004-12-16
EP1970897A1 (en) 2008-09-17
MY142974A (en) 2011-01-31
CN1573928A (zh) 2005-02-02
EP1482481A1 (en) 2004-12-01
ATE398325T1 (de) 2008-07-15
ZA200403492B (en) 2006-04-26
BRPI0401850B1 (pt) 2018-09-11
RU2349969C2 (ru) 2009-03-20
US20040243393A1 (en) 2004-12-02
BRPI0401850A (pt) 2005-03-08
US7200559B2 (en) 2007-04-03
DE602004014316D1 (de) 2008-07-24
HK1071466A1 (en) 2005-07-15

Similar Documents

Publication Publication Date Title
CA2467220C (en) Semantic object synchronous understanding implemented with speech application language tags
US8301436B2 (en) Semantic object synchronous understanding for highly interactive interface
US7873523B2 (en) Computer implemented method of analyzing recognition results between a user and an interactive application utilizing inferred values instead of transcribed speech
US8311835B2 (en) Assisted multi-modal dialogue
US8160883B2 (en) Focus tracking in dialogs
US8229753B2 (en) Web server controls for web enabled recognition and/or audible prompting
US7711570B2 (en) Application abstraction with dialog purpose
EP1899851A2 (en) Speech application instrumentation and logging
Paraiso et al. Voice Activated Information Entry: Technical Aspects

Legal Events

Date Code Title Description
FG Grant or registration