MXPA04005122A - Entendimiento sincronico de objeto semantico implementado con etiquetas de lenguaje de aplicacion del habla. - Google Patents
Entendimiento sincronico de objeto semantico implementado con etiquetas de lenguaje de aplicacion del habla.Info
- Publication number
- MXPA04005122A MXPA04005122A MXPA04005122A MXPA04005122A MXPA04005122A MX PA04005122 A MXPA04005122 A MX PA04005122A MX PA04005122 A MXPA04005122 A MX PA04005122A MX PA04005122 A MXPA04005122 A MX PA04005122A MX PA04005122 A MXPA04005122 A MX PA04005122A
- Authority
- MX
- Mexico
- Prior art keywords
- input
- language model
- semantic
- recognition
- language
- Prior art date
Links
- 230000001360 synchronised effect Effects 0.000 title description 5
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 20
- 150000003839 salts Chemical class 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims abstract description 8
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 11
- 230000000007 visual effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000013475 authorization Methods 0.000 description 3
- 238000013523 data management Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000005055 memory storage Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 241001422033 Thestylus Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 239000003826 tablet Substances 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000007943 implant Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Telephone Function (AREA)
Abstract
Un sistema de entendimiento de habla o lenguaje incluye un modelo de lenguaje que comprende una combinacion de un modelo de lenguaje N-grama y un modelo de lenguaje de gramatica libre de contexto. El modelo de lenguaje almacena informacion relacionada con palabras e informacion semantica que sera reconocida. Un modulo esta adaptado para recibir una entrada de un usuario y capturar la entrada para procesamiento. El modulo ademas esta adaptado para recibir interfases de programa de aplicacion de SALT que pertenecen al reconocimiento de la entrada. El modulo esta configurado para procesar las interfases de programa de aplicacion de SALT y la entrada para determinar informacion semantica que pertenece a una primera porcion de la entrada y producir un objeto semantico comprendiendo texto o informacion semantica para la primera porcion accesando el modelo de lenguaje, en donde la realizacion de reconocimiento y produccion del objeto semantico se realiza mientras la captura continua para porciones subsecuentes de la entrada.
Description
ENTENDIMIENTO SINCRONICO DE OBJETO SEMANTICO I PLE MENTADO CON ETIQUETAS DE LENGUAJE DE APLICACION
DEL HABLA
ANTECEDENTES DE LA INVENCION
La presente invención se refiere al acceso y ejecución de información en un sistema de computadora. Más particularmente, la presente invención se refiere al acceso de información utilizando reconocimiento y entendimiento. Recientemente, la tecnología ha avanzado para permitir que el usuario tenga acceso a información en un sistema de computadora proporcionando comandos de lenguaje o habla. Al recibir un comando de un usuario, el sistema de computadora realiza reconocimiento de lenguaje en la entrada del usuario y además procesa la entrada con el fin de determinar el intento del usuario con el fin de que el sistema de computadora realice una acción deseada. En algunas situaciones, la entrada provista por el usuario está en incompleta o es indefinida, lo cual requerirá que el sistema de computadora solicite más información del usuario ya sea en la forma de indicadores visuales o audibles. De esta manera, un diálogo puede ser establecido entre el usuario y el sistema de computadora, en donde cada uno toma turnos proporcionando preguntas, respuestas, y/o reconocimientos hasta que el intento del usuario es determinado y se puede realizar una acción. En otras situaciones, la creación de dicho diálogo es el modo preferido para interactuar con el sistema de computadora. Se han introducido Etiquetas de Lenguaje de Aplicación del Habla (SALT, según sus siglas en inglés) para facilitar el lenguaje como una modalidad de entrada/salida viable para el diseño de interfase de usuario moderno. El objetivo del diseño para SALT es hacer que las tareas de lenguaje comunes sean más simples de programar, y que aún permitan capacidades avanzadas con una realización directa. SALT fue diseñado para muchas aplicaciones. Una siendo, por ejemplo, una aplicación de solo lenguaje, a base de teléfono, que solamente interactúa con usuarios exclusivamente a través de diálogo hablado. SALT incluye objetos de entrada y salida de lenguaje ("escuchar" y "incitar"), los cuales tienen un diseño de modo para incorporar tecnologías para detectar el inicio y el fin del turno del usuario. Por consiguiente, muchas aplicaciones de lenguaje emplean interfases de usuario que requieren que el usuario señale el inicio de un turno del usuario. Algunos sistemas de computadora incluyen computadoras usables, dispositivos modales o multimodales habilitados con el habla o lenguaje (entrada de lenguaje provista para campo seleccionados por un dispositivo de entrada tal como un ratón) y otras aplicaciones ojos libres. Sin embargo, en cada uno de estos ambientes, una definición de corte limpia en el usuario contra el turno del sistema de computadora en el diálogo sigue presente. Sin embargo, la conversación humana generalmente no sigue un corte limpio, tomando un diálogo de turno entre participantes. Más bien, las con ersaciones pueden incluir reconocimientos, confirmaciones, preguntas por parte de cada participante, etc., mientras que el otro está proporcionando información que drásticamente pueda afectar, ligeramente afectar o no afectar la forma en la cual el interlocutor está proporcionando información. Los interlocutores humanos disfrutan esta forma natural de conversación. Asimismo, los sistemas telefónicos emplean tecnología totalmente dúplex con el fin de permitir que dichas conversaciones se presenten. En contraste, las interfases a base de diálogo emplean un modo de turno rígido de operación entre un usuario y un sistema de computadora, que hace que el sistema de computadora espere para la finalización del diálogo del usuario antes de procesar y tomar una acción subsecuente. Aunque una simple realimentación, tal como indicaciones visuales como una serie de puntos que progresan a través de una pantalla por computadora, puede proporcionar al usuario algo de seguridad de que el sistema de computadora por lo menos está procesando algo, hasta que el usuario termina su turno y el sistema de computadora responde, el grado de entendimiento por parte del sistema de computadora no es conocido. Por consiguiente, existe la necesidad de mejoras en un sistema de computadora que se base en reconocimiento y entendimiento. Dichas mejoras podrían proporcionar un sistema y método para introducir información que podría ser más fácil de utilizar siendo más natural para el usuario.
COMPENDIO DE LA INVENCION
Un método y un sistema proporcionan un modo de entrada de lenguaje o habla que dinámicamente reporta análisis semánticos parciales, mientras la ilustración de audio sigue en progreso. Los análisis semánticos pueden ser evaluados con un resultado inmediatamente reportado de regreso al usuario. En un aspecto, un sistema de entendimiento de habla o lenguaje incluye un modelo de lenguaje que comprende una combinación de modelo de lenguaje de N-grama y un modelo de lenguaje gramático libre de contexto. El modelo de lenguaje almacena información relacionada con palabras e información semántica que será reconocida. Un módulo está adaptado para recibir la entrada por parte de un usuario y capturar la entrada para procesamiento. El módulo además está adaptado para recibir ¡nterfases de programa de aplicación de SALT que pertenecen al reconocimiento de la entrada. El módulo está configurado para procesar las interfases de programa de aplicación de SALT y la entrada para determinar información semántica que pertenece a una primera porción de la entrada y producir un objeto semántico que comprende texto e Información semántica para la primera porción accesando el modelo de lenguaje, en donde la realización y los resultados del objeto semántico se realizan mientras la captura continua para porciones subsecuentes de la entrada.
BREVE DESCRIPCION DE LOS DIBUJOS
La Figura 1 es un diagrama de bloque de un sistema de presentación de datos. La Figura 2 es una vista en planta de un ambiente de operación del dispositivo de cómputo. La Figura 3 es un diagrama de bloque del dispositivo de cómputo de la Figura 2. La Figura 4 es una vista en planta de un teléfono. La Figura 5 es un diagrama de bloque de una computadora de propósito general. La Figura 6 es un diagrama de bloque de una arquitectura para un sistema de cliente/servidor. La Figura 7 es un diagrama de bloque de un módulo de reconocimiento y entendimiento de lenguaje o habla.
DESCRIPCION DETALLADA DE LAS MODALIDADES ILUSTRATIVAS
La Figura 1 es un diagrama de bloque de un sistema de presentación de datos 10 para presentar o ejecutar datos con base en una entrada de voz. El sistema 10 incluye un módulo de interfase de lenguaje 12, un módulo de reconocimiento y entendimiento de lenguaje 14 y un módulo de ejecución de datos 16. Un usuario proporciona una entrada en la forma de una consulta de voz al módulo de interfase de lenguaje 12. El módulo de interfase de lenguaje 12 reúne la información de lenguaje de un usuario y proporciona una señal indicativa de la misma. Después de que el lenguaje de entrada ha sido reunido por el módulo de interfase de lenguaje 12, el módulo de reconocimiento y entendimiento de lenguaje 14 reconoce el lenguaje utilizando un reconocedor de lenguaje y también realiza el entendimiento de lenguaje, en donde en un aspecto de la presente invención, proporciona análisis semánticos parciales de la entrada en cuanto se recibe, mientras que la entrada de lenguaje de audio se sigue capturando. Los análisis semánticos parciales, los cuales típicamente incluyen el texto para la entrada recibida (u otros datos indicativos del texto de la entrada), pero también información semántica determinada, son provistos a un módulo de aplicación 16 que pueden tener muchas diferentes formas. Por ejemplo, en una modalidad, el módulo de aplicación 16 puede ser un administrador de información personal que se utiliza para enviar, recibir y contestar correos electrónicos, disponer reuniones, y similares. De esta manera, el usuario puede proporcionar comandos audibles para realizar estas tareas. De manera más importante, el módulo de aplicación 16 puede proporcionar realimentación interactiva y/o tomar acciones en la información de análisis semánticos parciales en cuanto se recibe, proporcionando así al usuario con una interfase altamente interactiva para el módulo de aplicación 16. Por ejemplo, en un modo de operación de sólo voz, una salida 20 puede incluir determinaciones audibles que se regresan al usuario, mientras que, por supuesto, posiblemente realizan otras tareas con relación a la aplicación. Los análisis semánticos parciales u objetos semánticos pueden ser utilizados para ejecutar lógica de diálogo en aplicación. Por ejemplo, la lógica del diálogo puede presentar una opción, o una pluralidad o lista de opciones, al usuario basándose en uno o más objetos semánticos. Esto permite que el sistema 10 reporte inmediatamente resultados con base en una declaración parcial, principalmente antes de que el turno del usuario haya finalizado. En otras palabras, al utilizar la comunicación de canal de regreso para reportar y realizar tareas normalmente asociadas con el turno de un sistema, la definición de un usuario y un turno del sistema es borrosa. Estudios de diálogo más convencionales, especialmente aquellos a base de diálogos de humano a humano, por lo regular ven las comunicaciones de canal de regreso como una realimentación no intrusiva que transporta solo señales simples tales como reconocimiento positivo, negativo o neutro. Sin embargo, la realimentación provista por la salida 20 potencialmente puede llevar más información, de manera que es un poco intrusiva a la declaración del usuario, lo cual puede o no ocasionar que el usuario aclare la intención o dirección del usuario. Sin embargo, este aspecto proporciona un diálogo humano más real entre el usuario y el sistema 10, que en muchos casos no será considerado como molesto, pero más bien es más cómodo para el usuario e implantar confidencia que el usuario desea satisfacer. En este punto se debe observar que la presente invención no está limitada a un ambiente de operación solo con voz, sino que más bien puede incluir otras formas de realimentación para el usuario basándose en el procesamiento de análisis semánticos parciales u objetos. Por ejemplo, en la aplicación discutida anteriormente, en donde el módulo de aplicación 16 realiza tareas de correo electrónico, la salida 20 puede incluir realimentación visual tal como activación de un módulo de correo electrónico basándose solamente en la recepción de una frase tal como "enviar correo electrónico" en un comando no interrumpido a partir del usuario comprendiendo "enviar correo electrónico Bob", en donde el procesamiento de la frase "a Bob" puede hacer que el módulo de aplicación tenga acceso a más información en el almacenamiento de datos 18 y presentar una lista de personas que tienen como primer nombre "Bob". Por lo que al ver la lista, el usuario simplemente identifica al receptor pretendido como "Bob Green", el cual después puede ser seleccionado ya que el sistema podría haber provisto otro objeto semántico para la declaración parcial de "Bob Green", quien después de recibir por la aplicación y procesarse podría ocasionar que "Bob Green" sea seleccionado. Como se indicó anteriormente, el módulo de aplicación 16 puede tomar muchas formas, en donde los aspectos de la presente invención discutidos más adelante serán benéficos. Sin limitación, el módulo de aplicación 16 también puede ser un módulo de dictado para proporcionar una salida de texto de la entrada del usuario que habla. Sin embargo, al procesar la información semántica para una entrada parcial o frases de entrada también, se puede obtener una transcripción más exacta. Aunque descrito anteriormente con respecto a una entrada del usuario comprendiendo comandos de voz, los aspectos de la presente invención también pueden ser aplicados a otras formas de entrada tales como escritura, DTMF, gestos o indicaciones visuales. Dada la amplia aplicabilidad de frases semánticas parciales de procesamiento u objetos, puede ser útil describir en general dispositivos de cómputo que pueden funcionar en el sistema 10 descrito anteriormente. Como se apreciará por aquellos expertos en la técnica, los componentes del sistema 10 pueden ser localizados dentro de una sola computadora o a través de un ambiente de cómputo distribuido utilizando conexiones y protocolos de red. Haciendo referencia ahora a la Figura 2, en 30 se ilustra una forma de ejemplo de un dispositivo móvil tal como un dispositivo de administración de datos (PIM, PDA, o similares). Sin embargo, se contempla que la presente invención también puede ser practicada utilizando otros dispositivos de cómputo discutidos más adelante. Por ejemplo, los teléfonos y/o dispositivos de administración de datos también serán benéficos a partir de la presente invención. Dichos dispositivos tendrán una utilidad mejorada comparado con los dispositivos de administración de información personales portátiles existentes u otros dispositivos electrónicos portátiles.
1 o En la forma ilustrativa de un dispositivo móvil de administración de datos 30 que se ilustra en la Figura 2, el dispositivo móvil 30 incluye un alojamiento 32 y tiene una interfase de usuario incluyendo una presentación 34, la cual utiliza una pantalla de presentación sensible al tacto junto con un estilete 33. El estilete 33 se utiliza para oprimir o hacer contacto la pantalla 34 en coordenadas designadas para seleccionar un campo, para mover selectivamente una posición de partida de un cursor, o de otra manera para proporcionar información de comando tal como a través de gestos o escritura. Alternativamente, o además, uno o más botones 35 pueden ser incluidos en el dispositivo 30 para la navegación. Además, también se pueden proporcionar otros mecanismos de entrada tales como ruedas giratorias, rodillos, o similares. Sin embargo, se debe observar que la invención no está destinada a ser limitada por estas formas de mecanismos de entrada. Por ejemplo, otra forma de entrada puede incluir una entrada visual tal como a través de una visión de computadora. Ahora haciendo referencia a la Figura 3, un diagrama de bloque ilustra a los componentes funcionales que comprenden el dispositivo móvil 30. Una unidad de procesamiento central (CPU) 50 implementa las funciones de control de software. La CPU 50 está acoplada a la presentación 34, de manera que iconos de texto y gráficos generados de acuerdo con el software de control aparecen en la presentación 34. Una bocina 43 puede ser acoplada a la CPU 50 típicamente con un convertidor digital a analógico 59 para proporcionar una salida audible. Los datos que son descargados o introducidos por el usuario al dispositivo móvil 30 son almacenados en un almacenamiento de memoria de lectura no volátil/de acceso aleatorio de escritura 54 bidireccionalmente acoplado a la CPU 50. La memoria de acceso aleatorio (RAM) 54 proporciona almacenamiento volátil para instrucciones que son ejecutadas por la CPU 50, y almacenamiento para datos temporales, tales como valores de registro. Los valores por omisión para opciones de configuración y otras variables son almacenados en una memoria de solo lectura (ROM) 58. La memoria ROM 58 también puede ser usada para almacenar el software del sistema operativo para el dispositivo que controla la funcionalidad básica del dispositivo móvil 30 y otras funciones de kernel (núcleo de un sistema operativo) del sistema operativo (por ejemplo, la carga de componentes de software en la RAM 54). La memoria RAM 54 también sirve como un almacenamiento para el código en la forma análoga a la función de una unidad de disco duro en una PC que se utiliza para almacenar programas de aplicación. Se debe observar que aunque la memoria no volátil se utiliza para almacenar el código, alternativamente puede ser almacenado en memoria volátil que no se utiliza para la ejecución del código. Las señales inalámbricas pueden ser transmitidas/recibidas por el dispositivo móvil a través de un transceptor inalámbrico 52, el cual está acoplado a la CPU 50. También se puede proporcionar una interfase de comunicación 60 opcional para la descarga de datos directamente de una computadora (por ejemplo, una computadora de escritorio), o de una red mediante cables, si se desea. Por consiguiente, la interfase 60 puede comprender varias formas de dispositivos de comunicación, por ejemplo, un enlace infrarrojo, módem, tarjeta de red, o similares. El dispositivo móvil 30 Incluye un micrófono 29 y un convertidor análogo a digital (A/D) 37, y un programa de reconocimiento opcional (lenguaje, DTMF, escritura, gesto o visión de computadora) almacenado en el almacenamiento 54. A manera de ejemplo, en respuesta a la información audible, las instrucciones o comando de un usuario del dispositivo 30, micrófono 29 proporcionan señales de lenguaje, las cuales son digitalizadas por el convertido A/D 37. El programa de reconocimiento de lenguaje puede realizar funciones de normalización y/o extracción de aspectos en las señales de lenguaje digitalizadas para obtener resultados de reconocimiento de lenguaje intermedios. Al utilizar el transceptor inalámbrico 52 o la interfase de comunicación 60, los datos de lenguaje pueden ser transmitidos a un servidor de reconocimiento remoto 204, discutido más adelante e ilustrado en la arquitectura de la Figura 6. Los resultados del reconocimiento entonces pueden ser regresados al dispositivo móvil 30 para su presentación (por ejemplo, visual y/o audible), y transmisión eventual a un servidor web 202 (Figura 6), en donde el servidor web 202 y el dispositivo móvil 30 operan en una relación de cliente/servidor. Se puede utilizar un procesamiento similar para otras formas de entrada. Por ejemplo, la entrada mediante escritura puede ser digitalizada con o sin pre-procesamiento en el dispositivo 30. Como los datos de lenguaje, esta forma de entrada puede ser transmitida al servidor de reconocimiento 204 para reconocimiento, en donde los resultados de reconocimiento son regresados a por lo menos uno del dispositivo 30 y/o servidor web 202. Asimismo, los datos DTMF, datos de gestos y datos visuales pueden ser procesados en forma similar. Dependiendo de la forma de entrada, el dispositivo 30 (y las otras formas de clientes discutidas más adelante) podrían incluir hardware necesario tal como una cámara para entrada visual. La Figura 4 es una vista en planta de una modalidad ilustrativa de un teléfono portátil 80. El teléfono 80 incluye una presentación 82 y un teclado numérico 84. En general, el diagrama de bloque de la Figura 3 se aplica al teléfono de la Figura 4, aunque se puede requerir de un sistema de circuito adicional necesario para realizar otras funciones. Por ejemplo, se requerirá de un transceptor necesario para operar como un teléfono para la modalidad de la Figura 3; sin embargo, dicho sistema de circuito no es pertinente a la presente invención. Además, de los dispositivos de cómputo portátiles o móviles descritos anteriormente, también se debe entender que la presente invención puede ser utilizada con numerosos otros dispositivos de cómputo tales como una computadora de escritorio general. Por ejemplo, la presente invención permitirá que un usuario tenga habilidades físicas limitadas para introducir o meter texto en una computadora u otro dispositivo de cómputo cuando otros dispositivos de entrada convencional, tales como un teclado alfanumérico total, son demasiado difícil de operar. La invención también opera con numerosos otros sistemas de cómputo de propósito general o de propósito especial, ambientes o configuraciones. Ejemplos de sistemas, ambientes y/o configuraciones de cómputo bien conocidos que pueden ser adecuados para utilizarse con la invención incluye, pero no se limitan a, teléfonos reguladores (sin ninguna pantalla), Computadoras personales, computadoras de servidor, dispositivos portátiles o manuales, computadoras de tableta, sistemas de multiprocesador, sistemas a base de microprocesador, cajas de TV por cable, electrónica de consumidor programable, PCs en red, minicomputadoras, macrocomputadoras, ambientes de cómputo distribuidos que incluyen cualquiera de los sistemas o dispositivos anteriores, y similares. Lo siguiente es una breve descripción de una computadora de propósito general 120 ilustrada en la Figura 5. Sin embargo, la computadora 120 otra vez es solamente un ejemplo de un ambiente de cómputo adecuado y no pretende sugerir ninguna limitación al alcance de uso o funcionalidad de la invención. Ni la computadora 120 debe ser interpretada como teniendo cualquier dependencia o requerimiento con relación a cualquiera o a alguna combinación de los componentes ilustrados aquí. La invención puede ser descrita en el contexto general de instrucciones ejecutables por computadora, tales como módulos de programa, siendo ejecutadas por una computadora. En general, los módulos de programa incluyen rutinas, programas, objetos, componentes, estructuras de datos, etc., que realizan tareas particulares o ¡mplementan tipos de datos abstractos particulares. La invención también puede ser practicada en ambientes de cómputo distribuidos, en donde las tareas son realizadas a través de dispositivos de procesamiento remotos que están enlazados a través de una red de comunicaciones. En un ambiente de cómputo distribuido, los módulos de programa pueden ser ubicados tanto en medios de almacenamiento de computadora locales como remotos, incluyendo dispositivos de almacenamiento de memoria. Las tareas realizadas por los programas y módulos se describen más adelante y con la ayuda de los dibujos. Aquellos expertos en la técnica pueden implementar la descripción y dibujos como instrucciones ejecutables por procesador, las cuales pueden ser escritas en cualquier forma de un medio legible por computadora. Con referencia a la Figura 5, los componentes de la computadora 120 pueden incluir, pero no se limitan a, una unidad de procesamiento 140, una memoria de sistema 150 y una barra colectora de sistema 141 que acopla varios componentes de sistema, incluyendo la memoria de sistema a la unidad de procesamiento 140. La barra colectora de sistema 141 puede ser cualquiera de los varios tipos de estructuras de barra colectora incluyendo una barra colectora de memoria o controlador de memoria, una barra colectora periférica y una barra colectora local utilizando cualquiera de una variedad de arquitectura de barra colectora. A manera de ejemplo, y no de limitación, dichas arquitecturas incluyen Barra Colectora de Arquitectura Estándar de Industria (ISA), barra colectora Serial Universal (USD), barra colectora de Arquitectura de Microcanal (MCA), barra colectora de ISA mejorada (EISA), barra colectora local de asociación de estándares de electrónica de video (VESA), y la barra colectora de interconexión de componente periférico (PCI) también conocida como barra colectora de Mezanine. La computadora 120 típicamente incluye una variedad de medios legibles por computadora. Los medios legibles por computadora pueden ser cualquier medio disponible que pueda ser accesado por la computadora 120 e incluya medios tanto volátiles como no volátiles, medios removibles y no removibles. A manera de ejemplo, y no de limitación, los medios legibles por computadora pueden comprender medios de almacenamiento por computadora y medios de comunicación. Los medios de almacenamiento por computadora incluyen medios tanto volátiles como no volátiles, removibles como no removibles, implementados en cualquier método o tecnología para el almacenamiento de información, tal como instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos. Los medios de almacenamiento por computadora incluyen, pero no se limitan a RAM, ROM, EEPROM, memoria flash u otra tecnología de memoria, CDROM, discos versátiles digitales (DVD) u otro almacenamiento de disco óptico, casetes magnéticos, cinta magnética, almacenamiento en disco magnético u otros dispositivos de almacenamiento magnético, o cualquier otro medio que pueda ser utilizado para almacenar la información deseada y el cual pueda ser accesado por la computadora 120. Los medios de comunicación típicamente modalizan instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos en una señal de datos modulada tal como una onda portadora u otro mecanismo de transporte e incluye cualquier medio de suministro de información. El término "señal de datos modulada" significa una señal que tiene una o más de sus características fijadas o cambiadas de tal manera que codifique información en la señal. A manera de ejemplo, y no de limitación, los medios de comunicación incluyen medios mediante cables tales como una red medíante cables o una conexión de cables directos, y medios inalámbricos tales como medios acústicos, FR, infrarrojos y otros medios inalámbricos. Las combinaciones de cualquiera de los anteriores también deben ser incluidas dentro del alcance del medio legible por computadora. La memoria de sistema 150 incluye medios de almacenamiento por computadora en la forma de memoria volátil y/o no volátil tal como memoria de solo lectura (ROM) 151 y memoria de acceso aleatorio (RAM) 152. Un sistema básico de entrada/salida 153 (BIOS), conteniendo las rutinas básicas que ayudan a transferir información entre elementos dentro de la computadora 120, tal como durante el arranque, típicamente se almacena en la ROM 151. La RAM 152 típicamente contiene datos y/o módulos de programa que son inmediatamente accesibles y/o en realidad son operados en una unidad de procesamiento 140. A manera de ejemplo, y no de limitación, la Figura 5 ilustra un sistema operativo 154, programas de aplicación 155, otros módulos de programa 156 y datos de programa 157. La computadora 120 también puede incluir otros medios de almacenamiento por computadora removibles/no removibles, volátiles/no volátiles. A manera de ejemplo solamente, la Figura 5 ilustra una unidad de disco duro 161 que lee de o escribe a medios magnéticos no removibles, no volátiles, una unidad de disco magnético 171 que lee o escribe a un disco magnético removible, no volátil 172, y una unidad de disco óptico 175 que lee de o escribe a un disco óptico removible, no volátil 176, tal como un CD ROM u otros medios ópticos. Otros medios de almacenamiento por computadora removibles/no removibles, volátiles/no volátiles que pueden ser utilizados en el ambiente ilustrativo de operación incluyen, pero no se limitan, casetes de cinta magnética, tarjetas de memoria flash, discos versátiles digitales, cinta de vídeo digital, RAM de esta sólido, ROM de estado sólido, y similares. La unidad de disco duro 161 típicamente está conectada a la barra colectora 141 del sistema a través de una interfase de memoria no removible tal como la interfase 160, y la unidad de disco magnético 171 y la unidad de disco óptico 175 típicamente están conectadas a la barra colectora 141 del sistema a través de una interfase de memoria removible, tal como la interfase 170. Las unidades y sus medios de almacenamiento por computadora asociados discutidos anteriormente, e ilustrados en la Figura 5, proporcionan almacenamiento de instrucciones legibles por computadora, estructuras de datos, módulos de programa y otros datos para la computadora 120. En la Figura 5, la unidad de disco duro 161 se ilustra almacenando el sistema operativo 164, programas de aplicación 165, otros módulos de programa 166, y datos de programa 167. Observar que estos componentes pueden ser ya sea iguales o diferentes del sistema operativo 154, programas de aplicación 155, otros módulos de programa 156 y datos de programa 157. El sistema operativo 164, programas de aplicación 165, otros módulos de programa 166, y datos de programa 167 se les proporcionan números diferentes datos aquí para ilustrar que, a un mínimo, son diferentes copias. Un usuario puede introducir comandos e información a la computadora 120 a través de dispositivos de entrada tales como un teclado 182, un micrófono 183, y un dispositivo de señalamiento 181, tal como un ratón, bola rodante o almohadilla táctil. Otros dispositivos de entrada (no mostrados) pueden incluir una palanca de mando, una almohadilla de juegos, una antena de satélite, un explorador, o similares. Estos y otros dispositivos de entrada por lo regular están conectados a la unidad de procesamiento 140 a través de una interfase de entrada de usuario 180 que está acoplada a la barra colectora del sistema, pero puede estar conectada a través de otras estructuras de interfase de barra colectora, tal como un puerto paralelo, puerto de juegos, o una barra colectora serial universal (USB). Un monitor 184 u otro tipo de dispositivo de presentación también está conectado a la barra colectora 141 del sistema a través de una interfase tal como una interfase de vídeo 185. Además del monitor, las computadoras también pueden incluir otros dispositivos de salida periféricos tales como bocinas 187 e impresoras 186, que pueden ser conectadas a través de una interfase periférica de salida 188. La computadora 120 puede operar en un ambiente en red utilizando conexiones lógicas a una o más computadoras remotas, tales como una computadora remota 194. La computadora remota 194 puede ser una computadora personal, un dispositivo portátil, un servidor, un enrutador, una PC de red, un dispositivo de par en par u otro nodo de red común, típicamente incluye muchos o todos los elementos descritos anteriormente con relación a la computadora 120. Las conexiones lógicas ilustradas en la Figura 5 incluyen una red de área local (LAN) 191 y una red de área amplia (WAN) 193, pero también pueden incluir otras redes. Dichos ambientes en red son lugares comunes en oficinas, redes en computadora en empresas, intranets e Internet. Cuando se utiliza en un ambiente en red de LAN, la computadora 120 está conectada a la LAN 191 a través de una interfase de red o adaptador 190. Cuando se utiliza en un ambiente en red de WAN, la computadora 120 típicamente incluye un módem 192 u otros medios para establecer comunicaciones a través de la WAN 193, tal como el Internet. El módem 192, el cual puede ser interno o externo, puede ser conectado a la barra colectora 141 del sistema a través de la interfase de entrada de usuario 180, u otro mecanismo apropiado. En un ambiente en red, los módulos de programa ilustrados con relación a la computadora 120, o sus porciones, pueden ser almacenados en el dispositivo de almacenamiento de memoria remoto. A manera de ejemplo, y no de limitación, la Figura 5 ilustra programas de aplicación remotos 195 residentes en una computadora remota 194. Se apreciará que las conexiones de red mostradas son ilustrativas y que se pueden utilizar otros medios para establecer un enlace de comunicaciones entre las computadoras. La Figura 6 ilustra la arquitectura 200 para un reconocimiento a base de web y presentación o ejecución de datos, que es un ambiente ilustrativo para la presente invención. En general, la información almacenada en un servidor web 202 puede ser accesada a través de un cliente 100 tal como un dispositivo móvil 30 o computadora 120 (la cual aquí representa otras formas de dispositivos de cómputo teniendo una pantalla de presentación, un micrófono, una cámara, un panel sensible al tacto, etc., según requerido basándose en la forma de la entrada), o través del teléfono 80, en donde la información es solicitada en forma audible o a través de tonos generados por el teléfono 80 en respuesta a teclas oprimidas, en donde la información del servidor web 202 está provista solo en forma audible de regreso al usuario. En esta modalidad, la arquitectura 200 está no definida ya que si la información se obtiene a través del cliente 100 o el teléfono 80 utilizando el reconocimiento de lenguaje o habla, un solo servidor de reconocimiento 204 puede soportar cualquier modo de operación. Además, la arquitectura 200 opera utilizando una extensión de los lenguajes de marcación bien conocidos (por ejemplo, HTML, XHTML, cHTML, XML, WML, y similares). De esta manera, la información almacenada en el servidor web 202 también puede ser accesada utilizando cualquiera de los métodos de GUI bien conocidos encontrados en estos lenguajes de marcación. A utilizar una extensión de los lenguajes de marcación bien conocidos, la autorización en el servidor web 202 es más fácil, y las aplicaciones de legalidad actualmente existentes también pueden ser fácilmente modificadas para incluir reconocimiento de voz. En general, el cliente 100 ejecuta páginas HTML, manuscritos, o similares, generalmente indicados en 206, provistos por el servidor web 202 utilizando un navegador. Cuando se requiere reconocimiento de voz, a manera de ejemplo, los datos de lenguaje o habla, los cuales pueden ser señales de audio digitalizadas o características de lenguaje, en donde las señales de audio han sido pre-procesadas por el cliente 100 como se describió anteriormente, son provistas al servidor de reconocimiento 204 con una indicación de un modelo de gramática o lenguaje 220 para utilizarse durante el reconocimiento de lenguaje o habla, que puede ser provisto por el cliente 100.
Alternativamente, el servidor de lenguaje o habla 204 puede incluir el modelo de lenguaje 220. La implementación del servidor de reconocimiento 204 puede tomar cualquier forma, una de las cuales se ilustra, pero generalmente incluye un reconocedor 211. Los resultados del reconocimiento son provistos de regreso al cliente 100 para la presentación local si se desea o es apropiado. Si se desea, se puede utilizar el módulo de texto al lenguaje 222 para proporcionar texto hablado al cliente 100. Después de la compilación de la información a través del reconocimiento y de cualquier interfase de usuario gráfica si se utiliza, el cliente 100 envía la información al servidor web 202 para procesamiento adicional y recepción de páginas HTML/manuscritos adicionales, si es necesario.
Como se ilustra en la Figura 6, el cliente 100, el servidor web 202 y el servidor de reconocimiento 204 están conectados comúnmente, y pueden estar dirigidos en forma separada, a través de una red 205, aquí una red de área amplia tal como el Internet. Por lo tanto, no es necesario que ninguno de estos dispositivos esté físicamente localizado adyacente entre sí. En particular, no es necesario que el servidor web 202 incluya un servidor de reconocimiento 204. De esta manera, la autorización en el servidor web 202 puede ser enfocada en la aplicación a la cual está destinada sin que los autores necesiten saber las complejidades del servidor de reconocimiento 204. Más bien, el servidor de reconocimiento 204 puede ser independientemente diseñado y conectado a la red 205, y de esta manera, puede ser actualizado mejorado sin cambios adicionales requeridos en el servidor web 202. El servidor web 202 también puede incluir un mecanismo de autorización que puede generar dinámicamente marcaciones y manuscritos del lado del cliente. En una modalidad adicional, el servidor web 202, el servidor de reconocimiento 204 y el cliente 100 puede combinarse dependiendo de las capacidades de las máquinas de implementación. Por ejemplo, si el cliente 100 comprende una computadora de propósito general, por ejemplo, una computadora personal, el cliente puede incluir el servidor de reconocimiento 204. Asimismo, si se desea, el servidor web 202 y el servidor de reconocimiento 204 pueden ser incorporados en una sola máquina. El acceso al servidor web 202 a través del teléfono 80 incluye la conexión del teléfono 80 a una red telefónica con cables o inalámbrica 208, que a su vez, conecta el teléfono 80 a una compuerta 210 de terceras partes. La compuesta 210 conecta el teléfono 80 a un navegador de voz de telefonía 212. El navegador de voz de telefonía 212 incluye un servidor de medios 214 que proporciona una interfase de telefonía y un navegador de voz 216. Como el cliente 100, el navegador de voz de telefonía 212 recibe páginas HTML/manuscritos o similares del servidor web 202. En una modalidad, las páginas HTML/manuscritos son de la forma similar a las páginas HTML/manuscritos provistas al cliente 100. De esta manera, el servidor web 202 no necesita soportar al cliente 100 y al teléfono 80 en forma separada, o aún soportar a clientes de GUI estándares en forma separada. Más bien, se puede utilizar un lenguaje de marcación común. Además, como el cliente 100, el reconocimiento de voz de señales audibles transmitidas por el teléfono 80 se proporciona del navegador de voz 216 al servidor de reconocimiento 204, ya sea a través de la red 205, o a través de la linea dedicada 207, por ejemplo, utilizando TCP/IP. El servidor web 202, el servidor de reconocimiento 204 y el navegador de voz de teléfono 212 pueden ser modalizados en cualquier ambiente de cómputo adecuado tal como la computadora de escritorio de propósito general ilustrada en la Figura 5. Habiendo descrito varias modalidades y arquitecturas que funcionan en el sistema 10, se proporciona una descripción más detalla de los varios componentes y la función del sistema 10. La Figura 7 ilustra un diagrama de bloque del módulo de reconocimiento de lenguaje y entendimiento 14. El lenguaje o habla de entrada recibido del módulo de interfase de lenguaje 12 es enviado al módulo de reconocimiento y entendimiento del lenguaje 14. El módulo de reconocimiento y entendimiento del lenguaje 14 incluye un motor de reconocimiento 306, el cual tiene un modelo de lenguaje asociado 310. El motor de reconocimiento 306 utiliza el modelo de lenguaje 310 para identificar posibles estructuras de semántica de superficie para representar cada una de las frases que forman la entrada, proporcionando análisis semánticos parciales u objetos a medida que la entrada es recibida. A diferencia de los sistemas que esperan a que el usuario complete la declaración y después procese la entrada completa recibida, el módulo 14 continuamente proporciona objetos semánticos basándose solamente en lo que ha recibido. El motor de reconocimiento 306 proporciona por lo menos un objeto de salida semántico de superficie basándose en la declaración parcial. En algunas modalidades, el motor de reconocimiento 306 es capaz de proporcionar más de un objeto de semántica de superficie alternativo para cada estructura alternativa. Aunque ilustrado en la Figura 7, en donde se proporciona la entrada de lenguaje o habla la presente invención puede ser utilizada con reconocimiento de escritura, reconocimiento de ejemplos o interfases de usuario gráficas (en donde el usuario interactúa como un teclado u otro dispositivo de entrada). En estas otras modalidades, el reconocedor de lenguaje o habla 306 es reemplazado por un motor de reconocimiento adecuado como es conocido en la técnica. Para interfases de usuario gráficas, una gramática (teniendo el modelo de lenguaje) está asociada con la entrada el usuario tal como a través de una caja de entrada. Por consiguiente, la entrada de un usuario es procesada en una forma consistente sin modificación importante basándose en la forma de la entrada. El diálogo interactivo discutido anteriormente, el cual también incluye otras formas de realimentación informativa a través del sistema 10 basándose en análisis semánticos parciales u objetos, puede ser implementado utilizando SALT (Etiquetas de Lenguaje de Aplicación del Habla, según sus siglas en inglés) u otro lenguaje o habla, escritura, y APIs de reconocimiento de patrón (Interfases de Programa de Aplicación) que soportan una construcción de modelo de lenguaje que puede proporcionar información semántica basándose en un esquema seleccionado para una aplicación dada y descodificación sincrónica del objeto semántico. La SALT es un estándar en desarrollo para permitir el acceso a información, aplicaciones y servicios de web a partir de computadoras personales, teléfonos, PCs de tableta, y dispositivos móviles inalámbricos, por ejemplo, pero también puede ser aplicada a interfases de aplicación así como sin interconexión a través de una red. SALT extiende lenguajes de marcación existentes tales como HTML, XHTML y XML. La especificación de SALT 1.0 puede ser encontrada en linea en http://www.SALTforum.org. Se debe observar que SALT puede proporcionar información semántica basándose en la entrada del usuario, por ejemplo, del servidor de lenguaje o habla 204, en donde dicha información forma los objetos provistos al módulo de ejecución o presentación de datos 16 después de completar una declaración; sin embargo, como se discute más adelante, SALT puede ser utilizado en una forma no previamente contemplada para proporcionar análisis semánticos parciales u objetos. El uso de extensiones de SALT, o extensiones similares en otras APIs, proporciona soporte para la interacción del usuario dirigida por un evento altamente interactivo. Al utilizar SALT a manera de ejemplo, se puede utilizar el objeto escuchar de SALT para realizar tareas tanto de reconocimiento como de entendimiento de lenguaje. Esto es porque el diseño sigue el punto de vista y formulación que trata al entendimiento de lenguaje o habla como un problema de reconocimiento de patrón, justo como el reconocimiento del habla o lenguaje. Ambos insisten en encontrar un patrón de una colección de posibles resultados que mejor coincida con una señal de lenguaje o habla dada. Para el reconocimiento de lenguaje o habla, el patrón que será encontrado es una cadena de palabras mientras que, para el entendimiento, es un árbol de objetos semánticos. Una tarea de reconocimiento de lenguaje tradicional instruye al proceso de búsqueda con un modelo de lenguaje en la forma de cadenas o tiras de palabras. En una forma similar, una tarea de entendimiento de lenguaje puede guiar al mismo motor de búsqueda para formar los árboles de objeto semántico adecuados como un modelo semántico. Como un modelo de lenguaje que por lo regular implica un léxico y las reglas de formar segmentos de frase de las entradas del léxico, un modelo semántico implica un diccionario de todos los objetos semánticos y las reglas que lo componen. Aunque el resultado de reconocimiento es una cadena de texto, el resultado de entendimiento es un árbol de objetos semánticos. Aunque es posible extender N-gramática para regresar un resultado de búsqueda estructurado, las aplicaciones de entendimiento de lenguaje o habla más típicas se basan en la gramática libre de contexto probabilistica (PCFG), en donde los diseñadores pueden especificar reglas de la composición de objetos semánticos sin datos de entrenamiento anotados de banco de árbol masivos. Un método para especificar dichas reglas es asociar cada regla de PCFG con directivos de producción para el motor de búsqueda sobre cómo transformar el árbol de análisis de PCFG parcial a un árbol de objeto semántico. Un ejemplo escrito en un formato de Interfase de aplicación de lenguaje de Microsoft (SAPI) (el cual también es un ejemplo de una API de lenguaje que puede ser utilizada en la presente invención) se muestra a continuación: <nombre regla = "nyc"> <lista> <fase>nueva york ? ciudad</fase> <fase> ?la gran manzana </fase> </lista> <salida> <ciudad_ubicación> <ciudad>Nueva York </ciudad> <estado>nueva york </estado> <país>EUA</pais> </ciuidad_ubicación> </salida> </regla>
<regla nombre = "nueva junta"> <reglaref min = "0" nombre = "FrasePortador > <reglaref max = "inf" nombre = "PropiedadApt"/> <salida> <Nueva Junta> <FechaHora> <xsl:aplicar- seleccionar p I a n t i 11 a s = "//Fecha"/> <xsl:aplicar- seleccionar planti llas= "//Hora"/> <xsl:aplicar- seleccionar plantillas^ "//Duración"/> </Fecha Hora> <lnvitados> <xsl:apl ¡car- seleccionar plantillas= "//Persona"/> </lnvitados>
</NuevaJunta> </salida> </regla>
<nombre regla = "Propiedad Apt < I ista > <reglaref nombre = "Fecha7> <reglaref nombre = "Duración' '/> <reglaref nombre = "Hora7> <reglaref nombre = "Persona" max <reglaref nombre = "AptSujeto7>
</lista> </regla> El segmento de gramática contiene tres reglas. La primera, una pre-terminal denominada "nyc" lista las expresiones para la ciudad de Nueva York. Las etiquetas <salida> en este ejemplo abarcan las reglas para la construcción de objetos semánticos. Se invocan cuando la trayectoria de búsqueda sale del nodo de gramática denotado por la señal inmediatamente que le precede. En el caso, un objeto semántico, representado en XML con un elemento de <ubicación_ciudad> , se crea cuando una trayectoria de búsqueda sale de la regla "nyc". Este objeto de semántica a su vez está compuesto de tres objetos de semántica: las abreviaturas para el nombre de ciudad, estado y nombre de país, respectivamente. La composición de objetos semánticos también puede ser un procedimiento dinámico, por ejemplo, en la programación de una nueva junta. Por ejemplo, un objeto semántico de Nueva Junta será producido cuando el usuario termine la especificación de las propiedades de la junta tales como fecha, hora, duración y asistentes. Se puede utilizar plantillas para pegar otros objetos semánticos como constituyentes en el objeto semántico de Nueva Junta. El mismo principio también puede ser aplicado a otras reglas no mostradas aquí. Como un ejemplo, una determinación "programar una junta con Li Deng y Alex Acero el 1o. de enero a primera hora" dará como resultado el siguiente objeto semántico: <NuevaJunta> <FechaHora> <Fecha>01/01/2003</Fecha> <Durac¡ón>3600</Duración> </FechaHora> <lnvitados> <Persona>Li Deng</Persona> <Persona>Alex Acero</persona> </lnvitados> </NuevaJunta> En aplicaciones reales, la cobertura de PCFG mejorada es una tarea intimidada. Por lo tanto, es deseable poder utilizar un N-grama para modelar, entre otras cosas, frases funcionales que no lleven información semántica crítica pero usualmente tengan variaciones de capacidad de tamaño en la estructura sintáctica (por ejemplo, "puedo", "me puede enseñar "por favor me muestra ..."). En una modalidad, el modelo de lenguaje 310 comprende un modelo de lenguaje semántico que combina PCFG con N-grama. La técnica es ligeramente diferente de un modelo de lenguaje unificado, el cual también puede ser utilizado. El modelo de lenguaje unificado es una extensión natural a la clase convencional N-grama, excepto que permite que fragmentos de CFG, no solo una lista de palabras, sean modelados como una señal individual en el N-grama. El reconocedor 306 que utiliza este modelo sigue produciendo una cadena de texto que tiene que ser subsecuentemente analizada. El modelo de lenguaje unificado de esta manera está diseñado para incorporar cierta estructura lingüística para ayudar a la transcripción de texto. El modelo de lenguaje semántico, por otro lado, tiene por objeto utilizar el descodif icador o reconocedor para buscar la estructura semántica, que usualmente se captura mejor a través de PCFG. Por lo tanto, en lugar de modernizar fragmentos CFG a N-grama, el PCFG se utiliza para contener N-grama creando una pre-terminal de PCFG especial que corresponde a un N-grama de intereses. En el formato de gramática de SAPI de Microsoft, esto puede ser denotado utilizando una pre-terminal con una etiqueta de <dictado> de XML, como en: LCFG <dictado max = "inf"/> RCFG en donde LCFG y RCFG denotan el contexto izquierdo y derecho del N-grama embebido, respectivamente. El procedimiento de búsqueda trata la etiqueta de <dictado> como una señal y la expande al N-grama como si entrara a una no terminal regular. El atributo máximo en la etiqueta especifica el número máximo de palabras que pueden ser consumidas por el N-grama. Dentro de este N-grama, la probabilidad de cadena de palabras es calculada interpolando el N-grama de retroceso con el PCFG, más específicamente: P(wn | wn-i,wn -2.... ) = ??(??? | Ngrama, w„.,, wn-2,...) + (1-??(??? | RCFG)P(RCFG | wn-1, wn-2,...) (1) en donde ? es el peso de interpolación de N-grama y P(RCFG | wn. !,...) utiliza la probabilidad de retroceso del N-grama, es decir, wn se trata como si fuera una salida de la palabra de vocabulario. En una modalidad, el término P(wn | RCFG) asume solamente el valor binario dependiendo de que si el tamaño de cadena de palabra de N-grama máximo es alcanzado y la palabra está en la cobertura del fragmento CFG o no. Ya que las palabras trazadas de PCFG por lo regular tienen una probabilidad más alta, las trayectorias que realmente pertenecen a lo que va a ser cubierto por CFG tienden a ganar sus contrapartes de N-grama a un cuando la cuenta máxima de palabra de N-grama se fije en infinito. Además de frases funcionales, el N-grama embebido también puede ser utilizado para modelar objetos semánticos con un dictado tipo propiedad. Por ejemplo, el tema de junta se modela en una tarea como: <regla nombre = "AptSujeto" <dictado max = "inf'7> </p> Otros detalles con respecto al modelo de lenguaje semántico se describen por K. Wang, "Semantic modeling for dialog systems in a pattern recognition framework", in Proc. AZUR-2002, Trento Italia, 2001, la cual se incorpora aquí por referencia en su totalidad. Un aspecto más de la presente invención incluye el nuevo uso del objeto escuchar de SALT. SALT proporciona un grupo de elementos XML, con atributos asociados y propiedades de objeto DOM eventos y modelos, los cuales pueden ser utilizados junto con un documento de marcación de fuente para aplicar una interfase de lenguaje a una página fuente. En general, los elementos principales incluye: <¡ncitar...> para configuración de síntesis de lenguaje e incitar reproducción <escuchar...> para configuración de reconocedor de lenguaje, ejecución de reconocimiento y procesamiento posterior y grabación <dtmf...> para configuración y control de DTMF <smex...> para comunicación de propósito general con componente de plataforma Los objetos escuchar y dtmf también contienen controles de gramática y de unión: <gramática ...> para especificar recursos de gramática de entrada <unir ...> para procesar resultados de reconocimiento El elemento escuchar puede incluir un atributo de "modo" para distinguir tres modos de reconocimiento, los cuales instruyen al servidor de reconocimiento (por ejemplo, 204) como y cuando regresar los resultados. El regreso de resultados implica proporcionar el evento "onReco" o activar los elementos de "unir" según sea apropiado. En un primer modo, "automático", la plataforma de lenguaje o de habla, en lugar de la aplicación, está en control de cuando detener el procedimiento de reconocimiento. Este modo ha sido avanzado para telefonía o escenarios a manos libres. Tan pronto quede disponible un resultado de reconocimiento, y/o cuando un periodo de tiempo haya transcurrido indicando silencio, la plataforma de lenguaje o habla automáticamente retiene el reconocedor y regresa a su resultado, el cual después puede ser asociado con el campo apropiado a través del elemento de unión. En un segundo modo de operación, "individual", el regreso de un resultado de reconocimiento está bajo el control de una llamada explícita de "detener". La llamada de detener puede corresponder a un evento tal como "encerrado" por el usuario, y este modo es avanzado para ser utilizado en un ambiente multimodal en donde el dispositivo permite la entrada de lenguaje o habla, pero el usuario generalmente está bajo el control del cual y cuando selecciona campos, por ejemplo, a través del uso del estilete 33 (Figura 1). Un tercer modo de operación del reconocedor de lenguaje es un "modo múltiple". Este modo de operación se utiliza para un "micrófono abierto" o en un escenario de dictado. En general, en este modo de operación, los resultados del reconocimiento son regresados a intervalos hasta que se recibe una llamada de detención explícita o los otros periodos de tiempo asociados con una entrada no reconocida o un tiempo máximo para escuchar, son excedidos. En general, en este modo de operación, para cada frase que es reconocida, se emite un evento de "OnReco" y el resultado es regresado hasta que se recibe la llamada de detención (). Sin embargo, este modo de operación, como otro aspecto de la presente invención, puede proporcionar un medio para que los motores de búsqueda expongan capacidades más interactivas a los usuarios permitiéndoles reportar de inmediato cada vez que se alcanza una marca lingüística saliente. Son bien conocidos los algoritmos de búsqueda que se basan en descodificación sincrónica con el tiempo y se pueden emplear para este modo en una forma directa. Uno de estos algoritmos se describe por H. Ney, S. Ortmanns, "Dynamic programming search for continuous speech recognition", IEE Signal Processing Magazine, pág. 64-83, 1999. Para reconocimiento de lenguaje o habla, la marca lingüística usualmente corresponde a una palabra a un límite de frase. Un reconocimiento de modo múltiple de SALT de esta manera se puede utilizar para presentar dinámicamente las hipótesis de cadena de palabras en cuanto estén disponibles, un efecto Ul comúnmente visto en muchos software de dictado comercial. Sin embargo, en la presente invención, el modo múltiple puede tratar las instancias de objetos semánticos como marcas lingüísticas y reporte, es decir, proporcionar cierta respuesta como una función de los que se entendió, de regreso a la aplicación en ellos en una forma dinámica también. Esto aparece al diseñador de aplicación como si SALT estuviera realizando un entendimiento sincrónico de objeto semántico. Este modo de operación puede ser mejor entendido comparándolo con un escenario multimodal. En el escenario multimodal un usuario indica un campo, por ejemplo, señalando y manteniendo el estilete en un campo de entrada mientras se está hablando. Aunque el usuario puede derivar sobre un campo genérico y declarar una oración elaborada para llenar muchos campos en la oración individual, la interferencia de ahusamiento y habla sin embargo acopla los ojos y las manos del usuario, un esquema no apropiado para muchas situaciones. Además, aunque la derivación y el habla caracterizan una comunicación de canal de regreso rica que presenta el volumen y una barra de progreso del procedimiento de lenguaje hablado subyacente, aquellas realimentaciones proporcionan solamente claves muy primitivas de la calidad del procesamiento de lenguaje hablado en términos de velocidad y exactitud. Esto puede ser potencialmente más problemático para oraciones más largas, en donde se pueden propagar errores a un campo más amplio que finalmente requiere de más esfuerzos para verificar y corregir meramente los resultados de reconocimiento y entendimiento. Ya que los estudios de capacidad de uso parecen indicar que las oraciones largas son un factor de diferenciación de clave que demuestra la utilidad del lenguaje o habla, como más que una mejora de teclado o alternativa, es absolutamente necesaria une experiencia de Ul que quede satisfecha para el éxito de utilizar el lenguaje o habla con una modalidad viable. Con el fin de promover la percepción del humano-computadora como patrones estrechamente colaboradores para lograr un objetivo común, el entendimiento sincrónico de objeto semántico, reportando los análisis semánticos parciales u objetos siempre que estén disponibles, es efectivo. En una modalidad, esto se logra utilizando el modo múltiple del elemento de escuchar el SALT. En particular, para el elemento de escuchar, se designa un modo múltiple y todas las gramáticas de reconocimiento después se satisfacen para que el lenguaje de entrada sea reconocido. La asignación de resultados también se especifica en el objeto de escuchar. Por ejemplo, el código de entrada de HTML para adquirir información necesaria, tal como fecha, hora, ubicación, tema, y invitados a la junta, etc., para una nueva junta puede tomar la forma de <escuchar modo = "múltiple" ...> <gramática src = "sujeto. grm"/> <gramática src = "fecha. grm"/> <gramática src = "hora_duración.grm'7> <gramática src = "asistentes. grm"/> < u n i r Elementoobjetivo = "sujeto" valor = "//AptSujeto"/> <unir Elementoobjetivo = "fecha" valor = 7/FechaHora7> <unir Elementoobjetivo = "hora_inicio" valor = 7/hora_inic¡o" elementoobjetivo = "hora_término" valor = "//hora_término" Elementoobjetivo = "duración" Valor = //FechaHora / duración7>
</escuchar> Las múltiples gramáticas componen un espacio de búsqueda paralelo para el reconocimiento con un lazo de transición nulo de regreso al punto de entrada. En este modo, SALT permite que el objeto escuchar incremente un evento siempre que se produzca una gramática. El evento ataca un procedimiento paralelo para invocar a los directivos de unión en secuencia mientras se está presentando la recolección y reconocimiento de audio subyacente, creando así el efecto para el usuario de que campos importantes en la forma están siendo llenados mientras un comando hablado sigue siendo determinado para una aplicación que tiene una ejecución o presentación visual de campos. La interfase de usuario para aplicaciones libres de ojos, se pueden desear salidas de lenguaje acompañadas. En este caso, se puede utilizar objetos de incitar SALT para proporcionar realimentaciones inmediatas. Por ejemplo, el objeto incitar de SALT siguiente puede ser utilizado para sincronizar respuestas basándose en los contenidos dinámicos de campo de fechas, y la síntesis del lenguaje puede ser activada con directivos de unión de SALT adicionales, como sigue: < incitar id = "decir_fecha"> en <valor Elementoobjetivo = "fecha"/> </iniciar>
<escuchar ... > <unir Elementoobjetivo = "fecha" valor = "//fecha Elementoobjetivo = "decir_fecha"
Métodoobjetivo = "lnicio"/>
</escuchar> El efecto neto es que el usuario siente como si estuviera hablando con otra parte que no solamente anotan sino que repite lo que escuchan, como en "programar una junta (nueva junta) a las dos (empezando a las dos PM) el siguiente martes (el 10/29/02) durante 2 horas (duración: 2 horas)", en donde las frases provistas (representan los indicadores audibles y/o visuales (los cuales también pueden estar sincronizados) de regreso al usuario. Se debe observar que SALT permite que los diseñadores unan manejadores de evento de reconocimiento adaptados que realicen cómputos sofisticados más allá de las simples asignaciones como con los directivos de unión de SALT. En el ejemplo anterior, la normalización de fecha puede lograrse en la gramática semántica que, sin embargo, no puede facilitar una resolución de referencia avanzada (por ejemplo, "programar una junta con Li Deng y su administrador"). Para tales casos, se pueden implementar algoritmos como objetos de manuscrito accesibles a manejadores de evento apropiados para tener acceso a datos almacenados para determinar referencias indefinidas. Dicho algoritmos se describen por K. Wang, "A plan based dialog system with probabilistic interferences", en Proc. ICSLP-2000, Beijing China, 2000, y la solicitud de patente Europea EP 1199630A2, publicada el 24 de abril del 2002, las cuales se incorporan aquí por referencia en su totalidad. Se debe observar que aunque la operación de modo múltiple existió para el objeto escuchar, en implementaciones actuales, este modo proporciona solamente texto para la entrada recibida tal como en el escenario de dictado. Sin embargo, en este aspecto de la presente invención, los resultados parciales como entrada que están siendo recibidos no son solamente el texto, sino que también incluyen la información de semántica correspondiente que pertenece al texto, y de esta manera la salida comprende análisis semánticos parciales u objetos, que se pueden utilizar como se describe anteriormente para proporcionar al usuario una realimentación con más calidad de que la computadora ha entendido con propiedad lo que ha recibido. Dependiendo de la sofisticación de la aplicación que recibe los análisis semánticos parciales u objetos, el sistema puede proporcionar de regreso al usuario confirmaciones, alternativas, correcciones y aclaraciones basándose en los análisis semánticos parciales recibidos. Aunque en aplicaciones multimodales se sabe incluir múltiples gramáticas para permitir que el usuario hable, y de esta manera, proporcionan la habilidad de proveer información que no ha sido indicada, utilizando el elemento escuchar en la operación de modo múltiples puede ser mejor, ya que proporciona al usuario una indicación superior de entendimiento. En una aplicación de solo voz, una forma natural de diálogo es generada, mientras que si se emplean ejecuciones o presentaciones visuales, una aplicación puede comenzar a procesarse (tomando acciones, presentando resultados u opciones, por ejemplo, a través de ventanas de menú de desplazamiento) basándose solamente en los análisis semánticos parciales de lo que el usuario ya ha provisto y mientras el usuario sigue hablando. Aunque la presente invención ha sido descrita con referencia a modalidades particulares, aquellos expertos en la técnica reconocerán que se pueden hacer cambios en la forma y detalla sin apartarse del espíritu y alcance de la invención.
Claims (10)
1. - Un sistema de entendimiento de habla que comprende: un modelo de lenguaje comprendiendo una combinación de un modelo de lenguaje de N-grama y un modelo de lenguaje de gramática libre de contexto, el modelo de lenguaje almacena información con relación a palabras e información de semántica que será reconocida; un modelo adaptado para recibir una entrada por parte de un usuario y capturar la entrada para procesamiento, el modelo además estando adaptado para recibir interfases de programa de aplicación de SALT que pertenecen al reconocimiento de la entrada, el módulo configurado para procesar las interfases de programa de aplicación de SALT y la entrada para determinar cierta información semántica que pertenece a una primera porción de la entrada y producir un objeto semántico comprendiendo texto e información semántica para la primera porción accesando el modelo de lenguaje, en donde la realización de reconocimiento y producción de resultados del objeto semántico se realizan mientras la captura se continua para porciones subsecuentes de la entrada.
2. - El sistema de acuerdo con la reivindicación 1, en donde el modelo de lenguaje comprende un modelo de lenguaje unificado.
3. - El sistema de acuerdo con la reivindicación 1, en donde el modelo de lenguaje comprende un modelo de lenguaje semántico. 4.- El sistema de acuerdo con la reivindicación 1, 2 ó 3, en donde el módulo está adaptado para identificar un objeto de escuchar de SALT en un modo múltiple con el fin de realizar el reconocimiento y producir resultados del objeto semántico, mientras la captura continua para porciones subsecuentes de la entrada. 5.- El sistema de acuerdo con la reivindicación 4, en donde el módulo está adaptado para identificar objetos de gramática para definir un espacio de búsqueda del modelo de lenguaje. 6. - El sistema de acuerdo con la reivindicación 1, 2 ó 3, en donde el módulo está adaptado para identificar objetos de gramática para definir un espacio de búsqueda del modelo de lenguaje. 7. - Un medio legible por computadora que incluye instrucciones legibles por un dispositivo de cómputo que, cuando se implementan, hacen que el dispositivo de cómputo maneje información para realizar pasos, que comprende: recibir una entrada de un usuario y capturar la entrada para procesamiento; recibir interfases de programa de aplicación de SALT para identificar un modelo de lenguaje para realizar el reconocimiento y entendimiento, el modelo de lenguaje adaptado para proporcionar texto de entrada reconocida e información semántica para la entrada recibida; procesar la entrada accesando el modelo de lenguaje para realizar el reconocimiento en la entrada para determinar la información semántica que pertenece a una primera porción de la entrada y producir un objeto semántico que comprende texto de la entrada reconocida e información semántica para la primera porción, en donde la realización de reconocimiento y producción del objeto semántico se realizan mientras la captura continua para porciones subsecuentes de la entrada. 8. - El medio legible por computadora de acuerdo con la reivindicación 7, en donde el procesamiento incluye identificar un objeto de escuchar de SALT en un modo múltiple con el fin de realizar reconocimiento y producir el objeto semántico, mientras se continúa la captura para porciones subsecuentes de la entrada. 9. - El medio legible por computadora de acuerdo con la reivindicación 8, en donde la recepción de interfases de programa de aplicación de SALT incluye identificar objetos de gramática para definir un espacio de búsqueda del modelo de lenguaje. 10. - El medio legible por computadora de acuerdo con la reivindicación 7, en donde la recepción de interfases de programa de aplicación de SALT incluye identificar objetos de gramática para definir un espacio de búsqueda del modelo de lenguaje.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/448,018 US7200559B2 (en) | 2003-05-29 | 2003-05-29 | Semantic object synchronous understanding implemented with speech application language tags |
Publications (1)
Publication Number | Publication Date |
---|---|
MXPA04005122A true MXPA04005122A (es) | 2005-02-17 |
Family
ID=33131605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
MXPA04005122A MXPA04005122A (es) | 2003-05-29 | 2004-05-28 | Entendimiento sincronico de objeto semantico implementado con etiquetas de lenguaje de aplicacion del habla. |
Country Status (16)
Country | Link |
---|---|
US (1) | US7200559B2 (es) |
EP (2) | EP1970897A1 (es) |
JP (1) | JP4768970B2 (es) |
KR (1) | KR101042119B1 (es) |
CN (1) | CN100578614C (es) |
AT (1) | ATE398325T1 (es) |
AU (1) | AU2004201992B2 (es) |
BR (1) | BRPI0401850B1 (es) |
CA (1) | CA2467220C (es) |
DE (1) | DE602004014316D1 (es) |
HK (1) | HK1071466A1 (es) |
MX (1) | MXPA04005122A (es) |
MY (1) | MY142974A (es) |
RU (1) | RU2349969C2 (es) |
TW (1) | TWI376681B (es) |
ZA (1) | ZA200403492B (es) |
Families Citing this family (249)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU6630800A (en) * | 1999-08-13 | 2001-03-13 | Pixo, Inc. | Methods and apparatuses for display and traversing of links in page character array |
US8645137B2 (en) * | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US20110267263A1 (en) | 2000-07-17 | 2011-11-03 | Microsoft Corporation | Changing input tolerances based on device movement |
US7249018B2 (en) * | 2001-01-12 | 2007-07-24 | International Business Machines Corporation | System and method for relating syntax and semantics for a conversational speech application |
ITFI20010199A1 (it) * | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US20080313282A1 (en) | 2002-09-10 | 2008-12-18 | Warila Bruce W | User interface, operating system and architecture |
US7386449B2 (en) * | 2002-12-11 | 2008-06-10 | Voice Enabling Systems Technology Inc. | Knowledge-based flexible natural speech dialogue system |
US7426329B2 (en) | 2003-03-06 | 2008-09-16 | Microsoft Corporation | Systems and methods for receiving, storing, and rendering digital video, music, and pictures on a personal media player |
US7669134B1 (en) | 2003-05-02 | 2010-02-23 | Apple Inc. | Method and apparatus for displaying information during an instant messaging session |
US7966188B2 (en) * | 2003-05-20 | 2011-06-21 | Nuance Communications, Inc. | Method of enhancing voice interactions using visual messages |
US8301436B2 (en) * | 2003-05-29 | 2012-10-30 | Microsoft Corporation | Semantic object synchronous understanding for highly interactive interface |
US7532196B2 (en) * | 2003-10-30 | 2009-05-12 | Microsoft Corporation | Distributed sensing techniques for mobile devices |
US8190419B1 (en) | 2006-09-11 | 2012-05-29 | WordRake Holdings, LLC | Computer processes for analyzing and improving document readability |
US7739117B2 (en) * | 2004-09-20 | 2010-06-15 | International Business Machines Corporation | Method and system for voice-enabled autofill |
US20060155530A1 (en) * | 2004-12-14 | 2006-07-13 | International Business Machines Corporation | Method and apparatus for generation of text documents |
TWI276046B (en) * | 2005-02-18 | 2007-03-11 | Delta Electronics Inc | Distributed language processing system and method of transmitting medium information therefore |
US20060247925A1 (en) * | 2005-04-27 | 2006-11-02 | International Business Machines Corporation | Virtual push-to-talk |
US20060277525A1 (en) * | 2005-06-06 | 2006-12-07 | Microsoft Corporation | Lexical, grammatical, and semantic inference mechanisms |
JP4733436B2 (ja) * | 2005-06-07 | 2011-07-27 | 日本電信電話株式会社 | 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US7636794B2 (en) | 2005-10-31 | 2009-12-22 | Microsoft Corporation | Distributed sensing techniques for mobile devices |
US7817991B2 (en) * | 2006-02-14 | 2010-10-19 | Microsoft Corporation | Dynamic interconnection of mobile devices |
US7865357B2 (en) * | 2006-03-14 | 2011-01-04 | Microsoft Corporation | Shareable filler model for grammar authoring |
US8032375B2 (en) * | 2006-03-17 | 2011-10-04 | Microsoft Corporation | Using generic predictive models for slot values in language modeling |
US7752152B2 (en) * | 2006-03-17 | 2010-07-06 | Microsoft Corporation | Using predictive user models for language modeling on a personal device with user behavior models based on statistical modeling |
US20070239453A1 (en) * | 2006-04-06 | 2007-10-11 | Microsoft Corporation | Augmenting context-free grammars with back-off grammars for processing out-of-grammar utterances |
US7689420B2 (en) * | 2006-04-06 | 2010-03-30 | Microsoft Corporation | Personalizing a context-free grammar using a dictation language model |
US7505951B2 (en) * | 2006-05-30 | 2009-03-17 | Motorola, Inc. | Hierarchical state machine generation for interaction management using goal specifications |
US7797672B2 (en) * | 2006-05-30 | 2010-09-14 | Motorola, Inc. | Statechart generation using frames |
US7493293B2 (en) * | 2006-05-31 | 2009-02-17 | International Business Machines Corporation | System and method for extracting entities of interest from text using n-gram models |
US8140267B2 (en) * | 2006-06-30 | 2012-03-20 | International Business Machines Corporation | System and method for identifying similar molecules |
US8346555B2 (en) * | 2006-08-22 | 2013-01-01 | Nuance Communications, Inc. | Automatic grammar tuning using statistical language model generation |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8073681B2 (en) * | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US8515733B2 (en) * | 2006-10-18 | 2013-08-20 | Calculemus B.V. | Method, device, computer program and computer program product for processing linguistic data in accordance with a formalized natural language |
ES2302640B1 (es) * | 2006-12-21 | 2009-05-21 | Juan Jose Bermudez Perez | Sistema para la interaccion mediante voz en paginas web. |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US7912828B2 (en) * | 2007-02-23 | 2011-03-22 | Apple Inc. | Pattern searching methods and apparatuses |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
ITFI20070177A1 (it) | 2007-07-26 | 2009-01-27 | Riccardo Vieri | Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento. |
US8074199B2 (en) * | 2007-09-24 | 2011-12-06 | Microsoft Corporation | Unified messaging state machine |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8165886B1 (en) | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US8364694B2 (en) | 2007-10-26 | 2013-01-29 | Apple Inc. | Search assistant for digital media assets |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US8370160B2 (en) * | 2007-12-31 | 2013-02-05 | Motorola Mobility Llc | Methods and apparatus for implementing distributed multi-modal applications |
US8386260B2 (en) * | 2007-12-31 | 2013-02-26 | Motorola Mobility Llc | Methods and apparatus for implementing distributed multi-modal applications |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8327272B2 (en) | 2008-01-06 | 2012-12-04 | Apple Inc. | Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8289283B2 (en) | 2008-03-04 | 2012-10-16 | Apple Inc. | Language input interface on a device |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8352268B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
US20100082328A1 (en) * | 2008-09-29 | 2010-04-01 | Apple Inc. | Systems and methods for speech preprocessing in text to speech synthesis |
US8396714B2 (en) * | 2008-09-29 | 2013-03-12 | Apple Inc. | Systems and methods for concatenation of words in text to speech synthesis |
US8352272B2 (en) * | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8355919B2 (en) * | 2008-09-29 | 2013-01-15 | Apple Inc. | Systems and methods for text normalization for text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US9424246B2 (en) | 2009-03-30 | 2016-08-23 | Touchtype Ltd. | System and method for inputting text into electronic devices |
US9189472B2 (en) | 2009-03-30 | 2015-11-17 | Touchtype Limited | System and method for inputting text into small screen devices |
GB0905457D0 (en) | 2009-03-30 | 2009-05-13 | Touchtype Ltd | System and method for inputting text into electronic devices |
GB0917753D0 (en) | 2009-10-09 | 2009-11-25 | Touchtype Ltd | System and method for inputting text into electronic devices |
US10191654B2 (en) | 2009-03-30 | 2019-01-29 | Touchtype Limited | System and method for inputting text into electronic devices |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US8412531B2 (en) * | 2009-06-10 | 2013-04-02 | Microsoft Corporation | Touch anywhere to speak |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US20110010179A1 (en) * | 2009-07-13 | 2011-01-13 | Naik Devang K | Voice synthesis and processing |
KR20110036385A (ko) * | 2009-10-01 | 2011-04-07 | 삼성전자주식회사 | 사용자 의도 분석 장치 및 방법 |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US9104670B2 (en) | 2010-07-21 | 2015-08-11 | Apple Inc. | Customized search or acquisition of digital media assets |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
TWI423044B (zh) * | 2010-10-25 | 2014-01-11 | Univ Nat Taiwan Science Tech | 基於普及運算的意見交流方法與系統 |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US8983995B2 (en) * | 2011-04-15 | 2015-03-17 | Microsoft Corporation | Interactive semantic query suggestion for content search |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US20130204619A1 (en) * | 2012-02-03 | 2013-08-08 | Kextil, Llc | Systems and methods for voice-guided operations |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
KR102516577B1 (ko) | 2013-02-07 | 2023-04-03 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US9294539B2 (en) | 2013-03-14 | 2016-03-22 | Microsoft Technology Licensing, Llc | Cooperative federation of digital devices via proxemics and device micro-mobility |
CN105190607B (zh) | 2013-03-15 | 2018-11-30 | 苹果公司 | 通过智能数字助理的用户培训 |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2014168730A2 (en) | 2013-03-15 | 2014-10-16 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008964B1 (en) | 2013-06-13 | 2019-09-25 | Apple Inc. | System and method for emergency calls initiated by voice command |
US9437186B1 (en) * | 2013-06-19 | 2016-09-06 | Amazon Technologies, Inc. | Enhanced endpoint detection for speech recognition |
US9123336B1 (en) * | 2013-06-25 | 2015-09-01 | Google Inc. | Learning parsing rules and argument identification from crowdsourcing of proposed command inputs |
US9026431B1 (en) * | 2013-07-30 | 2015-05-05 | Google Inc. | Semantic parsing with multiple parsers |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US9495359B1 (en) * | 2013-08-21 | 2016-11-15 | Athena Ann Smyros | Textual geographical location processing |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US8868409B1 (en) | 2014-01-16 | 2014-10-21 | Google Inc. | Evaluating transcriptions with a semantic parser |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9898459B2 (en) | 2014-09-16 | 2018-02-20 | Voicebox Technologies Corporation | Integration of domain information into state transitions of a finite state transducer for natural language processing |
EP3195145A4 (en) | 2014-09-16 | 2018-01-24 | VoiceBox Technologies Corporation | Voice commerce |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9747896B2 (en) | 2014-10-15 | 2017-08-29 | Voicebox Technologies Corporation | System and method for providing follow-up responses to prior natural language inputs of a user |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US9836527B2 (en) * | 2016-02-24 | 2017-12-05 | Google Llc | Customized query-action mappings for an offline grammar model |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
GB201610984D0 (en) | 2016-06-23 | 2016-08-10 | Microsoft Technology Licensing Llc | Suppression of input images |
US10503808B2 (en) | 2016-07-15 | 2019-12-10 | Sap Se | Time user interface with intelligent text reduction |
US10140260B2 (en) * | 2016-07-15 | 2018-11-27 | Sap Se | Intelligent text reduction for graphical interface elements |
CN107665706B (zh) * | 2016-07-29 | 2021-05-04 | 科大讯飞股份有限公司 | 快速语音交互方法及系统 |
WO2018023106A1 (en) | 2016-07-29 | 2018-02-01 | Erik SWART | System and method of disambiguating natural language processing requests |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
RU2648572C1 (ru) * | 2017-01-12 | 2018-03-26 | Общество с ограниченной ответственностью "Инвестиционная группа "Коперник" | Алгоритм поиска в компьютерных системах и базах данных |
US10311860B2 (en) * | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
TWI640877B (zh) * | 2017-06-14 | 2018-11-11 | 財團法人資訊工業策進會 | 語意分析裝置、方法及其電腦程式產品 |
US11037554B1 (en) * | 2017-09-12 | 2021-06-15 | Wells Fargo Bank, N.A. | Network of domain knowledge based conversational agents |
CN108010525A (zh) * | 2017-12-07 | 2018-05-08 | 横琴七弦琴知识产权服务有限公司 | 一种语音控制智能抽屉系统 |
CN108133701B (zh) * | 2017-12-25 | 2021-11-12 | 江苏木盟智能科技有限公司 | 一种机器人语音交互的系统与方法 |
CN109994105A (zh) * | 2017-12-29 | 2019-07-09 | 宝马股份公司 | 信息输入方法、装置、系统、车辆以及可读存储介质 |
CN108831482A (zh) * | 2018-08-24 | 2018-11-16 | 深圳市云采网络科技有限公司 | 一种基于语音识别搜索电子元器件的方法 |
US11430433B2 (en) * | 2019-05-05 | 2022-08-30 | Microsoft Technology Licensing, Llc | Meeting-adapted language model for speech recognition |
CN110379428A (zh) * | 2019-07-16 | 2019-10-25 | 维沃移动通信有限公司 | 一种信息处理方法及终端设备 |
CN110619873A (zh) * | 2019-08-16 | 2019-12-27 | 北京小米移动软件有限公司 | 音频处理方法、装置及存储介质 |
CN113223510B (zh) * | 2020-01-21 | 2022-09-20 | 青岛海尔电冰箱有限公司 | 冰箱及其设备语音交互方法、计算机可读存储介质 |
Family Cites Families (119)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2981254A (en) * | 1957-11-12 | 1961-04-25 | Edwin G Vanderbilt | Apparatus for the gas deflation of an animal's stomach |
US3657744A (en) * | 1970-05-08 | 1972-04-25 | Univ Minnesota | Method for fixing prosthetic implants in a living body |
US3788327A (en) * | 1971-03-30 | 1974-01-29 | H Donowitz | Surgical implant device |
US3874388A (en) * | 1973-02-12 | 1975-04-01 | Ochsner Med Found Alton | Shunt defect closure system |
US4014318A (en) * | 1973-08-20 | 1977-03-29 | Dockum James M | Circulatory assist device and system |
US4086665A (en) * | 1976-12-16 | 1978-05-02 | Thermo Electron Corporation | Artificial blood conduit |
US4212463A (en) * | 1978-02-17 | 1980-07-15 | Pratt Enoch B | Humane bleeder arrow |
DE3019996A1 (de) * | 1980-05-24 | 1981-12-03 | Institute für Textil- und Faserforschung Stuttgart, 7410 Reutlingen | Hohlorgan |
US4808183A (en) * | 1980-06-03 | 1989-02-28 | University Of Iowa Research Foundation | Voice button prosthesis and method for installing same |
DE3583141D1 (de) * | 1984-11-15 | 1991-07-11 | Stefano Nazari | Einrichtung zur selektiven bronchialintubation und getrennten lungenventilation. |
ES8705239A1 (es) * | 1984-12-05 | 1987-05-01 | Medinvent Sa | Un dispositivo para implantar,mediante insercion en un lugarde dificil acceso, una protesis sustancialmente tubular y radialmente expandible |
US4759758A (en) * | 1984-12-07 | 1988-07-26 | Shlomo Gabbay | Prosthetic heart valve |
US4831550A (en) | 1986-03-27 | 1989-05-16 | International Business Machines Corporation | Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events |
US4832680A (en) * | 1986-07-03 | 1989-05-23 | C.R. Bard, Inc. | Apparatus for hypodermically implanting a genitourinary prosthesis |
US4795449A (en) * | 1986-08-04 | 1989-01-03 | Hollister Incorporated | Female urinary incontinence device |
US4852568A (en) * | 1987-02-17 | 1989-08-01 | Kensey Nash Corporation | Method and apparatus for sealing an opening in tissue of a living being |
DE3723078A1 (de) | 1987-07-11 | 1989-01-19 | Philips Patentverwaltung | Verfahren zur erkennung von zusammenhaengend gesprochenen woertern |
DE3821631A1 (de) * | 1987-07-28 | 1989-02-09 | Bader Paul | Verschluss fuer eine maennliche harnroehre |
DE3739681A1 (de) | 1987-11-24 | 1989-06-08 | Philips Patentverwaltung | Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens |
US4830003A (en) * | 1988-06-17 | 1989-05-16 | Wolff Rodney G | Compressive stent and delivery system |
JP2710355B2 (ja) * | 1988-09-20 | 1998-02-10 | 日本ゼオン株式会社 | 医用弁装置 |
US4846836A (en) * | 1988-10-03 | 1989-07-11 | Reich Jonathan D | Artificial lower gastrointestinal valve |
DE3834545A1 (de) * | 1988-10-11 | 1990-04-12 | Rau Guenter | Flexibles schliessorgan, insbesondere herzklappe, und verfahren zur herstellung desselben |
CA2054728C (en) * | 1989-05-31 | 2003-07-29 | Rodolfo C. Quijano | Biological valvular prosthesis |
US5263117A (en) | 1989-10-26 | 1993-11-16 | International Business Machines Corporation | Method and apparatus for finding the best splits in a decision tree for a language model for a speech recognizer |
US5411552A (en) * | 1990-05-18 | 1995-05-02 | Andersen; Henning R. | Valve prothesis for implantation in the body and a catheter for implanting such valve prothesis |
DK124690D0 (da) * | 1990-05-18 | 1990-05-18 | Henning Rud Andersen | Klapprotes til implantering i kroppen for erstatning af naturlig klap samt kateter til brug ved implantering af en saadan klapprotese |
US5193525A (en) * | 1990-11-30 | 1993-03-16 | Vision Sciences | Antiglare tip in a sheath for an endoscope |
US5116360A (en) * | 1990-12-27 | 1992-05-26 | Corvita Corporation | Mesh composite graft |
US5477451A (en) | 1991-07-25 | 1995-12-19 | International Business Machines Corp. | Method and system for natural language translation |
US5123919A (en) * | 1991-11-21 | 1992-06-23 | Carbomedics, Inc. | Combined prosthetic aortic heart valve and vascular graft |
DE69324239T2 (de) * | 1992-01-21 | 1999-11-04 | Univ Minnesota | Verschlusseinrichtung eines septumschadens |
US5329887A (en) * | 1992-04-03 | 1994-07-19 | Vision Sciences, Incorporated | Endoscope control assembly with removable control knob/brake assembly |
US5502774A (en) | 1992-06-09 | 1996-03-26 | International Business Machines Corporation | Automatic recognition of a consistent message using multiple complimentary sources of information |
US5382261A (en) * | 1992-09-01 | 1995-01-17 | Expandable Grafts Partnership | Method and apparatus for occluding vessels |
JP3378595B2 (ja) * | 1992-09-30 | 2003-02-17 | 株式会社日立製作所 | 音声対話システムおよびその対話進行制御方法 |
US5409019A (en) * | 1992-10-30 | 1995-04-25 | Wilk; Peter J. | Coronary artery by-pass method |
US5419310A (en) * | 1992-11-03 | 1995-05-30 | Vision Sciences, Inc. | Partially inflated protective endoscope sheath |
US5384892A (en) | 1992-12-31 | 1995-01-24 | Apple Computer, Inc. | Dynamic language model for speech recognition |
US5306234A (en) * | 1993-03-23 | 1994-04-26 | Johnson W Dudley | Method for closing an atrial appendage |
US5447148A (en) * | 1993-07-08 | 1995-09-05 | Vision Sciences, Inc. | Endoscopic contamination protection system to facilitate cleaning of endoscopes |
EP0645757B1 (en) | 1993-09-23 | 2000-04-05 | Xerox Corporation | Semantic co-occurrence filtering for speech recognition and signal transcription applications |
US5615296A (en) | 1993-11-12 | 1997-03-25 | International Business Machines Corporation | Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors |
US5483951A (en) * | 1994-02-25 | 1996-01-16 | Vision-Sciences, Inc. | Working channels for a disposable sheath for an endoscope |
US5520607A (en) * | 1994-03-04 | 1996-05-28 | Vision Sciences, Inc. | Holding tray and clamp assembly for an endoscopic sheath |
US5499995C1 (en) * | 1994-05-25 | 2002-03-12 | Paul S Teirstein | Body passageway closure apparatus and method of use |
US5417226A (en) * | 1994-06-09 | 1995-05-23 | Juma; Saad | Female anti-incontinence device |
US5675819A (en) | 1994-06-16 | 1997-10-07 | Xerox Corporation | Document information retrieval using global word co-occurrence patterns |
US5752052A (en) | 1994-06-24 | 1998-05-12 | Microsoft Corporation | Method and system for bootstrapping statistical processing into a rule-based natural language parser |
US5755770A (en) * | 1995-01-31 | 1998-05-26 | Boston Scientific Corporatiion | Endovascular aortic graft |
US5689617A (en) | 1995-03-14 | 1997-11-18 | Apple Computer, Inc. | Speech recognition system which returns recognition results as a reconstructed language model with attached data values |
IT1279171B1 (it) | 1995-03-17 | 1997-12-04 | Ist Trentino Di Cultura | Sistema di riconoscimento di parlato continuo |
DE29507519U1 (de) * | 1995-05-05 | 1995-08-10 | Angiomed Ag, 76227 Karlsruhe | Endosphinkter und Set zum freigebbaren Verschließen der Urethra |
US5710866A (en) | 1995-05-26 | 1998-01-20 | Microsoft Corporation | System and method for speech recognition using dynamically adjusted confidence measure |
US5667476A (en) * | 1995-06-05 | 1997-09-16 | Vision-Sciences, Inc. | Endoscope articulation system to reduce effort during articulation of an endoscope |
US5680511A (en) | 1995-06-07 | 1997-10-21 | Dragon Systems, Inc. | Systems and methods for word recognition |
US5645565A (en) * | 1995-06-13 | 1997-07-08 | Ethicon Endo-Surgery, Inc. | Surgical plug |
US5830222A (en) * | 1995-10-13 | 1998-11-03 | Transvascular, Inc. | Device, system and method for intersititial transvascular intervention |
JPH09114488A (ja) * | 1995-10-16 | 1997-05-02 | Sony Corp | 音声認識装置,音声認識方法,ナビゲーション装置,ナビゲート方法及び自動車 |
CA2203132C (en) | 1995-11-04 | 2004-11-16 | Upali Bandara | Method and apparatus for adapting the language model's size in a speech recognition system |
US6567778B1 (en) | 1995-12-21 | 2003-05-20 | Nuance Communications | Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores |
US5913193A (en) | 1996-04-30 | 1999-06-15 | Microsoft Corporation | Method and system of runtime acoustic unit selection for speech synthesis |
US5937384A (en) | 1996-05-01 | 1999-08-10 | Microsoft Corporation | Method and system for speech recognition using continuous density hidden Markov models |
WO1997044085A2 (en) * | 1996-05-20 | 1997-11-27 | Percusurge, Inc. | Low profile catheter valve |
DE69719237T2 (de) * | 1996-05-23 | 2003-11-27 | Samsung Electronics Co Ltd | Flexibler, selbstexpandierbarer Stent und Verfahren zu dessen Herstellung |
US5835888A (en) | 1996-06-10 | 1998-11-10 | International Business Machines Corporation | Statistical language model for inflected languages |
KR980000327U (ko) * | 1996-06-13 | 1998-03-30 | 이정행 | 귀걸이 설치용 귀걸이홀 성형구 |
US5855601A (en) * | 1996-06-21 | 1999-01-05 | The Trustees Of Columbia University In The City Of New York | Artificial heart valve and method and device for implanting the same |
US5963903A (en) | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Method and system for dynamically adjusted training for speech recognition |
US5685822A (en) * | 1996-08-08 | 1997-11-11 | Vision-Sciences, Inc. | Endoscope with sheath retaining device |
US5782916A (en) * | 1996-08-13 | 1998-07-21 | Galt Laboratories, Inc. | Device for maintaining urinary continence |
JPH1097280A (ja) * | 1996-09-19 | 1998-04-14 | Hitachi Ltd | 音声画像認識翻訳装置 |
US5819220A (en) | 1996-09-30 | 1998-10-06 | Hewlett-Packard Company | Web triggered word set boosting for speech interfaces to the world wide web |
US5905972A (en) | 1996-09-30 | 1999-05-18 | Microsoft Corporation | Prosodic databases holding fundamental frequency templates for use in speech synthesis |
US5829000A (en) | 1996-10-31 | 1998-10-27 | Microsoft Corporation | Method and system for correcting misrecognized spoken words or phrases |
GB9701866D0 (en) | 1997-01-30 | 1997-03-19 | British Telecomm | Information retrieval |
DE19708183A1 (de) | 1997-02-28 | 1998-09-03 | Philips Patentverwaltung | Verfahren zur Spracherkennung mit Sprachmodellanpassung |
US6200333B1 (en) * | 1997-04-07 | 2001-03-13 | Broncus Technologies, Inc. | Bronchial stenter |
US6083255A (en) * | 1997-04-07 | 2000-07-04 | Broncus Technologies, Inc. | Bronchial stenter |
US6245102B1 (en) * | 1997-05-07 | 2001-06-12 | Iowa-India Investments Company Ltd. | Stent, stent graft and stent valve |
US5855597A (en) * | 1997-05-07 | 1999-01-05 | Iowa-India Investments Co. Limited | Stent valve and stent graft for percutaneous surgery |
US6073091A (en) | 1997-08-06 | 2000-06-06 | International Business Machines Corporation | Apparatus and method for forming a filtered inflected language model for automatic speech recognition |
US5954766A (en) * | 1997-09-16 | 1999-09-21 | Zadno-Azizi; Gholam-Reza | Body fluid flow control device |
US6154722A (en) | 1997-12-18 | 2000-11-28 | Apple Computer, Inc. | Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability |
DE59812219D1 (de) * | 1998-03-04 | 2004-12-09 | Schneider Europ Gmbh Buelach | Vorrichtung zum Einführen einer Endoprothese in einen Katheterschaft |
US6182039B1 (en) | 1998-03-24 | 2001-01-30 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus using probabilistic language model based on confusable sets for speech recognition |
US6141641A (en) | 1998-04-15 | 2000-10-31 | Microsoft Corporation | Dynamically configurable acoustic model for speech recognition system |
US6009614A (en) * | 1998-04-21 | 2000-01-04 | Advanced Cardiovascular Systems, Inc. | Stent crimping tool and method of use |
US5974652A (en) * | 1998-05-05 | 1999-11-02 | Advanced Cardiovascular Systems, Inc. | Method and apparatus for uniformly crimping a stent onto a catheter |
US6174323B1 (en) * | 1998-06-05 | 2001-01-16 | Broncus Technologies, Inc. | Method and assembly for lung volume reduction |
US6188976B1 (en) | 1998-10-23 | 2001-02-13 | International Business Machines Corporation | Apparatus and method for building domain-specific language models |
US6174280B1 (en) * | 1998-11-19 | 2001-01-16 | Vision Sciences, Inc. | Sheath for protecting and altering the bending characteristics of a flexible endoscope |
US6020380A (en) * | 1998-11-25 | 2000-02-01 | Tap Holdings Inc. | Method of treating chronic obstructive pulmonary disease |
US6051022A (en) * | 1998-12-30 | 2000-04-18 | St. Jude Medical, Inc. | Bileaflet valve having non-parallel pivot axes |
US6350231B1 (en) * | 1999-01-21 | 2002-02-26 | Vision Sciences, Inc. | Apparatus and method for forming thin-walled elastic components from an elastomeric material |
US6530881B1 (en) * | 1999-01-21 | 2003-03-11 | Vision Sciences, Inc. | Sheath apparatus for endoscopes and methods for forming same |
US6081799A (en) | 1999-05-05 | 2000-06-27 | International Business Machines Corporation | Executing complex SQL queries using index screening for conjunct or disjunct index operations |
US6206918B1 (en) * | 1999-05-12 | 2001-03-27 | Sulzer Carbomedics Inc. | Heart valve prosthesis having a pivot design for improving flow characteristics |
US6234996B1 (en) * | 1999-06-23 | 2001-05-22 | Percusurge, Inc. | Integrated inflation/deflation device and method |
US6287290B1 (en) * | 1999-07-02 | 2001-09-11 | Pulmonx | Methods, systems, and kits for lung volume reduction |
US6712812B2 (en) * | 1999-08-05 | 2004-03-30 | Broncus Technologies, Inc. | Devices for creating collateral channels |
US6190330B1 (en) * | 1999-08-09 | 2001-02-20 | Vision-Sciences, Inc. | Endoscopic location and vacuum assembly and method |
US6293951B1 (en) * | 1999-08-24 | 2001-09-25 | Spiration, Inc. | Lung reduction device, system, and method |
US6416554B1 (en) * | 1999-08-24 | 2002-07-09 | Spiration, Inc. | Lung reduction apparatus and method |
US6402754B1 (en) * | 1999-10-20 | 2002-06-11 | Spiration, Inc. | Apparatus for expanding the thorax |
US6398775B1 (en) * | 1999-10-21 | 2002-06-04 | Pulmonx | Apparatus and method for isolated lung access |
US6510846B1 (en) * | 1999-12-23 | 2003-01-28 | O'rourke Sam | Sealed back pressure breathing device |
US6865528B1 (en) * | 2000-06-01 | 2005-03-08 | Microsoft Corporation | Use of a unified language model |
US6568387B2 (en) * | 2000-07-19 | 2003-05-27 | University Of Florida | Method for treating chronic obstructive pulmonary disorder |
TW472232B (en) * | 2000-08-11 | 2002-01-11 | Ind Tech Res Inst | Probability-base fault-tolerance natural language understanding method |
US6785651B1 (en) * | 2000-09-14 | 2004-08-31 | Microsoft Corporation | Method and apparatus for performing plan-based dialog |
US6527761B1 (en) * | 2000-10-27 | 2003-03-04 | Pulmonx, Inc. | Methods and devices for obstructing and aspirating lung tissue segments |
EP1410381A4 (en) * | 2001-05-04 | 2005-10-19 | Unisys Corp | DYNAMIC GENERATION OF VOICE APPLICATION INFORMATION FROM A WEB SERVER |
JP4602602B2 (ja) * | 2001-07-19 | 2010-12-22 | オリンパス株式会社 | 医療器具 |
US20030018327A1 (en) * | 2001-07-20 | 2003-01-23 | Csaba Truckai | Systems and techniques for lung volume reduction |
JP4094255B2 (ja) * | 2001-07-27 | 2008-06-04 | 日本電気株式会社 | コマンド入力機能つきディクテーション装置 |
US20030050648A1 (en) * | 2001-09-11 | 2003-03-13 | Spiration, Inc. | Removable lung reduction devices, systems, and methods |
US6592594B2 (en) * | 2001-10-25 | 2003-07-15 | Spiration, Inc. | Bronchial obstruction device deployment system and method |
JP4000828B2 (ja) * | 2001-11-06 | 2007-10-31 | 株式会社デンソー | 情報システム、電子機器、プログラム |
-
2003
- 2003-05-29 US US10/448,018 patent/US7200559B2/en active Active
-
2004
- 2004-05-07 ZA ZA200403492A patent/ZA200403492B/en unknown
- 2004-05-11 AU AU2004201992A patent/AU2004201992B2/en not_active Ceased
- 2004-05-12 AT AT04011317T patent/ATE398325T1/de not_active IP Right Cessation
- 2004-05-12 EP EP08010531A patent/EP1970897A1/en not_active Ceased
- 2004-05-12 EP EP04011317A patent/EP1482481B1/en not_active Expired - Lifetime
- 2004-05-12 MY MYPI20041762A patent/MY142974A/en unknown
- 2004-05-12 DE DE602004014316T patent/DE602004014316D1/de not_active Expired - Lifetime
- 2004-05-13 CA CA2467220A patent/CA2467220C/en not_active Expired - Fee Related
- 2004-05-20 TW TW093114299A patent/TWI376681B/zh not_active IP Right Cessation
- 2004-05-27 JP JP2004158360A patent/JP4768970B2/ja not_active Expired - Fee Related
- 2004-05-27 BR BRPI0401850A patent/BRPI0401850B1/pt not_active IP Right Cessation
- 2004-05-28 MX MXPA04005122A patent/MXPA04005122A/es active IP Right Grant
- 2004-05-28 CN CN200410059568A patent/CN100578614C/zh not_active Expired - Fee Related
- 2004-05-28 KR KR1020040038497A patent/KR101042119B1/ko active IP Right Grant
- 2004-05-28 RU RU2004116304/09A patent/RU2349969C2/ru not_active IP Right Cessation
-
2005
- 2005-05-13 HK HK05104043A patent/HK1071466A1/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
KR20040103445A (ko) | 2004-12-08 |
RU2004116304A (ru) | 2005-11-10 |
TWI376681B (en) | 2012-11-11 |
CN100578614C (zh) | 2010-01-06 |
CA2467220A1 (en) | 2004-11-29 |
KR101042119B1 (ko) | 2011-06-17 |
AU2004201992B2 (en) | 2009-10-22 |
TW200515369A (en) | 2005-05-01 |
EP1482481B1 (en) | 2008-06-11 |
JP2004355630A (ja) | 2004-12-16 |
CA2467220C (en) | 2014-07-08 |
JP4768970B2 (ja) | 2011-09-07 |
AU2004201992A1 (en) | 2004-12-16 |
EP1970897A1 (en) | 2008-09-17 |
MY142974A (en) | 2011-01-31 |
CN1573928A (zh) | 2005-02-02 |
EP1482481A1 (en) | 2004-12-01 |
ATE398325T1 (de) | 2008-07-15 |
ZA200403492B (en) | 2006-04-26 |
BRPI0401850B1 (pt) | 2018-09-11 |
RU2349969C2 (ru) | 2009-03-20 |
US20040243393A1 (en) | 2004-12-02 |
BRPI0401850A (pt) | 2005-03-08 |
US7200559B2 (en) | 2007-04-03 |
DE602004014316D1 (de) | 2008-07-24 |
HK1071466A1 (en) | 2005-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2467220C (en) | Semantic object synchronous understanding implemented with speech application language tags | |
US8301436B2 (en) | Semantic object synchronous understanding for highly interactive interface | |
US7873523B2 (en) | Computer implemented method of analyzing recognition results between a user and an interactive application utilizing inferred values instead of transcribed speech | |
US8311835B2 (en) | Assisted multi-modal dialogue | |
US8160883B2 (en) | Focus tracking in dialogs | |
US8229753B2 (en) | Web server controls for web enabled recognition and/or audible prompting | |
US7711570B2 (en) | Application abstraction with dialog purpose | |
EP1899851A2 (en) | Speech application instrumentation and logging | |
Paraiso et al. | Voice Activated Information Entry: Technical Aspects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FG | Grant or registration |