MXPA02005466A

MXPA02005466A - Dispositivo de reconocimiento de voz que comprende un modelo de lenguaje basado en bloques sintacticos rigidos y flexibles..

Info

Publication number: MXPA02005466A
Application number: MXPA02005466A
Authority: MX
Inventors: Soufflet Frederic
Original assignee: Thomson Licensing Sa
Priority date: 1999-12-02
Filing date: 2000-11-29
Publication date: 2002-12-16
Also published as: CN1224954C; DE60026366T2; AU2180001A; CN1402867A; WO2001041125A1; KR100726875B1; DE60026366D1; EP1236198B1; JP2003515777A; EP1236198A1; US20030105633A1; KR20020060978A; ES2257344T3

Abstract

La invencion se refiere a un dispositivo de reconocimiento de voz (1) que comprende un procesador de audio (2) para la adquisicion de una senal de audio y un descodificador lingüistico (6) para determinar una secuencia de palabras correspondientes a la senal de audio. El descodificador lingüistico del dispositivo de la invencion comprende un modelo de lenguaje (8) determinado con base en un primer grupo de al menos un bloque sintactico definido solamente por una gramatica y en un segundo grupo de al menos un segundo bloque sintactico definido por uno de los siguientes elementos, o una combinacion de estos elementos: una gramatica, una lista de frases, una red n-gram.

Description

DISPOSITIVO DE RECONOCIMIENTO DE VOZ QUE COMPRENDE UN MODELO DE LENGUAJE BASADO EN BLOQUES SINTÁCTICOS RÍGIDOS Y FLEXIBLES La invención se refiere a un dispositivo de reconocimiento de voz que comprende un modelo de lenguaje definido con la ayuda de bloques sintácticos de diferentes tipos, denominados bloques rígidos y bloques flexibles. Los sistemas de información o sistemas de control son elaborados para incrementar cada vez más el uso de una interfaz de voz para realizar la interacción con el usuario en forma rápida e intuitiva. Ya que estos sistemas cada vez se vuelven más complejos, los estilos de diálogo soportados se vuelven cada vez más ricos, y se está entrando al campo de reconocimiento de voz continuo de vocabulario muy amplio. Se sabe que el diseño de un sistema de reconocimiento de voz continuo de vocabulario amplio requiere la producción de un Modelo de Lenguaje que define la probabilidad de que a una palabra dada del vocabulario de la aplicación sigue otra palabra o grupo de palabras, en el orden cronológico de la frase. Este modelo de lenguaje debe reproducir el estilo de hablar comúnmente empleado por un usuario del sistema: titubeos, inicios en falso, cambios de opinión, etc. La calidad del modelo de lenguaje utilizado influye en gran medida la conflabilidad del reconocimiento de voz. Esta calidad es más frecuentemente medida por un índice denominado como la perplejidad del modelo de lenguaje,, y que representa esquemáticamente el número de elecciones que el sistema debe realizar para cada palabra descodificada. Mientras más baja es esta perplejidad, mejor es la calidad . El modelo de lenguaje es necesario para traducir la señal de voz a serie textual de palabras, un paso frecuentemente utilizado por los sistemas de diálogo. Entonces es necesario construir una lógica comprensión que haga posible comprender la pregunta vocalmente formulada para reemplazarla. Existen dos métodos estándares para producir modelos de lenguaje de vocabulario amplio: (1) el método estadístico denominado N-gram, que emplea más frecuentemente un bigrama o trigrama, consiste en asumir que la probabilidad de ocurrencia de una palabra en la frase depende únicamente de las N palabras que la preceden, independientemente de su contexto en la frase.

Si se toma el ejemplo del trigrama para un vocabulario de 1000 palabras, existen tantos como 10003 grupos posibles de tres elementos, seria necesario definir 10003 probabilidades para definir el modelo de lenguaje, lo cual ocupa un tamaño considerable de memoria y potencia de cálculo muy grande. Para resolver este problema, las palabras se agrupan en grupos que son definidos explícitamente por el diseñador del modelo, o bien deducidos por métodos de auto-organización. Este modelo de lenguaje está construido a partir de un cuerpo de texto automáticamente. (2) El segundo método consiste en describir la sintaxis por medio de una gramática probabilística, típicamente una gramática sin contexto definida en virtud de un grupo de reglas descritas en la denominada Forma Backus Naur o forma BNF. Las reglas que describen gramáticas son más a menudo escritas a mano, pero también pueden ser deducidas automáticamente. A este respecto, se hace referencia al siguiente documento: "Basic methods of probabilistic context-free grammars" por F. Jelinek, J.D. Lafferty and R.L. Mercer, NATO ASI Series Vol. 75 pp . 345-359, 1992. Los modelos anteriormente descritos originan problemas específicos cuando se aplican a interfaces de sistemas de lenguaje natural: Los modelos de lenguajes tipo N-gram (1) no modelan correctamente las dependencias entre diversas subestructuras gramaticales distantes en la frase. Para una frase pronunciada sintácticamente correcta, no existe garantía de que estas substructuras se cumplirán en el curso del reconocimiento, y por lo tanto es difícil determinar si tal o cual significado, comúnmente unido por una o más estructuras sintácticas específicas, es llevado por la frase. Estos modelos son adecuados para dictado continuo, pero su aplicación en sistemas de diálogo sufre de los defectos mencionados. Por otro lado, es posible, en un modelo tipo N-gram, tomar en cuenta los titubeos y repeticiones, mediante la definición de grupos de palabras que agrupan conjuntamente las palabras que han sido efectivamente recientemente pronunciadas. Los modelos basados en gramáticas (2) hacen posible modelar correctamente las dependencias remotas en una frase, y también cumplir con subestructuras sintácticas específicas. La perplejidad del lenguaje obtenido frecuentemente es más baja, para una aplicación dada, que para los modelos del tipo N-gram.

Por otro lado, éstos son ineficientes para la descripción de un estilo de lenguaje hablado, con la incorporación de titubeos, inicios en falso, etc. Específicamente, estos fenómenos relacionados al lenguaje hablado no pueden predecirse y por lo tanto parecería que es difícil diseñar gramáticas las cuales, por su naturaleza, están basadas en reglas de lenguaje. Además, es muy amplio el número de reglas requeridas para cubrir una aplicación, con lo cual se hace difícil tomar en cuenta nuevas frases a ser agregadas al diálogo considerado sin modificar las reglas existentes. El objetivo de la invención es un dispositivo de reconocimiento de voz que comprende un procesador de audio para la adquisición de una señal de audio y un descodificador lingüístico para determinar una secuencia de palabras que corresponden a la señal de audio, el descodificador comprende un modelo de lenguaje (8), caracterizado porque el modelo de lenguaje (8) es determinado por dos grupos de bloques. El primer grupo comprende al menos un bloque sintáctico rígido y el segundo grupo comprende al menos un bloque sintáctico flexible. La asociación de los dos tipos de bloques sintácticos hace posible que los problemas relacionados al lenguaje hablado sean fácilmente resueltos al tiempo que se beneficia de la modelación de las dependencias entre los elementos de una frase, modelación que puede ser procesada fácilmente con la ayuda de un bloque sintáctico rígido. De acuerdo a una característica, el primer grupo de bloques sintácticos rígidos es definido por una gramática tipo BNF. De acuerdo a otra característica, el segundo grupo de bloques sintácticos flexibles es definido por una o más redes n-gram, los datos de las redes n-gram son producidos con la ayuda de una gramática o de una lista de frases. De acuerdo a otra característica, las redes b-gram contenidas en los segundos bloques flexibles contienen datos que permiten el reconocimiento de los siguientes fenómenos de lenguaje hablado: titubeo simple, repetición simple, cambio simple, cambio de opinión, murmuración entre dientes. El modelo de lenguaje de acuerdo con la invención permite la combinación de las ventajas de los dos sistemas, mediante la definición de dos tipos de entidades que se combinan para formar el modelo de lenguaje final. Una sintaxis rígida es conservada con respecto a ciertas entidades y un analizador gramatical está asociado con ellas, mientras que otras son descritas por una red tipo n-gram. Además, de acuerdo a una modalidad variante, son definidos bloques libres "disparados" por bloques de uno de los tipos que se definen previamente. Otras características y ventajas de la invención se volverán aparentes a través de la descripción de una modalidad no limitante particular, explicada con ayuda de los dibujos anexos, en los cuales : La figura 1 es un diagrama de un sistema de reconocimiento de voz, La figura 2 es un diagrama OMT que define un bloque sintáctico de acuerdo a la invención. La figura 1 es un diagrama de bloques de un dispositivo ejemplar 1 para reconocimiento del habla. Este dispositivo incluye un procesador 2 de la señal de audio que lleva a cabo la digitalización de una señal de audio que se origina de un micrófono 3 a manera de un circuito 4 de adquisición de señal. El procesador también traduce muestras digitales en símbolos acústicos elegidos de un alfabeto predeterminado. Para este propósito, éste incluye un descodificador 5 acúst ico-fonético . Un descodificador 6 lingüístico procesa estos símbolos con el fin de determinar, para una secuencia A de símbolos, la secuencia W de palabras más probable, dada la secuencia A. El descodificador lingüístico utiliza un modelo acústico 7 y un modelo de lenguaje 8 implementados por un algoritmo de búsqueda basado en hipótesis 9. El modelo acústico es por ejemplo uno denominado modelo "Markov oculto" (o HMM) . El modelo de lenguaje implementado en la presente modalidad ejemplar está basado en una gramática descrita con la ayuda de reglas de sintaxis de la forma Backus Naur. El modelo de lenguaje es utilizado para enviar hipótesis al algoritmo de búsqueda. El último, el cual es el motor de reconocimiento propiamente dicho, es, en lo que respecta al presente ejemplo, un algoritmo de búsqueda basado en un algoritmo tipo Viterbi y denominado "n-best". El algoritmo tipo n-best determina en cada paso del análisis de una frase, las secuencias de palabras n más probables. Al final de la frase, la solución más probable es elegida de entre los n candidatos. Los conceptos en el párrafo anterior son por sí mismos bien conocidos para la persona experta en la técnica, pero la información relacionada en particular al algoritmo n-best se da en el trabajo: "Statistical methods for speech recognit ion" por F. Jelinek, MIT Press 1999 ISBN 0-262-10066-5 pp. 79-84. Otros algoritmos pueden también ser implementados . En particular, otros algoritmos del tipo "Búsqueda en Haz", de los cuales el algoritmo "n-best" es un ejemplo. El modelo de lenguaje de la invención utiliza bloques sintácticos que pueden ser de uno de los dos tipos ilustrados por la figura 2: bloque de tipo rígido, bloque de tipo flexible. Los bloques sintácticos rígidos son definidos en virtud de una sintaxis tipo BNF, con cinco reglas de escritura : (a) <símbolo A> = <símbolo B> | <símbolo C> (o símbolo) (b) <símbolo A> = <símbolo B> <símbolo C> (y símbolo) (c) <símbolo A> = <símbolo B> ? <símbolo C> (símbolo opcional) (d) <símbolo A> = "palabra de léxico" (asignación de léxico ) (e) <símbolo A> = P{símbolo B>, <símbolo C>, ... <símbolo X>} (símbolo B> <símbolo C>) (todas las permutaciones sin repetición de los símbolos citados, con restricciones: el símbolo B debe aparecer antes del símbolo C, el símbolo I antes del símbolo J ... ) La implementacion de la regla (e) es explicada con mayor detalle en la Solicitud de Patente Francesa No. 9915083 titulada "Dispositivo de reconocimiento de voz que implementa una regla sintáctica de permutación" presentada a nombre de THOMSON MULTIMEDIA el 30 de Noviembre de 1999. Los bloques flexibles son definidos ya sea en virtud de la misma sintaxis BNF como se mencionó previamente, o como una lista de frases, o mediante una lista de vocabulario y las redes n-gram correspondientes, o mediante la combinación de las tres. Sin embargo, esta información es traducida sistemáticamente en una red n-gram y, si la definición ha sido efectuada via un archivo BNF, no existe garantía de que únicamente las frases que son sintácticamente correctas en relación a esta gramática puedan ser producidas. Un bloque flexible por lo tanto es definido mediante una probabilidad P(S) de aparición de la serie S de n palabras wi de la forma (en el caso de un trigrama) : P(S) = ??,? P(Wi) Con P(Wi) = P(WÍ|WÍ_I, Wi_2) Para cada bloque flexible, existe una palabra de salida de bloque especial que aparece en la red n- gram de la misma manera que en una palabra normal, pero que no tiene traza fonética y la cual permite salir del bloque. Una vez que estos bloques sintácticos han sido definidos (de tipo n-gram o de tipo BNF) , éstos pueden nuevamente ser utilizados para construcciones de alto orden: En el caso de un bloque BNF, los bloques de menor nivel pueden ser utilizados en lugar de la asignación de léxico asi como en las otras reglas. En el caso de un bloque de tipo n-gram, los bloques de menor nivel son utilizados en vez de las palabras wif y por lo tanto varios bloques pueden ser encadenados conjuntamente con una probabilidad dada. Una vez que la red n-gram ha sido definida, ésta se incorpora en la gramática BNF previamente descrita como un símbolo particular. Tantas redes de n-grams como sea necesario pueden ser incorporadas en la gramática BNF. Las permutaciones utilizadas para la definición de un bloque del tipo BNF son procesadas en el algoritmo de búsqueda del motor de reconocimiento por variables de tipo booleano utilizadas para dirigir la búsqueda durante el corte convencionalmente implementado en este tipo de situación. Se puede observar que el símbolo de salida de bloque flexible puede también ser interpretado como un símbolo para rastrear hacia atrás al bloque anterior, que puede por sí mismo ser un bloque flexible o un bloque rígido.

• Despliegue de disparadores El formalismo anterior no es todavía suficiente para describir el modelo de lenguaje de una aplicación de diálogo hombre/máquina de amplio vocabulario. De acuerdo a una modalidad variante, un mecanismo disparador se anexa a la presente. El disparador hace posible que algún significado sea dado a una palabra o a un bloque, para asociarlo con ciertos elementos. Por ejemplo, vamos a suponer que la palabra "documental" está reconocida dentro del contexto de una guía de electrónica para programas audiovisuales. Con esta palabra puede ser asociada una lista de palabras tales como "vida silvestre, deportes, turismo, etc.". Estas palabras tienen un significado en relación a "documental", y una de ellas puede esperarse que sea asociada con ésta. Para hacer esto, denotaremos por <bloque> un bloque previamente descrito y. por ::<bloque> la realización de este bloque a través de una de sus instancias en el curso del algoritmo de reconocimiento, es decir su presencia en la cadena actualmente descodificada en el algoritmo de búsqueda n-best. Por ejemplo, podríamos tener: <deseo> = me gustaría ir a | quiero visitar. <ciudad> = Lyon | París | Londres | Rennes. <frase> = <deseo> <ciudad> Entonces ::<deseo> será: "me gustaría ir a" para esa porción de las trayectorias que se contempla por el algoritmo de Viterbi para las posibilidades: Me gustaría ir a Lyon Me gustaría ir a París Me gustaría ir a Londres Me gustaría ir a Rennes y será igual a "quiero visitar" para las otras. Los disparadores del modelo de lenguaje son por lo tanto definidos como sigue: Si <símbolo>:: pertenece a un subgrupo dado de las posibles realizaciones del símbolo en cuestión, entonces otro símbolo <T (símbolo) > el cual es el símbolo objetivo del símbolo actual, es reducido a una subporción de su dominio normal de extensión, es decir a su dominio de extensión si el disparador no está presente en la cadena de descodificación, (disparador reductor) , o está activado y disponible, con un factor de ramificación diferente de cero en la salida de cada bloque sintáctico que pertenece al grupo de denominados "candidatos activadores" (disparador activador) . Nótese que: No es necesario para todos los bloques describir un proceso disparador. El objetivo de un símbolo puede ser este símbolo mismo, si éste es utilizado de una manera múltiple en el modelo de lenguaje. Puede existir, para un bloque, sólo una subporción de su grupo de realización que es un componente de un mecanismo disparador, el complementario no es por sí mismo un disparador. El objetivo de un disparador activador puede ser un símbolo opcional. Los mecanismos de disparo reductores hacen posible tratar, en nuestro modelo de lenguaje de bloques, repeticiones consistentes de tópicos. Información adicional respecto al concepto de disparador puede ser encontrada en el documento de referencia ya citado, en particular en las páginas 245-253. Los mecanismos de disparo activadores hacen posible modelar ciertos grupos sintácticos libres, en lenguajes muy inflexionados.

Se debe hacer notar que los disparadores, sus objetivos y la restricción con respecto a los objetivos, pueden determinarse manualmente u obtenidos mediante un proceso automático, por ejemplo mediante un método de entropía máxima.

• Tomar en cuenta el lenguaje hablado: La construcción descrita anteriormente define la sintaxis del modelo de lenguaje, sin tomar en cuenta titubeos, reanudaciones, inicios en falso, cambios de opinión, etc., los cuales se esperan en un estilo hablado. Los fenómenos relacionados al lenguaje hablado son difíciles de reconocer a través de una gramática, debido a su naturaleza impredecible . Las redes n-gram son más adecuadas para el reconocimiento de este tipo de fenómenos. Estos fenómenos relacionados al lenguaje hablado pueden ser clasificados en cinco categorías: Titubeo simple: me gustaría (errr silencio) ir a Lyon . Repetición simple, en la cual una porción de la frase (frecuentemente los determinantes y los artículos, pero algunas veces trozos completos de frase), son a menudo simplemente repetidos: me gustaría ir a (a a a) Lyon. Intercambio simple, en el curso del cual se reemplaza una formulación, a lo largo de la vía, por una formulación con el mismo significado, pero sintácticamente diferente: me gustaría visitar (errr ir a Lyon Cambio de opinión: una porción de frase es corregida, con un significado diferente, en el curso de la pronunciación: me gustaría ir a Lyon (errr a París). Murmuración entre dientes: me gustaría ir a (París errr) París. Los primeros dos fenómenos son los más frecuentes: alrededor de 80% de titubeos son clasificados en uno de estos grupos. El modelo de lenguaje de la invención trata estos fenómenos como sigue: Titubeo simple: El titubeo simple es tratado mediante la creación de palabras asociadas con trazas fonéticas que marcan el titubeo en el lenguaje relevante, y las cuales son tratadas de la misma manera que las otras en relación al modelo de lenguaje (probabilidad de aparición, de ser seguida por un silencio, etc.), y en los modelos fonéticos (coarticulación, etc.). Se ha notado que titubeos simples ocurren en lugares específicos en una frase, por ejemplo: entre el primer verbo y el segundo verbo. Para tratar con ellos, un ejemplo de una regla de escritura de acuerdo con la presente invención consiste de: <grupo verbal> = <primer verbo <red n-gram> <segundo verbo> Repetición simple: La repetición simple es tratada a través de una técnica de ocultamiento que contiene la frase actualmente analizada en este paso de la descodificación. Existe, en el modelo de lenguaje, una probabilidad fija de estar ramificada en el ocultamiento. La salida del ocultamiento está conectada al modelo de lenguaje por bloque, con reanudación del estado alcanzado antes de la activación del ocultamiento. El ocultamiento de hecho contiene el último bloque de la pieza actual de frase, y este bloque puede ser repetido. Por otro lado, si éste es el penúltimo bloque, éste no puede ser tratado por tal ocultamiento, y la frase completa entonces tiene que ser revisada. Cuando se trata de una repetición con respecto a artículos, y para los lenguajes donde ésta es relevante, el ocultamiento comprende el artículo y sus formas asociadas, mediante el cambio de número y de género . En francés, por ejemplo, el ocultamiento para "de" contiene "del" y "de los". La modificación de género y de número es en efecto frecuente. Cambio simple y cambio de opinión: El cambio simple es tratado mediante la creación de grupos de bloques asociados entre los cuales un cambio simple es posible, es decir que existe una probabilidad para salir del bloque y ramificarse al inicio dé uno de los otros bloques del grupo. Para cambio simple, la salida de bloque está acoplada con un disparador, en los bloques asociados con el mismo grupo, de subporciones de significado similar . Para cambio de opinión, no existe disparador, o si existe disparador con respecto a las , subporciones de distinto significado. También es posible no recurrir al disparador, y clasificar el titubeo para un análisis posterior. Murmurar entre dientes : Esto es tratado como una repetición simple. La ventaja de este modo de tratamiento con titubeos (excepto para titubeo simple) es que la creación de los grupos asociados refuerza la proporción de reconocimiento con respecto a una frase sin titubeo, a causa de la redundancia de información semántica presente. Por otro lado, la carga de cálculo es mayor.

Ref rencias (1) Self-Organized language modelling for speech recognition, F. Jelinek, Readings in speech recognition, p. 450-506, Morgan Kaufman Publishers, 1990 (2) Basic methods of probabilistic context free grammars, F. Jelinek, J.D. Lafferty, R.L. Mercer, NATO ASI Series Vol. 75, p. 345-359, 1992 (3) Trigger-Based language models; A máximum entropy approach, R. Lau, R. Rosenfeld, S. Roukos, Proceedings IEEE ICASSP, 1993 (4) Statistical methods for speech recognition, F. Jelinek, MIT Press, ISBN 0-262-10066-5, pp . 245-253.

Claims

REIVINDICACIONES

1. Dispositivo de reconocimiento de voz que comprende un procesador de audio para la adquisición de una señal de audio y un descodificador lingüístico para determinar una secuencia de palabras que corresponden a la señal de audio, el descodificador comprende un modelo de lenguaje, caracterizado porque el modelo de lenguaje es determinado por un primer grupo de al menos un bloque sintáctico rígido y un segundo grupo de al menos un bloque sintáctico flexible.

2. Dispositivo de conformidad con la reivindicación 1, caracterizado porque el primer grupo de al menos un bloque sintáctico rígido es definido por una gramática de tipo BNF.

3. Dispositivo de conformidad con las reivindicaciones 1 ó 2, caracterizado porque el segundo grupo de al menos un bloque sintáctico flexible es definido por una o más redes n-gram, los datos de las redes n-gram son producidos con la ayuda de una gramática o de una lista de frases.

4. Dispositivo de conformidad con la reivindicación 3, caracterizado porque la red n-gram contiene datos que corresponden a uno o más de los siguientes fenómenos: titubeo simple, repetición simple, cambio simple, cambio de opinión, murmurar entre dientes.