MXPA01006594A

MXPA01006594A - Metodo y sistema para la preseleccion de unidades adecuadas para habla por concatenacion.

Info

Publication number: MXPA01006594A
Application number: MXPA01006594A
Authority: MX
Inventors: Alistair D Conkie
Original assignee: At & T Corp
Priority date: 2000-06-30
Filing date: 2001-06-26
Publication date: 2004-07-30
Also published as: US8566099B2; US7460997B1; US8224645B2; EP1168299B8; EP1168299A2; US6684187B1; US20130013312A1; US7124083B2; EP1168299B1; CA2351988C; CA2351988A1; US20090094035A1; US20040093213A1; EP1168299A3

Abstract

Un sistema y metodo para mejorar el tiempo de respuesta de sintesis de texto hablado utilizando un "contexto trifonetico" (i.e, los tripletes que comprenden un fonema central y su contexto inmediato) como la unidad basica, en lugar de realizar sintesis de fonema a fonema. Previo a que se inicie el "tiempo real" de sintesis, se crea una base de datos de todos los trifonemas posibles (existen aproximadamente 10000 en el lenguaje ingles y su costo de preseleccion asociado. En tiempo de corrida, por tanto, solo se seleccionan los candidatos principales similares a partir de la base de datos del trifonema, reduciendo significativamente los calculos que son requeridos para realizarce en un tiempo real.

Description

MÉTODO Y SISTEMA PARA LA PRESELECCIÓN DE UNIDADES ADECUADAS PARA HABLA POR CONCATENACIÓN Campo Técnico La presente invención se refiere a un sistema y método para incrementar la velocidad de un sistema de síntesis de selección de unidad, para la síntesis del habla por concatenación y más particularmente, para predeterminar un universo de fonemas - seleccionados basándose en su contexto trifonético - que son usados potencialmente en el habla. Es efectuada entonces la selección en tiempo real a partir del universo creado de fonemas .

Antecedentes de la Invención Un planteamiento actual para la síntesis de habla por concatenación es utilizar una base de datos muy grande para habla grabado, que haya sido segmentado y etiquetado con características prosódicas y espectrales, tal como la frecuencia fundamental (FO) para habla sonorizado, la energía ó ganancia de la señal y la distribución espectral de la señal (es decir, qué tanto Ref.: 129984 de la señal se encuentra presente en cualquier frecuencia dada) . La base de datos contiene múltiples instancias de sonidos vocales. Ésta multiplicidad permite la posibilidad de tener unidades, dentro de la base de datos, que sean mucho menos estilizadas que lo que pudiera ocurrir en una base de datos con difonemas (un "difonema" siendo definido como la segunda mitad de un fonema, seguido por la mitad inicial del siguiente fonema, una base de datos con difonemas contiene generalmente sólo una instancia de un difonema dado) . Consiguientemente, se mejora la posibilidad de obtener habla natural con el planteamiento de una "base de datos grande" . Para una síntesis de buena calidad, ésta técnica de base de datos depende de la capacidad de seleccionar las "mejores" unidades de la base de datos - es decir, las unidades que estén más cercanas, en carácter, a la especificación prosódica provista por el sistema de síntesis de habla, y que tenga un mínimo en desaciertos espectrales en los puntos de concatenación entre los fonemas. La "mejor" secuencia de unidades puede ser determinada mediante la asociación de un costo numérico en dos maneras diferentes. Primero, se asocia un "costo meta" con las unidades individuales en aislamiento, en donde un costo menor es asociado con una unidad que tiene características (por ejemplo, FO, ganancia, distribución espectral) relativamente más cercanas a la unidad que está siendo sintetizada y un costo mayor es asociado con las unidades que tengan una discrepancia mayor con la unidad que está siendo sintetizada. Un segundo costo, referido como el "costo de concatenación" es asociado con qué tan imperceptiblemente se unen entre sí dos unidades contiguas. Por ejemplo, Si el desacierto espectral entre dos unidades es pobre, quizá correspondiendo incluso a un "clic" audible, existirá un costo de concatenación más alto. Consiguientemente, puede formularse un conjunto de unidades candidatas para cada posición en la secuencia deseada, con costos meta y costos de concatenación asociados. La predicción de la mejor trayectoria (el costo más bajo) a través de la red, es efectuada entonces usando una búsqueda Viterbi. Las unidades elegidas pueden ser entonces concatenadas para formar una señal continua, utilizando una variedad de técnicas diferentes. Mientras que sistemas manejados por bases de datos tales, pueden producir una calidad de sonorización de habla más natural, efectuar esto requiere de una gran implementación de recursos informáticos durante el proceso de la síntesis. Igualmente, existe todavía la necesidad de nuevos métodos y sistemas que proporcionen una calidad natural del habla en la síntesis de habla, a la vez de reducir los requerimientos informáticos.

Breve Compendio de la Invención La necesidad remanente dentro del arte precedente se solucionó por medio de la presente invención, la cual se refiere a un sistema y método para incrementar la velocidad de un sistema de síntesis de selección de unidad, para habla por concatenación y más particularmente, para predeterminar un universo de fonemas dentro de la base de datos de habla, seleccionándolos basándose en su contexto trifonético, los cuales son utilizados potencialmente en el habla y para efectuar una selección en tiempo real a partir de éste universo de fonemas calculado previamente. De acuerdo con la presente invención, se crea una base de datos de trifonemas, en donde para cada contexto trifonético dado requerido para la síntesis, existe una lista completa y calculada previamente de todas las unidades (fonemas) dentro de la base de datos, que puedan ser posiblemente usadas en ese contexto trifonético. Aventajadamente, ésta lista es (en la mayoría de los casos) un conjunto significativamente menor de unidades candidatas, que el conjunto completo de unidades para ese tipo de fonema. Al ignorar las unidades que se garantice que no serán usadas en el contexto trifonético dado, la velocidad del proceso de selección se incrementa significativamente. También se ha encontrado que la calidad del habla no se compromete con el proceso de selección de unidad de la presente invención . Dependiendo de la unidad requerida para la síntesis, así como del contexto de fonemas que lo rodea, el número de fonemas dentro de la lista de preseleccion variará y podrá en casos extremos, incluir a todos los fonemas posibles de un tipo en particular. También podría producirse una situación en donde la unidad que será sintetizada (más el contexto) no coincida con ninguno de los trifonemas calculados previamente. En este caso, puede emplearse el planteamiento convencional de un solo fonema del arte precedente, utilizando el conjunto completo de fonemas de un tipo dado. Se presume que éstas instancias serán relativamente poco frecuentes . Aspectos diferentes y adicionales de la presente invención, serán aparentes durante el curso de la siguiente discusión y mediante la referencia a los dibujos adjuntos.

Breve Descripción de los Dibujos Refiriéndonos ahora a los dibujos, la Fig. 1 ilustra un sistema de síntesis de habla e j emplificativo para utilizar la unidad de configuración de selección (por ejemplo, un fonema) de la presente invención ; la Fig. 2 ilustra, a mayor detalle, un sintetizador ej emplificativo de habla a partir de texto que puede ser utilizado en el sistema de la Fig. Irla Fig. 3 ilustra una secuencia ejemplificativa "de fonemas" y los varios costos asociados con ésta secuencia ; la Fig. 4 contiene una ilustración de una base de datos (fonemas) de unidad ejemplificativa, útil como la base de datos de selección de unidad dentro del sistema de la Fig. 1 ; la Fig. 5 es un diagrama de flujo que ilustra el proceso de cálculo previo de costo de trifonemas de la presente invención, en donde las primeras N unidades son seleccionadas basándose en el costo (las primeras 50 unidades para cualquier secuencia de 5 sonidos que contengan un trifonema dado que su presencia sea garantizada); y la Fig. 6 es un diagrama de flujo que ilustra el proceso de selección de unidad (fonema) de la presente invención, que utiliza la lista calculada previamente de unidades (fonemas) indexada por trifonemas.

Descripción Detallada Un sistema e emplif icativo de síntesis de habla 100 se ilustra en la Fig. 1. El sistema 100 incluye un sintetizador de habla a partir de texto 104 que está conectado a una fuente de datos 102, a través de un enlace de entrada 108 y se encuentra de la misma manera conectado a un sumidero de datos 106 a través de un enlace de salida 110. El sintetizador de habla a partir de texto 104, tal como se discutirá en detalle enseguida con relación con la Fig. 2, funciona para convertir los datos de texto en, ya sea, datos de habla ó en habla física. En operación, el sintetizador 104 convierte los datos de texto por medio de convertir primeramente el texto en una corriente de fonemas que representan al equivalente del habla en el texto, después procesa la corriente de fonemas para producir una corriente de unidad acústica que constituya una representación de habla más clara y entendible. El sintetizador 104 convierte entonces la corriente de unidad acústica a datos de habla ó en habla física. De acuerdo con las enseñanzas de la presente invención, como será discutido en detalle más adelante, las unidades de base de datos (fonemas) accedidas de acuerdo a su contexto trifonético, son procesadas para acelerar el proceso de selección de unidad. La fuente de datos 102 proporciona al sintetizador de habla a partir de texto 104, a través del enlace de entrada 108, los datos que representan al texto que será sintetizado. Los datos que representan al texto del habla pueden encontrarse en cualquier formato, tal como un formato binario, ASCII ó en un archivo de procesador de palabras. La fuente de datos 102 puede ser cualquiera con un número de tipos diferentes de fuentes de datos, tal como una computadora, un dispositivo de almacenamiento, ó una combinación de soporte lógico y equipo físico, capaces de generar, apoyarse ó memorizar, a partir del dispositivo de almacenamiento, un mensaje textual ó cualquier información capaz de ser traducida en habla. El sumidero de datos 106 recibe al habla sintetizada desde del sintetizador de habla a partir de texto 104, a través del enlace de salida 110. El sumidero de datos 106 puede ser cualquier dispositivo capaz de egresar habla audiblemente, tal como un sistema de bocinas para transmitir las ondas de sonido mecánicas, ó una computadora digital, ó una combinación de equipo físico y soporte lógico, capaz de recibir, apoyarse, almacenar, detectar ó percibir un sonido vocal ó una información que represente a sonidos vocales. Los enlaces 108 y 110 pueden ser cualquier dispositivo ó sistema adecuado para conectar la fuente de datos 102 / el sumidero de datos 106 al sintetizador 104. Dichos dispositivos incluyen una conexión directa de cable serial / paralelo, una conexión sobre una red de área extensa (WAN) ó una red de área local (LAN), una conexión sobre una intranet, la Internet, ó cualquier otra red ó sistema de procesamiento distribuido. Adicionalmente , el enlace de entrada 108 ó el enlace de salida 110, pueden ser dispositivos de soporte lógico que se enlazan a varios sistemas de soporte lógico. La Fig. 2 contiene un diagrama de bloques más detallado del sintetizador de habla a partir de texto 104 de la Fig. 1. El sintetizador 104 comprende, en ésta modalidad de ejemplo, un dispositivo de normalización de texto 202, un dispositivo analizador sintáctico 204, un módulo de pronunciación de palabras 206, un dispositivo de generación prosódica 208, un dispositivo de selección de unidad acústica 210 y un dispositivo de etapa final de síntesis de habla 212. En operación, los datos textuales son recibidos sobre el enlace de entrada 108 y son aplicados primeramente como una entrada al dispositivo de normalización de texto 202. El dispositivo de normalización de texto 202 analiza sintácticamente los datos del texto en palabras conocidas y convierte adicionalmente las abreviaciones y los números en palabras, para producir un conjunto correspondiente de datos textuales. Por ejemplo, en el idioma Inglés, si se ingresa "St.", el dispositivo de normalización de texto 202 es utilizado para pronunciar la abreviación como "saint" (santo) ó " street" (calle), pero no el sonido /st/. Una vez que el texto ha sido normalizado, éste es ingresado al analizador sintáctico 204. El procesador sintáctico 204 efectúa un análisis gramatical de una oración, para identificar la estructura sintáctica de cada frase y palabra constituyente. Por ejemplo, el analizador sintáctico 204 identificará una frase en particular como una "frase del sujeto " ó una "frase del predicado" y una palabra como sustantivo, verbo, adjetivo, etc. El análisis sintáctico es importante, ya que si una palabra ó frase está siendo utilizada como un sustantivo ó un verbo, puede afectar en cómo ésta será articulada. Por ejemplo, en la oración "el gato huyó", si "gato" es identificado como un sujeto y "huyó" es identificado como un verbo, el sintetizador vocal 104 puede asignar a la palabra "gato" un patrón de sonido, duración y entonación diferente que "huyó", a causa de su posición y función dentro de la estructura de la oración. Una vez que la estructura sintáctica del texto ha sido determinada, el texto es ingresado al módulo de pronunciación de palabras 206. En el módulo de pronunciación de palabras 206, los caracteres ortográficos utilizados en el texto normal, son rastreados en las cadenas apropiadas de segmentos fonéticos que representan unidades de sonido y de habla. Esto es importante ya que las mismas cadenas ortográficas pueden tener diferentes pronunciaciones dependiendo de la palabra en la cual se usa la cadena. Por ejemplo, en el idioma Inglés, la cadena " gh" es traducida al fonema /f/ en "tough" (duro), al fonema /g/ en "ghost" (fantasma) y no es comprendido directamente a ningún fonema en " though" (aunque) . También se marca la acentuación léxica. Por ejemplo, en el idioma Inglés "record" tiene una acentuación principal sobre la primer silaba si es que es un sustantivo (registro) , pero tiene una acentuación principal en la segunda silaba si éste es un verbo (grabar) . La salida procedente del módulo de pronunciación de palabras 206, en la forma de segmentos fonéticos, es entonces aplicada como una entrada hacia el dispositivo de determinación prosódica 208. El dispositivo de determinación prosódica 208 asigna patrones de tempori zación y entonación a las cadenas de segmentos fonéticos. El patrón de tempori zación incluye a la duración del sonido para cada uno de los fonemas. Por ejemplo, en el idioma Inglés la silaba "re" en el verbo "record" (grabar) tiene una duración más extensa de sonido que la silaba "re" en el sustantivo "record" (registro) . Adicionalmente , el patrón de entonación concierne a los cambios de entonación durante el curso de una expresión. Estos cambios de entonación expresan la acentuación de ciertas palabras con silabas, en tanto éstas son colocadas en una oración y ayudan a comunicar el significado de la oración. Asi pues, los patrones de tempori zación y entonación son importantes para la inteligibilidad y la naturalidad del habla sintetizada. La prosodia puede ser generada de varias maneras, incluyendo a asignar un acento artificial ó proporcionarla para el contexto de la oración. Por ejemplo, la frase "¡Ésta es una prueba!", será enunciada diferente a "¿Ésta es una prueba?". Los dispositivos de generación prosódica son ya bien conocidos por aquellos ordinariamente expertos en el arte y puede usarse cualquier combinación de equipo físico, soporte lógico, soporte lógico incorporado, técnicas heurísticas, base de datos ó cualquier otro aparato ó método que efectúe la generación de prosodias. De acuerdo con la presente invención, la salida fonética y la especificación prosódica que la acompaña, procedentes del dispositivo de determinación prosódica 208, son entonces convertidas, utilizando cualquier técnica conocida adecuada, dentro de las especificaciones de la unidad ( fonema ) . Los datos del fonema, junto con los parámetros característicos correspondientes, son entonces enviados a un dispositivo de selección de unidad acústica 210, en donde los fonemas y los parámetros característicos son transformados en una corriente de unidades acústicas que representan al habla. Una "unidad acústica" puede ser definida como una expresión en particular de un fonema dado. Grandes números de unidades acústicas, como será discutido más adelante en referencia a la Fig. 3, pueden todas corresponder a un _ solo fonema, cada unidad acústica difiriendo de otra en términos de entonación, duración y acentuación, (así como de otras cualidades fonéticas y prosódicas) . De acuerdo con la presente invención, una base de datos de costos de preselección de trifonemas 214 es accedida por medio del dispositivo de selección de unidad 210, para proporcionar una lista candidata de unidades, basándose en un contexto trifonético, que sean más probables de usarse en el proceso de síntesis. El dispositivo de selección de unidad 210 efectúa entonces una búsqueda sobre esta lista candidata (utilizando una búsqueda Viterbi, por ejemplo), para encontrar la unidad con el "menor costo" que coincida mejor con el fonema que será sintetizado. La salida en corriente de la unidad acústica procedente del dispositivo de selección de unidad 210, es entonces enviada hacia el dispositivo de etapa final de síntesis de habla 212, el cual convierte la corriente de la unidad acústica en datos vocales y transmite estos datos vocales (Refiriéndonos a la Fig. 1) hacia el sumidero de datos 106 sobre el enlace de salida 110. La Fig. 3 contiene un ejemplo de una cadena de fonemas 302 - 310 para la palabra " cat" (gato, en Inglés) con un conjunto asociado de parámetros característicos 312 - 320 (por ejemplo, F0, duración, etc.) asignados respectivamente, a cada fonema y una lista separada de grupos de unidades acústicas 322, 324 y 326 para cada expresión. Cada grupo de unidad acústica incluye, por lo menos, una unidad acústica 328 y cada unidad acústica 328 incluye un costo meta asociado 330, como ha sido definido anteriormente. Un costo de concatenación 332, como se representa por la flecha en la Fig. 3, se asigna entre cada unidad acústica 328 en un grupo dado y una unidad acústica 332 del grupo inmediatamente subsecuente. En el arte precedente, el proceso de selección de unidad era efectuado en base de fonema por fonema (ó en sistemas robustos, en base de medio fonema por medio fonema) para cada instancia de cada unidad contenida dentro de la base de datos de habla. Asi, en el idioma Inglés, cuando se considera el fonema /¾/ 306, cada una de sus consideraciones de unidad acústica 328 dentro de la base de datos de habla 324, puede ser procesada para determinar los costos meta individuales 330, comparados con el texto que será sintetizado. Similarmente , el procesamiento de fonema por fonema (durante el tiempo de ejecución) que pudiera también ser requerido para el fonema /k/ 304 y el fonema /t/ 308. Puesto que existen muchas ocasiones en las que el fonema /«/ no pudiera ser precedido por /k/ y/ó seguido por /t/, existían muchos costos meta en los sistemas del arte precedente que eran propensos a ser calculados innecesariamente. De acuerdo con la presente invención, se ha reconocido que el tiempo de ejecución del cálculo puede ser reducido significativamente por medio de computar previamente la lista de candidatos de fonemas a partir de la base de datos de habla, que puedan ser utilizados posiblemente dentro de la síntesis final, antes de empezar a trabajar con los costos meta. Hasta éste punto, una base de datos de "trifonemas" (ilustrada como la base de datos 214 en la Fig. 2) se crea cuando las listas de unidades (fonemas) que pudieran ser utilizadas en cualquier contexto trifonético dado, son almacenadas (e indexadas utilizando una clave basada en trifonemas) y puedan ser accedidas durante el proceso de selección de la unidad. Para el idioma Inglés, existen aproximadamente 10,000 trifonemas comunes, de tal manera que la creación de dicha base de datos no es una tarea inconmensurable. En particular, para el trifonema /k/-/as/-/t/, cada /¾/ posible dentro de la base de datos es examinado para determinar qué tan bien coincide (y los fonemas circundantes que ocurren en el habla de la cual se extrajo) con las especificaciones de la síntesis, como se muestra en la Fig. 4. A través de permitir entonces los fonemas en cualquier lado de /k/ y /t/ para variar el universo completo de fonemas, todos los costos posibles pueden ser examinados, los cuales puedan ser calculados en tiempo de ejecución para un fonema en particular, en un contexto trifonético. En particular, cuando la síntesis es terminada, solamente son retenidas las N "mejores" unidades para cada contexto de 5 fonemas (en términos del menor costo de concatenación; en un ejemplo, N puede ser igual a 50) . Es posible "combinar" (es decir, tomar la unión de) las unidades relevantes que tienen un trifonema en común particular. A causa de la manera en la que el cálculo es configurado, se garantiza que la combinación será la lista de todas las unidades que sean relevantes para ésta parte especifica de la síntesis. En la mayoría de los casos, existirá un número de unidades (es decir, instancias específicas de los fonemas) que no ocurrirán en la unión de todas las unidades posibles, y consiguientemente, no necesitarán ser consideradas en el cálculo de los costos al tiempo de la ejecución. El proceso de preselección de la presente invención resulta consiguientemente, en incrementar la velocidad del proceso de selección. En una instancia, se ha alcanzado un incremento del 100%. Debe presumirse que si un trifonema particular no parece tener una lista asociada de unidades, será utilizado el proceso convencional de selección de costo de unidad. Consiguientemente, en general para cada unidad u2 que ha de ser sintetizada como parte de la secuencia trifonética a ul-u2-u3, se calcula el costo de preselección para cada combinación posible de 5 sonidos ua~ul-u2-u3-ub que contenga este trifonema. Debe notarse que éste proceso también es útil en sistemas que utilizan medios-fonemas, en tanto el espacio "fonema" sea mantenido al crear cada costo trifonético que sea calculado. Utilizando el ejemplo anterior, una secuencia pudiera ser kl-ael-tl y otra pudiera ser k2-as2-t2. Este espacio de unidad es usado para evitar incluir información redundante dentro de las funciones de costo (ya que la identidad de uno de los medios - fonemas adyacentes ya es una cantidad conocida) . De acuerdo con la presente invención, son calculados los costos para todas las secuencias ua-kl-asl-tl-ub, en donde se permite que ua y ub varíen a través del conjunto completo de fonemas. Similarmente, los costos para todas las secuencias ua -k2-as2-t2-ub son calculados y así en adelante para cada secuencia posible de trifonemas. El propósito de calcular los costos por fuera es solamente para determinar qué unidades pueden jugar potencialmente un rol dentro de la síntesis subsecuente y que puedan ser ignoradas con seguridad. Debe notarse que los costos relevantes específicos son calculados de nuevo al momento de la síntesis. Éste recálculo es necesario, ya que un componente del costo depende del conocimiento de la especificación de la síntesis en particular, disponible solamente al momento de la ejecución. Formalmente, para cada fonema individual que será sintetizado, se hace primero una determinación para encontrar un contexto trifonético particular que sea de interés. Siguiente a esto, se hace una determinación con respecto a cuales unidades acústicas están, ya sea, dentro ó fuera del limite de costo aceptable para éste contexto trifonético. La unión de todas las secuencias de 5 sonidos es entonces efectuada y asociada con el trifonema que será sintetizado. Esto es: 'PreslectSet(u.i , u2 , J ) = (ua , ui , u2 , u3 , uh ) en donde CCn es una función para calcular el conjunto de unidades con los menores n costos de contexto y CCn es una función que calculó las mejores n unidades concordantes dentro de la base de datos para el contexto dado. PH es definido como el conjunto de tipos de unidad. El valor de "n" se refiere al número mínimo de candidatos que son necesarios para cualquier secuencia dada de la forma ua-ul-u2 -u3-ub . La Fig. 5 muestra, en forma simplificada, un diagrama de flujo que ilustra el proceso usado para poblar la base de datos de costos de trifonemas, usada en el sistema de la presente invención. El proceso es iniciado en el bloque 500 y selecciona un primer trifonema ul-u2-u3 (bloque 502), para el cual serán calculados los costos de preselección. El proceso entonces procede al bloque 504, el cual selecciona un primer par de fonemas para que sean los fonemas "izquierdo" ua y "derecho" ub del trifonema previamente seleccionado. Los costos de concatenación asociados con este agrupamíento de 5 sonidos, son calculados (bloque 506) y almacenados en una base de datos con ésta identidad de trifonema en particular (bloque 508) . Los costos de preselección para éste trifonema en particular, son calculados por medio de variar los fonemas ua y ub sobre el conjunto completo de fonemas (bloque 510) . En consecuencia, un costo de preselección será calculado para el trifonema seleccionado en un contexto de 5 fonemas. Una vez que todas las combinaciones posibles de 5 fonemas, de un trifonema seleccionado, han sido evaluadas y se ha determinado un costo, se retiene al "mejor", con la condición de que para cualquier contexto arbitrario de 5 fonemas, se garantice que el conjunto contenga las N unidades principales. Las "mejores" unidades son definidas por exhibir el menor costo meta (bloque 512) . En una modalidad ej emplificativa, N = 50. Una vez que las "mejores 50" opciones para un trifonema seleccionado han sido almacenadas en la base de datos de trifonemas, se efectúa una verificación (bloque 514) para saber si todas las posibles combinaciones de trifonemas han sido evaluadas. Si es así, el proceso se detiene y la base de datos de trifonemas se define como se ha contemplado. De manera contraria, el proceso regresa al paso 502 y selecciona otro trifonema para su evaluación, usando el mismo método. El proceso continuará hasta que todas las combinaciones de trifonema posibles hayan sido realizadas y los costos hayan sido calculados. Es una ventaja de la presente invención que éste procesó sea efectuado una sola vez antes del "tiempo de ejecución", de tal manera que durante el proceso real de la síntesis (como se ilustra en la Fig. 6), el proceso de selección de unidad usa ésta base de datos creada de trifonemas. La Fig. 6 es un diagrama de flujo de un sistema ej emplificativo de síntesis de habla. En su inicio (bloque 600), un primer paso es recibir al texto de entrada (bloque 610) y aplicarlo (bloque 620) como una entrada, al dispositivo de normalización de texto 202 (como se muestra en la Fig. 2) . El texto normalizado es entonces analizado sintácticamente (bloque 630), de tal manera que la estructura sintáctica de cada frase ó palabra constituyente sea identificada, por ejemplo, como un sustantivo, un verbo, un adjetivo, etc. El texto analizado sintácticamente es entonces convertido a una representación (bloque 640), en donde éstos fonemas son entonces aplicados como entradas hacia un módulo de selección de unidad (fonema) , tal como el dispositivo de selección de unidad 210, discutido en detalle anteriormente en asociación con la Fig. 2. Una base de datos de preselección de trifonemas 214, tal como la generada por los siguientes pasos, como advierte en la Fig. 5, se añade a la configuración. Cuando se encuentra una coincidencia con la clave de trifonema en la base de datos, el proceso del arte precedente del tipo en el que se valoraba cada candidato posible de una unidad (fonema) particular, es reemplazado por el proceso inventivo de valorar la lista calculada previamente, más pequeña, relacionada a la clave del trifonema. Se genera una lista candidata de cada unidad requerida y se efectúa una búsqueda Viterbi (bloque 650) para encontrar la trayectoria con el menor costo a través de los fonemas seleccionados. Los fonemas seleccionados pueden ser entonces procesados adicionalmente (bloque 660) para formar la salida real del habla. Se hace constar que, con lo relativo a ésta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención .

Claims

REIVINDICACIONES Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes reivindicaciones :

1. Un método para sintetizar habla a partir de un texto de entrada, utilizando fonemas, el método caracterizado por los pasos de: a) crear una base de datos de costos de preselección de trifonemas, que incluye una pluralidad de todas las combinaciones de trifonemas posibles y generar una clave para indexar a cada trifonema dentro de la base de datos ; b) extraer una porción del texto de entrada para su síntesis, en la forma de una secuencia de fonemas ; c) comparar un fonema extraído, en contexto con sus fonemas vecinos, con una pluralidad de N claves de trifonemas con menor costo, almacenadas dentro de la base de datos de costos de preselección de trifonemas; d) elegir, como candidatos para su síntesis, una lista de unidades a partir de la base de datos de costos de preselección de trifonemas, que comprenda una clave de trifonema coincidente; e) repetir los pasos b) a d) para cada fonema dentro del texto de entrada; f) seleccionar por lo menos una trayectoria de menor costo a través de la red de candidatos; g) procesar los fonemas seleccionados en el paso f) en habla sintetizada; y h) egresar el habla sintetizada hacia un dispositivo de salida.

2. El método de conformidad con la reivindicación 1, caracterizado porque al efectuar el paso a), se efectúan los siguientes pasos: 1) seleccionar una secuencia predeterminada de trifonemas ul -u2 -u3 ; 2) calcular un costo de preselección para cada secuencia de 5 fonemas ua-ul-u2-u3-ub, en donde se permite que u2 coincida con cualquier fonema etiquetado igualmente dentro de la base de datos y las unidades ua y ub varíen a través del universo de fonemas completo; 3) determinar una pluralidad de K unidades de base de datos de menor costo para el contexto de 5 fonemas en particular; 4) efectuar la unión de N unidades de menor costo para todas las combinaciones de ua y ub; 5) almacenar la unión creada en el paso 4) para cada secuencia posible de trifonemas.

3. El método de conformidad con la reivindicación 2, caracterizado porque al efectuar el paso a4) , N = 50.

4. El método de conformidad con la reivindicación 2, caracterizado porque al efectuar el paso a2) , el costo de preseleccion es el costo objetivo ó un elemento del costo objetivo.

5. El método de conformidad con la reivindicación 1, en donde el paso de conversión está caracterizado por utilizar medios-fonemas para crear una secuencia de trifonemas, con un espacio de unidad entre los - medios-fonemas adyacentes.

6. El método de conformidad con la reivindicación 1, caracterizado porque al efectuar el paso c) , se efectúan los siguientes pasos: 1) comparar al fonema extraído y a sus fonemas vecinos con una clave de base de datos de preseleccion de trifonemas; 2) si se encuentra una coincidencia, retener la unidad asociada con la clave de base de datos de preseleccion de trifonemas como un candidato para su síntesis, si no es así; 3) usar la lista completa de fonemas del mismo tipo que el fonema extraído a manera de lista candidata; y 4) repetir los pasos 1) - 3) para cada clave de base de datos de preseleccion de trifonemas apropiada .

7. El método de conformidad con la reivindicación 1, caracterizado porque al efectuar el paso a), el costo de preseleccion es el costo objetivo ó un elemento del costo objetivo.

8. El método de conformidad con la reivindicación 1, caracterizado porque al efectuar el paso f), se usa un mecanismo de búsqueda Viterbi.

9. Un método para crear una base de datos de costos de preseleccion de trifonemas, para ser utilizado en síntesis de habla, el método caracterizado por los pasos de: a) seleccionar una secuencia predeterminada de trifonemas ul-u2-u3; b) calcular un costo de preseleccion para cada secuencia de 5 fonemas ua -u1 -u2 -u3 ~ub, en donde se permite que u2 coincida con cualquier fonema etiquetado igualmente dentro de la base de datos y las unidades ua y ub varíen a través del universo de fonemas completo; c) determinar una pluralidad de N unidades de base de datos de menor costo para el contexto de 5 fonemas en particular; d) efectuar la unión de la pluralidad de N unidades de menor costo, determinada en el paso c) ; e) almacenar la unión creada en el paso d) en una base de datos de costos de preselección de trifonemas; y f) repetir los pasos a) - e) para cada secuencia posible de trifonemas.

10. El método de conformidad con la reivindicación 9, caracterizado porque al efectuar el paso d) , se almacenan una pluralidad de cincuenta secuencias de menor costo y sus costos asociados.

11. El método de conformidad con la reivindicación 9, caracterizado porque al efectuar el paso de b) , el costo de preselección es el costo objetivo ó un elemento del costo ob etivo.

12. Un sistema para sintetizar habla utilizando fonemas, caracterizado porque comprende un procesador lingüístico para recibir un texto de entrada y convertir el texto en una secuencia de fonemas; una base de datos de costos de preselección de trifonemas que comprende una pluralidad de todas las combinaciones posibles de trifonemas e incluyendo una clave ligada a cada lista de unidades de fonema de base de datos separada en la base de datos; un selector de unidad, acoplado al procesador lingüístico y a la base de datos de costos de preselección de trifonemas, para comparar a cada fonema recibido, en conjunción con sus fonemas vecinos, con los trifonemas almacenados en la base de datos de costos de preselección de trifonemas, seleccionando un conjunto de fonemas candidatos para su síntesis; y un procesador de habla, acoplado al selector de unidad, para procesar los fonemas seleccionados en un habla sintetizada y proporcionarla como una salida de habla sintetizada hacia un dispositivo de salida.

13. El sistema de conformidad con la reivindicación 12, caracterizado porque el procesador lingüístico comprende adicionalmente : un normalizador de texto para recibir y normalizar el texto de entrada, para distinguir marcas gramaticales; un analizador sintáctico, acoplado al normalizador de texto, para analizar el texto de entrada, para identificar sintácticamente partes del habla; un módulo de pronunciación de palabras, acoplado al analizador sintáctico, para trazar al texto de entrada en segmentos fonéticos de habla y sonido; y un módulo de determinación prosódica, acoplado al módulo de pronunciación de palabras, para asignar patrones de tempori zación y entonación a cada uno de los segmentos fonéticos .

14. El sistema de conformidad con la reivindicación 12, caracterizado porque el selector de unidad comprende adicionalmente un preselector para extraer una lista candidata de, por lo menos, N unidades para un fonema en particular que será sintetizado a partir de la base de datos de costos de preselección de trifonemas.

15. El sistema de conformidad con la reivindicación 14, caracterizado porque el preselector extrae una lista de 50 unidades.

16. El sistema de conformidad con la reivindicación 14, caracterizado porque el selector de unidad comprende adicionalmente un buscador Viterbi, acoplado al preselector, para seleccionar una unidad a partir de la lista candidata suministrada por el preselector, usando mecanismos de búsqueda Viterbi.