METODO PARA SINTETIZAR VOZ
CAMPO DE LA INVENCION La presente invención se relaciona en general con la síntesis de Texto a Voz {TTS, por sus siglas en inglés) . La invención es particularmente útil para, pero no necesariamente limitada a, determinar una pronunciación sintetizada apropiada de un segmento de texto usando un cuerpo de expresión no exhaustivo. ¦ANTECEDENTES DE LA INVENCION La conversión de Texto a Voz, - frecuentemente ...conocida como síntesis concatenada de texto" a oz7-—permite que dispositivos electrónicos reciban una entrada de una secuencia de textos y proporcionen una representación convertida de la secuencia en forma de voz sintetizada. Sin embargo, un dispositivo que puede requerir sintetizar voz que se origina de un número no determinístico de secuencias de texto recibidas tendrá la dificultad de proporcionar voz sintetizada de elevada calidad realista. Esto es debido a que la pronunciación de cada palabra o sílaba (para caracteres chinos y similares) que va a sintetizarse depende del contexto y ubicación. Por ejemplo, una , pronunciación de una palabra al principio de: una oración (secuencia de texto de entrada) puede ahogarse o alargarse. La pronunciación de la misma palabra puede alargarse aún más si tiene lugar a la mitad de una Eef: 170851 oración en donde se requiere énfasis . En la mayoría de los idiomas la pronunciación de una palabra depende al menos del tono (entonación) , volumen y duración. Además muchos idiomas incluyen numerosas pronunciaciones posibles de sílabas individuales . Típicamente una sílaba sencilla representada por un carácter chino (u otra escritura basada en otro carácter similar) puede tener hasta 6 diferentes pronunciaciones. Además, con el fin de proporcionar una expresión sintetizada realista de cada pronunciación, se requiere un gran cuerpo de oraciones de formas de onda de expresión previamente grabadas . Este cuerpo típicamente requiere un promedio aproximado de 500 variaciones de cada pronunciación si quiere lograrse una síntesis de voz realista. Por lo tanto, un cuerpo de formas de onda de expresión, de todas las pronunciaciones para cada carácter sería prohibitivamente grande. En la mayoría de los sistemas de TTS existe una necesidad para determinar la pronunciación apropiada de un texto de entrada basado en comparaciones con un cuerpo de formas de onda de expresión de tamaño limitado. El tamaño ' del cuerpo de formas de onda de expresión puede estas particularmente limitado cuando se integra en un pequeño dispositivo electrónico que tiene una baja capacidad de memoria tal como un radio teléfono o un asistente digital personal . Los algoritmos usados para comparar la secuencia de textos de entrada con la base de datos de audio también necesitan ser eficientes y rápidos de tal manera que la voz resultante sintetizada y concatenada fluya naturalmente y uniformemente. Debido a las limitaciones de memoria y de velocidad de procesamiento, los métodos de TTS existentes para aplicaciones integradas frecuentemente, dan como resultado una voz que no es natural o con sonido robótico. Por lo tanto existe una necesidad por un método- mejorado para efectuar TTS para proporcionar una voz sintetizada de sonido natural usando al mismo tiempo un cuerpo de expresión no exhaustivo. BREVE DESCRIPCIÓN DE LA INVENCIÓN La presente invención es un método para efectuar síntesis de voz que incluye comparar un segmento de texto- de entrada con un cuerpo de formas de onda de expresión que contiene numerosas muestras de voz. El método determina si existe una mejor correspondencia contextual entre el segmento de texto y una muestra de voz incluida en el cuerpo de formas de onda de expresión. Si no existe una mejor correspondencia contextual, el método determina si existe una correspondencia híbrida fonética contextual entre el segmento de texto y una muestra de voz incluida en el cuerpo de formas de onda de expresión. Una correspondencia híbrida fonética contextual requiere, una correspondencia de todas las características prosódicas implícitas en un grupo de características prosódicas definido. Si aún no se encuentra una -correspondencia, el grupo de •características prosódicas se redefine borrando una de las características prosódicas implícitas del grupo de características prosódicas con el fin de redefinir el grupo de características prosódicas. El grupo de características prosódicas es redefinido sucesivamente borrando una característica prosódica implícita del grupo hasta que se encuentra una correspondencia entre el segmento de texto de entrada y una muestra de voz. Cuando se encuentra una correspondencia, la muestra de voz correspondida se usa para generar la voz concatenante. BREVE DESCRIPCIÓN DE LAS FIGURAS Otros aspectos . de la _ presente invención se harán -evidentes de-—la siguiente—descripción detallada- considerada junto con las figuras, en donde los caracteres de referencia similares designan elementos similares o correspondientes o etapas a través de las figuras, en los cuales: La figura 1 es un diagrama de bloques de un dispositivo electrónico en el cual puede implementarse la invención; la figura 2 es un diagrama de flujo que ilustra una modalidad específica de la presente invención usada para generar voz concatenante en el idioma chino; y la figura 3 es un diagrama de flujo que ilustra el proceso para determinar si existe una correspondencia híbrida fonética contextual por medio de la relajación sucesiva de las restricciones usadas para definir una correspondencia.
DESCRIPCIÓN DETALLADA DE LA INVENCIÓN Con referencia a la figura 1 se ilustra un diagrama de bloques de un dispositivo electrónico 10 en el cual puede implementarse la invención. El dispositivo 10 incluye un procesador 30 acoplado operativamente, por medio de un bus común 15, a un módulo de memoria de texto 20, una Memoria de Sólo Lectura (ROM, por sus siglas en inglés) 40, una Memoria de Acceso Aleatorio (RAM, por sus siglas en inglés) 50 y un cuerpo de formas de onda 60. El procesador 30 está acoplado también operativamente a una pantalla sensible al tacto 90 y a una entrada de un sintetizador de voz 70. Una salida del -sintetizador de voz - 70 está operativamente -acoplada- a un altavoz 80. Tal como será evidente para alguien con experiencia en la técnica, el módulo de memoria de texto es un almacenador para almacenar texto obtenido por cualquier medio receptor posible tal como por recepción por radio, Internet, o tarjetas de memoria portátiles conectables, etc. La ROM almacena un código de operación para llevar a cabo la invención como se describe en las figuras 2 y 3. Asimismo el cuerpo 60 es esencialmente un cuerpo convencional como lo es el sintetizador de voz 70 y el altavoz 80 y la pantalla sensible al tacto 90 es una interfaz del usuario y permite visualizar texto almacenado en el módulo de memoria de texto 20. La figura 2 es un diagrama de flujo que ilustra una modalidad especifica de la presente invención usada para generar voz concatenante 110 de un segmento de texto de entrada 120 en el idioma chino. El segmento de texto 120 es comparado con un cuerpo de formas de onda de expresión 60, el cual incluye una pluralidad de muestras de voz 140 para determinar si existe una mejor correspondencia contextual (etapa S110) . Si se encuentra una mejor correspondencia contextual entre un segmento de texto 120 y una muestra de voz específica 140, esa muestra de voz específica 140 se envía a un algoritmo de concatenación 150 para generar la voz concatenante 110. — —Si no se encuentra —l -mejor correspondencia contextual entre el segmento de texto 120 y una muestra de voz específica 140, entonces el segmento de texto 120 es comparado nuevamente con el cuerpo de formas de onda de expresión 130 para determinar si existe una correspondencia híbrida fonética contextual (etapa S120) . La figura 3 es un diagrama de flujo que ilustra el proceso de determinar si existe una correspondencia híbrida fonética contextual por la relajación sucesiva de las restricciones usadas para definir una correspondencia. Una correspondencia híbrida fonética contextual requiere una correspondencia entre un segmento de texto 120 y todas las características prosódicas implícitas 219 incluidas en un grupo definido de características prosódicas 220. Si no se encuentra una correspondencia, se borra una de las características prosódicas implícitas 210 del grupo definido de características prosódicas 220 y el grupo 220 es redefinido para incluir todas las características previamente incluidas 210 menos la características borrada 210 (por ejemplo, la Etapa 130) . El grupo redefinido de características prosódicas 220 es comparado entonces con el segmento de texto 120 para determinar si existe una correspondencia. El proceso de borrar una características prosódica implícita 210, redefinir el grupo de características prosódicas 220, después volver a determinar si existe una -correspondencia híbrida fonética cbntéxtual, continúa hasta' ~~ que' " se encuentra una correspondencia (Etapas S130, S140, etc. hasta S170) . Cuando se encuentra una correspondencia híbrida fonética contextual, la muestra de voz correspondida 140, la cual corresponde con el segmento de texto 120, se envía al algoritmo de concatenación 150 para generar voz concatenante 110. Tal como se muestra en la figura 3, si todas las características prosódicas implícitas 210 excepto pinyin son borradas sucesivamente del grupo de características prosódicas 220 y aún no se encuentra una correspondencia, entonces se realiza una correspondencia fonética básica que corresponde solamente a pinyin (Etapa S180) . En una modalidad de la presente invención el cuerpo de formas de onda de expresión 60 se diseña de tal manera que siempre existe al menos una sílaba incluida con el pinyin correcto para corresponder con todos los segmentos de texto de entrada posibles 120. Esa correspondencia fonética básica es ingresada entonces al algoritmo de concatenación 150. La invención es por lo tanto un método dirigido por datos, de capas múltiples para controlar la prosodia (ritmo y entonación) de la voz concatenante sintetizada resultante 110. En donde cada capa del método incluye un grupo de características prosódicas redefinido 220. Para propósitos de la presente invención un segmento de texto 120 significa cualquier tipo de secuencia o segmento de texto de entrada de lenguaje codificado. No deberá - 1imitarse - sol-amente- a— texto — visible que - es- -escaneado o ingresado en otra forma a un sistema TTS. El cuerpo de formas de onda de expresión 130 de la presente invención es anotado con información referente a cada muestra de voz 140 (usualmente una palabra) que se incluye en el cuerpo 130. Las muestras de voz 140 por sí mismas son generalmente grabaciones de voz humana real , usualmente digitalizada o formas de onda analógicas. Por lo tanto las anotaciones se requieren para identificar las muestras 140. Tales anotaciones pueden incluir las letras o caracteres específicos (dependiendo del idioma) que definen la muestra 140 así como las características prosódicas implícitas 210 de la muestra de voz 140. Las características prosódicas implícitas 210 incluyen información de contexto que se refiera a cómo se usa la muestra de voz 140 en una oración. Por ejemplo, una muestra de voz 140 en el idioma chino puede incluir las siguientes características prosódicas implícitas 210: Contexto del texto : los caracteres chinos que anteceden inmediatamente y siguen inmediatamente al texto, anotado de una muestra de voz 140. Pinyi : la representación fonética de una muestra de voz 140. Pinyin es una romanización estándar del lenguaje chino usando el alfabeto occidental . . Contexto del__tono,_-_el contexto del tono .de los caracteres-chinos que —anteceden- inmediatamente -¦- y que siguen inmediatamente al texto anotado de una muestra de voz 140. Coarticulación: los representantes de niveles fonéticos que anteceden inmediatamente- y que siguen inmediatamente al texto anotado de una muestra de voz 140, tal como fonemas o sílabas secundarias. Posición de las sílabas: la posición de las sílabas en una frase prosódica. Posición de la frase: la posición de una frase prosódic en una oración. Usualmente la posición de la frase está identificada como una de las tres posiciones de la oración inicial, oración media y oración final. Símbolo del carácter: el código (por ejemplo, código ASCII) que representa al carácter chino que define una muestra de voz 140. Longitud de la f ase : el número de caracteres chinos incluidos en una frase prosódica. Para un ejemplo de los valores específicos de las anteriores características prosódicas implícitas 210, considérese la siguiente oración China: "F???!^." si se almacenara un registro de audio hablado de esa oración en un cuerpo de formas de onda de expresión 130, cada sonido de los caracteres podría representar una muestra de voz 140 y podría anotarse con las características prosódicas implícitas anteriores 210. Por ejemplo, el carácter "H" .tal como se encuentra en la oración anterior podría anotarse de la siguiente manera: Contexto del texto: í&; Pinyin: guo2 ; Contexto del tono: 1, 3; Coarticulación: ong, h; Posición de la sílaba: 2; Posición de la frase: 1; Símbolo del carácter: código ASCII para H; y Longitud de la frase : 2. En la fi-gura 2, la etapa Sll-0 determina si existe una mejor correspondencia contextual entre un segmento de texto 120 y una muestra de voz 140. Una mejor correspondencia contextual se define generalmente como la correspondencia más cercana, o una exacta de 1) las letras o caracteres (dependiendo del idioma) de un segmento de texto de entrada 120 con las letras o caracteres correspondientes de una muestra de voz anotada 140, y 2) las características prosódicas implícitas 210 del segmento de texto de entrada 120 con las características prosódicas implícitas 210 de la muestra de voz anotada 140. En términos más generales una mejor correspondencia es determinada mediante la identificación del mayor número de sílabas consecutivas en el segmento de texto de entrada que son idénticas a los atributos y posiciones de los atributos en cada una se las expresiones de formas de onda (muestra de voz) en el cuerpo de formas de onda 60. Solo cuando las letras o caracteres y las características prosódicas implícitas 210 corresponden con exactitud se selecciona una muestra de voz 140 inmediatamente como un elemento para uso en el algoritmo de concatenación 150. Cuando no se encuentra una mejor correspondencia contextual, el método de la presente invención determina entonces si existe una correspondencia híbrida fonética contextual entre un segmento de texto de entrada 120 y una muestra de voz 140. Tal como se describió arriba, una correspondencia híbrida fonética -contextual requiere una correspondencia entre un segmento de texto 120 y todas las características prosódicas implícitas 210 incluidas en un grupo de características prosódicas definido 220. Tal como se muestra en la figura 3, una modalidad de la presente invención utilizada para sintetizar voz en el idioma chino emplea un primer grupo de características prosódicas definido 220 que incluye las características prosódicas implícitas 210 de pinyin, contexto de tono, coarticulación, posición de las sílabas, posición de la frase, símbolo de caracteres, y longitud de la frase (Etapa S120) . Si ninguna de las muestras de voz anotadas 140 encontradas en el cuerpo de formas de onda de expresión 130 tiene valores idénticos para cada una de las características anteriores 210 como se encuentra en el segmento de texto 120, entonces el cuerpo 130 no contiene una muestra de voz 140 que sea suficientemente cercana al segmento de texto de entrada 120 con base en las reglas de correspondencia aplicadas en la Etapa S120. Por lo tanto, las restricciones de las reglas de correspondencia deben relajarse y por lo tanto ampliarse para incluir otras muestras de voz 140 que posean las siguientes características más preferibles 210 encontradas en el segmento de texto 120. En otras palabras, las reglas de coincidencia se amplían borrando la característica 210 encontrada en el grupo de características prosódicas definido 220 que tiene menor probabilidad de afectar la prosodia natural del segmento de texto de entrada 120. Por ejemplo, tal como se muestra en la Etapa S130 tanto en la figura 2 como en la figura 3, la siguiente características más preferible 210 encontrada en la modalidad ilustrada de la presente invención incluye todas las características 210 definidas anteriormente menos la longitud de la característica de la frase 210. El orden en el cual las características prosódicas implícitas 210 son borradas del grupo de características prosódicas definido 220 se determina empíricamente. Cuando las características 210 son borradas en un orden apropiado, el método de la presente invención resulta en una síntesis de voz eficiente y rápida. Por lo tanto la voz producida suena más natural a pesar de que el cuerpo de formas de onda de expresión 130 puede estar relativamente limitado en tamaño. De conformidad con la presente invención, después de que · el cuerpo de formas de onda de expresión 130 se ha comparado con un segmento de texto 120 usando un grupo de características prosódicas definido 220, es posible que se encuentre que las anotaciones de muestras de voz múltiples 140 correspondan con el segmento de texto analizado 120. En tal caso, puede seleccionarse una correspondencia híbrida fonética contextual óptima usando la siguiente ecuación:
dif = Wp x entonación - Mejor Entonación MejorEntonación (Ecuación 1)
+ Wd x dur - Mejor Dur\ 2 Mej orDur en donde : Wp = ponderación de la entonación del segmento de texto
120; Wá = ponderación de la duración del segmento de texto 120; dif = valor diferencial para seleccionar una óptima correspondencia híbrida fonética contextual; entonación = entonación del segmento de texto 120; MejorEntonación = entonación de un segmento de texto ideal 120; dur = duración del segmento de texto 120; y MejorDur-= -duración del segmento-de texto- ideal 120. En la ecuación anterior 1, la variable MejorEntonación puede determinarse con base en un análisis estadístico del cuerpo de formas de onda de expresión 130. Por ejemplo un cuerpo 130 puede incluir cinco tonos, cada uno con una entonación promedio. Cada muestra de voz anotada 140 en el cuerpo 130 puede incluir también información de prosodia individual representada por los valores de entonación, duración y energía. De tal manera que están disponibles los valores de entonación, duración y energía de todo el cuerpo 130. La mejor entonación para un contexto particular puede determinarse entonces usando la siguiente fórmula: MejorEntonación = entonaciónt0no - níndice x valorempírico (Ec. 2) en donde entonacióntono = la entonación promedio incluyendo el tono del cuerpo de formas de onda de expresión; níndice = el índice del segmento de texto 120 en una frase prosódica; y valorempírico = un valor empírico basado en el cuerpo de formas de onda de expresión. El valor empírico de 4 se usa en una modalidad particular de la presente invención que sintetiza el idioma chino; sin embargo este número podría variar dependiendo del contenido de un cuerpo particular de formas de onda de expresión 130. .. .. _ .
Similarmente la duración de u segmento de texto ideal 120 puede determinarse usando la siguiente ecuación: MejorDuración = durs x fs - níndice x valorempírico (Ec.3) en donde : dura = la duración promedio del segmento de texto 120 sin tono; níndice = el índice del segmento de texto 120 en una frase prosódica; fs = un coeficiente para posición prosódica; y valorempírico = un valor empírico basado en el cuerpo de formas de onda de expresión. Nuevamente se usa el valor empírico de 4 en una modalidad particular de la presente invención que sintetiza el idioma chino, sin embargo este número podría variar dependiendo del contenido de un cuerpo particular de formas de onda de expresión 130. El valor diferencial para una difW puede ser la suma de valores diferenciales para cada silaba en la palabra. Esto puede representarse en términos matemáticos mediante la siguiente ecuación: j-srxr JV (ecuación 4) k
Tal como se describió arriba, si se encuentran varias muestras de voz 140 que correspondan a un segmento de texto particular 120, el sistema elegirá la muestra de voz 140 cuyo valor diferencial sea el menor. Esto puede representarse en
" términos -matemáticos mediante la siguiente ecuación: m (ecuación 5) difW^-Min^dtfW, i
Además, el método de la presente invención puede incluir el uso de umbrales prefijados para el valor diferencial difW. Si el valor diferencial para una muestra de voz correspondida 140 está por debajo de un umbral particular, el método dirigirá la muestra de voz correspondida 140 al algoritmo de concatenación 150 para generar la voz concatenante 110. De otra manera, el método puede requerir relajar las- restricciones en la correspondencia híbrida fonética contextual borrando una de las características prosódicas implícitas 210 requeridas y continuar buscando una correspondencia.
A pesar de que la descripción anterior se relaciona con un ejemplo especifico del método de la presente invención para el idioma chino, la invención es apropiada para muchos idiomas. Para algunos idiomas las características prosódicas implícitas 210 podrían necesitar borrarse o redefinirse de los ejemplos dados aquí anteriormente. Por ejemplo, la característica 210 identificada arriba como contexto de tono se borraría en una aplicación de la presente invención para el idioma inglés porque el inglés' no es un lenguaje tonal. Asimismo, la característica 210 identificada arriba como -pinyin probablemente se..redefiniría como un simple símbolo fonético cuando la presente invención se aplica al inglés. La presente invención es por lo tanto un esquema de control prosódico gobernado por datos que utiliza la información prosódica implícita en un cuerpo de formas de onda de expresión 130. Guando se busca una muestra de voz apropiada 140 que corresponda con un segmento de texto de entrada 120 dado, el método de la presente invención emplea una estrategia basada en una correspondencia de capas múltiples, en donde cada capa es tratada a la vez hasta que se encuentra una correspondencia suficientemente buena. Al relajarse sucesivamente las restricciones de cada capa, el método determina eficientemente si el cuerpo de formas de onda de expresión 130 contiene una correspondencia. Por lo tanto -el método es particularmente apropiado para sistemas de TTS integrados en donde el tamaño del cuerpo de formas de onda de expresión 130 y la energía de procesamiento del sistema puede estar limitado. A pesar de que se han ilustrado modalidades de ejemplo de un método de la presente invención en las figuras anexas y se han descrito en la descripción anterior, se entenderá que la invención no se limita a las modalidades descritas; más bien la invención puede variar en muchas formas, particularmente en relación con aplicaciones en idiomas diferentes al chino. Por lo tanto, deberá reconocerse que la invención tendrá que
_ limitarse solo por el ...alcance de las siguientes
-reivindicaciones. Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención.