MXPA06003431A - Metodo para sintetizar voz. - Google Patents

Metodo para sintetizar voz.

Info

Publication number
MXPA06003431A
MXPA06003431A MXPA06003431A MXPA06003431A MXPA06003431A MX PA06003431 A MXPA06003431 A MX PA06003431A MX PA06003431 A MXPA06003431 A MX PA06003431A MX PA06003431 A MXPA06003431 A MX PA06003431A MX PA06003431 A MXPA06003431 A MX PA06003431A
Authority
MX
Mexico
Prior art keywords
intonation
prosodic
correspondence
waveforms
segment
Prior art date
Application number
MXPA06003431A
Other languages
English (en)
Inventor
Gui-Lin Chen
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of MXPA06003431A publication Critical patent/MXPA06003431A/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

Se describe un metodo para efectuar sintesis de voz que incluye comparar un segmento de texto (120) de entrada con un cuerpo de formas de onda de expresion (60) que contiene numerosas muestras de voz (140). El metodo determina si existe una mejor correspondencia contextual entre el segmento de texto (120) y una muestra de voz (140). Si no existe una mejor correspondencia contextual, el metodo determina si existe una correspondencia hibrida fonetica contextual entre el segmento de texto (120) y una muestra de voz (140). Una correspondencia hibrida fonetica contextual requiere una correspondencia de todas las caracteristicas prosodicas implicitas (210) en un grupo de caracteristicas prosodicas definido (220). Si aun no se encentra una correspondencia, el grupo de caracteristicas prosodicas (220) se redefine borrando una de las caracteristicas prosodicas implicitas (210) del grupo de caracteristicas prosodicas (220). El grupo de caracteristicas prosodicas (220) es redefinido sucesivamente borrando una caracteristica prosodica implicita (210) del grupo (220) hasta que se encuentra una correspondencia entre el segmento de texto de entrada (120) y una muestra de voz (140). Cuando se encuentra una correspondencia, la muestra de voz correspondida (140) se usa para generar la voz concatenante (110).

Description

METODO PARA SINTETIZAR VOZ CAMPO DE LA INVENCION La presente invención se relaciona en general con la síntesis de Texto a Voz {TTS, por sus siglas en inglés) . La invención es particularmente útil para, pero no necesariamente limitada a, determinar una pronunciación sintetizada apropiada de un segmento de texto usando un cuerpo de expresión no exhaustivo. ¦ANTECEDENTES DE LA INVENCION La conversión de Texto a Voz, - frecuentemente ...conocida como síntesis concatenada de texto" a oz7-—permite que dispositivos electrónicos reciban una entrada de una secuencia de textos y proporcionen una representación convertida de la secuencia en forma de voz sintetizada. Sin embargo, un dispositivo que puede requerir sintetizar voz que se origina de un número no determinístico de secuencias de texto recibidas tendrá la dificultad de proporcionar voz sintetizada de elevada calidad realista. Esto es debido a que la pronunciación de cada palabra o sílaba (para caracteres chinos y similares) que va a sintetizarse depende del contexto y ubicación. Por ejemplo, una , pronunciación de una palabra al principio de: una oración (secuencia de texto de entrada) puede ahogarse o alargarse. La pronunciación de la misma palabra puede alargarse aún más si tiene lugar a la mitad de una Eef: 170851 oración en donde se requiere énfasis . En la mayoría de los idiomas la pronunciación de una palabra depende al menos del tono (entonación) , volumen y duración. Además muchos idiomas incluyen numerosas pronunciaciones posibles de sílabas individuales . Típicamente una sílaba sencilla representada por un carácter chino (u otra escritura basada en otro carácter similar) puede tener hasta 6 diferentes pronunciaciones. Además, con el fin de proporcionar una expresión sintetizada realista de cada pronunciación, se requiere un gran cuerpo de oraciones de formas de onda de expresión previamente grabadas . Este cuerpo típicamente requiere un promedio aproximado de 500 variaciones de cada pronunciación si quiere lograrse una síntesis de voz realista. Por lo tanto, un cuerpo de formas de onda de expresión, de todas las pronunciaciones para cada carácter sería prohibitivamente grande. En la mayoría de los sistemas de TTS existe una necesidad para determinar la pronunciación apropiada de un texto de entrada basado en comparaciones con un cuerpo de formas de onda de expresión de tamaño limitado. El tamaño ' del cuerpo de formas de onda de expresión puede estas particularmente limitado cuando se integra en un pequeño dispositivo electrónico que tiene una baja capacidad de memoria tal como un radio teléfono o un asistente digital personal . Los algoritmos usados para comparar la secuencia de textos de entrada con la base de datos de audio también necesitan ser eficientes y rápidos de tal manera que la voz resultante sintetizada y concatenada fluya naturalmente y uniformemente. Debido a las limitaciones de memoria y de velocidad de procesamiento, los métodos de TTS existentes para aplicaciones integradas frecuentemente, dan como resultado una voz que no es natural o con sonido robótico. Por lo tanto existe una necesidad por un método- mejorado para efectuar TTS para proporcionar una voz sintetizada de sonido natural usando al mismo tiempo un cuerpo de expresión no exhaustivo. BREVE DESCRIPCIÓN DE LA INVENCIÓN La presente invención es un método para efectuar síntesis de voz que incluye comparar un segmento de texto- de entrada con un cuerpo de formas de onda de expresión que contiene numerosas muestras de voz. El método determina si existe una mejor correspondencia contextual entre el segmento de texto y una muestra de voz incluida en el cuerpo de formas de onda de expresión. Si no existe una mejor correspondencia contextual, el método determina si existe una correspondencia híbrida fonética contextual entre el segmento de texto y una muestra de voz incluida en el cuerpo de formas de onda de expresión. Una correspondencia híbrida fonética contextual requiere, una correspondencia de todas las características prosódicas implícitas en un grupo de características prosódicas definido. Si aún no se encuentra una -correspondencia, el grupo de •características prosódicas se redefine borrando una de las características prosódicas implícitas del grupo de características prosódicas con el fin de redefinir el grupo de características prosódicas. El grupo de características prosódicas es redefinido sucesivamente borrando una característica prosódica implícita del grupo hasta que se encuentra una correspondencia entre el segmento de texto de entrada y una muestra de voz. Cuando se encuentra una correspondencia, la muestra de voz correspondida se usa para generar la voz concatenante. BREVE DESCRIPCIÓN DE LAS FIGURAS Otros aspectos . de la _ presente invención se harán -evidentes de-—la siguiente—descripción detallada- considerada junto con las figuras, en donde los caracteres de referencia similares designan elementos similares o correspondientes o etapas a través de las figuras, en los cuales: La figura 1 es un diagrama de bloques de un dispositivo electrónico en el cual puede implementarse la invención; la figura 2 es un diagrama de flujo que ilustra una modalidad específica de la presente invención usada para generar voz concatenante en el idioma chino; y la figura 3 es un diagrama de flujo que ilustra el proceso para determinar si existe una correspondencia híbrida fonética contextual por medio de la relajación sucesiva de las restricciones usadas para definir una correspondencia.
DESCRIPCIÓN DETALLADA DE LA INVENCIÓN Con referencia a la figura 1 se ilustra un diagrama de bloques de un dispositivo electrónico 10 en el cual puede implementarse la invención. El dispositivo 10 incluye un procesador 30 acoplado operativamente, por medio de un bus común 15, a un módulo de memoria de texto 20, una Memoria de Sólo Lectura (ROM, por sus siglas en inglés) 40, una Memoria de Acceso Aleatorio (RAM, por sus siglas en inglés) 50 y un cuerpo de formas de onda 60. El procesador 30 está acoplado también operativamente a una pantalla sensible al tacto 90 y a una entrada de un sintetizador de voz 70. Una salida del -sintetizador de voz - 70 está operativamente -acoplada- a un altavoz 80. Tal como será evidente para alguien con experiencia en la técnica, el módulo de memoria de texto es un almacenador para almacenar texto obtenido por cualquier medio receptor posible tal como por recepción por radio, Internet, o tarjetas de memoria portátiles conectables, etc. La ROM almacena un código de operación para llevar a cabo la invención como se describe en las figuras 2 y 3. Asimismo el cuerpo 60 es esencialmente un cuerpo convencional como lo es el sintetizador de voz 70 y el altavoz 80 y la pantalla sensible al tacto 90 es una interfaz del usuario y permite visualizar texto almacenado en el módulo de memoria de texto 20. La figura 2 es un diagrama de flujo que ilustra una modalidad especifica de la presente invención usada para generar voz concatenante 110 de un segmento de texto de entrada 120 en el idioma chino. El segmento de texto 120 es comparado con un cuerpo de formas de onda de expresión 60, el cual incluye una pluralidad de muestras de voz 140 para determinar si existe una mejor correspondencia contextual (etapa S110) . Si se encuentra una mejor correspondencia contextual entre un segmento de texto 120 y una muestra de voz específica 140, esa muestra de voz específica 140 se envía a un algoritmo de concatenación 150 para generar la voz concatenante 110. — —Si no se encuentra —l -mejor correspondencia contextual entre el segmento de texto 120 y una muestra de voz específica 140, entonces el segmento de texto 120 es comparado nuevamente con el cuerpo de formas de onda de expresión 130 para determinar si existe una correspondencia híbrida fonética contextual (etapa S120) . La figura 3 es un diagrama de flujo que ilustra el proceso de determinar si existe una correspondencia híbrida fonética contextual por la relajación sucesiva de las restricciones usadas para definir una correspondencia. Una correspondencia híbrida fonética contextual requiere una correspondencia entre un segmento de texto 120 y todas las características prosódicas implícitas 219 incluidas en un grupo definido de características prosódicas 220. Si no se encuentra una correspondencia, se borra una de las características prosódicas implícitas 210 del grupo definido de características prosódicas 220 y el grupo 220 es redefinido para incluir todas las características previamente incluidas 210 menos la características borrada 210 (por ejemplo, la Etapa 130) . El grupo redefinido de características prosódicas 220 es comparado entonces con el segmento de texto 120 para determinar si existe una correspondencia. El proceso de borrar una características prosódica implícita 210, redefinir el grupo de características prosódicas 220, después volver a determinar si existe una -correspondencia híbrida fonética cbntéxtual, continúa hasta' ~~ que' " se encuentra una correspondencia (Etapas S130, S140, etc. hasta S170) . Cuando se encuentra una correspondencia híbrida fonética contextual, la muestra de voz correspondida 140, la cual corresponde con el segmento de texto 120, se envía al algoritmo de concatenación 150 para generar voz concatenante 110. Tal como se muestra en la figura 3, si todas las características prosódicas implícitas 210 excepto pinyin son borradas sucesivamente del grupo de características prosódicas 220 y aún no se encuentra una correspondencia, entonces se realiza una correspondencia fonética básica que corresponde solamente a pinyin (Etapa S180) . En una modalidad de la presente invención el cuerpo de formas de onda de expresión 60 se diseña de tal manera que siempre existe al menos una sílaba incluida con el pinyin correcto para corresponder con todos los segmentos de texto de entrada posibles 120. Esa correspondencia fonética básica es ingresada entonces al algoritmo de concatenación 150. La invención es por lo tanto un método dirigido por datos, de capas múltiples para controlar la prosodia (ritmo y entonación) de la voz concatenante sintetizada resultante 110. En donde cada capa del método incluye un grupo de características prosódicas redefinido 220. Para propósitos de la presente invención un segmento de texto 120 significa cualquier tipo de secuencia o segmento de texto de entrada de lenguaje codificado. No deberá - 1imitarse - sol-amente- a— texto — visible que - es- -escaneado o ingresado en otra forma a un sistema TTS. El cuerpo de formas de onda de expresión 130 de la presente invención es anotado con información referente a cada muestra de voz 140 (usualmente una palabra) que se incluye en el cuerpo 130. Las muestras de voz 140 por sí mismas son generalmente grabaciones de voz humana real , usualmente digitalizada o formas de onda analógicas. Por lo tanto las anotaciones se requieren para identificar las muestras 140. Tales anotaciones pueden incluir las letras o caracteres específicos (dependiendo del idioma) que definen la muestra 140 así como las características prosódicas implícitas 210 de la muestra de voz 140. Las características prosódicas implícitas 210 incluyen información de contexto que se refiera a cómo se usa la muestra de voz 140 en una oración. Por ejemplo, una muestra de voz 140 en el idioma chino puede incluir las siguientes características prosódicas implícitas 210: Contexto del texto : los caracteres chinos que anteceden inmediatamente y siguen inmediatamente al texto, anotado de una muestra de voz 140. Pinyi : la representación fonética de una muestra de voz 140. Pinyin es una romanización estándar del lenguaje chino usando el alfabeto occidental . . Contexto del__tono,_-_el contexto del tono .de los caracteres-chinos que —anteceden- inmediatamente -¦- y que siguen inmediatamente al texto anotado de una muestra de voz 140. Coarticulación: los representantes de niveles fonéticos que anteceden inmediatamente- y que siguen inmediatamente al texto anotado de una muestra de voz 140, tal como fonemas o sílabas secundarias. Posición de las sílabas: la posición de las sílabas en una frase prosódica. Posición de la frase: la posición de una frase prosódic en una oración. Usualmente la posición de la frase está identificada como una de las tres posiciones de la oración inicial, oración media y oración final. Símbolo del carácter: el código (por ejemplo, código ASCII) que representa al carácter chino que define una muestra de voz 140. Longitud de la f ase : el número de caracteres chinos incluidos en una frase prosódica. Para un ejemplo de los valores específicos de las anteriores características prosódicas implícitas 210, considérese la siguiente oración China: "F???!^." si se almacenara un registro de audio hablado de esa oración en un cuerpo de formas de onda de expresión 130, cada sonido de los caracteres podría representar una muestra de voz 140 y podría anotarse con las características prosódicas implícitas anteriores 210. Por ejemplo, el carácter "H" .tal como se encuentra en la oración anterior podría anotarse de la siguiente manera: Contexto del texto: í&; Pinyin: guo2 ; Contexto del tono: 1, 3; Coarticulación: ong, h; Posición de la sílaba: 2; Posición de la frase: 1; Símbolo del carácter: código ASCII para H; y Longitud de la frase : 2. En la fi-gura 2, la etapa Sll-0 determina si existe una mejor correspondencia contextual entre un segmento de texto 120 y una muestra de voz 140. Una mejor correspondencia contextual se define generalmente como la correspondencia más cercana, o una exacta de 1) las letras o caracteres (dependiendo del idioma) de un segmento de texto de entrada 120 con las letras o caracteres correspondientes de una muestra de voz anotada 140, y 2) las características prosódicas implícitas 210 del segmento de texto de entrada 120 con las características prosódicas implícitas 210 de la muestra de voz anotada 140. En términos más generales una mejor correspondencia es determinada mediante la identificación del mayor número de sílabas consecutivas en el segmento de texto de entrada que son idénticas a los atributos y posiciones de los atributos en cada una se las expresiones de formas de onda (muestra de voz) en el cuerpo de formas de onda 60. Solo cuando las letras o caracteres y las características prosódicas implícitas 210 corresponden con exactitud se selecciona una muestra de voz 140 inmediatamente como un elemento para uso en el algoritmo de concatenación 150. Cuando no se encuentra una mejor correspondencia contextual, el método de la presente invención determina entonces si existe una correspondencia híbrida fonética contextual entre un segmento de texto de entrada 120 y una muestra de voz 140. Tal como se describió arriba, una correspondencia híbrida fonética -contextual requiere una correspondencia entre un segmento de texto 120 y todas las características prosódicas implícitas 210 incluidas en un grupo de características prosódicas definido 220. Tal como se muestra en la figura 3, una modalidad de la presente invención utilizada para sintetizar voz en el idioma chino emplea un primer grupo de características prosódicas definido 220 que incluye las características prosódicas implícitas 210 de pinyin, contexto de tono, coarticulación, posición de las sílabas, posición de la frase, símbolo de caracteres, y longitud de la frase (Etapa S120) . Si ninguna de las muestras de voz anotadas 140 encontradas en el cuerpo de formas de onda de expresión 130 tiene valores idénticos para cada una de las características anteriores 210 como se encuentra en el segmento de texto 120, entonces el cuerpo 130 no contiene una muestra de voz 140 que sea suficientemente cercana al segmento de texto de entrada 120 con base en las reglas de correspondencia aplicadas en la Etapa S120. Por lo tanto, las restricciones de las reglas de correspondencia deben relajarse y por lo tanto ampliarse para incluir otras muestras de voz 140 que posean las siguientes características más preferibles 210 encontradas en el segmento de texto 120. En otras palabras, las reglas de coincidencia se amplían borrando la característica 210 encontrada en el grupo de características prosódicas definido 220 que tiene menor probabilidad de afectar la prosodia natural del segmento de texto de entrada 120. Por ejemplo, tal como se muestra en la Etapa S130 tanto en la figura 2 como en la figura 3, la siguiente características más preferible 210 encontrada en la modalidad ilustrada de la presente invención incluye todas las características 210 definidas anteriormente menos la longitud de la característica de la frase 210. El orden en el cual las características prosódicas implícitas 210 son borradas del grupo de características prosódicas definido 220 se determina empíricamente. Cuando las características 210 son borradas en un orden apropiado, el método de la presente invención resulta en una síntesis de voz eficiente y rápida. Por lo tanto la voz producida suena más natural a pesar de que el cuerpo de formas de onda de expresión 130 puede estar relativamente limitado en tamaño. De conformidad con la presente invención, después de que · el cuerpo de formas de onda de expresión 130 se ha comparado con un segmento de texto 120 usando un grupo de características prosódicas definido 220, es posible que se encuentre que las anotaciones de muestras de voz múltiples 140 correspondan con el segmento de texto analizado 120. En tal caso, puede seleccionarse una correspondencia híbrida fonética contextual óptima usando la siguiente ecuación: dif = Wp x entonación - Mejor Entonación MejorEntonación (Ecuación 1) + Wd x dur - Mejor Dur\ 2 Mej orDur en donde : Wp = ponderación de la entonación del segmento de texto 120; Wá = ponderación de la duración del segmento de texto 120; dif = valor diferencial para seleccionar una óptima correspondencia híbrida fonética contextual; entonación = entonación del segmento de texto 120; MejorEntonación = entonación de un segmento de texto ideal 120; dur = duración del segmento de texto 120; y MejorDur-= -duración del segmento-de texto- ideal 120. En la ecuación anterior 1, la variable MejorEntonación puede determinarse con base en un análisis estadístico del cuerpo de formas de onda de expresión 130. Por ejemplo un cuerpo 130 puede incluir cinco tonos, cada uno con una entonación promedio. Cada muestra de voz anotada 140 en el cuerpo 130 puede incluir también información de prosodia individual representada por los valores de entonación, duración y energía. De tal manera que están disponibles los valores de entonación, duración y energía de todo el cuerpo 130. La mejor entonación para un contexto particular puede determinarse entonces usando la siguiente fórmula: MejorEntonación = entonaciónt0no - níndice x valorempírico (Ec. 2) en donde entonacióntono = la entonación promedio incluyendo el tono del cuerpo de formas de onda de expresión; níndice = el índice del segmento de texto 120 en una frase prosódica; y valorempírico = un valor empírico basado en el cuerpo de formas de onda de expresión. El valor empírico de 4 se usa en una modalidad particular de la presente invención que sintetiza el idioma chino; sin embargo este número podría variar dependiendo del contenido de un cuerpo particular de formas de onda de expresión 130. .. .. _ .
Similarmente la duración de u segmento de texto ideal 120 puede determinarse usando la siguiente ecuación: MejorDuración = durs x fs - níndice x valorempírico (Ec.3) en donde : dura = la duración promedio del segmento de texto 120 sin tono; níndice = el índice del segmento de texto 120 en una frase prosódica; fs = un coeficiente para posición prosódica; y valorempírico = un valor empírico basado en el cuerpo de formas de onda de expresión. Nuevamente se usa el valor empírico de 4 en una modalidad particular de la presente invención que sintetiza el idioma chino, sin embargo este número podría variar dependiendo del contenido de un cuerpo particular de formas de onda de expresión 130. El valor diferencial para una difW puede ser la suma de valores diferenciales para cada silaba en la palabra. Esto puede representarse en términos matemáticos mediante la siguiente ecuación: j-srxr JV (ecuación 4) k Tal como se describió arriba, si se encuentran varias muestras de voz 140 que correspondan a un segmento de texto particular 120, el sistema elegirá la muestra de voz 140 cuyo valor diferencial sea el menor. Esto puede representarse en " términos -matemáticos mediante la siguiente ecuación: m (ecuación 5) difW^-Min^dtfW, i Además, el método de la presente invención puede incluir el uso de umbrales prefijados para el valor diferencial difW. Si el valor diferencial para una muestra de voz correspondida 140 está por debajo de un umbral particular, el método dirigirá la muestra de voz correspondida 140 al algoritmo de concatenación 150 para generar la voz concatenante 110. De otra manera, el método puede requerir relajar las- restricciones en la correspondencia híbrida fonética contextual borrando una de las características prosódicas implícitas 210 requeridas y continuar buscando una correspondencia.
A pesar de que la descripción anterior se relaciona con un ejemplo especifico del método de la presente invención para el idioma chino, la invención es apropiada para muchos idiomas. Para algunos idiomas las características prosódicas implícitas 210 podrían necesitar borrarse o redefinirse de los ejemplos dados aquí anteriormente. Por ejemplo, la característica 210 identificada arriba como contexto de tono se borraría en una aplicación de la presente invención para el idioma inglés porque el inglés' no es un lenguaje tonal. Asimismo, la característica 210 identificada arriba como -pinyin probablemente se..redefiniría como un simple símbolo fonético cuando la presente invención se aplica al inglés. La presente invención es por lo tanto un esquema de control prosódico gobernado por datos que utiliza la información prosódica implícita en un cuerpo de formas de onda de expresión 130. Guando se busca una muestra de voz apropiada 140 que corresponda con un segmento de texto de entrada 120 dado, el método de la presente invención emplea una estrategia basada en una correspondencia de capas múltiples, en donde cada capa es tratada a la vez hasta que se encuentra una correspondencia suficientemente buena. Al relajarse sucesivamente las restricciones de cada capa, el método determina eficientemente si el cuerpo de formas de onda de expresión 130 contiene una correspondencia. Por lo tanto -el método es particularmente apropiado para sistemas de TTS integrados en donde el tamaño del cuerpo de formas de onda de expresión 130 y la energía de procesamiento del sistema puede estar limitado. A pesar de que se han ilustrado modalidades de ejemplo de un método de la presente invención en las figuras anexas y se han descrito en la descripción anterior, se entenderá que la invención no se limita a las modalidades descritas; más bien la invención puede variar en muchas formas, particularmente en relación con aplicaciones en idiomas diferentes al chino. Por lo tanto, deberá reconocerse que la invención tendrá que _ limitarse solo por el ...alcance de las siguientes -reivindicaciones. Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención.

Claims (12)

  1. REIVINDICACIONES
  2. Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes reivindicaciones : 1. Un método para la realización de síntesis de voz en un segmento de texto, realizándose el método en un dispositivo electrónico, caracterizado porque el método comprende: comparar un segmento de texto, con un cuerpo de formas de onda de expresión, el cuerpo de formas de onda de expresión comprende una pluralidad de muestras de formas de onda de voz; -de-terminar una mejor— correspondencia entre- silabas consecutivas en el segmento de texto y atributos asociados con expresiones de formas de onda de voz muestreadas, determinando la mejor correspondencia mediante la identificación del mayor número de sílabas consecutivas que son idénticas a los atributos y posiciones de atributos en cada una de las expresiones de formas de onda; comprobar una correspondencia adecuada para cada sílaba no correspondida en el segmento de texto, siendo cada sílaba no correspondida una sílaba que no es una de las sílabas consecutivas y determinándose la correspondencia adecuada de una comparación de una característica prosódica en un grupo de características prosódicas con los atributos asociados con las expresiones de formas de onda de voz muestreadas, en donde la comprobación se distingue por la remoción sucesiva de características prosódicas del grupo de características prosódicas hasta que se encuentra esa correspondencia adecuada; y generar voz sintetizada concatenada para el segmento de texto usando las muestras de formas de onda de voz en el cuerpo , seleccionándose las muestras de formas de onda de voz de la mejor correspondencia entre sílabas consecutivas y una correspondencia adecuada para cada sílaba no correspondida. 2. El método de conformidad con la reivindicación 1 , _caracterizado porque las características prosódicas incluyen —características seleccionadas del grupo que consiste de contexto del texto, pinyin, contexto de tono, coarticulación, posición de las sílaba, posición de la frase, símbolo del carácter, y longitud de la frase.
  3. 3. El método de conformidad con la reivindicación 1, caracterizado porque las características prosódicas comprenden contexto de tono, coarticulación, posición de la sílaba, posición de la frase y símbolo del carácter.
  4. 4. El método de conformidad con la reivindicación 1, caracterizado porque adicionalmente comprende la etapa de realizar una correspondencia fonética básica solamente en pinyin después de que esa otra característica prosódica se ha removido sucesivamente .
  5. 5. El método de conformidad con la reivindicación 1, caracterizado porque la etapa de determinación incluye la etapa de seleccionar una correspondencia híbrida fonética contextual óptima cuando se encuentran numerosas mejores correspondencias mediante el uso de la fórmula: dif <= Wp x entonación - Mejor Entonación MejorEntonación r + Wd x dur - Mejor Dur] MejorDur en donde : Wp = ponderación de la entonación del segmento de voz; Wd = ponderación de la duración del segmento de voz; dif = valor diferencial para seleccionar una óptima correspondencia híbrida fonética contextual; entonación = entonación del segmento de voz; MejorEntonación = entonación del un segmento de voz ideal; dur = duración del segmento de voz; y MejorDur = duración del segmento de voz ideal.
  6. 6. El método de conformidad con la reivindicación 5, caracterizado porque la mejor entonación se determina usando la siguiente fórmula: ' MejorEntonación = entonacióntono - níndice x valorempírico en donde entonaciónt0no = la entonación promedio incluyendo el tono del cuerpo de formas de onda- de expresión; níndíce = el Indice del segmento de voz en una frase prosódica; y valorempírico = un valor empírico basado en el cuerpo de formas de onda de expresión.
  7. 7. El método de conformidad con la reivindicación 5, caracterizado porque la mejor duración se determina usando la siguiente fórmula: MejorDuración = durs x fs - níndíce x valorempírico en donde : durs = la duración promedio del segmento de texto sin tono; níndíce = el índice del segmento de voz en una frase prosódica; y fs - un coeficiente para posición prosódica; y valorempírico = un valor empírico basado en el cuerpo de formas de onda de expresión.
  8. 8. El método de conformidad con la reivindicación 1, caracterizado porque la etapa de determinación incluye la etapa de seleccionar una correspondencia híbrida fonética contextual óptima cuando se encuentran numerosas correspondencias adecuadas mediante el uso de la fórmula: dif = Wp entonación - Mejor Entonación MejorEntonación + Wd dur - Mejor Dur\ 2 MejorDur J en donde : Wp = ponderación de la entonación del segmento de voz; W¿ = ponderación de la duración del segmento de voz; dif = valor diferencial para seleccionar una óptima correspondencia híbrida fonética contextual; entonación = entonación del segmento de voz; MejorEntonación = entonación del un segmento de voz ideal ; dur = duración del segmento de voz; y MejorDur = duración del segmento de voz ideal .
  9. 9. El método de conformidad con la reivindicación 8 , caracterizado porque- la correspondencia -híbrida -fonética contextual óptima es la correspondencia que tiene el menor valor diferencial (dif) .
  10. 10. El método de conformidad con la reivindicación 8, caracterizado porque el menor valor diferencial (dif) para seleccionar la correspondencia híbrida fonética contextual óptima es comparado con un umbral prefijado.
  11. 11. El método de conformidad con la reivindicación 8, caracterizado porque la mejor entonación es determinada usando la fórmula: MejorEntonación = entonaciónt0no - níndice x valorempírico en donde . · · entorzacióritono = la entonación promedio incluyendo el tono del cuerpo de formas de onda de expresión; níndice - el índice del segmento de voz en una frase prosódica; y valorempxrico = un valor empírico basado en el cuerpo de formas de onda de expresión.
  12. 12. El método de conformidad con la reivindicación 8, caracterizado porque la mejor duración se determina usando la siguiente fórmula: MejorDuración = durs x fB - níndice x valorempxrico en donde : dur¡¡ = la duración promedio del segmento de voz sin tono; níndice = el índice del segmento de voz en una frase prosódica; fs = un coeficiente para posición prosódica; y valorempírico = un valor empírico basado en el cuerpo de formas de onda de expresión.
MXPA06003431A 2003-09-29 2004-09-17 Metodo para sintetizar voz. MXPA06003431A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CNB031326986A CN1260704C (zh) 2003-09-29 2003-09-29 语音合成方法
PCT/US2004/030467 WO2005034082A1 (en) 2003-09-29 2004-09-17 Method for synthesizing speech

Publications (1)

Publication Number Publication Date
MXPA06003431A true MXPA06003431A (es) 2006-06-20

Family

ID=34398359

Family Applications (1)

Application Number Title Priority Date Filing Date
MXPA06003431A MXPA06003431A (es) 2003-09-29 2004-09-17 Metodo para sintetizar voz.

Country Status (5)

Country Link
EP (1) EP1668628A4 (es)
KR (1) KR100769033B1 (es)
CN (1) CN1260704C (es)
MX (1) MXPA06003431A (es)
WO (1) WO2005034082A1 (es)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
TWI421857B (zh) * 2009-12-29 2014-01-01 Ind Tech Res Inst 產生詞語確認臨界值的裝置、方法與語音辨識、詞語確認系統
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
KR20140008870A (ko) * 2012-07-12 2014-01-22 삼성전자주식회사 컨텐츠 정보 제공 방법 및 이를 적용한 방송 수신 장치
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
CN105989833B (zh) * 2015-02-28 2019-11-15 讯飞智元信息科技有限公司 多语种混语文本字音转换方法及系统
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
CN106157948B (zh) * 2015-04-22 2019-10-18 科大讯飞股份有限公司 一种基频建模方法及系统
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
CN105096934B (zh) * 2015-06-30 2019-02-12 百度在线网络技术(北京)有限公司 构建语音特征库的方法、语音合成方法、装置及设备
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
CN106534528A (zh) * 2016-11-04 2017-03-22 广东欧珀移动通信有限公司 一种文本信息的处理方法、装置及移动终端
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN107481713B (zh) * 2017-07-17 2020-06-02 清华大学 一种混合语言语音合成方法及装置
CN109948124B (zh) * 2019-03-15 2022-12-23 腾讯科技(深圳)有限公司 语音文件切分方法、装置及计算机设备
CN110942765B (zh) * 2019-11-11 2022-05-27 珠海格力电器股份有限公司 一种构建语料库的方法、设备、服务器和存储介质
CN111128116B (zh) * 2019-12-20 2021-07-23 珠海格力电器股份有限公司 一种语音处理方法、装置、计算设备及存储介质
KR20210109222A (ko) 2020-02-27 2021-09-06 주식회사 케이티 음성을 합성하는 장치, 방법 및 컴퓨터 프로그램
US20210350788A1 (en) * 2020-05-06 2021-11-11 Samsung Electronics Co., Ltd. Electronic device for generating speech signal corresponding to at least one text and operating method of the electronic device
CN112530406A (zh) * 2020-11-30 2021-03-19 深圳市优必选科技股份有限公司 一种语音合成方法、语音合成装置及智能设备
CN113393829B (zh) * 2021-06-16 2023-08-29 哈尔滨工业大学(深圳) 一种融合韵律和个人信息的中文语音合成方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6449622A (en) * 1987-08-19 1989-02-27 Jsp Corp Resin foaming particle containing crosslinked polyolefin-based resin and manufacture thereof
US5970454A (en) * 1993-12-16 1999-10-19 British Telecommunications Public Limited Company Synthesizing speech by converting phonemes to digital waveforms
US5704007A (en) * 1994-03-11 1997-12-30 Apple Computer, Inc. Utilization of multiple voice sources in a speech synthesizer
US6134528A (en) * 1997-06-13 2000-10-17 Motorola, Inc. Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations
KR100259777B1 (ko) * 1997-10-24 2000-06-15 정선종 텍스트/음성변환기에서의최적합성단위열선정방법
US7283964B1 (en) * 1999-05-21 2007-10-16 Winbond Electronics Corporation Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition
EP1345207B1 (en) * 2002-03-15 2006-10-11 Sony Corporation Method and apparatus for speech synthesis program, recording medium, method and apparatus for generating constraint information and robot apparatus
JP2003295882A (ja) * 2002-04-02 2003-10-15 Canon Inc 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
KR100883649B1 (ko) * 2002-04-04 2009-02-18 삼성전자주식회사 텍스트/음성 변환 장치 및 방법
GB2388286A (en) * 2002-05-01 2003-11-05 Seiko Epson Corp Enhanced speech data for use in a text to speech system
CN1320482C (zh) * 2003-09-29 2007-06-06 摩托罗拉公司 标识文本串中的自然语音停顿的方法

Also Published As

Publication number Publication date
CN1604182A (zh) 2005-04-06
WO2005034082A1 (en) 2005-04-14
EP1668628A4 (en) 2007-01-10
KR20060066121A (ko) 2006-06-15
KR100769033B1 (ko) 2007-10-22
EP1668628A1 (en) 2006-06-14
CN1260704C (zh) 2006-06-21

Similar Documents

Publication Publication Date Title
MXPA06003431A (es) Metodo para sintetizar voz.
US7124082B2 (en) Phonetic speech-to-text-to-speech system and method
US5949961A (en) Word syllabification in speech synthesis system
JP4302788B2 (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
US6823309B1 (en) Speech synthesizing system and method for modifying prosody based on match to database
US20050119890A1 (en) Speech synthesis apparatus and speech synthesis method
US20070088547A1 (en) Phonetic speech-to-text-to-speech system and method
WO1996023298A2 (en) System amd method for generating and using context dependent sub-syllable models to recognize a tonal language
CN115485766A (zh) 使用bert模型的语音合成韵律
US10699695B1 (en) Text-to-speech (TTS) processing
JP5198046B2 (ja) 音声処理装置及びそのプログラム
CN114746935A (zh) 基于注意力的时钟层次变分编码器
WO2004066271A1 (ja) 音声合成装置,音声合成方法および音声合成システム
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
KR20150105075A (ko) 자동 통역 장치 및 방법
WO2004012183A2 (en) Concatenative text-to-speech conversion
Bettayeb et al. Speech synthesis system for the holy quran recitation.
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
KR20060056404A (ko) 텍스트 세그먼트의 합성된 발음을 위한 문자 대 사운드변환
KR100259777B1 (ko) 텍스트/음성변환기에서의최적합성단위열선정방법
JP3576066B2 (ja) 音声合成システム、および音声合成方法
Hendessi et al. A speech synthesizer for Persian text using a neural network with a smooth ergodic HMM
Dessai et al. Development of Konkani TTS system using concatenative synthesis
Kaur et al. BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE
Jayasankar et al. Word and syllable based concatenative model of text to speech synthesis of Tamil language

Legal Events

Date Code Title Description
FA Abandonment or withdrawal