MXPA01006594A - Metodo y sistema para la preseleccion de unidades adecuadas para habla por concatenacion. - Google Patents

Metodo y sistema para la preseleccion de unidades adecuadas para habla por concatenacion.

Info

Publication number
MXPA01006594A
MXPA01006594A MXPA01006594A MXPA01006594A MXPA01006594A MX PA01006594 A MXPA01006594 A MX PA01006594A MX PA01006594 A MXPA01006594 A MX PA01006594A MX PA01006594 A MXPA01006594 A MX PA01006594A MX PA01006594 A MXPA01006594 A MX PA01006594A
Authority
MX
Mexico
Prior art keywords
database
phonemes
phoneme
cost
units
Prior art date
Application number
MXPA01006594A
Other languages
English (en)
Inventor
Alistair D Conkie
Original Assignee
At & T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by At & T Corp filed Critical At & T Corp
Publication of MXPA01006594A publication Critical patent/MXPA01006594A/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/022Demisyllables, biphones or triphones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Un sistema y metodo para mejorar el tiempo de respuesta de sintesis de texto hablado utilizando un "contexto trifonetico" (i.e, los tripletes que comprenden un fonema central y su contexto inmediato) como la unidad basica, en lugar de realizar sintesis de fonema a fonema. Previo a que se inicie el "tiempo real" de sintesis, se crea una base de datos de todos los trifonemas posibles (existen aproximadamente 10000 en el lenguaje ingles y su costo de preseleccion asociado. En tiempo de corrida, por tanto, solo se seleccionan los candidatos principales similares a partir de la base de datos del trifonema, reduciendo significativamente los calculos que son requeridos para realizarce en un tiempo real.

Description

MÉTODO Y SISTEMA PARA LA PRESELECCIÓN DE UNIDADES ADECUADAS PARA HABLA POR CONCATENACIÓN Campo Técnico La presente invención se refiere a un sistema y método para incrementar la velocidad de un sistema de síntesis de selección de unidad, para la síntesis del habla por concatenación y más particularmente, para predeterminar un universo de fonemas - seleccionados basándose en su contexto trifonético - que son usados potencialmente en el habla. Es efectuada entonces la selección en tiempo real a partir del universo creado de fonemas .
Antecedentes de la Invención Un planteamiento actual para la síntesis de habla por concatenación es utilizar una base de datos muy grande para habla grabado, que haya sido segmentado y etiquetado con características prosódicas y espectrales, tal como la frecuencia fundamental (FO) para habla sonorizado, la energía ó ganancia de la señal y la distribución espectral de la señal (es decir, qué tanto Ref.: 129984 de la señal se encuentra presente en cualquier frecuencia dada) . La base de datos contiene múltiples instancias de sonidos vocales. Ésta multiplicidad permite la posibilidad de tener unidades, dentro de la base de datos, que sean mucho menos estilizadas que lo que pudiera ocurrir en una base de datos con difonemas (un "difonema" siendo definido como la segunda mitad de un fonema, seguido por la mitad inicial del siguiente fonema, una base de datos con difonemas contiene generalmente sólo una instancia de un difonema dado) . Consiguientemente, se mejora la posibilidad de obtener habla natural con el planteamiento de una "base de datos grande" . Para una síntesis de buena calidad, ésta técnica de base de datos depende de la capacidad de seleccionar las "mejores" unidades de la base de datos - es decir, las unidades que estén más cercanas, en carácter, a la especificación prosódica provista por el sistema de síntesis de habla, y que tenga un mínimo en desaciertos espectrales en los puntos de concatenación entre los fonemas. La "mejor" secuencia de unidades puede ser determinada mediante la asociación de un costo numérico en dos maneras diferentes. Primero, se asocia un "costo meta" con las unidades individuales en aislamiento, en donde un costo menor es asociado con una unidad que tiene características (por ejemplo, FO, ganancia, distribución espectral) relativamente más cercanas a la unidad que está siendo sintetizada y un costo mayor es asociado con las unidades que tengan una discrepancia mayor con la unidad que está siendo sintetizada. Un segundo costo, referido como el "costo de concatenación" es asociado con qué tan imperceptiblemente se unen entre sí dos unidades contiguas. Por ejemplo, Si el desacierto espectral entre dos unidades es pobre, quizá correspondiendo incluso a un "clic" audible, existirá un costo de concatenación más alto. Consiguientemente, puede formularse un conjunto de unidades candidatas para cada posición en la secuencia deseada, con costos meta y costos de concatenación asociados. La predicción de la mejor trayectoria (el costo más bajo) a través de la red, es efectuada entonces usando una búsqueda Viterbi. Las unidades elegidas pueden ser entonces concatenadas para formar una señal continua, utilizando una variedad de técnicas diferentes. Mientras que sistemas manejados por bases de datos tales, pueden producir una calidad de sonorización de habla más natural, efectuar esto requiere de una gran implementación de recursos informáticos durante el proceso de la síntesis. Igualmente, existe todavía la necesidad de nuevos métodos y sistemas que proporcionen una calidad natural del habla en la síntesis de habla, a la vez de reducir los requerimientos informáticos.
Breve Compendio de la Invención La necesidad remanente dentro del arte precedente se solucionó por medio de la presente invención, la cual se refiere a un sistema y método para incrementar la velocidad de un sistema de síntesis de selección de unidad, para habla por concatenación y más particularmente, para predeterminar un universo de fonemas dentro de la base de datos de habla, seleccionándolos basándose en su contexto trifonético, los cuales son utilizados potencialmente en el habla y para efectuar una selección en tiempo real a partir de éste universo de fonemas calculado previamente. De acuerdo con la presente invención, se crea una base de datos de trifonemas, en donde para cada contexto trifonético dado requerido para la síntesis, existe una lista completa y calculada previamente de todas las unidades (fonemas) dentro de la base de datos, que puedan ser posiblemente usadas en ese contexto trifonético. Aventajadamente, ésta lista es (en la mayoría de los casos) un conjunto significativamente menor de unidades candidatas, que el conjunto completo de unidades para ese tipo de fonema. Al ignorar las unidades que se garantice que no serán usadas en el contexto trifonético dado, la velocidad del proceso de selección se incrementa significativamente. También se ha encontrado que la calidad del habla no se compromete con el proceso de selección de unidad de la presente invención . Dependiendo de la unidad requerida para la síntesis, así como del contexto de fonemas que lo rodea, el número de fonemas dentro de la lista de preseleccion variará y podrá en casos extremos, incluir a todos los fonemas posibles de un tipo en particular. También podría producirse una situación en donde la unidad que será sintetizada (más el contexto) no coincida con ninguno de los trifonemas calculados previamente. En este caso, puede emplearse el planteamiento convencional de un solo fonema del arte precedente, utilizando el conjunto completo de fonemas de un tipo dado. Se presume que éstas instancias serán relativamente poco frecuentes . Aspectos diferentes y adicionales de la presente invención, serán aparentes durante el curso de la siguiente discusión y mediante la referencia a los dibujos adjuntos.
Breve Descripción de los Dibujos Refiriéndonos ahora a los dibujos, la Fig. 1 ilustra un sistema de síntesis de habla e j emplificativo para utilizar la unidad de configuración de selección (por ejemplo, un fonema) de la presente invención ; la Fig. 2 ilustra, a mayor detalle, un sintetizador ej emplificativo de habla a partir de texto que puede ser utilizado en el sistema de la Fig. Irla Fig. 3 ilustra una secuencia ejemplificativa "de fonemas" y los varios costos asociados con ésta secuencia ; la Fig. 4 contiene una ilustración de una base de datos (fonemas) de unidad ejemplificativa, útil como la base de datos de selección de unidad dentro del sistema de la Fig. 1 ; la Fig. 5 es un diagrama de flujo que ilustra el proceso de cálculo previo de costo de trifonemas de la presente invención, en donde las primeras N unidades son seleccionadas basándose en el costo (las primeras 50 unidades para cualquier secuencia de 5 sonidos que contengan un trifonema dado que su presencia sea garantizada); y la Fig. 6 es un diagrama de flujo que ilustra el proceso de selección de unidad (fonema) de la presente invención, que utiliza la lista calculada previamente de unidades (fonemas) indexada por trifonemas.
Descripción Detallada Un sistema e emplif icativo de síntesis de habla 100 se ilustra en la Fig. 1. El sistema 100 incluye un sintetizador de habla a partir de texto 104 que está conectado a una fuente de datos 102, a través de un enlace de entrada 108 y se encuentra de la misma manera conectado a un sumidero de datos 106 a través de un enlace de salida 110. El sintetizador de habla a partir de texto 104, tal como se discutirá en detalle enseguida con relación con la Fig. 2, funciona para convertir los datos de texto en, ya sea, datos de habla ó en habla física. En operación, el sintetizador 104 convierte los datos de texto por medio de convertir primeramente el texto en una corriente de fonemas que representan al equivalente del habla en el texto, después procesa la corriente de fonemas para producir una corriente de unidad acústica que constituya una representación de habla más clara y entendible. El sintetizador 104 convierte entonces la corriente de unidad acústica a datos de habla ó en habla física. De acuerdo con las enseñanzas de la presente invención, como será discutido en detalle más adelante, las unidades de base de datos (fonemas) accedidas de acuerdo a su contexto trifonético, son procesadas para acelerar el proceso de selección de unidad. La fuente de datos 102 proporciona al sintetizador de habla a partir de texto 104, a través del enlace de entrada 108, los datos que representan al texto que será sintetizado. Los datos que representan al texto del habla pueden encontrarse en cualquier formato, tal como un formato binario, ASCII ó en un archivo de procesador de palabras. La fuente de datos 102 puede ser cualquiera con un número de tipos diferentes de fuentes de datos, tal como una computadora, un dispositivo de almacenamiento, ó una combinación de soporte lógico y equipo físico, capaces de generar, apoyarse ó memorizar, a partir del dispositivo de almacenamiento, un mensaje textual ó cualquier información capaz de ser traducida en habla. El sumidero de datos 106 recibe al habla sintetizada desde del sintetizador de habla a partir de texto 104, a través del enlace de salida 110. El sumidero de datos 106 puede ser cualquier dispositivo capaz de egresar habla audiblemente, tal como un sistema de bocinas para transmitir las ondas de sonido mecánicas, ó una computadora digital, ó una combinación de equipo físico y soporte lógico, capaz de recibir, apoyarse, almacenar, detectar ó percibir un sonido vocal ó una información que represente a sonidos vocales. Los enlaces 108 y 110 pueden ser cualquier dispositivo ó sistema adecuado para conectar la fuente de datos 102 / el sumidero de datos 106 al sintetizador 104. Dichos dispositivos incluyen una conexión directa de cable serial / paralelo, una conexión sobre una red de área extensa (WAN) ó una red de área local (LAN), una conexión sobre una intranet, la Internet, ó cualquier otra red ó sistema de procesamiento distribuido. Adicionalmente , el enlace de entrada 108 ó el enlace de salida 110, pueden ser dispositivos de soporte lógico que se enlazan a varios sistemas de soporte lógico. La Fig. 2 contiene un diagrama de bloques más detallado del sintetizador de habla a partir de texto 104 de la Fig. 1. El sintetizador 104 comprende, en ésta modalidad de ejemplo, un dispositivo de normalización de texto 202, un dispositivo analizador sintáctico 204, un módulo de pronunciación de palabras 206, un dispositivo de generación prosódica 208, un dispositivo de selección de unidad acústica 210 y un dispositivo de etapa final de síntesis de habla 212. En operación, los datos textuales son recibidos sobre el enlace de entrada 108 y son aplicados primeramente como una entrada al dispositivo de normalización de texto 202. El dispositivo de normalización de texto 202 analiza sintácticamente los datos del texto en palabras conocidas y convierte adicionalmente las abreviaciones y los números en palabras, para producir un conjunto correspondiente de datos textuales. Por ejemplo, en el idioma Inglés, si se ingresa "St.", el dispositivo de normalización de texto 202 es utilizado para pronunciar la abreviación como "saint" (santo) ó " street" (calle), pero no el sonido /st/. Una vez que el texto ha sido normalizado, éste es ingresado al analizador sintáctico 204. El procesador sintáctico 204 efectúa un análisis gramatical de una oración, para identificar la estructura sintáctica de cada frase y palabra constituyente. Por ejemplo, el analizador sintáctico 204 identificará una frase en particular como una "frase del sujeto " ó una "frase del predicado" y una palabra como sustantivo, verbo, adjetivo, etc. El análisis sintáctico es importante, ya que si una palabra ó frase está siendo utilizada como un sustantivo ó un verbo, puede afectar en cómo ésta será articulada. Por ejemplo, en la oración "el gato huyó", si "gato" es identificado como un sujeto y "huyó" es identificado como un verbo, el sintetizador vocal 104 puede asignar a la palabra "gato" un patrón de sonido, duración y entonación diferente que "huyó", a causa de su posición y función dentro de la estructura de la oración. Una vez que la estructura sintáctica del texto ha sido determinada, el texto es ingresado al módulo de pronunciación de palabras 206. En el módulo de pronunciación de palabras 206, los caracteres ortográficos utilizados en el texto normal, son rastreados en las cadenas apropiadas de segmentos fonéticos que representan unidades de sonido y de habla. Esto es importante ya que las mismas cadenas ortográficas pueden tener diferentes pronunciaciones dependiendo de la palabra en la cual se usa la cadena. Por ejemplo, en el idioma Inglés, la cadena " gh" es traducida al fonema /f/ en "tough" (duro), al fonema /g/ en "ghost" (fantasma) y no es comprendido directamente a ningún fonema en " though" (aunque) . También se marca la acentuación léxica. Por ejemplo, en el idioma Inglés "record" tiene una acentuación principal sobre la primer silaba si es que es un sustantivo (registro) , pero tiene una acentuación principal en la segunda silaba si éste es un verbo (grabar) . La salida procedente del módulo de pronunciación de palabras 206, en la forma de segmentos fonéticos, es entonces aplicada como una entrada hacia el dispositivo de determinación prosódica 208. El dispositivo de determinación prosódica 208 asigna patrones de tempori zación y entonación a las cadenas de segmentos fonéticos. El patrón de tempori zación incluye a la duración del sonido para cada uno de los fonemas. Por ejemplo, en el idioma Inglés la silaba "re" en el verbo "record" (grabar) tiene una duración más extensa de sonido que la silaba "re" en el sustantivo "record" (registro) . Adicionalmente , el patrón de entonación concierne a los cambios de entonación durante el curso de una expresión. Estos cambios de entonación expresan la acentuación de ciertas palabras con silabas, en tanto éstas son colocadas en una oración y ayudan a comunicar el significado de la oración. Asi pues, los patrones de tempori zación y entonación son importantes para la inteligibilidad y la naturalidad del habla sintetizada. La prosodia puede ser generada de varias maneras, incluyendo a asignar un acento artificial ó proporcionarla para el contexto de la oración. Por ejemplo, la frase "¡Ésta es una prueba!", será enunciada diferente a "¿Ésta es una prueba?". Los dispositivos de generación prosódica son ya bien conocidos por aquellos ordinariamente expertos en el arte y puede usarse cualquier combinación de equipo físico, soporte lógico, soporte lógico incorporado, técnicas heurísticas, base de datos ó cualquier otro aparato ó método que efectúe la generación de prosodias. De acuerdo con la presente invención, la salida fonética y la especificación prosódica que la acompaña, procedentes del dispositivo de determinación prosódica 208, son entonces convertidas, utilizando cualquier técnica conocida adecuada, dentro de las especificaciones de la unidad ( fonema ) . Los datos del fonema, junto con los parámetros característicos correspondientes, son entonces enviados a un dispositivo de selección de unidad acústica 210, en donde los fonemas y los parámetros característicos son transformados en una corriente de unidades acústicas que representan al habla. Una "unidad acústica" puede ser definida como una expresión en particular de un fonema dado. Grandes números de unidades acústicas, como será discutido más adelante en referencia a la Fig. 3, pueden todas corresponder a un _ solo fonema, cada unidad acústica difiriendo de otra en términos de entonación, duración y acentuación, (así como de otras cualidades fonéticas y prosódicas) . De acuerdo con la presente invención, una base de datos de costos de preselección de trifonemas 214 es accedida por medio del dispositivo de selección de unidad 210, para proporcionar una lista candidata de unidades, basándose en un contexto trifonético, que sean más probables de usarse en el proceso de síntesis. El dispositivo de selección de unidad 210 efectúa entonces una búsqueda sobre esta lista candidata (utilizando una búsqueda Viterbi, por ejemplo), para encontrar la unidad con el "menor costo" que coincida mejor con el fonema que será sintetizado. La salida en corriente de la unidad acústica procedente del dispositivo de selección de unidad 210, es entonces enviada hacia el dispositivo de etapa final de síntesis de habla 212, el cual convierte la corriente de la unidad acústica en datos vocales y transmite estos datos vocales (Refiriéndonos a la Fig. 1) hacia el sumidero de datos 106 sobre el enlace de salida 110. La Fig. 3 contiene un ejemplo de una cadena de fonemas 302 - 310 para la palabra " cat" (gato, en Inglés) con un conjunto asociado de parámetros característicos 312 - 320 (por ejemplo, F0, duración, etc.) asignados respectivamente, a cada fonema y una lista separada de grupos de unidades acústicas 322, 324 y 326 para cada expresión. Cada grupo de unidad acústica incluye, por lo menos, una unidad acústica 328 y cada unidad acústica 328 incluye un costo meta asociado 330, como ha sido definido anteriormente. Un costo de concatenación 332, como se representa por la flecha en la Fig. 3, se asigna entre cada unidad acústica 328 en un grupo dado y una unidad acústica 332 del grupo inmediatamente subsecuente. En el arte precedente, el proceso de selección de unidad era efectuado en base de fonema por fonema (ó en sistemas robustos, en base de medio fonema por medio fonema) para cada instancia de cada unidad contenida dentro de la base de datos de habla. Asi, en el idioma Inglés, cuando se considera el fonema /¾/ 306, cada una de sus consideraciones de unidad acústica 328 dentro de la base de datos de habla 324, puede ser procesada para determinar los costos meta individuales 330, comparados con el texto que será sintetizado. Similarmente , el procesamiento de fonema por fonema (durante el tiempo de ejecución) que pudiera también ser requerido para el fonema /k/ 304 y el fonema /t/ 308. Puesto que existen muchas ocasiones en las que el fonema /«/ no pudiera ser precedido por /k/ y/ó seguido por /t/, existían muchos costos meta en los sistemas del arte precedente que eran propensos a ser calculados innecesariamente. De acuerdo con la presente invención, se ha reconocido que el tiempo de ejecución del cálculo puede ser reducido significativamente por medio de computar previamente la lista de candidatos de fonemas a partir de la base de datos de habla, que puedan ser utilizados posiblemente dentro de la síntesis final, antes de empezar a trabajar con los costos meta. Hasta éste punto, una base de datos de "trifonemas" (ilustrada como la base de datos 214 en la Fig. 2) se crea cuando las listas de unidades (fonemas) que pudieran ser utilizadas en cualquier contexto trifonético dado, son almacenadas (e indexadas utilizando una clave basada en trifonemas) y puedan ser accedidas durante el proceso de selección de la unidad. Para el idioma Inglés, existen aproximadamente 10,000 trifonemas comunes, de tal manera que la creación de dicha base de datos no es una tarea inconmensurable. En particular, para el trifonema /k/-/as/-/t/, cada /¾/ posible dentro de la base de datos es examinado para determinar qué tan bien coincide (y los fonemas circundantes que ocurren en el habla de la cual se extrajo) con las especificaciones de la síntesis, como se muestra en la Fig. 4. A través de permitir entonces los fonemas en cualquier lado de /k/ y /t/ para variar el universo completo de fonemas, todos los costos posibles pueden ser examinados, los cuales puedan ser calculados en tiempo de ejecución para un fonema en particular, en un contexto trifonético. En particular, cuando la síntesis es terminada, solamente son retenidas las N "mejores" unidades para cada contexto de 5 fonemas (en términos del menor costo de concatenación; en un ejemplo, N puede ser igual a 50) . Es posible "combinar" (es decir, tomar la unión de) las unidades relevantes que tienen un trifonema en común particular. A causa de la manera en la que el cálculo es configurado, se garantiza que la combinación será la lista de todas las unidades que sean relevantes para ésta parte especifica de la síntesis. En la mayoría de los casos, existirá un número de unidades (es decir, instancias específicas de los fonemas) que no ocurrirán en la unión de todas las unidades posibles, y consiguientemente, no necesitarán ser consideradas en el cálculo de los costos al tiempo de la ejecución. El proceso de preselección de la presente invención resulta consiguientemente, en incrementar la velocidad del proceso de selección. En una instancia, se ha alcanzado un incremento del 100%. Debe presumirse que si un trifonema particular no parece tener una lista asociada de unidades, será utilizado el proceso convencional de selección de costo de unidad. Consiguientemente, en general para cada unidad u2 que ha de ser sintetizada como parte de la secuencia trifonética a ul-u2-u3, se calcula el costo de preselección para cada combinación posible de 5 sonidos ua~ul-u2-u3-ub que contenga este trifonema. Debe notarse que éste proceso también es útil en sistemas que utilizan medios-fonemas, en tanto el espacio "fonema" sea mantenido al crear cada costo trifonético que sea calculado. Utilizando el ejemplo anterior, una secuencia pudiera ser kl-ael-tl y otra pudiera ser k2-as2-t2. Este espacio de unidad es usado para evitar incluir información redundante dentro de las funciones de costo (ya que la identidad de uno de los medios - fonemas adyacentes ya es una cantidad conocida) . De acuerdo con la presente invención, son calculados los costos para todas las secuencias ua-kl-asl-tl-ub, en donde se permite que ua y ub varíen a través del conjunto completo de fonemas. Similarmente, los costos para todas las secuencias ua -k2-as2-t2-ub son calculados y así en adelante para cada secuencia posible de trifonemas. El propósito de calcular los costos por fuera es solamente para determinar qué unidades pueden jugar potencialmente un rol dentro de la síntesis subsecuente y que puedan ser ignoradas con seguridad. Debe notarse que los costos relevantes específicos son calculados de nuevo al momento de la síntesis. Éste recálculo es necesario, ya que un componente del costo depende del conocimiento de la especificación de la síntesis en particular, disponible solamente al momento de la ejecución. Formalmente, para cada fonema individual que será sintetizado, se hace primero una determinación para encontrar un contexto trifonético particular que sea de interés. Siguiente a esto, se hace una determinación con respecto a cuales unidades acústicas están, ya sea, dentro ó fuera del limite de costo aceptable para éste contexto trifonético. La unión de todas las secuencias de 5 sonidos es entonces efectuada y asociada con el trifonema que será sintetizado. Esto es: 'PreslectSet(u.i , u2 , J ) = (ua , ui , u2 , u3 , uh ) en donde CCn es una función para calcular el conjunto de unidades con los menores n costos de contexto y CCn es una función que calculó las mejores n unidades concordantes dentro de la base de datos para el contexto dado. PH es definido como el conjunto de tipos de unidad. El valor de "n" se refiere al número mínimo de candidatos que son necesarios para cualquier secuencia dada de la forma ua-ul-u2 -u3-ub . La Fig. 5 muestra, en forma simplificada, un diagrama de flujo que ilustra el proceso usado para poblar la base de datos de costos de trifonemas, usada en el sistema de la presente invención. El proceso es iniciado en el bloque 500 y selecciona un primer trifonema ul-u2-u3 (bloque 502), para el cual serán calculados los costos de preselección. El proceso entonces procede al bloque 504, el cual selecciona un primer par de fonemas para que sean los fonemas "izquierdo" ua y "derecho" ub del trifonema previamente seleccionado. Los costos de concatenación asociados con este agrupamíento de 5 sonidos, son calculados (bloque 506) y almacenados en una base de datos con ésta identidad de trifonema en particular (bloque 508) . Los costos de preselección para éste trifonema en particular, son calculados por medio de variar los fonemas ua y ub sobre el conjunto completo de fonemas (bloque 510) . En consecuencia, un costo de preselección será calculado para el trifonema seleccionado en un contexto de 5 fonemas. Una vez que todas las combinaciones posibles de 5 fonemas, de un trifonema seleccionado, han sido evaluadas y se ha determinado un costo, se retiene al "mejor", con la condición de que para cualquier contexto arbitrario de 5 fonemas, se garantice que el conjunto contenga las N unidades principales. Las "mejores" unidades son definidas por exhibir el menor costo meta (bloque 512) . En una modalidad ej emplificativa, N = 50. Una vez que las "mejores 50" opciones para un trifonema seleccionado han sido almacenadas en la base de datos de trifonemas, se efectúa una verificación (bloque 514) para saber si todas las posibles combinaciones de trifonemas han sido evaluadas. Si es así, el proceso se detiene y la base de datos de trifonemas se define como se ha contemplado. De manera contraria, el proceso regresa al paso 502 y selecciona otro trifonema para su evaluación, usando el mismo método. El proceso continuará hasta que todas las combinaciones de trifonema posibles hayan sido realizadas y los costos hayan sido calculados. Es una ventaja de la presente invención que éste procesó sea efectuado una sola vez antes del "tiempo de ejecución", de tal manera que durante el proceso real de la síntesis (como se ilustra en la Fig. 6), el proceso de selección de unidad usa ésta base de datos creada de trifonemas. La Fig. 6 es un diagrama de flujo de un sistema ej emplificativo de síntesis de habla. En su inicio (bloque 600), un primer paso es recibir al texto de entrada (bloque 610) y aplicarlo (bloque 620) como una entrada, al dispositivo de normalización de texto 202 (como se muestra en la Fig. 2) . El texto normalizado es entonces analizado sintácticamente (bloque 630), de tal manera que la estructura sintáctica de cada frase ó palabra constituyente sea identificada, por ejemplo, como un sustantivo, un verbo, un adjetivo, etc. El texto analizado sintácticamente es entonces convertido a una representación (bloque 640), en donde éstos fonemas son entonces aplicados como entradas hacia un módulo de selección de unidad (fonema) , tal como el dispositivo de selección de unidad 210, discutido en detalle anteriormente en asociación con la Fig. 2. Una base de datos de preselección de trifonemas 214, tal como la generada por los siguientes pasos, como advierte en la Fig. 5, se añade a la configuración. Cuando se encuentra una coincidencia con la clave de trifonema en la base de datos, el proceso del arte precedente del tipo en el que se valoraba cada candidato posible de una unidad (fonema) particular, es reemplazado por el proceso inventivo de valorar la lista calculada previamente, más pequeña, relacionada a la clave del trifonema. Se genera una lista candidata de cada unidad requerida y se efectúa una búsqueda Viterbi (bloque 650) para encontrar la trayectoria con el menor costo a través de los fonemas seleccionados. Los fonemas seleccionados pueden ser entonces procesados adicionalmente (bloque 660) para formar la salida real del habla. Se hace constar que, con lo relativo a ésta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención .

Claims (16)

REIVINDICACIONES Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes reivindicaciones :
1. Un método para sintetizar habla a partir de un texto de entrada, utilizando fonemas, el método caracterizado por los pasos de: a) crear una base de datos de costos de preselección de trifonemas, que incluye una pluralidad de todas las combinaciones de trifonemas posibles y generar una clave para indexar a cada trifonema dentro de la base de datos ; b) extraer una porción del texto de entrada para su síntesis, en la forma de una secuencia de fonemas ; c) comparar un fonema extraído, en contexto con sus fonemas vecinos, con una pluralidad de N claves de trifonemas con menor costo, almacenadas dentro de la base de datos de costos de preselección de trifonemas; d) elegir, como candidatos para su síntesis, una lista de unidades a partir de la base de datos de costos de preselección de trifonemas, que comprenda una clave de trifonema coincidente; e) repetir los pasos b) a d) para cada fonema dentro del texto de entrada; f) seleccionar por lo menos una trayectoria de menor costo a través de la red de candidatos; g) procesar los fonemas seleccionados en el paso f) en habla sintetizada; y h) egresar el habla sintetizada hacia un dispositivo de salida.
2. El método de conformidad con la reivindicación 1, caracterizado porque al efectuar el paso a), se efectúan los siguientes pasos: 1) seleccionar una secuencia predeterminada de trifonemas ul -u2 -u3 ; 2) calcular un costo de preselección para cada secuencia de 5 fonemas ua-ul-u2-u3-ub, en donde se permite que u2 coincida con cualquier fonema etiquetado igualmente dentro de la base de datos y las unidades ua y ub varíen a través del universo de fonemas completo; 3) determinar una pluralidad de K unidades de base de datos de menor costo para el contexto de 5 fonemas en particular; 4) efectuar la unión de N unidades de menor costo para todas las combinaciones de ua y ub; 5) almacenar la unión creada en el paso 4) para cada secuencia posible de trifonemas.
3. El método de conformidad con la reivindicación 2, caracterizado porque al efectuar el paso a4) , N = 50.
4. El método de conformidad con la reivindicación 2, caracterizado porque al efectuar el paso a2) , el costo de preseleccion es el costo objetivo ó un elemento del costo objetivo.
5. El método de conformidad con la reivindicación 1, en donde el paso de conversión está caracterizado por utilizar medios-fonemas para crear una secuencia de trifonemas, con un espacio de unidad entre los - medios-fonemas adyacentes.
6. El método de conformidad con la reivindicación 1, caracterizado porque al efectuar el paso c) , se efectúan los siguientes pasos: 1) comparar al fonema extraído y a sus fonemas vecinos con una clave de base de datos de preseleccion de trifonemas; 2) si se encuentra una coincidencia, retener la unidad asociada con la clave de base de datos de preseleccion de trifonemas como un candidato para su síntesis, si no es así; 3) usar la lista completa de fonemas del mismo tipo que el fonema extraído a manera de lista candidata; y 4) repetir los pasos 1) - 3) para cada clave de base de datos de preseleccion de trifonemas apropiada .
7. El método de conformidad con la reivindicación 1, caracterizado porque al efectuar el paso a), el costo de preseleccion es el costo objetivo ó un elemento del costo objetivo.
8. El método de conformidad con la reivindicación 1, caracterizado porque al efectuar el paso f), se usa un mecanismo de búsqueda Viterbi.
9. Un método para crear una base de datos de costos de preseleccion de trifonemas, para ser utilizado en síntesis de habla, el método caracterizado por los pasos de: a) seleccionar una secuencia predeterminada de trifonemas ul-u2-u3; b) calcular un costo de preseleccion para cada secuencia de 5 fonemas ua -u1 -u2 -u3 ~ub, en donde se permite que u2 coincida con cualquier fonema etiquetado igualmente dentro de la base de datos y las unidades ua y ub varíen a través del universo de fonemas completo; c) determinar una pluralidad de N unidades de base de datos de menor costo para el contexto de 5 fonemas en particular; d) efectuar la unión de la pluralidad de N unidades de menor costo, determinada en el paso c) ; e) almacenar la unión creada en el paso d) en una base de datos de costos de preselección de trifonemas; y f) repetir los pasos a) - e) para cada secuencia posible de trifonemas.
10. El método de conformidad con la reivindicación 9, caracterizado porque al efectuar el paso d) , se almacenan una pluralidad de cincuenta secuencias de menor costo y sus costos asociados.
11. El método de conformidad con la reivindicación 9, caracterizado porque al efectuar el paso de b) , el costo de preselección es el costo objetivo ó un elemento del costo ob etivo.
12. Un sistema para sintetizar habla utilizando fonemas, caracterizado porque comprende un procesador lingüístico para recibir un texto de entrada y convertir el texto en una secuencia de fonemas; una base de datos de costos de preselección de trifonemas que comprende una pluralidad de todas las combinaciones posibles de trifonemas e incluyendo una clave ligada a cada lista de unidades de fonema de base de datos separada en la base de datos; un selector de unidad, acoplado al procesador lingüístico y a la base de datos de costos de preselección de trifonemas, para comparar a cada fonema recibido, en conjunción con sus fonemas vecinos, con los trifonemas almacenados en la base de datos de costos de preselección de trifonemas, seleccionando un conjunto de fonemas candidatos para su síntesis; y un procesador de habla, acoplado al selector de unidad, para procesar los fonemas seleccionados en un habla sintetizada y proporcionarla como una salida de habla sintetizada hacia un dispositivo de salida.
13. El sistema de conformidad con la reivindicación 12, caracterizado porque el procesador lingüístico comprende adicionalmente : un normalizador de texto para recibir y normalizar el texto de entrada, para distinguir marcas gramaticales; un analizador sintáctico, acoplado al normalizador de texto, para analizar el texto de entrada, para identificar sintácticamente partes del habla; un módulo de pronunciación de palabras, acoplado al analizador sintáctico, para trazar al texto de entrada en segmentos fonéticos de habla y sonido; y un módulo de determinación prosódica, acoplado al módulo de pronunciación de palabras, para asignar patrones de tempori zación y entonación a cada uno de los segmentos fonéticos .
14. El sistema de conformidad con la reivindicación 12, caracterizado porque el selector de unidad comprende adicionalmente un preselector para extraer una lista candidata de, por lo menos, N unidades para un fonema en particular que será sintetizado a partir de la base de datos de costos de preselección de trifonemas.
15. El sistema de conformidad con la reivindicación 14, caracterizado porque el preselector extrae una lista de 50 unidades.
16. El sistema de conformidad con la reivindicación 14, caracterizado porque el selector de unidad comprende adicionalmente un buscador Viterbi, acoplado al preselector, para seleccionar una unidad a partir de la lista candidata suministrada por el preselector, usando mecanismos de búsqueda Viterbi.
MXPA01006594A 2000-06-30 2001-06-26 Metodo y sistema para la preseleccion de unidades adecuadas para habla por concatenacion. MXPA01006594A (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/607,615 US6684187B1 (en) 2000-06-30 2000-06-30 Method and system for preselection of suitable units for concatenative speech

Publications (1)

Publication Number Publication Date
MXPA01006594A true MXPA01006594A (es) 2004-07-30

Family

ID=24433014

Family Applications (1)

Application Number Title Priority Date Filing Date
MXPA01006594A MXPA01006594A (es) 2000-06-30 2001-06-26 Metodo y sistema para la preseleccion de unidades adecuadas para habla por concatenacion.

Country Status (4)

Country Link
US (5) US6684187B1 (es)
EP (1) EP1168299B8 (es)
CA (1) CA2351988C (es)
MX (1) MXPA01006594A (es)

Families Citing this family (188)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7082396B1 (en) * 1999-04-30 2006-07-25 At&T Corp Methods and apparatus for rapid acoustic unit selection from a large speech corpus
US7369994B1 (en) * 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6684187B1 (en) * 2000-06-30 2004-01-27 At&T Corp. Method and system for preselection of suitable units for concatenative speech
US6505158B1 (en) 2000-07-05 2003-01-07 At&T Corp. Synthesis-based pre-selection of suitable units for concatenative speech
CN1237465C (zh) * 2001-01-10 2006-01-18 皇家菲利浦电子有限公司 编码
US6829581B2 (en) * 2001-07-31 2004-12-07 Matsushita Electric Industrial Co., Ltd. Method for prosody generation by unit selection from an imitation speech database
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7353164B1 (en) 2002-09-13 2008-04-01 Apple Inc. Representation of orthography in a continuous vector space
US7047193B1 (en) * 2002-09-13 2006-05-16 Apple Computer, Inc. Unsupervised data-driven pronunciation modeling
TWI220511B (en) * 2003-09-12 2004-08-21 Ind Tech Res Inst An automatic speech segmentation and verification system and its method
US20050096909A1 (en) * 2003-10-29 2005-05-05 Raimo Bakis Systems and methods for expressive text-to-speech
CN100524457C (zh) * 2004-05-31 2009-08-05 国际商业机器公司 文本至语音转换以及调整语料库的装置和方法
US7869999B2 (en) * 2004-08-11 2011-01-11 Nuance Communications, Inc. Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis
GB2437189B (en) * 2004-10-28 2009-10-28 Voice Signal Technologies Inc Codec-dependent unit selection for mobile devices
US7418389B2 (en) * 2005-01-11 2008-08-26 Microsoft Corporation Defining atom units between phone and syllable for TTS systems
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US20070106513A1 (en) * 2005-11-10 2007-05-10 Boillot Marc A Method for facilitating text to speech synthesis using a differential vocoder
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080129520A1 (en) * 2006-12-01 2008-06-05 Apple Computer, Inc. Electronic device with enhanced audio feedback
JP4406440B2 (ja) * 2007-03-29 2010-01-27 株式会社東芝 音声合成装置、音声合成方法及びプログラム
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US20090043583A1 (en) * 2007-08-08 2009-02-12 International Business Machines Corporation Dynamic modification of voice selection based on user specific factors
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
US9053089B2 (en) * 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) * 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) * 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) * 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
CN101605307A (zh) * 2008-06-12 2009-12-16 深圳富泰宏精密工业有限公司 文本短信语音播放系统及方法
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) * 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8712776B2 (en) * 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
JP5471858B2 (ja) * 2009-07-02 2014-04-16 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
US9431006B2 (en) * 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8805687B2 (en) * 2009-09-21 2014-08-12 At&T Intellectual Property I, L.P. System and method for generalized preselection for unit selection synthesis
US8682649B2 (en) * 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) * 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8798998B2 (en) 2010-04-05 2014-08-05 Microsoft Corporation Pre-saved data compression for TTS concatenation cost
US8731931B2 (en) * 2010-06-18 2014-05-20 At&T Intellectual Property I, L.P. System and method for unit selection text-to-speech using a modified Viterbi approach
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8965768B2 (en) 2010-08-06 2015-02-24 At&T Intellectual Property I, L.P. System and method for automatic detection of abnormal stress patterns in unit selection synthesis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9164983B2 (en) 2011-05-27 2015-10-20 Robert Bosch Gmbh Broad-coverage normalization system for social media language
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
FR2993088B1 (fr) * 2012-07-06 2014-07-18 Continental Automotive France Procede et systeme de synthese vocale
US10169456B2 (en) * 2012-08-14 2019-01-01 International Business Machines Corporation Automatic determination of question in text and determination of candidate responses using data mining
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
KR102103057B1 (ko) 2013-02-07 2020-04-21 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
CN105190607B (zh) 2013-03-15 2018-11-30 苹果公司 通过智能数字助理的用户培训
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN112230878A (zh) 2013-03-15 2021-01-15 苹果公司 对中断进行上下文相关处理
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US9928754B2 (en) * 2013-03-18 2018-03-27 Educational Testing Service Systems and methods for generating recitation items
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
JP6259911B2 (ja) 2013-06-09 2018-01-10 アップル インコーポレイテッド デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US8751236B1 (en) * 2013-10-23 2014-06-10 Google Inc. Devices and methods for speech unit reduction in text-to-speech synthesis systems
US20150149178A1 (en) * 2013-11-22 2015-05-28 At&T Intellectual Property I, L.P. System and method for data-driven intonation generation
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
CN105336322B (zh) * 2015-09-30 2017-05-10 百度在线网络技术(北京)有限公司 多音字模型训练方法、语音合成方法及装置
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US11699430B2 (en) * 2021-04-30 2023-07-11 International Business Machines Corporation Using speech to text data in training text to speech models

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55147697A (en) * 1979-05-07 1980-11-17 Sharp Kk Sound synthesizer
SE469576B (sv) 1992-03-17 1993-07-26 Televerket Foerfarande och anordning foer talsyntes
JPH0695696A (ja) * 1992-09-14 1994-04-08 Nippon Telegr & Teleph Corp <Ntt> 音声合成方式
US5384893A (en) 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
EP0590173A1 (de) 1992-09-28 1994-04-06 International Business Machines Corporation Computersystem zur Spracherkennung
US6502074B1 (en) * 1993-08-04 2002-12-31 British Telecommunications Public Limited Company Synthesising speech by converting phonemes to digital waveforms
US5987412A (en) * 1993-08-04 1999-11-16 British Telecommunications Public Limited Company Synthesising speech by converting phonemes to digital waveforms
JPH08508127A (ja) * 1993-10-15 1996-08-27 エイ・ティ・アンド・ティ・コーポレーション システムをトレーニングする方法、その結果得られる装置、およびその使用方法
US5970454A (en) * 1993-12-16 1999-10-19 British Telecommunications Public Limited Company Synthesizing speech by converting phonemes to digital waveforms
US5794197A (en) * 1994-01-21 1998-08-11 Micrsoft Corporation Senone tree representation and evaluation
CA2213779C (en) 1995-03-07 2001-12-25 British Telecommunications Public Limited Company Speech synthesis
EP0832481B1 (en) * 1995-06-13 2002-04-03 BRITISH TELECOMMUNICATIONS public limited company Speech synthesis
US5949961A (en) * 1995-07-19 1999-09-07 International Business Machines Corporation Word syllabification in speech synthesis system
US5913193A (en) 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
US5937384A (en) 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
US6366883B1 (en) 1996-05-15 2002-04-02 Atr Interpreting Telecommunications Concatenation of speech segments by use of a speech synthesizer
GB2313530B (en) 1996-05-15 1998-03-25 Atr Interpreting Telecommunica Speech synthesizer apparatus
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
US5905972A (en) 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
US6041300A (en) 1997-03-21 2000-03-21 International Business Machines Corporation System and method of using pre-enrolled speech sub-units for efficient speech synthesis
US5913194A (en) 1997-07-14 1999-06-15 Motorola, Inc. Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system
US6163769A (en) * 1997-10-02 2000-12-19 Microsoft Corporation Text-to-speech using clustered context-dependent phoneme-based units
US6304846B1 (en) 1997-10-22 2001-10-16 Texas Instruments Incorporated Singing voice synthesis
US6317712B1 (en) * 1998-02-03 2001-11-13 Texas Instruments Incorporated Method of phonetic modeling using acoustic decision tree
JP3884856B2 (ja) * 1998-03-09 2007-02-21 キヤノン株式会社 音声合成用データ作成装置、音声合成装置及びそれらの方法、コンピュータ可読メモリ
JP3481497B2 (ja) 1998-04-29 2003-12-22 松下電器産業株式会社 綴り言葉に対する複数発音を生成し評価する判断ツリーを利用する方法及び装置
US6490563B2 (en) * 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
JP2000075878A (ja) * 1998-08-31 2000-03-14 Canon Inc 音声合成装置およびその方法ならびに記憶媒体
US6173263B1 (en) * 1998-08-31 2001-01-09 At&T Corp. Method and system for performing concatenative speech synthesis using half-phonemes
WO2000030069A2 (en) 1998-11-13 2000-05-25 Lernout & Hauspie Speech Products N.V. Speech synthesis using concatenation of speech waveforms
US6253182B1 (en) 1998-11-24 2001-06-26 Microsoft Corporation Method and apparatus for speech synthesis with efficient spectral smoothing
US6684187B1 (en) 2000-06-30 2004-01-27 At&T Corp. Method and system for preselection of suitable units for concatenative speech
US6505158B1 (en) * 2000-07-05 2003-01-07 At&T Corp. Synthesis-based pre-selection of suitable units for concatenative speech
US7266497B2 (en) * 2002-03-29 2007-09-04 At&T Corp. Automatic segmentation in speech synthesis
US7209882B1 (en) 2002-05-10 2007-04-24 At&T Corp. System and method for triphone-based unit selection for visual speech synthesis
US7289958B2 (en) 2003-10-07 2007-10-30 Texas Instruments Incorporated Automatic language independent triphone training using a phonetic table
US7223901B2 (en) * 2004-03-26 2007-05-29 The Board Of Regents Of The University Of Nebraska Soybean FGAM synthase promoters useful in nematode control
US7226497B2 (en) * 2004-11-30 2007-06-05 Ranco Incorporated Of Delaware Fanless building ventilator
US7912718B1 (en) * 2006-08-31 2011-03-22 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US7983919B2 (en) * 2007-08-09 2011-07-19 At&T Intellectual Property Ii, L.P. System and method for performing speech synthesis with a cache of phoneme sequences

Also Published As

Publication number Publication date
EP1168299A3 (en) 2002-10-23
US6684187B1 (en) 2004-01-27
EP1168299A2 (en) 2002-01-02
US20090094035A1 (en) 2009-04-09
CA2351988A1 (en) 2001-12-30
US7124083B2 (en) 2006-10-17
EP1168299B1 (en) 2012-11-21
US8224645B2 (en) 2012-07-17
US8566099B2 (en) 2013-10-22
US20040093213A1 (en) 2004-05-13
EP1168299B8 (en) 2013-03-13
US7460997B1 (en) 2008-12-02
US20130013312A1 (en) 2013-01-10
CA2351988C (en) 2007-07-24

Similar Documents

Publication Publication Date Title
CA2351988C (en) Method and system for preselection of suitable units for concatenative speech
US6505158B1 (en) Synthesis-based pre-selection of suitable units for concatenative speech
US6173263B1 (en) Method and system for performing concatenative speech synthesis using half-phonemes
US9196240B2 (en) Automated text to speech voice development
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP2002530703A (ja) 音声波形の連結を用いる音声合成
US20030154080A1 (en) Method and apparatus for modification of audio input to a data processing system
Pradhan et al. Building speech synthesis systems for Indian languages
KR20100085433A (ko) 다중 목표운율 이용한 고음질 음성합성 방법
Bonafonte et al. The UPC TTS system description for the 2008 blizzard challenge
EP1589524B1 (en) Method and device for speech synthesis
EP1640968A1 (en) Method and device for speech synthesis
KR20100072962A (ko) 복수의 끊어 읽기 모델을 이용한 음성 합성 장치 및 그 방법
Kaur et al. BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE
Narupiyakul et al. A stochastic knowledge-based Thai text-to-speech system
Lyudovyk et al. Unit Selection Speech Synthesis Using Phonetic-Prosodic Description of Speech Databases
Heggtveit et al. Intonation Modelling with a Lexicon of Natural F0 Contours
Demenko et al. Implementation of Polish speech synthesis for the BOSS system
Hirst Empirical models of tone, rhythm and intonation for the analysis of speech prosody
Demenko et al. The design of polish speech corpus for unit selection speech synthesis
Klabbers Text-to-Speech Synthesis
Natvig et al. Prosodic unit selection for text-to-speech synthesis
Jiang et al. Overview of the IBM Mandarin text-to-speech system
JPH1097290A (ja) 音声合成装置
Alam Kotha: the first to speech synthesis for Bangla language

Legal Events

Date Code Title Description
FG Grant or registration