MXPA01006594A - Metodo y sistema para la preseleccion de unidades adecuadas para habla por concatenacion. - Google Patents
Metodo y sistema para la preseleccion de unidades adecuadas para habla por concatenacion.Info
- Publication number
- MXPA01006594A MXPA01006594A MXPA01006594A MXPA01006594A MXPA01006594A MX PA01006594 A MXPA01006594 A MX PA01006594A MX PA01006594 A MXPA01006594 A MX PA01006594A MX PA01006594 A MXPA01006594 A MX PA01006594A MX PA01006594 A MXPA01006594 A MX PA01006594A
- Authority
- MX
- Mexico
- Prior art keywords
- database
- phonemes
- phoneme
- cost
- units
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 32
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims description 5
- 235000004035 Cryptotaenia japonica Nutrition 0.000 claims description 2
- 102000007641 Trefoil Factors Human genes 0.000 claims description 2
- 235000015724 Trifolium pratense Nutrition 0.000 claims description 2
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims 2
- 239000000284 extract Substances 0.000 claims 2
- 230000007246 mechanism Effects 0.000 claims 2
- 230000002194 synthesizing effect Effects 0.000 claims 2
- 238000006243 chemical reaction Methods 0.000 claims 1
- 230000000977 initiatory effect Effects 0.000 abstract 1
- 241000282326 Felis catus Species 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 230000001944 accentuation Effects 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001010 compromised effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/022—Demisyllables, biphones or triphones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Un sistema y metodo para mejorar el tiempo de respuesta de sintesis de texto hablado utilizando un "contexto trifonetico" (i.e, los tripletes que comprenden un fonema central y su contexto inmediato) como la unidad basica, en lugar de realizar sintesis de fonema a fonema. Previo a que se inicie el "tiempo real" de sintesis, se crea una base de datos de todos los trifonemas posibles (existen aproximadamente 10000 en el lenguaje ingles y su costo de preseleccion asociado. En tiempo de corrida, por tanto, solo se seleccionan los candidatos principales similares a partir de la base de datos del trifonema, reduciendo significativamente los calculos que son requeridos para realizarce en un tiempo real.
Description
MÉTODO Y SISTEMA PARA LA PRESELECCIÓN DE UNIDADES ADECUADAS PARA HABLA POR CONCATENACIÓN
Campo Técnico
La presente invención se refiere a un sistema y método para incrementar la velocidad de un sistema de síntesis de selección de unidad, para la síntesis del habla por concatenación y más particularmente, para predeterminar un universo de fonemas - seleccionados basándose en su contexto trifonético - que son usados potencialmente en el habla. Es efectuada entonces la selección en tiempo real a partir del universo creado de fonemas .
Antecedentes de la Invención
Un planteamiento actual para la síntesis de habla por concatenación es utilizar una base de datos muy grande para habla grabado, que haya sido segmentado y etiquetado con características prosódicas y espectrales, tal como la frecuencia fundamental (FO) para habla sonorizado, la energía ó ganancia de la señal y la distribución espectral de la señal (es decir, qué tanto
Ref.: 129984 de la señal se encuentra presente en cualquier frecuencia dada) . La base de datos contiene múltiples instancias de sonidos vocales. Ésta multiplicidad permite la posibilidad de tener unidades, dentro de la base de datos, que sean mucho menos estilizadas que lo que pudiera ocurrir en una base de datos con difonemas (un "difonema" siendo definido como la segunda mitad de un fonema, seguido por la mitad inicial del siguiente fonema, una base de datos con difonemas contiene generalmente sólo una instancia de un difonema dado) . Consiguientemente, se mejora la posibilidad de obtener habla natural con el planteamiento de una "base de datos grande" . Para una síntesis de buena calidad, ésta técnica de base de datos depende de la capacidad de seleccionar las "mejores" unidades de la base de datos - es decir, las unidades que estén más cercanas, en carácter, a la especificación prosódica provista por el sistema de síntesis de habla, y que tenga un mínimo en desaciertos espectrales en los puntos de concatenación entre los fonemas. La "mejor" secuencia de unidades puede ser determinada mediante la asociación de un costo numérico en dos maneras diferentes. Primero, se asocia un "costo meta" con las unidades individuales en aislamiento, en donde un costo menor es asociado con una unidad que tiene características (por ejemplo, FO, ganancia, distribución espectral) relativamente más cercanas a la unidad que está siendo sintetizada y un costo mayor es asociado con las unidades que tengan una discrepancia mayor con la unidad que está siendo sintetizada. Un segundo costo, referido como el "costo de concatenación" es asociado con qué tan imperceptiblemente se unen entre sí dos unidades contiguas. Por ejemplo, Si el desacierto espectral entre dos unidades es pobre, quizá correspondiendo incluso a un "clic" audible, existirá un costo de concatenación más alto. Consiguientemente, puede formularse un conjunto de unidades candidatas para cada posición en la secuencia deseada, con costos meta y costos de concatenación asociados. La predicción de la mejor trayectoria (el costo más bajo) a través de la red, es efectuada entonces usando una búsqueda Viterbi. Las unidades elegidas pueden ser entonces concatenadas para formar una señal continua, utilizando una variedad de técnicas diferentes. Mientras que sistemas manejados por bases de datos tales, pueden producir una calidad de sonorización de habla más natural, efectuar esto requiere de una gran implementación de recursos informáticos durante el proceso de la síntesis. Igualmente, existe todavía la necesidad de nuevos métodos y sistemas que proporcionen una calidad natural del habla en la síntesis de habla, a la vez de reducir los requerimientos informáticos.
Breve Compendio de la Invención
La necesidad remanente dentro del arte precedente se solucionó por medio de la presente invención, la cual se refiere a un sistema y método para incrementar la velocidad de un sistema de síntesis de selección de unidad, para habla por concatenación y más particularmente, para predeterminar un universo de fonemas dentro de la base de datos de habla, seleccionándolos basándose en su contexto trifonético, los cuales son utilizados potencialmente en el habla y para efectuar una selección en tiempo real a partir de éste universo de fonemas calculado previamente. De acuerdo con la presente invención, se crea una base de datos de trifonemas, en donde para cada contexto trifonético dado requerido para la síntesis, existe una lista completa y calculada previamente de todas las unidades (fonemas) dentro de la base de datos, que puedan ser posiblemente usadas en ese contexto trifonético. Aventajadamente, ésta lista es (en la mayoría de los casos) un conjunto significativamente menor de unidades candidatas, que el conjunto completo de unidades para ese tipo de fonema. Al ignorar las unidades que se garantice que no serán usadas en el contexto trifonético dado, la velocidad del proceso de selección se incrementa significativamente. También se ha encontrado que la calidad del habla no se compromete con el proceso de selección de unidad de la presente invención . Dependiendo de la unidad requerida para la síntesis, así como del contexto de fonemas que lo rodea, el número de fonemas dentro de la lista de preseleccion variará y podrá en casos extremos, incluir a todos los fonemas posibles de un tipo en particular. También podría producirse una situación en donde la unidad que será sintetizada (más el contexto) no coincida con ninguno de los trifonemas calculados previamente. En este caso, puede emplearse el planteamiento convencional de un solo fonema del arte precedente, utilizando el conjunto completo de fonemas de un tipo dado. Se presume que éstas instancias serán relativamente poco frecuentes . Aspectos diferentes y adicionales de la presente invención, serán aparentes durante el curso de la siguiente discusión y mediante la referencia a los dibujos adjuntos.
Breve Descripción de los Dibujos
Refiriéndonos ahora a los dibujos, la Fig. 1 ilustra un sistema de síntesis de habla e j emplificativo para utilizar la unidad de configuración de selección (por ejemplo, un fonema) de la presente invención ; la Fig. 2 ilustra, a mayor detalle, un sintetizador ej emplificativo de habla a partir de texto que puede ser utilizado en el sistema de la Fig. Irla Fig. 3 ilustra una secuencia ejemplificativa
"de fonemas" y los varios costos asociados con ésta secuencia ; la Fig. 4 contiene una ilustración de una base de datos (fonemas) de unidad ejemplificativa, útil como la base de datos de selección de unidad dentro del sistema de la Fig. 1 ; la Fig. 5 es un diagrama de flujo que ilustra el proceso de cálculo previo de costo de trifonemas de la presente invención, en donde las primeras N unidades son seleccionadas basándose en el costo (las primeras 50 unidades para cualquier secuencia de 5 sonidos que contengan un trifonema dado que su presencia sea garantizada); y la Fig. 6 es un diagrama de flujo que ilustra el proceso de selección de unidad (fonema) de la presente invención, que utiliza la lista calculada previamente de unidades (fonemas) indexada por trifonemas.
Descripción Detallada
Un sistema e emplif icativo de síntesis de habla 100 se ilustra en la Fig. 1. El sistema 100 incluye un sintetizador de habla a partir de texto 104 que está conectado a una fuente de datos 102, a través de un enlace de entrada 108 y se encuentra de la misma manera conectado a un sumidero de datos 106 a través de un enlace de salida 110. El sintetizador de habla a partir de texto 104, tal como se discutirá en detalle enseguida con relación con la Fig. 2, funciona para convertir los datos de texto en, ya sea, datos de habla ó en habla física. En operación, el sintetizador 104 convierte los datos de texto por medio de convertir primeramente el texto en una corriente de fonemas que representan al equivalente del habla en el texto, después procesa la corriente de fonemas para producir una corriente de unidad acústica que constituya una representación de habla más clara y entendible. El sintetizador 104 convierte entonces la corriente de unidad acústica a datos de habla ó en habla física. De acuerdo con las enseñanzas de la presente invención, como será discutido en detalle más adelante, las unidades de base de datos (fonemas) accedidas de acuerdo a su contexto trifonético, son procesadas para acelerar el proceso de selección de unidad. La fuente de datos 102 proporciona al sintetizador de habla a partir de texto 104, a través del enlace de entrada 108, los datos que representan al texto que será sintetizado. Los datos que representan al texto del habla pueden encontrarse en cualquier formato, tal como un formato binario, ASCII ó en un archivo de procesador de palabras. La fuente de datos 102 puede ser cualquiera con un número de tipos diferentes de fuentes de datos, tal como una computadora, un dispositivo de almacenamiento, ó una combinación de soporte lógico y equipo físico, capaces de generar, apoyarse ó memorizar, a partir del dispositivo de almacenamiento, un mensaje textual ó cualquier información capaz de ser traducida en habla. El sumidero de datos 106 recibe al habla sintetizada desde del sintetizador de habla a partir de texto 104, a través del enlace de salida 110. El sumidero de datos 106 puede ser cualquier dispositivo capaz de egresar habla audiblemente, tal como un sistema de bocinas para transmitir las ondas de sonido mecánicas, ó una computadora digital, ó una combinación de equipo físico y soporte lógico, capaz de recibir, apoyarse, almacenar, detectar ó percibir un sonido vocal ó una información que represente a sonidos vocales. Los enlaces 108 y 110 pueden ser cualquier dispositivo ó sistema adecuado para conectar la fuente de datos 102 / el sumidero de datos 106 al sintetizador 104. Dichos dispositivos incluyen una conexión directa de cable serial / paralelo, una conexión sobre una red de área extensa (WAN) ó una red de área local (LAN), una conexión sobre una intranet, la Internet, ó cualquier otra red ó sistema de procesamiento distribuido. Adicionalmente , el enlace de entrada 108 ó el enlace de salida 110, pueden ser dispositivos de soporte lógico que se enlazan a varios sistemas de soporte lógico. La Fig. 2 contiene un diagrama de bloques más detallado del sintetizador de habla a partir de texto 104 de la Fig. 1. El sintetizador 104 comprende, en ésta modalidad de ejemplo, un dispositivo de normalización de texto 202, un dispositivo analizador sintáctico 204, un módulo de pronunciación de palabras 206, un dispositivo de generación prosódica 208, un dispositivo de selección de unidad acústica 210 y un dispositivo de etapa final de síntesis de habla 212. En operación, los datos textuales son recibidos sobre el enlace de entrada 108 y son aplicados primeramente como una entrada al dispositivo de normalización de texto 202. El dispositivo de normalización de texto 202 analiza sintácticamente los datos del texto en palabras conocidas y convierte adicionalmente las abreviaciones y los números en palabras, para producir un conjunto correspondiente de datos textuales. Por ejemplo, en el idioma Inglés, si se ingresa "St.", el dispositivo de normalización de texto 202 es utilizado para pronunciar la abreviación como "saint" (santo) ó " street" (calle), pero no el sonido /st/. Una vez que el texto ha sido normalizado, éste es ingresado al analizador sintáctico 204. El procesador sintáctico 204 efectúa un análisis gramatical de una oración, para identificar la estructura sintáctica de cada frase y palabra constituyente. Por ejemplo, el analizador sintáctico 204 identificará una frase en particular como una "frase del sujeto " ó una "frase del predicado" y una palabra como sustantivo, verbo, adjetivo, etc. El análisis sintáctico es importante, ya que si una palabra ó frase está siendo utilizada como un sustantivo ó un verbo, puede afectar en cómo ésta será articulada. Por ejemplo, en la oración "el gato huyó", si "gato" es identificado como un sujeto y "huyó" es identificado como un verbo, el sintetizador vocal 104 puede asignar a la palabra "gato" un patrón de sonido, duración y entonación diferente que "huyó", a causa de su posición y función dentro de la estructura de la oración. Una vez que la estructura sintáctica del texto ha sido determinada, el texto es ingresado al módulo de pronunciación de palabras 206. En el módulo de pronunciación de palabras 206, los caracteres ortográficos utilizados en el texto normal, son rastreados en las cadenas apropiadas de segmentos fonéticos que representan unidades de sonido y de habla. Esto es importante ya que las mismas cadenas ortográficas pueden tener diferentes pronunciaciones dependiendo de la palabra en la cual se usa la cadena. Por ejemplo, en el idioma Inglés, la cadena " gh" es traducida al fonema /f/ en "tough" (duro), al fonema /g/ en "ghost" (fantasma) y no es comprendido directamente a ningún fonema en " though" (aunque) . También se marca la acentuación léxica. Por ejemplo, en el idioma Inglés "record" tiene una acentuación principal sobre la primer silaba si es que es un sustantivo (registro) , pero tiene una acentuación principal en la segunda silaba si éste es un verbo (grabar) . La salida procedente del módulo de pronunciación de palabras 206, en la forma de segmentos fonéticos, es entonces aplicada como una entrada hacia el dispositivo de determinación prosódica 208. El dispositivo de determinación prosódica 208 asigna patrones de tempori zación y entonación a las cadenas de segmentos fonéticos. El patrón de tempori zación incluye a la duración del sonido para cada uno de los fonemas. Por ejemplo, en el idioma Inglés la silaba "re" en el verbo "record" (grabar) tiene una duración más extensa de sonido que la silaba "re" en el sustantivo "record" (registro) . Adicionalmente , el patrón de entonación concierne a los cambios de entonación durante el curso de una expresión. Estos cambios de entonación expresan la acentuación de ciertas palabras con silabas, en tanto éstas son colocadas en una oración y ayudan a comunicar el significado de la oración. Asi pues, los patrones de tempori zación y entonación son importantes para la inteligibilidad y la naturalidad del habla sintetizada. La prosodia puede ser generada de varias maneras, incluyendo a asignar un acento artificial ó proporcionarla para el contexto de la oración. Por ejemplo, la frase "¡Ésta es una prueba!", será enunciada diferente a "¿Ésta es una prueba?". Los dispositivos de generación prosódica son ya bien conocidos por aquellos ordinariamente expertos en el arte y puede usarse cualquier combinación de equipo físico, soporte lógico, soporte lógico incorporado, técnicas heurísticas, base de datos ó cualquier otro aparato ó método que efectúe la generación de prosodias. De acuerdo con la presente invención, la salida fonética y la especificación prosódica que la acompaña, procedentes del dispositivo de determinación prosódica 208, son entonces convertidas, utilizando cualquier técnica conocida adecuada, dentro de las especificaciones de la unidad ( fonema ) . Los datos del fonema, junto con los parámetros característicos correspondientes, son entonces enviados a un dispositivo de selección de unidad acústica 210, en donde los fonemas y los parámetros característicos son transformados en una corriente de unidades acústicas que representan al habla. Una "unidad acústica" puede ser definida como una expresión en particular de un fonema dado. Grandes números de unidades acústicas, como será discutido más adelante en referencia a la Fig. 3, pueden todas corresponder a un _ solo fonema, cada unidad acústica difiriendo de otra en términos de entonación, duración y acentuación, (así como de otras cualidades fonéticas y prosódicas) . De acuerdo con la presente invención, una base de datos de costos de preselección de trifonemas 214 es accedida por medio del dispositivo de selección de unidad 210, para proporcionar una lista candidata de unidades, basándose en un contexto trifonético, que sean más probables de usarse en el proceso de síntesis. El dispositivo de selección de unidad 210 efectúa entonces una búsqueda sobre esta lista candidata (utilizando una búsqueda Viterbi, por ejemplo), para encontrar la unidad con el "menor costo" que coincida mejor con el fonema que será sintetizado. La salida en corriente de la unidad acústica procedente del dispositivo de selección de unidad 210, es entonces enviada hacia el dispositivo de etapa final de síntesis de habla 212, el cual convierte la corriente de la unidad acústica en datos vocales y transmite estos datos vocales (Refiriéndonos a la Fig. 1) hacia el sumidero de datos 106 sobre el enlace de salida 110. La Fig. 3 contiene un ejemplo de una cadena de fonemas 302 - 310 para la palabra " cat" (gato, en Inglés) con un conjunto asociado de parámetros característicos 312 - 320 (por ejemplo, F0, duración, etc.) asignados respectivamente, a cada fonema y una lista separada de grupos de unidades acústicas 322, 324 y 326 para cada expresión. Cada grupo de unidad acústica incluye, por lo menos, una unidad acústica 328 y cada unidad acústica 328 incluye un costo meta asociado 330, como ha sido definido anteriormente. Un costo de concatenación 332, como se representa por la flecha en la Fig. 3, se asigna entre cada unidad acústica 328 en un grupo dado y una unidad acústica 332 del grupo inmediatamente subsecuente. En el arte precedente, el proceso de selección de unidad era efectuado en base de fonema por fonema (ó en sistemas robustos, en base de medio fonema por medio fonema) para cada instancia de cada unidad contenida dentro de la base de datos de habla. Asi, en el idioma Inglés, cuando se considera el fonema /¾/ 306, cada una de sus consideraciones de unidad acústica 328 dentro de la base de datos de habla 324, puede ser procesada para determinar los costos meta individuales 330, comparados con el texto que será sintetizado. Similarmente , el procesamiento de fonema por fonema (durante el tiempo de ejecución) que pudiera también ser requerido para el fonema /k/ 304 y el fonema /t/ 308. Puesto que existen muchas ocasiones en las que el fonema /«/ no pudiera ser precedido por /k/ y/ó seguido por /t/, existían muchos costos meta en los sistemas del arte precedente que eran propensos a ser calculados innecesariamente. De acuerdo con la presente invención, se ha reconocido que el tiempo de ejecución del cálculo puede ser reducido significativamente por medio de computar previamente la lista de candidatos de fonemas a partir de la base de datos de habla, que puedan ser utilizados posiblemente dentro de la síntesis final, antes de empezar a trabajar con los costos meta. Hasta éste punto, una base de datos de "trifonemas" (ilustrada como la base de datos 214 en la Fig. 2) se crea cuando las listas de unidades (fonemas) que pudieran ser utilizadas en cualquier contexto trifonético dado, son almacenadas (e indexadas utilizando una clave basada en trifonemas) y puedan ser accedidas durante el proceso de selección de la unidad. Para el idioma Inglés, existen aproximadamente 10,000 trifonemas comunes, de tal manera que la creación de dicha base de datos no es una tarea inconmensurable. En particular, para el trifonema /k/-/as/-/t/, cada /¾/ posible dentro de la base de datos es examinado para determinar qué tan bien coincide (y los fonemas circundantes que ocurren en el habla de la cual se extrajo) con las especificaciones de la síntesis, como se muestra en la Fig. 4. A través de permitir entonces los fonemas en cualquier lado de /k/ y /t/ para variar el universo completo de fonemas, todos los costos posibles pueden ser examinados, los cuales puedan ser calculados en tiempo de ejecución para un fonema en particular, en un contexto trifonético. En particular, cuando la síntesis es terminada, solamente son retenidas las N "mejores" unidades para cada contexto de 5 fonemas (en términos del menor costo de concatenación; en un ejemplo, N puede ser igual a 50) . Es posible "combinar" (es decir, tomar la unión de) las unidades relevantes que tienen un trifonema en común particular. A causa de la manera en la que el cálculo es configurado, se garantiza que la combinación será la lista de todas las unidades que sean relevantes para ésta parte especifica de la síntesis. En la mayoría de los casos, existirá un número de unidades (es decir, instancias específicas de los fonemas) que no ocurrirán en la unión de todas las unidades posibles, y consiguientemente, no necesitarán ser consideradas en el cálculo de los costos al tiempo de la ejecución. El proceso de preselección de la presente invención resulta consiguientemente, en incrementar la velocidad del proceso de selección. En una instancia, se ha alcanzado un incremento del 100%. Debe presumirse que si un trifonema particular no parece tener una lista asociada de unidades, será utilizado el proceso convencional de selección de costo de unidad. Consiguientemente, en general para cada unidad u2 que ha de ser sintetizada como parte de la secuencia trifonética a ul-u2-u3, se calcula el costo de preselección para cada combinación posible de 5 sonidos ua~ul-u2-u3-ub que contenga este trifonema. Debe notarse que éste proceso también es útil en sistemas que utilizan medios-fonemas, en tanto el espacio "fonema" sea mantenido al crear cada costo trifonético que sea calculado. Utilizando el ejemplo anterior, una secuencia pudiera ser kl-ael-tl y otra pudiera ser k2-as2-t2. Este espacio de unidad es usado para evitar incluir información redundante dentro de las funciones de costo (ya que la identidad de uno de los medios - fonemas adyacentes ya es una cantidad conocida) . De acuerdo con la presente invención, son calculados los costos para todas las secuencias ua-kl-asl-tl-ub, en donde se permite que ua y ub varíen a través del conjunto completo de fonemas. Similarmente, los costos para todas las secuencias ua -k2-as2-t2-ub son calculados y así en adelante para cada secuencia posible de trifonemas. El propósito de calcular los costos por fuera es solamente para determinar qué unidades pueden jugar potencialmente un rol dentro de la síntesis subsecuente y que puedan ser ignoradas con seguridad. Debe notarse que los costos relevantes específicos son calculados de nuevo al momento de la síntesis. Éste recálculo es necesario, ya que un componente del costo depende del conocimiento de la especificación de la síntesis en particular, disponible solamente al momento de la ejecución. Formalmente, para cada fonema individual que será sintetizado, se hace primero una determinación para encontrar un contexto trifonético particular que sea de interés. Siguiente a esto, se hace una determinación con respecto a cuales unidades acústicas están, ya sea, dentro ó fuera del limite de costo aceptable para éste contexto trifonético. La unión de todas las secuencias de 5 sonidos es entonces efectuada y asociada con el trifonema que será sintetizado. Esto es:
'PreslectSet(u.i , u2 , J ) = (ua , ui , u2 , u3 , uh )
en donde CCn es una función para calcular el conjunto de unidades con los menores n costos de contexto y CCn es una función que calculó las mejores n unidades concordantes dentro de la base de datos para el contexto dado. PH es definido como el conjunto de tipos de unidad. El valor de "n" se refiere al número mínimo de candidatos que son necesarios para cualquier secuencia dada de la forma ua-ul-u2 -u3-ub . La Fig. 5 muestra, en forma simplificada, un diagrama de flujo que ilustra el proceso usado para poblar la base de datos de costos de trifonemas, usada en el sistema de la presente invención. El proceso es iniciado en el bloque 500 y selecciona un primer trifonema ul-u2-u3 (bloque 502), para el cual serán calculados los costos de preselección. El proceso entonces procede al bloque 504, el cual selecciona un primer par de fonemas para que sean los fonemas "izquierdo" ua y "derecho" ub del trifonema previamente seleccionado. Los costos de concatenación asociados con este agrupamíento de 5 sonidos, son calculados (bloque 506) y almacenados en una base de datos con ésta identidad de trifonema en particular (bloque 508) . Los costos de preselección para éste trifonema en particular, son calculados por medio de variar los fonemas ua y ub sobre el conjunto completo de fonemas (bloque 510) . En consecuencia, un costo de preselección será calculado para el trifonema seleccionado en un contexto de 5 fonemas. Una vez que todas las combinaciones posibles de 5 fonemas, de un trifonema seleccionado, han sido evaluadas y se ha determinado un costo, se retiene al "mejor", con la condición de que para cualquier contexto arbitrario de 5 fonemas, se garantice que el conjunto contenga las N unidades principales. Las "mejores" unidades son definidas por exhibir el menor costo meta (bloque 512) . En una modalidad ej emplificativa, N = 50. Una vez que las "mejores 50" opciones para un trifonema seleccionado han sido almacenadas en la base de datos de trifonemas, se efectúa una verificación (bloque 514) para saber si todas las posibles combinaciones de trifonemas han sido evaluadas. Si es así, el proceso se detiene y la base de datos de trifonemas se define como se ha contemplado. De manera contraria, el proceso regresa al paso 502 y selecciona otro trifonema para su evaluación, usando el mismo método. El proceso continuará hasta que todas las combinaciones de trifonema posibles hayan sido realizadas y los costos hayan sido calculados. Es una ventaja de la presente invención que éste procesó sea efectuado una sola vez antes del "tiempo de ejecución", de tal manera que durante el proceso real de la síntesis (como se ilustra en la Fig. 6), el proceso de selección de unidad usa ésta base de datos creada de trifonemas. La Fig. 6 es un diagrama de flujo de un sistema ej emplificativo de síntesis de habla. En su inicio (bloque 600), un primer paso es recibir al texto de entrada (bloque 610) y aplicarlo (bloque 620) como una entrada, al dispositivo de normalización de texto 202 (como se muestra en la Fig. 2) . El texto normalizado es entonces analizado sintácticamente (bloque 630), de tal manera que la estructura sintáctica de cada frase ó palabra constituyente sea identificada, por ejemplo, como un sustantivo, un verbo, un adjetivo, etc. El texto analizado sintácticamente es entonces convertido a una representación (bloque 640), en donde éstos fonemas son entonces aplicados como entradas hacia un módulo de selección de unidad (fonema) , tal como el dispositivo de selección de unidad 210, discutido en detalle anteriormente en asociación con la Fig. 2. Una base de datos de preselección de trifonemas 214, tal como la generada por los siguientes pasos, como advierte en la Fig. 5, se añade a la configuración. Cuando se encuentra una coincidencia con la clave de trifonema en la base de datos, el proceso del arte precedente del tipo en el que se valoraba cada candidato posible de una unidad (fonema) particular, es reemplazado por el proceso inventivo de valorar la lista calculada previamente, más pequeña, relacionada a la clave del trifonema. Se genera una lista candidata de cada unidad requerida y se efectúa una búsqueda Viterbi (bloque 650) para encontrar la trayectoria con el menor costo a través de los fonemas seleccionados. Los fonemas seleccionados pueden ser entonces procesados adicionalmente (bloque 660) para formar la salida real del habla. Se hace constar que, con lo relativo a ésta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención .
Claims (16)
1. Un método para sintetizar habla a partir de un texto de entrada, utilizando fonemas, el método caracterizado por los pasos de: a) crear una base de datos de costos de preselección de trifonemas, que incluye una pluralidad de todas las combinaciones de trifonemas posibles y generar una clave para indexar a cada trifonema dentro de la base de datos ; b) extraer una porción del texto de entrada para su síntesis, en la forma de una secuencia de fonemas ; c) comparar un fonema extraído, en contexto con sus fonemas vecinos, con una pluralidad de N claves de trifonemas con menor costo, almacenadas dentro de la base de datos de costos de preselección de trifonemas; d) elegir, como candidatos para su síntesis, una lista de unidades a partir de la base de datos de costos de preselección de trifonemas, que comprenda una clave de trifonema coincidente; e) repetir los pasos b) a d) para cada fonema dentro del texto de entrada; f) seleccionar por lo menos una trayectoria de menor costo a través de la red de candidatos; g) procesar los fonemas seleccionados en el paso f) en habla sintetizada; y h) egresar el habla sintetizada hacia un dispositivo de salida.
2. El método de conformidad con la reivindicación 1, caracterizado porque al efectuar el paso a), se efectúan los siguientes pasos: 1) seleccionar una secuencia predeterminada de trifonemas ul -u2 -u3 ; 2) calcular un costo de preselección para cada secuencia de 5 fonemas ua-ul-u2-u3-ub, en donde se permite que u2 coincida con cualquier fonema etiquetado igualmente dentro de la base de datos y las unidades ua y ub varíen a través del universo de fonemas completo; 3) determinar una pluralidad de K unidades de base de datos de menor costo para el contexto de 5 fonemas en particular; 4) efectuar la unión de N unidades de menor costo para todas las combinaciones de ua y ub; 5) almacenar la unión creada en el paso 4) para cada secuencia posible de trifonemas.
3. El método de conformidad con la reivindicación 2, caracterizado porque al efectuar el paso a4) , N = 50.
4. El método de conformidad con la reivindicación 2, caracterizado porque al efectuar el paso a2) , el costo de preseleccion es el costo objetivo ó un elemento del costo objetivo.
5. El método de conformidad con la reivindicación 1, en donde el paso de conversión está caracterizado por utilizar medios-fonemas para crear una secuencia de trifonemas, con un espacio de unidad entre los - medios-fonemas adyacentes.
6. El método de conformidad con la reivindicación 1, caracterizado porque al efectuar el paso c) , se efectúan los siguientes pasos: 1) comparar al fonema extraído y a sus fonemas vecinos con una clave de base de datos de preseleccion de trifonemas; 2) si se encuentra una coincidencia, retener la unidad asociada con la clave de base de datos de preseleccion de trifonemas como un candidato para su síntesis, si no es así; 3) usar la lista completa de fonemas del mismo tipo que el fonema extraído a manera de lista candidata; y 4) repetir los pasos 1) - 3) para cada clave de base de datos de preseleccion de trifonemas apropiada .
7. El método de conformidad con la reivindicación 1, caracterizado porque al efectuar el paso a), el costo de preseleccion es el costo objetivo ó un elemento del costo objetivo.
8. El método de conformidad con la reivindicación 1, caracterizado porque al efectuar el paso f), se usa un mecanismo de búsqueda Viterbi.
9. Un método para crear una base de datos de costos de preseleccion de trifonemas, para ser utilizado en síntesis de habla, el método caracterizado por los pasos de: a) seleccionar una secuencia predeterminada de trifonemas ul-u2-u3; b) calcular un costo de preseleccion para cada secuencia de 5 fonemas ua -u1 -u2 -u3 ~ub, en donde se permite que u2 coincida con cualquier fonema etiquetado igualmente dentro de la base de datos y las unidades ua y ub varíen a través del universo de fonemas completo; c) determinar una pluralidad de N unidades de base de datos de menor costo para el contexto de 5 fonemas en particular; d) efectuar la unión de la pluralidad de N unidades de menor costo, determinada en el paso c) ; e) almacenar la unión creada en el paso d) en una base de datos de costos de preselección de trifonemas; y f) repetir los pasos a) - e) para cada secuencia posible de trifonemas.
10. El método de conformidad con la reivindicación 9, caracterizado porque al efectuar el paso d) , se almacenan una pluralidad de cincuenta secuencias de menor costo y sus costos asociados.
11. El método de conformidad con la reivindicación 9, caracterizado porque al efectuar el paso de b) , el costo de preselección es el costo objetivo ó un elemento del costo ob etivo.
12. Un sistema para sintetizar habla utilizando fonemas, caracterizado porque comprende un procesador lingüístico para recibir un texto de entrada y convertir el texto en una secuencia de fonemas; una base de datos de costos de preselección de trifonemas que comprende una pluralidad de todas las combinaciones posibles de trifonemas e incluyendo una clave ligada a cada lista de unidades de fonema de base de datos separada en la base de datos; un selector de unidad, acoplado al procesador lingüístico y a la base de datos de costos de preselección de trifonemas, para comparar a cada fonema recibido, en conjunción con sus fonemas vecinos, con los trifonemas almacenados en la base de datos de costos de preselección de trifonemas, seleccionando un conjunto de fonemas candidatos para su síntesis; y un procesador de habla, acoplado al selector de unidad, para procesar los fonemas seleccionados en un habla sintetizada y proporcionarla como una salida de habla sintetizada hacia un dispositivo de salida.
13. El sistema de conformidad con la reivindicación 12, caracterizado porque el procesador lingüístico comprende adicionalmente : un normalizador de texto para recibir y normalizar el texto de entrada, para distinguir marcas gramaticales; un analizador sintáctico, acoplado al normalizador de texto, para analizar el texto de entrada, para identificar sintácticamente partes del habla; un módulo de pronunciación de palabras, acoplado al analizador sintáctico, para trazar al texto de entrada en segmentos fonéticos de habla y sonido; y un módulo de determinación prosódica, acoplado al módulo de pronunciación de palabras, para asignar patrones de tempori zación y entonación a cada uno de los segmentos fonéticos .
14. El sistema de conformidad con la reivindicación 12, caracterizado porque el selector de unidad comprende adicionalmente un preselector para extraer una lista candidata de, por lo menos, N unidades para un fonema en particular que será sintetizado a partir de la base de datos de costos de preselección de trifonemas.
15. El sistema de conformidad con la reivindicación 14, caracterizado porque el preselector extrae una lista de 50 unidades.
16. El sistema de conformidad con la reivindicación 14, caracterizado porque el selector de unidad comprende adicionalmente un buscador Viterbi, acoplado al preselector, para seleccionar una unidad a partir de la lista candidata suministrada por el preselector, usando mecanismos de búsqueda Viterbi.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/607,615 US6684187B1 (en) | 2000-06-30 | 2000-06-30 | Method and system for preselection of suitable units for concatenative speech |
Publications (1)
Publication Number | Publication Date |
---|---|
MXPA01006594A true MXPA01006594A (es) | 2004-07-30 |
Family
ID=24433014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
MXPA01006594A MXPA01006594A (es) | 2000-06-30 | 2001-06-26 | Metodo y sistema para la preseleccion de unidades adecuadas para habla por concatenacion. |
Country Status (4)
Country | Link |
---|---|
US (5) | US6684187B1 (es) |
EP (1) | EP1168299B8 (es) |
CA (1) | CA2351988C (es) |
MX (1) | MXPA01006594A (es) |
Families Citing this family (188)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7082396B1 (en) * | 1999-04-30 | 2006-07-25 | At&T Corp | Methods and apparatus for rapid acoustic unit selection from a large speech corpus |
US7369994B1 (en) * | 1999-04-30 | 2008-05-06 | At&T Corp. | Methods and apparatus for rapid acoustic unit selection from a large speech corpus |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6684187B1 (en) * | 2000-06-30 | 2004-01-27 | At&T Corp. | Method and system for preselection of suitable units for concatenative speech |
US6505158B1 (en) * | 2000-07-05 | 2003-01-07 | At&T Corp. | Synthesis-based pre-selection of suitable units for concatenative speech |
WO2002056250A2 (en) * | 2001-01-10 | 2002-07-18 | Koninklijke Philips Electronics N.V. | Method and system to encode a set of input values into a set of coefficients using a given algorithm |
US6829581B2 (en) * | 2001-07-31 | 2004-12-07 | Matsushita Electric Industrial Co., Ltd. | Method for prosody generation by unit selection from an imitation speech database |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US7047193B1 (en) * | 2002-09-13 | 2006-05-16 | Apple Computer, Inc. | Unsupervised data-driven pronunciation modeling |
US7353164B1 (en) | 2002-09-13 | 2008-04-01 | Apple Inc. | Representation of orthography in a continuous vector space |
TWI220511B (en) * | 2003-09-12 | 2004-08-21 | Ind Tech Res Inst | An automatic speech segmentation and verification system and its method |
US20050096909A1 (en) * | 2003-10-29 | 2005-05-05 | Raimo Bakis | Systems and methods for expressive text-to-speech |
CN100524457C (zh) * | 2004-05-31 | 2009-08-05 | 国际商业机器公司 | 文本至语音转换以及调整语料库的装置和方法 |
US7869999B2 (en) * | 2004-08-11 | 2011-01-11 | Nuance Communications, Inc. | Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis |
US20060161433A1 (en) * | 2004-10-28 | 2006-07-20 | Voice Signal Technologies, Inc. | Codec-dependent unit selection for mobile devices |
US7418389B2 (en) * | 2005-01-11 | 2008-08-26 | Microsoft Corporation | Defining atom units between phone and syllable for TTS systems |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) * | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US20070106513A1 (en) * | 2005-11-10 | 2007-05-10 | Boillot Marc A | Method for facilitating text to speech synthesis using a differential vocoder |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20080129520A1 (en) * | 2006-12-01 | 2008-06-05 | Apple Computer, Inc. | Electronic device with enhanced audio feedback |
JP4406440B2 (ja) * | 2007-03-29 | 2010-01-27 | 株式会社東芝 | 音声合成装置、音声合成方法及びプログラム |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US20090043583A1 (en) * | 2007-08-08 | 2009-02-12 | International Business Machines Corporation | Dynamic modification of voice selection based on user specific factors |
JP5238205B2 (ja) * | 2007-09-07 | 2013-07-17 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声合成システム、プログラム及び方法 |
US9053089B2 (en) * | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) * | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) * | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
CN101605307A (zh) * | 2008-06-12 | 2009-12-16 | 深圳富泰宏精密工业有限公司 | 文本短信语音播放系统及方法 |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) * | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) * | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8712776B2 (en) * | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10540976B2 (en) * | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
JP5471858B2 (ja) * | 2009-07-02 | 2014-04-16 | ヤマハ株式会社 | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8805687B2 (en) * | 2009-09-21 | 2014-08-12 | At&T Intellectual Property I, L.P. | System and method for generalized preselection for unit selection synthesis |
US8682649B2 (en) * | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) * | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8798998B2 (en) | 2010-04-05 | 2014-08-05 | Microsoft Corporation | Pre-saved data compression for TTS concatenation cost |
US8731931B2 (en) | 2010-06-18 | 2014-05-20 | At&T Intellectual Property I, L.P. | System and method for unit selection text-to-speech using a modified Viterbi approach |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8965768B2 (en) | 2010-08-06 | 2015-02-24 | At&T Intellectual Property I, L.P. | System and method for automatic detection of abnormal stress patterns in unit selection synthesis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9164983B2 (en) | 2011-05-27 | 2015-10-20 | Robert Bosch Gmbh | Broad-coverage normalization system for social media language |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
FR2993088B1 (fr) * | 2012-07-06 | 2014-07-18 | Continental Automotive France | Procede et systeme de synthese vocale |
US10169456B2 (en) * | 2012-08-14 | 2019-01-01 | International Business Machines Corporation | Automatic determination of question in text and determination of candidate responses using data mining |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
CN113470641B (zh) | 2013-02-07 | 2023-12-15 | 苹果公司 | 数字助理的语音触发器 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US11151899B2 (en) | 2013-03-15 | 2021-10-19 | Apple Inc. | User training by intelligent digital assistant |
CN112230878B (zh) | 2013-03-15 | 2024-09-27 | 苹果公司 | 对中断进行上下文相关处理 |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9928754B2 (en) * | 2013-03-18 | 2018-03-27 | Educational Testing Service | Systems and methods for generating recitation items |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US8751236B1 (en) * | 2013-10-23 | 2014-06-10 | Google Inc. | Devices and methods for speech unit reduction in text-to-speech synthesis systems |
US20150149178A1 (en) * | 2013-11-22 | 2015-05-28 | At&T Intellectual Property I, L.P. | System and method for data-driven intonation generation |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
CN105336322B (zh) * | 2015-09-30 | 2017-05-10 | 百度在线网络技术(北京)有限公司 | 多音字模型训练方法、语音合成方法及装置 |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US11699430B2 (en) * | 2021-04-30 | 2023-07-11 | International Business Machines Corporation | Using speech to text data in training text to speech models |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS55147697A (en) * | 1979-05-07 | 1980-11-17 | Sharp Kk | Sound synthesizer |
SE9200817L (sv) | 1992-03-17 | 1993-07-26 | Televerket | Foerfarande och anordning foer talsyntes |
JPH0695696A (ja) * | 1992-09-14 | 1994-04-08 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方式 |
US5384893A (en) | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
EP0590173A1 (de) | 1992-09-28 | 1994-04-06 | International Business Machines Corporation | Computersystem zur Spracherkennung |
US6502074B1 (en) * | 1993-08-04 | 2002-12-31 | British Telecommunications Public Limited Company | Synthesising speech by converting phonemes to digital waveforms |
US5987412A (en) * | 1993-08-04 | 1999-11-16 | British Telecommunications Public Limited Company | Synthesising speech by converting phonemes to digital waveforms |
DE69427525T2 (de) * | 1993-10-15 | 2002-04-18 | At&T Corp., New York | Trainingsmethode für ein tts-system, sich daraus ergebendes gerät und methode zur bedienung des gerätes |
US5970454A (en) * | 1993-12-16 | 1999-10-19 | British Telecommunications Public Limited Company | Synthesizing speech by converting phonemes to digital waveforms |
US5794197A (en) * | 1994-01-21 | 1998-08-11 | Micrsoft Corporation | Senone tree representation and evaluation |
EP0813733B1 (en) | 1995-03-07 | 2003-12-10 | BRITISH TELECOMMUNICATIONS public limited company | Speech synthesis |
US6330538B1 (en) * | 1995-06-13 | 2001-12-11 | British Telecommunications Public Limited Company | Phonetic unit duration adjustment for text-to-speech system |
US5949961A (en) * | 1995-07-19 | 1999-09-07 | International Business Machines Corporation | Word syllabification in speech synthesis system |
US5913193A (en) | 1996-04-30 | 1999-06-15 | Microsoft Corporation | Method and system of runtime acoustic unit selection for speech synthesis |
US5937384A (en) | 1996-05-01 | 1999-08-10 | Microsoft Corporation | Method and system for speech recognition using continuous density hidden Markov models |
GB2313530B (en) | 1996-05-15 | 1998-03-25 | Atr Interpreting Telecommunica | Speech synthesizer apparatus |
US6366883B1 (en) | 1996-05-15 | 2002-04-02 | Atr Interpreting Telecommunications | Concatenation of speech segments by use of a speech synthesizer |
US5850629A (en) * | 1996-09-09 | 1998-12-15 | Matsushita Electric Industrial Co., Ltd. | User interface controller for text-to-speech synthesizer |
US5905972A (en) | 1996-09-30 | 1999-05-18 | Microsoft Corporation | Prosodic databases holding fundamental frequency templates for use in speech synthesis |
US6041300A (en) | 1997-03-21 | 2000-03-21 | International Business Machines Corporation | System and method of using pre-enrolled speech sub-units for efficient speech synthesis |
US5913194A (en) | 1997-07-14 | 1999-06-15 | Motorola, Inc. | Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system |
US6163769A (en) * | 1997-10-02 | 2000-12-19 | Microsoft Corporation | Text-to-speech using clustered context-dependent phoneme-based units |
US6304846B1 (en) | 1997-10-22 | 2001-10-16 | Texas Instruments Incorporated | Singing voice synthesis |
US6317712B1 (en) * | 1998-02-03 | 2001-11-13 | Texas Instruments Incorporated | Method of phonetic modeling using acoustic decision tree |
JP3884856B2 (ja) * | 1998-03-09 | 2007-02-21 | キヤノン株式会社 | 音声合成用データ作成装置、音声合成装置及びそれらの方法、コンピュータ可読メモリ |
KR100509797B1 (ko) | 1998-04-29 | 2005-08-23 | 마쯔시다덴기산교 가부시키가이샤 | 결정 트리에 의한 스펠형 문자의 복합 발음 발생과 스코어를위한 장치 및 방법 |
US6490563B2 (en) * | 1998-08-17 | 2002-12-03 | Microsoft Corporation | Proofreading with text to speech feedback |
JP2000075878A (ja) * | 1998-08-31 | 2000-03-14 | Canon Inc | 音声合成装置およびその方法ならびに記憶媒体 |
US6173263B1 (en) * | 1998-08-31 | 2001-01-09 | At&T Corp. | Method and system for performing concatenative speech synthesis using half-phonemes |
EP1138038B1 (en) | 1998-11-13 | 2005-06-22 | Lernout & Hauspie Speech Products N.V. | Speech synthesis using concatenation of speech waveforms |
US6253182B1 (en) | 1998-11-24 | 2001-06-26 | Microsoft Corporation | Method and apparatus for speech synthesis with efficient spectral smoothing |
US6684187B1 (en) * | 2000-06-30 | 2004-01-27 | At&T Corp. | Method and system for preselection of suitable units for concatenative speech |
US6505158B1 (en) * | 2000-07-05 | 2003-01-07 | At&T Corp. | Synthesis-based pre-selection of suitable units for concatenative speech |
US7266497B2 (en) * | 2002-03-29 | 2007-09-04 | At&T Corp. | Automatic segmentation in speech synthesis |
US7209882B1 (en) | 2002-05-10 | 2007-04-24 | At&T Corp. | System and method for triphone-based unit selection for visual speech synthesis |
US7289958B2 (en) | 2003-10-07 | 2007-10-30 | Texas Instruments Incorporated | Automatic language independent triphone training using a phonetic table |
US7223901B2 (en) * | 2004-03-26 | 2007-05-29 | The Board Of Regents Of The University Of Nebraska | Soybean FGAM synthase promoters useful in nematode control |
US7226497B2 (en) * | 2004-11-30 | 2007-06-05 | Ranco Incorporated Of Delaware | Fanless building ventilator |
US7912718B1 (en) * | 2006-08-31 | 2011-03-22 | At&T Intellectual Property Ii, L.P. | Method and system for enhancing a speech database |
US7983919B2 (en) * | 2007-08-09 | 2011-07-19 | At&T Intellectual Property Ii, L.P. | System and method for performing speech synthesis with a cache of phoneme sequences |
-
2000
- 2000-06-30 US US09/607,615 patent/US6684187B1/en not_active Expired - Lifetime
-
2001
- 2001-06-21 EP EP01305403A patent/EP1168299B8/en not_active Expired - Lifetime
- 2001-06-26 CA CA002351988A patent/CA2351988C/en not_active Expired - Lifetime
- 2001-06-26 MX MXPA01006594A patent/MXPA01006594A/es active IP Right Grant
-
2003
- 2003-11-05 US US10/702,154 patent/US7124083B2/en not_active Expired - Lifetime
-
2006
- 2006-08-22 US US11/466,229 patent/US7460997B1/en not_active Expired - Fee Related
-
2008
- 2008-12-01 US US12/325,809 patent/US8224645B2/en not_active Expired - Fee Related
-
2012
- 2012-07-16 US US13/550,074 patent/US8566099B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20130013312A1 (en) | 2013-01-10 |
CA2351988A1 (en) | 2001-12-30 |
EP1168299A3 (en) | 2002-10-23 |
US8566099B2 (en) | 2013-10-22 |
US7460997B1 (en) | 2008-12-02 |
US7124083B2 (en) | 2006-10-17 |
EP1168299B1 (en) | 2012-11-21 |
CA2351988C (en) | 2007-07-24 |
US20090094035A1 (en) | 2009-04-09 |
EP1168299B8 (en) | 2013-03-13 |
US6684187B1 (en) | 2004-01-27 |
EP1168299A2 (en) | 2002-01-02 |
US8224645B2 (en) | 2012-07-17 |
US20040093213A1 (en) | 2004-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2351988C (en) | Method and system for preselection of suitable units for concatenative speech | |
US6505158B1 (en) | Synthesis-based pre-selection of suitable units for concatenative speech | |
US6173263B1 (en) | Method and system for performing concatenative speech synthesis using half-phonemes | |
US9196240B2 (en) | Automated text to speech voice development | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
JP2002530703A (ja) | 音声波形の連結を用いる音声合成 | |
US20030154080A1 (en) | Method and apparatus for modification of audio input to a data processing system | |
Pradhan et al. | Building speech synthesis systems for Indian languages | |
KR20100085433A (ko) | 다중 목표운율 이용한 고음질 음성합성 방법 | |
Bonafonte et al. | The UPC TTS system description for the 2008 blizzard challenge | |
EP1589524B1 (en) | Method and device for speech synthesis | |
EP1640968A1 (en) | Method and device for speech synthesis | |
KR20100072962A (ko) | 복수의 끊어 읽기 모델을 이용한 음성 합성 장치 및 그 방법 | |
Kaur et al. | BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE | |
Narupiyakul et al. | A stochastic knowledge-based Thai text-to-speech system | |
Lyudovyk et al. | Unit Selection Speech Synthesis Using Phonetic-Prosodic Description of Speech Databases | |
Heggtveit et al. | Intonation Modelling with a Lexicon of Natural F0 Contours | |
Demenko et al. | Implementation of Polish speech synthesis for the BOSS system | |
Hirst | Empirical models of tone, rhythm and intonation for the analysis of speech prosody | |
Demenko et al. | The design of polish speech corpus for unit selection speech synthesis | |
Natvig et al. | Prosodic unit selection for text-to-speech synthesis | |
Jiang et al. | Overview of the IBM Mandarin text-to-speech system | |
JPH1097290A (ja) | 音声合成装置 | |
Kui et al. | An experimental study on vietnamese speech synthesis | |
Alam | Kotha: the first to speech synthesis for Bangla language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FG | Grant or registration |