MXPA04008005A - Convertidor de frecuencia vocal que utiliza perfiles de voz preprogramados. - Google Patents
Convertidor de frecuencia vocal que utiliza perfiles de voz preprogramados.Info
- Publication number
- MXPA04008005A MXPA04008005A MXPA04008005A MXPA04008005A MXPA04008005A MX PA04008005 A MXPA04008005 A MX PA04008005A MX PA04008005 A MXPA04008005 A MX PA04008005A MX PA04008005 A MXPA04008005 A MX PA04008005A MX PA04008005 A MXPA04008005 A MX PA04008005A
- Authority
- MX
- Mexico
- Prior art keywords
- signal
- tone
- gain
- harmonization
- formant
- Prior art date
Links
- 238000012545 processing Methods 0.000 claims abstract description 38
- 230000001755 vocal effect Effects 0.000 claims description 54
- 238000006243 chemical reaction Methods 0.000 claims description 43
- 230000004048 modification Effects 0.000 claims description 39
- 238000012986 modification Methods 0.000 claims description 39
- 239000003607 modifier Substances 0.000 claims description 33
- 238000000034 method Methods 0.000 claims description 22
- 238000004891 communication Methods 0.000 claims description 18
- 230000003595 spectral effect Effects 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 9
- 230000005284 excitation Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims 2
- 238000001514 detection method Methods 0.000 claims 1
- 230000011664 signaling Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 238000011045 prefiltration Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 239000000047 product Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 2
- 239000006227 byproduct Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 241000555745 Sciuridae Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000005056 compaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Un sistema de procesamiento de frecuencia vocal modifica varios aspectos de la frecuencia vocal de entrada de acuerdo a una fuente de voz seleccionada por el usuario de varias fuentes de voz reprogramadas. Inicialmente, el convertidor de frecuencia vocal recibe una senal formante que representa una senal de frecuencia vocal de entrada y una senal de tono que representa la frecuencia fundamental de la senal de entrada. Tambien pueden ser recibidas una o ambas de las siguientes: una senal de armonizacion que comprende una indicacion de si la senal de frecuencia vocal esta armonizada, no esta armonizada, o mezclada, y/o una senal de ganancia que representa la energia de la senal de frecuencia vocal de entrada. El convertidor de frecuencia vocal tambien recibe la seleccion del usuario de una de fuentes de voz preprogramadas multiples, cada una especificando una forma de modificacion de una o mas de las senales recibidas (es decir, formantes, de armonizacion, de tono, ganancia). El convertidor de frecuencia vocal modifica al menos una de las senales formantes, de armonizacion, de tono, y/o ganancia de acuerdo a lo especificado por la fuente de voz seleccionada.
Description
CONVERTIDOR DE FRECUENCIA VOCAL QUE UTILIZA PERFILES DE VOZ PREPROGRAMADOS ANTECEDENTES DE LA INVENCION 1. Campo de la Invención La presente invención se relaciona con el procesamiento de frecuencia vocal, y de manera más particular, con un convertidor de frecuencia vocal que modifica varios aspectos de una señal de frecuencia vocal recibida de acuerdo a uno de varios perfiles preprogramados seleccionados por el usuario.
2. Descripción de la Técnica Relacionada La conversión de frecuencia vocal es una tecnología para convertir la voz de un locutor en otro, como convertir una voz de hombre a una de mujer y viceversa. Los sistemas de conversión de frecuencia vocal son un concepto novedoso, la mayoría de los cuales están aún en la fase de investigación. El paquete de programas y sistemas de programación SOUNDBLASTER por Creative Technology Ltd., el cual funciona en una computadora personal, es uno de los pocos productos de efectos de sonido conocidos que pueden ser usados para modificar la frecuencia vocal. Este producto utiliza una señal de entrada que comprende una forma de onda analógica digitalizada en forma de PCM de banda ancha, y sirve para modificar la señal de entrada en varias formas dependiendo de la entrada del usuario. Algunos efectos ejemplares son proporcionados de mujer a hombre, hombre a mujer, Zeus y ardilla. Aunque productos como esos son útiles para algunas aplicaciones, no son muy adecuados cuando se consideran para usarse en aplicaciones más compactas que computadoras personales, o cuando se consideran para aplicaciones que requieren modos más avanzados de conversión de frecuencia vocal. A saber, las computadoras personales ofrecen memoria abundante, frecuencia de muestreo de banda ancha, potencia de procesamiento enorme, y otros recursos que no siempre están disponibles en aplicaciones compactas como teléfonos inalámbricos . Dependiendo de la complejidad deseada de conversión, puede ser desafiante o imposible desarrollar sistemas de conversión de frecuencia vocal para aplicaciones de tal compactacion. Un problema adicional con los programas y sistemas de programación de modificación de frecuencia vocal es que la frecuencia vocal convertida no siempre suena natural. Aunque la razón de esto puede ser desconocida a otros, el inventor de la presente ha descubierto que el problema reside en la aplicación de la misma conversión a cualidades de frecuencia vocal como tono y informantes.
En consecuencia, los sistemas de conversión de frecuencia vocal conocidos no siempre son completamente adecuados para aplicaciones debido a ciertos problemas no resueltos .
SUMARIO DE LA INVENCION De manera amplia, la presente invención se relaciona con un método de conversión de frecuencia vocal que modifica varios aspectos de la frecuencia vocal de entrada de acuerdo a lo especificado por uno de varios perfiles preprogramados seleccionados por un usuario ("fuentes de voz") . Inicialmente, un convertidor de frecuencia vocal recibe señales incluyendo una señal formante que representa una señal de frecuencia vocal de entrada y una señal de tono que representa la frecuencia fundamental de la señal de entrada. Opcionalmente, una o ambas de los siguientes pueden ser recibidas adicionalmente : una señal de armonización que comprende una indicación de si la señal de frecuencia vocal de entrada es armonizada o no armonizada o mezclada, y/o una señal de ganancia que representa la energía de la señal de entrada. El convertidor de frecuencia vocal también recibe la selección del usuario de fuentes de voz múltiples, cada una especificando una forma de modificación de una o más de las señales recibidas (es decir, formantes, de voz, tono, ganancia). Por ejemplo, diferentes fuentes de voz pueden prescribir la modificación de la señal para crear una voz monótona, voz profunda, voz femenina, voz melodiosa, voz susurrante, u otro efecto. El convertidor de frecuencia vocal modifica una o más de las señales recibidas de acuerdo a lo especificado por la fuente de voz seleccionada. La invención proporciona al usuario numerosas ventajas distintas. Por ejemplo, la invención proporciona un convertidor de frecuencia vocal que es compacto aunque poderoso en sus características. Además, el convertidor de frecuencia vocal es compatible con señales de banda ancha como aquellas utilizadas en teléfonos inalámbricos a bordo. Otra ventaja de la invención es que puede modificar por separado las cualidades de la frecuencia vocal, como el tono y formantes. Esto evita una frecuencia vocal no natural producida por los paquetes de conversión de frecuencia vocal convencionales que aplican la misma relación de conversión a ambas señales de tono formantes. La invención también proporciona otras numerosas ventajas y beneficios, los cuales serán evidentes a partir de la siguiente descripción de la invención.
BREVE DESCRIPCION DE LOS DIBUJOS La FIGURA 1 es un diagrama de bloques de los componentes físicos e interconexiones de un sistema de procesamiento de frecuencia vocal. La FIGURA 2 es un diagrama de bloques de una máquina procesadora de datos digitales. La FIGURA 3 muestra un medio portador de señales ejemplar. La FIGURA 4 es un diagrama de bloques de un teléfono inalámbrico que incluye un convertidor de frecuencia vocal. La FIGURA 5 es un diagrama de flujo de una secuencia de operación para la operación de frecuencia vocal modificando las señales de frecuencia vocal de entrada de acuerdo a lo especificado por uno de varios perfiles preprogramados seleccionados por un usuario.
DESCRIPCION DETALLADA DE LA INVENCION La naturaleza, objetivos, y ventajas de la invención se volverán más evidentes a aquellos expertos en la técnica después de considerar la siguiente descripción detallada en relación con los dibujos acompañantes.
COMPONENTES FISICOS E INTERCONEXIONES Estructura total Un aspecto de la invención se relaciona con un sistema de procesamiento de frecuencia vocal, el cual puede ser realizado por varios componentes físicos e interacciones, con un ejemplo siendo descrito por el sistema de procesamiento de frecuencia vocal 100 mostrado en la FIGURA 1. El sistema de procesamiento de frecuencia vocal 100 incluye varios subcomponentes, cada uno de los cuales puede ser implementado por un dispositivo físico, un dispositivo de programas y sistemas de programación, una porción de un dispositivo físico o de programas y sistemas de programación, o una combinación de los anteriores. La construcción de esos subcomponentes es descrita con mayor detalle más adelante, con referencia a un aparato de procesamiento de datos digitales, circuitos lógico y medio portador de señales ejemplares. De manera amplia, el sistema 100 recibe la frecuencia vocal de entrada 108, codifica la frecuencia vocal de entrada con un codificador 102, modifica la frecuencia vocal codificada por un convertidor de frecuencia vocal 104, descodifica la frecuencia vocal modificada con un descodificador 106, y modifica opcionalmente la frecuencia vocal descodificada nuevamente con el convertidor de frecuencia vocal 104. El resultado es la frecuencia vocal de salida 136. A diferencia de los productos anteriores como el paquete de programas y sistemas de programación SOUNDBLASTER, el sistema 100 emplea el modelo de producción de frecuencia vocal para describir la frecuencia vocal que está siendo procesada por el sistema 100. El modelo de producción de frecuencia vocal, el cual es conocido en el campo de generación de frecuencia vocal artificial, reconoce que la frecuencia vocal puede ser modelada por una fuente de excitación, un filtro acústico que representa la respuesta de frecuencia del tracto vocal, y varias características de radiación en los labios. La fuente de excitación puede comprender una fuente armonizada, la cual es un tren casi periódico de impulsos glóticos, una fuente no armonizada, la cual es un ruido que varía aleatoriamente generado en diferentes lugares en el tracto vocal o una combinación de esas. Un filtro de respuesta de impulso infinito totalmente polarizado de la función de transferencia del tracto vocal, en la cual los polos son usados para describir las frecuencias de resonancia o frecuencias formantes del tracto vocal. Para cada individuo, la fuente de excitación puede ser distinguida debido a la frecuencia fundamental de la frecuencia vocal armonizada. Las frecuencias formantes pueden ser distinguidas debido a la configuración geométrica del tracto vocal. Para modificar formantes y tonos independientemente, la presente invención separada los formantes y tonos en el codificador, el cual es diseñado sobre la base del modelo de producción de frecuencia vocal. El codificador 102 y el descodificador 106 pueden ser implementados utilizando las enseñanzas de varios productos comercialmente disponibles. Por ejemplo, el codificador 102 puede ser implementado por varios codificadores de señales conocidos proporcionados en teléfonos inalámbricos a bordo. El descodificador 106 puede ser implementado utilizando las enseñanzas de varios codificadores de señales conocidos para la implementación en estaciones base, concentradores, conmutadores u otras instalaciones de red de redes de teléfonos inalámbricos. Cada conexión formada en la telefonía inalámbrica digital implementa algún tipo de codificador y descodificador . A diferencia de los codificadores y descodificadores conocidos, sin embargo, el sistema 100 incluye un componente intermedio realizado por el convertidor de frecuencia vocal 104, descrito con mayor detalle más adelante. Además, como se describe con mayor detalle más adelante, ambos del codificador y el descodificador son proporcionados en el mismo teléfono inalámbrico u otra unidad de cómputo.
Codificador Refiriéndose a la FIGURA 1 con mayor detalle, el codificador 102 analiza la frecuencia vocal de entrada 108 para identificar varias propiedades de la frecuencia vocal de entrada, incluyendo las formantes, armonización, tono y ganancia. Esas características son proporcionadas en las salidas 112a, 114a, 116a y 118a. Opcionalmente, las señales de voz y/o ganancia y el procesamiento posterior de las mismas pueden ser omitidas por aplicaciones que no busquen modificar esos aspectos de la frecuencia vocal. El codificador 102 incluye un prefiltro 110, el cual divide la frecuencia vocal de entrada en ventanas de tamaño apropiado, como 20 milisegundos . Posteriormente se efectúa el procesamiento de la frecuencia vocal de entrada ventana por ventana, en la modalidad ilustrada. Además, el prefiltro 110 puede efectuar otras funciones, como bloqueo de las señales de CD o supresión de ruido. El analizador LPC 112 aplica la codificación predictiva enviada (LPC) a la salida del prefiltro 110. Como se ilustra, el analizador LPC 112 y las etapas de procesamiento posteriores procesan una ventana de frecuencia vocal de entrada a la vez. Para facilitar la referencia, sin embargo, el procesamiento es ampliamente discutido en términos de la frecuencia vocal de entrada y sus subproductos. El análisis LPC es una técnica conocida para separar la señal de origen de las características del tracto vocal de la frecuencia vocal, como se enseña en varias referencias incluyendo el texto L. Rabinger & B. Juang, Fundamentáis of Speech Recognition. La totalidad de esta referencia se incorpora aquí como referencia. El analizador LPC 112 proporciona coeficientes de LPC (en la salida 112a) y una señal residual en las salidas 112b. Los coeficiente de LPC son características que describen formantes. La señal residual es dirigida a un detector de armonización 114, buscador de tono 116, y calculador de ganancia 118 los cuales proporcionan señales de salida en las salidas respectivas 114a, 116a, 118a. Los componentes 114, 116, 188 procesan la señal residual para extraer la información de origen que representa la armonización, tono, y ganancia, respectivamente. En un ejemplo, la "armonización" representa si la frecuencia vocal de entrada 108 es armonizada, no armonizada, o mezclada; "tono" representa la frecuencia fundamental de la frecuencia vocal de entrada 108; la "ganancia" representa la energía de la ganancia vocal de entrada 108 en decibeles u otras unidades apropiadas. Opcionalmente, uno o ambos del detector de armonización 114 y el calculador de ganancia 118 pueden ser omitidos del descodificador 102.
Convertidor de Frecuencia Vocal De manera amplia, el convertidor de frecuencia vocal 104 recibe las señales formantes, de voz, tono y ganancia del codificador 102, y modifica una, algunas o todas esas señales de acuerdo a lo dictado por una de varias fuentes de voz preprogramadas seleccionadas por un usuario e incluidas en una biblioteca de fuentes de voz 130. La biblioteca 130 puede ser implementada por la memoria del circuito, almacén de disco magnético, un medio secuencial, una cinta magnética, o cualquier otro medio de almacenamiento. Cada fuente de voz representa un perfil diferente que contiene instrucciones sobre como modificar una o más formantes, voz, tono, y/o ganancia para lograr un resultado de conversión de frecuencia vocal deseado. Algunos perfiles ejemplares se discuten más adelante. La biblioteca 130 recibe la entrada del usuario 130a indicando la selección del usuario de una fuente de voz deseada. La entrada del usuario 130a puede ser recibida por una interconexión como un teclado numérico, botón, conmutador, disco, pantalla sensible al tacto o cualquier otra interconexión de usuario humano. De manera alternativa, donde el usuario no es humano, la entrada 130a puede arribar de una red, canal de comunicaciones, almacén, enlace inalámbrico u otra interconexión de comunicaciones para recibir la entrada de un usuario como un anfitrión, procesador unido a la red, programa de aplicación, etc.
De acuerdo a la entrada seleccionada por el usuario 130a, la biblioteca de fuentes de voz 130 vuelve los componentes respectivos de la fuente de voz seleccionada disponibles al modificador deformante 122, modificador de voz 124, modificador de tono 126, modificador de ganancia 128, y (como se describe por separado más adelante) el postfiltro 120. De manera alternativa, en lugar de dirigir la entrada del usuario 130a a la biblioteca 130, la entrada del usuario puede ser dirigida a los componentes 122, 124, 126, 128 haciendo que sus componentes recuperen la fuente de voz deseada de la biblioteca 130. Cada agente de voz especifica la modificación (si la hay) a ser aplicada por cada uno de los componentes 122, 124, 126, 128 cuando esa fuente de voz es seleccionada por la entrada del usuario 130a. El modificador deformante 122 puede ser implementado para llevar a cabo varias funciones, como se describe de manera más completa más adelante. En un ejemplo, el modificador deformante 122 multiplica los coeficientes de LPC sobre la linea 112a por multiplicadores especificados en una matriz que la fuente de voz seleccionada por el usuario especifica o contiene. En otro ejemplo, el modificador deformante 122 convierte los coeficientes de LPC en el dominio de par espectral lineal (LSP) , multiplica los pares de LSP resultantes por una constante y convierte los pares de LSP nuevamente en coeficientes de LPC. La tecnología LSP es discutida en la referencia citada anteriormente a Rabinger y Juang titulada "Fundamentáis of Speech Recognition" . El modificador de harmonización 124 cambia la señal de harmonización 114a un valor armonizado, no armonizado o mezclado deseado, de acuerdo a lo dictado por la fuente de voz seleccionada por el usuario. El modificador de tono 126 multiplica la señal de tono 116a por una relación como 0.5, 1.5 o por una tabla de diferentes relaciones a ser aplicadas a diferentes sílabas, intervalos de tiempo u otros componentes de la señal que arribe de 116a. Como otra alternativa, el modificador de tono 126 puede cambiar el tono con un valor predefinido (monótono) o valores predefinidos diferentes múltiples (como una melodía) . El modificador de ganancia 128 cambia la señal de ganancia 118a multiplicando esta por una relación, o por una tabla de relaciones diferentes a ser aplicadas con el tiempo. Las fuentes de voz 130 están diseñadas para proporcionar varios efectos de conversión de frecuencia vocal preprogramados . Por ejemplo, modificando el tono y formantes con ciertas relaciones, la frecuencia vocal puede ser convertida de masculina a femenina y viceversa. En algunos casos, puede ser aplicado una relación al tono y aplicarse una relación diferente a las formantes para lograr la frecuencia vocal convertida que suene más natural. De manera alternativa, puede ser introducido un acento reemplazando el tono con patrones de entonación de tono predefinidos, y modificando opcionalmente las formantes en ciertos fonemas. Como otro ejemplo, puede ser creada una voz robótica fijando el tono en un cierto valor, opcionalmente fijando las características de harmonización, y modificando opcionalmente las formantes incrementando la resonancia. En otro ejemplo más, la frecuencia vocal de la conversación puede ser convertida a frecuencia vocal cantante cambiando el tono al de una melodía predeterminada Opcionalmente, el convertidor de frecuencia vocal 104 puede incluir un postfiltro 120. De acuerdo al contenido de la fuente de voz seleccionada por el usuario de la biblioteca de fuentes 130, el postfiltro 130 aplica un proceso de filtración apropiado a las señales del descodificador 106 (discutido más adelante) . En una modalidad, el postfiltro 120 efectúa la modificación de la pendiente espectral de la frecuencia vocal descodificada. Como una función diferente o adicional, el postfiltro 120 puede aplicar filtración como filtración de tono bajo, tono alto o activa. Algunos ejemplos incluyen filtros de respuesta de impulso finito y de respuesta de impulso infinito. Un esquema de filtración ejemplar aplica y (n) =x (n) +x (n-L) para generar un efecto de eco.
Descodificador De manera general, el descodi ficador 106 efectúa una función opuesta a la del codificador 102, es decir, recom inar las formantes, harmonización, tono, y ganancia (de acuerdo a lo modificado por el convertidor de frecuencia vocal 104) en la frecuencia vocal de salida. El descodificador 106 incluye un generador de señales de excitación 132, el cual recibe las señales de harmonización, tono y ganancia (con cualesquier modificaciones) del convertidor 104 y proporciona una señal residual LPC representativa sobre una linea 132a. La estructura y operación del generador 132 puede ser de acuerdo a principios familiares a aquellos en la técnica relevante . Un sintetizador LPC 134, aplica el procesamiento LPC inverso a las formantes del modificador de formantes 122 y la señal residual 132a del generador 132 para generar una señal de frecuencia vocal representativa sobre una salida 134a. De este modo, el sintetizador 134 y el generador 132 efectúan, de manera combinada, una función inversa a la del analizador LPC 112. La estructura y operación del sintetizador 104 puede ser de acuerdo a principios familiares a aquellos en la técnica relevante . En una modalidad, la salida 134a del sintetizado LPC 134 puede ser utilizada como la frecuencia vocal de salida 136. De manera alternativa, como se discutió anteriormente y como se ilustra en la Figura 1, la señal de frecuencia vocal 134a producida por el sintetizador LPC puede ser encaminado nuevamente al postfiltro 120 y modificada de acuerdo a lo especificado por la fuente de voz seleccionada por el usuario. En este caso, la salida con postfiltro 120 se convierte en la frecuencia vocal de salida 136 como se ilustra en la Figura 1.
Aparato de Procesamiento de Datos Digitales
Ejemplar Como se mencionó anteriormente, las entidades procesadoras de datos como el sistema de procesamiento de frecuencia vocal 100, o uno o más componentes individuales del mismo, puede ser implementados en varias formas. Un ejemplo es un aparato de procesamiento de datos digitales, de acuerdo a lo ejemplificado por los componentes físicos e interconexiones del aparato de procesamiento de datos digitales 200 de la Figura 2. El aparato 200 incluye un procesador 202, como un microprocesador, computadora personal, estación de trabajo u otra máquina de procesamiento, acoplada a un almacén 204. En el presente ejemplo el almacén 204 incluye un almacén de acceso rápido 206, así como un almacén no volátil 208. El almacén de acceso rápido 206 puede comprender la memoria de acceso aleatorio ("RAM") , puede ser usado para almacenar las instrucciones de programación ejecutadas por el procesador 202. El almacén no volátil 208 puede comprender, por ejemplo, una RAM de reserva de batería, EEPROM, uno o más discos magnéticos para almacenar datos como una "unidad de disco duro", una unidad de cinta o cualquier otro dispositivo de almacenamiento adecuado. El aparato 200 también incluye una entrada/salida 210, como una línea, canal, cable, enlace electromagnético, otros medios para que el procesador 202 intercambie datos con otros componentes físicos externos al componente 200. A pesar de la descripción anterior específica, los expertos (teniendo el beneficio de esta descripción) reconocerán que los aparatos discutidos anteriormente pueden ser implementados en una máquina de construcción diferente, sin apartarse del alcance de la invención. Como un ejemplo específico, uno de los componentes 206, 208 puede ser eliminado; además, el almacén 204, 206 y/o 208 puede ser proporcionado en el procesador 202, o proporcionado aún externamente al aparato 200.
Circuito Lógico En contraste con el aparato de procesamiento de datos digitales discutido anteriormente, una modalidad diferente de la invención usa un circuito lógico en lugar de instrucciones ejecutadas por una computadora para implementar algunas o todas las entidades procesadoras del sistema de procesamiento de frecuencia vocal 100. Dependiendo de los requerimientos particulares de la aplicación en las áreas de velocidad, los gatos, costos de herramental, y similares, esta lógica puede ser implementada construyendo un circuito integrado específico de la aplicación (ASIC) que tenga miles de transistores integrados pequeños. Ese ASIC puede ser implementado con CMOS, TTL, VLSI, u otra construcción adecuada. Otras alternativas incluyen un microcircuito de procesamiento de señales digitales (DSP), circuito discreto (como resistencias capacitores, diodos, inductores y transistores) , arreglo de compuertas programables en el campo (FPGA) , arreglo lógico programable (PLA) , dispositivo lógico programable (PLD) , y similares.
Teléfono Inalámbrico En una aplicación ejemplar, sin ninguna limitación, el sistema de procesamiento de frecuencia vocal 100 puede ser implementado de un teléfono inalámbrico 400 (Figura 4), junto con otros circuitos conocidos en la técnica de la telefonía inalámbrica. El teléfono 400 incluye un altavoz 408, interconexión de usuario 410, micrófono 414, transceptor 404, antena 406, y administrador 402. El administrador 402, el cual puede ser implementado con un circuito como los que se discutieron anteriormente en conjunto con las Figuras 3-4, administra la operación de los componentes 404, 408, 410 y 414 y el encaminamiento de señales entre ellos. El administrador 402 incluyen un módulo de conversión de frecuencia vocal 402a, incorporado por el sistema 100. El módulo 402a efectúa una función como obtener la frecuencia vocal de entrada de una fuente predeterminada o especificada para el usuario como el micrófono 414 y/o el transceptor 404 y modificar la frecuencia vocal de entrada de acuerdo con las directrices del usuario recibidas vía la interconexión 410 y proporcionar la frecuencia vocal de salida al altavoz 408, el transceptor 404, u otro destino predeterminado o especificado por el usuario . Como una alternativa al teléfono 400, el sistema 100 puede ser implementado en una variedad de otros dispositivos, como la computadora personal, estación de trabajo de computo, conmutador de red, asistente digital personal (PDA), o cualquier otra aplicación útil.
OPERACION Habiendo descrito las características estructurales de la presente invención, ahora será descrito el aspecto operativo de la presente invención.
Medios Portadores de Señales Cuando alguna funcionalidad de la invención es incrementada usando una o más secuencias de programas ejecutados por una máquina, esas secuencias pueden ser incorporadas o realizadas en varias formas de medios portadores de señales. En el contexto de la Figura 2, esos medios portadores de señales pueden comprender, por ejemplo, el almacén 204 u otros medios portadores de señales, como un disco magnético para almacenar datos 300 (Figura 3), accesible directa o indirectamente por un procesador 202. Si están contenidas en el almacén 206, el disco 300, o en otra parte, las instrucciones pueden ser almacenadas en una variedad de medios de almacenamiento de datos legibles por una máquina. Algunos ejemplos incluyen un almacén de acceso directo (por ejemplo una "unidad de disco duro", convencional, un arreglo redundante de discos baratos ("RAID") , u otro dispositivo de almacenamiento de acceso directo ("DASD")), almacén de acceso en serie como cinta magnética u óptica, memoria electrónica no volátil (por ejemplo ROM, EPROM, o EEPROM) , RAM de refuerzo de batería, almacén óptico (por ejemplo CD-ROM, WORM, DVD, cinta óptica digital), tarjetas de papel "perforadas" u otros medios portadores de señales adecuados, incluyendo medios de transmisión analógicos o digitales y enlaces analógicos y de comunicación y comunicaciones inalámbricas. En una modalidad ilustrativa de la invención, las instrucciones legibles por una máquina pueden comprender un código de objetos de programas y sistemas de programación, recopilados de un lenguaje como el lenguaje ensamblador, C, etc.
Circuito Lógico En contraste con los medios portadores de señales discutidos anteriormente, algunas o todas las funcionalidades de la invención pueden ser implementada usando un circuito lógico, en lugar de usar un procesador para ejecutar instrucciones. Ese circuito lógico es por lo tanto configurado para efectuar operaciones para llevar a cabo el método de la invención. El circuito lógico puede ser implementado usando muchos tipos diferentes de circuitos, como se discutió anteriormente.
Secuencia de Operación Total La FIGURA 5 muestra una secuencia de conversión de frecuencia vocal 500 para ilustrar una modalidad de operación de la invención. De manera amplia, esta secuencia implica las tareas de modificar varios aspectos de una señal de frecuencia vocal recibida de acuerdo a una de varias fuentes de voz preprogramadas seleccionadas por un usuario. Esto es logrado modificando las formantes, armonización, tono y/o ganancia de la señal de frecuencia vocal de acuerdo a lo especificado por la fuente de voz seleccionada por el usuario. Para facilitar la explicación, pero sin pretender ninguna limitación, el ejemplo de la FIGURA 5 es descrito en el contexto del sistema de procesamiento de frecuencia vocal 100 descrito anteriormente . La secuencia 500 es iniciada en el tono 501, cuando el codificador 102 recibe la frecuencia vocal de entrada 108. Lo siguiente es el proceso de codificación 502. En el tono 503, el prefiltro 110 divide la frecuencia vocal de entrada en ventanas dimensionadas apropiadamente, como de 20 milisegundos . Posteriormente se efectúa el procesamiento de la frecuencia vocal de entrada ventana por ventana, en la modalidad ilustrada. Además, el prefiltro 110 puede efectuar otras funciones, como bloqueo de señales de CD o supresión de ruido. En el tono 504, el analizador LPC 112 aplica LPC a la salida del prefiltro 110. Como se ilustra, el analizador LPC 112 y cada etapa de procesamiento posterior procesa por separado cada ventana de la frecuencia vocal de entrada. Para facilitar la referencia, sin embargo, el procesamiento es discutido ampliamente en términos de la frecuencia vocal de entrada y sus subproductos. El analizador LPC 122 proporciona coeficientes de LPC (formantes) sobre la salida 112a y una señal residual sobre la salida 112b. En el tono 506, la señal residual es destruida. A saber, el analizador de LPC 112 dirige la señal residual al detector de armonización 114, el buscador de tonos 116 y el calculador de ganancia 118, y esos componentes proporcionan señales de salida en su salida respectiva 114a, 116a, 118a. Los componentes 114, 116, 118 procesan la señal residual para extraer la armonización, tono, y ganancia que representa la información de origen. En el presente ejemplo, como se mencionó anteriormente, la "armonización" representa si la frecuencia vocal de entrada 108 está armonizada, no armonizada, mezclada; el "tono" representa la frecuencia fundamental de la frecuencia vocal de entrada 108; la "ganancia" representa la energía de la frecuencia vocal de entrada 108 en decibeles u otras unidades apropiadas. Opcionalmente, si son omitidos uno o ambos del detector de armonización 114 y el calculador de ganancia 118 del codificador 102, entonces la funcionalidad de esos componentes, como se ilustra aquí, también es omitida. Después del tono 502, ocurre la conversión de frecuencia vocal en el tono 507. En el tono 508, un usuario selecciona una fuente de voz de la biblioteca de fuentes de voz 130 a ser aplicada por el convertidor de frecuencia vocal 104. También en el tono 508, la biblioteca de fuentes de voz 130 recibe la entrada del usuario 130a y en consecuencia esos componentes hace respectivos del perfil seleccionados disponibles al modificador deformante 122, modificador de armonización 124, modificador de tonos 126 y modificador de ganancia 128. Bajo una alternativa, la entrada del usuario 130a puede ser dirigida a los componentes 122, 124, 126, 128 en lugar de la biblioteca 130, haciendo que esos componentes recuperen la fuente de armonizada deseada de la biblioteca 130. Cada fuente de armonizada especifica una modificación particular (si la hay) a ser aplicada por uno o más de los componentes 122, 124, 126, 128 cuando es seleccionada esa fuente de armonizada. Cada fuente de voz especifica una forma de modificación de al menos una de las señales recibidas (es decir formantes, de armonización, de tono, de ganancia) , El "usuario" puede ser un operador humano, máquina anfitriona, procesador conectado a la red, programa de aplicación, u otra entidad funcional. En los tonos 509, 510, 512, 514, los componentes 122, 124, 126, 128 reciben y modifican sus señales de entrada respectivas 112a, 114a, 116a, 118a. A saber, el modificador deformante 112 recibe una señal de formante 112a que representa la señal de frecuencia vocal de entrada 108 (paso 509) ; el modificador de armonización 124 recibe una señal de armonización 114 que comprende una indicación de si la señal de frecuencia vocal de entrada 108 está armonizada, no armonizada o mezclada (paso 510) ; el modificador de tono 126 recibe una señal de tono 116a que comprende una representación de frecuencia fundamental de la señal de frecuencia vocal de entrada 108 (paso 512); el modificador de ganancia 128 recibe una señal de ganancia 118a que representa la energía de la señal de frecuencia vocal de entrada 108 (paso 514). También en los pasos 509, 510, 512, 514, los componentes 122, 124, 126 y/o 128 modifican una o más de las señales recibidas 112a, 114a, 116a, 118a de acuerdo a la fuente de voz seleccionada por la fuente de voz seleccionada por la entrada del usuario 130a. por ejemplo, el tono 509 puede implicar que el modificador de formantes 122 modifique la señal de formante 112a convirtiendo los coeficiente de LPC de la señal de entrada a LSP de acuerdo con la fuente de voz seleccionada por el usuario, y convirtiendo entonces los LSP modificados nuevamente en coeficientes de LS P . Una técnica ejemplar para modificar los LS P se muestra en la Ecuación 1, a continuación:
[1] LS Pnuevo(í) =LS P ( Í ) *F* (11-i) / (F+10-i)
donde: i fluctúa de uno a diez. F es un factor de desviación de formantes con un intervalo de 0.5 a 2, dependiendo del efecto deseado de la fuente de voz asociada. Cuando F=l, por ejemplo, LS Pnuevo (i) =LS P (i) no existe desviación. Otra técnica para desviar formantes es expresada por la Ecuación 2, a continuación:
[2] LS PnUevo (i) =LS P (i ) *F
donde: i fluctúa de uno a diez. F es un factor de desviación de formantes deseado . Como un ejemplo del tono 510, el modificador de armonización 124 puede implicar cambiar la señal de armonización 114a para cambiar la frecuencia vocal de entrada 108 a una propiedad diferente armonizada, no armonizada o mezclada. Como un ejemplo del tono 512, el modificador de tono 116 puede modificar la señal de tono 116a multiplicando por un coeficiente predeterminado (como 0.5, 2.0, u otra relación), multiplicando el tono por una matriz de coeficientes diferenciales a ser aplicados a diferentes silabas o intervalos de tiempo u otros componentes, reemplazando el tono con un patrón de tono fijo de uno o más tonos, u otra operación. Como un ejemplo del tono 514, el modificador de ganancia 128 puede modificar la señal 118 para normalizar la ganancia vocal de entrada 108 a un valor predeterminado o alimentado por el usuario. Después de la conversión de frecuencia vocal 507, ocurre la descodificación 515. En el tono 516, el generador de señales de excitación 132 recibe las señales de armonización, tono y ganancia (con cualesquier modificaciones) del convertidor 104 y proporciona una señal residual LPC representativa 132a. De este modo, el generador 132 efectúa una función inversa a la del analizador LPC 112. En el tono 518, el sintetizador 134 aplica el procesamiento LPC inverso a las formantes (del modificador de formantes 122) y la señal residual 132a (del generador 132) para generar una señal de salida de frecuencia vocal representativa en 134a. De este modo, el sintetizador 134 efectúa una función inversa a la del analizador LPC 112. En una modalidad, la salida 134a del sintetizador de LPC 134 puede ser utilizada como la frecuencia vocal de salida 136. De manera alternativa, como se discutió anteriormente, la señal de frecuencia vocal 134a producida por el sintetizados LPC 134 puede ser encaminada nuevamente para una conversión de frecuencia vocal más en el tono 519. A saber, en el tono 520 el postfiltro 120 modifica la señal del sintetizador LPC 134 de acuerdo a la fuente de voz seleccionada por el usuario, caso en el cual la salida del postfiltro 120 (en lugar de la del sintetizador 134) constituye la frecuencia vocal de salida 136 en el tono 522. En una modalidad, el postfiltro 120 efectúa la modificación de la pendiente espectral de la frecuencia vocal de salida. El postfiltro 120 puede aplicar una filtración como la filtración de tono bajo, tono alto o activa. Algunos ejemplos incluyen respuesta del filtro de impulso finito o respuesta de impulso infinito. Un ejemplo más particular es un filtro que aplica una función como y (n) =x (n) +x (n-L) para generar un efecto de eco.
OTRAS MODALIDADES Aunque la descripción anterior muestra numerosas modalidades ilustrativas de la invención, será evidente a aquellos expertos en la técnica, que pueden hacerse varios cambios y modificaciones aquí sin apartarse del alcance de la invención de acuerdo a lo definido por las reivindicaciones anexas. Además, aunque los elementos de la invención pueden ser descritos o reclamados en singular, se contempló el plural a menos que sea establecida una limitación explícita al singular. Adicionalmente , los expertos en la técnica reconocerán que las secuencias de operación deben ser expuestas en algún orden especifico para propósitos de explicación y reclamo, pero la presente invención contempla varios cambios más allá del orden específico.
Claims (35)
- NOVEDAD DE LA INVENCION Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes: REIVINDICACIONES 1. Un método para la conversión de una señal de frecuencia vocal, caracterizado porque comprende las operaciones de: recibir señales incluyendo: una señal formante representativa de una señal de frecuencia vocal de entrada; una señal de harmonización que comprende una indicación de si la señal de frecuencia vocal de entrada está armonizada, no armonizada, o mezclada; una señal de tono que comprende una representación de la frecuencia fundamental de la señal de frecuencia vocal de entrada; una señal de ganancia que comprende una representación de la energía en la señal de frecuencia vocal de entrada; recibir la selección del usuario de al menos una de fuentes de voz múltiple cada una especificando una manera de modificar al menos una de las señales recibidas ; modificar al menos una de las señales recibidas de acuerdo a lo especificado por la fuente de voz seleccionada ; proporcionar una salida de las señales recibidas que incorporan las modificaciones.
- 2. El método de conformidad con la reivindicación 1, caracterizado porque la operación de modificación comprende modificar la señal formante efectuando operaciones que comprende: convertir coeficientes de codificación correctivos lineales de la señal formante a pares espectrales lineales; modificar los pares espectrales lineales de acuerdo a lo especificado por la fuente de voz seleccionada ; convertir los pared espectrales lineales modificados en coeficientes de codificación predictivos lineales .
- 3. El método de conformidad con la reivindicación 1, caracterizado porque la operación de modificación comprende modificar la señal formante efectuando operaciones que comprende una de las siguientes : multiplicar la señal de tono por un coeficiente predeterminado; multiplicar la señal de tono por una matriz de coeficientes diferenciales sobre el tiempo; reemplazar la señal de tono, con un patrón de tono fijo de uno o más niveles.
- 4. El método de conformidad con la reivindicación 1, caracterizado porque la operación de modificación comprende normalizar la señal de ganancia a un valor fijo.
- 5. El método de conformidad con la reivindicación 1, caracterizado porque la operación de modificación comprende cambiar la señal de harmonización a un valor diferente armonizado, no armonizado o mezclado.
- 6. El método de conformidad con la reivindicación 1, caracterizado porque cada fuente de voz especifica además un tipo de filtro, las operaciones comprenden además: filtrar la salida de acuerdo a lo especificado por la fuente de voz seleccionada.
- 7. El método de conformidad con la reivindicación 1, caracterizado porque la operación de modificación comprende: aplicar una primera conversión a la señal formante; aplicar una segunda conversión, diferente de la primera conversión, a la señal de tono.
- 8. Un método para la conversión de la señal de frecuencia vocal, caracterizada porque comprende las operaciones de: recibir una señal, incluyendo: una señal formante representativa de una señal de frecuencia vocal de entrada; una señal de tono que comprende una representación de la frecuencia fundamental de la señal de frecuencia vocal de entrada; recibir del usuario la selección de al menos una de fuente de voz múltiple cada una especificando una manera de modificar la señal formante y una manera diferente de modificar la señal de tono; modificar las señales recibidas de acuerdo a lo especificado por la fuente de voz seleccionada; proporcionar una salida de las señales recibidas como se modificaron.
- 9. Un método para procesar frecuencia vocal, caracterizado porque comprende las operaciones de: aplicar una codificación predictiva lineal a la frecuencia vocal de entrada para producir una salida formal y una salida residual; procesar la salida residual para producir salidas respectivas que representan el tono, ganancia y harmonización de la frecuencia vocal de entrada; recibir la selección del usuario de al menos una de fuentes de voz predeterminadas múltiples, cada una especificando una manera de modificar al menos una de las salidas formante, de tono, ganancia y harmonización y modificar una o más de las salidas formante, de tono, ganancia y harmonización de acuerdo a la fuente de voz seleccionada ; recombinar las salidas formante, de tono, ganancia y harmonización incluyendo cualesquier modificaciones para formar una señal de salida descodificada .
- 10. Un medio portador de señales que incorpora tangiblemente un programa de instrucciones legibles por una máquina ejecutables por un aparato de procesamiento digital para efectuar las operaciones de conversión de frecuencia vocal, caracterizado porque comprende: recibir señales incluyendo: una señal formante representativa de una señal de frecuencia vocal de entrada; una señal de harmonización que comprende una indicación de si la señal de frecuencia vocal de entrada está armonizada, no armonizada, o mezclada; una señal de tono que comprende una representación de la frecuencia fundamental de la señal de frecuencia vocal de entrada; una señal de ganancia que comprende una representación de la energía en la señal de frecuencia vocal de entrada; recibir la selección del usuario de al menos una de fuentes de voz múltiples cada una especificando una manera de modificar al menos una de las señales recibidas ; modificar al menos una de las señales recibidas de acuerdo a lo especificado por la fuente de voz seleccionada; proporcionar una salida de las señales recibidas que incorporan las modificaciones.
- 11. El medio de conformidad con la reivindicación 10, caracterizado porque la operación de modificación comprende modificar la señal formante efectuando operaciones que comprende: convertir los coeficientes de codificación predictivos lineales de la señal formante a pares espectrales lineales; modificar los pares espectrales lineales de acuerdo a lo especificado por la fuente de voz seleccionada; convertir los pares espectrales lineales modificados en coeficientes de codificación predictivos lineales .
- 12. El medio de conformidad con la reivindicación 10, caracterizado porque la operación de modificación comprende modificar la señal de tono efectuando operaciones que comprenden una de las siguientes : multiplicar la señal de tono por un coeficiente predeterminado; multiplicar la señal de tono por una matriz de coeficientes diferenciales sobre el tiempo; reemplazar la señal de tono con un patrón de tono fijo de uno o más niveles.
- 13. El medio de conformidad con la reivindicación 10, caracterizado porque la operación de modificación comprende normalizar la señal de ganancia a un valor fijo.
- 14. El medio de conformidad con la reivindicación 10, caracterizado porque la operación de modificación comprende cambiar la señal de harmonización a un valor diferente armonizado, no armonizado o mezclado .
- 15. El método de conformidad con la reivindicación 10, caracterizado porque cada fuente de voz especifica además un tipo de filtro, las operaciones comprenden además: filtrar la salida de acuerdo a lo especificado por la fuente de voz seleccionada.
- 16. El medio de conformidad con la reivindicación 10, caracterizado porque la operación de modificación comprende: aplicar una primera conversión a la señal formante; aplicar una segunda conversión, diferente de la primera conversión, a la señal de tono.
- 17. Un medio portador de señales que incorpora tangiblemente un programa de instrucciones legibles por una máquina ejecutables por un aparato de procesamiento digital para efectuar las operaciones de conversión de frecuencia vocal, caracterizado porque comprende: recibir una señal, incluyendo: una señal formante representativa de una señal de frecuencia vocal de entrada; una señal de tono que comprende una representación de la frecuencia fundamental de la señal de frecuencia vocal de entrada; recibir del usuario la selección de al menos una de fuentes de voz múltiples cada una especificando una manera de modificar la señal formante y una manera diferente de modificar la señal de tono; modificar las señales recibidas de acuerdo a lo especificado por la fuente de voz seleccionada; proporcionar una salida de las señales recibidas como se modificaron.
- 18. Un medio portador de señales que incorpora tangiblemente un programa de instrucciones legibles por una máquina ejecutables por un aparato de procesamiento digital para efectuar las operaciones de conversión de frecuencia vocal, caracterizado porque comprende: aplicar una codificación predictiva lineal a la frecuencia vocal de entrada para producir una salida formante y una salida residual; procesar la salida residual para producir señales respectivas que representan el tono, ganancia y harmonización de la frecuencia vocal de entrada; recibir la selección del usuario de al menos una de fuentes de voz predeterminadas múltiples, cada una especificando una manera de modificar al menos una de las salidas formante, de tono, ganancia y harmonización, y modificar una o más de las salidas formante, de tono, ganancia y harmonización de acuerdo a la fuente de voz seleccionada; determinar las salidas formante, de tono, ganancia y harmonización incluyendo cualesquier modificaciones para formar una señal de salida descodificada .
- 19. Un circuito de elementos conductores eléctricos interconectados múltiples configurados para efectuar operaciones de conversión de frecuencia vocal, caracterizado porque comprende: recibir señales incluyendo: una señal formante representativa de una señal de frecuencia vocal de entrada; una señal de harmonización que comprende una indicación de si la señal de frecuencia vocal de entrada está armonizada, no armonizada, o mezclada; una señal de frecuencia vocal que comprende una representación de la frecuencia fundamental de la señal de frecuencia vocal de entrada; una señal de ganancia que comprende una representación de la energía en la señal de frecuencia vocal de entrada; recibir la selección del usuario de al menos una de fuentes de voz múltiples cada una especificando una manera de modificar al menos una de las señales recibidas; modificar al menos una de las señales recibidas de acuerdo a lo especificado por la fuente de voz seleccionada ; proporcionar una salida de las señales recibidas que incorporan las modificaciones.
- 20. El circuito de conformidad con la reivindicación 19, caracterizado porque la operación de modificación comprende modificar la señal formante efectuando operaciones que comprenden: convertir los coeficiente de codificación predictiva lineal de la señal formante a pares espectrales lineales; modificar los pares espectrales lineales de acuerdo a lo especificado por la fuente de voz seleccionada ; convertir los pares espectrales lineales modificados a coeficientes de codificación predictivo.
- 21. El circuito de conformidad con la reivindicación 19, caracterizado porque la operación de modificación comprende modificar la señal de tono por operaciones que comprenden uno de los siguientes: multiplicar la señal de tono por un coeficiente predeterminado ; multiplicar la señal de tono por una matriz de coeficientes diferenciales sobre el tiempo; reemplazar la señal de tono con un patrón de tono fijo de uno o más niveles.
- 22. El circuito de conformidad con la reivindicación 19, caracterizado porque la operación de modificación comprende formalizar la señal de ganancia a un valor fijo.
- 23. El circuito de conformidad con la reivindicación 19, caracterizado porque la operación de modificación comprende cambiar la señal de armonización a un valor diferente de armonizado, no armonizado o mezclado .
- 24. El circuito de conformidad con la reivindicación 19, caracterizado porque cada fuente de voz especifica además un tipo de filtro, las operaciones comprenden además: filtrar la salida de acuerdo a lo especificado por la fuente de voz seleccionada.
- 25. El circuito de conformidad con la reivindicación 19, caracterizado porque la operación de modificación comprende: aplicar una primera conversión a la señal formante ; aplicar una segunda conversión, diferente de la primera conversión, a la señal de tono.
- 26. Un circuito de elementos conductivos interconectados eléctricamente múltiples configurados para efectuar operaciones de conversión de frecuencia vocal, caracterizado porque comprende: recibir señales incluyendo: una señal formante representativa de una señal de frecuencia vocal de una entrada; una señal de tono que comprende una representación de la frecuencia fundamental de la señal de frecuencia vocal de entrada; recibir la selección del usuario de al menos una de fuentes de voz múltiples cada una especificando una manera de modificar la señal formante y una manera diferente de modificar la señal de tono; modificar las señales recibidas de acuerdo a lo especificado por la fuente de voz seleccionada; proporcionar una salida de las señales recibidas como se modificaron.
- 27. Un circuito de elementos conductores eléctricamente interconectados , múltiples, configurado para efectuar operaciones de conversión de frecuencia vocal, caracterizado porque comprende: aplicar una codificación predictiva lineal a la frecuencia vocal de entrada para producir una salida formante y una salida residual; procesar la salida residual para producir salidas respectivas que representan el tono, ganancia y armonización de la frecuencia vocal de entrada; recibir la selección del usuario de al menos una de fuentes de voz predeterminadas múltiples cada una especificando una de modificar al menos una de las salidas formantes, de tono, ganancia y armonización, y modificar una o más salidas formantes, de tono, ganancia y armonización de acuerdo a la fuente de voz seleccionada ; recombinar las salidas formantes, de tono, ganancia y armonización, incluyendo cualesquier modificaciones para formar una señal de salida descodificada .
- 28. Un dispositivo de comunicaciones inalámbrico, caracterizado porque comprende: un transceptor acoplado a una antena; un altavoz; un micrófono; una interconexión de usuario; un administrador acoplado a componentes, incluyendo el transceptor, altavoz, micrófono, e interconexión de usuario para administrar la operación de los componentes, el administrador incluye un sistema de conversión de frecuencia vocal configurado para efectuar operaciones que comprenden: recibir señales, incluyendo: una señal formante representativa de una señal de frecuencia vocal de entrada; una señal de armonización que comprende una indicación de si la señal de frecuencia vocal de entrada está armonizada, no armonizada o mezclada; una señal de tono que comprende una representación de la frecuencia vocal de la señal de frecuencia vocal de entrada; una señal de ganancia que comprende una representación de la energía en la señal de frecuencia vocal de entrada; recibir la selección del usuario de al menos una de fuentes de voz múltiples cada una especificando una manera de modificar al menos una de las señales recibidas ; modificar al menos una de las señales recibidas de acuerdo a lo especificado por la fuente de voz seleccionada ; proporcionar una salida de las señales recibidas que incorporan las modificaciones.
- 29. Un dispositivo de comunicaciones inalámbrico, caracterizado porque comprende: un transceptor acoplado a una antena; un altavoz; un micrófono; una interconexión de usuario; un administrador acoplado a componentes, incluyendo el transceptor, altavoz, micrófono, e interconexión de usuario para administrar la operación de los componentes, el administrador incluye un sistema de conversión de frecuencia vocal configurado para efectuar operaciones que comprenden: aplicar la codificación predictiva lineal a la frecuencia vocal de entrada para producir una salida formante y una salida residual; procesar la salida residual para producir salidas respectivas que representen el tono, ganancia y armonización de la frecuencia vocal de entrada; recibir la selección del usuario de al menos una de fuente de voz predeterminada múltiple, cada una especificando una manera de modificar al menos una de las salidas formantes, de tono, ganancia y armonización, y modificar una o más de las salidas formantes, de tono, ganancia y armonización de acuerdo a la fuente de voz seleccionada ; recombinar las salidas formantes, de tono, ganancia y armonización, incluyendo cualesquier modificaciones para formar una señal de salida descodificada .
- 30. Un dispositivo de comunicaciones inalámbrico, caracterizado porque comprende: un codificador, que incluye un analizador de codificación predictiva lineal (LPC) acoplado a un detector de armonización, un buscador de tono y un calculador de ganancia; un módulo de conversión de frecuencia vocal que incluye un modificador de formantes en comunicación con el analizador LPC, un modificador de armonización en comunicación con el detector de armonización, un modificador de tono en comunicación con el buscador de tono, un modificador de ganancia en comunicación con el calculador de ganancia, y una biblioteca de fuentes de voz en comunicación con todos los modificadores; un descodificador que comprende un generador de señales de excitación en comunicación con el modificador de armonización, el modificador de tono, y el modificador de ganancia, el descodificador también incluye un sintetizador LPC acoplado al generador de señales de excitació .
- 31. Un dispositivo de comunicaciones inalámbrico, caracterizado porque comprende: un transceptor acoplado a una antena; un altavoz; un micrófono; una interconexión de usuario; un administrador acoplado a componentes, incluyendo el transceptor, altavoz, micrófono, e interconexión de usuario para administrar la operación de los componentes, el administrador incluye un sistema de conversión de frecuencia vocal configurado para efectuar operaciones que comprenden: recibir señales, incluyendo: una señal formante representativa de una señal de frecuencia vocal de entrada; una señal de tono que comprende una representación de la frecuencia fundamental de la señal de frecuencia vocal de entrada; recibir la selección del usuario de al menos una de fuentes de voz múltiples cada una especificando una manera de modificar la señal formante y una manera diferente de modificar la señal de frecuencia vocal; modificar las señales recibidas de acuerdo a lo especificado por la fuente de voz seleccionada; proporcionar una salida de las señales recibidas como se modificaron.
- 32. Un sistema de conversión de frecuencia vocal, caracterizado porque comprende: un transceptor acoplado a una antena; un altavoz; un micrófono; una interconexión de usuario; medios para administrar la operación del transceptor, el altavoz, el micrófono, y la interconexión de usuario y que adicionalmente incluye un medio para la conversión de frecuencia vocal: recibiendo señales, que incluyen: una señal formante representativa de una señal de frecuencia vocal de entrada; una señal de armonización que comprende una indicación de si la señal de frecuencia vocal de entrada está armonizada, no armonizada o mezclada; una señal de tono que comprende una representación de la frecuencia fundamental de la señal de frecuencia vocal de entrada; una señal de ganancia que comprende una representación de la energía en la señal de frecuencia vocal de entrada; recibir la selección del usuario de al menos una de fuente de voz múltiple cada una especificando una manera de modificar al menos una de las señales recibidas ; modificar al menos una de las señales recibidas de acuerdo a lo especificado por la fuente de voz seleccionada; proporcionar una salida de las señales recibidas que incorporan las modificaciones.
- 33. Un sistema de conversión de frecuencia vocal, caracterizado porque comprende: un transceptor acoplado a una antena; un altavoz; un micrófono; una interconexión de usuario; medios para administrar la operación del transceptor, el altavoz, el micrófono, y la interconexión de usuario y que adicionalmente incluye medios para la conversión de frecuencia vocal: aplicar la codificación predictiva lineal a la frecuencia vocal de entrada para producir una salida formante y una salida residual; procesar la salida residual para producir salidas respectivas que representen el tono, ganancia y armonización de la frecuencia vocal de entrada; recibir la selección del usuario de al menos una de fuentes de voz predeterminadas múltiples cada una especificando una manera de modificar al menos una de las salidas formante, de tono, ganancia y armonización, y modificar una o más de las salidas formantes, de tono, ganancia y armonización de acuerdo a la fuente de voz seleccionada; recombinar las salidas formantes, de tono, ganancia y armonización, incluyendo cualesquier modificaciones para formar una señal de salida descodificada .
- 34. Un dispositivo de comunicaciones inalámbricas, caracterizado porque comprende: medios para codificar que comprende medios para analizar la codificación lineal predictiva (LPC) y, acoplados en los medios para el análisis de LPC, medios para la detección de armonización, medios para la búsqueda de tonos, y medios para el cálculo de ganancia; medios para la conversión de frecuencia vocal que incluye medios para modificar las formantes acopladas a los medios para el análisis LPC, medios para la modificación de la armonización acoplados a los medios para la detección de la armonización, medios para modificar el tono en comunicación con los medios para la búsqueda de tono, medios para modificar la ganancia en comunicación con los para calcular la ganancia, y una biblioteca de fuentes de voz; medios descodificadores que comprenden medios para sintetizar LPC y, acoplados a medios para sintetizar LPC, y medios para la generación de señales de excitación acoplados adicionalmente a medios para la modificación de la armonización, los medios para la modificación del tono, y los medios para la modificación de la ganancia.
- 35. Un dispositivo para comunicaciones inalámbricas, caracterizado porque comprende: un transceptor acoplado a una antena; un altavoz; un micrófono; una interconexión de usuario; medios para administrar los componentes, incluyendo el transceptor, altavoz, micrófono, e interconexión de usuario para administrar la operación de los componentes, los medios para la administración incluyen medios para efectuar el sistema de conversión de frecuencia vocal: recibiendo señales que incluyen: una señal formante representativa de una señal de frecuencia vocal de entrada; una señal de frecuencia vocal que comprende una representación de la frecuencia fundamental de la señal de frecuencia vocal de entrada; recibir la selección del usuario de al menos una de fuentes de voz múltiples cada una especificando una manera de modificar las señales formantes y una manera diferente de modificar la señal de tono; modificar las señales recibidas de acuerdo a lo especificado por la fuente de voz seleccionada; proporcionar una salida de las señales recibidas como se modificaron.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/080,059 US6950799B2 (en) | 2002-02-19 | 2002-02-19 | Speech converter utilizing preprogrammed voice profiles |
PCT/US2003/005232 WO2003071523A1 (en) | 2002-02-19 | 2003-02-19 | Speech converter utilizing preprogrammed voice profiles |
Publications (1)
Publication Number | Publication Date |
---|---|
MXPA04008005A true MXPA04008005A (es) | 2004-11-26 |
Family
ID=27733135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
MXPA04008005A MXPA04008005A (es) | 2002-02-19 | 2003-02-19 | Convertidor de frecuencia vocal que utiliza perfiles de voz preprogramados. |
Country Status (6)
Country | Link |
---|---|
US (1) | US6950799B2 (es) |
CN (1) | CN100524463C (es) |
AU (1) | AU2003213179A1 (es) |
MX (1) | MXPA04008005A (es) |
TW (1) | TWI300215B (es) |
WO (1) | WO2003071523A1 (es) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040030555A1 (en) * | 2002-08-12 | 2004-02-12 | Oregon Health & Science University | System and method for concatenating acoustic contours for speech synthesis |
US7174191B2 (en) * | 2002-09-10 | 2007-02-06 | Motorola, Inc. | Processing of telephone numbers in audio streams |
US20040073428A1 (en) * | 2002-10-10 | 2004-04-15 | Igor Zlokarnik | Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database |
CN100369111C (zh) * | 2002-10-31 | 2008-02-13 | 富士通株式会社 | 话音增强装置 |
US20040098266A1 (en) * | 2002-11-14 | 2004-05-20 | International Business Machines Corporation | Personal speech font |
US7593849B2 (en) * | 2003-01-28 | 2009-09-22 | Avaya, Inc. | Normalization of speech accent |
CN100440314C (zh) * | 2004-07-06 | 2008-12-03 | 中国科学院自动化研究所 | 基于语音分析与合成的高品质实时变声方法 |
US20060085183A1 (en) * | 2004-10-19 | 2006-04-20 | Yogendra Jain | System and method for increasing recognition accuracy and modifying the behavior of a device in response to the detection of different levels of speech |
US20060167691A1 (en) * | 2005-01-25 | 2006-07-27 | Tuli Raja S | Barely audible whisper transforming and transmitting electronic device |
JP4586615B2 (ja) * | 2005-04-11 | 2010-11-24 | 沖電気工業株式会社 | 音声合成装置,音声合成方法およびコンピュータプログラム |
US20080161057A1 (en) * | 2005-04-15 | 2008-07-03 | Nokia Corporation | Voice conversion in ring tones and other features for a communication device |
US20060235685A1 (en) * | 2005-04-15 | 2006-10-19 | Nokia Corporation | Framework for voice conversion |
US8249873B2 (en) * | 2005-08-12 | 2012-08-21 | Avaya Inc. | Tonal correction of speech |
US20070050188A1 (en) * | 2005-08-26 | 2007-03-01 | Avaya Technology Corp. | Tone contour transformation of speech |
US7831420B2 (en) * | 2006-04-04 | 2010-11-09 | Qualcomm Incorporated | Voice modifier for speech processing systems |
JP4757130B2 (ja) * | 2006-07-20 | 2011-08-24 | 富士通株式会社 | ピッチ変換方法及び装置 |
US20100030557A1 (en) | 2006-07-31 | 2010-02-04 | Stephen Molloy | Voice and text communication system, method and apparatus |
KR100809368B1 (ko) * | 2006-08-09 | 2008-03-05 | 한국과학기술원 | 성대파를 이용한 음색 변환 시스템 |
US7957976B2 (en) * | 2006-09-12 | 2011-06-07 | Nuance Communications, Inc. | Establishing a multimodal advertising personality for a sponsor of a multimodal application |
GB2443027B (en) * | 2006-10-19 | 2009-04-01 | Sony Comp Entertainment Europe | Apparatus and method of audio processing |
JP4966048B2 (ja) * | 2007-02-20 | 2012-07-04 | 株式会社東芝 | 声質変換装置及び音声合成装置 |
ES2796493T3 (es) * | 2008-03-20 | 2020-11-27 | Fraunhofer Ges Forschung | Aparato y método para convertir una señal de audio en una representación parametrizada, aparato y método para modificar una representación parametrizada, aparato y método para sintetizar una representación parametrizada de una señal de audio |
KR101513615B1 (ko) * | 2008-06-12 | 2015-04-20 | 엘지전자 주식회사 | 이동 단말기 및 그 음성 인식 방법 |
US20120089392A1 (en) * | 2010-10-07 | 2012-04-12 | Microsoft Corporation | Speech recognition user interface |
US9117455B2 (en) * | 2011-07-29 | 2015-08-25 | Dts Llc | Adaptive voice intelligibility processor |
US9824695B2 (en) * | 2012-06-18 | 2017-11-21 | International Business Machines Corporation | Enhancing comprehension in voice communications |
US9917662B2 (en) * | 2014-01-22 | 2018-03-13 | Siemens Aktiengesellschaft | Digital measurement input for an electric automation device, electric automation device comprising a digital measurement input, and method for processing digital input measurement values |
US9472182B2 (en) | 2014-02-26 | 2016-10-18 | Microsoft Technology Licensing, Llc | Voice font speaker and prosody interpolation |
CN104123932B (zh) * | 2014-07-29 | 2017-11-07 | 科大讯飞股份有限公司 | 一种语音转换系统及方法 |
US9754580B2 (en) * | 2015-10-12 | 2017-09-05 | Technologies For Voice Interface | System and method for extracting and using prosody features |
US10981073B2 (en) * | 2018-10-22 | 2021-04-20 | Disney Enterprises, Inc. | Localized and standalone semi-randomized character conversations |
CN109410973B (zh) * | 2018-11-07 | 2021-11-16 | 北京达佳互联信息技术有限公司 | 变声处理方法、装置和计算机可读存储介质 |
CN111063361B (zh) * | 2019-12-31 | 2023-02-21 | 广州方硅信息技术有限公司 | 语音信号处理方法、系统、装置、计算机设备和存储介质 |
US11783804B2 (en) * | 2020-10-26 | 2023-10-10 | T-Mobile Usa, Inc. | Voice communicator with voice changer |
CN116110409B (zh) * | 2023-04-10 | 2023-06-20 | 南京信息工程大学 | 一种ASIP架构的大容量并行Codec2声码器系统及编解码方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3102335B2 (ja) * | 1996-01-18 | 2000-10-23 | ヤマハ株式会社 | フォルマント変換装置およびカラオケ装置 |
US5933805A (en) * | 1996-12-13 | 1999-08-03 | Intel Corporation | Retaining prosody during speech analysis for later playback |
US5911129A (en) | 1996-12-13 | 1999-06-08 | Intel Corporation | Audio font used for capture and rendering |
US5915237A (en) * | 1996-12-13 | 1999-06-22 | Intel Corporation | Representing speech using MIDI |
US6336092B1 (en) * | 1997-04-28 | 2002-01-01 | Ivl Technologies Ltd | Targeted vocal transformation |
JP3224760B2 (ja) * | 1997-07-10 | 2001-11-05 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声メールシステム、音声合成装置およびこれらの方法 |
FR2786908B1 (fr) | 1998-12-04 | 2001-06-08 | Thomson Csf | Procede et dispositif pour le traitement des sons pour correction auditive des malentendants |
US6260009B1 (en) | 1999-02-12 | 2001-07-10 | Qualcomm Incorporated | CELP-based to CELP-based vocoder packet translation |
US6411933B1 (en) * | 1999-11-22 | 2002-06-25 | International Business Machines Corporation | Methods and apparatus for correlating biometric attributes and biometric attribute production features |
JP2001333378A (ja) | 2000-03-13 | 2001-11-30 | Fuji Photo Film Co Ltd | 画像処理機及びプリンタ |
US6810378B2 (en) * | 2001-08-22 | 2004-10-26 | Lucent Technologies Inc. | Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech |
US6789066B2 (en) * | 2001-09-25 | 2004-09-07 | Intel Corporation | Phoneme-delta based speech compression |
-
2002
- 2002-02-19 US US10/080,059 patent/US6950799B2/en not_active Expired - Lifetime
-
2003
- 2003-02-19 TW TW092103401A patent/TWI300215B/zh not_active IP Right Cessation
- 2003-02-19 CN CNB038085526A patent/CN100524463C/zh not_active Expired - Fee Related
- 2003-02-19 WO PCT/US2003/005232 patent/WO2003071523A1/en not_active Application Discontinuation
- 2003-02-19 MX MXPA04008005A patent/MXPA04008005A/es active IP Right Grant
- 2003-02-19 AU AU2003213179A patent/AU2003213179A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
WO2003071523A1 (en) | 2003-08-28 |
US20030158728A1 (en) | 2003-08-21 |
CN100524463C (zh) | 2009-08-05 |
AU2003213179A1 (en) | 2003-09-09 |
TWI300215B (en) | 2008-08-21 |
CN1647159A (zh) | 2005-07-27 |
US6950799B2 (en) | 2005-09-27 |
TW200307909A (en) | 2003-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
MXPA04008005A (es) | Convertidor de frecuencia vocal que utiliza perfiles de voz preprogramados. | |
US7831420B2 (en) | Voice modifier for speech processing systems | |
CA3069661C (en) | System and method for mixed codebook excitation for speech coding | |
CN101006495A (zh) | 语音编码装置、语音解码装置、通信装置以及语音编码方法 | |
JPH10307599A (ja) | スプラインを使用する波形補間音声コーディング | |
JP3236592B2 (ja) | デジタル音声符号器において使用するための音声符号化方法 | |
Budagavi et al. | Speech coding in mobile radio communications | |
JP2003157100A (ja) | 音声通信方法及び装置、並びに音声通信プログラム | |
KR100718487B1 (ko) | 디지털 음성 코더들에서의 고조파 잡음 가중 | |
JP2004151423A (ja) | 帯域拡張装置及び方法 | |
Atal | Speech coding: recognizing what we do not hear in speech | |
Sarathy et al. | Text to speech synthesis system for mobile applications | |
JPH09258796A (ja) | 音声合成方法 | |
KR0155320B1 (ko) | 정규 여기펄스 검색법을 이용한 celp 보코더의 불규칙 코드북 검색방법 | |
WO2001009880A1 (en) | Multimode vselp speech coder | |
Gouvianakis | Speech coding at medium bit rates using analysis by synthesis techniques | |
Purnhagen et al. | Laboratorium für Informationstechnologie University of Hannover Schneiderberg 32, 30167 Hannover, Germany | |
Mitome et al. | A Speech Synthesis Device using Formant and Residual Information | |
JPH09269800A (ja) | 音声符号化装置 | |
JPS5965896A (ja) | ピツチ同期音声分析合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FG | Grant or registration |