MX2007011102A - Tramas que distorsionan el tiempo dentro del vocoder modificando el residuo. - Google Patents
Tramas que distorsionan el tiempo dentro del vocoder modificando el residuo.Info
- Publication number
- MX2007011102A MX2007011102A MX2007011102A MX2007011102A MX2007011102A MX 2007011102 A MX2007011102 A MX 2007011102A MX 2007011102 A MX2007011102 A MX 2007011102A MX 2007011102 A MX2007011102 A MX 2007011102A MX 2007011102 A MX2007011102 A MX 2007011102A
- Authority
- MX
- Mexico
- Prior art keywords
- separation
- period
- frequency
- residual
- segments
- Prior art date
Links
- 238000000926 separation method Methods 0.000 claims description 157
- 230000001755 vocal effect Effects 0.000 claims description 83
- 238000000034 method Methods 0.000 claims description 72
- 238000004891 communication Methods 0.000 claims description 8
- 230000000737 periodic effect Effects 0.000 claims description 7
- 230000007423 decrease Effects 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 230000003247 decreasing effect Effects 0.000 claims 5
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 230000001934 delay Effects 0.000 description 6
- 230000001052 transient effect Effects 0.000 description 6
- 238000001914 filtration Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000002699 waste material Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000010355 oscillation Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/01—Correction of time axis
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electric Clocks (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
En una modalidad, la presente invencion comprende un vocoder que tiene al menos una entrada y al menos una salida de un codificador que comprende un filtro que tiene al menos una entrada conectada operativamente a la entrada del vocoder y al menos salida del descodificador que comprende un sintetizador que tiene al menos una entrada conectada operativamente a al menos una salida del codificador y al menos una salida conectada operativamente a al menos una salida del vocoder, donde el codificador comprende una memoria y el codificador esta adaptado para ejecutar instrucciones almacenadas en la memoria que comprende clasificar segmentos de frecuencia vocal y codificar segmentos de frecuencia vocal, y el descodificador comprende una memoria y el descodificador esta adaptado para ejecutar instrucciones almacenadas en la memoria que comprende la distorsion del tiempo de una senal de frecuencia vocal residual a una version expandida comprimida de la sena de frecuencia vocal residual.
Description
TRAMAS QUE DISTORSIONAN EL TIEMPO DENTRO DEL VOCODER MODIFICANDO EL RESIDUO
CAMPO DE LA INVENCIÓN La presente invención se relaciona de manera general con un método para tramas de vocoder de desviación (expansión o compresión) de tiempo en el vocoder. La desviación de tiempo tiene un número de aplicaciones en redes conmutadas por paquetes donde los paquetes de vocoder pueden arribar de manera asincrónica. Aunque la desviación de tiempo puede ser efectuada ya sea dentro del vocoder o fuera del vocoder, hacer esto en el vocoder ofrece un número de ventajas con una mejor calidad de las tramas desviadas y una carga computacional reducida. Los métodos presentados en este documento pueden ser aplicados a cualquier vocoder que use técnicas similares como las referidas en esta solicitud de patente para la vocodificación de datos de voz.
ANTECEDENTES DE LA INVENCIÓN La presente invención comprende un aparato y un método para la desviación de tiempo de tramas de frecuencia vocal manipulando la señal de frecuencia vocal. En una modalidad, el método y aparato de la presente es usado en, pero sin limitarse a, el Vocoder de
la Cuarta Generación (4GV) . Las modalidades descritas comprenden métodos y aparatos para expandir/comprimir diferentes tipos de segmentos de frecuencia vocal.
SUMARIO DE LA INVENCIÓN En vista de lo anterior, las características descritas de la presente invención, generalmente se relacionan con uno o más sistemas, métodos y/o aparatos mejorados para comunicar la frecuencia vocal. En una modalidad, la presente invención comprende un método para comunicar frecuencia vocal que comprende los pasos de clasificar segmentos de frecuencia vocal, codificar los segmentos de frecuencia vocal usando la predicción lineal excitada de código, y desviar el tiempo de una señal de frecuencia vocal residual a una versión expandida o comprimida de la señal de frecuencia vocal residual. En otra modalidad, el método de comunicación de frecuencia vocal comprende además enviar la señal de frecuencia vocal a través de un filtro de codificación predictiva lineal, por lo que las correlaciones a corto plazo en la señal de frecuencia vocal son filtradas, y produciendo coeficientes de codificación predictiva lineal y una señal residual. En otra modalidad, la codificación es la
codificación de predicción lineal excitada de código y el paso de desviación de tiempo comprende estimar el retraso de separación, dividir una trama de frecuencia vocal en periodos de separación, donde los límites de los periodos de separación son determinados usando el retraso de separación en varios puntos en la trama de frecuencia vocal, superponer los periodos de separación si la señal residual de frecuencia vocal es comprimida, y agregar los periodos de separación si la señal residual de frecuencia vocal se expande. En otra modalidad, la codificación es la codificación de periodo de separación de un prototipo y el paso de desviar el tiempo comprende estimar al menos un periodo de separación, interpolar, al menos un periodo de separación, agregar al menos un periodo de separación cuando se expanda la señal de frecuencia vocal residual, y sustraer al menos un periodo de separación cuando se comprima la señal de frecuencia vocal residual. En otra modalidad, la codificación es la codificación de predicción lineal excitada por ruido, y el paso de desviación de tiempo comprende aplicar posiblemente diferentes ganancias a diferentes partes del segmento de frecuencia vocal antes de sintetizar éste. En otra modalidad, la presente invención comprende un vocoder que tiene al menos una entrada y al
menos una salida, un codificador que incluye un filtro que tiene al menos una entrada conectada operativamente a una entrada del vocoder y al menos una salida, un descodificador que incluye un sintetizador que tiene al menos una entrada conectada operativamente a al menos una salida del codificador y al menos una salida conectada operativamente a al menos una salida del vocoder. En otra modalidad, el codificador comprende una memoria, donde el codificador está adaptado para ejecutar instrucciones almacenadas a la memoria que comprenden clasificar los segmentos de frecuencia vocal como 1/8 de trama, periodo de separación prototipo, predicción lineal excitada por código o predicción lineal excitada por ruido. En otra modalidad, el descodificador comprende una memoria y el descodificador está adaptado para ejecutar instrucciones almacenadas en la memoria que comprende desviar el tiempo de una señal residual a una versión expandida o comprimida de la señal residual. El alcance adicional de la aplicabilidad de la presente invención se volverá evidente a partir de la siguiente descripción detallada, las reivindicaciones y los dibujos. Sin embargo, deberá comprenderse que la descripción detallada y los ejemplos específicos, aunque indican modalidades preferidas de la invención, serán dados a manera de ilustración únicamente, puesto que los
diferentes cambios y modificaciones dentro del espíritu y alcance de la invención se volverán evidentes a aquellos expertos en la técnica.
BREVE DESCRIPCIÓN DE LAS FIGURAS La presente invención será comprendida de manera más completa a partir de la descripción detallada aquí a continuación, las reivindicaciones anexas y las figuras acompañantes en las cuales: La FIGURA 1 es un diagrama de bloques de un vocoder de Codificación Predictiva Lineal (LPC) ; La FIGURA 2A es una señal de frecuencia vocal que contiene frecuencia vocal hablada; La FIGURA 2B es una señal de frecuencia vocal que contiene frecuencia vocal no hablada; La FIGURA 2C es una señal de frecuencia vocal que contiene frecuencia vocal transitoria; La FIGURA 3 es un diagrama de bloques que ilustra la Filtración LPC de la Frecuencia Vocal seguida por la Codificación de un Residuo; La FIGURA 4A es una gráfica de la Frecuencia
Vocal Original; La FIGURA 4B es una gráfica de una Señal de Frecuencia Vocal Residual después de la Filtración LPC; La FIGURA 5 ilustra la generación de Formas de
Onda usando la Interpolación entre los Periodos de Separación Prototipo Previos y Actuales; La FIGURA 6A describe la determinación de los Retrasos de Separación a través de la Interpolación; La FIGURA 6B describe la identificación de los periodos de separación; La FIGURA 7A representa una señal de frecuencia vocal original en forma de periodos de separación; La FIGURA 7B representa una señal de frecuencia vocal expandida usando superposición adicional; La FIGURA 7C representa una señal de frecuencia vocal comprimida usando superposición adicional; La FIGURA 7D representa como es usada la ponderación para comprimir la señal residual; La FIGURA 7E representa una señal de frecuencia vocal comprimida sin usar superposición adicional; La FIGURA 7F representa como sucede la ponderación para expandir la señal residual; y La FIGURA 8 contiene dos ecuaciones usadas en el método de superposición adicional.
DESCRIPCIÓN DETALLADA La palabra "ilustrativa" se usa aquí con el significado "servir como un ejemplo, caso o ilustración". Cualquier modalidad descrita aquí como "ilustrativa" no
necesariamente debe constituirse en una modalidad preferida o ventajosa sobre otras.
Características de Uso de la Desviación de Tiempo en un Vocoder Las voces humanas consisten de dos componentes. Un componente comprende ondas fundamentales que son sensibles a la separación y otras son armónicas fijas las cuales no son sensibles a la separación. La separación percibida de un sonido es la respuesta del oído a la frecuencia, es decir, para la mayoría de los propósitos prácticos la separación es la frecuencia. Los componentes armónicos agregan características distintivas a la voz de una persona. Ellos cambian junto con las cuerdas vocales y con la forma física del tracto vocal y se conocen como formantes. La voz humana puede ser representada por una señal digital s(n) 10. Asúmase que s (n) 10 es una señal de frecuencia vocal digital obtenida durante una conversación típica, incluyendo diferentes sonidos vocales y periodos de silencio. La señal de frecuencia vocal s (n) 10 es preferiblemente dividida en porciones de tramas 20. En una modalidad, s(n) 10 es muestreada digitalmente a 8 kHz. Los esquemas de codificación actuales comprenden
una señal de frecuencia vocal digitalizada 10 en una señal de baja velocidad de bits removiendo todas las redundancias naturales (es decir, elementos correlacionados) inherentes a la frecuencia vocal. La frecuencia vocal típicamente exhibe redundancias a corto plazo resultante de la acción mecánica de los labios y la lengua, y redundancias a largo plazo resultantes de la vibración de las cuerdas vocales. La Codificación Predictiva - Lineal (LPC) filtra la señal de frecuencia vocal 10 removiendo las redundancias produciendo una señal de frecuencia vocal residual 30. Entonces modela la señal residual resultante 30 como un ruido Gaussiano blanco. Un valor muestreado de una forma de onda de frecuencia vocal puede ser predicho ponderando una suma de un número de muestras pasadas 40, cada una de las cuales es multiplicada por un coeficiente predictivo lineal 50. Los codificadores predictivos lineales, por lo tanto, logran una velocidad de bits reducida transmitiendo coeficientes de filtración 50 y ruido cuantizado en lugar de la señal de frecuencia vocal de ancho de banda completo 10. La señal residual 30 es codificada extrayendo un periodo prototipo 100 de un trama actual 20 de la señal residual 30. Un diagrama de bloques de una modalidad de un vocoder LPC 70 usado por el método y aparato de la
presente puede observarse en la FIGURA 1. La función del
LPC es minimizar la suma de las diferencias de los cuadrados entre la señal de frecuencia vocal original y la señal de frecuencia vocal estimada durante un periodo de tiempo finito. Esto puede producir un conjunto único de coeficientes de predicción 50 los cuales normalmente son estimados cada 20 tramas. Una trama 20 es típicamente de 20 ms de longitud. La función de transferencia del filtro digital que varía con el tiempo 75 está dada por:
donde los coeficientes de predicción 50 son representados por ak y la ganancia por G. La suma es calculada de k=l a k=p. Si es usado el método LPC-10, entonces p=10. Esto significa que únicamente los primeros 10 coeficientes 50 son transmitidos al sintetizador de LPC 80. Los dos métodos más comúnmente usados para calcular los coeficientes son, pero no se limitan a, el método de covarianza y el método de autocorrelación. Es común para diferentes locutores hablar a diferentes velocidades. La compresión del tiempo es un método para reducir el efecto de la variación de la velocidad de locutores individuales. Las diferencias de sincronización entre dos patrones de frecuencia vocal
pueden ser reducidas desviando el eje del tiempo de uno de modo que se alcance la coincidencia máxima con el otro. Esta técnica de compresión de tiempo es conocida como desviación de tiempo. Además, la desviación de tiempo comprime o expande señales de voz sin cambiar su separación. Los vocoders típicos producen tramas 20 de 20 mseg de duración, incluyendo 160 muestras 90 a una velocidad preferida de 8 kHz. Una versión comprimida desviada en el tiempo de esta trama 20 tiene una duración menor de 20 mseg, mientras que la versión expandida desviada en el tiempo tiene una duración mayor de 20 mseg. La desviación del tiempo de los datos de voz tiene ventajas significativas cuando se envían datos de voz sobre redes conmutadas por paquetes, lo cual introduce oscilación de retraso en la transmisión de paquetes de voz. En esas redes, la desviación de tiempo puede ser usada para mitigar los efectos de esa oscilación de retraso y producir un flujo de voz que se vea "sincrónico". Las modalidades de la invención se relacionan con un aparato y un método para la desviación del tiempo de tramas 20 dentro del vocoder 70 manipulando la frecuencia vocal residual 30. En una modalidad, el método y aparato de la presente es usado en 4GV. Las modalidades descritas comprenden métodos y aparatos o sistemas para
expandir/comprimir diferentes tipos de segmentos de frecuencia vocal 4GV 110 codificados usando un Periodo de Separación Prototipo (PPP) , Predicción Lineal Excitada por Código (CELP) o codificación de Predicción Lineal Excitada por Ruido (NELP) . El término "vocoder" 70 típicamente se refiere a dispositivos que comprenden frecuencia vocal hablada extrayendo parámetros sobre la base de un modelo de generación de frecuencia vocal humana. Los vocoders 70 incluyen un codificador 204 y un descodificador 206. El codificador 204 analiza la frecuencia vocal entrante y extrae los parámetros relevantes. En una modalidad, el codificador comprende un filtro 75. El descodificador 206 sintetiza la frecuencia vocal usando los parámetros que recibe del codificador 204 vía un canal de transmisión 208. En una modalidad, el descodificador comprende un sintetizador 80. La señal de frecuencia vocal 10 es con frecuencia dividida en tramas 20 de datos y bloques procesados por el vocoder 70. Aquellos expertos en la técnica reconocerán que la frecuencia vocal humana puede ser clasificada en muchas formas diferentes. Tres clasificaciones convencionales de la frecuencia vocal son los sonidos hablados, no hablados y frecuencia vocal transitoria. La FIGURA 2A es una señal de frecuencia vocal hablada s(n)
402. La FIGURA 2A muestra una propiedad medible, común de la frecuencia vocal hablada conocida como el periodo de separación 100. La FIGURA 2B es una señal de frecuencia vocal no hablada s(n) 404. Una señal de frecuencia vocal no hablada 404 se asemeja al ruido coloreado. La FIGURA 2C describe una señal de frecuencia vocal transitoria s (n) 406 (es decir, la frecuencia vocal la cual ni es hablada y no hablada) . El ejemplo de frecuencia vocal transitoria 406 mostrado en la FIGURA 2C puede representar s(n) transitando entre frecuencia vocal no hablada y frecuencia vocal hablada. Esas tres clasificaciones son todas no incluyentes. Existen muchas clasificaciones diferentes de frecuencia vocal que pueden ser empleadas de acuerdo a los métodos descritos aquí para lograr resultados comparables.
El Vocoder 4GV Usa 4 Diferentes Tipos de Trama El vocoder de la cuarta generación (4GV) 70 usado en una modalidad de la invención proporciona características atractivas para usarse sobre redes inalámbricas. Algunas de esas características incluyen la capacidad de negociar la calidad contra la velocidad de bits, la vocodificación más flexible de cara al porcentaje de error de paquete (PER) incrementado, mejor
ocultamiento de eliminaciones, etc. El vocoder 4GV 70 puede usar cualquiera de cuatro codificadores 204 y descodificadores 206 diferentes. Los diferentes codificadores 204 y descodificadores 206 operan de acuerdo a diferentes esquemas de codificación. Algunos codificadores 204 son más efectivos en porciones de codificación de la señal de frecuencia vocal s(n) 10 que exhibe ciertas propiedades. Por lo tanto, en una modalidad el modo de los codificadores 204 y los descodificadores 206 puede ser seleccionado sobre la base de la clasificación de la trama actual 20. El codificador 4GV 204 codifica cada trama 20 de datos de voz en uno de cuatro tipos de tramas diferentes 20: Interpolación de Forma de Onda de Periodo de Separación Prototipo (PPP I), Predicción Lineal Excitada por Código (CELP) , Predicción Lineal Excitada por Ruido
(NELP) , o trama de 1/8 de velocidad de silencio. La CELP es usada para codificar frecuencia de voz con una pobre periodicidad o frecuencia de voz que implica cambio de un segmento periódico 110 a otro. Así, el modo CELP es elegido típicamente para codificar tramas clasificadas como frecuencia vocal transitoria. Puesto que esos segmentos 110 no pueden ser reconstruidos exactamente de solo un periodo de separación prototipo, la CELP codifica las características de un segmento de frecuencia vocal
completo 110. El modo CELP excita un modelo de tracto vocal predictivo lineal con una versión cuantizada de la señal residual de predicción lineal 30. De todos los codificadores 204 y los descodificadores 206 descritos aquí. La CELP generalmente produce una reproducción de frecuencia vocal más exacta, pero requiere una velocidad de bits más alta. Un modo de Periodo de Separación Prototipo (PPP) puede ser elegido para codificar tramas 20 clasificadas como frecuencia vocal hablada. La frecuencia vocal hablada contiene componentes periódicos que varían lentamente con el tiempo los cuales son explotados por el modo PPP. El modo PPP codifica un subconjunto de los periodos de separación 100 dentro de cada trama 20. Los periodos restantes 100 de la señal de frecuencia vocal 10 son reconstruidos interpolando entre esos periodos prototipo 100. Explotando la periodicidad de la frecuencia vocal hablada, el PPP es capaz de lograr una velocidad de bits más baja que la CELP y reproducir aún la señal de frecuencia vocal 10 en una manera perceptualmente exacta. La PPPWI es usada para codificar datos de frecuencia vocal que son de naturaleza periódica. Esa frecuencia vocal se caracteriza por diferentes periodos de separación 100 que son similares a un periodo de
separación "prototipo" (PPP) . Este PPP es la única información de voz que el codificador 204 necesita codificar. El descodificador puede usar este PPP para reconstruir otros periodos de separación 100 en el segmento de frecuencia vocal 110. Un codificador "Predictivo Lineal Excitado por Ruido" (NELP) 204 es elegido para codificar tramas 20 codificados como frecuencia vocal no hablada. La codificación NELP opera efectivamente, en términos de reproducción de la señal, donde la señal de frecuencia vocal 10 tiene poca o ninguna estructura de separación. De manera más específica, la NELP es usada para codificar frecuencia vocal que es de carácter similar al ruido, como la frecuencia vocal no hablada o ruido de fondo. La NELP usa una señal de ruido pseudoaleatoria filtrada para modelar la frecuencia vocal no hablada. El carácter similar al ruido de esos segmentos de frecuencia vocal 110 puede ser reconstruido generando señales aleatorias en el descodificador 206 y aplicando ganancias apropiadas a ellas. La NELP usa el modelo más simple para la frecuencia vocal codificada, y por lo tanto logra una velocidad de bits más baja. Las tramas de l/8vo de velocidad son usadas para codificar silencio, por ejemplo, periodos donde el usuario no está hablando.
Todos los cuatro esquemas de vocodificación descritos anteriormente comparten el procedimiento de filtración LPC inicial como se muestra en la FIGURA 3. Después de caracterizar la frecuencia vocal en una de las 4 categorías, la señal de frecuencia vocal 10 es enviada a través de un filtro de codificación predictiva lineal (LPC) 80 el cual filtra correlaciones a corto plazo en la frecuencia vocal usando la predicción lineal. Las salidas de este bloque son los coeficientes de LPC 50 y la señal "residual" 30, la cual es básicamente la señal de frecuencia vocal original 10 con las correlaciones a corto plazo removidas de ésta. La señal residual 30 es entonces codificada usando los métodos específicos usados por el método de vocodificación seleccionado por la trama 20. Las FIGURAS 4A-4B muestran un ejemplo de la señal de frecuencia vocal original 10, y la señal residual 30 después del bloque de LPC 80. Puede observase que la señal residual 30 muestra periodos de separación 100 más distintivos que la frecuencia vocal original 10. Es por esta razón que la señal residual 30 puede ser usada para determinar el periodo de separación 100 de la señal de frecuencia vocal de manera más exacta que la señal de frecuencia vocal original 10 (la cual también contiene correlaciones a corto plazo) .
Desviación de Tiempo Residual Como se estableció anteriormente, la desviación de tiempo puede ser usada para la expansión o compresión de la señal de frecuencia vocal 10. Aunque puede ser usado un número de métodos para lograr esto, la mayoría de esos se basan en agregar o suprimir periodos de separación 100 de la señal 10. La adición o sustracción de periodos de separación 100 puede ser efectuada en el descodificador 206 después de recibir la señal residual 30, pero antes de que sea sintetizada la señal 30. Para los datos de frecuencia vocal que sean codificados usando CELP o PPP (no NELP) , la señal incluye un número de periodos de separación 100. De este modo, la unidad más pequeña que puede ser agregada o suprimida de la señal de frecuencia vocal 10 es un periodo de separación 100 puesto que cualquier unidad más pequeña que esta conducirá a una discontinuidad de fase dando como resultado la introducción de un artefacto de frecuencia vocal notable. De este modo, un paso en los métodos de desviación de tiempo aplicado a la frecuencia vocal CELP o PPP es la estimación del periodo de separación 100. Este periodo de separación 100 es ya conocido por el descodificador 206 para tramas de frecuencia vocal CELP/ PPP 20. En el caso de ambos del PPP y CELP, la información de separación es calculada por el codificador
204 usando métodos de autocorrelación y es transmitida al descodificador 206. De este modo, el descodificador 206 tiene conocimiento exacto del periodo de separación 100. Esto hace más simple aplicar el método de desviación de tiempo de la presente invención en el descodificador 206. Además, como se estableció anteriormente, es más simple la desviación del tiempo de la señal 10 antes de sintetizar la señal 10. Si esos métodos de desviación de tiempo fueran a ser aplicados después de la descodificación de la señal 10, sería necesario estimar el periodo de separación 100 de la señal 10. Esto requiere no solo cálculos adicionales, sino que también la estimación del periodo de separación 100 puede no ser muy exacta puesto que la señal residual 30 también contiene información de LPC 170. Por otro lado, si la estimación de periodo de separación adicional 100 no es demasiado compleja, entonces la realización de la variación de tiempo después de la descodificación no requiere cambios al descodificador 206, y de este modo puede ser implementada solo una vez por todos los vocoders 80. Otra razón para efectuar la desviación de tiempo en el descodificador 206 antes de sintetizar la señal usando la síntesis de codificación LPC es que la compresión/expansión puede ser aplicada a la señal
residual 30. Esto permite que la síntesis de codificación predictiva lineal (LPC) sea aplicada a la señal residual desviada en el tiempo 30. Los coeficientes de LPC 50 juegan un papel en como suena la frecuencia vocal y la aplicación de la síntesis después de la desviación asegura que la información de LPC correcta 170 se mantenga en la señal 10. Si, por otro lado, la desviación de tiempo se efectúa después de la descodificación de la señal residual 30, la síntesis de LPC ya ha sido efectuada antes de la desviación de tiempo. De este modo, el procedimiento de desviación puede cambiar la información de LPC 170 de la señal 10, especialmente si la predicción del periodo de separación 100 posterior a la descodificación no ha sido muy exacta. En una modalidad, los pasos efectuados por los métodos de desviación de tiempo descritos en la presente solicitud se almacenan como instrucciones localizadas en programas y sistemas de programación o software o instrucciones fijas o firmware 81 localizadas en la memoria 82. En la FIGURA 1, la memoria se muestra localizada dentro del descodificador 206. La memoria 82 también puede localizarse fuera del descodificador 206. El codificador 204 (como el 4GV) puede categorizar las tramas de frecuencia vocal 20 como PPP
(periódicos) , CELP (ligeramente periódicos) , o NELP (ruidosos) dependiendo de si las tramas 20 representan frecuencia vocal hablada, no hablada o transitoria. Usando información acerca del tipo de trama de frecuencia vocal 20, el descodificador 206 puede desviar en el tiempo diferentes tipos de tramas 20 usando diferentes métodos. Por ejemplo, una trama de frecuencia vocal NELP 20 no tiene noción de los periodos de separación y su señal residual 30 es generada en el descodificador 206 usando la información "aleatoria". De este modo, la estimación del periodo de separación 100 de CELP/PPP no se aplica a NELP y, en general, las tramas de NELP 20 pueden ser desviadas (expandidas/comprimidas) en menos de un periodo de separación 100. Esa información no está disponible si la desviación de tiempo es efectuada después de descodificar la señal residual 30 en el descodificador 206. En general, la desviación de tiempo de tramas 20 como NELP después de la descodificación conduce a artefactos de frecuencia vocal. La desviación de tramas de NELP 20 en el descodificador 206, por otro lado, produce una mucha mejor calidad. De este modo, existen dos ventajas para efectuar la desviación de tiempo en el descodificador 206 (es decir, antes de de la síntesis de la señal residual 30) en oposición al postcodificador (es decir, después de
que sea sintetizada la señal residual 30) : (i) reducción de la carga computacional (por ejemplo, se evita la búsqueda de un periodo de separación 100), y (ii) se mejora la calidad de desviación debido a (a) el conocimiento del tipo de trama 20, b) realización de la síntesis de LPC sobre la señal desviada y c) estimación/ conocimiento más exacto del periodo de separación.
Métodos de Desviación de Tiempo Residual Lo siguiente describe modalidades en las cuales el método y aparato de la presente desvían en el tiempo la frecuencia vocal residual 30 dentro de descodificadores PPP, CELP y NELP. Los siguientes dos pasos se efectúan en cada descodificador 206: (i) desviación en el tiempo de la señal residual 30 a una versión expandida o comprimida; y (ii) envío del residuo desviado en el tiempo 30 a través del filtro LPC 80. Además, el paso (i) se efectúa de manera diferente a los segmentos de frecuencia vocal PPP, CELP y NELP 110. Las modalidades serán descritas más adelante.
Desviación en el Tiempo de la Señal Residual cuando el segmento de frecuencia vocal 110 es PPP: Como se estableció anteriormente, cuando el segmento de frecuencia vocal 110 es PPP, la unidad más
pequeña que puede ser agregada o eliminada de la señal es un periodo de separación 100. Antes de que la señal 10 pueda ser descodificada (y reconstruido el residuo 30) del periodo de separación prototipo 100, el descodificador 206 interpola la señal 10 del periodo de separación prototipo previo 100 (el cual está almacenado) al periodo de separación prototipo 100 en la trama actual 20, agregando los periodos de separación ausentes 100 en el proceso. Este proceso es descrito en la FIGURA 5. Esa interpolación conduce en si misma de manera más fácil a la desviación en el tiempo produciendo menos o más periodos de separación interpolados 100. Esto conducirá a señales residuales comprimidas o expandidas 30, las cuales son entonces enviadas a través de la síntesis LPC.
Desviación en el tiempo de la Señal Residual cuando el segmento de frecuencia vocal 110 es CELP: Como se estableció al principio, cuando el segmento de frecuencia vocal 110 es PPP, la unidad más pequeña que pueda ser agregada o suprimida de la señal es un periodo de separación 100. Por otro lado, en el caso de CELP, la desviación no es tan fácil como para PPP. Para desviar el residuo 30, el descodificador 206 utiliza la información de retraso de separación 180 contenida en
la trama codificada 20. Este retraso de separación 180 es en realidad el retraso de separación 180 al final de la trama 20. Deberá notarse aquí que aún en una trama periódica 20, el retraso de separación 180 puede cambiar ligeramente. Los retrasos de separación 180, en cualquier punto en la trama pueden ser estimados interpolando entre el retraso de separación 180 al final de la última trama 20 y al final de la trama actual 20. Esto se muestra en la FIGURA 6. Una vez que los retrasos de separación 180, en todos los puntos en la trama 20 son conocidos, la trama 20 puede ser dividida en periodos de separación 100. Los límites de los periodos de separación 100 son determinados usando los retrasos de separación 180 en varios puntos en la trama 20. La FIGURA 6A muestra un ejemplo de cómo dividir la trama 20 en sus periodos de separación 100. Por ejemplo, el número de muestras 70 tiene un retraso de separación 180 igual a aproximadamente 70 y un número de muestras 142 tiene un retraso de separación 180 de aproximadamente 72. De este modo, los periodos de separación 100 son de los números de muestra [1-70] y de los números de muestras [71-142] . Véase la FIGURA 6B. Una vez que la trama 20 ha sido dividida en periodos de separación 100, esos periodos de separación 100 pueden entonces ser agregados por superposición para
incrementar y/o hacer disminuir el tamaño del residuo 30. Véanse las FIGURAS 7B hasta 7F. En la superposición y síntesis adicional, la señal modificada se obtiene escindiendo segmentos 110 de la señal de entrada 10, reubicándolos a lo largo del eje del tiempo y efectuando una adición superpuesta ponderada para construir la señal sintetizada 150. En una modalidad, el segmento 110 puede ser igual a un periodo de separación 100. El método de adición superpuesta reemplaza dos segmentos de frecuencia vocal diferente 110 con un segmento de frecuencia vocal 110 "fusionando" los segmentos 110 de frecuencia vocal. La fusión de la frecuencia vocal se efectúa de tal manera que se preserve tanta calidad de la frecuencia vocal como sea posible. La preservación de la calidad de la frecuencia vocal y la minimización de la introducción de artefactos en la frecuencia vocal se logran seleccionando cuidadosamente los segmentos 110 a fusionar. (Los artefactos son elementos indeseables como chasquidos, crujidos, etc.). La selección de los segmentos de frecuencia vocal 110 se basa en la "similitud" del segmento. A más cercana la "similitud" de los segmentos de frecuencia vocal 110, mejor la calidad de la frecuencia vocal resultante y menor la probabilidad de introducir un artefacto de frecuencia vocal cuando dos segmentos 110 de frecuencia vocal se superpongan para
reducir/incrementar el tamaño de la frecuencia vocal residual 30. Una regla útil para determinar si los periodos de separación deberán adicionarse por superposición es si los retrasos de separación de los dos son similares (como un ejemplo, si los retrasos de separación difieren en menos de 15 muestras, lo cual corresponde a aproximadamente 1.8 mseg). La FIGURA 7C muestra como es usada la adición superpuesta para comprimir el residuo 30. El primer paso del método de superposición/adición es segmentar la secuencia de la muestra de entrada s[n] 10 en sus periodos de separación como se explicó anteriormente. En la FIGURA 7A, se muestra la señal de frecuencia vocal original 10 que incluye cuatro periodos de separación 100 (PP) . El siguiente paso incluye remover los periodos de separación 100 de la señal 10 mostrada en la FIGURA 7A y reemplazar esos periodos de separación 100 con un periodo de separación fusionado 100. Por ejemplo en la FIGURA 7C, los periodos de separación PP2 y PP3 son removidos y entonces reemplazados con un periodo de separación 100 en el cual PP2 y PP3 se adicionan por superposición. De manera más específica, en la FIGURA 7C, los periodos de separación 100 PP2 y PP3 son adicionados por superposición de modo que la contribución del segundo periodo de separación 100 (PP2) disminuya y que PP3 se
incremente. El método de superposición por suma produce un segmento de frecuencia vocal 110 a partir de dos segmentos de frecuencia vocal diferente 110. En una modalidad, la superposición por adición se efectúa usando muestras ponderadas. Esto se ilustra en las ecuaciones a) y b) como se muestra en la FIGURA 8. La ponderación es usada para proporcionar una transición uniforme entre la primera muestra de PCM (Modulación Codificada por Impulso) del Segmento 1 (110) y la última muestra PCM del Segmento 2 (110) . La FIGURA 7D es otra ilustración gráfica de PP2 y PP3 adicionados por superposición. Este desvanecimiento cruzado mejora la calidad percibida de una señal 10 comprimida en el tiempo por este método cuando se compara con la simple remoción de un segmento 110 y el empalme de segmentos adyacentes restantes 110 (como se muestra en la FIGURA 7E) . En casos cuando el periodo de separación 100 está cambiando, el método de adición por superposición puede fusionar dos periodos de separación 110 de longitud desigual. En este caso, puede lograrse una mejor fusión alineando los picos de los dos periodos de separación 100 antes de ser adicionados por superposición. El residuo expandido/comprimido es entonces enviado a través de la síntesis LPC.
Expansión de la Frecuencia Vocal Un método simple para expandir la frecuencia vocal es efectuar múltiples repeticiones de las mismas muestras de PCM. Sin embargo, repetir las mismas muestras de PCM más de una vez puede crear áreas con separaciones planas lo cual es un artefacto fácilmente detectado por los humanos (por ejemplo, la frecuencia vocal humana puede sonar un poco "robótica") . Para preservar la calidad de la frecuencia vocal, puede ser usado un método de superposición por adición. La FIGURA 7B muestra como esta señal de frecuencia vocal 10 puede ser expandida usando el método de adición por superposición de la presente invención. En la FIGURA 7B, un periodo de separación adicional 100 creado a partir de los periodos de separación 100 PPl y PP2 es agregado. En el periodo de separación adicional 100, los periodos de separación 100 PP2 y PPl son adicionados por superposición de modo que la contribución 100 del segundo periodo de separación (PP2) disminuya y que la de PPl se incremente. La FIGURA 7F es otra ilustración gráfica de PP2 y PP3 siendo adicionados por superposición.
Desviación del Tiempo de la Señal Residual cuando el segmento de frecuencia vocal es NELP: Para segmentos de frecuencia vocal NELP, el
codificador codifica la información de LPC así como las ganancias de las diferentes partes del segmento de frecuencia vQocal 110. No es necesario codificar ninguna otra información puesto que la frecuencia vocal es de naturaleza muy similar al ruido. En una modalidad, las ganancias son codificadas en conjuntos de 16 muestras de PCM. De este modo, por ejemplo, una trama de 160 muestras puede ser representada por 10 valores de ganancia codificados, uno por cada 16 muestras de frecuencia vocal. El descodificador 206 genera la señal residual 30 generando valores aleatorios y aplicando entonces las ganancias respectivas sobre ellas. En este caso, puede no existir un concepto de periodo de separación 100, y por lo tanto, la expansión/compresión no tiene que ser de granularidad de un periodo de separación 100. Para expandir o comprimir un segmento de NELP, el decodificador 206 genera un número más grande o más pequeño de segmentos (110) de 160, dependiendo de si el segmento 110 está siendo expandido o comprimido. Las 10 ganancias descodificadas son entonces aplicadas a las muestras para generar un residuo expandido o comprimido 30. Puesto que esas 10 ganancias descodificadas corresponden a las 160 muestras originales, esas no son aplicadas directamente a las muestras expandidas/ comprimidas. Pueden ser usados varios métodos para
aplicar esas ganancias. Algunos de esos métodos son descritos más adelante. Si el número de muestras a ser generadas es menor de 160, entonces no necesitan ser aplicadas las 10 ganancias en su totalidad. Por ejemplo, si el número de muestras es de 144, pueden ser aplicadas las primeras 9 ganancias. En este caso, la primera ganancia es aplicada a las primeras 16 muestras, las muestras 1-16, la segunda ganancia es aplicada a las siguientes 16 muestras, las muestras 17-32, etc. De manera similar, si las muestras son más de 160, entonces la lOma ganancia puede ser aplicada más de una vez. Por ejemplo, si el número de muestras es de 192, la lOma ganancia puede ser aplicada a las muestras 145-160, 161-176, y 177-192. De manera alternativa, las muestras pueden ser divididas en 10 conjuntos de números iguales, teniendo cada conjunto un número igual de muestras, y las 10 ganancias pueden ser aplicadas a los 10 conjuntos. Por ejemplo, si el número de muestras es de 140, las 10 ganancias pueden ser aplicadas a conjuntos de 14 muestras cada uno. En este caso, la primer ganancia es aplicada a las primeras 14 muestras, las muestras 1-14, la segunda ganancia es aplicada a las siguientes 14 muestras, las muestras 15-28, etc. Si el número de muestras no es perfectamente
divisible por 10, entonces la lOma ganancia puede ser aplicada a las muestras restantes obtenidas después de dividir por 10. Por ejemplo, si el número de muestras es 145, las 10 ganancias pueden ser aplicadas a conjuntos de 14 muestras cada uno. Adicionalmente, la lOma ganancia es aplicada a las muestras 141-145. Después de la desviación en el tiempo, el residuo expandido/comprimido 30 es enviado a través de la síntesis de LPC cuando se use cualquiera de los métodos de codificación expuestos anteriormente. Aquellos expertos en la técnica comprenderán que la información y las señales pueden ser representadas usando cualquiera de una variedad de diferentes tecnologías y técnicas. Por ejemplo, los datos, instrucciones, órdenes, información, señales, bits, símbolos y segmentos que puedan ser referidos a través de la descripción anterior, pueden ser representados por voltajes, corrientes, ondas electromagnéticas, campos o partículas magnéticas, campos o partículas ópticas, o cualquier combinación de las mismas. Aquellos expertos en la técnica apreciarán que los diferentes bloques, módulos, circuitos y pasos de algoritmo lógicos ilustrados descritos en relación con las modalidades descritas aquí pueden ser implementados como componentes electrónicos, programas y sistemas de
programación o software de computadora, o combinaciones de ambos. Para ilustrar claramente esta intercambiabilidad de los componentes físicos de computación o hardware y programas y sistemas de programación o software, los diferentes componentes, bloques, módulos, circuitos y pasos ilustrativos han sido descritos anteriormente de manera general en términos de su funcionalidad. Si esa funcionalidad es implementada como componentes físicos de computación o hardware o programas y sistemas de programación o software depende de la aplicación particular y las restricciones de diseño impuestas sobre el sistema en su totalidad. Los expertos pueden implementar la funcionalidad descrita de varias maneras para cada aplicación particular, pero esas decisiones de implementación no deberán ser interpretadas como si se apartaran del alcance de la presente invención. Los diferentes bloques lógicos, módulos y circuitos ilustrativos descritos en relación con las modalidades descritas aquí pueden ser implementados o efectuados con un procesador para propósitos generales, un Procesador de Señales Digitales (DSP) , un Circuito Integrado Específico de la Aplicación (ASIC) , un Arreglo de Compuertas Programable en el Campo (FPGA) u otro dispositivo lógico, compuerta o entrada discreta o lógica de transistores, componentes físicos de computación o
hardware discretos programables, o cualquier combinación de los mismos diseñada para efectuar las funciones descritas aquí. Un procesador para propósitos generales puede ser un microprocesador pero de manera alternativa, el procesador puede ser cualquier procesador, controlador, microcontrolador o máquina de estado convencional. Un procesador también puede ser implementado como una combinación de dispositivos de cómputo, por ejemplo, una combinación de un DSP y un microprocesador, una pluralidad de microprocesadores, uno o más microprocesadores en conjunto con núcleos de DSP, o cualquier otra configuración. Los pasos de un método o algoritmo descritos aquí en relación con las modalidades descritas aquí pueden ser incorporados directamente en componentes físicos de computación o hardware, en un módulo de programas y sistemas de programación o software ejecutado por un procesador, o en una combinación de los dos. Un módulo de programas y sistemas de programación o software puede residir en una Memoria de Acceso Aleatorio (RAM) , memoria instantánea, Memoria de Solo Lectura (ROM) , ROM Programable Eléctricamente (EPROM) , ROM Programable y Borrable Eléctricamente (EEPROM) , registros, disco duro, disco removible, un CD-ROM, o cualquier otra forma de medio de almacenamiento conocida en la técnica. Un medio de almacenamiento ilustrativo se acopla al procesador, de
modo que el procesador pueda leer información de, y escribir información a, el medio de almacenamiento. De manera alternativa, el medio de almacenamiento puede estar integrado al procesador. El procesador y el medio de almacenamiento pueden residir en un ASIC. El ASIC puede residir en una terminal de usuario. De manera alternativa, el procesador y el medio de almacenamiento pueden residir como componentes discretos en una terminal de usuario. La descripción anterior de las modalidades descritas se proporcionó para permitir a cualquier experto en la técnica hacer o usar la presente invención. Varias modificaciones a esas modalidades serán fácilmente evidentes a aquellos expertos en la técnica, y los principios genéricos definidos aquí pueden ser aplicados a otras modalidades sin apartarse del espíritu o alcance de la invención. De este modo, la presente invención no pretende ser limitada a las modalidades mostradas aquí, sino de acuerdo al más amplio alcance consistente con los principios y características novedosas descritas aquí.
Claims (46)
- NOVEDAD DE LA INVENCIÓN Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes:
- REIVINDICACIONES 1. Un método para comunicar frecuencia vocal, caracterizado porque comprende: desviar en el tiempo una señal de frecuencia vocal residual a una versión expandida o comprimida de la señal de frecuencia vocal residual; y sintetizar la señal de frecuencia vocal residual desviada en el tiempo. 2. El método de comunicación de frecuencia vocal de conformidad con la reivindicación 1, caracterizado porque comprende además los pasos de: clasificar segmentos de frecuencia vocal; y codificar segmentos de frecuencia vocal.
- 3. El método de comunicación de frecuencia vocal de conformidad con la reivindicación 2, caracterizado porque el paso de codificar segmentos de frecuencia vocal comprende usar el periodo de separación prototipo, predicción lineal excitada por código, predicción lineal excitada por ruido o codificación de 1/8 de trama.
- 4. El método de comunicación de frecuencia vocal de conformidad con la reivindicación 2, caracterizado porque comprende los pasos de: enviar la señal de frecuencia vocal a través de un filtro de codificación predictiva lineal, por lo que la correlación a corto plazo en la señal de frecuencia vocal es filtrada; y producir coeficientes de codificación predictiva lineal y una señal residual.
- 5. El método de comunicación de frecuencia vocal de conformidad con la reivindicación 2, caracterizado porque el paso de clasificar los segmentos de frecuencia vocal comprende categorizar tramas de frecuencia vocal como periódicas, ligeramente periódicas o ruidosas, dependiendo si las tramas representan frecuencia vocal hablada, no hablada o transitoria.
- 6. El método de comunicación de frecuencia vocal de conformidad con la reivindicación 2, caracterizado porque la codificación es codificación de predicción lineal excitada por código.
- 7. El método de comunicación de frecuencia vocal de conformidad con la reivindicación 2, caracterizado porque la codificación es la codificación de periodo de separación prototipo.
- 8. El método de comunicación de frecuencia vocal de conformidad con la reivindicación 2, caracterizado porque la codificación es la codificación de predicción lineal excitada por ruido.
- 9. El método de conformidad con la reivindicación 6, caracterizado porque el paso de desviación en el tiempo comprende: estimar un periodo de separación; y sumar o sustraer al menos uno del periodo de separación después de recibir la señal residual.
- 10. El > método de conformidad con la reivindicación 6, caracterizado porque el paso de desviación en el tiempo comprende: estimar el retraso de separación; dividir una trama de frecuencia vocal en periodos de separación, donde los límites de los periodos de separación son determinados usando el retraso de separación en varios puntos en la trama de frecuencia vocal; superponer los periodos de separación si la señal de frecuencia vocal residual disminuyó; y sumar los periodos de separación si la señal de frecuencia residual se incrementó.
- 11. El método de conformidad con la reivindicación 7, caracterizado porque el paso de desviación en el tiempo comprende los pasos de: estimar al menos un periodo de separación; interpolar al menos un periodo de separación; sumar al menos un periodo de separación cuando se expanda la señal de frecuencia vocal residual; y sustraer al menos un periodo de separación cuando se comprima la señal de frecuencia vocal residual.
- 12. El método de conformidad con la reivindicación 8, caracterizado porque el paso de codificación comprende codificar la información de codificación predictiva lineal como ganancias de diferentes partes de un segmento de frecuencia vocal.
- 13. El método de conformidad con la reivindicación 10, caracterizado porque el paso de superponer los periodos de separación si la señal residual de frecuencia vocal disminuyó comprenden: segmentar una secuencia de muestra de entrada en bloques de muestras; remover segmentos de la señal residual en intervalos de tiempo regulares; fusionar los segmentos removidos; y reemplazar los segmentos removidos con un segmento fusionado.
- 14. El método de conformidad con la reivindicación 10, caracterizado porque el paso de estimación del retraso de separación comprende interpolar entre un retraso de separación de un extremo de un último trama y un extremo de una trama actual.
- 15. El método de conformidad con la reivindicación 10, caracterizado porque el paso de sumar los periodos de separación comprende fusionar segmentos de frecuencia vocal.
- 16. El método de conformidad con la reivindicación 10, caracterizado porque el paso de sumar los periodos de separación si la señal de frecuencia vocal residual se incrementó comprende sumar un periodo de separación adicional creado a partir de un primer segmento de separación y un segundo segmento de periodo de separación.
- 17. El método de conformidad con la reivindicación 12, caracterizado porque las ganancias son codificadas por conjuntos de muestras de frecuencia vocal .
- 18. El método de conformidad con la reivindicación 13, caracterizado porque el paso de fusión de los segmentos removidos comprende incrementar la contribución de un primer segmento de periodo de separación y hacer disminuir la contribución de un segundo segmento de periodo de separación.
- 19. El método de conformidad con la reivindicación 15, caracterizado porque comprende además el paso de seleccionar segmentos de frecuencia vocal similares, donde los segmentos de frecuencia vocal similares son fusionados.
- 20. El método de conformidad con la reivindicación 15, caracterizado porque comprende además el paso de correlacionar segmentos de frecuencia vocal, por lo que son seleccionados segmentos de frecuencia vocal similares.
- 21. El método de conformidad con la reivindicación 16, caracterizado porque el paso de sumar un periodo de separación adicional creado a partir de un primer segmento de separación y un segundo segmento de periodo de separación comprende agregar el primer y segundo segmentos de separación de modo que la contribución del segmento del primer periodo de separación se incremente y la contribución del segmento del segundo periodo de separación disminuya.
- 22. El método de conformidad con la reivindicación 17, caracterizado porque comprende además el paso de generar una señal residual generando valores aleatorios y aplicar entonces ganancias a los valores aleatorios .
- 23. El método de conformidad con la reivindicación 17, caracterizado porque comprende además el paso de representar la información de codificación predictiva lineal como 10 valores de ganancia codificados, donde cada valor de ganancia codificado representa 16 muestras de frecuencia vocal.
- 24. Un vocoder que tiene al menos una entrada y al menos una salida, caracterizado porque comprende: un codificador que comprende un filtro que tiene al menos una entrada conectada operativamente a la entrada del vocoder y al menos una salida; y un descodificador que comprende un sintetizador que tiene al menos una entrada conectada operativamente a al menos una salida del codificador y al menos una salida conectada operativamente a al menos una salida del vocoder.
- 25. El vocoder de conformidad con la reivindicación 24, caracterizado porque el descodificador comprende: una memoria, donde el descodificador está adaptado para ejecutar instrucciones de programas y sistemas de programación o software almacenadas en la memoria que comprende la desviación en el tiempo de una señal de frecuencia vocal residual a una versión expandida o comprimida de la señal residual.
- 26. El vocoder de conformidad con la reivindicación 24, caracterizado porque el codificador comprende : una memoria y el codificador está adaptado para ejecutar instrucciones de programas y sistemas de programación o software almacenadas en la memoria que comprende clasificar segmentos de frecuencia vocal como l/8vo de trama, periodo de separación prototipo, predicción lineal excitada por el código o predicción lineal excitada por ruido.
- 27. El vocoder de conformidad con la reivindicación 26, caracterizado porque el descodificador comprende: una memoria y el descodificador está adaptado para ejecutar instrucciones de programas y sistemas de programación o software almacenadas en la memoria que comprende la desviación en el tiempo de una señal residual a una versión expandida o comprimida de la señal de frecuencia vocal residual.
- 28. El vocoder de conformidad con la reivindicación 27, caracterizado porque el filtro es un filtro de codificación predictiva lineal el cual está adaptado para: filtrar correlaciones a corto plazo en una señal de frecuencia vocal; y producir coeficientes de codificación predictiva lineal y una señal residual.
- 29. El vocoder de conformidad con la reivindicación 27, caracterizado porque el codificador comprende : una memoria y el codificador está adaptado para ejecutar instrucciones de programas y sistemas de programación o software almacenadas en la memoria que comprende codificar los segmentos de frecuencia vocal usando la codificación de predicción lineal excitada por código.
- 30. El vocoder de conformidad con la reivindicación 27, caracterizado porque el codificador comprende : una memoria y el codificador está adaptado para ejecutar instrucciones de programas y sistemas de programación o software almacenadas en la memoria que comprende codificar los segmentos de frecuencia vocal usando la codificación de periodo de separación prototipo.
- 31. El vocoder de conformidad con la reivindicación 27, caracterizado porque el codificador comprende : una memoria y el codificador está adaptado para ejecutar instrucciones de programas y sistemas de programación o software almacenadas en la memoria que comprende codificar los segmentos de frecuencia vocal usando codificación de predicción lineal excitada por ruido .
- 32. El vocoder de conformidad con la reivindicación 29, caracterizado porque la instrucción de programas y sistemas de programación o software de desviación de tiempo comprende estimar al menos un periodo de separación; y sumar o sustraer al menos un periodo de separación después de recibir la señal residual.
- 33. El vocoder de conformidad con la reivindicación 29, caracterizado porque las instrucciones de programas y sistemas de programación o software de desviación de tiempo comprenden estimar el retraso de separación; dividir una trama de frecuencia vocal en periodos de separación, donde los límites de los periodos de separación son determinados usando el retraso de separación en varios puntos en la trama de frecuencia vocal; superponer los periodos de separación si la señal de frecuencia vocal residual disminuyó; y sumar los periodos de separación si la señal de frecuencia vocal residual se incrementó.
- 34. El vocoder de conformidad con la reivindicación 30, caracterizado porque la instrucción de programas y sistemas de programación o software de desviación de tiempo comprende estimar al menos un periodo de separación; interpolar al menos un periodo de separación; sumar al menos un periodo de separación cuando se expanda la señal de frecuencia vocal residual; y sustraer al menos un periodo de separación cuando se comprima la señal de frecuencia vocal residual.
- 35. El vocoder de conformidad con la reivindicación 31, caracterizado porque la codificación de los segmentos de frecuencia vocal usando la instrucción de los programas y sistemas de programación o software de codificación de predicción lineal excitada por ruido comprende codificar la información de codificación predictiva lineal como ganancia de diferentes partes de un segmento de frecuencia vocal.
- 36. El vocoder de conformidad con la reivindicación 33, caracterizado porque la superposición de los periodos de separación si la señal residual de frecuencia vocal disminuyó la instrucción comprende segmentar una secuencia de muestras de entrada en bloques de muestras; remover segmentos de la señal residual a intervalos de tiempo regulares; fusionar los segmentos removidos; y reemplazar los segmentos removidos con un segmento fusionado.
- 37. El vocoder de conformidad con la reivindicación 33, caracterizado porque la estimación de la instrucción de retraso de separación comprende interpolar entre un retraso de separación de un extremo de un último cuadro y un extremo de un cuadro actual.
- 38. El vocoder de conformidad con la reivindicación 33, caracterizado porque la adición de la instrucción de periodos de separación comprende fusionar segmentos de frecuencia vocal.
- 39. El vocoder de conformidad con la reivindicación 33, caracterizado porque la adición de los periodos de separación si la señal residual de frecuencia vocal se incrementó la instrucción comprende sumar un periodo de separación adicional creado a partir de un primer segmento de separación y un segundo segmento de periodo de separación.
- 40. El vocoder de conformidad con la reivindicación 35, caracterizado porque las ganancias son codificadas por conjuntos de muestras de frecuencia vocal.
- 41. El vocoder de conformidad con la reivindicación 36, caracterizado porque la fusión de la instrucción de segmentos removidos comprende incrementar la contribución del segmento de un primer periodo de separación y hacer disminuir la contribución del segmento de un segundo periodo de separación.
- 42. El vocoder de conformidad con la reivindicación 38, caracterizado porque comprende además de paso de seleccionar segmentos de frecuencia vocal similares, donde los segmentos de frecuencia vocal similares son fusionados.
- 43. El vocoder de conformidad con la reivindicación 38, caracterizado porque la instrucción de desviación del tiempo comprende además correlacionar segmentos de frecuencia vocal, por lo que son seleccionados segmentos de frecuencia vocal similares.
- 44. El vocoder de conformidad con la reivindicación 39, caracterizado porque la adición de un periodo de separación adicional creado a partir de un primer segmento de separación y la instrucción de un segundo segmento de periodo de separación comprende sumar el primer y segundo periodos de separación de modo que la contribución del segmento del primer periodo de separación se incremente en la contribución del segmento del segundo periodo de separación disminuye.
- 45. El vocoder de conformidad con la reivindicación 40, caracterizado porque la instrucción de desviación en el tiempo comprende además generar una señal de frecuencia vocal residual generando valores aleatorios y aplicando entonces las ganancias a los valores aleatorios.
- 46. El vocoder de conformidad con la reivindicación 40, caracterizado porque la instrucción de desviación en el tiempo comprende además representar la información de codificación predictiva lineal como 10 valores de ganancia codificados, donde cada valor de ganancia codificado representa 16 muestras de frecuencia vocal.
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US66082405P | 2005-03-11 | 2005-03-11 | |
| US11/123,467 US8155965B2 (en) | 2005-03-11 | 2005-05-05 | Time warping frames inside the vocoder by modifying the residual |
| PCT/US2006/009472 WO2006099529A1 (en) | 2005-03-11 | 2006-03-13 | Time warping frames inside the vocoder by modifying the residual |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| MX2007011102A true MX2007011102A (es) | 2007-11-22 |
Family
ID=36575961
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| MX2007011102A MX2007011102A (es) | 2005-03-11 | 2006-03-13 | Tramas que distorsionan el tiempo dentro del vocoder modificando el residuo. |
Country Status (14)
| Country | Link |
|---|---|
| US (1) | US8155965B2 (es) |
| EP (1) | EP1856689A1 (es) |
| JP (1) | JP5203923B2 (es) |
| KR (2) | KR100956623B1 (es) |
| AU (1) | AU2006222963C1 (es) |
| BR (1) | BRPI0607624B1 (es) |
| CA (1) | CA2600713C (es) |
| IL (1) | IL185935A (es) |
| MX (1) | MX2007011102A (es) |
| NO (1) | NO20075180L (es) |
| RU (1) | RU2371784C2 (es) |
| SG (1) | SG160380A1 (es) |
| TW (1) | TWI389099B (es) |
| WO (1) | WO2006099529A1 (es) |
Families Citing this family (38)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
| EP2204796B1 (en) * | 2004-08-30 | 2017-07-12 | QUALCOMM Incorporated | Adaptive De-Jitter buffer for voice over IP |
| US7674096B2 (en) * | 2004-09-22 | 2010-03-09 | Sundheim Gregroy S | Portable, rotary vane vacuum pump with removable oil reservoir cartridge |
| US8085678B2 (en) * | 2004-10-13 | 2011-12-27 | Qualcomm Incorporated | Media (voice) playback (de-jitter) buffer adjustments based on air interface |
| US8355907B2 (en) * | 2005-03-11 | 2013-01-15 | Qualcomm Incorporated | Method and apparatus for phase matching frames in vocoders |
| JP5129117B2 (ja) | 2005-04-01 | 2013-01-23 | クゥアルコム・インコーポレイテッド | 音声信号の高帯域部分を符号化及び復号する方法及び装置 |
| PL1875463T3 (pl) * | 2005-04-22 | 2019-03-29 | Qualcomm Incorporated | Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia |
| US8259840B2 (en) * | 2005-10-24 | 2012-09-04 | General Motors Llc | Data communication via a voice channel of a wireless communication network using discontinuities |
| US7720677B2 (en) | 2005-11-03 | 2010-05-18 | Coding Technologies Ab | Time warped modified transform coding of audio signals |
| US8239190B2 (en) * | 2006-08-22 | 2012-08-07 | Qualcomm Incorporated | Time-warping frames of wideband vocoder |
| US8279889B2 (en) * | 2007-01-04 | 2012-10-02 | Qualcomm Incorporated | Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate |
| US9653088B2 (en) | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
| WO2009010831A1 (en) | 2007-07-18 | 2009-01-22 | Nokia Corporation | Flexible parameter update in audio/speech coded signals |
| US8768690B2 (en) * | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
| US20090319261A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
| US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
| MY154452A (en) | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
| EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
| KR101400535B1 (ko) * | 2008-07-11 | 2014-05-28 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 시간 워프 활성 신호의 제공 및 이를 이용한 오디오 신호의 인코딩 |
| US8798776B2 (en) | 2008-09-30 | 2014-08-05 | Dolby International Ab | Transcoding of audio metadata |
| US20100191534A1 (en) * | 2009-01-23 | 2010-07-29 | Qualcomm Incorporated | Method and apparatus for compression or decompression of digital signals |
| US8428938B2 (en) * | 2009-06-04 | 2013-04-23 | Qualcomm Incorporated | Systems and methods for reconstructing an erased speech frame |
| MY164399A (en) | 2009-10-20 | 2017-12-15 | Fraunhofer Ges Forschung | Multi-mode audio codec and celp coding adapted therefore |
| GB2546686B (en) | 2010-04-12 | 2017-10-11 | Smule Inc | Continuous score-coded pitch correction and harmony generation techniques for geographically distributed glee club |
| TWI409802B (zh) * | 2010-04-14 | 2013-09-21 | Univ Da Yeh | 音頻特徵處理方法及其裝置 |
| EP2676266B1 (en) | 2011-02-14 | 2015-03-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Linear prediction based coding scheme using spectral domain noise shaping |
| MY159444A (en) | 2011-02-14 | 2017-01-13 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V | Encoding and decoding of pulse positions of tracks of an audio signal |
| TR201908598T4 (tr) | 2011-02-14 | 2019-07-22 | Fraunhofer Ges Forschung | Bir ses sinyalinin hizalı bir ileriye dönük kısımdan faydalanılarak enkode edilmesi için cihaz ve yöntem. |
| AU2012217216B2 (en) | 2011-02-14 | 2015-09-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result |
| AR085218A1 (es) | 2011-02-14 | 2013-09-18 | Fraunhofer Ges Forschung | Aparato y metodo para ocultamiento de error en voz unificada con bajo retardo y codificacion de audio |
| ES2458436T3 (es) * | 2011-02-14 | 2014-05-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Representación de señal de información utilizando transformada superpuesta |
| AR085362A1 (es) | 2011-02-14 | 2013-09-25 | Fraunhofer Ges Forschung | Aparato y metodo para procesar una señal de audio decodificada en un dominio espectral |
| MX2013009303A (es) | 2011-02-14 | 2013-09-13 | Fraunhofer Ges Forschung | Codec de audio utilizando sintesis de ruido durante fases inactivas. |
| PL2676267T3 (pl) | 2011-02-14 | 2017-12-29 | Fraunhofergesellschaft Zur Förderung Der Angewandten Forschung E V | Kodowanie i dekodowanie pozycji impulsów ścieżek sygnału audio |
| CN103092330B (zh) * | 2011-10-27 | 2015-11-25 | 宏碁股份有限公司 | 电子装置及其语音辨识方法 |
| TWI584269B (zh) * | 2012-07-11 | 2017-05-21 | Univ Nat Central | Unsupervised language conversion detection method |
| FR3024582A1 (fr) * | 2014-07-29 | 2016-02-05 | Orange | Gestion de la perte de trame dans un contexte de transition fd/lpd |
| WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
Family Cites Families (99)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5643800A (en) | 1979-09-19 | 1981-04-22 | Fujitsu Ltd | Multilayer printed board |
| JPS57158247A (en) | 1981-03-24 | 1982-09-30 | Tokuyama Soda Co Ltd | Flame retardant polyolefin composition |
| JPS59153346A (ja) * | 1983-02-21 | 1984-09-01 | Nec Corp | 音声符号化・復号化装置 |
| JPS61156949A (ja) | 1984-12-27 | 1986-07-16 | Matsushita Electric Ind Co Ltd | 音声パケツト通信方式 |
| BE1000415A7 (nl) | 1987-03-18 | 1988-11-22 | Bell Telephone Mfg | Asynchroon op basis van tijdsverdeling werkend communicatiesysteem. |
| JPS6429141A (en) | 1987-07-24 | 1989-01-31 | Nec Corp | Packet exchange system |
| JP2760810B2 (ja) | 1988-09-19 | 1998-06-04 | 株式会社日立製作所 | 音声パケット処理方法 |
| SE462277B (sv) | 1988-10-05 | 1990-05-28 | Vme Ind Sweden Ab | Hydrauliskt styrsystem |
| JPH04113744A (ja) | 1990-09-04 | 1992-04-15 | Fujitsu Ltd | 可変速度パケット伝送方式 |
| EP0500913B1 (en) * | 1990-09-19 | 1998-01-21 | Koninklijke Philips Electronics N.V. | System comprising a record carrier and a reading device |
| JP2846443B2 (ja) | 1990-10-09 | 1999-01-13 | 三菱電機株式会社 | パケット組立分解装置 |
| DE69232202T2 (de) * | 1991-06-11 | 2002-07-25 | Qualcomm, Inc. | Vocoder mit veraendlicher bitrate |
| US5283811A (en) * | 1991-09-03 | 1994-02-01 | General Electric Company | Decision feedback equalization for digital cellular radio |
| US5371853A (en) * | 1991-10-28 | 1994-12-06 | University Of Maryland At College Park | Method and system for CELP speech coding and codebook for use therewith |
| US5317604A (en) * | 1992-12-30 | 1994-05-31 | Gte Government Systems Corporation | Isochronous interface method |
| JP3186315B2 (ja) * | 1993-02-27 | 2001-07-11 | ソニー株式会社 | 信号圧縮装置、信号伸張装置、信号送信装置、信号受信装置及び信号送受信装置 |
| US5490479A (en) * | 1993-05-10 | 1996-02-13 | Shalev; Matti | Method and a product resulting from the use of the method for elevating feed storage bins |
| US5440562A (en) * | 1993-12-27 | 1995-08-08 | Motorola, Inc. | Communication through a channel having a variable propagation delay |
| US5784532A (en) * | 1994-02-16 | 1998-07-21 | Qualcomm Incorporated | Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system |
| US5696557A (en) * | 1994-08-12 | 1997-12-09 | Sony Corporation | Video signal editing apparatus |
| NL9401696A (nl) | 1994-10-14 | 1996-05-01 | Nederland Ptt | Bufferuitleesbesturing van ATM ontvanger. |
| US5602959A (en) * | 1994-12-05 | 1997-02-11 | Motorola, Inc. | Method and apparatus for characterization and reconstruction of speech excitation waveforms |
| US5699478A (en) | 1995-03-10 | 1997-12-16 | Lucent Technologies Inc. | Frame erasure compensation technique |
| JP3286110B2 (ja) | 1995-03-16 | 2002-05-27 | 松下電器産業株式会社 | 音声パケット補間装置 |
| US5929921A (en) | 1995-03-16 | 1999-07-27 | Matsushita Electric Industrial Co., Ltd. | Video and audio signal multiplex sending apparatus, receiving apparatus and transmitting apparatus |
| KR0164827B1 (ko) * | 1995-03-31 | 1999-03-20 | 김광호 | 프로그램 가이드신호 수신기 |
| CN1121684C (zh) * | 1995-09-14 | 2003-09-17 | 艾利森公司 | 用于选择性地改变一帧数字信号的方法和装置 |
| JPH09127995A (ja) | 1995-10-26 | 1997-05-16 | Sony Corp | 信号復号化方法及び信号復号化装置 |
| US5640388A (en) * | 1995-12-21 | 1997-06-17 | Scientific-Atlanta, Inc. | Method and apparatus for removing jitter and correcting timestamps in a packet stream |
| JPH09261613A (ja) | 1996-03-26 | 1997-10-03 | Mitsubishi Electric Corp | データ受信再生装置 |
| US5940479A (en) * | 1996-10-01 | 1999-08-17 | Northern Telecom Limited | System and method for transmitting aural information between a computer and telephone equipment |
| JPH10190735A (ja) | 1996-12-27 | 1998-07-21 | Secom Co Ltd | 通話システム |
| US6073092A (en) * | 1997-06-26 | 2000-06-06 | Telogy Networks, Inc. | Method for speech coding based on a code excited linear prediction (CELP) model |
| US6240386B1 (en) * | 1998-08-24 | 2001-05-29 | Conexant Systems, Inc. | Speech codec employing noise classification for noise compensation |
| US6259677B1 (en) * | 1998-09-30 | 2001-07-10 | Cisco Technology, Inc. | Clock synchronization and dynamic jitter management for voice over IP and real-time data |
| US6370125B1 (en) * | 1998-10-08 | 2002-04-09 | Adtran, Inc. | Dynamic delay compensation for packet-based voice network |
| US6456964B2 (en) * | 1998-12-21 | 2002-09-24 | Qualcomm, Incorporated | Encoding of periodic speech using prototype waveforms |
| US6922669B2 (en) * | 1998-12-29 | 2005-07-26 | Koninklijke Philips Electronics N.V. | Knowledge-based strategies applied to N-best lists in automatic speech recognition systems |
| US7117156B1 (en) * | 1999-04-19 | 2006-10-03 | At&T Corp. | Method and apparatus for performing packet loss or frame erasure concealment |
| KR100615344B1 (ko) | 1999-04-19 | 2006-08-25 | 에이티 앤드 티 코포레이션 | 패킷 손실 또는 프레임 삭제 은폐를 실행하는 방법 및 장치 |
| GB9911737D0 (en) * | 1999-05-21 | 1999-07-21 | Philips Electronics Nv | Audio signal time scale modification |
| US6785230B1 (en) * | 1999-05-25 | 2004-08-31 | Matsushita Electric Industrial Co., Ltd. | Audio transmission apparatus |
| JP4218186B2 (ja) | 1999-05-25 | 2009-02-04 | パナソニック株式会社 | 音声伝送装置 |
| JP4895418B2 (ja) | 1999-08-24 | 2012-03-14 | ソニー株式会社 | 音声再生方法および音声再生装置 |
| EP1221694B1 (en) | 1999-09-14 | 2006-07-19 | Fujitsu Limited | Voice encoder/decoder |
| US6377931B1 (en) * | 1999-09-28 | 2002-04-23 | Mindspeed Technologies | Speech manipulation for continuous speech playback over a packet network |
| US6859460B1 (en) * | 1999-10-22 | 2005-02-22 | Cisco Technology, Inc. | System and method for providing multimedia jitter buffer adjustment for packet-switched networks |
| US6665317B1 (en) | 1999-10-29 | 2003-12-16 | Array Telecom Corporation | Method, system, and computer program product for managing jitter |
| US6496794B1 (en) * | 1999-11-22 | 2002-12-17 | Motorola, Inc. | Method and apparatus for seamless multi-rate speech coding |
| US6693921B1 (en) * | 1999-11-30 | 2004-02-17 | Mindspeed Technologies, Inc. | System for use of packet statistics in de-jitter delay adaption in a packet network |
| US6366880B1 (en) * | 1999-11-30 | 2002-04-02 | Motorola, Inc. | Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies |
| GB2360178B (en) * | 2000-03-06 | 2004-04-14 | Mitel Corp | Sub-packet insertion for packet loss compensation in Voice Over IP networks |
| US6813274B1 (en) * | 2000-03-21 | 2004-11-02 | Cisco Technology, Inc. | Network switch and method for data switching using a crossbar switch fabric with output port groups operating concurrently and independently |
| DE60132080T2 (de) | 2000-04-03 | 2008-12-11 | Ericsson Inc., Plano | Verfahren und vorrichtung zum effizienten weiterreichen in datenpaketkommunikationssystemen |
| CN100362568C (zh) | 2000-04-24 | 2008-01-16 | 高通股份有限公司 | 用于预测量化有声语音的方法和设备 |
| US6584438B1 (en) * | 2000-04-24 | 2003-06-24 | Qualcomm Incorporated | Frame erasure compensation method in a variable rate speech coder |
| SE518941C2 (sv) * | 2000-05-31 | 2002-12-10 | Ericsson Telefon Ab L M | Anordning och förfarande relaterande till kommunikation av tal |
| US7016970B2 (en) * | 2000-07-06 | 2006-03-21 | Matsushita Electric Industrial Co., Ltd. | System for transmitting stream data from server to client based on buffer and transmission capacities and delay time of the client |
| US7155518B2 (en) * | 2001-01-08 | 2006-12-26 | Interactive People Unplugged Ab | Extranet workgroup formation across multiple mobile virtual private networks |
| US20020133334A1 (en) * | 2001-02-02 | 2002-09-19 | Geert Coorman | Time scale modification of digitally sampled waveforms in the time domain |
| US20040204935A1 (en) * | 2001-02-21 | 2004-10-14 | Krishnasamy Anandakumar | Adaptive voice playout in VOP |
| US7212517B2 (en) * | 2001-04-09 | 2007-05-01 | Lucent Technologies Inc. | Method and apparatus for jitter and frame erasure correction in packetized voice communication systems |
| US20040120309A1 (en) * | 2001-04-24 | 2004-06-24 | Antti Kurittu | Methods for changing the size of a jitter buffer and for time alignment, communications system, receiving end, and transcoder |
| US7006511B2 (en) | 2001-07-17 | 2006-02-28 | Avaya Technology Corp. | Dynamic jitter buffering for voice-over-IP and other packet-based communication systems |
| US7266127B2 (en) * | 2002-02-08 | 2007-09-04 | Lucent Technologies Inc. | Method and system to compensate for the effects of packet delays on speech quality in a Voice-over IP system |
| US7079486B2 (en) * | 2002-02-13 | 2006-07-18 | Agere Systems Inc. | Adaptive threshold based jitter buffer management for packetized data |
| US7158572B2 (en) * | 2002-02-14 | 2007-01-02 | Tellabs Operations, Inc. | Audio enhancement communication techniques |
| US7126957B1 (en) * | 2002-03-07 | 2006-10-24 | Utstarcom, Inc. | Media flow method for transferring real-time data between asynchronous and synchronous networks |
| US7263109B2 (en) * | 2002-03-11 | 2007-08-28 | Conexant, Inc. | Clock skew compensation for a jitter buffer |
| US20030187663A1 (en) | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
| JP3761486B2 (ja) * | 2002-03-29 | 2006-03-29 | Necインフロンティア株式会社 | 無線lanシステム、主装置およびプログラム |
| AU2002307884A1 (en) | 2002-04-22 | 2003-11-03 | Nokia Corporation | Method and device for obtaining parameters for parametric speech coding of frames |
| US7496086B2 (en) * | 2002-04-30 | 2009-02-24 | Alcatel-Lucent Usa Inc. | Techniques for jitter buffer delay management |
| US7280510B2 (en) * | 2002-05-21 | 2007-10-09 | Nortel Networks Limited | Controlling reverse channel activity in a wireless communications system |
| WO2003107591A1 (en) * | 2002-06-14 | 2003-12-24 | Nokia Corporation | Enhanced error concealment for spatial audio |
| US7336678B2 (en) * | 2002-07-31 | 2008-02-26 | Intel Corporation | State-based jitter buffer and method of operation |
| US8520519B2 (en) * | 2002-09-20 | 2013-08-27 | Broadcom Corporation | External jitter buffer in a packet voice system |
| JP3796240B2 (ja) | 2002-09-30 | 2006-07-12 | 三洋電機株式会社 | ネットワーク電話機および音声復号化装置 |
| JP4146708B2 (ja) | 2002-10-31 | 2008-09-10 | 京セラ株式会社 | 通信システム、無線通信端末、データ配信装置及び通信方法 |
| US6996626B1 (en) * | 2002-12-03 | 2006-02-07 | Crystalvoice Communications | Continuous bandwidth assessment and feedback for voice-over-internet-protocol (VoIP) comparing packet's voice duration and arrival rate |
| KR100517237B1 (ko) | 2002-12-09 | 2005-09-27 | 한국전자통신연구원 | 직교 주파수 분할 다중화 무선 통신 시스템에서의채널품질 추정과 링크적응 방법 및 그 장치 |
| US7525918B2 (en) * | 2003-01-21 | 2009-04-28 | Broadcom Corporation | Using RTCP statistics for media system control |
| US7394833B2 (en) * | 2003-02-11 | 2008-07-01 | Nokia Corporation | Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification |
| JP2004266724A (ja) | 2003-03-04 | 2004-09-24 | Matsushita Electric Ind Co Ltd | リアルタイム音声用バッファ制御装置 |
| JP3825007B2 (ja) * | 2003-03-11 | 2006-09-20 | 沖電気工業株式会社 | ジッタバッファの制御方法 |
| US7551671B2 (en) * | 2003-04-16 | 2009-06-23 | General Dynamics Decision Systems, Inc. | System and method for transmission of video signals using multiple channels |
| JP2005057504A (ja) | 2003-08-05 | 2005-03-03 | Matsushita Electric Ind Co Ltd | データ通信装置及びデータ通信方法 |
| EP1668828B1 (en) * | 2003-08-15 | 2008-10-01 | Research in Motion Limited | Apparatus, and an associated method, for preserving service quality levels during hand-off in a radio communication system |
| US7596488B2 (en) | 2003-09-15 | 2009-09-29 | Microsoft Corporation | System and method for real-time jitter control and packet-loss concealment in an audio signal |
| US7505764B2 (en) * | 2003-10-28 | 2009-03-17 | Motorola, Inc. | Method for retransmitting a speech packet |
| US7272400B1 (en) * | 2003-12-19 | 2007-09-18 | Core Mobility, Inc. | Load balancing between users of a wireless base station |
| US7424026B2 (en) * | 2004-04-28 | 2008-09-09 | Nokia Corporation | Method and apparatus providing continuous adaptive control of voice packet buffer at receiver terminal |
| JP4076981B2 (ja) | 2004-08-09 | 2008-04-16 | Kddi株式会社 | 通信端末装置およびバッファ制御方法 |
| US8085678B2 (en) * | 2004-10-13 | 2011-12-27 | Qualcomm Incorporated | Media (voice) playback (de-jitter) buffer adjustments based on air interface |
| SG124307A1 (en) * | 2005-01-20 | 2006-08-30 | St Microelectronics Asia | Method and system for lost packet concealment in high quality audio streaming applications |
| US8102872B2 (en) * | 2005-02-01 | 2012-01-24 | Qualcomm Incorporated | Method for discontinuous transmission and accurate reproduction of background noise information |
| US20060187970A1 (en) * | 2005-02-22 | 2006-08-24 | Minkyu Lee | Method and apparatus for handling network jitter in a Voice-over IP communications network using a virtual jitter buffer and time scale modification |
| US8355907B2 (en) | 2005-03-11 | 2013-01-15 | Qualcomm Incorporated | Method and apparatus for phase matching frames in vocoders |
| JP5129117B2 (ja) * | 2005-04-01 | 2013-01-23 | クゥアルコム・インコーポレイテッド | 音声信号の高帯域部分を符号化及び復号する方法及び装置 |
-
2005
- 2005-05-05 US US11/123,467 patent/US8155965B2/en active Active
-
2006
- 2006-03-10 TW TW095108057A patent/TWI389099B/zh active
- 2006-03-13 JP JP2008501073A patent/JP5203923B2/ja not_active Expired - Lifetime
- 2006-03-13 CA CA2600713A patent/CA2600713C/en not_active Expired - Lifetime
- 2006-03-13 BR BRPI0607624-6A patent/BRPI0607624B1/pt active IP Right Grant
- 2006-03-13 EP EP06738524A patent/EP1856689A1/en not_active Withdrawn
- 2006-03-13 KR KR1020077022667A patent/KR100956623B1/ko not_active Expired - Fee Related
- 2006-03-13 RU RU2007137643/09A patent/RU2371784C2/ru active
- 2006-03-13 WO PCT/US2006/009472 patent/WO2006099529A1/en not_active Ceased
- 2006-03-13 KR KR1020097022915A patent/KR100957265B1/ko not_active Expired - Fee Related
- 2006-03-13 AU AU2006222963A patent/AU2006222963C1/en not_active Expired
- 2006-03-13 SG SG201001616-0A patent/SG160380A1/en unknown
- 2006-03-13 MX MX2007011102A patent/MX2007011102A/es active IP Right Grant
-
2007
- 2007-09-11 IL IL185935A patent/IL185935A/en not_active IP Right Cessation
- 2007-10-10 NO NO20075180A patent/NO20075180L/no not_active Application Discontinuation
Also Published As
| Publication number | Publication date |
|---|---|
| BRPI0607624A2 (pt) | 2009-09-22 |
| SG160380A1 (en) | 2010-04-29 |
| BRPI0607624B1 (pt) | 2019-03-26 |
| KR100956623B1 (ko) | 2010-05-11 |
| RU2371784C2 (ru) | 2009-10-27 |
| CA2600713C (en) | 2012-05-22 |
| AU2006222963B2 (en) | 2010-04-08 |
| TW200638336A (en) | 2006-11-01 |
| RU2007137643A (ru) | 2009-04-20 |
| EP1856689A1 (en) | 2007-11-21 |
| US8155965B2 (en) | 2012-04-10 |
| KR100957265B1 (ko) | 2010-05-12 |
| JP2008533529A (ja) | 2008-08-21 |
| US20060206334A1 (en) | 2006-09-14 |
| AU2006222963C1 (en) | 2010-09-16 |
| KR20070112832A (ko) | 2007-11-27 |
| CA2600713A1 (en) | 2006-09-21 |
| JP5203923B2 (ja) | 2013-06-05 |
| IL185935A (en) | 2013-09-30 |
| TWI389099B (zh) | 2013-03-11 |
| IL185935A0 (en) | 2008-01-06 |
| AU2006222963A1 (en) | 2006-09-21 |
| NO20075180L (no) | 2007-10-31 |
| KR20090119936A (ko) | 2009-11-20 |
| WO2006099529A1 (en) | 2006-09-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CA2600713C (en) | Time warping frames inside the vocoder by modifying the residual | |
| JP4927257B2 (ja) | 可変レートスピーチ符号化 | |
| US8355907B2 (en) | Method and apparatus for phase matching frames in vocoders | |
| CA2659197C (en) | Time-warping frames of wideband vocoder | |
| JP2010501896A5 (es) | ||
| JP2003501675A (ja) | 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置 | |
| CN101171626B (zh) | 通过修改残余对声码器内的帧进行时间扭曲 | |
| KR100718487B1 (ko) | 디지털 음성 코더들에서의 고조파 잡음 가중 | |
| HK1113011A (en) | Time warping frames inside the vocoder by modifying the residual | |
| HK1117630A (en) | Method and apparatus for phase matching frames in vocoders |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FG | Grant or registration |