MX2015006161A - Dispositivo de codificacion de sonido de voz, dispositivo de decodificacion de sonido de voz, metodo de codificacion de sonido de voz y metodo de decodificacion de sonido de voz. - Google Patents
Dispositivo de codificacion de sonido de voz, dispositivo de decodificacion de sonido de voz, metodo de codificacion de sonido de voz y metodo de decodificacion de sonido de voz.Info
- Publication number
- MX2015006161A MX2015006161A MX2015006161A MX2015006161A MX2015006161A MX 2015006161 A MX2015006161 A MX 2015006161A MX 2015006161 A MX2015006161 A MX 2015006161A MX 2015006161 A MX2015006161 A MX 2015006161A MX 2015006161 A MX2015006161 A MX 2015006161A
- Authority
- MX
- Mexico
- Prior art keywords
- section
- group
- energy
- groups
- bits
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000001228 spectrum Methods 0.000 claims abstract description 44
- 238000009826 distribution Methods 0.000 claims abstract description 29
- 230000005236 sound signal Effects 0.000 claims abstract description 9
- 230000003595 spectral effect Effects 0.000 claims description 98
- 230000009466 transformation Effects 0.000 claims description 42
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000011002 quantification Methods 0.000 claims description 5
- 230000001052 transient effect Effects 0.000 description 22
- 239000013598 vector Substances 0.000 description 22
- 238000010586 diagram Methods 0.000 description 13
- 238000013139 quantization Methods 0.000 description 12
- 238000010606 normalization Methods 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- NRNCYVBFPDDJNE-UHFFFAOYSA-N pemoline Chemical compound O1C(N)=NC(=O)C1C1=CC=CC=C1 NRNCYVBFPDDJNE-UHFFFAOYSA-N 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Se proporciona un dispositivo de codificación de voz-sonido, un dispositivo de decodificación de voz-sonido, un método de codificación de voz-sonido y un método de decodificación de voz-sonido que realiza eficientemente la distribución de bits y mejora la calidad del sonido. La unidad de identificación de bandas de frecuencia dominantes (301) identifica una banda de frecuencia dominante que tiene un valor de factor de norma que es el valor máximo dentro del espectro de una señal de voz-sonido de entrada. Las unidades de determinación de grupos dominantes (302-1 a 302-N) y una unidad de determinación de grupos no dominantes (303) agrupan todas las sub-bandas en un grupo dominante que contiene la banda de frecuencia dominante y un grupo no dominante que no contiene una banda de frecuencia dominante. Una unidad de distribución de bits de grupos (308) distribuye bits a cada grupo en la base de la energía y la distribución de norma de cada grupo. Una unidad de distribución de bits de sub-bandas (309) redistribuye los bits que han sido distribuidos a cada grupo a cada sub-banda de acuerdo con la relación de la norma con respecto a la energía de los grupos.
Description
DISPOSITIVO DE CODIFICACION DE SONIDO DE VOZ, DISPOSITIVO DE
DECODIFICACIÓN DE SONIDO DE VOZ, MÉTODO DE CODIFICACIÓN DE SONIDO DE VOZ Y MÉTODO DE DECODIFICACIÓN DE SONIDO DE VOZ
Campo de la Invención
La presente invención se refiere a un aparato de codificación de habla/sonido, un aparato de decodificación de habla/sonido, un método de codificación de habla/sonido y un método de decodificación de habla/sonido utilizando un esquema de codificación de transformación.
Antecedentes de la Invención
Como un esquema capaz de codificar eficientemente una señal de habla o una señal de música en una banda completa (FB, por sus siglas en inglés) de 0.02 a 20 kHz, existe una téenica estandarizada en ITU-T (Sector de Estandarización de Telecomunicaciones de la Unión Internacional de Telecomunicaciones). Esta técnica transforma una señal de entrada en una señal de dominio de frecuencia y codifica una banda de hasta 20 kHz (codificación de transformación) .
En este documento, la codificación de transformación es un esquema de codificación que transforma una señal de entrada de un dominio temporal en un dominio de frecuencia utilizando una transformación de tiempo/frecuencia tal como una transformación discreta de coseno (DCT, por sus
Ref.256387
siglas en ingles) o una transformación discreta de coseno modificada (MDCT, por sus siglas en inglés) para hacer posible que una señal sea mapeada en correspondencia discreta con características auditivas.
En la codificación de transformación, un coeficiente espectral se divide en una pluralidad de sub bandas de frecuencia. En la codificación de cada sub-banda, la asignación de más bits de cuantificación a una banda la cual es perceptualmente importante para el oído humano hace posible mejorar la calidad total del sonido.
Con el propósito de alcanzar este objetivo, se están llevando a cabo estudios sobre esquemas eficientes de asignación de bits, y por ejemplo, se conoce una téenica dada a conocer en la Bibliografía que no es Patente (en lo sucesivo, referida como "NPL", por sus siglas en inglés) 1. En lo sucesivo, el esquema de asignación de bits dado a conocer en la Bibliografía de Patente (en lo sucesivo, referida como "PTL" , por sus siglas en inglés) 1 se describirá utilizando la FIGURA 1 y la FIGURA 2.
La FIGURA 1 es un diagrama de bloques que ilustra una configuración de un aparato de codificación de habla/sonido dado a conocer en la PTL 1. Una señal de entrada muestreada a 48 kHz se introduce al detector transitorio 11 y el sector de transformación 12 del aparato de codificación de habla/sonido.
El detector transitorio 11 detecta, de la señal de entrada, ya sea una trama transitoria que corresponde a un borde delantero o un borde final del habla o una trama estacionaria que corresponde a una sección de habla diferente de aquella, y una sección de transformación 12 aplica, a la trama de la señal de entrada, una transformación de resolución de alta frecuencia o una transformación de resolución de baja frecuencia dependiendo si la trama detectada por el detector transitorio 11 es una trama transitoria o una trama estacionaria, y adquiere un coeficiente espectral (o coeficiente de transformación).
La sección de estimación de normas 13 divide el coeficiente espectral obtenido en la sección de transformación 12 en bandas de diferentes anchuras de banda. La sección de estimación de normas 13 calcula una norma (o energía) de cada banda dividida.
La sección de cuantificación de normas 14 determina una envoltura espectral constituida de las normas de todas las bandas con base en la norma de cada banda calculada por la sección de estimación de normas 13 y cuantifica la envoltura espectral determinada.
La sección de normalización de espectro 15 normaliza el coeficiente espectral obtenido por la sección de transformación 12 de acuerdo con la norma cuantificada por la sección de cuantificación de normas 14.
La sección de ajuste de normas 16 ajusta la norma cuantificada por la sección de cuantificación de normas 14 con base en la ponderación espectral adaptable.
La sección de asignación de bits 17 asigna bits disponibles para cada banda en una trama utilizando la norma de cuantificación ajustada por la sección de ajuste de normas 16.
La sección de codificación de vectores reticulares 18 realiza la codificación de vectores reticulares sobre el coeficiente espectral normalizado por la sección de normalización de espectro 15 utilizando bits asignados para cada banda por la sección de asignación de bits 17.
La sección de ajuste de nivel de ruido 19 calcula el nivel del coeficiente espectral antes de la codificación en la sección de codificación de vectores reticulares 18 y codifica el nivel calculado. De esta manera, se obtiene un índice de ajuste de nivel de ruido.
El multiplexor 20 ultiplexa una configuración de trama de la señal de entrada adquirida por la sección de transformación 12, es decir, un indicador de señal transitorio que señala si la trama es una trama estacionaria o una trama transitoria, la norma cuantificada por la sección de cuantificación de normas 14, el vector de codificación reticular obtenido por la sección de codificación de vectores reticulares 18 y el índice de ajuste de nivel de ruido obtenido por la sección de ajuste de nivel de ruido 19 y
forma una corriente de bits y transmite la corriente de bits a un aparato de decodificación de habla/sonido.
La FIGURA 2 es un diagrama de bloques que ilustra una configuración del aparato de decodificación de habla/sonido dado a conocer en la PTL 1. El aparato de decodificación de habla/sonido recibe la corriente de bits transmitida del aparato de codificación de habla/sonido y el desmultiplexor 21 desmultiplexa la corriente de bits.
La sección de descuantif icación de normas 22 descuantif ica la norma cuantificad , adquiere una envoltura espectral constituida de normas de todas las bandas y la sección de ajuste de normas 23 ajusta la norma descuantif icada por la sección de descuantificación de normas 22 con base en la ponderación espectral adaptable.
La sección de asignación de bits 24 asigna bits disponibles para cada banda en una trama utilizando las normas ajustadas por la sección de ajuste de normas 23. Es decir, la sección de asignación de bits 24 recalcula la asignación de bits indispensable para decodificar el código de vector reticular del coeficiente espectral normalizado.
La sección de decodificación de retículo 25 decodifica un indicador de señal transitorio, decodifica el vector de codificación reticular con base en una configuración de trama señalada por el indicador de señal transitorio decodificado y los bits asignados por la
sección de asignación de bits 24 y adquiere un coeficiente espectral .
El generador de llenado espectral 26 regenera un coeficiente espectral de baja frecuencia al cual no se ha asignado un bit utilizando un libro de códigos creado con base en el coeficiente espectral decodificado por la sección de decodificación de retículo 25. El generador de llenado espectral 26 ajusta el nivel del coeficiente espectral regenerado utilizando un índice de ajuste de nivel de ruido. Adicionalmente, el generador de llenado espectral 26 regenera un coeficiente espectral no codificado de alta frecuencia utilizando un coeficiente espectral codificado de baja frecuencia.
El adicionar 27 agrega el coeficiente espectral decodificado y el coeficiente espectral regenerado, y genera un coeficiente espectral normalizado.
La sección de configuración de envoltura 28 aplica la envoltura espectral descuant ificada por la sección de descuantif icación de normas 22 al coeficiente espectral normalizado que es generado por el adicionador 27 y genera un coeficiente espectral de banda completa.
La sección de transformación inversa 29 aplica una transformación inversa tal como una transformación discreta de coseno modificada, inversa (IMDCT, por sus siglas en inglés) al coeficiente espectral de banda completa generado
por la sección de configuración de envoltura 28 para transformarlo en una señal de dominio temporal. En este documento, la transformación inversa con resolución de alta frecuencia se aplica a un caso con una trama estacionaria y la transformación inversa con resolución de baja frecuencia se aplica a un caso con una trama transitoria.
En G.719, los coeficientes espectrales se dividen en grupos de espectros. Cada grupo de espectros se divide en bandas de sub-vectores de longitud igual como se muestra en la FIGURA 3. Los sub-vectores tienen una longitud diferente de un grupo a otro y esta longitud incrementa conforme incrementa la frecuencia. Con respecto a la resolución de transformación, la resolución de frecuencia más alta se utiliza para frecuencias bajas, mientras que la resolución de frecuencia más baja se utiliza para frecuencias altas. Como se describe en G.719, la agrupación permite un uso eficiente del presupuesto de bits disponible durante la codificación.
En G.719, el esquema de asignación de bits es idéntico en un aparato de codificación y un aparato de decodificación. En este documento, el esquema de asignación de bits se describirá utilizando la FIGURA 4.
Como se muestra en la FIGURA 4, en el paso (abreviado en lo sucesivo como "ST") 31, las normas cuantificadas se ajustan antes de una asignación de bits
para ajustar los efectos de ponderación y enmascaramiento psico-acústicos .
En el ST32, las sub-bandas que tienen una norma máxima se identifican de entre todas las sub-bandas y en el ST33, un bit se asigna a cada coeficiente espectral para las sub-bandas que tienen la norma máxima. Es decir, se asignan tantos bits como coeficientes espectrales.
En el ST34, las normas se reducen de acuerdo con los bits asignados, y en el ST35, se determina si el número restante de bits asignables es 8 o más. Cuando el número restante de bits asignables es 8 o más, el flujo regresa al ST32 y cuando el número restante de bits asignables es menor que 8, el procedimiento de asignación de bits se termina .
De esta manera, en el esquema de asignación de bits, los bits disponibles dentro de una trama se asignan entre sub-bandas utilizando las normas de cuantificación ajustadas. Los coeficientes espectrales normalizados son codificados por la codificación de vectores reticulares utilizando los bits asignados a cada sub-banda.
Lista de Referencias
Bibliografía de Patente
NPL 1
ITU-T Recommendation G.719, "Low-complexity full-band audio coding for high-quality conversational applications", ITU-T,
Breve Descripción de la Invención
Problema Teenico
Sin embargo, el esquema anterior de asignación de bits no toma en consideración las características de señal de entrada cuando se agrupan bandas espectrales y por lo tanto tiene un problema respecto a que no es posible la asignación eficiente de bits y no se puede esperar un mejoramiento adicional de la calidad del sonido.
Un objetivo de la presente invención es proporcionar un aparato de codificación de habla/sonido, un aparato de decodif icación de habla/sonido, un método de codificación de habla/sonido y un método de decodificación de habla/sonido capaces de realizar la asignación eficiente de bits y de mejorar la calidad del sonido.
Solución al Problema
Un aparato de codificación de habla/sonido de la presente invención incluye: una sección de transformación que transforma una señal de entrada de un dominio temporal a un dominio de frecuencia; una sección de estimación que calcula una envoltura de energía la cual representa un nivel de energía para cada una de una pluralidad de sub-bandas obtenidas al dividir un espectro de frecuencia de la señal de entrada; una sección de cuantificación que cuantifica las envolturas de energía; una sección de determinación de grupos
que agrupa las envolturas de energía cuantificadas en una pluralidad de grupos; una primera sección de asignación de bits que asigna bits a la pluralidad de grupos; una segunda sección de asignación de bits que asigna los bits asignados a la pluralidad de grupos a sub-bandas en una base de grupo por grupo; y una sección de codificación que codifica el espectro de frecuencia utilizando bits asignados a las sub-bandas.
Un aparato de decodificación de habla/sonido de acuerdo con la presente invención incluye: una sección de descuantif icación que descuantifica una envoltura espectral cuantif icada; una sección de determinación de grupos que agrupa las envolturas espectrales cuantificadas en una pluralidad de grupos; una primera sección de asignación de bits que asigna bits a la pluralidad de grupos; una segunda sección de asignación de bits que asigna los bits asignados a la pluralidad de grupos de sub-bandas en una base de grupo por grupo; una sección de decodificación que decodifica un espectro de frecuencia de una señal de habla/sonido utilizando los bits asignados a las sub-bandas; una sección de configuración de envoltura que aplica la envoltura espectral descuantificada al espectro de frecuencia decodificado y reproduce un espectro decodificado; y una sección de transformación inversa que transforma de manera inversa el espectro decodificado de un dominio de frecuencia a un dominio temporal.
Un metodo de codificación de habla/sonido de acuerdo con la presente invención incluye: transformar una señal de entrada de un dominio temporal a un dominio de frecuencia; calcular una envoltura de energía que representa un nivel de energía para cada una de una pluralidad de subbandas obtenidas al dividir un espectro de frecuencia de la señal de entrada; cuantificar las envolturas de energía; agrupar las envolturas de energía cuantif icadas en una pluralidad de grupos; asignar bits a la pluralidad de grupos; asignar los bits asignados a la pluralidad de grupos a sub bandas en una base de grupo por grupo; y codificar el espectro de frecuencia utilizando bits asignados a las sub bandas .
Un método de decodificación de habla/sonido de acuerdo con la presente invención incluye: descuantificar una envoltura espectral cuantificada; agrupar la envoltura espectral cuantificada en una pluralidad de grupos; asignar bits a la pluralidad de grupos; asignar los bits asignados a la pluralidad de grupos a sub-bandas en una base de grupo por grupo; decodificar un espectro de frecuencia de una señal de habla/sonido utilizando los bits asignados a las sub-bandas; aplicar la envoltura espectral descuantificada al espectro de frecuencia decodificado y reproducir un espectro decodif icado; y transformar de manera inversa el espectro decodificado de un dominio de frecuencia a un dominio
temporal .
Efectos Ventajosos de la Invención
De acuerdo con la presente invención, es posible realizar una asignación eficiente de bits y mejorar la calidad del sonido.
Breve Descripción de las Figuras
La FIGURA 1 es un diagrama de bloques que ilustra una configuración de un aparato de codificación de habla/sonido dado a conocer en la PTL 1;
la FIGURA 2 es un diagrama de bloques que ilustra una configuración de un aparato de decodificación de habla/sonido dado a conocer en la PTL 1;
la FIGURA 3 es un diagrama que ilustra la agrupación de coeficientes espectrales en un modo estacionario dado a conocer en la PTL1;
la FIGURA 4 es un diagrama de flujo que ilustra un esquema de asignación de bits dado a conocer en la PTL 1;
la FIGURA 5 es un diagrama de bloques que ilustra una configuración de un aparato de codificación de habla/sonido de acuerdo con una modalidad de la presente invención;
la FIGURA 6 es un diagrama de bloques que ilustra una configuración de un aparato de decodificación de habla/ sonido de acuerdo con una modalidad de la presente invención;
la FIGURA 7 es un diagrama de bloques que ilustra una configuración interna de la sección de asignación de bits mostrada en la FIGURA 5;
las FIGURAS 8A a 8C son diagramas proporcionados para describir un método de agrupación de acuerdo con una modalidad de la presente invención; y
la FIGURA 9 es un diagrama que ilustra una variación de la norma.
Descripción Detallada de la Invención
En lo sucesivo, las modalidades de la presente invención se describirán en detalle con referencia a las figuras asociados.
Modalidad
La FIGURA 5 es un diagrama de bloques que ilustra una configuración de un aparato de codificación de habla/sonido 100 de acuerdo con una modalidad de la presente invención. Una señal de entrada muestreada a 48 kHz se introduce al detector transitorio 101 y la sección de transformación 102 del aparato de codificación de habí a/sonido 100.
El detector transitorio 101 detecta, a partir de una señal de entrada, ya sea una trama transitoria que corresponde a un borde delantero o un borde final de habla o una trama estacionaria que corresponde a una sección de habla diferente de aquella, y envía el resultado de la detección a
la sección de transformación 102 . La sección de transformación 102 aplica, a la trama de la señal de entrada, una transformación de resolución de alta frecuencia o una transformación de resolución de baja frecuencia dependiendo si el resultado de la detección enviado desde el detector transitorio 101 es una trama transitoria o una trama estacionaria, y adquiere un coeficiente espectral (o coeficiente de transformación) y envía el coeficiente espectral a la estación de estimación de normas 103 y la sección de normalización de espectro 105. La sección de transformación 102 envía una configuración de trama la cual es el resultado de la detección enviado desde el detector transitorio 101, es decir, un indicador de señal transitorio que señala si la trama es una trama estacionaria o una trama transitoria al multiplexor 110.
La sección de estimación de normas 103 divide el coeficiente espectral enviado desde la sección de transformación 102 en bandas de diferentes anchuras de banda y calcula una norma (o energía) de cada banda dividida. La sección de estimación de normas 103 envía la norma estimada de cada banda a la sección de cuantificación de normas 104.
La sección de cuantificación de normas 104 determina una envoltura espectral constituida de normas de todas las bandas con base en normas de bandas respectivas enviadas desde la sección de estimación de normas 103,
cuantifica la envoltura espectral determinada y envía la envoltura espectral cuantificada a la sección de normalización de espectro 105 y la sección de ajuste de normas 106.
La sección de normalización de espectro 105 normaliza el coeficiente espectral enviado desde la sección de transíormación 102 de acuerdo con la envoltura espectral cuantificada enviada desde la sección de cuantificación de normas 104 y envía el coeficiente espectral normalizado a la sección de codificación de vectores reticulares 108.
La sección de ajuste de normas 106 ajusta la envoltura espectral cuantificada que es enviada desde la sección de cuantificación de normas 104 con base en una ponderación espectral adaptable y envía la envoltura espectral, cuantificada, ajustada a la sección de asignación de bits 107.
La sección de asignación de bits 107 asigna bits disponibles para cada banda en una trama utilizando la envoltura espectral, cuantificada, ajustada que es enviada desde la sección de ajuste de normas 106 y envía los bits asignados a la sección de codificación de vectores reticulares 108. Los detalles de la sección de asignación de bits 107 se describirán posteriormente.
La sección de codificación de vectores reticulares
108 realiza la codificación de vectores reticulares sobre el
coeficiente espectral normalizado por la sección de normalización de espectro 105 utilizando los bits asignados para cada banda en la sección de asignación de bits 107 y envía el vector de codificación reticular a la sección de ajuste de nivel de ruido 109 y al multiplexor 110.
La sección de ajuste de nivel de ruido 109 calcula el nivel de coeficiente espectral antes de la codificación en la sección de codificación de vectores reticulares 108 y codifica el nivel estimado. Un índice de ajuste de nivel de ruido se determina de esta manera. El índice de ajuste de nivel de ruido es enviado al multiplexor 110.
El multiplexor 110 multiplexa el indicador de señal transitorio enviado desde la sección de transformación 102, la envoltura espectral cuantificada enviada desde de la sección de cuantificación de normas 104, el vector de codificación reticular enviado desde la sección de codificación de vectores reticulares 108 y el índice de ajuste de nivel de ruido enviado desde la sección de ajuste de nivel de ruido 109 y forma una corriente de bits y transmite la corriente de bits a un aparato de decodificación de habla/sonido.
La FIGURA 6 es un diagrama de bloques que ilustra una configuración del aparato de decodificación de habla/sonido 200 de acuerdo con una modalidad de la presente invención. Una corriente de bits transmitida desde el aparato
de codificación de habla/sonido 100 es recibida por el aparato de decodificación de habla/sonido 200 y desmulti lexada por el desmultiplexor 201.
La sección de descuantificación de normas 202 descuantif ica la envoltura espectral cuantificada (es decir, la norma) enviada desde el multiplexor, obtiene una envoltura espectral constituida de normas de todas las bandas y envía la envoltura espectral obtenida a la sección de ajuste de normas 203.
La sección de ajuste de normas 203 ajusta la envoltura espectral enviada desde la sección de descuantif icación de normas 202 con base en la ponderación espectral adaptable y envía la envoltura espectral ajustada a la sección de asignación de bits 204.
La sección de asignación de bits 204 asigna bits disponibles para cada banda en una trama utilizando la envoltura espectral enviada desde la sección de ajuste de normas 203. Esto es, la sección de asignación de bits 204 recalcula la asignación de bits indispensable para decodificar el código de vector reticular del coeficiente espectral normalizado. Los bits asignados son enviados a la sección de decodificación de retículo 205.
La sección de decodificación de retículo 205 decodifica el vector de codificación reticular enviado desde el desmultiplexor 201 con base en una configuración de trama
señalada por el indicador de señal transitorio enviado desde el desmultiplexor 201 y los bits enviados desde la sección de asignación de bits 204 y adquiere un coeficiente espectral. El coeficiente espectral es enviado al generador de llenado espectral 206 y al adicionador 207.
El generador de llenado espectral 206 regenera un coeficiente espectral de baja frecuencia al cual no se ha asignado un bit utilizando un libro de códigos creado con base en el coeficiente espectral enviado desde la sección de decodificación de retículo 205. El generador de llenado espectral 206 ajusta el nivel del coeficiente espectral regenerado utilizando el índice de ajuste de nivel de ruido enviado desde el desmultiplexor 201. Adicionalmente, el generador de llenado espectral 206 regenera el coeficiente espectral no sujetado a la codificación de alta frecuencia utilizando un coeficiente espectral codificado de baja frecuencia. El coeficiente espectral de baja frecuencia ajustado de nivel y el coeficiente espectral de alta frecuencia regenerado son enviados al adicionador 207.
El adicionador 207 agrega el coeficiente espectral enviado desde la sección de decodificación de retículo 205 y el coeficiente espectral enviado desde el generador de llenado espectral 206, genera un coeficiente espectral normalizado y envía el coeficiente espectral normalizado a la sección de configuración de envoltura 208.
La sección de configuración de envoltura 208 aplica la envoltura espectral enviada desde la sección de descuantificación de normas 202 al coeficiente espectral normalizado que es generado por el adicionador 207 y genera un coeficiente espectral de banda completa (que corresponde al espectro decodificado). El coeficiente espectral de banda completa generado es enviado a la sección de transformación inversa 209.
La sección de transformación inversa 209 aplica una transformación inversa tal como una transformación de coseno discreta, modificada, inversa (IMDCT) al coeficiente espectral de banda completa enviado desde la sección de configuración de envoltura 208, lo transforma a una señal de dominio temporal y envía una señal de salida. En este documento, la transíormación inversa con resolución de alta frecuencia se aplica a un caso de una trama estacionaria y la transformación inversa con resolución de baja frecuencia se aplica a un caso de una trama transitoria.
Después, los detalles de la sección de asignación de bits 107 se describirán utilizando la FIGURA 7. Se debe observar que la sección de asignación de bits 107 del aparato de codificación de habla/sonido 100 es idéntica en configuración a la sección de asignación de bits 204 del aparato de decodificación de habla/sonido 200 y por lo tanto solo la sección de asignación de bits 107 se describirá y la
descripción de la sección de asignación de bits 204 se omitirá en este documento.
La FIGURA 7 es un diagrama de bloques que ilustra una configuración interna de la sección de asignación de bits 107 mostrada en la FIGURA 5. La sección de identificación de banda de frecuencia dominante 301 identifica, con base en la envoltura espectral cuantificada que es enviada desde la sección de ajuste de normas 106, una banda de frecuencia dominante la cual es una sub-banda en la cual un valor de coeficiente de norma en el espectro tiene un valor máximo local y envía cada banda de frecuencia dominante identificada a las secciones de determinación de grupos dominantes 302-1 a 302N. Además de designar una banda de frecuencia para la cual un valor de coeficiente de norma tiene un valor máximo local, los ejemplos del metodo para determinar una banda de frecuencia dominante pueden incluir designar una banda entre todas las sub-bandas en las cuales un valor de coeficiente de norma tiene un valor máximo como una banda de frecuencia dominante o designar como una banda de frecuencia dominante una banda que tiene un valor de coeficiente de norma que excede un umbral predeterminado o un umbral calculado a partir de normas de todas las sub-bandas.
Las secciones de determinación de grupos dominantes 302-1 a 302N determinan de manera adaptable anchuras de grupos de acuerdo con características de señal de entrada
centradas en la banda de frecuencia dominante enviada desde la sección de identificación de banda de frecuencia dominante 301. Más específicamente, la anchura de grupo se define como la anchura de un grupo de sub-bandas centradas en y en ambos lados de la banda de frecuencia dominante hasta sub-bandas donde se detiene una pendiente descendiente del valor de coeficiente de norma. Las secciones de determinación de grupos dominantes 302-1 a 302N determinan bandas de frecuencia incluidas en anchuras de grupos como grupos dominantes y envían los grupos dominantes determinados a la sección de determinación de grupos no dominantes 303. Se debe observar que cuando una banda de frecuencia dominante se localiza en un borde (el final de una frecuencia disponible), solo un lado de la pendiente descendiente se incluye en el grupo .
La sección de determinación de grupos no dominantes 303 determina sub-bandas continuas enviadas desde las secciones de determinación de grupos dominantes 302-1 a 302N diferentes de los grupos dominantes como grupos no dominantes sin bandas de frecuencia dominantes. La sección de determinación de grupos no dominantes 303 envía los grupos dominantes y los grupos no dominantes a la sección de cálculo de energía de grupo 304 y la sección de cálculo de variación de norma 306.
La sección de cálculo de energía de grupo 304
calcula la energía específica de un grupo de los grupos dominantes y los grupos no dominantes enviados desde la sección de determinación de grupos no dominantes 303 y envía la energía calculada a la sección de cálculo de energía total 305 y la sección de distribución de bits de grupos 308. La energía específica de un grupo se calcula por medio de la siguiente ecuación 1.
Energía(G(k)) = . (Ecuación 1)
En este documento, k indica un índice de cada grupo, Energía (G (k)) indica la energía del grupo k, i indica un índice de sub-banda del grupo 2, M indica el número total de sub-bandas del grupo k y Norma(i) indica un valor de coeficiente de norma de la sub-banda i del grupo n.
La sección de cálculo de energía total 305 agrega toda la energía específica de un grupo enviada de la sección de cálculo de energía de grupo 304 y calcula la energía total de todos los grupos. La energía total calculada es enviada a la sección de distribución de bits de grupos 308. La energía total se calcula por medio de la siguiente ecuación 2.
(Ecuación 2)
En este documento, Energíatotai indica la energía total de todos los grupos, N indica el número total de grupos en un espectro, k indica un índice de cada grupo y
Energía (G (k)) indica la energía del grupo k.
La sección de cálculo de variación de norma 306
calcula la variación de norma específica para un grupo para los grupos dominantes y los grupos no dominantes enviados desde la sección de determinación de grupos no dominantes 303 y envía la variación de norma calculada a la sección de cálculo de variación de norma total 307 y la sección de distribución de bits de grupos 308. La variación de norma específica para un grupo se calcula por medio de la siguiente ecuación 3.
Normaver{G(k)) = Normamax{G{k)) - Normamm(G(K)) ... (Ecuación 3)
En este documento, k indica un índice de cada grupo, NormaVar(G (k)) indica una variación de norma del grupo k, Normamax(G (k)) indica un valor de coeficiente de norma máximo del grupo k y Normamin(G (k)) indica un valor de coeficiente de norma mínimo del grupo k.
La sección de cálculo de variación de norma total 307 calcula una variación de norma total de todos los grupos con base en la variación de norma específica para un grupo enviada desde la sección de cálculo de variación de norma 306. La variación de norma total calculada es enviada a la sección de distribución de bits de grupos 308. La variación de norma total se calcula por medio de la siguiente ecuación 4.
Normava, total = .(Ecuación 4)
En este documento, Normavartotai indica una variación de norma total de todos los grupos, N indica el número total
de grupos en un espectro, k indica un índice de cada grupo y Normavar(G (k)) indica una variación de norma del grupo k.
La sección de distribución de bits de grupos 308 (que corresponde a una primera sección de asignación de bits) distribuye bits en una base de grupo por grupo con base en la energía específica de un grupo enviada desde la sección de cálculo de energía del grupo 304, la energía total de todos los grupos enviada desde la sección de cálculo de energía total 305, la variación de norma específica para un grupo enviada desde la sección de cálculo de variación de norma 306 y la variación de norma total de todos los grupos enviados desde la sección de cálculo de variación de norma total 307 y envía bits distribuidos en una base de grupo por grupo a la sección de distribución de bits de sub-bandas 309. Los bits distribuidos en una base de grupo por grupo se calculan por medio de la siguiente ecuación 5.
Energía{G(k)) Normava{G{k))
Bits(G(k ) = Bitslolal x escale lx + (1— escale l)x ... (Ecuación 5)
Energía Ma¡ Norma vac total
En este documento, k indica un indice de cada grupo, Bits(G(k)) indica el número de bits distribuidos al grupo k, Bitstotai indica el número total de bits disponibles, escala 1 indica la relación de bits asignados por energía. Energía(G (k)) indica la energía del grupo k, Energíatotai indica la energía total de todos los grupos y Normavar(G(k)) indica una variación de norma del grupo k.
Adicionalmente, escala 1 en la ecuación 5 anterior toma un valor dentro de un rango de [0, 1] y ajusta la relación de bits asignados por energía o variación de norma. Mientras más grande sea el valor de escala 1, más bits son asignados por energía, y en un caso extremo, si el valor es 1, todos los bits se asignan por energía. Mientras más pequeño sea el valor de escala 1, más bits son asignados por variación de norma, y en un caso extremo, si el valor es 0, todos los bits son asignados por variación de norma.
Al distribuir bits en una base de grupo por grupo como se describiera anteriormente, la sección de distribución de bits de grupos 308 puede distribuir más bits a grupos dominantes y distribuir menos bits a grupos no dominantes.
De esta manera, la sección de distribución de bits de grupos 308 puede determinar la importancia perceptual de cada grupo por energía y variación de norma y aumentar más grupos dominantes. La variación de norma coincide con una teoría de enmascaramiento y puede determinar de manera más exacta la importancia perceptual.
La sección de distribución de bits de sub-bandas 309 (que corresponde a una segunda sección de asignación de bits) distribuye bits a sub-bandas en cada grupo con base en bits específicos para un grupo enviados desde la sección de distribución de bits de grupos 308 y envía los bits asignados a sub-bandas específicas para un grupo a la sección de
codificación de vectores reticulares 108 como el resultado de la asignación de bits. En este documento, se distribuyen más bits a las sub-bandas perceptualmente importantes y se distribuyen menos bits a las sub-bandas perceptualmente menos importantes. Los bits distribuidos a cada sub-banda en un grupo se calculan por medio de la siguiente ecuación 6.
... (Ecuación 6)
En este documento, BitSG(k)sb u) indica un bit asignado a la sub-banda i del grupo k, i indica un índice de sub-banda del grupo k, BitS(G(kn indica un bit asignado al grupo k, Energía (G (k)) indica la energía del grupo k y Norma (i) indica un valor de coeficiente de norma de la sub-banda i del grupo k.
Después, se describirá un método de agrupación utilizando las FIGURAS 8A a 8C. Se supone que una envoltura espectral cuantificada que se muestra en la FIGURA 8A se introduce a la sección de identificación de bandas de frecuencia máximas 301. La sección de identificación de bandas de frecuencia máximas 301 identifica las bandas de frecuencia dominantes 9 y 20 con base en la envoltura espectral, cuantificada, introducida (véase la FIGURA 8B).
Las secciones de generación de grupos dominantes 302-1 a 302-N determinan sub-bandas centradas en y en ambos lados de las bandas de frecuencia dominantes 9 y 20 hasta las
sub-bandas donde se detiene una pendiente descendiente del valor de coeficiente de norma como un grupo dominante identico. En los ejemplos mostrados en las FIGURAS 8A a 8C, en lo que se refiere a la banda de frecuencia dominante 9, las sub-bandas 6 a 12 se determinan como el grupo dominante (grupo 2), mientras que en lo que se refiere a la banda de frecuencia dominante 20, las sub-bandas 17 a 22 se determinan como el grupo dominante (grupo 4) (véase la FIGURA 8C).
La sección de determinación de grupos no dominantes 303 determina bandas de frecuencia continuas diferentes de los grupos dominantes como grupos no dominantes sin las bandas de frecuencia dominantes. En el ejemplo mostrado en las FIGURAS 8A a 8C, las sub-bandas 1 a 5 (grupo 1), las sub-bandas 13 a 16 (grupo 3) y las sub-bandas 23 a 25 (grupo 5) se determinan como grupos no dominantes respectivamente (véase la FIGURA 8C).
Como resultado, las envolturas espectrales cuant ificadas se dividen en cinco grupos, es decir, dos grupos dominantes (grupos 2 y 4) y tres grupos no dominantes (grupos 1, 3 y 5).
Utilizando este método de agrupación, es posible determinar de manera adaptable las anchuras de grupos de acuerdo con características de señales de entrada. De acuerdo con este método, el aparato de decodificación de habla/sonido también utiliza coeficientes de norma cuantificados
disponibles, y por lo tanto la necesidad de información adicional no se transmite al aparato de decodificación de habla/sonido .
Se debe observar que la sección de cálculo de variación de norma 306 calcula una variación de norma específica para un grupo. En los ejemplos mostrados en las FIGURAS 8A a 8C, la variación de norma Energíavar(G(2)) en el grupo 2 se muestra en la FIGURA 9 como referencia.
Despues, se describirá la importancia perceptual. Un espectro de una señal de habla/sonido incluye generalmente una pluralidad de picos (montañas) y valles. Un pico está constituido de un componente de espectro localizado en una frecuencia dominante de la señal de habla/sonido (componente de sonido dominante). El pico es muy importante perceptualmente . La importancia perceptual del pico puede ser determinada por una diferencia entre la energía del pico y la energía del valle, es decir, por una variación de norma. Teóricamente, cuando un pico tiene una energía suficientemente grande en comparación con las bandas de frecuencia adyacentes, el pico debe ser codificado con un número suficiente de bits, pero si el pico se codifica con un número insuficiente de bits, el ruido de codificación que se mezcla se vuelve prominente, causando que la calidad del sonido se deteriore. Por otra parte, un valle no está constituido de ningún componente de sonido dominante de una
señal de habla/sonido y no es importante perceptual ente.
De acuerdo con el método de agrupación de bandas de frecuencia de la presente modalidad, una banda de frecuencia dominante corresponde a un pico de un espectro y la agrupación de bandas de frecuencias significa la separación de los picos (grupos dominantes que incluyen bandas de frecuencia dominantes) de los valles (grupos no dominantes sin bandas de frecuencia dominantes).
La sección de distribución de bits de grupos 308 determina la importancia perceptual de un pico. En contraste a la téenica G.719 en la cual la importancia perceptual es determinada solo por la energía, la presente modalidad determina la importancia perceptual con base en tanto la energía como las distribuciones de normas (energía) y determina los bits que son distribuidos a cada grupo con base en la importancia perceptual determinada.
En la sección de distribución de bits de sub-bandas 309, cuando una variación de norma en un grupo es grande, esto significa que este grupo es uno de los picos, el pico es más importante perceptualmente y un coeficiente de norma que tiene un valor máximo debe ser codificado de manera exacta. Por esta razón, más bits son distribuidos a cada sub-banda de este pico. Por otra parte, cuando una variación de norma en un grupo es muy pequeña, esto significa que este grupo es uno de los valles, y el valle no es importante perceptualmente y
no es necesario que sea codificado de manera exacta. Por esta razón, se distribuyen menos bits a cada sub-banda de este grupo .
De esta manera, la presente modalidad identifica una banda de frecuencia dominante en la cual un valor de coeficiente de norma en un espectro de una señal de habla/sonido de entrada tiene un valor máximo local, agrupa todas las sub-bandas en grupos dominantes que incluyen una banda de frecuencia dominante y grupos no dominantes que no incluyen ninguna banda de frecuencia dominante, distribuye bits a cada grupo con base en la energía y variaciones de norma específicas para un grupo, y distribuye además los bits distribuidos en una base de grupo por grupo a cada sub-banda de acuerdo con una relación de una norma con respecto a la energía de cada grupo. De esta manera, es posible asignar más bits a grupos y sub-bandas importantes perceptualmente y realizar una distribución eficiente de bits. Como resultado, la calidad del sonido se puede mejorar.
Se debe observar que el coeficiente de norma en la presente modalidad representa energía de sub-banda y tambien es referido como "envoltura de energía".
La descripción de la Solicitud de Patente Japonesa No. 2012-272571, presentada el 13 de Diciembre de 2012, inclusive la especificación, las figuras y el resumen se incorpora en este documento a manera de referencia en su
totalidad.
Aplicabilidad Industrial
El aparato de codificación de habla/sonido, el aparato de decodificación de habla/sonido, el método de codificación de habla/sonido y el método de decodificación de habla/sonido de acuerdo con la presente invención son aplicables a un aparato terminal de radiocomunicación, un aparato de estación base de radiocomunicación, un aparato terminal de conferencia telefónica, un aparato terminal de videoconferencia y un aparato terminal de protocolo de voz sobre Internet (VoIP, por sus siglas en inglés) o similares. Lista de Signos de Referencia
101 Detector transitorio
102 Sección de transformación
103 Sección de estimación de normas
104 Sección de cuantificación de normas
105 Sección de normalización de espectro
106, 203 Sección de ajuste de normas
107, 204 Sección de asignación de bits
108 Sección de codificación de vectores reticulares
109 Sección de ajuste de nivel de ruido
110 Multiplexor
201 Desmultiplexor
202 Sección de descuantificación de normas
205 Sección de decodificación de retículo
206 Generador de llenado espectral
207 Adid onador
208 Sección de configuración de envoltura
209 Sección de transformación inversa
301 Sección de identificación de bandas de frecuencia dominantes
302-1 a 302-N Sección de determinación de grupos dominantes
303 Sección de determinación de grupos no dominantes
304 Sección de cálculo de energía de grupo
305 Sección de cálculo de energía total
306 Sección de cálculo de variación de norma
307 Sección de cálculo de variación de norma total
308 Sección de distribución de bits de grupos
309 Sección de distribución de bits de sub-bandas
Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención.
Claims (10)
1. Un aparato de codificación de habla/sonido, caracterizado porque comprende: una sección de transformación que transforma una señal de entrada de un dominio temporal a un dominio de frecuencia ; una sección de estimación que calcula una envoltura de energía la cual representa un nivel de energía para cada una de una pluralidad de sub-bandas obtenidas al dividir un espectro de frecuencia de la señal de entrada; una sección de cuantificación que cuantifica las envolturas de energía; una sección de determinación de grupos que agrupa las envolturas de energía cuantificadas en una pluralidad de grupos una primera sección de asignación de bits que asigna bits a la pluralidad de grupos; una segunda sección de asignación de bits que asigne los bits asignados a la pluralidad de grupos a sub bandas en una base de grupo por grupo; y una sección de codificación que codifica el espectro de frecuencia utilizando bits asignados a las sub bandas .
2. El aparato de codificación de habla/sonido de conformidad con la reivindicación 1, caracterizado porque comprende además una sección de identificación de bandas de frecuencia dominantes que identifica una banda de frecuencia dominante la cual es una sub-banda en la cual una envoltura de energía del espectro de frecuencia tiene un valor máximo local , en donde la sección de determinación de grupos determina la banda de frecuencia dominante y las sub-bandas en ambos lados de la banda de frecuencia dominante cada una que forma una pendiente descendiente de una envoltura de energía como grupos dominantes y determina sub-bandas continuas diferentes de la banda de frecuencia dominante como grupos no dominantes .
3. El aparato de codificación de habla/sonido de conformidad con la reivindicación 1, caracterizado porque comprende además: una sección de cálculo de energía que calcula la energía específica para un grupo; y una sección de cálculo de distribución que calcula una distribución de envoltura de energía específica para un grupo , en donde la primera sección de asignación de bits asigna. con base en la energía calculada específica para un grupo y la distribución de envoltura de energía específica para un grupo, más bits a un grupo cuando por lo menos una de la energía y la distribución de envoltura de energía es más grande y asigna menos bits a un grupo cuando por lo menos una de la energía y la distribución de envoltura de energía es más pequeña.
4. El aparato de codificación de habla/sonido de conformidad con la reivindicación 1, caracterizado porque la segunda sección de asignación de bits asigna más bits a una sub-banda que tiene una envoltura de energía más grande y asigna menos bits a una sub-banda que tiene una envoltura de energía más pequeña.
5. Un aparato de decodificación de habla/sonido, caracterizado porque comprende: una sección de descuantificación que descuantifica una envoltura espectral cuantificada; una sección de determinación de grupos que agrupa las envolturas espectrales cuantif icadas en una pluralidad de grupos; una primera sección de asignación de bits que asigna bits a la pluralidad de grupos; una segunda sección de asignación de bits que asigna los bits asignados a la pluralidad de grupos a sub bandas en una base de grupo por grupo; una sección de decodificación que decodifica un espectro de frecuencia de una señal de habla/sonido utilizando los bits asignados a las sub-bandas; una sección de configuración de envoltura que aplica la envoltura espectral descuantificada al espectro de frecuencia decodificado y reproduce un espectro decodificado; y una sección de transformación inversa que transforma de manera inversa el espectro decodificado de un dominio de frecuencia a un dominio temporal.
6 . El aparato de decodificación de habla/sonido de conformidad con la reivindicación 5, caracterizado porque comprende además una sección de identificación de bandas de frecuencia dominantes que identifica una banda de frecuencia dominante la cual es una sub-banda en la cual una envoltura de energía del espectro de frecuencia tiene un valor máximo local , en donde la sección de determinación de grupos determina la banda de frecuencia dominante y las sub-bandas en ambos lados de la banda de frecuencia dominante cada una que forma una pendiente descendiente de una envoltura de energía como grupos dominantes y determina sub-bandas continuas diferentes de la banda de frecuencia dominante como grupos no dominantes .
7. El aparato de decodificación de habla/sonido de conformidad con la reivindicación 5, caracterizado porque comprende además: una sección de cálculo de energía que calcula la energía específica para un grupo; y una sección de cálculo de distribución que calcula una envoltura de energía específica para un grupo, en donde la primera sección de asignación de bits asigna, con base en la energía calculada específica para un grupo y la distribución de envoltura de energía específica para un grupo, más bits a grupos cuando por lo menos una de la energía y la distribución de envoltura de energía es más grande y asigna menos bits a grupos cuando por lo menos una de la energía y la distribución de envoltura de energía es más pequeña.
8. El aparato de decodificación de habla/sonido de conformidad con la reivindicación 5, caracterizado porque la segunda sección de asignación de bits asigna más bits a sub-bandas que tienen una envoltura de energía más grande y asigna menos bits a sub-bandas que tienen una envoltura de energía más pequeña.
9. Un metodo de codificación de habla/sonido, caracterizado porque comprende: transformar una señal de entrada de un dominio temporal a un dominio de frecuencia; calcular una envoltura de energía que representa un nivel de energía para cada una de una pluralidad de sub-bandas obtenidas al dividir un espectro de frecuencia de la señal de entrada; cuantificar las envolturas de energía; agrupar las envolturas de energía cuantificadas en una pluralidad de grupos; asignar bits a la pluralidad de grupos; asignar los bits asignados a la pluralidad de grupos a sub-bandas en una base de grupo por grupo; y codificar el espectro de frecuencia utilizando bits asignados a las sub-bandas.
10. Un método de decodificación de habla/sonido, caracterizado porque comprende; descuantif icar una envoltura espectral cuantif icada; agrupar la envoltura espectral cuantificada en una pluralidad de grupos; asignar bits a la pluralidad de grupos; asignar los bits asignados a la pluralidad de grupos a sub-bandas en una base de grupo por grupo; decodificar un espectro de frecuencia de una señal de habla/sonido utilizando los bits asignados a las sub-bandas; aplicar la envoltura espectral descuantificada al espectro de frecuencia decodificado y reproducir un espectro decodificado; y transformar de manera inversa el espectro decodificado de un dominio de frecuencia a un dominio temporal.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012272571 | 2012-12-13 | ||
PCT/JP2013/006948 WO2014091694A1 (ja) | 2012-12-13 | 2013-11-26 | 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
MX2015006161A true MX2015006161A (es) | 2015-08-07 |
MX341885B MX341885B (es) | 2016-09-07 |
Family
ID=50934002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
MX2015006161A MX341885B (es) | 2012-12-13 | 2013-11-26 | Dispositivo de codificacion de sonido de voz, dispositivo de decodificacion de sonido de voz, metodo de codificacion de sonido de voz y metodo de decodificacion de sonido de voz. |
Country Status (13)
Country | Link |
---|---|
US (3) | US9767815B2 (es) |
EP (3) | EP3232437B1 (es) |
JP (3) | JP6535466B2 (es) |
KR (1) | KR102200643B1 (es) |
CN (2) | CN104838443B (es) |
BR (1) | BR112015013233B8 (es) |
ES (3) | ES2706148T3 (es) |
HK (1) | HK1249651A1 (es) |
MX (1) | MX341885B (es) |
PL (3) | PL2933799T3 (es) |
PT (2) | PT2933799T (es) |
RU (1) | RU2643452C2 (es) |
WO (1) | WO2014091694A1 (es) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104838443B (zh) * | 2012-12-13 | 2017-09-22 | 松下电器(美国)知识产权公司 | 语音声响编码装置、语音声响解码装置、语音声响编码方法及语音声响解码方法 |
EP3066760B1 (en) * | 2013-11-07 | 2020-01-15 | Telefonaktiebolaget LM Ericsson (publ) | Methods and devices for vector segmentation for coding |
EP4407609A3 (en) * | 2013-12-02 | 2024-08-21 | Top Quality Telephony, Llc | A computer-readable storage medium and a computer software product |
CN106409303B (zh) * | 2014-04-29 | 2019-09-20 | 华为技术有限公司 | 处理信号的方法及设备 |
JP6318904B2 (ja) * | 2014-06-23 | 2018-05-09 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム |
PL3174050T3 (pl) | 2014-07-25 | 2019-04-30 | Fraunhofer Ges Forschung | Urządzenie do kodowania sygnałów audio, urządzenie do dekodowania sygnałów audio i ich sposoby |
KR102709737B1 (ko) * | 2016-11-30 | 2024-09-26 | 삼성전자주식회사 | 오디오 신호를 전송하는 전자 장치 및 오디오 신호를 전송하는 전자 장치의 제어 방법 |
US10699721B2 (en) * | 2017-04-25 | 2020-06-30 | Dts, Inc. | Encoding and decoding of digital audio signals using difference data |
KR20190069192A (ko) | 2017-12-11 | 2019-06-19 | 한국전자통신연구원 | 오디오 신호의 채널 파라미터 예측 방법 및 장치 |
US10559315B2 (en) | 2018-03-28 | 2020-02-11 | Qualcomm Incorporated | Extended-range coarse-fine quantization for audio coding |
US10586546B2 (en) | 2018-04-26 | 2020-03-10 | Qualcomm Incorporated | Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding |
US10734006B2 (en) | 2018-06-01 | 2020-08-04 | Qualcomm Incorporated | Audio coding based on audio pattern recognition |
US10762910B2 (en) | 2018-06-01 | 2020-09-01 | Qualcomm Incorporated | Hierarchical fine quantization for audio coding |
US10580424B2 (en) * | 2018-06-01 | 2020-03-03 | Qualcomm Incorporated | Perceptual audio coding as sequential decision-making problems |
CN109286922B (zh) * | 2018-09-27 | 2021-09-17 | 珠海市杰理科技股份有限公司 | 蓝牙提示音处理方法、系统、可读存储介质和蓝牙设备 |
KR20200142787A (ko) * | 2019-06-13 | 2020-12-23 | 네이버 주식회사 | 멀티미디어 신호 인식을 위한 전자 장치 및 그의 동작 방법 |
CN112037802B (zh) * | 2020-05-08 | 2022-04-01 | 珠海市杰理科技股份有限公司 | 基于语音端点检测的音频编码方法及装置、设备、介质 |
Family Cites Families (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4899384A (en) | 1986-08-25 | 1990-02-06 | Ibm Corporation | Table controlled dynamic bit allocation in a variable rate sub-band speech coder |
US5222189A (en) * | 1989-01-27 | 1993-06-22 | Dolby Laboratories Licensing Corporation | Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio |
US5893065A (en) * | 1994-08-05 | 1999-04-06 | Nippon Steel Corporation | Apparatus for compressing audio data |
US5956674A (en) | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
JP3189660B2 (ja) * | 1996-01-30 | 2001-07-16 | ソニー株式会社 | 信号符号化方法 |
US6246945B1 (en) * | 1996-08-10 | 2001-06-12 | Daimlerchrysler Ag | Process and system for controlling the longitudinal dynamics of a motor vehicle |
JPH10233692A (ja) * | 1997-01-16 | 1998-09-02 | Sony Corp | オーディオ信号符号化装置および符号化方法並びにオーディオ信号復号装置および復号方法 |
KR100261254B1 (ko) | 1997-04-02 | 2000-07-01 | 윤종용 | 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치 |
KR100261253B1 (ko) | 1997-04-02 | 2000-07-01 | 윤종용 | 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치 |
EP0966109B1 (en) * | 1998-06-15 | 2005-04-27 | Matsushita Electric Industrial Co., Ltd. | Audio coding method and audio coding apparatus |
JP3466507B2 (ja) * | 1998-06-15 | 2003-11-10 | 松下電器産業株式会社 | 音声符号化方式、音声符号化装置、及びデータ記録媒体 |
JP3434260B2 (ja) * | 1999-03-23 | 2003-08-04 | 日本電信電話株式会社 | オーディオ信号符号化方法及び復号化方法、これらの装置及びプログラム記録媒体 |
US6246345B1 (en) | 1999-04-16 | 2001-06-12 | Dolby Laboratories Licensing Corporation | Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding |
DK1175670T4 (da) * | 1999-04-16 | 2007-11-19 | Dolby Lab Licensing Corp | Audiokodning ved hjælp af forstærkningsadaptiv kvantificering og symboler med uensartet længde |
JP4242516B2 (ja) * | 1999-07-26 | 2009-03-25 | パナソニック株式会社 | サブバンド符号化方式 |
JP4168976B2 (ja) * | 2004-05-28 | 2008-10-22 | ソニー株式会社 | オーディオ信号符号化装置及び方法 |
KR100888474B1 (ko) * | 2005-11-21 | 2009-03-12 | 삼성전자주식회사 | 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법 |
JP4548348B2 (ja) | 2006-01-18 | 2010-09-22 | カシオ計算機株式会社 | 音声符号化装置及び音声符号化方法 |
KR101434198B1 (ko) * | 2006-11-17 | 2014-08-26 | 삼성전자주식회사 | 신호 복호화 방법 |
KR101412255B1 (ko) * | 2006-12-13 | 2014-08-14 | 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 | 부호화 장치, 복호 장치 및 이들의 방법 |
JP4973397B2 (ja) * | 2007-09-04 | 2012-07-11 | 日本電気株式会社 | 符号化装置および符号化方法、ならびに復号化装置および復号化方法 |
CN101868821B (zh) * | 2007-11-21 | 2015-09-23 | Lg电子株式会社 | 用于处理信号的方法和装置 |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
WO2010031003A1 (en) * | 2008-09-15 | 2010-03-18 | Huawei Technologies Co., Ltd. | Adding second enhancement layer to celp based core layer |
KR101301245B1 (ko) * | 2008-12-22 | 2013-09-10 | 한국전자통신연구원 | 스펙트럼 계수의 서브대역 할당 방법 및 장치 |
US8386266B2 (en) | 2010-07-01 | 2013-02-26 | Polycom, Inc. | Full-band scalable audio codec |
CN102081927B (zh) * | 2009-11-27 | 2012-07-18 | 中兴通讯股份有限公司 | 一种可分层音频编码、解码方法及系统 |
WO2011080916A1 (ja) | 2009-12-28 | 2011-07-07 | パナソニック株式会社 | 音声符号化装置および音声符号化方法 |
US20130030796A1 (en) | 2010-01-14 | 2013-01-31 | Panasonic Corporation | Audio encoding apparatus and audio encoding method |
US9236063B2 (en) * | 2010-07-30 | 2016-01-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for dynamic bit allocation |
JP5695074B2 (ja) | 2010-10-18 | 2015-04-01 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 音声符号化装置および音声復号化装置 |
CN102741831B (zh) * | 2010-11-12 | 2015-10-07 | 宝利通公司 | 多点环境中的可伸缩音频 |
EP2681734B1 (en) * | 2011-03-04 | 2017-06-21 | Telefonaktiebolaget LM Ericsson (publ) | Post-quantization gain correction in audio coding |
EP2701144B1 (en) * | 2011-04-20 | 2016-07-27 | Panasonic Intellectual Property Corporation of America | Device and method for execution of huffman coding |
US9536534B2 (en) * | 2011-04-20 | 2017-01-03 | Panasonic Intellectual Property Corporation Of America | Speech/audio encoding apparatus, speech/audio decoding apparatus, and methods thereof |
TWI606441B (zh) | 2011-05-13 | 2017-11-21 | 三星電子股份有限公司 | 解碼裝置 |
CN102208188B (zh) * | 2011-07-13 | 2013-04-17 | 华为技术有限公司 | 音频信号编解码方法和设备 |
WO2013061531A1 (ja) * | 2011-10-28 | 2013-05-02 | パナソニック株式会社 | 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法 |
US9454972B2 (en) | 2012-02-10 | 2016-09-27 | Panasonic Intellectual Property Corporation Of America | Audio and speech coding device, audio and speech decoding device, method for coding audio and speech, and method for decoding audio and speech |
CN104838443B (zh) * | 2012-12-13 | 2017-09-22 | 松下电器(美国)知识产权公司 | 语音声响编码装置、语音声响解码装置、语音声响编码方法及语音声响解码方法 |
EP4407609A3 (en) * | 2013-12-02 | 2024-08-21 | Top Quality Telephony, Llc | A computer-readable storage medium and a computer software product |
JP6358500B2 (ja) | 2014-06-06 | 2018-07-18 | 株式会社リコー | クリーニングブレード、画像形成装置、及びプロセスカートリッジ |
-
2013
- 2013-11-26 CN CN201380063794.XA patent/CN104838443B/zh active Active
- 2013-11-26 CN CN201710759624.5A patent/CN107516531B/zh active Active
- 2013-11-26 EP EP17173916.2A patent/EP3232437B1/en active Active
- 2013-11-26 RU RU2015121716A patent/RU2643452C2/ru active
- 2013-11-26 EP EP13862073.7A patent/EP2933799B1/en active Active
- 2013-11-26 MX MX2015006161A patent/MX341885B/es active IP Right Grant
- 2013-11-26 ES ES17173916T patent/ES2706148T3/es active Active
- 2013-11-26 ES ES13862073.7T patent/ES2643746T3/es active Active
- 2013-11-26 BR BR112015013233A patent/BR112015013233B8/pt active Search and Examination
- 2013-11-26 US US14/650,093 patent/US9767815B2/en active Active
- 2013-11-26 PL PL13862073T patent/PL2933799T3/pl unknown
- 2013-11-26 EP EP18202397.8A patent/EP3457400B1/en active Active
- 2013-11-26 PT PT138620737T patent/PT2933799T/pt unknown
- 2013-11-26 PL PL17173916T patent/PL3232437T3/pl unknown
- 2013-11-26 ES ES18202397T patent/ES2970676T3/es active Active
- 2013-11-26 PL PL18202397.8T patent/PL3457400T3/pl unknown
- 2013-11-26 KR KR1020157016672A patent/KR102200643B1/ko active IP Right Grant
- 2013-11-26 WO PCT/JP2013/006948 patent/WO2014091694A1/ja active Application Filing
- 2013-11-26 JP JP2014551851A patent/JP6535466B2/ja active Active
- 2013-11-26 PT PT17173916T patent/PT3232437T/pt unknown
-
2017
- 2017-08-10 US US15/673,957 patent/US10102865B2/en active Active
-
2018
- 2018-06-22 HK HK18108017.2A patent/HK1249651A1/zh unknown
- 2018-09-25 US US16/141,934 patent/US10685660B2/en active Active
-
2019
- 2019-06-03 JP JP2019103964A patent/JP7010885B2/ja active Active
-
2022
- 2022-01-13 JP JP2022003475A patent/JP2022050609A/ja active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10685660B2 (en) | Voice audio encoding device, voice audio decoding device, voice audio encoding method, and voice audio decoding method | |
EP3594943A1 (en) | Device and method for execution of huffman coding | |
EP3525206B1 (en) | Encoding method and apparatus | |
US20200365164A1 (en) | Adaptive Gain-Shape Rate Sharing | |
MX2014011605A (es) | Metodos y dispositivos de codificacion y descodificacion de señal. | |
CN111710342A (zh) | 编码装置、解码装置、编码方法、解码方法及程序 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FG | Grant or registration |