MX2015006161A

MX2015006161A - Dispositivo de codificacion de sonido de voz, dispositivo de decodificacion de sonido de voz, metodo de codificacion de sonido de voz y metodo de decodificacion de sonido de voz.

Info

Publication number: MX2015006161A
Application number: MX2015006161A
Authority: MX
Inventors: Masahiro Oshikiri; Zongxian Liu; Srikanth Nagisetty
Original assignee: Panasonic Ip Corp America
Priority date: 2012-12-13
Filing date: 2013-11-26
Publication date: 2015-08-07
Also published as: ES2643746T3; US10102865B2; JP7010885B2; EP3457400C0; US9767815B2; ES2706148T3; EP3232437B1; US20170345431A1; CN104838443B; EP2933799B1; JP2022050609A; JP2019191594A; RU2643452C2; CN107516531A; EP3457400A1; CN107516531B; EP3457400B1; PL3232437T3; PL3457400T3; KR102200643B1

Abstract

Se proporciona un dispositivo de codificación de voz-sonido, un dispositivo de decodificación de voz-sonido, un método de codificación de voz-sonido y un método de decodificación de voz-sonido que realiza eficientemente la distribución de bits y mejora la calidad del sonido. La unidad de identificación de bandas de frecuencia dominantes (301) identifica una banda de frecuencia dominante que tiene un valor de factor de norma que es el valor máximo dentro del espectro de una señal de voz-sonido de entrada. Las unidades de determinación de grupos dominantes (302-1 a 302-N) y una unidad de determinación de grupos no dominantes (303) agrupan todas las sub-bandas en un grupo dominante que contiene la banda de frecuencia dominante y un grupo no dominante que no contiene una banda de frecuencia dominante. Una unidad de distribución de bits de grupos (308) distribuye bits a cada grupo en la base de la energía y la distribución de norma de cada grupo. Una unidad de distribución de bits de sub-bandas (309) redistribuye los bits que han sido distribuidos a cada grupo a cada sub-banda de acuerdo con la relación de la norma con respecto a la energía de los grupos.

Description

DISPOSITIVO DE CODIFICACION DE SONIDO DE VOZ, DISPOSITIVO DE DECODIFICACIÓN DE SONIDO DE VOZ, MÉTODO DE CODIFICACIÓN DE SONIDO DE VOZ Y MÉTODO DE DECODIFICACIÓN DE SONIDO DE VOZ Campo de la Invención La presente invención se refiere a un aparato de codificación de habla/sonido, un aparato de decodificación de habla/sonido, un método de codificación de habla/sonido y un método de decodificación de habla/sonido utilizando un esquema de codificación de transformación.

Antecedentes de la Invención Como un esquema capaz de codificar eficientemente una señal de habla o una señal de música en una banda completa (FB, por sus siglas en inglés) de 0.02 a 20 kHz, existe una téenica estandarizada en ITU-T (Sector de Estandarización de Telecomunicaciones de la Unión Internacional de Telecomunicaciones). Esta técnica transforma una señal de entrada en una señal de dominio de frecuencia y codifica una banda de hasta 20 kHz (codificación de transformación) .

En este documento, la codificación de transformación es un esquema de codificación que transforma una señal de entrada de un dominio temporal en un dominio de frecuencia utilizando una transformación de tiempo/frecuencia tal como una transformación discreta de coseno (DCT, por sus Ref.256387 siglas en ingles) o una transformación discreta de coseno modificada (MDCT, por sus siglas en inglés) para hacer posible que una señal sea mapeada en correspondencia discreta con características auditivas.

En la codificación de transformación, un coeficiente espectral se divide en una pluralidad de sub bandas de frecuencia. En la codificación de cada sub-banda, la asignación de más bits de cuantificación a una banda la cual es perceptualmente importante para el oído humano hace posible mejorar la calidad total del sonido.

Con el propósito de alcanzar este objetivo, se están llevando a cabo estudios sobre esquemas eficientes de asignación de bits, y por ejemplo, se conoce una téenica dada a conocer en la Bibliografía que no es Patente (en lo sucesivo, referida como "NPL", por sus siglas en inglés) 1. En lo sucesivo, el esquema de asignación de bits dado a conocer en la Bibliografía de Patente (en lo sucesivo, referida como "PTL" , por sus siglas en inglés) 1 se describirá utilizando la FIGURA 1 y la FIGURA 2.

La FIGURA 1 es un diagrama de bloques que ilustra una configuración de un aparato de codificación de habla/sonido dado a conocer en la PTL 1. Una señal de entrada muestreada a 48 kHz se introduce al detector transitorio 11 y el sector de transformación 12 del aparato de codificación de habla/sonido.

El detector transitorio 11 detecta, de la señal de entrada, ya sea una trama transitoria que corresponde a un borde delantero o un borde final del habla o una trama estacionaria que corresponde a una sección de habla diferente de aquella, y una sección de transformación 12 aplica, a la trama de la señal de entrada, una transformación de resolución de alta frecuencia o una transformación de resolución de baja frecuencia dependiendo si la trama detectada por el detector transitorio 11 es una trama transitoria o una trama estacionaria, y adquiere un coeficiente espectral (o coeficiente de transformación).

La sección de estimación de normas 13 divide el coeficiente espectral obtenido en la sección de transformación 12 en bandas de diferentes anchuras de banda. La sección de estimación de normas 13 calcula una norma (o energía) de cada banda dividida.

La sección de cuantificación de normas 14 determina una envoltura espectral constituida de las normas de todas las bandas con base en la norma de cada banda calculada por la sección de estimación de normas 13 y cuantifica la envoltura espectral determinada.

La sección de normalización de espectro 15 normaliza el coeficiente espectral obtenido por la sección de transformación 12 de acuerdo con la norma cuantificada por la sección de cuantificación de normas 14.

La sección de ajuste de normas 16 ajusta la norma cuantificada por la sección de cuantificación de normas 14 con base en la ponderación espectral adaptable.

La sección de asignación de bits 17 asigna bits disponibles para cada banda en una trama utilizando la norma de cuantificación ajustada por la sección de ajuste de normas 16.

La sección de codificación de vectores reticulares 18 realiza la codificación de vectores reticulares sobre el coeficiente espectral normalizado por la sección de normalización de espectro 15 utilizando bits asignados para cada banda por la sección de asignación de bits 17.

La sección de ajuste de nivel de ruido 19 calcula el nivel del coeficiente espectral antes de la codificación en la sección de codificación de vectores reticulares 18 y codifica el nivel calculado. De esta manera, se obtiene un índice de ajuste de nivel de ruido.

El multiplexor 20 ultiplexa una configuración de trama de la señal de entrada adquirida por la sección de transformación 12, es decir, un indicador de señal transitorio que señala si la trama es una trama estacionaria o una trama transitoria, la norma cuantificada por la sección de cuantificación de normas 14, el vector de codificación reticular obtenido por la sección de codificación de vectores reticulares 18 y el índice de ajuste de nivel de ruido obtenido por la sección de ajuste de nivel de ruido 19 y forma una corriente de bits y transmite la corriente de bits a un aparato de decodificación de habla/sonido.

La FIGURA 2 es un diagrama de bloques que ilustra una configuración del aparato de decodificación de habla/sonido dado a conocer en la PTL 1. El aparato de decodificación de habla/sonido recibe la corriente de bits transmitida del aparato de codificación de habla/sonido y el desmultiplexor 21 desmultiplexa la corriente de bits.

La sección de descuantif icación de normas 22 descuantif ica la norma cuantificad , adquiere una envoltura espectral constituida de normas de todas las bandas y la sección de ajuste de normas 23 ajusta la norma descuantif icada por la sección de descuantificación de normas 22 con base en la ponderación espectral adaptable.

La sección de asignación de bits 24 asigna bits disponibles para cada banda en una trama utilizando las normas ajustadas por la sección de ajuste de normas 23. Es decir, la sección de asignación de bits 24 recalcula la asignación de bits indispensable para decodificar el código de vector reticular del coeficiente espectral normalizado.

La sección de decodificación de retículo 25 decodifica un indicador de señal transitorio, decodifica el vector de codificación reticular con base en una configuración de trama señalada por el indicador de señal transitorio decodificado y los bits asignados por la sección de asignación de bits 24 y adquiere un coeficiente espectral .

El generador de llenado espectral 26 regenera un coeficiente espectral de baja frecuencia al cual no se ha asignado un bit utilizando un libro de códigos creado con base en el coeficiente espectral decodificado por la sección de decodificación de retículo 25. El generador de llenado espectral 26 ajusta el nivel del coeficiente espectral regenerado utilizando un índice de ajuste de nivel de ruido. Adicionalmente, el generador de llenado espectral 26 regenera un coeficiente espectral no codificado de alta frecuencia utilizando un coeficiente espectral codificado de baja frecuencia.

El adicionar 27 agrega el coeficiente espectral decodificado y el coeficiente espectral regenerado, y genera un coeficiente espectral normalizado.

La sección de configuración de envoltura 28 aplica la envoltura espectral descuant ificada por la sección de descuantif icación de normas 22 al coeficiente espectral normalizado que es generado por el adicionador 27 y genera un coeficiente espectral de banda completa.

La sección de transformación inversa 29 aplica una transformación inversa tal como una transformación discreta de coseno modificada, inversa (IMDCT, por sus siglas en inglés) al coeficiente espectral de banda completa generado por la sección de configuración de envoltura 28 para transformarlo en una señal de dominio temporal. En este documento, la transformación inversa con resolución de alta frecuencia se aplica a un caso con una trama estacionaria y la transformación inversa con resolución de baja frecuencia se aplica a un caso con una trama transitoria.

En G.719, los coeficientes espectrales se dividen en grupos de espectros. Cada grupo de espectros se divide en bandas de sub-vectores de longitud igual como se muestra en la FIGURA 3. Los sub-vectores tienen una longitud diferente de un grupo a otro y esta longitud incrementa conforme incrementa la frecuencia. Con respecto a la resolución de transformación, la resolución de frecuencia más alta se utiliza para frecuencias bajas, mientras que la resolución de frecuencia más baja se utiliza para frecuencias altas. Como se describe en G.719, la agrupación permite un uso eficiente del presupuesto de bits disponible durante la codificación.

En G.719, el esquema de asignación de bits es idéntico en un aparato de codificación y un aparato de decodificación. En este documento, el esquema de asignación de bits se describirá utilizando la FIGURA 4.

Como se muestra en la FIGURA 4, en el paso (abreviado en lo sucesivo como "ST") 31, las normas cuantificadas se ajustan antes de una asignación de bits para ajustar los efectos de ponderación y enmascaramiento psico-acústicos .

En el ST32, las sub-bandas que tienen una norma máxima se identifican de entre todas las sub-bandas y en el ST33, un bit se asigna a cada coeficiente espectral para las sub-bandas que tienen la norma máxima. Es decir, se asignan tantos bits como coeficientes espectrales.

En el ST34, las normas se reducen de acuerdo con los bits asignados, y en el ST35, se determina si el número restante de bits asignables es 8 o más. Cuando el número restante de bits asignables es 8 o más, el flujo regresa al ST32 y cuando el número restante de bits asignables es menor que 8, el procedimiento de asignación de bits se termina .

De esta manera, en el esquema de asignación de bits, los bits disponibles dentro de una trama se asignan entre sub-bandas utilizando las normas de cuantificación ajustadas. Los coeficientes espectrales normalizados son codificados por la codificación de vectores reticulares utilizando los bits asignados a cada sub-banda.

Lista de Referencias Bibliografía de Patente NPL 1 ITU-T Recommendation G.719, "Low-complexity full-band audio coding for high-quality conversational applications", ITU-T, Breve Descripción de la Invención Problema Teenico Sin embargo, el esquema anterior de asignación de bits no toma en consideración las características de señal de entrada cuando se agrupan bandas espectrales y por lo tanto tiene un problema respecto a que no es posible la asignación eficiente de bits y no se puede esperar un mejoramiento adicional de la calidad del sonido.

Un objetivo de la presente invención es proporcionar un aparato de codificación de habla/sonido, un aparato de decodif icación de habla/sonido, un método de codificación de habla/sonido y un método de decodificación de habla/sonido capaces de realizar la asignación eficiente de bits y de mejorar la calidad del sonido.

Solución al Problema Un aparato de codificación de habla/sonido de la presente invención incluye: una sección de transformación que transforma una señal de entrada de un dominio temporal a un dominio de frecuencia; una sección de estimación que calcula una envoltura de energía la cual representa un nivel de energía para cada una de una pluralidad de sub-bandas obtenidas al dividir un espectro de frecuencia de la señal de entrada; una sección de cuantificación que cuantifica las envolturas de energía; una sección de determinación de grupos que agrupa las envolturas de energía cuantificadas en una pluralidad de grupos; una primera sección de asignación de bits que asigna bits a la pluralidad de grupos; una segunda sección de asignación de bits que asigna los bits asignados a la pluralidad de grupos a sub-bandas en una base de grupo por grupo; y una sección de codificación que codifica el espectro de frecuencia utilizando bits asignados a las sub-bandas.

Un aparato de decodificación de habla/sonido de acuerdo con la presente invención incluye: una sección de descuantif icación que descuantifica una envoltura espectral cuantif icada; una sección de determinación de grupos que agrupa las envolturas espectrales cuantificadas en una pluralidad de grupos; una primera sección de asignación de bits que asigna bits a la pluralidad de grupos; una segunda sección de asignación de bits que asigna los bits asignados a la pluralidad de grupos de sub-bandas en una base de grupo por grupo; una sección de decodificación que decodifica un espectro de frecuencia de una señal de habla/sonido utilizando los bits asignados a las sub-bandas; una sección de configuración de envoltura que aplica la envoltura espectral descuantificada al espectro de frecuencia decodificado y reproduce un espectro decodificado; y una sección de transformación inversa que transforma de manera inversa el espectro decodificado de un dominio de frecuencia a un dominio temporal.

Un metodo de codificación de habla/sonido de acuerdo con la presente invención incluye: transformar una señal de entrada de un dominio temporal a un dominio de frecuencia; calcular una envoltura de energía que representa un nivel de energía para cada una de una pluralidad de subbandas obtenidas al dividir un espectro de frecuencia de la señal de entrada; cuantificar las envolturas de energía; agrupar las envolturas de energía cuantif icadas en una pluralidad de grupos; asignar bits a la pluralidad de grupos; asignar los bits asignados a la pluralidad de grupos a sub bandas en una base de grupo por grupo; y codificar el espectro de frecuencia utilizando bits asignados a las sub bandas .

Un método de decodificación de habla/sonido de acuerdo con la presente invención incluye: descuantificar una envoltura espectral cuantificada; agrupar la envoltura espectral cuantificada en una pluralidad de grupos; asignar bits a la pluralidad de grupos; asignar los bits asignados a la pluralidad de grupos a sub-bandas en una base de grupo por grupo; decodificar un espectro de frecuencia de una señal de habla/sonido utilizando los bits asignados a las sub-bandas; aplicar la envoltura espectral descuantificada al espectro de frecuencia decodificado y reproducir un espectro decodif icado; y transformar de manera inversa el espectro decodificado de un dominio de frecuencia a un dominio temporal .

Efectos Ventajosos de la Invención De acuerdo con la presente invención, es posible realizar una asignación eficiente de bits y mejorar la calidad del sonido.

Breve Descripción de las Figuras La FIGURA 1 es un diagrama de bloques que ilustra una configuración de un aparato de codificación de habla/sonido dado a conocer en la PTL 1; la FIGURA 2 es un diagrama de bloques que ilustra una configuración de un aparato de decodificación de habla/sonido dado a conocer en la PTL 1; la FIGURA 3 es un diagrama que ilustra la agrupación de coeficientes espectrales en un modo estacionario dado a conocer en la PTL1; la FIGURA 4 es un diagrama de flujo que ilustra un esquema de asignación de bits dado a conocer en la PTL 1; la FIGURA 5 es un diagrama de bloques que ilustra una configuración de un aparato de codificación de habla/sonido de acuerdo con una modalidad de la presente invención; la FIGURA 6 es un diagrama de bloques que ilustra una configuración de un aparato de decodificación de habla/ sonido de acuerdo con una modalidad de la presente invención; la FIGURA 7 es un diagrama de bloques que ilustra una configuración interna de la sección de asignación de bits mostrada en la FIGURA 5; las FIGURAS 8A a 8C son diagramas proporcionados para describir un método de agrupación de acuerdo con una modalidad de la presente invención; y la FIGURA 9 es un diagrama que ilustra una variación de la norma.

Descripción Detallada de la Invención En lo sucesivo, las modalidades de la presente invención se describirán en detalle con referencia a las figuras asociados.

Modalidad La FIGURA 5 es un diagrama de bloques que ilustra una configuración de un aparato de codificación de habla/sonido 100 de acuerdo con una modalidad de la presente invención. Una señal de entrada muestreada a 48 kHz se introduce al detector transitorio 101 y la sección de transformación 102 del aparato de codificación de habí a/sonido 100.

El detector transitorio 101 detecta, a partir de una señal de entrada, ya sea una trama transitoria que corresponde a un borde delantero o un borde final de habla o una trama estacionaria que corresponde a una sección de habla diferente de aquella, y envía el resultado de la detección a la sección de transformación 102 . La sección de transformación 102 aplica, a la trama de la señal de entrada, una transformación de resolución de alta frecuencia o una transformación de resolución de baja frecuencia dependiendo si el resultado de la detección enviado desde el detector transitorio 101 es una trama transitoria o una trama estacionaria, y adquiere un coeficiente espectral (o coeficiente de transformación) y envía el coeficiente espectral a la estación de estimación de normas 103 y la sección de normalización de espectro 105. La sección de transformación 102 envía una configuración de trama la cual es el resultado de la detección enviado desde el detector transitorio 101, es decir, un indicador de señal transitorio que señala si la trama es una trama estacionaria o una trama transitoria al multiplexor 110.

La sección de estimación de normas 103 divide el coeficiente espectral enviado desde la sección de transformación 102 en bandas de diferentes anchuras de banda y calcula una norma (o energía) de cada banda dividida. La sección de estimación de normas 103 envía la norma estimada de cada banda a la sección de cuantificación de normas 104.

La sección de cuantificación de normas 104 determina una envoltura espectral constituida de normas de todas las bandas con base en normas de bandas respectivas enviadas desde la sección de estimación de normas 103, cuantifica la envoltura espectral determinada y envía la envoltura espectral cuantificada a la sección de normalización de espectro 105 y la sección de ajuste de normas 106.

La sección de normalización de espectro 105 normaliza el coeficiente espectral enviado desde la sección de transíormación 102 de acuerdo con la envoltura espectral cuantificada enviada desde la sección de cuantificación de normas 104 y envía el coeficiente espectral normalizado a la sección de codificación de vectores reticulares 108.

La sección de ajuste de normas 106 ajusta la envoltura espectral cuantificada que es enviada desde la sección de cuantificación de normas 104 con base en una ponderación espectral adaptable y envía la envoltura espectral, cuantificada, ajustada a la sección de asignación de bits 107.

La sección de asignación de bits 107 asigna bits disponibles para cada banda en una trama utilizando la envoltura espectral, cuantificada, ajustada que es enviada desde la sección de ajuste de normas 106 y envía los bits asignados a la sección de codificación de vectores reticulares 108. Los detalles de la sección de asignación de bits 107 se describirán posteriormente.

La sección de codificación de vectores reticulares 108 realiza la codificación de vectores reticulares sobre el coeficiente espectral normalizado por la sección de normalización de espectro 105 utilizando los bits asignados para cada banda en la sección de asignación de bits 107 y envía el vector de codificación reticular a la sección de ajuste de nivel de ruido 109 y al multiplexor 110.

La sección de ajuste de nivel de ruido 109 calcula el nivel de coeficiente espectral antes de la codificación en la sección de codificación de vectores reticulares 108 y codifica el nivel estimado. Un índice de ajuste de nivel de ruido se determina de esta manera. El índice de ajuste de nivel de ruido es enviado al multiplexor 110.

El multiplexor 110 multiplexa el indicador de señal transitorio enviado desde la sección de transformación 102, la envoltura espectral cuantificada enviada desde de la sección de cuantificación de normas 104, el vector de codificación reticular enviado desde la sección de codificación de vectores reticulares 108 y el índice de ajuste de nivel de ruido enviado desde la sección de ajuste de nivel de ruido 109 y forma una corriente de bits y transmite la corriente de bits a un aparato de decodificación de habla/sonido.

La FIGURA 6 es un diagrama de bloques que ilustra una configuración del aparato de decodificación de habla/sonido 200 de acuerdo con una modalidad de la presente invención. Una corriente de bits transmitida desde el aparato de codificación de habla/sonido 100 es recibida por el aparato de decodificación de habla/sonido 200 y desmulti lexada por el desmultiplexor 201.

La sección de descuantificación de normas 202 descuantif ica la envoltura espectral cuantificada (es decir, la norma) enviada desde el multiplexor, obtiene una envoltura espectral constituida de normas de todas las bandas y envía la envoltura espectral obtenida a la sección de ajuste de normas 203.

La sección de ajuste de normas 203 ajusta la envoltura espectral enviada desde la sección de descuantif icación de normas 202 con base en la ponderación espectral adaptable y envía la envoltura espectral ajustada a la sección de asignación de bits 204.

La sección de asignación de bits 204 asigna bits disponibles para cada banda en una trama utilizando la envoltura espectral enviada desde la sección de ajuste de normas 203. Esto es, la sección de asignación de bits 204 recalcula la asignación de bits indispensable para decodificar el código de vector reticular del coeficiente espectral normalizado. Los bits asignados son enviados a la sección de decodificación de retículo 205.

La sección de decodificación de retículo 205 decodifica el vector de codificación reticular enviado desde el desmultiplexor 201 con base en una configuración de trama señalada por el indicador de señal transitorio enviado desde el desmultiplexor 201 y los bits enviados desde la sección de asignación de bits 204 y adquiere un coeficiente espectral. El coeficiente espectral es enviado al generador de llenado espectral 206 y al adicionador 207.

El generador de llenado espectral 206 regenera un coeficiente espectral de baja frecuencia al cual no se ha asignado un bit utilizando un libro de códigos creado con base en el coeficiente espectral enviado desde la sección de decodificación de retículo 205. El generador de llenado espectral 206 ajusta el nivel del coeficiente espectral regenerado utilizando el índice de ajuste de nivel de ruido enviado desde el desmultiplexor 201. Adicionalmente, el generador de llenado espectral 206 regenera el coeficiente espectral no sujetado a la codificación de alta frecuencia utilizando un coeficiente espectral codificado de baja frecuencia. El coeficiente espectral de baja frecuencia ajustado de nivel y el coeficiente espectral de alta frecuencia regenerado son enviados al adicionador 207.

El adicionador 207 agrega el coeficiente espectral enviado desde la sección de decodificación de retículo 205 y el coeficiente espectral enviado desde el generador de llenado espectral 206, genera un coeficiente espectral normalizado y envía el coeficiente espectral normalizado a la sección de configuración de envoltura 208.

La sección de configuración de envoltura 208 aplica la envoltura espectral enviada desde la sección de descuantificación de normas 202 al coeficiente espectral normalizado que es generado por el adicionador 207 y genera un coeficiente espectral de banda completa (que corresponde al espectro decodificado). El coeficiente espectral de banda completa generado es enviado a la sección de transformación inversa 209.

La sección de transformación inversa 209 aplica una transformación inversa tal como una transformación de coseno discreta, modificada, inversa (IMDCT) al coeficiente espectral de banda completa enviado desde la sección de configuración de envoltura 208, lo transforma a una señal de dominio temporal y envía una señal de salida. En este documento, la transíormación inversa con resolución de alta frecuencia se aplica a un caso de una trama estacionaria y la transformación inversa con resolución de baja frecuencia se aplica a un caso de una trama transitoria.

Después, los detalles de la sección de asignación de bits 107 se describirán utilizando la FIGURA 7. Se debe observar que la sección de asignación de bits 107 del aparato de codificación de habla/sonido 100 es idéntica en configuración a la sección de asignación de bits 204 del aparato de decodificación de habla/sonido 200 y por lo tanto solo la sección de asignación de bits 107 se describirá y la descripción de la sección de asignación de bits 204 se omitirá en este documento.

La FIGURA 7 es un diagrama de bloques que ilustra una configuración interna de la sección de asignación de bits 107 mostrada en la FIGURA 5. La sección de identificación de banda de frecuencia dominante 301 identifica, con base en la envoltura espectral cuantificada que es enviada desde la sección de ajuste de normas 106, una banda de frecuencia dominante la cual es una sub-banda en la cual un valor de coeficiente de norma en el espectro tiene un valor máximo local y envía cada banda de frecuencia dominante identificada a las secciones de determinación de grupos dominantes 302-1 a 302N. Además de designar una banda de frecuencia para la cual un valor de coeficiente de norma tiene un valor máximo local, los ejemplos del metodo para determinar una banda de frecuencia dominante pueden incluir designar una banda entre todas las sub-bandas en las cuales un valor de coeficiente de norma tiene un valor máximo como una banda de frecuencia dominante o designar como una banda de frecuencia dominante una banda que tiene un valor de coeficiente de norma que excede un umbral predeterminado o un umbral calculado a partir de normas de todas las sub-bandas.

Las secciones de determinación de grupos dominantes 302-1 a 302N determinan de manera adaptable anchuras de grupos de acuerdo con características de señal de entrada centradas en la banda de frecuencia dominante enviada desde la sección de identificación de banda de frecuencia dominante 301. Más específicamente, la anchura de grupo se define como la anchura de un grupo de sub-bandas centradas en y en ambos lados de la banda de frecuencia dominante hasta sub-bandas donde se detiene una pendiente descendiente del valor de coeficiente de norma. Las secciones de determinación de grupos dominantes 302-1 a 302N determinan bandas de frecuencia incluidas en anchuras de grupos como grupos dominantes y envían los grupos dominantes determinados a la sección de determinación de grupos no dominantes 303. Se debe observar que cuando una banda de frecuencia dominante se localiza en un borde (el final de una frecuencia disponible), solo un lado de la pendiente descendiente se incluye en el grupo .

La sección de determinación de grupos no dominantes 303 determina sub-bandas continuas enviadas desde las secciones de determinación de grupos dominantes 302-1 a 302N diferentes de los grupos dominantes como grupos no dominantes sin bandas de frecuencia dominantes. La sección de determinación de grupos no dominantes 303 envía los grupos dominantes y los grupos no dominantes a la sección de cálculo de energía de grupo 304 y la sección de cálculo de variación de norma 306.

La sección de cálculo de energía de grupo 304 calcula la energía específica de un grupo de los grupos dominantes y los grupos no dominantes enviados desde la sección de determinación de grupos no dominantes 303 y envía la energía calculada a la sección de cálculo de energía total 305 y la sección de distribución de bits de grupos 308. La energía específica de un grupo se calcula por medio de la siguiente ecuación 1.

Energía(G(k)) = . (Ecuación 1) En este documento, k indica un índice de cada grupo, Energía (G (k)) indica la energía del grupo k, i indica un índice de sub-banda del grupo 2, M indica el número total de sub-bandas del grupo k y Norma(i) indica un valor de coeficiente de norma de la sub-banda i del grupo n.

La sección de cálculo de energía total 305 agrega toda la energía específica de un grupo enviada de la sección de cálculo de energía de grupo 304 y calcula la energía total de todos los grupos. La energía total calculada es enviada a la sección de distribución de bits de grupos 308. La energía total se calcula por medio de la siguiente ecuación 2.

(Ecuación 2) En este documento, Energíatotai indica la energía total de todos los grupos, N indica el número total de grupos en un espectro, k indica un índice de cada grupo y Energía (G (k)) indica la energía del grupo k.

La sección de cálculo de variación de norma 306 calcula la variación de norma específica para un grupo para los grupos dominantes y los grupos no dominantes enviados desde la sección de determinación de grupos no dominantes 303 y envía la variación de norma calculada a la sección de cálculo de variación de norma total 307 y la sección de distribución de bits de grupos 308. La variación de norma específica para un grupo se calcula por medio de la siguiente ecuación 3.

Normaver{G(k)) = Normamax{G{k)) - Normamm(G(K)) ... (Ecuación 3) En este documento, k indica un índice de cada grupo, NormaVar(G (k)) indica una variación de norma del grupo k, Normamax(G (k)) indica un valor de coeficiente de norma máximo del grupo k y Normamin(G (k)) indica un valor de coeficiente de norma mínimo del grupo k.

La sección de cálculo de variación de norma total 307 calcula una variación de norma total de todos los grupos con base en la variación de norma específica para un grupo enviada desde la sección de cálculo de variación de norma 306. La variación de norma total calculada es enviada a la sección de distribución de bits de grupos 308. La variación de norma total se calcula por medio de la siguiente ecuación 4.

Normava, total = .(Ecuación 4) En este documento, Normavartotai indica una variación de norma total de todos los grupos, N indica el número total de grupos en un espectro, k indica un índice de cada grupo y Normavar(G (k)) indica una variación de norma del grupo k.

La sección de distribución de bits de grupos 308 (que corresponde a una primera sección de asignación de bits) distribuye bits en una base de grupo por grupo con base en la energía específica de un grupo enviada desde la sección de cálculo de energía del grupo 304, la energía total de todos los grupos enviada desde la sección de cálculo de energía total 305, la variación de norma específica para un grupo enviada desde la sección de cálculo de variación de norma 306 y la variación de norma total de todos los grupos enviados desde la sección de cálculo de variación de norma total 307 y envía bits distribuidos en una base de grupo por grupo a la sección de distribución de bits de sub-bandas 309. Los bits distribuidos en una base de grupo por grupo se calculan por medio de la siguiente ecuación 5.

Energía{G(k)) Normava{G{k)) Bits(G(k ) = Bitslolal x escale lx + (1— escale l)x ... (Ecuación 5) Energía Ma¡ Norma vac total En este documento, k indica un indice de cada grupo, Bits(G(k)) indica el número de bits distribuidos al grupo k, Bitstotai indica el número total de bits disponibles, escala 1 indica la relación de bits asignados por energía. Energía(G (k)) indica la energía del grupo k, Energíatotai indica la energía total de todos los grupos y Normavar(G(k)) indica una variación de norma del grupo k.

Adicionalmente, escala 1 en la ecuación 5 anterior toma un valor dentro de un rango de [0, 1] y ajusta la relación de bits asignados por energía o variación de norma. Mientras más grande sea el valor de escala 1, más bits son asignados por energía, y en un caso extremo, si el valor es 1, todos los bits se asignan por energía. Mientras más pequeño sea el valor de escala 1, más bits son asignados por variación de norma, y en un caso extremo, si el valor es 0, todos los bits son asignados por variación de norma.

Al distribuir bits en una base de grupo por grupo como se describiera anteriormente, la sección de distribución de bits de grupos 308 puede distribuir más bits a grupos dominantes y distribuir menos bits a grupos no dominantes.

De esta manera, la sección de distribución de bits de grupos 308 puede determinar la importancia perceptual de cada grupo por energía y variación de norma y aumentar más grupos dominantes. La variación de norma coincide con una teoría de enmascaramiento y puede determinar de manera más exacta la importancia perceptual.

La sección de distribución de bits de sub-bandas 309 (que corresponde a una segunda sección de asignación de bits) distribuye bits a sub-bandas en cada grupo con base en bits específicos para un grupo enviados desde la sección de distribución de bits de grupos 308 y envía los bits asignados a sub-bandas específicas para un grupo a la sección de codificación de vectores reticulares 108 como el resultado de la asignación de bits. En este documento, se distribuyen más bits a las sub-bandas perceptualmente importantes y se distribuyen menos bits a las sub-bandas perceptualmente menos importantes. Los bits distribuidos a cada sub-banda en un grupo se calculan por medio de la siguiente ecuación 6.

... (Ecuación 6) En este documento, BitSG(k)sb u) indica un bit asignado a la sub-banda i del grupo k, i indica un índice de sub-banda del grupo k, BitS(G(kn indica un bit asignado al grupo k, Energía (G (k)) indica la energía del grupo k y Norma (i) indica un valor de coeficiente de norma de la sub-banda i del grupo k.

Después, se describirá un método de agrupación utilizando las FIGURAS 8A a 8C. Se supone que una envoltura espectral cuantificada que se muestra en la FIGURA 8A se introduce a la sección de identificación de bandas de frecuencia máximas 301. La sección de identificación de bandas de frecuencia máximas 301 identifica las bandas de frecuencia dominantes 9 y 20 con base en la envoltura espectral, cuantificada, introducida (véase la FIGURA 8B).

Las secciones de generación de grupos dominantes 302-1 a 302-N determinan sub-bandas centradas en y en ambos lados de las bandas de frecuencia dominantes 9 y 20 hasta las sub-bandas donde se detiene una pendiente descendiente del valor de coeficiente de norma como un grupo dominante identico. En los ejemplos mostrados en las FIGURAS 8A a 8C, en lo que se refiere a la banda de frecuencia dominante 9, las sub-bandas 6 a 12 se determinan como el grupo dominante (grupo 2), mientras que en lo que se refiere a la banda de frecuencia dominante 20, las sub-bandas 17 a 22 se determinan como el grupo dominante (grupo 4) (véase la FIGURA 8C).

La sección de determinación de grupos no dominantes 303 determina bandas de frecuencia continuas diferentes de los grupos dominantes como grupos no dominantes sin las bandas de frecuencia dominantes. En el ejemplo mostrado en las FIGURAS 8A a 8C, las sub-bandas 1 a 5 (grupo 1), las sub-bandas 13 a 16 (grupo 3) y las sub-bandas 23 a 25 (grupo 5) se determinan como grupos no dominantes respectivamente (véase la FIGURA 8C).

Como resultado, las envolturas espectrales cuant ificadas se dividen en cinco grupos, es decir, dos grupos dominantes (grupos 2 y 4) y tres grupos no dominantes (grupos 1, 3 y 5).

Utilizando este método de agrupación, es posible determinar de manera adaptable las anchuras de grupos de acuerdo con características de señales de entrada. De acuerdo con este método, el aparato de decodificación de habla/sonido también utiliza coeficientes de norma cuantificados disponibles, y por lo tanto la necesidad de información adicional no se transmite al aparato de decodificación de habla/sonido .

Se debe observar que la sección de cálculo de variación de norma 306 calcula una variación de norma específica para un grupo. En los ejemplos mostrados en las FIGURAS 8A a 8C, la variación de norma Energíavar(G(2)) en el grupo 2 se muestra en la FIGURA 9 como referencia.

Despues, se describirá la importancia perceptual. Un espectro de una señal de habla/sonido incluye generalmente una pluralidad de picos (montañas) y valles. Un pico está constituido de un componente de espectro localizado en una frecuencia dominante de la señal de habla/sonido (componente de sonido dominante). El pico es muy importante perceptualmente . La importancia perceptual del pico puede ser determinada por una diferencia entre la energía del pico y la energía del valle, es decir, por una variación de norma. Teóricamente, cuando un pico tiene una energía suficientemente grande en comparación con las bandas de frecuencia adyacentes, el pico debe ser codificado con un número suficiente de bits, pero si el pico se codifica con un número insuficiente de bits, el ruido de codificación que se mezcla se vuelve prominente, causando que la calidad del sonido se deteriore. Por otra parte, un valle no está constituido de ningún componente de sonido dominante de una señal de habla/sonido y no es importante perceptual ente.

De acuerdo con el método de agrupación de bandas de frecuencia de la presente modalidad, una banda de frecuencia dominante corresponde a un pico de un espectro y la agrupación de bandas de frecuencias significa la separación de los picos (grupos dominantes que incluyen bandas de frecuencia dominantes) de los valles (grupos no dominantes sin bandas de frecuencia dominantes).

La sección de distribución de bits de grupos 308 determina la importancia perceptual de un pico. En contraste a la téenica G.719 en la cual la importancia perceptual es determinada solo por la energía, la presente modalidad determina la importancia perceptual con base en tanto la energía como las distribuciones de normas (energía) y determina los bits que son distribuidos a cada grupo con base en la importancia perceptual determinada.

En la sección de distribución de bits de sub-bandas 309, cuando una variación de norma en un grupo es grande, esto significa que este grupo es uno de los picos, el pico es más importante perceptualmente y un coeficiente de norma que tiene un valor máximo debe ser codificado de manera exacta. Por esta razón, más bits son distribuidos a cada sub-banda de este pico. Por otra parte, cuando una variación de norma en un grupo es muy pequeña, esto significa que este grupo es uno de los valles, y el valle no es importante perceptualmente y no es necesario que sea codificado de manera exacta. Por esta razón, se distribuyen menos bits a cada sub-banda de este grupo .

De esta manera, la presente modalidad identifica una banda de frecuencia dominante en la cual un valor de coeficiente de norma en un espectro de una señal de habla/sonido de entrada tiene un valor máximo local, agrupa todas las sub-bandas en grupos dominantes que incluyen una banda de frecuencia dominante y grupos no dominantes que no incluyen ninguna banda de frecuencia dominante, distribuye bits a cada grupo con base en la energía y variaciones de norma específicas para un grupo, y distribuye además los bits distribuidos en una base de grupo por grupo a cada sub-banda de acuerdo con una relación de una norma con respecto a la energía de cada grupo. De esta manera, es posible asignar más bits a grupos y sub-bandas importantes perceptualmente y realizar una distribución eficiente de bits. Como resultado, la calidad del sonido se puede mejorar.

Se debe observar que el coeficiente de norma en la presente modalidad representa energía de sub-banda y tambien es referido como "envoltura de energía".

La descripción de la Solicitud de Patente Japonesa No. 2012-272571, presentada el 13 de Diciembre de 2012, inclusive la especificación, las figuras y el resumen se incorpora en este documento a manera de referencia en su totalidad.

Aplicabilidad Industrial El aparato de codificación de habla/sonido, el aparato de decodificación de habla/sonido, el método de codificación de habla/sonido y el método de decodificación de habla/sonido de acuerdo con la presente invención son aplicables a un aparato terminal de radiocomunicación, un aparato de estación base de radiocomunicación, un aparato terminal de conferencia telefónica, un aparato terminal de videoconferencia y un aparato terminal de protocolo de voz sobre Internet (VoIP, por sus siglas en inglés) o similares. Lista de Signos de Referencia 101 Detector transitorio 102 Sección de transformación 103 Sección de estimación de normas 104 Sección de cuantificación de normas 105 Sección de normalización de espectro 106, 203 Sección de ajuste de normas 107, 204 Sección de asignación de bits 108 Sección de codificación de vectores reticulares 109 Sección de ajuste de nivel de ruido 110 Multiplexor 201 Desmultiplexor 202 Sección de descuantificación de normas 205 Sección de decodificación de retículo 206 Generador de llenado espectral 207 Adid onador 208 Sección de configuración de envoltura 209 Sección de transformación inversa 301 Sección de identificación de bandas de frecuencia dominantes 302-1 a 302-N Sección de determinación de grupos dominantes 303 Sección de determinación de grupos no dominantes 304 Sección de cálculo de energía de grupo 305 Sección de cálculo de energía total 306 Sección de cálculo de variación de norma 307 Sección de cálculo de variación de norma total 308 Sección de distribución de bits de grupos 309 Sección de distribución de bits de sub-bandas Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención.

Claims

REIVINDICACIONES Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes reivindicaciones :

1. Un aparato de codificación de habla/sonido, caracterizado porque comprende: una sección de transformación que transforma una señal de entrada de un dominio temporal a un dominio de frecuencia ; una sección de estimación que calcula una envoltura de energía la cual representa un nivel de energía para cada una de una pluralidad de sub-bandas obtenidas al dividir un espectro de frecuencia de la señal de entrada; una sección de cuantificación que cuantifica las envolturas de energía; una sección de determinación de grupos que agrupa las envolturas de energía cuantificadas en una pluralidad de grupos una primera sección de asignación de bits que asigna bits a la pluralidad de grupos; una segunda sección de asignación de bits que asigne los bits asignados a la pluralidad de grupos a sub bandas en una base de grupo por grupo; y una sección de codificación que codifica el espectro de frecuencia utilizando bits asignados a las sub bandas .

2. El aparato de codificación de habla/sonido de conformidad con la reivindicación 1, caracterizado porque comprende además una sección de identificación de bandas de frecuencia dominantes que identifica una banda de frecuencia dominante la cual es una sub-banda en la cual una envoltura de energía del espectro de frecuencia tiene un valor máximo local , en donde la sección de determinación de grupos determina la banda de frecuencia dominante y las sub-bandas en ambos lados de la banda de frecuencia dominante cada una que forma una pendiente descendiente de una envoltura de energía como grupos dominantes y determina sub-bandas continuas diferentes de la banda de frecuencia dominante como grupos no dominantes .

3. El aparato de codificación de habla/sonido de conformidad con la reivindicación 1, caracterizado porque comprende además: una sección de cálculo de energía que calcula la energía específica para un grupo; y una sección de cálculo de distribución que calcula una distribución de envoltura de energía específica para un grupo , en donde la primera sección de asignación de bits asigna. con base en la energía calculada específica para un grupo y la distribución de envoltura de energía específica para un grupo, más bits a un grupo cuando por lo menos una de la energía y la distribución de envoltura de energía es más grande y asigna menos bits a un grupo cuando por lo menos una de la energía y la distribución de envoltura de energía es más pequeña.

4. El aparato de codificación de habla/sonido de conformidad con la reivindicación 1, caracterizado porque la segunda sección de asignación de bits asigna más bits a una sub-banda que tiene una envoltura de energía más grande y asigna menos bits a una sub-banda que tiene una envoltura de energía más pequeña.

5. Un aparato de decodificación de habla/sonido, caracterizado porque comprende: una sección de descuantificación que descuantifica una envoltura espectral cuantificada; una sección de determinación de grupos que agrupa las envolturas espectrales cuantif icadas en una pluralidad de grupos; una primera sección de asignación de bits que asigna bits a la pluralidad de grupos; una segunda sección de asignación de bits que asigna los bits asignados a la pluralidad de grupos a sub bandas en una base de grupo por grupo; una sección de decodificación que decodifica un espectro de frecuencia de una señal de habla/sonido utilizando los bits asignados a las sub-bandas; una sección de configuración de envoltura que aplica la envoltura espectral descuantificada al espectro de frecuencia decodificado y reproduce un espectro decodificado; y una sección de transformación inversa que transforma de manera inversa el espectro decodificado de un dominio de frecuencia a un dominio temporal.

6 . El aparato de decodificación de habla/sonido de conformidad con la reivindicación 5, caracterizado porque comprende además una sección de identificación de bandas de frecuencia dominantes que identifica una banda de frecuencia dominante la cual es una sub-banda en la cual una envoltura de energía del espectro de frecuencia tiene un valor máximo local , en donde la sección de determinación de grupos determina la banda de frecuencia dominante y las sub-bandas en ambos lados de la banda de frecuencia dominante cada una que forma una pendiente descendiente de una envoltura de energía como grupos dominantes y determina sub-bandas continuas diferentes de la banda de frecuencia dominante como grupos no dominantes .

7. El aparato de decodificación de habla/sonido de conformidad con la reivindicación 5, caracterizado porque comprende además: una sección de cálculo de energía que calcula la energía específica para un grupo; y una sección de cálculo de distribución que calcula una envoltura de energía específica para un grupo, en donde la primera sección de asignación de bits asigna, con base en la energía calculada específica para un grupo y la distribución de envoltura de energía específica para un grupo, más bits a grupos cuando por lo menos una de la energía y la distribución de envoltura de energía es más grande y asigna menos bits a grupos cuando por lo menos una de la energía y la distribución de envoltura de energía es más pequeña.

8. El aparato de decodificación de habla/sonido de conformidad con la reivindicación 5, caracterizado porque la segunda sección de asignación de bits asigna más bits a sub-bandas que tienen una envoltura de energía más grande y asigna menos bits a sub-bandas que tienen una envoltura de energía más pequeña.

9. Un metodo de codificación de habla/sonido, caracterizado porque comprende: transformar una señal de entrada de un dominio temporal a un dominio de frecuencia; calcular una envoltura de energía que representa un nivel de energía para cada una de una pluralidad de sub-bandas obtenidas al dividir un espectro de frecuencia de la señal de entrada; cuantificar las envolturas de energía; agrupar las envolturas de energía cuantificadas en una pluralidad de grupos; asignar bits a la pluralidad de grupos; asignar los bits asignados a la pluralidad de grupos a sub-bandas en una base de grupo por grupo; y codificar el espectro de frecuencia utilizando bits asignados a las sub-bandas.

10. Un método de decodificación de habla/sonido, caracterizado porque comprende; descuantif icar una envoltura espectral cuantif icada; agrupar la envoltura espectral cuantificada en una pluralidad de grupos; asignar bits a la pluralidad de grupos; asignar los bits asignados a la pluralidad de grupos a sub-bandas en una base de grupo por grupo; decodificar un espectro de frecuencia de una señal de habla/sonido utilizando los bits asignados a las sub-bandas; aplicar la envoltura espectral descuantificada al espectro de frecuencia decodificado y reproducir un espectro decodificado; y transformar de manera inversa el espectro decodificado de un dominio de frecuencia a un dominio temporal.