PT2503548E - Dispositivo de descodificação de voz, método de descodificação de voz e programa de descodificação de voz - Google Patents
Dispositivo de descodificação de voz, método de descodificação de voz e programa de descodificação de voz Download PDFInfo
- Publication number
- PT2503548E PT2503548E PT121716138T PT12171613T PT2503548E PT 2503548 E PT2503548 E PT 2503548E PT 121716138 T PT121716138 T PT 121716138T PT 12171613 T PT12171613 T PT 12171613T PT 2503548 E PT2503548 E PT 2503548E
- Authority
- PT
- Portugal
- Prior art keywords
- temporal envelope
- unit
- high frequency
- speech
- decoding device
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 271
- 230000002123 temporal effect Effects 0.000 claims abstract description 356
- 238000004458 analytical method Methods 0.000 claims abstract description 125
- 230000008569 process Effects 0.000 claims description 197
- 238000000926 separation method Methods 0.000 claims description 66
- 230000001131 transforming effect Effects 0.000 claims description 54
- 230000009466 transformation Effects 0.000 claims description 36
- 230000000153 supplemental effect Effects 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 238000007493 shaping process Methods 0.000 claims description 16
- 238000001914 filtration Methods 0.000 abstract description 183
- 238000012986 modification Methods 0.000 description 180
- 230000004048 modification Effects 0.000 description 180
- 238000004891 communication Methods 0.000 description 99
- 238000004590 computer program Methods 0.000 description 98
- 230000014509 gene expression Effects 0.000 description 70
- 238000004364 calculation method Methods 0.000 description 62
- 230000002441 reversible effect Effects 0.000 description 43
- 238000010586 diagram Methods 0.000 description 39
- 238000001514 detection method Methods 0.000 description 31
- 230000015572 biosynthetic process Effects 0.000 description 28
- 238000003786 synthesis reaction Methods 0.000 description 28
- 230000008859 change Effects 0.000 description 23
- 238000013213 extrapolation Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 16
- 238000001228 spectrum Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 230000003595 spectral effect Effects 0.000 description 10
- 238000013139 quantization Methods 0.000 description 8
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 7
- 238000010187 selection method Methods 0.000 description 6
- 230000001052 transient effect Effects 0.000 description 6
- 230000007423 decrease Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 150000003839 salts Chemical class 0.000 description 3
- 230000005284 excitation Effects 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 206010016766 flatulence Diseases 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000001453 impedance spectrum Methods 0.000 description 1
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/03—Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Description
DESCRIÇÃO "DISPOSITIVO DE DESCODIFICAÇÃO DE VOZ, MÉTODO DE DESCODIFICAÇÃO DE VOZ E PROGRAMA DE DESCODIFICAÇÃO DE VOZ"
Campo Técnico A presente invenção refere-se a um dispositivo de descodificação de voz, um método de descodificação de voz e um programa de descodificação de voz.
Antecedentes da Técnica
As técnicas de codificação de voz e áudio para comprimir a quantidade de dados de sinais em algumas décimas por remoção de informação não necessária para percepção humana utilizando psicoacústica são extremamente importantes na transmissão e armazenamento de sinais. Exemplos de técnicas de codificação de áudio perceptuais amplamente utilizadas incluem a "MPEG4 AAC" normalizada por "ISO/IEC MPEG".
Uma técnica de extensão de largura de banda para gerar componentes de alta frequência utilizando componentes de voz de baixa frequência tem sido amplamente utilizada nos últimos anos como método para melhorar o desempenho de codificação de voz e a obtenção de uma elevada qualidade de voz com uma velocidade de transmissão binária baixa. Exemplos típicos da técnica de extensão de largura de banda incluem a técnica SBR (Replicação de Banda Espectral) utilizada em "MPEG4 AAC". Na SBR, um 1 componente de alta frequência é gerado através da conversão de um sinal numa região espectral utilizando um banco de filtros QMF (filtro espelhado em quadratura) e copiando coeficientes espectrais de uma banda de baixa frequência para uma banda de alta frequência relativamente ao sinal transformado, e o componente de alta frequência é ajustado através do ajustamento da envolvente espectral e tonalidade dos coeficientes copiados, como divulgado, por exemplo, no artigo de S. Meltzer e G. Moser, "HE-AAC v2 - audio coding for today's media world", EBU Technical Review, Janeiro de 2006, pp. 1-12. Dado que um método de codificação de voz utilizando a técnica de extensão de largura de banda pode reproduzir os componentes de alta frequência de um sinal utilizando apenas uma pequena quantidade de informação suplementar, é eficaz na redução da velocidade de transmissão binária de codificação de voz.
Na técnica de extensão de largura de banda no domínio da frequência representada por SBR, a envolvente espectral e tonalidade dos coeficientes espectrais representados no domínio de frequência são ajustadas através do ajustamento de um ganho para os coeficientes espectrais, da realização de uma filtragem inversa de predição linear numa direcção temporal e da sobreposição de ruído no coeficiente espectral. Em resultado deste processo de ajustamento, após codificação de um sinal tendo uma grande variação na envolvente temporal, tal como um sinal de voz, bater as palmas ou castanholas, um ruído de reverberação, denominado pré-eco ou pós-eco, pode ser apercebido no sinal descodificado. Este problema surge porque a envolvente temporal do componente de alta frequência é transformada durante o processo de ajustamento e, em muitos casos, a envolvente temporal é mais suave após o processo de ajustamento do que antes do processo de ajustamento. A envolvente temporal do 2 componente de alta frequência após o processo de ajustamento não coincide com a envolvente temporal do componente de alta frequência de um sinal original, antes da codificação, gerando, assim, o pré-eco e pós-eco.
Um problema semelhante ao do pré-e pós-eco eco também ocorre na codificação de áudio multicanal utilizando um processo paramétrico representado por "MPEG Surround" e Estéreo Paramétrico. Um descodificador utilizado em codificação de áudio multicanal inclui meios para a realização de descorrelação num sinal descodificado utilizando um filtro de reverberação. No entanto, a envolvente temporal do sinal é transformada durante a descorrelação, provocando, desse modo, a degradação de um sinal de reprodução semelhante à do pré-eco e pós-eco. Soluções para o problema incluem uma técnica TES (Modelação de Envolvente Temporal) (Literatura de Patente 1). Na técnica TES, uma análise de predição linear é realizada, numa direcção de frequência, sobre um sinal representado num domínio QMF no qual uma descorrelação não foi ainda realizada para obter coeficientes de predição linear, e, utilizando os coeficientes de predição linear, uma filtragem de síntese de predição linear é realizada, na direcção de frequência, sobre o sinal em que a descorrelação tenha sido realizada. Este processo permite que a técnica TES extraia a envolvente temporal de um sinal sobre o qual não tenha sido ainda realizada uma descorrelação e, de acordo com a envolvente temporal extraída, ajuste a envolvente temporal do sinal no qual a descorrelação tenha sido realizada. Dado que o sinal no qual a descorrelação ainda não foi realizada tem uma envolvente temporal menos distorcida, a envolvente temporal do sinal no qual a descorrelação foi realizada é ajustada para uma forma menos distorcida, obtendo-se, assim, um sinal de reprodução no qual se melhora o pré-eco e pós-eco. 3
Lista de Citações
Literatura de Patentes
Literatura de Patente 1: Publicação de pedido de Patente dos Estados Unidos N° 2006/0239473.
Sumário da Invenção
Problema Técnico A técnica TES descrita acima é uma técnica que utiliza o facto de um sinal ainda não submetido a descorrelação ter uma envolvente temporal menos distorcida. No entanto, num descodificador SBR, o componente de alta frequência de um sinal é copiado do componente de baixa frequência do sinal. Por conseguinte, não é possivel obter uma envolvente temporal menos distorcida relativamente ao componente de alta frequência. Uma das soluções para este problema é um método para analisar o componente de alta frequência de um sinal de entrada num codificador SBR, quantificar os coeficientes de predição linear obtidos em resultado da análise e multiplexá-los para um fluxo de bits a transmitir. Este método permite que o descodificador SBR obtenha coeficientes de predição linear incluindo informação com uma envolvente temporal menos distorcida do componente de alta frequência. No entanto, neste caso, é necessária uma grande quantidade de informação para transmitir os coeficientes de predição linear quantificados, aumentando, assim, significativamente, a velocidade de transmissão binaria de todo o fluxo de bits codificado. Assim, a presente invenção é concebida para reduzir a ocorrência de pré-eco e pós-eco e 4 melhorar a qualidade subjectiva do sinal descodificado, sem aumentar, significativamente, a velocidade de transmissão binária na técnica de extensão de largura de banda no domínio da frequência representada por SBR.
Solução para o Problema
Um dispositivo de descodificação de voz da presente invenção é um dispositivo de descodificação de voz para descodificar um sinal de voz codificado e incluindo: um meio de separação de fluxo de bits para separar um fluxo de bits recebido do exterior do dispositivo de descodificação de voz que inclui o sinal de voz codificado num fluxo de bits codificado e em informação suplementar de envolvente temporal; um meio de descodificação de núcleo para descodificar o fluxo de bits codificado separado pelo meio de separação de fluxo de bits para obter um componente de baixa frequência; um meio de transformação de frequência para transformar o componente de baixa frequência obtido pelo meio de descodificação de núcleo num domínio de frequência; um meio de geração de alta frequência para gerar um componente de alta frequência através da cópia do componente de baixa frequência transformado no domínio de frequência pelo meio de transformação de frequência de bandas de baixa frequência para bandas de alta frequência; um meio de análise de envolvente temporal de baixa frequência para o cálculo do componente de baixa frequência transformado no domínio de frequência pelo meio de transformação de frequência para obter uma informação de envolvente temporal; um meio de ajustamento de envolvente temporal para ajustar a informação de envolvente temporal obtida pelo meio de análise de envolvente temporal de baixa frequência utilizando a informação suplementar de envolvente temporal e meios de modelação de 5 envolvente temporal para modelar uma envolvente temporal do componente de alta frequência gerado pelo meio de geração de alta frequência utilizando a informação de envolvente temporal ajustada pelo meio de ajustamento de envolvente temporal. É preferido que o dispositivo de descodificação de voz da presente invenção inclua, ainda, um meio de ajustamento de alta frequência para ajustar o componente de alta frequência e que o meio de transformação de frequência possa ser um banco de filtros QMF de 64 divisões com um coeficiente real ou complexo, e que o meio de transformação de frequência, o meio de geração de alta frequência e o meio de ajustamento de alta frequência funcionem com base num descodificador de Replicação de Banda Espectral (SBR) para "MPEG4 AAC", definido em "ISO/IEC 14496-3".
No dispositivo de descodificação de voz da presente invenção, é preferido que o meio de análise de envolvente temporal de baixa frequência realize uma análise de predição linear, numa direcção de frequência, sobre o componente de baixa frequência transformado no domínio de frequência pelo meio de transformação de frequência meios para obter coeficientes de predição linear de baixa frequência, que o meio de ajustamento de envolvente temporal possa ajustar os coeficientes de predição linear de baixa frequência utilizando a informação suplementar de envolvente temporal e o meio de modelação de envolvente temporal possa realizar filtragem de predição linear, numa direcção de frequência, no componente de alta frequência, no domínio de frequência, gerado pelo meio de geração de alta frequência, utilizando coeficientes de predição linear ajustados pelo meio de ajustamento de envolvente temporal, para modelar uma envolvente temporal de um sinal de voz. 6
No dispositivo de descodificação de voz da presente invenção, é preferido que o meio de análise de envolvente temporal de baixa frequência obtenha informação de envolvente temporal de um sinal de voz ao obter potência de cada intervalo de tempo do componente de baixa frequência transformado no domínio de frequência pelo meio de transformação de frequência, que o meio de ajustamento de envolvente temporal ajuste a informação de envolvente temporal utilizando a informação suplementar de envolvente temporal e que o meio de modelação de envolvente temporal sobreponha a informação de envolvente temporal ajustada no componente de alta frequência no domínio de frequência gerado pelo meio de geração de alta frequência para modelar uma envolvente temporal de um componente de alta frequência.
No dispositivo de descodificação de voz da presente invenção, é preferido que o meio de análise de envolvente temporal de baixa frequência obtenha informação de envolvente temporal de um sinal de voz ao obter potência de cada amostra de sub-banda de QMF do componente de baixa frequência transformado no domínio de frequência pelo meio de transformação de frequência, que o meio de ajustamento de envolvente temporal ajuste a informação de envolvente temporal utilizando a informação suplementar de envolvente temporal e que o meio de modelação de envolvente temporal modele uma envolvente temporal de um componente de alta frequência ao multiplicar o componente de alta frequência no domínio de frequência gerado pelo meio de geração de alta frequência pelas informação de envolvente temporal ajustada.
No dispositivo de descodificação de voz da presente invenção, a informação suplementar de envolvente temporal 7 representa, de um modo preferido, um parâmetro de intensidade de filtragem utilizado para ajustar a intensidade de coeficientes de predição linear.
No dispositivo de descodificação de voz da presente invenção, a informação suplementar de envolvente temporal representa, de um modo preferido, um parâmetro indicando uma magnitude de variação temporal da informação de envolvente temporal.
No dispositivo de descodificação de voz da presente invenção, a informação suplementar de envolvente temporal inclui, de um modo preferido, informação diferencial de coeficientes de predição linear relativamente aos coeficientes de predição linear de baixa frequência.
No dispositivo de descodificação de voz da presente invenção, a informação diferencial representa, de um modo preferido, uma diferença entre coeficientes de predição linear em, pelo menos, um qualquer domínio de LSP (Par de Espectro Linear), ISP (Par de Espectro de Imitância) , LSF (Frequência de Espectro Linear) , ISF (Frequência de Espectro de Imitância) e coeficiente PARCOR.
No dispositivo de descodificação de voz da presente invenção, é preferido que o meio de análise de envolvente temporal de baixa frequência realize uma análise de predição linear, numa direcção de frequência, sobre o componente de baixa frequência transformado no domínio de frequência pelo meio de transformação de frequência para obter os coeficientes de predição linear de baixa frequência e obter potência de cada intervalo de tempo do componente de baixa frequência no domínio de frequência para obter informação de envolvente temporal de um sinal de voz, que o meio de ajustamento de envolvente temporal ajuste os coeficientes de predição linear de baixa frequência utilizando a informação suplementar de envolvente temporal e ajuste a informação de envolvente temporal utilizando a informação suplementar de envolvente temporal, e que o meio de modelação de envolvente realize filtragem de predição linear, numa direcção de frequência, sobre o componente de alta frequência no domínio de frequência gerado pelo meio de geração de alta frequência utilizando os coeficientes de predição linear ajustados pelo meio de ajustamento de envolvente temporal para modelar uma envolvente temporal de um sinal de voz e modelar uma envolvente temporal do componente de alta frequência por convolução do componente de alta frequência no domínio de frequência com a informação de envolvente temporal ajustada pelo meio de ajustamento de envolvente temporal.
No dispositivo de descodificação de voz da presente invenção, é preferido que o meio de análise de envolvente temporal de baixa frequência realize análise de predição linear, numa direcção de frequência, sobre o componente de baixa frequência transformado no domínio de frequência pelo meio de transformação de frequência para obter os coeficientes de predição linear de baixa frequência e obter informação de envolvente temporal de um sinal de voz através da obtenção de potência de cada amostra de sub-banda de QMF do componente de baixa frequência no domínio de frequência, que o meio de ajustamento de envolvente temporal ajuste o coeficiente de predição linear de baixa frequência utilizando a informação suplementar de envolvente temporal e ajuste a informação de envolvente temporal utilizando a informação suplementar de envolvente temporal, e que o meio de modelação de envolvente 9 temporal realize filtragem de predição linear, numa direcção de frequência, sobre um componente de alta frequência no domínio de frequência gerado pelo meio de geração de alta frequência utilizando coeficientes de predição linear ajustados pelo meio de ajustamento de envolvente temporal para modelar uma envolvente temporal de um sinal de voz e modelar uma envolvente temporal do componente de alta frequência através da multiplicação do componente de alta frequência no domínio de frequência pela informação de envolvente temporal ajustada pelo meio de ajustamento de envolvente temporal.
No dispositivo de descodificação de voz da presente invenção, a informação suplementar de envolvente temporal representa, de um modo preferido, um parâmetro indicando a intensidade de filtragem de coeficientes de predição linear e a magnitude de variação temporal da informação de envolvente temporal.
Um método de descodificação de voz da presente invenção é um método de descodificação de voz utilizando um dispositivo de descodificação de voz para a descodificação de um sinal de voz codificado e incluindo: um passo de separação de fluxo de bits, no qual o dispositivo de descodificação de voz separa um fluxo de bits recebido do exterior do dispositivo de descodificação de voz que inclui o sinal de voz codificado num fluxo de bits codificado e em informação suplementar de envolvente temporal; um passo de descodificação de núcleo em que o dispositivo de descodificação de voz obtém um componente de baixa frequência ao descodificar o fluxo de bits codificado separado no passo de separação de fluxo de bits; um passo de transformação de frequência no qual o dispositivo de descodificação de voz transforma o componente de baixa frequência obtido no passo de 10 descodificação de núcleo num domínio de frequência; um passo de geração de alta frequência no qual o dispositivo de descodificação de voz gera um componente de alta frequência ao copiar o componente de baixa frequência transformado para o domínio de frequência no passo de transformação de frequência de uma banda de baixa frequência para uma banda de alta frequência; um passo de análise de envolvente temporal de baixa frequência no qual o dispositivo de descodificação de voz obtém informação de envolvente temporal ao analisar o componente de baixa frequência transformado para o domínio da frequência no passo de transformação de frequência; um passo de ajustamento de envolvente temporal no qual o dispositivo de descodificação de voz ajusta a informação de envolvente temporal obtida no passo de análise de envolvente temporal de baixa frequência utilizando a informação suplementar de envolvente temporal; e um passo de modelação de envolvente temporal no qual o dispositivo de descodificação de voz modela uma envolvente temporal do componente de alta frequência gerado no passo de geração de alta frequência utilizando a informação de envolvente temporal ajustada no passo de ajustamento de envolvente temporal.
Um programa de descodificação de voz da presente invenção para descodificar um sinal de voz codificado faz com que um dispositivo informático funcione como: um meio de separação de fluxo de bits para separar um fluxo de bits recebido do exterior do programa de descodificação de voz que inclui o sinal de voz codificado num fluxo de bits codificado e informação suplementar de envolvente temporal; um meio de descodificação de núcleo para descodificar o fluxo de bits codificado separado pelo meio de separação de fluxo de bits para obter um componente de baixa frequência; um meio de transformação de frequência para transformar o componente de baixa frequência obtido pelo meio de 11 descodificação de núcleo num domínio de frequência; um meio de geração de alta frequência para gerar um componente de alta frequência ao copiar o componente de baixa frequência transformado para o domínio da frequência pelo meio de transformação de frequência de uma banda de baixa frequência para uma banda de alta frequência; um meio de análise de envolvente temporal de baixa frequência para analisar o componente de baixa frequência transformado para o domínio de frequência pelo meio de transformação de frequência para obter informação de envolvente temporal; um meio de ajustamento de envolvente temporal para ajustar a informação de envolvente temporal obtida pelo meio de análise de envolvente temporal de baixa frequência utilizando a informação suplementar de envolvente temporal; e um meio de modelação de envolvente temporal para modelar uma envolvente temporal do componente de alta frequência gerado pelo meio de geração de alta frequência utilizando a informação de envolvente temporal ajustada pelo meio de ajustamento de envolvente temporal.
Um programa de descodificação de voz da presente invenção para descodificar um sinal de voz codificado faz com que um dispositivo informático funcione como: um meio de separação de fluxo de bits para separar um fluxo de bits que inclui o sinal de voz codificado num fluxo de bits codificado e coeficientes de predição linear. 0 fluxo de bits é recebido do exterior do programa de descodificação de voz.
No dispositivo de descodificação de voz da presente invenção, o meio de modelação de envolvente temporal, depois de executar a filtragem de predição linear, na direcção de frequência, sobre o componente de alta frequência no domínio de frequência gerado pelo meio de geração de alta frequência, 12 ajusta, de um modo preferido, a potência de um componente de alta frequência obtido em resultado da filtragem de predição linear para um valor equivalente ao anterior à filtragem de predição linear.
No dispositivo de descodificação de voz da presente invenção, o meio de modelação de envolvente temporal, depois de executar a filtragem de predição linear, na direcção de frequência, sobre o componente de alta frequência no domínio de frequência gerado pelo meio de geração de alta frequência, ajusta, de um modo preferido, a potência numa determinada gama de frequências de um componente de alta frequência obtido em resultado da filtragem de predição linear para um valor equivalente ao anterior à filtragem de predição linear.
No dispositivo de descodificação de voz da presente invenção, a informação suplementar de envolvente temporal é, de um modo preferido, uma proporção entre um valor mínimo e um valor médio da informação de envolvente temporal ajustada.
No dispositivo de descodificação de voz da presente invenção, o meio de modelação de envolvente temporal, depois de controlar um ganho da envolvente temporal ajustada de modo a que a potência do componente de alta frequência no domínio de frequência num segmento temporal de envolvente SBR seja equivalente antes e após a modelação de envolvente temporal, modela, de um modo preferido, uma envolvente temporal do componente de alta frequência ao multiplicar a envolvente temporal cujo ganho é controlado pelo componente de alta frequência no domínio de frequência. 13
No dispositivo de descodificação de voz da presente invenção, o meio de análise de envolvente temporal de baixa frequência obtém, de um modo preferido, potência de cada amostra de sub-banda de QMF do componente de baixa frequência transformado para o domínio de frequência pelo meio de transformação de frequência e obtém informação de envolvente temporal representada como um coeficiente de ganho a multiplicar por cada uma das amostras de sub-banda de QMF ao normalizar a potência de cada uma das amostras de sub-banda de QMF utilizando potência média num segmento temporal de envolvente de SBR.
Um dispositivo de descodificação de voz da presente invenção é um dispositivo de descodificação de voz para descodificar um sinal de voz codificado e incluindo: um meio de descodificação de núcleo para obter um componente de baixa frequência ao descodificar um fluxo de bits recebido do exterior do dispositivo de descodificação que inclui o sinal de voz codificado; um meio de transformação de frequência para transformar o componente de baixa frequência obtido pelo meio de descodificação de núcleo num domínio de frequência; um meio de geração de alta frequência para gerar um componente de alta frequência ao copiar o componente de baixa frequência transformado para o domínio da frequência pelo meio de transformação de frequência de uma banda de baixa frequência para uma banda de alta frequência; um meio de análise de envolvente temporal de baixa frequência para analisar o componente de baixa frequência transformado para o domínio de frequência pelo meio de transformação de frequência para obter informação de envolvente temporal; um meio de geração de informação suplementar de envolvente temporal para analisar o fluxo de bits para gerar informação suplementar de envolvente temporal; um meio de ajustamento de envolvente temporal para 14 ajustar a informação de envolvente temporal obtida pelo meio de análise de envolvente temporal de baixa frequência utilizando a informação suplementar de envolvente temporal; e um meio de modelação de envolvente temporal para modelar uma envolvente temporal do componente de alta frequência gerado pelo meio de geração de alta frequência utilizando a informação de envolvente temporal ajustada pelo meio de ajustamento de envolvente temporal. É preferido que o dispositivo de descodificação de voz da presente invenção inclua um meio primário de ajustamento de alta frequência e um meio secundário de ajustamento de alta frequência, correspondendo ambos ao meio de ajustamento de alta frequência, podendo o meio primário de ajustamento de alta frequência executar um processo incluindo uma parte de um processo correspondendo ao meio de ajustamento de alta frequência, podendo o meio de modelação de envolvente temporal modelar uma envolvente temporal de um sinal de saída do meio primário de ajustamento de alta frequência, podendo o meio secundário de ajustamento de alta frequência executar um processo não executado pelo meio primário de ajustamento de alta frequência entre processos correspondendo ao meio primário de ajustamento de alta frequência sobre um sinal de saída do meio de modelação de envolvente temporal e podendo o meio secundário de ajustamento de alta frequência ser um processo de adição de uma onda sinusoidal durante a descodificação SBR.
Efeitos Vantajosos da Invenção
De acordo com a presente invenção, a ocorrência de pré-eco e pós-eco pode ser reduzida e a qualidade subjectiva de um sinal 15 descodificado pode ser melhorada, sem aumentar, significativamente, a velocidade de transmissão binaria na técnica de extensão de largura de banda no domínio de frequência representada por SBR.
Descrição Resumida dos Desenhos A FIG. 1 é um diagrama que ilustra um dispositivo de codificação de voz de acordo com uma primeira forma de realização; A FIG. 2 é um fluxograma que descreve um funcionamento do dispositivo de codificação de voz de acordo com a primeira forma de realização; A FIG. 3 é um diagrama que ilustra um dispositivo de descodificação de voz de acordo com a primeira forma de realização; A FIG. 4 é um fluxograma que descreve um funcionamento do dispositivo de descodificação de voz de acordo com a primeira forma de realização; A FIG. 5 é um diagrama que ilustra um dispositivo de codificação de voz de acordo com uma primeira modificação da primeira forma de realização; A FIG. 6 é um diagrama que ilustra um dispositivo de codificação de voz de acordo com uma segunda forma de realização; 16 A FIG. 7 é um fluxograma que descreve um funcionamento do dispositivo de codificação de voz de acordo com a segunda forma de realização; A FIG. 8 é um diagrama que ilustra um dispositivo de descodificação de voz de acordo com a segunda forma de realização; A FIG. 9 é um fluxograma para descrever um funcionamento do dispositivo de descodificação de voz de acordo com a segunda forma de realização; A FIG. 10 é um diagrama que ilustra um dispositivo de codificação de voz de acordo com uma terceira forma de realização; A FIG. 11 é um fluxograma para descrever um funcionamento do dispositivo de codificação de voz de acordo com a terceira forma de realização; A FIG. 12 é um diagrama, que ilustra um dispositivo de descodificação de voz de acordo com a terceira forma de realização; A FIG. 13 é um fluxograma para descrever um funcionamento do dispositivo de descodificação de voz de acordo com a terceira forma de realização; A FIG. 14 é um diagrama que ilustra um dispositivo de descodificação de voz de acordo com uma quarta forma de realização; 17 A FIG. 15 é um diagrama que ilustra um dispositivo de descodificação de voz de acordo com uma modificação da quarta forma de realização; A FIG. 16 é um diagrama que ilustra um dispositivo de descodificação de voz de acordo com outra modificação da quarta forma de realização; A FIG. 17 é um fluxograma para descrever um funcionamento do dispositivo de descodificação de voz de acordo com a outra modificação da quarta forma de realização; A FIG. 18 é um diagrama que ilustra um dispositivo de descodificação de voz de acordo com outra modificação da primeira forma de realização; A FIG. 19 é um fluxograma para descrever um funcionamento do dispositivo de descodificação de voz de acordo com a outra modificação da primeira forma de realização; A FIG. 20 é um diagrama que ilustra um dispositivo de descodificação de voz de acordo com outra modificação da primeira forma de realização; A FIG. 21 é um fluxograma para descrever um funcionamento do dispositivo de descodificação de voz de acordo com a outra modificação da primeira forma de realização; A FIG. 22 é um diagrama que ilustra um dispositivo de descodificação de voz de acordo com uma modificação da segunda forma de realização; 18 A FIG. 23 é um fluxograma para descrever um funcionamento do dispositivo de descodificação de voz de acordo com a modificação da segunda forma de realização; A FIG. 24 é um diagrama que ilustra um dispositivo de descodificação de voz de acordo com outra modificação da segunda forma de realização; A FIG. 25 é um fluxograma para descrever um funcionamento do dispositivo de descodificação de voz de acordo com a outra modificação da segunda forma de realização; A FIG. 26 é um diagrama que ilustra um dispositivo de descodificação de voz de acordo com outra modificação da quarta forma de realização; A FIG. 27 é um fluxograma para descrever um funcionamento do dispositivo de descodificação de voz de acordo com a outra modificação da quarta forma de realização; A FIG. 28 é um diagrama que ilustra um dispositivo de descodificação de voz de acordo com outra modificação da quarta forma de realização; A FIG. 29 é um fluxograma para descrever um funcionamento do dispositivo de descodificação de voz de acordo com a outra modificação da quarta forma de realização; A FIG. 30 é um diagrama que ilustra um dispositivo de descodificação de voz de acordo com outra modificação da quarta forma de realização; 19 A FIG. 31 é um diagrama que ilustra um dispositivo de descodificação de voz de acordo com outra modificação da quarta forma de realização; A FIG. 32 é um fluxograma para descrever um funcionamento do dispositivo de descodificação de voz de acordo com a outra modificação da quarta forma de realização; A FIG. 33 é um diagrama que ilustra um dispositivo de descodificação de voz de acordo com outra modificação da quarta forma de realização; A FIG. 34 é um fluxograma para descrever um funcionamento do dispositivo de descodificação de voz de acordo com a outra modificação da quarta forma de realização; A FIG. 35 é um diagrama que ilustra um dispositivo de descodificação de voz de acordo com outra modificação da quarta forma de realização; A FIG. 36 é um fluxograma para descrever um funcionamento do dispositivo de descodificação de voz de acordo com a outra modificação da quarta forma de realização; A FIG. 37 é um diagrama que ilustra um dispositivo de descodificação de voz de acordo com outra modificação da quarta forma de realização; A FIG. 38 é um diagrama que ilustra um dispositivo de descodificação de voz de acordo com outra modificação da quarta forma de realização; 20 A FIG. 39 é um fluxograma para descrever um funcionamento do dispositivo de descodificação de voz de acordo com a outra modificação da quarta forma de realização; A FIG. 40 é um diagrama que ilustra um dispositivo de descodificação de voz de acordo com outra modificação da quarta forma de realização; A FIG. 41 é um fluxograma para descrever um funcionamento do dispositivo de descodificação de voz de acordo com a outra modificação da quarta forma de realização; A FIG. 42 é um diagrama que ilustra um dispositivo de descodificação de voz de acordo com outra modificação da quarta forma de realização; A FIG. 43 é um fluxograma para descrever um funcionamento do dispositivo de descodificação de voz de acordo com a outra modificação da quarta forma de realização; A FIG. 44 é um diagrama que ilustra um dispositivo de codificação de ϊ voz de acordo com outra modificação da primeira forma de realizaçao; A FIG. 45 é um diagrama que ilustra um dispositivo de codificação de voz de acordo com ainda outra modificação da primeira forma de realizaçao; A FIG. 46 é um diagrama que ilustra um dispositivo de codificação de voz de acordo com uma modificação da segunda forma de realização; 21 A FIG. 47 é um diagrama que ilustra um dispositivo de codificação de voz de acordo com outra modificação da segunda forma de realização; A FIG. 48 é um diagrama que ilustra um dispositivo de codificação de voz de acordo com a quarta forma de realização; A FIG. 49 é um diagrama que ilustra um dispositivo de codificação de voz de acordo com outra modificação da quarta forma de realização; e A FIG. 50 é um diagrama que ilustra um dispositivo de codificação de voz de acordo com outra modificação da quarta forma de realização.
Descrição de Formas de Realização
Descrevem-se, em seguida, de forma pormenorizada, várias formas de realização com referência aos desenhos anexos, em que a quarta forma de realização e suas modificações representam a forma de realização preferida de acordo com a invenção. Na descrição dos desenhos, elementos idênticos são identificados com os mesmos símbolos de referência e a sua descrição duplicada é suprimida, se for esse o caso. 22 (Primeira Forma de Realização) A FIG. 1 é um diagrama que ilustra um dispositivo 11 de codificação de voz de acordo com uma primeira forma de realização. 0 dispositivo 11 de codificação de voz inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 11 de codificação de voz através da introdução e execução de um programa de computador predeterminado (tal como um programa de computador para realizar processos ilustrados no fluxograma da FIG. 2) armazenado numa memória interna do dispositivo 11 de codificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 11 de codificação de voz recebe um sinal de voz a codificar a partir do exterior do dispositivo 11 de codificação de voz e emite um fluxo de bits codificado e multiplexado para o exterior do dispositivo 11 de codificação de voz. 0 dispositivo 11 de codificação de voz inclui, funcionalmente, uma unidade la de transformação de frequência (meio de transformação de frequência) , uma unidade lb de transformação inversa de frequência, uma unidade lc de codificação de codec de núcleo (meio de codificação de núcleo), uma unidade ld de codificação SBR, uma unidade le de análise de predição linear (meio de cálculo de informação suplementar de envolvente temporal), uma unidade lf de cálculo de parâmetros de intensidade de filtragem (meio de cálculo de informação suplementar de envolvente temporal) e uma unidade lg de multiplexagem de fluxo de bits (meio de multiplexagem de fluxo de bits) . A unidade la de transformação de frequência até à unidade lg de multiplexagem de fluxo de bits do dispositivo 11 de codificação de voz ilustrado na FIG. 1 são funções realizadas 23 quando a CPU do dispositivo 11 de codificação de voz executa o programa de computador armazenado na memória interna do dispositivo 11 de codificação de voz. A CPU do dispositivo 11 de codificação de voz executa, sequencialmente, processos (processos do Passo Sal ao Passo Sa7) ilustrados no fluxograma da FIG. 2, através da execução do programa de computador (ou utilizando a unidade la de transformação de frequência até à unidade lg de multiplexagem de fluxo de bits ilustradas na FIG. 1) . Vários tipos de dados necessários para executar o programa de computador e vários tipos de dados gerados pela execução do programa de computador são armazenados na memória interna, tal como a ROM e a RAM, do dispositivo 11 de codificação de voz. A unidade la de transformação de frequência analisa um sinal de entrada recebido do exterior do dispositivo 11 de codificação de voz por intermédio do dispositivo de comunicação do dispositivo 11 de codificação de voz utilizando um banco de filtros QMF multidivisão para obter um sinal q(K, R) num domínio QMF (processo no Passo Sal). Deve salientar-se que k(0£k<63) é um índice numa direcção de frequência e r é um índice indicando um intervalo de tempo. A unidade lb de transformação inversa de frequência sintetiza uma metade de coeficientes no lado de baixa frequência no sinal do domínio QMF obtido pela unidade la de transformação de frequência utilizando o banco de filtros QMF para obter um sinal de domínio de tempo submetido a uma diminuição da taxa de amostragem que inclui apenas componentes de baixa frequência do sinal de entrada (processo no Passo Sa2). A unidade lc de codificação de codec de núcleo codifica o sinal de domínio de tempo submetido a uma diminuição da taxa de amostragem para obter um fluxo de bits codificado (processo no
Passo Sa3) . A codificação executada pela unidade lc de codificação de codec de núcleo pode ser baseada num método de codificação de voz representado por um método CELP ou pode ser baseada num método de codificação de áudio, tal como uma codificação de transformação representada por AAC ou um método TCX (Excitação de Codificação de Transformação). A unidade ld de codificação SBR recebe o sinal no domínio QMF da unidade la de transformação de frequência e realiza codificação SBR com base na análise da potência, mudança de sinal, tonalidade e semelhantes dos componentes de alta frequência para obter informação suplementar SBR (processo no Passo Sa4) . 0 método de análise QMF na unidade la de transformação de frequência e o método de codificação SBR na unidade ld de codificação SBR são descritos em pormenor, por exemplo, numa Literatura "3GPP TS 26;404: Enhanced aacPlus encoder SBR part". A unidade le de análise de predição linear recebe o sinal no domínio QMF da unidade la de transformação de frequência e executa uma análise de predição linear, na direcção de frequência, sobre os componentes de alta frequência do sinal para obter coeficientes de predição linear de alta frequência aH(n, r) (l<n<N) (processo no Passo Sa5) . Deve salientar-se que N é uma ordem de predição linear. O índice r é um índice numa direcção temporal para uma sub-amostra dos sinais no domínio QMF. Pode utilizar-se um método de covariância ou um método de auto-correlação para a análise de predição linear de sinal. A análise de predição linear para obter aH(n, r) é executada sobre os componentes de alta frequência que satisfazem kx<k^63 em q(k, r) . Deve salientar-se que kx é um índice de frequência correspondendo a uma frequência limite superior da banda de frequências codificada pela unidade lc de codificação de codec 25 de núcleo. A unidade le de análise de predição linear também pode realizar análise de predição linear em componentes de baixa frequência diferentes dos analisados quando se obtêm aH(n, r) para obter coeficientes de predição linear de baixa frequência aL(n, r) diferentes de aH(n, r) (coeficientes de predição linear de acordo com esses componentes de baixa frequência correspondem a informação de envolvente temporal e são os mesmos na primeira forma de realização e nas seguintes). A análise de predição linear para obter aL(n, r) é executada em componentes de baixa frequência que satisfazem 0^k<kx. A análise de predição linear também pode ser realizada sobre uma parte da banda de frequências incluída numa secção de 0<k<kx. A unidade lf de cálculo de parâmetros de intensidade de filtragem, por exemplo, utiliza os coeficientes de predição linear obtidos pela unidade le de análise de predição linear para calcular um parâmetro de intensidade de filtragem (o parâmetro de intensidade de filtragem corresponde à informação suplementar de envolvente temporal e é igual na primeira forma de realização e nas seguintes) (processo no Passo Sa6). Um ganho de predição GH(R) é calculado, em primeiro lugar, a partir de aH(n, r) . 0 método para o cálculo do ganho de predição é, por exemplo, descrito em pormenor no documento "Speech Coding, Takehiro Moriya, The Institute of Electronics, Information and Communication Engineers". Se aL(n, r) tiver sido calculado, um ganho de predição GL(r) é calculado de forma semelhante. 0 parâmetro K(r) de intensidade de filtragem é um parâmetro que aumenta com o aumento de GH(r) e, por exemplo, pode ser obtido de acordo com a seguinte expressão (1). Neste caso, max(a, b) indica o valor máximo de a e b, e min(a, b) indica o valor mínimo de a e b. 26
(D K(r) = max(0, min(l, GH(r)-l))
Se GL(r) tiver sido calculado, K(r) pode ser obtido como um parâmetro que aumenta com o aumento de GH(r) e diminui à medida que GL(r) aumenta. Neste caso, por exemplo, K pode ser obtido de acordo com a seguinte expressão (2) . K(r) = max(0, min(l, GH(r)/GL(r)-1))---(2) K(r) é um parâmetro que indica a intensidade para o ajustamento da envolvente temporal dos componentes de alta frequência durante a descodificação SBR. Um valor do ganho de predição relativamente aos coeficientes de predição linear na direcção de frequência é aumentado à medida que a variação da envolvente temporal de um sinal no intervalo de análise se acentua. K(r) é um parâmetro para instruir um descodificador a reforçar o processo de acentuação da variação da envolvente temporal dos componentes de alta frequência gerados por SBR, com o aumento do seu valor. K(r) também pode ser um parâmetro para instruir um descodificador (tal como um dispositivo 21 de descodificação de voz) a enfraquecer o processo para acentuar a variação da envolvente temporal dos componentes de alta frequência gerados por SBR, com a diminuição do seu valor, ou pode incluir um valor para não executar o processo para acentuar a variação da envolvente temporal. Em vez de transmitir K(r) para cada intervalo de tempo, K(r) representando uma pluralidade de intervalos de tempo pode ser transmitido. Para determinar o segmento dos intervalos de tempo em que o mesmo valor de K(r) é partilhado, é preferido utilizar informação nos limites de tempo da envolvente SBR (limite de tempo de envolvente SBR) incluída na informação suplementar SBR. 27 K(r) é transmitido para a unidade lg de multiplexagem de fluxo de bits depois de ser quantificado. É preferido calcular K(r) representando a pluralidade de intervalos de tempo, por exemplo, calculando uma média de K(r) de uma pluralidade de intervalos de tempo r antes de se realizar a quantificação. Para transmitir K(r) representando a pluralidade de intervalos de tempo, K(r) também pode ser obtido a partir do resultado da análise de todo o segmento formado pela pluralidade de intervalos de tempo, em vez de calcular independentemente K(r) a partir do resultado da análise de cada intervalo de tempo, tal como a expressão (2) . Neste caso, K(r) pode ser calculado, por exemplo, de acordo com a seguinte expressão (3). Neste caso, média(-) indica um valor médio no segmento dos intervalos de tempo representados por K(r). K(r) = max(0, min(l, média(GH(r) /média(GL(r))-1)))---(3) K(r) pode ser transmitido exclusivamente com informação de modo de filtragem inversa incluída na informação suplementar SBR descrita em "ISO/IEC 14496-3 subpart 4 General Audio Coding". Por outras palavras, K(r) não é transmitido para os intervalos de tempo para os quais a informação de modo de filtragem inversa na informação suplementar SBR é transmitida e a informação de modo de filtragem inversa (bs_invf_mode em "ISO/IEC 14496-3 subpart 4 General Audio Coding") na informação suplementar SBR não precisa de ser transmitida para o intervalo de tempo para o qual K(r) é transmitido. Informação indicando que K(r) ou a informação de modo de filtragem inversa incluída na informação suplementar SBR é transmitida também pode ser adicionada. K(r) e a informação de modo de filtragem inversa incluída na informação suplementar SBR podem ser combinados para serem tratados como informação vectorial e executar a codificação entrópica no 28 vector. Neste caso, a combinação de K(r) com o valor da informação de modo de filtragem inversa incluída na informação suplementar SBR pode ser restringida. A unidade lg de multiplexagem de fluxo de bits multiplexa o fluxo de bits codificado calculado pela unidade lc de codificação de codec de núcleo, a informação suplementar SBR calculada pela unidade ld de codificação SBR e K(r) calculado pela unidade lf de cálculo de parâmetros de intensidade de filtragem, e emite um fluxo de bits multiplexado (fluxo de bits codificado e multiplexado) através do dispositivo de comunicação do dispositivo 11 de codificação de voz (processo no Passo Sa7). A FIG. 3 é um diagrama que ilustra um dispositivo 21 de descodificação de voz de acordo com a primeira forma de realização. 0 dispositivo 21 de descodificação de voz inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 21 de descodificação de voz através da introdução e execução de um programa de computador predeterminado (tslcom, um programa de computador para executar processos ilustrados no fluxograma da FIG. 4) armazenado numa memória interna do dispositivo 21 de descodificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 21 de descodificação de voz recebe o fluxo de bits codificado e multiplexado emitido pelo dispositivo 11 de codificação de voz, por um dispositivo 11a de codificação de voz de uma modificação 1, que será descrita mais adiante, ou por um dispositivo de codificação de voz de uma modificação 2, que será descrita mais adiante, e emite um sinal de voz descodificado para o exterior do dispositivo 21 de descodificação de voz. 0 dispositivo 21 de descodificação de voz, como ilustrado na 29 FIG. 3, inclui, funcionalmente, uma unidade 2a de separação de fluxo de bits (meio de separação de fluxo de bits), uma unidade 2b de codificação de codec de núcleo (meio de descodificação de núcleo), uma unidade 2c de transformação de frequência (meio de transformação de frequência), uma unidade 2d de análise de predição linear de baixa frequência (meio de análise de envolvente temporal de baixa frequência), uma unidade 2e de detecção de mudança de sinal, uma unidade 2f de ajustamento de intensidade de filtragem (meio de ajustamento de envolvente temporal) , uma unidade 2g de geração de alta frequência (meio de geração de alta frequência), uma unidade 2h de análise de predição linear de alta frequência, uma unidade 2i de filtragem inversa de predição linear, uma unidade 2j de ajustamento de alta frequência (meio de ajustamento de alta frequência), uma unidade 2k de filtragem de predição linear (meio de modelação de envolvente temporal), uma unidade 2m de adição de coeficientes e uma unidade 2n de transformação inversa de frequência. A unidade 2a de separação de fluxo de bits até uma unidade In de cálculo de parâmetros de modelação de envolvente no dispositivo 21 de descodificação de voz ilustrado na FIG. 3 são funções realizadas quando a CPU do dispositivo 21 de descodificação de voz executa o programa de computador armazenado na memória interna do dispositivo 21 de descodificação de voz. A CPU do dispositivo 20 de descodificação de voz executa sequencialmente processos (processos do Passo Sbl ao Passo Sbll) ilustrados no fluxograma da FIG. 4, ao executar o programa de computador (ou utilizando a unidade 2a de separação de fluxo de bits até à unidade de cálculo de parâmetros de modelação de envolvente ilustradas na FIG. 3) . Vários tipos de dados necessários para executar o programa de computador e vários tipos de dados gerados pela execução do programa de computador são armazenados na memória 30 interna, tal como a ROM e a RAM, do dispositivo 21 de descodificação de voz. A unidade 2a de separação de fluxo de bits separa o fluxo de bits multiplexado fornecido através do dispositivo de comunicação do dispositivo 21 de descodificação de voz num parâmetro de intensidade de filtragem, informação suplementar SBR e o fluxo de bits codificado. A unidade 2b de codificação de codec de núcleo descodifica o fluxo de bits codificado recebido da unidade 2a de separação de fluxo de bits para obter um sinal descodificado incluindo apenas os componentes de baixa frequência (processo no Passo Sbl) . Neste momento, o método de descodificação pode ser baseado no método de codificação de voz representado pelo método CELP ou pode ser baseado em codificação de áudio, tal como o AAC ou o método de TCX (Excitação de Codificação de Transformação). A unidade 2c de transformação de frequência analisa o sinal descodificado recebido da unidade 2b de codificação de codec de núcleo utilizando o banco de filtros QMF multi-divisão para obter um sinal qdec(k, r) no domínio QMF (processo no Passo Sb2). Deve salientar-se que k(0^k<63) é um índice na direcção de frequência e r é um índice indicando um índice para a sub-amostra do sinal no domínio QMF, na direcção temporal. A unidade 2d de análise de predição linear de baixa frequência realiza análise de predição linear na direcção de frequência sobre qdec(k, r) em cada intervalo de tempo r, obtido a partir da unidade 2c de transformação de frequência, para obter coeficientes adec(n , r) de predição linear de baixa frequência (processo no Passo Sb3) . A análise de predição linear é realizada para um intervalo de 0^k<kx correspondendo a uma 31 largura de banda de sinal do sinal descodificado obtido a partir da unidade 2b de codificação de codec de núcleo. A análise de predição linear pode ser realizada sobre uma parte da banda de frequências incluída na secção de 0^k<kx. A unidade 2e de detecção de mudança de sinal detecta a variação temporal do sinal no domínio QMF recebido da unidade 2c de transformação de frequência e emite-a como um resultado T(r) de detecção. A mudança de sinal pode ser detectada, por exemplo, utilizando o método descrito abaixo. 1. A potência p(r) a curto prazo de um sinal no intervalo de tempo r é obtida de acordo com a seguinte expressão (4). ρ('·)=ΣΙ«,^(ί:’,')Γ —(4) A=0 2. Uma envolvente penv(r) obtida pelo alisamento de p(r) é obtida de acordo com a seguinte expressão (5). Deve salientar-se que α é uma constante que satisfaz a 0 < α <1.
PenÁr) = a Pem{r-1)+(1 - a) · p(r) ~(5) 3. T(r) é obtido de acordo com a seguinte expressão (6), utilizando p(r) e penv(r), em que β é uma constante. T{r) = max(l ,p{r)j(fi-peJr))) --(6) 32
Os métodos descritos acima são exemplos simples para detectar a mudança de sinal com base na alteração de potência e a alteração de sinal pode ser detectada utilizando outros métodos mais sofisticados. Além disso, a unidade 2e de detecção de mudança de sinal pode ser suprimida. A unidade 2f de ajustamento de intensidade de filtragem ajusta a intensidade de filtragem em relação a adec(n, r) obtidos a partir da unidade 2d de análise de predição linear de baixa frequência para obter coeficientes de predição linear ajustados aadj (n, r), (processo no Passo Sb4) . A intensidade de filtragem é ajustada, por exemplo, de acordo com a expressão seguinte (7), utilizando um parâmetro K de intensidade de filtragem recebido através da unidade 2a de separação de fluxo de bits. aadj{n,r) = adec{n,r)-K{r)n dánSN) -<r)
Se um T(r) emitido for obtido a partir da unidade 2e de detecção de mudança de sinal, a intensidade pode ser ajustada de acordo com a seguinte expressão (8).
A unidade 2g de geração de alta frequência copia o sinal no domínio QMF obtido a partir da unidade 2c de transformação de frequência, da banda de baixa frequência para a banda de alta frequência, para gerar um sinal qexp(k, r) no domínio QMF dos componentes de alta frequência (processo no Passo Sb5). Os componentes de alta frequência são gerados de acordo com o 33 método de geração HF em SBR, em "MPEG4 AAC". ("ISO/IEC 14496-3 subpart 4 General Audio Coding"). A unidade 2h de análise de predição linear de alta frequência executa análise de predição linear, na direcção de frequência, sobre qexp(k, r) de cada um dos intervalos de tempo r gerados pela unidade 2g de geração de alta frequência para obter coeficientes aexp(n, r) de alta frequência de predição linear (processo no Passo Sb6). A análise de predição linear é realizada para um intervalo de kx<k^63 correspondendo aos componentes de alta frequência gerados pela unidade 2g de geração de alta frequência. A unidade 2i de filtragem inversa de predição linear executa filtragem inversa de predição linear, na direcção de frequência, sobre um sinal no domínio QMF da banda de alta frequência gerado pela unidade 2g de geração de alta frequência utilizando aexp(n, r) como coeficientes (processo no Passo Sb7). A função de transferência da filtragem inversa de predição linear pode ser expressa como a expressão seguinte (9). /(z) = l + Za=»p(”>dz“" -(9) B=1 A filtragem inversa de predição linear pode ser realizada a partir de um coeficiente com uma frequência menor para um coeficiente com uma frequência mais elevada ou pode ser realizada na direcção oposta. A filtragem inversa de predição linear é um processo para achatar temporariamente a envolvente temporal dos componentes de alta frequência, antes da realização da modelação de envolvente temporal na fase subsequente e a 34 unidade 2i de filtragem inversa de predição linear pode ser suprimida. Também é possível realizar análise de predição linear e filtragem inversa sobre saídas da unidade 2j de ajustamento de alta frequência, o que será descrito mais tarde, pela unidade 2h de análise de predição linear de alta frequência e unidade 2i de filtragem inversa de predição linear, em vez de executar análise de predição linear e filtragem inversa sobre os componentes de alta frequência das saídas da unidade 12g de geração de alta frequência. Os coeficientes de predição linear utilizados para a filtragem inversa de predição linear também podem ser adec(n, r) ou aadj (n, r) , em vez de aexp(n, r) . Os coeficientes de predição linear utilizados para a filtragem inversa de predição linear também podem ser coeficientes aeXp,adj (n, r) de predição linear obtidos pela realização de ajustamento de intensidade de filtragem sobre aexp(n, r) . 0 ajustamento da intensidade é executado de acordo com a seguinte expressão (10), semelhante à da obtenção de aadj (n, r) . a^Mr) = amp(n,r)-K(r)" (iS-sn) —(io) A unidade 2j de ajustamento de alta frequência ajusta as características de frequência e tonalidade dos componentes de alta frequência de uma saída da unidade 2i de filtragem inversa de predição linear (processo no Passo Sb8). O ajustamento é realizado de acordo com a informação suplementar SBR recebida da unidade 2a de separação de fluxo de bits. O processamento pela unidade 2j de ajustamento de alta frequência é realizado de acordo com o passo de "ajustamento de HF" na SBR em "MPEG4 AAC" e é ajustado ao realizar filtragem inversa de predição linear na direcção temporal, ajustamento de ganho e adição de ruído no sinal no domínio QMF da banda de alta frequência. Os detalhes 35 dos processos nos passos descritos acima estão descritos no documento "ISO/IEC 14496-3 subpart 4 General Audio Coding". Como descrito acima, a unidade 2c de transformação de frequência, a unidade 2g de geração de alta frequência e a unidade 2j de ajustamento de alta frequência funcionam de acordo com o descodificador SBR em "MPEG4 AAC" definido no documento "ISO/IEC 14496-3". A unidade 2k de filtragem de predição linear executa filtragem de síntese de predição linear na direcção de frequência, sobre componentes qadj (n, r) de alta frequência de um sinal no domínio QMF emitido pela unidade 2j de ajustamento de alta frequência utilizando aadj (n, r) obtidos a partir da unidade 2f de ajustamento de intensidade de filtragem (processo no Passo Sb9). A função de transferência da filtragem de síntese de predição linear pode ser expressa como a seguinte expressão (11). g(z) = 1 n=1
Ao realizar a filtragem de síntese de predição linear, a unidade 2k de filtragem de predição linear modela a envolvente temporal dos componentes de alta frequência gerados com base em SBR. A unidade 2m de adição de coeficientes adiciona um sinal no domínio QMF incluindo os componentes de baixa frequência emitidos pela unidade 2c de transformação de frequência e um sinal no domínio QMF incluindo os componentes de alta frequência 36 emitidos pela unidade 2k de filtragem de predição linear e emite um sinal no domínio QMF incluindo os componentes de baixa frequência e os componentes de alta frequência (processo no Passo SblO).
A unidade 2n de transformação inversa de frequência processa o sinal no domínio QMF obtido a partir da unidade 2m de adição de coeficientes utilizando um banco de filtros QMF de síntese. Consequentemente, obtém-se um sinal de voz descodificado no domínio do tempo incluindo os componentes de baixa frequência, obtidos pela descodificação codec do núcleo, e os componentes de alta frequência qerados por SBR e cuja envolvente temporal é modelada pelo filtro de predição linear, e o sinal de voz obtido é emitido para o exterior pelo dispositivo 21 de descodificação de voz através do dispositivo de comunicação incorporado (processo no Passo Sbll). Se K(r) e a informação de modo de filtragem inversa da informação suplementar SBR descrita no documento "ISO/IEC 14496-3, subpart 4 General Audio Coding" forem transmitidos exclusivamente, a unidade 2n de transformação inversa de frequência pode gerar informação de modo de filtragem inversa da informação suplementar SRB para um intervalo de tempo para o qual K(r) é transmitido, mas a informação de modo de filtragem inversa da informação suplementar SBR não é transmitida, através da utilização de informação de modo de filtragem inversa da informação suplementar SBR relativamente a, pelo menos, um intervalo de tempo dos intervalos de tempo, antes e depois do intervalo de tempo. Também é possível configurar, antecipadamente, a informação de modo de filtragem inversa da informação suplementar SBR do intervalo de tempo para um modo predeterminado. A unidade 2n de transformação inversa de frequência pode gerar K(r) para um intervalo de tempo para o qual os dados de filtragem inversa da informação suplementar SBR 37 são transmitidos, mas K(r) não é transmitido, através da utilização de K(r) para, pelo menos, um intervalo de tempo dos intervalos de tempo, antes e depois do intervalo de tempo. Também é possível configurar, antecipadamente, K(r) do intervalo de tempo para um valor predeterminado. A unidade 2n de transformação inversa de frequência também pode determinar se a informação transmitida é K(r) ou a informação de modo de filtragem inversa da informação suplementar SBR, com base numa informação indicando se se transmite K(r) ou a informação de modo de filtragem inversa da informação suplementar SBR. (Modificação 1 da Primeira Forma de Realização) A FIG. 5 é um diagrama que ilustra uma modificação (dispositivo 11a de codificação de voz) do dispositivo de codificação de voz de acordo com a primeira forma de realização. 0 dispositivo 11a de codificação de voz inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 11a de codificação de voz através da introdução e execução de um programa de computador predeterminado armazenado numa memória interna do dispositivo 11a de codificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 11a de codificação de voz recebe um sinal de voz a codificar desde o exterior do dispositivo 11a de codificação de voz e emite um fluxo de bits codificado e multiplexado para o exterior do dispositivo 11a de codificação de voz. 0 dispositivo 11a de codificação de voz, como ilustrado na FIG. 5, inclui, funcionalmente, uma unidade lh de transformação 38 inversa de alta frequência, uma unidade li de cálculo de potência de curto prazo (meio de cálculo de informação suplementar de envolvente temporal), uma unidade lfl de cálculo de parâmetros de intensidade de filtragem (meio de cálculo de informação suplementar de envolvente temporal) e uma unidade lgl de multiplexagem de fluxo de bits (meio de multiplexagem de fluxo de bits), em vez da unidade le de análise de predição linear, unidade lf de cálculo de parâmetros de intensidade de filtragem e unidade lg de multiplexagem de fluxo de bits do dispositivo 11 de codificação de voz. A unidade lgl de multiplexagem de fluxo de bits tem a mesma função que a lg. A unidade la de transformação de frequência até à unidade lg de codificação SBR, a unidade lh de transformação inversa de alta frequência, a unidade li de cálculo de potência de curto prazo, a unidade lfl de cálculo de parâmetros de intensidade de filtragem e a unidade lgl de multiplexagem de fluxo de bits do dispositivo 11a de codificação de voz ilustrado na FIG. 5 são funções realizadas quando a CPU do dispositivo 11a de codificação de voz executa o programa de computador armazenado na memória interna do dispositivo 11a de codificação de voz. Vários tipos de dados necessários para executar o programa de computador e vários tipos de dados gerados através da execução do programa de computador são armazenados na memória interna, tal como a ROM e a RAM do dispositivo 11a de codificação de voz. A unidade lh de transformação inversa de alta frequência substitui os coeficientes do sinal no domínio QMF obtido a partir da unidade la de transformação de frequência por "0", o que corresponde aos componentes de baixa frequência codificados pela unidade lc de codificação de codec de núcleo e processa os coeficientes utilizando o banco de filtros QMF de síntese para se obter um sinal no domínio do tempo que inclui apenas os 39 componentes de alta frequência. A unidade li de cálculo de potência de curto prazo divide os componentes de alta frequência no domínio do tempo obtidos a partir da unidade lh de transformação inversa de alta frequência em segmentos curtos, calcula a potência e calcula p(r). Num método alternativo, a potência de curto prazo também pode ser calculada de acordo com a seguinte expressão (12), utilizando o sinal no domínio QMF. -(12) p(r)=&M2 *=0 A unidade lfl de cálculo de parâmetros de intensidade de filtragem detecta a parte mudada de p(r) e determina um valor de K(r), pelo que K(r) é aumentado com a grande mudança. 0 valor de K(r), por exemplo, também pode ser calculado pelo mesmo método de cálculo de T(r), pela unidade 2e de detecção de mudança de sinal do dispositivo 21 de descodificação de voz. A mudança de sinal também pode ser detectada por utilização de outros métodos mais sofisticados. A unidade lfl de cálculo de parâmetros de intensidade de filtragem também pode obter potência de curto prazo de cada um dos componentes de baixa frequência e dos componentes de alta frequência, obter mudanças de sinal Tr(r) e Th(r) de cada um dos componentes de baixa frequência e dos componentes de alta frequência utilizando o mesmo método de cálculo de T(r), pela unidade 2e de detecção de mudança de sinal do dispositivo 21 de descodificação de voz, e determinar o valor de K (r) utilizando-os. Neste caso, por exemplo, K(r) pode ser obtido de acordo com a seguinte expressão (13), em que ε é uma constante, tal como 3,0. 40 K(r)=max(0,e B(Th(r)-Tr(r))) —(13) (Modificação 2 da Primeira Forma de Realização)
Um dispositivo de codificação da voz (não ilustrado) de uma modificação 2 da primeira forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo de codificação de voz da modificação 2 através da introdução e execução de um programa de computador predeterminado armazenado numa memória interna do dispositivo de codificação de voz da modificação 2, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo de codificação de voz da modificação 2 recebe um sinal de voz a codificar desde o exterior do dispositivo de codificação de voz e emite um fluxo de bits codificado e multiplexado para o exterior do dispositivo de codificação de voz. 0 dispositivo de codificação de voz da modificação 2 inclui, funcionalmente, uma unidade de codificação diferencial de coeficientes de predição linear (meio de cálculo de informação suplementar de envolvente temporal) e uma unidade de multiplexagem de fluxo de bits (meio de multiplexagem de fluxo de bits) que recebe uma saída da unidade de codificação diferencial de coeficientes de predição linear, que não está ilustrada, em vez da unidade lf de cálculo de parâmetros de intensidade de filtragem e da unidade lg de multiplexagem de fluxo de bits do dispositivo 11 de codificação de voz. A unidade la de transformação de frequência até à unidade le de análise de predição linear, a unidade de codificação diferencial de coeficientes de predição linear e a unidade de multiplexagem 41 de fluxo de bits do dispositivo de codificação de voz da modificação 2 são funções realizadas quando a CPU do dispositivo de codificação de voz da modificação 2 executa o programa de computador armazenado na memória interna do dispositivo de codificação de voz da modificação 2. Vários tipos de dados necessários para executar o programa de computador e vários tipos de dados gerados pela execução do programa de computador são armazenados na memória interna, tal como a ROM e RAM, do dispositivo de codificação de voz da modificação 2. A unidade de codificação diferencial de coeficientes de predição linear calcula valores de diferencial aD(n, r) do coeficiente de predição linear de acordo com a seguinte expressão (14), utilizando aH(n, r) do sinal de entrada e aL(n, r) do sinal de entrada. aD(n,r)=aH(n,r)-aL(n1r) (1^n^N) —(14) A unidade de codificação diferencial de coeficientes de predição linear, então, quantifica aD(n, r) e transmite-os para a unidade de multiplexagem de fluxo de bits (estrutura correspondente à unidade lg de multiplexagem de fluxo de bits). A unidade de multiplexagem de fluxo de bits multiplexa aD(n, r) para o fluxo de bits em vez de K(r) e emite o fluxo de bits multiplexado para fora do dispositivo de codificação de voz através do dispositivo de comunicação incorporado.
Um dispositivo de descodificação da voz (não ilustrado) da modificação 2 da primeira forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU 42 controla integralmente o dispositivo de descodificação de voz da modificação 2 através da introdução e execução de um programa de computador predeterminado armazenado numa memória interna do dispositivo de descodificação de voz da modificação 2, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo de descodificação de voz da modificação 2 recebe a saída de fluxo de bits codificado e multiplexado do dispositivo 11 de codificação de voz, do dispositivo 11a de codificação de voz de acordo com a modificação 1 ou do dispositivo de codificação de voz de acordo com a modificação 2, e emite um sinal de voz descodificado para o exterior do dispositivo de descodificação de voz. 0 dispositivo de descodificação de voz da modificação 2 inclui, funcionalmente, uma unidade de descodificação diferencial de coeficientes de predição linear, que não está ilustrada, em vez da unidade 2f de ajustamento de intensidade de filtragem do dispositivo 21 de descodificação de voz. A unidade 2a de separação de fluxo de bits até à unidade 2e de detecção de mudança de sinal, a unidade de codificação diferencial de coeficientes de predição linear e a unidade 2g de geração de alta frequência até à unidade 2n de transformação inversa de frequência do dispositivo de descodificação de voz da modificação 2 são funções realizadas quando a CPU do dispositivo de descodificação de voz da modificação 2 executa o programa de computador armazenado na memória interna do dispositivo de descodificação de voz da modificação 2. Vários tipos de dados necessários para executar o programa de computador e vários tipos de dados gerados pela execução do programa de computador são armazenados na memória interna, tal como a ROM e RAM, do dispositivo de descodificação de voz da modificação 2. 43 A unidade de descodificação diferencial de coeficientes de predição linear obtém aadj (n, r) diferencialmente descodificados de acordo com a seguinte expressão (15) utilizando aL(n, r) obtidos a partir da unidade 2d de análise de predição linear de baixa frequência e aD(n, r) recebidos da unidade 2a de separação de fluxo de bits. aadjín.r^adecOvJ+aDÍn.r), 1án^N —(15) A unidade de descodificação diferencial de coeficientes de predição linear transmite aadj (n, r) diferencialmente
descodificados deste modo para a unidade 2k de filtragem de predição linear. aD(n, r) pode ser um valor diferencial no domínio de coeficientes de predição, como ilustrado na expressão (14) . Mas, depois de converter coeficientes de predição para a outra forma de expressão, tal como LSP (Par de Espectro Linear) , ISP (Par de Espectro de Imitância), LSF (Frequência de Espectro Linear), ISF (Frequência de Espectro de Imitância) e coeficiente PARCOR, aD(n, r) pode ser um valor retirando uma diferença destes. Neste caso, a descodificação diferencial também tem a mesma forma de expressão. (Segunda Forma de Realização)
A FIG. 6 é um diagrama que ilustra um dispositivo 12 de codificação de voz, de acordo com uma segunda forma de realização. 0 dispositivo 12 de codificação de voz inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU 44 controla integralmente o dispositivo 12 de codificação de voz através da introdução e execução de um programa de computador predeterminado (tal como um programa de computador para realizar processos ilustrados no fluxograma da FIG. 7) armazenado numa memória interna do dispositivo 12 de codificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 12 de codificação de voz recebe um sinal de voz a codificar desde o exterior do dispositivo 12 de codificação de voz e emite um fluxo de bits codificado e multiplexado para o exterior do dispositivo 12 de codificação de voz. 0 dispositivo 12 de codificação de voz inclui, funcionalmente, uma unidade lj de limitação de coeficientes de predição linear (meio de limitação de coeficientes de predição), uma unidade lk de quantificação de coeficientes de predição linear (meio de quantificação de coeficiente de predição) e uma unidade lg2 de mult iplexagem de fluxo de bits (meio de multiplexagem de fluxo de bits) em vez da unidade lf de cálculo de parâmetros de intensidade de filtragem e da unidade lg de multiplexagem de fluxo de bits do dispositivo 11 de codificação de voz. A unidade la de transformação de frequência até à unidade le de análise de predição linear (meio de análise de predição linear), a unidade 1 j de limitação de coeficientes de predição linear, a unidade lk de quantificação de coeficientes de predição linear e a unidade lg2 de mult iplexagem de fluxo de bits do dispositivo 12 de codificação de voz ilustrado na FIG. 6 são funções realizadas quando a CPU do dispositivo 12 de codificação de voz executa o programa de computador armazenado na memória interna do dispositivo 12 de codificação de voz. A CPU do dispositivo 12 de codificação de voz executa sequencialmente processos (processos do Passo Sal ao Passo Sa5 e processos do Passo Scl ao Passo Sc3) ilustrados no fluxograma da 45 FIG. 7, por meio da execução do programa de computador (ou utilizando a unidade la de transformação de frequência até à unidade le de análise de predição linear, a unidade lj de limitação de coeficientes de predição linear, a unidade lk de quantificação de coeficientes de predição linear e a unidade lg2 de mult iplexagem de fluxo de bits do dispositivo 12 de codificação de voz ilustrado na FIG. 6). Vários tipos de dados necessários para executar o programa de computador e vários tipos de dados gerados por meio da execução do programa de computador são todos armazenados na memória interna, tal como a ROM e a RAM, do dispositivo 12 de codificação de voz. A unidade lj de limitação de coeficientes de predição linear limita aH(n, r) obtidos a partir da unidade le de análise de predição linear na direcção temporal e transmite um valor de aH(n, r) para uma parte de intervalo de tempo ri e um valor do correspondente r± para a unidade lk de quantificação de coeficientes de predição linear (processo no Passo Scl). Deve salientar-se que 0^i<Nts e Nts é o número de intervalos de tempo numa trama para a qual se transmite aH(n, r) . A limitação dos coeficientes de predição linear pode ser realizada num intervalo de tempo predeterminado ou pode ser realizada num intervalo de tempo não uniforme com base nas características de aH(n, r) . Por exemplo, é possível um método que compare GH(r) de aH(n, r) numa trama tendo um determinado comprimento e faça aH(n, r) , do qual GH(r) excede um determinado valor, um objecto de quantificação. Se o intervalo de limitação dos coeficientes de predição linear for um intervalo predeterminado em vez de se utilizar as características de &h (n, r) , &h (n, r) não precisa de ser calculado para o intervalo de tempo em que a transmissão não é realizada. 4 6 A unidade lk de quantificação de coeficientes de predição linear quantifica os coeficientes aH(n, r^) de predição linear de alta frequência limitados recebidos da unidade lj de limitação de coeficientes de predição linear e índices ri dos intervalos de tempo correspondentes, e transmite-os para a unidade lg2 de multiplexagem de fluxo de bits (processo no Passo Sc2) . Numa estrutura alternativa, em vez de quantificar aH(n, ri) , podem quantificar-se valores diferenciais aD(n, ri) dos coeficientes de predição, como o dispositivo de codificação de voz de acordo com a modificação 2 da primeira forma de realização. A unidade lg2 de multiplexagem de fluxo de bits multiplexa o fluxo de bits codificado calculado pela unidade lc de codificação de codec de núcleo, a informação suplementar SBR calculada pela unidade ld de codificação SBR e os índices {ri} de intervalos de tempo correspondentes a aH(n, r±) a quantificar e recebidos da unidade lk de quantificação de coeficientes de predição linear para um fluxo de bits, e emite o fluxo de bits multiplexado através do dispositivo de comunicação do dispositivo 12 de codificação de voz (processo no Passo Sc3). A FIG. 8 é um diagrama que ilustra um dispositivo 22 de descodificação de voz, de acordo com a segunda forma de realização. 0 dispositivo 22 de descodificação de voz inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 22 de descodificação de voz através da introdução e execução de um programa de computador predeterminado (tal como um programa de computador para realizar processos ilustrados no fluxograma da FIG. 9) armazenado numa memória interna do dispositivo 22 de descodificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 22 de descodificação de voz recebe o fluxo de bits codificado e multiplexado emitido pelo dispositivo 12 de codificação de voz e emite um sinal de voz descodificado para o exterior do dispositivo 12 de codificação de voz. 0 dispositivo 22 de descodificação de voz inclui, funcionalmente, uma unidade 2al de separação de fluxo de bits (meio de separação de fluxo de bits), uma unidade 2p de interpolação/extrapolação de coeficientes de predição linear (meio de interpolação/extrapolação de coeficientes de predição linear) e uma unidade 2kl de filtragem de predição linear (meio de modelação de envolvente temporal) em vez da unidade 2a de separação de fluxo de bits, unidade 2d de análise de predição linear de baixa frequência, unidade 2e de detecção de mudança de sinal, unidade 2f de ajustamento de intensidade de filtragem e unidade 2k de filtragem de predição linear do dispositivo 21 de descodificação de voz. A unidade 2al de separação de fluxo de bits, unidade 2b de codificação de codec de núcleo, unidade 2c de transformação de frequência, unidade 2g de geração de alta frequência até à unidade 2j de ajustamento de alta frequência, unidade 2kl de filtragem de predição linear, unidade 2m de adição de coeficientes, unidade 2n de transformação inversa de frequência e unidade 2p de interpolação/extrapolação de coeficientes de predição linear do dispositivo 22 de descodificação de voz, ilustrado na FIG. 8, são funções realizadas quando a CPU do dispositivo 12 de codificação de voz executa o programa de computador armazenado na memória interna do dispositivo 12 de codificação de voz. A CPU do dispositivo 22 de descodificação de voz executa sequencialmente os processos (processos do Passo Sbl ao Passo Sd2, Passo Sdl, do Passo Sb5 ao
Passo Sb8, Passo Sd2 e do Passo SblO ao Passo Sbll) ilustrados no fluxograma da FIG. 9, através da execução do programa de 48 computador (ou utilizando a unidade 2al de separação de fluxo de bits, unidade 2b de codificação de codec de núcleo, unidade 2c de transformação de frequência, unidade 2g de geração de alta frequência até à unidade 2j de ajustamento de alta frequência, unidade 2kl de filtragem de predição linear, unidade 2m de adição de coeficientes, unidade 2n de transformação inversa de frequência e unidade 2p de interpolação/extrapolação de coeficientes de predição linear do dispositivo 22 de descodificação de voz, ilustrado na FIG. 8). Vários tipos de dados necessários para executar o programa de computador e vários tipos de dados gerados pela execução do programa de computador são armazenados na memória interna, tal como a ROM e a RAM, do dispositivo 22 de descodificação de voz. 0 dispositivo 22 de descodificação de voz inclui a unidade 2al de separação de fluxo de bits, a unidade 2p de interpolação/extrapolação de coeficientes de predição linear e a unidade 2kl de filtragem de predição linear, em vez da unidade 2a de separação de fluxo de bits, unidade 2d de análise de predição linear de baixa frequência, unidade 2e de detecção de mudança de sinal, unidade 2f de ajustamento de intensidade de filtragem e unidade 2k de filtragem de predição linear do dispositivo 22 de descodificação de voz. A unidade 2al de separação de fluxo de bits separa o fluxo de bits multiplexado fornecido pelo dispositivo de comunicação do dispositivo 22 de descodificação de voz nos índices ri dos intervalos de tempo correspondentes a aH(n, ri) a quantificar, em informação suplementar SBR e no fluxo de bits codificado. A unidade 2p de interpolação/extrapolação de coeficientes de predição linear recebe os índices r^ dos intervalos de tempo 49 correspondentes a aH(n, rj.) a quantificar da unidade 2al de separação de fluxo de bits e obtém aH(n, r) correspondendo aos intervalos de tempo em que os coeficientes de predição linear não são transmitidos, por interpolação ou extrapolação (processos no Passo Sdl) . A unidade 2p de interpolação/extrapolação de coeficientes de predição linear pode extrapolar os coeficientes de predição linear, por exemplo, de acordo com a seguinte expressão (16). aH (n>r) = (n> rio) (l^n^N) —(16) em que rio é o valor mais próximo de r nos intervalos de tempo (riJ nos quais os coeficientes de predição linear são transmitidos, δ é uma constante que satisfaz 0<δ<1. A unidade 2p de interpolação/extrapolação de coeficientes de predição linear pode interpolar os coeficientes de predição linear, por exemplo, de acordo com a seguinte expressão (17), onde se satisfaz rio<r<ri0+i.
T — Y Y — Y aH(n,r) = —--aH(ri,η)+- ,0 ·aH(n,r.m) (!<n^N) rm\ ri */o+i */o -(17) A unidade 2p de interpolação/extrapolação de coeficientes de predição linear pode converter os coeficientes de predição linear noutras formas de expressão, tais como LSP (Par de Espectro Linear), ISP (Par de Espectro de Imitância), LSF (Frequência de Espectro Linear), ISF (Frequência de Espectro de Imitância) e coeficiente PARCOR, interpolá-los ou extrapolá-los, 50 e converter os valores obtidos em coeficientes de predição a utilizar. Os aH(n, r) interpolados ou extrapolados são transmitidos para a unidades 2kl de filtragem de predição linear e utilizados como coeficientes de predição linear para a filtragem de síntese de predição linear, mas também podem ser utilizados como coeficientes de predição linear para a unidade 2i de filtragem inversa de predição linear. Se ao(n, r±) for multiplexado num fluxo de bits em vez de aH(n, r), a unidade 2p de interpolação/extrapolação de coeficientes de predição linear executa a descodificação diferencial semelhante à do dispositivo de descodificação de voz de acordo com a modificação 2 da primeira forma de realização, antes de realizar o processo de interpolação ou extrapolação descrito acima. A unidade 2kl de filtragem de predição linear executa filtragem de síntese de predição linear, na direcção de frequência, sobre qadj (n, r) emitidos pela unidade 2j de ajustamento de alta frequência utilizando aH(n, r) interpolados ou extrapolados obtidos a partir da unidade 2p de interpolação/extrapolação de coeficientes de predição linear (processo no Passo Sd2) . Uma função de transferência da unidade 2kl de filtragem de predição linear transferência pode ser expressa como a seguinte expressão (18). A unidade 2kl de filtragem de predição linear modela a envolvente temporal dos componentes de alta frequência gerados pela SBR através da realização de filtragem de síntese de predição linear, como a unidade 2k de filtragem de predição linear do dispositivo 21 de descodificação de voz. g{z) =-ΰ--- 1+E^(w’r)z"B "(18) n=1 51 (Terceira Forma de Realização) A FIG. 10 é um diagrama que ilustra um dispositivo 13 de codificação de voz, de acordo com uma terceira forma de realização. O dispositivo 13 de codificação de voz inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 13 de codificação de voz através da introdução e execução de um programa de computador predeterminado (tal como um programa de computador para realizar processos ilustrados no fluxograma da FIG. 11) armazenado numa memória interna do dispositivo 13 de codificação de voz, tal como a ROM na RAM. O dispositivo de comunicação do dispositivo 13 de codificação de voz recebe um sinal de voz a codificar do exterior do dispositivo 13 de codificação de voz e emite um fluxo de bits codificado e multiplexado para o exterior do dispositivo 13 de codificação de voz. 0 dispositivo 13 de codificação de voz inclui, funcionalmente, uma unidade lm de cálculo de envolvente temporal (meio de cálculo de informação suplementar de envolvente temporal), uma unidade ln de cálculo de parâmetros de modelação de envolvente (meio de cálculo de informação suplementar de envolvente temporal) e uma unidade lg3 de multiplexagem de fluxo de bits (meio de mult iplexagem de fluxo de bits) em vez da unidade le de análise de predição linear, unidade lf de cálculo de parâmetros de intensidade de filtragem e unidade lg de multiplexagem de fluxo de bits do dispositivo 11 de codificação de voz. A unidade la de transformação de frequência até à unidade ld de codificação SBR, a unidade lm de cálculo de envolvente temporal, a unidade ln de cálculo de parâmetros de modelação de envolvente e a unidade lg3 de multiplexagem de 52 fluxo de bits do dispositivo 13 de codificação de voz, ilustrado na FIG. 10 são funções realizadas quando a CPU do dispositivo 12 de codificação de voz executa o programa de computador armazenado na memória interna do dispositivo 12 de codificação de voz. A CPU do dispositivo 13 de codificação de voz executa sequencialmente processos (processos do Passo Sal ao Passo Sa4 e do Passo Sei ao Passo Se3) ilustrados no fluxograma da FIG. 11, através da execução de um programa de computador (ou utilizando a unidade la de transformação de frequência até à unidade ld de codificação SBR, a unidade lm de cálculo de envolvente temporal, a unidade ln de cálculo de parâmetros de modelação de envolvente e a unidade lg3 de multiplexagem de fluxo de bits do dispositivo 13 de codificação de voz, ilustrado na FIG. 10). Vários tipos de dados necessários para executar o programa de computador e vários tipos de dados gerados pela execução do programa de computador são armazenados na memória interna, tal como a ROM e a RAM, do dispositivo 13 de codificação de voz. A unidade lm de cálculo de envolvente temporal recebe q(k, r) e, por exemplo, obtém informação e(r) de envolvente temporal dos componentes de alta frequência de um sinal, através da obtenção da potência de cada intervalo de tempo de q(k, r) (processo no Passo Sei). Neste caso, e(r) é obtida de acordo com a seguinte expressão (19).
A unidade ln de cálculo de parâmetros de modelação de envolvente recebe e(r) da unidade lm de cálculo de envolvente 53 temporal e recebe limites {]o±} de tempo de envolvente SBR da unidade ld de codificação SBR. Deve salientar-se que 0^i<Ne e Ne é o número de envolventes SBR na trama codificada. A unidade ln de cálculo de parâmetros de modelação de envolvente obtém um parâmetro s(i) (0^i<Ne) de cada uma das envolventes SBR na trama codificada de acordo com a seguinte expressão (20) (processo no Passo Se2). O parâmetro s(i) de modelação de envolvente corresponde à informação suplementar de envolvente temporal e é semelhante na terceira forma de realização.
Deve salientar-se que:
em que s(i) na expressão acima é um parâmetro que indica a magnitude da variação de e(r) na i-ésima envolvente SBR satisfazendo b±^r<b±+i, e e(r) é um número maior quando a variação da envolvente temporal aumenta. As expressões (20) e (21) descritas acima são exemplos de método de cálculo de s(i) e, por exemplo, s(i) também pode ser obtido utilizando, por exemplo, a SMF (Medida de Achatamento Espectral) de e(r), uma proporção entre o valor máximo e o valor mínimo e semelhantes. s(i) é, depois, quantificado e transmitido para a unidade lg3 de multiplexagem de fluxo de bits. 54 A unidade lg3 de multiplexagem de fluxo de bits multiplexa o fluxo de bits codificado calculado pela unidade lc de codificação de codec de núcleo, a informação suplementar SBR calculada pela unidade ld de codificação SBR e s(i) para um fluxo de bits, e emite o fluxo de bits multiplexado através do dispositivo de comunicação do dispositivo 13 de codificação de voz (processo no Passo Se3). A FIG. 12 é um diagrama que ilustra um dispositivo 23 de descodificação de voz, de acordo com a terceira forma de realização. 0 dispositivo 23 de descodificação de voz inclui, fisicamente uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 23 de descodificação de voz através da introdução e execução de um programa de computador predeterminado (tal como um programa de computador para realizar processos ilustrados no fluxograma da FIG. 13.) armazenado numa memória interna do dispositivo 23 de descodificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 23 de descodificação de voz recebe o fluxo de bits codificado e multiplexado emitido pelo dispositivo 13 de codificação de voz e emite um sinal de voz descodificado para o exterior do dispositivo 13 de descodificação de voz. 0 dispositivo 23 de descodificação de voz inclui, funcionalmente uma unidade 2a2 de separação de fluxo de bits (meio de separação de fluxo de bits), uma unidade 2r de cálculo de envolvente temporal de baixa frequência (meio de análise de envolvente temporal de baixa frequência), uma unidade 2s de ajustamento de modelação de envolvente (meio de ajustamento de envolvente temporal), uma unidade 2t de cálculo de envolvente temporal de alta frequência, uma unidade 2u de achatamento de 55 envolvente temporal e uma unidade 2v de modelação de envolvente temporal (meio de modelação de envolvente temporal) em vez da unidade 2a de separação de fluxo de bits, unidade 2d de análise de predição linear de baixa frequência linear, unidade 2e de detecção de mudança de sinal, unidade 2f de ajustamento de intensidade de filtragem, unidade 2h de análise de predição linear de alta frequência, unidade 2i de filtragem inversa de predição linear e unidade 2k de filtragem de predição linear do dispositivo 21 de descodificação de voz. A unidade 2a2 de separação de fluxo de bits, a unidade 2b de codificação de codec de núcleo até à unidade 2c de transformação de frequência, a unidade 2g de geração de alta frequência, a unidade 2j de ajustamento de alta frequência, a unidade 2m de adição de coeficientes, a unidade 2n de transformação de frequência e a unidade 2r de cálculo de envolvente temporal de baixa frequência até à unidade 2v de modelação de envolvente temporal do dispositivo 23 de descodificação de voz ilustrado na FIG. 12 são funções realizadas quando a CPU do dispositivo 12 de codificação de voz executa o programa de computador armazenado na memória interna do dispositivo 12 de codificação de voz. A CPU do dispositivo 23 de descodificação da voz executa sequencialmente processos (processos do Passo Sbl ao Passo Sb2, do Passo Sfl ao Passo Sf2, Passo Sb5, do Passo Sf3 ao Passo SF4, Passo Sb8, Passo Sf5 e do Passo SblO ao Passo Sbll) ilustrados no fluxograma da FIG. 13, pela execução do programa de computador (ou utilizando a unidade 2a2 de separação de fluxo de bits, a unidade 2b de codificação de codec de núcleo até à unidade 2c de transformação de frequência, a unidade 2g de geração de alta frequência, a unidade 2j de ajustamento de alta frequência, a unidade 2m de adição de coeficientes, a unidade 2n de transformação de frequência e a unidade 2r de cálculo de envolvente temporal de baixa frequência até à unidade 2v de 56 modelação de envolvente temporal do dispositivo 23 de descodificação de voz ilustrado na FIG. 12). Vários tipos de dados necessários para executar o programa de computador e vários tipos de dados gerados pela execução do programa de computador são armazenados na memória interna, tal como a ROM e a RAM do dispositivo 23 de descodificação de voz. A unidade 2a2 de separação de fluxo de bits separa o fluxo de bits multiplexado fornecido pelo dispositivo de comunicação do dispositivo 23 de descodificação de voz em s(i), informação suplementar SBR e o fluxo de bits codificado. A unidade 2r de cálculo de envolvente temporal de baixa frequência recebe qDEc(k, r) incluindo os componentes de baixa frequência da unidade 2c de transformação de frequência e obtém e(r) de acordo com a seguinte expressão (22) (processo no Passo Sfl).
A unidade 2s de ajustamento de modelação de envolvente ajusta e(r) utilizando s(i) e obtém a informação eadj(r) de envolvente temporal ajustada (processo no Passo Sf2). e (R) pode ser ajustada, por exemplo, de acordo com as seguintes expressões (23) a (25) .
(r) = e(i) + ijs{i) - v(i) (e(r) - e(i)) (s(0>v(i» (caso contrário) eadj(r) = e(r)
Deve salientar-se que: 57 ™(23)
As expressões (23) a (25) descritas acima são exemplos do método de ajustamento e também se pode utilizar o outro método de ajustamento através da qual a forma de eadj(r) torna-se semelhante à forma ilustrada por s(i). A unidade 2t de cálculo de envolvente temporal de alta frequência calcula uma envolvente temporal eexp(r) utilizando qexp(k, r) obtido a partir da unidade 2g de geração de alta frequência de acordo com a seguinte expressão (26) (processo no Passo Sf3). "exp
—(26) A unidade 2u de achatamento de envolvente temporal achata a envolvente temporal de qexp(k, r) obtida a partir da unidade 2g de geração de alta frequência de acordo com a seguinte expressão (27) e transmite o sinal obtido qfiat(k, r) no domínio QMF para a unidade 2j de ajustamento de alta frequência (processo no Passo Sf4). 58
0 achatamento da envolvente temporal pela unidade 2u de achatamento de envolvente temporal também pode ser suprimido. Em vez de calcular a envolvente temporal dos componentes de alta frequência da saída da unidade 2g de geração de alta frequência e achatar a respectiva envolvente temporal, pode calcular-se a envolvente temporal dos componentes de alta frequência de uma saída da unidade 2j de ajustamento de alta frequência e a respectiva envolvente temporal pode ser achatada. A envolvente temporal utilizada na unidade 2u de achatamento de envolvente temporal também pode ser eadj (r) , obtida a partir da unidade 2s de ajustamento de modelação de envolvente, em vez de eexp(r), obtida a partir da unidade 2t de cálculo de envolvente temporal de alta frequência. A unidade 2v de modelação de envolvente temporal modela qadj (k, r) obtida a partir da unidade 2 j de ajustamento de alta frequência utilizando eadj(r) obtida a partir da unidade 2v de modelação de envolvente temporal e obtém um sinal qenvadj(k, r) no domínio QMF no qual a envolvente temporal é modelada (processo no Passo Sf5) . A modelação é realizada de acordo com a seguinte expressão (28) . qenvadj (k, r) é transmitido para a unidade 2m de adição de coeficientes como um sinal no domínio QMF correspondente aos componentes de alta frequência.
59 (Quarta Forma de Realizaçao)
A FIG. 14 é um diagrama que ilustra um dispositivo 24 de descodificação de voz, de acordo com uma quarta forma de realização. 0 dispositivo 24 de descodificação de voz inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 24 de descodificação de voz através da introdução e execução de um programa de computador predeterminado armazenado numa memória interna do dispositivo 24 de descodificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 24 de descodificação de voz recebe o fluxo de bits codificado e multiplexado emitido pelo dispositivo 11 de codificação de voz, ou dispositivo 13 de codificação de voz, e emite um sinal de voz descodificado para o exterior do dispositivo 24 de descodificação de voz. 0 dispositivo 23 de descodificação de voz inclui, funcionalmente, a estrutura do dispositivo 21 de descodificação de voz (a unidade 2b de codificação de codec de núcleo, a unidade 2c de transformação de frequência, a unidade 2d de análise de predição linear de baixa frequência, a unidade 2e de detecção de mudança de sinal, a unidade 2f de ajustamento de intensidade de filtragem, a unidade 2g de geração de alta frequência, a unidade 2h de análise de predição linear de alta frequência, a unidade 2i de filtragem inversa de predição linear, a unidade 2j de ajustamento de alta frequência, a unidade 2k de filtragem de predição linear, a unidade 2m de adição de coeficientes e a unidade 2n de transformação inversa de frequência) e a estrutura do dispositivo 24 de descodificação de voz (a unidade 2r de cálculo de envolvente temporal de baixa frequência, a unidade 2s de ajustamento de modelação de 60 envolvente e a unidade 2v de modelação de envolvente temporal). 0 dispositivo 24 de descodificação de voz também inclui uma unidade 2a3 de separação de fluxo de bits (meio de separação de fluxo de bits) e uma unidade 2w de conversão de informação suplementar. A ordem da unidade 2k de filtragem de predição linear e unidade 2v de modelação de envolvente pode ser oposta à ilustrada na FIG. 14. 0 dispositivo 24 de descodificação de voz recebe, de um modo preferido, o fluxo de bits codificado pelo dispositivo 11 de codificação de voz ou dispositivo 13 de codificação de voz. A estrutura do dispositivo 24 de descodificação de voz ilustrado na FIG. 14 é uma função realizada quando a CPU do dispositivo 24 de descodificação de voz executa o programa de computador armazenado na memória interna do dispositivo 24 de descodificação de voz. Vários tipos de dados necessários para executar o programa de computador e vários tipos de dados gerados pela execução do programa de computador são todos armazenados na memória interna, tal como a ROM e a RAM, do dispositivo 24 de descodificação de voz. A unidade 2a3 de separação de fluxo de bits separa o fluxo de bits multiplexado fornecido pelo dispositivo de comunicação do dispositivo 24 de descodificação de voz em informação suplementar de envolvente temporal, informação suplementar SBR e o fluxo de bits codificado. A informação suplementar de envolvente temporal também pode ser K(r) descrito na primeira forma de realização ou s(i) descrito na terceira forma de realização. A informação suplementar de envolvente temporal também pode ser outro parâmetro X(r), que não é K(r) nem s(i). A unidade 2w de conversão de informação suplementar converte a informação suplementar de envolvente temporal fornecida para obter K(r) e s(i) . Se a informação suplementar de envolvente 61 temporal for K(r), a unidade 2w de conversão de informação suplementar converte K(r) em s(i) . A unidade 2w de conversão de informação suplementar também pode obter, por exemplo, um valor médio de K(r) numa secção de bidr<bi+i K(i) “(29) e converter o valor médio representado na expressão (29) em s(i) utilizando uma tabela predeterminada. Se a informação suplementar de envolvente temporal for s(i), a unidade 2w de conversão de informação suplementar converte s(i) para K(r). A unidade 2w de conversão de informação suplementar também pode efectuar a conversão, convertendo s(i) para K(r), por exemplo, utilizando uma tabela predeterminada. Deve salientar-se que i e r estão associados entre si de modo a satisfazer a relação de bi<r<bi+i.
Se a informação suplementar de envolvente temporal for um parâmetro X(r), que nao é s(i) nem K(r), a unidade 2w de conversão de informação suplementar converte X(r) em K (r) e s(i). É preferido que a unidade 2w de conversão de informação suplementar converta X(r) em K(r) e s(i), por exemplo, utilizando uma tabela predeterminada. É também preferido que a unidade 2w de conversão de informação suplementar transmita X(r) como um valor representativo de cada envolvente SBR. As tabelas de conversão de X(r) em K(r) e s(i) podem ser diferentes umas das outras. 62 (Modificação 3 da Primeira Forma de Realização)
No dispositivo 21 de descodificação de voz da primeira forma de realização, a unidade 2k de filtragem de predição linear do dispositivo 21 de descodificação de voz pode incluir um processo de controlo automático de ganho. 0 processo de controlo automático de ganho é um processo para ajustar a potência do sinal na saída do domínio QMF emitido pela unidade 2k de filtragem de predição linear para a potência do sinal no domínio do QMF a fornecer. Em geral, um sinal qSyn,Pow(n, r) no domínio QMF cujo ganho foi controlado é realizado pela seguinte expressão. <íSyn,pow(.n,r) = qsyn(n,r)· P0(r)Plir) -(30)
Neste caso, Po(r) e Pi(r) sao expressos pelas seguintes expressão (31) e a expressão (32). «. |2 po(r) = X)fladj(n^)\ -cm n=kx ^ (Γ) = Σ ky* r) 2 -(32) n-kx
Ao realizar o processo de controlo automático de ganho, a potência dos componentes de alta frequência do sinal emitido pela unidade 2k de filtragem de predição linear é ajustada para 63 um valor equivalente ao anterior à filtragem de predição linear. Consequentemente, para o sinal emitido pela unidade 2k de filtragem de predição linear em que a envolvente temporal dos componentes de alta frequência gerada com base em SBR é modelada, o efeito de ajustamento da potência do sinal de alta frequência realizado pela unidade 2j de ajustamento de alta frequência pode ser mantido. 0 processo de controlo automático de ganho também pode ser realizado individualmente num determinado intervalo de frequências do sinal no domínio QMF. 0 processo realizado no intervalo de frequências individual pode ser realizado ao limitar n na expressão (30), expressão (31) e expressão (32) dentro de um determinado intervalo de frequências. Por exemplo, o i-ésimo intervalo de frequências pode ser expresso como Fi^n<Fi+i (neste caso, i é um índice que indica o número de um determinado intervalo de frequências do sinal no domínio QMF) . Fi indica o limite do intervalo de frequências e é preferido que F± seja uma tabela de limites de frequência de um factor de escala de envolvente definido em SBR, em "MPEG4 AAC". A tabela de limites de frequência é definida pela unidade 2g de geração de alta frequência com base na definição de SBR em "MPEG4 AAC". Ao realizar o processo de controlo automático de ganho, a potência do sinal emitido pela unidade 2k de filtragem de predição linear num determinado intervalo de frequências dos componentes de alta frequência é ajustada para um valor equivalente ao anterior à filtragem de predição linear. Consequentemente, o efeito de ajustamento da potência do sinal de alta frequência realizado pela unidade 2j de ajustamento de alta frequência sobre o sinal emitido pela unidade 2k de filtragem de predição linear na qual a envolvente temporal dos componentes de alta frequência gerada com base em SBR é modelada é mantido por unidade de intervalo de frequências. As alterações feitas na presente modificação 3 da 64 primeira forma de realização também podem ser feitas na unidade 2k de filtragem de predição linear da quarta forma de realização.
[Modificação 1 da Terceira Forma de Realização] A unidade ln de cálculo de parâmetros de modelação de envolvente no dispositivo 13 de codificação de voz da terceira forma de realização também pode ser realizada pelo processo seguinte. A unidade ln de cálculo de parâmetros de modelação de envolvente obtém um parâmetro s(i) (0^i<Ne) de modelação de envolvente de acordo com a seguinte expressão (33) para cada envolvente SBR na trama codificada. -(33) 5(0 = 1-111111(4¾ e(i)
Deve salientar-se que: e(i) -(34) é um valor médio de e(r) na envolvente SBR e o método de cálculo baseia-se na expressão (21). Deve salientar-se que a envolvente SBR indica o segmento de tempo satisfazendo bi^rcbi+i. {bi} são as margens de tempo das envolventes SBR incluídas na informação suplementar SBR como informação e são os limites do segmento de tempo para o qual o factor de escala de envolvente SBR representando a energia de sinal média num determinado segmento 65 de tempo e num determinado intervalo de frequências é dado. min (·) representa o valor mínimo dentro do intervalo bi^rcbi+i. Por conseguinte, neste caso, o parâmetro s(i) de modelação de envolvente é um parâmetro para indicar uma proporção entre o valor mínimo e o valor médio da informação de envolvente temporal ajustada na envolvente SBR. A unidade 2s de ajustamento de modelação de envolvente no dispositivo 23 de descodificação de voz da terceira forma de realização também pode ser realizada pelo processo seguinte. A unidade 2s de ajustamento de modelação de envolvente ajusta e(r) utilizando s(i) para obter a informação eadj(r) de envolvente temporal ajustada. 0 método de ajustamento baseia-se nas seguintes expressão (35) ou expressão (36) .
-(35) —(36) A expressão 35 ajusta a modelação de envolvente de modo a que a proporção entre o valor mínimo e o valor médio da informação eadj(r) de envolvente temporal ajustada na envolvente SBR seja equivalente ao valor do parâmetro s(i) de modelação de envolvente. As alterações efectuadas à modificação 1 da terceira forma de realização acima descrita também podem ser feitas para a quarta forma de realização. 66 [Modificação 2 da Terceira Forma de Realização] A unidade 2v de modelação de envolvente temporal também pode utilizar a expressão que se segue em vez da expressão (28). Como indicado na expressão (37), eadjf scaied (r) é obtido através do controlo do ganho da informação eadj(r) de envolvente temporal ajustada, de modo a que a potência de qenvadj(k, r) mantenha a de qadj (k, r) dentro da envolvente SBR. Como indicado na expressão (38), na presente modificação 2 da terceira forma de realização, qenvadj (k, r) é obtido através da multiplicação do sinal qadj(k, r) no domínio QMF por eadj,scaied(r) em vez de eadj(r). Por conseguinte, a unidade 2v de modelação de envolvente temporal pode modelar a envolvente temporal do sinal qadj(k, r) no domínio QMF, de modo a que a potência do sinal dentro da envolvente SBR seja equivalente antes e depois da modelação da envolvente temporal. Deve salientar-se que a envolvente SBR indica o segmento de tempo satisfazendo bi^r<bi+i. {b±} são as margens de tempo das envolventes SBR incluídas na informação suplementar SBR como informação e são os limites do segmento de tempo para o qual o factor de escala de envolvente SBR representando a energia de sinal média num determinado segmento de tempo e num determinado intervalo de frequências é dado. A terminologia "envolvente SBR" nas formas de realização descritas corresponde à terminologia "segmento de tempo de envolvente SBR" em "MPEG4 AAC" definida no documento "ISO/IEC 14496-3" e a "envolvente SBR" tem o mesmo conteúdo que o "segmento de tempo de envolvente SBR" ao longo das formas de realização. 67 63 eadj,scaled (r) — eadj (r) ' '~(37) (kx < k < 63,b± < r < b1+1)í «n«0 (*> t> = 9„*- (*, r) · (r) -(38) (kx — k < 63,b± d r < b 1 + 1
As alterações feitas na presente modificação 2 da terceira forma de realização acima descrita também podem ser feitas para a quarta forma de realização. (Modificação 3 da Terceira Forma de Realizaçao) A expressão (19) também pode ser a seguinte expressão (39).
-(39) A expressão (22) também pode ser a seguinte expressão (40). 68 e(r) =
—(40) A expressão (26) também pode ser a seguinte expressão (41) «exp O)
0>,+ i - b, )£ \q e*P (* , r )|J * = V Ti \ r = b, k = ki <1 exp ( k > r ) -(41)
Quando a expressão (39) e a expressão (40) são utilizadas, a informação e(r) de envolvente temporal é informação em que a potência de cada amostra de sub-banda de QMF é normalizada pela potência média na envolvente SBR e a raiz quadrada é extraída. No entanto, a amostra de sub-banda de QMF é um vector de sinal correspondente ao índice "r" de tempo no sinal de domínio QMF e é uma sub-amostra no domínio QMF. Em todas as formas de realização descritas, a terminologia "intervalo de tempo" tem o mesmo conteúdo que a "amostra de sub-banda de QMF". Neste caso, a informação e(r) de envolvente temporal é um coeficiente de ganho que deve ser multiplicado por cada amostra de sub-banda de QMF e o mesmo se aplica à informação eadj(r) de envolvente temporal ajustada. 69 (Modificação 1 da Quarta Forma de Realizaçao)
Um dispositivo 24a de descodificação de voz (não ilustrado) de uma modificação 1 da quarta forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 24a de descodificação de voz através da introdução e execução de um programa de computador predeterminado armazenado numa memória interna do dispositivo 24a de descodificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 24a de descodificação de voz recebe o fluxo de bits codificado e multiplexado proveniente do dispositivo 11 de codificação de voz ou do dispositivo 13 de codificação de voz, e emite um sinal de voz descodificado para o exterior do dispositivo 24a de descodificação da voz. 0 dispositivo 24a de descodificação de voz inclui, funcionalmente, uma unidade 2a4 de separação de fluxo de bits (não ilustrada) em vez da unidade 2a3 de separação de fluxo de bits do dispositivo 24 de descodificação de voz e também inclui uma unidade 2y de geração de informação suplementar de envolvente temporal (não ilustrada) em vez da unidade 2w de conversão de informação suplementar. A unidade 2a4 de separação de fluxo de bits separa o fluxo de bits multiplexado em informação SBR e no fluxo de bits codificado. A unidade 2y de geração de informação suplementar de envolvente temporal gera informação suplementar de envolvente temporal com base na informação incluida no fluxo de bits codificado e na informação suplementar SBR.
Para gerar a informação suplementar de envolvente temporal numa determinada envolvente SBR pode utilizar-se, por exemplo, a duração de tempo (bi+i-b±) da envolvente SBR, uma classe de 70 tramas, um parâmetro de intensidade da filtragem inversa, um ruído de fundo, a amplitude da potência de alta frequência, uma proporção entre a potência de alta frequência e a potência de baixa frequência, um coeficiente de autocorrelação ou um ganho de predição de um resultado da realização de análise de predição linear, na direcção de frequência, sobre um sinal de baixa frequência representado no domínio QMF e semelhantes. A informação suplementar de envolvente temporal pode ser gerada por meio da determinação de K(r) ou s(i) com base num ou numa pluralidade de valores dos parâmetros. Por exemplo, a informação suplementar de envolvente temporal pode ser gerada por meio da determinação de K(r) ou s(i) com base em (bi+i-bi) , de modo a que K(r) ou s(i) diminuam quando a duração de tempo (bi+i-b±) da envolvente SBR aumenta ou K(r) ou s(i) aumentem quando a duração de tempo (bi+i-bi) da envolvente SBR aumenta. As alterações semelhantes também podem ser feitas para a primeira forma de realização e terceira forma de realização. (Modificação 2 da Quarta Forma de Realizaçao)
Um dispositivo 24b de descodificação de voz (ver FIG. 15) de uma modificação 2 da quarta forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 24b de descodificação de voz através da introdução e execução de um programa de computador predeterminado armazenado numa memória interna do dispositivo 24b de descodificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 24b de descodificação de voz recebe o fluxo de bits codificado e multiplexado emitido pelo dispositivo 11 de codificação de voz 71 ou dispositivo 13 de codificação de voz, e emite um sinal de voz descodificado para o exterior do dispositivo 24b de descodificação de voz. 0 dispositivo 24b de descodificação de voz, como ilustrado na FIG. 15, inclui uma unidade 2jl de ajustamento primário de alta frequência e uma unidade 2 j 2 de ajustamento secundário de alta frequência em vez da unidade 2j de ajustamento de alta frequência.
Neste caso, a unidade 2j 1 de ajustamento primário de alta frequência ajusta um sinal no domínio QMF da banda de alta frequência através da realização de filtragem inversa de predição linear na direcção temporal, ajustamento de ganho e adição de ruído, descrito no passo de "geração HF" e passo "ajustamento HF" na SBR em "MPEG4 AAC". Neste momento, o sinal de saída da unidade 2 j1 de ajustamento primário de alta frequência corresponde a um sinal W2 na descrição em "ferramenta SBR" no documento "ISO/IEC 14496-3:2005", cláusulas 4.6.18.7.6 de "Montagem de sinais HF". A unidade 2k de filtragem de predição linear (ou a unidade 2kl de filtragem de predição linear) e a unidade 2v de modelação de envolvente temporal modelam a envolvente temporal do sinal de saída da unidade de ajustamento primário de alta frequência. A unidade 2 j 2 de ajustamento secundário de alta frequência realiza um processo de adição de sinusoides no passo de "ajustamento HF" na SBR em "MPEG4 AAC". O processo da unidade de ajustamento secundário de alta frequência corresponde a um processo de geração de um sinal Y a partir do sinal W2 na descrição em "ferramenta SBR" no documento "ISO/IEC 14496-3:2005", cláusulas 4.6.18.7.6 de "Montagem de sinais HF", no qual o sinal W2 é substituído por um sinal de saída da unidade 2v de modelação de envolvente temporal. 72
Na descrição acima, apenas o processo de adição de sinusoides é realizado pela unidade 2j2 de ajustamento secundário de alta frequência. No entanto, qualquer um dos processos no passo de "ajustamento HF" pode ser realizado pela unidade 2 j 2 de ajustamento secundário de alta frequência. Modificações semelhantes também podem ser feitas para a primeira forma de realização, a segunda forma de realização e a terceira forma de realização. Nestes casos, a unidade de filtragem de predição linear (unidades 2k e 2kl de filtragem de predição linear) está incluída na primeira forma de realização e na segunda forma de realização, mas a unidade de modelação de envolvente temporal não está incluída. Consequentemente, um sinal de saída da unidade 2 j 1 de ajustamento primário de alta frequência é processado pela unidade de filtragem de predição linear e, em seguida, um sinal de saída da unidade de filtragem de predição linear é processado pela unidade 2j2 de ajustamento secundário de alta frequência.
Na terceira forma de realização, a unidade 2v de modelação de envolvente temporal está incluída, mas a unidade de filtragem de predição linear não está incluída. Consequentemente, um sinal de saída da unidade 2 j1 de ajustamento primário de alta frequência é processado pela unidade 2v de modelação de envolvente temporal e, em seguida, um sinal de saída da unidade 2v de modelação de envolvente temporal é processado pela unidade de ajustamento secundário de alta frequência.
No dispositivo de descodificação de voz (dispositivo 24, 24a ou 24b de descodificação de voz) da quarta forma de realização, a ordem de processamento da unidade 2k de filtragem de predição linear e a unidade 2v de modelação de envolvente temporal pode ser invertida. Por outras palavras, um sinal de saída da 73 unidade 2j de ajustamento de alta frequência ou da unidade 2jl de ajustamento primário de alta frequência pode ser, em primeiro lugar, processado pela unidade 2v de modelação de envolvente temporal e, em seguida, um sinal de saida da unidade 2v de modelação de envolvente temporal pode ser processado pela unidade 2k de filtragem de predição linear.
Além disso, só se a informação suplementar de envolvente temporal incluir informação de controlo binário para indicar se o processo é realizado pela unidade 2k de filtragem de predição linear ou unidade 2v de modelação de envolvente temporal e a informação de controlo indicar a realização do processo pela unidade 2k de filtragem de predição linear ou unidade 2v de modelação de envolvente temporal, a informação suplementar de envolvente temporal pode empregar uma forma que inclui, ainda, pelo menos, um dos parâmetros K(r) de intensidade de filtragem, parâmetro s(i) de modelação de envolvente ou X(r), que é um parâmetro para determinar K(r) e s(i), como informação. (Modificação 3 da Quarta Forma de Realizaçao)
Um dispositivo 24c de descodificação de voz (ver FIG. 16) de uma modificação 3 da quarta forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de
comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 24c de descodificação de voz através da introdução e execução de um programa de computador predeterminado (tal como um programa de computador para realizar processos ilustrados no fluxograma da FIG. 17) armazenado numa memória interna do dispositivo 24c de descodificação de voz, tal como a ROM na RAM. 0 dispositivo de 74 comunicação do dispositivo 24c de descodificação de voz recebe o fluxo de bits codificado e multiplexado e emite um sinal de voz descodificado para o exterior do dispositivo 24c de descodificação de voz. Como ilustrado na FIG. 16, o dispositivo 24c de descodificação de voz inclui uma unidade 2j3 de ajustamento primário de alta frequência e uma unidade 2j4 de ajustamento secundário de alta frequência em vez da unidade 2j de ajustamento de alta frequência e também inclui unidades 2zl, 2z2 e 2z3 de ajustamento de componentes de sinal individuais em vez da unidade 2k de filtragem de predição linear e da unidade 2v de modelação de envolvente temporal (unidades de ajustamento de componentes de sinais individuais correspondendo ao meio de modelação de envolvente temporal). A unidade 2 j 3 de ajustamento primário de alta frequência emite um sinal no domínio QMF da banda de alta frequência como um componente de sinal de cópia. A unidade 2j3 de ajustamento primário de alta frequência pode emitir um sinal sobre o qual se realiza, pelo menos, um de entre uma filtragem inversa de predição linear na direcção temporal e um ajustamento de ganho (ajustamento de características de frequência) no sinal, no domínio QMF, da banda de alta frequência, utilizando a informação suplementar SBR recebida da unidade 2a3 de separação de fluxo de bits, como um componente de sinal de cópia. A unidade 2j3 de ajustamento primário de alta frequência também gera um componente de sinal de ruído e um componente de sinal sinusoidal utilizando a informação suplementar SBR fornecida pela unidade 2a3 de separação de fluxo de bits e emite cada um de entre o componente de sinal de cópia, o componente de sinal de ruído e o componente de sinal sinusoidal separadamente (processo no Passo Sgl) . 0 componente de sinal de ruído e o 75 componente de sinal sinusoidal podem nao ser gerados, dependendo do conteúdo da informação suplementar SBR.
As unidades 2zl, 2z2 e 2z3 de ajustamento de componentes de sinais individuais executam um processamento em cada um da pluralidade de componentes de sinal incluídos na saída do meio de ajustamento primário de alta frequência (processo no Passo Sg2). 0 processo com as unidades 2zl, 2z2 e 2z3 de ajustamento de componentes de sinais individuais pode ser filtragem de síntese de predição linear na direcção de frequência obtida a partir da unidade 2f de ajustamento de intensidade de filtragem utilizando os coeficientes de predição linear, semelhante ao da unidade 2k de filtragem de predição linear (processo 1) . 0 processo com as unidades 2zl, 2z2 e 2z3 de ajustamento de componentes de sinais individuais também pode ser um processo de multiplicação de cada amostra de sub-banda de QMF por um coeficiente de ganho utilizando a envolvente temporal obtida a partir da unidade 2s de modelação de envolvente, semelhante ao da unidade 2v de modelação de envolvente temporal (processo 2) . 0 processo com as unidades 2zl, 2z2 e 2z3 de ajustamento de componentes de sinais individuais também pode ser um processo de realização de filtragem de síntese de predição linear na direcção de frequência sobre o sinal de entrada, utilizando os coeficientes de predição linear obtidos a partir da unidade 2f de ajustamento de intensidade de filtragem, semelhante ao da unidade 2k de filtragem de predição linear e, depois, multiplicando cada amostra de sub-banda de QMF por um coeficiente de ganho utilizando a envolvente temporal obtida a partir da unidade 2s de ajustamento de modelação de envolvente, semelhante ao da unidade 2v de modelação de envolvente temporal (processo 3) . 0 processo com as unidades 2zl, 2z2 e 2z3 de ajustamento de componentes de sinais individuais também pode ser 76 um processo de multiplicação de cada amostra de sub-banda de QMF, no que se refere ao sinal de entrada, por um coeficiente de ganho utilizando a envolvente temporal obtida a partir da unidade 2s de ajustamento de modelação de envolvente, semelhante ao da unidade 2v de modelação de envolvente temporal, e, em seguida, realizando filtragem de síntese de predição linear, na direcção de frequência, sobre o sinal de saída utilizando os coeficientes de predição linear, obtidos a partir da unidade 2f de ajustamento de intensidade de filtragem, semelhante ao da unidade 2k de filtragem de predição linear (processo 4). As unidades 2zl, 2z2 e 2z3 de ajustamento de componentes de sinais individuais podem não realizar o processo de modelação de envolvente temporal sobre o sinal de entrada, mas podem enviar o sinal de entrada tal como está (processo 5) . 0 processo com as unidades 2zl, 2z2 e 2z3 de ajustamento de componentes de sinais individuais pode incluir qualquer processo para modelar a envolvente temporal do sinal de entrada utilizando um método diferente do dos processos 1 a 5 (processo 6). 0 processo com as unidades 2zl, 2z2 e 2z3 de ajustamento de componentes de sinais individuais também pode ser um processo no qual uma pluralidade de múltiplos processos, entre os processos 1 a 6, são combinados numa ordem arbitrária (processo 7).
Os processos com as unidades 2zl, 2z2 e 2z3 de ajustamento de componentes de sinais individuais pode ser o mesmo, mas as unidades 2zl, 2z2 e 2z3 de ajustamento de componentes de sinais individuais podem modelar a envolvente temporal de cada um da pluralidade de componentes de sinal incluídos na saída do meio de ajustamento primário de alta frequência por diferentes métodos. Por exemplo, diferentes processos podem ser realizados sobre o sinal de cópia, o sinal de ruído e o sinal sinusoidal, de tal modo que a unidade 2zl de ajustamento de componentes de 77 sinais individuais realiza o processo 2 sobre o sinal de cópia fornecido cópia, a unidade 2z2 de ajustamento de componentes de sinais individuais realiza o processo 3 sobre o componente de sinal de ruido fornecido e a unidade 2z3 de ajustamento de componentes de sinais individuais realiza o processo 5 sobre o sinal sinusoidal fornecido. Neste caso, a unidade 2f de ajustamento de intensidade de filtragem e a unidade 2s de ajustamento de modelação de envolvente podem transmitir os mesmos coeficientes de predição linear e as envolventes temporais para as unidades 2zl, 2z2 e 2z3 de ajustamento de componentes de sinais individuais, mas também podem transmitir diferentes coeficientes de predição linear e envolventes temporais. É também possível transmitir os mesmos coeficientes de predição linear e as envolventes temporais para, pelo menos, duas das unidades 2zl, 2z2 e 2z3 de ajustamento de componentes de sinais individuais. Dado que, pelo menos, uma das unidades 2zl, 2z2 e 2z3 de ajustamento de componentes de sinais individuais pode não realizar o processo de modelação de envolvente temporal, mas emitir o sinal de entrada tal como está (processo 5), as unidades 2zl, 2z2 e 2z3 de ajustamento de componentes de sinais individuais realizam o processo de envolvente temporal sobre, pelo menos, um da pluralidade de componentes de sinal emitidos pela unidade 2j3 de ajustamento primário de alta frequência como um todo (se todas as unidades 2zl, 2z2 e 2z3 de ajustamento de componentes de sinais individuais realizarem o processo 5, o processo de modelação de envolvente temporal não é realizada em nenhum dos componentes de sinal e os efeitos da presente invenção não são exibidos).
Os processos realizados por cada uma das unidades 2zl, 2z2 e 2z3 de ajustamento de componentes de sinais individuais podem ser fixos a um do processo 1 ao processo 7, mas podem ser 78 determinados de forma dinâmica para realizar um do processo 1 ao processo 7 com base na informação de controlo recebida do exterior do dispositivo 24c de descodificação da voz. Nesta altura, é preferido que a informação de controlo seja incluida no fluxo de bits multiplexado. A informação de controlo pode ser uma instrução para executar qualquer um do processo 1 ao processo 7 num segmento de tempo especifico de envolvente SBR, trama codificada ou no outro segmento do tempo, ou pode ser uma instrução para executar qualquer um do processo 1 ao processo 7 sem especificar o segmento de tempo de controlo. A unidade 2j4 de ajustamento secundário de alta frequência adiciona os componentes de sinal processados emitidos pelas unidades 2zl, 2z2 e 2z3 de ajustamento de componentes de sinais individuais e emite o resultado para a unidade de adição de coeficientes (processo no Passo Sg3). A unidade 2j4 de ajustamento secundário de alta frequência pode realizar, pelo menos, um de entre a filtragem inversa de predição linear na direcção temporal e ajustamento de ganho (ajustamento de características de frequência) do componente de sinal de cópia utilizando a informação suplementar SBR recebida da unidade 2a3 de separação de fluxo de bits.
As unidades 2zl, 2z2 e 2z3 de ajustamento de componentes de sinais individuais podem funcionar em cooperação umas com as outras e gerar um sinal de saída, numa fase intermédia, adicionando, pelo menos, dois componentes de sinal sobre os quais se realiza qualquer um dos processos 1 a 7 e realizando, ainda, qualquer um dos processos 1 a 7 sobre o sinal adicionado. Neste momento, a unidade 2j4 de ajustamento secundário de alta frequência adiciona o sinal de saída na fase intermédia e um componente de sinal que não tenha sido, ainda, adicionado ao 79 sinal de saída na fase intermédia, e emite o resultado para a unidade de adição de coeficientes. Mais especificamente, é preferido gerar um sinal de saída na fase intermédia realizando o processo 5 na componente de sinal de cópia, aplicando o processo 1 no componente de ruído, adicionando os dois componentes de sinal e aplicando, ainda, o processo 2 ao sinal adicionado. Neste momento, a unidade 2j4 de ajustamento secundário de alta frequência adiciona o componente de sinal sinusoidal ao sinal de saída na fase intermédia e emite o resultado para a unidade de adição de coeficientes. A unidade 2j3 de ajustamento primário de alta frequência pode emitir qualquer um de uma pluralidade de componentes de sinal de forma separada umas das outras, além dos três componentes de sinal do componente de sinal de cópia, componente de sinal de ruído e componente de sinal sinusoidal. Neste caso, o componente de sinal pode ser obtido por adição de, pelo menos, dois de entre o componente de sinal de cópia, o componente de sinal de ruído e o componente de sinal sinusoidal. 0 componente de sinal também pode ser um sinal obtido pela divisão da banda de um de entre o componente de sinal de cópia, componente de sinal de ruído e componente de sinal sinusoidal. 0 número de componentes de sinal pode ser diferente de três e, neste caso, o número de unidades de ajustamento de componentes de sinais individuais pode ser diferente de três. 0 sinal de alta frequência gerado por SBR consiste em três elementos do componente de sinal de cópia obtidos ao copiar, da banda de baixa frequência para a banda de alta frequência, o sinal de ruído e o sinal sinusoidal. Dado que as envolventes temporais do sinal de cópia, sinal de ruído e sinal sinusoidal são diferentes umas das outras, se a envolvente temporal de cada 80 um dos componentes de sinal for modelada utilizando diferentes métodos, como as unidades de ajustamento de componentes de sinais da presente modificação, é possível melhorar ainda mais a qualidade subjectiva do sinal descodificado em comparação com as outras formas de realização. Em particular, dado que o sinal de ruído tem, geralmente, uma envolvente temporal suave e o sinal de cópia tem uma envolvente temporal próxima da do sinal na banda de baixa frequência, as envolventes temporais do sinal de cópia e do sinal de ruído podem ser controladas independentemente sendo tratadas separadamente e aplicando diferentes processos às mesmas. Consequentemente, é eficaz no melhoramento da qualidade subjectiva do sinal descodificado. Mais especificamente, é preferido executar um processo de modelação da envolvente temporal sobre o sinal de ruído (processo 3 ou processo 4), executar um processo diferente desse para o sinal de ruído no sinal de cópia (processo 1 ou processo 2) e executar o processo 5 sobre o sinal sinusoidal (por outras palavras, o processo de modelação de envolvente temporal não é executado). Também é preferido executar um processo de modelação (processo 3 ou processo 4) da envolvente temporal no sinal de ruído e executar o processo 5 sobre o sinal de cópia e o sinal sinusoidal (por outras palavras, o processo de modelação de envolvente temporal não é executado). (Modificação 4 da Primeira Forma de Realizaçao)
Um dispositivo 11b de codificação de voz (FIG. 44) de uma modificação 4 da primeira forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 11b de codificação de voz 81 através da introdução e execução de um programa de computador predeterminado armazenado numa memória interna do dispositivo 11b de codificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 11b de codificação de voz recebe um sinal de voz a codificar do lado exterior do dispositivo 11b de codificação de voz e emite um fluxo de bits codificado e multiplexado para o exterior do dispositivo 11b de codificação de voz. 0 dispositivo 11b de codificação de voz inclui uma análise lei de predição linear em vez da unidade le de análise de predição linear do dispositivo 11b de codificação de voz e inclui, ainda, uma unidade lp de selecção de intervalo de tempo. A unidade lp de selecção de intervalo de tempo recebe um sinal no domínio QMF da unidade la de transformação de frequência e selecciona um intervalo de tempo no qual se realiza a análise por predição linear pela unidade lei de análise de predição linear. A unidade lei de análise de predição linear executa análise de predição linear sobre o sinal no domínio QMF, no intervalo de tempo selecionado, como a unidade le de análise de predição linear, com base no resultado de selecção transmitido da unidade lp de selecção de intervalo de tempo, para obter, pelo menos, um de entre os coeficientes de predição linear de alta frequência e os coeficientes de predição linear de baixa frequência. A unidade lf de cálculo de parâmetros de intensidade de filtragem calcula um parâmetro de intensidade de filtragem utilizando coeficientes de predição linear do intervalo de tempo seleccionado pela unidade lp de selecção de intervalo de tempo, obtidos pela unidade lei de análise de predição linear. Para seleccionar um intervalo de tempo pela unidade lp de selecção de intervalo de tempo, por exemplo, pode utilizar-se, pelo menos, um dos métodos de selecção utilizando a 82 potência de sinal do sinal no domínio QMF dos componentes de alta frequência, semelhante ao de uma unidade 3 de selecção de intervalo de tempo num dispositivo 21a de descodificação da presente modificação, que será descrito mais tarde. Nesta altura, é preferido que o sinal no domínio QMF dos componentes de alta frequência na unidade lp de selecção de intervalo de tempo seja um componente de frequência codificado pela unidade ld de codificação SBR, entre os sinais no domínio QMF recebidos da unidade la de transformação de frequência. 0 método de selecção de intervalo de tempo pode ser, pelo menos, um dos métodos descritos acima, pode incluir, pelo menos, um método diferente dos descritos acima ou pode ser a sua combinação.
Um dispositivo 21a de descodificação de voz (ver FIG. 18) da modificação 4 da primeira forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 21a de descodificação de voz através da introdução e execução de um programa de computador predeterminado (tal como um programa de computador para realizar processos ilustrados no fluxograma da FIG. 19) armazenado numa memória interna do dispositivo 21a de descodificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 21a de descodificação de voz recebe o fluxo de bits codificado e multiplexado e emite um sinal de voz descodificado para o exterior do dispositivo 21a de descodificação de voz. 0 dispositivo 21a de descodificação de voz, como ilustrado na FIG. 18, inclui uma unidade 2dl de análise de predição linear de baixa frequência, uma unidade 2el de detecção de mudança de sinal, uma unidade 2hl de análise de predição linear de alta frequência, uma unidade 2il de filtragem inversa de predição linear e uma unidade 2k3 de filtragem de 83 predição linear em vez da unidade 2d de análise de predição linear de baixa frequência, unidade 2e de detecção de mudança de sinal, unidade 2h de análise de predição linear de alta frequência, unidade 2i de filtragem inversa de predição linear e unidade 2k de filtragem de predição linear do dispositivo 21 de descodificação de voz e inclui, ainda, a unidade 3a de selecção de intervalo de tempo. A unidade 3a de selecção de intervalo de tempo determina se a filtragem de síntese de predição linear na unidade 2k de filtragem de predição linear vai ser realizada sobre o sinal qexp(k, r) no domínio QMF dos componentes de alta frequência do intervalo de tempo r gerado pela unidade 2g de geração de alta frequência e selecciona um intervalo de tempo no qual a filtragem de síntese de predição linear é executada (processo no Passo Shl) . A unidade 3a de selecção de intervalo de tempo notifica a unidade 2dl de análise de predição linear de baixa frequência, a unidade 2el de detecção de mudança de sinal, a unidade 2hl de análise de predição linear de alta frequência, a unidade 2il de filtragem inversa de predição linear e a unidade 2k3 de filtragem de predição linear do resultado da selecção do intervalo de tempo. A unidade 2dl de análise de predição linear de baixa frequência executa análise de predição linear sobre o sinal de domínio QMF no intervalo de tempo seleccionado rl, da mesma forma que a unidade 2d de análise de predição linear de baixa frequência, com base no resultado de selecção transmitido da unidade 3a de selecção de intervalo de tempo, para obter coeficientes de predição linear de baixa frequência (processo no Passo Sh2). A unidade 2el de detecção de mudança de sinal detecta a variação temporal no sinal no domínio QMF, no intervalo de tempo seleccionado, como a unidade 2e de detecção de mudança de sinal, com base no resultado de selecção 84 transmitido da unidade 3a de selecção de intervalo de tempo, e emite um resultado de detecção T(rl) . A unidade 2f de ajustamento de intensidade de filtragem realiza ajustamento de intensidade de filtragem sobre os coeficientes de predição linear de baixa frequência do intervalo de tempo, seleccionado pela unidade 3a de selecção de intervalo de tempo, obtidos pela unidade 2dl de análise de predição linear de baixa frequência, para obter coeficientes adec(n, rl) de predição linear ajustados. A unidade 2hl de análise de predição linear de alta frequência executa análise de predição linear, na direcção de frequência, sobre o sinal dos componentes de alta frequência gerado pela unidade 2g de geração de alta frequência para o intervalo de tempo rl seleccionado, com base no resultado de selecção transmitido da unidade 3a de selecção de intervalo de tempo, como a unidade 2k de análise de predição linear de alta frequência, para obter coeficientes aexp(n, rl) de predição linear de alta frequência (processo no Passo Sh3). A unidade 2il de filtragem inversa de predição linear executa filtragem inversa de predição linear, na qual aexp(n, rl) são coeficientes, na direcção de frequência, sobre o sinal qexp(k, r) no domínio QMF dos componentes de alta frequência do intervalo de tempo rl seleccionado, como a unidade 2i de filtragem inversa de predição linear, com base no resultado de selecção transmitido pela unidade 3a de selecção de intervalo de tempo (processo no Passo Sh4). A unidade 2k3 de filtragem de predição linear executa filtragem de síntese de predição linear, na direcção de frequência, sobre um sinal qadj (k, rl) no domínio QMF dos componentes de alta frequência emitido pela unidade 2j de ajustamento de alta frequência no intervalo de tempo rl 85 seleccionado utilizando aadj(n, rl), obtidos a partir da unidade 2f de ajustamento de intensidade de filtragem, como a unidade 2k de filtragem de predição linear, com base no resultado de selecção transmitido pela unidade 3a de selecção de intervalo de tempo (processo no Passo Sh5). As alterações feitas na unidade 2k de filtragem de predição linear, descritas na modificação 3, também podem ser feitas na unidade 2k3 de filtragem de predição linear. Para seleccionar um intervalo de tempo no qual se realiza a filtragem de síntese de predição linear, por exemplo, a unidade 3a de selecção de intervalo de tempo pode seleccionar, pelo menos, um intervalo de tempo r, no qual a potência de sinal do sinal qexp(k, r) no domínio QMF dos componentes de alta frequência é maior do que um valor Ρεχρ,ώι predeterminado. É preferido calcular a potência de sinal de qexp(k, r) de acordo com a seguinte expressão.
™(42) em que M é um valor que representa um intervalo de frequências maior do que uma frequência kx inferior limite dos componentes de alta frequência gerados pela unidade 2g de geração de alta frequência, e o intervalo de frequências dos componentes de alta frequência gerados pela unidade 2g de geração de alta frequência pode ser representado por s kx<k<kx+M. 0 valor ΡΕχρ,τ11 predeterminado também pode ser um valor médio de Pexp(r) de uma duração de tempo predeterminada incluindo o intervalo de tempo r. A duração de tempo predeterminada também pode ser a envolvente SBR. 86 A selecção também pode ser feita de modo a incluir um intervalo de tempo no qual a potência de sinal do sinal no domínio QMF dos componentes de alta frequência atinge o seu pico. A potência de sinal de pico pode ser calculada, por exemplo, utilizando um valor médio móvel:
Pexp,MA00 -(«) da potência de sinal e a potência de pico de sinal pode ser a potência de sinal no domínio QMF dos componentes de alta frequência do intervalo de tempo r, em que o resultado de: ~(44) muda do valor positivo para o valor negativo. O valor médio móvel da potência de sinal,
Pexp,m(r) “(45) por exemplo, pode ser calculado pela seguinte expressão. p,,pma (d=- Σ P«p (r'> ~<46> C , c r =r— 2 em que c é um valor predeterminado para a definição de um intervalo para o cálculo do valor médio. A potência de sinal de pico pode ser calculada através do método descrito acima ou pode ser calculada por um método diferente. 87
Pelo menos, um intervalo de tempo pode ser seleccionado de intervalos de tempo incluídos numa duração t de tempo, durante a qual o sinal no domínio QMF dos componentes de alta frequência transita de um estado estável, com uma pequena variação da sua potência de sinal, para um estado transitório, com uma grande variação da sua potência de sinal, e que é menor do que um valor tth predeterminado. Pelo menos, um intervalo de tempo também pode ser seleccionado de intervalos de tempo incluídos numa duração t de tempo, durante a qual a potência de sinal do sinal no domínio QMF dos componentes de alta frequência é alterada de um estado transitório com uma grande variação para um estado estável com uma pequena variação, e que são maiores do que o valor tth predeterminado. 0 intervalo de tempo r em que | Pexp (r+1)-Pexp (r) | é menor que um valor predeterminado (ou igual ou menor que um valor predeterminado), pode ser o estado estável e o intervalo de tempo r em que | Pexp (r + 1) -Pexp (r) | é igual ou maior do que um valor predeterminado (ou maior do que um valor predeterminado), pode ser o estado transitório. 0 intervalo de tempo r em que I Pexp,ma (r + 1) —Pexp,ma (r) | é menor que um valor predeterminado (ou igual ou menor que um valor predeterminado) pode ser o estado estável e o intervalo de tempo r em que I Pexp,MA(r + 1) -Pexp,MA (r) | é igual ou maior do que um valor predeterminado (ou maior do que um valor predeterminado) pode ser o estado transitório. 0 estado transitório e o estado estável podem ser definidos utilizando o método descrito acima ou podem ser definidos utilizando diferentes métodos. 0 método de selecção de intervalo de tempo pode ser, pelo menos, um dos métodos descritos acima, pode incluir, pelo menos, um método diferente dos descritos acima ou pode ser a sua combinação. (Modificação 5 da Primeira Forma de Realizaçao)
Um dispositivo 11c de codificação de voz (FIG. 45) de uma modificação 5 da primeira forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 11c de codificação de voz através da introdução e execução de um programa de computador predeterminado armazenado numa memória interna do dispositivo 11c de codificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 11c de codificação de voz recebe um sinal de voz a codificar do exterior do dispositivo 11c de codificação de voz e emite um fluxo de bits codificado e multiplexado para o exterior do dispositivo 11c de codificação de voz. 0 dispositivo 11c de codificação de voz inclui uma unidade lpl de selecção de intervalo de tempo e uma unidade lg4 de multiplexagem de fluxo de bits, em vez da unidade lp de selecção de intervalo de tempo e da unidade lg de multiplexagem de fluxo de bits do dispositivo 11b de codificação de voz da modificação 4. A unidade lpl de selecção de intervalo de tempo selecciona um intervalo de tempo, como a unidade lp de selecção de intervalo de tempo descrita na modificação 4 da primeira forma de realização, e transmite a informação de selecção de intervalo de tempo para a unidade lg4 de multiplexagem de fluxo de bits. A unidade lg4 de multiplexagem de fluxo de bits multiplexa o fluxo de bits codificado calculado pela unidade lc de codificação de codec de núcleo unidade, a informação suplementar SBR calculada pela unidade ld de codificação SBR e o parâmetro de intensidade de filtragem calculado pela unidade lf de cálculo de parâmetros de intensidade de filtragem, como a unidade lg de multiplexagem 89 de fluxo de bits, também multiplexa a informação de selecção de intervalo de tempo recebida da unidade lpl de selecção de intervalo de tempo e emite o fluxo de bits multiplexado através do dispositivo de comunicação do dispositivo 11c de codificação de voz. A informação de selecção de intervalo de tempo é informação de selecção de intervalo de tempo recebida por uma unidade 3al de selecção de intervalo de tempo num dispositivo 21b de descodificação de voz, que será descrito mais tarde, e, por exemplo, pode incluir-se um índice rl de um intervalo de tempo a seleccionar. A informação de selecção de intervalo de tempo também pode ser um parâmetro utilizado no método de selecção de intervalo de tempo da unidade 3al de selecção de intervalo de tempo. 0 dispositivo 21b de descodificação da voz (ver FIG. 20) da modificação 5 da primeira forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 21b de descodificação de voz através da introdução e execução de um programa de computador predeterminado (tal como um programa de computador para realizar processos ilustrados no fluxograma da FIG. 21) armazenado num memória interna do dispositivo 21b de descodificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 21b de descodificação de voz recebe o fluxo de bits codificado e multiplexado e emite um sinal de voz descodificado para o exterior do dispositivo 21b de descodificação de voz. 0 dispositivo 21b de descodificação de voz, como ilustrado na FIG. 20, inclui uma unidade 2a5 de separação de fluxo de bits e a unidade 3al de selecção de intervalo de tempo em vez da unidade 2a de separação de fluxo de bits e da unidade 3a de selecção de intervalo de tempo do dispositivo 21a de 90 descodificação de voz da modificação 4, e a informação de selecção de intervalo de tempo é fornecida à unidade 3al de selecção de intervalo de tempo. A unidade 2a5 de separação de fluxo de bits separa o fluxo de bits multiplexado num parâmetro de intensidade de filtragem, informação suplementar SBR e fluxo de bits codificado, como a unidade 2a de separação de fluxo de bits e separa, ainda, a informação de selecção de intervalo de tempo. A unidade 3al de selecção de intervalo de tempo selecciona um intervalo de tempo com base na informação de selecção de intervalo de tempo transmitida pela unidade 2a5 de separação de fluxo de bits (processo no Passo Sil). A informação de selecção de intervalo de tempo é informação utilizada para seleccionar um intervalo de tempo e, por exemplo, pode incluir o índice rl do intervalo de tempo a seleccionar. A informação de selecção de intervalo de tempo também pode ser um parâmetro, por exemplo, utilizado no método de selecção de intervalo de tempo descrito na modificação 4. Neste caso, embora não ilustrado, o sinal no domínio QMF dos componentes de alta frequência gerados pela unidade 2g de geração de alta frequência pode ser fornecido à unidade 3al de selecção de intervalo de tempo além da informação de selecção de intervalo de tempo. 0 parâmetro também pode ser um valor predeterminado (tal como Pexp,Th e tth) utilizado para seleccionar o intervalo de tempo. (Modificação 6 da Primeira Forma de Realização)
Um dispositivo lld de codificação de voz (não ilustrado) de uma modificação 6 da primeira forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo lld de codificação de voz 91 através da introdução e execução de um programa de computador predeterminado armazenado numa memória interna do dispositivo lld de codificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo lld de codificação de voz recebe um sinal de voz a codificar desde o exterior do dispositivo lld de codificação de voz e emite um fluxo de bits codificado e multiplexado para o exterior do dispositivo lld de codificação de voz. 0 dispositivo lld de codificação de voz inclui uma unidade lil de cálculo de potência de curto prazo, que não é ilustrada, em vez da unidade li de cálculo de potência de curto prazo do dispositivo 11a de codificação de voz da modificação 1 e inclui, ainda, uma unidade lp2 de selecção de intervalo de tempo. A unidade lp2 de selecção de intervalo de tempo recebe um sinal no domínio QMF da unidade la de transformação de frequência e selecciona um intervalo de tempo correspondente ao segmento de tempo no qual o processo de cálculo de potência de curto prazo é realizado pela unidade li de cálculo de potência de curto prazo. A unidade lil de cálculo de potência de curto prazo calcula a potência de curto prazo de um segmento de tempo correspondente ao intervalo de tempo seleccionado com base no resultado de selecção transmitido unidade lp2 de selecção de intervalo de tempo, como a unidade li de cálculo de potência de curto prazo do dispositivo 11a de codificação de voz da modificação 1 do dispositivo. (Modificação 7 de primeira forma de realizaçao)
Um dispositivo lie de codificação de voz (não ilustrado) de uma modificação 7 da primeira forma de realização inclui, 92 fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo lie de codificação de voz através da introdução e execução de um programa de computador predeterminado armazenado numa memória interna do dispositivo lie de codificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo lie de codificação de voz recebe um sinal de voz a codificar desde o exterior do dispositivo lie de codificação de voz e emite um fluxo de bits codificado e multiplexado para o exterior do dispositivo lie de codificação de voz. 0 dispositivo lie de codificação de inclui uma unidade lp3 de selecção de intervalo de tempo, não ilustrada, em vez da unidade lp2 de selecção de intervalo de tempo do dispositivo lld de codificação de voz da modificação 6. 0 dispositivo lie de codificação de voz também inclui uma unidade de multiplexagem de fluxo de bits que recebe, ainda, uma emissão da unidade lp3 de selecção de intervalo de tempo, em vez da unidade lgl de multiplexagem de fluxo de bits. A unidade lp3 de selecção de intervalo de tempo selecciona um intervalo de tempo, como a unidade lp2 de selecção de intervalo de tempo descrita na modificação 6 da primeira forma de realização, e transmite a informação de selecção de intervalo de tempo para a unidade de multiplexagem de fluxo de bits. (Modificação 8 da Primeira Forma de Realização)
Um dispositivo de codificação da voz (não ilustrado) de uma modificação 8 da primeira forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo de codificação de voz da 93 modificação 8 através da introdução e execução de um programa de computador predeterminado armazenado numa memória interna do dispositivo de codificação de voz da modificação 8, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo de codificação de voz da modificação 8 recebe um sinal de voz a codificar do exterior do dispositivo de codificação de voz e emite um fluxo de bits codificado e multiplexado para o exterior do dispositivo de codificação de voz. 0 dispositivo de codificação de voz da modificação 8 inclui, ainda, a unidade lp de selecção de intervalo de tempo além das do dispositivo de codificação de voz descrito na modificação 2.
Um dispositivo de descodificação de voz (não ilustrado) da modificação 8 da primeira forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo de descodificação de voz da modificação 8 através da introdução e execução de um programa de computador predeterminado armazenado numa memória interna do dispositivo de descodificação de voz da modificação 8, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo de descodificação de voz da modificação 8 recebe o fluxo de bits codificado e multiplexado e emite um sinal de voz descodificado para o exterior do dispositivo de descodificação de voz. 0 dispositivo de descodificação de voz da modificação 8 inclui, ainda, a unidade 2dl de análise de predição linear de baixa frequência, a unidade 2el de detecção de mudança de sinal, a unidade 2hl de análise de predição linear de alta frequência, a unidade 2il de filtragem inversa de predição linear e a unidade 2k3 de filtragem de predição linear, em vez da unidade 2d de análise de predição linear de baixa frequência, unidade 2e de detecção de mudança de sinal, unidade 2h de análise de predição 94 linear de alta frequência, unidade 2i de filtragem inversa de predição linear e unidade 2k de filtragem de predição linear do dispositivo de descodificação de voz descrito na modificação 2 e inclui, ainda, a unidade 3a de selecção de intervalo de tempo. (Modificação 9 de primeira forma de realizaçao)
Um dispositivo de codificação da voz (não ilustrado) de uma modificação 9 da primeira forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo de codificação de voz da modificação 9 através da introdução e execução de um programa de computador predeterminado armazenado numa memória interna do dispositivo de codificação de voz da modificação 9, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo de codificação de voz da modificação 9 recebe um sinal de voz a codificar desde o exterior do dispositivo de codificação de voz e emite um fluxo de bits codificado e multiplexado para o exterior do dispositivo de codificação de voz. 0 dispositivo de codificação de voz da modificação 9 inclui a unidade lpl de selecção de intervalo de tempo em vez da unidade lp de selecção de intervalo de tempo do dispositivo de codificação de voz descrito na modificação 8. 0 dispositivo de codificação de voz da modificação 9 inclui, ainda, uma unidade de multiplexagem de fluxo de bits que recebe uma emissão da unidade lpl de selecção de intervalo de tempo além da entrada fornecida à unidade de multiplexagem de fluxo de bits descrita na modificação 8, em vez da unidade de multiplexagem de fluxo de bits descrita na modificação 8. 95
Um dispositivo de descodificação de voz (não ilustrado) da modificação 9 da primeira forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo de descodificação de voz da modificação 9 através da introdução e execução de um programa de computador predeterminado armazenado numa memória interna do dispositivo de descodificação de voz da modificação 9, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo de descodificação de voz da modificação q recebe o fluxo de bits codificado e multiplexado e emite um sinal de voz descodificado para o exterior do dispositivo de descodificação de voz. 0 dispositivo de descodificação de voz da modificação 9 inclui a unidade 3al de selecção de intervalo de tempo em vez da unidade 3a de selecção de intervalo de tempo do dispositivo de descodificação de voz descrito na modificação 8. 0 dispositivo de descodificação de voz da modificação 9 inclui, ainda, uma unidade de separação de fluxo de bits que separa aD(n, r) descrita na modificação 2 em vez do parâmetro de intensidade de filtragem da unidade 2a5 de separação de fluxo de bits, em vez da unidade 2a de separação de fluxo de bits. (Modificação 1 da Segunda Forma de Realizaçao)
Um dispositivo 12a de codificação de voz (FIG. 46) de uma modificação 1 da segunda forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 12a de codificação de voz através da introdução e execução de um programa de computador predeterminado armazenado numa memória interna do 96 dispositivo 12a de codificação de voz, tal como a ROM na RAM. O dispositivo de comunicação do dispositivo 12a de codificação de voz recebe um sinal de voz a codificar desde o exterior do dispositivo 12a de codificação de voz e emite um fluxo de bits codificado e multiplexado para o exterior do dispositivo 12a de codificação de voz. 0 dispositivo 12a de codificação de voz inclui a unidade lei de análise de predição linear em vez da unidade le de análise de predição linear do dispositivo 12 de codificação de voz e inclui, ainda, a unidade lp de selecção de intervalo de tempo.
Um dispositivo 22a de descodificação de voz (ver FIG. 22) da modificação 1 da segunda forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 22a de descodificação de voz por introdução e execução de um programa de computador predeterminado (tal como um programa de computador para realizar processos ilustrados no fluxograma da FIG. 23) armazenado numa memória interna do dispositivo 22a de descodificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 22a de descodificação de voz recebe o fluxo de bits codificado e multiplexado e emite um sinal de voz descodificado para o exterior do dispositivo 22a de descodificação de voz. 0 dispositivo 22a de descodificação de voz, como ilustrado na FIG. 22, inclui a unidade 2dl de análise de predição linear de baixa frequência, a unidade 2el de detecção de mudança de sinal, a unidade 2hl de análise de predição linear de alta frequência, a unidade 2il de filtragem inversa de predição linear, uma unidade 2k2 de filtragem de predição linear e uma unidade 2pl de interpolação/extrapolação de predição linear em vez da unidade 2h de análise de predição linear de alta frequência, 97 unidade 2i de filtragem inversa de predição linear, unidade 2kl de filtragem de predição linear e a unidade 2p de interpolação/extrapolação de predição linear do dispositivo 22 de descodificação de voz 22 da segunda forma de realização e inclui, ainda, a unidade 3a de selecção de intervalo de tempo. A unidade 3a de selecção de intervalo de tempo notifica a unidade 2hl de análise de predição linear de alta frequência, a unidade 2il de filtragem inversa de predição linear, a unidade 2k2 de filtragem de predição linear e a unidade 2pl de interpolação/extrapolação de coeficientes de predição linear do resultado de selecção do intervalo de tempo. A unidade 2pl de interpolação/extrapolação de coeficientes de predição linear obtém aH(n, r) correspondente ao intervalo de tempo rl que é o intervalo de tempo seleccionado e cujos coeficientes de predição linear não são transmitidos por interpolação ou extrapolação, como a unidade 2p de interpolação/extrapolação de coeficientes de predição linear, com base no resultado de selecção transmitido pela unidade 3a de selecção de intervalo de tempo (processo no Passo Sjl) . A unidade 2k2 de filtragem de predição linear executa filtragem de síntese de predição linear, na direcção de frequência, sobre qadj (n, rl) emitido pela unidade 2j de ajustamento de alta frequência de ajustamento para o intervalo de tempo rl seleccionado utilizando aH(n, rl), interpolados ou extrapolados e obtidos a partir da unidade 2pl de interpolação/extrapolação de coeficientes de predição linear, como a unidade 2ka de filtragem de predição linear (processo no Passo Sj2), com base no resultado de selecção transmitido pela unidade 3a de selecção de intervalo de tempo. As alterações feitas na unidade 2k de filtragem de predição linear descrita na modificação 3 da primeira forma de realização também podem ser feitas para a unidade 2k2 de filtragem de predição linear. 98 (Modificação 2 da Segunda Forma de Realizaçao)
Um dispositivo 12b de codificação de voz (FIG. 47) de uma modificação 2 da segunda forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 11b de codificação de voz através da introdução e execução de um programa de computador predeterminado armazenado numa memória interna do dispositivo 12b de codificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 12b de codificação de voz recebe um sinal de voz a codificar desde o exterior do dispositivo 12b de codificação de voz e emite um fluxo de bits codificado e multiplexado para o exterior do dispositivo 12b de codificação de voz. 0 dispositivo 12b de codificação de voz inclui a unidade lpl de selecção de intervalo de tempo e uma unidade lg5 de mult iplexagem de fluxo de bits em vez da unidade lp de selecção de intervalo de tempo e da unidade lg2 de multiplexagem de fluxo de bits do dispositivo 12a da modificação 1. A unidade lg5 de multiplexagem de fluxo de bits multiplexa o fluxo de bits codificado calculado pela unidade lc de codificação de codec de núcleo, a informação suplementar SBR calculada pela unidade ld de codificação SBR e índices dos intervalos de tempo correspondendo aos coeficientes de predição linear quantificados recebidos da unidade lk de quantificação de coeficientes de predição linear, como a unidade lg2 de multiplexagem de fluxo de bits, multiplexa, ainda, a informação de selecção de intervalo de tempo recebida da unidade lpl de selecção de intervalo de tempo e emite o fluxo de bits multiplexado através do dispositivo de comunicação do dispositivo 12b de codificação de voz . 99
Um dispositivo 22b de descodificação de voz (ver FIG. 24) da modificação 2 da segunda forma de realização inclui,
fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 22b de descodificação de voz através da introdução e execução de um programa de computador predeterminado (tal como um programa de computador para realizar processos ilustrados no fluxograma da FIG. 25.) armazenado numa memória interna do dispositivo 22b de descodificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 22b de descodificação de voz recebe o fluxo de bits codificado e multiplexado e emite um sinal de voz descodificado para o exterior do dispositivo 22b de descodificação de voz. 0 dispositivo 22b de descodificação de voz, como ilustrado na FIG. 24, inclui uma unidade 2a6 de separação de fluxo de bits e a unidade 3al de selecção de intervalo de tempo em vez da unidade 2al de separação de fluxo de bits e da unidade 3a de selecção de intervalo de tempo do dispositivo 22b de descodificação de voz descrito na modificação 1, e a informação de selecção de intervalo de tempo
é fornecida à unidade 3al de selecção de intervalo de tempo. A unidade 2a6 de separação de fluxo de bits separa o fluxo de bits multiplexado em aH(n, ri) a quantificar, no índice ri do correspondente intervalo de tempo, na informação suplementar SBR e no fluxo de bits codificado, como a unidade 2al de separação de fluxo de bits, e separa, ainda, a informação de selecção intervalo de tempo. 100 (Modificação 4 da Terceira Forma de Realizaçao) e(í) —(47) descrito na modificação 1 da terceira forma de realização pode ser um valor médio de e(r) na envolvente SBR ou pode ser um valor definido de outro modo. (Modificação 5 da Terceira Forma de Realização)
Como descrito na modificação 3 da terceira forma de realização, é preferido que a unidade 2s de ajustamento de modelação de envolvente controle e(r) utilizando um valor eadj,Th(r) predeterminado, considerando que a envolvente temporal eadj (r) ajustada é um coeficiente de ganho multiplicado pela amostra de sub-banda de QMF, por exemplo, como a expressão (28) e as expressões (37) e (38).
-(48) (Quarta Forma de Realizaçao)
Um dispositivo 14 de codificação de voz (FIG. 48) da quarta forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 14 de codificação de voz através da introdução e execução de um programa de computador predeterminado armazenado numa memória 101 interna do dispositivo 14 de codificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 14 de codificação de voz recebe um sinal de voz a codificar desde o exterior do dispositivo 14 de codificação de voz e emite um fluxo de bits codificado e multiplexado para o exterior do dispositivo 14 de codificação de voz. 0 dispositivo 14 de codificação de voz inclui uma unidade lg7 de multiplexagem de fluxo de bits em vez da unidade lg de multiplexagem de fluxo de bits do dispositivo 11b de codificação de voz da modificação 4 da primeira forma de realização e inclui, ainda, a unidade lm de cálculo de envolvente temporal e a unidade ln de cálculo de parâmetros de envolvente do dispositivo 13 de codificação de voz . A unidade lg7 de multiplexagem de fluxo de bits multiplexa o fluxo de bits codificado calculado pela unidade lc de codificação de codec de núcleo e a informação suplementar SBR calculada pela unidade ld de codificação SBR, como a unidade lg de multiplexagem de fluxo de bits, converte o parâmetro de intensidade de filtragem calculado pela unidade de cálculo de parâmetros de intensidade de filtragem e o parâmetro de modelação de envolvente calculado pela unidade ln de cálculo de parâmetros de modelação de envolvente na informação suplementar de envolvente temporal, multiplexa-os e emite o fluxo de bits multiplexado (fluxo de bits codificado e multiplexado) através do dispositivo de comunicação do dispositivo 14 de codificação de voz. 102 (Modificação 4 da Quarta Forma de Realização)
Um dispositivo 14a de codificação de voz (FIG. 49) de uma modificação 4 da quarta forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 14a de codificação de voz através da introdução e execução de um programa de computador predeterminado armazenado numa memória interna do dispositivo 14a de codificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 14a de codificação de voz recebe um sinal de voz a codificar desde o exterior do dispositivo 14a de codificação da voz e emite um fluxo de bits codificado e multiplexado para o exterior do dispositivo 14a de codificação da voz. 0 dispositivo 14a de codificação de voz inclui a unidade lei de análise de predição linear em vez da unidade le de análise de predição linear do dispositivo 14 de codificação de voz da quarta forma de realização e inclui, ainda, a unidade lp de selecção de intervalo de tempo.
Um dispositivo 24d de descodificação de voz (ver FIG. 26) da modificação 4 da quarta forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 24d de descodificação de voz através da introdução e execução de um programa de computador predeterminado (tal como um programa de computador para realizar processos ilustrados no fluxograma da FIG. 27) armazenado numa memória interna do dispositivo 24d de descodificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 24d de descodificação de voz recebe o fluxo de bits codificado e multiplexado e emite um sinal de voz descodificado 103 para o exterior do dispositivo 24d de descodificação de voz. 0 dispositivo 24d de descodificação de voz, como ilustrado na FIG. 26, inclui a unidade 2dl de análise de predição linear de baixa frequência, a unidade 2el de detecção de mudança de sinal, a unidade 2hl de análise de predição linear de alta frequência, a unidade 2il de filtragem inversa de predição linear e a unidade 2k3 de filtragem de predição linear em vez da unidade 2d de análise de predição linear de baixa frequência, unidade 2e de detecção de mudança de sinal, unidade 2h de análise de predição linear de alta frequência, unidade 2i de filtragem inversa de predição linear e unidade 2k de filtragem de predição linear do dispositivo 24 de descodificação de voz e inclui, ainda, a unidade 3a de selecção de intervalo de tempo. A unidade 2v de modelação de envolvente temporal modela o sinal no domínio QMF obtido a partir da unidade 2k3 de filtragem de predição linear utilizando a informação de envolvente temporal obtida a partir da unidade 2s de ajustamento de modelação de envolvente, como a unidade 2v de modelação de envolvente temporal da terceira forma de realização, da quarta forma de realização e das suas modificações (processo no Passo Skl). (Modificação 5 da Quarta Forma de Realização)
Um dispositivo 24e de descodificação de voz (ver FIG. 28) de uma modificação 5 da quarta forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 24e de descodificação de voz através da introdução e execução de um programa de computador predeterminado (tal como um programa de computador para realizar processos ilustrados no fluxograma da FIG. 29) 104 armazenado numa memória interna do dispositivo 24e de descodificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 24e de descodificação de voz recebe o fluxo de bits codificado e multiplexado e emite um sinal de voz descodificado para o exterior do dispositivo 24e de descodificação de voz. Na modificação 5, como ilustrado na FIG. 28, o dispositivo 24e de descodificação de voz omite a unidade 2hl de análise de predição linear de alta frequência e a unidade 2il de filtragem inversa de predição linear do dispositivo 24d de descodificação de voz descrito na modificação 4, que podem ser suprimidas ao longo da quarta forma de realização, como na primeira forma de realização, e inclui uma unidade 3a2 de selecção de intervalo de tempo e uma unidade 2vl de modelação de envolvente temporal em vez da unidade 3a de selecção de intervalo de tempo e unidade 2v de modelação de envolvente temporal do dispositivo 24d de descodificação de voz. 0 dispositivo 24e de descodificação de voz também altera a ordem da filtragem de sintese de predição linear realizada pela unidade 2k3 de filtragem de predição linear e do processo de modelação de envolvente temporal executado pela unidade 2vl de modelação de envolvente temporal, cuja ordem de processamento é intercambiável ao longo da quarta forma de realização. A unidade 2vl de modelação de envolvente temporal modela qadj (k, r) obtido a partir da unidade 2 j de ajustamento de alta utilizando eadj(r), obtido a partir da unidade 2s de ajustamento de modelação de envolvente, como a unidade 2v de modelação de envolvente temporal, e obtém um sinal qenvadj (k, r) no domínio QMF, no qual a envolvente temporal é modelada. A unidade 2vl de modelação de envolvente temporal também notifica a unidade 3a2 de selecção de intervalo de tempo sobre os parâmetros obtidos quando a envolvente temporal está a ser modelada ou os 105 parâmetros calculados ao utilizar, pelo menos, os parâmetros obtidos quando a envolvente temporal está a ser modelada como informação de selecção de intervalo de tempo. A informação de selecção de intervalo de tempo pode ser e(r) da expressão (22) ou da expressão (40), ou |e(r) |2 a que a operação de raiz quadrada não é aplicada durante o processo de cálculo. Uma pluralidade de secções de intervalo de tempo (tal como envolventes SBR) bt<r< bM —(49) que é o seu valor também pode ser utilizada e a expressão (24), médio 2 e(i) -(50) também pode ser utilizada como a informação de selecção de intervalo de tempo. Deve salientar-se que: e(i) 2
—PU A informação de selecção de intervalo de tempo também pode ser eexP(r) da expressão (26) e da expressão (41) ou |eexp(r) |2 a que a operação de raiz quadrada não é aplicada durante o processo de cálculo. Uma pluralidade de segmentos de intervalo de tempo (tais como envolventes SBR) 106 bt<r< bM -(52) e o seu valor médio ^exp (0? \eexp(Í)\ ”-(53) também podem ser utilizados como a informação de selecção de intervalo de tempo. Deve salientar-se que:
™(54) -(55) A informação de selecção de intervalo de tempo também pode ser eadj(r) da expressão (23), da expressão (35) ou da expressão (36), ou pode ser |eadj(r) |2 a que a operação de raiz quadrada não é aplicada durante o processo de cálculo. Uma pluralidade de segmentos de intervalo de tempo (tais como envolventes SBR) b,<r<bM —(56) e o seu valor médio 107 2 --(57) eadji Ο» |β«ίί(0 também podem ser utilizados como a informação de selecção de intervalo de tempo. Deve salientar-se que:
-(58)
--(59) A informação de selecção de intervalo de tempo também pode ser eadj,scaied (r) da expressão (37) ou pode ser I eadD,Scaied (r) |2 a que a operação de raiz quadrada não é aplicada durante o processo de cálculo. Numa pluralidade de segmentos de intervalo de tempo (tais como envolventes SBR) b,<r< bM -(60) e o seu valor médio e adj,scaled
e adj,scaled
-(61) também podem ser utilizados como a informação de selecção de intervalo de tempo. Deve salientar-se que: 108 6*1-1 —(62)
^adj ,sca!ed M *,+i -¾
Adr,sc<a/eí(0 ” bi+i~\ ' adj ,scaled (r) p adj,scaled (Of = --(63) bM-b, A informação de selecção de intervalo de tempo também pode ser uma potência Penvadj(r) de sinal do intervalo de tempo r do sinal no domínio QMF correspondente aos componentes de alta frequência em que a envolvente temporal é modelada ou um seu valor de amplitude de sinal ao qual a operação de raiz quadrada é aplicada
--(64)
Numa pluralidade de segmentos de intervalo de tempo (tais como envolventes SBR) bi^r<bM ~<65> e o seu valor médio
109 -(66) também podem ser utilizados como a informação de selecçao de intervalo de tempo. Deve salientar-se que:
kj+M-i 2Σ !«-»«(*· r)l -(67) k=kx envadj
—(68) M é um valor que representa um intervalo de frequências mais elevado do que o da frequência kx limite inferior dos componentes de alta frequência gerados pela unidade 2g de geração de alta frequência e o intervalo de frequências dos componentes de alta frequência gerados pela unidade 2g de geração de alta frequência também pode ser representado como kx^k<kx+M. A unidade 3a2 de selecção de intervalo de tempo selecciona intervalos de tempo nos quais a filtragem de síntese de predição linear é realizada pela unidade 2k de filtragem de predição linear, determinando se a filtragem de síntese de predição linear é realizada sobre o sinal qenvadj (k, r) no domínio QMF dos componentes de alta frequência do intervalo de tempo r no qual a envolvente temporal é modelada pela unidade 2vl de modelação de envolvente temporal com base na informação de selecção de intervalo de tempo transmitida pela unidade 2vl de modelação de envolvente temporal (processo no Passo Spl). 110
Para seleccionar intervalos de tempo nos quais a filtragem de síntese de predição linear é realizada pela unidade 3a2 de selecção de intervalo de tempo na presente modificação, pelo menos, um intervalo de tempo r no qual um parâmetro u(r) incluído na informação de selecção de intervalo de tempo transmitido pela unidade 2vl de modelação de envolvente temporal é maior do que um valor uTh predeterminado pode ser seleccionado, ou, pelo menos, um intervalo de tempo r no qual u(r) é igual ou maior do que um valor uTh predeterminado pode ser seleccionado. u(r) pode incluir, pelo menos, um de e (r) , 1 e(r) |2, ^exp ( 3Γ ) r 1 oexp (r) | , eadj (r) , 1 eadj (r) |2, ^adj,scaled ( £) r 1 ^adj,scaled (r) |2 e Penvadj ( r ) , descritos acima e;
-(69) e UTH pode incluir, pelo menos, um de; ^(O .^(OfUexpCO, |êexp(í)| , &adj (l), |&u|f(0| —(70) 'adj,scaled (0»k adj jcaled (flf. ' envadj 0)j -\jPenvadj (0 > uTh também pode ser um valor médio de u(r), uma duração de tempo predeterminada (tal como envolvente SBR), incluindo o intervalo de tempo r. A selecção também pode ser feita de modo a que os intervalos de tempo nos quais u(r) atinge os seus picos sejam 111 incluídos. Os picos de u(r) podem ser calculados como se calculam os picos da potência de sinal no sinal no domínio QMF dos componentes de alta frequência na modificação 4 da primeira forma de realização. 0 estado estável e o estado transitório da modificação 4 da primeira forma de realização podem ser determinados de forma semelhante aos da modificação 4 da primeira forma de realização utilizando u(r) e podem seleccionar-se intervalos de tempo com base nisto. 0 método de selecção de intervalo de tempo pode ser, pelo menos, um dos métodos descritos acima, pode incluir, pelo menos, um método diferente dos descritos acima ou pode ser a sua combinação. (Modificação 6 da Quarta Forma de Realização)
Um dispositivo 24f de descodificação de voz (ver FIG. 30) de uma modificação 6 da quarta forma de realização inclui, fisicamente uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 24f de descodificação de voz através da introdução e execução de um programa de computador predeterminado (tal como um programa de computador para realizar processos ilustrados no fluxograma da FIG. 29.) armazenado numa memória interna do dispositivo 24e de descodificação de voz, tal como a ROM na RAM. O dispositivo de comunicação do dispositivo 24f de descodificação de voz recebe o fluxo de bits codificado e multiplexado e emite um sinal de voz descodificado para o exterior do dispositivo 24f de descodificação de voz. Na modificação 6, como ilustrado na FIG. 30, o dispositivo 24f de descodificação de voz omite a unidade 2el de detecção de mudança de sinal, a unidade 2hl de análise de predição linear de alta frequência e a unidade 2il de filtragem 112 inversa de predição linear do dispositivo 24d de descodificação de voz descrito na modificação 4, que podem ser suprimidas ao longo da quarta forma de realização, como na primeira forma de realização, e inclui a unidade 3a2 de selecção de intervalo de tempo e a unidade 2vl de modelação de envolvente temporal em vez da unidade 3a de selecção de intervalo de tempo e a unidade 2v de modelação de envolvente temporal do dispositivo 24d de descodificação de voz. 0 dispositivo 24f de descodificação de voz também altera a ordem da filtragem de síntese de predição linear realizada pela unidade 2k3 de filtragem de predição linear e do processo de modelação de envolvente temporal executado pela unidade 2vl de modelação de envolvente temporal, cuja ordem de processamento é intercambiável ao longo da quarta forma de realização. A unidade 3a2 de selecção de intervalo de tempo determina se a filtragem de síntese de predição linear é executada pela unidade 2k3 de filtragem de predição linear, sobre o sinal qenvadj (k, r) no domínio QMF dos componentes de alta frequência dos intervalos de tempo r nos quais a envolvente temporal é modelada pela unidade 2vl de modelação de envolvente temporal com base na informação de selecção de intervalo de tempo transmitida pela unidade 2vl de modelação de envolvente temporal, selecciona intervalos de tempo nos quais a filtragem de síntese de predição linear é realizada e notifica, dos intervalos de tempo seleccionados, a unidade 2dl de análise de predição linear de baixa frequência e a unidade 2k3 de filtragem de predição linear. 113 (Modificação 7 da Quarta Forma de Realizaçao)
Um dispositivo 14b de codificação de voz (FIG. 50) de uma modificação 7 da quarta forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 14b de codificação de voz através da introdução e execução de um programa de computador predeterminado armazenado numa memória interna do dispositivo 14b de codificação de voz, tal como a ROM na RAM. O dispositivo de comunicação do dispositivo 14b de codificação de voz recebe um sinal de voz a codificar desde o exterior do dispositivo 14b de codificação de voz e emite um fluxo de bits codificado e multiplexado para o exterior do dispositivo 14b de codificação de voz. 0 dispositivo 14b de codificação de voz inclui uma unidade lg6 de multiplexagem de fluxo de bits e a unidade lpl de selecção de intervalo de tempo em vez da unidade lg7 de multiplexagem de fluxo de bits e a unidade lp de selecção de intervalo de tempo do dispositivo 14a de codificação de voz da modificação 4. A unidade lg6 de multiplexagem de fluxo de bits multiplexa o fluxo de bits codificado calculado pela unidade lc de codificação de codec de núcleo, a informação suplementar SBR calculada pela unidade ld de codificação SBR e a informação suplementar de envolvente temporal na qual o parâmetro de intensidade de filtragem calculado pela unidade de cálculo de parâmetros de intensidade de filtragem e o parâmetro de modelação de envolvente calculado pela unidade ln de cálculo de parâmetros de modelação de envolvente são convertidos, também multiplexa a informação de selecção intervalo de tempo recebida da unidade lpl de selecção de intervalo de tempo e emite o fluxo 114 de bits multiplexado (fluxo de bits codificado e multiplexado) através do dispositivo de comunicação do dispositivo 14b de codificação de voz.
Um dispositivo 24g de descodificação de voz (ver FIG. 31) da modificação 7 da quarta forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 24g de descodificação de voz através da introdução e execução de um programa de computador predeterminado (tal como um programa de computador para realizar processos ilustrados no fluxograma da FIG. 32) armazenado numa memória interna do dispositivo 24g de descodificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 24g de descodificação de voz recebe o fluxo de bits codificado e multiplexado e emite um sinal de voz descodificado para o exterior do dispositivo 24g de descodificação de voz. 0 dispositivo 24g de descodificação de voz inclui uma unidade 2a7 de separação de fluxo de bits e a unidade 3al de selecção de intervalo de tempo em vez da unidade 2a3 de separação de fluxo de bits e a unidade 3a de selecção de intervalo de tempo do dispositivo 2d de descodificação de voz descrito na modificação 4. A unidade 2a7 de separação de fluxo de bits separa o fluxo de bits multiplexado fornecido pelo dispositivo de comunicação do dispositivo 24g de descodificação de voz em informação suplementar de temporal envolvente, informação suplementar SBR e o fluxo de bits codificado, como a unidade 2a3 de separação de fluxo de bits, e separa, ainda, a informação de selecção de intervalo de tempo. 115 (Modificação 8 da Quarta Forma de Realização)
Um dispositivo 24h de descodificação de voz (ver FIG. 33) de uma modificação 8 da quarta forma de realização inclui,
fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 24h de descodificação de voz através da introdução e execução de um programa de computador predeterminado (tal como um programa de computador para realizar processos ilustrados no fluxograma da FIG. 34) armazenado numa memória interna do dispositivo 24h de descodificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 24h de descodificação de voz recebe o fluxo de bits codificado e multiplexado e emite um sinal de voz descodificado para o exterior do dispositivo 24h de descodificação de voz. 0 dispositivo 24h de descodificação de voz, como ilustrado na FIG. 33, inclui a unidade 2dl de análise de predição linear de baixa frequência, a unidade 2el de detecção de mudança de sinal, a unidade 2hl de análise de predição linear de alta frequência, a unidade 2il de filtragem inversa de predição linear e a unidade 2k3 de filtragem de predição linear em vez da unidade 2d de análise de predição linear de baixa frequência, unidade 2e de detecção de mudança de sinal, unidade 2h de análise de predição linear de alta frequência, unidade 2i de filtragem inversa de predição linear e unidade 2k de filtragem de predição linear do dispositivo 24b de descodificação de voz da modificação 2 e inclui, ainda, a unidade 3a de selecção de intervalo de tempo. A unidade 2jl de ajustamento primário de alta frequência realiza, pelo menos, um dos processos no passo de "ajustamento HF" em SBR, em "MPEG-4 AAC", como a unidade 2 j1 de ajustamento primário de alta frequência da modificação 2 da quarta forma de realização 116 (processo no Passo Sml) . A unidade 2j2 de ajustamento secundário de alta frequência realiza, pelo menos, um dos processos do passo de "ajustamento HF" em SBR, em "MPEG-4 AAC", como a unidade 2 j 2 de ajustamento secundário de alta frequência da modificação 2 da quarta forma de realização (no processo do Passo Sm2) . É preferido que o processo realizado pela unidade 2 j 2 de ajustamento secundário de alta frequência seja um processo não realizado pela unidade 2j 1 de ajustamento primário de alta frequência entre os processos no passo de "ajustamento HF" em SBR, em "MPEG-4 AAC". (Modificação 9 da Quarta Forma de Realização)
Um dispositivo 24i de descodificação de voz (ver FIG. 35) da modificação 9 da quarta forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 24i de descodificação de voz por introdução e execução de um programa de computador predeterminado (tal como um programa de computador para realizar processos ilustrados no fluxograma da FIG. 36) armazenado numa memória interna do dispositivo 24i de descodificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 24i de descodificação de voz recebe o fluxo de bits codificado e multiplexado e emite um sinal de voz descodificado para o exterior do dispositivo 24i de descodificação de voz. 0 dispositivo 24i de descodificação de voz, como ilustrado na FIG. 35, omite a unidade 2hl de análise de predição linear de alta frequência e a unidade 2il de filtragem inversa de predição linear do dispositivo 24h de descodificação de voz da modificação 8 que podem ser suprimidas ao longo da quarta forma 117 de realização, como na primeira forma de realização, e inclui a unidade 2vl de modelação de envolvente temporal e a unidade 3a2 de selecção de intervalo de tempo em vez da unidade 2v de modelação de envolvente temporal e a unidade 3a de selecção de intervalo de tempo do dispositivo 24h de descodificação de voz da modificação 8. 0 dispositivo 24i de descodificação de voz também altera a ordem da filtragem de síntese de predição linear realizada pela unidade 2k3 de filtragem de predição linear e do processo de modelação de envolvente temporal realizado pela unidade 2vl de modelação de envolvente temporal, cuja ordem de processamento é intercambiável ao longo da quarta forma de realização. (Modificação 10 da Quarta Forma de Realização)
Um dispositivo 24j de descodificação de voz (ver FIG. 37) de uma modificação 10 da quarta forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 24j de descodificação de voz através da introdução e execução de um programa de computador predeterminado (tal como um programa de computador para realizar processos ilustrados no fluxograma da FIG. 36) armazenado numa memória interna do dispositivo 24j de descodificação de voz, tal como a ROM na RAM. O dispositivo de comunicação do dispositivo 24j de descodificação de voz recebe o fluxo de bits codificado e multiplexado e emite um sinal de voz descodificado para o exterior do dispositivo 24j de descodificação de voz. O dispositivo 24 j de descodificação de voz, como ilustrado na FIG. 37, omite a unidade 2el de detecção de mudança 2de sinal, a unidade 2hl de análise de predição 118 linear de alta frequência e a unidade 2il de filtragem inversa de predição linear do dispositivo 24h de descodificação de voz da modificação 8 que podem ser suprimidas ao longo da quarta forma de realização, como na primeira forma de realização, e inclui a unidade 2vl de modelação de envolvente temporal e a unidade 3a2 de selecção de intervalo de tempo em vez da unidade 2v de modelação de envolvente temporal e a unidade 3a de selecção de intervalo de tempo do dispositivo 24h de descodificação de voz da modificação 8. A ordem da filtragem de síntese de predição linear realizada pela unidade 2k3 unidade de filtragem de predição linear e do processo de modelação de envolvente temporal realizado pela unidade 2vl de modelação de envolvente temporal é alterada, cuja ordem de processamento é intercambiável ao longo da quarta forma de realização. (Modificação 11 da Quarta Forma de Realizaçao)
Um dispositivo 24k de descodificação de voz (ver FIG. 38) de uma modificação 11 da quarta forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 24k de descodificação de voz através da introdução e execução de um programa de computador predeterminado (tal como um programa de computador para realizar processos ilustrados no fluxograma da FIG. 39) armazenado numa memória interna do dispositivo 24k de descodificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 24k de descodificação de voz recebe o fluxo de bits codificado e multiplexado e emite um sinal de voz descodificado para o exterior do dispositivo 24k de descodificação de voz. 0 dispositivo 24k de descodificação de 119 voz, como ilustrado na FIG. 38, inclui a unidade 2a7 de separação de fluxo de bits e a unidade 3al de selecção de intervalo de tempo em vez da unidade 2a3 de separação de fluxo de bits e a unidade 3a de selecção de intervalo de tempo do dispositivo 24h de descodificação de voz da modificação 8. (Modificação 12 de quarta forma de realização)
Um dispositivo 24q de descodificação de voz (ver FIG. 40) de uma modificação 12 da quarta forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 24q de descodificação de voz através da introdução e execução de um programa de computador predeterminado (tal como um programa de computador para realizar processos ilustrados no fluxograma da FIG. 41) armazenado numa memória interna do dispositivo 24q de descodificação de voz, tal como a ROM na RAM. O dispositivo de comunicação do dispositivo 24q de descodificação de voz recebe o fluxo de bits codificado e multiplexado e emite um sinal de voz descodificado para o exterior do dispositivo 24q de descodificação de voz. O dispositivo 24q de descodificação de voz, como ilustrado na FIG. 40, inclui a unidade 2dl de análise de predição linear de baixa frequência, a unidade 2el de detecção de mudança de sinal, a unidade 2hl de análise de predição linear de alta frequência, a unidade 2il de filtragem inversa de predição linear e as unidades 2z4, 2z5 e 2z6 de ajustamento de componentes de sinais individuais (unidades de ajustamento de componentes de sinais individuais correspondem ao meio de modelação de envolvente temporal) em vez da unidade 2d de análise de predição linear de baixa frequência, unidade 2e de 120 detecção de mudança de sinal, unidade 2h de análise de predição linear de alta frequência, unidade 2i de filtragem inversa de predição linear e unidades 2zl, 2z2 e 2z3 de ajustamento de componentes de sinais individuais do dispositivo 24c de descodificação de voz da modificação 3 e inclui, ainda, a unidade 3a de selecção de intervalo de tempo.
Pelo menos, uma das unidades 2z4, 2z5 e 2z6 de ajustamento de componentes de sinais individuais executa um processamento sobre o sinal no domínio QMF do intervalo de tempo seleccionado, para o componente de sinal incluído na saída do meio de ajustamento primário de alta frequência, como as unidades 2zl, 2z2 e 2z3 de ajustamento de componentes de sinais individuais, com base no resultado de selecção transmitido pela unidade 3a de selecção de intervalo de tempo (processo no Passo Snl). É preferido que o processo utilizando a informação de selecção de intervalo de tempo inclua, pelo menos, um processo incluindo a filtragem de síntese de predição linear na direcção de frequência, entre os processos das unidades 2zl, 2z2 e 2z3 de ajustamento de componentes de sinais individuais descritos na modificação 3 da quarta forma de realização.
Os processos realizados pelas unidades 2z4, 2z5 e 2z6 de ajustamento de componentes de sinais individuais podem ser iguais aos processos realizados pelas unidades 2zl, 2z2 e 2z3 de ajustamento de componentes de sinais individuais descritas na modificação 3 da quarta forma de realização, mas as unidades 2z4, 2z5 e 2z6 de ajustamento de componentes de sinais individuais podem modelar a envolvente temporal de cada um da pluralidade de componentes de sinal incluídos na saída do meio de ajustamento primário de alta frequência por diferentes métodos (se todas as unidades 2z4, 2z5 e 2z6 de ajustamento de 121 componentes de sinais individuais não executarem processamento com base no resultado de selecção transmitido pela unidade 3a de selecção de intervalo de tempo, fica igual à modificação 3 da quarta forma de realização da presente invenção).
Todos os resultados de selecção do intervalo de tempo transmitido para as unidades 2z4, 2z5 e 2z6 de ajustamento de componentes de sinais individuais provenientes da unidade 3a de selecção de intervalo de tempo não necessita de ser iguais e todos ou uma sua parte podem ser diferentes.
Na FIG. 40, o resultado da selecção de intervalo de tempo é transmitido para as unidades 2z4, 2z5 e 2z6 de ajustamento de componentes de sinais individuais proveniente de uma unidade 3a de selecção de intervalo de tempo. No entanto, é possível incluir uma pluralidade de unidades de selecção de intervalo de tempo para notificar cada ou uma parte das unidades 2z4, 2z5 e 2z6 de ajustamento de componentes de sinais individuais dos diferentes resultados da selecção de intervalo de tempo. Nesta altura, a unidade de selecção de intervalo de tempo relativa à unidade de ajustamento de componente de sinal individual entre as unidades 2z4, 2z5 e 2z6 de ajustamento de componentes de sinais individuais que executa o processo 4 (o processo de multiplicação de cada amostra de sub-banda de QMF pelo coeficiente de ganho é executado sobre o sinal de entrada utilizando a envolvente temporal obtida da unidade 2s de ajustamento de modelação de envolvente, como a unidade 2v de modelação de envolvente temporal e, depois, a filtragem de síntese de predição linear na direcção de frequência é também realizada no sinal de saída utilizando os coeficientes de predição linear recebidos da unidade 2f de ajustamento de intensidade de filtragem, como a unidade 2k de filtragem de 122 predição linear) descrito na modificação 3 da quarta forma de realização, pode seleccionar o intervalo de tempo utilizando a informação de selecção de intervalo de tempo fornecida pela unidade de modelação de envolvente temporal. (Modificação 13 da Quarta Forma de Realização)
Um dispositivo 24m de descodificação de voz (ver FIG. 42) de uma modificação 13 da quarta forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 24m de descodificação de voz através da introdução e execução de um programa de computador predeterminado (tal como um programa de computador para realizar processos ilustrados no fluxograma da FIG. 43) armazenado numa memória interna do dispositivo 24m de descodificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 24m de descodificação de voz recebe o fluxo de bits codificado e multiplexado e emite um sinal de voz descodificado para o exterior do dispositivo 24m de descodificação de voz. 0 dispositivo 24m de descodificação de voz, como ilustrado na FIG. 42, inclui a unidade 2a7 de separação de fluxo de bits e a unidade 3al de selecção de intervalo de tempo em vez da unidade 2a3 de separação de fluxo de bits e a unidade 3a de selecção de intervalo de tempo do dispositivo 24q de descodificação de voz da modificação 12. 123 (Modificação 14 da Quarta Forma de Realizaçao)
Um dispositivo 24n de descodificação de voz (não ilustrado) de uma modificação 14 da quarta forma de realização inclui, fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 24n de descodificação de voz através da introdução e execução de um programa de computador predeterminado armazenado numa memória interna do dispositivo 24n de descodificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 24n de descodificação de voz recebe o fluxo de bits codificado e multiplexado e emite um sinal de voz descodificado para o exterior do dispositivo 24n de descodificação de voz. 0 dispositivo 24n de descodificação de voz inclui, funcionalmente, a unidade 2dl de análise de predição linear de baixa frequência, a unidade 2el de detecção de mudança de sinal, a unidade 2hl de análise de predição linear de alta frequência, a unidade 2il de filtragem inversa de predição linear e a unidade 2k3 de filtragem de predição linear em vez da unidade 2d de análise de predição linear de baixa frequência, unidade 2e de detecção de mudança de sinal, unidade 2h de análise de predição linear de alta frequência, unidade 2i de filtragem inversa de predição linear e unidade 2k de filtragem de predição linear do dispositivo 24a de descodificação de voz da modificação 1 e inclui, ainda, a unidade 3a de selecção de intervalo de tempo. (Modificação 15 da Quarta Forma de Realização)
Um dispositivo 24p de descodificação de voz (nao ilustrado) de uma modificação 15 da quarta forma de realização inclui, 124 fisicamente, uma CPU, uma ROM, uma RAM, um dispositivo de comunicação e semelhantes, que não estão ilustrados, e a CPU controla integralmente o dispositivo 24p de descodificação de voz através da introdução e execução de um programa de computador predeterminado armazenado numa memória interna do dispositivo 24p de descodificação de voz, tal como a ROM na RAM. 0 dispositivo de comunicação do dispositivo 24p de descodificação de voz recebe o fluxo de bits codificado e multiplexado e emite um sinal de voz descodificado para o exterior do dispositivo 24p de descodificação de voz. 0 dispositivo 24p de descodificação de voz inclui, funcionalmente, a unidade 3al de selecção de intervalo de tempo em vez da unidade 3a de selecção de intervalo de tempo do dispositivo 24n de descodificação de voz da modificação 14. 0 dispositivo 24p de descodificação de voz também inclui uma unidade 2a8 de separação de fluxo de bits (não ilustrada) em vez da unidade 2a4 de separação de fluxo de bits. A unidade 2a8 de separação de fluxo de bits separa o fluxo de bits multiplexado em informação suplementar SBR e no fluxo de bits codificado, como a unidade 2a4 de separação de fluxo de bits e, ainda, em informação de selecção de intervalo de tempo.
Aplicação Industrial A presente invenção proporciona uma técnica aplicável à técnica de extensão de largura de banda no domínio da frequência representada por SBR e para reduzir a ocorrência de pré-eco e pós-eco, e melhorar a qualidade subjectiva do sinal descodificado sem aumentar significativamente o débito binário. 125
Lista de Símbolos de Referência 11, 11a, 11b, 11c, 12, 12a, 12b, 13, 14, 14a, 14b dispositivo de codificação de voz
la unidade de transformação de frequência lb unidade de transformação inversa de frequência lc unidade de codificação de codec de núcleo ld unidade de codificação SBR le, lei unidade de análise de predição linear lf unidade de cálculo de parâmetros de intensidade de filtragem lfl unidade de cálculo de parâmetros de intensidade de filtragem lg, lgl, lg2, lg3, lg4, lga5, lg6, lg7 unidade de multiplexagem de fluxo de bits lh unidade de transformação inversa de alta frequência li unidade de cálculo de potência de curto prazo lj unidade de limitação de coeficientes de predição linear lk unidade de quantificação de coeficientes de predição linear lm unidade de cálculo de envolvente temporal ln unidade de cálculo de parâmetros de modelação de envolvente lp, lpl unidade de selecção de intervalo de tempo 21, 22, 23, 24, 24b, 24c dispositivo de descodificação de voz 2a, 2al, 2a2, 2a3, 2a5, 2a5, 2a7 unidade de separação de fluxo de bits 2b unidade de codificação de codec de núcleo 2c unidade de transformação de frequência 2d, 2dl unidade de análise de predição linear de baixa frequência 2e, 2el unidade de detecção de mudança de sinal 2f unidade de ajustamento de intensidade de filtragem 2g unidade de geração de alta frequência 126 2h, 2hl unidade de análise de predição linear de alta frequência 2i, 2il unidade de filtragem inversa de predição linear 2j, 2 j 1, 2 j 2, 2 j 3, 2 j 4 unidade de ajustamento de alta frequência 2k, 2kl, 2k2, 2k3 unidade de filtragem de predição linear 2m unidade de adição de coeficientes 2n unidade de transformação inversa de frequência 2p, 2pl unidade de interpolação/extrapolação de coeficientes de predição linear 2r unidade de cálculo de envolvente temporal de baixa frequência 2s unidade de ajustamento de modelação de envolvente 2t unidade de cálculo de envolvente temporal de alta frequência 2u unidade de nivelamento de envolvente temporal, 2v, 2vl unidade de modelação de envolvente temporal 2w unidade de conversão de informação suplementar 2zl, 2z2, 2z3, 2z4, 2z5, 2z6 unidade de ajustamento de componentes de sinais individuais 3a, 3al, 3a2: unidade de selecção de intervalo de tempo
Lisboa, 13 de Setembro de 2013 127
Claims (7)
- REIVINDICAÇÕES 1. Dispositivo de descodificação de voz para descodificar um sinal de voz codificado, compreendendo o dispositivo de descodificação de voz: um meio de separação de fluxo de bits para separar um fluxo de bits que inclui o sinal de voz codificado num fluxo de bits codificado e em informação suplementar de envolvente temporal, sendo o fluxo de bits recebido do exterior do dispositivo de descodificação de voz; um meio de descodificação de núcleo para descodificar o fluxo de bits codificado separado pelo meio de separação de fluxo de bits para obter um componente de baixa frequência; um meio de transformação de frequência para transformar o componente de baixa frequência obtido pelo meio de descodificação de núcleo num domínio de frequência; um meio de geração de alta frequência para gerar um componente de alta frequência através da cópia do componente de baixa frequência transformado no domínio de frequência pelo meio de transformação de frequência de uma banda de baixa frequência para uma banda de alta frequência; um meio de ajustamento primário de alta frequência para executar no componente de alta frequência gerado pelo meio de geração de alta frequência uma parte de um 1 processo incluindo ajustamento de ganho, adição de ruído e adição de sinusoides para gerar um sinal de saída; um meio de análise de envolvente temporal de baixa frequência para analisar o componente de baixa frequência transformado no domínio de frequência pelo meio de transformação de frequência para obter informação de envolvente temporal; um meio de conversão de informação suplementar para converter a informação suplementar de envolvente temporal num parâmetro para ajustar a informação de envolvente temporal; um meio de ajustamento de envolvente temporal para ajustar a informação de envolvente temporal obtida pelo meio de análise de envolvente temporal de baixa frequência para gerar informação de envolvente temporal ajustada, utilizando o meio de ajustamento de envolvente temporal o parâmetro no referido ajustamento da informação de envolvente temporal; um meio de modelação de envolvente temporal para modelar uma envolvente temporal do sinal de saída gerado pelo meio de ajustamento primário de alta frequência utilizando a informação de envolvente temporal ajustada para gerar um sinal de saída; e um meio de ajustamento secundário de alta frequência para executar no sinal de saída gerado pelo meio de modelação de envolvente temporal a outra parte do 2 processo incluindo ajustamento de ganho, adição de ruído e adição de sinusoides.
- 2. Dispositivo de descodificação de voz para descodificar um sinal de voz codificado, compreendendo o dispositivo de descodificação de voz: um meio de descodificação de núcleo para descodificar um fluxo de bits que inclui o sinal de voz codificado para obter um componente de baixa frequência, sendo o fluxo de bits recebido do exterior do dispositivo de descodificação de voz; um meio de transformação de frequência para transformar o componente de baixa frequência obtido pelo meio de descodificação de núcleo num domínio de frequência; um meio de geração de alta frequência para gerar um componente de alta frequência ao copiar o componente de baixa frequência transformado no domínio de frequência pelo meio de transformação de frequência de uma banda de baixa frequência para uma banda de alta frequência; um meio de ajustamento primário de alta frequência para executar, sobre o componente de alta frequência gerado pelo meio de geração de alta frequência, uma parte de um processo incluindo ajustamento de ganho, adição de ruído e adição de sinusoides para gerar um sinal de saída; um meio de análise de envolvente temporal de baixa frequência para analisar o componente de baixa 3 frequência transformado no domínio de frequência pelo meio de transformação de frequência para obter informação de envolvente temporal; um meio de geração de informação suplementar de envolvente temporal para analisar o fluxo de bits para gerar um parâmetro para ajustar a informação de envolvente temporal; um meio de ajustamento de envolvente temporal para ajustar a informação de envolvente temporal obtida pelo meio de análise de envolvente temporal de baixa frequência para gerar informação de envolvente temporal ajustada, utilizando o meio de ajustamento de envolvente temporal o parâmetro no referido ajustamento da informação de envolvente temporal; um meio de modelação de envolvente temporal para modelar uma envolvente temporal do sinal de saída gerado pelo meio de ajustamento primário de alta frequência utilizando a informação de envolvente temporal ajustada, para gerar um sinal de saída; e um meio de ajustamento secundário de alta frequência para executar no sinal de saída gerado pelo meio de modelação de envolvente temporal a outra parte do processo incluindo ajustamento de ganho, adição de ruído e adição de sinusoides.
- 3. Dispositivo de descodificação de voz, de acordo com a Reivindicação 1 ou 2, em que o meio de ajustamento secundário de alta frequência executa, no sinal de saída 4 gerado pelo meio de modelaçao de envolvente temporal, a adição de sinusoides em descodificação SBR.
- 4. Método de descodificação de voz utilizando um dispositivo de descodificação de voz para descodificar um sinal de voz codificado, compreendendo o método de descodificação de voz: um passo de separação de fluxo de bits, em que o dispositivo de descodificação de voz separa um fluxo de bits que inclui o sinal de voz codificado num fluxo de bits codificado e informação suplementar de envolvente temporal, sendo o fluxo de bits recebido do exterior do dispositivo de descodificação de voz; um passo de descodificação de núcleo em que o dispositivo de descodificação de voz obtém um componente de baixa frequência ao descodificar o fluxo de bits codificado separado no passo de separação de fluxo de bits; um passo de transformação de frequência em que o dispositivo de descodificação de voz transforma o componente de baixa frequência obtido no passo de descodificação de núcleo num domínio de frequência; um passo de geração de alta frequência em que o dispositivo de descodificação de voz gera um componente de alta frequência ao copiar o componente de baixa frequência transformado para o domínio de frequência no passo de transformação de frequência de uma banda de baixa frequência para uma banda de alta frequência; 5 um passo de ajustamento primário de alta frequência em que o dispositivo de descodificação de voz executa no componente de alta frequência gerado no passo de geração de alta frequência uma parte de um processo incluindo ajustamento de ganho, adição de ruido e adição de sinusoides para gerar um sinal de saída; um passo de análise de envolvente temporal de baixa frequência em que o dispositivo de descodificação de voz obtém informação de envolvente temporal ao analisar o componente de baixa frequência transformado para o domínio da frequência no passo de transformação de frequência; um passo de conversão de informação suplementar em que o dispositivo de descodificação de voz converte a informação suplementar de envolvente temporal num parâmetro para ajustar a informação de envolvente temporal; um passo de ajustamento de envolvente temporal em que o dispositivo de descodificação de voz ajusta a informação de envolvente temporal obtida no passo de análise de envolvente temporal de baixa frequência para gerar informação de envolvente temporal ajustada, em que o parâmetro é utilizado no referido ajustamento da informação de envolvente temporal; um passo de modelação de envolvente temporal em que o dispositivo de descodificação de voz modela uma envolvente temporal do sinal de saída gerado no passo de ajustamento primário de alta frequência utilizando a 6 informação de envolvente temporal ajustada para gerar um sinal de saída; e um passo de ajustamento secundário de alta frequência em que o dispositivo de descodificação de voz executa no sinal de saída gerado pelo passo de modelação de envolvente temporal a outra parte do processo incluindo ajustamento de ganho, adição de ruído e adição de sinusoides.
- 5. Método de descodificação de voz utilizando um dispositivo de descodificação de voz para descodificar um sinal de voz codificado, compreendendo o método de descodificação de voz: um passo de descodificação de núcleo em que o dispositivo de descodificação de voz descodifica um fluxo de bits que inclui o sinal de voz codificado para obter um componente de baixa frequência, sendo o fluxo de bits recebido do exterior do dispositivo de descodificação de voz; um passo de transformação de frequência em que o dispositivo de descodificação de voz transforma o componente de baixa frequência obtido no passo de descodificação de núcleo num domínio de frequência; um passo de geração de alta frequência em que o dispositivo de descodificação de voz gera um componente de alta frequência ao copiar o componente de baixa frequência transformado no domínio de frequência no passo de transformação de frequência de uma banda de baixa frequência para uma banda de alta frequência; 7 um passo de ajustamento primário de alta frequência em que o dispositivo de descodificação de voz executa, sobre o componente de alta frequência gerado no passo de geração de alta frequência, uma parte de um processo incluindo ajustamento de ganho, adição de ruido e adição de sinusoides para gerar um sinal de saída; um passo de análise de envolvente temporal de baixa frequência em que o dispositivo de descodificação de voz obtém informação de envolvente temporal ao analisar o componente de baixa frequência transformado no domínio de frequência no passo de transformação de frequência; um passo de geração de informação suplementar de envolvente temporal em que o dispositivo de descodificação de voz analisa o fluxo de bits para gerar um parâmetro para ajustar a informação de envolvente temporal; um passo de ajustamento de envolvente temporal em que o dispositivo de descodificação de voz ajusta a informação de envolvente temporal obtida no passo de análise de envolvente temporal de baixa frequência para gerar informação de envolvente temporal ajustada, em que o parâmetro é utilizado no referido ajustamento da informação de envolvente temporal; um passo de modelação de envolvente temporal em que o dispositivo de descodificação de voz modela uma envolvente temporal do sinal de saída gerado no passo de ajustamento primário de alta frequência utilizando a informação de envolvente temporal ajustada, para gerar um sinal de saída; e um passo de ajustamento secundário de alta frequência em que o dispositivo de descodificação de voz executa no sinal de saída gerado no passo de modelação de envolvente temporal a outra parte do processo incluindo ajustamento de ganho, adição de ruído e adição de sinusoides.
- 6. Programa de descodificação de voz para descodificar um sinal de voz codificado fazendo com que um dispositivo informático funcione como: um meio de separação de fluxo de bits para separar um fluxo de bits que inclui o sinal de voz codificado num fluxo de bits codificado e informação suplementar de envolvente temporal, sendo o fluxo de bits recebido do exterior do dispositivo de descodificação de voz; um meio de descodificação de núcleo para descodificar o fluxo de bits codificado separado pelo meio de separação de fluxo de bits para obter um componente de baixa frequência; um meio de transformação de frequência para transformar o componente de baixa frequência obtido pelo meio de descodificação de núcleo num domínio de frequência; um meio de geração de alta frequência para gerar um componente de alta frequência através da cópia do componente de baixa frequência transformado no domínio 9 de frequência pelo meio de transformação de frequência de uma banda de baixa frequência para uma banda de alta frequência; um meio de ajustamento primário de alta frequência para executar no componente de alta frequência gerado pelo meio de geração de alta frequência uma parte de um processo incluindo ajustamento de ganho, adição de ruido e adição de sinusoides para gerar um sinal de saída; um meio de análise de envolvente temporal de baixa frequência para analisar o componente de baixa frequência transformado no domínio de frequência pelo meio de transformação de frequência para obter informação de envolvente temporal; um meio de conversão de informação suplementar para converter a informação suplementar de envolvente temporal num parâmetro para ajustar a informação de envolvente temporal; um meio de ajustamento de envolvente temporal para ajustar a informação de envolvente temporal obtida pelo meio de análise de envolvente temporal de baixa frequência para gerar informação de envolvente temporal ajustada, utilizando o meio de ajustamento de envolvente temporal o parâmetro no referido ajustamento da informação de envolvente temporal; um meio de modelação de envolvente temporal para modelar uma envolvente temporal do sinal de saída 10 gerado pelo meio de ajustamento primário de alta frequência utilizando a informação de envolvente temporal ajustada; e um meio de ajustamento secundário de alta frequência para executar no sinal de saída gerado pelo meio de modelação de envolvente temporal a outra parte do processo incluindo ajustamento de ganho, adição de ruído e adição de sinusoides.
- 7. Programa de descodificação de voz para descodificar um sinal de voz codificado fazendo com que um dispositivo informático funcione como: um meio de descodificação de núcleo para descodificar um fluxo de bits que inclui o sinal de voz codificado para obter um componente de baixa frequência, sendo o fluxo de bits recebido do exterior do dispositivo de descodificação de voz; um meio de transformação de frequência para transformar o componente de baixa frequência obtido pelo meio de descodificação de núcleo num domínio de frequência; um meio de geração de alta frequência para gerar um componente de alta frequência ao copiar o componente de baixa frequência transformado no domínio de frequência pelo meio de transformação de frequência de uma banda de baixa frequência para uma banda de alta frequência; um meio de ajustamento primário de alta frequência para executar, sobre o componente de alta frequência gerado 11 pelo meio de geração de alta frequência, uma parte de um processo incluindo ajustamento de ganho, adição de ruído e adição de sinusoides para gerar um sinal de saída; um meio de análise de envolvente temporal de baixa frequência para analisar o componente de baixa frequência transformado no domínio de frequência pelo meio de transformação de frequência para obter informação de envolvente temporal; um meio de geração de informação suplementar de envolvente temporal para analisar o fluxo de bits para gerar um parâmetro para ajustar a informação de envolvente temporal; um meio de ajustamento de envolvente temporal para ajustar a informação de envolvente temporal obtida pelo meio de análise de envolvente temporal de baixa frequência para gerar informação de envolvente temporal ajustada, utilizando o meio de ajustamento de envolvente temporal o parâmetro no referido ajustamento da informação de envolvente temporal; um meio de modelação de envolvente temporal para modelar uma envolvente temporal do sinal de saída gerado pelo meio de ajustamento primário de alta frequência utilizando a informação de envolvente temporal ajustada, para gerar um sinal de saída; e um meio de ajustamento secundário de alta frequência para executar no sinal de saída gerado pelo meio de 12 modelação de envolvente temporal a outra parte do processo incluindo ajustamento de ganho, adição de ruído e adição de sinusoides. Lisboa, 13 de Setembro de 2013 13
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009091396 | 2009-04-03 | ||
| JP2009146831 | 2009-06-19 | ||
| JP2009162238 | 2009-07-08 | ||
| JP2010004419A JP4932917B2 (ja) | 2009-04-03 | 2010-01-12 | 音声復号装置、音声復号方法、及び音声復号プログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| PT2503548E true PT2503548E (pt) | 2013-09-20 |
Family
ID=42828407
Family Applications (3)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PT121716138T PT2503548E (pt) | 2009-04-03 | 2010-04-02 | Dispositivo de descodificação de voz, método de descodificação de voz e programa de descodificação de voz |
| PT121716039T PT2509072T (pt) | 2009-04-03 | 2010-04-02 | Dispositivo de codificação de voz, dispositivo de descodificação de voz, método de codificação de voz, método de descodificação de voz, programa de codificação de voz e programa de descodificação de voz |
| PT107588907T PT2416316E (pt) | 2009-04-03 | 2010-04-02 | Dispositivo de codificação de voz, dispositivo de descodificação de voz, método de codificação de voz, método de descodificação de voz, programa de codificação de voz e programa de descodificação de voz |
Family Applications After (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PT121716039T PT2509072T (pt) | 2009-04-03 | 2010-04-02 | Dispositivo de codificação de voz, dispositivo de descodificação de voz, método de codificação de voz, método de descodificação de voz, programa de codificação de voz e programa de descodificação de voz |
| PT107588907T PT2416316E (pt) | 2009-04-03 | 2010-04-02 | Dispositivo de codificação de voz, dispositivo de descodificação de voz, método de codificação de voz, método de descodificação de voz, programa de codificação de voz e programa de descodificação de voz |
Country Status (21)
| Country | Link |
|---|---|
| US (5) | US8655649B2 (pt) |
| EP (5) | EP2503547B1 (pt) |
| JP (1) | JP4932917B2 (pt) |
| KR (7) | KR101530296B1 (pt) |
| CN (6) | CN102779522B (pt) |
| AU (1) | AU2010232219B8 (pt) |
| BR (1) | BRPI1015049B1 (pt) |
| CA (4) | CA2844441C (pt) |
| CY (1) | CY1114412T1 (pt) |
| DK (2) | DK2509072T3 (pt) |
| ES (5) | ES2453165T3 (pt) |
| HR (1) | HRP20130841T1 (pt) |
| MX (1) | MX2011010349A (pt) |
| PH (4) | PH12012501117B1 (pt) |
| PL (2) | PL2503546T4 (pt) |
| PT (3) | PT2503548E (pt) |
| RU (6) | RU2498420C1 (pt) |
| SG (2) | SG174975A1 (pt) |
| SI (1) | SI2503548T1 (pt) |
| TW (6) | TWI479479B (pt) |
| WO (1) | WO2010114123A1 (pt) |
Families Citing this family (64)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4932917B2 (ja) | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
| CN102576539B (zh) * | 2009-10-20 | 2016-08-03 | 松下电器(美国)知识产权公司 | 编码装置、通信终端装置、基站装置以及编码方法 |
| EP3779977B1 (en) * | 2010-04-13 | 2023-06-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder for processing stereo audio using a variable prediction direction |
| AU2011350143B9 (en) * | 2010-12-29 | 2015-05-14 | Samsung Electronics Co., Ltd. | Apparatus and method for encoding/decoding for high-frequency bandwidth extension |
| DK3567589T3 (da) * | 2011-02-18 | 2022-05-09 | Ntt Docomo Inc | Talekoder og talekodningsfremgangsmåde |
| EP2777042B1 (en) | 2011-11-11 | 2019-08-14 | Dolby International AB | Upsampling using oversampled sbr |
| JP5997592B2 (ja) * | 2012-04-27 | 2016-09-28 | 株式会社Nttドコモ | 音声復号装置 |
| JP6200034B2 (ja) * | 2012-04-27 | 2017-09-20 | 株式会社Nttドコモ | 音声復号装置 |
| CN102737647A (zh) * | 2012-07-23 | 2012-10-17 | 武汉大学 | 双声道音频音质增强编解码方法及装置 |
| EP2704142B1 (en) * | 2012-08-27 | 2015-09-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for reproducing an audio signal, apparatus and method for generating a coded audio signal, computer program and coded audio signal |
| CN103730125B (zh) * | 2012-10-12 | 2016-12-21 | 华为技术有限公司 | 一种回声抵消方法和设备 |
| CN105551497B (zh) | 2013-01-15 | 2019-03-19 | 华为技术有限公司 | 编码方法、解码方法、编码装置和解码装置 |
| CN105103226B (zh) | 2013-01-29 | 2019-04-16 | 弗劳恩霍夫应用研究促进协会 | 低复杂度音调自适应音频信号量化 |
| CA2899080C (en) | 2013-01-29 | 2018-10-02 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for generating a frequency enhancement signal using an energy limitation operation |
| US9711156B2 (en) * | 2013-02-08 | 2017-07-18 | Qualcomm Incorporated | Systems and methods of performing filtering for gain determination |
| KR102148407B1 (ko) * | 2013-02-27 | 2020-08-27 | 한국전자통신연구원 | 소스 필터를 이용한 주파수 스펙트럼 처리 장치 및 방법 |
| TWI477789B (zh) * | 2013-04-03 | 2015-03-21 | Tatung Co | 資訊擷取裝置及其發送頻率調整方法 |
| WO2014171791A1 (ko) | 2013-04-19 | 2014-10-23 | 한국전자통신연구원 | 다채널 오디오 신호 처리 장치 및 방법 |
| JP6305694B2 (ja) * | 2013-05-31 | 2018-04-04 | クラリオン株式会社 | 信号処理装置及び信号処理方法 |
| FR3008533A1 (fr) | 2013-07-12 | 2015-01-16 | Orange | Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences |
| EP3012835B1 (en) * | 2013-07-18 | 2018-09-12 | Nippon Telegraph and Telephone Corporation | Linear-prediction analysis device, method, program, and storage medium |
| EP2830059A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Noise filling energy adjustment |
| US9319819B2 (en) * | 2013-07-25 | 2016-04-19 | Etri | Binaural rendering method and apparatus for decoding multi channel audio |
| CN110619882B (zh) * | 2013-07-29 | 2023-04-04 | 杜比实验室特许公司 | 用于降低去相关器电路中瞬态信号的时间伪差的系统和方法 |
| CN104517611B (zh) * | 2013-09-26 | 2016-05-25 | 华为技术有限公司 | 一种高频激励信号预测方法及装置 |
| CN104517610B (zh) * | 2013-09-26 | 2018-03-06 | 华为技术有限公司 | 频带扩展的方法及装置 |
| JP6366706B2 (ja) | 2013-10-18 | 2018-08-01 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | スピーチ関連のスペクトル整形情報を使用したオーディオ信号符号化と復号化の概念 |
| BR112016008544B1 (pt) | 2013-10-18 | 2021-12-21 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Codificador para codificar e decodificador para decodificar um sinal de áudio, método para codificar e método para decodificar um sinal de áudio. |
| EP3063761B1 (en) | 2013-10-31 | 2017-11-22 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung E.V. | Audio bandwidth extension by insertion of temporal pre-shaped noise in frequency domain |
| WO2015077641A1 (en) * | 2013-11-22 | 2015-05-28 | Qualcomm Incorporated | Selective phase compensation in high band coding |
| EP3525206B1 (en) | 2013-12-02 | 2021-09-08 | Huawei Technologies Co., Ltd. | Encoding method and apparatus |
| US10163447B2 (en) * | 2013-12-16 | 2018-12-25 | Qualcomm Incorporated | High-band signal modeling |
| MX361028B (es) * | 2014-02-28 | 2018-11-26 | Fraunhofer Ges Forschung | Dispositivo de decodificación, dispositivo de codificación, método de decodificación, método de codificación, dispositivo de terminal y dispositivo de estación de base. |
| JP6035270B2 (ja) * | 2014-03-24 | 2016-11-30 | 株式会社Nttドコモ | 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム |
| TR201901328T4 (tr) * | 2014-04-25 | 2019-02-21 | Ntt Docomo Inc | Doğrusal tahmin katsayısı dönüştürme cihazı ve doğrusal tahmin katsayısı dönüştürme yöntemi. |
| KR101860143B1 (ko) * | 2014-05-01 | 2018-05-23 | 니폰 덴신 덴와 가부시끼가이샤 | 주기성 통합 포락 계열 생성 장치, 주기성 통합 포락 계열 생성 방법, 주기성 통합 포락 계열 생성 프로그램, 기록매체 |
| WO2016024853A1 (ko) * | 2014-08-15 | 2016-02-18 | 삼성전자 주식회사 | 음질 향상 방법 및 장치, 음성 복호화방법 및 장치와 이를 채용한 멀티미디어 기기 |
| US9659564B2 (en) * | 2014-10-24 | 2017-05-23 | Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayi Ticaret Anonim Sirketi | Speaker verification based on acoustic behavioral characteristics of the speaker |
| US9455732B2 (en) * | 2014-12-19 | 2016-09-27 | Stmicroelectronics S.R.L. | Method and device for analog-to-digital conversion of signals, corresponding apparatus |
| WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
| KR20170134467A (ko) * | 2015-04-10 | 2017-12-06 | 톰슨 라이센싱 | 다수의 오디오 신호들을 인코딩하기 위한 방법 및 디바이스, 그리고 개선된 분리로 다수의 오디오 신호들의 혼합을 디코딩하기 위한 방법 및 디바이스 |
| EP4134953B1 (en) | 2016-04-12 | 2024-11-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding an audio signal, method for encoding an audio signal and computer program under consideration of a detected peak spectral region in an upper frequency band |
| WO2017196382A1 (en) * | 2016-05-11 | 2017-11-16 | Nuance Communications, Inc. | Enhanced de-esser for in-car communication systems |
| DE102017204181A1 (de) | 2017-03-14 | 2018-09-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Sender zum Emittieren von Signalen und Empfänger zum Empfangen von Signalen |
| EP3382700A1 (en) | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using a transient location detection |
| EP3382701A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using prediction based shaping |
| WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
| EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
| EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
| EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
| EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
| EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
| EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
| WO2019091573A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
| EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
| CN111868682B (zh) * | 2018-02-27 | 2024-05-28 | 泽腾系统有限公司 | 用于异构数据的可扩展变换处理单元 |
| US10810455B2 (en) | 2018-03-05 | 2020-10-20 | Nvidia Corp. | Spatio-temporal image metric for rendered animations |
| CN109243485B (zh) * | 2018-09-13 | 2021-08-13 | 广州酷狗计算机科技有限公司 | 恢复高频信号的方法和装置 |
| KR102603621B1 (ko) * | 2019-01-08 | 2023-11-16 | 엘지전자 주식회사 | 신호 처리 장치 및 이를 구비하는 영상표시장치 |
| EP3786948A1 (en) | 2019-08-28 | 2021-03-03 | Fraunhofer Gesellschaft zur Förderung der Angewand | Time-varying time-frequency tilings using non-uniform orthogonal filterbanks based on mdct analysis/synthesis and tdar |
| CN113192523B (zh) * | 2020-01-13 | 2024-07-16 | 华为技术有限公司 | 一种音频编解码方法和音频编解码设备 |
| CN113470667B (zh) * | 2020-03-11 | 2024-09-27 | 腾讯科技(深圳)有限公司 | 语音信号的编解码方法、装置、电子设备及存储介质 |
| JP6872056B2 (ja) * | 2020-04-09 | 2021-05-19 | 株式会社Nttドコモ | 音声復号装置および音声復号方法 |
| CN113190508B (zh) * | 2021-04-26 | 2023-05-05 | 重庆市规划和自然资源信息中心 | 一种面向管理的自然语言识别方法 |
Family Cites Families (43)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| RU2256293C2 (ru) * | 1997-06-10 | 2005-07-10 | Коудинг Технолоджиз Аб | Усовершенствование исходного кодирования с использованием дублирования спектральной полосы |
| SE512719C2 (sv) | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
| DE19747132C2 (de) | 1997-10-24 | 2002-11-28 | Fraunhofer Ges Forschung | Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms |
| US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
| SE0001926D0 (sv) * | 2000-05-23 | 2000-05-23 | Lars Liljeryd | Improved spectral translation/folding in the subband domain |
| SE0004187D0 (sv) * | 2000-11-15 | 2000-11-15 | Coding Technologies Sweden Ab | Enhancing the performance of coding systems that use high frequency reconstruction methods |
| US8782254B2 (en) * | 2001-06-28 | 2014-07-15 | Oracle America, Inc. | Differentiated quality of service context assignment and propagation |
| KR100935961B1 (ko) * | 2001-11-14 | 2010-01-08 | 파나소닉 주식회사 | 부호화 장치 및 복호화 장치 |
| US7469206B2 (en) * | 2001-11-29 | 2008-12-23 | Coding Technologies Ab | Methods for improving high frequency reconstruction |
| US20030187663A1 (en) * | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
| DE60327039D1 (de) * | 2002-07-19 | 2009-05-20 | Nec Corp | Audiodekodierungseinrichtung, dekodierungsverfahren und programm |
| CN100492492C (zh) * | 2002-09-19 | 2009-05-27 | 松下电器产业株式会社 | 音频解码设备和方法 |
| US7519538B2 (en) * | 2003-10-30 | 2009-04-14 | Koninklijke Philips Electronics N.V. | Audio signal encoding or decoding |
| JP4741476B2 (ja) * | 2004-04-23 | 2011-08-03 | パナソニック株式会社 | 符号化装置 |
| TWI497485B (zh) * | 2004-08-25 | 2015-08-21 | Dolby Lab Licensing Corp | 用以重塑經合成輸出音訊信號之時域包絡以更接近輸入音訊信號之時域包絡的方法 |
| US7720230B2 (en) * | 2004-10-20 | 2010-05-18 | Agere Systems, Inc. | Individual channel shaping for BCC schemes and the like |
| US7045799B1 (en) | 2004-11-19 | 2006-05-16 | Varian Semiconductor Equipment Associates, Inc. | Weakening focusing effect of acceleration-deceleration column of ion implanter |
| SG163556A1 (en) * | 2005-04-01 | 2010-08-30 | Qualcomm Inc | Systems, methods, and apparatus for wideband speech coding |
| ATE421845T1 (de) | 2005-04-15 | 2009-02-15 | Dolby Sweden Ab | Zeitliche hüllkurvenformgebung von entkorrelierten signalen |
| US9043214B2 (en) * | 2005-04-22 | 2015-05-26 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor attenuation |
| JP4339820B2 (ja) * | 2005-05-30 | 2009-10-07 | 太陽誘電株式会社 | 光情報記録装置および方法および信号処理回路 |
| US20070006716A1 (en) * | 2005-07-07 | 2007-01-11 | Ryan Salmond | On-board electric guitar tuner |
| DE102005032724B4 (de) * | 2005-07-13 | 2009-10-08 | Siemens Ag | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen |
| WO2007010771A1 (ja) | 2005-07-15 | 2007-01-25 | Matsushita Electric Industrial Co., Ltd. | 信号処理装置 |
| US7953605B2 (en) * | 2005-10-07 | 2011-05-31 | Deepen Sinha | Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension |
| WO2007107670A2 (fr) | 2006-03-20 | 2007-09-27 | France Telecom | Procede de post-traitement d'un signal dans un decodeur audio |
| KR100791846B1 (ko) * | 2006-06-21 | 2008-01-07 | 주식회사 대우일렉트로닉스 | 오디오 복호기 |
| US9454974B2 (en) * | 2006-07-31 | 2016-09-27 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor limiting |
| CN101140759B (zh) * | 2006-09-08 | 2010-05-12 | 华为技术有限公司 | 语音或音频信号的带宽扩展方法及系统 |
| DE102006049154B4 (de) * | 2006-10-18 | 2009-07-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Kodierung eines Informationssignals |
| JP4918841B2 (ja) * | 2006-10-23 | 2012-04-18 | 富士通株式会社 | 符号化システム |
| WO2009029037A1 (en) * | 2007-08-27 | 2009-03-05 | Telefonaktiebolaget Lm Ericsson (Publ) | Adaptive transition frequency between noise fill and bandwidth extension |
| EP2227682A1 (en) * | 2007-11-06 | 2010-09-15 | Nokia Corporation | An encoder |
| KR101413967B1 (ko) | 2008-01-29 | 2014-07-01 | 삼성전자주식회사 | 오디오 신호의 부호화 방법 및 복호화 방법, 및 그에 대한 기록 매체, 오디오 신호의 부호화 장치 및 복호화 장치 |
| KR101413968B1 (ko) * | 2008-01-29 | 2014-07-01 | 삼성전자주식회사 | 오디오 신호의 부호화, 복호화 방법 및 장치 |
| US20090201983A1 (en) * | 2008-02-07 | 2009-08-13 | Motorola, Inc. | Method and apparatus for estimating high-band energy in a bandwidth extension system |
| KR101475724B1 (ko) * | 2008-06-09 | 2014-12-30 | 삼성전자주식회사 | 오디오 신호 품질 향상 장치 및 방법 |
| KR20100007018A (ko) * | 2008-07-11 | 2010-01-22 | 에스앤티대우(주) | 피스톤밸브 어셈블리 및 이를 포함하는 연속 감쇠력 가변형댐퍼 |
| WO2010028297A1 (en) * | 2008-09-06 | 2010-03-11 | GH Innovation, Inc. | Selective bandwidth extension |
| US8352279B2 (en) * | 2008-09-06 | 2013-01-08 | Huawei Technologies Co., Ltd. | Efficient temporal envelope coding approach by prediction between low band signal and high band signal |
| US8463599B2 (en) * | 2009-02-04 | 2013-06-11 | Motorola Mobility Llc | Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder |
| JP4932917B2 (ja) | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
| US9047875B2 (en) * | 2010-07-19 | 2015-06-02 | Futurewei Technologies, Inc. | Spectrum flatness control for bandwidth extension |
-
2010
- 2010-01-12 JP JP2010004419A patent/JP4932917B2/ja active Active
- 2010-04-02 EP EP12171612.0A patent/EP2503547B1/en active Active
- 2010-04-02 CN CN201210240795.4A patent/CN102779522B/zh active Active
- 2010-04-02 BR BRPI1015049-8A patent/BRPI1015049B1/pt active IP Right Grant
- 2010-04-02 CN CN2010800145937A patent/CN102379004B/zh active Active
- 2010-04-02 PT PT121716138T patent/PT2503548E/pt unknown
- 2010-04-02 EP EP12171613.8A patent/EP2503548B1/en active Active
- 2010-04-02 EP EP10758890.7A patent/EP2416316B1/en active Active
- 2010-04-02 CN CN201210240805.4A patent/CN102779523B/zh active Active
- 2010-04-02 TW TW101124696A patent/TWI479479B/zh active
- 2010-04-02 SI SI201030335T patent/SI2503548T1/sl unknown
- 2010-04-02 CA CA2844441A patent/CA2844441C/en active Active
- 2010-04-02 TW TW099110498A patent/TW201126515A/zh unknown
- 2010-04-02 TW TW101124697A patent/TWI476763B/zh active
- 2010-04-02 RU RU2012130462/08A patent/RU2498420C1/ru active
- 2010-04-02 EP EP12171603.9A patent/EP2509072B1/en active Active
- 2010-04-02 PT PT121716039T patent/PT2509072T/pt unknown
- 2010-04-02 KR KR1020127016477A patent/KR101530296B1/ko active Active
- 2010-04-02 DK DK12171603.9T patent/DK2509072T3/en active
- 2010-04-02 KR KR1020117023208A patent/KR101172325B1/ko active Active
- 2010-04-02 AU AU2010232219A patent/AU2010232219B8/en active Active
- 2010-04-02 KR KR1020127016478A patent/KR101702412B1/ko active Active
- 2010-04-02 CA CA2757440A patent/CA2757440C/en active Active
- 2010-04-02 KR KR1020127016476A patent/KR101530295B1/ko active Active
- 2010-04-02 KR KR1020167032541A patent/KR101702415B1/ko active Active
- 2010-04-02 PT PT107588907T patent/PT2416316E/pt unknown
- 2010-04-02 TW TW101124694A patent/TWI384461B/zh active
- 2010-04-02 TW TW101124695A patent/TWI478150B/zh active
- 2010-04-02 KR KR1020127016475A patent/KR101530294B1/ko active Active
- 2010-04-02 ES ES10758890.7T patent/ES2453165T3/es active Active
- 2010-04-02 ES ES12171597.3T patent/ES2586766T3/es active Active
- 2010-04-02 SG SG2011070927A patent/SG174975A1/en unknown
- 2010-04-02 TW TW101124698A patent/TWI479480B/zh active
- 2010-04-02 CA CA2844438A patent/CA2844438C/en active Active
- 2010-04-02 CN CN201210240811.XA patent/CN102737640B/zh active Active
- 2010-04-02 WO PCT/JP2010/056077 patent/WO2010114123A1/ja not_active Ceased
- 2010-04-02 CN CN201210240328.1A patent/CN102779521B/zh active Active
- 2010-04-02 ES ES12171612.0T patent/ES2587853T3/es active Active
- 2010-04-02 RU RU2011144573/08A patent/RU2498421C2/ru active
- 2010-04-02 CN CN201210241157.4A patent/CN102779520B/zh active Active
- 2010-04-02 SG SG10201401582VA patent/SG10201401582VA/en unknown
- 2010-04-02 ES ES12171603.9T patent/ES2610363T3/es active Active
- 2010-04-02 CA CA2844635A patent/CA2844635C/en active Active
- 2010-04-02 MX MX2011010349A patent/MX2011010349A/es active IP Right Grant
- 2010-04-02 KR KR1020127016467A patent/KR101172326B1/ko active Active
- 2010-04-02 ES ES12171613T patent/ES2428316T3/es active Active
- 2010-04-02 RU RU2012130472/08A patent/RU2498422C1/ru active
- 2010-04-02 PL PL12171597T patent/PL2503546T4/pl unknown
- 2010-04-02 DK DK12171613.8T patent/DK2503548T3/da active
- 2010-04-02 EP EP12171597.3A patent/EP2503546B1/en active Active
- 2010-04-02 PL PL12171613T patent/PL2503548T3/pl unknown
-
2011
- 2011-09-23 US US13/243,015 patent/US8655649B2/en active Active
-
2012
- 2012-06-05 PH PH12012501117A patent/PH12012501117B1/en unknown
- 2012-06-05 PH PH12012501116A patent/PH12012501116B1/en unknown
- 2012-06-05 PH PH12012501119A patent/PH12012501119A1/en unknown
- 2012-06-05 PH PH12012501118A patent/PH12012501118B1/en unknown
- 2012-07-17 RU RU2012130466/08A patent/RU2595914C2/ru active
- 2012-07-17 RU RU2012130470/08A patent/RU2595915C2/ru active
- 2012-07-17 RU RU2012130461/08A patent/RU2595951C2/ru active
-
2013
- 2013-01-24 US US13/749,294 patent/US9064500B2/en active Active
- 2013-09-10 HR HRP20130841AT patent/HRP20130841T1/hr unknown
- 2013-09-18 CY CY20131100813T patent/CY1114412T1/el unknown
-
2014
- 2014-01-10 US US14/152,540 patent/US9460734B2/en active Active
-
2016
- 2016-08-18 US US15/240,746 patent/US10366696B2/en active Active
- 2016-08-18 US US15/240,767 patent/US9779744B2/en active Active
Also Published As
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| PT2503548E (pt) | Dispositivo de descodificação de voz, método de descodificação de voz e programa de descodificação de voz | |
| RU2469422C2 (ru) | Способ и устройство для формирования уровня улучшения в системе кодирования звука | |
| CN101903944B (zh) | 用于处理音频信号的方法和装置 | |
| JP4934427B2 (ja) | 音声信号復号化装置及び音声信号符号化装置 | |
| JP5285162B2 (ja) | ピーク検出に基づいた選択型スケーリングマスク演算 | |
| WO2011086923A1 (ja) | 符号化装置、復号装置、スペクトル変動量算出方法及びスペクトル振幅調整方法 | |
| BR122012021663A2 (pt) | Dispositivo de codificação de voz, dispositivo de decodificação de voz, método de codificação de voz, método de decodificação de voz, programa de codificação de voz e programa de decodificação de voz | |
| AU2012204076B2 (en) | Speech encoding device, speech decoding device, speech encoding method, speech decoding method, speech encoding program, and speech decoding program |