KR20070085788A - 신호 속성들을 사용한 효율적인 오디오 코딩 - Google Patents
신호 속성들을 사용한 효율적인 오디오 코딩 Download PDFInfo
- Publication number
- KR20070085788A KR20070085788A KR1020077012691A KR20077012691A KR20070085788A KR 20070085788 A KR20070085788 A KR 20070085788A KR 1020077012691 A KR1020077012691 A KR 1020077012691A KR 20077012691 A KR20077012691 A KR 20077012691A KR 20070085788 A KR20070085788 A KR 20070085788A
- Authority
- KR
- South Korea
- Prior art keywords
- encoding
- audio signal
- optimized
- oet
- properties
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 87
- 238000000034 method Methods 0.000 claims abstract description 53
- 230000011218 segmentation Effects 0.000 claims abstract description 25
- 238000005457 optimization Methods 0.000 claims description 41
- 230000003595 spectral effect Effects 0.000 claims description 29
- 230000004044 response Effects 0.000 claims description 8
- 230000007774 longterm Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 abstract description 65
- 238000009826 distribution Methods 0.000 abstract description 14
- 230000003044 adaptive effect Effects 0.000 abstract description 12
- 230000008569 process Effects 0.000 abstract description 6
- 238000013459 approach Methods 0.000 description 9
- 239000000203 mixture Substances 0.000 description 8
- 238000005259 measurement Methods 0.000 description 7
- 230000000873 masking effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 206010021403 Illusion Diseases 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 발명은 속성 벡터의 형태와 같이 입력 오디오 신호(IN)의 속성들(PV)에 기초하여 최적화된 인코딩 템플릿(OET)을 생성하도록 적응되는 최적화 수단(ET OPT)을 포함하는 오디오 인코더에 관한 것이다. 최적화된 인코딩 템플릿(OET)은 미리 결정된 인코딩 효율성 기준과 관련하여 최적화된다. 그에 따라, 인코딩 수단(ENC)은 최적화된 인코딩 템플릿(OET)과 관련하여 인코딩된 오디오 신호(OUT)를 생성한다. 오디오 인코더는 입력 신호(IN)에 기초하여 입력 신호 속성들(PV)의 세트를 생성하도록 적응되는 분석 수단(AN)을 포함한다. 양호한 실시예에서, 최적화 수단(ET OPT)은 인코딩 템플릿과 연관되는 결과적인 왜곡을 추정하도록 적응된다. 최적화 수단(ET OPT)은 추가로 인코딩 템플릿과 연관되는 비트 레이트를 추정할 수 있다. 일 실시예에서, 최적화 수단(ET OPT)은 입력 신호 속성들(PV)에 기초하여 다수의 서브 인코더들에 대한 비트 레이트 분배를 최적화하도록 적응된다. 또 다른 실시예에서, 최적화 수단(ET OPT)은 입력 신호 속성들(PV)에 기초하여 적응가능한 세분화를 업 프론트(up-front) 결정하도록 적응된다. 본 발명에 따른 인코더들은 최적의 인코딩 템플릿(OET)이 입력 신호 속성들(PV)에 기초하여 발견되기 때문에, 최적화된 인코딩 템플릿(OET)을 결정하기 이전에 복수의 인코딩들의 복잡한 프로세스들을 피할 수 있다는 점에서 유리하다.
인코딩 템플릿, 신호 속성들, 수학적 최적화 알고리즘
Description
본 발명은 고효율, 고품질 오디오 신호 코딩에 관한 것이다. 보다 구체적으로는, 본 발명은 입력 신호들에 적응가능한, 즉 레이트 왜곡 기준(rate-distortion criterion)과 관련하여 최적인 인코딩된 신호를 얻도록 최적화될 다수의 인코딩 세팅들을 갖는 오디오 코덱들의 클래스에 관한 것이다. 본 발명은 오디오 인코더 세팅들을 최적화하는 오디오 인코더 및 방법을 제공한다.
인코딩에서 중요한 문제는 각각의 입력 신호에 대해 가장 효율적인 표현을 발견하는 것이다. 오디오 신호들이 폭넓은 범위의 특징들을 나타낼 수 있고, 서로 다른 신호 특징들에 대해 서로 다른 인코딩 방법들이 가장 효율적이기 때문에, 유동적인 코덱들, 예로써 서로 다른 인코딩 방법들을 결합하는 코덱들을 사용하는 것이 바람직하다. 예를 들어, 오디오 신호들은 사인 곡선 부분 및 나머지로 분리 및 인코딩된다. 보통, 음조 신호들(tonal signals)은, 사인 곡선들로 구성되는 신호에 대해서는 특정 코딩 방법을 통해 코딩되고, 나머지 신호는 파형 또는 노이즈 인코더를 통해 인코딩된다. 결과적으로, 그러한 코덱들에서 어느 세팅들(또는 어느 인코딩 템플릿)을 사용할 것인지, 예로써 신호의 어느 부분을 어느 인코딩 방법에 따라 인코딩할 것인지가 결정되어야 한다. 그러한 결정은 전체 입력 신호, 즉 입력 신호 자체에 기초할 수 있고, 많은 인코딩 확률들을 시도한 후에, 각각의 확률에 대해 결과적인(인식 가능한) 왜곡을 계산한다. 그러나, 많은 서로 다른 인코딩 방법들을 결합하여 그에 따른 다수의 가능한 세팅들을 갖는 알려진 유동적이고 적응가능한 코덱들을 통해, 인코딩 세팅들에 대한 결정은 복잡성에 관한 문제가 된다.
또한, 단지 하나의 코딩 방법을 통한 대부분의 코덱들에서, 결정들은 입력 신호의 서로 다른 부분들에 대해 서로 다를 수 있는 인코더 세팅들과 관련해서 이루어져야 한다. 이것은 예를 들어 적응 가능한 시간 세분화를 통한 코덱들에 따른 경우이다. 세분화는 레이트 왜곡 최적화에 의해 적응될 수 있지만, 이것은 복잡성을 현저하게 증가시킨다. 또 다른 예는 파라메트릭(parametric), 사인 곡선 코딩에서 발견될 수 있다. 거기서, 얼마나 많은 사인 곡선들이 특정한 세그먼트에 할당될 것인지 결정되어야 하고, 최적의 수는 입력 신호에 의존한다. 또한, 변환 또는 서브 밴드 코덱들에서, 결정들은 양자화 레벨들 및 스케일 계수 밴드들(동일한 양자화 레벨들을 통해 코딩되는 주파수 밴드들의 그룹)과 관련하여 이루어져야 한다. 이러한 결정들은 서로 다른 주파수 밴드들에서 대응하는 코딩 에러들을 고려하여 전체 입력 신호에 기초한다.
특허 출원서 US 2004/0006644에서는 입력 신호를 트랜스코딩하는 방법을 기술하고 있다. 서로 다른 트랜스코딩 방법들은 트랜스코딩될 입력 신호에 의존하여 선택될 수 있다. US 2004/006644에서, 트랜스코딩될 입력 신호의 이전 설정된 속 성들에 기초하여 서로 다른 방법들 중에서 선택하는 것이 제안된다. 그러나, US 2004.0006644에서는 인코더 세팅들을 최적화하기 위한 어떠한 방법도 개시하지 않고 있다.
결론적으로, 본 기술 분야에서는 어떻게 최적화 인코더 세팅들을 결정할 것인지 또는 어느 인코딩 방법이 입력 신호의 어느 부분을 최상으로 코딩할 수 있는지에 대해 만족스럽게 응하지 못하고 있다. 그러므로, 고품질 오디오 코딩의 분야 내에 입력 신호에 대한 인코딩을 적응시키도록 인코딩 템플릿(또는 인코더 세팅들)을 효율적으로 최적화하는 방법에 대한 필요성이 존재한다.
따라서, 인코더 템플릿을 최적화하는 낮은 복잡성을 제공할 수 있는 오디오 인코딩 방법 및 오디오 인코더를 제공하고, 레이트 왜곡 기준과 관련하여 효율적인 인코딩된 신호를 제공하는 것이 본 발명의 목적으로 보여질 수 있다.
제 1 측면에 따라, 본 발명은 인코딩 템플릿에 따라 오디오 신호를 인코딩하도록 적응되는 오디오 인코더에 있어서,
상기 오디오 신호의 속성들의 미리 결정된 세트에 기초하여 최적화된 인코딩 템플릿을 생성하도록 적응되는 최적화 수단으로서, 상기 최적화된 인코딩 템플릿은 미리 결정된 코딩 효율성 기준과 관련하여 최적화되는, 상기 최적화 수단과,
상기 최적화된 인코딩 템플릿에 따라 인코딩된 오디오 신호를 생성하도록 적응되는 인코딩 수단을 포함하는, 상기 오디오 인코더를 제공한다.
용어 '인코딩 템플릿(encoding template)'은 특정 인코더에 대해 선택되어야 하는 파라미터들의 세트, 즉 세팅들로 이해된다. '최적화된 인코딩 템플릿(optimizaed encoding template)'은 일부 또는 모든 파라미터들이 미리 결정된 인코딩 효율성 기준과 관련하여 보다 최적인 인코딩된 출력 신호를 결과로 나타내도록 오디오 신호의 속성들의 미리 결정된 세트에 응답하여 선택 또는 수정되는 인코딩 템플릿으로 해석되어야 한다. '오디오 신호의 속성들의 미리 결정된 세트(predetermined set of properties of the audio signal)'는 오디오 신호의 신호 속성들을 기술하는 하나 이상의 파라미터들을 포함하는 오디오 신호의 파라메트릭 기술로 이해된다. 오디오 신호의 속성들의 미리 결정된 세트는 예로써 각각의 파라미터를 표현하는 스칼라 값들을 갖는 속성 벡터의 형태에 따를 수 있다.
오디오 신호의 속성들의 미리 결정된 세트를 사용함으로써, 예로써 속성 벡터에 의해, 오디오 인코더는 인코딩될 오디오 신호의 관련된 속성들의 이전 지식을 사용하여 인코딩 프로세스 동안 사용될 인코딩 템플릿을 최적화할 수 있다. 따라서, 오디오 인코더는 오디오 신호의 속성들의 미리 결정된 세트에 기초하여 레이트 및/또는 왜곡 측정을 추정하고, 그에 따라 오디오 신호를 실제로 인코딩하지 않으며 최적화된 인코딩 템플릿을 제공하는 것이 바람직하다. 다시 말해서, 예로써 입력 신호 속성 벡터를 사용하여 최적의 인코더 세팅들에 관한 결정들이 가능한 많은 수의 가능한 세팅들을 시도할 필요없이 수행될 수 있고, 최적의 인코딩 템플릿이 이루어질 수 있는 최종 결정 이전에 레이트 및 왜곡과 관련하여 결과적인 인코딩된 출력 신호를 모니터링할 수 있다.
이것은 낮은 복잡성을 갖는 인코더가 통상적인 인코더들과 비교하여 최적으로 템플릿을 인코딩하는 것을 가능하게 한다. 이것은 특히 최적의 레이트 왜곡 효율성을 달성하도록 최적화될 파라미터들의 큰 세트를 포함하는 인코딩 템플릿들을 갖는 인코딩 방식들에 대해 유리하다. 2개 또는 그 이상의 서브 인코더들을 포함하는 인코더들의 클래스가 일례이고, 그 경우 적어도 하나의 태스크는 최적의 레이트 왜곡 효율성을 획득하도록 서브 인코더들 사이에 비트 레이트 분배에 대해 결정하기 위한 것이다. 전체 입력 신호 및 (인식 가능한) 왜곡 측정을 사용하는 모든 가능한 인코딩 템플릿들 중의 철저한 검색이 최적일지라도, 이것은 아마도 비효율적이며 사용가능한 프로세싱 전력의 제한된 양을 통해 너무나 복잡하여 실현 불가능하다.
오디오 신호의 속성들의 세트를 표현하는 데이터가 속성 벡터 또는 속성 매트릭스와 같은 어떠한 종래의 방식에 따라 배치될 수 있다는 것이 이해되어야 한다.
오디오 인코더는 오디오 신호를 분석하고 그에 응답하여 오디오 신호의 속성들의 세트를 생성하도록 적응되는 분석 수단을 포함할 수 있다. 그러나, 오디오 신호의 속성들의 세트는 오디오 인코더 외부에 설정될 수 있다. 오디오 인코더는 그에 따라 오디오 신호의 속성들의 미리 결정된 세트와 함께 오디오 신호를 입력으로 수신하도록 적응된다.
최적화 수단은 오디오 신호의 속성들의 미리 결정된 세트에 기초하여 인코딩 템플릿과 연관되는 인식 가능한 왜곡을 예측하도록 적응되는 수단을 포함한다. '인코딩 템플릿과 연관된 왜곡(distortion associated with the encoding template)'은 인코딩 템플릿에 따라 오디오 신호를 인코딩함으로써 인코딩된 오디오 신호 및 오디오 신호 자체 사이의 결과적인 차이로 이해된다. '인식 가능한 왜곡(perceptual distortion)'은 무엇이 인간의 청취 시스템에 의해 인식되는가와 관련하여 관계된 왜곡의 측정, 즉 인식된 사운드 품질을 반영하는 왜곡의 측정으로 이해된다. 인식 가능한 왜곡 측정은 인간 마스킹 곡선 등의 표현과 같은 인식 가능한 모델에 기초하는 것이 바람직하다.
최적화 수단은 오디오 신호의 속성들의 미리 결정된 세트에 기초하여 인코딩 템플릿과 연관되는 비트 레이트를 예측하도록 적응되는 수단을 포함하는 것이 바람직하다.
최적화 수단은 오디오 신호의 속성들의 미리 결정된 세트에 기초하여 인코딩 템플릿과 연관되는 인식 가능한 왜곡 및 비트 레이트 모두를 예측하도록 적응되는 것이 더욱 바람직하다. 이에 따라, 인코더는 인식 가능한 왜곡과 관련하여 미리 결정된 최소 사운드 품질에서 가장 낮은 확률의 비트 레이트나 정해진 최대 타겟 비트 레이트에서 최상의 사운드 품질인 기준에 따라 인코딩 템플릿을 최적화할 수 있다.
오디오 신호의 속성들의 세트는 음조, 잡음, 조화, 안정성, 선형 예측 이득, 장기적 예측 이득, 스펙트럼 평탄도, 저주파 스펙트럼 평탄도, 고주파 스펙트럼 평탄도, 제로 교차 레이트, 음량, 음성 비율, 스펙트럼 중심, 스펙트럼 대역폭, Mel 켑스트럼, 프레임 에너지, ERB 대역들 1-10에 대한 스펙트럼 평탄도, ERB 대역들 10-20에 대한 스펙트럼 평탄도, ERB 대역들 20-30에 대한 스펙트럼 평탄도, 및 ERB 대역들 30-37에 대한 스펙트럼 평탄도로 구성되는 그룹으로부터 선택되는 적어도 하나의 속성을 포함하는 것이 바람직하다. 오디오 신호의 속성들의 미리 결정된 세트는 언급된 파라미터들 중 하나 이상을 표현하는 스칼라들을 갖는 속성 벡터를 포함한다. 그러나, 파라미터들의 몇 가지 다른 형태들이 사용될 수 있다는 것이 이해되어야 한다. 원리적으로, 파라미터를 기술하는 어떠한 신호도 선택될 수 있다. 그러나, 오디오 신호의 속성들의 미리 결정된 세트가 인식 가능하게 관련된 속성들, 즉 무엇이 인간의 청취 시스템에 의해 인식되는지와 관련하여 관계된 속성들을 포함하는 것이 바람직하다.
오디오 신호의 속성들의 미리 결정된 세트는 본 기술 분야에 알려진 표준 규정들에 의해 결정될 수 있는 속성들을 포함할 수 있다.
오디오 신호 속성들의 세트가 질의에 따라 특정 인코더에 대한 관련된 속성들을 고려하도록 구체적으로 디자인되는 것이 바람직할 수 있다. 예로써, 음조 및 잡음 파라미터들은 사인 곡선 인코더 부분 및 노이즈 인코더 부분을 갖는 결합된 인코더의 경우에 포함될 수 있다. 이에 따라, 비트 레이트 분배 태스크는 단순하게 되고 음조 및 잡음 파라미터로부터 쉽게 결정된다. 예로써, 매우 단순한 결정 기준은 음조 파라미터가 어떠한 값을 넘지 않는 경우에 사인 곡선 인코더 부분을 선택하기 위한 것일 수 있고, 그렇지 않은 경우 노이즈 인코더 부분이 선택된다. 그러나, 질의에 따른 특정 인코더의 이전 지식에 기초하여 심지어 오디오 신호를 기술하도록 단지 하나, 2개, 또는 수 개의 파라미터들을 통해 인코딩 동작을 정확하게 예측하는 것이 가능하다는 것이 이해되어야 한다.
오디오 인코더는 오디오 신호의 각각의 세그먼트에 대해 인코딩 템플릿을 최적화하도록 적응되는 것이 바람직하다. 따라서, 인코더는 과도들(transients)과 같은 오디오 신호에서 빠른 변화들을 트래킹할 수 있고, 그에 따라 그것의 인코딩 템플릿을 적응시킨다.
최적화 수단은 오디오 신호의 속성들의 세트에 기초하여 오디오 신호의 세분화를 최적화하도록 적응될 수 있다. 인코딩 템플릿과는 별개로, 그것은 적응 가능한 세분화를 사용하기에 효율적인 인코딩으로 증명되어 왔다. 오디오 신호의 신호 속성들에 기초하는 업 프론트(up-front) 적응가능한 세분화를 사용하여, 그러한 적응 가능한 세분화가 더욱 효율적으로 되었으며, 그 이유는 종래의 인코더에 있어서, 적응 가능한 세분화는 단지 인코딩 템플릿을 최적화하는 것과는 별개로 여분의 복잡한 최적화 태스크를 추가하기 때문이다.
최적화 수단은 미리 규정된 인코딩 템플릿들의 세트로부터 최적화된 인코딩 템플릿을 선택하도록 적응될 수 있다. 인코딩 템플릿 최적화 프로세스를 더욱 용이하게 하기 위해, 인코딩 템플릿들의 미리 규정된 세트가 전체 인코더 파라미터 공간의 대부분을 포함하는 것이 바람직할 수 있다. 최적화 태스크는 그에 따라 인코딩 파라미터들의 미리 규정된 세트를 추정하고 미리 결정된 인코딩 효율성 기준과 관련하여 최상의 것을 선택하기 위한 것일 수 있다.
양호한 실시예에서, 인코딩 수단은 제 1 및 제 2 서브 인코더들을 포함하며, 반면에 최적화 수단은 오디오 신호의 속성들의 미리 결정된 세트에 응답하여 제 1 및 제 2 서브 인코더들에 대한 제 1 및 제 2 인코딩 템플릿들을 최적화하도록 적응된다. 바람직한 경우, 오디오 인코더는 3, 4, 5, 10, 또는 심지어 더 많은 개별적 서브 인코더들을 포함할 수 있고, 오디오 신호의 속성들의 미리 결정된 세트에 기초하여 모든 서브 인코더들에 대해 인코딩 템플릿들을 최적화하도록 적응될 수 있다. 따라서, 이러한 실시예는 결합된 코덱들을 포함한다.
제 2 측면에 따라, 본 발명은,
상기 오디오 신호의 속성들의 미리 결정된 세트에 기초하여 최적화된 인코딩 템플릿을 생성하는 단계로서, 상기 최적화된 인코딩 템플릿은 미리 결정된 인코딩 효율성 기준과 관련하여 최적화되는, 상기 최적화된 인코딩 템플릿 생성 단계와,
상기 최적화된 인코딩 템플릿에 따라 인코딩된 오디오 신호를 생성하는 단계를 포함하는 오디오 신호 인코딩 방법을 제공한다.
본 발명의 제 1 측면에 대해 상기 기술된 바와 같은 동일한 설명 및 바람직한 변형들은 제 2 측면에도 적용된다.
제 3 측면에 따라, 본 발명은 오디오 신호를 인코딩하도록 적응되는 오디오 인코더의 인코딩 템플릿을 최적화하는 방법에 있어서,
상기 오디오 신호의 속성들의 미리 결정된 세트를 수신하는 단계와,
상기 오디오 신호의 속성들의 상기 미리 결정된 세트에 기초하여 미리 결정된 인코딩 효율성 기준에 관련한 상기 인코딩 템플릿을 최적화하는 단계를 포함하는 상기 인코딩 템플릿 최적화 방법을 제공한다.
속성 벡터를 사용하는 것과 같이, 오디오 신호의 속성들의 미리 결정된 세트에 기초하여 인코더에 대한 인코딩 템플릿을 최적화하는 것은 인코딩 템플릿들을 최적화하는 종래의 방법들보다 상당히 덜 복잡하게 그러한 최적화를 구성한다. 그 이유는 인코딩 효율성을 최적화하는 종래의 방법들이 실제로 인코딩된 오디오 신호에 대해 획득되는 결과적인 왜곡 및 필요한 비트 레이트에 기초하기 때문이다. 따라서, 그러한 종래 기술의 방법들은 인코딩 프로세스를 포함한다. 오디오 신호의 속성들의 미리 결정된 세트에 기초하는 최적화 방법에 의해, 최적화 방법에 따른 인코딩 프로세스가 제거된다. 이것은 특히 최적화될 다수의 세팅들을 갖는 인코더에서 유리하다. 대신에, 최적화는 정해진 인코딩 템플릿에 대한 비트 레이트의 예측 및 인지 가능한 왜곡 측정의 예측에 기초할 수 있다.
인코딩 템플릿에 따라 신호를 실제로 인코딩하는 것만큼 정확하지 않을지라도, 예측 정확성은 예로써 어느 데이터를 오디오 신호의 속성들의 미리 결정된 세트에 포함하려는지 신중하게 고려하고 질의들에 따라 인코더(들)의 정확한 모델을 설정함으로써 향상될 수 있다. 각각이 다수의 가능한 세팅들을 갖는 결합된 인코더들의 복합한 세트에 대해, 종래 기술의 방법들은 전체 파라미터 공간을 실제로 검사하는 것이 가능하지 않을 수 있지만 단지 열악하게 파라미터 공간을 포함할 수 있는 것과 같은 불량한 결과들을 제공할 수 있다. 반대로, 예측들은 전체 파라미터 공간을 포함하기에 충분히 빨라질 수 있고, 그에 따라 사용가능한 정해진 계산 전력이 제공되는 이론적으로 최적에 더 가까운 인코딩 템플릿을 결과적으로 나타낸다.
제 3 측면에 따른 방법은 오디오 신호를 분석하는 초기 단계를 포함할 수 있고, 그를 통해 그 오디오 신호의 미리 결정된 속성들의 세트를 생성할 수 있다.
최적화 단계는 인지 가능한 왜곡 측정을 예측하는 단계를 포함하는 것이 바람직하다(상기 규정들 참조).
최적화 단계는 비트 레이트를 예측하는 단계를 포함하는 것이 바람직하다. 최적화 단계는 인지 가능한 왜곡과 관련하여 미리 결정된 최소의 사운드 품질에서 가장 낮은 확률의 비트 레이트나 정해진 최대 타겟 비트 레이트에서 최상의 사운드 품질인 기준에 따라 인코딩 템플릿의 최적화를 가능하게 하도록 인지 가능한 왜곡 및 비트 레이트 모두를 예측하는 단계를 포함한다.
최적화 단계는 오디오 신호의 각각의 세그먼트에 대해 수행되는 것이 바람직하다.
최적화 단계는 오디오 신호의 속성들의 미리 결정된 세트에 기초하여 오디오 신호의 세분화를 최적화하는 단계를 포함하는 것이 바람직하다.
제 4 측면에 따라, 본 발명은 제 1 측면에 따른 오디오 인코더를 포함하는 디바이스를 제공한다. 그러한 디바이스는 고체 상태 오디오 디바이스, CD 플레이어, CD 레코더, DVD 플레이어, DVD 레코더, 하드디스크 레코더, 모바일 통신 디바이스, (휴대용) 컴퓨터들 등과 같은 오디오 디바이스인 것이 바람직하다. 그러나, 상기 디바이스는 또한 오디오 디바이스들과는 다른 디바이스들일 수 있다.
제 5 측면에 따라, 본 발명은 제 2 측면의 방법에 따라 오디오 신호를 인코딩하도록 적응되는 컴퓨터 판독가능 프로그램 코드를 제공한다.
제 6 측면에 따라, 본 발명은 제 3 측면의 방법에 따라 인코딩 템플릿을 최적화하도록 적응되는 컴퓨터 판독가능 프로그램 코드를 제공한다.
제 5 및 제 6 측면들에 따른 컴퓨터 판독가능 프로그램 코드는 신호 프로세서, 개인용 컴퓨터들 등을 위해 적응되는 소프트웨어 알고리즘들을 포함할 수 있다. 그것은 디스크나 메모리 카드 또는 메모리 스틱과 같은 휴대용 매체상에 존재할 수 있거나, ROM 칩 또는 디바이스에 저장되는 다른 방식에 따라 존재할 수 있다.
다음에 있어서, 본 발명은 첨부된 도면들을 참조로 하여 보다 상세히 기술된다.
도 1은 인코딩 세팅들이 인코딩된 신호의 결과적인 왜곡에 기초하여 고정되거나 반복적으로 조정되는 종래의 인코더를 도시한 도면.
도 2는 인코더 세팅들의 결정이 입력 신호의 이전 분석에 기초하는 경우에, 본 발명에 따른 인코더를 도시한 도면.
도 3은 인코딩 왜곡을 추정하기 위한 양호한 가우시안 혼합 기반 MMSE(minimum mean square error) 추정기를 도시한 도면.
도 4는 2개의 서브 인코더들 사이의 비트 레이트 왜곡이 인코딩된 신호의 왜곡을 추정함으로써 결정되는 종래의 결합된 인코더를 도시한 도면.
도 5는 2개의 서브 인코더들 사이의 비트 레이트 왜곡이 입력 신호의 속성들에 기초하여 결정되는 경우에, 본 발명에 따른 결합된 인코더를 도시한 도면.
도 6은 입력 신호의 적응 가능한 세분화가 입력 신호의 속성들에 기초하여 결정되는 경우, 본 발명에 따른 인코더를 도시한 도면.
본 발명이 다양한 수정들 및 대안적인 형태들에 적용되기 쉽고, 특정 실시예들은 도면들에서 예로써 도시되며 본 명세서에 상세히 기술될 것이다. 그러나, 본 발명이 개시된 특정한 형태들에 제한되도록 의도되지 않는다는 것을 이해해야 한다. 오히려, 본 발명은 첨부된 특허청구범위에 규정된 바와 같이 본 발명의 취지 및 범위 내에 포함되는 모든 수정들, 등가물들, 및 대안들을 포함하기 위한 것이다.
도 1은 입력 신호(IN)를 수신하고 그에 응답하여 인코딩된 출력 신호(OUT)를 생성하는 종래의 인코더(ENC)를 도시한 도면이다. 종래의 인코더(ENC)에 있어서, 인코더 세팅들 또는 인코딩 템플릿은 고정되거나 입력 신호의 인코딩을 포함하는 최적화 알고리즘에 기초한다. 각각이 입력 오디오 신호(IN)의 인코딩을 포함하는 서로 다른 인코딩 템플릿들이 시도되고, 각각의 인코딩 템플릿에 대해 예로써 각각의 인코딩 템플릿과 연관된 왜곡 및 비트 레이트가 모니터링되며, 최종적으로 가장 효율적인 인코딩 템플릿이 출력 신호(OUT)를 생성하기 위해 사용되도록 선택된다.
도 2는 양호한 오디오 인코더 실시예에 의한 본 발명의 원리를 도시한 도면이다. 입력 오디오 신호(IN)는 신호 분석 수단(AN)에 의해 수신되어 분석된다. 분석 수단(AN)은 오디오 신호(IN)의 속성들의 세트를 포함하는 속성 벡터(PV)를 응답에 따라 생성한다. 이러한 속성 벡터(PV)는 그에 따라 수신된 속성 벡터(PV)에 기초하여 최적화된 인코딩 템플릿(OET)을 생성하는 인코딩 템플릿 최적화 유닛(ET OPT)에 의해 수신된다. 최적화된 인코딩 템플릿(OET) 및 입력 오디오 신호(IN)는 그 후에 입력 오디오 신호(IN)의 인코딩된 버전인 인코딩된 출력 신호(OUT)를 생성하도록 인코더 수단(ENC)에 의해 사용된다.
따라서, 도 2의 오디오 인코더에서, 서로 다른 인코딩 구성들의 수학적 모델 및 속성 벡터(PV), 예를 들어 그것의 레이트 왜곡 성능은 최적화된 인코딩 템플릿(OET)을 생성하도록 사용된다. 그 다음으로, 모든 가능한 인코딩 템플릿들을 시도할 필요가 없으며, 그 이유는 속성 벡터(PV)가 이미 인코딩 템플릿들의 입력 형태 의존적 성능을 표시하기 때문이다. 도 1의 종래 인코더에 반하여, 본 발명에 따른 오디오 인코더는 입력 오디오 신호(IN)를 인코딩하지 않으며 인코더 수단에 대해 인코딩 템플릿을 최적화할 수 있지만, 입력 오디오 신호(IN)만의 속성들을 사용하여 최적의 인코딩 템플릿을 결정할 수 있다.
도 2의 도면에 도시된 분석 수단(AN)이 선택적인 것으로 이해되어야 한다. 따라서, 본 발명에 따른 오디오 인코더는 입력들로 입력 오디오 신호(IN) 및 속성 벡터(PV)를 수신하도록 적응될 수 있다.
속성 벡터(PV)의 애플리케이션은 효율적이며 최적화 프로세스에서 복잡성을 감소시킨다. 속성 벡터(PV)의 사용의 단점은 인코딩이 (다소) 하위 최적화(sub-optimal)될 수 있다는 것이다. 그러나, 오디오 코딩에서 현재 사용 중인 애드 혹 방법들(ad-hoc methods)은 최적의 해결책과는 훨씬 동떨어져 있을 가능성이 높다.
입력 오디오 신호의 속성들의 미리 결정된 세트의 애플리케이션은 동시에 사용될 수 있는 몇 가지 방식들에 따라 사용될 수 있다. 그것들은 다음에 따라 추가로 기술될 것이다. 단순화하기 위한 이유로, 입력 오디오 신호의 속성들의 미리 결정된 세트는 다음에 따라 속성 벡터로 표기된다.
제 1 실시예에서, 속성 벡터는 서로 다른 인코딩 템플릿들에 대해 인지 가능한 왜곡들과 같은 왜곡들, 예로써 서로 다른 인코딩 방법들의 조합, 또는 하나의 인코딩 템플릿들 내 서로 다른 세팅들을 추정하도록 사용된다. 이것은 복잡성과 관련하여 2개의 장점들, 1) 어떠한 실제 인코딩도 필요하지 않음, 2)(인식 가능한) 왜곡의 계산들에 대한 필요성이 존재하지 않음을 갖는다. 다시 말해서, 속성 벡터는 대응하는 왜곡의 실제 인코딩들 및 계산들 없이 (인식 가능한) 왜곡들을 얻도록 사용된다.
제 2 실시예에서, 속성 벡터는 하이브리드 인코더, 즉 몇 가지 인코딩 방법들 또는 서브 인코더들의 조합을 포함하는 인코더에서 어느 인코딩 방법에 의해 입력 신호의 어느 부분을 코딩할 것인지 직접적으로 결정하도록 사용된다. 이것은 이전 아이템보다 한 단계 더 나아가며, 이러한 경우에 속성 벡터는 코딩 방법들의 입력 형태 의존적 성능을 표시할 뿐만 아니라 어느 것(들)을 사용할지 또한 표시한다.
예를 들어, 입력 신호가 명확한 사인 곡선을 갖는다면, 이것을 모든 인코딩 방법들을 통해 인코딩하여 가장 효율적인 것을 선택할 필요가 없다. 반대로, 속성 벡터는 신호가 명확한 사인 곡선을 포함한다는 것을 표시하고, 그에 따라 어느 인코딩 방법이 사인 곡선 인코더와 같은 사인 곡선들을 효율적으로 인코딩할 수 있는지 검사하기에 충분하므로 그것을 통해 시작한다. 따라서, 속성 벡터를 조사한다면, 실제 인코딩 없이 어느 인코딩 방법이 입력 신호(의 일부분들)를 가장 효율적 으로 인코딩할 수 있는지 즉각적으로 명백해질 것이다. 속성 벡터는 또한 코딩 방법들 사이의 잠재적 상호작용들을 추정하도록 사용될 수 있다. 이러한 상호작용들에 대한 지식 또한 코덱의 효율적인 구성을 위해 중요하다.
제 3 실시예에서, 속성 벡터는 코덱들의 최적의 시간 변화 적응가능한 세분화를 추정하기 위한 것이다. 속성 벡터에 의해, 적응 가능한 세분화는 입력 신호의 시간 변화 특징들에 기초하여 업 프론트 세팅될 수 있고, 그것은 몇 가지 세분화 확률들의 효과를 조사하는 방법들과 비교하여 더 낮은 복잡성을 나타낸다.
3개의 언급된 실시예들이 이제부터 보다 상세히 기술될 것이다.
제 1 실시예는 동시적 왜곡 추정을 위한 속성 벡터 기반 방식이다. 프레임워크는 인코딩될 프레임으로부터 추출되는 속성 벡터에 기초하고, 그로부터 왜곡 추정이 수행된다. 보다 상세히 말해서, 코더(Q(.))에 대해 발생된 코딩 왜곡(θ)을 추정하는 태스크가 다뤄진다. 정해진 프레임(x)에 대해, 발생된 왜곡은,
으로 표기되며, 여기서 δ(.,.)는 적절한 왜곡 측정이다.
추정은 속성 추출(f(.)) 및 추정(g(.))으로 분리된다. 랜덤 입력 벡터(X)는 차원 감소된 랜덤 벡터(P)로 프로세싱되며, 그로부터 코딩 왜곡()의 추정()이 발견될 수 있다. 상기 방식의 목적은 공평한 추정을 수행하여 추정 에러 편차를 최소화하는 것이다.
그러한 방식의 성능은 속성 벡터의 선택에 크게 의존한다. 따라서, 속성 추출기에 대한 기본적 태스크(f(.))는 요구되는 추정기 정밀도에 대한 충분한 정보(σ2 Z), 즉 1991년, NY, 뉴욕, John Wiley & Sons, Elements of Information, T.M.Cover 및 J.A. Thomas에서 발견된 바와 같은 충분히 중요한 상호 정보(I(Θ;P))를 포함하는 속성들을 추출(P)하는 것이다.
추정기의 목적(g(.))은 속성 벡터(P=p)의 관찰에 기초하여 발생된 왜곡(θ)의 추정()을 찾기 위한 것이다. 이러한 태스크에 대한 MMSE(minimum mean square error estimator), 즉 하나의 최소화(σ2 Z)는 조건적 평균 추정기이다.
도 3은 2000년, (Delawan, WI, USA), Proc. IEEE Workshop Speech Coding, 117-119 페이지에서 J. Lindblom, J. Samuelsson, 및 P. Hedelin에 의한 "모델 기반 스펙트럼 예측(Model based spectrum prediction)"에 기술된 바와 같은 모델 기반 접근 방식을 사용하는 선택된 구현을 도시한 도면이다. 도 3에서, T O-L은 조인트 pdf,가 오프 라인 트레이닝되는 것을 표시한다. 조인트 pdf,에 대한 GMM(Gaussian mixture model)을 활용하면, 각각의 코딩 인스턴트에서 MMSE는,
에 접근하며, 여기서 는 가우시안 밀도들의 혼합으로 보여질 수 있는 조건적 모델 pdf이며, 조인트 모델 pdf,로부터 쉽게 유도된다. 실제로, 이러한 추정기는 조건적 평균의 가중된 합을 계산하고,
여기서 M은 혼합 구성요소들의 수이며, {ρ'i} 및 {mi,Θ|P=p}는 각각 조건적인 모델 pdf, 의 평균 및 가중치들을 표현한다. 추정기 출력은 모델 pdf가 실제 pdf에 접근하는 것과 같이, 식(3)과 비교하여 실제 조건 평균에 접근할 것이다.
인코딩 및 왜곡 계산 대신에 왜곡 추정에 의해 얻어지는 복잡성 감소는 3가지 인자들, 속성 벡터를 사용하는 왜곡 추정의 복잡성, 인코딩 방법의 복잡성, 및 왜곡 계산의 복잡성에 의존한다.
왜곡 추정의 복잡성은 명확하게 사용되는 모델에 의존한다. 상기 설명된 실시예에 대해, 각각의 RD 포인트가 독립적인 것으로 가정하면, 복잡성은 로 언급될 수 있고, 여기서 NRD는 RD 포인트들의 수이고, Nmixt는 혼합물들의 수이고, Cproduct는 매트릭스 벡터 내적의 복잡성이며, Cpdf는 가우시안 pdf 평가의 복잡성이다. 매트릭스 벡터 내적은 활용되는 속성 벡터의 '차원(dimension)'을 갖지만, 그 매트릭스는 대칭이므로 복잡성은 그에 따라 그것의 대략 절반으로 감소될 수 있다.
인코딩 방법의 복잡성은 코덱으로부터 코덱까지 사용되어 폭넓게 변경되는 방법에 의존한다. 그럼에도 불구하고, 이러한 복잡성은 왜곡 추정의 것보다 더 높은 것으로 예상된다.
구현된 추정 방식은 추정될 왜곡(Θ)으로 발생된 SNR(Signal to Noise Ration)을 사용하여 인코더(Q(.))와 같은 CELP(Code-Excited Linear Prediction)에 대해 평가되어 왔다. 6개의 서로 다른 속성 벡터들, 10차 선형 예측 이득(GLPC)과, 장기적 예측 이득(GLTP)과, 스펙트럼 평탄도(G)와, 저주파 스펙트럼 평탄도(Glow)와, 고주파 스펙트럼 평탄도(Ghigh)와, LPC 및 LTP 이득의 조합(GLPCGLTP)에 대해 검사되어 왔다. 모든 추정기들은 32 혼합 모델들에 기초하였고, 그 결과들은 개별적 평가 및 트레이닝 세트들을 사용하여 Timit 음성 데이터베이스상에서 평가되었다.
그 결과들은 상호 정보(I(Θ;P))에 따라 감소되는 추정 에러 편차(σ2 Z)가 활용되는 속성 벡터(P)에서 증가되는 것이었다. 따라서, 실제 왜곡에 대한 근접성은 활용되는 속성 벡터의 상호 정보(I(Θ;P))를 통해 증가하였다. 그 결과들은 충분히 중요한 상호 정보(I(Θ;P))를 갖는 속성 벡터를 제공받는 매우 정밀한 추정이 수행될 수 있다는 것을 보여준다. 그 결과들은 인코딩 구성들의 입력 형태 의존적 성능을 표시하도록 속성 벡터를 사용하는데 따른 편리함을 증명하고, 그에 따라 복잡성을 감소시킨다.
속성 벡터 방식은 또한 프레임 당 30개 사인 곡선들을 사용하여 사인 곡선 인코더에 대해 평가되어 왔다. 인코더는 2002년, (Orlando, FL, USA), Proc. IEEE Int. Conf. Acoust., Speech and Signal Proc., vol.2, 1809-1812 페이지, R., Heusdens 및 S. van de Par에 의한 "정신음향평가 매칭 추적들을 사용하는 오디오 및 음성의 레이트 왜곡 최적화 사인 곡선 모델링(Rate-distortion optimal sinusoidal modeling of audio and speech using psychoacoustical matching pursuits)"에서 발견되는 정신음향 매칭 추적에 기초하고, 추정될 왜곡(Θ)으로 2002년, (Orlando, FL, USA), Proc. Proc IEEE Int. Conf. Acoust., Speech, and Signal Proc., vol. 2, 1805-1808 페이지, S. van de Par, S. Kohlrausch, A. Charestan, 및 R. Heusdens에 의한 "오디오 코딩 애플리케이션들에 대한 새로운 정신음향 마스킹 모델(A new psychoacoustical masking model for audio coding applications)"에서 발견되는 바와 같이 인식 가능한 스펙트럼 왜곡 측정을 사용한다.
8개의 서로 다른 속성 벡터들, ZCR(zero crossing rate), L(loudness), V(voicing ratio), SC(spectral centroid), BW(spectral bandwidth), SF(spectral flatness), 12차 MFCC(Mel cepstrum), 및 L+SF+SC+BW 조합에 기초하는 4차원 속성 벡터에 대해 검사된다. 모든 추정기들은 16 혼합 모델들에 기초하고, 그 결과들은 평가 및 트레이닝 세트로 분리되는 35ms의 9000.000 프레임들을 포함하는 오디오 데이터베이스상에서 평가되었다. 또한, 이러한 구현에 대해 그 결과들은 충분히 중요한 상호 정보(I(Θ;P))를 갖는 속성 벡터를 제공받는 높은 정밀도를 통해 왜곡을 추정하는 것이 가능한 것으로 표시하였다.
다음에 따라, 제 2 실시예는 입력 신호의 어느 부분이 하이브리드 인코더에 서 어느 인코딩 방법에 의해 인코딩될지를 결정하도록 속성 벡터가 사용되는 경우를 기술할 것이다.
상기 실시예의 하이브리드 인코더는 2개의 인코딩 방법들, 사인 곡선 인코더 다음에 따르는 변환 인코더를 포함한다. 사인 곡선 인코더는 제 1 실시예와 관련하여 기술되는 것과 유사하다. 변환 인코더는 1992년 4월, IEEE Trans. Signal Processing, vol. 40, no. 4, 770-783 페이지, R. D. Koilpillai 및 P.P. Vaidyanathan에 의한 "완전한 재구성을 만족시키는 코사인 변조된 퍼 필터 뱅크들(Cosine-modulated fir filter banks satisfying perfect reconstruction)"에서 발견되는 바와 같이 MDCT 필터 뱅크에 기초하여 사인 곡선 인코더의 나머지를 코딩한다. 키 질의는 어느 신호 구성요소가 사인 곡선 인코더에 의해 인코딩할 것인지 변환 인코더에 의해 어느 구성요소를 인코딩할 것인지에 관한 거이다. 이러한 실시예에서, 이러한 질의는 사용가능한 비트 버지트(bit budget)의 어느 부분을 사인 곡선 인코더에 의해 소모할 것인지와 어느 부분을 변환 인코더에 의해 소모할 것인지를 해석한다.
도 4는 종래의 접근 방식을 도시한 도면이다. 입력 신호(IN)는 사인 곡선 인코더(SENC)가 인코딩할 수 없는 것을 인코딩하도록 결과적으로 의도되는 변환 인코더(TENC)에 나머지 신호(res)를 전달하는 사인 곡선 인코더(SENC)에 적용된다. 레이트 왜곡 최적화 유닛(R-D OPT)은 2개의 인코더들(SENC, TENC)에 대해 비트 레이트들(R-SE, R-TE)을 각각 분배한다. 응답에 따라, 최적화 유닛(R-D OPT)은 마지막 인코더(TENC)로부터 결과적인 왜곡(D)을 수신한다. 몇 가지 서로 다른 비트 왜 곡들(R-SE, R-TE)이 시도되고, 그에 따라 최적의 것, 즉 가장 낮은 왜곡(D)을 결과로 나타내는 것이 레이트 왜곡 최적화 유닛(R-D OPT)에 의해 선택되며, 그 다음으로 이러한 분배(R-SE, R-TE)가 인코딩된 출력 신호(OUT)를 생성하도록 사용된다.
선택된 예에서, 다음의 비트 분배들은 SENC(sinusoidal encoder)에 대해 100% 및 TENC(transform encoder)에 대해 0%와, 75% SENC 및 25% TENC와, 50% SENC 및 50% TENC와, 25% SENC 및 75% TENC와, 0% SENC 및 100% TENC로 시도된다. 신호는 서로 다른 비트 분배들을 사용하여 인코딩되고, 결과적인 파라미터들로부터 신호는 대응하는 인식가능한 왜곡을 결정하도록 종합된다. 이것에 대해, 2002년, (Orlando, Florida, USA), Proc. Proc. IEEE Int. Conf. Acoust., Speech, and Signal Proc., S. van de Par, A. Kohlrausch, G. Charestan 및 R. Heusdens에 의한 "오디오 코딩 애플리케이션들에 대한 새로운 정신음향 마스킹 모델(A new psychoacoustical masking model for audio coding applications)"가 사용되며, 그것은 입력 신호의 스펙트럼 청각적 마스킹 속성들을 사용한다. 최적화 알고리즘은 가장 낮은 인식가능한 왜곡을 결과로 나타내는 그러한 비트 분배를 선택한다.
도 5는 본 발명에 따른 접근 방식을 도시한 도면이다. 도 4의 종래 접근 방식으로부터의 차이는 상기 기술된 바와 같이 속성 벡터(PV)가 2개의 인코더들(SENC, TENC)에 대해 최적의 비트 분배들(R-SE, R-TE)을 결정하는 비트 레이트 최적화 유닛(R-OPT)으로 입력된다는 것이다. 제시된 실시예에서, 분석 유닛(AN)은 입력 신호(IN)를 분석하고 그에 응답하여 속성 벡터(PV)를 생성한다. 서로 다른 비트 분배들을 시도하는 대신에, 최적의 분배(R-SE, R-TE)가 이러한 속성 벡터(PV) 를 사용하여 추정된다.
어느 속성들이 이러한 태스크에 대해 유용한지를 결정하기 위해, 12개 속성 벡터들, 8개 1차원 벡터들(제로 교차 레이트, L(loudless), 보이싱 비율, 스펙트럼 중심, BW(spectral bandwidth), 스팩트럼 평탄도, 프레임 에너지, LPC 평탄도), 2개의 4차원 벡터들(L+BW 및 SFERB: ERB 대역 1-10, 10-20, 20-30, 30-37에 대한 스펙트럼 평탄도), 2개의 4차원 속성 벡터들의 조합에 기초하는 하나의 8차원 벡터, 및 하나의 12차원 벡터(12차 멜 켑스트럼)가 검사되었다. 가우시안 혼합 모델은 상기 기술된 바와 같이 비트 분배들을 추정하도록 사용된다. 모든 추정기들은 32 혼합 모델들에 기초하고, 그것들은 43ms의 6.000 프레임들을 포함하는 오디오 데이터베이스를 사용하여 트레이닝된다. 최상의 결과들은 여러 차원 속성 벡터들을 사용하여 얻어진다. 그러므로, 4차원 속성 벡터(SFERB)는 트레이닝을 위해 사용되는 것과는 서로 다른 데이터베이스를 사용하여 평가를 위해 사용된다.
도 4 및 도 5의 2개 접근 방식들의 비교가 수행되었다. 결과적인 인식가능한 왜곡들은 2002년, (Orlando, Florida, USA), Proc. Proc. IEEE Int. Conf. Acoust., Speech, and Signal Proc., S. van de Par, A. Kohlrausch, G. Charestan 및 R. Heusdens에 의한 "오디오 코딩 애플리케이션들에 대한 새로운 정신음향 마스킹 모델(A new psychoacoustical masking model for audio coding applications)"에서 발견되는 왜곡 측정을 사용하여 프레임 당 결정되었다. 2개의 접근 방식들은 비트 분배들을 결정하기 위해 속성 벡터를 사용하는 따른 편의성을 표시하는 유사한 왜곡들을 결과로 나타낸다.
그러나, 도 5에 도시된 실시예는 몇 가지 방식들에 따라, 예를 들어 보다 양호한 속성들을 사용하거나 도 3에 도시된 가우시안 혼합 모델을 향상시킴으로써 향상될 수 있다. 후자의 예들은 보다 많은 혼합들을 사용하고, 0 및 100% 사이에서 추정기의 가능한 결과들을 한정하고(최신의 추정기는 가우시안들에 기초하며 가우시안은 어떠한 값도 취할 수 있다), 모델들의 태스크를 변경한다(0 내지 100% 사이 퍼센트들을 추정하는 대신에, 클래스들 0, 25, 50, 75, 100로 프레임들을 분류할 수 있다). 그리고, 또 다른 모델은 가우시안 혼합 모델 대신에 사용될 수 있다.
서로 다른 코덱 전략들(SENC, TENC) 중에서 비트 분배들(R-SE, R-TE)의 추정을 위한 속성 벡터(PV)의 사용은 이러한 분배가 레이트 왜곡 최적화에 의해 결정되는 코덱과 비교하여 현저하게 계산상 복잡성을 감소시킨다. 언급된 실시예에서, 복잡성은 최적화에 따라 검사되는 비트 왜곡들의 수와 같은 인자에 의해 감소된다. 그러므로, 복잡성은 언급된 예에서 5의 인자에 의해 감소된다.
도 6은 업 프론트 OSEG(optimised segmentation)을 결정하기 위한 속성 벡터(PV) 기반 방식이 입력 신호(IN)에 적응되는 제 3 실시예를 도시한 도면이다.
적응 가능한 세분화 OSEG와 관련하여 세분화 최적화 유닛(SEG OPT)에 따른 결정들은 속성 벡터(PV)와 서로 다른 세분화들의 모델, 예를 들어 그것들의 레이트 왜곡 성능에 기초한다. 그에 따라, 최적화된 세분화(OSEG)는 입력 신호(IN)와 함께 인코더(ENC)에 적용되고, 인코딩된 출력 신호(OUT)가 생성될 수 있다. 그에 따라, 모든 서로 다른 세분화 확률들을 인코딩할 필요가 없으며, 그 이유는 속성 벡터(PV)가 이미 세분화들의 입력 형태 의존 성능을 표시하기 때문이다.
실제로, 업 프론트 세분화를 위한 속성 벡터의 사용은 레이트 왜곡 추정의 것과 유사하다. 제 1 실시예에 대해 기술된 바와 동일한 방식에 따라, 속성 벡터는 최상의 성능을 갖는 것을 선택하여 서로 다른 세분화 확률들의 레이트 왜곡 성능을 추정하도록 사용될 수 있다.
업 프론트 적응가능한 시간 세분화를 위한 속성 벡터의 사용은 완전한 레이트 왜곡 최적화에 따라 레이트 왜곡과 비교하여 현저히 계산상의 복잡성을 감소시킨다. 복잡성은 (속성 벡터에 의해 유입되는 여분의 복잡성을 무시하여) 허용되는 서로 다른 세그먼트 길이들의 수와 대략 같은 인자에 의해 감소된다. 예를 들어, 적응 가능한 세분화를 갖는 사인 곡선 인코더에서 4개의 서로 다른 세그먼트 길이들, 10.7, 16.0, 21.3, 및 26.8ms이 허용된다고 가정한다. 그에 따라, 복잡성은 업 프론트 세분화에 의해 4의 인자에 따라 감소된다.
이해되는 바와 같이, 본 발명에 따른 인코딩 원리들은 고체 상태 오디오 디바이스들, CD 플레이어들/레코더들, DVD 플레이어들/레코더들, 모바일 통신 디바이스들, (휴대용) 컴퓨터들, 인터넷상에서와 같은 오디오의 멀티미디어 스트리밍 등과 같은 애플리케이션들의 넓은 범위 내에 적용될 수 있다.
특허청구범위에 있어서, 도면들에 대한 참조 부호들은 단지 명확성을 위한 이유로 포함된다. 도면들에서 예시적인 실시예들에 따른 이러한 참조들은 특허청구범위를 제한하는 것으로 해석되지 않아야 한다.
Claims (13)
- 인코딩 템플릿(encoding template)에 따라 오디오 신호(IN)를 인코딩하도록 적응되는 오디오 인코더에 있어서,상기 오디오 신호(IN)의 속성들(PV)의 미리 결정된 세트에 기초하여 최적화된 인코딩 템플릿(OET)을 생성하도록 적응되는 최적화 수단(ET OPT)으로서, 상기 최적화된 인코딩 템플릿(OET)은 미리 결정된 인코딩 효율성 기준과 관련하여 최적화되는, 상기 최적화 수단(ET OPT); 및상기 최적화된 인코딩 템플릿(OET)에 따라 인코딩된 오디오 신호(OUT)를 생성하도록 적응되는 인코딩 수단(ENC)을 포함하는, 오디오 인코더.
- 제 1 항에 있어서,상기 오디오 신호(IN)를 분석하고, 그에 응답하여 상기 오디오 신호(IN)의 속성들(PV)의 세트를 생성하도록 적응되는 분석 수단(AN)을 더 포함하는, 오디오 인코더.
- 제 1 항에 있어서,상기 최적화 수단(ET OPT)은 상기 오디오 신호(IN)의 속성들(PV)의 상기 미리 결정된 세트에 기초하여 상기 인코딩 템플릿과 연관된 인식 가능한 왜곡을 예측하도록 적응되는 수단을 포함하는, 오디오 인코더.
- 제 1 항에 있어서,상기 오디오 신호(IN)의 속성들(PV)의 세트는 음조(tonality), 잡음(noisiness), 조화(harmonicity), 안정성(stationarity), 선형 예측 이득(linear prediction gain), 장기적 예측 이득(long-term prediction gain), 스펙트럼 평탄도(spectral flatness), 저주파 스펙트럼 평탄도(low-frequency spectral flatness), 고주파 스펙트럼 평탄도(high-frequency spectral flatness), 제로 교차 레이트(zero crossing rate), 음량(loudness), 보이싱 비율(voicing ratio), 스펙트럼 중심(spectral centroid), 스펙트럼 대역폭(spectral bandwidth), 멜 켑스트럼(Mel cepstrum), 프레임 에너지(frame energy), ERB 대역들 1-10에 대한 스펙트럼 평탄도, ERB 대역들 10-20에 대한 스펙트럼 평탄도, ERB 대역들 20-30에 대한 스펙트럼 평탄도, 및 ERB 대역들 30-37에 대한 스펙트럼 평탄도로 구성된 그룹으로부터 선택되는 적어도 하나의 속성을 포함하는, 오디오 인코더.
- 제 1 항에 있어서,상기 오디오 신호의 각 세그먼트에 대해 상기 인코딩 템플릿을 최적화하도록 적응되는, 오디오 인코더.
- 제 1 항에 있어서,상기 예측 수단(ET OPT)은 상기 오디오 신호(IN)의 속성들(PV)의 세트에 기 초하여, 상기 인코딩 템플릿과 연관되는 결과적인 비트 레이트를 예측하도록 적응되는 수단을 더 포함하는, 오디오 인코더.
- 제 1 항에 있어서,상기 최적화 수단(ET OPT)은 상기 오디오 신호의 속성들(PV)의 세트에 기초하여 상기 오디오 신호의 세분화(segmentation)를 최적화하도록 적응되는, 오디오 인코더.
- 제 1 항에 있어서,상기 최적화 수단(ET OPT)은 미리 규정된 인코딩 템플릿들의 세트로부터 상기 최적화된 인코딩 템플릿(OET)을 선택하도록 적응되는, 오디오 인코더.
- 제 1 항에 있어서,상기 인코딩 수단은 제 1 (SENC) 및 제 2 (TENC) 서브 인코더들을 포함하며, 상기 최적화 수단(R-OPT)은 상기 오디오 신호(IN)의 속성들(PV)의 상기 미리 결정된 세트에 응답하여 상기 제 1 (SENC) 및 제 2 (TENC) 서브 인코더들에 대해 최적화된 제 1 (R-SE) 및 제 2 (R-TE) 인코딩 템플릿들을 생성하도록 적응되는, 오디오 인코더.
- 오디오 신호(IN)를 인코딩하는 방법에 있어서,상기 오디오 신호(IN)의 속성들(PV)의 미리 결정된 세트에 기초하여 최적화된 인코딩 템플릿(OET)을 생성하는 단계로서, 상기 최적화된 인코딩 템플릿(OET)은 미리 결정된 인코딩 효율성 기준과 관련하여 최적화되는, 상기 최적화된 인코딩 템플릿(OET)을 생성하는 단계; 및상기 최적화된 인코딩 템플릿(OET)에 따라 인코딩된 오디오 신호(OUT)를 생성하는 단계를 포함하는, 오디오 신호(IN) 인코딩 방법.
- 오디오 신호(IN)를 인코딩하도록 적응되는 오디오 인코더의 인코딩 템플릿(OET)을 최적화하는 방법에 있어서,상기 오디오 신호(IN)의 속성들(PV)의 미리 결정된 세트를 수신하는 단계; 및상기 오디오 신호(IN)의 속성들(PV)의 상기 미리 결정된 세트에 기초하여, 미리 결정된 인코딩 효율성 기준과 관련하여 상기 인코딩 템플릿(OET)을 최적화하는 단계를 포함하는, 인코딩 템플릿(OET) 최적화 방법.
- 제 1 항에 따른 오디오 인코더를 포함하는 디바이스.
- 제 10 항의 방법에 따른 오디오 신호를 인코딩하도록 적응되는 컴퓨터 판독가능 프로그램 코드.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP04105545 | 2004-11-05 | ||
EP04105545.0 | 2004-11-05 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20070085788A true KR20070085788A (ko) | 2007-08-27 |
Family
ID=35965990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020077012691A KR20070085788A (ko) | 2004-11-05 | 2005-11-02 | 신호 속성들을 사용한 효율적인 오디오 코딩 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20090063158A1 (ko) |
EP (1) | EP1815463A1 (ko) |
JP (1) | JP2008519308A (ko) |
KR (1) | KR20070085788A (ko) |
CN (1) | CN101053020A (ko) |
WO (1) | WO2006048824A1 (ko) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7818168B1 (en) * | 2006-12-01 | 2010-10-19 | The United States Of America As Represented By The Director, National Security Agency | Method of measuring degree of enhancement to voice signal |
KR101411900B1 (ko) * | 2007-05-08 | 2014-06-26 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 장치 |
CN101221766B (zh) * | 2008-01-23 | 2011-01-05 | 清华大学 | 音频编码器切换的方法 |
GB0915766D0 (en) * | 2009-09-09 | 2009-10-07 | Apt Licensing Ltd | Apparatus and method for multidimensional adaptive audio coding |
US9047875B2 (en) * | 2010-07-19 | 2015-06-02 | Futurewei Technologies, Inc. | Spectrum flatness control for bandwidth extension |
PL2951820T3 (pl) * | 2013-01-29 | 2017-06-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Urządzenie i sposób wyboru jednego spośród pierwszego algorytmu kodowania i drugiego algorytmu kodowania |
WO2024194336A1 (en) * | 2023-03-21 | 2024-09-26 | Telefonaktiebolaget Lm Ericsson (Publ) | Coding of granular synthesis databases |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0111612B1 (fr) * | 1982-11-26 | 1987-06-24 | International Business Machines Corporation | Procédé et dispositif de codage d'un signal vocal |
EP0556354B1 (en) * | 1991-09-05 | 2001-10-31 | Motorola, Inc. | Error protection for multimode speech coders |
US5341456A (en) * | 1992-12-02 | 1994-08-23 | Qualcomm Incorporated | Method for determining speech encoding rate in a variable rate vocoder |
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
US6240386B1 (en) * | 1998-08-24 | 2001-05-29 | Conexant Systems, Inc. | Speech codec employing noise classification for noise compensation |
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
US6937979B2 (en) * | 2000-09-15 | 2005-08-30 | Mindspeed Technologies, Inc. | Coding based on spectral content of a speech signal |
US6785645B2 (en) * | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
FR2837330B1 (fr) * | 2002-03-14 | 2004-12-10 | Canon Kk | Procede et dispositif de selection d'une methode de transcodage parmi un ensemble de methodes de transcodage |
AUPS270902A0 (en) * | 2002-05-31 | 2002-06-20 | Canon Kabushiki Kaisha | Robust detection and classification of objects in audio using limited training data |
-
2005
- 2005-11-02 US US11/718,242 patent/US20090063158A1/en not_active Abandoned
- 2005-11-02 WO PCT/IB2005/053570 patent/WO2006048824A1/en active Application Filing
- 2005-11-02 KR KR1020077012691A patent/KR20070085788A/ko not_active Application Discontinuation
- 2005-11-02 JP JP2007539679A patent/JP2008519308A/ja active Pending
- 2005-11-02 EP EP05797846A patent/EP1815463A1/en not_active Withdrawn
- 2005-11-02 CN CNA2005800379089A patent/CN101053020A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP1815463A1 (en) | 2007-08-08 |
JP2008519308A (ja) | 2008-06-05 |
CN101053020A (zh) | 2007-10-10 |
WO2006048824A1 (en) | 2006-05-11 |
US20090063158A1 (en) | 2009-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101903945B (zh) | 编码装置、解码装置以及编码方法 | |
KR100883656B1 (ko) | 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치 | |
US20060064301A1 (en) | Parametric speech codec for representing synthetic speech in the presence of background noise | |
US20070118370A1 (en) | Methods and apparatuses for variable dimension vector quantization | |
CN102089803A (zh) | 用以将信号的不同段分类的方法与鉴别器 | |
KR20080101872A (ko) | 부호화/복호화 장치 및 방법 | |
CN107077857B (zh) | 对线性预测系数量化的方法和装置及解量化的方法和装置 | |
US20130214943A1 (en) | Low bit rate signal coder and decoder | |
KR20070085788A (ko) | 신호 속성들을 사용한 효율적인 오디오 코딩 | |
JP2008519308A5 (ko) | ||
Gupta et al. | Towards controllable audio texture morphing | |
CA2671068C (en) | Multicodebook source-dependent coding and decoding | |
EP3252758B1 (en) | Encoding apparatus, decoding apparatus, and methods, programs and recording media for encoding apparatus and decoding apparatus | |
Özaydın et al. | Matrix quantization and mixed excitation based linear predictive speech coding at very low bit rates | |
Korse et al. | Entropy Coding of Spectral Envelopes for Speech and Audio Coding Using Distribution Quantization. | |
Byun et al. | Perceptual improvement of deep neural network (DNN)-speech coder using parametric and non-parametric density models | |
JP3490324B2 (ja) | 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体 | |
JP3471889B2 (ja) | 音声符号化方法及び装置 | |
RU2823081C1 (ru) | Способы и система для кодирования на основе формы сигналов аудиосигналов с помощью порождающей модели | |
EP0713208A2 (en) | Pitch lag estimation system | |
US20220392458A1 (en) | Methods and system for waveform coding of audio signals with a generative model | |
JP3192051B2 (ja) | 音声符号化装置 | |
Ozaydin | Residual Lsf Vector Quantization Using Arma Prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid |