KR101987565B1 - 오디오 파라미터 양자화 - Google Patents
오디오 파라미터 양자화 Download PDFInfo
- Publication number
- KR101987565B1 KR101987565B1 KR1020177008309A KR20177008309A KR101987565B1 KR 101987565 B1 KR101987565 B1 KR 101987565B1 KR 1020177008309 A KR1020177008309 A KR 1020177008309A KR 20177008309 A KR20177008309 A KR 20177008309A KR 101987565 B1 KR101987565 B1 KR 101987565B1
- Authority
- KR
- South Korea
- Prior art keywords
- audio signal
- audio
- quantization
- error
- quantized
- Prior art date
Links
- 238000013139 quantization Methods 0.000 title claims abstract description 319
- 230000005236 sound signal Effects 0.000 claims abstract description 137
- 238000000034 method Methods 0.000 claims abstract description 98
- 230000003044 adaptive effect Effects 0.000 claims abstract description 71
- 230000001419 dependent effect Effects 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 23
- 230000003595 spectral effect Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 230000003247 decreasing effect Effects 0.000 claims 2
- 230000006870 function Effects 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 9
- 238000012795 verification Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
오디오 인코딩을 위한 기법이 개시된다. 일 실시예에 따르면, 이 기법은 오디오 신호 세그먼트의 오디오 파라미터의 비예측성 양자화로 인해 발생하는 에러를 서술하는 제1 양자화 에러를 도출하는 것과, 상기 오디오 신호 세그먼트의 상기 오디오 파라미터의 예측성 양자화로 인해 발생하는 에러를 서술하는 제2 양자화 에러를 도출하는 것과, 상기 오디오 파라미터가 제공되어 상기 예측성 양자화로 양자화되는 상기 오디오 신호 세그먼트에 선행하는 연속적인 오디오 신호 세그먼트의 개수에 종속적인 적어도 적응성 마진만큼 상기 제2 양자화 에러가 상기 제1 양자화 에러를 초과하는지를 결정하는 것과, 적어도 상기 결정의 결과가 긍정적인 경우, 상기 비예측성 양자화로 양자화된 상기 오디오 신호 세그먼트의 오디오 파라미터를 인코딩된 오디오 신호의 일부로서 제공하는 것과, 그렇지 않은 경우, 상기 예측성 양자화로 양자화된 상기 오디오 신호 세그먼트의 오디오 파라미터를 인코딩된 오디오 신호의 일부로서 제공하는 것을 포함한다.
Description
본 발명의 예 및 비제한적인 실시예는 일반적으로는 오디오 코딩의 분야에 관한 것이고, 보다 구체적으로는 오디오 양자화의 분야에 관한 것이다.
오디오 인코더 및 디코더는 통신, 멀티미디어 및 저장 시스템에서 다양한 애플리케이션용으로 사용된다. 오디오 인코더는 가령 음성과 같은 오디오 신호를 인코딩하기 위해, 특히 오디오 신호의 효율적인 송신 또는 저장을 가능하게 하기 위해 사용되는 반면, 오디오 디코더는 수신된 인코딩된 신호에 기반하여 합성된 신호를 구성한다. 오디오 인코더 및 오디오 디코더의 쌍은 오디오 코덱으로 지칭된다.
따라서, 오디오 코덱을 구현할 때, 합성된 오디오 신호의 고품질을 유지하면서도 송신 및 저장 용량을 절감시키는 것이 목표로 되고 있다. 특히, 모바일 및 VoIP 애플리케이션의 경우, 송신 에러의 측면에서의 견고성이 또한 중요하다. 한편, 오디오 코덱의 복잡성은 애플리케이션 플랫폼의 프로세싱 전력에 의해 제한된다.
(음성 인코더 및 음성 디코더를 포함하는) 음성 코덱은 음성 신호의 인코딩 및 디코딩에 특히 맞춤화되어 있는 오디오 코텍으로 간주될 수 있다. 전형적인 음성 인코더에서, 입력 음성 신호는 프레임으로 지칭되는 세그먼트로 처리된다. 전형적으로, 프레임 길이는 10 내지 30 ms인 반면, 바로 후속하는 프레임의 초기에 5 내지 15 ms를 차지하는 룩어헤드 세그먼트(lookahead segment)는 추가적으로 상기 코더용으로 이용될 수 있다. 프레임 길이는 (가령, 20 ms로) 고정될 수 있거나 프레임마다 다를 수 있다. 프레임은 또한 복수의 서브 프레임으로 분할될 수 있다. 매 프레임마다, 음성 인코더는 입력 신호의 파라미터 표현을 결정한다. 파라미터는 양자화되어 통신 채널을 통해 전송되거나 저장 매체 내에 디지털 형태로 저장된다. 수신단에서, 음성 디코더는 수신된 파라미터에 기반하여 합성된 신호를 구성한다.
파라미터의 구성과 양자화는 통상적으로 제각기의 양자화 태스크에 대해 최적화된 코드 벡터를 포함하는 코드북(codebooks)에 기반하고 있다. 여러 경우에, 고압축율은 고최적화 코드북을 필요로 한다. 종종, 양자화의 성능은 하나 이상의 이전 프레임 및/또는 하나 이상의 후속 프레임으로부터의 예측을 사용함으로써 소정의 압축율에 대해 개선될 수 있다. 이러한 양자화는 아래의 설명에서는, 선행하는 프레임들로부터의 임의의 정보에 의존하지 않는 비예측성 양자화와 대비하여, 예측성 양자화로 지칭될 것이다. 예측성 양자화는 현재 프레임에 대한 예측을 획득하기 위해 현재 오디오 프레임과 적어도 하나의 인접하는 오디오 프레임 간의 상관을 이용하며, 그 결과, 가령 이러한 예측으로부터 벗어난 것만이 인코딩될 필요가 있다. 이러한 것은 전용 코드북을 필요로 한다.
그러나, 예측성 양자화는 전송 또는 저장시의 에러의 경우에 문제를 발생시킬 수도 있다. 예측성 양자화의 경우, 만약 예측이 기반하고 있는 적어도 하나의 선행 프레임에 에러가 발생하거나 그 프레임이 상실된다면, 새로운 프레임은 그것이 정확히 수신된다하더라도 완벽하게 디코딩될 수 없다. 따라서, 장시간 에러 전송의 실행을 방지하기 위해서는 때때로, 가령 사전결정된 간격으로 (고정된 개수의 프레임의) 예측성 양자화 대신에 비예측성 양자화를 적용하는 것이 유용하다. "보안 넷(safety-net)" 양자화로 지칭되기도 하는 그러한 이따금 식의 비예측성 양자화의 경우, 프레임 소거의 경우의 에러 전파를 제한하기 위해 일 프레임당 기준으로 예측성 양자화와 비예측성 양자화 중 하나를 선택하기 위한 하나 이상의 선택 기준이 적용될 수 있다.
일 실시예에 따르면, 방법이 제공되며, 이 방법은 오디오 신호 세그먼트의 오디오 파라미터의 비예측성 양자화로 인해 발생하는 에러를 서술하는 제1 양자화 에러를 도출하는 단계와, 상기 오디오 신호 세그먼트의 상기 오디오 파라미터의 예측성 양자화로 인해 발생하는 에러를 서술하는 제2 양자화 에러를 도출하는 단계와, 상기 오디오 파라미터가 제공되어 상기 예측성 양자화로 양자화되는 상기 오디오 신호 세그먼트에 선행하는 연속적인 오디오 신호 세그먼트의 개수에 종속적인 적어도 적응성 마진만큼 상기 제2 양자화 에러가 상기 제1 양자화 에러를 초과하는지를 결정하는 단계와, 적어도 상기 결정의 결과가 긍정적인 경우, 상기 비예측성 양자화로 양자화된 상기 오디오 신호 세그먼트의 오디오 파라미터를 인코딩된 오디오 신호의 일부로서 제공하는 단계와, 그렇지 않은 경우, 상기 예측성 양자화로 양자화된 상기 오디오 신호 세그먼트의 오디오 파라미터를 인코딩된 오디오 신호의 일부로서 제공하는 단계를 포함한다.
또다른 실시예에 따르면, 장치가 제공되며, 이 장치는 오디오 신호 세그먼트의 오디오 파라미터의 비예측성 양자화로 인해 발생하는 에러를 서술하는 제1 양자화 에러를 도출하도록 구성되는 처리 컴포넌트와, 상기 오디오 신호 세그먼트의 상기 오디오 파라미터의 예측성 양자화로 인해 발생하는 에러를 서술하는 제2 양자화 에러를 도출하도록 구성되는 처리 컴포넌트와, 상기 오디오 파라미터가 제공되어 상기 예측성 양자화로 양자화되는 상기 오디오 신호 세그먼트에 선행하는 연속적인 오디오 신호 세그먼트의 개수에 종속적인 적어도 적응성 마진만큼 상기 제2 양자화 에러가 상기 제1 양자화 에러를 초과하는지를 결정하도록 구성되는 처리 컴포넌트와, 적어도 상기 결정의 결과가 긍정적인 경우, 상기 비예측성 양자화로 양자화된 상기 오디오 신호 세그먼트의 오디오 파라미터를 인코딩된 오디오 신호의 일부로서 제공하도록 구성되는 처리 컴포넌트와, 그렇지 않은 경우, 상기 예측성 양자화로 양자화된 상기 오디오 신호 세그먼트의 오디오 파라미터를 인코딩된 오디오 신호의 일부로서 제공하도록 구성되는 처리 컴포넌트를 포함한다.
또다른 실시예에 따르면, 장치가 제공되며, 이 장치는 오디오 신호 세그먼트의 오디오 파라미터의 비예측성 양자화로 인해 발생하는 에러를 서술하는 제1 양자화 에러를 도출하는 수단과, 상기 오디오 신호 세그먼트의 상기 오디오 파라미터의 예측성 양자화로 인해 발생하는 에러를 서술하는 제2 양자화 에러를 도출하는 수단과, 상기 오디오 파라미터가 제공되어 상기 예측성 양자화로 양자화되는 상기 오디오 신호 세그먼트에 선행하는 연속적인 오디오 신호 세그먼트의 개수에 종속적인 적어도 적응성 마진만큼 상기 제2 양자화 에러가 상기 제1 양자화 에러를 초과하는지를 결정하는 수단과, 적어도 상기 결정의 결과가 긍정적인 경우, 상기 비예측성 양자화로 양자화된 상기 오디오 신호 세그먼트의 오디오 파라미터를 인코딩된 오디오 신호의 일부로서 제공하는 수단과, 그렇지 않은 경우, 상기 예측성 양자화로 양자화된 상기 오디오 신호 세그먼트의 오디오 파라미터를 인코딩된 오디오 신호의 일부로서 제공하는 수단을 포함한다.
또다른 실시예에 따르면, 컴퓨터 프로그램이 제공되며, 이 컴퓨터 프로그램은 컴퓨팅 장치 상에서 실행될 때 적어도 아래의 동작을 수행하게 하도록 구성되는 컴퓨터 판독가능 프로그램 코드를 포함하며, 상기 동작은, 오디오 신호 세그먼트의 오디오 파라미터의 비예측성 양자화로 인해 발생하는 에러를 서술하는 제1 양자화 에러를 도출하는 것과, 상기 오디오 신호 세그먼트의 상기 오디오 파라미터의 예측성 양자화로 인해 발생하는 에러를 서술하는 제2 양자화 에러를 도출하는 것과, 상기 오디오 파라미터가 제공되어 상기 예측성 양자화로 양자화되는 상기 오디오 신호 세그먼트에 선행하는 연속적인 오디오 신호 세그먼트의 개수에 종속적인 적어도 적응성 마진만큼 상기 제2 양자화 에러가 상기 제1 양자화 에러를 초과하는지를 결정하는 것과, 적어도 상기 결정의 결과가 긍정적인 경우, 상기 비예측성 양자화로 양자화된 상기 오디오 신호 세그먼트의 오디오 파라미터를 인코딩된 오디오 신호의 일부로서 제공하는 것과, 그렇지 않은 경우, 상기 예측성 양자화로 양자화된 상기 오디오 신호 세그먼트의 오디오 파라미터를 인코딩된 오디오 신호의 일부로서 제공하는 것을 포함한다.
위에서 언급된 컴퓨터 프로그램은 휘발성 또는 비휘발성 컴퓨터 판독가능 기록 매체 상에서, 가령 상기 기록 매체에 저장된 전술한 실시예에 따른 컴퓨터 프로그램을 포함한 컴퓨터 프로그램 제품으로서 구현될 수 있다.
본 출원 명세서에 제공되는 본 발명의 실시예는 첨부되는 청구항들의 적용가능성을 제한하는 것으로 해석되어서는 안된다. 용어 '포함하는' 및 그 파생어는 본 명세서에서 언급되지 않은 특징들의 존재를 배제하지 않는 개방형 제한요소로서 사용된다. 후술되는 특징들은 달리 명시적으로 언급되지 않는한 서로 자유롭게 조합가능하다.
본 발명의 일부 특징들은 첨부되는 청구항들에 기술되고 있다. 그러나, 본 발명의 구성 및 그 동작 방법에 대한 본 발명의 측면들은 추가적인 목적 및 이점과 더불어, 첨부되는 도면과 관련하여 숙독될 때 일부 실시예의 아래의 설명으로부터 이해될 것이다.
본 발명의 실시예들은 첨부되는 도면에서 예로서만 도시되고 제한된 요소로 도시되지 않는다.
도 1은 일 실시예에 따른 시스템의 일부 컴포넌트를 개략적으로 도시한 도면이다.
도 2는 일 실시예에 따른 방법을 도시한 것이다.
도 3은 일 실시예에 따른 방법을 도시한 것이다.
도 4는 일 실시예에 따른 방법을 도시한 것이다.
도 5는 일 실시예에 따른 방법을 도시한 것이다.
도 6은 일 실시예에 따른 장치의 일부 컴포넌트를 개략적으로 도시한 도면이다.
도 1은 일 실시예에 따른 시스템의 일부 컴포넌트를 개략적으로 도시한 도면이다.
도 2는 일 실시예에 따른 방법을 도시한 것이다.
도 3은 일 실시예에 따른 방법을 도시한 것이다.
도 4는 일 실시예에 따른 방법을 도시한 것이다.
도 5는 일 실시예에 따른 방법을 도시한 것이다.
도 6은 일 실시예에 따른 장치의 일부 컴포넌트를 개략적으로 도시한 도면이다.
전술한 보안 넷 양자화 방법이 순수 예측성 양자화에 비해, 전체적인 코딩 성능면에 있어서, 저장 또는 전송상의 오류를 포함하던 하지 않던간에, 향상을 제공할 수 있음에도 불구하고, 양자화의 예측성 특징으로 인한 상당한 문제가 여전히 존재한다.
통상적으로, 입력 오디오 신호의 특성에 따라서, 예측성 양자화는 비예측성 양자화의 성능보다 프레임의 70 내지 90 퍼센트에 이르는 초과의 양자화 성능을 제공할 수 있다. 예측성 양자화의 보다 나은 성능은 특히, 연속하는 수십의 프레임으로 확장될 수 있는 고정의 스펙트럼 특성(가령, 음성)을 나타내는 음성 신호의 세그먼트 동안에 언급될 수 있으며, 이에 의해 예측성 양자화가 적용되는 긴 줄(long streaks)의 연속적인 프레임으로 이어질 가능성이 있다.
일 예로서, 비예측성 양자화의 사용을 증가시킴으로써 전술한 보안 넷 양자화 방법의 전체 성능을 개선시키기 위한 한 가지 방법은 예측성 양자화에 의해 제공되는 보다 우수한 양자화 성능에도 불구하고 예측성 양자화보다 비예측성 양자화를 선호하도록 선호 이득(preferene gain)을 사용하는 것을 포함한다. 즉, 비예측성 양자화 방법 대신 예측성 양자화가 선택될 수 있도록 하기 위해서는 고정된 사전결정된 마진 (또는 고정된 사전결정된 인자) 만큼 비예측성 양자화보다 나은 성능을 보이는 예측성 양자화가 필요할 수 있다. 이와 관련하여, 일 예로서, 예측성 양자화를 선택하기 위한 요건은, 예측성 양자화가 양자화 에러의 측면에서 비예측성 양자화에 비해 가령 1.3배 더 우수하여 (가령, 결과적으로, 동일한 프레임에 대해 1.3 배의 예측성 양자화로 인해 발생하는 양자화 에러는 비예측성 양자화로 인해 발생하는 양자화 에러보다 적어야 하며), 결과적으로 예측성 양자화의 사용을 감소시키는 것을 포함할 수 있다. 이러한 옵션은 (고정된 사전결정된 마진의 인가된 값에 따라) 예측성 양자화로 양자화되는 연속하는 프레임의 줄(streaks)을 감소시키며, 따라서, 전송 또는 저장시의 에러의 측면에서 견고성을 증가시키는데 적합하지만 한편으로는 깨끗한 전송 채널 또는 에러 없는 저장의 경우에 양자화 성능을 감소시킬 수 있다. 또한, 상기 사전결정된 고정된 마진에 대한 값을 선택하는 것은 간단한 작업일 수가 없으며, 이에 따라 예측성 양자화로 양자화되는 원하는 줄의 연속적인 프레임보다 짧거나 긴 줄의 연속적인 프레임을 생성하는 위험성을 수반하게 된다.
다른 예로서, 보안 넷 양자화 방법의 성능은 예측성 양자화로 양자화되는 소정의 줄의 연속적인 프레임에 대한 최대값을 설정하는 것을 포함한다. 이 방법은 프레임 소거 또는 프레임 에러의 경우에 에러 전파의 최대 길이를 제한하는 것에는 효과적이지만, 상이한 특성의 오디오 신호의 예측성 양자화에 의해 제공되는 성능 개선점의 차이에 대해서는 해명을 하지 못하고 있다. 따라서, 이 방법은 예측성 양자화로 양자화되는 연속적인 프레임의 원하는 줄보다 짧거나 또는 긴 연속적인 프레임의 줄을 생성하는 위험성을 또한 수반하고 있다. 게다가, 연속적인 예측성 양자화 프레임의 줄의 강제 종료가 프레임에서 발생할 수가 있으며, 이 경우, 예측성 양자화의 양자화 성능이 비예측성 양자화의 성능보다 우수하여 심각한 단구간 오디오 품질 저하의 위험을 발생시킬 수 있다.
본 발명은, 비예측성 양자화 프레임을 강제함으로써 예측성 양자화 프레임의 줄을 중단하는 보안 넷 양자화 방법을 사용하는 것이 가용 에러 전파를 선제적으로 회피하는 기능을 수행하지만 한편으로는, 예측성 양자화에 의해 제공되는 성능 개선이 중요한 프레임에서 특히 예측성 양자화 프레임의 줄의 강제 중단은 단구간에서 전체 양자화 성능의 저하와 그에 따른 오디오 품질의 저하를 초래할 가능성이 있다는 고려에서 비롯된다. 따라서, 소정의 프레임에 대한 예측성 양자화와 비예측성 양자화를 선택할 때 적용되는 선택 기준은 예측성 양자화가 선택된 연속하는 프레임의 줄의 길이가 증가함에 따라 증가된 요소(factor)만큼 예측성 양자화보다 비예측성 양자화를 선호하도록 구성되도록 하는 것이 제안되고 있다. 동시에, 예측성 양자화와 비예측성 양자화를 선택하기 위한 하나 이상의 추가적인 선택 기준이 평가될 수 있다.
결과적으로, 본 발명의 실시예는 예측성 양자화가 적용된 연속하는 프레임의 매우 긴 줄을 감소시킴으로써 채널 에러의 경우의 오디오 코딩 성능을 증가시킬 가능성을 제공하지만, 예측성 양자화의 성능이 비예측성 양자화의 성능을 명백히 초과하는 한 예측성 양자화의 우수한 성능을 여전히 이용할 가능성을 제공한다. 이러한 방법이 목표 평균 양자화 에러를 증가시킬 수 있지만, 이 양자화 에러를, 오디오 신호의 모델링시의 부정확성을 야기할 임의의 가능성이 양자화 에러가 거의 가청되지 않거나 전혀 가청되지 않을 정도로 충분히 낮아지게 하는 수준으로 유지하도록 보장하기 위해 선택 기준이 맞춤화될 수 있다.
스펙트럼 왜곡(SD)은 양자화 에러의 양을 나타내기 위해 일반적으로 적용되는 측도의 예이며, SD는 또한 양자화 에러의 가청성(audibility)을 평가하는데 적합하다. 가령, 양자화로 인한 SD가 1dB 미만으로 존재한다면 이 스펙트럼 왜곡은 인간의 청취로는 통상 가청불가하다는 것이 가정될 수 있다. 보안 넷 방법에서, 이러한 사실은, 가령 사전결정된 임계치, 가령 1dB 미만인 SD를 산출할 때마다 비예측성 양자화를 선택함으로써 이용될 수 있다. 이러한 측면을 추가적으로 설명하기 위해, 특정 오디오 신호 세그먼트의 비예측성 양자화가 인간 청취의 관점에서는 충분한 0.9 dB의 SD를 발생시키는 경우, 가령, 0.5 dB의 매우 낮은 SD를 획득하기 위해 예측성 양자화로 상기 동일한 오디오 신호 세그먼트를 일반적으로 정량화할 필요는 없다. 이러한 경우, 비록 개개의 오디오 신호 세그먼트에 대해 비예측성 양자화로부터 발생하는 목표의 양자화 에러가 더 커지만, 최종적인 양자화 에러는 여전히 가청불가한 것으로 간주될 수 있으며 따라서 프레임 소거 또는 프레임 상실로 인한 양자화 에러의 전파를 제한하거나 방지하는 것을 가능하게 하기 위해 특정 오디오 세그먼트에 대해 비예측성 양자화를 선택하는 것이 효과적일 수 있다. 즉, 오디오 신호 세그먼트에 앞서 오디오 신호 세그먼트 소거 또는 상실이 존재한 경우에 예측성 양자화는 양호하게 실행되지는 못하지만 비예측성 양자화로부터 획득되는 파라미터는 완벽하게 디코딩될 수 있다. 이러한 방법에서, 예측성 양자화 대신에 비예측성 양자화의 사용으로 발생하는 개선점은 하나 이상의 에러를 갖는 오디오 신호 세그먼트에 대해서만 청취가능하지만, 깨끗한 채널에 대해서는 전형적으로 청취가능한 저하는 없다. 결과적으로, 이러한 기법은 예측성 양자화 및 비예측성 양자화에 대한 추가적인 선택 기준과 병행하여, 깨끗한 채널 상태 및 프레임 소거/상실이 존재하는 경우 모두에 충분한 양자화 품질을 제공하는 보안 넷 방법의 일부로서 적용될 수 있다.
전술한 설명으로부터 명백한 바와 같이, 사전결정된 임계치와 비교될 수 있는 적절한 에러 측도는 원시 오디오 신호 세그먼트와 양자화로 인해 발생하는 오디오 신호 세그먼트 간의 주파수 범위에 걸친 스펙트럼 왜곡에 관한 것일 수 있다. 이러한 에러 측도는 예측성 양자화 및 비예측성 양자화 모두에 대해 계산될 수 있다. 상기 주파수 범위 상에서의 스펙트럼 왜곡의 관점에서 에러 측정치를 계산하는 것은 또한 가령 오디오 신호 세그먼트에 속하는 이미턴스 스펙트럼 주파수(immittance spectral frequency:ISF) 파라미터 또는 라인 스펙트럼 주파수(LSF) 파라미터에 적합하다.
제각기의 오디오 신호 세그먼트(가령, 오디오 신호의 프레임)에 대한 스펙트럼 왜곡 SD는 다음의 식에 의해 표현될 수 있다:
여기서, 및 S(ω)는 각각, 양자화를 갖는 음성 프레임의 스펙트럼 및 양자화를 갖지 않는 음성 프레임의 스펙트럼이다. 이러한 스펙트럼 왜곡은 가령 오디오 세그먼트의 선형 예측성 코딩(LPC) 파라미터의 코드북 및 양자화 선택을 위한 특히 정확한 측도이지만, 식 1에 따른 스펙트럼 왜곡을 결정하기 위한 계산적인 노력은 계산상 보다 간단한 방법을 사용하여 감소될 수 있다.
이와 관련하여, 고려되는 에러 측도는 (가령, 식 1에 따른) 스펙트럼 왜곡을 적어도 근사화하는 에러 측도를 포함할 수 있다. 이러한 에러 측도는 가령, 원시 오디오 신호 세그먼트의 해당 컴포넌트와 양자화로 인해 발생하는 오디오 신호 세그먼트의 해당 컴포넌트 간의 가중화된 에러들을 조합함으로써 획득될 수 있다. 에러 측도는 가령, 가중화된 평균 제곱 오차들을 조합함으로써 획득되는 사이코 음향상 유의미한 에러 측도(a psycho acoustically meaningful error measure)이며, 여기서, 에러의 가중화는 사이코 음향상 유의미한 가중화를 제공한다. 표현 "사이코 음향상 유의미한 가중화"는 인간의 청각에 의해 인식되는 오디오 신호의 스펙트럼 컴포넌트들이 인간의 청각에 의해 분명히 인식되지 않는 오디오 신호의 스펙트럼 컴포넌트들과 비교해서 강조된다는 것을 의미한다. 이러한 가중화는 가중화될 오디오 신호 세그먼트의 제각기의 컴포넌트 또는 가중화될 오디오 파라미터의 제각기의 컴포넌트를 증배하는데 적용될 수 있는 가중화 계수의 세트에 의해 제공되어 가중화된 컴포넌트들의 세트를 형성하며, 이 가중화된 컴포넌트들은 다시 조합되어(가령, 가산되어) 가중화된 에러 측도를 형성할 수 있다. 이러한 목적을 위한 적절한 가중화 계수들은 여러 방식으로 계산될 수 있다.
이러한 사이코 음향상 유의미한 에러의 예는 원시(양자화되지 않은) ISF 파라미터와 대응 양자화된 ISF 파라미터 간의 가중화된 에러, 가령 가중화된 평균 제곱 오차를 포함할 수 있다. 다른 예로서, 사이코 음향상 유의미한 에러는 원시(양자화되지 않은) LSF 파라미터와 해당 양자화된 LSF 파라미터 간의 가중화된 에러, 가령 가중화된 평균 제곱 오차를 포함할 수 있다.
일반적으로, 고려된 에러 측도는 전체적으로 양자화된 오디오 신호 세그먼트 또는 부분적으로 양자화된 오디오 신호 세그먼트에 기반하여, 가령 제각기의 오디오 신호 세그먼트에서의 하나 이상의 선택된 양자화된 파라미터, 가령 위에서 언급된 ISF 파라미터 또는 LSF 파라미터에 기반하여 결정될 수 있다.
도 1은 일 예의 시스템의 개략적인 블록도로서, 이 시스템에서는 본 발명의 일 실시예에 따른 예측성 또는 비예측성 양자화의 선택이 구현될 수 있다. 여기서, 용어 "비예측성 양자화" 및 "보안 넷 양자화"는 동의어로 사용될 것이다.
도 1에 도시된 시스템은 제1 전자 장치(100) 및 제2 전자 장치(150)를 포함한다. 제1 전자 장치(100)는 가령 광대역 전송을 위한 오디오 데이터를 인코딩하도록 구성되며, 제2 전자 장치(150)는 인코딩된 오디오 데이터를 디코딩하도록 구성된다. 제1 전자 장치(100)는 칩(120)을 거쳐 전송 컴포넌트(TX)(112)에 링크되는 오디오 입력 컴포넌트(111)를 포함한다. 오디오 입력 컴포넌트(111)는 가령 마이크로폰, 마이크로폰 어레이, 오디오 데이터를 제공하는 다른 디바이스에 대한 인터페이스 또는 오디오 데이터가 판독될 수 있는 메모리 또는 파일 시스템에 대한 인터페이스일 수 있다.
칩(120)은 가령, 오디오 인코더(121)에 대한 회로를 포함한 집적 회로(IC)일 수 있으며, IC의 선택된 기능 블럭이 개략적으로 도시된다. 이러한 기능 블럭은 파라미터화된 컴포넌트(124)와 양자화 컴포넌트(125)를 포함한다. 전송 컴포넌트(112)는 다른 장치, 가령 전자 장치(150)로 유선 또는 무선 링크를 통해 데이터를 전송하게 하도록 구성된다. 오디오 인코더(121) 또는 칩(120)은 본 발명에 따른 일 예의 장치로 간주될 수 있고 양자화 컴포넌트는 대응 처리 컴포넌트를 나타내는 것으로 간주될 수 있다.
전자 장치(150)는 칩(170)을 경유하여 오디오 출력 컴포넌트(161)에 링크되는 수신 컴포넌트(162)를 포함한다. 수신 컴포넌트(162)는 다른 장치로부터 가령 전자 장치(150)로부터 유선 또는 무선 링크를 통해 데이터를 수신할 수 있도록 구성된다. 칩(170)은 가령 오디오 디코더(171)의 회로를 포함한 집적 회로(IC)일 수 있으며, 이 IC의 합성 컴포넌트(174)가 도시된다. 오디오 출력 컴포넌트(161)는 가령 디코딩된 오디오 데이터가 포워딩될 라우드스피커 또는 다른 장치에 대한 인터페이스일 수 있다.
도 1에 도시된 커넥션들은 여기에 도시되지 않은 다양한 컴포넌트들에 의해 구현될 수 있다.
도 1의 시스템 내의 동작은 도 2 내지 도 5를 참조하여 보다 상세하게 기술될 것이다.
도 2는 일 예의 방법(200)의 단계들로서 오디오 인코더(121) 내의 동작을 도시하는 플로우챠트이다. 오디오 신호가 전자 장치(100)에, 가령 오디오 입력 컴포넌트(1110를 경유하여 입력될 때, 그 오디오 신호는 인코딩을 위해 오디오 인코더(121)로 제공될 수 있다. 오디오 신호가 오디오 인코더(121)에 제공되기 전에, 일부의 사전 처리가 행해질 수 있다. 가령, 입력 오디오 신호가 아날로그 오디오 신호인 경우, 그 신호에 대해 먼저 아날로그 디지털 변환 등이 행해질 수 있다.
오디오 인코더(121)는 10ms의 룩어헤드를 사용하여 가령 20ms의 오디오 프레임에서의 오디오 신호를 처리한다. 각각의 오디오 프레임은 오디오 신호 세그먼트를 구성한다. 파라미터화된 컴포넌트(124)는 먼저 현재의 오디오 프레임을 파라미터 표현으로 변환한다(단계 201). 오디오 신호의 오디오 프레임에 대한 파라미터 표현은 상기 프레임 내의 오디오 신호를 서술하는 하나 이상의 오디오 파라미터를 포함할 수 있지만, 오디오 파라미터는 스칼라 (단일) 파라미터 또는 벡터 파라미터일 수 있다. 아래의 예에서, 본 발명의 다양한 실시예에 따른 처리는 실례의 비제한적인 방식으로 LSF 및/또는 ISF 파라미터를 참조하여 기술된다.
양자화 컴포넌트(125)는 한편으로는, 가령, 비예측성 코드북을 사용함으로써 오디오 프레임의 하나 이상의 파라미터의 비예측성 양자화를 수행한다(단계 211). 양자화 컴포넌트(125)는 이 단계에서만 선택된 파라미터의 양자화를 수행할 수 있지만, 추가의 파라미터는 나중의 단계에서(가령, 단계 203에 기초하여 예측성 양자화 및 비예측성 양자화 중의 하나의 선택 이후에) 양자화될 수 있다. 또한, 양자화 컴포넌트(125)는 오디오 프레임의 하나 이상의 오디오 파라미터의 비예측성 양자화로 인해 발생하는 양자화 에러 E1를 서술하는 에러 측도의 값을 도출한다(단계 212). 일 예로서 오디오 프레임의 스펙트럼 특성을 서술하는 LSF 파라미터를 포함한 LSF 벡터를 사용함으로써, 양자화 에러 E1는 가령, 비예측성 양자화로 양자화된 LSF 파라미터와 오디오 프레임에 대한 원시(양자화되지 않은) LSF 파라미터 간의 평균 제곱 에러 또는 비예측성 양자화로 양자화된 LSF 파라미터와 오디오 프레임에 대한 원시(양자화되지 않은) LSF 파라미터 간의 가중화된 평균 제곱 오차를 포함할 수 있으며, 여기서 가중화는 사이코 음향상 유의미한 가중화이다.
양자화 컴포넌트(125)는 다른 한편으로는, 가령 예측성 코드북을 사용함으로써 오디오 프레임의 하나 이상의 파라미터의 예측성 양자화를 수행한다(단계 221). 양자화 컴포넌트(125)는 이 단계에서만 (가령, 단계 203에 기초하여 예측성 양자화 및 비예측성 양자화 중의 하나의 선택 이후에) 선택된 파라미터의 양자화를 수행할 수 있지만, 추가의 파라미터는 나중의 단계에서 양자화될 수 있다. 또한, 양자화 컴포넌트(125)는 오디오 프레임의 하나 이상의 오디오 파라미터의 예측성 양자화로 인해 발생하는 양자화 에러 E2를 서술하는 에러 측도의 값을 도출한다(단계 222). 단계 212의 단계에서와 같이, 오디오 파라미터의 일 예로서 LSF 벡터를 사용함으로써, 양자화 에러 E1는 가령, 예측성 양자화로 양자화된 LSF 파라미터와 오디오 프레임에 대한 원시(양자화되지 않은) LSF 파라미터 간의 평균 제곱 오차 또는 (사이코 음향상) 가중화된 평균 제곱 오차를 포함할 수 있다.
예측성 양자화는 가령, 오디오 프레임 i에 선행하는 하나 이상의 프레임들(가령, 오디오 프레임 i-j, 여기서 j=1, ...., jmax) 내의 제각기의 오디오 파라미터의 값(가령, LSF 벡터 또는 그의 컴포넌트)에 기반하여 및/또는 상기 오디오 프레임 i에 후속하는 하나 이상의 프레임들(가령, 오디오 프레임 i+k, 여기서 k=1, ...., kmax) 내의 제각기의 오디오 파라미터의 값(가령, LSF 벡터 또는 그의 컴포넌트)에 기반하여 현재의 오디오 프레임 i 내의 오디오 파라미터의 예측된 값(가령, LSF 벡터 또는 그 컴포넌트)을 계산하기 위해 당해 기술 분야에서 알려진 임의의 예측 방법을 사용하는 것과, (가령, 예측성 코드북에 기반하여) 현재의 오디오 프레임 내의 오디오 파라미터의 원시(양자화되지 않은) 값과 예측된 값 간의 차이를 양자화하기 위해 양자화기를 사용하는 것을 포함할 수 있다.
이와 관련하여, 양자화 컴포넌트(125)는 예측성 양자화를 위해 선형 예측 또는 비선형 예측 모델을 적용할 수 있다. 예시적인 비제한적인 예로서, 이와 관련한 예측은 자동회귀(AR) 예측 모델, 이동 평균(MA) 예측 모델 및 자동회귀 이동 평균(ARMA) 예측 모델 중 하나를 사용하여 가장 인접하게(가령, 가장 최근의) 선행하는 오디오 프레임 i-1 내의 제각기의 오디오 파라미터의 값에 기반하여 오디오 프레임 i에 대한 오디오 파라미터의 예측된 값을 계산하는 것을 포함할 수 있다.
다음, 양자화 컴포넌트(125)는 결정된 제각기의 양자화 에러들 E1 및 E2에 기반하여 현재의 오디오 프레임에 대한 비예측성 양자화 또는 예측성 양자화를 선택한다. 이와 관련하여, 양자화 컴포넌트(125)는 양자화 에러 E2가 양자화 에러 E1를 적어도 적응성 마진 M만큼 초과하는지를 결정할 수 있다(단계 203). 적응성 마진 M은 하나 이상의 오디오 파라미터들이 제공되어 예측성 양자화로 양자화되는 현재의 오디오 프레임에 선행하는 연속하는 프레임들의 개수에 종속된다. 즉, 현재의 프레임에 대한 적응성 마진 M은 비예측성 양자화가 선택된 가장 인접하게 선행하는 오디오 프레임과 현재의 프레임 간의 프레임들의 개수에 종속된다. 이러한 프레임들의 개수는 (현재의) 예측 줄 길이(prediction streak length) L로 표시될 수 있다. 적응성 마진 M의 결정은 이후에 기술된다.
만약 단계 203에서의 결정이 긍정적이면, 즉 양자화 에러 E2가 양자화 에러 E1를 적어도 적응성 마진 M만큼 초과하는 경우, 양자화 컴포넌트(125)는 비예측성 양자화로 양자화된 현재의 오디오 프레임의 하나 이상의 오디오 파라미터를 인코딩된 오디오 신호의 일부로서 제공한다(단계 213). 이와는 대조적으로, 만약 단계 203에서의 결정이 긍정적인 것이 아니라면, 즉 양자화 에러 E2가 양자화 에러 E1를 적어도 적응성 마진 M만큼 초과하지 않는 경우, 양자화 컴포넌트(125)는 예측성 양자화로 양자화된 현재의 오디오 프레임의 하나 이상의 오디오 파라미터를 인코딩된 오디오 신호의 일부로서 제공한다(단계 223).
양자화 컴포넌트(125)는 대안으로서 또는 추가적으로, 비예측성 양자화의 선택을 야기할 수 있는 하나 이상의 추가적인 기준을 적용할 수 있으며, 그에 따라 방법(200)은 가령 단계 203의 전 또는 후에 하나 이상의 추가적인 결정 또는 선택 단계들을 도입함으로써 변경될 수 있다. 이와 관련한 방법(200)의 변형의 일 예로서, 양자화 컴포넌트(125)는 단계 203에 앞서 양자화 에러 E1가 사전결정된 임계치 Eth보다 더 작은지의 여부를 결정하고, 그 결정이 긍정인 경우에는 단계 213으로 진행하며, 그 결정이 긍정이 아닌 경우에는 단계 203으로 진행한다. 임계치 Eth는 소정의 임계치일 수 있는데, 양자화 에러 E1가 이 임계치 미만인 경우 가청불가인 것으로 간주될 수 있다. 이 임계치 Eth에 대한 적절한 값은 상이한 오디오 파라미터들 마다 그리고 양자화 에러를 가중화하기 위해 적용되는 상이한 가용 가중화 함수들 마다 상이하며, 이는 시행착오의 오프 라인에 의해 계산되어야 한다. 하지만, 일단 임계치 Eth에 대한 적절한 값이 발견되면, 단계 302에서 검증으로 인한 인코더에서의 계산상의 복잡성 증가는 최소화된다. 일 예로서, 임계치 Eth는 0.8 내지 1.0 dB의 범위에서, 가령 0.9 dB의 SD에 대응하는 값으로 설정될 수 있다.
예측 줄 길이 L에 종속되는 적응성 마진 M을 결정하는 일 예로서, 적응성 마진 M은 현재의 오디오 프레임과 비예측성 양자화가 선택된 가장 인접하게 선행하는 오디오 프레임 간의 각각의 오디오 프레임에 대해, 그 최초 값 M0으로부터 사전결정된 양 MS만큼 증가될 수 있다.
예측 줄 길이 L에 종속되는 적응성 마진 M을 결정하는 다른 예로서, 적응성 마진 M은 현재의 오디오 프레임과 비예측성 양자화가 선택된 가장 인접하게 선행하는 오디오 프레임 간의 사전결정된 임계치 L0를 초과하는 각각의 오디오 프레임에 대해, 그 최초 값 M0으로부터 사전결정된 양 MS만큼 증가될 수 있다. 즉, 적응성 마진 M은 L이 L0보다 크게 제공된다면 그 최초 값 M0으로부터 사전결정된 양 MS (L-L0)만큼 증가될 수 있다.
일 예로서, 임계치 L0는 고정된 사전결정된 값, 가령 3(L0=3)으로 설정될 수 있지만, 동일하게 임의의 다른 원하는 값으로 설정될 수 있다. 다른 예로서, 임계치 L0는 현재의 프레임 및/또는 현재 프레임에 바로 선행하는 하나 이상의 프레임의 오디오 특성에 종속하도록 설정(또는 조정)될 수 있다. 다른 예로서, 임계치 L0는 현재의 프레임 및/또는 현재 프레임에 바로 선행하는 하나 이상의 프레임에 대한 양자화 컴포넌트(125) 또는 오디오 인코더(121)에 의해 적용되는 인코딩 모드에 종속하도록 설정(또는 조정)될 수 있다.
방법(200)의 프레임워크에서, 적응성 마진 M은 현재의 오디오 프레임에 대해 비예측성 양자화가 선택된 경우 그 다음 오디오 프레임에 대해서는 최초의 값 M0으로 리셋되거나(단계 214) 현재의 오디오 프레임에 대해 예측성 양자화가 선택된 경우 그 다음 오디오 프레임에 대해서는 사전결정된 양 MS만큼 조정될 수 있다(단계 224).
다른 예로서, 그 다음 오디오 프레임이 수신된 후 하지만 양자화 에러 E1와 E2의 비교전에, 가장 인접하게 선행하는 프레임(즉, 가장 최근에 선행하는 프레임)에 대해 양자화가 선택된 것에 기초하여, 적응성 마진 M의 리셋(단계 214) 및/또는 적응성 마진 M의 조정(단계 224)이 발생할 수 있다. 다른 예로서, 명시적인 적응성 마진 M의 리셋(단계 214) 및 적응성 마진 M의 조정(단계 224) 대신에, 적응성 마진 M은 예측 줄 길이 L에 기초하여 또는 예측 줄 길이 L 및 사전결정된 임계치 L0에 기초하여 계산될 수 있거나 또는 적응성 마진 M은 양자화 컴포넌트(125)에 의해 액세스가능한 테이블로부터 획득될 수 있으며, 상기 테이블은 예측 줄 길이 L의 원하는 범위의 값들에 걸친 적응성 마진 M의 값을 저장하고 있다. 이와 관련한 예는 나중에 기술될 것이다.
적응성 마진 M에 대한 최초 값 M0은 제로일 수 있거나 실질적으로 제로일 수 있다. 대안으로서, 적응성 마진 M에 대한 최초 값 M0은 제로보다 약간 큰 값일 수 있다. 제로보다 약간 큰 최초 값 M0을 사용하는 것은 예측 줄 길이 L이 제로(또는 임계치 L0 미만)인 경우에도 예측성 양자화에 비해 비예측성 양자화를 선호하는 것을 보장하는 기능을 한다. 후속하는 오디오 프레임에서 사용하도록 적응성 마진 M이 조정될 사전결정된 양 MS은 적응성 마진 M을 프레임 마다 점진적으로 증가시켜 최종적으로 비예측성 양자화로 양자화된 오디오 프레임의 하나 이상의 오디오 파라미터를 인코딩된 오디오 신호의 일부로서 사실상 강제로 마련하도록 하기 위한 작은 양의 값일 수 있다.
도 3은 일 예의 방법(300)의 단계들로서 오디오 인코더 내의 동작을 도시하는 플로우챠트이다. 이 방법(300)은 상기 방법(200)을 참조하여 전술한 프레임워크 내에서의 일 예로서 기능한다. 방법(300)은 전술한 단계 201, 211 및 221을 공유한다.
방법(300)에서, 양자화 컴포넌트(125)는 현재의 오디오 프레임의 하나 이상의 오디오 파라미터의 비예측성 양자화로 인해 발생하는 양자화 에러 Es -net를 도출할 수 있다(단계 312). 일 예로서, 양자화 에러 Es -net는 비예측성 양자화로 양자화되는 오디오 파라미터와 현재의 오디오 프레임 내의 제각기의 원시(양자화되지 않은) 오디오 파라미터 간의 평균 제곱 오차를 포함할 수 있다. 다른 예로서, 양자화 에러 Es -net는 사이코 음향상 관련 에러 측도, 가령, 비예측성 양자화로 양자화되는 오디오 파라미터와 현재의 오디오 프레임 내의 제각기의 원시(양자화되지 않은) 오디오 파라미터 간의 SD 또는 (사이코 음향상) 가중화된 평균 제곱 오차를 포함할 수 있다. 하나 이상의 오디오 파라미터의 예로서 LSF 파라미터를 사용함으로써, 양자화 에러 Es -net는 가령 비예측성 양자화로 양자화된 LSF 파라미터와 현재 프레임 i에 대한 원시 LSF 파라미터 간의 가중화된 평균 제곱 오차로서, 식 2에 따라 제공될 수 있다.
여기서, N은 양자화된 벡터의 길이(가령, 벡터 내의 엘리먼트의 개수)이며, 은 프레임 i에 대한 보안 넷 양자화된 최적의 LSF 벡터 값 p이며, 는 프레임 i에 대한 원시의 양자화되지 않은 LSF 벡터 값 p이며, 는 프레임 i에 대한 사이코 음향상 관련된 가중화 벡터 값 p이다. 이와 관련하여, 적절한 가중화 벡터 Wi의 예는 ITU-T Recommendation G.718 (06/2008)의 섹션 6.8.2.4에서 "Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s"에서 기술되는 가중화 함수 Wend와, 상기 ITU-T Recommendation G.718 (06/2008)의 섹션 6.8.2.6에서 기술되는 가중화 벡터 Wmid를 포함한다.
방법(300)의 설명을 계속하면, 양자화 컴포넌트(125)는 현재의 오디오 프레임의 하나 이상의 오디오 파라미터의 비예측성 양자화로 인해 발생하는 양자화 에러 Epred를 도출할 수 있다(단계 322). 일 예로서, 양자화 에러 Epred는 예측성 양자화로 양자화되는 오디오 파라미터와 현재의 오디오 프레임 내의 제각기의 원시(양자화되지 않은) 오디오 파라미터 간의 평균 제곱 오차를 포함할 수 있다. 다른 예로서, 양자화 에러 Epred는 사이코 음향상 관련 에러 측도, 가령, 예측성 양자화로 양자화되는 오디오 파라미터와 현재의 오디오 프레임 내의 제각기의 원시(양자화되지 않은) 오디오 파라미터 간의 SD 또는 (사이코 음향상) 가중화된 평균 제곱 오차를 포함할 수 있다. 하나 이상의 오디오 파라미터의 예로서 LSF 파라미터를 사용함으로써, 양자화 에러 Epred는 가령 예측성 양자화로 양자화된 LSF 파라미터와 현재 프레임 i에 대한 원시 LSF 파라미터 간의 가중화된 평균 제곱 오차로서, 식 3에 따라 제공될 수 있다.
여기서, N은 양자화된 벡터의 길이(가령, 벡터 내의 엘리먼트의 개수)이며, 은 프레임 i에 대한 예측성 양자화된 최적의 LSF 벡터 값 p이며, 는 프레임 i에 대한 원시의 양자화되지 않은 LSF 벡터 값 p이며, 는 프레임 i에 대한 사이코 음향상 관련된 가중화 벡터 값 p이다. 또한, 식 2에서 제공된 적절한 가중화 벡터 Wi에 관한 고려사항이 식 3에 대해서도 유효하다.
방법(300)의 설명을 계속하면, 양자화 컴포넌트(125)는 양자화 에러 Es-net 및 Epred에 기반하여 예측성 양자화 또는 비예측성 양자화를 선택한다. 특히, 양자화 컴포넌트(125)는 양자화 에러의 스케일링된 값 이 양자화 에러 Epred보다 작은지를 결정할 수 있으며, 여기서 는 적응성 스케일링 계수 m의 현재 값에 의해 스케일링된 양자화 에러 Es-net 으로서, 가령 이 된다(단계 303).
단계 303에서의 결정이 긍정적이라면, 즉 적응성 스케일링 계수 m의 현재 값에 의해 스케일링된 양자화 에러 Es-net 가 양자화 에러 Epred보다 작은 경우에, 양자화 컴포넌트(125)는 현재 오디오 프레임의 하나 이상의 오디오 파라미터, 가령, 적어도 LSF 파라미터를 비예측성 양자화로 양자화하여 인코딩된 오디오 신호의 일부로서 제공한다(단계 213). 이와는 대조적으로, 단계 303에서 결정이 긍정적이지 않다면, 즉 적응성 스케일링 계수 m의 현재 값에 의해 스케일링된 양자화 에러 Es-net 가 양자화 에러 Epred보다 작지 않은 경우에, 양자화 컴포넌트(125)는 현재 오디오 프레임의 하나 이상의 오디오 파라미터, 가령, 적어도 LSF 파라미터를 예측성 양자화로 양자화하여 인코딩된 오디오 신호의 일부로서 제공한다(단계 223).
계속하여 방법(300)에서, 양자화 컴포넌트(125)가 현재의 오디오 프레임 i 내의 하나 이상의 오디오 파라미터에 대한 비예측성 양자화를 선택한 경우, 양자화 컴포넌트(125)는 적응성 스케일링 계수 m을 최초 값 m0으로 설정, 즉 m=m0으로 설정함으로써 그 다음 오디오 프레임 i+1에서 양자화 컴포넌트(125)에 의해 사용될 적응성 스케일링 계수 m을 추가로 리셋할 수 있다(단계 314). 이는 방법(200)의 단계 214에서 적응성 마진 M을 그 최초 값 M0으로 리셋하는 것에 대응한다.
이와는 대조적으로, 양자화 컴포넌트(125)가 현재의 오디오 프레임 i 내의 하나 이상의 오디오 파라미터에 대한 예측성 양자화를 선택한 경우, 양자화 컴포넌트(125)는 적응성 스케일링 계수 m을 사전결정된 스케일링 계수 mS만큼 곱함으로써, 즉 m=m*ms로 설정함으로써 그 다음 오디오 프레임 i+1에서 양자화 컴포넌트(125)에 의해 사용될 적응성 스케일링 계수 m을 추가로 조정할 수 있다(단계 324). 이는 방법(200)의 단계 224에서 적응성 마진 M을 사전결정된 양 Ms만큼 조정하는 것에 대응한다.
적응성 스케일링 계수 m에 대한 최초 값 m0은 1일 수 있거나(가령, m0=1) 실질적으로 1일 수 있다. 이러한 방법의 변형으로서, 최초 값 m0은, 비예측성 양자화가 선택된 프레임에 바로 후속하는 프레임에서 줄 길이 L이 제로인 경우에도, 예측성 양자화보다 비예측성 양자화를 선호하는 것을 보장하도록 1보다 약간 아래, 가령, 0.9 내지 0.99의 범위 내에 존재할 수 있다. 비예측성 양자화의 선택을 위한 일정한 선호도를 보장하기 위한 대안의 예로서, 단계 303의 조건이 다음과 같이 표현될 수 있다.
여기서, 사전결정된 스케일링 계수 n은 1.01 내지 1.1의 범위 내의 값, 가령 n=1.05로 설정되지만, 적응성 스케일링 계수 m의 최초 값 m0은 1로 설정된다(가령, m0=1).
사전결정된 스케일링 계수 ms은 그 다음 프레임 i+1에 대한 적응성 스케일링 계수 m을 감소시키기 위해 1보다 작은 양의 값일 수 있다. 이와 관련하여, 사전결정된 스케일링 계수 ms은 0.7 내지 0.95의 범위로부터 선택되는 값, 가령 ms=0.8로 설정될 수 있다. 이는 예측성 양자화가 선택된 연속하는 프레임의 줄 동안 적응성 마진 M을 프레임 마다 증가시키는 것에 대응한다.
도 4는 일 예의 방법(400)의 단계들로서 오디오 인코더(121)에서의 동작을 도시하는 플로우챠트이다. 이 방법(400)은 방법(300)의 변형으로서 제공되며 방법(200)을 참조하여 전술된 프레임워크 내에서의 또다른 실시예로서 기능한다. 방법(400)은 방법(300)의 모든 단계들을 공유하지만, 단계 303의 결정 이전에 추가적인 검증 단계 302가 도입된다.
단계 302는 현재의 오디오 프레임의 하나 이상의 오디오 파라미터에 대한 비예측성 양자화를 선택하기 위한 다른 기준을 제공한다. 특히, 양자화 컴포넌트(125)는 양자화 에러 Es -net가 사전결정된 임계치 Eth보다 작은 경우 비예측성 양자화를 선택할 수 있다. 이와는 대조적으로, 양자화 컴포넌트(125)는 양자화 에러 Es -net가 사전결정된 임계치 Eth보다 작지 않은 경우 결정 단계 303으로 진행할 수 있다. 단계 302에서 검증이 긍정적인 경우, 방법(400)은 오디오 프레임의 하나 이상의 파라미터의 예측성 양자화로 진행하며(단계 221) 또한 현재의 오디오 프레임의 하나 이상의 오디오 파라미터의 비예측성 양자화로 인해 발생하는 양자화 에러 Epred의 도출로 진행할 수 있다(단계 322). 결과적으로, 예측성 양자화에 필요한 처리(단계 212)와 양자화 에러 Epred의 도출(단계 322)은 계산 자원들을 절감하는데 불필요한 경우에 생략될 수 있다.
방법(400)의 변형에서, 단계 221 및 단계 322는 단계 302로 진행하기 전에 단계 211 및 단계 312와 동시에 수행될 수 있다. 이러한 변형에서, 단계 302의 검증이 긍정적인 경우, 방법(400)은 단계 213으로 진행하지만 단계 302의 검증이 긍정적이지 않으면 방법(400)은 단계 303으로 진행한다.
방법(400)의 문맥에서 또한 양자화 에러 E1에 대해 전술한 라인을 따라, 방법(200)의 문맥에서 제공되는 임계치 Eth에 관한 고려사항들이 적용된다. 즉, 임계치 Eth에 대한 적절한 값은 상이한 오디오 파라미터들 마다 그리고 양자화 에러를 가중화하기 위해 적용되는 가용 상이한 가중화 함수들 마다 상이하며, 그리고 시행착오 오프 라인에 의해 계산되어야 하며, 그리고, 예로서 임계치 Eth는 0.8 내지 1.0 dB의 범위, 가령 0.9 dB의 SD에 대응하는 값으로 설정될 수 있다.
방법(400)은 선택적으로, 비예측성 양자화의 선택을 야기할 수 있는 제각기의 하나 이상의 선택 규칙을 평가하기 위한 하나 이상의 추가의 결정 단계들을 포함할 수 있다. 일 예로서, 이러한 결정 단계들은 단계 302의 전 또는 후에 제공될 수 있다.
도 5는 일 예의 방법(500)의 단계들로서 오디오 인코더(121)에서의 동작을 도시하는 플로우챠트이다. 방법(500)은 방법(400)의 변형으로서 제공되며 방법(200)을 참조하여 전술된 프레임워크 내에서의 다른 실시예로서 기능한다. 방법(500)에서, 방법(400)의 단계 314 및 324는 제각기의 단계 414 및 424로 대체되지만, 방법(500)은 방법(400)의 나머지 모든 단계들을 공유한다. 방법(400)의 변형으로서 기술되는 유사한 변형이 방법(300)에도 적용될 수 있다.
단계(500)에서, 양자화 컴포넌트(125)가 현재의 오디오 프레임 i 내의 하나 이상의 오디오 파라미터에 대하여 비예측성 양자화를 선택한 경우에, 양자화 컴포넌트(125)는 적응성 스케일링 계수 m을 최초 값 m0으로 설정(이는 단계 314의 문맥에서 기술됨)함으로써 그 다음 오디오 프레임 i+1에서 양자화 컴포넌트(125)에 의해 사용될 적응성 스케일링 계수 m을 추가로 리셋할 수 있으며 그리고 현재의 예측 줄 길이 L을 나타내는 카운터를 제로로 추가로 리셋할 수 있다(단계 414).
이와는 대조적으로, 양자화 컴포넌트(125)가 현재의 오디오 프레임 i 내의 하나 이상의 오디오 파라미터에 대하여 예측성 양자화를 선택한 경우에, 양자화 컴포넌트(125)는 현재의 예측 줄 길이 L을 나타내는 카운터를 1만큼 더 증가시키고, 그리고, 이어서 현재의 예측 줄 길이 L이 임계치 L0을 초과하는 경우, 스케일링 계수 m을 사전결정된 스케일링 계수 ms만큼 곱함으로써(단계 324의 문맥에서 기술됨) 그 다음 프레임 i+1에서 양자화 컴포넌트(125)에 의한 사용을 위해 적응성 스케일링 계수 m을 조정할 수 있다(단계 424). 그러므로, 적응성 스케일링 계수 m은 현재의 예측 줄 길이 L이 임계치 L0을 초과할 때까지 최초 값 m0에서 유지되지만, 임계치 L0을 초과한 예측 줄 길이의 각각의 프레임에 대해서는 적응성 스케일링 계수 m을 스케일링 계수 ms에 의해 조정하는 것이 행해진다.
전술한 예의 방법(300, 400, 500)의 문맥에서, 적응성 스케일링 계수 m을 최초 값 m0으로 리셋하거나(단계 314, 414) 적응성 스케일링 계수 m을 새로운 값으로 조정함으로써(단계 324, 424) 적응성 스케일링 계수 m을 조정하는 것이 기술된다.
이와 관련한 대안의 방법으로서, 방법(300, 400, 500)의 각각에서, 전술한 리셋 단계와 조정 단계는 생략될 수 있고 적응성 스케일링 계수 m의 값은 현재의 예측 줄 길이 L에 기초하여 도출될 수 있다. 이 때문에, 방법(300, 400)의 각각은 방법(500)의 단계 414 및 424에서 기술되는 예측 줄 길이 L의 현재 값을 추적하는 것을 더 포함할 수 있다.
이와 관련한 예로서, 적응성 스케일링 계수 m은 식 5a에 따른 예측 줄 길이 L에 기초하여, 또는 식 5b에 따른 예측 줄 길이 L 및 사전결정된 임계치 L0에 기초하여 계산될 수 있다.
이와 관련한 다른 예로서, 적응성 스케일링 계수 m은 양자화 컴포넌트(125)에 의해 액세스가능한 테이블을 인덱싱함으로써 획득될 수 있다. 이러한 테이블은 L의 사전결정된 범위, 가령 0 내지 Lmax의 범위 내의 각각의 값에 대해 적응성 스케일링 계수 m의 제각기의 값을 저장하도록 구성되며, 여기서 Lmax은 예측 줄 길이 L의 최대치로 간주되는 길이이다. 적응성 스케일링 계수 m의 계산 또는 적응성 스케일링 계수 m의 값을 찾기 위해 테이블에 액세스하는 것이 (방법 300, 400, 500에서의) 단계 303에 선행하거나 (방법 400, 500에서의) 단계 302에 선행하는 추가의 단계로서 제공될 수 있다.
제공된 양자화된 오디오 프레임은 추가의 정보와 더불어, 가령 사용된 양자화의 표시와 더불어, 전송기(112)에 의해 비트 스트림 내의 인코딩된 오디오 데이터의 일부로서 전송될 수 있다. 대안으로서, 양자화된 오디오 프레임 및 사용된 양자화의 가용 표시가 추후의 디코딩 및/또는 전송기(112)에 의한 추후의 전송을 위해 전자 장치(100) 내의 메모리에 저장될 수 있다.
전자 장치(150)에서, 비트 스트림은 수신 컴포넌트(162)에 의해 수신되어 디코더(171)에 제공된다. 디코더(171)에서, 합성 컴포넌트(174)는 수신된 비트 스트림 내의 양자화된 파라미터에 기반하여 합성된 오디오 신호를 구성한다. 구성된 오디오 신호는 이후에 가능하게는 가령 디지털 아날로그 변환과 같은 일부의 다른 처리 이후에 오디오 출력 컴포넌트(161)에 제공될 수 있다.
도 2 내지 도 5의 블럭들은 또한 양자화 컴포넌트(125)의 개략적 표시의 개별 처리 블럭으로서 이해될 수 있다.
도 6은 본 발명의 실시예에 따른 예측성 또는 비예측성 양자화가 소프트웨어로 구현될 수 있는 일 예의 전자 장치(600)의 개략적인 블럭도를 도시하고 있다.
전자 장치(600)는 가령 모바일폰일 수 있다. 이 전자 장치는 프로세서(630)와, 이 프로세서(630)에 링크된, 오디오 입력 컴포넌트(611), 오디오 출력 컴포넌트(661), 트랜시버(RX/TX)(612), 및 메모리(640)를 포함한다. 전자 장치(600)의 표시된 커넥션들은 도시되지 않은 다양한 다른 엘리먼트로 구현될 수 있다.
오디오 입력 컴포넌트(611)는 가령 마이크로폰, 마이크로폰 어레이, 또는 오디오 소스에 대한 인터페이스일 수 있다. 오디오 출력 컴포넌트(661)는 가령 라우드스피커일 수 있다. 메모리(640)는 컴퓨터 프로그램 코드를 저장하기 위한 섹션(641)과 데이터를 저장하기 위한 섹션(642)을 포함한다. 저장된 컴퓨터 프로그램 코드는 선택가능한 양자화를 사용하여 오디오 신호를 인코딩하기 위한 코드와, 오디오 신호를 디코딩하기 위한 코드를 포함한다. 프로세서(630)는 가용 컴퓨터 프로그램 코드를 실행하도록 구성된다. 가용 코드가 메모리(640)에 저장되어 있는한, 프로세서(630)는 필요할 때마다 메모리(640)의 섹션(641)으로부터 상기 코드를 인출할 수 있다. 실행을 위해 다른 다양한 컴퓨터 프로그램 코드, 가령 운영 프로그램 코드 및 다양한 애프리케이션을 위한 프로그램 코드가 또한 사용가능하다는 것을 이해해야 한다.
메모리(640)와 조합되는 저장된 인코딩 코드 또는 프로세서(630)는 본 발명의 실시예에 따른 예의 장치로서 간주될 수도 있다. 저장된 인코딩 코드를 저장하는 메모리(640)는 본 발명의 실시예에 따른 일 예의 컴퓨터 프로그램 제품으로 간주될 수 있다.
사용자 또는 전자 장치(600)에서 실행되는 프로세스가 입력 오디오 신호의 인코딩을 필요로 하는 전자 장치(600)의 기능을 선택할 경우, 이 기능을 제공하는 애플리케이션은 프로세서(630)로 하여금 메모리(640)로부터 상기 인코딩 코드를 인출하도록 한다. 오디오 신호들은 오디오 입력 컴포넌트(611)를 통해 수신되어 프로세서(630)로 제공되는데, 수신된 아날로그 오디오 신호의 경우 오디오 신호가 프로세서(630)로 제공되기 전에 디지털 오디오 신호로의 변환과 추가적인 전처리 단계 이후에 제공된다.
프로세서(630)는 인출된 인코딩 코드를 실행하여 디지털 오디오 신호를 인코딩한다. 이러한 인코딩은 도 2 내지 도 5 중 하나를 참조하여 도 1에서 기술된 인코딩에 대응할 수 있다. 인코딩 코드는 따라서 컴퓨터 프로그램 코드가 프로세서(630)에 의해 실행되거나 다른 컴퓨팅 장치에 의해 실행될 때 도 2 내지 도 5 중 하나를 참조하여 도 1에서 기술되는 인코딩을 야기하는 컴퓨터 프로그램 코드로 간주될 수 있다. 인코딩된 오디오 신호는 나중의 사용을 위해 메모리(640)의 데이터 저장부(642)에 저장되거나 또는 트랜시버(612)에 의해 다른 전자 장치로 전송된다.
프로세서(630)는 메모리(640)로부터 디코딩 코드를 추가로 인출할 수 있으며 이를 실행하여 트랜시버(612)를 통해 수신되거나 메모리(640)의 데이터 저장부(642)로부터 인출되는 인코딩된 오디오 신호를 디코딩할 수 있다. 이러한 디코딩은 도 1에서 기술된 디코딩에 대응할 수 있다. 디코딩된 디지털 오디오 신호는 그 후 오디오 출력 컴포넌트(661)에 제공될 수 있다. 오디오 출력 컴포넌트(661)가 라우드스피커를 포함하는 경우, 디코딩된 오디오 신호는 가령 아날로그 오디오 신호로 변환된 후 가능한 추가의 후처리 단계 이후에 라우드스피커를 통해 사용자에게 제공될 수 있다. 대안으로서, 디코딩된 디지털 오디오 신호는 메모리(640)의 데이터 저장부(642)에 저장될 수 있다.
도 1의 양자화 컴포넌트에 의해 예시되는 기능들 또는 도 6의 프로그램 코드(641)를 실행하는 프로세서(630)에 의해 예시되는 기능들은 또한 오디오 신호 세그먼트의 오디오 파라미터의 비예측성 양자화로 인해 발생하는 에러를 서술하는 제1 양자화 에러를 도출하는 수단과, 오디오 신호 세그먼트의 오디오 파라미터의 예측성 양자화로 인해 발생하는 에러를 서술하는 제2 양자화 에러를 도출하는 수단과, 오디오 파라미터가 제공되어 상기 예측성 양자화로 양자화되는 오디오 신호 세그먼트에 선행하는 연속적인 오디오 신호 세그먼트의 개수에 종속적인 적어도 적응성 마진만큼 제2 양자화 에러가 제1 양자화 에러를 초과하는지를 결정하는 수단과, 적어도 결정의 결과가 긍정적인 경우, 비예측성 양자화로 양자화된 오디오 신호 세그먼트의 오디오 파라미터를 인코딩된 오디오 신호의 일부로서 제공하는 수단과, 그렇지 않은 경우, 예측성 양자화로 양자화된 오디오 신호 세그먼트의 오디오 파라미터를 인코딩된 오디오 신호의 일부로서 제공하는 수단으로서 간주될 수 있다. 프로그램 코드(641)는 또한 기능적 모듈 또는 코드 컴포넌트의 형태의 상기 수단을 포함하는 것으로 간주될 수 있다.
본 발명의 바람직한 실시예에 적용되는 신규한 기본 특징들이 도시 및 기술되고 있으나, 기술되는 장치 및 방법의 형태 및 세부에서 다양한 생략 및 대체 및 변경이 본 발명의 범주 내에서 행해질 수 있다는 것이 당업자에게 이해될 것이다. 가령, 동일한 결과를 달성하는 실질적으로 동일한 방식에서 실질적으로 동일한 기능을 수행하는 엘리먼트들 및 방법의 단계들의 모든 조합이 본 발명의 범주 내에 있다는 것이 명시적으로 의도된다. 또한, 본 발명의 임의의 개시된 형태 또는 실시예와 관련하여 도시 및/또는 개시되는 구조 및/또는 엘리먼트 및/또는 방법 단계들이 일반적인 디자인 선택의 문제로서 임의의 다른 개시되거나 기술되거나 제안된 형태 또는 실시예에서 구성될 수 있다는 것이. 인식되어야 한다. 따라서, 첨부된 청구범위의 영역으로 표시되는 것에 의해서만 제한된다는 것이 의도된다. 또한 청구범위에서, 수단의 문구는 여기에 기술된 구조들이 열거된 기능 및 구조적인 등가물 뿐만 아니라 등가적인 구조를 수행하는 것을 커버하는 것으로 의도된다.
Claims (27)
- 일련의 오디오 신호 세그먼트를 처리함으로써 오디오 신호를 인코딩하는 방법으로서,
오디오 신호 세그먼트의 오디오 파라미터의 비예측성 양자화로 인해 발생하는 에러를 서술하는 제1 양자화 에러를 도출하는 단계와,
상기 오디오 신호 세그먼트의 상기 오디오 파라미터의 예측성 양자화로 인해 발생하는 에러를 서술하는 제2 양자화 에러를 도출하는 단계와,
상기 오디오 파라미터가 제공되어 상기 예측성 양자화로 양자화되며, 상기 오디오 신호 세그먼트에 선행하는, 연속적인 오디오 신호 세그먼트의 개수에 종속적인 적어도 적응성 마진만큼 상기 제2 양자화 에러가 상기 제1 양자화 에러를 초과하는지를 결정하는 단계와,
적어도 상기 결정의 결과가 긍정적인 경우, 상기 비예측성 양자화로 양자화된 상기 오디오 신호 세그먼트의 오디오 파라미터를 인코딩된 오디오 신호의 일부로서 제공하는 단계와,
그렇지 않은 경우, 상기 예측성 양자화로 양자화된 상기 오디오 신호 세그먼트의 오디오 파라미터를 인코딩된 오디오 신호의 일부로서 제공하는 단계를 포함하는
방법.
- 제1항에 있어서,
상기 적응성 마진은, 자신의 사전결정된 최초 값으로부터, 상기 오디오 파라미터가 제공되어 상기 비예측성 양자화로 양자화되는 가장 인접하게 선행하는 오디오 신호 세그먼트와 상기 오디오 신호 세그먼트 간의, 오디오 신호 세그먼트 각각에 대하여 사전결정된 양만큼 증가되는
방법.
- 제1항에 있어서,
상기 적응성 마진은, 자신의 사전결정된 최초 값으로부터, 상기 오디오 파라미터가 제공되어 상기 비예측성 양자화로 양자화되는 가장 인접하게 선행하는 오디오 신호 세그먼트와 상기 오디오 신호 세그먼트 간의, 예측 줄 길이에 관한 사전결정된 임계치를 초과하는, 오디오 신호 세그먼트 각각에 대하여 사전결정된 양만큼 증가되는
방법.
- 제2항 또는 제3항에 있어서,
상기 적응성 마진의 상기 사전결정된 최초 값은 제로인
방법.
- 제1항에 있어서,
상기 결정하는 단계는 적응성 스케일링 계수만큼 곱해진 상기 제1 양자화 에러가 상기 제2 양자화 에러보다 작은지를 결정하는 단계를 포함하며, 상기 적응성 스케일링 계수는 상기 오디오 신호 세그먼트에 대한 적응성 마진을 나타내는
방법.
- 제5항에 있어서,
상기 오디오 신호 세그먼트의 오디오 파라미터가 제공되어 상기 예측성 양자화로 양자화된 경우에 상기 적응성 스케일링 계수를 사전결정된 양만큼 감소시키는 단계를 더 포함하는
방법.
- 제5항에 있어서,
상기 오디오 신호 세그먼트의 오디오 파라미터가 제공되어 상기 예측성 양자화로 양자화되고, 연속적인 오디오 신호 세그먼트의 개수가 사전결정된 임계치를 초과하는 경우에 상기 적응성 스케일링 계수를 사전결정된 양만큼 감소시키는 단계를 더 포함하는
방법.
- 제5항 내지 제7항 중 어느 한 항에 있어서,
상기 오디오 신호 세그먼트의 오디오 파라미터가 제공되어 상기 비예측성 양자화로 양자화된 경우에 상기 적응성 스케일링 계수를 사전결정된 최초 값으로 리셋하는 단계를 더 포함하는
방법.
- 제8항에 있어서,
상기 사전결정된 최초 값은 1인
방법.
- 제3항 또는 제7항에 있어서,
상기 사전결정된 임계치는 3인
방법.
- 제1항 내지 제3항 및 제5항 내지 제7항 중 어느 한 항에 있어서,
상기 오디오 파라미터는 상기 오디오 신호 세그먼트의 스펙트럼 특성을 나타내는 이미턴스 스펙트럼 주파수 벡터와 라인 스펙트럼 주파수 벡터 중의 하나를 포함하는
방법.
- 제1항 내지 제3항 및 제5항 내지 제7항 중 어느 한 항에 있어서,
상기 제1 양자화 에러는 상기 오디오 파라미터의 컴포넌트와 상기 비예측성 양자화로 인해 발생하는 오디오 파라미터의 대응 컴포넌트 간의 가중화된 에러를 조합함으로써 획득되며,
상기 제2 양자화 에러는 상기 오디오 파라미터의 컴포넌트와 상기 예측성 양자화로 인해 발생하는 오디오 파라미터의 대응 컴포넌트 간의 가중화된 에러를 조합함으로써 획득되는
방법.
- 컴퓨터 판독가능 프로그램 코드가 컴퓨팅 장치 상에서 실행될 때 청구항 제1항 내지 제3항 및 제5항 내지 제7항 중 어느 한 항에 따른 방법을 실행하도록 구성되는 컴퓨터 판독가능 프로그램 코드를 저장한 컴퓨터 프로그램.
- 청구항 제13항에 따른 컴퓨터 프로그램을 포함한 컴퓨터 판독가능 기록 매체.
- 일련의 오디오 신호 세그먼트를 처리함으로써 오디오 신호를 인코딩하는 장치로서, 상기 장치는,
오디오 신호 세그먼트의 오디오 파라미터의 비예측성 양자화로 인해 발생하는 에러를 서술하는 제1 양자화 에러를 도출하는 것과,
상기 오디오 신호 세그먼트의 상기 오디오 파라미터의 예측성 양자화로 인해 발생하는 에러를 서술하는 제2 양자화 에러를 도출하는 것과,
상기 오디오 파라미터가 제공되어 상기 예측성 양자화로 양자화되며, 상기 오디오 신호 세그먼트에 선행하는, 연속적인 오디오 신호 세그먼트의 개수에 종속적인 적어도 적응성 마진만큼 상기 제2 양자화 에러가 상기 제1 양자화 에러를 초과하는지를 결정하는 것과,
적어도 상기 결정의 결과가 긍정적인 경우, 상기 비예측성 양자화로 양자화된 상기 오디오 신호 세그먼트의 오디오 파라미터를 인코딩된 오디오 신호의 일부로서 제공하는 것과,
그렇지 않은 경우, 상기 예측성 양자화로 양자화된 상기 오디오 신호 세그먼트의 오디오 파라미터를 인코딩된 오디오 신호의 일부로서 제공하는 것을
수행하도록 구성되는
장치.
- 제15항에 있어서,
상기 장치는, 상기 적응성 마진을, 자신의 사전결정된 최초 값으로부터, 상기 오디오 파라미터가 제공되어 상기 비예측성 양자화로 양자화되는 가장 인접하게 선행하는 오디오 신호 세그먼트와 상기 오디오 신호 세그먼트 간의, 오디오 신호 세그먼트 각각에 대하여 사전결정된 양만큼 증가시키는 것을 수행하도록 더 구성되는
장치.
- 제15항에 있어서,
상기 장치는, 상기 적응성 마진을, 자신의 사전결정된 최초 값으로부터, 상기 오디오 파라미터가 제공되어 상기 비예측성 양자화로 양자화되는 가장 인접하게 선행하는 오디오 신호 세그먼트와 상기 오디오 신호 세그먼트 간의, 예측 줄 길이에 관한 사전결정된 임계치를 초과하는, 오디오 신호 세그먼트 각각에 대하여 사전결정된 양만큼 증가시키는 것을 수행하도록 더 구성되는
장치.
- 제16항 또는 제17항에 있어서,
상기 적응성 마진의 상기 사전결정된 최초 값은 제로인
장치.
- 제15항에 있어서,
상기 결정하는 것을 수행하도록 구성되는 상기 장치는 적응성 스케일링 계수만큼 곱해진 상기 제1 양자화 에러가 상기 제2 양자화 에러보다 작은지를 결정하는 것을 수행하도록 구성되며, 상기 적응성 스케일링 계수는 상기 오디오 신호 세그먼트에 대한 적응성 마진을 나타내는
장치.
- 제19항에 있어서,
상기 장치는, 상기 오디오 신호 세그먼트의 오디오 파라미터가 제공되어 상기 예측성 양자화로 양자화된 경우에 상기 적응성 스케일링 계수를 사전결정된 양만큼 감소시키는 것을 수행하도록 더 구성되는
장치.
- 제19항에 있어서,
상기 장치는, 상기 오디오 신호 세그먼트의 오디오 파라미터가 제공되어 상기 예측성 양자화로 양자화되고, 그리고 상기 연속적인 오디오 신호 세그먼트의 개수가 사전결정된 임계치를 초과하는 경우에, 상기 적응성 스케일링 계수를 사전결정된 양만큼 감소시키는 것을 수행하도록 더 구성되는
장치.
- 제19항 내지 제21항 중 어느 한 항에 있어서,
상기 장치는, 상기 오디오 신호 세그먼트의 오디오 파라미터가 제공되어 상기 비예측성 양자화로 양자화된 경우에 상기 적응성 스케일링 계수를 사전결정된 최초 값으로 리셋하는 것을 수행하도록 더 구성되는
장치.
- 제22항에 있어서,
상기 사전결정된 최초 값은 1인
장치.
- 제17항 또는 제21항에 있어서,
상기 사전결정된 임계치는 3인
장치.
- 제15항 내지 제17항 및 제19항 내지 제21항 중 어느 한 항에 있어서,
상기 오디오 파라미터는 상기 오디오 신호 세그먼트의 스펙트럼 특성을 나타내는 이미턴스 스펙트럼 주파수 벡터와 라인 스펙트럼 주파수 벡터 중의 하나를 포함하는
장치.
- 제15항 내지 제17항 및 제19항 내지 제21항 중 어느 한 항에 있어서,
상기 장치는,
상기 오디오 파라미터의 컴포넌트와 상기 비예측성 양자화로 인해 발생하는 오디오 파라미터의 대응 컴포넌트 간의 가중화된 에러를 조합함으로써 상기 제1 양자화 에러를 계산하는 것과,
상기 오디오 파라미터의 컴포넌트와 상기 예측성 양자화로 인해 발생하는 오디오 파라미터의 대응 컴포넌트 간의 가중화된 에러를 조합함으로써 상기 제2 양자화 에러를 계산하는 것을 수행하도록 더 구성되는
장치. - 삭제
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/FI2014/050658 WO2016030568A1 (en) | 2014-08-28 | 2014-08-28 | Audio parameter quantization |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20170047338A KR20170047338A (ko) | 2017-05-04 |
KR101987565B1 true KR101987565B1 (ko) | 2019-06-10 |
Family
ID=51492974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020177008309A KR101987565B1 (ko) | 2014-08-28 | 2014-08-28 | 오디오 파라미터 양자화 |
Country Status (12)
Country | Link |
---|---|
US (2) | US10504531B2 (ko) |
EP (1) | EP3186808B1 (ko) |
KR (1) | KR101987565B1 (ko) |
CN (1) | CN107077856B (ko) |
CA (1) | CA2959450C (ko) |
ES (1) | ES2726193T3 (ko) |
MX (1) | MX365958B (ko) |
PH (1) | PH12017500352A1 (ko) |
PL (1) | PL3186808T3 (ko) |
RU (1) | RU2670377C2 (ko) |
WO (1) | WO2016030568A1 (ko) |
ZA (1) | ZA201701965B (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109688412B (zh) * | 2017-10-19 | 2021-01-01 | 上海富瀚微电子股份有限公司 | 一种有效抑制编码振铃效应的方法、编码器及编码方法 |
CN111899748B (zh) * | 2020-04-15 | 2023-11-28 | 珠海市杰理科技股份有限公司 | 基于神经网络的音频编码方法及装置、编码器 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080180307A1 (en) * | 2007-01-30 | 2008-07-31 | Nokia Corporation | Audio quantization |
US20080249767A1 (en) | 2007-04-05 | 2008-10-09 | Ali Erdem Ertan | Method and system for reducing frame erasure related error propagation in predictive speech parameter coding |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IT1184023B (it) * | 1985-12-17 | 1987-10-22 | Cselt Centro Studi Lab Telecom | Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante analisi a sottobande e quantizzazione vettorariale con allocazione dinamica dei bit di codifica |
JPH07109990B2 (ja) * | 1989-04-27 | 1995-11-22 | 日本ビクター株式会社 | 適応型フレーム間予測符号化方法及び復号方法 |
WO1994023426A1 (en) * | 1993-03-26 | 1994-10-13 | Motorola Inc. | Vector quantizer method and apparatus |
US6889185B1 (en) * | 1997-08-28 | 2005-05-03 | Texas Instruments Incorporated | Quantization of linear prediction coefficients using perceptual weighting |
US6691092B1 (en) * | 1999-04-05 | 2004-02-10 | Hughes Electronics Corporation | Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system |
US6574593B1 (en) * | 1999-09-22 | 2003-06-03 | Conexant Systems, Inc. | Codebook tables for encoding and decoding |
US6671669B1 (en) * | 2000-07-18 | 2003-12-30 | Qualcomm Incorporated | combined engine system and method for voice recognition |
AU2002214661A1 (en) * | 2000-10-25 | 2002-05-06 | Broadcom Corporation | System for vector quantization search for noise feedback based coding of speech |
US7171355B1 (en) * | 2000-10-25 | 2007-01-30 | Broadcom Corporation | Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals |
KR100487719B1 (ko) * | 2003-03-05 | 2005-05-04 | 한국전자통신연구원 | 광대역 음성 부호화를 위한 엘에스에프 계수 벡터 양자화기 |
US7523032B2 (en) * | 2003-12-19 | 2009-04-21 | Nokia Corporation | Speech coding method, device, coding module, system and software program product for pre-processing the phase structure of a to be encoded speech signal to match the phase structure of the decoded signal |
CN1677491A (zh) * | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
US7587314B2 (en) * | 2005-08-29 | 2009-09-08 | Nokia Corporation | Single-codebook vector quantization for multiple-rate applications |
DE602007012964D1 (de) * | 2006-07-19 | 2011-04-21 | Nissan Motor | Stoßdämpfer |
US7746882B2 (en) | 2006-08-22 | 2010-06-29 | Nokia Corporation | Method and device for assembling forward error correction frames in multimedia streaming |
CA2666546C (en) | 2006-10-24 | 2016-01-19 | Voiceage Corporation | Method and device for coding transition frames in speech signals |
JP4708446B2 (ja) | 2007-03-02 | 2011-06-22 | パナソニック株式会社 | 符号化装置、復号装置およびそれらの方法 |
JP4735711B2 (ja) * | 2008-12-17 | 2011-07-27 | ソニー株式会社 | 情報符号化装置 |
US9153242B2 (en) * | 2009-11-13 | 2015-10-06 | Panasonic Intellectual Property Corporation Of America | Encoder apparatus, decoder apparatus, and related methods that use plural coding layers |
US8977544B2 (en) * | 2011-04-21 | 2015-03-10 | Samsung Electronics Co., Ltd. | Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium and electronic device therefor |
US9336789B2 (en) * | 2013-02-21 | 2016-05-10 | Qualcomm Incorporated | Systems and methods for determining an interpolation factor set for synthesizing a speech signal |
US9478224B2 (en) * | 2013-04-05 | 2016-10-25 | Dolby International Ab | Audio processing system |
-
2014
- 2014-08-28 RU RU2017108166A patent/RU2670377C2/ru active
- 2014-08-28 ES ES14761388T patent/ES2726193T3/es active Active
- 2014-08-28 CN CN201480081934.0A patent/CN107077856B/zh active Active
- 2014-08-28 KR KR1020177008309A patent/KR101987565B1/ko active IP Right Grant
- 2014-08-28 CA CA2959450A patent/CA2959450C/en active Active
- 2014-08-28 US US15/506,416 patent/US10504531B2/en active Active
- 2014-08-28 MX MX2017002657A patent/MX365958B/es active IP Right Grant
- 2014-08-28 EP EP14761388.9A patent/EP3186808B1/en active Active
- 2014-08-28 WO PCT/FI2014/050658 patent/WO2016030568A1/en active Application Filing
- 2014-08-28 PL PL14761388T patent/PL3186808T3/pl unknown
-
2017
- 2017-02-27 PH PH12017500352A patent/PH12017500352A1/en unknown
- 2017-03-22 ZA ZA2017/01965A patent/ZA201701965B/en unknown
-
2019
- 2019-07-26 US US16/522,868 patent/US20190348055A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080180307A1 (en) * | 2007-01-30 | 2008-07-31 | Nokia Corporation | Audio quantization |
WO2008092719A1 (en) | 2007-01-30 | 2008-08-07 | Nokia Corporation | Audio quantization |
US20080249767A1 (en) | 2007-04-05 | 2008-10-09 | Ali Erdem Ertan | Method and system for reducing frame erasure related error propagation in predictive speech parameter coding |
Also Published As
Publication number | Publication date |
---|---|
RU2017108166A3 (ko) | 2018-09-28 |
US10504531B2 (en) | 2019-12-10 |
PL3186808T3 (pl) | 2019-08-30 |
MX2017002657A (es) | 2017-05-30 |
CN107077856A (zh) | 2017-08-18 |
EP3186808A1 (en) | 2017-07-05 |
WO2016030568A1 (en) | 2016-03-03 |
US20190348055A1 (en) | 2019-11-14 |
RU2670377C2 (ru) | 2018-10-22 |
CN107077856B (zh) | 2020-07-14 |
CA2959450C (en) | 2019-11-12 |
KR20170047338A (ko) | 2017-05-04 |
RU2017108166A (ru) | 2018-09-28 |
PH12017500352A1 (en) | 2017-07-17 |
CA2959450A1 (en) | 2016-03-03 |
ES2726193T3 (es) | 2019-10-02 |
ZA201701965B (en) | 2018-11-28 |
MX365958B (es) | 2019-06-20 |
US20180226082A1 (en) | 2018-08-09 |
EP3186808B1 (en) | 2019-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4810335B2 (ja) | 広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置 | |
JP5356406B2 (ja) | オーディオコーディングシステム、オーディオデコーダ、オーディオコーディング方法及びオーディオデコーディング方法 | |
US9786293B2 (en) | Signal coding and decoding methods and devices | |
KR101739789B1 (ko) | 오디오 인코더 및 디코더 | |
JP6452759B2 (ja) | 先進量子化器 | |
KR101100280B1 (ko) | 오디오 양자화 | |
CN101853664B (zh) | 一种信号去噪的方法和装置及音频解码系统 | |
US20190348055A1 (en) | Audio paramenter quantization | |
JP2008261999A (ja) | オーディオ復号装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |