KR20080091305A - 서로 다른 코딩 모델들을 통한 오디오 인코딩 - Google Patents

서로 다른 코딩 모델들을 통한 오디오 인코딩 Download PDF

Info

Publication number
KR20080091305A
KR20080091305A KR1020087023621A KR20087023621A KR20080091305A KR 20080091305 A KR20080091305 A KR 20080091305A KR 1020087023621 A KR1020087023621 A KR 1020087023621A KR 20087023621 A KR20087023621 A KR 20087023621A KR 20080091305 A KR20080091305 A KR 20080091305A
Authority
KR
South Korea
Prior art keywords
audio signal
section
coder mode
selection rule
mode
Prior art date
Application number
KR1020087023621A
Other languages
English (en)
Inventor
자리 매키넨
아리 라카니에미
파시 오잘라
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Priority to KR1020087023621A priority Critical patent/KR20080091305A/ko
Publication of KR20080091305A publication Critical patent/KR20080091305A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 적어도 제1 및 제2코더 모드가 오디오 신호의 섹션을 부호화하는데 사용될 수 있는, 오디오 신호의 부호화 지원 방법에 관한 것이다. 제1코더 모드는 서로 다른 두 코딩 모델들에 기반하는 코딩을 수행한다. 코딩 모델의 선택은 소정 분석 윈도에 대해 판단된 신호 특성에 기반하는 선택 규칙을 통해 행해진다. 제1코더 모드로의 스위칭 이후 섹션에 대한 오분류를 방지하기 위해, 분석 윈도에 충분한 섹션들이 수신되었을 때에만 선택 규칙이 활성화됨이 제안된다. 본 발명은 이 방법이 구현되는 모듈(2, 3), 장치(1) 및 그러한 모듈(2, 3)을 포함하는 시스템, 그리고 제안된 방법을 구현하기 위한 소프트웨어 코드를 포함하는 소프트웨어 프로그램 제품과도 마찬가지로 관련이 있다.
인코딩, 코딩 모델

Description

서로 다른 코딩 모델들을 통한 오디오 인코딩{Audio encoding with different coding models}
본 발명은 오디오 신호의 인코딩을 지원하는 방법에 관한 것으로서, 이 방법에서는 적어도 제1코더 모드 및 제2코더 모드가 오디오 신호의 특정 섹션을 인코딩하는데 사용될 수 있다. 적어도 제1코더 모드는 오디오 신호의 특정 섹션의 코딩이 적어도 두 상이한 코딩 모델들에 기반할 수 있게 한다. 제1코더 모드에서, 오디오 신호의 특정 섹션을 인코딩하기 위한 각개의 코딩 모델 선택은, 오디오 신호의 특정 섹션에 선행하는 적어도 한 섹션을 커버하는 해석 윈도의 신호 특성에 대한 해석에 기초하는 적어도 한 선택 규칙에 따라 이뤄진다. 본 발명은 또한 이에 대응되는 모듈, 대응되는 전자 장치, 대응되는 시스템, 및 대응되는 소프트웨어 프로그램 제품과도 마찬가지로 관련이 있다.
오디오 신호의 효율적 전송 및/또는 저장이 가능하도록 오디오 신호를 인코딩하는 것이 알려져 있다.
오디오 신호는, 음성(speech) 신호나 음악과 같은 다른 타입의 오디오 신호 일 수 있으며, 서로 다른 타입의 오디오 신호들에 대해서는 서로 상이한 코딩 모델들이 적합할 것이다.
음성 신호들을 코딩하는데 널리 사용되는 기술이 ACELP (Algebraic Code-Excited Linear Prediction, 대수적 코드-여자형 선형 예측) 코딩이다. ACELP는 인간의 음성 생성 시스템을 모델링하는데, 이것은 음성 신호의 주기성을 코딩하는데 매우 잘 들어맞는다. 결과적으로, 매우 낮은 비트 레이트를 가진 고 품질의 음성을 얻을 수 있다. 예를 들어, 적응적 멀티-레이트 광역 (AMR-WB)이 ACELP 기술에 기반하는 음성 코덱이다. AMR-WB는 이를테면 기술 사양서 3GPP TS 26.190: "음성 코덱 음성 프로세싱 기능들; AMR 광역 음성 코덱; 트랜스코딩 기능", V5.1.0 (2001-12)에서 기술되었다. 그러나 사람의 음성 생성 시스템에 기반하는 음성 코덱들은 보통 음악과 같은 다른 타입의 오디오 신호들에 대해서는 다소 열악하게 동작한다.
음성이 아닌 다른 오디오 신호들을 코딩하는데 널리 사용되는 기술이 변환 (transform) 코딩 (TCX)이다. 오디오 신호에 대한 변환 코딩의 우월성은 인지적 마스킹 (perceptual masking) 및 주파수 도메인 코딩에 기반한다. 그에 따른 오디오 신호의 품질은 변환 코딩을 위한 알맞은 코딩 프레임 길이를 선택함으로써 한층 개선될 수 있다. 그러나, 변환 코딩 기술들이 음성 이외의 오디오 신호들에 대해 높은 품질을 낳는 반면, 주기적 음성 신호들에 대한 이들의 성능은 양호하지 못하다. 따라서, 변환 코딩된 음성의 품질은 보통 다소 낮으며, 특히 긴 TCX 프레임 길이를 가질 때 그러하다.
확장형 AMR-WB (AMR-WB+) 코덱은 스테레오 오디오 신호를 하이(high) 비트레이트 모노 신호로서 부호화하고, 스테레어 확장에 대한 어떤 사이드 정보를 제공한다. AMR-WB+ 코덱은 ACELP 코딩 및 TCX 모델 둘 다를 활용하여 0 Hz부터 6400 Hz까지의 주파수 대역에 있는 코어(core) 모노 신호를 부호화한다. TCX 모델에 있어, 20 ms, 40 ms, 또는 80 ms인 코딩 프레임 길이가 사용된다.
ACELP 모델은 오디오 품질을 저하시킬 수 있고, 변형 코딩은 보통 음성에 대해, 특히 긴 코딩 프레임들이 사용될 때 성능이 형편없으므로, 코딩될 신호의 특성에 따라 개별적으로 최선의 코딩 모델이 선택되어야 한다. 실제로 사용될 코딩 모델의 선택은 여러 가지 방식들을 통해 수행될 수 있다.
모바일 멀티미디어 서비스 (MMS)들 같이, 낮은 복잡도의 기술을 요하는 시스템들에서, 보통 음악/음성 분류 알고리즘들이 최적 코딩 모델 선택에 활용된다. 이 알고리즘들은, 에너지 해석 및 오디오 신호의 주파수 특성에 기초하여, 전체 소스 신호를 음악이나 음성으로 분류한다.
오디오 신호가 단지 음성으로만 이뤄지거나, 음악으로만 이뤄지는 경우, 그러한 음악/음성 분류에 기반하여 전체 신호에 대해 같은 코딩 모델을 사용하는 것으로도 충분히 만족스러울 것이다. 다른 많은 경우들에서는 그러나, 부호화될 오디오 신호가 혼합 형태의 오디오 신호다. 이를테면, 오디오 신호 상에서 음성이 음악과 동시에 존재할 수 있고/거나 시간상으로 음악과 교대해가며 나타날 수 있다.
이러한 경우들에서는, 전체 소스 신호들을 음악이나 음성의 카테고리로 분류 하는 것은 지나치게 제한된 접근방식이다. 이때 오디오 신호를 코딩할 때 코딩 모델들 사이를 때에 따라 스위칭함으로써만 전반적인 오디오 품질이 최대화될 수 있다. 즉, ACELP 모델도 음성 아닌 오디오 신호라고 분류된 소스 신호를 코딩하는데 부분적으로 사용되고, TCX 모델 역시 음성 신호로 분류된 소스 신호에 부분적으로 사용된다.
확장형 AMR-WB (AMR-WB+) 코덱은 프레임 단위별 (frame-by-frame basis)로 혼합형 코딩 모델들로서 그러한 혼합형의 오디오 신호들을 코딩하기 위한 것으로도 디자인된다.
AMR-WB+에서 코딩 모델들을 선택하는 것은 몇 가지 방식들을 통해 수행될 수 있다.
가장 복잡한 방식에 있어서, 신호가 우선, ACELP 및 TCX 모델들의 모든 가능한 조합형으로서 부호화된다. 다음, 이 신호는 다시 각각의 조합에 대해 합성된다. 합성된 음성 신호들의 품질에 기초해 최선의 여기(excitation)가 선택된다. 특정 조합으로 나타난 합성된 음성의 품질은 가령 그 신호대잡음비 (SNR)를 판단하여 측정될 수 있다. 일부 어플리케이션들에서는 그러나, 이러한 것은 매우 높은 복잡도로 인해 실용적이지가 못하다. 그러한 어플리케이션들로는, 모바일 어플리케이션들 등이 포함될 수 있다. 상기 복잡도는 크게는 ACELP 코딩으로부터 기인하며, 이것이 인코더에서 가장 복잡한 부분이다.
MMS 같은 시스템들에서, 완전 폐쇄 루프 분석 합성 (analysis-by-synthesis) 방식 등은 수행하기에는 지나치게 복잡하다. 그러므로, MMS 인코더에서는, 특정 프레임을 부호화하는데 ACELP 코딩 모델이 선택될지 TCX 모델이 선택될지를 결정하는 데 있어 낮은 복잡도의 개방 루프 방법이 활용된다.
AMR-WB+은 각각의 프레임에 대해 각자의 코딩 모델을 선택함에 있어 두 개의 서로 다른 저 복잡도의 개방 루프 방식들을 제안한다. 두 개방 루프 방식들은 각자의 코딩 모델을 선택하는 데 소스 신호 특성 및 부호화 파라미터들을 평가한다.
첫 번째 개방 루프 방식에서, 오디오 신호가 우선 각 프레임 내에서 여러 주파수 대역들로 분리되고, 하위(lower) 주파수 대역들의 에너지와 상위(higher) 주파수 대역들의 에너지 사이의 관계 및 이 대역들에서의 에너지 레벨 변동들이 해석된다. 이제 오디오 신호의 각 프레임 내 오디오 콘텐츠가, 수행된 계측방식들에 기반하거나 상이한 분석 윈도들과 결정 문턱치들을 이용하는 이러한 계측방식들의 상이한 조합들에 기반하여, 음악 유형의 콘텐츠나 음성 유형의 콘텐츠로 분류된다.
모델 분류 세정(refinement)이라고도 불리는 두 번째 개방 루프 방식에서, 코딩 모델 선택은 오디오 신호 각개 프레임 내 오디오 콘텐츠의 주기성 및 정적 특성들의 평가에 기반한다. 주기성 및 정적 특성들은 상관관계, LTP (Long Term Predictin; 장기간 예측) 파라미터들 및 스펙트럼 거리 측정치들을 판단함으로써 보다 구체적으로 평가된다.
또 AMR-WB+ 코덱은, 샘플링 주파수가 변하지 않는다면, 오디오 스트림 코딩 중에, 전적으로 ACELP 코딩 모델을 이용하는 AMR-WB 모드들과, ACELP 코딩 모델이나 TCX 모델을 이용하는 확장 모드들 사이에서 스위치 할 수 있게 되어 있다. 샘플링 주파수는 가령 16 kHz일 수 있다.
확장 모드들은 AMR-WB 모드들 보다 높은 비트 레이트를 출력한다. 따라서 확장 모드에서 AMR-WB 모드로의 스위칭은, 인코딩 단과 디코딩 단을 연결하는 네트워크의 전송 여건이 네트워크 내 혼잡을 줄이기 위해 상위 비트 레이트에서 하위 비트 레이트로 바꿀 것을 요할 때, 바람직할 수 있다. 상위 비트 레이트 모드에서 하위 비트 레이트 모드로의 변경은, 모바일 브로드캐스트/멀티캐스트 서비스 (MBMS)시 저단(low-end) 수신기들을 병합하는데에도 역시 필요로 될 수 있다.
다른 한편으로 AMR-WB에서 확장 모드로의 스위칭은, 네트워크의 전송 여건의 변경이 하위 비트 레이트 모드에서 상위 비트 레이트 모드로의 변경을 허용할 때 바람직할 수 있다. 상위 비트 레이트 모드는 보다 나은 오디오 품질이 있게 한다.
코어 코덱이 AMR-WB 모드들과 AMR-WB+ 확장 모드들에 대해 동일한 6.4kHz의 샘플링 레이트를 이용하고 적어도 부분적으로 유사한 코딩 기술들을 이용하기 때문에, 이 주파수 대역에서 확장 모드로부터 AMR-WB 모드로의 변경 또는 그 반대의 변경은 원만하게 다뤄질 수 있다. 그러나, 코어 밴드 코딩 프로세스가 AMR-WB 모드와 확장 모드에서 살짝 다르기 때문에, 필요로 되는 모든 상태 변수들과 버퍼들이 저장되어 모드 스위칭시 한 알고리즘으로부터 다른 알고리즘으로 복사되는데 주의할 필요가 있다.
또, 코딩 모델 선택은 단지 확장 모드들에서만 필요로 됨을 참작해야 한다. 부여된 개방 루프 분류 방식들에서, 상대적으로 긴 분석 윈도들과 데이터 버퍼들이 활용된다. 인코딩 모델 선택은, 20 ms인 16 개 오디오 신호 프레임들에 해당하는, 320 ms까지의 길이를 갖는 분석 윈도들을 통한 통계적 분석을 이용한다. 해당 정 보가 AMR-WB 모드에서는 버퍼링 되어야 할 필요가 없기 때문에, 그것은 간단히 확장 모드 알고리즘들로 복사될 수 없다. AMR-WB에서 AMR-WB+로의 스위칭 후, 가령 통계적 분석에 사용되는 것 같은 분류 알고리즘들의 데이터 버퍼들은 유효한 정보를 갖지 않거나 리셋 된다. 따라서 스위칭 후 최초 320 ms 동안, 코딩 모델 선택 알고리즘은 현 오디오 신호에 대해 완전히 적응되거나 갱신될 수 없을 것이다. 비유효 버퍼 데이터에 기반하는 선택은 왜곡된 코딩 모델 결정을 야기한다. 예를 들어, 오디오 신호가 오디오 품질을 유지하기 위해 TCX 모델에 기반하는 코딩을 필요로 할 때조차, 선택시 ACELP 코딩 모델에 중대한 가산점이 부여될 것이다.
따라서, 낮은 복잡도의 코딩 모델 선택이 AMR-WB 모드에서 확장 모드로의 스위칭 후 열악하게 수행되기 때문에, 인코딩 모델 선택은 최적으로 되지 못한다.
본 발명의 목적은, 제1코딩 모드에서 제2코딩 모드로의 스위칭 이후 코딩 모델의 선택을 향상시키고자 하는 데 있다.
오디오 신호 인코딩을 지원하는 방법이 제안되며, 이 방법에서는, 적어도 제1코더 모드와 제2코더 모드가 오디오 신호의 특정 섹션을 부호화하는데 사용될 수 있다. 또한, 적어도 제1코더 모드는 적어도 두 상이한 코딩 모델들에 기반하여 오디오 신호의 특정 섹션에 대한 코딩을 수행한다. 제1코더 모드에서, 오디오 신호 의 특정 섹션을 부호화하기 위한 각개의 코딩 모델 선택은, 그 특정 섹션에 앞서는 오디오 신호의 적어도 한 섹션을 커버하는 분석 윈도로부터 적어도 부분적으로 판단되었던 신호 특성에 기반하는 적어도 한 선택 규칙에 의해 수행된다. 이 방법은, 제2코더 모드로부터 제1코더 모드로 스위칭한 후, 적어도 분석 윈도에 의해 커버되는 만큼 많은 오디오 신호의 섹션들을 수신한 데 대한 반응으로서 적어도 한 선택 규칙을 활성화하는 단계를 포함하도록 제안된다.
제1코더 모드 및 제2코더 모드는 각각 AMR-WB+ 코덱의 확장 모드 및 AMR-WB 모드 등일 수 있으나, 여기에만 한정되는 것은 아니다. 제1코더 모드에 사용가능한 코딩 모델들은 ACELP 코딩 모델 및 TCX 모델 등일 수 있다.
오디오 신호의 부호화를 지원하는 모듈 역시 제안된다. 이 모듈은 제1코더 모드에서 오디오 신호의 특정 섹션을 부호화하는데 적합한 제1코더 모드부 및, 제2코더 모드로서 오디오 신호의 각자의 섹션을 부호화하는데 적합한 제2코더 모드부를 포함한다. 이 모듈은 제1코더 모드부 및 제2코더 모드부 사이를 스위칭하는 스위칭 수단을 더 포함한다. 코더 모드부는 적어도 두 개의 상이한 코딩 모델들에 기반하여 오디오 신호의 각자의 섹션을 부호화하기 알맞은 인코딩부를 포함한다. 제1코더 모드부는 오디오 신호의 특정 섹션을 부호화하기 위한 인코딩부에 의해 사용될, 각개의 코딩 모델을 선택하기 위한 적어도 한 선택 규칙을 적용하도록 된 선택부를 더 포함한다. 이 적어도 한 선택 규칙은, 특정 섹션에 앞서는 오디오 신호의 적어도 한 섹션을 커버하는 분석 윈도로부터 적어도 부분적으로 결정되었던 신호 특성에 기반한다. 선택부는, 스위칭 수단을 통해, 적어도 분석 윈도에 의해 커 버되는 만큼 많은 오디오 신호 섹션들의 수를 수신한 데 반응하여, 제2코더 모드부에서 제1코더 모드부로 스위칭한 후에, 그 적어도 한 선택 규칙을 활성화하도록 된다.
이 모듈은 가령 인코더 또는 인코더의 일부일 수 있다.
그러한 모듈을 구비한 전자 기기 역시 제안되고 있다.
그러한 모듈과, 그에 더하여 그러한 모듈에 의해 부호화된 오디오 신호들을 복호화하기 위한 디코더를 구비하는 오디오 코딩 시스템이 더 제안된다.
마지막으로, 오디오 신호의 인코딩을 지원하기 위한 소프트웨어 코드가 저장되는 소프트웨어 프로그램 제품이 제안된다. 적어도 제1코더 모드 및 제2코더 모드가 오디오 신호의 각자의 섹션을 부호화하는데 사용될 수 있다. 적어도 제1코더 모드는 적어도 두 개의 상이한 코딩 모델들에 기초하여 오디오 신호의 개별 섹션 코딩을 수행한다. 제1코더 모드에서, 오디오 신호의 특정 섹션을 부호화하기 위한 각자의 코딩 모델 선택은, 특정 섹션에 앞서는 오디오 신호의 적어도 한 섹션을 커버하는 분석 윈도로부터 결정되었던 신호 특성에 기반하는 적어도 한 선택 규칙을 통해 수행된다. 인코더의 프로세싱 소자에서 실행시, 이 소프트웨어 코드는, 적어도 분석 윈도가 커버하는 만큼의 많은 오디오 신호의 섹션들을 수신한 데 대한 응답으로서 제2코더 모드로부터 제1코더 모드로 스위치한 다음 적어도 한 선택 규칙을 작동시킨다.
본 발명은, 코딩 모델 선택을 위한 베이스로서 사용되는 무효한 버퍼 콘텐츠들의 문제들을 피할 수 있다는 생각으로부터 진행된 것으로, 단지 버퍼 콘텐츠들이 적어도 각자의 선택 타입에 의해 요구되는 정도로 갱신된 후에 그러한 선택이 활성화되는 경우일 때이다. 따라서, 선택 규칙이 오디오 신호의 복수 개의 섹션들에 대한 분석 윈도를 사용해 판단된 신호 특성을 이용할 때, 그 선택 규칙은 분석 윈도에 의해 필요로 되는 모든 섹션들이 수신되었을 때에만 적용되어야 한다는 것이 제안된다. 그러한 동작 개시(activation)가 선택 규칙 자체의 일부일 수 있다.
본 발명의 이점은, 코더 모드의 스위칭 후 코딩 모델에 대한 개선된 선택을 가능하게 한다는 데 있다. 본 발명은 보다 구체적으로 오디오 신호의 오분류(misclassification)를 방지할 수 있게 하고, 그로써 부적절한 코딩 모델의 선택을 방지할 수 있다.
어떤 선택 규칙들이 작동되고 있지 않은 스위칭 이후의 시간 동안, 현재의 섹션에 앞선 오디오 신호의 섹션들에 대한 정보를 사용하지 않는 추가 선택 규칙이 제공됨이 바람직하다. 이 추가 규칙은 스위칭 직후에, 그리고 최소한 다른 선택 규칙들이 작동하기 전까지 적용될 수 있다.
분석 윈도를 통해 결정된 신호 특성에 기반하는 적어도 한 선택 규칙은, 단일 선택 규칙 또는 복수의 선택 규칙들을 포함할 수 있다. 후자의 경우, 관련 분석 윈도들은 서로 상이한 길이를 가질 수 있다. 결국, 복수의 선택 규칙들은 차례로 연이어 작동될 수 있다.
오디오 신호의 섹션은 특히, 20ms 오디오 신호 프레임 같은, 오디오 신호의 프레임일 수 있다.
적어도 한 선택 규칙을 통해 평가되는 신호 특성은 전적으로, 혹은 단지 부 분적으로만 분석 윈도에 기반할 수 있다. 단일 선택 규칙에 의해 사용되는 신호 특성 역시 서로 상이한 분석 윈도들에 기반할 수 있다는 것을 알아야 한다.
도 1은 본 발명의 실시예에 따른 오디오 코딩 시스템의 개략도로서, 최적 코딩 모델을 선택하기 위해 사용되는 선택 알고리즘들에 대한 소프트 활성을 가능하게 하는 것이다.
이 시스템은, AMR-WB+ 인코더(2)를 포함하는 제1장치(1)와 AMR-WB+ 디코더(22)를 포함하는 제2장치(21)를 구비한다. 제1장치(1)는 MMS 서버 등일 수 있고, 한편 제2장치(21)는 모바일 전화 또는 어떤 다른 모바일 장치 등일 수 있다.
AMR-WB+ 인코더(2)는 순수한 ACELP 코딩을 수행하도록 된 AMR-WB 인코딩부(4), 및 ACELP 코딩 모델 또는 TCX 모델에 기반한 부호화를 수행하도록 된 확장 인코딩부(5)를 포함한다. 따라서 확장 인코딩부(5)는 제1코더 모드부와, 본 발명의 제2코더 모드부인 AMR-WB 인코딩부(4)로 이뤄진다.
AMR-WB+ 인코더(2)는 오디오 신호 프레임들을 AMR-WB 인코딩부(4)나 확장 인코딩부(5)로 보내기 위한 스위치를 더 포함한다.
확장 인코딩부(5)는 신호 특성 결정부(11) 및 카운터(12)를 포함한다. 확장 인코딩부(5)와 연결된 스위치(6)의 단말은 두 부분들(11, 12) 모두의 입력에 연결되어 있다. 신호 특성 결정부(11)의 출력과 카운터(12)의 출력은 확장 인코딩부(5) 내에서 제1선택부(13), 제2선택부(14), 제3선택부(15), 검증부(16), 정 화(refinement)부(17) 및 최종 선택부(18)를 통해 ACELP/TCX 인코딩부(19)에 연결된다.
제시된 부분들(11 내지 19)이 스테레오 오디오 신호로부터 생성되었을 수 있는 모노 오디오 신호를 부호화하기 위해 디자인된 것임을 알 수 있다. 부가 스테레오 정보가 도시되지 않은 부가 스테레오 확장부들에서 생성될 수 있다. 인코더(2)가 도시되지 않은 추가 부분들을 구비하고 있음을 더 주지해야 한다. 제시된 부분들(12 내지 19)은 별개 부분들일 필요는 없으나, 동등하게 서로서로 혹은 다른 부분들과 관련될 수 있다는 것을 또한 알아야 할 것이다.
AMR-WB 인코딩부(4), 확장 인코딩부(5) 및 스위치(6)는 특히 점선으로 표시된, 인코더(2)의 프로세싱 소자(3) 안에서 실행되는 소프트웨어 SW에 의해 구현될 수 있다.
확장 인코딩부(5) 내에서의 프로세싱에 대해 지금부터 도 2의 흐름도를 참조해 보다 상세히 설명할 것이다.
인코더(2)는 제1장치(1)로 제공된 오디오 신호를 수신한다. 먼저, 스위치(6)가, 가령 제1장치(1)와 제2장치(21)를 연결하는 네트워크에는 충분한 수용능력이 없기 때문에 낮은 출력 비트 레이트를 만들기 위해 오디오 신호를 AMR-WB 인코딩부(4)로 제공한다. 그러나, 나중에 네트워크의 상황은 변화하여 상위 비트 레이트를 허용하게 된다. 그에 따라 오디오 신호는 이제 스위치(6)에 의해 확장 인코딩부(5)로 보내진다.
그러한 스위칭의 경우, 첫 번째 오디오 신호 프레임이 수신될 때 카운터(12) 의 값 StatClassCount가 15로 리셋된다. 그 다음부터, 카운터(12)는 이후의 오디오 신호 프레임이 확장 인코딩부(5)로 입력될 때마다 그 값 StatClassCount를 하나씩 감소시킨다.
또, 신호 특성 결정부(11)는 AMR-WB 음성 활동 검출기 (Voice Activity Detector, VAD) 필터 뱅크들을 이용해 각각의 입력 오디오 신호 프레임마다 다양한 에너지 관련 신호 특성을 결정한다.
20ms인 각각의 입력 오디오 신호 프레임에 대해, 필터 뱅크들은 0 Hz부터 6400 Hz까지의 주파수 범위를 아우르는 12 개의 비균등 주파수 대역들 각각의 신호 에너지 E(n)를 도출한다. 각각의 주파수 대역에 대한 정규 에너지 레벨 EN(n)을 도출하기 위해, 이제 각 주파수 대역 n의 에너지 레벨 E(n)은 이러한 Hz 단위 주파수 대역의 폭으로 나눠진다.
다음으로, 한편으로 짧은 윈도 stdshort(n)과 다른 한편으로 긴 윈도 stdlong(n)을 이용해 12 주파수 대역들 각각에 대한 정규 에너지 레벨들 EN(n) 각자의 표준 편차가 산출된다. 짧은 윈도는 네 오디오 신호 프레임들의 길이를 가진 것이고, 긴 윈도는 16 오디오 신호 프레임들의 길이를 가진 것이다. 즉, 각 주파수 대역에 있어서, 현재 프레임으로부터의 에너지 레벨과 이전 4개 및 16개 프레임들로부터의 에너지 레벨이 두 표준 편차 값들을 도출하는데 사용된다. 이전 프레임들의 정규 에너지 레벨들은 버퍼들로부터 찾아 볼 수 있는데, 이 버퍼에는 현 오디오 신호 프레임의 정규 에너지 레벨들 또한 나중에 사용되기 위해 저장된다.
그러나, 표준 편차들은, 음성 활동 표시자 VAD가 현 프레임에 대한 능동 음성 (active voice)을 가리킬 때에만 결정된다. 이것이 알고리즘을, 특히 긴 음성 중단(pauses) 뒤에 신속하게 반응할 수 있게 할 것이다.
이제, 정해진 표준 편차들은 길고 짧은 윈도 둘 모두에 대한 12 개의 주파수 대역들에 대해 평균화되어, 두 개의 평균 표준 편차 값들인 stdashort(n)과 stdalong(n)이 현 오디오 신호 프레임에 대한 제1 및 제2신호 특징으로서 구해진다.
현 오디오 신호 프레임에 대해, 하위 주파수 대역들에서의 에너지와 상위 주파수 대역들에서의 에너지 사이의 관계가 더 산출된다. 이를 위해, 신호 특징 결정부(11)가 하위 주파수 대역들 n=1부터 7의 에너지들 E(n)을 합해서 에너지 레벨 LevL을 얻는다. 에너지 레벨 LevL은 이들 Hz 단위의 하위 주파수 대역들의 총 폭으로 나누어짐으로써 정규화된다. 또, 신호 특징 결정부(11)는 상위 주파수 대역들 n=8부터 11까지의 에너지들 E(n)을 합해 에너지 레벨 LevH를 산출한다. 에너지 레벨 LevH는 마찬가지로 Hz 단위의 상위 주파수 대역들의 총 폭으로 나누어져 정규화된다. 최하위 주파수 대역 0는 이 계산에서 사용되지 않는데, 그 이유는 이것이 보통 너무 많은 에너지를 포함하여 계산을 왜곡하고 다른 주파수 대역들로부터의 기여분을 너무 적게 만들기 때문이다. 다음으로, 신호 특징 결정부(11)는 LPH=LevL/LevH 관계를 규정한다. 또, 현 오디오 신호 프레임과 이전 세 오디오 신호 프레임들에 대해 정해졌던 LPH 값들을 이용한 이동 평균 LPHa가 산출된다.
이제, 현재의 LPHa 값과 이전 7 개의 LPHa 값들을 합하여 현 프레임에 대한 에너지 관계식의 최종 값 LPHaF가 산출된다. 이러한 합산시, LPHa의 가장 최근 값들이 구 LPHa 값들보다 약간 높게 가중된다. 이전 7 개의 LPHa 값들이 동등하게 버퍼들로부터 검색되며, 버퍼에는 현 프레임에 대한 LPHa 값 역시 나중에 사용하기 위해 저장된다. LPHaF 값은 제3의 신호 특성을 이룬다.
신호 특성 결정부(11)는 현재의 오디오 신호 프레임에 대한 필터 뱅크들의 에너지 평균 레벨 AVL을 더 산출한다. AVL 값을 산출하기 위해, 배경 잡음에 대한 추정 레벨이 12 주파수 대역들 각각의 에너지 E(n)로부터 감산 된다. 그에 따른 결과들이 해당 주파수 대역의 Hz 단위 최고 주파수와 곱해진 후 합산된다. 이러한 곱셈이, 저주파수 대역들보다 상대적으로 적은 에너지를 포함하는 고주파수 대역들의 영향력을 조화시킬 수 있다. AVL 값은 제4의 신호 특성을 이룬다.
마지막으로, 특허 특성 결정부(11)는 현 프레임에 대해, 각 필터 뱅크의 배경 잡음 추정치만큼을 감축한 모든 필터 뱅크들로부터의 총 에너지 TotE0를 산출한다. 이 TotE0 값이 제5신호 특성을 이룬다.
결정된 신호 특성 및 카운터 값 StatClassCount가 이제 제1선택부(13)로 제공되어 지고, 제1선택부(13)에서는 현 프레임에 대한 최상의 코딩 모델을 선택하기 위해 다음과 같은 의사 코드 (pseudo-code)에 따른 알고리즘을 적용한다:
Figure 112008067817663-PAT00001
이 알고리즘이 이전 16 개의 오디오 신호 프레임들에 대한 정보에 기반하는 신호 특성 stdalong을 활용함을 알 수 있다. 따라서, 먼저, AMR-WB로부터의 스위칭 후 적어도 17개의 프레임들이 수신되었는지의 여부가 체크된다. 이것은 카운터(12)가 0의 StatClassCount 값을 가지게 되었을 때에 해당한다. 그렇지 않으면, 어떤 불분명한 모드가 현 프레임에 바로 연관된다. 이것이, 결과가 신호 특성 stdalong 및 LPHaF에 대한 틀린 값들을 파생시키는 무효한 버퍼 콘텐츠들에 의해 왜곡되지 않도록 보장한다.
신호 특성 및 지금까지 수행된 코딩 모델 선택에 대한 정보가 이제 제1선택부(13)에 의해 제2선택부(14)로 전달되고, 제2선택부(14)는 현 프레임에 대해 최상의 코딩 모델을 선택하기 위해 다음과 같은 의사 코드에 따른 알고리즘을 적용한다:
Figure 112008067817663-PAT00002
이 알고리즘의 두 번째 파트가, 이전의 4 오디오 신호 프레임들에 대한 정보에 기반하는 신호 특성 stdashort 및, 이전의 10 개으 오디오 신호 프레임들에 대한 정보에 기반하는 신호 특성 LPHaF를 이용한다는 것을 알 수 있다. 이 알고리즘 부분에 있어서, 우선, AMR-WB로부터의 스위칭 후 적어도 11 개의 프레임들이 수신되었는지의 여부가 체크된다. 이것은, 카운터가 '4'인 StatClassCount 값을 가진 시점에서의 경우에 해당한다. 이것이, 신호 특성 LPhaF 및stdashort에 대한 틀린 값들을 파생하는 무효한 버퍼 콘텐츠들에 의해 결과가 왜곡되지 않게 만든다. 전체적으로, 이 알고리즘은 이미 11번째부터 16번째 프레임에 대한 코딩 모델 선택을 허용하고, 이 외에 심지어는 평균 에너지 레벨 AVL이 소정 값을 초과하는 경우의 최초의 10개의 프레임들에 대한 코딩 모델의 선택을 가능하게 한다. 이 알고리즘 부분은 도 2에 나타나고 있지 않다. 이 알고리즘은 제1선택부913)에 의한 제1선택을 정련(refining)하기 위해 16번째 프레임에 이어지는 프레임들에 동등하게 적용된다.
신호 특성 및 지금까지 수행된 코딩 모델 선택에 대한 정보는 이제 제2선택 부(14)에 의해 제3선택부(15)로 보내지고, 제3선택부(15)에서는, 현 프레임에 대한 모드가 여전히 불명확한 경우, 현 프레임에 대한 최상의 코딩 모델을 선택하기 위해 다음과 같은 의사 코드에 따른 알고리즘을 적용한다:
Figure 112008067817663-PAT00003
이러한 의사 코드는 현 오디오 신호 프레임의 총 에너지 TotE0와 이전 오디오 신호 프레임의 총 에너지 TotE-1 사이의 관계를 이용한다. 따라서, 우선, AMR-WB로부터 스위칭한 다음 적어도 두 프레임들이 수신되었는지 여부가 체크된다. 이것은, 카운터가 '14'인 StatClassCount 값을 가진 직후의 경우에 해당한다.
상기 활용된 카운터 문턱치들은 다만 예들일 뿐이며, 여러 다른 방법으로 선택될 수 있다는 것을 알아야 한다. 제2선택부(14)에서 구현되는 알고리즘에서, 가령, 신호 특성 LPH가 신호 특성 LPHaF 대신 추정될 수도 있다. 이 경우, StatClassCount < 12에 해당하는 적어도 5 개의 프레임들이 수신되었는지의 여부를 체크하는 것으로 충분할 것이다.
신호 특성 및 이제까지 수행된 코딩 모델 선택에 대한 정보는 이제 제3선택부(15)에 의해 검증부(16)로 보내지고, 검증부(16)에서는 다음과 같은 의사 코드에 따른 알고리즘이 적용된다:
Figure 112008067817663-PAT00004
이 알고리즘은, 현 프레임에 대한 모드가 아직 불확실한 경우, 현 프레임에 대한 가능한 최상의 코딩 모델을 선택할 수 있게 하고, 이미 선택된 TCX 모드가 적절한지 여부를 검증할 수 있게 한다.
검증부(16) 처리 후에도, 현 오디오 신호 프레임과 결부된 모드는 여전히 불확정적일 수 있다.
가장 빠른 접근법으로서, 이제 단순히 어떤 소정 코딩 모델, 즉 ACELP 코딩 모델이나 TCX 코딩 모델이 나머지 미확정 모드 프레임들에 대해 선택된다.
보다 세련된 방법에서, 도 2에도 도시된 몇몇 추가 분석이 먼저 수행된다.
이를 위해, 지금까지 수행된 코딩 모델 선택에 대한 정보가 이제 검증부(16)에 의해 정화부(17)로 보내진다. 정화부(17)는 모델 분류 정화 (model classification refinement)를 적용한다. 상술한 바와 같이, 이것은 오디오 신호의 주기성 및 정적 특성에 기반하는 코딩 모델 선택이다. 주기성은 LTP 파라미터들을 이용함으로써 관찰된다. 정적 특성들은 정규 상관관계 및 스펙트럼 거리 측정치를 이용해 분석된다.
부분들(13, 14, 15, 16 및 17)에 의한 분석은 오디오 신호 특성에 기초해 각개 프레임 콘텐츠가 음성으로 추정될 수 있는지, 음악 같은 다른 오디오 콘텐츠로 추정될 수 있는지의 여부를 판단하고, 그러한 분류가 가능하다면 해당하는 코딩 모델을 선택한다. 부분들(13, 14, 15, 16)은 에너지 관련 특성을 평가하는 제1개방 루프 방식을 구현하고, 한편 부분(17)은 오디오 신호의 주기성 및 정적 특성을 평가하는 제2개방 루프 방식을 구현한다.
TCX 모델이나 ACELP 코딩 모델을 선택하는데 서로 다른 두 개방 루프 방식들이 헛되이 적용되고 있었던 경우, 어떤 경우들에 있어 또 다른 기존 개방 루프 알고리즘들을 통해 최적 인코딩 모델이 선택되기는 어려울 것이다. 따라서, 본 발명의 실시예에서는 나머지 불명확한 모드의 선택들에 대해서는 간단한 카운팅 기반 분류가 이용된다.
각개의 불명확한 모드 프레임에 대해 음성 활동 지시자 VADflag가 세팅되어 있는 경우, 최종 선택부(18)는 각자의 이웃하는 프레임들과 결부된 코딩 모델들의 통계적 추정에 기반하여 나머지 불명확한(UNCERTAIN) 모드 프레임들에 대한 특정 코딩 모델을 선택한다.
통계적 추정에 있어서, 불명확한 모드 프레임이 속한 현재의 수퍼프레임 및, 이러한 현재의 수퍼프레임에 앞선 이전 수퍼프레임이 고려된다. 수퍼프레임은 80ms 길이로 되어, 각각 20ms로 된 네 개의 연속적 오디오 프레임들을 포함한다. 최종 선택부(18)는 카운터들을 사용해 현재의 수퍼프레임 내 프레임 개수와, 앞서의 선택부들(12 내지 17) 중 하나에 의해 ACELP 코딩 모델이 선택되어 있던 이전 수퍼프레임의 프레임 개수를 카운트한다. 또, 최종 선택부는, 이전 선택부들(12 내지 17) 중 하나에 의해 40ms 또는 80ms의 코딩 프레임 길이를 가진 TCX 모델이 선택되었고, 음성 활동 지시자가 세팅되어 있으며, 그 외에 총 에너지가 소정 문턱치를 초과하고 있는, 이전 수퍼프레임의 프레임 개수를 카운트한다. 총 에너지는 오디오 신호를 서로 다른 주파수 대역들로 나누고, 전 주파수 대역들에 대해 각자 신호 레벨을 결정하고, 그 결과에 따른 레벨들을 합산함으로써 산출될 수 있다. 한 프레임의 총 에너지에 대한 소정 문턱치는 60 등으로 세팅될 수 있다.
현재의 수퍼프레임 n이 부호화될 수 있기 전에, 현 수퍼프레임 전체에 대한 코딩 모델들의 할당이 완료되어야 한다. 따라서 ACELP 코딩 모델이 할당된 프레임들의 카운팅이 불명확한 모드 프레임에 앞선 프레임들로만 한정되지 않는다. 불명확한 모드의 프레임이 현 수퍼프레임의 마지막 프레임만 아니면, 이어지는 프레임들의 선택된 인코딩 모델들 역시 고려된다.
프레임들의 카운팅은 가령 다음과 같은 의사 코드를 통해 정리될 수 있다:
Figure 112008067817663-PAT00005
이 의사 코드에서, i는 각개 수퍼프레임 내 한 프레임의 넘버를 나타내는 것으로, 1, 2, 3, 4의 값들을 가지며, j는 현재의 수퍼프레임 내 현 프레임의 넘버를 가리킨다. prevMode(i)는 이전 수퍼프레임 내 20ms 짜리 i 번째 프레임의 모드이고, Mode(i)는 현 수퍼프레임 내 20ms 짜리 i 번째 프레임의 모드이다. TCX80은 80ms의 코딩 프레임을 이용하는 선택된 TCX 모델을 나타내고, TCX 40은 40ms의 코딩 프레임을 이용하는 선택된 TCX 모델을 나타낸다. vadFlagold(i)는 이전 수퍼프레임 내 i 번째 프레임의 음성 활동 지시자 VAD를 나타낸다. 카운터 값 TCXCount는 이전 수퍼프레임 내에서 선택된 긴 TCX 프레임들의 개수를 나타내고, 카운터 값 ACELPCount는 이전과 현재의 수퍼프레임 내 ACELP 프레임들의 개수를 나타낸다.
이제 통계적 추정은 다음과 같이 수행된다:
이전 수퍼프레임 내에서 40ms 또는 80ms의 코딩 프레임 길이를 갖는 긴 TCX 모드 프레임들의 카운트된 개수가 3보다 크면, TCX 모델이 불명확한 모드 프레임에 대해 균등하게 선택된다.
반면, 현재와 이전 수퍼프레임 내에서 카운트된 ACELP 모드 프레임들의 개수가 1 보다 크면, 불명확한 모드 프레임에 대해 ACELP 모델이 선택된다.
다른 모든 경우들에서는, 불명확한 모드 프레임에 대해 TCX 모델이 선택된다.
j 번째 프레임에 대한 코딩 모델 Mode(j)의 선택은 다음과 같은 의사코드 등을 통해 정리될 수 있다:
Figure 112008067817663-PAT00006
카운터 값 StatClassCount가 12 미만이면, 카운트에 기반하는 방식만이 수행된다. 이것은, AMR-WB에서 확장 모드로의 스위칭 후 카운트에 기반하는 분류 방식이 최초의 네 프레임들에 대해, 즉 최초의 4*20 ms 동안 수행되지 않음을 의미한다.
카운터 값 StatClassCount가 12와 같거나 그보다 크고 인코딩 모델이 계속해서 불명확 모드로 분류되면, TCX 모델이 선택된다.
음성 활동 지시자 VADflag가 세팅되어 있지 않아서, 해당 플래그가 침 묵(silent) 기간임을 나타내면, 선택 모드는 디폴트로 TCX가 되고 어떠한 모드 선택 알고리즘도 수행될 필요가 없다.
따라서 부분(13, 14 및 15)들이 본 발명의 적어도 한 선택부를 이루게 되는 한편, 부분들(16, 17 및 18)과 일부 부분(14)이 본 발명의 적어도 한 추가 선택부를 이룬다.
ACELP/TCX 인코딩부(19)는 이제 각자 선택된 코딩 모델에 기반하여 오디오 신호의 모든 프레임들을 부호화한다. TCX 모델은 선택된 코딩 프레임 길이를 이용하는 고속 푸리에 변환 (FFT) 등의 예에 기반하며, ACELP 코딩 모델은 선형 예측 계수들 (LPC) 여기excitation)에 대한 LTP 및 고정 코드북 파라미터들 등을 이용한다.
이제 인코딩부(19)는 제2장치(21)로의 전송을 위해 부호화된 프레임들을 제공한다. 제2장치(21)에서, 디코더(22)가 AMR-WB 모드나 확장 모드를 이용하여, 수신된, ACELP 코딩 모델이나 TCX 코딩 모델의 모든 프레임들을 필요에 따라 복호화한다. 복호된 프레임들은 가령 제2장치(21) 사용자에게 보여지도록 제공된다.
정리하면, 상술한 실시예는 선택 알고리즘들의 소프트 활성을 가능하게 하고, 이때 제공되는 선택 알고리즘들은 선택 규칙들과 관련된 분석 버퍼들이 완전히 갱신된 순서로 활성화된다. 한 개 이상의 선택 알고리즘들이 불능(disabled)인 동안, 선택은 이 버퍼 콘텐츠에 의존하지 않는 다른 선택 알고리즘들에 기반해 수행된다.
상술한 실시예들은 본 발명의 가능한 여러 실시예들 중 하나를 구성하는 것 일 뿐임을 알아야 한다.
본 발명의 다른 목적들과 특성들이 첨부된 도면들과 연계되어 고려되는 이하의 상세한 설명을 통해 자명해질 것이다.
도 1은 본 발명의 실시예에 따른 오디오 코딩 시스템의 개략도이다;
도 2는 도 1의 시스템에 구현된 본 발명에 따른 방법의 실시예를 예시한 흐름도이다.

Claims (23)

  1. 적어도 제1코더 모드 및 제2코더 모드가 오디오 신호의 특정 섹션을 부호화하는데 이용 가능하고, 적어도 상기 제1코더 모드는 적어도 서로 다른 두 코딩 모델들에 기반하여 상기 오디오 신호의 특정 섹션 코딩을 수행하고, 상기 제1코더 모드에서 상기 오디오 신호의 특정 섹션을 부호화하기 위한 각자의 코딩 모델 선택은, 상기 특정 섹션에 앞선 상기 오디오 신호의 적어도 한 섹션을 커버하는 분석 윈도 (analysis window)로부터 적어도 일부 판단되었던 신호 특성에 기반하는 적어도 한 선택 규칙에 의해 이뤄지는, 오디오 신호 인코딩 지원 방법에 있어서,
    상기 제2코더 모드로부터 상기 제1코더 모드로 스위칭한 후, 적어도 상기 분석 윈도에 의해 커버되는 만큼 많은 상기 오디오 신호의 섹션들을 수신한 데 반응하여 상기 적어도 한 선택 규칙을 활성화하는 단계를 포함함을 특징으로 하는 방법.
  2. 제1항에 있어서, 상기 제1코더 모드에서 오디오 신호의 특정 섹션을 부호화하기 위해 각개의 코딩 모델을 선택하는 것은, 상기 특정 섹션에 앞서는 상기 오디오 신호의 섹션들에 대한 아무 정보도 이용하지 않는 적어도 한 추가 선택 규칙을 통해 이뤄지고, 상기 적어도 한 추가 선택 규칙은, 적어도 수신된 섹션들의 개수가 , 상기 적어도 한 선택 규칙을 위해 신호 특성이 판단되는 분석 윈도에 의해 커버되는 섹션들의 개수보다 적은 때에 한하여 적용됨을 특징으로 하는 방법.
  3. 제1항 또는 제2항에 있어서, 상기 분석 윈도로부터 판단된 신호 특성에 기반하는 적어도 한 선택 규칙은, 보다 짧은 분석 윈도를 통해 판단된 신호 특성에 기반하는 제1선택 규칙, 및 보다 긴 분석 윈도를 통해 판단된 신호 특성에 기반하는 제2선택 규칙을 구비하고,
    상기 제1선택 규칙은 상기 보다 짧은 분석 윈도에 충분한 상기 오디오 신호의 섹션들이 수신되자마자 활성화되고, 상기 제2선택 규칙은 상기 보다 긴 분석 윈도에 충분한 상기 오디오 신호의 섹션들이 수신되지마자 활성화됨을 특징으로 하는 방법.
  4. 제3항에 있어서, 상기 오디오 신호 각개의 섹션은 20ms 길이를 가진 각개의 오디오 신호 프레임에 해당하고, 상기 보다 짧은 윈도는 코딩 모델이 선택될 오디오 신호 프레임 및 그에 부가하여 이전의 네 오디오 신호 프레임들을 커버하고, 상기 보다 긴 윈도는 코딩 모델이 선택될 오디오 신호 프레임과 그에 더해 이전의 16 오디오 신호 프레임들을 커버함을 특징으로 하는 방법.
  5. 제1항 또는 제2항에 있어서, 상기 신호 특성은 각자의 분석 윈도 내 에너지 관련 값들의 표준 편차를 포함함을 특징으로 하는 방법.
  6. 제1항 또는 제2항에 있어서, 상기 제1코더 모드는 확장된 적응형 멀티 레이 트 광대역 코덱의 확장 모드로서 대수적 코드-여기형 선형 예측 코딩 모델 (algebraic code-exited linear prediction coding model)에 기반하는 코딩 및 부가적으로 변환 코딩 모델에 기반하는 코딩을 수행하고,
    상기 제2코더 모드는 확장된 적응형 멀티 레이트 광대역 코덱의 적응형 멀티 레이트 광대역 모드로서, 대수적 코드-여기형 선형 예측 코딩 모델에 기반하는 코딩을 수행함을 특징으로 하는 방법.
  7. 제1항 또는 제2항에 있어서,
    상기 섹션은 오디오 신호의 한 프레임이거나 서브 프레임임을 특징으로 하는 방법.
  8. 오디오 신호의 부호화를 지원하는 장치에 있어서,
    - 오디오 신호의 각자의 섹션을 제1코더 모드로 부호화하도록 된 제1코더 모드부;
    - 오디오 신호의 각자의 섹션을 제2코더 모드로 부호화하도록 된 제2코더 모드부;
    - 상기 제1코더 모드부 및 상기 제2코더 모드부 사이에서 스위칭을 행하는 스위칭 수단을 포함하고,
    - 적어도 서로 다른 두 코딩 모델들에 기반해 상기 오디오 신호의 각자 섹션을 부호화하도록 된 인코딩부가 상기 제1코더 모드부에 의해 구비되고;
    - 상기 오디오 신호의 특정 섹션을 부호화하기 위해 상기 인코딩부에 의해 사용될 특정 코딩 모델을 선택하기 위한 적어도 한 선택 규칙을 적용하도록 된 선택부가 상기 제1코더 모드부에 더 구비되고,
    상기 적어도 한 선택 규칙은, 상기 특정 섹션에 앞선 상기 오디오 신호의 적어도 한 섹션을 커버하는 분석 윈도 (analysis window)로부터 적어도 일부 판단되었던 신호 특성에 기반하고, 상기 선택부는, 상기 스위칭 수단에 의한 상기 제2코더 모드부로부터 상기 제1코더 모드부로의 스위칭 후에, 적어도 상기 분석 윈도에 의해 커버되는 만큼 많은 상기 오디오 신호의 섹션들을 수신한 데 반응하여 상기 적어도 한 선택 규칙을 활성화하도록 구성됨을 특징으로 하는 장치.
  9. 제8항에 있어서,
    상기 오디오 신호 섹션들의 개수를 카운트하도록 된 카운터를 더 포함하고, 그 카운트 수는 상기 제2코더 모드부로부터 상기 제1코더 모드부로 스위칭된 뒤 상기 제1코더 모드부로 제공됨을 특징으로 하는 장치.
  10. 제8항 또는 제9항에 있어서, 상기 제1코더 모드부는, 오디오 신호의 특정 섹션을 부호화하기 위해 상기 인코딩부에 의해 사용될 각자의 코딩 모델을 선택하기 위한 적어도 한 추가 선택 규칙을 적용하도록 구성된 적어도 한 추가 선택부를 더 포함하고,
    상기 적어도 한 추가 선택 규칙은, 상기 특정 섹션에 앞선 상기 오디오 신호 의 섹션에 대한 어떠한 정보도 이용하지 않으며,
    상기 적어도 한 추가 선택 규칙은, 상기 제2코더 모드부로부터 상기 제1코더 모드부로의 스위칭 후, 적어도 수신된 섹션들의 개수가, 분석 윈도 내 신호 특성에 대한 분석에 기초하는 상기 적어도 한 선택 규칙을 위해 사용되는 분석 윈도에 의해 커버되는 섹션들의 개수보다 적을 때에 한하여 적용됨을 특징으로 하는 장치.
  11. 제8항 또는 제9항에 있어서, 상기 적어도 한 선택부는, 보다 짧은 분석 윈도를 통해 판단된 신호 특성에 기반하는 제1선택 규칙을 적용하도록 구성된 제1선택부, 및 보다 긴 분석 윈도를 통해 판단된 신호 특성에 기반하는 제2선택 규칙을 적용하도록 구성된 제2선택부를 구비하고,
    상기 제1선택 규칙은, 상기 제2코더 모드부에서 상기 제1코더 모드부로의 스위칭 후 상기 제1코드 모드부에 의해 상기 보다 짧은 분석 윈도에 충분한 상기 오디오 신호의 섹션들이 수신되자마자 활성화되고,
    상기 제2선택 규칙은, 상기 제2코더 모드부에서 상기 제1코더 모드부로의 스위칭 후 상기 제1코더 모드부에 의해 상기 보다 긴 분석 윈도에 충분한 상기 오디오 신호의 섹션들이 수신되지마자 활성화됨을 특징으로 하는 장치.
  12. 오디오 신호의 부호화를 지원하는 전자 장치에 있어서, 상기 전자 장치는,
    - - 오디오 신호의 각자의 섹션을 제1코더 모드로 부호화하도록 된 제1코더 모드부;
    - 오디오 신호의 각자의 섹션을 제2코더 모드로 부호화하도록 된 제2코더 모드부;
    - 상기 제1코더 모드부 및 상기 제2코더 모드부 사이에서 스위칭을 행하는 스위칭 수단을 포함하고,
    - 적어도 서로 다른 두 코딩 모델들에 기반해 상기 오디오 신호의 각자 섹션을 부호화하도록 된 인코딩부가 상기 제1코더 모드부에 의해 구비되고;
    - 상기 오디오 신호의 특정 섹션을 부호화하기 위해 상기 인코딩부에 의해 사용될 특정 코딩 모델을 선택하기 위한 적어도 한 선택 규칙을 적용하도록 된 선택부가 상기 제1코더 모드부에 더 구비되고,
    상기 적어도 한 선택 규칙은, 상기 특정 섹션에 앞선 상기 오디오 신호의 적어도 한 섹션을 커버하는 분석 윈도 (analysis window)로부터 적어도 일부 판단되었던 신호 특성에 기반하고, 상기 선택부는, 상기 스위칭 수단에 의한 상기 제2코더 모드부로부터 상기 제1코더 모드부로의 스위칭 후에, 적어도 상기 분석 윈도에 의해 커버되는 만큼 많은 상기 오디오 신호의 섹션들을 수신한 데 반응하여 상기 적어도 한 선택 규칙을 활성화하도록 구성됨을 특징으로 하는 전자 장치.
  13. 제12항에 있어서,
    상기 오디오 신호 섹션들의 개수를 카운트하도록 된 카운터를 더 포함하고, 그 카운트 수는 상기 제2코더 모드부로부터 상기 제1코더 모드부로 스위칭된 뒤 상기 제1코더 모드부로 제공됨을 특징으로 하는 전자 장치.
  14. 제12항 또는 제13항에 있어서, 상기 제1코더 모드부는, 오디오 신호의 특정 섹션을 부호화하기 위해 상기 인코딩부에 의해 사용될 각자의 코딩 모델을 선택하기 위한 적어도 한 추가 선택 규칙을 적용하도록 구성된 적어도 한 추가 선택부를 더 포함하고,
    상기 적어도 한 추가 선택 규칙은, 상기 특정 섹션에 앞선 상기 오디오 신호의 섹션들에 대한 어떠한 정보도 이용하지 않으며,
    상기 적어도 한 추가 선택 규칙은, 상기 제2코더 모드부로부터 상기 제1코더 모드부로의 스위칭 후, 적어도 수신된 섹션들의 개수가, 분석 윈도 내 신호 특성에 대한 분석에 기초하는 상기 적어도 한 선택 규칙을 위해 사용되는 분석 윈도에 의해 커버되는 섹션들의 개수보다 적을 때에 한하여 적용됨을 특징으로 하는 전자 장치.
  15. 제12항 또는 제13항에 있어서, 상기 적어도 한 선택부(13, 14, 15)는, 보다 짧은 분석 윈도를 통해 판단된 신호 특성에 기반하는 제1선택 규칙을 적용하도록 구성된 제1선택부, 및 보다 긴 분석 윈도를 통해 판단된 신호 특성에 기반하는 제2선택 규칙을 적용하도록 구성된 제2선택부를 구비하고,
    상기 제1선택 규칙은, 상기 제2코더 모드부에서 상기 제1코더 모드부로의 스위칭 후 상기 제1코드 모드부에 의해 상기 보다 짧은 분석 윈도에 충분한 상기 오디오 신호의 섹션들이 수신되자마자 활성화되고,
    상기 제2선택 규칙은, 상기 제2코더 모드부에서 상기 제1코더 모드부로의 스위칭 후 상기 제1코더 모드부에 의해 상기 보다 긴 분석 윈도에 충분한 상기 오디오 신호의 섹션들이 수신되지마자 활성화됨을 특징으로 하는 전자 장치.
  16. 제15항에 있어서, 상기 오디오 신호 각개의 섹션은 20ms 길이를 가진 각개의 오디오 신호 프레임에 해당하고, 상기 보다 짧은 윈도는 코딩 모델이 선택될 오디오 신호 프레임 및 그에 부가하여 이전의 네 오디오 신호 프레임들을 커버하고, 상기 보다 긴 윈도는 코딩 모델이 선택될 오디오 신호 프레임과 그에 더해 이전의 16 오디오 신호 프레임들을 커버함을 특징으로 하는 전자 장치.
  17. 제12항 또는 제13항에 있어서, 상기 제1코더 모드부는, 각자의 분석 윈도를 통해 상기 오디오 신호의 신호 특성을 판단하고 상기 신호 특성을 상기 선택부로 제공하는 신호 특성 결정부를 더 포함하고,
    상기 신호 특성은 각자의 분석 윈도에서의 에너지 관련 값들의 표준 편차를 포함함을 특징으로 하는 전자 장치.
  18. 제12항 또는 제13항에 있어서, 상기 제1코더 모드는 확장된 적응형 멀티 레이트 광대역 코덱의 확장 모드이고, 상기 제1코더 모드부의 상기 인코딩부가 대수적 코드-여기형 선형 예측 코딩 모델 (algebraic code-exited linear prediction coding model)에 기반하여 오디오 신호 섹션들을 부호화하도록 구성되고,
    상기 제2코더 모드는 확장된 적응형 멀티 레이트 광대역 코덱의 적응형 멀티 레이트 광대역 모드이고, 상기 제2코더 모두부가, 대수적 코드-여기형 선형 예측 코딩 모델에 기반하여 오디오 신호의 섹션들을 부호화하도록 구성됨을 특징으로 하는 전자 장치.
  19. 제8항, 제9항, 제12항 및 제13항 중 어느 한 항에 따른 장치 및, 상기 장치에 의해 부호화된 오디오 신호들을 복호화하기 위한 디코더를 구비하는 오디오 코딩 시스템.
  20. 적어도 제1코더 모드 및 제2코더 모드가 오디오 신호의 특정 섹션을 부호화하는데 이용 가능하고, 적어도 상기 제1코더 모드는 적어도 서로 다른 두 코딩 모델들에 기반하여 상기 오디오 신호의 특정 섹션 코딩을 수행하고, 상기 제1코더 모드에서 상기 오디오 신호의 특정 섹션을 부호화하기 위한 각자의 코딩 모델 선택은, 상기 특정 섹션에 앞선 상기 오디오 신호의 적어도 한 섹션을 커버하는 분석 윈도 (analysis window)로부터 적어도 일부 판단되었던 신호 특성에 기반하는 적어도 한 선택 규칙에 의해 이뤄지는, 오디오 신호 인코딩을 지원하기 위한 소프트웨어 코드를 포함하는 컴퓨터 프로그램을 저장한 컴퓨터에 의해 판독가능한 저장매체에 있어서,
    상기 소프트웨어 코드가 인코더의 정보처리부에서 실행되어, 상기 제2코더 모드로부터 상기 제1코더 모드로 스위칭한 후, 적어도 상기 분석 윈도에 의해 커버 되는 만큼 많은 상기 오디오 신호의 섹션들을 수신한 데 반응하여 상기 적어도 한 선택 규칙을 활성화하는 동작을 수행하도록 하는 컴퓨터 프로그램을 저장한 컴퓨터에 의해 판독가능한 저장매체.
  21. 제11항에 따른 장치에 있어서, 상기 오디오 신호의 각 섹션이 20ms의 길이를 갖는 각 오디오 신호 프레임에 대응하고, 상기 보다 짧은 분석 윈도는 코딩 모델이 선택될 오디오 신호 프레임에 추가하여 4개의 선행 오디오 신호 프레임들을 커버하고, 상기 보다 긴 분석 윈도는 코딩 모델이 선택될 오디오 신호 프레임에 추가하여 16개의 선행 오디오 신호 프레임들을 커버하는 장치.
  22. 제8항 또는 제9항에 있어서, 상기 제1 코더 모드부는 각 분석 윈도 내의 상기 오디오 신호의 신호 특성을 결정하고, 상기 신호 특성을 상기 선택부에 제공하는 신호 특성 결정부를 포함하고, 상기 신호 특성은 각 분석 윈도 내의 에너지 연관 값들의 표준 편차를 포함하는 장치.
  23. 제8항 또는 제9항에 있어서, 상기 제1 코더 모드는 확장된 적응형 멀티 레이트 광대역 코덱의 확장 모드이고, 상기 제1 코더 모드부의 상기 인코딩부는 대수적 코드-여기 선형 예측 코딩 모델 및 부가적으로 변환 코딩 모델에 기반한 오디오 신호의 인코드부에 적응되고, 상기 제2 코더 모드는 상기 확장된 적응형 멀티 레이트 광대역 코텍의 적응형 멀티 레이트 광대역 모드이며, 상기 제2 코더 모드부는 대수 적 코드-여기 선형 예측 코딩 모델에 기반한 오디오 신호의 인코드부에 적응되는 장치.
KR1020087023621A 2008-09-26 2004-05-17 서로 다른 코딩 모델들을 통한 오디오 인코딩 KR20080091305A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020087023621A KR20080091305A (ko) 2008-09-26 2004-05-17 서로 다른 코딩 모델들을 통한 오디오 인코딩

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020087023621A KR20080091305A (ko) 2008-09-26 2004-05-17 서로 다른 코딩 모델들을 통한 오디오 인코딩

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020067024046A Division KR20070017378A (ko) 2006-11-16 2004-05-17 서로 다른 코딩 모델들을 통한 오디오 인코딩

Publications (1)

Publication Number Publication Date
KR20080091305A true KR20080091305A (ko) 2008-10-09

Family

ID=40152010

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087023621A KR20080091305A (ko) 2008-09-26 2004-05-17 서로 다른 코딩 모델들을 통한 오디오 인코딩

Country Status (1)

Country Link
KR (1) KR20080091305A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012002768A3 (ko) * 2010-07-01 2012-05-03 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
KR20150060897A (ko) * 2012-09-26 2015-06-03 모토로라 모빌리티 엘엘씨 오디오 신호를 인코딩하기 위한 방법 및 장치
US9928843B2 (en) 2008-12-05 2018-03-27 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding speech signal using coding mode

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9928843B2 (en) 2008-12-05 2018-03-27 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding speech signal using coding mode
US10535358B2 (en) 2008-12-05 2020-01-14 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding speech signal using coding mode
WO2012002768A3 (ko) * 2010-07-01 2012-05-03 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
KR20150060897A (ko) * 2012-09-26 2015-06-03 모토로라 모빌리티 엘엘씨 오디오 신호를 인코딩하기 위한 방법 및 장치

Similar Documents

Publication Publication Date Title
US8069034B2 (en) Method and apparatus for encoding an audio signal using multiple coders with plural selection models
EP1747442B1 (en) Selection of coding models for encoding an audio signal
EP1747554B1 (en) Audio encoding with different coding frame lengths
CN101627426B (zh) 用于控制稳态背景噪声的平滑的方法和设备
CN101681627B (zh) 使用音调规则化及非音调规则化译码的信号编码方法及设备
KR20070001276A (ko) 신호 인코딩
CA2566489A1 (en) Supporting a switch between audio coder modes
KR20020052191A (ko) 음성 분류를 이용한 음성의 가변 비트 속도 켈프 코딩 방법
CN101523484A (zh) 用于帧擦除恢复的系统、方法和设备
CN101622666B (zh) 非因果后置滤波器
CN1244090C (zh) 具备背景噪声再现的语音编码
KR20080091305A (ko) 서로 다른 코딩 모델들을 통한 오디오 인코딩
KR20070017378A (ko) 서로 다른 코딩 모델들을 통한 오디오 인코딩
CN102760441B (zh) 一种背景噪声编码/解码装置、方法和通信设备
KR20070017379A (ko) 오디오 신호를 부호화하기 위한 부호화 모델들의 선택
KR100854534B1 (ko) 오디오 코더 모드들 간의 스위칭 지원
Tanaka et al. A multi-mode variable rate speech coder for CDMA cellular systems
RU2344493C2 (ru) Кодирование звука с различными длительностями кадра кодирования
KR20070017380A (ko) 서로 다른 코딩 프레임 길이의 오디오 인코딩
ZA200609478B (en) Audio encoding with different coding frame lengths

Legal Events

Date Code Title Description
A107 Divisional application of patent
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid