KR20070109982A - 오디오 코딩 및 디코딩 - Google Patents

오디오 코딩 및 디코딩 Download PDF

Info

Publication number
KR20070109982A
KR20070109982A KR1020077013144A KR20077013144A KR20070109982A KR 20070109982 A KR20070109982 A KR 20070109982A KR 1020077013144 A KR1020077013144 A KR 1020077013144A KR 20077013144 A KR20077013144 A KR 20077013144A KR 20070109982 A KR20070109982 A KR 20070109982A
Authority
KR
South Korea
Prior art keywords
encoding
decoding
unit
frequency band
signal
Prior art date
Application number
KR1020077013144A
Other languages
English (en)
Inventor
브린케르 알버츠 씨. 덴
파로우 펠리프 리에라
아르놀두스 더블유. 제이. 우멘
장-베르나르드 에이치. 엠. 라울트
데이비드 에스. 티. 비레트
피에릭크 제이.-엘. 엠. 필립
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
프랑스 뗄레꽁(소시에떼 아노님)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이., 프랑스 뗄레꽁(소시에떼 아노님) filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20070109982A publication Critical patent/KR20070109982A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

오디오 인코딩 디바이스(100)는 오디오 신호(x(n))의 과도 신호 성분들 및/또는 정현파 신호 성분들을 인코딩하고 잔류 신호(z(n))를 생성하기 위한 제 1 인코딩 수단(101, 111)과, 상기 잔류 신호를 인코딩하기 위한 제 2 인코딩 수단을 포함한다. 상기 제 2 인코딩 수단은 상기 잔류 신호의 적어도 2개의 주파수 대역들을 선택하기 위한 필터 수단(122)을 포함한다. 상기 잔류 신호(z(n))의 선택된 주파수 대역들(LH, HF)은 제 1 인코딩 유닛(123) 및 제 2 인코딩 유닛(124)에 의해 인코딩된다. 제 1 인코딩 유닛(123)은 시간 도메인 인코더와 같은 파형 인코더를 포함할 수 있는 반면에, 제 2 인코딩 유닛(124)은 잡음 인코더를 포함할 수 있다.
과도 신호 성분, 정현파 신호 성분, 인코딩, 디코딩, 잔류 신호

Description

오디오 코딩 및 디코딩{Audio coding and decoding}
본 발명은 오디오 코딩 및 디코딩에 관한 것이다. 보다 구체적으로, 본 발명은 오디오 신호의 과도 신호(transient signal) 구성요소들 및/또는 정현파 신호(sinusoidal signal) 구성요소들을 인코딩하고 잔류 신호(residual signal)를 생성하기 위한 제 1 인코딩 수단과, 상기 잔류 신호를 인코딩하기 위한 제 2 인코딩 수단을 포함하는 오디오 인코딩 디바이스에 관한 것이다. 본 발명은 또한 오디오 디코딩 디바이스, 오디오 신호를 인코딩하는 방법, 및 오디오 신호를 디코딩하는 방법에 관한 것이다.
신호들의 송신 또는 저장을 위해 요구되는 대역폭을 감소시키도록 오디오 신호들을 인코딩하는 것은 공지되어 있다. 다양한 인코딩 테크닉들이 사용중에 있으며, 이러한 테크닉들의 대부분은 신호들의 특정한 클래스에 적절하다. 서로 다른 인코딩 테크닉들은 서로 다른 신호 성분들을 효율적으로 인코딩하도록 동일한 신호들에 연속하여 적용될 수 있다. 예를 들어, 오디오 신호의 과도 신호 성분들이 인코딩될 수 있고, 그 후에 인코딩된 신호 성분들은 오리지날 오디오 신호로부터 감해진다. 그 후에, 결과적인 신호의 정현파 신호 성분들이 인코딩되어 다음으로 잔류 신호를 산출하도록 감해질 수 있다. 이러한 잔류 신호는 전형적으로 잡음 신호 를 구성하도록 고려되며, 그것의 확률적 속성들(예로써, 전력, 확률 밀도 함수, 전력 스펙트럼 밀도 함수, 및/또는 스펙트로 템포럴 엔빌로프(spectro-temporal envelope))에 기초하여 잔류 신호를 규정함에 따라 인코딩될 수 있다.
상기 기술된 장비의 예는 미국 특허 출원서 제 US 2001/0032087 호(Oomen 등/필립스)에 개시되어 있고, 그것 전체의 콘텐츠들이 본 명세서에 이러한 자료로 포함된다.
그러나, 상기 언급된 잔류 신호가 종종 전형적인 잡음 신호가 아니라는 것이 발견되었다. 코딩 에러들로 인해, 모든 과도 및 정현파 신호 성분들이 오리지날 오디오 신호로부터 제거될 가능성이 있다. 결과적으로, 잔류 신호는 전형적으로 "단순한" 잡음 이외에 이러한 구성요소들의 일부를 포함한다. 그러므로, 그러한 잔류 신호에 잡음 모델을 적용하는 것은 추가적인 코딩 에러들을 발생시켜 디코더에서 청취가능한 신호 왜곡을 결과적으로 나타낸다.
본 발명의 목적은 종래 기술의 이러한 문제점들 및 다른 문제점들을 극복하여 향상된 정확성을 갖는 신호를 인코딩하는 오디오 인코딩 디바이스 및 방법을 제공하는 것이다.
본 발명의 또 다른 목적은 향상된 정확성을 갖는 인코딩된 오디오 신호를 디코딩할 수 있는 디코딩 디바이스 및 방법을 제공하는 것이다.
따라서, 본 발명은 오디오 신호의 과도 신호 성분들 및/또는 정현파 신호 성분들을 인코딩하고 잔류 신호를 생성하기 위한 제 1 인코딩 수단과, 상기 잔류 신호를 인코딩하기 위한 제 2 인코딩 수단으로서, 상기 잔류 신호의 적어도 하나의 주파수 대역을 선택하기 위한 필터 수단을 포함하고 상기 선택된 주파수 대역 및 상기 잔류 신호의 추가적인 주파수 대역을 각각 인코딩하기 위한 적어도 제 1 인코딩 유닛 및 제 2 인코딩 유닛을 더 포함하는 상기 제 2 인코딩 수단을 포함하는 오디오 인코딩 디바이스를 제공한다.
주파수 대역 당 잔류 신호를 인코딩함으로써, 인코딩 테크닉(들) 및 각각의 주파수 대역 사이에 훨씬 더 양호한 매치가 얻어질 수 있다. 주파수 대역들 사이에 인코딩 파라미터들을 변경하거나, 심지어 다양한 주파수 대역들에 서로 다른 인코딩 테크닉들을 적용하는 것이 가능하다. 결과적으로, 잔류 신호의 인코딩 에러 및 대응하는 신호 왜곡이 현저히 감소된다.
특히, 선택된 주파수 대역은 주로 코딩 아티팩트들(coding artifacts)을 포함할 수 있고 제 1 인코딩 테크닉(예를 들어, 파형 코딩)을 사용하여 인코딩될 수 있고, 반면에 또 다른(예로써, 남아있는) 주파수 대역은 주로 잡음을 포함할 수 있고 제 2의 서로 다른 인코딩 테크닉(예를 들어, 잡음 코딩)을 사용하여 인코딩될 수 있다. 서로 다른 제 1 및 제 2 인코딩 유닛들을 사용함으로써, 향상된 코딩 정확성이 달성된다.
양호한 실시예에 있어서, 선택된 (또는 제 1) 주파수 대역은 추가적인 (또는 제 2) 주파수 대역이 비교적 높은 부분을 포함하는 반면에, 신호의 주파수 스펙트럼의 비교적 낮은 부분을 포함한다. 주파수 스펙트럼(주파수 대역들)의 이러한 부분들은 얼마간의 오버랩(overlap)을 갖거나 그렇지 않을 수 있다. 2개 주파수 대역들 이상, 예를 들어 3, 4, 또는 5개가 선택될 수 있다는 것이 이해될 것이다. 잔류 신호의 일부 주파수들이 효율성의 이유들로 인코딩될 수 없는 실시예들이 가능할지라도, 주파수 대역들은 함께 실질적으로 전체 잔류 신호를 구성한다. 추가적인 (또는 제 2) 주파수 대역은 실질적으로 잔류 신호의 전체 주파수 범위를 포함할 수 있지만, 또한 필터 수단에 의해 선택될 수 있고 실질적으로 전체 주파수 범위보다 더 좁을 수 있다.
본 발명가들은 잔류 신호의 고주파 부분이 전형적으로 "단순한" 잡음 신호의 양호한 근사치이므로 잡음 신호로 모델링될 수 있으며, 반면에 저주파 부분은 잡음 모델로부터 제외된다는 것을 인식하고 있다. 특히, 잔류 신호의 저주파 부분은 전형적으로 코딩 에러들로 인한 아티팩트들을 포함한다. 그러한 아티팩트들은 남아있는 과도 및 정현파 신호 성분들을 포함할 수 있다.
따라서, 제 2 인코딩 유닛이 잡음 인코더를 포함할 수 있는 반면에, 제 1 인코딩 유닛은 파형 인코더를 포함하는 것이 유리할 수 있다. 이것은 특히 제 1 인코딩 유닛이 주파수 스펙트럼의 하위 부분을 포함하는 주파수 대역을 인코딩하고 제 2 인코딩 유닛이 상위 부분을 포함하는 주파수 대역을 인코딩하는 것에 따라 오디오 인코딩 디바이스가 구성될 때 유리하다.
특별히 적절한 파형 인코딩 테크닉은 AS 인코딩(Analysis-by-Synthesis encoding)이다. 따라서, 제 1 인코딩 유닛이 AS 인코더를 포함하는 것이 바람직하다. 보다 구체적으로, 제 1 인코딩 유닛이 RPE(Regular Pulse Excitation) 인코더, MPE(Multiple Pulse Excitation) 인코더, CELP(Code-Excited Linear Prediction) 인코더, 또는 그의 어떠한 조합을 포함하는 것이 바람직하다. 시간 도메인 인코더들인 이러한 인코더들은 전형적으로 음성에 대해 사용되고 음성 모델들을 채용한다. 이러한 이유에 따라, 그것들은 일반적으로 오디오 신호들에 대해 사용될 수 없다. 그러나, 본 발명가들은 음성 인코더들이 잔류 신호의 선택된 주파수 대역들을 인코딩하도록 사용될 수 있다는 것을 인식하고 있다. 적절한 음성 인코더 테크닉들은 델타 변조 및 ADPCM(adaptive differential pulse code modulation)을 더 포함한다. RPE 또는 MPE 인코더는 선형 예측 단계를 포함할 수 있다.
필터 수단이 대역 분할기 또는 구상 미러 필터 뱅크(quadrature mirror filter bank)를 포함하는 것이 바람직하다. 이러한 구성은 주파수 대역의 효율적인 선택을 가능하게 한다.
제 1 인코딩 수단은 과도 상태 합성 유닛에 연결되는 과도 상태 파라미터 추출 유닛 및 제 1 조합 유닛과, 정현파 파라미터 합성 유닛에 연결되는 정현파 파라미터 추출 유닛 및 제 2 조합 유닛을 포함할 수 있다.
오디오 인코딩 디바이스는 제 1 인코딩 수단 및 제 2 인코딩 수단에 의해 생성된 신호들을 결합 및 멀티플렉싱하기 위한 결합 및 멀티플렉싱 유닛을 더 포함할 수 있다.
본 발명은 또한 상기 규정된 바와 같은 디바이스에 의해 코딩된 오디오 신호를 디코딩하기 위한 오디오 디코딩 디바이스에 있어서, 상기 오디오 신호의 과도 신호 성분들 및/또는 정현파 신호 성분들을 디코딩하기 위한 제 1 디코딩 수단과, 잔류 신호를 디코딩하기 위한 제 2 디코딩 수단을 포함하고, 상기 제 2 디코딩 수단은 상기 잔류 신호의 제 1 주파수 대역(LF; 0) 및 제 2 주파수 대역(HF; 1)을 각각 디코딩하기 위한 적어도 제 1 디코딩 유닛(223, 226) 및 제 2 디코딩 유닛(224, 221)과, 상기 잔류 신호의 상기 디코딩된 제 1 주파수 대역 및 제 2 주파수 대역을 믹싱하기 위한 믹싱 유닛(222, 225)을 포함하는, 오디오 디코딩 디바이스를 제공한다.
제 2 디코딩 유닛이 잡음 디코더를 포함하는 반면에, 제 1 디코딩 유닛은 파형 디코더를 포함하는 것이 유리할 수 있다. 보다 구체적으로, 제 1 디코딩 유닛은 AS 디코더를 포함할 수 있고, 더욱 자세하게는 RPE(Regular Pulse Excitation) 디코더, MPE(Multiple Pulse Excitation) 디코더, 및/또는 CELP(Code-Excited Linear Prediction) 디코더를 포함할 수 있다.
특히 유리한 실시예에 있어서, 오디오 디코딩 디바이스는 제 1 주파수 대역 및/또는 제 2 주파수 대역 또한 디코딩하기 위한 제 3 디코더 유닛을 더 포함하며, 그 제 3 디코더 유닛은 제 1 및/또는 제 2 디코더 유닛과는 서로 다른 디코딩 테크닉을 사용한다. 이것은 대안적인 디코딩 테크닉들의 실질적으로 동시적 사용을 허용한다. 추가로, 스위칭 수단이 믹싱 유닛에 제 1 디코딩 유닛 또는 제 3 디코딩 유닛이 선택적으로 접속하도록 제공될 수 있다. 이것은 예를 들어 신호 품질 측정 또는 외부 제어 신호에 기초하여 어느 쪽의 디코딩 유닛으로부터 디코딩된 신호를 디코더가 선택하도록 한다. 이러한 실시예는 스케일러블 비트 스트림(scalable bit stream)의 디코딩을 허용한다.
제 3 디코딩 유닛은 그 제 3 디코딩 유닛에 의해 디코딩되는 신호의 주파수 대역들을 선택하기 위한 추가적인 필터 유닛을 제공받을 수 있다. 즉, 제 3 디코딩 유닛에 의해 출력되는 디코딩된 신호는 수 개의 주파수 대역들로 분할될 수 있고, 반면에 그러한 주파수 대역들의 각각은 또 다른 디코더 유닛, 예를 들어 상기 언급된 제 1 디코더 유닛에 의해 디코딩되는 대응 주파수 대역 대신 선택적으로 사용될 수 있다.
본 발명은 상기 규정된 바와 같이 오디오 인코딩 디바이스 및 오디오 디코딩 디바이스를 포함하는 오디오 송신 시스템을 추가로 제공한다.
본 발명은 또한 오디오 신호를 인코딩하는 방법에 있어서, 상기 오디오 신호의 과도 신호 성분들 및/또는 정현파 신호 성분들을 인코딩하고 잔류 신호를 생성하는 단계와, 상기 잔류 신호 인코딩 단계를 포함하고, 상기 잔류 신호를 인코딩하는 단계는 상기 잔류 신호의 주파수 대역을 선택하는 단계 및 상기 선택된 주파수 대역 및 상기 잔류 신호의 추가적인 주파수 대역을 개별적으로 인코딩하는 단계를 포함하는, 오디오 신호 인코딩 방법을 제공한다.
추가적인(또는 제 2) 주파수 대역이 비교적 고주파들을 포함할 수 있는 반면에, 선택된(또는 제 1) 주파수 대역은 비교적 저주파를 포함할 수 있다. 추가적인 주파수 대역은 잔류 신호의 전체 주파수 범위나, 선택되고 제한된 주파수 대역을 포함할 수 있다.
추가적인 주파수 대역을 인코딩하는 단계가 잡음 인코딩을 포함할 수 있는 반면에, 선택된 주파수 대역의 인코딩 단계는 파형 인코딩을 포함할 수 있다. 보다 구체적으로, 선택된 주파수 대역을 인코딩하는 단계는 AS 인코딩을 포함할 수 있고, 보다 자세하게는 RPE(Regular Pulse Excitation) 인코딩, MPE(Multiple Pulse Excitation) 인코딩, 및/또는 CELP(Code-Excited Linear Prediction) 인코딩을 포함할 수 있다.
본 발명의 오디오 인코딩 방법의 다른 실시예들은 본 발명의 설명으로부터 명확해질 것이다.
더욱이, 본 발명은 오디오 신호를 디코딩하는 방법으로서, 상기 오디오 신호의 과도 신호 성분들 및/또는 정현파 신호 성분들을 디코딩하는 단계와, 잔류 신호를 디코딩하는 단계를 포함하고, 상기 잔류 신호를 디코딩하는 단계는, 상기 잔류 신호의 제 1 주파수 대역 및 제 2 주파수 대역을 개별적으로 디코딩하는 단계 및 그에 따라 디코딩된 주파수 대역들을 결합하는 부속 단계를 포함하는, 오디오 신호 디코딩 방법을 제공한다.
제 2 주파수 대역을 디코딩하는 부속 단계가 잡음 디코딩을 포함할 수 있는 반면에, 제 1 주파수 대역을 디코딩하는 부속 단계는 파형 디코딩을 포함하는 것이 유리할 수 있다. 보다 구체적으로, 제 1 주파수 대역을 디코딩하는 부속 단계는 AS 디코딩을 포함할 수 있고, 보다 자세하게는 RPE(Regular Pulse Excitation) 디코딩, MPE(Multiple Pulse Excitation) 디코딩, 및/또는 CELP(Code-Excited Linear Prediction) 디코딩을 포함할 수 있다.
본 발명의 오디오 디코딩 방법은 서로 다른 디코딩 테크닉을 사용하는 제 1 주파수 대역 및/또는 제 2 주파수 대역을 추가적으로 디코딩하는 부속 단계를 더 포함할 수 있다. 추가적으로, 상기 방법은 원래의 디코딩된 주파수 대역 또는 추가적으로 디코딩된 주파수 대역을 선택적으로 사용하는 부속 단계를 더 포함할 수 있다.
본 발명은 상기 규정된 방법을 수행하기 위한 컴퓨터 프로그램 제품을 추가로 제공한다. 컴퓨터 프로그램 제품은 CD(Compact Disk), DVD(Digital Versatile Disk), 플로피 디스크, 또는 어느 다른 적절한 매체와 같은 정보 캐리어 상에 저장되는 컴퓨터 실행가능 명령어들의 세트(컴퓨터 프로그램)를 포함할 수 있다. 대안적으로, 컴퓨터 실행가능 명령어들의 세트는 예를 들어 인터넷을 통해 원격 서버로부터 다운로딩될 수 있다. 컴퓨터가 본 발명의 방법을 수행하도록 허용하는 컴퓨터 실행가능 명령어들의 세트는 기계어나, 어셈블리어나, C++ 또는 자바와 같은 더 상위의 프로그래밍 언어로 제공될 수 있다. 본 발명의 본질적인 방법 단계들을 수행할 수 있는 어떠한 컴퓨터 실행가능 프로그램은 상기 언급된 바와 같이 컴퓨터 프로그램 제품을 구성하도록 간주된다. 본 발명의 컴퓨터 프로그램을 수행하기 위해 필요한 컴퓨터의 특정한 형태는 관련되지 않는다.
본 발명은 첨부된 도면들에 도시된 예시적인 실시예들을 참조로 하여 이하 추가로 설명될 것이다.
도 1은 종래 기술에 따른 인코더 및 디코딩 디바이스를 포함하는 송신 시스템을 개략적으로 도시한 도면.
도 2a는 본 발명에 따라 인코딩 디바이스의 제 1 실시예를 개략적으로 도시한 도면.
도 2b는 본 발명에 따라 디코딩 디바이스의 제 1 실시예를 개략적으로 도시한 도면.
도 3a는 본 발명에 따라 인코딩 디바이스의 제 2 실시예를 개략적으로 도시한 도면.
도 3b는 본 발명에 따라 디코딩 디바이스의 제 2 실시예를 개략적으로 도시한 도면.
도 4a는 본 발명에 따라 인코딩 디바이스의 제 3 실시예를 개략적으로 도시한 도면.
도 4b는 본 발명에 따라 디코딩 디바이스의 제 3 실시예를 도시한 도면.
도 1에 단지 제한적이지 않은 예의 방식으로 도시된 송신 시스템은 오디오 인코딩 디바이스(100') 및 오디오 디코딩 디바이스(200')를 포함한다. "파라메트릭 오디오 코더(parametric audio coder)"로도 알려진 종래 기술의 오디오 인코더 디바이스(100')는 3 단계에 따라 오디오 신호 x(n)를 인코딩한다. 이러한 형태의 오디오 송신 시스템은 상기 언급된 미국 특허 출원서 제 US 2001/0032087 호에 개시되어 있다.
제 1 단계에 있어서, 오디오 신호 x(n)에서 어떠한 과도 신호 성분들은 TPE(transients parameter extraction) 유닛(101)을 사용하여 인코딩된다. 파라미터들은 C&M(combining and multiplexing) 유닛(150) 및 TS(transients synthesis) 유닛(102)에 공급된다. 결합 및 멀티플렉싱 유닛(150)이 디코더(200')로 송신하기 위한 파라미터들을 적절히 결합하여 멀티플렉싱하는 동안, 과도 상태 합성 유닛(102)은 인코딩된 과도 상태들(encoded transients)을 재구성한다. 이러한 재구성된 과도 상태들은 그 과도 상태들이 실질적으로 제거되는 중간 신호 y(n)를 형성하도록 제 1 조합 유닛(103)에서 오리지날 오디오 신호 x(n)로부터 감해진다.
제 2 단계에 있어서, 중간 신호 y(n)에서 어떠한 정현파 신호 성분들(즉, 사인 및 코사인)은 정현파 파라미터 추출(SPE) 유닛(111)에 의해 인코딩된다. 결과적인 파라미터들은 결합 및 멀티플렉싱 유닛(150)과 정현파 합성(SS) 유닛(112)에 공급된다. 정현파 합성 유닛(112)에 의해 재구성되는 정현파들은 잔류 신호 z(n)를 산출하도록 제 2 조합 유닛(113)에서 중간 신호 y(n)로부터 감해진다.
제 3 단계에 있어서, 잔류 신호 z(n)는 시간/주파수 엔빌로프 데이터 추출(TFE: time/frequency envelope data extraction) 유닛(121)을 사용하여 인코딩된다. 과도 상태들 및 정현파들이 제 1 및 제 2 상태에서 제거됨에 따라, 잔류 신호 z(n)가 잡음 신호로 가정된다는 것에 주의한다. 종래 기술에 따른 잡음 모델링 및 인코딩 테크닉들의 개요는 1999년, 미국 스탠포드 대학, S.N.Levine에 의한 논문 "데이터 압축 및 압축된 도메인 프로세싱에 대한 오디오 표현들(Audio Representations for Data Compression and Compressed Domain Processing)"의 5장에 소개되어 있다.
모든 3 단계들로부터의 결과적인 파라미터들은 C&M(combining and multiplexing) 유닛(150)에 의해 적절히 결합 및 멀티플렉싱되며, 그것은 또한 송신을 위해 요구되는 대역폭을 감소시키도록 파라미터들의 추가적인 코딩, 예를 들 어 허프만 코딩(Huffman coding) 또는 시간차 코딩(time-differential coding)을 수행할 수 있다. 파라미터 추출(즉, 인코딩) 유닛들(101, 111, 121)이 추출된 파라미터들의 양자화를 수행할 수 있다는 것에 주의한다. 대안적으로 또는 추가적으로, 양자화는 결합 및 멀티플렉싱(C&M) 유닛(150)에서 수행될 수 있다.
C&M 유닛(150)에서 결합 및 멀티플렉싱(및 선택적으로 인코딩 및/또는 양자화)된 후에, 파라미터들은 유닛들(150, 250) 사이의 화살표에 따라 도 1에 개략적으로 표시된 바와 같이, 송신 매체를 통해 송신된다. 송신 매체는 위성 링크, 유리 화이바 케이블, 구리 케이블, 및/또는 어떠한 다른 적절한 매체를 포함할 수 있다.
x(n), y(n), 및 z(n)이 디지털 신호들을 나타내고, n이 샘플 번호를 표현한다는 것에 주의한다.
도 1의 디코딩 디바이스(200')는 인코딩의 단계들에 대응하는 3 단계에 따라 송신된 신호 파라미터들을 디코딩한다. 디멀티플렉싱 및 재결합 유닛(250)에서 신호 파라미터들을 수신, 디멀티플렉싱, 및 재결합한 후에, 과도 파라미터들은 인코딩 디바이스(100')에서 대응 유닛(102)과 유사한 신호에 따른 과도 상태들을 재구성하는 과도 상태 합성(TS) 유닛(202)에 공급된다. 정현파 파라미터들은 대응 유닛(112)과 유사한 정현파 합성(SS) 유닛에서 정현파를 재구성하도록 사용된다. 재구성된 과도 상태들 및 정현파는 제 1 조합 유닛(203)에서 결합된다.
잡음 파라미터들(시간 및/또는 주파수 엔빌로프 데이터)은 잡음 생성기(227)에 연결되는 시간/주파수 정형(TFS) 유닛(221)에 의해 사용된다. 재구성된 잔류 신호는 재구성된 오디오 신호 x'(n)를 생성하도록 제 2 조합 유닛(213)에서 재구성된 과도 상태 및 정현파와 함께 결합된다.
이러한 종래 기술의 송신 시스템은 오리지날 오디오 신호가 정확하게 모델링될 수 있는 경우, 특히 잔류 신호 z(n)가 단지 "순수한" 잡음만을 포함하는 경우에 양호하게 작동한다. 그러나, 실제로 이것은 흔한 경우가 아니다. 제 1의 2개 단계들에서 파라미터 추출 및 신호 모델링에서의 에러들은 잔류 신호 z(n)가 과도 상태들 및 정현파의 트레이스들을 계속해서 포함하도록 할 수 있다. 추가로, 오리지날 오디오 신호 x(n)는 구성 신호 성분들로 쉽게 분해될 수 없는 구조를 가질 수 있다. 결과적으로, 잔류 신호 z(n)는 순수한 잡음 신호가 아니며, 따라서 잡음 신호로 적절히 모델링될 수 없다. 그러므로, TFE 유닛(121)에 의해 추출되는 엔빌로프 데이터는 부정확할 수 있으며, 디코더(200')에서 잔류 신호의 부정확한 재구성 및 인식가능하게 부정확한(즉, 왜곡된) 재구성된 오디오 신호 x'(n)를 이끌어 낸다.
본 발명은 잔류 신호 x(n)의 향상된 인코딩을 제공함으로써 이러한 문제를 해결하여, 재구성된 오디오 신호 x'(n)에서 매우 감소된 왜곡을 결과로 나타낸다. 본 발명에 따른 인코딩 디바이스의 실시예는 도 2a에 개략적으로 도시되어 있으며, 반면에 대응하는 디코딩 디바이스는 도 2b에 도시되어 있다.
도 2a에 단지 제한적이지 않은 예의 방식으로 도시된 독창적인 인코딩 디바이스(100)는 또한 과도 상태 파라미터 추출(TPE) 유닛(101)과, 과도 상태 합성(TS) 유닛(102)과, 제 1 조합 유닛(103)과, 정현파 파라미터 추출(SPE) 유닛(111)과, 정현파 합성(SS) 유닛(112)과, 제 2 조합 유닛(113)과 결합 및 멀티플렉싱(C&M) 유닛(150)을 포함한다. 그러나, 단일 시간/주파수 엔빌로프 데이터 추출(TFE) 유 닛(121)은 대역 분할기(BS)(122), 제1 인코딩 유닛(123), 및 제 2 인코딩 유닛(124)으로 대체된다. 대역 분할기(122)는 예에서 LF(저주파) 및 HF(고주파)로 각각 표시된 잔류 신호 z(n)를 필터링하여, 그것을 다중 통과 대역들로 분할한다.
다중 주파수 대역들로 잔류 신호를 분할함으로써, 그것들 각각의 주파수 대역들에 인코딩 유닛들을 적응시키는 것이 가능하다. 잔류 신호의 각각의 주파수 대역이 특정한 속성들을 가질 수 있고, 인코딩 유닛들이 잔류 신호를 최적으로 인코딩하도록 그것들의 속성들에 적응될 수 있다는 것을 이해할 것이다. 3, 4, 5, 6, 또는 그 이상의 주파수 대역들과 연관된 인코더 유닛들이 또한 사용될 수 있다는 것을 또한 이해할 것이다.
도 2a에 도시된 실시예에 있어서, 제 1 (LF) 인코딩 유닛(123)은 시간 도메인 인코딩 유닛, 특히 음성 코딩 테크닉들을 사용하는 코딩 유닛이다. 당업자들은 일반적으로 음성 코딩 및 오디오 코딩이 매우 다른 코딩 테크닉들을 요구하는 것이 전형적이라는 것을 인식할 것이다. 음성 코딩은 전형적으로 음성 신호들을 분석하도록 인간의 성도(vocal tract)의 모델들을 사용하는 반면에, 그러한 모델들은 일반적으로 사운드에 적용가능하지 않고 임의의 오디오 신호들에 적용될 때 신호 왜곡을 나타낸다. 그러나, 본 발명가들은 음성 코딩 테크닉들이 질의에 따른 인코딩 디바이스의 잔류 신호의 저주파 부분(또는 부분들)을 인코딩하기에 매우 적절하다는 것을 인식하고 있다.
(제 1) 인코딩 유닛(123)은 이러한 예에서 파형 인코더(WE), 예를 들어 AS(Analysis-by-Synthesis) 인코더에 의해 구성되고, 보다 구체적으로 RPE(Regular-Pulse Excitation), MPE(Multiple Pulse Excitation), 및/또는 CELP(Code-Excited Linear Prediction) 인코더를 포함한다. 이러한 코딩 테크닉들 및 다른 코딩 테크닉들에 대해, 참조 문헌으로는 1994년 10월, Proceedings of the IEEE, Vol. 82, No. 10, A.S. Spanias에 의한 논문 "음성 코딩: 설명의 개요(Speech Coding: A Tutorial Review)"가 있으며, 그것 전체의 콘텐츠들은 본 명세서에 포함된다.
(제 2) 인코딩 유닛(124)은 "통상의" 잡음 인코더이다. 그러한 인코더는 전력, 전력 스펙트럼 밀도 함수, 및/또는 스펙트로 템포럴 엔빌로프와 같은 하나 또는 그 이상의 통계적 항들(파라미터들)에서의 신호를 나타낸다. 당업자들은 이러한 파라미터들이 주파수 엔빌로프를 결정하기 위한 라규에르 필터링(Laguerre filtering)과 (잡음) 신호의 시간 엔빌로프를 결정하기 위한 선형 예측 코딩(LPC)과 같은 공지된 테크닉들을 사용하여 결정될 수 있다는 것을 인식할 것이다.
이러한 예에서 제 2 인코딩 유닛(124)은 잔류 신호 z(n)의 HF(고주파) 부분을 인코딩한다. 본 발명가들은 잔류 신호의 고주파 부분이 잡음 인코더를 사용하여 효율적으로 인코딩될 수 있는 실질적으로 "순수한" 잡음으로 구성된다는 것을 인식하고 있다. 그러나, 잔류 신호 z(n)의 LF(저주파) 부분은 잡음 인코딩 테크닉들과 호환가능하지 않지만 예를 들어 음성 코딩 테크닉들을 사용하여 적절히 인코딩될 수 있는 과도 상태 및 정현파의 나머지들을 포함하는 것으로 발견되었다. 본 발명의 "하이브리드" 코딩 테크닉을 사용함으로써, 잔류 신호의 매우 정확한 코딩이 달성될 수 있다.
제 1 인코딩 유닛(123) 및 제 2 인코딩 유닛(124)에 의해 생성되는 파라미터들은 과도 상태 파라미터 추출(TPE) 유닛(101) 및 정현파 파라미터 추출(SPE) 유닛(111)에 의해 생성되는 신호 파라미터들과 함께 결합 및 멀티플렉싱 유닛(150)에 공급된다. 결합 및 멀티플렉싱된 파라미터들은 그 후 예를 들어 파라메트릭 비트 스트림으로 적절한 송신 경로에 걸쳐 송신될 수 있다. 그러한 비트 스트림은 예를 들어 4개의 섹션들, 헤더, 과도 파라미터들, 정현파 파라미터들, 및 잡음(=잔류 신호) 파라미터들로 구성될 수 있다.
도 2a의 실시예에 있어서, 과도 상태 파라미터 추출(TPE) 유닛(101) 및 정현파 파라미터 추출(SPE) 유닛(111)은 오디오 신호 x(n)의 전체 주파수 스펙트럼에 대해 동작하는 반면에, 제 1 인코딩 유닛(123) 및 제 2 인코딩 유닛(124)은 주파수 스펙트럼의 선택된 부분들에 대해 동작하며, 그 선택은 대역 분할기(BS)(122)에 의해 영향을 받는다. 따라서, 과도 및 정현파 신호 성분들의 주파수 독립적 인코딩과 잔류 신호의 주파수 의존적 인코딩이 달성된다. 추가로, 이러한 주파수 의존적 인코딩은 서로 다른 인코딩 테크닉들을 사용하는 별개의 인코딩 유닛들에 의해 수행된다.
본 발명에 따른 예시적인 디코딩 디바이스(200)는 도 2b에 개략적으로 도시되어 있다. 도 2b의 디바이스(200)는 도 2a의 디바이스(100)에 의해 인코딩된 오디오 신호들을 디코딩하도록 디자인된다.
도 2b의 디코딩 디바이스(200)는 도 1의 종래 기술의 디코딩 디바이스(200')와 유사하며, 또한 디멀티플렉싱 및 결합 해제 유닛(250)과, 과도 상태 합성(TS) 유닛(202)과, 정현파 합성(SS) 유닛(212)과, 제 1 조합 유닛(203)과, 제 2 조합 유닛(213)을 포함한다. 그러나, 종래 기술의 디코딩 디바이스(200')와는 반대로, 도 2b에 도시된 독창적인 디코딩 디바이스(200)는 병렬로 배치되고 믹싱 유닛(222)에 연결되는 제 1 디코더 유닛(223) 제 2 디코더 유닛(224)을 포함한다. 제 1 디코더 유닛(223)은 잔류 신호를 표현하는 파라미터들의 제 1 부분, 본 예에서 저주파(LF) 부분을 수신한다. 마찬가지로, 제 2 디코더 유닛(224)은 잔류 신호를 표현하는 파라미터들의 제 2 부분, 본 예에서 고주파(HF) 부분을 수신한다. 신호 파라미터들의 이러한 별개의 세트들은 각각의 디코더 유닛(223, 224)에서 개별적으로 디코딩되며, 잔류 신호의 결과적인 부분들은 재구성된 잔류 신호를 형성하도록 믹싱 유닛(222)에 의해 적절히 믹싱된다. 제 2 조합 유닛(213)은 재구성된 오디오 신호 x'(n)를 형성하도록 재구성된 과도 및 정현파 신호 성분들과 이러한 재구성된 잔류 신호를 결합한다.
2개의 조합 유닛들(203, 213)이 다중 입력들을 갖는 단일 조합 유닛으로 결합될 수 있다는 것을 이해할 것이다. 실시예들은 그 조합 유닛들이 믹싱 유닛(222)에 집적되는 것으로 관찰될 수 있다.
제시된 실시예에 있어서, 제 2 디코더 유닛(224)이 잡음 디코더(ND)에 의해 구성되는 반면에, 제 1 디코더 유닛(223)은 파형 디코더(WD)이다. 일반적으로, 디코더 유닛들(223, 224)은 인코딩 디바이스(100)에서 대응하는 인코더 유닛들을 매칭시키도록 선택될 것이다. 디코더 유닛(223)의 파형 디코더는 대응하는 인코더에 의존하는 AS 디코더, 보다 구체적으로 RPE(Regular-Pulse Excitation), MPE(Multi- Pulse Excitation), 및/또는 CELP(Code-Excited Linear Prediction) 디코더일 수 있다.
잔류 신호의 2개 이상의 주파수 대역들을 개별적으로 인코딩 및 디코딩함으로써, 잔류 신호 x(n)의 훨씬 더 정확한 재구성이 얻어진다.
본 발명의 인코딩 디바이스(100)의 대안적인 실시예는 도 3a에 도시되어 있고, 그 경우 대역 분할기(122)는 QMF(Quadrature Mirror Filter) 분석 필터(QAF) 뱅크(125)로 대체된다. 이러한 필터 뱅크는 도 3a에 0-3으로 표시된 4개 주파수 대역들로 잔류 신호 z(n)를 분리한다. 제시된 실시예에서, 최하위 주파수 대역(대역 0)은 CELP(Code-Excited Linear Prediction) 인코더(CE) 유닛(126)에 의해 인코딩되는 반면에, 다른 주파수 대역들은 시간/주파수 엔빌로프 데이터 추출(TFE) 유닛들(121)에 의해 인코딩된다. 이러한 TFE 유닛들(121)이 도 1에 도시된 종래 기술의 TFE 유닛(121)과 각각 동일할 수 있다는 것에 주의한다. 그러나, 종래 기술의 인코딩 디바이스에서 오직 단일 TFE 유닛(121)만이 사용되는 반면에, 본 발명의 인코딩 디바이스에서 TFE 유닛(121)은 적어도 하나의 다른 인코더 유닛과 병렬로 배치되며, 각각의 인코더 유닛은 특정한 주파수 대역과 연관된다. 제시된 예에 있어서, 3개 TFE 유닛들(121)은 CE(CELP Encoder) 유닛(126)과 병렬로 배치된다. 모든 이러한 인코더 유닛들은 과도 상태 파라미터 추출(TPE) 유닛(101) 및 정현파 파라미터 추출(SPE) 유닛(111)과 함께 결합 및 멀티플렉싱(C&M) 유닛(150)에 연결된다.
당업자들은 QMF 분석 필터(QAF) 뱅크(125)가 필터 뱅크의 효율적인 구현을 제공하지만, 대안적인 필터 장비들이 비슷한 결과들을 얻도록 사용될 수 있다는 것 일 인식할 것이다. 마찬가지로, 단일 CELP 인코더 유닛(126) 및 3개 TFE 유닛들(121)의 선택은 QMF 분석 필터 뱅크(125)(또는 그것의 등가물)에 의해 선택되는 특정한 주파수 대역들에 의존할 수 있다. 본 발명가들은 잔류 신호의 하위 주파수들이 CELP 또는 RPE 인코딩과 같은 파형 인코딩을 사용하여 정확하고 효율적으로 인코딩될 수 있는 반면에, 상위 주파수들이 (시간 및/또는 주파수) 엔빌로프 데이터 추출을 사용하여 적절히 인코딩될 수 있다는 것을 인식하고 있다. 이러한 이유는 하위 주파수들이 과도 상태 및 정현파들의 나머지와 가능한 코딩 아티팩트들을 포함할 수 있는 반면에, 상위 주파수들은 "순수한" 잡음에 유사하다.
CELP 인코더 유닛(126)이 또 다른 인코더 유닛, 예를 들어 RPE 인코더 유닛, MPE 인코더 유닛, 또는 또 다른 파형 인코딩 유닛으로 대체될 수 있다.
도 3a의 인코더 디바이스와 대응하는 디코더 디바이스는 도 3b에 개략적으로 도시되어 있다. 도 3b의 예시적인 디코딩 유닛(200)은 CELP 디코더(CD) 유닛(226)과 3개 시간/주파수 정형(TFS) 유닛들(221)을 포함한다. 각각의 시간/주파수 정형(TFS) 유닛(221)은 잡음 생성기(227)에 연결된다(단일 잡음 생성기(227)가 모든 시간/주파수 정형 유닛들(221)에 대해 잡음 신호들을 생성하도록 사용될 수 있다는 것을 이해할 것이다).
CELP 디코더 유닛(226) 및 3개 시간/주파수 정형 유닛들(221)은 잔류 신호의 (도 3b에 0-3으로 표시된) 각각의 주파수 대역들을 재구성하도록 디멀티플렉싱 및 결합 해제(D&D)(및 선택적으로 디코딩) 유닛(250)으로부터 신호 파라미터들을 수신한다. 재구성된 부분적 신호들은 QMF(Quadrature Mirror Filter) 합성 필터(QSF) 뱅크(225)로 공급되고, 그 경우 잔류 신호가 재구성된다. 이러한 재구성된 잔류 신호는 그 후 재구성된 오디오 신호 x'(n)를 생성하도록 (제 2) 조합 유닛(213)에 공급된다.
도 4a의 인코더 유닛(100)은 또한 4개의 주파수 대역들(0-3으로 표시됨)로 잔류 신호 z(n)를 분리하는 QMF(Quadrature Mirror Filter) 분석 필터(QAF) 뱅크(125)를 갖는다. 도 3a와는 반대로, 도 4a의 실시예는 또한 제 2 조합 유닛(113)과 결합 및 멀티플렉싱(C&M) 유닛(150) 사이에 연결되는, 즉 QMF 분석 필터 뱅크(125) 및 인코더 유닛들(126)에 병렬로 연결되는 시간/주파수 엔빌로프 데이터 추출(TFE) 유닛(121)을 갖는다. 이러한 특별히 유리한 실시예에 있어서, 잔류 신호 z(n)는 종래 기술에서와 같이 초기에 잡음 코딩되지만, 또한 인코더 유닛들(126)에 의해 주파수 대역 당 파형 코딩된다. 결합 및 멀티플렉싱 유닛(150)은 시간/주파수 엔빌로프 데이터 추출 유닛(121)에 의해 생성되는 파라미터들의 일부가 인코더 유닛들(126)에 의해 중복될 수 있는 것과 같이 구성될 수 있다. 그러한 경우에 있어서, (CELP 또는 대등한) 인코더 유닛들(126)은 TFE 유닛(121)이 기초 신호 파라미터들을 제공하도록 작동하는 반면에, 향상된 신호 파라미터들을 제공하도록 작동한다. 대안적으로, TFE 유닛(121) 및 CELP 인코더 유닛들(126) 모두로부터의 파라미터들이 송신될 수 있다.
결합 및 멀티플렉싱된 파라미터들은 스케일러블 비트 스트림에 따라 구성될 수 있다. 그러한 비트 스트림은 예를 들어 8개 섹션들, 헤더, 과도 상태 파라미터들, 정현파 파라미터들, 잡음 파라미터들, 및 CELP(또는 대등한) 파라미터들에 대 한 4개의 추가적인 섹션들로 구성될 수 있다. 이러한 구조를 갖는 비트 스트림은 각각의 CELP 파라미터들 섹션 앞 또는 뒤에서 생략될 수 있다. 각각의 CELP 파라미터들 섹션이 제 1의 4개 섹션들에 의해 구성되는 기초 계층에서 송신되는 오디오를 강화하기 위해 강화 계층으로 보여질 수 있다.
결합 및 멀티플렉싱 유닛(150)은 어느 인코더 유닛(즉, 4개 CE 유닛들(126) 또는 TFE 유닛(121) 중 어느 것)이 어떠한 파라미터들을 생성하도록 사용되었는지를 표시하는 정보를 송신할 수 있다. 이러한 인코더 정보는 디코딩 디바이스가 적절한 디코더 유닛을 선택하도록 한다. 대안적으로, 디코딩 디바이스는 송신된 파라미터들에 기초하여 이러한 선택을 한다. 예를 들어, QMF 분석 필터 뱅크(229)에서 어떠한 주파수 대역의 에너지가 CELP 디코더(226)에서 동일한 대역의 에너지보다 현저하게 더 클 때, QMF 분석 필터 뱅크(229)는 그 특정한 주파수 대역에 대해 선택되어야 한다.
오직 단일 CELP 인코더(CE) 유닛(126)만이 종래 기술에 관한 향상을 이미 제공한 것으로 보여질 수 있다는 것에 주의한다. 그러한 실시예에 있어서, 단일 CELP 인코더 유닛(126)은 잔류 신호 z(n)의 전체 주파수 범위, 또는 그의 선택된 주파수 대역만을 인코딩할 수 있다. 대안적으로, 2 또는 3개 CELP 인코더 유닛들(126)은 연관된 주파수 대역을 각각 인코딩하기 위해 제공될 수 있다. 최상위 주파수 대역의 CELP 인코더 유닛(126)은 이러한 주파수 대역이 "순수한" 잡음과 유사한 신호를 포함할 가능성이 높을 때 생략되는 것이 유리할 수 있다.
또한 인코더 유닛들(126)이 CELP 인코더 대신에(또는 부가하여), RPE, MPE, 또는 다른 인코더(일반적으로 파형 인코더)를 각각 포함할 수 있다는 것에 또한 주의한다.
도 4a의 인코더 디바이스와 대응하는 디코더 디바이스는 도 4b에 개략적으로 도시되어 있다. 도 4b의 예시적인 디코딩 유닛(200)은 선택된 주파수 대역(0-3으로 표시됨)에 대해 각각 복수의 CELP 디코더(CD) 유닛들(226)을 포함한다. 추가로, 시간/주파수 정형(TFS) 유닛(221)(잡음 생성기(227)에 연결됨)은 디코더 유닛들(226)에 병렬로 배치된다. 시간/주파수 정형(TFS) 유닛(221)에 의해 재구성되는 (잔류) 신호는 복수의 주파수 대역들(0-3으로 표시됨)로 신호를 분리하는 QMF 분석 필터(QAF) 뱅크(229)에 공급된다. 스위치들(230)의 세트는 QMF 합성 필터(QSF) 뱅크(225)로 CELP 디코더 유닛(226) 또는 QMF 분석 필터 뱅크(229)를 접속시킬 수 있다. 스위치들(230)은 디멀티플렉싱 및 결합 해제 유닛(250)으로부터 선택 정보를 수신하는 스위치 제어 유닛(231)에 의해 개별적으로 제어된다. 따라서, 각각의 주파수 대역은 시간/주파수 정형(TFS) 유닛(221) 또는 CELP 디코더(CD) 유닛(226)을 사용하여 디코딩될 수 있다. 대안적으로, 스위치 제어 유닛(231)은 잔류 신호 품질을 측정하고 측정된 신호 품질에 따라 스위치들(230)을 제어하기 위한 신호 품질 테스트 유닛을 구비할 수 있다.
CELP 디코더 유닛들(226)이 RPE 또는 MPE 디코더 유닛들과 같은 등가의 디코더 유닛들로 개별적 또는 집합적으로 대체될 수 있다는 것을 이해할 것이다. 추가적인 수정들이 이루어질 수 있고, 예를 들어 시간/주파수 정형(TFS) 유닛(221)이 QAF 유닛(229)에 집적될 수 있다.
본 발명은 오디오 신호로부터 과도 상태 및 정현파를 감한 후에, 잔류 신호가 "순수한" 잡음 신호가 아니고 그와 같이 정확하게 코딩될 수 없다는 견해에 기초한다. 본 발명은 또한 잔류 신호가 주파수 대역 당 잔류 신호를 인코딩함으로써 더 정확하게 인코딩될 수 있다는 견해로부터 이익을 얻는다. 이것은 또한 주파수 대역에 의존하여 사용되는 특정한 인코딩 테크닉을 구성하도록 한다.
본 발명 본 문헌에서 사용되는 어떠한 용어들도 본 발명의 범위를 제한하도록 해석되지 않아야 한다는 것에 주의한다. 특히, 용어들 "포함하다" 및 "포함하는"은 구체적으로 언급되지 않은 어떠한 요소들을 배제하는 것을 뜻하지는 않는다. 단일 (회로) 요소들은 다중 (회로) 요소들 또는 그것들의 등가물들과 대체될 수 있다.
당업자들은 본 발명이 상기 기술된 실시예들로 제한되지 않으며 많은 수정들 및 추가들이 첨부된 특허청구범위에 규정된 바에 따른 본 발명의 범위로부터 벗어나지 않으며 이루어질 수 있다는 것을 이해할 것이다.

Claims (35)

  1. 오디오 인코딩 디바이스(100)에 있어서,
    오디오 신호의 과도 신호 성분들 및/또는 정현파 신호 성분들을 인코딩하고 잔류 신호를 생성하기 위한 제 1 인코딩 수단(101, 111)과,
    상기 잔류 신호를 인코딩하기 위한 제 2 인코딩 수단을 포함하고,
    상기 제 2 인코딩 수단은 상기 잔류 신호의 적어도 하나의 주파수 대역을 선택하기 위한 필터 수단(122, 125)을 포함하고,
    상기 제 2 인코딩 수단은 또한 상기 선택된 주파수 대역 및 상기 잔류 신호의 추가적인 주파수 대역을 각각 인코딩하기 위한 적어도 제 1 인코딩 유닛(123, 126) 및 제 2 인코딩 유닛(124, 121)을 더 포함하는, 오디오 인코딩 디바이스(100).
  2. 제 1 항에 있어서,
    상기 필터 수단(122, 125)은 상기 선택된 주파수 대역(LF; 0)이 비교적 저주파들을 포함하고 상기 추가적인 주파수 대역(HF; 1)이 비교적 고주파들을 포함하도록 구성되는, 오디오 인코딩 디바이스(100).
  3. 제 1 항에 있어서,
    상기 필터 수단(122, 125)은 또한 상기 추가적인 주파수 대역(HF; 1) 선택하 도록 구성되는, 오디오 인코딩 디바이스(100).
  4. 제 1 항에 있어서,
    상기 추가적인 주파수 대역(HF; 1)은 실질적으로 상기 잔류 신호의 전체 주파수 범위를 포함하는, 오디오 인코딩 디바이스(100).
  5. 제 1 항에 있어서,
    상기 제 1 인코딩 유닛(123, 126)은 파형 인코더를 포함하고 상기 제 2 인코딩 유닛(124, 121)은 잡음 인코더를 포함하는, 오디오 인코딩 디바이스(100).
  6. 제 5 항에 있어서,
    상기 제 1 인코딩 유닛(123, 126)은 AS(Analysis-by-Synthesis) 인코더를 포함하는, 오디오 인코딩 디바이스(100).
  7. 제 5 항에 있어서, 상기 제 1 인코딩 유닛(123, 126)은 RPE(Regular Pulse Excitation) 인코더, 및/또는 MPE(Multiple Pulse Excitation) 인코더, 및/또는 CELP(Code-Excited Linear Prediction) 인코더를 포함하는, 오디오 인코딩 디바이스(100).
  8. 제 1 항에 있어서,
    상기 필터 수단은 대역 분할기(122) 또는 QMF(Quadrature Mirror Filter) 뱅크(125)를 포함하는, 오디오 인코딩 디바이스(100).
  9. 제 1 항에 있어서,
    상기 제 1 인코딩 수단은 과도 합성 유닛(102) 및 제 1 조합 유닛(103)에 연결되는 과도 파라미터 추출 유닛(101)과, 정현파 파라미터 합성 유닛(112) 및 제 2 조합 유닛(113)에 연결되는 정현파 파라미터 추출 유닛(111)을 포함하는, 오디오 인코딩 디바이스(100).
  10. 제 1 항에 있어서,
    상기 제 1 인코딩 수단 및 상기 제 2 인코딩 수단에 의해 생성되는 신호들을 결합 및 멀티플렉싱하기 위한 결합 및 멀티플렉싱 유닛(150)을 더 포함하는, 오디오 인코딩 디바이스(100).
  11. 제 1 항에 따른 오디오 인코딩 디바이스(100)에 의해 인코딩된 오디오 신호를 디코딩하기 위한 오디오 디코딩 디바이스(200)에 있어서,
    상기 오디오 신호의 과도 신호 성분들 및/또는 정현파 신호 성분들을 디코딩하기 위한 제 1 디코딩 수단과,
    잔류 신호를 디코딩하기 위한 제 2 디코딩 수단을 포함하고,
    상기 제 2 디코딩 수단은 상기 잔류 신호의 제 1 주파수 대역(LF; 0) 및 제 2 주파수 대역(HF; 1)을 각각 디코딩하기 위한 적어도 제 1 디코딩 유닛(223, 226) 및 제 2 디코딩 유닛(224, 221)과, 상기 잔류 신호의 상기 디코딩된 제 1 주파수 대역 및 제 2 주파수 대역을 믹싱하기 위한 믹싱 유닛(222, 225)을 포함하는, 오디오 디코딩 디바이스(200).
  12. 제 11 항에 있어서,
    상기 제 1 디코딩 유닛(223, 226)은 파형 디코더를 포함하고 상기 제 2 디코딩 유닛(224, 221)은 잡음 디코더를 포함하는, 오디오 디코딩 디바이스(200).
  13. 제 12 항에 있어서,
    상기 제 1 디코딩 유닛(223, 226)은 AS(Analysis-by-Synthesis) 디코더를 포함하는, 오디오 디코딩 디바이스(200).
  14. 제 12 항에 있어서,
    상기 제 1 디코딩 유닛(223, 226)은 RPE(Regular Pulse Excitation) 디코더, 및/또는 MPE(Multiple Pulse Excitation) 디코더, 및/또는 CELP(Code-Excited Linear Prediction) 디코더를 포함하는, 오디오 디코딩 디바이스(200).
  15. 제 11 항에 있어서,
    상기 믹싱 유닛은 QMF(Quadrature Mirror Filter) 합성 필터 뱅크(225)에 의 해 구성되는, 오디오 디코딩 디바이스(200).
  16. 제 11 항에 있어서,
    상기 제 1 주파수 대역(LF; 0) 및/또는 상기 제 2 주파수 대역(HF; 1)을 디코딩하기 위한 제 3 디코더 유닛(221)을 더 포함하며,
    상기 제 3 디코더 유닛(221)은 상기 제 1 및/또는 제 2 디코더 유닛과는 서로 다른 디코딩 테크닉을 이용하는, 오디오 디코딩 디바이스(200).
  17. 제 16 항에 있어서,
    상기 제 1 디코딩 유닛(226) 또는 상기 제 3 디코딩 유닛(221)을 상기 믹싱 유닛(222, 225)에 선택적으로 접속하기 위한 스위칭 수단(230)을 더 포함하는, 오디오 디코딩 디바이스(200).
  18. 제 11항에 있어서,
    상기 제 3 디코딩 유닛(221)에는 상기 제 3 디코딩 유닛에 의해 디코딩된 상기 신호의 주파수 대역들을 선택하기 위한 추가적인 필터 유닛(229)이 제공되는, 오디오 디코딩 디바이스(200).
  19. 제 11 항에 있어서,
    상기 제 1 디코딩 수단은 과도 합성 유닛(202) 및 제 1 조합 유닛(203)과, 정현파 파라미터 합성 유닛(212) 및 제 2 조합 유닛(213)을 포함하는, 오디오 디코딩 디바이스(200).
  20. 제 11 항에 있어서,
    송신 채널로부터 수신되는 파라미터들을 디멀티플렉싱 및 결합 해제하기 위한 디멀티플렉싱 및 결합 해제 유닛(250)을 더 포함하는, 오디오 디코딩 디바이스(200).
  21. 제 1 항에 따른 오디오 인코딩 디바이스(100)와 제 11 항에 따른 오디오 디코딩 디바이스(200)를 포함하는, 오디오 송신 시스템.
  22. 오디오 신호를 인코딩하는 방법에 있어서,
    상기 오디오 신호의 과도 신호 성분들 및/또는 정현파 신호 성분들을 인코딩하고 잔류 신호를 생성하는 단계와,
    상기 잔류 신호 인코딩 단계를 포함하고,
    상기 잔류 신호를 인코딩하는 단계는 상기 잔류 신호의 주파수 대역을 선택하는 단계 및 상기 선택된 주파수 대역 및 상기 잔류 신호의 추가적인 주파수 대역을 개별적으로 인코딩하는 단계를 포함하는, 오디오 신호 인코딩 방법.
  23. 제 22 항에 있어서,
    상기 선택된 주파수 대역(LF; 0)은 비교적 저주파들을 포함하고 상기 추가적인 주파수 대역(HF; 1)은 비교적 고주파들을 포함하는, 오디오 신호 인코딩 방법.
  24. 제 22 항에 있어서,
    상기 추가적인 주파수 대역(HF; 1)은 또한 선택된 주파수 대역인, 오디오 신호 인코딩 방법.
  25. 제 22 항에 있어서,
    상기 추가적인 주파수 대역(HF; 1)은 실질적으로 상기 잔류 신호의 전체 주파수 범위를 포함하는, 오디오 신호 인코딩 방법.
  26. 제 22 항에 있어서,
    상기 선택된 주파수 대역(LF; 0)을 인코딩하는 단계는 파형 인코딩을 포함하고, 상기 추가적인 주파수 대역(HF; 1)을 인코딩하는 단계는 잡음 인코딩을 포함하는, 오디오 신호 인코딩 방법.
  27. 제 26 항에 있어서,
    상기 선택된 주파수 대역(LF; 0)을 인코딩하는 단계는 AS(Analysis-by-Synthesis) 인코딩을 포함하는, 오디오 신호 인코딩 방법.
  28. 제 26 항에 있어서,
    상기 선택된 주파수 대역을 인코딩하는 단계는 RPE(Regular Pulse Excitation) 인코딩, MPE(Multiple Pulse Excitation) 인코딩, 및/또는 CELP(Code-Excited Linear Prediction) 인코딩을 포함하는, 오디오 신호 인코딩 방법.
  29. 제 22 항의 방법에 의해 인코딩된 오디오 신호를 디코딩하는 방법에 있어서,
    상기 오디오 신호의 과도 신호 성분들 및/또는 정현파 신호 성분들을 디코딩하는 단계와,
    잔류 신호를 디코딩하는 단계를 포함하고,
    상기 잔류 신호를 디코딩하는 단계는, 상기 잔류 신호의 제 1 주파수 대역(LF; 0) 및 제 2 주파수 대역(HF; 1)을 개별적으로 디코딩하는 부속 단계 및 그에 따라 디코딩된 주파수 대역들을 결합하는 부속 단계를 포함하는, 오디오 신호 디코딩 방법.
  30. 제 29 항에 있어서,
    상기 제 1 주파수 대역(LF; 0)을 디코딩하는 부속 단계는 파형 디코딩을 포함하고 상기 제 2 주파수 대역을 디코딩하는 부속 단계는 잡음 디코딩을 포함하는, 오디오 신호 디코딩 방법.
  31. 제 30 항에 있어서,
    상기 선택된 주파수 대역(LF; 0)을 디코딩하는 단계는 AS(Analysis-by-Synthesis) 디코딩을 포함하는, 오디오 신호 디코딩 방법.
  32. 제 30 항에 있어서,
    상기 제 1 주파수 대역(LF; 0)을 디코딩하는 부속 단계는 RPE(Regular Pulse Excitation) 디코딩, MPE(Multiple Pulse Excitation) 디코딩, 및/또는 CELP(Code-Excited Linear Prediction) 디코딩을 포함하는, 상기 오디오 신호 디코딩 방법.
  33. 제 29 항에 있어서,
    상기 제 1 주파수 대역(LF; 0) 및/또는 상기 제 2 주파수 대역(HF; 1)을 추가적으로 디코딩하는 부속 단계는 서로 다른 코딩 테크닉을 이용하는, 오디오 신호 디코딩 방법.
  34. 제 33 항에 있어서,
    원래의 디코딩된 주파수 대역 또는 추가적으로 디코딩된 주파수 대역을 선택적으로 사용하는 부속 단계를 더 포함하는, 오디오 신호 디코딩 방법.
  35. 제 22 항 또는 제 29 항에 따른 방법을 수행하기 위한, 컴퓨터 프로그램 제품.
KR1020077013144A 2004-11-09 2005-11-03 오디오 코딩 및 디코딩 KR20070109982A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04105633 2004-11-09
EP04105633.4 2004-11-09

Publications (1)

Publication Number Publication Date
KR20070109982A true KR20070109982A (ko) 2007-11-15

Family

ID=35892382

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077013144A KR20070109982A (ko) 2004-11-09 2005-11-03 오디오 코딩 및 디코딩

Country Status (6)

Country Link
US (1) US20090070118A1 (ko)
EP (1) EP1815462A1 (ko)
JP (1) JP2008519991A (ko)
KR (1) KR20070109982A (ko)
CN (1) CN101167128A (ko)
WO (1) WO2006051451A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009066869A1 (en) * 2007-11-21 2009-05-28 Electronics And Telecommunications Research Institute Frequency band determining method for quantization noise shaping and transient noise shaping method using the same
KR100938282B1 (ko) * 2007-11-21 2010-01-22 한국전자통신연구원 양자화 잡음 처리를 위한 적용 주파수 대역 결정 방법과,그를 이용한 양자화 잡음 처리 방법

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE474312T1 (de) * 2007-02-12 2010-07-15 Dolby Lab Licensing Corp Verbessertes verhältnis von sprachlichen zu nichtsprachlichen audio-inhalten für ältere oder hörgeschädigte zuhörer
US8195454B2 (en) 2007-02-26 2012-06-05 Dolby Laboratories Licensing Corporation Speech enhancement in entertainment audio
KR101411900B1 (ko) * 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
KR101410230B1 (ko) * 2007-08-17 2014-06-20 삼성전자주식회사 종지 정현파 신호와 일반적인 연속 정현파 신호를 다른방식으로 처리하는 오디오 신호 인코딩 방법 및 장치와오디오 신호 디코딩 방법 및 장치
KR101380170B1 (ko) * 2007-08-31 2014-04-02 삼성전자주식회사 미디어 신호 인코딩/디코딩 방법 및 장치
KR101413967B1 (ko) 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화 방법 및 복호화 방법, 및 그에 대한 기록 매체, 오디오 신호의 부호화 장치 및 복호화 장치
CN101770776B (zh) 2008-12-29 2011-06-08 华为技术有限公司 瞬态信号的编码方法和装置、解码方法和装置及处理系统
KR101137652B1 (ko) * 2009-10-14 2012-04-23 광운대학교 산학협력단 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법
WO2011045926A1 (ja) * 2009-10-14 2011-04-21 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
EP2490217A4 (en) 2009-10-14 2016-08-24 Panasonic Ip Corp America ENCODING DEVICE, ENCODING METHOD AND CORRESPONDING METHODS
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8831937B2 (en) * 2010-11-12 2014-09-09 Audience, Inc. Post-noise suppression processing to improve voice quality
JP5845725B2 (ja) * 2011-08-26 2016-01-20 ヤマハ株式会社 信号処理装置
US9390722B2 (en) 2011-10-24 2016-07-12 Lg Electronics Inc. Method and device for quantizing voice signals in a band-selective manner
JP6201205B2 (ja) * 2012-11-30 2017-09-27 Kddi株式会社 音声合成装置、音声合成方法および音声合成プログラム
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
JP6035270B2 (ja) * 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
DE112015004185T5 (de) 2014-09-12 2017-06-01 Knowles Electronics, Llc Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1020888A (ja) * 1996-07-02 1998-01-23 Matsushita Electric Ind Co Ltd 音声符号化・復号化装置
JP3707153B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
JP3344962B2 (ja) * 1998-03-11 2002-11-18 松下電器産業株式会社 オーディオ信号符号化装置、及びオーディオ信号復号化装置
KR100304092B1 (ko) * 1998-03-11 2001-09-26 마츠시타 덴끼 산교 가부시키가이샤 오디오 신호 부호화 장치, 오디오 신호 복호화 장치 및 오디오 신호 부호화/복호화 장치
US6266644B1 (en) * 1998-09-26 2001-07-24 Liquid Audio, Inc. Audio encoding apparatus and methods
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
EP1190415B1 (en) * 2000-03-15 2007-08-08 Koninklijke Philips Electronics N.V. Laguerre function for audio coding
JP4622164B2 (ja) * 2001-06-15 2011-02-02 ソニー株式会社 音響信号符号化方法及び装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009066869A1 (en) * 2007-11-21 2009-05-28 Electronics And Telecommunications Research Institute Frequency band determining method for quantization noise shaping and transient noise shaping method using the same
KR100938282B1 (ko) * 2007-11-21 2010-01-22 한국전자통신연구원 양자화 잡음 처리를 위한 적용 주파수 대역 결정 방법과,그를 이용한 양자화 잡음 처리 방법
DE112008003153B4 (de) * 2007-11-21 2017-01-19 Electronics And Telecommunications Research Institute Frequenzband-Bestimmungsverfahren zum Formen von Quantisierungsrauschen

Also Published As

Publication number Publication date
US20090070118A1 (en) 2009-03-12
CN101167128A (zh) 2008-04-23
EP1815462A1 (en) 2007-08-08
JP2008519991A (ja) 2008-06-12
WO2006051451A1 (en) 2006-05-18

Similar Documents

Publication Publication Date Title
KR20070109982A (ko) 오디오 코딩 및 디코딩
RU2646314C1 (ru) Гармоническое преобразование, усовершенствованное перекрестным произведением
JP4708446B2 (ja) 符号化装置、復号装置およびそれらの方法
US7876966B2 (en) Switching between coding schemes
KR101397058B1 (ko) 신호 처리 방법 및 이의 장치
CN103384900B (zh) 在预测编码与变换编码之间交替的低延迟声音编码
KR20120063543A (ko) 멀티-모드 오디오 신호 디코더, 멀티-모드 오디오 신호 인코더 및 선형-예측-코딩 기반의 노이즈 성형을 사용하는 방법 및 컴퓨터 프로그램
EP2849180B1 (en) Hybrid audio signal encoder, hybrid audio signal decoder, method for encoding audio signal, and method for decoding audio signal
KR101407120B1 (ko) 오디오 신호를 처리하고 결합된 통합형 음성 및 오디오 코덱(usac)을 위한 보다 높은 시간적 입도를 제공하기 위한 장치 및 방법
CN105957532A (zh) 对音频/语音信号进行编码和解码的方法和设备
JP2013508761A (ja) マルチモードオーディオコーデックおよびそれに適応されるcelp符号化
EP1756807B1 (en) Audio encoding
US6611797B1 (en) Speech coding/decoding method and apparatus
AU2541799A (en) Apparatus and method for hybrid excited linear prediction speech encoding
US20090319277A1 (en) Source Coding and/or Decoding
JP5236032B2 (ja) 音声符号化装置、音声復号装置およびそれらの方法
KR20100114450A (ko) 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치
CN107924683A (zh) 正弦编码和解码的方法和装置
JP2796408B2 (ja) 音声情報圧縮装置
JP3554513B2 (ja) 音声合成装置とその方法及び音声合成プログラムを記録した記録媒体
JP3166697B2 (ja) 音声符号化・復号装置及びシステム
KR100255297B1 (ko) 음성 데이터 부호화/복호화장치 및 그 방법
JPH10105200A (ja) 音声符号化/復号化方法
Unver Advanced Low Bit-Rate Speech Coding Below 2.4 Kbps
JPH11249696A (ja) 音声符号化/復号化方法

Legal Events

Date Code Title Description
N231 Notification of change of applicant
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application