KR20100039433A - 디코딩 장치 - Google Patents

디코딩 장치 Download PDF

Info

Publication number
KR20100039433A
KR20100039433A KR1020107004625A KR20107004625A KR20100039433A KR 20100039433 A KR20100039433 A KR 20100039433A KR 1020107004625 A KR1020107004625 A KR 1020107004625A KR 20107004625 A KR20107004625 A KR 20107004625A KR 20100039433 A KR20100039433 A KR 20100039433A
Authority
KR
South Korea
Prior art keywords
signal
sub
signals
composite digital
parameter
Prior art date
Application number
KR1020107004625A
Other languages
English (en)
Other versions
KR101016982B1 (ko
Inventor
제이. 브리바르트 덜크
스티븐 엘. 제이. 디. 이. 밴 드 파
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=29255420&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR20100039433(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20100039433A publication Critical patent/KR20100039433A/ko
Application granted granted Critical
Publication of KR101016982B1 publication Critical patent/KR101016982B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereo-Broadcasting Methods (AREA)

Abstract

요약하자면, 본 출원은 다중 채널 오디오 신호들의 공간 속성들의 음향-심리학적으로 동기부여되는 파라메터적 설명을 기재한다. 이러한 파라메터적 설명은 단지 하나의 모노럴 신호가 신호의 공간 특성들을 기재하는 (양자화된) 파라메터들과 조합되어 전송되어야 하기 때문에, 오디오 코더들에서 큰 비트율(bitrate) 감소들을 허용한다. 디코더는 공간 파라메터들을 적용함으로써 오디오 채널들의 원래의 양을 형성할 수 있다. CD 품질에 가까운 스테레오 오디오를 위해, 10kbit/s 이하의 이들 공간 파라메터들과 연관된 비트율이 수신 단부에서 정확한 공간 임프레션(impression)을 재생하기에 충분해 보인다.

Description

디코딩 장치{Decoding apparatus}
본 발명은 오디오 신호들의 코딩에 관한 것으로서, 특히 다중-채널 오디오 신호들의 코딩에 관한 것이다.
오디오 코딩 분야에서, 예를 들면 오디오 신호의 지각적 품질을 과도하게 손상시킴 없이 신호를 통신하는 비트율(bit rate) 또는 신호를 저장하기 위한 저장 용량을 감소시키기 위해, 오디오 신호를 인코딩하는 것이 일반적으로 바람직하다. 이는 오디오 신호들이 제한된 용량의 통신 채널들을 통해 전송되어야 할 때 또는 이들 신호들이 제한된 용량을 갖는 기록 매체 상에 저장되어야 할 때 중요한 쟁점이다.
스테레오 프로그램의 비트율을 감소시키기 위해 제안되고 있는 오디오 코더들에서 선행 기술의 해결책들은 다음을 포함한다:
'세기 스테레오( Intensity stereo )'. 이 알고리즘에서, 높은 주파수들(전형적으로 5kHz 이상)은 시간-변화 및 주파수-의존적 스케일 인자들과 조합된 단일 오디오 신호(즉, 모노(mono))로 표시된다.
'M/S 스테레오'. 이 알고리즘에서, 신호는 합(또는 미드(mid), 또는 공통(common)) 및 차이(또는 사이드(side), 또는 비공통(uncommon)) 신호로 분해된다. 이러한 분해는 때때로 주요 성분 분석 또는 시간-변화하는 스케일 인자들과 조합된다. 이어서, 이들 신호는 변환 코더 또는 파형 코더에 의해 독립적으로 코딩된다. 이 알고리즘에 의해 성취된 정보 감소량은 소스 신호의 공간 특성들에 강하게 의존한다. 예를 들면, 소스 신호가 모노럴(monaural)인 경우, 상이한 신호가 0이고 폐기될 수 있다. 그러나, 좌측 및 우측 오디오 신호들의 상관 관계가 적은 경우(이는 종종 있는 경우임), 이러한 방식은 장점을 거의 제공하지 않는다.
오디오 신호들의 파라메터적 해석들은 특히 오디오 코딩 분야에서 지난 수 년 동안 흥미를 끌어왔다. 오디오 신호들을 기술하는 (양자화된) 파라메터들을 전송하는 것은 수신 단부에서 지각적으로 동등한 신호를 재합성하기 위한 전송 용량을 거의 필요로 하지 않는 것으로 밝혀지고 있다. 그러나, 현재의 파라메트릭 오디오 코더들은 모노럴 신호들을 코딩하는 것에 초점을 맞추고 있고, 스테레오 신호들은 종종 이중 모노로서 처리된다.
유럽 특허 출원 EP 제 1 107 232호는 L 및 R 성분을 갖는 스테레오 신호를 인코딩하는 방법을 개시하고 있으며, 여기서 스테레오 신호는 오디오 신호의 위상 및 레벨 차이들을 캡쳐링하는 파라메터 정보와, 스테레오 성분들 중 하나에 의해 나타내진다. 디코더에서, 다른 스테레오 성분은 인코딩된 스테레오 성분 및 파라메트릭 정보에 기초하여 재생된다.
본 발명의 목적은 재생된 신호의 높은 지각적 품질을 산출하는 개선된 오디오 코딩을 제공하는 문제를 해결하는 것이다.
상기 문제 및 다른 문제들은 오디오 신호를 코딩하는 방법에 의해 해결되며, 이 방법은,
- 적어도 2개의 입력 오디오 채널들의 조합을 포함하는 모노럴 신호를 생성하는 단계와,
- 적어도 2개의 입력 오디오 채널들의 공간 특성들을 나타내는 공간 파라메터들의 세트를 결정하는 단계로서, 상기 공간 파라메터들의 세트는 적어도 2개의 입력 오디오 채널들의 파형들의 유사성의 정도를 나타내는 파라메터를 포함하는, 상기 공간 특성들을 나타내는 공간 파라메터들의 세트를 결정하는 단계와,
- 모노럴 신호 및 공간 파라메터들의 세트를 포함하는 인코딩된 신호를 발생시키는 단계를 포함한다.
대응하는 파형들의 유사성의 정도를 포함하는 많은 공간 속성들 및 모노럴 오디오 신호로서 다중-채널 오디오 신호를 인코딩함으로써 다중-채널 신호는 높은 지각적 품질로 재생될 수 있는 것으로 발명자들에 의해 밝혀졌다. 본 발명의 추가의 장점은 다중-채널 신호, 즉, 적어도 제 1 채널 및 제 2 채널을 포함하는 신호, 예를 들면 스테레오 신호, 4채널 신호 등의 효율적인 인코딩을 제공하는 것이다.
따라서, 본 발명에 따라, 다중-채널 오디오 신호들의 공간 속성들이 파라메터화된다. 일반적인 오디오 코딩 어플리케이션들에 대해, 단지 하나의 모노럴 오디오 신호와 조합된 이들 파라메터들을 전송하는 것은, 원래의 공간 임프레션(impression)을 유지하면서, 채널들을 독립적으로 처리하는 오디오 코더들과 비교하여 스테레오 신호를 전송하는데 필요한 전송 용량을 감소시킨다. 중요한 쟁점은 사람들이 청각적 대상물의 파형들을 2회 수신하더라도(좌측 귀로 1회 및 우측 귀로 1회), 단일 청각적 대상물만이 특정 위치에서 특정 크기(또는 공간 확산도)로 인지된다.
따라서, 2개 이상의 (독립적인) 파형들로서 오디오 신호들을 기재하는 것이 불필요해 보이고, 각각 그 자신의 공간 특성들을 갖는 청각적 대상물들의 세트로서 다중-채널 오디오를 기재하는 것이 보다 나을 것이다. 즉각적으로 발생하는 하나의 곤란점은 청각적 대상물들의 주어진 앙상블(ensemble), 예를 들면 음악 레코딩으로부터 개개의 청각적 대상물들을 자동으로 분리하는 것은 거의 불가능하다는 사실이다. 이 문제는 개개의 청각적 대상물들에서 프로그램 물질을 분할하지 않고, 청각 시스템의 효과적인 (주변) 처리를 닮은 방식으로 공간 파라메터들을 기재함으로써 회피될 수 있다. 공간 속성들이 대응하는 파형들의 (비)유사성의 정도를 포함할 때, 높은 레벨의 지각적 품질을 유지하면서, 효율적인 코딩이 성취된다.
특히, 여기에 제시된 다중-채널 오디오의 파라메터적 설명은 Breebaart 등에 의해 제공된 바이노럴(binaural) 처리 모델에 관련된다. 이 모델은 바이노럴 청각 시스템의 효과적인 신호 처리를 기재하는 것을 목표로 한다. Breebaart 등에 의한 스테레오 처리 모델의 설명을 위해, Breebaart, J., van de Par, S. 및 Kohlrausch, A.(2001a). "대측성 억제에 기초한 바이노럴 처리 모델, I. 모델 셋업(Binaural processing model based on contralateral inhibition. I. Model setup.)". J. Acoust . Soc . Am . 110, 1074-1088; Breebaart, J. van de Par, S. 및 Kohlrausch, A.(2001b). "대측성 억제에 기초한 바이노럴 처리 모델, II. 스펙트럼적 파라메터들에의 의존성(Binaural processing model based on contralateral inhibition. II. Dependence on spectral parameters.)". J. Acoust . Soc . Am . 110, 1089-1104; 및 Breebaart, J., van de Par, S. 및 Kohlrausch, A.(2001c). "대측성 억제에 기초한 바이노럴 처리 모델, III. 시간적 파라메터들에의 의존성(Binaural processing model based on contralateral inhibition. III. Dependence on temporal parameters.)". J. Acoust . Soc . Am . 110, 1105-1117 참조한다. 본 발명의 이해를 돕기 위해 아래 짧은 해석이 주어진다.
바람직한 실시예에서, 공간 파라메터들의 세트는 적어도 하나의 위치추정 큐(localization cue)를 포함한다. 공간 속성들이 1개 이상, 바람직하게는 2개의 위치추정 큐들뿐만 아니라 대응하는 파형들의 (비)유사성의 정도를 포함할 때, 특히 높은 레벨의 인식 품질을 유지하면서 특히 효율적인 코딩이 성취된다.
위치추정 큐라는 용어는 오디오 신호에 기여하는 청각적 대상물들의 위치추정 큐에 대한 정보, 예를 들면 청각적 대상물의 방향 및/또는 거리를 전달하는 임의의 적절한 파라메터를 포함한다.
본 발명의 바람직한 실시예에서, 공간 파라메터들의 세트는 채널간 레벨 차이(interchannel level difference;ILD)와, 채널간 시간 차이(interchannel time difference;ITD) 및 채널간 위상 차이(interchannel phase difference;IPD) 중 선택된 하나를 포함하는 적어도 2개의 위치추정 큐를 포함한다. 채널간 레벨 차이 및 채널간 시간 차이는 수평 평면에서 가장 중요한 위치추정 큐들인 것으로 고려된다.
제 1 및 제 2 오디오 채널들에 대응하는 파형들의 유사성의 정도는 대응하는 파형들이 얼마나 유사하거나 또는 유사하지 않은지를 기재하는 임의의 적절한 함수일 수 있다. 따라서, 유사성의 정도는 유사성의 증가 함수, 예를 들면 채널간 교차-상관(cross-correlation)(함수)으로부터/로 결정되는 파라메터일 수 있다.
바람직한 실시예에 따라, 유사성의 정도는 상기 교차-상관 함수(간섭으로서 공지됨)의 최대값에서의 교차-상관 함수의 값에 대응한다. 최대 채널간 교차-상관은 음향 소스의 인식 공간의 확산도(또는 압축도)에 강력히 관련되고, 즉 상기 위치추정 큐들에 의해 설명되지 않는 추가의 정보를 제공함으로써, 이들에 의해 전달되는 적은 정도의 잉여 정보를 갖는 파라메터들의 세트를 제공하여, 효율적인 코딩을 제공한다.
대안적으로, 다른 유사성의 정도들, 예를 들면 파형들의 비유사성에 의해 증가하는 함수가 사용될 수 있음을 유의한다. 그러한 함수의 일 예는 1-c이고, 여기서 c는 0과 1 사이의 값들을 가정할 수 있는 교차-상관이다.
본 발명의 바람직한 실시예에 따라, 공간 특성들을 나타내는 공간 파라메터들의 세트를 결정하는 단계는 시간 및 주파수의 함수로서 공간 파라메터들의 세트를 결정하는 단계를 포함한다.
본 발명자들의 통찰로는 시간과 주파수의 함수로서 ILD, ITD (또는 IPD) 및 최대 상관 관계를 명시함으로써 임의의 다중 채널 오디오 신호의 공간 속성들을 기재하는 것으로 충분하다.
본 발명의 추가의 바람직한 실시예에서, 공간 특성들을 나타내는 공간 파라메터들의 세트를 결정하는 단계는,
- 적어도 2개의 입력 오디오 채널들 각각을 대응하는 복수의 주파수 대역들로 분할하는 단계와,
- 복수의 주파수 대역들 각각에 대해, 대응하는 주파수 대역 내에서 적어도 2개의 입력 오디오 채널들의 공간 특성들을 나타내는 공간 파라메터들의 세트를 결정하는 단계를 포함한다.
따라서, 인입하는 오디오 신호는 (바람직하게는) ERB-등급 규모로 선형으로 공간 배치된 여러 개의 대역-제한된 신호들로 분할된다. 바람직하게는, 분석 필터들은 주파수 및/또는 시간 도메인에서 부분적 오버랩을 보여준다. 이들 신호들의 대역폭은 ERB 속도에 따라, 중심 주파수에 의존한다. 순차로, 바람직하게는 모든 주파수 대역에 대해, 인입하는 신호들의 다음 특성들이 분석된다:
- 좌측 및 우측 신호들로부터 대역폭-제한된 신호의 상대적 레벨들로 정의되는 채널간 레벨 차이 또는 ILD,
- 채널간 교차-상관 함수에서 피크(peak)의 위치에 대응하는 채널간 지연(또는 위상 시프트(phase shift))로 정의되는 채널간 시간(또는 위상) 차이(ITD 또는 IPD), 및
- 최대 채널간 교차-상관에 의해 파라메터화될 수 있는 ITD들 또는 ILD들에 의해 설명될 수 없는 파형들의 (비)유사성 (즉, 최대 피크의 위치에서 정규화된 교차-상관 함수의 값, 또한 가간섭성(coherence)으로서 공지됨).
상기 3개의 파라메터들은 시간이 경과함에 따라 변화하지만; 바이노럴 청각 시스템은 그의 처리에 있어서 매우 느리기 때문에, 이들 특성들의 갱신 속도는 다소 낮다(전형적으로 수십 밀리초).
여기서, (느리게) 시간-변화하는 상기 특성들은 바이노럴 청각 시스템이 이용할 수 있는 단지 공간 신호 특성들만이고, 이들 시간 및 주파수 의존적 파라메터들로부터, 인지되는 청각 세계는 보다 높은 레벨들의 청각 시스템에 의해 재구성된다고 가정될 수 있다.
본 발명의 일 실시예는,
입력 신호들의 특정 조합으로 구성되는 하나의 모노럴 신호, 및
공간 파라메터들의 세트: 2개의 위치추정 큐들(ILD, 및 ITD 또는 IPD), 및 바람직하게는 모든 시간/주파수 슬롯에 대해 ILD들 및/또는 ITD들에 의해 설명될 수 없는 파형들의 유사성 또는 비유사성을 기술하는 파라메터(예, 교차-상관 함수의 최대값)에 의해 다중 채널 오디오 신호를 기재하는 것을 목표로 한다. 바람직하게는, 공간 파라메터들은 각각의 추가의 청각 채널에 대해 포함된다.
파라메터들의 전송의 중요한 쟁점은 파라메터 표시의 정확도(즉, 양자화 에러들의 크기)이고, 이는 필요한 전송 용량에 직접적으로 관련된다.
본 발명의 다른 바람직한 실시예에 따라, 모노럴 신호 및 공간 파라메터들의 세트를 포함하는 인코딩된 신호를 발생시키는 단계는 각각 대응하는 결정된 공간 파라메터에 관련된 대응하는 양자화 에러를 도입하는 양자화된 공간 파라메터들의 세트를 발생시키는 단계를 포함하고, 여기서, 도입된 양자화 에러들 중의 적어도 하나는 결정된 공간 파라메터들 중의 적어도 하나의 값에 의존하도록 제어된다.
따라서, 파라메터들의 양자화에 의해 도입된 양자화 에러는 이들 파라메터들에서 변화들로 인간의 청각 시스템의 감응성에 따라 제어된다. 이러한 감응성은 파라메터들 자체의 값들에 크게 의존한다. 따라서, 파라메터들의 값들에 의존하기 위해 양자화 에러를 제어함으로써, 개선된 인코딩이 성취된다.
본 발명의 장점은 오디오 코더들에서 모노럴 및 바이노럴 신호 파라메터들의 결합 해제를 제공하는 것이다. 따라서, 스테레오 오디오 코더들에 관련된 곤란점들(예를 들면, 청각 간에 상관된 양자화 잡음과 비교하여 청각간 상관되지 않은 양자화 잡음의 가청성, 또는 이중 모노 모드로 인코딩되는 파라메터적 코더들에서 청각간 위상 불일치)이 크게 감소된다.
본 발명의 추가의 장점은 강력한 비트율 감소가 공간 파라메터들에 필요한 낮은 갱신 속도 및 낮은 주파수 분해능으로 인해 오디오 코더들에서 성취된다는 것이다. 공간 파라메터들을 코딩하기 위해 연관된 비트율은 전형적으로 10kbit/s 이하이다(아래 실시예 참조).
본 발명의 추가의 장점은 기존 오디오 코더들과 용이하게 조합될 수 있다는 것이다. 제안된 방식은 임의의 기존 코딩 전략에 의해 코딩되고 디코딩될 수 있는 하나의 모노 신호를 생성한다. 모노럴 디코딩 후, 여기 기재된 시스템은 적절한 공간 속성들에 의해 스테레오 다중채널 신호를 재생시킨다.
공간 파라메터들의 세트는 오디오 코더들에서 확장층으로서 사용될 수 있다. 예를 들면, 모노 신호는 낮은 비트율만이 허용되는 경우에 전송되는 한편, 공간 확장층을 포함함으로써 디코더는 스테레오 음향을 재생할 수 있다.
본 발명은 스테레오 신호들로만 제한되지 않고, n개의 채널들(n>1)을 포함하는 임의의 다중-채널 신호에 적용될 수 있음에 주목한다. 특히, 본 발명은 (n-1) 세트의 공간 파라메터들이 전송되는 경우, 하나의 모노 신호로부터 n개의 채널들을 발생시키기 위해 사용될 수 있다. 이러한 경우에, 공간 파라메터들은 단일 모노 신호로부터 n개의 상이한 오디오 채널들을 어떻게 형성할지를 기재한다.
본 발명은 상술된 방법을 포함하는 상이한 방식들, 그리고 다음에서 코딩된 오디오 신호를 디코딩하는 방법, 인코더, 디코더 및 추가의 생성 수단들로 구현될 수 있고, 이들 각각은 상기 제 1 방법과 관련하여 기재된 하나 이상의 이익들 및 장점들을 산출하고, 각각은 상기 제 1 방법과 관련하여 기재되고 종속항들에 개시된 바람직한 실시예들에 대응하는 1개 이상의 바람직한 실시예들을 갖는다.
상술되고 이하 기술된 방법의 특징들이 소프트웨어에서 구현될 수 있고, 컴퓨터-실행가능 명령들의 실행에 의해 유발되는 데이터 처리 시스템 또는 기타 처리 수단에서 수행될 수 있음이 주목된다. 그 명령들은 컴퓨터 네트워크를 통해 매체로부터 또는 다른 컴퓨터로부터 메모리, 예를 들면 RAM에 로드(load)된 프로그램 코드 수단일 수 있다. 대안으로, 기재된 특징들은 소프트웨어 대신에 또는 소프트웨어와 조합된 하드와이어드(hardwired) 회로에 의해 구현될 수 있다.
본 발명은 또한 오디오 신호를 코딩하는 인코더와 더 관련되며, 상기 인코더는,
- 적어도 2개의 입력 오디오 채널들의 조합을 포함하는 모노럴 신호를 생성하는 수단과,
- 적어도 2개의 입력 오디오 채널들의 공간 특성들을 나타내는 공간 파라메터들의 세트를 결정하는 수단으로서, 공간 파라메터들의 세트는 적어도 2개의 입력 오디오 채널들의 파형들의 유사성의 정도를 나타내는 파라메터를 포함하는, 상기 결정 수단과,
- 모노럴 신호 및 공간 파라메터들의 세트를 포함하는 인코딩된 신호를 발생시키는 수단을 포함한다.
모노럴 신호를 생성하는 상기 수단, 공간 파라메터들의 세트를 결정하는 수단, 뿐만 아니라 인코딩된 신호를 생성하는 수단은 임의의 적절한 회로 또는 디바이스, 예를 들면, 범용 또는 특수 목적의 프로그램가능 마이크로프로세서들, 디지털 신호 프로세서들(DSP), 어플리케이션 특정한 집적 회로들(ASIC), 프로그램가능 논리 어레이들(PLA), 필드 프로그램가능 게이트 어레이들(FPGA), 특수 목적 전자 회로들 등 또는 이들의 조합에 의해 구현될 수 있음이 주목된다.
본 발명은 오디오 신호를 공급하는 장치와 더 관련되며, 상기 장치는,
- 오디오 신호를 수신하는 입력부와,
- 인코딩된 오디오 신호를 얻기 위해 오디오 신호를 인코딩하는 상기 및 다음에 기재되는 바의 인코더와,
- 인코딩된 오디오 신호를 공급하는 출력부를 포함한다.
이 장치는, 예를 들면 고정식 또는 휴대용 컴퓨터들, 고정식 또는 휴대용 무선 통신 장비 또는 기타 핸드헬드(handheld) 또는 휴대용 디바이스들, 예를 들면 매체 플레이어들, 기록 디바이스들 등과 같은 임의의 전자 장비 또는 그러한 장비의 일부일 수 있다. 휴대용 무선 통신 장비라는 용어는 모바일 전화기들, 호출기들, 통신기들, 예를 들어, 전자 오거나이저들(organizers), 스마트 폰들, 개인용 정보 단말기들(PDA들), 핸드헬드 컴퓨터들 등과 같은 모든 장비를 포함한다.
입력은 아날로그 또는 디지털 형태로, 유선 접속, 예를 들면 라인 잭을 통해서 또는 무선 접속, 예를 들면 무선 신호, 또는 임의의 다른 적절한 방식으로 다중-채널 오디오 신호를 수신하는 임의의 적절한 회로 또는 디바이스를 포함할 수 있다.
유사하게, 출력은 인코딩된 신호를 공급하는 임의의 적절한 회로 또는 디바이스를 포함할 수 있다. 그러한 출력들의 예들은 LAN, 인터넷 등의 컴퓨터 네트워크에 신호를 제공하는 네트워크 인터페이스, 그리고 신호를 통신 채널, 예를 들면 무선 통신 채널 등을 통해 통신시키는 통신 회로를 포함한다. 다른 실시예들에서, 출력은 저장 매체 상에 신호를 저장하는 디바이스를 포함할 수 있다.
본 발명은 인코딩된 오디오 신호와 더 관련되며, 상기 신호는,
- 적어도 2개의 오디오 채널들의 조합을 포함하는 모노럴 신호와,
- 적어도 2개의 입력 오디오 채널들의 공간 특성들을 나타내는 공간 파라메터들의 세트로서, 공간 파라메터들의 세트는 적어도 2개의 입력 오디오 채널들의 파형들의 유사성의 정도를 나타내는 파라메터를 포함하는 상기 공간 파라메터들의 세트를 포함한다.
본 발명은 또한 그와 같은 인코딩된 신호가 저장된 저장 매체에 관한 것이다. 여기서, 저장 매체라는 용어는 자기 테이프, 광디스크, 디지털 비디오 디스크(DVD), 컴팩트 디스크(CD 또는 CD-ROM), 미니-디스크, 하드 디스크, 플로피 디스크, 페로-전기(ferro-electric) 메모리, 전기적 소거가능 프로그램가능 판독 전용 메모리(EEPROM), 플래쉬 메모리, EPROM, 판독 전용 메모리(ROM), 스태틱(static) 랜덤 액세스 메모리(SRAM), 동적(dynamic) 랜덤 액세스 메모리(DRAM), 동기적 동적 랜덤 액세스 메모리(SDRAM), 강자성(ferromagnetic) 메모리, 광학 저장기, 전하 결합된(charge coupled) 디바이스들, 스마트 카드들, PCMCIA 카드들 등을 포함하지만, 이들로만 제한되지 않는다.
본 발명은 추가로, 인코딩된 오디오 신호를 디코딩하는 방법과 더 관련되며, 상기 방법은,
- 인코딩된 오디오 신호로부터 모노럴 신호를 얻는 단계로서, 상기 모노럴 신호는 적어도 2개의 오디오 채널들의 조합을 포함하는, 상기 모노럴 신호를 얻는 단계와,
- 인코딩된 오디오 신호로부터 공간 파라메터들의 세트를 얻는 단계로서, 공간 파라메터들의 상기 세트는 적어도 2개의 입력 오디오 채널들의 파형들의 유사성의 정도를 나타내는 파라메터를 포함하는, 상기 공간 파라메터들의 세트를 얻는 단계와,
- 모노럴 신호 및 상기 공간 파라메터들로부터 다중-채널 출력 신호를 생성하는 단계를 포함한다.
본 발명은 추가로 인코딩된 오디오 신호를 디코딩하는 디코더와 더 관련되며, 상기 디코더는,
- 인코딩된 오디오 신호로부터 모노럴 신호를 얻는 수단으로서, 상기 모노럴 신호는 적어도 2개의 오디오 채널들의 조합을 포함하는, 상기 모노럴 신호를 얻는 수단과,
- 인코딩된 오디오 신호로부터 공간 파라메터들의 세트를 얻는 수단으로서, 공간 파라메터들의 상기 세트는 적어도 2개의 오디오 채널들의 파형들의 유사성의 정도를 나타내는 파라메터를 포함하는, 상기 공간 파라메터들의 세트를 얻는 수단과,
- 모노럴 신호 및 상기 공간 파라메터들로부터 다중-채널 출력 신호를 생성하는 수단을 포함한다.
상기 수단들은 임의의 적절한 회로 또는 디바이스, 예를 들면 범용 또는 특수-목적의 프로그램가능 마이크로프로세서들, 디지털 신호 프로세서들(DSP), 어플리케이션 특정한 집적 회로들(ASIC), 프로그램가능 논리 어레이들(PLA), 필드-프로그램가능 게이트 어레이들(FPGA), 특수 목적의 전자 회로들 등 또는 이들의 조합에 의해 구현될 수 있음이 주목된다.
본 발명은 디코딩된 오디오 신호를 공급하는 장치와 더 관련되며, 상기 장치는,
- 인코딩된 오디오 신호를 수신하는 입력부와,
- 다중-채널 출력 신호를 얻기 위해 상기 인코딩된 오디오 신호를 디코딩하기 위한 상술되고 이하 기술되는 디코더와,
- 다중-채널 출력 신호를 공급 또는 재생하는 출력부를 포함한다.
이 장치는 상기한 바의 임의의 전자 장비 또는 그러한 장비의 일부일 수 있다.
입력은 코딩된 오디오 신호를 수신하는 임의의 적절한 회로 또는 디바이스를 포함할 수 있다. 그러한 입력들의 예들은 LAN, 인터넷 등의 컴퓨터 네트워크를 통해 신호를 수신하는 네트워크 인터페이스, 그리고 통신 채널, 예를 들면, 무선 통신 채널 등을 통해 신호를 수신하는 통신 회로를 포함한다. 다른 실시예들에서, 입력은 저장 매체로부터 신호를 판독하는 디바이스를 포함할 수 있다.
유사하게, 출력은 디지털 또는 아날로그 형태로 다중-채널 신호를 공급하기 위한 임의의 적절한 회로 또는 디바이스를 포함할 수 있다.
본 발명의 이들 양태 및 기타 양태들은 도면들을 참조하여 아래 기재된 실시예들로부터 명확하고 명백해질 것이다.
본 발명을 통해 재생된 신호의 높은 지각적 품질을 산출하는 개선된 오디오 코딩이 제공된다.
도 1은 본 발명의 일 실시예에 따른 오디오 신호를 인코딩하는 방법의 흐름도를 도시한다.
도 2는 본 발명의 일 실시예에 따른 코딩 시스템의 개략적 블록도를 도시한다.
도 3은 오디오 신호를 합성하는데 사용하기 위한 필터 방법을 도시한다.
도 4는 오디오 신호를 합성하는데 사용하기 위한 역상관기(decorrelator)를 도시한다.
도 1은 본 발명의 일 실시예에 따라 오디오 신호를 인코딩하는 방법의 흐름도를 도시한다.
초기 단계 S1에서, 인입하는 신호들 L 및 R은 참조 번호 101로 지시된 대역-통과 신호들로 (바람직하게는 주파수에 따라 증가하는 대역폭에 의해) 분할됨으로써, 이들의 파라메터들은 시간의 함수로서 분석될 수 있다. 시간/주파수 분할을 위한 하나의 가능한 방법은 시간-윈도우화에 이어 변환 오퍼레이션을 사용하는 것이지만, 시간-연속 방법들이 사용될 수도 있다(예, 필터 뱅크들). 이러한 처리의 시간 및 주파수 분해능은 신호에 채용되는 것이 바람직하고; 일시적인 신호들에 대해, 미세한 시간 분해능(수 밀리초의 치수) 및 거친 주파수 분해능이 바람직한 한편, 비-일시적 신호들에 대해, 보다 미세한 주파수 분해능 및 보다 거친 시간 분해능(수십 밀리초의 치수)이 바람직하다. 순차로, 단계 S2에서, 대응하는 서브대역 신호들의 레벨 차이(ILD)가 결정되고; 단계 S3에서, 대응하는 서브대역 신호들의 시간 차이(ITD 또는 IPD)가 결정되고; 단계 S4에서 ILD들 또는 ITD들에 의해 설명될 수 없는 파형들의 유사성 또는 비유사성의 정도가 기재된다. 이들 파라메터들의 분석은 아래 고찰된다.
단계 S2 : ILD 들의 분석
ILD는 주어진 주파수 대역에 대해 특정 시간의 경우에 신호들의 레벨 차이에 의해 결정된다. ILD를 결정하는 하나의 방법은 두 입력 채널들의 대응하는 주파수 대역의 근제곱 평균(rms) 값을 측정하고 이들 rms 값들의 비율을 연산하는 것이다(바람직하게는 dB로 표현됨).
단계 S3 : ITD 들의 분석
ITD는 양 채널들의 파형들 사이에 최상의 일치를 제공하는 시간 또는 위상 정렬에 의해 결정된다. ITD를 얻는 하나의 방법은 2개의 대응하는 서브대역 신호들 사이의 교차-상관 함수를 연산하고 최대값을 찾는 것이다. 교차-상관 함수에서 이러한 최대값에 대응하는 지연은 ITD 값으로서 사용될 수 있다. 제 2 방법은 좌측 및 우측 서브대역의 분석적 신호들을 연산하고(즉, 위상 및 엔벨로프 값들을 연산함), IPD 파라메터로서 채널들 간의 (평균) 위상 차이를 사용하는 것이다.
단계 S4 : 상관 관계의 분석
상관 관계는 먼저 대응하는 서브대역 신호들 사이에 최상의 일치를 제공하는 ILD 및 ITD를 우선 발견하고, 이어서 ITD 및/또는 ILD에 대한 보상 후 파형들의 유사성을 측정함으로써 얻어진다. 따라서, 이 프레임워크에서, 상관 관계는 ILD들 및/또는 ITD들에 속할 수 없는 대응하는 서브대역 신호들의 유사성 또는 비유사성으로서 정의된다. 이 파라메터에 대한 적절한 측정은 교차-상관 함수의 최대값(즉, 지연들의 세트를 가로지를 최대값)이다. 그러나, 대응하는 서브대역들의 합 신호에 비교한 ILD 및/또는 ITD 보상 후 차이 신호의 상대적 에너지 등의 다른 측정들이 사용될 수 있다(바람직하게는 ILD들 및/또는 ITD들에 대해 역시 보상됨). 이러한 차이 파라메터는 기본적으로 (최대) 상관 관계의 선형 변환이다.
후속 단계들 S5, S6 및 S7에서, 결정된 파라메터들이 양자화된다. 파라메터들의 전송의 중요한 쟁점은 파라메터 표시의 정확도(즉, 양자화 에러들의 크기)이고, 이는 필수적인 전송 용량에 직접적으로 관련된다. 이 섹션에서, 공간 파라메터들의 양자화와 관련된 여러 가지 쟁점들이 고찰될 것이다. 기본적인 개념은 이른바 공간 큐들의 바로-인식 가능한 차이들(JND들)에 대한 양자화 에러들을 기초한 것이다. 보다 명확히 하기 위해, 양자화 에러는 파라메터들에서 변화에 대한 인간 청각 시스템의 감응성에 의해 결정된다. 파라메터들의 변화들에 대한 감응성은 파라메터들 자체의 값들에 강력히 의존하기 때문에, 우리는 이산적인 양자화 단계들을 결정하기 위해 다음 방법들을 적용한다.
단계 S5 : ILD 들의 양자화
이는 ILD에서 변화들에 대한 감응성이 ILD 자체에 의존한다는 정신 음향적 연구로부터 공지된다. ILD가 dB로 표현되는 경우, 0dB의 기준치로부터 대략 1dB의 편차가 검출될 수 있는 한편, 3dB의 수치의 변화들은 기준 레벨 차이가 20dB에 상당하는 양인 경우에 필요하다. 따라서, 양자화 에러들은 좌측 및 우측 채널들의 신호가 보다 큰 레벨 차이를 갖는 경우에 보다 커질 수 있다. 예를 들면, 이는 먼저 채널들 사이의 레벨 차이를 측정하고, 이어서 얻어진 레벨 차이의 비선형(압축) 변환에 의해서 및 순차로 선형 양자화 처리에 의해서 또는 비선형 분포를 갖는 유효 ILD 값들에 대한 룩업테이블을 사용함으로써 적용될 수 있다. 아래 실시예는 그러한 룩업테이블의 일 예를 제공한다.
단계 S6 : ITD 들의 양자화
ITD들에서의 변화들에 대한 피험자의 감응성은 일정한 위상 임계값을 갖는 것으로서 특성화될 수 있다. 이는 지연 시간들의 견지에서, ITD의 양자화 단계는 주파수와 함께 감소되어야 한다. 대안으로, ITD가 위상 차이들의 형태로 나타나는 경우, 양자화 단계들은 주파수와 독립적이어야 한다. 이를 구현하는 하나의 방법은 양자화 단계로서 고정 위상 차이를 취하고 각각의 주파수 대역에 대한 대응하는 시간 지연을 결정하는 것이다. 이어서, 이러한 ITD 값은 양자화 단계로서 사용된다. 다른 방법은 주파수-독립형 양자화 방식에 따르는 위상 차이들을 전송하는 것이다. 이것은 또한 특정 주파수 이상에서, 인간의 청각 시스템이 미세 구조의 파형들에서 ITD들에 민감하지 않은 것으로 밝혀졌다. 이러한 현상은 특정 주파수(전형적으로 2kHz)에 이르기까지 ITD 파라메터들을 전송함으로써만 전개될 수 있다.
제 3의 비트스트림 감소 방법은 동일한 서브대역의 ILD 및/또는 상관 관계 파라메터들에 의존하는 ITD 양자화 단계들을 포함시키는 것이다. 큰 ILD들에 대해, ITD들은 덜 정확하게 코딩될 수 있다. 더욱이, 상관 관계가 매우 낮은 경우, ITD에서 변화들에 대한 인간의 감응성은 감소되는 것으로 알려졌다. 따라서, 보다 큰 ITD 양자화 에러들이 상관 관계가 적은 경우에 적용될 수 있다. 이러한 개념의 극단적인 예는 상관 관계가 특정한 임계값 이하인 경우 및/또는 ILD가 동일한 서브대역에 대해 충분히 큰 경우(전형적으로 약 20dB) ITD들을 전혀 전송하지 않는 것이다.
단계 S7 : 상관 관계의 양자화
상관 관계의 양자화 에러는 (1) 상관 관계값 자체 및 가능하게는 (2) ILD에 의존한다. 상관 관계값들이 +1에 가까우면 큰 정확도(즉, 작은 양자화 단계)로 코딩되는 한편, 상관 관계값들이 0에 가까우면 낮은 정확도(큰 양자화 단계)로 코딩된다. 비선형으로 분포된 상관 관계 값들의 세트의 일 예가 이 실시예에 주어진다. 제 2의 가능성은 동일한 서브대역의 측정된 ILD에 의존하는 상관 관계에 대한 양자화 단계들을 사용하는 것이고: 큰 ILD들(즉, 하나의 채널이 에너지의 견지에서 지배적임)에 대해, 상관 관계에서 양자화 에러들이 보다 커진다. 이러한 원리의 극단적인 실시예는 특정 서브대역에 대한 ILD의 절대값이 특정 임계값 이상인 경우 그 서브대역에 대한 상관 관계 값들을 전혀 전송하지 않는 것일 수 있다.
단계 S8에서, 모노럴 신호 S는 인입하는 오디오 신호들로부터, 예를 들면 인입하는 신호 성분들의 합 신호로서 지배적인 신호를 결정하며, 인입하는 신호 성분들로부터 주요 성분 신호를 발생시킴으로써 생성된다. 이러한 처리는 바람직하게는 모노 신호를 생성하기 위해, 즉 먼저 조합 전에 ITD 또는 IPD를 사용하여 서브대역 파형들을 정렬시킴으로써 추출된 공간 파라메터들을 사용한다.
마지막으로, 단계 S9에서, 코딩된 신호(102)는 모노럴 신호 및 결정된 파라메터들로부터 발생된다. 대안으로, 합 신호 및 공간 파라메터들은 동일하거나 또는 상이한 채널들을 통해 별개의 신호들로서 통신될 수 있다.
상기 방법은 대응하는 장치에 의해 구현될 수 있고, 예를 들면 범용 또는 특수 목적의 프로그램가능 마이크로프로세서들, 디지털 신호 프로세서들(DSP), 어플리케이션 특정한 집적 회로들(ASIC), 프로그램가능 논리 어레이들(PLA), 필드 프로그램가능 게이트 어레이들(FPGA), 특수 목적의 전자 회로들 등 또는 이들의 조합으로서 구현될 수 있음이 주목된다.
도 2는 본 발명의 일 실시예에 따른 코딩 시스템의 개략적 블록도를 나타낸다. 이 시스템은 인코더(201) 및 대응하는 디코더(202)를 포함한다. 인코더(201)는 2개의 성분들 L 및 R을 갖는 스테레오 신호를 수신하고, 디코더(202)로 통신되는 공간 파라메터들 P 및 합 신호 S를 포함하는 코딩된 신호(203)를 생성한다. 이 신호(203)는 임의의 적절한 통신 채널들(204)을 통해 통신될 수 있다. 대안으로 또는 추가로, 신호는 소거가능 저장 매체(214), 예를 들면 메모리 카드 상에 저장될 수 있고, 이는 인코더로부터 디코더로 전송될 수 있다.
인코더(201)는 바람직하게는 각각의 시간/주파수 슬롯에 대해 인입하는 신호들 L 및 R의 공간 파라메터들을 각각 분석하기 위한 분석 모듈들(205 및 206)을 포함한다. 인코더는 양자화된 공간 파라메터들을 발생시키는 파라메터 추출 모듈(207); 및 적어도 2개의 입력 신호들의 특정 조합으로 구성된 합(또는 지배적) 신호를 발생시키는 조합기 모듈(208)을 더 포함한다. 인코더는 모노럴 신호 및 공간 파라메터들을 포함하는 결과의 코딩된 신호(203)를 발생시키는 인코딩 모듈(209)을 더 포함한다. 일 실시예에서, 이 모듈(209)은 다음 함수들: 비트율 할당, 프레이밍, 손실 없는 코딩 등 중의 하나 이상을 더 수행한다.
합성(디코더(202)에서)은 좌측 및 우측 출력 신호들을 발생시키기 위해 합 신호에 공간 파라메터들을 인가함으로써 수행된다. 따라서, 디코더(202)는 모듈(209)의 역 오퍼레이션을 수행하고, 코딩된 신호(203)로부터 파라메터들 P 및 합 신호 S를 추출하는 디코딩 모듈(210)을 포함한다. 디코더는 합(또는 지배적) 신호 및 공간 파라메터들로부터 스테레오 성분들 L 및 R을 재생하는 합성 모듈(211)을 추가로 포함한다.
이 실시예에서, 공간 파라메터 설명은 스테레오 오디오 신호를 인코딩하기 위해 모노럴 (단일 채널) 오디오 코더와 조합된다. 기재된 실시예는 스테레오 신호들 상에서 작업하지만, 일반적인 개념은 n-채널 오디오 신호들에 적용될 수 있음에 주의해야 한다(단, n>1).
분석 모듈들(205 및 206)에서, 좌측 및 우측으로 인입하는 신호들 L 및 R 각각은 여러 가지 시간 프레임들(예, 각각 44.1 kHz 샘플링 속도로 2048 샘플들을 포함함)에서 분할되고, 제곱근 해닝(Hanning) 윈도우로 윈도우즈된다. 순차로, FFT들이 연산된다. 음의 FFT 주파수들이 폐기되고, 결과의 FFT들이 FFT 빈들(bins)의 그룹들(서브대역들)로 부분 분할된다. 서브대역 g에서 조합된 FFT 빈들의 수는 주파수에 의존하고; 보다 낮은 주파수들에 비해 보다 높은 주파수들에서 보다 많은 빈들이 조합된다. 일 실시예에서, 대략 1.8ERB들(직사각형 대역폭에 등가임)에 대응하는 FFT 빈들이 그룹화되고, 전체 가청 주파수 범위를 나타내도록 20개의 서브대역들을 초래한다. 각각의 순차의 서브대역(가장 낮은 주파수에서 시작함)의 FFT 빈들의 결과적인 수 S[g]는 다음과 같다.
Figure pat00001
따라서, 제 1의 3개의 서브대역들은 4개의 FFT 빈들을 포함하고, 제 4 서브대역은 5개의 FFT 빈들을 포함한다. 각각의 서브대역에 대해, 대응하는 ILD, ITD 및 상관 관계(r)가 연산된다. ITD 및 상관 관계는 다른 그룹들에 속하는 모든 FFT 빈들을 0으로 설정하고, 좌측 및 우측 채널들로부터 결과의 (대역-제한된) FFT들을 승산하고, 이어서 역 FFT 변환시킴으로써 간단히 연산된다. 결과의 교차-상관 함수는 -64 내지 +63 샘플들 사이의 채널간 지연 내에서 피크에 대해 스캔된다. 피크에 대응하는 내부 지연은 ITD 값으로서 사용되고, 이 피크에서 교차-상관 함수의 값은 이러한 서브대역의 채널간 상관 관계로서 사용된다. 마지막으로, ILD는 각각의 서브대역에 대해 좌측 및 우측 채널들의 전력비를 취함으로써 간단히 연산된다.
조합기 모듈(208)에서, 좌측 및 우측 서브대역들은 위상 정정(일시적 정렬) 후 합산된다. 이러한 위상 상관 관계는 그러한 서브대역에 대해 연산된 ITD로부터 후속하고, ITD/2로 좌측-채널 서브밴드를 지연시키고 -ITD/2로 우측-채널 서브밴드를 지연시키는 것으로 구성된다. 이 지연은 각각의 FFT 빈의 위상 각들의 적절한 변경에 의해 주파수 도메인에서 수행된다. 순차로, 합 신호는 좌측 및 우측 서브대역 신호들의 위상-변형된 버전들을 부가함으로써 연산된다. 마지막으로, 상관되지 않거나 또는 상관된 부가물을 보상하기 위해, 합 신호의 각각의 서브대역은 대응하는 서브대역의 r 상관 관계에 따라, 제곱근(2/(1+r))이 승산된다. 필요할 경우, 합 신호는 (1) 음의 주파수들에서 복수 공액들(complex conjugates)의 삽입, (2) 역 FFT, (3) 윈도우화, 및 (4)오버랩-부가에 의해 시간 도메인으로 변환될 수 있다.
파라메터 추출 모듈(207)에서, 공간 파라메터들은 양자화되고, ILD들(dB로)는 다음 세트 I 밖의 가장 근사한 값으로 양자화된다:
Figure pat00002
ITD 양자화 단계들은 0.1rad의 각각의 서브대역의 일정한 위상 차이에 의해 결정된다. 따라서, 각각의 서브대역에 대해, 서브대역 중심 주파수의 0.1rad에 대응하는 시간 차이는 양자화 단계로서 사용된다. 2kHz 이상의 주파수들에 대해, 어떠한 ITD 정보도 전송되지 않는다.
채널간 상관 관계값 r은 다음 앙상블 R의 가장 가까운 값으로 양자화된다:
Figure pat00003
이는 상관 관계 값당 다른 3개의 비트들을 부담할 것이다.
현재 서브대역의 (양자화된) ILD의 절대값이 19dB의 양인 경우, 어떠한 ITD 및 상관 관계 값들도 이러한 서브대역으로 전송되지 않는다. 특정 서브대역의 (양자화된) 상관 관계 값이 0의 양인 경우, 어떠한 ITD 값도 그러한 서브대역에 대해 전송되지 않는다.
이러한 방식으로, 각각의 프레임은 공간 파라메터들을 전송하기 위해 최대 233비트를 필요로 한다. 1024 프레임들의 프레임 길이에 의해, 전송을 위한 최대 비트율은 10.25kbit/s의 양이다. 엔트로피 코딩 또는 상이한 코딩을 사용하여, 이러한 비트율은 추가로 감소될 수 있음에 주의해야 한다.
디코더는 합성 모듈(211)을 포함하고, 여기서 스테레오 신호는 수신된 합 신호 및 공간 파라메터들로부터 합성된다. 따라서, 이러한 설명의 목적으로, 합성 모듈은 상기한 바의 합 신호의 주파수-도메인 표시를 수신하는 것으로 가정된다. 이러한 표시는 시간-도메인 파형의 윈도우화 및 FFT 오퍼레이션들에 의해 얻어질 수 있다. 먼저, 합 신호는 좌측 및 우측 출력 신호들로 복제된다. 순차로, 좌측 및 우측 신호들 간의 상관 관계는 역상관기(decorrelator)에 의해 변경된다. 바람직한 실시예에서, 아래 기재되는 바의 역상관기가 사용될 수 있다. 순차로, 좌측 신호의 각각의 서브대역은 -ITD/2 만큼 지연되고, 우측 신호는 그 서브대역에 대응하는 (양자화된) ITD 제공하는 ITD/2 만큼 지연된다. 마지막으로, 좌측 및 우측 서브대역들은 그 서브대역에 대한 ILD에 따라 스케일된다. 일 실시예에서, 상기 변형은 아래 기재된 바의 필터에 의해 수행된다. 출력 신호들을 시간 도메인으로 변환시키기 위해, 다음 단계들이 수행된다 : (1) 음의 주파수들에서 복수 공액들의 삽입, (2) 역 FFT, (3) 윈도우화, 및 (4) 오버랩-부가.
도 3은 오디오 신호를 합성하는데 사용하기 위한 필터 방법을 예시한다. 초기 단계 301에서, 인입하는 오디오 신호 x(t)는 많은 프레임들로 세그먼트화된다. 세그먼트화 단계(301)는 신호를 적절한 길이의 프레임들 xn(t), 예를 들면 500 내지 5000 샘플들 범위에서, 1024 또는 2048개 샘플들로 분할된다.
바람직하게는, 세그먼트화는 오버래핑 분석 및 합성 윈도우 함수들을 사용하여 수행되므로, 프레임 경계들에 도입될 수 있는 아티팩트들을 억제한다(예컨대, Princen, J. P. 및 Bradley, A. B.: "시간 도메인 앨리어싱 소거에 기초하는 분석/합성 필터 뱅크 설계(Analysis/synthesis filterbank design based on time domain aliasing cancellation)", IEEE transactions on Acoustics, Speech and Signal processing, ASSP 34권, 1986 참조).
단계 302에서, 프레임들 xn(t) 각각은 푸리에 변환을 적용함으로써 주파수 도메인으로 변환되고, 바람직하게는 고속 푸리에 변환(FFT)으로서 구현된다. n-번째 프레임 xn(t)의 결과의 주파수 표시는 많은 주파수 성분들 X(k,n)을 포함하고, 여기서 파라메터 n은 프레임수를 지시하고, 0<k<K인, 파라메터 k는 주파수 ωk에 대응하는 주파수 빈 또는 주파수 성분을 지시한다. 일반적으로, 주파수 도메인 성분들 X(k,n)은 복잡한 수들이다.
단계 303에서, 현재 프레임에 대한 원하는 필터는 수신된 시간-변화하는 공간 파라메터들에 따라 결정된다. 원하는 필터는 n-번째 프레임에 대해 K 복잡한 중량 인자들 0<k<K, F(k,n)의 세트를 포함하는 원하는 필터 응답으로서 표현된다. 필터 응답 F(k,n)은 2개의 실제 번호들, 즉
Figure pat00004
에 따라 그의 진폭 a(k,n) 및 그의 위상
Figure pat00005
으로 표시될 수 있다.
주파수 도메인에서, 필터링된 주파수 성분들은 Y(k,n) = F(k,n)ㆍX(k,n)이고, 즉, 이들은 입력 신호의 주파수 성분들 X(k,n)과 필터 응답 F(k,n)의 승산을 초래한다. 당업자에게 명백하듯이, 주파수 도메인에서 이러한 승산은 입력 신호 프레임 xn(t)와 대응하는 필터 fn(t)의 콘볼루션(convolution)에 대응한다.
단계 304에서, 원하는 필터 응답 F(k,n)은 이를 현재 프레임 X(k,n)에 적용시키기 전에 변경된다. 특히, 적용되어야 할 실제 필터 응답 F'(k,n)은 원하는 필터 응답 F(k,n) 및 이전 프레임들의 정보(308)의 함수로서 결정된다. 바람직하게는, 이러한 정보는 다음에 따라 1개 이상의 이전 프레임들의 실제 및/또는 원하는 필터 응답을 포함한다.
Figure pat00006
따라서, 이전 필터 응답들의 히스토리에 의존하는 실제 필터 응답을 만듦으로서, 연속적인 프레임들 사이의 필터 응답에서의 변화들에 의해 도입된 아티팩트들(artifacts)은 효율적으로 억제될 수 있다. 바람직하게는, 변환 함수 Φ의 실제 형태가 동적으로-변화하는 필터 응답들로부터 초래되는 오버랩-부가된 아티팩트들을 감소시키기 위해 선택된다.
예를 들면, 변환 함수 Φ는 단일의 이전의 응답 함수의 함수일 수 있다. 예를 들면 F'(k,n) = Φ1[F(k,n), F(k,n-1)] 또는 F'(k,n) = Φ2[F(k,n), F'(k,n-1)]. 다른 실시예에서, 변환 함수는 많은 이전의 응답 함수들에 걸쳐 플로팅 평균, 예를 들면 이전의 응답 함수들의 필터링된 버전 등을 포함할 수 있다. 변환 함수 Φ의 바람직한 실시예들은 아래 보다 상세히 기재될 것이다.
단계 305에서, 실제 필터 응답 F'(k,n)은 Y(k,n)=F'(k,n)ㆍX(k,n)에 따라 입력 신호의 현재 프레임의 주파수 성분들 X(k,n)과 대응하는 필터 응답 인자들 F'(k,n)을 승산함으로써 현재 프레임에 적용된다.
단계 306에서, 결과적인 처리된 주파수 성분들 Y(k,n)은 필터링된 프레임들 yn(t)을 초래하는 시간 도메인으로 다시 변환된다. 바람직하게는, 역변환은 역 고속 푸리에 변환(IFFT)으로서 구현된다.
마지막으로, 단계 307에서, 필터링된 프레임들은 오버랩-부가된 방법에 의해 필터링된 신호 y(t)에 재조합된다. 그러한 오버랩 부가 방법의 효율적인 구현은 Bergmans, J. W. M.: "디지털 기저대역 전송 및 기록(Digital basband transmission and recording)", Kluwer, 1996에 개시된다.
일 실시예에서, 단계 304의 변환 함수 Φ는 현재 프레임과 이전 프레임 사이의 위상-변화 리미터로서 구현된다. 이러한 실시예에 따라, 대응하는 주파수 성분의 이전 샘플에 인가된 실제 위상 변형
Figure pat00007
에 비교한 각각의 주파수 성분 F(k,n)의 위상 변화 δ(k)는 다음과 같이 연산된다. 즉,
Figure pat00008
이다.
순차로, 원하는 필터 F(k,n)의 위상 성분은 프레임들을 가로지르는 위상 변화가 감소되는 방식으로, 그 변화가 오버랩-부가된 아티팩트들을 초래할 수 있는 경우에 변형된다. 이러한 실시예에 따라, 이는 실제 위상 차이가 미리결정된 임계값 c를 초과하지 않도록 보장함으로써, 예를 들면 다음에 따르는 위상 차이의 단순한 커팅에 의해 성취된다.
Figure pat00009
(1)
임계값 c는 미리결정된 상수, 예를 들면 π/8 내지 π/3 rad 사이의 상수일 수 있다. 일 실시예에서, 임계값 c는 상수는 아니지만, 예를 들면 시간, 주파수 및/또는 유사한 것의 함수일 수 있다. 더욱이, 위상 변화에 대한 상기 제한에 대한 대안으로, 다른 위상-변화-제한 함수들이 사용될 수 있다.
일반적으로, 상기 실시예에서, 개개의 주파수 성분에 대한 후속 시간 프레임들을 가로지르는 원하는 위상-변화는 입출력 함수 P(δ(k))에 의해 변환되고, 실제 필터 응답 F'(k,n)은 다음 식으로 주어진다.
F'(k,n) = F'(k,n-1)ㆍexp[jP(δ(k))]. (2)
따라서, 이 실시예에 따라, 후속 시간 프레임들을 가로지르는 위상 변화의 변환 함수 P가 도입된다.
필터 응답의 변환의 다른 실시예에서, 위상 제한 공정은 음조의 적절한 측정, 예를 들면 아래 기재된 예측 방법에 의해 구동된다. 이는 잡음과 같은 신호들에서 발생하는 연속적인 프레임들 사이의 위상 점프들이 본 발명에 따른 위상-변화 제한 공정으로부터 배제될 수 있다는 장점을 갖는다. 이는, 잡음과 같은 신호들에서 그러한 위상 점프들을 제한하는 것이 합성음 또는 금속음으로서 종종 인지되는 잡음형 신호 사운드를 보다 많은 음조를 만들 수 있기 때문에 유리하다.
이러한 실시예에 따라, 예측되는 위상 에러 θ(k)=
Figure pat00010
(k,n)-
Figure pat00011
(k,n-1)-ωkㆍh가 산출된다. 여기서, ωk는 k번째 주파수 성분에 대응하는 주파수를 나타내고, h는 샘플들 중 홉 크기(hop size)를 나타낸다. 여기서, 홉 크기라는 용어는 2개의 인접한 윈도우 센터들 사이의 차이, 즉 대칭 윈도우들에 대한 분석 길이의 절반을 의미한다. 다음에서, 상기 에러는 간격 [-π, +π]으로 래핑되는 것으로 가정된다.
다음으로, k번째 주파수에서 위상 예측 가능성의 양에 대한 예측 측정 Pk는 P k = (π-|θ(k)|)/π∈[0,1]에 따라 산출되고, 여기서 |ㆍ|는 절대값을 나타낸다.
따라서, 상기 측정 Pk는 k번째 주파수 빈에서 위상-예측 가능성의 양에 따라 0과 1사이의 값을 생성한다. Pk가 1에 근접한 경우, 밑에 놓인 신호는 높은 정도의 음조를 갖는 것으로 가정될 수 있고, 즉, 실질적으로 사인파 파형을 갖는다. 그러한 신호에 대해, 위상 점프들은 예를 들면 오디오 신호의 청취자에 의해 용이하게 인지될 수 있다. 따라서, 위상 점프들은 이러한 경우에 제거되어야 하는 것이 바람직하다. 다른 한편, Pk의 값이 0에 근사하는 경우, 언더라잉 신호(underlying signal)는 잡음으로 가정될 수 있다. 잡음 신호들에 대해, 위상 점프들은 용이하게 인지되지 않고 따라서 허용될 수 있다.
따라서, 위상 제한 함수는, Pk가 미리결정된 임계값을 초과하는 경우에 적용되고, 즉, Pk > A, 다음에 따라 실제 필터 응답 F'(k,n)을 초래한다.
Figure pat00012
여기서, A는 각각 +1, 0인 P의 상위 및 하위 경계들에 의해 제한된다. A의 정확한 값은 실제 구현에 의존한다. 예를 들면, A는 0.6과 0.9 사이에서 선택될 수 있다.
대안으로, 음조를 추정하는 임의의 다른 적절한 측정이 사용될 수 있는 것이 이해된다. 또 다른 실시예에서, 상기 허용되는 위상 점프 c는 음조의 적절한 측정, 예를 들면 상기 측정 Pk에 의존하여 이루어짐으로써, Pk가 크거나 또는 그 역인 경우 보다 큰 위상 점프들을 허용한다.
도 4는 오디오 신호를 합성하는데 사용하기 위한 역상관기를 도시한다. 역상관기는 채널간 교차-상관 r 및 채널 차이 c를 나타내는 파라메터를 포함하는 공간 파라메터들 P의 세트 및 모노럴 신호 x를 수신하는 전역-통과 필터(all-pass filter; 401)를 포함한다. 파라메터 c는 ILD = k·log(c)에 의해 채널간 레벨 차이에 관련되고, 여기서, k는 상수이고, 즉, ILD는 c의 대수에 비례하는 것에 주의하자.
바람직하게는, 전역-통과 필터는 낮은 주파수들에서보다 높은 주파수들에서 비교적 작은 지연을 제공하는 주파수-의존적 지연을 포함한다. 이는 슈뢰더-위상 콤플렉스(Schroeder-phase complex)의 일 기간을 포함하는 전역-통과 필터로 전역-통과 필터의 고정된 지연을 대체함으로써 성취될 수 있다(예, M. R. Schroeder, "낮은-피크-인자 신호들 및 낮은 자기상관을 갖는 이진 시퀀스들의 합성(Synthesis of low-peak-factor signals and binary sequences with low autocorrelation)", IEEE Transact. Inf. Theor. 16:85-89, 1970 참조). 역상관기는 디코더로부터 공간 파라메터들을 수신하고 채널간 교차-상관 r 및 채널 차이 c를 추출하는 분석 회로(402)를 더 포함한다. 회로(402)는 아래 고찰하게 될 혼합 매트릭스 M(α,β)를 결정한다. 혼합 매트릭스의 성분들은 변환 회로(403) 내로 공급되어, 입력 신호 x 및 필터링된 신호
Figure pat00013
를 추가로 수신한다. 회로(403)는 다음에 따른 혼합 오퍼레이션을 수행하고
Figure pat00014
(3)
출력 신호들 L 및 R을 초래한다.
신호들 L 및 R 사이의 상관 관계는 r=cos(α)에 따라 신호들 x 및
Figure pat00015
에 의해 스팬(span)된 공간에서 신호들 L 및 R 각각을 나타내는 벡터들 사이의 각도 α로서 표현될 수 있다. 결과적으로, 정확한 각도 거리(correct angular distance)를 나타내는 벡터들의 임의의 쌍은 특정된 상관 관계를 갖는다.
따라서, 신호들 x 및
Figure pat00016
를 미리결정된 상관 관계 r에 의해 신호들 L 및 R로 변환시키는 혼합 매트릭스 M은 다음과 같이 표현될 수 있다:
Figure pat00017
(4)
따라서, 전역-통과 필터링된 신호의 양은 원하는 상관 관계에 의존한다. 더욱이, 전역-통과 신호 성분의 에너지는 양 출력 채널들에서 동일하다(하지만 180˚위상 시프트됨).
매트릭스 M이 다음 식으로 주어지는 경우,
Figure pat00018
(5)
즉, α=90˚일때, 상관되지 않은 출력 신호들(r=0)에 대응하는 경우는, 로리드센 역상관기(Lauridsen decorrelator)에 대응하는 것에 주의하자.
식(5)의 매트릭스에 의해 문제점을 예시하기 위해, 우리는 좌측 채널쪽으로 패닝(panning)하는 최고 진폭을 갖는 상황, 즉 특정 신호가 좌측 채널에만 존재하는 경우를 가정한다. 우리는 출력들 간의 원하는 상관 관계가 0인 것으로 추가로 가정한다. 이러한 경우에, 식(5)의 혼합 매트릭스에 의해 식(3)의 변환의 좌측 채널의 출력은
Figure pat00019
를 생성한다. 따라서, 이 출력은 그의 전역-통과 필터링된 버전
Figure pat00020
과 조합된 원래의 신호 x로 구성된다.
그러나, 전역-통과 필터는 통상적으로 신호의 지각할 수 있는 품질을 악화시키기 때문에, 이는 목적하지 않는 상황이다. 더욱이, 원래의 신호 및 필터링된 신호의 부가는 출력 신호의 인지된 음색과 같은 콤브-필터 효과들(comb-filter effects)을 초래한다. 이와 같이 가정된 극도의 상황에서, 최상의 해결책은 좌측 출력 신호가 입력 신호로 구성된다는 것이다. 이는 2개의 출력 신호들의 상관 관계가 여전히 0일 수 있는 방식이다.
보다 적당한 레벨 차이들을 갖는 상황들에서, 바람직한 상황은 보다 큰 출력 채널이 비교적 많은 원래의 신호를 포함하고, 보다 유연한 출력 채널이 비교적 많은 필터링된 신호를 포함한다는 것이다. 따라서, 일반적으로, 2개의 출력들에 함께 존재하는 원래의 신호의 양을 최대화시키고, 필터링된 신호의 양을 최소화시키는 것이 바람직하다.
이러한 실시예에 따라, 이는 추가의 공통 회전을 포함하는 상이한 혼합 매트릭스를 도입함으로써 성취된다.
Figure pat00021
(6)
여기서 β는 추가의 회전이고, C는 출력 신호들 간의 상대적인 레벨 차이가 c와 동일한 것을 보장하는 스케일링 매트릭스이다. 즉,
Figure pat00022
식(3)에 식(6)의 매트릭스를 삽입함으로써 본 실시예에 따라 매트릭스화 오퍼레이션에 의해 발생된 출력 신호들을 생성한다:
Figure pat00023
따라서, 출력 신호들 L 및 R은 여전히 각도 차이를 갖고, 즉, L 및 R 신호들 간의 상관 관계는 L 및 R 신호들 모두의 각도 β의 추가의 회전 및 원하는 레벨 차이에 따라 신호들 L 및 R을 스케일링하는 것에 의해 영향을 받지 않는다.
상기한 바와 같이, 바람직하게는, L 및 R의 합산된 출력에서 원래의 신호 x의 양은 최대화되어야 한다. 이러한 조건은 다음에 따라 각도 β를 결정하기 위해 사용될 수 있고,
Figure pat00024
다음 조건을 생성한다.
Figure pat00025
요약하자면, 본원 발명은 다중 채널 오디오 신호들의 공간 속성들의 음향-심리학적으로 자극되는 파라메터적 설명을 기재한다. 이 파라메터적 설명은 단지 하나의 모노럴 신호가 전송되어야 하고, 신호의 공간 특성들을 기재하는 (양자화된) 파라메터들과 조합되어야 하기 때문에 오디오 코더들에서 강력한 비트율 감소들을 허용한다. 디코더는 공간 파라메터들을 인가함으로써 원래량의 오디오 채널들을 형성할 수 있다. CD 품질에 가까운 스테레오 오디오를 위해, 10kbit/s 이하의 공간 파라메터들과 연관된 비트율이 수신 단부에서 정확한 공간 임프레션을 재생하기에 충분해 보인다. 이 비트율은 공간 파라메터들의 스펙트럼 및/또는 시간적 분해능을 감소시키고 및/또는 손상 없는 압축 알고리즘들을 사용하여 공간 파라메터들을 처리함으로써 더 축소(scaled down)될 수 있다.
상기 실시예들은 본 발명을 제한하기보다는 오히려 예시하는 것으로, 본 기술의 당업자들은 첨부된 특허 청구의 범위에서 벗어나지 않는 많은 대안의 실시예들을 고안할 수 있음을 인식해야 한다.
예를 들면, 본 발명은 주로 2개의 위치추정 큐들 ILD 및 ITD/IPD를 사용하는 실시예와 관련하여 기재하였다. 대안의 실시예들에서, 다른 위치추정 큐들이 사용될 수 있다. 더욱이, 일 실시예에서, ILD, ITD/IPD, 및 채널간 교차-상관은 상기한 바와 같이 결정될 수 있지만, 채널간 교차-상관만이 모노럴 신호와 함께 전송되고, 그에 따라, 오디오 신호를 전송/저장하기 위해 요구된 대역폭/저장 용량을 더 감소시킬 수 있다. 대안으로, 채널간 교차-상관 및 ILD 및 ITD/IPD 중의 하나가 전송될 수 있다. 이들 실시예들에서, 이 신호는 전송된 파라메터들에만 기초하여 모노럴 신호로부터 합성된다.
특허 청구의 범위에서, 괄호 안의 임의의 기호들은 특허 청구의 범위를 제한하는 것으로서 해석되지 않아야 한다. "포함하는"이라는 단어는 특허 청구의 범위에 나열된 것들 이외의 요소들 또는 단계들의 존재를 배제하지 않는다. 요소 앞에 선행하는 "하나" 또는 "한개"라는 단어는 복수의 그러한 요소들의 존재를 배제하지 않는다.
본 발명은 여러 가지 개별 소자들을 포함하는 하드웨어 수단 및 적절히 프로그램된 컴퓨터 수단에 의해 구현될 수 있다. 여러 소자들을 열거하는 디바이스 청구항에서, 여러 개의 이들 수단들은 하드웨어의 하나의 동일한 아이템에 의해 실시될 수 있다. 특정 측정들이 상호 상이한 종속항들에 재인용된다는 단순한 사실은 이들 측정들의 조합이 유리하게 사용될 수 없다는 것을 지적하지 않는다.
102 : 코딩된 신호 201 : 인코더
202 : 디코더 203 : 코딩된 신호
204 : 통신 채널 205 : 분석 모듈
206 : 분석 모듈 207 : 파라메터 추출 모듈
208 : 조합기 모듈 209 : 모듈
210 : 디코딩 모듈 211 : 합성 모듈
401 : 전역 통과 필터 402 : 분석 회로
403 : 변환 회로

Claims (11)

  1. 합성 디지털 신호(X) 및 파라미터 신호(P)로 인코딩된 적어도 제 1 및 제 2 디지털 오디오 신호 성분을 포함하는 인코딩된 디지털 오디오 신호를 디코딩하는 디코딩 장치에 있어서:
    - 송신 신호를 수신하는 입력 유닛(210)과,
    - 상기 송신 송신 신호로부터 상기 합성 디지털 신호 및 상기 파라미터 신호를 검색하는 디멀티플렉서 유닛(210)과,
    - 상기 합성 디지털 신호로부터 상기 합성 디지털 신호의 역상관된 버전(decorrelated version)을 생성하는 역상관기 유닛(401)과,
    - 상기 합성 디지털 신호 및 상기 합성 디지털 신호의 역상관된 버전을 수신하고, 그로부터 상기 제 1 및 제 2 디지털 오디오 신호 성분의 복제(replica)를 생성하는 매트릭싱 유닛(403)을 포함하고,
    - 상기 제 1 디지털 오디오 신호 성분의 복제는, 상기 파라미터 신호에 의존적인 곱셈 계수들을 이용한, 상기 합성 디지털 신호와 상기 합성 디지털 신호의 역상관된 버전의 선형 결합이고,
    - 상기 제 2 디지털 오디오 신호 성분의 복제는, 상기 파라미터 신호에 의존적인 곱셈 계수들을 이용한, 상기 합성 디지털 신호와 상기 합성 디지털 신호의 역상관된 버전의 선형 결합인, 디코딩 장치.
  2. 제 1 항에 있어서,
    상기 파라미터 신호는 적어도 상기 제 1 및 제 2 디지털 오디오 신호들의 복제들의 파형들의 유사성의 정도인 제 1 파라미터 신호 성분(r)을 포함하고,
    상기 유사성의 정도는 상기 적어도 제 1 및 제 2 디지털 오디오 신호 성분들의 상기 복제들 사이의 교차 상관 함수의 값에 대응하고,
    상기 값은 상기 교차 상관 함수의 최대치와 실질적으로 동등한 것을 특징으로 하는, 디코딩 장치.
  3. 제 2 항에 있어서,
    상기 파라미터 신호는, 상기 제 1 및 제 2 디지털 오디오 신호 성분들의 복제들 사이의 상대적 레벨 차이를 나타내는 제 2 파라미터 신호 성분(c)을 포함하는 것을 특징으로 하는, 디코딩 장치.
  4. 제 3 항에 있어서,
    상기 매트릭싱 유닛은
    Figure pat00026
    에 동등하고,
    여기서, β는 상기 제 1 파라미터 신호 성분에 관련된 각도 값이며, C는 상기 제 2 파라미터 신호 성분에 관련된 것을 특징으로 하는, 디코딩 장치.
  5. 제 4 항에 있어서,
    α와 상기 제 1 파라미터 신호 성분의 사이에
    Figure pat00027
    의 관계가 있고,
    여기서, r는 상기 교차 상관 함수의 최대의 값인 것을 특징으로 하는, 디코딩 장치.
  6. 제 4 항에 있어서,
    C는 2×2 매트릭스이며, C의 매트릭스 계수들과 상기 제 2 파라미터 신호 성분(c)의 사이에
    Figure pat00028
    의 관계가 있고,
    여기서, c는 상기 신호들 사이의 상대적 레벨 차이와 동등한 것을 특징으로 하는, 디코딩 장치.
  7. 제 4 항에 있어서,
    α와 β의 사이에
    Figure pat00029
    의 관계가 있는 것을 특징으로 하는, 디코딩 장치.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    상기 역상관기 유닛은 상기 합성 디지털 신호를 지연시켜 상기 역상관된 합성 디지털 신호를 획득하도록 구성되는 것을 특징으로 하는, 디코딩 장치.
  9. 제 8 항에 있어서,
    상기 지연은 주파수 의존 지연인 것을 특징으로 하는, 디코딩 장치.
  10. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    - 상기 합성 디지털 신호는 복수의 주파수 대역들 각각에 대한, 복수의 합성 디지털 서브 신호들로 분할된 광대역 신호이고,
    - 상기 파라미터 신호는 또한 상기 복수의 주파수 대역들 각각에 대한, 복수의 파라미터 서브 신호들로 분할되고,
    - 상기 역상관기 유닛(401)은 상기 합성 디지털 서브 신호들로부터 상기 합성 디지털 서브 신호들의 역상관된 버전을 생성하도록 구성되고,
    - 상기 매트릭싱 유닛(403)은 상기 합성 디지털 서브 신호들 및 상기 합성 디지털 서브 신호들의 역상관된 버전을 수신하고, 그로부터 상기 제 1 및 제 2 디지털 오디오 신호 성분들의 각각에 대해 복수의 서브 신호들의 복제를 생성하도록 구성되고,
    - 상기 제 1 디지털 오디오 신호 성분의 서브 신호는 상기 파라미터 서브 신호들 중 대응하는 하나에 의존적인 곱셈 계수들을 이용한, 대응하는 합성 디지털 서브 신호와 상기 대응하는 합성 디지털 서브 신호의 역상관된 버전의 선형 결합이고,
    - 상기 제 2 디지털 오디오 신호 성분의 서브 신호는 상기 파라미터 서브 신호들 중 대응하는 하나에 의존적인 곱셈 계수들을 이용한, 대응하는 합성 디지털 서브 신호와 상기 대응하는 합성 디지털 서브 신호의 역상관된 버전의 선형 결합이고,
    - 상기 디코딩 장치는 상기 제 1 및 제 2 디지털 오디오 신호 성분들의 서브 신호들을 상기 제 1 및 제 2 디지털 오디오 신호 성분들의 상기 복제들로 변환하는 변환 유닛(307)을 더 포함하는 것을 특징으로 하는, 디코딩 장치.
  11. 제 10 항에 있어서,
    - 상기 합성 디지털 서브 신호들은, 시간 영역의 연속적인 시간 간격들 각각에 대한 연속적인 시간 신호들로 분할되고,
    - 상기 파라미터 서브 신호들은 또한 상기 연속적인 시간 간격들 각각의 파라미터 서브 신호들로 분할되고,
    - 상기 역상관기 유닛(401)은 각각의 연속적인 시간 간격 및 각각의 합성 디지털 서브 신호에 대해, 상기 합성 디지털 서브 신호들로부터 상기 합성 디지털 서브 신호의 역상관된 버전을 생성하도록 더 구성되고,
    - 상기 매트릭싱 유닛(403)은 각각의 연속적인 시간 간격에 대해, 상기 간격의 각각의 합성 디지털 서브 신호들 및 상기 합성 디지털 서브 신호의 역상관된 버전으로부터 상기 제 1 및 제 2 디지털 오디오 신호 성분들의 각각에 대한 서브 신호의 복제를 생성하도록 더 구성되고,
    상기 시간 간격의 상기 제 1 디지털 오디오 신호 성분의 서브 신호는 상기 시간 간격에 대한 상기 파라미터 서브 신호에 의존적인 곱셈 계수들을 이용한, 상기 시간 간격의 대응하는 합성 디지털 서브 신호와 상기 시간 간격의 상기 대응하는 합성 디지털 서브 신호의 역상관된 버전의 선형 결합이고,
    상기 시간 간격의 상기 제 2 디지털 오디오 신호 성분의 서브 신호는 상기 시간 간격에 대한 상기 파라미터 서브 신호에 의존적인 곱셈 계수들을 이용한, 상기 시간 간격의 대응하는 합성 디지털 서브 신호와 상기 시간 간격의 상기 대응하는 합성 디지털 서브 신호의 역상관된 버전의 선형 결합인 것을 특징으로 하는, 디코딩 장치.
KR1020107004625A 2002-04-22 2003-04-22 디코딩 장치 KR101016982B1 (ko)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
EP02076588.9 2002-04-22
EP02076588 2002-04-22
EP02077863 2002-07-12
EP02077863.5 2002-07-12
EP02079303.0 2002-10-14
EP02079303 2002-10-14
EP02079817.9 2002-11-20
EP02079817 2002-11-20

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020047017073A Division KR100978018B1 (ko) 2002-04-22 2003-04-22 공간 오디오의 파라메터적 표현

Publications (2)

Publication Number Publication Date
KR20100039433A true KR20100039433A (ko) 2010-04-15
KR101016982B1 KR101016982B1 (ko) 2011-02-28

Family

ID=29255420

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020047017073A KR100978018B1 (ko) 2002-04-22 2003-04-22 공간 오디오의 파라메터적 표현
KR1020107004625A KR101016982B1 (ko) 2002-04-22 2003-04-22 디코딩 장치

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020047017073A KR100978018B1 (ko) 2002-04-22 2003-04-22 공간 오디오의 파라메터적 표현

Country Status (11)

Country Link
US (3) US8340302B2 (ko)
EP (2) EP1881486B1 (ko)
JP (3) JP4714416B2 (ko)
KR (2) KR100978018B1 (ko)
CN (1) CN1307612C (ko)
AT (2) ATE426235T1 (ko)
AU (1) AU2003219426A1 (ko)
BR (2) BR0304540A (ko)
DE (2) DE60318835T2 (ko)
ES (2) ES2300567T3 (ko)
WO (1) WO2003090208A1 (ko)

Families Citing this family (159)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
ES2280736T3 (es) * 2002-04-22 2007-09-16 Koninklijke Philips Electronics N.V. Sintetizacion de señal.
US8340302B2 (en) * 2002-04-22 2012-12-25 Koninklijke Philips Electronics N.V. Parametric representation of spatial audio
DE602004029872D1 (de) 2003-03-17 2010-12-16 Koninkl Philips Electronics Nv Verarbeitung von mehrkanalsignalen
FR2853804A1 (fr) * 2003-07-11 2004-10-15 France Telecom Procede de decodage d'un signal permettant de reconstituer une scene sonore et dispositif de decodage correspondant
CN1846253B (zh) * 2003-09-05 2010-06-16 皇家飞利浦电子股份有限公司 低比特率音频编码
US7725324B2 (en) 2003-12-19 2010-05-25 Telefonaktiebolaget Lm Ericsson (Publ) Constrained filter encoding of polyphonic signals
EP1719115A1 (en) * 2004-02-17 2006-11-08 Koninklijke Philips Electronics N.V. Parametric multi-channel coding with improved backwards compatibility
DE102004009628A1 (de) * 2004-02-27 2005-10-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Beschreiben einer Audio-CD und Audio-CD
EP1914722B1 (en) 2004-03-01 2009-04-29 Dolby Laboratories Licensing Corporation Multichannel audio decoding
CN101552007B (zh) * 2004-03-01 2013-06-05 杜比实验室特许公司 用于对编码音频信道和空间参数进行解码的方法和设备
US20090299756A1 (en) * 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
US7805313B2 (en) 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
US7813513B2 (en) * 2004-04-05 2010-10-12 Koninklijke Philips Electronics N.V. Multi-channel encoder
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
EP1600791B1 (en) * 2004-05-26 2009-04-01 Honda Research Institute Europe GmbH Sound source localization based on binaural signals
EP1768107B1 (en) 2004-07-02 2016-03-09 Panasonic Intellectual Property Corporation of America Audio signal decoding device
WO2006006809A1 (en) 2004-07-09 2006-01-19 Electronics And Telecommunications Research Institute Method and apparatus for encoding and cecoding multi-channel audio signal using virtual source location information
KR100663729B1 (ko) 2004-07-09 2007-01-02 한국전자통신연구원 가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치
KR100773539B1 (ko) * 2004-07-14 2007-11-05 삼성전자주식회사 멀티채널 오디오 데이터 부호화/복호화 방법 및 장치
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
KR100658222B1 (ko) * 2004-08-09 2006-12-15 한국전자통신연구원 3차원 디지털 멀티미디어 방송 시스템
TWI393121B (zh) 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
TWI498882B (zh) 2004-08-25 2015-09-01 Dolby Lab Licensing Corp 音訊解碼器
US7630396B2 (en) 2004-08-26 2009-12-08 Panasonic Corporation Multichannel signal coding equipment and multichannel signal decoding equipment
JP4936894B2 (ja) 2004-08-27 2012-05-23 パナソニック株式会社 オーディオデコーダ、方法及びプログラム
JP4794448B2 (ja) * 2004-08-27 2011-10-19 パナソニック株式会社 オーディオエンコーダ
US8019087B2 (en) 2004-08-31 2011-09-13 Panasonic Corporation Stereo signal generating apparatus and stereo signal generating method
DE102004042819A1 (de) 2004-09-03 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Multikanalsignals und Vorrichtung und Verfahren zum Decodieren eines codierten Multikanalsignals
EP1792520A1 (en) * 2004-09-06 2007-06-06 Koninklijke Philips Electronics N.V. Audio signal enhancement
DE102004043521A1 (de) * 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
US7860721B2 (en) 2004-09-17 2010-12-28 Panasonic Corporation Audio encoding device, decoding device, and method capable of flexibly adjusting the optimal trade-off between a code rate and sound quality
JP2006100869A (ja) * 2004-09-28 2006-04-13 Sony Corp 音声信号処理装置および音声信号処理方法
US8204261B2 (en) 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
AU2005299410B2 (en) 2004-10-26 2011-04-07 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
SE0402650D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
US7787631B2 (en) 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
DE602005017302D1 (de) * 2004-11-30 2009-12-03 Agere Systems Inc Synchronisierung von parametrischer raumtonkodierung mit extern bereitgestelltem downmix
JP5106115B2 (ja) * 2004-11-30 2012-12-26 アギア システムズ インコーポレーテッド オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング
BRPI0516658A (pt) * 2004-11-30 2008-09-16 Matsushita Electric Ind Co Ltd aparelho de codificação de estéreo, aparelho de decodificação de estéreo e seus métodos
KR100682904B1 (ko) 2004-12-01 2007-02-15 삼성전자주식회사 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법
KR100657916B1 (ko) 2004-12-01 2006-12-14 삼성전자주식회사 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
EP2138999A1 (en) 2004-12-28 2009-12-30 Panasonic Corporation Audio encoding device and audio encoding method
EP1818910A4 (en) * 2004-12-28 2009-11-25 Panasonic Corp SCALABLE CODING DEVICE AND SCALABLE CODING METHOD
US7903824B2 (en) * 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US9626973B2 (en) 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
US8768691B2 (en) 2005-03-25 2014-07-01 Panasonic Corporation Sound encoding device and sound encoding method
JP4610650B2 (ja) 2005-03-30 2011-01-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 多チャンネルオーディオ符号化
BRPI0608753B1 (pt) * 2005-03-30 2019-12-24 Koninl Philips Electronics Nv codificador de áudio, decodificador de áudio, método para codificar um sinal de áudio de multicanal, método para gerar um sinal de áudio de multicanal, sinal de áudio de multicanal codificado, e meio de armazenamento
US7751572B2 (en) 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
US8296134B2 (en) 2005-05-13 2012-10-23 Panasonic Corporation Audio encoding apparatus and spectrum modifying method
CN101185117B (zh) * 2005-05-26 2012-09-26 Lg电子株式会社 解码音频信号的方法和装置
JP4988716B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
EP1905002B1 (en) * 2005-05-26 2013-05-22 LG Electronics Inc. Method and apparatus for decoding audio signal
MX2007015118A (es) * 2005-06-03 2008-02-14 Dolby Lab Licensing Corp Aparato y metodo para codificacion de senales de audio con instrucciones de decodificacion.
EP1905008A2 (en) * 2005-07-06 2008-04-02 Koninklijke Philips Electronics N.V. Parametric multi-channel decoding
US8121836B2 (en) 2005-07-11 2012-02-21 Lg Electronics Inc. Apparatus and method of processing an audio signal
US8626503B2 (en) 2005-07-14 2014-01-07 Erik Gosuinus Petrus Schuijers Audio encoding and decoding
ES2374309T3 (es) * 2005-07-14 2012-02-15 Koninklijke Philips Electronics N.V. Decodificación de audio.
KR100755471B1 (ko) * 2005-07-19 2007-09-05 한국전자통신연구원 가상음원위치정보에 기반한 채널간 크기 차이 양자화 및역양자화 방법
CN101248483B (zh) * 2005-07-19 2011-11-23 皇家飞利浦电子股份有限公司 多声道音频信号的生成
WO2007011157A1 (en) * 2005-07-19 2007-01-25 Electronics And Telecommunications Research Institute Virtual source location information based channel level difference quantization and dequantization method
US7702407B2 (en) 2005-07-29 2010-04-20 Lg Electronics Inc. Method for generating encoded audio signal and method for processing audio signal
KR100888970B1 (ko) * 2005-07-29 2009-03-17 엘지전자 주식회사 인코딩된 오디오 신호 생성 및 처리 방법
TWI396188B (zh) 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
KR20070025905A (ko) * 2005-08-30 2007-03-08 엘지전자 주식회사 멀티채널 오디오 코딩에서 효과적인 샘플링 주파수비트스트림 구성방법
EP1922721A4 (en) 2005-08-30 2011-04-13 Lg Electronics Inc AUDIO SIGNAL DECODING METHOD
JP5171256B2 (ja) 2005-08-31 2013-03-27 パナソニック株式会社 ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法
KR101277041B1 (ko) * 2005-09-01 2013-06-24 파나소닉 주식회사 멀티 채널 음향 신호 처리 장치 및 방법
CN101356572B (zh) * 2005-09-14 2013-02-13 Lg电子株式会社 解码音频信号的方法和装置
EP1946297B1 (en) 2005-09-14 2017-03-08 LG Electronics Inc. Method and apparatus for decoding an audio signal
EP1943642A4 (en) * 2005-09-27 2009-07-01 Lg Electronics Inc METHOD AND DEVICE FOR CODING / DECODING A MULTI-CHANNEL AUDIO SIGNAL
CN101427307B (zh) * 2005-09-27 2012-03-07 Lg电子株式会社 编码/解码多声道音频信号的方法和装置
EP1946309A4 (en) * 2005-10-13 2010-01-06 Lg Electronics Inc METHOD AND DEVICE FOR SIGNAL PROCESSING
US8019611B2 (en) 2005-10-13 2011-09-13 Lg Electronics Inc. Method of processing a signal and apparatus for processing a signal
JP5536335B2 (ja) 2005-10-20 2014-07-02 エルジー エレクトロニクス インコーポレイティド マルチチャンネルオーディオ信号の符号化及び復号化方法とその装置
WO2007049881A1 (en) * 2005-10-26 2007-05-03 Lg Electronics Inc. Method for encoding and decoding multi-channel audio signal and apparatus thereof
US7760886B2 (en) * 2005-12-20 2010-07-20 Fraunhofer-Gesellschaft zur Foerderung der Angewandten Forscheng e.V. Apparatus and method for synthesizing three output channels using two input channels
DE602006001051T2 (de) * 2006-01-09 2009-07-02 Honda Research Institute Europe Gmbh Bestimmung des entsprechenden Messfensters zur Schallquellenortung in Echoumgebungen
CN101356573B (zh) * 2006-01-09 2012-01-25 诺基亚公司 对双耳音频信号的解码的控制
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
KR100885700B1 (ko) 2006-01-19 2009-02-26 엘지전자 주식회사 신호 디코딩 방법 및 장치
US20090018824A1 (en) * 2006-01-31 2009-01-15 Matsushita Electric Industrial Co., Ltd. Audio encoding device, audio decoding device, audio encoding system, audio encoding method, and audio decoding method
CN102693727B (zh) 2006-02-03 2015-06-10 韩国电子通信研究院 用于控制音频信号的渲染的方法
CN101379552B (zh) * 2006-02-07 2013-06-19 Lg电子株式会社 用于编码/解码信号的装置和方法
EP1984913A4 (en) 2006-02-07 2011-01-12 Lg Electronics Inc DEVICE AND METHOD FOR CODING / DECODING A SIGNAL
US7974287B2 (en) 2006-02-23 2011-07-05 Lg Electronics Inc. Method and apparatus for processing an audio signal
US7965848B2 (en) * 2006-03-29 2011-06-21 Dolby International Ab Reduced number of channels decoding
KR20080071971A (ko) 2006-03-30 2008-08-05 엘지전자 주식회사 미디어 신호 처리 방법 및 장치
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
ES2359799T3 (es) 2006-04-27 2011-05-27 Dolby Laboratories Licensing Corporation Control de ganancia de audio usando detección de eventos auditivos basada en la sonoridad específica.
EP1853092B1 (en) 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
EP1862813A1 (en) * 2006-05-31 2007-12-05 Honda Research Institute Europe GmbH A method for estimating the position of a sound source for online calibration of auditory cue to location transformations
WO2008016097A1 (fr) * 2006-08-04 2008-02-07 Panasonic Corporation dispositif de codage audio stéréo, dispositif de décodage audio stéréo et procédé de ceux-ci
US20080235006A1 (en) 2006-08-18 2008-09-25 Lg Electronics, Inc. Method and Apparatus for Decoding an Audio Signal
CN101484935B (zh) * 2006-09-29 2013-07-17 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
RU2551797C2 (ru) * 2006-09-29 2015-05-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
US9418667B2 (en) 2006-10-12 2016-08-16 Lg Electronics Inc. Apparatus for processing a mix signal and method thereof
CA2665153C (en) 2006-10-20 2015-05-19 Dolby Laboratories Licensing Corporation Audio dynamics processing using a reset
JP4838361B2 (ja) 2006-11-15 2011-12-14 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及びその装置
KR101111520B1 (ko) 2006-12-07 2012-05-24 엘지전자 주식회사 오디오 처리 방법 및 장치
WO2008069584A2 (en) 2006-12-07 2008-06-12 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
JP5554065B2 (ja) * 2007-02-06 2014-07-23 コーニンクレッカ フィリップス エヌ ヴェ 複雑さの軽減されたパラメトリックステレオデコーダ
EP2118886A4 (en) * 2007-02-13 2010-04-21 Lg Electronics Inc METHOD AND APPARATUS FOR PROCESSING AUDIO SIGNAL
EP2111616B1 (en) 2007-02-14 2011-09-28 LG Electronics Inc. Method and apparatus for encoding an audio signal
JP4277234B2 (ja) * 2007-03-13 2009-06-10 ソニー株式会社 データ復元装置、データ復元方法及びデータ復元プログラム
EP2137824A4 (en) 2007-03-16 2012-04-04 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING AN AUDIO SIGNAL
KR101453732B1 (ko) * 2007-04-16 2014-10-24 삼성전자주식회사 스테레오 신호 및 멀티 채널 신호 부호화 및 복호화 방법및 장치
EP2158587A4 (en) * 2007-06-08 2010-06-02 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING AUDIO SIGNAL
CN101689372B (zh) * 2007-06-27 2013-05-01 日本电气株式会社 信号分析装置、信号控制装置及其系统、方法
WO2009038512A1 (en) * 2007-09-19 2009-03-26 Telefonaktiebolaget Lm Ericsson (Publ) Joint enhancement of multi-channel audio
GB2453117B (en) 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
KR101464977B1 (ko) * 2007-10-01 2014-11-25 삼성전자주식회사 메모리 관리 방법, 및 멀티 채널 데이터의 복호화 방법 및장치
EP2082396A1 (en) * 2007-10-17 2009-07-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix
WO2009086174A1 (en) 2007-12-21 2009-07-09 Srs Labs, Inc. System for adjusting perceived loudness of audio signals
KR20090110244A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치
JP5309944B2 (ja) * 2008-12-11 2013-10-09 富士通株式会社 オーディオ復号装置、方法、及びプログラム
EP2214162A1 (en) 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
PL2394268T3 (pl) * 2009-04-08 2014-06-30 Fraunhofer Ges Forschung Urządzenie, sposób i program komputerowy do realizacji upmixu sygnału audio downmixu z użyciem wygładzania wartości faz
EP2446435B1 (en) * 2009-06-24 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
TWI433137B (zh) 2009-09-10 2014-04-01 Dolby Int Ab 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法
CN102812511A (zh) * 2009-10-16 2012-12-05 法国电信公司 优化的参数立体声解码
MY154641A (en) * 2009-11-20 2015-07-15 Fraunhofer Ges Forschung Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear cimbination parameter
KR101405976B1 (ko) * 2010-01-06 2014-06-12 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
JP5333257B2 (ja) 2010-01-20 2013-11-06 富士通株式会社 符号化装置、符号化システムおよび符号化方法
US8718290B2 (en) 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
JP6013918B2 (ja) * 2010-02-02 2016-10-25 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 空間音声再生
CN102157152B (zh) * 2010-02-12 2014-04-30 华为技术有限公司 立体声编码的方法、装置
EP2539889B1 (en) * 2010-02-24 2016-08-24 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program
US9628930B2 (en) * 2010-04-08 2017-04-18 City University Of Hong Kong Audio spatial effect enhancement
US9378754B1 (en) 2010-04-28 2016-06-28 Knowles Electronics, Llc Adaptive spatial classifier for multi-microphone systems
CN102314882B (zh) * 2010-06-30 2012-10-17 华为技术有限公司 声音信号通道间延时估计的方法及装置
EP2609591B1 (en) * 2010-08-25 2016-06-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for generating a decorrelated signal using transmitted phase information
KR101697550B1 (ko) * 2010-09-16 2017-02-02 삼성전자주식회사 멀티채널 오디오 대역폭 확장 장치 및 방법
PL2740222T3 (pl) 2011-08-04 2015-08-31 Dolby Int Ab Usprawniony stereofoniczny radiowy odbiornik FM poprzez użycie stereo parametrycznego
EP3288033B1 (en) * 2012-02-23 2019-04-10 Dolby International AB Methods and systems for efficient recovery of high frequency audio content
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
EP2717265A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible dynamic adaption of time/frequency resolution in spatial-audio-object-coding
US10219093B2 (en) * 2013-03-14 2019-02-26 Michael Luna Mono-spatial audio processing to provide spatial messaging
CN105075117B (zh) * 2013-03-15 2020-02-18 Dts(英属维尔京群岛)有限公司 根据多个音频主干进行自动多声道音乐混合的系统和方法
EP4300488A3 (en) 2013-04-05 2024-02-28 Dolby International AB Stereo audio encoder and decoder
EP2987166A4 (en) * 2013-04-15 2016-12-21 Nokia Technologies Oy BESTIMMER FOR MULTI-CHANNEL AUDIOSIGNAL CODIER MODE
TWI579831B (zh) 2013-09-12 2017-04-21 杜比國際公司 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統
SG11201602628TA (en) 2013-10-21 2016-05-30 Dolby Int Ab Decorrelator structure for parametric reconstruction of audio signals
EP2963649A1 (en) * 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using horizontal phase correction
WO2016025812A1 (en) 2014-08-14 2016-02-18 Rensselaer Polytechnic Institute Binaurally integrated cross-correlation auto-correlation mechanism
FR3048808A1 (fr) * 2016-03-10 2017-09-15 Orange Codage et decodage optimise d'informations de spatialisation pour le codage et le decodage parametrique d'un signal audio multicanal
US10224042B2 (en) 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
CN109215667B (zh) 2017-06-29 2020-12-22 华为技术有限公司 时延估计方法及装置
CN111316353B (zh) * 2017-11-10 2023-11-17 诺基亚技术有限公司 确定空间音频参数编码和相关联的解码

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8901032A (nl) * 1988-11-10 1990-06-01 Philips Nv Coder om extra informatie op te nemen in een digitaal audiosignaal met een tevoren bepaald formaat, een decoder om deze extra informatie uit dit digitale signaal af te leiden, een inrichting voor het opnemen van een digitaal signaal op een registratiedrager, voorzien van de coder, en een registratiedrager verkregen met deze inrichting.
JPH0454100A (ja) * 1990-06-22 1992-02-21 Clarion Co Ltd 音声信号補償回路
GB2252002B (en) * 1991-01-11 1995-01-04 Sony Broadcast & Communication Compression of video signals
NL9100173A (nl) * 1991-02-01 1992-09-01 Philips Nv Subbandkodeerinrichting, en een zender voorzien van de kodeerinrichting.
GB2258781B (en) * 1991-08-13 1995-05-03 Sony Broadcast & Communication Data compression
FR2688371B1 (fr) * 1992-03-03 1997-05-23 France Telecom Procede et systeme de spatialisation artificielle de signaux audio-numeriques.
JPH09274500A (ja) * 1996-04-09 1997-10-21 Matsushita Electric Ind Co Ltd ディジタルオーディオ信号の符号化方法
DE19647399C1 (de) * 1996-11-15 1998-07-02 Fraunhofer Ges Forschung Gehörangepaßte Qualitätsbeurteilung von Audiotestsignalen
US5890125A (en) * 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
GB9726338D0 (en) 1997-12-13 1998-02-11 Central Research Lab Ltd A method of processing an audio signal
US6016473A (en) * 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
GB2353926B (en) * 1999-09-04 2003-10-29 Central Research Lab Ltd Method and apparatus for generating a second audio signal from a first audio signal
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US8340302B2 (en) * 2002-04-22 2012-12-25 Koninklijke Philips Electronics N.V. Parametric representation of spatial audio

Also Published As

Publication number Publication date
EP1500084B1 (en) 2008-01-23
US8340302B2 (en) 2012-12-25
CN1307612C (zh) 2007-03-28
WO2003090208A1 (en) 2003-10-30
KR20040102164A (ko) 2004-12-03
CN1647155A (zh) 2005-07-27
ATE385025T1 (de) 2008-02-15
JP2005523480A (ja) 2005-08-04
JP2009271554A (ja) 2009-11-19
BRPI0304540B1 (pt) 2017-12-12
ATE426235T1 (de) 2009-04-15
DE60318835D1 (de) 2008-03-13
DE60318835T2 (de) 2009-01-22
AU2003219426A1 (en) 2003-11-03
US20080170711A1 (en) 2008-07-17
BR0304540A (pt) 2004-07-20
ES2323294T3 (es) 2009-07-10
ES2300567T3 (es) 2008-06-16
KR100978018B1 (ko) 2010-08-25
JP5101579B2 (ja) 2012-12-19
JP4714416B2 (ja) 2011-06-29
US20130094654A1 (en) 2013-04-18
DE60326782D1 (de) 2009-04-30
KR101016982B1 (ko) 2011-02-28
JP2012161087A (ja) 2012-08-23
JP5498525B2 (ja) 2014-05-21
EP1881486B1 (en) 2009-03-18
US20090287495A1 (en) 2009-11-19
EP1881486A1 (en) 2008-01-23
EP1500084A1 (en) 2005-01-26
US8331572B2 (en) 2012-12-11
US9137603B2 (en) 2015-09-15

Similar Documents

Publication Publication Date Title
KR101016982B1 (ko) 디코딩 장치
US20200194013A1 (en) Apparatus and Method for Estimating an Inter-Channel Time Difference
KR101021076B1 (ko) 신호 합성
US7542896B2 (en) Audio coding/decoding with spatial parameters and non-uniform segmentation for transients
US8817992B2 (en) Multichannel audio coder and decoder
KR101049751B1 (ko) 오디오 코딩
CA2582485C (en) Individual channel shaping for bcc schemes and the like
EP1606797A1 (en) Processing of multi-channel signals
US20120195435A1 (en) Method, Apparatus and Computer Program for Processing Multi-Channel Signals
Jansson Stereo coding for the ITU-T G. 719 codec
KR100891668B1 (ko) 믹스 신호 처리 방법 및 장치
Mouchtaris et al. Multichannel Audio Coding for Multimedia Services in Intelligent Environments

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140214

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150211

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160211

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170206

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20180212

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190213

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20200214

Year of fee payment: 10