KR101662681B1 - 멀티채널 오디오 인코더 및 멀티채널 오디오 신호 인코딩 방법 - Google Patents

멀티채널 오디오 인코더 및 멀티채널 오디오 신호 인코딩 방법 Download PDF

Info

Publication number
KR101662681B1
KR101662681B1 KR1020147029982A KR20147029982A KR101662681B1 KR 101662681 B1 KR101662681 B1 KR 101662681B1 KR 1020147029982 A KR1020147029982 A KR 1020147029982A KR 20147029982 A KR20147029982 A KR 20147029982A KR 101662681 B1 KR101662681 B1 KR 101662681B1
Authority
KR
South Korea
Prior art keywords
itd
audio
signal
channel
frequency
Prior art date
Application number
KR1020147029982A
Other languages
English (en)
Other versions
KR20140140102A (ko
Inventor
다비드 비레뜨
위에 랑
지안펭 수
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20140140102A publication Critical patent/KR20140140102A/ko
Application granted granted Critical
Publication of KR101662681B1 publication Critical patent/KR101662681B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 멀티채널 오디오 신호의 복수의 오디오 채널 신호(x1, x2) 중 오디오 채널 신호(x1)에 대한 인코딩 파라미터(ITD) 결정 방법(100)에 관한 것이며, 각각의 오디오 채널 신호(x1, x2)는 오디오 채널 신호 값(x1[n], x2[n])을 가지며, 상기 방법은, 상기 오디오 채널 신호(x1)의 오디오 채널 신호 값(x1[n])의 주파수 변환(X1[k])을 결정하는 단계(101); 기준 오디오 신호(x2)의 기준 오디오 신호 값(x2[n])의 주파수 변환(X2[k])을 결정하는 단계(103) - 상기 기준 오디오 신호는 상기 복수의 오디오 채널 신호 중 다른 오디오 채널 신호(x2) 또는 상기 복수의 오디오 채널 신호 중 적어도 2개의 오디오 채널 신호(x1, x2)로부터 유도된 다운믹스 오디오 신호임 - ; 주파수 서브대역의 서브세트의 적어도 각각의 주파수 서브대역(b)에 대한 인터 채널 차이(ICD[b])를 결정하는 단계(105) - 각각의 인터 채널 차이는 상기 인터 채널 차이가 연관되어 있는 각각의 주파수 서브대역(b)에서 상기 오디오 채널 신호의 대역 제한 신호 부분과 상기 기준 오디오 신호의 대역 제한 신호 부분 간의 위상차(IPD[b]) 또는 시간차(ITD[b])를 나타냄 - ; 상기 인터 채널 차이(ICD[b])의 포지티브 값에 기초해서 제1 평균(ITDmean _ pos)을 결정하고 상기 인터 채널 차이(ICD[b])의 네거티브 값에 기초해서 제2 평균(ITDmean _ neg)을 결정하는 단계(107); 및 상기 제1 평균 및 상기 제2 평균에 기초해서 상기 인코딩 파라미터(ITD)를 결정하는 단계(109)를 포함한다.

Description

멀티채널 오디오 인코더 및 멀티채널 오디오 신호 인코딩 방법{MULTI-CHANNEL AUDIO ENCODER AND METHOD FOR ENCODING A MULTI-CHANNEL AUDIO SIGNAL}
본 발명은 오디오 코딩에 관한 것이며 특히 파라메트릭 멀티채널 오디오 코딩으로도 알려져 있는 파라메트릭 공간 오디오 코딩에 관한 것이다.
예를 들어 pp. 199-202, 2001년 10월 Audio and Acoust에 대한 Sig. Proc.의 Appl.에서의 Proc. IEEE 워크샵에서 C. Faller 및 F. Baumgarte의 "Efficient representation of spatial audio using perceptual parametrization"에 나타난 바와 같은 파라메트릭 스테레오 또는 멀티채널 오디오 코딩은 공간 큐(spatial cues)를 사용하여 멀티채널 오디오 신호와 다운-믹스(통상적으로 모노 또는 스테레오) 오디오 신호를 합성하며, 멀티채널 오디오 신호는 다운 믹스 오디오 신호마다 더 많은 채널을 가진다. 통상적으로, 다운-믹스 오디오 신호는 멀티채널 오디오 신호 중, 예를 들어 스테레오 오디오 신호 중 복수의 오디오 채널 신호의 중첩에서 생긴다. 이러한 낮은 채널들은 코딩된 파형이며, 측 정보(side information), 즉 원래의 신호 채널 관계와 관련되어 있는 공간 큐는 인코딩 파라미터로서 그 코딩된 오디오 채널에 부가된다. 디코더는 이 측 정보를 사용하여 디코딩된 파형 코딩된 오디오 채널에 기초하여 원래의 오디오 채널의 수를 재생성한다.
기본 파라메트릭 스테레오 코더는 인터 채널 레벨 차이를, 모노 다운-믹스 오디오 신호로부터 스테레오 신호를 생성하는 데 필요한 큐로서 사용할 수 있다. 더 복잡한 코더 역시 인터 채널 코히어런스(inter-channel coherence: ICC)를 사용할 수 있는데, 이것은 오디오 채널 신호 간, 즉 오디오 채널 간의 유사성 정도를 나타낼 수 있다. 또한, 서라운드 렌더링에 기초해서 예를 들어 3D 오디오 또는 헤드폰을 위해 바이너럴(binaural) 스테레오 신호를 코딩할 때, 인터 채널 위상 차(inter-channel phase difference: IPD) 역시 채널 간 위상/지연 차를 다시 생성하는 역할을 할 수 있다.
청각 간 시간 차(inter-aural time difference: ITD)는 도 7에서 알 수 있는 바와 같이 두 귀(703, 705) 간의 사운드(701)의 도착시간의 차이이다. 이것은 음원(701)의 입사의 방향(707) 또는 각 φ(theta)을 식별하기 위한 큐를 제공하므로, 사운드의 국소화(localization)에 있어서 중요하다. 신호가 한 쪽으로부터 귀(703, 705)에 도착하면, 그 신호는 멀리 있는 귀(703)(반대쪽)에 이르는 긴 경로(711) 및 가까이 있는 귀(705)(같은 쪽)에 이르는 짧은 경로(713)를 가진다. 이 경로 길이 차이로 인해 귀(703, 705)에서 사운드의 도착시간 간에 시간 차(715)가 생기고, 이것은 음원(701)의 방향(707)을 식별하는 프로세스에서 검출되어 일조한다.
도 7은 ITD의 예를 보여준다(Δt 또는 시간차 715로 표시되어 있음). 두 귀(703, 705)에서의 도착시간의 차이는 사운드 파형의 지연으로 나타나 있다. 좌측 귀로의 파형이 먼저 도착하면, ITD(715)는 포지티브이고, 그렇지 않으면 네거티브이다. 음원(701)이 청취자의 바로 정면에 있으면, 파형은 양쪽 귀(703, 705)에 동시에 도착하고 따라서 ITD(715)는 0이다.
ITD 큐는 대부분의 스테레오 레코딩에서 중요하다. 예를 들어 바이너럴 오디오 신호는 헤드 관련 전달 함수(Head Related Transfer Function: HRTF) 프로세싱에 기초해서 예를 들어 더미 헤드 또는 바이너럴 합성을 사용해서 실제의 레코딩으로부터 획득될 수 있는데, 음악 레코딩 또는 오디오 레코딩에 사용된다. 그러므로 저 비트레이트 파라메트릭 스테레오 코덱에 있어서 특히 대화 애플리케이션을 목표로 하는 코덱에 있어서는 매우 중요한 파라미터이다. 저 비트레이트 파라메트릭 스테레오 코덱에 있어서는 저 복잡도 및 안정한 ITD 추정 알고리즘이 필요하다. 또한, 예를 들어, 인터 채널 레벨 차(inter-channel level difference: CLD 또는 ILD) 및 인터 채널 코히어런스(inter-channel coherence: ICC)와 같은 다른 파라미터 외에, ITD 파라미터의 사용은 비트레이트 오버헤드를 증가시킬 수 있다. 이러한 특정한 매우 낮은 비트레이트 시나리오에 있어서, 단지 하나의 전체 대역(full band) ITD 파라미터가 전송될 수 있다. 단지 하나의 전체 대역 ITD 파라미터가 추정되면, 안정성에 대한 제약은 달성하기가 훨씬 더 어렵게 된다.
종래기술에서, ITD 추정 방법은 3가지 주요 카테고리로 분류될 수 있다. ITD 추정은 시간 도메인 방법에 기초할 수 있다. ITD는 채널 간 시간 도메인 교차 상관에 기초해서 추정된다. ITD는 다음의 시간 도메인 교차 상관이 최대인 지연에 대응한다:
Figure 112014102183925-pct00001
이 방법은 수 개의 프레임에 걸쳐 지연의 안정하지 않은 추정을 제공한다. 이것은 상이한 서브대역 신호들이 상이한 ITD 값을 가질 수 있기 때문에 입력 신호 f 및 g가 복잡한 사운드 장면을 가지는 광대역 신호일 때 특히 그러하다. 안정하지 않은 ITD는 디코더 내의 연속적인 프레임에서 지연이 전환될 때 클릭(잡음)이 들어오게 해 버릴 수 있다. 이 시간 도메인 분석이 전체 대역 신호 상에서 수행될 때, 시간 도메인 ITD 추정의 비트레이트는 낮으며, 단지 하나의 ITD가 추정된 후에, 코딩되어 전송된다. 그렇지만, 샘플링 주파수가 높은 신호에 대한 교차상관 계산으로 인해 복잡도는 매우 높다.
ITD 추정 방법의 두 번째 카테고리는 주파수 및 시간 도메인 방식의 조합에 기초한다. Marple, S.l., "Estimating group delay and phase delay via discrete-time "analytic" cross-correlation" Signal Processing, IEEE Transaction on, vol.47, no.9, pp.2604-2607, Sep 1999에서, 주파수 및 시간 도메인 IPD 추정은 이하의 단계를 포함한다:
1. 고속 푸리에 변환(FFT)를 입력 신호에 적용하여 주파수 계수를 획득한다.
2. 주파수 도메인에서 교차 상관을 계산한다.
3. 역 FFT를 사용하여 주파수 도메인 교차 상관을 시간 도메인으로 변환한다.
4. 복소 시간 도메인에서 ITD를 추정한다.
이 방법은 단지 하나의 전체 대역 ITD가 추정되고 코딩되며 전송되므로, 저 비트레이트의 제약도 달성할 수 있다. 그렇지만, 교차 상관 계산, 및 계산 복잡도가 제한될 때 이 방법을 적용할 수 없게 하는 역 FFT로 인해, 복잡도가 매우 높다.
마지막으로, 최종 카테고리는 주파수 도메인에서 ITD 추정을 직접적으로 수행한다. Baumgarte, F.;Faller, C.;, "Binaural cue coding-PartⅠ: psychoacoustic fundamentals and design principles, "Speech and Audio Processing, IEEE Transactions on, vol.11, no.6, pp.509-519, Nov. 2003 and in Faller, C.; Baumgarte, F.;, "Binaural cue coding-PartⅡ: Schemes and applications, "Speech and Audio Processing, IEEE Transactions, vol.11, no.6, pp.520-531, Nov. 2003에서, ITD는 주파수 도메인에서 추정되고, 각각의 대역에 있어서, ITD는 코딩되고 전송된다. 이러한 솔루션의 복잡도는 제한적이지만, 서브대역 당 하나의 ITD가 전송되어야 하기 때문에, 이 방법에서 필요한 비트레이트는 높다.
또한, 추정된 IPD의 실용성 및 안전성은 큰 서브대역 IPD가 일관적이지 않을 수도 있기에 서브대역 신호의 주파수 대역에 달려 있다(상이한 위치를 가지는 상이한 음원이 대역 제한 오디오 신호에 제공될 수 있다). 매우 낮은 비트레이트 파라메트릭 멀티채널 오디오 코딩 방식은 비트레이트에 대한 제약이 있을 뿐만 아니라, 배터리 수명이 길어야만 하는 이동 단말에서 특히 실현을 목표로 하는 코덱에 대한 이용 가능한 복잡도에 대한 제한도 있다. 기존 ITD 추정 알고리즘의 상태는 ITD 추정의 안정성과 관련해서 양호한 품질을 유지하면서 저 비트레이트 및 복잡도에 대한 요건을 동시에 충족하지 못한다.
본 발명의 목적은 ITD 추정의 안정성과 관련해서 양호한 품질을 유지하면서 낮은 비트레이트 및 낮은 복잡도 모두를 제공하는 멀티채널 오디오 인코더에 대한 개념을 제공하는 것이다.
이 목적은 독립 청구항의 특징에 의해 달성된다. 추가의 실행 형태는 종속항, 상세한 설명 및 및 도면에서 분명하다.
본 발명은 멀티채널 오디오 신호의 2개의 오디오 채널 신호의 대역 제한 신호 부분 간의 ITD 및 IPD와 같이, 고급 평균화를 인터 채널 차이에 적용하여, ITD 추정의 안정성과 관련해서 양호한 품질을 유지하면서 대역 제한 프로세싱으로 인한 비트레이트 및 계산 복잡도를 모두 감소시키는 것을 찾아내는 것에 기초한다. 고급 평균화는 그 부호에 의해 인터 채널 차이를 구별하고 그 부호에 의존하는 상이한 평균을 수행하며 이에 의해 인터 채널 차이 프로세싱의 안정성을 높인다.
본 발명을 상세히 설명하기 위해, 이하에서는 용어, 약어 및 표기법을 사용한다:
BCC : 바이너럴 큐 코딩으로서, 인터 채널 관계를 설명하기 위해 다운믹스 및 바이너럴 큐(또는 공간 파라미터)를 사용하여 스테레오 또는 멀티채널 신호의 코딩
바이너럴 큐( Binaural cues ): 좌우 귀 인입 신호 간의 인터 채널 큐(ITD, ILD, 및 IC를 참조)
CLD : 채널 레벨 차이, ILD와 동일.
FFT : DFT의 고속 실행으로서, 고속 푸리에 변환으로 표기.
HRTF : 헤드 관련 전달 함수로서, 자유장에서 음원으로부터 좌우 귀 인입까지의 사운드의 변환을 모델화.
IC : 청각 간 코히어런스, 즉 좌우 귀 인입 신호 간의 유사도를 말한다. 이것은 IAC 또는 청각 간 교차 상관(IACC)이라고도 한다.
ICC : 인터 채널 코히어런스, 인터 채널 상관. IC와 같지만, 임의의 신호 쌍 사이에서 더 일반적으로 정의된다(예를 들어, 라우드스피커 신호 쌍, 귀 인입 신호 쌍 등).
ICPD : 인터 채널 위상차. 신호 쌍 간의 평균 위상차이다.
ICLD : 인터 채널 레벨 차이. ILD와 동일하지만, 임의의 신호 쌍 사이에서 더 일반적으로 정의된다(예를 들어, 라우드스피커 신호 쌍, 귀 인입 신호 쌍 등).
ILD : 청각 간 레벨 차이, 즉 좌우 귀 인입 신호 간의 레벨 차이. 이것은 청각 간 강도 신호(IID)라고도 한다.
IPD : 청각 간 위상차, 즉 좌우 귀 인입 신호 간의 위상차이다.
ITD : 청각 간 시간차, 즉 좌우 귀 인입 신호 간의 시간차이다. 이것은 청각 간 시간 지연이라고도 한다.
ICD : 인터 채널 차이. 2개의 채널 간의 차이에 대한 일반적인 용어, 예를 들어, 2개의 채널 간의 시간차, 위상차, 레벨 차이 또는 코히어런스.
믹싱 ( Mixing ): 일련의 음성이 주어지면(예를 들어, 개별적으로 레코딩된 기구, 멀티트랙 레코딩), 공간 오디오 재생에 의도된 스테레오 또는 멀티채널 오디오 신호를 생성하는 프로세스를 믹싱이라 한다.
OCPD : 전체 채널 위상차. 2 이상의 오디오 채널의 공통적인 위상 변형이다.
공간 오디오: 적절한 재생 시스템을 통해 재생될 때, 청각적 공간 이미지를 오디오 신호를 자아낸다.
공간 큐: 공간적 개념과 관련된 큐. 이 용어는 스테레오 또는 멀티채널 오디오 신호의 쌍 간의 큐에 사용된다(ICTD, ICLD, 및 ICC도 참조). 공간 파라미터 또는 바이너럴 큐라고도 한다.
제1 관점에 따르면, 본 발명은 멀티채널 오디오 신호의 복수의 오디오 채널 신호 중 오디오 채널 신호에 대한 인코딩 파라미터 결정 방법에 관한 것이며, 각각의 오디오 채널 신호는 오디오 채널 신호 값을 가지며, 상기 방법은, 상기 오디오 채널 신호의 오디오 채널 신호 값의 주파수 변환을 결정하는 단계; 기준 오디오 신호의 기준 오디오 신호 값의 주파수 변환을 결정하는 단계 - 상기 기준 오디오 신호는 상기 복수의 오디오 채널 신호 중 다른 오디오 채널 신호임 - ; 주파수 서브대역의 서브세트의 적어도 각각의 주파수 서브대역에 대한 인터 채널 차이를 결정하는 단계 - 각각의 인터 채널 차이는 상기 인터 채널 차이가 연관되어 있는 각각의 주파수 서브대역에서 상기 오디오 채널 신호의 대역 제한 신호 부분과 상기 기준 오디오 신호의 대역 제한 신호 부분 간의 위상차 또는 시간차를 나타냄 - ; 상기 인터 채널 차이의 포지티브 값에 기초해서 제1 평균을 결정하고 상기 인터 채널 차이의 네거티브 값에 기초해서 제2 평균을 결정하는 단계; 및 상기 제1 평균 및 상기 제2 평균에 기초해서 상기 인코딩 파라미터를 결정하는 단계를 포함한다.
제2 관점에 따르면, 본 발명은 멀티채널 오디오 신호의 복수의 오디오 채널 신호 중 오디오 채널 신호에 대한 인코딩 파라미터 결정 방법에 관한 것이며, 각각의 오디오 채널 신호는 오디오 채널 신호 값을 가지며, 상기 방법은, 상기 오디오 채널 신호의 오디오 채널 신호 값의 주파수 변환을 결정하는 단계; 기준 오디오 신호의 기준 오디오 신호 값의 주파수 변환을 결정하는 단계 - 상기 기준 오디오 신호는 상기 복수의 오디오 채널 신호 중 적어도 2개의 오디오 채널 신호로부터 유도된 다운믹스 오디오 신호임 - ; 주파수 서브대역의 서브세트의 적어도 각각의 주파수 서브대역에 대한 인터 채널 차이를 결정하는 단계 - 각각의 인터 채널 차이는 상기 인터 채널 차이가 연관되어 있는 각각의 주파수 서브대역에서 상기 오디오 채널 신호의 대역 제한 신호 부분과 상기 기준 오디오 신호의 대역 제한 신호 부분 간의 위상차 또는 시간차를 나타냄 - ; 상기 인터 채널 차이의 포지티브 값에 기초해서 제1 평균을 결정하고 상기 인터 채널 차이의 네거티브 값에 기초해서 제2 평균을 결정하는 단계; 및 상기 제1 평균 및 상기 제2 평균에 기초해서 상기 인코딩 파라미터를 결정하는 단계를 포함한다.
대역 제한 신호 부분은 주파수 도메인 신호 부분일 수 있다. 그렇지만, 대역 제한 신호 부분은 시간 도메인 신호 부분일 수 있다. 이 경우, 역 푸리에 변환기와 같은 주파수-도메인-시간-도메인 변환기가 적용될 수 있다. 시간 도메인에서, 대역 제한 신호 부분의 시간 지연 평균이 수행될 수 있는데, 이것은 주파수 도메인에서 위상 평균에 대응한다. 신호 프로세싱에 있어서, 윈도윙(windowing), 예를 들어, 해밍 윈도윙은 시간-도메인 신호 부분을 윈도윙하는 데 적용될 수 있다. 대역 제한 신호 부분은 단지 하나의 주파수 빈(frequency bin)으로 확장할 수 있거나 하나 이상의 주파수 빈으로 확장할 수 있다.
제1 관점 또는 제2 관점에 따른 방법의 제1 가능한 실시 형태에서,
상기 인터 채널 차이는 인터 채널 위상차 또는 인터 채널 시간차이다.
제1 관점 또는 제2 관점에 따른 또는 제1 관점 또는 제2 관점에 따른 방법의 제1 가능한 실시 형태에 따른 방법의 제2 가능한 실시 형태에서, 상기 방법은: 상기 인터 채널 차이의 포지티브 값에 기초해서 제1 표준 편차를 결정하고 상기 인터 채널 차이의 네거티브 값에 기초해서 제2 표준 편차를 결정하는 단계를 더 포함하며, 상기 인코딩 파라미터를 결정하는 단계는 상기 제1 표준 편차 및 상기 제2 표준 편차에 기초한다.
제1 관점 또는 제2 관점에 따른 또는 제1 관점의 임의의 선행하는 실시 형태 또는 제2 관점의 임의의 선행하는 실시 형태에 따른 방법의 제3 가능한 실시 형태에서, 주파수 서브대역은 하나 또는 복수의 주파수를 포함한다.
제1 관점 또는 제2 관점에 따른 또는 제1 관점의 임의의 선행하는 실시 형태 또는 제2 관점의 임의의 선행하는 실시 형태에 따른 방법의 제4 가능한 실시 형태에서, 상기 주파수 서브대역의 서브세트의 적어도 각각의 주파수 서브대역에 대한 인터 채널 차이를 결정하는 단계는: 상기 오디오 채널 신호 값의 주파수 변환 및 상기 기준 오디오 신호 값의 주파수 변환으로부터의 교차 상관으로서 교차 스펙트럼을 결정하는 단계; 및 상기 교차 스펙트럼에 기초해서 각각의 주파수 서브대역에 대한 인터 채널 위상차를 결정하는 단계를 포함한다.
제1 관점의 제4 실시 형태 또는 제2 관점의 제4 실시 형태에 따른 방법의 제5 가능한 실시 형태에서, 주파수 빈의 또는 주파수 서브대역의 인터 채널 위상차는 상기 교차 스펙트럼의 각도로서 결정된다.
제1 관점의 제4 또는 제5 실시 형태 또는 제2 관점의 제4 또는 제5 실시 형태에 따른 방법의 제6 가능한 실시 형태에서, 상기 방법은: 상기 인터 채널 위상차에 기초해서 인터 채널 시간차를 결정하는 단계를 더 포함하며, 상기 제1 평균을 결정하는 단계는 상기 인터 채널 시간차의 포지티브 값에 기초하고 상기 제2 평균을 결정하는 단계는 상기 인터 채널 시간차의 네거티브 값에 기초한다.
제1 관점의 제4 또는 제5 실시 형태 또는 제2 관점의 제4 또는 제5 실시 형태에 따른 방법의 제7 가능한 실시 형태에서, 주파수 서브대역의 상기 인터 채널 시간차는 상기 인터 채널 위상차의 함수로서 결정되며, 상기 함수는 주파수 빈의 수에 의존하고 주파수 빈 또는 주파수 서브대역 인덱스에 의존한다.
제1 관점의 제6 또는 제7 실시 형태 또는 제2 관점의 제6 또는 제7 실시 형태에 따른 방법의 제8 가능한 실시 형태에서, 상기 인코딩 파라미터를 결정하는 단계는, 상기 주파수 서브대역의 서브세트에 포함되어 있는 주파수 서브대역의 수에 대해 포지티브 청각 간 시간차의 제1 수 및 네거티브 청각 간 시간차의 제2 수를 카운트하는 단계를 포함한다.
제1 관점의 제8 실시 형태 또는 제2 관점의 제8 실시 형태에 따른 방법의 제9 가능한 실시 형태에서, 상기 인코딩 파라미터는 상기 포지티브 청각 간 시간차의 제1 수와 상기 네거티브 청각 간 시간차의 제2 수 간의 비교에 기초해서 결정된다.
제1 관점의 제9 실시 형태 또는 제2 관점의 제 실시 형태에 따른 방법의 제10 가능한 실시 형태에서, 상기 인코딩 파라미터는 상기 제1 표준 편차와 상기 제2 표준 편차 간의 비교에 기초한다.
제1 관점의 제9 또는 제10 실시 형태 또는 제2 관점의 제9 또는 제10 실시 형태에 따른 방법의 제11 가능한 실시 형태에서, 상기 인코딩 파라미터는 상기 포지티브 청각 간 시간차의 제1 수와 제1 인자가 승산된 상기 네거티브 청각 간 시간차의 제2 수 간의 비교에 기초해서 결정된다.
제1 관점의 제11 실시 형태 또는 제2 관점의 제11 실시 형태에 따른 방법의 제12 가능한 실시 형태에서, 상기 인코딩 파라미터는 상기 제1 표준 편차와 제2 인자가 승산된 상기 제2 표준 편차 간의 비교에 기초한다.
제1 관점의 제6 또는 제7 실시 형태 또는 제2 관점의 제6 또는 제7 실시 형태에 따른 방법의 제13 가능한 실시 형태에서, 상기 인코딩 파라미터를 결정하는 단계는, 상기 주파수 서브대역의 서브세트에 포함되어 있는 주파수 서브대역의 수에 대해 포지티브 인터 채널 시간차의 제1 수 및 네거티브 인터 채널 시간차의 제2 수를 카운트하는 단계를 포함한다.
제1 관점 또는 제2 관점에 따른 또는 제1 관점의 임의의 선행하는 실시 형태 또는 제2 관점의 임의의 선행하는 실시 형태에 따른 방법의 제14 가능한 실시 형태에서, 상기 방법은 이항의 인코더 중 하나 또는 조합에 적용된다: ITU-T G.722 인코더, ITU-T G.722 Annex B 인코더, ITU-T G.711.1 인코더, ITU-T G.711.1 Annex D 인코더, ITU-T G.711.1 Annex D 인코더, 및 3GPP 강화된 음성 서비스 인코더.
서브대역 ITD의 평균 추정을 제공하는 ITD의 추정과 비교하면, 제1 관점 또는 제2 관점에 따른 방법은 서브대역 내의 가장 관련된 ITD를 선택한다. 그러므로 ITD 추정의 안정성과 관련해서 양호한 품질을 유지하면서 낮은 비트레이트 및 낮은 복잡도가 달성된다.
제3 관점에 따르면, 본 발명은 멀티채널 오디오 신호의 복수의 오디오 채널 신호 중 오디오 채널 신호에 대한 인코딩 파라미터를 결정하는 멀티채널 오디오 인코더에 관한 것이며, 각각의 오디오 채널 신호는 오디오 채널 신호 값을 가지며, 상기 파라메트릭 공간 오디오 인코더는, 상기 오디오 채널 신호의 오디오 채널 신호 값의 주파수 변환을 결정하고 기준 오디오 신호의 기준 오디오 신호 값의 주파수 변환을 결정하는, 푸리에 변환기와 같은 주파수 변환기 - 상기 기준 오디오 신호는 상기 복수의 오디오 채널 신호 중 다른 오디오 채널 신호임 - ; 주파수 서브대역의 서브세트의 적어도 각각의 주파수 서브대역에 대한 인터 채널 차이를 결정하는 인터 채널 차이 결정자 - 각각의 인터 채널 차이는 상기 인터 채널 차이가 연관되어 있는 각각의 주파수 서브대역에서 상기 오디오 채널 신호의 대역 제한 신호 부분과 상기 기준 오디오 신호의 대역 제한 신호 부분 간의 위상차 또는 시간차를 나타냄 - ; 상기 인터 채널 차이의 포지티브 값에 기초해서 제1 평균을 결정하고 상기 인터 채널 차이의 네거티브 값에 기초해서 제2 평균을 결정하는 평균 결정자; 및 상기 제1 평균 및 상기 제2 평균에 기초해서 상기 인코딩 파라미터를 결정하는 인코딩 파라미터 결정자를 포함한다.
제4 관점에 따르면, 본 발명은 멀티채널 오디오 신호의 복수의 오디오 채널 신호 중 오디오 채널 신호에 대한 인코딩 파라미터를 결정하는 멀티채널 오디오 인코더에 관한 것이며, 각각의 오디오 채널 신호는 오디오 채널 신호 값을 가지며, 상기 파라메트릭 공간 오디오 인코더는, 상기 오디오 채널 신호의 오디오 채널 신호 값의 주파수 변환을 결정하고 기준 오디오 신호의 기준 오디오 신호 값의 주파수 변환을 결정하는, 푸리에 변환기와 같은 주파수 변환기 - 상기 기준 오디오 신호는 상기 복수의 오디오 채널 신호 중 적어도 2개의 오디오 채널 신호로부터 유도된 다운믹스 오디오 신호임 - ; 주파수 서브대역의 서브세트의 적어도 각각의 주파수 서브대역에 대한 인터 채널 차이를 결정하는 인터 채널 차이 결정자 - 각각의 인터 채널 차이는 상기 인터 채널 차이가 연관되어 있는 각각의 주파수 서브대역에서 상기 오디오 채널 신호의 대역 제한 신호 부분과 상기 기준 오디오 신호의 대역 제한 신호 부분 간의 위상차 또는 시간차를 나타냄 - ; 상기 인터 채널 차이의 포지티브 값에 기초해서 제1 평균을 결정하고 상기 인터 채널 차이의 네거티브 값에 기초해서 제2 평균을 결정하는 평균 결정자; 및 상기 제1 평균 및 상기 제2 평균에 기초해서 상기 인코딩 파라미터를 결정하는 인코딩 파라미터 결정자를 포함한다.
제5 관점에 따르면, 본 발명은 컴퓨터에서 실행될 때 제1 관점 또는 제2 관점에 따른 또는 제1 관점의 임의의 선행하는 청구항 또는 제2 관점의 임의의 선행하는 청구항에 따른 방법을 수행하는 프로그램 코드를 포함하는 컴퓨터 프로그램에 관한 것이다.
컴퓨터 프로그램은 복잡도를 감소시켰으며 따라서 배터리 수명이 길어야만 하는 이동 단말에서 효과적으로 실행될 수 있다.
제6 관점에 따르면, 본 발명은 제1 관점 또는 제2 관점에 따른 또는 제1 관점의 임의의 선행하는 실시 형태 또는 제2 관점의 임의의 선행하는 실시 형태에 따른 방법을 실행하도록 구성되어 있는 파라메트릭 공간 오디오 인코더에 관한 것이다.
제6 관점에 따른 파라메트릭 공간 오디오 인코더의 제1 가능한 실시 형태에서, 파라메트릭 공간 오디오 인코더는 제1 관점 또는 제2 관점에 따른 또는 제1 관점의 임의의 선행하는 실시 형태 또는 제2 관점의 임의의 선행하는 실시 형태에 따른 방법을 실행하는 프로세서를 포함한다.
제6 관점 또는 제6 관점의 제1 실시 형태에 따른 파라메트릭 공간 오디오 인코더의 제2 가능한 실시 형태에서, 파라메트릭 공간 오디오 인코더는, 상기 오디오 채널 신호의 오디오 채널 신호 값의 주파수 변환을 결정하고 기준 오디오 신호의 기준 오디오 신호 값의 주파수 변환을 결정하는, 푸리에 변환기와 같은 주파수 변환기 - 상기 기준 오디오 신호는 상기 복수의 오디오 채널 신호 중 다른 오디오 채널 신호 또는 상기 복수의 오디오 채널 신호 중 적어도 2개의 오디오 채널 신호로부터 유도된 다운믹스 오디오 신호임 - ; 주파수 서브대역의 서브세트의 적어도 각각의 주파수 서브대역에 대한 인터 채널 차이를 결정하는 인터 채널 차이 결정자 - 각각의 인터 채널 차이는 상기 인터 채널 차이가 연관되어 있는 각각의 주파수 서브대역에서 상기 오디오 채널 신호의 대역 제한 신호 부분과 상기 기준 오디오 신호의 대역 제한 신호 부분 간의 위상차 또는 시간차를 나타냄 - ; 상기 인터 채널 차이의 포지티브 값에 기초해서 제1 평균을 결정하고 상기 인터 채널 차이의 네거티브 값에 기초해서 제2 평균을 결정하는 평균 결정자; 및 상기 제1 평균 및 상기 제2 평균에 기초해서 상기 인코딩 파라미터를 결정하는 인코딩 파라미터 결정자를 포함한다.
제7 관점에 따르면, 본 발명은 저장, 특히 콤팩트 디스크와 같이, 컴퓨터 프로그램이 제1 관점 또는 제2 관점에 따른 또는 제1 관점의 임의의 선행하는 청구항 또는 제2 관점의 임의의 선행하는 청구항에 따른 방법을 수행하는 프로그램 코드를 포함하는 기계 판독 가능 매체에 관한 것이다.
여기서 설명된 방법은 디지털 신호 프로세서(DSP) 내, 마이크로 제어기 내 또는 임의의 다른 사이드-프로세서 내의 소프트웨어로서 또는 주문형 집적회로(ASIC) 내의 하드웨어 회로로서 실행될 수 있다.
본 발명은 디지털 전자 회로에서, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어에서, 또는 이것들의 조합에서 실현될 수 있다.
본 발명의 실시예에 대해 이하의 도면을 참조하여 더 설명한다.
도 1은 실시 형태에 따라 오디오 채널 신호에 대한 인코딩 파라미터를 생성하는 방법에 대한 개략도이다.
도 2는 실시 형태에 따른 ITD 추정 알고리즘에 대한 개략도이다.
도 3은 실시 형태에 따른 ITD 선택 알고리즘에 대한 개략도이다.
도 4는 실시 형태에 따른 파라메트릭 오디오 인코더에 대한 블록도이다.
도 5는 실시 형태에 따른 파라메트릭 오디오 디코더에 대한 블록도이다.
도 6은 실시 형태에 따른 파라메트릭 스테레오 오디오 인코더 및 디코더에 대한 블록도이다.
도 7은 청각 간 시간차의 원리를 나타내는 도면이다.
도 1은 실시 형태에 따라 오디오 채널 신호에 대한 인코딩 파라미터를 생성하는 방법에 대한 개략도이다.
방법(100)은 멀티채널 오디오 신호의 복수의 오디오 채널 신호(x1, x2) 중 오디오 채널 신호(x1)에 대한 인코딩 파라미터(ITD)를 결정하기 위한 것이다. 각각의 오디오 채널 신호(x1, x2)는 오디오 채널 신호 값(x1[n], x2[n])을 가진다. 도 1은 복수의 오디오 채널 신호가 좌측 오디오 채널(x1) 및 우측 오디오 채널(x2)을 포함하는 경우를 도시하고 있다. 방법(100)은:
상기 오디오 채널 신호(x1)의 오디오 채널 신호 값(x1[n])의 주파수 변환(X1[k])을 결정하는 단계(101);
기준 오디오 신호(x2)의 기준 오디오 신호 값(x2[n])의 주파수 변환(X2[k])을 결정하는 단계(103) - 상기 기준 오디오 신호는 상기 복수의 오디오 채널 신호 중 다른 오디오 채널 신호(x2) 또는 상기 복수의 오디오 채널 신호 중 적어도 2개의 오디오 채널 신호(x1, x2)로부터 유도된 다운믹스 오디오 신호임 - ;
주파수 서브대역의 서브세트의 적어도 각각의 주파수 서브대역(b)에 대한 인터 채널 차이(ICD[b])를 결정하는 단계(105) - 각각의 인터 채널 차이는 상기 인터 채널 차이가 연관되어 있는 각각의 주파수 서브대역(b)에서 상기 오디오 채널 신호의 대역 제한 신호 부분과 상기 기준 오디오 신호의 대역 제한 신호 부분 간의 위상차(IPD[b]) 또는 시간차(ITD[b])를 나타냄 - ;
상기 인터 채널 차이(ICD[b])의 포지티브 값에 기초해서 제1 평균(ITDmean _ pos)을 결정하고 상기 인터 채널 차이(ICD[b])의 네거티브 값에 기초해서 제2 평균(ITDmean _ neg)을 결정하는 단계(107); 및
상기 제1 평균 및 상기 제2 평균에 기초해서 상기 인코딩 파라미터(ITD)를 결정하는 단계(109)
를 포함한다.
실시 형태에서, 오디오 채널 신호의 대역 제한 신호 부분 및 기준 오디오 신호의 대역 제한 신호 부분을 주파수 도메인에서 각각의 서브대역 및 그 주파수 빈이라 한다.
실시 형태에서, 오디오 채널 신호의 대역 제한 신호 부분 및 기준 오디오 신호의 대역 제한 신호 부분을 시간 도메인에서 서브대역의 각각의 시간 변환된 신호라 한다.
대역 제안 신호 부분은 주파수 도메인 신호 부분일 수 있다. 그렇지만, 대역 제안 신호 부분은 시간 도메인 신호 부분일 수 있다. 이 경우, 역 푸리에 변환기와 같은 주파수-도메인-시간-도메인 변환기가 적용될 수 있다. 시간 도메인에서, 대역 제한 신호 부분의 시간 지연 평균이 수행될 수 있는데, 이것은 주파수 도메인에서 위상 평균에 대응한다. 신호 프로세싱에 있어서, 윈도윙(windowing), 예를 들어, 해밍 윈도윙은 시간-도메인 신호 부분을 윈도윙하는 데 적용될 수 있다.
대역 제한 신호 부분은 단지 하나의 주파수 빈(frequency bin)으로 확장할 수 있거나 하나 이상의 주파수 빈으로 확장할 수 있다.
실시 형태에서, 방법(100)은 이하와 같이 처리된다:
도 1의 101 및 103에 대응하는 제1 단계에서, 시간 주파수 변환은 시간-도메인 입력 채널, 예를 들어 제1 입력 채널(x1) 및 시간-도메인 기준 채널, 예를 들어 제2 입력 채널(x2)에 적용된다. 스테레오의 경우, 이것은 좌측 채널 및 우측 채널이다. 양호한 실시예에서, 시간 주파수 변환은 고속 푸리에 변환(Fast Fourier Transform: FFT) 또는 단기간 푸리에 변환(Short Term Fourier Transform: STFT)이다. 대안의 실시예에서, 시간 주파수 변환은 코사인 변조 필터 뱅크 또는 복소 필터 뱅크이다.
도 1의 105에 대응하는 제2 단계에서, FFT의 각각의 주파수 빈[b]에 대해 교차 상관이 다음과 같이 계산된다:
Figure 112014102183925-pct00002
여기서 c[b]는 주파수 빈[b]의 교차 상관이고 x1[b] 및 x2[b]는 2 채널의 FFT 계수이다. *는 켤레 복소수를 나타낸다. 이 경우에, 서브대역 b는 하나의 주파수 빈[k]에 직접적으로 대응하고, 주파수 빈[b] 및 [k]는 정확하게 동일한 주파수 빈을 나타낸다.
대안으로, 교차 상관은 다음과 같이 서브대역[k]마다 계산된다:
Figure 112014102183925-pct00003
여기서 c[b]는 주파수 빈[b]의 교차 상관이고 x1[k] 및 x2[k]는 2 채널의 FFT 계수이며, 예를 들어, 스테레오의 경우 좌측 채널 및 우측 채널이다. *는 켤레 복소수를 나타낸다. kb는 서브대역[b]의 시작 빈이다.
교차 상관은 평활화 버전일 수 있으며, 이것은 다음 식에 의해 계산된다:
csm[b,i]=SMW1*csm[b,i-1]+(1-SMW1)*c[b]
여기서 SMW1은 활성 인자이다. i는 프레임 인덱스이다.
인터 채널 위상차(IPD)는 교차 스펙트럼에 기초하여 서브대역마다 다음과 같이 계산된다:
IPD[b] = ∠c[b]
여기서 연산 ∠는 c[b]의 각도를 계산하기 위한 논증 연산자(argrment operator)이다. 교차 상관의 평활화의 경우, csm[b,i]는 다음과 같이 IPD 계산을 위해 사용된다는 것에 유의해야 한다:
IPD[b] = ∠csm[b,i]
도 1의 105에 대응하는 제3 단계에서, 각각의 주파수 빈(또는 서브대역)의 IPD는 IPD에 기초하여 계산된다.
Figure 112014102183925-pct00004
여기서 N은 FFT 빈의 수이다.
도 1의 107에 대응하는 제4 단계에서, IPD의 포지티브 및 네거티브 값의 카운트가 수행된다. 포지티브 및 네거티브 IPD의 평균 및 표준 편차는 다음과 같이 ITD의 부호에 기초한다:
Figure 112014102183925-pct00005
여기서
Figure 112014102183925-pct00006
Figure 112014102183925-pct00007
여기서
Figure 112014102183925-pct00008
Figure 112014102183925-pct00009
여기서
Figure 112014102183925-pct00010
Figure 112014102183925-pct00011
여기서
Figure 112014102183925-pct00012
여기서 Nbpos 및 Nbneg는 각각 포지티브 및 네거티브 ITD의 수이다. M은 추출되는 ITD의 총 수이다. 대안으로, ITD가 0이면, 네거티브 ITD에서 카운트될 수도 있고 평균 없이 카운트되지 않을 수도 있다.
도 1의 109에 대응하는 제5 단계에서, ITD는 평균 및 표준 편차에 기초해서 포지티브 및 네거티브 ITD 중에서 선택된다. 선택 알고리즘이 도 3에 도시되어 있다.
도 2는 실시 형태에 따른 ITD 추정 알고리즘(200)에 대한 개략도이다.
도 1의 101에 대응하는 제1 단계(201)에서, 시간 주파수 변환은 시간-도메인 입력 채널, 예를 들어 제1 입력 채널(x1)에 적용된다. 양호한 실시예에서, 시간 주파수 변환은 고속 푸리에 변환(Fast Fourier Transform: FFT) 또는 단기간 푸리에 변환(Short Term Fourier Transform: STFT)이다. 대안의 실시예에서, 시간 주파수 변환은 코사인 변조 필터 뱅크 또는 복소 필터 뱅크이다.
도 1의 103에 대응하는 제2 단계(203)에서, 시간 주파수 변환은 시간-도메인 기준 채널, 예를 들어 제2 입력 채널(x2)에 적용된다. 양호한 실시예에서, 시간 주파수 변환은 고속 푸리에 변환(Fast Fourier Transform: FFT) 또는 단기간 푸리에 변환(Short Term Fourier Transform: STFT)이다. 대안의 실시예에서, 시간 주파수 변환은 코사인 변조 필터 뱅크 또는 복소 필터 뱅크이다.
도 1의 105에 대응하는 후속의 제3 단계(205)에서, 각각의 주파수 빈의 교차 상관이 계산되고 이것은 주파수 빈 또는 주파수 서브대역의 제한된 수에 대해 계산된다. 교차 스펙트럼은 FFT의 각각의 주파수 빈[b]에 대한 교차 상관으로부터 다음과 같이 계산된다:
Figure 112014102183925-pct00013
여기서 c[b]는 주파수 빈[b]의 교차 상관이고 x1[b] 및 x2[b]는 2 채널의 FFT 계수이다. *는 켤레 복소수를 나타낸다. 이 경우에, 서브대역 b는 하나의 주파수 빈[k]에 직접적으로 대응하고, 주파수 빈[b] 및 [k]는 정확하게 동일한 주파수 빈을 나타낸다.
대안으로, 교차 상관은 서브대역[k]마다 다음과 같이 계산된다:
Figure 112014102183925-pct00014
여기서 c[b]는 주파수 빈[b]의 교차 상관이고 x1[k] 및 x2[k]는 2 채널의 FFT 계수이며, 예를 들어, 스테레오의 경우 좌측 채널 및 우측 채널이다. *는 켤레 복소수를 나타낸다. kb는 서브대역[b]의 시작 빈이다.
교차 상관은 평활화 버전일 수 있으며, 이것은 다음 식에 의해 계산된다:
csm[b,i]=SMW1*csm[b,i-1]+(1-SMW1)*c[b]
여기서 SMW1은 활성 인자이다. i는 프레임 인덱스이다.
인터 채널 위상차(IPD)는 교차 스펙트럼에 기초하여 서브대역마다 다음과 같이 계산된다:
IPD[b] = ∠c[b]
여기서 연산 ∠는 c[b]의 각도를 계산하기 위한 논증 연산자이다. 교차 상관의 평활화의 경우, csm[b,i]는 다음과 같이 IPD 계산을 위해 사용된다는 것에 유의해야 한다:
IPD[b] = ∠csm[b,i]
도 1의 105에 대응하는 후속의 제4 단계(207)에서, 각각의 주파수 빈(또는 서브대역)의 IPD는 IPD에 기초하여 계산된다.
Figure 112014102183925-pct00015
여기서 N은 FFT 빈의 수이다.
도 1의 107에 대응하는 후속의 제5 단계(209)에서, 단계(207)의 계산된 ITD가 0보다 큰지를 검사한다. 크면, 단계(211)가 처리되고, 크지 않으면, 단계(213)가 처리된다.
단계(209) 후의 단계(211)에서, ITD의 M 주파수 빈(또는 서브대역) 값의 수에 대한 합산은 예를 들어 "Nb_itd_pos++,,ltd_sum_pos+=ITD"에 따라 계산된다.
단계(209) 후의 단계(213)에서, ITD의 M 주파수 빈(또는 서브대역) 값의 수에 대한 합산은 예를 들어 "Nb_itd_neg++,,ltd_sum_neg+=ITD"에 따라 계산된다.
단계(211) 후의 단계(215)에서, 포지티브 ITD의 평균은 다음 식에 따라 계산된다:
Figure 112014102183925-pct00016
여기서
Figure 112014102183925-pct00017
여기서 Nbpos는 포지티브 ITD의 수이고 M은 추출되는 ITD의 총 수이다.
단계(215) 후의 선택적 단계(219)에서, 포지티브 ITD의 표준 편차는 다음 식에 따라 계산된다:
Figure 112014102183925-pct00018
여기서
Figure 112014102183925-pct00019
단계(213) 후의 단계(217)에서, 네거티브의 평균은 다음 식에 따라 계산된다:
Figure 112014102183925-pct00020
여기서
Figure 112014102183925-pct00021
여기서 Nbneg는 네거티브 ITD의 수이고 M은 추출되는 ITD의 총 수이다.
단계(217) 후의 선택적 단계(221)에서, 네거티브 ITD의 표준 편차는 다음 식에 따라 계산된다:
Figure 112014102183925-pct00022
여기서
Figure 112014102183925-pct00023
도 1의 109에 대응하는 최종 단계(223)에서, ITD는 평균에 기초해서 그리고 선택적으로 표준 편차에 기초해서 포지티브 및 네거티브 ITD 중에서 선택된다. 선택 알고리즘은 도 3에 도시되어 있다.
이 방법(200)은 전체 대역 ITD 추정에 적용될 수 있으며, 그 경우, 서브대역 b는 주파수의 전체 범위를 망라한다(B까지). 서브대역 b는 예를 들어 임계 대역(critical band) 또는 등가 직교 대역폭(Equivalent Rectangular Bandwidth: ERB)과 같이 스펙트럼의 지각적 분해(perceptual decomposition)를 따르도록 선택될 수 있다. 대안의 실시예에서, 전체 대역 ITD는 가장 관련된 서드대역 b에 기초해서 추정될 수 있다. 가장 관련된 것에 의해, ITD 지각에 대해 지각적으로 관련 있는 서브대역을 이해할 수 있을 것이다(예를 들어 200 Hz 내지 1500 Hz).
본 발명의 제1 관점 및 제2 관점에 따른 ITD 추정의 이점은, 청취자의 왼쪽 및 오른쪽에 2명의 화자(speaker)가 있고 그들이 동시에 얘기를 하고 있으면, 모든 ITD의 간단한 평균은 제로 근처의 값을 줄 것이고, 이것은 정확하지 않다. 제로 ITD는 화자가 청취자의 바로 정면에 있다는 것을 의미하기 때문이다. 모든 ITD의 평균이 제로가 아닐지라도, 스테레오 이미지는 협소해질 것이다. 또한 이 예에서, 방법(200)은 추출된 ITD의 안정성에 기초해서 포지티브 및 네거티브 ITD의 평균 중에서 하나의 ITD를 선택할 것이고, 이것은 음원 방향과 관련해서 더 나은 추정을 제공한다.
표준 편차는 파라미터의 안정성을 측정하는 방법이다. 표준 편차가 작으면, 추정된 파라미터는 더 안정적이고 신뢰할 만하다. 포지티브 및 네거티브 ITD의 표준 편차를 사용하는 목적은 어느 것을 더 신뢰할 수 있는지를 알기 위한 것이다. 그리고 신뢰할 수 있는 하나를 최종 출력 IPD로서 선택한다. 극단적 차이(extremism difference)와 같은 다른 유사한 파라미터 역시 ITD의 안정성을 검사하는 데 사용될 수 있다. 그러므로 표준 편차는 여기서 선택 사항이다.
추가의 실시 형태에서, IPD와 ITD 간의 직접 관계가 존재할 때 네거티브 및 포지티브 카운트를 IPD에 대해 직접적으로 수행한다. 그런 다음 결정 프로세스가 네거티브 및 포지티브 IPD 평균에 대해 직접적으로 수행된다.
도 1 및 도 2에 설명된 바와 같은 방법(100, 200)은 ITU-T G.722, G.722 Annex B, G.711.1 및/또는 G.711.1 Annex D의 스테레오 확장판의 인코더에 적용될 수 있다. 또한, 설명된 방법은 또한 3GGP EVS(Enhanced Voice Services) 코덱에 정의된 바와 같은 이동 애플리케이션용 스피치 및 오디오 인코더에 적용될 수 있다.
도 3은 실시 형태에 따른 ITD 선택 알고리즘에 대한 개략도이다.
제1 단계(301)에서, 포지티브 ITD 값의 수(Nbpos)를 네거티브 ITD 값의 수(Nbneg)에 대해 검사한다. Nbpos가 Nbneg보다 크면, 단계(303)가 수행되고, Nbpos가 Nbneg보다 크지 않으면, 단계(305)가 수행된다.
단계(303)에서, 예를 들어 (ITDstd _ pos < ITDstd _ neg)∥(Nbpos >= A*Nbneg)에 따라, 포지티브 ITD의 표준 편차(ITDstd _ pos)를 네거티브 ITD의 표준 편차(ITDstd _ neg)에 대해 검사하고, 포지티브 ITD 값의 수(Nbpos)를 제1 인자(A)에 의해 승산된 네거티브 ITD 값의 수(Nbneg)에 대해 검사한다. ITDstd _ pos < ITDstd _ neg 또는 Nbpos > A*Nbneg 이면, ITD는 단계(307)에서 포지티브 ITD의 평균으로서 선택된다. 그렇지 않으면, 포지티브 ITD와 네거티브 ITD의 관계는 단계(309)에서 추가로 검사될 것이다.
단계(309)에서, 네거티브 ITD의 표준 편차(ITDstd _ neg)는 예를 들어 (ITDstd _ neg < B*ITDstd _ pos)에 따라 제2 인자(B)가 승산된 포지티브 ITD의 표준 편차(ITDstd _ pos)에 대해 검사되고, 네거티브 ITD의 포지티브 값은 단계(315)에서 출력 ITD로서 선택될 것이다. 그렇지 않으면, 이전의 프레임(Pre_itd) 중에서의 ITD가 단계(317)에서 검사된다.
단계(317)에서, 이전의 프레임 중에서의 ITD가 "Pre_itd > 0"에 따라 제로보다 큰지가 검사되고, Pre_itd > 0 이면, 출력 ITD는 단계(323)에서 포지티브 ITD의 평균으로 선택되며, 그렇지 않으면, 출력 ITD는 단계(325)에서 네거티브 ITD 평균의 반대 값이다.
단계(305)에서, 네거티브 ITD의 표준 편차(ITDstd _ neg)는 포지티브 ITD의 표준 편차(ITDstd _ pos)에 대해 검사되고, 네거티브 ITD 값의 수(Nbneg)는 예를 들어 (ITDstd_neg < ITDstd _ pos)∥(Nbneg >= A*Nbpos)에 따라, 제1 인자(A)가 승산된 포지티브 ITD 값의 수(Nbpos)에 대해 검사된다. ITDstd _ neg < ITDstd _ pos 또는 Nbneg > A*Nbpos 이면, ITD는 단계(311)에서 네거티브 ITD의 평균으로 선택된다. 그렇지 않으면, 네거티브와 포지티브 ITD 간의 관계는 단계(313)에서 더 검사된다.
단계(313)에서, 포지티브 ITD의 표준 편차(ITDstd _ pos)는 예를 들어 (ITDstd _ pos < B*ITDstd _ neg)에 따라 제2 인자(B)가 승산된 네거티브 ITD의 표준 편차(ITDstd _ neg)에 대해 검사된다. ITDstd _ pos < B*ITDstd _ neg 이면, 포지티브 ITD 평균의 반대 값은 단계(319)에서 출력 ITD로서 선택될 것이다. 그렇지 않으면, 이전의 프레임(Pre_itd) 중에서의 ITD가 단계(321)에서 검사된다.
단계(321)에서, 이전의 프레임 중에서의 ITD가 "Pre_itd > 0"에 따라 제로보다 큰지가 검사된다. Pre_itd > 0 이면, 출력 ITD는 단계(327)에서 네거티브 ITD의 평균으로 선택되며, 그렇지 않으면, 출력 ITD는 단계(329)에서 포지티브 ITD 평균의 반대 값이다.
도 4는 실시 형태에 따른 파라메트릭 오디오 인코더(400)에 대한 블록도이다. 파라메트릭 오디오 인코더(400)는 멀티채널 오디오 신호(401)를 입력 신호로서 수신하고 비트스트림을 출력 신호(403)로서 제공한다. 파라메트릭 오디오 인코더(400)는 인코딩 파라미터(415)를 생성하기 위해 멀티채널 오디오 신호(401)에 결합되어 있는 파라미터 생성기(405), 다운믹스 신호(411) 또는 합산 신호를 생성하기 위해 멀티채널 오디오 신호(401)에 결합되어 있는 다운믹스 신호 생성기(407), 다운믹스 신호(411)를 인코딩하여 인코딩된 오디오 신호(413)를 제공하기 위해 다운믹스 신호 생성기(407)에 결합되어 있는 오디오 인코더(409), 및 인코딩 파라미터(415) 및 인코딩된 신호(413)로부터 비트스트림(403)을 형성하기 위해 파라미터 생성기(405) 및 오디오 인코더(409)에 결합되어 있는 비트스트림 형성기를 포함한다.
파라메트릭 오디오 인코더(400)는 스테레오 및 멀티채널 오디오 신호를 위해 오디오 신호 방식을 수행하는 데, 이것은 하나의 싱글 오디오 채널만을 전송하는 데, 예를 들어, 입력 오디오 채널의 다운믹스 레프리젠테이션 및 오디오 채널(x1, x2, ..., xM) 간의 "지각적으로 관련된 차이"를 설명하는 파라미터를 전송한다. 코딩 방식은 바이너럴 큐가 중요한 역을 담당하기 때문에 바이너럴 큐 코딩(BCC)에 따른다. 도면에 나타난 바와 같이, 입력 오디오 채널(x1, x2, ..., xM)은 하나의 싱글 오디오 채널(411)로 다운믹스되고, 합산 신호로 표시된다.
오디오 채널(x1, x2, ..., xM) 간의 "지각적으로 관련된 차이"로서, 인코딩 파라미터(415), 예를 들어 인터 채널 시간차(ICTD), 인터 채널 레벨 차이(ICLD), 및/또는 인터 채널 코히어런스(ICC)는 주파수와 시간의 함수로서 추정되고 도 5에 설명되어 있는 디코더(500)에 측 정보로서 전송한다.
BCC를 실행하는 파라미터 생성기(405)는 특정한 시간 및 주파수 분해능을 가진 멀티채널 오디오 신호(401)를 처리한다. 사용되는 주파수 분해능은 청각 계통의 주파수 분해능에 의해 크게 자극받는다. 음향 심리학은 공간 지각은 대부분 음향 입력 신호의 임계 대역 레프리젠테이션에 기초할 가능성이 있다고 한다. 이 주파수 분해능은 대역폭이 청각 계통의 임계 대역폭과 같거나 비례하는 서브대역을 가지는 가역 필터-뱅크를 사용함으로써 고려된다. 전송된 합산 신호(411)가 멀티채널 오디오 신호(401)의 모든 신호 구성요소를 포함하는 것이 중요하다. 각각의 신호 구성요소가 완전하게 유지되는 것이 목표이다. 멀티채널 오디오 신호(401)의 오디오 입력 채널(x1, x2, ..., xM)의 간단한 합산으로 신호 구성요소가 증폭 또는 감쇄하게 된다. 환언하면, "간단한" 합산에서의 신호 구성요소의 파워는 종종 각각의 채널(x1, x2, ..., xM)의 대응하는 신호 구성요소의 파워의 합보다 크거나 작다. 그러므로 다운믹싱 기술은 다운믹싱 장치(407)를 적용함으로써 사용되는 데, 이 장치는 합산 신호(411) 내의 신호 구성요소의 파워가 멀티채널 오디오 신호(401)의 모든 입력 오디오 채널(x1, x2, ..., xM)에서의 대응하는 파워와 거의 동일하게 되도록 이 합산 신호(411)에 대해 이퀄라이징을 수행한다. 입력 오디오 채널(x1, x2, ..., xM)은 서브대역의 수로 분해된다. 하나의 이러한 서브대역은 X1[b]로 표시된다(표시의 간략화를 위해 서브대역 인덱스는 사용되지 않는다는 것에 유의하라). 간단한 프로세싱은 모든 서브대역에 독립적으로 적용되고, 통상적으로 서브대역 신호가 다운샘플링된다. 각각의 입력 채널의 각각의 서브대역의 신호가 부가된 다음 파워 정상화 인자(power normalization factor)로 승산된다.
합산 신호(411)가 주어지면, 스테레오 또는 멀티채널 오디오 신호(415)를 합성하여 ICTD, ICLD, 및/또는 ICC가 원래의 멀티채널 오디오 신호(401)의 대응하는 큐가 근접하게 한다.
하나의 음원의 바이너럴 실내 임펄스 응답(BRIR)을 감안할 때, 청각 이벤트 및 청취자 개발의 폭과 바이너럴 실내 임펄스 응답의 이른 부분 및 늦은 부분에 대한 추정된 IC 간에는 관계가 있다. 그렇지만, IC 또는 ICC와 일반적인 신호 및 BRIR가 아닌 부분에 대한 이러한 속성 간의 관계는 단순히 간단하게 아니다. 스테레오 및 멀티채널 오디오 신호는 통상적으로 동시에 발생하는 능동 음원 신호의 복소 믹스를 포함하는 데, 이러한 능동 음원 신호는 밀폐된 공간에서 레코딩함으로써 생기거나 공간적 감명을 인위적으로 만들기 위해 레코딩 엔지니어가 부가한 반사된 신호 구성요소에 의해 중첩된다. 상이한 음원 신호 및 그 반사성은 시간-주파수 플레인에서 상이한 영역을 점유한다. 이것은 ICTD, ICLD, 및 ICC에 의해 반사되고 이것은 시간 및 주파수의 함수로서 가변한다. 이 경우, 순간적인 ICLD, ICLD, 및 ICC 및 청각 이벤트 및 공간적 감명 간의 관계는 분명하지 않다. 파라미터 생성기(405)의 전략은 이러한 큐를 맹목적으로 합성하여 원래의 오디오 신호의 대응하는 큐에 근접하도록 하는 것이다.
실시 형태에서, 파라메트릭 오디오 인코더(400)는 대역폭의 서브대역이 등가의 직교 대역폭과 같거나 2배인 필터-뱅크를 사용한다. 비공식적 청취에서 BCC의 오디오 품질은 높은 주파수 분해능을 선택할 때 현저하게 개선되지 않았다는 것을 밝혀졌다. 저주파 분해능을 선호하는데 이유는 디코더에 전송하는 데 필요한 ICTD, ICLD, 및 ICC 값이 떨어져서 비트레이트가 낮아지기 때문이다. 시간 분해능과 관련해서, ICTD, ICLD, 및 ICC는 규칙적 시간 간격에서 고려된다. 실시 형태에서, ICTD, ICLD, 및 ICC는 약 4-16ms마다 고려된다. 큐가 단시간 간격으로 고려되지 않으면, 선행 효과가 직접적으로 고려되지 않는다는 것에 유의하라.
기준 신호와 합성된 신호 간의 흔하게 달성된 지각적으로 작은 차이는 청각의 공간 이미지 속성의 넓은 범위와 관련된 큐가 일정한 시간 간격으로 ICTD, ICLD, 및 ICC를 합성함으로써 암시적으로 고려된다는 것을 의미한다. 이러한 공간 큐의 전송에 필요한 비트레이트는 단지 수 kb/s이며 따라서 파라메트릭 오디오 인코더(400)는 싱글 오디오 채널에 필요한 것에 근접한 비트레이트에서 스테레오 및 멀티채널 오디오 신호를 전송할 수 있다. 도 1 및 도 2는 ICTD가 인코딩 파라미터(415)로서 추정되는 방법을 도시하고 있다.
파라메트릭 오디오 인코더(400)는 멀티채널 오디오 신호(401)의 오디오 채널 신호 중 적어도 2개의 신호가 중첩되어 다운믹스 신호(411)를 획득하는 다운믹스 신호 생성기(407), 다운믹스 신호(411)를 인코딩하여 인코딩된 오디오 신호(413)를 획득하는 오디오 인코더(409), 특히 모노 인코더, 및 인코딩된 오디오 신호(413)를 대응하는 인코딩 파라미터(415)와 결합하는 결합기(417)를 포함한다.
파라메트릭 오디오 인코더(400)는 멀티채널 오디오 신호(401)의 (x1, x2, ..., xM)으로 표시된 복수의 오디오 채널 신호 중 하나의 오디오 채널 신호에 대해 인코딩 파라미터(415)를 생성한다. 각각의 오디오 채널 신호(x1, x2, ..., xM)는 x1[n], x2[n], ..., xM[n]으로 표시된 디지털 오디오 신호 값을 포함하는 디지털 신호일 수 있다.
파라메트릭 오디오 인코더(400)가 인코딩 파라미터(415)를 생성하는 예시적 오디오 채널 신호는 신호 값 x1[n]을 가지는 제1 오디오 채널 신호이다. 파라미터 생성기(405)는 제1 오디오 신호(x1)의 오디오 채널 신호 값(x1[n]) 및 제2 오디오 신호(x2)의 기준 오디오 신호 값(x2[n])으로부터 인코딩 파라미터(ITD)를 결정한다.
기준 오디오 신호로서 사용되는 오디오 채널 신호는 예를 들어 제2 오디오 채널 신호(x2)이다. 마찬가지로 오디오 채널 신호(x1, x2, ..., xM) 중 임의의 다른 하나가 기준 오디오 신호의 역할을 할 수도 있다. 제1 관점에 따르면, 기준 오디오 신호는 인코딩 파라미터(415)가 생성되는 오디오 채널 신호(x1)와 같지 않은 오디오 채널 신호 중 다른 오디오 채널 신호이다. 제2 관점에 따르면, 기준 오디오 신호는 복수의 멀티채널 오디오 신호(401) 중 적어도 2개의 오디오 채널로부터 유도된, 예를 들어, 제1 오디오 채널 신호(x1) 및 제2 오디오 채널 신호(x2)로부터 유도된 다운믹스 오디오 신호이다. 실시 형태에서, 기준 오디오 신호는 다운믹스 신호(411)이고 다운믹싱 장치(407)에 의해 생성되는 합산 신호라고도 한다. 실시 형태에서, 기준 오디오 신호는 인코더(409)에서 제공하는 인코딩된 신호(413)이다.
파라미터 생성기(405)가 사용하는 예시적 기준 오디오 신호는 신호 값 x2[n]을 가지는 제2 오디오 채널 신호(x2)이다.
파라미터 생성기(405)는 오디오 채널 신호(x1)의 오디오 채널 신호 값(x1[n])의 주파수 변환 및 기준 오디오 신호(x1)의 기준 오디오 신호 값(x1[n])의 주파수 변환을 결정한다. 기준 오디오 신호는 복수의 오디오 채널 신호 중 다른 오디오 채널 신호(x2) 또는 복수의 오디오 채널 신호 중 적어도 2개의 오디오 채널 신호(x1, x2)로부터 유도된 다운믹스 오디오 신호이다. 파라미터 생성기(405)는 주파수 대역의 서브세트의 적어도 각각의 주파수 서브대역에 대한 인터 채널 차이를 결정한다. 각각의 인터 채널 차이는 상기 인터 채널 차이가 연관되어 있는 각각의 주파수 서브대역에서 오디오 채널 신호의 대역 제한 신호 부분과 기준 오디오 신호의 대역 제한 신호 부분 간의 위상차(IPD[b]) 또는 시간차(ITD[b])를 나타낸다.
파라미터 생성기(405)는 인터 채널 차이(IPD[b], ITD[b])의 포지티브 값에 기초해서 제1 평균(ITDmean _ pos)을 결정하고 인터 채널 차이(IPD[b], ITD[b])의 네거티브 값에 기초해서 제2 평균(ITDmean _ neg)을 결정한다. 파라미터 생성기(405)는 상기 제1 평균 및 상기 제2 평균에 기초해서 상기 인코딩 파라미터(ITD)를 결정한다.
인터 채널 위상차(ICPD)는 신호 쌍 간의 평균 위상차이다. 인터 채널 레벨 차이(ICLD)는 청각 간 레벨 차이(ILD), 즉 좌우 귀 인입 신호 간의 레벨 차이와 동일하지만, 임의의 신호 쌍 간에서, 예를 들어, 라우드스피커 신호 쌍, 귀 인입 신호 쌍 간에서 더 일반적으로 정의된다. 인터 채널 코히어런스 또는 인터 채널 상관은 청각 간 코히어런스(IC), 즉 좌우 귀 인입 신호 간의 유사도와 동일하지만, 임의의 신호 쌍 간에서, 예를 들어, 라우드스피커 신호 쌍, 귀 인입 신호 쌍 간에서 더 일반적으로 정의된다. 인터 채널 시간차(ICTD)는 청각 간 시간차(ITD)와 동일하며, 때때로 청각 간 시간 지연이라고도 하며, 즉 좌우 귀 인입 신호 간의 시간차라고도 하며, 임의의 신호 쌍 간에서, 예를 들어, 라우드스피커 신호 쌍, 귀 인입 신호 쌍 간에서 더 일반적으로 정의된다. 서브대역 인터 채널 레벨 차이, 서브대역 인터 채널 차이, 서브대역 인터 채널 코히어런스 및 서브대역 인터 채널 강도 차이는 서브대역 대역폭과 관련해서 위에서 특정한 파라미터와 관련되어 있다.
제1 단계에서, 파라미터 생성기(405)는 시간-도메인 입력 채널, 예를 들어, 제1 입력 채널(x1)에 대한 시간 주파수 변환 및 시간-도메인 기준 채널, 예를 들어, 제2 입력 채널(x2)에 대한 시간 주파수 변환을 적용한다. 스테레오의 경우, 좌우 채널이 있다. 양호한 실시예에서, 시간 주파수 변환은 고속 푸리에 변환(Fast Fourier Transform: FFT) 또는 단기간 푸리에 변환(Short Term Fourier Transform: STFT)이다. 대안의 실시예에서, 시간 주파수 변환은 코사인 변조 필터 뱅크 또는 복소 필터 뱅크이다.
제2 단계에서, 파라미터 생성기(405)는 FFT의 각각의 주파수 빈[b]에 대해 교차 상관을 다음과 같이 계산한다:
Figure 112014102183925-pct00024
여기서 c[b]는 주파수 빈[b]의 교차 상관이고 x1[b] 및 x2[b]는 2 채널의 FFT 계수이다. *는 켤레 복소수를 나타낸다. 이 경우에, 서브대역 b는 하나의 주파수 빈[k]에 직접적으로 대응하고, 주파수 빈[b] 및 [k]는 정확하게 동일한 주파수 빈을 나타낸다.
대안으로, 파라미터 생성기(405)는 다음과 같이 서브대역[k]마다 교차 상관을 계산한다:
Figure 112014102183925-pct00025
여기서 c[b]는 주파수 빈[b]의 교차 상관이고 x1[k] 및 x2[k]는 2 채널의 FFT 계수이며, 예를 들어, 스테레오의 경우 좌측 채널 및 우측 채널이다. *는 켤레 복소수를 나타낸다. kb는 서브대역[b]의 시작 빈이다.
교차 상관은 평활화 버전일 수 있으며, 이것은 다음 식에 의해 계산된다:
csm[b,i]=SMW1*csm[b,i-1]+(1-SMW1)*c[b]
여기서 SMW1은 활성 인자이다. i는 프레임 인덱스이다.
인터 채널 위상차(IPD)는 교차 스펙트럼에 기초하여 서브대역마다 다음과 같이 계산된다:
IPD[b] = ∠c[b]
여기서 연산 ∠는 c[b]의 각도를 계산하기 위한 논증 연산자(argrment operator)이다. 교차 상관의 평활화의 경우, csm[b,i]는 다음과 같이 IPD 계산을 위해 사용된다는 것에 유의해야 한다:
IPD[b] = ∠csm[b,i]
제3 단계에서, 파라미터 생성기(405)는 각각의 주파수 빈(또는 서브대역)의 IPD를 IPD에 기초하여 계산한다.
Figure 112014102183925-pct00026
여기서 N은 FFT 빈의 수이다.
제4 단계에서, 파라미터 생성기(405)는 IPD의 포지티브 및 네거티브 값의 카운트를 수행한다. 포지티브 및 네거티브 IPD의 평균 및 표준 편차는 다음과 같이 ITD의 부호에 기초한다:
Figure 112014102183925-pct00027
여기서
Figure 112014102183925-pct00028
Figure 112014102183925-pct00029
여기서
Figure 112014102183925-pct00030
Figure 112014102183925-pct00031
여기서
Figure 112014102183925-pct00032
Figure 112014102183925-pct00033
여기서
Figure 112014102183925-pct00034
여기서 Nbpos 및 Nbneg는 각각 포지티브 및 네거티브 ITD의 수이다. M은 추출되는 ITD의 총 수이다.
제5 단계에서, 파라미터 생성기(405)는 평균 및 표준 편차에 기초해서 포지티브 및 네거티브 ITD 중에서 ITD를 선택한다. 선택 알고리즘은 도 3에 도시되어 있다.
실시 형태에서, 파라미터 생성기(405)는:
오디오 채널 신호(x1)의 오디오 채널 신호 값(x1[n])의 주파수 변환(X1[k])을 결정하고 기준 오디오 신호(x2)의 기준 오디오 신호 값(x2[n])의 주파수 변환(X2[k])을 결정하는, 푸리에 변환기와 같은 주파수 변환기 - 상기 기준 오디오 신호는 상기 복수의 오디오 채널 신호 중 다른 오디오 채널 신호(x2) 또는 상기 복수의 오디오 채널 신호 중 적어도 2개의 오디오 채널 신호(x1, x2)로부터 유도된 다운믹스 오디오 신호임 - ;
주파수 서브대역의 서브세트의 적어도 각각의 주파수 서브대역(b)에 대한 인터 채널 차이(IPD[b], ITD[b])를 결정하는 인터 채널 차이 결정자 - 각각의 인터 채널 차이는 상기 인터 채널 차이가 연관되어 있는 각각의 주파수 서브대역(b)에서 상기 오디오 채널 신호의 대역 제한 신호 부분과 상기 기준 오디오 신호의 대역 제한 신호 부분 간의 위상차(IPD[b]) 또는 시간차(ITD[b])를 나타냄 - ;
상기 인터 채널 차이(IPD[b], ITD[b])의 포지티브 값에 기초해서 제1 평균(ITDmean _ pos)을 결정하고 상기 인터 채널 차이(IPD[b], ITD[b])의 네거티브 값에 기초해서 제2 평균(ITDmean _ neg)을 결정하는 평균 결정자; 및
상기 제1 평균 및 상기 제2 평균에 기초해서 상기 인코딩 파라미터(ITD)를 결정하는 인코딩 파라미터 결정자
를 포함한다.
도 5는 실시 형태에 따른 파라메트릭 오디오 디코더(500)에 대한 블록도이다. 파라메트릭 오디오 디코더(500)는 통신 채널을 통해 전송되는 비트스트림(503)을 입력 신호로서 수신하고 디코딩된 멀티채널 오디오 신호(501)를 출력 신호로서 제공한다. 파라메트릭 오디오 디코더(500)는 비트스트림(503)에 결합되어 이 비트스트림(503)을 인코딩 파라미터(515) 및 인코딩된 신호(513)로 디코딩하는 비트스트림 디코더(517), 비트스트림 디코더(517)에 결합되어 인코딩된 신호(513)로부터 합산 신호(511)를 생성하는 디코더(509), 비트스트림 디코더(517)에 결합되어 인코딩된 파라미터(515)로부터 파라미터(521)를 리졸빙하는 파라미터 리졸버(505), 및 파라미터 리졸버(505) 및 디코더(509)에 결합되어 파라미터(521) 및 합산 신호(511)로부터 그 디코딩된 멀티채널 오디오 신호(501)를 합성하는 합성기(505)를 포함한다.
파라메트릭 오디오 디코더(500)는 채널 간의 ICTD, ICLD, 및/또는 ICC가 원래의 멀티채널 오디오 신호의 ICTD, ICLD, 및/또는 ICC에 근접하도록 그 멀티채널 오디오 신호(501)의 출력 채널을 생성한다. 설명된 방식은 모노 오디오 신호를 나타내는 데 필요한 비트레이트보다 약간 더 높은 비트레이트에서 멀티채널 오디오 신호를 나타낼 수 있다. 이것은 채널 쌍 간의 ICTD, ICLD, 및/또는 ICC가 오디오 파형보다 약 2배의 크기에 못 미치는 정보를 포함하기 때문에 그러하다. 낮은 비트레이트뿐만 아니라 하위호환성 관점도 관심의 대상이 된다. 추정된 합산 신호는 스테레오 또는 멀티채널 신호의 모노 다운믹스에 대응한다.
도 6은 실시 형태에 따른 파라메트릭 스테레오 오디오 인코더(601) 및 디코더(603)에 대한 블록도이다. 파라메트릭 스테레오 오디오 인코더(601)는 도 4와 관련해서 설명된 바와 같은 파라메트릭 오디오 인코더(400)에 대응하지만, 멀티채널 오디오 신호(401)는 좌우 오디오 채널(605, 607)이 있는 스테레오 오디오이다.
파라메트릭 스테레오 오디오 인코더(601)는 스테레오 오디오 신호(605, 607)를 입력 신호로서 수신하고 비트스트림을 출력 신호로서 제공한다. 파라메트릭 스테레오 오디오 인코더(601)는 스테레오 오디오 신호(605, 607)에 결합되어 공간 파라미터(613)를 생성하는 파라미터 생성기(611), 스테레오 오디오 신호(605, 607)에 결합되어 다운믹스 신호(617) 또는 합산 신호를 생성하는 다운믹스 신호 생성기(615), 다운믹스 신호 생성기(615)에 결합되어 다운믹스 신호(617)를 인코딩하고 인코딩된 오디오 신호(621)를 제공하는 모노 인코더(619), 및 파라미터 생성기(611) 및 모노 인코더(619)에 결합되어 인코딩 파라미터(613)와 인코딩된 오디오 신호(621)를 비트스트림에 결합하여 출력 신호(609)를 제공하는 비트스트림 결합자(623)를 포함한다. 파라미터 생성기(611)에서, 공간 파라미터(613)는 비트스트림으로 다중화되기 전에 추출되고 양자화된다.
파라메트릭 스테레오 오디오 디코더(603)는 통신 채널을 통해 전송되는 비트스트림, 즉 파라메트릭 스테레오 오디오 인코더(601)의 출력 신호(609)를 입력 신호로서 수신하고 좌측 채널(625) 및 우측 채널(627)을 가지는 디코딩된 스테레오 오디오 신호를 출력 신호로서 제공한다. 파라메트릭 스테레오 오디오 디코더(603)는 수신된 비트스트림(609)에 결합되어 이 비트스트림(609)을 인코딩 파라미터(631) 및 인코딩된 신호(633)를 디코딩하는 비트스트림 디코더(629), 비트스트림 디코더(629)에 결합되어 인코딩된 신호(633)로부터 합산 신호(637)를 생성하는 모노 디코더(635), 비트스트림 디코더(629)에 결합되어 인코딩 파라미터(631)로부터 공간 파라미터(641)를 리졸빙하는 공간 파라미터 리졸버(639), 및 공간 파라미터 리졸버(639) 및 모노 디코더(635)에 결합되어 공간 파라미터(641) 및 합산 신호(637)로부터 디코딩된 스테레오 오디오 신호(625, 627)를 합성하는 합성기(643)를 포함한다.
파라메트릭 스테레오 오디오 디코더(603)에서의 프로세싱은 지연을 유도하고 시간 및 주파수 내의 오디오 신호의 레벨을 적응적으로 수정하여 공간 파라미터(631), 예를 들어, 인터 채널 시간차(ICTD) 및 인터 채널 레벨 차이(ICLD)를 생성한다. 또한, 파라메트릭 스테레오 오디오 디코더(603)는 인터 채널 코히어런스(ICC) 합성에 대해 시간 적응 필터링을 적응적으로 수행한다. 실시 형태에서, 파라메트릭 스테레오 인코더는 단기간 푸리에 변환(Short Term Fourier Transform: STFT) 기반의 필터-뱅크를 사용하여 계산 복잡도가 낮게 해서 바이너럴 큐 코딩(BCC) 방식을 효과적으로 실시한다. 파라메트릭 스테레오 오디오 인코더(601)에서의 프로세싱은 계산 복잡도 및 지연이 낮으며, 실시간 애플리케이션에서 마이크로프로세서 또는 디지털 신호 프로세서에 대해 가용의 실시예에 적절한 파라메트릭 스테레오 오디오 코딩을 만든다.
도 6에 도시된 파라미터 생성기(611)는 도 4와 관련해서 설명된 대응하는 파라미터 생성기(405)와 기능적으로 동일하되, 공간 큐의 양자화 및 코딩이 추가되었다는 점이 다르다. 합산 신호(617)는 종래의 모노 오디오 코더(619)로 코딩된다. 실시 형태에서, 파라메트릭 스테레오 오디오 인코더(601)는 STFT 기반의 시간-주파수 변환을 사용하여 스테레오 오디오 채널 신호(605, 607)를 변환한다. STFT는 이산 푸리에 변환(DFT)을 입력 신호(x(n))의 윈도윙된 부분에 적용한다. N개의 샘플의 신호 프레임은 N-포인트 DFT가 적용되기 전에 길이 W의 윈도우로 승산된다. 인접하는 윈도우는 중첩되고 W/2 샘플만큼 시프트된다. 윈도우는 중첩하는 윈도우가 상수값 1까지 더해지도록 선택된다. 그러므로 역변환에 있어서 윈도윙을 추가하지 않아도 된다. 디코더(603)에서는 W/2 샘플의 연속하는 프레임의 시간 앞당김이 있는 크기 N의 플레인 인버스 DFT가 사용된다. 스펙트럼이 수정되지 않으면, 중첩/가산에 의해 완전한 재구성이 달성된다.
STFT의 일정한 스펙트럼 분해능은 사람의 지각에 잘 적용되지 않기 때문에, STFT의 공간적으로 일정하게 떨어져 있는 스펙트럼 계수 출력을, 대역폭이 지각에 더 잘 적용되는 B개의 비중첩 부분들을 그룹화한다. 한 부분은 도 4와 관련해서 설명에 따라 하나의 "서브대역"에 개념적으로 대응한다. 대안의 실시 형태에서, 파라메트릭 스테레오 오디오 인코더(601)는 일정하지 않은 필터-뱅크를 사용하여 주파수 도메인에서 스테레오 오디오 채널 신호(605, 607)를 변환한다.
실시 형태에서, 다운믹서(315)는 이퀄라이징된 합산 신호 Sm(k)의 하나의 부분 b 또는 하나의 서브대역 b의 스펙트럼 계수를 다음과 같이 결정되며,
Figure 112014102183925-pct00035
여기서 Xc ,m(k)는 입력 오디오 채널(605, 607)의 스펙트럼이고 eb(k)는 이득 계수이고 다음과 같이 계산되고,
Figure 112014102183925-pct00036
다음과 같은 부분 파워 추정을 가진다.
Figure 112014102183925-pct00037
서브대역 신호의 합의 감쇄가 상당할 때 결점이 큰 이득 인자에서 생기지 않도록 하기 위해, 이득 인자 eb(k)는 6 dB로 제한되며, 즉 eb(k)≤2이다.
전술한 바로부터, 다양한 방법, 시스템, 레코딩 매체 상의 컴퓨터 프로그램 등이 제공된다는 것은 당업자에게는 자명할 것이다.
본 발명은 또한, 적어도 하나의 컴퓨터에서 실행될 때, 적어도 하나의 컴퓨터가 여기서 설명된 수행 및 계산 단계를 실행하게 하는 컴퓨터 실행 가능형 코드 또는 컴퓨터 실행 가능형 명령을 포함하는 컴퓨터 프로그램 제품을 지원한다. 본 발명은 또한 여기서 설명된 수행 및 계산 단계를 실행하도록 구성된 시스템을 지원한다.
많은 대안, 수정, 및 변형은 전술한 지침과 관련해서 당업자에게는 자명할 것이다. 물론, 당업자라면 여기에 설명된 것을 넘어서는 본 발명의 수많은 애플리케이션이 있다는 것을 이해할 수 있을 것이다. 본 발명을 하나 이상의 특별한 실시예를 참조하여 설명하였지만, 당업자라면 본 발명의 정신 및 범위를 벗어남이 없이 이러한 실시예에 대해 많은 변형이 이루어질 수 있다는 것을 이해할 수 있을 것이다. 그러므로 첨부된 특허청구범위 및 그 등가물의 범위 내에서, 본 발명은 여기서 구체적으로 설명된 것과는 다르게 실시될 수도 있다는 것은 물론이다.

Claims (15)

  1. 멀티채널 오디오 신호의 복수의 오디오 채널 신호(x1, x2) 중 오디오 채널 신호(x1)에 대한 인코딩 파라미터(ITD) 결정 방법(100)에 있어서,
    각각의 오디오 채널 신호(x1, x2)는 오디오 채널 신호 값(x1[n], x2[n])을 가지며, 상기 방법은,
    상기 오디오 채널 신호(x1)의 오디오 채널 신호 값(x1[n])의 주파수 변환(X1[k])을 결정하는 단계(101);
    기준 오디오 신호(x2)의 기준 오디오 신호 값(x2[n])의 주파수 변환(X2[k])을 결정하는 단계(103) - 상기 기준 오디오 신호는 상기 복수의 오디오 채널 신호 중 다른 오디오 채널 신호(x2) 또는 상기 복수의 오디오 채널 신호 중 적어도 2개의 오디오 채널 신호(x1, x2)로부터 유도된 다운믹스 오디오 신호임 - ;
    주파수 서브대역의 서브세트의 적어도 각각의 주파수 서브대역(b)에 대한 인터 채널 차이(ICD[b])를 결정하는 단계(105) - 각각의 인터 채널 차이는 상기 인터 채널 차이가 연관되어 있는 각각의 주파수 서브대역(b)에서 상기 오디오 채널 신호의 대역 제한 신호 부분과 상기 기준 오디오 신호의 대역 제한 신호 부분 간의 위상차(IPD[b]) 또는 시간차(ITD[b])를 나타냄 - ;
    상기 인터 채널 차이(ICD[b])의 포지티브 값에 기초해서 제1 평균(ITDmean _ pos)을 결정하고 상기 인터 채널 차이(ICD[b])의 네거티브 값에 기초해서 제2 평균(ITDmean _ neg)을 결정하는 단계(107); 및
    상기 제1 평균 및 상기 제2 평균에 기초해서 상기 인코딩 파라미터(ITD)를 결정하는 단계(109)
    를 포함하는 인코딩 파라미터 결정 방법.
  2. 제1항에 있어서,
    상기 인터 채널 차이(ICD[b])는 인터 채널 위상차(IPD[b]) 또는 인터 채널 시간차(ITD[b])인, 인코딩 파라미터 결정 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 인터 채널 차이(ICD[b])의 포지티브 값에 기초해서 제1 표준 편차(ITDstd _ pos)를 결정하고 상기 인터 채널 차이(ICD[b])의 네거티브 값에 기초해서 제2 표준 편차(ITDstd _ neg)를 결정하는 단계
    를 더 포함하며,
    상기 인코딩 파라미터(ITD)를 결정하는 단계는 상기 제1 표준 편차 및 상기 제2 표준 편차에 기초하는, 인코딩 파라미터 결정 방법.
  4. 제1항에 있어서,
    주파수 서브대역은 하나 또는 복수의 주파수 빈(frequency bin)(k)을 포함하는, 인코딩 파라미터 결정 방법.
  5. 제3항에 있어서,
    상기 주파수 서브대역의 서브세트의 적어도 각각의 주파수 서브대역(b)에 대한 인터 채널 차이(ICD[b])를 결정하는 단계(105)는,
    상기 오디오 채널 신호 값(x1[n])의 주파수 변환(X1[k]) 및 상기 기준 오디오 신호 값(x2[n])의 주파수 변환(X2[k])으로부터의 교차 상관으로서 교차 스펙트럼(c[k], c[b])을 결정하는 단계; 및
    상기 교차 스펙트럼(c[b])에 기초해서 각각의 주파수 서브대역[b]에 대한 인터 채널 위상차(IPD[b])를 결정하는 단계
    를 포함하는, 인코딩 파라미터 결정 방법.
  6. 제5항에 있어서,
    주파수 빈(b)의 또는 주파수 서브대역(b)의 인터 채널 위상차(IPD[b])는 상기 교차 스펙트럼(c[b])의 각도로서 결정되는, 인코딩 파라미터 결정 방법.
  7. 제5항에 있어서,
    상기 인터 채널 위상차(IPD[b])에 기초해서 인터 채널 시간차(ITD[b])를 결정하는 단계
    를 더 포함하며,
    상기 제1 평균(ITDmean_pos)을 결정하는 단계는 상기 인터 채널 시간차(ITD[b])의 포지티브 값에 기초하고 상기 제2 평균(ITDmean_neg)을 결정하는 단계는 상기 인터 채널 시간차(ITD[b])의 네거티브 값에 기초하는, 인코딩 파라미터 결정 방법.
  8. 제6항에 있어서,
    주파수 서브대역(b)의 상기 인터 채널 시간차(ITD[b])는 상기 인터 채널 위상차(IPD[b])의 함수로서 결정되며,
    상기 함수는 주파수 빈의 수(N)에 의존하고 주파수 빈(k) 또는 주파수 서브대역(b) 인덱스에 의존하는, 인코딩 파라미터 결정 방법.
  9. 제7항에 있어서,
    상기 인코딩 파라미터(ITD)를 결정하는 단계(109)는,
    상기 주파수 서브대역(b)의 서브세트에 포함되어 있는 주파수 서브대역(b)의 수(M)에 대해 포지티브 인터 채널 시간차(ITD[b])의 제1 수(Nbpos) 및 네거티브 인터 채널 시간차(ITD[b])의 제2 수(Nbneg)를 카운트하는 단계
    를 포함하는, 인코딩 파라미터 결정 방법.
  10. 제9항에 있어서,
    상기 인코딩 파라미터(ITD)는 상기 포지티브 인터 채널 시간차(ITD[b])의 제1 수(Nbpos)와 상기 네거티브 인터 채널 시간차(ITD[b])의 제2 수(Nbneg) 간의 비교에 기초해서 결정되는, 인코딩 파라미터 결정 방법.
  11. 제10항에 있어서,
    상기 인코딩 파라미터(ITD)는 상기 제1 표준 편차(ITDstd _ pos)와 상기 제2 표준 편차(ITDstd _ neg) 간의 비교에 기초해서 결정되는, 인코딩 파라미터 결정 방법.
  12. 제11항에 있어서,
    상기 인코딩 파라미터(ITD)는 상기 포지티브 인터 채널 시간차(ITD[b])의 제1 수(Nbpos)와 제1 인자(A)가 승산된 상기 네거티브 인터 채널 시간차(ITD[b])의 제2 수(Nbneg) 간의 비교에 기초해서 결정되는, 인코딩 파라미터 결정 방법.
  13. 제12항에 있어서,
    상기 인코딩 파라미터(ITD)는 상기 제1 표준 편차(ITDstd _ pos)와 제2 인자(B)가 승산된 상기 제2 표준 편차(ITDstd _ neg) 간의 비교에 기초해서 결정되는, 인코딩 파라미터 결정 방법.
  14. 멀티채널 오디오 신호의 복수의 오디오 채널 신호(x1, x2) 중 오디오 채널 신호(x1)에 대한 인코딩 파라미터(ITD)를 결정하는 멀티채널 오디오 인코더(400, 601)에 있어서,
    각각의 오디오 채널 신호(x1, x2)는 오디오 채널 신호 값(x1[n], x2[n])을 가지며, 상기 멀티채널 오디오 인코더는,
    상기 오디오 채널 신호(x1)의 오디오 채널 신호 값(x1[n])의 주파수 변환(X1[k])을 결정하고 기준 오디오 신호(x2)의 기준 오디오 신호 값(x2[n])의 주파수 변환(X2[k])을 결정하는, 푸리에 변환기와 같은 주파수 변환기 - 상기 기준 오디오 신호는 상기 복수의 오디오 채널 신호 중 다른 오디오 채널 신호(x2) 또는 상기 복수의 오디오 채널 신호 중 적어도 2개의 오디오 채널 신호(x1, x2)로부터 유도된 다운믹스 오디오 신호임 - ;
    주파수 서브대역의 서브세트의 적어도 각각의 주파수 서브대역(b)에 대한 인터 채널 차이(IPD[b], ITD[b])를 결정하는 인터 채널 차이 결정자 - 각각의 인터 채널 차이는 상기 인터 채널 차이가 연관되어 있는 각각의 주파수 서브대역(b)에서 상기 오디오 채널 신호의 대역 제한 신호 부분과 상기 기준 오디오 신호의 대역 제한 신호 부분 간의 위상차(IPD[b]) 또는 시간차(ITD[b])를 나타냄 - ;
    상기 인터 채널 차이(IPD[b], ITD[b])의 포지티브 값에 기초해서 제1 평균(ITDmean_pos)을 결정하고 상기 인터 채널 차이(IPD[b], ITD[b])의 네거티브 값에 기초해서 제2 평균(ITDmean_neg)을 결정하는 평균 결정자; 및
    상기 제1 평균 및 상기 제2 평균에 기초해서 상기 인코딩 파라미터(ITD)를 결정하는 인코딩 파라미터 결정자
    를 포함하는 멀티채널 오디오 인코더.
  15. 컴퓨터에서 실행될 때 프로그램 코드가 제1항의 방법(100)을 수행하는 프로그램을 저장하는 컴퓨터 판독 가능형 저장 매체.
KR1020147029982A 2012-04-05 2012-04-05 멀티채널 오디오 인코더 및 멀티채널 오디오 신호 인코딩 방법 KR101662681B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2012/056321 WO2013149671A1 (en) 2012-04-05 2012-04-05 Multi-channel audio encoder and method for encoding a multi-channel audio signal

Publications (2)

Publication Number Publication Date
KR20140140102A KR20140140102A (ko) 2014-12-08
KR101662681B1 true KR101662681B1 (ko) 2016-10-05

Family

ID=45937371

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147029982A KR101662681B1 (ko) 2012-04-05 2012-04-05 멀티채널 오디오 인코더 및 멀티채널 오디오 신호 인코딩 방법

Country Status (6)

Country Link
US (1) US9449603B2 (ko)
EP (1) EP2834813B1 (ko)
JP (1) JP6063555B2 (ko)
KR (1) KR101662681B1 (ko)
ES (1) ES2555579T3 (ko)
WO (1) WO2013149671A1 (ko)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6216553B2 (ja) * 2013-06-27 2017-10-18 クラリオン株式会社 伝搬遅延補正装置及び伝搬遅延補正方法
CN104681029B (zh) 2013-11-29 2018-06-05 华为技术有限公司 立体声相位参数的编码方法及装置
CN106033672B (zh) * 2015-03-09 2021-04-09 华为技术有限公司 确定声道间时间差参数的方法和装置
CN106033671B (zh) 2015-03-09 2020-11-06 华为技术有限公司 确定声道间时间差参数的方法和装置
ES2768052T3 (es) 2016-01-22 2020-06-19 Fraunhofer Ges Forschung Aparatos y procedimientos para codificar o decodificar una señal de audio multicanal usando sincronización de control de trama
AU2017229323B2 (en) * 2016-03-09 2020-01-16 Telefonaktiebolaget Lm Ericsson (Publ) A method and apparatus for increasing stability of an inter-channel time difference parameter
CN107452387B (zh) 2016-05-31 2019-11-12 华为技术有限公司 一种声道间相位差参数的提取方法及装置
CN107731238B (zh) * 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
CN107742521B (zh) * 2016-08-10 2021-08-13 华为技术有限公司 多声道信号的编码方法和编码器
US10224042B2 (en) * 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
US10217468B2 (en) * 2017-01-19 2019-02-26 Qualcomm Incorporated Coding of multiple audio signals
CN108877815B (zh) * 2017-05-16 2021-02-23 华为技术有限公司 一种立体声信号处理方法及装置
CN109215668B (zh) * 2017-06-30 2021-01-05 华为技术有限公司 一种声道间相位差参数的编码方法及装置
CN109427338B (zh) * 2017-08-23 2021-03-30 华为技术有限公司 立体声信号的编码方法和编码装置
EP3588495A1 (en) * 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding
CN110660400B (zh) * 2018-06-29 2022-07-12 华为技术有限公司 立体声信号的编码、解码方法、编码装置和解码装置
GB2582749A (en) * 2019-03-28 2020-10-07 Nokia Technologies Oy Determination of the significance of spatial audio parameters and associated encoding
CN114097029A (zh) * 2019-06-12 2022-02-25 弗劳恩霍夫应用研究促进协会 用于基于DirAC的空间音频编码的分组丢失隐藏
US11212631B2 (en) * 2019-09-16 2021-12-28 Gaudio Lab, Inc. Method for generating binaural signals from stereo signals using upmixing binauralization, and apparatus therefor
WO2022075908A1 (en) * 2020-10-06 2022-04-14 Dirac Research Ab Hrtf pre-processing for audio applications
EP4229631A2 (en) * 2020-10-13 2023-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding a plurality of audio objects and apparatus and method for decoding using two or more relevant audio objects
KR20220050641A (ko) * 2020-10-16 2022-04-25 삼성전자주식회사 전자 장치 및 전자 장치에서 무선 오디오 입출력 장치를 이용한 오디오 레코딩 방법
CN116032901A (zh) * 2022-12-30 2023-04-28 北京天兵科技有限公司 多路音频数据信号采编方法、装置、系统、介质和设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0308691A2 (pt) 2002-04-10 2016-11-16 Koninkl Philips Electronics Nv métodos para codificar um sinal de canal múltiplo e para decodificar informação de sinal de canal múltiplo, arranjos para codificar e decodificar um sinal de canal múltiplo, sinal de dados, meio legível por computador, e, dispositivo para comunicar um sinal de canal múltiplo.
ATE368921T1 (de) * 2003-09-29 2007-08-15 Koninkl Philips Electronics Nv Codierung von audiosignalen
US7742912B2 (en) 2004-06-21 2010-06-22 Koninklijke Philips Electronics N.V. Method and apparatus to encode and decode multi-channel audio signals
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US7787631B2 (en) 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
JP5171256B2 (ja) * 2005-08-31 2013-03-27 パナソニック株式会社 ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法
CN101826326B (zh) 2009-03-04 2012-04-04 华为技术有限公司 一种立体声编码方法、装置和编码器
JP5267362B2 (ja) 2009-07-03 2013-08-21 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
WO2011072729A1 (en) * 2009-12-16 2011-06-23 Nokia Corporation Multi-channel audio processing
CN102074243B (zh) 2010-12-28 2012-09-05 武汉大学 一种基于比特平面的感知音频分级编码系统及方法
JP6061121B2 (ja) * 2011-07-01 2017-01-18 ソニー株式会社 オーディオ符号化装置、オーディオ符号化方法、およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Marple, S.l., ‘Estimating group delay and phase delay via discrete-time analytic cross-correlation’, Signal Processing, IEEE Trans. on, vol.47, no.9, pp.2604-2607, Sep 1999*

Also Published As

Publication number Publication date
JP2015514234A (ja) 2015-05-18
US9449603B2 (en) 2016-09-20
EP2834813B1 (en) 2015-09-30
US20150049872A1 (en) 2015-02-19
WO2013149671A1 (en) 2013-10-10
CN104205211A (zh) 2014-12-10
ES2555579T3 (es) 2016-01-05
EP2834813A1 (en) 2015-02-11
JP6063555B2 (ja) 2017-01-18
KR20140140102A (ko) 2014-12-08

Similar Documents

Publication Publication Date Title
KR101662681B1 (ko) 멀티채널 오디오 인코더 및 멀티채널 오디오 신호 인코딩 방법
US9449604B2 (en) Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder
US10861468B2 (en) Apparatus and method for encoding or decoding a multi-channel signal using a broadband alignment parameter and a plurality of narrowband alignment parameters
EP2702776B1 (en) Parametric encoder for encoding a multi-channel audio signal
EP2524370B1 (en) Extraction of a direct/ambience signal from a downmix signal and spatial parametric information
US8265284B2 (en) Method and apparatus for generating a binaural audio signal
KR101662682B1 (ko) 채널간 차이 추정 방법 및 공간적 오디오 코딩 장치
JP2017058696A (ja) インターチャネル差分推定方法及び空間オーディオ符号化装置
CN104205211B (zh) 多声道音频编码器以及用于对多声道音频信号进行编码的方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190829

Year of fee payment: 4