KR20210021554A - 멀티 채널 오디오 코딩 - Google Patents

멀티 채널 오디오 코딩 Download PDF

Info

Publication number
KR20210021554A
KR20210021554A KR1020217001751A KR20217001751A KR20210021554A KR 20210021554 A KR20210021554 A KR 20210021554A KR 1020217001751 A KR1020217001751 A KR 1020217001751A KR 20217001751 A KR20217001751 A KR 20217001751A KR 20210021554 A KR20210021554 A KR 20210021554A
Authority
KR
South Korea
Prior art keywords
itd
pair
parameter
comparison
channels
Prior art date
Application number
KR1020217001751A
Other languages
English (en)
Other versions
KR102670634B1 (ko
Inventor
잔 뷰터
엘레니 포토포울루
스리칸스 고르세
팔라비 마벤
마르쿠스 멀트러스
프란츠 루텔허버
Original Assignee
프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 filed Critical 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우
Publication of KR20210021554A publication Critical patent/KR20210021554A/ko
Application granted granted Critical
Publication of KR102670634B1 publication Critical patent/KR102670634B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

멀티 채널 오디오 코딩에서, 개선된 계산적 효율은 파라메트릭 오디오 인코더에 대해 주파수 도메인의 두 채널 사이의 ITD 보상에 대한 비교 파라미터의 계산에 의해 달성된다. 이는 인코더 파라미터 추정에 대한 부정적인 영향을 완화할 수 있다.

Description

멀티 채널 오디오 코딩
본 발명은 멀티 채널 오디오 코딩에 관한 것이다.
본 출원은 파라메트릭 멀티 채널 오디오 코딩에 관한 것이다.
[1] MPEG-4 High Efficiency Advanced Audio Coding(HE-AAC) v2
Figure pct00001
[2] Jrgen Herre, FROM JOINT STEREO TO SPATIAL AUDIO CODING - RECENT PROGRESS AND STANDARDIZATION, Proc. of the 7th Int. Conference on digital Audio Effects(DAFX-04), Naples, Italy, October 5-8, 2004 [3] Christoph Tourney and Christof Faller, Improved Time Delay Analysis/Synthesis for Parametric Stereo Audio Coding, AES Convention Paper 6753, 2006 [4] Christof Faller and Frank Baumgarte, Binaural Cue Coding Part II: Schemes and Applications, IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, November 2003
본 출원은 파라메트릭 멀티 채널 오디오 코딩에 관한 것이다. 낮은 비트 전송률에서 스테레오 신호의 손실 파라메트릭 인코딩을 위한 최신 방법은 MPEG-4 Part 3 [1]에 표준화된 파라메트릭 스테레오를 기반으로 한다. 일반적인 아이디어는 디코더에 부가 정보로 전송되는 스테레오/공간 파라미터를 추출한 후, 두 개의 입력 채널에서 다운 믹스 신호를 계산하여 멀티 채널 시스템의 채널 수를 줄이는 것이다. 이러한 스테레오/공간 파라미터는 일반적으로 채널 간 레벨 차이(channel-level-difference) ILD, 채널 간 위상 차이(inter-channel-phase-difference) IPD 및 채널 간 일관성(inter-channel-coherence) ICC를 포함할 수 있으며, 이는 서브 밴드(sub-band)에서 계산될 수 있으며 공간 이미지를 특정 범위로 캡처 한다.
그러나 이 방법은 예를 들어 채널 간 시간 차이(inter-channel-time-differences)(ITD)를 보상하거나 합성할 수 없으며, 이는 예를 들어, AB 마이크 설정으로 녹음된 음성을 다운 믹싱 또는 재생하거나 바이노럴(binaurally)로 렌더링 된 장면을 합성하는 데 적합하다. ITD 합성은 바이노럴 큐 코팅(binaural cue coding) BCC [2]에서 이루어져 왔고, 이는 일반적으로 ILD 및 ICC 파라미터를 사용하는 반면, ITD는 추정되고 채널 정렬은 주파수 도메인에서 수행된다.
시간 영역 ITD 추정자(estimator)가 존재하지만, 일반적으로 ITD 추정이 시간 대 주파수 변환을 적용하는 것이 바람직하다. 이는 상호 상관 함수의 스펙트럼 필터링을 허용하고 계산적으로도 효율적이다. 복잡한 이유로, 스테레오/공간 파라미터를 추출하고 BCC 방식에서도 수행되는 채널을 다운 믹싱 하하기 위해 사용되는 동일한 변환을 사용하는 것이 바람직하다.
그러나, 여기에는 단점이 있다: 스테레오 파라미터의 정확한 추정은 정렬된 채널에서 이상적으로 수행된다. 그러나 채널이, 예를 들어 주파수 도메인의 원형 시프트(circular shift)로 인해, 주파수 도메인에서 정렬된 경우, 이로 인해 분석 윈도우(analysis window)에서 오프셋이 발생하여 파라미터 추정치(parameter estimate)에 부정적인 영향을 미칠 수 있다. BCC의 경우, 이는 주로 ICC 측정에 영향을 미치며, 윈도우 오프셋의 증가가 입력 신호가 실제로 완전히 일관된 경우에도 결국 ICC 값이 0으로 밀어낸다.
그러므로, 공간 파라미터 추정에 대한 부정적인 영향을 피하면서 채널 간 시간 차이를 보상할 수 있는 멀티 채널 오디오 코딩에서 파라미터 계산을 위한 개념을 제공하는 것이 목적이다.
이 목적은 첩부된 독립 청구항의 주제에 의해 달성된다.
본 출원은 멀티 채널 오디오 코딩에서, 파라메트릭 오디오 인코더에 의해 사용될 주파수 도메인의 임의의 두 채널 사이의 ITD 보상을 위한 적어도 하나의 비교 파라미터를 계산함으로써 개선된 계산 효율이 달성될 수 있다는 발견에 기초한다. 상기 적어도 하나의 비교 파라미터는 공간 파라미터 추정치에 대한 상기 언급된 부정적 효과를 완화하기 위해 파라메트릭 인코더에 의해 사용될 수 있다.
일 실시예는 적어도 하나의 다운 믹스 신호 및 추가적인 스테레오 또는 공간 파라미터에 의해 스테레오 또는 일반적으로 공간 콘텐츠를 나타내는 것을 목표로 하는 파라메트릭 오디오 인코더를 포함할 수 있다. 이러한 스테레오/공간 파라미터 중에는 나머지 스테레오/공간 파라미터를 계산하기 전에, 주파수 도메인에서 추정되고 보상될 수 있는 ITD가 있을 수 있다. 이 절차는 다른 스테레오/공간 파라미터를 바이어스 할 수 있으며, 그렇지 않으면 문제는 주파수 대 시간 변환을 다시 계산해야 되는 비용이 많이 드는 방식으로 해결되어야 하는 것이다. 상기 실시예에서, 이 문제는 ITD의 값과 기본 변환의 특정 데이터를 사용할 수 있는 계산적으로 저렴한 수정 체계(correction scheme)를 적용하여 다소 완화될 수 있다.
가중된 중간/측면 변환 접근법에 기초할 수 있는 손실 파라메트릭 오디오 인코더와 관련된 실시예는, 스테레오/공간 파라미터 IPD, ITD뿐만 아니라 두 개의 이득 인자(gain factor)를 사용할 수 있고 주파수 도메인에서 동작할 수 있다. 다른 실시예는 다른 변환을 사용할 수 있고 적절하게 다른 공간 파라미터를 사용할 수 있다.
일 실시예에서, 파라메트릭 오디오 인코더는 주파수 도메인에서 ITD를 보상하고 합성할 수 있다. 앞서 언급한 윈도우 오프셋의 부정적인 영향을 완화하는 계산적으로 효율적인 이득 보정 방식(correction scheme)을 특징으로 할 수 있다. 또한 BCC 코더에 대한 보정 방식이 제안된다.
본 출원의 유리한 구현은 종속 항의 주제이다. 본 출원의 바람직한 실시예는 도면과 관련하여 아래에서 설명된다.
도 1은 본 출원의 실시예에 따른 파라메트릭 인코더를 위한 비교 장치의 블록도를 도시한다;
도 2는 본 출원의 실시예에 따른 파라메트릭 인코더의 블록도를 도시한다;
도 3은 본 출원의 일 실시예에 따른 파라메트릭 디코더의 블록도를 도시한다.
도 1은 멀티 채널 오디오 신호에 대한 비교 장치(100)를 도시한다. 보이는 바와 같이, 이것은 한 쌍의 스테레오 채널(stereo channel)의 오디오 신호, 즉 좌측 오디오 채널 신호 l(τ) 및 우측 오디오 채널 신호 r(τ)에 대한 입력을 포함할 수 있다. 다른 실시예는 물론 음원의 공간적 특성을 포착하기 위해 복수의 채널을 포함할 수 있다.
시간 도메인 오디오 신호(time domain audio signal) l(τ), r(τ)를 주파수 도메인으로 변환하기 전에, 동일한 중첩 윈도우 함수(identical overlapping window function)(11, 21) w(τ)가 좌우 입력 채널 신호 l(τ), r(τ)에 각각 적용될 수 있다. 더욱이, 실시예에서, 주파수 도메인에서 시프트를 허용하는 일정한 양의 제로 패딩(zero padding)이 추가될 수 있다. 이후, 윈도우 오디오 신호는 대응하는 시간을 주파수 변환을 수행하기 위해 대응하는 이산 푸리에 변환(DFT) 블록(12, 22)에 제공될 수 수 있다. 이들은 채널 쌍에 대한 오디오 신호의 주파수 변환으로서 시간 주파수 빈(time-frequency bin) Lt,k 및 Rt,k, k = 0,??, K-1을 생성할 수 있다.
상기 주파수 변환 Lt,k 및 Rt,k는 ITD 검출 및 보상 블록(ITD detection and compensation block)(20)에 제공될 수 있다. 후자는 채널 쌍에 대한 오디오 신호 사이의 ITD를 나타내기 위하여, ITD 파라미터를 유도하도록 구성될 수 있으며, 여기서 ITDt, 상기 분석 윈도우 w(τ)에서 채널의 쌍의 오디오 신호의 주파수 변환 Lt,k 및 Rt,k를 사용한다. 다른 실시예는 시간 도메인에서 DFT 블록 이전에 또한 결정될 수 있는 ITD 파라미터를 유도하기 위해 상이한 접근법을 사용할 수 있다.
ITD를 계산하기 위한 ITD 파라미터의 유도에는 자동 또는 상호 상관 함수 - 가중이 가능한 - 의 계산이 포함될 수 있다. 일반적으로 이것은 역 이산 푸리에 변환(inverse discrete Fourier transform)(IDFT)을
Figure pct00002
항에 적용하여 시간 주파수 빈(time-frequency bin) Lt,k 및 Rt,k로부터 계산할 수 있다.
측정된 ITD를 보상하는 적절한 방법은 시간 도메인에서 채널 정렬을 수행하고 난 다음 ITD 보상 시간 주파수 빈을 얻기 위해 시프트 채널에 다시 동일한 시간을 주파수 변환에 적용하는 것이다.
그러나 복잡성을 줄이기 위해, 이 절차는 주파수 도메인에서 원형 시프트를 수행하여 근사화할 수 있다. 이에 대응하여, ITD 보상은 주파수 도메인에서 ITD 검출 및 보상 블록(20)에 의해 수행될 수 있으며, 예를들어 원형 시프트 블록(13 및 23)에 의해 각각 원형 시프트를 수행하여
Figure pct00003
(1)
Figure pct00004
(2)
를 도출하고, 여기서 ITDt는 샘플의 프레임 t에 대한 ITD를 나타낼 수 있다.
일 실시예에서, 이는 지체 채널(lagging channel)을 전진시킬 수 있고 ITDt/2 샘플만큼 지체 채널을 지연시킬 수 있다. 그러나 다른 실시예에서 - 지연이 중요한 경우 - 시스템 지연을 증가시키지 않는 ITDt 샘플에 의해서만 지체 채널을 전진시키는 것이 유익할 수 있다.
그 결과, ITD 검출 및 보상 블록(20)은 ITD 파라미터 ITDt를 사용하여 출력에서 한 쌍의 ITD 보상 주파수 변환 Lt,k,comp, Rt,k,comp를 생성하기 위해 원형 시프트에 의해 주파수 도메인에서 한 쌍의 채널에 대한 ITD를 보상할 수 있다. 더욱이, ITD 검출 및 보상 블록(20)은 유도된 ITD 파라미터를, 즉 ITDt, 예를 들어. 파라메트릭 인코더에 의한 전송을 위해, 출력할 수 있다.
도 1과 같이, 비교 및 공간 파라미터 계산 블록(comparison and spatial parameter computation block)(30)은 ITD 파라미터 ITDt 및 ITD 보상 주파수 변환 쌍 Lt,k,comp, Rt,k,comp를 입력 신호로 수신할 수 있다. 비교 및 공간 파라미터 계산 블록(30)은 위상차 IPD와 같은 멀티 채널 오디오 신호의 스테레오/공간 파라미터를 추출하기 위해 입력 신호의 일부 또는 전부를 사용할 수 있다.
또한, 비교 및 공간 파라미터 계산 블록(30)은 ITD 파라미터 ITDt 및 ITD 보상 주파수 변환 쌍 Lt,k,comp, Rt,k,comp에 기초하여 적어도 하나의 비교 파라미터를 생성할 수 있으며, 여기서 파라메트릭 인코더에 대한 두 개의 이득 계수 gt,b 및 rt,b,corr 이다. 다른 실시예는 적어도 하나의 비교 파라미터를 생성하기 위해 비교 및 공간 파라미터 계산 블록(30)에서 추출된 주파수 변환 Lt,k, Rt,k 및/또는 공간/스테레오 파라미터를 추가적으로 또는 대안적으로 사용할 수 있다.
적어도 하나의 비교 파라미터는 파라메트릭 인코더에 대한 공간/스테레오 파라미터 추정치(spatial/stereo parameter estimates)에 대한 분석 윈도우 w(τ)에서 전술한 오프셋의 부정적 효과를 완화하기 위해 계산적으로 효율적인 보정 방식(correction scheme)의 일부로 작용할 수 있으며, 상기 오프셋은 ITD 검출 및 보상 블록(20) 내의 DFT 도메인에서의 원형 시프트에 의한 채널의 정렬에 의해 야기된다. 일 실시예에서, 적어도 하나의 비교 파라미터가 디코더에서, 예를 들어, 다운 믹스 신호에서 채널 쌍의 오디오 신호를 복원하기 위해 계산될 수 있다.
도 2는 도 1의 비교 장치(comparison device)(100)가 ITD 파라미터 ITDt, ITD 보상 주파수 변환 쌍 Lt,k,comp, Rt,k,comp 및 비교 파라미터 rt,b,corr 및 gt,b를 제공하기 위해 사용될 수 있는 스테레오 오디오 신호용 파라메트릭 인코더(parametric encoder)(200)의 실시예를 도시한다.
파라메트릭 인코더(200)는 ITD 보상 주파수 변환 Lt,k,comp, Rt,k,comp를 입력으로 사용하여 좌우 입력 채널 신호 l(τ), r(τ)에 대한 다운 믹스 블록(downmix block)(40)에서 다운 믹스 신호(downmix signal)DMXt,k를 생성할 수 있다. 다른 실시예는 추가로 또는 대안적으로 주파수 변환 Lt,k, Rt,k를 사용하여 다운 믹스 신호 DMXt,k를 생성할 수 있다.
파라메트릭 인코더(200)는 비교 및 공간 파라미터 계산 블록(comparison and spatial parameter calculation block)(30)에서 프레임 단위로 - 예를 들어 IPD 처럼 - 스테레오 파라미터를 계산할 수 있다. 다른 실시예는 상이하거나 추가적인 스테레오/공간 파라미터를 결정할 수 있다. 도 2의 파라메트릭 인코더(200) 실시예의 인코딩 절차는 대략 아래에서 상세히 설명되는 다음 단계를 따를 수 있다.
1. 윈도우 및 DFT 블록(11, 12, 21, 22)에서 윈도우 DFT를 사용하여 입력 신호의 시간-주파수 변환(Time to frequency transform)
2. ITD 검출 및 보상 블록(20)의 주파수 도메인에서 ITD 추정 및 보상
3. 비교 및 공간 파라미터 계산 블록(30)에서 스테레오 파라미터 추출 및 비교 파라미터 계산
4. 다운 믹싱 블록(downmixing block)(40)에서 다운 믹싱
5. IDFT 블록(50)에서 윈도우 및 오버랩 추가가 뒤 따르는 주파수-시간 변환(Frequency-to-time transform)
도 2의 파라메트릭 오디오 인코더(parametric audio encoder)(200) 실시예는 ITD 보상 주파수 변환 Lt,k,comp, Rt,k,comp 뿐만 아니라 입력으로 ITD를 사용하여 주파수 도메인에서 입력 채널의 가중된 중간/측면 변환에 기초할 수 있다. 또한 IPD와 같은 스테레오/공간 파라미터와 스테레오 이미지를 캡처하는 두 가지 이득 계수를 계산할 수 있다. 앞서 언급한 윈도우 오프셋의 부정적인 영향을 완화할 수 있다.
비교 및 공간 파라미터 계산 블록(30)에서의 공간 파라미터 추출을 위해, ITD 보상 시간 주파수 빈 Lt,k,comp 및 Rt,k,comp는 서브 밴드로 그룹화 될 수 있고, 및 각 서브 대역에 대해 위상차 IPD 및 두 개의 이득 계수가 계산될 수 있다. Ib가 서브 밴드 b에 있는 주파수 빈의 인덱스를 나타낸다. 그런 다음 IPD는 다음과 같이 계산될 수 있다
Figure pct00005
(3).
위에서 언급한 두 가지 이득 인자는 식(4) 및(5)에 의해 주어진 ITD 보상 주파수 변환 Lt,k,comp 및 Rt,k,comp 쌍의 대역 별 위상 보상 중간/측면 변환(band-wise phase compensated mid/side transform)과 관련될 수 있다.
Figure pct00006
(4)
Figure pct00007
(5)
K∈Ib 이다.
상기 이득 계수의 제 1 이득 계수 gt,b는 식(6)에서 중간 신호 변환(mid signal transform) Mt로부터 측면 신호 변환(side signal transform) St의 대역 별 예측을 위한 최적 예측 이득으로 간주될 수 있다.
St,k = gt,b Mt,k + ρt,k (6)
식(7)에 의해 주어진 식(6)에서 예측 잔류(prediction residual) ρt,k의 에너지는 다음과 같고,
Figure pct00008
(7)
은 최소이다. 이 제 1 이득 인자 gt,b는 측면 이득(side gain)이라고 할 수 있다.
제1 이득 계수 rt,b는 식(8)에 의해 주어진 중간 신호 변환 Mt,k의 에너지에 대한 예측 잔류 ρt,k의 에너지 비율을 설명하고,
Figure pct00009
(8)
이고, 및 잔류 이득(residual gain)이라고 할 수 있다. 잔류 이득 rt,b는 중간/측면 변환의 예측 잔류 ρt,k에 대한 적절한 대체를 형성하기 위해 도 3의 디코더 실시예와 같은 디코더에서 사용될 수 있다.
도 2에 도시된 인코더 실시예에서, 이득 계수 gt,b 및 rt,b 모두는 ITD 보상 주파수 변환의 식(9)에 주어진 Lt,k,comp 및 Rt,k,comp의 에너지 EL,t,b 및 ER,t,b를 사용하여 비교 및 공간 파라미터 계산 블록(30)에서 비교 파라미터로 계산될 수 있다.
Figure pct00010
(9)
및 내적의 절대 값
Figure pct00011
(10)
식(10)에 주어진다.
내적 XL/R,t,b와 함께 상기 에너지 EL,t,b 및 ER,t,b에 기초하여, 식(11)을 사용하여 측면 이득 계수 gt,b가 계산될 수 있다.
Figure pct00012
(11)
또한, 잔류 이득 계수 rt,b는 식(12)를 사용하여 내적 XL/R,t,b 및 측면 이득 계수 gt,b와 함께 상기 에너지 EL,t,b 및 ER,t,b에 기초하여 다음과 같이 계산될 수 있다.
Figure pct00013
(12)
다른 실시예에서, 측면 이득 계수 gt,b 및 잔류 이득 계수 rt,b 및/또는 적절한 다른 비교 파라미터를 계산하기 위해 다른 접근법 및/또는 식이 사용될 수 있다. 앞에서 언급했 듯이, 주파수 도메인의 ITD 보상은 일반적으로 복잡성을 줄여 주지만 - 추가 조치 없이는 - 단점이 있다. 이상적으로, AB 마이크 설정으로 녹음된 깨끗한 무반향 음성(clean anechoic speech)의 경우 왼쪽 채널 신호 l(τ)는 실질적으로 지연(지연 d에 의해)되고 오른쪽 채널 r(τ)의 스케일 된(게인 c에 의해) 것이다. 이 상황은 다음 식(13)으로 표현할 수 있다.
l(τ)=c r(τ-d) (13)
윈도우가 해제된 입력 채널 오디오 신호 l(τ) 및 r(τ)의 적절한 ITD 보상 후, 측면 이득 계수 gt,b에 대한 추정치는 식(14)에 다음과 같이 주어진다.
Figure pct00014
(14)
여기서, 사라지는 잔류 이득 계수 rt,b는 다음과 같다.
rt,b = 0 (15).
그러나, 도 2의 실시예에서와 같이 주파수 도메인에서 원형 시프트 블록(circular shift block)(13, 23)을 사용하는 ITD 검출 및 보상 블록(20)에 의해 채널 정렬이 수행되면, 해당 DFT 분석 윈도우 w(τ)도 회전한다. 따라서, 주파수 도메인에서 ITD를 보상한 후, 오른쪽 채널에 대한 ITD 보상 주파수 변환 Rt,k,comp는 다음의 DFT에 의해 시간 주파수 빈의 형태로 결정될 수 있다.
w(τ)r(τ) (16)
반면에 왼쪽 채널에 대한 ITD 보상 주파수 변환 Lt,k,comp는 다음의 DFT로 시간 주파수 빈의 형태로 결정될 수 있다.
w(τ + ITDt) r(τ) (17)
여기서 w는 DFT 분석 윈도우 함수이다.
주파수 도메인에서 이러한 채널 정렬은 주로 잔류 예측 이득 계수 rt,b에 영향을 미치는 것으로 관찰되었고, ITDt가 증가함에 따라 더 커진다. 추가 조치없이, 주파수 도메인의 채널 정렬은 도 3에 표시된 것처럼 디코더에서 출력 오디오 신호에 추가적인 분위기를 추가한다. 이러한 추가 분위기는 특히 인코딩 할 오디오 신호에 깨끗한 음성이 포함된 경우 바람직하지 않으며, 이는 인공 분위기는 음성 명료도를 손상시키기 때문이다.
따라서, 추가 비교 파라미터를 사용하여 0이 아닌 ITD의 존재 하에(예측) 잔류 이득 계수 rt,b를 수정함으로써 전술한 효과를 완화할 수 있다.
일 실시예에서, 이는 신호가 일관되고 일시적으로 평탄할 때 예상되는 잔류 신호 e(τ)를 일치시키는 것을 목표로 하는 잔류 이득 rt,b에 대한 이득 오프셋을 계산함으로써 수행될 수 있다. 이 경우, 식(18)에 의해 주어진 글로벌 예측 이득
Figure pct00015
를 다음과 같이 예상한다.
Figure pct00016
=(c+1)/(c-1) (18)
Figure pct00017
=0에 의해 주어진 사라지는 글로벌
Figure pct00018
이다. 결과적으로 예상되는 잔류 신호 e(τ)는 식(19)를 사용하여 다음과 같이 결정될 수 있다.
Figure pct00019
일 실시예에서, 측면 이득 계수 gt,b 및 잔류 이득 계수 rt,b 외에 추가 비교 파라미터는 비교 및 공간 파라미터 계산 블록(30)에서 예상되는 잔류 신호 e(τ)를 기반으로, ITD 파라미터 ITDt 및 식(20)에 주어진 분석 윈도우 함수 w의 자기 상관 함수 WX(n)과 같거나 근사하는 함수를 사용하여 계산될 수 있다.
Figure pct00020
(20)
Mr이 r2(τ)의 단기 평균값을 나타내는 경우, 예상되는 잔류 신호 e(τ)의 에너지는 대략 식(21)에 의해 다음과 같이 계산될 수 있다.
Figure pct00021
(21)
식(22)에 의해 주어진 윈도우 중간 신호를 사용하여,
Figure pct00022
(22),
이 윈도우 중간 신호 mt(τ)의 에너지는 다음과 같이 식(23)에 의해 근사화 될 수 있다.
Figure pct00023
(23)
일 실시예에서, 비교 및 공간 파라미터 계산 블록(30)에서 비교 파라미터의 계산에 사용된 전술한 함수는 식(23a)에 주어진 분석 윈도우의 자기 상관 함수 WX(n)의 정규화된 버전
Figure pct00024
같이,
Figure pct00025
(23a)
이다. 이 정규화된 자기 상관 함수
Figure pct00026
에 기초하여, 상기 추가 비교 파라미터
Figure pct00027
는 다음과 같은 식(24)을 사용하여 계산될 수 있다.
Figure pct00028
(24)
잔류 이득 rt,b에 대한 추정된 보정 파라미터를 제공한다. 일 실시예에서, 비교 파라미터
Figure pct00029
는 서브 밴드 b의 국부 잔류 이득 rt,b에 대한 추정치로 사용될 수 있다. 다른 실시예에서, 잔류 이득 rt,b의 보정은 비교 파라미터
Figure pct00030
를 오프셋으로 사용하여 영향을 받을 수 있다. 즉, 잔류 이득 rt,b의 값은 식(25)에 주어진 바와 같이 보정 잔류 이득(corrected residual gain) rt,b,corr로 대체될 수 있다.
Figure pct00031
(25)
따라서, 일 실시예에서, 비교 및 공간 파라미터 계산 블록(30)에서 계산된 추가 비교 파라미터는 식(25)에 정의된 오프셋의 형태로 식(24)에 주어진 잔류 이득 보정 파라미터(residual gain correction parameter)
Figure pct00032
에 의해 보정된 잔류 이득 rt,b에 대응하는 보정 잔류 이득 rt,b,corr을 포함할 수 있다.
그 후, 추가 실시예는 윈도우 DFT 및 식(3)에 따른 파라미터 IPD, 식(11)에 따른 측면 이득 gt,b, 식(12)에 따른 잔류 이득 rt,b 및 ITD [의 서브 세트]를 사용하는 파라오메트릭 오디오 코딩에 관한 것이고, 잔류 이득 rt,b는 식(25)에 따라 조정된다.
경험적 평가에서, 잔류 이득 추정치
Figure pct00033
는 식(13)에서 오른쪽 채널 오디오 신호 r(τ)에 대해 다른 선택으로 테스트 될 수 있다. 시간 평탄도 가정을 만족하는 백색 잡음 입력 신호 r(τ)의 경우, 잔류 이득 추정치
Figure pct00034
는 아래 표 1에서 볼 수 있는 것처럼 서브 밴드에서 측정된 잔류 이득 rt,b의 평균에 매우 가깝다.
표 1은 ITD 및 잔류 이득 추정값
Figure pct00035
(괄호 안에 표시됨)가 있는 패닝 된 백색 잡음에 대해 측정된 잔류 이득 rt,b의 평균이다.
Figure pct00036
\ c
1 2 4 8 16 32
평균 0.0893 0.0793 0.0569 0.0351 0.0196 0.0104
(0.0885) (0.0785) (0.0565) (0.0349) (0.0195) (0.0104)
평균 0.1650 0.1460 0.1045 0.0640 0.0357 0.0189
(0.1631) (0.1458) (0.1039) (0.0640) (0.0357) (0.0189)
평균 0.2348 0.2073 0.1472 0.0896 0.0498 0.0263
(0.2327) (0.2062) (0.1473) (0.0904) (0.0504) (0.0267)
평균 0.3005 0.2644 0.1862 0.1125 0.0621 0.0327
(0.2992) (0.2627) (0.1885) (0.1151) (0.0641) (0.0339)
음성 신호 r(τ)의 경우, 시간적 평탄도 가정은 자주 위반되며, 이는 일반적으로 잔류 이득 rt,b의 평균을 증가시킨다(위의 표 1과 비교하여 아래 표 2 참조). 따라서 식(25)에 따른 잔류 이득 조정 또는 보정 방법은 다소 보수적인 것으로 간주될 수 있다. 그러나 깨끗한 음성 녹음을 위해 원하지 않는 분위기를 대부분 제거할 수 있다.
표 2는 ITD 및 잔류 이득 추정값
Figure pct00037
(괄호 안에 표시됨)가 있는 패닝 된 백색 잡음에 대해 측정된 잔류 이득 rt,b의 평균이다.
Figure pct00038
\ c
1 2 4
평균 0.1055 0.1022 0.0874
(0.0885) (0.0785) (0.0565)
평균 0.1782 0.1634 0.1283
(0.1631) (0.1458) (0.1039)
평균 0.2435 0.2191 0.1657
(0.2327) (0.2062) (0.1473)
평균 0.3050 0.2720 0.2014
(0.2992) (0.2627) (0.1885)
식(23a)에 주어진 정규화된 자기 상관 함수
Figure pct00039
는 단일 분석 윈도우 w가 사용되는 경우 프레임 인덱스 t와 무관한 것으로 간주될 수 있다. 또한, 정규화된 자기 상관 함수
Figure pct00040
는 일반적인 분석 윈도우 함수 w에 대해 매우 느리게 변하는 것으로 간주될 수 있다. 따라서
Figure pct00041
는 작은 값 테이블에서 정확하게 보간될 수 있으며, 이는 복잡성 측면에서이 보정 체계를 매우 효율적으로 만든다.
따라서, 실시예에서, 블록(30)의 비교 파라미터로서 잔류 이득 추정치 또는 잔류 이득 보정 오프셋
Figure pct00042
의 결정을 위한 함수는 룩업 테이블(look-up table)에 저장된 분석 윈도우의 자기 상관 함수의 정규화된 버전
Figure pct00043
를 보간하여 얻을 수 있다. 다른 실시예에서, 정규화된 자기 상관 함수
Figure pct00044
의 보간을 위한 다른 접근법이 적절하게 사용될 수 있다.
BCC의 경우, [2]에서 설명한 바와 같이, 서브 밴드에서 채널 간 일관성 ICC를 추정할 때 유사한 문제가 발생할 수 있다. 일 실시예에서, 상응하는 ICCt,b는 식(9)의 에너지 EL,t,b 및 ER,t,b와 식(10)의 내적을 사용하여 식(26)에 의해 다음과 같이 추정될 수 있다.
Figure pct00045
(26)
정의에 따르면, ICC는 ITD를 보정한 후 측정된다. 그러나 일치하지 않는 윈도우 함수 w는 ICC 측정을 바이어스 할 수 있다. 식(13)에 의해 설명된 위에서 언급한 무반향 음성 설정에서, ICC는 올바르게 정렬된 입력 채널에서 계산되면 1이 된다.
그러나, 오프셋 - 원형 시프트에 의해 주파수 도메인에서 ITDt의 ITD를 보상할 때 주파수 도메인에서 분석 윈도우 함수 w(τ)의 회전으로 인해 발생됨 - 은 식(27)에 주어진대로 ICC의 측정을
Figure pct00046
쪽으로 바이어스 할 수 있다.
Figure pct00047
(27)
일 실시예에서, ICC의 바이어스는 식(25)의 잔류 이득 rt,b의 보정과 유사한 방식으로, 즉 식(28)에 주어진대로 다음과 같이 대체함으로써 보정될 수 있다.
Figure pct00048
(28)
따라서, 추가 실시예는 윈도우 DFT 및 식(3)에 따른 파라미터IPD, 식(26)에 따른 IDL, ICC 및 ITD [의 서브 세트]를 사용하는 파라오메트릭 오디오 코딩에 관한 것이고, ICC는 식(28)에 따라 조정된다.
도 2에 도시된 파라메트릭 인코더(200)의 실시예에서, 다운 믹싱 블록(40)은 주파수 도메인에서 식(29)에 의해 주어진 다운 믹스 신호 DMXt,k를 계산함으로써 멀티 채널, 여기서는 스테레오 시스템의 채널 수를 줄일 수 있다. 일 실시예에서, 다운 믹스 신호 DMXt,k는 다음에 따라 ITD 보상 주파수 변환 Lt,k,comp 및 Rt,k,comp를 사용하여 계산될 수 있다.
Figure pct00049
(29)
식(29)에서, β는 스테레오/공간 파라미터로부터 계산된 실제 절대 위상 조정 파라미터 일 수 있다. 다른 실시예에서, 도 2에 도시된 코딩 방식은 다른 다운 믹싱 방법에서도 작동할 수 있다. 다른 실시예는 주파수 변환 Lt,k 및 Rt,k 및 선택적으로 추가 파라미터를 사용하여 다운 믹스 신호 DMXt,k를 결정할 수 있다.
도 2의 인코더 실시예에서, 역 이산 푸리에 변환(inverse discrete Fourier transform)(IDFT) 블록(50)은 다운 믹싱 블록(40)으로부터 주파수 도메인 다운 믹스 신호 DMXt,k를 수신할 수 있다. IDFT 블록(50)은 다운 믹스 시간 주파수 빈 DMXt,k를 변환할 수 있으며, k = 0,…, K-1, 주파수 도메인에서 시간 도메인으로 시간 도메인 다운 믹스 신호 dmx(τ)를 생성한다. 실시예에서, 합성 윈도우 wS(τ)가 적용되어 시간 도메인 다운 믹스 신호 dmx(τ)에 추가될 수 있다.
또한, 도 2의 실시예에서와 같이, 코어 인코더(core encoder)(60)는 도메인 다운 믹스 신호 dmx(τ)를 수신하여 MPEG-4 파트 3 [1] 또는 적절한 다른 적절한 오디오 인코딩 알고리즘에 따라 단일 채널 오디오 신호를 인코딩 할 수 있다. 도 2의 실시예에서, 코어 인코딩 된 시간 도메인 다운 믹스 신호 dmx(τ)는 디코더로의 전송을 위해 ITD 파라미터 ITDt, 측면 이득 gt,b 및 보정 잔류 이득 rt,b,corr과 결합되어 적절하게 처리 및/또는 추가로 인코딩 될 수 있다.
도 3은 멀티 채널 디코더의 실시예를 보여준다. 디코더는 시간 도메인의 모노/다운 믹스 입력 신호 dmx(τ)와 비교 및/또는 공간 파라미터를 프레임 단위로 부가 정보로 포함하는 결합된 신호를 수신할 수 있다. 도 3에 도시된 바와 같은 디코더는 아래에서 상세히 설명되는 다음 단계들을 수행할 수 있다.
1. DFT 블록(80)에서 윈도우 DFT를 사용한 입력의 시간-주파수 변환
2. 업 믹싱(upmixing) 및 공간 복원 블록(90)에서 주파수 도메인의 누락 잔류 예측
3. 업 믹싱 및 공간 복원 블록(90)에서 주파수 도메인에서 업 믹싱
4. ITD 합성 블록(100)의 주파수 도메인에서 ITD 합성
5. IDFT 블록(112, 122) 및 윈도우 블록(111, 121)에서 주파수-시간 도메인 변환, 윈도우 화 및 오버랩 추가
모노/다운 믹스 신호 입력 신호 dmx(τ)의 시간 대 주파수 변환은 도 2의 인코더의 입력 오디오 신호와 유사한 방식으로 수행될 수 있다. 특정 실시예에서, 주파수 도메인에서 ITD 복원을 위해 적절한 양의 제로 패딩이 추가될 수 있다. 이 절차는 시간 주파수 빈 DMXt,k, k = 0,…, K-1의 형태로 다운 믹스 신호의 주파수 변환을 생성할 수 있다.
다운 믹스 신호 DMXt,k의 공간적 속성을 복원하기 위해, 전송된 다운 믹스 신호 DMXt,k에 독립적인 제 2 신호가 필요할 수 있다. 이러한 신호는, 예를 들어 비교 파라미터 - 도 2의 인코더와 같은 인코더에 의해 전송됨 - 로서 보정 잔류 이득 rt,b,corr을 사용하여 업 믹싱 및 공간 복원 블록(90) 및 다음의 식(30)에 주어진 다운 믹스 신호 DMXt,k의 시간 지연된 시간 주파수 빈에서(재) 구성될 수 있다:
Figure pct00050
(30)
다른 실시예에서, 전송된 적어도 하나의 비교 파라미터에 기초하여 다운 믹스 신호 DMXt,k의 공간적 특성을 복원하기 위해 상이한 접근법 및 식이 사용될 수 있다. 게다가, 업 믹싱 및 공간 복원 블록(90)은 인코더에 의해 전송된 다운 믹스 신호 DMXt,k 및 측면 이득 gt,b 및 재구성된 잔류 신호
Figure pct00051
를 사용하여 인코더에서 중간/측면 변환에 역을 적용하여 업 믹싱을 수행할 수 있다. 이것은 식(31)및 (32)에 의해 주어진 디코딩 된 ITD 보상 주파수 변환
Figure pct00052
Figure pct00053
를 다음과 같이 산출할 수 있다.
Figure pct00054
(31)
Figure pct00055
(32)
k∈Ib의 경우, 여기서 β는 식(29)의 다운 믹싱 절차에서와 동일한 절대 위상 회전 파라미터이다.
또한, 도 3과 같이, 디코딩 된 ITD 보상 주파수 변환
Figure pct00056
Figure pct00057
는 ITD 합성/비 보상 블록(100)에 의해 수신될 수 있다. 후자는 ITD 비 보상 디코딩 주파수 변환
Figure pct00058
Figure pct00059
을 도출하기 위해, 식(33) 및(34)에 주어진 대로
Figure pct00060
Figure pct00061
를 회전하여 주파수 도메인에서 ITD 파라미터 ITDt를 적용할 수 있다.
Figure pct00062
(33)
Figure pct00063
(34).
도 3에서, ITD 비 보상 디코딩 주파수 변환의 주파수-시간 도메인 변환은 시간 주파수 빈
Figure pct00064
Figure pct00065
의 형태이고, k = 0,…, K-1, 각각 IDFT 블록(112 및 122)에 의해 수행될 수 있다. 결과적인 시간 도메인 신호는 후속적으로 윈도우 블록(111 및 121)에 의해 각각 윈도우 될 수 있고, 좌측 및 우측 오디오 채널의 재구성된 시간 도메인 출력 오디오 신호
Figure pct00066
Figure pct00067
에 추가될 수 있다.
전술한 실시예는 본 발명의 원리에 대한 예시 일 뿐이다. 본 명세서에 기술된 배열 및 세부 사항의 수정 및 변경은 당업자에게 명백할 것임이 이해된다. 따라서, 본 명세서의 실시예의 설명 및 설명에 의해 제시된 특정 세부 사항이 아니라 임박한 특허 청구 범위에 의해서만 제한되는 것이 의도이다.

Claims (15)

  1. 멀티 채널 오디오 신호를 위한 비교 장치에 있어서,

    적어도 한 쌍의 채널에 대한 오디오 신호 사이의 채널 간 시간 차이(ITD)에 대해, 분석 윈도우(w(τ))에서 적어도 한 쌍의 채널의 오디오 신호의 적어도 하나의 ITD 파라미터(ITDt)를 유도하고,

    적어도 한 쌍의 ITD 보상 주파수 변환(Lt,k,comp; Rt,k,comp)을 생성하기 위해, 상기 적어도 하나의 ITD 파라미터를 사용하여 원형 시프트에 의해 주파수 도메인에서 적어도 한 쌍의 채널에 대한 상기 ITD를 보상하고,

    적어도 하나의 상기 ITD 파라미터와 적어도 하나의 상기 ITD 보상 주파수 변환 쌍에 기초하여, 적어도 하나의 비교 파라미터
    Figure pct00068
    를 계산하도록
    구성되는

    비교 장치.
  2. 제1항에 있어서,

    적어도 하나의 상기 ITD 파라미터(ITDt)를 유도하기 위해,
    상기 분석 윈도우(w(τ))에서 상기 적어도 한 쌍의 채널에 대한 상기 오디오 신호의 주파수 변환(Lt,k; Rt,k)을 사용하도록
    추가로 구성되는

    비교 장치.
  3. 제1항 또는 제2항에 있어서,

    상기 분석 윈도우 및 적어도 하나의 상기 ITD 파라미터의 자기 상관 함수
    Figure pct00069
    를 같거나 또는 근사하는 함수를 사용하여 상기 적어도 하나의 비교 파라미터를 계산하도록
    추가로 구성되는

    비교 장치.
  4. 제3항에 있어서,

    상기 함수는 상기 분석 윈도우의 상기 자기 상관 함수
    Figure pct00070
    의 정규화된 버전과 같거나 또는 근사한

    비교 장치.
  5. 제4항에 있어서,

    룩업 테이블에 저장된 상기 분석 윈도우의 상기 자기 상관 함수의 정규화된 버전을 보간하여 함수를 얻는

    비교 장치.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,

    상기 적어도 하나의 비교 파라미터는,
    상기 적어도 한 쌍의 ITD 보상 주파수 변환(Lt,k,comp; Rt,k,comp)의 적어도 한 쌍의 중간/측면 변환(Mt,k; St,k)의 적어도 하나의 측면 이득(gt,b)을 포함하고,
    상기 적어도 하나의 측면 이득은 상기 적어도 한 쌍의 중간/측면 변환의 중간 변환(Mt,k)에서 측면 변환(St,k)의 예측 이득(St,k = gt,b Mt,kt,k)인

    비교 장치.
  7. 제6항에 있어서,

    상기 적어도 하나의 비교 파라미터는 잔류 이득 보정 파라미터
    Figure pct00071
    에 의해 보정된 적어도 하나의 잔류 이득(rt,b)에 대응하는 적어도 하나의 보정 잔류 이득(rt,b,corr)을 포함하고,
    상기 적어도 하나의 잔류 이득(rt,b)은 상기 중간 변환의 에너지에 대해 상기 중간 변환(Mt,k)으로부터 상기 측면 변환(St,k)의 예측에서 잔류(ρt,k)의 에너지의 함수
    Figure pct00072


    비교 장치.
  8. 제7항에 있어서,

    상기 적어도 한 쌍의 ITD 보상 주파수 변환(Lt,k,comp; Rt,k,comp)의 상기 에너지와 상기 내적을 사용하여 상기 적어도 하나의 측면 이득과 상기 적어도 하나의 잔류 이득을 계산하도록
    구성되는

    비교 장치.
  9. 제7항 또는 제8항에 있어서,

    Figure pct00073

    으로 계산되는 상기 잔류 이득 보정 파라미터
    Figure pct00074
    에 대응하는 오프셋에 의해 상기 적어도 하나의 잔류 이득을 보정하도록 더 구성되고,
    c는 적어도 한 쌍의 상기 채널의 상기 오디오 신호 사이의 스케일링 이득이고
    Figure pct00075
    는 분석 윈도우의 자기 상관 함수의 정규화된 버전에 근접한 함수인

    비교 장치.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,

    상기 적어도 하나의 비교 파라미터는,
    상기 적어도 하나의 ITD 파라미터에 기초한 상기 적어도 한 쌍의 오디오 신호의 채널 간 일관성(ICC)의 추정(ICCb,t) - 상기 주파수 도메인에서 결정된 - 을 보정하기 위한, 상기 적어도 하나의 채널 간 일관성(ICC) 보정 파라미터
    Figure pct00076

    를 포함하는

    비교 장치.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,

    상기 적어도 한 쌍의 채널의 상기 오디오 신호에 대해 적어도 하나의 다운 믹스 신호를 생성하도록 구성되고,
    상기 적어도 하나의 비교 파라미터
    Figure pct00077
    는 상기 적어도 하나의 다운 믹스 신호로부터 적어도 한 쌍의 상기 오디오 신호를 복원하기 위해 계산되는

    비교 장치.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서,

    상기 적어도 한 쌍의 ITD 보상 주파수 변환에 기초하여 상기 적어도 하나의 다운 믹스 신호를 생성하는

    비교 장치.
  13. 멀티 채널 인코더에 있어서,

    청구항 제11항 또는 제12항에 따르는 상기 비교 장치를 포함하고,
    디코더로의 전송을 위해 상기 적어도 하나의 다운 믹스 신호, 상기 적어도 하나의 ITD 파라미터 및 상기 적어도 하나의 비교 파라미터를 인코딩 하도록 구성된

    멀티 채널 인코더.
  14. 멀티 채널 오디오 신호를 위한 디코더에 있어서,

    인코더로부터 수신된 적어도 하나의 다운 믹스 신호, 적어도 하나의 채널 간 시간 차이(ITD) 파라미터 및 적어도 하나의 비교 파라미터
    Figure pct00078
    를 디코딩 하고,

    상기 하나 이상의 비교 파라미터 사용하여 적어도 한 쌍의 디코딩 ITD 보상 주파수 변환
    Figure pct00079
    을 생성하기 위해, 상기 적어도 하나의 다운 믹스 신호에서 적어도 한 쌍의 채널의 상기 오디오 신호를 복원하기 위한 상기 적어도 하나의 다운 믹스 신호를 업 믹싱 하고,

    상기 적어도 하나의 ITD 파라미터 사용하여 상기 시간 도메인에서 상기 적어도 한 쌍의 채널의 상기 오디오 신호의 상기 ITD를 재구성하기 위한 적어도 한 쌍의 ITD 비 보상 디코딩 주파수 변환을 생성하기 위해, 원형 시프트에 의해 상기 주파수 도메인에서 상기 적어도 한 쌍의 채널의 디코딩 ITD 보상 주파수 변환
    Figure pct00080
    에 대해 상기 ITD를 비 보상하고,

    상기 적어도 한 쌍의 채널의 적어도 한 쌍의 디코딩 오디오 신호를 생성하기 위해 상기 적어도 한 쌍의 ITD 비 보상 디코딩 주파수 변환을 역 주파수 변환하도록 구성된

    디코더.
  15. 멀티 채널 오디오 신호에 대한 비교 방법에 있어서,
    적어도 한 쌍의 채널에 대한 오디오 신호 사이의 채널 간 시간 차이(ITD)를 위해, 분석 윈도우(w(τ))에서 상기 적어도 한 쌍의 채널의 상기 오디오 신호의 적어도 하나의 ITD 파라미터(ITDt)를 유도하는 단계,

    상기 적어도 하나의 ITD 파라미터를 사용하여 적어도 한 쌍의 ITD 보상 주파수 변환(Lt,k,comp; Rt,k,comp)을 생성하기 위해 원형 시프트에 의해 상기 주파수 도메인에서 적어도 한 쌍의 채널에 대한 상기 ITD를 보상하는 단계,

    상기 적어도 하나의 ITD 파라미터 및 상기 적어도 한 쌍의 ITD 보상 주파수 변환에 기초하여, 적어도 하나의 비교 파라미터
    Figure pct00081
    를 계산하는 단계
    를 포함하는
    비교 방법.
KR1020217001751A 2018-06-22 2019-06-19 멀티 채널 오디오 코딩 KR102670634B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18179373.8 2018-06-22
EP18179373.8A EP3588495A1 (en) 2018-06-22 2018-06-22 Multichannel audio coding
PCT/EP2019/066228 WO2019243434A1 (en) 2018-06-22 2019-06-19 Multichannel audio coding

Publications (2)

Publication Number Publication Date
KR20210021554A true KR20210021554A (ko) 2021-02-26
KR102670634B1 KR102670634B1 (ko) 2024-05-31

Family

ID=62750879

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217001751A KR102670634B1 (ko) 2018-06-22 2019-06-19 멀티 채널 오디오 코딩

Country Status (14)

Country Link
US (2) US11978459B2 (ko)
EP (2) EP3588495A1 (ko)
JP (2) JP7174081B2 (ko)
KR (1) KR102670634B1 (ko)
CN (1) CN112424861B (ko)
AR (1) AR115600A1 (ko)
AU (1) AU2019291054B2 (ko)
BR (1) BR112020025552A2 (ko)
CA (1) CA3103875C (ko)
MX (1) MX2020013856A (ko)
SG (1) SG11202012655QA (ko)
TW (1) TWI726337B (ko)
WO (1) WO2019243434A1 (ko)
ZA (1) ZA202100230B (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3588495A1 (en) 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding
CN115244618A (zh) * 2020-03-09 2022-10-25 日本电信电话株式会社 声音信号编码方法、声音信号解码方法、声音信号编码装置、声音信号解码装置、程序以及记录介质
BR112023006291A2 (pt) * 2020-10-09 2023-05-09 Fraunhofer Ges Forschung Dispositivo, método ou programa de computador para processar uma cena de áudio codificada usando uma conversão de parâmetro
US11818353B2 (en) * 2021-05-13 2023-11-14 Qualcomm Incorporated Reduced complexity transforms for high bit-depth video coding

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170061972A1 (en) * 2011-02-02 2017-03-02 Telefonaktiebolaget Lm Ericsson (Publ) Determining the inter-channel time difference of a multi-channel audio signal
KR20170042809A (ko) * 2012-08-10 2017-04-19 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 파라미터 오디오 오브젝트 코딩을 위한 잔류 개념을 이용하는 인코더, 디코더, 시스템 및 방법
WO2018086947A1 (en) * 2016-11-08 2018-05-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multichannel signal using a side gain and a residual gain

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5789689A (en) * 1997-01-17 1998-08-04 Doidic; Michel Tube modeling programmable digital guitar amplification system
AU2003281128A1 (en) * 2002-07-16 2004-02-02 Koninklijke Philips Electronics N.V. Audio coding
US7809579B2 (en) * 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
SE0402650D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
EP1866911B1 (en) 2005-03-30 2010-06-09 Koninklijke Philips Electronics N.V. Scalable multi-channel audio coding
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
CN101556799B (zh) * 2009-05-14 2013-08-28 华为技术有限公司 一种音频解码方法和音频解码器
DK3182409T3 (en) * 2011-02-03 2018-06-14 Ericsson Telefon Ab L M DETERMINING THE INTERCHANNEL TIME DIFFERENCE FOR A MULTI-CHANNEL SIGNAL
EP2702776B1 (en) * 2012-02-17 2015-09-23 Huawei Technologies Co., Ltd. Parametric encoder for encoding a multi-channel audio signal
ES2555579T3 (es) * 2012-04-05 2016-01-05 Huawei Technologies Co., Ltd Codificador de audio multicanal y método para codificar una señal de audio multicanal
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
CA2919080C (en) * 2013-07-22 2018-06-05 Sascha Disch Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
JP6392353B2 (ja) * 2013-09-12 2018-09-19 ドルビー・インターナショナル・アーベー マルチチャネル・オーディオ・コンテンツの符号化
EP3067889A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for signal-adaptive transform kernel switching in audio coding
EP3067886A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
ES2768052T3 (es) * 2016-01-22 2020-06-19 Fraunhofer Ges Forschung Aparatos y procedimientos para codificar o decodificar una señal de audio multicanal usando sincronización de control de trama
EP3208800A1 (en) * 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
AU2017229323B2 (en) * 2016-03-09 2020-01-16 Telefonaktiebolaget Lm Ericsson (Publ) A method and apparatus for increasing stability of an inter-channel time difference parameter
EP3588495A1 (en) 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170061972A1 (en) * 2011-02-02 2017-03-02 Telefonaktiebolaget Lm Ericsson (Publ) Determining the inter-channel time difference of a multi-channel audio signal
KR20170042809A (ko) * 2012-08-10 2017-04-19 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 파라미터 오디오 오브젝트 코딩을 위한 잔류 개념을 이용하는 인코더, 디코더, 시스템 및 방법
WO2018086947A1 (en) * 2016-11-08 2018-05-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multichannel signal using a side gain and a residual gain

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
[1] MPEG-4 High Efficiency Advanced Audio Coding(HE-AAC) v2
[2] Jrgen Herre, FROM JOINT STEREO TO SPATIAL AUDIO CODING - RECENT PROGRESS AND STANDARDIZATION, Proc. of the 7th Int. Conference on digital Audio Effects(DAFX-04), Naples, Italy, October 5-8, 2004
[3] Christoph Tourney and Christof Faller, Improved Time Delay Analysis/Synthesis for Parametric Stereo Audio Coding, AES Convention Paper 6753, 2006
[4] Christof Faller and Frank Baumgarte, Binaural Cue Coding Part II: Schemes and Applications, IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, November 2003
Bertrand Fatus. Parametric Coding for Spatial Audio. Master’s Thesis, KTH, Stockholm, Sweden. 2015.12. *
ISO/IEC DIS 23008-3. Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio. ISO/IEC JTC 1/SC 29/WG 11. 2014.08.05. *

Also Published As

Publication number Publication date
EP3588495A1 (en) 2020-01-01
SG11202012655QA (en) 2021-01-28
AU2019291054A1 (en) 2021-02-18
EP3811357A1 (en) 2021-04-28
CA3103875C (en) 2023-09-05
TW202016923A (zh) 2020-05-01
ZA202100230B (en) 2022-07-27
JP2023017913A (ja) 2023-02-07
CN112424861B (zh) 2024-04-16
US20210098007A1 (en) 2021-04-01
CN112424861A (zh) 2021-02-26
US20240112685A1 (en) 2024-04-04
AU2019291054B2 (en) 2022-04-07
MX2020013856A (es) 2021-03-25
JP2021528693A (ja) 2021-10-21
KR102670634B1 (ko) 2024-05-31
BR112020025552A2 (pt) 2021-03-16
CA3103875A1 (en) 2019-12-26
AR115600A1 (es) 2021-02-03
JP7174081B2 (ja) 2022-11-17
US11978459B2 (en) 2024-05-07
WO2019243434A1 (en) 2019-12-26
TWI726337B (zh) 2021-05-01

Similar Documents

Publication Publication Date Title
JP7161564B2 (ja) チャネル間時間差を推定する装置及び方法
US11871205B2 (en) Parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder
KR102670634B1 (ko) 멀티 채널 오디오 코딩
KR20190072647A (ko) 위상 보상을 이용하여 멀티 채널 신호를 다운믹싱 또는 업믹싱하는 장치 및 방법
MX2012011532A (es) Codificacion a estereo para prediccion de complejos basados en mdct.
US11790922B2 (en) Apparatus for encoding or decoding an encoded multichannel signal using a filling signal generated by a broad band filter
JP2023017913A5 (ko)
RU2778832C2 (ru) Многоканальное кодирование аудио
CN118280375A (zh) 用于多声道音频编码的方法和设备

Legal Events

Date Code Title Description
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant