KR101621287B1 - 다채널 오디오 신호 및 다채널 오디오 인코더를 위한 인코딩 파라미터를 결정하는 방법 - Google Patents

다채널 오디오 신호 및 다채널 오디오 인코더를 위한 인코딩 파라미터를 결정하는 방법 Download PDF

Info

Publication number
KR101621287B1
KR101621287B1 KR1020147029976A KR20147029976A KR101621287B1 KR 101621287 B1 KR101621287 B1 KR 101621287B1 KR 1020147029976 A KR1020147029976 A KR 1020147029976A KR 20147029976 A KR20147029976 A KR 20147029976A KR 101621287 B1 KR101621287 B1 KR 101621287B1
Authority
KR
South Korea
Prior art keywords
itd
audio
signal
channel
smoothing
Prior art date
Application number
KR1020147029976A
Other languages
English (en)
Other versions
KR20140140101A (ko
Inventor
다비드 비레뜨
위에 랑
지안펭 수
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20140140101A publication Critical patent/KR20140140101A/ko
Application granted granted Critical
Publication of KR101621287B1 publication Critical patent/KR101621287B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 각각이 오디오 채널 신호 값(x1[n], x2[n])을 가지는, 다채널 오디오 신호의 복수의 오디오 채널 신호(x1, x2) 중 오디오 채널 신호(x1)에 대한 인코딩 파라미터(ITD)를 결정하는 방법(100)에 관한 것으로서, 상기 방법은, 상기 오디오 채널 신호(x1)에 대해 상기 오디오 채널 신호(x1)의 오디오 채널 신호 값(x1[n]) 및 기준 오디오 신호(x2)의 기준 오디오 신호 값(x2[n])으로부터 함수의 세트(c[b])를 결정하는 단계(101) - 상기 기준 오디오 신호는 상기 복수의 오디오 채널 신호 중 다른 오디오 채널 신호(x2) 또는 상기 복수의 다채널 오디오 신호 중 둘 이상의 오디오 채널 신호(x1, x2)로부터 얻은 다운믹스 오디오 신호임 -; 상기 다채널 오디오 신호의 프레임 시퀀스(i)에 대한 상기 함수의 세트(c[b])의 평활화(smoothing)에 기초하여, 제1 세트의 인코딩 파라미터(ITD[b])를 결정하는 단계(103) - 상기 평활화는 제1 평활화 계수(SMW1)에 기초함 -; 상기 다채널 오디오 신호의 프레임 시퀀스(i)에 대한 상기 함수의 세트(c[b])의 평활화에 기초하여, 제2 세트의 인코딩 파라미터(ITD_inst[b])를 결정하는 단계(105) - 상기 평활화는 제2 평활화 계수(SMW2)에 기초함 -; 및 상기 제1 세트의 인코딩 파라미터(ITD[b]) 및/또는 상기 제2 세트의 인코딩 파라미터(ITD_inst[b])에 대한 품질 기준에 기초하여 상기 인코딩 파라미터(ITD)를 결정하는 단계(107)를 포함한다.

Description

다채널 오디오 신호 및 다채널 오디오 인코더를 위한 인코딩 파라미터를 결정하는 방법 {METHOD FOR DETERMINING AN ENCODING PARAMETER FOR A MULTI-CHANNEL AUDIO SIGNAL AND MULTI-CHANNEL AUDIO ENCODER}
본 발명은 오디오 코딩에 관한 것으로 특히 파라메트릭 공간 오디오 코딩(parametric spatial audio coding)으로도 알려져 있는 파라메트릭 다채널 또는 스테레오 오디오 코딩에 관한 것이다.
예컨대, C. Faller와 F. Baumgarte의 논문: "Efficient representation of spatial audio using perceptual parametrization"[Proc. IEEE Workshop on Appl. of Sig. Proc. to Audio and Acoust., Oct. 2001, pp. 199-202]에 기술된 바와 같은 파라메트릭 스테레오 또는 다채널 오디 코딩은, 다운믹스(down-mix) - 보통 모노(mono) 또는 스테레오(stereo)- 오디오 신호로부터 다채널 오디오 신호를 합성하기 위해 공간 큐(spatial cue)를 사용하며, 다채널 오디오 신호는 다운믹스 오디오 신호보다 많은 채널을 가진다. 보통, 다운믹스 오디오 신호는 다채널 오디오 신호의 복수의 오디오 채널 신호, 예컨대 스테레오 오디오 신호의 중첩으로부터 생긴다. 이러한 보다 적은 채널은 파형 코딩되고 원래의 신호 채널 관계(original signal channel relation)에 관련된 부가 정보(side information), 즉, 공간 큐가 인코딩 파라미터로서 코딩된 오디오 채널에 추가된다. 디코더는 이 부가 정보를 사용하여 디코딩된, 파형 코딩된 오디오 채널에 기초하여 원래 개수의 오디오 채널을 재생성한다.
기본적인 파라메트릭 스테레오 코더는, 모노 다운믹스 오디오 신호로부터 스테레오 신호를 생성하는 데 필요한 큐로서 채널 간 레벨 차(inter-channel level difference, ILD 또는 CLD)를 사용할 수 있다. 더욱 정교한 코더는 또한 오디오 채널 신호, 즉 오디오 채널, 간의 유사도(degree of similarity)를 나타낼 수 있는 채널 간 코히어런스(inter-channel coherence, ICC)를 사용할 수 있다. 또한, 예컨대 머리관련 전달 함수(head-related transfer function, HRTF) 필터링를 사용하여 3D 오디오 또는 헤드폰 기반 서라운드 렌더링(surround rendering)을 위해 바이노럴 스테레오 신호(binaural stereo signal)를 코딩할 때, 청간 간 시간 차(an inter-aural time difference, ITD)가 채널 간의 지연 차를 재현하는 데 역할을 할 수 있다.
양귀 간 시간 차(ITD)는, 도 8에서 볼 수 있듯이, 두 귀(803, 805) 사이의 음(sound)의 도달 시간의 차이다. 이는 음원(801)의 방향(807) 또는 입사각
Figure 112014102167534-pct00001
(머리(809)에 대한)을 식별하기 위한 큐(cue)를 제공하기 때문에, 음의 국지화(localization)에 중요하다. 신호가 한쪽으로부터 귀(803, 805)에 도달하면, 신호는 먼 귀(803)(반대쪽의)에 이르는 더 긴 경로(811)와 가까운 귀(805)(같은 쪽의)에 이르는 더 짧은 경로(813)을 가진다. 이 경로 길이의 차는 두 귀(803, 805)에서의 음의 도달 사이의 시간 차(815)를 초래하고, 이것이 검출되어 음원(801)의 방향(807)을 식별하는 처리를 돕는다.
도 8은 ITD(Δt를 또는 시간 차(815)로 표시됨)의 일례를 제공한다. 두 귀 (803, 805)에서의 도달 시간의 차이는, 음 파형의 지연 시간으로 나타난다. 왼쪽 귀(803)에 파형이 먼저 오는 경우, ITD(815)는 양(positive)이고, 그렇지 않으면 음(negative)이다. 음원(801)이 청자의 바로 앞에 있는 경우, 파형은 양쪽 귀(803, 805)에 동시에 도달하고 따라서 ITD(815)는 영(zero)이다.
ITD 큐는 대부분의 스테레오 레코딩에 중요하다. 예를 들어, 머리관련 전달 함수(HRTF) 처리에 기초하여, 예를 들어 더미 머리(dummy head) 또는 바이노럴 합성을 사용한 실시간 레코딩으로부터 취득될 수 있는 바이노럴 오디오 신호는, 음악 레코딩 또는 오디오 회의에 사용된다. 따라서, 이것은 저비트율 파라메트릭 스테레오 코덱 및 특히 회화 애플리케이션을 타켓으로 하는 코덱에 매우 중요한 파라미터이다. 저 비트율 파라메트릭 스테레오 코덱을 위한 저 복잡도의 안정적인 ITD 추정 알고리즘이 필요하다. 또한, ITD 파라미터의 사용은, 예컨대 채널 간 레벨 차(CLD 또는 ILD)와 채널 간 코히어런스(ICC)와 같은, 다른 파라미터에 더하여, 비트율 오버헤드를 증가시킬 수 있다. 이러한 특정한 매우 낮은 비트율 시나리오의 경우, 단 하나의 전 대역 ITD 파라미터가 전송될 수 있다. 단 하나의 전 대역(full band) ITD가 추정될 때, 안정성에 대한 제약은 훨씬 더 달성하기 어려워진다.
파라미터가 상호 상관(cross-correlation), 또는 상호 스펙트럼(cross spectrum) 또는 에너지를 사용하여 추정되는 경우, 추정 함수의 급격한 변화는 파라미터 추정의 불안정을 초래할 수도 있다. 추정된 파라미터는 프레임마다에 너무 빨리 너무 빈번하게 변화될지도 모르며, 이는 일반적으로 원하지 않는 것이다. 이는 상호 상관의 신뢰성 없는 추정자(estimator)를 초래할 수 있는, 프레임의 크기가 작은 경우일 수 있다. 불안정성 문제는, 실제 소스는 그 위치가 변화하지 않지만 왼쪽에서 오른쪽으로 및/또는 그 반대로 점프하는 것 같은 소스로 인식될 것이다. 불안정성 문제는 소스 위치가 왼쪽에서 오른쪽으로 점프하지 않더라도 청자에 의해 탐지될 수 있다. 시간이 지남에 따라 작은 소스 위치 변화가 쉽게 청자에 의해 인식되며 실제 소스가 고정되는 경우 회피되어야 한다.
예를 들어, 양귀 간 시간 차(ITD)는 파라메트릭 스테레오 코덱에 중요한 파라미터이다. ITD가 상호 상관 함수의 계산에 기초하여 주파수 영역(frequency domain)에서 추정되는 경우, 추정된 ITD는 음원의 위치가 고정되어 있고 실제 ITD가 안정된 경우에도, 일반적으로 연속하는 프레임에 걸쳐 안정적이지 않다. 안정성 문제는 ITD 추정을 위해 상호 상관을 사용하기 전에 상호 상관에 평활 함수(smoothing function)를 적용함으로써 해결될 수 있다. 그러나, 상호 상관을 평활화하는 경우, 실제 ITD의 급격한 변화를 추종할 수 없다. 게다가, 안정한 평활화는 음원 또는 청자의 위치가 서로에 대해 이동할 때 ITD 변화를 신속하게 추종하는 추적 동작을 감소시킨다.
다른 예는 채널 레벨 차(channel level difference, CLD) 추정이다. CLD는 파라메트릭 스테레오 코덱에 대한 중요한 파라미터이다. CLD는 각각의 빈 또는 부대역의 에너지의 계산에 기초하여 주파수 영역에서 추정되는 경우, 추정된 CLD는 음원의 위치가 고정되어 있고 실제 레벨 차는 안정되어 있더라도, 일반적으로 연속하는 프레임에 걸쳐 안정적이지 않다. 안정성 문제는 CLD 추정을 위해 에너지를 사용하기 전에 에너지에 평활화 함수를 적용함으로써 해결될 수 있다. 그러나, 에너지 평활화할 때, 실제 CLD의 급격한 변화를 추종할 수 없고, 이에 따라 음원 또는 청자의 위치가 서로에 대해 이동하는 경우 CLD 변화를 신속하게 추종하는 추적 동작을 감소시킨다.
ITD 또는 CLD를 안정적으로 유지하면서 신속하게 ITD 또는 CLD 변화를 추종할 수 있도록 해주는 정확한 평활화 계수를 구하는 것은 불가능한 것으로 나타났으며, 특히 상관 함수의 해상도, 예를 들어 FFT의 주파수 해상도가 좋지 않은 경우 그러하다.
본 발명의 목적은 안정적인 파라미터 추정과 고속 파라미터 추정, 둘 다를 제공하는 다채널 오디오 인코더의 개념을 제공하는 것이다.
이 목적은 독립항의 특징에 의해 달성된다. 추가적인 실시형태는 종속항, 상세한 설명 및 도면으로부터 명백하다.
본 발명은, 강한 평활화 및 낮은 평활화라고도 하는 약한 평활화, 둘 다를, ITD의 경우 상호 상관에 또는 CLD의 경우 에너지에 적용하여, 하나는 ITD 또는 CLD 변화를 신속하게 추종하는 한편 다른 하나는 연속하는 프레임에 걸쳐 안정한 파라미터 값을 제공하는, 두 개의 상이한 인코딩 파라미터를 구하는 것에 기초한다. 안정성 기준과 같은, 품질 기준에 따라 스마트 검출 절차를 이용하여, 결과로서 얻은 인코딩 파라미터는 ITD 또는 CLD 변화를 안정적이고 신속하게 추종하는 것이다.
상관관계(correlation)에 대한 하나의 평가는, 안정성, 즉 실제 소스가 이동하지 않는 경우 시간이 지남에 따라 ITD 파라미터의 일관성있는 평가를 유지하는 것, 및 반응성(reactivity), 즉 실제 소스가 이동하는 경우 또는 위치가 상이한 새로운 소스가 오디오 화면에 나타나는 경우 평가 함수를 매우 빠르게 변경하는 것, 이 둘 다를 얻기에 충분하지 않다는 것이다. 상이한 평활 인자(smoothing factor)에 따라 상이한 메모리 효과를 갖는 동일한 파라미터에 대해 두 개의 다른 평가 함수를 가지는 것은, 하나는 안정성에 대한 평가에 그리고 다른 하나는 반응성에 관한 평가에 집중할 수 있도록 한다. 최선의 평가, 즉 가장 신뢰성 있는 평가를 선택하기 위한 선택 알고리즘이 제공된다. 본 발명의 측면들은 상이한 평활 계수를 갖는 동일한 평가 함수의 두 가지 버전에 기초한다. 품질이나 신뢰성 기준은 장기 평가에서 단기 평가로의 전환을 결정하기 위해 도입된다. 단기 평가 및 장기 평가, 둘 다로부터 혜택을 얻으려면, 장기 상태는 메모리 효과를 제거하기 위해 단기간의 상태로 갱신되어야 한다.
본 발명을 상세하게 설명하기 위해, 다음의 용어, 약어 및 표기법을 사용한다:
BCC: 바이노럴 큐 코딩(binaural cues coding), 채널 간 관계를 설명하기 위해 다운믹스 및 바이노럴 큐(또는 공간 파라미터)를 사용하는 스테레오 또는 다채널 신호의 코딩.
바이노럴 큐: 좌우 귀 입구의 신호 사이의 채널 간 큐(ITD, ILD, 및 IC도 참조).
CLD: 채널 레벨 차(channel level difference), ILD와 동일.
FFT: DFT의 빠른 구현, 고속 푸리에 변환(Fast Fourier Transform)으로 표시됨.
HRTF: 머리 관련 전달 함수(Head-related transfer function), 자유장(free-field)에서의 소스에서 좌우 귀 입구로의 모델링 전달(modeling transduction)
IC: 양귀 간 코히어런스(Inter-aural coherence), 즉, 좌우 귀 입구 신호 사이의 유사도. 이것은 때때로 IAC 또는 양귀 간 상호 상관(interaural cross-correlation, IACC)이라고도 한다.
ICC: 채널 간 코히어런스, 채널 간 상관관계(inter-channel correlation). IC와 동일하지만, 임의의 신호 쌍(예컨대, 라우드스피커 신호 쌍, 귀 입구 신호 쌍 등) 사이에 더욱 일반적으로 정의된다.
ICPD: 채널 간 위상 차. 신호 쌍 사이의 평균 위상 차.
ICLD: 채널 간 레벨 차. ILD와 동일하지만, 임의의 신호 쌍(예컨대, 라우드스피커 신호 쌍, 귀 입구 신호 쌍 등) 사이에 더욱 일반적으로 정의된다.
ICTD: 채널 간 시간 차. ITD와 동일하지만, 임의의 신호 쌍(예컨대, 라우드스피커 신호 쌍, 귀 입구 신호 쌍 등) 사이에 더욱 일반적으로 정의된다.
ILD: 양귀 간 레벨 차, 즉, 좌우 귀 입구 신호 사이 레벨 차. 때로는 양귀 간 강도 차(interaural intensity difference, IID)라고도 한다.
IPD: 양귀 간 위상 차, 즉, 좌우 귀 입구 신호 사이의 위상 차.
ITD: 양귀 간 시간 차, 즉, 좌우 귀 입구 신호 간의 시간 차. 때로는 양귀 간 시간 지연이라고도 한다.
ICD: 채널 간 차(inter-channel difference). 두 채널 사이의 차에 대한 일반적인 용어, 예컨대, 두 채널 사이의 시간 차, 위상 차, 레벨 차 또는 코히어런스 차.
믹싱: 주어진 다수의 소스 신호(예컨대, 개별적으로 녹음된 악기, 멀티트랙 레코딩), 공간 오디오 재생을 위해 의도된 스테레오 또는 다채널 오디오 신호를 생성하는 프로세스를 믹싱으로 표시한다.
OPCD: 전체 채널 위상 차(overall channel phase difference). 둘 이상의 오디오 채널의 공통 위상 수정(common phase modification).
공간 오디오: 적절한 재생 시스템을 통해 재생될 때, 청각 공간 이미지(auditory spatial image)를 불러일으키는 오디오 신호.
공간 큐(spatial cue): 공간 지각에 대한 단서. 이 용어는 스테레오 또는 다채널 오디오 신호(ICTD, ICLD, 및 ICC도 참조)의 채널 쌍 사이의 큐에 대해 사용되는 용어이다. 또한 공간 파라미터 또는 바이노럴 큐로도 표시된다.
제1 측면에 따르면, 본 발명은, 각각이 오디오 채널 신호 값을 가지는, 다채널 오디오 신호의 복수의 오디오 채널 신호 중의 오디오 채널 신호에 대한 인코딩 파라미터를 결정하는 방법에 관한 것이며, 상기 방법은, 상기 오디오 채널 신호에 대해 상기 오디오 채널 신호의 오디오 채널 신호 값 및 기준 오디오 신호의 기준 오디오 신호 값으로부터 함수의 세트를 결정하는 단계 - 상기 기준 오디오 신호는 상기 복수의 오디오 채널 신호 중 다른 오디오 채널 신호임 - ; 상기 다채널 오디오 신호의 프레임 시퀀스에 대한 상기 함수의 세트의 평활화에 기초하여, 제1 세트의 인코딩 파라미터를 결정하는 단계 - 상기 평활화는 제1 평활화 계수에 기초함 -; 상기 다채널 오디오 신호의 프레임 시퀀스에 대한 상기 함수의 세트의 평활화에 기초하여, 제2 세트의 인코딩 파라미터를 결정하는 단계 - 상기 평활화는 제2 평활화 계수에 기초함 -; 및 상기 제1 세트의 인코딩 파라미터 및/또는 상기 제2 세트의 인코딩 파라미터에 대한 품질 기준에 기초하여 상기 인코딩 파라미터를 결정하는 단계를 포함한다.
제2 측면에 따르면, 본 발명은, 각각이 오디오 채널 신호 값을 가지는, 다채널 오디오 신호의 복수의 오디오 채널 신호 중의 오디오 채널 신호에 대한 인코딩 파라미터를 결정하는 방법에 관한 것이며, 상기 방법은, 상기 오디오 채널 신호에 대해 상기 오디오 채널 신호의 오디오 채널 신호 값 및 기준 오디오 신호의 기준 오디오 신호 값으로부터 함수의 세트를 결정하는 단계 - 상기 기준 오디오 신호는 상기 복수의 다채널 오디오 신호의 둘 이상의 오디오 채널 신호로부터 얻은 다운 믹스 오디오 신호임 - ; 상기 다채널 오디오 신호의 프레임 시퀀스에 대한 상기 함수의 세트의 평활화에 기초하여, 제1 세트의 인코딩 파라미터를 결정하는 단계 - 상기 평활화는 제1 평활화 계수에 기초함 -; 상기 다채널 오디오 신호의 프레임 시퀀스에 대한 상기 함수의 세트의 평활화에 기초하여, 제2 세트의 인코딩 파라미터를 결정하는 단계 - 상기 평활화는 제2 평활화 계수에 기초함 -; 및 상기 제1 세트의 인코딩 파라미터 및/또는 상기 제2 세트의 인코딩 파라미터에 대한 품질 기준에 기초하여, 상기 인코딩 파라미터를 결정하는 단계를 포함한다.
상기 함수 세트의 강하게 평활화된 버전은, 예컨대 제1 평활 파라미터에 기초한 평활화는 추정이 안정되게 한다. 상기 함수 세트의 약하게 평활화된 버전은, 예컨대 동시에 결정되는 제2 평활 파라미터에 기초한 평활화는 추정이 추정 파라미터, 즉 ITD 또는 CLD의 실제 빠른 변화를 추종하게 한다. 함수 세트의 강하게 평활화된 버전의 메모리는 함수 세트의 약하게 평활화된 버전에 의해 갱신되어 추적 속도 및 안정성에 대한 최적의 결과를 제공한다. 어느 평활화된 버전을 사용할 것인지의 결정은 제1 세트 및/또는 제2 세트의 인코딩 파라미터의 품질 메트릭(quality metric)에 기초한다. 따라서, 안정적이고 빠른 파라미터 추정이 제공된다.
상기 제1 측면 또는 제2 측면에 따른 방법의 제1 가능한 실시형태에서, 상기 함수의 세트를 결정하는 단계는, 상기 오디오 채널 신호의 상기 오디오 채널 신호 값의 주파수 변환을 결정하는 단계; 상기 기준 오디오 신호의 상기 기준 오디오 신호 값의 주파수 변환을 결정하는 단계; 상기 함수의 세트를, 주파수 부대역(sub-band)의 서브세트의 적어도 각 주파수 부대역에 대한 상호 스펙트럼(cross spectrum) 또는 상호 상관(cross correlation)으로서 결정하는 단계를 포함하고, 상기 함수의 세트의 함수 각각은, 상기 함수의 세트의 함수가 연관되어 있는 각각의 주파수 부대역(b)에서의, 상기 기준 오디오 신호의 대역 제한 신호 부분과 상기 오디오 채널 신호의 대역 제한 신호 부분 사이에서 계산된다.
상호 상관에 기초하여 주파수 영역에서 인코딩 파라미터를 추정할 때, 인코딩 파라미터 추정의 안정성은 높아진다. 상기 함수의 세트는 주파수 부대역에 대해 처리될 수 있고, 이로써 인코딩 파라미터의 선택에 있어 유연성을 향상시키고 주파수 부대역이 전 주파수 대역보다 노이즈에 덜 민감하기 때문에 노이즈에 대한 강건성을 향상시킨다.
상기 제1 측면의 제1 실시형태 또는 제2 측면의 제1 실시형태에 따른 방법의 제2 가능한 실시형태에서, 주파수 부대역은 하나 또는 복수의 주파수 빈(bin)을 포함한다.
주파수 부대역의 크기는 유연하게 조정될 수 있으므로 주파수 부대역마다 상이한 인코딩 파라미터를 사용할 수 있도록 해준다.
상기 제1 측면 자체 또는 제2 측면 자체 또는 제1 측면의 선행하는 실시형태 중 어느 한 실시형태 또는 제2 측면의 선행하는 실시형태 중 어느 한 실시형태에 따른 방법의 제3 가능한 실시형태에서, 상기 제1 세트 및 제2 세트의 인코딩 파라미터는 채널 간 차를 포함하고, 상기 채널 간 차는 채널 간 시간 차 및/또는 채널 간 레벨 차를 포함한다.
채널 간 차는 다채널 오디오 신호의 제1 오디오 채널과 제2 오디오 채널 간의 차를 검출하기 위한 공간 파라미터로서 사용될 수 있다. 상기 차는 예를 들어 양귀 간 시간 차 또는 채널 간 시간 차 또는 두 오디오 채널의 레벨 차와 같은 도달 시간의 차일 수 있다. 두 차는 모두 인코딩 파라미티로서의 사용에 적합하다.
상기 제1 측면 자체 또는 제2 측면 자체 또는 제1 측면의 선행하는 실시형태 중 어느 하나 또는 제2 측면의 선행하는 실시형태 중 어느 하나에 따른 방법의 제4 가능한 실시형태에서, 상기 품질 기준에 기초하여 상기 인코딩 파라미터를 결정하는 단계는, 상기 품질 기준에 의해 사용되는 안정성(stability) 파라미터를 결정하는 단계를 포함한다.
품질 기준은, 예를 들어, 안정성 파라미터에 기초할 수 있으므로, 인코딩 파라미터 추정의 안정성을 향상시킨다. 추가 또는 대안으로, 품질 기준은 사용자의 경험 품질(quality of experience, QoE)을 향상시키기 위해 QoE 기준에 기초할 수 있다. 품질 기준은 오디오 코딩을 수행할 때 대역폭을 효율적으로 사용하기 위해 대역폭 기준에 기초할 수 있다.
상기 제1 측면의 제4 실시형태 또는 제2 측면의 제4 실시형태에 따른 방법의 제5 가능한 실시형태에서, 상기 인코딩 파라미터를 결정하는 단계는, 상기 프레임 시퀀스에 대한 상기 제2 세트의 인코딩 파라미터의 연속하는 값 간의 비교에 기초하여 상기 제2 세트의 인코딩 파라미터의 안정성 파라미터를 결정하는 단계; 및 상기 안정성 파라미터에 따라 상기 인코딩 파라미터 결정하는 단계를 포함한다.
안정성 파라미터를 사용함으로써, 추정의 안정성이 향상된다. 게다가, 안정성 파라미터가 안정성의 손실을 나타낼 때까지 에너지의 상호 상관의 평활화는 감소될 수 있기 때문에, 추정의 속도가 향상된다.
상기 제1 측면의 제4 실시형태 또는 제2 측면의 제4 실시형태에 따른 방법의 제6 가능한 실시형태에서, 상기 안정성 파라미터는 적어도 상기 제2 세트의 인코딩 파라미터의 표준 편차에 기초한다.
표준 편차는 계산하기 쉬우며 안정성의 정확한 측정값을 제공한다. 표준 편차가 작은 경우, 추정은 안정적이거나 신뢰성이 있고, 표준 편차가 큰 경우, 그 추정은 불안정하거나 신뢰성이 없다.
상기 제1 측면의 제4 실시형태 또는 제2 측면의 제4 실시형태 또는 상기 제1 측면의 제5 실시형태 또는 제2 측면의 제5 실시형태에 따른 방법의 제7 가능한 실시형태에서, 상기 안정성 파라미터는 상기 다채널 오디오 신호의 하나 프레임 또는 복수의 프레임에 걸쳐 결정된다.
다채널 오디오 신호의 하나 프레임에 걸친 안정성 파라미터를 결정하는 것은 구현하기 쉬우며 계산 복잡도가 낮은 한편 복수의 프레임에 걸쳐 안정 파라미터를 결정하는 것은 안전성의 정확한 추정을 제공한다.
상기 제1 측면의 제4 내지 제7 실시형태 중 어느 한 실시형태 또는 제2 측면의 제4 내지 제7 실시형태 중 어느 한 실시형태에 따른 방법의 제8 가능한 실시형태에서, 상기 인코딩 파라미터의 결정은 상기 안정성 파라미터의 임계값 초과(threshold crossing)에 기초하여 결정된다.
안정성 파라미터가 임계값보다 작은 경우, 추정은 안정적이거나 신뢰성이 있ㄴ는 한편, 안정성 파라미터가 임계값보다 큰 경우, 추정은 불안정하거나 신뢰성이 없다.
상기 제1 측면의 제8 실시형태 또는 제2 측면의 제8 실시형태에 따른 방법의 제9 가능한 실시형태에서, 상기 방법은 상기 안정성 파라미터가 임계값을 초과하는 경우, 상기 제1 세트의 인코딩 파라미터를 상기 제2 세트의 인코딩 파라미터로 갱신하는 단계를 더 포함한다.
상기 갱신에 의해 제1 세트의 인코딩 파라미터의 추정이 향상될 수 있다. 안정성 파라미터가 안정적인 추정을 나타내는 임계값보다 큰 경우, 장기 평활화가 단기 평활화로 갱신 또는 대체될 수 있으므로 안정성을 유지하면서 추정의 속도를 향상시킨다.
상기 제1 측면 자체 또는 제2 측면 자체 또는 제1 측면의 선행하는 실시형태 중 어느 한 실시형태 또는 제2 측면의 선행하는 실시형태 중 어느 한 실시형태에 따른 방법의 제10 가능한 실시형태에서,
상기 제1 및 제2 평활화 계수에 기초한 상기 함수의 세트의 평활화는, 상기 제1 및 제2 평활화 계수에 기초한 제1 계수를 승산한 상기 함수의 세트와 상기 제1 및 제2 평활화 계수에 기초한 제2 계수를 승산한 상기 함수의 세트의, 제1 및 제2 평활화된 버전의 메모리 상태의 가산으로써 계산된다.
이러한 재귀적인 계산(recursive computation)은 함수 세트의 제1 및 제2 평활화된 버전의 과거 값을 저장하기 위해 메모리를 사용한다. 재귀적인 평활화는 가산 및 승산의 수가 적기 때문에 계산 효율적(computational efficient)이다. 재귀적인 평활화는 과거에 평활화된 함수의 세트를 저장하기 위해 단 하나의 메모리 상태만을 필요로 하기 때문에 메모리 효율적(memory-efficient )이고, 메모리 상태는 각 계산 단계에서 갱신된다.
상기 제1 측면의 제10 실시형태 또는 제2 측면의 제10 실시형태에 따른 방법의 제11 가능한 실시형태에서, 상기 방법은, 상기 안정성 파라미터가 상기 임계값을 초과하는 경우, 상기 함수의 세트의 제1 평활화된 버전의 메모리 상태를 상기 함수의 세트의 제2 평활화된 버전의 메모리 상태로 갱신하는 단계를 더 포함한다.
안정성 파라미터에 따라 함수의 세트의 제1 평활화된 버전의 메모리 상태를 함수의 세트의 제2 평활화된 버전의 메모리 상태로 갱신함으로써, 추정의 안정성 및 속도가 향상된다. 안정성 파라미터가 안정적인 추정을 나타내는 임계값보다 큰 경우, 장기 평활화, 즉 함수 세트의 제1 평활화된 버전이 단기 평활화, 즉 함수 세트의 제2 평활화된 버전으로 갱신 또는 대체될 수 있으므로, 안정성을 유지하면서 추정의 속도를 향상시킨다.
상기 제1 측면 자체 또는 제2 측면 자체 또는 제1 측면의 선행하는 실시형태 중 어느 한 실시형태 또는 제2 측면의 선행하는 실시형태 중 어느 한 실시형태에 따른 방법의 제12 가능한 실시형태에서, 상기 제1 평활화 계수는 상기 제2 평활화 계수보다 크다.
제1 평활화 계수는 장기 추정을 가능하게 하는 한편 제2 평활화 계수는 단기 추정을 가능하게 하므로, 상이한 평활화 결과들 간의 구별을 가능하게 한다.
상기 제1 측면 자체 또는 제2 측면 자체 또는 제1 측면의 선행하는 실시형태 중 어느 한 실시형태 또는 제2 측면의 선행하는 실시형태 중 어느 한 실시형태에 따른 방법의 제13 가능한 실시형태에서, 상기 함수 세트의 평활화는 상기 다채널 오디오 신호의 적어도 두 개의 연속하는 프레임에 대한 것이다.
다채널 오디오 신호의 둘 이상의 연속하는 프레임이 사용되면 평활화는 더욱 정확하다.
상기 제1 측면 자체 또는 제2 측면 자체 또는 제1 측면의 선행하는 실시형태 중 어느 한 실시형태 또는 제2 측면의 선행하는 실시형태 중 어느 한 실시형태에 따른 방법의 제14 가능한 실시형태에서, 상기 함수 세트의 평활화는 양의 값의 상기 제2 세트의 인코딩 파라미터와 음의 값의 상기 제2 세트의 인코딩 파라미터를 구별한다.
양의 값과 음의 값의 제2 세트의 인코딩 파라미터를 구별함으로써, 추정은 더 높은 정밀도를 가진다.
상기 제1 측면의 제14 실시형태 또는 제2 측면의 제14 실시형태에 따른 방법의 제15 가능한 실시형태에서, 상기 함수 세트의 평활화는 다수의 주파수 빈 또는 주파수 부대역에 걸쳐 양의 값의 상기 제2 세트의 인코딩 파라미터의 제1 개수와 음의 값의 상기 제2 세트의 인코딩 파라미터의 제2 개수를 카운팅하는 것을 더 포함한다.
양의 값 및 음의 값을 카운팅하는 것은 그 부호에 따라 제2 세트의 인코딩 파라미터를 구별할 수 있게 한다. 이 구별에 의해 추정 속도가 향상된다.
제3 측면에 따르면, 본 발명은 각각이 오디오 채널 신호 값을 가지는, 다채널 오디오 신호의 복수의 오디오 채널 신호 중의 오디오 채널 신호에 대한 인코딩 파라미터를 결정하는 다채널 오디오 인코더에 관한 것이며, 상기 다채널 오디오 인코더는, 상기 오디오 채널 신호에 대해 상기 오디오 채널 신호의 오디오 채널 신호 값 및 기준 오디오 신호의 기준 오디오 신호 값으로부터 함수의 세트를 결정하는 제1 결정기 - 상기 기준 오디오 신호는 상기 복수의 오디오 채널 신호 중 다른 오디오 채널 신호임 -; 기 다채널 오디오 신호의 프레임 시퀀스에 대한 상기 함수의 세트의 평활화에 기초하여, 제1 세트의 인코딩 파라미터를 결정하는 제2 결정기 - 상기 평활화는 제1 평활화 계수에 기초함 -; 상기 다채널 오디오 신호의 프레임 시퀀스에 대한 상기 함수의 세트의 평활화에 기초하여, 제2 세트의 인코딩 파라미터를 결정하는 제3 결정기 - 상기 평활화는 제2 평활화 계수에 기초함 -; 및 상기 제1 세트의 인코딩 파라미터 및/또는 상기 제2 세트의 인코딩 파라미터에 대한 품질 기준에 기초하여, 상기 인코딩 파라미터를 결정하는 인코딩 파라미터 결정기를 포함한다.
제4 측면에 따르면, 본 발명은 각각이 오디오 채널 신호 값을 가지는, 다채널 오디오 신호의 복수의 오디오 채널 신호 중의 오디오 채널 신호에 대한 인코딩 파라미터를 결정하는 다채널 오디오 인코더에 관한 것이며, 상기 다채널 오디오 인코더는, 상기 오디오 채널 신호에 대해 상기 오디오 채널 신호의 오디오 채널 신호 값 및 기준 오디오 신호의 기준 오디오 신호 값으로부터 함수의 세트를 결정하는 제1 결정기 - 상기 기준 오디오 신호는 상기 복수의 다채널 오디오 신호 중 적어도 두 개의 오디오 채널 신호로부터 얻은 다운믹스 오디오 신호임 -; 상기 다채널 오디오 신호의 프레임 시퀀스에 대한 상기 함수의 세트의 평활화에 기초하여, 제1 세트의 인코딩 파라미터를 결정하는 제2 결정기 - 상기 평활화는 제1 평활화 계수에 기초함 -; 상기 다채널 오디오 신호의 프레임 시퀀스에 대한 상기 함수의 세트의 평활화에 기초하여, 제2 세트의 인코딩 파라미터를 결정하는 제3 결정기 - 상기 평활화는 제2 평활화 계수에 기초함 -; 및 상기 제1 세트의 인코딩 파라미터 및/또는 상기 제2 세트의 인코딩 파라미터에 대한 품질 기준에 기초하여, 상기 인코딩 파라미터를 결정하는 인코딩 파라미터 결정기를 포함한다.
이러한 다채널 오디오 인코더는 속도 및 안정성에 대해 최적의 인코딩을 제공한다. 상기 함수 세트의 강하게 평활화된 버전은, 예컨대 제1 평활 파라미터에 기초한 평활화는 추정이 안정되게 한다. 상기 함수 세트의 약하게 평활화된 버전은, 예컨대 동시에 결정되는 제2 평활 파라미터에 기초한 평활화는 추정이 추정 파라미터, 즉 ITD 또는 CLD의 실제 빠른 변화를 추종하게 한다. 함수 세트의 강하게 평활화된 버전의 메모리는 함수 세트의 약하게 평활화된 버전에 의해 갱신되고 이로써 추적 속도 및 안정성에 대한 최적의 결과를 제공한다. 어느 평활화된 버전을 사용할 것인지의 결정은 제1 세트 및/또는 제2 세트의 인코딩 파라미터의 품질 메트릭에 기초한다. 따라서, 안정적이고 빠른 파라미터 추정이 모두 제공된다.
제5 측면에 따르면, 본 발명은 컴퓨터상에서 실행될 때, 상기 제1 측면 자체 또는 제2 측면 자체 또는 제1 측면의 선행하는 실시형태 중 어느 한 실시형태 또는 제2 측면의 선행하는 실시형태 중 어느 한 실시형태에 따른 방법을 수행하는 프로그램 코드를 포함하는 컴퓨터 프로그램에 관한 것이다.
제6 측면에 따르면, 본 발명은 컴퓨터상에서 실행될 때, 상기 제1 측면 자체 또는 제2 측면 자체 또는 제1 측면의 선행하는 실시형태 중 어느 한 실시형태 또는 제2 측면의 선행하는 실시형태 중 어느 한 실시형태에 따른 방법을 수행하는 프로그램 코드를 포함하는 컴퓨터 프로그램을 구비한 저장장치(storage), 특히 콤팩트 디스크 등의 기계로 판독 가능한 매체에 관한 것이다.
전술한 본 발명의 측면은 파라메트릭 공간 오디오 인코더에서의 ITD 추정에 사용될 수 있다. 파라메트릭 공간 오디오 인코더 또는 파라메트릭 다채널 오디오 인코더에서, 공간 파라미터는 비트 스트림으로 다중화되기 전에 추출되고 양자화된다. 파라미터(예를 들어, ITD)는 상호상관에 기초하여 주파수 영역에서 추정될 수 있다. 추정이 더욱 안정되게 하기 위해, 주파수 영역 상호 상관은 파라미터(ITD) 추정을 위해 강하게 평활화된다. 파라미터의 실제 빠른 변화를 추종하기 위해, 주파수 도메인 상호 상관의 약하게 평활화된 버전도, 메모리 효과를 감소시킴으로써 상호 상관의 거의 순간적인 추정에 기초하여 동시에 계산된다.
추정 함수의 약하게 평활화된 버전은 파라미터(ITD)의 추정 및 파라미터의 상태가 변화하는 경우에 상호 상관의 강하게 평활화된 버전의 상호 상관 메모리를 갱신하는 데 사용된다. 약하게 평활화된 버전의 사용에 대한 결정은 추정된 파라미터의 품질 메트릭에 기초한다. 파라미터는 추정 함수의 두 버전에 기초하여 추정된다. 최선의 추정은 유지되고 약하게 평활화된 함수가 선택되는 경우, 그것은 또한 강하게 평활화된 버전을 갱신하는 데 사용된다.
예를 들어. ITD 추정의 경우, ITD_inst(ITD의 약하게 평활화된 버전)은 주파수 영역 상호 상관의 약하게 평활화된 버전에 기초하여 계산된다. 여러 주파수 빈/부대역에 걸친 ITD_inst의 표준 편차가 미리 결정된 임계값보다 낮은 경우, 강한 평활화된 상호 상관의 메모리는 약하게 평활화된 버전에 근거하는 것에 의해 갱신될 것이고 약하게 평활화된 함수로 추정된 ITD가 선택된다.
단순한 품질 메트릭은 약하게 평활화된 버전 ITD 추정의 표준 편차에 기초한다. 물론, 다른 품질 메트릭을 유사하게 사용될 수 있다. 예를 들어, 위치 변경의 확률은 이용 가능한 모든 공간 정보(CLD, ITD, ICC)에 기초하여 계산될 수 있다. 일례로서, ITD의 빠른 변화와 CLD의 빠른 변화 간의 상관관계는 공간 이미지의 수정의 높은 확률을 나타낼 것이다.
여기에 기술한 방법은 디지털 신호 프로세서(Digital Signal Processor, DSP) 또는 마이크로컨트롤러 또는 임의의 다른 부프로세서(side-processor )의 소프트웨어로서, 또는 주문형 집적회로(application specific integrated circuit, ASIC) 내의 하드웨어로서 구현될 수 있다.
본 발명은 디지털 전자회로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 조합으로 구현될 수 있다.
본 발명의 추가적인 실시예를 다음의 도면과 관련하여 설명한다.
도 1a는 일 실시형태에 따른 오디오 채널 신호의 인코딩 파라미터를 결정하는 방법의 개략도를 나타낸다.
도 1b는 일 실시형태에 따른 오디오 채널 신호의 인코딩 파라미터를 결정하는 방법의 개략도이다.
도 2는 일 실시형태에 따른 ITD 추정 알고리즘의 개략도를 나타낸다.
도 3은 일 실시형태에 따른 CLD 추정 알고리즘의 개략도를 나타낸다.
도 4는 일 실시형태에 따른 파라메트릭 오디오 인코더의 블록도를 나타낸다.
도 5는 일 실시형태에 따른 파라메트릭 오디오 디코더의 블록도를 나타낸다.
도 6은 일 실시형태에 따른 파라메트릭 스테레오 오디오 인코더 및 디코더의 블록도를 나타낸다.
도 7은 일 실시형태에 따른 ITD 선택 알고리즘의 블록도를 나타낸다.
도 8은 양귀 간 시간 차의 원리를 설명하는 개략도를 나타낸다.
도 1a는 일 실시형태에 따른 오디오 채널 신호의 인코딩 파라미터를 결정하는 방법(100a)의 개략도를 나타낸다.
방법(100a)은 다채널 오디오 신호의 복수의 오디오 채널 신호 x1, x2 중 오디오 채널 신호 x1에 대한, 인코딩 파라미터 ITD, 예컨대 채널 간 시간 차 또는 양귀 간 시간 차를 결정하기 위한 것이다. 각각의 오디오 채널 신호 x1, x2는 오디오 채널 신호 값 x1[n], x2[n]을 포함한다. 방법(100a)는 다음의 단계를 포함한다:
오디오 채널 신호 x1에 대해, 오디오 채널 신호 x1의 오디오 채널 신호 값 x1[n] 및 기준 오디오 신호 x2의 기준 오디오 신호 값 x2[n]으로부터 함수의 세트 c[b]를 결정하는 단계(101) - 기준 오디오 신호는 복수의 오디오 채널 신호 중 다른 오디오 채널 신호 x2 또는 상기 복수의 다채널 오디오 신호 중 적어도 두 개의 오디오 채널 신호 x1, x2로부터 얻은 다운믹스 오디오 신호임 -;
다채널 오디오 신호의 프레임 시퀀스 i에 대한 함수의 세트 c[b]의 평활화에 기초하여, 제1 세트의 인코딩 파라미터 ITD[b]를 결정하는 단계(103a) - 평활화는 제1 평활화 계수 SMW1에 기초함 -;
다채널 오디오 신호의 프레임 시퀀스 i에 대한 함수의 세트 c[b]의 평활화에 기초하여, 제2 세트의 인코딩 파라미터 ITD_inst[b]를 결정하는 단계(105a) - 평활화는 제2 평활화 계수 SMW2에 기초함 -; 및
제1 세트의 인코딩 파라미터 ITD[b] 및/또는 제2 세트의 인코딩 파라미터 ITD_inst[b]에 대한 품질 기준에 기초하여 인코딩 파라미터 ITD를 결정하는 단계(107a).
일 실시형태에서, 인코딩 파라미터 ITD를 결정하는 단계(107a)는 제2 세트의 인코딩 파라미터 ITD_inst[b]의 안정성을 검사하는 단계를 포함한다. 제2 세트의 인코딩 파라미터 ITD_inst[b]가 모든 주파수 빈 b에 걸쳐 안정적이면, 제2 세트의 인코딩 파라미터 ITD_inst[b]에 기초한 인코딩 파라미터 ITD를 최종 추정값(final estimation)으로 선택하고, 제1 평활 계수 SMW1에 기초한 함수 세트 c[b]의 평활화의 메모리를 제2 평활 계수 SMW2에 기초한 함수 세트 c[b]의 평활화에 의해 갱신한다. 제2 세트의 인코딩 파라미터 ITD_inst[b]가 모든 주파수 빈 b에 걸쳐 안정적이지 않으면, 제1 세트의 인코딩 파라미터 ITD[b]에 기초한 인코딩 파라미터 ITD를 최종 추정값으로 선택한다.
일 실시형태에서, 방법(100a)은 다음의 단계를 포함한다:
제1 함수 c[b]를 계산하고(101) 제1 평활 계수에 기초하여 입력 신호 x1[n], x2[n]으로부터 파라미터 ITD를 추정하기 위해 관련 평활화된 함수 csm[b]를 계산한다(103a).
제2 평활 계수에 기초하여 입력 신호 x1[n], x2[n]으로부터 파라미터 ITD를 추정하기 위해 제2 평활화된 함수 csm _ inst[b] 를 계산한다(105a).
추정 함수의 두 개의 평활화된 버전 csm[b] 및 csm _ inst[b]에 기초하여 파라미터 ITD및 ITDinst의 제1 및 제2 추정값을 계산한다(107a).
파라미터 ITDinst의 제2 추정값의 안정성을 검사한다(107a). 파라미터의 제2 추정값이 안정적이면, 파라미터 ITDinst의 제2 추정값을 최종 추정값으로 선택하고 제1 평활화된 함수의 메모리를 제2 평활화된 함수에 의해 갱신한다. 파라미터의 제2 추정값이 안정적이 않으면, 파라미터 ITD의 제1 추정값을 최종 추정값으로 선택한다.
일 실시형태에서, 방법(100a)은 다음의 단계를 포함한다.
1. 제1 채널 신호 x1[n] 와 제2 채널 신호 x2[n] 의 FFT를 계산한다.
2. 주파수 영역에서 이러한 두 채널의 상호 상관 c[n]을 계산한다.
2-1. 상호 상관 c[n]을 강하게 평활화하고, 제1 평활 계수, 즉 장기 평활 계수에 대해 각각의 주파수 빈(또는 주파수 대역)의 ITD(채널 간 시간 차의 장기 추정)을 계산한다.
2-2. 상호 상관 c[n]을 약하게 평활화하고, 제2 평활 계수, 즉 단기 평활 계수에 대해 각각의 주파수 빈(또는 주파수 대역)의 ITD_inst(채널 간 시간 차의 단기 추정)을 계산한다.
3. ITD_inst의 평균과 표준 편차를 계산한다.
4. ITD_inst의 표준 편차가 임계값보다 작으면, 강하게 평활화된 상호 상관의 메모리를 약하게 평활화된 버전에서의 것으로 갱신하고, ITD_inst의 평균을 최종 ITD로서 출력한다. ITD_inst의 표준 편차가 임계값보다 크면, ITD의 평균을 최종 ITD로서 출력한다.
도 1b는 일 실시형태에 따른 오디오 채널 신호의 인코딩 파라미터를 결정하는 방법(100b)의 개략도를 나타낸다.
방법(100b)은 다채널 오디오 신호의 복수의 오디오 채널 신호 x1, x2 중 오디오 채널 신호 x1에 대한, 인코딩 파라미터 CLD, 예컨대 채널 간 레벨 차를 결정하기 위한 것이다. 각각의 오디오 채널 신호 x1, x2는 오디오 채널 신호 값 x1[n], x2[n]을 포함한다. 방법(100b)는 다음의 단계를 포함한다:
오디오 채널 신호 x1에 대해, 오디오 채널 신호 x1의 오디오 채널 신호 값 x1[n] 및 기준 오디오 신호 x2의 기준 오디오 신호 값 x2[n]으로부터 함수의 세트 c[b]를 결정하는 단계(101) - 기준 오디오 신호는 복수의 오디오 채널 신호 중 다른 오디오 채널 신호 x2 또는 복수의 다채널 오디오 신호 중 적어도 두 개의 오디오 채널 신호 x1, x2로부터 얻은 다운믹스 오디오 신호임 -;
다채널 오디오 신호의 프레임 시퀀스 i에 대한 함수의 세트 c[b]의 평활화에 기초하여, 제1 세트의 인코딩 파라미터 CLD[b]를 결정하는 단계(103b) - 평활화는 제1 평활화 계수 SMW1에 기초함 -;
다채널 오디오 신호의 프레임 시퀀스 i에 대한 함수의 세트 c[b]의 평활화에 기초하여, 제2 세트의 인코딩 파라미터 CLD_inst[b]를 결정하는 단계(105b) - 평활화는 제2 평활화 계수 SMW2에 기초함 -; 및
제1 세트의 인코딩 파라미터 CLD[b] 및/또는 제2 세트의 인코딩 파라미터 CLD_inst[b]에 대한 품질 기준에 기초하여 인코딩 파라미터 CLD를 결정하는 단계(107b).
일 실시형태에서, 인코딩 파라미터 CLD를 결정하는 단계(107b)는 제2 세트의 인코딩 파라미터 CLD_inst[b]의 안정성을 검사하는 단계를 포함한다. 제2 세트의 인코딩 파라미터 CLD_inst[b]가 모든 주파수 빈 b에 걸쳐 안정적이면, 제2 세트의 인코딩 파라미터 CLD_inst[b]에 기초한 인코딩 파라미터 CLD를 최종 추정값으로 선택하고, 제1 평활 계수 SMW1에 기초한 함수 세트 c[b]의 평활화의 메모리를 제2 평활 계수 SMW2에 기초한 함수 세트 c[b]의 평활화에 의해 갱신한다. 제2 세트의 인코딩 파라미터 CLD_inst[b]가 모든 주파수 빈 b에 걸쳐 안정적이지 않으면, 제1 세트의 인코딩 파라미터 CLD[b]에 기초한 인코딩 파라미터 CLD를 최종 추정값으로 선택한다.
일 실시형태에서, 방법(100b)은 다음의 단계를 포함한다:
제1 함수 c[b]를 계산하고(101), 제1 평활 계수에 기초하여 입력 신호 x1[n], x2[n]으로부터 파라미터 CLD를 추정하기 위해 관련 평활화된 함수 csm[b]를 계산한다(103b).
제2 평활 계수에 기초하여 입력 신호 x1[n], x2[n]으로부터 파라미터 CLD를 추정하기 위해 제2 평활화된 함수 csm _ inst[b] 를 계산한다(105b).
추정 함수의 두 개의 평활화된 버전 csm[b] 및 csm _ inst[b]에 기초하여 파라미터 CLD및 CLDinst의 제1 및 제2 추정값을 계산한다(107b).
파라미터 CLDinst의 제2 추정값의 안정성을 검사한다(107a). 파라미터의 제2 추정값이 안정적이면, 파라미터 CLDinst의 제2 추정값을 최종 추정값으로 선택하고 제1 평활화된 함수의 메모리를 제2 평활화된 함수에 의해 갱신한다. 파라미터의 제2 추정값이 안정적이 않으면, 파라미터 CLD의 제1 추정값을 최종 추정값으로 선택한다.
일 실시형태에서, 방법(100b)은 다음의 단계를 포함한다.
1. 제1 채널 신호 x1[n] 와 제2 채널 신호 x2[n] 의 FFT를 계산한다.
2. 주파수 영역에서 이러한 두 채널의 에너지 en[n]을 계산한다.
2-1. 에너지 en[n]을 강하게 평활화하고 제1 평활 계수, 즉 장기 평활 계수에 대해 각각의 주파수 빈(또는 주파수 대역)의 CLD(채널 간 레벨 차의 장기 추정)을 계산한다.
2-2. 에너지 en[n]을 약하게 평활화하고 제2 평활 계수, 즉 단기 평활 계수에 대해 각각의 주파수 빈(또는 주파수 대역)의 CLD_inst(채널 간 레벨 차의 단기 추정)을 계산한다.
3. CLD_inst에 기초하여 스테레오 이미지의 안정성을 검사한다.
4. 스테레오 이미지가 안정적이지 않으면, 강하게 평활화된 에너지의 메모리를 약하게 평활화된 버전에서의 것으로 갱신하고, CLD_inst를 최종 CLD로서 출력한다. 스테레오 이미지가 안정적이면, CLD를 최종 CLD로서 출력한다.
도 2는 일 실시형태에 따른 ITD 추정 알고리즘(200)의 개략도를 나타낸다.
제1 단계(209)에서, 시간 주파수 변환이 제1 입력 채널 x1[n]의 샘플에 적용되어 제1 입력 채널 x1의 주파수 표현 X1[k]를 취득한다. 제2 단계(211)에서, 시간 주파수 변환이 제2 입력 채널 x2[n] 의 샘플에 적용되어 제2 입력 채널 x2의 주파수 표현 X2[k]를 취득한다. 스테레오 입력 채널의 실시형태에서, 제1 입력 채널 x1은 왼쪽 채널일 수 있고 제2 입력 채널 x2는 오른쪽 채널일 수 있다. 바람직한 실시예에서, 시간 주파수 변환은 고속 푸리에 변환(Fast Fourier Transform, FFT) 또는 단기 푸리에 변환(Short Term Fourier Transform, STFT)이다. 다른 실시예에서, 시간 주파수 변환은 코사인 변조된 필터 뱅크(cosine modulated filter bank) 또는 복소 필터 뱅크(complex filter bank)이다.
제3 단계(213)에서, 상호 스펙트럼 c[b]가 부대역마다 제1 및 제2 입력 채널 x1, x2의 주파수 표현으로부터 다음과 같이 계산된다:
Figure 112014102167534-pct00002
위 식에서, c[b]는 부대역 빈 [b]의 상호 스펙트럼이다. X1[k] 및 X2[k]는 두 채널(예를 들어 스테레오의 경우 좌우 채널)의 FFT 계수이다. *는 켤레 복소수(complex conjugation)를 나타낸다. kb는 부대역 b의 시작 빈이고 kb +1은 인접한 부대역 b+1의 시작 빈이다. 따라서, kb에서 kb +1-1까지의 FFT의 주파수 빈 [k]는 부대역 [b]를 나타낸다. 또는 FFT의 각 주파수 빈 [b]에 대해 상호 스펙트럼은 다음과 같이 계산된다:
Figure 112014102167534-pct00003
위 식에서, c[b]는 주파수 빈 [b] 의 상호 스펙트럼이고, X1[b] 및 X2[b]는 두 채널의 FFT 계수이다. *는 켤레 복소수를 나타낸다. 이 경우에, 부대역 [b]는 하나의 주파수 빈 [k]에 직접 대응하고, 주파수 빈 [b] 및 [k]는 정확히 동일한 주파수 빈을 나타낸다. 이 실시형태에서의 상호 스펙트럼 c[b]는 도 1a 및 도 1b에 대해 설명한 함수의 세트 c[b]에 대응한다.
제4 단계(215) 및 제5 단계(219)에서, 두 버전의 평활화된 상호 스펙트럼 csm[b,i] 및 csm _ inst[b,i] 이 상호 스펙트럼 c[b]로부터 다음과 같이 계산된다:
Figure 112014102167534-pct00004
위 식에서, SMW1 및 SMW2는 각각 평활 인자이고, SMW1 > SMW2이다. i는 다채널 오디오 신호에 기초한 각각의 상호 스펙트럼의 프레임 인덱스이다. 예시적이지만 바람직한 실시예에서, SMW1 = 0.9844 및 SMW2 = 0.75이다.
제6 단계(221) 및 제7 단계(223)에서, 두 버전의 채널 간 시간 차 ITD 및 ITD_inst는 강하게 평활화된 상호 스펙트럼 csm[b,i] 및 약하게 평활화된 상호 스펙트럼 csm _ inst[b,i]에 기초하여 빈마다 또는 부대역마다 다음과 같이 각각 계산된다:
Figure 112014102167534-pct00005
위 식에서, 연산
Figure 112014102167534-pct00006
는 평활화된 상호 스펙트럼의 각도를 계산하기 위한 인수 연산자(argument operator)이다. N은 FFT 빈의 수이다.
제8 단계(225)에서, 강하게 평활화된 버전의 채널 간 시간 차 ITD는 모든 관심 빈(interesting bin)(또는 부대역)에 걸쳐 계산된다.
Figure 112014102167534-pct00007
위 식에서, B1 및 B2는 관심 주파수 영역 내의 첫 번째 및 마지막 빈(또는 부대역)의 인덱스이다.
제9 단계(227) 및 제10 단계(229)에서, 채널 간 시간 차 ITD_inst의 약하게 평활화된 버전의 평균 ITD_instmean 및 표준 편차 ITD_inststd가 모든 관심 주파수 빈(또는 주파수 부대역)에 걸쳐 계산된다.
Figure 112014102167534-pct00008
제11 단계(231)에서, 비교에 의해 채널 간 시간 차의 약하게 평활화된 버전의 표준 편차 ITD_inststd가 임계값(thr)보다 작은지를 검사한다: ITD_inststd < thr. 이것이 참(Y=yes)이면, 제1 평활화된 함수 csm[b,i]가 csm[b,i] = csm _ inst[b,i]에 따라 제12 단계(217)에서 갱신되고, 제13 단계(233)에서 채널 간 시간 차 ITD_inst의 약하게 평활화된 버전의 평균 ITD_instmean이 최종 인코딩 파라미터 ITD로서 출력된다. 참이 아니면(N=no), 제14 단계(235)에서 채널 간 시간 차 ITD의 강하게 평활화된 버전의 평균 ITDmean이 최종 인코딩 파라미터 ITD로서 출력된다.
전술한 단계 209, 211, 및 213은 도 1a에 대해 설명한 단계 101에 대응하는 단계 201로서 표현될 수 있다. 전술한 단계 215 및 221은 도 1a에 대해 설명한 단계 103a에 대응하는 단계 203으로서 표현될 수 있다. 전술한 단계 217, 219 및 223은 도 1a에 대해 설명한 단계 105a에 대응하는 단계 205로서 표현될 수 있다. 전술한 단계 225, 227, 229, 231 및 235는 도 1a에 대해 설명한 단계 107a에 대응하는 단계 207로서 표현될 수 있다.
ITD 추정의 바람직한 실시예에서, 인코딩 파라미터 ITD는 채널 간 시간 차에 대한 두 평활 버전 ITD 및 ITD_inst에 기초하여 계산되고, 두 평활 버전 ITD 및 ITD_inst 각각은 다음의 실시에 따른 ITD 및 ITD_inst 각각의 양 및 음의 계산에 기초하여 결정된다:
강하게 평활된 버전의 채널 간 시간 차 ITD의 양의 값 및 음의 값의 카운팅이 수행된다. 양의 ITD 및 음의 ITD의 평균 및 표준 편차는 ITD의 부호에 기초하여 다음과 같이 계산된다:
Figure 112014102167534-pct00009
위 식에서, Nbpos 및 Nbneg는 각각 양과 음의 ITD이다. M은 추출된 ITD의 총수이다. 유의할 것은, ITD가 0인 경우, 음의 ITD에 카운팅되거나 어느 평균에도 카운팅되지 않을 수 있다는 것이다.
ITD는 도 7에 나타낸 선택 알고리즘에 따라 평균 및 표준 편차에 기초하여 양과 음의 ITD로부터 선택된다.
동일한 계산이 약하게 평활화된 버전의 채널 간 시간 차 ITD_inst에 적용된다.
다채널 파라메트릭 오디오 코덱에 대한 방법의 애플리케이션에 따른 일 실시형태에서, 방법(200)은 다음의 단계를 포함한다.
제1 단계(209) 및 제2 단계(211)에서, 시간 주파수 변환이 입력 채널에 대해 적용된다. 바람직한 실시예에서, 시간 주파수 변환은 고속 푸리에 변환(FFT) 또는 단기 푸리에 변환(STFT)이다. 다른 실시예에서, 시간 주파수 변환은 코사인 변조된 필터 뱅크 또는 복소 필터 뱅크이다.
제3 단계(213)에서, 채널 j의 상호 스펙트럼이 다음과 같이 계산된다:
Figure 112014102167534-pct00010
위 식에서, c[b]는 빈 b 또는 부대역 b의 상호 스펙트럼이다. Xj[b] 및 Xref[b]는 채널 j와 기준 채널의 FFT 계수이다. *는 켤레 복소수를 나타낸다. kb는 부대역 b의 시작 빈이고 kb +1은 인접한 부대역 b+1의 시작 빈이다. 따라서, kb에서 kb +1-1까지의 FFT의 주파수 빈 [k]는 부대역 [b]를 나타낸다. 일 실시예에서 기준 신호 X ref 의 스펙트럼은 채널 X j (j는 [1,M] 내인 경우) 중 하나로서 선택되고, 그러면 M-1개의 공간 큐가 디코더에서 계산된다. 다른 실시형태에서, X ref 는 모노 다운믹스 신호의 스펙트럼이고, 이는 M개 채널 모두의 평균이고, 그러면 M개의 공간 큐가 디코더에서 계산된다. 다운믹스 신호를 다채널 오디오 신호의 기준으로서 사용하는 이점은 무성 신호(silent signal)를 기준 신호로서 사용하는 것을 회피하는 것이다. 실제 다운믹스 신호는 모든 채널의 에너지의 평균을 나타내므로, 덜 조용할 수 있다.
다른 실시형태에서, 상호 스펙트럼은 FFT의 주파수 빈 각각에 대해 다음과 같이 계산된다:
Figure 112014102167534-pct00011
위 식에서, cj[b]는 주파수 빈 [b] 의 상호 스펙트럼이다. X ref [b]는 기준 채널의 스펙트럼이고 채널 X j [b]([1,M]내의 j 경우)는 다채널 신호의 각 채널의 스펙트럼이다. *는 켤레 복소수를 나타낸다. 이 경우에, 부대역 [b]는 하나의 주파수 빈 [k]에 직접 대응하고, 주파수 빈 [b] 및 [k]는 정확히 동일한 주파수 빈을 나타낸다.
제4 단계(215) 및 제5 단계(219)에서, 두 버전의 평활화된 상호 스펙트럼이 다음과 같이 계산된다:
Figure 112014102167534-pct00012
위 식에서, SMW1 및 SMW2는 각각 평활 인자이고, SMW1 > SMW2이다. i는 다채널 오디오 신호에 기초한 프레임 인덱스이다. 바람직한 실시예에서, SMW1 = 0.9844 및 SMW2 = 0.75이다.
제6 단계(221) 및 제7 단계(223)에서, ITD 및 ITD_inst는 강하게 평활화된 상호 스펙트럼 csm 및 약하게 평활화된 상호 스펙트럼 csm _ inst에 기초하여 빈마다 또는 부대역마다 다음과 같이 각각 계산된다:
Figure 112014102167534-pct00013
위 식에서, 연산
Figure 112014102167534-pct00014
는 평활화된 상호 스펙트럼의 각도를 계산하기 위한 인수 연산자이다. N은 FFT 빈의 수이다.
제8 단계(225)에서, ITD의 평균이 모든 관심 빈(또는 부대역)에 걸쳐 계산된다.
Figure 112014102167534-pct00015
위 식에서,B1 및 B2는 관심 주파수 영역 내의 첫 번째 및 마지막 빈(또는 부대역)의 인덱스이다.
제9 단계(227) 및 제10 단계(229)에서, ITD_inst의 평균 및 표준 편차가 모든 관심 주파수 빈(또는 주파수 부대역)에 걸쳐 다음과 같이 계산된다.
Figure 112014102167534-pct00016
제11 단계(231)에서, ITD_inststd가 ITD_inststd < 임계값에 따라 임계값 thr보다 작은지를 검사한다. 작으면(Y 경로), 제1 평활화된 함수가 cj , sm[b,i] = cj,sm_inst[b,i]에 따라 제12 단계(217)에서 갱신되고, 제13 단계(233)에서 ITD_instj의 평균(ITD_instmean ,j)이 최종 인코딩 파라미터 ITDj로서 출력된다. 작지 않으면(N 경로), 제14 단계(235)에서 ITDj의 평균(ITDmean ,j)이 최종 ITDj로서 출력된다.
ITD 추정의 바람직한 실시예에서, 인코딩 파라미터 ITDj는 채널 간 시간 차의 두 평활 버전 ITDj 및 ITD_instj에 기초하여 계산되고, 여기서 두 평활 버전 ITDj 및 ITD_instj 각각은 다음의 실시에 따른 ITDj 및 ITD_instj 각각의 양과 음의 계산에 기초하여 결정된다:
강하게 평활된 버전의 채널 간 시간 차 ITD의 양과 음의 값의 카운팅이 수행된다. 양과 음의 ITD의 평균 및 표준 편차는 ITD의 부호에 기초하여 다음과 같이 계산된다:
Figure 112014102167534-pct00017
위 식에서, Nbpos 및 Nbneg는 각각 양과 음의 ITD이다. M은 추출된 ITD의 총수이다. 유의할 것은, ITD가 0인 경우, 음의 ITD에 카운팅되거나 어느 평균에도 카운팅되지 않을 수 있다는 것이다.
ITD는 도 7에 나타낸 선택 알고리즘에 따라 평균 및 표준 편차에 기초하여 양과 음의 ITD로부터 선택된다.
도 3은 일 실시형태에 따른 CLD 추정 알고리즘의 개략도를 나타낸다.
제1 단계(309)에서, 시간 주파수 변환이 제1 입력 채널 x1[n]의 샘플에 적용되어 제1 입력 채널 x1의 주파수 표현 X1[k]를 취득한다. 제2 단계(311)에서, 시간 주파수 변환이 제2 입력 채널 x2[n]의 샘플에 적용되어 제2 입력 채널 x2의 주파수 표현 X2[k]를 취득한다. 스테레오 입력 채널의 실시형태에서, 제1 입력 채널 x1은 왼쪽 채널일 수 있고 제2 입력 채널 x2는 오른쪽 채널일 수 있다. 바람직한 실시예에서, 시간 주파수 변환은 고속 푸리에 변환(FFT) 또는 단기 푸리에 변환(STFT)이다. 다른 실시예에서, 시간 주파수 변환은 코사인 변조된 필터 뱅크 또는 복소 필터 뱅크이다.
제3 단계(313)에서, 제1 채널 x1의 에너지 en1[b] 및 제2 채널 x2의 에너지 en2[b]가 부대역마다 다음과 같이 계산된다:
Figure 112014102167534-pct00018
위 식에서, en1[b] 및 en2[b]는 부대역 b의 에너지이다. X1[k] 및 X2[k]는 두 채널(예를 들어 스테레오의 경우 좌우 채널)의 FFT 계수이다. *는 켤레 복소수를 나타낸다. kb는 부대역 b의 시작 빈이고 kb +1은 인접한 부대역 b+1의 시작 빈이다. 따라서, kb에서 kb +1-1까지의 FFT의 주파수 빈 [k]는 부대역 [b]를 나타낸다.
또는 FFT의 주파수 빈 각각에 대해 두 채널 x1 및 x2의 에너지는 다음에 ㄷ따라 계산된다:
Figure 112014102167534-pct00019
위 식에서, en1[b] 및 en2[b]는 제1 및 제2 채널 각각의 주파수 빈 [b]의 에너지이고, X1[b] 및 X2[b]는 두 채널의 FFT 계수이다. *는 켤레 복소수를 나타낸다. 이 경우에, 부대역 [b]는 하나의 주파수 빈 [k]에 직접 대응하고, 주파수 빈 [b] 및 [k]는 정확히 동일한 주파수 빈을 나타낸다.
제4 단계(315)에서, 제1 채널 x1의 에너지의 강하게 평활화된 버전 en1_sm[b,i] 및 제2 채널 x2의 에너지의 강하게 평활화된 버전 en2 _ sm[b,i] , 그리고 제5 단계(319)에서 제1 채널 x1의 에너지의 약하게 평활화된 버전 en1 _ sm _ inst[b,i] 및 제2 채널 x2의 에너지의 약하게 평활화된 버전 en2 _ sm _ inst[b,i] 이, 다음과 같이 결정된다:
Figure 112014102167534-pct00020
위 식에서, SMW1 및 SMW2는 각각 평활 인자 또는 평활 계수이고, SMW1 > SMW2이다, 즉 SMW1는 강한 평활 인자이고 SMW2는 약한 평활 인자이다. i는 프레임 인덱스이다. 일 실시형태에서, CLD의 정확한 에볼루션(exact evolution) 다음에, SMW2 는 0(zero)으로 설정된다.
제6 단계(321) 및 제7 단계(323)에서, 강하게 평활된 버전의 채널 간 레벨 차 CLD 및 약하게 평활된 버전의 채널 간 레벨 차 CLD_inst는 강하게 평활화된 에너지 en1 _ sm 및 en2 _ sm과 약하게 평활된 에너지 en1 _ sm _ inst 및 en2 _ sm _ inst 에 각각 기초하여 빈마다 또는 부대역마다 다음과 같이 계산된다:
Figure 112014102167534-pct00021
제8 단계(329)에서, 스테레오 이미지의 안정성이 약하게 평활화된 버전의 채널 간 레벨차 CLD_inst에 기초하여 계산된다. 일 실시형태에서, 안정성 플래그는 국제특허공개 "WO 2010/079167 A1"에 기재된 방법에 따라 결정된다, 즉, 감도 측정값(sensitivity measure)이 계산된다. 감도 측정값은 패킷 손실에 기인하여 장기 예측(long term prediction, LTP) 필터 상태의 에러에 대해 현재 프레임이 얼마나 민감한지를 예측한다. 감도 측정값은 다음의 식에 따라 계산된다:
Figure 112014102167534-pct00022
위 식에서, PGLTP는 LPC(Linear Predictive Coding) 잔차 신호 rLPC 및 LTP(Long Term Prediction) 잔차 신호 rLTP의 에너지의 비율로서 측정된, 장기 예측 이득이고, PGLTP , HP는 다음 식에 따라 1차 고역 통과 필터를 통해 PGLTP를 실행함으로써 취득된 신호이다:
Figure 112014102167534-pct00023
감도 측정값은 동일 측정값의 LTP 예측 이득과 고역 통과 버전의 조합이다. LTP 예측 이득은 LTP 상태 에러를 출력 신호 에러와 직접 관련시키기 때문에 선택된다. 고역 통과 부분(high pass part)은 신호 변화에 역점을 두고 추가된다. 변화하는 신호는, 패킷 손실 후, 인코더 및 디코더에서의 LTP 상태가 매우 상이할 가능성이 가장 높을 것이기 때문에 심각한 에러 전파할 위험성이 높다.
감도 측정값은 스테레오 이미지의 안정성을 나타내는 플래그를 출력할 것이다. 비교 단계(331)에서, 플래그는 1인지 0인지가 검사된다. 플래그가 0이면(경로 N), 스테레오 이미지는 안정적이고, 두 개의 연속하는 프레임 사이에서 채널 간 레벨 차 CLD는 큰 변화가 없다. 플래그가 1이면(경로 Y), 스테레오 이미지는 안정적이지 않고, 이는 두 개의 연속하는 프레임 사이에서 채널 간 레벨 차 CLD가 매우 빨리 변화한다는 것을 의미한다.
제9 단계(331)에서, 이전 단계 329에서 출력되는 안정성 플래그를 검사한다. 안정성 플래그가 1이면(Y 경로), 제10 단계(317)에서 메모리가 갱신된다, 즉, 강하게 평활화된 에너지가 약하게 평활화된 에너지에 의해 다음과 같이 갱신된다:
en1 _ sm[b,i] = en1 _ sm _ inst[b,i] 및 en2 _ sm[b,i] = en2 _ sm _ inst[b,i], 그리고 제11 단계(333)에서, 약하게 평활화된 버전의 채널 간 레벨 차 CLD_inst가 최종 인코딩 파라미터 CLD로서 출력된다. 안정성 플래그가 0이면(경로 N), 제12 단계(335)에서 강하게 평활화된 버전의 채널 간 레벨 차 CLD가 최종 인코딩 파라미터 CLD로서 출력된다.
전술한 단계 309, 311, 및 313은 도 1b에 대해 설명한 단계 101에 대응하는 단계 301로서 표현될 수 있다. 전술한 단계 315 및 321은 도 1b에 대해 설명한 단계 103b에 대응하는 단계 303으로서 표현될 수 있다. 전술한 단계 317, 319 및 323은 도 1b에 대해 설명한 단계 105b에 대응하는 단계 305로서 표현될 수 있다. 전술한 단계 329, 331, 333 및 335는 도 1b에 대해 설명한 단계 107b에 대응하는 단계 307로서 표현될 수 있다.
도 4는 일 실시형태에 따른 파라메트릭 오디오 인코더(400)의 블록도를 나타낸다. 파라메트릭 오디오 인코더(400)는 입력 신호로서 다채널 오디오 신호(401)를 수신하고, 출력 신호(403)로서 비트 스트림을 제공한다. 파라메트릭 오디오 인코더(400)는, 인코딩 파라미터(415)를 생성하기 위한 다채널 오디오 신호(401)에 연결된 파라미터 생성기(405); 다운믹스 신호(411) 또는 합 신호를 생성하기 위한 다채널 오디오 신호(401)에 연결된 다운믹스 신호 생성기(407); 다운믹스 신호 생성기(407)에 연결되어 다운믹스 신호(411)를 인코딩하여 인코딩된 오디오 신호(413)를 제공하는 오디오 인코더(409); 및 결합기(417), 예컨대 파라미터 생성(405) 및 오디오 인코더(409)에 연결되어 인코딩 파라미터(415) 및 인코딩된 신호(413)로부터 비트 스트림(403)을 형성하는 비트 스트림 형성기(bit stream former)를 포함한다.
파라메트릭 오디오 인코더(400)는 스테레오 및 다운믹스 오디오 신호에 대한 오디오 코딩 방식을 구현하며, 단 하나의 오디오 채널만, 예컨대, 오디오 채널 x1, x2, …, xM 간의 "지각적으로 관련된 차이점"을 설명하는 추가적인 파라미터와 함께 다운믹스 오디오 채널을 전송한다. 상기 코딩 방식은 바이노럴 큐가 중요한 역할을 하기 때문에 바이노럴 큐 코딩(binaural cue coding, BCC)에 따른다. 도면에 나타낸 바와 같이, 다운믹스 오디오 신호(10)의 복수(M개)의 입력 오디오 채널 x1, x2, …, xM은 단 하나의 오디오 채널(411)로 다운믹싱되고, 또한 합 신호로서 표시된다. 오디오 채널 x1, x2, …, xM 간의 "지각적으로 관련된 차이"로서, 인코딩 파라미터(415), 예컨대, 채널 간 시간 차(ICTD), 채널 간 레벨 차(ICLD), 및/또는 채널 간 코히어런스(ICC)가, 주파수 및 시간의 함수로서 추정되고, 도 5에 기재된 디코더(500)에 부정보(side information)로서 송신된다.
BCC를 구현하는 파라미터 생성기(405)는 특정 시간 및 주파수 분해능으로 다채널 오디오 신호(401)를 처리한다. 사용된 주파수 분해능은 청각 시스템의 주파수 분해능에 의해 주로 동기 부여된다. 음향 심리학(Psychoacoustics)에서는 공간 지각이 음향 입력 신호의 임계 대역 표현(critical band representation)에 기초할 가능성이 가장 높다는 것을 시사한다. 이 주파수 분해능은, 대역폭이 청각 시스템의 임계 대역폭(critical bandwidth)과 동일하거나 비례하는 부대역(sub-band)을 가지는 가역 필터 뱅크(invertible filter-bank)를 사용함으로써 고려된다. 전송된 합 신호(411)가 다채널 오디오 신호(401)의 모든 신호 성분을 포함하는 것이 중요하다. 목표는 각 신호 성분이 완전하게 유지되는 것이다. 다채널 오디오 신호(401)의 오디오 입력 채널 x1, x2, …, xM의 단순한 합은 흔히 신호 성분의 증폭 또는 감쇄를 초래한다. 다시 말해, "단순한" 합에서의 신호 성분의 파워(power)는 대개 각 채널 x1, x2, …, xM의 대응하는 신호 성분의 파워의 합보다 크거나 작다. 따라서, 합 신호(411) 내의 신호 성분의 파워가 다채널 오디오 신호(401)의 모든 입력 오디오 채널 x1, x2, …, xM에서 대응하는 파워와 대략 같도록, 합 신호(411)을 등화하는 다운믹싱 기기(407)를 적용함으로써, 다운믹싱 기술이 사용된다. 입력 오디오 채널 x1, x2, …, xM은 다수의 부대역으로 분해된다. 이러한 부대역 중 하나는 X1[b]로 표시된다(표기 간략화를 위해 부대역 인덱스는 사용하지 않는 것에 유의할 것). 유사한 처리가 모든 부대역 독립적으로 적용되고, 보통 부대역 신호는 다운 샘플링된다. 각 입력 채널의 각 부대역의 신호는 가산된 다음 파워 정규화 인자와 승산된다.
합 신호(411)가 주어지면, 파라미터 생성기(405)는 ICTD, ICLD, 및/또는 ICC가 원본 다채널 오디오 신호(401)의 대응하는 큐에 근사하도록, 공간 인코딩 파라미터를 추출한다.
하나의 소스의 바이노럴 룸 임펄스 응답(binaural room impulse response, BRIR)을 고려할 때, 청각 이벤트 및 청자 포락선(listener envelopment)의 폭과 바이노럴 룸 임펄스 응답의 초기 부분(early part) 및 후기 부분(late part)에 대해 추정된 IC와의 사이에는 관계가 존재한다. 그러나, IC 또는 ICC와 일반 신호 및 BRIR만이 아닌 것에 대한 이러한 속성과의 사이의 관계는 간단하지 않다. 스테레오 및 다채널 오디오 신호는 보통 폐쇄된 공간에서의 레코딩으로 인해 반사된 신호 성분이 중첩되거나, 공간 인상(spatial impression)을 인위적으로 만들기 위해 레코딩 엔지니어에 의해 추가된, 동시에 활성화되는 소스 신호의 복잡한 믹스(complex mix)를 포함한다. 다른 음원 신호 및 그들의 반사는 시간-주파수 평면에서 서로 다른 영역을 점유한다. 이것은 시간 및 주파수의 함수로서 변화하는 ICTD, ICLD, 및 ICC에 의해 반영된다. 이 경우, 순시 ICTD, ICLD, 및 ICC와 청각 이벤트 방향 및 공간적 인상 사이의 관계는 명확하지 않다. 파라미터 생성기(405)의 전략은 이들 큐를, 그것들이 원래 오디오 신호의 대응하는 큐에 근접하도록, 맹목적으로 합성하는 것이다.
일 실시형태에서, 파라메트릭 오디오 인코더(400)는 등가의 직사각형 대역폭(equivalent rectangular bandwidth)의 두 배와 동등한 대역폭의 부대역을 가지는 필터 뱅크를 사용한다. 비공식적인 청취(informal listening)에서, 높은 주파수 분해능을 선택했을 때, BCC의 오디오 품질은 현저하게 개선되지는 않은 것으로 나타났다. 주파수 분해능은 낮을수록, 디코더에 전송되어야 하는 더 적은 ICTD, ICLD, 및 ICC 값을 얻게 되고 따라서 더 낮은 비트율을 얻기 때문에, 바람직하다. 시간 분해능과 관련하여, ICTD, ICLD, 및 ICC는 일정한 시간 간격으로 고려된다. 일 실시형태에서, ICTD, ICLD 및 ICC는 4-16ms마다 고려된다. 유의할 것은, 큐가 매우 짧은 시간 간격으로 고려되지 않는 한, 선행음 효과(precedence effect)가 직접적으로 고려되는 것은 아니라는 것이다.
기준 신호와 합성된 신호 사이에서 대개 이루어지는 지각적으로 작은 차이는, 청각 공간 이미지 속성의 넓은 범위에 관련된 큐가 일정한 시간 간격마다 ICTD, ICLD, 및 ICC를 합성함으로써 암묵적으로 고려된다는 것을 의미한다. 이러한 공간 큐의 전송에 필요한 비트율은 단지 몇 kb/s이며, 따라서 파라메트릭 오디오 인코더(400)는 단일 오디오 채널에 요구되는 것에 가까운 비트율로 스테레오 및 다채널 오디오 신호를 전송할 수 있다. 도 1a 및 도 2는 ITD를 인코딩 파라미터(415)로서 추정하는 방법을 나타낸다. 도 1b 및 도 3은 CLD를 인코딩 파라미터(415)로서 추정하는 방법을 나타낸다
파라메트릭 오디오 인코더(400)는 다채널 오디오 신호(401)의 오디오 채널 신호 중 적어도 두 개를 중첩하여 다운믹스 신호(411)를 취득하는 다운믹스 신호 생성기(407); 다운믹스 신호(411)를 인코딩하여 인코딩된 오디오 신호(413)를 취득하는 인코더(409), 특히 모노 인코더; 및 인코딩된 오디오 신호(413)를 대응하는 인코딩 파라미터와(415) 결합하는 결합기(417)를 포함한다.
파라메트릭 오디오 인코더(400)는 다채널 오디오 신호(401)의 x1, x2, ..., xM로 나타낸 복수의 오디오 채널 신호 중 하나의 오디오 채널 신호에 대한 인코딩 파라미터(415)를 생성한다. 각각의 오디오 채널 신호 x1, x2, ..., xM은 x1[n] , x2[n], ..., xM[n]으로 나타낸 디지털 오디오 채널 신호 값을 포함하는 디지털 신호일 수 있다.
파라메트릭 오디오 인코더(400)가 인코딩 파라미터(415)를 생성하는 예시적인 오디오 채널 신호는, 신호 값 x1[n]인 제1 오디오 채널 신호 x1이다. 파라미터 생성기(405)는 오디오 채널 신호 x1의 오디오 채널 신호 값 x1[n] 및 기준 오디오 신호 x2의 기준 오디오 신호 값 x2[n]으로부터 인코딩 파라미터 ITD를 결정한다.
기준 오디오 신호로서 사용된 오디오 채널 신호는, 예를 들어 제2 오디오 채널 신호 x2이다. 유사하게, 오디오 채널 신호 x1, x2, ..., xM 중 어느 다른 하나가 기준 오디오 신호로서 사용될 수도 있다. 제1 측면에 따르면, 기준 오디오 신호는, 인코딩 파라미터(415)를 생성하는 오디오 채널 신호 x1과 같지 않은 오디오 채널 신호 중 다른 오디오 채널 신호이다.
제2 측면에 따르면, 기준 오디오 신호는, 복수의 다채널 오디오 신호(401)의 적어도 두 개의 오디오 채널 신호로부터 얻은, 예컨대, 제1 오디오 채널 신호 x1 및 제2 오디오 채널 신호 x2로부터 얻은 다운믹스 오디오 신호이다. 일 실시형태에서, 기준 오디오 신호는, 다운 믹싱 기기(407)에 의해 생성된 합 신호라고도 불리는, 다운믹스 신호(411)이다. 일 실시형태에서, 기준 오디오 신호는 인코더(409)에 의해 제공되는 인코딩된 신호(413)이다.
파라미터 생성기(405)에 의해 사용된 예시적인 기준 오디오 신호는, 신호 값이 x2[n]인 제 2 오디오 채널 신호 x2이다.
파라미터 생성기(405)는 오디오 채널 신호 x1의 오디오 채널 신호 값 x1[n]의 주파수 변환 및 기준 오디오 신호 x1의 기준 오디오 신호 값 x2[n]의 주파수 변환을 결정한다. 기준 오디오 신호는 복수의 오디오 채널 신호 중 다른 오디오 채널 신호 x2 또는 복수의 오디오 채널 신호 중 적어도 두 개의 오디오 채널 신호 x1, x2로부터 얻은 다운믹스 오디오 신호이다. 파라미터 생성기(405)는 주파수 부대역의 서브세트의 적어도 주파수 부대역 각각에 대해 채널 간 차를 결정한다. 각각의 채널 간 차는, 채널 간 차가 연관되어 있는 각각의 주파수 부대역에서의 오디오 채널 신호의 대역 제한된 신호 부분과 기준 오디오 신호의 대역 제한된 신호 부분 사이의 시간 차 ITD[b] 또는 위상 차 IPD[b] 또는 레벨 차 CLD[b] 를 나타낸다.
채널 간 위상 차(ICPD)는 신호 쌍 간의 평균 위상 차이다. 채널 간 레벨 차(ICLD)는 양귀 간 레벨 차(ILD), 즉 좌우 귀 입구 신호 간의 레벨 차와 동일하지만, 더 일반적으로는 임의의 신호 쌍, 예컨대 라우드 스피커 신호 쌍, 귀 입구 신호 쌍 등의 사이에 정의된다. 채널 간 코히어런스 또는 채널 간 상관관계는 양귀 간 코히어런스(IC), 즉 좌우 귀 입구 신호 간의 유사도와 동일하지만, 더욱 일반적으로는, 임의의 신호 쌍, 예컨대 라우드 스피커 신호 쌍, 귀 입구 신호 쌍 등의 사이에 정의된다. 채널 간 시간 차(ICTD)는 양귀 간 시간 차(ITD)와 동일하고, 때로는 양귀 간 시간 지연, 즉 좌우 귀 입구 신호 간의 시간 차이지만, 더욱 일반적으로부터 임의의 신호 쌍, 예컨대 라우드 스피커 신호 쌍, 귀 입구 신호 쌍 등의 사이에 정의된다. 부대역 채널 간 레벨 차, 부대역 채널 간 위상 차, 부대역 채널 간 코히어런스, 부대역 채널 간 강도 차는 부대역 대역폭에 대하여 위에서 지정된 파라미터와 관련되어 있다.
파라미터 생성기(405)는 도 1a, 도 1b, 도 2 및 도 3에 대해 설명한 방법 중 하나를 구현하도록 구성되어 있다.
일 실시형태에서, 파라미터 생성기(405)는 다음을 포함한다:
오디오 채널 신호(x1)에 대해 오디오 채널 신호(x1)의 오디오 채널 신호 값(x1[n]) 및 기준 오디오 신호(x2)의 기준 오디오 신호 값(x2[n])으로부터 함수의 세트(c[b])를 결정하는 제1 결정기 - 기준 오디오 신호는 복수의 오디오 채널 신호 중 다른 오디오 채널 신호(x2) 또는 복수의 다채널 오디오 신호 중 적어도 두 개의 오디오 채널 신호(x1, x2)로부터 얻은 다운믹스 오디오 신호임 -;
다채널 오디오 신호의 프레임 시퀀스(i)에 대한 함수의 세트(c[b])의 평활화에 기초하여, 제1 세트의 인코딩 파라미터(ITD[b], CLD[b])를 결정하는 제2 결정기 - 평활화는 제1 평활화 계수(SMW1)에 기초함 -;
다채널 오디오 신호의 프레임 시퀀스(i)에 대한 함수의 세트(c[b])의 평활화에 기초하여, 제2 세트의 인코딩 파라미터(ITD_inst[b], CLD_inst[b])를 결정하는 제3 결정기 - 평활화는 제2 평활화 계수(SMW2)에 기초함 -; 및
제1 세트의 인코딩 파라미터(ITD[b], CLD[b])) 및/또는 제2 세트의 인코딩 파라미터(ITD_inst[b], CLD_inst[b])에 대한 품질 기준에 기초하여 인코딩 파라미터(ITD)를 결정하는 인코딩 파라미터 결정기.
도 5는 일 실시형태에 따르면 파라메트릭 오디오 디코더(500)의 블록도를 나타낸다. 파라메트릭 오디오 디코더(500)는 통신 채널을 통해 전송되는 비트 스트림(503)을 입력 신호로서 수신하고, 디코딩된 다채널 오디오 신호(501)를 출력 신호로서 제공한다. 파라메트릭 오디오 디코더(500)는, 비트 스트림(503)에 연결되어 비트 스트림(503)을 인코딩 파라미터(515) 및 인코딩된 신호(514)로 디코딩하는 비트 스트림 디코더(517), 비트 스트림 디코더(517)에 연결되어 인코딩된 신호(513)로부터 합 신호(511)를 생성하는 디코더(509), 비트 스트림 디코더(517)에 연결되어 인코딩 파라미터(515)로부터의 파라미터(521)를 해석하는 파라미터 해석기(parameter resolver)(505), 및 파라미터 해석기(505)와 디코더(509)에 연결되어 파라미터(521로부터 디코딩된 다채널 오디오 신호(501)와 합 신호(511)를 합성하는 신시사이저(505)를 포함한다.
파라메트릭 오디오 디코더(500)는, 채널 간의 ICTD, ICLD, 및/또는 ICC가 원래의 다채널 오디오 신호의 그것들에 근사하도록, 다채널 오디오 신호(501)의 출력 채널을 생성한다. 설명한 방식은 모노 오디오 신호를 나타내는 데 필요한 것보다 겨우 약간 더 높은 비트율로 다채널 오디오 신호를 표현할 수 있다. 이것은, 채널 쌍 사이에서 추정된 ICTD, ICLD, 및 ICC가 오디오 파형보다 약 두 자릿수 더 적은 정보를 포함하기 때문에, 그렇다. 낮은 비트율뿐 아니라 후방 호환성(backwards compatibility) 측면도 관심의 대상이다. 전송된 합 신호는 스테레오 또는 다채널 신호의 모노 다운믹스에 대응한다.
도 6은 일 실시형태에 따른 파라메트릭 스테레오 오디오 인코더(601) 및 디코더(603)의 블록도를 나타낸다. 파라메트릭 스테레오 오디오 인코더(601)는 도 4과 관련하여 설명한 파라메트릭 오디오 인코더(400)에 대응하지만, 다채널 오디오 신호(401)는 왼쪽(605)과 오른쪽(607) 오디오 채널을 가지는 스테레오 오디오 신호이다.
파라메트릭 스테레오 오디오 인코더(601)는 스테레오 오디오 신호(605, 607)를 입력 신호로서 수신하고 비트 스트림을 출력 신호(609)로서 제공한다. 파라메트릭 스테레오 오디오 인코더(601)는 스테레오 오디오 신호(605, 607)에 연결되어 공간 파라미터(613)를 생성하는 파라미터 생성기(611), 스테레오 오디오 신호(605, 607)에 연결되어 다운믹스 신호(617) 또는 합 신호를 생성하는 다운믹스 신호 생성기(615), 다운믹스 신호 생성기(615)에 연결되어 다운믹스 신호(617)를 인코딩하여 인코딩된 오디오 신호(621)를 제공하는 모노 인코더(619), 및 파라미터 생성기(611) 및 모노 인코더(619)에 연결되어 인코딩 파라미터(613)와 인코딩된 오디오 신호(621)을 비트 스트림으로 결합하여 출력 신호(609)를 제공하는 비트 스트림 결합기(623)를 포함한다. 파라미터 생성기(611)에서는, 공간 파라미터(613)를 추출하고 비트 스트림으로 다중화하기 전에 양자화한다.
파라메트릭 스테레오 오디오 디코더(603)는 비트 스트림, 즉, 통신 채널을 통해 전송된 파라메트릭 스테레오 오디오 인코더(601)의 출력 신호(609)를 입력 신호로서 수신하고, 왼쪽 채널(625) 및 오른쪽 채널(627)을 가지는 디코딩된 스테레오 오디오 신호를 출력 신호로서 제공한다. 파라메트릭 스테레오 오디오 디코더 (603)는, 수신된 비트 스트림 (609)에 연결되어 그 비트 스트림(609)을 인코딩 파라미터(631) 및 인코딩된 신호(633)로 디코딩하는 비트 스트림 디코더(629), 비트 스트림 디코더(629)에 연결되어 인코딩된 신호(633)로부터 합 신호(637)를 생성하는 모노 디코더(635), 비트 스트림 디코더(629)에 연결되어 인코딩 파라미터(631)로부터 공간 파라미터(641)를 해석하는 공간 파라미터 해석기(spatial parameter resolver)(639), 그리고 공간 파라미터 해석기(639) 및 모노 디코더(635)에 연결되어 공간 파라미터(641)부터 디코딩된 스테레오 오디오 신호(625, 627)와 합 신호(637)를 합성하는 신시사이저(643)를 포함한다.
파라메트릭 스테레오 오디오 디코더(603)에서의 처리는 지연을 도입하고 시간 및 주파수에서 적응적으로 오디오 신호의 레벨을 수정하여, 예컨대 채널 간 시간차(ICTD) 및 채널 간 레벨 차(ICLD) 등의 공간 파라미터(613)를 생성할 수 있다. 또한, 파라메트릭 스테레오 오디오 디코더(603)는 채널 간 코히어런스(ICC) 합성에 시간 적응형 필터링을 효율적으로 수행한다. 일 실시형태에서, 파라메트릭 스테레오 인코더는 계산 복잡도가 낮은 바이노럴 큐 코딩(BCC) 방식을 효율적으로 구현하기 위해 단시간 퓨리에 변환(STFT) 기반 필터 뱅크를 사용한다. 파라메트릭 스테레오 오디오 인코더(601)에서의 처리는, 계산 복잡도가 낮고 지연이 낮아, 파라메트릭 스테레오 오디오 코딩을, 실시간 애플리케이션용의 마이크로 프로세서 또는 디지털 신호 프로세서상에서 적당한 가격으로 구현하기 적합하도록 해준다.
도 6에 도시된 파라미터 생성기(611)는, 공간 큐의 양자화 및 코딩이 추가된 것을 제외하고는, 도 4와 관련하여 설명한 대응하는 파라미터 생성기(405)와 기능적으로 동일하다. 합 신호(617)는 종래의 모노 오디오 코더(619)로 코딩된다. 일 실시형태에서, 파라메트릭 스테레오 오디오 인코더(601)는 STFT 기반 시간-주파수 변환을 사용하여 주파수 영역에서 스테레오 오디오 채널 신호(605, 607)를 변환한다. STFT는 이산 푸리에 변환(discrete Fourier transform, DFT)을 입력 신호 x(n)의 윈도우 부분(windowed portion)에 적용한다. N개 샘플의 신호 프레임이, N점(point) DFT가 적용되기 전에 길이 W의 윈도우와 곱해진다. 인접한 윈도우는 중첩하고 있고 W/2개 샘플만큼 이동되어 있다. 윈도우는, 중첩하는 윈도우가 상수 값 1까지 더하도록 선택된다. 따라서, 역변환의 경우, 추가적인 윈도우가 필요 없다. W/2개 샘플의 연속 프레임의 시간 전진(time advance)을 가지는 크기 N의 단순(plain) 역 DFT가 디코더(603)에 사용된다. 스펙트럼이 변경되지 않은 경우, 중첩/추가에 의해 완벽한 재구성이 달성된다.
STFT의 균일한 스펙트럼 해상도는 인간의 지각에 잘 적응되지 않기 때문에, STFT의 균일하게 이격된 스펙트럼 계수 출력은 지각에 더 잘 적응되는 대역폭을 가지는 중첩하지 않는 파티션(non-overlapping partition) B로 그룹화된다. 하나의 파티션은 개념적으로는 도 4에 대한 설명에 따른 하나의 "부대역"에 상당한다. 다른 실시형태에서, 파라메트릭 스테레오 오디오 인코더(601)는 불균일한 필터 뱅크(non-uniform filter-bank)를 사용하여 주파수 영역에서 채널 스테레오 오디오 신호(605, 607)를 변환한다.
일 실시형태에서, 다운믹서(615)는 하나의 파티션 b 또는 등화된 합 신호 Sm(k)(617)의 하나의 부대역 b의 스펙트럼 계수를 다음 식에 의해 결정한다:
Figure 112014102167534-pct00024
위 식에서, Xc ,m(k)는 입력 오디오 채널(605, 607)의 스펙트럼이고, eb(k)는 다음과 같이 계산된 이득 계수(gain factor):
Figure 112014102167534-pct00025
이고,
파티션 파워 추정치(partition power estimate)는 다음과 같다:
Figure 112014102167534-pct00026
부대역 신호의 합의 감쇄가 상당한 경우의 큰 이득 계수로 인한 아티팩트(artifact)를 방지하기 위해, 이득 계수 eb(k)는 6 dB, 즉, eb(k) ≤ 2로 제한된다.
파라메트릭 스테레오 오디오 인코더(601) 및 디코더(603)의 일 실시형태에서, ITD 정보(전 대역)의 유형은 원격의 디코더(603)에 시그널링된다. 일 실시형태에서, 이 유형의 시그널링은 적어도 하나의 비트 스트림으로 전송된 보조 데이터에 의한 암묵적 시그널링(implicit signalling)에 의해 수행된다. 다른 실시형태에서, 시그널링은 각각의 비트 스트림의 유형을 나타내는 플래그에 의한 명시적 시그널링에 의해 수행된다. 일 실시형태에서, 암묵적 시그널링 신호를 포함하는 제1 시그러널링 옵션과 명시적 시그널링을 포함하는 제2 시그널링 옵션 사이를 전환할 수 있다. 암묵적 시그널링의 실시형태에서 플래그는 적어도 하나의 후방 호환 비트 스트림의 보조 데이터(auxiliary data)의 보조 채널(secondary channel) 정보의 존재를 나타낸다. 레거시 디코더(legacy decoder)는 플래그의 존재 여부를 검사하지 않고 후방 호환 비트 스트림만을 디코딩한다. 예를 들어, 보조 채널 비트 스트림의 시그널링은 AAC 비트 스트림의 보조 데이터에 포함될 수 있다. 또한, 보조 비트 스트림도 AAC 비트 스트림의 보조 데이터에 포함될 수 있다. 이 경우, 레거시 AAC 디코더는 비트 스트림의 후방 호환 부분만을 디코딩하고, 보조 데이터를 폐기한다. 파라 메트릭 스테레오 오디오 인코더(601) 및 디코더(603)의 일 실시형태에서, 이러한 플래그의 존재가 검사되고, 수신된 비트 스트림에 플래그가 존재하는 경우 디코더 (603)는 추가적인 전 대역(full-band) ITD 정보에 기초하여 멀티 채널 오디오 신호를 재구성한다.
명시적 시그널링의 일 실시형태에서는, 비트 스트림이 레거시 인코더가 아닌 새로운 인코더로 취득된 새로운 비트 스트림임을 나타내는 플래그가 사용된다. 레거시 디코더는 이 플래그를 해석하는 방법을 모르기 때문에 비트 스트림을 디코딩할 수 없다. 그러나, 일 실시형태에 따른 디코더(603)는 디코딩 및 후방 호환 부분만을 또는 완전한 멀티 채널 오디오 신호를 디코딩할 것인지를 결정하는 능력이 있다.
이러한 후방 호환성의 이점은 다음과 같이 알 수 있다. 일 실시형태에 따른 디코더(603)를 포함하는 이동 단말기는 복잡도 부가가 낮기 때문에 집적 배터리(integrated battery)의 배터리 수명을 절약하기 위해 후방 호환 부분을 디코딩하도록 결정할 수 있다. 또한, 렌더링 시스템에 따라서는, 디코더(603)는 디코딩 된 비트 스트림의 어느 부분을 디코딩할 것인지 결정할 수 있다. 헤드폰으로 렌더링하는 경우, 멀티 채널 오디오 신호는 단말기가 예를 들어 다채널 렌더링 능력을 구비한 도킹 스테이션에 연결되어 있는 경우에만 디코딩되는 동안, 수신된 신호의 후방 호환 부분은 충분할 수 있다.
일 실시형태에서, 도 1a, 도 1b, 도 2 및 도 3 중 하나에 대해 설명한 방법은 ITU-T G.722, G.722 Annex B, G.711.1 및/또는 G.711.1 Annex D의 스테레오 확장 인코더에 적용된다. 또한 일 실시형태에서, 도 1a, 도 1b, 도 2 및 도 3 중 하나에 대해 설명한 방법은 3GGP EVS(Enhanced Voice Services) 코텍에 정의된 모바일 애플리케이션용의 음성 및 오디오 인코더에 적용된다.
일 실시형태에서, 도 1a, 도 1b, 도 2 및 도 3 중 하나에 대해 설명한 방법은 청각 장면 분석(auditory scene analysis)에 사용된다. 이 경우, ITD 추정 또는 CLD 추정의 실시예 중 하나가 오디오 장면(audio scene) 내의 음원 위치를 검출하고 공간 이미지의 특성을 평가하기 위해 단독으로 또는 조합하여 사용된다.
도 7은 일 실시형태에 따른 ITD 선택 알고리즘의 개략도를 나타낸다.
제1 단계(701)에서, 양의 ITD 값의 수 Nbpos가 음의 ITD 값의 수 Nbneg에 대해 검사된다. Nbpos가 Nbneg보다 크면, 단계 793이 수행되고; Nbpos가 Nbneg 이하이면, 단계 705가 수행된다.
단계 703에서, 양의 ITD의 표준 편차 ITDstd _ pos가 음의 ITD의 표준 편차 ITDstd_neg에 대해 검사되고, 양의 ITD 값의 수 Nbpos가, 예컨대
Figure 112014102167534-pct00027
에 따라, 제1 인자(first factor) A가 승산된 음의 ITD 값의 수 Nbneg에 대해 검사된다.
Figure 112014102167534-pct00028
또는
Figure 112014102167534-pct00029
이면, 단계 707에서 ITD가 양의 ITD의 평균으로서 선택된다. 그렇지 않으면, 단계 709에서 양의 ITD와 음의 ITD 사이의 관계를 추가로 검사할 것이다.
단계 709에서, 음의 ITD의 표준 편차 ITDstd _ neg가, 예컨대
Figure 112014102167534-pct00030
에 따라, 제2 인자 B가 승산된 양의 ITD의 표준 편차 ITDstd_pos에 대해 검사된다.
Figure 112014102167534-pct00031
이면, 단계 715에서 음의 ITD 평균의 반대 값이 출력 ITD로 선택될 것이다. 그렇지 않으면, 단계 717에서 이전 프레임(Pre_itd)으로부터의 ITD가 검사된다.
단계 717에서, 이전 프레임으로부터의 ITD가 0보다 큰지를, 예컨대 "Pre_itd > 0"에 따라 검사한다. Pre_itd > 0이면, 단계 703에서 출력 ITD가 양의 ITD의 평균으로서 선택되고, 그렇지 않으면, 단계 725에서 출력 ITD가 음의 ITD 평균의 반대 값이다.
단계 705에서, 음의 ITD의 표준 편차 ITDstd _ neg가 양의 ITD의 표준 편차 ITDstd_pos에 대해 검사되고, 음의 ITD 값의 수가, 예컨대
Figure 112014102167534-pct00032
에 따라, 제1 인자 A가 승산된 양의 ITD 값의 수 Nbpos에 대해 검사된다.
Figure 112014102167534-pct00033
또는
Figure 112014102167534-pct00034
이면, 단계 711에서 ITD가 음의 ITD의 평균으로서 선택된다. 그렇지 않으면, 단계 713에서 음의 ITD와 양의 ITD 사이의 관계가 더 검사된다.
단계 713에서, 양의 ITD의 표준 편차 ITDstd _ pos가, 예컨대
Figure 112014102167534-pct00035
에 따라, 제2 인자 B가 승산된 음의 ITD의 표준 편차 ITDstd _ neg에 대해 검사된다.
Figure 112014102167534-pct00036
이면, 단계 719에서 양의 ITD 평균의 반대 값이 출력 ITD로서 선택된다. 그렇지 않으면, 단계 721에서 이전 프레임(Pre_itd)으로부터의 ITD가 검사된다.
단계 721에서, 이전 프레임으로부터의 ITD가 0보다 큰지를, 예컨대, "Pre_itd > 0"에 따라, 검사한다. Pre_itd > 0이면, 단계 727에서 출력 ITD가 음의 ITD의 평균으로서 선택되고, 그렇지 않으면, 단계 729에서 출력 ITD는 양의 ITD 평균의 반대 값이다.
강하게 평활화된 버전의 상호 스펙트럼(ITDmean)에 기초한 ITD와 약하게 평활화된 버전의 상호 스펙트럼(ITDmean _ inst) 에 기초한 ITD 사이의 선택은 양의 ITD와 음의 ITD에 대해 개별적으로 취득된다. 마지막으로, 도 7에서 설명한 바와 같이 ITD에 대한 결정이 이루어진다.
이상으로부터, 당업자에게는 다양한 방법, 시스템, 기록 매체상의 컴퓨터 프로그램 등이 제공된다는 것이 명백할 것이다.
본 발명은 또한, 실행될 때, 적어도 하나의 컴퓨터로 하여금 본 명세서에서 설명한 수행 및 계산 단계들을 실행하도록 하는, 컴퓨터로 실행 가능한 코드 또는 컴퓨터로 실행 가능한 명령어를 포함하는 컴퓨터 프로그램 제품을 지원한다.
본 발명은 또한 본 명세서에서 설명한 수행 및 계산 단계들을 실행하도록 구성된 시스템을 지원한다.
당업자에게는 이상의 교시에 비추어 많은 대안, 수정, 및 변형이 명백할 것이다. 물론, 당업자는 본 명세서에 설명하지 않은 본 발명의 많은 애플리케이션이 존재함을 쉽게 인식할 수 있다. 본 발명에 대해 하나 이상의 구체적인 실시예를 참조하여 설명하였으나, 당업자는 본 발명의 사상 및 범위를 벗어나지 않으면서 본 발명에 대해 많은 변경이 이루어질 수 있음을 인식할 것이다. 따라서, 첨부된 특허청구범위 및 그 등가물의 범위 내에서, 본 발명은 본 명세서에 구체적으로 기재된 것과 다르게 실시될 수 있다는 것을 이해해야 한다.

Claims (15)

  1. 각각이 오디오 채널 신호 값(x1[n], x2[n])을 가지는, 다채널 오디오 신호의 복수의 오디오 채널 신호(x1, x2) 중 오디오 채널 신호(x1)에 대한 인코딩 파라미터(ITD)를 결정하는 방법(100)으로서,
    상기 오디오 채널 신호(x1)에 대해 상기 오디오 채널 신호(x1)의 오디오 채널 신호 값(x1[n]) 및 기준 오디오 신호(x2)의 기준 오디오 신호 값(x2[n])으로부터 함수의 세트(c[b])를 결정하는 단계(101) - 상기 기준 오디오 신호는 상기 복수의 오디오 채널 신호 중 다른 오디오 채널 신호(x2) 또는 상기 복수의 다채널 오디오 신호 중 둘 이상의 오디오 채널 신호(x1, x2)로부터 얻은 다운믹스 오디오 신호임 -;
    상기 다채널 오디오 신호의 프레임 시퀀스(i)에 대한 상기 함수의 세트(c[b])의 평활화(smoothing)에 기초하여, 제1 세트의 인코딩 파라미터(ITD[b])를 결정하는 단계(103) - 상기 평활화는 제1 평활화 계수(SMW1)에 기초함 -;
    상기 다채널 오디오 신호의 프레임 시퀀스(i)에 대한 상기 함수의 세트(c[b])의 평활화에 기초하여, 제2 세트의 인코딩 파라미터(ITD_inst[b])를 결정하는 단계(105) - 상기 평활화는 제2 평활화 계수(SMW2)에 기초함 -; 및
    상기 제1 세트의 인코딩 파라미터(ITD[b]) 및/또는 상기 제2 세트의 인코딩 파라미터(ITD_inst[b])에 대한 품질 기준에 기초하여 상기 인코딩 파라미터(ITD)를 결정하는 단계(107)
    를 포함하고,
    상기 함수의 세트(c[b])를 결정하는 단계(101)는,
    상기 오디오 채널 신호(x1)의 상기 오디오 채널 신호 값(x1[n])의 주파수 변환(X1[k])을 결정하는 단계;
    상기 기준 오디오 신호(x2)의 상기 기준 오디오 신호 값(x2[n])의 주파수 변환(X2[k])을 결정하는 단계(103); 및
    상기 함수의 세트(c[b])를, 주파수 부대역의 서브세트의 적어도 각각의 주파수 부대역(b)에 대한 상호 스펙트럼 또는 상호 상관으로서 결정하는 단계(105)를 포함하고,
    상기 함수의 세트(c[b])의 함수 각각은, 상기 함수의 세트(c[b])의 함수가 연관되어 있는 각각의 주파수 부대역(b)에서의, 상기 기준 오디오 신호의 대역 제한 신호 부분과 상기 오디오 채널 신호의 대역 제한 신호 부분 간에 계산되는, 방법.
  2. 제1항에 있어서,
    주파수 부대역은 하나 또는 복수의 주파수 빈(k)을 포함하는, 방법(100).
  3. 제1항에 있어서,
    상기 제1 세트의 인코딩 파라미터(ITD[b]) 및 상기 제2 세트의 인코딩 파라미터(ITD_inst[b])는 채널 간 차(ICD[b])를 포함하고,
    상기 채널 간 차(ICD[b])는 채널 간 시간 차(ITD[b]) 및/또는 채널 간 레벨 차(CLD[b])를 포함하는, 방법(100).
  4. 제1항에 있어서,
    상기 품질 기준에 기초하여 상기 인코딩 파라미터(ITD)를 결정하는 단계(107)는, 상기 품질 기준에 의해 사용되는 안정성(stability) 파라미터를 결정하는 단계를 포함하는, 방법(100).
  5. 제4항에 있어서,
    상기 인코딩 파라미터(ITD, CLD)를 결정하는 단계(107)는,
    상기 프레임 시퀀스(i)에 대한 상기 제2 세트의 인코딩 파라미터(ITD_inst[b], CLD_inst[b])의 연속하는 값 간의 비교에 기초하여, 상기 제2 세트의 인코딩 파라미터(ITD_inst[b], CLD_inst[b])의 안정성 파라미터를 결정하는 단계; 및
    상기 안정성 파라미터에 따라 상기 인코딩 파라미터(ITD, CLD)를 결정하는 단계를 포함하는, 방법(100).
  6. 제4항에 있어서,
    상기 안정성 파라미터는 적어도 상기 제2 세트의 인코딩 파라미터(ITD_inst[b], CLD_inst[b])의 표준 편차(ITD_inststd)에 기초하는, 방법(100).
  7. 제5항에 있어서,
    상기 안정성 파라미터는 상기 다채널 오디오 신호의 하나 프레임 또는 복수의 프레임에 걸쳐 결정되는, 방법(100).
  8. 제5항에 있어서,
    상기 인코딩 파라미터(ITD, CLD)의 결정은 상기 안정성 파라미터의 임계값 초과(threshold crossing)에 기초하여 결정되는, 방법(100).
  9. 제8항에 있어서,
    상기 안정성 파라미터가 임계값을 초과하는 경우, 상기 제1 세트의 인코딩 파라미터(ITD[b], CLD[b])를 상기 제2 세트의 인코딩 파라미터로 갱신하는 단계를 더 포함하는 방법(100).
  10. 제8항에 있어서,
    상기 제1 및 제2 평활화 계수(SMW1, SMW2)에 기초한 상기 함수의 세트(c[b])의 평활화는,
    상기 제1 및 제2 평활화 계수(SMW1, SMW2)에 기초한 제1 계수를 승산한 상기 함수의 세트(c[b])와 상기 제1 및 제2 평활화 계수(SMW1, SMW2)에 기초한 제2 계수를 승산한 상기 함수의 세트(c[b])의 제1 및 제2 평활화된 버전의 메모리 상태의 가산으로서 계산되는, 방법(100).
  11. 제10항에 있어서,
    상기 안정성 파라미터가 임계값을 초과하는 경우, 상기 함수의 세트(c[b])의 제1 평활화 버전의 메모리 상태를 상기 함수의 세트(c[b])의 제2 평활화 버전의 메모리 상태로 갱신하는 단계를 더 포함하는 방법(100).
  12. 제1항에 있어서,
    상기 제1 평활화 계수(SMW1)는 상기 제2 평활화 계수(SMW2)보다 큰, 방법(100).
  13. 각각이 오디오 채널 신호 값(x1[n], x2[n])을 가지는, 다채널 오디오 신호의 복수의 오디오 채널 신호(x1, x2) 중 오디오 채널 신호(x1)에 대한 인코딩 파라미터(ITD)를 결정하는 다채널 오디오 인코더(400)로서,
    상기 오디오 채널 신호(x1)에 대해 상기 오디오 채널 신호(x1)의 오디오 채널 신호 값(x1[n]) 및 기준 오디오 신호(x2)의 기준 오디오 신호 값(x2[n])으로부터 함수의 세트(c[b])를 결정하는 제1 결정기 - 상기 기준 오디오 신호는 상기 복수의 오디오 채널 신호 중 다른 오디오 채널 신호(x2) 또는 상기 복수의 다채널 오디오 신호 중 둘 이상의 오디오 채널 신호(x1, x2)로부터 얻은 다운믹스 오디오 신호임 -;
    상기 다채널 오디오 신호의 프레임 시퀀스(i)에 대한 상기 함수의 세트(c[b])의 평활화(smoothing)에 기초하여, 제1 세트의 인코딩 파라미터(ITD[b])를 결정하는 제2 결정기 - 상기 평활화는 제1 평활화 계수(SMW1)에 기초함 -;
    상기 다채널 오디오 신호의 프레임 시퀀스(i)에 대한 상기 함수의 세트(c[b])의 평활화에 기초하여, 제2 세트의 인코딩 파라미터(ITD_inst[b])를 결정하는 제3 결정기 - 상기 평활화는 제2 평활화 계수(SMW2)에 기초함 -; 및
    상기 제1 세트의 인코딩 파라미터(ITD[b]) 및/또는 상기 제2 세트의 인코딩 파라미터(ITD_inst[b])에 대한 품질 기준에 기초하여, 상기 인코딩 파라미터(ITD)를 결정하는 인코딩 파라미터 결정기
    를 포함하고,
    상기 제1 결정기는,
    상기 오디오 채널 신호(x1)의 상기 오디오 채널 신호 값(x1[n])의 주파수 변환(X1[k])을 결정하는 단계;
    상기 기준 오디오 신호(x2)의 상기 기준 오디오 신호 값(x2[n])의 주파수 변환(X2[k])을 결정하는 단계; 및
    상기 함수의 세트(c[b])를, 주파수 부대역의 서브세트의 적어도 각각의 주파수 부대역(b)에 대한 상호 스펙트럼 또는 상호 상관으로서 결정하는 단계
    에 의해 상기 함수의 세트(c[b])를 결정하도록 더 구성되고,
    상기 함수의 세트(c[b])의 함수 각각은, 상기 함수의 세트(c[b])의 함수가 연관되어 있는 각각의 주파수 부대역(b)에서의, 상기 기준 오디오 신호의 대역 제한 신호 부분과 상기 오디오 채널 신호의 대역 제한 신호 부분 간에 계산되는, 다채널 오디오 인코더(400).
  14. 컴퓨터상에서 실행될 때, 제1항의 방법(100)을 수행하는 프로그램 코드를 포함하는 컴퓨터로 판독 가능한 저장 매체.
  15. 삭제
KR1020147029976A 2012-04-05 2012-04-05 다채널 오디오 신호 및 다채널 오디오 인코더를 위한 인코딩 파라미터를 결정하는 방법 KR101621287B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2012/056340 WO2013149672A1 (en) 2012-04-05 2012-04-05 Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder

Publications (2)

Publication Number Publication Date
KR20140140101A KR20140140101A (ko) 2014-12-08
KR101621287B1 true KR101621287B1 (ko) 2016-05-16

Family

ID=45952541

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147029976A KR101621287B1 (ko) 2012-04-05 2012-04-05 다채널 오디오 신호 및 다채널 오디오 인코더를 위한 인코딩 파라미터를 결정하는 방법

Country Status (7)

Country Link
US (1) US9449604B2 (ko)
EP (1) EP2834814B1 (ko)
JP (1) JP5947971B2 (ko)
KR (1) KR101621287B1 (ko)
CN (1) CN103460283B (ko)
ES (1) ES2571742T3 (ko)
WO (1) WO2013149672A1 (ko)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6216553B2 (ja) * 2013-06-27 2017-10-18 クラリオン株式会社 伝搬遅延補正装置及び伝搬遅延補正方法
RU2704266C2 (ru) * 2014-10-31 2019-10-25 Долби Интернешнл Аб Параметрическое кодирование и декодирование многоканальных аудиосигналов
MX2017006581A (es) * 2014-11-28 2017-09-01 Sony Corp Dispositivo de transmision, metodo de transmision, dispositivo de recepcion, y metodo de recepcion.
CN106033672B (zh) 2015-03-09 2021-04-09 华为技术有限公司 确定声道间时间差参数的方法和装置
CN106033671B (zh) 2015-03-09 2020-11-06 华为技术有限公司 确定声道间时间差参数的方法和装置
ES2955962T3 (es) * 2015-09-25 2023-12-11 Voiceage Corp Método y sistema que utiliza una diferencia de correlación a largo plazo entre los canales izquierdo y derecho para mezcla descendente en el dominio del tiempo de una señal de sonido estéreo en canales primarios y secundarios
US10045145B2 (en) 2015-12-18 2018-08-07 Qualcomm Incorporated Temporal offset estimation
CA3011915C (en) 2016-01-22 2021-07-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for estimating an inter-channel time difference
EP3582219B1 (en) 2016-03-09 2021-05-05 Telefonaktiebolaget LM Ericsson (publ) A method and apparatus for increasing stability of an inter-channel time difference parameter
US10304468B2 (en) * 2017-03-20 2019-05-28 Qualcomm Incorporated Target sample generation
CN108877815B (zh) * 2017-05-16 2021-02-23 华为技术有限公司 一种立体声信号处理方法及装置
CN109215668B (zh) 2017-06-30 2021-01-05 华为技术有限公司 一种声道间相位差参数的编码方法及装置
CN109300480B (zh) * 2017-07-25 2020-10-16 华为技术有限公司 立体声信号的编解码方法和编解码装置
CN117292695A (zh) * 2017-08-10 2023-12-26 华为技术有限公司 时域立体声参数的编码方法和相关产品
US10891960B2 (en) * 2017-09-11 2021-01-12 Qualcomm Incorproated Temporal offset estimation
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
CN111341319B (zh) * 2018-12-19 2023-05-16 中国科学院声学研究所 一种基于局部纹理特征的音频场景识别方法及系统
CN113129910A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 音频信号的编解码方法和编解码装置
CN111935624B (zh) * 2020-09-27 2021-04-06 广州汽车集团股份有限公司 车内音响空间感的客观评价方法、系统、设备及存储介质
WO2022153632A1 (ja) * 2021-01-18 2022-07-21 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 信号処理装置、及び、信号処理方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
US9626973B2 (en) * 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
TWI396188B (zh) 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
GB2466672B (en) 2009-01-06 2013-03-13 Skype Speech coding
MX2011006248A (es) 2009-04-08 2011-07-20 Fraunhofer Ges Forschung Aparato, metodo y programa de computacion para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavizacion de valor de fase.

Also Published As

Publication number Publication date
US20150010155A1 (en) 2015-01-08
JP2015518176A (ja) 2015-06-25
CN103460283B (zh) 2015-04-29
US9449604B2 (en) 2016-09-20
KR20140140101A (ko) 2014-12-08
EP2834814B1 (en) 2016-03-02
ES2571742T3 (es) 2016-05-26
WO2013149672A1 (en) 2013-10-10
JP5947971B2 (ja) 2016-07-06
EP2834814A1 (en) 2015-02-11
CN103460283A (zh) 2013-12-18

Similar Documents

Publication Publication Date Title
KR101621287B1 (ko) 다채널 오디오 신호 및 다채널 오디오 인코더를 위한 인코딩 파라미터를 결정하는 방법
KR101662681B1 (ko) 멀티채널 오디오 인코더 및 멀티채널 오디오 신호 인코딩 방법
KR101580240B1 (ko) 다채널 오디오 신호를 인코딩하는 파라메트릭 인코더
US10706861B2 (en) Apparatus and method for estimating an inter-channel time difference
RU2450369C2 (ru) Устройство и способ для кодирования многоканального звукового сигнала
JP5189979B2 (ja) 聴覚事象の関数としての空間的オーディオコーディングパラメータの制御
KR101662682B1 (ko) 채널간 차이 추정 방법 및 공간적 오디오 코딩 장치
JP5977434B2 (ja) パラメトリック空間オーディオ符号化および復号化のための方法、パラメトリック空間オーディオ符号器およびパラメトリック空間オーディオ復号器
KR102201308B1 (ko) 상관해제 필터들의 적응적 제어를 위한 방법 및 장치
JP2017058696A (ja) インターチャネル差分推定方法及び空間オーディオ符号化装置
CN104205211B (zh) 多声道音频编码器以及用于对多声道音频信号进行编码的方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant