KR20140139591A - 채널간 차이 추정 방법 및 공간적 오디오 코딩 장치 - Google Patents

채널간 차이 추정 방법 및 공간적 오디오 코딩 장치 Download PDF

Info

Publication number
KR20140139591A
KR20140139591A KR1020147029934A KR20147029934A KR20140139591A KR 20140139591 A KR20140139591 A KR 20140139591A KR 1020147029934 A KR1020147029934 A KR 1020147029934A KR 20147029934 A KR20147029934 A KR 20147029934A KR 20140139591 A KR20140139591 A KR 20140139591A
Authority
KR
South Korea
Prior art keywords
icd
audio
audio channel
frequency
channel signals
Prior art date
Application number
KR1020147029934A
Other languages
English (en)
Other versions
KR101662682B1 (ko
Inventor
위에 랑
다비드 비레뜨
지안펭 수
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20140139591A publication Critical patent/KR20140139591A/ko
Application granted granted Critical
Publication of KR101662682B1 publication Critical patent/KR101662682B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

낮은 복잡도의 채널간 차이 추정을 위한 방법과 장치가 제공된다. 채널간 차이 추정(ICD)을 위한 방법은, 시간 도메인으로부터 주파수 도메인으로의 변환을 복수의 오디오 채널 신호에 적용하는 단계, 소정의 주파수 범위에 대해 적어도 하나의 상기 복수의 오디오 채널 신호와 기준 오디오 채널 신호 사이의 ICD에 대한 복수의 ICD 값을 계산하는 단계 - 각각의 ICD 값은 소정의 주파수 범위의 일부에 대해 계산됨 -, 각각의 상기 복수의 ICD 값에 대해, 각각의 상기 복수의 ICD 값을 대응하는 주파수-의존 가중 인자에 곱함으로써 가중된 ICD 값을 계산하는 단계, 및 상기 복수의 가중된 ICD 값을 부가함으로써 상기 소정의 주파수 범위에 대한 ICD 범위 값을 계산하는 단계를 포함한다.

Description

채널간 차이 추정 방법 및 공간적 오디오 코딩 장치{METHOD FOR INTER-CHANNEL DIFFERENCE ESTIMATION AND SPATIAL AUDIO CODING DEVICE}
본 발명은 채널간 차이(inter-channel difference, ICD) 추정을 위한 방법 및 공간적 오디오 코딩 또는 파라메트릭(parametric) 다중-채널 코딩 장치에 관한 것으로서, 특히 파라메트릭 다중채널 오디오 인코딩에 관한 것이다.
파라메트릭 다중-채널 오디오 코딩은 Faller, C., Baumgarte, F.: "Efficient representation of spatial audio using perceptual parametrization", Proc. IEEE Workshop on Appl. of Sig. Proc. to Audio and Acoust., October 2001, pp. 199-202에서 설명된다. 다운믹스된 오디오 신호는 다중-채널 오디오 신호를 합성하기 위해 업믹스될 수 있는데, 다운믹스된 오디오 신호보다 더 많은 출력 오디오를 생성하기 위해 공간적 큐(cue, 암시)를 이용한다. 대체로, 다운믹스된 오디오 신호는 다중-채널 오디오 신호, 예컨대 스테레오 오디오 신호의 복수의 오디오 채널 신호의 중첩에 의해 생성된다. 다운믹스된 오디오 신호는 코드화된 파형이고, 공간적 큐와 관련된 보조 데이터와 함께 오디오 비트스트림에 삽입된다. 디코더는 파형 코드화된 오디오 채널에 기초하여 다중-채널 오디오 신호를 합성하도록 보조 데이터를 이용한다.
다중-채널 오디오 신호를 합성하기 위해 이용될 수 있는 몇몇의 공간적 큐 또는 파라미터가 있다. 첫째로, 채널간 레벨 차이(inter-channel level difference, ILD)는 비교될 2개의 채널 상의 오디오 신호들의 레벨 사이의 차이를 나타낸다. 둘째로, 채널간 시간 차이(inter-channel time difference, ITD)는 사람 청취자의 두 귀 사이에서의 소리의 도착 시간의 차이를 나타낸다. ITD 값은 소리의 위치측정(localization)에 있어서 중요한데, 청취자의 귀에 상대적인 소리 근원(sound source)의 발생 방향 또는 각도를 식별하기 위한 큐를 제공하기 때문이다. 셋째로, 채널간 위상 차이(inter-channel phase difference, ICD)는 비교되는 2개의 채널들 사이의 상대적인 위상 차이를 특정한다. 부분대역(subband) ICD 값은 부분대역 ITD 값의 추정치로서 이용될 수 있다. 마지막으로, 채널간 조화(inter-channel coherence, ICC)는, ITD 또는 ICD에 따른 위상 정렬 이후에, 평준화된(normalized) 채널간 교차-상관관계로서 정의된다. ICC 값은 소리 근원의 폭을 추정하기 위해 이용될 수 있다.
ILD, ITD, ICD, 및 ICC는 공간적 다중-채널 코딩/디코딩을 위한, 특히 스테레오 오디오 신호를 위한, 그리고 더욱 특별하게 입체 음향 오디오 신호를 위한 중요한 파라미터들이다. ITD는 예를 들면 -1.5ms에서 1.5ms 사이의 청취 가능한 지연 범위를 커버할 수 있다. ICD는 -Π에서 Π 사이의 위상 차이의 전체 범위를 커버할 수 있다. ICC는 상관관계 범위를 커버할 수 있고, 0에서 1 사이의 퍼센티지 값 또는 -1에서 +1 사이의 다른 상관관계 인자로 특정될 수 있다. 현재의 파라메트릭 스테리오 코딩 방법에서는, ILD, ITD, ICD, 및 ICC가 주파수 도메인에서 일반적으로 추정된다. 모든 부분대역에 대해, ILD, ITD, ICD, 및 ICC가 계산되고 양자화되며, 오디오 비트스트림의 파라미터 섹션에 포함되어 전송된다.
파라메트릭 오디오 코딩 방법에 있어서의 비트레이트의 제한에 따라, 때로는 오디오 비트스트림의 파라미터 섹션 내에, 공간적 코딩 파라미터의 모든 값들을 전송하기 위한 충분한 비트가 존재하지 않게 된다. 예를 들어, 미국특허공개공보 US 2006/0153408 A1은 다운믹스된 오디오 비트스트림에 부가 정보로서 포함될 복수의 오디오 채널에 대해 조합된 큐 코드가 생성되는 오디오 인코더를 개시한다. 미국특허 US 8,054,981 B1은 하나의 오디오 채널의 에너지 크기와 복수의 오디오 채널의 에너지 크기의 레벨 관계에 연관된 공간적 오디오 코딩 방법을 개시한다.
본 발명의 사상은 복수의 오디오 채널 신호의 각 쌍 사이에서의 각각의 주파수 부분대역 또는 주파수 빈(bin)에 대한 채널간 차이(ICD) 값을 계산하고, 그 ICD 값에 기초하여 가중된 평균 값(weighted average value)을 연산하기 위한 것이다. 가중 방법에 따라, 지각적으로 중요한 주파수 부분대역 또는 빈이 낮은 중요도의 부분대역 또는 빈보다 높은 우선순위를 가지는 것으로 고려된다.
유리한 것은, 에너지 중요도 또는 지각적 중요도가 본 기술에 고려되므로, 주변 소리 또는 방산음(diffuse sound)은 ICD 추정에 영향을 미치지 않을 것이라는 점이다. 이는 특히, 스피치(speech) 오디오 데이터와 같이 강한 직진 구성요소를 가지는 소리의 공간적 이미지를 의미있게 표현하는 것에 대한 장점에 해당한다.
나아가, 제안된 본 방법은 오디오 비트스트림 내에 포함될 공간적 코딩 파라미터의 수를 감소시켜서, 추정 복잡도 및 전송 비트레이트를 감소시킨다.
이어서, 본 발명의 제1 태양은 채널간 차이(ICD)의 추정을 위한 방법에 관한 것으로서, 본 방법은 시간 도메인으로부터 주파수 도메인으로의 변환을 복수의 오디오 채널 신호에 적용하는 단계, 소정의 주파수 범위에 대해 상기 복수의 오디오 채널 신호 중 적어도 하나와 기준 오디오 채널 신호 사이의 ICD에 대한 복수의 ICD 값을 계산하는 단계 - 각각의 ICD 값은 소정의 주파수 범위의 일부에 대해 계산됨 -, 상기 복수의 ICD 값 각각에 대해, 상기 복수의 ICD 값 각각을, 대응하는 주파수-의존 가중 인자에 곱함으로써 가중된 ICD 값을 계산하는 단계, 및 상기 복수의 가중된 ICD 값을 더함으로써 상기 소정의 주파수 범위에 대한 ICD 범위 값을 계산하는 단계를 포함한다.
제1 태양의 제1 구현에 따르면, ICD는 채널간 위상 차이(IPD) 또는 채널간 시간 차이(ITD)이다. 이러한 공간적 코딩 파라미터는 특히 사람의 청취를 위한 오디오 데이터 재생성에 이점을 가진다.
제1 태양의 제2 구현에 따르면, 시간 도메인으로부터 주파수 도메인으로의 변환은 고속 푸리에 변환(Fast Fourier Transformation, FFT), 코사인 변조 필터 뱅크(cosine modulated filter bank), 이산 푸리에 변환(Discrete Fourier Transformation, DFT), 및 복소 필터 뱅크의 그룹 중 하나를 포함한다.
제1 태양의 제3 구현에 따르면, 소정의 주파수 범위는 복수의 오디오 채널 신호의 전체 주파수 대역, 복수의 오디오 채널 신호의 전체 주파수 대역 내의 소정의 주파수 구간, 및 복수의 오디오 채널 신호의 전체 주파수 대역 내의 복수의 소정의 주파수 구간의 그룹 중 하나를 포함한다.
제1 태양의 제3 구현의 제1 실시예에 따르면, 소정의 주파수 구간은 200Hz에서 600Hz 사이 또는 300Hz에서 1.5kHz 사이에 놓인다. 이 주파수 범위는, ICD 파라미터가 가장 의미를 가지는, 사람이 청취하는 주파수 의존 감도에 대응한다.
제1 태양의 제4 구현에 따르면, 기준 오디오 채널 신호는 오디오 채널 신호 중 하나 또는 복수의 오디오 채널 신호의 적어도 2개의 오디오 채널 신호로부터 유도된 다운믹스 오디오 신호를 포함한다.
제1 태양의 제5 구현에 따르면, 복수의 ICD 값을 계산하는 단계는 주파수 부분대역에 기초하여 복수의 ICD 값을 계산하는 단계를 포함한다.
제1 태양의 제5 구현의 제1 실시예에 따르면, 주파수-의존 가중 인자는 소정의 주파수 범위에 대한 전체 에너지에 기초하여 평준화된 주파수 부분대역의 에너지에 기초하여 결정된다.
제1 태양의 제5 구현의 제2 실시예에 따르면, 주파수-의존 가중 인자는 소정의 주파수 범위에 대해 평준화된 오디오 채널 신호의 주파수의 에너지 분배에 대한 마스킹 곡선(masking curve)에 기초하여 결정된다.
제1 태양의 제5 구현의 제3 실시예에 따르면, 주파수-의존 가중 인자는 소정의 주파수 범위에 대해 평준화된 오디오 채널 신호의 부분대역의 지각적 엔트로피 값(perceptual entropy value)에 기초하여 결정된다.
제1 태양의 제6 구현에 따르면, 주파수-의존 가중 인자는 적어도 2개의 연속한 프레임 사이에서 평활화된다. 짧은 시간 주기 동안에는 보통 스테레오 이미지가 크게 변하지 않는다는 점에서, 연속한 프레임 사이에서는 추정된 ICD 값이 상대적으로 안정적으로 되기 때문에, 이는 장점이 될 수 있다.
본 발명의 제2 태양에 따르면, 공간적 오디오 코딩 장치는, 시간 도메인으로부터 주파수 도메인으로의 변환을 복수의 오디오 채널 신호에 적용하도록 구성된 변환 모듈, 및 소정의 주파수 범위에 대해 상기 복수의 오디오 채널 신호 중 적어도 하나와 기준 오디오 채널 신호 사이의 ICD에 대한 복수의 ICD 값을 계산하고, 각각의 상기 복수의 ICD 값에 대해, 상기 복수의 ICD 값 각각을, 대응하는 주파수-의존 가중 인자에 곱함으로써 가중된 ICD 값을 계산하며, 상기 복수의 가중된 ICD 값을 더함으로써 상기 소정의 주파수 범위에 대한 ICD 범위 값을 계산하도록 구성된 파라미터 추정 모듈을 포함한다.
제2 태양의 제1 구현에 따르면, 공간적 오디오 코딩 장치는 복수의 오디오 채널 신호를 다운믹싱함으로써 다운믹스 오디오 채널 신호를 생성하도록 구성된 다운믹싱 모듈을 더 포함한다.
제2 태양의 제2 구현에 따르면, 공간적 오디오 코딩 장치는 상기 다운믹싱 모듈과 결합되고, 인코딩된 다운믹스된 오디오 비트스트림을 포함하는 인코딩된 오디오 비트스트림을 생성하도록 구성된 인코딩 모듈을 더 포함한다.
제2 태양의 제3 구현에 따르면, 공간적 오디오 코딩 장치는 상기 파라미터 추정 모듈과 결합되고, 다운믹스된 오디오 비트스트림을 포함하는 오디오 비트스트림과 상기 복수의 오디오 채널 신호에 대한 ICD 범위 값을 포함하는 보조 데이터를 생성하도록 구성된 스트리밍 모듈을 더 포함한다.
제2 태양의 제3 구현의 제1 실시예에 따르면, 상기 스트리밍 모듈은 오디오 비트스트림 내에 플래그를 설정하도록 추가로 구성되는데, 상기 플래그는 오디오 비트스트림 내의 ICD 범위 값을 포함하는 보조 데이터의 존재를 나타낸다.
제2 태양의 제4 구현에 따르면, 상기 플래그는 완전한 오디오 비트스트림에 대해 설정되거나, 상기 보조 데이터 내에 포함되거나, 상기 오디오 비트스트림에 포함된다.
본 발명의 제3 태양에 따르면, 컴퓨터 프로그램이 제공되는데, 본 컴퓨터 프로그램은 컴퓨터 상에서 실행될 때 제1 태양 또는 제1 태양의 임의의 구현에 따른 방법을 수행하기 위한 프로그램 코드를 포함한다.
본 명세서에 기술된 본 방법은 디지털 신호 프로세서(Digital Signal Processor, DSP), 마이크로-콘트롤러 또는 임의의 다른 부가-프로세서 내의 소프트웨어로서 또는 주문형 반도체(application specific integrated circuit, ASIC)에 포함된 하드웨어 회로로서 구현될 수 있다.
본 발명은 디지털 전자 회로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 조합으로 구현될 수 있다.
부가적인 실시예들과 구현예들은 이하의 설명으로부터 충분히 이해될 수 있다. 특히, 이하에서 규정된 실시예, 태양, 및 구현예들로부터의 임의의 특징들은, 구체적으로 언급되지 않는다 하더라도 실시예, 태양, 및 구현예들로부터의 다른 임의의 특징들과 조합될 수 있다.
본 명세서를 한층 더 이해하기 위해 첨부된 도면들이 포함된다. 그들은 실시예들을 설명하며, 본 명세서에와 함께 본 발명의 원리를 설명하는데 도움을 줄 수 있다. 다른 실시예들과 많은 의도된 장점들, 고찰된 원리들 및 기능들은 본 명세서의 이하의 상세한 설명을 참조하여 더욱 잘 이해되는 것으로 인식될 것이다. 본 도면들의 구성요소는 반드시 서로에 대해 상대적인 크기로 도시되지는 않는다. 일반적으로는, 유사한 참조 번호는 대응하는 유사한 부분을 가리킨다.
도 1은 공간적 오디오 코딩 시스템을 도식적으로 설명한다.
도 2는 공간적 오디오 코딩 장치를 도식적으로 설명한다.
도 3은 공간적 오디오 디코딩 장치를 도식적으로 설명한다.
도 4는 채널간 차이 추정을 위한 방법의 일 실시예를 도식적으로 설명한다.
도 5는 오디오 비트스트림에 대한 비트스트림 구조의 변형을 도식적으로 설명한다.
이하의 상세한 설명에서는, 도시를 통해 특정 실시예들이 도시되는 첨부된 도면들이 참조된다. 다른 실시예들도 활용될 수 있고, 또한 구조적 또는 논리적 변형이 본 발명의 범위를 벗어남이 없이 이루어질 수 있음은 자명하다. 구체적으로 설명되지 않더라도, 각각의 실시예의 기능, 원리, 및 상세 내용은 다른 실시예들과 조합될 수 있다. 일반적으로, 본 출원은 본 명세서에서 논의되는 특정 실시예들에 대한 임의의 적용 또는 변형을 커버하도록 의도된다. 따라서, 이하의 상세한 설명은 한정으로 받아들여지는 것이 아니고, 본 발명의 범위는 첨부된 청구범위에 의해 정의된다.
실시예들은, 기계 판독 가능한 매체에 의해 제공되는 기계 판독 가능한 명령어들 내에서 구체화될 수 있는 방법 및 프로세스를 포함할 수 있는데, 이 기계 판독 가능한 매체는 컴퓨터, 연산 장치, 프로세싱 유닛, 네트워킹 장치, 이동형 컴퓨터, 마이크로프로세서 등과 같은 기계에 액세스 가능한 정보를 저장할 수 있는 장치, 기기, 메커니즘, 또는 시스템을 포함하나, 이에 한정되는 것은 아니다. 기계 판독 가능한 매체는 휘발성 또는 비휘발성 매체뿐만 아니라 전기 신호, 디지털 신호, 논리 신호, 광 신호, 음향 신호, 음향 광학 신호 등과 같은 어떠한 형태의 전파 신호들도 포함할 수 있는데, 이 매체는 기계에 정보를 전달할 수 있는 것이다.
이하에서는, 플로 차트와 블록 다이어그램으로 도식적으로 및 예시적으로 설명되는 방법들과 방법의 단계들이 참조된다. 설명적인 도면과 함께 설명되는 방법들은 시스템, 기기 및/또는 장치 등의 구현에 의해 쉽게 수행될 수 있음이 이해될 것이다. 특히, 상세한 블록 다이어그램 및/또는 플로 차트를 수행할 능력을 가지는 이 시스템, 기기 및/또는 장치는 반드시 본 명세서에서 도시되고 상세히 설명된 시스템, 기기 및/또는 장치로 한정될 필요는 없으며, 다른 시스템, 기기 및/또는 장치일 수도 있다. "제1", "제2", "제3" 등의 용어는 단지 라벨(label)로서 이용된 것에 불과하며, 그들 대상에 있어서 수치적 조건을 부과하거나 그들 대상의 특정 순위의 중요도를 결정하기 위해 의도된 것이 아니다.
도 1은 도식적으로 공간적 오디오 코딩 시스템(100)을 설명한다. 이 공간적 오디오 코딩 시스템(100)은 공간적 오디오 코딩 장치(100)와 공간적 오디오 디코딩 장치(20)를 포함한다. 도 1에서 오직 2개로 예시적으로 도시된 복수의 오디오 채널 신호(10a, 10b)는 공간적 오디오 코딩 장치(10)에 입력된다. 공간적 오디오 코딩 장치(10)는 오디오 채널 신호(10a, 10b)를 인코딩 및 다운믹싱하고, 공간적 오디오 디코딩 장치(20)에 전송되는 오디오 비트스트림(1)을 생성한다. 이 공간적 오디오 디코딩 장치(20)는 오디오 비트스트림(1)에 포함된 오디오 데이터를 디코딩 및 업믹싱하고, 단지 도 1에서 2개만으로 예시적으로 도시된 복수의 출력 오디오 채널 신호(20a, 20b)를 생성한다. 오디오 채널 신호(10a, 10b, 및 20a, 20b)의 수는 원칙적으로는 각각 제한되지 않는다. 예를 들어, 오디오 채널 신호(10a, 10b, 및 20a, 20b)의 수는 입체 음향 스테레오 신호에 대해서는 2개일 수 있다. 예를 들어, 입체 음향 스테레오 신호는, 예를 들어 HRTF 필터링을 포함하는 3D 오디오 또는 헤드폰 기반 서라운드 렌더링을 위해 이용될 수 있다.
공간적 오디오 코딩 시스템(100)은 ITU-T G.722, G. 722 Annex B, G.711.1 및/또는 G.711.1 Annex D의 스테레오 확장을 인코딩하기 위해 적용될 수 있다. 나아가, 공간적 오디오 코딩 시스템(100)은 3GPP EVS (Enhanced Voice Services) 코덱으로 정의된 것과 같은 모바일 어플리케이션의 음성 및 오디오 코딩/인코딩에 이용될 수 있다.
도 2는 도 1의 공간적 오디오 코딩 장치(10)를 더욱 상세하게 도식적으로 보여준다. 공간적 오디오 코딩 장치(10)는 변환 모듈(15), 변환 모듈(15)과 결합된 파라미터 추정 모듈(11), 변환 모듈(15)와 결합된 다운믹싱 모듈(12), 다운믹싱 모듈(12)과 결합된 인코딩 모듈(13), 및 인코딩 모듈(13)과 파라미터 추정 모듈(11)과 결합된 스트리밍 모듈(14)을 포함할 수 있다.
변환 모듈(15)은 시간 도메인으로부터 주파수 도메인으로의 변환을, 공간적 코딩 장치(10)에 입력되는 복수의 오디오 채널 신호(10a, 10b)에 적용하도록 구성될 수 있다. 다운믹싱 모듈(12)은 변환 모듈(15)로부터 변환된 오디오 채널 신호(10a, 10b)를 수신하고, 복수의 변환된 오디오 채널 신호(10a, 10b)를 다운믹싱함으로써 적어도 하나의 다운믹스된 오디오 채널 신호를 생성하도록 구성될 수 있다. 다운믹스된 오디오 채널 신호는 예를 들어 변환된 오디오 채널 신호(10a, 10b)의 수보다 적을 수 있다. 예를 들어, 다운믹싱 모듈(12)은 오직 하나의 다운믹스된 오디오 채널 신호를 생성하도록 구성될 수 있다. 인코딩 모듈(13)은 다운믹스된 오디오 채널 신호를 수신하고, 인코딩된 다운믹스된 오디오 채널 신호를 포함하는 인코딩된 오디오 비트스트림을 생성하도록 구성될 수 있다.
파라미터 추정 모듈(11)은 복수의 오디오 채널 신호(10a, 10b)를 입력으로서 수신하고, 소정의 주파수 범위에 대하여 복수의 오디오 채널 신호(10a 및 10b) 중 적어도 하나와 기준 오디오 채널 신호 사이의 채널간 차이(ICD) 값을 계산하도록 구성될 수 있다. 이 기준 오디오 채널 신호는 예를 들어 복수의 오디오 채널 신호((10a 및 10b) 중 하나일 수 있다. 선택적으로, 복수의 오디오 채널 신호(10a 및 10b) 중 적어도 2개의 오디오 채널 신호로부터 유도된 다운믹스된 오디오 신호를 이용하는 것도 가능하다. 파라미터 추정 모듈(11)은, 복수의 ICD 값 각각에 대하여, 복수의 ICD 값 각각을, 대응하는 주파수-의존 가중 인자에 곱함으로써 가중된 ICD 값을 계산하고, 복수의 가중된 ICD 값을 부가함으로써 소정의 주파수 범위에 대한 ICD 범위 값을 계산하도록 더 구성될 수 있다.
ICD 범위 값은, 인코딩 모듈(13)로부터 인코딩된 오디오 비트스트림을 포함하는 출력 오디오 비트스트림(1)과 ICD 범위 값의 양자화된 표현을 포함하는 파라미터 섹션을 생성하도록 구성될 수 있는 스트리밍 모듈(14)에 입력될 수 있다. 이 스트리밍 모듈(14)은 오디오 비트스트림(1)에 포함되어 있는 ICD 범위 값의 유형을 나타내는 파라미터 유형 플래그를 오디오 비트스트림(1)의 파라미터 섹션 내에 설정하도록 추가로 구성될 수 있다.
또한, 스트리밍 모듈(14)은 오디오 비트스트림(1) 내에 플래그를 설정하도록 추가로 구성될 수 있는데, 이 플래그는 오디오 비트스트림(1)의 파라미터 섹션에 ICD 범위 값의 존재를 나타낸다. 이 플래그는 완전한 오디오 비트스트림(1)에 대해 설정되거나 오디오 비트스트림(1)의 파라미터 섹션에 포함될 수 있다. 오디오 비트스트림(1)에 포함되어 있는 ICD 범위 값의 시그널링이 외재적으로 또는 내재적으로 공간적 오디오 디코딩 장치(20)에 시그널링 될 수 있다는 것이다. 외재적 및 내재적 시그널링 방법 사이에서 스위치되는 것도 가능할 수 있다.
내재 시그널링의 경우에는, 플래그는 파라미터 섹션 내의 보조 데이터 내의 보조 채널 정보의 존재를 나타낼 수 있다. 과거의 디코딩 장치(20)는 그러한 플래그가 존재하는지의 여부를 확인하지 않고, 단지 인코딩된 다운믹스된 오디오 비트스트림을 디코딩한다. 반대로, 비-과거의 즉, 최신의 디코딩 장치(20)는 수신된 오디오 비트스트림(1) 내에 그러한 플래그가 존재하는 것을 확인할 수 있고, 부가적인 전체 대역 공간적 코딩 파라미터(full band spatial coding parameter), 예컨대 오디오 비트스트림(1)의 파라미터 섹션에 포함된 ICD 범위 값에 기초하여 다중-채널 오디오 신호(20a, 20b)를 재구성할 수 있다.
외재 시그널링을 이용하는 경우, 완전한 오디오 비트스트림(1)이 ICD 범위 값을 수반하는 것으로 플래그 표시될 수 있다. 이는, 과거의 디코딩 장치(20)가 비트스트림을 디코딩할 수 없고, 따라서 오디오 비트스트림(1)을 폐기한다는 것이다. 반대로, 최신의 디코딩 장치(20)는 오디오 비트스트림(1)을 전체로서 디코딩할지의 여부 또는 ICD 범위 값을 무시하고 인코딩된 다운믹스된 오디오 비트스트림(1)을 디코딩할지의 여부를 결정할 수 있다. 외재 시그널링의 이점은, 예를 들면, 새로운 모바일 단말기가 에너지를 절약하기 위해 오디오 비트스트림의 어떤 부분을 디코딩하는지를 결정할 수 있으므로, 내장된 배터리의 배터리 수명이 연장되는 것으로 이해될 수 있다. 공간적 코딩 파라미터의 디코딩은 일반적으로 더욱 복잡하며 더 많은 에너지를 필요로 한다. 또한, 렌더링 시스템에 따라, 최신의 디코딩 장치(20)는 오디오 비트스트림(1)의 어떤 부분이 디코딩되어야 하는지를 결정할 수 있다. 예를 들어, 헤드폰을 통한 렌더링에 있어서, 오직 인코딩된 다운믹스된 오디오 비트스트림을 디코딩하는 것만으로 충분할 수 있으나, 모바일 단말기가 그러한 다중-채널 렌더링 능력을 가지는 도킹 스테이션에 연결된 경우만큼은 다중-채널 오디오 신호가 디코딩된다.
도 3은 도 1의 공간적 오디오 디코딩 장치(20)를 더욱 상세하게 도식적으로 보여준다. 공간적 오디오 디코딩 장치(20)는 비트스트림 추출 모듈(26), 파라미터 추출 모듈(21), 디코딩 모듈(22), 업믹싱 모듈(24), 및 변환 모듈(25)을 포함할 수 있다. 비트스트림 추출 모듈(26)은 오디오 비트스트림(1)을 수신하고, 오디오 비트스트림(1)에 포함된 파라미터 섹션과 인코딩된 다운믹스된 오디오 비트스트림을 분리하도록 구성될 수 있다. 파라미터 추출 모듈(21)은, 오디오 비트스트림(1)에 포함되어 있는 ICD 범위 값을 나타내는 수신된 오디오 비트스트림(1)의 파라미터 섹션 내의 파라미터 타입 플래그를 검출하도록 구성될 수 있다. 파라미터 추출 모듈(21)은 수신된 오디오 비트스트림(1)의 파라미터 섹션으로부터 ICD 범위 값을 판독하도록 추가로 구성될 수 있다.
디코딩 모듈(22)은 인코딩된 다운믹스된 오디오 비트스트림을 디코딩하고, 디코딩된 다운믹스된 오디오 신호를 업믹싱 모듈(24)에 입력하도록 구성될 수 있다. 업믹싱 모듈(24)은 파라미터 추출 모듈(21)과 결합되고, 파라미터 추출 모듈(21)이 제공한 것으로서 수신된 오디오 비트스트림(1)의 파라미터 섹션으로부터 판독된 ICD 범위 값을 이용하여, 복수의 오디오 채널 신호에 대해 디코딩된 다운믹스된 오디오 신호를 업믹싱하도록 구성될 수 있다. 마지막으로, 변환 모듈(25)은 업믹싱 모듈(24)과 결합되고, 복수의 오디오 채널 신호에 기초한 사운드의 재생산을 위해 주파수 도메인으로부터 시간 도메인으로 복수의 오디오 채널 신호를 변환하도록 구성될 수 있다.
도 4는 파라메트릭 공간적 코딩을 위한 방법(30)의 일 실시예들 개략적으로 도시한다. 본 방법(30)은 제1 단계로 입력 채널, 예를 들어 입력 채널(10a, 10b)에 대해 시간-주파수 변환을 수행하는 단계를 포함한다. 스테레오 신호의 경우에서는, 제1 변환이 단계 30a에서 수행되고, 제2 변환이 단계 30b에서 수행된다. 이 변환은 각 경우에서 고속 푸리에 변환(FFT)을 이용하여 수행될 수 있다. 선택적으로, 단기 푸리에 변환(Short Term Fourier Transformation, STFT), 코사인 변조 필터 뱅크를 포함하는 코사인 변조 필터링 또는 복소 필터 뱅크를 포함하는 복소 필터링이 수행될 수 있다.
제2 단계(31)에서는, 교차 스펙트럼 c[b]가 다음과 같은 식으로서 부분대역 b 하나 당 연산될 수 있다.
Figure pct00001
여기서, X1[k]와 X2[k]는 2개의 채널(1 및 2), 예를 들면 스테레오의 경우에 있어서의 왼쪽 및 오른쪽 채널의 FFT 계수이다. "*"은 복소 결합(complex conjugation, 공액)을 나타내고, kb는 부분대역 b의 시작 빈(start bin)을 나타내며, kb +1은 이웃하는 부분대역 b+1의 시작 빈을 나타낸다. 따라서, kb로부터 kb + 1까지의 FFT의 주파수 빈 [k]는 부분대역 b를 나타낸다.
선택적으로, FFT의 각각의 주파수 빈 k에 대해 교차 스펙트럼이 연산될 수 있다. 이러한 경우에서는, 부분대역 b는 하나의 주파수 빈 [k]에 직접 대응한다.
제3 단계(32)에서는, 교차 스펙트럼에 기초하여, 부분대역 b 하나 당 채널간 차이가 계산될 수 있다. 예를 들어, 양이간(interaural) 위상 차이(IPD)의 경우에서는, 그러한 계산이 다음의 식으로서 이루어질 수 있다.
Figure pct00002
여기서, 부분대역 b 하나 당 IPD는 각각의 부분대역 b의 교차 스펙트럼 c[b]의 각도이다. 단계 31 및 32는, 소정의 주파수 범위에 대해 복수의 오디오 채널 신호 중 적어도 하나와 기준 오디오 채널 신호 사이의 ICD/IPD에 대한 복수의 ICD 값 특히, IPD 값이 계산됨을 보장한다. 나아가, 각각의 ICD 값이, 주파수 부분대역 b 또는 적어도 단일의 주파수 빈인, 소정의 주파수 범위의 일부에 대해 계산된다.
단계 31 및 32에 관하여 상세히 설명된 계산 방법은 Breebart, J., van de Par, S., Kohlrausch, A., Schuijers, E.: "Parametric Coding of Stereo Audio", EURASIP Journal on Applied Signal Processing, 2005, No. 9, pp. 1305-1322로부터 알려진 방법에 대응한다.
이 IPD 값은 대역 제한 신호에 대한 위상 차이를 나타낸다. 대역폭이 충분히 제한되면, 이러한 위상 차이는 입력 신호 사이의 단편적인 지연으로서 이해될 수 있다. 각각의 주파수 부분대역 b에 있어서, IPD와 채널간 시간 차이(ITD)는 동일한 정보를 나타낸다. 그러나, 전체 뱅크에 있어서는, IPD 값은 ITD 값고 상이하다: 전체 대역 IPD는 2개의 채널(1 및 2) 사이의 일정한 위상 차이인 반면에, 전체 대역 ITD는 2개의 채널 사이의 일정한 시간 차이이다.
부분대역 IPD 값에 기초하여 전체 대역 IPD를 계산하기 위해서는, 모든 부분대역 IPD 값에 대한 평균을 연산하여 전체 대역 IPD 값 즉, 오디오 채널 신호의 전체 주파수 범위에 대한 IPD 범위 값을 획득하는 것이 가능하다. 그러나, 주파수 부분대역이 서로 다른 지각적 중요도를 가지기 때문에, 이러한 추정 방법은 대표적인 IPD 범위 값의 잘못된 추정을 야기할 수 있다.
[52] ICD 범위 값의 연산을 위해, 소정의 주파수 범위가 정의될 수 있다. 예를 들어, 소정의 주파수 범위는 복수의 오디오 채널 신호의 전체 주파수 대역일 수 있다. 선택적으로, 복수의 오디오 채널 신호의 전체 주파수 대역 내의 하나 이상의 소정의 주파수 구간이 선택될 수 있는데, 여기서 소정의 주파수 구간은 서로 인접하거나 공간적으로 분리될 수 있다. 소정의 주파수 범위는 예를 들면 200Hz부터 600Hz 사이의 주파수 대역 또는 선택적으로 300Hz부터 1.5kHz 사이의 주파수 대역을 포함할 수 있다.
제3 단계(33) 및 제4 단계(34)에서는, 제1 단계 및 제2 단계(31 및 32)에 대응하여, 소정의 주파수 범위의 각각의 부분 즉, 각각의 주파수 부분대역 b 또는 주파수 빈 b의 에너지 E[b]가 다음의 식에 의해 계산된다.
Figure pct00003
또는, 선택적으로 다음의 식에 의해 계산된다.
Figure pct00004
그리고, 소정의 주파수 범위, 예를 들면 전체 대역의 에너지 EG에 대해 연속하여 평준화되는데,
Figure pct00005
여기서 Mmin과 Mmax는 각각 소정의 주파수 범위 내에서 가장 낮은 주파수 부분대역 또는 빈 및 가장 높은 주파수 부분대역 또는 빈의 인덱스이다.
단계 35에서는, 복수의 ICD 값 각각에 있어서, 예를 들면 값 IPD[b]에 있어서, 가중된 ICD 값, 예를 들면 가중된 IPD 값 IPDw[b]가, 복수의 ICD 값 각각에, 대응하는 주파수-의존 가중 인자 Ew[b]를 곱함으로써 계산된다.
Figure pct00006
주파수-의존 가중 인자는, 예를 들면 다음의 식으로 연산되는, 연관된 가중 에너지 값 Ew[b]일 수 있다.
Figure pct00007
연속되는 프레임에 대해 가중 인자 Ew[b]를 평활화(smooth) 하는 것, 즉 현재의 가중 인자 Ew[b]를 계산하는 경우에, 복수의 오디오 채널 신호의 이전 프레임의 가중 인자 Ew[b]의 단편(fraction)을 고려하는 것이 가능할 수 있다.
마지막으로, 단계 36에서는, ICD 범위 값, 예를 들어 전체 대역 IPD 값 IPDF가, 복수의 가중된 ICD 값을 더함으로써 소정의 주파수 범위에 대해 계산될 수 있다
Figure pct00008
선택적으로, 가중 인자 Ew[b]는 소정의 주파수 범위에 대해 평준화된 오디오 채널 신호의 주파수의 에너지 분배에 대한 마스킹 곡선으로부터 유도될 수 있다. 그러한 마스킹 곡선은 예를 들면, Bosi, M., Goldberg, R.: "Introduction to Digital Audio Coding and Standards", Kluwer Academic Publishers, 2003로부터 알려진 것으로 계산될 수 있다. 소정의 주파수 범위에 대해 평준화된 오디오 채널 신호의 부분대역 b의 지각적 엔트로피 값에 기초하여 주파수-의존 가중 인자를 결정하는 것도 가능하다. 이러한 경우에는, 마스킹 곡선 또는 지각적 엔트로피의 평준화된 버전이 가중 함수로서 이용될 수 있다.
도 4에 도시된 것처럼, 본 방법은 또한 다중-채널 파라메트릭 오디오 코딩에 적용될 수도 있다. 부분대역 b 하나 당 및 각각의 채널 j 하나 당 교차 스펙트럼이 다음과 같이 계산될 수 있다.
Figure pct00009
여기서, Xj[k]는 채널 j의 FFT 계수이고, Xref[k]는 기준 채널의 FFT 계수이다. 기준 채널은 복수의 채널 j 중 하나로 선택될 수 있다. 선택적으로, 기준 채널은, 모든 채널 j에 대한 평균인 모노 다운믹스 신호의 스펙트럼일 수 있다. 전자의 경우에서는, M-1개의 공간적 큐가 생성되는 반면에, 후자의 경우에서는 M개의 공간적 큐가 생성되는데, M은 채널 j의 수이다. "*"은 복소 결합을 나타내고, kb는 부분대역 b의 시작 빈을 나타내며, kb +1은 이웃하는 부분대역 b+1의 시작 빈을 나타낸다. 따라서, kb로부터 kb +1까지의 FFT의 주파수 빈 [k]는 부분대역 b를 나타낸다.
선택적으로, FFT의 각각의 주파수 빈 k에 대해 교차 스펙트럼이 연산될 수 있다. 이러한 경우에서는, 부분대역 b는 하나의 주파수 빈 [k]에 직접 대응한다.
채널 j의 채널간 차이는 교차 스펙트럼에 기초하여 부분대역 b 하나 당 계산될 수 있다. 예를 들어, 양이간 위상 차이(IPD)의 경우에서는, 그러한 계산은 다음의 식으로 이루어질 수 있다.
Figure pct00010
여기서, 부분대역 b 및 채널 j 당 IPDj는 각각의 부분대역 b 및 채널 j의 교차 스펙트럼 cj[b]의 각도이다.
소정의 주파수 범위의 각각의 부분 즉, 각각의 주파수 부분대역 b 또는 주파수 빈 b의 채널 j 하나 당 에너지 Ej[b]는 다음의 식에 의해 계산된다.
Figure pct00011
또는, 선택적으로는 다음의 식에 의해 계산된다.
Figure pct00012
그리고, 소정의 주파수 범위 예를 들면 전체 대역의 에너지 EGj에 대해 연속하여 평준화되는데,
Figure pct00013
여기서, Mmin과 Mmax는 각각 소정의 주파수 범위 내의 가장 낮은 주파수 부분대역 또는 빈 및 가장 높은 주파수 부분대역 또는 빈의 인덱스이다.
복수의 ICD 값 각각에 있어서, 예를 들면 값 IPDj[b]에있어서, 가중된 ICD 값, 예를 들면 가중된 IPD 값 IPDwj[b]가, 복수의 ICD 값 각각에, 대응하는 주파수-의존 가중 인자 Ewj[b]를 곱함으로써 계산된다.
Figure pct00014
주파수-의존 가중 인자는, 예를 들면 다음의 식으로 연산되는, 연관된 가중 에너지 값 Ewj[b]일 수 있다.
Figure pct00015
연속되는 프레임에 대해 가중 인자 Ewj[b]를 평활화하는 것, 즉 현재의 가중 인자 Ewj[b]를 계산하는 경우에, 복수의 오디오 채널 신호의 이전 프레임의 가중 인자 Ewj[b]의 단편을 고려하는 것이 가능할 수 있다.
마지막으로, ICD 범위 값, 예를 들어 전체 대역 IPD 값 IPDFj가, 복수의 가중된 ICD 값을 더함으로써 소정의 주파수 범위에 대해 계산될 수 있다
Figure pct00016
도 5는, 오디오 비트스트림, 예를 들면 도 1 내지 3에서 상세하게 설명된 오디오 비트스트림(1)의 비트스트림 구조를 개략적으로 설명한다. 도 5에서는, 오디오 비트스트림(1)이 인코딩된 다운믹스된 오디오 비트스트림 섹션(1a)과 파라미터 섹션(1b)를 포함할 수 있다. 인코딩된 다운믹스된 오디오 비트스트림 섹션(1a)과 파라미터 섹션(1b)은 서로 교환될 수 있으며, 그들의 조합된 길이는 오디오 비트스트림(1)의 전반적인 비트레이트의 지표일 수 있다. 인코딩된 다운믹스된 오디오 비트스트림 섹션(1a)은 디코딩될 실제 오디오 데이터를 포함할 수 있다. 파라미터 섹션(1b)은 ICD 범위 값과 같은 공간적 코딩 파라미터의 하나 이상의 양자화된 표시를 포함할 수 있다. 오디오 비트스트림(1)은 예를 들어 오디오 비트스트림(1)이 파라미터 섹션(1b) 내에 보조 데이터를 포함하고 있는지의 여부를 외재 시그널링하기 위해 이용되는 시그널링 플래그 비트(2)를 포함할 수 있다. 더 나아가, 파라미터 섹션(1b)은 오디오 비트스트림(1)이 파라미터 섹션(1b) 내에 보조 데이터를 포함하는지의 여부를 내재 시그널링하기 위해 이용되는 시그널링 플래그 비트(3)를 포함할 수 있다.

Claims (16)

  1. 채널간 차이(inter-channel difference, ICD)의 추정을 위한 방법으로서,
    시간 도메인으로부터 주파수 도메인으로의 변환을 복수의 오디오 채널 신호에 적용하는 단계(30a, 30b);
    소정의 주파수 범위에 대해 상기 복수의 오디오 채널 신호 중 적어도 하나와 기준 오디오 채널 신호 사이의 상기 ICD에 대한 복수의 ICD 값을 계산하는 단계(31, 32) - 각각의 ICD 값은 상기 소정의 주파수 범위의 일부에 대해 계산됨 -;
    상기 복수의 ICD 값 각각에 대해, 상기 복수의 ICD 값 각각에, 대응하는 주파수-의존 가중 인자를 곱함으로써 가중된 ICD 값을 계산하는 단계(35); 및
    상기 복수의 가중된 ICD 값을 더함으로써 상기 소정의 주파수 범위에 대한 ICD 범위 값을 계산하는 단계(36)
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 ICD는 채널간 위상 차이(inter-channel phase difference, IPD) 또는 채널간 시간 차이(inter-channel time difference, ITD)인, 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 시간 도메인으로부터 주파수 도메인으로의 변환은 고속 푸리에 변환(Fast Fourier Transformation, FFT), 코사인 변조 필터 뱅크(cosine modulated filter bank), 이산 푸리에 변환(Discrete Fourier Transformation, DFT), 및 복소 필터 뱅크의 그룹 중 하나를 포함하는, 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 소정의 주파수 범위는 상기 복수의 오디오 채널 신호의 전체 주파수 대역, 상기 복수의 오디오 채널 신호의 전체 주파수 대역 내의 소정의 주파수 구간, 및 상기 복수의 오디오 채널 신호의 전체 주파수 대역 내의 복수의 소정의 주파수 구간의 그룹 중 하나를 포함하는, 방법.
  5. 제4항에 있어서,
    상기 소정의 주파수 구간은 200Hz에서 600Hz 사이 또는 300Hz에서 1.5kHz 사이에 놓이는, 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 기준 오디오 채널 신호는 상기 오디오 채널 신호 중의 하나 또는 상기 복수의 오디오 채널 신호 중 적어도 2개의 오디오 채널 신호로부터 유도된 다운믹스 오디오 신호를 포함하는, 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 복수의 ICD 값을 계산하는 단계는, 주파수 부분대역(subband)에 기초하여 복수의 ICD 값을 계산하는 단계를 포함하는, 방법.
  8. 제7항에 있어서,
    상기 주파수-의존 가중 인자는 상기 소정의 주파수 범위에 대한 전체 에너지에 기초하여 평준화된(normalized) 주파수 부분대역의 에너지에 기초하여 결정되는, 방법.
  9. 제7항에 있어서,
    상기 주파수-의존 가중 인자는 상기 소정의 주파수 범위에 대해 평준화된 오디오 채널 신호의 주파수의 에너지 분배에 대한 마스킹 곡선(masking curve)에 기초하여 결정되는, 방법.
  10. 제7항에 있어서,
    상기 주파수-의존 가중 인자는 상기 소정의 주파수 범위에 대해 평준화된 오디오 채널 신호의 부분대역의 지각적 엔트로피 값(perceptual entropy value)에 기초하여 결정되는, 방법.
  11. 제10항에 있어서,
    상기 주파수-의존 가중 인자는 적어도 2개의 연속한 프레임 사이에서 평활화되는, 방법.
  12. 공간적 오디오 코딩 장치로서,
    시간 도메인으로부터 주파수 도메인으로의 변환을 복수의 오디오 채널 신호(10a, 10b)에 적용하도록 구성된 변환 모듈(15); 및
    소정의 주파수 범위에 대해, 상기 복수의 오디오 채널 신호(10a, 10b) 중 적어도 하나와 기준 오디오 채널 신호 사이의 ICD에 대한 복수의 ICD 값을 계산하고, 상기 복수의 ICD 값 각각에 대해, 상기 복수의 ICD 값 각각에, 대응하는 주파수-의존 가중 인자를 곱함으로써 가중된 ICD 값을 계산하며, 상기 복수의 가중된 ICD 값을 더함으로써 상기 소정의 주파수 범위에 대한 ICD 범위 값을 계산하도록 구성된 파라미터 추정 모듈(11)
    을 포함하는 장치.
  13. 제12항에 있어서,
    상기 복수의 오디오 채널 신호(10a, 10b)를 다운믹싱함으로써, 다운믹스된 오디오 채널 신호를 생성하도록 구성된 다운믹싱 모듈(12)을 더 포함하는 장치.
  14. 제13항에 있어서,
    상기 다운믹싱 모듈(12)과 결합되어, 인코딩된 다운믹스된 오디오 비트스트림을 포함하는 인코딩된 오디오 비트스트림을 생성하도록 구성된 인코딩 모듈(13)을 더 포함하는 장치.
  15. 제12항 내지 제14항 중 어느 한 항에 있어서,
    상기 파라미터 추정 모듈(11)과 결합되어, 다운믹스된 오디오 비트스트림을 포함하는 오디오 비트스트림(1)과 상기 복수의 오디오 채널 신호(10a, 10b)에 대한 ICD 범위 값을 포함하는 보조 데이터를 생성하도록 구성된 스트리밍 모듈(14)을 더 포함하는, 장치.
  16. 컴퓨터에서 실행될 때 제1항 내지 제11항 중 어느 한 항에 따른 방법을 수행하기 위한 프로그램 코드를 포함하는 컴퓨터 프로그램.
KR1020147029934A 2012-04-05 2012-04-05 채널간 차이 추정 방법 및 공간적 오디오 코딩 장치 KR101662682B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2012/056342 WO2013149673A1 (en) 2012-04-05 2012-04-05 Method for inter-channel difference estimation and spatial audio coding device

Publications (2)

Publication Number Publication Date
KR20140139591A true KR20140139591A (ko) 2014-12-05
KR101662682B1 KR101662682B1 (ko) 2016-10-05

Family

ID=45929533

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147029934A KR101662682B1 (ko) 2012-04-05 2012-04-05 채널간 차이 추정 방법 및 공간적 오디오 코딩 장치

Country Status (7)

Country Link
US (1) US9275646B2 (ko)
EP (1) EP2702587B1 (ko)
JP (1) JP2015517121A (ko)
KR (1) KR101662682B1 (ko)
CN (1) CN103534753B (ko)
ES (1) ES2540215T3 (ko)
WO (1) WO2013149673A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102015108780A1 (de) 2014-10-16 2016-04-21 Hyundai Motor Company Mehrstufiges Automatikgetriebe für ein Fahrzeug

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106033672B (zh) * 2015-03-09 2021-04-09 华为技术有限公司 确定声道间时间差参数的方法和装置
US9591427B1 (en) * 2016-02-20 2017-03-07 Philip Scott Lyren Capturing audio impulse responses of a person with a smartphone
CN107452387B (zh) 2016-05-31 2019-11-12 华为技术有限公司 一种声道间相位差参数的提取方法及装置
US10217467B2 (en) 2016-06-20 2019-02-26 Qualcomm Incorporated Encoding and decoding of interchannel phase differences between audio signals
US9875747B1 (en) * 2016-07-15 2018-01-23 Google Llc Device specific multi-channel data compression
US10366695B2 (en) * 2017-01-19 2019-07-30 Qualcomm Incorporated Inter-channel phase difference parameter modification
CN109215668B (zh) 2017-06-30 2021-01-05 华为技术有限公司 一种声道间相位差参数的编码方法及装置
CN112262433B (zh) * 2018-04-05 2024-03-01 弗劳恩霍夫应用研究促进协会 用于估计通道间时间差的装置、方法或计算机程序

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080002842A1 (en) * 2005-04-15 2008-01-03 Fraunhofer-Geselschaft zur Forderung der angewandten Forschung e.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
WO2008132850A1 (ja) * 2007-04-25 2008-11-06 Panasonic Corporation ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
WO2011080916A1 (ja) * 2009-12-28 2011-07-07 パナソニック株式会社 音声符号化装置および音声符号化方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5835375A (en) * 1996-01-02 1998-11-10 Ati Technologies Inc. Integrated MPEG audio decoder and signal processor
DE19632734A1 (de) * 1996-08-14 1998-02-19 Thomson Brandt Gmbh Verfahren und Vorrichtung zum Generieren eines Mehrton-Signals aus einem Mono-Signal
US6199039B1 (en) * 1998-08-03 2001-03-06 National Science Council Synthesis subband filter in MPEG-II audio decoding
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
BRPI0304542B1 (pt) 2002-04-22 2018-05-08 Koninklijke Philips Nv “Método e codificador para codificar um sinal de áudio de multicanal, sinal de áudio multicanal codificado, e, método e decodificador para decodificar um sinal de áudio de multicanal codificado”
US7903824B2 (en) 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
JP4521032B2 (ja) 2005-04-19 2010-08-11 ドルビー インターナショナル アクチボラゲット 空間音声パラメータの効率的符号化のためのエネルギー対応量子化
BRPI0715312B1 (pt) * 2006-10-16 2021-05-04 Koninklijke Philips Electrnics N. V. Aparelhagem e método para transformação de parâmetros multicanais
KR101108061B1 (ko) * 2008-09-25 2012-01-25 엘지전자 주식회사 신호 처리 방법 및 이의 장치
CN101408615B (zh) * 2008-11-26 2011-11-30 武汉大学 双耳时间差itd临界感知特性的测量方法及其装置
KR101613975B1 (ko) * 2009-08-18 2016-05-02 삼성전자주식회사 멀티 채널 오디오 신호의 부호화 방법 및 장치, 그 복호화 방법 및 장치
EP2323130A1 (en) * 2009-11-12 2011-05-18 Koninklijke Philips Electronics N.V. Parametric encoding and decoding
US9584235B2 (en) * 2009-12-16 2017-02-28 Nokia Technologies Oy Multi-channel audio processing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080002842A1 (en) * 2005-04-15 2008-01-03 Fraunhofer-Geselschaft zur Forderung der angewandten Forschung e.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
WO2008132850A1 (ja) * 2007-04-25 2008-11-06 Panasonic Corporation ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
WO2011080916A1 (ja) * 2009-12-28 2011-07-07 パナソニック株式会社 音声符号化装置および音声符号化方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102015108780A1 (de) 2014-10-16 2016-04-21 Hyundai Motor Company Mehrstufiges Automatikgetriebe für ein Fahrzeug

Also Published As

Publication number Publication date
CN103534753A (zh) 2014-01-22
US9275646B2 (en) 2016-03-01
EP2702587A1 (en) 2014-03-05
KR101662682B1 (ko) 2016-10-05
US20140164001A1 (en) 2014-06-12
JP2015517121A (ja) 2015-06-18
CN103534753B (zh) 2015-05-27
ES2540215T3 (es) 2015-07-09
WO2013149673A1 (en) 2013-10-10
EP2702587B1 (en) 2015-04-01

Similar Documents

Publication Publication Date Title
KR101662682B1 (ko) 채널간 차이 추정 방법 및 공간적 오디오 코딩 장치
KR101662681B1 (ko) 멀티채널 오디오 인코더 및 멀티채널 오디오 신호 인코딩 방법
KR101621287B1 (ko) 다채널 오디오 신호 및 다채널 오디오 인코더를 위한 인코딩 파라미터를 결정하는 방법
KR101580240B1 (ko) 다채널 오디오 신호를 인코딩하는 파라메트릭 인코더
CN107731238B (zh) 多声道信号的编码方法和编码器
KR101606665B1 (ko) 파라미터 공간 오디오 코딩 및 디코딩을 위한 방법, 파라미터 공간 오디오 코더 및 파라미터 공간 오디오 디코더
JP2020516955A (ja) マルチチャネル信号符号化方法、マルチチャネル信号復号方法、エンコーダ、およびデコーダ
JP2017058696A (ja) インターチャネル差分推定方法及び空間オーディオ符号化装置
WO2010075895A1 (en) Parametric audio coding
CN104205211B (zh) 多声道音频编码器以及用于对多声道音频信号进行编码的方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190829

Year of fee payment: 4