KR101450414B1 - 멀티-채널 오디오 프로세싱 - Google Patents

멀티-채널 오디오 프로세싱 Download PDF

Info

Publication number
KR101450414B1
KR101450414B1 KR1020127018484A KR20127018484A KR101450414B1 KR 101450414 B1 KR101450414 B1 KR 101450414B1 KR 1020127018484 A KR1020127018484 A KR 1020127018484A KR 20127018484 A KR20127018484 A KR 20127018484A KR 101450414 B1 KR101450414 B1 KR 101450414B1
Authority
KR
South Korea
Prior art keywords
channel
inter
metric
delete delete
way
Prior art date
Application number
KR1020127018484A
Other languages
English (en)
Other versions
KR20120098883A (ko
Inventor
파시 오얄라
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20120098883A publication Critical patent/KR20120098883A/ko
Application granted granted Critical
Publication of KR101450414B1 publication Critical patent/KR101450414B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H40/00Arrangements specially adapted for receiving broadcast information
    • H04H40/18Arrangements characterised by circuits or components specially adapted for receiving
    • H04H40/27Arrangements characterised by circuits or components specially adapted for receiving specially adapted for broadcast systems covered by groups H04H20/53 - H04H20/95
    • H04H40/36Arrangements characterised by circuits or components specially adapted for receiving specially adapted for broadcast systems covered by groups H04H20/53 - H04H20/95 specially adapted for stereophonic broadcast receiving
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

적어도 제1 입력 오디오 채널 및 제2 입력 오디오 채널을 수신하는 단계; 및 인터-채널 예측 모델을 이용하는 수신의 인터-채널 (inter-channel) 방향 파라미터를 적어도 형성하는 단계;를 포함하는 방법이 개시된다.

Description

멀티-채널 오디오 프로세싱{Multi-channel audio processing}
본 발명의 실시예들은 멀티-채널 오디오 프로세싱에 관련된다. 특히, 그 실시예들은 오디오 신호 분석, 멀티채널 오디오 인코딩 그리고/또는 디코딩에 관련된다.
멀티-채널 오디오 신호 분석은 예를 들면 3D 이미지, 오디오 코딩 내의 사운드 소스들의 개수는 물론이고 방향 및 모션에 관한 멀티-채널, 오디오 컨텍스트 분석에서 사용되며, 이는 예를 들면 스피치, 음악 등을 코딩하기 위해서 사용될 수 있을 것이다.
멀티-채널 오디오 코딩은, 예를 들면, 디지털 오디오 브로드캐스팅, 디지털 TV 브로드캐스팅, 음악 다운로드 서비스, 스트리밍 음악 서비스, 인터넷 라디오, 원격지간의 회의, (VoIP (Voice over IP), 멀티미디어 브로드캐스트 브로드캐스트 서비스 (Multimedia Broadcast Multicast Service (MBMS)) 및 패킷-교환 스트리밍 (Packet-switched streaming (PSS)과 같은) 패킷 교환 네트워커를 통한 실시간 멀티미디어 전송을 위해서 사용될 수 있을 것이다.
본 발명의 목적은 상기와 같은 멀티-채널 오디오 프로세싱을 위한 장치 및 방법을 제공하는 것이다.
본 발명의 다양한 그러나 전부는 아닌 실시예들에 따라, 적어도 제1 입력 오디오 채널 및 제2 입력 오디오 채널을 수신하는 단계; 및 인터-채널 예측 모델을 이용하는 인터-채널 (inter-channel) 방향 수신 파라미터를 적어도 형성하는 단계;를 포함하는 방법이 제공된다.
본 발명의 다양한 그러나 전부는 아닌 실시예들에 따라, 기계로 읽을 수 있는 명령어들을 포함하는 컴퓨터 프로그램 제품이 제공되며, 상기 명령어들은 프로세서로 로딩되면 프로세스를 제어하여, 적어도 제1 입력 오디오 채널 및 제2 입력 오디오 채널을 수신하고; 그리고 인터-채널 예측 모델을 이용하여 수신의 인터-채널 (inter-channel) 방향 파라미터를 적어도 형성하게 한다.
본 발명의 다양한 그러나 전부는 아닌 실시예들에 따라, 프로세서 및 기계-독출가능 명령어들을 기록한 메모리를 포함하는 장치가 제공되며, 상기 명령어들은 프로세서로 로딩되면 상기 장치가, 적어도 제1 입력 오디오 채널 및 제2 입력 오디오 채널을 수신하고; 그리고 인터-채널 예측 모델을 이용하여 수신의 인터-채널 (inter-channel) 방향 파라미터를 적어도 형성하는 것을 가능하게 한다.
본 발명의 다양한 그러나 전부는 아닌 실시예들에 따라, 적어도 제1 입력 오디오 채널 및 제2 입력 오디오 채널을 수신하는 수단; 및 인터-채널 예측 모델을 이용하여 수신의 인터-채널 (inter-channel) 방향 파라미터를 적어도 형성하는 수단;을 포함하는 장치가 제공된다.
본 발명의 다양한 그러나 전부는 아닌 실시예들에 따라, 다운믹스된 신호 그리고 인터-채널 방향 수신 파라미터를 적어도 하나 수신하는 단계; 및 상기 다운믹스된 신호 및 인터-채널 방향 수신 파리미터의 적어도 하나를 이용하여 멀티-채널 오디오 출력을 렌더링하는 단계를 포함하는 방법이 제공된다.
본 발명의 효과는 본 명세서의 해당되는 부분들에 개별적으로 명시되어 있다.
본 발명의 다양한 실시예들을 더 잘 이해하기 위해서, 첨부된 도면들을 오직 예로서만 참조할 것이다.
도 1은 멀티-채널 오디오 코딩을 위한 시스템을 개략적으로 예시한다.
도 2는 인코더 장치를 개략적으로 도시한다.
도 3은 상이한 추정적인 인터-채널 예측 모델들 H1, H2에 대한 비용 함수들이 어떻게 몇몇의 구현들에서 결정될 수 있는가를 개략적으로 보여준다.
도 4는 선택된 인터-채널 예측 모델 H로부터 인터-채널 파라미터를 결정하기 위한 방법을 개략적으로 예시한다.
도 5는 선택된 인터-채널 예측 모델 H로부터 인터-채널 파라미터를 결정하기 위한 방법을 개략적으로 예시한다.
도 6은 인코더 장치 및/또는 디코더 장치로서 사용될 수 있을 코더 장치의 컴포넌트들을 개략적으로 예시한다.
도 7은 인터-채널 방향 수신 파라미터를 결정하기 위한 방법을 개략적으로 예시한다.
도 8은 합설 블록의 멀티-채널 출력이 복수의 출력 오디오 채널들로 믹스되는 디코더를 개략적으로 예시한다.
도 9는 인코더 장치로부터 입력 신호들을 수신하는 디코더 장치를 개략적으로 예시한다.
상기 예시된 멀티채널 오디오 인코더 장치 (4)는 이 예에서 멀티-채널 오디오 신호 분석을 이용하는, 정의된 파라미터 모델에 따라서 인코딩하는 파라미터 인코더이다.
상기 파라미터 모델은 이 예에서 멀티-채널 오디오 신호를 조절하기 위해서 필요한 저장 공간이나 전송 대역폭을 축소하기 위해 손실 압축 그리고 데이터 레이트 축소를 가능하게 하는 지각 (perceptual) 모델이다.
인코더 장치 (4)는, 이 예에서, 예를 들면 입체음향 큐 코딩 (binaural cue coding (BCC)) 파라미터화와 같은 파라미터 코딩 기술을 이용하여 멀티-채널 오디오 코딩을 수행한다. 파라미터 오디오 코딩 모델들은 일반적으로 원래의 오디오를 원래의 신호의 채널들로부터 형성된 감소된 개수의 오디오 채널들을 포함하는 다운믹스 (downmix) 신호로서, 예를 들면, 모노포닉 (monophonic)으로서 또는 두 채널 (스테레오) 합 신호로서, 원래의 신호의 재구축을 가능하게 하기 위해서 원래 신호의 채널들 사이의 차이들을 기술하는, 즉, 원래의 신호에 의해서 표현된 공간적인 이미지를 기술하는 파라미터들의 비트 스트림과 함께 표현한다. 하나를 넘는 채널을 포함하는 다운믹스 신호는 여러 개의 개별적인 다운믹스 신호들로서 간주될 수 있다.
상기 파라미터들은 복수의 변환 도메인 시간-주파수 슬롯들 각각 내에서, 즉, 입력 프레임에 대한 주파수 서브 밴드들 내 추정된 적어도 하나의 인터-채널 파라미터를 포함할 수 있을 것이다. 전통적으로 상기 인터-채널 파라미터들은 인터-채널 레벨 차이 (inter-channel level difference (ILD)) 파라미터 및 인터-채널 시간 차이 (inter-channel time difference (ITD)) 파라미터를 구비한다. 그러나, 다음에서 상기 인터-채널 파라미터들은 인터-채널 방향 수신 (inter-channel direction of reception (IDR)) 파라미터들을 포함한다. 상기 인터-채널 레벨 파이 (ILD) 파라미터 및/또는 상기 인터-채널 시간 차이 ((ITD) 파라미터는 인터-채널 방향 수신 (IDR) 파라미터들을 결정하는 프로세스 동안의 중간 파라미터들로서 여전히 결정될 수 있을 것이다.
입력 신호의 공간적인 오디오 이미지를 보존하기 위해서, 상기 파라미터들이 정확하게 결정되는 것이 중요하다.
도 1은 멀티-채널 오디오 코딩을 위한 시스템 (2)을 개략적으로 예시한다. 예를 들면, 디지털 오디오 브로드캐스팅, 디지털 TV 브로드캐스팅, 음악 다운로드 서비스, 스트리밍 음악 서비스, 인터넷 라디오, 대화 애플리케이션들, 원격회의 등을 위해서 멀티채널 오디오 코딩이 사용될 수 있을 것이다.
멀티-채널 오디오 신호 (35)는 청각적인 공간 내의 하나 또는 다중의 사운드 소스들로부터 유래된 사운드 (33)를 캡쳐하는 여러 마이크로폰들 (25n)을 이용하여 실제 생활 환경으로부터 캡쳐된 오디오 이미지를 나타낼 수 있을 것이다. 개별 마이크로폰들에 의해서 제공된 신호들은 멀티채널 오디오 신호 (35) 내 개별 채널들 (33n)을 나타낸다. 상기 신호들은 인코더 (4)에 의해서 처리되어 상기 청각적인 공간의 공간적인 오디오 이미지의 간결한 표현을 제공한다. 공통적으로 사용된 마이크로폰 셋업들의 예들은 스테레오 (즉, 2 채널), 5.1 채널 및 7.1 채널 구성을 위한 멀티-채널 구성들을 포함한다. 특별한 경우는 입체 음향 (binaural)의 오디오 캡쳐로, 이는 (실제 또는 가상의) 듣는 사람의 고막들에 도달한 신호들에 대응하는 두 채널들 (331, 332)을 이용하여 신호들을 캡쳐함으로써 사람이 듣는 것을 모델링하려는 것에 목적을 둔다. 그러나, 멀티-채널 오디오 신호를 캡쳐하기 위해서 기본적으로는 어떤 유형의 멀티-마이크로폰 셋업도 사용될 수 있을 것이다. 보통은, 청각적인 공간 내의 복수의 마이크로폰을 사용하여 캡쳐된 멀티-채널 오디오 신호 (35)는 상관된 채널들을 구비한 멀티-채널 오디오라는 결과로 귀결된다.
인코더 (4)로의 멀티-채널 오디오 신호 (35) 입력은 가상 오디오 이미지를 또한 나타낼 수 있을 것이며, 이는 상이한, 보통은 상관되지 않은 소스들로부터 유래된 채널들 (33n)을 결합함으로써 생성될 수 있을 것이다. 상기 원래의 채널들 (33n)은 단일 채널일 수 있고 또는 멀티-채널일 수 있을 것이다. 그런 멀티-채널 오디오 신호 (35)의 채널들은, 예를 들면, 오디오 이미지 내의 원하는 "위치(들)"에 원래의 신호들을 세팅함으로써, 그 원래의 신호들이 아마도 원하는 레벨로 원하는 방향들로부터 도착한 것으로 지각적으로 보이는 방식으로, 원하는 공간적인 오디오 이미지를 나타내기 위해서 인코더 (4)에 의해서 프로세싱될 수 있을 것이다.
도 2는 인코더 장치 (4)를 개략적으로 예시한다.
상기 예시된 멀티채널 오디오 인코더 장치 (4)는, 이 예에서, 멀티-채널 오디오 신호 분석을 이용하여, 정의된 파라미터 모델에 따라서 인코드하는 파라미터 인코더이다.
상기 파라미터 모델은, 이 예에서는, 손실 압축 그리고 데이터 레이트 축소를 가능하게 하는 지각 (perceptual) 모델이다.
상기 인코더 장치 (4)는, 이 예에서, 입체음향 큐 코딩 (binaural cue coding (BCC)) 파라미터화와 같은 파라미터 코딩 기술을 이용하여 공간적인 오디오 코딩을 수행한다. 일반적으로 BCC와 같은 파라미터 오디오 코딩 모델들은 원래의 오디오를 원래의 신호의 채널들로부터 형성된 감소된 개수의 오디오 채널들을 포함하는 다운믹스 (downmix) 신호로서, 예를 들면, 모노포닉 (monophonic)으로서 또는 두 채널 (스테레오) 합 신호로서, 원래의 신호의 재구축을 가능하게 하기 위해서 원래 신호의 채널들 사이의 차이들을 기술하는, 즉, 원래의 신호에 의해서 표현된 공간적인 이미지를 기술하는 파라미터들의 비트 스트림과 함께 표현한다. 하나를 넘는 채널을 포함하는 다운믹스 신호는 여러 개의 개별적인 다운믹스 신호들로서 간주될 수 있다.
변환기 (50)는 시간 도메인으로부터의 입력 오디오 신호들 (둘 또는 그 이상의 입력 오디오 채널들)을 예를 들면 이산 시간 프레임들을 통한 필터뱅크 분해 (filterbank decomposition)를 이용하여 주파수 도메인으로 변환한다. 상기 필터뱅크는 크리티컬하게 샘플링될 수 있을 것이다. 크리티컬한 샘플링은 데이터의 양 (초당 샘플들)이 상기 변환된 도메인에 여전히 동일하다는 것을 내포한다.
상기 필터뱅크는 블록들, 즉, 프레임들을 윈도우로 하는 것이 서브 밴드 분해의 일부로서 수행될 때에 하나의 프레임으로부터 다른 것으로의 평탄한 변이 (transient)들을 가능하게 하는 겹쳐진 변환 (lapped transform)으로서 구현될 수 있다. 대안으로, 상기 분해는 계산상으로 효율적인 연산을 가능하게 하기 위해서, 예를 들면, 다상 (polyphase) 포맷인 FIR 필터들을 이용하는 연속적인 필터링 연산으로서 구현될 수 있을 것이다.
상기 입력 오디오 신호의 채널들은 주파수 도메인으로, 즉, 입력 프레임 시간 슬롯에 대한 여러 주파수 서브 밴드들로 개별적으로 변환된다. 그래서, 상기 입력 오디오 채널들은 시간 도메인에서 시간 슬롯들 그리고 주파수 도메인에서 서브 밴드들로 세그먼트화된다.
상기 세그먼트화하는 것은 균일한 시간 슬롯들, 예를 들면, 동일한 유지 시간 (duration)의 시간 슬롯들을 형성하도록 시간 도메인에서 균일할 수 있을 것이다. 상기 세그먼트화하는 것은 균일한 서브 밴드들, 예를 들면, 동일한 주파수 범위의 서브 밴드들을 형성하기 위하여 균일한 서브 밴드들을 형성하기 위해서 주파수 도메인에서 균일할 수 있을 것이며, 또는 상기 세그먼트화하는 것은 비-균일한 버스 밴드 구조, 예를 들면, 상이한 주파수 범위의 서브 밴드들을 형성하기 위해서 주파수 도메인에서 불-균일할 수 있을 것이다. 몇몇의 구현들에서, 낮은 주파수들에서의 서브 밴드들은 더 높은 주파수들에서의 서브 밴드들보다 더 좁다.
지각적인 그리고 음향 심리학적인 관점에서 ERB (equivalent rectangular bandwidth) 스케일에 근접한 서브 밴드 구조가 선호된다. 그러나, 어떤 유형의 서브 밴드 분할도 적용될 수 있다.
상기 변환기 (50)로부터의 출력은 장면 (scene) 파라미터들 (55)을 생성하는 오디오 장면 분석기 (54)로 공급된다. 상기 오디오 장면은 변환 도메인에서 분석되며 그리고 대응하는 파라미터들 (55)이 추출되며 그리고 전송이나 나중의 소비를 위한 저장을 위해서 프로세싱된다.
상기 오디오 장면 분석기 (54)는 인터-채널 장면 파라미터들 (55)을 형성하기 위해서 인터-채널 예측 모델을 이용한다.
상기 인터-채널 파라미터들은, 예를 들면, 각 변환 도메인 시간-주파수 슬롯 내에서, 즉, 입력 프레임용의 주파수 서브 밴드에서 추정된 인터-채널 방향 수신 (IDR)을 포함한다.
추가로, 선택된 채널 쌍들 사이의 입력 프레임을 위한 주파수 서브 밴드용의 인터-채널 코히런스 (inter-channel coherence (ICC))가 결정된다. 전형적으로, IDR 파라미터 및 ICC 파라미터는 입력 신호의 각 시간-주파수 슬롯 또는 시간-주파수 슬롯들의 서브세트에 대해서 결정된다. 시간-주파수 슬롯들의 서브세트는 예를 들면 지각적으로 가장 중요한 주파수 성분들, 입력 프레임들의 서브세트의 주파수 슬롯들(의 서브세트), 또는 특별한 관심 대상의 시간-주파수 슬롯들의 어떤 서브세트를 나타낼 수 있을 것이다. 인터-채널 파라미터들의 지각적인 중요성은 시간-주파수 슬롯마다 달라질 수 있을 것이다. 더욱이, 상기 인터-채널 파라미터들의 지각적인 중요성은 상이한 특성들을 구비한 입력 신호들에 대해서 상이할 수 있을 것이다.
상기 IDR 파라미터는 임의 두 채널들 사이에서 결정될 수 있을 것이다. 예로서, 상기 IDR 파라미터는 입력 오디오 채널과 레퍼런스 채널 사이에서, 보통은 각 입력 오디오 채널과 레퍼런스 입력 오디오 채널 사이에서 결정될 수 있을 것이다. 다른 예로서, 상기 입력 채널들은, 예를 들면, 마이크로폰 어레이의 인접한 마이크로폰들이 쌍을 형성하고, 그리고 상기 IDR 파라미터들이 각 채널 쌍에 대해서 결정되는 방식으로, 채널 쌍들의 그룹으로 될 수 있을 것이다. 상기 ICC는 각 채널에 대해서 레퍼런스 채널에 비교하여 개별적으로 결정되는 것이 보통이다.
다음에서, 상기 BCC 접근 방식의 몇몇의 상세한 내용들이 두 개의 입력 채널들 L, R 그리고 단일-채널 다운믹스 신호를 가진 예를 이용하여 예시된다. 그러나, 상기 표현은 둘을 넘는 입력 채널들 그리고/또는 구성을 커버하기 위해서 하나를 넘는 다운믹스 신호 (또는 하나를 넘는 채널을 구비한 다운믹스 신호)를 이용하여 일반화될 수 있다.
다운믹서 (52)는 입력 신호들의 채널들의 조합으로서 다운믹스 신호(들)를 생성한다. 오디오 장면을 기술하는 파라미터들은 상기 다운믹싱 프로세스 이전에 또는 이후에 멀티-채널 입력 신호의 추가적인 프로세싱을 위해서 또한 사용될 수 있으며, 예를 들면, 입력 채널들 전역에서 시간-정렬된 오디오를 제공하기 위해서 채널들 사이의 시간 차이를 제거한다.
상기 다운믹스 신호는 변환 도메인에서 입력 신호의 채널들의 선형적인 조합으로서 보통 생성된다. 예를 들면, 두-채널 경우에 상기 다운믹스는 왼쪽 및 오른쪽 채널에서 신호들을 평균화하는 것을 의미한다.
Figure 112012056325345-pct00001
상기 다운믹스 신호를 생성하기 위한 다른 수단이 또한 존재한다. 일 예에서, 상기 왼쪽 입력 채널 및 오른쪽 입력 채널은 조합 이전에 상기 신호의 에너지가 보존되는 방식으로 가중치가 적용될 수 있다. 예를 들면, 상기 채널들 중의 한 채널 상의 신호 에너지가 다른 채널 상의 신호 에너지보다 아주 더 낮을 때에 또는 상기 채널들 중 한 채널 상의 에너지가 0에 근접할 때에 이는 유용할 수 있을 것이다.
시간 도메인에서 다운믹스된 오디오 신호 (57)를 산출하기 위해서 옵션의 역 변환기 (56)가 사용될 수 있을 것이다.
대안으로, 상기 역 변환기 (56)가 존재하지 않을 수 있을 것이다. 출력 다운믹스된 오디오 신호 (57)는 주파수 도메인에서 결국은 인코딩된다.
멀티-채널 또는 입체 음향 인코더의 출력은 인코딩된 다운믹스 오디오 신호나 신호들 (57) 그리고 상기 장면 파라미터들 (55)을 포함하는 것이 보통이다. 이 인코딩은 참조번호 57 및 55의 신호들을 위해서 개별적인 인코딩 블록들 (도시되지 않음)에 의해서 제공될 수 있을 것이다. 어떤 모노 (또는 스테레오) 오디오 인코더도 상기 다운믹스된 오디오 신호 (57)를 위해 적합하며, 반면에 상기 인터-채널 파라미터들 (55)을 위해서는 특정 BCC 파라미터 인코더가 필요하다. 상기 인터-채널 파라미터들은, 예를 들면, 인터-채널 방향 수신 (inter-channel direction of reception (IDR)) 파라미터들을 포함할 수 있을 것이다.
도 3은 상이한 추정적 인터-채널 예측 모델들 (H1, H2)을 위한 비용 함수들이 몇몇의 구현들에서 어떻게 구현될 수 있는가를 개략적으로 예시한다.
종속 서브 밴드 (subject sub band) 내에서 시간 n에서의 오디오 채널 j에 대한 샘플은 xj(n)으로서 표현될 수 있을 것이다.
종속 서브 밴드 내에서 시간 n에서의 오디오 채널 j에 대한 이력적인 과거 샘플들은 k>0 일 때에 yj(n-k) 로서 표현될 수 있을 것이다.
종속 서브 밴드 내에서 시간 n에서의 오디오 채널 j에 대한 예측된 샘플은 yj(n)으로서 표현될 수 있을 것이다.
상기 인터-채널 예측 모델은 오디오 채널 j의 예측된 샘플 yj(n)을 다른 오디오 채널의 이력의 관점에서 표현한다. 상기 인터-채널 예측 모델은 오토그레시브 (autoregressive (AR)) 모델, 이동 평균 (moving average (MA)) 모델 또는 오토그레시브 이동 평균 (autoregressive moving average (ARMA)) 모델 등일 수 있다.
AR 모델들을 기반으로 하는 예로서, 차수 (order) L의 첫 번째 인터-채널 예측 모델은 예측된 샘플 y2를 입력 신호 x1의 샘플들의 가중된 선형 조합으로서 표현할 수 있을 것이다.
상기 입력 신호 x1는 첫 번째 입력 오디오 채널으로부터의 샘플들을 포함할 수 있을 것이며 그리고 상기 예측된 샘플 y2는 두 번째 입력 오디오 채널을 위한 예측된 샘플을 나타낸다.
Figure 112012056325345-pct00002
상기 모델 차수 (L), 즉, 예측 계수들의 개수(들)는 상기 예측된 인터 채널 지연 (delay)보다 더 크거나 또는 동일하다. 즉, 상기 모델은 상기 예측된 인터 채널 지연이 샘플들 내에 있은 것만큼 많은 예측 계수들을 적어도 구비해야만 한다. 상기 예측된 지연이 서브 샘플 도메인에 있을 때에 특히, 상기 지연보다 약간 더 높은 모델 차수를 가지는 것이 유리할 수 있을 것이다.
두 번째 인터-채널 예측 모델 (H2)은 예측된 샘플 y1을 입력 신호 x2의 샘플들의 가중된 선형 조합으로서 표현할 수 있을 것이다.
상기 입력 신호 x2는 상기 두 번째 입력 오디오 채널로부터의 샘플들을 포함하며 그리고 상기 예측된 샘플 y1은 상기 첫 번째 입력 오디오 채널에 대한 예측된 샘플을 나타낸다.
Figure 112012056325345-pct00003
비록 상기 인터-채널 모델 차수 L이 상기 예측된 샘플 y1 그리고 이 샘플 내의 예측된 샘플 y2에 공통이지만, 이는 반드시 그런 것은 아니다. 상기 예측된 샘플 y1에 대한 인터-채널 모델 차수 (L)는 상기 예측된 샘플 y2에 대한 인터-채널 모델 차수와는 다를 수 있을 것이다. 상기 모델 차수 (L)는, 예를 들면, 입력 신호 특성들을 기반으로 하여 입력 프레임마다 또한 변할 수 있을 것이다. 더욱이, 대안으로 또는 추가로, 상기 모델 차수 (L)는 입력 프레임의 주파수 서브 밴드들 전역에서 상이할 수 있을 것이다.
참조번호 82의 블록에서 결정된 상기 비용 함수는 상기 예측된 샘플 (y)과 실제의 샘플 (x) 사이의 차이로서 정의될 수 있을 것이다.
상기 인터-채널 예측 모델 (H1)에 대한 비용 함수는, 이 예에서,
Figure 112012056325345-pct00004
이다.
상기 인터-채널 예측 모델 (H2)에 대한 비용 함수는, 이 예에서,
Figure 112012056325345-pct00005
이다.
추정적 인터-채널 예측 모델에 대한 비용 함수는 상기 추정적 인터-채널 예측 모델을 결정하기 위해서 최소화된다. 이는, 예를 들면, 최소 자승 전형 회귀 분석을 이용하여 달성될 수 있을 것이다.
미래의 샘플들을 이용하는 예측 모델들이 채택될 수 있을 것이다. 예로서, 실-시간 분석 (그리고/또는 인코딩)에서, 이는 원하는 예측 순서에서 미래의 샘플들을 기반으로 하는 예측을 가능하게 하여 여러 입력 프레임들을 버퍼링함으로써 가능하게 될 수 있을 것이다. 더욱이, 미리-저장된 오디오 신호를 분석하고/인코딩할 때에, 원하는 양의 미래 신호는 예측 프로세스를 위하여 쉽게 이용 가능하다.
재귀적인 인터 채널 예측 모델 역시 사용될 수 있을 것이다. 이런 접근 방법에서, 상기 예측 오류는 샘플 단위를 기반으로 하여 이용 가능하다. 이 방법은 상기 예측 모델을 어떤 순간에도 선택하는 것을 가능하게 하고 그리고 한 프레임 내에서라도 상기 예측 이득을 여러 차례 업데이트하는 것을 가능하게 한다. 예를 들면, 채널 1로부터의 데이터를 이용하여 채널 2를 예측하기 위해서 사용된 예측 모델 f1이 다음과 같이 재귀적으로 결정될 수 있을 것이다.
Figure 112012056325345-pct00006
이때에, 초기 값들은
Figure 112012056325345-pct00007
이며,
Figure 112012056325345-pct00008
는 매트릭스 P(n)의 초기 상태이며, 그리고 p는 AR 모델 차수, 즉, 벡터 f의 길이이며, 그리고
Figure 112012056325345-pct00009
는 예를 들면 0.5의 값을 구비한 망각 인수 (forgetting factor)이다.
일반적으로, 예측 모델에 관계없이, 종속 서브 밴드에 대한 예측 이득 gi 는 도 3과 관련하여 다음과 같이 정의될 수 있을 것이다.
Figure 112012056325345-pct00010
높은 예측 이득은 상기 종속 서브 밴드 내의 채널들 사이의 강한 상관 (correlation)을 나타낸다.
추정적 인터-채널 예측 모델의 품질은 상기 예측 이득을 이용하여 평가될 수 있을 것이다. 첫 번째 선택 기준은 상기 추정적 인터-채널 예측 모델 Hi에 대한 예측 이득 gi 는 절대적인 문턱값 T1 보다 더 클 것을 필요로 할 수 있을 것이다.
낮은 예측 이득은 인터 채널 상관이 낮다는 것을 의미한다. 1보다 낮거나 또는 1에 근접한 예측 이득 값들은 예측기가 의미있는 파라미터화를 제공하지 않는다는 것을 나타낸다. 예를 들면, 상기 절대적인 문턱값은 10log10(gi)=10 dB로 세팅될 수 있을 것이다.
상기 추정적 인터-채널 예측 모델 Hi에 대한 예측 이득 gi 가 상기 문턱값을 초과하지 않는다면, 상기 테스트는 성공하지 못한 것이다. 그러므로, 상기 추정적 인터-채널 예측 모델 Hi는 인터-채널 파라미터를 결정하기 위해서 적합하지 않다고 결정된다.
상기 추정적 인터-채널 예측 모델 Hi에 대한 예측 이득 gi 가 상기 문턱값을 초과한다면, 상기 테스트는 성공적이다. 그러므로, 상기 추정적 인터-채널 예측 모델 Hi는 적어도 하나의 인터-채널 파라미터를 결정하기 위해서 적합하다고 결정된다.
두 번째 선택 기준은 상기 추정적 인터-채널 예측 모델 Hi에 대한 예측 이득 gi 는 상대적인 문턱값 T2 보다 더 클 것을 필요로 할 수 있을 것이다.
상기 상대적인 문턱값 T2 는 현재 최선의 예측 이득에 오프셋을 더한 것일 수 있다. 그 오프셋 값은 0보다 더 크거나 또는 0와 같을 수 있을 것이다. 한 실시예에서, 상기 오프셋은 30 dB처럼 20 dB 와 40 dB 사이에서 세팅된다.
상기 예측된 인터-채널 예측 모델들은 상기 IDR 파라미터를 형성하기 위해서 사용된다.
종속 도메인 시간-주파수 슬롯에서 종속 오디오 채널을 위한 중간 인터-채널 파라미터가, 상기 종속 오디오 채널에 대한 상기 종속 도메인 시간-주파수 슬롯의 특성을 레퍼런스 오디오 채널에 대한 동일한 시간-주파수 슬롯의 특성과 비교함으로써 초기에 결정된다. 상기 특성은, 예를 들면, 위상/지연일 수 있을 것이며 그리고/또는 크기일 수 있을 것이다.
도 4는 종속 서브 밴드 내에서 상기 선택된 인터-채널 예측 모델 Hi 로부터 첫 번째 중간 인터-채널 파라미터를 결정하기 위한 방법 (100)을 개략적으로 예시한다.
참조번호 102 블록에서, 인터-채널 예측 모델의 시프스/응답이 결정된다.
인터 채널 시간 차이는 상기 모델의 위상 응답으로부터 결정된다.
Figure 112012056325345-pct00011
일 때에, 주파수 응답은
Figure 112012056325345-pct00012
Figure 112012056325345-pct00013
로 결정된다.
참조번호 104에서, 상기 종속 서브 밴드에 대한 모델의 대응 위상 지연은
Figure 112012056325345-pct00014
로 결정된다.
참조번호 106 블록에서, 여러 서브 밴드들에 걸친 평균
Figure 112012056325345-pct00015
이 결정될 수 있을 것이다. 상기 여러 서브 밴드들은 주파수 범위 전체 또는 그 주파수 범위의 서브세트를 커버하는 서브 밴드들을 포함할 수 있을 것이다.
위상 지연 분석이 서브 밴드 도메인에서 행해지기 때문에, 프레임 내의 인터 채널 시간 차이 (지연)에 대한 타당한 추정은 상기 주파수 범위 전체 또는 그 주파수 범위의 서브세트를 커버하는 여러 서브 밴드들에 걸친
Figure 112012056325345-pct00016
의 평균이다.
도 5는 종속 서브 밴드 내 상기 선택된 인터-채널 예측 모델 Hi 로부터 두 번째 중간 인터-채널 파라미터를 결정하기 위한 방법 (110)을 개략적으로 예시한다.
블록 112에서, 상기 인터-채널 예측 모델의 크기가 결정된다.
인터-채널 레벨 차이 파라미터는 상기 모델의 크기 응답으로부터 결정된다.
상기 종속 서브 밴드에 대한 상기 모델의 인터 채널 레벨 차이는
Figure 112012056325345-pct00017
으로 정해진다.
다시, 상기 인터 채널 레벨 차이는 상기 주파수 범위 전체 또는 그 주파수 범위의 서브세트를 커버하는 여러 서브 밴드들에 걸친 g(w)의 평균을 계산함으로써 추정될 수 있다.
블록 114에서, 상기 주파수 범위 전체 또는 그 주파수 범위의 서브세트를 커버하는 여러 서브 밴드들에 걸친 g(w)의 평균이 결정된다. 그 평균은 각 프레임에 대한 인터 채널 레벨 차이 파라미터로서 사용될 수 있을 것이다.
도 7은 하나 또는 그 이상의 인터-채널 방향 수신 파라미터들을 결정하기 위한 방법 (70)을 개략적으로 예시한다.
블록 72에서, 입력 오디오 채널들이 수신된다. 다음의 예에서, 두 입력 채널들이 사용되지만, 다른 구현들에서는 더 많은 개수의 입력 채널들이 사용될 수 있을 것이다. 예를 들면, 더 많은 개수의 채널들은 동일한 레퍼런스 채널을 공유하는 일련의 채널들의 쌍들로 축소될 수 있을 것이다. 다른 예처럼, 더 많은 개수의 입력 채널들은 채널 구성을 기반으로 하여 채널 쌍들로 그룹으로 될 수 있다. 인접한 마이크로폰들에 대응하는 채널들이 인터 링크 채널 예측 모델들 및 대응 예측 이득 쌍들을 위해서 같이 링크될 수 있을 것이다. 예를 들면, 어레이 구성에 N 개의 마이크로폰들을 구비할 때에, 도달 추정의 방향은 상기 인접한 마이크로폰 채널들 중에서 N-1 개의 채널 쌍들을 형성할 수 있을 것이다. 도달 방향(또는 IDR) 파라미터는 그러면 N-1 개 파라미터들로 귀결되는 각 채널 쌍에 대해서 결정될 수 있을 것이다.
블록 73에서, 입력 채널들에 대한 예측 이득들이 결정된다.
상기 예측 이득 gi 는 도 3과 관련하여 다음과 같이 정의될 수 있을 것이다.
Figure 112012056325345-pct00018
Figure 112012056325345-pct00019
상기 첫 번째 예측 이득은 첫 번째 입력 오디오 채널을 예측하는 인터-채널 예측 모델의 첫 번째 매트릭 g1 의 일 예이다. 상기 두 번째 예측 이득은 두 번째 입력 오디오 채널을 예측하는 인터-채널 예측 모델의 두 번째 매트릭 g2의 일 예이다.
블록 74에서, 상기 예측 이득들은 하나 또는 그 이상의 비교 값들을 결정하기 위해서 사용된다.
적합한 비교 값의 예는 예측 이득 차이 d 이며, 이 경우에
Figure 112012056325345-pct00020
이다.
그래서 블록 73은 상기 첫 번째 메트릭 (예를 들면, g1)과 상기 두 번째 메트릭 (예를 들면, g2)을 비교하는 비교 값 (예를 들면, d)을 결정한다. 상기 첫 번째 메트릭 (예를 들면, g1)은 느리게 변하는 함수 (예를 들면, 로그 (logarithm) 함수)의 편각 (argument)으로서 사용되어, 변형된 첫 번째 메트릭 (예를 들면, log10(g1))을 획득하도록 한다. 상기 두 번째 메트릭 (예를 들면, g2)은 동일한 느리게 변하는 함수 (예를 들면, 로그 함수)의 편각 (argument)으로서 사용되어, 변형된 두 번째 메트릭 (예를 들면, log10(g2))을 획득하도록 한다. 비교 값 d는 비교, 예를 들면, 상기 변형된 첫 번째 메트릭과 변형된 두 번째 메트릭 사이의 차이로서 결정된다.
상기 비교 값 (예를 들면, 예측 이득 차이) d 는 인터-채널 방향 수신 파라미터에 비례할 수 있을 것이다. 그래서, 예측 이득에서의 차이가 더 커지면, 듣는 라인, 예를 들면, 선형 마이크로폰 어레이 내의 선형 방향과 같은 각 오디오 채널들을 캡쳐하기 위해서 사용된 마이크로폰들을 연결하는 라인에 수직인 축의 중앙에 비교하여 사운드 소스의 수신 각도의 방향은 더 커진다.
상기 비교 값 (예를 들면, d)은 매핑 함수
Figure 112013102565625-pct00021
를 이용하여 수신의 방향을 기술하는 각도인 인터-채널 방향 수신 파라미터
Figure 112013102565625-pct00022
로 매핑될 수 있다. 일 예로서, 상기 예측 이득 차이 d 는 예를 들면
Figure 112012056325345-pct00023
와 같은 매핑 함수
Figure 112012056325345-pct00024
를 이용함으로써
Figure 112012056325345-pct00025
의 범위에서 수신 각도 방향에 선형으로 매핑될 수 있을 것이다. 상기 매핑은 또한 상수이거나 또는 시간과 서브 밴드의 함수, 즉,
Figure 112012056325345-pct00026
일 수 있다.
블록 76에서 상기 매핑은 조정된다. 이 블록은 미리 결정된 비교들 (블록 74) 그리고 수신의 레퍼런스 인터-채널 방향 파라미터 (블록 75)를 이용한다.
상기 조정된 매핑 함수는 인터-채널 방향 수신을 상기 비교 값으로 매핑한다. 상기 매핑 함수는 (블록 74로부터의) 상기 비교 값 그리고 (블록 75로부터의) 연관된, 인터-채널 방향 수신 파라미터로부터 조정될 수 있을 것이다.
상기 연관된, 인터-채널 방향 수신 파라미터는 절대적인 인터-채널 시간 차이 파라미터
Figure 112013102565625-pct00027
를 이용하여 블록 75에서 결정될 수 있을 것이며 또는 각 서브 밴드 n에서 절대적인 인터-채널 레벨 차이 파라미터
Figure 112013102565625-pct00028
를 이용하여 결정될 수 있을 것이다.
상기 인터-채널 시간 차이 (inter-channel time difference (ITD)) 파라미터
Figure 112012056325345-pct00029
그리고 절대적인 인터-채널 레벨 차이 (inter-channel level difference (ILD)) 파라미터
Figure 112012056325345-pct00030
은 오디오 장면 분석기 (54)에 의해서 결정될 수 있을 것이다.
상기 파라미터들은 변환 도메인 시간-주파수 슬롯 내에서, 즉, 입력 프레임에 대한 주파수 서브 밴드에서 추정될 수 있을 것이다. 보통, ILD 파라미터 및 ITD 파라미터는 입력 신호의 각 시간-주파수 슬롯 또는 지각적으로 가장 중요한 주파수 성분들을 나타내는 주파수 슬롯들의 서브세트에 대해서 결정된다.
상기 ILD 파라미터 및 ITD 파라미터는 입력 오디오 신호 채널과 레퍼런스 채널 사이에서, 전형적으로는 각 입력 오디오 채널과 레퍼런스 입력 오디오 채널 사이에서 결정될 수 있을 것이다.
다음에서, 접근 방법의 몇몇의 상세한 내용들이, 예를 들어, 두 개의 채널들 L, R 그리고 단일 다운믹스 신호를 이용하여 예시된다. 그러나, 그 표현은 두 개를 넘는 입력 오디오 채널 그리고/또는 하나를 넘는 다운믹스 신호를 이용한 구성을 커버하도록 일반화될 수 있다.
각 서브 밴드에 대한 인터-채널 차이 (ILD)
Figure 112012056325345-pct00031
는 보통은 다음의 식처럼 추정된다.
Figure 112012056325345-pct00032
이 경우에,
Figure 112012056325345-pct00033
그리고
Figure 112012056325345-pct00034
는 각각 서브 밴드 n에서 시간 도메인 왼쪽 및 오른쪽 채널 신호들이다.
인터-채널 시간 차이 (ITD), 즉, 두 개의 입력 오디오 채널들 사이의 지연은 다음과 같이 결정될 수 있다.
Figure 112012056325345-pct00035
이 경우에
Figure 112012056325345-pct00036
은 정규화된 상관으로,
Figure 112012056325345-pct00037
이며, 이 경우에,
Figure 112012056325345-pct00038
이다.
대안으로, 상기 파라미터들은 이산 푸리에 변환 (Discrete Fourier Transform (DFT)) 도메인에서 결정될 수 있을 것이다. 예를 들면, 윈도우로 된 단시간 푸리에 변환 (Short Time Fourier Transform (STFT))을 이용하여, 상기의 서브 밴드 신호들은 변환 계수들의 그룹들로 컨버트된다.
Figure 112012056325345-pct00039
Figure 112012056325345-pct00040
는 각각 주어진 분석 프레임의 서브 밴드 n에 대한 두 개의 오디오 입력 채널들 L, R의 스펙트럼 계수이다. 상기 변환 도메인 ILD는 다음과 같이 결정될 수 있을 것이다.
Figure 112012056325345-pct00041
이 경우에, * 는 켤레 복소수를 표시한다.
본 발명의 실시예들에서, 복소수-값으로 변환된 신호의 결과로 이끄는 어떤 변환도 DFT 대신에 사용될 수 있을 것이다.
그러나, 시간 차이 (ITD)는 인터-채널 위상 차이 (inter-channel phase difference (ICPD))로서 처리하는 것이 더욱 편리하다.
Figure 112012056325345-pct00042
시간 및 레벨 차이 파라미터들은 제한된 개수의 서브 밴드들에 대해서만 결정될 수 있으며 그리고 그것들은 매 프레임마다 업데이트될 필요가 없다.
그러면 블록 75에서, 인터-채널 방향 수신 파라미터가 결정된다. 일 예로서, 수신의 레퍼런스 인터-채널 방향 파라미터
Figure 112013102565625-pct00043
는 절대적인 인터-채널 시간 차이 (ITD) 파라미터
Figure 112013102565625-pct00044
를 이용하여
Figure 112012056325345-pct00045
로부터 결정될 수 있을 것이며, 이 경우에,
Figure 112012056325345-pct00046
는 마이크로폰들 사이의 거리이며 그리고 c는 사운드의 속도이다.
다른 예로서, 수신의 레퍼런스 인터-채널 방향 파라미터
Figure 112012056325345-pct00047
는 (진폭) 패닝 법칙에서 인터-채널 신호 레벨 차이들을 이용하여 다음의 식과 같이 결정될 수 있을 것이다.
Figure 112012056325345-pct00048
이 경우에
Figure 112012056325345-pct00049
는 채널 i의 신호 레벨 파라미터이다. 수학식 16에서 결정된 ILD 큐는 패닝 법칙에 대한 신호 레벨들을 결정하기 위해서 활용될 수 있다. 먼저,
Figure 112012056325345-pct00050
Figure 112012056325345-pct00051
의 신호들은 다음의 식들
Figure 112012056325345-pct00052
에 의해서 모노 다운믹스로부터 회복되며, 이 경우에 sn 은 모노 다운믹스이다. 그 다음에, 수학식 22에서 필요한 신호 레벨들은
Figure 112012056325345-pct00053
그리고
Figure 112012056325345-pct00054
로 결정된다.
블록 76을 다시 참조하면, 상기 매핑 함수는 (블록 74로부터의) 상기 획득된 비교 값 그리고 (블록 75로부터의) 연관된, 수신의 레퍼런스 인터-채널 방향 파라미터로부터 조정될 수 있을 것이다.
상기 매핑 함수는 시간과 서브 밴드의 함수일 수 있으며 그리고 이용 가능한 획득된 비교 값들 그리고 그 비교 값들과 연관된 수신의 레퍼런스 인터-채널 방향 파라미터들을 이용하여 결정된다. 상기 비교 값 그리고 연관된 수신의 레퍼런스 인터-채널 방향 파라미터들이 하나를 넘는 서브 밴드에서 이용 가능하면, 상기 매핑 함수는 상기 이용 가능한 데이터 내에서 다항식으로서 맞추어질 수 있을 것이다.
상기 매핑 함수는 간헐적으로 재조정될 수 있을 것이다. 매핑 정밀도가 미리 정해진 문턱값을 넘어갈 때에 또는 심지어는 매 프레임 및 매 서브 밴드에서, 상기 매핑 함수
Figure 112012056325345-pct00055
는 규칙적인 간격들로 또는 입력 신호 특성들을 기초로 하여 재조정될 수 있을 것이다.
상기 재조정은 서브 밴드들의 서브세트에 대해서만 발생할 수 있을 것이다.
다음 블록 77은 인터-채널 방향 수신 파라미터들을 결정하기 위해서 상기 조정된 매핑 함수를 이용한다.
비교 값들 (예를 들면, d)을 인터-채널 방향 수신 파라미터들 (예를 들면,
Figure 112013102565625-pct00056
)로 매핑하기 위해서 상기 매핑 함수의 역이 사용된다.
예를 들면, 수신의 방향은 각 서브 밴드 n에서 다음의 식을 이용하여 인코더 (54)에서 결정될 수 있을 것이다.
Figure 112012056325345-pct00057
수신 방향 파라미터 추정
Figure 112012056325345-pct00058
은 본 발명의 일 실시예에 따른 입체 음향 인코더 (54)의 출력 (55)이다.
인터-채널 코히런스 큐 (inter-channel coherence cue)는 공간적인 이미지 파라미터화를 보충하기 위한 오디오 장면 파라미터 (55)로서 제공된다. 그러나, 1500 Hz를 넘는 고 주파수 서브 밴드들에 대해, 상기 인터 채널 시간 또는 위상 차이들이 일반적으로 분명하지 않게 될 때에, 상기 절대적인 예측 이득들은 인터-채널 코히런스 큐로서 사용될 수 있을 것이다.
몇몇의 실시예들에서, 수신의 방향 파라미터
Figure 112012056325345-pct00059
는,
Figure 112012056325345-pct00060
가 이전에 제공된 수신의 방향 파라미터
Figure 112012056325345-pct00061
와 적어도 문턱값만큼 다를 때에만 목적지로 제공될 수 있을 것이다.
본 발명의 몇몇의 실시예들에서, 상기 매핑 함수
Figure 112012056325345-pct00062
는 렌더링 측을 위해서 하나의 파라미터 (55)로서 제공될 수 있을 것이다. 그러나, 디코더에서 공간적인 사운드를 렌더링하는데 있어서 상기 매핑 함수가 필수적으로 필요한 것은 아니다.
상기 인터 채널 예측 이득은 보통은 평탄하게 전개된다. 여러 프레임들의 상대적으로 긴 시간 구간에 걸쳐서 매핑 함수
Figure 112012056325345-pct00063
를 평탄화 (그리고 평균화)하는 것이 유리할 수 있을 것이다. 심지어는 매핑 함수가 평탄화될 때에, 수신의 방향 파라미터 추정
Figure 112012056325345-pct00064
는 급격한 변화들에 대해 빠르게 반응할 수 있는 능력을 유지하며, 이는 실제의 파라미터가 프레임 그리고 서브 밴드 기반의 예측 이득을 기초로 하기 때문이다.
도 6은 인코더 장치 (4) 및/또는 디코더 장치 (80)로서 사용될 수 있을 코더 장치의 컴포넌트들을 개략적으로 예시한다. 상기 코더는 최종-제품이나 모듈일 수 있다 여기에서 사용된 '모듈'은 최종-제품 장치를 형성하기 위해서 최종 제조자 또는 사용자에 의해서 추가될 수 있을 특정 부품들/컴포넌트들을 제외한 장치나 유닛을 언급한다.
코더의 구현은 하드웨어 단독 (회로, 프로세서 ...)으로 가능할 수 있으며, 펌웨어를 포함한 소프트웨어 단독의 특정 모습들을 구비할 수 있으며 또는 하드웨어와 소프트웨어 (펌웨어 포함)의 결합일 수 있다.
상기 코더는, 예를 들면, 범용 프로세서나 특수-목적 프로세서에서 실행 가능하며, 그런 프로세서에 의해서 실행될 컴퓨터 독출가능 저장 매체 (디스크, 메모리 등)에 저장될 수 있을 컴퓨터 프로그램 명령어들에 의해서 하드웨어 기능을 가능하게 하는 명령어들을 이용하여 구현될 수 있을 것이다.
도시된 예에서 인코더 장치 (4)는: 프로세서 (40), 메모리 (42) 그리고, 예를 들면, 네트워크 어댑터와 같은 입력/출력 인터페이스 (44)를 포함한다.
상기 프로세서 (40)는 메모리 (42)로부터 읽고 그리고 그 메모리에 쓰도록 설정된다. 상기 프로세서 (40)는 출력 인터페이스를 또한 포함하여, 그 출력 인터페이스를 경유하여 데이터 그리고/또는 커맨드들이 상기 프로세서 (40)에 의해서 출력되며 그리고 입력 인터페이스를 포함하여, 그 입력 인터페이스를 경유하여 데이터 그리고/또는 커맨드들이 상기 프로세서 (40)로 입력된다.
상기 메모리 (42)는 프로세서 (40)로 로딩되면 상기 코더 장치의 동작을 제어하는 컴퓨터 프로그램 명령어들을 포함하는 컴퓨터 프로그램 (46)를 저장한다. 상기 컴퓨터 프로그램 명령어들 (46)은 상기 장치가 도 3 내지 도 9에서 도시된 방법들을 수행하는 것을 가능하게 하는 로직 및 루틴들을 제공한다. 상기 프로세서 (40)가 상기 메모리 (42)를 읽으면 상기 컴퓨터 프로그램 (46)을 로딩하고 실행하는 것이 가능하다.
상기 컴퓨터 프로그램은 어떤 적합한 배송 메커니즘 (48)을 경유하여 상기 코더 장치에 도달할 수 있을 것이다. 상기 배송 메커니즘 (48)은, 예를 들면, 컴퓨터-독출가능 저장 매체, 컴퓨터 프로그램 제품, 메모리 디바이스, CD-ROM 또는 DVD와 같은 기록 매체, 상기 컴퓨터 프로그램 (46)을 실체적으로 구현하는 제품일 수 있을 것이다. 상기 배송 메커니즘은 상기 컴퓨터 프로그램 (46)을 신뢰성있게 전달하도록 구성된 신호일 수 있다. 상기 코더 장치는 상기 컴퓨터 프로그램 (46)을 컴퓨터 데이터 신호로서 전파하거나 전송할 수 있을 것이다.
비록 상기 메모리 (42)가 단일의 컴포넌트로서 도시되지만, 그것은 하나 또는 그 이상의 개별적인 컴포넌트들로 구현될 수 있을 것이며, 그것들의 일부 또는 모두는 통합된/탈부착 가능할 수 있을 것이며 그리고/또는 영구적인/반-영구적인/동적인/캐시된 저장을 제공할 수 있을 것이다.
'컴퓨터-독출가능 저장 매체', '컴퓨터 프로그램 제품'. '실체적으로 구현된 컴퓨터 프로그램' 등 또는 '제어기', '컴퓨터', '프로세서' 등을 언급하는 것은 단일/멀티-프로세서 구조들 그리고 순차적(폰 뉴만)/병렬 구조와 같은 상이한 구조들을 구비한 컴퓨터들만이 아니라 필드-프로그래머블 게이트 어레이들 (field-programmable gate arrays (FPGA)), 주문형 반도체 (application specific circuits (ASIC)), 시그날 프로세싱 디바이스 및 다른 디바이스들과 같은 특수한 회로들을 망라하는 것으로 이해되어야만 한다. 컴퓨터 프로그램, 명령어들, 코드 등을 언급하는 것은, 프로그램 가능한 프로세서를 위한 소프트웨어 또는 예를 들면, 프로세서를 위한 명령어들 또는 고정-기능 디바이스, 게이트 어레이 또는 프로그램 가능한 로직 디바이스 등을 위한 설정 세팅들의 하드웨어 디바이스의 프로그램 가능한 내용들과 같은 펌웨어를 망라하는 것으로 이해되어야만 한다.
디코딩
도 9는 인코더 장치 (4)로부터의 입력 신호들 (57, 55)을 수신하는 디코더 장치 (180)를 개략적으로 도시한다.
상기 디코더 장치 (180)는 합성 블록 (182) 그리고 파라미터 프로세싱 블록 (184)을 포함한다. 신호 합성은, 예를 들면, BCC 합성은 파라미터 프로세싱 블록 (184)에 의해서 제공된 파라미터들을 기반으로 하여 합성 블록 (182)에서 발생할 수 있을 것이다.
N 개의 샘플들 s0, ...., sN-1로 구성된 다운믹스된 신호(들) (57)의 프레임은 예를 들면 DFT 변환을 이용하여 N 개의 스펙트럼 샘플들 S0, ...., SN-1로 컨버트된다.
인터-채널 파라미터들 (BCC 큐들) (55), 예를 들면, 상기에서 설명된 IDR은 상기 파라미터 프로세싱 블록 (184)으로부터 출력되며 그리고 상기 합성 블록 (182)에 인가되어 복수 (M)의 출력 오디오 채널들 (183)에서 공간적인 오디오 신호들, 이 예에서는 입체 음향 (binaural) 오디오를 생성하도록 한다.
두 채널들 사이에서의 시간 차이는 다음 식에 의해서 정의될 수 있을 것이다.
Figure 112012056325345-pct00065
이 경우에,
Figure 112012056325345-pct00066
는 라우드스피커들 사이의 거리이며 그리고 c는 사운드의 속도이다.
두 채널들 사이의 레벨 차이는 다음의 식에 의해 정의될 수 있을 것이다.
Figure 112012056325345-pct00067
그래서, 수신의 상기 수신한 인터-채널 방향 파라미터
Figure 112012056325345-pct00068
는 진폭 및 시간/위상 차이 패닝 법칙으로 컨버팅되어 상기 모노 다운믹스를 업믹스하기 위한 인터 채널 레벨 및 시간 차이 큐들을 생성하도록 한다. 출력 채널의 위상 차이들이 경험상 관점에서의 품질로부터 최대한으로 활용될 수 있을 때에 이는 특히 유리할 수 있을 것이다.
대안으로, 수신의 상기 수신한 인터-채널 방향 파라미터
Figure 112012056325345-pct00069
는 시간 지연 렌더링을 하지 않고 상기 모노 다운믹스를 업믹스 하기 위한 인터-채널 레벨 차이만으로 컨버팅될 수 있을 것이다. 이는, 예를 들면, 라우드스피커 표현을 위해서 사용될 수 있을 것이다.
수신 방향 추정 기반의 렌더링은 매우 유연하다. 출력 채널 구성은 캡쳐 측의 구성과 동일할 필요는 없다. 파라미터화가 2-채널 신호를 이용하여, 예를 들면, 두 개의 마이크로폰들만을 이용하여 수행되더라도, 오디오는 임의 개수의 채널들을 이용하여 렌더링될 수 있을 것이다.
수신의 주파수 종속 방향 (IDR) 파라미터들을 이용한 합성은 상기 오디오 소스들을 나타내는 사운드 성분들을 재생성한다는 것에 주목해야만 한다. 주변 (ambience)은 여전히 행방불명일 수 있으며 그리고 그것은 코히런스 파라미터를 이용하여 합성될 수 있을 것이다.
코히어런스 큐를 기반으로 하는 주변 컴포넌트를 분석하기 위한 방법은 늦은 반향 신호를 생성하기 위해서 신호를 비상관 (decorrelation)하는 것으로 구성된다. 상기 구현은 랜덤 위상 필터들을 이용하여 출력 오디오 채널들을 필터링하고 그리고 그 결과를 출력에 추가하는 것으로 구성된다. 상이한 필터 지연들이 출력 오디오 채널들에 인가될 때에, 비상관된 신호들의 세트가 생성된다.
도 8은 디코더를 개략적으로 예시하며, 그 디코더에서 상기 합성 블록 (182)의 멀티-채널 출력이 믹서 (189)에 의해서 복수 (K)의 출력 오디오 채널들 (191)로 믹스되며, 이 경우에 출력 채널들의 개수가 입력 채널들의 개수와는 다를 수 있다는 것 (K≠ M)을 알고 있다.
이는 상이한 공간적인 믹싱 포맷들을 렌더링하는 것을 허용한다. 예를 들면, 상기 믹서 (189)는 사용자 입력 (193)에 응답하여 믹싱과 속성 그리고 출력 오디오 채널들 (191)의 개수를 변경하기 위해 사용자의 라우드스피커 셋업을 식별한다. 실제로, 이는, 예를 들면, 원래 5.1 라우드스피커 시스템을 위해서 믹스된 또는 기록된 멀티-채널 영화 사운드트랙이 더 현대적인 7.2 라우드스피커 시스템용으로 업믹스될 수 있다는 것을 의미한다. 그처럼, 입체음향 (binaural) 마이크로폰들로 기록된 음악이나 대화는 멀티-채널 라우드스피커 셋업을 통해서 재생될 수 있다.
상호 상관 (cross correlation)과 같은 더욱 비용이 많이 드는 다른 방법들에 의해서 인터-채널 파라미터들을 획득하는 것이 또한 가능하다. 몇몇의 실시예들에서, 상기에서 설명된 방법론은 첫 번째 주파수 범위에 대해서 사용될 수 있을 것이며 그리고 상호-상관은 두 번째의 상이한 주파수 범위에 대해서 사용될 수 있을 것이다.
도 2 내지 도 5 그리고 도 7 내지 도 9에서 도시된 블록들은 방법에 있어서의 단계들 그리고/또는 컴퓨터 프로그램 (46) 내의 코드의 섹션들을 나타낼 수 있을 것이다. 상기 블록들의 특정한 순서를 구현하는 것은 그 블록들을 위한 요청되는 또는 바람직한 순서가 존재한다는 것을 반드시 의미하지는 않으며 그리고 상기 블록의 순서와 배치는 변할 수 있을 것이다. 더욱이, 몇몇 단계들이 생략되는 것이 가능할 수 있을 것이다.
비록 본 발명의 실시예들이 다양한 예들을 참조하여 이전의 단락들에서 설명되었지만, 청구된 본 발명의 범위에서 벗어나지 않으면서도, 상기 주어진 그 예들에 수정을 할 수 있다는 것이 이해되어야만 한다. 예를 들면, 상기에서 설명된 기술은 MPEG 서라운드 코덱에도 또한 적용될 수 있을 것이다.
전술한 설명에서 기술된 특징들은 명시적으로 설명된 조합들이 아닌 조합들에서 사용될 수 있을 것이다.
비록 함수들이 특정 특징들을 참조하여 설명되었지만, 그 함수들은 설명된 또는 설명되지 않은 다른 특징들에 의해서 수행 가능할 수 있을 것이다.
비록 특징들이 특정 실시예들을 참조하여 설명되었지만, 그 특징들은 설명된 또는 설명되지 않은 다른 실시예들에서 또한 존재할 수 있을 것이다.
본 발명에서 특히 중요하다고 믿어지는 그런 특징들에 주의를 돌리기 위해서 전술한 명세서에서 노력하였지만, 본 출원인은 특별한 강조를 했던 또는 특별한 강조를 하지 않았던, 앞에서의 도면들을 참조한 그리고/또는 도면들에서 도시된 임의의 특허 가능한 특징이나 특징들의 조합에 관해서 특허권의 보호를 주장한다는 것이 이해되어야만 한다.

Claims (45)

  1. 제1 입력 오디오 채널 및 제2 입력 오디오 채널을 수신하는 단계와,
    제1 메트릭을 상기 제1 입력 오디오 채널을 예측하는 인터-채널(inter-channel) 예측 모델의 예측 이득으로서 결정하고 제2 메트릭을 제2 입력 오디오 채널을 예측하는 인터-채널 예측 모델의 예측 이득으로서 결정하는 단계와,
    상기 제1 메트릭과 상기 제2 메트릭을 비교하는 비교 값을 결정하는 단계와,
    상기 비교 값을 기초로 하여 적어도 하나의 인터-채널 방향 수신 파라미터(inter-channel direction of reception parameter)를 결정하는 단계를 포함하는
    방법.
  2. 제1항에 있어서,
    다운믹스된(downmixed) 신호 및 상기 적어도 하나의 인터-채널 방향 수신 파라미터를 포함하는 출력 신호를 제공하는 단계를 더 포함하는
    방법.
  3. 제1항에 있어서,
    상기 제1 메트릭을 느리게 변하는 함수의 오퍼랜드(operand)로서 사용하여 수정된 제1 메트릭을 획득하는 단계와,
    상기 제2 메트릭을 동일하게 느리게 변하는 함수의 오퍼랜드로서 사용하여 수정된 제2 메트릭을 획득하는 단계와,
    상기 수정된 제1 메트릭과 상기 수정된 제2 메트릭 사이의 차이를 상기 비교 값으로서 결정하는 단계를 더 포함하는
    방법.
  4. 제3항에 있어서,
    상기 비교 값은 상기 제1 메트릭의 로그(logarithm)와 상기 제2 메트릭의 로그 사이의 차이인
    방법.
  5. 제1항에 있어서,
    연관된 인터-채널 방향 수신 파라미터 및 상기 결정된 비교 값으로부터 조정된 매핑 함수를 이용하여 상기 인터-채널 방향 수신 파라미터를 상기 비교 값에 매핑하는 단계를 더 포함하는
    방법.
  6. 제5항에 있어서,
    상기 연관된 인터-채널 방향 수신 파라미터는 절대적인 인터-채널 시간 차이 파라미터 및/또는 절대적인 인터-채널 레벨 차이 파라미터를 이용하여 결정되는
    방법.
  7. 제5항에 있어서,
    상기 매핑 함수를 간헐적으로 재조정하는 단계를 더 포함하는
    방법.
  8. 제5항 내지 제7항 중의 어느 한 항에 있어서,
    상기 매핑 함수는 시간과 서브 밴드의 함수이며,
    상기 매핑 함수는 이용 가능한 획득된 비교 값들 및 연관된 인터-채널 방향 수신 파라미터를 이용하여 결정되는
    방법.
  9. 제1항에 있어서,
    상기 인터-채널 예측 모델은 상이한 오디오 채널에 관한 오디오 채널의 예측된 샘플을 나타내는
    방법.
  10. 제9항에 있어서,
    예측된 샘플에 대한 비용 함수를 최소화하여 인터-채널 예측 모델을 결정하고 상기 결정된 인터-채널 예측 모델을 이용하여 적어도 하나의 인터-채널 파라미터를 결정하는 단계를 더 포함하는
    방법.
  11. 제1항 내지 제7항, 제9항 및 제10항 중의 어느 한 항에 있어서,
    적어도 상기 제1 입력 오디오 채널 및 상기 제2 입력 오디오 채널을 시간 도메인에서 시간 슬롯들 및 주파수 도메인에서 서브 밴드들로 세그먼트화(segmenting)하고 인터-채널 예측 모델을 이용하여 복수의 서브 밴드들 각각에 대한 인터-채널 방향 수신 파라미터를 형성하는 단계를 더 포함하는
    방법.
  12. 제1항에 있어서,
    사용하기 위한 인터-채널 예측 모델을 선택하기 위해서 적어도 하나의 선택 기준을 이용하는 단계를 더 포함하며,
    상기 적어도 하나의 선택 기준은 인터-채널 예측 모델의 성능 측정값을 기초로 하는
    방법.
  13. 제12항에 있어서,
    상기 성능 측정값은 예측 이득인
    방법.
  14. 제1항 내지 제7항, 제9항, 제10항, 제12항 및 제13항 중의 어느 한 항에 있어서,
    사용할 인터-채널 예측 모델을 복수의 인터-채널 예측 모델들로부터 선택하는 단계를 포함하는
    방법.
  15. 프로세서로 로딩되면 상기 프로세서를 제어하여 제1항 내지 제7항, 제9항, 제10항, 제12항 및 제13항 중 어느 한 항의 방법을 수행하도록 하는 컴퓨터 프로그램을 포함하는
    컴퓨터 판독가능 저장 매체.
  16. 삭제
  17. 삭제
  18. 삭제
  19. 제1 입력 오디오 채널 및 제2 입력 오디오 채널을 수신하는 수단과,
    제1 메트릭을 상기 제1 입력 오디오 채널을 예측하는 인터-채널(inter-channel) 예측 모델의 예측 이득으로서 결정하고 제2 메트릭을 제2 입력 오디오 채널을 예측하는 인터-채널 예측 모델의 예측 이득으로서 결정하는 수단과,
    상기 제1 메트릭과 상기 제2 메트릭을 비교하는 비교 값을 결정하는 수단과,
    상기 비교 값을 기초로 하여 적어도 하나의 인터-채널 방향 수신 파라미터를 결정하는 수단을 포함하는
    장치.
  20. 제19항에 있어서,
    상기 제1 메트릭을 느리게 변하는 함수의 오퍼랜드(operand)로서 사용하여 수정된 제1 메트릭을 획득하는 수단과,
    상기 제2 메트릭을 동일하게 느리게 변하는 함수의 오퍼랜드로서 사용하여 수정된 제2 메트릭을 획득하는 수단과,
    상기 수정된 제1 메트릭과 상기 수정된 제2 메트릭 사이의 차이를 상기 비교 값으로서 결정하는 수단을 포함하는
    장치.
  21. 적어도 하나의 인터-채널 방향 수신 파라미터를 수신하는 단계―상기 적어도 하나의 인터-채널 방향 수신 파라미터는 비교 값을 기초로 하여 결정되며, 상기 비교 값은 제1 메트릭과 제2 메트릭의 비교로서 결정되며, 상기 제1 메트릭은 제1 입력 오디오 채널을 예측하는 인터-채널(inter-channel) 예측 모델의 예측 이득으로서 결정되고 상기 제2 메트릭은 제2 입력 오디오 채널을 예측하는 인터-채널 예측 모델의 예측 이득으로서 결정됨―와,
    다운믹스된 신호 및 상기 적어도 하나의 인터-채널 방향 수신 파라미터를 이용하여 멀티-채널 오디오 출력을 렌더링하는 단계를 포함하는
    방법.
  22. 제21항에 있어서,
    상기 멀티-채널 오디오 출력을 렌더링하기 이전에 상기 적어도 하나의 인터-채널 방향 수신 파라미터를 인터-채널 시간 차이로 변환하는 단계를 더 포함하는
    방법.
  23. 제21항에 있어서,
    상기 적어도 하나의 인터-채널 방향 수신 파라미터를 패닝 법칙(panning law)를 이용하여 레벨 값들로 변환하는 단계를 더 포함하는
    방법.
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
KR1020127018484A 2009-12-16 2009-12-16 멀티-채널 오디오 프로세싱 KR101450414B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2009/067243 WO2011072729A1 (en) 2009-12-16 2009-12-16 Multi-channel audio processing

Publications (2)

Publication Number Publication Date
KR20120098883A KR20120098883A (ko) 2012-09-05
KR101450414B1 true KR101450414B1 (ko) 2014-10-14

Family

ID=42144823

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127018484A KR101450414B1 (ko) 2009-12-16 2009-12-16 멀티-채널 오디오 프로세싱

Country Status (6)

Country Link
US (1) US9584235B2 (ko)
EP (1) EP2513898B1 (ko)
KR (1) KR101450414B1 (ko)
CN (1) CN102656627B (ko)
TW (1) TWI490853B (ko)
WO (1) WO2011072729A1 (ko)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9042560B2 (en) 2009-12-23 2015-05-26 Nokia Corporation Sparse audio
ITTO20120067A1 (it) * 2012-01-26 2013-07-27 Inst Rundfunktechnik Gmbh Method and apparatus for conversion of a multi-channel audio signal into a two-channel audio signal.
EP2702776B1 (en) * 2012-02-17 2015-09-23 Huawei Technologies Co., Ltd. Parametric encoder for encoding a multi-channel audio signal
KR101662681B1 (ko) * 2012-04-05 2016-10-05 후아웨이 테크놀러지 컴퍼니 리미티드 멀티채널 오디오 인코더 및 멀티채널 오디오 신호 인코딩 방법
EP2702587B1 (en) * 2012-04-05 2015-04-01 Huawei Technologies Co., Ltd. Method for inter-channel difference estimation and spatial audio coding device
DK2981963T3 (en) * 2013-04-05 2017-02-27 Dolby Laboratories Licensing Corp COMPRESSION APPARATUS AND PROCEDURE TO REDUCE QUANTIZATION NOISE USING ADVANCED SPECTRAL EXTENSION
US9454970B2 (en) * 2013-07-03 2016-09-27 Bose Corporation Processing multichannel audio signals
EP2830332A3 (en) 2013-07-22 2015-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method, signal processing unit, and computer program for mapping a plurality of input channels of an input channel configuration to output channels of an output channel configuration
TWI713018B (zh) 2013-09-12 2020-12-11 瑞典商杜比國際公司 多聲道音訊系統中之解碼方法、解碼裝置、包含用於執行解碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置的音訊系統
CN104681029B (zh) * 2013-11-29 2018-06-05 华为技术有限公司 立体声相位参数的编码方法及装置
US10817791B1 (en) * 2013-12-31 2020-10-27 Google Llc Systems and methods for guided user actions on a computing device
EP2980789A1 (en) * 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
US9782672B2 (en) 2014-09-12 2017-10-10 Voyetra Turtle Beach, Inc. Gaming headset with enhanced off-screen awareness
US9866596B2 (en) 2015-05-04 2018-01-09 Qualcomm Incorporated Methods and systems for virtual conference system using personal communication devices
US10015216B2 (en) 2015-08-06 2018-07-03 Qualcomm Incorporated Methods and systems for virtual conference system using personal communication devices
US9906572B2 (en) * 2015-08-06 2018-02-27 Qualcomm Incorporated Methods and systems for virtual conference system using personal communication devices
CN105719653B (zh) 2016-01-28 2020-04-24 腾讯科技(深圳)有限公司 一种混音处理方法和装置
US9978381B2 (en) 2016-02-12 2018-05-22 Qualcomm Incorporated Encoding of multiple audio signals
US11234072B2 (en) 2016-02-18 2022-01-25 Dolby Laboratories Licensing Corporation Processing of microphone signals for spatial playback
WO2017143105A1 (en) 2016-02-19 2017-08-24 Dolby Laboratories Licensing Corporation Multi-microphone signal enhancement
US11120814B2 (en) 2016-02-19 2021-09-14 Dolby Laboratories Licensing Corporation Multi-microphone signal enhancement
CN110024421B (zh) * 2016-11-23 2020-12-25 瑞典爱立信有限公司 用于自适应控制去相关滤波器的方法和装置
US10304468B2 (en) * 2017-03-20 2019-05-28 Qualcomm Incorporated Target sample generation
GB2562036A (en) * 2017-04-24 2018-11-07 Nokia Technologies Oy Spatial audio processing
GB2561844A (en) * 2017-04-24 2018-10-31 Nokia Technologies Oy Spatial audio processing
CN112005210A (zh) * 2018-08-30 2020-11-27 惠普发展公司,有限责任合伙企业 多通道源音频的空间特性
CN112863525B (zh) * 2019-11-26 2023-03-21 北京声智科技有限公司 一种语音波达方向的估计方法、装置及电子设备
WO2023147864A1 (en) * 2022-02-03 2023-08-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method to transform an audio stream

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006000952A1 (en) 2004-06-21 2006-01-05 Koninklijke Philips Electronics N.V. Method and apparatus to encode and decode multi-channel audio signals

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6163608A (en) * 1998-01-09 2000-12-19 Ericsson Inc. Methods and apparatus for providing comfort noise in communications systems
SE519552C2 (sv) * 1998-09-30 2003-03-11 Ericsson Telefon Ab L M Flerkanalig signalkodning och -avkodning
US20020173864A1 (en) * 2001-05-17 2002-11-21 Crystal Voice Communications, Inc Automatic volume control for voice over internet
KR100441250B1 (ko) * 2002-03-06 2004-07-21 삼성전자주식회사 이퀄라이저의 계수 계산 방법 및 그것을 계산하는 장치
US7805313B2 (en) * 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
CN102117617B (zh) * 2004-10-28 2013-01-30 Dts(英属维尔京群岛)有限公司 音频空间环境引擎
ES2347473T3 (es) * 2005-12-05 2010-10-29 Qualcomm Incorporated Procedimiento y aparato de deteccion de componentes tonales de señales de audio.
US7750229B2 (en) * 2005-12-16 2010-07-06 Eric Lindemann Sound synthesis by combining a slowly varying underlying spectrum, pitch and loudness with quicker varying spectral, pitch and loudness fluctuations
RU2453986C2 (ru) 2006-01-27 2012-06-20 Долби Интернэшнл Аб Эффективная фильтрация банком комплексно-модулированных фильтров
EP2629292B1 (en) * 2006-02-03 2016-06-29 Electronics and Telecommunications Research Institute Method and apparatus for control of randering multiobject or multichannel audio signal using spatial cue
ES2452348T3 (es) 2007-04-26 2014-04-01 Dolby International Ab Aparato y procedimiento para sintetizar una señal de salida
US8180062B2 (en) * 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
CN101350197B (zh) 2007-07-16 2011-05-11 华为技术有限公司 立体声音频编/解码方法及编/解码器
US8295494B2 (en) * 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability
CN101884065B (zh) 2007-10-03 2013-07-10 创新科技有限公司 用于双耳再现和格式转换的空间音频分析和合成的方法
GB0915766D0 (en) * 2009-09-09 2009-10-07 Apt Licensing Ltd Apparatus and method for multidimensional adaptive audio coding
WO2011044064A1 (en) * 2009-10-05 2011-04-14 Harman International Industries, Incorporated System for spatial extraction of audio signals

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006000952A1 (en) 2004-06-21 2006-01-05 Koninklijke Philips Electronics N.V. Method and apparatus to encode and decode multi-channel audio signals

Also Published As

Publication number Publication date
US20130195276A1 (en) 2013-08-01
TW201135718A (en) 2011-10-16
TWI490853B (zh) 2015-07-01
CN102656627A (zh) 2012-09-05
KR20120098883A (ko) 2012-09-05
US9584235B2 (en) 2017-02-28
EP2513898B1 (en) 2014-08-13
EP2513898A1 (en) 2012-10-24
CN102656627B (zh) 2014-04-30
WO2011072729A1 (en) 2011-06-23

Similar Documents

Publication Publication Date Title
KR101450414B1 (ko) 멀티-채널 오디오 프로세싱
US9129593B2 (en) Multi channel audio processing
EP1738356B1 (en) Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
CN108600935B (zh) 音频信号处理方法和设备
KR20200084918A (ko) 다채널 오디오 신호들의 렌더링을 향상시키기 위한 방법 및 디바이스
CN112567765B (zh) 空间音频捕获、传输和再现
WO2010105695A1 (en) Multi channel audio coding
EP3766262A1 (en) Temporal spatial audio parameter smoothing
EP4046399A1 (en) Spatial audio representation and rendering
US20240089692A1 (en) Spatial Audio Representation and Rendering
RU2427978C2 (ru) Кодирование и декодирование аудио
CN113646836A (zh) 声场相关渲染
RU2807473C2 (ru) Маскировка потерь пакетов для пространственного кодирования аудиоданных на основе dirac
WO2022258876A1 (en) Parametric spatial audio rendering
CN117083881A (zh) 分离空间音频对象

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170919

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180918

Year of fee payment: 5