KR20120109627A - 다운믹스 신호 및 공간 파라미트릭 정보로부터 다이렉트/앰비언스 신호를 추출하기 위한 장치 및 방법 - Google Patents

다운믹스 신호 및 공간 파라미트릭 정보로부터 다이렉트/앰비언스 신호를 추출하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR20120109627A
KR20120109627A KR1020127021317A KR20127021317A KR20120109627A KR 20120109627 A KR20120109627 A KR 20120109627A KR 1020127021317 A KR1020127021317 A KR 1020127021317A KR 20127021317 A KR20127021317 A KR 20127021317A KR 20120109627 A KR20120109627 A KR 20120109627A
Authority
KR
South Korea
Prior art keywords
direct
signal
ambience
ambient
downmix
Prior art date
Application number
KR1020127021317A
Other languages
English (en)
Other versions
KR101491890B1 (ko
Inventor
유하 빌카모
얀 프로그스티에스
베른하르트 누게바우어
유르겐 헤레
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20120109627A publication Critical patent/KR20120109627A/ko
Application granted granted Critical
Publication of KR101491890B1 publication Critical patent/KR101491890B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

다운믹스 신호와 공간 파라미트릭 정보로부터 다이렉트 및/또는 앰비언스 신호를 추출하기 위한 장치가 개시되며, 다운믹스 신호와 공간 파라미트릭 정보는 다운믹스 신호보다 많은 채널들을 갖는 멀티채널 오디오 신호를 표현하며, 공간 파라미트릭 정보는 멀티채널 오디오 신호의 채널간 관계치들을 포함한다. 본 장치는 다이렉트/앰비언스 추정기 및 다이렉트/앰비언스 추출기를 포함한다. 다이렉트/앰비언스 추정기는 공간 파라미트릭 정보에 기초하여 멀티채널 오디오 신호의 다이렉트 부분 및/또는 앰비언트 부분의 레벨 정보를 추정하도록 구성된다. 다이렉트/앰비언스 추출기는 다이렉트 부분 또는 앰비언트 부분의 추정된 레벨 정보에 기초하여 다운믹스 신호로부터 다이렉트 신호 부분 및/또는 앰비언트 신호 부분을 추출하도록 구성된다.

Description

다운믹스 신호 및 공간 파라미트릭 정보로부터 다이렉트/앰비언스 신호를 추출하기 위한 장치 및 방법{APPARATUS AND METHOD FOR EXTRACTING A DIRECT/AMBIENCE SIGNAL FROM A DOWNMIX SIGNAL AND SPATIAL PARAMETRIC INFORMATION}
본 발명은 오디오 신호 처리에 관한 것이며, 보다 구체적으로, 다운믹스 신호 및 공간 파라미트릭 정보로부터 다이렉트/앰비언스 신호를 추출하기 위한 장치 및 방법에 관한 것이다. 본 발명의 추가적인 실시예들은 오디오 신호의 바이노럴(binaural) 재생을 증대시키기 위한 다이렉트/앰비언스 분리의 이용에 관한 것이다. 또 다른 실시예들은 멀티채널 사운드의 바이노럴 재생에 관한 것이며, 멀티채널 오디오란 두 개 이상의 채널들을 갖는 오디오를 의미한다. 멀티채널 사운드를 갖는 전형적인 오디오 콘텐츠는 영화 사운드트랙과 멀티채널 음악 레코딩이다.
인간의 공간적 청음 시스템은 사운드를 대략 두 개의 부분들로 처리하려는 경향이 있다. 이것들은 한쪽은 로컬화(localizable) 또는 다이렉트(direct) 부분이고, 다른 한쪽은 비로컬화(unlocalizable) 또는 앰비언트(ambient) 부분이다. 바이노럴 사운드 재생 및 멀티채널 업믹싱(upmixing)과 같은, 수 많은 오디오 처리 응용들이 있으며, 이러한 두 개의 오디오 성분들에 대한 액세스를 가질 것이 요망된다.
업계에서는, 굿윈 조트(Goodwin, Jot)의 "공간적 오디오 코딩 및 강화를 위한 1차적-앰비언트 신호 분해 및 벡터 기반 로컬화(Primary-ambient signal decomposition and vector-based localization for spatial audio coding and enhancement)"(IEEE 국제 음향, 스피치 및 신호 처리 컨퍼런스, 2007년 4월); 메리마(Merimaa), 굿윈, 조트의 "스테레오 레코딩으로부터의 상관 기반 앰비언스 추출(Correlation-based ambience extraction from stereo recordings)"(AES 123회차 컨벤션, 뉴욕, 2007년); 씨 폴러(C. Faller)의 "스테레오 신호의 다중 확성기 스피커 재생(Multiple-loudspeaker playback of stereo signals)"(AES 저널지, 2007년 10월); 굿윈 등의 "복소 유사성 인덱스를 이용한 스테레오 오디오 신호의 1차-앰비언트 분해(Primary-ambient decomposition of stereo audio signals using a complex similarity index)"(공개번호 US2009/0198356 A1, 2009년 8월); "특허출원명칭: 스테레오 신호로부터 멀티채널 오디오 신호를 생성하는 방법(Method to Generate Multi-Channel Audio Signal from Stereo Signals)"(발명자들: 크리스토프 폴러(Christof Faller), 에이전트: FISH & RICHARDSON P.C., 양수인들: LG ELECTRONICS, INC., 출처: MINNEAPOLIS, MN US, IPC8 Class: AH04R500FI, USPC Class: 381 1); 및, 아벤다노(Avendano) 등의 "스테레오 신호를 위한 앰비언스 생성(Ambience generation for stereo signals)"(출원일 2002년 6월 4일, 출원번호: 10/163,158, 등록일 2009년 7월 28일)에서 기술된 다이렉트/앰비언스 분리 방법들이 알려져 있으며, 이것들은 다양한 응용들에서 이용될 수 있다. 최신의 다이렉트-앰비언스 분리 알고리즘들은 주파수 대역들에서의 스테레오 사운드의 채널간 신호 비교에 기초한다.
더군다나, 굿윈 조트의 "공간적 오디오 장면 코딩에 기초한 바이노럴 3-D 오디오 랜더링(Binaural 3-D Audio Rendering Based on Spatial Audio Scene Coding)"(AES 123회차 컨벤션, 뉴욕 2007)에서는, 앰비언스 추출과 함께 바이노럴 재생이 다루어진다. 바이노럴 재생과 관련된 앰비언스 추출은 또한 제이 어셔(J. Usher)와 제이 베네스티(J. Benesty)의 “공간 사운드 퀄리티의 강화: 새로운 반향-추출 오디오 업믹서(Enhancement of spatial sound quality: a new reverberation-extraction audio upmixer)”(IEEE 오디오, 스피치, 언어 처리 트랜잭션, 볼륨 15, 페이지 2141-2150, 2007년 9월)에서 언급되고 있다. 후자의 논문은 각 채널에서의 다이렉트 성분의 최소 제곱 평균 적응적 상호채널 필터링을 이용한, 스테레오 마이크로폰 레코딩에서의 앰비언스 추출에 촛점을 두고 있다. 공간 오디오 코덱들, 예컨대 MPEG 서라운드는 일반적으로 공간 보조 정보와 함께 하나 이상의 채널 오디오 스트림으로 구성되는데, 이것은, ISO/IEC 23003-1 - MPEG 서라운드; 및 브리바트 제이(Breebaart, J.), 히어 제이(Herre, J.), 빌리모이스 엘(Villemoes, L.), 진 씨(Jin, C.), 코올링 케이(Kj
Figure pct00001
rling, K.), 플로그스티즈 제이(Plogsties, J.), 코펜스 제이(Koppens, J.)의 "멀티채널은 모바일로 나아간다: MPEG 서라운드 바이노럴 랜더링(Multi-channel goes mobile: MPEG Surround binaural rendering)" 회의록(29차 AES 컨퍼런스, 한국, 서울, 2006)에서 기술된 바와 같이, 오디오를 다중 채널들로 확장시킨다.
하지만, MPEG 서라운드(MPEG-surround; MPS) 및 파라미트릭 스테레오(parametric stereo; PS)와 같은 오늘날의 파라미트릭 오디오 코딩 기술들은 추가적인 공간 보조 정보와 더불어 감소된 갯수의 오디오 다운믹스(downmix) 채널들만을 제공한다(일부 경우들에서는 단하나의 채널들만을 제공함). 그 후 사운드를 의도한 출력 포맷으로 첫번째로 디코딩한 후에는 "원래의" 입력 채널들간의 비교만이 가능하다.
그러므로, 다운믹스 신호 및 공간 파라미트릭 정보로부터 다이렉트 신호 부분 또는 앰비언트 신호 부분을 추출하기 위한 개념이 필요하다. 하지만, 파라미트릭 보조 정보를 이용한 다이렉트/앰비언스 추출에 대하여 현존하는 솔루션들은 없다.
그러므로, 본 발명의 목적은 공간 파라미트릭 정보의 이용에 의해 다운믹스 신호로부터 다이렉트 신호 부분 또는 앰비언트 신호 부분을 추출하기 위한 개념을 제공하는 것이다.
본 목적은 청구항 제1항에 따른 장치, 청구항 제15항에 따른 방법 또는 청구항 제16항에 따른 컴퓨터 프로그램에 의해 달성된다.
본 발명의 밑바탕에 깔린 기본적인 아이디어는 멀티채널 오디오 신호의 다이렉트 부분 또는 앰비언트 부분의 레벨 정보가 공간 파라미트릭 정보에 기초하여 추정되고 다이렉트 신호 부분 또는 앰비언트 신호 부분이 추정된 레벨 정보에 기초하여 다운믹스 신호로부터 추출될 때 상기에서 언급한 다이렉트/앰비언스 추출이 달성될 수 있다라는 것이다. 여기서, 다운믹스 신호 및 공간 파라미트릭 정보는 다운믹스 신호보다 많은 채널들을 갖는 멀티채널 오디오 신호를 나타낸다. 이러한 조치는 공간 파라미트릭 보조 정보를 이용하여 하나 이상의 입력 채널들을 갖는 다운믹스 신호로부터 다이렉트 및/또는 앰비언스 추출을 가능하게 해준다.
본 발명의 실시예에 따르면, 다운믹스 신호 및 공간 파라미트릭 정보로부터 다이렉트/앰비언스 신호를 추출하기 위한 장치는 다이렉트/앰비언스 추정기 및 다이렉트/앰비언스 추출기를 포함한다. 다운믹스 신호 및 공간 파라미트릭 정보는 다운믹스 신호보다 많은 채널들을 갖는 멀티채널 오디오 신호를 나타낸다. 게다가, 공간 파라미트릭 정보는 멀티채널 오디오 신호의 채널간 관계치들을 포함한다. 다이렉트/앰비언스 추정기는 공간 파라미트릭 정보에 기초하여 멀티채널 오디오 신호의 다이렉트 부분 또는 앰비언트 부분의 레벨 정보를 추정하도록 구성된다. 다이렉트/앰비언스 추출기는 다이렉트 부분 또는 앰비언트 부분의 추정된 레벨 정보에 기초하여 다운믹스 신호로부터 다이렉트 신호 부분 또는 앰비언트 신호 부분을 추출하도록 구성된다.
본 발명의 또 다른 실시예에 따르면, 다운믹스 신호 및 공간 파라미트릭 정보로부터 다이렉트/앰비언스 신호를 추출하기 위한 장치는 바이노럴 다이렉트 사운드 랜더링 디바이스, 바이노럴 앰비언트 사운드 랜더링 디바이스 및 결합기를 더 포함한다. 바이노럴 다이렉트 사운드 랜더링 디바이스는 다이렉트 신호 부분을 처리하여 제1 바이노럴 출력 신호를 획득하도록 구성된다. 바이노럴 앰비언트 사운드 랜더링 디바이스는 앰비언트 신호 부분을 처리하여 제2 바이노럴 출력 신호를 획득하도록 구성된다. 결합기는 제1 바이노럴 출력 신호와 제2 바이노럴 출력 신호를 결합하여 결합된 바이노럴 출력 신호를 획득하도록 구성된다. 그러므로, 오디오 신호의 다이렉트 신호 부분과 앰비언스 신호 부분이 개별적으로 처리되는, 오디오 신호의 바이노럴 재생이 제공될 수 있다.
이하에서는, 첨부 도면을 참조하여 본 발명의 실시예들을 설명한다.
도 1은 멀티채널 오디오 신호를 나타내는 다운믹스 신호 및 공간 파라미트릭 정보로부터 다이렉트/앰비언스 신호를 추출하기 위한 장치의 실시예의 블록도를 도시한다.
도 2는 파라미트릭 스테레오 오디오 신호를 나타내는 모노 다운믹스 신호 및 공간 파라미트릭 정보로부터 다이렉트/앰비언스 신호를 추출하기 위한 장치의 실시예의 블록도를 도시한다.
도 3a는 본 발명의 실시예에 따른 멀티채널 오디오 신호의 스펙트럼 분해의 개략도를 도시한다.
도 3b는 도 3a의 스펙트럼 분해에 기초한 멀티채널 오디오 신호의 채널간 관계치들을 계산하는 개략도를 도시한다.
도 4는 추정된 레벨 정보의 다운믹싱을 갖는 다이렉트/앰비언스 추출기의 실시예의 블록도를 도시한다.
도 5는 이득 파라미터들을 다운믹스 신호에 적용하는 것에 의한 다이렉트/앰비언스 추출기의 추가적인 실시예의 블록도를 도시한다.
도 6은 채널 크로스믹싱을 갖는 LMS 솔루션에 기초한 다이렉트/앰비언스 추출기의 추가적인 실시예의 블록도를 도시한다.
도 7a는 스테레오 앰비언스 추정 공식을 이용한 다이렉트/앰비언스 추정기의 실시예의 블록도를 도시한다.
도 7b는 예시적인 다이렉트 대 전체 에너지 비율 대비 채널간 코히어런스의 그래프를 도시한다.
도 8은 본 발명의 실시예에 따른 인코더/디코더 시스템의 블록도를 도시한다.
도 9a는 본 발명의 실시예에 따른 바이노럴 다이렉트 사운드 랜더링의 개관에 관한 블록도를 도시한다.
도 9b는 도 9a의 바이노럴 다이렉트 사운드 랜더링의 세부구성에 관한 블록도를 도시한다.
도 10a는 본 발명의 실시예에 따른 바이노럴 앰비언트 사운드 랜더링의 개관에 관한 블록도를 도시한다.
도 10b는 도 10a의 바이노럴 앰비언트 사운드 랜더링의 세부구성에 관한 블록도를 도시한다.
도 11은 멀티채널 오디오 신호의 바이노럴 재생의 실시예의 개념블록도를 도시한다.
도 12는 바이노럴 재생을 포함한 다이렉트/앰비언스 추출의 실시예의 전체 블록도를 도시한다.
도 13a는 필터뱅크 도메인에서의 모노 다운믹스 신호로부터 다이렉트/앰비언트 신호를 추출하기 위한 장치의 실시예의 블록도를 도시한다.
도 13b는 도 13a의 다이렉트/앰비언스 추출 블록의 실시예의 블록도를 도시한다.
도 14는 본 발명의 추가적인 실시예에 따른 예시적인 MPEG 서라운드 디코딩 기법의 개략도를 도시한다.
도 1은 다운믹스 신호(115)와 공간 파라미트릭 정보(105)로부터 다이렉트/앰비언스 신호(125-1, 125-2)를 추출하기 위한 장치(100)의 실시예의 블록도를 도시한다. 도 1에서 도시된 바와 같이, 다운믹스 신호(115) 및 공간 파라미트릭 정보(105)는 다운믹스 신호(115)보다 많은 채널들(Ch1 … ChN)을 갖는 멀티채널 오디오 신호(101)를 나타낸다. 공간 파라미트릭 정보(105)는 멀티채널 오디오 신호(101)의 채널간 관계치들을 포함할 수 있다. 특히, 장치(100)는 다이렉트/앰비언스 추정기(110) 및 다이렉트/앰비언스 추출기(120)를 포함한다. 다이렉트/앰비언스 추정기(110)는 공간 파라미트릭 정보(105)에 기초하여 멀티채널 오디오 신호(101)의 다이렉트 부분 또는 앰비언트 부분의 레벨 정보(113)를 추정하도록 구성될 수 있다. 다이렉트/앰비언스 추출기(120)는 다이렉트 부분 또는 앰비언트 부분의 추정된 레벨 정보(113)에 기초하여 다운믹스 신호(115)로부터 다이렉트 신호 부분(125-1) 또는 앰비언트 신호 부분(125-2)을 추출하도록 구성될 수 있다.
도 2는 파라미트릭 스테레오 오디오 신호(201)를 나타내는 모노 다운믹스 신호(215) 및 공간 파라미트릭 정보(105)로부터 다이렉트/앰비언스 신호(125-1, 125-2)를 추출하기 위한 장치(200)의 실시예의 블록도를 도시한다. 도 2의 장치(200)는 본질적으로 도 1의 장치(100)와 동일한 블록들을 포함한다. 그러므로, 유사한 구현들 및/또는 기능들을 갖는 동일 블록들은 동일 참조번호들로 표시된다. 게다가, 도 2의 파라미트릭 스테레오 오디오 신호(201)는 도 1의 멀티채널 오디오 신호(101)에 대응할 수 있고, 도 2의 모노 다운믹스 신호(215)는 도 1의 다운믹스 신호(115)에 대응할 수 있다. 도 2의 실시예에서, 모노 다운믹스 신호(215)와 공간 파라미트릭 정보(105)는 파라미트릭 스테레오 오디오 신호(201)를 나타낸다. 파라미트릭 스테레오 오디오 신호는 'L'로 표시된 좌측 채널과 'R'로 표시된 우측 채널을 포함할 수 있다. 여기서, 다이렉트/앰비언스 추출기(120)는 다이렉트/앰비언스 추정기(110)의 이용에 의해 공간 파라미트릭 정보(105)로부터 유도될 수 있는 추정된 레벨 정보(113)에 기초하여 모노 다운믹스 신호(215)로부터 다이렉트 신호 부분(125-1) 또는 앰비언트 신호 부분(125-2)을 추출하도록 구성된다.
실제에서, 도 1 또는 도 2 실시예에서의 공간 파라미터들(공간 파라미트릭 정보(105))은 특히 MPEG 서라운드(MPEG surround; MPS) 또는 파라미트릭 스테레오(parametric stereo; PS) 보조 정보를 각각 가리킨다. 이러한 두 개의 기술들은 최신의 로우 비트레이트 스테레오 또는 서라운드 오디오 코딩 방법들이다. 도 2를 참조하여, PS는 공간 파라미터들과 함께 하나의 다운믹스 오디오 채널을 제공하며, 도 1을 참조하면, MPS는 공간 파라미터들과 함께 하나, 두 개 또는 그 이상의 다운믹스 오디오 채널들을 제공한다.
구체적으로, 도 1 및 도 2의 실시예들은 공간 파라미트릭 보조 정보(105)가 하나 이상의 입력 채널들을 갖는 신호(즉, 다운믹스 신호(115; 215))로부터의 다이렉트 및/또는 앰비언스 추출의 분야에서 손쉽게 이용될 수 있다는 것을 명확히 보여준다.
다이렉트 및/또는 앰비언스 레벨들의 추정(레벨 정보(113))은 레벨 차이들 및/또는 상관도와 같은, 채널간 관계치들 또는 채널간 차이들에 관한 정보에 기초한다. 이러한 값들은 스테레오 또는 멀티 채널 신호로부터 계산될 수 있다. 도 3a는 각각의 멀티 채널 오디오 신호(Ch1…ChN)의 채널간 관계치들을 계산하기 위해 이용될 멀티 채널 오디오 신호(Ch1…ChN)의 스펙트럼 분해(300)의 개략도를 도시한다. 도 3a에서 살펴볼 수 있는 바와 같이, 멀티 채널 오디오 신호(Ch1…ChN)의 검사된 채널(Chi) 또는 나머지 채널들의 선형 조합(R) 각각의 스펙트럼 분해는 복수의 서브대역들(301)을 포함하며, 복수의 서브대역들(301)의 각각의 서브대역들(303)은, 시간/주파수 그리드의 작은 박스들에 의해 표시된 바와 같은 서브대역 값들(305)을 갖는 수평축(시간축(310))을 따라 확장한다. 게다가, 서브대역들(303)은 필터 뱅크의 상이한 주파수 영역들에 대응하는 수직축(주파수축(320))을 따라 연속적으로 위치한다. 도 3a에서, 각각의 시간/주파수 타일들
Figure pct00002
또는
Figure pct00003
는 점선으로 표시된다. 여기서, 인덱스 i는 채널(Chi)과 나머지 채널들의 선형 조합(R)을 나타내는 반면에, 인덱스 n과 인덱스 k는 일정한 필터 뱅크 시간 슬롯들(307)과 필터 뱅크 서브대역들(303)에 대응한다. 이러한 시간/주파수 타일들
Figure pct00004
Figure pct00005
에 기초하여, 예컨대 시간/주파수 축들(310, 320)에 대한 동일한 시간/주파수 포인트(t0, f0)에 위치한 것에 기초하여, 검사된 채널(Chi)의 채널간 코히어런스(inter-channel coherence; ICCi) 또는 채널 레벨 차이(channel level difference; CLDi)와 같은, 채널간 관계치들(335)이, 도 3b에서 도시된 바와 같이, 단계 330에서 계산될 수 있다. 여기서, 채널간 관계치들 ICCi 및 CLDi의 계산은 다음의 관계치들을 이용함으로써 수행될 수 있다:
Figure pct00006
Figure pct00007
여기서 Chi는 검사된 채널 및 나머지 채널들의 선형 조합(R)이며, <...>는 시평균을 나타낸다. 나머지 채널들의 선형 조합(R)의 예시는 채널들의 에너지 정규화된 합이다. 뿐만 아니라, 채널 레벨 차이(CLDi)는 일반적으로 파라미터 σi의 데시벨 값이다.
위 등식들을 참조하면, 채널 레벨 차이(CLDi) 또는 파라미터 σi는 나머지 채널들의 선형 조합(R)의 레벨(PR)에 대해 정규화된 채널(Chi)의 레벨(Pi)에 대응할 수 있다. 여기서, 레벨들(Pi 또는 PR)은 채널(Chi)의 채널간 레벨 차이 파라미터(ICLDi)와 나머지 채널들의 채널간 레벨 차이 파라미터들(ICLDj)(j ≠ i)의 선형 조합(ICLDR)으로부터 유도될 수 있다.
여기서, ICLDi와 ICLDj는 각각 참조 채널(Chref)와 관련이 있을 수 있다. 추가적인 실시예들에서, 채널간 레벨 차이 파라미터들(ICLDi, ICLDj)은 또한 참조 채널(Chref)인 멀티 채널 오디오 신호(Ch1…ChN)의 임의의 다른 채널과 관련이 있을 수 있다. 결국 이것은 채널 레벨 차이(CLDi) 또는 파라미터 σi에 대해 동일한 결과를 야기시킬 것이다.
추가적인 실시예들에 따르면, 도 3b의 채널간 관계치들(335)은 또한 멀티 채널 오디오 신호(Ch1…ChN)의 입력 채널들의 상이한 쌍 또는 모든 쌍들(Chi, Chj)에 대해 작용함으로써 유도될 수 있다. 이 경우, 쌍별로 계산된 채널간 코히어런스 파라미터들(ICCi ,j) 또는 채널 레벨 차이(CLDi ,j) 또는 파라미터들 σi,j(또는 ICLDi ,j)이 획득될 수 있으며, 인덱스들(i, j)은 각각 채널들(Chi, Chj)의 일정한 쌍을 나타낸다.
도 4는 추정된 레벨 정보(113)의 다운믹싱을 포함한, 다이렉트/앰비언스 추출기(420)의 실시예(400)의 블록도를 도시한다. 도 4의 실시예는 본질적으로 도 1의 실시예와 동일한 블록들을 포함한다. 그러므로, 유사한 구현들 및/또는 기능들을 갖는 동일 블록들은 동일 참조번호들로 표시된다. 하지만, 도 1의 다이렉트/앰비언스 추출기(120)에 대응할 수 있는, 도 4의 다이렉트/앰비언스 추출기(420)는 멀티채널 오디오 신호의 다이렉트 부분 또는 앰비언트 부분의 추정된 레벨 정보(113)를 다운믹싱하여 다이렉트 부분 또는 앰비언트 부분의 다운믹싱된 레벨 정보를 획득하고 다운믹싱된 레벨 정보에 기초하여 다운믹스 신호(115)로부터 다이렉트 신호 부분(125-1) 또는 앰비언트 신호 부분(125-2)을 추출하도록 구성된다. 도 4에서 도시된 바와 같이, 공간 파라미트릭 정보(105)는 예컨대, 도 1의 멀티채널 오디오 신호(101)(Ch1…ChN)로부터 유도될 수 있고 도 3b에서 도입된 Ch1…ChN의 채널간 관계치들(335)을 포함할 수 있다. 도 4의 공간 파라미트릭 정보(105)는 또한 다이렉트/앰비언스 추출기(420)로 공급될 다운믹싱 정보(410)를 포함할 수 있다. 실시예들에서, 다운믹싱 정보(410)는 다운믹스 신호(115)로의 원래의 멀티채널 오디오 신호(예컨대, 도 1의 멀티채널 오디오 신호(101))의 다운믹스를 특성화할 수 있다. 다운믹싱은, 예컨대 시간 도메인 또는 스펙트럼 도메인에서와 같은, 임의의 코딩 도메인에서 동작하는 다운믹서(미도시됨)를 이용하여 수행될 수 있다.
추가적인 실시예들에 따르면, 다이렉트/앰비언스 추출기(420)는 또한 다이렉트 부분의 추정된 레벨 정보를 코히어런트 합산과 결합하고 앰비언트 부분의 추정된 레벨 정보를 인코히어런트 합산과 결합함으로써 멀티채널 오디오 신호(101)의 다이렉트 부분 또는 앰비언트 부분의 추정된 레벨 정보(113)의 다운믹스를 수행하도록 구성될 수 있다.
추정된 레벨 정보는 다이렉트 부분 또는 앰비언트 부분의 에너지 레벨들 또는 전력 레벨들을 각각 표현할 수 있다는 것이 지적되었다.
특히, 추정된 다이렉트/앰비언트 부분의 에너지들(즉, 레벨 정보(113))의 다운믹싱은 채널들간의 완전 인코히어런스 또는 완전 코히어런스를 가정함으로써 수행될 수 있다. 인코히어런트 또는 코히어런트 합산에 기초한 다운믹싱의 경우에서 적용될 수 있는 두 개의 공식들은 다음과 같다.
인코히어런트 신호의 경우, 다운믹스된 에너지 또는 다운믹스된 레벨 정보는
Figure pct00008
에 의해 계산될 수 있다.
코히어런트 신호의 경우, 다운믹스된 에너지 또는 다운믹스된 레벨 정보는
Figure pct00009
에 의해 계산될 수 있다.
여기서, g는 다운믹싱 정보로부터 획득될 수 있는 다운믹스 이득인 반면에, E(Chi)는 멀티채널 오디오 신호의 채널(Chi)의 다이렉트/앰비언트 부분의 에너지를 표시한다. 인코히어런트 다운믹싱의 일반적인 예시로서, 5.1 채널들을 두 개로 다운믹싱하는 경우, 좌측 다운믹스의 에너지는
Figure pct00010
일 수 있다.
도 5는 이득 파라미터들(gD, gA)을 다운믹스 신호(115)에 적용하는 것에 의한 다이렉트/앰비언스 추출기(520)의 추가적인 실시예를 도시한다. 도 5의 다이렉트/앰비언스 추출기(520)는 도 4의 대응하는 다이렉트/앰비언스 추출기(420)에 대응할 수 있다. 첫번째로, 다이렉트 부분(545-1) 또는 앰비언트 부분(545-2)의 추정된 레벨 정보는 이전에 설명한 바와 같이 다이렉트/앰비언스 추정기로부터 수신될 수 있다. 수신된 레벨 정보(545-1, 545-2)는 다이렉트 부분(555-1) 또는 앰비언트 부분(555-2)의 다운믹스된 레벨 정보를 각각 획득하기 위해 단계 550에서 결합/다운믹스될 수 있다. 그런 후, 단계 560에서, 이득 파라미터(gD; 565-1) 또는 이득 파라미터(gA; 565-2)가 다이렉트 부분 또는 앰비언트 부분을 위한 다운믹스된 레벨 정보(555-1, 555-2)로부터 각각 유도될 수 있다. 마지막으로, 유도된 이득 파라미터들(565-1, 565-2)을 다운믹스 신호(115)에 적용하기 위해 다이렉트/앰비언스 추출기(520)가 이용될 수 있으며(단계 570), 이로써 다이렉트 신호 부분(125-1) 또는 앰비언트 신호 부분(125-2)이 획득될 것이다.
여기서, 도 1, 도 4, 도 5의 실시예들에서, 다운믹스 신호(115)는 다이렉트/앰비언스 추출기들(120; 420; 520)의 입력들에 존재하는 복수의 다운믹스 채널들(Ch1…ChM)로 각각 구성될 수 있다는 것을 유념한다.
추가적인 실시예들에서, 다이렉트/앰비언스 추출기(520)는 다이렉트 부분 또는 앰비언트 부분의 다운믹스된 레벨 정보(555-1, 555-2)로부터 다이렉트 대 전체(direct to total; DTT) 또는 앰비언트 대 전체(ambient to total; ATT) 에너지 비율을 결정하고 결정된 DTT 또는 ATT 에너지 비율에 기초한 추출 파라미터들을 이득 파라미터들(565-1, 565-2)로서 이용하도록 구성된다.
또 다른 실시예들에서, 다이렉트/앰비언스 추출기(520)는 다운믹스 신호(115)를, 제1 추출 파라미터 sqrt(DTT)와 곱하여 다이렉트 신호 부분(125-1)을 획득하고, 제2 추출 파라미터 sqrt(ATT)와 곱하여 앰비언트 신호 부분(125-2)을 획득하도록 구성된다. 여기서, 다운믹스 신호(115)는 도 2의 실시예('모노 다운믹스 경우')에서 도시된 모노 다운믹스 신호(215)에 대응할 수 있다.
모노 다운믹스 경우에서, 앰비언스 추출은 sqrt(ATT) 및 sqrt(DTT)를 적용함으로써 행해질 수 있다. 하지만, 특히 각각의 채널(Chi)에 대해 sqrt(ATTi) 및 sqrt(DTTi)를 적용함으로써 멀티채널 다운믹스 신호들에 대해서도 동일한 접근법이 유효하다.
추가적인 실시예들에 따르면, 다운믹스 신호(115)가 복수의 채널들을 포함하는 경우('멀티채널 다운믹스 경우'), 다이렉트/앰비언스 추출기(520)는, 복수의 제1 추출 파라미터들, 예컨대 sqrt(DTTi)를 다운믹스 신호(115)에 적용하여 다이렉트 신호 부분(125-1)을 획득하고, 복수의 제2 추출 파라미터들, 예컨대 sqrt(ATTi)를 다운믹스 신호(115)에 적용하여 앰비언트 신호 부분(125-2)을 획득하도록 구성될 수 있다. 여기서, 복수의 제1 및 제2 추출 파라미터들은 대각 행렬을 구성할 수 있다.
일반적으로, 다이렉트/앰비언스 추출기(120; 420; 520)는 또한 2차 M×M 추출 행렬을 다운믹스 신호(115)에 적용하여 다이렉트 신호 부분(125-1) 또는 앰비언트 신호 부분(125-2)을 추출하도록 구성될 수 있으며, 2차 M×M 추출 행렬의 크기(M)는 다운믹스 채널들(Ch1…ChM)의 갯수(M)에 대응한다.
그러므로 앰비언스 추출의 적용은 2차 M×M 추출 행렬을 적용함으로써 기술될 수 있으며, 여기서 M은 다운믹스 채널들(Ch1…ChM)의 갯수이다. 이것은, 2차 M×M 추출 행렬의 주요 원소들이 대각 행렬로서 구성되는 것을 표현하는 sqrt(ATTi) 및 sqrt(DTTi) 파라미터들에 기초한 비교적 단순한 접근법이나, 또는 완전 행렬로서의 LMS 크로스믹싱 접근법을 비롯하여, 다이렉트/앰비언스 출력을 얻기 위해 입력 신호를 처리하는 모든 잠재적인 방법들을 포함할 수 있다. 후자의 접근법은 아래에서 설명될 것이다. 여기서, M×M 추출 행렬을 적용하는 위 접근법은 하나의 채널을 비롯하여, 임의의 갯수의 채널들을 커버한다는 것을 유념한다.
추가적인 실시예들에 따르면, 보다 적은 갯수의 출력 채널들을 가질 수 있으므로, 추출 행렬은 반드시 M×M 행렬 크기의 2차 행렬일 필요는 없을 수 있다. 그러므로, 추출 행렬은 감소된 갯수의 라인들을 가질 수 있다. 이 예시는 M개 대신에 단일의 다이렉트 신호를 추출하는 것일 것이다.
또한 M개 다운믹스 채널들 모두를 추출 행렬의 M개 열들을 갖는 것에 대응하는 입력으로서 항상 취하는 것이 반드시 필요한 것은 아니다. 이것은 특히 입력들로서 모든 채널들을 갖는 것이 필요하지 않는 응용들과 관련이 있을 수 있다.
도 6은 채널 크로스믹싱을 갖는 LMS(least mean square) 솔루션에 기초한 다이렉트/앰비언스 추출기(620)의 추가적인 실시예(600)의 블록도를 도시한다. 도 6의 다이렉트/앰비언스 추출기(620)는 도 1의 다이렉트/앰비언스 추출기(120)에 대응할 수 있다. 그러므로, 도 6의 실시예에서, 도 1의 실시예에서와 유사한 구현들 및/또는 기능들을 갖는 동일 블록들은 동일 참조번호들로 표시된다. 하지만, 도 1의 다운믹스 신호(115)에 대응할 수 있는, 도 6의 다운믹스 신호(615)는 복수의 다운믹스 채널들(Ch1…ChM)(617)을 포함할 수 있으며, 다운믹스 채널들의 갯수(M)는 멀티채널 오디오 신호(101)의 채널들(Ch1…ChN)의 갯수(N)보다 작다(즉, M < N 이다). 구체적으로, 다이렉트/앰비언스 추출기(620)는 채널 크로스믹싱을 갖는 LMS(least mean square) 솔루션에 의해 다이렉트 신호 부분(125-1) 또는 앰비언트 신호 부분(125-2)을 추출하도록 구성되며, LMS 솔루션은 동일한 앰비언스 레벨들을 필요로 하지 않는다. 동일한 앰비언스 레벨들을 필요로 하지 않으며 또한 임의의 갯수의 채널들로 확장가능한 이러한 LMS 솔루션이 다음에서 제공된다. 방금 언급한 LMS 솔루션은 강제적 사항은 아니지만, 상기 것에 대한 보다 정확한 대안을 나타낸다.
다이렉트/앰비언스 추출을 위한 크로스믹싱 가중치들에 대한 LMS 솔루션에서 이용된 심볼들은 다음과 같다:
Chi 채널 i
Figure pct00011
채널 i에서의 다이렉트 사운드의 이득
Figure pct00012
Figure pct00013
사운드의 다이렉트 부분 및 그 추정치
Figure pct00014
Figure pct00015
채널 i의 앰비언트 부분 및 그 추정치
Figure pct00016
X의 추정된 에너지
Figure pct00017
기대값
Figure pct00018
X의 추정 에러
Figure pct00019
다이렉트 부분에 대한 채널 i의 LMS 크로스믹싱 가중치
Figure pct00020
채널 i의 앰비언스에 대한 채널 n의 LMS 크로스믹싱 가중치
본 문맥에서, LMS 솔루션의 유도는 멀티채널 오디오 신호의 각각의 채널들의 스펙트럼 표현에 기초될 수 있으며, 이것은 모든 것이 주파수 대역들에서 기능한다는 것을 의미함을 유념한다.
신호 모델은
Figure pct00021
에 의해 주어진다.
유도식은 맨 먼저 a) 다이렉트 부분을 처리하고 이어서 b) 앰비언트 부분을 처리한다. 마지막으로, 가중치들에 대한 솔루션이 유도되고 가중치들의 정규화 방법이 설명된다.
a) 다이렉트 부분
가중치 다이렉트 부분의 추정은
Figure pct00022
이다.
추정 에러는
Figure pct00023
으로 표현된다.
LMS 솔루션을 갖기 위해, 입력 신호들에 대해 직교하는
Figure pct00024
가 필요하다
Figure pct00025
, 모든 k에 대해
Figure pct00026
상기 관계치는 행렬 형태로
Figure pct00027
으로 표현된다.
b) 앰비언스 부분
여기서는 동일한 신호 모델로부터 시작하고
Figure pct00028
로부터 가중치들을 추정한다.
추정 에러는
Figure pct00029
이며,
직교성은
Figure pct00030
, 모든 k에 대해
Figure pct00031
이다.
상기 관계치는 행렬 형태로
Figure pct00032
으로 표현된다.
가중치들에 대한 솔루션
가중치들은 행렬 A를 반전시킴으로서 구해질 수 있는데, 이것은 다이렉트 부분과 앰비언트 부분의 계산 모두에서 동일하다. 스테레오 신호들의 경우 솔루션은
Figure pct00033
이며,
div는 제수(divisor)
Figure pct00034
이다.
가중치들의 정규화
가중치들은 LMS 솔루션에 대한 것이지만, 에너지 레벨들은 보존되어야 하기 때문에, 가중치들은 정규화된다. 이것은 또한 상기 공식들에서 불필요한 div 항에 의한 나눗셈을 수행하게 만든다. 출력 다이렉트 및 앰비언트 채널들의 에너지들이 PD 및 PAi(i는 채널 인덱스이다)이라는 것을 보장함으로써 정규화가 발생한다.
이것은 채널간 코히어런스, 믹싱 인자들 및 채널 에너지들을 안다는 것을 단순 가정한 것이다. 단순화를 위해, 두 개의 채널 경우, 특히 하나의 가중 쌍
Figure pct00035
Figure pct00036
에 촛점을 맞추며, 이 가중 쌍은 제1 및 제2 입력 채널들로부터 제1 앰비언스 채널을 생성하기 위한 이득들이다. 단계들은 다음과 같다:
단계 1: 출력 신호 에너지
Figure pct00037
를 계산한다(코히어런트 부분은 진폭별로 합산되고, 인코히어런트 부분은 에너지별로 합산된다).
단계 2: 정규화 이득 인자
Figure pct00038
를 계산하고,
그 결과를 크로스믹싱 가중 인자들
Figure pct00039
Figure pct00040
에 적용한다. 단계 1에서, 입력 채널들이 네거티브 코히어런트인 경우를 또한 고려하기 위해 ICC에 대한 부호 연산자들 및 절대값들이 포함된다. 나머지 가중 인자들이 또한 동일한 방식으로 정규화된다.
특히, 위를 참조하면, 다이렉트/앰비언스 추출기(620)는 LMS 솔루션이 스테레오 채널 다운믹스 신호로 국한되지 않도록, 안정적인 멀티채널 신호 모델을 가정함으로써 LMS 솔루션을 유도하도록 구성될 수 있다.
도 7a는 스테레오 앰비언스 추정 공식에 기초를 두는, 다이렉트/앰비언스 추정기(710)의 실시예(700)의 블록도를 도시한다. 도 7의 다이렉트/앰비언스 추정기(710)는 도 1의 다이렉트/앰비언스 추정기(110)에 대응할 수 있다. 특히, 도 7의 다이렉트/앰비언스 추정기(710)는 공간 파라미트릭 정보(105)를 이용하여 스테레오 앰비언스 추정 공식을 멀티채널 오디오 신호(101)의 각 채널(Chi)에 대해 적용하도록 구성되며, 스테레오 앰비언스 추정 공식은 채널(Chi)의 채널 레벨 차이(CLDi) 또는 파라미터(σi) 및 채널간 코히어런스(ICCi) 파라미터에 대한 의존성을 명확히 보여주는 함수적 의존성
Figure pct00041
으로서 표현될 수 있다. 도 7에서 도시된 바와 같이, 공간 파라미트릭 정보(105)는 다이렉트/앰비언스 추정기(710)에 입력되고, 각 채널(Chi)에 대한 채널간 관계 파라미터들 ICCi 및 σi을 포함할 수 있다. 다이렉트/앰비언스 추정기(710)의 이용에 의한 이 스테레오 앰비언스 추정 공식을 적용한 후, 다이렉트 대 전체(DTTi) 또는 앰비언트 대 전체(ATTi) 에너지 비율이 각각 출력(715)에서 획득될 것이다. 각각의 DTT 또는 ATT 에너지 비율을 추정하기 위해 이용된 위 스테레오 앰비언스 추정 공식은 동일한 앰비언스 조건에 기초하지 않는다는 것을 유념해야 한다.
특히, 해당 채널의 전체 에너지 대비 채널에서의 다이렉트 에너지의 비율(DTT)이
Figure pct00042
에 의해 공식화될 수 있다는 점에서 다이렉트/앰비언스 비율 추정이 수행될 수 있으며, 여기서,
Figure pct00043
이고
Figure pct00044
이며, Ch는 검사된 채널이고 R은 나머지 채널들의 선형 조합이다.
Figure pct00045
는 시평균이다. 이 공식은 앰비언스 레벨이 채널에서 그리고 나머지 채널들의 선형 조합에서 동일하고, 그 코히어런스가 제로인 것으로 가정될 때에 뒤따른다.
도 7b는 채널간 코히어런스 파라미터 ICC(770)의 함수로서의 예시적인 DTT(다이렉트 대 전체) 에너지 비율(760)의 그래프(750)를 도시한다. 도 7b 실시예에서, 채널 레벨 차이(CLD) 또는 파라미터 σ는 예시적으로 1로 설정되며(σ=1), 이로써 채널(Chi)의 레벨 P(Chi)와 나머지 채널들의 선형 조합(R)의 레벨P(R)은 동일할 것이다. 이 경우, DTT 에너지 비율(760)은 DTT ~ ICC에 의해 마킹된 직선(775)에 의해 표시된 바와 같이 ICC 파라미터에 선형적으로 비례할 것이다. 도 7b에서는 완전 디코히어런트 채널간 관계에 대응할 수 있는 ICC=0의 경우에, DTT 에너지 비율(760)은 0일 것이며, 이것은 완전 앰비언트 상황('R1' 경우)에 대응할 수 있다. 하지만, 완전 코히어런트 채널간 관계에 대응할 수 있는 ICC=1의 경우에, DTT 에너지 비율(760)은 1일 것이며, 이것은 완전 다이렉트 상황('R2' 경우)에 대응할 수 있다. 그러므로, R1 경우에서는 채널의 전체 에너지에 대하여 해당 채널에서 다이렉트 에너지가 본질적으로 없는 반면에, R2 경우에서는 앰비언트 에너지가 본질적으로 없다.
도 8은 본 발명의 추가적인 실시예들에 따른 인코더/디코더 시스템(800)의 블록도를 도시한다. 인코더/디코더 시스템(800)의 디코더측상에서, 도 1의 장치(100)에 대응할 수 있는 디코더(820)의 실시예가 도시된다. 도 1 실시예와 도 8 실시예의 유사성으로 인해, 이 실시예들에서와 유사한 구현들 및/또는 기능들을 갖는 동일 블록들은 동일 참조번호들로 표시된다. 도 8의 실시예들에서 도시된 바와 같이, 다이렉트/앰비언스 추출기(120)는 복수의 다운믹스 채널들(Ch1…ChM)을 갖는 다운믹스 신호(115)에 대해 동작할 수 있다. 도 8의 다이렉트/앰비언스 추정기(110)는 또한 다운믹스 신호(815)의 적어도 두 개의 다운믹스 채널들(825)을 수신하고, 이로써 멀티채널 오디오 신호(101)의 다이렉트 부분 또는 앰비언트 부분의 레벨 정보(113)가 수신된 적어도 두 개의 다운믹스 채널들(825)에 대한 공간 파라미트릭 정보(105)에도 기초하여 추정되도록 구성될 수 있다(택일적 사항임). 마지막으로, 다이렉트 신호 부분(125-1) 또는 앰비언트 신호 부분(125-2)이 다이렉트/앰비언스 추출기(120)에 의한 추출 이후에 획득될 것이다.
인코더/디코더 시스템(800)의 인코더측상에서는 인코더(810)의 실시예가 도시되며, 이것은 멀티채널 오디오 신호(Ch1…ChN)를 복수의 다운믹스 채널들(Ch1…ChM)을 갖는 다운믹스 신호(115)로 다운믹싱하기 위한 다운믹서(815)를 포함할 수 있으며, 채널들의 갯수는 N개에서 M개로 감소된다. 다운믹서(815)는 또한 멀티채널 오디오 신호(101)로부터 채널간 관계치를 계산함으로써 공간 파라미트릭 정보(105)를 출력하도록 구성될 수 있다. 도 8의 인코더/디코더 시스템(800)에서, 다운믹스 신호(115)와 공간 파라미트릭 정보(105)가 인코더(810)로부터 디코더(820)에 전달될 수 있다. 여기서, 인코더(810)는 인코더측에서부터 디코더측으로의 전달을 위해 다운믹스 신호(115)와 공간 파라미트릭 정보(105)에 기초하여 인코딩된 신호를 유도해낼 수 있다. 게다가, 공간 파라미트릭 정보(105)는 멀티채널 오디오 신호(101)의 채널 정보에 기초한다.
한편, 채널간 관계 파라미터들 σi(Chi, R) 및 ICCi(Chi, R)은 인코더(810)에서 채널(Chi)과 나머지 채널들의 선형 조합(R) 사이에서 계산될 수 있고 인코딩된 신호내에서 전달될 수 있다. 이어서 디코더(820)는 인코딩된 신호를 수신할 수 있고, 전달된 채널간 관계 파라미터들 σi(Chi, R) 및 ICCi(Chi, R)에 대해 작용할 수 있다.
다른 한편, 인코더(810)는 또한 전달될 상이한 채널들의 쌍(Chi, Chj)간의 채널간 코히어런스 파라미터들 ICCi ,j을 계산하도록 구성될 수 있다. 이 경우, 이전에 설명해왔던 대응하는 실시예들이 실현될 수 있도록, 디코더(810)는 전달되어 쌍으로 계산된 ICCi ,j(Chi, Chj) 파라미터들로부터 채널(Chi) 및 나머지 채널들의 선형 조합(R) 사이에서 파라미터들 ICCi(Chi, R)을 유도할 수 있어야 한다. 본 문맥에서 디코더(820)는 다운믹스 신호(115) 단독의 지식으로부터 파라미터들 ICCi(Chi, R)을 재구축할 수 없다는 것을 유념해야 한다.
실시예들에서, 전달된 공간 파라미터들은 쌍방식 채널 비교들만이 있는 것은 아니다.
예를 들어, 대부분의 일반적인 MPS 경우는 두 개의 다운믹스 채널들이 존재하는 것이다. MPS 디코딩에서의 공간 파라미터들의 제1 세트는 두 개의 채널들을 세 개, 즉 중앙, 좌측 및 우측 채널들로 변형시킨다. 이러한 맵핑을 안내하는 파라미터들의 세트는 이러한 2대3 구성에 특정된 중심 예측 계수(center prediction coefficient; CPC) 및 ICC 파라미터라고 불리어진다.
공간 파라미터들의 제2 세트는 각각을 두 개로 분할하는데, 즉 양측면 채널들을 대응하는 전면 및 후면 채널들로 분할하고, 중앙 채널을 중앙 및 Lfe 채널들로 분할한다. 이러한 맵핑은 이전에 도입된 ICC 및 CLD 파라미터들에 대한 것이다.
모든 종류의 다운믹싱 구성들과 모든 종류의 공간 파라미터들에 대해 계산 규칙을 만드는 것은 실용적이지가 않다. 하지만 사실상 다운믹싱 단계들을 따르는 것은 실용적이다. 두 개의 채널들이 어떻게 세 개로 분할되고, 세 개가 어떻게 여섯 개로 분할되는지 알고 있으므로, 결국 두 개의 입력 채널들이 여섯 개의 출력들로 라우팅되는 입력 출력 관계를 찾아냈다. 출력들은 단지 다운믹스 채널들의 선형 조합들 더하기 이 채널들의 비상관된 버전의 선형 조합이다. 실제로 출력 신호를 디코딩하고 이것을 측정할 필요는 없으며, (이것을 "디코딩 행렬"이라고 알고 있으므로) 파라미트릭 도메인에서의 임의의 채널들 또는 채널들의 조합간의 ICC 및 CLD 파라미터들을 계산효율적으로 계산할 수 있다.
다운믹스 및 멀티채널 신호 구성에 상관없이, 디코딩된 신호의 각각의 출력은 다운믹스 신호들의 선형 조합 더하기 이 신호들 각각의 비상관된 버전의 선형 조합이다.
Figure pct00046
이며, 연산자 D[]는 비상관기, 즉 입력 신호의 인코히어런트 복제를 형성하는 공정에 대응한다. 인자 a와 인자 b는 알려진 것인데, 그 이유는 이것들은 파라미트릭 보조 정보로부터 직접 유도될 수 있기 때문이다. 그 이유는 정의에 의해, 파라미트릭 정보가 다운믹스 신호들로부터 멀티채널 출력을 디코더가 어떻게 생성하는지에 대한 가이드이기 때문이다. 모든 비상관된 부분들은 에너제틱/코히어런스 비교를 위해 결합될 수 있기 때문에 위 공식은
Figure pct00047
으로 단순화될 수 있다. 인자 b가 또한 첫번째 공식에서 알려졌기 때문에, D의 에너지는 알려진다.
이러한 관점으로부터, 출력 채널들간, 또는 출력 채널들의 상이한 선형 조합들간의 임의의 종류의 코히어런스 및 에너지 비교를 행할 수 있다는 것을 유념해야 한다. 두 개의 다운믹스 채널들이 있고, 이들의 출력 채널들의 세트, 예컨대, 채널 번호 3과 채널 번호 5가 서로 비교되는 단순 예시의 경우, 시그마는 다음과 같이 계산된다:
Figure pct00048
이며, 여기서 E[]는 기대(실질적으로는, 평균) 연산자이다. 이 항들 양쪽 모두는 다음과 같이 공식화될 수 있다:
Figure pct00049
위의 모든 파라미터들은 알려진 것이거나 또는 다운믹스 신호들로부터 측정가능하다. 교차항들 E[Ch_dmx*D] 은 정의에 의해 제로이였으며 이에 따라 이 항들은 이 공식의 하단 행에서는 존재하지 않는다. 마찬가지로, 코히어런스 공식은
Figure pct00050
이다.
다시, 위 공식의 모든 부분들은 입력들의 선형 조합 더하기 비상관된 신호이기 때문에, 솔루션은 손쉽게 입수가능하다.
위 예시들은 두 개의 출력 채널들의 비교를 갖췄었지만, 마찬가지로 후에 설명될 예시적인 공정에서와 같이, 출력 채널들의 선형 조합들간의 비교를 취할 수 있다.
이전 실시예들을 요약하면, 제시된 기술/개념은 다음의 단계들을 포함할 수 있다:
1. 다운믹스 채널(들)의 갯수보다 높을 수 있는 채널들의 "원래의" 세트의 채널간 관계치들(코히어런스, 레벨)을 검색한다.
2. 채널들의 이 "원래의" 세트에서 앰비언스 에너지와 다이렉트 에너지를 추정한다.
3. 채널들의 이 "원래의" 세트의 앰비언스 에너지와 다이렉트 에너지를 보다 낮은 갯수의 채널들로 다운믹스한다.
4. 이득 인자들 또는 이득 행렬을 적용함으로써 다운믹스된 에너지를 이용하여, 제공된 다운믹스 채널들에서의 다이렉트 및 앰비언스 신호들을 추출한다.
공간 파라미트릭 보조 정보의 이용은 도 2의 실시예에 의해 최상으로 설명되고 요약된다. 도 2 실시예에서는, 파라미트릭 스테레오 스트림을 구비하는데, 이 파라미트릭 스테레오 스트림은 이것이 표현하는 스테레오 사운드의 채널간 차이(코히어런스, 레벨)에 관한 단일 오디오 채널 및 공간 보조 정보를 포함한다. 이제, 채널간 차이들을 알고 있기 때문에, 이 차이들에 위의 스테레오 앰비언스 추정 공식을 적용하여, 원래의 스테레오 채널들의 다이렉트 및 앰비언트 에너지들을 획득할 수 있다. 그런 후, (코히어런트 합산으로) 다이렉트 에너지들을 모두 다 더하고 (인코히어런트 합산으로) 앰비언스 에너지들을 더하기함으로써 채널 에너지들을 "다운믹스"하고 단일 다운믹스 채널의 다이렉트 대 전체 및 앰비언트 대 전체 에너지 비율들을 유도할 수 있다.
도 2를 참조하면, 공간 파라미트릭 정보는 본질적으로 파라미트릭 스테레오 오디오 신호의 좌측 채널(L) 및 우측 채널(R) 각각에 대응하는 채널간 코히어런스(ICCL, ICCR) 및 채널 레벨 차이 파라미터들(CLDL, CLDR)을 포함한다. 여기서, 채널간 코히어런스 파라미터들(ICCL, ICCR)은 동일한 반면에(ICCL = ICCR), 채널 레벨 차이 파라미터들(CLDL, CLDR)은 CLDL = - CLDR으로 관계지어진다는 것을 유념해야 한다. 이에 대응하여, 채널 레벨 차이 파라미터들(CLDL, CLDR)은 일반적으로 파라미터들 σL 및 σR 각각의 데시벨 값들이며, 좌측 채널(L)과 우측 채널(R)에 대한 파라미터들 σL 및 σR은 σL = 1/σR으로 관계지어진다. 이러한 채널간 차이 파라미터들은 스테레오 앰비언스 추정 공식에 기초하여 양쪽 채널들(L, R)에 대한 각각의 다이렉트 대 전체(DTTL, DTTR) 및 앰비언트 대 전체(ATTL, ATTR) 에너지 비율들을 계산하는데 손쉽게 이용될 수 있다. 스테레오 앰비언스 추정 공식에서, 좌측 채널(L)의 다이렉트 대 전체 및 앰비언트 대 전체(DTTL, ATTL) 에너지 비율들은 좌측 채널(L)에 대한 채널간 차이 파라미터들(CLDL, ICCL)에 의존하는 반면에, 우측 채널(R)의 다이렉트 대 전체 및 앰비언트 대 전체(DTTR, ATTR) 에너지 비율들은 우측 채널(R)에 대한 채널간 차이 파라미터들(CLDR, ICCR)에 의존한다. 게다가, 파라미트릭 스테레오 오디오 신호의 양쪽 채널들(L, R)에 대한 에너지들(EL, ER)은 좌측 채널(L)과 우측 채널(R)에 대한 채널 레벨 차이 파라미터들(CLDL, CLDR)에 각각 기초하여 유도될 수 있다. 여기서, 좌측 채널(L)에 대한 에너지(EL)는 좌측 채널(L)에 대한 채널 레벨 차이 파라미터(CLDL)를 모노 다운믹스 신호에 적용하여 획득될 수 있는 반면에, 우측 채널(R)에 대한 에너지(ER)는 우측 채널(R)에 대한 채널 레벨 차이 파라미터(CLDR)를 모노 다운믹스 신호에 적용하여 획득될 수 있다. 그런 후, 양쪽 채널들(L, R)에 대한 에너지들(EL, ER)을 대응하는 DTTL계 파라미터, DTTR계 파라미터, 및 ATTL계 파라미터, ATTR계 파라미터와 곱함으로써, 양쪽 채널들(L, R)에 대한 다이렉트 에너지(EDL, EDR)와 앰비언스 에너지(EAL, EAR)가 획득될 것이다. 그런 후, 양쪽 채널들(L, R)에 대한 다이렉트 에너지들(EDL, EDR)은 코히어런트 다운믹싱 규칙을 이용하여 결합/가산됨으로써 모노 다운믹스 신호의 다이렉트 부분에 대한 다운믹싱된 에너지(ED , mono)가 획득될 수 있는 반면에, 양쪽 채널들(L, R)에 대한 앰비언스 에너지들(EAL, EAR)은 인코히어런트 다운믹싱 규칙을 이용하여 결합/가산됨으로써 모노 다운믹스 신호의 앰비언트 부분에 대한 다운믹싱된 에너지(EA , mono)가 획득될 수 있다. 그런 후, 다이렉트 신호 부분 및 앰비언트 신호 부분에 대한 다운믹싱된 에너지들(ED,mono, EA,mono)을 모노 다운믹스 신호의 전체 에너지(Emono)에 결부시킴으로써, 모노 다운믹스 신호의 다이렉트 대 전체 에너지 비율(DTTmono) 및 앰비언트 대 전체 에너지 비율(ATTmono)이 획득될 것이다. 마지막으로, 이러한 DTTmono 및 ATTmono 에너지 비율들에 기초하여, 다이렉트 신호 부분 또는 앰비언트 신호 부분은 본질적으로 모노 다운믹스 신호로부터 추출될 수 있다.
오디오의 재생시, 헤드폰을 통해 사운드를 재생할 필요가 종종 발생한다. 헤드폰 청취는 확성기 청취 및 또한 임의의 자연스런 사운드 환경에 대해 심하게 상이하게 해주는 특정한 특징을 갖는다. 오디오는 좌우측 귀에 바로 세팅된다. 생산된 오디오 콘텐츠는 일반적으로 확성기 재생을 위해 생산된다. 그러므로, 오디오 신호는 우리의 청각 시스템이 공간 사운드 인식에서 이용하는 특성들 및 큐들을 포함하지 않는다. 이것은 바이노럴 처리가 청각 시스템에 도입되지 않는 경우에 해당되는 사항이다.
기본적으로 바이노럴 처리는, 입력 사운드에서 취해지며 (우리의 청각 시스템이 공간 사운드를 처리하는 방식과 관련하여) 지각적으로 정확한 이러한 인터로럴(inter-aural) 및 모노럴(monaural) 특성들만을 입력 사운드가 포함하도록 입력 사운드를 수정하는 공정이라고 말할 수 있다. 바이노럴 처리는 단순한 작업은 아니며 최신기술에 따른 기존의 솔루션들은 많은 차선책들을 갖는다.
멀티채널 오디오 신호를 헤드폰들을 위한 바이노럴 대응부로 변환시키도록 설계된 미디어 플레이어 및 처리 디바이스와 같은, 음악 및 영화 재생을 위한 바이노럴 처리가 이미 포함되어 있는 많은 수의 응용들이 있다. 일반적인 접근법은 머리관련 전달 함수(head-related transfer function; HRTF)를 이용하여 가상 확성기들을 형성하고 룸 효과(room effect)를 신호에 추가하는 것이다. 이것은, 이론적으로, 특정한 룸안에서 확성기로 청취하는 것과 동등할 수 있다.
하지만, 이 접근법은 청취자들을 지속적으로 만족시키지 않는다는 것을 실전에서는 반복적으로 보여줬다. 이러한 단순한 방법을 갖는 양호한 공간구성은, 음색 또는 팀버(timbre)에서의 바람직하지 않은 변경들, 듣기거북한 룸 효과 인식 및 다이나믹 손실을 갖는 것과 같이, 오디오 퀄리티의 손실을 댓가로 가져오는 절충안이 있는 듯 하다. 추가적인 문제점들은 부정확한 로컬화(예컨대, 인헤드 로컬화, 프론트 백 혼동), 음원들의 공간 거리 부족 및 인터로럴 부정합, 즉 잘못된 인터로럴 큐들로 인한 귀 근처의 청각감지를 포함한다.
상이한 청취자들은 이 문제들을 매우 다르게 판단할 수 있다. 민감도 또한 음악(음색의 관점에서의 엄격한 퀄리티 기준), 영화(덜 엄격함) 및 게임(보다 덜 엄격하지만, 로컬화가 중요함)과 같은, 입력 재료에 따라 달라진다. 또한 일반적으로 콘텐츠에 따라 상이한 설계 목표들이 존재한다.
그러므로, 이하의 설명은 평균적으로 인식된 총체적 퀄리티를 최대화하기 위해 가능한 한 성공적으로 위 문제점들을 극복하는 접근법을 다룬다.
도 9a는 본 발명의 추가적인 실시예들에 따른 바이노럴 다이렉트 사운드 랜더링 디바이스(910)의 개관(900)의 블록도를 도시한다. 도 9a에서 도시된 바와 같이, 바이노럴 다이렉트 사운드 랜더링 디바이스(910)는 제1 바이노럴 출력 신호(915)를 획득하기 위해, 도 1의 실시예에서의 다이렉트/앰비언스 추출기(120)의 출력에서 존재할 수 있는 다이렉트 신호 부분(125-1)을 처리하도록 구성된다. 제1 바이노럴 출력 신호(915)는 L로 표시된 좌측 채널과 R로 표시된 우측 채널을 포함할 수 있다.
여기서, 바이노럴 다이렉트 사운드 랜더링 디바이스(910)는 변환된 다이렉트 신호 부분을 획득하기 위해 머리관련 전달 함수(HRTF)를 통해 다이렉트 신호 부분(125-1)을 제공하도록 구성될 수 있다. 바이노럴 다이렉트 사운드 랜더링 디바이스(910)는 또한 변환된 다이렉트 신호 부분에 룸 효과를 적용하여 최종적으로 제1 바이노럴 출력 신호(915)를 획득하도록 구성될 수 있다.
도 9b는 도 9a의 바이노럴 다이렉트 사운드 랜더링 디바이스(910)의 세부구성(905)의 블록도를 도시한다. 바이노럴 다이렉트 사운드 랜더링 디바이스(910)는 블록(912)에 의해 표시된 "HRTF 변환기"와 블록(914)에 의해 표시된 룸 효과 처리 디바이스(초기 반사의 시뮬레이션 또는 병렬 울림)를 포함할 수 있다. 도 9b에서 도시된 바와 같이, HRTF 변환기(912) 및 룸 효과 처리 디바이스(914)는 머리관련 전달 함수(HRTF)와 룸 효과를 병렬로 적용함으로써 다이렉트 신호 부분(125-1)에 대해 작용될 수 있고, 이로써 제1 바이노럴 출력 신호(915)가 획득될 것이다.
구체적으로, 도 9b를 참조하면, 이러한 룸 효과 처리는 또한 인코히어런트 반향 다이렉트 신호(919)를 제공할 수 있으며, 이 인코히어런트 반향 다이렉트 신호(919)는 후속하는 크로스믹싱 필터(920)에 의해 처리되어 이 신호를 확산음장의 인터로럴 코히어런스에 적응시킬 수 있다. 여기서, 필터(920)와 HRTF 변환기(912)의 결합된 출력은 제1 바이노럴 출력 신호(915)를 구성한다. 추가적인 실시예들에 따르면, 다이렉트 사운드에 대한 룸 효과 처리는 또한 초기 반사의 파라미트릭 표현일 수 있다.
그러므로, 실시예들에서, 룸 효과는 바람직하게 HRTF에 대해 순차적(즉, HRTF를 통해 신호를 제공한 후 룸 효과를 적용하는 것)이 아닌, 병렬로 적용될 수 있다. 구체적으로, 소스로부터 곧바로 전파한 사운드만이 대응하는 HRTF를 거치거나 또는 이에 의해 변환된다. 인다이렉트/반향 사운드는 (HRTF 대신에 코히어런스 제어를 이용함으로써) 귀 주변에 진입하도록 근사화(즉, 통계적 방식으로)될 수 있다. 순차적 구현도 존재할 수 있지만, 병렬적 방법이 선호된다.
도 10a는 본 발명의 추가적인 실시예들에 따른 바이노럴 앰비언스 사운드 랜더링 디바이스(1010)의 개관(1000)의 블록도를 도시한다. 도 10a에서 도시된 바와 같이, 바이노럴 앰비언스 사운드 랜더링 디바이스(1010)는 제2 바이노럴 출력 신호(1015)를 획득하기 위해, 예컨대 도 1의 다이렉트/앰비언스 추출기(120)로부터 출력된 앰비언트 신호 부분(125-2)을 처리하도록 구성될 수 있다. 제2 바이노럴 출력 신호(1015)는 또한 좌측 채널(L)과 우측 채널(R)을 포함할 수 있다.
도 10b는 도 10a의 바이노럴 앰비언트 사운드 랜더링 디바이스(1010)의 세부구성(1005)의 블록도를 도시한다. 도 10b에서는 인코히어런트 반향 앰비언스 신호(1013)가 획득되도록, 바이노럴 앰비언트 사운드 랜더링 디바이스(1010)가 "룸 효과 처리"로 표시된 블록(1012)에 의해 나타난 바와 같이 룸 효과를 앰비언트 신호 부분(125-2)에 적용하도록 구성될 수 있다는 것을 살펴볼 수 있다. 바이노럴 앰비언스 사운드 랜더링 디바이스(1010)는 또한 실제의 확산음장의 인터로럴 코히어런스에 적응된 제2 바이노럴 출력 신호(1015)가 제공되도록, 블록(1014)에 의해 표시된 크로스믹싱 필터와 같은 필터를 적용함으로써 인코히어런트 반향 앰비언스 신호(1013)를 처리하도록 구성될 수 있다. "룸 효과 처리"로 표시된 블록(1012)은 또한 실제의 확산음장의 인터로럴 코히어런스를 직접 생산하도록 구성될 수 있다. 이 경우에서는 블록(1014)은 이용되지 않는다.
추가적인 실시예에 따르면, 바이노럴 앰비언트 사운드 랜더링 디바이스(1010)는 제2 바이노럴 출력 신호(1015)가 실제의 확산음장의 인터로럴 코히어런스에 적응되도록, 제2 바이노럴 출력 신호(1015)를 제공하기 위해 룸 효과 및/또는 필터를 앰비언트 신호 부분(125-2)에 적용하도록 구성된다.
위 실시예들에서, 비상관 및 코히어런스 제어는 두 개의 연속적인 단계들로 수행될 수 있지만, 이것은 요구사항은 아니다. 또한 인코히어런트 신호들의 중간 공식화 없이, 단일 단계 공정으로 동일한 결과를 달성하는 것이 가능하다. 양쪽 방법들은 동일하게 유효하다.
도 11은 멀티채널 입력 오디오 신호(101)의 바이노럴 재생의 실시예(1100)의 개념 블록도를 도시한다. 구체적으로, 도 11의 실시예는 멀티채널 입력 오디오 신호(101)의 바이노럴 재생을 위한 장치를 나타내며, 이 장치는, 제1 컨버터(1110)("주파수 변환"), 분리기(1120)("다이렉트 앰비언스 분리"), 바이노럴 다이렉트 사운드 랜더링 장치(910)("다이렉트 소스 랜더링"), 바이노럴 앰비언스 사운드 랜더링 디바이스(1010)("앰비언트 사운드 랜더링"), '플러스'로 표시된 결합기(1130), 및 제2 컨버터(1140)("역 주파수 변환")을 포함한다. 특히, 제1 컨버터(1110)는 멀티채널 입력 오디오 신호(101)를 스펙트럼 표현(1115)으로 변환시키도록 구성될 수 있다. 분리기(1120)는 스펙트럼 표현(1115)으로부터 다이렉트 신호 부분(125-1) 또는 앰비언트 신호 부분(125-2)을 추출하도록 구성될 수 있다. 여기서, 분리기(1120)는 도 1의 실시예의 다이렉트/앰비언스 추출기(120) 및 다이렉트/앰비언스 추정기(110)를 특히 포함한 도 1의 장치(100)에 대응할 수 있다. 이전에 설명한 바와 같이, 바이노럴 다이렉트 사운드 랜더링 디바이스(910)는 다이렉트 신호 부분(125-1)에 작용하여 제1 바이노럴 출력 신호(915)를 획득할 수 있다. 이에 대응하여, 바이노럴 앰비언트 사운드 랜더링 디바이스(1010)는 앰비언트 신호 부분(125-2)에 작용하여 제2 바이노럴 출력 신호(1015)를 획득할 수 있다. 결합기(1130)는 제1 바이노럴 출력 신호(915)와 제2 바이노럴 출력 신호(1015)를 결합하여 결합된 신호(1135)를 획득하도록 구성될 수 있다. 마지막으로, 제2 컨버터(1140)는 결합된 신호(1135)를 시간 도메인으로 변환시켜서 스테레오 출력 오디오 신호(1150)("헤드폰용 스테레오 출력")를 획득하도록 구성될 수 있다.
도 11 실시예의 주파수 변환 동작은 시스템이 공간 오디오의 지각적 처리에서의 고유의 도메인인 주파수 변환 도메인에서 기능을 한다는 것을 나타낸다. 시스템 그 자체는 주파수 변환 도메인에서 이미 기능을 하는 시스템내 애드 온으로서 이용되는 경우에는 반드시 주파수 변환을 가질 필요는 없다.
위 다이렉트/앰비언스 분리 공정은 두 개의 상이한 부분들로 하위분할될 수 있다. 다이렉트/앰비언스 추정 부분에서, 다이렉트 앰비언트 부분의 레벨들 및/또는 비율들은 오디오 신호의 특성들 및 신호 모델의 조합에 기초하여 추정된다. 다이렉트/앰비언스 추출 부분에서, 알려진 비율들 및 입력 신호가 앰비언스 신호들에서 출력 다이렉트를 생성하는데에 이용될 수 있다.
마지막으로, 도 12는 바이노럴 재생의 이용 경우를 포함한 다이렉트/앰비언스 추정/추출의 실시예(1200)의 전체 블록도를 도시한다. 특히, 도 12의 실시예(1200)는 도 11의 실시예(1100)에 대응할 수 있다. 하지만, 실시예(1200)에서, 도 1 실시예의 블록들(110, 120)에 대응하는 도 11의 분리기(1120)의 세부구성이 도시되며, 이것은 공간 파라미트릭 정보(105)에 기초한 추정/추출 공정을 포함한다. 게다가, 도 11의 실시예(1100)와는 달리, 도 12의 실시예(1200)에서는 상이한 도메인들간의 변환 공정이 도시되고 있지 않다. 실시예(1200)의 블록들은 또한 멀티채널 오디오 신호(101)로부터 유도될 수 있는 다운믹스 신호(115)에 대해 명시적으로 작용을 한다.
도 13a는 필터뱅크 도메인에서의 모노 다운믹스 신호로부터 다이렉트/앰비언트 신호를 추출하기 위한 장치(1300)의 실시예의 블록도를 도시한다. 도 13a에서 도시된 바와 같이, 장치(1300)는 분석 필터뱅크(1310), 다이렉트 부분용 합성 필터뱅크(1320) 및 앰비언트 부분용 합성 필터뱅크(1322)를 포함한다.
특히, 장치(1300)의 분석 필터뱅크(1310)는 단시간 푸리에 변환(short-time Fourier transform; STFT)을 수행하도록 구현될 수 있거나, 또는 예컨대 분석 QMF 필터뱅크로서 구성될 수 있는 반면에, 장치(1300)의 합성 필터뱅크들(1320, 1322)은 역 단시간 푸리에 변환(inverse short-time Fourier transform; ISTFT)을 수행하도록 구현될 수 있거나, 또는 예컨대 합성 QMF 필터뱅크로서 구성될 수 있다.
분석 필터뱅크(1310)는 도 2 실시예에서 도시된 모노 다운믹스 신호(215)에 대응할 수 있는 모노 다운믹스 신호(1315)를 수신하고, 모노 다운믹스 신호(1315)를 복수의 필터뱅크 서브대역들(1311)로 변환시키도록 구성된다. 도 13a에서 살펴볼 수 있는 바와 같이, 복수의 필터뱅크 서브대역들(1311)은 복수의 다이렉트/앰비언스 추출 블록들(1350, 1352)에 각각 연결되고, 복수의 다이렉트/앰비언스 추출 블록들(1350, 1352)은 DTTmono 또는 ATTmono계 파라미터들(1333, 1335)을 필터뱅크 서브대역들에 각각 적용하도록 구성된다.
DTTmono, ATTmono계 파라미터들(1333, 1335)은 도 13b에서 도시된 바와 같이 DTTmono, ATTmono 계산기(1330)로부터 제공될 수 있다. 특히, 도 13b의 DTTmono, ATTmono 계산기(1330)는, 이전에 이에 대응하여 설명했던, 파라미트릭 스테레오 오디오 신호(예컨대, 도 2의 파라미트릭 스테레오 오디오 신호(201))의 좌우 채널들(L, R)에 대응하는 제공된 채널간 코히어런스 및 채널 레벨 차이 파라미터들(ICCL, CLDL, ICCR, CLDR)(105)로부터 DTTmono, ATTmono 에너지 비율을 계산하거나 또는 DTTmono, ATTmono계 파라미터들을 유도하도록 구성될 수 있다. 여기서, 단일 필터뱅크 서브대역의 경우, 대응하는 파라미터들(105) 및 DTTmono, ATTmono계 파라미터들(1333, 1335)이 이용될 수 있다. 이 문맥에서, 이러한 파라미터들은 주파수에 걸쳐 일정하지 않다는 것이 지적되었다.
DTTmono, 또는 ATTmono계 파라미터들(1333, 1335)의 적용의 결과로서, 복수의 수정된 필터뱅크 서브대역들(1353, 1355)이 각각 획득될 것이다. 후속하여, 복수의 수정된 필터뱅크 서브대역들(1353, 1355)은 합성 필터뱅크들(1320, 1322)에 각각 제공되고, 합성 필터뱅크들(1320, 1322)은 모노 다운믹스 신호(1315)의 다이렉트 신호 부분(1325-1) 또는 앰비언트 신호 부분(1325-2)을 각각 획득하기 위해 복수의 수정된 필터뱅크 서브대역들(1353, 1355)을 합성하도록 구성된다. 여기서, 도 13a의 다이렉트 신호 부분(1325-1)은 도 2의 다이렉트 신호 부분(125-1)에 대응할 수 있는 반면에, 도 13a의 앰비언트 신호 부분(1325-2)은 도 2의 앰비언트 신호 부분(125-2)에 대응할 수 있다.
도 13b를 참조하면, 도 13a의 복수의 다이렉트/앰비언스 추출 블록들(1350, 1352)의 다이렉트/앰비언스 추출 블록(1380)은 특히 DTTmono, ATTmono 계산기(1330) 및 승산기(1360)를 포함한다. 승산기(1360)는 복수의 필터뱅크 서브대역들(1311)의 단일 필터뱅크(filterbank; FB) 서브대역(1301)을 대응하는 DTTmono/ATTmono계 파라미터(1333, 1335)와 곱하여, 복수의 필터뱅크 서브대역들(1353, 1355)의 수정된 단일 필터뱅크 서브대역(1365)이 획득되도록 구성될 수 있다. 특히, 다이렉트/앰비언스 추출 블록(1380)은, 블록(1380)이 복수의 블록들(1350)에 속하는 경우에 DTTmono계 파라미터를 적용하도록 구성되는 반면에, 블록(1380)이 복수의 블록들(1352)에 속하는 경우에는 ATTmono계 파라미터를 적용하도록 구성된다. 수정된 단일 필터뱅크 서브대역(1365)은 또한 다이렉트 부분 또는 앰비언트 부분을 위한 각각의 합성 필터뱅크(1320, 1322)에 제공될 수 있다.
실시예들에 따르면, 공간 파라미터들 및 유도된 파라미터들은 인간의 청각 시스템의 임계 대역들, 예컨대 28개 대역들에 따른 주파수 해상도에서 주어지며, 이것은 보통 필터뱅크의 해상도보다 작다.
그러므로, 도 13a 실시예에 따른 다이렉트/앰비언스 추출은 본질적으로 도 3b의 채널간 관계 파라미터들(335)에 대응할 수 있는, 서브대역별로 계산된 채널간 코히어런스 및 채널 레벨 차이 파라미터들에 기초하여 필터뱅크 도메인에서 상이한 서브대역들에 대해 작용한다.
도 14는 본 발명의 추가적인 실시예에 따른 예시적인 MPEG 서라운드 디코딩 기법(1400)의 개략도를 도시한다. 특히, 도 14 실시예는 스테레오 다운믹스(1410)로부터 여섯 개의 출력 채널들(1420)로의 디코딩을 설명한다. 여기서, "res"로 표시된 신호들은 잔여 신호들이며, 이것은 ("D"로 표시된 블록들로부터의) 비상관된 신호들에 대한 택일적인 대체물이다. 도 14 실시예에 따르면, 도 8의 인코더(810)와 같은 인코더로부터 도 8의 디코더(820)와 같은 디코더에 MPS 스트림내에서 전달된 공간 파라미트릭 정보 또는 채널간 관계 파라미터들(ICC, CLD)은 "사전 비상관기 행렬 M1"과 "믹싱 행렬 M2"로 각각 표시된 디코딩 행렬들(1430, 1440)을 생성하는데에 이용될 수 있다. 도 14의 실시예에 특이한 것은 믹싱 행렬 M2(1440)를 이용하는 것에 의해 양측면 채널들(L, R)과 중앙 채널(C)(L, R, C; 1435)로부터의 출력 채널들(1420)(즉, 업믹스 채널들(L, LS, R, RS, C, LFE))의 생성은 본질적으로 공간 파라미트릭 정보(1405)에 의해 결정된다는 것이며, 공간 파라미트릭 정보(1405)는 MPS 서라운드 표준을 따른 특정한 채널간 관계 파라미터들(ICC, CLD)을 포함한 도 1의 공간 파라미트릭 정보(105)에 대응할 수 있다.
여기서, 좌측 채널(L)을 대응하는 출력 채널들(L, LS)로 분할하고, 우측 채널(R)을 대응하는 출력 채널들(R, RS)로 분할하며, 중앙 채널(C)을 대응하는 출력 채널들(C, LFE)로 분할하는 것은 각각 대응하는 ICC, CLD 파라미터들에 대한 각각의 입력을 갖는 일대이(one to two; OTT) 구성에 의해 표현될 수 있다.
구체적으로 "5-2-5 구성"에 대응하는 예시적인 MPEG 서라운드 디코딩 기법(1400)은 예컨대 다음의 단계들을 포함할 수 있다. 첫번째 단계에서, 공간 파라미터들 또는 파라미트릭 보조 정보는 기존의 MPS 서라운드 표준에 따라, 도 14에서 도시된, 디코딩 행렬들(1430, 1440)로 공식화될 수 있다. 두번째 단계에서, 디코딩 행렬들(1430, 1440)은 파라미터 도메인에서 업믹스 채널들(1420)의 채널간 정보를 제공하기 위해 이용될 수 있다. 세번째 단계에서, 이에 따라 제공된 채널간 정보로, 각각의 업믹스 채널의 다이렉트/앰비언스 에너지들이 계산될 수 있다. 네번째 단계에서, 이에 따라 획득된 다이렉트/앰비언스 에너지들은 다운믹스 채널들(1410)의 갯수로 다운믹싱될 수 있다. 다섯번째 단계에서, 다운믹스 채널들(1410)에 적용될 가중치들이 계산될 수 있다.
더 나아가기 전에, 방금 언급한 예시적인 공정은 다운믹스 채널들로부터, 다운믹스 채널들의 평균 전력들인
Figure pct00051
와, 상호 스펙트럼이라고 칭해질 수 있는
Figure pct00052
의 측정치를 필요로 한다는 점을 지적한다. 여기서, 용어 "평균 전력"은 통상적으로 이용하는 용어가 아니므로, 다운믹스 채널들의 평균 전력들을 의도적으로 에너지로서 칭한다.
꺽쇠괄호로 표시된 기대 연산자는 실제 응용에서 회귀적 또는 비회귀적 시평균으로 대체될 수 있다. 에너지 및 상호 스펙트럼은 다운믹스 신호로부터 곧바로 측정가능하다.
또한 두 개의 채널들의 선형 조합의 에너지는 채널들의 에너지들, 믹싱 인자들 및 상호 스펙트럼(모두 파라미트릭 도메인에 있으며, 어떠한 신호 동작들도 필요하지 않다)으로부터 공식화될 수 있다는 것을 유념한다.
선형 조합
Figure pct00053
은 다음의 에너지를 갖는다:
Figure pct00054
다음은 예시적인 공정(즉, 디코딩 기법)의 개별적 단계들을 설명한다.
첫번째 단계( 믹싱 행렬들에 대한 공간 파라미터들)
이전에 설명한 바와 같이, M1 행렬 및 M2 행렬은 MPS 서라운드 표준에 따라 생성된다. M1의 a번째 행, b번째 열 원소는 M1(a,b)이다.
두번째 단계( 업믹싱된 채널들의 채널간 정보에 대한 다운믹스의 에너지들 및 상호 스펙트럼을 갖는 믹싱 행렬들)
이제 믹싱 행렬들 M1 및 M2 를 갖는다. 좌측 다운믹스 채널(Ldmx)과 우측 다운믹스 채널(Rdmx)로부터 어떻게 출력 채널들이 생성되는지를 공식화할 필요가 있다. 비상관기들(도 14의 음영 구역)이 이용된다고 가정한다. MPS 표준에서의 디코딩/업믹싱은 기본적으로 전체 공정에서 총체적 입력 출력 관계에 대한 다음의 공식을 결국 제공한다:
Figure pct00055
위 것은 업믹스된 전방 좌측 채널에 대한 것이다. 나머지 다른 채널들도 이와 동일한 방식으로 공식화될 수 있다. D 원소들은 비상관기들이며, a~e는 M1M2 행렬 엔트리들로부터 계산가능한 가중치들이다.
특히, 인자들 a~e는 행렬 엔트리들로부터 곧바로 공식화될 수 있으며,
Figure pct00056
다른 채널들도 이에 따른다.
S 신호는
Figure pct00057
이다.
이 S 신호는 도 14에서 좌측 행렬로부터의 비상관기들로의 입력들이다. 에너지
Figure pct00058
는 위에서 설명되었던 바와 같이 계산될 수 있다. 비상관기는 에너지에 영향을 미치지 않는다.
멀티채널 앰비언스 추출을 행하기 위한 지각적으로 동기부여된 방식은 채널을 나머지 모든 채널들의 합과 비교하는 것이다. (이것은 많은 것 중의 한가지 옵션이라는 것을 유념한다) 이제, 채널 L의 경우를 예시로서 고려하면, 나머지 채널들은
Figure pct00059
로 표현된다.
"나머지 채널들"에 대해 "R"을 이용하는 것은 혼동될 수 있으므로 여기서는 심볼 "X"를 이용한다.
그러면 채널 L의 에너지는
Figure pct00060
이다.
그러면 채널 X의 에너지는
Figure pct00061
이다.
상호 스펙트럼은
Figure pct00062
이다.
이제 ICC
Figure pct00063
와 시그마
Figure pct00064
를 공식화할 수 있다.
세번째 단계( 업믹싱된 채널들의 DTT 파라미터들에 대한 업믹싱된 채널들에서의 채널간 정보)
이제
Figure pct00065
에 따라 채널 L의 DTT를 계산할 수 있다.
L의 다이렉트 에너지는
Figure pct00066
이다.
L의 앰비언스 에너지는
Figure pct00067
이다.
네번째 단계( 다이렉트 / 앰비언트 에너지들의 다운믹싱 )
예시로서 인코히어런트 다운믹싱 규칙을 이용하면, 좌측 다운믹스 채널 앰비언스 에너지는
Figure pct00068
이고, 다이렉트 부분과 우측 채널 이렉트 및 앰비언트 부분도 이와 마찬가지다. 위의 것은 하나의 다운믹싱 규칙일뿐이라는 것을 유념한다. 다른 다운믹싱 규칙들도 존재할 수 있다.
다섯번째 단계( 다운믹스 채널들에서의 앰비언스 추출에 대한 가중치 계산)
좌측 다운믹스 DTT 비율은
Figure pct00069
이다.
그런 후 가중 인자들은 도 5 실시예에서 설명된 바와 같이(즉, sqrt(DTT) 또는 sqrt(1-DTT) 접근법을 이용하는 것에 의해) 계산될 수 있거나 또는 도 6 실시예에서와 같이(즉, 크로스믹싱 행렬 방법을 이용하는 것에 의해) 계산될 수 있다.
기본적으로, 위에서 설명된 예시적인 공정은 MPS 스트림에서의 CPC, ICC, 및 CLD 파라미터들을 다운믹스 채널들의 앰비언스 비율들에 관련시킨다.
추가적인 실시예들에 따르면, 일반적으로 이와 유사한 목적들을 달성하기 위한 다른 수단들과, 다른 조건들도 존재한다. 예를 들어, 이전에 설명한 것과는 다른 다운믹싱 규칙들, 다른 확성기 레이아웃, 다른 디코딩 방법 및 다른 멀티채널 앰비언스 추정 방법이 존재할 수 있으며, 특정 채널은 나머지 채널들과 비교되어진다.
본 발명은 블록들이 실제의 하드웨어 컴포넌트들 또는 논리적 하드웨어 컴포넌트들을 나타내는 블록도들의 구성으로 설명되었지만, 본 발명은 또한 컴퓨터 구현된 방법에 의해 구현될 수 있다. 후자의 경우, 블록들은 대응하는 방법 단계들을 나타내며, 이러한 단계들은 대응하는 논리적 또는 물리적 하드웨어 블록들에 의해 수행된 기능성들을 대표한다.
상술한 실시예들은 본 발명의 원리들에 대한 일례에 불과하다. 여기서 설명된 구성 및 상세사항의 수정 및 변형은 본 발명분야의 당업자에게 자명할 것으로 이해된다. 그러므로, 본 발명은 첨부된 본 특허 청구항들의 범위에 의해서만 제한이 되며 여기서의 실시예들의 설명 및 해설을 통해 제시된 특정한 세부사항들에 의해서는 제한되지 않는다는 것이 본 취지이다.
본 발명 방법의 일정한 구현 요건에 따라, 본 발명 방법은 하드웨어나 소프트웨어로 구현될 수 있다. 본 구현은, 전자적으로 판독가능한 제어 신호들이 저장되어 있으며 본 발명 방법이 수행되도록 프로그램가능한 컴퓨터 시스템과 협동하는 디지털 저장 매체, 특히, 디스크, DVD, 또는 CD를 이용하여 수행될 수 있다. 일반적으로, 본 발명은 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동될 때 본 발명 방법들을 수행하기 위해 동작되는 프로그램 코드는 머신 판독가능한 캐리어상에 저장된다. 다시 말하면, 본 발명 방법은, 따라서, 컴퓨터 상에서 컴퓨터 프로그램이 구동될 때, 본 발명 방법들 중 적어도 하나의 방법을 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다. 본 발명의 인코딩된 오디오 신호는 디지털 저장 매체와 같은, 임의의 머신 판독가능한 저장 매체상에 저장될 수 있다.
본 신규한 개념 및 기술의 장점은, 앞서 언급한 실시예들, 즉 본 출원에서 설명된 장치, 방법 또는 컴퓨터 프로그램은 파라미트릭 공간 정보의 도움으로 오디오 신호로부터 다이렉트 및/또는 앰비언트 성분들을 추정하고 추출하도록 해준다는 점이다. 특히, 본 발명의 신규한 처리는 주파수 대역들에서 기능을 하는데, 이것은 앰비언스 추출 분야에서는 일반적인 것이다. 제시된 개념은 오디오 신호로부터의 다이렉트 및 앰비언트 성분들의 분리를 필요로 하는 많은 응용들이 있음에 따른 오디오 신호 처리에 관련된 것이다.
종래의 앰비언스 추출 방법과는 달리, 본 개념은 스테레오 입력 신호에만 기초하지 않으며 모노 다운믹스 상황에도 적용될 수 있다. 단일 채널 다운믹스의 경우, 일반적으로 채널간 차이들은 계산될 수 없다. 하지만, 공간 보조 정보를 고려함으로써, 앰비언스 추출은 이 경우에도 가능해진다.
본 발명은 "원래의" 신호의 앰비언스 레벨들을 추정하기 위해 공간 파라미터들을 이용한다는 점에서 이점이 있다. 이것은 공간 파라미터들은 "원래의" 스테레오 또는 멀티채널 신호의 채널간 차이들에 관한 정보를 이미 포함하고 있다는 개념에 기초한다.
원래의 스테레오 또는 멀티채널 앰비언스 레벨들이 추정되면, 제공된 다운믹스 채널(들)에서 다이렉트 및 앰비언스 레벨들을 또한 유도해낼 수 있다. 이것은 앰비언스 부분에 대한 앰비언스 에너지들과, 다이렉트 부분에 대한 다이렉트 에너지들 또는 진폭들의 선형 조합(즉, 가중화된 합산)에 의해 행해질 수 있다. 그러므로, 본 발명의 실시예들은 공간 보조 정보의 도움으로 앰비언스 추정 및 추출을 제공한다.
이러한 보조 정보 기반 처리의 개념으로부터 연장하여, 다음의 유리한 특성들 또는 이점들이 존재한다.
본 발명의 실시예들은 제공된 다운믹스 채널들 및 공간 보조 정보의 도움으로 앰비언스 추정을 제공한다. 이러한 앰비언스 추정은 보조 정보와 더불어 하나 보다 많은 다운믹스 채널이 제공된 경우들에서 중요하다. 보조 정보, 및 다운믹스 채널들로부터 측정된 정보는 앰비언스 추정에서 함께 이용될 수 있다. 스테레오 다운믹스를 갖춘 MPEG 서라운드에서, 이러한 두 개의 정보 소스들은 함께 원래의 멀티채널 사운드의 채널간 관계치들의 완전한 정보를 제공하며, 앰비언스 추정은 이러한 관계치들에 기초한다.
본 발명의 실시예들은 또한 다이렉트 및 앰비언트 에너지들의 다운믹싱을 제공한다. 설명한 보조 정보 기반 앰비언스 추출의 상황에서, 제공된 다운믹스 채널들보다 많은 갯수의 채널들에서의 앰비언스를 추정하는 중간 단계가 존재한다. 그러므로, 이러한 앰비언스 정보는 유효한 방식으로 다운믹스 오디오 채널들의 갯수에 맵핑되어야 한다. 오디오 채널 다운믹싱에 대한 대응성으로 인해 이 공정을 다운믹싱이라고 칭할 수 있다. 이것은 제공된 다운믹스 채널들이 다운믹싱되었던 것과 동일한 방식으로 다이렉트 및 앰비언스 에너지를 결합함으로써 가장 단순하게 행해질 수 있다.
다운믹싱 규칙은 하나의 이상적인 솔루션은 갖지 않지만, 응용에 의존적일 가능성이 높다. 예를 들어, MPEG 서라운드에서, 채널들의 일반적으로 상이한 신호 콘텐츠로 인해 채널들을 상이하게 처리하는 것(중앙, 전방 확성기들, 후방 확성기들)이 유리할 수 있다.
또한, 실시예들은 나머지 다른 채널들과 관련하여 각각의 채널에서 독립적으로 멀티채널 앰비언스 추정을 제공한다. 이러한 특성/접근법은 다른 모든 채널들에 대한 각각의 채널들에 대해 제시된 스테레오 앰비언스 추정 공식을 단순히 이용할 수 있도록 해준다. 이러한 조치에 의해, 모든 채널들에서 동일한 앰비언스 레벨을 가정할 필요가 없게 된다. 제시된 접근법은 각 채널에서의 앰비언트 성분은 다른 모든 채널들 중의 몇몇 채널들에서의 인코히어런트 대응부를 갖는 앰비언트 성분이라는 공간적 인지에 관한 가정에 기초한다. 이러한 가정의 유효성을 제안하는 예시는 인지된 사운드 장면에 상당히 영향을 주지 않고서, 노이즈(앰비언스)를 방출하는 두 개의 채널들 중 하나의 채널이 에너지를 각각 절반씩 갖는 두 개의 채널들로 더욱 분할될 수 있다는 것이다.
신호 처리 관점에서, 실제의 다이렉트/앰비언스 비율 추정은 제시된 앰비언스 추정 공식을 각각의 채널 대비 나머지 다른 모든 채널들의 선형 조합에 적용함으로써 발생하는 것이 유리하다.
마지막으로, 실시예들은 실제의 신호들을 추출하기 위해 추정된 다이렉트 앰비언스 에너지들의 인가를 제공한다. 다운믹스 채널들에서 앰비언스 레벨들이 알려지면, 앰비언스 신호들을 획득하기 위한 두 개의 발명 방법을 적용할 수 있다. 제1 방법은 단순 곱셈에 기초한 것이며, 여기서 각 다운믹스 채널에 대한 다이렉트 및 앰비언트 부분들은 신호를 sqrt(다이렉트 대 전체 에너지 비율)와 sqrt(앰비언트 대 전체 에너지 비율)로 곱함으로써 생성될 수 있다. 이것은 각각의 다운믹스 채널마다 서로에 대해 코히어런트한 두 개의 신호들을 제공하지만, 다이렉트 부 분과 앰비언트 부분이 갖는 것으로 추정되었던 에너지를 갖는다.
제2 방법은 채널들의 크로스믹싱을 갖는 최소 제곱 평균 솔루션에 기초한 것이며, 여기서 채널 크로스믹싱(또한 네거티브 부호를 갖는 것도 가능함)은 위 솔루션보다 나은 다이렉트 앰비언스 신호들의 추정을 가능하게 해준다. 씨 폴러(C. Faller)의 "스테레오 신호의 다중 확성기 스피커 재생(Multiple-loudspeaker playback of stereo signals)"(AES 저널지, 2007년 10월); 및 "특허출원명칭: 스테레오 신호로부터 멀티채널 오디오 신호를 생성하는 방법(Method to Generate Multi-Channel Audio Signal from Stereo Signals)"(발명자들: 크리스토프 폴러(Christof Faller), 에이전트: FISH & RICHARDSON P.C., 양수인들: LG ELECTRONICS, INC., 출처: MINNEAPOLIS, MN US, IPC8 Class: AH04R500FI, USPC Class: 381 1)에서 제공된 채널들에서의 스테레오 입력 및 동일한 앰비언트 레벨들에 대한 최소 평균 솔루션과 대비되어, 본 발명은 동일한 앰비언스 레벨들을 필요로 하지 않는 최소 제곱 평균 솔루션을 제공하며 또한 임의의 갯수의 채널들로 확장가능하다.
신규한 처리의 추가적인 특성들은 다음과 같다. 바이노럴 랜더링을 위한 앰비언스 처리에서, 앰비언스는 실제의 확산음장에서의 인터로럴 코히어런스와 유사한 주파수 대역들에서의 인터로럴 코히어런스를 제공하는 특성을 갖는 필터로 처리될 수 있으며, 이 필터는 또한 룸 효과를 포함할 수 있다. 바이노럴 랜더링을 위한 다이렉트 부분 처리에서, 다이렉트 부분은 초기 반사 및/또는 반향과 같이, 잠재적인 룸 효과의 추가를 갖는 머리관련 전달 함수(HRTF)를 통해 제공될 수 있다.
이것 이외에도, 추가적인 실시예들에서는 건식/습식 제어에 대응하는 "분리 레벨" 제어가 실현될 수 있다. 특히, 완전 분리는 급격한 변동, 변조 효과 등과 같은, 청각적 인공물을 야기시킬 수 있기 때문에, 많은 응용들에서 완전 분리는 바람직하지 않을 수 있다. 그러므로, 설명된 공정들의 모든 관련 부분들은 희망하고 유용한 분리의 양을 제어하기 위한 "분리 레벨" 제어로 구현될 수 있다. 도 11을 참조하면, 이러한 분리 레벨 제어는 다이렉트/앰비언스 분리(1120) 및/또는 바이노럴 랜더링 디바이스들(910, 1010) 각각을 제어하기 위해 점선 박스의 제어 입력(1105)에 의해 표시된다. 이러한 제어는 오디오 효과 처리에서의 건식/습식 제어와 유사하게 동작할 수 있다.
제시된 솔루션의 주요 이점들은 다음과 같다. 본 시스템은, 다운믹스 정보에만 의존하는 이전의 솔루션들과는 달리, 모노 다운믹스를 갖는 파라미트릭 스테레오 및 MPEG 서라운드와도 함께, 모든 상황들에서 동작한다. 본 시스템은 또한 공간 오디오 비트스트림들에서 오디오 신호와 함께 운송되는 공간 보조 정보를 이용하여, 다운믹스 채널들의 단순한 채널간 분석을 통한 것 보다 정확하게 다이렉트 및 앰비언스 에너지들을 추정할 수 있다. 그러므로, 바이노럴 처리와 같은 많은 응용들은 사운드의 다이렉트 및 앰비언트 부분들에 대해 상이한 처리를 적용함으로써 유리할 수 있다.
실시예들은 아래의 심리음향 가정에 기초한다. 인간의 청각 시스템은 시간주파수 타일들(일정한 주파수와 시간 범위로 제한된 영역들)에서의 인터로럴 큐들에 기초하여 소스들을 로컬화한다. 시간 및 주파수에서 중첩하는 두 개 이상의 인코히어런트 동시적 소스들이 상이한 위치들에서 동시적으로 제공되면, 청각 시스템은 소스들의 위치를 인지할 수 없다. 이것은 이러한 소스들의 합이 청취자에 대한 신뢰적인 인터로럴 큐들을 생성하지 않기 때문이다. 따라서 청각 시스템은 신뢰적인 로컬화 정보를 제공하는 폐쇄된 시간 주파수 타일들을 오디오 장면으로부터 픽업하고, 나머지들을 로컬화불가능한 것으로서 처리하도록 기술될 수 있다. 이러한 수단들에 의해 청각 시스템은 복잡한 사운드 환경들에서 소스들을 로컬화할 수 있다. 동시적인 코히어런트 소스들은 상이한 효과를 가지며, 이 소스들은 코히어런트 소스들 사이에 단일 소스가 형성될 동일한 인터로럴 큐들을 대략 형성한다.
이것은 또한 실시예들이 이용하는 특성이다. 로컬화가능(다이렉트) 및 로컬화불가능(앰비언스) 사운드의 레벨은 추정될 수 있고 그런 후 이 성분들은 추출될 것이다. 공간구성 신호 처리는 로컬화가능/다이렉트 부분에만 적용되는 반면에, 발산/광역화/엔벨로프 처리는 로컬화불가능/앰비언트 부분에 적용된다. 이것은 바이노럴 처리 시스템의 설계에서 상당한 이점을 가져다 주는데, 그 이유는 해당 처리들을 필요로 하는 곳에만 많은 처리들이 적용될 수 있고, 나머지 신호는 영향받지 않은 상태로 남겨두기 때문이다. 모든 처리는 인간의 청취 주파수 해상도에 가까운 주파수 대역들에서 일어난다.
실시예들은 지각적 퀄리티를 최대화하되 지각된 문제들은 최소화하도록 하는 신호의 분해에 기초한다. 이러한 분해에 의해, 오디오 신호의 다이렉트 성분과 앰비언스 성분을 개별적으로 획득하는 것이 가능하다. 그런 후 두 개의 성분들은 희망하는 효과 또는 표현을 달성하도록 추가로 처리될 수 있다.
구체적으로, 본 발명의 실시예들은 코딩된 도메인에서의 공간 보조 정보의 도움으로 앰비언스 추정을 가능하게 해준다.
본 발명은 또한 오디오 신호들을 다이렉트 및 앰비언트 신호로 분리시킴으로써 오디오 신호들의 헤드폰 재생의 전형적인 문제점들은 감소될 수 있다는 점에서 유리하다. 실시예들은 기존의 다이렉트/앰비언스 추출 방법들을 개선시켜서 해드폰 재생을 위한 바이노럴 사운드 랜더링에 적용될 수 있도록 해준다.
공간 보조 정보 기반 처리의 주요 이용 경우는 당연히 MPEG 서라운드 및 파라미트릭 스테레오(및 이와 유사한 파라미트릭 코딩 기술들)이다. 앰비언스 추출로부터 이익을 얻는 일반적인 응용들은 상이한 정도의 룸 효과를 사운드의 상이한 부분들에 적용하는 능력에 기인한 바이노럴 재생과, 사운드의 상이한 성분들을 위치확인하고 상이하게 처리하는 능력에 기인한 보다 많은 갯수의 채널들로의 업믹싱이다. 또한 사용자가 예컨대 통화 이해도를 증대시킬 목적으로, 다이렉트/앰비언스 레벨의 수정을 필요로 하는 응용들이 존재할 수 있다.

Claims (16)

  1. 다운믹스 신호(115)와 공간 파라미트릭 정보(105)로부터 다이렉트(direct) 및/또는 앰비언스(ambience) 신호(125-1, 125-2)를 추출하기 위한 장치(100)로서, 상기 다운믹스 신호(115)와 상기 공간 파라미트릭 정보(105)는 상기 다운믹스 신호(115) 보다 많은 채널들(Ch1…ChN)을 갖는 멀티채널 오디오 신호(101)를 표현하며, 상기 공간 파라미트릭 정보(105)는 상기 멀티채널 오디오 신호(101)의 채널간 관계치들을 포함하며, 상기 장치(100)는,
    상기 공간 파라미트릭 정보(105)에 기초하여 상기 멀티채널 오디오 신호(101)의 다이렉트 부분 및/또는 앰비언트 부분의 레벨 정보(113)를 추정하기 위한 다이렉트/앰비언스 추정기(110); 및
    상기 다이렉트 부분 또는 상기 앰비언트 부분의 추정된 레벨 정보(113)에 기초하여 상기 다운믹스 신호(115)로부터 다이렉트 신호 부분(125-1) 및/또는 앰비언트 신호 부분(125-2)을 추출하기 위한 다이렉트/앰비언스 추출기(120)
    를 포함한, 다이렉트 및/또는 앰비언스 신호 추출 장치.
  2. 제1항에 있어서, 상기 다이렉트/앰비언스 추출기(420)는 상기 다이렉트 부분 또는 상기 앰비언트 부분의 추정된 레벨 정보(113)를 다운믹싱하여 상기 다이렉트 부분 또는 상기 앰비언트 부분의 다운믹싱된 레벨 정보를 획득하고 상기 다운믹싱된 레벨 정보에 기초하여 상기 다운믹스 신호(115)로부터 상기 다이렉트 신호 부분(125-1) 또는 상기 앰비언트 신호 부분(125-2)을 추출하도록 구성된 것인, 다이렉트 및/또는 앰비언스 신호 추출 장치.
  3. 제2항에 있어서, 상기 다이렉트/앰비언스 추출기(420)는 또한 상기 다이렉트 부분의 추정된 레벨 정보를 코히어런트 합산과 결합하고 상기 앰비언트 부분의 추정된 레벨 정보를 인코히어런트 합산과 결합함으로써 상기 다이렉트 부분 또는 상기 앰비언트 부분의 추정된 레벨 정보(113)의 다운믹스를 수행하도록 구성된 것인, 다이렉트 및/또는 앰비언스 신호 추출 장치.
  4. 제2항 또는 제3항에 있어서, 상기 다이렉트/앰비언스 추출기(520)는 또한 상기 다이렉트 부분 또는 상기 앰비언트 부분의 다운믹싱된 레벨 정보(555-1, 555-2)로부터 이득 파라미터들(565-1, 565-2)을 유도해내고, 이 유도해낸 이득 파라미터들(565-1, 565-2)을 상기 다운믹스 신호(115)에 적용하여 상기 다이렉트 신호 부분(125-1) 또는 상기 앰비언트 신호 부분(125-2)을 획득하도록 구성된 것인, 다이렉트 및/또는 앰비언스 신호 추출 장치.
  5. 제4항에 있어서, 상기 다이렉트/앰비언스 추출기(520)는 상기 다이렉트 부분 또는 상기 앰비언트 부분의 상기 다운믹스된 레벨 정보(555-1, 555-2)로부터 다이렉트 대 전체(direct to total; DTT) 또는 앰비언트 대 전체(ambient to total; ATT) 에너지 비율을 결정하고 결정된 DTT 또는 ATT 에너지 비율에 기초한 추출 파라미터들을 상기 이득 파라미터들(565-1, 565-2)로서 이용하도록 구성된 것인, 다이렉트 및/또는 앰비언스 신호 추출 장치.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 다이렉트/앰비언스 추출기(520)는 2차 M×M 추출 행렬을 상기 다운믹스 신호(115)에 적용하여 상기 다이렉트 신호 부분(125-1) 또는 상기 앰비언트 신호 부분(125-2)을 추출하도록 구성되며, 상기 2차 M×M 추출 행렬의 크기(M)는 다운믹스 채널들(Ch1…ChM)의 갯수(M)에 대응한 것인, 다이렉트 및/또는 앰비언스 신호 추출 장치.
  7. 제6항에 있어서, 상기 다이렉트/앰비언스 추출기(520)는 또한 복수의 제1 추출 파라미터들을 상기 다운믹스 신호(115)에 적용하여 상기 다이렉트 신호 부분(125-1)을 획득하고, 복수의 제2 추출 파라미터들을 상기 다운믹스 신호(115)에 적용하여 상기 앰비언트 신호 부분(125-2)을 획득하도록 구성되며, 상기 복수의 제1 추출 파라미터들과 상기 복수의 제2 추출 파라미터들은 대각 행렬을 구성하는 것인, 다이렉트 및/또는 앰비언스 신호 추출 장치.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 다이렉트/앰비언스 추정기(110)는 상기 다이렉트/앰비언스 추정기(110)에 의해 수신된 상기 다운믹스 신호(115)의 적어도 두 개의 다운믹스 채널들(825)과 상기 공간 파라미트릭 정보(113)에 기초하여 상기 멀티채널 오디오 신호(101)의 상기 다이렉트 부분 또는 상기 앰비언트 부분의 상기 레벨 정보(113)를 추정하도록 구성된 것인, 다이렉트 및/또는 앰비언스 신호 추출 장치.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서, 상기 다이렉트/앰비언스 추정기(710)는 상기 멀티채널 오디오 신호(101)의 각각의 채널(Chi)에 대한 상기 공간 파라미트릭 정보(105)를 이용하여 스테레오 앰비언스 추정 공식을 적용하도록 구성되고, 상기 스테레오 앰비언스 추정 공식은 상기 채널(Chi)의 채널간 코히어런스(ICCi) 파라미터와, σi의 데시벨 값인 채널 레벨 차이(CLDi)에 의존하여
    Figure pct00070

    에 의해 주어지며, R은 나머지 채널들의 선형 조합인 것인, 다이렉트 및/또는 앰비언스 신호 추출 장치.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 다이렉트/앰비언스 추출기(620)는 채널 크로스믹싱을 갖는 LMS(least mean square) 솔루션에 의해 상기 다이렉트 신호 부분(125-1) 또는 상기 앰비언트 신호 부분(125-2)을 추출하도록 구성되며, 상기 LMS 솔루션은 동일한 앰비언스 레벨들을 필요로 하지 않는 것인, 다이렉트 및/또는 앰비언스 신호 추출 장치.
  11. 제9항에 있어서, 상기 다이렉트/앰비언스 추출기(620)는 상기 LMS 솔루션이 스테레오 채널 다운믹스 신호로 국한되지 않도록, 신호 모델을 가정함으로써 상기 LMS 솔루션을 유도해내도록 구성된 것인, 다이렉트 및/또는 앰비언스 신호 추출 장치.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서,
    상기 다이렉트 신호 부분(125-1)을 처리하여 제1 바이노럴(binaural) 출력 신호(915)를 획득하기 위한 바이노럴 다이렉트 사운드 랜더링 디바이스(910);
    상기 앰비언트 신호 부분(125-2)을 처리하여 제2 바이노럴 출력 신호(1015)를 획득하기 위한 바이노럴 앰비언트 사운드 랜더링 디바이스(1010); 및
    상기 제1 바이노럴 출력 신호(915)와 상기 제2 바이노럴 출력 신호(1015)를 결합하여 결합된 바이노럴 출력 신호(1135)를 획득하기 위한 결합기(1130)
    를 더 포함한, 다이렉트 및/또는 앰비언스 신호 추출 장치.
  13. 제12항에 있어서, 상기 바이노럴 앰비언트 사운드 랜더링 디바이스(1010)는 상기 제2 바이노럴 출력 신호(1015)를 제공하기 위해 룸 효과 및/또는 필터를 상기 앰비언트 신호 부분(125-2)에 적용하도록 구성되고, 상기 제2 바이노럴 출력 신호(1015)는 실제의 확산음장의 인터로럴(inter-aural) 코히어런스에 적응된 것인, 다이렉트 및/또는 앰비언스 신호 추출 장치.
  14. 제12항 또는 제13항에 있어서, 상기 바이노럴 다이렉트 사운드 랜더링 디바이스(910)는 제1 바이노럴 출력 신호(915)를 획득하기 위해 머리관련 전달 함수(head-related transfer function; HRTF)에 기초한 필터를 통해 상기 다이렉트 신호 부분(125-1)을 제공하도록 구성된 것인, 다이렉트 및/또는 앰비언스 신호 추출 장치.
  15. 다운믹스 신호(115)와 공간 파라미트릭 정보(105)로부터 다이렉트(direct) 및/또는 앰비언스(ambience) 신호(125-1, 125-2)를 추출하기 위한 방법(100)으로서, 상기 다운믹스 신호(115)와 상기 공간 파라미트릭 정보(105)는 상기 다운믹스 신호(115) 보다 많은 채널들(Ch1…ChN)을 갖는 멀티채널 오디오 신호(101)를 표현하며, 상기 공간 파라미트릭 정보(105)는 상기 멀티채널 오디오 신호(101)의 채널간 관계치들을 포함하며, 상기 방법(100)은,
    상기 공간 파라미트릭 정보(105)에 기초하여 상기 멀티채널 오디오 신호(101)의 다이렉트 부분 및/또는 앰비언트 부분의 레벨 정보(113)를 추정하는 단계(110); 및
    상기 다이렉트 부분 또는 상기 앰비언트 부분의 추정된 레벨 정보(113)에 기초하여 상기 다운믹스 신호(115)로부터 다이렉트 신호 부분(125-1) 및/또는 앰비언트 신호 부분(125-2)을 추출하는 단계(120)
    를 포함한, 다이렉트 및/또는 앰비언스 신호 추출 방법.
  16. 컴퓨터 프로그램이 컴퓨터상에서 실행될 때 제15항의 방법(100)을 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램.
KR1020127021317A 2010-01-15 2011-01-11 다운믹스 신호 및 공간 파라메트릭 정보로부터 다이렉트/앰비언스 신호를 추출하기 위한 장치 및 방법 KR101491890B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US29527810P 2010-01-15 2010-01-15
US61/295,278 2010-01-15
EP10174230.2 2010-08-26
EP10174230A EP2360681A1 (en) 2010-01-15 2010-08-26 Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
PCT/EP2011/050265 WO2011086060A1 (en) 2010-01-15 2011-01-11 Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information

Publications (2)

Publication Number Publication Date
KR20120109627A true KR20120109627A (ko) 2012-10-08
KR101491890B1 KR101491890B1 (ko) 2015-02-09

Family

ID=43536672

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127021317A KR101491890B1 (ko) 2010-01-15 2011-01-11 다운믹스 신호 및 공간 파라메트릭 정보로부터 다이렉트/앰비언스 신호를 추출하기 위한 장치 및 방법

Country Status (14)

Country Link
US (1) US9093063B2 (ko)
EP (2) EP2360681A1 (ko)
JP (1) JP5820820B2 (ko)
KR (1) KR101491890B1 (ko)
CN (1) CN102804264B (ko)
AR (1) AR079998A1 (ko)
AU (1) AU2011206670B2 (ko)
BR (1) BR112012017551B1 (ko)
CA (1) CA2786943C (ko)
ES (1) ES2587196T3 (ko)
MX (1) MX2012008119A (ko)
RU (1) RU2568926C2 (ko)
TW (1) TWI459376B (ko)
WO (1) WO2011086060A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170128368A (ko) * 2015-03-27 2017-11-22 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 전방 라우드 스피커에 의해 개별 입체 사운드를 달성하기 위해서 자동차의 재생용 스테레오 신호를 처리하는 장치 및 방법

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011083979A2 (en) 2010-01-06 2011-07-14 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
TWI759223B (zh) * 2010-12-03 2022-03-21 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
US9253574B2 (en) 2011-09-13 2016-02-02 Dts, Inc. Direct-diffuse decomposition
CN103890841B (zh) * 2011-11-01 2017-10-17 皇家飞利浦有限公司 音频对象编码和解码
US20150243289A1 (en) * 2012-09-14 2015-08-27 Dolby Laboratories Licensing Corporation Multi-Channel Audio Content Analysis Based Upmix Detection
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
US9830917B2 (en) 2013-02-14 2017-11-28 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
WO2014126689A1 (en) * 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for controlling the inter-channel coherence of upmixed audio signals
KR101859453B1 (ko) * 2013-03-29 2018-05-21 삼성전자주식회사 오디오 장치 및 이의 오디오 제공 방법
CN108810793B (zh) 2013-04-19 2020-12-15 韩国电子通信研究院 多信道音频信号处理装置及方法
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
EP2804176A1 (en) 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
CN104240711B (zh) * 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
RU2639952C2 (ru) * 2013-08-28 2017-12-25 Долби Лабораторис Лайсэнзин Корпорейшн Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием
BR112016008426B1 (pt) 2013-10-21 2022-09-27 Dolby International Ab Método para reconstrução de uma pluralidade de sinais de áudio, sistema de decodificação de áudio, método para codificação de uma pluralidade de sinais de áudio, sistema de codificação de áudio, e mídia legível por computador
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
CN109040946B (zh) 2013-10-31 2021-09-14 杜比实验室特许公司 使用元数据处理的耳机的双耳呈现
CN103700372B (zh) * 2013-12-30 2016-10-05 北京大学 一种基于正交解相关技术的参数立体声编码、解码方法
EP2892250A1 (en) * 2014-01-07 2015-07-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of audio channels
WO2016066743A1 (en) 2014-10-31 2016-05-06 Dolby International Ab Parametric encoding and decoding of multichannel audio signals
WO2017035281A2 (en) 2015-08-25 2017-03-02 Dolby International Ab Audio encoding and decoding using presentation transform parameters
CN105405445B (zh) * 2015-12-10 2019-03-22 北京大学 一种基于声道间传递函数的参数立体声编码、解码方法
KR102063307B1 (ko) 2016-03-15 2020-01-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 음장 기술을 생성하기 위한 장치, 방법, 또는 컴퓨터 프로그램
GB2549532A (en) * 2016-04-22 2017-10-25 Nokia Technologies Oy Merging audio signals with spatial metadata
JP6846822B2 (ja) * 2016-04-27 2021-03-24 国立大学法人富山大学 オーディオ信号処理装置、オーディオ信号処理方法、およびオーディオ信号処理プログラム
US9913061B1 (en) 2016-08-29 2018-03-06 The Directv Group, Inc. Methods and systems for rendering binaural audio content
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
CN109427337B (zh) * 2017-08-23 2021-03-30 华为技术有限公司 立体声信号编码时重建信号的方法和装置
US10306391B1 (en) 2017-12-18 2019-05-28 Apple Inc. Stereophonic to monophonic down-mixing
WO2020009350A1 (ko) * 2018-07-02 2020-01-09 엘지전자 주식회사 오클루션 이펙트에 관한 오디오 데이터를 송수신하는 방법 및 그 장치
WO2020008112A1 (en) * 2018-07-03 2020-01-09 Nokia Technologies Oy Energy-ratio signalling and synthesis
EP3618464A1 (en) * 2018-08-30 2020-03-04 Nokia Technologies Oy Reproduction of parametric spatial audio using a soundbar
CN109036455B (zh) * 2018-09-17 2020-11-06 中科上声(苏州)电子有限公司 直达声与背景声提取方法、扬声器系统及其声重放方法
GB2578603A (en) * 2018-10-31 2020-05-20 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
CN112997248A (zh) 2018-10-31 2021-06-18 诺基亚技术有限公司 确定空间音频参数的编码和相关联解码
CN114402631B (zh) * 2019-05-15 2024-05-31 苹果公司 用于回放捕获的声音的方法和电子设备
WO2024081957A1 (en) * 2022-10-14 2024-04-18 Virtuel Works Llc Binaural externalization processing

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL129752A (en) * 1999-05-04 2003-01-12 Eci Telecom Ltd Telecommunication method and system for using same
CN1144224C (zh) * 2000-02-14 2004-03-31 王幼庚 耳前声波记录生成空间声信号的方法
US7567845B1 (en) 2002-06-04 2009-07-28 Creative Technology Ltd Ambience generation for stereo signals
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
EP1761110A1 (en) 2005-09-02 2007-03-07 Ecole Polytechnique Fédérale de Lausanne Method to generate multi-channel audio signals from stereo signals
CN101406073B (zh) * 2006-03-28 2013-01-09 弗劳恩霍夫应用研究促进协会 用于多声道音频重构中的信号成形的增强的方法
US8103005B2 (en) 2008-02-04 2012-01-24 Creative Technology Ltd Primary-ambient decomposition of stereo audio signals using a complex similarity index
MX2011006186A (es) * 2008-12-11 2011-08-04 Ten Forschung Ev Fraunhofer Aparato para generar una señal de audio multicanal.

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170128368A (ko) * 2015-03-27 2017-11-22 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 전방 라우드 스피커에 의해 개별 입체 사운드를 달성하기 위해서 자동차의 재생용 스테레오 신호를 처리하는 장치 및 방법

Also Published As

Publication number Publication date
WO2011086060A1 (en) 2011-07-21
AR079998A1 (es) 2012-03-07
JP5820820B2 (ja) 2015-11-24
MX2012008119A (es) 2012-10-09
RU2012136027A (ru) 2014-02-20
TW201142825A (en) 2011-12-01
RU2568926C2 (ru) 2015-11-20
US20120314876A1 (en) 2012-12-13
BR112012017551B1 (pt) 2020-12-15
KR101491890B1 (ko) 2015-02-09
US9093063B2 (en) 2015-07-28
TWI459376B (zh) 2014-11-01
AU2011206670A1 (en) 2012-08-09
ES2587196T3 (es) 2016-10-21
EP2360681A1 (en) 2011-08-24
CN102804264A (zh) 2012-11-28
CA2786943C (en) 2017-11-07
BR112012017551A2 (pt) 2017-10-03
JP2013517518A (ja) 2013-05-16
CN102804264B (zh) 2016-03-09
CA2786943A1 (en) 2011-07-21
EP2524370B1 (en) 2016-07-27
EP2524370A1 (en) 2012-11-21
AU2011206670B2 (en) 2014-01-23

Similar Documents

Publication Publication Date Title
KR101491890B1 (ko) 다운믹스 신호 및 공간 파라메트릭 정보로부터 다이렉트/앰비언스 신호를 추출하기 위한 장치 및 방법
TWI396188B (zh) 依聆聽事件之函數控制空間音訊編碼參數的技術
US9449603B2 (en) Multi-channel audio encoder and method for encoding a multi-channel audio signal
JP5133401B2 (ja) 出力信号の合成装置及び合成方法
JP5081838B2 (ja) オーディオ符号化及び復号
US8265284B2 (en) Method and apparatus for generating a binaural audio signal
US8488797B2 (en) Method and an apparatus for decoding an audio signal
KR101058047B1 (ko) 스테레오 신호 생성 방법
PT2372701E (pt) Codificação aprimorada e representação de parâmetros de codificação de objeto de downmix multicanal
He Spatial audio reproduction with primary ambient extraction
GB2485979A (en) Spatial audio coding
JP2023166560A (ja) バイノーラル・ダイアログ向上
He et al. Literature review on spatial audio
CA3137446A1 (en) Apparatus, method or computer program for generating an output downmix representation
Faller Spatial audio coding and MPEG surround

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190129

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20200128

Year of fee payment: 6