KR20070086849A - 외부에서 제공되는 다운믹스와의 공간 오디오의 파라메트릭코딩의 동기화 - Google Patents

외부에서 제공되는 다운믹스와의 공간 오디오의 파라메트릭코딩의 동기화 Download PDF

Info

Publication number
KR20070086849A
KR20070086849A KR1020077015054A KR20077015054A KR20070086849A KR 20070086849 A KR20070086849 A KR 20070086849A KR 1020077015054 A KR1020077015054 A KR 1020077015054A KR 20077015054 A KR20077015054 A KR 20077015054A KR 20070086849 A KR20070086849 A KR 20070086849A
Authority
KR
South Korea
Prior art keywords
channel
externally provided
channels
audio
cue codes
Prior art date
Application number
KR1020077015054A
Other languages
English (en)
Other versions
KR101236259B1 (ko
Inventor
크리스토프 폴러
Original Assignee
에이저 시스템즈 인크
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에이저 시스템즈 인크 filed Critical 에이저 시스템즈 인크
Publication of KR20070086849A publication Critical patent/KR20070086849A/ko
Application granted granted Critical
Publication of KR101236259B1 publication Critical patent/KR101236259B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명의 실시예들은 자동적으로 다운믹싱된 오디오 신호 대신에, 외부에서 제공되는 오디오 신호(예를 들어, 스튜디오 엔지니어링 오디오 신호)가 도출된 큐 코드들과 함께 수신기로 송신되는 바이노럴 큐 코딩(BCC)에 관한 것이다. 큐 코드들은 외부에서 제공되는 오디오 신호와 (적응 가능하게) 동기화되어, 큐 코드를 생성하는데 사용되는 다-채널 신호 및 외부에서 다운믹싱된 오디오 신호 사이의 타임 래그들(및 이러한 타임 래그들의 변화들)을 보상한다. 수신기가 레거시 수신기인 경우, 스튜디오 엔지니어링된 오디오 신호는 전형적으로 자동적으로 다운믹싱된 오디오 신호에 의해 제공되는 것보다 더 높은 품질의 재생을 제공할 것이다. 수신기가 BCC-케이퍼블 수신기인 경우, 외부에서 제공되는 오디오 신호의 동기화가 합성된 재생의 품질을 개선시킬 것이다.
오디오 신호, 바이노럴 큐 코딩(BCC), 큐 코드, 다-채널 신호, 타임 래그

Description

외부에서 제공되는 다운믹스와의 공간 오디오의 파라메트릭 코딩의 동기화{Synchronizing parametric coding of spatial audio with externally provided downmix}
관련 출원들과의 상호-참조
본 출원은 본원에 참조되어 있는 대리인 문서 번호 Faller 20으로서 2004년 11월 30일자로 출원된 미국 가출원 번호 제60/631,917호의 출원일의 권익을 청구한다.
본 출원의 주제는 그 내용이 본원에 참조되어 있는 다음 미국 출원의 주제와 관련된다.
o 대리인 문서 번호 Faller 5로서 2001년 5월 4일자로 출원된 미국 출원 일련 번호 제09/848,877호;
o 2001년 8월 10일자로 출원된 미국 가출원 번호 60/311,565의 출원일의 권익을 청구한 대리인 문서 번호 Baumgarte 1-6-8로서 2001년 7월 11일자로 출원된 미국 출원 일련 번호 제10/045,458호;
o 대리인 문서 번호 Baumgarte 2-10으로서 2002년 5월 24일자로 출원된 미국 출원 일련 번호 제10/155,437호;
o 대리인 문서 번호 Baumgarte 3-11으로서 2002년 9월 18일자로 출원된 미국 출원 일련 번호 제10/246,570호;
o 대리인 문서 번호 Baumgarte 7-12으로서 2004년 4월 1일자로 출원된 미국 출원 일련 번호 제10/815,591호;
o 대리인 문서 번호 Baumgarte 8-7-15로서 2004년 9월 8일자로 출원된 미국 출원 일련 번호 제10/936,464호;
o 2004년 1월 20일자로 출원된 미국 출원 일련 번호 제10/762,100호(Faller 13-1);
o 대리인 문서 번호 Allamanche 1-2-17-3으로서 2004년 12월 7일자로 출원된 미국 출원 일련 번호 제11/006,492호;
o 대리인 문서 번호 Allamanche 2-3-18-4로서 2004년 12월 7일자로 출원된 미국 출원 일련 번호 제11/006,482호;
o 대리인 문서 번호 Faller 22-5로서 2005년 1월 10일자로 출원된 미국 출원 일련 번호 제11/032,689호; 및
o 2004년 11월 30일자로 출원된 미국 가출원 번호 제60/631,917호의 출원일의 권익을 청구하는 대리인 문서 번호 Faller 20으로서 2005년 2월 15일자로 출원된 미국 출원 일련 번호 제11/058,747호.
본 출원의 주제는 또한 그 내용이 본원에 참조되어 있는 다음 논문에 설명된 주제와 관련된다.
o F. Baumgarte 및 C. Faller의 "Binaural Cue Coding - Part I: Psychoacoustic Fundamentals and design principles, " IEEE trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003;
o C. Faller 및 F. Baumgarte의 "Binaural Cue Coding - Part II: Schemes and applications," IEEE trans. on Speech and Audio Proc., vol. 11, no.6, Nov. 2003; 및
o C. Faller의 "Coding of spatial audio compatible with different playback formats" Preprint 117th Conv, Aud. Eng. Soc., October 2004.
본 발명은 오디오 신호들의 인코딩 및 인코딩된 오디오 데이터로부터의 청각 장면을 나중에 합성하는 것에 관한 것이다.
사람이 특정 오디오 소스에 의해 생성된 오디오 신호(예를 들어, 사운드들)를 들을 때, 오디오 신호는 전형적으로 2개의 상이한 시간에, 그리고 2개의 상이한 오디오(예를 들어, 데시벨) 레벨들로 사람의 좌측 및 우측 귀들에 도달하는데, 여기서 이러한 상이한 시간 및 레벨들은 오디오 신호가 좌측 및 우측 귀들에 각각 도달하도록 이동하는 경로들의 차이의 함수들이다. 사람은 뇌는 시간 및 레벨에서의 이러한 차이들을 해석하여, 수신된 오디오 신호가 사람에 대하여 특정 위치(예를 들어, 방향 및 거리)에 위치된 오디오 소스에 의해 생성되고 있다는 지각을 사람에게 제공한다. 청각 장면은 사람에 대하여 하나 이상의 상이한 위치들에 위치되는 하나 이상의 상이한 오디오 소스들에 의해 생성되는 오디오 신호들을 동시적으로 청취하는 넷 이펙트(net effect)이다.
뇌에 의한 이 처리의 존재는 청각 장면들을 합성하는데 사용될 수 있고, 여기서 하나 이상의 상이한 오디오 소스들로부터의 오디오 신호들은 상이한 오디오 소스들이 청취자에 대하여 상이한 위치들에 위치된다는 지각을 제공하는 좌측 및 우측 오디오 신호들을 생성하기 위해 의도적으로 변경된다.
도 1은 단일 오디오 소스 신호(예를 들어, 모노 신호)를 바이노럴 신호(binaural signal)의 좌측 및 우측 오디오 신호들로 변환하는 종래의 바이노럴 신호 합성기(100)의 고-레벨 블록도이며, 여기서 바이노럴 신호는 청취자의 고막에서 수신되는 2개의 신호인 것으로 규정된다. 오디오 소스 신호 이외에, 합성기(100)는 청취자에 대한 오디오 소스 신호의 원하는 위치에 대응하는 공간 큐들의 세트를 수신한다. 전형적인 구현예들에서, 공간 큐들의 세트는 (좌측 및 우측 귀들에서 각각 수신된 바와 같은 좌측 및 우측 오디오 신호들 간의 오디오 레벨의 차이를 식별하는) 채널간 레벨 차이(ICLD) 값 및 (좌측 및 우측 귀들에서 각각 수신된 바와 같은 좌측 및 우측 오디오 신호들 사이의 시간의 차이를 식별하는) 채널간 시간 차이(ICTD) 값을 포함한다. 부가적으로, 또는 대안으로서, 일부 합성 기술들은 머리-관련 전달 함수(HRTF)라고 또한 칭해지는 신호 소스로부터 고막까지의 사운드에 대한 방향-의존 전달 함수의 모델링을 포함한다. 예를 들어, 그 내용이 본원에 참조되어 있는 J. Blauert의 ThePsychophysics of Human Sound Localization, MIT Press, 1983를 참조하라.
도 1의 바이노럴 신호 합성기(100)를 사용하면, 단일 사운드 소스에 의해 생성된 모노 오디오 신호는 헤드폰들을 통하여 청취될 때, 사운드 소스가 각각의 귀 에 대한 오디오 신호를 발생시키기 위하여 공간 큐들의 적절한 세트(ICLD, ICTD, 및/또는 HRTF)를 적용함으로써 공간적으로 위치되도록 처리될 수 있다. 예를 들어, D. R. Begault의 3-D Sound for Virtual Reality and Multimedia, Academic Press, Cambridge, MA. 1994를 참조하라.
도 1의 바이노럴 신호 합성기(100)는 가장 간단한 유형의 청각 장면들을 생성한다; 이들은 청취자에 대하여 위치된 단일 오디오 소스를 갖는다. 청취자에 대하여 상이한 위치에 위치되는 2개 이상의 오디오 소스들을 포함하는 더 복잡한 청각 장면들은 특히 바이노럴 신호 합성기의 다수의 인스턴스(instance)들을 사용하여 구현되는 청각 장면 합성기를 사용하여 생성될 수 있고, 여기서 각각의 바이노럴 신호 합성기 인스턴스는 상이한 오디오 소스에 대응하는 바이노럴 신호를 생성한다. 각각의 상이한 오디오 소스가 청취자에 대한 상이한 위치를 갖기 때문에, 각각의 상이한 오디오 소스에 대한 바이노럴 오디오 신호를 생성하는데 공간 큐들의 상이한 세트가 사용된다.
일 실시예에 따르면, 본 발명은 오디오 채널들을 인코딩하는 방법, 장치, 및 기계-판독 가능 매체이다. 하나 이상의 큐 코드들이 C개의 입력 채널들에 대해 생성되고, C개의 입력 채널들이 다운믹싱되어 적어도 하나의 다운믹싱된 채널을 생성한다. 적어도 하나의 다운믹싱된 채널 및 E개의 외부에서 제공되는 채널들 사이에 타임 래그가 추정되며, 여기서 C≥E>1이다. E개의 외부에서 제공되는 채널(들) 및 하나 이상의 큐 코드들 사이의 상대적인 타이밍은 E개의 외부에서 제공되는 채널(들) 및 하나 이상의 큐 코드들 사이의 동기화를 개선시키기 위하여 추정된 타임 래그에 기초하여 조정된다. E개의 외부에서 제공되는 채널(들) 및 하나 이상의 큐 코드들이 송신되어, 디코더가 하나 이상의 큐 코드들에 기초하여 E개의 외부에서 제공되는 채널(들)의 디코딩 동안 합성 처리를 수행할 수 있도록 한다.
다른 실시예에 따르면, 본 발명은 (1) C개의 입력 채널들에 대한 하나 이상의 큐 코드들을 생성하고, (2) C개의 입력 채널을 다운믹싱하여 적어도 하나의 다운믹싱된 채널을 생성하고, (3) 적어도 하나의 다운믹싱된 채널 및 E개의 외부에서 제공되는 채널(들) 중 적어도 하나 사이의 타임 래그를 추정하고(여기서 C≥E>1), (4) E개의 외부에서 제공되는 채널(들) 및 하나 이상의 큐 코드들 사이의 동기화를 개선시키기 위하여 상기 추정된 타임 래그에 기초하여 E개의 외부에서 제공되는 채널(들) 및 하나 이상의 큐 코드들 사이의 상대적인 타이밍을 조정하고, (5) 인코딩된 오디오 비트스트림을 형성하기 위하여 E개의 외부에서 제공되는 채널(들) 및 하나 이상의 큐 코드들을 결합함으로써 생성되는 인코딩된 오디오 비트스트림이다.
본 발명의 다른 양상들, 특징들, 및 장점들은 다음의 상세한 설명, 첨부된 청구항들, 및 유사하거나 동일한 요소들에는 동일한 참조 번호가 병기되어 있는 첨부 도면들로부터 충분히 분명해질 것이다.
도 1은 종래의 바이노럴 신호 합성기의 고-레벨 블록도.
도 2는 일반적인 바이노럴 큐 코딩(BCC) 오디오 처리 시스템의 블록도.
도 3은 도 2의 다운믹서의 블록도.
도 4는 도 2의 디코터에 사용될 수 있는 BCC 합성기의 블록도.
도 5는 본 발명의 일 실시예에 따른, 도 2의 BCC 추정기의 블록도.
도 6은 5-채널 오디오에 대한 ICTD 및 ICLD의 생성을 도시한 도면.
도 7은 5-채널 오디오에 대한 ICC 데이터의 생성을 도시한 도면.
도 8은 공간 큐들 더하기 소정의 단일 송신되는 합 신호(s(n))를 제공받는 스테레오 또는 다-채널 오디오 신호를 생성하기 위하여 BCC 디코더에서 사용될 수 있는 도 4의 BCC 합성기의 구현예의 블록도.
도 9는 ICTD 및 ILCD가 주파수의 함수로서 서브대역 내에서 변화되는 방법을 도시한 도면.
도 10은 외부에서 제공되는 다운믹싱된 신호와 함께 BCC 사이드 정보를 송신하는 BCC 오디오 처리 시스템의 블록도.
도 11은 본 발명의 일 실시예에 따른, BCC 오디오 처리 시스템의 블록도.
도 12는 본 발명의 일 실시예에 따른, 2개의 오디오 파형들 사이의 지연을 추정하기 위하여 도 11의 지연 추정기에 의해 구현되는 처리를 나타내는 블록도.
바이노럴 큐 코딩(BCC)에서, 인코더는 E개의 송신되는 오디오 채널들을 생성하기 위하여 C개의 오디오 채널들을 인코딩하며, 여기서 C>E≥1이다. 특히, C개의 입력 채널들 중 2개 이상은 주파수 영역에서 제공되고, 주파수 영역의 2개 이상의 입력 채널들에서의 하나 이상의 상이한 주파수 대역들 각각에 대해 하나 이상의 큐 코드들이 생성된다. 게다가, C개의 입력 채널들은 다운믹싱되어, E개의 송신되는 채널들을 생성한다. 일부 다운믹싱 구현예들에서, E개의 송신되는 채널들 중 하나 이상은 C개의 입력 채널들 중 2개 이상에 기초하며, E개의 송신되는 채널들 중 적어도 하나는 C개의 입력 채널들 중 단지 하나에 기초한다.
일 실시예에서, BCC 코더는 2개 이상의 필터 뱅크들, 코드 추정기, 및 다운믹서를 갖는다. 2개 이상의 필터 뱅크들은 C개의 입력 채널들 중 2개 이상을 시간 영역으로부터 주파수 영역으로 변환한다. 코드 추정기는 2개 이상의 변환된 입력 채널들에서의 하나 이상의 상이한 주파수 대역들 각각에 대한 하나 이상의 큐 코드들을 생성한다. 다운믹서는 C개의 입력 채널들을 다운믹싱하여, E개의 송신되는 채널들을 발생시키며, 여기서 C>E≥1이다.
BCC 디코딩에서, E개의 송신되는 오디오 채널들이 디코딩되어 C개의 재생 (즉, 합성된) 오디오 채널들을 생성한다. 특히, 하나 이상의 상이한 주파수 대역들 각각에 대하여, E개의 송신되는 채널들 중 하나 이상이 주파수 영역에서 업믹싱되어, 주파수 영역에서 C개의 재생 채널 중 2개 이상을 생성하며, 여기서 C>E≥1이다. 하나 이상의 큐 코드들이 주파수 영역에서 2개 이상의 재생 채널들에서의 하나 이상의 상이한 주파수 대역들 각각에 적용되어, 2개 이상의 변경된 채널들을 생성하고, 상기 2개 이상의 변경된 채널들은 주파수 영역으로부터 시간 영역으로 변환된다. 일부 업링크 구현예들에서, C개의 재생 채널들 중 적어도 하나는 E개의 송신되는 채널 중 적어도 하나 및 적어도 하나의 큐 코드에 기초하여, C개의 재생 채널들 중 적어도 하나는 E개의 송신되는 채널들 중 단지 하나의 채널에 기초하며, 임의의 큐 코드들과 독립적이다.
일 실시예에서, BCC 디코더는 업믹서, 합성기, 및 하나 이상의 역 필터 뱅크들을 갖는다. 하나 이상의 상이한 주파수 대역들 각각에 대하여, 업믹서는 주파수 영역에서 E개의 송신되는 채널을 업믹싱하여 주파수 영역에서 C개의 재생 채널들 중 2개 이상을 생성하며, 여기서 C>E≥1이다. 합성기는 주파수 영역에서 2개 이상의 재생 채널들에서의 하나 이상의 상이한 주파수 대역들 각각에 하나 이상의 큐 코드들을 적용하여, 2개 이상의 변경된 채널들을 생성한다. 하나 이상의 역 필터 뱅크들은 2개 이상의 변경된 채널들을 주파수 영역으로부터 시간 영역으로 변환한다.
특정 구현예에 따르면, 소정의 재생 채널은 2개 이상의 송신되는 채널의 조합보다는 오히려, 단일의 송신되는 채널에 기초할 수 있다. 예를 들어, 단지 하나의 송신되는 채널만이 존재할 때, C개의 재생 채널 각각은 상기 하나의 송신되는 채널에 기초한다. 이러한 상황들에서, 업믹싱은 대응하는 송신되는 채널의 복제에 대응한다. 이와 같이, 단지 하나의 송신되는 채널만이 존재하는 애플리케이션들의 경우에, 업믹서는 각각의 재생 채널에 대해 송신되는 채널을 복제하는 리플리케이터(replicator)를 사용하여 구현될 수 있다.
BCC 인코더들 및/또는 디코더들은 예를 들어, 디지털 비디오 레코더들/플레이어들, 디지털 오디오 레코더들/플레이어들, 컴퓨터들, 위성 송신기들/수신기들, 케이블 송신기들/수신기들, 지상 방송 송신기들/수신기들, 가정용 엔터테인먼트 시스템, 및 영화관 시스템들을 포함하는 다수의 시스템들 또는 애플리케이션에 통합될 수 있다.
일반적인 BCC 처리
도 2는 인코더(202) 및 디코더(204)를 포함하는 일반적인 바이노럴 큐 코딩(BCC) 오디오 처리 시스템(200)의 블록도이다. 인코더(202)는 다운믹서(206) 및 BCC 추정기(208)를 포함한다.
다운믹서(206)는 입력 오디오 채널들 xi(n)을 E개의 송신되는 오디오 채널들 yi(n)으로 변환하고, 여기서 C>E≥1이다. 본 명세서에서, 변수 n을 사용하여 표현되는 신호들은 시간-영역 신호들인 반면, 변수 k를 사용하여 표현되는 신호들은 주파수-영역 신호들이다. 특정 구현예에 따르면, 다운믹싱은 시간 영역 도는 주파수 영역 중 하나에서 구현될 수 있다. BCC 추정기(208)는 C개의 입력 오디오 채널들로부터 BCC 코드들을 생성하고 이러한 VCC 코드들을 E개의 송신되는 오디오 채널들에 대한 대역내(in-band) 또는 대역외(out-of-band) 사이드 정보 중 하나로서 송신한다. 전형적인 BCC 코드들은 주파수 및 시간의 함수로서 입력 채널들의 어떤 쌍들 사이에서 추정되는 채널간 시간 차이(ICTD), 채널간 레벨 차이(ICLD), 및 채널간 상관(ICC) 데이터를 포함한다. 특정 구현예는 입력 채널들의 어떤 특정 쌍들 사이에서 BCC 코드들이 추정되는지를 설명한다.
ICC 데이터는 오디오 신호의 감지된 폭과 관련되는 바이노럴 신호의 코히러런스(coherence)에 대응한다. 오디오 소스가 넓어지면 넓어질수록, 결과적인 바이노럴 신호의 좌측 및 우측 채널들 사이의 코히어런스는 더 낮아진다. 예를 들어, 방청석 스테이지(auditorium stage)를 통하여 확산되는 오케스트라에 대응하는 바이노럴 신호의 코히어런스는 전형적으로 단일 바이올린 독주에 대응하는 바이노럴 신호의 코히어런스보다 더 낮다. 일반적으로, 더 낮은 코히어런스를 갖는 오디오 신호는 통상적으로 청각 공간에서 더 많이 확산되는 것으로 인식된다. 이와 같이, ICC 데이터는 전형적으로 청취자 환경의 정도 및 분명한 소스 폭과 관련된다. 예를 들어, J. Blauert의 "The Psychophysics of Human Sound Localization, MIT Press, 1983을 참조하라.
특정 애플리케이션에 따르면, E개의 송신되는 오디오 채널 및 대응하는 BCC 코드들은 디코더(204)로 직접 송신되거나, 디코더(204)에 의한 나중의 액세스를 위해 어떤 적절한 유형의 저장 장치에 저장될 수 있다. 상황에 따라서, 용어 "송신하는"은 디코더로의 직접적인 송신 또는 나중에 디코더에 제공하기 위한 저장 중 하나와 관련될 수 있다. 어느 경우든, 디코더(204)는 송신되는 오디오 채널들 및 사이드 정보를 수신하고 BCC 코드들을 사용하여 업믹싱 및 BCC 합성을 수행하여, E개의 송신되는 오디오 채널들을 오디오 재생을 위한 E개 이상(전형적으로 C개 이지만, 반드시 그렇지는 않음)의 재생 오디오 채널들(
Figure 112007047940915-PCT00001
)로 변환한다. 특정 구현예에 따르면, 업믹싱은 시간 영역 또는 주파수 영역 중 하나에서 수행될 수 있다.
도 2에 도시된 BCC 처리 이외에, 일반적인 BCC 오디오 처리 시스템은 각각, 인코더에서 오디오 신호들을 더 압축하고 나서, 디코더에서 상기 오디오 신호들을 압축해제하기 위하여 부가적인 인코딩 및 디코딩 단들을 포함할 수 있다. 이들 오 디오 코덱들은 펄스 코드 변조(PCM), 차분 PCM(DPCM), 또는 적응형 DPCM(ADPCM)에 기초한 것과 같은 종래의 오디오 압축/압축해제 기술들에 기초할 수있다.
다운믹서(206)가 단일 합 신호(즉, E=1)를 생성할 때, BCC 코딩은 모노 오디오 신호를 표현하기 위해 필요로 되는 것보다 단지 조금 더 높은 비트레이트로 다-채널 오디오 신호를 표현할 수 있다. 이것은 채널 쌍 사이의 추정된 ICTD, ICLD, 및 ICC 데이터가 오디오 파형보다 더 적은 대략 2차의 크기 정보를 포함하기 때문에 그러하다.
BCC 코딩의 낮은 비트레이트뿐만 아니라, 이의 역방향 호환성 양상이 중요하다. 단일의 송신되는 합 신호는 원래 스테레오 또는 다-채널 신호의 모노 다운믹스에 대응한다. 스테레오 또는 다-채널 사운드 재생을 지원하지 않는 수신기들의 경우에, 송신되는 합 신호를 청취하는 것이 저-프로파일 모노 재생 장비 상에 오디오 자료를 제공하는 유효한 방법이다. 따라서, 다-채널 오디오 쪽으로의 모노 오디오 자료의 전달과 관련된 기존 서비스들을 강화하기 위하여 BCC 코딩이 사용될 수 있다. 예를 들어, 기존 모노 오디오 무선 브로드캐스팅 시스템은 BCC 사이드 정보가 기존의 송신 채널 내로 내장될 수 있는 경우에, 스테레오 또는 다-채널 재생을 위해 강화될 수 있다. 다-채널 오디오를 스테레오 오디오에 대응하는 2개의 합 신호들로 다운믹싱할 때 유사한 케이퍼빌리티(capability)들이 존재한다.
BCC는 일정한 시간 및 주파수 레졸루션(resolution)으로 오디오 신호들을 처리한다. 사용되는 주파수 레졸루션은 주로 인간의 청각 시스템의 주파수 레졸루션에 의해 모티베이트(motivate)된다. 음향심리학은 공간 지각이 주로 음향 입력 신 호의 임계 대역 표현에 기초하는 것을 제안한다. 이 주파수 레졸루션은 (예를 들어, 인간의 청각 시스템의 임계 대역폭과 동일하거나 이에 비례하는 대역폭을 가진 서브대역들을 갖는 고속 퓨리에 변환(FFT) 또는 직교 미러 필터(QMF)에 기초하는) 반전 가능한 필터뱅크를 사용함으로써 고려된다.
일반적인 다운믹싱
바람직한 구현예들에서, 송신되는 합 신호(들)는 입력 오디오 신호의 모든 신호 성분들을 포함한다. 각각의 신호 성분이 완전히 유지되는 것이 목적이다. 오디오 입력 채널들을 단순히 합하는 것은 종종 신호 성분들의 증폭 또는 감쇠를 초래한다. 즉, "간단한" 합에서의 신호 성분들의 거듭제곱은 종종 각각의 채널의 대응하는 신호 성분의 거듭제곱의 합보다 더 크거나 더 작다. 합 신호를 등화시키는 다운믹싱 기술이 사용되어, 합 신호에서의 신호 성분들의 거듭제곱이 모든 입력 채널들에서의 대응하는 거듭제곱과 거의 동일하도록 할 수 있다.
도 3은 BCC 시스템(200)의 어떤 구현예들에 따른 도 2의 다운믹서(206)에 사용될 수 있는 다운믹서(300)의 블록도를 도시한다. 다운믹서(300)는 각각의 입력 채널(xi(n))에 대한 필터 뱅크(FB)(302), 다운믹싱 블록(304), 선택적인 스케일링/지연 블록(306), 및 각각의 인코딩된 채널(yi(n))에 대한 역 FB(IFB)(308)를 갖는다.
각각의 필터 뱅크(302)는 시간 영역의 대응하는 디지털 입력 채널(xi(n))의 각 프레임(예를 들어, 20 msec)을 주파수 영역의 입력 계수들의 세트(
Figure 112007047940915-PCT00002
)로 변환한다. 다운믹싱 블록(304)은 C개의 대응하는 입력 계수들의 각각의 서브-대역을 E개의 다운믹싱된 주파수-영역 계수들의 대응하는 서브-밴드로 다운믹싱한다. 식(1)은 다음과 같이 다운믹싱된 계수
Figure 112007047940915-PCT00003
를 생성하는 입력 계수
Figure 112007047940915-PCT00004
의 k-번째 서브-대역의 다운믹싱을 나타내며,
Figure 112007047940915-PCT00005
여기서, D CE는 실수-값의 C x E 다운믹싱 매트릭스이다.
선택적인 스케일링/지연 블록(306)은 각각 대응하는 다운믹싱된 계수(
Figure 112007047940915-PCT00006
)를 스케일링 팩터(ei(k))만큼 승산하여 대응하는 스케일링된 계수(
Figure 112007047940915-PCT00007
)를 생성하는 승산기들(310)의 세트를 포함한다. 스케일링 동작에 대한 모티베이션(motivation)은 각각의 채널에 대한 임의의 가중 팩터들을 갖는 다운믹싱을 위해 일반화된 등화(equalization)와 등가이다. 입력 채널들이 독립적인 경우, 각각의 서브-대역에서의 다운믹싱된 신호의 거듭제곱(
Figure 112007047940915-PCT00008
)은 다음과 같이 식(2)에 의해 제공되며,
Figure 112007047940915-PCT00009
여기서,
Figure 112007047940915-PCT00010
는 C x E 다운믹싱 매트릭스(DCE)에서 각각의 매트릭스 요소를 제곱함으로써 도출되고,
Figure 112007047940915-PCT00011
는 입력 채널(i)의 서브-대역(k)의 거듭제곱이다.
서브-대역들이 독립적이지 않은 경우에, 다운믹싱된 신호의 거듭제곱된 값(
Figure 112007047940915-PCT00012
)은 신호 성분들이 각각 동-위상이거나 이-위상일 때의 신호 증폭들 또는 소거들로 인해, 식(2)를 사용하여 계산되는 것보다 더 크거나 더 작을 것이다. 이를 방지하기 위하여, 식(1)의 다운믹싱 동작이 승산기들(310)의 스케일링 동작보다 앞서 서브-대역들에서 적용된다. 스케일링 팩터들(ei(k))(1≤i≤E)는 다음과 같이 식(3)을 사용하여 도출될 수 있고,
Figure 112007047940915-PCT00013
여기서,
Figure 112007047940915-PCT00014
는 식(2)에 의해 계산된 바와 같은 서브-대역 거듭제곱이며,
Figure 112007047940915-PCT00015
는 대응하는 다운믹싱된 서브-대역 신호(
Figure 112007047940915-PCT00016
)의 거듭제곱이다.
선택적인 스케일링을 제공하는 것 이외에, 또는 그것 대신에, 스케일링/지연 블록(306)은 신호들을 선택적으로 지연시킬 수 있다.
각각의 역 필터 뱅크(308)는 주파수 대역의 대응하는 스케일링된 계수(
Figure 112007047940915-PCT00017
)의 세트를 대응하는 디지털의 송신되는 채널(yi(n))로 변환한다.
도 3이 후속 다운믹싱을 위해 주파수 영역으로 변환되는 C개의 입력 채널들 모두를 도시할지라도, 대안적인 구현예들에서, C개의 입력 채널들 중 하나 이상(C-1개보다 적음)은 도 3에 도시된 처리 중 일부 또는 모두를 바이패스하고 변경되지 않은 오디오 채널들의 등가의 수로서 송신될 수 있다. 특정 구현예에 따르면, 이러한 변경되지 않은 오디오 채널들은 송신되는 BCC 코드들을 생성할 시에 도 2의 BCC 추정기(208)에 의해 사용되거나 사용되지 않을 수 있다.
단일 합 신호(y(n))를 생성하는 다운믹서(300)의 구현예에서, E=1이고 각각의 입력 채널(c)의 각각의 서브대역의 신호들(
Figure 112007047940915-PCT00018
)이 부가되고 나서, 다음과 같이 식(4)에 따라 팩터(e(k))와 승산되고,
Figure 112007047940915-PCT00019
상기 팩터(e(k))는 다음과 같이 식(5)에 의해 제공되며,
Figure 112007047940915-PCT00020
여기서,
Figure 112007047940915-PCT00021
는 시간 인덱스(k)에서의
Figure 112007047940915-PCT00022
의 거듭제곱의 단시간 추정치이고,
Figure 112007047940915-PCT00023
Figure 112007047940915-PCT00024
의 거듭제곱의 단-시간 추정치이다. 등화된 서브대역들은 다시 시간 영역으로 변환되어 BCC 디코더에 송신되는 합 신호(y(n))를 발생시킨다.
일반적인 BCC 합성
도 4는 BCC 시스템(200)의 어떤 구현예들에 따른 도 2의 디코더(204)에 사용될 수 있는 BCC 합성기(400)의 블록도를 도시한다. BCC 합성기(400)는 각각의 송신되는 채널(yi(n))에 대한 필터 뱅크(402), 업믹싱 블록(404), 지연기들(406), 승산기들(408), 상관해제 블록(410), 및 각각의 재생 채널(
Figure 112007047940915-PCT00025
)에 대한 역 필터 뱅크(412)를 갖는다.
각각의 필터 뱅크(402)는 시간 영역의 대응하는 디지털의 송신되는 채널(yi(n))의 각 프레임을 주파수 영역의 입력 계수(
Figure 112007047940915-PCT00026
)의 세트로 변환한다. 업링크 블록(404)은 E개의 대응하는 송신되는-채널 계수들의 각각의 서브-대역을 C개의 업믹싱된 주파수-영역 계수들의 대응하는 서브-대역으로 업믹싱한다. 식(6)은 다음과 같이 업믹싱된 계수들
Figure 112007047940915-PCT00027
의 k-번째 서브-대역을 생성하기 위한 송신되는 채널 계수들
Figure 112007047940915-PCT00028
의 k-번째 서브-대역의 업믹싱을 나타내며,
Figure 112007047940915-PCT00029
여기서 U EC는 실수-값의 E x C 업링크 매트릭스이다. 주파수-영역에서 업믹싱을 수행하면 업믹싱이 각각의 상이한 서브-대역에서 개별적으로 수행될 수 있다.
각각의 지연기(406)는 재생 채널들의 어떤 쌍들 사이에서 원하는 ICDT 값들이 나타나도록 하기 위하여 ICTD 데이터에 대한 대응하는 BCC 코드에 기초하여 지연 값(di(k))을 인가한다. 각각의 승산기(408)는 재생 채널들의 어떤 쌍들 사이에서 원하는 ICLD 값들이 나타나도록 하기 위하여 ICLD 데이터에 대한 대응하는 BCC 코드에 기초하여 스케일링 팩터(ai(k)를 인가한다. 상관해제 블록(410)은 재생 채널들의 어떤 쌍들 사이에서 원하는 ICC 값들이 나타나도록 하기 위하여 ICC 데이터에 대한 대응하는 BCC 코드들에 기초하여 상관해제 동작(A)을 수행한다. 상관해제 블록(410)의 동작들의 부가적인 설명은 Baumgarte 2-10으로서 2002년 5월 24일자로 출원된 미국 특허 출원 번호 10/155,437에서 찾아볼 수 있다.
ICLD 값들의 합성은 ICLD 합성이 단지 서브-대역 신호들의 스케일링과 관련되기 때문에, ICTD 및 ICC 값들의 합성보다 덜 곤란할 수 있다. ICLD 큐들이 가장 통상적으로 사용되는 방향성 큐들이기 때문에, ICLD 값들이 원래 오디오 신호의 값들에 근사화되는 것이 통상적으로 더 중요하다. 이와 같이, ICLD 데이터는 모든 채널 쌍들 사이에서 추정될 수 있다. 각각의 서브-대역에 대한 스케일링 팩터(ai(k))는 바람직하게는, 각각의 재생 채널의 서브-대역 거듭제곱이 원래 입력 오디오 채널의 대응하는 거듭제곱에 근사화되도록 선택된다.
하나의 목적은 ICTD 및 ICC 값들을 합성하기 위해 비교적 적은 신호 변경들 을 적용하는 것일 수 있다. 이와 같이, BCC 데이터는 모든 채널 쌍들에 대한 ICTD 및 ICC 값들을 포함할 수는 없다. 그 경우에, BCC 합성기(400)는 어떤 채널 쌍들 사이에서만 ICTD 및 ICC 값들을 합성할 것이다.
각각의 역 필터 뱅크(412)는 주파수 영역의 대응하는 합성된 계수들의 세트(
Figure 112007047940915-PCT00030
)를 대응하는 디지털 재생 채널(
Figure 112007047940915-PCT00031
)의 프레임으로 변환한다.
도 4가 후속 업믹싱 및 BCC 처리를 위해 주파수 영역으로 변환되는 E개의 송신되는 채널들 모두를 도시할지라도, 대안적인 구현예들에서, E개의 송신되는 채널들 중 하나 이상(그러나, 모두는 아님)은 도 4에 도시된 처리 중 일부 또는 모두를 바이패스할 수 있다. 예를 들어, 송신되는 채널들 중 하나 이상은 임의의 업믹싱을 겪지 않은 변경되지 않은 채널들일 수 있다. C개의 재생 채널들 중 하나 이상 이외에, 이러한 변경되지 않은 채널들이 차례로, 다른 재생 채널들 중 하나 이상을 합성하기 위해 BCC 처리가 적용되는 기준 채널들로서 사용될 수 있지만, 그렇게 사용되지 않아도 된다. 어느 경우든, 이와 같은 변경되지 않은 채널들은 재생 채널들의 나머지를 생성하는데 사용되는 업믹싱 및/또는 BCC 처리와 관련된 처리 시간을 보상하기 위하여 지연들을 겪게 될 수 있다.
도 4가 E개의 송신되는 채널들로부터 합성되는 C개의 재생 채널들을 도시할지라도, BCC 합성들이 그 수의 재생 채널들에 국한되지 않는다는 점에 주의하라. 일반적으로, 재생 채널들의 수는 C보다 더 크거나 더 적은 수들을 포함하는 임의의 채널들의 수일 수 있고 재생 채널들의 수가 송신되는 채널들의 수와 동일하거나 이 보다 더 적은 상황들도 가능하다.
오디오 채널들 사이의 "지각적으로 관련된 차이들"
단일 합 신호를 가정하면, BCC는 스테레오 또는 다-채널 오디오 신호를 합성하여, ICTD, ICLD, 및 ICC가 원래 오디오 신호의 대응하는 큐들에 근사화되도록 한다. 다음에서, 청각 공산 이미지 속성들에 대한 ICTD, ICLD, 및 ICC의 역할이 논의된다.
공간 청취에 관한 인식은 하나의 청각 이벤트의 경우에, ICTD 및 ICLD가 지각된 방향과 관련된다는 것을 나타낸다. 하나의 소스의 바이노럴 룸 임펄스 응답들(binaural room impulse response: BRIRs)을 고려할 때, BRIRs의 초기와 후기 파트들에 대한 추정된 ICC 데이터 및 청취자 포위감(listener envelopment)과 청각 이벤트의 폭 사이에 관계가 존재한다. 그러나, 일반적인 신호들에 대한 이러한 특성들(단지 BRIRs이 아님) 및 ICC 사이의 관계는 직접적이지는 않다.
스테레오 및 다-채널 오디오 신호들은 통상적으로 밀폐된 공간들에서의 레코딩으로 인하여 반사된 신호 성분들에 의해 중첩되고 공간적인 임프레션(impression)을 인공적으로 생성하기 위해 레코딩 엔지니어에 의해 부가되는 동시 활성적 소스 신호들의 복합적인 혼합을 포함한다. 상이한 소스 신호들 및 이들은 반사들은 시간-주파수 평면에서 상이한 영역들을 점유한다. 이것은 주파수 및 시간의 함수로서 변화하는 ICTD, ILCD, 및 ICC에 의해 반영된다. 이 경우에, 순시적인 ICTD, ICLD와 ICC 및 청각 이벤트 방향들과 공간적인 임프레션 사이의 관계는 명백하지 않다. BCC의 어떤 실시예들의 전략은 이러한 큐들이 원래 오디오 신호의 대응하는 큐들에 근사화되도록 상기 큐들을 맹목적으로 합성하는 것이다.
등가 직사각형 대역폭(equivalent rectangular bandwidth: ERB)의 2배와 동일한 대역폭들의 서브대역들을 갖는 필터뱅크들이 사용된다. 비공식 청취는 더 높은 주파수 레졸루션 선택할 때, BCC의 오디오 품질이 현저히 개선되지 않는다는 것을 의미한다. 디코더에 송신될 필요가 있는 ICTD, ICLD, 및 ICC 값들을 더 적게 하여, 비트레이트를 더 낮게 때문에, 더 낮은 주파수 레졸루션이 바람직할 수 있다.
이 레졸루션에 관하여, ICTD, ICLD, 및 ICC는 전형적으로 규칙적인 시간 간격으로 고려된다. ICTD, ICLD, 및 ICC가 약 4 내지 16ms마다 고려될 때, 고성능이 획득된다. 큐들이 매우 짧은 시간 간격들마다 고려되지 않는다면, 선착 효과(precedence effect)는 직접적으로 고려되지 않는다는 점에 주의하라. 사운드 자극들의 종래의 진상/지상 쌍을 가정하면, 진상 및 지상이 큐들 중 하나의 세트만이 합성되는 시간 간격이 되는 경우, 진상의 국소 우세(localization dominace)가 고려되지 않다. 이에도 불구하고, BCC는 평균하여 약 87(즉, "우수한" 오디오 품질) 및 어떤 오디오 신호들에 대하여 거의 100까지의 평균 MUSHRA 스코어에서 반영된 오디오 품질을 획득한다.
기준 신호 및 합성된 신호 사이의 자주-획득되는 지각적으로 작은 차이는 청각 공간 이미지 속성들과 관련된 큐들이 규칙적인 시간 간격으로 ICTD, ICLD, 및 ICC를 합성함으로써 암시적으로 고려된다. 다음에서, ICTD, ICLD, 및 ICC가 청각 공간 이미지 속성의 범위와 관련될 수 있는 방법에 대한 어떤 논의가 제공된다.
공간 큐들의 추정
다음에서, ICTD, ICLD, 및 ICC가 추정되는 방법이 설명된다. 이러한 (양자화되고 코딩된) 공간 큐들의 송신을 위한 비트레이트는 단지 몇 kb/s일 수 있으므로, BCC에 의하여, 단일 오디오 채널에 필요로 되는 것에 가까운 비트레이트로 스테레오 및 다-채널 오디오 신호들을 송신할 수 있다.
도 5는 본 발명의 일 실시예에 따른, 도 2의 BCC 추정기(208)의 블록도를 도시한다. BCC 추정기(208)는 도 3의 필터뱅크들(302)과 동일할 수 있는 필터뱅크들(FB)(502), 및 필터뱅크들(502)에 의해 생성된 각각의 상이한 주파수 서브대역에 대한 ICTD, ICLD, 및 ICC 공간 큐들을 생성하는 추정 블록(504)을 포함한다.
스테레오 신호들에 대한 ICTD, ICLD, 및 ICC의 추정
2개(예를 들어, 스테레오) 오디오 채널들의 대응하는 서브대역 신호들(
Figure 112007047940915-PCT00032
Figure 112007047940915-PCT00033
)에 대한 ICTD, ICLD, 및 ICC에 대해 다음의 측정들이 사용된다.
o ICTD[샘플들]:
Figure 112007047940915-PCT00034
표준화된 교차-상관 함수의 단-시간 추정치는 다음과 같이 식(8)에 의해 제공되며,
Figure 112007047940915-PCT00035
여기서,
Figure 112007047940915-PCT00036
이고,
Figure 112007047940915-PCT00037
Figure 112007047940915-PCT00038
의 평균의 단-시간 추정치이다.
o ICLD[dB]:
Figure 112007047940915-PCT00039
o ICC
Figure 112007047940915-PCT00040
표준화된 교차-상관의 절대값이 고려되고, c12(k)은 [0,1]의 범위를 갖는다.
다-채널 오디오 신호들에 대한 ICTD, ICLD, 및 ICC의 추정
2개 이상의 입력 채널들이 존재할 때, 통상적으로 C=5개의 채널들의 경우에 대해 도 6에 도시된 바와 같이, 기준 채널(예를 들어, 채널 번호 1) 및 다른 채널들 사이에 ICTD 및 ICLD를 규정하기만 하면 된다. 여기서
Figure 112007047940915-PCT00041
Figure 112007047940915-PCT00042
는 기준 채널(1) 및 채널(c) 사이의 ICTD 및 ICLD를 각각 나타낸다.
ICTD 및 ICLD에 반대되는 바와 같이, ICC는 통상적으로 더 많은 자유도들(degrees of freedom)을 갖는다. 규정된 바와 같은 ICC는 모든 가능한 입력 채널 쌍들 사이에서 상이한 값들을 가질 수 있다. C개의 채널들의 경우에, C(C-1)/2개의 가능한 채널 쌍들이 존재한다; 예를 들어, 5개의 채널들의 경우에, 도 7(a)에 도시된 바와 같이 10개의 채널 쌍들이 존재한다. 그러나, 이와 같은 방식은 각각의 시간 인덱스에서 각각의 서브대역에 대해, C(C-1)/2개의 ICC 값들이 추정되고 계산되는 것을 필요로 하여, 계산적인 복잡성이 높아지고 비트레이트가 높아지게 된다.
대안적으로, 각각의 서브대역에 대하여, ICTD 및 ICLD는 서브대역 내의 대응하는 신호 성분의 청각 이벤트가 렌더링되는 방향을 결정한다. 그 후, 서브대역 당 하나의 단일 ICC 파라미터가 사용되어, 모든 오디오 채널들 전체 코히어런스를 규정한다. 각각의 시간 인덱스에서의 각각의 서브대역에서 가장 큰 에너지를 갖는 2개의 채널들 사이에서만 ICC 큐들을 추정하고 송신함으로써 양호한 결과들이 획득될 수 있다. 이것이 시간 인스턴트들(k-1 및 k) 동안, 채널 쌍들(3, 4) 및 (1, 2)이 각각 가장 강한 도 7(b)에 도시되어 있다. 다른 채널 쌍들 사이에서 ICC를 결정하는데 휴리스틱 규칙(heuristic rule)이 사용될 수 있다.
공간 큐들의 합성
도 8은 공간적인 큐들 더하기 단일의 송신되는 합 신호(s(n))를 제공받는 스테레오 또는 다-채널 오디오 신호를 생성하기 위하여 BCC 디코더에서 사용될 수 있는 도 4의 BCC 합성기(400)의 구현예의 블록도를 도시한다. 합 신호(s(n))는 서브 대역들로 분해되고, 여기서
Figure 112007047940915-PCT00043
는 하나의 이와 같은 서브대역을 나타낸다. 출력 채널들 각각의 대응하는 서브대역들을 생성하기 위하여, 지연(dc), 스케일 팩터들(ac), 및 필터들(hc)이 합 신호의 대응하는 서브대역에 적용된다. (표시의 간소화를 위해, 지연들, 스케일 팩터들, 및 필터들에서 시간 인덱스(k)는 무시된다.) ICTD는 지연들을 부과함으로써 합성되고, ICLD는 스케일링에 의해 합성되며, ICC는 상관해제 필터들을 적용함으로써 합성된다. 도 8에 도시된 처리는 각각의 서브대역에 독립적으로 적용된다.
ICTD 합성
지연(dc)은 다음과 같이 식(12)에 따라 ICTD들(
Figure 112007047940915-PCT00044
)로부터 결정된다.
Figure 112007047940915-PCT00045
기준 채널에 대한 지연(d1)은 지연들(dc)의 최대 크기가 최소화되도록 계산된다. 서브대역 신호들이 더 적게 변경될수록, 아티팩트들이 발생할 위험이 더 적게 존재한다. 서브대역 샘플링 레이트가 ICTD 합성에 충분한 높은 레졸루션을 제공하지 않는 경우, 적절한 전역 통과 필터들을 사용함으로써 지연들이 더 정확하게 부과될 수 있다.
ICLD 합성
출력 서브대역 신호들이 채널(c) 및 기준 채널(1) 사이에서 원하는 ICLD들(
Figure 112007047940915-PCT00046
)를 가지도록 하기 위하여, 이득 팩터들(ac)은 다음과 같이 식(13)을 충족시켜야 한다.
Figure 112007047940915-PCT00047
부가적으로, 출력 서브대역들은 바람직하게는, 모든 출력 채널들의 거듭제곱의 합이 입력 합 신호의 거듭제곱의 합과 동일하도록 표준화된다. 각각의 서브대역에서의 총 원래 신호 거듭제곱이 합 신호에서 보존되기 때문에, 이 표준화는 원래 인코더 입력 오디오 신호의 대응하는 거듭제곱에 근사화되는 각각의 출력 채널에 대한 절대 서브대역 거듭제곱을 발생시킨다. 이러한 제약들을 제공하면, 스케일 팩터들(ac)은 다음과 같이 식(14)에 의해 제공된다.
Figure 112007047940915-PCT00048
ICC 합성
어떤 실시예들에서, ICC 합성의 목적은 ICTD 및 ICLD에 영향을 줌이 없이, 지연들 및 스케일링이 적용된 후, 서브대역들 사이에 상관을 감소시키는 것이다. 이것은 각 서브대역(청각 임계 대역)에서 평균 편차가 제로가 되도록 ICTD 및 ICLD 이 주파수의 함수로서 효율적으로 변화되도록 도 8에서 필터들(hc)을 설계함으로써 달성될 수 있다.
도 9는 ICTD 및 ICLD가 주파수의 함수로서 서브대역 내에서 변화되는 방법을 도시한다. ICTD 및 ICLD 변화의 크기는 상관해제의 정도를 결정하고, ICC의함수로서 제어된다. ICTD는 (도 9(a)에서와 같이) 완만하게 변화되는 반면, ICLD는 (도 9(b)에서와 같이) 랜덤하게 변화된다. ICLD를 ICTD와 같이 완만하게 변화시킬 수 있지만, 이것은 결과적인 오디오 신호들의 더 많은 컬러레이션(coloratin)을 발생시킨다.
다-채널 ICC 합성에 특히 적합한 ICC를 합성하는 또 다른 방법은 그 내용이 본원에 참조되어 있는 C. Faller의 "Parametric multi-channel audio coding: Synthesis of coherence cues, "IEEE Trans. on Speech and Audio Proc., 2003에 보다 상세히 설명된다. 시간 및 주파수의 함수로서, 특정 량들의 인공적인 늦은 잔향(artificial late reverberation)이 원하는 ICC를 달성하기 위하여 출력 채널들 각각에 부가된다. 부가적으로, 결과적인 신호의 스펙트럼 인벨롭(envelop)이 원래 오디오 신호의 스펙트럼 인벨롭에 접근하도록 스펙트럼 변경이 적용될 수 있다.
스테레오 신호들(또는 오디오 채널 쌍들)에 대한 다른 관련되거나 독립적인 ICC 합성 기술은 둘 모두의 내용이 본원에 참조되어 있는 E. Schuijers, W. Oomen, B. den Brinker, 및 J. Breebaart의 "Advances in parametric coding for high-quality audio" in Preprint 114th Conv. Aud. Eng. Soc., Mar. 2003, 및 J. Engdegard, H. Purnhagen, J. Roden, 및 L. Liljeryd의 "Synthetic ambience in parametric stereo coding," in Preprint 117th Conv. Aud. Eng. Soc., May 2004에 제시되어 있다.
C-대-E BCC
상술된 바와 같이, BCC는 하나 이상의 송신 채널로 구현될 수 있다. C-대-E BCC를 나타내는, 하나의 단일 (송신되는) 채널이 아니라, E개의 채널로서 C개의 오디오 채널들을 표현하는 BCC의 변형이 설명되었다. C-대-E BCC에 대한 (적어도) 2개의 모티베이션들이 존재한다.
o 하나의 송신 채널에 의한 BCC는 스테레오 또는 다-채널 오디오 재생을 위한 기존의 모노 시스템들을 업그레이드하기 위해 역방향 호환 가능한 경로를 제공한다. 업그레이드된 시스템은 BCC 사이드 정보를 부가적으로 송신하는 동안, BCC 다운믹싱된 합 신호를 기존의 모노 하부구조를 통해 송신한다. C-대-E BCC는 C-채널 오디오의 E-채널 역방향 호환 가능한 코딩에 적용 가능하다.
o C-대-E BCC는 송신되는 채널들의 수의 상이한 감소 정도들 면에서 스케일러빌리티(scalability)를 도입한다. 송신되는 오디오 채널들이 더 많을수록, 오디오 품질이 더 양호해질 것이 기대된다.
ICTD, ICLD, 및 ICC 큐들을 규정하는 방법과 같은 C-대-E BCC에 대한 신호 처리 세부사항들은 2004년 1월 20일자로 출원된 미국 출원 일련 번호 10/762,100(Faller 13-1)에 설명되어 있다.
외부에서 제공된 다운믹스를 갖는 동기화 코딩
도 2는 C개의 입력 채널들이 사이드 정보로서 C개의 입력 채널들로부터 도출되는 공간 큐들(예를 들어, ICTD, ICLD, 및/또는 ICC)과 함께 송신/코딩되는 E개의 다운믹싱된 채널로 다운믹싱되는 C-대-E BCC 방식을 도시한다. 예시적인 5-대-2 BCC 방식에서, 5개의 서라운드 채널들이 스테레오로 다운믹싱된다. 레거시 수신기들(legacy receiver)들은 스테레오를 재생하는 반면, 강화된 수신기(즉, BCC-가능한) 수신기들은 5-채널 서라운드 신호를 복구하기 위하여 사이드 정보에 기초하여 BCC 합성을 구현한다.
통상적으로, 스테레오 신호들 및 다-채널(예를 들어, 서라운드) 신호들이 생성될 때, 상기 신호들은 스튜디오 엔지니어에 의해 개별적으로 최적화/믹싱된다. 도 2의 다운믹서(206)에 의해 구현되는 바와 같은 다-채널 신호의 자동 다운믹싱에 의해 생성되는 스테레오 신호는 전형적으로 스튜디오 엔지니어에 의한 수동의 최적 제작에 의해 생성되는 스테레오 신호보다 양호하지 않을 것이다. 레거시 수신기들이 고-품질 스테레오를 재생할 수 있도록 하기 위한 하나의 가능한 방법은 다운믹서(206)에 의해 생성되는 것과 같은 다운믹싱된 스테레오 신호보다는 오히려, 스튜디오 엔지니어에 의해 생성되는 스테레오 신호와 같은 외부에서 제공되는 스테레오 신호를 공간 큐와 함께 송신하는 것이다.
도 10은 BCC 인코더(1002) 및 BCC 디코더(1004)를 갖는 BCC 오디오 처리 시 스템(1000)의 블록도를 도시한다. (도 2의 BCC 추정기(208)과 유사한) BCC 추정기(1008)는 다-채널(예를 들어, 서라운드) 입력 신호
Figure 112007047940915-PCT00049
로부터 BCC 사이드 정보(1010)를 생성하고, 인코더(1002)는 다-채널 신호에 대응하는 외부에서 제공되는 스테레오 신호
Figure 112007047940915-PCT00050
와 함께 BCC 사이드 정보를 디코더(1004)에 송신한다. (도 2의 BCC 합성기와 유사한) BCC 합성기(1012)는 수신된 BCC 사이드 정보를 수신되는 스테레오 신호
Figure 112007047940915-PCT00051
에 적용하여, 다-채널 신호의 합성된 버전
Figure 112007047940915-PCT00052
을 생성한다.
BCC 추정기(1008)에 제공되는 다-채널 입력 신호 이외에, 도 10은 또한 BCC 추정기(1008)에 제공되는 외부에서 제공되는 스테레오 신호를 도시한다. 어떤 구현예들에서, BCC 추정기(1008)는 BCC 사이드 정보를 생성하는데 있어서 외부에서 제공되는 스테레오 신호에 결코 의존하지 않는다. 다른 구현예들에서, 어떤 다른 상황들에서, BCC 추정기(1008)는 예를 들어, 스튜디오-엔지니어링된 다운믹싱 처리의 결과로서, 외부에서 제공되는 스테레오 신호가 다-채널 입력 신호와 충분히 상이할 때, BCC 사이드 정보를 생성하기 위하여 외부에서 제공되는 스테레오 신호를 사용할 수 있다.
도 10에 도시된 BCC 방식은 외부에서 제공되는 스테레오 신호가 다-채널 입력 신호와 양호하게 동기화된다고 가정한다. 이것은 사실이 아닐 수 있다. 스테레오 신호 및 다-채널 신호 사이에 지연이 존재할 수 있을 뿐만 아니라, 그 지연이 시간의 함수로서 변화될 수 있다.
도 11은 본 발명의 일 실시예에 따른, BCC 인코더(1102) 및 BCC 디코더(1104)를 갖는 BCC 오디오 처리 시스템(1100)의 블록도이다. 도 11에 도시된 바와 같이, 도 10의 BCC 추정기(1008)와 유사한 BCC 추정기(1108) 이외에, BCC 인코더(1102)는 (도 2의 다운믹서(206)와 유사한) 다운믹서(1106), 고정된 지연 모듈들(1114 및 1116), 지연 추정기(1118), 및 프로그램가능 지연 모듈(1120)을 포함한다.
다운믹서(1106)는 다-채널 입력 신호를 다운믹싱하여, 외부에서 제공되는 스테레오 신호의 지연된 버전과 함께 고정된 지연 모듈들(1114 및 1116)로부터 지연 추정기(1118)에 인가되는 다운믹싱 스테레오 신호를 생성한다. 지연 추정기(1118)는 2개의 스테레오 신호들을 비교하여 2개의 스테레오 신호들 사이의 지연 추정치를 (예를 들어, 시간적으로 적응 가능하게, 그리고 아마도 상이한 주파수 대역들에 대해 개별적으로) 생성한다. 그 추정된 지연에 기초하여, 지연 추정기(1118)는 BCC 추정기(1108)에 의해 생성되는 BCC 사이드 정보에 프로그램가능 지연 모듈(1120)에 의해 인가되는 지연의 량을 제어하는 제어 신호를 생성하여, 2개의 스테레오 신호들 사이의 추정된 지연을 보상해서, 사이드 정보(1110)가 디코더(1104)에 송신하기 위한 지연된 스테레오 신호와 양호하게 동기화되도록 한다.
고정된 지연 모듈들(1114 및 1116)에 의해 인가된 지연들은, (1) 다운믹서(1106), BCC 추정기(1108), 및 지연 추정기(1118)와 관련된 처리 지연들을 보상하고, (2) 프로그램가능 지연 모듈(1120)에 의해 인가될 지연들이 항상 양의 지연들이 되도록 설계된다.
특정 구현예에 따르면, 프로그램가능 지연 모듈(1120)은 필요에 따라 큐들을 스킵(skip) 또는 반복함으로써, 또는 더 정교하게는, 어떤 적절한 보간 기술(예를 들어, 선형 보간)을 적용함으로써 BCC 사이드 정보에 인가되는 지연을 조정할 수 있다. 이론적으로, 비록 덜 실용적일지라도 대안적인 실시예들에서, BCC 사이드 정보를 압축하거나 확장하기보다는 오히려, 외부에서 제공되는 스테에로 신호 및 BCC 사이드 정보의 상대적인 타이밍이 스테레오 신호 및/또는 다-채널 입력 신호를 압축하거나 확장함으로써 조정될 수 있다.
도 12는 본 발명의 일 실시예에 따른, 2개의 오디오 파형들(z1(n) 및 z2(n)) 사이의 지연을 추정하기 위하여 지연 추정기(1118)에 의해 구현되는 처리를 나타내는 블록도이다. 하나의 구현예에서, z1(n)는 도 11의 다운믹서(1106)에 의해 생성되는 다운믹싱된 스테레오 신호의 특정 채널(예를 들어, 우측 채널 또는 좌측 채널)에 대응할 수 있고, 그 경우에, z2(n)는 지연되는 외부에서 제공되는 스테레오 신호의 대응하는 채널에 대응할 것이다. 또 다른 가능한 구현예에서, z1(n)은 도 11의 다운믹서(1106)에 의해 생성되는 다운믹싱된 스테레오 신호의 채널들의 합에 대응할 수 있고, 그 경우에, z2(n)는 지연되는 외부에서 제공되는 스테레오 신호의 채널들의 대응하는 합에 대응할 것이다.
도 12에 나타낸 바와 같이, 각각의 오디오 파형은 대응하는 필터 뱅크(FB)(1202)에 의해 서브대역 영역으로 변환된다. 지연 추정 블록(1204)은 서브대 역들 중 하나 이상-및 모두가 가능함-의 거듭제곱들의 단-시간 추정치들을 생성하고, 여기서 시간 k에서의 서브대역 거듭제곱 추정치들의 벡터들이 Z1(k) 및 Z2(k)로 표시된다. (대안적으로, 서브대역 크기들의 단-시간 추정치들이 사용될 수 있다.) 지연 추정 블록(1204)은 다음과 같이 식(15)에 따라, 표준화된 벡터 교차-상관 함수(Csz(d))를 계산함으로써 2개의 파형들 사이의 시간적 및 공간적 유사성을 측정하며,
Figure 112007047940915-PCT00053
(15)
여기서
Figure 112007047940915-PCT00054
는 수학적인 기대값을 나타내고, "ㆍ"는 벡터 내적 연산자이며, d는 타임 래그 인덱스(time lag index)이다.
2개의 파형들 사이의 지연이 시간적으로 변화할 수 있기 때문에, 식(15)의 단-시간 추정치(
Figure 112007047940915-PCT00055
)는 다음과 같이 식(16)에 따라 계산될 수 있고,
Figure 112007047940915-PCT00056
(16)
여기서,
Figure 112007047940915-PCT00057
이고,
Figure 112007047940915-PCT00058
은 다음과 같이 식(17)에 의해 지수적으로 감쇠하는 추정 윈도우(T)의 시간-상수를 결정하는 규정된 상수이며,
Figure 112007047940915-PCT00059
(17)
여기서,
Figure 112007047940915-PCT00060
는 (다운샘플링된) 서브대역 샘플링 주파수를 나타낸다.
지연 추정 블록(1204)은 다음과 같이 식(18)에 따라, 표준화된 벡터 교차-상관 함수(
Figure 112007047940915-PCT00061
)의 지연(d(k)) 및 래그(d)을 추정한다.
Figure 112007047940915-PCT00062
(18)
계산된 지연(d(k))의 시간 레졸루션이 서브대역 샘플링 간격(1/
Figure 112007047940915-PCT00063
)에 의해 제한된다는 점에 주의하라.
다음과 같이 식(19)에 따라 순시적인 표준화된 교차-상관 함수의 최대 값으로서 규정되는, 2개의 파형들 사이의 유사성(예를 들어, 코히어런스(c12(n))의 추정치를 획득하기 위하여 교차-상관 함수의 표준화가 도입된다.
Figure 112007047940915-PCT00064
(19)
품질을 개선하기 위하여, 코히어런스(c12(n))가 1에 충분히 가깝지 않은 경우, BCC 큐들은 외부에서 제공되는 스테레오 신호가 다-채널 오디오 콘텐트와 매우 유사하지 않다는 가정 하에서 더 양호한 결과들이 획득되도록 조정될 수 있다.
도 12에 도시된 처리가 2개의 전체-대역 오디오 파형들에 적용될 수 있을지라도, 대안적인 구현예들에서, 상기 처리는 상이한 주파수들에서 상이한 지연들을 갖는 오디오 신호들에 대하여 상이한 주파수 대역에서 독립적으로 적용될 수 있다.
본 발명의 어떤 구현예들에서, 지연 추정기(1118)가 2개의 스테레오 신호들 사이의 타임 래그의 추정치를 생성하기 위하여 대응하는 지연되는 외부에서 제공되는 스테레오 채널과 함께 하나의 다운믹싱된 스테레오 채널만(예를 들어, 우측 채널만 또는 좌측 채널만)이 지연 추정기(1118)에 제공될 필요가 있다는 점에 주의하라. 대안적으로, 지연 추정치가 좌측 채널들에 대해 생성될 수 있고, 또 다른 지연 추정치가 우측 채널들에 대해 생성될 수 있다. 그러한 경우에, 더 큰 코히어런스(c12(n))를 갖는 지연 추정치가 사용되거나, 2개의 지연 추정치들의 가중된 평균이 계산될 수 있고, 여기서 가중은 2개의 지연 추정치들과 관련된 코히어런스들의 상대적인 크기들의 함수이다.
설명된 지연-추정 알고리즘은 서브대역 신호들의 시간적인 인벨롭들 사이의 지연을 추정하는 것에 기초한다. 시간적인 인벨롭들(예를 들어, 거듭제곱/크기 값들만)을 사용하면 알고리즘이 위상에 민감하지 않게 되기 때문에, 알고리즘은 오디오 파형이 다소 상이할 경우, 예를 들어, 오디오 효과들이 다-채널 스테레오 및 외부에서 제공되는 스테레오 신호 사이에서 상이하게 처리 되는 경우에도 로버스트(robust)하다.
본 발명이 C-대-2 BCC 방식의 상황에서 설명되었을지라도, 본 발명은 임의의 적절한 C-대-E BCC 방식에서 구현될 수 있고, 여기서 C≥E>1이다.
부가적인 대안 실시예들
본 발명이 큐 코드들이 하나 이상의 오디오 채널들(즉, E개의 송신되는 채널들)과 함께 송신되는 BCC 코딩 방식들의 상황에서 설명되었을지라도, 대안적인 실시예들에서, 큐 코드들은 채널들 및 아마도 다른 BCC 코드들을 이미 송신한 장소(예를 들어, 디코더 또는 저장 디바이스)에 송신될 수 있다.
본 발명이 BCC 코딩 방식의 상황에서 설명되었을지라도, 본 발명은 또한 오디오 신호들이 상관해제되는 다른 오디오 처리 시스템들 또는 신호들을 상관해제시킬 필요가 있는 다른 오디오 처리 의 상황에서 구현될 수 있다.
본 발명이 인코더가 시간 영역에서 입력 오디오 신호를 수신하고 시간 영역에서 송신되는 오디오 신호들을 생성하며 디코더가 시간 영역에서 송신된 오디오 신호들을 수신하고 시간 영역에서 재생 오디오 신호들을 생성하는 구현예들의 상황에서 설명되었을지라도, 본 발명은 이에 국한되지 않는다. 예를 들어, 다른 구현예들에서, 송신되는 입력, 및 재생 오디오 신호들 중 어느 하나 또는 그 이상은 주파수 영역에서 표현될 수 있다.
BCC 인코더들 및/또는 디코더들은 텔레비전 또는 전자 음악 배포, 영화관들, 방송, 스트리밍, 및/또는 수신을 위한 시스템들을 포함하는 다양한 애플리케이션들 또는 시스템들과 함께 사용되거나 상기 다양한 애플리케이션들 또는 시스템들 내로 통합될 수 있다. 이들은 예를 들어, 지상, 위성, 케이블, 인터넷, 인트라넷, 또는 물리적 매체(예를 들어, 콤팩트 디스크들, 디지털 다기능 디스크들, 반도체 칩들, 하드 드라이브들, 메모리 카드들 등)를 통한 인코딩/디코딩 송신용 시스템들을 포함한다. BCC 인코더들 및/또는 디코더들은 또한 예를 들어, 다수의 기계들, 플랫폼 들, 또는 매체에 대해 발행될 수 있는 교육 및/또는 엔터테인먼트(동작, 롤 플레이, 전략, 모험, 시뮬레이션들, 레이싱, 스포츠, 아케이드, 카드, 및 보드 게임들)용으로 사용자와 대화하도록 의도된 대화식 소프트웨어 제품들을 포함하는 게임들 및 게임 시스템들에서 사용될 수 있다. 또한, BCC 인코더들 및/또는 디코더들은 오디오 레코더들/플레이어들 또는 CD-ROM/DVD 시스템들에 통합될 수 있다. BCC 인코더들 및/또는 디코더들은 또한 디지털 디코딩(예를 들어, 플레이어, 디코더)을 통합하는 PC 소프트웨어 애플리케이션 및 디지털 인코딩 케이퍼빌리티들(예를 들어, 인코더, 립퍼(ripper), 레코더, 또는 주크박스)을 통합하는 소프트웨어 애플리케이션들 내로 통합될 수 있다.
본 발명은 (ASIC 또는 FPGA와 같은) 단일 집적 회로, 다중-칩 모듈, 단일 카드, 다중-카드 회로 팩으로서의 가능한 구현예를 포함하는 회로-기반 처리들로서 구현될 수 있다. 당업자들에게 명백한 바와 같이, 회로 소자들의 다양한 기능들은 또한 소프트웨어 프로그램에서의 처리 단계들로서 구현될 수 있다. 이와 같은 소프트웨어는 예를 들어, 디지털 신호 프로세서, 마이크로-제어기, 또는 범용 컴퓨터에서 사용될 수 있다.
본 발명은 방법들 및 이들 방법들을 실행하는 장치들의 형태로 구현될 수 있다. 본 발명은 또한 플로피 디스켓들, CD-ROMs, 하드 드라이브들, 또는 임의의 다른 기계-판독 가능한 저장 매체와 같은 유형 매체에서 구현되는 프로그램 코드의 형태로 구현될 수 있고, 상기 프로그램 코드가 컴퓨터와 같은 기계 내로 로딩되어 상기 기계에 의해 실행될 때, 상기 기계는 본 발명을 실행하는 장치가 된다. 본 발 명은 또한 예를 들어, 저장 매체에 저장되든지, 기계 내로 로딩되어 상기 기계에 의해 실행되든지, 또는 전기 와이어링 또는 케이블링, 광섬유들, 또는 전자기 방사와 같은 어떤 송신 매체 또는 캐리어를 통하여 송신되든지 간에, 프로그램 코드의 형태로 구현될 수 있고, 상기 프로그램 코드가 컴퓨터와 같은 기계 내로 로딩되어 상기 기계에 의해 실행될 때, 상기 기계는 본 발명을 실행하는 장치가 된다. 범용 프로세서 상에서 구현될 때, 프로그램 코드 세그먼트들은 특정 논리 회로들과 유사하게 동작하는 특정한 디바이스를 제공하기 위하여 프로세서와 결합한다.
본 발명은 또한 상기 본 발명의 방법 및/또는 장치를 사용하여 생성되는 자기 기록 매체 등에 저장된 자기-필드 변화들을 매체를 통해 전기적으로 또는 선택적으로 송신되는 신호 값들의 비트스트림 또는 다른 시퀀스의 형태로 구현할 수 있다.
본 발명의 특성을 설명하기 위하여 서술되고 설명되는 부분들의 세부사항들, 재료들, 및 배열들의 다양한 변경들이 다음의 청구항들에 표현된 바와 같은 본 발명의 범위를 벗어남이 없이 당업자에 의해 행해질 수 있다는 것이 또한 이해될 것이다.
다음의 청구항들에서의 단계들이 만약 있다면, 대응하는 라벨링을 갖는 특정 시퀀스에서 열거될지라도, 청구항 열거들이 이들 단계들 중 일부 또는 모두를 실행하기 위한 특정 시퀀스를 나타내지 않는 경우, 이들 단계들은 반드시 그 특정 시퀀스로 구현되는 것으로 국한되도록 의도되는 것은 아니다.

Claims (24)

  1. 오디오 채널들을 인코딩하는 방법에 있어서,
    C개의 입력 채널들에 대한 하나 이상의 큐 코드들을 생성하는 단계;
    상기 C개의 입력 채널들을 다운믹싱하여 적어도 하나의 다운믹싱된 채널을 생성하는 단계;
    상기 적어도 하나의 다운믹싱된 채널과 E개의 외부에서 제공되는 채널(들) 중 적어도 하나 사이의 타임 래그(time lag)를 추정하는 단계로서, C>E≥1인, 상기 추정 단계;
    상기 E개의 외부에서 제공되는 채널(들)과 상기 하나 이상의 큐 코드들 사이의 동기화를 개선시키기 위하여, 상기 추정된 타임 래그에 기초하여 상기 E개의 외부에서 제공되는 채널(들)과 상기 하나 이상의 큐 코드들 사이의 상대적인 타이밍을 조절하는 단계; 및
    상기 E개의 외부에서 제공되는 채널(들) 및 상기 하나 이상의 큐 코드들을 송신하여, 디코더가 상기 하나 이상의 큐 코드들에 기초하여 상기 E개의 외부에서 제공되는 채널(들)의 디코딩 동안 합성 처리를 수행하도록 하는 단계를 포함하는, 오디오 채널 인코딩 방법.
  2. 제 1 항에 있어서,
    상기 C개의 입력 채널들은 E개의 다운믹싱된 채널들을 생성하기 위하여 다운 믹싱되며, E>1이고,
    상기 E개의 외부에서 제공되는 채널들과 상기 E개의 다운믹싱된 채널들 사이의 추정된 타임 래그는 각각의 외부에서 제공되는 채널과 대응하는 다운믹싱된 채널들 사이의 채널간 타임 래그를 추정함으로써 생성되는, 오디오 채널 인코딩 방법.
  3. 제 2 항에 있어서, 상기 추정된 타임 래그는 다수의 채널간 타임 래그들의 가중된 평균에 기초하는, 오디오 채널 인코딩 방법.
  4. 제 2 항에 있어서, 상기 추정된 타임 래그는 최대 코히어런스를 갖는 한 쌍의 대응하는 채널들에 대한 채널간 타임 래그에 대응하는, 오디오 채널 인코딩 방법.
  5. 제 1 항에 있어서, 상기 E개의 외부에서 제공되는 채널(들)과 상기 하나 이상의 큐 코드들 사이의 상대적인 타이밍은 필요에 따라 큐 코드들을 스킵 또는 반복함으로써 조절되는, 오디오 채널 인코딩 방법.
  6. 제 1 항에 있어서, 상기 E개의 외부에서 제공되는 채널(들)과 상기 하나 이상의 큐 코드들 사이의 상대적인 타이밍은 필요에 따라 큐 코드들 사이를 보간함으로써 조절되는, 오디오 채널 인코딩 방법.
  7. 제 1 항에 있어서,
    상기 적어도 하나의 다운믹싱된 채널과 적어도 하나의 외부에서 제공되는 채널 사이의 타임 래그는:
    2개의 채널들을 서브대역 영역으로 변환하고,
    상기 서브대역 영역에서 하나 이상의 서브대역들의 크기 또는 채널 거듭제곱의 단-시간(short-time) 추정치들을 계산하고,
    상기 단-시간 추정치들에 기초하여 표준화된 벡터 교차-상관 함수를 계산하고,
    상기 표준화된 벡터 교차-상관 함수를 최대화하는 지연 값에 기초하여 상기 타임 래그를 선택함으로써 추정되는, 오디오 채널 인코딩 방법.
  8. 제 7 항에 있어서,
    상기 표준화된 벡터 교차-상관 함수(cSZ(d))는:
    Figure 112007047940915-PCT00065
    에 의해 제공되며,
    Figure 112007047940915-PCT00066
    는 수학적인 기대값을 나타내고,
    Figure 112007047940915-PCT00067
    는 시간(k)에서의 상기 2개의 채널들 중 하나에 대한 단-시간 추정치들의 벡터이고,
    Figure 112007047940915-PCT00068
    는 시간(k-d)에서의 다른 채널에 대한 단-시간 추정치들에 대한 벡터이고,
    "ㆍ"는 벡터 내적 연산자(vector-dot-product operator)이며,
    d는 타임 래그 인덱스인, 오디오 채널 인코딩 방법.
  9. 제 7 항에 있어서,
    상기 표준화된 벡터 교차-상관 함수
    Figure 112007047940915-PCT00069
    는:
    Figure 112007047940915-PCT00070
    에 의해 제공되며,
    Figure 112007047940915-PCT00071
    이고,
    Figure 112007047940915-PCT00072
    는 시간(k)에서의 상기 2개의 채널들 중 하나에 대한 단-시간 추정치들의 벡터이고,
    Figure 112007047940915-PCT00073
    는 시간(k-d)에서의 다른 채널에 대한 단-시간 추정치들에 대한 벡터이고,
    Figure 112007047940915-PCT00074
    은 포괄적인, 0과 1 사이의 규정된 상수인, 오디오 채널 인코딩 방법.
  10. 제 1 항에 있어서, 상기 E개의 외부에서 제공되는 채널(들)과 상기 하나 이 상의 큐 코드들 사이의 상대적인 타이밍을 조절하는 단계가 양의 시간 지연들을 포함하도록 하기 위하여, 상기 E개의 외부에서 제공되는 채널(들)을 지연시키는 단계를 더 포함하는, 오디오 채널 인코딩 방법.
  11. 오디오 채널들을 인코딩하는 장치에 있어서,
    C개의 입력 채널들에 대한 하나 이상의 큐 코드들을 생성하는 수단;
    상기 C개의 입력 채널들을 다운믹싱하여 적어도 하나의 다운믹싱된 채널을 생성하는 수단;
    상기 적어도 하나의 다운믹싱된 채널과 E개의 외부에서 제공되는 채널(들) 중 적어도 하나 사이의 타임 래그를 추정하는 수단으로서, C>E≥1인, 상기 추정 수단;
    상기 E개의 외부에서 제공되는 채널(들)과 상기 하나 이상의 큐 코드들 사이의 동기화를 개선시키기 위하여 상기 추정된 타임 래그에 기초하여 상기 E개의 외부에서 제공되는 채널(들)과 상기 하나 이상의 큐 코드들 사이의 상대적인 타이밍을 조절하는 수단; 및
    상기 E개의 외부에서 제공되는 채널(들)과 상기 하나 이상의 큐 코드들을 송신하여, 디코더가 상기 하나 이상의 큐 코드들에 기초하여 상기 E개의 외부에서 제공되는 채널(들)의 디코딩 동안 합성 처리를 수행하도록 하는 수단을 포함하는, 오디오 채널 인코딩 장치.
  12. 오디오 채널들을 인코딩하는 장치에 있어서,
    C개의 입력 채널들에 대한 하나 이상의 큐 코드들을 생성하도록 적응된 코드 추정기;
    상기 C개의 입력 채널들을 다운믹싱하여 적어도 하나의 다운믹싱된 채널을 생성하도록 적응된 다운믹서;
    상기 적어도 하나의 다운믹싱된 채널과 E개의 외부에서 제공되는 채널(들) 중 적어도 하나 사이의 타임 래그를 추정하도록 적응된 지연 추정기로서, C>E≥1인, 상기 지연 추정기; 및
    상기 E개의 외부에서 제공되는 채널(들)과 상기 하나 이상의 큐 코드들 사이의 동기화를 개선시키기 위하여 상기 추정된 타임 래그에 기초하여 상기 E개의 외부에서 제공되는 채널(들)과 상기 하나 이상의 큐 코드들 사이의 상대적인 타이밍을 조절하도록 적응된 프로그램가능 지연 모듈을 포함하며,
    상기 장치는 상기 E개의 외부에서 제공되는 채널(들)과 상기 하나 이상의 큐 코드들을 송신하여, 디코더가 상기 하나 이상의 큐 코드들에 기초하여 상기 E개의 외부에서 제공되는 채널(들)의 디코딩 동안 합성 처리를 수행하도록 적응되는, 오디오 채널 인코딩 장치.
  13. 제 12 항에 있어서,
    상기 장치는 디지털 비디오 레코더, 디지털 오디오 레코더, 컴퓨터, 위성 송신기, 케이블 송신기, 지상 방송 송신기, 가정용 엔터테인먼트 시스템, 및 영화관 시스템으로 이루어진 그룹으로부터 선택된 시스템이며,
    상기 시스템은 상기 코드 추정기, 상기 다운믹서, 상기 지연 추정기, 및 상기 프로그램가능 지연 모듈을 포함하는, 오디오 채널 인코딩 장치.
  14. 제 12 항에 있어서,
    상기 다운믹서는 상기 C개의 입력 채널들을 다운믹싱하여 E개의 다운믹싱된 채널들을 생성하도록 적응되고, E>1이고,
    상기 지연 추정기는 각각의 외부에서 제공되는 채널과 대응하는 다운믹싱된 채널 사이의 채널간 타임 래그를 추정함으로써 상기 E개의 외부에서 제공되는 채널들과 상기 E개의 다운믹싱된 채널들 사이의 추정된 타임 래그를 생성하도록 적응되는, 오디오 채널 인코딩 장치.
  15. 제 14 항에 있어서, 상기 지연 추정기는 다수의 채널간 타임 래그들의 가중된 평균에 기초하여 상기 추정된 타임 래그를 생성하도록 적응되는, 오디오 채널 인코딩 장치.
  16. 제 14 항에 있어서, 상기 지연 추정기는 최대 코히어런스를 갖는 한 쌍의 대응하는 채널들에 대한 상기 채널간 타임 래그에 대응하는 상기 추정된 타임 래그를 선택하도록 적응되는, 오디오 채널 인코딩 장치.
  17. 제 12 항에 있어서, 상기 프로그램가능 지연 모듈은 필요에 따라 큐 코드들을 스킵 또는 반복함으로써 상기 E개의 외부에서 제공되는 채널과 상기 하나 이상의 큐 코드들 사이의 상대적인 타이밍을 조절하도록 적응되는, 오디오 채널 인코딩 장치.
  18. 제 12 항에 있어서, 상기 프로그램가능 지연 모듈은 필요에 따라 큐 코드들 사이를 보간함으로써 상기 E개의 외부에서 제공되는 채널(들)과 상기 하나 이상의 큐 코드들 사이의 상대적인 타이밍을 조절하도록 적응되는, 오디오 채널 인코딩 장치.
  19. 제 12 항에 있어서,
    상기 지연 추정기는:
    상기 2개의 채널들을 서브대역 영역으로 변환하고,
    상기 서브대역 영역에서 하나 이상의 서브대역들의 크기 또는 채널 거듭제곱의 단-시간 추정치들을 계산하고,
    상기 단-시간 추정치들에 기초하여 표준화된 벡터 교차-상관 함수를 계산하고,
    상기 표준화된 벡터 교차-상관 함수를 최대화하는 지연 값에 기초하여 타임 래그를 선택함으로써, 상기 적어도 하나의 다운믹싱된 채널과 적어도 하나의 외부에서 제공되는 채널 사이의 타임 래그를 추정하도록 적응되는, 오디오 채널 인코딩 장치.
  20. 제 19 항에 있어서,
    상기 표준화된 벡터 교차-상관 함수(cSZ(d))는:
    Figure 112007047940915-PCT00075
    에 의해 제공되며,
    Figure 112007047940915-PCT00076
    는 수학적인 기대값을 나타내고,
    Figure 112007047940915-PCT00077
    는 시간(k)에서의 상기 2개의 채널들 중 하나에 대한 단-시간 추정치들의 벡터이고,
    Figure 112007047940915-PCT00078
    는 시간(k-d)에서의 다른 채널에 대한 단-시간 추정치들에 대한 벡터이고,
    "ㆍ"는 벡터 내적 연산자이며,
    d는 타임 래그 인덱스인, 오디오 채널 인코딩 장치.
  21. 제 19 항에 있어서,
    상기 표준화된 벡터 교차-상관 함수
    Figure 112007047940915-PCT00079
    는:
    Figure 112007047940915-PCT00080
    에 의해 제공되며,
    Figure 112007047940915-PCT00081
    이고,
    Figure 112007047940915-PCT00082
    는 시간(k)에서의 상기 2개의 채널들 중 하나에 대한 단-시간 추정치들의 벡터이고,
    Figure 112007047940915-PCT00083
    는 시간(k-d)에서의 다른 채널에 대한 단-시간 추정치들에 대한 벡터이고,
    Figure 112007047940915-PCT00084
    은 포괄적인, 0과 1 사이의 규정된 상수인, 오디오 채널 인코딩 장치.
  22. 제 12 항에 있어서, 상기 E개의 외부에서 제공되는 채널(들)과 상기 하나 이상의 큐 코드들 사이의 상대적인 타이밍을 조절하는 것이 양의 시간 지연들을 수반하도록 하기 위하여, 상기 E개의 외부에서 제공되는 채널(들)을 지연시키도록 적응된 E개의 지연 모듈(들)을 더 포함하는, 오디오 채널 인코딩 장치.
  23. 인코딩된 프로그램 코드를 갖는 기계-판독 가능 매체로서, 상기 프로그램 코드가 기계에 의해 실행될 때, 상기 기계는 오디오 채널들을 인코딩하는 방법을 구현하는, 상기 기계-판독 가능 매체에 있어서,
    상기 방법은:
    C개의 입력 채널들에 대한 하나 이상의 큐 코드들을 생성하는 단계;
    상기 C개의 입력 채널들을 다운믹싱하여 적어도 하나의 다운믹싱된 채널을 생성하는 단계;
    상기 적어도 하나의 다운믹싱된 채널과 E개의 외부에서 제공되는 채널(들) 중 적어도 하나 사이의 타임 래그를 추정하는 단계로서, C>E≥1인, 상기 추정 단계;
    상기 E개의 외부에서 제공되는 채널(들)과 상기 하나 이상의 큐 코드들 사이의 동기화를 개선시키기 위하여 상기 추정된 타임 래그에 기초하여 상기 E개의 외부에서 제공되는 채널(들)과 상기 하나 이상의 큐 코드들 사이의 상대적인 타이밍을 조절하는 단계; 및
    상기 E개의 외부에서 제공되는 채널(들) 및 상기 하나 이상의 큐 코드들을 송신하여, 디코더가 상기 하나 이상의 큐 코드들에 기초하여 상기 E개의 외부에서 제공되는 채널(들)의 디코딩 동안 합성 처리를 수행하도록 하는 단계를 포함하는, 기계-판독 가능 매체.
  24. 인코딩된 오디오 비트스트림에 있어서,
    C개의 입력 채널들에 대한 하나 이상의 큐 코드들을 생성하고,
    상기 C개의 입력 채널을 다운믹싱하여 적어도 하나의 다운믹싱된 채널을 생성하고,
    상기 적어도 하나의 다운믹싱된 채널과 E개의 외부에서 제공되는 채널(들) 중 적어도 하나 사이의 타임 래그를 추정하고(C>E≥1);
    상기 E개의 외부에서 제공되는 채널(들)과 상기 하나 이상의 큐 코드들 사이의 동기화를 개선시키기 위하여 상기 추정된 타임 래그에 기초하여 상기 E개의 외부에서 제공되는 채널(들)과 상기 하나 이상의 큐 코드들 사이의 상대적인 타이밍을 조절하고,
    상기 인코딩된 오디오 비트스트림을 형성하기 위하여 상기 E개의 외부에서 제공되는 채널(들) 및 상기 하나 이상의 큐 코드들을 결합함으로써 생성되는, 인코딩된 오디오 비트스트림.
KR1020077015054A 2004-11-30 2005-11-22 오디오 채널들을 인코딩하는 방법 및 장치 KR101236259B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US63180804P 2004-11-30 2004-11-30
US60/631,808 2004-11-30
PCT/US2005/042771 WO2006060278A1 (en) 2004-11-30 2005-11-22 Synchronizing parametric coding of spatial audio with externally provided downmix

Publications (2)

Publication Number Publication Date
KR20070086849A true KR20070086849A (ko) 2007-08-27
KR101236259B1 KR101236259B1 (ko) 2013-02-22

Family

ID=36011656

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077015054A KR101236259B1 (ko) 2004-11-30 2005-11-22 오디오 채널들을 인코딩하는 방법 및 장치

Country Status (6)

Country Link
US (1) US7761304B2 (ko)
EP (1) EP1817766B1 (ko)
JP (1) JP5017121B2 (ko)
KR (1) KR101236259B1 (ko)
DE (1) DE602005017302D1 (ko)
WO (1) WO2006060278A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140056368A (ko) * 2011-08-31 2014-05-09 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 마이크로폰 배치들 및 워터마킹된 오디오 신호들을 이용한 도착 방향 추정

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8917874B2 (en) * 2005-05-26 2014-12-23 Lg Electronics Inc. Method and apparatus for decoding an audio signal
JP4988716B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
KR100644715B1 (ko) * 2005-12-19 2006-11-10 삼성전자주식회사 능동적 오디오 매트릭스 디코딩 방법 및 장치
US8111830B2 (en) * 2005-12-19 2012-02-07 Samsung Electronics Co., Ltd. Method and apparatus to provide active audio matrix decoding based on the positions of speakers and a listener
JP4806031B2 (ja) * 2006-01-19 2011-11-02 エルジー エレクトロニクス インコーポレイティド メディア信号の処理方法及び装置
KR100983286B1 (ko) * 2006-02-07 2010-09-24 엘지전자 주식회사 부호화/복호화 장치 및 방법
KR100754220B1 (ko) * 2006-03-07 2007-09-03 삼성전자주식회사 Mpeg 서라운드를 위한 바이노럴 디코더 및 그 디코딩방법
US8126152B2 (en) * 2006-03-28 2012-02-28 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for a decoder for multi-channel surround sound
ATE527833T1 (de) 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
US9697844B2 (en) * 2006-05-17 2017-07-04 Creative Technology Ltd Distributed spatial audio decoder
US8712061B2 (en) * 2006-05-17 2014-04-29 Creative Technology Ltd Phase-amplitude 3-D stereo encoder and decoder
US8374365B2 (en) * 2006-05-17 2013-02-12 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
ES2396072T3 (es) * 2006-07-07 2013-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato para combinar múltiples fuentes de audio paramétricamente codificadas
EP2084901B1 (en) * 2006-10-12 2015-12-09 LG Electronics Inc. Apparatus for processing a mix signal and method thereof
JPWO2009050896A1 (ja) * 2007-10-16 2011-02-24 パナソニック株式会社 ストリーム合成装置、復号装置、方法
KR101438389B1 (ko) * 2007-11-15 2014-09-05 삼성전자주식회사 오디오 매트릭스 디코딩 방법 및 장치
EP2238589B1 (en) * 2007-12-09 2017-10-25 LG Electronics Inc. A method and an apparatus for processing a signal
DE102008009025A1 (de) * 2008-02-14 2009-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Berechnen eines Fingerabdrucks eines Audiosignals, Vorrichtung und Verfahren zum Synchronisieren und Vorrichtung und Verfahren zum Charakterisieren eines Testaudiosignals
DE102008009024A1 (de) * 2008-02-14 2009-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum synchronisieren von Mehrkanalerweiterungsdaten mit einem Audiosignal und zum Verarbeiten des Audiosignals
KR101614160B1 (ko) * 2008-07-16 2016-04-20 한국전자통신연구원 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
EP2395504B1 (en) 2009-02-13 2013-09-18 Huawei Technologies Co., Ltd. Stereo encoding method and apparatus
CN101848412B (zh) 2009-03-25 2012-03-21 华为技术有限公司 通道间延迟估计的方法及其装置和编码器
US8848925B2 (en) * 2009-09-11 2014-09-30 Nokia Corporation Method, apparatus and computer program product for audio coding
WO2012006770A1 (en) * 2010-07-12 2012-01-19 Huawei Technologies Co., Ltd. Audio signal generator
TWI462087B (zh) 2010-11-12 2014-11-21 Dolby Lab Licensing Corp 複數音頻信號之降混方法、編解碼方法及混合系統
EP3182409B1 (en) * 2011-02-03 2018-03-14 Telefonaktiebolaget LM Ericsson (publ) Determining the inter-channel time difference of a multi-channel audio signal
US8804971B1 (en) 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
CN105393304B (zh) 2013-05-24 2019-05-28 杜比国际公司 音频编码和解码方法、介质以及音频编码器和解码器
CN104700839B (zh) * 2015-02-26 2016-03-23 深圳市中兴移动通信有限公司 多声道声音采集的方法、装置、手机及系统
WO2017148526A1 (en) * 2016-03-03 2017-09-08 Nokia Technologies Oy Audio signal encoder, audio signal decoder, method for encoding and method for decoding

Family Cites Families (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US678236A (en) * 1901-04-04 1901-07-09 Gen Electric Electric measuring instrument.
US4236039A (en) * 1976-07-19 1980-11-25 National Research Development Corporation Signal matrixing for directional reproduction of sound
CA1268546C (en) 1985-08-30 1990-05-01 STEREO VOICE SIGNAL TRANSMISSION SYSTEM
DE3639753A1 (de) * 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
DE3912605B4 (de) * 1989-04-17 2008-09-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Digitales Codierverfahren
AU653582B2 (en) 1991-01-08 1994-10-06 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
DE4209544A1 (de) 1992-03-24 1993-09-30 Inst Rundfunktechnik Gmbh Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale
US5956352A (en) * 1992-04-24 1999-09-21 Digital Equipment Corporation Adjustable filter for error detecting and correcting system
US5703999A (en) 1992-05-25 1997-12-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Process for reducing data in the transmission and/or storage of digital signals from several interdependent channels
DE4236989C2 (de) * 1992-11-02 1994-11-17 Fraunhofer Ges Forschung Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle
US5371799A (en) * 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
US5463424A (en) 1993-08-03 1995-10-31 Dolby Laboratories Licensing Corporation Multi-channel transmitter/receiver system providing matrix-decoding compatible signals
JP3227942B2 (ja) 1993-10-26 2001-11-12 ソニー株式会社 高能率符号化装置
DE4409368A1 (de) * 1994-03-18 1995-09-21 Fraunhofer Ges Forschung Verfahren zum Codieren mehrerer Audiosignale
JP3277679B2 (ja) * 1994-04-15 2002-04-22 ソニー株式会社 高能率符号化方法と高能率符号化装置及び高能率復号化方法と高能率復号化装置
JPH0969783A (ja) 1995-08-31 1997-03-11 Nippon Steel Corp オーディオデータ符号化装置
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5771295A (en) 1995-12-26 1998-06-23 Rocktron Corporation 5-2-5 matrix system
US7012630B2 (en) * 1996-02-08 2006-03-14 Verizon Services Corp. Spatial sound conference system and apparatus
JP3793235B2 (ja) 1996-02-08 2006-07-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 2チャネル伝送及び1チャネル伝送に適合するnチャネル伝送
US5825776A (en) 1996-02-27 1998-10-20 Ericsson Inc. Circuitry and method for transmitting voice and data signals upon a wireless communication channel
US5889843A (en) 1996-03-04 1999-03-30 Interval Research Corporation Methods and systems for creating a spatial auditory environment in an audio conference system
US5812971A (en) 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
KR0175515B1 (ko) 1996-04-15 1999-04-01 김광호 테이블 조사 방식의 스테레오 구현 장치와 방법
US6987856B1 (en) * 1996-06-19 2006-01-17 Board Of Trustees Of The University Of Illinois Binaural signal processing techniques
US6697491B1 (en) * 1996-07-19 2004-02-24 Harman International Industries, Incorporated 5-2-5 matrix encoder and decoder system
JP3707153B2 (ja) 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
SG54379A1 (en) * 1996-10-24 1998-11-16 Sgs Thomson Microelectronics A Audio decoder with an adaptive frequency domain downmixer
SG54383A1 (en) * 1996-10-31 1998-11-16 Sgs Thomson Microelectronics A Method and apparatus for decoding multi-channel audio data
US5912976A (en) * 1996-11-07 1999-06-15 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same
US6131084A (en) 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6111958A (en) 1997-03-21 2000-08-29 Euphonics, Incorporated Audio spatial enhancement apparatus and methods
US6236731B1 (en) 1997-04-16 2001-05-22 Dspfactory Ltd. Filterbank structure and method for filtering and separating an information signal into different bands, particularly for audio signal in hearing aids
US5946352A (en) 1997-05-02 1999-08-31 Texas Instruments Incorporated Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain
US5860060A (en) * 1997-05-02 1999-01-12 Texas Instruments Incorporated Method for left/right channel self-alignment
US6108584A (en) * 1997-07-09 2000-08-22 Sony Corporation Multichannel digital audio decoding method and apparatus
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
US5890125A (en) * 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
US6021389A (en) * 1998-03-20 2000-02-01 Scientific Learning Corp. Method and apparatus that exaggerates differences between sounds to train listener to recognize and identify similar sounds
US6016473A (en) 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
TW444511B (en) 1998-04-14 2001-07-01 Inst Information Industry Multi-channel sound effect simulation equipment and method
JP3657120B2 (ja) * 1998-07-30 2005-06-08 株式会社アーニス・サウンド・テクノロジーズ 左,右両耳用のオーディオ信号を音像定位させるための処理方法
JP2000152399A (ja) * 1998-11-12 2000-05-30 Yamaha Corp 音場効果制御装置
US6408327B1 (en) * 1998-12-22 2002-06-18 Nortel Networks Limited Synthetic stereo conferencing over LAN/WAN
US6282631B1 (en) * 1998-12-23 2001-08-28 National Semiconductor Corporation Programmable RISC-DSP architecture
US6539357B1 (en) 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
JP4438127B2 (ja) 1999-06-18 2010-03-24 ソニー株式会社 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体
US6823018B1 (en) * 1999-07-28 2004-11-23 At&T Corp. Multiple description coding communication system
US6434191B1 (en) * 1999-09-30 2002-08-13 Telcordia Technologies, Inc. Adaptive layered coding for voice over wireless IP applications
US6614936B1 (en) * 1999-12-03 2003-09-02 Microsoft Corporation System and method for robust video coding using progressive fine-granularity scalable (PFGS) coding
US6498852B2 (en) * 1999-12-07 2002-12-24 Anthony Grimani Automatic LFE audio signal derivation system
US6845163B1 (en) * 1999-12-21 2005-01-18 At&T Corp Microphone array for preserving soundfield perceptual cues
CN1264382C (zh) * 1999-12-24 2006-07-12 皇家菲利浦电子有限公司 多通道音频信号处理装置和方法
US6782366B1 (en) 2000-05-15 2004-08-24 Lsi Logic Corporation Method for independent dynamic range control
US6850496B1 (en) * 2000-06-09 2005-02-01 Cisco Technology, Inc. Virtual conference room for voice conferencing
US6973184B1 (en) * 2000-07-11 2005-12-06 Cisco Technology, Inc. System and method for stereo conferencing over low-bandwidth links
US7236838B2 (en) 2000-08-29 2007-06-26 Matsushita Electric Industrial Co., Ltd. Signal processing apparatus, signal processing method, program and recording medium
JP3426207B2 (ja) 2000-10-26 2003-07-14 三菱電機株式会社 音声符号化方法および装置
TW510144B (en) 2000-12-27 2002-11-11 C Media Electronics Inc Method and structure to output four-channel analog signal using two channel audio hardware
US6885992B2 (en) * 2001-01-26 2005-04-26 Cirrus Logic, Inc. Efficient PCM buffer
US7006636B2 (en) 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US20030035553A1 (en) 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US6934676B2 (en) * 2001-05-11 2005-08-23 Nokia Mobile Phones Ltd. Method and system for inter-channel signal redundancy removal in perceptual audio coding
US7668317B2 (en) * 2001-05-30 2010-02-23 Sony Corporation Audio post processing in DVD, DTV and other audio visual products
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
JP4347698B2 (ja) 2002-02-18 2009-10-21 アイピージー エレクトロニクス 503 リミテッド パラメトリックオーディオ符号化
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
AU2003216686A1 (en) 2002-04-22 2003-11-03 Koninklijke Philips Electronics N.V. Parametric multi-channel audio representation
KR101016982B1 (ko) * 2002-04-22 2011-02-28 코닌클리케 필립스 일렉트로닉스 엔.브이. 디코딩 장치
WO2003094369A2 (en) 2002-05-03 2003-11-13 Harman International Industries, Incorporated Multi-channel downmixing device
US6940540B2 (en) * 2002-06-27 2005-09-06 Microsoft Corporation Speaker detection and tracking using audiovisual data
KR100981699B1 (ko) * 2002-07-12 2010-09-13 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
US7542896B2 (en) 2002-07-16 2009-06-02 Koninklijke Philips Electronics N.V. Audio coding/decoding with spatial parameters and non-uniform segmentation for transients
WO2004008437A2 (en) * 2002-07-16 2004-01-22 Koninklijke Philips Electronics N.V. Audio coding
AU2003274520A1 (en) 2002-11-28 2004-06-18 Koninklijke Philips Electronics N.V. Coding an audio signal
WO2004072956A1 (en) 2003-02-11 2004-08-26 Koninklijke Philips Electronics N.V. Audio coding
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
JP2006521577A (ja) 2003-03-24 2006-09-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチチャネル信号を表す主信号と副信号の符号化
US20050069143A1 (en) * 2003-09-30 2005-03-31 Budnikov Dmitry N. Filtering for spatial audio rendering
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7716043B2 (en) * 2005-10-24 2010-05-11 Lg Electronics Inc. Removing time delays in signal paths

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140056368A (ko) * 2011-08-31 2014-05-09 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 마이크로폰 배치들 및 워터마킹된 오디오 신호들을 이용한 도착 방향 추정
US11176952B2 (en) 2011-08-31 2021-11-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Direction of arrival estimation using watermarked audio signals and microphone arrays

Also Published As

Publication number Publication date
JP5017121B2 (ja) 2012-09-05
EP1817766A1 (en) 2007-08-15
KR101236259B1 (ko) 2013-02-22
US7761304B2 (en) 2010-07-20
JP2008522243A (ja) 2008-06-26
WO2006060278A1 (en) 2006-06-08
DE602005017302D1 (de) 2009-12-03
EP1817766B1 (en) 2009-10-21
US20090150161A1 (en) 2009-06-11

Similar Documents

Publication Publication Date Title
KR101236259B1 (ko) 오디오 채널들을 인코딩하는 방법 및 장치
KR101215868B1 (ko) 오디오 채널들을 인코딩 및 디코딩하는 방법, 및 오디오 채널들을 인코딩 및 디코딩하는 장치
KR101215872B1 (ko) 송신되는 채널들에 기초한 큐들을 갖는 공간 오디오의파라메트릭 코딩
AU2005324210C1 (en) Compact side information for parametric coding of spatial audio
CA2582485C (en) Individual channel shaping for bcc schemes and the like
KR20070061882A (ko) 바이노럴 큐 코딩 방법 등을 위한 확산음 엔벌로프 정형

Legal Events

Date Code Title Description
AMND Amendment
A201 Request for examination
AMND Amendment
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160201

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170213

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180212

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee