KR101056325B1 - 복수의 파라미터적으로 코딩된 오디오 소스들을 결합하는 장치 및 방법 - Google Patents

복수의 파라미터적으로 코딩된 오디오 소스들을 결합하는 장치 및 방법 Download PDF

Info

Publication number
KR101056325B1
KR101056325B1 KR1020097000260A KR20097000260A KR101056325B1 KR 101056325 B1 KR101056325 B1 KR 101056325B1 KR 1020097000260 A KR1020097000260 A KR 1020097000260A KR 20097000260 A KR20097000260 A KR 20097000260A KR 101056325 B1 KR101056325 B1 KR 101056325B1
Authority
KR
South Korea
Prior art keywords
channel
mix
parameter
original
audio
Prior art date
Application number
KR1020097000260A
Other languages
English (en)
Other versions
KR20090025332A (ko
Inventor
요한스 힐페르트
유에르겐 헤레
카르스텐 린쯔마이어
올리베르 헬무쓰
토르스텐 카스트너
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20090025332A publication Critical patent/KR20090025332A/ko
Application granted granted Critical
Publication of KR101056325B1 publication Critical patent/KR101056325B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Circuit Arrangement For Electric Light Sources In General (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Amplifiers (AREA)

Abstract

본 발명에 따르면, 복수의 파라미터적으로 부호화된 오디오 신호들은 오디오 신호 발생기(100)를 사용하여 효과적으로 결합될(combined) 수 있다. 상기 오디오 신호 발생기(100)는 상기 파라미터 도메인내에서 상기 오디오 신호들의 다운-믹스 채널들(110a, 112a)과 관련된 파라미터들(110b, 112b)를 직접 결합(combining)함으로써, 즉, 오디오 출력 신호(120)의 생성 전에 상기 개별적인 입력 오디오 신호들을 복구한다거나 또는 복호화하지 않고, 오디오 출력 신호(120)를 생성한다. 이것은 상기 개별적인 입력 신호들의 관련된 다운-믹스 채널들(110a, 112a)의 직접적인 믹싱에 의해 달성될 수 있다. 상기 다운-믹스 채널들(110a, 112a)의 결합(combination)은 단순하고, 계산측면에서 비싸지 않은 대수 연산들에 의해 달성될 수 있다는 점이 본 발명의 주된 특징 중의 하나이다.

Description

복수의 파라미터적으로 코딩된 오디오 소스들을 결합하는 장치 및 방법{APPARATUS AND METHOD FOR COMBINING MULTIPLE PARAMETRICALLY CODED AUDIO SOURCES}
본 발명은 멀티-채널 오디오 코딩(multi-channel audio coding)에 관한 것으로서, 구체적으로는 융통성있고(flexible)하고 효과적인 방식으로 파라미터적으로 코딩된(parametrically coded) 오디오 스트림을 결합(combining)하는 개념에 관한 것이다.
오디오 코딩 분야에서의 최근의 발전은 멀티-채널 오디오 신호(예를 들어 5.1 채널)를 하나(또는 그 이상)의 다운-믹스 채널과 부가 정보 스트림(side information stream)으로 조인트 코딩(jointly coding)하기 위한 다수의 파라메트릭 오디오 코딩(parametric audio coding) 기술들을 가져왔다. 일반적으로, 상기 부가 정보 스트림은 상기 멀티-채널 신호의 다른 원래 채널들에 대하여 또는 상기 다운-믹스 채널에 대하여 상기 멀티-채널 신호의 원래 채널들의 성질에 관련된 파라미터들을 포함한다. 이러한 파라미터들에 관련된 기준 채널(reference channel)의 파라미터들의 특정한 정의는 구체적인 구현에 따라 달라진다. 기존에 알려진 기법들로는 "바이노럴 큐 코딩(binaural cue coding)", "공간정보기반 오디오 코 딩(spatial audio coding)" 및 "파라메트릭 스테레오(parametric stereo)"가 있다.
이러한 특정한 구현들의 세부 내용은 관련된 간행물들이 여기에 참조로서 제공된다. 바이노럴 큐 코딩은 예를 들어 아래에 구체적으로 나와있다:
C. Faller 및 F. Baumgarte의 "지각적인 파라미터화를 이용한 공간정보기반 오디오의 효과적인 표현(Efficient representation of spatial audio using perceptual parametrization)", IEEE WASPAA, Mohonk, NY, October 2001; F. Baumgarte 및 C.Faller의 "바이노럴 큐 코딩을 위한 청각적 공간 정보의 추정(Estimation of auditory spatial cues for binaural cue coding)", ICASSP, Orlando, FL, May 2002; C. Faller 및 Baumgarte의 "바이노럴 큐 코딩: 공간정보기반 오디오의 신규한 효과적인 표현(Binaural cue coding: a novel and efficient representation of spatial audio)", ICASSP, Orlando, FL, May 2002; C. Faller 및 Baumgarte의 "플렉서블 렌더링으로 오디오 압축에 적용된 바이노럴 큐 코딩(Binaural cue coding applied to audio compression with flexible rendering)", AES 113th Convention, Los Angeles, Preprint 5685, October 2002; C. Faller 및 Baumgarte의 "바이노럴 큐 코딩 - 파트 II: 기법 및 응용(Binaural cue coding - Part II: schemes and applications)", IEEE Trans. on speech and Audio Proc., vol. 11, no. 6, Nov. 2003; 및 J. Herre, C. Faller등의 "공간정보 기반 오디오 코딩: 차세대 효과적이고 호환성있는 멀티-채널 오디오 코딩(Spatial Audio Coding: Next-generation efficient and compatible coding of multi-channel audio)", Audio Engineering Society Convention Paper, San Francisco, CA, USA, Oct. 28, 2004.
바이노럴 큐 코딩은 복수의 원래 채널들을 이용하지만, 파라메트릭 스테레오는 전송된 모노 신호 및 파라미터 부가 정보로 귀결되는 두개-채널 스테레오 신호의 파라메트릭 코딩에 대한 기법과 관련되어 있으며, 예를 들어, 하기의 간행 물에 언급되어 있다:
J. Breebaart, S. Van de Par, A. Kohlrausch, E. Schuijers, "낮은 비트레이트에서의 고품질 파라메트릭 공간정보기반 오디오 코딩(High-Quality Parametric Spatial Audio Coding at Low Bitrates)", AES 116th Convention, Berlin, Preprint 6072, May 2004; E. Schuijers, J. Breebaart, H. Purnhagen, J. Engdegard, "낮은 복잡도 파라메트릭 스테레오 코딩(Low Complexity Parametric Stereo Coding)", AES 116th Convention, Berlin, Preprint 6073, May 2004.
다른 기법들은 임의의 개수의 오디오 소스들 또는 객체들을 하나의 전송 오디오 채널로 멀티플렉싱하는 것에 기반을 둔다. 멀티플렉싱에 기반한 기법들은, 예를 들어, BCC(binaural cue coding) 관련된 간행물에서의 "플렉서블 렌더링(flexible rendering)", 또는 "결합 소스 코딩(joint source coding)"(JSC)으로 불리는 기법에 의해 알려진다. 관련된 간행물들은, 예를 들어: C. Faller의 "오디오 소스들의 파라메트릭 결합 코딩(Parametric Joint Coding of Audio Sources)", Convention Paper 6752, 120th AES Convention, Paris, May 2006 이다. 파라메트릭 스테레오 및 바이노럴 큐 코딩 기법들에 유사하게, 이러한 기법들은 소수의 다운-믹스 채널들에 의해 복수의 원래 오디오 객체들(채널들)을 부호화하기 위한 것이다. 매우 낮은 데이터 레이트로 부호화될 수 있고 또한 수신기에 전송되는 각 입력 채널에 대한 객체-기반의 파라미터들을 부가적으로 얻음으로써, 이러한 객체들은 상기 수신기측에서 분리되어 특정 개수의 출력 장치들-예를 들어 헤드폰들, 두개-채널 스테레오 라우드스피커들, 또는 멀티-채널 라우드스피커 셋업들-에게 넘겨 질(rendered)(또는 믹스될(mixed)) 수 있다. 이러한 접근법은 상기 수신기측에서, 재생 셋업(reproduction set-up)시, 상기 서로 다른 오디오 객체들의 레벨 조정(level adjustment) 및 서로 다른 장소들(locations)로의 재분배(redistribution)(또는 계획(planning))를 허용한다.
기본적으로, 이와같은 기법들은 M-k-N 전송기로서 동작한다. 여기서 M은 상기 입력에서의 오디오 객체들의 개수이고, k는 전송된 다운-믹스 채널들의 개수이고, 전형적으로 k≤2 이다. N은 렌더러(renderer) 출력에서의 오디오 채널들의 개수- 즉, 예를들어, 라우드스피커들의 개수-이다. 즉, 스테레오 렌더러에 대해서는 N=2이고, 또는 5.1 멀티-채널 스피커 셋업에서는 N=6이다. 압축 효율 측면에서는, 전형적인 값들은 지각적으로 코딩된 다운-믹스 채널(k 오디오 채널들로 구성됨)에 대해서는 예를 들어 64 kbps 이하이고, 전송된 오디오 객체당 객체 파라미터에 대해서는 대략 3kbps이다.
상술한 기법들에 대한 응용 시나리오들은 예를들어 시네마-무비-제작(cinema-movie-productions)과 관련된 공간정보기반 오디오 장면들을 부호화하여 홈-씨어터 시스템에서 사운드의 공간정보기반 재생(spatial reproduction)을 가능하게 하는 것이다. 일반적인 예로서 DVD와 같은 영화 미디어에서 널리 알려진 5.1 채널 및 7.1 채널 서라운드-사운드 트랙들이 있다. 영화 제작은 공간정보기반 청취 경험(listening experience)을 제공하여 매우 조심스럽게 믹스(mixed)되도록 의도된 오디오 장면들에 대하여 점점 더 복잡해지고 있다. 서로 다른 사운드 기술자들은 서로 다른 서라운드 소스들 또는 사운드 효과들을 믹스(mix)하도록 권한이 주어 지고 그 결과, 개별적인 사운드 기술자들의 오디오-스트림들을 효과적으로 전송하기 위하여 개별적인 사운드 기술자들 간에 파라메타적으로 부호화된 멀티-채널 시나리오들을 전송하는 것이 바람직하다.
이와 같은 기법에 대한 또 다른 응용 시나리오는 포인트-포인트간 연결된 양단에서의 복수의 대화자와의 원격지간 회의(tele-conferencing)이다. 대역폭을 절약하기 위하여, 대부분의 원격지간 회의 셋업들(set-ups)은 모노럴 전송(monophonic transmission)으로 동작한다. 예를들어 조인트 소스 코딩(joint source coding) 또는 상기 다른 멀티-채널 부호화 기법들 중 하나를 사용함으로써, 상기 수신 단부(각 단부)에서의 재분배 및 상기 서로 다른 대화자간의 레벨 정렬(level-alignment)이 달성될 수 있고, 그 결과 모노럴 시스템(monophonic system)에 비하여 여분으로 증가된 비트율(bit rate)를 소비함으로써 상기 스피커들의 명료도(intelligibility) 및 밸런스(balance)는 개선된다. 증가된 명료도의 장점은 수신단에서 멀티-채널 스피커 셋업의 단일 채널(결과적으로 스피커)로 상기 원격지간 회의의 각 개별 참가자를 할당하는 특별한 경우에 특히 분명해진다. 그러나, 이것은 특별한 경우일 때이다. 일반적으로는, 참가자들의 개수는 상기 수신단에서의 스피커들의 개수와 일치되지 않는다. 그러나, 기존의 스피커 셋업을 이용함으로서 각 참가자와 관련된 신호가 임의의 원하는 위치(position)로부터 발생되는 것처럼 보이도록 할 수 있다. 즉, 개별적인 참가자는 자신의 서로 다른 목소리에 의해 식별될 뿐만 아니라 상기 대화하는 참가자와 관련된 오디오 소스의 위치에 의해 식별될 수도 있다.
기존 기법들은 복수의 채널들 또는 오디오 객체들을 효과적으로 부호화하는 방법에 대한 개념들을 구현하고 있지만, 현재까지 알려진 모든 기법들은 두개 이상의 이러한 전송된 오디오 스트림들을 결합(combine)하여 상기 모든 입력 오디오 스트림들(입력 오디오 신호들)을 나타내는 출력 스트림(출력 신호)을 효과적으로 얻을 가능성은 낮다.
예를 들어, 두개 이상의 장소-여기서 각 장소는 하나 이상의 스피커들을 가지고 있음-에서 원격지간 회의 시나리오를 고려할 경우 상기 문제점은 발생한다. 그 다음, 상기 개별 소스들의 오디오 입력 신호들을 수신하기 위하여 그리고 나머지 원격지간 회의 장소들의 정보만을 가진 각 원격지간 회의 장소에 대한 오디오 출력 신호를 생성하기 위하여 중간 과정(intermediate instance)가 요구된다. 즉, 상기 중간 과정은 출력 신호-여기서 상기 출력 신호는 두개 이상의 오디오 입력 신호들의 결합(combine)에 의해 얻고 상기 개별 오디오 채널들 또는 상기 두개 이상의 입력 신호들의 오디오 객체들의 재생을 허용함-를 생성해야 한다.
시네마-무비 제작에 있어서 두명의 오디오 기술자들이 자신의 공간정보기반 오디오 신호들을 결합(combine)하여 양쪽 신호들에 의해 생성되는 청취감을 체크하기를 원할때 유사한 시나리오가 발생할 수 있다. 그 다음, 상기 결합된(combined) 청취감을 체크하기 위해서는 두개의 부호화된 멀티-채널 신호들을 직접적으로 결합(combine)하는 것이 바람직할 것이다. 즉, 결합된(combined) 신호는 상기 두명의 오디오 기술자들의 오디오 객체들(소스들) 모두를 닯도록 하는 것이 필요하다.
그러나, 기존의 기법들에 따르면, 이와 같은 결합은 상기 오디오 신호들(스 트림들)을 복호화함으로써만 실행이 가능하다. 그 다음, 상기 복호화된 오디오 신호들은 종래의 멀티-채널 부호화기에 의해 또 재-부호화되어(re-encoded) 모든 원래 오디오 채널들 또는 오디오 객체들이 적절히 표현되는 결합된(combined) 신호를 생성한다.
이것은 높은 계산 복잡도라는 단점을 가져오며, 그 결과 많은 에너지를 소모하며 특히 실시간 시나리오들에서 상기 개념을 적용하는 것이 실행할 수 없게 한다. 더욱이, 이어서 일어나는 오디오 복호화 및 재-부호화는 원격지간 회의/통신과 같은 특정 응용에서는 수용할 수 없는 상기 두개의 처리 과정들로 인하여 상당한 지연(delay)을 일으킬 수 있다.
본 발명의 목적은 복수의 파라미터적으로 코딩된 오디오 신호들을 효과적으로 결합(combine)하는 개념을 제공하는 것이다.
본 발명의 첫번째 측면에 따르면, 두개 이상의 제1 원래 채널들에 대한 정보를 가지는 제1 다운-믹스 채널을 포함하고, 기준 채널에 대하여 상기 제1 원래 채널들 중 하나의 성질을 기술하는 제1 원래 채널들에 연관된 원래 파라미터를 포함하는 제1 오디오 신호; 및 적어도 하나의 제2 원래 채널에 대한 정보를 가지는 제2 다운-믹스 채널을 포함하는 제2 오디오 신호를 수신하는 오디오 신호 수신기; 상기 제1 다운-믹스 채널 및 상기 제2 다운-믹스 채널을 결합하여(combining) 결합된 다운-믹스 채널을 얻는 채널 결합기; 공통 기준 채널에 대한 상기 제1 원래 채널들 중 하나의 성질을 기술하는 제1 결합된 파라미터를 얻고, 상기 공통 기준 채널에 대한 상기 적어도 하나의 제2 원래 채널 또는 상기 제1 원래 채널들 중 다른 하나의 성질을 기술하는 제2 결합된 파라미터를 얻는 파라미터 계산기; 및 상기 결합된 다운-믹스 채널, 그리고 상기 제1 결합된 파라미터 및 상기 제2 결합된 파라미터를 포함하는 상기 오디오 출력 신호를 출력하는 출력 인터페이스를 포함하는 오디오 출력 신호를 생성하는 오디오 신호 발생기에 의해 상기 목적은 달성된다.
본 발명의 두번째 측면에 따르면, 두개 이상의 제1 원래 채널들에 대한 정보를 가지는 제1 다운-믹스 채널과 기준 채널에 대하여 상기 제1 원래 채널들 중 하나의 성질을 기술하는 제1 원래 채널들에 연관된 원래 파라미터를 포함하는 제1 오디오 신호, 그리고 적어도 하나의 제2 원래 채널에 대한 정보를 가지는 제2 다운-믹스 채널을 포함하는 제2 오디오 신호를 수신하는 단계; 상기 제1 다운-믹스 채널 및 상기 제2 다운-믹스 채널을 결합하여(combining) 결합된 다운-믹스 채널을 얻는 단계; 공통 기준 채널에 대한 상기 제1 원래 채널들 중 하나의 성질을 기술하는 제1 결합된 파라미터, 그리고 공통 기준 채널에 대한 상기 적어도 하나의 제2 원래 채널 또는 상기 제1 원래 채널들 중 다른 하나의 성질을 기술하는 제2 결합된 파라미터를 얻는 단계; 및 상기 결합된 다운-믹스 채널, 그리고 상기 제1 결합된 파라미터 및 상기 제2 결합된 파라미터를 가지는 오디오 출력 신호를 출력하는 단계를 포함하는 오디오 출력 신호 생성 방법에 의하여 상기 목적은 달성된다.
본 발명의 세번째 측면에 따르면, 적어도 두개의 제1 원래 채널들에 대한 정보를 가지는 제1 다운-믹스 채널과 적어도 하나의 제2 원래 채널에 대한 정보를 가지는 제2 다운-믹스 채널의 결합인 결합된 다운-믹스 채널; 기준 채널에 대하여 상기 적어도 두개의 제1 원래 채널들 중 하나의 성질을 기술하는 제1 파라미터; 및 상기 기준 채널에 대한 상기 제1 원래 채널들 중 다른 채널의 성질 또는 상기 적어도 하나의 제2 원래 채널의 성질을 기술하는 제2 파라미터를 포함하는 세개 이상의 오디오 채널들의 표현(representation)에 의해 상기 목적은 달성된다.
본 발명의 네번째 측면에 따르면, 두개 이상의 제1 원래 채널들에 대한 정보를 가지는 제1 다운-믹스 채널과 기준 채널에 대하여 상기 제1 원래 채널들 중 하나의 성질을 기술하는 제1 원래 채널들에 연관된 원래 파라미터를 포함하는 제1 오디오 신호, 그리고 적어도 하나의 제2 원래 채널에 대한 정보를 가지는 제2 다운-믹스 채널을 포함하는 제2 오디오 신호)를 수신하는 단계; 상기 제1 다운-믹스 채널 및 상기 제2 다운-믹스 채널을 결합하여(combining) 결합된 다운-믹스 채널을 얻는 단계; 공통 기준 채널에 대한 상기 제1 원래 채널들 중 하나의 성질을 기술하는 제1 결합된 파라미터, 그리고 공통 기준 채널에 대한 상기 적어도 하나의 제2 원래 채널 또는 상기 제1 원래 채널들 중 다른 하나의 성질을 기술하는 제2 결합된 파라미터를 얻는 단계; 및 상기 결합된 다운-믹스 채널, 그리고 상기 제1 결합된 파라미터 및 상기 제2 결합된 파라미터를 가지는 오디오 출력 신호를 출력하는 단계를 포함하는 오디오 출력 신호 생성 방법을 구현한 컴퓨터 프로그램에 의해 상기 목적은 달성된다.
본 발명의 다섯번째 측면에 따르면, 두개 이상의 제1 원래 채널들에 대한 정보를 가지는 제1 다운-믹스 채널을 포함하고, 기준 채널에 대하여 상기 제1 원래 채널들 중 하나의 성질을 기술하는 제1 원래 채널들에 연관된 원래 파라미터를 포함하는 제1 오디오 신호; 및 적어도 하나의 제2 원래 채널에 대한 정보를 가지는 제2 다운-믹스 채널을 포함하는 제2 오디오 신호를 수신하는 오디오 신호 수신기; 상기 제1 다운-믹스 채널 및 상기 제2 다운-믹스 채널을 결합하여(combining) 결합된 다운-믹스 채널을 얻는 채널 결합기; 공통 기준 채널에 대한 상기 제1 원래 채널들 중 하나의 성질을 기술하는 제1 결합된 파라미터를 얻고, 상기 공통 기준 채널에 대한 상기 적어도 하나의 제2 원래 채널 또는 상기 제1 원래 채널들 중 다른 하나의 성질을 기술하는 제2 결합된 파라미터를 얻는 파라미터 계산기; 및 상기 결합된 다운-믹스 채널, 그리고 상기 제1 결합된 파라미터 및 상기 제2 결합된 파라미터를 포함하는 상기 오디오 출력 신호를 출력하는 출력 인터페이스를 포함하는 오디오 출력 신호를 생성하는 오디오 신호 발생기를 가지는 회의 시스템에 의해 상기 목적은 달성된다.
본 발명은 복수의 파라미터적으로 부호화된 오디오 신호들은 오디오 신호 발생기(audio signal generator) 또는 오디오 신호 결합기(audio signal combiner)에 의해 효과적으로 결합될 수 있다는 점에 근거한다. 상기 오디오 신호 발생기 또는 오디오 신호 결합기는 오디오 입력 신호들의 연관된 파라미터들과 다운-믹스 채널들을 직접적으로 파라미터 도메인 내에서 결합함(combining)으로써 오디오 출력 신호를 생성한다. 즉 개별적인 오디오 입력 신호들을 상기 오디오 출력 신호의 생성 전에 재생하지않거나 또는 복호화하지 않음으로써 오디오 출력 신호를 생성한다. 좀 더 구체적으로, 이것은 상기 개별적인 입력 신호들과 연관된 다운-믹스 채널들을 직접적으로 믹싱-예를 들어 상기 다운-믹스 채널들의 합산(summation) 또는 선형 결합(linear combination)을 형성-함으로써 달성된다. 본 발명의 핵심 특징은 상기 다운-믹스 채널들의 결합(combination)은 단순한, 계산 측면에서 합산과 같은 저비용의 대수적 연산들(logarithmic operations)에 의해 달성될 수 있다는 점이다.
상기 다운-믹스 채널들을 연관시키는 파라미터들의 결합(combination)에 대하여도 동일하게 유효하다. 일반적으로 상기 연관된 파라미터들의 적어도 하나의 서브셋(sub-set)은 상기 입력 오디오 신호들의 결합 동안 변경될 것이므로, 상기 파라미터들을 변경시키기 위해 수행되는 계산들이 단순하고 그 결과 현저한 계산력을 요구하지 않고 또한 예를들어 필터뱅크들 또는 메모리를 관련시키는 다른 동작들을 이용함에 의해 추가적인 지연을 유발하지 않는 것이 매우 중요하다.
본 발명의 일실시예에 따르면, 오디오 출력 신호를 발생시키기 위한 오디오 신호 발생기는 파라미터적으로 부호화된 제1 및 제2 오디오 신호를 결합(combine)하도록 구현된다. 상기 오디오 출력 신호를 생성하기 위하여, 상기 본발명의 오디오 신호 발생기는 상기 입력 오디오 신호들의 다운-믹스 채널들을 추출하고 상기 두개의 다운-믹스 채널들의 선형 결합(linear combination)을 형성함으로써 결합된(combined) 다운-믹스 채널을 생성한다. 즉, 상기 개별적인 채널들에는 추가적으로 적용되는 가중치들이 더해진다.
본 발명의 바람직한 일실시예에 따르면, 상기 적용되는 가중치들은 극히 간단한 산술 연산-예를 들어 상기 계산의 기초로서 상기 제1 오디오 신호 및 상기 제2 오디오 신호에 의해 표현된 채널들의 개수를 이용함으로써-에 의해 얻어진다.
본 발명의 다른 바람직한 실시예에서는, 상기 가중치 계산은 상기 입력 신호들의 각 원래 오디오 채널이 동일한 양을 가진 총 신호 에너지에 기여한다는 가정하에서 수행된다. 즉, 상기 적용된 가중치들은 상기 입력 신호들의 채널 개수들과 채널들의 총 개수의 단순 비율들이다.
본 발명의 또 다른 바람직한 실시예에서는, 상기 개별적인 다운-믹스 채널들의 상기 가중치들은 상기 발생된 출력 오디오 신호에 포함된 결합된 다운-믹스 채널의 좀 더 확실한 재생을 허용하도록 상기 다운-믹스 채널들 내에 포함된 에너지에 기초하여 계산된다.
본 발명의 또 다른 바람직한 실시예에서는, 단지 상기 두개의 오디오 신호들 중의 하나와 연관된 파라미터들만이 변경된다는 점에서 상기 계산적 노력은 더 감소된다. 즉, 나머지 다른 오디오 신호의 파라미터들은 변경 없이 전송되며, 따라서 어떠한 계산 동작들이 필요 없으며 본 발명의 오디오 신호 발생기의 부담을 최소화화 할 수 있다.
아래의 문단들에서는, 본 발명의 개념은 조인트 소스 코딩(Joint Source Coding, JSC)을 이용한 코딩 기법에 대하여 주로 설명될 것이다. 이점과 관련하여, 현재 발명은 이러한 기술을 상기 파라미터 도메인 내에서의 객체 정보 및 JSC 다운-믹스 신호들을 믹싱함으로써 복수의 모노널(monophonic) 또는 JSC-가능 송수신기(JSC-enabled transceivers)를 원격 스테이션들에게 연결시키기 위해 확장한다. 전술한 고려사항들에서 보여준 바와 같이, 본 발명의 개념은 JSC-코딩의 사용에만 한정되는 것은 아니며, BCC-코딩 또는 MPEG 공간정보 기반 오디오 코딩(MPEG surround)등과 같은 다른 멀티-채널 코딩 기법들로도 구현될 수 있다.
상기 본발명의 개념은 주로 JSC-코딩을 이용하여 자세히 설명될 것이며, JSC 코딩은 본 발명의 개념을 현존하는 멀티-채널 오디오 코딩 기법들에 적용할 경우 본 발명의 개념의 융통성(flexibility) 및 종래 기술에 대한 개선점을 좀 더 명확히 지적하기 위하여 아래 문단들내에서 간략히 고찰될것이다.
도 1은 JSC 코딩 기법의 일예를 나타낸다.
도 2는 JSC 렌더러(renderer)의 일예를 나타낸다.
도 3은 두개의 장소에서의 원격지간 회의를 나타낸다.
도 4는 세개의 장소에서의 원격지간 회의를 나타낸다.
도 5는 발명의 오디오 신호 발생기를 이용하는 원격지간 회의의 일예를 나타낸다.
도 6은 발명의 오디오 신호 발생기를 이용하는 원격지간 회의의 다른 예를 나타낸다.
도 6b는 상기 발명의 개념의 역방향 호환성(backwards compatibility)을 보여준다.
도 7은 발명의 오디오 신호 발생기의 일예를 나타낸다.
도 1은 조인트 소스 코딩 기법의 블록도를 나타내며, 대응되는 부호화기(2) 및 대응되는 복호화기(4)를 나타낸다.
상기 부호화기(2)는 이산 오디오 입력들 si(n) 6a, 6b 및 6c를 수신하고 예를 들어 상기 파형들을 합(summation)하여 다운-믹스 신호 s(n)(8)를 생성한다.
추가적으로, 부호화기(2) 내의 파라미터 추출기(10)는 각 단일 객체(신호 6a, 6b 및 6c)를 위한 파라메트릭 부가 정보(side information)를 추출한다. 비록 도 1에는 도시하지 않았지만, 상기 다운-믹스 신호(8)는 또한 스피치(speech) 또는 오디오 코더에 의해 압축될 수 있으며 그리고 인접한 파라메트릭 부가 정보와 함께 상기 JSC 복호화기(4)로 전송된다. 복호화기(4) 내의 합성 모듈(synthesis module, 12)은 상기 입력 객체들(채널들 6a, 6b 및 6c)의 추정치들 14a, 14b 및 14c(
Figure 112009000782763-pct00001
)을 재생산한다.
상기 이산 입력 객체들(입력 채널들) 6a, 6b 및 6c과 지각적으로 유사한 추정치들(estimates) 14a, 14b 및 14c을 재현하기(reconstruct) 위해서, 각 채널에 대한 적절한 파라메트릭 부가 정보(parametric side information)는 추출되어야한다. 개별 채널들이 상기 다운-믹스 신호(8)의 생성을 위해 합해지므로, 채널들간의 전력 비(power ratios)는 이와 같은 적합한 양을 가진다. 따라서, 서로 다른 객체들 또는 채널들에 대한 파라미터 정보는 제1 객체(기준 객체)에 대한 각 객체의 전력 비
Figure 112009000782763-pct00002
p로 이루어진다.
이 정보는 인간의 청각 인지의 임계 밴드 해상도에 상응하도록 불균등하게 공간 배치된 주파수 밴드들(서브-밴드들)에서의 주파수 영역에서 얻어진다. 이것은 좀 더 구체적으로 예를 들어 다음에 기술되어 있는 개념이다:
J. Blauert의 "공간정보기반 청각: 인간 사운드 로컬화의 정신 물리학(Spatial Hearing: The Psychophysics of Human Sound Localization)", The MIT Press, Cambridge, MA, revised edition 1997.
즉, 광대역 입력 오디오 채널들은 유한한 대역폭의 다수의(several) 주파수 밴드들로 필터링되고 상기 개별적인 주파수 밴드들의 각각에 대해, 하기의 계산이 수행된다. 이미 언급된 바와 같이, 상기 제1 객체(기준 객체 또는 기준 채널)의 밴드와이즈 전력(bandwise power)은 기준 값으로 작용한다.
Figure 112009000782763-pct00003
------ 수학식 1
예를 들어 영(zero)으로 나눔에 의해 발생되는, 잡음의 추가적인 발생을 피하기 위해서, 이러한 전력 비(power ratios)(대수 표현에서)은 최대값- 예를 들어, 각 서브 밴드에서 24dB-을 갖도록 더 제한될 수 있다. 더욱이 상기 전력 비(power ratio)는 전송 대역폭을 추가적으로 절약하기 위하여 제출(submission)에 앞서 양자화될 수 있다.
상기 제1 객체의 전력을 명시적으로(explicitly) 전송할 필요는 없다. 대신에, 이 값은, 통계적으로 독립적인 객체들에 대해, 상기 합성된 신호
Figure 112009000782763-pct00004
의 전력의 합이 상기 다운-믹스 신호 s(n)의 전력과 동일하다는 가정으로부터 얻어질 수 있다. 수학적으로 표현하면, 이것은 아래의 수학식 2를 의미한다:
Figure 112009000782763-pct00005
------- 수학식 2
이러한 가정과 수학식에 기초하여, 상기 제1 객체(상기 기준 객체 또는 기준 채널)에 대한 서브밴드 전력들(subband powers)은 재현될 수 있으며, 그것은 본 발명의 개념을 구체화하면서 추가적으로 설명될 것이다.
요약하면, JSC에 따른 오디오 신호 또는 오디오-스트림은 다운-믹스 채널 및 관련된 파라미터들을 포함하며, 상기 파라미터들은 하나의 원래 기준 채널에 대한 원래 채널들의 전력 비(power ratios)를 기술한다. 다른 채널들이 상기 기준 채널이 되도록 선택된다는 점에서 이러한 시나리오는 쉽게 변경될 수 있다는 점이 주목될 수 있다. 예를 들어, 상기 다운-믹스 채널 그 자신은 상기 기준 채널이 될 수 있고, 하나의 추가적인 파라미터의 전송을 필요로 하며, 상기 첫번째, 이전 기준 채널의 전력을 상기 다운-믹스 채널의 전력과 관련시킨다. 또한, 상기 기준 채널은 최대 전력(the most power)을 가진 하나의 채널이 상기 기준 채널이 되도록 선택된다는 점에서 상기 기준 채널은 변경되도록 선택될 수 있다. 따라서, 시간에 따라 상기 개별 채널들 내의 전력은 변경될 수 있으므로, 상기 기준 채널은 시간에 따라 변경될 수 있다. 또한, 모든 처리는 전형적으로 주파수 선택적인 방식으로 수행될 수 있다는 사실에 의해, 상기 기준 채널은 서로 다른 주파수 밴드들에 대해 서로 달라질 수 있다.
도 2는 도 1의 기법에 기반하여 JSC 코딩의 더 개선된 기법을 나타낸다. 도 1에 대하여 구체화된 특징은 상기 입력 채널들(6)을 수신하여 부호화되도록 하고 상기 입력 채널들(6)의 추정값(14)을 출력하는 저장 또는 전송 박스(20)에 포함되어 있다. 도 2의 기법은 상기 추정값을 수신하는 믹서(22)를 더 포함한다는 점에서 개선되었다. 즉, 상기 합성된 객체들(14)은 단일의 오디오 신호로 직접 출력되지 않고 상기 믹서 모듈에서 N 출력 채널로 만들어진다. 이와 같은 믹서는 다양한 방식으로 구현될 수 있으며, 예를 들어, 입력으로 추가적인 믹싱 파라미터들(24)을 수신하여 상기 합성된 객체의 믹싱을 하도록 한다. 단지 예로서, 원격지간 회의 시나리오를 고려할 수 있으며, 상기 원격지간 회의 시나리오에서 출력 채널들(26) 각각은 상기 회의의 하나의 참가자에게 할당된다. 따라서, 상기 수신 단에 있는 하나의 참가자는 나머지 다른 참가자들의 음성들을 개개의 위치에 할당함으로써 나머지 다른 참가자들을 가상적으로 분리할 수 있는 가능성이 있다. 따라서, 상기 음성이 서로 다른 참가자들을 구분할 수 있는 기준으로 작용할 수 있을 뿐만 아니라, 청취자가 참가자의 음성을 수신하는 방향도 서로 다른 참가자들을 구분할 수 있는 기준으로 작용할 수 있다. 더욱이, 동일한 원격지간 회의 장소로부터의 모든 참가자들이 동일한 방향으로 그룹화 될 수 있도록 참가자는 상기 출력 채널을 조정할 수 있고, 지각적 경험을 더욱 향상시킬 수 있다.
도 2에 도시된 바와 같이, si(n)...sM(n)은 JSC 부호화기의 입력에서의 이산적인 오디오 객체들을 나타낸다. JSC 부호화기의 출력에서의
Figure 112009000782763-pct00006
은 상기 믹서로 입력되는 '가상적으로(virtually)' 분리된 오디오 객체들을 나타낸다. 믹싱 파라미터들(24)는 상기 수신기 측에서 상호적으로(interactively) 변경되 어 상기 출력 채널들
Figure 112009000782763-pct00007
에 의해 재생되는 사운드 스테이지에 서로 다른 객체들을 배치하도록 할 수 있다.
도 3은 멀티-채널 오디오 코딩 기법을 두개의 장소들간에 일어나는 기본 원격지간 회의 시나리오에 적용한 것을 보여준다. 여기서 제1 장소(40)는 제2 장소(42)와 통신을 한다. 상기 제1 장소는 A 참가자들, 즉 A 오디오 객체들,을 가질 수 있으며, 상기 제2 장소는 B 참가자들, 즉 B 오디오 객체들,을 가질 수 있다. 포인트-포인트 원격지간 회의를 위해, 전술한 JSC 코딩 기술은 복수 객체들의 오디오 신호들을 직접적으로 대응되는 원격 스테이션으로 전송하는데 적용될 수 있다. 즉, (A-1) 파라미터들 ai 및 연관된 다운-믹스는 장소(42)로 전달된다. 반대 방향에서, (B-1) 파라미터들 b1는 연관된 다운-믹스와 함께 장소(40)로 전달된다.
두 개보다 많은 종단들을 가진 원격지간 회의에 대해서는, 상기 상황은 도 4에 도시된 바와 같이 완전히 달라진다.
도 4는 장소들(40, 42)와는 별도로 제3 장소(44)를 보여준다. 도 4로부터 알수 있듯이, 이와 같은 시나리오는 일반적으로 멀티 포인트 컨트롤 유닛, MCU라고 불리는 중앙 분배기(central distributor)를 필요로 한다. 상기 장소들(locations 또는 sites; 40, 42, 44)에 대해서, 해당 장소(site)로부터의 신호를 포함하는, MCU로 향하는, 단일의 업스트림(upstream)이 있다. 각각의 개별적인 장소는 남은 장소들로부터의 신호들을 수신할 필요가 있기 때문에, 각각의 장소 40, 42 및 44로의 다운-스트림은 나머지 다른 장소들의 신호의 믹스(mix)이며, (N-1) 신호로 표현 되는 자신의 장소로부터의 신호는 배제한다. 일반적으로, 상기 셋업의 요구사항을 수행하고 전송 대역폭을 합리적으로 작도록 유지하기 위하여, (N-1) JSC 코드화된 스트림을 상기 MCU로부터 각 장소로 전송하는 것은 적절하지 않다. 이것은, 당연히, 직접적인 옵션이 될 수 있다.
개별적인 다운-스트림들을 얻기 위한 종래의 방식은 JSC 복호화기를 이용하여 상기 MCU(46)내에서 모든 들어오는 스트림들(객체들) 재합성(resynthesize)하는 것이다. 그 다음, 상기 재합성된(resynthesized) 오디오 객체들은 모든 장소에 원하는 오디오 객체들 또는 오디오 채널들을 포함하는 오디오 스트림들을 제공하도록 재그룹화되고(regrouped) 재부호화될(re-encoded) 수 있다. 이러한 간단한 시나리오내에서 조차도, 이것은 MCU(46) 내에서 동시에 수행되어야할 세 개의 복호화 및 세개의 부호화 작업들을 의미한다. 현저한 계산 요구에도 불구하고, 이러한 파라메트릭(parametric) "탠덤 코딩(tandem coding)"(반복된 부호화/복호화) 프로세스에 의해 청각적 잡음이 추가적으로 예상될 수 있다. 장소의 개수를 증가시키는 것은 스트림들의 개수를 더 증가시키며 필요한 부호화 또는 복호화 프로세스들의 개수를 증가시키고, 실시간 시나리오들을 위한 직접적인 접근이 불가능하다.
따라서, 본 발명에 따르면, 서로 다른 파라미터적으로 부호화된 스트림들(이번 특정 예에서는 JSC 스트림들)을 다운-믹스 및 객체 파라미터 도메인 내에서 직접적으로 믹싱하는 기법은 이와 같은 MCU 타입 시나리오를 위해 개발되었고, 최소한의 계산 노력 및 품질 손실로도 원하는 출력 신호들(출력 오디오-스트림들)을 생성할 수 있다.
하기의 단락들에서는, 상기 파라미터 도메인내에서 멀티-채널 파라미터적으로 부호화된 오디오 스트림들을 직접적으로 믹싱하는 발명적 개념이 JSC 부호화된 오디오-스트림들에 대해 상세히 설명된다.
본 발명 개념은 두개의 원래 오디오 신호들(스트림들)을 하나의 출력 신호로 결합(combination)하는 것으로 설명된다. 세 개 또는 그 이상의 스트림들을 함께 합치는(joining) 것은 두 개의 스트림들을 결합(combining)하는 경우로부터 쉽게 얻을 수 있다. 하기의 수학적 고려사항들은 도 5에 의해 설명되며, 장소 A의 세개의 오디오-채널들이 장소 B에서의 네개의 오디오-채널들과 결합되어야(combined)하는 경우를 나타낸다. 이것은, 당연히, 본 발명 개념을 시각화하기 위한 예일 뿐이다.
JSC 코딩을 사용할 경우, 신호들 SAX를 생성하는 세 개의 회의 참가자들(스피커들) 52a 내지 52c를 가지는 장소 50 (A)는 하나의 오디오-스트림 또는 오디오 신호(54)를 전송한다. 오디오 신호(54)는 다운-믹스 채널 SA와 파라미터 a2 및 a3를 포함하며, 상기 파라미터 a2 및 a3는 채널 52b와 52c의 전력을 채널 52a의 전력과 관련시킨다. 마찬가지로, 장소 56 (B)는 60a 내지 60d의 네개의 스피커들에 대한 JSC 부호화된 표현인 다운-믹스 채널 SB와 세개의 파라미터 b2, b3 및 b4를 포함하는 하나의 오디오 신호(58)를 전송한다. MCU(46)는 상기 오디오 신호들 54 및 58을 결합(combine)하여 결합된(combined) 다운-믹스 채널 SY 및 6개의 파라미터들 y2, ..., y7를 가지는 하나의 출력 신호(62)를 얻는다.
상기 수신측에서, 상기 수신기(64)는 출력 신호(62)를 복호화하여 장소 50 및 56의 7개의 오디오 객체들 또는 오디오 채널들의 표현들을 얻는다.
일반적인 관점에서, 하나의 공통 다운-믹스 신호 SY 및 상기 객체들을 특징짓는 한 세트(one set)의 객체 파라미터들에 의해서 다수의 객체들을 각각 표현하는 두개의 JSC 스트림들 54 및 58의 단일의 결합된 표현(62)를 형성하는 것이 목표이다. 바람직하게는, 상기 결합된 JSC 표현은 양쪽 JSC 스트림들의 풀 세트(full set)의 원래 소스 신호들을 한번의 과정(step)으로 하나의 JSC 스트림으로 부호화하여 얻어진 것과 동일하다.
하기의 수학식들을 간단히 하기 위하여, 수학식 1의 상대적인 전력 비는 대수 도메인(logarithmic domain)에서는 사용이 불가능 하지만 단지 전력 비로서는 사용이 가능한 것으로 가정한다. 어느 하나의 객체 i의 각 객체 파라미터 ri(n)는 하기와 같이 얻어질 수 있다:
Figure 112009000782763-pct00008
---- 수학식 3
로그 전력 눈금(logarithmic power scale)을 이용한 양자화를 허용하기 위하여 상기 대수적 영역에서의 치환(transpostion)은 이후에 각 파라미터에 적용될 수 있다.
아래의 모든 신호들은 서브밴드 표현으로 분해되는 것을 가정하며, 따라서 각각의 계산은 각 서브밴드에 대해 개별적으로 적용된다.
스트림 A는 U 객체들 a2 ... aU에 대한 스트림 A 자신의 다운-믹스 신호 SA 및 파라미터들(상대적 전력 비(power ratios))을 가진다. 스트림 B는 V 객체들 b2 ... bV에 대한 다운-믹스 신호 SB 및 파라미터들을 가진다.
상기 결합된 다운-믹스 신호 SY는 양쪽 다운-믹스 신호들 SA 및 SB의 선형 결합으로서 형성될 수 있다. 상기 서로 다른 객체 기여분들의 정확한 볼륨 레벨링(volume leveling)을 보증하기 위하여, 이득 인자들 gA 및 gB가 적용될 수 있다.
Figure 112009000782763-pct00009
여기서,
Figure 112009000782763-pct00010
동등한 평균 전력(power)의 단일의 사운드 소스들이 합해지고 상기 다운-믹스 경로의 전체 스케일로 정규화된다면 이러한 종류의 스케일링은 의미가 있을 수 있다.
또는, 하기 수학식으로 상기 이득 인자들에 대한 전력-유지 접근법(power-preserving approach)을 사용할 수 있다.
Figure 112009000782763-pct00011
또는, 양쪽 다운-믹스 신호들이 동일한 평균 에너지를 하기 수학식을 선택함으로써 상기 결합된 다운-믹스에 분배하도록 상기 이득 인자를 선택할 수도 있다.
Figure 112009000782763-pct00012
상기 결합된 스트림 SY에 대한 상기 객체 파라미터들 yi는 모든 U+V 객체들을 나타낼 수 있다.
상기 다운-믹스 채널들에 연관된 파라미터들은 상대적인 전력 비를 나타내므로, 상기 파라미터들 a2,... aU는 (변경없이) 그대로 사용될 수 있고, 객체들 B에 대한 파라미터들은 파라미터들 a2,... aU과 연관될(concatenated) 수 있다. 일단 신호 A의 제1 객체가 상기 기준 객체 또는 기준 채널로 선정되면, 상기 원래 파라미터들 bi는 상기 기준 채널과 관련되도록 변형되어야한다. 하나의 스트림의 파라미터들만이 다시 계산됨으로써 MCU(46) 내의 계산 부담을 줄일 수 있다는 점에 유의해야한다.
새로운 기준 채널로서 상기 원래 오디오-스트림들 중의 하나의 기준 채널을 사용하는 것은 결코 필요하지 않다는 점에 또한 유의해야한다. 파라미터적으로 부 호화된 오디오-스트림을 상기 파라미터 도메인에서 결합한다는 본 발명의 개념은 또한 장소 A 또는 B의 원래 채널들의 넘버(number)로부터 선택된 다른 기준 채널들과 매우 잘 구현될 수 있다. 새로운 기준 채널로서 상기 결합된 다운-믹스 채널이 사용될 가능성이 있다.
장소 A의 원래 기준 채널을 새로운 기준 채널(결합된 기준 채널)로 사용한다는 이러한 접근을 따르면, 내재적으로만 가능하므로 각 신호 A 및 B의 제1 객체(채널)의 에너지(전력)는 먼저 계산되어야한다.
통계적으로 독립적인 소스들을 가정할 경우, 다운-믹스 신호 A에 대한 전력 보존은 하기와 같이 표현된다:
Figure 112009000782763-pct00013
상기 신호 전력들
Figure 112009000782763-pct00014
Figure 112009000782763-pct00015
에 대한 자신들의 상대적인 전력 a2... aU과 함께 정의될 수 있다.
Figure 112009000782763-pct00016
이것은 하기와 같이 SA의 전력을 생성한다:
다운 믹스 신호 SB에 대해 동일하게 적용하면, 객체 SB의 전력은 다음과 같이 계산할 수 있다:
Figure 112009000782763-pct00018
이제 신호 SY의 모든 객체들의 새로운 파라미터 셋을 다음과 같이 생성할 수 있다:
y1: (전송되지 않은, 기준 객체, 내재적으로(implicitly) 이용가능한)
y2 = a2
y3 = a3
...
yU = aU
Figure 112009000782763-pct00019
(기준 객체 A1에 대한 신호 B의 제1 객체의 전력 비)
Figure 112009000782763-pct00020
(상기 기준 객체 A1의 전력으로 다시 정규화된 신호 B의 제2 객체의 전력 비)
Figure 112009000782763-pct00021
이전 문단들에서 보여준 와 같이, 본 발명의 개념은 단순한 산술 연산들만을 사용함으로써 결합된 오디오-스트림의 생성을 허용하며, 그 결과 계산 측면 극히 효과적이다. 따라서, 복수의 파라미터적으로 부호화된 오디오-스트림들의 결합은 실시간으로 수행될 수 있다.
본 발명 개념의 높은 융통성(flexiblity)을 더 강조하기 위하여, 도 6은 장소(56)에서의 단일의 스피커에 의해 생긴 모노럴(monophonic) 신호(70)가 장소(50)에서의 스피커들의 두개 또는 그 이상의 JSC-코딩된 신호들과 어떻게 독창적으로 결합될 수 있는지를 보여준다. 즉, 본 발명 개념의 융통성(flexibility)으로 인하여, 임의의 원격지간 회의 시스템들의 모노럴(monophonic) 신호들은 독창적으로 파라미터적으로 코딩된 멀티-채널(멀티-객체) 소스들과 결합되어 모든 원래 오디오 채널들(객체들)을 나타내는 JSC-부호화된 오디오 신호를 생성한다.
JSC 객체들을 전송할 수 없지만 전통적인 모노럴 신호들을 전송할 수 있는 원격 스테이션들과도 호환성(compatibility)을 확장하기 위해서, 이 기법은 예를 들어 예전부터 사용해왔던 회의 장치(legacy conference device)로부터의 모노럴 객체를 상기 객체 기반 스트림으로 삽입하는데에도 적용할 수 있다.
상기 JSC 스트림 A(다운 믹스 SA, 파라미터들 a2... aU) 및 모노럴 객체 C(다운 믹스 SC)를 가지는 상기 예제는 이전에 설명된 이득 인자들과 자신의 객체 파라미터들을 가진 하기의 다운-믹스 신호와 함께 결합된 신호 Z를 생성한다.
Figure 112009000782763-pct00022
y1: 전송되지 않은(기준 채널, 내재적으로(implicitly) 이용가능한)
y2 = a2
y3 = a3
...
yU = aU
Figure 112009000782763-pct00023
(기준 객체 A1에 대한 신호 C의 전력 비)
두개의 JSC 스트림들의 트랜스코딩(transcoding)/병합(merging)에 대한 전술한 예는 수학식 1에 주어진 객체들의 전력의 표현에 의존적이다. 그럼에도 불구하고, 동일한 본 발명의 기법이 이러한 정보를 표현하는 다른 방식에도 적용될 수 있다.
도 6b는 하나의 모노럴 오디오 소스를 포함하는(incorporating) 본 발명 개념의 높은 융통성(flexibility)을 또 다시 강조한다. 도 6b는 도 4의 멀티-채널 시나리오에 근거하고 있으며, 더 나아가 오디오 소스 C(44)에 존재하는 종래의 모노럴 오디오 코더(monophonic audio coder)가 본 발명의 MCU(46)을 이용하여 멀티-채널 오디오 회의로 얼마나 용이하게 통합될(integrated) 수 있는지를 보여준다.
이전에 언급된 바와 같이, 본 발명 개념은 소정의 고정된(fixed) 기준 채널을 가지는 JSC-코딩에 한정되지 않는다. 따라서, 다른 대체 예에서, 상기 전력 비(power ratio)는 시간에 따라 변하는 기준 채널에 대해 계산될 수 있으며, 여기서 상기 기준 채널은 주어진 소정의 시간 간격 내에서 최대 에너지를 가진 하나의 채널을 나타낸다.
상기 밴드와이즈 신호 전력(bandwise signal power) 값들을 고정된 기준 채널(객체)의 대응되는 밴드의 전력으로 정규화하고 수학식 1에 나타난 바와 같이 상기 결과를 대수(dB) 도메인으로 치환(transposing)하는 대신에, 상기 정규화는 하기와 같이 어떤 주파수 밴드 내의 모든 객체들에 대한 최대 전력에 관련되도록 취해질 수 있다:
Figure 112009000782763-pct00024
----- 수학식 4
이러한 정규화된 전력 값들(선형 표현으로 주어짐)은 본질적으로 0과 1사이의 값들만을 취할 수 있기 때문에 어떤 상한 경계에 대한 추가 한정이 필요로 하지 않는다. 이러한 장점은 (더 이상) 선험적으로(a-priori) 알려진 기준 채널에 대해 하나의 추가적인 파라미터를 전송해야한다는 단점을 수반한다.
이러한 시나리오에 대한 상기 믹싱 과정은 하기의 단계들(각각의 서브밴드에 대해 별도로 또 다시 수행되어야하는)을 포함할 수 있다:
스트림 A는 U 객체들 a1...aU에 대한 스트림 A의 다운 믹스 신호 SA 및 파라미터들(정규화된 전력값들, 수학식 3, 수학식 1)을 가진다.
스트림 B는 V 객체들 b1...bV에 대한 다운 믹스 신호 SB 및 파라미터들로 이루어진다.
결합된(combined) 다운 믹스 신호는 이미 보여진 선택들(options) 중 하나에 따라 형성될 수 있다:
Figure 112009000782763-pct00025
상기 결합된 표현 yi에 대한 모든 정규화된 전력 값들은 신호 Y의 모든 객체들의 가장 높은 전력을 가진 객체와 관련하여 설정되어야한다. 이러한 Y의 '최대 객체'가 되기 위한 두개의 후보들이 있으며, A의 최대 객체 또는 B의 최대 객체, 양쪽은 정규화된 전력 비 '1'를 가지는 것으로부터 식별될 수 있다.
이러한 결정은 양쪽 후보들의 절대 전력을 비교함으로써 내려질 수 있다. 하기의 수학식을 얻기 위하여 상기 다운 믹스 신호들(수학식 2)의 전력과의 관계를 또한 사용할 수 있다:
Figure 112009000782763-pct00026
Figure 112009000782763-pct00027
이제, 상기 다운 믹스 과정의 이득 인자들을 가중치로 가진 최대 객체 전력들을 하기와 같이 비교할 수 있다:
Figure 112009000782763-pct00028
전력이 높은 객체라면, 이러한 객체는 상기 결합된 파라미터들 yi에 대한 '최대 객체'로서 역할을 할 것이다.
예로서, a2가 양쪽 신호들 A 및 B의 전체 최대 전력 객체 amax이라면, 모든 다른 파라미터들은 하기와 같이 결합될(combined) 수 있다:
y1 = a1
y2 = a2
...
yU = aU
Figure 112009000782763-pct00029
('최대 객체', 여기서는 a2에 대한 신호 B의 제1 객체의 전력 비)
Figure 112009000782763-pct00030
...
Figure 112009000782763-pct00031
이러한 예에서, 신호 A는 상기 전체 최대 객체를 가지므로 상기 A의 객체들에 대한 모든 파라미터들은 변하지않고 잔존할 수 있다.
또한 이러한 표현에서, 예를 들어 V=1을 가정함으로써, 모노럴 객체가 그에 따라 삽입될 수 있다.
일반적으로, 처음부터 양쪽 스트림에 대한 모든 원래 객체들이 단일의 JSC 스트림으로 부호화될 경우 도달할 수 있는 결과에 트랜스코딩(transcoding)의 결과가 접근하도록 상기 트랜스코딩(transcoding) 과정은 수행될 수 있다.
도 7은 오디오 출력 신호를 발생시키는 본 발명의 오디오 신호 발생기의 일예를 나타내며, 상기 오디오 신호 발생기는 본 발명 개념을 구현하기 위하여 MCU(46) 내에서 사용될 수 있다.
상기 오디오 신호 발생기(100)는 오디오 신호 수신기(102), 채널 결합기(104), 파라미터 계산기(106) 및 출력 인터페이스(108)를 포함한다.
상기 오디오 신호 수신기(102)는 두개 또는 그 이상의 제1 원래 채널들에 대한 정보를 가지는 제1 다운-믹스 채널 110a를 포함하는 제1 오디오 신호(110)와, 기준 채널에 대하여 원래 제1 채널들 중 하나의 성질을 기술하는 원래 제1 채널들 중 하나와 연관된 원래 파라미터(110b)를 포함한다. 상기 오디오 신호 수신기(102)는 적어도 하나의 제2 원래 채널에 대한 정보를 가지는 제2 다운-믹스 채널 112a를 포함하는 제2 오디오 신호(112)를 더 수신한다.
상기 오디오 신호 수신기는 상기 제1 다운-믹스 채널(110a) 및 상기 제2 다운-믹스 채널(112a)을 상기 채널 결합기(104)의 입력으로 출력하며, 상기 제1 다운-믹스 채널(110a), 상기 제2 다운-믹스 채널(112a) 및 상기 원래 파라미터(110b)를 상기 파라미터 계산기(106)로 출력한다.
상기 채널 결합기(104)는 상기 제1 다운-믹스 채널(110a) 및 상기 제2 다운-믹스 채널(112a)을 결합함(combining)으로써-즉, 상기 기초를 이루는(underlying) 원래 오디오 채널들을 복원(reconstructing)하지 않고 상기 다운-믹스 채널들을 직접적으로 결합함으로써- 결합된 다운-믹스 채널(114)를 얻는다.
상기 파라미터 계산기(106)는 공통 기준 채널에 대하여 상기 제1 원래 채널들 중 하나의 성질을 기술하는 제1 결합된 파라미터(116a)와, 상기 동일한 공통 기준 채널에 대하여 상기 적어도 하나의 제2 원래 채널 또는 상기 제1 원래 채널들 중 또 다른 하나의 성질을 기술하는 제2 결합된 파라미터(116b)를 얻는다. 상기 제1 및 제2 결합된 파라미터들은 상기 채널 결합기(114)로부터 상기 결합된 다운-믹스 채널(114)을 수신하는 출력 인터페이스(108)로 입력된다. 최종적으로, 상기 출력 인터페이스는 상기 결합된 다운-믹스 채널(114)와, 상기 제1 및 제2 결합된 파라미터들(116a 및 116b)을 포함하는 출력 신호(120)를 출력한다.
상기 오디오 출력 신호는 상기 입력 오디오 신호들을 완전히 복원(reconstruction)하지 않고, 그 결과 비싼 계산 비용의 연산없이도 얻어진다.
전술한 문단들내에서, 각각 JSC 파라메트릭 접근법에 기반한 두개 또는 그 이상의 신호들을 믹싱하는 일반적 개념을 볼 수 있다. 구체적으로, 전술한 수학식들은 이러한 기법을 상기 파라메트릭 정보가 상대적인 전력 비(power ratios)로 이루어진 경우에 어떻게 적용하는지를 보여준다. 그럼에도 불구하고, 이러한 기법은 객체 파라미터들의 특정한 표현에 한정되지 않는다. 그러므로, 또한 크기(amplitude) 측정값 또는 개별적인 오디오 채널들의 다른 성질들을 기술하는 파라미터들-예를 들어 상관값(correlations)-이 사용될 수 있다. 상기 전력 비는 하나의 추가적인 파라미터를 전송해야하는 비용을 치르고, 상기 결합된 다운-믹스 채 널에 대하여 계산될 수 있다. 한편으로는, "포괄적(generic)" JSC에서 명시적으로 전송되지 않은 기준 채널의 전력의 복원(reconstruction)은 안 쓰이므로(obsolete), 오디오-스트림들의 믹싱 과정에서의 감소된 계산 복잡도로부터 이러한 대체적인(alternative) 시나리오에서의 잇점을 얻을 수 있다.
더 나아가, 본 발명은 원격지간 회의 시나리오에 한정되는 것이 아니며, 파라메트릭 객체들(parametric objects)을 단일의 스트림으로 멀티플렉싱하는 것이 요구되는 경우에도 적용될 수 있다. 이것은 예를 들어 BCC-코딩 기법들, MPEG 공간정보 기반 서라운드(MPEG spatial surround) 및 다른 기법들 내에서의 사례가 될 수 있다.
이미 보여진 바와 같이, 본 발명의 개념은 단일의 모노럴 신호(monophonic)을 상기 객체-기반 시나리오로 제공하는 예전부터 사용해왔던 원격 스테이션들(legacy remote stations)을 단절 없이(seamlessly) 포함시키는 것을 또한 허용한다. 서로 다른 객체 스트림들을 결합하는 것과는 별도로, 본 발명의 개념은 계산 측면에서 효율적인 결합 과정들(combination processes)을 가능케하는데 적합하도록 파라메트릭 데이터(parametric data)를 표현하는 다른 방식들이 어떻게 생성될 수 있는지를 또한 보여준다. 이와 같이, 두개의 스트림들이 단순히 간단한 연산들을 수행함으로써 결합될(combined)되는 방식으로 상기 객체 성질들을 표현하는 것은 본 발명의 파라메트릭 비트 스트림 체계(syntax)의 장점이다.
따라서, 본 발명의 개념은 아래의 기준을 충실히 따르면서, 복수의 원래 오디오 채널들(오디오 객체들)을 파라미터적으로 부호화(parametrically encode)하기 위하여 적절한 비트 스트림들 또는 비트 스트림 포맷( bit stream formats)을 어떻게 생성하는지를 가르쳐 준다:
ㆍ상기 결합된 다운-믹스 신호는 단순히 상기 일부분의 다운-믹스 신호들로부터 형성된다
ㆍ상기 결합된 파라메트릭 부가 정보는 개별적인 파라메트릭 부가 정보 및 어떤 것을 결합하여 상기 다운-믹스 신호들(예를 들어, 에너지)의 특징을 간단히 계산하는 것으로부터 만들어 낼 수 있다.
ㆍ어떤 경우에도, 상기 오디오 객체들을 위한 복호화(decoding)/재부호화(re-encoding) 단계와 같은 복잡한 연산은 수행되어서는 않된다.
ㆍ따라서, 두개 또는 그 이상의 객체 스트림들의 결합(combination)("더하기(addition)")이 상기 파라메트릭 부가 정보의 일부로서 사용가능한 비트 스트림 필드들만을 이용하여 가능하고 상기 다운-믹스 신호들(예를 들어, 에너지, 피크 값)의 지표(metrics)를 간단히 계산하는 것이 가능하도록 상기 객체들을 기술하는 파라메트릭 표현이 선택되어야한다.
이와 같은 표현에 대한 예는 각 객체에 대한 정규화된 전력값들(수학식 4)을 이용하는 것이다. 이것들은 대수적 표현(dB)으로 변환된 후 양자화기 간격들(quantizer steps)의 특정 개수 또는 대표적인 양자화기 인덱스(indices)로 양자화된다. 상기 비트 스트림 체계(syntax)는 예를 들어 간단히 파라미터들을 연관(concatenating) 시키고, 삽입하고 또는 제거하여 하나의 스트림내에서 객체 파라미터들의 개수를 쉽게 증가(또는 감소)시키는 것을 허용해야 한다.
요약하면, 본 발명의 개념은 매우 융통성있고(flexible) 계산 측면에서 효과적인 파라미터적으로 부호화된 오디오-스트림들의 결합을 허용한다. 높은 계산 효율로 인하여, 본 발명의 개념은 결합되어야하는 채널들의 최대 개수에 제한되지 않는다. 주로, 실시간에서 결합될 수 있는 채널들은 임의의 개수로 본 발명의 오디오 신호 발생기로 제공된다. 또한, 상기 본 발명의 개념을 설명하는데 사용된 정밀한 파라메트릭 표현(JSC)은 의무 사항은 아니다. 더 나아가, 이미 언급하였지만, 공통적으로 알려진 서라운드 기법과 같은 다른 파라메트릭 코딩은 본 발명의 적용 및 개념에 대한 기초가 될 수 있다.
더 나아가, 필요한 계산은 반드시 소프트웨어에서 적용될 필요는 없다. 예를 들어 DSP들, ASIC들 및 다른 집적 회로들을 이용한 하드웨어 구현이 또한 상기 계산을 수행하는데 사용될 수 있으며, 이 경우 본 발명 적용시의 속도를 더욱 높일 수 있을 것이며, 실시간 시나리오들에 본 발명 개념의 적용을 허용할 수 있을 것이다.
본 발명 개념의 융통성으로 인하여, 본 발명의 오디오-스트림들은 서로 다른 파라메트릭 표현들에 기반할 수 있다. 전송되는 파라미터들은 예를 들어 또한 크기 측정값, 원래 오디오 채널들간의 시간 차이, 간섭 측정값(coherence measures), 그리고 다른 것들이 될 수 있다.
따라서, 각각 JSC-유형의 파라메트릭 접근법에 기초하는 두개 또는 그 이상의 신호들을 믹싱한다는 일반 개념이 제시되었다.
상기 수학식들은 파라메트릭 정보가 상대적인 전력 비로 이루어지는 경우에 대해 본 발명의 기법을 어떻게 적용해야할지를 보여준다. 그럼에도 불구하고, 본 발명의 기법은 객체 파라미터들의 특정 표현에 한정되는 것은 아니다.
더 나아가, 본 발명은 원격지간 회의 시나리오에 제한되는 것은 아니며, 파라메트릭 객체들을 단일의 JSC-스트림으로 멀티플렉싱하는 것이 잇점이 있는 어떠한 경우에도 적용이 가능하다.
또한, 본 발명의 기법은 단일의 모노럴 신호(monophonic)을 상기 객체-기반 시나리오로 제공하는 예전부터 사용해왔던 원격 스테이션들(legacy remote stations)을 단절 없이(seamlessly) 포함시키는 것을 또한 허용한다.
서로 다른 객체 스트림들을 결합하는 실제 과정과는 별도로, 본 발명은 파라메트릭 데이터(parametric data)를 표현하는 다른 방식들이 어떻게 이러한 결합 과정들(combination processes)을 가능케하는데 적합한지를 또한 보여준다. 두개의 스트림들이 단순히 간단한 연산들을 수행함으로써 결합될(combined)되는 방식으로 상기 객체 성질들을 표현하는 것은 본 발명의 파라메트릭 비트 스트림 체계(syntax)의 장점이다. 모든 가능한 파라메트릭 표현들이 상기 객체들의 완전 복호화(full decoding)/재-부호화(re-encoding) 없이 이와같이 기술된 결합 과정을 허용하는 것은 아니므로, 상기 객체 성질을 두개의 스트림들이 단지 단순한 연산들을 수행함으로써 결합될 수 있도록 표현한다는 점은 파라메트릭 비트 스트림 체계(syntax)의 잇점이다.
본 발명의 방법들의 어떤 구현 요구사항들에 따라서, 본 발명의 방법들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 상기 구현은 본 발명의 방법들이 수행 되도록 프로그램가능한 컴퓨터 시스템과 협력하여 동작하는 디지털 저장 매체-구체적으로, 전자적으로 판독가능한 제어 신호들이 저장되어 있는 디스크, DVD 또는 CD-를 사용하여 수행될 수 있다. 따라서, 일반적으로, 본 발명은 기계적으로 판독가능한 캐리어(machine-readable carrier)에 저장된 프로그램 코드를 가진 컴퓨터 프로그램 프로덕트(computer program product)이며, 상기 프로그램 코드는 상기 컴퓨터 프로그램 프로덕트가 컴퓨터상에서 동작할 때 상기 본 발명의 방법들을 수행하도록 동작한다. 따라서, 바꾸어 말하면, 본 발명의 방법들은 상기 컴퓨터 프로그램이 컴퓨터상에서 동작할 때 적어도 하나의 본 발명의 방법들을 수행하기 위한 코드를 가지는 컴퓨터 프로그램이다.
앞부분은 본 발명의 특정 실시예들을 참조하여 구체적으로 제시되고 기술되었지만, 해당 기술분야의 숙련된 당업자는 본 발명의 본질 및 사상적 범위로부터 벗어나지 않는 범위 내에서 본 발명의 형태 및 세부사항을 다양하게 변경시킬 수 있음을 이해할 수 있을 것이다. 여기에 개시되고 후속 청구항들에 의해 이해되는 더 광의의 개념들로부터 벗어나지 않는 범위내에서 다른 실시예들로 개조하는 데에 있어서 다양한 변경이 이루어질 수 있음을 이해할 수 있을 것이다.

Claims (24)

  1. 오디오 출력 신호를 생성하는 오디오 신호 발생기(100)는:
    두개 이상의 제1 원래 채널들에 대한 정보를 가지는 제1 다운-믹스 채널(110a)을 포함하고, 기준 채널에 대하여 상기 제1 원래 채널들 중 하나의 성질을 기술하는 제1 원래 채널들에 연관된 적어도 하나의 원래 파라미터(110b)를 포함하는 제1 오디오 신호(110); 및
    적어도 하나의 제2 원래 채널에 대한 정보를 가지는 제2 다운-믹스 채널(112a)을 포함하는 제2 오디오 신호(112);
    를 수신하는 오디오 신호 수신기(102);
    상기 제1 다운-믹스 채널(110a) 및 상기 제2 다운-믹스 채널(112a)을 결합하여(combining) 결합된 다운-믹스 채널(114)을 얻는 채널 결합기(104);
    공통 기준 채널에 대한 상기 제1 원래 채널들 중 하나의 성질을 기술하는 제1 결합된 파라미터(116a)를 얻고, 상기 공통 기준 채널에 대한 상기 적어도 하나의 제2 원래 채널 또는 상기 제1 원래 채널들 중 다른 하나의 성질을 기술하는 제2 결합된 파라미터(116b)를 얻는 파라미터 계산기(106); 및
    상기 결합된 다운-믹스 채널(114), 그리고 상기 제1 결합된 파라미터(116a) 및 상기 제2 결합된 파라미터(116b)를 포함하는 상기 오디오 출력 신호(120)를 출력하는 출력 인터페이스를 포함하는 오디오 신호 발생기(100).
  2. 제1항에 있어서, 상기 채널 결합기(104)는 상기 제1 다운-믹스 채널(110a) 및 상기 제2 다운-믹스 채널(110b)의 선형 결합(linear combination)을 이용하여 상기 결합된 다운-믹스 채널(114)을 얻도록 동작하는 오디오 신호 발생기(100).
  3. 제2항에 있어서, 상기 채널 결합기(104)는
    상기 제1 다운-믹스 채널(110a) 내의 에너지
    Figure 112009000782763-pct00032
    및 상기 제2 다운-믹스 채널(110b) 내의 에너지
    Figure 112009000782763-pct00033
    에 종속되는 계수들을 가지는 선형 결합(linear combination)을 이용하도록 동작하는 오디오 신호 발생기(100).
  4. 제3항에 있어서, 상기 채널 결합기(104)는
    하기의 수학식:
    Figure 112009000782763-pct00034
    에 의해 얻어지는, 상기 제1 다운-믹스 채널에 대한 계수 gA 및 상기 제2 다운-믹스 채널에 대한 계수 gB를 가지는 선형 결합(linear combination)을 이용하도록 동작하는 오디오 신호 발생기(100).
  5. 제2항에 있어서, 상기 채널 결합기(104)는
    상기 제1 원래 채널들의 개수 U 및 상기 제2 원래 채널들의 개수 V에 종속되는 계수들을 가지는 선형 결합(linear combination)을 이용하도록 동작하는 오디오 신호 발생기(100).
  6. 제5항에 있어서, 상기 채널 결합기(104)는
    하기의 수학식들:
    Figure 112009000782763-pct00035
    또는
    Figure 112009000782763-pct00036
    중의 하나의 수학식에 따라서 얻어지는 상기 제1 다운-믹스 채널(110a)에 대한 계수 gA 및 상기 제2 다운-믹스 채널(112a)에 대한 계수 gB를 가지는 선형 결합(linear combination)을 이용하도록 동작하는 오디오 신호 발생기(100).
  7. 제1항에 있어서, 상기 파라미터 계산기(106)는
    공통 기준 채널로서 상기 제1 원래 채널들 또는 상기 적어도 하나의 제2 원래 채널 중의 소정의 채널을 사용하도록 동작하는 오디오 신호 발생기(100).
  8. 제1항에 있어서, 상기 파라미터 계산기(106)는
    상기 공통 기준 채널로서 상기 제1 오디오 신호(110)의 기준 채널을 사용하도록 동작하는 오디오 신호 발생기(100).
  9. 제1항에 있어서, 상기 파라미터 계산기(106)는
    상기 공통 기준 채널로서 상기 결합된 다운-믹스 채널(114)을 사용하도록 동작하는 오디오 신호 발생기(100).
  10. 제1항에 있어서, 상기 파라미터 계산기(106)는
    가장 높은 에너지를 가지는 공통 기준 채널로서 상기 원래 채널을 사용하도록 동작하는 오디오 신호 발생기(100).
  11. 제1항에 있어서, 상기 파라미터 계산기(106)는
    하기의 수학식:
    Figure 112010081669982-pct00037
    에 따라서 상기 제1 다운-믹스 채널(110a)의 에너지
    Figure 112010081669982-pct00038
    및 상기 기준 채널과는 다른 채널들과 연관된 파라미터들 ai..{i=1, ..., n}을 얻음으로써 상기 기준 채널의 에너지 를 계산하도록 동작하는 오디오 신호 발생기(100).
  12. 제1항에 있어서, 상기 파라미터 계산기(106)는
    상기 기준 채널을 상기 공통 기준 채널로서 사용하고 상기 적어도 하나의 원래 파라미터를 상기 제1 결합된 파라미터로서 사용하고, 상기 기준 채널에 대하여 상기 적어도 하나의 제2 원래 채널에 대한 상기 제2 결합된 파라미터를 얻도록 동작하는 오디오 신호 발생기(100).
  13. 제1항에 있어서, 상기 파라미터 계산기(106)는
    상기 제1 다운-믹스 채널(110a)의 에너지
    Figure 112010081669982-pct00040
    및 상기 제2 다운-믹스 채널(112b)의 에너지
    Figure 112010081669982-pct00041
    를 이용하여 상기 결합된 파라미터들을 얻도록 동작하는 오디오 신호 발생기(100).
  14. 제13항에 있어서, 상기 파라미터 계산기(106)는
    상기 제1 다운-믹스 채널(110a)에 연관된 계수 gA 및 상기 제2 다운-믹스 채널(112a)에 연관된 계수 gB를 더 이용하도록 동작하고, 상기 계수들은 상기 채널 결합기(104)에 의해 사용되는 상기 제1 및 제2 다운-믹스의 선형 결합(linear combination)에 사용되는 오디오 신호 발생기(100).
  15. 제14항에 있어서, 상기 파라미터 계산기(106)는
    하기의 수학식:
    Figure 112010081669982-pct00042
    -여기서,
    Figure 112010081669982-pct00043
    는 하기의 수학식:
    Figure 112010081669982-pct00044
    (여기서, a2는 제1 원래 채널을 상기 기준 채널에 관련시키는 원래 파라미터를 나타냄)
    에 따라서 상기 제1 다운-믹스 채널의 에너지
    Figure 112010081669982-pct00045
    를 사용하여 얻어진 기준 채널의 에너지를 나타냄-
    에 따라서 상기 적어도 하나의 제2 원래 채널에 대한 상기 제2 결합된 파라미터를 계산하도록 동작하는 오디오 신호 발생기(100).
  16. 제1항에 있어서, 상기 파라미터 계산기(106)는
    결합된 파라미터들이 각각의 이산 주파수 간격에 대해 얻어지도록 이산 주파수 간격들과 연관된 상기 제1 및 제2 다운-믹스 채널들의 주파수-부분들을 처리하도록 동작하는 오디오 신호 발생기(100).
  17. 제1항에 있어서, 상기 오디오 신호 수신기는
    소정의 샘플 주파수로 샘플링된 샘플링 파라미터들에 의해 표시된 다운-믹스 채널들(110a, 112a)을 포함하는 오디오 신호들(110, 112)을 수신하도록 동작하는 오디오 신호 발생기(100).
  18. 오디오 출력 신호를 생성하는 방법은:
    두개 이상의 제1 원래 채널들에 대한 정보를 가지는 제1 다운-믹스 채널(110a)과 기준 채널에 대하여 상기 제1 원래 채널들 중 하나의 성질을 기술하는 제1 원래 채널들에 연관된 적어도 하나의 원래 파라미터(110b)를 포함하는 제1 오디오 신호(110), 그리고 적어도 하나의 제2 원래 채널에 대한 정보를 가지는 제2 다운-믹스 채널(112a)을 포함하는 제2 오디오 신호(112)를 수신하는 단계;
    상기 제1 다운-믹스 채널(110) 및 상기 제2 다운-믹스 채널(112)을 결합하여(combining) 결합된 다운-믹스 채널(114)을 얻는 단계;
    공통 기준 채널에 대한 상기 제1 원래 채널들 중 하나의 성질을 기술하는 제1 결합된 파라미터(116a), 그리고 공통 기준 채널에 대한 상기 적어도 하나의 제2 원래 채널 또는 상기 제1 원래 채널들 중 다른 하나의 성질을 기술하는 제2 결합된 파라미터(116b)를 얻는 단계; 및
    상기 결합된 다운-믹스 채널(114), 그리고 상기 제1 결합된 파라미터(116a) 및 상기 제2 결합된 파라미터(116b)를 가지는 오디오 출력 신호(120)를 출력하는 단계를 포함하는 오디오 출력 신호 생성 방법.
  19. 세개 이상의 오디오 채널들(120)의 표현(representation)을 저장하는 컴퓨터로 판독가능한 저장매체에 있어서, 상기 세개 이상의 오디오 채널들(120)의 표현(representation)은,
    적어도 두개의 제1 원래 채널들에 대한 정보를 가지는 제1 다운-믹스 채널과 적어도 하나의 제2 원래 채널에 대한 정보를 가지는 제2 다운-믹스 채널의 결합인 결합된 다운-믹스 채널(114);
    기준 채널에 대하여 상기 적어도 두개의 제1 원래 채널들 중 하나의 성질을 기술하는 제1 파라미터(116a); 및
    상기 기준 채널에 대한 상기 제1 원래 채널들 중 다른 채널의 성질 또는 상기 적어도 하나의 제2 원래 채널의 성질을 기술하는 제2 파라미터(116b)
    를 포함하는 컴퓨터로 판독가능한 저장매체.
  20. 제1항에 따른 오디오 출력 신호를 생성하는 오디오 신호 발생기(100)를 가지는 회의 시스템.
  21. 컴퓨터에서 동작할 경우 오디오 출력 신호를 생성하는 방법을 구현하기 위한 프로그램코드를 가지는 컴퓨터 프로그램을 저장하는 컴퓨터로 판독가능한 저장매체에 있어서, 상기 방법은:
    두개 이상의 제1 원래 채널들에 대한 정보를 가지는 제1 다운-믹스 채널과 기준 채널에 대하여 상기 제1 원래 채널들 중 하나의 성질을 기술하는 제1 원래 채널들에 연관된 적어도 하나의 원래 파라미터를 포함하는 제1 오디오 신호, 그리고 적어도 하나의 제2 원래 채널에 대한 정보를 가지는 제2 다운-믹스 채널을 포함하는 제2 오디오 신호를 수신하는 단계;
    상기 제1 다운-믹스 채널 및 상기 제2 다운-믹스 채널을 결합하여(combining) 결합된 다운-믹스 채널을 얻는 단계;
    공통 기준 채널에 대한 상기 제1 원래 채널들 중 하나의 성질을 기술하는 제1 결합된 파라미터, 그리고 공통 기준 채널에 대한 상기 적어도 하나의 제2 원래 채널 또는 상기 제1 원래 채널들 중 다른 하나의 성질을 기술하는 제2 결합된 파라미터를 얻는 단계; 및
    상기 결합된 다운-믹스 채널, 그리고 상기 제1 결합된 파라미터 및 상기 제2 결합된 파라미터를 가지는 오디오 출력 신호를 출력하는 단계를 포함하는 오디오 출력 신호 생성 방법을 구현한 컴퓨터로 판독가능한 저장매체.
  22. 기준 채널에 대하여 멀티 채널 신호의 채널의 신호 성질을 기술하는 파라미터를 이용하는 파라미터 표현(parameter representation)을 저장하는 컴퓨터로 판독가능한 저장매체에 있어서,
    상기 기준 채널은 상기 멀티 채널 신호의 다운믹스 또는 상기 멀티 채널 신호의 다른 채널이고, 상기 파라미터는 파라미터 값 범위에서의 하나의 값을 가지고, 상기 파라미터 표현은 대체 기준 채널(alternative reference channel)에 대해 상기 신호 성질을 기술하는 대체 파라미터(alternative parameter)가 상기 대체 기준 채널의 상기 다운믹스, 상기 파라미터 및 대응되는 파라미터에 관한 정보만을 사용하여 얻어질 수 있도록 하고, 상기 대체 파라미터는 상기 파라미터 값 범위로부터의 하나의 값을 가지도록 하는 것을 특징으로하는 컴퓨터로 판독가능한 저장매체.
  23. 제22항에 있어서, 상기 신호 성질은 에너지 또는 크기 측정값인 것을 특징으로 하는 컴퓨터로 판독가능한 저장매체.
  24. 제22항 또는 제23항에 있어서, 상기 파라미터는 상기 채널의 유한 폭 주파수 간격에 대한 신호 성질을 기술하는 것을 특징으로 하는 컴퓨터로 판독가능한 저장매체.
KR1020097000260A 2006-07-07 2007-04-24 복수의 파라미터적으로 코딩된 오디오 소스들을 결합하는 장치 및 방법 KR101056325B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US81941906P 2006-07-07 2006-07-07
US60/819,419 2006-07-07
US11/739,544 US8139775B2 (en) 2006-07-07 2007-04-24 Concept for combining multiple parametrically coded audio sources
PCT/EP2007/003598 WO2008003362A1 (en) 2006-07-07 2007-04-24 Apparatus and method for combining multiple parametrically coded audio sources
US11/739,544 2007-04-24

Publications (2)

Publication Number Publication Date
KR20090025332A KR20090025332A (ko) 2009-03-10
KR101056325B1 true KR101056325B1 (ko) 2011-08-11

Family

ID=38191359

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097000260A KR101056325B1 (ko) 2006-07-07 2007-04-24 복수의 파라미터적으로 코딩된 오디오 소스들을 결합하는 장치 및 방법

Country Status (18)

Country Link
US (1) US8139775B2 (ko)
EP (2) EP2038878B1 (ko)
JP (1) JP5134623B2 (ko)
KR (1) KR101056325B1 (ko)
AR (1) AR061241A1 (ko)
AT (1) ATE542216T1 (ko)
AU (2) AU2007271532B2 (ko)
BR (1) BRPI0713236B1 (ko)
CA (1) CA2656867C (ko)
ES (2) ES2380059T3 (ko)
HK (1) HK1124424A1 (ko)
IL (1) IL196217A (ko)
MX (1) MX2009000086A (ko)
NO (2) NO341259B1 (ko)
PL (2) PL2112652T3 (ko)
RU (1) RU2407227C2 (ko)
TW (1) TWI336881B (ko)
WO (1) WO2008003362A1 (ko)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101294022B1 (ko) * 2006-02-03 2013-08-08 한국전자통신연구원 공간큐를 이용한 다객체 또는 다채널 오디오 신호의 랜더링제어 방법 및 그 장치
PL1994526T3 (pl) * 2006-03-13 2010-03-31 France Telecom Połączona synteza i uprzestrzennienie dźwięków
CN101513030A (zh) * 2006-08-30 2009-08-19 日本电气株式会社 语音混合方法、多点会议服务器和利用该方法的程序
KR101065704B1 (ko) 2006-09-29 2011-09-19 엘지전자 주식회사 오브젝트 기반 오디오 신호를 인코딩 및 디코딩하는 방법 및 장치
EP2082397B1 (en) * 2006-10-16 2011-12-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
JP5270557B2 (ja) * 2006-10-16 2013-08-21 ドルビー・インターナショナル・アクチボラゲット 多チャネルダウンミックスされたオブジェクト符号化における強化された符号化及びパラメータ表現
KR101062353B1 (ko) 2006-12-07 2011-09-05 엘지전자 주식회사 오디오 신호의 디코딩 방법 및 그 장치
JP5270566B2 (ja) * 2006-12-07 2013-08-21 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
CN101647060A (zh) * 2007-02-13 2010-02-10 Lg电子株式会社 处理音频信号的方法和装置
JP5254983B2 (ja) 2007-02-14 2013-08-07 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置
EP2164238B1 (en) * 2007-06-27 2013-01-16 NEC Corporation Multi-point connection device, signal analysis and device, method, and program
US8391513B2 (en) 2007-10-16 2013-03-05 Panasonic Corporation Stream synthesizing device, decoding unit and method
CN102789782B (zh) * 2008-03-04 2015-10-14 弗劳恩霍夫应用研究促进协会 对输入数据流进行混合以及从中产生输出数据流
JP5773124B2 (ja) * 2008-04-21 2015-09-02 日本電気株式会社 信号分析制御及び信号制御のシステム、装置、方法及びプログラム
JP5243527B2 (ja) * 2008-07-29 2013-07-24 パナソニック株式会社 音響符号化装置、音響復号化装置、音響符号化復号化装置および会議システム
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
US8504184B2 (en) * 2009-02-04 2013-08-06 Panasonic Corporation Combination device, telecommunication system, and combining method
CN102292769B (zh) * 2009-02-13 2012-12-19 华为技术有限公司 一种立体声编码方法和装置
WO2010109918A1 (ja) * 2009-03-26 2010-09-30 パナソニック株式会社 復号化装置、符号化復号化装置および復号化方法
FR2944403B1 (fr) * 2009-04-10 2017-02-03 Inst Polytechnique Grenoble Procede et dispositif de formation d'un signal mixe, procede et dispositif de separation de signaux, et signal correspondant
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
JP5793675B2 (ja) * 2009-07-31 2015-10-14 パナソニックIpマネジメント株式会社 符号化装置および復号装置
ES2569779T3 (es) * 2009-11-20 2016-05-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato para proporcionar una representación de señal de mezcla ascendente con base en la representación de señal de mezcla descendente, aparato para proporcionar un flujo de bits que representa una señal de audio multicanal, métodos, programas informáticos y flujo de bits que representan una señal de audio multicanal usando un parámetro de combinación lineal
US8786852B2 (en) 2009-12-02 2014-07-22 Lawrence Livermore National Security, Llc Nanoscale array structures suitable for surface enhanced raman scattering and methods related thereto
WO2011071928A2 (en) * 2009-12-07 2011-06-16 Pixel Instruments Corporation Dialogue detector and correction
US8437480B2 (en) * 2009-12-17 2013-05-07 Stmicroelectronics Asia Pacific Pte Ltd. Adaptive loudness levelling for digital audio signals
TWI557723B (zh) 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
CN102222503B (zh) * 2010-04-14 2013-08-28 华为终端有限公司 一种音频信号的混音处理方法、装置及系统
US12002476B2 (en) 2010-07-19 2024-06-04 Dolby International Ab Processing of audio signals during high frequency reconstruction
FR2966277B1 (fr) * 2010-10-13 2017-03-31 Inst Polytechnique Grenoble Procede et dispositif de formation d'un signal mixe numerique audio, procede et dispositif de separation de signaux, et signal correspondant
EP2661748A2 (en) * 2011-01-06 2013-11-13 Hank Risan Synthetic simulation of a media recording
US9589550B2 (en) * 2011-09-30 2017-03-07 Harman International Industries, Inc. Methods and systems for measuring and reporting an energy level of a sound component within a sound mix
CN103050124B (zh) 2011-10-13 2016-03-30 华为终端有限公司 混音方法、装置及系统
IN2014CN03413A (ko) * 2011-11-01 2015-07-03 Koninkl Philips Nv
JP6267860B2 (ja) * 2011-11-28 2018-01-24 三星電子株式会社Samsung Electronics Co.,Ltd. 音声信号送信装置、音声信号受信装置及びその方法
KR101970589B1 (ko) * 2011-11-28 2019-04-19 삼성전자주식회사 음성 신호 송신 장치, 음성 신호 수신 장치 및 그 방법
EP2600343A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
US9395304B2 (en) 2012-03-01 2016-07-19 Lawrence Livermore National Security, Llc Nanoscale structures on optical fiber for surface enhanced Raman scattering and methods related thereto
KR102033985B1 (ko) * 2012-08-10 2019-10-18 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 공간적 오디오 객체 코딩에 오디오 정보를 적응시키기 위한 장치 및 방법
US9373335B2 (en) 2012-08-31 2016-06-21 Dolby Laboratories Licensing Corporation Processing audio objects in principal and supplementary encoded audio signals
WO2014046916A1 (en) 2012-09-21 2014-03-27 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
EP2757559A1 (en) * 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
US9093064B2 (en) 2013-03-11 2015-07-28 The Nielsen Company (Us), Llc Down-mixing compensation for audio watermarking
EP2790419A1 (en) * 2013-04-12 2014-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
US8804971B1 (en) * 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
CN105229731B (zh) 2013-05-24 2017-03-15 杜比国际公司 根据下混的音频场景的重构
EP3074970B1 (en) 2013-10-21 2018-02-21 Dolby International AB Audio encoder and decoder
GB2549532A (en) * 2016-04-22 2017-10-25 Nokia Technologies Oy Merging audio signals with spatial metadata
CN118314908A (zh) * 2023-01-06 2024-07-09 华为技术有限公司 场景音频解码方法及电子设备

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW419645B (en) * 1996-05-24 2001-01-21 Koninkl Philips Electronics Nv A method for coding Human speech and an apparatus for reproducing human speech so coded
US6330533B2 (en) * 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US20050062843A1 (en) * 2003-09-22 2005-03-24 Bowers Richard D. Client-side audio mixing for conferencing
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
ES2295837T3 (es) * 2004-03-12 2008-04-16 Nokia Corporation Sistesis de una señal de audio monofonica sobre la base de una señal de audio multicanal codificada.
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
DE602004025517D1 (de) 2004-05-17 2010-03-25 Nokia Corp Audiocodierung mit verschiedenen codierungsrahmenlängen
EP1769655B1 (en) 2004-07-14 2011-09-28 Koninklijke Philips Electronics N.V. Method, device, encoder apparatus, decoder apparatus and audio system
DE102004043521A1 (de) 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
US7853022B2 (en) * 2004-10-28 2010-12-14 Thompson Jeffrey K Audio spatial environment engine
US7761304B2 (en) * 2004-11-30 2010-07-20 Agere Systems Inc. Synchronizing parametric coding of spatial audio with externally provided downmix
US7787631B2 (en) * 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Faller, 'Parametric Joint-Coding of Audio Source', 120th AES Convention, May 2006

Also Published As

Publication number Publication date
NO341259B1 (no) 2017-09-25
NO20090515L (no) 2009-02-02
AU2007271532A1 (en) 2008-01-10
IL196217A0 (en) 2009-09-22
EP2112652B1 (en) 2012-11-07
NO20170534A1 (no) 2009-02-02
CA2656867C (en) 2013-01-08
MX2009000086A (es) 2009-01-23
ATE542216T1 (de) 2012-02-15
EP2112652A1 (en) 2009-10-28
TWI336881B (en) 2011-02-01
RU2407227C2 (ru) 2010-12-20
CA2656867A1 (en) 2008-01-10
AR061241A1 (es) 2008-08-13
AU2011200669B2 (en) 2012-06-28
NO343321B1 (no) 2019-01-28
AU2007271532B2 (en) 2011-03-17
EP2038878A1 (en) 2009-03-25
JP2009543142A (ja) 2009-12-03
EP2038878B1 (en) 2012-01-18
WO2008003362A1 (en) 2008-01-10
BRPI0713236A2 (pt) 2013-04-02
KR20090025332A (ko) 2009-03-10
AU2011200669A1 (en) 2011-03-10
ES2380059T3 (es) 2012-05-08
ES2396072T3 (es) 2013-02-19
BRPI0713236B1 (pt) 2020-03-10
RU2009104047A (ru) 2010-08-20
TW200818122A (en) 2008-04-16
US20080008323A1 (en) 2008-01-10
PL2112652T3 (pl) 2013-04-30
US8139775B2 (en) 2012-03-20
JP5134623B2 (ja) 2013-01-30
IL196217A (en) 2013-06-27
HK1124424A1 (en) 2009-07-10
PL2038878T3 (pl) 2012-06-29

Similar Documents

Publication Publication Date Title
KR101056325B1 (ko) 복수의 파라미터적으로 코딩된 오디오 소스들을 결합하는 장치 및 방법
RU2576476C2 (ru) Декодер аудиосигнала, кодер аудиосигнала, способ формирования представления сигнала повышающего микширования, способ формирования представления сигнала понижающего микширования, компьютерная программа и бистрим, использующий значение общего параметра межобъектной корреляции
JP4601669B2 (ja) マルチチャネル信号またはパラメータデータセットを生成する装置および方法
AU2007312597B2 (en) Apparatus and method for multi -channel parameter transformation
TWI396187B (zh) 用於將以物件為主之音訊信號編碼與解碼之方法與裝置
US7916873B2 (en) Stereo compatible multi-channel audio coding
KR101315077B1 (ko) 멀티-채널 오디오 데이터를 인코딩 및 디코딩하기 위한 방법, 및 인코더들 및 디코더들
RU2449388C2 (ru) Способы и устройства для кодирования и декодирования объектно-базированных аудиосигналов
CN101506875B (zh) 用于组合多个参数编码的音频源的设备和方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140730

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150803

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160729

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170725

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20180724

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190730

Year of fee payment: 9