KR20080105135A - 오디오 디코딩 - Google Patents

오디오 디코딩 Download PDF

Info

Publication number
KR20080105135A
KR20080105135A KR1020087023866A KR20087023866A KR20080105135A KR 20080105135 A KR20080105135 A KR 20080105135A KR 1020087023866 A KR1020087023866 A KR 1020087023866A KR 20087023866 A KR20087023866 A KR 20087023866A KR 20080105135 A KR20080105135 A KR 20080105135A
Authority
KR
South Korea
Prior art keywords
signal
matrices
channel
frequency subbands
matrix
Prior art date
Application number
KR1020087023866A
Other languages
English (en)
Other versions
KR101015037B1 (ko
Inventor
라스 에프 빌레모스
에릭 지. 피. 쉬저스
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
돌비 스웨덴 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이., 돌비 스웨덴 에이비 filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20080105135A publication Critical patent/KR20080105135A/ko
Application granted granted Critical
Publication of KR101015037B1 publication Critical patent/KR101015037B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

오디오 디코더, 파라메트릭 다중 채널 데이터 및 주파수 서브대역들에 적용된 복소수 값 서브대역 인코딩 매트릭스들을 갖는, M>N인, M 채널 오디오 신호의 다운-믹싱된 신호에 대응하는 N 채널 신호를 포함하는 입력 데이터를 수신하는 수신기(801)를 포함한다. 서브대역 필터 뱅크(805)는 상기 N 채널 신호에 대해 실수 값 주파수 서브대역들을 생성한다. 매트릭스 프로세서(809)는 상기 파라메트릭 다중 채널 데이터에 응답하여 상기 인코딩 매트릭스들의 적용을 보상하기 위해 실수 값 서브대역 디코딩 매트릭스들을 결정한다. 보상 프로세서(807)는 실수 값 서브대역 디코딩 매트릭스들과 적어도 일부의 실수 값 주파수 서브대역들에서의 N 채널 신호의 데이터의 매트릭스 곱셈에 의해 다운-믹싱된 신호에 대응하는 다운-믹싱 데이터를 생성한다. 상기 다운-믹싱 데이터는 다운-믹싱된 신호와 상기 M 채널 오디오 신호를 재생성하는데 이용될 수 있다. 상기 디코더는 실수 값 주파수 서브대역들을 이용하는 상기 인코더에서 수행된 MPEG 서라운드 호환성 연산들에 대해 보상할 수 있다.
Figure P1020087023866
다중 채널 신호, 서라운드 시스템, 이산 푸리에 변환, QMF 뱅크

Description

오디오 디코딩{AUDIO DECODING}
본 발명은 오디오 디코딩에 관한 것이며, 특히, 그러나 배타적이지 않은, MPEG 서라운딩 신호들(Surround signal)의 디코딩에 관한 것이다.
다양한 소스 신호들의 디지털 인코딩은 디지털 신호 표현 및 통신이 점점 아날로그 표현 및 통신을 대체함에 따라 지난 수 십년 동안 점점 중요하게 되었다. 예를들어, 비디오 및 음악 같은 미디어 콘텐트의 분배는 점점 디지털 콘텐트 인코딩에 기초한다.
게다가, 지난 십년 동안 종래 스테레오 신호들을 넘어서 확장하는 다중 채널 오디오 및 특히 공간 오디오 쪽으로의 트렌드가 있었다. 예를들어, 종래 스테레오 레코딩들은 두 개의 채널들만을 포함하지만 현대 진보된 오디오 시스템은 통상적으로 대중적인 5.1 서라운드 사운드 시스템들과 같이 5 또는 6개의 채널들을 이용한다. 이것은 보다 열중하는 청취 경험을 제공하고 여기서 사용자는 사운드 소스들에 의해 둘러싸일 수 있다.
다양한 기술들 및 표준들은 상기 다중 채널 신호들의 통신을 위하여 개발되었다. 예를들어, 5.1 서라운드 시스템을 표현하는 6개의 분산된 채널들은 AAC(Advanced Audio Coding) 또는 돌비 디지털 표준들 같은 표준들에 따라 전송될 수 있다.
그러나, 과거 호환성(backwards compatibility)을 제공하기 위하여, 보다 높은 수의 채널들을 보다 낮은 수의 채널로 다운 믹싱(down-mix)하는 것이 공지되었고 특히 스테레오 신호가 레거시(스테레오) 디코더들 및 서라운드 사운드 디코더들에 의한 5.1 신호에 의해 재생되게 하는 5.1 서라운드 사운드 신호를 스테레오 신호로 다운 믹싱하는 것이 주로 이용된다.
하나의 예는 MPEG2 과거 호환성 코딩 방법이다. 다중 채널 신호는 스테레오 신호로 다운 믹싱된다. 부가적인 신호들은 다중 채널 신호들로서 MPEG2 다중 채널 디코더가 다중 채널 신호의 표현을 생성하게 하는 보조 데이터 부분으로 인코딩된다. MPEG1 디코더는 보조 데이터를 무시할 것이고 따라서 스테레오 다운 믹싱만을 디코딩한다. MPEG2에 적용된 코딩 방법의 주요 단점은 부가적인 신호들에 요구된 부가적인 데이터 레이트가 스테레오 신호를 코딩하기 위하여 요구된 데이터 레이트와 동일한 정도의 크기라는 것이다. 따라서 스테레오를 다중 채널 오디오로 확장하기 위한 부가적인 비트 레이트가 중요하다.
부가적인 다중 채널 정보 없이 과거 호환 가능 다중 채널 전송을 위한 다른 종래 방법들은 통상적으로 매트릭스화된 서라운드 방법들을 특징으로 할 수 있다. 매트릭스 서라운드 사운드 인코딩의 예들은 Dolby Prologic Ⅱ 및 Logic-7 같은 방법들을 포함한다. 이들 방법들의 공통적인 원리는 적당한 매트릭스에 의해 입력 신호의 다중 채널들을 매트릭스 곱셈하고 이에 따라 보다 작은 수의 채널들을 갖는 출력 신호를 생성하는 것이다. 특히, 매트릭스 인코더는 통상적으로 프론트 및 센 터 채널들과 서라운드 채널들을 혼합하기 전에 서라운드 채널들에 대한 위상 시프트들을 적용한다.
채널 변환을 위한 다른 이유는 코딩 효율성이다. 스테레오 채널 오디오 신호들이 오디오 신호의 공간 특성들을 기술하는 파라미터 비트 스트림과 결합되는 것 같이, 예를들어 서라운드 사운드 오디오 신호들이 인코딩될 수 있는 것이 발견되었다. 디코더는 매우 만족스러운 정도의 정확도로 스테레오 오디오 신호들을 재생할 수 있다. 이런 방식으로, 실질적인 비트 레이트 절약들은 얻어질 수 있다.
오디오 신호들의 공간 특성들을 기술하기 위하여 이용될 수 있는 몇몇 파라미터들이 있다. 하나의 파라미터는 스테레오 신호들에 대한 좌측 채널 및 우측 채널 사이의 교차 상호 관계 같은 채널 간 교차 상호 관계이다. 다른 파라미터는 채널들의 전력 비이다. 상기 MPEG 서라운드 인코더와 같은, 소위 (파라메트릭) 공간 오디오 (인)코더들에서, 이들 및 다른 파라미터들은 감소된 수의 채널들, 예를들어 하나의 채널만을 가진 오디오 신호, 플러스 본래 오디오 신호의 공간 특성들을 기술하는 한 세트의 파라미터들을 형성하기 위하여 본래 오디오 신호로부터 추출된다. 소위 (파라메트릭) 공간 오디오 디코더들에서, 전송된 공간 파라미터들에 의해 기술된 바와 같은 공간 특성들은 복원된다(re-instated).
상기 공간 오디오 코딩은 바람직하게 인코더 및 디코더의 표준 유닛들을 포함하는 직렬 또는 트리 기반 계층 구조를 이용한다. 인코더에서, 표준 유닛들은 2 대 1, 3 대 1, 3 대 2 등등 다운 믹서들 같은 보다 작은 수의 채널들에 채널들을 결합하는 다운 믹서들일 수 있고, 디코더에서 대응하는 표준 유닛들은 1 대 2, 2 대 3 업 믹서들 같은 보다 큰 수의 채널들로 채널들을 분할하는 업 믹서들일 수 있다.
도 1은 MPEG 서라운드 명칭 하에서 MPEG에 의해 현재 표준화된 접근법에 따라 다중 채널 오디오 신호들을 코딩하기 위한 인코더의 예를 도시한다. MPEG 서라운드 시스템은 파라미터들의 세트에 의해 수반된 모노(mono) 또는 스테레오 다운-믹싱으로서 다중 채널 신호를 인코딩한다. 상기 다운-믹싱 신호는 예컨대 MP3 또는 AAC 인코더와 같은 레거시 오디오 코더에 의해 인코딩될 수 있다. 상기 파라미터들은 다중 채널 오디오 신호의 공간 이미지를 나타내고, 레거시 오디오 스트림에 대해 과거 호환가능 방식으로 코딩 및 임베딩(embed)될 수 있다.
디코더 측에서, 상기 코어 비트 스트림(core bit stream)이 먼저 디코딩되어, 모노 또는 스테레오 다운-믹싱 신호가 생성되게 한다. 레거시 디코더들, 즉 MPEG 서라운드 디코딩의 이용하지 않는 디코더들은 여전히 이 다운-믹싱 신호를 디코딩할 수 있다. 하지만, MPEG 서라운드 디코더가 이용가능하다면, 상기 공간 파라미터들은, 지각적으로(perceptually) 오리지널 다중 채널 입력 신호에 가까운 다중 채널 표현(multi-channel representation)을 얻도록 복원된다. MPEG 서라운드 디코더의 예가 도 2에 도시되어 있다.
도 1 및 도 2에 도시된 바와 같은 기본적인 공간 인코딩/디코딩과는 별개로, 상기 MPEG 서라운드 시스템은 많은 응용 도메인을 인에이블하는 특징들의 풍부한 세트를 제공한다. 가장 두드러진 특징들 중 하나는 매트릭스 호환성 또는 매트릭스(된) 서라운드 호환성이다.
종래의 매트릭스 서라운드 시스템들의 예들은 Dolby Prologic Ⅰ 또는 Ⅱ 및 써클 서라운드(Circle Surround)이다. 이들 시스템들은 도 3에 도시된 바와 같이 동작한다. 다중 채널 PCM 입력 신호는 통상 5(.1) 내지 2 매트릭스를 이용하는 소위 매트릭스된 다운-믹싱 신호로 변형된다. 매트릭스 서라운드 시스템들 이면의 아이디어는 정면 또는 서라운드(후면) 채널들이 스테레오 다운-믹싱 신호에서 각각 동위상(in phase) 및 역위상(out of phase)이라는 것이다. 다소 확장하면, 이것은 다중 채널 재구성시에 야기되는 디코더 측에서의 반전을 가능하게 한다.
매트릭스 서라운드 시스템들에서, 상기 스테레오 신호는 스테레오 전송을 위해 지정된 종래의 채널들을 이용하여 전송될 수 있다. 그러므로, MPEG 서라운드 시스템과 유사하게, 상기 매트릭스 서라운드 시스템들은 또한 과거 호환성의 형태를 제공한다. 하지만, 상기 매트릭스 서라운드 인코딩으로부터 야기된 상기 스테레오 다운-믹싱 신호의 특정한 위상 특성들로 인해, 이들 신호들은 종종, 예컨대 확성기들 또는 헤드폰들로부터의 스테레오 신호로서 청취될 때 고품질 사운드를 갖지 않는다.
매트릭스 서라운드 디코더에서, M 내지 N(여기서, 예컨대 M=2 및 N=5(.1)) 매트릭스가 다중 채널 PCM 출력 신호를 생성하도록 적용된다. 하지만, 일반적으로, N>M인 N 내지 M 매트릭스 시스템은 반전가능한 것이 아니므로, 매트릭스 서라운드 시스템들은 일반적으로, 고도의 인지가능한 아티팩트들(artefacts)을 갖는 경향이 있는 오리지널 다중 채널 PCM 출력 신호들을 정확히 재구성할 수 없다.
이러한 종래의 매트릭스 서라운드 시스템들과는 대조적으로, MPEG 서라운드 에서의 매트릭스 서라운드 호환성은 MPEG 서라운드 인코딩에 이어서 MPEG 서라운드 인코더의 주파수 서브대역들(frequency subbands)에서 복소수 샘플 값들에 대해 2x2 매트릭스를 적용함으로써 달성된다. 이러한 인코더들의 예가 도 4에 도시되어 있다. 2x2 매트릭스는 일반적으로 상기 공간 파라미터들에 의존하는 계수들을 갖는 복소수 값 매트릭스이다. 이러한 시스템에서, 상기 공간 파라미터들은 시간과 주파수 둘 모두의 변수이고, 그 결과, 2x2 매트릭스 또한 시간과 주파수 둘 모두의 변수이다. 따라서, 상기 복소수 매트릭스 연산은 통상적으로 시간-주파수 타일들(tiles)에 적용된다.
MPEG 서라운드 인코더에 매트릭스 서라운드 호환성 기능을 적용하여, 얻어진 스테레오 신호로 하여금, Dolby Pro-LogicTM과 같은 종래의 매트릭스 서라운드 인코더들에 의해 생성되는 신호에 호환가능하게 한다. 이것은 레거시 디코더들로 하여금 상기 서라운드 신호를 디코딩하게 한다. 더욱이, 상기 매트릭스 서라운드 호환성의 연산은 호환가능한 MPEG 서라운드 디코더에서 역전(reverse)될 수 있어, 고품질 다중 채널 신호가 생성되게 한다.
매트릭스 호환성 인코딩 매트릭스는 아래와 같이 기술될 수 있다.
Figure 112008068364065-PCT00001
여기서, L,R은 종래의 MPEG 스테레오 다운 믹싱이고, LMTX, RMTX는 상기 매트릭스 서라운드 인코딩된 다운-믹싱이고, hxy는 상기 다중 채널 파라미터들에 응답하 여 결정되는 복소수 계수이다.
2x2 매트릭스에 의해 매트릭스 호환가능한 스테레오 신호들을 제공하는 주요 이점은 이러한 매트릭스들이 반전(invert)될 수 있다는 사실이다. 결국, 상기 MPEG 서라운드 디코더는 매트릭스 호환가능한 스테레오 다운-믹싱이 인코더에서 채용되는지의 여부에 무관하게 동일한 출력 오디오 품질을 전달할 수 있다. 호환가능한 MPEG 서라운드 디코더의 예가 도 5에 도시되어 있다.
정규 MPEG 서라운드 디코더 내의 상기 디코더 측에서의 상기 반전 처리는 다음 수식에 의해 결정될 수 있다.
Figure 112008068364065-PCT00002
그러므로, H는 반전될 수 있는 것 같이, 매트릭스 호환가능한 인코더의 연산은 역전될 수 있다.
MPEG 서라운드 시스템에서, 매트릭스 호환가능성 연산들을 포함하는 처리는 주파수 도메인에서 일어난다. 보다 특별히는, 소위 복소수-지수 변조된 구적 미러 필터(Quadrature Mirror Filter;QMF) 뱅크들(banks)은 다수의 대역들로 상기 주파수 축들을 분할하는데 채용된다.
많은 방식들에서, 이러한 타입의 QMF 뱅크들은 오버랩-에드 이산 푸리에 변환(Overlap-Add Discrete Fourier Transform)(DFT) 뱅크 또는 그것의 유효한 상대편인 빠른 푸리에 변환(Fast Fourier Transform)(FFT)과 동일하게 될 수 있다. QMF 뱅크뿐만 아니라 DFT 뱅크는 신호 조작을 위한 이하의 원하는 특성들을 공유한다:
- 주파수 도메인 표현은 오버샘플된다(oversampled). 이 특성으로 인해, 에일라이징 왜곡(aliazing distortion)을 도입하지 않고 예컨대 이퀄라이징(equalization)(개별 대역들의 스케일링)과 같은 조작들을 적용하는 것이 가능하다. 예컨대, AAC에서 채용되는 잘 알려진 수정 이산 코사인 변환(Modified Discrete Cosine Transform)(MDCT)과 같은 중요하게 샘플링된 표현들은 이 특성에 따르지 않는다. 그러므로, 합성 전의 상기 MDCT 계수들의 시간 및 주파수 변수 수정은 에일라이징을 야기하고, 그것은 차례로 출력 신호에서 청취가능한 아티팩트들을 일으킨다.
- 주파수 도메인 표현은 복소수 값이다. 실수 값 표현들과 반대로, 복소수 값 표현들은 신호들의 위상의 간단한 수정을 가능하게 한다.
신호 조작에 의한 중요하게 샘플링된 실수 값 표현에 대해 다수의 이점들이 존재하지만, 이러한 표현에 비하여 상당한 단점은 계산 복잡성이다. 상기 MPEG 서라운드 디코더의 복잡성의 주요 부분은 상기 QMF 분석 및 합성 필터 뱅크들 및 상기 복소수 값 신호들에 대한 대응하는 처리 때문이다.
따라서, 소위 저전력(Low Power)(LP) 디코더를 위해 실수 값 도메인에서 상기 처리의 일부를 수행하는 것이 제안된다. 결국, 복소수 변조된 필터 뱅크는 낮은 주파수 대역들에 대해 복소수 값 도메인으로의 부분적인 확장이 뒤따르는 실수 값 코사인 변조된 필터 뱅크에 의해 교체된다.
연산의 정규 모드에서, 상기 MPEG 서라운드 디코더는 상기 복소수 값 서브대역 도메인 샘플들에 대해 실수 값 처리를 적용하고, 또는 LP의 경우에는, 이것들을 실수 값 서브대역 도메인 샘플들에 적용한다. 하지만, 상기 디코더 내의 상기 매트릭스 호환성 특징은 상기 주파수 도메인에서 오리지널 스테레오 다운-믹싱을 복구하기 위해 위상 회전들(phase rotations)을 포함한다. 이들 위상 회전들은 복소수 값 처리에 의해 달성된다. 달리 말해서, 상기 매트릭스 호환성 디코딩 매트릭스(matrix compatibility decoding matrix) H -1는 요구된 위상 회전들을 도입하기 위한 고유 복소수 값이다. 따라서, 이러한 시스템들에서, 상기 매트릭스 서라운드 호환가능 연산은 디코딩 품질을 감소시키는 LP 주파수 도메인 표현의 실수부에서 반전될 수 없다.
그러므로, 개선된 오디오 디코딩은 바람직하다.
따라서, 본 발명은 바람직하게는 하나 이상의 상술한 단점들을 단독으로 또는 조합하여 줄이거나, 경감시키거나 제거하는 것이다.
본 발명의 제 1 특징에 따라, 다운-믹싱된 신호와 연관된 파라메트릭 다중 채널 데이터 및 주파수 서브대역들에서 적용된 복소수 값 서브대역 인코딩 매트릭스들을 갖는, M>N인, M 채널 오디오 신호의 다운-믹싱된 신호에 대응하는 N 채널 신호를 포함하는 입력 데이터를 수신하기 위한 수단; 상기 N 채널 신호에 대해 주파수 서브대역들을 생성하기 위한 수단으로서, 상기 주파수 서브대역들의 적어도 일부는 실수 값 주파수 서브대역들인, 상기 생성 수단; 상기 파라메트릭 다중 채널 데이터에 응답하여 상기 인코딩 매트릭스들의 적용을 보상하기 위해 실수 값 서브대역 디코딩 매트릭스들을 결정하는 결정 수단; 상기 실수 값 서브대역 디코딩 매트릭스들과 상기 적어도 일부의 실수 값 주파수 서브대역들에서의 상기 N 채널 신호의 데이터의 매트릭스 곱셈에 의해 상기 다운-믹싱된 신호에 대응하는 다운-믹싱 데이터를 생성하는 수단을 포함하는 오디오 디코더가 제공된다.
본 발명은 개선 및/또는 용이해진 디코딩을 가능하게 할 수 있다. 특히, 본 발명은 높은 오디오 품질을 달성하면서 실질적인 복잡성 감소를 가능하게 할 수 있다. 본 발명은 예컨대, 실수 값 주파수 서브대역들을 이용하는 디코더에서 적어도 부분적으로 역전되도록 복소수 값 서브대역 매트릭스 곱셈의 효과를 가능하게 할 수 있다.
특정 예로서, 본 발명은 예컨대, MPEG 매트릭스 호환가능한 인코딩으로 하여금 실수 값 주파수 서브대역들을 이용하는 MPEG 서라운드 디코더에서 부분적으로 역전되도록 할 수 있다.
상기 디코더는 상기 다운-믹싱 데이터에 응답하여 상기 다운-믹싱된 신호를 생성하기 위한 수단을 포함할 수 있고, 상기 다운-믹싱 데이터 및 상기 파라메트릭 다중 채널 데이터에 응답하여 상기 M 채널 오디오 신호를 생성하기 위한 수단을 더 포함할 수 있다. 본 발명은 이러한 실시예에서, 적어도 부분적으로 실수 값 주파수 서브대역들에 기초하여 정확한 다중 채널 오디오 신호를 생성할 수 있다.
서로 다른 디코딩 매트릭스는 각각의 주파수 서브대역에 대해 결정될 수 있다.
본 발명의 선택적인 특성에 따라, 상기 결정 수단은 인코딩 매트릭스들의 복소수 값 서브대역 역 매트릭스들(complex valued subband inverse matrices)을 결정하고, 상기 역 매트릭스들에 응답하여 디코딩 매트릭스들을 결정하도록 구성된다.
이것은 특히 효과적인 구현 및/또는 개선된 디코딩 품질을 가능하게 한다.
본 발명의 선택적인 특성에 따라, 상기 결정 수단은 상기 역 매트릭스들의 대응하는 매트릭스 계수의 절대값에 응답하여 상기 디코딩 매트릭스들의 각각의 실수 값 매트릭스 계수를 결정하도록 구성된다.
이것은 특히 효과적인 구현 및/또는 개선된 디코딩 품질을 가능하게 한다. 상기 디코딩 매트릭스들의 각각의 실수 값 매트릭스 계수는 임의의 다른 매트릭스 계수를 고려하지 않고 상기 역 매트릭스들의 대응하는 매트릭스 계수만의 절대값에 응답하여 결정될 수 있다. 대응하는 매트릭스 계수는 상기 동일한 주파수 서브대역에 대해 상기 역 매트릭스의 동일한 위치의 매트릭스 계수일 수 있다.
본 발명의 선택적 특성에 따라, 상기 결정 수단은 실질적으로 상기 역 매트릭스들의 대응하는 매트릭스 계수의 절대값으로서 각각의 실수 값 매트릭스 계수를 결정하도록 구성된다.
이것은 특히 효과적인 구현 및/또는 개선된 디코딩 품질을 가능하게 한다.
본 발명의 선택적 특성에 따라, 상기 결정 수단은 대응하는 디코딩 매트릭스들과 인코딩 매트릭스들의 곱셈인 서브대역 전달 매트릭스들에 응답하여 상기 디코딩 매트릭스들을 결정하도록 구성된다.
이것은 특히 효과적인 구현 및/또는 개선된 디코딩 품질을 가능하게 한다. 대응하는 디코딩 및 인코딩 매트릭스들은 상기 동일한 주파수 서브대역에 대한 인코딩 및 디코딩 매트릭스들일 수 있다. 상기 결정 수단은 특히, 상기 전달 매트릭스들이 원하는 특성을 갖도록 상기 디코딩 매트릭스들의 상기 계수 값들을 선택하도록 구성될 수 있다.
본 발명의 선택적 특성에 따라, 상기 결정 수단은 전달 매트릭스들의 크기 측정치들(magnitude measures)에만 응답하여 상기 디코딩 매트릭스들을 결정하도록 구성된다.
이것은 특히 효과적인 구현 및/또는 개선된 디코딩 품질을 가능하게 한다. 특히, 상기 결정 수단은 상기 디코딩 매트릭스들을 결정할 때 위상 측정치들을 무시하도록 구성될 수 있다. 이것은 거의 지각할 수 없는 오디오 품질 열화를 유지하면서 복잡성을 줄일 수 있다.
본 발명의 선택적 특성에 따라, 각 서브대역의 상기 전달 매트릭스들은 아래 수식에 의해 주어진다.
Figure 112008068364065-PCT00003
G는 서브대역 디코딩 매트릭스이고, H는 서브대역 인코딩 매트릭스이고, 상기 결정 수단은 p12 및 p21의 파워 측정치(power measure)가 기준을 만족하도록 상기 매트릭스 계수들
Figure 112008068364065-PCT00004
을 선택하도록 구성된다.
이것은 특히 효과적인 구현 및/또는 개선된 디코딩 품질을 가능하게 한다. 상기 디코딩 매트릭스는 (제한들 또는 다른 파라미터들에 응답하여 결정될 수 있는)문턱값 아래의 파워 측정치를 야기하도록 선택될 수 있고, 또는 예컨대, 최소 파워 측정치를 야기하는 상기 디코딩 매트릭스로서 선택될 수 있다.
본 발명의 선택적 특성에 따라, 상기 크기 측정치는
Figure 112008068364065-PCT00005
에 응답하여 결정된다.
이것은 특히 효과적인 구현 및/또는 개선된 디코딩 품질을 가능하게 한다.
본 발명의 선택적 특성에 따라, 상기 결정 수단은 실질적으로 1과 같은 p11과 p22의 크기의 제한 하에서 매트릭스 계수들을 선택하도록 구성된다.
이것은 특히 효과적인 구현 및/또는 개선된 디코딩 품질을 가능하게 한다.
본 발명의 선택적 특성에 따라, 상기 다운-믹싱된 신호와 파라메트릭 다중 채널 데이터는 MPEG 서라운드 표준에 따른다.
본 발명은 MPEG 서라운드 호환가능한 신호에 대해 특히 효과적인, 낮은 복잡성 및/또는 개선된 오디오 품질 디코딩을 가능하게 할 수 있다.
본 발명의 선택적인 특징에 따라, 상기 인코딩 매트릭스는 MPEG 매트릭스 서라운드 호환성 인코딩 매트릭스이고, 상기 제 1 N 채널 신호는 MPEG 매트릭스 서라운드 호환성 신호이다.
본 발명은 특히 효과적인, 낮은 복잡성 및/또는 개선된 오디오 품질을 가능하게 할 수 있고, 특히, 인코더에서 수행된 MPEG 매트릭스 서라운드 호환성 연산들에 대해 효과적으로 보상하기 위해 낮은 복잡성 디코딩을 가능하게 한다.
본 발명의 또 따른 특징에 따라, 오디오 디코딩 방법이 제공되며, 상기 방법은: 다운-믹싱된 신호와 연관된 파라메트릭 다중 채널 데이터 및 주파수 서브대역들에 적용된 복소수 값 서브대역 인코딩 매트릭스들을 갖는, M>N인, M 채널 오디오 신호의 다운-믹싱된 신호에 대응하는 N 채널 신호를 포함하는 입력 데이터를 수신하는 단계; 상기 N 채널 신호에 대해 주파수 서브대역들을 생성하는 단계로서, 상기 주파수 서브대역들의 적어도 일부는 실수 값 주파수 서브대역들인, 상기 생성 단계; 상기 파라메트릭 다중 채널 데이터에 응답하여 상기 인코딩 매트릭스들의 적용을 보상하기 위해 실수 값 서브대역 디코딩 매트릭스들을 결정하는 단계; 및 상기 실수 값 서브대역 디코딩 매트릭스들과 상기 적어도 일부의 실수 값 주파수 서브대역들에서의 상기 N 채널 신호의 데이터의 매트릭스 곱셈에 의해 상기 다운-믹싱된 신호에 대응하는 다운-믹싱 데이터를 생성하는 단계를 포함한다.
본 발명의 또 다른 특징에 따라, N 채널 신호를 수신하기 위한 수신기가 제공되며, 상기 수신기는: 다운-믹싱된 신호와 연관된 파라메트릭 다중 채널 데이터 및 주파수 서브대역들에 적용된 복소수 값 서브대역 인코딩 매트릭스들을 갖는, M>N인, M 채널 오디오 신호의 다운-믹싱된 신호에 대응하는 N 채널 신호를 포함하는 입력 데이터를 수신하는 수단; 상기 N 채널 신호에 대해 주파수 서브대역들을 생성하는 수단으로서, 상기 주파수 서브대역들의 적어도 일부는 실수 값 주파수 서브대역들인, 상기 생성 수단; 상기 파라메트릭 다중 채널 데이터에 응답하여 상기 인코딩 매트릭스들의 적용을 보상하기 위해 실수 값 서브대역 디코딩 매트릭스들을 결정하는 수단; 및 상기 실수 값 서브대역 디코딩 매트릭스들과 상기 적어도 일부의 실수 값 주파수 서브대역들에서의 상기 N 채널 신호의 데이터의 매트릭스 곱셈에 의해 상기 다운-믹싱된 신호에 대응하는 다운-믹싱 데이터를 생성하는 수단을 포함한다.
본 발명의 또 다른 특징에 따라, 오디오 신호를 전송하기 위한 전송 시스템이 제공되며, 상기 전송 시스템은: M>N인, M 채널 오디오 신호의 N 채널 다운-믹싱된 신호를 생성하는 수단, 상기 다운-믹싱된 신호와 연관된 파라메트릭 다중 채널 데이터를 생성하는 수단, 주파수 서브대역들에서 상기 N 채널 다운-믹싱된 신호에 복소수 값 서브대역 인코딩 매트릭스들을 적용함으로써 제 1 N 채널 신호를 생성하는 수단, 상기 제 1 N 채널 신호와 상기 파라메트릭 다중 채널 데이터를 포함하는 제 2 N 채널 신호를 생성하는 수단, 및 상기 제 2 N 채널 신호를 수신기에 전송하는 수단을 포함하는 전송기와; 상기 제 2 N 채널 신호를 수신하는 수단, 상기 제 1 N 채널 신호에 대해 주파수 서브대역들을 생성하는 수단으로서, 상기 상기 주파수 서브대역들의 적어도 일부는 실수 값 주파수 서브대역들인, 상기 생성 수단, 상기 파라메트릭 다중 채널 데이터에 응답하여 상기 인코딩 매트릭스들의 적용을 보상하기 위해 실수 값 서브대역 디코딩 매트릭스들을 결정하는 결정 수단, 및 상기 실수 값 서브대역 디코딩 매트릭스들과 상기 적어도 일부의 실수 값 주파수 서브대역들에서의 상기 N 채널 신호의 데이터의 매트릭스 곱셈에 의해 상기 다운-믹싱된 신호에 대응하는 다운-믹싱 데이터를 생성하는 수단을 포함하는 수신기를 포함한다.
상기 제 2 N 채널 신호는 파라메트릭 다중 채널 데이터를 포함하는 부가적인 연관된 채널을 가질 수 있다.
본 발명의 또 다른 특징에 따라, 스케일러블 오디오 비트 스트림(scalable audio bit-stream)으로부터 오디오 신호를 수신하는 방법이 제공되며, 상기 방법은: 다운-믹싱된 신호와 연관된 파라메트릭 다중 채널 데이터 및 주파수 서브대역들에서 적용된 복소수 값 서브대역 인코딩 매트릭스들을 갖는, M>N인, M 채널 오디오 신호의 다운-믹싱된 신호에 대응하는 N 채널 신호를 포함하는 입력 데이터를 수신하는 단계; 상기 N 채널 신호에 대해 주파수 서브대역들을 생성하는 단계로서, 상기 주파수 서브대역들의 적어도 일부는 실수 값 주파수 서브대역들인, 상기 생성 단계; 상기 파라메트릭 다중 채널 데이터에 응답하여 상기 인코딩 매트릭스들의 상기 실수 값 서브대역 디코딩 매트릭스들과 상기 적어도 일부의 실수 값 주파수 서브대역들에서의 상기 N 채널 신호의 데이터의 매트릭스 곱셈에 의해 상기 다운-믹싱된 신호에 대응하는 다운-믹싱 데이터를 생성하는 단계를 포함한다.
본 발명의 또 다른 특징에 따라, 오디오 신호를 전송 및 수신하는 방법이 제공되며, 상기 방법은: M>N인, M 채널 오디오 신호의 N 채널 다운-믹싱된 신호를 생성하는 단계, 상기 다운-믹싱된 신호와 연관된 파라메트릭 다중 채널 데이터를 생성하는 단계, 주파수 서브대역들에서 상기 N 채널 다운-믹싱된 신호에 복소수 값 서브대역 인코딩 매트릭스들을 적용함으로써 제 1 N 채널 신호를 생성하는 단계, 상기 제 1 N 채널 신호와 상기 파라메트릭 다중 채널 데이터를 포함하는 제 2 N 채널 신호를 생성하는 단계, 및 제 2 N 채널 신호를 수신기에 전송하는 단계를 수행하는 전송기와; 상기 제 2 N 채널 신호를 수신하는 단계, 상기 제 1 N 채널 신호에 대해 주파수 서브대역들을 생성하는 단계로서, 상기 주파수 서브대역들의 적어도 일부는 실수 값 주파수 서브대역들인, 상기 생성 단계, 상기 파라메트릭 다중 채널 데이터에 응답하여 상기 인코딩 매트릭스들의 적용을 보상하기 위해 실수 값 서브대역 디코딩 매트릭스들을 결정하는 단계, 및 상기 실수 값 서브대역 디코딩 매트릭스들과 상기 적어도 일부의 실수 값 주파수 서브대역들에서의 상기 N 채널 신호의 데이터의 매트릭스 곱셈에 의해 상기 다운-믹싱된 신호에 대응하는 다운-믹싱 데이터를 생성하는 단계를 수행하는 수신기를 포함한다.
본 발명의 여러 가지 특징들 및 이점들은 이하에서 설명되는 실시예(들)를 참조하여 설명된다.
본 발명의 실시예들은 도면들을 참조하여, 단지 예로써 설명된다.
도 1은 종래 기술에 따른 다중 채널 오디오 신호들을 코딩하기 위한 인코더의 예를 도시하는 도면.
도 2는 종래 기술에 따른 다중 채널 오디오 신호들을 디코딩하기 위한 디코더의 예를 도시하는 도면.
도 3은 종래 기술에 따른 매트릭스 서라운드 인코딩/디코딩 시스템의 예를 도시하는 도면.
도 4는 종래 기술에 따른 다중 채널 오디오 신호들을 코딩하기 위한 인코더의 예를 도시하는 도면.
도 5는 종래 기술에 따른 다중 채널 오디오 신호들을 디코딩하기 위한 디코더의 예를 도시하는 도면.
도 6은 복소수 및 실수 값 주파수 서브대역들을 생성하기 위한 필터 뱅크의 예를 도시하는 도면.
도 7은 본 발명의 몇몇 실시예들에 따른 오디오 신호의 통신을 위한 전송 시스템을 도시하는 도면.
도 8은 본 발명의 몇몇 실시예들에 따른 디코더를 도시하는 도면.
도 9 내지 도 14는 본 발명의 몇몇 실시예들에 따른 디코더에 대한 성능 특성들을 도시하는 도면.
도 15는 본 발명의 몇몇 실시예들에 따른 디코딩 방법을 도시하는 도면.
이하의 설명은 매트릭스 서라운드 호환성 인코딩을 포함하는 MPEG 서라운드 인코딩된 신호를 디코딩하기 위한 디코더에 적용가능한 본 발명의 실시예들에 초점을 맞춘다. 하지만, 본 발명이 이 응용에 제한되지 않고, 다른 인코딩 표준들에 적용될 수 있음을 이해할 것이다.
도 7은 본 발명의 몇몇 실시예들에 따른 오디오 신호의 통신을 위한 전송 시스템(700)을 도시한다. 전송 시스템(700)은 특별히 인터넷일 수 있는 네트워크(705)를 통해 수신기(703)에 결합된 전송기(701)를 포함한다.
특정한 예에서, 상기 전송기(701)는 신호 기록 디바이스(signal recording device)이고, 상기 수신기(703)는 신호 플레이어 디바이스이지만, 다른 실시예들에서, 전송기와 수신기가 다른 응용들 및 다른 목적들로 이용될 수 있다는 것을 이해할 것이다.
신호 기록 기능이 지원되는 특정한 예에서, 상기 전송기(701)는 아날로그-디지털 변환 및 샘플링에 의해 디지털 PCM(Pulse Coded Modulated) 다중 채널 신호로 변환되는 아날로그 다중 채널 신호를 수신하는 디지타이저(digitizer:707)를 포함한다.
상기 전송기(701)는 매트릭스 서라운드 호환성 인코딩을 위한 기능을 포함하는 MPEG 서라운드 인코딩 알고리즘에 따라 PCM 신호를 인코딩하는 도 1의 상기 인코더(709)에 결합된다. 상기 인코더(709)는 예컨대, 도 4의 종래 디코더일 수 있다. 상기 예에서, 상기 인코더(709)는 특별히, 스테레오 MPEG 매트릭스 서라운드 호환가능한 스테레오 다운-믹싱된 신호를 생성한다.
그러므로, 상기 인코더(709)는 아래 수식에 의해 주어진 신호를 생성한다.
Figure 112008068364065-PCT00006
여기서, L,R는 종래 MPEG 서라운드 스테레오 다운 믹싱이고, LMTX, RMTX는 상기 인코더(709)에 의해 출력된 매트릭스 서라운드 호환가능한 인코딩된 다운-믹싱이다. 또한, 상기 인코더(709)에 의해 생성된 신호는 상기 MPEG 서라운드 인코딩에 의해 생성된 다중 채널 파라미터 데이터를 포함한다. 더욱이, hxy는 상기 다중 채널 파라미터들에 응답하여 결정된 복소 계수들이다. 기술분야의 당업자에 의해 쉽게 이해되는 바와 같이, 상기 인코더(709)에 의해 수행되는 처리는 복소수 값 서브대역들에서 수행되고, 복소수 연산들을 이용한다.
상기 인코더(709)는 인코딩된 신호를 수신하고 상기 네트워크(705)에 인터페이스하는 네트워크 전송기(711)에 결합된다. 상기 네트워크 전송기(711)는 상기 네트워크(705)를 통해 상기 인코딩된 신호를 상기 수신기(703)에 전송할 수 있다.
상기 수신기(703)는 상기 네트워크(705)를 인터페이스하고, 상기 전송기(701)로부터 상기 인코딩된 신호를 수신하도록 구성된 네트워크 인터페이스(713)를 포함한다.
상기 네트워크 인터페이스(713)는 디코더(715)에 결합된다. 상기 디코더(715)는 인코딩된 신호를 수신하고, 이를 디코딩 알고리즘에 따라 디코딩한다. 상기 예에서, 상기 디코더(715)는 오리지널 다중 채널 신호를 재생성한다. 특별히, 상기 디코더(715)는 우선, MPEG 매트릭스 서라운드 호환가능한 연산이 수행되기 전에 상기 MPEG 서라운드 인코딩에 의해 생성된 다운-믹싱에 대응하는 보상된 스테레오 다운-믹싱을 생성한다. 디코딩된 다중 채널 신호는 이 다운-믹싱 및 상기 수신된 다중 채널 파라미터 데이터로부터 생성된다.
신호 플레잉 기능(signal playing function)이 지원되는 특정한 예에서, 상기 수신기(703)는 디코더(715)로부터 상기 디코딩된 다중 채널 오디오 신호를 수신하고, 이것을 사용자에게 프리젠테이션하는 신호 플레이어(717)를 더 포함한다. 특별히, 상기 신호 플레이어(717)는 디코딩된 오디오 신호를 출력하기 위해 요청된 바에 따라 디지털-아날로그 변환기, 증폭기들 및 스피커들을 포함할 수 있다.
도 8은 보다 상세히 디코더(715)를 도시한다.
상기 디코더(715)는 상기 인코더(709)에 의해 생성된 신호를 수신하는 수신 기(801)를 포함한다. 앞에서 언급한 바와 같이, 상기 신호는 복소수 값 인코딩 매트릭스 H가 곱해지는 복소수 값 주파수 서브대역들에서 복소수 샘플 값들에 의해 처리되는 다운-믹싱 신호에 대응하는 스테레오 신호이다. 또한, 상기 수신된 신호는 상기 다운-믹싱 신호에 대응하는 다중 채널 파라미터 데이터를 포함한다. 특별히, 상기 수신된 신호는 매트릭스 서라운드 호환가능 처리로 MPEG 서라운드 인코딩된 신호이다.
상기 수신기(801)는 상기 다운-믹싱된 PCM 신호를 생성하기 위해 수신된 신호의 코어 디코딩을 제공한다.
상기 수신기(801)는 상기 수신된 신호로부터 상기 다중 채널 파라미터 데이터를 추출하는 파라미터 데이터 프로세서(803)에 결합된다.
상기 수신기(801)는 상기 수신된 스테레오 신호를 주파수 도메인으로 변형시키는 서브대역 필터 뱅크(805)에 결합된다. 특별히, 상기 서브대역 필터 뱅크(805)는 다수의 주파수 서브대역들을 생성한다. 이러한 주파수 서브대역들의 적어도 일부는 실수 값 주파수 서브대역들이다. 상기 서브대역 필터 뱅크(805)는 특별히 도 6에 도시된 기능에 대응할 수 있다. 그러므로, 상기 서브대역 필터 뱅크(805)는 K개의 복소수 값 서브대역들 및 M-K개의 실수 값 서브대역들을 생성할 수 있다. 상기 실수 값 서브대역들은 통상적으로, 2kHz 이상의 서브대역들과 같은 보다 높은 주파수 서브대역들이다. 실수 값 서브대역들의 이용은 실질적으로, 서브대역 생성을 용이하게 할 뿐만 아니라, 이들 서브대역들에서 샘플들에 대해 수행되는 연산들을 용이하게 한다. 그러므로, 상기 디코더(715)에서, M-K 서브대역들은 복소수 값 데이터와 연산 이외의 실수 값 데이터와 연산들로서 처리되어, 실질적인 복잡성 및 비용 절감을 제공한다.
상기 서브대역 필터 뱅크(805)는 상기 다운-믹싱된 신호에 대응하는 다운-믹싱 데이터를 생성하는 보상 프로세서(807)에 결합된다. 특별히, 상기 보상 프로세서(807)는 상기 인코더(709)의 상기 주파수 서브대역들에서 상기 인코딩 매트릭스 H의 곱셈을 역전시키도록 찾음으로써 매트릭스 서라운드 호환성 연산에 대해 보상된다. 이 보상은 서브대역 디코딩 매트릭스 G에 의해 서브대역들의 데이터 값들을 곱함으로써 수행된다. 하지만, 상기 인코더(709)에서의 처리와 반대로, 디코더(715)의 실수 값 서브대역들에서의 매트릭스 곱셈은 독점적으로 실수 도메인에서 수행된다. 그러므로, 샘플 값들은 실수 값 샘플들일 뿐만아니라, 디코딩 매트릭스 G의 매트릭스 계수들 또한 실수 값 계수들이다.
상기 보상 프로세서(807)는 상기 서브대역에 적용될 상기 디코딩 매트릭스들을 결정하는 매트릭스 프로세서(809)에 결합된다. M개의 복소수 값 서브대역들에 대해, 상기 디코딩 매트릭스 G는 간단히 동일한 서브대역에서 인코딩 매트릭스 H의 반전으로서 결정될 수 있다. 하지만, 실수 값 서브대역들에 대해, 상기 매트릭스 프로세서(809)는 인코딩 매트릭스 연산에 대해 효과적인 보상을 제공할 수 있는 실수 값 상기 계수들을 보상한다.
그러므로, 상기 보상 프로세서(807)의 출력은 상기 MPEG 서라운드 인코딩된 다운-믹싱 신호의 상기 서브대역 표현에 대응한다. 따라서, 상기 매트릭스 서라운드 호환성 연산들의 효과는 실질적으로 감소되거나 제거될 수 있다.
상기 보상 프로세서(807)는 서브대역 표현으로부터 시간 도메인 PCM MPEG 서라운드 디코딩된 다운-믹싱 신호를 생성하는 합성 서브대역 필터 뱅크(synthesis subband filter bank:811)에 결합된다. 그러므로, 특정한 예에서, 합성 서브대역 필터 뱅크(811)는 시간 도메인으로 신호를 변환할 때 상기 서브대역 필터 뱅크(805)의 상대편(counterpart)을 형성한다.
상기 합성 서브대역 필터 뱅크(811)는 상기 파라메트릭 데이터 프로세서(803)에 결합된 다중 채널 디코더(813)에 공급된다. 상기 다중 채널 디코더(813)는 상기 시간 도메인 PCM 다운-믹싱 신호 및 상기 다중 채널 파라미터 데이터를 수신하고, 오리지널 다중 채널 신호를 생성한다.
상기 예에서, 상기 합성 서브대역 필터 뱅크(811)는 상기 매트릭스 연산이 상기 시간 도메인에 대해 수행되는 서브대역 신호를 변형한다. 따라서 상기 다중 채널 디코더(813)는 매트릭스 서브대역 호환가능한 연산들이 상기 디코더에 적용되지 않으면 수신되는 것에 비교가능한 MPEG 서라운드 인코딩된 신호를 수신한다. 그러므로, 상기 동일한 MPEG 다중 채널 디코딩 알고리즘은 매트릭스 서라운드 호환가능한 신호들 및 넌-매트릭스 서라운드 호환가능한 신호들(non-matrix surround compatible signals)에 대해 이용될 수 있다. 하지만, 다른 실시예들에서, 다중 채널 디코더(813)는 보상 프로세서(807)에 의한 보상이 이어지는 상기 서브대역 샘플들에 대해 직접 동작할 수 있다. 이러한 경우들에서, 상기 합성 서브대역 필터 뱅크(811)의 일부 기능은 생략될 수 있고, 또는 합성 서브대역 필터 뱅크(811)는 다중 채널 디코더(813)와 통합될 수 있다.
그러므로, 복잡성을 줄이기 위해서, 상기 다중 채널 디코더(813)에 보상된 신호를 제공할 때 상기 서브대역 도메인에서 머무르는 것이 종종 바람직하다. 그와 같이, 다중 채널 디코더(813)의 일부인 분석 필터 뱅크들 및 상기 합성 서브대역 필터 뱅크(811)의 복잡성을 회피하는 것이 가능하다.
실제로, 가능하다면, 이것이 계산적으로 고 비용이므로 주파수 도메인과 시간 도메인 사이에서 뒤로 및 앞으로 이동하지 않는 것이 통상적으로 바람직하다. 그래서, 본 발명의 몇몇 실시예들에 따른 몇몇 디코더들에서, 상기 신호들이 상기 서브대역(주파수) 도메인(코어 비트 스트림을 디코딩하고 상기 얻어진 PCM 신호들에 필터뱅크들을 적용함으로써 결정됨)으로 변환된 후에, 상기 매트릭스 서라운드 반전은 상기 보상 프로세서(807)(적용가능하다면, 즉, 상기 비트 스트림에 시그널(signal)되면)에 적용되고, 이어서, 상기 얻어진 서브대역 영역 신호들은 상기 다중 채널(서브대역 영역) 신호들을 재구성하는데 직접 이용된다. 마지막으로, 상기 합성 필터 뱅크들은 시간 도메인 다중 채널 신호들을 얻기 위해 적용된다.
그러므로, 도 7의 시스템에서, 상기 인코더(709)는 Dolby Pro-LogicTM 디코더들과 같은 레거시 매트릭스 서라운드 디코더들에 의해 디코딩될 수 있는 매트릭스 서라운드 호환가능한 신호를 생성할 수 있다. 이것이 매트릭스 서라운드 호환성 연산에 의해 오리지널 MPEG 서라운드 인코딩된 다운-믹싱 신호의 왜곡을 요구하지만, 이 연산은 MPEG 다중 채널 디코더에서 효과적으로 제거될 수 있어, 오리지널 다중 채널의 정확한 표현으로 하여금 상기 파라메트릭 데이터를 이용하여 생성되도 록 한다.
더욱이, 상기 디코더(715)는 복소수 값 주파수 서브대역들을 필요로 하는 대신에 실수 값 주파수 서브대역들에서 수행되는 매트릭스 서라운드 호환성 연산에 대한 보상을 허용하여, 높은 오디오 품질을 달성하면서 상기 디코더(715)의 복잡성을 실질적으로 감소한다.
이하에서, 상기 디코딩 매트릭스들의 적절한 매트릭스 계수들의 결정 예들이 설명된다.
상기 인코더(709)는 이러한 서브대역(각각의 서브대역은 서로 다른 인코딩 매트릭스를 갖는 것으로 이해됨)에서 아래의 복소수 값 인코딩 매트릭스를 적용함으로써 상기 매트릭스 서라운드 호환성 연산을 수행한다:
Figure 112008068364065-PCT00007
여기서, L,R는 종래의 스테레오 다운 믹싱이고, LMTX, RTMX는 상기 매트릭스 서라운드 인코딩된 다운 믹싱이다. 상기 인코더 매트릭스(H)는 아래 수식에 의해 주어진다:
Figure 112008068364065-PCT00008
여기서, w1, w2는 MPEG 서라운드 인코딩에 의해 생성된 상기 공간 파라미터들에 의존한다. 특히:
Figure 112008068364065-PCT00009
Figure 112008068364065-PCT00010
여기서, w1,t 및 w2,t는 비정규화된 가중치들이고, 이것은 아래 수식으로서 정의된다:
Figure 112008068364065-PCT00011
여기서, CLDl 및 CLDr는 각각 왼쪽 정면, 왼쪽 서라운드 및 오른쪽 정면, 오른쪽 서라운드 채널 쌍들의 상기 채널 레벨차들(dB로서 표현됨)을 나타낸다. c1,MTX 및 c2,MTX는 아래와 같이 디코더에서 왼쪽 LDMX 및 오른쪽 RDMX로부터 중간 왼쪽 L, 중심 C 및 오른쪽 R 신호들을 유도하기 위해 이용된 예측 계수들(c1,c2)의 함수인 상기 매트릭스 계수들이다.
Figure 112008068364065-PCT00012
c1,MTX 및 c2,MTX는 아래 수식으로서 결정된다:
Figure 112008068364065-PCT00013
각각 x={0,1}을 가짐.
대안으로, 상기 MPEG 서라운드 디코더는 상기 계수들(c1,c2)이 각각 왼쪽 대 왼쪽 플러스 중심(left versus left plus center)과 오른쪽 대 오른쪽 플러스 중 심(right versus right plus center)의 파워비들(power ratios)을 나타낸다. 그 경우에, c1,MTX 및 c2,MTX에 대한 서로 다른 함수들이 적용된다.
그러므로, 각각의 시간/주파수 타일에 대해, 복소수 값 인코딩 매트릭스(H)는 복소수 샘플 값들에 적용된다. 상기 정면 신호들이 오리지널 다중 채널 입력 신호에서 도미넌트(dominant)라면, 상기 가중치들(w1,w2)은 0에 가까워진다. 결국, 상기 매트릭스 서라운드 다운-믹싱은 상기 입력 스테레오 다운-믹싱에 가까워진다. 상기 서라운드(후면) 신호들이 오리지널 다중 채널 입력 신호에서 도미넌트라면, 상기 가중치들(w1,w2)은 1에 가까워진다. 결국, 상기 매트릭스 서라운드 다운-믹싱 신호는 상기 MPEG 서라운드 인코더에 의해 제공된 상기 오리지널 스테레오 다운-믹싱의 높은 역위상 버전을 포함한다.
2x2 매트릭스에 의해 매트릭스 호환가능한 스테레오 신호들을 제공하는 주요한 이점은 이들 매트릭스들이 반전될 수 있다는 사실이다. 결국, 상기 MPEG 서라운드 디코더는 매트릭스 호환가능한 스테레오 다운-믹싱이 인코더에 의해 채용되는지의 여부와 무관하게 동일한 출력 오디오 품질을 전달할 수 있다.
모든 주파수 서브대역들이 복소수 값 서브대역들(예컨대, 복소수 변조된 QMF 뱅크를 이용함)인 MPEG 서라운드 디코더에서 디코더측에서의 상기 반전 처리는 아래 수식에 의해 주어진다.
Figure 112008068364065-PCT00014
Figure 112008068364065-PCT00015
여기서,
Figure 112008068364065-PCT00016
.
하지만, 이러한 반전 연산은 복소수 값들이 이용될 필요가 있고, 그러므로, 이것이 (적어도 부분적으로) 실수 값 서브대역들을 이용하므로 도 7의 상기 디코더(715)에서 적용될 수 없다. 따라서, 상기 매트릭스 프로세서(809)는 상기 인코딩 매트릭스의 효과를 상당히 감소시키도록 적용될 수 있는 실수 값 인코딩 매트릭스를 생성한다.
각각의 서브대역에서 상기 인코딩 및 디코딩 매트릭스들의 전체 임팩트(impact)는 아래 수식으로서 주어진 전달 매트릭스(P)에 의해 나타내질 수 있다.
Figure 112008068364065-PCT00017
H는 상기 인코더 매트릭스를 나타내고, G는 상기 디코더 매트릭스를 나타낸다.
P=H -1 H=I이 되도록, 이상적으로, G=H -1 는 단위 매트릭스이다. 상기 인코더 매트릭스(H)의 가중치들(hxy)은 모두 복소수 값이고, 상기 매트릭스는 실수 값 서브대역들에 대해 상기 디코더에서 반전될 수 없다.
상기 실수 값 서브대역들은 2kHz 이상의 서브대역들과 같이 보다 높은 주파수들에 있다. 이들 주파수들에서, 상기 위상 관계들은 별로 중요하지 않고, 그러므로, 상기 매트릭스 프로세서(809)는 위상 특성들을 고려하지 않고 적절한 크기 (파워) 특성들을 갖는 디코딩 매트릭스 계수들을 결정한다. 특히, 상기 매트릭스 프로세서(809)는 |P11
Figure 112008068364065-PCT00018
1 및 |P22
Figure 112008068364065-PCT00019
1인 가정 또는 제한 하에서 크로스토크(crosstalk)(p12 및 p21)의 낮은 크기 또는 파워 값을 야기하는 실수 값 매트릭스 계수들을 결정할 수 있다.
몇몇 실시예들에서, 상기 매트릭스 프로세서(809)는 상기 인코딩 매트릭스들의 복소수 값 서브대역 역 매트릭스(H -1 )를 결정할 수 있고, 이 매트릭스의 상기 매트릭스 계수들로부터 실수 값 디코딩 매트릭스(G)를 결정할 수 있다. 특히, G의 각각의 계수는 동일한 위치에 있는 H -1 의 계수로부터 결정될 수 있다. 예를 들어, 실수 값 계수는 H -1 의 대응하는 계수의 크기 값으로부터 결정될 수 있다. 실제로, 몇몇 실시예들에서, 상기 매트릭스 프로세서는 H -1 의 계수를 결정할 수 있고, 이어서, 상기 역 매트릭스(H -1 )의 대응하는 매트릭스 계수의 절대 값으로서 G의 계수들을 결정할 수 있다.
그러므로, 매트릭스 프로세서(809)는 아래 수식을 결정할 수 있다.
Figure 112008068364065-PCT00020
Figure 112008068364065-PCT00021
Figure 112008068364065-PCT00022
여기서,
Figure 112008068364065-PCT00023
이 솔루션은 w1 = w2 = 0 및 w1 = w2 = 1인 특정한 경우들에 대해 위에서 언급된 제한 (|P11|=|P22|=1 및 |P12|=|P21|=0)을 완전히 만족시킨다는 것을 볼 수 있다.
도 9는 이 솔루션에 대해 전달 매트릭스 주요 항 (10log10|p112)의 크기를 도시한다. 도 10은 p11의 위상각을 도시하고, 도 11은 크로스토크 항(10log10|p212)을 도시한다.
특히, 도 9는 w1 및 w2의 함수로서 (|p11|=1)의 이상적인 값에 비하여 주요 매트릭스 항(p11)의 크기의 dB에서의 편차(deviation)를 도시한다. 관찰할 수 있는 바와 같이, 상기 이상적인 경우로부터 최대 편차는 1dB 보다 작다. 도 10은 w1 및 w2의 함수로서 p11의 각도를 도시한다. 이상적인 복소수 값의 경우에 대해 상기 차로부터 예상될 수 있는 바와 같이, 위상차들은 90도까지이다. 도 11은 가중치들(w1,w2)의 함수로서 dB로 측정된 상기 크로스토크 매트릭스 항(p21)의 크기를 도시한다. 다른 전달 매트릭스 요소들은 w1과 w2을 상호변경함으로써 얻어질 수 있다는 것에 유의해야 한다.
몇몇 실시예들에서, 상기 매트릭스 프로세서(809)는 상기 서브대역 전달 매트릭스 P=GH에 응답하여 서브대역에 대해 디코딩 매트릭스(G)를 결정할 수 있다. 특히, 상기 매트릭스 프로세서는 주어진 특성이 P에 대해 달성되도록 G의 계수 값들을 선택할 수 있다.
다시, 상기 실수 값 서브대역들에 대한 위상 값들은 낮은 지각적인 가중(low perceptual weighting)을 갖는 경향이 있으므로, P의 크기 특성들만이 예시적인 디코더(715)에 의해 고려된다. 높은 품질의 성능은 p12 및 p21의 파워 측정치가 기준을 만족시키도록(예컨대, 파워 측정치가 최소이거나, 또는 파워 측정치가 주어진 기준 아래에 있음) 상기 디코딩 매트릭스 계수들을 선택하는 상기 매트릭스 프로세서(809)에 의해 달성될 수 있다. 상기 매트릭스 프로세서(809)는 예컨대, 가능한 실수 값 계수들의 범위에 대해 검색하고, p12 및 p21에 대해 가장 낮은 파워 측정치 를 야기하는 계수들을 선택할 수 있다. 더욱이, 상기 평가(evaluation)는 p11 및 p22가 실질적으로 1로 동일하다(예컨대, 0.9와 1.1 사이)는 제한과 같은, 다른 제한들을 받을 수 있다.
몇몇 실시예들에서, 상기 매트릭스 프로세서(809)는 상기 디코딩 접근법에 대해 적절한 실수 계수 값들을 결정하기 위해 수학적인 알고리즘을 수행할 수 있다. 이러한 것의 특정 예는 알고리즘이 |p112 = 1 및 |p222 = 1의 제한 하에서 전체 크로스토크: |p122+|p212를 최소화하려는 것이 이하에서 설명된다.
이 문제는 표준 승산 수학 분석 툴들(standard multivariate mathematical analysis tools)에 의해 해소될 수 있다. 특히, G의 각각의 로우 벡터(v)에 대해, 2차방정식 형태(q)에 의해 주어진 정규화 요구사항(normalization requirement) q(v) = 1를 갖는 형태 vA = λvB의 매트릭스 고유값 문제(matrix eigenvalue problem)로 변경하는 라그랑주 승산기 방법들(Lagrangian multiplier methods)을 이용하는 것이 적합하다. 상기 매트릭스들(A, B) 및 2차방정식 형태들(q)은 복소수 매트릭스(H)의 엔트리들에 의존한다.
이하에서, v = [g11 g12]에 대한 솔루션이 주어진다. 또한, 아래의 솔루션에서 변수들(w1,w2)을 상호변경함으로써 v = [g21 g22]를 해결하는 것이 시도된다. 라그랑주 매트릭스들(A, B)은 아래 수식으로서 정의된다.
Figure 112008068364065-PCT00024
여기서, q1 및 q2는 아래 수식으로서 정의된다.
Figure 112008068364065-PCT00025
고유값들이 아래 수식과 같이 된다.
Figure 112008068364065-PCT00026
이것은 2차방정식의 다항식의 루트들을 야기한다.
Figure 112008068364065-PCT00027
여기서,
Figure 112008068364065-PCT00028
이제, 두 개의 후보 솔루션들이 아래와 같이 결정될 수 있다.
Figure 112008068364065-PCT00029
최종 솔루션은 v = civ i에 의해 결정되고, 여기서 i는 |p112 = 1 이 되도록 1 또는 2이고, 최소 크로스토크를 갖는다. 먼저 ci은 아래 수식으로서 계산된다.
Figure 112008068364065-PCT00030
두 개의 솔루션들에 대한 크로스토크 |p122는 아래와 같이 계산된다.
Figure 112008068364065-PCT00031
최소 크로스토크를 생성하는 인덱스 i는 v = civ i를 제공한다. 추가적인 입증 없이, 변수들(w1, w2)에 무관하게, 인덱스 i는 항상 2와 같다.
완벽을 위해, 분석 수학식들에 대하여 G에 대한 완전한 솔루션이 이하에서 주어진다. 이하의 변수들은 아래와 같이 정의된다.
Figure 112008068364065-PCT00032
이어서, 변수(b)는 아래 수식으로서 계산된다.
Figure 112008068364065-PCT00033
매트릭스(G)의 두 개의 로우들(rows)에 대한 두 개의 루트들(rα 및 rβ)은 아래 수식으로서 계산된다.
Figure 112008068364065-PCT00034
넌-스케일 솔루션들(non-scaled solutions)(v temp,1v temp,2)은 아래 수식으 로서 결정될 수 있다.
Figure 112008068364065-PCT00035
정규화 제한들(c)은 아래 수식으로서 계산된다.
Figure 112008068364065-PCT00036
마지막으로, 매트릭스(G)는 아래 수식에 의해 주어진다.
Figure 112008068364065-PCT00037
도 12, 13 및 14는 이 솔루션에 대한 성능을 도시한다. 도 12는 w1 및 w2의 함수로서 |p11|=1의 이상적인 값에 대해 주요 매트릭스 항(p11)의 크기의 dB로 편 차를 도시한다. 관찰할 수 있는 바와 같이, 이 솔루션으로 설정된 제한들로 인해, 그 크기는 이상적인 값 |p11|=1과 항상 동일하다.
도 13은 w1 및 w2의 함수로서 p11의 각도를 도시한다. 모든 실수 솔루션에 의해 취해진 제한들로 인해, 위상차들은 90도까지임에 유의해야 한다.
도 14는 가중치들(w1, w2)의 함수로서 dB로 측정된 크로스토크 매트릭스 항(p21)의 크기를 도시한다.
상기 도면들에 의해 도시되는 바와 같이, 반전 인코딩 매트릭스의 계수들의 절대값들로 상기 디코딩 매트릭스 계수들을 설정하는 솔루션은 주요 항 이득(gain) 및 크로스토크 억제 둘 모두에 대해, 크로스토크를 최소화하는 보다 복잡한 접근법으로부터 +/- 1dB만을 벗어난다.
도 15는 본 발명의 몇몇 실시예들에 따른 오디오 디코딩 방법을 도시한다.
스텝(1501)에서, 디코더는 다운-믹싱된 신호와 연관된 파라메트릭 다중 채널 데이터와 주파수 서브대역들에서 적용된 복소수 값 서브대역 인코딩 매트릭스들을 갖는, M>N인, M 채널 오디오 신호의 다운-믹싱된 신호에 대응하는 N 채널 신호를 포함하는 입력 데이터를 수신한다.
스텝(1503)이 스텝(1501)에 뒤따르고, 여기서, 주파수 서브대역들이 N 채널 신호에 대해 생성된다. 주파수 서브대역들의 적어도 일부는 실수 값 주파수 서브대역들이다.
스텝(1505)이 스텝(1503)에 뒤따르고, 여기서, 인코딩 매트릭스들의 적용을 보상하기 위해 실수 값 서브대역 디코딩 매트릭스들은 파라메트릭 다중 채널 데이터에 응답하여 결정된다.
스텝(1507)이 스텝(1505)에 뒤따르고, 여기서, 다운-믹싱된 신호에 대응하는 다운-믹싱 데이터는 적어도 일부의 실수 값 주파수 서브대역들에서 N 채널 신호의 데이터와 실수 값 서브대역 디코딩 매트릭스들의 매트릭스 곱셈에 의해 생성된다.
명료화를 위해 위의 설명은 서로 다른 기능적인 유닛들 및 프로세서들을 참조하여 본 발명의 실시예들을 설명하였음을 이해해야 한다. 하지만, 서로 다른 기능적인 유닛들 또는 프로세서들 간의 기능에 대한 임의의 적절한 설명은 본 발명을 평가절하시킴 없이 이용될 수 있음을 이해할 것이다. 예를 들어, 개별적인 프로세서들 또는 제어기들에 의해 수행되는 예시된 기능은 동일한 프로세서 또는 제어기들에 의해 수행될 수 있다. 그래서, 특정한 기능적인 유닛들에 대한 참조들은 엄격한 논리 또는 물리적인 구조 또는 구조체를 나타내기보다는 설명된 기능을 제공하는 적절한 수단에 대한 참조들로서 이해된다.
본 발명은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의 조합을 포함하는 임의의 적절한 형태로 구현될 수 있다. 본 발명은 선택적으로, 하나 이상의 데이터 프로세서들 및/또는 디지털 신호 프로세서들을 운용하는 컴퓨터 소프트웨어로서 적어도 부분적으로 구현될 수 있다. 본 발명의 실시예의 요소들 및 성분들은 물리적으로, 기능적으로, 논리적으로 임의의 적절한 방식으로 구현될 수 있다. 실제로, 상기 기능은 하나의 신호 유닛, 다수의 유닛들 또는 다른 기능적인 유닛들의 일부로서 구현될 수 있다. 이와 같이, 본 발명은 단일 유닛으로 구현될 수 있고, 또는 서로 다른 유닛들 및 프로세서들 사이에서 물리적으로, 기능적으로 분배될 수 있다.
본 발명이 몇몇 실시예들과 연계하여 서명되었지만, 설명된 특정한 형태에 제한되지 않도록 의도된다. 오히려, 본 발명의 범위는 첨부된 청구범위에 의해서만 제한된다. 부가적으로, 특징은 특정한 실시예들과 연계하여 설명되지만, 기술분야의 당업자는 설명된 실시예들의 다양한 특징들이 본 발명에 따라 조합될 수 있음을 이해한다. 청구범위에서, 용어 포함하는은 다른 요소들 또는 스텝들의 존재를 배제하지 않는다.
더욱이, 비록 개별적으로 열거되었지만, 다수의 수단들, 요소들, 또는 방법 스텝들은 예컨대 단일 유닛 또는 프로세서에 의해 구현될 수 있다. 부가적으로, 개별 특징들이 서로 다른 청구항들에 포함될 수 있지만, 이것들은 이롭게 조합될 수 있고, 서로 다른 청구항들에 있다고 하여, 특징들의 조합이 용이하지 않다거나 이롭지 않다는 것을 의미하지 않는다. 청구범위의 한 카테고리에서 특징의 포함은 이 카테고리로의 제한을 암시하는 것이 아니며, 오히려, 그 특징이 이해되는 바와 같이 다른 청구항 카테고리들에 동일하게 적용가능하다는 것을 나타낸다. 더욱이, 청구항들에서 특징들의 순서는 그 특징들이 작동해야 하는 임의의 특정한 순서를 암시하지는 않으며, 특히, 방법 청구항에서의 개별 스텝들의 순서는 그 스텝들이 이 순서로 수행되어야만 한다는 것을 암시하는 것은 아니다. 오히려, 그 스텝들은 임의의 적절한 순서로 수행될 수 있다. 또한, 단일 참조들은 다수를 배제하는 것은 아니다. 그러므로, "a", "an", "제 1", "제 2" 등에 대한 참조들은 다수를 배제하 는 것이 아니다. 청구범위에서 참조 번호들은 단순히 명료한 예로서 제공되며, 임의의 방식으로 청구범위를 제한하는 것으로서 고려되지 않는다.

Claims (18)

  1. 오디오 디코더(715)에 있어서:
    다운-믹싱된 신호(down-mixed signal)와 연관된 파라메트릭 다중 채널 데이터 및 주파수 서브대역들(frequency subbands)에 적용된 복소수 값 서브대역 인코딩 매트릭스들을 갖는, M>N인, M 채널 오디오 신호의 다운-믹싱된 신호에 대응하는 N 채널 신호를 포함하는 입력 데이터를 수신하는 수단(801);
    상기 N 채널 신호에 대해 주파수 서브대역들을 생성하는 수단(805)으로서, 상기 주파수 서브대역들의 적어도 일부는 실수 값 주파수 서브대역들인, 상기 생성 수단(805);
    상기 파라메트릭 다중 채널 데이터에 응답하여 상기 인코딩 매트릭스들의 적용을 보상하기 위해 실수 값 서브대역 디코딩 매트릭스들을 결정하는 결정 수단(809); 및
    상기 실수 값 서브대역 디코딩 매트릭스들과 상기 적어도 일부의 실수 값 주파수 서브대역들에서의 상기 N 채널 신호의 데이터의 매트릭스 곱셈에 의해 상기 다운-믹싱된 신호에 대응하는 다운-믹싱 데이터를 생성하는 수단(807)을 포함하는, 오디오 디코더(715).
  2. 제 1 항에 있어서, 상기 결정 수단(809)은 상기 인코딩 매트릭스들의 복소수 값 서브대역 역 매트릭스들(complex valued subband inverse matrices)을 결정하 고, 상기 역 매트릭스들에 응답하여 상기 디코딩 매트릭스들을 결정하도록 구성되는, 오디오 디코더(715).
  3. 제 2 항에 있어서, 상기 결정 수단(809)은 상기 역 매트릭스들의 대응하는 매트릭스 계수들의 절대값에 응답하여 상기 디코딩 매트릭스들의 각각의 실수 값 매트릭스 계수를 결정하도록 구성되는, 오디오 디코더(715).
  4. 제 3 항에 있어서, 상기 결정 수단(809)은 실질적으로 상기 역 매트릭스들의 대응하는 매트릭스 계수의 절대값으로서 각각의 실수 값 매트릭스 계수를 결정하도록 구성되는, 오디오 디코더(715).
  5. 제 1 항에 있어서, 상기 결정 수단(809)은 대응하는 디코딩 매트릭스들과 인코딩 매트릭스들의 곱셈인 서브대역 전달 매트릭스들에 응답하여 상기 디코딩 매트릭스들을 결정하도록 구성되는, 오디오 디코더(715).
  6. 제 5 항에 있어서, 상기 결정 수단(809)은 전달 매트릭스들(transfer matrices)의 크기 측정치들(magnitude measures)에만 응답하여 상기 디코딩 매트릭스들을 결정하도록 구성되는, 오디오 디코더(715).
  7. 제 5 항에 있어서, 각각의 서브대역의 상기 전달 매트릭스들은 아래 수식에 의해 주어지고,
    Figure 112008068364065-PCT00038
    여기서, G는 서브대역 디코딩 매트릭스이고, H는 서브대역 인코딩 매트릭스이고, 상기 결정 수단은 p12 및 p21의 파워 측정치가 기준을 만족시키도록 상기 매트릭스 계수들
    Figure 112008068364065-PCT00039
    을 선택하도록 구성되는, 오디오 디코더(715).
  8. 제 7 항에 있어서, 상기 크기 측정치는
    Figure 112008068364065-PCT00040
    에 응답하여 결정되는, 오디오 디코더(715).
  9. 제 7 항에 있어서, 상기 결정 수단(809)은 실질적으로 1과 같은 p11 및 p22의 크기의 제한 하에서 상기 매트릭스 계수들을 선택하도록 구성되는, 오디오 디코더(715).
  10. 제 1 항에 있어서, 상기 다운-믹싱된 신호와 상기 파라메트릭 다중 채널 데이터는 MPEG 서라운드 표준(surround standard)에 따르는, 오디오 디코더(715).
  11. 제 1 항에 있어서, 상기 인코딩 매트릭스는 MPEG 매트릭스 서라운드 호환성 인코딩 매트릭스(MPEG Matrix Surround Compatibility encoding matrix)이고, 상기 제 1 N 채널 신호는 MPEG 매트릭스 서라운드 호환가능 신호인, 오디오 디코더(715).
  12. 오디오 디코딩 방법에 있어서,
    다운-믹싱된 신호와 연관된 파라메트릭 다중 채널 데이터 및 주파수 서브대역들에 적용된 복소수 값 서브대역 인코딩 매트릭스들을 갖는, M>N인, M 채널 오디오 신호의 다운-믹싱된 신호에 대응하는 N 채널 신호를 포함하는 입력 데이터를 수신하는 단계(1501);
    상기 N 채널 신호에 대해 주파수 서브대역들을 생성하는 단계(1503)로서, 상기 주파수 서브대역들의 적어도 일부는 실수 값 주파수 서브대역들인, 상기 생성 단계(1503);
    상기 파라메트릭 다중 채널 데이터에 응답하여 상기 인코딩 매트릭스들의 적용을 보상하기 위해 실수 값 서브대역 디코딩 매트릭스들을 결정하는 단계(1505); 및
    상기 실수 값 서브대역 디코딩 매트릭스들과 상기 적어도 일부의 실수 값 주파수 서브대역들에서의 상기 N 채널 신호의 데이터의 매트릭스 곱셈에 의해 상기 다운-믹싱된 신호에 대응하는 다운-믹싱 데이터를 생성하는 단계(1507)를 포함하는, 오디오 디코딩 방법.
  13. N 채널 신호를 수신하는 수신기(703)에 있어서,
    다운-믹싱된 신호와 연관된 파라메트릭 다중 채널 데이터 및 주파수 서브대역들에 적용된 복소수 값 서브대역 인코딩 매트릭스들을 갖는, M>N인, M 채널 오디오 신호의 다운-믹싱된 신호에 대응하는 N 채널 신호를 포함하는 입력 데이터를 수신하는 수단(801);
    상기 N 채널 신호에 대해 주파수 서브대역들을 생성하는 수단(805)으로서, 상기 주파수 서브대역들의 적어도 일부는 실수 값 주파수 서브대역들인, 상기 생성 수단(805);
    상기 파라메트릭 다중 채널 데이터에 응답하여 상기 인코딩 매트릭스들의 적용을 보상하기 위해 실수 값 서브대역 디코딩 매트릭스들을 결정하는 결정 수단(809); 및
    상기 실수 값 서브대역 디코딩 매트릭스들과 상기 적어도 일부의 실수 값 주파수 서브대역들에서 상기 N 채널 신호의 데이터의 매트릭스 곱셈에 의해 상기 다운-믹싱된 신호에 대응하는 다운-믹싱 데이터를 생성하는 수단(807)을 포함하는, 수신기(703).
  14. 오디오 신호를 전송하는 전송 시스템(700)에 있어서,
    전송기(701)로서:
    M>N인, M 채널 오디오 신호의 N 채널 다운-믹싱된 신호를 생성하는 수 단(709),
    상기 다운-믹싱된 신호와 연관된 파라메트릭 다중 채널 데이터를 생성하는 수단(709),
    주파수 서브대역들에서 상기 N 채널 다운-믹싱된 신호에 복소수 값 서브대역 인코딩 매트릭스들을 적용함으로써 제 1 N 채널 신호를 생성하는 수단(709),
    상기 제 1 N 채널 신호와 상기 파라메트릭 다중 채널 데이터를 포함하는 제 2 N 채널 신호를 생성하는 수단(709), 및
    상기 제 2 N 채널 신호를 수신기(703)에 전송하는 수단(711)을 포함하는 상기 전송기, 및
    상기 수신기(703)로서:
    상기 제 2 N 채널 신호를 수신하는 수단(801),
    상기 제 1 N 채널 신호에 대해 주파수 서브대역들을 생성하는 수단(805)으로서, 상기 주파수 서브대역들의 적어도 일부는 실수 값 주파수 서브대역들인, 상기 생성 수단(805),
    상기 파라메트릭 다중 채널 데이터에 응답하여 상기 인코딩 매트릭스들의 적용을 보상하기 위해 실수 값 서브대역 디코딩 매트릭스들을 결정하는 결정 수단(809), 및
    상기 실수 값 서브대역 디코딩 매트릭스들과 상기 적어도 일부의 실수 값 주파수 서브대역들에서의 상기 N 채널 신호의 데이터의 매트릭스 곱셈에 의해 상기 N 채널 다운-믹싱된 신호에 대응하는 다운-믹싱 데이터를 생성하는 수단(807)을 포함하는 상기 수신기를 포함하는, 전송 시스템(700).
  15. 오디오 신호를 수신하는 방법에 있어서,
    다운-믹싱된 신호와 연관된 파라메트릭 다중 채널 데이터 및 주파수 서브대역들에 적용된 복소수 값 서브대역 인코딩 매트릭스들을 갖는, M>N인, M 채널 오디오 신호의 다운-믹싱된 신호에 대응하는 N 채널 신호를 포함하는 입력 데이터를 수신하는 단계(1501);
    상기 N 채널 신호에 대해 주파수 서브대역들을 생성하는 단계(1503)로서, 상기 주파수 서브대역들의 적어도 일부는 실수 값 주파수 서브대역들인, 상기 생성 단계(1503);
    상기 파라메트릭 다중 채널 데이터에 응답하여 상기 인코딩 매트릭스들의 적용을 보상하기 위해 실수 값 서브대역 디코딩 매트릭스들을 결정하는 단계(1505); 및
    상기 실수 값 서브대역 디코딩 매트릭스들과 상기 적어도 일부의 실수 값 주파수 서브대역들에서의 상기 N 채널 신호의 데이터의 매트릭스 곱셈에 의해 상기 다운-믹싱된 신호에 대응하는 다운-믹싱 데이터를 생성하는 단계(1507)를 포함하는, 오디오 신호 수신 방법.
  16. 오디오 신호를 전송 및 수신하는 방법에 있어서,
    전송기(701)에서:
    M>N인, M 채널 오디오 신호의 N 채널 다운-믹싱된 신호를 생성하는 단계,
    상기 다운-믹싱된 신호와 연관된 파라메트릭 다중 채널 데이터를 생성하는 단계,
    주파수 서브대역들에서 상기 N 채널 다운-믹싱된 신호에 복소수 값 서브대역 인코딩 매트릭스들을 적용함으로써 제 1 N 채널 신호를 생성하는 단계,
    상기 제 1 N 채널 신호와 상기 파라메트릭 다중 채널 데이터를 포함하는 제 2 N 채널 신호를 생성하는 단계, 및
    상기 제 2 N 채널 신호를 수신기(703)에 전송하는 단계(711)를 수행하고,
    상기 수신기(703)에서:
    상기 제 2 N 채널 신호를 수신하는 단계(1501),
    상기 제 1 N 채널 신호에 대해 주파수 서브대역들을 생성하는 단계(1503)로서, 상기 주파수 서브대역들의 적어도 일부는 실수 값 주파수 서브대역들인, 상기 생성 단계(1503),
    상기 파라메트릭 다중 채널 데이터에 응답하여 상기 인코딩 매트릭스들의 적용을 보상하기 위해 실수 값 서브대역 디코딩 매트릭스들을 결정하는 단계(1505), 및
    상기 실수 값 서브대역 디코딩 매트릭스들과 상기 적어도 일부의 실수 값 주파수 서브대역들에서의 상기 N 채널 신호의 데이터의 매트릭스 곱셈에 의해 상기 N 채널 다운-믹싱된 신호에 대응하는 다운-믹싱 데이터를 생성하는 단계(1507)를 수행하는, 오디오 신호 전송 및 수신 방법.
  17. 제 12 항 또는 제 15 항 또는 제 16 항 중 어느 한 항의 방법을 실행하기 위한 컴퓨터 프로그램 제품.
  18. 제 1 항에 따른 디코더(715)를 포함하는 오디오 재생 디바이스(703).
KR1020087023866A 2006-03-29 2007-03-23 오디오 디코딩 KR101015037B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP06111916.0 2006-03-29
EP06111916 2006-03-29

Publications (2)

Publication Number Publication Date
KR20080105135A true KR20080105135A (ko) 2008-12-03
KR101015037B1 KR101015037B1 (ko) 2011-02-16

Family

ID=38318626

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087023866A KR101015037B1 (ko) 2006-03-29 2007-03-23 오디오 디코딩

Country Status (13)

Country Link
US (1) US8433583B2 (ko)
EP (1) EP1999747B1 (ko)
JP (1) JP5154538B2 (ko)
KR (1) KR101015037B1 (ko)
CN (1) CN101484936B (ko)
BR (1) BRPI0709235B8 (ko)
ES (1) ES2609449T3 (ko)
HK (1) HK1135791A1 (ko)
MX (1) MX2008012217A (ko)
PL (1) PL1999747T3 (ko)
RU (1) RU2420814C2 (ko)
TW (1) TWI413108B (ko)
WO (1) WO2007110823A1 (ko)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8959016B2 (en) 2002-09-27 2015-02-17 The Nielsen Company (Us), Llc Activating functions in processing devices using start codes embedded in audio
US9711153B2 (en) 2002-09-27 2017-07-18 The Nielsen Company (Us), Llc Activating functions in processing devices using encoded audio and detecting audio signatures
US8359205B2 (en) 2008-10-24 2013-01-22 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US8121830B2 (en) * 2008-10-24 2012-02-21 The Nielsen Company (Us), Llc Methods and apparatus to extract data encoded in media content
US9667365B2 (en) 2008-10-24 2017-05-30 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US8508357B2 (en) 2008-11-26 2013-08-13 The Nielsen Company (Us), Llc Methods and apparatus to encode and decode audio for shopper location and advertisement presentation tracking
CA2760677C (en) 2009-05-01 2018-07-24 David Henry Harkness Methods, apparatus and articles of manufacture to provide secondary content in association with primary broadcast media content
WO2011073201A2 (en) * 2009-12-16 2011-06-23 Dolby International Ab Sbr bitstream parameter downmix
MX2012011532A (es) * 2010-04-09 2012-11-16 Dolby Int Ab Codificacion a estereo para prediccion de complejos basados en mdct.
TWI733583B (zh) * 2010-12-03 2021-07-11 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
JP2013050663A (ja) * 2011-08-31 2013-03-14 Nippon Hoso Kyokai <Nhk> 多チャネル音響符号化装置およびそのプログラム
US8442591B1 (en) * 2011-09-29 2013-05-14 Rockwell Collins, Inc. Blind source separation of co-channel communication signals
EP2717262A1 (en) 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
CA3211308A1 (en) * 2013-05-24 2014-11-27 Dolby International Ab Coding of audio scenes
ES2640815T3 (es) 2013-05-24 2017-11-06 Dolby International Ab Codificación eficiente de escenas de audio que comprenden objetos de audio
KR102033304B1 (ko) * 2013-05-24 2019-10-17 돌비 인터네셔널 에이비 오디오 오브젝트들을 포함한 오디오 장면들의 효율적 코딩
KR102244379B1 (ko) 2013-10-21 2021-04-26 돌비 인터네셔널 에이비 오디오 신호들의 파라메트릭 재구성
US9756448B2 (en) 2014-04-01 2017-09-05 Dolby International Ab Efficient coding of audio scenes comprising audio objects
FI126923B (fi) * 2014-09-26 2017-08-15 Genelec Oy Menetelmä ja laitteisto digitaalisen audiosignaalin tunnistamiseksi
KR20160081844A (ko) 2014-12-31 2016-07-08 한국전자통신연구원 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치
WO2016108655A1 (ko) * 2014-12-31 2016-07-07 한국전자통신연구원 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치
AU2016312404B2 (en) 2015-08-25 2020-11-26 Dolby International Ab Audio decoder and decoding method

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4236989C2 (de) 1992-11-02 1994-11-17 Fraunhofer Ges Forschung Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US7451006B2 (en) * 2001-05-07 2008-11-11 Harman International Industries, Incorporated Sound processing system using distortion limiting techniques
JP2005501277A (ja) * 2001-08-21 2005-01-13 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 不均一なフィルタバンクを用いたオーディオの符号化
US7720231B2 (en) 2003-09-29 2010-05-18 Koninklijke Philips Electronics N.V. Encoding audio signals
RU2374703C2 (ru) 2003-10-30 2009-11-27 Конинклейке Филипс Электроникс Н.В. Кодирование или декодирование аудиосигнала
US8923785B2 (en) * 2004-05-07 2014-12-30 Qualcomm Incorporated Continuous beamforming for a MIMO-OFDM system
US8160888B2 (en) * 2005-07-19 2012-04-17 Koninklijke Philips Electronics N.V Generation of multi-channel audio signals

Also Published As

Publication number Publication date
US20090240505A1 (en) 2009-09-24
CN101484936A (zh) 2009-07-15
CN101484936B (zh) 2012-02-15
TW200746046A (en) 2007-12-16
US8433583B2 (en) 2013-04-30
RU2008142752A (ru) 2010-05-10
JP5154538B2 (ja) 2013-02-27
WO2007110823A1 (en) 2007-10-04
BRPI0709235B8 (pt) 2019-10-29
TWI413108B (zh) 2013-10-21
BRPI0709235A2 (pt) 2011-06-28
BRPI0709235B1 (pt) 2019-10-15
ES2609449T3 (es) 2017-04-20
HK1135791A1 (en) 2010-06-11
JP2009536360A (ja) 2009-10-08
MX2008012217A (es) 2008-11-12
KR101015037B1 (ko) 2011-02-16
EP1999747A1 (en) 2008-12-10
EP1999747B1 (en) 2016-10-12
PL1999747T3 (pl) 2017-05-31
RU2420814C2 (ru) 2011-06-10

Similar Documents

Publication Publication Date Title
KR101015037B1 (ko) 오디오 디코딩
CN101151658B (zh) 多声道音频编码和解码方法、编码器和解码器
KR101613975B1 (ko) 멀티 채널 오디오 신호의 부호화 방법 및 장치, 그 복호화 방법 및 장치
US9865270B2 (en) Audio encoding and decoding
KR101010464B1 (ko) 멀티 채널 신호의 파라메트릭 표현으로부터 공간적 다운믹스 신호의 생성
JP5455647B2 (ja) オーディオデコーダ
CA2701360C (en) Method and apparatus for generating a binaural audio signal
EP1905006B1 (en) Generation of multi-channel audio signals
RU2497204C2 (ru) Устройство параметрического стереофонического повышающего микширования, параметрический стереофонический декодер, устройство параметрического стереофонического понижающего микширования, параметрический стереофонический кодер
JP5643834B2 (ja) パラメトリックエンコード及びデコード
AU2010209869B2 (en) Apparatus, method and computer program for upmixing a downmix audio signal
WO2005098826A1 (en) Method, device, encoder apparatus, decoder apparatus and audio system
RU2696952C2 (ru) Аудиокодировщик и декодер
CN104246873A (zh) 用于编码多声道音频信号的参数编码器

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140203

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150129

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160128

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180131

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190130

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20200130

Year of fee payment: 10