KR20070035410A - 멀티 채널 오디오 신호의 공간 정보 부호화/복호화 방법 및장치 - Google Patents

멀티 채널 오디오 신호의 공간 정보 부호화/복호화 방법 및장치 Download PDF

Info

Publication number
KR20070035410A
KR20070035410A KR1020060065290A KR20060065290A KR20070035410A KR 20070035410 A KR20070035410 A KR 20070035410A KR 1020060065290 A KR1020060065290 A KR 1020060065290A KR 20060065290 A KR20060065290 A KR 20060065290A KR 20070035410 A KR20070035410 A KR 20070035410A
Authority
KR
South Korea
Prior art keywords
cld
channels
value
quantization
audio signal
Prior art date
Application number
KR1020060065290A
Other languages
English (en)
Inventor
정양원
방희석
오현오
김동수
임재현
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020060065290A priority Critical patent/KR20070035410A/ko
Priority to JP2008533239A priority patent/JP2009518659A/ja
Priority to US12/088,426 priority patent/US8090587B2/en
Priority to CN2006800440236A priority patent/CN101427307B/zh
Priority to PCT/KR2006/003830 priority patent/WO2007037613A1/en
Priority to EP06798913A priority patent/EP1943642A4/en
Priority to TW095135786A priority patent/TWI333385B/zh
Priority to TW097151236A priority patent/TWI404429B/zh
Priority to EP06798940A priority patent/EP1938313A4/en
Priority to US12/088,424 priority patent/US7719445B2/en
Priority to JP2008533244A priority patent/JP2009510514A/ja
Priority to CN2006800440221A priority patent/CN101313355B/zh
Priority to PCT/KR2006/003857 priority patent/WO2007037621A1/en
Publication of KR20070035410A publication Critical patent/KR20070035410A/ko
Priority to HK09110375.5A priority patent/HK1132576A1/xx

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 멀티 채널 오디오 신호의 공간 정보를 효율적으로 부호화 및 복호화하기 위한 방법 및 장치에 관한 것이다.
멀티 채널 오디오 신호의 부호화 방법에 있어서, 멀티 채널 중 복수개의 채널 사이의 채널 간 레벨 차이(CLD)값을 측정하는 단계와 상기 복수개의 채널 사이를 일정한 각도로 분할하는 단계 및 상기 측정된 CLD값을 상기 분할된 각도에 따라 양자화하는 단계를 포함하는 것을 특징으로 하는 멀티 채널 오디오 신호 부호화 방법을 제공한다. 또한, 그 역과정을 통한 멀티 채널 오디오 신호 복호화 방법도 제공한다. 본 발명을 이용하여 CLD 양자화를 수행할 경우, 양자화 비트를 감소시킬 수 있으며, 채널 수가 확장되는 경우에는 기존의 방법에 비해 각 채널 간의 CLD 양자화 단계가 감소하게 되고 전체 정보량은 일정하게 유지되어 효율적인 부호화 및 복호화가 가능해진다.
CLD, 양자화, 공간 정보

Description

멀티 채널 오디오 신호의 공간 정보 부호화/복호화 방법 및 장치{Method and Apparatus for encoding/decoding Spatial Parameter of Multi-channel audio signal}
도 1은 본 발명이 적용되는 멀티 채널 오디오 신호의 인코더와 디코더를 나타내는 블록도를 나타낸다.
도 2는 본 발명이 적용되는 멀티 채널의 구조 중 5.1채널의 사용예를 나타낸다.
도 3은 본 발명에서의 오디오 신호에 대한 공간 정보를 인간이 어떻게 인식하는지를 나타낸다.
도 4는 본 발명을 적용한 실시예로서, 멀티 채널 오디오 신호의 공간 정보를 부호화하는 과정의 전체적인 흐름을 설명하기 위한 도면이다.
도 5는 본 발명이 적용된 일실시예로서, 음원을 가상의 자리에 위치시키는데 사용되는 sine/tangent 법칙을 설명하기 위한 Amplitude Panning Law를 나타낸다.
도 6은 본 발명을 적용한 일실시예로서, 임의의 스피커 조합에 대해서 채널 간의 CLD값을 양자화하기 위한 일반적인 구조를 나타낸 것이다.
도 7은 본 발명을 적용한 일실시예로서, 센터 채널과 좌측 채널 사이의 CLD값을 양자화함에 있어서, 상기 두 채널 사이를 3도 간격으로 분할하여 수행하는 경 우를 나타낸다.
도 8은 본 발명을 적용한 일실시예로서, 복수개의 채널 사이의 CLD값을 양자화함에 있어서, 양자화 기준값(threshold)을 일정한 각도의 평균값으로 설정하여 이용하는 경우를 나타낸다.
도 9는 본 발명을 적용한 멀티 채널 오디오 신호 부호화 장치의 일부를 설명하기 위한 블록도를 나타낸다.
도 10은 본 발명을 적용한 멀티 채널 오디오 신호 복호화 장치의 일부를 설명하기 위한 블록도를 나타낸다.
< 도면의 주요부분에 대한 부호의 설명 >
101: 멀티 채널 오디오 입력신호 103: 아티스틱 다운믹스 신호
105: 멀티 채널 오디오 출력신호 110: 다운믹스부
120: 공간 정보 측정부 130: 공간 정보 디코더
140: 공간 정보 합성부 301: 음원
302,303: 직접적인 음파 304,305: 반사된 음파
401: 필터 뱅크 402: 공간 정보 추출부
403: 양자화부 404: 인코딩부
910: 공간 정보 측정부 911: 제 1 공간정보 측정부
913: 제 2 공간정보 측정부 920: 양자화부
950: 양자화값 추출부 960: 역양자화부
본 발명은 멀티 채널 오디오 신호를 효율적으로 부호화 및 복호화하기 위한 방법 및 장치에 관한 것이다.
최근에 디지털 오디오 신호에 대한 다양한 코딩기술 및 방법들이 개발되고 있으며, 이와 관련된 제품들이 생산되고 있다. 또한 심리음향 모델(Psychoacoustic model)을 이용하여 멀티채널 오디오 신호(multi-channel audio signal)의 코딩방법들이 개발되고 있으며, 이에 대한 표준화 작업이 진행되고 있다.
심리음향 모델은 인간이 소리를 인식하는 방식, 예를 들면 큰 소리 다음에 오는 작은 소리는 들리지 않으며, 20Hz 내지 20000Hz의 주파수에 해당되는 소리만 들을 수 있다는 사실을 이용하여, 코딩과정에서 불필요한 부분에 대한 오디오 신호를 제거함으로써 필요한 데이터의 양을 효과적으로 줄일 수 있는 것이다.
현재 MPEG-1 오디오(MEPG-1 레이어 Ⅲ), MPEG-4 AAC(Advanced Audio Coding) 및 MPEG-4 HE-AAC(High-Efficiency AAC)와 같은 오디오 표준 기술이 개발되어 상용화되고 있다. 또한 공간 정보를 이용하는 멀티채널 오디오 신호의 코딩방법이 개발되고 있다. 멀티채널 오디오 신호의 코딩방법은 압축된 오디오 신호(예를 들면, 스테레오 또는 모노 오디오 신호) 및 낮은 비트-레이트의 부가정보(low-rate side information)(예를 들면, 공간 정보) 채널을 이용하여 멀티채널 오디오 신호의 전송 효율을 매우 효과적으로 향상시키는 것이다.
그러나, 멀티채널 오디오 신호의 코딩방법에서 멀티채널 오디오 신호의 비트 스트림을 구성하는데 있어서, 종래에는 공간 정보에 대하여 고정적 양자화(예를 들면, 하나의 양자화 테이블)를 수행하여 비트스트림을 구성하였었다. 따라서, 종래의 방법은 오디오 신호의 특성을 전혀 고려하지 않아 공간 정보를 코딩하는데 많은 비트율을 요구되어, 오디오 신호에 대한 비트스트림의 구성효율이 좋지 못하다는 단점이 있었다.
또한, 공간 정보 중 CLD값을 양자화함에 있어서, 양 채널간의 간격을 31단계로 나누어서 양자화를 수행한다. 그러나 위의 방식을 이용하여 양자화를 수행하게 될 경우, 예를 들어, 30도 간격으로 배치된 좌측-센터 채널(Left-Center channel)간의 CLD값을 측정하는 경우에도 31단계로 나누어서 양자화를 수행하고, 140도 간격으로 떨어져 있는 좌측 서라운드-우측 서라운드 채널(Left surround-Right surround channel)간의 CLD값을 측정하는 경우에도 31단계로 나누어서 양자화를 수행하게 된다. 따라서, 채널 간의 간격이 멀어질수록 분해능이 떨어지는 단점이 생기며, 또한 채널 간의 간격이 가까운 경우에는 너무 세밀하게 일률적으로 단계를 나누게 되어 비트의 낭비를 초래하는 문제점이 발생한다.
본 발명의 목적은 멀티 채널 오디오 신호를 효율적으로 부호화/복호화하는 방법 및 장치를 제공하는데 있다.
본 발명의 다른 목적은 임의의 채널로 확장된 경우에도 적용될 수 있는 멀티 채널 오디오 신호의 부호화/복호화 방법 및 장치를 제공하는데 있다.
본 발명의 또 다른 목적은 멀티 채널 오디오 신호의 공간 정보를 효율적으로 부호화/복호화하여 양자화 비트를 감소시키는데 있다.
상기 목적을 달성하기 위하여, 본 발명은 멀티 채널 중 복수개의 채널 사이의 채널 간 레벨 차이(CLD)값을 측정하는 단계와 상기 복수개의 채널 사이를 일정한 각도로 분할하는 단계 및 상기 측정된 CLD값을 상기 분할된 각도에 따라 양자화하는 단계를 포함하는 것을 특징으로 하는 멀티 채널 오디오 신호 부호화 방법을 제공한다.
또한, 본 발명은 멀티 채널 중 복수개의 채널 사이의 채널 간 레벨 차이값을 측정하는 단계와 상기 복수개의 채널 중에서 각 채널간의 구성에 맞는 양자화 테이블을 획득하는 단계 및 상기 CLD값을 상기 양자화 테이블에 따라 양자화하는 단계를 포함하는 것을 특징으로 하는 멀티 채널 오디오 신호 부호화 방법을 제공한다.
또한, 본 발명은 주어진 양자화 테이블에 따라 인덱스 정보에 대응하는 CLD값을 추출하는 단계 및 상기 추출된 CLD값을 역양자화하는 단계를 포함하되, 상기 양자화 테이블은 일정한 각도를 기준으로 구분되어 획득되는 것을 특징으로 하는 멀티 채널 오디오 신호 복호화 방법을 제공한다.
또한, 본 발명은 멀티 채널 중 복수개의 채널 사이의 채널 간 레벨 차이(CLD)값을 측정하는 제 1 공간 정보 측정부와 상기 복수개의 채널 사이를 일정한 각도로 분할하는 제 2 공간 정보 측정부 및 상기 측정된 CLD값을 상기 분할된 각도에 따라 양자화하는 양자화부를 포함하는 것을 특징으로 하는 멀티 채널 오디오 신호 부호화 장치를 제공한다.
또한, 본 발명은 주어진 양자화 테이블에 따라 인덱스 정보에 대응하는 CLD값을 추출하는 양자화값 추출부 및 상기 추출된 CLD값을 역양자화하는 역양자화부를 포함하는 것을 특징으로 하는 멀티 채널 오디오 신호 복호화 장치를 제공한다.
상술한 목적 및 구성의 특징은 첨부된 도면과 관련하여 다음의 상세한 설명을 통하여 보다 명확해질 것이다. 이하 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예들를 상세히 설명한다.
아울러, 본 발명에서 사용되는 용어는 가능한 한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우는 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재하였으므로, 단순한 용어의 명칭이 아닌 용어가 가지는 의미로서 본 발명을 파악하여야 함을 밝혀두고자 한다.
도 1은 본 발명이 적용되는 멀티 채널 오디오 신호의 인코더와 디코더를 나타내는 블록도를 나타낸다. 멀티 채널 오디오 신호의 인코더와 디코더는 크게 다운 믹스부, 공간 정보 측정부, 공간 정보 디코더, 공간 정보 합성부를 포함한다. 인코더는 5.1채널과 같은 멀티 채널 소스로부터 스테레오 혹은 모노로 다운 믹스된 신호를 만들어 내는 다운 믹스부(110)와 이와 함께 멀티 채널을 생성시키는데 필요한 최소한의 데이터만을 갖는 공간 정보 측정부(Spatial Parameter Estimation)(120)를 갖는다. 다운 믹스 신호는 경우에 따라 외부에서 가공한 임의의 다운 믹스 신호(Artistic Downmix)(103)로 입력되기도 한다. 공간 정보 디코더(Spatial Parameter Decoder)(130)에서는 전송된 공간 정보(spatial parameter)를 복호화하 고, 공간 정보 합성부(Spatial Synthesis)(140)에서는 복호화된 공간 정보와 다운 믹스된 신호를 이용하여 멀티 채널 오디오 신호(105)를 합성하여 출력한다.
도 2는 본 발명이 적용되는 멀티 채널의 구조 중 5.1채널의 사용예를 나타낸다. 여기서 위치에 구애받지 않는 LFE(Low Frequency Enhancement)채널인 .1채널은 그림에 나타내지 않았다. 좌측 채널(Left Channel, L), 우측 채널(Right Channel, R)은 센터 채널(Center Channel, C)을 기준으로 각각 30도씩 떨어져 위치하게 되고, 좌측 서라운드 채널(Left Surround Channel, Ls)과 우측 서라운드 채널(Right Surround Channel, Rs)은 센터 채널(Center Channel)을 기준으로 각각 110도씩, 좌측 채널(Left Channel)과 우측 채널(Right Channel)을 기준으로 각각 80도씩 떨어져 위치하게 된다.
도 3은 본 발명에서 오디오 신호에 대한 공간 정보를 인간이 어떻게 인식하는지를 나타낸다. 멀티채널 오디오 신호에 대한 코딩방법은 인간이 오디오 신호를 3차원적 공간으로 인지한다는 사실을 바탕으로, 복수의 파라미터 세트(parameter sets)를 통하여 상기 오디오 신호를 3차원적 공간 정보로 표현할 수 있다는 것을 이용한다. 멀티채널 오디오 신호의 공간 정보를 표시하기 위한 "공간 파라미터"라고 불리는 것에는 CLD(Channel level differences), ICC(Inter Channel Coherences) 및 CPC(Channel Prediction Coefficients), CTD(Channel Time Difference)등이 있다. CLD는 채널 간의 레벨 차이를 나타내는 값이며, 레벨 차이란 에너지 차이를 의미할 수 있다. ICC는 두 채널 간의 상관관계(correlation)를 의미하고, CPC는 두 채널로부터 세 채널을 생성할 때 이용되는 예측 계 수(prediction coefficient)를 의미하며, CTD는 두 채널간의 시간 차이를 의미한다.
인간이 오디오 신호를 어떻게 공간적으로 인식하며, 공간 파라미터의 개념이 어떻게 생성되는지는 도 3에 나타난다. 원거리에 있는 음원(301)으로부터의 직접적인 음파(direct sound wave)(303)가 인간의 왼쪽 귀(307)에 도달하고, 또 다른 직접적인 음파(302)는 머리 주위에서 회절되어 오른쪽 귀(306)에 도달하게 된다. 두 음파(302 및 303)는 도달시간 및 에너지 레벨에서 차이를 보이게 되며, 이와 같은 차이가 CLD, CPC 및 CTD 파라미터를 생성하게 된다.
위와 같은 원리로 생성된 공간 정보들의 양자화를 수행함에 있어서, 본 발명을 적용하면 보다 효율적인 양자화를 수행할 수 있다.
도 4는 본 발명을 적용한 실시예로서, 멀티 채널 오디오 신호의 공간 정보를 부호화하는 과정의 전체적인 흐름을 설명하기 위한 도면이다.
멀티 채널 오디오 신호가 입력되면, 필터뱅크(401)를 통과하여 서브밴드별로 나누어진다. 필터뱅크(401)는 모든 주파수 대역에 걸친 오디오 신호를 각 서브밴드별로 나누는 역할을 하며, 필터뱅크(401)로는 서브밴드 필터뱅크(sub-band filter bank) 또는 QMF(Quadrature Mirror Filter) 필터뱅크 등이 사용될 수 있다. 필터뱅크(401)를 통과한 오디오 신호는 서브밴드별로 구분되어지고, 공간정보 추출부(402)를 통하여 공간 정보가 추출된다. 공간 정보에는 CLD, CTD, ICC 또는 CPC 등이 포함될 수 있다. 추출된 공간 정보 중 CLD는 양자화부(403)를 통해 양자화되고, 양자화된 CLD값은 양자화 테이블에 기초하여 그에 대응되는 인덱스 정보를 인 코딩부(404)로 전송한다. 여기서, CLD는 입력된 멀티 채널 오디오 신호들의 전력비(power ratio)의 로그 형태로 정의되며, 이는 다음 [수학식 1]과 같이 표현된다.
Figure 112006049731453-PAT00001
[수학식 1]에서 n은 타임 슬롯 인덱스를 나타내고, m은 하이브리드 서브밴드 인덱스를 나타낸다. 인코딩부(404)에서는 CLD를 비롯하여 전송된 정보들을 인코딩하여 비트스트림을 구성하게 된다.
도 5는 본 발명이 적용된 일실시예로서, 음원을 가상의 자리에 위치시키는데 사용되는 sine/tangent 법칙을 설명하기 위한 Amplitude Panning Law를 나타낸다.
청취자가 정면을 바라보고 있을 경우, 두 개의 채널의 크기를 적절히 조절하면 C점과 같이 임의의 위치에 가상 음원을 위치시킬 수 있다. 이 경우, 두 채널의 크기는 채널 간의 각도와 위치하고자 하는 음원의 위치에 따라 다음 [수학식 2]와 같이 표현된다.
Figure 112006049731453-PAT00002
여기서
Figure 112006049731453-PAT00003
는 가상 음원이 센터로부터 떨어져 있는 각도를 의미하고,
Figure 112006049731453-PAT00004
는 대칭으로 위치한 스피커의 각도를 의미한다. 그리고
Figure 112006049731453-PAT00005
는 대응되는 채널에 대 한 게인 인자(gain factor)를 의미한다.
청취자가 가상 음원을 바라보고 있을 경우에는 [수학식 2]는 다음과 같이 대체될 수 있다.
Figure 112006049731453-PAT00006
CLD 양자화를 수행함에 있어서, [수학식 1],[수학식 2]및[수학식 3]을 기초로 하여 CLD를 다시 정의할 수 있다.
Figure 112006049731453-PAT00007
[수학식 2]와[수학식 4]로부터 CLD는 다음 [수학식 5],[수학식 6]과 같이 음원의 각도와 그 주변의 두 채널의 각도로 표현될 수 있다.
Figure 112006049731453-PAT00009
위의[수학식 5]와 [수학식 6]을 기초로 하여 CLD 양자화 테이블을 얻을 수 있다.
도 6은 본 발명을 적용한 일실시예로서, 임의의 스피커 조합에 대해서 채널 간의 CLD값을 양자화하기 위한 일반적인 구조를 나타낸 것이다.
임의의 스피커의 위치가 도 6에서와 같이 배치되어 있다고 가정했을 때,
Figure 112006049731453-PAT00010
는 i번째 채널과 i-1번째 채널 사이에 위치해 있는 가상 음원의 각도를 의미하고,
Figure 112006049731453-PAT00011
는 i번째 스피커의 각도를 의미한다. 이 경우, [수학식 4]와 [수학식 5]를 기초로 하여 CLD를 다음과 같이 일반화된 식으로 표현할 수 있다.
Figure 112006049731453-PAT00012
Figure 112006049731453-PAT00013
[수학식 7]과 [수학식 8]을 이용하면, 임의의 스피커 구조에서도 가상 음원 이 어느 곳에 위치하더라도 임의의 복수개의 채널 사이를 일정한 각도를 기준으로 분할함으로써 CLD 양자화 테이블을 구할 수 있게 되므로 더욱 효율적으로 양자화를 수행할 수 있게 된다.
CLD뿐만 아니라 ICC, CPC 등과 같은 공간 정보에 대한 양자화 테이블을 획득한 후, 공간 정보에 대한 양자화 테이블은 디코딩부로 전송할 수 있다. 이는 복호화를 수행함에 있어서 디코딩부에서 양자화 테이블을 정의하고 있지 않은 경우에 디코딩부에 공간 정보에 대한 양자화 테이블을 전송해줄 필요가 있기 때문이다. 따라서, 양자화 테이블을 전송하는 방법으로서, 예를 들면, 양자화 테이블의 모든 값에 대한 인덱스를 전송할 수 있는 경우가 있다. 또 다른 예로서, 디코딩부에서 양자화 테이블을 생성할 수 있는 정보를 전송할 수 있는 경우가 있다. 여기서, 디코딩부에서 양자화 테이블을 생성할 수 있는 정보를 전송할 수 있는 경우의 예로서, -60도 ~ 60도에 대한 양자화 테이블을 인코딩부에서 사용한 경우, 양끝 각도와 양자화 단계수에 대한 정보만 디코딩부에 전송하여 주면 디코딩부에 그 양자화 테이블이 존재하지 않더라도 전송된 정보를 이용하여 양자화 테이블을 생성할 수 있는 경우를 들 수 있다. 위 예에서 언급한 양끝 각도와 양자화 단계수에 대한 정보 이외에 다른 정보를 이용하여서도 양자화 테이블 생성이 가능할 수 있다.
도 7은 본 발명을 적용한 일실시예로서, 센터 채널과 좌측 채널 사이의 CLD값을 양자화함에 있어서, 상기 두 채널 사이를 3도 간격으로 분할하여 수행하는 경우를 나타낸다.
멀티 채널 구조 중 임의의 복수개의 채널 사이의 CLD 양자화를 수행함에 있 어서, 각 채널 사이에 독립적인 CLD 양자화 테이블을 이용할 수 있다. 즉, 각기 상이한 배치를 가진 채널에 대해 그 배치에 맞는 CLD 양자화 테이블을 사용할 수 있다. 각 채널 사이의 CLD 양자화 테이블은 앞서 설명한 방법에 의해 생성할 수 있다. 인간의 공간 정보 지각력의 분해능이란 인간이 임의의 소리에 관한 공간 정보에 대하여 인식할 수 있는 최소한의 차이를 의미하는 것으로서, 심리 음향의 연구에 따르면 인간의 공간 정보 지각력의 분해능은 3도에 해당된다. 따라서, 본 발명을 적용한 일실시예로서, 인간의 공간 정보 지각력의 분해능이 3도라는 사실과 [수학식 7],[수학식 8]을 이용하여 CLD 양자화를 수행할 수 있다.
[수학식 7]과 [수학식 8]을 이용하여 센터 채널(center channel)과 좌측 채널(left channel) 사이의 CLD 양자화를 수행하게 되면,
Figure 112006049731453-PAT00014
= 30도,
Figure 112006049731453-PAT00015
= 0도가 된다. 그리고
Figure 112006049731453-PAT00016
는 0도와 30도 사이를 3도 간격으로 이동하는 형태로 생각할 수 있다. 따라서,[수학식 7]과 [수학식 8]을 이용하여 계산하게 되면, 아래[표 1]과 같은 CLD 테이블을 얻을 수 있다. [표 1]은 채널 사이를 3도로 분할하여 각 각도에 해당하는 CLD값을 테이블로 나타낸 것이다.
Figure 112006049731453-PAT00017
[표 1]의 CLD_C/L은 센터 채널과 좌측 채널 사이의 CLD를 의미한다. 따라서, [표 1]에서와 같이 양 채널 간의 간격이 30도인 경우, 즉 간격이 작은 경우에는 일정한 각도인 3도로 구분하게 되어 11단계로 CLD 양자화를 수행하게 되므로 보다 적절한 양자화 단계의 구분이 가능하게 된다.
도 8은 본 발명을 적용한 일실시예로서, 복수개의 채널 사이의 CLD값을 양자화함에 있어서, 양자화 기준값(threshold)을 일정한 각도의 평균값으로 설정하여 이용하는 경우를 나타낸다.
예를 들어, 센터 채널(center channel)과 우측 채널(right channel) 사이를 3도를 기준으로 분할하여 CLD 양자화를 수행하게 되는 경우,
Figure 112006049731453-PAT00018
= 30도,
Figure 112006049731453-PAT00019
= 0도가 되고,
Figure 112006049731453-PAT00020
는 0도와 30도 사이를 3도 간격으로 이동하는 형태가 된다. 이 경우, 양자화 기준값(threshold)은 일정한 각도의 평균값으로 설정하므로 3도의 평균값인 1.5도를 그 한계로 한다. 측정된 CLD값이 1.5도와 4.5도 사이의 CLD값으로 나온 경우, 상기 측정된 CLD값은 주어진 양자화 테이블에 따라 3도에 대응하는 CLD값으로 양자화가 된다. 또한, 측정된 CLD값이 4.5도와 7.5도 사이의 CLD값으로 나온 경우, 상기 측정된 CLD값은 6도에 대응하는 CLD 테이블의 값으로 양자화된다. 양자화된 CLD값들은 그 대응하는 인덱스 정보로 표현되며, 인덱스 정보는 인코딩부로 전송된다.
위와 같은 방식을 적용하게 되는 경우, 산술적인 구분이 아닌 비선형적인 구분이 가능하게 되므로 보다 심리 음향 모델에 적합한 양자화를 수행할 수 있게 된다.
도 9는 본 발명을 적용한 멀티 채널 오디오 신호 부호화 장치의 일부를 설명하기 위한 블록도를 나타낸다.
본 발명에 의한 부호화 장치는 공간 정보 측정부(910)와 양자화부(920)를 포함하며, 공간 정보 측정부(910)는 제 1 공간 정보 측정부(911)와 제 2 공간 정보 측정부(913)를 포함한다. 공간 정보 측정부(910)는 필터 뱅크를 통하여 서브 밴드화된 멀티 채널 오디오 신호로부터 공간 정보(예를 들어, CLD, ICC, CPC 등)를 추출해낸다. 공간 정보 중, 예를 들어, CLD는 채널 간의 레벨 차이를 나타내는 것으로서, 공간 정보를 구성하는 가장 기본적이고 핵심적인 값이다. 제 1 공간 정보 측정부(911)는 입력된 멀티 채널 오디오 신호로부터 복수개의 채널 사이의 레벨 차이(CLD)값을 측정한다. 제 2 공간 정보 측정부(913)에서는 복수개의 채널 사이를 일정한 각도로 분할하여 각 채널간의 조합에 맞는 양자화 테이블을 획득한다. 양자화부(920)에서는 측정된 CLD값을 획득된 양자화 테이블에 따라 양자화하고, 양자화된 CLD 값에 대응하는 인덱스 정보는 인코딩부로 전송된다. 인코딩부에서는 허프만 부호화 등을 통하여 공간 정보 비트스트림을 생성하게 된다.
도 10은 본 발명을 적용한 멀티 채널 오디오 신호 복호화 장치의 일부를 설명하기 위한 블록도를 나타낸다.
본 발명에 의한 복호화 장치는 양자화값 추출부(950)와 역양자화부(960)를 포함하여 이루어진다. 양자화값 추출부(950)는 수신된 비트스트림으로부터, 주어진 양자화 테이블에 따라 인덱스 정보를 추출하고, 추출된 인덱스 정보에 대응하는 양자화된 CLD값을 추출한다. 여기서, 추출된 인덱스 정보는 일정한 각도를 기준으로 구분된 것을 특징으로 한다. 추출된 CLD값은 역양자화부(960)를 통하여 역양자화된다. 공간 정보 합성부(Spatial Synthesis)에서는 상기 역양자화된 공간 정보와 다운 믹스된 신호를 이용하여 멀티 채널 오디오 신호를 합성하고, 이를 출력하게 된다.
본 발명을 이용하여 CLD 양자화를 수행할 경우, 양자화 비트를 감소시킬 수 있어 효율적인 부호화/복호화가 가능해진다. 임의의 복수개의 채널 간 CLD값을 구함에 있어서, 일률적으로 각 채널 사이를 31단계로 구분하여 수행함으로써 5bit를 필요로 하였으나, 본 발명에서는 이를 일정한 각도로 분할함으로써, 예를 들어 3도 간격으로 분할할 경우 센터-좌측 채널 간은 30도이므로 11단계로 분할할 수 있으므로 4bit이하로도 충분하게 되었다. 따라서 양자화 비트의 감소를 기대할 수 있다.
또한, 본 발명은 실제 스피커의 배치 정보를 활용하여 양자화를 수행하므로 더욱 효율적인 부호화/복호화가 가능해진다. 채널 수가 증가하게 되면 31*N의 함수로(N은 채널 수) 정보량이 증가하게 되는데, 본 발명에서는 채널 수가 증가하면 각 채널 간의 CLD 양자화 단계가 감소하게 되어 전체 정보량은 일정하게 유지되는 효과가 있다. 따라서, 본 발명은 5.1채널에서 뿐만아니라 임의의 채널로 확장된 경우에도 동일한 방법으로 적용가능하므로 효율적인 부호화/복호화를 수행할 수 있다.

Claims (14)

  1. 멀티 채널 중 복수개의 채널 사이의 채널 간 레벨 차이(CLD)값을 측정하는 단계와;
    상기 복수개의 채널 사이를 일정한 각도로 분할하는 단계 및;
    상기 측정된 CLD값을 상기 분할된 각도에 따라 양자화하는 단계를 포함하는 것을 특징으로 하는 멀티 채널 오디오 신호 부호화 방법.
  2. 제 1항에 있어서,
    상기 일정한 각도는 3도인 것을 특징으로 하는 멀티 채널 오디오 신호 부호화 방법.
  3. 제 1항에 있어서,
    상기 CLD값을 양자화하는 경우, 양자화 기준값(threshold)을 상기 일정한 각도의 평균값을 기준으로 설정하는 것을 특징으로 하는 멀티 채널 오디오 신호 부호화 방법.
  4. 제 3항에 있어서,
    상기 일정한 각도의 평균값은 1.5도인 것을 특징으로 하는 멀티 채널 오디오 신호 부호화 방법.
  5. 제 1항 내지 제 3항 중 어느 한 항에 있어서,
    상기 멀티 채널 오디오 신호 부호화 방법은, 상기 양자화된 CLD값에 대응하는 인덱스를 전송하는 단계를 더 포함하는 것을 특징으로 하는 멀티 채널 오디오 신호 부호화 방법.
  6. 멀티 채널 중 복수개의 채널 사이의 채널 간 레벨 차이(CLD)값을 측정하는 단계와;
    상기 복수개의 채널 중에서 각 채널간의 구성에 맞는 양자화 테이블을 획득하는 단계; 및
    상기 CLD값을 상기 양자화 테이블에 따라 양자화하는 단계를 포함하는 것을 특징으로 하는 멀티 채널 오디오 신호 부호화 방법.
  7. 주어진 양자화 테이블에 따라 인덱스 정보에 대응하는 CLD값을 추출하는 단계; 및
    상기 추출된 CLD값을 역양자화하는 단계를 포함하되,
    상기 양자화 테이블은 일정한 각도를 기준으로 구분되어 획득되는 것을 특징으로 하는 멀티 채널 오디오 신호 복호화 방법.
  8. 제 7항에 있어서,
    상기 일정한 각도는 3도인 것을 특징으로 하는 멀티 채널 오디오 신호 복호화 방법.
  9. 멀티 채널 중 복수개의 채널 사이의 채널 간 레벨 차이(CLD)값을 측정하는 제 1 공간 정보 측정부와;
    상기 복수개의 채널 사이를 일정한 각도로 분할하는 제 2 공간 정보 측정부 및;
    상기 측정된 CLD값을 상기 분할된 각도에 따라 양자화하는 양자화부를 포함하는 것을 특징으로 하는 멀티 채널 오디오 신호 부호화 장치.
  10. 제 9항에 있어서,
    상기 일정한 각도는 3도인 것을 특징으로 하는 멀티 채널 오디오 신호 부호화 장치.
  11. 제 9항에 있어서,
    상기 CLD값을 양자화하는 경우, 양자화 기준값(threshold)을 상기 일정한 각도의 평균값을 기준으로 설정하는 것을 특징으로 하는 멀티 채널 오디오 신호 부호화 장치.
  12. 제 11항에 있어서,
    상기 일정한 각도의 평균값은 1.5도인 것을 특징으로 하는 멀티 채널 오디오 신호 부호화 장치.
  13. 제 9항 내지 제 11항 중 어느 한 항에 있어서,
    상기 멀티 채널 오디오 신호 부호화 장치는, 상기 양자화된 CLD값에 대응하는 인덱스를 전송하는 공간 정보 전송부를 더 포함하는 것을 특징으로 하는 멀티 채널 오디오 신호 부호화 장치.
  14. 주어진 양자화 테이블에 따라 인덱스 정보에 대응하는 CLD값을 추출하는 양자화값 추출부; 및
    상기 추출된 CLD값을 역양자화하는 역양자화부를 포함하되,
    상기 양자화 테이블은 일정한 각도를 기준으로 구분되어 획득되는 것을 특징으로 하는 멀티 채널 오디오 신호 복호화 장치.
KR1020060065290A 2005-09-27 2006-07-12 멀티 채널 오디오 신호의 공간 정보 부호화/복호화 방법 및장치 KR20070035410A (ko)

Priority Applications (14)

Application Number Priority Date Filing Date Title
KR1020060065290A KR20070035410A (ko) 2005-09-27 2006-07-12 멀티 채널 오디오 신호의 공간 정보 부호화/복호화 방법 및장치
JP2008533239A JP2009518659A (ja) 2005-09-27 2006-09-26 マルチチャネルオーディオ信号の符号化/復号化方法及び装置
US12/088,426 US8090587B2 (en) 2005-09-27 2006-09-26 Method and apparatus for encoding/decoding multi-channel audio signal
CN2006800440236A CN101427307B (zh) 2005-09-27 2006-09-26 编码/解码多声道音频信号的方法和装置
PCT/KR2006/003830 WO2007037613A1 (en) 2005-09-27 2006-09-26 Method and apparatus for encoding/decoding multi-channel audio signal
EP06798913A EP1943642A4 (en) 2005-09-27 2006-09-26 METHOD AND DEVICE FOR CODING / DECODING A MULTI-CHANNEL AUDIO SIGNAL
TW097151236A TWI404429B (zh) 2005-09-27 2006-09-27 用於將多頻道音訊信號編碼/解碼之方法與裝置
TW095135786A TWI333385B (en) 2005-09-27 2006-09-27 Method and apparatus for encoding/decoding multi-channel audio signal
EP06798940A EP1938313A4 (en) 2005-09-27 2006-09-27 METHOD AND DEVICE FOR CODING / DECODING A MULTI-CHANNEL AUDIO SIGNAL
US12/088,424 US7719445B2 (en) 2005-09-27 2006-09-27 Method and apparatus for encoding/decoding multi-channel audio signal
JP2008533244A JP2009510514A (ja) 2005-09-27 2006-09-27 マルチチャネルオーディオ信号の符号化/復号化方法及び装置
CN2006800440221A CN101313355B (zh) 2005-09-27 2006-09-27 编码/解码多声道音频信号的方法和装置
PCT/KR2006/003857 WO2007037621A1 (en) 2005-09-27 2006-09-27 Method and apparatus for encoding/decoding multi-channel audio signal
HK09110375.5A HK1132576A1 (en) 2005-09-27 2009-11-06 Method and apparatus for encoding/decoding multi-channel audio signal

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US60/720,495 2005-09-27
US60/734,292 2005-11-08
US60/755,777 2006-01-04
US60/782,521 2006-03-16
KR1020060065290A KR20070035410A (ko) 2005-09-27 2006-07-12 멀티 채널 오디오 신호의 공간 정보 부호화/복호화 방법 및장치

Publications (1)

Publication Number Publication Date
KR20070035410A true KR20070035410A (ko) 2007-03-30

Family

ID=43656540

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060065290A KR20070035410A (ko) 2005-09-27 2006-07-12 멀티 채널 오디오 신호의 공간 정보 부호화/복호화 방법 및장치

Country Status (1)

Country Link
KR (1) KR20070035410A (ko)

Similar Documents

Publication Publication Date Title
KR102230727B1 (ko) 광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들을 사용하여 다채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법
US8090587B2 (en) Method and apparatus for encoding/decoding multi-channel audio signal
JP4934427B2 (ja) 音声信号復号化装置及び音声信号符号化装置
KR101434198B1 (ko) 신호 복호화 방법
KR101139880B1 (ko) 주파수 영역 위너 필터링을 사용한 공간 오디오 코딩을 위한 시간적 엔벨로프 정형화
KR100755471B1 (ko) 가상음원위치정보에 기반한 채널간 크기 차이 양자화 및역양자화 방법
EP1905034A1 (en) Virtual source location information based channel level difference quantization and dequantization method
KR101837686B1 (ko) 공간적 오디오 객체 코딩에 오디오 정보를 적응시키기 위한 장치 및 방법
KR20060109298A (ko) 멀티채널 오디오 신호에 대한 서브밴드별 공간 정보의적응적 양자화
KR20070035411A (ko) 멀티 채널 오디오 신호의 공간 정보 부호화/복호화 방법 및장치
JP4625709B2 (ja) ステレオオーディオ信号符号化装置
KR20070035410A (ko) 멀티 채널 오디오 신호의 공간 정보 부호화/복호화 방법 및장치
KR101434209B1 (ko) 오디오/스피치 신호 부호화장치
KR101434207B1 (ko) 오디오/스피치 신호 부호화방법
KR101434206B1 (ko) 신호 복호화 장치
KR100891665B1 (ko) 믹스 신호의 처리 방법 및 장치
KR20070075237A (ko) 멀티채널 오디오 신호의 인코딩 및 디코딩 방법
KR20070025903A (ko) 멀티채널 오디오 코딩에서 효과적인 레지듀얼 신호의파라미터 밴드 수 비트스트림 구성방법
KR20070037974A (ko) 멀티채널 오디오 코딩에서 효과적인 넌가이디드 코딩의파라미터 밴드 수 비트스트림 구성방법
KR20070041335A (ko) 오디오 신호의 인코딩 및 디코딩 방법

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E601 Decision to refuse application