KR20060077832A - 공간정보기반 오디오 부호화에서의 공간정보 추출 방법 - Google Patents

공간정보기반 오디오 부호화에서의 공간정보 추출 방법 Download PDF

Info

Publication number
KR20060077832A
KR20060077832A KR1020040117805A KR20040117805A KR20060077832A KR 20060077832 A KR20060077832 A KR 20060077832A KR 1020040117805 A KR1020040117805 A KR 1020040117805A KR 20040117805 A KR20040117805 A KR 20040117805A KR 20060077832 A KR20060077832 A KR 20060077832A
Authority
KR
South Korea
Prior art keywords
spatial information
subband
window function
signal
channel
Prior art date
Application number
KR1020040117805A
Other languages
English (en)
Other versions
KR100740807B1 (ko
Inventor
서정일
백승권
이병화
강경옥
홍진우
한민수
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020040117805A priority Critical patent/KR100740807B1/ko
Publication of KR20060077832A publication Critical patent/KR20060077832A/ko
Application granted granted Critical
Publication of KR100740807B1 publication Critical patent/KR100740807B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 공간정보기반 오디오 부호화(SAC: Spatial Audio Coding) 방식을 이용한 멀티채널 오디오 신호의 부호화 및 복호화하는 과정에서 부가정보로 사용되는 공간정보 (spatial cue)를 추출 및 적용하는 방법에 관한 것이다. 본 발명의 일특징에 따르면, 멀티채널 오디오 신호의 공간정보 오디오 부호화시에 각 서브밴드별 공간 정보를 추출하는 방법이 제공된다. 상기 공간정보 추출 방법은, 좌우 비대칭적이고 동일한 최대치를 지니며 이웃한 창함수와 중첩되는 부분에서 그 합이 일정 상수로 표현되도록 서브밴드별 창함수를 선정하는 단계와, 상기 선정된 창함수를 이용하여 공간정보를 추출하는 단계를 포함하는 것을 특징으로 한다. 일실시예에서, 상기 공간 정보는 채널간 에너지비(Inter-Channel Level Difference: ICLD)이다.
공간정보 기반 오디오 부호화(spatial audio coding:SAC), ICLD(Inter Channel Level Difference)

Description

공간정보기반 오디오 부호화에서의 공간정보 추출 방법{Method for obtaining spatial cues in Spatial Audio Coding}
도 1은 본 발명이 적용되는 일반적인 SAC 코딩 시스템의 구성을 개략적으로 도시한 블록도이다.
도 2는 본 발명에 따라 공간 정보의 추출 및 적용에 이용되는 창 함수의 일실시예를 도시한다.
본 발명은 공간정보기반 오디오 부호화(Spatial Audio Coding: SAC) 방법에 관한 것으로, 구체적으로는 공간정보기반 오디오 부호화시에 이용되는 공간 정보 추출 방법에 관한 것이다.
최근에 소개된 SAC 기술은 멀티채널 신호나 여러 독립된 신호를 다운믹스된 모노 또는 스테레오 신호와 공간정보로 표현 전송 및 복원하는 기술로서, 낮은 비트율에서도 고품질의 멀티채널 신호를 전송할 수 있는 기술이다. SAC 기술의 핵심은 멀티채널 신호를 서브밴드별로 분석하여 각 밴드별 공간정보를 추정하고 이것과 다운믹스된 신호로부터 다채널 원 신호를 복원한다는 것이다. 따라서, 공간정보는 원래 신호를 복원하는데 중요한 요소로서, SAC의 재생 오디오 신호의 음질을 좌우하는 큰 요인이 된다. 대표적인 SAC 기술로서, 바이노럴 큐 코딩(Binaural Cue Coding: BCC)이 최근에 소개되었으며, 이는 채널간 에너지비(Inter-Channel Level Difference: ICLD), 채널간 시간 지연(Inter Channel Time Difference: ICTD) 및 채널간 코히런스(Inter Channel Coherence: ICC) 및 가상음원 위치정보(Virtual Source Location Information)를 공간정보로 이용한다. ICLD는 원 신호의 주파수 정보를 복원하는데 가장 중요한 공간정보이다. 각 공간 정보는 다운믹스된 신호의 서브밴드별로 적용하게 되는데, 각 서브밴드마다 각각 하나의 공간정보가 대표적으로 적용됨에 따라 밴드 내 혹은 밴드 경계에서 주파수 왜곡이 발생하게 된다. 따라서, 이러한 왜곡현상을 방지하기 위한 공간정보의 평탄화(smoothing)가 필요하다.
따라서, 본 발명은 공간정보기반 오디오 부호화 방식에서 공간 정보를 추출 및 적용시에, 창 함수를 이용한 공간정보의 평탄화를 제공함으로써 복원되는 신호의 주파수 왜곡 및 불연속성을 최소화하는 것을 목적으로 한다.
상기의 목적을 달성하기 위하여, 본 발명의 일특징에 따르면, 멀티채널 오디오 신호의 공간정보 오디오 부호화시에 각 서브밴드별 공간 정보를 추출하는 방법이 제공된다. 상기 공간정보 추출 방법은, 좌우 비대칭적이고 동일한 최대치를 지니며 이웃한 창함수와 중첩되는 부분에서 그 합이 일정 상수로 표현되도록 서브밴드별 창함수를 선정하는 단계와, 상기 선정된 창함수를 이용하여 공간정보를 추출 하는 단계를 포함하는 것을 특징으로 한다. 일실시예에서, 상기 공간 정보는 채널간 에너지비(Inter-Channel Level Difference: ICLD), 채널간 시간 지연(Inter Channel Time Difference: ICTD) 및 채널간 코히런스(Inter Channel Coherence: ICC) 및 가상음원 위치정보(Virtual Source Location Information)를 포함한다.
본 발명의 또 다른 특징에 따르면, 전술한 공간 정보 추출 방법을 수행하여 추출된 공간 정보를 이용하여 다운믹스 신호로부터 원래의 멀티채널 신호를 복원하는 방법이 제공된다. 상기 복원 방법은, 상기 공간 정보를 이용하여 각 채널 신호의 서브밴드별 이득값을 구하는 단계와, 상기 이득값을 상기 다운믹스 신호에 적용하여 서브밴드별 각 채널 신호를 복원하는 단계를 포함한다.
이하에서는 본 발명을 첨부된 도면에 도시된 실시예들과 관련하여 예시적으로 상세히 설명하겠다. 그러나, 이하의 상세한 설명은 단지 예시적인 목적으로 제공되는 것이며 본 발명의 개념을 임의의 특정된 물리적 구성에 한정하는 것으로 해석되어서는 안 될 것이다.
도 1은 본 발명이 적용되는 SAC 코딩 시스템의 구성을 개략적으로 도시한 블록도이다. 도 1에 도시된 바와 같이, SAC 부호화기(110)측의 다운믹스부(110)는 입력된 멀티채널 신호들을 다운믹스된 (모노/스테레오) 신호로 변환하고, 분석부(120)는 입력된 멀티채널 신호들로부터 서브밴드별 공간정보를 추출한다. 다운믹스된 신호 및 공간 정보를 수신하는 SAC 복호화기(120)측의 합성부(121)는 수신된 다 운믹스 신호와 공간정보를 이용하여 멀티채널 신호를 각 서브밴드 별로 합성 및 재생한다.
구체적으로, 분석부(120)는 공간 정보를 추출하는 과정에서 본 발명에서 제안하는 서브밴드별 창함수(window function)를 이용한다. 도 2는 본 발명에 따라 공간 정보의 추출 및 적용에 이용되는 창 함수(Hb[k], 여기서, b는 서브밴드 인덱스를 k는 주파수 빈 인덱스를 나타냄)의 일실시예를 도시한다. 도시된 창 함수는 삼각창 함수의 일예이다. 본 발명에 따라 공간정보 추출에 이용되는 창함수의 조건은 좌우 비대칭적이고 이웃한 창함수와 중첩(overlap)되는 구간에서 그 합이 상수가 되며 각각의 창함수의 최대치(hi)가 동일하도록 선정된다. 각 창 함수의 최대치 fi는 각 서브밴드의 중간지점으로 선정한다. 예를 들어, 도 2에서와 같이 임의의 인접한 서브밴드 b와 b+1의 경계를 Ab, Ab+1 라고 정의할 때 fi는 수학식 1과 같이 표현한다.
Figure 112004063094707-PAT00001
여기서, Ab는 서브밴드 b의 경계를 나타낸다.
공간정보 추출에 적용되는 창함수가 삼각 창함수일 경우에, Hb[k](0≤k≤513)는 수학식 2로부터 구할 수 있다.
Figure 112004063094707-PAT00002
부호화기의 분석부(112)는 상기 수학식 2를 통해 구한 창함수(Hb[k])를 이용하여 공간정보인 ICLD값(ΔLc,b)을 하기 수학식에 따라 추출할 수 있다. 본 발명에 따라 선정된 창함수를 이용하여 추출된 ICLD는 이웃한 서브밴드와 중첩 추정되어 평탄화됨으로써 주파수 왜곡 및 불연속성을 최소화할 수 있다.
Figure 112004063094707-PAT00003
Figure 112004063094707-PAT00004
여기서, 서브밴드의 평균에너지 Pc,b(1≤c≤C: 총 채널수)는 하기 수학식 4로부터 구하고, ref는 기준 채널 인덱스를 나타낸다.
Figure 112004063094707-PAT00005
여기서, Sc[k]는 각 채널 신호의 DFT 값이다.
한편, 복호화기의 합성부(121)는 상기 분석부(112)로부터 전송된 ICLD 정보를 이용하여 각 채널의 서브밴드별로 이득(gain)을 구하고 이를 다운믹스된 신호에 적용함으로써 각 채널 신호를 복원한다. ICLD로부터 구한 각 채널의 이득값을 Fc,b라 할 때, 수학식 5로부터 서브밴드별 각 채널 신호를 복원할 수 있다.
Figure 112004063094707-PAT00006
여기서
Figure 112004063094707-PAT00007
는 c채널의 주파수 영역 신호이다.
본 발명에 따라 창함수를 이용하여 공간정보를 추출함으로써, 재생된 오디오 신호의 주파수 왜곡을 최소화시키고 서브밴드 경계의 불연속성 특징을 완화하여 보다 좋은 음질의 오디오 재생 신호를 얻을 수 있다. 본 발명을 통하여 SAC에 사용되는 공간정보 정보의 신뢰도를 높임으로써 보다 나은 음질을 기대할 수 있으며 이는 SAC 기술의 상용화를 앞당길 수 있을 것이다.

Claims (5)

  1. 멀티채널 오디오 신호의 공간정보 오디오 부호화시에 각 서브밴드별 공간 정보를 추출하는 방법에 있어서,
    좌우 비대칭적이고 동일한 최대치를 지니며 이웃한 창함수와 중첩되는 부분에서 그 합이 일정 상수로 표현되도록 서브밴드별 창함수를 선정하는 단계와,
    상기 선정된 창함수를 이용하여 공간정보를 추출하는 단계
    를 포함하는 것을 특징으로 하는 공간정보 추출 방법.
  2. 제1항에 있어서, 상기 공간 정보는, 채널간 에너지비(Inter-Channel Level Difference: ICLD, 채널간 지연시간(Inter-Channel Time Difference: ICTD)이나, 채널간 코히런스(Inter-Channel Coherence: ICC) 및 가상음원 위치정보(Virtual Source Location Information)를 포함하는 그룹으로부터 선택되는 것을 특징으로 하는 공간정보 추출 방법.
  3. 제1항에 있어서, 상기 창함수는 하기 수학식 6에 근거하여 선정되는 것을 특징으로 하는 공간정보 추출방법.
    Figure 112004063094707-PAT00008
    여기서, b는 서브밴드 인덱스, k는 빈 인덱스, fb는 서브밴드 b에 적용될 창함수의 최대치를 나타냄.
  4. 제3항에 있어서, 상기 공간정보를 추출하는 단계는 하기 수학식 7에 근거하여 이루어지는 공간정보 추출방법.
    Figure 112004063094707-PAT00009
    Figure 112004063094707-PAT00010
    여기서, Pc,b(1≤c≤C: 총 채널수)는
    Figure 112004063094707-PAT00011
    (Sc[k]는 각 채널 신호의 DFT 값임)에 의해 계산되고, ref는 기준채널을 나타냄.
  5. 제1항 내지 제4항중 어느 하나의 항에 따른 방법을 수행하여 추출된 공간 정보를 이용하여 다운믹스 신호로부터 원래의 멀티채널 신호를 복원하는 방법에 있어서,
    상기 공간 정보를 이용하여 각 채널 신호의 서브밴드별 이득값을 구하는 단계와,
    상기 이득값을 상기 다운믹스 신호에 적용하여 서브밴드별 각 채널 신호를 복원하는 단계를 포함하고, 상기 복원 단계는 하기 수학식 8에 따라 이루어지는 것을 특징으로 하는 멀티채널 신호 복원방법.
    Figure 112004063094707-PAT00012
    여기서,
    Figure 112004063094707-PAT00013
    는 c채널의 주파수 영역 신호임.
KR1020040117805A 2004-12-31 2004-12-31 공간정보기반 오디오 부호화에서의 공간정보 추출 방법 KR100740807B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020040117805A KR100740807B1 (ko) 2004-12-31 2004-12-31 공간정보기반 오디오 부호화에서의 공간정보 추출 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040117805A KR100740807B1 (ko) 2004-12-31 2004-12-31 공간정보기반 오디오 부호화에서의 공간정보 추출 방법

Publications (2)

Publication Number Publication Date
KR20060077832A true KR20060077832A (ko) 2006-07-05
KR100740807B1 KR100740807B1 (ko) 2007-07-19

Family

ID=37169832

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040117805A KR100740807B1 (ko) 2004-12-31 2004-12-31 공간정보기반 오디오 부호화에서의 공간정보 추출 방법

Country Status (1)

Country Link
KR (1) KR100740807B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101422745B1 (ko) * 2007-03-30 2014-07-24 한국전자통신연구원 다채널로 구성된 다객체 오디오 신호의 인코딩 및 디코딩장치 및 방법
KR101434834B1 (ko) * 2006-10-18 2014-09-02 삼성전자주식회사 다채널 오디오 신호의 부호화/복호화 방법 및 장치
US8977557B2 (en) 2006-10-18 2015-03-10 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding multichannel audio signals

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
DE102004043521A1 (de) 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101434834B1 (ko) * 2006-10-18 2014-09-02 삼성전자주식회사 다채널 오디오 신호의 부호화/복호화 방법 및 장치
US8977557B2 (en) 2006-10-18 2015-03-10 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding multichannel audio signals
US9570082B2 (en) 2006-10-18 2017-02-14 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding multichannel audio signals
KR101422745B1 (ko) * 2007-03-30 2014-07-24 한국전자통신연구원 다채널로 구성된 다객체 오디오 신호의 인코딩 및 디코딩장치 및 방법

Also Published As

Publication number Publication date
KR100740807B1 (ko) 2007-07-19

Similar Documents

Publication Publication Date Title
US8355921B2 (en) Method, apparatus and computer program product for providing improved audio processing
JP5485909B2 (ja) オーディオ信号処理方法及び装置
CN102089807B (zh) 音频编码器、音频解码器、编码及解码方法
RU2705427C1 (ru) Способ кодирования многоканального сигнала и кодировщик
KR100946688B1 (ko) 멀티 채널 오디오 디코더, 멀티 채널 인코더, 오디오 신호 처리 방법 및 상기 처리 방법을 수행하는 프로그램을 기록한 기록매체
KR101546744B1 (ko) 다양한 채널로 구성된 다객체 오디오 신호의 트랜스코딩 장치
US7542896B2 (en) Audio coding/decoding with spatial parameters and non-uniform segmentation for transients
KR100936498B1 (ko) 스테레오 호환성의 멀티채널 오디오 코딩
JP3878952B2 (ja) オーディオ信号コーディング中にノイズ置換を信号で知らせる方法
KR100852223B1 (ko) 멀티채널 오디오 신호 시각화 장치 및 방법
EP1735779B1 (en) Encoder apparatus, decoder apparatus, methods thereof and associated audio system
US7813513B2 (en) Multi-channel encoder
TWI404429B (zh) 用於將多頻道音訊信號編碼/解碼之方法與裝置
US20080208600A1 (en) Apparatus for Encoding and Decoding Audio Signal and Method Thereof
US20080201152A1 (en) Apparatus for Encoding and Decoding Audio Signal and Method Thereof
EP2395504B1 (en) Stereo encoding method and apparatus
US20070168183A1 (en) Audio distribution system, an audio encoder, an audio decoder and methods of operation therefore
JPWO2005081229A1 (ja) オーディオエンコーダ及びオーディオデコーダ
US20080249769A1 (en) Method and Apparatus for Determining Audio Spatial Quality
KR101837084B1 (ko) 신호 처리 방법, 그에 따른 엔코딩 장치, 디코딩 장치, 및 정보 저장 매체
WO2006003813A1 (ja) オーディオ符号化及び復号化装置
EP1175030B1 (en) Method and system for multichannel perceptual audio coding using the cascaded discrete cosine transform or modified discrete cosine transform
KR100718132B1 (ko) 오디오 신호의 비트스트림 생성 방법 및 장치, 그를 이용한부호화/복호화 방법 및 장치
KR100917845B1 (ko) 상호상관을 이용한 다채널 오디오 신호 복호화 장치 및 그방법
JP2004199075A (ja) ビット率調節可能なステレオオーディオ符号化・復号化方法及びその装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130624

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140624

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150527

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160620

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20180702

Year of fee payment: 12