KR100663729B1

KR100663729B1 - 가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치

Info

Publication number: KR100663729B1
Application number: KR1020050061425A
Authority: KR
Inventors: 서정일; 문한길; 백승권; 강경옥; 장인선; 성굉모; 한민수; 홍진우
Original assignee: 한국전자통신연구원; 재단법인서울대학교산학협력재단
Priority date: 2004-07-09
Filing date: 2005-07-07
Publication date: 2007-01-02
Also published as: US20080167880A1; CN101002261B; CN101002261A; US7783495B2; DE602005023738D1; ATE482451T1; KR20060049941A

Abstract

본 발명은 가상 음원 위치 정보(Virtual Sound Location Information: VSLI)를 이용하여 멀티채널 오디오 신호를 효율적으로 부호화/복호화하는 방법 및 장치에 관한 것이다. 본 발명에 따른 멀티채널 오디오 신호 부호화 장치는, 멀티채널 오디오 신호를 프레임화된 오디오 신호로 변환하기 위한 프레임 변환 수단과, 상기 프레임화된 오디오 신호를 다운믹싱하기 위한 수단과, 상기 다운믹스된 오디오 신호를 부호화하기 위한 수단과, 상기 프레임화된 오디오 신호로부터 음원위치정보를 추정하기 위한 음원위치정보 추정 수단과, 상기 추정된 음원위치정보를 양자화하기 위한 수단과, 상기 부호화된 다운믹스 오디오 신호와 상기 양자화된 음원위치정보를 합산하여 최종적으로 부호화된 멀티채널 오디오 신호를 생성하기 위한 수단을 포함한다.

멀티채널 오디오 신호 부호화, 복호화, 가상음원위치정보(virtual source location information: VSLI)

Description

가상 음원 위치 정보를 이용한 멀티채널 오디오 신호 부호화 및 복호화 방법 및 장치{Method and apparatus for encoding and decoding multi-channel audio signal using virtual source location information}

도 1은 본 발명의 일실시예에 따른 멀티채널 오디오 신호 부호화 장치의 구성을 나타낸 블록도이다.

도 2는 ERB 필터뱅크를 이용한 시간/주파수 격자 개념도를 나타낸다.

도 3은 다운믹스된 멀티채널 오디오 신호가 모노 신호인 경우에 본 발명에 따라 추정되는 음원 위치 벡터를 개념적으로 나타낸다.

도 4는 다운믹스된 멀티채널 오디오 신호가 스테레오 신호인 경우에 본 발명에 따라 추정되는 음원 위치 벡터를 개념적으로 나타낸다.

도 5는 본 발명의 일실시예에 따른 가상음원 위치정보 추출 과정을 개념적으로 도시한다.

도 6은 5.1채널 스피커 배치를 이용한 경우에 채널별 에너지 벡터를 표현한 예를 도시한다.

도 7은 본 발명에 따라 좌측 반면 음원 위치 벡터(LHV) 및 우측 반면 음원 위치 벡터(RHV)를 추정하는 과정을 개념적으로 도시한다.

도 8은 본 발명에 따라 좌측 보조 위치 벡터(LSV) 및 우측 보조 위치 벡터(RSV)를 추정하는 과정을 개념적으로 도시한다.

도 9는 본 발명에 따른 전체 위치 벡터(GV) 추정과정을 개념적으로 도시한다.

도 10은 본 발명에 따라 추정된 위치 벡터들을 표현하는 방위각들을 도시한다.

도 11은 본 발명에 따라 부호화된 멀티채널 오디오 신호를 복호화하는 멀티채널 오디오 신호 복호화 장치의 일실시예를 도시한 블록도이다.

도 12는 본 발명의 일실시예에 따라 가상음원 위치정보(VSLI)를 이용하여 다운믹스 오디오 신호의 채널별 이득을 계산하는 과정을 블록도로 나타낸다.

본 발명은 멀티채널 오디오 신호의 부호화/복호화를 수행하는 방법 및 장치에 관한 것으로서, 보다 상세하게는 가상 음원 위치 정보(Virtual Sound Location Information: VSLI)를 이용하여 멀티채널 오디오 신호를 효율적으로 부호화/복호화하는 방법 및 장치에 관한 것이다.

일반적으로, 멀티채널 오디오 신호를 압축하기 위한 연구는 1990년대 중반 MPEG을 중심으로 이루어졌다. DVD를 중심으로 한 멀티채널 콘텐츠의 폭발적인 증 가, 사용자들의 멀티채널에 대한 욕구 증가 및 방송 통신 환경 등을 통한 멀티채널 오디오 서비스의 필요성 증가가 멀티채널 오디오 압축 기술에 대한 연구를 더욱 촉진시켰다.

이러한 이유로 MPEG에서는 MPEG-2 BC(Backward Compatability), MPEG-2 AAC(Advanced Audio Coding), MPEG-4 AAC 등의 멀티채널 오디오 압축 기술을 표준화하였으며, Dolby사의 AC-3, DTS(Digital Theater System) 등의 멀티채널 오디오 압축기술이 DVD와 디지털 방송을 위한 오디오 압축기술로 채택되는 등 상업적으로 큰 실효를 거두고 있다.

최근에는 BCC(Binaural Cue Coding)로 대표되는 혁신적인 멀티채널 오디오 신호 압축방식에 대한 연구가 활발히 진행되고 있는데(C. Faller, 2002 & 2003; F.Baumgarte, 2001 & 2002), 이를 통해 더욱 현실감있는 오디오 데이터의 전달을 꽤하고 있다.

BCC는 음향공간에서 사람이 느낄 수 있는 공간감이 주로 양귀효과(Binaural Effect) 때문인 것에 착안하여 멀티채널 오디오 신호를 효과적으로 압축하는 기술로서, 사람은 양귀에 도달하는 소리의 크기 차이(Interaural Level Difference)와 시간 지연차이(Interaural Time Difference)를 이용하여 특정 음원의 위치를 인지한다는 점을 이용한다. 따라서, BCC는 멀티채널 오디오 신호를 모노 또는 스테레오 신호로 다운믹스하고, 채널에 대한 정보는 채널간의 신호 크기차이(Inter-channel Level Difference: ICLD) 및 시간지연(Inter-channel Time Difference: ICTD) 등의 바이노럴 인지 파라미터(Binaural Cue Parameter)들로 표현하는 것이 통상적이다.

그러나, 이러한 ICLD 및 ICTD와 같은 채널 정보들을 양자화하기 위해서는 많은 량의 비트를 필요로 하며 이에 따라 전송시에도 넓은 대역폭을 필요로 하는 문제점이 있다.

따라서, 본 발명은 전술한 문제점을 해결하기 위해 고안된 것으로서, 본 발명의 목적은 멀티채널 오디오 신호를 다운믹스된 오디오 신호와 적은 양의 부가정보만을 이용하여 부호화/복호화하는 방법을 제공함으로써 수신측의 멀티채널 환경에서 실재감 있는 오디오 신호가 재생될 수 있도록 하는데 있다.

본 발명의 다른 목적은 멀티채널 오디오 신호의 채널별 음원을 분석하고 적은 양의 가상 음원 위치 정보를 추출하여 다운믹스된 오디오 신호와 함께 전송함으로써 전송 효율을 극대화시키는데 있다.

전술한 목적 달성을 위해, 본 발명의 일측면에 따른 멀티채널 오디오 부호화 장치는, 멀티채널 오디오 신호를 프레임화된 오디오 신호로 변환하기 위한 프레임 변환 수단과, 상기 프레임화된 오디오 신호를 다운믹싱하기 위한 수단과, 상기 다운믹스된 오디오 신호를 부호화하기 위한 부호화 수단과, 상기 프레임화된 오디오 신호로부터 음원위치정보를 추정하기 위한 음원위치정보 추정 수단과, 상기 추정된 음원위치정보를 양자화하기 위한 수단과, 상기 부호화된 다운믹스 오디오 신호와 상기 양자화된 음원위치정보를 합산하여 최종적으로 부호화된 멀티채널 오디오 신 호를 생성하기 위한 수단을 포함한다. 상기 음원위치정보 추정 수단은, 상기 프레임화된 오디오 신호를 스펙트럼값으로 변환하기 위한 시간/주파수 변환 수단과, 상기 스펙트럼값을 밴드별로 분리하기 위한 분리 수단과, 상기 밴드별로 분리된 스펙트럼값들로부터 채널별 에너지벡터를 검출하기 위한 에너지벡터 검출 수단과, 상기 에너지벡터 검출 수단에 의해 검출된 채널별 에너지 벡터를 이용하여 가상 음원 위치 벡터(VSLI)를 추정하기 위한 VSLI 추정수단을 포함한다.

본 발명의 제2 측면에 따른 멀티채널 오디오 신호 복호화 장치는, 멀티채널 오디오 신호를 수신하기 위한 수단과, 상기 수신된 멀티채널 오디오 신호로부터 부호화된 다운믹스 오디오 신호와 양자화된 가상음원 위치벡터 신호를 각각 분리하기 위한 신호 분배 수단과, 상기 부호화된 다운믹스 오디오 신호를 복호화하기 위한 수단과, 상기 복호화된 다운믹스 오디오 신호를 주파수축 신호로 변환하기 위한 수단과, 상기 양자화된 가상음원 위치벡터 신호를 분석하여 밴드별 가상 음원 위치 벡터 정보를 추출하기 위한 수단과, 상기 밴드별 가상음원 위치벡터 정보로부터 밴드별 채널 이득값을 계산하기 위한 수단과, 상기 주파수축으로 변환된 다운믹스 신호와 상기 계산된 밴드별 채널 이득값을 이용하여 멀티채널 오디오 신호 스펙트럼을 합성하기 위한 수단과, 상기 합성된 멀티채널 스펙트럼으로부터 멀티채널 오디오 신호를 산출하기 위한 수단을 포함한다.

본 발명의 제3 측면에 따른 멀티채널 오디오 신호 부호화 방법은, 멀티채널 오디오 신호를 프레임화된 오디오 신호로 변환하는 단계와, 상기 프레임화된 오디오 신호를 다운믹싱하는 단계와, 상기 다운믹스된 오디오 신호를 부호화하는 단계 와, 상기 프레임화된 오디오 신호로부터 음원위치정보를 추정하는 단계와, 상기 추정된 음원위치정보를 양자화하는 단계와, 상기 부호화된 다운믹스 오디오 신호와 상기 양자화된 음원위치정보를 합산하여 최종적으로 부호화된 멀티채널 오디오 신호를 생성하는 단계를 포함한다.

본 발명의 제4 측면에 따른 멀티채널 오디오 신호 복호화 방법은, 멀티채널 오디오 신호를 수신하는 단계와, 상기 수신된 멀티채널 오디오 신호로부터 부호화된 다운믹스 오디오 신호와 양자화된 가상음원 위치벡터 신호를 각각 분리하는 단계와, 상기 부호화된 다운믹스 오디오 신호를 복호화하는 단계와, 상기 복호화된 다운믹스 오디오 신호를 주파수축 신호로 변환하는 단계와, 상기 양자화된 가상음원 위치벡터 신호를 분석하여 밴드별 가상 음원 위치 벡터 정보를 추출하는 단계와, 상기 밴드별 가상음원 위치벡터 정보로부터 밴드별 채널 이득값을 계산하는 단계와, 상기 주파수축으로 변환된 다운믹스 신호와 상기 계산된 밴드별 채널 이득값을 이용하여 멀티채널 오디오 신호 스펙트럼을 합성하는 단계와, 상기 합성된 멀티채널 스펙트럼으로부터 멀티채널 오디오 신호를 산출하는 단계를 포함한다.

이하에서는 본 발명을 첨부된 도면에 도시된 실시예들과 관련하여 예시적으로 상세히 설명하겠다. 그러나, 이하의 상세한 설명은 단지 예시적인 목적으로 제공되는 것이며 본 발명의 개념을 임의의 특정된 물리적 구성에 한정하는 것으로 해석되어서는 안 될 것이다.

도 1은 본 발명의 일실시예에 따른 멀티채널 오디오 부호화 장치의 구성을 나타낸 블록도이다. 도시된 바와 같이, 멀티채널 오디오 부호화 장치는, 프레임 변환기(100), 다운믹서(110), AAC(Advanced Audio Coding) 부호화기(120), 합산기(130), 양자화기(140) 및 가상음원위치정보(VLSI) 검출기(150)를 포함한다.

프레임 변환기(100)는 멀티채널 오디오 신호의 블록별 처리를 위하여 Sine Window등과 같은 창함수(Window Function)를 이용하여 멀티채널 오디오 신호를 프레임화한다. 다운믹서(110)는 프레임 변환기(100)로부터 출력된 프레임화된 멀티채널 오디오 신호를 모노신호 또는 스테레오 신호로 다운믹스된 오디오 신호를 생성한다. AAC 부호화기(120)는 상기 다운믹서(110)로부터 출력된 다운믹스 오디오 신호를 압축하여 AAC 부호화 신호를 생성한 후에 합산기(130)로 전달한다.

한편, 가상음원 위치정보(VSLI) 추출기(150)는 프레임 변환기(100)로부터 프레임화된 오디오 신호로부터 가상음원위치정보를 추출하는 기능을 수행한다. 이를 위해, 가상음원 위치정보(VSLI) 추출기(150)는 시간/주파수 변환부(151), ERB(Equivalent Rectangular Bandwidth) 필터뱅크(152), 에너지벡터 검출부(153) 및 위치 추정부(154)를 세부적으로 포함한다.

시간/주파수 변환부(151)는 프레임화된 오디오 신호를 주파수축 신호로 변환하기 위해 복수의 FFT(Fast Fourier Transform)로 이루어지며, ERB 필터뱅크(152)는 시간/주파수 변환부(151)에 의해 변환된 주파수축 신호(스펙트럼값)를 밴드별(예, 20개)로 분리한다. 도 2는 ERB 필터뱅크를 이용한 시간/주파수 격자 개념도를 도시한다.

에너지벡터 검출부(153)는 ERB 필터뱅크(152)에 의해 밴드별로 분리된 스펙트럼값들로부터 채널별 에너지벡터를 검출한다.

위치 추정부(154)는 에너지벡터 검출부(153)에 의해 검출된 채널별 에너지 벡터를 이용하여 가상 음원 위치 벡터(VSLI)를 추정한다. 일 실시예에서, VSLI는 중앙 채널과 이루는 방위각으로 표현된다. 후술하는 바와 같이, 위치 추정부(154)에 의해 추정되는 음원 위치 벡터는 다운믹스 신호의 종류(즉, 모노 또는 스테레오)에 따라 달라질 수 있다.

도 3은 다운믹스된 멀티채널 오디오 신호가 모노 신호인 경우에 본 발명에 따라 추정되는 음원 위치 벡터의 유형을 개념적으로 나타낸다. 도시된 바와 같이, 다운믹스된 모노 신호로부터 추정되는 음원 위치 벡터는, 좌측 및 우측 반면 음원위치벡터(Left Half-plane vector: LHV, Right Half-plane vector: RHV), 좌측 및 우측 보조 음원위치 벡터(Left subsequent vector: LSV, Right Subsequent vector: RSV) 및 전체위치벡터(Global vector: GV)를 포함한다. 모노 신호인 경우에는 채널 이득이 좌측과 우측중 어느 쪽에 치우치는지 알 수 없으므로 전체 위치 벡터(GV)가 필요하다.

도 4는 다운믹스된 멀티채널 오디오 신호가 스테레오 신호인 경우에 본 발명에 따라 추정되는 음원 위치 벡터의 유형을 개념적으로 나타낸다. 도시된 바와 같이, 다운믹스된 스테레오 신호로부터 추정되는 음원 위치 벡터는, 전체위치벡터(GV)를 제외한, 좌측/우측 반면 음원위치벡터(LHV, RHV) 및 좌측/우측 보조음원위치 벡터(LSV, RSV)를 포함한다.

도 1을 다시 참조하면, 양자화기(140)는 가상음원 위치정보(VSLI) 추출기(150)로부터 출력된 가상음원 위치벡터(방위각)들을 양자화한 후에 VSLI 부호화 신 호로 생성하여 합산기(130)에 전달한다. 합산기(multiplexer, 130)는 AAC 부호화기(120)기로부터 출력된 AAC 부호화 신호와 양자화기(140)로부터 출력된 VSLI 부호화 신호를 다중화(multiplexing)하여 부호화된 멀티채널 오디오 신호(즉, AAC+VSLI 부호화 신호)를 생성한다.

도 5는 본 발명의 일실시예에 따른 가상음원 위치정보 추정 과정을 개념적으로 도시한다. 도시된 바와 같이, 중앙(C), 전방 좌측(L), 전방 우측(R), 후방 좌측(LS) 및 후방 우측(RS)의 5채널 신호로 구성된 멀티채널 오디오 신호가 입력되는 경우에, 상기 신호들은 복수개의 FFT를 통해 주파수축 신호로 변환되고, ERB 필터뱅크를 통해 N개의 주파수 밴드(BAND 1, BAND 2, ..., BAND N)로 분리된다.

다음, 밴드별로 분리된 5채널의 파워(예, C1 PWR, L1 PWR, R1 PWR, LS1 PWR, RS1 PWR)로부터 채널별 에너지 벡터가 검출된다. 인접 채널 사이의 신호 크기 값을 조정하여 음상을 정위하는 방식(Constant Power Panning: CPP) 방식을 이용하여 검출된 채널별 에너지 벡터로부터 음원 위치 벡터가 추정되고, 중앙 채널과 이루는 방위각이 추정된다.

도 6 내지 도 9는 본 발명에 따른 가상음원 위치 정보 추정 과정을 구체적으로 도시한 도면들이다. 구체적으로, 도 6에 도시된 바와 같이, 에너지 벡터 추정부에 의해 추정된 채널별 에너지 벡터가, 중앙 채널 에너지벡터(C), 전방 좌측 채널 에너지 벡터(L), 후방 좌측 채널 에너지 벡터(LS), 전방 우측 채널 에너지 벡터(R) 및 후방 우측 채널 에너지 벡터(RS)라 가정한다. 이러한 경우에, 전방 좌측 채널 에너지 벡터(L)와 후방 좌측 채널 에너지 벡터(LS)를 이용하여 좌측 반면 음원 위치벡터(LHV)를 추정하고, 전방 우측 채널 에너지 벡터(R)와 후방 우측 채널 에너지 벡터(RS)를 이용하여 우측 반면 음원 위치벡터(RHV)를 추정한다(도 7 참조).

이와 같이 계산된 좌/우측 반면 음원 위치벡터(LHV, RHV)와 중앙 채널 에너지 벡터(C)를 이용하여 좌우측 보조 음원 위치 벡터(LSV, RSV)를 추정할 수 있다(도 8 참조).

다운믹스된 신호가 스테레오 신호인 경우에는 좌우측 반면 음원 위치벡터(LHV, RHV) 및 좌우측 보조 음원 위치벡터(LSV, RSV)만으로 멀티채널을 구성하는 각 채널별 이득값을 계산할 수 있지만, 모노 신호인 경우에는 채널 이득이 좌측과 우측중 어느 쪽에 치우치는지 알 수 없으므로 전체 위치 벡터(GV)가 필요하다. 전체 위치 벡터(GV)는 좌우측 보조 음원 위치벡터(LSV, RSV)를 이용하여 계산할 수 있다(도 9 참조). 한편, 전체위치벡터(GV)의 크기는 다운믹스 오디오 신호 크기로 설정된다.

전술한 방식에 따라 추출된 음원 위치벡터는 중앙 채널과 이루는 방위각으로 표현될 수 있다. 도 10은 도 6 내지 9에 도시된 과정으로 추출된 음원 위치벡터의 방위각들을 도시한 것이다. 도시된 바와 같이, 좌측반면각(Left Half-plane vector angle: LHa), 우측반면각(Right Half-plane vector angle: RHa), 좌측보조평면각(Left Subsequent vector angle: LSa) 및 우측보조평면각(Right Subsequent vector angle: RSa)과, 다운믹스된 오디오 신호가 모노 신호인 경우에는 전체위치 각(Global vector angle: Ga)을 더 포함하는 5개의 방위각으로 가상음원 위치정보가 표현된다. 각 값들은 한정된 표현영역(dynamic range)을 갖기 때문에, 기존의 채널간의 신호크기 차(ICLD)보다 적은 비트로 양자화가 가능하다.

각각의 정보를 양자화하는 방법은 등간격으로 양자화하는 선형 양자화 방법과 비균등한 간격으로 양자화하는 비선형 양자화 방법이 있다.

일실시예에서, 각각의 정보에 대한 선형 양자화 방법은 하기의 수학식 1을 따른다.

여기서, θ는 양자화될 각의 정보이며 양자화 레벨 Q 에 의해 양자화 인덱스를 얻는다. i는 5개의 각에 대한 인덱스이고(Ga:i=1, RHa:i=2, LHa:i=3, LSa:i=4, RSa:i=5), b는 각 서브밴드에 대한 인덱스이다. Δθ_i,max는 각각이 표현될 수 있는 최대 변화 레벨로서, Δθ_1,max=180°, Δθ_2,max=Δθ_3,max=15°, Δθ_4,max=Δθ_5,max=55°로 정의된다. 즉, 앞서 언급한 바와 같이 각각의 정보는 그 최대 변화 구간이 한정되어 있으므로 양자화 수단에 있어서 보다 효율적이고 높은 분해능을 나타낼 수 있다.

일반적으로, RHa, LHa, LSa, RSa는 그 발생빈도에 대한 통계적 정보가 불확실하다. 그러나, 전체 위치각(Ga)의 경우, 중앙 스피커를 기준으로 그 발생빈도가 정규적 분포에 가깝게 발생한다. 즉, Ga의 경우, 중앙 스피커를 기준으로 변화하므로 그 발생분포의 평균 기대치가 0°로 가정할 수 있다. 따라서, Ga는 비선형 양자화를 통하여 양자화될 경우에 보다 효율적인 양자화 레벨을 얻을 수 있다.

대표적으로, 본 비선형 양자화 방법은 일반적인 μ-law방식을 따르며, μ값은 양자화 레벨의 분해능에 따라 결정될 수 있다. 예를 들어 분해능이 작을 경우 상대적으로 큰 μ값을 사용하고(15<μ≤255), 큰 분해능을 나타낼 경우보다 작은 μ값(0μ≤15)을 사용하여 비선형 양자화를 수행한다.

도 11은 본 발명에 따라 부호화된 멀티채널 오디오 신호를 복호화하는 멀티채널 오디오 신호 복호화 장치의 일실시예를 도시한 블록도이다. 도시된 바와 같이, 멀티채널 오디오 신호 복호화 장치는, 신호분배기(1110), AAC 복호화기(1120), 시간/주파수 변환기(1130), 역양자화기(1140), 밴드별 채널 이득 분배기(1150), 멀티채널 스펙트럼 합성기(1160) 및 주파수/시간 변환기(1170)를 포함한다.

신호분배기(1110)는, 부호화된 멀티채널 오디오 신호(즉, AAC+VSLI 부호화신호)를 AAC 부호화 신호와 VSLI부호화 신호로 각각 분리한다. AAC 복호화기(1120)는 신호분배기(1110)에 의해 분리된 AAC 부호화 신호를 다운믹스 신호(모노 또는 스테레오)로 변환한다. AAC 복호화기(1120)에 의해 변환된 다운믹스 신호는 모노 또는 스테레오 오디오 서비스를 제공할 수 있다. 시간/주파수 변환기(1130)는 다운믹스 신호를 주파수축 신호로 변환하여 멀티채널 스펙트럼 합성기(1160)에 전송한다.

한편, 역양자화기(1140)는 신호분배기(1110)로부터 분리된 부호화된 VSLI 신 호를 입력받아 밴드별 음원 위치 벡터 정보를 산출한다. 부호화 과정에서 전술한 바와 같이, VSLI 신호에는 밴드별 음원 위치 벡터를 표현한 방위각 정보(예, 모노 다운믹스 신호인 경우에, Ga, LHa, RHa, LSa, RSa)가 포함되어 있으며, 이로부터 음원 위치 벡터가 산출된다.

밴드별 채널 이득 분배기(1150)는 역양자화기(1140)에 의해 변환된 밴드별 VSLI 신호를 이용하여 각 채널당 분배되는 이득값을 계산하여 멀티채널 스펙트럼 합성기(1160)에 전송한다.

멀티채널 스펙트럼 합성기(1160)는 시간/주파수 변환기(1130)로부터 출력된 다운믹스 신호의 스펙트럼값을 ERB 필터뱅크를 이용하여 주파수 밴드별로 분리하고, 밴드별 채널 이득 분배기(1150)로부터 출력된 밴드별 채널 이득값을 이용하여 멀티채널 신호의 스펙트럼을 복구한다. 주파수/시간 변환기(1170)(예, IFFF)는 복구된 멀티채널 신호의 스펙트럼 값들을 시간축 신호로 변환하여 멀티채널 오디오 신호를 생성한다.

도 12는 본 발명의 일실시예에 따라 가상음원 위치정보(VSLI)를 이용하여 다운믹스 오디오 신호의 채널별 이득을 계산하는 과정을 블록도로 나타낸다. 상기 예는 다운믹스 오디오 신호가 모노 신호인 경우를 도시한 것으로서, 다운믹스 오디오 신호가 스테레오 신호인 경우에는 블록(1210)이 생략될 것이다.

먼저, 블록(1210)에서 전체위치 벡터(GV)의 크기인 모노 다운믹스 신호 크기와 GV의 각도(Ga)를 이용하여 LSV와 RSV 벡터 크기를 계산한다. 다음, LSV 벡터 크기와 각도(LSa)를 이용하여 중앙채널(C)의 제1 이득값과 LHV 벡터의 크기를 계산 하고(1220), RSV 벡터의 크기와 각도(RSa)를 이용하여 중앙채널(C)의 제2 이득값과 RHV 벡터 크기를 계산한다(1230). 중앙채널(C)의 이득은 상기 과정에서 계산된 제1 이득값 및 제2 이득값의 합으로 이루어진다(1240).

마지막으로, LHV 벡터의 크기와 각도(LHa)를 이용하여 전방 좌측 채널(L)과 후방 좌측 채널(LS)의 이득값을 계산하고(1250), RHV 벡터의 크기와 각도(RHa)를 이용하여 전방 우측 채널(R)과 후방 우측 채널(RS)의 이득값을 계산한다(1260). 전술한 과정에 따라 모든 채널의 이득값이 계산될 수 있다.

이상에서, 특정 실시예와 관련하여 본 발명을 설명하였으나, 본 발명은 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서, 여러 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.

본 발명에 따르면, 가상음원위치정보를 이용함으로써 멀티채널 오디오 신호를 보다 효율적으로 부호화/복호화할 수 있으며, 수신측의 멀티채널 환경에서 보다 실재감있는 오디오 신호로 재생될 수 있다.

Claims

멀티채널 오디오 신호를 프레임화된 오디오 신호로 변환하기 위한 프레임 변환 수단과,

상기 프레임화된 오디오 신호를 다운믹싱하기 위한 수단과,

상기 다운믹스된 오디오 신호를 부호화하기 위한 수단과,

상기 프레임화된 오디오 신호로부터 음원위치정보를 추정하기 위한 음원위치정보 추정 수단과,

상기 추정된 음원위치정보를 양자화하기 위한 수단과,

상기 부호화된 다운믹스 오디오 신호와 상기 양자화된 음원위치정보를 합산하여 최종적으로 부호화된 멀티채널 오디오 신호를 생성하기 위한 수단

을 포함하는 멀티채널 오디오 신호 부호화 장치.
제 1항에 있어서, 상기 다운믹싱 수단은 상기 프레임화된 오디오 신호를 모노 신호 및 스테레오 신호중 어느 하나의 신호로 다운믹싱하는 멀티채널 오디오 신호 부호화 장치.
제 2항에 있어서, 상기 다운믹싱 수단에 의해 다운믹스된 오디오 신호가 모노 신호인 경우에, 상기 음원위치정보 추정 수단은, 좌측 및 우측 반면 음원위치벡터(LHV, RHV), 좌측 및 우측 보조 음원위치 벡터(LSV, RSV) 및 전체위치벡터(GV)를 추정하는 멀티채널 오디오 신호 부호화 장치.
제 2항에 있어서, 상기 다운믹싱 수단에 의해 다운믹스된 오디오 신호가 스테레오 신호인 경우에, 상기 음원위치정보 추정 수단은, 좌측 및 우측 반면 음원위치벡터(LHV, RHV)와, 좌측 및 우측 보조 음원위치 벡터(LSV, RSV)를 추정하는 멀티채널 오디오 신호 부호화 장치.
제 1항에 있어서, 상기 음원위치정보 추정 수단은,

상기 프레임화된 오디오 신호를 스펙트럼값으로 변환하기 위한 시간/주파수 변환 수단과,

상기 스펙트럼값을 밴드별로 분리하기 위한 분리 수단과,

상기 밴드별로 분리된 스펙트럼값들로부터 채널별 에너지벡터를 검출하기 위한 에너지벡터 검출 수단과,

상기 에너지벡터 검출 수단에 의해 검출된 채널별 에너지 벡터를 이용하여 가상 음원 위치 벡터(VSLI)를 추정하기 위한 VSLI 추정수단

을 포함하는 멀티채널 오디오 신호 부호화 장치.
제 5항에 있어서, 상기 시간/주파수 변환 수단은 복수의 FFT(Fast Fourier Transform)를 이용하여 상기 프레임화된 오디오 신호를 스펙트럼값으로 변환하는 멀티채널 오디오 신호 부호화 장치.
제 5항에 있어서, 상기 분리 수단은 ERB(Equivalent Rectangular Bandwidth) 필터 뱅크를 이용하여 상기 스펙트럼값을 밴드별로 분리하는 멀티채널 오디오 신호 부호화 장치.
제 5항에 있어서, 상기 에너지벡터 검출 수단에 의해 검출된 채널별 에너지 벡터는, 중앙채널 에너지벡터(C), 전방 좌측 채널 에너지 벡터(L), 후방 좌측 채널 에너지 벡터(LS), 전방 우측 채널 에너지 벡터(R) 및 후방 우측 채널 에너지 벡터(RS)인 멀티채널 오디오 신호 부호화 장치.
제 5항에 있어서, 상기 가상음원 위치 벡터(VSLI) 정보는 중앙채널을 기준으로 한 방위각 정보로 표현되며, 상기 방위각 정보는 좌측반면각(LHa), 우측반면각(RHa), 좌측보조평면각(LSa) 및 우측보조평면각(RSa)을 포함하는 멀티채널 오디오 신호 부호화 장치.
제 9항에 있어서, 상기 다운믹스된 오디오 신호가 모노 신호인 경우에, 상기 방위각 정보는 전체위치각(Ga)을 더 포함하는 멀티채널 오디오 신호 부호화 장치.
멀티채널 오디오 신호를 수신하기 위한 수단과,

상기 수신된 멀티채널 오디오 신호로부터 부호화된 다운믹스 오디오 신호와 양자화된 가상음원 위치벡터 신호를 각각 분리하기 위한 신호 분배 수단과,

상기 부호화된 다운믹스 오디오 신호를 복호화하기 위한 수단;

상기 복호화된 다운믹스 오디오 신호를 주파수축 신호로 변환하기 위한 수단과

상기 양자화된 가상음원 위치벡터 신호로부터 밴드별 가상 음원 위치 벡터(VSLI) 정보를 추출하기 위한 VSLI 추출 수단과,

상기 추출된 밴드별 가상음원 위치벡터 정보를 이용하여 밴드별 채널 이득값을 계산하기 위한 채널 이득 계산 수단과,

상기 주파수축으로 변환된 다운믹스 신호와 상기 계산된 밴드별 채널 이득값을 이용하여 멀티채널 오디오 신호 스펙트럼을 합성하기 위한 수단과,

상기 합성된 멀티채널 스펙트럼으로부터 멀티채널 오디오 신호를 생성하기 위한 수단

을 포함하는 멀티채널 오디오 신호 복호화 장치.
제 11항에 있어서, 상기 VSLI 추출 수단은, 상기 양자화된 가상음원 위치벡터 신호로부터 밴드별 가상 음원 방위각 정보를 추출하고, 상기 추출된 방위각 정보로부터 가상 음원 위치 벡터를 구성하는 멀티채널 오디오 신호 복호화 장치.
제 12항에 있어서, 상기 가상 음원 방위각 정보는 밴드별 좌측 및 우측 반면각(LHa, RHa) 및 좌측 및 우측 보조 평면각(LSa, LHa) 정보를 포함하고, 상기 방위각 정보로부터 구성되는 가상 음원 위치 벡터는 좌측 및 우측 반면 음원 위치 벡터(LHV, RHV)와, 좌측 및 우측 보조 음원 위치 벡터(LSV, RSV)를 포함하는 멀티채널 오디오 신호 복호화 장치.
제 13항에 있어서, 상기 부호화된 다운믹스 오디오 신호가 모노 신호인 경우에, 상기 가상 음원 방위각 정보는 전체위치각(Ga) 정보를 더 포함하고, 상기 전체위치각(Ga) 정보로부터 전체 위치 벡터(GV)가 구성되는 멀티채널 오디오 신호 복호화 장치.
멀티채널 오디오 신호를 프레임화된 오디오 신호로 변환하는 단계와,

상기 프레임화된 오디오 신호를 다운믹싱하는 단계와,

상기 다운믹스된 오디오 신호를 부호화하는 단계와,

상기 프레임화된 오디오 신호로부터 음원위치정보를 추정하는 단계와,

상기 추정된 음원위치정보를 양자화하는 단계와,

상기 부호화된 다운믹스 오디오 신호와 상기 양자화된 음원위치정보를 합산하여 최종적으로 부호화된 멀티채널 오디오 신호를 생성하는 단계

을 포함하는 멀티채널 오디오 신호 부호화 방법.
제15항에 있어서, 상기 프레임화된 오디오 신호는 모노 신호 및 스테레오 신호중 어느 하나의 신호로 다운믹싱되는 멀티채널 오디오 신호 부호화 방법.
제16항에 있어서, 상기 다운믹스된 오디오 신호가 모노 신호인 경우에, 상기 추정된 음원위치 정보는, 좌측 및 우측 반면 음원 위치 벡터(LHV, RHV), 좌측 및 우측 보조 음원위치 벡터(LSV, RSV) 및 전체위치벡터(GV)를 포함하는 멀티채널 오디오 신호 부호화 방법.
제16항에 있어서, 상기 다운믹스된 오디오 신호가 스테레오 신호인 경우에, 상기 추정된 음원위치정보는, 좌측 및 우측 반면 음원 위치 벡터(LHV, RHV)와, 좌측 및 우측 보조 음원위치 벡터(LSV, RSV)를 포함하는 멀티채널 오디오 신호 부호화 방법.
제15항에 있어서, 상기 음원위치정보 추정 단계는,

상기 프레임화된 오디오 신호를 스펙트럼값으로 변환하는 단계와,

상기 스펙트럼값을 밴드별로 분리하는 단계와,

상기 밴드별로 분리된 스펙트럼값들로부터 채널별 에너지벡터를 검출하는 단계와,

상기 검출된 채널별 에너지 벡터를 이용하여 가상 음원 위치 벡터(VSLI)를 추정하는 단계

을 포함하는 멀티채널 오디오 신호 부호화 방법.
제 19항에 있어서, 상기 검출된 채널별 에너지 벡터는, 중앙채널 에너지벡터(C), 전방 좌측 채널 에너지 벡터(L), 후방 좌측 채널 에너지 벡터(LS), 전방 우측 채널 에너지 벡터(R) 및 후방 우측 채널 에너지 벡터(RS)를 포함하는 멀티채널 오디오 신호 부호화 방법.
제 20항에 있어서, 상기 VLSI 추정 단계는,

전방 좌측 채널 에너지 벡터(L)와 후방 좌측 채널 에너지 벡터(LS)를 이용하여 좌측 반면 음원 위치벡터(LHV)를 추정하는 단계와,

전방 우측 채널 에너지 벡터(R)와 후방 우측 채널 에너지 벡터(RS)를 이용하여 우측 반면 음원 위치벡터(RHV)를 추정하는 단계와,

상기 추정된 좌측음원 위치벡터(LV)와 중앙 채널 에너지 벡터(C)를 이용하여 좌측 보조 음원 위치 벡터(LSV)를 추정하는 단계와,

상기 추정된 우측음원 위치벡터(RV)와 중앙 채널 에너지 벡터(C)를 이용하여 우측 보조 음원 위치 벡터(RSV)를 추정하는 단계

을 포함하는 멀티채널 오디오 신호 부호화 방법.
제 21항에 있어서, 상기 다운믹스된 오디오 신호가 모노 신호인 경우에, 상 기 추정된 VLSI 벡터에는 전체 위치 벡터(GV)가 더 포함되고, 상기 VLSI 추정 단계는, 상기 추정된 좌측 보조 음원 위치 벡터(LSV) 및 우측 보조 음원 위치 벡터(RSV)를 이용하여 상기 전체 위치 벡터(GV)를 추정하는 단계를 더 포함하는 멀티채널 오디오 신호 부호화 방법.
제 19항에 있어서, 상기 다운믹스된 오디오 신호가 스테레오 신호인 경우에, 상기 가상음원 위치벡터(VSLI)는 중앙 채널을 기준으로 한 좌측반면각(LHa), 우측평면값(RHa), 좌측보조평면각(LSa) 및 우측보조평면각(RSa)으로 표현되는 멀티채널 오디오 신호 부호화 방법.
제 19항에 있어서, 상기 다운믹스된 오디오 신호가 모노 신호인 경우에, 상기 가상음원 위치벡터(VSLI)는, 전체위치각(Ga), 좌측반면각(LHa), 우측평면값(RHa), 좌측보조평면각(LSa) 및 우측보조평면각(RSa)으로 표현되는 멀티채널 오디오 신호 부호화 방법.
멀티채널 오디오 신호를 수신하는 단계와,

상기 수신된 멀티채널 오디오 신호로부터 부호화된 다운믹스 오디오 신호와 양자화된 가상음원 위치벡터 신호를 각각 분리하는 단계와,

상기 부호화된 다운믹스 오디오 신호를 복호화하는 단계와,

상기 복호화된 다운믹스 오디오 신호를 주파수축 신호로 변환하는 단계와,

상기 양자화된 가상음원 위치벡터 신호를 분석하여 밴드별 가상 음원 위치 벡터 정보를 추출하는 단계와,

상기 밴드별 가상음원 위치벡터 정보로부터 밴드별 채널 이득값을 계산하는 단계와,

상기 주파수축으로 변환된 다운믹스 신호와 상기 계산된 밴드별 채널 이득값을 이용하여 멀티채널 오디오 신호 스펙트럼을 합성하는 단계와,

상기 합성된 멀티채널 스펙트럼으로부터 멀티채널 오디오 신호를 산출하는 단계

를 포함하는 멀티채널 오디오 신호 복호화 방법.
제25항에 있어서, 상기 밴드별 가상 음원 위치 벡터 정보를 추출하는 단계는, 상기 양자화된 가상음원 위치벡터 신호로부터 밴드별 가상 음원 방위각 정보를 추출하고, 상기 추출된 방위각 정보로부터 가상 음원 위치 벡터를 구성하는 멀티채널 오디오 신호 복호화 방법.
제 26항에 있어서, 상기 가상 음원 방위각 정보는 밴드별 좌측 및 우측 반면각(LHa, RHa) 및 좌측 및 우측 보조 평면각(LSa, LHa) 정보를 포함하고, 상기 방위각 정보로부터 구성되는 가상 음원 위치 벡터는 좌측 및 우측 반면 음원 위치 벡터(LHV, RHV)와, 좌측 및 우측 보조 음원 위치 벡터(LSV, RSV)를 포함하는 멀티채널 오디오 신호 복호화 방법.
제 27항에 있어서, 상기 부호화된 다운믹스 오디오 신호가 모노 신호인 경우에, 상기 가상 음원 방위각 정보는 전체위치각(Ga) 정보를 더 포함하고, 상기 전체위치각(Ga) 정보로부터 전체 위치 벡터(GV)가 구성되는 멀티채널 오디오 신호 복호화 방법.
제 27항에 있어서, 상기 채널 이득 계산 단계는, 각각의 밴드에 대하여,

상기 다운믹스 오디오 신호 크기를 이용하여 좌측 및 우측 보조 음원 위치 벡터(LSV, RSV)의 크기를 계산하는 단계와,

상기 좌측 보조 음원 위치 벡터(LSV) 크기와 상기 좌측 보조 평면각(LSa)을 이용하여 중앙 채널(C)의 제1 이득값과 좌측 반면 음원 위치 벡터(LHV)의 크기를 계산하는 단계와,

상기 우측 보조 음원 위치 벡터(RSV)의 크기와 상기 우측 보조 평면각(RSa)을 이용하여 중앙채널(C)의 제2 이득값과 우측 반면 음원 위치 벡터(RHV)의 크기를 계산하는 단계와,

상기 중앙채널(C)의 제1 이득값 및 제2 이득값을 합하여 상기 중앙채널(C)의 이득값을 산출하는 단계와,

상기 좌측 반면 음원 위치 벡터(LHV)의 크기와 상기 좌측 반면각(LHa)을 이용하여 전방 좌측채널(L)과 후방 좌측 채널(LS)의 이득값을 계산하는 단계와,

상기 우측 반면 음원 위치 벡터(RHV)의 크기와 상기 우측 반면각(RHa)을 이 용하여 전방 우측 채널(R)과 후방 우측 채널(RS)의 이득값을 계산하는 단계

를 포함하는 멀티채널 오디오 신호 복호화 방법.
제15항 내지 제24항중 어느 하나의 항에 따른 멀티채널 오디오 신호 부호화 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 기록매체.
제25항 내지 제29항중 어느 하나의 항에 따른 멀티채널 오디오 신호 복호화 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 기록매체.