KR20070088958A

KR20070088958A - 다채널 오디오 신호 시각화 방법과 공간큐를 이용한음상정보 변환 방법 및 그 장치

Info

Publication number: KR20070088958A
Application number: KR1020060018874A
Authority: KR
Inventors: 백승권; 장대영; 서정일; 강경옥; 홍진우; 김진웅
Original assignee: 한국전자통신연구원
Priority date: 2006-02-27
Filing date: 2006-02-27
Publication date: 2007-08-30

Abstract

본 발명은 다채널 오디오 신호의 복호화 과정에서 재생되는 오디오 신호상의 음상정보를 시각화하는 방법과 이를 유연하게 변형하여 다채널 오디오 신호의 생성에 반영할 수 있는 방법에 관한 것임. 본 발명은, 다채널 오디오 신호가 재생될 시, 재생되고 있는 다채널 신호의 음상 기반으로 시각화 하여 사용자에게 제공함으로써 사용자에게 보다 실감 나는 다채널 오디오 서비스를 제공하려 한다. 시각화 기술은 음상정보를 나타낼 수 있는 공간큐(Spatial Cue)에 기반으로 이를 활용하는 것을 기본으로 한다. 또한 공간큐를 이용하여 다채널 오디오 신호의 음상정보를 효율적으로 표현하여 이를 쉽게 제어(Control)할 수 있는 기능을 제공한다. 이는 생성되는 다채널 신호의 음상위치를 공간큐 제어만으로 유연하게 변형시킬 수 있는 제어 방법으로써, 양방향(interactive) 3차원 오디오/비디오 서비스 등에 유용하게 활용될 수 있을 것이다. 본 발명은 다채널 오디오 신호의 실감나는 재생을 위한 시각화 방법의 제공 및, 생성되는 음원의 음상을 제어하여 다채널 신호를 생성하는 방법에 활용된다.

다채널 오디오 부호화, MPEG Surround, Spatial Audio Coding, Binaural Cue Coding

Description

다채널 오디오 신호 시각화 방법과 공간큐를 이용한 음상정보 변환 방법 및 그 장치{Method and devices for visualization of multichannel signals and for controlling the spatial audio image}

도 1은 전체 구성 블록도

*도면의 주요 부분에 대한 부호 설명

101: 공간 오디오 복호화기 (SAC Decoder)

102: 부가정보 복호화기 (SI Decoder)

103: 부가정보 기반 공간화기 (Spatializer)

104: 부가정보 기반 시각화기 (Visualizer)

105: 시각화 장치 (Displayer)

201: 가상음원 위치 추정기 (Virtual Source Position Estimator)

202: 시각화 계수 변환기 (Display Factor Converter)

301: 가상음원 위치정보를 CLD로 변환하는 변환기기

(Converter virtual source location information to modified CLD)

401: 시간 영역 신호를 주파수 영역으로 변환하는 변환기 (T/F Transform)

402: 채널 파워 이득 조절기(Power gain controller)

403: 주파수 영역 신호를 시간 영역 신호로 변환하는 역변환기

(F/T Transform)

404: 부가정보 추출기 (SI Extractor)

최근에 소개된 SAC기술은 멀티채널 신호나 여러 독립된 신호를 다운믹스된 모노 또는 스테레오 신호와 공간 큐 정보로 표현, 전송 및 복원하는 방법에 관한 것으로 낮은 비트 율에서도 고품질의 멀티채널 신호를 전송할 수 있는 기술이다. SAC기술의 주요전략은 멀티채널 신호를 서브밴드 별로 분석하여 각 밴드 별 공간 큐 정보를 추정하고 이것과 다운믹스된 신호로부터 다채널 원 신호를 복원한다는 것이다. 따라서 공간 큐 정보는 원 신호를 복원하는데 중요한 역할을 담당하는 것으로써, SAC의 재생 오디오 신호의 음질을 좌우하는 큰 요인이 된다. 대표적인 SAC 기술로써 BCC가 최근에 소개되었고 이는 ICLD(Inter-Channel Level Difference), ICTD(Inter-Channel Time Difference), ICC(Inter-Channel Coherence)를 공간 큐 정보로 한다. 이를 근간으로 MPEG에서는 MPEG Surround라는 명칭으로 SAC 기술에 대한 표준화가 진행 중이며 ICLD와 동일한 의미로써 CLD(Channel Level Difference)가 주요 파라메터로 활용한다.

종래의 모노 또는 스테레오 기반의 컨텐츠들에 대하여는 이를 청취하는 동시에 시각화 하는 방법으로는 주파수 분석기를 이용한 그래픽 이퀄라이저(Graphic Equalizer)가 주로 활용되었다. 그러나 다채널의 경우 단순하게 주파수 분석기 기 반의 그래픽 이퀄라이저 만을 이용한 시각화는 사용자에게 다채널 오디오 신호의 동적인 음량감과 음장감을 표현할 수 없다. 또한, 현재까지 다채널에 대한 시각화 방법은 각 채널 신호의 크기의 시각화 방법이 기본적으로 활용되는데 그치고 있다.

또한 다채널 오디오 신호는 다양한 음상의 위치를 공간상에 제공할 수 있다. 그러나 현재 다채널 신호에 의해 생성되는 음상의 위치는 복호화기에서 고유한 것으로 인지되어 재생되는데 그치고 있다.

일반적으로 다채널 오디오 신호를 부호화 하는 방법에는 MPEG-I, II와 같이 오디오 채널 각각을 부호화 하여 전송하는 방법과, 최근 소개된 공간 오디오 코딩(SAC: Spatial Audio Coding) 방식에 의한 부호화 방법이 있다. 공간 오디오 코딩 기법의 주 개념은, 다채널 오디오 신호로부터 각 주파수 서브밴드별 공간큐(Spatial Cue)를 추출함으로써 신호의 과잉정보 (redundancy information)을 압축표현하는 기법이다. 공간큐의 기본 요소는 CLD (Channel Level Difference), ICC(Inter-Channel Correlation)등이 기본적으로 활용된다. CLD는 각 채널의 파워 비로부터 추출되며, 복호화 과정에서 각 채널의 파워 이득을 표현하는데 활용된다. ICC는 각 채널간의 상관성으로 음상의 공간적 음상의 펴짐 정도(Degree of Diffuseness)를 결정한다. 그러나 이들 정보만으로 직접적인 음상의 위치를 예측할 수 없으므로, 이를 변환하여 음상의 위치를 추정할 수 있는 공간큐로 표현 할 수 있어야 한다.

본 발명에서는 공간큐를 활용하는 것을 주된 접근 방식으로 하여, 이를 이용 하여 음상정보의 표현, 시각화할 수 있도록 한다. 그러나 본 발명에서는, 기존의 CLD를 음상정보의 표현 및 제어함에 있어서 한계가 있음으로, 이를 보다 유연한 정보로 활용하기 위하여 음상정보 기반의 공간큐로 변환하여 적용하는 방법을 제시하려 한다.

본 발명의 바람직한 일 실시예에서, 다채널 오디오 시스템에 있어서 공간 큐를 이용한 시각화 방법 및 수단이 제시된다.

본 발명의 바람직한 일 실시예에서, 다채널 오디오 시스템에 있어서 공간 큐를 이용한 음성위치 제어 방법 및 수단이 제시된다.

본 발명의 바람직한 일 실시예에서, 외부 시스템 또는 사용자로부터 가상 음원 위치의 변화량을 입력받아 가상음원의 위치를 변환시켜 다채널 오디오 신호 생성에 적용하는 방법이 제시된다.

본 발명의 바람직한 일 실시예에서, CLD 기반의 공간 큐 정보를 가상음원 위치 기반의 공간큐로 변화하는 방법이 제시된다.

상기한 목적을 달성하기 위해 본 발명은 다채널 오디오 신호를 부/복호화 방법으로 SAC를 활용한다. 도 1을 본 발명의 대표 도면이다.

SAC 디코더는 기본적으로 부가정보(공간큐)를 복호화 하는 부가정보 복호화기 (102)와, 이를 이용하여 다채널 신호를 합성하는 공간오디오 복호화기(101)로 이루어 졌다.

부가정보 복호화기(102)는 전송된 부가정보의 비트스트림을 받아 엔트로피 복호화 (entropy decoding)을 수행한다. 일반적으로 엔트로피 코딩 방식으로 호프만 코딩(Huffman coding) 방식을 채택한다. 디코딩된 부가정보는 기본적으로 공간큐인 CLD와 ICC로 표현되며 각각은 다음과 같이 정의 된다.

[수학식 1]

여기서

는 채널 인덱스이며 전체 채널 수가

라 할 때 1<= i <=C-1이다. k는 시간샘플 인덱스이다.

[수학식 2]

수학식 2와 같이 ICC는 채널간 상관함수로부터 구해진다. 이를 이용한 다채널 신호 합성기에서 신호의 생성과정은 SAC 방법에 따라 달라질 수 있으며, 본 발명에서의 설명은 생략하기로 한다. 복호화된 공간큐정보는 시각화 모듈(104)와 공간화 모듈(103)으로 입력된다.

시각화 모듈에서는 입력된 CLD 값으로부터 각 채널의 파워 이득을 계산한다. 계산하는 방법은 부호화기에서 CLD를 계산하는 방법에 따라 달라진다. 예를 들어 하나의 기준채널로부터 CLD 값이 계산되었다면, 다음과 같이 각 채널의 파워 이득을 얻을 수 있다.

[수학식 3]

여기서 b는 주파수 영역 서브밴드 인덱스이다. 일반적으로 서브밴드 수는 프래임 당 20~40개로 정의한다. 각 서브밴드별로 각 채널의 파워 이득이 구해지면 이로부터 가상음원의 위치를 추정한다. 예를 들어 5-채널일 경우 다음과 같은 공간 벡터를 추정할 수 있다.

[수학식 4]

여기서 A_i는 스피커의 위치를 복소평면에 나타낸 좌표이다. 각 벡터에 대한 각의 정보는 다음의 수학식으로부터 얻어진다.

[수학식 5]

마찬가지로

,

또한 수학식 4를 적용하여 얻을 수 있다. 가상음원의 패닝 각은 원하는 채널 신호간에서 자유롭게 예측될 수 있으며, 수학식 4와 5는 하나의 예시임을 상기한다.

각각의 패닝 각과 각 채널의 파워 이득 정보는 시각화 장치 (105)로 전송된 다. 또한 전송 된 다운믹스 신호(모노/스테레오)의 임의의 서브밴드

에서 파워 이득이 (101)로부터 (105) 모듈로 입력된다. 파워 이득은 수학식 6과 같이 얻어진다. 수학식 3부터 수학식 5까지는 (201)에서 수행한다.

[수학식 6]

시각화 장치는 시각화 방법에 따라 다양한 색과 모양을 이용하여 전송된 정보를 기반으로 시각화 할 수 있다. 일실 시 예로 색과 모양의 변화는 다음의 벡터에 의해 표현되며 각각의 가상음원 위치에 시각화 된다.

여기서, Display()는 시각화 함수로써 각 벡터의 물리적 크기 및 위치를 표현하며, 이를 시각화 계수(Display factor)라 명명한다. 이는 시각화 장치에서 다양한 색과 크기로 표현된다. 또한 본 장치는 채널간의 상관성에 따라 선별적으로 시각화 될 수 있다. 예를 들어 ICC 파라메터를 상관성 측정파라메터로 사용할 경우, 기준채널에 대한 각 ICC 파라메터 값이 정해진 문턱치(예를들어

)보다 클 경우, Display(Ga_b)만을 활성화 시키며, 상호간의 ICC 값이 문턱치보다 작을 경우 모든 벡터에 대하여 시각화를 수행한다. 본 기능은 (202)에서 수행한다.

도 1의 공간화(Spatializer) 블록에서는 다채널이 생성하는 가상음원의 위치를 유연하게 변화를 줄 수 있는 장치이다. 공간화 과정에서는 시각화 과정에서와 마찬가지로 CLD 파라메터로부터 (201) 블록을 이용하여 가상음원 위치 벡터를 추정한다. 추정된 가상 음원의 위치벡터는 외부 입력으로부터 위치의 변화량 (

)을 입력 받아 이를 반영한다.

[수학식 7]

변형된 가상음원의 위치 정보는 수학식 4와 6의 역 과정으로부터 각 채널의 파워 이득으로 계산된다. 각 채널의 파워 이득은 다시 CLD로 변환되어 공간오디오 복호화기에 전달된다.

본 시각화 및 공간화 방법은 일반 다채널 오디오 신호에 대해서도 적용 가능하다. 도 4는 일반 다채널 오디오 복호화기에 시각화 및 공간화 모듈의 적용방안의 일실 시 예이다. 시간영역의 다채널 신호는 DFT(Discrete Fourier Transform) 또는 QMF (Quadrature Mirror filterbank Transform)등과 같은 Transform을 이용하여 주파수 영역으로 변환된다. 이때 변환된 신호는 부가정보 예측기 (404)를 통하여 공간 큐(CLD, ICC)를 추출하며 이는 도 1에서와 마찬가지로 공간화기와 시각화 기에 입력으로 사용된다. 시각화기의 처리과정은 도 1과 동일하며, 공간화기는 수학식 7이 반영된 공간 큐(CLD)를 파워이득 조절기(402)에 전달하여 주파수 영역에서 서브밴드 별로 각 채널의 파워를 조절한다. 조절 방법은 수학식 8과 같다.

[수학식 8]

여기서

는 채널 ch의 n번째 주파수 계수이며,

는 파워이득 조절기에 의해 변형된 주파수 계수이다.

은 서브밴드 b의 경계정보이며 이득

는 수학식 7이 반영된 CLD 값을 입력받아 계산된 이득 계수이다.

이상에서 설명한 본 발명을 통하여 다채널 신호의 재생과정을 시각화함으로써 보다 실감나는 다채널 오디오 신호를 재생할 수 있다. 또한 공간 큐의 변화 량을 다채널 신호의 생성에 반영함으로써 오디오 신호의 가상 음원의 위치를 조절할 수 있다.

Claims

다채널 오디오 신호 시각화 방법과 공간큐를 이용한 음상정보 변환 방법 및 그 장치