KR101294022B1

KR101294022B1 - 공간큐를 이용한 다객체 또는 다채널 오디오 신호의 랜더링제어 방법 및 그 장치

Info

Publication number: KR101294022B1
Application number: KR20070011643A
Authority: KR
Inventors: 백승권; 서정일; 이태진; 이용주; 장대영; 강경옥; 홍진우; 김진웅
Original assignee: 한국전자통신연구원
Priority date: 2006-02-03
Filing date: 2007-02-05
Publication date: 2013-08-08
Also published as: EP2629292A2; EP1989704B1; CN103366747B; KR101395253B1; EP1989704A4; CN102693727B; US10652685B2; US20200267488A1; KR20070079945A; US20120294449A1; US20190215633A1; KR20120099192A; US11375331B2; JP2009525671A; EP2528058A3; EP1989704A1; EP3267439A1; JP4966981B2; CN102693727A; EP2528058B1

Abstract

1. 청구범위에 기재된 발명이 속하는 기술분야

다객체 또는 다채널 오디오 신호의 랜더링 제어에 관한 것임.

2. 발명이 해결하려고 하는 기술적 과제

다객체 또는 다채널 오디오 신호를 디코딩하는 과정에서 공간큐를 이용하여 다객체 또는 다채널 오디오 신호의 랜더링을 제어하는 방법 및 장치를 제공함.

3. 발명의 해결 방법의 요지

공간큐 기반 다객체 또는 다채널 오디오 신호의 디코딩 과정에서 공간큐 영역에서 랜더링을 제어함.

4. 발명의 중요한 용도

다객체 또는 다채널 오디오 신호의 디코딩에 이용됨.

다채널, 다객체, 디코딩, 공간큐, 랜더링

Description

공간큐를 이용한 다객체 또는 다채널 오디오 신호의 랜더링 제어 방법 및 그 장치{METHOD AND APPARATUS FOR CONTROL OF RANDERING MULTIOBJECT OR MULTICHANNEL AUDIO SIGNAL USING SPATIAL CUE}

도1은 종래의 다객체 또는 다채널 오디오 신호의 인코더에 대한 일실시예를 개략적으로 나타낸 도면,

도2는 본 발명의 일실시예에 따른 오디오 신호 랜더링 제어 장치를 개략적으로 나타낸 도면,

도3은 재생된 패닝 다채널 신호의 일례를 나타내는 도면,

도4은 본 발명의 일실시예로서 CLD를 공간큐로서 이용하는 경우에 도2에 도시된 공간큐 랜더링 수단의 상세 블록도,

도5는 본 발명의 일실시예로서 CPP를 적용하여 오디오 신호를 원하는 위치에 매핑시키는 방법을 설명하기 위한 도면,

도6은 신호의 각도들간 관계를 포함하는 레이아웃을 개략적으로 나타낸 도면,

도7은 SAC 디코딩 수단이 MPEG Surround stereo mode인 경우에 본 발명의 일실시예에 따른 공간큐 랜더링 수단의 상세 블록도,

도8은 다객체 또는 다채널의 오디오 신호를 디코딩하는 공간큐 기반 디코더 전체를 나타내는 개략도,

도9는 공간큐 기반 디코더로서 특히 3차원 스테레오(3D stereo) 오디오 신호 디코더를 나타내는 개략도,

도10은 도8 및 도9에 적용될 수 있는 공간큐 랜더링 수단의 일실시예를 설명하기 위한 도면,

도11은 바이노럴 스테레오 디코딩 방식이 적용된 MPEG Surround 디코더를 나타내는 개략도,

도12는 본 발명의 다른 실시예에 따른 오디오 신호 랜더링 장치를 개략적으로 나타낸 도면,

도13은 도12의 공간화 수단에 대한 상세 블록도,

도14는 본 발명의 일실시예가 적용된 다채널 오디오 디코더를 나타내는 도면이다.

본 발명은 다객체 또는 다채널 오디오 신호의 랜더링 제어에 관한 것으로, 보다 상세하게는 다객체 또는 다채널의 오디오 신호를 디코딩하는 과정에서 공간큐(spatial cue)를 이용하여 다객체 또는 다채널 오디오 신호의 랜더링을 제어하는 방법 및 장치에 관한 것이다.

도1은 종래의 다객체 또는 다채널 오디오 신호의 인코더에 대한 일실시예를 개략적으로 나타낸 도면으로서, 도면에 도시된 바와 같이, 종래의 다객체 또는 다채널 오디오 신호의 인코더에 대한 일실시예로서 공간큐 기반 오디오 코딩(Spatial Audio Coding, SAC) 방식의 인코더(101)는 입력 신호(input signals)인 다객체 또는 다채널 오디오 신호로부터 후술되는 공간큐(spatial cues)를 추출하여 전송하고, 오디오 신호를 다운믹스하여 모노 또는 스테레오 신호로 전송한다.

SAC 기술은 다객체 또는 다채널 오디오 신호를 다운믹스된 모노 또는 스테레오 신호와 공간큐 정보로 표현, 전송 및 복원하는 방법에 관한 것으로 낮은 비트 율에서도 고품질의 멀티채널 신호를 전송할 수 있는 기술이다. SAC 기술의 주요전략은 다객체 또는 다채널 오디오 신호를 서브밴드 별로 분석하여 각 서브밴드 별 공간큐 정보에 기초하여 다운믹스된 신호로부터 원래의 신호를 복원한다는 것이다. 따라서 공간큐 정보는 디코딩 과정에서 원 신호의 복원을 위한 중요한 정보를 포함하며, SAC 디코딩 장치에서 재생되는 오디오 신호의 음질을 좌우하는 주요한 요인이다. SAC 기술을 근간으로 MPEG은 MPEG Surround라는 명칭으로 SAC 기술에 대한 표준화를 진행하고 있으며 CLD(Channel Level Difference)를 공간큐로 활용한다.

본 발명은 인코더로부터 다운믹스되어 전송된 다객체 또는 다채널 오디오 신호를 디코딩하는 과정에서 인코더로부터 전송된 공간큐를 이용하여 다객체 또는 다채널 오디오 신호의 랜더링을 제어하는 방법 및 장치에 관한 것이다.

종래 기술에 따르면, 모노 또는 스테레오 기반의 오디오 신호의 재생을 위해 주파수 분석기를 이용한 그래픽 이퀄라이저가 주로 활용되었다. 그러나 다객체 또는 다채널 오디오 신호는 당해 오디오 신호의 위치를 공간상에 다양하게 제공할 수 는 있으나 현재 다객체 또는 다채널 오디오 신호에 의해 생성되는 오디오 신호의 위치는 디코딩 장치에서 고유한 것으로 인지되어 재생되는데 그치고 있다.

본 발명의 목적은 다객체 또는 다채널 오디오 신호를 디코딩하는 과정에서 공간큐를 이용하여 다객체 또는 다채널 오디오 신호의 랜더링을 제어하는 방법 및 장치를 제공하는 것이다.

상기 목적을 달성하기 위한 본 발명은 오디오 신호 랜더링 제어 장치에 있어서, 공간큐 기반 오디오 코딩(Spatial Audio Coding, SAC) 방식으로 인코딩된 입력 오디오 신호인 다운믹스 신호를 SAC 방식으로 디코딩하는 디코딩 수단; 및 공간큐 정보 및 상기 입력 오디오 신호의 랜더링에 대한 제어정보를 입력받아 상기 제어정보에 기초하여 공간큐 영역에서 상기 공간큐 정보를 제어하는 공간큐 랜더링 수단을 포함하되, 상기 디코딩 수단은 상기 공간큐 랜더링 수단에 의해 제어된 공간큐 정보에 기초하여 상기 입력 오디오 신호의 랜더링을 수행하는 오디오 신호 랜더링 제어 장치를 제공한다.

또한, 상기 목적을 달성하기 위한 본 발명은 오디오 신호 랜더링 제어 장치에 있어서, 공간큐 기반 오디오 코딩(Spatial Audio Coding, SAC) 방식으로 인코딩된 입력 오디오 신호인 다운믹스 신호를 SAC 방식으로 디코딩하는 디코딩 수단; 및 공간큐 정보 및 상기 입력 오디오 신호의 랜더링에 대한 제어정보를 입력받아 상기 제어정보에 기초하여 공간큐 영역에서 상기 공간큐 정보를 제어하는 공간큐 랜더링 수단을 포함하되, 상기 디코딩 수단은 상기 공간큐 랜더링 수단에 의해 제어된 공 간큐 정보에 기초하여 상기 입력 오디오 신호의 랜더링을 수행하고, 상기 공간큐 정보는

(ott,l,m)로 표현되는, 입력 오디오 신호간의 레벨 차를 나타내는 CLD(Channel Level Difference)이고, 상기 공간큐 랜더링 수단은 상기 인코딩 수단으로부터 전송되는 CLD로부터 CLD 파라미터를 추출하는 CLD 파싱부; 상기 CLD 파싱부에서 추출된 CLD 파라미터로부터 각 오디오 신호의 파워이득을 추출하는 이득 요소 변환부; 및 상기 이득 요소 변환부에서 추출된 각 오디오 신호의 파워이득을 상기 입력 오디오 신호의 랜더링에 대한 제어정보에 기초하여 조절함으로써 제어된 파워이득을 산출하는 이득 요소 제어부를 포함하되, 상기

(ott,l,m)에서 m 은 서브밴드 인덱스, l 은 파라미터 세트 인덱스인 오디오 신호 랜더링 제어 장치를 제공한다.

또한 상기 목적을 달성하기 위한 본 발명은, 오디오 신호 랜더링 제어 장치에 있어서, 공간큐 기반 오디오 코딩(Spatial Audio Coding, SAC) 방식으로 인코딩된 입력 오디오 신호인 다운믹스 신호를 SAC 방식으로 디코딩하는 디코딩 수단; 및 공간큐 정보 및 상기 입력 오디오 신호의 랜더링에 대한 제어정보를 입력받아 상기 제어정보에 기초하여 공간큐 영역에서 상기 공간큐 정보를 제어하는 공간큐 랜더링 수단을 포함하되, 상기 디코딩 수단은 상기 공간큐 랜더링 수단에 의해 제어된 공간큐 정보에 기초하여 상기 입력 오디오 신호의 랜더링을 수행하고, 특히, 상기 다운믹스 신호인 L0 및 R0로부터 중앙 신호(C), 좌측 반평면 신호(Lf+Ls) 및 우측 반평면 신호(Rf+Rs)를 추출하며, 상기 공간큐 정보는 CLD _LR/Clfe ,CLD _L/R ,CLD _C/lfe ,CLD _Lf/Ls 및 CLD _Rf/Rs 로 표현되는, 입력 오디오 신호간의 레벨 차를 나타내는 CLD(Channel Level Difference)이고, 상기 공간큐 랜더링 수단은 상기 인코딩 수단으로부터 전송되는 CLD로부터 CLD 파라미터를 추출하는 CLD 파싱부; 상기 CLD 파싱부에서 추출된 CLD 파라미터로부터 각 오디오 신호의 파워이득을 추출하는 이득 요소 변환부; 및 상기 이득 요소 변환부에서 추출된 각 오디오 신호의 파워이득을 상기 입력 오디오 신호의 랜더링에 대한 제어정보에 기초하여 조절함으로써 제어된 파워이득을 산출하는 이득 요소 제어부를 포함하는 오디오 신호 랜더링 제어 장치를 제공한다.

또한 상기 목적을 달성하기 위한 본 발명은 오디오 신호 랜더링 제어 장치에 있어서, 공간큐 기반 오디오 코딩(Spatial Audio Coding, SAC) 방식으로 인코딩된 입력 오디오 신호인 다운믹스 신호를 SAC 방식으로 디코딩하는 디코딩 수단; 및 공간큐 정보 및 상기 입력 오디오 신호의 랜더링에 대한 제어정보를 입력받아 상기 제어정보에 기초하여 공간큐 영역에서 상기 공간큐 정보를 제어하는 공간큐 랜더링 수단을 포함하되, 상기 디코딩 수단은 상기 공간큐 랜더링 수단에 의해 제어된 공간큐 정보에 기초하여 상기 입력 오디오 신호의 랜더링을 수행하고, 상기 공간큐 정보는 입력 오디오 신호의 다운믹스 비율을 나타내는 CPC(Channel Prediction Coefficient) 및 입력 오디오 신호간의 레벨 차를 나타내는 CLD(Channel Level Difference)이고, 상기 공간큐 랜더링 수단은 상기 인코딩 수단으로부터 전송되는 CPC 및 CLD 각각으로부터 CPC 파라미터 및 CLD 파라미터를 추출하는 CPC/CLD 파싱부; 상기 CPC/CLD 파싱부에서 추출된 CPC 파라미터로부터 중앙 신호, 좌측 반평면 신호 및 우측 반평면 신호를 추출하여 각 신호의 파워이득을 산출하며, CLD 파라미터로부터 좌측 신호 성분 및 우측 신호 성분 각각의 파워이득을 추출하는 이득 요소 변환부; 및 상기 이득 요소 변환부에서 추출된 각 오디오 신호의 파워이득을 상기 입력 오디오 신호의 랜더링에 대한 제어정보에 기초하여 조절함으로써 제어된 파워이득을 산출하는 이득 요소 제어부를 포함하는 오디오 신호 랜더링 제어 장치를 제공한다.

또한 상기 목적을 달성하기 위한 본 발명은, 오디오 신호 랜더링 제어 장치에 있어서, 공간큐 기반 오디오 코딩(Spatial Audio Coding, SAC) 방식으로 인코딩된 입력 오디오 신호인 다운믹스 신호를 SAC 방식으로 디코딩하는 디코딩 수단; 및 공간큐 정보 및 상기 입력 오디오 신호의 랜더링에 대한 제어정보를 입력받아 상기 제어정보에 기초하여 공간큐 영역에서 상기 공간큐 정보를 제어하는 공간큐 랜더링 수단을 포함하되, 상기 디코딩 수단은 상기 공간큐 랜더링 수단에 의해 제어된 공간큐 정보에 기초하여 상기 입력 오디오 신호의 랜더링을 수행하고, 상기 공간큐 정보는 입력 오디오 신호간 상관성을 나타내는 ICC(Inter-Channel Correlation)이며, 상기 공간큐 랜더링 수단은 선형 보간(linear interpolation) 과정을 통해 ICC 파라미터를 제어하는 오디오 신호 랜더링 제어 장치를 제공한다.

또한 상기 목적을 달성하기 위한 본 발명은 오디오 신호 랜더링 제어 장치의 랜더링 제어 방법에 있어서, 공간큐 기반 오디오 코딩(Spatial Audio Coding, SAC) 방식으로 인코딩된 입력 오디오 신호인 다운믹스 신호를 SAC 방식으로 디코딩하는 디코딩 단계; 및 공간큐 정보 및 상기 입력 오디오 신호의 랜더링에 대한 제어정보 를 입력받아 상기 제어정보에 기초하여 공간큐 영역에서 상기 공간큐 정보를 제어하는 공간큐 랜더링 단계를 포함하되, 상기 디코딩 단계는 상기 공간큐 랜더링 단계에서 제어된 공간큐 정보에 기초하여 상기 입력 오디오 신호의 랜더링을 수행하는 오디오 신호 랜더링 제어 방법을 제공한다.

또한 상기 목적을 달성하기 위한 본 발명은 오디오 신호 랜더링 제어 장치에 있어서, 공간큐 기반 오디오 코딩(Spatial Audio Coding, SAC) 방식으로 인코딩된 입력 오디오 신호인 다운믹스 신호를 SAC 방식으로 디코딩하는 디코딩 단계; 및 공간큐 정보 및 상기 입력 오디오 신호의 랜더링에 대한 제어정보를 입력받아 상기 제어정보에 기초하여 공간큐 영역에서 상기 공간큐 정보를 제어하는 공간큐 랜더링 단계를 포함하되, 상기 디코딩 단계는 상기 공간큐 랜더링 단계에서 제어된 공간큐 정보에 기초하여 상기 입력 오디오 신호의 랜더링을 수행하고, 상기 공간큐 정보는

(ott,l,m) 로 표현되는, 입력 오디오 신호간의 레벨 차를 나타내는 CLD(Channel Level Difference)이고, 상기 공간큐 랜더링 단계는 상기 인코딩 수단으로부터 전송되는 CLD로부터 CLD 파라미터를 추출하는 CLD 파싱 단계; 상기 CLD 파싱 단계에서 추출된 CLD 파라미터로부터 각 오디오 신호의 파워이득을 추출하는 이득 요소 변환 단계; 및 상기 이득 요소 변환 단계에서 추출된 각 오디오 신호의 파워이득을 상기 입력 오디오 신호의 랜더링에 대한 제어정보에 기초하여 조절함으로써 제어된 파워이득을 산출하는 이득 요소 제어 단계를 포함하되, 상기

(ott,l,m) 에서 m 은 서브밴드 인덱스, l 은 파라미터 세트 인덱스인 오디오 신호 랜더링 제어 방법을 제공한다.

또한 상기 목적을 달성하기 위한 본 발명은 오디오 신호 랜더링 제어 장치에 있어서, 공간큐 기반 오디오 코딩(Spatial Audio Coding, SAC) 방식으로 인코딩된 입력 오디오 신호인 다운믹스 신호를 SAC 방식으로 디코딩하는 디코딩 단계; 및 공간큐 정보 및 상기 입력 오디오 신호의 랜더링에 대한 제어정보를 입력받아 상기 제어정보에 기초하여 공간큐 영역에서 상기 공간큐 정보를 제어하는 공간큐 랜더링 단계를 포함하되, 상기 디코딩 단계는 상기 공간큐 랜더링 단계에서 제어된 공간큐 정보에 기초하여 상기 입력 오디오 신호의 랜더링을 수행하고, 특히, 상기 다운믹스 신호인 L0 및 R0로부터 중앙 신호(C), 좌측 반평면 신호(Lf+Ls) 및 우측 반평면 신호(Rf+Rs)를 추출하며, 상기 공간큐 정보는 CLD _LR/Clfe ,CLD _L/R ,CLD _C/lfe ,CLD _Lf/Ls 및 CLD _Rf/Rs 로 표현되는, 입력 오디오 신호간의 레벨 차를 나타내는 CLD(Channel Level Difference)이고, 상기 공간큐 랜더링 단계는 상기 인코딩 수단으로부터 전송되는 CLD로부터 CLD 파라미터를 추출하는 CLD 파싱 단계; 상기 CLD 파싱 단계에서 추출된 CLD 파라미터로부터 각 오디오 신호의 파워이득을 추출하는 이득 요소 변환 단계; 및 상기 이득 요소 변환 단계에서 추출된 각 오디오 신호의 파워이득을 상기 입력 오디오 신호의 랜더링에 대한 제어정보에 기초하여 조절함으로써 제어된 파워이득을 산출하는 이득 요소 제어 단계를 포함하는 오디오 신호 랜더링 제어 방법을 제공한다.

또한 상기 목적을 달성하기 위해 본 발명은 오디오 신호 랜더링 제어 장치에 있어서, 공간큐 기반 오디오 코딩(Spatial Audio Coding, SAC) 방식으로 인코딩된 입력 오디오 신호인 다운믹스 신호를 SAC 방식으로 디코딩하는 디코딩 단계; 및 공간큐 정보 및 상기 입력 오디오 신호의 랜더링에 대한 제어정보를 입력받아 상기 제어정보에 기초하여 공간큐 영역에서 상기 공간큐 정보를 제어하는 공간큐 랜더링 단계를 포함하되, 상기 디코딩 단계는 상기 공간큐 랜더링 단계에서 제어된 공간큐 정보에 기초하여 상기 입력 오디오 신호의 랜더링을 수행하고, 상기 공간큐 정보는 입력 오디오 신호의 다운믹스 비율을 나타내는 CPC(Channel Prediction Coefficient) 및 입력 오디오 신호간의 레벨 차를 나타내는 CLD(Channel Level Difference)이고, 상기 공간큐 랜더링 단계는 상기 인코딩 수단으로부터 전송되는 CPC 및 CLD 각각으로부터 CPC 파라미터 및 CLD 파라미터를 추출하는 CPC/CLD 파싱 단계; 상기 CPC/CLD 파싱 단계에서 추출된 CPC 파라미터로부터 중앙 신호, 좌측 반평면 신호 및 우측 반평면 신호를 추출하여 각 신호의 파워이득을 산출하며, CLD 파라미터로부터 좌측 신호 성분 및 우측 신호 성분 각각의 파워이득을 추출하는 이득 요소 변환 단계; 및 상기 이득 요소 변환 단계에서 추출된 각 오디오 신호의 파워이득을 상기 입력 오디오 신호의 랜더링에 대한 제어정보에 기초하여 조절함으로써 제어된 파워이득을 산출하는 이득 요소 제어 단계를 포함하는 오디오 신호 랜더링 제어 방법을 제공한다.

또한 상기 목적을 달성하기 위해 본 발명은 오디오 신호 랜더링 제어 장치에 있어서, 공간큐 기반 오디오 코딩(Spatial Audio Coding, SAC) 방식으로 인코딩된 입력 오디오 신호인 다운믹스 신호를 SAC 방식으로 디코딩하는 디코딩 단계; 및 공간큐 정보 및 상기 입력 오디오 신호의 랜더링에 대한 제어정보를 입력받아 상기 제어정보에 기초하여 공간큐 영역에서 상기 공간큐 정보를 제어하는 공간큐 랜더링 단계를 포함하되, 상기 디코딩 단계는 상기 공간큐 랜더링 단계에서 제어된 공간큐 정보에 기초하여 상기 입력 오디오 신호의 랜더링을 수행하고, 상기 공간큐 정보는 입력 오디오 신호간 상관성을 나타내는 ICC(Inter-Channel Correlation)이며, 상기 공간큐 랜더링 단계는 선형 보간(linear interpolation) 과정을 통해 ICC 파라미터를 제어하는 오디오 신호 랜더링 제어 방법을 제공한다.

본 발명에 따르면, 사용자 또는 외부 연동 시스템의 요청에 따라 공간큐의 직접적인 제어를 통해 다객체 또는 다채널 오디오 신호의 위치를 유연하게 제어할 수 있다.

본 발명이 속한 기술 분야에서 통상의 지식을 가진 자는 본 명세서의 도면, 발명의 상세한 설명 및 특허청구범위로부터 본 발명의 다른 목적 및 장점을 쉽게 인식할 수 있다.

이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다. 또한, 본 발명의 원리, 관점 및 실시예들 뿐만 아니라 특정 실시예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다. 따라서, 예를 들어, 본 명세서의 블럭도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.

프로세서 또는 이와 유사한 개념으로 표시된 기능 블럭을 포함하는 도면에 도시된 다양한 소자의 기능은 전용 하드웨어뿐만 아니라 적절한 소프트웨어와 관련하여 소프트웨어를 실행할 능력을 가진 하드웨어의 사용으로 제공될 수 있다. 프로세서에 의해 제공될 때, 상기 기능은 단일 전용 프로세서, 단일 공유 프로세서 또는 복수의 개별적 프로세서에 의해 제공될 수 있고, 이들 중 일부는 공유될 수 있다. 또한 프로세서, 제어가 또는 이와 유사한 개념으로 제시되는 용어의 명확한 사용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비 휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 주지관용의 다른 하드웨어도 포함될 수 있다. 유사하게, 도면에 도시된 스위치는 개념적으로만 제시된 것일 수 있다. 이러한 스위치의 작용은 프로 그램 로직 또는 전용 로직을 통해 프로그램 제어 및 전용 로직의 상호 작용을 통하거나 수동으로 수행될 수 있는 것으로 이해되어야 한다. 특정의 기술은 본 명세서의 보다 상세한 이해로서 설계자에 의해 선택될 수 있다.

본 명세서의 청구범위에서, 상세한 설명에 기재된 기능을 수행하기 위한 수단으로 표현된 구성요소는 예를 들어 상기 기능을 수행하는 회로 소자의 조합 또는 펌웨어/마이크로 코드 등을 포함하는 모든 형식의 소프트웨어를 포함하는 기능을 수행하는 모든 방법을 포함하는 것으로 의도되었으며, 상기 기능을 수행하도록 상기 소프트웨어를 실행하기 위한 적절한 회로와 결합된다. 이러한 청구범위에 의해 정의되는 본 발명은 다양하게 열거된 수단에 의해 제공되는 기능들이 결합되고 청구항이 요구하는 방식과 결합되기 때문에 상기 기능을 제공할 수 있는 어떠한 수단도 본 명세서로부터 파악되는 것과 균등한 것으로 이해되어야 한다.

상술한 목적, 특징 및 장점들은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명한다.

도2는 본 발명의 일실시예에 따른 오디오 신호 랜더링 제어 장치를 개략적으로 나타낸 도면으로서, 도면에 도시된 바와 같이, 도1의 SAC 인코더(101)에 대응하는, SAC 디코딩 수단(203)을 일실시예로서 채용한 구성이며, 공간큐 랜더링 수단(201)을 더 포함하고 있다.

SAC 디코딩 수단(203)으로 입력되는 신호는 인코더(예를 들어 도1의 인코더)로부터 전송되는 다운믹스 신호(모노 또는 스테레오)이며, 공간큐 랜더링 수단(201)으로 입력되는 신호는 인코더(예를 들어 도1의 인코더)로부터 전송되는 공간큐이다.

공간큐 랜더링 수단(201)은 공간큐 영역에서 랜더링을 제어한다. 즉, SAC 디코딩 수단(203)의 출력신호를 직접적으로 제어하여 랜더링을 수행하는 것이 아니라, 공간큐로부터 오디오 신호에 대한 정보를 추출하고 제어함으로써 랜더링을 제어한다.

여기서, 공간큐 영역이란 인코더로부터 전송된 공간큐가 파라미터로 인식되고 제어되는 파라미터 도메인을 의미한다. 랜더링이란, 입력 오디오 신호가 출력될 위치 및 레벨 등을 결정하여 출력 오디오 신호를 생성하는 과정을 의미한다.

SAC 디코딩 수단(203)으로서 MPEG Surround, BCC(Binaural Cue Coding) 또는 SSLCC(Sound Source Location Cue Coding) 등의 방식이 적용될 수 있으며, 이에 한정되지 않는다.

본 발명의 일실시예로서, 활용 가능한 공간큐에 대한 정의는 다음과 같다.

CLD[Channel(audio signal) Level Difference]: 입력 오디오 신호간 레벨 차

ICC[Inter-Channel Correlation]: 입력 오디오 신호간 상관성

CPC[Channel Prediction Coefficient]: 입력 오디오 신호의 다운믹스 비율

즉, CLD는 오디오 신호의 파워이득 정보, ICC는 오디오 신호간의 상관성 정보, CTD는 오디오 신호간의 시간차 정보, CPC는 오디오 신호의 다운믹스 이득정보 를 나타낸다.

공간큐의 주요한 역할은 공간 화상(spatial image), 즉 사운드 장면(sound scene)을 유지하는 것이다. 따라서, 본 발명에 따르면, 오디오 출력 신호를 직접적으로 조작하는 대신 이들 공간큐 파라미터를 제어함으로써 사운드 장면을 제어할 수 있다.

오디오 신호의 재생환경을 고려할 때, 공간큐 중에서 가장 많이 이용되는 공간큐는 CLD로서, CLD만으로도 기본적인 출력신호를 생성해 낼 수 있다. 따라서 이하에서는 본 발명의 일실시예로서 CLD를 중심으로 하여, 공간큐 영역에서 신호를 제어하는 기술에 대해 설명될 것이나, 본 발명이 CLD에만 한정되지 않으며 다양한 공간큐와 관련한 실시예가 존재할 수 있음은 본 발명이 속한 기술 분야에서 통상의 지식을 가진 자에게 명백한 것이다. 따라서 본 발명은 CLD에 한정되지 않는 것으로 이해되어야 한다.

CLD를 이용하는 일실시예에서, 파워이득 계수에 직접적으로 사운드 패닝(panning) 법칙을 적용함으로써 다객체 또는 다채널 오디오 신호를 패닝할 수 있다.

본 발명의 일실시예에 따르면, 공간큐를 제어하여 전역 패닝 위치에 따라 다객체 또는 다채널 오디오 신호를 재생할 수 있다. CLD는 주로 바람직한 패닝 위치에 대응하는 각 오디오 신호의 파워이득을 평가하기 위해서 조작된다. 패닝 위치는 외부로부터 입력되는 interaction control 신호를 통해 자유롭게 입력될 수 있다. 도3은 재생된 패닝 다채널 신호의 일례를 도시한다. 주어진 θ _pan 에 의해서, 모든 신호들은 각도 θ _pan 로 회전된다. 그러면, 사용자는 회전된 사운드 장면들을 인식할 수 있다. 도3에서 Lf는 좌측 전방 채널 신호, Ls는 좌측 후방 채널 신호, Rf는 우측 전방 채널 신호, Rs는 우측 후방 채널 신호, C는 중앙 채널 신호를 나타낸다. 따라서, [Lf+ Ls]는 좌측 반평면 신호, [Rf+Rs]는 우측 반평면 신호를 의미하게 된다. 도3에 도시되지는 않았으나, lfe는 우퍼(woofer) 신호를 나타낸다.

도4는 본 발명의 일실시예로서 CLD를 공간큐로서 이용하는 경우에 도2에 도시된 공간큐 랜더링 수단(201)의 상세 블록도이다.

도면에 도시된 바와 같이, CLD를 공간큐로서 이용하는 공간큐 랜더링 수단(201)은 CLD 파싱부(401), 이득 요소 변환부(403), 이득 요소 제어부(405) 및 CLD 변환부(407)를 포함한다.

CLD 파싱부(401)는 수신한 공간큐(CLD)로부터 CLD 파라미터를 추출한다.

CLD는 오디오 신호의 레벨차 정보를 포함하고 있으며 [수학식 1]과 같이 표현된다.

[수학식 1]

여기서, 예를 들어

는 m번째 서브밴드에서의 k번째 입력 오디오 신호에 대한 서브밴드 파워이다.

이득 요소 변환부(403)는 CLD 파싱부(401)에서 추출된 CLD 파라미터로부터 각 오디오 신호의 파워이득을 추출한다.

[수학식 1]을 살펴보면, m번째 서브밴드에서의 입력 오디오 신호가 M개인 경우, m번째 서브밴드에서 추출될 수 있는 CLD의 개수는 M-1개가 된다(즉 1 ≤ i ≤ M-1). 따라서 CLD로부터 각 신호의 파워이득은 다음의 [수학식 2]에 따라 산출된다.

[수학식 2]

그러므로 m번째 서브밴드에 대하여 M-1개의 CLD 값으로부터 M개의 입력 오디오 신호에 대한 파워이득을 산출할 수 있다.

한편, 공간큐는 입력 오디오 신호의 서브밴드 단위로 추출되므로 파워이득도 서브밴드 단위로 추출된다. 따라서 m번째 서브밴드에 포함된 모든 입력 오디오 신호의 파워이득을 추출하면 다음의 [수학식 3]과 같이 벡터행렬로 표현된다.

[수학식 3]

여기서, m은 서브밴드 인덱스,

는 m번째 서브밴드에서의 k(1 ≤ k ≤ M)번째 입력 오디오 신호에 대한 서브밴드 파워이득, G _m 은 m번째 서브밴드에서 모든 입력 오디오 신호의 파워이득을 나타내는 벡터이다.

이득 요소 변환부(403)에서 추출된 각 오디오 신호의 파워이득(G _m )은 이득 요소 제어부(405)로 입력되어 조절되며, 이러한 조절에 의해 입력 오디오 신호의 랜더링이 제어됨으로써 종국적으로는 원하는 오디오 장면이 구성될 수 있다.

이득 요소 제어부(405)로 입력되는 랜더링 제어정보는 입력 오디오 신호의 개수(N), 가상 위치 및 각 입력 오디오 신호의 레벨(Burst, Suppression 포함)과, 출력 오디오 신호의 개수(M) 및 가상 위치에 관한 정보를 포함한다. 즉 이득 요소 제어부(405)는 입력 오디오 신호의 랜더링에 대한 제어정보(예를 들어, 입력 오디오 신호의 출력 위치, 출력 레벨 등을 나타내는 오디오 장면 정보로서 사용자 등 외부로부터 입력되는 interaction control 신호)를 입력 받아 이득 요소 변환부(403)로부터 출력된 각 입력 오디오 신호의 파워이득( G _m )을 조절하여 다음의 [수학식 4]와 같이 제어된 파워이득( _out G _m )을 산출한다.

[수학식 4]

예를 들어, m번째 서브밴드의 첫번째 출력 오디오 신호(

)에 대한 레벨을 없앨 것(suppression)을 랜더링 제어정보로 입력 받으면, 이득 요소 제어부(405)는 다음의 [수학식 5]와 같이 이득 요소 변환부(403)로부터 출력된 각 오디오 신호의 파워이득(G _m )으로부터 제어된 파워이득( _out G _m )을 산출한다.

[수학식 5]

이를 보다 구체적으로 표현하면 다음의 [수학식 6]과 같다.

[수학식 6]

즉, 행렬에서 m번째 서브밴드의 첫번째 입력 오디오 신호(

)의 요소를 값 0으로 조절함으로써 m번째 서브밴드의 첫번째 출력 오디오 신호(

)의 레벨을 없 앨 수 있다(suppression).

마찬가지로, 특정 출력 오디오 신호의 레벨을 증폭(burst)시킬 수 있음은 물론이다. 결국, 본 발명의 일실시예에 따르면, 출력 오디오 신호의 출력 레벨은 공간큐로부터 얻어진 파워이득 값의 변경을 통해 제어될 수 있다.

또 다른 예로서, m번째 서브밴드의 첫번째 입력 오디오 신호(

)를 m번째 서브밴드의 첫번째 출력 오디오 신호(

)와 m번째 서브밴드의 두번째 출력 오디오 신호(

) 사이에 위치시키고자 하는 랜더링 제어정보(예를 들어, 평면상의 각도 정보로서 θ = 45도)가 이득 요소 제어부(405)로 입력되면, 이득 요소 제어부(405)는 다음의 [수학식 7]과 같이 이득 요소 변환부(403)로부터 출력된 각 오디오 신호의 파워이득(G _m )으로부터 제어된 파워이득( _out G _m )을 산출한다.

[수학식 7]

이를 보다 구체적으로 표현하면 다음의 [수학식 8]과 같다.

[수학식 8]

이처럼 입력 오디오 신호를 출력 오디오 신호 사이에 매핑 시키는 방법의 일반화된 일실시예는 패닝 법칙(panning law)이 적용된 매핑 방법이다. 패닝 법칙(panning law)은 사인 패닝 법칙(Sine Panning law), 탄젠트 패닝 법칙(Tangent Panning law), 일정 파워 패닝 법칙(Constant Power Panning law, CPP law)가 있으며, 어느 방법이든지 패닝 법칙(panning law)을 통해 달성하는 목적은 동일하다.

이하에서는 본 발명의 일실시예로서 CPP를 적용하여 오디오 신호를 원하는 위치에 매핑시키는 방법에 대해 설명될 것이나, 본 발명이 CPP에만 한정되지 않으며 다양한 패닝 법칙(panning law)과 관련한 실시예가 존재할 수 있음은 본 발명이 속한 기술 분야에서 통상의 지식을 가진 자에게 명백한 것이다. 따라서 본 발명은 CPP에 한정되지 않는 것으로 이해되어야 한다.

본 발명의 일실시예에 따르면, 모든 다객체 또는 다채널 오디오 신호는 주어진 패닝 각도에 대해 CPP에 따라 패닝된다. 또한, 공간큐를 이용하기 위해서, CPP 법칙이 출력 오디오 신호에 적용되지 않고 CLD 값들로부터 추출된 파워이득에 적용된다. CPP가 적용된 후, 오디오 신호의 제어된 파워이득은 CLD로 변환된 다음, 상기 변환된 CLD가 SAC 디코딩 수단(203)으로 제공됨으로써 패닝된 다객체 또는 다채 널 오디오 신호가 생성된다.

도5는 본 발명의 일실시예로서 CPP를 적용하여 오디오 신호를 원하는 위치에 매핑시키는 방법을 설명하기 위한 도면으로서, 도면에 도시된 바와 같이, 출력신호1, 2(

,

)의 위치는 각각 0도와 90도다. 따라서 도5에서 애퍼쳐(aperture)는 90도이다.

만일 첫번째 입력 오디오 신호(

)가 출력신호1, 2(

,

)사이의 θ 에 위치되면 α,β 값은 각각 α=cos(θ),β=sin(θ)로 정의된다. CPP 법칙에 따르면, 출력 오디오 신호의 축 상에, 입력 오디오 신호의 위치를 projection시켜서 sine, cosine 함수를 활용하여 α,β 값을 산출하고 제어된 파워이득을 산출하여 오디오 신호의 랜더링을 제어하게 된다. α,β 값에 기초하여 산출되는 제어된 파워이득( _out G _m )은 다음의 [수학식 9]와 같이 표현된다.

[수학식 9]

여기서, α=cos(θ),β=sin(θ)이다.

이를 보다 구체적으로 표현하면 다음의 [수학식 10]과 같다.

[수학식 10]

α,β 값은 적용하는 패닝 법칙(panning law)에 따라 달라질 수 있다. α,β 값은 임의의 애퍼쳐(aperture)에 부합하도록 입력 오디오 신호의 파워이득을 출력 오디오 신호의 가상 위치에 매핑시킴으로써 산출된다.

본 발명의 일실시예에 따르면 공간큐 영역에서 공간큐(예를 들어 입력 오디오 신호의 파워이득 정보)를 제어하여 입력 오디오 신호가 원하는 위치에 매핑되도록 랜더링을 제어할 수 있다.

이상에서는 입력 오디오 신호의 파워이득과 출력 오디오 신호의 파워이득의 개수가 동일한 경우에 대해 설명되었다. 일반적인 경우로서, 출력 오디오 신호의 파워이득과 입력 오디오 신호의 파워이득의 개수가 서로 다른 경우에 상기 [수학식 6,8,10]의 행렬의 차원은 M×M이 아닌 M×N으로 표현된다.

예를 들어 출력 오디오 신호가 4개(M=4)이고 입력 오디오 신호가 5개(N=5)일 경우, 각 입력 오디오 신호의 위치 정보가 랜더링 제어정보(입력 오디오 신호의 위치 및 출력 오디오 신호의 개수 정보)가 이득 요소 제어부(405)로 입력되면, 이득 요소 제어부(405)는 다음의 [수학식 11]과 같이 이득 요소 변환부(403)로부터 출력된 각 오디오 신호의 파워이득(G _m )으로부터 제어된 파워이득( _out G _m )을 산출한다.

[수학식 11]

[수학식 11]에 의하면 N(=5)개의 입력 오디오 신호는 다음과 같이 M(=4)개의 출력 오디오 신호에 매핑된다. 첫번째 입력 오디오 신호(

)는 α ₁,β ₁ 에 의해 출력 오디오 신호 1, 2(

,

) 사이에 매핑된다. 두번째 입력 오디오 신호(

)는 α ₂,β ₂ 에 의해 출력 오디오 신호 2, 4(

,

) 사이에 매핑된다. 세번째 입력 오디오 신호(

)는 α ₃,β ₃에 의해 출력 오디오 신호 3, 4(

,

) 사이에 매핑된다. 네번째 입력 오디오 신호(

)는 α ₄,β ₄ 에 의해 출력 오디오 신호 2, 4(

,

) 사이에 매핑된다. 다섯번째 입력 오디오 신호(

)는 α ₅,β ₅ 에 의해 출력 오디오 신호 1, 3(

,

) 사이에 매핑된다.

즉,

(k는 입력 오디오 신호 인덱스, k=1, 2, 3, 4, 5)를 임의의 출력 오디오 신호 사이에 매핑 시키기 위한 α,β 값을 α _k ,β _k 로 정의하면, N(=5)개의 입력 오디오 신호는 M(=4)개의 출력 오디오 신호에 매핑될 수 있으며 따라서 입력 오디오 신호는 출력 오디오 신호의 개수에 상관없이 원하는 위치에 매핑될 수 있다.

k번째 입력 오디오 신호(

)의 출력 레벨을 값 0으로 하기 위해서는 α _k ,β _k 를 각각 값 0으로 한다(suppression).

이득 요소 제어부(405)로부터 출력되는 제어된 파워이득( _out G _m )은 CLD 변환부(407)에서 CLD 값으로 변환된다. CLD 변환부(407)는 다음의 [수학식 12]와 같이 제어된 파워이득( _out G _m )에 대하여 상용로그를 취하여 CLD 값(converted

)으로 변환한다. 제어된 파워이득( _out G _m )은 파워이득이므로 20을 승산한다.

[수학식 12]

이때 CLD 변환부(407)에 의해 변환된 CLD 값(converted

)은 제어된 파워이득( _out G _m )의 요소들의 조합으로부터 얻어지며 비교되는 신호(

,

)는 입력 CLD를 산출하기 위한 신호(

,

)에 대응할 필요는 없다. 단지 제어된 파워이득( _out G _m )이 표현 가능하도록 M-1개의 조합으로부터 변환된 CLD 값(converted

)이 산출되는 것으로 충분하다.

CLD 변환부(407)에 의해 변환된 신호(converted

)는 SAC 디코딩 수단(203)으로 입력된다.

이하에서는 이상에서 설명된 이득 요소 변환부(403), 이득 요소 제어부 (405), CLD 변환부(407)의 동작이 또 다른 실시예로써 설명된다.

이득 요소 변환부(403)는 CLD 파싱부(401)에 의해 추출된 CLD 파라미터로부터 입력 오디오 신호의 파워이득을 추출하는데, CLD 파라미터는 서브밴드 별로 2개의 입력 신호들의 이득 계수들로 변환된다. 예를 들어, 전송 모드가 5152 모드로 불리는 모노 신호 전송 모드인 경우에 이득 요소 변환부(403)는 다음의 [수학식 13]에 따라 CLD 파라미터

(ott,l,m) 로부터 파워이득(

,

)을 추출한다. 여기서, 5152 모드는 ISO/IEC JTC(International Organization for Standardization/International Electrotechnical Commission Joint Technical Committee)에 의해 2005년 2월에 공개된 국제 표준 MPEG Surround(WD N7136, 23003-1:2006/FDIS)에 상세히 개시되어 있다. 본 명세서에서 5152 모드는 본 발명을 설명하기 위한 일실시예에 불과한 바, 그 상세한 설명은 생략하며, 본 발명의 설명에 도움이 되는 범위에서 상기 국제 표준은 본 명세서의 일부를 구성한다.

[수학식 13]

여기서, m 은 서브밴드 인덱스, l 은 파라미터 세트 인덱스이다. Clfe, LR 등의 윗첨자는 각각 중앙 신호와 우퍼(woofer, lfe) 신호의 합, 좌측 평면상의 신호(Ls+Lf)와 우측 평면상의 신호(Rs+Rf)의 합을 의미한다.

본 일실시예에 따르면, 상기 [수학식 13]에 의해 모든 입력 오디오 신호의 파워이득이 산출될 수 있다.

다음으로, 각 서브밴드 파워이득(pG)은 다음의 [수학식 14]에 의해 입력 오디오 신호의 파워이득의 승산으로부터 산출된다.

[수학식 14]

다음으로, 이득 요소 변환부(403)에서 추출된 각 오디오 신호의 채널이득(pG)은 이득 요소 제어부(405)로 입력되어 조절되며, 이러한 조절에 의해 입력 오디오 신호의 랜더링이 제어됨으로써 종국적으로는 원하는 오디오 장면이 구성될 수 있다.

그 일실시예로서, CPP 법칙이 인접 채널이득의 쌍에 적용된다. 먼저, θ _m 는 입력 오디오 신호의 랜더링에 대한 제어정보로서 주어진 θ _pan 으로부터 다음의 [수학식 15]에 따라 산출된다.

[수학식 15]

여기서, 애퍼처는 2개 출력 신호 사이의 각도이며 또한 θ ₁ (= 0도)는 기준 출력 신호 위치의 각도이다. 예를 들어, 도6은 상기 각도들간의 관계를 포함하는 스테레오 레이아웃을 개략적으로 나타낸 도면이다.

따라서, 입력 오디오 신호의 랜더링에 대한 제어정보(θ _pan )에 의한 패닝 이득은 다음의 [수학식 16]과 같이 정의된다.

[수학식 16]

pG _c ₁ = cos(θ _m )

pG _c ₂ = sin(θ _m )

물론, 애퍼처 각도는 출력 신호 사이의 각도에 따라 변화한다. 애퍼처 각도는 출력 신호가 전면 쌍(C 및 Lf, C 및 Rf)의 경우에 30도, 측면 쌍(Lf 및 Ls, Rf 및 Rs)의 경우 80도, 후면 쌍(Ls 및 Rs)의 경우에 140도다. 각 서브밴드 내의 모든 입력 오디오 신호에 대하여, 상기 패닝 각도에 따라 CPP 법칙에 의해서 제어된 파워이득(예를 들어 [수학식 4]의 _out G _m )이 산출된다.

이득 요소 제어부(405)로부터 출력되는 제어된 파워이득은 CLD 변환부(407)에 의해 CLD 값으로 변환된다. CLD 변환부(407)는 다음의 [수학식 17]과 같이 제어 된 파워이득에 대하여 상용로그를 취하여 CLD 값(converted

에 대응하는

)으로 변환한다. 이러한 CLD 값은 SAC 디코딩 수단(203)으로 입력된다.

[수학식 17]

이하에서는 본 발명의 보다 구체적인 일실시예로서, SAC 디코딩 수단(203)이 MPEG Surround stereo mode(525 모드로 불리며, 입력 오디오 신호로서 좌측 신호인 L0와 우측 신호인 R0를 수신하여 출력 오디오 신호로서 다채널 신호를 출력함)인 경우에 공간큐로서 CLD, CPC 및 ICC가 이용되는 경우의 구성에 대해 설명된다. MPEG Surround stereo mode는 ISO/IEC JTC에 의해 2005년 2월에 공개된 국제 표준 MPEG Surround(WD N7136, 23003-1:2006/FDIS)에 상세히 개시되어 있다. 본 명세서에서 MPEG Surround stereo mode는 본 발명을 설명하기 위한 일실시예에 불과한 바 , 그 상세한 설명은 생략하며, 본 발명의 설명에 도움이 되는 범위에서 상기 국제 표준은 본 명세서의 일부를 구성한다.

SAC 디코딩 수단(203)이 MPEG Surround stereo mode인 경우, SAC 디코딩 수단(203)이 입력 오디오 신호 L0와 R0로부터 다채널을 생성하기 위해 필요한 벡터의 대각행렬요소가 다음의 [수학식 18]에서 나타난 바와 같이 0으로 고정되어 있으며, 이는 MPEG Surround stereo mode에서 Lf, Ls 신호의 생성에 R0신호가 기여하지 못하고, Rf, Rs 신호의 생성에 L0신호가 기여하지 못한다는 것을 의미한다. 따라서 입력 오디오 신호의 랜더링에 대한 제어정보에 따라 오디오 신호의 랜더링이 불가능하다.

[수학식 18]

여기서

(i, j는 벡터 행렬 인덱스, m 은 서브밴드 인덱스, l 은 파라미터 세트 인덱스)는 CLD로부터 산출되는 파워이득으로부터 생성되는 계수이다. MPEG Surround stereo mode에 대한 CLD로서 CLD _LR/Clfe ,CLD _L/R ,CLD _C/lfe ,CLD _Lf/Ls 및 CLD _Rf/Rs 가 있으며, CLD _Lf/Ls 는 좌측 후방 채널 신호(Ls)와 좌측 전방 채널 신호(Lf)간 서브밴드 파워비(dB), CLD _Rf/Rs 는 우측 후방 채널 신호(Rs)와 우측 전방 채널 신호(Rf)간 파워비(dB)이다. 나머지 다른 CLD 값도 아래 첨자로부터 어떤 채널 신호간 파워비인지 알 수 있다.

MPEG Surround stereo mode의 SAC 디코딩 수단(203)에서, [수학식 18]에 의해 입력된 좌우측 신호(L0, R0)로부터 중앙 신호(C), 좌측 반평면 신호(Ls+Lf) 및 우측 반평면 신호(Rf+Rs)가 추출된다. 좌측 반평면 신호(Ls+Lf) 및 우측 반평면 신호(Rf+Rs) 각각은 다시 좌측 신호 성분(Ls,Lf)과 우측 신호 성분(Rf,Rs)이 생성되는데 이용된다.

[수학식 18]로부터, 좌측 반평면 신호(Ls+Lf)는 입력된 좌측 신호(L0)로부터 생성될 수 있다는 것을 알 수 있다. 즉, 우측 반평면 신호(Rf+Rs)와 중앙 신호(C)는 좌측 신호 성분(Ls, Lf)의 생성에 기여되지 않는다. 반대의 경우로 마찬가지 이다(Lf, Ls 신호의 생성에 R0 신호가 기여되지 못하며, 마찬가지로, Rf, Rs 신호의 생성에 L0 신호가 기여되지 못한다는 의미). 이는 오디오 신호의 랜더링에 있어서 패닝 각도가 약 ±30도의 범위로 제한된다는 것을 의미한다.

따라서, 본 발명의 일실시예에 따라 입력 오디오 신호에 대하여 공간큐를 이용하여 다객체 또는 다채널 오디오 신호의 랜더링을 유연하게 제어하기 위해 [수학식 18]은 다음의 [수학식 19]로 수정된다.

[수학식 19]

여기서, m _tttLow _Pr _oc 은 서브밴드의 개수를 의미한다.

[수학식 19]에 따르면, [수학식 18]의 경우와 달리, 예를 들어 우측 반평면 신호(Rf+Rs)와 중앙 신호(C)가 좌측 신호 성분(Ls, Lf)의 생성에 기여되며, 반대의 경우로 마찬가지 이다(Lf, Ls 신호의 생성에 R0 신호가 기여되며, 마찬가지로, Rf, Rs 신호의 생성에 L0 신호가 기여된다는 의미). 이는 오디오 신호의 랜더링에 있어서 패닝 각도가 제한되지 않는다는 것을 의미한다.

도2 및 도4의 공간큐 랜더링 수단(201)은 입력 오디오 신호의 파워이득 및 입력 오디오 신호의 랜더링에 대한 제어정보(외부로부터 입력되는 interaction control 신호)에 기초하여 [수학식 19]의 벡터를 구성하는 계수(

)를 산출되도록 하는, 제어된 파워이득( _out G _m ) 또는 예를 들어 변환된 CLD 값(converted

)을 출력한다.

,

와

는 각각 다음의 [수학식 20]과 같이 정의된다.

[수학식 20]

와

의 역할은 중앙 신호 성분(C)을 추출하는 것이 아니라 반평면 신호들을 패닝 각도만큼 반대편 반평면으로 투사하는 것이다.

와

은 각각 다음의 [수학식 21]과 같이 정의된다.

[수학식 21]

여기서, 파워이득(P _C ,P _Lf ,P _Ls ,P _Rf ,P _Rs )은 이득 요소 변환부(403)에 의해, 예를 들어 [수학식 2]에 따라, CLD 파싱부(401)로부터 입력되는 CLD(CLD _LR/Clfe ,CLD _L/R ,CLD _C/lfe ,CLD _Lf/Ls 및 CLD _Rf/Rs )로부터 산출된다.

은 P _C ,P _Lf ,P _Ls 의 조합에 비례하는 패닝 법칙에 의한 투영 파워(projected power)이다. 같은 방법으로,

은 P _C ,P _Rf ,P _Rs 의 조합에 비례한다.

와

은 각각 좌측 반평면과 우측 반평면의 중앙 채널에 대한 패닝 파워 이득이 다.

[수학식 19] 내지 [수학식 21]은 입력 오디오 신호로서 좌측 신호인 L0와 우측 신호인 R0를 입력 오디오 신호의 랜더링에 대한 제어정보(interaction control 신호)에 따라 유연하게 랜더링 제어할 수 있도록 하는 것을 목적으로 한다. 이득 요소 제어부(405)는 입력 오디오 신호의 랜더링에 대한 제어정보(interaction control 신호, 예를 들어 각도 정보 θ _pan = 40도)를 입력 받아 이득 요소 변환부(403)로부터 출력된 각 입력 오디오 신호의 파워이득(P _C ,P _Lf ,P _Ls ,P _Rf ,P _Rs )을 조절하여 다음의 [수학식 22]와 같이 추가적인 파워이득(

,

및

)을 산출한다.

[수학식 22]

여기서, α=cos(θ _pan ),β=sin(θ _pan )이고, θ _m 은 [수학식 15]에서 정의된 바와 같다.

이렇게 산출된 파워이득(P _C ,P _Lf ,P _Ls ,P _Rf ,P _Rs ,

,

, 및

)은 다음의 [수학식 23]과 같이 제어된 파워이득으로 산출된다.

[수학식 23]

여기서 중앙 신호(C)에 대해서 CL과 CR로 나누어 계산하는 것은 L0, R0 각각으로부터 중앙 신호가 산출되어야 하기 때문이다. MPEG Surround stereo mode의 경우에 이득 요소 제어부(405)는 [수학식 23]의 제어된 파워이득을 출력하며, SAC 디코딩 수단(203)에서는 [수학식 19]의 벡터를 통해 입력 오디오 신호 L0 및 R0에 적용됨으로써 입력 오디오 신호의 랜더링에 대한 제어정보(interaction control 신호)에 따른 랜더링이 수행된다.

다만, SAC 디코딩 수단(203)에서 [수학식 19]의 벡터를 통해 입력 오디오 신호 L0 및 R0의 랜더링 제어가 수행되기 위해서는 [수학식 20]으로 표현되는 행렬 요소에 의해 [수학식 19]의 벡터가 산출되도록 L0 및 R0가 프리 믹싱(pre-mixing) 또는 프리 프로세싱(pre-processing) 처리되어야 한다. 상기 프리 믹싱(pre-mixing) 또는 프리 프로세싱(pre-processing)이 수행되어야 제어된 파워이득( _out G _m ) 또는 예를 들어 변환된 CLD 값(converted

)를 통해 랜더링 제어가 가능하다.

한편, 도7은 SAC 디코딩 수단(203)이 MPEG Surround stereo mode인 경우에 본 발명의 일실시예에 따른 공간큐 랜더링 수단(201)의 상세 블록도이다. 도면에 도시된 바와 같이, CLD 및 CPC를 공간큐로서 이용하는 공간큐 랜더링 수단(201)은 CPC/CLD 파싱부(701), 이득 요소 변환부(703), 이득 요소 제어부(705) 및 CLD 변환부(707)를 포함한다.

SAC 디코딩 수단(203)이 MPEG Surround stereo mode인 경우에 공간큐로서 CPC와 CLD가 이용되는 경우, CPC는 다운믹스(down-mix) 신호들과 재생 출력 신호의 품질을 보장하기 위해 인코더에 포함된 몇 가지 적절한 기준에 의해 추정된다. 결과적으로, CPC는 함축적인 이득율(gain ratio)로서 나타나며 본 발명에 따른 오디오 신호 랜더링 장치로 전송된다.

결과적으로 기준에 대한 정보 부족 때문에, CPC 파라미터에 대한 정확한 분석이 공간큐 랜더링 수단(201)에서 달성될 수 없다. 즉, 비록 공간큐 랜더링 수단(201)에서 오디오 신호의 파워 이득이 제어될 수 있다고 하여도 오디오 신호의 파워이득이 오디오 신호의 랜더링에 대한 제어정보(interaction control 신호)에 따라 예를 들어 패닝 법칙에 의해 변경된(제어된) 이후에는 당해 변경된(제어된) 오디오 신호의 파워이득으로부터 CPC 값이 산출될 수 없다.

본 발명의 일실시예에 따르면, 입력 오디오 신호 L0와 R0로부터 CPC를 통해 중앙 신호(C), 좌측 반평면 신호(Ls+Lf) 및 우측 반평면 신호(Rf+Rs)가 추출되고, CLD를 통해 나머지 오디오 신호 즉 좌측 신호 성분(Ls, Lf)과 우측 신호 성분(Rf, Rs)이 추출되며, 이렇게 추출된 오디오 신호의 파워이득이 산출된 후, 상기 산출된 파워이득이 오디오 신호의 랜더링에 대한 제어정보(interaction control 신호)에 따라 변경(제어)되도록 함으로써, 오디오 출력 신호를 직접적으로 조작하는 대신 공간큐 파라미터를 제어함으로써 사운드 장면을 제어할 수 있다.

먼저, CPC/CLD 파싱부(701)는 수신한 공간큐(CPC 및 CLD)로부터 CPC 및 CLD 파라미터를 추출하고, 이득 요소 변환부(703)는 CPC/CLD 파싱부(701)에서 추출된 CPC 파라미터로부터 다음의 [수학식 24]에 따라 중앙 신호(C), 좌측 반평면 신호(Ls+Lf) 및 우측 반평면 신호(Rf+Rs)를 추출한다.

[수학식 24]

여기서, l ₀,r ₀,l,r,c 는 각각 입력 오디오 신호 L0 및 R0, 좌측 반평면 신호(Ls+Lf) 및 우측 반평면 신호(Rf+Rs) 및 중앙 신호(C)를 나타내며, M _PDC 는 CPC 계수 벡터이다.

다음으로 이득 요소 변환부(703)는 중앙 신호(C), 좌측 반평면 신호(Ls+Lf) 및 우측 반평면 신호(Rf+Rs)의 파워이득을 산출하고, CPC/CLD 파싱부(701)에서 추출된 CLD 파라미터( CLD _Lf/Ls ,CLD _Rf/Rs )로부터 예를 들어 [수학식 2]에 따라 나머지 오디오 신호 즉 좌측 신호 성분(Ls, Lf)과 우측 신호 성분(Rf, Rs) 각각의 파워이 득을 산출한다. 이로써 각 서브밴드의 파워이득이 모두 산출된다.

다음으로 이득 요소 제어부(705)는 입력 오디오 신호의 랜더링에 대한 제어정보(interaction control 신호)를 입력 받아 이득 요소 변환부(703)에 의해 산출된 각 서브밴드의 파워이득을 조절하여 예를 들어 [수학식 4]와 같이 제어된 파워이득을 산출한다.

이렇게 제어된 파워이득은 SAC 디코딩 수단(203)에서 [수학식 19]의 벡터를 통해 입력 오디오 신호 L0 및 R0에 적용됨으로써 입력 오디오 신호의 랜더링에 대한 제어정보(interaction control 신호)에 따른 랜더링이 수행된다.

한편, SAC 디코딩 수단(203)이 MPEG Surround stereo mode인 경우에 공간큐로서 ICC가 이용되는 경우, 공간큐 랜더링 수단(201)에서는 선형 보간(linear interpolation) 과정을 통해 다음의 [수학식 25]와 같이 ICC 파라미터가 수정된다.

[수학식 25]

여기서, θ _pan 은 입력 오디오 신호의 랜더링에 대한 제어정보(interaction control 신호)로서 입력된 각도 정보이다.

즉, 좌측과 우측의 ICC 값을 선형적으로 회전 각도( θ_pan )에 따라 선형 보 간(linear interpolation) 된다. 이에 관한 개략적인 도면이 도10에 도시되어 있다.

한편, 종래의 SAC 디코딩 수단은 공간큐로서 예를 들어 CLD를 입력 받아 파워이득으로 변환하고 이러한 파워이득에 기초하여 입력 오디오 신호를 디코딩 한다.

여기서 종래 SAC 디코딩 수단으로 입력되는 CLD는 본 발명의 일실시예에서 CLD 변환부(407)에 의해 변환된 신호(converted

)에 대응하고, 종래 SAC 디코딩 수단이 변환하는 파워이득은 본 발명의 일실시예에서 이득 요소 제어부(405)에 의해 산출된 파워이득(

)에 대응한다.

본 발명의 다른 일실시예에 따르면, SAC 디코딩 수단(203)은 예를 들어 공간큐로서 CLD 변환부(407)에 의해 변환된 신호(converted

)를 이용하지 않고 이득 요소 제어부(405)에 의해 산출된 파워이득(

)을 이용할 수 있으며, 따라서 SAC 디코딩 수단(203)에서 공간큐(converted

)가 파워이득(

)으로 변환되는 과정이 생략될 수 있다. 이 경우, SAC 디코딩 수단(203)은 CLD 변환부(407)에 의해 변환된 신호(converted

)가 불필요하기 때문에 공간큐 랜더링 수단(201)은 CLD 변환부(407)를 포함하지 않도록 구성될 수 있다.

한편, 본 명세서의 도면에 도시된 블럭들의 기능은 하나의 유닛으로 결합될 수 있다. 예를 들어, 공간큐 랜더링 수단(201)은 SAC 디코딩 수단(203)에 포함되도 록 구성될 수 있다. 이러한 구성 요소의 모든 결합은 본 발명의 범주에 포함된다. 도면에 도시된 블럭은 명확화를 위해 각각 분리되어 도시되었으나 반드시 별개의 유닛으로 구성되어야 하는 것을 의미하는 것은 아니다.

도8 및 도9은 도2의 오디오 신호 랜더링 제어 장치가 적용될 수 있는 일실시예로서 다객체 또는 다채널의 오디오 신호를 디코딩하는 디코더를 나타내는 도면이다. 도8은 다객체 또는 다채널의 오디오 신호를 디코딩하는 공간큐 기반 디코더 전체를 나타내는 개략도, 도9는 공간큐 기반 디코더로서 특히 3차원 스테레오(3D stereo) 오디오 신호 디코더를 나타내는 개략도이다.

도8 및 도9의 SAC 디코더(803, 903)에는 공간큐를 이용한 오디오 복호화기방식으로 MPEG Surround, BCC(Binaural Cue Coding) 또는 SSLCC(Sound Source Location Cue Coding) 등의 방식이 적용될 수 있다. 도8 및 도9에서 Panning Tool(801, 901)은 도2의 공간큐 랜더링 수단(201)에 대응한다.

도10은 도2에 도시된 공간큐 랜더링 수단(201)의 일실시예로서 도8 및 도9에 적용될 수 있는 공간큐 랜더링 수단의 일실시예를 설명하기 위한 도면이다.

도10은 도4의 공간큐 랜더링 수단에 대응한다. 도10은 CPC, ICC 등 다른 공간큐도 고려된 랜더링 수단이고, 도4는 일실시예로서 CLD가 고려된 랜더링 수단이다. 다만, 예시의 편의상 파싱부 및 CLD 변환부의 도시는 생략되어 있으며, 입력 오디오 신호의 랜더링에 대한 제어정보(interaction control 신호) 및 이득 요소 제어부는 각각 Control parameter 및 Gain panning으로 표현되어 있다. 도면에서 이득요소 제어부의 출력인

은 제어된 파워이득을 나타내며 SAC 디코딩 수단(203)의 입력이 될 수 있다. 앞서 설명된 바와 같이, 본 발명에 따르면 디코더로 입력되는 공간큐(예를 들어 CLD)에 기반하여 입력 오디오 신호의 랜더링을 제어할 수 있으며 이에 대한 일실시예 도면은 도10과 같다.

예를 들어, 도10에 도시된 공간큐 랜더링 수단의 일실시예에 따르면 다객체 또는 다채널 오디오 신호의 출력신호 레벨을 없앨 수 있다(suppression). 예를 들어 CLD가 m번째 서브밴드에서 j번째 입력 오디오 신호와 k번째 입력 오디오 신호의 파워비를 나타내는 정보라면 j번째 입력 오디오 신호의 파워이득(

)과 k번째 입력오디오 신호의 파워이득(

)은 상기 [수학식 2]에 의해 산출된다.

이때, k번째 입력 오디오 신호의 레벨을 없애고자 한다면, 상기 [수학식 6]에 따라 k번째 입력 오디오 신호의 파워이득(

) 요소만 값 0으로 조절한다.

다시 도8, 9으로 돌아와, 본 발명의 일실시예에 따르면, 다객체 또는 다채널 오디오 신호는 Panning Rendering Tool(805, 905)에 입력되어 Panning Tool(801, 901)에 의해 공간큐 영역에서 제어된 입력 오디오 신호의 랜더링 정보에 기초하여 Panning 방식에 따라 랜더링된다. 이 경우, Panning Rendering Tool(805, 905)로 입력된 입력 오디오 신호는 주파수 영역(복소수 영역)에서 처리되기 때문에 서브밴드 단위의 랜더링도 가능하다.

Panning Rendering Tool(805, 905)로부터 출력된 신호는 HRTF Rendering Tool(807, 907)에 의해 HRTF 방식으로 랜더링될 수 있다. HRTF 방식의 랜더링은 각 객체별 또는 각 채널별로 HRTF 필터를 적용하는 방식이다.

Panning Rendering Tool(805, 905)의 Panning 방식 및 HRTF Rendering Tool(807, 907)의 HRTF 방식을 이용한 랜더링 과정은 선택적으로 수행될 수 있다. 즉, Panning Rendering Tool(805, 905) 및 HRTF Rendering Tool(807, 907)은 선택적 요소이다. 그러나 Panning Rendering Tool(805, 905) 및 HRTF Rendering Tool(807, 907)이 모두 채용될 경우에는 Panning Rendering Tool(805, 905)이 HRTF Rendering Tool(807, 907)에 선행된다.

앞서 설명된 바와 같이, Panning Rendering Tool(805, 905) 및 HRTF Rendering Tool(807, 907)은 입력 오디오 신호의 랜더링을 수행하는 과정에서 예를 들어 Panning Tool(801, 901)의 CLD 변환부(407)에 의해 변환된 신호(converted

)을 이용할 수 있으며, 이 경우 HRTF Rendering Tool(807, 907)은 각 객체 또는 채널의 입력 오디오 신호에 대한 파워를 이용하여 HRTF 계수를 조절할 수 있다. 이 경우 Panning Tool(801, 901)은 CLD 변환부(407)를 포함하지 않도록 구성될 수 있다.

Down-mixer(809)는 출력 오디오 신호의 개수가 디코딩되는 다객체 또는 다채널 오디오 신호의 개수보다 다운믹싱을 수행한다.

Inverse T/F(811)는 역 T/F변환을 수행함으로써, 랜더링된 주파수 영역의 다객체 또는 다채널 오디오 신호를 시간영역의 신호로 변환한다.

도9에 도시된 공간큐 기반 디코더로서 특히 3차원 스테레오(3D stereo) 오디 오 신호 디코더도 Panning Rendering Tool(905) 및 HRTF Rendering Tool(907)을 포함한다. 다만, HRTF Rendering Tool(907)은 스테레오 출력을 위하여 MPEG Surround의 binaural decoding 방식에 따른다. 즉 파라미터 기반(parameter based)의 HRTF filtering이 적용된다.

도8, 9의 Panning Rendering Tool(805, 905) 및 HRTF Rendering Tool(807, 907)은 공지된 요소로서 그 구체적인 설명은 생략한다.

binaural decoding 방식은 입력 오디오 신호를 입력받아 바이노럴 스테레오 신호(3D 스테레오 신호)로 출력하는 디코딩 방식으로서, 일반적으로 HRTF filtering이 적용된다.

SAC 다채널 디코더를 통해 바이노럴 스테레오(3D 스테레오)가 재생되는 경우에도 본 발명이 적용될 수 있다. 일반적으로 5.1 채널에 상응하는 바이노럴 스테레오 신호는 다음의 [수학식 26]에 따라 생성된다.

[수학식 26]

x_{Binaural_L}(t) = x_Lf(t)*h_-30,L(t)+x_{Rf_L}(t)*h_30,L(t)+x_{Ls_L}(t)*h_-110,L(t)+x_{Rs_L}(t)*h_110,L(t)+x_{C_L}(t)*h_0,L(t)

x_{Binaural_R}(t) = x_Lf(t)*h_-30,R(t)+x_{Rf_L}(t)*h_30,R(t)+x_{Ls_L}(t)*h_-110,R(t)+x_{Rs_L}(t)*h_110,R(t)+x_{C_L}(t)*h_0,R(t)

여기서 x 는 입력 오디오 신호, h 는 HRTF 함수, x_Binaural는 출력 오디오 신 호(바이노럴 스테레오 신호, 3D 스테레오 신호)이다.

즉, 각 입력 오디오 신호에 대하여 HRTF 함수가 복적분되어 다운믹스된 결과가 바이노럴 스테레오 신호가 된다.

종래에는, 입력 오디오 신호의 랜더링에 대한 제어정보(interaction control 신호)에 따라 바이노럴 스테레오 신호의 랜더링이 제어되기 위해서는 각 입력 오디오 신호에 적용되는 HRTF 함수 각각이 제어위치의 함수로 변환하여 적용하여야 한다. 예를 들어 Lf의 가상위치를 입력 오디오 신호의 랜더링에 대한 제어정보(interaction control 신호)가 40도인 경우,[수학식 26]은 다음의 [수학식 27]로 변환되어야 한다.

[수학식 27]

x_{Binaural_L}(t) = x_Lf(t)*h_40,L(t)+x_{Rf_L}(t)*h_30,L(t)+x_{Ls_L}(t)*h_-110,L(t)+x_{Rs_L}(t)*h_110,L(t)+x_{C_L}(t)*h_0,L(t)

x_{Binaural_R}(t) = x_Lf(t)*h_40,R(t)+x_{Rf_L}(t)*h_30,R(t)+x_{Ls_L}(t)*h_-110,R(t)+x_{Rs_L}(t)*h_110,R(t)+x_{C_L}(t)*h_0,R(t)

그러나, 본 발명의 일실시예에 따르면, 바이노럴 스테레오의 랜더링을 제어하는 과정에서 [수학식 27]과 달리 HRTF 함수를 제어하는 것이 아니라 출력 오디오 신호에 대하여 입력 오디오 신호의 랜더링에 대한 제어정보(interaction control 신호)에 따라 공간큐 파라미터를 제어함으로써 사운드 장면을 제어한 다음 [수학식 26]의 일정한 HRTF 함수만을 적용함으로써 바이노럴 신호의 랜더링을 제어할 수 있 다.

즉 공간큐 랜더링 수단(201)에 의해 공간큐 영역에서 제어된 공간큐에 따라 출력 오디오 신호를 랜더링 제어하게 되면 [수학식 27]와 같이 HRTF 함수를 제어할 필요 없이 항상 [수학식 26]이 적용될 수 있다.

결국, 출력 오디오 신호의 랜더링 제어는 공간큐 랜더링 수단(201)에 의해 입력오디오 신호의 랜더링에 대한 제어정보(interaction control 신호)에 따라 공간큐 영역에서 제어되고, HRTF 함수는 항상 일정한 동일하게 적용될 수 있다.

본 발명의 일실시예에 따르면 한정된 HRTF 함수만으로도 바이노럴 스테레오 신호에 대하여 랜더링 제어가 가능한 반면, 종래의 바이노럴 디코딩 방식에 따르면 바이노럴 스테레오 신호의 랜더링을 제어하기 위해 가능한 많은 HRTF 함수를 확보하고 있어야 한다.

도11은 바이노럴 스테레오 디코딩 방식이 적용된 MPEG Surround 디코더를 나타내는 개략도로서, 도9와 개념적으로 동일한 구성을 나타내는 도면이다. 여기서 Spatial Cue Rendering 블록은 공간큐 랜더링 수단(201)으로서, 제어된 파워이득을 출력한다. 나머지 구성은 도9와 개념적으로 동일한 구성을 나타내며 바이노럴 스테레오 디코딩 방식이 적용된 MPEG Surround 디코더의 구성을 나타내고 있다. Spatial Cue Rendering 블록의 출력은 MPEG Surround 디코더의 Parameter conversion 블럭에서 HRTF 함수들의 주파수 응답특성이 조절되는데 이용된다.

도12 내지 도14는 본 발명의 다른 실시예를 나타낸 도면으로서, 도12는 본 발명의 다른 실시예에 따른 오디오 신호 랜더링 장치를 개략적으로 나타낸 도면이 다. 본 발명의 다른 실시예에 따르면, 공간큐 제어만으로 다채널 오디오 신호를 효율적으로 제어할 수 있으며, 양방향(interactive) 3차원 오디오/비디오 서비스 등에 유용하게 활용될 수 있다.

도면에 도시된 바와 같이, 본 발명의 다른 실시예에 따른 오디오 신호 랜더링 장치는 도1의 SAC 인코더(101)에 대응하는, SAC 디코딩 수단(1205)을 일실시예로서 채용한 구성이며, 부가정보 복호화부(1201) 및 공간화 수단(1203)을 더 포함하고 있다.

부가정보 복호화부(1201) 및 공간화 수단(1203)은 도2의 공간큐 랜더링 수단(201)에 대응하는 구성으로서, 특히, 부가정보 복호화부(1201)는 도4의 CLD 파싱부(401)에 대응한다.

부가정보 복호화부(1201)는 전송된 부가정보, 즉 공간큐로서 예를 들어 CLD를 수신하여 상기 [수학식 1]에 따라 CLD 파라미터를 추출한다.

추출된 CLD 파라미터는 공간화 수단(1203)으로 입력된다.

도13은 도12의 공간화 수단(1203)에 대한 상세 블록도로서, 도면에 도시된 바와 같이, 공간화 수단(1203)은 가상 위치 추정부(1301) 및 CLD 변환부(1303)을 포함한다.

가상 위치 추정부(1301) 및 CLD 변환부(1303)은 기능적으로 도4의 이득 요소 변환부(403), 이득 요소 제어부(405) 및 CLD 변환부(407)에 대응한다.

가상 위치 추정부(1301)는, 입력된 CLD 파라미터로부터 각 입력 오디오 신호의 파워이득을 산출한다. 파워이득은 CLD 산출 방식에 따라 다양한 방법으로 산출 될 수 있다. 예를 들어 입력 오디오 신호의 모든 CLD가 기준 오디오 신호로부터 산출된다면, 다음의 [수학식 28]과 같이 각 입력 오디오 신호의 파워이득이 산출될 수 있다.

[수학식 28]

여기서 C는 전체 오디오 신호 개수, i는 오디오 신호 인덱스(1≤i≤C-1), b는 서브밴드 인덱스, G_i,b는 입력 오디오 신호(좌측 전방 채널 신호 Lf, 좌측 후방 채널 신호Ls, 우측 전방 채널 신호 Rf, 우측 후방 채널 신호 Rs, 중앙 채널 신호 C)의 파워이득이다. 일반적으로 서브밴드 수는 프레임 당 20∼40개이다. 각 서브밴드 별로 각 오디오 신호의 파워이득이 산출되면 가상 위치 추정부(1301)는 상기 파워이득으로부터 가상음원의 위치를 추정한다.

예를 들어 입력 오디오 신호가 5 채널인 경우, 다음의 [수학식 29]처럼 공간벡터 추정(가상음원의 위치 추정)을 할 수 있다.

[수학식 29]

Gv_b=A₁×G_1,b+A₂×G_2,b+A₃×G_3,b+A₄×G_4,b+A₅×G_5,b

LHv_b=A₁×G_1,b+A₂×G_2,b+A₄×G_4,b

RHv_b=A₁×G_1,b+A₃×G_3,b+A₅×G_5,b

Lsv_b=A₁×G_1,b+A₂×G_2,b

Rsv_b=A₁×G_1,b+A₃×G_3,b

여기서 i는 오디오 신호 인덱스, b는 서브밴드 인덱스, A_i는 출력 오디오 신호의 위치로서 복소평면에서 표현되는 좌표, Gv_b는 전체 5개 입력 오디오 신호(Lf, Ls, Rf, Rs, C)를 고려한 전방위 벡터,

는 좌측 반평면의 오디오 신호들(Lf, Ls, C)을 고려한 좌측 반평면 벡터, RHv_b는 우측 반평면의 오디오 신호들(Rf, Rs, C)을 고려한 우측 반평면 벡터, Lsv_b는 Lf 및 C의 두 개 입력 오디오 신호만을 고려한 좌측 전방 벡터, Rsv_b는 Rf 및 C의 두 개 입력 오디오 신호만을 고려한 우측 전방 벡터이다.

여기서, 하나의 가상음원 위치가 제어되려면 Gv_b가 제어된다. 만일에 2개의 벡터를 통해 가상음원 위치가 제어되려면

와 RHv_b가 활용된다. 만일 두 쌍의 입력 오디오 신호에 대한 벡터(즉 좌측 전방 벡터 및 우측 전방 벡터)로 가상음원 위치가 제어되려면 Lsv_b , Rsv_b 등의 벡터가 활용될 수 있다. 두 쌍의 입력 오디오 신호에 대하여 벡터가 산출되고 활용될 경우, 입력 오디오 신호의 개수만큼의 쌍이 존재할 수 있다.

각 벡터에 대한 각(가상음원의 패닝 각)의 정보는 다음의 [수학식 30]으로부터 산출된다.

[수학식 30]

마찬가지로, 나머지 벡터의 각도 정보(

,

및

) 또한 [수학식 20]과 유사하게 산출될 수 있다.

가상음원의 패닝 각은 원하는 오디오 신호간에 자유롭게 예측될 수 있으며, 상기 [수학식 29] 및 [수학식 30]은 여러가지 다양한 산출 방법 중 하나에 불과하기 때문에, 본 발명이 상기 [수학식 29] 및 [수학식 30]의 경우로 한정되는 것은 아니다.

다운믹스 신호의 b번째 서브밴드의 파워이득(M_downmix,b)은 다음의 [수학식 31]에 의해 산출된다.

[수학식 31]

여기서 b는 서브밴드 인덱스, B_b는 서브밴드의 경계, S는 다운믹스 신호, n 은 주파수 계수 인덱스이다.

공간화 수단(1203)은 다채널이 생성하는 가상음원의 위치를 유연하게 제어할 수 있는 구성으로서, 이상에서 설명된 바와 같이, 가상 위치 추정부(1301)는 CLD 파라미터로부터 가상음원의 위치 벡터를 추정한다. CLD 변환부(1303)는 가상 위치 추정부(1301)에 의해 추정된 가상음원의 위치벡터와 랜더링 제어정보로서 가상음원위치의 변화량 (Δδ)을 수신하고, 제어된 가상음원 위치벡터를 다음의 [수학식 32]에 따라 산출한다.

[수학식 32]

그리고 CLD 변환부(1303)는, 상기 [수학식 23]에 따라 산출된, 제어된 가상음원 위치벡터(

,

)에 대해 상기 [수학식 29] 및 [수학 식 31]을 역으로 적용하여 각 오디오 채널의 제어된 파워이득을 산출한다. 예를 들어, 하나의 각도만으로 제어되려면 [수학식 32]의

에 관한 수식이 적용되며, 두 개의 좌측 반평면, 우측 반평면 벡터의 각도로 제어되려면 [수학식 32]의

,

에 관한 수식이 적용되며, 두 쌍의 입력 오디오 신호(좌측 전방 오디오 신호 및 우측 전방 오디오 신호)에 대한 벡터의 각도로 제어되려면 [수학식 32]의

,

에 관한 수식이 적용된다. 그 이외 쌍(예를 들어 Ls와 Lf, 또는 Rs와 Rf)의 입력 오디오 신호에 대한 벡터의 각도로 제어되려면, 마찬가지로 [수학식 29]의

,

에 관한 수식과 [수학식 32]의

,

에 관한 수식이 유사하게 적용된다.

또한 CLD 변환부(1303)는, 제어된 파워이득을 다시 CLD 값으로 변환한다.

변환된 CLD 값은 SAC 디코딩 수단(1205)으로 입력된다.

상기와 같은 본 발명의 일실시예는 일반 다채널 오디오 신호에 대해 적용가능하다. 도14는 본 발명의 일실시예가 적용된 다채널 오디오 디코더로서, 도면에 도시된 바와 같이, 부가정보 복호화 수단(1201) 및 공간화 수단(1203)을 더 포함하고 있다.

시간영역의 다채널 신호는 DFT(Discrete Fourier Transform), QMF (Quadrature Mirror Filterbank transform) 등의 변환 수단(1403)에 의해 주파수 영역으로 변환된다.

부가정보 복호화부(1201)는 변환 수단(1403)에 의해 변환된 신호로부터 공간 큐(예를 들어, CLD)를 추출하여 공간화 수단(1203)으로 전송한다. 공간화 수단(1203)은 [수학식 32]에 의한 CLD, 즉 제어된 가상음원 위치벡터로부터 산출된 제어된 파워이득을 나타내는 CLD를 파워이득 조절수단(1405)으로 전송하고, 파워이득 조절수단(1405)은 수신한 CLD에 기초하여 주파수 영역에서 서브밴드 별로 각 오디오 채널의 파워를 조절한다. 조절 방법은 다음의 [수학식 33]과 같다.

[수학식 33]

여기서 S_ch,n 은 ch번째 채널의 n번째 주파수 계수, S'_ch,n 는 파워이득 조절수단(1105)에 의해 변형된 주파수 계수, B_n 은 b번째 서브밴드의 경계정보,

는 [수학식 32]가 반영된 CLD 값 즉 공간화 수단(1203)의 출력 신호인 CLD 값으로부터 산출된 이득 계수이다.

상기와 같은 본 발명의 일실시예에 따르면, 공간큐의 변화량을 다채널 신호의 생성에 반영함으로써 오디오 신호의 가상음원 위치를 제어할 수 있다.

이상에서는 본 발명이 장치의 관점에서 기술되었으나, 당업자는 본 명세서의 기재로부터 본 발명이 방법의 관점으로도 구성될 수 있다는 것을 용이하게 이해할 수 있다.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(시디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등 )에 저장될 수 있다.

이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진자에게 있어서 명백하다 할 것이다.

상기와 같이 본 발명에 따르면 다객체 또는 다채널 오디오 신호를 디코딩하는 과정에서 공간큐를 이용하여 다객체 또는 다채널 오디오 신호의 랜더링을 제어하는 방법 및 장치를 제공할 수 있다.

Claims

오디오 신호 랜더링 제어 장치에 있어서,

공간큐 기반 오디오 코딩(Spatial Audio Coding, SAC) 방식의 인코딩 수단으로부터 전송되는 입력 오디오 신호인 다운믹스 신호를 SAC 방식으로 디코딩하는 디코딩 수단; 및

상기 인코딩 수단으로부터 전송되는 공간큐 정보 및 상기 입력 오디오 신호의 랜더링에 대한 제어정보를 입력받아 상기 제어정보에 기초하여 공간큐 영역에서 상기 공간큐 정보를 제어하는 공간큐 랜더링 수단

을 포함하되,

상기 디코딩 수단은,

상기 공간큐 랜더링 수단에 의해 제어된 공간큐 정보에 기초하여 상기 입력 오디오 신호의 랜더링을 수행하는

오디오 신호 랜더링 제어 장치.
제1항에 있어서,

상기 공간큐 정보는

입력 오디오 신호간의 레벨 차를 나타내는 정보이고,

상기 공간큐 랜더링 수단은

상기 입력 오디오 신호간의 레벨 차를 나타내는 정보 및 상기 입력 오디오 신호의 랜더링에 대한 제어정보에 기초하여 조절함으로써 상기 오디오 신호 각각의 제어된 파워이득을 산출하는

오디오 신호 랜더링 제어 장치.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제