KR101049144B1

KR101049144B1 - 오디오 신호 처리방법 및 장치

Info

Publication number: KR101049144B1
Application number: KR1020107000172A
Authority: KR
Inventors: 정양원; 오현오
Original assignee: 엘지전자 주식회사
Priority date: 2007-06-08
Filing date: 2008-06-09
Publication date: 2011-07-18
Also published as: EP2278582A3; EP2278582B1; JP5291096B2; KR20100024477A; CN103299363A; US20100145487A1; EP2158587A1; US8644970B2; EP2158587A4; EP2278582A2; WO2008150141A1; ES2593822T3; JP2010529500A; CN103299363B

Abstract

본 발명은, 적어도 하나 이상의 오브젝트 신호가 다운믹스된 다운믹스 정보를 수신하는 단계, 오브젝트 정보를 포함하는 부가 정보와, 믹스 정보를 획득하는 단계, 상기 획득된 부가 정보와 믹스 정보에 기초하여 멀티 채널 정보를 생성하는 단계 및 상기 멀티 채널 정보를 이용하여 상기 다운믹스 정보로부터 출력 채널 신호를 생성하는 단계를 포함하되, 상기 오브젝트 정보는 상기 오브젝트 신호의 레벨 정보, 상관 정보, 게인 정보 및 그들의 보충 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법을 제공한다.

Description

오디오 신호 처리방법 및 장치{A METHOD AND AN APPARATUS FOR PROCESSING AN AUDIO SIGNAL}

본 발명은 오디오 신호의 처리 방법 및 장치에 관한 것으로, 보다 상세하게는 디지털 매체, 방송 신호 등으로 수신된 오디오 신호를 처리할 수 있는 오디오 신호의 처리 방법 및 장치에 관한 것이다.

오브젝트 기반의 오디오 신호를 처리함에 있어서, 일반적으로 입력 신호를 구성하는 하나의 오브젝트는 독립적인 오브젝트로서 처리된다. 이때, 각 오브젝트 간에는 상관성이 존재할 수 있기 때문에, 이러한 상관성을 이용하여 코딩할 경우 보다 효율적인 코딩이 가능할 수 있다.

Technical Problem

본 발명의 목적은 오디오 신호의 처리 효율을 높이고자 함에 있다.

Technical Solution

본 발명은 오브젝트 기반의 오디오 신호를 처리함에 있어서, 보조 파라미터를 이용함으로써 보다 효율적인 신호 처리 방법을 제공한다.

본 발명은 일부 오브젝트 신호만을 제어함으로써 보다 효율적인 신호 처리 방법을 제공한다.

본 발명은 오브젝트 기반의 오디오 신호를 처리함에 있어서, 각 오브젝트 간의 상관성을 이용하여 신호를 처리할 수 있는 방법을 제공한다.

본 발명은 그룹핑된 오브젝트들의 상관성을 나타내는 정보를 획득하는 방법을 제공한다.

본 발명은 신호를 보다 효율적으로 전송할 수 있는 방법을 제공한다.

본 발명은 다양한 음향 효과를 얻을 수 있는 신호 처리 방법을 제공한다.

본 발명은 사용자가 소스 신호를 이용하여 믹스 신호를 변형할 수 있는 신호 처리 방법을 제공한다.

Advantageous Effects

서로 밀접한 상관성을 가지는 오브젝트 신호들의 경우, 그 상관성을 이용함으로써 오디오 신호의 처리 효율을 높일 수 있다. 또한, 각 오브젝트에 대한 구체적인 속성 정보를 전송함으로써 사용자가 원하는 오브젝트에 대하여 직접적이고 세밀한 컨트롤을 가능하게 할 수 있다.

도 1은 본 발명이 적용되는 실시예로서, 오디오 신호 처리 장치의 구성도를 나타낸다.

도 2는 본 발명이 적용되는 실시예로서, 믹스 정보를 이용하여 출력 채널 신호를 만드는 방법을 설명하기 위해 나타낸 것이다.

도 3은 본 발명이 적용되는 실시예로서, 보다 효율적인 오디오 신호의 처리 방법을 설명하기 위한 흐름도이다.

도 4는 본 발명이 적용되는 실시예로서, 보다 효율적으로 오브젝트 신호를 전송하기 위한 오디오 신호 처리 장치의 개략적인 블록도를 나타낸다.

도 5는 본 발명이 적용되는 실시예로서, 역 제어(reverse control)를 이용한 오브젝트 신호의 처리 방법을 설명하기 위한 흐름도이다.

도 6 및 도 7은 본 발명이 적용되는 다른 실시예로서, 역 제어(reverse control)를 이용하여 오브젝트 신호를 처리하는 오디오 신호 처리 장치의 블록도이다.

도 8은 본 발명이 적용되는 실시예로서, 오브젝트에 대한 메타 정보를 포함하는 비트스트림의 구조를 나타낸다.

도 9는 본 발명이 적용되는 실시예로서, 효율적인 오디오 신호를 전송하기 위한 신택스 구조를 나타낸다.

도 10 내지 도 12는 본 발명이 적용되는 실시예로서, 소스 파워의 전송을 위한 무손실 코딩 과정을 설명하기 위해 나타낸 것이다.

도 13은 본 발명이 적용되는 실시예로서, 유저 인터페이스(user interface)를 설명하기 위해 나타낸 것이다.

Best Mode for Carrying Out the Invention

본 발명은, 적어도 하나 이상의 오브젝트 신호가 다운믹스된 다운믹스 정보를 수신하는 단계, 오브젝트 정보를 포함하는 부가 정보와, 믹스 정보를 획득하는 단계, 상기 획득된 부가 정보와 믹스 정보에 기초하여 멀티 채널 정보를 생성하는 단계 및 상기 멀티 채널 정보를 이용하여, 상기 다운믹스 정보로부터 출력 채널 신호를 생성하는 단계를 포함하되, 상기 오브젝트 정보는 상기 오브젝트 신호의 레벨 정보, 상관 정보, 게인 정보 및 그들의 보충 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법을 제공한다.

또한, 본 발명은, 상기 보충 정보는, 상기 오브젝트 신호의 게인 정보의 실제 값과 추정값 간의 차이 정보를 포함하는 것을 특징으로 한다.

또한, 본 발명은, 상기 믹스 정보는 상기 오브젝트 신호의 위치 정보, 게인 정보 및 재생 환경 정보 중 적어도 하나에 근거하여 생성된 것을 특징으로 한다.

또한, 본 발명은, 상기 오브젝트 정보와 상기 믹스 정보를 이용하여 역처리 수행 여부를 결정하는 단계와 상기 결정에 따라 역처리가 수행되는 경우, 게인 보상을 위한 역처리 게인값을 획득하는 단계를 더 포함하되, 상기 역처리는, 변경되는 오브젝트의 개수가 변경되지 않는 오브젝트의 개수보다 많은 경우, 상기 변경되지 않는 오브젝트를 기준으로 게인 보상하는 것을 나타내고, 상기 출력 채널 신호는 상기 역처리 게인값에 기초하여 생성되는 것을 특징으로 하는 오디오 신호 처리 방법을 제공한다.

또한, 본 발명은, 상기 오브젝트 신호의 레벨 정보는, 상기 믹스 정보에 기초하여 수정된 레벨 정보를 포함하고, 상기 멀티 채널 정보는, 상기 수정된 레벨 정보에 기초하여 생성되는 것을 특징으로 한다.

또한, 본 발명은, 상기 수정된 레벨 정보는, 특정 오브젝트 신호의 크기가 소정의 문턱값을 기준으로 증폭 또는 감소되는 경우, 상기 오브젝트 신호의 레벨 정보에 1보다 큰 상수를 곱하여 생성되는 것을 특징으로 한다.

또한, 본 발명은, 적어도 하나 이상의 오브젝트 신호가 다운믹스된 다운믹스 정보를 수신하는 단계, 오브젝트 정보를 포함하는 부가 정보와, 믹스 정보를 획득하는 단계, 상기 획득된 부가 정보와 믹스 정보에 기초하여 멀티 채널 정보를 생성하는 단계 및 상기 멀티 채널 정보를 이용하여, 상기 다운믹스 정보로부터 출력 채널 신호를 생성하는 단계를 포함하되, 상기 오브젝트 정보는 상기 오브젝트 신호의 레벨 정보, 상관 정보 및 게인 정보 중 적어도 하나를 포함하고, 상기 오브젝트 정보들과 상기 믹스 정보 중 적어도 하나는 양자화된 것을 특징으로 하는 오디오 신호 처리 방법을 제공한다.

또한, 본 발명은, 오브젝트 간 그룹을 이루는지 여부를 나타내는 커플링 정보를 획득하는 단계를 더 포함하고, 오브젝트 신호의 상관 정보는, 상기 커플링 정보에 기초하여 획득되는 것을 특징으로 한다.

또한, 본 발명은, 상기 커플링 정보에 기초하여 그룹핑된 오브젝트들에 대하여 공통된 하나의 메타 정보를 획득하는 단계를 더 포함하는 것을 특징으로 한다.

또한, 본 발명은, 상기 메타 정보는 메타 데이터의 문자 개수와 각 문자 정보를 포함하는 것을 특징으로 한다.

또한, 본 발명은, 적어도 하나 이상의 오브젝트 신호가 다운믹스된 다운믹스 정보를 수신하는 단계, 오브젝트 정보와 커플링 정보를 포함하는 부가 정보, 및 믹스 정보를 획득하는 단계, 상기 획득된 부가 정보와 믹스 정보에 기초하여 멀티 채널 정보를 생성하는 단계 및 상기 멀티 채널 정보를 이용하여, 상기 다운믹스 정보 로부터 출력 채널 신호를 생성하는 단계를 포함하되, 상기 오브젝트 신호는 독립 오브젝트 신호와 백그라운드 오브젝트 신호로 구분되고, 상기 오브젝트 정보는 상기 오브젝트 신호의 레벨 정보, 상관 정보 및 게인 정보 중 적어도 하나를 포함하며, 상기 오브젝트 신호의 상관 정보는 상기 커플링 정보에 기초하여 획득되는 것을 특징으로 하는 오디오 신호 처리 방법을 제공한다.

또한, 본 발명은, 상기 독립 오브젝트 신호는 보컬 오브젝트 신호를 포함하는 것을 특징으로 한다.

또한, 본 발명은, 상기 백그라운드 오브젝트 신호는 반주(accompaniment) 오브젝트 신호를 포함하는 것을 특징으로 한다.

또한, 본 발명은, 상기 백그라운드 오브젝트 신호는 하나 이상의 채널 기반 신호를 포함하는 것을 특징으로 한다.

또한, 본 발명은, 상기 오브젝트 신호는, 플래그 정보에 기초하여 독립 오브젝트 신호와 백그라운드 오브젝트 신호로 구분되는 것을 특징으로 한다.

또한, 본 발명은, 상기 오디오 신호는, 방송 신호로서 수신된 것임을 특징으로 한다.

또한, 본 발명은, 상기 오디오 신호는, 디지털 미디엄을 통해 수신된 것임을 특징으로 한다.

또한, 본 발명은, 제 1항에 기재된 방법을 실행하기 위한 프로그램이 저장된 컴퓨터로 읽을 수 있는 기록 매체를 제공한다.

또한, 본 발명은, 적어도 하나 이상의 오브젝트 신호가 다운믹스된 다운믹스 정보를 수신하는 다운믹스 처리부, 오브젝트 정보를 포함하는 부가 정보와, 믹스 정보를 획득하고, 상기 획득된 부가 정보와 믹스 정보에 기초하여 멀티 채널 정보를 생성하는 정보 생성부 및 상기 멀티 채널 정보를 이용하여, 상기 다운믹스 정보로부터 출력 채널 신호를 생성하는 멀티 채널 디코딩부를 포함하되, 상기 오브젝트 정보는 상기 오브젝트 신호의 레벨 정보, 상관 정보, 게인 정보 및 그들의 보충 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 오디오 신호 처리 장치를 제공한다.

또한, 본 발명은, 적어도 하나 이상의 오브젝트 신호가 다운믹스된 다운믹스 정보를 수신하는 다운믹스 처리부, 오브젝트 정보를 포함하는 부가 정보와, 믹스 정보를 획득하고, 상기 획득된 부가 정보와 믹스 정보에 기초하여 멀티 채널 정보를 생성하는 정보 생성부 및 상기 멀티 채널 정보를 이용하여, 상기 다운믹스 정보로부터 출력 채널 신호를 생성하는 멀티 채널 디코딩부를 포함하되, 상기 오브젝트 정보는 상기 오브젝트 신호의 레벨 정보, 상관 정보 및 게인 정보 중 적어도 하나를 포함하고, 상기 오브젝트 정보들과 상기 믹스 정보 중 적어도 하나는 양자화된 것을 특징으로 하는 오디오 신호 처리 장치를 제공한다.

또한, 본 발명은, 적어도 하나 이상의 오브젝트 신호가 다운믹스된 다운믹스 정보를 수신하는 다운믹스 처리부, 오브젝트 정보와 커플링 정보를 포함하는 부가 정보, 및 믹스 정보를 획득하고, 상기 획득된 부가 정보와 믹스 정보에 기초하여 멀티 채널 정보를 생성하는 정보 생성부 및 상기 멀티 채널 정보를 이용하여, 상기 다운믹스 정보로부터 출력 채널 신호를 생성하는 멀티 채널 디코딩부를 포함하되, 상기 오브젝트 신호는 독립 오브젝트 신호와 백그라운드 오브젝트 신호로 구분되고, 상기 오브젝트 정보는 상기 오브젝트 신호의 레벨 정보, 상관 정보 및 게인 정보 중 적어도 하나를 포함하며, 상기 오브젝트 신호의 상관 정보는 상기 커플링 정보에 기초하여 획득되는 것을 특징으로 하는 오디오 신호 처리 장치를 제공한다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예의 구성과 그 작용을 설명하며, 도면에 의해서 설명되는 본 발명의 구성과 작용은 하나의 실시예로서 설명되는 것이며, 이것에 의해서 본 발명의 기술적 사상과 그 핵심 구성 및 작용이 제한되지는 않는다.

아울러, 본 발명에서 사용되는 용어는 가능한 한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 특정한 경우는 출원인이 임의로 선정한 용어를 사용하여 설명한다. 그러한 경우에는 해당 부분의 상세 설명에서 그 의미를 명확히 기재하므로, 본 발명의 설명에서 사용된 용어의 명칭만으로 단순 해석되어서는 안 될 것이며 그 해당 용어의 의미까지 파악하여 해석되어야 함을 밝혀두고자 한다.

특히, 본 명세서에서 정보(information)란, 값(values), 파라미터(parameters), 계수(coefficients), 성분(elements) 등을 모두 아우르는 용어로서, 경우에 따라 그 의미는 달리 해석될 수 있는 바, 그러나 본 발명은 이에 한정되지 아니한다.

도 1을 참조하면, 본 발명의 실시예에 따른 오디오 신호 처리 장치(100)는 정보 생성 유닛(110), 다운믹스 프로세싱 유닛(120), 멀티채널 디코더(130)를 포함할 수 있다.

정보 생성 유닛(information generating unit)(110)은 오브젝트 정보(object information)(OI) 등을 포함하는 부가 정보(side information)를 오디오 신호 비트스트림을 통해 수신하고, 사용자 인터페이스를 통해 믹스 정보(mix information) (MXI)를 수신할 수 있다. 여기서, 오브젝트 정보(OI)는 다운믹스 신호 내에 포함되어 있는 오브젝트들에 관한 정보로서, 오브젝트 레벨 정보(object level information), 오브젝트 상관 정보(object correlation information), 오브젝트 게인 정보(object gain information), 메타 정보(meta information) 등을 포함할 수 있다.

상기 오브젝트 레벨 정보(object level information)는 참조 정보(reference information)을 이용하여 오브젝트 레벨을 정규화함으로써 생성된 것으로, 상기 참조 정보(reference information)는 오브젝트 레벨 중 하나일 수 있으며, 상세하게는, 모든 오브젝트 레벨 중 가장 큰 레벨일 수 있다. 상기 오브젝트 상관 정보(object correlation information)는 두 개의 오브젝트 간의 연관성을 나타내는 것으로, 선택된 두 개의 오브젝트가 동일한 기원(origin)을 갖는 스테레오 출력의 각기 다른 채널의 신호임을 나타낼 수 있다. 상기 오브젝트 게인 정보(object gain information)는 다운믹스 신호(DMX)를 생성하기 위하여, 각각의 다운믹스 신호의 채널에 대한 오브젝트의 기여도에 관한 값을 나타낼 수 있으며, 상세하게는 오브젝 트의 기여도를 변형시키기 위한 값을 나타낼 수 있다.

또한, 프리셋 정보(preset information)(PI)는, 프리셋 위치 정보(preset position information), 프리셋 게인 정보(preset gain information), 및 재생 환경 정보(playback configuration information) 등을 근거로 생성된 정보를 나타낼 수 있다.

상기 프리셋 위치 정보(preset position information)란, 각각의 오브젝트의 위치 또는 패닝(panning)을 제어하기 위하여 설정된 정보를 나타낼 수 있다. 상기 프리셋 게인 정보(preset gain information)는 각각의 오브젝트의 게인을 제어하기 위하여 설정된 정보로, 오브젝트별 게인 팩터를 포함하며, 상기 오브젝트별 게인 팩터는 시간에 따라 변화할 수 있다.

상기 프리셋 정보(PI)는, 오디오 신호에 대하여 특정의 음장감 또는 효과를 얻기 위하여, 특정 모드에 해당하는 오브젝트 위치 정보, 오브젝트 게인 정보, 및 재생 환경 정보를 기 설정한 것을 의미할 수 있다. 예를 들어, 프리셋 정보 중 가라오케 모드(karaoke mode)는 보컬 오브젝트의 게인을 0 값으로 만드는 프리셋 게인 정보를 포함할 수 있다. 또는 프리셋 정보 중 스타디움 모드(stadium mode)는 오디오 신호가 넓은 공간 안에 있는 효과를 부여하기 위한 프리셋 위치 정보 및 프리셋 게인 정보를 포함할 수 있다. 따라서, 사용자가 각각의 오브젝트의 게인 또는 패닝을 조절할 필요 없이, 기 설정된 프리셋 정보(PI) 중 원하는 모드를 선택함으로써 손쉽게 오브젝트의 게인 또는 패닝을 조절할 수 있다.

다운믹스 프로세싱 유닛(120)은 다운믹스 정보(이하, 다운믹스 신호(DMX))를 수신하고, 다운믹스 프로세싱 정보(DPI)를 이용하여 다운믹스 신호(DMX)를 프로세싱한다. 오브젝트의 패닝 또는 게인을 조절하기 위해 다운믹스 신호(DMX)를 프로세싱할 수 있다.

멀티채널 디코더(multi-channel decoder)(130)는 프로세싱된 다운믹스(processed downmix)를 수신하고, 멀티채널 정보(MI)를 이용하여 프로세싱된 다운믹스 신호를 업믹싱하여 멀티채널 신호를 생성할 수 있다.

본 발명에서 사용되는 다운믹스 신호는 모노, 스테레오 및 멀티채널 오디오 신호를 포함할 수 있다. 예를 들어, 상기 스테레오 신호(stereo signal)를

및

라 할 경우, 상기 스테레오 신호는 소스 신호들의 합으로 표현될 수 있다. 여기서, n은 타임 인덱스를 의미한다. 따라서, 상기 스테레오 신호는 아래의 [수학식 1]과 같이 표현될 수 있다.

[수학식 1]

여기서, I는 스테레오 신호 내에 포함되는 소스 신호들의 개수이고,

은 소스 신호들을 나타낸다. a_i및 b_i는 각각의 소스 신호에 대한 진폭 패닝 (amplitude panning) 및 게인(gain)을 결정하는 값이다. 모든

들은 서로 독립적일 수 있다. 상기

는 모두 순수한 소스 신호이거나, 또는 순수한 소스 신호에 약간의 잔향(reverberation) 및 효과음 신호성분(sound effect signal components)을 포함할 수 있다. 예를 들면, 특정한 잔향 신호성분은 2개의 소스 신호, 즉, 왼쪽 채널로 믹스된 신호와 오른쪽 채널로 믹스된 신호로 표현될 수 있다.

본 발명의 실시예로서, M개(0 ＜ = M ＜ = I)의 소스 신호들이 리믹스 되도록, 상기 소스 신호를 포함하는 스테레오 신호를 수정할 수 있다. 상기 소스 신호들은 서로 다른 게인 팩터들을 가지면서 스테레오 신호로 리믹스될 수 있다. 리믹스 신호는 아래의 [수학식 2]와 같이 표현될 수 있다.

[수학식 2]

여기서, c_i 및 d_i는 리믹스되는 M개의 소스 신호들에 대한 새로운 게인 팩터들이다. 상기 c_i및 d_i는 디코더 단에서 제공될 수 있다.

본 발명의 실시예로서, 전송된 입력 채널 신호는 믹스 정보에 기초하여 출력 채널 신호로 변형될 수 있다.

여기서, 믹스 정보(MXI)란, 오브젝트 위치 정보(object position information), 오브젝트 게인 정보(object gain information), 및 재생 환경 정보(playback configuration information) 등을 근거로 생성된 정보를 나타낼 수 있다. 여기서, 상기 오브젝트 위치 정보란, 사용자가 각 오브젝트의 위치 또는 패닝(panning)를 제어하기 위해 입력한 정보를 나타낼 수 있다. 상기 오브젝트 게인 정보란, 사용자가 각 오브젝트의 게인(gain)을 제어하기 위해 입력한 정보를 나타낼 수 있다. 그리고, 상기 재생 환경 정보는, 스피커의 개수, 스피커의 위치, 앰비언트 정보(speaker의 가상 위치) 등을 포함하는 정보로서, 사용자로부터 입력받을 수도 있고, 미리 저장되어 있을 수도 있으며, 다른 장치로부터 수신할 수도 있다.

또한, 상기 믹스 정보는 특정 오브젝트가 특정 출력 채널에 포함되는 정도를 직접 나타내는 것도 가능하고, 입력 채널의 상태에 대한 차이값만을 나타내는 것도 가능하다. 상기 믹스 정보는 한 컨텐츠 내에서 동일한 값을 사용할 수도 있고, 혹은 시변하는 값을 사용할 수도 있다. 시변하는 경우, 시작 상태와 종료 상태, 변화 시간을 입력하여 이용하는 것도 가능하고, 변화하는 시점의 시간 인덱스와 그 시점의 상태에 대한 값을 입력하여 이용하는 것도 가능하다.

본 발명의 실시예에서는 설명의 편의를 위해 상기 믹스 정보가 수학식 1과 같은 형태로 특정 오브젝트가 특정 출력 채널에 포함되는 정도를 나타내는 경우에 대해 설명하도록 한다. 이 경우, 각 출력 채널은 상기 수학식 2와 같이 구성될 수 있다. 여기서, 상기 a_i, b_i와 상기 c_i, d_i를 구별하기 위해 상기 a_i, b_i를 믹스 게인이라 하고, 상기 c_i, d_i를 재생 믹스 게인이라 부르기로 하자.

만약, 믹스 정보가 재생 믹스 게인으로 주어지지 않고, 게인과 패닝으로 주어지는 경우를 생각해보자. 게인(g_i)과 패닝(l_i)은 아래 수학식 3과 같이 주어질 수 있다.

[수학식 3]

g_i= 10log₁₀(c_i ²+d_i ²)

l_i = 20log₁₀(d_i/c_i)

따라서, 상기 g _i,l_i를 이용하여 상기 c_i, d_i를 얻을 수 있다. 여기서, 상기 게인과 패닝, 믹스 게인의 관계식은 다른 형태로도 표현될 수 있음은 자명한 일이다.

상기 도 1의 다운믹스 프로세싱 유닛(120)에서는 입력 채널 신호에 특정 계수를 곱하여 출력 채널 신호를 얻을 수 있다. 도 2를 참조하면, x1, x2를 입력 채널 신호라 하고, y1, y2 를 출력 채널 신호라 할 경우, 상기 실제 출력 채널 신호는 아래 수학식 4와 같을 수 있다.

[수학식 4]

y1_hat = w11 * x1 + w12 * x2

y2_hat = w21 * x1 + w22 * x2

여기서, yi_hat은, 상기 수학식 2에서 유도한 이론적인 출력값과 구분하기 위한 출력값을 나타낸다. w11 ∼ w22 는 가중 팩터들(weighting factors)을 의미할 수 있다. 그리고, xi, wij, yi 는 각각 특정 시간에서의 특정 주파수의 신호일 수 있다.

본 발명의 일실시예에서는, 가중 팩터들을 사용하여 효율적인 출력 채널을 획득할 수 있는 방법을 제공한다.

상기 가중 팩터들은 다양한 방법으로 추정될 수 있으나, 본 발명에서는 최소자승추정법(least square estimation)이 이용될 수 있다. 이때, 생성되는 추정 에러는 아래 수학식 5와 같이 정의될 수 있다.

[수학식 5]

e1 = y1 - y1_hat

e2 = y2 - y2_hat

상기 가중 팩터들은 평균제곱오차(mean square error), E{e1²} 및 E{e2²}가 최소가 되도록 서브밴드별로 생성될 수 있다. 이때, 상기 추정 에러가 상기 x1 및 x2에 직교(orthogonal)될 때, 상기 평균제곱오차가 최소가 된다는 것을 이용할 수 있다. w11 및 w12는 아래의 수학식 6과 같이 표현될 수 있다.

[수학식 6]

그리고,

및

은 아래의 수학시 7과 같이 생성될 수 있다.

[수학식 7]

마찬가지로, w21 및 w22는 아래의 수학식 8과 같이 생성될 수 있다.

[수학식 8]

그리고,

및

는 아래의 수학식 9와 같이 표현될 수 있다.

[수학식 9]

본 발명이 적용되는 실시예로서, 오브젝트 기반의 코딩에서 부가 정보를 구성하거나 출력 신호를 생성하기 위하여 오브젝트 신호의 에너지 정보(또는 레벨 정보)를 이용할 수 있다.

예를 들어, 부가 정보를 구성하는 경우, 오브젝트 신호의 에너지를 전송하거나, 혹은 오브젝트 신호 간의 상대적인 에너지 값을 전송하거나, 혹은 오브젝트 신호와 채널 신호 간의 상대적인 에너지 값을 전송하는 것이 가능하다. 또한, 출력 신호를 생성하는 경우에도, 오브젝트 신호의 에너지를 이용할 수 있다.

입력 채널 신호와 부가 정보, 믹스 정보를 이용하여 원하는 음향 효과를 갖는 출력 채널 신호를 생성할 수 있다. 상기 출력 채널 신호를 생성하는 과정에서 오브젝트 신호의 에너지 정보가 이용될 수 있다. 상기 오브젝트 신호의 에너지 정보는 부가 정보에 포함될 수 있고, 또는 부가 정보와 채널 신호를 이용하여 추정된 것일 수 있다. 또한, 상기 오브젝트 신호의 에너지 정보를 변형하여 사용하는 것도 가능하다.

본 발명의 실시예에서는, 출력 채널 신호의 품질을 향상시키기 위하여 상기 오브젝트 신호의 에너지 정보를 변형하는 방법을 제안한다. 본 발명에 따르면, 유저의 컨트롤에 따라 전송된 에너지 정보를 변형할 수 있다.

상기 수학식 7, 9 를 참조하면, 오브젝트 신호의 에너지 정보 E{s_i ²} 가 출력 채널 신호의 생성을 위한 가중 팩터들(w11∼w22)을 획득하기 위해 이용되는 것을 알 수 있다. 본 발명의 실시예에서는 자기 채널 계수 (w11, w22) 와 교차 채널 계수 (w21, w12) 를 이용하여 출력 채널 신호를 생성하는 방법에 관한 것이나, 다른 방법을 이용하는 경우에도 위와 같이 오브젝트 신호의 에너지 정보가 이용될 수 있음은 자명하다.

본 발명에서는, 출력 채널의 가중 팩터들을 획득하기 위한 과정에서, 오브젝트 신호의 레벨 정보(또는 에너지 정보)를 수정하여 사용하는 방법을 제안한다. 예를 들어, 다음 수학식 10을 이용할 수 있다.

[수학식 10]

E{x1*y1} = E{x1²} + Σ [a_i*(c_i - a_i)E_mod{s_i ²}]

E{x2*y1} = E{x1*x2} + Σ [b_i*(c_i - a_i)E_mod{s_i ²}]

E{x1*y2} = E{x1*x2} + Σ [a_i*(d_i - b_j)E_mod{s_i ²}]

E{x2*y2} = E{x2²} + Σ [b_i*(d_i - b_i)E_mod{s_i ²}]

상기 수정된 레벨 정보(E_mod)는 오브젝트 신호에 따라 독립적으로 적용될 수 있고, 또는 모든 오브젝트 신호에 대해 동일하게 적용될 수 있다.

또한, 상기 오브젝트 신호의 수정된 레벨 정보는 믹스 정보에 기초하여 생성될 수 있다. 그리고, 상기 수정된 레벨 정보에 기초하여 멀티 채널 정보를 생성할 수 있다. 예를 들어, 특정 오브젝트 신호의 크기를 크게 변화시키는 경우, 상기 특정 오브젝트 신호의 레벨 정보에 일정한 값을 곱함으로써 수정된 레벨 정보를 획득할 수 있다. 여기서, 상기 특정 오브젝트 신호의 크기는 소정의 문턱값을 기준으로 크게 증폭 또는 감소되는지 여부를 판단할 수 있다. 상기 소정의 문턱값은, 예를 들어, 다른 오브젝트 신호의 크기에 대한 상대적인 값일 수 있다. 또는 인간의 지각 심리에 따른 특정값일 수 있으며, 또는 다양한 실험에 따른 계산값일 수 있다. 그리고, 상기 특정 오브젝트 신호의 레벨 정보에 곱해지는 일정한 값은, 예를 들어, 1보다 큰 상수일 수 있다. 상기 예들은 아래에서 보다 상세히 설명될 것이다.

상기 수학식 10의 E_mod{s_i ²}는 E{s_i ²}을 이용하여 다음 수학식 11과 같이 변형될 수 있다.

[수학식 11]

E_mod{s_i ²} = alpha * E{s_i ²}

여기서, alpha는 재생 믹스 정보와 원 믹스 게인과의 관계에 따라 다음과 같이 주어질 수 있다. 그리고, 각 오브젝트 신호에 따라 독립적으로 오브젝트 신호의 에너지 정보가 변형될 경우, 상기 alpha는 alpha_i로 표현될 수 있음은 자명하다. 예를 들어, s_i 가 크게 감소하는 경우, alpha ＞ 1일 수 있다. s_i 가 적절하게 감소 하거나 증가하는 경우, alpha = 1 일 수 있다. 그리고, s_i 가 크게 증가하는 경우, alpha ＞ 1 일 수 있다.

여기서, s_i 가 감소되거나 증가되는 것은 원 믹스 게인인 a_i, b_i와 재생 믹스 게인인 c_i, d_i의 관계를 통해서 알 수 있다. 예를 들어, a_i ²+ b_i ² ＞ c_i ² + d_i ²이면, 상기 s_i는 감소되는 것이다. 반대로, a_i ² + b_i ² ＜ c_i ² + d_i ²이면, 상기 s_i는 증가되는 것이다. 따라서, 다음 수학식 12 내지 14와 같은 방식으로 상기 alpha 값을 조절하는 것이 가능하다.

[수학식 12]

(a_i ² + b_i ²) / (c_i ² + d_i ²)＞ Thr_atten

alpha = alpha_atten, alpha_atten ＞ 1

[수학식 13]

(a_i ² + b_i ²) / (c_i ² + d_i ²) ＜ Thr_boost

alpha = alpha_boost, alpha_boost ＞ 1

[수학식 14]

Thr_atten ＞ (a_i ² + b_i ²) / (c_i ² + d_i ²) ＞ Thr_boost

alpha = 1

여기서, 상기 Thr_atten와 Thr_boost는 문턱값을 의미할 수 있다. 상기 문턱값은, 예를 들어, 인간의 지각 심리에 따른 특정값일 수 있으며, 또는 다양한 실험에 따른 계산값일 수 있다. 또한, 상기 alpha_atten 은 alpha_atten ＞= alpha_boost 의 특성을 가질 수 있다.

또한, 본 발명에서는 E_mod{s_i ²}가 E{s_i ²} 에 비해 2dB 의 이득을 얻을 수 있도록 상기 alpha_atten 을 이용할 수 있다.

또한, 본 발명에서는 상기 alpha_atten 값으로 10^0.2 을 사용할 수 있다.

본 발명의 다른 실시예에서는 동일한 E_mod{s_i ²}를 이용하는 것이 아니라, 가중 팩터들을 획득하는데 있어 독립적인 E_mod{s_i ²}를 이용할 수 있다.

예를 들어, 다음 수학식 15를 이용할 수 있다.

[수학식 15]

E{x1*y1} = E{x1²} + Σ [a_i*(c_i - a_i)E_mod1{s_i ²}]

E{x2*y1} = E{x1*x2} + Σ [b_i*(c_i - a_i)E_mod1{s_i ²}]

E{x1*y2} = E{x1*x2} + Σ [a_i*(d_i - b_i)E_mod2{s_i ²}]

E{x2*y2} = E{x2²} + Σ [b_i*(d_i - b_i)E_mod2{s_i ²}]

마찬가지로, 상기 수학식 15의 E_mod1{s_i ²}과 E_mod2{s_i ²}는 E{s_i ²}을 이용하여 다음 수학식 16과 같이 변형될 수 있다.

[수학식 16]

E_mod1{s_i ²} = alpha1 * E{s_i ²}

E_mod2{s_i ²} = alpha2 * E{s_i ²}

여기서 E_mod1, alpha1 은 y1 을 생성하는데 기여되는 값이며, E_mod2, alpha2는 y2를 생성하는데 기여되는 값이다.

상기 수학식 11에서 이용되는 E_mod_i{s_i ²} 은 다음과 같이 구별되어 사용될 수 있다. 예를 들어, s_i 가 출력 채널 신호에서 한쪽 채널에 대해서만 감소/증가된다고 가정하자. 이때, 반대 채널에 대해서는 E{s _i ²} 이 변형되어 사용될 필요가 없다. 상기 예와 같은 경우, s_i 가 좌측 채널에서만 억압(suppress)된다고 하면, 좌측 출력 채널 신호를 만드는 데에 사용되는 w11, w12 에 대해서만 E_mod 값을 이용할 수 있다. 이때, alpha1 = alpha_atten, alpha2 = 1 을 이용할 수 있다. 그리고, alpha_i 의 값을 결정하는 조건은 상기 수학식 12내지 14를 이용할 수 있다. 즉, 특정 오브젝트 신호가 특정 출력 채널에서 감소/증가되는 정도를 판단하여 상기 alpha_i 값을 사용할 수 있다.

본 발명의 다른 실시예로서, 다음 수학식 17, 18을 이용할 수 있다.

[수학식 17]

E{x1*y1} = E{x1²} + Σ [a_i*(c_i - a_i)E_mod11{s_i ²}]

E{x2*y1} = E{x1*x2} + Σ [b_i*(c_i - a_i)E_mod21{s_i ²}]

E{x1*y2} = E{x1*x2} + Σ [a_i*(d_i - b_i)E_mod12{s_i ²}]

E{x2*y2} = E{x2²} + Σ [b_i*(d_i - b_i)E_mod22{s_i ²}]

[수학식 17]

E_mod11{s_i ²} = alpha11 * E{s_i ²}

E_mod21{s_i ²} = alpha21 * E{s_i ²}

E_mod12{s_i ²} = alpha12 * E{s_i ²}

E_mod22{s_i ²} = alpha22 * E{s_i ²}

본 발명의 다른 실시예로서, 과도한 감소/증가가 요구되는 경우, 출력 채널 신호의 품질 향상을 위하여 E{s_i ²}를 변형하여 사용할 수 있다. 그러나. 교차 채널 을 이용하는 경우, 상기 E{s_i ²}를 변형하지 않고 사용하는 것이 요구될 수 있다. 이때, 상기 수학식 17에서, alpha21 = alpha12 = 1 로 놓고 사용함으로 이러한 요구를 만족시킬 수 있다.

또한, 반대로 자기 채널에 대해서는 오브젝트 신호의 에너지 정보를 변형하지 않고, 교차 채널에 대해서만 변형할 것이 요구될 때가 있다. 이러한 경우, alpha11 = alpha22 = 1 로 놓고 사용함으로 이러한 요구를 만족시킬 수 있다.

예시로 설명하지는 않았지만, 이와 유사한 방법으로 alpha11∼22 를 임의의 값으로 사용하는 것이 가능하며, 이러한 alpha 값들의 선택에는 입력 채널 신호, 부가 정보, 재생 믹스 정보 등이 활용될 수 있고, 또는 원 믹스 게인과 재생 믹스 게인의 관계가 활용될 수도 있다.

또한, 예시에서는 alpha 값이 1과 같거나 1보다 큰 경우에 대하여 설명하였으나, alpha 값이 1 보다 작은 경우도 활용될 수 있음은 자명하다.

한편, 인코더에서는 오브젝트 신호의 에너지 정보를 부가 정보에 포함하거나, 혹은 오브젝트 신호 간의 상대적인 에너지 값, 혹은 오브젝트 신호와 채널 신호 간의 상대적인 에너지 값을 부가 정보에 포함하는 것이 가능하다. 이러한 경우, 인코더에서는 오브젝트 신호의 에너지 정보를 변경하여 부가 정보를 구성할 수 있다. 예를 들어, 재생 효과를 극대화하기 위해 특정 오브젝트 신호의 에너지를 변경하거나, 혹은 전체 오브젝트 신호의 에너지를 변경하여 부가 정보를 구성할 수 있다. 이러한 경우, 디코더에서는 상기 변경을 복원하여 신호 처리를 수행할 수 있 다.

예를 들어, 상기 수학식 11과 같이 변형되어, E_mod{s_i ²} 가 부가 정보로 전송된 경우를 살펴보자. 이때, 디코더에서는 E_mod{s_i ²} 를 alpha 로 나누어 줌으로 E{s_i ²} 를 얻을 수 있다. 이때, 디코더에서는 선택적으로 전송된 E_mod{s_i ²} 및/또는 E{s_i ²} 를 이용할 수 있다. 상기 alpha 값은 부가 정보에 포함되어 전송될 수 있고, 혹은 디코더에서 전송된 입력 채널 신호와 부가 정보를 이용하여 추정할 수 있다.

본 발명이 적용되는 실시예로서, 사용자가 의도하는 음향 효과를 만들기 위해 가중 팩터들을 이용할 수 있다. 이 때, 상기 가중 팩터들 중 일부의 가중 팩터들만 이용될 수도 있다. 이러한 가중 팩터의 선택에는 입력 채널 간의 관계, 입력 채널의 특성, 전송된 부가 정보의 특성, 믹스 정보, 추정된 가중 팩터의 특성 등이 이용될 수 있다. 여기서, 설명의 편의상 w11, w22를 자기 채널 계수라 하고, w12, w21을 교차 채널 계수라 하자.

본 발명의 실시예로서, 가중 팩터들 중 일부를 이용하지 않는 경우 또는 일부만 이용할 경우, 사용되는 가중 팩터들이 재추정될 수 있다. 예를 들어, w11, w12, w21, w22 를 추정한 후 자기 채널 계수만 이용하기로 판단하였다면, w11, w22 를 이용하는 것이 아니라, w1, w2 를 추정한 후, w1, w2 를 이용하는 것이 가능할 수 있다. 이는, 상기 교차 채널 계수를 이용하지 않는 경우, y_i_hat 이 아래 수학 식 18과 같이 변경되고, 이에 따른 최소자승추정법이 변하기 때문이다.

[수학식 18]

y_1_hat = w1 * x1

y_2_hat = w2 * x2

이때, e_i 를 최소화하는 w1, w2 는 아래 수학식 19와 같이 추정될 수 있다.

[수학식 19]

w1 = E{x1*y1} / E{x1²}

w2 = E{x2*y2} / E{x2²}

한편, 가중 팩터들 중 일부만 이용할 경우, 그 경우에 적합하도록 y_i_hat 을 모델링하고, 최적의 가중 팩터를 추정하여 이용할 수 있다.

이하, 가중 팩터들을 활용할 수 있는 다양한 실시예들을 살펴보기로 한다.

첫번째 실시예로, 입력 채널의 일관성(coherence)에 기반한 방법이 있을 수 있다.

입력 신호의 채널 간 상관도가 매우 높다면, 각 채널에 포함된 신호는 서로 매우 유사할 수 있다. 이러한 경우, 교차 채널 계수를 이용하지 않고, 자기 채널 계수만 이용하여도 마치 교차 채널 계수를 이용한 것과 같은 효과를 얻을 수 있다.

예를 들어, 다음 수학식 20을 이용하여 입력 채널 간의 상관 정도를 추정할 수 있다.

[수학식 20]

Pi = E{x1*x2} / sqrt (E{x1²}E{x2²})

이때, 상기 Pi 값이 문턱값보다 큰 경우, 즉 Pi ＞ Pi_Threshold 일 경우, w12 과 w21 은 0으로 셋팅할 수 있다. 상기 Pi_Threshold는 문턱값을 의미할 수 있다. 상기 문턱값은, 예를 들어, 인간의 지각 심리에 따른 특정값일 수 있으며, 또는 다양한 실험에 따른 계산값일 수 있다. w11, w22 는 기존의 w11, w22 를 사용할 수 있고, 혹은 w11 = w1, w22 = w2 와 같이 w11, w22 와 다른 가중 팩터를 사용할 수도 있다. w1, w2 를 구하는 방법은 상기 수학식 19와 같은 방법을 이용할 수 있다.

두번째 실시예로, 가중 팩터의 노름(norm)을 이용한 방법이 있을 수 있다.

본 실시예에서는 가중 팩터들의 노름(norm)을 이용하여 다운믹스 프로세싱 유닛(120)에 활용될 가중 팩터를 선택할 수 있다.

먼저, 교차 채널이 활용되는 가중 팩터들인 w12, w21 를 포함하여 가중 팩터들 w11 ∼ w22 를 구할 수 있다. 이 때, 상기 가중 팩터들의 노름은 아래 수학식 21과 같이 구할 수 있다.

[수학식 21]

A = w11² + w12² + w21² + w22²

그리고, 교차 채널을 활용하지 않는 가중 팩터들 w1, w2 를 구할 수 있다. 이때, 가중 팩터들의 노름은 아래 수학식 22와 같이 구할 수 있다.

[수학식 22]

B = w1² + w2²

이때, A ＜ B 일 경우에는 가중 팩터들 w11∼w22 를 이용하고, B ＜ A 일 경우에는 가중 팩터들 w1, w2 를 이용할 수 있다. 즉, 4개의 가중 팩터를 이용하는 경우와 일부 가중 팩터를 이용하는 경우를 비교하여 보다 효율적인 방법을 선택할 수 있다. 상기 방법을 이용할 경우, 가중 팩터들의 크기가 너무 커서 시스템이 불안정해지는 경우를 방지할 수 있게 된다.

세번째 실시예로, 입력 채널의 에너지를 이용하는 방법이 있을 수 있다.

특정 채널이 에너지를 가지지 않는 경우, 즉 예를 들어 한쪽 채널에만 신호가 있는 경우에 대해 기존의 방법으로 w11∼w22 를 구할 경우, 원하지 않는 결과가 나올 수 있다. 이러한 경우에는 에너지를 가지고 있지 않은 입력 채널은 출력에 기여할 수 없기 때문에, 에너지가 없는 입력 채널의 가중 팩터는 0으로 셋팅할 수 있다.

특정 입력 채널이 에너지를 가지고 있는지 여부는 다음 수학식 23과 같은 방법으로 추정할 수 있다.

[수학식 23]

E{xi²} ＜ Threshold

이 경우, w11, w12 는 기존의 방법으로 구한 값을 이용하는 것이 아니라, x2 가 에너지가 없는 경우임을 고려하여 새로운 방법으로 추정될 수 있다. 마찬가지로, 상기 Threshold 값은 문턱값을 의미할 수 있다. 상기 문턱값은, 예를 들어, 인 간의 지각 심리에 따른 특정값일 수 있으며, 또는 다양한 실험에 따른 계산값일 수 있다.

예를 들어, x2 가 에너지가 없다면 출력 신호는 다음 수학식 24와 같을 수 있다.

[수학식 24]

y_1_hat = w11 * x1

y_2_hat = w21 * x2

그리고, w11,w21은 다음 수학식 25와 같이 추정될 수 있다.

[수학식 25]

w11 = E{x1*y1} / E{x1²}

w21 = E{x1*y2} / E{x1²}

이 때, w12 = w22 = 0 이 된다.

네번째 실시예로, 믹스 게인 정보를 이용하는 방법이 있을 수 있다.

오브젝트 기반의 코딩에서 교차 채널에 대한 가중 팩터가 필요한 경우로, 자기 채널의 입력 신호로부터 자기 채널의 출력 신호를 생성하지 못하는 경우가 있을 수 있다. 이는 한쪽 채널에만 포함된 신호(혹은 한쪽 채널에 주로 포함된 신호)를 다른 쪽 채널로 옮기는 경우에 발생할 수 있다. 즉, 특정 오브젝트가 특정 채널로 패닝된 입력에 대해 그 패닝 특성을 변경하고자 하는 경우에 발생할 수 있다.

이러한 경우에는 반드시 교차 채널에 대한 가중 팩터를 이용해야만 원하는 음향 효과를 얻을 수 있다. 이러한 경우를 검출하는 방법과 이때 가중 팩터를 어떻게 이용할 것인가에 대한 방법이 필요하다. 본 실시예에서는 검출 및 가중 팩터 활용 방법을 제안하도록 한다.

예를 들어, 처리되는 오브젝트 신호가 모노일 경우를 가정할 수 있다. 먼저, 오브젝트 신호가 모노인지 여부를 판단할 수 있다. 상기 오브젝트 신호가 모노인 경우, 측면으로 패닝되어 있는지를 판단할 수 있다. 이때, 측면으로의 패닝 여부는 ai / bi 를 이용하여 판단할 수 있다. 구체적 예로, ai / bi = 1 이라면, 상기 오브젝트 신호는 각 채널에 동일한 레벨로 포함되어 있음을 알 수 있고, 이는 상기 오브젝트 신호가 음향 공간 상에서 중앙에 위치함을 의미할 수 있다. 반면, ai / bi ＜ Thr_B 이라면, 상기 오브젝트 신호는 bi 가 가리키는 쪽(우측)으로 패닝된 상태임을 알 수 있다. 반대로, ai / bi ＞ Thr_A 라면, 상기 오브젝트 신호는 ai 가 가리키는 쪽(좌측)으로 패닝된 상태임을 알 수 있다. 여기서, Thr_A 값과 Thr_B 값은 문턱값을 의미할 수 있다. 상기 문턱값은, 예를 들어, 인간의 지각 심리에 따른 특정값일 수 있으며, 또는 다양한 실험에 따른 계산값일 수 있다.

상기 판단 결과에 따라 측면 패닝되었다면, 재생 믹스 게인에 의해 패닝이 바뀌는지를 판단한다. 패닝이 바뀌는지 여부는 ai/bi 값과 ci/di 값을 비교하여 판단할 수 있다. 예를 들어, ai / bi 가 우측으로 패닝된 상태라고 가정하자. 이때, ci/di 가 더 우측으로 패닝되는 경우, 교차 채널 계수는 필요하지 않을 수 있다. 그러나, ci/di 가 좌측으로 패닝되는 경우, 교차 채널 계수를 사용하여 좌측 출력 채널에 상기 오브젝트 신호 성분을 포함시킬 수 있다.

또한, ai/bi 값과 ci/di 값을 비교할 경우, ai/bi 또는 ci/di 에 적절한 가중치를 적용하여 비교의 민감성을 조절할 수 있다. 예를 들어, ci / di 를 ai / bi 와 비교하는 대신에, 아래 수학식 26을 이용할 수 있다.

[수학식 26]

(ci / di) * alpha ＞ ai / bi

(ci / di) * beta ＜ ai / bi

상기 수학식 26을 이용할 경우, alpha, beta 를 적절히 조절함으로써 교차 채널 계수의 사용에 대한 민감성을 조절하는 것이 가능하다.

또한, 측면 패닝된 오브젝트 신호의 패닝이 바뀐 경우라도, 상기 오브젝트 신호가 충분한 에너지를 가지고 있지 않은 경우라면, 교차 채널 계수를 활용하지 않고 자기 채널 계수만을 활용하는 것도 가능하다. 예를 들어, 측면 패닝되고 재생 믹스 게인에 의해 패닝이 바뀌는 오브젝트 신호가 해당 컨텐츠의 앞부분에만 존재하고 이후에는 존재하지 않는 경우라면, 상기 오브젝트 신호가 존재하는 구간에 대해서만 교차 채널 계수를 사용할 수 있다.

본 발명의 실시예에서 제안하는 바와 같이, 해당 오브젝트의 에너지 정보를 이용하여 교차 채널 계수의 활용 여부를 선택하는 것이 가능하다. 해당 오브젝트의 에너지는 부가 정보의 형태로 전송될 수 있고, 혹은 전송된 부가 정보와 입력 신호를 이용하여 추정하는 것이 가능하다.

다섯번째 실시예로, 오브젝트 특성을 이용하는 방법이 있을 수 있다.

오브젝트 신호가 다채널 오브젝트 신호인 경우, 오브젝트 신호의 특성에 따 라 처리할 수 있다. 설명의 편의를 위해 스테레오 오브젝트 신호의 경우에 대해 설명하도록 한다.

첫번째 예로서, 스테레오 오브젝트 신호를 다운믹스하여 모노 오브젝트 신호를 생성하고, 원 스테레오 오브젝트 신호의 각 채널간의 관계를 서브 부가 정보로 나타내어 처리할 수 있다. 여기서, 서브 부가 정보란 기존의 부가 정보와 구별하기 위한 용어로, 계층적으로 보면 부가 정보의 하위 개념을 나타낸다. 오브젝트 기반의 코딩에서, 오브젝트의 에너지 정보를 부가 정보로 활용하는 경우라면, 상기 모노 오브젝트 신호의 에너지가 부가 정보로 활용될 수 있다.

두번째 예로, 오브젝트 신호의 각 채널을 각각 하나의 독립된 모노 오브젝트 신호로 처리할 수 있다. 예를 들어, 오브젝트 신호의 에너지 정보를 부가 정보로 활용하는 경우라면, 각 채널의 에너지가 부가 정보로 활용될 수 있다. 이러한 경우, 상기 첫번째 예에 비해 전송해야 할 부가 정보의 수가 늘어날 수 있다.

상기 첫번째 예의 경우, 앞선 네번째 실시예인 "믹스 게인 정보를 이용하는 방법" 에 따라 교차 채널 계수의 활용 여부를 판단할 수 있다. 이때, 상기 믹스 게인 정보와 함께 서브 부가 정보를 활용할 수 있다.

상기 두번째 예의 경우, 좌측 채널 오브젝트 신호가 s_i 라면 우측 채널 오브젝트 신호는 s_i+1 이 될 수 있다. 그리고, 좌측 채널 오브젝트 신호의 경우, b_i =0, 우측 채널 오브젝트 신호의 경우, a_i+1=0 이 된다. 즉, 두번째 예의 경우, 두 개의 모노 오브젝트로 처리되지만, 한 쪽 채널에만 포함되므로, b_i = a_i+1 = 0 의 특성을 갖는다.

상기 두번째 예의 스테레오 오브젝트 신호에 대해 오브젝트 기반의 코딩을 수행하기 위해서는 다음과 같은 두가지 방법을 이용할 수 있다.

첫번째 방법으로, 교차 채널 계수를 이용하지 않는 경우가 있을 수 있다. 예를 들어, 재생 믹스 게인이 다음 수학식 27과 같이 주어졌다고 가정하자.

[수학식 27]

c_i = alpha

c_i+1 = beta

스테레오 오브젝트 신호의 경우, a_i+1=0 으로 표현될 수 있다. 이 때, c_i+1 이 0이 아니라면 우측에 포함된 s_i+1 오브젝트 신호를 좌측에도 포함시켜야 하므로, 교차 채널 계수가 필요하게 된다.

그러나, 스테레오 오브젝트 신호의 경우, 각 채널에 포함된 성분이 유사하다는 가정을 할 수 있다. 이는 아래 수학식 28과 같다.

[수학식 28]

c_i_hat = c_i + c_i+1,

c_i+1_hat = 0

c_i_hat = c_i + c_i+1,

c_i+1_hat = 0

따라서, 교차 채널 계수를 사용하지 않는 것이 가능하다.

마찬가지로, 다음 수학식 29와 같이 처리하여 교차 채널 계수를 사용하지 않을 수 있다.

[수학식 29]

d_i_hat=0

d_i+1_hat=d_i+d_i+1

두번째 방법로, 교차 채널 계수를 이용하는 경우가 있을 수 있다.

스테레오 오브젝트 신호의 좌측에만 포함된 신호를 우측 출력 신호에 포함시키고 싶은 경우, 교차 채널 계수를 사용해야만 한다. 따라서, 재생 믹스 게인을 분석하여, 필요한 경우에만 교차 채널 계수를 사용할 수 있다.

다른 예로, 스테레오 오브젝트 신호의 경우, 추가적으로 오브젝트 신호의 특성을 더 이용할 수 있다. 스테레오 오브젝트 신호의 경우, 특정 시간대에 특정 주파수 대역의 신호는 매우 유사한 신호가 각 채널 신호를 구성하고 있을 수 있다. 이때, 디코더에서 스테레오 오브젝트 신호의 상관성을 나타내는 값이 문턱값보다 높은 경우, 교차 채널 계수를 이용하는 것이 아니라, 상기 수학식 28, 29와 같이 처리하는 것이 가능하다.

각 채널의 상관성을 분석하기 위해서는 채널간 일관성(coherence)을 측정하는 방법 등이 사용될 수 있다. 또는, 인코더에서 스테레오 오브젝트 신호의 채널간 일관성(coherence)에 관련한 정보를 비트스트림에 포함시킬 수도 있다. 또는, 인코더에서 스테레오 오브젝트 신호에 대해, 일관성(coherence)이 높은 시간/주파수 영역에 대해 모노화하여 처리하고, 일관성(coherence)이 낮은 시간/주파수 영역에 대해서는 스테레오화하여 코딩할 수 있다.

여섯번째 실시예로, 선택적 계수를 이용하는 방법이 있을 수 있다.

예를 들어, 좌측 신호는 우측 채널으로 보내지만, 우측 신호는 좌측채널에 포함되지 않는다면, w21 은 이용하고 w12 는 이용하지 않는 것이 좋을 수 있다. 따라서, 교차 채널 계수를 이용하는 경우라도 모든 교차 계수를 활용하는 것이 아니라, 원 믹스 게인과 재생 믹스 게인을 확인하여 필요한 교차만을 허용할 수 있다.

상술한 바와 같이, 특정 오브젝트의 패닝이 바뀌는 경우, 상기 패닝을 허용하는데 필요한 교차 채널 계수만을 사용하는 것이 가능하다. 만약, 다른 오브젝트의 패닝이 반대 방향을 향하고 있다면, 2개의 교차 채널 계수를 모두 활용하는 것이 가능하다.

예를 들어, w11, w12, w22 가 이용되는 경우, 즉 w21 이 이용되지 않는 경우, 상기 w11, w12, w22 는 w11∼w22 4개의 계수가 모두 활용되는 경우의 w11, w12, w22 와 달라질 수 있다. 이 때의 w11, w12, w22 는 전술한 방법과 같이 y_1_hat, y_2_hat 을 모델링하고, 최소자승추정법을 통해 이용될 수 있다. 이때, w11, w12 가 사용되므로 y_1_hat 은 일반적인 경우와 동일하다. 따라서, w11, w12 도 기존의 값을 그대로 사용할 수 있다. 다만, w22 만 이용되므로 y_2_hat 은 w2 만 사용될 때의 y_2_hat 과 동일하므로, w22 는 상기 수학식 11의 w2 를 이용하는 것이 가능하다.

따라서, 본 발명에서는 필요에 따라 단방향의 교차 채널 계수만을 허용하는 방법을 제안하고, 이를 판단하기 위해 원 믹스 게인과 재생 믹스 게인을 이용할 수 있다.

또한, 단방향 교차 채널 계수가 이용되는 경우에는, 가중 팩터 추정을 새롭 게 할 수 있다.

일곱번째 실시예로, 교차 채널 계수만을 이용하는 방법이 있을 수 있다.

극단적인 패닝 특성을 갖는 입력 신호에 대해, 각 오브젝트 신호를 반대 방향으로 패닝하는 경우, w11∼w22 를 이용하는 것보다, w21,w12 만을 이용하는 것이 더 효과적일 수 있다. 교차 채널 계수만을 이용하기 위해 다음과 같은 조건들을 이용할 수 있다. 예를 들어, 첫째, 입력 신호의 믹스 게인이 측면으로 패닝된 상태인가, 둘째, 측면 패닝된 오브젝트 신호가 반대 방향으로 패닝이 되는가, 셋째, 상기 첫째와 둘째를 모두 만족시키는 오브젝트의 수와 전체 오브젝트 수와의 관계, 넷째, 상기 첫째와 둘째를 만족시키지 않는 오브젝트의 원 패닝 상태와 요구되는 패닝 상태가 있을 수 있다. 다만, 상기 넷째의 경우, 원 패닝이 측면이고, 요구되는 패닝도 같은 측면이면 교차 채널 계수만을 이용하는 것이 유리하지 않을 수 있다.

또한, 상기 여러 가지 방법들을 선택적으로 함께 이용할 수도 있다.

먼저, 적어도 하나 이상의 오브젝트 신호가 다운믹스된 다운믹스 정보를 수신할 수 있다(S310). 그리고, 오브젝트 정보를 포함하는 부가 정보와, 믹스 정보를 획득할 수 있다(S320).

여기서, 상기 오브젝트 정보는, 상기 오브젝트 신호의 레벨 정보, 상관 정보, 게인 정보 및 그들의 보충 정보(supplementary information) 중 적어도 하나를 포함할 수 있다. 상기 보충 정보는 레벨 정보의 보충 정보, 상관 정보의 보충 정보 및 게인 정보의 보충 정보를 포함할 수 있다. 예를 들어, 상기 게인 정보의 보충 정보는, 상기 오브젝트 신호의 게인 정보의 실제 값과 추정값 간의 차이 정보를 포함할 수 있다.

상기 믹스 정보는, 상기 오브젝트 신호의 위치 정보(position information), 게인 정보 및 재생 환경 정보 중 적어도 하나에 근거하여 생성될 수 있다.

상기 부가 정보와 믹스 정보에 기초하여 멀티 채널 정보를 생성할 수 있다(S330). 그리고, 상기 멀티 채널 정보를 이용하여, 상기 다운믹스 정보로부터 출력 채널 신호를 생성할 수 있다(S340). 이하, 구체적인 실시예들을 살펴보도록 한다.

도 4를 참조하면, 상기 오디오 신호 처리 장치는 크게 인핸스드 리믹스 인코더(400), 믹스 신호 인코딩부(430), 믹스 신호 디코딩부(440), 파라미터 생성부(450), 리믹스 렌더링부(460)을 포함할 수 있다. 상기 인핸스드 리믹스 인코더(400)는 부가 정보 생성부(410), 리믹스 인코딩부(420)를 포함할 수 있다.

상기 리믹스 렌더링부(460)에서 렌더링(rendering)을 수행함에 있어서, 가중 팩터들(weighting factors)을 생성하기 위해 상기 부가 정보가 필요할 수 있다. 예를 들어, 상기 부가 정보로는 믹스 게인 추정값(a_i_est, b_i_est), 재생 믹스 게인(c_i, d_i), 소스 신호의 에너지(Ps) 등이 있을 수 있다. 상기 파라미터 생성부(450)에서는 상기 부가 정보를 이용하여 상기 가중 팩터들을 생성할 수 있다.

본 발명의 일실시예로서, 상기 인핸스드 리믹스 인코더(400)에서는 부가 정보로서 믹스 게인(a_i, b_i)의 추정(estimation)값, 즉, 상기 믹스 게인 추정값(a_i_est, b_i_est)을 전송할 수 있다. 상기 믹스 게인 추정값이란, 믹스 신호와 각 오브젝트 신호들을 이용하여, 상기 믹스 게인(a_i, b_i)값을 추정하는 것을 의미한다. 인코더에서 상기 믹스 게인 추정값을 전송할 경우, 상기 믹스 게인 추정값과 c_i/d_i 를 이용하여 가중 팩터들(w11∼w22)을 생성할 수 있다. 다른 실시예로, 각 오브젝트 신호가 실제로 믹싱되는 과정에서 사용된 a_i/b_i 의 참값(real value)을 별도의 정보로써 인코더가 가질 수 있다. 예를 들어, 인코더가 자체적으로 믹싱 신호를 생성하는 경우나, 외부에서 믹싱 신호를 생성할 때 상기 a_i/b_i 를 어떤 값으로 이용했는지를 별도의 믹스 제어 정보(mix control information)로써 전송할 수 있다.

예를 들어, c_i/d_i 는 유저가 희망하는 리믹스 씬(remix scene)을 의미하고, a_i/b_i 는 믹싱된 신호를 의미하는 경우, 실제 렌더링은 이 두 값의 차이에 근거하여 수행될 수 있다.

예를 들어 a_i = 1, b_i = 1 인 특정 오브젝트에 대해 c_i = 1, d_i = 1.5 라는 제어 정보를 받았다고 하면, 이는 좌측 채널 신호는 (a_i -＞ c_i)로 그대로 유지하고, 우측 채널 신호는 (b_i -＞ d_i)로 0.5만큼 게인을 증폭하라는 것을 의미할 수 있다.

그러나, 상기 예에서 만일 a_i/b_i 대신 믹스 게인 추정값(a_i_est, b_i_est)만을 전송하게 되면 문제가 발생할 수 있다. 상기 믹스 게인 추정값(a_i_est, b_i_est)들은 인코더에서 계산을 통해 추정되는 값이므로, 참값인 a_i,b_i 와 다른 값, 예를 들어, a_i_est = 0.9, b_i_est = 1.1 을 가질 수 있다. 이 경우 디코더에서는 유저의 실제 의도(우측 채널만 0.5만큼 증폭)와는 달리, 좌측 채널은 a_i_est 와 c_i 의 차이인 +0.1 게인만큼 증폭되고, 우측 채널은 +0.4 만큼만 증폭하게 된다. 즉, 유저의 의도와 다른 제어가 발생할 수 있다. 따라서, 상기 믹스 게인 추정값(a_i_est, b_i_est)이외에 a_i,b_i의 참값도 전송할 경우 보다 원하는 신호를 복원할 수 있게 된다.

한편, 유저의 입력이 c_i/d_i 형태로 인터페이스 되는 것이 아니라, 게인과 패닝으로 입력되는 경우, 디코더에서는 상기 게인과 패닝을 c_i/d_i 의 형태로 변환하여 적용할 수 있다. 이때, 변환은 a_i/b_i를 기준으로 할 수 있고, 또는 a_i_est/b_i_est 를 기준으로 할 수도 있다.

다른 실시예로서, a_i/b_i, a_i_est, b_i_est 를 모두 전송하는 경우, 각각 PCM 신호로 전송하는 것보다는 a_i와 a_i_est의 차이값, b_i와 b_i_est의 차이값으로 전송할 수 있다. 이는 상기 a_i와 a_i_est, b_i와 b_i_est가 서로 매우 유사한 특성을 가지기 때문이다. 예를 들어, a_i, a_i_delta= a_i - a_i_est, b_i, b_i_delta = b_i - b_i_est 를 전송 할 수 있다.

본 발명이 적용되는 실시예로서, 믹스 정보를 전송할 때 양자화된 값을 전송할 수 있다. 예를 들어, 디코더에서 a_i/b_i 와 c_i/d_i 의 상대 관계를 이용하여 리믹싱할 때, 실제 전송되는 값은 a_i_q/b_i_q의 양자화된 값일 수 있다. 이때, 양자화된 a_i_q/b_i_q와 실수인 c_i/d_i 를 비교할 경우, 다시 오차가 발생될 수 있다. 따라서, c_i/d_i 도 c_i_q/d_i_q의 양자화된 값을 이용할 수 있다.

한편, c_i/d_i 는 일반적으로 유저에 의해 디코더에 입력될 수 있다. 또한, 프리셋 값으로써 비트스트림에 포함되어 전송될 수 있다. 상기 비트스트림은 별도로 혹은 부가 정보와 함께 전송될 수 있다.

인코더로부터 전송되는 비트스트림은 다운믹스 신호, 오브젝트 정보, 및 프리셋 정보를 포함하는 통합된 단일의 비트스트림일 수 있다. 상기 오브젝트 정보 및 프리셋 정보는 상기 다운믹스 신호 비트스트림의 부가 영역에 저장될 수 있다. 또는, 독립적인 비트열로 저장 및 전송될 수 있다. 예를 들어, 다운믹스 신호는 제 1 비트스트림에서 전송될 수 있고, 오브젝트 정보 및 프리셋 정보는 제 2 비트스트림으로 전송될 수 있다. 다른 일실시예에서는, 다운믹스 신호 및 오브젝트 정보는 제 1 비트스트림에서 전송되고, 프리셋 정보만이 별도의 제 2 비트스트림으로 전송될 수 있다. 또한, 다른 실시예에서는, 다운믹스 신호, 오브젝트 정보 및 프리셋 정보는 별개의 세 개의 비트스트림으로 전송될 수도 있다.

이러한 제 1 비트스트림 및 제 2 비트스트림 또는 별개의 비트스트림들은 동일하거나 다른 비트율로 전송될 수 있으며, 특히 프리셋 정보의 경우 오디오 신호의 복원 후, 다운믹스 신호 또는 오브젝트 정보와 별도로 분리되어 저장하거나 전송될 수 있다.

본 발명이 적용되는 다른 실시예로서, c_i/d_i 는 필요에 따라 시변 값일 수 있다. 즉, 시간의 함수로써 표현되는 게인 값일 수 있다. 이와 같이, 재생 믹스 게인을 나타내는 유저 믹스 파라미터(user mix parameter)를 시간에 따른 값으로 나타내기 위해서 적용 시점을 나타내는 타임 스탬프(time stamp) 형태로 입력할 수 있다.

이때, 시간 인덱스는 뒤에 오는 c_i/d_i 가 적용되는 시간축 상의 시점을 나타내는 값일 수 있다. 또는, 믹스된 오디오 신호의 샘플 위치를 나타내는 값일 수 있다. 또는, 상기 오디오 신호를 프레임 단위로 나타낼 때, 프레임 위치를 나타내는 값일 수 있다. 샘플 값일 때는 특정 샘플 단위로만 표현할 수도 있다.

일반적으로는 시간 인덱스에 대응되는 c_i/d_i 의 적용은 이후에 새로운 시간 인덱스 및 c_i/d_i 가 나타나기 전까지 계속될 수 있다. 한편, 시간 인덱스 대신 시간 간격(time interval) 값을 사용할 수 있는데, 이는 해당 c_i/d_i 가 적용되는 구간을 의미할 수 있다.

또한, 비트스트림 내에 리믹스 수행 여부를 나타내는 플래그 정보를 정의할 수 있다. 상기 플래그 정보가 거짓이면, 해당 구간에서는 c_i/d_i 가 전송되지 않으며, 원래의 a_i/b_i 에 의한 스테레오 신호가 출력될 수 있다. 즉, 해당 구간에서는 리믹스 과정이 진행되지 않을 수 있다. 이와같은 방법으로 c_i/d_i 비트스트림을 구성할 경우, 비트율을 최소화할 수 있고, 원치않는 리믹스가 수행되는 것을 막을 수 있다.

오브젝트 기반의 코딩을 수행함에 있어, 일부 오브젝트 신호에 대해서만 제어할 필요가 있는 경우가 있을 수 있다. 예를 들어 아카펠라(acapella)의 경우처럼, 특정 오브젝트 신호만을 남기고 나머지 오브젝트 신호들은 모두 억압(suppress)하는 형태의 믹싱이 이용될 수 있다. 또는 백그라운드 음악(Back ground music)과 함께 보컬이 있는 경우에는, 상기 보컬을 보다 잘 듣기 위해 상기 백그라운드 음악의 크기를 낮추는 형태도 이용될 수 있다. 즉, 변경되지 않는 오브젝트 신호보다 변경되는 오브젝트 신호의 숫자가 더 많은 경우, 혹은 더 복잡한 경우를 의미할 수 있다. 이런 경우, 역 처리(reverse processing)를 한 후 전체 게인을 보상해주는 형태로 처리하게 되면, 음질이 더 좋을 수 있다. 예를 들어, 아카펠라의 경우, 보컬 오브젝트 신호만을 증폭시킨 후, 원래의 보컬 오브젝트 신호의 게인 값에 맞추어 전체 게인을 보상할 수 있다.

먼저, 적어도 하나 이상의 오브젝트 신호가 다운믹스된 다운믹스 정보를 수 신할 수 있다(S510). 그리고, 오브젝트 정보를 포함하는 부가 정보와, 믹스 정보를 획득할 수 있다(S520).

여기서, 상기 오브젝트 정보는, 상기 오브젝트 신호의 레벨 정보, 상관 정보, 게인 정보 및 그들의 보충 정보(supplementary information) 중 적어도 하나를 포함할 수 있다. 예를 들어, 상기 게인 정보의 보충 정보는, 상기 오브젝트 신호의 게인 정보의 실제 값과 추정값 간의 차이 정보를 포함할 수 있다. 그리고, 상기 믹스 정보는, 상기 오브젝트 신호의 위치 정보(position information), 게인 정보 및 재생 환경 정보 중 적어도 하나에 근거하여 생성될 수 있다.

상기 오브젝트 신호는 독립 오브젝트 신호와 백그라운드 오브젝트로 구분될 수 있다. 예를 들어, 플래그 정보를 이용하여, 상기 오브젝트 신호가 독립 오브젝트 신호인지 백그라운드 오브젝트 신호인지 여부를 결정할 수 있다. 상기 독립 오브젝트 신호는 보컬 오브젝트 신호를 포함할 수 있다. 상기 백그라운드 오브젝트 신호는 반주(accompaniment) 오브젝트 신호를 포함할 수 있다. 그리고, 상기 백그라운드 오브젝트 신호는 하나 이상의 채널 기반 신호를 포함할 수 있다. 또한, 인핸스드 오브젝트 정보를 이용하여, 상기 독립 오브젝트 신호 및 상기 백그라운드 오브젝트 신호를 구분할 수 있다. 예를 들어, 상기 인핸스드 오브젝트 정보는 레지듀얼 신호를 포함할 수 있다.

상기 오브젝트 정보와 상기 믹스 정보를 이용하여 역처리 수행 여부를 결정할 수 있다(S530). 상기 역처리는, 변경되는 오브젝트의 개수가 변경되지 않는 오브젝트의 개수보다 많은 경우, 상기 변경되지 않는 오브젝트를 기준으로 게인 보상 하는 것을 의미할 수 있다. 예를 들어, 반주 오브젝트의 게인을 변경하려고 할 때, 변경하려는 반주 오브젝트의 개수가 변경하지 않는 보컬 오브젝트의 개수보다 많은 경우, 역으로 개수가 적은 보컬 오브젝트의 게인을 변경할 수 있다. 이처럼, 역처리가 수행되는 경우, 게인 보상을 위한 역처리 게인값을 획득할 수 있다(S540). 상기 역처리 게인값에 기초하여 출력 채널 신호를 생성할 수 있다(S550).

도 6을 참조하면, 상기 오디오 신호 처리 장치는 역처리 제어부(reverse process controlling unit)(610), 파라미터 생성부(parameter generating unit)(620), 리믹스 렌더링부(remix rendering unit)(630) 및 역처리부(reverse processing unit)(640)를 포함할 수 있다.

역처리 여부에 대한 결정(determination)은 a_i/b_i, c_i/d_i 를 이용하여 역처리 제어부(reverse process controlling unit)(610)에서 수행될 수 있다. 파라미터 생성부(parameter generating unit)(620)에서는, 상기 결정에 따라 역처리가 수행되는 경우, 그에 대응되는 가중 팩터들(w11∼w22)을 생성하고, 게인 보상을 위한 역처리 게인값을 계산하여 역처리부(reverse processing unit)(640)로 전송한다. 리믹스 렌더링부(remix rendering unit)(630)에서는 상기 가중 팩터들에 기초하여 렌더링을 수행한다.

예를 들어, 다음과 같이 a_i/b_i 및 a_i/b_i 가 주어져 있다고 하자. a_i/b_i = { 1/1, 1/1, 1/0, 0/1 }, a_i/b_i = { 1/1, 0.1/0.1, 0.1/0, 0/0.1 } 이는 첫번째 오브젝트 신호를 제외한 나머지 오브젝트 신호를 모두 1/10로 억압(suppress)시키고자 하는 것이다. 이러한 경우, 다음 같은 역 가중 팩터비(c_i_rev/ d_i_rev) 및 역 처리 게인을 이용하여 보다 원하는 신호에 가까운 신호를 얻을 수 있다. c_i_rev/ d_i_rev = {10/10, 1/1, 1/0, 0/1 } , reverse_gain = 0.1

본 발명의 다른 실시예로, 특정 오브젝트 신호의 복잡성을 나타내는 플래그 정보를 비트스트림에 포함시킬 수 있다. 예를 들어, 오브젝트 신호의 복잡성 여부를 나타내는 complex_object_flag 를 정의할 수 있다. 상기 복잡성 여부는 고정값을 기준으로 결정될 수 있고, 또는 상대적인 값을 기준으로 결정될 수도 있다.

예를 들어, 2개의 오브젝트 신호로 구성된 오디오 신호이며, 그 중 하나의 오브젝트 신호는 MR(Music Recorded) 반주와 같은 백그라운드 음악이고, 다른 하나의 오브젝트 신호는 보컬이라고 하자. 상기 백그라운드 음악은 보컬보다 월등히 많은 악기들의 조합에 의해 구성된 복잡한 오브젝트 신호일 수 있다. 이 경우, 상기 complex_object_flag 정보를 전송해주게 되면, 상기 역처리 제어부에서는 간단하게 역처리 수행 여부를 결정할 수 있다. 즉, c_i/d_i 가 백그라운드 음악을 -24dB로 억압(supress)하여 아카펠라를 구현하도록 요청하는 경우, 상기 플래그 정보에 따라, 반대로 보컬을 +24dB 증폭시킨 후, 역처리 게인을 -24dB 하여 의도한 신호를 생성 할 수 있다. 이와 같은 방법은 전 시간, 전 대역에 대해 일괄적으로 적용할 수도 있고, 특정 시간 또는 특정 대역에 대해서만 선별적으로 적용할 수 있다.

본 발명의 다른 실시예로서, 극단적인 패닝이 발생하는 경우에 역처리를 수행하는 방법을 설명하도록 한다.

예를 들어, 대부분의 왼쪽 채널에 있던 오브젝트들이 오른쪽으로 이동하고, 오른쪽에 있던 오브젝트들이 왼쪽으로 이동하도록 리믹스 요청이 들어올 수 있다. 이 경우, 상기에서 설명했던 방법으로 수행하는 것보다는 좌/우 채널을 교환(swap)한 후 교환된 상태에서 리믹스를 수행하는 것이 더 효율적일 수 있다.

도 7을 참조하면, 상기 오디오 신호 처리 장치는 역처리 제어부(710), 채널 교환부(720), 리믹스 렌러링부(730) 및 파라미터 생성부(740)를 포함할 수 있다.

역처리 제어부(710)에서는 a_i/b_i 및 c_i/d_i 에 대한 분석을 통해 오브젝트 신호의 교환(swap) 여부를 결정할 수 있다. 채널 교환부(720)에서는, 상기 결정에 따라 교환(swap)하는 것이 바람직한 경우, 채널 교환을 수행하게 된다. 리믹스 렌더링부(730)에서는 채널 교환된 오디오 신호를 이용하여 렌더링을 수행하게 된다. 이때, 가중 팩터들(w11∼w22)은 상기 교환된 채널을 기준으로 생성할 수 있다.

예를 들어, a_i/b_i = {1/0, 1/0, 0.5/0.5, 0/1}, c_i/d_i = {0/1, 0.1/0.9, 0.5/0.5, 1/0} 라 하자. 위와 같은 패닝을 수행하려면, 1,2,4 번째 오브젝트 신호는 매우 극단적인 패닝을 수행해야 한다. 이때, 본 발명에 따라 채널 교환이 수행되면, 1,3,4번째 오브젝트 신호는 변화시킬 필요가 없고, 2번째 오브젝트 신호만 미세하게 조절하면 된다.

이와 같은 방법은 전 시간, 전 대역에 대해 일괄적으로 적용할 수도 있고, 특정 시간 특정 대역에 대해서만 선별적으로 적용할 수 있다.

본 발명의 다른 실시예로서, 상관성이 높은 오브젝트 신호들을 효율적으로 처리하기 위한 방법을 제안한다.

리믹스를 위한 오브젝트 신호들 중 스테레오 오브젝트 신호를 갖는 경우가 많다. 스테레오 오브젝트 신호의 경우, 각각의 채널(L/R)을 독립적인 모노 오브젝트로 간주하여 독립된 파라미터를 전송하고, 전송된 파라미터를 이용하여 리믹스할 수 있다. 한편, 리믹스에서는 스테레오 오브젝트 신호에 대해 어떤 오브젝트 2개가 커플링(coupling)되어 스테레오 오브젝트 신호를 구성하는지에 대한 정보를 전송할 수 있다. 예를 들어, 상기 정보를 src_type 이라 정의할 수 있다. 상기 src_type 은 오브젝트 별로 전송할 수 있다.

다른 예로, 스테레오 오브젝트 신호 중에는 좌/우 채널 신호가 사실상 거의 같은 값을 갖는 경우가 있다. 이 경우에는 스테레오 오브젝트 신호로 취급하는 것보다 모노 오브젝트 신호로 취급하는 것이 리믹싱할 때 보다 용이하고, 전송에 필요한 비트율도 감소시킬 수 있다.

예를 들어, 스테레오 오브젝트 신호가 입력된 경우, 리믹스 인코더 내에서 이를 모노 오브젝트 신호로 간주할 지, 아니면 스테레오 오브젝트 신호로 간주할 지 여부를 결정할 수 있다. 그리고, 그에 대응되는 파라미터를 비트열에 포함시킬 수 있다. 이때, 스테레오 오브젝트 신호로 처리를 하는 경우에는 a_i/b_i 가 좌측 채널 및 우측 채널에 대해 각각 한 벌씩 필요하다. 이 경우 좌측 채널에 대한 b_i = 0, 우측 채널에 대한 a_i = 0 인 것이 바람직할 수 있다. 또한, 소스의 파워(Ps)도 각각 한 벌씩 필요하다.

다른 예로, 좌측 오브젝트 신호와 우측 오브젝트 신호가 사실상 같은 신호이거나, 상관성이 매우 높은 신호인 경우는 상기 두 신호의 합인 가상의 오브젝트 신호를 생성할 수 있다. 그리고, 상기 가상의 오브젝트 신호를 기준으로 a_i/b_i 및 Ps를 생성하여 전송할 수 있다. 이와 같은 방법으로 a_i/b_i, Ps를 전송하면 비트율이 줄어들 수 있다. 그리고, 디코더에서는 렌더링을 수행할 때, 불필요한 패닝 동작이 생략되어 보다 안정적으로 동작하게 된다.

이때, 모노 다운믹스 신호를 생성하는 방법으로는 다양한 방법이 있을 수 있다. 예를 들어, 좌측 오브젝트 신호와 우측 오브젝트 신호를 합하는 방법이 있을 수 있다. 또는 상기 합쳐진 오브젝트 신호를 정규화된 게인 값으로 나누는 방법이 있을 수 있다. 각각 어떻게 생성하는지에 따라, 전송되는 a_i/b_i, Ps의 값이 달라질 수 있다.

또한, 특정 오브젝트 신호가 모노인지, 스테레오인지 또는 원래 스테레오였으나 인코더에 의해 모노가 되었는지를 구별할 수 있는 정보를 디코더에 전송할 수 있다. 이러한 경우, 디코더에서의 c_i/d_i 인터페이스시 호환성을 유지할 수 있게 된 다. 예를 들어, 모노인 경우는 src_type = 0, 스테레오 중 좌측 채널 신호인 경우는 src_type = 1, 스테레오 중 우측 채널 신호인 경우는 src_type=2, 스테레오 신호를 모노 신호로 다운믹스한 경우는 src_type = 3으로 정의할 수 있다.

한편, 디코더에서는 스테레오 오브젝트 신호의 컨트롤을 위해 좌측 채널 신호에 대한 c_i/d_i 와 우측 채널 신호에 대한 c_i/d_i 를 전송받을 수 있다. 이때, 오브젝트 신호의 src_type = 3에 해당하는 경우, 상기 좌측 채널 신호와 상기 우측 채널 신호에 대한 c_i/d_i 가 합쳐진 형태로써 적용되는 것이 바람직할 수 있다. 합치는 형태는 상기 가상의 오브젝트 신호를 생성하는 방법이 적용될 수 있다.

이와 같은 방법은 전 시간, 전 대역에 대해 일괄적으로 적용할 수도 있고, 특정 시간 또는 특정 대역에 대해서만 선별적으로 적용할 수 있다.

본 발명의 다른 실시예로, 각 오브젝트 신호가 각 채널 신호에 1:1로 매칭이 되는 경우, 플래그 정보를 이용하여 전송량을 줄일 수 있다. 이 경우, 실제 렌더링을 위해 리믹스 알고리즘을 모두 적용하는 것보다는, 단순한 믹스 과정을 통해 보다 쉽고 정착하게 렌더링할 수 있다.

예를 들어, 두 개의 오브젝트 신호 Obj 1, Obj 2가 있고, 상기 Obj 1, Obj 2에 대한 a_i/b_i 가 {1/0, 0/1} 이면, 믹스된 신호의 좌측 채널 신호에는 오로지 Obj 1만 존재하고, 오른쪽 채널 신호에는 Obj 2만 존재한다. 이 경우는 소스 파워(Ps)도 상기 믹스된 신호로부터 추출할 수 있으므로 별도로 전송할 필요가 없다. 또한, 렌더링을 수행할 경우, 가중 팩터들(w11∼w22)은 c_i/d_i 및 a_i/b_i 의 관계로부터 직접 얻을 수 있고, 별도로 Ps를 이용한 연산을 요구하지 않는다. 따라서, 상기 예의 경우에는 관련 플래그 정보를 이용함으로써 보다 용이하게 처리할 수 있다.

오브젝트 기반의 오디오 코딩에서는 오브젝트에 대한 메타 정보를 전송받을 수 있다. 예를 들어, 복수개의 오브젝트를 모노 또는 스테레오 신호로 다운믹스하는 과정에 있어서, 각각의 오브젝트 신호로부터 메타 정보가 추출될 수 있다. 그리고, 상기 메타 정보는 유저의 선택에 의해 컨트롤 될 수 있다.

여기서, 상기 메타 정보는 메타 데이터(meta data)를 의미할 수 있다. 메타 데이터란, 데이터에 관한 데이터로서 정보 자원의 속성을 기술하는 데이터를 의미할 수 있다. 즉, 메타 데이터란 실제로 저장하고자 하는 데이터(예를 들면, 비디오, 오디오 등) 자체는 아니지만, 이 데이터와 직접적으로 혹은 간접적으로 연관된 정보를 제공하는 데이터를 의미한다. 이와 같은 메타 데이터를 사용하면, 사용자가 원하는 데이터가 맞는지를 확인할 수 있고, 쉽고 빠르게 원하는 데이터를 찾아낼 수 있다. 즉, 데이터를 소유하고 있는 측면에서는 관리의 용이성을, 데이터를 사용하고 있는 측면에서는 검색의 용이성을 보장받을 수 있다.

오브젝트 기반의 오디오 코딩에 있어서, 상기 메타 정보는 오브젝트의 속성을 나타내는 정보를 의미할 수 있다. 예를 들어, 메타 정보는 음원을 구성하는 복수개의 오브젝트 신호들 중 보컬 오브젝트인지 또는 백그라운드 오브젝트인지 등을 나타낼 수 있다. 또는 상기 보컬 오브젝트 중에서 좌측 채널에 대한 오브젝트인지 우측 채널에 대한 오브젝트인지를 나타낼 수도 있다. 또는 상기 백그라운드 오브젝트 중에서 피아노 오브젝트인지, 드럼 오브젝트인지, 기타 오브젝트인지, 그 외 다른 악기 오브젝트인지 등을 나타낼 수 있다.

한편, 비트스트림이라 함은, 파라미터나 데이터의 묶음을 의미할 수 있으며, 전송 혹은 저장을 위해 압축된 형태의 일반적 의미의 비트스트림을 의미할 수 있다. 또한, 비트스트림으로 표현되기 이전의 파라미터의 형태를 지칭하는 것으로써 넓은 의미로 해석될 수도 있다. 디코딩 장치는 상기 오브젝트 기반의 비트스트림으로부터 오브젝트 정보를 획득할 수 있다. 이하에서 상기 오브젝트 기반의 비트스트림에 포함되는 정보에 관하여 기술하고자 한다.

도 8을 참조하면, 오브젝트 기반의 비트스트림은 헤더 및 데이터를 포함할 수 있다. 상기 헤더 1(Header 1)은 메타 정보 및 파라미터 정보 등을 포함할 수 있다. 상기 메타 정보는 다음과 같은 정보들을 포함할 수 있다. 예를 들어, 오브젝트 이름(object name), 오브젝트를 나타내는 인덱스(object index), 오브젝트에 대한 구체적인 속성 정보(object characteristic), 오브젝트의 개수 정보(number of object), 메타 데이터의 설명 정보(meta data description information), 메타 데이터의 문자의 개수 정보(number of characters), 메타 데이터의 문자 정보(one single character), 메타 데이터 플래그 정보(meta data flag information) 등이 있을 수 있다.

여기서, 오브젝트 이름(object name)이란, 보컬 오브젝트, 악기 오브젝트, 또는 기타 오브젝트, 피아노 오브젝트 등 오브젝트의 속성을 나타내는 정보를 의미 할 수 있다. 오브젝트를 나타내는 인덱스(object index)란, 오브젝트에 대한 속성 정보를 인덱스로 할당한 정보를 의미할 수 있다. 예를 들어, 악기 이름마다 인덱스를 할당하여 미리 테이블로 정해놓을 수 있다. 오브젝트에 대한 구체적인 속성 정보(object characteristic)란, 하위 오브젝트의 개별적인 속성 정보를 의미할 수 있다. 여기서, 하위 오브젝트란, 유사한 오브젝트들이 그룹핑되어 하나의 그룹 오브젝트를 이루었을 때, 상기 유사한 오브젝트들 각각을 의미할 수 있다. 예를 들어, 보컬 오브젝트의 경우 좌측 채널 오브젝트를 나타내는 정보와 우측 채널 오브젝트를 나타내는 정보를 들 수 있다.

또한, 오브젝트의 개수 정보(number of object)란, 오브젝트 기반의 오디오 신호 파라미터가 전송된 오브젝트의 개수를 의미할 수 있다. 메타 데이터의 설명 정보(meta data description information)란, 인코딩된 오브젝트에 대한 메타 데이터의 설명 정보를 의미할 수 있다. 메타 데이터의 문자의 개수 정보(number of characters)란, 하나의 오브젝트의 메타 데이터 설명을 위해 이용되는 문자의 개수를 의미할 수 있다. 메타 데이터의 문자 정보(one single character)란, 하나의 오브젝트의 메타 데이터의 각 문자를 의미할 수 있다. 메타 데이터 플래그 정보(meta data flag information)란, 인코딩된 오브젝트들의 메타 데이터 정보가 전송될지 여부를 알려주는 플래그를 의미할 수 있다.

한편, 파라미터 정보(parameter information)는 샘플링 주파수, 서브밴드의 수, 소스 신호의 수, 소스 타입 등을 포함할 수 있다. 또한, 선택적으로 소스 신호의 재생 환경 정보 등을 포함할 수 있다.

상기 데이터(Data)는 하나 이상의 프레임 데이터(Frame Data)를 포함할 수 있다. 필요한 경우, 프레임 데이터와 함께 헤더(Header 2)를 포함할 수 있다. 상기 Header 2는 업데이트가 필요한 정보들을 포함할 수 있다.

상기 프레임 데이터는 각 프레임에 포함되는 데이터 타입에 대한 정보를 포함할 수 있다. 예를 들어, 첫번째 데이터 타입(Type0)인 경우, 상기 프레임 데이터는 최소의 정보를 포함할 수 있다. 구체적 예로, 부가 정보(side information)와 관련된 소스 파워만을 포함할 수 있다. 두 번째 데이터 타입(Type1)인 경우, 상기 프레임 데이터는 추가적으로 업데이트되는 게인들을 포함할 수 있다. 세 번째 및 네 번째 데이터 타입인 경우, 상기 프레임 데이터는 미래의 사용을 위해 보존 영역(reserved area)으로 할당될 수 있다. 만일 상기 비트스트림이 방송용으로 이용되는 경우에, 상기 보존 영역은 방송 신호의 튜닝을 맞추기 위해 필요한 정보(예를 들면, 샘플링주파수, 서브밴드 수 등)를 포함할 수 있다.

소스 파워(Ps)는 프레임 내에서 파티션(주파수 밴드) 수만큼 전송된다. 파티션(partition)은 심리음향 모델에 근거한 넌-유니폼 밴드(non-uniform band)로써 보통 20개를 사용한다. 따라서, 각 소스 신호당 20개의 소스 파워를 전송하게 된다. 양자화된 소스 파워는 모두 양의 값을 갖는데, 상기 소스 파워를 그냥 선형(linear) PCM 신호로 전송하는 것보다는 디퍼렌셜(differential) 부호화하여 보내는 것이 유리하다. 시간 또는 주파수 디퍼렌셜 부호화, 혹은 PBC(pilot-based coding) 중 최적의 방법을 선택하여 선택적으로 전송할 수 있다. 스테레오 소스인 경우는 커플링된 소스와의 차이값을 보낼 수도 있다. 이때, 소스 파워의 차이값은 양 혹은 음의 부호를 모두 가질 수 있다.

디퍼렌셜 부호화된 소스 파워 값은 다시 허프만 부호화하여 전송한다. 이때, 허프만 부호화 테이블 가운데는 양의 값만 취급하는 테이블도 있고, 양과 음의 값을 모두 갖는 테이블도 있을 수 있다. 양의 값만을 갖는 언사인드(unsigned) 테이블을 사용하는 경우, 부호에 해당하는 비트를 별도로 전송한다.

본 발명에서는 언사인드 허프만 테이블(unsigned huffman table) 사용 시 부호 비트를 전송하는 방법을 제안한다.

각 차이값 샘플마다 부호 비트를 전송하지 않고, 하나의 파티션(partition)에 대응되는 20개의 차이값에 대한 부호 비트를 일괄적으로 전송할 수 있다. 이때, 상기 전송되는 부호 비트에 대해 동일 부호 사용 여부를 알리는 uni_sign 플래그를 전송할 수 있다. 상기 uni_sign이 1인 경우는 20개의 차이값의 부호가 모두 동일함을 의미하며, 이 경우는 각 샘플별 부호 비트를 전송하지 않고, 전체의 부호 비트만을 1비트 전송한다. uni_sign이 0인 경우는 각 차이값 별로 부호 비트를 전송한다. 이때, 상기 차이값이 0인 샘플에 대해서는 부호 비트를 전송하지 않는다. 상기 20개의 차이값이 모두 0인 경우는 uni_sign 플래그도 전송하지 않는다.

이와 같은 방법에 의해 부호가 모두 같은 차이값을 갖는 영역에 대해서는 부호 비트 전송에 필요한 비트수를 줄일 수 있다. 실제 소스 파워값의 경우, 소스 신호가 시간 영역에서 일시적인(transient) 특성을 가지므로, 시간 차이값이 하나의 부호를 갖는 경우가 자주 발생하게 된다. 따라서, 본 발명에 따를 경우 신호 전송 방법이 좋은 효율을 갖는다.

도 10을 참조하면, 소스 파워의 전송을 위한 무손실 코딩 과정을 나타낸다. 시간 혹은 주파수 축에서의 차분(differential) 신호를 생성한 후, 차분(differential) PCM 값에 대해 압축 관점에서 가장 유리한 허프만 코드북(huffman codebook)을 이용하여 부호화한다.

차분 값이 모두 0인 경우는 Huff_AZ 인 경우로 볼 수 있는데, 이때에는 실제로 차분 값은 전송하지 않고, 디코더에서는 Huff_AZ가 채택된 것만으로 모두 0이라는 사실을 알 수 있다. 차분 값의 크기가 작고, 0값을 갖는 경우가 상대적으로 높기 때문에 2개 혹은 4개로 쌍을 지어 부호화하는 2D/4D 허프만 부호화 방법이 효율적일 수 있다. 각 테이블 별로 부호화할 수 있는 최대 절대값은 서로 다를 수 있으며, 일반적으로 4D 테이블은 최대값이 1로 매우 낮은 것이 바람직할 수 있다.

언사인드 허프만(unsigned huffman) 부호화를 사용할 경우, 앞에 설명한 것과 같은 uni_sign을 이용한 사인 코딩(sign coding) 방법을 적용할 수 있다.

한편, 각 차원(dimension)에서의 허프만 테이블은 서로 다른 통계적인 특성을 갖는 복수개의 테이블 중에서 선택적으로 사용할 수 있다. 또는 FREQ_DIFF인지 TIME_DIFF인지 여부에 따라 다른 테이블을 사용할 수 있다. 상기 어떤 차분 신호 또는 어떤 허프만 부호화가 사용되었는지의 여부는 별도의 플래그로써 비트스트림 내에 포함될 수 있다.

또한, 비트 사용 낭비의 최소화를 위해, 플래그를 이용하여 특정 조합의 부호화 방법은 사용하지 않는 것으로 정의할 수 있다. 예를 들어, Freq_diff과 Huff_4D의 조합은 거의 사용되지 않는다고 하면, 해당 조합에 의한 부호화는 채택하지 않는 것이다.

또한, 플래그의 조합에도 자주 사용하는 경우가 존재하므로 이에 대한 인덱스도 허프만 부호화하여 전송할 경우 추가적으로 데이터를 압축할 수 있다.

도 11을 참조하면, 또다른 무손실 부호화 방법에 대한 예이다. 디퍼렌셜 부호화 방법에 있어서, 다양한 예들이 있을 수 있다. 예를 들어, CH_DIFF는 스테레오 오브젝트 신호의 경우 각 채널에 대응되는 소스 간의 차분 값을 이용하여 전송하는 방법이다. 그리고, 파일롯에 기반한 디퍼렌셜 부호화, 시간 디퍼렌셜 부호화가 있을 수 있다. 여기서, 상기 시간 디퍼렌셜 부호화의 경우, FWD 혹은 BWD 중에 선택하여 사용하는 부호화 방법을 추가하였고, 허프만 부호화의 경우 사인드 허프만(signed huffman) 부호화를 추가하였다.

일반적으로, 스테레오 오브젝트 신호를 처리함에 있어, 오브젝트 신호의 각 채널을 각각의 독립적인 오브젝트 신호로 처리할 수 있다. 예를 들어, 제 1채널 (예를 들어 좌측 채널) 신호를 s_i, 제 2채널 (예를 들어 우측 채널) 신호를 s_i+1의 독립적인 모노 오브젝트 신호로 간주하여 처리할 수 있다. 이러한 경우, 전송되는 오브젝트 신호의 파워는 Ps_i, Ps_i+1 이 된다. 그러나, 스테레오 오브젝트 신호의 경우, 두 채널 간의 특성이 매우 유사한 경우가 많다. 따라서, Ps_i, Ps_i+1 를 부호화함에 있어 함께 고려하는 것이 유리할 수 있다. 도 10을 참조하면, 이러한 커플링의 일례를 보여준다. Ps_i 를 부호화 하는 것은 상기 도 8 내지 도 9의 방법을 따르고, Ps_i+1 을 부호화하는 데에는 Ps_i+1 과 Ps_i 의 차이를 구하고, 그 차이를 부호화하여 보낼 수 있다.

본 발명의 다른 실시예로서, 채널 간의 유사성을 이용하여 오디오 신호를 처리하는 방법을 살펴보도록 한다.

첫번째 실시예로, 소스 파워와 채널 간 레벨 차이를 이용하는 방법이 있을 수 있다. 특정 채널의 소스 파워를 양자화하여 보내고, 다른 채널의 소스 파워는 특정 채널의 소스 파워에 대한 상대적인 값으로부터 획득될 수 있다. 여기서, 상기 상대적인 값은 전력비(예를 들어, Ps_i+1/Ps_i)일 수도 있고, 전력값에 log를 취한 값들의 차분값일 수도 있다. 예를 들어, 10log₁₀(Ps_i+1)-10log₁₀(Ps_i) = 10log₁₀(Ps_i+1/Ps_i) 일 수 있다. 혹은 양자화한 후의 인덱스 차이값을 전송하는 것도 가능하다.

이와 같은 형태를 사용할 경우, 스테레오 신호의 각 채널의 소스 파워는 매우 유사한 값을 갖기 때문에 양자화 및 압축 전송에 매우 유리하다. 또한, 양자화 이전에 차분값을 구할 경우, 보다 정확한 소스 파워를 전송할 수도 있다.

두번째 실시예로, 소스 파워 혹은 원 신호의 합과 차를 이용하는 방법이 있을 수 있다. 이 경우, 원래의 채널 신호를 전송하는 것보다 전송 효율이 좋을 뿐만 아니라, 양자화 오차의 균형면에서도 효율적일 수 있다.

상기 도 12를 참조하면, 특정 주파수 영역에 대해서만 커플링을 이용하는 것이 가능하고, 혹은 커플링이 일어난 주파수 영역에 대한 정보를 비트스트림에 포함시키는 것이 가능하다. 예를 들어, 일반적으로 저주파 대역의 신호에 있어서는 좌측 채널과 우측 채널이 유사한 특성을 갖고, 고주파 대역의 신호에 있어서는 좌측 채널과 우측 채널의 차이가 클 수 있다. 따라서, 저주파 대역에 대해서 커플링을 수행하는 것이 압축 효율을 높이는데 도움이 될 수 있다. 이하에서는 커플링을 수행하는 다양한 방법에 대해서 알아보도록 한다.

예를 들어, 저주파 대역의 신호에 대해서만 커플링을 수행할 수 있다. 이 경우, 미리 약속된 대역에 대해서만 커플링을 수행하므로, 커플링이 적용된 대역에 대한 정보를 따로 전송할 필요가 없다. 또는 커플링이 수행된 대역에 대한 정보를 전송하는 방법이 있을 수 있다. 최적의 압축 효율을 얻기 위해 인코더가 임의로 커플링이 수행되는 대역을 정하고, 비트스트림에 상기 커플링이 수행된 대역 정보를 포함할 수 있다.

또는 커플링 인덱스를 이용하는 방법이 있을 수 있다. 커플링이 일어나는 대역의 가능한 조합에 대해 인덱스를 부여하고, 실제로는 인덱스만을 전송할 수 있다. 예를 들어, 20개의 주파수 밴드로 분할하여 처리 하는 경우, 아래 표 1과 같이 인덱스에 따라 어느 밴드들이 커플링되었는지 알 수 있다.

[표 1]

상기 인덱스는 이미 결정된 것을 이용할 수 있고, 혹은 해당 컨텐츠의 최적 값을 정하여 인덱스 테이블을 전송할 수 있다. 또는 각 스테레오 오브젝트 신호마다 독립된 값을 사용할 수도 있다.

본 발명이 적용되는 실시예로서, 그룹핑된 오브젝트들의 상관성을 나타내는 정보를 획득하는 방법에 대해서 설명하도록 한다.

오브젝트 기반의 오디오 신호를 처리함에 있어서, 입력 신호를 구성하는 하나의 오브젝트는 독립적인 오브젝트로서 처리된다. 예를 들어, 보컬(vocal)을 구성하는 스테레오 신호(stereo signal)가 있을 경우, 좌측 채널 신호(left channel signal), 우측 채널 신호(right channel signal)를 각각 하나의 오브젝트로 인식하여 처리될 수 있다. 이러한 방식으로 오브젝트 신호를 구성할 경우, 신호의 근원(origin)이 동일한 오브젝트 간에는 상관성이 존재할 수 있고, 이러한 상관성을 이용하여 코딩할 경우 보다 효율적인 코딩이 가능할 있다. 예를 들어, 보컬을 구성하는 스테레오 신호의 좌측 채널 신호로 구성된 오브젝트와 우측 채널 신호로 구성된 오브젝트 간에는 상관성이 있을 수 있고, 이러한 상관성에 관한 정보를 전송하여 이용할 수 있다.

또한, 상기 상관성이 존재하는 오브젝트들을 그룹핑하고, 그룹핑된 오브젝트 들에 대하여 공통된 정보를 한번만 전송함으로써 보다 효율적인 코딩이 가능할 수 있다.

비트스트림으로부터 전송되는 정보로서, bsRelatedTo 는 하나의 오브젝트가 스테레오 또는 멀티 채널 오브젝트의 일부분일때, 다른 오브젝트들이 상기 동일한 스테레오 또는 멀티 채널 오브젝트의 일부분인지를 나타내는 정보일 수 있다. 상기 bsRelatedTo 는 1bit의 정보를 비트스트림으로부터 얻을 수 있다, 예를 들어, 상기 bsRelatedTo[i][j]=1 일 경우, 오브젝트 i와 오브젝트 j는 동일한 스테레오 또는 멀티 채널 오브젝트의 채널임을 의미할 수 있다.

상기 bsRelatedTo 값에 기초하여 오브젝트들이 그룹을 이루었는지 여부를 확인할 수 있다. 그리고, 각 오브젝트마다 상기 bsRelatedTo 값을 확인함으로써 각 오브젝트 간의 상관성에 대한 정보를 확인할 수 있다. 이렇게 상관성이 존재하는 그룹핑된 오브젝트들에 대하여는 동일한 정보(예를 들어, 메타 정보)를 한번만 전송함으로써 보다 효율적인 코딩이 가능할 수 있다.

크게 메인 컨트롤 윈도우(main control window)는 음악 리스트 영역, 일반적인 재생 컨트롤 영역, 리믹스 컨트롤 영역을 포함할 수 있다. 예를 들어, 상기 음악 리스트 영역은 적어도 하나의 샘플 음악을 포함할 수 있다. 상기 일반적인 재생 컨트롤 영역은 재생, 일시정지, 멈춤, 빨리 감기, 되감기, 포지션 슬라이드, 볼륨 등을 조절할 수 있다. 상기 리믹스 컨트롤 영역은 서브 윈도우 영역을 포함할 수 있다. 상기 서브 윈도우 영역은 향상된 컨트롤 영역을 포함할 수 있고, 상기 향상된 컨트롤 영역에서는 사용자가 원하는 항목을 컨트롤할 수 있다.

CD 플레이어의 경우, 사용자는 CD를 넣고 음악을 감상할 수 있다. PC 플레이어의 경우, 사용자가 PC에 디스크를 넣으면 자동으로 리믹스 플레이어가 자동 실행될 수 있다. 그리고, 플레이어의 파일 리스트예서 재생할 곡을 선택할 수 있다. 플레이어는 CD에 수록된 PCM 음원과 *.rmx 파일을 함께 읽어 자동으로 재생할 수 있다. 상기 플레이어는 일반적인 재생 컨트롤뿐만 아니라 풀 리믹스 컨트롤을 할 수 있다. 풀 리믹스 컨트롤의 예로서, 트랙 컨트롤, 패닝 컨트롤을 들 수 있다. 또는 간단한(easy) 리믹스 컨트롤도 가능할 수 있다. 간단한 리믹스 컨트롤 모드로 전환할 경우, 몇 가지 기능만을 컨트롤할 수 있게 된다. 예를 들어, 상기 간단한 리믹스 컨트롤 모드는 가라오케와 아카펠라처럼 특정 오브젝트만을 쉽게 조절할 수 있는 간단 제어창을 의미할 수 있다. 또한, 서브 윈도우 영역에서, 사용자는 보다 상세하게 제어가 가능할 수 있다.

이상에서 설명한 바와 같이, 본 발명이 적용되는 신호 처리 장치는 DMB(Digital Multimedia Broadcasting)과 같은 멀티미디어 방송 송/수신 장치에 구비되어, 오디오 신호 및 데이터 신호 등을 복호화하는데 사용될 수 있다. 또한 상기 멀티미디어 방송 송/수신 장치는 이동통신 단말기를 포함할 수 있다.

또한, 본 발명이 적용되는 신호 처리 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 본 발명에 따른 데이터 구조를 가지는 멀티미디어 데이터도 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있다. 상기 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 상기 신호 처리 방법에 의해 생성된 비트스트림은 컴퓨터가 읽을 수 있는 기록 매체에 저장되거나, 유/무선 통신망을 이용해 전송될 수 있다.

이상, 전술한 본 발명의 바람직한 실시예는, 예시의 목적을 위해 개시된 것으로, 당업자라면 이하 첨부된 특허청구범위에 개시된 본 발명의 기술적 사상과 그 기술적 범위 내에서, 다양한 다른 실시예들을 개량, 변경, 대체 또는 부가 등이 가능할 것이다.

Claims

적어도 하나 이상의 오브젝트 신호가 다운믹스된 다운믹스 정보를 수신하는 단계;

오브젝트 정보를 포함하는 부가 정보와, 믹스 정보를 획득하는 단계;

상기 획득된 부가 정보와 믹스 정보에 기초하여 멀티 채널 정보를 생성하는 단계; 및

상기 멀티 채널 정보를 이용하여, 상기 다운믹스 정보로부터 출력 채널 신호를 생성하는 단계를 포함하되,

상기 오브젝트 정보는 상기 오브젝트 신호의 레벨 정보, 상관 정보, 게인 정보 및 그들의 보충 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 1항에 있어서,

상기 보충 정보는, 상기 오브젝트 신호의 게인 정보의 실제 값과 추정값 간의 차이 정보를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 1항에 있어서,

상기 믹스 정보는 상기 오브젝트 신호의 위치 정보, 게인 정보 및 재생 환경 정보 중 적어도 하나에 근거하여 생성된 것을 특징으로 하는 오디오 신호 처리 방 법.
제 1항에 있어서,

상기 오브젝트 정보와 상기 믹스 정보를 이용하여 역처리 수행 여부를 결정하는 단계와;

상기 결정에 따라 역처리가 수행되는 경우, 게인 보상을 위한 역처리 게인값을 획득하는 단계를 더 포함하되,

상기 역처리는, 변경되는 오브젝트의 개수가 변경되지 않는 오브젝트의 개수보다 많은 경우, 상기 변경되지 않는 오브젝트를 기준으로 게인 보상하는 것을 나타내고, 상기 출력 채널 신호는 상기 역처리 게인값에 기초하여 생성되는 것을 특징으로 하는 오디오 신호 처리 방법.
제 1항에 있어서,

상기 오브젝트 신호의 레벨 정보는, 상기 믹스 정보에 기초하여 수정된 레벨 정보를 포함하고,

상기 멀티 채널 정보는, 상기 수정된 레벨 정보에 기초하여 생성되는 것을 특징으로 하는 오디오 신호 처리 방법.
제 5항에 있어서,

상기 수정된 레벨 정보는, 특정 오브젝트 신호의 크기가 소정의 문턱값을 기 준으로 증폭 또는 감소되는 경우, 상기 오브젝트 신호의 레벨 정보에 1보다 큰 상수를 곱하여 생성되는 것을 특징으로 하는 오디오 신호 처리 방법.
적어도 하나 이상의 오브젝트 신호가 다운믹스된 다운믹스 정보를 수신하는 단계;

오브젝트 정보를 포함하는 부가 정보와, 믹스 정보를 획득하는 단계;

상기 획득된 부가 정보와 믹스 정보에 기초하여 멀티 채널 정보를 생성하는 단계; 및

상기 멀티 채널 정보를 이용하여, 상기 다운믹스 정보로부터 출력 채널 신호를 생성하는 단계를 포함하되,

상기 오브젝트 정보는 상기 오브젝트 신호의 레벨 정보, 상관 정보 및 게인 정보 중 적어도 하나를 포함하고, 상기 오브젝트 정보들과 상기 믹스 정보 중 적어도 하나는 양자화된 것을 특징으로 하는 오디오 신호 처리 방법.
제 1항 또는 제 7항에 있어서,

오브젝트 간 그룹을 이루는지 여부를 나타내는 커플링 정보를 획득하는 단계를 더 포함하고,

상기 오브젝트 신호의 상관 정보는, 상기 커플링 정보에 기초하여 획득되는 것을 특징으로 하는 오디오 신호 처리 방법.
제 8항에 있어서,

상기 커플링 정보에 기초하여 그룹핑된 오브젝트들에 대하여 공통된 하나의 메타 정보를 획득하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 9항에 있어서,

상기 메타 정보는 메타 데이터의 문자 개수와 각 문자 정보를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
적어도 하나 이상의 오브젝트 신호가 다운믹스된 다운믹스 정보를 수신하는 단계;

오브젝트 정보와 커플링 정보를 포함하는 부가 정보, 및 믹스 정보를 획득하는 단계;

상기 획득된 부가 정보와 믹스 정보에 기초하여 멀티 채널 정보를 생성하는 단계; 및

상기 멀티 채널 정보를 이용하여, 상기 다운믹스 정보로부터 출력 채널 신호를 생성하는 단계를 포함하되,

상기 오브젝트 신호는 독립 오브젝트 신호와 백그라운드 오브젝트 신호로 구분되고,

상기 오브젝트 정보는 상기 오브젝트 신호의 레벨 정보, 상관 정보 및 게인 정보 중 적어도 하나를 포함하며, 상기 오브젝트 신호의 상관 정보는 상기 커플링 정보에 기초하여 획득되는 것을 특징으로 하는 오디오 신호 처리 방법.
제 11항에 있어서,

상기 독립 오브젝트 신호는 보컬 오브젝트 신호를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 11항에 있어서,

상기 백그라운드 오브젝트 신호는 반주(accompaniment) 오브젝트 신호를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 11항에 있어서,

상기 백그라운드 오브젝트 신호는 하나 이상의 채널 기반 신호를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 11항에 있어서,

상기 오브젝트 신호는, 플래그 정보에 기초하여 독립 오브젝트 신호와 백그라운드 오브젝트 신호로 구분되는 것을 특징으로 하는 오디오 신호 처리 방법.
제 11항에 있어서,

상기 오브젝트 정보와 상기 믹스 정보를 이용하여 역처리 수행 여부를 결정하는 단계와;

상기 결정에 따라 역처리가 수행되는 경우, 게인 보상을 위한 역처리 게인값을 획득하는 단계를 더 포함하되,

상기 역처리는, 변경되는 오브젝트의 개수가 변경되지 않는 오브젝트의 개수보다 많은 경우, 상기 변경되지 않는 오브젝트를 기준으로 게인 보상하는 것을 나타내고, 상기 출력 채널 신호는 상기 역처리 게인값에 기초하여 생성되는 것을 특징으로 하는 오디오 신호 처리 방법.
제 11항에 있어서,

상기 오디오 신호는, 방송 신호로서 수신된 것임을 특징으로 하는 오디오 신호 처리 방법.
제 11항에 있어서,

상기 오디오 신호는, 디지털 미디엄을 통해 수신된 것임을 특징으로 하는 오디오 신호 처리 방법.
제 11항에 기재된 방법을 실행하기 위한 프로그램이 저장된 컴퓨터로 읽을 수 있는 기록 매체.
적어도 하나 이상의 오브젝트 신호가 다운믹스된 다운믹스 정보를 수신하는 다운믹스 처리부;

오브젝트 정보를 포함하는 부가 정보와, 믹스 정보를 획득하고, 상기 획득된 부가 정보와 믹스 정보에 기초하여 멀티 채널 정보를 생성하는 정보 생성부; 및

상기 멀티 채널 정보를 이용하여, 상기 다운믹스 정보로부터 출력 채널 신호를 생성하는 멀티 채널 디코딩부를 포함하되,

상기 오브젝트 정보는 상기 오브젝트 신호의 레벨 정보, 상관 정보, 게인 정보 및 그들의 보충 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.
적어도 하나 이상의 오브젝트 신호가 다운믹스된 다운믹스 정보를 수신하는 다운믹스 처리부;

오브젝트 정보를 포함하는 부가 정보와, 믹스 정보를 획득하고, 상기 획득된 부가 정보와 믹스 정보에 기초하여 멀티 채널 정보를 생성하는 정보 생성부; 및

상기 멀티 채널 정보를 이용하여, 상기 다운믹스 정보로부터 출력 채널 신호를 생성하는 멀티 채널 디코딩부를 포함하되,

상기 오브젝트 정보는 상기 오브젝트 신호의 레벨 정보, 상관 정보 및 게인 정보 중 적어도 하나를 포함하고, 상기 오브젝트 정보들과 상기 믹스 정보 중 적어도 하나는 양자화된 것을 특징으로 하는 오디오 신호 처리 장치.
적어도 하나 이상의 오브젝트 신호가 다운믹스된 다운믹스 정보를 수신하는 다운믹스 처리부;

오브젝트 정보와 커플링 정보를 포함하는 부가 정보, 및 믹스 정보를 획득하고, 상기 획득된 부가 정보와 믹스 정보에 기초하여 멀티 채널 정보를 생성하는 정보 생성부; 및

상기 멀티 채널 정보를 이용하여, 상기 다운믹스 정보로부터 출력 채널 신호를 생성하는 멀티 채널 디코딩부를 포함하되,

상기 오브젝트 신호는 독립 오브젝트 신호와 백그라운드 오브젝트 신호로 구분되고,

상기 오브젝트 정보는 상기 오브젝트 신호의 레벨 정보, 상관 정보 및 게인 정보 중 적어도 하나를 포함하며, 상기 오브젝트 신호의 상관 정보는 상기 커플링 정보에 기초하여 획득되는 것을 특징으로 하는 오디오 신호 처리장치.