KR20090026121A

KR20090026121A - 오브젝트 기반 오디오 신호를 인코딩 및 디코딩하는 방법 및 장치

Info

Publication number: KR20090026121A
Application number: KR1020087026607A
Authority: KR
Inventors: 윤성용; 방희석; 이현국; 김동수; 임재현
Original assignee: 엘지전자 주식회사
Priority date: 2006-09-29
Filing date: 2007-10-01
Publication date: 2009-03-11
Also published as: EP2070080A1; EP2070081A1; RU2010141970A; US9792918B2; CA2646045A1; MX2008012246A; JP2010505142A; WO2008039042A1; JP2010505141A; AU2007300814A1; JP2010505140A; US20090157411A1; MX2008012250A; WO2008039039A1; BRPI0711104A2; EP2071563A4; KR20090013178A; EP2071563A1; AU2007300812A1; CA2645910A1

Abstract

각 오브젝트 오디오 신호에 대하여 소정의 위치에 음상이 위치될 수 있도록 오디오 신호들이 인코딩되거나 디코딩되는 오디오 인코딩 방법 및 장치 그리고 오디오 디코딩 방법 및 장치가 제공된다. 상기 오디오 디코딩 방법은, 입력 오디오 신호로부터 오브젝트 기반 부가정보 및 다운믹스 신호를 추출하는 단계; 입력 제어 데이터에 기초하여 렌더링 정보를 생성하는 단계; 및 상기 오브젝트 기반 부가정보 및 상기 렌더링 정보에 기초하여 공간 정보를 생성하는 단계를 포함한다.

Description

오브젝트 기반 오디오 신호를 인코딩 및 디코딩하는 방법 및 장치{METHODS AND APPARATUSES FOR ENCODING AND DECODING OBJECT-BASED AUDIO SIGNALS}

오디오 신호 디코딩 방법은 오디오 신호로부터 오브젝트 기반 부가정보 및 다운믹스 신호를 추출하는 단계; 상기 오브젝트 기반 부가정보로부터 추출된 상기 다운믹스 신호 및 추출된 정보에 기초하여 수정된 다운믹스 신호를 생성하는 단계; 상기 다운믹스 신호를 렌더링하기 위한 제어 데이터 및 상기 오브젝트 기반 부가정보에 기초하여 채널 기반 부가정보를 생성하는 단계; 및 상기 수정된 다운믹스 신호 및 상기 채널 기반 부가정보에 기초하여 멀티채널 오디오 신호를 생성하는 단계를 포함한다.

일반적으로, 멀티채널 오디오 인코딩(multi-channel audio encoding) 및 디코딩(decoding) 기술에 있어서, 멀티채널 신호의 다채널 신호들은 더 작은 수의 채널 신호들로 다운믹스(downmix)되고, 원 채널 신호(original channel signal)들에 관한 부가정보(side information)가 전송되며, 원 멀티채널 신호와 동일한 정도의 다채널들을 갖는 멀티채널 신호로 복원된다.

오브젝트 기반 오디오 인코딩 및 디코딩 기술은, 수개의 음원(sound source)들을 더 작은 수의 음원 신호들로 다운믹스하고 원래 음원에 관한 부가정보를 전송 하는 점에서, 멀티채널 오디오 인코딩 및 디코딩 기술과 기본적으로 유사하다. 그러나, 오브젝트 기반 오디오 인코딩 및 디코딩 기술에 있어서, 채널 신호의 기본적인 성분들(예컨대, 악기 또는 사람 목소리의 소리)인 오브젝트 신호는, 멀티채널 오디오 인코딩 및 디코딩 기술의 채널 신호와 동일하게 취급되어 코딩될 수 있다.

즉, 오브젝트 기반 오디오 인코딩 및 디코딩 기술의 경우, 각 오브젝트 신호는 코딩될 개체로서 간주된다. 이와 관련하여, 멀티채널 오디오 코딩 동작이 코딩될 채널 신호의 성분들의 수와 상관없이 채널간 정보(inter-channel information)에 기초하여 간단히 실행된다는 점에서, 오브젝트 기반 오디오 인코딩 및 디코딩 기술은 멀티채널 오디오 인코딩 및 디코딩 기술과 다르다.

기술적 문제

본 발명은 각 오브젝트 오디오 신호에 대하여 소정의 위치에 음상이 위치될 수 있도록 오디오 신호들이 인코딩되거나 디코딩되는 오디오 인코딩 방법 및 장치 그리고 오디오 디코딩 방법 및 장치를 제공한다.

기술적 해결책

본 발명의 일태양에 따르면, 입력 오디오 신호로부터 오브젝트 기반 부가정보 및 다운믹스 신호를 추출하는 단계; 입력 제어 데이터에 기초하여 렌더링 정보를 생성하는 단계; 및 상기 오브젝트 기반 부가정보 및 상기 렌더링 정보에 기초하여 공간 정보를 생성하는 단계를 포함한 오디오 디코딩 방법이 제공된다.

본 발명의 다른 태양에 따르면, 입력 오디오 신호로부터 오브젝트 기반 부가정보 및 다운믹스 신호를 추출하는 디멀티플렉서(demultiplexer); 입력 제어 데이터에 기초하여 렌더링 정보를 생성하는 렌더링부(renderer); 및 상기 오브젝트 기반 부가정보 및 상기 렌더링 정보에 기초하여 공간 정보를 생성하는 트랜스코딩부(transcoder)를 포함한 오디오 디코딩 장치가 제공된다.

본 발명의 일태양에 따르면, 입력 오디오 신호로부터 오브젝트 기반 부가정보 및 다운믹스 신호를 추출하는 단계; 입력 제어 데이터에 기초하여 렌더링 정보를 생성하는 단계; 및 상기 오브젝트 기반 부가정보 및 상기 렌더링 정보에 기초하여 공간 정보를 생성하는 단계를 포함하는 오디오 디코딩 방법을 실행하기 위한 컴퓨터 프로그램을 기록한 컴퓨터가 읽을 수 있는 기록 매체(recording medium)가 제공된다.

이로운 효과

각 오브젝트 오디오 신호에 대하여 소정의 위치에 음상들이 위치될 수 있도록 오디오 신호들이 인코딩되거나 디코딩될 수 있는 오디오 인코딩 방법 및 장치 그리고 오디오 디코딩 방법 및 장치가 제공된다.

본 발명은 하기의 상세한 설명 및 첨부된 도면으로부터 더 완전히 이해될 것이며, 하기 상세한 설명 및 도면은 예시적이며 이에 의해 본 발명이 제한되는 것은 아니다.

도 1은 일반적인 오브젝트 기반 오디오 인코딩/디코딩 시스템의 블록도이다.

도 2는 본 발명의 제 1 실시예에 따른 오디오 디코딩 장치의 블록도이다.

도 3은 본 발명의 제 2 실시예에 따른 오디오 디코딩 장치의 블록도이다.

도 4는 서로 독립된 진폭 차이 및 시간 차이의 음상의 정위(localization)에의 영향을 설명하기 위한 그래프이다.

도 5는 미리 정해진 위치에 음상들을 위치시키는데 요구되는 진폭 차이 및 시간 차이 간의 대응(correspondance)에 관한 함수의 그래프이다.

도 6은 조화 정보를 포함하는 제어 데이터의 포맷을 도시한 도면이다.

도 7은 본 발명의 제 3 실시예에 따른 오디오 디코딩 장치의 블록도이다.

도 8은 도 7에 도시된 상기 오디오 디코딩 장치에 이용될 수 있는 아티스틱 다운믹스 게인(ADG; artistic downmix gain)의 블록도이다.

도 9는 본 발명의 제 4 실시예에 따른 오디오 디코딩 장치의 블록도이다.

도 10은 본 발명의 제 5 실시예에 따른 오디오 디코딩 장치의 블록도이다.

도 11은 본 발명의 제 6 실시예에 따른 오디오 디코딩 장치의 블록도이다.

도 12는 본 발명의 제 7 실시예에 따른 오디오 디코딩 장치의 블록도이다.

도 13는 본 발명의 제 8 실시예에 따른 오디오 디코딩 장치의 블록도이다.

도 14는 도 13에 도시된 상기 오디오 디코딩 장치에 의한 프레임에의 3차원(3D) 정보의 적용을 설명하기 위한 도식이다.

도 15는 본 발명의 제 9 실시예에 따른 오디오 디코딩 장치의 블록도이다.

도 16은 본 발명의 제 10 실시예에 따른 오디오 디코딩 장치의 블록도이다.

도 17 내지 19는 본 발명의 일실시예에 따른 오디오 디코딩 방법을 설명하기 위한 도식이다.

도 20은 본 발명의 일실시예에 따른 오디오 인코딩 장치의 블록도이다.

상기 발명을 실행하기 위한 최적의 모드

이하에서는, 본 발명의 예시적인 실시예들이 도시된 첨부된 도면을 참조하여, 본 발명을 상세히 개시한다.

본 발명에 따른 오디오 인코딩 방법 및 장치 그리고 오디오 디코딩 방법 및 장치는 오브젝트 기반 오디오 처리 동작에 적용될 수 있으나, 본 발명은 이에 한정되지 않는다. 다시 말해서, 상기 오디오 인코딩 방법 및 장치 그리고 상기 오디오 디코딩 방법 및 장치는 오브젝트 기반 오디오 처리 동작 외에도 수많은 신호 처리 동작들에 적용될 수 있다.

도 1은 일반적인 오브젝트 기반 오디오 인코딩/디코딩 시스템의 블록도이다. 일반적으로, 오브젝트 기반 오디오 인코딩 장치에 입력된 오디오 신호들은 멀티채널 신호의 채널들과 일치하지 않으나 독립된 오브젝트 신호들이다. 이와 관련하여, 오브젝트 기반 오디오 인코딩 장치는 멀티채널 신호의 채널 신호들이 입력되는 멀티채널 오디오 인코딩 장치와 구별된다.

예컨대, 5.1 채널 신호의 프론트 레프트(front left) 채널 신호 및 프론트 라이트(front right) 채널 신호와 같은 채널 신호들은 멀티채널 오디오 신호로 입력될 수 있는 반면, 채널 신호들보다 더 작은 개체(entity)인 사람 목소리 또는 악 기의 소리(바이올린 또는 피아노의 소리)와 같은 오브젝트 오디오 신호들은 오브젝트 기반 오디오 인코딩 장치에 입력될 수 있다.

도 1을 참조하면, 오브젝트 기반 오디오 인코딩/디코딩 시스템은 오브젝트 기반 오디오 인코딩 장치 및 오브젝트 기반 오디오 디코딩 장치를 포함한다. 상기 오브젝트 기반 오디오 인코딩 장치는 오브젝트 인코딩부(100)를 포함하고, 상기 오브젝트 기반 오디오 디코딩 장치는 오브젝트 디코딩부(111) 및 렌더링부(renderer, 113)를 포함한다.

상기 오브젝트 인코딩부(100)는 N개의 오브젝트 오디오 신호들을 수신하고, 에너지 차이, 위상 차이 및 상관값(correlation value)과 같은 상기 N개의 오브젝트 오디오 신호들로부터 추출된 많은 수의 정보를 포함한 부가정보 및 하나 이상의 채널들을 갖는 오브젝트 기반 다운믹스 신호를 생성한다. 상기 부가정보 및 상기 오브젝트 기반 다운믹스 신호는 하나의 비트스트림으로 통합되고, 상기 비트스트림은 상기 오브젝트 기반 디코딩 장치에 전송된다.

상기 부가정보는 채널 기반 오디오 코딩을 실행하는지 오브젝트 기반 오디오 코딩을 실행하는지를 나타내는 플래그를 포함할 수 있어 상기 부가정보의 상기 플래그에 기초하여 오브젝트 기반 오디오 코딩을 실행하는지 채널 기반 오디오 코딩을 실행하는지가 결정될 수 있다. 상기 부가정보는 오브젝트 신호에 관한 엔벨로프 정보(envelope information), 그룹핑 정보(grouping information), 무음 기간 정보(silent period information) 및 지연 정보(delay information)도 포함할 수 있다. 상기 부가정보는 오브젝트 레벨 차이 정보(object level differences information), 오브젝트 간 상호 상관 정보(inter-object cross correlation information), 다운믹스 이득 정보, 다운믹스 채널 레벨 차이 정보 및 절대적 오브젝트 에너지 정보를 포함할 수도 있다.

상기 오브젝트 디코딩부(111)는 상기 오브젝트 기반 오디오 인코딩 장치로부터 상기 부가정보 및 상기 오브젝트 기반 다운믹스 신호를 수신하고, 상기 오브젝트 기반 다운믹스 신호 및 상기 부가정보에 기초하여 상기 N개의 오브젝트 오디오 신호들의 특성과 동일한 특성을 갖는 오브젝트 신호들을 복원시킨다. 상기 오브젝트 디코딩부(111)에 의해 생성된 상기 오브젝트 신호들은 멀티채널 공간 내의 소정의 위치에 아직 할당되지 않는다. 따라서, 상기 렌더링부(113)는 상기 오브젝트 디코딩부(111)에 의해 생성된 상기 오브젝트 신호들 각각을 멀티채널 공간 내의 미리 정해진 위치에 할당하고, 상기 오브젝트 신호들의 레벨들을 결정하여 상기 렌더링부(113)에 의해 지정된 각각의 대응하는 위치로부터 상기 오브젝트 신호들이 상기 렌더링부(113)에 의해 결정된 각각의 대응하는 레벨들로 재생되도록 한다. 상기 오브젝트 디코딩부(111)에 의해 생성된 상기 오브젝트 신호들 각각에 관한 제어 정보는 오버 타임(over time)을 바꿀 수 있으므로, 상기 오브젝트 디코딩부(111)에 의해 생성된 상기 오브젝트 신호들의 레벨들 및 상기 공간 위치들은 상기 제어 정보에 따라 바뀔 수 있다.

도 2는 본 발명의 제 1 실시예에 따른 오디오 디코딩 장치(120)의 블록도이다. 도 2를 참조하면, 상기 오디오 디코딩 장치(120)는 오브젝트 디코딩부(121), 렌더링부(123) 및 파라미터 컨버팅부(125)를 포함한다. 상기 오디오 디코딩 장 치(120)는 입력된 비트스트림으로부터의 부가정보 및 다운믹스 신호를 추출하는 디멀티플렉서(demultiplexer)(도시되지 않음)를 포함할 수도 있고, 이는 본 발명의 다른 실시예들에 따른 모든 오디오 디코딩 장치들에 적용될 것이다.

상기 오브젝트 디코딩부(121)는 상기 파라미터 컨버팅부(125)에 의해 제공된 수정된(modified) 부가정보 및 다운믹스 신호에 기초하여 많은 오브젝트 신호들을 생성한다. 상기 렌더링부(123)는 멀티채널 공간 내의 미리 정해진 위치에 상기 오브젝트 디코딩부(121)에 의해 생성된 상기 오브젝트 신호들 각각을 할당하고, 제어 정보에 따라 상기 오브젝트 디코딩부(121)에 의해 생성된 상기 오브젝트 신호들의 레벨들을 결정한다. 상기 파라미터 컨버팅부(125)는 상기 부가정보와 상기 제어 정보를 결합시킴으로써 상기 수정된 부가정보를 생성한다. 이어서, 상기 파라미터 컨버팅부(125)는 상기 수정된 부가정보를 상기 오브젝트 디코딩부(121)에 전송한다.

상기 오브젝트 디코딩부(121)는 상기 수정된 부가정보 내의 상기 제어 정보를 분석함으로써 적절한 디코딩을 실행할 수 있다.

예컨대, 제 1 오브젝트 신호 및 제 2 오브젝트 신호가 멀티채널 공간 내의 동일한 위치에 할당되고 같은 레벨을 갖는다는 것을 상기 제어 정보가 가리킨다면, 일반적인 오디오 디코딩 장치는 상기 제 1 및 제 2 오브젝트 신호들을 개별적으로 디코딩할 수 있고, 이어서 믹싱/렌더링 동작을 통해 멀티채널 공간 내에 이들을 배치할 수 있다.

반면, 상기 오디오 디코딩 장치(120)의 상기 오브젝트 디코딩부(121)는 상기 수정된 부가정보 내의 상기 제어 정보로부터, 상기 제 1 및 제 2 오브젝트 신호들 이 멀티채널 공간 내의 동일한 위치에 할당되고, 이들이 하나의 음원인 것처럼 동일한 레벨을 갖는다는 것을 알 수 있다. 따라서, 상기 오브젝트 디코딩부(121)는 상기 제 1 및 제 2 오브젝트 신호들을 개별적으로 디코딩하지 않고 하나의 음원으로 취급하여 이들을 디코딩한다. 결과적으로, 디코딩의 복잡도는 감소한다. 게다가, 처리될 필요가 있는 음원수의 감소로 인해, 믹싱/렌더링의 복잡도도 감소한다.

복수의 오브젝트 신호들은 동일한 공간 위치에 거의 할당되지 않기 때문에, 상기 오디오 디코딩 장치(120)는 오브젝트 신호들의 수가 출력 채널의 수보다 많은 상황에서 유용하게 이용될 수 있다.

또한, 상기 오디오 디코딩 장치(120)는 상기 제 1 오브젝트 신호 및 상기 제 2 오브젝트 신호가 멀티채널 공간 내의 동일한 위치에 할당되지만 다른 레벨을 갖는 상황에서 이용될 수 있다. 이 경우에, 상기 오디오 디코딩 장치(120)는 상기 제 1 및 제 2 오브젝트 신호들을 개별적으로 디코딩하여 상기 디코딩된 제 1 및 제 2 오브젝트 신호들을 상기 렌더링부(123)에 전송하는 대신에, 상기 제 1 및 제 2 오브젝트 신호들을 하나로 취급하여 상기 제 1 및 제 2 오브젝트 신호들을 디코딩한다. 더 상세하게는, 상기 오브젝트 디코딩부(121)는 상기 수정된 부가정보 내의 제어 정보로부터 상기 제 1 및 제 2 오브젝트 신호들의 레벨 간의 차이에 관한 정보를 획득할 수 있고, 상기 획득된 정보에 기초하여 상기 제 1 및 제 2 오브젝트 신호들을 디코딩할 수 있다. 결과적으로, 상기 제 1 및 제 2 오브젝트 신호들이 다른 레벨을 가질지라도, 상기 제 1 및 제 2 오브젝트 신호들은 하나의 음원인 것처럼 디코딩될 수 있다.

또한, 상기 오브젝트 디코딩부(121)는 상기 제어 정보에 따라 상기 오브젝트 디코딩부(121)에 의해 생성된 상기 오브젝트 신호들의 레벨들을 조절할 수 있다. 이어서, 상기 오브젝트 디코딩부(121)는 레벨이 조절된 상기 오브젝트 신호들을 디코딩할 수 있다. 따라서, 상기 렌더링부(123)는 상기 오브젝트 디코딩부(121)에 의해 공급된 상기 디코딩된 오브젝트 신호들의 레벨을 조절할 필요는 없으나, 상기 오브젝트 디코딩부(121)에 의해 공급된 상기 디코딩된 오브젝트 신호들을 멀티채널 공간 내에 단순히 배치한다. 요컨대, 상기 오브젝트 디코딩부(121)가 상기 제어 정보에 따라 상기 오브젝트 디코딩부(121)에 의해 생성된 상기 오브젝트 신호들의 레벨을 조절하기 때문에, 상기 오브젝트 디코딩부(121)에 의해 생성된 상기 오브젝트 신호들의 레벨을 추가적으로 조절할 필요없이 상기 렌더링부(123)는 멀티채널 공간 내에 상기 오브젝트 디코딩부(121)에 의해 생성된 상기 오브젝트 신호들을 쉽게 배치할 수 있다. 그러므로, 믹싱/렌더링의 복잡도를 감소시키는 것이 가능하다.

도 2의 실시예에 따르면, 상기 오디오 디코딩 장치(120)의 오브젝트 디코딩부는 상기 제어 정보의 분석을 통해 디코딩 동작을 적절하게 실행할 수 있어 디코딩의 복잡도 및 믹싱/렌더링의 복잡도를 감소시킬 수 있다. 상기 오디오 디코딩 장치(120)에 의해 실행된 상술한 방법들의 조합이 이용될 수 있다.

도 3은 본 발명의 제 2 실시예에 따른 오디오 디코딩 장치(130)의 블록도이다. 도 3을 참조하면, 상기 오디오 디코딩 장치(130)는 오브젝트 디코딩부(131) 및 렌더링부(133)를 포함한다. 상기 오디오 디코딩 장치(130)는 부가정보를 상기 오브젝트 디코딩부(131)뿐만 아니라 상기 렌더링부(133)에 공급하는 특징을 갖는다.

상기 오디오 디코딩 장치(130)는 무음 기간에 상응하는 오브젝트 신호가 있는 경우에도 디코딩 동작을 효과적으로 실행할 수 있다. 예컨대, 제 2 내지 제 4 오브젝트 신호들은 악기가 연주되는 동안의 음악 연주 기간에 대응할 수 있고, 상기 제 1 오브젝트 신호는 반주가 연주되는 동안의 무음 기간에 대응할 수 있다. 이 경우에, 복수의 오브젝트 신호들 중 어느 것이 무음 기간에 대응하는 지를 나타내는 정보가 부가정보에 포함될 수 있고, 상기 부가정보는 상기 오브젝트 디코딩부(131)뿐만 아니라 상기 렌더링부(133)에 공급될 수 있다.

상기 오브젝트 디코딩부(131)는 무음 기간에 대응하는 오브젝트 신호를 디코딩하지 않음으로써 디코딩의 복잡도를 최소화할 수 있다. 상기 오브젝트 디코딩부(131)는 0 값에 대응하는 오브젝트 신호를 설정하고 상기 오브젝트 신호의 레벨을 상기 렌더링부(133)에 전송한다. 일반적으로, 0 값을 갖는 오브젝트 신호들은 0이 아닌 값을 갖는 오브젝트 신호들로 동일하게 취급되어 믹싱/렌더링 동작이 행해지는 수가 있다.

반면에, 상기 오디오 디코딩 장치(130)는 복수의 오브젝트 신호들 중 어느 것이 무음 기간에 상응하는 지를 나타내는 정보를 포함하는 부가정보를 상기 렌더링부(133)에 전송하며, 따라서 무음 기간에 대응하는 오브젝트 신호가 상기 렌더링부(133)에 의해 실행되는 믹싱/렌더링 동작이 행해지는 것을 막을 수 있다. 그러므로, 상기 오디오 디코딩 장치(130)는 믹싱/렌더링의 복잡도의 불필요한 증가를 막을 수 있다.

상기 렌더링부(133)는 스테레오 장면(stereo scene)에 각 오브젝트 신호의 음상을 위치시키기 위해 제어 정보 내에 포함된 믹싱 파라미터 정보를 이용할 수 있다. 상기 믹싱 파라미터 정보는 오직 진폭 정보를 포함하거나 진폭 정보와 시간 정보를 모두 포함할 수 있다. 상기 믹싱 파라미터 정보는 스테레오 음상의 정위(localization)뿐만 아니라 이용자에 의한 공간 음질의 심리음향 인지에 영향을 미칠 수 있다.

예컨대, 시간 패닝 방법(time panning method) 및 진폭 패닝 방법(amplitude panning method) 각각을 이용하여 생성되고 2-채널 스테레오 스피커를 이용하여 동일한 위치에 재생된 두 개의 음상을 비교하면, 상기 진폭 패닝 방법이 음상의 정확한 정위에 기여하고, 상기 시간 패닝 방법이 공간의 심오한 느낌을 갖는 자연적인 소리를 제공할 수 있는지가 인정된다. 따라서, 멀티채널 공간에 오브젝트 신호들을 배치하기 위해 상기 렌더링부(133)가 상기 진폭 패닝 방법만을 이용한다면, 상기 렌더링부(133)는 각 음상을 정확하게 배치할 수 있지만, 상기 시간 패닝 방법을 이용하는 경우만큼 소리의 심오한 느낌을 제공할 수 없다. 이용자들은 음원의 종류에 따라 음상의 정확한 정위보다 소리의 심오한 느낌을 더 좋아할 수 있고, 그 반대일 수도 있다.

도 4(a) 및 4(b)는 2-채널 스테레오 스피커로 신호의 재생을 실행함에 있어서 음상의 정위 상의 시간 차이 및 강도(진폭 차이)의 영향을 설명한다. 도 4(a) 및 4(b)를 참조하면, 음상은 서로 독립적인 진폭 차이 및 시간 차이에 따라 미리 정해진 각도에 위치될 수 있다. 예컨대, 약 8 dB의 진폭 차이 또는 약 8 dB의 진폭 차이와 등가인 약 0.5 ms의 시간 차이는 20°의 각도로 음상을 위치시키기 위해 이 용될 수 있다. 그러므로, 오직 진폭 차이만이 믹싱 파라미터 정보로서 제공될지라도, 음상의 정위 동안 상기 진폭 차이를 상기 진폭 차이와 등가인 시간 차이로 변환함으로써 다른 특성들을 갖는 다양한 소리들을 얻는 것이 가능하다.

도 5는 10°, 20° 및 30°각도에 음상을 위치시키는데 필요한 진폭 차이와 시간 차이 사이의 대응에 관한 함수를 도시한다. 도 5에 도시된 상기 함수는 도 4(a) 및 4(b)에 기초하여 얻어질 수 있다. 도 5를 참조하면, 다양한 진폭 차이-시간 차이 조합들이 미리 정해진 위치에 음상을 위치시키기 위해 제공될 수 있다. 예컨대, 20°의 각도에 음상을 위치시키기 위해 8 dB의 진폭 차이가 믹싱 파라미터 정보로서 제공된다고 가정한다. 도 5에 도시된 함수에 따라, 또한 3 dB의 진폭 차이와 0.3 ms의 시간 차이의 조합을 이용하여 음상은 20°의 각도에 위치될 수 있다. 이 경우에, 진폭 차이 정보뿐만 아니라 시간 차이 정보가 믹싱 파라미터 정보로서 제공될 수 있고, 이로 인해 공간의 느낌(feeling of space)을 향상시킬 수 있다.

그러므로, 믹싱/렌더링 동작 동안 이용자가 원하는 특성을 갖는 소리들을 생성하기 위해, 믹싱 파라미터 정보는 진폭 패닝과 시간 패닝 중에 상기 이용자에게 알맞은 것이 실행될 수 있도록 적절히 변환될 수 있다. 즉, 믹싱 파라미터 정보가 오직 진폭 차이 정보를 포함하고, 상기 이용자가 공간의 심오한 느낌을 갖는 소리를 희망한다면, 상기 진폭 차이 정보는 심리음향적 데이터를 참조하여 상기 진폭 차이 정보와 등가인 시간 차이 정보로 변환될 수 있다. 또한, 상기 이용자가 공간의 심오한 느낌을 갖는 소리 및 음상의 정확한 정위를 희망한다면, 상기 진폭 차이 정보는 원래의 진폭 정보와 등가인 시간 차이 정보와 진폭 차이 정보의 조합으로 변환될 수 있다. 또한, 믹싱 파라미터 정보가 오직 시간 차이 정보를 포함하고, 이용자가 음상의 정확한 정위를 선호한다면, 상기 시간 차이 정보는 상기 시간 차이 정보와 등가인 진폭 차이 정보로 변환되거나, 음상 정위의 정확성 및 공간의 느낌 모두를 향상시킴으로써 이용자의 선호를 만족시킬 수 있는 진폭 차이 정보와 시간 차이 정보의 조합으로 변환될 수 있다.

또한, 믹싱 파라미터 정보가 진폭 차이 정보 및 시간 차이 정보를 포함하고 이용자가 음상의 정확한 정위를 선호한다면, 상기 진폭 차이 정보와 상기 시간 차이 정보의 조합은 원래의 진폭 차이 정보와 시간 차이 정보의 조합과 등가인 진폭 차이 정보로 변환될 수 있다. 반면에, 믹싱 파라미터 정보가 진폭 차이 정보 및 시간 차이 정보를 포함하고 이용자가 공간 느낌의 향상을 선호한다면, 상기 진폭 차이 정보와 상기 시간 차이 정보의 조합은 상기 진폭 차이 정보와 상기 원래 시간 시간 차이 정보의 조합과 등가인 시간 차이 정보로 변환될 수 있다. 도 6에 있어서, 제어 정보는 하나 이상의 오브젝트 신호에 관한 믹싱/렌더링 정보 및 조화 정보를 포함할 수 있다. 상기 조화 정보는 피치(pitch) 정보, 기본 주파수 정보, 하나 이상의 오브젝트 신호에 관한 우세 주파수 밴드 정보 및 상기 오브젝트 신호 각각의 각 서브밴드의 에너지 및 스펙트럼의 설명 중 적어도 하나 이상을 포함할 수 있다.

서브밴드부에서의 렌더링 동작을 실행하는 렌더링부의 해상도가 충분하지 않기 때문에, 상기 조화 정보는 렌더링 동작 동안 오브젝트 신호를 처리하는데 이용 될 수 있다.

상기 조화 정보가 하나 이상의 오브젝트 신호에 관한 피치 정보를 포함한다면, 상기 오브젝트 신호 각각의 이득은 콤 필터(comb filter) 또는 역 콤 필터(inverse comb filter)를 이용하여 미리 정해진 주파수 도메인을 약화시키거나 강화시킴으로써 조절될 수 있다. 예컨대, 복수의 오브젝트 신호들 중 하나가 음성 신호(vocal signal)라면, 상기 오브젝트 신호는 상기 음성 신호만을 오직 약화시킴으로써 가라오케로서 이용될 수 있다. 또한, 상기 조화 정보가 하나 이상의 오브젝트 신호에 관한 우세 주파수 도메인 정보를 포함한다면, 우세 주파수 도메인을 약화시키거나 강화시키는 처리가 실행될 수 있다. 또한, 상기 조화 정보가 하나 이상의 오브젝트 신호에 관한 스펙트럼 정보를 포함한다면, 상기 오브젝트 신호 각각의 이득은 서브밴드 경계에 의해 제한됨이 없이 약화 또는 강화를 실행함으로써 제어될 수 있다.

도 7은 본 발명의 또다른 실시예에 따른 오디오 디코딩 장치(140)의 블록도이다. 도 7을 참조하면, 상기 오디오 디코딩 장치(140)는 오브젝트 디코딩부 및 렌더링부 대신에 멀티채널 디코딩부(141)를 이용하고 상기 오브젝트 신호들이 멀티채널 공간 내에 적당하게 배치된 후에 다수의 오브젝트 신호들을 디코딩한다.

더 상세하게는, 상기 오디오 디코딩 장치(140)는 멀티채널 디코딩부(141) 및 파라미터 컨버팅부(145)를 포함한다. 상기 멀티채널 디코딩부(141)는 상기 파라미터 컨버팅부(145)에 의해 제공된 채널 기반 부가정보인 공간 파라미터 정보 및 다운믹스 신호에 기초하여 멀티채널 공간 내에 그 오브젝트 신호가 이미 배치된 멀티 채널 신호를 생성한다. 상기 파라미터 컨버팅부(145)는 오디오 인코딩 장치(도시되지 않음)에 의해 전송된 제어 정보 및 부가정보를 분석하고, 상기 분석 결과에 기초한 공간 파라미터 정보를 생성한다. 더 상세하게는, 상기 파라미터 컨버팅부(145)는 플레이백 구성 정보(playback setup information) 및 믹싱 정보를 포함하는 제어 정보 및 부가정보를 결함시킴으로써 공간 파라미터 정보를 생성한다. 즉, 상기 파라미터 컨버팅부(145)는 상기 부가정보와 상기 제어 정보의 조합을 OTT(One-To-Two) box 또는 TTT(Two-To-Three) box에 대응하는 공간 데이터로의 변환을 실행한다.

상기 오디오 디코딩 장치(140)는 오브젝트 기반 디코딩 동작 및 믹싱/렌더링 동작이 통합되도록 멀티채널 디코딩을 실행할 수 있어서 각 오브젝트 신호의 디코딩을 스킵(skip)할 수 있다. 그러므로, 디코딩 및/또는 믹싱/렌더링의 복잡도를 감소시키는 것이 가능하다.

예컨대, 10개의 오브젝트 신호들이 존재하고, 상기 10개의 오브젝트 신호들에 기초하여 획득된 멀티채널 신호가 5.1 채널 스피커 재생 시스템에 의해 재생되어지는 경우, 일반적인 오브젝트 기반 오디오 디코딩 장치는 다운믹스 신호 및 부가정보에 기초한 10개의 오브젝트 신호들에 대응하여 디코딩된 신호들을 개별적으로 생성하고, 이어서 상기 오브젝트 신호들이 5.1 채널 스피커 환경에 적합하게 될 수 있도록 멀티채널 공간 내에 10개의 오브젝트 신호들을 적절히 배치함으로써 5.1 채널 신호를 생성한다. 그러나, 5.1 채널 신호의 생성 동안 10개의 오브젝트 신호들을 생성하는 것은 비효율적이고, 이 문제는 생성된 멀티채널 신호의 채널들의 수 와 오브젝트 신호들의 수 사이의 차이가 증가할수록 더 심해진다.

반면에, 도 7의 실시예에 따르면, 상기 오디오 디코딩 장치(140)는 부가정보 및 제어 정보에 기초한 5.1 채널 신호에 적합한 공간 파라미터 정보를 생성하고, 상기 공간 파라미터 정보 및 다운믹스 신호를 멀티채널 디코딩부(141)에 공급한다. 이어서, 상기 멀티채널 디코딩부(141)는 상기 공간 파라미터 정보 및 상기 다운믹스 신호에 기초한 5.1 채널 신호를 생성한다. 다시 말해서, 출력될 채널들의 수가 5.1 채널인 경우, 상기 오디오 디코딩 장치(140)는 10개의 오브젝트 신호를 생성할 필요 없이 다운믹스 신호에 기초한 5.1 채널 신호를 신속하게 생성할 수 있고, 따라서 복잡도에 관해서 일반적인 오디오 디코딩 장치보다 더 효과적이다.

오디오 인코딩 장치에 의해 전송된 제어 정보 및 부가정보의 분석을 통해, OTT box 및 TTT box 각각에 대응하는 공간 파라미터 정보를 계산하는데 필요한 계산량이, 각 오브젝트 신호의 디코딩 후에 믹싱/렌더링 동작을 실행하는데 필요한 계산량보다 적은 경우에, 상기 오디오 디코딩 장치(140)는 효율적인 것으로 생각된다.

상기 오디오 디코딩 장치(140)는 부가정보 및 제어 정보의 분석을 통해 공간 파라미터 정보를 생성하기 위한 모듈을 일반적인 멀티채널 오디오 디코딩 장치에 부가함으로써 간단히 얻어질 수 있고, 따라서 일반적인 멀티채널 오디오 디코딩 장치와 호환성을 유지할 수 있다. 또한, 엔벨로프 셰이퍼(envelope shaper), 서브밴드 시간 처리(STP; sub-band temporal processing) 툴 및 디코릴레이터(decorrelator)와 같은 일반적인 멀티채널 오디오 디코딩 장치의 현존하는 툴을 이용하여 상기 오디오 디코딩 장치(140)는 음질을 향상시킬 수 있다. 주어진 이 모든 것을 통해, 일반적인 멀티채널 오디오 디코딩 방법의 모든 이점들은 오브젝트 오디오 디코딩 방법에 쉽게 적용될 수 있다는 결론이 나온다.

상기 파라미터 컨버팅부(145)에 의해 상기 멀티채널 디코딩부(141)에 전송된 공간 파라미터 정보는 전송되는데 적합하도록 압축될 수 있다. 또한, 상기 공간 파라미터 정보는 일반적인 멀티채널 인코딩 장치에 의해 전송된 데이터의 포맷과 동일한 포맷을 가질 수 있다. 즉, 상기 공간 파라미터 정보는 호프만 디코딩 동작(Huffman decoding operation) 또는 파일럿 디코딩 동작(pilot decoding operation)이 행해질 수 있고, 따라서 압축되지 않은 공간 큐 데이터(cue data)로서 각 모듈에 전송될 수 있다. 호프만 디코딩 동작은 상기 공간 파라미터 정보를 원격 위치의 멀티채널 오디오 디코딩 장치에 전송하는데 적합하고, 파일럿 디코딩 동작은 멀티채널 오디오 디코딩 장치가 압축된 공간 큐 데이터를 디코딩 동작에 쉽게 이용될 수 있는 압축되지 않은 공간 큐 데이터로 변환될 필요가 없기 때문에 편리하다.

부가정보 및 제어 정보의 분석에 기초한 공간 파라미터 정보의 구성은 다운믹스 신호와 상기 공간 파라미터 정보 사이의 지연을 야기할 수 있다. 이를 어드레스를 지정하기 위해, 상기 다운믹스 신호 및 상기 공간 파라미터 정보가 서로 동기화될 수 있도록 추가적인 버퍼가 다운믹스 신호 또는 공간 파라미터 정보를 위해 제공될 수 있다. 그러나, 이들 방법은, 추가적인 버퍼를 제공하는 요구때문에 불편하다. 또한, 부가정보는 다운믹스 신호와 공간 파라미터 정보 사이의 지연 발생의 가능성을 고려하여 다운믹스 신호에 앞서 전송될 수 있다. 이 경우에, 상기 부가정보와 제어 정보를 결합함으로써 얻어진 공간 파라미터 정보는 조절될 필요는 없지만 쉽게 이용될 수 있다.

다운믹스 신호의 복수의 오브젝트 신호가 다른 레벨을 갖는 경우, 상기 다운믹스 신호를 바로 보상할 수 있는 ADG 모듈이 상기 오브젝트 신호의 상대적인 레벨을 결정할 수 있고, 상기 오브젝트 신호들 각각은 채널 레벨 차이 정보, 채널간 상관(ICC; inter-channel correlation) 정보 및 채널 예측 계수(CPC; channel predicion coefficient)와 같은 공간 큐 데이터를 이용하여 멀티채널 공간 내의 미리 정해진 위치에 할당될 수 있다.

예컨대, 미리 정해진 오브젝트 신호가 멀티채널 공간 내의 미리 정해진 위치에 할당되고, 다른 오브젝트 신호들보다 더 높은 레벨을 갖는다는 것을 제어 정보가 가리킨다면, 일반적인 멀티채널 디코딩부는 다운믹스 신호 채널의 에너지 사이의 차이를 계산하고, 상기 다운믹스 신호를 상기 계산의 결과에 기초하여 많은 출력 채널들로 분할할 수 있다. 그러나, 일반적인 멀티채널 디코딩부는 다운믹스 신호 내의 특정한 소리의 볼륨을 늘리거나 줄일 수 없다. 다시 말해서, 일반적인 멀티채널 디코딩부는 다운믹스 신호를 많은 출력 채널들에 간단히 분배하며, 따라서 다운믹스 신호 내의 소리 볼륨을 늘리거나 줄일 수 없다.

오브젝트 인코딩부에 의해 생성된 다운믹스 신호의 다수의 오브젝트 신호들 각각을 제어 정보에 따라 멀티채널 공간 내의 미리 정해진 위치에 할당하는 것은 비교적 쉽다. 그러나, 미리 정해진 오브젝트 신호의 진폭을 늘리거나 줄이기 위해 특별한 기술이 요구된다. 다시 말해서, 오브젝트 인코딩부에 의해 생성된 다운믹스 신호를 그 자체로 이용한다면, 상기 다운믹스 신호의 각각의 오브젝트 신호의 진폭을 줄이는 것은 어렵다.

그러므로, 본 발명의 실시예에 따라, 오브젝트 신호의 상대적인 진폭이 도 8에 도시된 ADG 모듈을 이용하여 제어 정보에 따라 바뀔 수 있다. 더 상세하게는, 오브젝트 인코딩부에 의해 전송된 다운믹스 신호의 복수의 오브젝트 신호들 중의 어느 하나의 진폭은 ADG 모듈(147)을 이용하여 증가되거나 감소될 수 있다. 상기 ADG 모듈(147)에 의해 실행된 보상에 의해 얻어진 다운믹스 신호는 멀티채널 디코딩될 수 있다.

다운믹스 신호의 오브젝트 신호들의 상대적인 진폭이 상기 ADG 모듈(147)을 이용하여 적절히 조절된다면, 일반적인 멀티채널 디코딩부를 이용하여 오브젝트 디코딩을 실행하는 것이 가능하다. 오브젝트 인코딩부에 의해 생성된 다운믹스 신호가 모노 또는 스테레오 신호 또는 3 이상의 채널을 갖는 멀티채널 신호라면, 상기 다운믹스 신호는 상기 ADG 모듈(147)에 의해 처리될 수 있다. 오브젝트 인코딩부에 의해 생성된 다운믹스 신호가 2 이상의 채널을 갖고, ADG 모듈(147)에 의해 조절될 필요가 있는 미리 정해진 오브젝트 신호가 상기 다운믹스 신호의 하나의 채널에서만 존재한다면, 상기 ADG 모듈(147)은 상기 다운믹스 신호의 모든 채널들에 적용되는 대신, 미리 정해진 오브젝트 신호를 포함하는 채널에만 적용될 수 있다. 상술한 방법으로 상기 ADG 모듈(147)에 의해 처리된 다운믹스 신호는 상기 멀티채널 디코딩부의 구조를 수정할 필요 없이 일반적인 멀티채널 디코딩부를 이용하여 쉽게 처 리될 수 있다.

최종 출력 신호가 멀티채널 스피커에 의해 재생될 수 있는 멀티채널 신호가 아니라 바이노럴(binaural) 신호인 경우일 때조차, 상기 ADG 모듈(147)은 상기 최종 출력 신호의 오브젝트 신호들의 상대적인 진폭들을 조절하는데 이용될 수 있다.

상기 ADG 모듈(147)의 이용 대신, 다수의 오브젝트 신호들의 생성 동안 각 오브젝트 신호에 적용될 이득값을 특정하는 이득 정보가 제어 정보 내에 포함될 수 있다. 이를 위해, 일반적인 멀티채널 디코딩부의 구조는 수정될 수 있다. 존재하는 멀티채널 디코딩부 구조의 수정을 필요로 할지라도, 이 방법은 ADG를 계산하고 각 오브젝트 신호를 보상할 필요없이, 디코딩 동작 동안 각 오브젝트 신호에 이득값을 적용함으로써 디코딩의 복잡도를 줄이는데 있어서 편리하다.

도 9는 본 발명의 제 4 실시예에 따른 오디오 디코딩 장치(150)의 블록도이다. 도 9를 참조하면, 상기 오디오 디코딩 장치(150)는 바이노럴 신호를 생성하는 특징을 갖는다.

더 상세하게는, 상기 오디오 디코딩 장치(150)는 멀티채널 바이노럴 디코딩부(151), 제 1 파라미터 컨버팅부(157) 및 제 2 파라미터 컨버팅부(159)를 포함한다.

상기 제 2 파라미터 컨버팅부(159)는 오디오 인코딩 장치에 의해 공급된 제어 정보 및 부가정보를 분석하고, 상기 분석의 결과에 기초하여 공간 파라미터 정보를 구성한다. 상기 제 1 파라미터 컨버팅부(157)는 머리전달함수(HRTF; head-related transfer function) 파라미터와 같은 3차원(3D) 정보를 상기 공간 파라미 터 정보에 추가함으로써, 상기 멀티채널 바이노럴 디코딩부(151)에 의해 이용될 수 있는 바이노럴 파라미터 정보를 구성한다. 상기 멀티채널 바이노럴 디코딩부(151)는 가상 3D 파라미터 정보를 다운믹스 신호에 적용함으로써 가상 3D 신호를 생성한다.

제 1 파라미터 컨버팅부(157) 및 제 2 파라미터 컨버팅부(159)는 상기 부가정보, 상기 제어 정보 및 상기 HRTF 파라미터를 수신하는 단일 모듈, 즉 파라미터 변환 모듈(155)로 교체될 수 있고, 상기 부가정보, 상기 제어 정보 및 상기 HRTF 파라미터에 기초한 바이노럴 파라미터 정보를 구성한다.

일반적으로, 헤드폰으로 10개의 오브젝트 신호들을 포함한 다운믹스 신호의 재생을 위한 바이노럴 신호를 생성하기 위해, 오브젝트 신호는 상기 다운믹스 신호 및 부가정보에 기초한 10개의 오브젝트 신호에 대응하는 각각의 10개의 디코딩된 신호들을 생성해야만 한다. 그 후에, 렌더링부는 5-채널 스피커 환경에 적합하도록 제어 정보를 참조하여 멀티채널 공간 내의 미리 정해진 위치에 상기 10개의 오브젝트 신호들 각각을 할당한다. 그 후에, 상기 렌더링부는 5-채널 스피커를 이용하여 재생될 수 있는 5-채널 신호를 생성한다. 그 후에, 상기 렌더링부는 HRTF 파라미터들을 상기 5-채널 신호에 적용하여 2-채널 신호를 생성한다. 요컨대, 상술한 일반적인 오디오 디코딩 방법은 10개의 오브젝트 신호들을 재생하는 단계, 상기 10개의 오브젝트 신호들을 5-채널 신호로 변환하는 단계 및 상기 5-채널 신호에 기초한 2-채널 신호를 생성하는 단계를 포함하며, 따라서 효과적이지 않다.

반면에, 상기 오디오 디코딩 장치(150)는 오브젝트 오디오 신호에 기초하여 헤드폰을 이용하여 재생될 수 있는 바이노럴 신호를 쉽게 생성할 수 있다. 게다가, 상기 오디오 디코딩 장치(150)는 부가정보 및 제어 정보의 분석을 통해 공간 파라미터 정보를 구성하며, 따라서 일반적인 멀티채널 바이노럴 디코딩부를 이용하여 바이노럴 신호를 생성할 수 있다. 더욱이, 부가정보, 제어 정보 및 HRTF 파라미터를 수신하는 통합된 파라미터 컨버팅부가 장치되는 경우 조차 상기 오디오 디코딩 장치(150)는 일반적인 멀티채널 바이노럴 디코딩부를 여전히 이용할 수 있고, 상기 부가정보, 상기 제어 정보 및 상기 HRTF 파라미터에 기초한 바이노럴 파라미터 정보를 구성할 수 있다.

도 10은 본 발명의 제 5 실시예에 따른 오디오 디코딩 장치(160)의 블록도이다. 도 10을 참조하면, 상기 오디오 디코딩 장치(160)는 다운믹스 프로세싱부(161), 멀티채널 디코딩부(163) 및 파라미터 컨버팅부(165)를 포함한다. 상기 다운믹스 프로세싱부(161) 및 상기 파라미터 컨버팅부(163)는 단일 모듈(167)로 교체될 수 있다.

상기 파라미터 컨버팅부(165)는 상기 멀티채널 디코딩부(163)에 의해 이용될 수 있는 공간 파라미터 정보 및 상기 다운믹스 프로세싱부(161)에 의해 이용될 수 있는 파라미터 정보를 생성한다. 상기 다운믹스 프로세싱부(161)는 다운믹스 신호에 전처리 동작을 실행하고, 상기 전처리 동작에 의해 생성된 다운믹스 신호를 상기 멀티채널 디코딩부(163)에 전송한다. 상기 멀티채널 디코딩부(163)는 상기 다운믹스 프로세싱부(161)에 의해 전송된 상기 다운믹스 신호에 디코딩 동작을 실행하여 스테레오 신호, 바이노럴 스테레오 신호 또는 멀티채널 신호를 출력한다. 상기 다운믹스 프로세싱부(161)에 의해 실행된 전처리 동작의 예들은 필터링을 이용하여 시간 도메인 또는 주파수 도메인으로 다운믹스 신호의 변환 또는 수정을 포함한다.

상기 오디오 디코딩 장치(160)에 입력된 다운믹스 신호가 스테레오 신호라면, 상기 멀티채널 디코딩부(163)는 다수의 채널 중 하나인 레프트 채널에 대응하는 상기 다운믹스 신호의 성분을 다수의 채널 중 또 다른 하나인 라이트 채널에 맵핑할 수 없기 때문에, 상기 다운믹스 신호는 상기 멀티채널 디코딩부(163)에 입력되기 전에 상기 다운믹스 프로세싱부(161)에 의해 실행된 다운믹스 전처리될 수 있다. 그러므로, 상기 레프트 채널로 분류된 오브젝트 신호의 위치를 상기 라이트 채널의 방향으로 이동시키기 위해, 상기 오디오 디코딩 장치(160)에 입력된 상기 다운믹스 신호는 상기 다운믹스 프로세싱부(161)에 의해 전처리될 수 있고, 상기 전처리된 다운믹스 신호는 상기 멀티채널 디코딩부(163)에 입력될 수 있다.

스테레오 다운믹스 신호의 전처리는 부가정보로 및 제어 정보로부터 획득된 전처리한 정보에 기초하여 실행될 수 있다.

도 11은 본 발명의 제 6 실시예에 따른 오디오 디코딩 장치(170)의 블록도이다. 도 11을 참조하면, 상기 오디오 디코딩 장치(170)는 멀티채널 디코딩부(171), 채널 프로세싱부(173) 및 파라미터 컨버팅부(175)를 포함한다.

상기 파라미터 컨버팅부(175)는 상기 멀티채널 디코딩부(173)에 의해 이용될 수 있는 공간 파라미터 정보 및 상기 채널 프로세싱부(173)에 의해 이용될 수 있는 파라미터 정보를 생성한다. 상기 채널 프로세싱부(173)는 상기 멀티채널 디코딩부(173)에 의해 출력된 신호에 후처리 동작을 실행한다. 멀티채널 디코딩부(173)에 의해 출력된 상기 신호의 예들은 스테레오 신호, 바이노얼 스테레오 신호 및 멀티채널 신호를 포함한다.

상기 포스트 프로세싱부(173)에 의해 실행된 후처리(post-processing) 동작의 예들은 출력 신호의 각 채널 또는 모든 채널들의 수정 및 변환을 포함한다. 예컨대, 부가정보가 미리 정해진 오브젝트 신호에 관한 기본 주파수 정보를 포함한다면, 상기 채널 프로세싱부(173)는 상기 기본 주파수 정보를 참조하여 상기 미리 정해진 오브젝트 신호로부터 조화 성분들을 제거할 수 있다. 멀티채널 오디오 디코딩 방법은 가라오케 시스템에 이용되기에 충분히 효과적이지 않을 수 있다. 그러나, 음성 오브젝트 신호들에 관한 기본 주파수 정보가 부가정보 내에 포함되고, 상기 음성 오브젝트 신호들의 조화 성분들이 후처리 동작 동안 제거된다면, 도 11의 상기 실시예를 이용하는 고성능 가라오케 시스템을 실현하는 것이 가능하다. 도 11의 실시예는 음성 오브젝트 신호를 제외한 오브젝트 신호들에 적용될 수도 있다. 예컨대, 도 11의 실시예를 이용하여 미리 정해진 악기의 소리를 제거하는 것이 가능하다. 또한, 도 11의 실시예를 이용하여 오브젝트 신호들에 관한 기본 주파수 정보를 이용하여 미리 정해진 조화 성분들을 증폭하는 것이 가능하다.

상기 채널 프로세싱부(173)는 다운믹스 신호에 추가적인 효과 처리(effect processing)를 실행할 수 있다. 또한, 상기 채널 프로세싱부(173)는 상기 추가적인 효과 처리에 의해 얻은 신호를 상기 멀티채널 디코딩부(171)에 의해 출력한 신호에 부가할 수 있다. 상기 채널 프로세싱부(173)는 필요할 때마다 오브젝트의 스펙트럼을 변화시키거나 다운믹스 신호를 수정할 수 있다. 다운믹스 신호에의 반사와 같은 효과 처리 동작을 직접적으로 실행하고 상기 이펙트 처리 동작에 의해 얻어진 신호를 상기 멀티채널 디코딩부(171)에 전송하는 것이 적절하지 않다면, 상기 다운믹스 프로세싱부(173)는 상기 다운믹스 신호에 대한 이펙트 프로세싱을 실행하는 대신에, 상기 이펙트 프로세싱 동작에 의해 얻은 상기 신호를 상기 멀티채널 디코딩부(171)의 출력에 부가할 수 있다.

상기 오디오 디코딩 장치(170)는 상기 채널 프로세싱부(173)뿐만 아니라 다운믹스 프로세싱부를 포함하도록 제작될 수 있다. 이 경우에, 상기 다운믹스 프로세싱부는 상기 멀티채널 디코딩부(173) 앞에 배치될 수 있고, 상기 채널 프로세싱부(173)는 상기 멀티채널 디코딩부(173) 뒤에 배치될 수 있다.

도 12는 본 발명에 따른 제 7 실시예에 따른 오디오 디코딩 장치(210)의 블록도이다. 도 12를 참조하면, 상기 오디오 디코딩 장치(210)는 오브젝트 디코딩부 대신에 멀티채널 디코딩부(213)를 이용한다.

더 상세하게는, 상기 오디오 디코딩 장치(210)는 멀티채널 디코딩부(213), 트랜스코딩부(215), 렌더링부(217) 및 3D 정보 데이터베이스(219)를 포함한다.

상기 렌더링부(217)는 제어 정보에 포함된 인덱스 데이터에 대응하는 3D 정보에 기초하여 복수의 오브젝트 신호들의 3D 위치들을 결정한다. 상기 트랜스코딩부(215)는 상기 렌더링부(217)에 의해 적용된 3D 정보에 다수의 오브젝트 오디오 신호들에 관한 위치 정보를 합성함으로써 채널 기반 부가정보를 생성한다. 상기 멀티채널 디코딩부(213)는 상기 채널 기반 부가정보를 다운믹스 신호에 적용함으로써 3D 신호를 출력한다.

HRTF는 3D 정보로서 이용될 수 있다. HRTF는 임의 위치에서의 음원과 고막 사이의 음파의 전송을 설명하고, 음원의 고도 및 방향에 따라 변하는 값을 돌려보내는 전달 함수이다. 방향성을 갖지 않는 신호가 HRTF를 이용하여 필터링되면, 상기 신호는 특정한 방향으로부터 재생되는 것처럼 들릴 수 있다.

입력 비트스트림이 수신되는 경우, 상기 오디오 디코딩 장치(210)는 디멀티플렉서(도시되지 않음)를 이용하여 상기 입력 비트스트림으로부터 오브젝트 기반 파라미터 정보 및 오브젝트 기반 다운믹스 신호를 추출한다. 그 후, 상기 렌더링부(217)는 복수의 오브젝트 오디오 신호들의 위치를 결정하는데 이용되는 제어 정보로부터 인덱스 데이터를 추출하고, 상기 3D 정보 데이터베이스(219)로부터 추출된 인덱스 데이터에 대응하는 3D 정보를 회수한다.

더 상세하게는, 오디오 디코딩 장치(210)에 의해 이용되는 제어 정보에 포함된 믹싱 파라미터 정보는, 3D 정보를 검색하는데 필요한 레벨 정보뿐만 아니라 인덱스 데이터도 포함할 수 있다. 상기 믹싱 파라미터 정보는 상기 레벨 정보 및 상기 시간 정보를 적절하게 결합함으로써 얻어진 하나 이상의 파라미터들, 위치 정보 및 채널들 사이의 시간 차이에 관한 시간 정보를 포함할 수도 있다.

오브젝트 오디오 신호의 위치는 디폴트(default) 믹싱 파라미터 정보에 따라 초기에 결정될 수 있고, 이용자가 원하는 위치에 대응하는 3D 정보를 상기 오브젝트 오디오 신호에 적용함으로써 나중에 바뀔 수 있다. 또한, 이용자가 3D 효과를 몇 개의 오브젝트 오디오 신호들에 적용하기를 원한다면, 이용자가 3D 효과를 적용하기를 원하지 않는 다른 오브젝트 오디오 신호에 관한 시간 정보 및 레벨 정보는 믹싱 파라미터 정보로서 이용될 수 있다.

상기 렌더링부(217)에 의해 HRTF와 같은 3D 정보가 적용되는 다수의 오브젝트 신호들의 위치 정보와 오디오 인코딩 장치에 의해 전송된 N개의 오브젝트 신호들에 관한 오브젝트 기반 파라미터 정보를 합성함으로써 상기 트랜스코딩부(215)는 M개의 채널에 관한 채널 기반 부가정보를 생성한다.

멀티채널 디코딩부(213)는 상기 트랜스코딩부(215)에 의해 공급된 채널 기반 부가정보 및 다운믹스 신호에 기초한 오디오 신호를 생성하고, 상기 채널 기반 부가정보에 포함된 3D 정보를 이용하여 3D 렌더링 동작을 실행함으로써 3D 멀티채널 신호를 생성한다.

도 13은 본 발명의 제 8 실시예에 따른 오디오 디코딩 장치(220)의 블록도이다. 도 13을 참조하면, 상기 오디오 디코딩 장치(220)는 트랜스코딩부(225)가 채널 기반 부가정보와 3D 정보를 개별적으로 멀티채널 디코딩부(223)에 전송한다는 점에서 도 12에 도시된 오디오 디코딩 장치(210)와 다르다. 다시 말해서, 상기 오디오 디코딩 장치(210)의 트랜스코딩부(215)는 3D 정보를 포함한 채널 기반 부가정보를 상기 멀티채널 디코딩부(213)에 전송하는 반면, 상기 오디오 디코딩 장치(220)의 트랜스코딩부(225)는 N개의 오브젝트 신호들에 관한 오브젝트 기반 파라미터 정보로부터 M개의 채널들에 관한 채널 기반 부가정보를 얻고, 상기 N개의 오브젝트 신호 각각에 적용된 3D 정보를 상기 멀티채널 디코딩부(223)에 전송한다.

도 14를 참조하면, 채널 기반 부가정보 및 3D 정보는 복수의 프레임 인덱스 등을 포함할 수 있다. 따라서, 상기 멀티채널 디코딩부(223)는 3D 정보 및 채널 기 반 부가정보 각각의 프레임 인덱스를 참조한 3D 정보 및 채널 기반 부가정보를 동기화할 수 있으며, 따라서 3D 정보를 상기 3D 정보에 대응하는 비트스트림의 프레임에 적용할 수 있다. 예컨대, 인덱스 2를 갖는 3D 정보는 인덱스 2를 갖는 프레임 2의 시작부에 적용될 수 있다.

채널 기반 부가정보 및 3D 정보는 모두 프레임 인덱스를 포함하기 때문에, 상기 3D 정보가 시간을 초과해 갱신될지라도, 상기 3D 정보가 적용될 채널 기반 부가정보의 시간적 위치를 효과적으로 결정하는 것이 가능하다. 다시 말해서, 트랜스코딩부(225)는 채널 기반 부가정보 내에 다수의 프레임 인덱스들 및 3D 정보를 포함하며, 따라서 멀티채널 디코딩부(223)는 채널 기반 부가정보와 3D 정보를 쉽게 동기화할 수 있다.

상기 다운믹스 프로세싱부(231), 트랜스코딩부(235), 렌더링부(237) 및 상기 3D 정보 데이터베이스는 단일 모듈(239)로 교체될 수 있다.

도 15는 본 발명의 제 9 실시예에 따른 오디오 디코딩 장치(230)의 블록도이다. 도 15를 참조하면, 상기 오디오 디코딩 장치(230)는 다운믹스 프로세싱부(231)를 더 포함함으로써 도 14에 도시된 오디오 디코딩 장치(220)와 구별된다.

더 상세하게는, 상기 오디오 디코딩 장치(230)는 트랜스코딩부(235), 렌더링부(237), 3D 정보 데이터베이스(239), 멀티채널 디코딩부(233) 및 상기 다운믹스 프로세싱부(231)를 포함한다. 상기 트랜스코딩부(235), 상기 렌더링부(237), 상기 3D 정보 데이터베이스(239) 및 상기 멀티채널 디코딩부(233)는 도 14에 도시된 그 각각의 대응되는 것과 동일하다. 상기 다운믹스 프로세싱부(231)는 위치 조절을 위 해 스테레오 다운믹스 신호에 전처리 동작을 실행한다. 상기 3D 정보 데이터베이스(239)는 상기 렌더링부(237)와 통합될 수 있다. 미리 정해진 효과를 다운믹스 신호에 적용하기 위한 모듈도 상기 오디오 디코딩 장치(230) 내에 제공될 수 있다.

도 16은 본 발명의 제 10 실시예에 따른 오디오 디코딩 장치(240)의 블록도이다. 도 16을 참조하면, 상기 오디오 디코딩 장치(240)는 다점 제어부 콤바이너(241)를 포함함으로써 도 15에 도시된 오디오 디코딩 장치(230)와 구별된다.

즉, 상기 오디오 디코딩 장치(230)처럼 상기 오디오 디코딩 장치(240)는 다운믹스 프로세싱부(243), 멀티채널 디코딩부(244), 트랜스코딩부(245), 렌더링부(247) 및 3D 정보 데이터베이스(249)를 포함한다. 다점 제어부 콤바이너(241)는 오브젝트 기반 인코딩에 의해 얻은 복수의 비트스트림을 결합하여 단일 비트스트림을 얻는다. 예컨대, 제 1 오디오 신호를 위한 제 1 비트스트림과 제 2 오디오 신호를 위한 제 2 비트스트림이 입력되는 경우, 상기 다점 제어부 콤바이너(241)는 상기 제 1 비트스트림으로부터 제 1 다운믹스 신호를 추출하고, 제 2 비트스트림으로부터 제 2 다운믹스 신호를 추출하고, 상기 제 1 및 제 2 다운믹스 신호들을 결합시킴으로써 제 3 다운믹스 신호를 생성한다. 게다가, 상기 다점 제어부 콤바이너(241)는 상기 제 1 비트스트림으로부터 제 1 오브젝트 기반 부가정보를 추출하고, 제 2 비트스트림으로부터 제 2 오브젝트 기반 부가정보를 추출하며, 제 1 오브젝트 기반 부가정보와 제 2 오브젝트 기반 부가정보를 결합함으로써 제 3 오브젝트 기반 부가정보를 생성한다. 그 후에, 상기 다점 제어부 콤바이너(241)는 제 3 다운믹스 신호와 제 3 오브젝트 기반 부가정보를 결합함으로써 비트스트림을 생성하고, 상기 생성된 비트스트림을 출력한다.

그러므로, 각 오브젝트 신호를 인코딩 또는 디코딩하는 경우에 비해, 본 발명의 제 10 실시예에 따르는 경우, 2 이상의 통신 상대방에 의해 전송된 신호까지 효과적으로 처리하는 것이 가능하다.

상기 다점 제어부 콤바이너(241)가, 복수의 비트스트림으로부터 개별적으로 추출되고, 다른 압축 코덱으로 결합된 복수의 다운믹스 신호들을 단일의 다운믹스 신호 내에 통합하도록 하기 위해서, 상기 다운믹스 신호들은 다운믹스 신호들의 압축 코덱의 종류에 따라 미리 정해진 주파수 도메인의 신호 또는 펄스 코드 변조(PCM; pulse code modulation) 신호로 변환될 필요가 있고, 상기 변환에 의해 얻은 신호 또는 상기 PCM 신호는 함께 결합될 필요가 있으며, 상기 결합에 의해 얻어진 신호는 미리 정해진 압축 코덱을 이용하여 변환될 필요가 있을 수 있다. 이 경우에, 상기 다운믹스 신호가 미리 정해진 주파수 도메인의 신호 또는 PCM 신호에 통합되는지에 따라 지연이 발생할 수 있다. 그러나, 지연은 디코딩부에 의해 정확히 추정될 수 없다. 그러므로, 지연은 비트스트림에 포함되고, 상기 비트스트림과 함께 전송될 필요가 있을 수 있다. 지연은 PCM 신호 내의 지연 샘플의 수 또는 미리 정해진 주파수 도메인 내의 지연 샘플의 수를 나타낼 수 있다.

일반적인 멀티채널 코딩 동작(예컨대, 5.1 채널 또는 7.1 채널 코딩 동작) 동안 일반적으로 처리된 입력 신호들의 수와 비교하여 오브젝트 기반 오디오 코딩 동작 동안에 많은 입력 신호들이 가끔 처리될 필요가 있을 수 있다. 그러므로, 오브젝트 기반 오디오 코딩 방법은 일반적인 채널 기반 멀티채널 오디오 코딩 방법에 비해 더 높은 비트레이트를 요한다. 그러나, 오브젝트 기반 오디오 코딩 방법은 채널 신호보다 더 작은 수의 오브젝트 신호의 처리를 수반하기 때문에, 오브젝트 기반 오디오 코딩 방법을 이용하여 동적인 출력 신호를 생성하는 것이 가능하다.

본 발명의 일실시예에 따른 오디오 인코딩 방법은 도 17 내지 20을 참조하여 이하 상세히 설명될 것이다.

오브젝트 기반 오디오 인코딩 방법에 있어서, 오브젝트 신호들은 사람의 목소리 또는 악기 소리와 같은 개별적인 소리를 나타내도록 정의될 수 있다. 또한, 현악기(예컨대, 바이올린, 비올라 및 첼로)의 소리와 같은 유사한 특성들을 갖는 소리들, 동일한 주파수 밴드를 가진 소리들 또는 그 음원들의 방향 및 각에 따라 동일한 카테고리로 분류되는 소리들은 함께 그룹지어질 수 있고, 동일한 오브젝트 신호들에 의해 정의될 수 있다. 또한, 오브젝트 신호들은 상술한 방법들의 조합을 이용하여 정의될 수 있다.

다수의 오브젝트 신호들은 다운믹스 신호 및 부가정보로서 전송될 수 있다. 전송될 정보가 생성되는 동안, 다운믹스 신호 또는 다운믹스 신호의 복수의 오브젝트 신호 각각의 에너지 또는 파워는 다운믹스 신호의 엔벨로프를 검출할 목적으로 처음부터 계산된다. 상기 계산의 결과는 상기 오브젝트 신호들 또는 상기 다운믹스 신호를 전송하는데 이용될 수 있거나, 상기 오브젝트 신호들의 레벨들의 비를 계산하는데 이용될 수 있다.

선형 예측 코딩(LPC; linear predictive coding) 알고리즘이 비트레이트를 더 낮추기 위해 이용될 수 있다. 더 상세하게는, 신호의 엔벨로프를 나타내는 많은 LPC 계수들은 상기 신호의 분석을 통해 생성되고, 상기 신호에 관한 엔벨로프 정보를 전송하는 대신에 상기 LPC 계수들이 전송된다. 이 방법은 비트레이트에 있어서 효과적이다. 그러나, 상기 LPC 계수들은 상기 신호의 실제 인벨로프와 어긋나기가 매우 쉽기 때문에, 이 방법은 오류 정정(error correction) 같은 추가 프로세스를 요한다. 요컨대, 신호의 엔벨로프 정보를 전송하는 것을 수반하는 방법은 고음질을 보장할 수 있으나 전송될 필요가 있는 정보량의 상당한 증가를 야기한다. 반면에, LPC 계수들의 이용을 수반하는 방법은 전송될 필요가 있는 정보량을 줄일 수 있으나, 오류 정정과 같은 추가적인 프로세스가 필요하고 음질 저하를 야기한다.

본 발명의 일실시예에 따라, 이들 방법들의 조합이 이용될 수 있다. 다시 말해서, 신호의 엔벨로프는 신호의 파워 또는 에너지 또는 인덱스값 또는 상기 신호의 파워 또는 에너지에 대응하는 LPC 계수와 같은 다른 값으로 표현될 수 있다.

신호에 관한 엔벨로프 정보는 시간 섹션 또는 주파수 섹션의 유닛들에서 얻을 수 있다. 더 상세하게는, 도 17을 참조하면, 신호에 관한 엔벨로프 정보는 프레임의 유닛들에서 얻어질 수 있다. 또한, 신호가 QMF(quadrature mirror filter) 뱅크와 같은 필터 뱅크를 이용하여 주파수 밴드 구조로 표현된다면, 신호에 관한 엔벨로프 정보는 주파수 서브밴드들, 주파수 서브밴드보다 더 작은 개체인 주파수 서브밴드 파티션들, 주파수 서브밴드의 그룹들 또는 주파수 서브밴드 파티션의 그룹들의 유닛들에서 얻어질 수 있다. 또한, 상기 프레임 기반 방법, 상기 주파수 서브밴드 기반 방법 및 상기 주파수 서브밴드 파티션 기반 방법의 조합이 본 발명의 범위 내에서 이용될 수 있다.

또한, 신호의 저주파 성분들이 상기 신호의 고주파 성분들보다 일반적으로 더 많은 정보를 갖는다고 주어지면, 신호의 저주파 성분들과 관련된 엔벨로프 정보는 그 자체로서 전송될 수 있는 반면, 상기 신호의 고주파 성분들에 관한 엔벨로프 정보가 LPC 계수 또는 다른 값으로 표현될 수 있고, 상기 신호의 고주파 성분들에 관한 엔벨로프 정보 대신에 상기 LPC 계수 또는 다른 값들이 전송될 수 있다. 그러나, 신호의 저주파 성분들은 상기 신호의 고주파 성분들보다 더 많은 정보를 반드시 가지는 건 아닐 수 있다. 그러므로, 상술한 방법은 환경에 따라 유연하게 적용될 수 있다.

본 발명의 실시예에 따라, 시간/주파수 축 상에 도미넌트로 나타나는 신호의 일부(이하 주요부로 함)에 대응하는 인덱스 데이터 또는 엔벨로프 정보는 전송될 수 있고, 상기 신호의 도미넌트가 아닌 부분에 대응하는 인덱스 데이터 및 엔벨로프 정보는 모두 전송되지 않을 수 있다. 또한, 상기 신호의 도미넌트 부분의 에너지 및 파워를 나타내는 값들(예컨대, LPC 계수)이 전송될 수 있고, 상기 신호의 도미넌트가 아닌 부분에 대응하는 이러한 값들은 전송되지 않을 수 있다. 또한, 상기 신호의 도미넌트 부분에 대응하는 인덱스 데이터 또는 엔벨로프 정보는 전송될 수 있고, 상기 신호의 도미넌트가 아닌 부분의 에너지 또는 파워를 나타내는 값들도 전송될 수 있다. 또한, 상기 신호의 도미넌트가 아닌 부분이 상기 신호의 도미넌트 부분에 관한 정보에 기초하여 추정될 수 있도록, 상기 신호의 도미넌트 부분에만 관련된 정보가 전송될 수 있다. 또한, 상술한 방법의 조합이 이용될 수 있다.

예컨대, 도 18을 참조하면, 신호가 도미넌트 기간과 도미넌트가 아닌 기간으 로 나누어진다면, 상기 신호에 관한 정보는 (a) 내지 (d)로 표기된 바와 같이 4가지 다른 방법으로 전송될 수 있다.

다운믹스 신호 및 부가정보의 조합으로서 다수의 오브젝트 신호들을 전송하기 위해, 디코딩 동작의 일부로서 예컨대, 상기 오브젝트 신호의 레벨의 비를 고려하여, 상기 다운믹스 신호는 복수의 성분으로 나눠질 것이 요구된다. 상기 다운믹스 신호의 성분 사이의 독립성을 보장하기 위해, 디코릴레이션 동작이 추가적으로 실행될 필요가 있다.

오브젝트 기반 코딩 방법에서 코딩 유닛들인 오브젝트 신호들은 멀티채널 코딩 방법에서 코딩 유닛들인 채널 신호들보다 더 독립성을 갖는다. 다시 말해서, 채널 신호는 오브젝트 신호를 포함하며, 따라서 디코릴레이트 될 필요가 있다. 반면에, 오브젝트 신호들은 서로 독립적이며, 따라서 채널 분리가 디코릴레이션 동작의 요구 없이 오브젝트 신호들의 특성들을 단순히 이용하여 쉽게 실행될 수 있다.

더 상세하게는, 도 19를 참조하면, 오브젝트 신호 A, B 및 C는 주파수 축 상에 도미넌트로 차례로 나타난다. 이 경우에, 상기 오브젝트 신호 A, B 및 C의 레벨의 비에 따라 다운믹스 신호를 많은 신호들로 나누고 디코릴레이션을 수행할 필요가 없다. 대신에, 상기 오브젝트 신호 A, B 및 C의 도미넌트 기간에 관한 정보가 전송될 수 있거나, 이득값이 상기 오브젝트 신호 A, B 및 C 각각의 각 주파수 성분에 적용되어 디코릴레이션을 스킵할 수 있다. 그러므로, 계산량을 줄이는 것이 가능하며, 그렇지 않았다면 디코릴레이션에 필요한 부가정보에 의해 요구되었을지 모를 양만큼 비트레이트를 줄이는 것이 가능하다.

요컨대, 상기 다운믹스 신호의 오브젝트 신호의 비의 비율에 따라 다운믹스 신호를 나눔으로써 얻어진 다수의 신호들 사이의 독립성을 보장하기 위해 실행되는 디코릴레이션을 스킵하기 위해, 각 오브젝트 신호를 포함한 주파수 도메인에 관한 정보가 부가정보로서 전송될 수 있다. 또한, 상이한 이득값들이 각 오브젝트 신호가 도미넌트로 나타나는 동안인 도미넌트 기간 및 각 오브젝트 신호가 보다 적게 도미넌트로 나타나는 동안인 도미넌트가 아닌 기간에 적용될 수 있으며, 따라서, 상기 도미넌트 기간에 관한 정보는 부가정보로서 주로 제공될 수 있다. 또한, 상기 도미넌트 기간에 관한 상기 정보는 부가정보로서 전송될 수 있고, 도미넌트가 아닌 기간에 관한 정보는 전송되지 않을 수 있다. 또한, 디코릴레이션 방법의 대안인 상술된 방법의 조합이 이용될 수 있다.

디코릴레이션 방법의 대안인 상술한 방법들은 모든 오브젝트 신호 또는 쉽게 구별 가능한 도미넌트 기간들을 갖는 오직 일부의 오브젝트 신호만에 적용될 수 있다. 또한, 디코릴레이션 방법의 대안인 상술한 방법들은 프레임 유닛들에 가변적으로 적용될 수 있다.

잔여 신호를 이용한 오브젝트 오디오 신호들의 인코딩이 이하 상세히 설명될 것이다.

일반적으로, 오브젝트 기반 오디오 코딩 방법에 있어서, 다수의 오브젝트 신호들이 인코딩되고, 상기 인코딩의 결과물들이 다운믹스 신호와 부가정보의 조합으로써 전송된다. 이어서, 다수의 오브젝트 신호가 상기 부가정보에 따라 디코딩을 통해 상기 다운믹스 신호로부터 복원되고, 상기 복원된 오브젝트 신호들이 예컨대, 제어 정보에 따라 이용자의 요청으로 적절히 혼합되어 최종 채널 신호가 생성된다. 오브젝트 기반 오디오 코딩 방법은 믹서(mixer)의 도움으로 제어 정보에 따라 출력 채널 신호를 자유롭게 바꾸는 것을 일반적으로 목표로 한다. 그러나, 오브젝트 기반 오디오 코딩 방법은 제어 정보와 무관하게 미리 정의된 방법으로 채널 출력을 생성하는데 이용될 수도 있다.

이를 위해, 부가정보는 다운믹스 신호로부터 다수의 오브젝트 신호들을 얻는데 필요한 정보뿐만 아니라 채널 신호를 생성하는데 필요한 믹싱 파라미터 정보를 포함할 수 있다. 따라서, 믹서의 도움 없이 최종 채널 출력 신호를 생성하는 것이 가능하다. 이 경우에, 잔여 코딩과 같은 알고리즘이 음질을 향상시키기 위해 이용될 수 있다.

일반적인 잔여 코딩 방법은 신호를 코딩하고, 상기 코딩된 신호와 상기 원 신호 사이의 오류, 즉 잔여 신호를 코딩하는 것을 포함한다. 디코딩 동작 동안, 상기 코딩된 신호는 상기 코딩된 신호와 상기 원 신호 사이의 오류를 보상함과 동시에 디코딩되며, 이로써 가능한 한 원 신호와 유사한 신호를 복원한다. 상기 코딩된 신호와 상기 원 신호 사이의 오류가 일반적으로 적기 때문에, 잔여 코딩을 실행하는데 추가적으로 필요한 정보의 양을 줄이는 것이 가능하다.

디코딩부의 최종 채널 출력이 고정된다면, 최종 채널 신호를 생성하는데 필요한 믹싱 파라미터 정보뿐만 아니라 잔여 코딩 정보가 부가정보로서 제공될 수 있다. 이 경우에, 음질을 향상시키는 것이 가능하다.

도 20은 본 발명의 일실시예에 따른 오디오 인코딩 장치(310)의 블록도이다. 도 20을 참조하면, 상기 오디오 인코딩 장치(310)는 잔여 신호를 이용하는 특징을 갖는다.

더 상세하게는, 상기 오디오 인코딩 장치(310)는 인코딩부(311), 디코딩부(313), 제 1 믹서(315), 제 2 믹서(319), 가산기(317) 및 비트스트림 생성기(321)를 포함한다.

제 1 믹서(315)는 원 신호에 믹싱 동작을 실행하고, 제 2 믹서(319)는 인코딩 동작을 실행함으로써 얻어진 신호에 믹싱 동작을 실행하며, 이어서 원 신호에 디코딩 동작을 실행한다. 가산기(317)는 제 1 믹서(315)에 의해 출력된 신호와 제 2 믹서(319)에 의해 출력된 신호 사이의 잔여 신호를 계산한다. 비트스트림 생성기(321)는 부가정보에 잔여 신호를 더하고 더한 결과물을 전송한다. 이 방법으로, 음질을 향상시키는 것이 가능하다.

잔여 신호의 계산은 신호의 모든 부분에 또는 신호의 저주파수 부분만을 위해 적용될 수 있다. 또한, 잔여 신호의 계산은 프레임 대 프레임에 기초한 도미넌트 신호들을 포함하는 주파수 도메인에 오직 가변적으로 적용될 수 있다. 또한, 상술한 방법의 조합이 이용될 수 있다.

잔여 신호 정보를 포함한 부가정보의 양이 잔여 신호 정보를 포함하지 않은 부가정보의 양보다 더 많기 때문에, 잔여 신호의 계산은 음질에 직접 영향을 주는 신호의 일부 부분에만 적용될 수 있으며, 이로써 비트레이트의 과도한 증가를 막을 수 있다. 본 발명은 컴퓨터가 읽을 수 있는 기록 매체 상에 쓰여진 컴퓨터가 읽을 수 있는 코드로서 실현될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체들은 컴퓨터가 읽을 수 있는 방법으로 데이터가 저장된 기록 장치의 일종일 수 있다. 컴퓨터가 읽을 수 있는 기록 매체의 예들은 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광학 데이터 저장 장치 및 캐리어 웨이브(carrier wave)(예컨대, 인터넷을 통한 데이터 전송)를 포함한다. 상기 컴퓨터가 읽을 수 있는 기록 매체는, 컴퓨터가 읽을 수 있는 코드가 그곳에 쓰여지고, 분산된 방법으로 그곳으로부터 실행되도록, 네트워크에 연결된 복수의 컴퓨터 시스템으로 분배될 수 있다. 본 발명을 실현하는데 필요한 기능적 프로그램, 코드, 코드 단편은 이 분야에서 통상의 지식 가진 자에 의해 쉽게 해석될 수 있다.

상술한 바와 같이, 본 발명에 따르면, 오브젝트 기반 오디오 인코딩 및 디코딩 방법의 이점들로부터 이득을 얻음으로써, 음상이 각 오브젝트 오디오 신호을 위해 위치된다. 따라서, 오브젝트 오디오 신호의 재생을 통해 더 실제적인 소리들을 제공하는 것이 가능하다. 게다가 본 발명은 쌍방향 게임들에 적용될 수 있으며, 따라서 이용자에게 더 현실적인 가상 현실 경험을 제공할 수 있다.

본 발명은 그 바람직한 실시예에 관해 특히 도시되고 설명되지만, 설명 및 형태에 있어서의 수많은 변화가 다음의 청구항에 의해 정의된 바와 같이 본 발명의 범위 및 사상을 벗어나지 않고 이뤄질 수 있다는 것은 이 분야에서 통상의 지식을 가진 자에게 이해될 것이다.

Claims

입력 오디오 신호로부터 오브젝트 기반 부가정보 및 다운믹스 신호를 추출하는 단계;

입력 제어 정보에 기초하여 렌더링 정보를 생성하는 단계; 및

상기 오브젝트 기반 부가정보 및 상기 렌더링 정보에 기초하여 채널 기반 부가 정보를 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 디코딩 방법.
제 1 항에 있어서,

상기 채널 기반 부가정보 및 상기 다운믹스 신호에 기초하여 멀티채널 오디오 신호를 생성하는 단계를 더 포함하는 것을 특징으로 하는 오디오 디코딩 방법.
제 1 항에 있어서,

상기 제어 정보는, 미리 정해진 오브젝트 신호를 처리하기 위한 3차원(3D) 정보, 믹싱 정보 및 조화 정보 중에 적어도 하나를 포함하는 것을 특징으로 하는 오디오 디코딩 방법.
제 1 항에 있어서,

상기 렌더링 정보를 생성하는 단계는, 상기 믹싱 정보 내에 포함된 시간 정보를 이용자 명령에 응하여 등가의 진폭 정보로 변환하는 단계를 포함하는 것을 특 징으로 하는 오디오 디코딩 방법.
제 3 항에 있어서,

상기 렌더링 정보를 생성하는 단계는, 상기 믹싱 정보 내에 포함된 진폭 정보를 이용자 명령에 응하여 등가의 시간 정보로 변환하는 단계를 더 포함하는 것을 특징으로 하는 오디오 디코딩 방법.
제 3 항에 있어서,

상기 조화 정보는 상기 미리 정해진 오브젝트 신호의 피치 정보(pitch information), 기본 주파수 정보 및 도미넌트 주파수 정보 중에 적어도 하나를 포함하는 것을 특징으로 하는 오디오 디코딩 방법.
제 6 항에 있어서,

상기 조화 정보에 기초하여 상기 미리 정해진 오브젝트 신호의 이득을 조절하는 단계를 더 포함하는 것을 특징으로 하는 오디오 디코딩 방법.
제 6 항에 있어서,

상기 조화 정보에 기초하여 미리 정해진 주파수 밴드 내의 오브젝트 신호를 보상하는 단계를 더 포함하는 것을 특징으로 하는 오디오 디코딩 방법.
제 1 항에 있어서,

상기 공간 정보와 상기 다운믹스 신호 사이의 지연을 보상하는 단계를 더 포함하는 것을 특징으로 하는 오디오 디코딩 방법.
입력 오디오 신호로부터 오브젝트 기반 부가정보 및 다운믹스 신호를 추출하는 디멀티플렉서(demultiplexer);

입력 제어 정보에 기초하여 렌더링 정보를 생성하는 렌더링부(renderer); 및

상기 오브젝트 기반 부가정보 및 상기 렌더링 정보에 기초하여 채널 기반 부가정보를 생성하는 트랜스코딩부(transcoder)를 포함하는 것을 특징으로 하는 오디오 디코딩 장치.
제 10 항에 있어서,

상기 채널 기반 부가정보 및 상기 다운믹스 신호에 기초하여 멀티채널 오디오 신호를 생성하는 멀티채널 디코딩부를 더 포함하는 것을 특징으로 하는 오디오 디코딩 장치.
제 10 항에 있어서,

상기 제어 데이터는, 미리 정해진 오브젝트 신호를 처리하기 위한 3D 정보, 믹싱 정보 및 조화 정보 중에 적어도 하나를 포함하는 것을 특징으로 하는 오디오 디코딩 장치.
제 12 항에 있어서,

상기 렌더링 정보의 생성 동안 이용자 명령에 응하여, 상기 렌더링부는 상기 믹싱 정보 내에 포함된 시간 정보를 등가인 진폭 정보로 변환시키는 것을 특징으로 하는 오디오 디코딩 장치.
제 12 항에 있어서,

상기 렌더링 정보의 생성 동안 이용자 명령에 응하여, 상기 렌더링부는 상기 믹싱 정보 내에 포함된 진폭 정보를 등가인 시간 정보로 변환시키는 것을 특징으로 하는 오디오 디코딩 장치.
제 12 항에 있어서,

상기 조화 정보는, 상기 미리 정해진 오브젝트 신호의 피치 정보, 기본 주파수 정보 및 도미넌트 주파수 정보 중에 적어도 하나를 포함하는 것을 특징으로 하는 오디오 디코딩 장치.
제 15 항에 있어서,

상기 렌더링부는 상기 조화 정보에 기초하여 상기 미리 정해진 오브젝트 신호의 이득을 조절하는 것을 특징으로 하는 오디오 디코딩 장치.
제 15 항에 있어서,

상기 렌더링부는 상기 조화 정보에 기초하여 미리 정해진 주파수 밴드 내의 오브젝트 신호를 보상하는 것을 특징으로 하는 오디오 디코딩 장치.
제 10 항에 있어서,

상기 다운믹스 신호와 상기 공간 정보 사이의 지연을 보상하는 버퍼를 더 포함하는 것을 특징으로 하는 오디오 디코딩 장치.
입력 오디오 신호로부터 오브젝트 기반 부가정보 및 다운믹스 신호를 추출하는 단계;

입력 제어 데이터에 기초하여 렌더링 정보를 생성하는 단계; 및

상기 오브젝트 기반 부가정보 및 상기 렌더링 정보에 기초하여 채널 기반 부가정보를 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 디코딩 방법을 실행하기 위한 컴퓨터 프로그램을 기록한 컴퓨터가 읽을 수 있는 기록 매체.
제 19 항에 있어서,

상기 오디오 디코딩 방법은, 상기 채널 기반 부가정보 및 상기 다운믹스 신호를 이용하여 멀티채널 오디오 신호를 생성하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터가 읽을 수 있는 기록 매체.