KR101147780B1

KR101147780B1 - 오디오 신호 처리 방법 및 장치

Info

Publication number: KR101147780B1
Application number: KR1020107011467A
Authority: KR
Inventors: 오현오; 정양원
Original assignee: 엘지전자 주식회사
Priority date: 2008-01-01
Filing date: 2008-12-31
Publication date: 2012-06-01
Also published as: CA2710562C; JP2011509588A; EP2225893B1; CA2710562A1; KR20100086002A; WO2009084914A1; CN101911733A; AU2008344132B2; KR101328962B1; EP2225894B1; KR20100095541A; JP5243553B2; JP5243554B2; JP2011509589A; US20100284549A1; US20100316230A1; EP2225893A4; WO2009084916A1; EP2225893A1; EP2225894A4

Abstract

하나 이상의 오브젝트 신호를 포함하는 다운믹스 신호와 상기 다운믹스 신호를 생성하는 과정에서 추출된 오브젝트 정보를 수신하는 단계; 상기 오브젝트 신호를 컨트롤 하기 위한 믹스 정보를 수신하는 단계; 출력 모드에 따라서, 상기 오브젝트 정보 및 상기 믹스 정보를 이용하여, 다운믹스 프로세싱 정보 및 멀티채널 정보 중 하나를 생성하는 단계; 및 상기 다운믹스 프로세싱 정보가 생성된 경우, 상기 다운믹스 프로세싱 정보를 상기 다운믹스 신호에 적용하여 출력 신호를 생성하는 단계를 포함하고, 상기 다운믹스 신호는 모노 신호에 해당하고, 상기 출력 신호는 상기 다운믹스 신호에 디코릴레이터를 적용하여 생성된 스테레오 신호에 해당하고, 상기 멀티채널 정보는, 상기 다운믹스 신호를 멀티채널 신호로 업믹싱하기 위한 정보에 해당하는 오디오 신호 처리 방법이 개시된다.

Description

오디오 신호 처리 방법 및 장치{A METHOD AND AN APPARATUS FOR PROCESSING AN AUDIO SIGNAL}

본 발명은 오디오 신호의 처리 방법 및 장치에 관한 것으로, 보다 상세하게는 디지털 매체, 방송 신호 등으로 수신된 오디오 신호를 처리할 수 있는 오디오 신호의 처리 방법 및 장치에 관한 것이다.

일반적으로, 다수 개의 오브젝트를 모노 또는 스테레오 신호로 다운믹스하는 과정에 있어서, 각각의 오브젝트 신호로부터 파라미터들이 추출된다. 이러한 파라미터들은 디코더에서 사용될 수 있는 데, 각각의 오므젝들의 패닝(panning)과 게인(gain)은 유저의 선택에 의해 컨트롤 될 수 있다.

Technical Problem

각각의 오브젝트 시그널을 제어하기 위해서는, 다운믹스에 포함되어 있는 각각의 소스들이 적절히 포지셔닝 또는 패닝되어야 한다.

또한, 채널 기반(channel-oriented) 디코딩 방식으로 하향 호환성을 갖기 위해서는, 오브젝트 파라미터는 업믹싱을 위한 멀티 채널 파라미터로 유연하게 변환되어야 한다.

Technical Solution

본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 오브젝트의 게인과 패닝을 컨트롤하여, 모노 신호, 스테레오 신호, 및 멀티채널 신호로 출력할 수 있는 오디오 신호 처리 방법 및 장치를 제공하는 데 그 목적이 있다.

본 발명의 또 다른 목적은, 멀티채널 디코더의 복잡한 스킴을 수행하지 않고도, 다운믹스 신호로부터 모노 신호 및 스테레오 신호를 출력할 수 있는 오디오 신호 처리 방법 및 장치를 제공하는 데 있다.

본 발명의 또 다른 목적은, 보컬이나 배경음악의 게인을 큰 폭으로 조절하는 경우에도 음질의 왜곡을 발생시키지 않는 오디오 신호 처리 방법 및 장치를 제공하는 데 있다.

Advantageous Effects

본 발명은 다음과 같은 효과와 이점을 제공한다.

우선, 오브젝트의 게인과 패닝을 제한없이 컨트롤 할 수 있다.

둘째, 유저의 선택을 기반으로 오브젝트의 게인과 패닝을 컨트롤할 수 있다.

셋째, 출력 모드가 모노 또는 스테레오인 경우, 멀티채널 디코더의 복잡한 스킴을 수행하지 않고도, 출력 신호를 생성할 수 있으므로, 구현이 용이하고 복잡도를 낮출 수 있다.

넷째, 모바일 디바이스와 같이 1-2 개의 스피커만 구비된 경우, 멀티채널 디코더에 대응하는 코덱이 없더라도, 다운믹스 신호를 오브젝트의 게인과 패닝을 컨트롤할 수 있다.

다섯째, 보컬이나 배경 음악 중 하나를 완전하게 억압하는 경우에도, 게인 조정에 따른 음질의 왜곡을 방지할 수 있다.

여섯째, 보컬 등과 같은 독립 오브젝트가 둘 이상인 경우(스테레오 채널 또는 여러 개의 보컬 신호), 게인 조정에 따른 음질의 왜곡을 방지할 수 있다.

도 1 은 모노 신호/스테레오 신호를 생성하기 위한, 본 발명의 실시예에 따른 오디오 신호 처리 장치의 구성도.

도 2 는 도 1 에 도시된 다운믹스 프로세싱 유닛의 세부구성도의 제1 예.

도 3 은 도 1 에 도시된 다운믹스 프로세싱 유닛의 세부구성도의 제2 예.

도 4 는 바이노럴 신호를 생성하기 위한, 본 발명의 일 실시예에 따른 오디오 신호 처리 장치의 구성도.

도 5 는 도 4 의 다운믹스 프로세싱 유닛의 세부구성도.

도 6 은 바이노럴 신호를 생성하기 위한, 본 발명의 다른 실시예에 따른 오디오 신호 처리 장치의 구성도.

도 7 은 독립 오브젝트를 제어하기 위한, 본 발명의 일 실시예에 따른 오디오 신호 처리 장치의 구성도.

도 8 은 독립 오브젝트를 제어하기 위한, 본 발명의 다른 실시예에 따른 오디오 신호 처리 장치의 구성도.

도 9 는 인핸스드 오브젝트 처리를 위한, 본 발명의 제 1 실시예에 따른 오디오 신호 처리 장치의 구성도.

도 10 은 인핸스드 오브젝트 처리를 위한, 본 발명의 제 2 실시예에 따른 오디오 신호 처리 장치의 구성도.

도 11 및 도 12 는 인핸스드 오브젝트 처리를 위한, 본 발명의 제 3 실시예에 따른 오디오 신호 처리 장치의 구성도.

Best Mode for Carrying out the Invention

상기와 같은 목적을 달성하기 위하여 본 발명에 따른 오디오 신호 처리 방법은, 하나 이상의 오브젝트 신호를 포함하는 다운믹스 신호와 상기 다운믹스 신호를 생성하는 과정에서 추출된 오브젝트 정보를 수신하는 단계; 상기 오브젝트 신호를 컨트롤하기 위한 믹스 정보를 수신하는 단계; 출력 모드에 따라서, 상기 오브젝트 정보 및 상기 믹스 정보를 이용하여 다운믹스 프로세싱 정보 및 멀티채널 정보 중 하나를 생성하는 단계; 및, 상기 다운믹스 프로세싱 정보가 생성된 경우, 상기 다운믹스 프로세싱 정보를 상기 다운믹스 신호에 적용하여 출력 신호를 생성하는 단계를 포함하고, 상기 다운믹스 신호 및 상기 출력 신호는 모노 신호에 해당하고, 상기 멀티채널 정보는, 상기 다운믹스 신호를 복수의 채널 신호로 업믹싱하기 위한 정보에 해당한다.

본 발명에 따르면, 상기 다운믹스 신호 및 상기 출력 신호는, 시간 도메인의 신호에 해당할 수 있다.

본 발명에 따르면, 상기 출력 신호를 생성하는 단계는, 상기 다운믹스 신호를 분석(decomposing)하여 서브밴드 신호를 생성하는 단계; 상기 다운믹스 프로세싱 정보를 이용하여 상기 서브밴드 신호를 프로세싱하는 단계; 상기 서브밴드 신호 를 합성함으로써 상기 출력 신호를 생성하는 단계를 포함할 수 있다.

본 발명에 따르면, 상기 출력 신호는, 상기 다운믹스 신호가 디코릴레이팅된 신호를 포함할 수 있다.

본 발명에 따르면, 상기 멀티채널 정보가 생성된 경우, 상기 멀티채널 정보를 이용하여 상기 다운믹스 신호를 업믹싱하여 복수의 채널 신호를 생성하는 단계를 더 포함할 수 있다.

본 발명에 따르면, 상기 출력 모드는, 스피커 채널 개수에 따라 결정된 것으로서, 상기 스피커 채널 개수는, 장치 정보 및 상기 믹스 정보 중 하나를 근거로 하는 것일 수 있다.

본 발명에 따르면, 상기 믹스 정보는, 오브젝트 위치 정부 오브젝트 게인 정보, 및 재생 환경 정보 중 하나 이상을 근거로 생성된 것일 수 있다.

본 발명의 또 다른 측면에 따르면, 하나 이상의 오브젝트 신호를 포함하는 시간 도메인의 다운믹스 신호, 및상기 다운믹스 신호를 생성하는 과정에서 추출된 오브젝트 정보를 수신하는 디멀티플렉서; 출력 모드에 따라서, 상기 오브젝트 신호를 컨트롤하기 위한 믹스 정보, 및 상기 오브젝트 정보를 이용하여 다운믹스 프로세싱 정보 및 멀티채널 정보 중 하나를 생성하는 정보 생성 유닛; 및, 상기 다운믹스 프로세싱 정보가 생성된 경우, 상기 다운믹스 프로세싱 정보를 상기 다운믹스 신호에 적용하여 출력 신호를 생성하는 다운믹스 프로세싱 유닛을 포함하고, 상기 다운믹스 신호 및 상기 출력 신호는 모노 신호에 해당하고, 상기 멀티채널 정보는, 상기 다운믹스 신호를 복수의 채널 신호로 업믹싱하기 위한 정보에 해당하는 오디 오 신호처리 장치가 제공된다.

본 발명에 따르면, 상기 다운믹스 프로세싱 유닛은, 상기 다운믹스 신호를 분석(decomposing)하여 서브밴드 신호를 생성하는 서브밴드 분석 유닛; 상기 다운믹스프로세싱 정보를 이용하여 상기 서브밴드 신호를 프로세싱하는 M2M 프로세싱 유닛; 및, 상기 서브밴드 신호를 합성함으로써 상기 출력 신호를 생성하는 서브밴드 합성유닛을 포함할 수 있다.

본 발명의 또 다른 측면에 따르면, 하나 이상의 오브젝트 신호를 포함하는 다운믹스 신호와 상기 다운믹스 신호를 생성하는 과정에서 추출된 오브젝트 정보를 수신하는 단계; 상기 오브젝트 신호를 컨트롤 하기 위한 믹스 정보를 수신하는 단계; 출력 모드에 따라서, 상기 오브젝트 정보 및 상기 믹스 정보를 이용하여, 다운믹스 프로세싱 정보 및 멀티채널 정보 중 하나를 생성하는 단계; 및 상기 다운믹스 프로세싱 정보가 생성된 경우, 상기 다운믹스 프로세싱 정보를 상기 다운믹스 신호에 적용하여 출력 신호를 생성하는 단계를 포함하고, 상기 다운믹스 신호는 모노 신호에 해당하고, 상기 출력 신호는 상기 다운믹스 신호에 디코릴레이터를 적용하여 생성된 스테레오 신호에 해당하고, 상기 멀티채널 정보는, 상기 다운믹스 신호를 멀티채널 신호로 업믹싱하기 위한 정보에 해당하는 오디오 신호 처리 방법이 제공된다.

본 발명에 따르면, 상기 출력 신호를 생성하는 단계는, 상기 다운믹스 신호 를 분석(decomposing)하여 서브밴드 신호를 생성하는 단계; 상기 다운믹스 프로세싱 정보를 이용하여 상기 서브밴드 신호를 프로세싱함으로써 두 개의 서브밴드 신호를 생성하는 단계; 상기 두 개의 서브밴드 신호를 각각 합성함으로써 상기 출력 신호를 생성하는 단계를 포함할 수 있다.

본 발명에 따르면, 상기 두 개의 서브밴드 신호를 생성하는 단계는, 상기 서브밴드 신호를 디코릴레이팅하여 디코릴레이트된 신호를 생성하는 단계; 및, 상기 다운믹스 프로세싱 정보를 이용하여, 상기 디코릴레이트된 신호 및 상기 서브밴드 신호를 프로세싱함으로써, 상기 두 개의 서브밴드 신호를 생성하는 단계를 포함할 수 있다.

본 발명에 따르면, 상기 다운믹스 프로세싱 정보는, 바이노럴 파라미터를 포함하고, 상기 출력 신호는, 바이노럴 신호에 해당할 수 있다.

본 발명에 따르면, 상기 출력 모드는, 스피커 채널 개수에 따라 결정된 것으로서, 상기 스피커 채널 개수는, 장치 정보 및 상기 믹스 정보 중 하나를 근거로 할 수 있다.

본 발명의 또 다른 측면에 따르면, 하나 이상의 오브젝트 신호를 포함하는 다운믹스 신호, 및 상기 다운믹스 신호를 생성하는 과정에서 추출된 오브젝트 정보를 수신하는 디멀티플렉서; 출력 모드에 따라서, 상기 오브젝트 신호를 컨트롤하기 위한 믹스 정보, 및 상기 오브젝트 정보를 이용하여, 다운믹스 프로세싱 정보 및 멀티채널 정보 중 하나를 생성하는 정보 생성 유닛; 및, 상기 다운믹스 프로세싱 정보가 생성된 경우, 상기 다운믹스 프로세싱 정보를 상기 다운믹스 신호에 적용하여 출력 신호를 생성하는 다운믹스 프로세싱 유닛을 포함하고, 상기 다운믹스 신호는 모노 신호에 해당하고, 상기 출력 신호는 상기 다운믹스 신호에 디코릴레이터를 적용하여 생성된 스테레오 신호에 해당하고, 상기 멀티채널 정보는, 상기 다운믹스 신호를 멀티채널 신호로 업믹싱하기 위한 정보에 해당하는 오디오 신호 처리 장치가 제공된다.

본 발명의 또 다른 측면에 따르면, 하나 이상의 오브젝트 신호를 포함하는 다운믹스 신호와 상기 다운믹스 신호를 생성하는 과정에서 추출된 오브젝트 정보를 수신하는 단계; 모드 선택 정보를 포함하고 상기 오브젝트 신호를 컨트롤 하기 위한 믹스 정보를 수신하는 단계; 상기 모드 선택 정보를 근거로, 상기 다운믹스 신호를 바이패싱하거나, 상기 다운믹스 신호로부터 백그라운드 오브젝트 및 하나 이상의 독립 오브젝트를 추출하는 단계; 및, 상기 다운믹스 신호가 바이패싱된 경우, 상기 오브젝트 정보 및 상기 믹스 정보를 이용하여, 멀티채널 정보를 생성하는 단계를 포함하고, 상기 다운믹스 신호는 모노 신호에 해당하고, 상기 모드 선택 정보는, 일반 모드, 상기 백그라운드 오브젝트를 제어하기 위한 모드, 및 상기 하나 이상의 독립 오브젝트를 제어하기 위한 모드를 포함하는 모드들 중 어느 모드에 해당하는지에 대한 정보를 포함하는 오디오 신호 처리 방법이 제공된다.

본 발명에 따르면, 인핸스드 오브젝트 정보를 수신하는 단계를 더 포함하고, 상기 하나 이상의 독립 오브젝트는, 상기 인핸스드 오브젝트 정보를 이용하여 상기 다운믹스 신호로부터 추출되는 것일 수 있다.

본 발명에 따르면, 상기 인핸스드 오브젝트 정보는 레지듀얼 신호에 해당할 수 있다.

본 발명에 따르면, 상기 하나 이상의 독립 오브젝트는, 오브젝트 기반 신호에 해당하고, 상기 백그라운드 오브젝트는, 모노 신호에 해당할 수 있다.

본 발명에 따르면, 상기 스테레오 출력 신호는, 상기 모드 선택 모드가 상기 일반 모드에 해당하는 경우, 생성되고, 상기 백그라운드 오브젝트 및 상기 하나 이상의 독립 오브젝트는, 상기 모드 선택 모드가 상기 백그라운드 오브젝트를 제어하기 위한 모드 또는 상기 하나 이상의 독립 오브젝트를 제어하기 위한 모드인 경우, 추출될 수 있다.

본 발명에 따르면, 상기 백그라운드 오브젝트 및 상기 하나 이상의 독립 오브젝트가 상기 다운믹스 신호로부터 추출되는 경우, 상기 백그라운드 오브젝트를 컨트롤하기 위한 제 1 멀티채널 정부 및 상기 하나 이상의 독립 오브젝트를 컨트롤하기 위한 제 2 멀티채널 정보 중 하나 이상을 생성하는 단계를 더 포함할 수 있다.

본 발명의 또 다른 측면에 따르면, 하나 이상의 오브젝트 신호를 포함하는 다운믹스 신호, 및 상기 다운믹스 신호를 생성하는 과정에서 추출된 오브젝트 정보를 수신하는 디멀티플렉서; 상기 오브젝트 신호를 컨트롤하기 위한 믹스 정보에 포함되는 모드 선택 정보를 근거로, 상기 다운믹스 신호를 바이패싱하거나, 상기 다 운믹스 신호로부터 백그라운드 오브젝트 및 하나 이상의 독립 오브젝트를 추출하는 오브젝트 트랜스코더; 및, 상기 다운믹스 신호가 바이패싱된 경우, 상기 오브젝트 정보 및 상기 믹스 정보를 이용하여, 멀티채널 정보를 생성하는 멀티채널 디코더를 포함하고, 상기 다운믹스 신호는 모노 신호에 해당하고, 상기 출력 신호는 상기 다운믹스 신호에 디코릴레이터를 적용하여 생성된 스테레오 신호에 해당하고, 상기 모드 선택 정보는, 일반 모드, 상기 백그라운드 오브젝트를 제어하기 위한 모드, 및 상기 하나 이상의 독립 오브젝트를 제어하기 위한모드를 포함하는 모드들 중 어느모드에 해당하는지에 대한 정보를 포함할 수 있다.

본 발명의 또 다른 측면에 따르면, 하나 이상의 오브젝트 신호를 포함하는 다운믹스 신호와 상기 다운믹스 신호를 생성하는 과정에서 추출된 오브젝트 정보를 수신하는 단계; 모드 선택 정보를 포함하고 상기 오브젝트 신호를 컨트롤 하기 위한 믹스 정보를 수신하는 단계; 및, 상기 모드 선택 정보를 근거로, 상기 다운믹스 신호를 이용하여 스테레오 출력 신호를 생성하거나, 상기 다운믹스 신호로부터 백그라운드 오브젝트 및 하나 이상의 독립 오브젝트를 추출하는 단계를 포함하고, 상기 다운믹스 신호는 모노 신호에 해당하고, 상기 스테레오 출력 신호는, 상기 다운믹스 신호가 디코릴레이팅된 신호를 포함하는 시간 도메인의 신호에 해당하며, 상기 모드 선택 정보는, 일반 모드, 상기 백그라운드 오브젝트를 제어하기 위한 모드, 및 상기 하나 이상의 독립 오브젝트를 제어하기 위한 모드를 포함하는 모드들 중 어느 모드에 해당하는지에 대한 정보를 포함하는 오디오 신호 처리 방법이 제공된다.

본 발명에 따르면, 상기 스테레오 출력 신호는, 상기 모드 선택 모드가 상기 일반모드에 해당하는 경우, 생성되고, 상기 백그라운드 오브젝트 및 상기 하나 이상의 독립 오브젝트는, 상기 모드 선택 모드가 상기 백그라운드 오브젝트를 제어하기 위한 모드 또는 상기 하나 이상의 독립 오브젝트를 제어하기 위한 모드인 경우, 추출될 수 있다.

본 발명의 또 다른 측면에 따르면, 하나 이상의 오브젝트 신호를 포함하는 다운믹스 신호, 및 상기 다운믹스 신호를 생성하는 과정에서 추출된 오브젝트 정보를 수신하는 디멀티플렉서; 및, 상기 오브젝트 신호를 컨트롤하기 위한 믹스 정보 에 포함된 모드 선택 정보를 근거로, 상기 다운믹스 신호를 이용하여 스테레오 출력 신호를 생성하거나, 상기 다운믹스 신호로부터 백그라운드 오브젝트 및 하나 이상의 독립 오브젝트를 추출하는 오브젝트 트랜스코더를 포함하고, 상기 다운믹스 신호는 모노 신호에 해당하고, 상기 스테레오 출력 신호는, 상기 다운믹스 신호가 디코릴레이팅된 신호를 포함하는 시간 도메인의 신호에 해당하며, 상기 모드 선택 정보는, 일반 모드, 상기 백그라운드 오브젝트를 제어하기 위한 모드, 및 상기 하나 이상의 독립 오브젝트를 제어하기 위한 모드를 포함하는 모드들 중 어느 모드에 해당하는지에 대한 정보를 포함하는 오디오 신호 처리 장치가 제공된다.

이하 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.

특히, 본 명세서에서 정보(information)란, 값(values), 파라미터(parameters), 계수(coeffcients), 성분(elements) 등을 모두 아우르는 용어로서, 경우에 따라 그 의미는 달리 해석될 수 있는 바, 그러나 본 발명은 이에 한정되지 아니한다.

특히, 오브젝트란, 오브젝트 기반 신호(object based signal) 및 채널 기반 신호(channel based signal)를 포함하는 개념이지만, 경우에 따라 오브젝트 기반 신호만을 지칭할 수 있다.

본 발명은, 모노 다운믹스 신호가 수신되었을 경우, 모노 다운믹스 신호를 처리하기 위한 다양한 프로세스에 대해서 설명하고자 한다. 우선 모노 다운믹스 신호로부터 경우에 따라 모노 신호/ 스테레오 신호 또는 멀티채널 신호를 생성하는 방식에 대해 도 1 내지 도 3 를 참조하면서 설명한다. 그런다음, 모노 다운믹스 신호(또는 스테레오 다운믹스 신호)로부터 바이노럴 신호를 생성하는 방식에 대해 도 4 내지 도 6 를 참조하면서 설명한다. 모노 다운믹스에 포함되어 있는 독립 오브젝트 신호(또는 모노 백그라운드 신호)를 제어하기 위한 방식의 다양한 실시예에 대해 도 7 내지 도 12 과 참조하면서 설명한다.

1. 모노 신호/스테레오 신호의 생성

도 1 은 모노 신호/스테레오 신호를 생성하기 위한, 본 발명의 실시예에 따른 오디오 신호 처리 장치의 구성을 보여주는 도면이다. 도 1 을 참조하면, 우선, 본 발명의 실시예에 따른 오디오 신호 처리 장치(100)는 디멀티플렉서(110), 정보 생성 유닛(120), 및 다운믹스 프로세싱 유닛(130)를 포함하는데, 멀티채널 디코더(140)를 더 포함할 수 있다.

디멀티플렉서(110)는 비트스트림을 통해 오브젝트 정보(OI)를 수신한다. 오 브젝트 정보(OI)는 다운믹스 신호 내에 포함되어 있는 오브젝트들에 관한 정보로서, 오브젝트 레벨 정보(object level information), 오브젝트 상관 정보(object correlation information) 등을 포함할 수 있다. 상기 오브젝트 정보(OI)는 오브젝트 특성을 나타내는 파라미터인 오브젝트 파라미터(object parameter)(OP)를 포함할 수 있다.

상기 비트스트림은 다운믹스 신호(DMX)를 더 포함하고, 디멀티플렉서(110)는 이 비트스트림으로부터 다운믹스 신호(DMX)를 더 추출할 수도 있다. 다운믹스 신호(DMX)는 하나 이상의 오브젝트 신호가 다운믹스된 신호로서, 시간 도메인의 신호에 해당할 수 있다. 다운믹스 신호(DMX)는 모노 신호 또는 스테레오 신호일 수 있지만, 본 실시예에서는 모노 신호인 경우에 대해서 설명하고자 한다.

정보 생성 유닛(120)은 디멀티플렉서(110)로부터 오브젝트 정보(OI)를 수신하고, 사용자 인터페이스로부터 믹스 정보(MXI)를 수신하고, 사용자 인터페이스 또는 장치로부터 출력모드정보(OM)를 수신한다. 나아가, HRTF DB로부터 HRTF(Head-Related Transfer Function) 파라미터를 더 수신할 수도 있다.

믹스 정보(MXI)란, 오브젝트 위치 정보(object position information), 오브젝트 게인 정보(object gain information), 및 재생 환경 정보(playback configuration in-formation) 등을 근거로 생성된 정보로서, 오브젝트 위치 정보란, 사용자가 각 오브젝트의 위치 또는 패닝(panning)를 제어하기 위해 입력한 정보이며, 오브젝트 게인 정보란, 사용자가 각 오브젝트의 게인(gain)을 제어하기 위해 입력한 정보이다. 특히 오브젝트 위치 정보 및 오브젝트 게인 정보는 프리셋 모 드들로부터 선택된 하나일 수 있는데, 프리셋 모드란, 시간에 따라 오브젝트 특정 게인 및 특정 위치가 미리 결정된 값으로서, 프리셋 모드 정보는, 다른 장치로부터 수신된 값일 수도 있고, 장치에 저장되어 있는 값일 수도 있다. 한편, 하나 이상의 프리셋 모드들(예: 프리셋 모드 사용안함, 프리셋 모드 1, 프리셋 모드 2 등) 중 하나를 선택하는 것은 사용자 입력에 의해 결정될 수 있다.

재생환경 정보는, 스피커의 개수, 스피커의 위치, 앰비언트 정보(speaker 의 가상 위치) 등을 포함하는 정보로서, 사용자로부터 입력받을 수도 있고, 미리 저장되어 있을 수도 있으며, 다른 장치로부터 수신할 수도 있다.

출력모드정보(OM)란, 출력 모드에 관한 정보로서, 예를 들어, 몇 개의 신호로 출력하는지에 대한 정보를 포함할 수 있다. 몇 개의 신호로 출력하는지에 대한 정보는, 모노 출력 모드, 스테레오 출력 모드, 멀티채널 출력 모드 등 중 하나에 해당하는 정보일 수 있다. 한편, 출력모드정보(OM)는 상기 믹스 정보(MXI)의 스피커의 개수와 동일할 수 있는 데, 미리 저장되어 있는 경우 장치정보를 근거로 한 것이고, 사용자로부터 입력받은 경우 유저 인풋 정보를 근거로 한 것이다. 이때 유저 인풋 정보는 상기 믹스 정보(MXI)에 포함될 수 있다.

정보 생성 유닛(120)은 출력 모드에 따라서, 오브젝트 정보(OI) 및 믹스정보(MXI)를 이용하여 다운믹스 프로세싱 정보(DPI) 및 멀티채널 정보(MI) 중 하나를 생성한다. 여기서 출력 모드는 앞서 설명한 출력모드정보(OM)에 근거한 것이다. 만약, 출력 모드가 모노 출력 또는 스테레오 신호인 경우, 다운믹스 프로세싱 정보(DPI)를 생성하고, 출력 모드가 멀티채널 출력인 경우, 멀티채널 정보(MI)를 생성 한다. 여기서 다운믹스 프로세싱 정보(DPI)는, 다운믹스 신호(DMX)를 프로세싱하기 위한 정보로서 구체적인 것은 후술하고자 한다. 여기서 멀티채널 정보(MI)는 다운믹스 신호(DMX)를 업믹싱하기 위한 정보로서, 채널 레벨 정보(channel level information), 채널 상관 정보(channel cor-relation information) 등을 포함할 수 있다.

출력 모드가 모노 출력 또는 스테레오 출력인 경우, 다운믹스 프로세싱 정보(DPI)만을 생성하는 이유는, 다운믹스 프로세싱 유닛(130)에서 시간 도매인의 모노 신호 또는 스테레오 신호를 생성할 수 있기 때문이다. 한편, 출력 모드가 멀티채널 출력인 경우, 멀티채널 정보(MI)를 생성하는 이유는, 입력 신호가 모노 신호인 경우, 멀티채널 디코더(140)에서 멀티채널 신호를 생성할 수 있기 때문이다.

다운믹스 프로세싱 유닛(130)은 다운믹스 프로세싱 정보(DPI) 및 모노 다운믹스(DMX)를 이용하여 모노 출력 신호 또는 스테레오 출력 신호를 생성한다. 여기서 다운믹스 프로세싱 정보(DPI)란, 다운믹스 신호(DMX)를 프로세싱하기 위한 정보로서, 다운믹스 신호에 포함되어 있는 오브젝트들의 게인 및/또는 패닝을 제어하기 위한 정보이다. 한편, 모노 출력 신호 또는 스테레오 출력 신호는 시간 도메인의 신호에 해당하는 것로서, PCM 신호일 수 있다. 모노 출력 신호의 경우, 다운믹스 프로세싱 유닛(130)의 세부 구성을 추후 도 2 를 참조하면서 설명하고, 스테레오 출력 신호의 경우, 다운믹스 프로세싱 유닛(130)의 세부 구성을 도 3 을 참조하면서 설명하고자 한다.

나아가 다운믹스 프로세싱 정보(DPI)는 바이노럴 파라미터를 포함할 수 있는 데, 바이노럴 파라미터란, 3D 효과를 위한 파라미터로서, 정보 생성 유닛(120)에서 오브젝트 정보(OI), 믹스 정보(MXI) 및 HRTF 파라미터를 이용하여 생성된 정보일 수 있다. 다운믹스 프로세싱 정보(DPI)가 바이노럴 파라미터를 포함하는 경우, 다운믹스 프로세싱 유닛(130)은 바이노럴 신호를 출력할 수 있다. 바이노럴 신호의 생성을 위한 실시예는, 추후 도 4 내지 도 6 을 참조하면서 구체적으로 설명하고자 한다.

만약, 모노 다운믹스 신호가 아닌 스테레오 다운믹스 신호가 수신된 경우(미도시), 시간 도메인의 출력 신호를 생성하기 보다는, 다운믹스 신호의 크로스 토크만을 변형하기 위한 프로세싱만을 수행하고 프로세싱된 다운믹스 신호는 다시 멀티채널 디코더(140)에서 처리될 수도 있지만, 본 발명은 이에 한정되지 아니한다.

멀티채널 디코더(140)는, 출력 모드가 멀티채널 출력모드일 때, 멀티채널 정보(MI)를 이용하여 다운믹스(DMX)를 업믹싱하여 멀티채널 신호를 생성한다. 멀티채널 디코더(140)는 MPEG surround (ISO/IEC 23003-1)의 표준에 따라 구현될 수 있지만, 본 발명은 이에 한정되지 아니한다.

도 2 는 도 1 에 도시된 다운믹스 프로세싱 유닛의 세부구성도의 제 1 예로서, 모노 출력 신호를 생성하기 위한 실시예이고, 도 3 은 도 1 에 도시된 다운믹스 프로세싱 유닛의 세부구성도의 제 2 예로서, 스테레오 출력 신호를 생성하기 위한 실시예이다.

우선 도 2 를 참조하면, 다운믹스 프로세싱 유닛(130A)은 서브밴드 분석유닛(132A), M2M 프로세싱 유닛(134A), 서브밴드 합성유닛(136A)을 포함하고, 모노 다 운믹스 신호로부터 모노출력 신호를 생성한다.

서브밴드 분석유닛(132A)는 모노 다운믹스 신호(DMX)를 분석(decomposing)하여 서브밴드 신호를 생성한다. 서브밴드 분석유닛(132A)은 하이브리드 필터뱅크로 구현되고, 서브밴드 신호는, 하이브리드 QMF 도메인의 신호에 해당할 수 있다. M2M 프로세싱 유닛(134A)는 다운믹스 프로세싱 정보(DPI)를 이용하여 서브밴드 신호를 프로세싱한다. M2M 은 mono-to-mono 의 약자이다. 여기서, M2M 프로세싱 유닛(134A)은 서브밴드 신호를 프로세싱하기 위해 디코릴레이터를 이용할 수 있다. 서브밴드 합성유닛(136A)는 프로세싱된 서브밴드 신호를 합성하여 시간 도메인의 모노 출력 신호를 생성한다. 서브밴드 합성 유닛(136A)은 하이브리드 필터뱅크로 구현될 수 있다.

도 3 을 참조하면, 다운믹스 프로세싱 유닛(130B)은 서브밴드 분석 유닛(132B), M2S 프로세싱 유닛(134B), 제 1 서브밴드 합성 유닛(136B), 제 2 서브밴드 합성 유닛(138B)를 포함하고, 모노 다운믹스 신호를 수신하여 스테레오 출력을 생성한다.

서브밴드 분석유닛(132B)는 도 2 의 서브밴드 분석유닛(132A)과 마찬가지로 모노 다운믹스 신호(DMX)를 분석하여 서브밴드 신호를 생성한다. 마찬가지로, 서브밴드 분석유닛(132B)은 하이브리드 필터뱅크로 구현될 수 있다.

M2S 프로세싱 유닛(134B)은 다운믹스 프로세싱 정보(DPI) 및 디코릴레이터(135B)를 이용하여 서브밴드 신호를 프로세싱하여 두 개의 서브밴드 신호(제 1 서브밴드 신호, 및 제 2 서브밴드 신호)를 생성한다. M2S 는 mono-to-stereo 의 약자 이다. 디코릴레이터(135B)가 이용되면, 좌/우 채널은 상관성을 떨어뜨림으로써 스테레오 효과를 높일 수 있다. 한편, 디코릴레이터(135B)는 서브밴드 분석유닛(132B)로부터 입력된 서브밴드 신호를 제 1 서브밴드 신호로 하고, 이 제 1 서브밴드 신호를 디코릴레이팅한 신호를 제 2 서브밴드 신호로서 출력할 수 있는데, 본 발명은 이에 한정하지 아니한다.

제 1 서브밴드 합성 유닛(136B)는 제 1 서브밴드 신호를 합성하고, 제 2 서브밴드 합성 유닛(138B)는 제 2 서브밴드 신호를 합성함으로써, 시간 도메인의 스테레오 출력 신호를 생성한다.

이상, 모노 다운믹스가 입력되는 경우, 다운믹스 프로세싱 유닛을 통해 모노 출력/스테레오 출력되는 실시예에 대해 설명하였다. 이하, 바이노럴 신호를 생성하는 것이 대해 설명하고자 한다.

2. 바이노럴 신호의 생성

도 4 는 바이노럴 신호를 생성하기 위한, 본 발명의 일 실시예에 따른 오디오 신호 처리 장치의 구성을 보여주는 도면이고, 도 5 는 도 4 의 다운믹스 프로세싱 유닛의 세부구성도이다. 도 6 은 바이노럴 신호를 생성하기 위한, 본 발명의 다른 실시예에 따른 오디오 신호 처리 장치의 구성을 보여주는 도면이다.

즉, 도 4 및 도 5 를 참조하면서, 바이노럴 신호의 생성을 위한 일 실시예에 대해서 설명하고, 도 6 을 참조하면서, 바이노럴 신호의 생성을 위한 다른 실시예에 대해서 설명하고자 한다.

우선 도 4 를 참조하면, 오디오 신호 처리 장치(200)는 디멀티플렉서(210), 정보 생성 유닛(220), 다운믹스 프로세싱 유닛(230)을 포함한다. 여기서 디멀티플렉서(210)는 도 1 에서 설명된 디멀티플렉서(110)와 마찬가지로, 비트스트림으로부터 오브젝트 정보(OI)를 추출하고, 다운믹스(DMX)까지 추출할 수 있다. 여기서 다운믹스 신호는 모노 신호일 수도 있지만, 스테레오 신호일 수 있다. 정보 생성 유닛(220)은 오브젝트 정보(OI), 믹스 정보(MXI), HRTF 정보를 이용하여 바이노럴 파라미터를 포함하는 다운믹스 프로세싱 정보를 생성한다. 여기서 HRTF 정보는 HRTF DB 로부터 추출된 정보일 수 있다. 바이노럴 파라미터는 가상 3D 를 효과를 내기 위한 파라미터이다.

그리고 다운믹스 프로세싱 유닛(230)은 바이노럴 파라미터를 포함하는 다운믹스 프로세싱 정보(DPI)를 이용하여 바이노럴 신호를 출력한다. 다운믹스 프로세싱 유닛(230)의 구체적인 세부 구성은 도 5 를 참조하면서 설명하고자 한다.

도 5 를 참조하면, 다운믹스 프로세싱 유닛(230A)은 서브밴드 분석 유닛(232A), 바이노럴 프로세싱 유닛(234A), 서브밴드 합성 유닛(236A)를 포함한다. 서브밴드 분석 유닛(232A)은 다운믹스 신호를 분석하여 하나 또는 둘의 서브밴드 신호를 생성한다. 바이노럴 프로세싱 유닛(234A)는 바이노럴 파라미터를 포함하는 다운믹스 프로세싱 정보(DPI)를 이용하여 하나 또는 둘의 서브밴드 신호를 프로세싱한다. 서브밴드 합성 유닛(236A)는 하나 또는 둘의 서브밴드 신호를 합성하여 시간도메인의 바이노럴 출력 신호를 생성한다.

도 6 을 참조하면, 오디오 신호 처리 장치(300)는 디멀티플렉서(310), 정보 생성 유닛(320)를 포함하고, 멀티채널 디코더(330)를 더 포함할 수 있다. 디멀티플 렉서(310)는 비트스트림으로부터 오브젝트 정보(OI)를 추출하고, 다운믹스 신호(DMX)를 더 추출할 수 있다. 정보 생성 유닛(320)은 오브젝트 정보(OI), 믹스정보(MXI)를 이용하여, 멀티채널 정보(MI)를 생성한다. 여기서 멀티채널 정보(MI)는 다운믹스 신호(DMX)를 업믹싱하기위한 정보로서, 채널 레벨 정보(channel level information), 채널 상관 정보(channel correlation in-formation)와 같은 공간 파라미터를 포함한다. 또한 정보 생성 유닛(320)은 또한, HRTF DB 로부터 추출된 HRTF 파라미터를 이용하여 바이노럴 파라미터를 생성한다. 바이노럴 파라미터는 3D 효과를 주기 위한 파라미터로서, HRTF 파라미터 그 자체일 수도 있다. 또한 바이노럴 파라미터는 시변하는 값으로서 다이나믹(dynamic)한 특성을 가질 수 있다.

만약, 다운믹스 신호가 모노 신호인 경우, 멀티채널 정보(MI)는 게인정보(ADG)를 더 포함할 수 있다. 게인정보(ADG)는 다운믹스 게인을 조정하기 위한 파라미터로서, 특정 오브젝트에 대한 게인을 제어하기 위한 용도로 사용할 수 있다. 바이노럴 출력의 경우, 오브젝트에 대한 패닝뿐만 아니라 업 샘플링 또는 다운 샘플링이 필요하므로 게인정보(ADG)를 사용하는 것이 바람직하다. 만약 멀티채널 디코더(330)가 MPS surround 표준을 따르고 멀티채널 정보(MI)를 MPEG surround 신택스에 따라 구성해야하는 경우, 'bsArbi-traryDownmix=1'로 셋팅하여 게인정보(ADG)를 사용할 수 있다.

만약, 다운믹스 신호가 스테레오 채널 신호인 경우, 오디오 신호 장치(300)는 스테레오 다운믹스 신호의 좌/우 채널의 리패닝(re-panning)시키기 위한 다운믹스 프로세싱 유닛(미도시)을 더 포함할 수 있다. 하지만, 바이노럴 렌더링에 있어 서는, HRTF 파라미터의 선택에 의해 좌/우 채널의 크로스텀(cross-term)을 생성할 수 있기 때문에, 다운믹스 프로세싱 유닛(미도시)에서의 동작이 필수적이지는 않다. 다운믹스 신호가 스테레오이고, 멀티채널 정보(MI)는 MPS surround 규격을 따르는 경우, 5-2-5 컨피규레이션 모드로 셋팅되고, 왼쪽 프론트 채널(front left channel) 및 오른쪽 프론트 채널(light left channel)만을 바이패스하여 출력하는 형태인 것이 바람직하다. 또한 전송되는 바이노럴 파라미터는 나머지값들은 모두 0 인채 왼쪽 프론트 채널 및 오른쪽 프론트 채널로부터 왼쪽 출력 및 오른쪽 출력으로 가는 경로(총 4 개의 파라미터 셋)만이 유효한 갖도록 전송될 수 있다.

멀티채널 디코더(330)는 멀티채널 정보(MI) 및 바이노럴 파라미터를 이용하여, 다운믹스 신호로부터 바이노럴 출력을 생성한다. 구체적으로 멀티채널 정보에 포함된 공간 파라미터, 및 바이노럴 파라미터의 조합을 다운믹스 신호에 적용하여, 바이노럴 출력을 생성할 수 있다.

이와 같이, 바이노럴 출력을 생성하기 위한 실시예들을 살펴본 바, 제 1 실시예와 같이 다운믹스 프로세싱 유닛을 통해 직접 바이노럴 출력을 생성하는 경우, 멀티채널 디코더의 복잡한 스킴을 수행할 필요가 없으므로, 복잡도를 낮출 수가 있다. 제 2 실시예와 같이 멀티채널 디코더를 사용하는 경우, 멀티채널 디코더의 기능을 이용할 수 있는 특징이 있다.

3. 독립 오브젝트의 제어 (karaoke mode/ a capella mode)

이하에서는 모노 다운믹스를 수신하여 독립 오브젝트 또는 백그라운드 오브젝트를 제어하는 기술에 대해서 설명하고자 한다.

도 7 은 독립 오브젝트를 제어하기 위한, 본 발명의 일 실시예에 따른 오디오 신호 처리 장치의 구성도이고, 도 8 은 독립 오브젝트를 제어하기 위한, 본 발명의 다른 실시예에 따른 오디오 신호 처리 장치의 구성도이다.

우선 도 7 을 참조하면, 오디오 신호 인코딩 장치(400)의 멀티채널 디코더(410)가 다수 개의 채널 신호를 수신하여, 모노 다운믹스(DMXm) 및 멀티채널 비트스트림을 생성한다. 여기서 다수 개의 채널 신호는, 멀티채널 백그라운드 오브젝트(MBO)(Mullti-channel Background Objects)이다. 멀티채널 백그라운드 오브젝트(MBO)는 예를 들어, 배경 음악을 구성하는 다수 개의 악기 신호를 포함할 수 있지만, 몇 개의 소스 신호(예를 들어 악기 신호)가 포함되어 있는지도 알 수 없고, 소스 신호별로 컨트롤할 수도 없다. 여기서 백그라운드 오브젝트는 스테레오 채널로 다운믹스될 수도 있지만, 본 발명에서는 모노 신호로 다운믹스된 백그라운드 오브젝트에 관해서만 설명하고자 한다.

오브젝트 인코더(410)는 모노 백그라운드 오브젝트(DMXm) 및 하나 이상의 오브젝트 신호(Obj_N)를 다운믹스하여 모노 다운믹스(DMX)를 생성하고, 오브젝트 정보 비트스트림을 생성한다. 여기서, 하나 이상의 오브젝트 신호(또는 오브젝트 기반 신호)는 독립 오브젝트로서, 포어그라운드 오브젝트(FGO)(ForeGround Object)라고도 지칭한다. 예를 들어 백그라운드 오브젝트가 반주 음악이라면, 독립 오브젝트(FGO)는 리드 보컬 신호에 해당할 수 있다. 물론 독립 오브젝트가두 개인 경우, 가수 1 의 보컬 신호, 가수 2 의 보컬 신호에 각각 대응할 수 있다. 오브젝트 인코더(410)는 레지듀얼 정보를 더 생성할 수 있다.

오브젝트 인코더(410)는 모노 백그라운드 오브젝트(DMXm) 및 오브젝트 신호(obj_N)(즉 독립 오브젝트)를 다운믹스하는 과정에서, 레지듀얼을 생성할 수 있다. 이 레지듀얼은 디코더에서 다운믹스 신호로부터 독립 오브젝트(또는 백그라운드 오브젝트)를 추출하는데 이용될 수 있다.

오디오 신호 디코딩 장치(500)의 오브젝트 트랜스코더(510)는, 믹스 정보(MXI)에 포함된 모드 선택 정보(MSI)에 따라서, 인핸스드 오브젝트 정보(예: 레지듀얼)을 이용하여 다운믹스(DMX)로부터 하나 이상의 독립 오브젝트 또는 백그라운드 오브젝트를 추출한다. 모드 선택 정보(MSI)는, 백그라운드 오브젝트 및 하나 이상의 독립 오브젝트를 제어하기 위한 모드가 선택되었는지 여부에 대한 정보를 포함한다. 나아가, 모드 선택 정보(MSI)는, 일반 모드, 백그라운드 오브젝트를 제어하기 위한 모드, 하나 이상의 독립 오브젝트를 제어하기 위한 모드를 포함하는 모드들 중 어느 모드에 해당하는지에 대한 정보를 포함할 수 있다. 예를 들어, 백그라운드 오브젝트를 제어하기 위한 모드는, 백그라운드 오브젝트가 배경 음악인 경우, 아카펠라 모도(또는 솔로 모드)에 해당할 수 있다. 예를 들어, 하나 이상의 독립 오브젝트를 제어하기 위한 모드는, 독립 오브젝트가 보컬인 경우, 노래방(karaoke) 모드에 해당할 수 있다. 다시 말해서 모드 선택 정보는, 일반 모드, 아카펠라 모드, 가라오케 모드 중 하나를 선택하는지에 대한 정보일 수 있고, 나아가 아카펠라 모드 또는 가라오케 모드인 경우, 게인 조정에 대한 정보를 더 포함할 수도 있다. 정리하자면, 모드 선택 정보(MSI)가 아카펠라 모드 또는 가라오케 모드일 경우, 다운믹스(DMX)로부터 하나 이상의 독립 오브젝트 또는 백그라운드 오브젝트 를 추출하고, 만약 일반 모드일 경우, 다운믹스 신호를 바이패싱할 수 있다.

독립 오브젝트가 추출된 경우, 오브젝트 트랜스코더(510)는 오브젝트 정보(OI) 및 믹스 정보(MXI) 등을 이용하여, 하나 이상의 독립 오브젝트 및 백그라운드 오브젝트를 믹싱하여 믹싱된 모노 다운믹스를 생성한다. 여기서 오브젝트 정보(OI)는 오브젝트정보 비트스트림으로부터 추출된 정보로서 앞서 설명된 정보와 동일한 것일 수 있다. 여기서 믹스 정보(MXI)는 오브젝트 게인 및/또는 패닝을 조정하기 위한 정보일 수 있다.

한편 오브젝트 트랜스코더(510)는 멀티채널 비트스트림 및/또는 오브젝트정보 비트스트림을 이용하여 멀티채널 정보(MI)를 생성한다. 멀티채널 정보(MI)는 백그라운드 오브젝트 또는 하나 이상의 독립 오브젝트를 제어하기 위한 것일 수 있는데, 이때, 백그라운드 오브젝트를 컨트롤 하기 위한 제 1 멀티채널 정부 및 하나 이상의 독립 오브젝트를 컨트롤하기 위한 제 2 멀티채널 정보 중 하나 이상을 포함할 수 있다.

멀티채널 디코더(520)는 멀티채널 정보(MI)를 이용하여 믹싱된 모노 다운믹스 또는 바이패싱된 모노다운믹스로부터 출력 신호를 생성한다.

도 8 은 독립 오브젝트 생성을 위한 다른 실시예이다. 도 8 을 참조하면, 모노 다운믹스(DMX)를 수신하고, 오디오 신호 처리 장치(600)는 다운믹스 프로세싱 유닛(610), 멀티채널 디코더(620), OTN 모듈(630), 및 렌더링 유닛(640)을 포함한다.

오디오 신호 처리 장치(600)는 모드 선택 정보(MSI)에 따라서, 다운믹스 신 호를 OTN 모듈(630)로 입력할지 여부를 결정한다. 여기서 모드 선택 정보는 앞서 도 7 과 함께 설명된 모드 선택 정보와 동일한 것일 수 있다. 만약, 모드 선택 정보에 따라, 현재 모드가 백그라운드 오브젝트(MBO) 또는 하나 이상의 독립 오브젝트(FGO)를 제어하기 위한 모드인 경우, 다운믹스 신호를 OTN 모듈(630)에 입력되도록 한다. 반대로, 모드 선택 정보에 따라, 현재 모드가 일반 모드인 경우, 다운믹스 신호를 바이패싱하여, 출력모드에 따라서 다운믹스 프로세싱 유닛(610) 또는 멀티채널 디코더(620)로 입력되도록 한다. 여기서의 출력모드는 앞서 도 1 에서 설명된 출력 모드 정보(OM)와 동일한 것으로서, 출력 스피커 개수일 수 있다. 만약, 모노/스테레오/바이노럴 출력 모드인 경우, 다운믹스 프로세싱 유닛(610)에 의해 다운믹스가 프로세싱되는데, 이때 다운믹스 프로세싱 유닛(610)은 도 1 내지 도 3 과 함께 설명된 다운믹스 프로세싱 유닛(130, 130A, 130B)와 동일한 기능을 하는 구성요소일 수 있다. 한편, 출력모드가 멀티 채널 모드인 경우, 멀티채널 디코더(620)은 모노 다운믹스(DMX)로부터 멀티채널 출력을 생성한다. 마찬가지로, 이때 멀티채널 디코더는 앞서 도 1 과 설명된 멀티채널 디코더(140)와 동일한 기능을 하는 구성요소일 수 있다.

한편, 모드 선택 정보(MSI)에 따라서 모노 다운믹스 신호가 OTN 모듈(630)로 입력된 경우, OTN 모듈(630)은 다운믹스 신호로부터 모노 백그라운드 오브젝트(MBO) 및 하나 이상의 독립 오브젝트 신호(FGO)를 추출한다. OTN 은 one-to-n 의 약자이다. 만약, 독립 오브젝트 신호가 1 개인 경우, OTT(One-To-Two) 구조가 될 것이고, 독립 오브젝트 신호가 2 개인 경우, OTT(One-To-Three) 구조가, 독립 오브 젝트의 신호가 N-1 인 경우, OTN 구조가 될 것이다.

한편, OTN 모듈(630)은 오브젝트 정보(OI) 및 인핸스드 오브젝트 정보(EOI)를 이용할 수 있다. 여기서 인핸스드 오브젝트 정보(EOI)는 백그라운드 오브젝트 및 독립 오브젝트를 다운믹스하는 과정에서 생성된 레지듀얼 신호일 수 있다.

한편, 렌더링 유닛(640)은 믹스 정보(MXI)를 이용하여, 백그라운드 오브젝트(MBO) 및 독립 오브젝트(FGO)를 렌더링함으로써 출력 채널 신호를 생성한다. 여기서 믹스 정보(MXI)는 백그라운드 오브젝트를 제어하기 위한 정보 또는/및 독립 오브젝트를 제어하기 위한 정보를 포함한다. 한편, 오브젝트 정보(OI) 및 믹스 정보(MXI)를 근거로한 멀티채널 정보(MI)가 생성될 수 있는데, 이 경우 상기 출력 채널 신호는 멀티채널 디코더(미도시)에 입력되어 상기 멀티채널 정보를 근거로 업믹싱될 수도 있다.

도 9 는 인핸스드 오브젝트 처리를 위한, 본 발명의 제 1 실시예에 따른 오디오 신호 처리 장치의 구성을 보여주는 도면이고, 도 10 은 인핸스드 오브젝트 처리를 위한, 본 발명의 제 2 실시예에 따른 오디오 신호 처리 장치의 구성을 보여주는 도면이고, 도 11 및 도 12 는 인핸스드 오브젝트 처리를 위한, 본 발명의 제 3 실시예에 따른 오디오 신호 처리 장치의 구성을 보여주는 도면이다.

제 1 실시예는, 모노 다운믹스 및 모노 오브젝트에 대한 것이고, 제 2 실시예는, 모노 다운믹스 및 스테레오 오브젝트에 대한 것이고, 제 3 실시예는, 제 1 실시예의 경우 및 제 2 실시예의 경우를 모두 커버하는 실시예이다.

우선 도 9 를 참조하면, 오디오 신호 인코딩 장치(700A)의 인핸스드 오브젝 트정보 인코더(710)는 모노 신호인 믹스된 오디오 신호, 및 오브젝트 신호(obj_x₁)로부터 인핸스드 오브젝트 정보(EOP_x₁)를 생성한다. 이때, 두 개의 신호를 이용하여 하나의 신호를 생성하므로, 인핸스드 오브젝트정보 인코더(710)는 OTT(One-To-Two) 인코딩 모듈로 구현될 수 있다. 여기서 인핸스드 오브젝트 정보(EOP_x₁)는 레지듀얼 신호일 수 있다. 또한, 인핸스드 오브젝트정보 인코더(710)는 OTT 모듈에 대응하는 오브젝트 정보(OP_x₁)를 생성한다.

오디오 신호 디코딩 장치(800A)의 인핸스드 오브젝트정보 디코더(810)는 인핸스드 오브젝트 정보(EOP_x₁) 및 믹스된 오디오 신호를 이용하여 부가적인 리믹스 데이터에 대응하는 출력 신호(obj_x₁')를 생성한다.

도 10 을 참조하면, 오디오 신호 인코딩 장치(700B)는 제 1 인핸스드 오브젝트 정보 인코더(710B) 및 제 2 인핸스드 오브젝트 정보 인코더(720B)를 포함하고, 오디오 신호 디코딩 장치(800B)는 제 1 인핸스드 오브젝트 정보 디코더(810B) 및 제 2 인핸스드 오브젝트 정보 디코더(820B)를 포함한다.

제 1 인핸스드 오브젝트 정보 인코더(710B)는 두 개의 오브젝트 신호(obj_x₁, obj_x₂)를 결합하여 결합 오브젝트 및 제 1 인핸스드 오브젝트 정보(EOP_L1)을 생성한다. 두 개의 오브젝트 신호는 스테레오 오브젝트 신호, 즉, 오브젝트의 왼쪽 채널 신호 및 오브젝트의 오른쪽 채널 신호일 수 있다. 결합 오브젝트를 생성하는 과정에서, 제 1 오브젝트 정보(OP_L1)가 생성된다. 제 2 인핸스드 오 브젝트 정보 인코더(720B)은, 모노 신호인 믹스된 오디오 신호 및 결합 오브젝트를 이용하여 제 2 인핸스드 오브젝트 정보(EOP_L0) 및 제 2 오브젝트 정보(OP_L0)를 생성한다. 이와 같이 두 단계의 과정을 통해서 최종적인 신호를 생성하는 데, 제 1 인핸스드 오브젝트 정보 인코더(710B) 및 제 2 인핸스드 오브젝트 정보 인코더(720B)는 두 개의 신호로부터 하나의 신호를 생성하기 때문에 각각 OTT(One-To-Two) 모듈로서 구현될 수 있다.

오디오 신호 디코딩 장치(800B)는 오디오 신호 인코딩 장치(700B)에서 수행된 과정이 반대로 수행된다. 즉, 제 2 인핸스드 오브젝트 정보 디코더(810B)는 제 2 인핸스드 오브젝트 정보(EOP_L0) 및 믹스된 오디오 신호를 이용하여 결합 오브젝트를 생성한다. 이때 오디오 신호가 더 추출될 수 있다. 그리고 제 1 인핸스드 오브젝트 정보 디코더(820B)는 제 1 인핸스드 오브젝트 정보(EOP_L1)을 이용하여 결합 오브젝트로부터 부가적인 리믹스 데이터인 두 개의 오브젝트(obj_x₁', obj_x₂')를 생성한다.

도 11 및 도 12 는 제 1 실시예 및 제 2 실시예가 결합된 형태이다. 도 11 을 참조하면, 멀티채널 인코더(705C)의 5-1-5 트리구조, 또는 5-2-5 트리구조 동작 여부에 따라서 인핸스드 오브젝트가 모노 또는 스테레오로 달라지는 경우, 다운믹스 신호가 모노 신호/ 스테레오 신호 달라지는 경우가 모두 표현된 것이다.

도 11 및 도 12 에 도시된 바와 같이 인핸스드 오브젝트가 모노 신호인 경우, 제 1 인핸스드 오브젝트 정보 인코더(710C) 및 제 1 인핸스드 정보 디코더(820C)가 동작하지 않는다. 각 구성요소의 기능은 도 10 과 함께 설명된 동일 명칭 의 구성요소와 동일하다.

한편, 다운믹스 신호가 모노인 경우, 제 2 인핸스드 오브젝트 정보 인코더(720C) 및 제 2 인핸스드 오브젝트 정보 디코더(810C)가 각각 OTT 인코더/디코더로 동작하는 것이 바람직하고, 다운믹스 신호가 스테레오인 경우, 각각 TTT 인코더/디코더로 동작할 수 있다.

본 발명에 따른 오디오 신호 처리 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 본 발명에 따른 데이터 구조를 가지는 멀티미디어 데이터도 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있다. 상기 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 상기 인코딩 방법에 의해 생성된 비트스트림은 컴퓨터가 읽을 수 있는 기록 매체에 저장되거나, 유/무선 통신망을 이용해 전송될 수 있다.

이상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능함은 물론이다.

본 발명은 오디오 신호를 인코딩하고 디코딩하는 데 적용될 수 있다.

Claims

하나 이상의 오브젝트 신호를 포함하는 다운믹스 신호를 수신하는 단계;

상기 다운믹스 신호를 생성하는 과정에서 추출된 오브젝트 정보를 수신하는 단계;

상기 오브젝트 신호를 컨트롤 하기 위한 믹스 정보를 수신하는 단계;

출력 채널의 채널 개수를 나타내는 출력 모드가 모노 출력 모드 및 스테레오 출력 모드 중 하나인 경우, 상기 오브젝트 정보 및 상기 믹스 정보를 이용하여, 다운믹스 프로세싱 정보를 생성하는 단계;

상기 출력 모드가 멀티채널 모드인 경우, 상기 오브젝트 정보 및 상기 믹스 정보를 이용하여 멀티채널 정보를 생성하는 단계;

상기 다운믹스 프로세싱 정보가 생성된 경우, 상기 다운믹스 프로세싱 정보를 상기 다운믹스 신호에 적용하여 스테레오 출력 신호를 생성하는 단계; 상기 단계는,

상기 다운믹스 신호를 분석함으로써 서브밴드 신호를 생성하는 단계;

디코릴레이팅된 다운믹스 신호를 생성하기 위해 상기 다운믹스 신호를 디코릴레이팅하는 단계;

상기 다운믹스 프로세싱 정보를 이용하여 상기 다운믹스 신호 및 상기 디코릴레이팅된 신호를 프로세싱함으로써, 두 개의 서브밴드 신호들을 생성하는 단계; 및,

상기 두 개의 서브밴드 신호들을 합성함으로써, 상기 스테레오 출력 신호를 생성하는 단계를 포함하고,

상기 멀티채널 정보가 생성된 경우, 상기 멀티채널 정보를 상기 다운믹스 신호에 적용하여 멀티채널 출력 신호를 생성하는 단계를 포함하고,

상기 다운믹스 신호는 모노 신호에 해당하고, 상기 멀티채널 정보는, 상기 다운믹스 신호를 상기 멀티채널 출력 신호로 업믹싱하기 위해 사용되는 정보에 해당하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 1 항에 있어서,

상기 다운믹스 신호, 상기 스테레오 출력 신호, 상기 멀티채널 출력 신호는, 시간 도메인의 신호에 해당하는 것을 특징으로 하는 오디오 신호 처리 방법.
삭제
삭제
제 1 항에 있어서,

상기 다운믹스 프로세싱 정보는, 바이노럴 파라미터를 포함하고,

상기 출력 신호는, 바이노럴 신호에 해당하는 것을 특징으로 하는 오디오 신호 처리 방법.
삭제
제 1 항에 있어서,

상기 출력 모드는, 스피커 채널 개수에 따라 결정된 것으로서, 상기 스피커 채널 개수는, 장치 정보 및 상기 믹스 정보 중 하나를 근거로 하는 것을 특징으로 하는 오디오 신호 처리 방법.
하나 이상의 오브젝트 신호를 포함하는 다운믹스 신호, 및 상기 다운믹스 신호를 생성하는 과정에서 추출된 오브젝트 정보를 수신하는 디멀티플렉서;

상기 오브젝트 신호를 컨트롤 하기 위한 믹스 정보를 수신하고,

출력 채널의 채널 개수를 나타내는 출력 모드가 모노 출력 모드 및 스테레오 출력 모드 중 하나인 경우, 상기 오브젝트 정보 및 상기 믹스 정보를 이용하여, 다운믹스 프로세싱 정보를 생성하고, 상기 출력 모드가 멀티채널 모드인 경우, 상기 오브젝트 정보 및 상기 믹스 정보를 이용하여 멀티채널 정보를 생성하고, 상기 멀티채널 정보가 생성된 경우, 상기 멀티채널 정보를 상기 다운믹스 신호에 적용하여 멀티채널 출력 신호를 생성하는 정보 생성 유닛; 및,

상기 다운믹스 프로세싱 정보가 생성된 경우, 상기 다운믹스 프로세싱 정보를 상기 다운믹스 신호에 적용하여 스테레오 출력 신호를 생성하는 다운믹스 프로세싱 유닛, 상기 다운믹스 프로세싱 유닛은,

상기 다운믹스 신호를 분석함으로써, 서브밴드 신호를 생성하는 서브밴드 분석부;

상기 다운믹스 프로세싱 정보를 이용하여 상기 다운믹스 신호 및 디코릴레이팅된 신호를 프로세싱함으로써, 상기 두 개의 서브밴드 신호들을 생성하는 M2S 프로세싱 유닛; 상기 M2S 프로세싱 유닛은,

상기 디코릴레이팅된 다운믹스 신호를 생성하기 위해 상기 다운믹스 신호를 디코릴레이팅하는 디코릴레이터을 포함하고, 및,

상기 두 개의 서브밴드 신호를 합성함으로써, 상기 스테레오 출력 신호를 생성하는 서브밴드 생성 유닛들을 포함하고,

상기 멀티채널 정보를 상기 다운믹스 신호에 적용함으로써, 멀티채널 출력신호를 생성하는 멀티채널 디코더를 포함하고,

상기 다운믹스 신호는 모노 신호에 해당하고, 상기 멀티채널 정보는, 상기 다운믹스 신호를 멀티채널 신호로 업믹싱하기 위해 사용되는 정보에 해당하는 것을 특징으로 하는 오디오 신호 처리 장치.
제 8 항에 있어서,

상기 다운믹스 신호, 상기 스테레오 출력 신호, 상기 멀티채널 출력 신호는, 시간 도메인의 신호에 해당하는 것을 특징으로 하는 오디오 신호 처리 장치.
제 8 항에 있어서,

상기 서브밴드 합성 유닛들은,

상기 스테레오 출력 신호의 제1 채널을 생성하기 위해 상기 제1 서브밴드 신호를 합성하는 제1 서브밴드 합성 유닛, 및,

상기 스테레오 출력 신호의 제2 채널을 생성하기 위해, 상기 제2 서브밴드 신호를 합성하는 제2 서브밴드 합성 유닛을 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.
삭제
제 8 항에 있어서,

상기 다운믹스 프로세싱 정보는, 바이노럴 파라미터를 포함하고,

상기 출력 신호는, 바이노럴 신호에 해당하는 것을 특징으로 하는 오디오 신호 처리 장치.
삭제
제 8 항에 있어서,

상기 출력 모드는, 스피커 채널 개수에 따라 결정된 것으로서, 상기 스피커 채널 개수는, 장치 정보 및 상기 믹스 정보 중 하나를 근거로 하는 것을 특징으로 하는 오디오 신호 처리 장치.
하나 이상의 오브젝트 신호를 포함하는 다운믹스 신호를 수신하는 단계;

상기 다운믹스 신호를 생성하는 과정에서 추출된 오브젝트 정보를 수신하는 단계;

상기 오브젝트 신호를 컨트롤 하기 위한 믹스 정보를 수신하는 단계;

출력 채널의 채널 개수를 나타내는 출력 모드가 모노 출력 모드 및 스테레오 출력 모드 중 하나인 경우, 상기 오브젝트 정보 및 상기 믹스 정보를 이용하여, 다운믹스 프로세싱 정보를 생성하는 단계;

상기 출력 모드가 멀티채널 모드인 경우, 상기 오브젝트 정보 및 상기 믹스 정보를 이용하여 멀티채널 정보를 생성하는 단계;

상기 다운믹스 프로세싱 정보가 생성된 경우, 상기 다운믹스 프로세싱 정보를 상기 다운믹스 신호에 적용하여 스테레오 출력 신호를 생성하는 단계; 상기 단계는,

상기 다운믹스 신호를 분석함으로써 서브밴드 신호를 생성하는 단계;

디코릴레이팅된 다운믹스 신호를 생성하기 위해 상기 다운믹스 신호를 디코릴레이팅하는 단계;

상기 다운믹스 프로세싱 정보를 이용하여 상기 다운믹스 신호 및 상기 디코릴레이팅된 신호를 프로세싱함으로써, 두 개의 서브밴드 신호들을 생성하는 단계; 및,

상기 두 개의 서브밴드 신호들을 합성함으로써, 상기 스테레오 출력 신호를 생성하는 단계를 포함하고,

상기 멀티채널 정보가 생성된 경우, 상기 멀티채널 정보를 상기 다운믹스 신호에 적용하여 멀티채널 출력 신호를 생성하는 단계를 포함하고,

상기 다운믹스 신호는 모노 신호에 해당하고, 상기 멀티채널 정보는, 상기 다운믹스 신호를 상기 멀티채널 출력 신호로 업믹싱하기 위해 사용되는 정보에 해당하는 오디오 신호 처리 방법을 실행하기 위한 프로그램이 저장된 컴퓨터로 읽을 수 있는 기록 매체.