KR20070014936A

KR20070014936A - 오디오 신호의 인코딩/디코딩 방법 및 장치

Info

Publication number: KR20070014936A
Application number: KR1020060017659A
Authority: KR
Inventors: 오현오; 임재현; 방희석; 김동수
Original assignee: 엘지전자 주식회사
Priority date: 2005-07-29
Filing date: 2006-02-23
Publication date: 2007-02-01
Also published as: KR20070014937A

Abstract

본 발명은 효율적인 오디오 신호의 처리를 위한 오디오 신호의 인코딩/디코딩 방법 및 장치에 관한 것이다.

본 발명은 오디오 신호가 계층적으로 분할되어 복수 개의 분할된 오디오 신호로 구성된 오디오 비트스트림을 수신하는 단계; 상기 오디오 비트스트림에서 각 계층의 오디오 신호에 대한 분할 여부를 표시하는 분할 정보를 추출하는 단계; 및 상기 분할 정보를 이용하여 오디오 신호를 디코딩하는 단계를 포함하여 이루어지는 것을 특징으로 하는 오디오 신호의 디코딩 방법을 제공한다.

따라서, 본 발명에 의하면, 특정 길이를 가지는 장 블록(long block)으로부터 서로 다른 복수 개의 길이를 가지는 단 블록(short block)으로 세분화할 때, 계층적인 구조를 갖는 분할(splitting) 과정에 대한 정보를 최소의 비트를 사용하여 인코딩하는 것이 가능하다.

분할, 분할 정보, 채널 분할 정보

Description

오디오 신호의 인코딩/디코딩 방법 및 장치{Method and Apparatus for encoding/decoding audio signal}

도 1은 본 발명에 따른 신호의 인코딩 장치와 디코딩 장치의 일 실시예를 나타낸 블록도

도 2는 본 발명에 따른 오디오 신호 분할을 수행하는 방법을 설명하기 위한 제1 실시예를 나타낸 도면

도 3a는 본 발명에 따른 오디오 신호 분할을 수행하는 방법을 설명하기 위한 제2 실시예를 나타낸 도면

도 3b는 본 발명에 따른 오디오 신호 분할을 수행하는 방법을 설명하기 위한 제3 실시예를 나타낸 도면

도 4는 본 발명에 따른 신호의 인코딩 장치와 디코딩 장치의 다른 실시예를 나타낸 블록도

도 5a는 본 발명에 따른 입력채널을 업믹스하여 출력채널을 생성하는 방법에 대한 트리 구조를 나타내는 제1 실시예

도 5b는 본 발명에 따른 입력채널을 업믹스하여 출력채널을 생성하는 방법에 대한 트리 구조를 나타내는 제2 실시예

*도면의 주요부분에 대한 부호의 설명

110 : 인코딩 장치 111 : 버퍼

112 : 분석부 113 : 인코더

114 : 다중화부 120 : 디코딩 장치

121 : 역다중화부 122 : 디코더

400 : 인코딩 장치 410 : 공간 인코더

411 : 다운믹스부 412 : 공간 파라미터 추출부

420 : 오디오 인코더 430 : 오디오 디코더

440 : 공간 디코더 441 : 합성부

450 : 디코딩 장치

본 발명은 오디오 신호의 인코딩/디코딩 방법 및 장치에 관한 것으로, 보다 상세하게는 오디오 신호를 처리함에 있어서, 전송해야할 오디오 신호를 분할하고, 상기 분할된 오디오 신호에 대한 분할 정보를 효과적으로 표현하기 위한 방법에 관한 것이다.

디지털 비디오, 디지털 오디오에 대한 표준은 각각의 신호에 대한 압축 및 복원에 대한 규격이다. 또한, 디지털 시스템에 대한 표준은 압축된 비디오와 오디오 각각을 일정한 크기의 패킷으로 분할한 후 타이밍 정보, 스트림 관련 정보 등을 추가하여 다중화하여 전송하고, 그 반대로 역 다중화 과정을 통해 타이밍 정보, 스 트림 관련 정보 등을 얻어내고, 또한 압축된 비디오와 오디오를 각각 분리해 내는데 필요한 규격이다.

최근에 디지털 오디오 신호에 대한 다양한 코딩기술 및 방법들이 개발되고 있으며, 이와 관련된 제품들이 생산되고 있다. 또한 심리음향 모델(psychoacoustic model)을 이용하여 멀티채널 오디오 신호의 코딩 방법들이 개발되고 있으며, 이에 대한 표준화 작업이 진행되고 있다.

상기 심리음향 모델은 인간이 소리를 인식하는 방식, 예를 들면 큰 소리 다음에 오는 작은 소리는 들리지 않으며, 20Hz 내지 20000Hz의 주파수에 해당되는 소리만 들을 수 있다는 사실을 이용하여, 코딩 과정에서 불필요한 부분에 대한 신호를 제거함으로써 필요한 데이터의 양을 효과적으로 줄일 수 있는 것이다.

그리고, 현재 MPEG-1 오디오, MPEG-4 AAC(advanced audio coding) 및 MPEG-4 HE-AAC(high-efficiency AAC)와 같은 오디오 표준 기술이 개발되어 상용화되고 있다.

그러나, 오디오 신호와 같은 연속적인 데이터에 대해 인코딩하고 디코딩하여 처리하는 방법이 구체적으로 제시된바 없어, 오디오 신호를 효율적으로 처리하는데 많은 문제점이 있었다.

본 발명은 상기와 같은 문제점을 해결하기 위한 것으로서, 신호의 압축 및 전송효율을 향상시킬 수 있는 인코딩 및 디코딩 방법과 장치를 제공하는데 그 목적이 있다.

상기 목적을 달성하기 위하여, 본 발명은 오디오 신호를 계층적으로 분할하는 단계; 및 각 계층의 오디오 신호에 대한 분할 여부를 표시하는 분할 정보를 생성하는 단계를 포함하여 이루어지는 것을 특징으로 하는 오디오 신호의 인코딩 방법을 제공한다.

또한, 본 발명은 오디오 신호가 계층적으로 분할되어 복수 개의 분할된 오디오 신호로 구성된 오디오 비트스트림을 수신하는 단계; 상기 오디오 비트스트림에서 각 계층의 오디오 신호에 대한 분할 여부를 표시하는 분할 정보를 추출하는 단계; 및 상기 분할 정보를 이용하여 오디오 신호를 디코딩하는 단계를 포함하여 이루어지는 것을 특징으로 하는 오디오 신호의 디코딩 방법을 제공한다.

또한, 본 발명은 오디오 신호를 계층적으로 분할하여 복수 개의 분할된 오디오 신호를 생성하고, 각 계층의 오디오 신호에 대한 분할 여부를 표시하는 분할 정보를 포함하여 이루어지되, 제M 계층에서 분할을 하는 경우에만 제M+1 계층에서 분할 정보를 포함하는 것을 특징으로 하는 오디오 신호를 제공한다.

또한, 본 발명은 오디오 신호를 계층적으로 분할하여 복수 개의 분할된 오디오 신호를 생성하는 제1 생성부; 및 각 계층의 오디오 신호에 대한 분할 여부를 표시하는 분할 정보를 생성하는 제2 생성부를 포함하여 구성되는 것을 특징으로 하는 오디오 신호의 인코딩 장치를 제공한다.

또한, 본 발명은 오디오 신호가 계층적으로 분할되어 복수 개의 분할된 오디오 신호로 구성된 오디오 비트스트림를 수신하는 수신부; 상기 오디오 비트스트림 에서 각 계층의 오디오 신호에 대한 분할 여부를 표시하는 분할 정보를 추출하는 추출부; 및 상기 분할 정보를 이용하여 오디오 신호를 디코딩하는 디코더를 포함하여 구성되는 것을 특징으로 하는 오디오 신호의 디코딩 장치를 제공한다.

이하 상기의 목적으로 구체적으로 실현할 수 있는 본 발명의 바람직한 실시예를 첨부한 도면을 참조하여 설명한다.

본 발명에서 동일한 구성 요소는 설명의 편의상 동일 명칭 및 동일 부호를 부여하며 이에 대한 상세한 설명은 생략한다.

아울러, 본 발명에서 사용되는 용어는 가능한 한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우는 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재하였으므로, 단순한 용어의 명칭이 아닌 용어가 가지는 의미로서 본 발명을 파악하여야 함을 밝혀두고자 한다.

오디오 신호처럼 시간 축에서 연속적인 데이터에 대해 신호의 압축과 같은 처리를 하기 위해서는 블록 프로세싱(block processing)을 수행한다. 상기 블록 프로세싱(block processing)은 입력된 신호를 일정구간 또는 일정간격으로 나누어 처리하는 것을 의미한다. 상기 블록 프로세싱은 입력 신호에 대한 주파수 변환 등을 할 때 일정 크기의 윈도우를 사용하기 때문이며, 주파수 변환 등이 사용되지 않는 경우에도 특정 파라미터를 얻는데 사용하는 입력 신호의 범위 등이 필요하기 때문이다. 이때 사용되는 구간을 블록이라 정의하며, 한 개 혹은 복수 개의 블록이 모여 데이터의 전송 및 저장을 위해 사용되는 단위인 프레임(frame)을 구성할 수 있다.

관련하여, 입력된 신호를 인코딩 장치에서 분석하여 상기 입력된 신호의 블록을 가변시키면서 신호를 처리하는 방법이 있다. 본 발명에서 "블록 분할(block splitting)"이란, 입력된 신호의 블록을 가변시키면서 신호를 처리하는 방법에서 서로 다른 크기의 블록으로 변화하는 과정을 의미한다.

예를 들어, 오디오 신호가 일정한 통계적 특정을 유지하는 스테셔네리(stationary) 구간에서는 상기 오디오 신호가 장 블록 크기를 갖는 것이 압축 관점에서 유리하다. 그러나, 오디오 신호 특성이 급격히 변화하는 트렌지언트(transient) 구간에서는 상기 오디오 신호가 작은 블록 크기를 갖는 것이 압축 관점에서 유리하다. 이는 상기 트렌지언트(transient) 구간에서는 오디오 신호가 작은 블록 크기를 가져야 프리-에코(pre-echo)에 따른 음질저하 문제를 막을 수 있기 때문이다.

관련하여, 본 발명에서 "블록 크기 정보(block size information)"란 입력된 신호의 블록 크기를 가변시키면서 신호를 처리하는 경우에 블록의 크기를 나타내는 정보이다. 또한, 본 발명에서 "분할 정보(splitting information)"는 오디오 신호에 대한 분할 여부를 표시하는 정보를 의미한다. 그리고, 상기 분할 정보는 특정 길이를 가지는 신호를 분할하여 바로 하위 계층에서 동일한 길이를 가지는 두 개의 신호로 분할(split)하는지 여부를 나타내는 정보를 의미할 수 있다. 본 발명에서 상기 블록 크기 정보와 상기 분할 정보(splitting information)는 동일한 의미로 사용될 수 있음을 밝혀둔다.

예를 들어, 상기 분할 정보는 특정 신호가 블록인 경우, 상기 블록의 분할 여부를 나타내는 정보를 "블록 분할 정보(block splitting information)"라 명명하며, 또한, 상기 분할 정보는 특정 신호가 밴드인 경우, 상기 밴드의 분할 여부를 나타내는 정보를 "밴드 분할 정보(band splitting information)"라 명명하며, 그리고, 상기 분할 정보는 특정 신호가 채널인 경우, 상기 채널의 분할 여부 또는 채널 분할부의 동작 여부를 나타내는 정보를 "채널 분할 정보(channel splitting information)"라 명명하여 설명하도록 한다. 상기 채널 분할 정보는 채널 분할부가 동작하여 입력채널을 업믹스하는 경우에는 '1'로 나타내고, 채널 분할부가 동작을 하지않아 입력채널을 업믹스 하지않고 입력채널이 그대로 출력채널이 되는 경우에는 '0'로 나타낼 수 있다. 다만, 본 발명에서 분할 정보를 경우에 따라서 블록 분할 정보, 밴드 분할 정보, 채널 분할 정보 중 하나를 기준으로 설명하나, 본 발명이 상기 분할 정보의 명칭에 따라 한정되지 않음을 밝혀둔다.

관련하여, 본 발명에서 "공간 정보"란 인코딩 장치에서 멀티채널을 다운믹스(down-mix)하고 송신한 신호를 디코딩 장치에서 수신하여 업믹스(up-mix)를 수행하여 멀티채널을 생성하기 위해 필요한 정보를 의미한다. 상기 공간 정보로 공간 파라미터를 기준으로 설명하나, 본 발명이 이에 한정되지 않음은 자명한 사실임을 밝 혀둔다.

또한, 상기 공간 파라미터는 두 채널간의 에너지 차이를 의미하는CLD(channel level difference), 두 채널간의 상관관계(correlation)를 의미하는 ICC(inter channel coherences) 및 두 채널로부터 세 채널을 생성할 때 이용되는 예측 계수인 CPC(channel prediction coefficients) 등이 있다.

관련하여, 본 발명에서 "채널 분할(channel splitting)부"는 특정 개수의 입력채널을 입력채널 개수와 다른 특정 출력채널 개수로 분할하는 분할부를 의미하고, 상기 채널 분할부 중 하나는 제1 채널 분할부로 명명하고, 또 다른 채널 분할부는 제2 채널 분할부로 명명하여 사용 가능하다.

예를 들어, 제1 채널 분할부는 입력채널이 2개인 경우 출력채널을 3개로 변환하는 TTT(two to three:TTT, 이하 'TTT'라 한다.)부 또는 TTT 박스를 기준으로, 제2 채널 분할부는 입력채널이 1개인 경우 출력채널을 2개로 변환하는 OTT(one to two:OTT, 이하 'OTT'라 한다.)부 또는 OTT 박스를 기준으로 설명하는 것이 가능하다. 다만, 본 발명은 TTT부와 OTT부에 한정되지 않으며, 상기 제1 채널 분할부와 제2 채널 분할부는 입력채널과 출력채널이 임의의 개수를 가지는 경우에 모두 적용 가능함은 자명한 사실임을 밝혀둔다.

도 1은 본 발명에 따른 신호의 인코딩 장치와 디코딩 장치의 일 실시예를 나타낸 블록도이다. 특히, 본 발명에 따른 인코딩 장치와 디코딩 장치는 타임 도메인(time domiam)에서와 주파수 도메인(frequency domain)에서 모두 적용가능하다.

도 1을 참조하면, 블록 분할이 적용된 오디오 신호처리의 과정에 대한 인코 딩 장치(110)와 디코딩 장치(120)를 나타내고 있다. 다만, 본 발명에서 오디오 신호에 대해서 살펴보나, 본 발명은 오디오 신호 외에 모든 신호의 처리를 함에 있어서도 적용가능함을 밝혀둔다.

먼저, 인코딩 장치(110)는 버퍼(buffer:111), 분석부(analysis:112), 인코더(encoder:113), 다중화부(multiplexer:114)를 포함하여 구성된다.

버퍼(111)는 입력신호를 일정 크기만큼 저장하는 공간이다. 상기 버퍼(111)는 입력신호가 일정 크기가 되면 분석부(112)와 인코더(113)로 저장된 일정 크기의 입력신호를 출력하는 기능을 수행한다.

분석부(112)는 버퍼(111)에 저장되어 출력된 신호를 수신하고, 상기 수신된 신호를 분석하여 각 신호에 대해 사용할 블록 크기(block size)를 결정한다. 상기 분석부(112)에서 블록 크기가 결정되면, 블록 크기 정보(block size information)를 인코더(113)와 다중화부(114)로 출력한다. 여기서, 상기 블록 크기를 결정하는 방법에는 시간 축에서 신호의 변화 특성을 이용한 방법과, 신호의 심리음향모델을 통해 구하는 방법 등이 가능하다.

예를 들어, 블록 크기 정보는 분할 정보로 나타낼 수 있다. 상기 분할 정보 중 블록 분할 정보는 각 계층별 블록에 대한 분할 여부를 표시하는 정보를 의미한다. 상기 블록 분할 정보는 신호의 블록 분할을 하는 경우에는 '1'로 나타내며, 신호의 블록 분할을 하지않는 경우는 '0'으로 나타낸다. 또한, 상기 블록 분할 정보는 특정 M 계층에서 블록 분할을 하지않아 '0'으로 나타난 경우에는 다음 계층인 M+1 계층에서는 블록 분할 정보를 할당하지 않는다. 따라서, 본 발명은 블록 분할 정보를 포함하는 비트 수를 가변적으로 하여 신호의 전송 효율을 높이는 효과가 있다. 여기서, 상기 M은 정수인 것이 바람직하다.

인코더(113)는 버퍼(111)에서 출력한 신호를 수신하고, 분석부(112)에서 출력한 블록 크기 정보(block size information)를 수신하여, 상기 블록 크기 정보에 따른 압축 등의 인코딩을 수행한다. 또한, 상기 인코더(113)는 블록 크기 정보에 따른 블록 분할을 수행하는 기능도 수행한다.

다중화부(114)는 인코더(113)에서 인코딩된 신호와 분석부(112)에서 출력된 블록 크기 정보를 다중화하고, 상기 다중화된 신호를 디코딩 장치(120)로 전송하는 기능을 수행한다. 즉, 상기 다중화부(114)는 압축된 비트스트림에 블록 크기 정보를 포함하여 디코딩 장치(120)로 송신한다.

디코딩 장치(120)는 역다중화부(demultiplexer:121)와 디코더(decoder:122)를 포함하여 구성된다. 상기 역다중화부(121)는 전송된 비트스트림을 수신하고, 수신된 비트스트림에서 블록 크기 정보와 디코딩에 필요한 데이터(예를 들어, 인코딩된 신호 등)를 추출하는 역다중화를 수행하여 디코더(122)로 전송한다. 상기 디코더(122)는 역다중화부(121)에서 추출된 블록 크기 정보를 이용하여 인코딩된 신호의 디코딩을 수행하여 디코딩된 신호를 출력한다. 예를 들어, 디코더(122)는 블록 크기 정보에 따른 블록 길이에 맞추어 디코딩을 수행하고 출력 신호를 내보낸다.

이하에서 블록 분할에 대해서 좀 더 상세히 살펴보도록 한다.

일반적으로 블록 분할은 보통 두 종류의 블록 중에 선택하여 사용한다. 즉, 장 블록(long block)과 단 블록(short block)을 사용한다. 이때, 상기 단 블록 (short block)을 사용하는 경우, 복수 개의 단 블록(short block)를 묶어 하나의 장 블록(long block)크기에 대응되도록 한다.

예를 들어, 장 블록(long block)이 2048 샘플, 단 블록(short block)이 256 샘플인 경우에 특정 프레임을 단 블록(short block)이라고 정의하면, 하나의 장 블록(long block)은 256 크기의 단 블록(short block) 8개(256*8 = 2048)와 같은 길이를 가지게 된다.

또한, 장 블록(long block)에서 단 블록(short block)으로 전환 시에는 (혹은 반대의 경우도) 연결 지점에서 윈도우 모양을 일치시키기 위한 기법이 사용될 수 있다.

이처럼 양자 택일을 하는 경우, 해당 프레임에 대한 블록 크기 정보(block size information)는 1개로써 표현이 가능하다. 상기 블록 크기 정보는 장 블록(long block)인지 단 블록(short block)인지 여부를 나타낸다. 이때, 블록이 단 블록(short block)인 경우는 long-short start인지, short-long stop인지, 복수 개의 short인지를 세분하는 정보가 있을 수 있다.

그러나, 일반적인 오디오 신호에 대해, 프레임의 위치 및 길이와 단 블록(short block)이 필요한 구간의 위치 및 길이가 일치하지 않으며, 하나의 프레임 내에서도 장 블록(long block)이 필요한 구간과 단 블록(short block)이 필요한 구간이 있을 수 있다.

그리고, short/long의 이분법적 구분이 아니라 임의의 구간에서의 신호 특성에 맞는 보다 다양한 블록 크기 가운데서 선택할 수 있는 것이 바람직하다. 즉, 두 개 이상의 다른 크기를 갖는 블록들이 존재하고, 이들 가운데 적절한 크기의 블록을 프레임 내에서 다양한 조합으로 선택할 수 있도록 할 수 있다.

이를 위해서는 현재의 프레임이 어떠한 블록들의 조합에 의해 구성되었는지를 알려줄 필요가 있고, 이를 위한 시그널링(signaling) 방법이 필요하다.

이하에서 다양한 방법에 대해 여러 실시예를 살펴보면 다음과 같은 것이 있다.

1) 순차적 시그널링(signaling) 방법

순차적 시그널링 방법은 프레임의 크기(길이, N)를 미리 정의하고, 최소 크기 블록 (M)의 개수로써 시그널링(signaling) 하는 방법이다. 이때, 상기 프레임의 길이 N은 특정 M의 배수이며, 상기 프레임의 크기는 고정된 값일 수도 있고, 별도의 정보로써 전송되는 값일 수도 있다.

예를 들어, N=2048, M=256이고, 프레임 내에 앞에서부터 256, 256, 1024, 512의 순서로 블록이 구성된다고 하면, 블록 크기 정보는 M*1, M*1, M*4, M*2 => 1,1,4,2 => 0,0,3,1로 시그널링(singaling) 하는 방법이 있을 수 있다.

이때, 최대 2048 = M*8 이 존재하므로, 블록 크기 정보는 각각 3비트로써 표현하는 방법이다. 또한, 상기 해당 블록 크기 정보를 허프만 코딩(huffman coding)하는 방법 등이 존재할 수 있다.

이때, 256 윈도우(window) 8개로 구성되는 프레임은 0,0,0,0,0,0,0,0을 각각 3비트로 인코딩하여 3*8=24비트를 필요로 한다. 이때, 마지막 8번째 윈도우 블록(window block)에 대한 시그널링(signaling)은 별도로 알리지 않아도 자명하므로 생략할 수 있다.

2) 계층적 시그널링(signaling) 방법

계층적 시그널링 방법은 계층의 깊이(depth)를 미리 정해서 진행하는 방법이다. 이때, 상기 계층의 깊이는 무한 깊이(depth)를 갖도록 할 수 있다.

2-1) 계층적 시그널링 방법의 제 1실시예

계층적 시그널링 방법의 제 1실시예는 계층의 깊이(depth)를 정하여 상기 깊이(depth)에 따라 블록 크기 정보를 표현하는데 필요한 비트 수가 고정되는 방법이다. 이때, 상기 계층의 깊이가 정의된 경우는 순차적 방법에 의해서도 표현이 가능하다. 이는 계층의 위에서부터 순서대로 시그널링(signaling) 하는 것이 아니라, 가장 작은 단위로 표현되는 매 그리드(grid)에서 분할(splitting) 여부를 알리는 값을 주는 방법으로 표현할 수 있다. 또한, 상기 방법은 상위에서 분리되지 않은 위치에서 분할이 이뤄지면 안 되는 방법과 다르게 임의의 형태로 분리가 가능하다.

2-2) 계층적 시그널링 방법의 제 2실시예

계층적 시그널링 방법의 제 2실시예는 계층의 깊이(depth)를 정하지 않고, 종료(termination)을 의미하는 '0'에 의해 제어(control)하는 방법이다. 상기 제 2실시예에 대한 상세한 방법은 아래에 설명한다.

2-3) 계층적 시그널링 방법의 제 3실시예

계층적 시그널링 방법의 제 3실시예는 계층의 깊이(depth)를 정하고, 상기 정해진 계층의 깊이(depth)까지 블록의 분할이 진행된 경우는 추가적인 '0'을 표현하지 않으며, 계층의 깊이(depth) 이전에서 종료(temination)를 나타내는 '0'을 만 나면, 해당 브랜치(branch)에 대해서는 추가적인 시그널링(signaling)을 하지 않는 방법이다. 이는 상기 2-1) 계층적 시그널링 방법의 제 1실시예와 2-2) 계층적 시그널링 방법의 제 2실시예의 장점을 모은 방법으로, 경우에 따라 이것이 더 유리한 경우가 존재할 수 있다.

도 2는 본 발명에 따른 오디오 신호 분할을 수행하는 방법을 설명하기 위한 제1 실시예를 나타낸 도면이다. 특히, 도 2는 계층적인 블록 분할을 예로 하여 나타낸 것이다.

먼저, 현재의 블록 크기를 가진 하나의 블록이 하위 계층으로 진행하면서 2개의 블록으로 나뉘는 경우를 예로 한 것이다. 이때, 블록 분할 정보는 블록 분할을 수행하는 경우는 '1'로 시그널링(signaling) 하고, 블록 크기가 하위 계층으로 진행하면서 더 이상 나뉘지 않는 경우인 블록 분할을 수행하지 않는 경우는 '0'으로 시그널링(signaling) 한다. 상기 '0'으로 시그널링된 블록에 대해서는 이후 계층에서 더 이상 분할되지 않는다.

그리고, 블록 분할을 수행하지 않아 '0'으로 시그널링된 블록에 대한 이후의 경로(path)에 대해서는 추가적인 시그널링이 필요하지 않다. 즉, 블록 분할 여부를 나타내는 블록 분할 정보를 위한 비트 수를 할당하지 않아도 된다. 따라서, 블록 분할 정보를 시그널링 하는데 필요한 비트 수는 가변적이므로, 신호의 전송을 위한 비트 수를 줄일 수 있다.

관련하여, 블록 분할이 수행된 계층의 총수를 블록 분할 깊이(depth)로 정의하면, 본 발명은 시그널링 문법에 의해서 블록 분할이 수행된 블록 분할 깊이 (depth)를 알 수 있다. 예를 들어, 현재 계층에 대한 시그널링이 모두 '0'으로 표현되어 있으면, 블록 분할이 하위 계층에서는 수행되지 않음을 의미하고, 이를 통해서 블록 분할 깊이를 안다. 이는 블록 분할이 어느 계층까지 수행되었는지에 대한 정보를 인코딩 장치에서 디코딩 장치로 전송하는 것이 필요하지 않으므로, 신호의 전송을 위한 비트 수를 절약할 수 있는 장점이 있다.

관련하여, 현재 계층에 대한 시그널링이 모두 '0'이 아닌 경우에는 블록 분할을 하위 계층에서 계속적으로 수행한다. 이때, 블록 분할 깊이는 무한히 증가할 수 있다.

그리고, 도 2에 대한 시그널링 결과를 나타낸 바이너리 시그널링(binary signaling)은 블록 분할 정보를 이진수로 표현한 최종 신호이다. 상기 최종 신호는 상위 계층부터 순차적으로 비트스트림에 표현된다. 상기 비트스트림에 표현된 블록 분할 정보는 디코딩 장치로 전송되면, 디코딩 장치에서는 블록 분할 정보를 수신하고, 수신된 블록 분할 정보를 이용하여 블록 분할을 제어하는데 사용한다.

이하, 도 2를 참조하면, 각 계층은 레이어(layer)로 나타내는데 본 실시예는 레이어의 깊이(depth)가 5인 경우를 나타낸 것이다.

레이어 1(layer 1)은 블록 분할의 기본이 되는 가장 장 블록이며, 그 길이는 N인 제1블록(210)을 포함한다. 또한, 도 2의 실시예에서 (1), (2), ..., (a), (b), (c), (d)는 바이너리 시그널링(binary signaling) 순서의 일 예를 나타내는데, 본 발명이 상기 바이너리 시그널링 순서에 한정되지 않음을 밝혀둔다.

최상위 계층인 레이어 1에서 제1블록(210)에 대한 블록 분할 정보(1)가 '1' 이므로 제1블록(210)의 블록 분할을 수행한다. 상기 레이어 1의 하위 계층인 레이어 2는 N/2의 길이를 가지는 제2블록(220)과 제3블록(221)을 포함한 2개의 블록으로 구성된다.

레이어 2(layer 2)에서 제2-1블록(220)의 블록 분할 정보(2)가 '1'이고, 제2-2블록(221)의 블록 분할 정보(3)가 '1'이므로, 상기 레이어 2의 하위 계층인 레이어 3(layer 3)은 N/4의 길이를 가지는 제3-1블록(230), 제3-2블록(231), 제3-3블록(232), 제3-4블록(233)을 포함한 4개의 블록으로 구성된다.

레이어 3(layer 3)에서 제3-1블록(230)에 대한 블록 분할 정보(4)가 '0', 제3-2블록(231)에 대한 블록 분할 정보(5)가 '1', 제3-3블록(232)에 대한 블록 분할 정보(6)가 '1', 제3-4블록(233)에 대한 블록 분할 정보(7)가 '0'이다. 따라서, 상기 레이어 3의 블록 분할 정보에 따르면, 레이어 3의 제3-1블록(230)과 제3-4블록(233)은 블록 분할을 수행하지 않고, 레이어 3의 제3-2블록(231)과 제3-3블록(232)에 대해서만 블록 분할을 수행한다. 이때, 레이어 3에서 블록 분할을 하지않은 제3-1블록(230)과 제3-4블록(233) 이후의 하위 계층(레이어 4, 레이어 5)에서는 블록 분할 정보를 할당하지 않으며, 레이어 3에서 블록 분할을 수행한 제3-2블록(231)과 제3-3블록(232)은 이후의 하위 계층에서 블록 분할 정보를 할당한다.

레이어 4(layer 4)는 N/8의 길이를 가지고, 레이어 3의 제3-2블록(231)을 블록 분할한 제4-1블록(240)과 제4-2블록(241), 제3-3블록(232)을 블록 분할한 제4-3블록(242)과 제4-4블록(243)을 포함하여 구성된다. 상기 레이어 4에서 제4-1블록(240)에 대한 블록 분할 정보(8)는 '0', 제4-2블록(241)에 대한 블록 분할 정보(9) 는 '1', 제4-3블록(242)에 대한 블록 분할 정보(a)는 '0', 제4-4블록(243)에 대한 블록 분할 정보(b)는 '0'이다. 따라서, 상기 레이어 4의 블록 분할 정보에 따르면, 레이어 4의 제4-1블록(240), 제4-3블록(242), 제4-4블록(243)은 블록 분할을 수행하지 않고, 레이어 4의 제4-2블록(241)은 블록 분할을 수행한다. 이때, 레이어 4에서 블록 분할을 하지않은 제4-1블록(240), 제4-3블록(242), 제4-4블록(243) 이후의 하위 계층(레이어 5)에서는 블록 분할 정보를 할당하지 않으며, 레이어 4에서 블록 분할을 수행한 제4-2블록(241)은 이후의 하위 계층에서 블록 분할 정보를 할당한다.

레이어 5(layer 5)는 N/16의 길이를 가지고, 레이어 4의 제4-2블록(241)을 블록 분할한 제5-1블록(250)과 제5-2블록(251)을 포함하여 구성된다. 상기 레이어 5에서 제5-1블록(250)에 대한 블록 분할 정보(c)는 '0', 제5-2블록(251)에 대한 블록 분할 정보(d)는 '0'이다. 그러므로, 레이어 5의 모든 블록 분할 정보가 '0'이므로 더 이상 계층적으로(hierarchically) 블록 분할을 하지 않게 되고, 블록의 블록 분할 깊이를 알 수 있다.

그러므로, 상기에서 계층적으로 블록 분할을 수행하여 구성될 수 있는 블록의 구조(block layout)를 살펴보면, N/4 블록, N/8 블록, N/16 블록, N/16 블록, N/8 블록, N/8 블록, N/8 블록으로 구성된다.

관련하여, 오디오 데이터 길이가 N인 경우, 블록 분할된 복수 개의 블록 길이는 N/2, N/4, N/8, N/16, N/32... 중 하나의 길이를 가진다. 이를 수식으로 나타 내면 N/

로 표현할 수 있다. 상기 수식에서 i = 1, 2, ..., p 중 어느 하나이며, 상기 p는 정수인 것을 특징으로 한다.

또한, 2진수로 표현되는 블록 분할 정보를 바이너리 시그널링 순서인 (1)(2)(3)(4)(5)(6)(7)(8)(9)(a)(b)(c)(d)로 나타내면, '1110110010000'의 13비트로 표현하는 것이 가능하다.

도 3a는 본 발명에 따른 오디오 신호 분할을 수행하는 방법을 설명하기 위한 제2 실시예를 나타낸 도면이다.

도 3a를 참조하면, 서브밴드 필터뱅크(subband filterbank)에서 트리(tree) 구조를 가지는 계층적인 서브밴드 분할에 관한 것이다. 도 3a에서 설명하는 방법으로 서브밴드의 주파수 해상도를 자유롭게 정의할 수 있다.

도 3a를 도 2와 비교하면, 도 2에서는 각 계층을 레이어(layer)로 표현하였으며, 최상위 계층에 하나의 블록을 포함하는 경우를 예로 하였으나, 도 3a는 레이어를 노드(node)로 표현하였으며, 최상위 계층에 복수 개의 밴드를 포함하는 경우를 예로 하였다. 그리고, 이하 도 3a는 최상위 계층인 루트 노드(root node)가 4개의 밴드를 포함하는 것을 예로 하여 설명하나, 본 발명은 최상위 계층이 복수 개의 밴드를 포함하는 경우는 적용가능함은 자명한 사실이다.

최상위 계층인 루트 노드(root node)는 제1-1밴드(310), 제1-2밴드(311), 제1-3밴드(312), 제1-4밴드(313)를 포함한 4개의 밴드로 구성된다. 상기 제1-1밴드(310)의 밴드 분할 정보(1)는 '1', 제1-2밴드(311)의 밴드 분할 정보(10)는 '1', 제1-3밴드(312)의 밴드 분할 정보(13)는 '0', 제1-4밴드(313)의 밴드 분할 정보(14)는 '0'으로 표현된다. 상기 밴드 분할 정보((1),(10))에 따라 제1-1밴드(310)와 제1-2밴드(311)의 밴드 분할을 수행하면 두 번째 노드(2nd node)를 생성하고, 이후 계층에서 밴드 분할 정보를 할당한다. 이에 반해, 밴드 분할을 수행하지 않는 제1-3밴드와 제1-4밴드는 이후 계층(두 번째 노드, 세 번째 노드, 네 번째 노드)에서 밴드 분할 정보를 할당하지 않는다.

두 번째 노드(2nd node)는 제1-1밴드(310)가 밴드 분할되어 형성된 제2-1밴드(320), 제2-2밴드(321)와, 제1-2밴드(311)가 밴드 분할되어 형성된 제2-3밴드(322), 제2-4밴드(323)을 포함하여 구성된다. 상기 제2-1밴드(320)의 밴드 분할 정보(2)는 '1', 제2-2밴드(321)의 밴드 분할 정보(7)는 '1', 제2-3밴드(322)의 밴드 분할 정보(11)는 '0', 제2-4밴드(323)의 밴드 분할 정보(12)는 '0'으로 표현된다. 상기 밴드 분할 정보((2),(7))에 따라 제2-1밴드(320)와 제2-2밴드(321)의 밴드 분할을 수행하면 세 번째 노드(3rd node)를 생성하고, 이후 계층에서 밴드 분할 정보를 할당한다. 이에 반해, 밴드 분할을 수행하지 않는 제2-3밴드와 제2-4밴드는 이후 계층(세 번째 노드, 네 번째 노드)에서 밴드 분할 정보를 할당하지 않는다.

세 번째 노드(3rd node)는 제2-1밴드(320)가 밴드 분할되어 형성된 제3-1밴드(330), 제3-2밴드(331)와, 제2-2밴드(321)가 밴드 분할되어 형성된 제3-3밴드(332), 제3-4밴드(333)을 포함하여 구성된다. 상기 제3-1밴드(330)의 밴드 분할 정보(3)는 '1', 제3-2밴드(331)의 밴드 분할 정보(6)는 '0', 제3-3밴드(332)의 밴드 분할 정보(8)는 '0', 제3-4밴드(333)의 밴드 분할 정보(9)는 '0'으로 표현된다. 상 기 밴드 분할 정보(3)에 따라 제3-1밴드(330)의 밴드 분할을 수행하면 네 번째 노드(4th node)를 생성하고, 상기 네 번째 노드의 밴드 분할 정보를 할당한다.

네 번째 노드(4th node)는 제3-1밴드(330)가 밴드 분할되어 형성된 제4-1밴드(340)와 제4-2밴드(341)를 포함하여 구성된다. 상기 제4-1밴드(340)의 밴드 분할 정보(4)는 '0', 상기 제4-2밴드(341)의 밴드 분할 정보(5)는 '0'으로 표현된다. 따라서, 밴드 분할을 수행하는 노드가 더 이상 하위 계층으로 내려가지 않고 네 번째 노드가 밴드 분할의 마지막 노드가 된다.

그리고, 2진수로 표현되는 밴드 분할 정보를 바이너리 시그널링 순서인 (1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)(13)(14)로 나타내면 '11100010010000'의 14비트로 표현하는 것이 가능하다.

도 3b는 본 발명에 따른 오디오 신호 분할을 수행하는 방법을 설명하기 위한 제3 실시예를 나타낸 도면이다.

도 3b는 도 3a와 비교하여, 밴드 분할을 수행하는 과정 등이 모두 유사하다. 다만, 밴드 분할 정보를 바이너리 시그널링(binary signaling)하는 순서가 차이가 난다.

따라서, 2진수로 표현되는 밴드 분할 정보를 바이너리 시그널링 순서인 (1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)(13)(14)로 나타내면 '11001100100000'의 14비트로 표현하는 것이 가능하다.

이하, 도 4 ~ 도 5b를 참조하여 입력채널을 멀티채널인 출력채널로 변환하는 경우에 필요한 오디오 신호의 인코딩/디코딩 방법에 대해서 상세히 설명한다.

도 4는 본 발명에 따른 신호의 인코딩 장치와 디코딩 장치의 다른 실시예를 나타낸 블록도이다. 예를 들어, MPEG 서라운드(MPEG surround)에서 오디오 신호의 인코딩 장치와 디코딩 장치를 설명하기 위한 도면이다.

인코딩 장치(400)는 다운믹스부(downmix:411)과 공간 파라미터 추출부(spatial parameter estimation:412)을 포함하여 구성되는 공간 인코더(spatial encoder:410)와, 다운믹스된 오디오 신호를 인코딩하는 오디오 인코더(audio encoder:420)를 포함하여 구성된다.

오디오 신호가 N개의 멀티채널(

,

,...,

)로 입력되면, 다운믹스부(411)는 미리 정해진 다운믹스 정보 또는 외부 제어 명령에 따라 특정 개수의 채널로 입력된 오디오 신호의 다운믹스를 수행하여 다운믹스 채널을 생성하고, 상기 다운믹스 채널로 다운믹스된 오디오 신호를 출력하면, 상기 출력된 신호는 오디오 인코더(420)에 입력된다.

여기서, 상기 다운믹스된 채널은 한 개의 채널 또는 두 개의 채널(

,

)을 가지거나, 또는 다운믹스 명령에 따라 특정 개수의 채널을 가질 수 있다. 이때, 다운믹스된 채널의 개수는 설정가능하다.

선택적으로, 다운믹스된 오디오 신호는 외부에서 직접 제공되는 다운믹스된 오디오 신호, 즉 아티스틱 다운믹스 신호(artistic downmix signal)를 이용할 수 있음을 밝혀둔다.

오디오 인코더(audio encoder:420)는 다운믹스된 채널을 통해서 전송된 다운믹스 오디오 신호를 수신하고, 상기 수신한 신호의 인코딩을 수행하여 압축된 오디오 신호(compressed audio signal)를 송신한다.

공간 파라미터 추출부(412)는 멀티채널로부터 공간 파라미터를 추출하여, 상기 추출된 공간 파라미터들을 디코딩 장치(450)로 송신한다.

디코딩 장치(450)의 오디오 디코더(430)는 압축된 오디오 신호(compressed audio signal)를 수신하고, 상기 수신한 압축된 오디오 신호의 오디오 디코딩을 수행하여 다운믹스된 오디오 신호를 스테레오 채널(

,

)을 통해 출력한다.

이때, 오디오 신호의 디코딩 장치(450)가 멀티채널을 디코딩하지 못하는 경우에는 압축된 오디오 신호의 디코딩을 수행하여 모노 또는 스테레오 오디오 신호로 직접 출력할 수 있는데, 이는 오디오 신호의 디코딩 장치들 간에 호환성을 위해서 필요한 것이다.

공간 디코더(spatial decoder:440)의 합성부(synthesis:441)는 오디오 디코더(430)로부터 오디오 스테레오 신호를 수신하고, 인코딩 장치(400)의 공간 파라미터 추출부(412)로부터 공간 파라미터들(spatial parameters)을 수신하여 서라운드 합성을 하여 멀티채널(

,

, ...,

)을 생성하고, 상기 생성된 멀티채널을 통해서 멀티채널 오디오 신호를 출력한다.

이와 같이, 멀티채널 오디오 신호를 직접 전송하는 대신에 스테레오 또는 모 노 오디오 신호로 다운믹스하여 전송하고, 상기 멀티채널 오디오 신호의 공간 파라미터를 함께 전송하는 방식은 압축 및 전송 효율의 관점에서 매우 우수한 방식이다.

관련하여, 공간 디코더(spatial decoder:440)에서 다운믹스된 채널인 모노 또는 스테레오 채널을 멀티채널로 하는 경우 중 하나인 2채널에서 5.1채널로 변환하는 경우에 대해서 좀 더 상세히 살펴본다.

2채널에서 5.1채널로의 변환은 시간/주파수 영역(time/frequency domain)에서 이루어지는데, 그 과정은 다음과 같다.

먼저, 2채널 분석 필터뱅크(analysis filterbank)는 디코딩되어 전송된 스테레오 오디오 신호를 2채널의 시간/주파수 영역 오디오 신호로 변환하고, 상기 시간/주파수 영역 오디오 신호는 공간 파라미터를 이용하여 6채널 시간/주파수 오디오 신호로 업믹스(up-mix) 되며, 상기 6채널 시간/주파수 오디오 신호는 6채널 합성 필터뱅크(synthesis filterbank)에 의해 5.1채널 오디오 신호로 변환된다.

그런데, 공간 파라미터를 이용하여 멀티채널을 생성하는 경우는 2채널에서 5.1채널로 확장되는 경우 이외에 다양한 형태의 다운믹스 채널로부터 다양한 형태의 멀티채널로의 출력이 가능하다. 이처럼 임의의 다운믹스 채널로부터 임의의 멀티채널로의 출력에 대한 관계는 채널 분할부들의 조합에 의해 표현이 가능하다. 대표적인 채널 분할부에는 OTT부와 TTT부가 존재하며, 이들의 조합은 트리 구조(tree structure)로 표현이 가능하다. 여기서, 상기 임의의 멀티채널은 상기 다운믹스 채널보다 적어도 1개 이상 많은 채널을 갖는 것을 특징으로 한다.

도 5a는 본 발명에 따른 입력채널을 업믹스하여 출력채널을 생성하는 방법에 대한 트리 구조를 나타내는 제1 실시예이다. 예를 들어, 채널 분할부의 동작 여부를 나타내는 채널 분할 정보를 이용하여 적어도 하나 이상의 입력채널을 입력채널보다 많은 복수 개의 출력채널을 생성하는 업믹스(up-mix) 과정을 진행하는 과정을 나타낸 것이다.

도 5a를 참조하면, 채널 분할 정보를 이용하여 3개의 입력채널에서 6개의 출력채널을 생성하는 경우를 나타낸다. 이때, 상기 채널 분할 정보는 채널의 구성 정보를 나타낼 수 있다. 여기서, 채널 분할부의 예로 OTT부를 기준으로 설명하나, 본 발명은 이에 한정되지 않고, 모든 채널 분할부에 적용가능함을 밝혀둔다.

또한, 도 5a에서 채널 분할 정보는 다운믹스된 적어도 하나 이상의 채널 중 각 채널에 대해서 생성한다. 여기서, 상기 다운믹스된 채널이 복수 개인 경우 각 채널마다 생성된 채널 분할 정보는 연속적으로 시그널링하는 것을 특징으로 한다. 이때, 상기 다운믹스된 채널은 오디오 신호의 디코딩 과정에서 입력채널이다.

입력채널 0(InChan 0)에서 출력채널 0(OutChan 0)와 출력채널 1(OutChan 1)를 생성하는 과정은 다음과 같다. 상기 입력채널 0(InChan 0)에 대한 채널 분할 정보(1)가 '1'이므로 제1 OTT부(510)가 동작하여 두 개의 채널인 제1채널(510-1)과 제2채널(510-2)을 생성한다. 상기 제1채널(510-1)은 채널 분할 정보(2)가 '0'이므로 제2 OTT부(520)가 동작하지 않아 그대로 출력채널 0(OutChan 0)이 된다. 상기 제2채널(510-2)은 채널 분할 정보(3)가 '0'이므로 제3 OTT부(521)가 동작하지 않아 그대로 출력채널 1(OutChan 1)이 된다.

입력채널 1(InChan 1)에서 출력채널 2(OutChan 2), 출력채널 3(OutChan 3)와 출력채널 4(OutChan 4)를 생성하는 과정은 다음과 같다. 상기 입력채널 1(InChan 1)에 대한 채널 분할 정보(4)가 '1'이므로 제4 OTT부(511)가 동작하여 두 개의 채널인 제3채널(511-1)과 제4채널(511-2)을 생성한다. 상기 제3채널(510-1)은 채널 분할 정보(5)가 '1'이므로 제5 OTT부(522)가 동작하여 두 개의 채널인 제5채널(522-1)과 제6채널(522-2)을 생성한다. 상기 제5채널(522-1)은 채널 분할 정보(6)가 '0'이므로 제6 OTT부(531)가 동작하지 않아 그대로 출력채널 2(OutChan 2)가 된다. 상기 제6채널(522-2)은 채널 분할 정보(7)가 '0'이므로 제7 OTT부(532)가 동작하지 않아 그대로 출력채널 3(OutChan 3)이 된다. 상기 제4채널(511-2)은 채널 분할 정보(8)가 '0'이므로 제8 OTT부(523)가 동작하지 않아 그대로 출력채널 2(OutChan 2)가 된다.

입력채널 2(InChan 2)는 채널 분할 정보(9)가 '0'이므로 제9 OTT부(512)가 동작하지 않아 그대로 출력채널 5(OutChan 5)가 된다.

따라서, 2진수로 표현되는 채널 분할 정보를 바이너리 시그널링 순서인 (1)(2)(3)(4)(5)(6)(7)(8)(9)로 나타내면 '100110000'의 9비트로 표현하는 것이 가능하다. 이때, 상기 채널 분할 정보는 입력채널 0(InChan 0), 입력채널 1(InChan 1), 입력채널 2(InChan 2) 순서에 따라 연속적으로 시그널링한 것이다.

도 5b는 본 발명에 따른 입력채널을 업믹스하여 출력채널을 생성하는 방법에 대한 트리 구조를 나타내는 제2 실시예이다.

도 5b는 도 5a와 비교하여, 입력채널을 업믹스하여 멀티채널인 출력채널을 생성하는 과정 등이 모두 유사하다. 다만, 채널 분할 정보를 바이너리 시그널링(binary signaling)하는 순서가 차이가 난다. 즉, 채널 분할 정보는 다운믹스된 적어도 하나 이상의 채널에서 계층적 단계별로 생성한다. 또한, 상기 계층적 단계별로 생성된 채널 분할 정보는 연속적으로 시그널링하는 것을 특징으로 한다.

예를 들어, 입력채널에서 멀티채널인 출력채널을 생성하는 계층적 단계를 설명하면 다음과 같다. 제1 단계는 제1 입력채널들(입력채널 0(InChan 0), 입력채널 1(InChan 1), 입력채널 2(InChan 2))이 최초로 입력되는 채널 분할부들(제1 OTT부(510), 제4 OTT부(511), 제9 OTT부(512))이 위치한 단계를 의미한다.

제2 단계는 상기 제1 단계의 채널 분할 정보(1, 2)에 따라 채널 분할부들(제1 OTT부(510), 제4 OTT부(511))이 동작하여 출력된 채널(510-1, 510-2, 511-1, 511-2)이 입력되는 채널 분할부들(제2 OTT부(520), 제3 OTT부(521), 제5 OTT부(522), 제8 OTT부(523))이 위치한 단계를 의미한다.

제3 단계는 상기 제2 단계의 채널 분할 정보(6, 7)에 따라 채널 분할부들(제5 OTT부(522), 제8 OTT부(523))이 동작하여 출력된 채널(522-1, 522-2)이 입력되는 채널 분할부들(제6 OTT부(531), 제7 OTT부(532))이 위치한 단계를 의미한다.

이상과 같이 계층적 단계로 디코딩을 수행하여 멀티채널을 생성하기 위해 2진수로 표현되는 채널 분할 정보를 바이너리 시그널링 순서인 (1)(2)(3)(4)(5)(6)(7)(8)(9)로 나타내면 '110001000'의 9비트로 표현하는 것이 가능하다. 이때, 상기 채널 분할 정보는 제1 단계, 제2 단계, 제3 단계의 계층적 단계 순서에 따라 연속적으로 시그널링한 것이다.

본 발명의 다른 실시예로 채널 분할 정보가 '1'인 경우에는 채널 분할부를 구성하고, 채널 분할 정보가 '0'인 경우에는 채널 분할부를 구성하지 않는 경우가 가능하다. 이때는 채널 분할 정보에 따라 채널 분할부를 구성하면 상기 채널 분할 부는 동작하여 하나의 채널에서 복수 개의 채널을 생성하고, 채널 분할 정보에 따라 채널 분할부를 구성하지 않으면 입력채널이 그대로 출력채널이 되는 것이다.

본 발명을 상술한 실시예에 한정되지 않으며, 첨부된 청구범위에서 알 수 있는 바와 같이 본 발명이 속한 분야의 통상의 지식을 가진 자에 의해 변형이 가능하고 이러한 변형은 본 발명의 범위에 속한다.

상기에서 설명한 본 발명에 따른 오디오 신호의 인코딩/디코딩 방법 및 장치 효과를 설명하면 다음과 같다.

첫째, 특정 길이를 가지는 장 블록(long block)으로부터 서로 다른 복수 개의 길이를 가지는 단 블록(short block)으로 세분화할 때, 계층적인 구조를 갖는 블록 분할(block splitting) 과정에 대한 정보를 최소의 비트를 사용하여 인코딩하는 것이 가능하다.

둘째, 오디오 신호의 시그널링(signaling)에 사용된 비트 수에 대한 정보를 별도로 전송할 필요없이, 시그널링 신호 자체만으로 분할이 수행된 계층의 깊이와 시그널링 신호의 끝을 파악하는 것이 가능하다.

셋째, 복수 개로 구성된 서브밴드로부터 서로 다른 크기(예를 들어, 주파수 폭)를 갖는 임의 개수의 복수 개 서브밴드로의 세분화 전개 과정을 최소의 비트를 사용하여 인코딩하는 것이 가능하다.

넷째, 입력채널보다 많은 수를 갖는 출력채널로의 업믹스(up-mix) 과정에 대해 그 진행 과정의 정보를 최소의 비트를 사용하여 인코딩하는 것이 가능하다.

Claims

오디오 신호를 계층적으로 분할하는 단계; 및

각 계층의 오디오 신호에 대한 분할 여부를 표시하는 분할 정보를 생성하는 단계를 포함하여 이루어지는 것을 특징으로 하는 오디오 신호의 인코딩 방법.
제 1 항에 있어서,

상기 분할 정보는 제M 계층에서 분할을 하는 경우에만 제M+1 계층에서 분할 정보를 할당하는 것을 특징으로 하는 오디오 신호의 인코딩 방법.
제 1 항에 있어서,

상기 분할 정보는 제M 계층에서 분할을 하지않는 경우에는 제M+1 계층에서 분할 정보를 할당하지 않는 것을 특징으로 하는 오디오 신호의 인코딩 방법.
제 1 항에 있어서,

상기 분할 정보는 분할을 하는 경우는 '1'로 나타내며, 분할을 하지않는 경우는 '0'로 나타내는 것을 특징으로 하는 오디오 신호의 인코딩 방법.
제 1 항에 있어서,

상기 오디오 신호는 적어도 하나 이상의 분할 레벨로 분할하며, 분할되기 전 오디오 신호 길이는 분할된 후 오디오 신호 길이의 2배인 것을 특징으로 하는 오디오 신호의 인코딩 방법.
제 5 항에 있어서,

상기 오디오 신호의 길이가 N인 경우, 분할된 오디오 신호의 길이는 N/
, i=1,...,p 중 어느 하나이며, 상기 x는 2이며, 상기 p는 정수인 것을 특징으로 하는 오디오 신호의 인코딩 방법.
제 1 항에 있어서,

상기 분할된 복수 개의 오디오 신호는 다른 길이를 가지는 것을 특징으로 하는 오디오 신호의 인코딩 방법.
제 1 항에 있어서,

상기 분할 정보는 가변적인 비트 수로 표현하는 것을 특징으로 하는 오디오 신호의 인코딩 방법.
제 1 항에 있어서,

상기 분할 정보는 상위 계층에서 순차적으로 하위 계층까지 분할 여부를 시그널링(signaling)한 정보인 것을 특징으로 하는 오디오 신호의 인코딩 방법.
제 1 항에 있어서,

상기 분할 정보를 송신하는 단계를 더 포함하여 이루어지는 것을 특징으로 하는 오디오 신호의 인코딩 방법.
제 1 항에 있어서,

상기 오디오 신호는 하나의 블록으로 구성된 것을 특징으로 하는 오디오 신호의 인코딩 방법.
제 1 항에 있어서,

상기 오디오 신호는 복수 개의 서브밴드로 구성된 것을 특징으로 하는 오디오 신호의 인코딩 방법.
제 1 항에 있어서,

상기 분할 정보는 블록 분할 정보, 밴드 분할 정보, 채널 분할 정보 중 어느 하나인 것을 특징으로 하는 오디오 신호의 인코딩 방법.
오디오 신호가 계층적으로 분할되어 복수 개의 분할된 오디오 신호로 구성된 오디오 비트스트림을 수신하는 단계;

상기 오디오 비트스트림에서 각 계층의 오디오 신호에 대한 분할 여부를 표 시하는 분할 정보를 추출하는 단계; 및

상기 분할 정보를 이용하여 오디오 신호를 디코딩하는 단계를 포함하여 이루어지는 것을 특징으로 하는 오디오 신호의 디코딩 방법.
제 14 항에 있어서,

상기 분할 정보는 제M 계층에서 분할을 하는 경우에만 제M+1 계층에서 분할 정보를 포함하는 것을 특징으로 하는 오디오 신호의 디코딩 방법.
제 14 항에 있어서,

상기 분할 정보는 제M 계층에서 분할을 하지않는 경우에는 제M+1 계층에서 분할 정보를 할당하지 않는 것을 특징으로 하는 오디오 신호의 디코딩 방법.
제 14 항에 있어서,

상기 분할 정보를 추출하면, 분할된 계층의 깊이(depth)를 파악 가능한 것을 특징으로 하는 오디오 신호의 디코딩 방법.
제 14 항에 있어서,

상기 분할 정보를 추출하면, 시그널링 신호의 비트 수를 파악 가능한 것을 특징으로 하는 오디오 신호의 디코딩 방법.
오디오 신호를 계층적으로 분할하여 복수 개의 분할된 오디오 신호를 생성하고, 각 계층의 오디오 신호에 대한 분할 여부를 표시하는 분할 정보를 포함하여 이루어지되, 제M 계층에서 분할을 하는 경우에만 제M+1 계층에서 분할 정보를 포함하는 것을 특징으로 하는 오디오 신호.
오디오 신호를 계층적으로 분할하여 복수 개의 분할된 오디오 신호를 생성하는 제1 생성부; 및

각 계층의 오디오 신호에 대한 분할 여부를 표시하는 분할 정보를 생성하는 제2 생성부를 포함하여 구성되는 것을 특징으로 하는 오디오 신호의 인코딩 장치.
오디오 신호가 계층적으로 분할되어 복수 개의 분할된 오디오 신호로 구성된 오디오 비트스트림를 수신하는 수신부;

상기 오디오 비트스트림에서 각 계층의 오디오 신호에 대한 분할 여부를 표시하는 분할 정보를 추출하는 추출부; 및

상기 분할 정보를 이용하여 오디오 신호를 디코딩하는 디코더를 포함하여 구성되는 것을 특징으로 하는 오디오 신호의 디코딩 장치.