KR20060043701A

KR20060043701A - 멀티채널 오디오 데이터 부호화/복호화 방법 및 장치

Info

Publication number: KR20060043701A
Application number: KR1020050021840A
Authority: KR
Inventors: 오은미; 김미영; 김상욱; 김도형; 김중회
Original assignee: 삼성전자주식회사
Priority date: 2004-07-14
Filing date: 2005-03-16
Publication date: 2006-05-15
Also published as: US20060013405A1; KR20070077220A; KR100982427B1; EP1617413A3; KR100773539B1; CN101789792A; CN101789792B; CN1756086A; CN1756086B; EP2276022A2; JP2006031012A; JP2012238034A; EP1617413A2; EP2276022A3

Abstract

본 발명은 멀티채널 오디오 데이터 부호화 및 복호화 방법 및 장치에 관한 것으로서, 그 부호화방법은 모노/스테레오 오디오 데이터를 부호화하는 단계; 및 모노/스테레오 오디오 데이터 이외의 멀티채널 오디오 확장데이터를 부호화하는 단계를 포함함을 특징으로 하며, 그 복호화 방법은 모노/스테레오 오디오 데이터를 복호화하는 단계; 그 모노/스테레오 오디오 데이터 이외에 복호화할 멀티채널 오디오 확장데이터가 있는지 검사하는 단계; 및 그 복호화할 확장 데이터가 있으면, 멀티채널 오디오 확장데이터를 복호화하는 단계를 포함함이 바람직하다.

본 발명에 의하면, 하나의 비트스트림으로 사용자 환경에 따라서 모노, 스테레오, 멀티채널을 제공할 수 있다. 멀티 채널에서도 사용자의 단말 및 네트워크 상태에 따라서 FGS 기능을 제공한다. 또한 멀티채널 BSAC의 성능 향상, 예를 들어 고음질, 낮은 복잡도, 확장성 확보를 가능하게 한다. 특히, MPEG 표준화를 위한 여러 요구사항(기존의 BSAC 와의 호환성, 미세계층(FGS) 기능 유지, 최소한의 수정)을 충족시킬 수 있다. 그리고 고현실감 디지털 멀티미디어 방송, 모바일 및 홈 시어터(home theater) 기반 서비스에서 유용하게 사용될 수 있다.

Description

멀티채널 오디오 데이터 부호화/복호화 방법 및 장치{Multi channel audio data encoding/decoding method and apparatus}

도 1은 기존의 BSAC 멀티채널 구조를 도시한 것이다.

도 2는 기존 방식의 오디오 부호화 장치의 기능 모듈을 블록도도로 도시한 것이다.

도 3은 본 발명에 의한 멀티채널 오디오 데이터 부호화 장치의 구성을 블록도로 도시한 것이다.

도 4는 확장데이터 부호화부의 보다 상세한 구성을 블록도로 도시한 것이다.

도 5는 확장오디오 부호화부의 세부 구성을 블록도로 도시한 것이다.

도 6은 본 발명에 의한 멀티채널 오디오 데이터 부호화에 대한 기본적인 데이터 구조를 도시한 것이다.

도 7은 본 발명에 의한 멀티채널 오디오 데이터 부호화 방법을 흐름도로 도시한 것이다.

도 8은 확장채널에 대한 오디오 데이터 부호화를 보다 상세히 설명한 흐름도이다.

도 9는 상기 멀티채널 오디오 복호화장치의 구성을 블록도로 도시한 것이다.

도 10은 상기 확장데이터복호화부(940)의 구성을 블록도로 도시한 것이다.

도 11은 상기 확장채널 오디오 복호화부(1060)의 구성을 블록도로 도시한 것이다.

도 12은 본 발명에 의한 멀티채널 오디오 데이터 복호화 방법을 흐름도로 도시한 것이다.

도 13은 1230단계의 확장채널에 대한 오디오 데이터 복호화를 보다 상세히 설명한 흐름도이다.

도 14는 1200단계 내지 1230단계에 대한 일실시예를 나타내는 Bsac_raw_data_block()의 syntax를 도시한 것이다.

도 15는 각 오디오 채널 복호화에 대한 일실시예를 나타내는 extended_bsac_raw_data_block()의 syntax를 도시한 것이다.

도 16은 1230단계에 대한 extended_bsac_raw_data_block()의 일 예에 대한 syntax를 도시한 것이다.

도 17은 본 발명에 의한 멀티채널 오디오 신호 부호화/복호화 방법 및 장치를 이용하여 음질 측정을 한 테스트 결과를 도시한 것이다.

본 발명은 오디오 부호화 및 복호화에 관한 것으로서, 특히 멀티채널 오디오 데이터 부호화 및 복호화 방법 및 장치에 관한 것이다.

지상파 DMB(Digital Multimedia Broadcasting)에서는 2003년 오디오 코덱 (codec)으로 MPEG-4 BSAC(Bit Sliced Arithmatic Coding)을 채택하였다. 현재는 스테레오만 서비스하고 있지만, 향후에는 멀티채널(multichannel) 서비스로 확장할 것이 예상된다. MPEG-4 BSAC에서는 압출효율 및 기능향상 기술, 예를 들어 대역폭 확장(Bandwidth Extension), Spatial 오디오를 추가할 수 있어야 한다.

기존의 BSAC 멀티채널에서는 전방, 중앙 좌, 우, 후방 좌, 우 채널 등의 채널들이 하나의 계층에 번갈아 코딩된다. 도 1은 기존의 멀티채널 BSAC 구조를 도시한 것으로서, 각 채널들이 interleave 되어 있다. 상기 BSAC 구조는 미세계층기능을 제공한다. 즉 하나의 계층에 5채널이 모두 존재하여 마지막 계층부터 자를 수 있다. 그리고 채널에 대한 Tool 부가정보가 general_header에 정의되어 있다. 채널마다 신호특성을 고려한 개별적인 부가정보가 있어야 고성능 압축이 가능하다.

도 2는 기존 방식의 오디오 부호화 장치의 기능 모듈을 블록도도로 도시한 것으로서, 심리음향모델부(200), 시간/주파수 맵핑부(210), 시간영역 잡음 형상화부(220), Intensity 스테레오 처리부(230), 지각잡음대체부(240), Mid/Side(M/S) 스테레오 처리부(250), 양자화부(260), 그리고 비트패킹부(270)로 구성된다.

상기 시간/주파수 맵핑부(210)는 시간영역의 오디오 신호를 주파수영역의 신호로 변환하는 역할을 한다. 시간상으로 인간이 인지하는 신호의 특성의 차이가 그리 크지 않지만, 이렇게 변환된 주파수 영역의 신호들은 인간의 음향심리모델에 따라 각 대역에서 인간이 느낄 수 있는 신호와 느낄 수 없는 신호의 차이가 크기 때문에 각 주파수 대역에 따른 할당되는 비트의 수를 다르게 함으로써 압축의 효율을 높일 수 있다.

심리음향부(200)는 시간/주파수 맵핑부(210)에 의해 시간 영역에서 주파수 영역으의 성분으로 변환된 오디오 신호들을 적당한 대역(subband)의 신호들로 묶고 각 신호들의 상호작용으로 인해 발생되는 마스킹현상을 이용하여 각 대역(subband)에서의 마스킹 문턱치(masking threshold)를 계산한다. 시간영역 잡음 형상화(TNS, Temporal Noise Shaping)부(220)는 변환의 각 윈도우내에서 양자화 잡음의 시간적인 모양을 제어하기 위해 사용된다. 주파수 데이터의 필터링 과정을 적용함으로써 시간영역 잡음 형상화가 가능하다. 이 부분은 부호화기에서 사용할 것인지 사용하지 않을 것인지를 선택할 수 있다. Intensity 스테레오 처리부(230)는 스테레오 신호를 좀 더 효율적으로 처리하기 위한 방법들 중 한 가지이다. 두 개의 채널 중 하나의 채널에 대한 scalefactor band에 대한 양자화된 정보만을 부호화하고 나머지 채널은 scalefactor만을 전송하는 기법이다. 이 부분은 반드시 부호화기에서 반드시 사용해야 하는 부분은 아니고 부호화기에서 여러 가지 사항을 고려해서 각 scalefactor band 단위로 사용 여부를 판단할 수 있다. 지각잡음대체부(240)는 현재 프레임에서 노이즈 특성이 강한 신호의 경우 주파수 계수의 값을 코딩하지 않고, scalefactor band 에 해당하는 주파수 성분들의 에너지 값을 부호화함으로써 사용되는 비트 발생량을 줄일 수 있다. 상기 지각잡음대체부(240)는 scalefactor band 단위로 사용 여부를 판단할 수 있다. M/S 스테레오 처리부(250)는 스테레오 신호를 좀 더 효율적으로 처리하기 위한 방법들 중 한 가지이다. 왼쪽 채널의 신호와 오른쪽 채널의 신호를 각각 더한 신호와 뺀 신호로 변환한 후 이 신호를 처리하는 방법이다. 이 부분도 반드시 부호화기에서 반드시 사용해야 하는 부분은 아니고 부호화기에서 여러 가지 사항을 고려해서 각 scalefactor band 단위로 사용 여부를 판단할 수 있다. 양자화부(260)에서는 인간이 들어도 느끼지 못하도록 각 대역의 양자화 잡음의 크기가 마스킹 문턱값보다 작도록 각 대역의 주파수 신호들을 스칼라 양자화한다. 비트패킹부(270)는 부호화장치의 각 모듈에서 만들어진 정보들을 모아서 scalable codec에 적합하도록 만들어진 syntax에 따라서 비트스트림을 구성해 준다.

그런데, 상기 도 1에 도시된 기존의 BSAC 멀티채널 구조는 M/S(Mid/Side) 스테레오 사용이 불가능하다. 왜냐하면 기존의 부호화 및 복호화 syntax 상에서는 채널 수가 2개 이상일 경우에는 M/S 스테레오 기능을 사용할 수 없기 때문이다. 따라서 코딩 효율이 저하된다. 또한 window switching, PNS(Perceptual Noise Substitution)는 모든 채널에 동일한 부가정보를 사용해야 하므로 코딩효율이 저하된다. 또한 5채널이 모두 interleave되기 때문에 모노에 비해서 5배의 메모리가 필요하다.

본 발명이 이루고자 하는 기술적 과제는 MPEG 표준화에 부합되면서 다채널 BSAC의 성능 향상을 가능하게 하는 멀티채널 오디오 데이터 부호화 방법 및 장치를 제공하는 것이다.

본 발명이 이루고자 하는 기술적 과제는 MPEG 표준화에 부합되면서 다채널 BSAC의 성능 향상을 가능하게 하는 멀티채널 오디오 데이터 복호화 방법 및 장치를 제공하는 것이다.

상기 기술적 과제를 이루기 위한 본 발명에 의한 멀티채널 오디오신호 부호화 방법은 (a) 모노/스테레오 오디오 데이터를 부호화하는 단계; 및 (b) 상기 모노/스테레오 오디오 데이터 이외의 멀티채널 오디오 확장데이터를 부호화하는 단계를 포함함을 특징으로 한다. 상기 모노/스테레오 오디오 데이터는 계층적인 비트율을 가짐이 바람직하다.

상기 (b)단계의 멀티채널 오디오 확장데이터는 적어도 오디오 채널의 구성을 나타내며 채널구성 인덱스로 표현되는 확장채널의 타입 정보를 포함함이 바람직하다. 상기 (b)단계는 멀티채널 오디오 확장데이터의 시작을 나타내는 소정의 시작코드(zero_code, syncword)를 부호화하는 단계; 및 확장 오디오 데이터를 채널별로 부호화하는 단계를 포함함이 바람직하다. 상기 시작코드는 32비트의 연속된 0 값으로 이루어진 zero_code; 및 8비트의 연속된 1 값으로 이루어진 syncword로 구성됨이 바람직하다.

상기 채널별 확장데이터 부호화는 오디오 채널의 구성을 나타내는 확장채널의 타입을 부호화하는 단계; 및 확장채널 오디오 데이터를 부호화 단계를 포함함이 바람직하다. 상기 확장채널의 타입은 채널구성 인덱스로 이루어짐이 바람직하다.상기 채널별 확장데이터 부호화는 확장데이터의 길이를 부호화하는 단계; 및 부가정보(bsac header, general header)를 부호화하는 단계를 더 구비함이 바람직하다.

상기 확장채널 오디오 데이터 부호화는 비트율이 가장 낮은 기본계층을 부호화하는 단계; 및 상기 기본계층의 비트율보다 높으며, 계층이 복수개 일 경우 계층 이 높아질수록 비트율이 높아지는 상위계층을 부호화하는 단계를 포함함이 바람직하다.

상기 기술적 과제를 이루기 위한 본 발명에 의한 멀티채널 오디오신호 부호화 장치는 모노/스테레오 오디오 데이터를 부호화하는 모노/스테레오 부호화부; 및 상기 모노/스테레오 오디오 데이터 이외의 멀티채널 오디오 확장데이터를 부호화하는 확장데이터부호화부를 포함함을 특징으로 한다. 상기 모노/스테레오 부호화부는 계층적인 비트율을 가지는 모노/스테레오 오디오 데이터를 부호화함이 바람직하다.

상기 확장데이터부호화부의 멀티채널 오디오 확장데이터는 적어도 오디오 채널의 구성을 나타내며 채널구성 인덱스로 표현되는 확장채널의 타입 정보를 포함함이 바람직하다. 상기 확장데이터부호화부는 멀티채널 오디오 확장데이터의 시작을 나타내는 소정의 시작코드(zero_code, syncword)를 부호화하는 시작코드부호화부; 및 확장 오디오 데이터를 채널별로 부호화하는 채널부호화부를 포함함이 바람직하다. 상기 부호화 장치의 시작코드부호화부의 시작코드는 32비트의 연속된 0 값으로 이루어진 zero_code; 및 8비트의 연속된 1 값으로 이루어진 syncword로 구성됨이 바람직하다. 상기 채널부호화부는 오디오 채널의 구성을 나타내는 확장채널의 타입을 부호화하는 확장채널타입부호화부; 및 확장채널 오디오 데이터를 부호화하는 확장오디오부호화부를 포함함이 바람직하다. 상기 확장채널의 타입은 채널구성 인덱스로 이루어짐이 바람직하다. 상기 채널부호화부는 확장데이터의 길이를 부호화하는 확장데이터 길이 부호화부; 및 부가정보(bsac header, general header)를 부호화하는 부가정보부호화부를 더 구비함이 바람직하다.

상기 확장오디오부호화부는 비트율이 가장 낮은 기본계층을 부호화하는 기본계층부호화부; 및 상기 기본계층의 비트율보다 높으며, 계층이 복수개 일 경우 계층이 높아질수록 비트율이 높아지는 상위계층을 부호화하는 상위계층부호화부를 포함함이 바람직하다.

상기 다른 기술적 과제를 이루기 위한 본 발명에 의한 멀티채널 오디오신호 복호화 방법은 (a) 모노/스테레오 오디오 데이터를 복호화하는 단계; (b) 상기 모노/스테레오 오디오 데이터 이외에 복호화할 멀티채널 오디오 확장데이터가 있는지 검사하는 단계; 및 (c) 복호화할 확장 데이터가 있으면, 멀티채널 오디오 확장데이터를 복호화하는 단계를 포함함이 바람직하다. 상기 복호화 방법의 모노/스테레오 오디오 데이터는 계층적인 비트율을 가짐이 바람직하다.

상기 (b)단계의 멀티채널 오디오 확장데이터는 적어도 오디오 채널의 구성을 나타내며 채널구성 인덱스로 표현되는 확장채널의 타입 정보를 포함함이 바람직하다. 상기 (b)단계는 멀티채널 오디오 확장데이터의 시작을 나타내는 소정의 시작코드(zero_code, syncword)의 존재를 검사하여 상기 시작코드가 존재하면 확장데이터 존재한다고 판단함이 바람직하다. 상기 시작코드는 32비트의 연속된 0 값으로 이루어진 zero_code; 및 8비트의 연속된 1 값으로 이루어진 syncword로 구성됨이 바람직하다. 상기 (c)단계는 복호화할 확장 데이터가 있으면, 채널별로 확장 데이터를 복호화함이 바람직하다. 상기 채널별 확장데이터 부호화는 오디오 채널의 구성을 나타내는 확장채널의 타입을 복호화하는 단계; 및 확장채널 오디오 데이터를 복호화 단계를 포함함이 바람직하다. 상기 확장채널의 타입은 채널구성 인덱스로 이루어짐이 바람직하다.

상기 채널별 확장데이터 복호화는 확장데이터의 길이를 복호화하는 단계; 및 부가정보(bsac header, general header)를 복호화하는 단계를 포함함이 바람직하다. 상기 확장채널 오디오 데이터 복호화는 비트율이 가장 낮은 기본계층을 복호화하는 단계; 및 상기 기본계층의 비트율보다 높으며, 계층이 복수개 일 경우 계층이 높아질수록 비트율이 높아지는 상위계층을 복호화함이 바람직하다.

상기 다른 기술적 과제를 이루기 위한 본 발명에 의한 멀티채널 오디오신호 복호화 장치는 모노/스테레오 오디오 데이터를 복호화하는 모노/스테레오 복호화부; 상기 모노/스테레오 오디오 데이터 이외에 복호화할 멀티채널 오디오 확장데이터가 있는지 검사하는 확장데이터검사부; 및 복호화할 확장 데이터가 있으면, 멀티채널 오디오 확장데이터를 복호화하는 확장데이터 복호화부를 포함함을 특징으로 한다. 상기 모노/스테레오 오디오 데이터는 계층적인 비트율을 가짐이 바람직하다. 상기 확장데이터 검사부는 멀티채널 오디오 확장데이터의 시작을 나타내는 소정의 시작코드(zero_code, syncword)의 존재를 검사하여 상기 시작코드가 존재하면 확장데이터 존재한다고 판단함이 바람직하다. 상기 시작코드는 32비트의 연속된 0 값으로 이루어진 zero_code; 및 8비트의 연속된 1 값으로 이루어진 syncword로 구성됨이 바람직하다. 상기 확장데이터복호화부는 복호화할 확장 데이터가 있으면, 채널별로 확장 데이터를 복호화함이 바람직하다. 상기 확장데이터복호화부는 오디오 채널의 구성을 나타내는 확장채널의 타입을 복호화하는 확장채널타입복호화부; 및 확장채널 오디오 데이터를 복호화하는 확장채널 오디오 복호화부를 포함함이 바 람직하다. 상기 확장채널의 타입은 채널구성 인덱스로 이루어짐이 바람직하다. 상기 확장데이터 복호화부는 확장데이터의 길이를 복호화하는 확장데이터 길이 복호화부; 및 부가정보(bsac header, general header)를 복호화하는 부가정보복호화부를 더 포함함이 바람직하다. 상기 확장채널 오디오 복호화부는 비트율이 가장 낮은 기본계층을 복호화하는 기본계층 복호화부; 및 상기 기본계층의 비트율보다 높으며, 계층이 복수개 일 경우 계층이 높아질수록 비트율이 높아지는 상위계층을 복호화하는 상위계층 복호화부를 포함함이 바람직하다.

그리고 상기 기재된 발명을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

이하, 첨부된 도면들을 참조하여 본 발명에 따른 멀티채널 오디오 부호화/복호화 장치 및 방법에 대해 상세히 설명한다.

먼저, 멀티채널 오디오 부호화 장치 및 방법을 설명하기로 한다. 도 3은 본 발명에 의한 멀티채널 오디오 데이터 부호화 장치의 구성을 블록도로 도시한 것으로서, 모노/스테레오 부호화부(300) 및 확장데이터 부호화부(350)를 포함하여 이루어진다.

상기 모노/스테레오 부호화부(300)는 모노 또는 스테레오 오디오 데이터를 부호화한다. 상기 모노/스테레오 부호화부(300)는 계층적인 비트율을 가지는 모노 또는 스테레오 오디오 데이터를 부호화함이 바람직하다. 특히 상기 모노 또는 스테레오 오디오 데이터는 ISO/IEC 14496-3 에 의한 BSAC 방식으로 부호화됨이 바람직하다. 상기 BSAC 방식의 오디오 부호화는 이미 공지된 기술이므로 여기서는 설 명을 생략한다.

상기 확장데이터 부호화부(350)는 상기 모노 또는 스테레오 오디오 데이터 이외의 멀티채널 오디오 확장데이터를 부호화한다. 상기 멀티채널 오디오 확장데이터는 적어도 오디오 채널의 구성을 나타내는 확장채널의 타입 정보를 포함하며, 상기 확장채널 타입 정보는 채널구성 인덱스(channel_configuration_index)로 표현됨이 바람직하다. 상기 채널구성 인덱스는 표 1에 도시된 바와 같이 오디오 출력 채널 구성을 나타내는 3비트 필드를 가짐이 바람직하다. 상기 채널구성 인덱스는 채널을 스피커에 매핑할 때, 상기 채널의 수를 규정한다.

도 4는 상기 확장데이터 부호화부(350)의 보다 상세한 구성을 블록도로 도시한 것으로서, 시작코드 부호화부(400) 및 채널 부호화부(450)를 포함하여 이루어진다. 상기 시작코드 부호화부(400)는 멀티채널 오디오 확장데이터의 시작을 나타내는 소정의 시작코드를 부호화한다. 상기 시작코드는 zero_code 및 syncword로 이루어진다.

상기 zero_code는 스테레오 오디오 데이터의 산술 복호화가 끝났음을 알리기 위한 32비트의 연속된 0 값으로 이루어진다. 상기 syncword는 확장된 멀티채널 오디오 데이터의 시작을 나타내기 위해 8비트의 연속된 1 값으로 이루어진다. 상기 비트스트링은 '1111 1111'이다.

상기 채널부호화부(450)는 확장 오디오 데이터를 채널별로 부호화하며, 확장채널길이 부호화부(452), 확장채널 타입 부호화부(454), 부가정보 부호화부(456) 및 확장오디오 부호화부(458)를 포함하여 이루어진다. 상기 확장채널 길이 부호화부(452)는 확장데이터의 길이를 부호화한다. 상기 확장데이터 길이 정보는 산술 복호화할 때 사용된다.

상기 확장채널 타입 부호화부(454)는 오디오 채널의 구성을 나타내는 확장채널의 타입을 부호화한다. 상기 부가정보 부호화부(456)는 부가정보(bsac_header, general_header)를 부호화한다. 상기 부가정보(bsac_header, general_header)는 BSAC 방식의 모노 또는 스테레오 오디오 데이터를 부호화할 때 사용한 부가정보와 동일하다. 상기 확장오디오 부호화부(458)는 확장채널 오디오 데이터를 부호화한다.

도 5는 상기 확장오디오 부호화부(458)의 세부 구성을 블록도로 도시한 것이다. 상기 확장오디오부호화부(458)는 기본계층 부호화부(500) 및 상위계층 부호화부(550)를 포함하여 이루어진다. 상기 기본계층 부호화부(500)는 비트율이 가장 낮은 기본계층을 부호화한다. 상기 상위계층부호화부(550)는 상기 기본계층의 비트율보다 높으며, 계층이 복수개 일 경우 계층이 높아질수록 비트율이 높아지는 상위계층을 부호화 한다.

본 발명은 기존 스테레오 비트스트림에 채널을 확장하는 방식을 사용하고 있다. 각 채널 요소에 채널 구성 인덱스를 부여한다. 오디오 부호화시 사용가능한 각 툴(Tool)에 대한 부가정보의 수정 가능성을 나타낸다. window, M/S, PNS 정보는 genaral header 가 채널요소마다 있으므로 수정이 필요한 모든 tool을 수정 가능하다.

도 6은 본 발명에 의한 멀티채널 오디오 데이터 부호화에 대한 기본적인 데이터 구조를 도시한 것이다. 그리고 도 7은 본 발명에 의한 멀티채널 오디오 데이터 부호화 방법을 흐름도로 도시한 것이다. 도 6 및 도 7을 참조하여 본 발명에 의한 멀티채널 오디오 데이터 부호화 방법과 부호화 장치의 동작을 설명하기로 한다.

먼저, 모노/스테레오 부호화부(300)에서 모노 또는 스테레오 오디오 데이터가 부호화된다.(700단계) 그리고 나서 확장데이터 부호화부(350)에서 상기 모노 또는 스테레오 오디오 데이터 이외의 멀티채널 오디오 확장데이터가 부호화된다. 상기 모노/스테레오 오디오 데이터는 상술한 바와 같이 계층적인 비트율을 가짐이 바람직하다. 또한 상기 멀티채널 오디오 확장데이터는 적어도 오디오 채널의 구성을 나타내며 채널구성 인덱스로 표현되는 상술한 확장채널의 타입 정보를 포함한다.

상기 멀티채널 오디오 확장데이터의 부호화를 보다 상세히 설명하면, 다음과 같다. 모노 또는 스테레오 오디오 데이터가 부호화된 후, 부호화할 데이터가 있는지 체크한다.(710단계) 부호화할 데이터가 존재하면, 시작코드 부호화부(400)에서 멀티채널 오디오 확장데이터의 시작을 나타내는 소정의 시작코드(zero_code, syncword)가 부호화된다.(720단계) 상기 시작코드는 상술한 부호화 장치에서와 같다. 그리고 나서 채널부호화부(450)를 통해 각 채널에 대해 확장 오디오 데이터가 부호화된다. 이는 먼저 하나의 채널에 대해 확장오디오 데이터를 부호화 한 후(730단계), 상기 채널에 대한 부호화가 완료되면, 다른 채널에 대한 부호화할 오디오 데이터가 있는지 검사한다.(740단계) 다른 채널에 대한 부호화할 오디에 데이터가 존재하면 상기 채널에 대한 오디오 데이터를 부호화한다. 상기 과정을 모든 확장채널에 대해 수행하여 확장채널 오디오 데이터 모두에 대해 부호화한다.

도 8은 상기 730단계의 확장채널에 대한 오디오 데이터 부호화를 보다 상세히 설명한 흐름도이다. 확장데이터 길이 부호화부(452)에서 확장데이터의 길이가 부호화된다.(800단계) 또한 확장채널타입 부호화부(454)에서 오디오 채널의 구성을 나타내는 확장채널의 타입이 부호화된다.(820단계) 부가정보 부호화부(456)에서 부가정보(bsac header, general header)가 부호화된다.(840단계) 그리고 나서 확장오디오 부호화부(458)에서 확장채널 오디오 데이터가 부호화된다.(860단계)

상기 860단계의 확장채널 오디오 데이터 부호화는 먼저 기본계층 부호화부(500)에서 비트율이 가장 낮은 기본계층의 오디오 데이터가 부호화되고, 상위계층 부호화부(550)에서 상위계층의 오디오 데이터가 부호화된다. 상기 상위계층은 상기 기본계층의 비트율보다 높으며 계층이 복수개 일 경우 계층이 높아질수록 비트율이 높아진다.

한편, 본 발명에 의한 멀티채널 오디오 복호화 장치 및 방법을 설명하기로 한다. 기본적으로 멀티채널 오디오 복호화는 부호화의 역순이다.

도 9는 상기 멀티채널 오디오 복호화장치의 구성을 블록도로 도시한 것으로서, 모노/스테레오 복호화부(900), 확장데이터 검사부(920) 및 확장데이터 복호화부(940)를 포함하여 이루어진다.

상기 모노/스테레오 복호화부(900)는 모노 또는 스테레오 오디오 데이터를 복호화한다. 상기 모노 또는 스테레오 오디오 데이터는 계층적인 비트율을 가지며, ISO/IEC 14496-3 에 의한 BSAC 방식으로 복호화됨이 바람직하다.

상기 확장데이터 검사부(920)는 상기 모노 또는 스테레오 오디오 데이터 이외에 복호화할 멀티채널 오디오 확장데이터가 있는지 검사한다. 상기 확장데이터 검사부(920)는 멀티채널 오디오 확장데이터의 시작을 나타내는 소정의 시작코드(zero_code, syncword)의 존재를 검사하여 상기 시작코드가 존재하면 확장데이터 존재한다고 판단한다. 상기 시작코드는 zero_code 및 syncword로 이루어진다. 상기 zero_code는 스테레오 오디오 데이터의 산술 복호화가 끝났음을 알리기 위한 32비트의 연속된 0 값으로 이루어진다. 상기 syncword는 확장된 멀티채널 오디오 데이터의 시작을 나타내기 위해 8비트의 연속된 1 값으로 이루어지며, 비트스트링은 '1111 1111'이다.

상기 확장데이터 복호화부(940)는 복호화할 확장 데이터가 있으면, 멀티채널 오디오 확장데이터를 복호화한다. 또한 상기 확장데이터 복호화부(940)는 복호화할 때 채널별로 확장 데이터를 복호화함이 바람직하다.

도 10은 상기 확장데이터복호화부(940)의 구성을 블록도로 도시한 것으로서, 확장데이터 길이 복호화부(1000), 확장채널 타입 복호화부(1020), 부가정보 복호화부(1040) 및 확장채널 오디오 복호화부(1060)를 포함하여 이루어진다.

상기 확장데이터 길이 복호화부(1000)는 확장데이터의 길이 정보를 복호화한다. 확장채널 타입 복호화부(1020)는 오디오 채널의 구성을 나타내는 확장채널의 타입을 복호화한다. 상기 확장채널 타입 정보는 채널구성 인덱스(channel_configuration_index)로 표현됨이 바람직하다. 상기 채널구성 인덱스는 채널을 스피커에 매핑할 때 상기 채널의 수를 규정하며, 상기 표 2에 도시된 바와 같이 오디오 출력 채널 구성을 나타내는 3비트 필드를 가진다.

상기 부가정보 복호화부(1040)는 부가정보를 복호화한다. 상기 부가정보에는 bsac header 및 general header 등 오디오 데이터를 복호화할 때 오디오 데이터 외의 필요한 정보이다. 기본적으로 상기 부가정보(bsac_header, general_header)는 BSAC 방식의 모노 또는 스테레오 오디오 데이터를 복호화할 때 필요한 부가정보와 동일하다.

상기 확장채널 오디오 복호화부(1060)는 확장채널 오디오 데이터를 복호화한다. 도 11은 상기 확장채널 오디오 복호화부(1060)의 구성을 블록도로 도시한 것으로서, 기본계층 복호화부(1100) 및 상위계층 복호화부(1150)를 구비한다. 상기 기본계층 복호화부(1100)는 비트율이 가장 낮은 기본계층을 복호화한다. 상기 상위계층 복호화부(1150)는 상위계층을 복호화 하며, 상기 상위계층은 상기 기본계층의 비트율보다 높으며 계층이 복수개 일 경우 계층이 높아질수록 비트율이 높아진다.

그리고 도 12는 본 발명에 의한 멀티채널 오디오 데이터 복호화 방법을 흐름도로 도시한 것이다. 도 12를 참조하여 본 발명에 의한 멀티채널 오디오 데이터 부호화 방법과 부호화 장치의 동작을 설명하기로 한다.

먼저, 모노/스테레오 복호화부(900)를 통해 모노 또는 스테레오 오디오 데이터가 복호화된다.(1200단계) 그리고 나서 확장데이터 검사부(920)를 통해 상기 모노/스테레오 오디오 데이터 이외에 복호화할 멀티채널 오디오 확장데이터가 있는지 검사한다.(1210단계) 상기 멀티채널 오디오 확장데이터 존재여부는 멀티채널 오디오 확장데이터의 시작을 나타내는 소정의 시작코드(zero_code, syncword)를 복호화하여 상기 시작코드의 존재를 검사하여 판단한다.(1220단계) 만일 상기 시작코드가 존재하면 확장데이터 존재한다고 판단한다. 즉 zero_code가 존재하면 모노 또는 스테레오 오디오 데이터 복호화가 종료되었음을 알리고, 이어서 syncword가 존재하면 복호화할 멀티채널 오디오 데이터가 존재함을 나타낸다.

상기 시작코드를 통해 복호화할 확장 데이터가 있다고 판단되면, 확장데이터 복호화부(940)를 통해 멀티채널 오디오 확장데이터가 복호화된다.(1230단계)

상기 1200단계 내지 1230단계에 대한 일실시예를 syntax (Bsac_raw_data_block())로 나타내면 도 14와 같다.

도 14에서 Bsac_raw_data_block()은 부호화된 오디오 데이터, 관련 정보 및 다른 데이터를 포함하고 있는 raw 데이터 블록으로서, 기본적으로 bsac_base_element()와 몇 개의 bsac_layer_element()로 구성된다. BSAC 비트스트림이 확장된 part를 가지는지를 결정하는 모듈이 존재한다.

상기 모노/스테레오 오디오 데이터는 상술한 바와 같이 계층적인 비트율을 가짐이 바람직하다. 또한 상기 멀티채널 오디오 확장데이터는 적어도 오디오 채널의 구성을 나타내며 채널구성 인덱스로 표현되는 상술한 확장채널의 타입 정보를 포함한다.

하나의 채널에 대해 확장오디오 데이터를 복호화 한 후(1230단계), 상기 채널에 대한 복호화가 완료되면, 다른 채널에 대한 복호화할 오디오 데이터가 있는지 검사한다.(1240단계) 다른 채널에 대한 복호화할 오디오 데이터가 존재하면 상기 채널에 대한 오디오 데이터를 복호화한다. 상기 과정을 모든 확장채널에 대해 수행하여 확장채널 오디오 데이터 모두에 대해 복호화한다.

상기 각 오디오 채널 복호화에 대한 일실시예를 나타내는 syntax (extended_bsac_raw_data_block())는 도 15와 같다.

도 15에서 extended_bsac_raw_data_block()은 멀티채널의 확장 데이터에 대한 코딩된 오디오데이터, 상기 오디오 데이터와 관련된 정보를 포함하고 있는 raw 데이터 블록이다. 상기 extended_bsac_raw_data_block()은 기본적으로 extended_bsac_base_element() 와 몇 개의 bsac_layer_element()로 구성된다.

도 13은 상기 1230단계의 확장채널에 대한 오디오 데이터 복호화를 보다 상세히 설명한 흐름도이다. 확장데이터 길이 복호화부(1000)에서 확장데이터의 길이가 복호화된다.(1300단계) 또한 확장채널타입 복호화부(1020)에서 오디오 채널의 구성을 나타내는 확장채널의 타입이 복호화된다.(1320단계) 부가정보 복호화부(1040)에서 부가정보(bsac header, general header)가 복호화된다.(1340단계) 상기 1300단계 내지 1340단계의 복호화 단계는 순서가 바뀌어도 무방하다. 그리고 나서 확장채널 오디오 복호화부(1060)에서 확장채널 오디오 데이터가 복호화된다.(1060단계)

상기 1060단계의 확장채널 오디오 데이터 복호화는 먼저 기본계층 복호화부(1100)에서 비트율이 가장 낮은 기본계층의 오디오 데이터가 복호화되고, 상위계층 부호화부(1150)에서 상위계층의 오디오 데이터가 복호화된다. 상기 상위계층은 상기 기본계층의 비트율보다 높으며 계층이 복수개 일 경우 계층이 높아질수록 비트율이 높아진다. 상기 1230단계에 대한 syntax(extended_bsac_raw_data_block())의 일 예를 들면 도 16과 같다.

도 16에서 상기 extended_bsac_base_element()는 BSAC의 확장된 파트에 대한 코딩된 오디오데이터, 상기 오디오 데이터와 관련된 정보를 포함하고 있는 base layer 비트스트림의 구문상 요소이다.

본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터(정보 처리 기능을 갖는 장치를 모두 포함한다)가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있다.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

본 발명에 의한 멀티채널 오디오 부호화/복호화 장치 및 방법에 의하면, 본 발명에 의한 방식이 기존의 BSAC방식을 이용하여 멀티채널 데이터를 인터리브한 것보다 20 % 정도 적은 메모리를 필요로 한다. 이는 기존의 멀티채널 방식에서는 멀티 채널 전체에 대한 데이터를 모두 메모리에 로드해야 되는 반면, 본 발명에 의한 멀티채널 방식을 사용할 경우, 추가되는 채널 요소들이 차례로 처리되기 때문에 동시에 사용하는 메모리 사용량이 상대적으로 적다.

본 발명에 의한 멀티채널 오디오 신호 부호화/복호화 방법 및 장치를 이용하여 음질 측정을 한 결과 도 14와 같다. 청취실험 조건은 다음과 같다. Tool은 Window switching & M/S stero tool이 사용되고, 비트량할당방식은 전방 및 후방 채널 요소별로 비트율을 제어하고, 오디오 전문가 4명을 실험참가자로 하고, 기존 BSAC에 대한 상대적 음질(-2 - +2)을 측정하였다. 그리고 테스트 항목은 MPEG-2 NBC 에 사용된 총 46개 항목 중에서 선정하였다.

따라서 본 발명에 의한 멀티채널 오디오 부호화/복호화 장치 및 방법에 의하면, 하나의 비트스트림으로 사용자 환경에 따라서 모노, 스테레오, 멀티채널을 제공할 수 있다. 멀티 채널에서도 사용자의 단말 및 네트워크 상태에 따라서 FGS 기능을 제공한다. 또한 멀티채널 BSAC의 성능 향상, 예를 들어 고음질, 낮은 복잡도, 확장성 확보를 가능하게 한다. 특히, MPEG 표준화를 위한 여러 요구사항(기존 의 BSAC 와의 호환성, 미세계층(FGS) 기능 유지, 최소한의 수정)을 충족시킬 수 있다.

그리고 고현실감 디지털 멀티미디어 방송, 모바일 및 홈 시어터(home theater) 기반 서비스에서 유용하게 사용될 수 있다.

Claims

(a) 모노/스테레오 오디오 데이터를 부호화하는 단계; 및

(b) 상기 모노/스테레오 오디오 데이터 이외의 멀티채널 오디오 확장데이터를 부호화하는 단계를 포함함을 특징으로 하는 멀티채널 오디오신호 부호화 방법.
제1항에 있어서, 상기 모노/스테레오 오디오 데이터는

계층적인 비트율을 가짐을 특징으로 하는 멀티채널 오디오신호 부호화 방법.
제1항 또는 제2항에 있어서, 상기 (b)단계의 멀티채널 오디오 확장데이터는

적어도 오디오 채널의 구성을 나타내며 채널구성 인덱스로 표현되는 확장채널의 타입 정보를 포함함을 특징으로 하는 멀티채널 오디오신호 부호화 방법.
제1항 또는 제2항에 있어서, 상기 (b)단계는

멀티채널 오디오 확장데이터의 시작을 나타내는 소정의 시작코드(zero_code, syncword)를 부호화하는 단계; 및

확장 오디오 데이터를 채널별로 부호화하는 단계를 포함함을 특징으로 하는 멀티채널 오디오신호 부호화 방법.
제4항에 있어서, 상기 시작코드는

32비트의 연속된 0 값으로 이루어진 zero_code; 및

8비트의 연속된 1 값으로 이루어진 syncword로 구성됨을 특징으로 하는 멀티채널 오디오신호 부호화 방법.
제4항에 있어서, 상기 채널별 확장데이터 부호화는

오디오 채널의 구성을 나타내는 확장채널의 타입을 부호화하는 단계; 및

확장채널 오디오 데이터를 부호화 단계를 포함함을 특징으로 하는 멀티채널 오디오신호 부호화 방법.
제6항에 있어서, 상기 확장채널의 타입은

채널구성 인덱스로 이루어짐을 특징으로 하는 멀티채널 오디오신호 부호화 방법.
제6항에 있어서, 상기 채널별 확장데이터 부호화는

확장데이터의 길이를 부호화하는 단계; 및

부가정보(bsac header, general header)를 부호화하는 단계를 더 구비함을 특징으로 하는 멀티채널 오디오신호 부호화 방법.
제6항에 있어서, 상기 확장채널 오디오 데이터 부호화는

비트율이 가장 낮은 기본계층을 부호화하는 단계; 및

상기 기본계층의 비트율보다 높으며, 계층이 복수개 일 경우 계층이 높아질수록 비트율이 높아지는 상위계층을 부호화하는 단계를 포함함을 특징으로 하는 멀티채널 오디오신호 부호화 방법.
모노/스테레오 오디오 데이터를 부호화하는 모노/스테레오 부호화부; 및

상기 모노/스테레오 오디오 데이터 이외의 멀티채널 오디오 확장데이터를 부호화하는 확장데이터부호화부를 포함함을 특징으로 하는 멀티채널 오디오신호 부호화 장치.
제10항에 있어서, 상기 모노/스테레오 부호화부는

계층적인 비트율을 가지는 모노/스테레오 오디오 데이터를 부호화함을 특징으로 하는 멀티채널 오디오신호 부호화 장치.
제10항 또는 제11항에 있어서, 상기 확장데이터부호화부의 멀티채널 오디오 확장데이터는

적어도 오디오 채널의 구성을 나타내며 채널구성 인덱스로 표현되는 확장채널의 타입 정보를 포함함을 특징으로 하는 멀티채널 오디오신호 부호화 장치.
제10항 또는 제11항에 있어서, 상기 확장데이터부호화부는

멀티채널 오디오 확장데이터의 시작을 나타내는 소정의 시작코드(zero_code, syncword)를 부호화하는 시작코드부호화부; 및

확장 오디오 데이터를 채널별로 부호화하는 채널부호화부를 포함함을 특징으로 하는 멀티채널 오디오신호 부호화 장치.
제13항에 있어서, 상기 시작코드부호화부의 시작코드는

32비트의 연속된 0 값으로 이루어진 zero_code; 및

8비트의 연속된 1 값으로 이루어진 syncword로 구성됨을 특징으로 하는 멀티채널 오디오신호 부호화 장치.
제13항에 있어서, 상기 채널부호화부는

오디오 채널의 구성을 나타내는 확장채널의 타입을 부호화하는 확장채널타입부호화부; 및

확장채널 오디오 데이터를 부호화하는 확장오디오부호화부를 포함함을 특징으로 하는 멀티채널 오디오신호 부호화 장치.
제15항에 있어서, 상기 확장채널의 타입은

채널구성 인덱스로 이루어짐을 특징으로 하는 멀티채널 오디오신호 부호화 장치.
제15항에 있어서, 상기 채널부호화부는

확장데이터의 길이를 부호화하는 확장데이터 길이 부호화부; 및

부가정보(bsac header, general header)를 부호화하는 부가정보부호화부를 더 구비함을 특징으로 하는 멀티채널 오디오신호 부호화 장치.
제15항에 있어서, 상기 확장오디오부호화부는

비트율이 가장 낮은 기본계층을 부호화하는 기본계층부호화부; 및

상기 기본계층의 비트율보다 높으며, 계층이 복수개 일 경우 계층이 높아질수록 비트율이 높아지는 상위계층을 부호화하는 상위계층부호화부를 포함함을 특징으로 하는 멀티채널 오디오신호 부호화 장치.
(a) 모노/스테레오 오디오 데이터를 복호화하는 단계;

(b) 상기 모노/스테레오 오디오 데이터 이외에 복호화할 멀티채널 오디오 확장데이터가 있는지 검사하는 단계; 및

(c) 복호화할 확장 데이터가 있으면, 멀티채널 오디오 확장데이터를 복호화하는 단계를 포함함을 특징으로 하는 멀티채널 오디오신호 복호화 방법.
제19항에 있어서, 상기 모노/스테레오 오디오 데이터는

계층적인 비트율을 가짐을 특징으로 하는 멀티채널 오디오신호 복호화 방법.
제19항 또는 제20항에 있어서, 상기 (b)단계의 멀티채널 오디오 확장데이터 는

적어도 오디오 채널의 구성을 나타내며 채널구성 인덱스로 표현되는 확장채널의 타입 정보를 포함함을 특징으로 하는 멀티채널 오디오신호 복호화 방법.
제19항 또는 제20항에 있어서, 상기 (b)단계는

멀티채널 오디오 확장데이터의 시작을 나타내는 소정의 시작코드(zero_code, syncword)의 존재를 검사하여 상기 시작코드가 존재하면 확장데이터 존재한다고 판단함을 특징으로 하는 멀티채널 오디오신호 복호화 방법.
제22항에 있어서, 상기 시작코드는

32비트의 연속된 0 값으로 이루어진 zero_code; 및

8비트의 연속된 1 값으로 이루어진 syncword로 구성됨을 특징으로 하는 멀티채널 오디오신호 복호화 방법.
제19항 또는 제20항에 있어서, 상기 (c)단계는

복호화할 확장 데이터가 있으면, 채널별로 확장 데이터를 복호화함을 특징으로 하는 멀티채널 오디오신호 복호화 방법.
제24항에 있어서, 상기 채널별 확장데이터 부호화는

오디오 채널의 구성을 나타내는 확장채널의 타입을 복호화하는 단계; 및

확장채널 오디오 데이터를 복호화 단계를 포함함을 특징으로 하는 멀티채널 오디오신호 복호화 방법.
제25항에 있어서, 상기 확장채널의 타입은

채널구성 인덱스로 이루어짐을 특징으로 하는 멀티채널 오디오신호 복호화 방법.
제24항에 있어서, 상기 채널별 확장데이터 복호화는

확장데이터의 길이를 복호화하는 단계; 및

부가정보(bsac header, general header)를 복호화하는 단계를 포함함을 특징으로 하는 멀티채널 오디오신호 복호화 방법.
제25항에 있어서, 상기 확장채널 오디오 데이터 복호화는

비트율이 가장 낮은 기본계층을 복호화하는 단계; 및

상기 기본계층의 비트율보다 높으며, 계층이 복수개 일 경우 계층이 높아질수록 비트율이 높아지는 상위계층을 복호화하는 단계를 포함함을 특징으로 하는 멀티채널 오디오신호 복호화 방법.
모노/스테레오 오디오 데이터를 복호화하는 모노/스테레오 복호화부;

상기 모노/스테레오 오디오 데이터 이외에 복호화할 멀티채널 오디오 확장데 이터가 있는지 검사하는 확장데이터검사부; 및

복호화할 확장 데이터가 있으면, 멀티채널 오디오 확장데이터를 복호화하는 확장데이터복호화부를 포함함을 특징으로 하는 멀티채널 오디오신호 복호화 장치.
제29항에 있어서, 상기 모노/스테레오 오디오 데이터는

계층적인 비트율을 가짐을 특징으로 하는 멀티채널 오디오신호 복호화 장치
제29항 또는 제30항에 있어서, 상기 확장데이터 검사부는

멀티채널 오디오 확장데이터의 시작을 나타내는 소정의 시작코드(zero_code, syncword)의 존재를 검사하여 상기 시작코드가 존재하면 확장데이터 존재한다고 판단함을 특징으로 하는 멀티채널 오디오신호 복호화 장치.
제31항에 있어서, 상기 시작코드는

32비트의 연속된 0 값으로 이루어진 zero_code; 및

8비트의 연속된 1 값으로 이루어진 syncword로 구성됨을 특징으로 하는 멀티채널 오디오신호 복호화 장치.
제29항 또는 제30항에 있어서, 상기 확장데이터복호화부는

복호화할 확장 데이터가 있으면, 채널별로 확장 데이터를 복호화함을 특징으로 하는 멀티채널 오디오신호 복호화 장치.
제33항에 있어서, 상기 확장데이터복호화부는

오디오 채널의 구성을 나타내는 확장채널의 타입을 복호화하는 확장채널타입복호화부; 및

확장채널 오디오 데이터를 복호화하는 확장채널 오디오 복호화부를 포함함을 특징으로 하는 멀티채널 오디오신호 복호화 장치.
제34항에 있어서, 상기 확장채널의 타입은

채널구성 인덱스로 이루어짐을 특징으로 하는 멀티채널 오디오신호 복호화 장치.
제33항에 있어서, 상기 확장데이터 복호화부는

확장데이터의 길이를 복호화하는 확장데이터 길이 복호화부; 및

부가정보(bsac header, general header)를 복호화하는 부가정보복호화부를 더 포함함을 특징으로 하는 멀티채널 오디오신호 복호화 장치.
제34항에 있어서, 상기 확장채널 오디오 복호화부는

비트율이 가장 낮은 기본계층을 복호화하는 기본계층 복호화부; 및

상기 기본계층의 비트율보다 높으며, 계층이 복수개 일 경우 계층이 높아질수록 비트율이 높아지는 상위계층을 복호화하는 상위계층 복호화부를 포함함을 특 징으로 하는 멀티채널 오디오신호 복호화 장치.
제1항 내지 제9항, 제19항 내지 제28항 중 어느 한 항에 기재된 발명을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.