KR100745689B1

KR100745689B1 - 혼합된 오디오 스트림으로부터 오디오 객체를 분리하기위한 단말 장치 및 그 방법

Info

Publication number: KR100745689B1
Application number: KR1020050061861A
Authority: KR
Inventors: 서정일; 박기윤; 장대영; 강경옥; 홍진우
Original assignee: 한국전자통신연구원
Priority date: 2004-07-09
Filing date: 2005-07-08
Publication date: 2007-08-03
Also published as: KR20060050009A; WO2006006812A1; EP1774656A4; EP1774656A1

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야

본 발명은 혼합된 오디오 스트림으로부터 오디오 객체를 분리하기 위한 단말 장치 및 그 방법에 관한 것임.

2. 발명이 해결하려고 하는 기술적 과제

본 발명은 하나의 기본 스트림으로 압축된 다수의 오디오 객체들을 BIFS를 이용하여 분리 처리할 수 있는 노드 구조를 제안하고, 그 제안한 노드를 이용하여 혼합된 오디오 스트림으로부터 오디오 객체를 분리하기 위한 단말 장치 및 그 방법을 제공하는데 목적이 있음.

3. 발명의 해결방법의 요지

본 발명은, 다수의 오디오 객체가 압축된 기본 스트림(ES)을 디코딩하기 위한 디코딩부; 및 오디오 객체 분리 노드를 이용하여 상기 디코딩된 오디오 스트림에서 오디오 객체들을 분리하고, 분리된 오디오 객체들을 이용하여 오디오 장면을 구성하기 위한 컴포지터를 포함하는 단말 장치로서, 상기 오디오 객체 분리 노드는, 분리하고자 하는 오디오 객체의 수를 기술하는 필드; 및 객체 분리를 수행할지 여부를 기술하는 필드를 포함함.

4. 발명의 중요한 용도

본 발명은 MPEG-4 시스템 등에 이용됨.

MPEG-4, BIFS, 객체, 기본 스트림(ES), 오디오 장면, 분리

Description

혼합된 오디오 스트림으로부터 오디오 객체를 분리하기 위한 단말 장치 및 그 방법{Apparatus and Method for separating audio objects from the combined audio stream}

도 1은 본 발명에 따른 오디오 객체 분리를 위한 노드의 구조를 나타낸 일실시예 도면,

도 2는 도 1의 "AudioObjectSeparator" 노드를 이용하여 구성한 AudioBIFS 사운드 장면 그래프(sound scene graph)를 나타낸 일실시예 도면,

도 3은 도 1의 "AudioObjectSeparator" 노드를 이용하여 구성한 AudioBIFS 사운드 장면 그래프(sound scene graph)를 나타낸 다른 일실시예 도면,

도 4는 MPEG-4 표준에 따른 단말 장치의 일실시예 구성도이다.

본 발명은 다수의 오디오 객체가 포함된 하나의 기본 스트림(ES)으로부터 오디오 객체를 분리 처리하기 위한 단말 장치 및 그 방법에 관한 것이다.

MPEG-4는 낮은 전송률로 동화상을 전송하기 위하여 MPEG(Motion Picture Expert Group)이 정의한 데이터 압축 및 복원 기술에 관한 표준으로, MPEG-4에서는 오디오 및 비디오 콘텐츠를 객체 단위로 분할하여 AV(Audio Video) 장면을 구성함으로써 사용자가 객체 단위의 제어가 가능하도록 한다.

이를 위해 MPEG-4에서는 객체들의 속성을 표현하는 객체 서술자(OD:Object Descriptor), 압축된 오디오 및 비디오 스트림의 특성을 표현하는 기본 스트림 서술자(ESD:Elementary Stream Descriptor) 및 구성하고자 하는 AV 장면을 기술하기 위한 장면 서술자(BIFS:Binary Format For Scene)를 정의한다.

이 때, 하나의 기본 스트림 서술자(ESD)는 하나의 오디오 또는 비디오 객체를 포함하는 기본 스트림(ES)의 특징만을 기술할 수 있다. 한편, 객체 서술자(OD)는 두 개 이상의 기본 스트림(ES)를 포함할 수 있으나, 스케일러블(Scalable) 스트림과 다중 언어와 같이 선택적인 경우에만 한정되므로, 객체 서술자(OD) 또한 하나의 오디오 또는 비디오 객체만을 기술할 수 있다.

따라서, 하나의 기본 스트림(ES)에 두 개 이상의 객체가 포함되면 MPEG-4의 객체 서술자(OD) 및 기본 스트림 서술자(ESD) 정의에 어긋나는 스트림을 생성하게 된다. 예를 들면, BCC(Binaural Cue Coding)는 두 개 이상의 오디오 객체를 하나의 혼합된 모노 오디오 신호와 부가적인 바이노럴 큐 파라미터로 압축하여 하나의 스트림으로 다중화하는데, 전술한 바와 같이 MPEG-4의 객체 서술자(OD) 및 기본 스트림 서술자(ESD) 정의에 어긋나게 하나의 기본 스트림에 두 개 이상의 객체가 포함되어, 수신 단말에서 오디오 장면을 구성하지 못하는 문제점이 있다.

본 발명은 상기 문제점을 해결하기 위하여 제안된 것으로, 하나의 기본 스트림으로 압축된 다수의 오디오 객체들을 BIFS를 이용하여 분리 처리할 수 있는 노드 구조를 제안하고, 그 제안한 노드를 이용하여 혼합된 오디오 스트림으로부터 오디오 객체를 분리하기 위한 단말 장치 및 그 방법을 제공하는데 목적이 있다.

본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

상기 목적을 달성하기 위한 본 발명은 다수의 오디오 객체들이 압축된 하나의 기본 스트림을 수신하여 오디오 장면을 구성하는 단말장치에 있어서, 상기 수신된 기본 스트림을 디코딩하는 디코딩부와, 상기 디코딩된 기본 스트림에서 오디오 객체들을 분리하고, 상기 분리된 오디오 객체들을 이용하여 오디오 장면을 구성하는 컴포지터를 포함하고, 상기 기본 스트림은 압축된 오디오 객체들의 수를 기술하는 필드와, 객체 분리를 수행할지 여부를 기술하는 필드를 갖는 장면 기술자를 구비하는 것을 일 특징으로 한다.
또한 본 발명은 다수의 오디오 객체들이 압축된 하나의 기본 스트림을 수신하여 오디오 장면을 구성하는 방법에 있어서, 상기 수신된 기본 스트림을 디코딩하는 단계와, 상기 디코딩된 기본 스트림에서 오디오 객체들을 분리하고, 상기 분리된 오디오 객체들을 이용하여 오디오 장면을 구성하는 단계를 포함하고, 상기 기본 스트림은 압축된 오디오 객체들의 수를 기술하는 필드와, 객체 분리를 수행할지 여부를 기술하는 필드를 갖는 장면 기술자를 구비하는 것을 다른 특징으로 한다.

삭제

이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.

또한, 본 발명의 원리, 관점 및 실시예들뿐만 아니라 특정 실시예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물 뿐만 아니라 장래에 개발된 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다.

따라서, 예를 들어, 본 명세서의 블럭도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.

프로세서 또는 이와 유사한 개념으로 표시된 기능 블록을 포함하는 도면에 도시된 다양한 소자의 기능은 전용 하드웨어뿐만 아니라 적절한 소프트웨어와 관련하여 소프트웨어를 실행할 능력을 가진 하드웨어의 사용으로 제공될 수 있다. 프로세서에 의해 제공될 때, 상기 기능은 단일 전용 프로세서, 단일 공유 프로세서 또는 복수의 개별적 프로세서에 의해 제공될 수 있고, 이들 중 일부는 공유될 수 있다.

또한 프로세서, 제어 또는 이와 유사한 개념으로 제시되는 용어의 명확한 상용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비 휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 또한 주지관용의 다른 하드웨어도 포함될 수 있다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.

도 1은 본 발명에 따른 오디오 객체 분리를 위한 노드의 구조를 나타낸 일실 시예 도면으로, 본 실시예에서는 오디오 객체 분리를 위한 노드를 "AudioObjectSeparator"로 정의한다. 본 발명에 따른 오디오 객체 분리를 위한 노드는 MPEG-4 Audio BIFS 노드의 하나로 추가될 수 있다.

도 1에 도시된 바와 같이, 본 발명에 따른 "AudioObjectSeparator" 노드는 "addChildren", "removeChildren", "child", "url", "numObject" 및 "separate" 필드를 포함한다. 각 필드(field)에 대해 설명하면 다음과 같다.

"addChildren" 필드는 "AudioObjectSeparator" 노드의 자식 노드로 추가될 노드들의 리스트를 기술한다.

"removeChildren" 필드는 "AudioObjectSeparator" 노드의 자식 노드 중에 제거할 노드들의 리스트를 기술한다.

"child" 필드는 "AudioBuffer" 노드에 저장된 사운드 샘플을 연결하기 위해 사용된다. "AudioObjectSeparator" 노드와 "AudioSouce" 노드만이 "AudioBuffer" 노드를 자식 노드로 가질 수 있다.

"url" 필드는 "AudioObjectSeparator" 노드가 연결되는 오디오 스트림의 객체 기술자(OD) ID를 기술한다.

"numObject" 필드는 분리하고자 하는 객체의 수를 기술하며, "separate" 필드가 "TRUE"일때만 객체를 분리하여 처리한다.

도 2는 도 1의 "AudioObjectSeparator" 노드를 이용하여 구성한 AudioBIFS 사운드 장면 그래프(sound scene graph)를 나타낸 일실시예 도면이다. 여기서, 기 본 스트림에 포함된 두 개 이상의 오디오 객체는 BCC(Binaural Cue Coding)와 같은 파라메트릭 멀티채널 오디오 부호화 방식으로 부호화되어 전송된다.

도 2에 도시된 바와 같이, 두 개 이상의 오디오 객체가 포함된 기본 스트림이 디코더(201)에서 디코딩되면, 디코딩된 오디오 스트림은 "AudioSouce" 노드(202)에 의해 오디오 서브그래프(Audio Subgraph)로 연결된다. 즉, BCC로 다수의 오디오 객체가 압축된 기본 스트림이 디코더(201)에서 디코딩되면, 각 오디오 객체 스트림은 분리된 상태로 "AudioSouce" 노드(202)에 전달된다.

본 발명에 따른 "AudioObjectSeparator" 노드(203)는 "AudioSource" 노드(202)에서 분리된 상태로 전달되는 오디오 스트림을 각 객체별로 분리하여 "Sound2D" 노드(204)로 출력한다. 즉, "AudioObjectSeparator" 노드(203)는 사전에 분리된 상태로 전달되는 오디오 스트림을 각 객체별로 분리하는 수동적 역할을 수행한다. 이 때, "AudioObjectSeparator" 노드(203)의 "addChildren" 필드에는 자식 노드로서 "AudioSouce" 노드가 기술되어 있고, "separate" 필드는 "True"로 정의되어 있으며, 분리할 오디오 객체 수는 "numObject"에 정의되어 있다.

"Sound2D" 노드(204)에서는 각 오디오 객체들의 2차원 공간 위치 등과 같은 속성을 정의하여 오디오 장면을 구성한다. 마지막으로, "Transform2D" 노드(205)에서 비디오 장면과 오디오 장면을 통합하여 원하고자 하는 AV(Audio Video) 장면을 구성한다.

도 3은 도 1의 "AudioObjectSeparator" 노드를 이용하여 구성한 AudioBIFS 사운드 장면 그래프(sound scene graph)를 나타낸 다른 일실시예 도면이다.

도 3에서, 다수의 오디오 객체가 포함된 기본 스트림이 디코더(301)에서 디코딩되고, 디코딩된 단일 오디오 스트림은 "AudioSouce" 노드(302)에 의해 오디오 서브그래프(Audio Subgraph)로 연결된다.

본 발명에 따른 "AudioObjectSeparator" 노드(303)는 BSS(Blind Souce Separation) 기술을 이용하여 "AudioSource" 노드(302)로부터 전달되는 단일 오디오 스트림을 원하는 객체 수로 분리하여 "Sound2D" 노드(304)로 출력한다. 이 때, "AudioObjectSeparator" 노드(303)의 "separate" 필드는 "True"로 정의되어 있으며, 분리할 오디오 객체 수는 "numObject"에 정의되어 있다. 즉, 본 실시예에서 "AudioObjectSeparator" 노드(303)는 BSS 기술을 이용하여 능동적으로 하나의 오디오 스트림을 원하는 객체의 수로 분리한다.

"Sound2D" 노드(304)에서는 각 오디오 객체들의 2차원 공간 위치 등과 같은 속성을 정의하여 오디오 장면을 구성한다. 마지막으로, "Transform2D" 노드(305)에서 비디오 장면과 오디오 장면을 통합하여 원하고자 하는 AV(Audio Video) 장면을 구성한다.

도 4은 MPEG-4 표준에 따른 단말 장치의 일실시예 구성도이다.

도 4의 단말 장치에 수신된 다중화된 비트 스트림은 역다중화부(410)에서 객체 서술자 기본 스트림(ES), BIFS 기본 스트림(ES) 및 객체 기본 스트림(ES)으로 분리된다. 이 때, 객체 기본 스트림(ES) 중 어느 하나는 두 개 이상의 오디오 객체를 포함하는 스트림이다. 본 실시예에서는 송신측에서 BCC(Binaural Cue Coding)를 이용하여 두 개 이상의 오디오 객체를 하나의 혼합된 모노 오디오 신호와 부가적인 바이노럴 큐 파라미터로 압축하여 하나의 스트림으로 다중화하여 전송하는 것으로 가정한다. 따라서, 도 4의 단말 장치는 BCC 디코더(434)를 포함한다. 그러나, 혼합된 오디오 스트림은 BCC 이외에 다양한 압축 알고리즘에 의해 부호화될 수 있고, 도 4의 단말 장치는 그에 대응하는 디코더를 포함할 수 있음은 자명하다. 본 발명은 이와 같이 하나의 기본 스트림으로 압축된 오디오 객체들을 도 1에서 제안하는 노드를 이용하여 독립적으로 제어가 가능하도록 분리한다.

단말 관리자(420)는 역다중화된 기본 스트림 중 객체 서술자 기본 스트림(ES)으로부터 객체 서술자를 분석하고, 분석된 객체 서술자에 따라 역다중화부(410)에서 출력되는 객체 기본 스트림을 해당하는 디코더(434, 436)로 입력되도록 한다. 즉, BCC로 부호화된 두 개 이상의 오디오 객체를 포함하는 객체 기본 스트림은 BCC 디코더(434)에 입력되어 디코딩된다. 한편, 장면기술정보를 포함하는 BIFS 스트림은 장면 디코더(432)에서 디코딩된다.

컴포지터(440)는 디코딩된 BIFS 정보와 객체 디코더(436) 및 BCC 디코더(434)에서 디코딩된 객체들을 이용하여 장면 그래프를 생성한다. 특히, BCC 디코더(434)에서 다수의 오디오 객체가 포함된 기본 스트림이 디코딩되면, 디코딩된 오디오 스트림은 "AudioSouce" 노드에 의해 오디오 서브그래프(Audio Subgraph)로 연결되고, 본 발명에 따른 "AudioObjectSeparator" 노드는 "AudioSouce" 노드로부터 전달된 오디오 스트림을 각 객체별로 분리하여 "Sound2D" 노드로 출력한다. 이 때, 본 실시예에서 "AudioObjectSeparator" 노드는 도 2에 도시된 바와 같이 BCC 디코더(434)로부터 분리된 상태로 전달되는 오디오 스트림을 각 객체별로 분리하는 수동적 역할을 수행하나, 도 3에 도시된 바와 같이 BSS 기술을 이용하여 능동적으로 단일 오디오 스트림을 원하는 객체의 수로 분리할 수도 있다. "Sound2D" 노드에서는 각 오디오 객체들의 2차원 공간 위치 등과 같은 속성을 정의하여 오디오 장면을 구성한다. 마지막으로, "Transform2D" 노드에서 비디오 장면과 오디오 장면을 통합하여 원하고자 하는 AV(Audio Video) 장면 그래프를 구성한다.

렌더러(450)는 컴포지터(440)로부터 전달받은 AV 장면과 오디오 및 비디오 데이터를 이용하여 디스플레이 장치나 스피커 등을 이용하여 재생한다.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

상기와 같은 본 발명은, 하나의 기본 스트림으로 압축된 다수의 오디오 객체들을 분리 처리할 수 있는 BIFS 노드 구조를 제안함으로써, 기존 MPEG-4 표준 규격 정의에 어긋나는 혼합된 오디오 스트림을 처리할 수 있어, 적은 대역폭을 효율적으로 사용할 수 있도록 하는 효과가 있다.

Claims

다수의 오디오 객체들이 압축된 하나의 기본 스트림을 수신하여 오디오 장면을 구성하는 단말장치에 있어서,

상기 수신된 기본 스트림을 디코딩하는 디코딩부와,

상기 디코딩된 기본 스트림에서 오디오 객체들을 분리하고, 상기 분리된 오디오 객체들을 이용하여 오디오 장면을 구성하는 컴포지터를 포함하고,

상기 기본 스트림은

압축된 오디오 객체들의 수를 기술하는 필드와,

객체 분리를 수행할지 여부를 기술하는 필드를

갖는 장면 기술자를 구비하는

것을 특징으로 하는 단말장치.
제 1 항에 있어서,

상기 장면 기술자는

자식 노드로 추가될 노드들의 리스트를 기술하는 필드와,

상기 자식 노드 중 제거할 노드들의 리스트를 기술하는 필드와,

버퍼 노드에 저장된 사운드 샘플을 연결하기 위한 필드와,

상기 수신되는 기본 스트림의 객체 기술자 식별부호를 기술하는 필드를

추가로 포함하는 것을 특징으로 하는 단말장치.
제 2 항에 있어서,

상기 컴포지터는

상기 디코딩된 기본 스트림으로부터 상기 다수의 오디오 객체들을 분리하는 객체 분리부와,

상기 분리된 오디오 객체들을 이용하여 오디오 장면을 구성하는 오디오 장면 구성부를

포함하는 것을 특징으로 하는 단말장치.
다수의 오디오 객체들이 압축된 하나의 기본 스트림을 수신하여 오디오 장면을 구성하는 방법에 있어서,

상기 수신된 기본 스트림을 디코딩하는 단계와,

상기 디코딩된 기본 스트림에서 오디오 객체들을 분리하고, 상기 분리된 오디오 객체들을 이용하여 오디오 장면을 구성하는 단계를 포함하고,

상기 기본 스트림은

압축된 오디오 객체들의 수를 기술하는 필드와,

객체 분리를 수행할지 여부를 기술하는 필드를

갖는 장면 기술자를 구비하는

것을 특징으로 하는 오디오 장면의 구성 방법.
삭제
삭제