KR101114431B1

KR101114431B1 - 실시간 스트리밍을 위한 오디오 생성장치, 오디오 재생장치 및 그 방법

Info

Publication number: KR101114431B1
Application number: KR1020100004774A
Authority: KR
Inventors: 조충상; 김제우; 최병호; 이영한
Original assignee: 전자부품연구원
Priority date: 2010-01-19
Filing date: 2010-01-19
Publication date: 2012-02-24
Also published as: KR20110085155A

Abstract

오디오 생성장치가 개시된다. 본 발명에 따른 오디오 생성장치는 오디오 객체를 입력받아 압축하는 오디오 인코더와, 오디오 객체에 일괄적으로 적용될 제1 오디오 효과를 포함하는 주요 장면묘사정보 및 오디오 객체들에 개별적으로 적용될 제2 오디오 효과를 포함하는 세부 장면묘사정보를 포함하는 스트리밍 장면묘사정보를 부호화하는 묘사인코더 및 스트리밍 장면묘사정보와 오디오 객체들을 결합하여 오디오 프레임 단위의 시간에 따라 전송되는 오디오 비트스트림을 생성하는 패킷화부를 포함한다. 본 발명에 따르면, 객체별 효과뿐만 아니라 전체 신호에 효과를 주기 위해서 장면효과 정보를 포함하고 있으며 각 효과를 적용하는 시간을 설정할 수 있다. 또한, 기존의 장면 묘사 방법과 달리 서비스 스트림의 중간에 사용자가 서비스를 받더라도 모든 장면 묘사 정보를 분석할 수 있도록 주요 정보를 반복적으로 전송함으로써 방송 서비스에 적용가능하다는 장점이 있다.

Description

실시간 스트리밍을 위한 오디오 생성장치, 오디오 재생장치 및 그 방법{APPARATUS FOR GENERATIONG AND REPRODUCING AUDIO DATA FOR REAL TIME AUDIO STREAM AND THE METHOD THEREOF}

본 발명은 오디오 처리에 관한 것으로서, 더욱 상세하게는 실시간 스트리밍을 구현할 수 있는 오디오 생성장치, 오디오 재생장치 및 그 방법에 관한 것이다.

일반적으로 라디오 및 MP3, CD 등을 통해 제공되는 오디오 서비스는 음원에 따라 2 개에서 수십개에 이르는 음원으로부터 획득된 신호를 합성하여 모노 및 스테레오, 5.1 채널 신호 등으로 저장 및 재생한다. 이러한 서비스에서 사용자가 주어진 음원과 상호작용(interaction)할 수 있는 것은 음량의 조절 및 이퀄라이저(equalizer)를 통한 대역 증폭 및 감쇄 등이며, 주어진 음원에 대해 특정 객체에 대한 조절 및 효과를 줄 수 없다.

이와같은 단점을 극복하기 위해 오디오 컨텐츠를 제작할 때, 각 음원에 해당하는 신호를 서비스 제공자에서 합성하지 않고, 합성에 필요한 객체들과 각 객체에 필요한 효과 및 음량 등에 해당하는 정보를 저장하여 사용자가 합성할 수 있는 서비스를 객체기반의 오디오 서비스라 한다.

객체기반 오디오 서비스는 각 객체에 대한 압축 정보와 각 객체를 합성하는데 필요한 장면 묘사 정보(Scene Description Information)으로 구성된다. 각 객체에 대한 압축 정보는 MP3 (MPEG-1 layer 3), AAC (Advanced Audio Coding), ALS (MPEG-4 Audio Lossless Coding) 등의 오디오 코덱이 사용될 수 있고, 장면 묘사 정보로는 MPEG-4 BIFs (Binary Format for Scenes)등이 사용될 수 있다.

이 중에서 BIFs(Binary Format for Scene)는 2차원 내지 3차원의 음성 및 영상 콘텐츠를 합성하고, 저장하며, 상기 음성 및 영상을 재생하기 위하여 바이너리 형식으로 규정한 것이다. 이 표준은 VRML과 MPEG-4 표준 11에 기반을 두고 있다.

BIFs를 통해 프로그램과 콘텐츠 데이터베이스가 원활하게 연동될 수 있게 된다. 예컨대, BIFs는 한 장면에서 어떤 자막을 삽입할지, 그림을 어떤 형태로 포함할지, 그림 등이 몇 초 간격으로 얼마 동안 재생될지를 기술한다. 또한 특정장면에 대하여 상호작용을 위한 이벤트를 정의하고, 상기 이벤트의 처리를 통해 사용자가 BIFs를 통하여 랜더링 되는 객체와 상호작용을 할 수 있다. 오디오를 위해서는 음원 정위 효과 및 잔향 효과 등이 정의되어 있다.

그러나 이와같은 BIFs는 다음과 같은 문제점이 있다.

BIFs는 3차원 오디오 효과를 위해 정의된 기능이 음상정위 및 잔향효과로 3차원 오디오를 위한 정보에 제약적이다.

BIFs는 멀티미디어 기기의 UI 및 영상과 오디오 구성 등에 대한 방대한 정보를 포함하고 있으므로, 처리하는 데이터 사이즈가 매우 크며, 높은 연산량을 요구하기 때문에 휴대기기에 구현하기 어렵다는 문제점이 있다.

또한 BIFs에서의 오디오 장면 묘사 정보는 오디오 자체의 장면이라기보다는 전체 UI에서 오디오 인터페이스의 구성에 가깝다. 이에따라 이러한 구조의 장면묘사 기술은 객체오디오에 적용될 수 없으며, 큰 데이터 사이즈와 높은 복잡도를 가지므로 휴대용 기기에 사용하기에 부적합하다.

따라서 다양한 플랫폼에 적용되면서 사용자의 요구를 적극적으로 반영하고, 최근의 고품질 및 3D 오디오 효과를 효율적으로 제공할 수 있는 장면 묘사 방법에 대한 개발이 필요한 실정이다.

또한 종래의 기술들은 저장된 데이터에 적용하기 위한 장면 묘사 방법이기 때문에 방송 서비스와 같은 스트리밍 서비스에 적용하기 위해서는 모든 장면 묘사 정보를 반복적으로 전송해야 한다. 그러나, 모든 장면 묘사 정보가 시간대별로 필요한 것이 아니기 때문에 이러한 반복적인 전송은 비효율적이다.

따라서 각 시점별로 미디어 데이터에 필요한 장면 묘사 정보를 분할하여 전송하는 동시에 주요정보는 반복적으로 전송함으로써, 사용자가 스트리밍 서비스를 제공받는데 있어 최초 데이터를 받지 못하더라도 서비스가 가능할 수 있도록 장면 묘사 정보를 제공하는 것이 필수적이다.

본 발명의 목적은 연산량을 줄여 실시간 스트리밍이 가능한 오디오 생성장치 및 방법을 제공하는 것이다.

본 발명의 다른 목적은 연산량을 줄여 실시간 스트리밍이 가능한 오디오 재생장치 및 방법을 제공하는 것이다.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

전술한 목적을 달성하기 위한 본 발명의 일면에 따른 오디오 생성장치는 오디오 콘텐츠를 구성하는 오디오 객체를 입력받아 압축하는 오디오 인코더와, 오디오 객체에 일괄적으로 적용될 제1 오디오 효과를 포함하고, 미리 설정된 주기에 따라 반복적으로 전송되는 주요 장면묘사정보 및 오디오 객체들에 개별적으로 적용될 장면효과정보와 객체효과정보에 의한 제2 오디오 효과가 포함되어 필요에 따라 필요에 따라 전송되는 세부 장면묘사정보를 포함하는 스트리밍 장면묘사정보를 부호화하는 묘사인코더 및 스트리밍 장면묘사정보와 오디오 객체들을 결합하여 오디오 프레임 단위의 시간에 따라 전송되는 객체기반 오디오 비트스트림을 생성하는 패킷화부를 포함한다.

주요 장면묘사정보는 미리 설정된 주기에 따라 일괄적으로 적용될 오디오 효과의 적용 시작시간, 적용 종료시간 및 적용될 상기 제1 오디오 효과 정보를 포함할 수 있다.

세부 장면묘사정보는 필요에 따라 개별적으로 적용될 오디오 효과의 적용 시작시간, 적용 종료시간 및 적용될 상기 제2 오디오 효과정보를 포함할 수 있다.

스트리밍 장면묘사정보는 오디오 객체들 각각이 오디오 프레임 단위의 시간 내에서 재생될 재생 구간들에 대한 정보를 포함할 수 있다.

재생구간은 오디오 객체에 대한 첫 번째 재생구간, 상기 첫번째 재생구간과 이격된 두번째 재생 시작 구간을 포함하며, 오디오 객체가 시간적으로 분할되어 재생되도록 정의될 수 있다.

본 발명의 따른 면에 따른 오디오 재생장치는 전술한 오디오 비트스트림을 입력받아 오디오 객체 비트스트림과 장면묘사정보 비트스트림으로 분리하는 디패킷화부와, 압축된 오디오 객체 비트스트림을 복호화하여 오디오 객체를 생성하는 오디오 디코더와, 장면묘사정보 비트스트림을 복호화하여 장면묘사정보를 생성하는 묘사 디코더 및 주요 장면묘사정보를 복호화된 오디오 객체에 일괄적으로 적용하고, 장면묘사정보에 세부 장면묘사정보가 적용되는 시간정보를 포함하는 경우, 세부 장면묘사정보를 복호화된 오디오 객체에 적용하는 오디오 처리부를 포함한다.

오디오 처리부는 복호화된 오디오 객체들을 합성하여, 하나의 오디오 신호를 생성하고, 오디오 신호에 제1 오디오 효과를 부여하여 주요 장면묘사정보를 복호화된 오디오 객체들 모두에 일괄적으로 적용할 수 있다.

오디오 처리부는 오디오 객체가 세부 장면묘사정보가 필요한 오디오 객체인 경우, 세부 장면묘사정보에 포함된 장면효과정보와 객체효과정보를 참조하여 복호화된 오디오 객체들 각각에 개별적으로 제2 오디오 효과들을 적용할 수 있다.

오디오 처리부는 복호화된 오디오 객체들 각각에 대한 재생구간을 기초로 복호화된 오디오 객체들을 합성하여 하나의 오디오 신호를 생성할 수 있다.

오디오 처리부는 복호화된 오디오 객체에 대한 첫 번째 재생구간, 첫 번째 재생구간과 이격된 두 번째 재생 시작 구간을 포함하여 상기 복호화된 오디오 객체가 시간적으로 분할되어 재생되도록 합성할 수 있다.

상기 오디오 처리부는 사용자의 편집내용을 기초로하여 복호화된 오디오 객체들의 전부 또는 일부에 오디오 효과를 적용할 수 있다.

본 발명의 또 다른 면에 따른 오디오 생성방법은 오디오 콘텐츠를 구성하는 오디오 객체를 입력받아 비트스트림으로 압축하는 단계와, 전술한 스트리밍 장면묘사정보를 부호화는 단계; 및 스트리밍 장면묘사정보와 오디오 객체들을 결합하여 오디오 프레임 단위의 시간에 따라 전송되는 하나의 객체기반 오디오 비트스트림을 생성하는 단계를 포함한다.

주요 장면묘사정보는 주기에 따라 일괄적으로 적용될 오디오 효과의 적용 시작시간, 적용 종료시간 및 적용될 상기 오디오 효과정보를 포함할 수 있다.

세부 장면묘사정보는 필요에 따라 개별적으로 적용될 상기 오디오 효과의 적용 시작시간, 적용 종료시간 및 적용될 상기 오디오 효과정보를 포함할 수 있다.

본 발명의 또 다른 실시예에 따른 오디오 재생방법은 전술한 오디오 객체부호화 비트스트림과 장면묘사정보 비트스트림으로 분리하는 단계와, 압축된 오디오 객체 부호화 비트스트림을 복호화하여 오디오 객체를 생성하는 단계와, 장면묘사정보 비트스트림을 복호화하여 장면묘사정보를 생성하는 단계 및 장면묘사정보에 포함된 주요 장면묘사정보를 복호화된 오디오 객체에 일괄적으로 적용하고, 장면묘사정보에 세부 장면묘사정보가 적용되는 시간정보를 포함하는 경우, 세부 장면묘사정보를 복호화된 오디오 객체에 적용하는 오디오 처리단계를 포함한다.

오디오 처리단계는 복호화된 오디오 객체들을 합성하여, 하나의 오디오 신호를 생성하고, 상기 오디오 신호에 상기 제1 오디오 효과를 부여하여 주요 장면묘사정보를 복호화된 오디오 객체들 모두에 일괄적으로 적용하는 단계를 포함한다.

오디오 처리단계는 세부 장면묘사정보가 필요한 오디오 객체인 경우, 세부 장면묘사정보에 포함된 장면효과정보와 객체효과정보를 참조하여 복호화된 오디오 객체들 각각에 개별적으로 제2 오디오 효과를 부여하는 단계를 더 포함할 수 있다.

오디오 처리단계는 복호화된 오디오 객체들 각각에 대한 재생구간을 기초로 복호화된 오디오 객체들을 합성하여 하나의 오디오 신호를 생성하는 단계를 포함한다.

오디오 처리단계는 사용자의 편집내용을 기초로하여 복호화된 오디오 객체들의 전부 또는 일부에 상기 제1 오디오 효과 및 제2 오디오 효과를 부여하거나 또는 일부에 오디오 효과를 적용하는 단계를 더 포함할 수 있다.

기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

본 발명에 따르면 종래의 BIFs가 가지는 한계점을 극복하여 연산량을 줄이고 실시간 스트리밍이 가능한 오디오을 생성하고 재생할 수 있다.

즉, 장면 효과(Scene Effect)를 통해 객체별로 동일한 효과를 적용하지 않고, 합성된 최종 신호에 효과를 적용하기 때문에 보다 낮은 계산량으로 동일한 효과를 구현할 수 있다.

또한, 각 시점별로 오디오 데이터에 필요한 장면 묘사 정보를 분할하여 전송하는 동시에 주요 장면묘사정보는 하나의 콘텐츠에서 공유할 수 있는 최소한의 정보로 구성함으로써, 반복적으로 주요 정보를 전송하더라도 반복적인 전송에 의한 비트 사용량을 줄일 수 있다.

또한, 본 발명은 3차원 효과를 적용하는 시간정보를 정의함으로써, 하나의 객체에 대해 다양한 3차원 효과를 시간대별로 적용할 수 있다는 장점이 있다.

또한, 본 발명은 라디오 방송, CD 및 SACD (Super Audio CD)와 같은 오디오 서비스 뿐만 아니라 DMB, UCC 등 휴대기기를 통한 멀티미디어 서비스에 적용 및 구현이 가능하다.

도 1은 본 발명의 일 실시예에 따른 오디오 생성장치의 블록 구성도이다.
도 2는 본 발명의 다른 실시예에 따른 오디오 재생장치의 블럭 구성도이다.
도 3은 시간의 흐름에 따른 객체기반 파일 포맷의 구성을 나타낸 것이다.
도 4는 시간의 흐름에 따른 객체기반 파일 포맷 중에서 세부 장면효과정보의 장면묘사정보와 객체효과정보가 오디오 프레임 시간단위로 배치된 구성을 나타낸 것이다.
도 5는 도 1에 도시된 오디오 생성장치가 오디오 비트스트림을 생성하는 과정을 나타낸 순서도이다.
도 6은 도 2에 도시된 오디오 재생장치가 오디오 비트스트림을 재생하는 과정을 나타낸 순서도이다.
도 7은 본 발명에 따른 주요 장면묘사정보의 데이터 구조를 도시한 도면이다.
도 8은 본 발명에 따른 세부 장면묘사정보의 데이터 구조를 도시한 도면이다.
도 9는 음상 정위 효과를 위한 상세 정보의 데이터 구조를 도시한 것이다.
도 10은 가상공간 효과를 위한 상세 정보의 데이터 구조를 도시한 것이다.
도 11은 외재화 효과를 위한 상세 정보의 데이터 구조를 도시한 것이다.
도 12는 배경음 효과를 위한 상세 정보로, 배경음 인덱스(mBG_index)필드가 도시한 것이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

도 1은 본 발명의 일 실시예에 따른 오디오 생성장치의 블록 구성도이다.

도 1을 참조하면, 본 발명에 따른 오디오 생성장치(100)는 오디오 인코더(110), 묘사 인코더(120) 및 패킷화부(130)를 포함한다.

오디오 인코더(110)는 입력되는 오디오 객체들을 압축하여 오디오 비트스트림(Audio Bitstream)을 생성한다. 오디오 인코더(110)는 N개의 오디오 인코더(100_1,110_2,…,110_N)를 포함한다. 오디오 인코더_1(110_1)은 오디오 객체_1을 압축하고, 오디오 인코더_2는 오디오 객체_2를 압축하고,…, 오디오 인코더_N은 오디오 객체_N을 압축한다.

오디오 객체는 오디오 콘텐츠를 구성하는 요소로서, 다수의 오디오 객체들로 구성될 수 있다. 예컨대, 오디오 콘텐츠가 음악인 경우, 오디오 객체들은 음악 연주에 이용된 악기들에서 각각 발생될 수 있는 오디오들일 수 있다. 즉, 오디오 객체_1은 기타에서 발생된 오디오이고, 오디오 객체_2는 드럼에서 발생된 오디오 일 수 있고, 오디오 객체_3은 피아노에서 발생된 오디오일 수 있다.

묘사 인코더(120)는 오디오를 편집하는 편집자의 편집명령에 따라 장면묘사정보를 생성하고 생성된 장면묘사정보를 부호화하여 출력한다.

장면묘사정보란 오디오 객체들 모두에 대한 "주요 장면묘사정보"와 오디오 객체들 각각에 대한 "세부 장면묘사정보"로 분류될 수 있다. 본 발명에서는 주요 장면묘사정보의 경우 시스템상에서 미리 설정된 주기에 따라서 반복적으로 전송하지만, 상기 "세부 장면묘사정보"는 오디오 편집명령에 따라서 시간대별로 상기 오디오 객체가 "세부 장면묘사정보"를 필요로 하는 경우에만 전송한다. 즉, 오디오 편집을 할 때 "세부 장면묘사정보"를 삽입하는 경우에만 전송한다. 따라서, 모든 장면묘사정보를 전송하여 부호화하는 것이 아니라, 장면묘사정보를 "주요 장면묘사정보"와 "세부 장면묘사정보"로 분할하여 "세부 장면묘사정보"는 필요에 따라 "주요 장면묘사정보"와 함께 전송될 수 있다.

여기서 주요 장면묘사정보는 오디오 비트스트림에 포함되어 있는 오디오 객체들 모두에 일괄적으로 적용되는 오디오 효과들에 대한 내용이 수록되어 있는 정보이다. 그리고 세부 장면묘사정보는 오디오 비트스트림에 포함되어 있는 오디오 객체들 각각에 개별적으로 적용되는 오디오 효과들과 재생구간에 대한 내용이 수록되어 있는 정보이다. 한편, 상기 세부 장면묘사정보는 다시 "장면효과정보"와 "객체효과정보"로 구분될 수 있으며, 상기 장면효과정보와 객체효과정보는 각각 객체들 마다 개별적으로 존재할 수 있다.

주요 장면묘사정보는 오디오 비트스트림에 포함되어 있는 오디오 객체들 모두에 적용될 수 있다. 한편, 세부 장면묘사정보는 오디오 객체마다 별개로 생성된다. 즉, 오디오 객체_1에 대한 세부 장면묘사정보는, 오디오 객체_2에 대한 세부 장면묘사정보,…, 오디오 객체_N에 대한 세부 장면묘사정보와 별개로 생성되어 저장될 수 있다. 장면묘사정보를 구성하는 주요 장면묘사정보(도 7 참조) 및 세부 장면묘사정보(도 8 참조)의 상세한 구조에 대한 설명은 후술한다. 그리고, 상기 주요장면묘사정보에 의한 효과를 '제1 오디오 효과'라 하고, 상기 세부 장면묘사정보에 의한 효과를 '제2 오디오 효과'라 한다.

한편, 장면묘사정보는 오디오 편집자의 명령에 따라 생성되므로, 주요 장면묘사정보들에 수록되는 오디오 효과와, 세부 장면묘사정보들에 수록되는 오디오 효과는 오디오 편집자에 의해 결정될 수 있다. 상기 오디오의 재생 구간 또한 마찬가지이다.

패킷화부(130)는 오디오 인코더(110)에서 출력되는 압축된 오디오 객체들과 묘사인코더(120)에서 생성되는 장면묘사정보를 통합하여 오디오 비트스트림을 생성한다. 구체적으로, 패킷화부(130)는 오디오 객체들을 순차적으로 나열하고, 오디오 객체들 앞에 장면묘사정보를 부가하는 방식으로 오디오 비트스트림을 생성할 수 있다.

도 2는 본 발명의 다른 실시예에 따른 오디오 재생장치의 블럭 구성도이다. 본 발명에 따른 오디오 재생장치(200)는 도 1에 도시된 오디오 생성장치(100)에 의해 생성된 객체기반 오디오 비트스트림으로부터 오디오 신호를 복원하여 재생할 수 있다.

본 발명에 따른 오디오 재생장치(300)는 디패킷화부(210), 오디오 디코더(220), 묘사 디코더(230), 오디오 처리부(240), 사용자 명령 전달부(250) 및 오디오 출력부(260)를 포함한다.

디패킷화부(210)는 오디오 생성장치(100)에서 생성된 오디오 비트스트림을 입력받아 오디오 객체 부호화 비트스트림과 장면묘사정보 비트스트림으로 분리한다.

디패킷화부(210)에서 분리된 오디오 객체 부호화 비트스트림들은 오디오 디코더(220)로 인가되고, 디패킷화부(310)에서 분리된 장면묘사정보는 묘사 디코더(230)로 인가된다.

오디오 디코더(220)는 디패킷화부(210)로부터 인가되는 오디오 객체 비트스트림들을 복호화하여 압축을 해제한다. 따라서, 오디오 디코더(220)에서는 전술한 오디오 인코더(110)에서 압축되기 전 N개의 오디오 객체들이 출력된다.

묘사 디코더(230)는 묘사 인코더(120)에서 생성되고 부호화된 장면묘사정보 비트스트림을 복호화하여 장면묘사정보를 생성한다.

오디오 처리부(240)는 오디오 디코더(220)로부터 인가되는 N개의 오디오 객체들을 합성하여 하나의 오디오 신호를 생성한다. 오디오 신호 생성시, 오디오 처리부(240)는 묘사 디코더(230)로부터 인가되는 묘사 정보를 참조하여 오디오 객체들을 배열하고, 소정의 오디오 효과(제1 오디오 효과, 제2 오디오 효과)를 부여한다.

좀 더 구체적으로 설명하면, 오디오 처리부(240)는,

1) 세부 장면묘사정보에 수록된 오디오 효과를 참조하여, 해당 오디오 객체들 각각에 개별적으로 오디오 효과를 부여하고(제2 오디오 효과),

2) 세부 장면묘사정보에 수록된 재생 구간들을 기초로, 오디오 객체들을 합성하여, 하나의 오디오 신호를 생성하며,

3) 주요 장면묘사정보에 수록된 오디오 효과를 참조하여, 오디오 신호에 오디오 효과를 부여하는 바(제1 오디오 효과),

이하에서 각각에 대해 부연 설명한다.

1) 세부 장면묘사정보를 참조하여, 개별적으로 오디오 효과 부여

세부 장면묘사정보를 구성하는 객체효과정보들은 오디오 객체마다 개별적으로 존재한다고 전술한 바 있다. 즉, 오디오 객체_1에 대한 객체효과_1, 오디오 객체_2에 대한 객체효과_2, ... , 오디오 객체_N에 대한 객체효과_N이 별개로 존재한다.

만약, a) 객체효과_1에 오디오 효과로 음상 정위 효과가 지정되어 있는 경우, 오디오 처리부(240)는 오디오 객체_1에 음상 정위 효과를 부여하고, b) 객체 효과_2에 오디오 효과로 가상공간 효과가 지정되어 있는 경우, 오디오 처리부(240)는 오디오 객체_2에 가상공간 효과를 부여하고, ... , c) 객체 효과_N에 오디오 효과로 외재화 효과가 지정되어 있는 경우, 오디오 처리부(240)는 오디오 객체_N에 외재화 효과를 부여한다.

위 예에서는, 객체효과에 오디오 효과가 하나씩 수록되어 있는 것으로 상정하였으나, 이는 설명의 편의를 위한 일 예에 해당한다. 필요에 따라, 객체 묘사에는 2 이상의 오디오 효과가 수록되도록 구현하는 것도 가능하다.

그리고, 이와 같은 객체효과정보를 포함하는 세부 장면묘사정보는 시간의 흐름에 따라 배치되며 정해진 시간에 필요한 정보가 무엇이며 어떠한 오디오 효과들이 적용될 것인지에 대한 정보를 포함한다. 만약, 세부 장면묘사정보에 의한 효과가 필요하지 않은 경우에는 장면묘사를 위하여 주요 장면묘사정보와 오디오 데이터만을 전송하고, 세부 장면묘사정보에 의한 효과가 필요한 경우에는 상기 주요 장면묘사정보, 오디오 데이터와 함께 세부 장면묘사정보를 전송한다.

결국, 오디오 프레임 단위로 구분되는 각 시간동안 필요한 세부 장면묘사정보를 해당하는 시간에 전송하며 주요 장면묘사정보는 하나의 콘텐츠에서 공유할 수 있는 최소한의 정보로 구성함으로써 반복적으로 소정의 주기동안 반복적으로 주여 장면묘사정보를 전송하더라도 이에 따른 비트 사용량을 줄일 수 있게된다.

2) 세부 장면묘사정보를 참조하여, 오디오 객체들을 합성

세부 장면묘사정보를 구성하는 "객체효과" 정보들에는 해당 오디오 객체의 재생 구간에 대한 정보가 수록되어 있다. 재생 구간은 시작시간과 종료시간으로 구성되는데, 하나의 오디오 객체에 대해 재생 구간이 2 이상 지정될 수 있다.

그리고, 오디오 객체는 "객체효과"에서 지정하고 있는 재생 구간에서 재생될 오디오 데이터만을 보유하고 있다. 예를 들어, 객체효과에서 지정하고 있는 재생 구간이 "0:00~10:00"와 "25:00~30:00"인 경우, 오디오 객체는 "0:00~10:00"에서 재생될 오디오 데이터와 "0:00~10:00"와 "25:00~30:00"에서 재생될 오디오 데이터만을 보유하고 있는 것이지, "0:00~30:00"에서 재생될 오디오 데이터를 보유하고 있는 것은 아니다.

위 오디오 객체의 경우, 총 재생 시간은 "15:00(10:00 + 5:00)"이지만, 재생 완료까지 소요되는 시간은 "30:00"이다.

만약, 객체효과_1에 재생 구간으로 "0:00~30:00"이 지정되고, 객체효과_2에 재생 구간으로 "0:00~10:00"이 지정되며,...,객체효과_N에 재생 구간으로 "20:00~30:00"이 지정된 경우를 상정하면,

오디오 처리부(240)는, "0:00~10:00"에서는 오디오 객체_1과 오디오 객체_2가 재생되고, "10:00~20:00"에서는 오디오 객체_1만이 재생되고,..., "20:00~30:00"에서는 오디오 객체-1과 오디오 객체-N이 재생되도록, 오디오 객체-1, 오디오 객체-2, ... , 오디오 객체-N을 합성하여, 하나의 오디오 신호를 생성한다.

3) 주요 장면묘사정보를 참조하여, 일괄적으로 오디오 효과 부여

주요 장면묘사정보에 포함된 "장면효과"에 수록되어 있는 오디오 효과는 위 합성 절차에 의해 생성된 하나의 오디오 신호에 대해 적용된다. 그런데, 이 하나의 오디오 신호는, 모든 오디오 객체들이 합성된 것이다. 따라서, "장면효과"에 수록되어 있는 오디오 효과는 모든 오디오 객체들에 적용되는 것이라 할 수 있다.

만약, 장면효과에 오디오 효과로 배경음 효과가 지정되어 있는 경우, 오디오 처리부(240)는 오디오 객체들을 합성하여 생성한 오디오 신호에 배경음 효과를 부여한다.

지금까지, 오디오 처리부(240)에 의해 오디오 객체들에 개별적으로 오디오 효과가 부여되고, 오디오 객체들이 합성되며, 합성된 오디오 객체들에 일괄적으로 오디오 효과가 부여되는 과정에 대해 상세히 설명하였다.

전술한 오디오 처리부(240)에 의한 오디오 처리 과정은, 오디오 재생장치(200)의 사용자에 의해 변경가능하다. 예를 들어, 오디오 재생장치(200)의 사용자는, 전체 또는 일부 오디오 객체에 대해 특정 오디오 효과를 부여하도록 편집 명령하는 것이 가능하다.

이와 같은 사용자 편집 명령은 도 2에 도시된 사용자 명령 전달부(250)가 입력받아 오디오 처리부(240)에 전달한다. 그러면, 오디오 처리부(240)는 오디오 처리 과정에서, 사용자 편집 내용을 반영한다.

오디오 출력부(260)는 오디오 처리부(240)에서 출력되는 오디오 신호를 스피커나 출력단자와 같은 출력 소자를 통해 출력하여, 사용자가 오디오를 감상할 수 있도록 한다.

도 3은 시간의 흐름에 따른 객체기반 파일 포맷의 구성을 나타낸 것이다.

도 3을 참조하면, 장면묘사정보가 저장 데이터가 아닌 방송과 같은 스트리밍 데이터로 구성됨을 알 수 있다. 스트리밍 데이터는 시간의 흐름과 밀접한 관련있는데, 오디오 프레임 시간대마다 필요한 장면묘사정보가 동일하지 않다. 또한 장면묘사정보는 시간의 흐름에 따라 배치되는 것이 바람직하다. 즉, 장면묘사정보 중에서 세부 장면묘사정보가 필요없는 경우에는 오디오 데이터와 주요 장면묘사정보만이 전송될 수 있으며, 세부 장면묘사정보는 필요한 경우에만 전송될 수 있다.

한편, 주요 장면묘사정보가 전송되는 주기 또한 사용자에 의해 미리 설정되어 전송빈도를 변경할 수 있다. 그리고 도 3에 도시된 바와 같이, 시간 단위를 오디오 프레임을 기준으로 표현하는 경우, 각 장면과 객체에 소정의 효과가 적용되는 시간은 현재 프레임이 속하는 시간에서 언제 시작되며, 언제 종료되는지 알 수 있게된다.

도 4는 시간의 흐름에 따른 객체기반 파일 포맷 중에서 세부 장면묘사정보의 "장면묘사"정보와 "객체효과"정보가 오디오 프레임 시간단위로 배치된 구성을 나타낸 것이다.

도 4를 참조하면, 각 오디오 프레임 시간대에 다양한 장면효과 또는 객체효과 정보들이 적용될 소정의 시간이 설정되어 존재하며, 상기 설정된 시간에 각각 장면효과와 객체효과가 적용된다. 예컨대, 제1 오디오 프레임 시간대(1초~3초)에 4가지의 소정의 효과정보들이 존재하는데, 장면효과 1은 1초에서 2초사이에 적용되며, 장면효과 2는 1.1초에서 2.5초까지 적용된다. 한편, 객체효과 1은 1.2초에서 2초까지 적용되며 객체효과 N은 2초에서 2.5초까지 적용된다.

도 5는 도 1에 도시된 오디오 생성장치가 오디오 비트스트림을 생성하는 과정을 나타낸 순서도이다.

도 5에 도시된 바와 같이, 먼저 오디오 인코더(110)는 오디오 콘텐츠를 구성하는 오디오 객체를 입력받아 비트스트림으로 압축한다(S110).

그리고, 묘사 인코더(120)는 오디오 편집자의 편집 명령에 따라 장면묘사정보를 생성하고 , 스트리밍 생성된 장면묘사정보를 부호화한다(S120). 전술한 바와 같이 상기 장면묘사정보는 주요 장면묘사정보와 세부 장면묘사정보를 포함한다. 주요 장면묘사정보는 오디오 객체들 모두에 일괄적으로 적용될 제1 오디오 효과가 수록되어 있다. 또한, 주요 장면묘사정보는 시스템상에서 미리 설정된 주기에 따라 반복적으로 전송될 수 있다. 세부 장면묘사정보는 오디오 객체들에 개별적으로 적용될 장면효과정보와 객체효과정보를 포함하는 제2 오디오 효과가 수록되어 있다. 이는 필요에 따라 상기 주요 장면묘사정보와 함께 전송될 수 있다.

상기 스트리밍 장면묘사정보와 상기 오디오 객체를 결합하여(S130) 하나의 객체기반 오디오 비트스트림을 생성한다(S140). 상기 생성된 객체기반 오디오 비트스트림은 오디오 프레임 시간단위로 전송될 수 있다.

도 6은 도 2에 도시된 오디오 재생장치가 오디오 비트스트림을 재생하는 과정을 나타낸 순서도이다.

도 6에 도시된 바와 같이, 먼저 디패킷화부(210)는 "오디오 비트스트림"을 "오디오 객체 비트스트림"과 "장면묘사 비트스트림"로 분리한다(S210). 그러면, 오디오 디코더(220)는 S210단계에서 분리된 "오디오 객체 비트스트림"들을 복호화하여(S220) "오디오 객체"를 생성한다. 그리고, 묘사 디코더(230)는 S210단계에서 분리된 "장면묘사 비트스트림"을 복호화하여 "장면묘사정보"를 생성한다(S430).

이후, 오디오 처리부(240)는 S230단계에서 복호화된 "장면묘사정보"와 사용자 명령 전달부(250)를 통해 전달되는 사용자 편집명령에 따라, S220단계에서 복호화된 오디오 객체들에 대해 오디오 신호 처리를 수행하여, 하나의 오디오 신호를 생성한다(S240).

그러면, 오디오 출력부(260)는 S240단계에서 오디오 신호 처리된 오디오를 출력하여, 사용자가 오디오를 감상할 수 있도록 한다.

이하에서는, 전술한 묘사 정보를 구성하는 주요 장면묘사정보와 세부 장면묘사정보의 상세한 구조에 대해 상세히 설명한다.

도 7은 본 발명에 따른 주요 장면묘사정보의 데이터 구조를 도시한 도면이다.

이해와 도시의 편의를 위해, 도 7에는 오디오 객체들을 도시하지는 않았으며, 오디오 비트스트림에 수록되는 장면묘사정보만을 도시하였다.

도 7을 참조하면, 주요 장면묘사정보에는 장면묘사 ID 필드(SDID), 객체 개수 필드(Num_Obj) 및 객체(Obj) 필드로 구성된다.

장면묘사 ID 필드(SDID)는 복수의 장면묘사정보가 존재할 때 각 장면 묘사 정보를 다른 묘사 정보와 구별할 수 있도록 하는 ID가 수록되는 필드로, 묘사 정보가 여러 개인 경우에 필요하다.

객체 개수 필드(Num_Obj)는 본 장면묘사정보에 수록되어 있는 장면묘사의 개수에 대한 정보가 수록되는 필드이다.

객체(Obj)필드에는 N개의 오디오 객체 필드들(Odj_1,Odj_2,…,Odj_N)이 포함되어 있다.

한편, 도 7에 도시되어 있는 바와 같이, 객체 묘사 정보(ODI)에는 N개의 객체필드들(Obj_1, Obj_2, ... , Obj_N)이 수록되어 있다. 객체필드들(Obj_1, Obj_2, ... , Obj_N)의 개수는 오디오 비트스트림에 포함되는 오디오 객체들의 개수와 동일하다. 오디오 객체 마다 적용되는 묘사정보가 개별적으로 생성되기 때문이다.

첫 번째 객체필드(Obj_1)에는 오디오 객체_1에 대한 묘사 정보가 수록되어 있고, 두 번째 객체필드(Obj_2)에는 오디오 객체_2에 대한 묘사 정보가 수록되어 있으며, ... , N 번째 객체 묘사 필드(Obj_N)에는 오디오 객체_N에 대한 묘사 정보가 수록되어 있다.

도 7에 도시된 바와 같이, 첫 번째 객체 묘사 필드(Obj_1)에는, 1) 객체 ID 필드(Obj_ID), 2) 객체 명칭 필드(Obj_Name) 및 3) 객체 합성 비율 필드(Obj_MixRatio)가 포함되어 있다.

두 번째 객체 필드(Obj_2) 내지 N 번째 객체 필드(Obj_N)의 데이터 구조는 첫 번째 객체 필드(Obj_1)와 동일하므로, 이하에서는, 첫 번째 객체 묘사 필드(ObjDes_1)의 데이터 구조에 대해서만 설명한다.

객체 ID 필드(Obj ID)는 객체 필드를 다른 객체 묘사 필드와 구별할 수 있도록 하는 ID가 수록되는 필드이다.

객체 명칭 필드(Obj_Name)는 객체에 대한 명칭이 수록된다. 예를 들어, 오디오 객체_1이 기타에서 발생된 오디오인 경우, 객체 명칭 필드(Obj_Name)에는 "기타"를 나타내는 정보가 수록된다.

객체 합성 비율 필드(Obj_MixRatio)는 오디오 객체_1이 재생될 경우 이용될 스피커의 종류에 대한 정보가 수록된다. 예를 들어, 5.1 채널 스피커 환경에서, 오디오 객체-1이 중앙 스피커와 왼쪽 프런트 스피커에서만 출력된다면, 객체 합성 비율 필드(Obj_MixRatio)에는 "1, 0, 1, 0, 0, 0"가 수록된다.

도 8은 본 발명에 따른 세부 장면묘사정보의 데이터 구조를 도시한 도면이다.

도 8을 참조하면, 세부 장면묘사정보에는, 1) 장면묘사ID(SDID)필드, 2) 장면 효과 개수(Num_SceneEffect)필드, 3)M개의 장면효과 필드들(SceneEffect_1, ... , SceneEffect_M), 4)객체효과 개수(Num_Obj_Effect) 필드, 5)N개의 객체효과 필드들(Obj_Effect_1, ... , Obj_Effect_M)이 포함되어 있다.

장면묘사ID(SDID)필드는 소정의 묘사 정보를 다른 묘사 정보와 구별할 수 있도록 하는 ID가 수록되는 필드로, 묘사 정보가 여러 개인 경우에 필요하다.

장면 효과 개수 필드(Num_SceneEffect)는 본 묘사 정보에 수록되어 있는 장면 묘사의 개수에 대한 정보가 수록되는 필드이다.

장면 효과 정보(SEI)에는 M개의 장면 효과 필드들(SceneEffect_1, ... , SceneEffect_M)이 포함된다.

도 8에 도시된 바와 같이, 첫 번째 장면 효과(SceneEffect_1)필드에는 1) 장면 효과 ID(SceneEffect_ID)필드, 2) 장면 효과 명칭(SceneEffect_Name)필드, 3) 장면 효과 종료시간 (SceneEffect_EndTime)필드 및 4) 장면 효과 정보 필드(SceneEffect_Info)가 포함되어 있다. 도면에는 도시되지 않았으나 장면 효과 시작시간 필드(SceneEffect_StartTime)를 함께 포함할 수도 있다.

두 번째 장면 효과 필드(SceneEffect_2) 내지 M 번째 장면 효과 필드(SceneEffect_M)의 데이터 구조는 첫 번째 장면 효과 필드(SceneEffect_1)와 동일하므로, 이하에서는, 첫 번째 장면 효과 필드(SceneEffect_1)의 데이터 구조에 대해서만 설명한다.

장면 효과 ID 필드(SceneEffect_ID)는 첫 번째 장면 효과 필드(SceneEffect_1)를 다른 장면 효과 필드들과 구별할 수 있도록 하는 ID가 수록되는 필드이다.

장면 효과 명칭 필드(SceneEffect_Name)는 첫 번째 장면 효과 필드(SceneEffect_1)를 통해 부여하고자 하는 오디오 효과의 명칭을 수록한다. 예를 들어, 첫 번째 장면 효과 필드(SceneEffect_1)를 통해 부여하고자 하는 오디오 효과가 "잔향"인 경우, 장면 효과 명칭 필드(SceneEffect_Name)에는 "잔향"이 수록된다.

장면 효과 종료시간 필드(SceneEffect_EndTime)에는 장면 효과 부여가 종료되는 재생시간에 대한 정보가 수록된다.

장면 효과 정보 필드(SceneEffect_Info)에는 오디오 효과를 부여하는데 필요한 상세한 정보가 수록된다.

장면 효과 정보 필드(SceneEffect_Info)에는 오디오 효과로서, 1) 음상 정위 효과, 2) 가상공간 효과, 3) 외재화 효과 또는 4) 배경음 효과에 대한 상세한 정보가 수록가능하다. 이들 오디오 효과의 데이터 구조에 대해서는 후술한다.

한편, 도 8에 도시되지 않았으나, 장면 효과 시작시간 필드(SceneEffect_StartTime)가 부가될 경우, 장면 효과 부여가 시작되는 재생시간에 대한 정보가 수록될 수 있다.

한편, 도 8에 도시되어 있는 바와 같이, 객체효과 정보(OEI)에는 N개의 객체 효과 필드들(Obj_Effect_1, Obj_Effect_2, ... , Obj_Effect_N)이 수록되어 있다. 객체효과 정보(OEI)에 수록되는 객체 묘사 필드들(Obj_Effect_1, Obj_Effect_2, ... , Obj_Effect_N)의 개수는 오디오 비트스트림에 포함되는 오디오 객체들의 개수와 동일하다. 오디오 객체 마다 객체효과가 개별적으로 생성되기 때문이다.

첫 번째 객체 묘사 필드(Obj_Effect_1)에는 오디오 객체_1에 대한 묘사 정보가 수록되어 있고, 두 번째 객체효과(Obj_Effect_2)필드에는 오디오 객체_2에 대한 묘사 정보가 수록되어 있으며, ... , N 번째 객체효과(Obj_Effect_N) 필드에는 오디오 객체_N에 대한 효과정보가 수록되어 있다.

첫 번째 객체효과(Obj_Effect_1)필드에는, 1) 객체 ID (Obj ID)필드, 2) 효과 필드(Effect)가 포함되어 있다.

두 번째 객체효과(Obj_Effect_2)필드 내지 N 번째 객체효과(Obj_Effect_N) 필드의 데이터 구조는 첫 번째 객체효과(Obj_Effect_1) 필드와 동일하므로, 이하에서는, 첫 번째 객체효과(Obj_Effect_1)필드의 데이터 구조에 대해서만 설명한다.

객체 ID(ObjID)필드는 첫번째 객체필드를 다른 객체필드와 구별할 수 있도록 하는 ID가 수록되는 필드이다.

효과(Effect) 필드에는 1) 효과 ID(Effect_ID) 필드, 2) 효과 명칭(Effect_Name) 필드, 3) 효과 종료시간(Effect_EndTime) 필드, 4) 효과 정보(Effect_Info) 필드가 포함되어 있다. 한편, 도 8에는 도시되지 않았으나, 효과 시작시간 필드(Effect_StartTime)가 포함될 수 있다.

효과 ID(Effect_ID)필드는 첫 번째 효과(Effect_1) 필드를 다른 효과 필드들과 구별할 수 있도록 하는 ID가 수록되는 필드이다.

효과 명칭(Effect_Name)필드는 첫 번째 효과(Effect_1)필드를 통해 부여하고자 하는 효과의 명칭을 수록한다. 예를 들어, 첫 번째 효과(Effect_1)필드를 통해 부여하고자 하는 효과가 "잔향"인 경우, 효과명(Effect_Name)필드에는 "잔향"이 수록된다.

효과 시작시간(Effect_StartTime)필드에는 효과 부여가 시작되는 재생 시간에 대한 정보가 수록되고, 효과 종료시간(Effect_EndTime)필드에는 효과 부여가 종료되는 재생 시간에 대한 정보가 수록된다.

효과 정보(Effect_Info)필드에는 오디오 효과를 부여하는데 필요한 상세한 정보가 수록된다.

효과 정보(Effect_Info)필드에는 오디오 효과로서, 1) 음상 정위 효과, 2) 가상공간 효과, 3) 외재화 효과 또는 4) 배경음 효과에 대한 상세한 정보가 수록가능하다. 이하에서는 각 오디오 효과의 데이터 구조에 대해 상세히 설명한다.

도 9는 음상 정위 효과를 위한 상세 정보의 데이터 구조를 도시한 것이다. 도 9에 도시된 음상 정위 효과에는 오디오 객체_1에 대한 방향감 및 거리감을 부여하는데 필요한, 1) 음원의 채널수(mSL_NumofChannels)필드, 2) 음상 정위 각도(mSL_Azimuth)필드, 3) 음상 정위 거리(mSL_Distance)필드, 4) 음상 정위 고도 (mSL_Elevation)필드 및 5) 스피커의 가상 각도(mSL_SpkAngle)필드가 포함되어 있다.

도 10은 가상공간 효과를 위한 상세 정보의 데이터 구조를 도시한 것이다. 가상공간 효과를 위한 상세 정보의 데이터 구조는, 사전 정의된 공간의 적용 여부(mVR_Predefined Enable)에 따라 다르다.

사전 정의된 공간을 적용하는 경우, 가상공간 효과를 위한 상세 정보에는, 1) "On"이 수록된 사전 정의된 공간의 적용 여부(mVR_Predefined Enable)필드, 2) 공간 인덱스(mVR_RoomIdx) 필드 및 3) 반사음 계수(mVR_ReflectCoeff)필드가 포함된다.

그리고, 사전 정의된 공간을 적용하지 않을 경우, 가상공간 효과를 위한 상세 정보에는, 1) "Off"가 수록된 사전 정의된 공간의 적용 여부(mVR_Predefined Enable)필드가 포함되고, 가상 공간 정의에 필요한 2) 마이크의 좌표 (mVR_MicPos)필드, 3) 공간 크기(mVR_RoomSize)필드, 4) 음원 위치(mVR_SourcePos)필드, 5) 반사음 차수(mVR_ReflectOrder)필드 및 6) 반사음 계수(mVR_ReflectCoeff)필드가 포함된다.

가상공간 효과를 위한 상세 정보를 이용하면, 오디오 객체_1에 대해 가상공간에서 발생하는 잔향을 추가할 수 있다.

도 11은 외재화 효과를 위한 상세 정보의 데이터 구조를 도시한 것이다. 외재화 효과에는, 헤드폰 청취 환경에서 외재화 효과를 적용하는데 필요한, 1) 외재화 정위 각도(mExt_Angle)필드, 2) 외재화 정위 거리(mExt_Distance)필드 및 3) 스피커의 가상 각도(mExt_SpkAngle)필드가 포함된다.

도 12는 배경음 효과를 위한 상세 정보로, 배경음 인덱스(mBG_index)필드가 도시한 것이다. 배경음 인덱스(mBG_index)필드에는 오디오에 추가되는 배경음에 대한 정보가 수록된다.

이 밖에도, 다른 종류의 오디오 효과가 본 발명에 적용될 수 있고, 3차원 오디오 효과는 물론 이외의 오디오 효과도 본 발명에 적용가능하다.

본 발명에서 제안하는 휴대기기 환경에서 실시간 스트리밍 서비스를 위한 사용자 정보 기반의 고품질 객체 기반의 오디오 장면 묘사 방법을 활용하면 IPTV와 같은 대화형 서비스에 사용자 정보 기반의 상호작용 오디오 서비스를 구현할 수 있다. 또한, DMB, DTV와 같은 단방향 서비스에 적용하여 기본의 서비스 품질을 향상시킬 수 있다. 또한 고품질 오디오의 개인화 서비스를 구현할 수 있다.

본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 예컨대, 본 발명의 오디오 생성방법, 오디오 재생방법을 실현하기 위한 프로그램이 기록된 기록매체 등 다양한 형태로 구현될 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구의 범위에 의하여 나타내어지며, 특허청구의 범위의 의미 및 범위 그리고 그 균등개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 오디오 생성장치 110: 오디오 인코더
120: 묘사인코더 130: 패킷화부
200: 오디오 재생장치 210: 디패킷화부
220: 오디오 디코더 230: 묘사디코더
240: 오디오 처리부 250: 사용자명령 전달부
260: 오디오 출력부

Claims

오디오 콘텐츠를 구성하는 오디오 객체를 입력받아 압축하는 오디오 인코더;
상기 오디오 객체에 일괄적으로 적용될 제1 오디오 효과를 포함하고 미리 설정된 주기에 따라 반복적으로 전송되는 주요 장면묘사정보 및 상기 오디오 객체들에 개별적으로 적용될 장면효과정보와 객체효과정보에 의한 제2 오디오 효과를 포함하고, 오디오 편집명령에 따라 상기 주요장면묘사정보와 함께 전송되는 세부 장면묘사정보를 포함하는 스트리밍 장면묘사정보를 생성하는 묘사인코더; 및
상기 묘사인코더에서 생성된 스트리밍 장면묘사정보와 상기 오디오 인코더에서 압축된 오디오 객체들을 결합하여 오디오 프레임 단위의 시간에 따라 전송되는 오디오 비트스트림을 생성하는 패킷화부
를 포함하는 오디오 생성장치.
제1항에 있어서, 상기 주요 장면묘사정보는
상기 미리 설정된 주기에 따라 일괄적으로 적용될 오디오 효과의 적용 시작시간, 적용 종료시간 및 적용될 상기 제1 오디오 효과 정보를 포함하는 것인 오디오 생성장치.
제2항에 있어서, 상기 주요 장면묘사정보는
복수의 장면 묘사 정보를 구분하기 위한 장면묘사 ID(SDID)정보;
상기 장면 묘사 정보를 구성하는 상기 오디오 객체의 개수를 나타내는 객체개수(Num_Obj)정보; 및
객체(Obj)정보를 포함하되, 상기 객체정보는
복수의 오디오 객체들을 구분하기 위한 객체ID(Obj_ID) 정보;
상기 오디오 객체를 생성한 수단정보를 포함하는 객체명(Obj_Name) 정보; 및
상기 오디오 객체가 재생될 스피커의 종류에 대한 정보를 포함하는 객체 합성 비율(Obj_MixRatio) 정보
를 포함하는 것인 오디오 생성장치.
제1항에 있어서, 상기 세부 장면묘사정보는
상기 오디오 편집명령에 따라 적용될 오디오 효과의 적용 시작시간, 적용 종료시간 및 적용될 상기 제2 오디오 효과정보를 포함하는 것인 오디오 생성장치.
제4항에 있어서, 상기 세부 장면묘사정보는
복수의 장면 묘사 정보를 구분하기 위한 장면묘사 ID(SDID)정보;
상기 장면묘사정보에 적용하는 장면 효과 개수(Num_SceneEffect) 정보;
실제 적용될 장면 효과(SceneEffect_N) 정보;
상기 장면묘사정보에서 포함하는 오디오 객체별 효과의 개수(Num_Object) 정보; 및
실제 적용될 객체 효과(Obj_Effect) 정보
를 포함하는 것인 오디오 생성장치.
제1항에 있어서, 상기 스트리밍 장면묘사정보는
상기 오디오 객체들 각각이 상기 오디오 프레임 단위의 시간 내에서 재생될 재생 구간들에 대한 정보를 포함하는 것인 오디오 생성장치.
제6항에 있어서, 상기 재생구간은
상기 오디오 객체에 대한 첫 번째 재생구간, 첫번째 재생구간과 이격된 두번째 재생 시작 구간을 포함하며, 상기 오디오 객체가 시간적으로 분할되어 재생되도록 정의되는 것인 오디오 생성장치.
오디오 객체들에 일괄적으로 적용될 제1 오디오 효과를 포함하고, 미리 설정된 주기에 따라 반복적으로 전송되는 주요 장면묘사정보 및
상기 오디오 객체들에 개별적으로 적용될 장면효과정보와 객체효과정보에 의한 제2 오디오 효과를 포함하고, 오디오 편집명령에 따라 상기 주요 장면묘사정보와 함께 전송되는 세부 장면묘사정보
를 포함하는 스트리밍 장면묘사정보를 압축된 오디오 객체 비트스트림과 결합하여 생성된 오디오 비트스트림을 입력받아, 오디오 객체 비트스트림과 장면묘사정보 비트스트림으로 분리하는 디패킷화부;
상기 디패킷화부에서 분리된 상기 오디오 객체 비트스트림을 복호화하여 오디오 객체를 생성하는 오디오 디코더;
상기 디패킷화부에서 분리된 상기 장면묘사정보 비트스트림을 복호화하여 장면묘사정보를 생성하는 묘사 디코더; 및
상기 장면묘사정보에 포함된 상기 주요 장면묘사정보를 상기 복호화된 오디오 객체에 일괄적으로 적용하고, 상기 장면묘사정보에 상기 세부 장면묘사정보가 적용되는 시간정보를 포함하는 경우, 상기 세부 장면묘사정보를 상기 복호화된 오디오 객체에 적용하는 오디오 처리부
를 포함하는 오디오 재생장치.
제8항에 있어서, 상기 오디오 처리부는
상기 복호화된 오디오 객체들을 합성하여, 하나의 오디오 신호를 생성하고, 상기 오디오 신호에 상기 제1 오디오 효과를 부여하여 상기 주요 장면묘사정보를 상기 복호화된 오디오 객체들 모두에 일괄적으로 적용하는 것인 오디오 재생장치.
제9항에 있어서, 상기 오디오 처리부는
상기 오디오 객체가 상기 세부 장면묘사정보가 필요한 오디오 객체인 경우, 상기 세부 장면묘사정보에 포함된 상기 장면효과정보와 상기 객체효과정보를 참조하여 상기 복호화된 오디오 객체들 각각에 개별적으로 상기 제2 오디오 효과들을 적용하는 것인 오디오 재생장치.
제9항에 있어서, 상기 오디오 처리부는
상기 복호화된 오디오 객체들 각각에 대한 재생구간을 기초로 상기 복호화된 오디오 객체들을 합성하여 하나의 오디오 신호를 생성하는 것인 오디오 재생장치.
제11항에 있어서, 상기 오디오 처리부는
상기 복호화된 오디오 객체에 대한 첫번째 재생구간, 상기 첫번째 재생구간과 이격된 두번째 재생 시작 구간을 포함하여 상기 복호화된 오디오 객체가 시간적으로 분할되어 재생되도록 합성하는 것인 오디오 재생장치.
제8항에 있어서, 상기 오디오 처리부는
사용자의 편집내용을 기초로하여 상기 복호화된 오디오 객체들의 전부 또는 일부에 상기 오디오 효과를 적용하는 것인 오디오 재생장치.
오디오 콘텐츠를 구성하는 오디오 객체들을 압축하는 단계;
상기 오디오 객체에 일괄적으로 적용될 제1 오디오 효과를 포함하고, 미리 설정된 주기에 따라 반복적으로 전송되는 주요 장면묘사정보 및 상기 오디오 객체들에 개별적으로 적용될 장면효과정보와 객체효과정보에 의한 제2 오디오 효과를 포함하고, 오디오 편집명령에 따라 상기 주요장면묘사정보와 함께 전송되는 세부 장면묘사정보를 포함하는 스트리밍 장면묘사정보를 생성하는 단계; 및
상기 생성단계에서 생성된 스트리밍 장면묘사정보와 상기 압축단계에서 압축된 오디오 객체들을 결합하여 오디오 프레임 단위의 시간에 따라 전송되는 하나의 객체기반 오디오 비트스트림을 생성하는 단계
를 포함하는 오디오 생성방법.
제14항에 있어서, 상기 주요 장면묘사정보는
상기 미리 설정된 주기에 따라 일괄적으로 적용될 오디오 효과의 적용 시작시간, 적용 종료시간 및 적용될 상기 오디오 효과정보를 포함하는 것인 오디오 생성방법.
제15항에 있어서, 상기 주요 장면묘사정보는
복수의 장면 묘사 정보를 구분하기 위한 장면묘사 ID(SDID)정보;
상기 장면 묘사 정보를 구성하는 오디오 객체의 개수를 나타내는 객체개수(Num_Obj)정보; 및
객체(Obj)정보를 포함하되, 상기 객체정보는
복수의 오디오 객체들을 구분하기 위한 객체ID(Obj_ID) 정보;
상기 오디오 객체를 생성한 수단정보를 포함하는 객체명(Obj_Name) 정보; 및
상기 오디오 객체가 재생될 스피커의 종류에 대한 정보를 포함하는 객체 합성 비율(Obj_MixRatio) 정보
를 포함하는 것인 오디오 생성방법.
제14항에 있어서, 상기 세부 장면묘사정보는
오디오 객체 별로 적용될 상기 오디오 효과의 적용 시작시간, 적용 종료시간 및 적용될 상기 오디오 효과정보를 포함하는 것인 오디오 생성방법.
제17항에 있어서, 상기 세부 장면묘사정보는
복수의 장면 묘사 정보를 구분하기 위한 장면묘사 ID(SDID)정보;
상기 장면묘사정보에 적용하는 장면 효과 개수(Num_SceneEffect) 정보;
실제 적용될 장면 효과(SceneEffect_N) 정보;
상기 장면묘사정보에서 포함하는 오디오 객체별 효과의 개수(Num_Object) 정보; 및
실제 적용될 객체 효과(Obj_Effect) 정보
를 포함하는 것인 오디오 생성방법.
제14항에 있어서, 상기 스트리밍 장면묘사정보는
상기 오디오 객체들 각각이 상기 오디오 프레임 단위의 시간 내에서 재생될 재생 구간들에 대한 정보를 포함하는 것인 오디오 생성방법.
제19항에 있어서, 상기 재생구간은
상기 오디오 객체에 대한 첫 번째 재생구간, 첫번째 재생구간과 이격된 두번째 재생 시작 구간을 포함하며, 상기 오디오 객체가 시간적으로 분할되어 재생되도록 정의되는 것인 오디오 생성방법.
오디오 객체들에 일괄적으로 적용될 제1 오디오 효과를 포함하고, 미리 설정된 주기에 따라 반복적으로 전송되는 주요 장면묘사정보 및 상기 오디오 객체들에 개별적으로 적용될 장면효과정보와 객체효과정보에 의한 제2 오디오 효과를 포함하고, 오디오 편집명령에 따라 상기 주요 장면묘사정보와 함께 전송되는 세부 장면묘사정보를 포함하는 스트리밍 장면묘사정보를 압축된 오디오 객체 비트스트림과 결합하여 생성된 객체기반 오디오 비트스트림을 오디오 객체 비트스트림과 장면묘사정보 비트스트림으로 분리하는 단계;
상기 오디오 객체 비트스트림을 복호화하여 오디오 객체를 생성하는 단계;
상기 장면묘사정보 비트스트림을 복호화하여 장면묘사정보를 생성하는 단계; 및
상기 장면묘사정보에 포함된 상기 주요 장면묘사정보를 상기 복호화된 오디오 객체에 일괄적으로 적용하고, 상기 장면묘사정보에 상기 세부 장면묘사정보가 적용되는 시간정보를 포함하는 경우, 상기 세부 장면묘사정보를 상기 복호화된 오디오 객체에 적용하는 오디오 처리단계
를 포함하는 오디오 재생방법.
제21항에 있어서, 상기 오디오 처리단계는
상기 복호화된 오디오 객체들을 합성하여, 하나의 오디오 신호를 생성하고, 상기 오디오 신호에 상기 제1 오디오 효과를 부여하여 상기 주요 장면묘사정보를 상기 복호화된 오디오 객체들 모두에 일괄적으로 적용하는 단계를 포함하는 것인 오디오 재생방법.
제22항에 있어서, 상기 오디오 처리단계는
상기 세부 장면묘사정보가 필요한 오디오 객체인 경우, 상기 세부 장면묘사정보에 포함된 상기 장면효과정보와 상기 객체효과정보를 참조하여 상기 복호화된 오디오 객체들 각각에 개별적으로 상기 제2 오디오 효과를 부여하는 단계를 더 포함하는 것인 오디오 재생방법.
제22항에 있어서, 상기 오디오 처리단계는
상기 복호화된 오디오 객체들 각각에 대한 재생구간을 기초로 상기 복호화된 오디오 객체들을 합성하여 하나의 오디오 신호를 생성하는 단계를 포함하는 것인 오디오 재생방법.
제24항에 있어서, 상기 오디오 처리단계는
상기 복호화된 오디오 객체에 대한 첫번째 재생구간, 상기 첫번째 재생구간과 이격된 두번째 재생 시작 구간을 포함하여 상기 복호화된 오디오 객체가 시간적으로 분할되어 재생되도록 합성하는 단계를 포함하는 것인 오디오 재생방법.
제21항에 있어서, 상기 오디오 처리단계는
사용자의 편집내용을 기초로하여 상기 복호화된 오디오 객체들의 전부 또는 일부에 상기 제1 오디오 효과 및 제2 오디오 효과를 부여하거나 또는 일부에 상기 오디오 효과를 적용하는 단계를 더 포함하는 오디오 재생방법.