KR101596504B1

KR101596504B1 - 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체

Info

Publication number: KR101596504B1
Application number: KR1020090034992A
Authority: KR
Inventors: 장인선; 서정일; 김휘용; 이태진; 강경옥; 홍진우; 김진웅; 안치득; 함승철
Original assignee: 한국전자통신연구원; (주)오디즌
Priority date: 2008-04-23
Filing date: 2009-04-22
Publication date: 2016-02-23
Also published as: JP5514803B2; KR20090112579A; EP2279618B1; EP2279618A1; JP2011523083A; EP2279618A4; US20110064249A1; WO2009131391A1; CN102067490A; US8976983B2; JP2013137558A

Abstract

객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체가 개시된다. 객체기반 오디오 컨텐츠의 생성 방법은 복수의 오디오 객체를 입력 받는 단계, 상기 입력된 복수의 오디오 객체를 이용하여 적어도 하나의 프리셋을 생성하는 단계, 및 상기 복수의 오디오 객체, 및 상기 적어도 하나의 프리셋의 속성에 대한 프리셋 파라미터를 저장하는 단계를 포함하고, 상기 프리셋 파라미터는 상기 객체기반 오디오 컨텐츠에 관한 미디어 파일 포맷에서 정의되는 박스(box)의 형태로 저장된다.

객체기반 오디오, 프리셋, 프리셋 파라미터, 미디어 파일 포맷, ISO-BMFF

Description

객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체{METHOD FOR GENERATING AND PLAYING OBJECT-BASED AUDIO CONTENTS AND COMPUTER READABLE RECORDOING MEDIUM FOR RECODING DATA HAVING FILE FORMAT STRUCTURE FOR OBJECT-BASED AUDIO SERVICE}

본 발명은 객체기반 오디오 컨텐츠에 대한 프리셋 정보를 효율적으로 저장할 수 있는 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체에 관한 것이다.

본 발명은 지식경제부 및 정보통신연구진흥원의 IT원천기술개발의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호 : 2008-F-011-01, 과제명 : 차세대DTV핵심기술개발(표준화연계) - 무안경개인형3D방송기술개발(계속)].

TV 방송, 라디오 방송, DMB(Digital Multimedia Broadcasting) 등과 같은 방송 서비스를 통해 제공되는 기존의 오디오 신호는 여러 가지 음원으로부터 획득된 오디오 신호가 믹싱되어 하나의 오디오 신호로 저장/전송되는 것이다.

이와 같은 환경에서는 시청자가 전체 오디오 신호의 세기 등을 조절하는 것은 가능하나, 오디오 신호 내에 포함된 각 음원 별 오디오 신호의 세기를 조절하는 것 등과 같은 음원 별 오디오 신호의 특성제어는 불가능하게 된다.

그러나, 오디오 컨텐츠를 저작할 때, 각 음원 별 오디오 신호를 합성하지 않고 독립적으로 저장한다면, 컨텐츠 재생 단말에서는 각 음원 별 오디오 신호에 대한 세기 등을 제어하면서 해당 컨텐츠를 시청할 수 있게 된다.

이와 같이 저장/송신 단에서 여러 개의 오디오 신호를 독립적으로 저장/전송하고, 사용자가 수신기(컨텐츠 재생 장치)에서 각각의 오디오 신호를 적절히 제어하면서 청취할 수 있도록 하는 오디오 서비스를 객체 기반 오디오 서비스라 한다.

이러한 객체 기반 오디오 서비스에서는 각 객체들의 위치, 음의 세기, 객체들의 위치에 따른 음향적 특성 등과 같은 속성들을 프리셋(Preset)으로 정의하여 제공함으로써 사용자로 하여금 이들을 오디오 컨텐츠의 재생에 활용할 수 있게 한다. 즉, 여러 개의 프리셋 오디오 정보들을 생성하여 파일 내부에 포함하여 서비스한다면, 수신 측에서는 객체 기반 오디오 서비스를 더욱 효율적으로 재생할 수 있다.

기존의 ISO 기반 미디어 파일 포맷(ISO-BMFF: ISO Base Media File Format)에서는 오디오, 비디오, 정지 영상 등 다양한 형태의 미디어를 모두 포함하는 형태의 파일 구조를 정의하고 있다. 상기의 파일 구조는 미디어의 인터체인지(interchange), 관리(management), 편집(editing), 프레젠테이션(presentation) 에 있어 유연하고 확장 가능한 특징이 있다.

이러한 ISO 기반 미디어 파일 포맷에 오디오 트랙과 프리셋 정보를 추가하여 저장 또는 송신한다면 객체기반 오디오 서비스를 더욱 효율적으로 제공할 수 있을 것이다.

본 발명의 일실시예들은 복수의 오디오 객체에 대한 프리셋을 효율적으로 저장할 수 객체기반 오디오 컨텐츠의 생성 방법을 제공하는 것을 목적으로 한다.

본 발명의 일실시예에 따른 객체기반 오디오 컨텐츠의 생성 방법은 복수의 오디오 객체를 입력 받는 단계, 상기 입력된 복수의 오디오 객체를 이용하여 적어도 하나의 프리셋을 생성하는 단계, 및 상기 복수의 오디오 객체, 및 상기 적어도 하나의 프리셋의 속성에 대한 프리셋 파라미터를 저장하는 단계를 포함하고, 상기 프리셋 파라미터는 상기 객체기반 오디오 컨텐츠에 관한 미디어 파일 포맷에서 정의되는 박스(box)의 형태로 저장된다.

이 경우, 상기 미디어 파일 포맷은 ISO 기반 미디어 파일 포맷(ISO base media file format) 구조일 수 있다.

또한, 상기 박스는 무브(moov) 박스를 포함하고, 상기 무브 박스는 상기 무브 박스 내에 정의된 제1 박스를 포함하고, 상기 제1 박스는 상기 제1 박스 내에 정의된 제2 박스를 포함하고, 상기 프리셋 파라미터는 제1 프리셋 파라미터 및 제2 프리셋 파라미터를 포함하고, 상기 제1 프리셋 파라미터는 상기 적어도 하나의 프리셋의 개수, 및 상기 적어도 하나의 프리셋 중에서 어느 하나의 프리셋의 프리셋 아이디(ID) 중에서 적어도 하나를 포함하고, 상기 제1 프리셋 파라미터는 상기 제1 박스에 저장되고, 상기 제2 프리셋 파라미터는 상기 제2 박스에 저장될 수 있다.

또한, 본 발명의 일실시예에 따른 객체기반 오디오 컨텐츠의 재생 방법은 객체기반 오디오 컨텐츠로부터 복수의 오디오 객체 및 적어도 하나의 프리셋을 복원하는 단계, 상기 적어도 하나의 프리셋에 기초하여 상기 복수의 오디오 객체를 믹싱하여 출력 오디오 신호를 생성하는 단계, 및 상기 출력 오디오 신호를 재생하는 단계를 포함하고, 상기 적어도 하나의 프리셋 각각은 프리셋 파라미터를 포함하고, 상기 프리셋 파라미터는 상기 객체기반 오디오 컨텐츠에 관한 미디어 파일 포맷에서 정의되는 박스의 형태로 상기 객체기반 오디오 컨텐츠에 저장될 수 있다.

또한, 본 발명의 일실시예에 따른 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체는 객체기반 오디오 컨텐츠의 규격 정보를 저장하는 에프팁(ftyp) 박스, 상기 객체 기반 오디오 컨텐츠를 구성하는 복수의 오디오 객체를 저장하는 엠닷(mdat) 박스, 및 상기 저장된 복수의 오디오 객체를 프레젠테이션(presentation)하는 메타데이터(meta data)를 저장하는 무브(moov) 박스를 포함하고, 상기 복수의 오디오 객체를 이용하여 생성된 적어도 하나의 프리셋의 속성에 대한 프리셋 파라미터는 상기 에프팁 박스 및 상기 무브 박스 중에서 어느 하나에 저장된다.

본 발명에 따르면, 복수의 오디오 객체에 대한 프리셋을 효율적으로 저장할 수 있게 된다.

이하에서는 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 다음에 예시하는 본 발명의 실시예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 상술하는 실시예에 한정되는 것은 아니다. 본 발명의 실시예는 당업계에서 통상의 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공된다.

도 1은 본 발명의 일실시예에 따른 객체기반 오디오 컨텐츠의 저장을 위한 미디어 파일 포맷 구조의 기본 형태를 도시한 도면이다.

도 1을 참조하면, 객체기반 오디오 컨텐츠의 저장을 위한 미디어 파일 포맷 구조는 크게, 객체기반 오디오 컨텐츠의 규격 정보(즉, 객체기반 오디오 컨텐츠 파일의 타입 정보)가 저장되는 에프팁 박스(이하 'ftyp'라고 한다), 객체기반 오디오 컨텐츠를 구성하는 복수의 오디오 객체 데이터의 프레젠테이션(presentation)을 위한 메타데이터(metadata)(예를 들어, 디코딩 타임(decoding time))가 저장되는 무브 박스(이하 'moov'라고 한다), 및 복수의 오디오 객체 데이터가 저장되는 엠닷 박스(이하, 'mdat' 라고 한다)를 포함하여 구성된다.

'ftyp' 및 'moov'는 메타 박스(이하 'meta'라고 한다)를 포함하여 구성되는데, 일반적으로 'meta'에는 'mdat'에 저장된 복수의 오디오 객체 데이터에 대한 디스크립션 메타데이터(descriptive metadata)가 저장된다.

여기서, 객체기반 오디오 컨텐츠의 저장을 위한 미디어 파일 포맷 구조는 ISO 기반 미디어 파일 포맷(ISO-BMFF: ISO Based Media File Format) 구조인 것이 바람직하다.

이하에서는 ISO 기반 미디어 파일 포맷(ISO-BMFF) 구조에 따라서 객체기반 오디오 컨텐츠의 재생과 관련된 프리셋을 복수의 오디오 객체와 함께 저장하여 객체기반 오디오 컨텐츠를 생성하는 방법에 대해 기술하기로 한다. 그러나, 앞서 언급한 바와 같이, 이하에서 설명되는 객체기반 오디오 컨텐츠 생성 방법은 ISO 기반 미디어 파일 포맷(ISO-BMFF) 구조를 갖는 객체기반 오디오 컨텐츠에 한정되지 않으며, MP4 파일 등과 같은 멀티미디어 데이터를 저장하기 위한 미디어 파일 포맷 구조를 갖는 멀티채널 오디오 컨텐츠에 대해서도 확장 가능하다.

본 발명의 일실시예에 따른 객체기반 오디오 컨텐츠의 생성 방법을 설명하기에 앞서, 객체기반 오디오 컨텐츠에 저장되는 프리셋의 속성을 나타내는 프리셋 파라미터에 대해 먼저 설명하기로 한다. 프리셋 파라미터는 아래에 나열된 프리셋 정보 중에서 적어도 하나를 포함할 수 있다.

1. 프리셋 이름, 프리셋 아이디

'프리셋 이름'은 프리셋과 대응되는 문자열(string)을 의미하고, '프리셋 아이디'는 프리셋과 대응되는 각각의 프리셋과 대응되는 정수(integer)를 의미한다.

2. 프리셋 개수, 디폴트 프리셋 아이디(ID)

'프리셋 개수'는 객체기반 오디오 컨텐츠에 포함되는 프리셋의 개수를 의미한다.

'디폴트 프리셋 아이디(default preset ID)'는 객체기반 오디오 컨텐츠가 재생되는 경우에 있어 사용자 인터랙션(user interaction)이 없는 초기 상태에서 가장 먼저 재생되어야 할 프리셋 아이디를 의미한다. 디폴트 프리셋 아이디는 객체기반 오디오 컨텐츠에 포함된 프리셋 아이디 중에서 어느 하나의 프리셋 아이디와 대응될 수 있다.

3. 프리셋 정보의 표시 여부

'프리셋 정보의 표시 여부'는 객체기반 오디오 컨텐츠의 재생 시에 프리셋 정보(일례로서, 아래에서 설명하는 입력 트랙 별 또는 입력 채널 별 볼륨 정보 또는 입력 트랙 별 또는 입력 채널 별 주파수 이득(gain) 정보)를 사용자에게 표시할지 여부에 대한 정보를 의미한다.

4. 프리셋의 편집 가능 여부

'프리셋의 편집 가능 여부'는 객체기반 오디오 컨텐츠의 재생 시 사용자가 프리셋을 편집할 수 있는지에 대한 정보를 의미한다.

5. 입력 트랙(track)의 개수, 입력 트랙의 아이디, 입력 트랙 당 입력 채널(channel)의 개수

'입력 트랙의 개수'는 객체기반 오디오 컨텐츠에 저장되는 입력 트랙의 개수를 의미한다. 여기서 입력 트랙은 음원(sound source)와 대응될 수 있다. 즉, 객체기반 오디오 컨텐츠가 보컬(vocal), 피아노, 드럼으로 구성되는 경우, 보컬, 피아노, 드럼 각각은 하나의 트랙으로 구성될 수 있다.

'입력 트랙의 아이디'는 각각의 입력 트랙과 대응되는 정수(integer)를 의미한다.

'입력 트랙당 입력 채널의 개수'는 각각의 입력 트랙에 포함되는 채널의 개수를 의미한다.

이하, 도 2를 참고하여 트랙 및 채널과의 관계를 설명하기로 한다.

도 2는 본 발명의 일실시예에 따른 트랙과 채널과의 관계를 도시한 도면이다.

도 2에서는 보컬 트랙(210), 피아노 트랙(220), 및 드럼 트랙(230)을 도시하고 있다.

음원의 녹음 시에 있어서, 각각의 음원을 2채널(즉, 스테레오 채널)로 녹음하는 경우, 각 트랙은 2개의 채널을 포함할 수 있다. 즉, 2채널로 보컬, 피아노, 및 드럼을 녹음하는 경우, 보컬 트랙(210)은 제1 채널(211) 및 제2 채널(212)로 구성되고, 피아노 트랙(220)은 제1 채널(221) 및 제2 채널(222)로 구성되고, 드럼 트랙(230)은 제1 채널(231) 및 제2 채널(232)로 구성될 수 있다. 도 2에서는 모든 트랙이 동일한 채널을 포함하는 것으로 도시하였지만, 각 트랙당 포함되는 채널의 개수는 서로 다를 수 있다.

이 때, 객체기반 오디오 컨텐츠의 저작자가 트랙 별로 프리셋을 설정하는 경우 복수의 오디오 객체는 트랙과 대응될 수 있고, 채널 별로 프리셋을 설정하는 경우 복수의 오디오 객체는 채널과 대응될 수 있다.

6. 출력 채널의 타입(type), 출력 채널의 개수

'출력 채널의 타입'은 객체기반 오디오 컨텐츠가 어떠한 채널을 통해 재생되는지 여부에 대한 정보를 의미하고, '출력 채널의 개수'는 출력 채널 타입에 따른 출력 채널의 개수를 의미한다.

7. 사운드 등화(equalization)를 위한 주파수 대역(frequency band)의 개수, 각각의 주파수 대역의 중심 주파수(center frequency), 각각의 주파수 대역의 대역폭(bandwidth)

'주파수 대역의 개수'는 신호의 증폭이나 전송 과정에서 발생하는 신호의 변형을 보정하기 위한 사운드 등화가 적용될 주파수 대역의 개수를 의미한다.

8. 입력 트랙 별 또는 입력 채널 별 볼륨 정보

'볼륨 정보'는 복수의 오디오 객체 각각의 볼륨에 관한 정보를 의미한다. 오디오 객체가 입력 트랙과 대응되는 경우, '입력 트랙 별 볼륨 정보'가 객체기반 오디오 컨텐츠에 저장되고, 오디오 객체가 입력 채널과 대응되는 경우, '입력 채널 별 볼륨 정보'가 객체기반 오디오 컨텐츠에 저장된다.

9. 입력 트랙 별 또는 입력 채널 별 주파수 이득(gain) 정보

'주파수 이득 정보'는 사운드 등화 적용 시의 주파수 이득에 관한 정보를 의미하는 것이다. 오디오 객체가 입력 트랙과 대응되는 경우, '입력 트랙 별 주파수 이득 정보'가 객체기반 오디오 컨텐츠에 저장되고, 오디오 객체가 입력 채널과 대응되는 경우, '입력 채널 별 주파수 이득 정보'가 객체기반 오디오 컨텐츠에 저장된다.

10. 프리셋 글로벌(global) 볼륨 정보

'프리셋 글로벌 볼륨 정보'는 복수의 오디오 객체 전체의 볼륨을 조절하기 위한 정보를 의미한다.

11. 음상(sound image)의 크기 및 음상의 각도

'음상의 크기' 및 '음상의 각도'는 객체기반 오디오 컨텐츠에 저장되는 복수개의 채널에 의해 형성되는 음상의 크기 값 및 음상의 각도 값을 의미한다.

객체기반 오디오 컨텐츠의 저작자는 다양한 방법을 통하여 ISO 기반 미디어 파일 포맷 구조에 따라, 상기 나열된 정보들 중에서 적어도 하나를 포함하는 프리셋 파라미터를 저장하여 객체기반 오디오 컨텐츠를 생성할 수 있다.

도 3은 본 발명의 일실시예에 따른 객체기반 오디오 컨텐츠의 생성 방법에 대한 흐름도를 도시한 도면이다.

먼저, 단계(310)에서는 복수의 오디오 객체를 입력 받는다.

다음으로, 단계(320)에서는 입력된 복수의 오디오 객체를 이용하여 적어도 하나의 프리셋을 생성한다.

마지막으로, 단계(330)에서는 복수의 오디오 객체, 및 프리셋의 속성에 대한 프리셋 파라미터를 저장한다. 상기 언급한 바와 같이, 프리셋 파라미터는 상기 나열된 정보 중에서 적어도 하나를 포함할 수 있다.

이 경우, 프리셋 파라미터는 객체기반 오디오 컨텐츠에 관한 미디어 파일 포맷에서 정의되는 박스(box)의 형태로 저장된다.

이하에서는 단계(330)에서 프리셋 파라미터를 저장하는 과정을 상세히 설명하기로 한다.

' ftyp' 내에 존재하는 ' meta 또는 ' moov' 내에 존재하는 ' meta' 내에 프리셋 파라미터를 저장

본 발명의 일실시예에 따르면, 프리셋 파라미터는 'ftyp' 내에 존재하는 'meta'(이하 제1 'meta'라고 한다), 또는 'moov' 내에 존재하는 'meta'(이하 제2 'meta'라고 한다)내에 저장될 수 있다.

즉, 상기에서 언급한 바와 같이, 제1 'meta' 또는 제2 'meta'에는 노래 제목, 가수 이름, 앨범(album) 이름 등 객체기반 오디오 컨텐츠에 대한 일반적인 정보를 나타내는 디스크립션 정보(또는 디스크립션 메타데이터)가 저장될 수 있는데, 프리셋 파라미터는 상기의 디스크립션 정보와 함께 저장될 수 있다.

디스크립션 정보가 저장되는 ' meta' 와 다른 별개의 ' meta' 에 프리셋 파라미터를 저장

본 발명의 일실시예에 따르면, 프리셋 파라미터는 객체기반 오디오 컨텐츠에 대한 디스크립션 정보가 저장되는 'meta'와 다른 별개의 'meta'에 저장될 수 있다.

이는 디스크립션 정보는 객체기반 오디오 컨텐츠의 식별과 관련된 정보이고, 프리셋 파라미터는 객체기반 오디오 컨텐츠의 재생과 관련된 정보로서, 양 정보의 속성이 서로 다르므로 이는 서로 구분되어 관리(handling)되는 것이 바람직하다는 점에 기인한 것이다.

일례로서, 디스크립션 정보는 제1 'meta'에 저장되고, 프리셋 파라미터는 제2 'meta'에 저장될 수 있다.

ISO 기반 미디어 파일 포맷에서는 하나의 레벨(level) 내에 하나의 'meta' 만이 존재할 수 있는 것으로 규정하고 있으므로 'ftyp'와 'moov' 각각은 하위 레벨에서 하나의 'meta'만을 포함할 수 있다. 따라서, 디스크립션 정보와 프리셋 파라미터가 구분되어 저장되려면, 서로 다른 레벨에 존재하는 'meta'(즉, 제1 'meta' 및 제2 'meta')에 디스크립션 정보 및 프리셋 파라미터가 각각 저장되어야 한다. 이 경우, 프리셋 파라미터는 프레젠테이션을 위한 메타데이터의 속성을 가지고 있으므로, 디스크립션 정보는 제1 'meta'에 저장되고, 프리셋 파라미터는 제2 'meta' 에 저장될 수 있다.

다른 일례로서, 디스크립션 정보는 'meta'(제1 'meta' 및 제2 'meta')에 그대로 저장되어 있고, 프리셋 파라미터는 'ftyp' 또는 'moov' 내에 존재하는 메코(meco) 박스(이하, 'meco'라고 한다) 내에 저장될 수 있다.

'meco'는 ISO 기반 미디어 파일 포맷에서 규정하고 있는, 부가적인 메타데이터를 저장하기 위한 박스(Additional Metadata Contain Box)로서, 'meco'에는 ISO 기반 미디어 파일 포맷에서 규정되지 않은 별개의 메타데이터가 저장될 수 있다. 따라서, 프리셋 파라미터는 'ftyp' 내에 존재하는 'meco' 또는 'moov' 내에 존재하는 'meco' 중 어느 하나에 저장될 수 있다.

' moov' 내에 새롭게 정의된 박스에 프리셋 파라미터를 저장

본 발명의 일실시예에 따르면, 프리셋 파라미터는 'moov' 내에 새롭게 정의된 박스에 저장될 수 있다.

상기 언급한 바와 같이, 프리셋 파라미터와 디스크립션 정보는 속성이 서로 다르므로, 프리셋 파라미터는 디스크립션 정보와 별개로 관리(handling)되는 것이 바람직하다. 또한, 프리셋 파라미터는 프레젠테이션을 위한 메타데이터의 속성을 가지고 있으므로, 'moov' 내에 저장되는 것이 바람직하다. 따라서, 프리셋 파라미터를 효율적으로 관리하기 위해서는 'moov' 내에 새로운 박스를 정의하고, 새롭게 정의된 박스를 내에 프리셋 파라미터를 저장하는 것이 바람직하다.

도 4는 본 발명의 일실시예에 따른 'moov'의 구조를 도시한 도면이다.

도 4에 도시된 바와 같이, 'moov' 내에는 2개의 박스가 정의될 수 있다.

제1 박스는 'moov'내에 정의되는 박스로서, 제1 박스에는 프리셋의 전체적인 정보를 나타내는 프리셋 파라미터인 제1 프리셋 파라미터가 저장된다. 이하에서는 제1 박스를 프리셋 컨테이너 박스(preset contain box) 즉,'prco'라고 칭하기로 한다.

일례로, 제1 프리셋 파라미터는 상기에서 언급한 프리셋의 개수 및 디폴트 프리셋 아이디 중에서 적어도 하나가 포함될 수 있다. 디폴트 프리셋 아이디(default preset ID)란 객체기반 오디오 컨텐츠가 재생되는 경우에 있어 사용자 인터랙션(user interaction)이 없는 초기 상태에서 가장 먼저 재생되어야 할 프리셋 아이디를 의미한다. 디폴트 프리셋 아이디는 객체기반 오디오 컨텐츠에 포함된 프리셋 아이디 중에서 어느 하나의 프리셋 아이디와 대응될 수 있다.

제2 박스는 'prco'내에 정의되는 박스로서, 제2 박스에는 프리셋의 속성에 대한 파라미터인 제2 프리셋 파라미터가 저장된다.

일례로, 제2 프리셋 파라미터에는 상기 나열된 정보 중에서 프리셋의 개수 및 디폴트 프리셋 아이디 이외의 다른 정보들이 포함될 수 있다. 이하에서는 제2 박스를 프리셋 박스(preset box), 즉, 'prst'라고 칭하기로 한다.

'prco'내에는 객체기반 오디오 컨텐츠에 포함되는 프리셋 수만큼의 'prst'가 존재한다. 만약, 객체기반 오디오 컨텐츠 내에 프리셋이 저장되지 않는 경우, 'prco' 내에는 'prst'가 존재하지 않는다.

일례로, 'prst'에는 상기에서 언급한 프리셋 정보 중에서 프리셋의 개수 및 디폴트 프리셋 아이디를 제외한 나머지 프리셋 정보를 포함하는 프리셋 파라미터가 저장될 수 있다.

본 발명의 일실시예에 따르면, 'moov'가 'prco' 및 'prst'를 포함하는 경우, ISO 기반 미디어 파일 포맷의 구조는 표 1과 같이 나타낼 수 있다.

ftyp						file type and compatibility
moov						container for all the metadata
	mvhd					movie header, overall declarations
	trak					container for an individual track or stream
		tkhd				track header, overall information about the track
		tref				track reference container
		edts				edit list container
			elst			an edit list
		mdia				container for the media information in a track
			mdhd			media header, overall information about the media
			hdlr			handler, declares the media (handler) type
			minf			media information container
				smhd		sound media header, overall information (sound track only)
				hmhd		hint media header, overall information (hint track only)
				nmhd		Null media header, overall information (some tracks only)
				dinf		data information box, container
					dref	data reference box, declares source(s) of media data in track
				stbl		sample table box, container for the time/space map
					stsd	sample descriptions (codec types, initialization etc.)
					stts	(decoding) time-to-sample
					stsc	sample-to-chunk, partial data-offset information
					stsz	sample sizes (framing)
					stz2	compact sample sizes (framing)
					stco	chunk offset, partial data-offset information
					co64	64-bit chunk offset
	prco					container for the presets
		prst				preset box, container for the preset information
mdat						media data container
free						free space
skip						free space
meta						Metadata
	hdlr					handler, declares the metadata (handler) type
	dinf					data information box, container
		Dref				data reference box,declares source(s) of metadata items
	iloc					item location
	iinf					item information
	xml					XML container
	bxml					binary XML container
	pitm					primary item reference

이하에서는 'prco' 및 'prst'의 신택스(syntax)와 시맨틱스(semantics)의 일실시예들에 대해 자세히 설명하기로 한다.

표 2는 'prco'의 신택스의 일실시예를 나타낸다.

Preset Container Box
Box type: 'prco'
Container: Movie Box ('moov')
Mandatory: Yes
Quantity: Exactly one

syntax

aligned(8) class PresetContainerBox extends Box('prco'){
unsigned int(8) num_preset;
unsigned int(8) default_preset_ID;
}

표 2의 신택스에 따른 시맨틱스는 아래와 같다.

'num_preset'은 'prco' 내의 프리셋의 개수를 의미한다.

'default_preset_ID'는 디폴트 프리셋 아이디를 각각 의미한다. 저작자가 'default_preset_ID'를 설정하지 않은 경우, 프리셋 아이디 값이 가장 작은 프리셋의 프리셋 아이디가 'default_preset_ID'로 설정될 수 있다.

만약 'default_preset_ID'가 '0'으로 설정된 경우, 객체기반 오디오 컨텐츠에 포함되는 복수의 오디오 객체 중에서 다객체 오디오 압축 기술(SAOC: MPEG-D Spatial audio object coding)로써 부호화되어 저장된 오디오 객체들의 비트스트림 내부에 저장된 프리셋에 따라 객체기반 오디오 컨텐츠가 재생될 수 있다. 이에 대한 보다 자세한 설명은 도 6에 대한 설명을 참고하기로 한다.

표 3은 'prst'의 개괄적인 신택스를 나타낸다.

Preset Box
Box type : ' prst'
Container: Preset Container Box ('prco')
Mandatory: No
Quantity: zero or more

syntax

aligned(8) class PresetBox extends FullBox('prst', version=0, flags){
unsigned int(8) preset_ID;
unsigned int(8) num_preset_track;
unsigned int(8) preset_track_ID[num_preset_track];
unsigned int(8) preset_type;
unsigned int(8) preset_global_volume;

if(preset_type == 0) {}
if(preset_type == 1) {}
if(preset_type == 2) {}
if(preset_type == 3) {}
if(preset_type == 4) {}
if(preset_type == 5) {}
if(preset_type == 6) {}
if(preset_type == 7) {}
if(preset_type == 8) {}
if(preset_type == 9) {}
if(preset_type == 10) {}
if(preset_type == 11) {}
string preset_name;
}

표 3의 신택스에 따른 시맨틱스는 아래와 같다.

'version'은 'prst'의 버전을 의미한다.

'flags'는 객체기반 오디오 컨텐츠의 재생 시에 있어, 'prst'에 저장된 정보를 사용자에게 표시할지 여부 및 'prst'에 저장된 정보에 대한 사용자의 편집을 허용할지 여부에 대한 플래그 정보를 의미한다.

'flags'는 8비트 인티저(bit integer)의 데이터 타입을 갖는 플래그 정보로서, 표 4와 같은 의미를 가질 수 있다.

Flags	Display	Edit
0x01	disable	disable
0x02	enable	disable
0x03	enable	enable

즉, 만약 'flags'가 0x01인 경우, 객체기반 오디오 컨텐츠의 재생 시 'prst' 내에 저장된 프리셋 관련 정보가 사용자에게 표시되지 않으며, 사용자는 'prst' 내에 저장된 프리셋 관련 정보를 편집할 수 없다.

만약 'flags'가 0x02인 경우, 객체기반 오디오 컨텐츠의 재생 시 'prst' 내에 저장된 프리셋 관련 정보는 사용자에게 표시지만, 사용자는 'prst' 내에 저장된 정보를 편집할 수 없다.

만약 'flags'가 0x03인 경우, 객체기반 오디오 컨텐츠의 재생 시 'prst' 내에 저장된 정보는 사용자에게 표시되며, 사용자는 'prst' 내에 저장된 정보를 편집할 수 있다.

'preset_ID'는 프리셋 아이디를 의미하는 것으로 1 이상의 값을 가질 수 있다.

'num_preset_track'은 프리셋과 관련된 입력 트랙의 개수를 의미한다.

'preset_track_ID[num_preset_track]'은 입력 트랙의 아이디를 저장하는 어레이(array)를 의미한다.

'preset_name' 은 프리셋 이름을 의미한다.

'preset_global_volume'는 프리셋 글로벌 볼륨 정보를 의미한다.

일반적으로, 객체기반 오디오 컨텐츠의 리듬감을 강조하기 위해, 저작자는 드럼과 같은 타악기(percussion instrument) 소리의 볼륨을 다른 악기 소리의 볼륨에 비해 상대적으로 크게 하여 프리셋을 생성한다.

그런데, 만약 타악기 소리와 다른 악기 소리의 상대적인 볼륨 차가 작은 경우, 충분한 리듬감을 느낄 수 없게 된다. 이와 반대로, 만약 타악기 소리와 다른 악기 소리의 상대적인 볼륨 차가 큰 경우, 전체적인 볼륨의 크기가 작아지게 된다. 이는 일반적으로 타악기의 소리는 효과음(effector)과 같은 속성을 가지고 있어, 객체기반 오디오 컨텐츠의 총 재생 구간에 걸쳐 다른 악기 소리에 비해 타악기 소리의 고주파 성분이 차지하는 비중이 크다는 점에 기인한 것이다.

예를 들어, [보컬, 피아노, 드럼]으로 구성된 프리셋의 볼륨 값이 [250, 200, 400]인 경우 전체적인 볼륨은 적당하지만 리듬감이 강조되지 않고, 프리셋의 볼륨 값이 [100, 150, 400]의 경우 리듬감은 강조되지만 전체적인 볼륨은 줄어들게 된다.

이는 객체기반 오디오 컨텐츠 내에 프리셋 글로벌 볼륨 정보를 더 저장함으로써 해결될 수 있다. 프리셋 글로벌 볼륨 정보는 프리셋을 구성하는 오디오 객체의 전체적인 볼륨을 조절하기 위한 정보이다.

즉, 객체기반 오디오 컨텐츠 내에 세팅되어 있는 기본 글로벌 볼륨 값을 기준으로 입력 트랙 전체의 볼륨 값을 저장하고, 프리셋 글로벌 볼륨 값을 기존의 글로벌 볼륨 값보다 크도록 프리셋을 생성한다면, 객체기반 오디오 컨텐츠의 재생 시 상대적인 볼륨 차가

의 비율로 더 커지게 된다.

일례로서, 기본 글로벌 볼륨 값이 '50'이고, [보컬, 피아노, 드럼]로 구성된 프리셋의 볼륨 값이 [100, 150, 400]인 경우, 프리셋 글로벌 볼륨 값을 100로 설정한다면, 각각의 악기의 볼륨은 두 배로 커지게 된다. 이에 따라, 주 멜로디를 구성하는 보컬 및 피아노의 볼륨은 두 배 정도 커지게 되어 객체기반 오디오 컨텐츠의 전체적인 볼륨은 적정한 수준이 되고, 드럼의 볼륨 또한 2배로 커지게 되어 리듬감을 강조할 수 있게 된다.

이와 같이 프리셋 글로벌 볼륨 값을 이용해서 볼륨을 증폭시키는 경우, 클리핑(clipping) 현상 등의 음질 열화가 발생할 수 있지만, 일반적으로 타악기 소리를 일정 수준 이상으로 증가시키는 경우, 타악기에서 발생하는 음질 열화는 사용자가 인지하기 어렵다는 실험적 사실에 기초한다면, 프리셋 글로벌 볼륨 정보의 이용에 따른 음질 열화는 문제되지 않을 것이다.

또한, 프리셋 글로벌 볼륨 정보는 기본 글로벌 볼륨 값이 최대인 경우, 전체적인 볼륨 크기를 증가시키기 위한 용도로도 사용될 수 있다.

즉, 일반적인 객체기반 오디오 컨텐츠의 재생에 있어, 기본 글로벌 볼륨 값이 최대인 경우, 오디오 객체 각각의 볼륨을 조절하는 것이 불가능하다. 그러나, 만약 객체기반 오디오 컨텐츠 내에 프리셋 글로벌 볼륨 정보가 저장되어 있다면, 기본 글로벌 볼륨 값의 최대값보다 더 큰 볼륨으로 객체기반 오디오 컨텐츠를 재생할 수 있게 된다.

'preset_type'은 프리셋의 타입을 의미한다.

본 발명의 일실시예에 따르면, 프리셋 타입은 믹싱 정보의 종류, 믹싱 정보의 적용 대상, 및 객체기반 오디오 컨텐츠의 재생 시간에 따른 믹싱 정보의 변화 여부에 기초하여 결정될 수 있다. 이하에서는 프리셋 타입의 결정 방법에 대해 상세히 설명하기로 한다.

먼저, 프리셋 타입은 믹싱 정보의 종류에 기초하여 결정할 수 있다.

일례로서, 믹싱 정보는 볼륨 정보 및 사운드 등화 정보 중에서 적어도 하나를 포함할 수 있다. 이하에서는 볼륨 정보만을 고려하여 생성된 프리셋을 볼륨 프리셋(volume preset)으로, 등화 정보만을 고려하여 생성된 프리셋을 등화 프리셋(equalization preset)으로, 볼륨 정보와 등화 정보를 모두 고려하여 생성된 프리셋을 볼륨/등화 프리셋(volume/equalization preset)라고 칭하기로 한다.

다음으로, 프리셋 타입은 믹싱 정보의 적용 대상에 기초하여 결정될 수 있다.

즉, 입력 트랙을 오디오 객체로 간주하여 믹싱 정보를 적용할지, 입력 채널을 오디오 객체로 간주하여 믹싱 정보를 적용할지 여부에 따라 프리셋 타입이 결정될 수 있다. 이하에서는 입력 트랙을 오디오 객체로 간주하여 생성된 프리셋을 트랙 프리셋(track preset)으로, 입력 채널을 오디오 객체로 간주하는 생성된 프리셋을 채널 프리셋(channel preset)으로 칭하기로 한다.

마지막으로, 프리셋 타입은 객체기반 오디오 컨텐츠의 재생 시간에 따른 믹싱 정보의 변화 여부에 기초하여 결정될 수 있다.

즉, 객체기반 오디오 컨텐츠의 재생됨에 따라, 믹싱 정보가 일정한 값을 갖는지, 믹싱 정보가 변화하는지 여부에 따라 프리셋 타입이 결정될 수 있다. 이하에서는 믹싱 정보가 변화하지 않는 경우의 프리셋을 스태틱 프리셋(static preset)으로, 믹싱 정보가 변화하는 경우의 프리셋을 다이나믹 프리셋(dynamic preset)으로 칭하기로 한다.

본 발명의 일실시예에 따르면, 객체기반 오디오 컨텐츠 내에 다이나믹 프리셋을 저장하는 경우 'prst' 내에는 입력 트랙 아이디 및 상기 입력 트랙 아이디의 믹싱 정보를 매핑(mapping)하는 테이블(table)이 포함될 수 있다. 이 경우, 기존의 ISO-BMFF에서 규정하고 'stts'(decoding time to sample box)와 상기 테이블에 저장된 믹싱 정보에 기초하여 입력 트랙의 샘플링 넘버에 따른 믹싱 정보가 도출될 수 있다('stts'에는 디코딩 시간(decoding time)과 샘플링 넘버(sample number)와의 관계 정보가 저장되어 있다). 이에 따라, 객체기반 오디오 컨텐츠의 재생에 있어 임의 접근(random access)이 가능하게 되고, 객체기반 오디오 컨텐츠에 저장되는 믹싱 정보의 양은 감소될 수 있다.

상기에서 언급한 정보들을 이용하여 프리셋을 생성하는 경우, 프리셋 타입은 표 5와 같이 구분될 수 있다. 표 5에서는 12개의 프리셋이 존재할 수 있는 것으로 표시하였지만, 이는 분류 요소에 따라 더욱 확장될 수 있다.

preset _ type	static (S) / dynamic (D)	track (T) / channel (C)	volume ( Vol )	equalization ( Eq )	meaning
0	S	T	Vol	-	static track volume preset
1	S	T	Vol	Eq	static track volume preset with equalization
2	S	T	-	Eq	static track equalization preset
3	D	T	Vol	-	dynamic track volume preset
4	D	T	Vol	Eq	dynamic track volume preset with equalization
5	D	T	-	Eq	dynamic track equalization preset
6	S	C	Vol	-	static object volume preset
7	S	C	Vol	Eq	static object volume preset with equalization
8	S	C	-	Eq	static object equalization preset
9	D	C	Vol	-	dynamic object volume preset
10	D	C	Vol	Eq	dynamic object volume preset with equalization
11	D	C	-	Eq	dynamic object equalization preset

표 5를 참고하면, 믹싱 정보는 볼륨 정보와 등화 정보를 포함하고, 이는 프리셋 타입에 따라 상이한 형태로 'prst'에 저장됨을 알 수 있다. 여기서, 믹싱 정보의 저장 형태는 크게, 프리셋 타입이 static preset 인지 dynamic preset인지에 따라 구분될 수 있다.

1. 프리셋 타입이 static preset인 경우

프리셋 타입이 static preset인 경우, 객체기반 오디오 컨텐츠를 구성하는 복수의 프레임에서의 믹싱 정보는 동일하므로, 각각의 오디오 객체 별로 동일한 믹싱 정보가 저장된다. 여기서, 믹싱 정보의 저장 형태는 프리셋 타입이 track preset인지, channel preset인지에 따라 세부적으로 구분될 수 있다.

1.1. 프리셋 타입이 static/track preset인 경우('preset_type' 값이 0, 1, 2인 경우)

믹싱 정보가 트랙 별로 저장되는 경우, 출력 채널 타입은 입력 트랙 중에서 가장 많은 채널을 갖는 입력 트릭에 따라 결정될 수 있다. 예를 들어, 제1 입력 트랙이 2개의 채널을 포함하고, 제2 입력 트랙이 1개의 채널을 포함하는 경우, 제1 입력 채널에 포함되는 채널의 개수가 더 많으므로, 출력 채널 타입은 스테레오로 결정될 수 있다.

이 경우, 'prst' 내의 프리셋의 신택스는 표 6 내지 표 8과 같을 수 있다.

if(preset_type == 0){ // static track volume preset
for(i=0; i<num_preset_track; i++){
unsigned int(8) preset_volume;
}
}

if(preset_type == 1){ // static track volume preset with equalization
for(i=0; i<num_preset_track; i++){
unsigned int(8) preset_volume;
unsigned int(8) num_freq_band;
for(j=0; j<num_freq_band; j++){
unsigned int(16) center_freq;
unsigned int(16) bandwidth;
unsigned int(8) preset_freq_gain;
}
}
}

if(preset_type == 2){ // static track equalization preset
for(i=0; i<num_preset_track; i++){
unsigned int(8) num_freq_band;
for(j=0; j<num_freq_band; j++){
unsigned int(16) center_freq;
unsigned int(16) bandwidth;
nsigned int(8) preset_freq_gain;
}
}
}

표 6 내지 표 8의 신택스에 따른 시맨틱스는 아래와 같다.

'preset_volume'은 볼륨 정보를 의미한다.

볼륨 정보는 입력 트랙의 입력 볼륨 값과 출력 트랙의 출력 볼륨 값간의 볼륨 이득 값을 포함할 수 있다. 볼륨 이득 값은 백분율 또는 데시벨(dB)로 표현될 수 있다.

또한, 백분율 또는 데시벨로 표현된 볼륨 이득 값은 양자화되어 저장될 수 있다. 이 경우, 양자화된 볼륨 이득 값은 표 9 및 표 10과 같이 표현될 수 있다.

index	0	1	2	3		149	200
value(ratio)	0	0.02	0.04	0.06		3.98	4.00

index	0	1	2	3	4	5	6	7	8	9	10	11	12	13
value(dB)	-25	-21	-18	-15	-12	-8	-5	-3	-1	0	1	2	3	4

'num_freq_band'은 사운드 등화가 적용되는 주파수 대역의 개수를 의미하는 것으로서, 0 이상 32 이하의 정수 값을 갖는다.

'center_freq'는 각각의 주파수 대역에서의 중심 주파수를 의미하는 것으로서, 0 이상 20,000 이하의 정수 값을 갖는다(단위: Hz).

'bandwidth'는 각각의 주파수 대역의 대역폭을 의미하는 것으로서, 0 이상 20,000 이하의 정수 값을 갖는다(단위: Hz).

'preset_freq_gain'각각의 주파수 대역에서의 주파수 이득 값을 의미한다.

볼륨 이득 값과 마찬가지로 주파수 이득 값 역시 백분율 또는 데시벨(dB)로 표현될 수 있고, 또한, 백분율 또는 데시벨로 표현된 주파수 이득 값은 양자화되어 저장될 수 있다. 이 경우, 양자화된 주파수 이득 값은 표 11과 같이 표현될 수 있다.

index	0	1	2	3		149	200
gain	0	0.02	0.04	0.06		3.98	4.00

1.2. 프리셋 타입이 static/channel preset인 경우('preset_type' 값이 7, 8, 9인 경우)

믹싱 정보가 채널 별로 저장되는 경우, 믹싱 정보는 입력 트랙의 개수, 입력 트랙 당 채널의 개수 및 출력 채널 타입을 고려하여 저장될 수 있다. 이 경우, 'prst'내의 프리셋의 신택스는 표 12 내지 표 14와 같을 수 있다.

if(preset_type == 6){ // static object volume preset
unsigned int(8) num_input_channel[num_preset_track];
unsigned int(8) output_channel_type;
for (i=0; i<num_preset_track; i++){
for (j=0; j<num_input_channel[i]; j++){
for (k=0; k<num_output_channel; k++){
unsigened int(8) preset_volume;
}
}
}
}

if(preset_type == 7){ // static object volume preset with equalization
for (i=0; i<num_preset_track; i++){
for (j=0; j<num_input_channel[i]; j++){
for (k=0; k<num_output_channel; k++){
unsigned int(8) preset_volume;
unsigned int(8) num_freq_band;
for(m=0; m<num_freq_band; m++){
unsigned int(16) center_freq;
unsigned int(16) bandwidth;
unsigned int(8) preset_freq_gain;
}
}
}
}
}

if(preset_type == 8){ // static object equalization preset
for (i=0; i<num_preset_track; i++){
for (j=0; j<num_input_channel[i]; j++){
for (k=0; k<num_output_channel; k++){
unsigned int(8) num_freq_band;
for(m=0; m<num_freq_band; m++){
unsigned int(16) center_freq;
unsigned int(16) bandwidth;
unsigned int(8) preset_freq_gain;
}
}
}
}
}

표 12 내지 표 14의 신택스에 따른 시맨틱스는 아래와 같다.

'num_input_channel[num_preset_track]'은 입력 트랙당 채널의 개수에 대한 정보를 저장하는 어레이를 의미한다.

일례로서, 'num_input_channel[num_preset_track]'는 'moov'/'track'/'media'/'minf'/'stbl'/'stsd' 내에 존재하는 'channel_count' 정보를 이용하여 구성될 수 있다. 입력 트랙이 모노 채널을 포함하는 경우, 'num_input_channel[num_preset_track]'는 '1'의 값, 입력 트랙이 스테레오 채널을 포함하는 경우, 'num_input_channel[num_preset_track]'는 '2'의 값을, 입력 트랙이 5채널을 포함하는 경우, 'num_input_channel[num_preset_track]'는 '5'의 값을 각각 가질 수 있다.

'output_channel_type'은 출력 채널 타입을 의미하고, 'num_output_channel'은 출력 채널의 개수를 의미한다. 일례로서, 'output_channel_type'과 'num_output_channel'은 표 15과 같은 관계를 가질 수 있다.

output _ channel _ type	Meaning	num _ output _ channel
0	mono channel	1
1	stereo channel	2
2	5 channel	5

또한, 본 발명의 일실시예에 따르면, 프리셋 타입이 static/object/volume preset이고, 출력 채널의 개수가 5개인 경우, 'prst'에 저장되는 믹싱 정보는 표 16과 같이 표현될 수 있다.

		preset _ track _ ID = 1		reset _ track _ ID = 7
		L	R	M
output channel volume	L	50	0	50
	R	0	80	50
	C	50	80	0
	Ls	0	0	30
	Rs	0	0	30

이 경우, 'prst'에 저장되는 각각의 파라미터는 하기와 같은 관계를 가진다.

num_preset_track = 2

preset_track_ID[2] = [1,7]

num_input_channel[2] = [2, 1]

num_output_channel =5

preset_volume = [50, 0, 50, 0, 0, 0, 80, 80, 0, 0, 50, 50, 0, 30, 30]

여기서, 'preset_volume'을 살펴보면, 일부 믹싱 정보들이 중복되어 저장됨을 알 수 있다. 이 경우, 저장되는 정보의 양이 불필요하게 증가되게 되므로, 'prst'에 저장되는 정보의 양을 줄이기 위한 방안이 요구된다. 이에 대한 보다 자세한 설명을 하기의 "2-나, 다, 라" 부분을 참고하기로 한다.

2. 프리셋 타입이 dynamic preset인 경우

프리셋 타입이 dynamic preset인 경우, 객체기반 오디오 컨텐츠를 구성하는 복수의 프레임에서 믹싱 정보가 변화하므로, 상이한 믹싱 정보가 저장될 수 있다.

따라서, 믹싱 정보는 프레임 넘버(또는 샘플링 넘버(sample number))에 따른 행렬로 표현될 수 있으며, 또한 상기 행렬은 입력 트랙의 프레임과 이에 해당하는 믹싱 정보를 매핑하는 테이블의 형태로써 표현될 수 있다.

이하에서는 변화하는 믹싱 정보가 표 17과 같은 매핑 테이블 형태로 표시되는 경우, 믹싱 정보를 저장하는 방안에 대해 구체적으로 설명하기로 한다.

sampling number	Input Track
sampling number	preset _ track ID = 1	preset _ track ID =3
1	50	20
2	50	20

9	50	20
10	50	20
11	50	10
12	50	10

19	50	10
20	50	10
21	70	60
22	70	60

29	70	60
30	70	60

가. 프레임 넘버에 따른 믹싱 정보 값을 그대로 저장

나. 프레임 넘버에 따른 믹싱 정보 값을 기준 값(reference value) 및 기준 값에 대한 믹싱 정보 차이 값으로 저장

기준 값은 기준 프레임에서의 기준 믹싱 정보 값을 의미한다. 따라서, 기준 프레임에서의 기준 믹싱 정보 값, 및 기준 프레임 이외의 프레임에서의 믹싱 정보와 기준 믹싱 정보 값과의 차이 값이 'prst'에 저장될 수 있다.

만약 기준 값이 0인 경우, 표 17은 표 18과 같이 간략하게 표현될 수 있다.

sampling count	Input Track
sampling count	preset _ track ID = 1
20	50
10	70
sampling count	Input Track
sampling count	preset _ track ID = 3
10	20
10	10
10	60

따라서, 믹싱 정보가 표 18와 같은 테이블의 형태로 'prst'에 저장되는 경우, 저장되는 정보의 양을 감소시킬 수 있게 된다.

다. 중복을 나타내는 플래그 정보를 이용하여 믹싱 정보를 저장

본 방안은 이전의 프레임의 믹싱 정보 값과 현재 프레임의 믹싱 정보 값이 동일한 경우, 믹싱 정보 값을 저장하지 않고, 현재 프레임의 믹싱 정보 값과 이전 프레임의 믹싱 정보 값이 동일한 것임을 나타내는 플래그 정보를 저장함으로써, 'prst'에 저장되는 정보의 양을 감소시킬 수 있는 방법이다.

이 경우, 믹싱 정보 값이 시간에 따라 값이 변화한다 하더라도, 각 프레임마다 믹싱 정보가 변화할 가능성은 크지 않으므로, 프레임마다 플래그 값을 부여하는 것이 효율적이지 않다.

따라서, 본 발명의 일실시예에 따른 객체기반 오디오 컨텐츠의 생성 방법에 따르면, 믹싱 정보 값 및 플래그 정보는 믹싱 정보가 변화하는 프레임 간격에 대한 정보에 기초하여 저장될 수 있다.

예를 들어, 믹싱 정보가 표 17과 같이 변화하는 경우, 믹싱 정보(즉 볼륨 정보)는 10개의 프레임 단위로 변화하는 것으로 간주될 수 있다. 따라서, 표 17은 표 19와 같이 간략하게 표현할 수 있다.

preset_volume	50	50	70	20	10	60
volume_flag	0	1	0	0	0	0
modified preset_volume	50	_	70	20	10	60

따라서, 'prst'에 저장되는 각각의 파라미터는 하기와 같은 관계를 가진다.

dynamic_interval = 10

volume_flag = [0, 1, 0, 0, 0, 0]

preset_volume = [50, 70, 20, 10, 60]

여기서, 'dynamic_interval'은 프레임 간격을 의미하고, 'volume_flag'는 볼륨 플래그 정보를 의미한다. 이전 프레임의 믹싱 정보와 현재 프레임의 믹싱 정보가 동일한 경우, 'volume_flag'는 '1'의 값을 갖고, 이전 프레임의 믹싱 정보와 현재 프레임의 믹싱 정보가 다른 경우, 'volume_flag'는 '0'의 값을 갖는다.

이를 참고하면, 객체기반 오디오 컨텐츠에 포함되는 복수의 프레임이 특정 프레임 간격에 따라 프레임 그룹으로 구분되고, 믹싱 정보는 프레임 그룹 별로 저장되는 것으로 이해될 수 있다.

즉 본 발명의 일실시예에 따르면, 제1 프레임 그룹에 대한 제1 그룹 믹싱 정보와 제2 프레임 그룹에 대한 제2 그룹 믹싱 정보가 다른 경우, 'prst'에 저장되는 프리셋 파라미터는 제1 그룹 믹싱 정보, 제2 그룹 믹싱 정보, 제1 그룹 믹싱 정보와 제2 그룹 믹싱 정보가 다른 것임을 나타내는 제1 플래그(flag) 정보, 및 복수의 프레임 그룹 각각에 포함되는 프레임의 개수(즉, 프레임 간격)을 포함한다.

반대로, 제1 그룹 믹싱 정보와 제2 그룹 믹싱 정보가 동일한 경우, 'prst'에 저장되는 프리셋 파라미터는 제1 그룹 믹싱 정보, 및 제1 그룹 믹싱 정보와 제2 그룹 믹싱 정보가 동일한 것임을 나타내는 제2 플래그 정보, 및 포함하는 복수의 프레임 그룹 각각에 포함되는 프레임의 개수를 포함한다.

라. 믹싱 정보가 변화하는 횟수, 믹싱 정보가 변화하는 프레임의 프레임 넘버를 이용하여 믹싱 정보를 저장

본 방안에 따르면, 믹싱 정보가 변화하는 횟수, 믹싱 정보가 변화하는 프레임의 프레임 넘버, 및 이에 따른 믹싱 정보가 저장된다. 따라서, 본 방안은 임의 접근(random access)의 측면에서, 상기 설명한 '다'의 방법보다 더욱 효율적인 방법이라고 할 수 있다.

예를 들어, 믹싱 정보가 표 17과 같이 변화하는 경우, 'prst'에 저장되는 믹싱 정보의 변화 횟수, 믹싱 정보가 변화하는 프레임 넘버, 및 믹싱 정보(즉 볼륨 정보)는 아래와 같다.

num_updates = 3

updated_sample_number = [1, 11, 21]

preset_volume = [50, 20, 50, 10, 70, 60]

여기서, 'num_updates'는 믹싱 정보의 변화(업데이트) 횟수를, 'updated_sample_number'은 믹싱 정보가 변화(업데이트)되는 프레임 넘버를 각각 의미한다.

이상에서, 믹싱 정보가 재생 시간에 따라 변화하는 경우, 믹싱 파라미터를 효율적으로 저장하기 위한 방안들에 대해 자세히 살펴보았다. 상기의 방안들은 프리셋 타입이 static preset인 경우에 있어, 저장되는 믹싱 정보들이 중복되는 때에도 역시 적용 가능하다.

예를 들어, 'prst'에 저장되는 믹싱 정보가 표 16과 같이 표시되는 경우에 있어, 플래그 정보를 이용하는 상기의 "다" 방안에 따라 믹싱 정보를 저장하는 하는 경우, 표 16은 표 20과 같이 변형될 수 있다.

preset_volume	50	50	0	0	80	80	0	50	50	30	30
volume_flag	0	0	1	1	0	1	1	0	1	0	1
modified preset_volume	50	50	_	_	80	_	_	50	_	30	_

volume_flag = [0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1]

preset_volume = [50, 0, 50, 0, 80, 0, 50, 0, 30]

이 경우, 표 12에 표시된 'prst'내의 프리셋의 신택스는 표 21과 같이 변형될 수 있다.

if(preset_type == 6){ // static object volume preset
unsigned int(8) num_input_channel[num_preset_track];
unsigned int(8) output_channel_type;
unsigned int(16) num_volume_flag;
for (i=0; i<num_volume_flag; i++){
unsigned int(8) volume_flag;
if(volume_flag==0){
unsigned int(8) preset_volume;
}
}
}

표 21의 신택스에 따른 시맨틱스는 아래와 같다.

'volume_flag'는 볼륨 플래그 정보를 의미하는 것으로서, 'volume_flag'는 1비트 인티저의 데이터 타입을 갖는다. 'volume_flag' 이전 프레임의 믹싱 정보와 현재 프레임의 믹싱 정보가 동일한 경우, 'volume_flag'는 '1'의 값을 갖고, 이전 프레임의 믹싱 정보와 현재 프레임의 믹싱 정보가 다른 경우, 'volume_flag'는 '0'의 값을 갖는다.

'num_volume_flag'는 'volume_flag'의 어레이 길이를 의미한다.

이하에서는 상기에서 설명한 프리셋 저장 방안에 기초하여 dynamic preset의 믹싱 정보를 'prst'에 저장하는 일실시예를 구체적으로 설명하기로 한다.

2.1. 프리셋 타입이 dynamic/track preset인 경우('preset_type' 값이 3, 4, 5인 경우),

상기에서 언급한 바와 같이 프리셋 타입이 track preset인 경우, 믹싱 정보의 저장에 있어 출력 채널의 타입은 고려되지 않을 수 있다.

본 발명의 일실시예에 따르면, 'prst' 내의 프리셋의 신택스는 표 22 내지 표 24와 같을 수 있다. 표 22 내지 표 24에 표시된 신택스는 상기 설명한 "라"의 방안을 이용하여 믹싱 정보를 저장하는 방법과 관련된 신택스이다.

if(preset_type == 3)){ // dynamic track volume preset
unsigned int(16) num_updates;
for(i=0; i<num_updates; i++){
unsigned int(16) updated_sample_number;
for(j=0; j<num_preset_track; j++){
unsigned int(8) preset_volume;
}
}
}

if(preset_type == 4){ // dynamic track volume preset with equalization
unsigned int(16) num_updates;
for(i=0; i<num_updates; i++){
unsigned int(16) updated_sample_number;
for(j=0; j<num_preset_track; j++){
unsigned int(8) preset_volume;
unsigned int(16) num_freq_band;
for (k=0; k<num_freq_band; k++){
unsigned int(16) center_freq;
unsigned int(16) bandwidth;
unsigned int(8) preset_freq_gain;
}
}
}
}

if(preset_type == 5){ // dynamic track equalization preset
unsigned int(16) num_updates;
for(i=0; i<num_updates; i++){
unsigned int(16) updated_sample_number;
for(j=0; j<num_preset_track; j++){
unsigned int(16) num_freq_band;
for(k=0; k<num_freq_band; k++){
unsigned int(16) center_freq;
unsigned int(16) bandwidth;
unsigned int(8) preset_freq_gain;
}
}
}
}

표 22 내지 표 24의 신택스에 따른 시맨틱스는 아래와 같다.

'num_updates'는 믹싱 정보의 변화(업데이트) 횟수를 의미한다.

'updated_sample_number'은 믹싱 정보가 변화(업데이트)되는 프레임 넘버를 의미한다.

또한, 상기의 "다"의 방안에 따라 믹싱 정보를 저장하는 경우, 표 22의 신택스는 표 25와 같이 변형될 수 있다.

if(preset_type == 3)){ // dynamic track volume preset
unsigned int(8) dynamic_interval;
unsigned int(32) num_volume_flag;
for(i=0; i< num_volume_flag; i++){
unsigned int(8) volume_flag;
if(volume_flag ==0){
unsigned int(8) preset_volume;
}
}
}

표 25의 신택스에 따른 시맨틱스는 아래와 같다.

'dynamic_interval'은 프레임 간격을 의미한다.

2.2. 프리셋 타입이 dynamic/channel preset인 경우('preset_type' 값이 9, 10, 11인 경우),

상기에서 언급한 바와 같이, 만약 믹싱 정보가 채널 별로 저장된다면, 믹싱 정보는 입력 트랙의 개수, 입력 트랙 당 채널의 개수 및 출력 채널의 타입을 고려하여 저장될 수 있다.

이 경우, 'prst'내의 프리셋의 신택스는 표 26 내지 표 28과 같을 수 있다. 표 26 내지 표 27의 신택스는 상기 설명한 "라"의 방법을 이용하여 믹싱 정보를 저장하는 방법과 관련된 신택스이다.

if(preset_type == 9){ // dynamic object volume preset
unsigned int(16) num_updates;
for(i=0; i<num_updates; i++){
unsigned int(16) updated_sample_number;
for(j=0; j<num_preset_track; j++){
for (k=0; k<num_input_channel[j]; k++){
for (m=0; m<num_output_channel; m++){
unsigned int(8) preset_volume;
}
}
}
}
}

if(preset_type == 10){ // dynamic object volume preset with equalization
unsigned int(16) num_updates;
for(i=0; i<num_updates; i++){
for(j=0; j<num_preset_track; j++){
for (k=0; k<num_input_channel[i]; k++){
for (m=0; m<num_output_channel; m++){
unsigned int(8) preset_volume;
unsigned int(8) num_freq_band;
for(m=0; m<num_freq_band; m++){
for(n=0; n<num_freq_band; n++){
unsigned int(16) center_freq;
unsigned int(16) bandwidth;
unsigned int(8) preset_freq_gain;
}
}
}
}
}
}
}

if(preset_type == 11){ // dynamic object equalization preset
unsigned int(16) num_updates;
for(i=0; i<num_updates; i++){
for(j=0; j<num_preset_track; j++){
for (k=0; k<num_input_channel[i]; k++){
for (m=0; m<num_output_channel; m++){
unsigned int(8) num_freq_band;
for(m=0; m<num_freq_band; m++){
for(n=0; n<num_freq_band; n++){
unsigned int(16) center_freq;
unsigned int(16) bandwidth;
unsigned int(8) preset_freq_gain;
}
}
}
}
}
}
}

이상에서는 믹싱 정보가 볼륨 정보 및 등화 정보만을 포함하는 것으로 기술하였으나, 본 발명의 일실시예에 따르면, 믹싱 정보는 적어도 하나의 입력 채널에 의해 형성되는 음상(sound image)의 크기 값 및 상기 음상의 각도 값을 더 포함할 수 있다. 음상의 크기 값 및 음상의 각도 값은 음상의 가상 위치(virtual position)를 결정하는 프리셋 파라미터이다.

이 경우, 음상의 각도 값은 양자화 되어 저장될 수 있다. 일례로, 음상의 각도 값은 표 29와 같은 테이블 형태로 표현될 수 있다.

index	0	1	2	3	4	5	6
value (°)	0	5	10	15	20	25	30
index	7	8	9	10	11	12	13
value (°)	40	50	60	70	80	90	100
index	14	15	16	17	18	19	20
value (°)	110	120	130	140	150	160	170
index	21	22	23	24	25	26	27
value (°)	180	190	200	210	220	230	240
index	28	29	30	31	32	33	34
value (°)	250	260	270	280	290	300	310
index	35	36	37	38	39	40	41
value (°)	320	330	335	340	345	350	355

또한, 본 발명의 일실시예에 따르면, 객체기반 오디오 컨텐츠는 적어도 하나의 프리셋 중에서 어느 하나에 기초하여 믹싱된 오디오 신호의 다운 믹스된 신호인 모노/스테레오 오디오 신호를 더 포함할 수 있다.

상기 모노/스테레오 오디오 신호는 객체기반 오디오 컨텐츠의 재생이 불가능한 오디오 재생 장치와의 호환성을 위해 저장된다.

객체기반 오디오 컨텐츠가 모노/스테레오 오디오 신호를 더 포함하는 경우, 객체기반 오디오 컨텐츠의 재생이 가능한 오디오 장치에서는 복수의 오디오 객체 및 적어도 하나의 프리셋에 기초하여 객체기반 오디오 컨텐츠를 재생하고, 객체기반 오디오 컨텐츠의 재생이 불가능한 오디오 장치에서는 모노/스테레오 오디오 신호를 재생하게 된다. 이에 따라, 오디오 장치의 종류에 관계없이 객체기반 오디오 컨텐츠의 재생이 가능하게 된다.

일례로서, 모노/스테레오 오디오 신호는 'mdat'에 저장될 수 있다. 이 경우, 'moov'/'trak'/'tkhd'내의 flags의 시맨틱스는 표 30과 같이 수정될 수 있다. 표 30에서 밑줄 친 부분은 삭제되는 시맨틱스이고, 굵은 글씨로 표시된 부분은 추가되는 시맨틱스이다.

flags - is a 24-bit integer with flags; the following values are defined:

- Track_enabled: Indicates that the track is enabled. Flag value is 0x000001. A disabled track (the low bit is zero) is treated as if it were not present.
- Track _ in _ movie : Indicates that the track is used in the presentation . Flag value is 0x000002.
- Track _ in _ interaction _ movie : Indicates that the track is used in the presentation by an interactive music player . Flag value is 0x000002.
- Track _ in _ non _ interaction _ movie : Indicates that the track is used in the presentation by a non - interactive music player . Flag value is 0x000003.
- Track_in_preview: Indicates that the track is used when previewing the presentation. Flag value is 0x000004.

MPEG -4 BIFS ( Binary format For Scene )를 이용하여 ' moov' 내에 존재하는 ' trak' 내에 프리셋 파라미터를 저장

본 발명의 일실시예에 따르면, 프리셋 파라미터는 MPEG-4 BIFS를 이용하여 'moov' 내에 존재하는 트랙(track) 박스(이하 'trak'이라고 한다)내에 저장될 수 있다.

이 경우, 프리셋 파라미터 중에서 프리셋의 전체적인 정보를 나타내는 제1 프리셋 파라미터(일례로, 프리셋의 개수, 디폴트 프리셋 아이디 등)는 상기에서 설명한 'prco'에 저장될 수도 있고, BIFS 내에 새롭게 정의된 노드를 이용하여 저장될 수도 있다.

BIFS 내에 새롭게 정의된 노드를 이용하여 제1 프리셋 파라미터를 저장하는 경우, 노드 인터페이스(node interface)는 표 31과 같이 나타낼 수 있다. 표 31에서, 'PresetSound'는 새롭게 정의된 노드를 의미한다.

node interface

PresetSound{
exposedField SFNode source NULL
exposedField SFInt32 numPresets 1
exposedField SFInt32 default_preset_ID 1
}

표 31의 노드 인터페이스에 따른 시맨틱스는 아래와 같다.

'source' field는 ISO/IEC 14496-11:2005의 subclause 7.2.2.116의 시맨틱스를 따른다.

'numPreset' field 및 'default_preset_ID' field는 앞서 설명한 'prco'의 시맨틱스를 따른다.

또한, 프리셋 파라미터 중에서 볼륨 정보를 나타내는 프리셋 파라미터는 AudioMix node 및 WideSound node를 적절히 조합하여 저장할 수 있다.

또한, 프리셋 파라미터 중에서, 등화 정보를 나타내는 프리셋 파라미터는 기존의 AudioRXProto node 중 PROTO audioEcho를 이용하여 저장할 수도 있고, BIFS 내에 새롭게 정의된 노드를 이용하여 저장될 수도 있다.

BIFS 내에 새롭게 정의된 노드를 이용하여 등화 정보(보다 정확하게는 주파수 이득 값)를 저장하는 경우, 노드 인터페이스(node interface)는 표 32와 같이 나타낼 수 있다. 표 32에서, 'PersetAudioEqualizer'는 새롭게 정의된 노드를 의미한다.

node interface
PresetAudioEqualizer{
eventIn MFNode addChildren
eventIn MFNode removeChildren
exposedField MFNode children []
exposedField SFInt32 numInputs 1
exposedField MFFloat params []
}

표 32의 노드 인터페이스에 따른 시맨틱스는 아래와 같다.

'children' field는 동시에 믹싱될 수 있는 노드들의 출력을 의미한다. 'child' field의 일례로서, AudioSource, AudioMix 등이 있다.

'addChildren'은 'children' field에 추가되는 노드 리스트를 의미한다.

'removeChildren'은 'children' field에서 삭제되는 노드 리스트를 의미한다.

'numInputs' field는 입력 트랙의 개수를 의미한다.

'params' field는 [numInputs ×3·numFreqBands]의 행렬로서, 각 행에는 각 입력 트랙에 적용되는 주파수 대역의 등화 파라미터(등화 정보)가 저장된다. 이는 표 33과 같이 나타낼 수 있다.

Data Type	Function	Default value	Range
float	numFreqBands	2	0,…, 32
float[]	centerFreq	[]	0,…, 20000
float[]	bandwidth	[]	0,…, 20000
float[]	gain	1	0.1,…, 10

여기에서,' numFreqBands'은 주파수 대역의 개수, 'centerFreq'는 각 주파수 대역에서의 중심 주파수, 'bandwidth'는 각 주파수 대역에서의 대역폭, 'gain'은 주파수 대역 별 이득 값을 각각 의미한다.

즉, 'params' field의 각 행은 아래와 같이 구성된다.

numFreqBands = params [0]

centerFreq [0...numFreqBands-1] = params [1 ... numFreqBands]

bandwidth [0...numFreqBands-1] = params [numFreqBands + 1 ... 2·numFreqBands]

gain [0...numFreqBands-1] = params [2·numFreqBands+1 ... 3·numFreqBands]

MPEG -4 LASeR ( Lightweight Application Scene Representation )를 이용하여 'meta' 내의 xml' 에 프리셋 파라미터를 저장

본 발명의 일실시예에 따르면, 프리셋 파라미터는 MPEG-4 LASeR를 이용하여 'meta' 내에 존재하는 엑스엠엘(xml) 박스(이하 'xml'이라고 한다)내에 저장될 수 있다.

이 경우, 표 34와 같은 엘리먼트(element) 및 어트리뷰트(attribute)를 새롭게 정의하여 프리셋 파라미터를 저장할 수 있다.

i. presetContainer element

semantics

presetContainer element에는 앞서 설명한 'prco'와 동일한 정보가 저장된다.

attribute

'numPreset'은 프리셋의 개수를 의미한다.
'defaultPresetID'는 디폴트 프리셋 아이디를 의미한다.

ii . preset element

semantics

preset element에는 앞서 설명한 'prst'와 동일한 정보가 저장된다. 또한, preset element는 presetContainer element의 children으로 존재한다.

attribute
앞서 설명한 ISO-BMFF의 'prst'의 신택스 및 시맨틱스를 어트리뷰트로 이용한다.

기타

본 발명의 일실시예에 따르면, 복수의 오디오 객체를 포함하여 구성되는 파일 내에 프리셋 정보가 이미 기술되어 있는 경우, 객체 기반 오디오 컨텐츠 포맷에서 이를 참조하게 하거나, 상기의 프리셋 정보를 객체 기반 오디오 컨텐츠 포맷에 맞도록 변형하여 객체기반 오디오 컨텐츠 포맷 형태로 프리셋 파라미터를 저장할 수 있다.

또한, 본 발명의 일실시예에 따르면, BIFS 또는 LASeR와 같은 장면 표현언어 형태로 구성된 파일 내에서 프리셋 정보가 기술되어 있는 경우, 객체기반 오디오 컨텐츠 포맷에서 이를 참조하게 하거나, 상기의 프리셋 정보를 객체 기반 오디오 컨텐츠 포맷 스키마에 맞도록 변형하여 객체기반 오디오 컨텐츠 포맷 형태로 프리셋 파라미터를 저장할 수 있다.

또한, 본 발명의 일실시예에 따르면, 프리셋 만으로 구성된 파일로부터 프리셋 정보를 획득하는 경우, 객체기반 오디오 컨텐츠 포맷에서 이를 참조하도록 할 수 있다. 또한, 프리셋 만으로 구성된 파일에 저장된 프리셋 정보를 객체기반 오디오 컨텐츠 포맷 형태로 저장할 수 있다.

앞서 언급한 바와 같이, 객체기반 오디오 컨텐츠에는 디스크립션 정보(또는 디스크립션 메타데이터)가 추가적으로 저장되고, 저장된 디스크립션 정보는 객체기반 오디오 컨텐츠의 검색 및 필터링에 활용될 수 있다. 이하에서는 디스크립션 정보를 저장하는 방법을 도 7 및 도 8을 참고하여 설명하기로 한다.

도 7 및 도 8은 본 발명의 일실시예에 따라 디스크립션 정보를 포함하는 객체기반 오디오 컨텐츠의 저장을 위한 파일 포맷의 구조를 도시한 도면이다.

ISO 기반의 객체기반 오디오 컨텐츠 파일 포맷에서, 디스크립션 정보는 앨범(album)을 표현하기 위한 메타데이터(이하, 'album level metadata'라고 한다), 노래(song)를 표현하기 위한 메타데이터(이하, 'song level metadata'라고 한다), 및 트랙(track)을 표현하기 위한 메타데이터(이하, 'track level metadata'라고 한다)를 포함하여 구성될 수 있다. 여기서, 각각의 메타데이터를 정리하면 표 35와 같이 나타낼 수 있다.

Description	Level
Description	album	song	track
title	o	o	o
singer	o	o	-
composer	-	o	-
lyricist	-	o	-
performing musician	-	-	o
genre	o	o	-
file date	o	o	o
CD track number of the song	-	o	-
production	o	o	-
publisher	o	o	-
copyright information	o	o	-
ISRC (International Standard Recording Code)	-	o	-
imgae	o	o	-
URL site address related to the music and the artist(e.g. album homepage, fan cafe, music video)	o	o	-

상기의 메타데이터는 "노래(song) 및 트랙을 표현하기 위한 메타데이터"와 "앨범을 표현하기 위한 메타데이터"의 2가지 타입으로 분류될 수 있다. 여기서, "앨범을 표현하기 위한 메타데이터"는 객체기반 오디오 컨텐츠 내에 저장된 노래(song) 중에서 같은 앨범 내에 수록되어 있는 노래(song)들에 대한 공통되는 정보들을 표현한다.

album level metadata는 'ftyp'/'meta'에, song level metadata는 'moov'/'meta'에, track level metadata는 'moov'/'trak'/'meta'에 각각 저장될 수 있다. 이를 정리하면 표 36과 같이 나타낼 수 있다.

Metadata	Location
track level	trak/meta box
song level	moov/meta box
album level	meta box of file

상기의 메타데이터가 저장되는 ISO 기반의 객체기반 오디오 컨텐츠 파일 포맷 구조의 형태는 도 7 및 도 8과 같이 나타낼 수 있다. 도 7에 도시된 포맷 구조는 하나의 싱글 타입의 파일 구조(single type file structure)이고, 도 8에 도시된 포맷 구조는 멀티 타입의 파일 구조(multiple type file structure)이다.

여기서, 상기의 메타데이터는 mp7t(mpeg-7 type)에 따라 관리(handling)될 수 있다.

보다 상세하게, track level metadata 및 song level metadata를 위해서 MPEG-7의 'CreationInformation', 'MediaInformation', 및 'Semantics DS'가 사용될 수 있다. album level metadata를 위해서는 MPEG-7의 'ContentCollection DS' 및 'CreationInformation DS '가 사용될 수 있다. 이는 album level metadata가 하나의 앨범에 포함되는 복수의 노래에 대한 구조적 정보(structure information)를 포함하고 있기 때문이다.

이를 정리하면 표 37 내지 표 39와 같이 나타낼 수 있다.

Tag Name	Semantics
CreationInformation/Creation/Creator[＠type="Instrument"]	The title of the track
- CreationInformation/Creation/Creator[Role/＠herf="urn:mpeg:mpeg7: RoleCS:2001:PERFORMER"]/Agent[＠xsi : type = "PersonType"] / Name /{FamilyName, GivenName}(Arist name) - CreationInformation/Creation/Creator[Role/＠herf= "urn:mpeg: mpeg7: RoleCS:2001:PERFORMER"]/Agent[＠xsi : type = "PersonGroupType"] /Name/(Group Name)	The name of a musician who is performing instruments, such as vocal, guitar, keyboard and so on
CreationInformation/CreationCoordinates/Date/TimePoint	Time point of the recording

Tag Name	Semantics
CreationInformation/Creation/Title[＠type="songTitle"]	The title of the song
- CreationInformation/Creation/Creator[Role/＠herf="urn: mpeg : mpeg7: RoleCS:2001:PERFORMER"]/Agent[＠xsi : type = "PersonType"] / Name /{FamilyName, GivenName}(Arist name) - CreationInformation/Creation/Creator[Role/＠herf= "urn : mpeg : mpeg7: RoleCS:2001:PERFORMER"]/Agent[＠xsi : type = "PersonGroupType"] /Name/(Group Name)	The name of a musician such as singer, composer and lyricist
CreationInformation/Classification/Genre[＠herf="urn:id3:v1:genreID"]	Genre
CreationInformation/CreationCoordinates/Date/TimePoint	Time point when the song is released
Semantics/SemanticBase[＠xsi:type="SemanticStateType"] /AttributeValuePair	CD track number of the song
CreationInformation/Creation/Abstract/FreeTextAnnotation	Information on production, Publisher and site address related to the music and the artist (e.g. album homepage, fan cafe and music video)
CreationInformation/Creation/copyrightString	Textual label indicating information that may be displayed or otherwise made known to the end user
MediaInformation/MediaIdentification/EntityIdentifier	ISRC
CreationInformation/Creation/TitleMedia[＠type="TitleImage"]

Tag Name	Semantics
ContentCollection/CreationInformation/Creation/Title[＠type="albumTitle"]	The title of the album
- ContentCollection/CreationInformation/Creation/Creator[Role/＠href="urn: mpeg:mpeg7:RoleCS:2001:PERFORMER"]/Agent[＠xsi:type = "PersonType"]/ Name /{FamilyName, GivenName}(Arist name) - CreationInformation/Creation/Creator[Role/＠herf= "urn:mpeg: mpeg7: RoleCS:2001:PERFORMER"]/Agent[＠xsi : type = "PersonGroupType"] /Name/(Group Name)	The name of representative musician of the album
ContentCollection/CreationInformation/Classification/Genre[＠href="urn: id3:v1:genreID"]	Genre
ContentCollection/CreationInformation/CreationCoordinates/Date/Timepoint	Time point when the album is related
ContentCollection/CreationInformation/Creation/Abstract/FreeText Anotation	Information on production, publisher and site address related to the music and the artist (e.g. album homepage, fan cafe and music video)
ContentCollection/CreationInformation/Creation/CopyrightString	Textual label indicating information that may be displayed or otherwise made known to the end user
ContentCollection/CreationInformation/Creation/TitleMedia[＠type ="TitleImage"]	The title of the multimedia content in image form

또한, 객체기반 오디오 컨텐츠 내에는 노래의 가사(lyrics) 등과 같은 오디오 컨텐츠 관련 정보가 포함될 수 있는데, 객체기반 오디오 컨텐츠의 재생 시 오디오 컨텐츠 재생 장치에 상기의 오디오 컨텐츠 관련 정보를 표시한다면, 보다 효율적으로 사용자에게 객체기반 오디오 서비스를 제공할 수 있다. 오디오 컨텐츠 관련 정보는 객체기반 오디오 컨텐츠의 재생 시간에 따라 변화될 수 있다. 이하에서는 재생 시간에 따라 변화하는 오디오 컨텐츠 관련 정보를 'Timed Text'라고 칭하기로 한다.

객체기반 오디오 컨텐츠 파일 포맷에서는 3GPP TS 26.245 (이하, '3GPP Timed Text'라고 칭하기로 한다), MPEG-4 Streaming Text Format과 같은 Timed Text 표준을 이용하여 Timed Text를 제공할 수 있다.

일례로서, 3GPP Timed Text를 이용하여 Timed Text를 제공하는 경우, 3GPP Timed Text는 텍스트 샘플(text sample)과 샘플 디스크립션(sample description)을 포함하여 구성될 수 있다.

여기서, 텍스트 샘플은 텍스트 스트링(text string)과 샘플 모디파이어(sample modifier)를 포함하여 구성될 수 있는데, 샘플 모디파이어(sample modifier)는 텍스트 스트링을 랜더링하는 방법에 대한 정보를 담고 있다.

텍스트 샘플은 ISO-BMFF에서 'mdat' 내 하나의 트랙(즉 text track) 으로 저장된다. 저장된 텍스트 샘플은 'moov'/'trad'/'mdia'/'minf'/'stbl' 내의 'stts', 'stsc', 'stco' 등에 저장된 정보들을 이용하여 오디오 트랙과 같은 timed media와 동기되어 재생된다.

또한, 샘플 디스크립션은 텍스트가 랜더링되는 방법에 관한 정보를 포함한다. 일례로, 샘플 디스크립션은 디스플레이되는 텍스트의 위치, 텍스트의 색, 배경(background) 색 등에 대한 정보를 포함하고 있다. 샘플 디스크립션은 한편, sample description은 'SampleEntry'를 'TextSampleEntry'로 확장하여 'stsd'에서 기술될 수 있다.

이상에서는 본 발명의 일실시예에 따른 객체기반 오디오 컨텐츠의 생성 방법에 대해 설명하였다. 이하에서는 도 5를 참고하여 상기의 객체기반 오디오 컨텐츠의 생성 방법에 따라 생성된 객체기반 오디오 컨텐츠를 재생하는 방법에 대해 설명하기로 한다.

도 5는 본 발명의 일실시예에 따른 객체기반 오디오 컨텐츠의 재생 방법에 대한 흐름도를 도시한 도면이다.

먼저, 단계(510)에서는 객체기반 오디오 컨텐츠로부터 복수의 오디오 객체 및 적어도 하나의 프리셋을 복원한다.

이 경우, 객체기반 오디오 컨텐츠는 도 3에서 설명한 객체기반 오디오 컨텐츠의 생성 방법에 따라 생성된 것이다.

단계(520)에서는 적어도 하나의 프리셋에 기초하여 복수의 오디오 객체를 믹싱하여 출력 오디오 신호를 생성한다.

단계(530)에서는 생성된 출력 오디오 신호를 재생한다.

상기에서 언급한 바와 같이, 프리셋 파라미터에 포함된 디폴트 프리셋 아이디 값이 '0'의 값을 갖는 경우, 다객체 오디오 압축 기술(SAOC)로써 부호화되어 저장된 오디오 객체들의 비트스트림 내부에 저장된 프리셋에 따라 객체기반 오디오 컨텐츠가 재생될 수 있는데, 이하에서는 도 6을 참고하여 다객체 오디오 압축 기술(SAOC)로써 부호화되어 저장된 오디오 객체들의 비트스트림 내부에 저장된 프리셋에 기초하여 객체기반 오디오 컨텐츠가 재생되는 과정을 상세히 설명하기로 한다.

도 6은 본 발명의 다른 일실시예에 따른 객체기반 오디오 컨텐츠의 재생 방법의 흐름도를 도시한 도면이다.

먼저, 단계(610)에서는 객체기반 오디오 컨텐츠 내에 프리셋이 존재하는지를 판단한다.

단계(610)에서 프리셋이 존재하는 것으로 판단(즉, 'num_preset가 '0'이 아닌 값을 갖는 것으로 판단)한 경우, 단계(620)에서는 객체기반 오디오 컨텐츠 내에 디폴트 프리셋 아이디가 존재하는지를 판단한다.

단계(620)에서 디폴트 프리셋 아이디가 존재하는 것으로 판단(즉, 'default_preset_ID'가 '0'이 아닌 값을 갖는 것으로 판단)한 경우, 단계(630)에서는 디폴트 프리셋 아이디와 동일한 프리셋 아이디를 갖는 프리셋에 기초하여 복수의 오디오 객체를 믹싱하여 출력 오디오 신호를 생성하고, 단계(670)에서는 생성될 출력 신호를 재생한다.

만약, 단계(610)에서 프리셋이 존재하지 않는 것으로 판단(즉, 'num_preset가 '0'의 값을 갖는 것으로 판단)하거나, 단계(620)에서 디폴트 프리셋 아이디가 존재하지 않는 것으로 판단(즉, 'default_preset_ID'가 '0'의 값을 갖는 것으로 판단)한 경우, 단계(640)에서는 SAOC 비트스트림이 존재하는지를 판단한다.

단계(640)에서 SAOC 비트스트림이 존재하는 것으로 판단한 경우, 단계(650)에서는 SAOC 비트스트림 내에 프리셋이 존재하는지를 판단한다.

단계(650)에서 SAOC 비트스트림 내에 프리셋이 존재하는 것으로 판단한 경우, 단계(670)에서는 SAOC 비트스트림 내에 포함된 첫번째 프리셋에 기초하여 복수의 오디오 객체를 믹싱하여 출력 오디오 신호를 생성하고, 단계(670)에서는 생성될 출력 신호를 재생한다.

만약, 단계(640)에서 SAOC 비트스트림이 존재하지 않는 것으로 판단하거나, 단계(650)에서 SAOC 비트스트림 내에 프리셋이 존재하지 않는 것으로 판단한 경우, 객체기반 오디오 컨텐츠 내에 프리셋이 없는 것으로 판단하여 객체기반 오디오 컨텐츠를 재생하지 않는다.

또한, 본 발명의 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 일실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims

객체기반 오디오 컨텐츠를 생성하는 방법에 있어서,

복수의 오디오 객체를 입력 받는 단계;

상기 입력된 복수의 오디오 객체를 이용하여 적어도 하나의 프리셋을 생성하는 단계; 및

상기 복수의 오디오 객체, 및 상기 적어도 하나의 프리셋을 포함하는 객체기반오디오 컨텐츠를 생성하는 단계

를 포함하고,

상기 프리셋은, 상기 객체기반 오디오 컨텐츠를 재생할 때 사용자에 의해 편집될 수 있으며,

상기 프리셋은, 상기 복수의 오디오 객체 전체에 대한 볼륨 정보 또는 상기 복수의 오디오 객체들 각각의 위치 정보와 관련된 프리셋 파라미터를 포함하는 객체기반 오디오 컨텐츠의 생성 방법.
제1항에 있어서,

상기 프리셋 파라미터는 상기 객체기반 오디오 컨텐츠에 관한 미디어 파일 포맷에서 정의되는 박스(box)의 형태로 저장되고,

상기 박스는 무브(moov) 박스를 포함하고, 상기 무브 박스는 상기 무브 박스 내에 정의된 제1 박스를 포함하고, 상기 제1 박스는 상기 제1 박스 내에 정의된 제2 박스를 포함하고,

상기 프리셋 파라미터는 제1 프리셋 파라미터 및 제2 프리셋 파라미터를 포함하고, 상기 제1 프리셋 파라미터는 상기 적어도 하나의 프리셋의 개수, 및 상기 적어도 하나의 프리셋 중에서 어느 하나의 프리셋의 프리셋 아이디(ID) 중에서 적어도 하나를 포함하고,

상기 제1 프리셋 파라미터는 상기 제1 박스에 저장되고, 상기 제2 프리셋 파라미터는 상기 제2 박스에 저장되는 객체기반 오디오 컨텐츠의 생성 방법.
제1항에 있어서,

상기 프리셋 파라미터는 상기 객체기반 오디오 컨텐츠에 관한 미디어 파일 포맷에서 정의되는 박스(box)의 형태로 저장되고,

상기 박스는 에프팁(ftyp) 박스 및 무브 박스를 포함하고,

상기 에프팁 박스는 제1 메타(meta) 박스를 포함하고, 상기 무브 박스는 제2 메타 박스를 포함하고,

상기 프리셋 파라미터는 상기 제1 메타 박스 및 상기 제2 메타 박스 중에서 어느 하나에 저장되는 객체기반 오디오 컨텐츠의 생성 방법.
제3항에 있어서,

상기 객체기반 오디오 컨텐츠의 디스크립션(description) 정보는 상기 제1 메타 박스에 저장되고, 상기 프리셋 파라미터는 상기 제2 메타 박스에 저장되는 객체기반 오디오 컨텐츠의 생성 방법.
제1항에 있어서,

상기 프리셋 파라미터는 상기 객체기반 오디오 컨텐츠에 관한 미디어 파일 포맷에서 정의되는 박스(box)의 형태로 저장되고,

상기 박스는 에프팁 박스 및 무브 박스를 포함하고,

상기 프리셋 파라미터는 상기 무브 박스 내에 존재하는 메코(meco) 박스 또는 상기 에프팁 박스 내에 존재하는 메코 박스 중에서 어느 하나에 저장되는 객체기반 오디오 컨텐츠의 생성 방법.
제1항에 있어서,

상기 프리셋 파라미터는, 상기 객체기반 오디오 컨텐츠의 디스크립션 정보를 더 포함하고,

상기 디스크립션 정보는 mp7t(MPEG-7 type)에 기초하여 프리셋 파라미터에 저장되는 객체기반 오디오 컨텐츠의 생성 방법.
제1항에 있어서,

상기 프리셋 파라미터는, 상기 객체기반 오디오 컨텐츠에 관한 타임드 텍스트(timed text) 데이터를 더 포함하고,

상기 타임드 텍스트(timed text) 데이터는 3GPP TS 26.245 및 MPEG-4 Streaming Text Format 중에서 어느 하나에 기초하여 프리셋 파라미터에 저장되는 객체기반 오디오 컨텐츠의 생성 방법.
제1항에 있어서,

상기 프리셋 파라미터는 상기 객체기반 오디오 컨텐츠에 관한 미디어 파일 포맷에서 정의되는 박스(box)의 형태로 저장되고,

상기 박스는 무브 박스를 포함하고, 상기 무브 박스는 트랙(track) 박스를 포함하고

상기 저장하는 단계는 MPEG-4 BIFS(Binary format For Scene)를 이용하여 상기 무브 박스 내에 존재하는 트랙(track) 박스에 상기 프리셋 파라미터를 저장하는 객체기반 오디오 컨텐츠의 생성 방법.
제1항에 있어서,

상기 프리셋 파라미터는 상기 객체기반 오디오 컨텐츠에 관한 미디어 파일 포맷에서 정의되는 박스(box)의 형태로 저장되고,

상기 박스는 메타 박스를 포함하고, 상기 메타 박스는 액스엠엘 (xml) 박스를 포함하고,

상기 저장하는 단계는 MPEG-4 LASeR(Lightweight Application Scene Representation)를 이용하여 상기 액스엠엘 (xml) 박스에 상기 프리셋 파라미터를 저장하는 객체기반 오디오 컨텐츠의 생성 방법.
제1항에 있어서,

상기 프리셋 파라미터는 상기 복수의 오디오 객체에 대한 믹싱(mixing) 정보를 포함하고,

상기 믹싱 정보는 상기 복수의 오디오 객체 각각에 대한 볼륨(volume) 정보 및 상기 복수의 오디오 객체 각각에 대한 등화(equalization) 정보 중에서 적어도 하나를 포함하는 객체기반 오디오 컨텐츠의 생성 방법.
삭제
제10항에 있어서,

상기 객체기반 오디오 컨텐츠는 적어도 하나의 채널로 구성된 복수의 트랙을 포함하고,

상기 믹싱 정보는 상기 적어도 하나의 채널에 의해 형성되는 음상(sound image)의 크기 값 및 상기 음상의 각도 값을 더 포함하는 객체기반 오디오 컨텐츠의 생성 방법.
제10항에 있어서,

상기 등화 정보는 등화가 적용될 복수의 주파수 대역의 개수, 상기 복수의 주파수 대역 각각의 중심 주파수, 상기 복수의 주파수 대역 각각의 대역폭, 및 상기 복수의 주파수 대역 각각에서의 주파수 이득(gain) 값을 포함하는 객체기반 오디오 컨텐츠의 생성 방법.
제13항에 있어서,

상기 볼륨 정보는 상기 복수의 오디오 객체 각각에 대한 입력 볼륨 값과 상기 복수의 오디오 객체 각각에 대한 출력 볼륨 값 간의 볼륨 이득 값을 포함하고,

상기 볼륨 이득 값 및 상기 주파수 이득 값은 백분율 또는 데시벨(dB)로 표현되는 객체기반 오디오 컨텐츠의 생성 방법.
제10항에 있어서,

상기 객체기반 오디오 컨텐츠는 순차적으로 재생되는 복수의 프레임으로 구성되고,

상기 믹싱 정보는 상기 복수의 프레임의 재생에 따라 변화하는 객체기반 오디오 컨텐츠의 생성 방법.
제15항에 있어서,

상기 프리셋 파라미터는 상기 복수의 프레임 중에서 기준 프레임에서의 기준 믹싱 정보, 및 상기 기준 프레임 이외의 프레임에서의 믹싱 정보와 상기 기준 믹싱 정보와의 차를 포함하는 객체기반 오디오 컨텐츠의 생성 방법.
제15항에 있어서,

상기 복수의 프레임은 서로 인접한 제1 프레임 그룹 및 제2 프레임 그룹을 포함하는 복수의 프레임 그룹으로 구분되고,

상기 프리셋 파라미터는

상기 제1 프레임 그룹에 대한 제1 그룹 믹싱 정보와 상기 제2 프레임 그룹에 대한 제2 그룹 믹싱 정보가 다른 경우, 상기 제1 그룹 믹싱 정보, 상기 제2 그룹 믹싱 정보, 상기 제1 그룹 믹싱 정보와 상기 제2 그룹 믹싱 정보가 다른 것임을 나타내는 제1 플래그(flag) 정보, 및 상기 복수의 프레임 그룹 각각에 포함되는 프레임의 개수를 포함하고,

상기 제1 그룹 믹싱 정보와 상기 제2 그룹 믹싱 정보가 동일한 경우, 상기 제1 그룹 믹싱 정보, 및 상기 제1 그룹 믹싱 정보와 상기 제2 그룹 믹싱 정보가 동일한 것임을 나타내는 제2 플래그 정보, 및 상기 프레임 개수를 포함하는 객체기반 오디오 컨텐츠의 생성 방법.
제15항에 있어서,

상기 프리셋 파라미터는 상기 믹싱 정보가 변화하는 횟수, 상기 믹싱 정보가 변화하는 프레임의 프레임 넘버, 및 상기 믹싱 정보가 변화하는 프레임에서의 믹싱 정보를 포함하는 객체기반 오디오 컨텐츠의 생성 방법.
제10항에 있어서,

상기 객체기반 오디오 컨텐츠는 적어도 하나의 채널로 구성된 복수의 트랙을 포함하고,

상기 프리셋 파라미터는 상기 복수의 트랙의 개수, 상기 복수의 트랙 별 채널 개수, 상기 객체기반 오디오 컨텐츠가 출력되는 적어도 하나의 출력 채널의 개수를 더 포함하고,

상기 믹싱 정보는 상기 적어도 하나의 출력 채널 별 믹싱 정보로 구성되는 객체기반 오디오 컨텐츠의 생성 방법.
제1항에 있어서,

상기 프리셋 파라미터는, 상기 적어도 하나의 프리셋 중에서 어느 하나에 기초하여 믹싱된 오디오 신호의 다운 믹스된 신호인 모노/스테레오 오디오 신호를 더 포함하는 객체기반 오디오 컨텐츠의 생성 방법.
제2항에 있어서,

상기 미디어 파일 포맷은 ISO 기반 미디어 파일 포맷(ISO base media file format) 구조인 객체기반 오디오 컨텐츠의 생성 방법.
객체기반 오디오 컨텐츠를 재생하는 방법에 있어서,

상기 객체기반 오디오 컨텐츠로부터 복수의 오디오 객체 및 적어도 하나의 프리셋을 추출하는 단계;

상기 적어도 하나의 프리셋을 상기 복수의 오디오 객체에 적용하여 객체기반 오디오 컨텐츠를 재생하는 단계

를 포함하고,

상기 프리셋은, 상기 객체기반 오디오 컨텐츠를 재생할 때 사용자에 의해 편집될 수 있으며,

상기 프리셋은, 상기 복수의 오디오 객체 전체에 대한 볼륨 정보 또는 상기 복수의 오디오 객체들 각각의 위치 정보와 관련된 프리셋 파라미터를 포함하는 객체기반 오디오 컨텐츠의 재생 방법.
제22항에 있어서,

상기 프리셋 파라미터는 상기 객체기반 오디오 컨텐츠에 관한 미디어 파일 포맷에서 정의되는 박스의 형태로 상기 객체기반 오디오 컨텐츠에 저장되고,

상기 박스는 무브 박스를 포함하고, 상기 무브 박스는 상기 무브 박스 내에 정의된 제1 박스를 포함하고, 상기 제1 박스는 상기 제1 박스 내에 정의된 제2 박스를 포함하고,

상기 프리셋 파라미터는 제1 프리셋 파라미터 및 제2 프리셋 파라미터를 포함하고, 상기 제1 프리셋 파라미터는 상기 적어도 하나의 프리셋의 개수, 및 상기 적어도 하나의 프리셋 중에서 어느 하나의 프리셋의 프리셋 아이디(ID) 중에서 적어도 하나를 포함하고,

상기 제1 프리셋 파라미터는 상기 제1 박스에 저장되고, 상기 제2 프리셋 파라미터는 상기 제2 박스에 저장되는 객체기반 오디오 컨텐츠의 재생 방법.
제22항에 있어서,

상기 프리셋 파라미터는 상기 복수의 오디오 객체에 대한 믹싱 정보를 포함하고,

상기 믹싱 정보는 상기 복수의 오디오 객체 각각에 대한 볼륨 정보 및 상기 복수의 오디오 객체 각각에 대한 등화 정보 중에서 적어도 하나를 포함하는 객체기반 오디오 컨텐츠의 재생 방법.
제24항에 있어서,

상기 프리셋 파라미터는 상기 복수의 오디오 객체 전체에 대한 볼륨 정보를 더 포함하고,

상기 재생하는 단계는 상기 복수의 오디오 객체 전체에 대한 볼륨 정보에 기초하여 상기 믹싱된 복수의 오디오 객체의 전체 볼륨을 조절하는 객체기반 오디오 컨텐츠의 재생 방법.
제24항에 있어서,

상기 등화 정보는 등화가 적용될 복수의 주파수 대역의 개수, 상기 복수의 주파수 대역 각각의 중심 주파수, 상기 복수의 주파수 대역 각각의 대역폭, 및 상기 복수의 주파수 대역 각각에서의 주파수 이득 값을 포함하는 객체기반 오디오 컨텐츠의 재생 방법.
제24항에 있어서,

상기 객체기반 오디오 컨텐츠는 순차적으로 재생되는 복수의 프레임으로 구성되고,

상기 믹싱 정보는 상기 복수의 프레임의 재생에 따라 변화하는 객체기반 오디오 컨텐츠의 재생 방법.
제27항에 있어서,

상기 프리셋 파라미터는 상기 복수의 프레임 중에서 기준 프레임에서의 기준 믹싱 정보, 및 상기 기준 프레임 이외의 프레임에서의 믹싱 정보와 상기 기준 믹싱 정보와의 차를 포함하는 객체기반 오디오 컨텐츠의 재생 방법.
제27항에 있어서,

상기 복수의 프레임은 서로 인접한 제1 프레임 그룹 및 제2 프레임 그룹을 포함하는 복수의 프레임 그룹으로 구분되고,

상기 프리셋 파라미터는

상기 제1 프레임 그룹에 대한 제1 그룹 믹싱 정보와 상기 제2 프레임 그룹에 대한 제2 그룹 믹싱 정보가 다른 경우, 상기 제1 그룹 믹싱 정보, 상기 제2 그룹 믹싱 정보, 상기 제1 그룹 믹싱 정보와 상기 제2 그룹 믹싱 정보가 다른 것임을 나타내는 제1 플래그 정보, 및 상기 복수의 프레임 그룹 각각에 포함되는 프레임의 개수를 포함하고,

상기 제1 그룹 믹싱 정보와 상기 제2 그룹 믹싱 정보가 동일한 경우, 상기 제1 그룹 믹싱 정보, 및 상기 제1 그룹 믹싱 정보와 상기 제2 그룹 믹싱 정보가 동일한 것임을 나타내는 제2 플래그 정보, 및 상기 프레임 개수를 포함하는 객체기반 오디오 컨텐츠의 재생 방법.
제27항에 있어서,

상기 프리셋 파라미터는 상기 믹싱 정보가 변화하는 횟수, 상기 믹싱 정보가 변화하는 프레임의 프레임 넘버, 및 상기 믹싱 정보가 변화하는 프레임에서의 믹싱 정보를 포함하는 객체기반 오디오 컨텐츠의 재생 방법.
제24항에 있어서,

상기 객체기반 오디오 컨텐츠는 적어도 하나의 채널로 구성된 복수의 트랙을 포함하고,

상기 프리셋 파라미터는 상기 복수의 트랙의 개수, 상기 복수의 트랙 별 채널 개수, 상기 객체기반 오디오 컨텐츠가 출력되는 적어도 하나의 출력 채널의 개수를 더 포함하고,

상기 믹싱 정보는 상기 적어도 하나의 출력 채널 별 믹싱 정보로 구성되는 객체기반 오디오 컨텐츠의 재생 방법.
제23항에 있어서,

상기 미디어 파일 포맷 구조는 ISO 기반 미디어 파일 포맷 구조인 객체기반 오디오 컨텐츠의 재생 방법.
제1항 내지 제10항, 제12항 내지 제32항 중 어느 한 항의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제