KR101596504B1 - 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체 - Google Patents

객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체 Download PDF

Info

Publication number
KR101596504B1
KR101596504B1 KR1020090034992A KR20090034992A KR101596504B1 KR 101596504 B1 KR101596504 B1 KR 101596504B1 KR 1020090034992 A KR1020090034992 A KR 1020090034992A KR 20090034992 A KR20090034992 A KR 20090034992A KR 101596504 B1 KR101596504 B1 KR 101596504B1
Authority
KR
South Korea
Prior art keywords
preset
information
box
mixing information
audio content
Prior art date
Application number
KR1020090034992A
Other languages
English (en)
Other versions
KR20090112579A (ko
Inventor
장인선
서정일
김휘용
이태진
강경옥
홍진우
김진웅
안치득
함승철
Original Assignee
한국전자통신연구원
(주)오디즌
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원, (주)오디즌 filed Critical 한국전자통신연구원
Priority to KR1020090034992A priority Critical patent/KR101596504B1/ko
Priority to JP2011506197A priority patent/JP5514803B2/ja
Priority to EP09734888.2A priority patent/EP2279618B1/en
Priority to US12/989,240 priority patent/US8976983B2/en
Priority to PCT/KR2009/002129 priority patent/WO2009131391A1/en
Priority to CN2009801237736A priority patent/CN102067490A/zh
Publication of KR20090112579A publication Critical patent/KR20090112579A/ko
Priority to JP2013024889A priority patent/JP2013137558A/ja
Application granted granted Critical
Publication of KR101596504B1 publication Critical patent/KR101596504B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/32Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/02Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information
    • H04H60/04Studio equipment; Interconnection of studios

Abstract

객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체가 개시된다. 객체기반 오디오 컨텐츠의 생성 방법은 복수의 오디오 객체를 입력 받는 단계, 상기 입력된 복수의 오디오 객체를 이용하여 적어도 하나의 프리셋을 생성하는 단계, 및 상기 복수의 오디오 객체, 및 상기 적어도 하나의 프리셋의 속성에 대한 프리셋 파라미터를 저장하는 단계를 포함하고, 상기 프리셋 파라미터는 상기 객체기반 오디오 컨텐츠에 관한 미디어 파일 포맷에서 정의되는 박스(box)의 형태로 저장된다.
객체기반 오디오, 프리셋, 프리셋 파라미터, 미디어 파일 포맷, ISO-BMFF

Description

객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체{METHOD FOR GENERATING AND PLAYING OBJECT-BASED AUDIO CONTENTS AND COMPUTER READABLE RECORDOING MEDIUM FOR RECODING DATA HAVING FILE FORMAT STRUCTURE FOR OBJECT-BASED AUDIO SERVICE}
본 발명은 객체기반 오디오 컨텐츠에 대한 프리셋 정보를 효율적으로 저장할 수 있는 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체에 관한 것이다.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT원천기술개발의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호 : 2008-F-011-01, 과제명 : 차세대DTV핵심기술개발(표준화연계) - 무안경개인형3D방송기술개발(계속)].
TV 방송, 라디오 방송, DMB(Digital Multimedia Broadcasting) 등과 같은 방송 서비스를 통해 제공되는 기존의 오디오 신호는 여러 가지 음원으로부터 획득된 오디오 신호가 믹싱되어 하나의 오디오 신호로 저장/전송되는 것이다.
이와 같은 환경에서는 시청자가 전체 오디오 신호의 세기 등을 조절하는 것은 가능하나, 오디오 신호 내에 포함된 각 음원 별 오디오 신호의 세기를 조절하는 것 등과 같은 음원 별 오디오 신호의 특성제어는 불가능하게 된다.
그러나, 오디오 컨텐츠를 저작할 때, 각 음원 별 오디오 신호를 합성하지 않고 독립적으로 저장한다면, 컨텐츠 재생 단말에서는 각 음원 별 오디오 신호에 대한 세기 등을 제어하면서 해당 컨텐츠를 시청할 수 있게 된다.
이와 같이 저장/송신 단에서 여러 개의 오디오 신호를 독립적으로 저장/전송하고, 사용자가 수신기(컨텐츠 재생 장치)에서 각각의 오디오 신호를 적절히 제어하면서 청취할 수 있도록 하는 오디오 서비스를 객체 기반 오디오 서비스라 한다.
이러한 객체 기반 오디오 서비스에서는 각 객체들의 위치, 음의 세기, 객체들의 위치에 따른 음향적 특성 등과 같은 속성들을 프리셋(Preset)으로 정의하여 제공함으로써 사용자로 하여금 이들을 오디오 컨텐츠의 재생에 활용할 수 있게 한다. 즉, 여러 개의 프리셋 오디오 정보들을 생성하여 파일 내부에 포함하여 서비스한다면, 수신 측에서는 객체 기반 오디오 서비스를 더욱 효율적으로 재생할 수 있다.
기존의 ISO 기반 미디어 파일 포맷(ISO-BMFF: ISO Base Media File Format)에서는 오디오, 비디오, 정지 영상 등 다양한 형태의 미디어를 모두 포함하는 형태의 파일 구조를 정의하고 있다. 상기의 파일 구조는 미디어의 인터체인지(interchange), 관리(management), 편집(editing), 프레젠테이션(presentation) 에 있어 유연하고 확장 가능한 특징이 있다.
이러한 ISO 기반 미디어 파일 포맷에 오디오 트랙과 프리셋 정보를 추가하여 저장 또는 송신한다면 객체기반 오디오 서비스를 더욱 효율적으로 제공할 수 있을 것이다.
본 발명의 일실시예들은 복수의 오디오 객체에 대한 프리셋을 효율적으로 저장할 수 객체기반 오디오 컨텐츠의 생성 방법을 제공하는 것을 목적으로 한다.
본 발명의 일실시예에 따른 객체기반 오디오 컨텐츠의 생성 방법은 복수의 오디오 객체를 입력 받는 단계, 상기 입력된 복수의 오디오 객체를 이용하여 적어도 하나의 프리셋을 생성하는 단계, 및 상기 복수의 오디오 객체, 및 상기 적어도 하나의 프리셋의 속성에 대한 프리셋 파라미터를 저장하는 단계를 포함하고, 상기 프리셋 파라미터는 상기 객체기반 오디오 컨텐츠에 관한 미디어 파일 포맷에서 정의되는 박스(box)의 형태로 저장된다.
이 경우, 상기 미디어 파일 포맷은 ISO 기반 미디어 파일 포맷(ISO base media file format) 구조일 수 있다.
또한, 상기 박스는 무브(moov) 박스를 포함하고, 상기 무브 박스는 상기 무브 박스 내에 정의된 제1 박스를 포함하고, 상기 제1 박스는 상기 제1 박스 내에 정의된 제2 박스를 포함하고, 상기 프리셋 파라미터는 제1 프리셋 파라미터 및 제2 프리셋 파라미터를 포함하고, 상기 제1 프리셋 파라미터는 상기 적어도 하나의 프리셋의 개수, 및 상기 적어도 하나의 프리셋 중에서 어느 하나의 프리셋의 프리셋 아이디(ID) 중에서 적어도 하나를 포함하고, 상기 제1 프리셋 파라미터는 상기 제1 박스에 저장되고, 상기 제2 프리셋 파라미터는 상기 제2 박스에 저장될 수 있다.
또한, 본 발명의 일실시예에 따른 객체기반 오디오 컨텐츠의 재생 방법은 객체기반 오디오 컨텐츠로부터 복수의 오디오 객체 및 적어도 하나의 프리셋을 복원하는 단계, 상기 적어도 하나의 프리셋에 기초하여 상기 복수의 오디오 객체를 믹싱하여 출력 오디오 신호를 생성하는 단계, 및 상기 출력 오디오 신호를 재생하는 단계를 포함하고, 상기 적어도 하나의 프리셋 각각은 프리셋 파라미터를 포함하고, 상기 프리셋 파라미터는 상기 객체기반 오디오 컨텐츠에 관한 미디어 파일 포맷에서 정의되는 박스의 형태로 상기 객체기반 오디오 컨텐츠에 저장될 수 있다.
또한, 본 발명의 일실시예에 따른 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체는 객체기반 오디오 컨텐츠의 규격 정보를 저장하는 에프팁(ftyp) 박스, 상기 객체 기반 오디오 컨텐츠를 구성하는 복수의 오디오 객체를 저장하는 엠닷(mdat) 박스, 및 상기 저장된 복수의 오디오 객체를 프레젠테이션(presentation)하는 메타데이터(meta data)를 저장하는 무브(moov) 박스를 포함하고, 상기 복수의 오디오 객체를 이용하여 생성된 적어도 하나의 프리셋의 속성에 대한 프리셋 파라미터는 상기 에프팁 박스 및 상기 무브 박스 중에서 어느 하나에 저장된다.
본 발명에 따르면, 복수의 오디오 객체에 대한 프리셋을 효율적으로 저장할 수 있게 된다.
이하에서는 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 다음에 예시하는 본 발명의 실시예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 상술하는 실시예에 한정되는 것은 아니다. 본 발명의 실시예는 당업계에서 통상의 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공된다.
도 1은 본 발명의 일실시예에 따른 객체기반 오디오 컨텐츠의 저장을 위한 미디어 파일 포맷 구조의 기본 형태를 도시한 도면이다.
도 1을 참조하면, 객체기반 오디오 컨텐츠의 저장을 위한 미디어 파일 포맷 구조는 크게, 객체기반 오디오 컨텐츠의 규격 정보(즉, 객체기반 오디오 컨텐츠 파일의 타입 정보)가 저장되는 에프팁 박스(이하 'ftyp'라고 한다), 객체기반 오디오 컨텐츠를 구성하는 복수의 오디오 객체 데이터의 프레젠테이션(presentation)을 위한 메타데이터(metadata)(예를 들어, 디코딩 타임(decoding time))가 저장되는 무브 박스(이하 'moov'라고 한다), 및 복수의 오디오 객체 데이터가 저장되는 엠닷 박스(이하, 'mdat' 라고 한다)를 포함하여 구성된다.
'ftyp' 및 'moov'는 메타 박스(이하 'meta'라고 한다)를 포함하여 구성되는데, 일반적으로 'meta'에는 'mdat'에 저장된 복수의 오디오 객체 데이터에 대한 디스크립션 메타데이터(descriptive metadata)가 저장된다.
여기서, 객체기반 오디오 컨텐츠의 저장을 위한 미디어 파일 포맷 구조는 ISO 기반 미디어 파일 포맷(ISO-BMFF: ISO Based Media File Format) 구조인 것이 바람직하다.
이하에서는 ISO 기반 미디어 파일 포맷(ISO-BMFF) 구조에 따라서 객체기반 오디오 컨텐츠의 재생과 관련된 프리셋을 복수의 오디오 객체와 함께 저장하여 객체기반 오디오 컨텐츠를 생성하는 방법에 대해 기술하기로 한다. 그러나, 앞서 언급한 바와 같이, 이하에서 설명되는 객체기반 오디오 컨텐츠 생성 방법은 ISO 기반 미디어 파일 포맷(ISO-BMFF) 구조를 갖는 객체기반 오디오 컨텐츠에 한정되지 않으며, MP4 파일 등과 같은 멀티미디어 데이터를 저장하기 위한 미디어 파일 포맷 구조를 갖는 멀티채널 오디오 컨텐츠에 대해서도 확장 가능하다.
본 발명의 일실시예에 따른 객체기반 오디오 컨텐츠의 생성 방법을 설명하기에 앞서, 객체기반 오디오 컨텐츠에 저장되는 프리셋의 속성을 나타내는 프리셋 파라미터에 대해 먼저 설명하기로 한다. 프리셋 파라미터는 아래에 나열된 프리셋 정보 중에서 적어도 하나를 포함할 수 있다.
1. 프리셋 이름, 프리셋 아이디
'프리셋 이름'은 프리셋과 대응되는 문자열(string)을 의미하고, '프리셋 아이디'는 프리셋과 대응되는 각각의 프리셋과 대응되는 정수(integer)를 의미한다.
2. 프리셋 개수, 디폴트 프리셋 아이디(ID)
'프리셋 개수'는 객체기반 오디오 컨텐츠에 포함되는 프리셋의 개수를 의미한다.
'디폴트 프리셋 아이디(default preset ID)'는 객체기반 오디오 컨텐츠가 재생되는 경우에 있어 사용자 인터랙션(user interaction)이 없는 초기 상태에서 가장 먼저 재생되어야 할 프리셋 아이디를 의미한다. 디폴트 프리셋 아이디는 객체기반 오디오 컨텐츠에 포함된 프리셋 아이디 중에서 어느 하나의 프리셋 아이디와 대응될 수 있다.
3. 프리셋 정보의 표시 여부
'프리셋 정보의 표시 여부'는 객체기반 오디오 컨텐츠의 재생 시에 프리셋 정보(일례로서, 아래에서 설명하는 입력 트랙 별 또는 입력 채널 별 볼륨 정보 또는 입력 트랙 별 또는 입력 채널 별 주파수 이득(gain) 정보)를 사용자에게 표시할지 여부에 대한 정보를 의미한다.
4. 프리셋의 편집 가능 여부
'프리셋의 편집 가능 여부'는 객체기반 오디오 컨텐츠의 재생 시 사용자가 프리셋을 편집할 수 있는지에 대한 정보를 의미한다.
5. 입력 트랙(track)의 개수, 입력 트랙의 아이디, 입력 트랙 당 입력 채널(channel)의 개수
'입력 트랙의 개수'는 객체기반 오디오 컨텐츠에 저장되는 입력 트랙의 개수를 의미한다. 여기서 입력 트랙은 음원(sound source)와 대응될 수 있다. 즉, 객체기반 오디오 컨텐츠가 보컬(vocal), 피아노, 드럼으로 구성되는 경우, 보컬, 피아노, 드럼 각각은 하나의 트랙으로 구성될 수 있다.
'입력 트랙의 아이디'는 각각의 입력 트랙과 대응되는 정수(integer)를 의미한다.
'입력 트랙당 입력 채널의 개수'는 각각의 입력 트랙에 포함되는 채널의 개수를 의미한다.
이하, 도 2를 참고하여 트랙 및 채널과의 관계를 설명하기로 한다.
도 2는 본 발명의 일실시예에 따른 트랙과 채널과의 관계를 도시한 도면이다.
도 2에서는 보컬 트랙(210), 피아노 트랙(220), 및 드럼 트랙(230)을 도시하고 있다.
음원의 녹음 시에 있어서, 각각의 음원을 2채널(즉, 스테레오 채널)로 녹음하는 경우, 각 트랙은 2개의 채널을 포함할 수 있다. 즉, 2채널로 보컬, 피아노, 및 드럼을 녹음하는 경우, 보컬 트랙(210)은 제1 채널(211) 및 제2 채널(212)로 구성되고, 피아노 트랙(220)은 제1 채널(221) 및 제2 채널(222)로 구성되고, 드럼 트랙(230)은 제1 채널(231) 및 제2 채널(232)로 구성될 수 있다. 도 2에서는 모든 트랙이 동일한 채널을 포함하는 것으로 도시하였지만, 각 트랙당 포함되는 채널의 개수는 서로 다를 수 있다.
이 때, 객체기반 오디오 컨텐츠의 저작자가 트랙 별로 프리셋을 설정하는 경우 복수의 오디오 객체는 트랙과 대응될 수 있고, 채널 별로 프리셋을 설정하는 경우 복수의 오디오 객체는 채널과 대응될 수 있다.
6. 출력 채널의 타입(type), 출력 채널의 개수
'출력 채널의 타입'은 객체기반 오디오 컨텐츠가 어떠한 채널을 통해 재생되는지 여부에 대한 정보를 의미하고, '출력 채널의 개수'는 출력 채널 타입에 따른 출력 채널의 개수를 의미한다.
7. 사운드 등화(equalization)를 위한 주파수 대역(frequency band)의 개수, 각각의 주파수 대역의 중심 주파수(center frequency), 각각의 주파수 대역의 대역폭(bandwidth)
'주파수 대역의 개수'는 신호의 증폭이나 전송 과정에서 발생하는 신호의 변형을 보정하기 위한 사운드 등화가 적용될 주파수 대역의 개수를 의미한다.
8. 입력 트랙 별 또는 입력 채널 별 볼륨 정보
'볼륨 정보'는 복수의 오디오 객체 각각의 볼륨에 관한 정보를 의미한다. 오디오 객체가 입력 트랙과 대응되는 경우, '입력 트랙 별 볼륨 정보'가 객체기반 오디오 컨텐츠에 저장되고, 오디오 객체가 입력 채널과 대응되는 경우, '입력 채널 별 볼륨 정보'가 객체기반 오디오 컨텐츠에 저장된다.
9. 입력 트랙 별 또는 입력 채널 별 주파수 이득(gain) 정보
'주파수 이득 정보'는 사운드 등화 적용 시의 주파수 이득에 관한 정보를 의미하는 것이다. 오디오 객체가 입력 트랙과 대응되는 경우, '입력 트랙 별 주파수 이득 정보'가 객체기반 오디오 컨텐츠에 저장되고, 오디오 객체가 입력 채널과 대응되는 경우, '입력 채널 별 주파수 이득 정보'가 객체기반 오디오 컨텐츠에 저장된다.
10. 프리셋 글로벌(global) 볼륨 정보
'프리셋 글로벌 볼륨 정보'는 복수의 오디오 객체 전체의 볼륨을 조절하기 위한 정보를 의미한다.
11. 음상(sound image)의 크기 및 음상의 각도
'음상의 크기' 및 '음상의 각도'는 객체기반 오디오 컨텐츠에 저장되는 복수개의 채널에 의해 형성되는 음상의 크기 값 및 음상의 각도 값을 의미한다.
객체기반 오디오 컨텐츠의 저작자는 다양한 방법을 통하여 ISO 기반 미디어 파일 포맷 구조에 따라, 상기 나열된 정보들 중에서 적어도 하나를 포함하는 프리셋 파라미터를 저장하여 객체기반 오디오 컨텐츠를 생성할 수 있다.
도 3은 본 발명의 일실시예에 따른 객체기반 오디오 컨텐츠의 생성 방법에 대한 흐름도를 도시한 도면이다.
먼저, 단계(310)에서는 복수의 오디오 객체를 입력 받는다.
다음으로, 단계(320)에서는 입력된 복수의 오디오 객체를 이용하여 적어도 하나의 프리셋을 생성한다.
마지막으로, 단계(330)에서는 복수의 오디오 객체, 및 프리셋의 속성에 대한 프리셋 파라미터를 저장한다. 상기 언급한 바와 같이, 프리셋 파라미터는 상기 나열된 정보 중에서 적어도 하나를 포함할 수 있다.
이 경우, 프리셋 파라미터는 객체기반 오디오 컨텐츠에 관한 미디어 파일 포맷에서 정의되는 박스(box)의 형태로 저장된다.
이하에서는 단계(330)에서 프리셋 파라미터를 저장하는 과정을 상세히 설명하기로 한다.
' ftyp' 내에 존재하는 ' meta 또는 ' moov' 내에 존재하는 ' meta' 내에 프리셋 파라미터를 저장
본 발명의 일실시예에 따르면, 프리셋 파라미터는 'ftyp' 내에 존재하는 'meta'(이하 제1 'meta'라고 한다), 또는 'moov' 내에 존재하는 'meta'(이하 제2 'meta'라고 한다)내에 저장될 수 있다.
즉, 상기에서 언급한 바와 같이, 제1 'meta' 또는 제2 'meta'에는 노래 제목, 가수 이름, 앨범(album) 이름 등 객체기반 오디오 컨텐츠에 대한 일반적인 정보를 나타내는 디스크립션 정보(또는 디스크립션 메타데이터)가 저장될 수 있는데, 프리셋 파라미터는 상기의 디스크립션 정보와 함께 저장될 수 있다.
디스크립션 정보가 저장되는 ' meta' 와 다른 별개의 ' meta' 프리셋 파라미터를 저장
본 발명의 일실시예에 따르면, 프리셋 파라미터는 객체기반 오디오 컨텐츠에 대한 디스크립션 정보가 저장되는 'meta'와 다른 별개의 'meta'에 저장될 수 있다.
이는 디스크립션 정보는 객체기반 오디오 컨텐츠의 식별과 관련된 정보이고, 프리셋 파라미터는 객체기반 오디오 컨텐츠의 재생과 관련된 정보로서, 양 정보의 속성이 서로 다르므로 이는 서로 구분되어 관리(handling)되는 것이 바람직하다는 점에 기인한 것이다.
일례로서, 디스크립션 정보는 제1 'meta'에 저장되고, 프리셋 파라미터는 제2 'meta'에 저장될 수 있다.
ISO 기반 미디어 파일 포맷에서는 하나의 레벨(level) 내에 하나의 'meta' 만이 존재할 수 있는 것으로 규정하고 있으므로 'ftyp'와 'moov' 각각은 하위 레벨에서 하나의 'meta'만을 포함할 수 있다. 따라서, 디스크립션 정보와 프리셋 파라미터가 구분되어 저장되려면, 서로 다른 레벨에 존재하는 'meta'(즉, 제1 'meta' 및 제2 'meta')에 디스크립션 정보 및 프리셋 파라미터가 각각 저장되어야 한다. 이 경우, 프리셋 파라미터는 프레젠테이션을 위한 메타데이터의 속성을 가지고 있으므로, 디스크립션 정보는 제1 'meta'에 저장되고, 프리셋 파라미터는 제2 'meta' 에 저장될 수 있다.
다른 일례로서, 디스크립션 정보는 'meta'(제1 'meta' 및 제2 'meta')에 그대로 저장되어 있고, 프리셋 파라미터는 'ftyp' 또는 'moov' 내에 존재하는 메코(meco) 박스(이하, 'meco'라고 한다) 내에 저장될 수 있다.
'meco'는 ISO 기반 미디어 파일 포맷에서 규정하고 있는, 부가적인 메타데이터를 저장하기 위한 박스(Additional Metadata Contain Box)로서, 'meco'에는 ISO 기반 미디어 파일 포맷에서 규정되지 않은 별개의 메타데이터가 저장될 수 있다. 따라서, 프리셋 파라미터는 'ftyp' 내에 존재하는 'meco' 또는 'moov' 내에 존재하는 'meco' 중 어느 하나에 저장될 수 있다.
' moov' 내에 새롭게 정의된 박스에 프리셋 파라미터를 저장
본 발명의 일실시예에 따르면, 프리셋 파라미터는 'moov' 내에 새롭게 정의된 박스에 저장될 수 있다.
상기 언급한 바와 같이, 프리셋 파라미터와 디스크립션 정보는 속성이 서로 다르므로, 프리셋 파라미터는 디스크립션 정보와 별개로 관리(handling)되는 것이 바람직하다. 또한, 프리셋 파라미터는 프레젠테이션을 위한 메타데이터의 속성을 가지고 있으므로, 'moov' 내에 저장되는 것이 바람직하다. 따라서, 프리셋 파라미터를 효율적으로 관리하기 위해서는 'moov' 내에 새로운 박스를 정의하고, 새롭게 정의된 박스를 내에 프리셋 파라미터를 저장하는 것이 바람직하다.
도 4는 본 발명의 일실시예에 따른 'moov'의 구조를 도시한 도면이다.
도 4에 도시된 바와 같이, 'moov' 내에는 2개의 박스가 정의될 수 있다.
제1 박스는 'moov'내에 정의되는 박스로서, 제1 박스에는 프리셋의 전체적인 정보를 나타내는 프리셋 파라미터인 제1 프리셋 파라미터가 저장된다. 이하에서는 제1 박스를 프리셋 컨테이너 박스(preset contain box) 즉,'prco'라고 칭하기로 한다.
일례로, 제1 프리셋 파라미터는 상기에서 언급한 프리셋의 개수 및 디폴트 프리셋 아이디 중에서 적어도 하나가 포함될 수 있다. 디폴트 프리셋 아이디(default preset ID)란 객체기반 오디오 컨텐츠가 재생되는 경우에 있어 사용자 인터랙션(user interaction)이 없는 초기 상태에서 가장 먼저 재생되어야 할 프리셋 아이디를 의미한다. 디폴트 프리셋 아이디는 객체기반 오디오 컨텐츠에 포함된 프리셋 아이디 중에서 어느 하나의 프리셋 아이디와 대응될 수 있다.
제2 박스는 'prco'내에 정의되는 박스로서, 제2 박스에는 프리셋의 속성에 대한 파라미터인 제2 프리셋 파라미터가 저장된다.
일례로, 제2 프리셋 파라미터에는 상기 나열된 정보 중에서 프리셋의 개수 및 디폴트 프리셋 아이디 이외의 다른 정보들이 포함될 수 있다. 이하에서는 제2 박스를 프리셋 박스(preset box), 즉, 'prst'라고 칭하기로 한다.
'prco'내에는 객체기반 오디오 컨텐츠에 포함되는 프리셋 수만큼의 'prst'가 존재한다. 만약, 객체기반 오디오 컨텐츠 내에 프리셋이 저장되지 않는 경우, 'prco' 내에는 'prst'가 존재하지 않는다.
일례로, 'prst'에는 상기에서 언급한 프리셋 정보 중에서 프리셋의 개수 및 디폴트 프리셋 아이디를 제외한 나머지 프리셋 정보를 포함하는 프리셋 파라미터가 저장될 수 있다.
본 발명의 일실시예에 따르면, 'moov'가 'prco' 및 'prst'를 포함하는 경우, ISO 기반 미디어 파일 포맷의 구조는 표 1과 같이 나타낼 수 있다.
ftyp file type and compatibility
moov container for all the metadata
mvhd movie header, overall declarations
trak container for an individual track or stream
tkhd track header, overall information about the track
tref track reference container
edts edit list container
elst an edit list
mdia container for the media information in a track
mdhd media header, overall information about the media
hdlr handler, declares the media (handler) type
minf media information container
smhd sound media header, overall information (sound track only)
hmhd hint media header, overall information (hint track only)
nmhd Null media header, overall information (some tracks only)
dinf data information box, container
dref data reference box, declares source(s) of media data in track
stbl sample table box, container for the time/space map
stsd sample descriptions (codec types, initialization etc.)
stts (decoding) time-to-sample
stsc sample-to-chunk, partial data-offset information
stsz sample sizes (framing)
stz2 compact sample sizes (framing)
stco chunk offset, partial data-offset information
co64 64-bit chunk offset
prco container for the presets
prst preset box, container for the preset information
mdat media data container
free free space
skip free space
meta Metadata
hdlr handler, declares the metadata (handler) type
dinf data information box, container
Dref data reference box,declares source(s) of metadata items
iloc item location
iinf item information
xml XML container
bxml binary XML container
pitm primary item reference
이하에서는 'prco' 및 'prst'의 신택스(syntax)와 시맨틱스(semantics)의 일실시예들에 대해 자세히 설명하기로 한다.
표 2는 'prco'의 신택스의 일실시예를 나타낸다.
Preset Container Box
Box type: 'prco'
Container: Movie Box ('moov')
Mandatory: Yes
Quantity: Exactly one

syntax

aligned(8) class PresetContainerBox extends Box('prco'){
unsigned int(8) num_preset;
unsigned int(8) default_preset_ID;
}
표 2의 신택스에 따른 시맨틱스는 아래와 같다.
'num_preset'은 'prco' 내의 프리셋의 개수를 의미한다.
'default_preset_ID'는 디폴트 프리셋 아이디를 각각 의미한다. 저작자가 'default_preset_ID'를 설정하지 않은 경우, 프리셋 아이디 값이 가장 작은 프리셋의 프리셋 아이디가 'default_preset_ID'로 설정될 수 있다.
만약 'default_preset_ID'가 '0'으로 설정된 경우, 객체기반 오디오 컨텐츠에 포함되는 복수의 오디오 객체 중에서 다객체 오디오 압축 기술(SAOC: MPEG-D Spatial audio object coding)로써 부호화되어 저장된 오디오 객체들의 비트스트림 내부에 저장된 프리셋에 따라 객체기반 오디오 컨텐츠가 재생될 수 있다. 이에 대한 보다 자세한 설명은 도 6에 대한 설명을 참고하기로 한다.
표 3은 'prst'의 개괄적인 신택스를 나타낸다.
Preset Box
Box type : ' prst'
Container: Preset Container Box ('prco')
Mandatory: No
Quantity: zero or more

syntax

aligned(8) class PresetBox extends FullBox('prst', version=0, flags){
unsigned int(8) preset_ID;
unsigned int(8) num_preset_track;
unsigned int(8) preset_track_ID[num_preset_track];
unsigned int(8) preset_type;
unsigned int(8) preset_global_volume;

if(preset_type == 0) {}
if(preset_type == 1) {}
if(preset_type == 2) {}
if(preset_type == 3) {}
if(preset_type == 4) {}
if(preset_type == 5) {}
if(preset_type == 6) {}
if(preset_type == 7) {}
if(preset_type == 8) {}
if(preset_type == 9) {}
if(preset_type == 10) {}
if(preset_type == 11) {}
string preset_name;
}
표 3의 신택스에 따른 시맨틱스는 아래와 같다.
'version'은 'prst'의 버전을 의미한다.
'flags'는 객체기반 오디오 컨텐츠의 재생 시에 있어, 'prst'에 저장된 정보를 사용자에게 표시할지 여부 및 'prst'에 저장된 정보에 대한 사용자의 편집을 허용할지 여부에 대한 플래그 정보를 의미한다.
'flags'는 8비트 인티저(bit integer)의 데이터 타입을 갖는 플래그 정보로서, 표 4와 같은 의미를 가질 수 있다.
Flags Display Edit
0x01 disable disable
0x02 enable disable
0x03 enable enable
즉, 만약 'flags'가 0x01인 경우, 객체기반 오디오 컨텐츠의 재생 시 'prst' 내에 저장된 프리셋 관련 정보가 사용자에게 표시되지 않으며, 사용자는 'prst' 내에 저장된 프리셋 관련 정보를 편집할 수 없다.
만약 'flags'가 0x02인 경우, 객체기반 오디오 컨텐츠의 재생 시 'prst' 내에 저장된 프리셋 관련 정보는 사용자에게 표시지만, 사용자는 'prst' 내에 저장된 정보를 편집할 수 없다.
만약 'flags'가 0x03인 경우, 객체기반 오디오 컨텐츠의 재생 시 'prst' 내에 저장된 정보는 사용자에게 표시되며, 사용자는 'prst' 내에 저장된 정보를 편집할 수 있다.
'preset_ID'는 프리셋 아이디를 의미하는 것으로 1 이상의 값을 가질 수 있다.
'num_preset_track'은 프리셋과 관련된 입력 트랙의 개수를 의미한다.
'preset_track_ID[num_preset_track]'은 입력 트랙의 아이디를 저장하는 어레이(array)를 의미한다.
'preset_name' 은 프리셋 이름을 의미한다.
'preset_global_volume'는 프리셋 글로벌 볼륨 정보를 의미한다.
일반적으로, 객체기반 오디오 컨텐츠의 리듬감을 강조하기 위해, 저작자는 드럼과 같은 타악기(percussion instrument) 소리의 볼륨을 다른 악기 소리의 볼륨에 비해 상대적으로 크게 하여 프리셋을 생성한다.
그런데, 만약 타악기 소리와 다른 악기 소리의 상대적인 볼륨 차가 작은 경우, 충분한 리듬감을 느낄 수 없게 된다. 이와 반대로, 만약 타악기 소리와 다른 악기 소리의 상대적인 볼륨 차가 큰 경우, 전체적인 볼륨의 크기가 작아지게 된다. 이는 일반적으로 타악기의 소리는 효과음(effector)과 같은 속성을 가지고 있어, 객체기반 오디오 컨텐츠의 총 재생 구간에 걸쳐 다른 악기 소리에 비해 타악기 소리의 고주파 성분이 차지하는 비중이 크다는 점에 기인한 것이다.
예를 들어, [보컬, 피아노, 드럼]으로 구성된 프리셋의 볼륨 값이 [250, 200, 400]인 경우 전체적인 볼륨은 적당하지만 리듬감이 강조되지 않고, 프리셋의 볼륨 값이 [100, 150, 400]의 경우 리듬감은 강조되지만 전체적인 볼륨은 줄어들게 된다.
이는 객체기반 오디오 컨텐츠 내에 프리셋 글로벌 볼륨 정보를 더 저장함으로써 해결될 수 있다. 프리셋 글로벌 볼륨 정보는 프리셋을 구성하는 오디오 객체의 전체적인 볼륨을 조절하기 위한 정보이다.
즉, 객체기반 오디오 컨텐츠 내에 세팅되어 있는 기본 글로벌 볼륨 값을 기준으로 입력 트랙 전체의 볼륨 값을 저장하고, 프리셋 글로벌 볼륨 값을 기존의 글로벌 볼륨 값보다 크도록 프리셋을 생성한다면, 객체기반 오디오 컨텐츠의 재생 시 상대적인 볼륨 차가
Figure 112009024299852-pat00001
의 비율로 더 커지게 된다.
일례로서, 기본 글로벌 볼륨 값이 '50'이고, [보컬, 피아노, 드럼]로 구성된 프리셋의 볼륨 값이 [100, 150, 400]인 경우, 프리셋 글로벌 볼륨 값을 100로 설정한다면, 각각의 악기의 볼륨은 두 배로 커지게 된다. 이에 따라, 주 멜로디를 구성하는 보컬 및 피아노의 볼륨은 두 배 정도 커지게 되어 객체기반 오디오 컨텐츠의 전체적인 볼륨은 적정한 수준이 되고, 드럼의 볼륨 또한 2배로 커지게 되어 리듬감을 강조할 수 있게 된다.
이와 같이 프리셋 글로벌 볼륨 값을 이용해서 볼륨을 증폭시키는 경우, 클리핑(clipping) 현상 등의 음질 열화가 발생할 수 있지만, 일반적으로 타악기 소리를 일정 수준 이상으로 증가시키는 경우, 타악기에서 발생하는 음질 열화는 사용자가 인지하기 어렵다는 실험적 사실에 기초한다면, 프리셋 글로벌 볼륨 정보의 이용에 따른 음질 열화는 문제되지 않을 것이다.
또한, 프리셋 글로벌 볼륨 정보는 기본 글로벌 볼륨 값이 최대인 경우, 전체적인 볼륨 크기를 증가시키기 위한 용도로도 사용될 수 있다.
즉, 일반적인 객체기반 오디오 컨텐츠의 재생에 있어, 기본 글로벌 볼륨 값이 최대인 경우, 오디오 객체 각각의 볼륨을 조절하는 것이 불가능하다. 그러나, 만약 객체기반 오디오 컨텐츠 내에 프리셋 글로벌 볼륨 정보가 저장되어 있다면, 기본 글로벌 볼륨 값의 최대값보다 더 큰 볼륨으로 객체기반 오디오 컨텐츠를 재생할 수 있게 된다.
'preset_type'은 프리셋의 타입을 의미한다.
본 발명의 일실시예에 따르면, 프리셋 타입은 믹싱 정보의 종류, 믹싱 정보의 적용 대상, 및 객체기반 오디오 컨텐츠의 재생 시간에 따른 믹싱 정보의 변화 여부에 기초하여 결정될 수 있다. 이하에서는 프리셋 타입의 결정 방법에 대해 상세히 설명하기로 한다.
먼저, 프리셋 타입은 믹싱 정보의 종류에 기초하여 결정할 수 있다.
일례로서, 믹싱 정보는 볼륨 정보 및 사운드 등화 정보 중에서 적어도 하나를 포함할 수 있다. 이하에서는 볼륨 정보만을 고려하여 생성된 프리셋을 볼륨 프리셋(volume preset)으로, 등화 정보만을 고려하여 생성된 프리셋을 등화 프리셋(equalization preset)으로, 볼륨 정보와 등화 정보를 모두 고려하여 생성된 프리셋을 볼륨/등화 프리셋(volume/equalization preset)라고 칭하기로 한다.
다음으로, 프리셋 타입은 믹싱 정보의 적용 대상에 기초하여 결정될 수 있다.
즉, 입력 트랙을 오디오 객체로 간주하여 믹싱 정보를 적용할지, 입력 채널을 오디오 객체로 간주하여 믹싱 정보를 적용할지 여부에 따라 프리셋 타입이 결정될 수 있다. 이하에서는 입력 트랙을 오디오 객체로 간주하여 생성된 프리셋을 트랙 프리셋(track preset)으로, 입력 채널을 오디오 객체로 간주하는 생성된 프리셋을 채널 프리셋(channel preset)으로 칭하기로 한다.
마지막으로, 프리셋 타입은 객체기반 오디오 컨텐츠의 재생 시간에 따른 믹싱 정보의 변화 여부에 기초하여 결정될 수 있다.
즉, 객체기반 오디오 컨텐츠의 재생됨에 따라, 믹싱 정보가 일정한 값을 갖는지, 믹싱 정보가 변화하는지 여부에 따라 프리셋 타입이 결정될 수 있다. 이하에서는 믹싱 정보가 변화하지 않는 경우의 프리셋을 스태틱 프리셋(static preset)으로, 믹싱 정보가 변화하는 경우의 프리셋을 다이나믹 프리셋(dynamic preset)으로 칭하기로 한다.
본 발명의 일실시예에 따르면, 객체기반 오디오 컨텐츠 내에 다이나믹 프리셋을 저장하는 경우 'prst' 내에는 입력 트랙 아이디 및 상기 입력 트랙 아이디의 믹싱 정보를 매핑(mapping)하는 테이블(table)이 포함될 수 있다. 이 경우, 기존의 ISO-BMFF에서 규정하고 'stts'(decoding time to sample box)와 상기 테이블에 저장된 믹싱 정보에 기초하여 입력 트랙의 샘플링 넘버에 따른 믹싱 정보가 도출될 수 있다('stts'에는 디코딩 시간(decoding time)과 샘플링 넘버(sample number)와의 관계 정보가 저장되어 있다). 이에 따라, 객체기반 오디오 컨텐츠의 재생에 있어 임의 접근(random access)이 가능하게 되고, 객체기반 오디오 컨텐츠에 저장되는 믹싱 정보의 양은 감소될 수 있다.
상기에서 언급한 정보들을 이용하여 프리셋을 생성하는 경우, 프리셋 타입은 표 5와 같이 구분될 수 있다. 표 5에서는 12개의 프리셋이 존재할 수 있는 것으로 표시하였지만, 이는 분류 요소에 따라 더욱 확장될 수 있다.
preset
_ type
static (S)
/ dynamic (D)
track (T)
/ channel (C)
volume
( Vol )
equalization
( Eq )
meaning
0 S T Vol - static track volume preset
1 S T Vol Eq static track volume preset with equalization
2 S T - Eq static track equalization preset
3 D T Vol - dynamic track volume preset
4 D T Vol Eq dynamic track volume preset with equalization
5 D T - Eq dynamic track equalization preset
6 S C Vol - static object volume preset
7 S C Vol Eq static object volume preset with equalization
8 S C - Eq static object equalization preset
9 D C Vol - dynamic object volume preset
10 D C Vol Eq dynamic object volume preset with equalization
11 D C - Eq dynamic object equalization preset
표 5를 참고하면, 믹싱 정보는 볼륨 정보와 등화 정보를 포함하고, 이는 프리셋 타입에 따라 상이한 형태로 'prst'에 저장됨을 알 수 있다. 여기서, 믹싱 정보의 저장 형태는 크게, 프리셋 타입이 static preset 인지 dynamic preset인지에 따라 구분될 수 있다.
1. 프리셋 타입이 static preset인 경우
프리셋 타입이 static preset인 경우, 객체기반 오디오 컨텐츠를 구성하는 복수의 프레임에서의 믹싱 정보는 동일하므로, 각각의 오디오 객체 별로 동일한 믹싱 정보가 저장된다. 여기서, 믹싱 정보의 저장 형태는 프리셋 타입이 track preset인지, channel preset인지에 따라 세부적으로 구분될 수 있다.
1.1. 프리셋 타입이 static/track preset인 경우('preset_type' 값이 0, 1, 2인 경우)
믹싱 정보가 트랙 별로 저장되는 경우, 출력 채널 타입은 입력 트랙 중에서 가장 많은 채널을 갖는 입력 트릭에 따라 결정될 수 있다. 예를 들어, 제1 입력 트랙이 2개의 채널을 포함하고, 제2 입력 트랙이 1개의 채널을 포함하는 경우, 제1 입력 채널에 포함되는 채널의 개수가 더 많으므로, 출력 채널 타입은 스테레오로 결정될 수 있다.
이 경우, 'prst' 내의 프리셋의 신택스는 표 6 내지 표 8과 같을 수 있다.
if(preset_type == 0){ // static track volume preset
for(i=0; i<num_preset_track; i++){
unsigned int(8) preset_volume;
}
}
if(preset_type == 1){ // static track volume preset with equalization
for(i=0; i<num_preset_track; i++){
unsigned int(8) preset_volume;
unsigned int(8) num_freq_band;
for(j=0; j<num_freq_band; j++){
unsigned int(16) center_freq;
unsigned int(16) bandwidth;
unsigned int(8) preset_freq_gain;
}
}
}
if(preset_type == 2){ // static track equalization preset
for(i=0; i<num_preset_track; i++){
unsigned int(8) num_freq_band;
for(j=0; j<num_freq_band; j++){
unsigned int(16) center_freq;
unsigned int(16) bandwidth;
nsigned int(8) preset_freq_gain;
}
}
}
표 6 내지 표 8의 신택스에 따른 시맨틱스는 아래와 같다.
'preset_volume'은 볼륨 정보를 의미한다.
볼륨 정보는 입력 트랙의 입력 볼륨 값과 출력 트랙의 출력 볼륨 값간의 볼륨 이득 값을 포함할 수 있다. 볼륨 이득 값은 백분율 또는 데시벨(dB)로 표현될 수 있다.
또한, 백분율 또는 데시벨로 표현된 볼륨 이득 값은 양자화되어 저장될 수 있다. 이 경우, 양자화된 볼륨 이득 값은 표 9 및 표 10과 같이 표현될 수 있다.
index 0 1 2 3 149 200
value(ratio) 0 0.02 0.04 0.06 3.98 4.00
index 0 1 2 3 4 5 6 7 8 9 10 11 12 13
value(dB) -25 -21 -18 -15 -12 -8 -5 -3 -1 0 1 2 3 4
'num_freq_band'은 사운드 등화가 적용되는 주파수 대역의 개수를 의미하는 것으로서, 0 이상 32 이하의 정수 값을 갖는다.
'center_freq'는 각각의 주파수 대역에서의 중심 주파수를 의미하는 것으로서, 0 이상 20,000 이하의 정수 값을 갖는다(단위: Hz).
'bandwidth'는 각각의 주파수 대역의 대역폭을 의미하는 것으로서, 0 이상 20,000 이하의 정수 값을 갖는다(단위: Hz).
'preset_freq_gain'각각의 주파수 대역에서의 주파수 이득 값을 의미한다.
볼륨 이득 값과 마찬가지로 주파수 이득 값 역시 백분율 또는 데시벨(dB)로 표현될 수 있고, 또한, 백분율 또는 데시벨로 표현된 주파수 이득 값은 양자화되어 저장될 수 있다. 이 경우, 양자화된 주파수 이득 값은 표 11과 같이 표현될 수 있다.
index 0 1 2 3 149 200
gain 0 0.02 0.04 0.06 3.98 4.00
1.2. 프리셋 타입이 static/channel preset인 경우('preset_type' 값이 7, 8, 9인 경우)
믹싱 정보가 채널 별로 저장되는 경우, 믹싱 정보는 입력 트랙의 개수, 입력 트랙 당 채널의 개수 및 출력 채널 타입을 고려하여 저장될 수 있다. 이 경우, 'prst'내의 프리셋의 신택스는 표 12 내지 표 14와 같을 수 있다.
if(preset_type == 6){ // static object volume preset
unsigned int(8) num_input_channel[num_preset_track];
unsigned int(8) output_channel_type;
for (i=0; i<num_preset_track; i++){
for (j=0; j<num_input_channel[i]; j++){
for (k=0; k<num_output_channel; k++){
unsigened int(8) preset_volume;
}
}
}
}
if(preset_type == 7){ // static object volume preset with equalization
for (i=0; i<num_preset_track; i++){
for (j=0; j<num_input_channel[i]; j++){
for (k=0; k<num_output_channel; k++){
unsigned int(8) preset_volume;
unsigned int(8) num_freq_band;
for(m=0; m<num_freq_band; m++){
unsigned int(16) center_freq;
unsigned int(16) bandwidth;
unsigned int(8) preset_freq_gain;
}
}
}
}
}
if(preset_type == 8){ // static object equalization preset
for (i=0; i<num_preset_track; i++){
for (j=0; j<num_input_channel[i]; j++){
for (k=0; k<num_output_channel; k++){
unsigned int(8) num_freq_band;
for(m=0; m<num_freq_band; m++){
unsigned int(16) center_freq;
unsigned int(16) bandwidth;
unsigned int(8) preset_freq_gain;
}
}
}
}
}
표 12 내지 표 14의 신택스에 따른 시맨틱스는 아래와 같다.
'num_input_channel[num_preset_track]'은 입력 트랙당 채널의 개수에 대한 정보를 저장하는 어레이를 의미한다.
일례로서, 'num_input_channel[num_preset_track]'는 'moov'/'track'/'media'/'minf'/'stbl'/'stsd' 내에 존재하는 'channel_count' 정보를 이용하여 구성될 수 있다. 입력 트랙이 모노 채널을 포함하는 경우, 'num_input_channel[num_preset_track]'는 '1'의 값, 입력 트랙이 스테레오 채널을 포함하는 경우, 'num_input_channel[num_preset_track]'는 '2'의 값을, 입력 트랙이 5채널을 포함하는 경우, 'num_input_channel[num_preset_track]'는 '5'의 값을 각각 가질 수 있다.
'output_channel_type'은 출력 채널 타입을 의미하고, 'num_output_channel'은 출력 채널의 개수를 의미한다. 일례로서, 'output_channel_type'과 'num_output_channel'은 표 15과 같은 관계를 가질 수 있다.
output _ channel _ type Meaning num _ output _ channel
0 mono channel 1
1 stereo channel 2
2 5 channel 5
또한, 본 발명의 일실시예에 따르면, 프리셋 타입이 static/object/volume preset이고, 출력 채널의 개수가 5개인 경우, 'prst'에 저장되는 믹싱 정보는 표 16과 같이 표현될 수 있다.
preset _ track _ ID = 1 reset _ track _ ID = 7
L R M
output channel volume L 50 0 50
R 0 80 50
C 50 80 0
Ls 0 0 30
Rs 0 0 30
이 경우, 'prst'에 저장되는 각각의 파라미터는 하기와 같은 관계를 가진다.
num_preset_track = 2
preset_track_ID[2] = [1,7]
num_input_channel[2] = [2, 1]
num_output_channel =5
preset_volume = [50, 0, 50, 0, 0, 0, 80, 80, 0, 0, 50, 50, 0, 30, 30]
여기서, 'preset_volume'을 살펴보면, 일부 믹싱 정보들이 중복되어 저장됨을 알 수 있다. 이 경우, 저장되는 정보의 양이 불필요하게 증가되게 되므로, 'prst'에 저장되는 정보의 양을 줄이기 위한 방안이 요구된다. 이에 대한 보다 자세한 설명을 하기의 "2-나, 다, 라" 부분을 참고하기로 한다.
2. 프리셋 타입이 dynamic preset인 경우
프리셋 타입이 dynamic preset인 경우, 객체기반 오디오 컨텐츠를 구성하는 복수의 프레임에서 믹싱 정보가 변화하므로, 상이한 믹싱 정보가 저장될 수 있다.
따라서, 믹싱 정보는 프레임 넘버(또는 샘플링 넘버(sample number))에 따른 행렬로 표현될 수 있으며, 또한 상기 행렬은 입력 트랙의 프레임과 이에 해당하는 믹싱 정보를 매핑하는 테이블의 형태로써 표현될 수 있다.
이하에서는 변화하는 믹싱 정보가 표 17과 같은 매핑 테이블 형태로 표시되는 경우, 믹싱 정보를 저장하는 방안에 대해 구체적으로 설명하기로 한다.
sampling number Input Track
preset _ track ID = 1 preset _ track ID =3
1 50 20
2 50 20
9 50 20
10 50 20
11 50 10
12 50 10
19 50 10
20 50 10
21 70 60
22 70 60
29 70 60
30 70 60
가. 프레임 넘버에 따른 믹싱 정보 값을 그대로 저장
나. 프레임 넘버에 따른 믹싱 정보 값을 기준 값(reference value) 및 기준 값에 대한 믹싱 정보 차이 값으로 저장
기준 값은 기준 프레임에서의 기준 믹싱 정보 값을 의미한다. 따라서, 기준 프레임에서의 기준 믹싱 정보 값, 및 기준 프레임 이외의 프레임에서의 믹싱 정보와 기준 믹싱 정보 값과의 차이 값이 'prst'에 저장될 수 있다.
만약 기준 값이 0인 경우, 표 17은 표 18과 같이 간략하게 표현될 수 있다.
sampling count Input Track
preset _ track ID = 1
20 50
10 70
sampling count Input Track
preset _ track ID = 3
10 20
10 10
10 60
따라서, 믹싱 정보가 표 18와 같은 테이블의 형태로 'prst'에 저장되는 경우, 저장되는 정보의 양을 감소시킬 수 있게 된다.
다. 중복을 나타내는 플래그 정보를 이용하여 믹싱 정보를 저장
본 방안은 이전의 프레임의 믹싱 정보 값과 현재 프레임의 믹싱 정보 값이 동일한 경우, 믹싱 정보 값을 저장하지 않고, 현재 프레임의 믹싱 정보 값과 이전 프레임의 믹싱 정보 값이 동일한 것임을 나타내는 플래그 정보를 저장함으로써, 'prst'에 저장되는 정보의 양을 감소시킬 수 있는 방법이다.
이 경우, 믹싱 정보 값이 시간에 따라 값이 변화한다 하더라도, 각 프레임마다 믹싱 정보가 변화할 가능성은 크지 않으므로, 프레임마다 플래그 값을 부여하는 것이 효율적이지 않다.
따라서, 본 발명의 일실시예에 따른 객체기반 오디오 컨텐츠의 생성 방법에 따르면, 믹싱 정보 값 및 플래그 정보는 믹싱 정보가 변화하는 프레임 간격에 대한 정보에 기초하여 저장될 수 있다.
예를 들어, 믹싱 정보가 표 17과 같이 변화하는 경우, 믹싱 정보(즉 볼륨 정보)는 10개의 프레임 단위로 변화하는 것으로 간주될 수 있다. 따라서, 표 17은 표 19와 같이 간략하게 표현할 수 있다.
preset_volume 50 50 70 20 10 60
volume_flag 0 1 0 0 0 0
modified preset_volume 50 _ 70 20 10 60
따라서, 'prst'에 저장되는 각각의 파라미터는 하기와 같은 관계를 가진다.
dynamic_interval = 10
volume_flag = [0, 1, 0, 0, 0, 0]
preset_volume = [50, 70, 20, 10, 60]
여기서, 'dynamic_interval'은 프레임 간격을 의미하고, 'volume_flag'는 볼륨 플래그 정보를 의미한다. 이전 프레임의 믹싱 정보와 현재 프레임의 믹싱 정보가 동일한 경우, 'volume_flag'는 '1'의 값을 갖고, 이전 프레임의 믹싱 정보와 현재 프레임의 믹싱 정보가 다른 경우, 'volume_flag'는 '0'의 값을 갖는다.
이를 참고하면, 객체기반 오디오 컨텐츠에 포함되는 복수의 프레임이 특정 프레임 간격에 따라 프레임 그룹으로 구분되고, 믹싱 정보는 프레임 그룹 별로 저장되는 것으로 이해될 수 있다.
즉 본 발명의 일실시예에 따르면, 제1 프레임 그룹에 대한 제1 그룹 믹싱 정보와 제2 프레임 그룹에 대한 제2 그룹 믹싱 정보가 다른 경우, 'prst'에 저장되는 프리셋 파라미터는 제1 그룹 믹싱 정보, 제2 그룹 믹싱 정보, 제1 그룹 믹싱 정보와 제2 그룹 믹싱 정보가 다른 것임을 나타내는 제1 플래그(flag) 정보, 및 복수의 프레임 그룹 각각에 포함되는 프레임의 개수(즉, 프레임 간격)을 포함한다.
반대로, 제1 그룹 믹싱 정보와 제2 그룹 믹싱 정보가 동일한 경우, 'prst'에 저장되는 프리셋 파라미터는 제1 그룹 믹싱 정보, 및 제1 그룹 믹싱 정보와 제2 그룹 믹싱 정보가 동일한 것임을 나타내는 제2 플래그 정보, 및 포함하는 복수의 프레임 그룹 각각에 포함되는 프레임의 개수를 포함한다.
라. 믹싱 정보가 변화하는 횟수, 믹싱 정보가 변화하는 프레임의 프레임 넘버를 이용하여 믹싱 정보를 저장
본 방안에 따르면, 믹싱 정보가 변화하는 횟수, 믹싱 정보가 변화하는 프레임의 프레임 넘버, 및 이에 따른 믹싱 정보가 저장된다. 따라서, 본 방안은 임의 접근(random access)의 측면에서, 상기 설명한 '다'의 방법보다 더욱 효율적인 방법이라고 할 수 있다.
예를 들어, 믹싱 정보가 표 17과 같이 변화하는 경우, 'prst'에 저장되는 믹싱 정보의 변화 횟수, 믹싱 정보가 변화하는 프레임 넘버, 및 믹싱 정보(즉 볼륨 정보)는 아래와 같다.
num_updates = 3
updated_sample_number = [1, 11, 21]
preset_volume = [50, 20, 50, 10, 70, 60]
여기서, 'num_updates'는 믹싱 정보의 변화(업데이트) 횟수를, 'updated_sample_number'은 믹싱 정보가 변화(업데이트)되는 프레임 넘버를 각각 의미한다.
이상에서, 믹싱 정보가 재생 시간에 따라 변화하는 경우, 믹싱 파라미터를 효율적으로 저장하기 위한 방안들에 대해 자세히 살펴보았다. 상기의 방안들은 프리셋 타입이 static preset인 경우에 있어, 저장되는 믹싱 정보들이 중복되는 때에도 역시 적용 가능하다.
예를 들어, 'prst'에 저장되는 믹싱 정보가 표 16과 같이 표시되는 경우에 있어, 플래그 정보를 이용하는 상기의 "다" 방안에 따라 믹싱 정보를 저장하는 하는 경우, 표 16은 표 20과 같이 변형될 수 있다.
preset_volume 50 0 50 0 0 0 80 80 0 0 50 50 0 30 30
volume_flag 0 0 0 0 1 1 0 1 0 1 0 1 0 0 1
modified preset_volume 50 0 50 0 _ _ 80 _ 0 _ 50 _ 0 30 _
따라서, 'prst'에 저장되는 각각의 파라미터는 하기와 같은 관계를 가진다.
volume_flag = [0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1]
preset_volume = [50, 0, 50, 0, 80, 0, 50, 0, 30]
이 경우, 표 12에 표시된 'prst'내의 프리셋의 신택스는 표 21과 같이 변형될 수 있다.
if(preset_type == 6){ // static object volume preset
unsigned int(8) num_input_channel[num_preset_track];
unsigned int(8) output_channel_type;
unsigned int(16) num_volume_flag;
for (i=0; i<num_volume_flag; i++){
unsigned int(8) volume_flag;
if(volume_flag==0){
unsigned int(8) preset_volume;
}
}
}
표 21의 신택스에 따른 시맨틱스는 아래와 같다.
'volume_flag'는 볼륨 플래그 정보를 의미하는 것으로서, 'volume_flag'는 1비트 인티저의 데이터 타입을 갖는다. 'volume_flag' 이전 프레임의 믹싱 정보와 현재 프레임의 믹싱 정보가 동일한 경우, 'volume_flag'는 '1'의 값을 갖고, 이전 프레임의 믹싱 정보와 현재 프레임의 믹싱 정보가 다른 경우, 'volume_flag'는 '0'의 값을 갖는다.
'num_volume_flag'는 'volume_flag'의 어레이 길이를 의미한다.
이하에서는 상기에서 설명한 프리셋 저장 방안에 기초하여 dynamic preset의 믹싱 정보를 'prst'에 저장하는 일실시예를 구체적으로 설명하기로 한다.
2.1. 프리셋 타입이 dynamic/track preset인 경우('preset_type' 값이 3, 4, 5인 경우),
상기에서 언급한 바와 같이 프리셋 타입이 track preset인 경우, 믹싱 정보의 저장에 있어 출력 채널의 타입은 고려되지 않을 수 있다.
본 발명의 일실시예에 따르면, 'prst' 내의 프리셋의 신택스는 표 22 내지 표 24와 같을 수 있다. 표 22 내지 표 24에 표시된 신택스는 상기 설명한 "라"의 방안을 이용하여 믹싱 정보를 저장하는 방법과 관련된 신택스이다.
if(preset_type == 3)){ // dynamic track volume preset
unsigned int(16) num_updates;
for(i=0; i<num_updates; i++){
unsigned int(16) updated_sample_number;
for(j=0; j<num_preset_track; j++){
unsigned int(8) preset_volume;
}
}
}
if(preset_type == 4){ // dynamic track volume preset with equalization
unsigned int(16) num_updates;
for(i=0; i<num_updates; i++){
unsigned int(16) updated_sample_number;
for(j=0; j<num_preset_track; j++){
unsigned int(8) preset_volume;
unsigned int(16) num_freq_band;
for (k=0; k<num_freq_band; k++){
unsigned int(16) center_freq;
unsigned int(16) bandwidth;
unsigned int(8) preset_freq_gain;
}
}
}
}
if(preset_type == 5){ // dynamic track equalization preset
unsigned int(16) num_updates;
for(i=0; i<num_updates; i++){
unsigned int(16) updated_sample_number;
for(j=0; j<num_preset_track; j++){
unsigned int(16) num_freq_band;
for(k=0; k<num_freq_band; k++){
unsigned int(16) center_freq;
unsigned int(16) bandwidth;
unsigned int(8) preset_freq_gain;
}
}
}
}
표 22 내지 표 24의 신택스에 따른 시맨틱스는 아래와 같다.
'num_updates'는 믹싱 정보의 변화(업데이트) 횟수를 의미한다.
'updated_sample_number'은 믹싱 정보가 변화(업데이트)되는 프레임 넘버를 의미한다.
또한, 상기의 "다"의 방안에 따라 믹싱 정보를 저장하는 경우, 표 22의 신택스는 표 25와 같이 변형될 수 있다.
if(preset_type == 3)){ // dynamic track volume preset
unsigned int(8) dynamic_interval;
unsigned int(32) num_volume_flag;
for(i=0; i< num_volume_flag; i++){
unsigned int(8) volume_flag;
if(volume_flag ==0){
unsigned int(8) preset_volume;
}
}
}
표 25의 신택스에 따른 시맨틱스는 아래와 같다.
'dynamic_interval'은 프레임 간격을 의미한다.
2.2. 프리셋 타입이 dynamic/channel preset인 경우('preset_type' 값이 9, 10, 11인 경우),
상기에서 언급한 바와 같이, 만약 믹싱 정보가 채널 별로 저장된다면, 믹싱 정보는 입력 트랙의 개수, 입력 트랙 당 채널의 개수 및 출력 채널의 타입을 고려하여 저장될 수 있다.
이 경우, 'prst'내의 프리셋의 신택스는 표 26 내지 표 28과 같을 수 있다. 표 26 내지 표 27의 신택스는 상기 설명한 "라"의 방법을 이용하여 믹싱 정보를 저장하는 방법과 관련된 신택스이다.
if(preset_type == 9){ // dynamic object volume preset
unsigned int(16) num_updates;
for(i=0; i<num_updates; i++){
unsigned int(16) updated_sample_number;
for(j=0; j<num_preset_track; j++){
for (k=0; k<num_input_channel[j]; k++){
for (m=0; m<num_output_channel; m++){
unsigned int(8) preset_volume;
}
}
}
}
}
if(preset_type == 10){ // dynamic object volume preset with equalization
unsigned int(16) num_updates;
for(i=0; i<num_updates; i++){
for(j=0; j<num_preset_track; j++){
for (k=0; k<num_input_channel[i]; k++){
for (m=0; m<num_output_channel; m++){
unsigned int(8) preset_volume;
unsigned int(8) num_freq_band;
for(m=0; m<num_freq_band; m++){
for(n=0; n<num_freq_band; n++){
unsigned int(16) center_freq;
unsigned int(16) bandwidth;
unsigned int(8) preset_freq_gain;
}
}
}
}
}
}
}
if(preset_type == 11){ // dynamic object equalization preset
unsigned int(16) num_updates;
for(i=0; i<num_updates; i++){
for(j=0; j<num_preset_track; j++){
for (k=0; k<num_input_channel[i]; k++){
for (m=0; m<num_output_channel; m++){
unsigned int(8) num_freq_band;
for(m=0; m<num_freq_band; m++){
for(n=0; n<num_freq_band; n++){
unsigned int(16) center_freq;
unsigned int(16) bandwidth;
unsigned int(8) preset_freq_gain;
}
}
}
}
}
}
}
이상에서는 믹싱 정보가 볼륨 정보 및 등화 정보만을 포함하는 것으로 기술하였으나, 본 발명의 일실시예에 따르면, 믹싱 정보는 적어도 하나의 입력 채널에 의해 형성되는 음상(sound image)의 크기 값 및 상기 음상의 각도 값을 더 포함할 수 있다. 음상의 크기 값 및 음상의 각도 값은 음상의 가상 위치(virtual position)를 결정하는 프리셋 파라미터이다.
이 경우, 음상의 각도 값은 양자화 되어 저장될 수 있다. 일례로, 음상의 각도 값은 표 29와 같은 테이블 형태로 표현될 수 있다.
index 0 1 2 3 4 5 6
value (°) 0 5 10 15 20 25 30
index 7 8 9 10 11 12 13
value (°) 40 50 60 70 80 90 100
index 14 15 16 17 18 19 20
value (°) 110 120 130 140 150 160 170
index 21 22 23 24 25 26 27
value (°) 180 190 200 210 220 230 240
index 28 29 30 31 32 33 34
value (°) 250 260 270 280 290 300 310
index 35 36 37 38 39 40 41
value (°) 320 330 335 340 345 350 355
또한, 본 발명의 일실시예에 따르면, 객체기반 오디오 컨텐츠는 적어도 하나의 프리셋 중에서 어느 하나에 기초하여 믹싱된 오디오 신호의 다운 믹스된 신호인 모노/스테레오 오디오 신호를 더 포함할 수 있다.
상기 모노/스테레오 오디오 신호는 객체기반 오디오 컨텐츠의 재생이 불가능한 오디오 재생 장치와의 호환성을 위해 저장된다.
객체기반 오디오 컨텐츠가 모노/스테레오 오디오 신호를 더 포함하는 경우, 객체기반 오디오 컨텐츠의 재생이 가능한 오디오 장치에서는 복수의 오디오 객체 및 적어도 하나의 프리셋에 기초하여 객체기반 오디오 컨텐츠를 재생하고, 객체기반 오디오 컨텐츠의 재생이 불가능한 오디오 장치에서는 모노/스테레오 오디오 신호를 재생하게 된다. 이에 따라, 오디오 장치의 종류에 관계없이 객체기반 오디오 컨텐츠의 재생이 가능하게 된다.
일례로서, 모노/스테레오 오디오 신호는 'mdat'에 저장될 수 있다. 이 경우, 'moov'/'trak'/'tkhd'내의 flags의 시맨틱스는 표 30과 같이 수정될 수 있다. 표 30에서 밑줄 친 부분은 삭제되는 시맨틱스이고, 굵은 글씨로 표시된 부분은 추가되는 시맨틱스이다.
flags - is a 24-bit integer with flags; the following values are defined:

- Track_enabled: Indicates that the track is enabled. Flag value is 0x000001. A disabled track (the low bit is zero) is treated as if it were not present.
- Track _ in _ movie : Indicates that the track is used in the presentation . Flag value is 0x000002.
- Track _ in _ interaction _ movie : Indicates that the track is used in the presentation by an interactive music player . Flag value is 0x000002.
- Track _ in _ non _ interaction _ movie : Indicates that the track is used in the presentation by a non - interactive music player . Flag value is 0x000003.
- Track_in_preview: Indicates that the track is used when previewing the presentation. Flag value is 0x000004.
MPEG -4 BIFS ( Binary format For Scene )를 이용하여 ' moov' 내에 존재하는 ' trak' 내에 프리셋 파라미터를 저장
본 발명의 일실시예에 따르면, 프리셋 파라미터는 MPEG-4 BIFS를 이용하여 'moov' 내에 존재하는 트랙(track) 박스(이하 'trak'이라고 한다)내에 저장될 수 있다.
이 경우, 프리셋 파라미터 중에서 프리셋의 전체적인 정보를 나타내는 제1 프리셋 파라미터(일례로, 프리셋의 개수, 디폴트 프리셋 아이디 등)는 상기에서 설명한 'prco'에 저장될 수도 있고, BIFS 내에 새롭게 정의된 노드를 이용하여 저장될 수도 있다.
BIFS 내에 새롭게 정의된 노드를 이용하여 제1 프리셋 파라미터를 저장하는 경우, 노드 인터페이스(node interface)는 표 31과 같이 나타낼 수 있다. 표 31에서, 'PresetSound'는 새롭게 정의된 노드를 의미한다.
node interface

PresetSound{
exposedField SFNode source NULL
exposedField SFInt32 numPresets 1
exposedField SFInt32 default_preset_ID 1
}
표 31의 노드 인터페이스에 따른 시맨틱스는 아래와 같다.
'source' field는 ISO/IEC 14496-11:2005의 subclause 7.2.2.116의 시맨틱스를 따른다.
'numPreset' field 및 'default_preset_ID' field는 앞서 설명한 'prco'의 시맨틱스를 따른다.
또한, 프리셋 파라미터 중에서 볼륨 정보를 나타내는 프리셋 파라미터는 AudioMix node 및 WideSound node를 적절히 조합하여 저장할 수 있다.
또한, 프리셋 파라미터 중에서, 등화 정보를 나타내는 프리셋 파라미터는 기존의 AudioRXProto node 중 PROTO audioEcho를 이용하여 저장할 수도 있고, BIFS 내에 새롭게 정의된 노드를 이용하여 저장될 수도 있다.
BIFS 내에 새롭게 정의된 노드를 이용하여 등화 정보(보다 정확하게는 주파수 이득 값)를 저장하는 경우, 노드 인터페이스(node interface)는 표 32와 같이 나타낼 수 있다. 표 32에서, 'PersetAudioEqualizer'는 새롭게 정의된 노드를 의미한다.
node interface
PresetAudioEqualizer{
eventIn MFNode addChildren
eventIn MFNode removeChildren
exposedField MFNode children []
exposedField SFInt32 numInputs 1
exposedField MFFloat params []
}
표 32의 노드 인터페이스에 따른 시맨틱스는 아래와 같다.
'children' field는 동시에 믹싱될 수 있는 노드들의 출력을 의미한다. 'child' field의 일례로서, AudioSource, AudioMix 등이 있다.
'addChildren'은 'children' field에 추가되는 노드 리스트를 의미한다.
'removeChildren'은 'children' field에서 삭제되는 노드 리스트를 의미한다.
'numInputs' field는 입력 트랙의 개수를 의미한다.
'params' field는 [numInputs ×3·numFreqBands]의 행렬로서, 각 행에는 각 입력 트랙에 적용되는 주파수 대역의 등화 파라미터(등화 정보)가 저장된다. 이는 표 33과 같이 나타낼 수 있다.
Data Type Function Default value Range
float numFreqBands 2 0,…, 32
float[] centerFreq [] 0,…, 20000
float[] bandwidth [] 0,…, 20000
float[] gain 1 0.1,…, 10
여기에서,' numFreqBands'은 주파수 대역의 개수, 'centerFreq'는 각 주파수 대역에서의 중심 주파수, 'bandwidth'는 각 주파수 대역에서의 대역폭, 'gain'은 주파수 대역 별 이득 값을 각각 의미한다.
즉, 'params' field의 각 행은 아래와 같이 구성된다.
numFreqBands = params [0]
centerFreq [0...numFreqBands-1] = params [1 ... numFreqBands]
bandwidth [0...numFreqBands-1] = params [numFreqBands + 1 ... 2·numFreqBands]
gain [0...numFreqBands-1] = params [2·numFreqBands+1 ... 3·numFreqBands]
MPEG -4 LASeR ( Lightweight Application Scene Representation )를 이용하여 'meta' 내의 xml' 프리셋 파라미터를 저장
본 발명의 일실시예에 따르면, 프리셋 파라미터는 MPEG-4 LASeR를 이용하여 'meta' 내에 존재하는 엑스엠엘(xml) 박스(이하 'xml'이라고 한다)내에 저장될 수 있다.
이 경우, 표 34와 같은 엘리먼트(element) 및 어트리뷰트(attribute)를 새롭게 정의하여 프리셋 파라미터를 저장할 수 있다.
i. presetContainer element

semantics

presetContainer element에는 앞서 설명한 'prco'와 동일한 정보가 저장된다.

attribute

'numPreset'은 프리셋의 개수를 의미한다.
'defaultPresetID'는 디폴트 프리셋 아이디를 의미한다.

ii . preset element

semantics

preset element에는 앞서 설명한 'prst'와 동일한 정보가 저장된다. 또한, preset element는 presetContainer element의 children으로 존재한다.

attribute
앞서 설명한 ISO-BMFF의 'prst'의 신택스 및 시맨틱스를 어트리뷰트로 이용한다.
기타
본 발명의 일실시예에 따르면, 복수의 오디오 객체를 포함하여 구성되는 파일 내에 프리셋 정보가 이미 기술되어 있는 경우, 객체 기반 오디오 컨텐츠 포맷에서 이를 참조하게 하거나, 상기의 프리셋 정보를 객체 기반 오디오 컨텐츠 포맷에 맞도록 변형하여 객체기반 오디오 컨텐츠 포맷 형태로 프리셋 파라미터를 저장할 수 있다.
또한, 본 발명의 일실시예에 따르면, BIFS 또는 LASeR와 같은 장면 표현언어 형태로 구성된 파일 내에서 프리셋 정보가 기술되어 있는 경우, 객체기반 오디오 컨텐츠 포맷에서 이를 참조하게 하거나, 상기의 프리셋 정보를 객체 기반 오디오 컨텐츠 포맷 스키마에 맞도록 변형하여 객체기반 오디오 컨텐츠 포맷 형태로 프리셋 파라미터를 저장할 수 있다.
또한, 본 발명의 일실시예에 따르면, 프리셋 만으로 구성된 파일로부터 프리셋 정보를 획득하는 경우, 객체기반 오디오 컨텐츠 포맷에서 이를 참조하도록 할 수 있다. 또한, 프리셋 만으로 구성된 파일에 저장된 프리셋 정보를 객체기반 오디오 컨텐츠 포맷 형태로 저장할 수 있다.
앞서 언급한 바와 같이, 객체기반 오디오 컨텐츠에는 디스크립션 정보(또는 디스크립션 메타데이터)가 추가적으로 저장되고, 저장된 디스크립션 정보는 객체기반 오디오 컨텐츠의 검색 및 필터링에 활용될 수 있다. 이하에서는 디스크립션 정보를 저장하는 방법을 도 7 및 도 8을 참고하여 설명하기로 한다.
도 7 및 도 8은 본 발명의 일실시예에 따라 디스크립션 정보를 포함하는 객체기반 오디오 컨텐츠의 저장을 위한 파일 포맷의 구조를 도시한 도면이다.
ISO 기반의 객체기반 오디오 컨텐츠 파일 포맷에서, 디스크립션 정보는 앨범(album)을 표현하기 위한 메타데이터(이하, 'album level metadata'라고 한다), 노래(song)를 표현하기 위한 메타데이터(이하, 'song level metadata'라고 한다), 및 트랙(track)을 표현하기 위한 메타데이터(이하, 'track level metadata'라고 한다)를 포함하여 구성될 수 있다. 여기서, 각각의 메타데이터를 정리하면 표 35와 같이 나타낼 수 있다.
Description Level
album song track
title o o o
singer o o -
composer - o -
lyricist - o -
performing musician - - o
genre o o -
file date o o o
CD track number of the song - o -
production o o -
publisher o o -
copyright information o o -
ISRC
(International Standard Recording Code)
- o -
imgae o o -
URL
site address related to the music and the artist(e.g. album homepage, fan cafe, music video)
o o -
상기의 메타데이터는 "노래(song) 및 트랙을 표현하기 위한 메타데이터"와 "앨범을 표현하기 위한 메타데이터"의 2가지 타입으로 분류될 수 있다. 여기서, "앨범을 표현하기 위한 메타데이터"는 객체기반 오디오 컨텐츠 내에 저장된 노래(song) 중에서 같은 앨범 내에 수록되어 있는 노래(song)들에 대한 공통되는 정보들을 표현한다.
album level metadata는 'ftyp'/'meta'에, song level metadata는 'moov'/'meta'에, track level metadata는 'moov'/'trak'/'meta'에 각각 저장될 수 있다. 이를 정리하면 표 36과 같이 나타낼 수 있다.
Metadata Location
track level trak/meta box
song level moov/meta box
album level meta box of file
상기의 메타데이터가 저장되는 ISO 기반의 객체기반 오디오 컨텐츠 파일 포맷 구조의 형태는 도 7 및 도 8과 같이 나타낼 수 있다. 도 7에 도시된 포맷 구조는 하나의 싱글 타입의 파일 구조(single type file structure)이고, 도 8에 도시된 포맷 구조는 멀티 타입의 파일 구조(multiple type file structure)이다.
여기서, 상기의 메타데이터는 mp7t(mpeg-7 type)에 따라 관리(handling)될 수 있다.
보다 상세하게, track level metadata 및 song level metadata를 위해서 MPEG-7의 'CreationInformation', 'MediaInformation', 및 'Semantics DS'가 사용될 수 있다. album level metadata를 위해서는 MPEG-7의 'ContentCollection DS' 및 'CreationInformation DS '가 사용될 수 있다. 이는 album level metadata가 하나의 앨범에 포함되는 복수의 노래에 대한 구조적 정보(structure information)를 포함하고 있기 때문이다.
이를 정리하면 표 37 내지 표 39와 같이 나타낼 수 있다.
Tag Name Semantics
CreationInformation/Creation/Creator[@type="Instrument"] The title of the track
- CreationInformation/Creation/Creator[Role/@herf="urn:mpeg:mpeg7: RoleCS:2001:PERFORMER"]/Agent[@xsi : type = "PersonType"] / Name /{FamilyName, GivenName}(Arist name)
- CreationInformation/Creation/Creator[Role/@herf= "urn:mpeg: mpeg7: RoleCS:2001:PERFORMER"]/Agent[@xsi : type = "PersonGroupType"] /Name/(Group Name)
The name of a musician who is performing instruments, such as vocal, guitar, keyboard and so on
CreationInformation/CreationCoordinates/Date/TimePoint Time point of the recording
Tag Name Semantics
CreationInformation/Creation/Title[@type="songTitle"] The title of the song
- CreationInformation/Creation/Creator[Role/@herf="urn: mpeg : mpeg7: RoleCS:2001:PERFORMER"]/Agent[@xsi : type = "PersonType"] / Name /{FamilyName, GivenName}(Arist name)
- CreationInformation/Creation/Creator[Role/@herf= "urn : mpeg : mpeg7: RoleCS:2001:PERFORMER"]/Agent[@xsi : type = "PersonGroupType"] /Name/(Group Name)
The name of a musician such as singer, composer and lyricist
CreationInformation/Classification/Genre[@herf="urn:id3:v1:genreID"] Genre
CreationInformation/CreationCoordinates/Date/TimePoint Time point when the song is released
Semantics/SemanticBase[@xsi:type="SemanticStateType"] /AttributeValuePair CD track number of the song
CreationInformation/Creation/Abstract/FreeTextAnnotation Information on production, Publisher and site address related to the music and the artist
(e.g. album homepage, fan cafe and music video)
CreationInformation/Creation/copyrightString Textual label indicating information that may be displayed or otherwise made known to the end user
MediaInformation/MediaIdentification/EntityIdentifier ISRC
CreationInformation/Creation/TitleMedia[@type="TitleImage"]
Tag Name Semantics
ContentCollection/CreationInformation/Creation/Title[@type="albumTitle"] The title of the album
- ContentCollection/CreationInformation/Creation/Creator[Role/@href="urn: mpeg:mpeg7:RoleCS:2001:PERFORMER"]/Agent[@xsi:type = "PersonType"]/ Name /{FamilyName, GivenName}(Arist name)
- CreationInformation/Creation/Creator[Role/@herf= "urn:mpeg: mpeg7: RoleCS:2001:PERFORMER"]/Agent[@xsi : type = "PersonGroupType"] /Name/(Group Name)
The name of representative musician of the album
ContentCollection/CreationInformation/Classification/Genre[@href="urn: id3:v1:genreID"] Genre
ContentCollection/CreationInformation/CreationCoordinates/Date/Timepoint Time point when the album is related
ContentCollection/CreationInformation/Creation/Abstract/FreeText Anotation Information on production, publisher and site address related to the music and the artist
(e.g. album homepage, fan cafe and music video)
ContentCollection/CreationInformation/Creation/CopyrightString Textual label indicating information that may be displayed or otherwise made known to the end user
ContentCollection/CreationInformation/Creation/TitleMedia[@type ="TitleImage"] The title of the multimedia content in image form
또한, 객체기반 오디오 컨텐츠 내에는 노래의 가사(lyrics) 등과 같은 오디오 컨텐츠 관련 정보가 포함될 수 있는데, 객체기반 오디오 컨텐츠의 재생 시 오디오 컨텐츠 재생 장치에 상기의 오디오 컨텐츠 관련 정보를 표시한다면, 보다 효율적으로 사용자에게 객체기반 오디오 서비스를 제공할 수 있다. 오디오 컨텐츠 관련 정보는 객체기반 오디오 컨텐츠의 재생 시간에 따라 변화될 수 있다. 이하에서는 재생 시간에 따라 변화하는 오디오 컨텐츠 관련 정보를 'Timed Text'라고 칭하기로 한다.
객체기반 오디오 컨텐츠 파일 포맷에서는 3GPP TS 26.245 (이하, '3GPP Timed Text'라고 칭하기로 한다), MPEG-4 Streaming Text Format과 같은 Timed Text 표준을 이용하여 Timed Text를 제공할 수 있다.
일례로서, 3GPP Timed Text를 이용하여 Timed Text를 제공하는 경우, 3GPP Timed Text는 텍스트 샘플(text sample)과 샘플 디스크립션(sample description)을 포함하여 구성될 수 있다.
여기서, 텍스트 샘플은 텍스트 스트링(text string)과 샘플 모디파이어(sample modifier)를 포함하여 구성될 수 있는데, 샘플 모디파이어(sample modifier)는 텍스트 스트링을 랜더링하는 방법에 대한 정보를 담고 있다.
텍스트 샘플은 ISO-BMFF에서 'mdat' 내 하나의 트랙(즉 text track) 으로 저장된다. 저장된 텍스트 샘플은 'moov'/'trad'/'mdia'/'minf'/'stbl' 내의 'stts', 'stsc', 'stco' 등에 저장된 정보들을 이용하여 오디오 트랙과 같은 timed media와 동기되어 재생된다.
또한, 샘플 디스크립션은 텍스트가 랜더링되는 방법에 관한 정보를 포함한다. 일례로, 샘플 디스크립션은 디스플레이되는 텍스트의 위치, 텍스트의 색, 배경(background) 색 등에 대한 정보를 포함하고 있다. 샘플 디스크립션은 한편, sample description은 'SampleEntry'를 'TextSampleEntry'로 확장하여 'stsd'에서 기술될 수 있다.
이상에서는 본 발명의 일실시예에 따른 객체기반 오디오 컨텐츠의 생성 방법에 대해 설명하였다. 이하에서는 도 5를 참고하여 상기의 객체기반 오디오 컨텐츠의 생성 방법에 따라 생성된 객체기반 오디오 컨텐츠를 재생하는 방법에 대해 설명하기로 한다.
도 5는 본 발명의 일실시예에 따른 객체기반 오디오 컨텐츠의 재생 방법에 대한 흐름도를 도시한 도면이다.
먼저, 단계(510)에서는 객체기반 오디오 컨텐츠로부터 복수의 오디오 객체 및 적어도 하나의 프리셋을 복원한다.
이 경우, 객체기반 오디오 컨텐츠는 도 3에서 설명한 객체기반 오디오 컨텐츠의 생성 방법에 따라 생성된 것이다.
단계(520)에서는 적어도 하나의 프리셋에 기초하여 복수의 오디오 객체를 믹싱하여 출력 오디오 신호를 생성한다.
단계(530)에서는 생성된 출력 오디오 신호를 재생한다.
상기에서 언급한 바와 같이, 프리셋 파라미터에 포함된 디폴트 프리셋 아이디 값이 '0'의 값을 갖는 경우, 다객체 오디오 압축 기술(SAOC)로써 부호화되어 저장된 오디오 객체들의 비트스트림 내부에 저장된 프리셋에 따라 객체기반 오디오 컨텐츠가 재생될 수 있는데, 이하에서는 도 6을 참고하여 다객체 오디오 압축 기술(SAOC)로써 부호화되어 저장된 오디오 객체들의 비트스트림 내부에 저장된 프리셋에 기초하여 객체기반 오디오 컨텐츠가 재생되는 과정을 상세히 설명하기로 한다.
도 6은 본 발명의 다른 일실시예에 따른 객체기반 오디오 컨텐츠의 재생 방법의 흐름도를 도시한 도면이다.
먼저, 단계(610)에서는 객체기반 오디오 컨텐츠 내에 프리셋이 존재하는지를 판단한다.
단계(610)에서 프리셋이 존재하는 것으로 판단(즉, 'num_preset가 '0'이 아닌 값을 갖는 것으로 판단)한 경우, 단계(620)에서는 객체기반 오디오 컨텐츠 내에 디폴트 프리셋 아이디가 존재하는지를 판단한다.
단계(620)에서 디폴트 프리셋 아이디가 존재하는 것으로 판단(즉, 'default_preset_ID'가 '0'이 아닌 값을 갖는 것으로 판단)한 경우, 단계(630)에서는 디폴트 프리셋 아이디와 동일한 프리셋 아이디를 갖는 프리셋에 기초하여 복수의 오디오 객체를 믹싱하여 출력 오디오 신호를 생성하고, 단계(670)에서는 생성될 출력 신호를 재생한다.
만약, 단계(610)에서 프리셋이 존재하지 않는 것으로 판단(즉, 'num_preset가 '0'의 값을 갖는 것으로 판단)하거나, 단계(620)에서 디폴트 프리셋 아이디가 존재하지 않는 것으로 판단(즉, 'default_preset_ID'가 '0'의 값을 갖는 것으로 판단)한 경우, 단계(640)에서는 SAOC 비트스트림이 존재하는지를 판단한다.
단계(640)에서 SAOC 비트스트림이 존재하는 것으로 판단한 경우, 단계(650)에서는 SAOC 비트스트림 내에 프리셋이 존재하는지를 판단한다.
단계(650)에서 SAOC 비트스트림 내에 프리셋이 존재하는 것으로 판단한 경우, 단계(670)에서는 SAOC 비트스트림 내에 포함된 첫번째 프리셋에 기초하여 복수의 오디오 객체를 믹싱하여 출력 오디오 신호를 생성하고, 단계(670)에서는 생성될 출력 신호를 재생한다.
만약, 단계(640)에서 SAOC 비트스트림이 존재하지 않는 것으로 판단하거나, 단계(650)에서 SAOC 비트스트림 내에 프리셋이 존재하지 않는 것으로 판단한 경우, 객체기반 오디오 컨텐츠 내에 프리셋이 없는 것으로 판단하여 객체기반 오디오 컨텐츠를 재생하지 않는다.
또한, 본 발명의 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 일실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
도 1은 본 발명의 일실시예에 따른 객체기반 오디오 컨텐츠의 저장을 위한 미디어 파일 포맷 구조의 기본 형태를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 트랙과 채널과의 관계를 도시한 도면이다.
도 3은 본 발명의 일실시예에 따른 객체기반 오디오 컨텐츠의 생성 방법에 대한 흐름도를 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 'moov'의 구조를 도시한 도면이다.
도 5는 본 발명의 일실시예에 따른 객체기반 오디오 컨텐츠의 재생 방법에 대한 흐름도를 도시한 도면이다.
도 6은 본 발명의 다른 일실시예에 따른 객체기반 오디오 컨텐츠의 재생 방법의 흐름도를 도시한 도면이다.
도 7 및 도 8은 본 발명의 일실시예에 따라 디스크립션 정보를 포함하는 객체기반 오디오 컨텐츠의 저장을 위한 파일 포맷의 구조를 도시한 도면이다.

Claims (45)

  1. 객체기반 오디오 컨텐츠를 생성하는 방법에 있어서,
    복수의 오디오 객체를 입력 받는 단계;
    상기 입력된 복수의 오디오 객체를 이용하여 적어도 하나의 프리셋을 생성하는 단계; 및
    상기 복수의 오디오 객체, 및 상기 적어도 하나의 프리셋을 포함하는 객체기반오디오 컨텐츠를 생성하는 단계
    를 포함하고,
    상기 프리셋은, 상기 객체기반 오디오 컨텐츠를 재생할 때 사용자에 의해 편집될 수 있으며,
    상기 프리셋은, 상기 복수의 오디오 객체 전체에 대한 볼륨 정보 또는 상기 복수의 오디오 객체들 각각의 위치 정보와 관련된 프리셋 파라미터를 포함하는 객체기반 오디오 컨텐츠의 생성 방법.
  2. 제1항에 있어서,
    상기 프리셋 파라미터는 상기 객체기반 오디오 컨텐츠에 관한 미디어 파일 포맷에서 정의되는 박스(box)의 형태로 저장되고,
    상기 박스는 무브(moov) 박스를 포함하고, 상기 무브 박스는 상기 무브 박스 내에 정의된 제1 박스를 포함하고, 상기 제1 박스는 상기 제1 박스 내에 정의된 제2 박스를 포함하고,
    상기 프리셋 파라미터는 제1 프리셋 파라미터 및 제2 프리셋 파라미터를 포함하고, 상기 제1 프리셋 파라미터는 상기 적어도 하나의 프리셋의 개수, 및 상기 적어도 하나의 프리셋 중에서 어느 하나의 프리셋의 프리셋 아이디(ID) 중에서 적어도 하나를 포함하고,
    상기 제1 프리셋 파라미터는 상기 제1 박스에 저장되고, 상기 제2 프리셋 파라미터는 상기 제2 박스에 저장되는 객체기반 오디오 컨텐츠의 생성 방법.
  3. 제1항에 있어서,
    상기 프리셋 파라미터는 상기 객체기반 오디오 컨텐츠에 관한 미디어 파일 포맷에서 정의되는 박스(box)의 형태로 저장되고,
    상기 박스는 에프팁(ftyp) 박스 및 무브 박스를 포함하고,
    상기 에프팁 박스는 제1 메타(meta) 박스를 포함하고, 상기 무브 박스는 제2 메타 박스를 포함하고,
    상기 프리셋 파라미터는 상기 제1 메타 박스 및 상기 제2 메타 박스 중에서 어느 하나에 저장되는 객체기반 오디오 컨텐츠의 생성 방법.
  4. 제3항에 있어서,
    상기 객체기반 오디오 컨텐츠의 디스크립션(description) 정보는 상기 제1 메타 박스에 저장되고, 상기 프리셋 파라미터는 상기 제2 메타 박스에 저장되는 객체기반 오디오 컨텐츠의 생성 방법.
  5. 제1항에 있어서,
    상기 프리셋 파라미터는 상기 객체기반 오디오 컨텐츠에 관한 미디어 파일 포맷에서 정의되는 박스(box)의 형태로 저장되고,
    상기 박스는 에프팁 박스 및 무브 박스를 포함하고,
    상기 프리셋 파라미터는 상기 무브 박스 내에 존재하는 메코(meco) 박스 또는 상기 에프팁 박스 내에 존재하는 메코 박스 중에서 어느 하나에 저장되는 객체기반 오디오 컨텐츠의 생성 방법.
  6. 제1항에 있어서,
    상기 프리셋 파라미터는, 상기 객체기반 오디오 컨텐츠의 디스크립션 정보를 더 포함하고,
    상기 디스크립션 정보는 mp7t(MPEG-7 type)에 기초하여 프리셋 파라미터에 저장되는 객체기반 오디오 컨텐츠의 생성 방법.
  7. 제1항에 있어서,
    상기 프리셋 파라미터는, 상기 객체기반 오디오 컨텐츠에 관한 타임드 텍스트(timed text) 데이터를 더 포함하고,
    상기 타임드 텍스트(timed text) 데이터는 3GPP TS 26.245 및 MPEG-4 Streaming Text Format 중에서 어느 하나에 기초하여 프리셋 파라미터에 저장되는 객체기반 오디오 컨텐츠의 생성 방법.
  8. 제1항에 있어서,
    상기 프리셋 파라미터는 상기 객체기반 오디오 컨텐츠에 관한 미디어 파일 포맷에서 정의되는 박스(box)의 형태로 저장되고,
    상기 박스는 무브 박스를 포함하고, 상기 무브 박스는 트랙(track) 박스를 포함하고
    상기 저장하는 단계는 MPEG-4 BIFS(Binary format For Scene)를 이용하여 상기 무브 박스 내에 존재하는 트랙(track) 박스에 상기 프리셋 파라미터를 저장하는 객체기반 오디오 컨텐츠의 생성 방법.
  9. 제1항에 있어서,
    상기 프리셋 파라미터는 상기 객체기반 오디오 컨텐츠에 관한 미디어 파일 포맷에서 정의되는 박스(box)의 형태로 저장되고,
    상기 박스는 메타 박스를 포함하고, 상기 메타 박스는 액스엠엘 (xml) 박스를 포함하고,
    상기 저장하는 단계는 MPEG-4 LASeR(Lightweight Application Scene Representation)를 이용하여 상기 액스엠엘 (xml) 박스에 상기 프리셋 파라미터를 저장하는 객체기반 오디오 컨텐츠의 생성 방법.
  10. 제1항에 있어서,
    상기 프리셋 파라미터는 상기 복수의 오디오 객체에 대한 믹싱(mixing) 정보를 포함하고,
    상기 믹싱 정보는 상기 복수의 오디오 객체 각각에 대한 볼륨(volume) 정보 및 상기 복수의 오디오 객체 각각에 대한 등화(equalization) 정보 중에서 적어도 하나를 포함하는 객체기반 오디오 컨텐츠의 생성 방법.
  11. 삭제
  12. 제10항에 있어서,
    상기 객체기반 오디오 컨텐츠는 적어도 하나의 채널로 구성된 복수의 트랙을 포함하고,
    상기 믹싱 정보는 상기 적어도 하나의 채널에 의해 형성되는 음상(sound image)의 크기 값 및 상기 음상의 각도 값을 더 포함하는 객체기반 오디오 컨텐츠의 생성 방법.
  13. 제10항에 있어서,
    상기 등화 정보는 등화가 적용될 복수의 주파수 대역의 개수, 상기 복수의 주파수 대역 각각의 중심 주파수, 상기 복수의 주파수 대역 각각의 대역폭, 및 상기 복수의 주파수 대역 각각에서의 주파수 이득(gain) 값을 포함하는 객체기반 오디오 컨텐츠의 생성 방법.
  14. 제13항에 있어서,
    상기 볼륨 정보는 상기 복수의 오디오 객체 각각에 대한 입력 볼륨 값과 상기 복수의 오디오 객체 각각에 대한 출력 볼륨 값 간의 볼륨 이득 값을 포함하고,
    상기 볼륨 이득 값 및 상기 주파수 이득 값은 백분율 또는 데시벨(dB)로 표현되는 객체기반 오디오 컨텐츠의 생성 방법.
  15. 제10항에 있어서,
    상기 객체기반 오디오 컨텐츠는 순차적으로 재생되는 복수의 프레임으로 구성되고,
    상기 믹싱 정보는 상기 복수의 프레임의 재생에 따라 변화하는 객체기반 오디오 컨텐츠의 생성 방법.
  16. 제15항에 있어서,
    상기 프리셋 파라미터는 상기 복수의 프레임 중에서 기준 프레임에서의 기준 믹싱 정보, 및 상기 기준 프레임 이외의 프레임에서의 믹싱 정보와 상기 기준 믹싱 정보와의 차를 포함하는 객체기반 오디오 컨텐츠의 생성 방법.
  17. 제15항에 있어서,
    상기 복수의 프레임은 서로 인접한 제1 프레임 그룹 및 제2 프레임 그룹을 포함하는 복수의 프레임 그룹으로 구분되고,
    상기 프리셋 파라미터는
    상기 제1 프레임 그룹에 대한 제1 그룹 믹싱 정보와 상기 제2 프레임 그룹에 대한 제2 그룹 믹싱 정보가 다른 경우, 상기 제1 그룹 믹싱 정보, 상기 제2 그룹 믹싱 정보, 상기 제1 그룹 믹싱 정보와 상기 제2 그룹 믹싱 정보가 다른 것임을 나타내는 제1 플래그(flag) 정보, 및 상기 복수의 프레임 그룹 각각에 포함되는 프레임의 개수를 포함하고,
    상기 제1 그룹 믹싱 정보와 상기 제2 그룹 믹싱 정보가 동일한 경우, 상기 제1 그룹 믹싱 정보, 및 상기 제1 그룹 믹싱 정보와 상기 제2 그룹 믹싱 정보가 동일한 것임을 나타내는 제2 플래그 정보, 및 상기 프레임 개수를 포함하는 객체기반 오디오 컨텐츠의 생성 방법.
  18. 제15항에 있어서,
    상기 프리셋 파라미터는 상기 믹싱 정보가 변화하는 횟수, 상기 믹싱 정보가 변화하는 프레임의 프레임 넘버, 및 상기 믹싱 정보가 변화하는 프레임에서의 믹싱 정보를 포함하는 객체기반 오디오 컨텐츠의 생성 방법.
  19. 제10항에 있어서,
    상기 객체기반 오디오 컨텐츠는 적어도 하나의 채널로 구성된 복수의 트랙을 포함하고,
    상기 프리셋 파라미터는 상기 복수의 트랙의 개수, 상기 복수의 트랙 별 채널 개수, 상기 객체기반 오디오 컨텐츠가 출력되는 적어도 하나의 출력 채널의 개수를 더 포함하고,
    상기 믹싱 정보는 상기 적어도 하나의 출력 채널 별 믹싱 정보로 구성되는 객체기반 오디오 컨텐츠의 생성 방법.
  20. 제1항에 있어서,
    상기 프리셋 파라미터는, 상기 적어도 하나의 프리셋 중에서 어느 하나에 기초하여 믹싱된 오디오 신호의 다운 믹스된 신호인 모노/스테레오 오디오 신호를 더 포함하는 객체기반 오디오 컨텐츠의 생성 방법.
  21. 제2항에 있어서,
    상기 미디어 파일 포맷은 ISO 기반 미디어 파일 포맷(ISO base media file format) 구조인 객체기반 오디오 컨텐츠의 생성 방법.
  22. 객체기반 오디오 컨텐츠를 재생하는 방법에 있어서,
    상기 객체기반 오디오 컨텐츠로부터 복수의 오디오 객체 및 적어도 하나의 프리셋을 추출하는 단계;
    상기 적어도 하나의 프리셋을 상기 복수의 오디오 객체에 적용하여 객체기반 오디오 컨텐츠를 재생하는 단계
    를 포함하고,
    상기 프리셋은, 상기 객체기반 오디오 컨텐츠를 재생할 때 사용자에 의해 편집될 수 있으며,
    상기 프리셋은, 상기 복수의 오디오 객체 전체에 대한 볼륨 정보 또는 상기 복수의 오디오 객체들 각각의 위치 정보와 관련된 프리셋 파라미터를 포함하는 객체기반 오디오 컨텐츠의 재생 방법.
  23. 제22항에 있어서,
    상기 프리셋 파라미터는 상기 객체기반 오디오 컨텐츠에 관한 미디어 파일 포맷에서 정의되는 박스의 형태로 상기 객체기반 오디오 컨텐츠에 저장되고,
    상기 박스는 무브 박스를 포함하고, 상기 무브 박스는 상기 무브 박스 내에 정의된 제1 박스를 포함하고, 상기 제1 박스는 상기 제1 박스 내에 정의된 제2 박스를 포함하고,
    상기 프리셋 파라미터는 제1 프리셋 파라미터 및 제2 프리셋 파라미터를 포함하고, 상기 제1 프리셋 파라미터는 상기 적어도 하나의 프리셋의 개수, 및 상기 적어도 하나의 프리셋 중에서 어느 하나의 프리셋의 프리셋 아이디(ID) 중에서 적어도 하나를 포함하고,
    상기 제1 프리셋 파라미터는 상기 제1 박스에 저장되고, 상기 제2 프리셋 파라미터는 상기 제2 박스에 저장되는 객체기반 오디오 컨텐츠의 재생 방법.
  24. 제22항에 있어서,
    상기 프리셋 파라미터는 상기 복수의 오디오 객체에 대한 믹싱 정보를 포함하고,
    상기 믹싱 정보는 상기 복수의 오디오 객체 각각에 대한 볼륨 정보 및 상기 복수의 오디오 객체 각각에 대한 등화 정보 중에서 적어도 하나를 포함하는 객체기반 오디오 컨텐츠의 재생 방법.
  25. 제24항에 있어서,
    상기 프리셋 파라미터는 상기 복수의 오디오 객체 전체에 대한 볼륨 정보를 더 포함하고,
    상기 재생하는 단계는 상기 복수의 오디오 객체 전체에 대한 볼륨 정보에 기초하여 상기 믹싱된 복수의 오디오 객체의 전체 볼륨을 조절하는 객체기반 오디오 컨텐츠의 재생 방법.
  26. 제24항에 있어서,
    상기 등화 정보는 등화가 적용될 복수의 주파수 대역의 개수, 상기 복수의 주파수 대역 각각의 중심 주파수, 상기 복수의 주파수 대역 각각의 대역폭, 및 상기 복수의 주파수 대역 각각에서의 주파수 이득 값을 포함하는 객체기반 오디오 컨텐츠의 재생 방법.
  27. 제24항에 있어서,
    상기 객체기반 오디오 컨텐츠는 순차적으로 재생되는 복수의 프레임으로 구성되고,
    상기 믹싱 정보는 상기 복수의 프레임의 재생에 따라 변화하는 객체기반 오디오 컨텐츠의 재생 방법.
  28. 제27항에 있어서,
    상기 프리셋 파라미터는 상기 복수의 프레임 중에서 기준 프레임에서의 기준 믹싱 정보, 및 상기 기준 프레임 이외의 프레임에서의 믹싱 정보와 상기 기준 믹싱 정보와의 차를 포함하는 객체기반 오디오 컨텐츠의 재생 방법.
  29. 제27항에 있어서,
    상기 복수의 프레임은 서로 인접한 제1 프레임 그룹 및 제2 프레임 그룹을 포함하는 복수의 프레임 그룹으로 구분되고,
    상기 프리셋 파라미터는
    상기 제1 프레임 그룹에 대한 제1 그룹 믹싱 정보와 상기 제2 프레임 그룹에 대한 제2 그룹 믹싱 정보가 다른 경우, 상기 제1 그룹 믹싱 정보, 상기 제2 그룹 믹싱 정보, 상기 제1 그룹 믹싱 정보와 상기 제2 그룹 믹싱 정보가 다른 것임을 나타내는 제1 플래그 정보, 및 상기 복수의 프레임 그룹 각각에 포함되는 프레임의 개수를 포함하고,
    상기 제1 그룹 믹싱 정보와 상기 제2 그룹 믹싱 정보가 동일한 경우, 상기 제1 그룹 믹싱 정보, 및 상기 제1 그룹 믹싱 정보와 상기 제2 그룹 믹싱 정보가 동일한 것임을 나타내는 제2 플래그 정보, 및 상기 프레임 개수를 포함하는 객체기반 오디오 컨텐츠의 재생 방법.
  30. 제27항에 있어서,
    상기 프리셋 파라미터는 상기 믹싱 정보가 변화하는 횟수, 상기 믹싱 정보가 변화하는 프레임의 프레임 넘버, 및 상기 믹싱 정보가 변화하는 프레임에서의 믹싱 정보를 포함하는 객체기반 오디오 컨텐츠의 재생 방법.
  31. 제24항에 있어서,
    상기 객체기반 오디오 컨텐츠는 적어도 하나의 채널로 구성된 복수의 트랙을 포함하고,
    상기 프리셋 파라미터는 상기 복수의 트랙의 개수, 상기 복수의 트랙 별 채널 개수, 상기 객체기반 오디오 컨텐츠가 출력되는 적어도 하나의 출력 채널의 개수를 더 포함하고,
    상기 믹싱 정보는 상기 적어도 하나의 출력 채널 별 믹싱 정보로 구성되는 객체기반 오디오 컨텐츠의 재생 방법.
  32. 제23항에 있어서,
    상기 미디어 파일 포맷 구조는 ISO 기반 미디어 파일 포맷 구조인 객체기반 오디오 컨텐츠의 재생 방법.
  33. 제1항 내지 제10항, 제12항 내지 제32항 중 어느 한 항의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
KR1020090034992A 2008-04-23 2009-04-22 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체 KR101596504B1 (ko)

Priority Applications (7)

Application Number Priority Date Filing Date Title
KR1020090034992A KR101596504B1 (ko) 2008-04-23 2009-04-22 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체
JP2011506197A JP5514803B2 (ja) 2008-04-23 2009-04-23 オブジェクトベースのオーディオコンテンツの生成/再生方法、およびオブジェクトベースのオーディオサービスのためのファイルフォーマット構造を有するデータを記録したコンピュータ読み出し可能記録媒体
EP09734888.2A EP2279618B1 (en) 2008-04-23 2009-04-23 Method for generating and playing object-based audio contents and computer readable recording medium for recoding data having file format structure for object-based audio service
US12/989,240 US8976983B2 (en) 2008-04-23 2009-04-23 Method for generating and playing object-based audio contents and computer readable recording medium for recoding data having file format structure for object-based audio service
PCT/KR2009/002129 WO2009131391A1 (en) 2008-04-23 2009-04-23 Method for generating and playing object-based audio contents and computer readable recording medium for recoding data having file format structure for object-based audio service
CN2009801237736A CN102067490A (zh) 2008-04-23 2009-04-23 产生和播放基于对象的音频内容的方法和记录具有用于基于对象的音频服务的文件格式结构的数据的计算机可读记录介质
JP2013024889A JP2013137558A (ja) 2008-04-23 2013-02-12 オブジェクトベースのオーディオコンテンツの生成/再生方法、およびオブジェクトベースのオーディオサービスのためのファイルフォーマット構造を有するデータを記録したコンピュータ読み出し可能記録媒体

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
KR1020080037498 2008-04-23
KR20080037498 2008-04-23
KR20080040912 2008-04-30
KR1020080040912 2008-04-30
KR1020080060493 2008-06-25
KR20080060493 2008-06-25
US8109308P 2008-07-16 2008-07-16
US61/081,093 2008-07-16
KR20080114413 2008-11-18
KR1020080114413 2008-11-18
KR1020090034992A KR101596504B1 (ko) 2008-04-23 2009-04-22 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020150105970A Division KR101724326B1 (ko) 2008-04-23 2015-07-27 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체

Publications (2)

Publication Number Publication Date
KR20090112579A KR20090112579A (ko) 2009-10-28
KR101596504B1 true KR101596504B1 (ko) 2016-02-23

Family

ID=41217011

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090034992A KR101596504B1 (ko) 2008-04-23 2009-04-22 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체

Country Status (6)

Country Link
US (1) US8976983B2 (ko)
EP (1) EP2279618B1 (ko)
JP (2) JP5514803B2 (ko)
KR (1) KR101596504B1 (ko)
CN (1) CN102067490A (ko)
WO (1) WO2009131391A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102105059B1 (ko) * 2019-06-27 2020-04-27 (주)에스에스알 보이스 피싱 방지 방법, 보이스 피싱 방지 서버, 이를 위한 컴퓨터 프로그램

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100071314A (ko) * 2008-12-19 2010-06-29 삼성전자주식회사 영상처리장치 및 영상처리장치의 제어 방법
EP2511908A4 (en) * 2009-12-11 2013-07-31 Korea Electronics Telecomm AUDIO CREATING APPARATUS AND AUDIO PLAYING APPARATUS FOR AUDIO BASED OBJECT BASED SERVICE, AND AUDIO CREATING METHOD AND AUDIO PLAYING METHOD USING THE SAME
US8886344B2 (en) * 2010-09-08 2014-11-11 Avid Technology, Inc. Exchange of metadata between a live sound mixing console and a digital audio workstation
WO2012138594A1 (en) 2011-04-08 2012-10-11 Dolby Laboratories Licensing Corporation Automatic configuration of metadata for use in mixing audio programs from two encoded bitstreams
KR101648534B1 (ko) * 2011-04-21 2016-08-16 에스케이플래닛 주식회사 Iso 기반 파일 포맷을 이용한 재생 목록 구성 장치 및 방법
US11360076B2 (en) 2012-03-30 2022-06-14 Weavr Health Corp. Methods and systems to collect a biological sample
EP3748632A1 (en) * 2012-07-09 2020-12-09 Koninklijke Philips N.V. Encoding and decoding of audio signals
KR20140046980A (ko) * 2012-10-11 2014-04-21 한국전자통신연구원 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
US20140114456A1 (en) * 2012-10-22 2014-04-24 Arbitron Inc. Methods and Systems for Clock Correction and/or Synchronization for Audio Media Measurement Systems
CN104903955A (zh) * 2013-01-14 2015-09-09 皇家飞利浦有限公司 具有位置信息的有效传输的多通道编码器和解码器
WO2014151092A1 (en) * 2013-03-15 2014-09-25 Dts, Inc. Automatic multi-channel music mix from multiple audio stems
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
JP6204683B2 (ja) * 2013-04-05 2017-09-27 日本放送協会 音響信号再生装置、音響信号作成装置
US11358138B2 (en) 2013-07-19 2022-06-14 Boston Microfluidics Inc. Fluid sample collection device
US9411882B2 (en) * 2013-07-22 2016-08-09 Dolby Laboratories Licensing Corporation Interactive audio content generation, delivery, playback and sharing
EP2830049A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
AU2015267864A1 (en) * 2014-05-30 2016-12-01 Sony Corporation Information processing device and information processing method
KR102191878B1 (ko) * 2014-07-04 2020-12-16 삼성전자주식회사 멀티미디어 시스템에서 미디어 패킷을 수신하는 방법 및 장치
CN110364190B (zh) 2014-10-03 2021-03-12 杜比国际公司 个性化音频的智能访问
WO2016126715A1 (en) 2015-02-03 2016-08-11 Dolby Laboratories Licensing Corporation Adaptive audio construction
CN106162500B (zh) * 2015-04-08 2020-06-16 杜比实验室特许公司 音频内容的呈现
CN105336348B (zh) * 2015-11-16 2019-03-05 合一网络技术(北京)有限公司 视频编辑中多音频轨道的处理系统及方法
US10659904B2 (en) * 2016-09-23 2020-05-19 Gaudio Lab, Inc. Method and device for processing binaural audio signal
JP6670802B2 (ja) * 2017-07-06 2020-03-25 日本放送協会 音響信号再生装置
RU2020117208A (ru) 2017-10-27 2021-11-29 Бостон Майкрофлюидикс, Инк. Устройство для сбора образцов жидкостей
EP3780628A4 (en) * 2018-03-29 2021-02-17 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS, AND PROGRAM
US11484877B2 (en) 2018-05-29 2022-11-01 Weavr Health Corp. Blood metering device with desiccant and support for storage media and inlay with flange
US11772097B2 (en) 2018-10-19 2023-10-03 Renegadexbio, Pbc Simultaneous spot test and storage of blood samples
WO2020086397A1 (en) 2018-10-23 2020-04-30 Boston Microfluidics, Inc. Funnel with extension tube to augment blood collection device
WO2021065277A1 (ja) * 2019-09-30 2021-04-08 ソニー株式会社 情報処理装置、再生処理装置及び情報処理方法
KR20220150592A (ko) 2021-05-04 2022-11-11 한국전자통신연구원 볼륨 음원의 렌더링 방법 및 장치

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3891143B2 (ja) 2002-06-14 2007-03-14 ヤマハ株式会社 状態設定装置及びプログラム
KR100478934B1 (ko) * 2002-10-22 2005-03-28 한국전자통신연구원 객체기반 엠팩-4 컨텐츠 편집/저작과 검색 장치 및 방법
KR100542129B1 (ko) 2002-10-28 2006-01-11 한국전자통신연구원 객체기반 3차원 오디오 시스템 및 그 제어 방법
EP1427252A1 (en) * 2002-12-02 2004-06-09 Deutsche Thomson-Brandt Gmbh Method and apparatus for processing audio signals from a bitstream
KR100724837B1 (ko) 2003-08-25 2007-06-04 엘지전자 주식회사 오디오 레벨 정보 기록 관리방법과 디지털 오디오기기에서의 오디오 출력 레벨 조절방법
KR100524770B1 (ko) 2003-09-17 2005-10-31 엘지전자 주식회사 주문형 비디오 서비스 장치 및 방법
US7979886B2 (en) * 2003-10-17 2011-07-12 Telefonaktiebolaget Lm Ericsson (Publ) Container format for multimedia presentations
JP3858883B2 (ja) 2003-10-28 2006-12-20 ソニー株式会社 記録装置及びその制御方法
JP2008527583A (ja) 2005-01-04 2008-07-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 再生可能データの処理装置及び方法
JP5107574B2 (ja) * 2005-02-24 2012-12-26 パナソニック株式会社 データ再生装置、データ再生方法、プログラム、および集積回路
KR20050092688A (ko) 2005-08-31 2005-09-22 한국정보통신대학교 산학협력단 통합 멀티미디어 파일 포맷 구조와 이를 기반으로 하는멀티미디어 서비스 제공 시스템 및 그 방법
KR100733965B1 (ko) 2005-11-01 2007-06-29 한국전자통신연구원 객체기반 오디오 전송/수신 시스템 및 그 방법
KR100802179B1 (ko) 2005-12-08 2008-02-12 한국전자통신연구원 프리셋 오디오 장면을 이용한 객체기반 3차원 오디오서비스 시스템 및 그 방법
JP5586950B2 (ja) * 2006-05-19 2014-09-10 韓國電子通信研究院 プリセットオーディオシーンを用いたオブジェクトベースの3次元オーディオサービスシステム及びその方法
JP4694448B2 (ja) * 2006-09-13 2011-06-08 アルパイン株式会社 オーディオ装置
EP2575129A1 (en) * 2006-09-29 2013-04-03 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
US8059853B2 (en) * 2006-11-27 2011-11-15 Sanjeev Kumar Singh Externally providing a device functionality on a hand-held, portable electronic device
JP5270566B2 (ja) 2006-12-07 2013-08-21 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
EP2595152A3 (en) * 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Transkoding apparatus
KR100868475B1 (ko) * 2007-02-16 2008-11-12 한국전자통신연구원 객체기반 오디오 서비스를 위한 다중객체 오디오 콘텐츠파일의 생성, 편집 및 재생 방법과, 오디오 프리셋 생성방법
KR20080082916A (ko) * 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
KR100942142B1 (ko) 2007-10-11 2010-02-16 한국전자통신연구원 객체기반 오디오 콘텐츠 송수신 방법 및 그 장치
KR100999702B1 (ko) 2007-11-07 2010-12-08 한국전자통신연구원 오디오 프리셋 생성 및 소비 방법과 그 장치 및 컴퓨터로 읽을 수 있는 기록매체와 파일 구조

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102105059B1 (ko) * 2019-06-27 2020-04-27 (주)에스에스알 보이스 피싱 방지 방법, 보이스 피싱 방지 서버, 이를 위한 컴퓨터 프로그램

Also Published As

Publication number Publication date
JP5514803B2 (ja) 2014-06-04
KR20090112579A (ko) 2009-10-28
EP2279618B1 (en) 2014-04-16
EP2279618A1 (en) 2011-02-02
JP2011523083A (ja) 2011-08-04
EP2279618A4 (en) 2012-11-21
US20110064249A1 (en) 2011-03-17
WO2009131391A1 (en) 2009-10-29
CN102067490A (zh) 2011-05-18
US8976983B2 (en) 2015-03-10
JP2013137558A (ja) 2013-07-11

Similar Documents

Publication Publication Date Title
KR101596504B1 (ko) 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체
US9135953B2 (en) Method for creating, editing, and reproducing multi-object audio contents files for object-based audio service, and method for creating audio presets
CN101753946A (zh) 一种视频文件和音频文件的合并方法及系统
KR101591166B1 (ko) 프리셋을 이용한 객체기반 오디오 시스템, 객체기반 오디오 제공 방법 및 객체기반 오디오 재생 방법
US20110069934A1 (en) Apparatus and method for providing object based audio file, and apparatus and method for playing back object based audio file
TW200419531A (en) A method of reproducing an audio stream
KR101999351B1 (ko) 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체
KR102149019B1 (ko) 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체
KR20090052780A (ko) 객체기반 오디오 서비스 제공 방법과, 이를 위한 다중객체오디오 콘텐츠 파일의 생성/편집/재생 방법 및 그 파일구조
KR101275555B1 (ko) 멀티 미디어 재생 방법 및 장치와 이를 위한 멀티 미디어파일 포맷
KR101125364B1 (ko) 객체기반 오디오 파일 제공 장치 및 객체기반 오디오 파일 재생 장치, 그리고, 객체기반 오디오 파일 제공 방법 및 객체기반 오디오 재생 방법
García et al. Interactive Music Applications by MPEG-A Support in Sonic Visualizer
Stewart et al. Interactive music applications and standards
KR101212692B1 (ko) 미디어 재생 방법 및 장치와 이를 위한 미디어 파일 포맷
KR20100085555A (ko) 객체 기반 오디오 서비스를 위한 객체 간 재생 관계와 볼륨정보 저장 및 해석 방법, 그리고 장치
Koso et al. Embedding Digital Signatures in MP3s.
CN113395587A (zh) 一种基于故事线与角色信息的数字媒体文件格式定义与实现方法
Jang et al. File Format Design for Interactive Music Service
Van Winkle Considerations on Audio for Flash: Getting to the Vector Soundstage
KR20100084874A (ko) 객체 기반 오디오 서비스를 위한 객체 간 재생 관계와 볼륨정보 저장 및 해석 방법, 그리고 장치

Legal Events

Date Code Title Description
N231 Notification of change of applicant
A201 Request for examination
E902 Notification of reason for refusal
A107 Divisional application of patent
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190125

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20200128

Year of fee payment: 5