WO2014058275A1 - 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법 - Google Patents

오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법 Download PDF

Info

Publication number
WO2014058275A1
WO2014058275A1 PCT/KR2013/009112 KR2013009112W WO2014058275A1 WO 2014058275 A1 WO2014058275 A1 WO 2014058275A1 KR 2013009112 W KR2013009112 W KR 2013009112W WO 2014058275 A1 WO2014058275 A1 WO 2014058275A1
Authority
WO
WIPO (PCT)
Prior art keywords
channel
audio signal
descriptor
information
audio
Prior art date
Application number
PCT/KR2013/009112
Other languages
English (en)
French (fr)
Inventor
유재현
이태진
강경옥
와타나베카오루
오오데사토시
사와야이쿠코
Original Assignee
한국전자통신연구원
닛폰호소쿄카이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020130102544A external-priority patent/KR20140046980A/ko
Application filed by 한국전자통신연구원, 닛폰호소쿄카이 filed Critical 한국전자통신연구원
Priority to JP2015536716A priority Critical patent/JP6407155B2/ja
Priority to US14/434,484 priority patent/US9836269B2/en
Publication of WO2014058275A1 publication Critical patent/WO2014058275A1/ko
Priority to US15/803,464 priority patent/US10282160B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Definitions

  • the description below relates to a method of generating audio data and a method of playing audio data.
  • an audio data reproducing apparatus includes: a descriptor extractor configured to extract a descriptor relating to a multi-channel audio signal from a bitstream generated by the audio data generating apparatus; And a reproduction unit for reproducing the multi-channel audio signal based on the extracted descriptor.
  • the descriptor may include information about an audio signal included in the multi-channel audio signal.
  • the descriptor may include at least one of sound essence descriptors, sound-field configuration descriptors, and sound channel descriptors. Can be.
  • the sound channel descriptor may include at least one of channel label descriptors and channel position descriptors.
  • the channel label descriptor may include information about at least one of an allocation number of an audio signal, a label of an audio channel, and a type of channel component object. It may include.
  • the label of the audio channel may be a horizontal channel label, a vertical channel label, a distance channel label, and an object channel label. label).
  • the type of the channel component object may include a frequency characteristic information of the channel component, a type of channel component directivity, and information about an object having motion. (Moving information) may include information about at least one.
  • the channel position descriptor may include an allocation number of an audio signal, spatial position data, distance position data, and allowable range of spatial position. Information regarding at least one of a tolerance of spatial position, a tolerance of distance position, and a type of a channel component object may be included.
  • the spatial position data may include information regarding at least one of an azimuth angle and an elevation angle indicating a position in a space where an audio signal is reproduced.
  • the spatial position data may include information about moving information of time indicating a position in an audio signal reproduction space.
  • the information about the allowable range of the spatial position includes moving information of a horizontal tolerance, a vertical tolerance and a spatial position tolerance. information of at least one of information of spatial position tolerance).
  • the information about the allowable range of the distance position may include at least one of a tolerance of the distance position and a moving information of distance position tolerance. It may include information about at least one.
  • the type of the channel component object may include at least one of frequency characteristic information of the channel component, and type information of the channel component directivity. .
  • the audio data reproducing apparatus may further include a display unit for displaying the information included in the descriptor on the screen.
  • An apparatus for generating audio data includes a descriptor generator for generating a descriptor for representing a multi-channel audio signal; And a bitstream generator configured to generate the descriptor and the multichannel audio signal as a bitstream.
  • the bitstream generator may generate a bitstream by encoding and multiplexing the descriptor and the multichannel audio signal.
  • the audio data generating apparatus may further include a transmission unit for transmitting the generated bitstream to the audio data reproducing apparatus.
  • a method of reproducing audio data includes extracting a descriptor regarding a multi-channel audio signal from a bitstream generated by an audio data generating apparatus; And reproducing the multi-channel audio signal based on the extracted descriptor, wherein the descriptor may include information about an audio signal included in the multi-channel audio signal.
  • a method of generating audio data includes: generating a descriptor for representing a multi-channel audio signal; And generating the descriptor and the multi-channel audio signal in a bitstream, and the descriptor may include information about an audio signal included in the multi-channel audio signal.
  • FIG. 1 is a diagram for describing an operation of reproducing generated audio data, according to an exemplary embodiment.
  • FIG. 2 is a diagram illustrating a detailed configuration of an audio data generating apparatus according to an embodiment.
  • FIG. 3 is a diagram illustrating a detailed configuration of an audio data reproducing apparatus according to an embodiment.
  • FIG. 4 illustrates an example of generating audio data, according to an exemplary embodiment.
  • FIG. 5 is a diagram for describing an example of reproducing audio data, according to an exemplary embodiment.
  • FIG. 6 is a flowchart illustrating an operation of a method of generating audio data, according to an exemplary embodiment.
  • FIG. 7 is a flowchart illustrating an operation of a method of reproducing audio data according to an embodiment.
  • the audio data generating method according to an embodiment may be performed by the audio data generating apparatus, and the audio data reproducing method may be performed by the audio data reproducing apparatus.
  • the audio data reproducing method may be performed by the audio data reproducing apparatus.
  • Like reference numerals in the drawings denote like elements.
  • FIG. 1 is a diagram for describing an operation of reproducing generated audio data, according to an exemplary embodiment.
  • the audio data generating apparatus 110 may generate audio data including a multi-channel audio signal.
  • the multi channel audio signal may include a channel based audio signal and an object based audio signal.
  • the multi-channel audio signal may represent multi-channel acoustic content such as 10.2 channels or 22.2 channels.
  • the audio data generating apparatus 110 may generate audio data and metadata necessary for reproducing the audio data as a bitstream.
  • the metadata may include a descriptor capable of representing a multi-channel audio signal.
  • the descriptor may include information regarding a reproduction position of an audio signal included in the multichannel audio signal.
  • the descriptor may include information indicating which audio channel is played at which position.
  • the audio data generating apparatus 110 may transmit the generated bitstream to the audio data reproducing apparatus 120.
  • the audio data reproducing apparatus 120 may extract a multi-channel audio signal and metadata from the bitstream.
  • the audio data reproducing apparatus 120 may reproduce the multi-channel audio signal based on the descriptor included in the metadata.
  • the audio data reproducing apparatus 120 may render a multi-channel audio signal based on the reproduction information included in the descriptor.
  • the audio data reproducing apparatus 120 may mix the multichannel audio signals based on the reproduction environment of the audio data reproducing apparatus 120 and reproduce the mixed multichannel audio signals.
  • FIG. 2 is a diagram illustrating a detailed configuration of an audio data generating apparatus 210 according to an embodiment.
  • the audio data generating apparatus 210 may include a descriptor generator 220 and a bitstream generator 230.
  • the audio data generating device 210 may further include a transmitter 240 and a multi-channel audio signal generator 250.
  • the multi channel audio signal generator 250 may generate a multi channel audio signal.
  • the multichannel audio signal generator 250 may generate a multichannel audio signal using a plurality of channel audio signals, an object audio signal, or a channel audio signal and an object audio signal.
  • the descriptor generator 220 may generate a descriptor for representing a multi-channel audio signal.
  • the descriptor may include information regarding a reproduction position of an audio signal included in the multichannel audio signal.
  • the generated descriptor may be stored in the header of the multi-channel audio format signal using metadata or in each header of each audio channel constituting the multi-channel audio signal. Metadata can be classified into several categories by its usability.
  • a basic structure is defined as being applicable to constructing and exchanging multi-channel sound contents. For example, the basic structure descriptor may be used for producing and exchanging multi-channel sound contents (complete mix).
  • Sound Essence describes an expression about a program, an expression (or name) about a sound field, and other related information.
  • Sound-field may be represented by a sound-field configuration having a hierarchical configuration.
  • the sound-field configuration may consist of a plurality of sound channels.
  • the sound channel may be described by a representation by at least one of a channel label and a channel position.
  • the descriptor generator 220 may select a required descriptor according to various scenarios in which multi-channel sound contents are exchanged.
  • the descriptor may include at least one of sound essence descriptors, sound-field configuration descriptors, and sound channel descriptors.
  • the sound essence descriptor may include information about at least one of a program name, a type of sound essence, a name of sound-field configuration, and a loudness value. It may include.
  • the configuration of the sound essence descriptor according to one embodiment may be shown in Table 2 below.
  • the sound field configuration descriptor may describe multichannel arrangement data.
  • the sound field configuration descriptor may include the name of the sound field configuration, the number of audio channels, the multichannel sound arrangement description, and the allocation of audio channels. information regarding at least one of a channel allocation and a down-mixing coefficient.
  • the configuration of the sound field configuration descriptor according to one embodiment may be shown in Table 3 below.
  • the sound channel descriptor may include at least one of channel label descriptors and channel position descriptors.
  • An indicator of a sound channel descriptor may be represented as shown in Table 4 below.
  • Channel label descriptors may describe channel label data.
  • the channel label descriptor may include information regarding at least one of an allocation number of an audio signal, a label of an audio channel, and a type of channel component object.
  • the channel label of the audio channel may include at least one of a horizontal channel label, a vertical channel label, a distance channel label, and an object channel label. Can be.
  • the type of the channel component object may include at least one of frequency characteristic information of the channel component, type of channel component directivity, and moving information about the moving object. .
  • the configuration of the channel label descriptor according to an embodiment may be shown in Table 5 below.
  • the channel position descriptor may describe the channel position data.
  • the channel position descriptor may be used to determine the allocation number of the audio signal, spatial position data, distance position data, tolerance of spatial position, and allowable range of distance position ( Information regarding at least one of a tolerance of distance position and a type of channel component object may be included.
  • the spatial position data may include information regarding at least one of an azimuth angle and an elevation angle indicating a position in a space where an audio signal is reproduced.
  • the distance position data may indicate the distance from the center of the audio reproduction space to the position on the space where the audio signal is reproduced.
  • the spatial position data may include information about moving information of time indicating a position in an audio signal reproduction space.
  • the information on the allowable range of the spatial position may include information about at least one of a horizontal tolerance, a vertical tolerance, and a moving information of spatial position tolerance. It may include.
  • moving information of distance position tolerance of the distance allowance from the center of the audio reproduction space to the position on the space where the audio signal is reproduced and the moving object It may include information regarding at least one of the.
  • the type of the channel component object may include at least one of frequency characteristic information of the channel component and type of channel component directivity.
  • the configuration of the channel position descriptor according to an embodiment may be shown in Table 6 below.
  • the following shows an example of a descriptor configuration for describing a multi-channel audio signal in 22.2 channels.
  • next-generation multi-channel audio signals can be utilized in next-generation A / V systems such as UHDTV in homes or other countries and studios.
  • the bitstream generator 230 may generate a descriptor and a multichannel audio signal as a bitstream.
  • the bitstream generator 230 may generate a bitstream by encoding and multiplexing a descriptor multichannel audio signal.
  • the transmitter 240 may transmit the generated bitstream to the audio data reproducing apparatus.
  • FIG. 3 is a diagram illustrating a detailed configuration of an audio data reproducing apparatus 310 according to an embodiment.
  • the audio data reproducing apparatus 310 may include a descriptor extracting unit 320 and a reproducing unit 330.
  • the audio data reproducing apparatus 310 may further include a display unit 340 and a multi-channel audio signal extractor 350.
  • the multichannel audio signal extractor 350 may extract the multichannel audio signal from the bitstream generated by the audio data generating apparatus.
  • the descriptor extractor 320 may extract a descriptor regarding a multi-channel audio signal from a bitstream generated by the audio data generating apparatus.
  • the descriptor extractor 320 may extract a descriptor from a header of a multi-channel audio format signal or a header of each audio channel constituting the multi-channel audio signal.
  • the descriptor may include information about a reproduction position of the audio signal included in the multichannel audio signal.
  • the descriptor may include at least one of sound essence descriptors, sound-field configuration descriptors, and sound channel descriptors. For a description of the descriptor, reference may be made to the content described with reference to FIG. 2.
  • the playback unit 330 may down-mix the multi-channel audio signal based on the user environment information of the audio data reproducing apparatus 310. For example, the playback unit 330 may downmix the 22.2 channel audio data into the 10.2 channel audio data in order to reproduce the audio data mixed with the 22.2 channel in the audio data reproducing apparatus 310 of the 10.2 channel environment.
  • the user environment information may include a channel environment of the audio reproducing apparatus, loudspeaker arrangement information, and the like.
  • the display unit 340 may display information included in metadata or descriptors on the screen.
  • the display unit 340 may display reproduction position information of the audio signal, identification information of the audio signal being reproduced, and the like.
  • FIG. 4 illustrates an example of generating audio data, according to an exemplary embodiment.
  • the audio data generating apparatus may generate audio data based on a descriptor of a basic structure so that the receiving end receiving the audio data can easily modify, convert, and exchange the audio signal.
  • the audio data generating apparatus may store descriptor information in a header of a multi-channel audio format signal or a header of each audio channel constituting the multi-channel, and then transmit the descriptor information to a receiver.
  • An audio data generating apparatus may include a mixer 420, a coding unit 460, and a multiplexing unit 470.
  • the mixing unit 420 may mix the various audio sources 410 to output the channel-based audio signal 430 and the object-based audio signal 440.
  • the coding unit 460 may code the metadata 450 including the descriptor and the multi-channel audio signal.
  • the multi-channel audio signal may include the object-based audio signal 440 as well as the channel-based audio signal 430.
  • the descriptor may include information representing the configuration of the multi-channel.
  • the multi-channel coding unit 460 may code the audio signal and the descriptor separately or code the multi-channel audio signal and the descriptor together through various methods.
  • the multiplexer 470 may generate a bitstream by multiplexing the coded multi-channel audio signal and the metadata 450.
  • the audio data reproducing apparatus may include a demultiplexing unit 510, a decoding unit 520, a rendering unit 560, and a display unit 580.
  • the demultiplexer 510 may demultiplex the received bitstream.
  • the decoder 520 may decode the demultiplexed bitstream and output the multi-channel audio signal and metadata 550 to the renderer 560.
  • the multi-channel audio signal may include a channel-based audio signal 530 and an object-based audio signal 540.
  • the renderer 560 may reproduce the multi-channel audio signal based on the metadata 550.
  • the rendering unit 560 may reproduce the multi-channel audio signal based on the arrangement information of the loudspeaker or the position information of the object-based audio signal. Arrangement information of the loudspeaker and position information of the object-based audio signal may be input to the audio data reproducing apparatus by the user.
  • the multi-channel audio signal may be reproduced based on the user environment information 570 of the audio data reproducing apparatus.
  • the audio data reproducing apparatus may reproduce the original multi-channel audio signal as it is or down-mix the multi-channel audio signal according to the reproduction environment of the audio data reproducing apparatus.
  • the multi-channel audio signal can be reproduced in accordance with the reproduction environment of the audio data reproducing apparatus.
  • the display unit 580 may display the information described in the descriptor on the screen.
  • the user can check how flexible the speaker layout is compared to the optimal playback position through the Tolerance of Spatial position information of the descriptor, and the name information of individual channels through the channel label information of the descriptor.
  • the user may determine what sound information the object-based audio signal is through the object channel label of the channel label.
  • FIG. 6 is a flowchart illustrating an operation of a method of generating audio data, according to an exemplary embodiment.
  • the audio data generating apparatus may generate a descriptor for representing the multi-channel audio signal.
  • the descriptor may include information about a reproduction position of the audio signal included in the multichannel audio signal.
  • the audio data generating apparatus may store the generated descriptor in the header of the multi-channel audio format signal using metadata or in each header of each audio channel constituting the multi-channel audio signal.
  • the descriptor may include at least one of sound essence descriptors, sound-field configuration descriptors, and sound channel descriptors.
  • FIG. 7 is a flowchart illustrating an operation of a method of reproducing audio data according to an embodiment.
  • the audio data reproducing apparatus may extract a descriptor for representing the multi-channel audio signal from the bitstream generated by the audio data generating apparatus.
  • the audio data reproducing apparatus may extract a descriptor from a header of a multichannel audio format signal or a header of each audio channel constituting the multichannel audio signal.
  • the audio data reproducing apparatus may reproduce the multi-channel audio signal based on the extracted descriptor.
  • the audio data reproducing apparatus can reproduce the multichannel audio signal based on the reproduction information of the multichannel audio signal described in the descriptor.
  • the audio data reproducing apparatus may render each audio signal included in the multi-channel audio signal based on the reproduction position information included in the descriptor.
  • the audio data reproducing apparatus may downmix the multi-channel audio signal according to user environment information such as channel environment, loudspeaker arrangement information, and the like of the audio reproducing apparatus.
  • the audio data reproducing apparatus may display information included in metadata or a descriptor on a screen.
  • the audio data reproducing apparatus may display reproduction position information of the audio signal, identification information of the audio signal being reproduced, and the like.
  • the method according to the embodiment may be embodied in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • the program instructions recorded on the media may be those specially designed and constructed for the purposes of the embodiments, or they may be of the kind well-known and available to those having skill in the computer software arts.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks.
  • Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • the hardware device described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

Abstract

오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법이 개시된다. 일실시예에 따른 오디오 데이터 재생 장치는 오디오 데이터 생성 장치에 의해 생성된 비트스트림으로부터 멀티 채널 오디오 신호에 관한 디스크립터(descriptor)를 추출하고, 상기 추출한 디스크립터에 기초하여 상기 멀티 채널 오디오 신호를 재생할 수 있다. 디스크립터는 상기 멀티 채널 오디오 신호에 포함된 오디오 신호에 관한 정보를 포함할 수 있다.

Description

오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
아래의 설명은 오디오 데이터를 생성하는 방법 및 오디오 데이터를 재생하는 방법에 관한 것이다.
최근, 3DTV나 UHDTV 등과 같은 차세대 TV 시스템 개발과 더불어 오디오 시스템에 대한 다양한 오디오 기술이 개발되고 있다. 이는 ITU-R Recommend BS.775에서 정의한 5.1채널 방식보다 많은 수의 라우드 스피커를 사용하는 멀티 채널 오디오 시스템에 대한 기술이다.
그러나, 최근 발표되는 멀티 채널 오디오 시스템들은 독자적인 방식으로 멀티 채널 오디오 신호를 표현하고 있기 때문에, 특정 오디오 기기를 이용하지 않으면 멀티 채널 오디오 신호를 제대로 재생할 수 없다는 문제점을 가지고 있다.
따라서, 다양한 멀티 채널 오디오 신호를 표현하면서 차세대 오디오 시스템에 적용이 가능한 멀티 채널 오디오 표현법 또는 기술법의 정의가 요구된다.
일실시예에 따른 오디오 데이터 재생 장치는, 오디오 데이터 생성 장치에 의해 생성된 비트스트림으로부터 멀티 채널 오디오 신호에 관한 디스크립터(descriptor)를 추출하는 디스크립터 추출부; 및 상기 추출한 디스크립터에 기초하여 상기 멀티 채널 오디오 신호를 재생하는 재생부를 포함할 수 있다.
일실시예에 따른 오디오 데이터 재생 장치에서, 상기 디스크립터는 상기 멀티 채널 오디오 신호에 포함된 오디오 신호에 관한 정보를 포함할 수 있다.
일실시예에 따른 오디오 데이터 재생 장치에서, 상기 디스크립터는 사운드 에센스 디스크립터(sound essence descriptors), 사운드 필드 구성 디스크립터(sound-field configuration descriptors), 및 사운드 채널 디스크립터(sound channel descriptors) 중 적어도 하나를 포함할 수 있다.
일실시예에 따른 오디오 데이터 재생 장치에서, 상기 사운드 채널 디스크립터는 채널 라벨 디스크립터(channel label descriptors) 및 채널 위치 디스크립터(channel position descriptors) 중 적어도 하나를 포함할 수 있다.
일실시예에 따른 오디오 데이터 재생 장치에서, 상기 채널 라벨 디스크립터는 오디오 신호의 배치 순서(Allocation number), 오디오 채널의 라벨 및 채널 컴포넌트 객체의 타입(type of channel component object) 중 적어도 하나에 관한 정보를 포함할 수 있다.
일실시예에 따른 오디오 데이터 재생 장치에서, 상기 오디오 채널의 라벨은 수평 채널 라벨(horizontal channel label), 수직 채널 라벨(vertical channel label), 거리 채널 라벨(distance channel label) 및 객체 채널 라벨(object channel label) 중 적어도 하나를 포함할 수 있다.
일실시예에 따른 오디오 데이터 재생 장치에서, 상기 채널 컴포넌트 객체의 타입은 채널 컴포넌트의 주파수 특성 정보(Nominal frequency range), 채널 컴포넌트의 방향성 정보(Type of channel component directivity) 및 움직임이 있는 객체에 대한 정보(Moving information) 중 적어도 하나에 관한 정보를 포함할 수 있다.
일실시예에 따른 오디오 데이터 재생 장치에서, 상기 채널 위치 디스크립터는 오디오 신호의 배치 순서(allocation number), 공간 위치 데이터(spatial position data), 거리 위치 데이터(distance position data), 공간 위치의 허용 범위(tolerance of spatial position), 거리 위치의 허용 범위(tolerance of distance position) 및 채널 컴포넌트 객체의 타입 중 적어도 하나에 관한 정보를 포함할 수 있다.
일실시예에 따른 오디오 데이터 재생 장치에서, 상기 공간 위치 데이터는 오디오 신호가 재생되는 공간 상의 위치를 나타내는 방위각(azimuth angle) 및 앙각(elevation angle) 중 적어도 하나에 관한 정보를 포함할 수 있다. 상기 공간 위치 데이터는 오디오 신호 재생 공간에서의 위치를 나타내는 시간의 이동 정보(moving information of time)에 관한 정보를 포함할 수 있다.
일실시예에 따른 오디오 데이터 재생 장치에서, 상기 공간 위치의 허용 범위에 관한 정보는 수평 방향의 허용 범위(horizontal tolerance), 수직 방향의 허용 범위(vertical tolerance) 및 공간적 위치 허용 범위의 이동 정보(moving information of spatial position tolerance) 중 적어도 하나에 관한 정보를 포함할 수 있다.
일실시예에 따른 오디오 데이터 재생 장치에서, 상기 거리 위치의 허용 범위에 관한 정보는 거리 위치 허용 범위(tolerance of the distance position), 및 거리 위치 허용 범위의 이동 정보(moving information of distance position tolerance) 중 적어도 하나에 관한 정보를 포함할 수 있다.
일실시예에 따른 오디오 데이터 재생 장치에서, 상기 채널 컴포넌트 객체의 타입은 채널 컴포넌트의 주파수 특성 정보(Nominal frequency range) 및 채널 컴포넌트의 방향성 정보(Type of channel component directivity) 중 적어도 하나를 포함할 수 있다.
일실시예에 따른 오디오 데이터 재생 장치는, 상기 디스크립터에 포함된 정보를 화면상에 표시하는 표시부를 더 포함할 수 있다.
일실시예에 따른 오디오 데이터 생성 장치는, 멀티 채널 오디오 신호를 표현하기 위한 디스크립터(descriptor)를 생성하는 디스크립터 생성부; 및 상기 디스크립터와 상기 멀티 채널 오디오 신호를 비트스트림으로 생성하는 비트스트림 생성부를 포함할 수 있다.
일실시예에 따른 오디오 데이터 생성 장치에서, 상기 비트스트림 생성부는 상기 디스크립터 및 상기 멀티 채널 오디오 신호를 부호화하고, 멀티플렉싱하여 비트스트림을 생성할 수 있다.
일실시예에 따른 오디오 데이터 생성 장치는, 상기 생성된 비트스트림을 오디오 데이터 재생 장치로 전송하는 전송부를 더 포함할 수 있다.
일실시예에 따른 오디오 데이터 재생 방법은, 오디오 데이터 생성 장치에 의해 생성된 비트스트림으로부터 멀티 채널 오디오 신호에 관한 디스크립터(descriptor)를 추출하는 단계; 및 상기 추출한 디스크립터에 기초하여 상기 멀티 채널 오디오 신호를 재생하는 단계를 포함할 수 있고, 상기 디스크립터는, 상기 멀티 채널 오디오 신호에 포함된 오디오 신호에 관한 정보를 포함할 수 있다.
일실시예에 따른 오디오 데이터 생성 방법은, 멀티 채널 오디오 신호를 표현하기 위한 디스크립터(descriptor)를 생성하는 단계; 및 상기 디스크립터와 상기 멀티 채널 오디오 신호를 비트스트림으로 생성하는 단계를 포함할 수 있고, 상기 디스크립터는, 상기 멀티 채널 오디오 신호에 포함된 오디오 신호에 관한 정보를 포함할 수 있다.
도 1은 일실시예에 따른 생성된 오디오 데이터를 재생하는 동작을 설명하기 위한 도면이다.
도 2는 일실시예에 따른 오디오 데이터 생성 장치의 세부 구성을 도시한 도면이다.
도 3은 일실시예에 따른 오디오 데이터 재생 장치의 세부 구성을 도시한 도면이다.
도 4는 일실시예에 따른 오디오 데이터를 생성하는 일례를 설명하기 위한 도면이다.
도 5는 일실시예에 따른 오디오 데이터를 재생하는 일례를 설명하기 위한 도면이다.
도 6은 일실시예에 따른 오디오 데이터 생성 방법의 동작을 도시한 흐름도이다.
도 7는 일실시예에 따른 오디오 데이터 재생 방법의 동작을 도시한 흐름도이다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 아래의 특정한 구조적 내지 기능적 설명들은 단지 발명의 실시예들을 설명하기 위한 목적으로 예시된 것으로, 발명의 범위가 본문에 설명된 실시예들에 한정되는 것으로 해석되어서는 안된다. 일실시예에 따른 오디오 데이터 생성 방법은 오디오 데이터 생성 장치에 의해 수행될 수 있고, 오디오 데이터 재생 방법은 오디오 데이터 재생 장치에 의해 수행될 수 있다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.
도 1은 일실시예에 따른 생성된 오디오 데이터를 재생하는 동작을 설명하기 위한 도면이다.
도 1을 참조하면, 오디오 데이터 생성 장치(110)는 멀티 채널 오디오 신호를 포함하는 오디오 데이터를 생성할 수 있다. 멀티 채널 오디오 신호는 채널기반 오디오 신호 및 객체기반 오디오 신호를 포함할 수 있다. 예를 들어, 멀티 채널 오디오 신호는 10.2 채널, 22.2 채널 등의 멀티 채널 음향 콘텐츠를 나타낼 수 있다. 오디오 데이터 생성 장치(110)는 오디오 데이터, 오디오 데이터를 재생하는데 필요한 메타데이터(metadata)를 비트스트림으로 생성할 수 있다. 메타데이터는 멀티 채널 오디오 신호를 표현할 수 있는 디스크립터(descriptor)를 포함할 수 있다. 디스크립터는 멀티 채널 오디오 신호에 포함된 오디오 신호의 재생 위치 등에 관한 정보를 포함할 수 있다. 디스크립터는 어떠한 오디오 채널이 어떤 위치에서 재생되는지를 나타내는 정보 등을 포함할 수 있다. 오디오 데이터 생성 장치(110)는 생성된 비트스트림을 오디오 데이터 재생 장치(120)에 전송할 수 있다.
오디오 데이터 재생 장치(120)는 비트스트림으로부터 멀티 채널 오디오 신호 및 메타데이터를 추출할 수 있다. 오디오 데이터 재생 장치(120)는 메타데이터에 포함된 디스크립터에 기초하여 멀티 채널 오디오 신호를 재생할 수 있다. 예를 들어, 오디오 데이터 재생 장치(120)는 디스크립터에 포함된 재생 정보에 기초하여 멀티 채널 오디오 신호를 렌더링(rendering)할 수 있다. 오디오 데이터 재생 장치(120)는 오디오 데이터 재생 장치(120)의 재생 환경에 기초하여 멀티 채널 오디오 신호를 믹싱하고, 믹싱된 멀티 채널 오디오 신호를 재생할 수 있다.
도 2는 일실시예에 따른 오디오 데이터 생성 장치(210)의 세부 구성을 도시한 도면이다.
도 2를 참조하면, 오디오 데이터 생성 장치(210)는 디스크립터 생성부(220) 및 비트스트림 생성부(230)를 포함할 수 있다. 오디오 데이터 생성 장치(210)는 전송부(240) 및 멀티 채널 오디오 신호 생성부(250)를 더 포함할 수도 있다.
멀티 채널 오디오 신호 생성부(250)는 멀티 채널 오디오 신호를 생성할 수 있다. 예를 들어, 멀티채널 오디오 신호 생성부(250)는 복수 개의 채널 오디오 신호, 객체 오디오 신호, 또는 채널 오디오 신호 및 객체 오디오 신호를 이용하여 멀티 채널 오디오 신호를 생성할 수 있다.
디스크립터 생성부(220)는 멀티 채널 오디오 신호를 표현하기 위한 디스크립터를 생성할 수 있다. 디스크립터는 멀티 채널 오디오 신호에 포함된 오디오 신호의 재생 위치에 관한 정보 등을 포함할 수 있다. 생성된 디스크립터는 메타데이터를 이용하여 멀티 채널 오디오 포맷 신호의 헤더에 저장되거나 또는 멀티 채널 오디오 신호를 구성하는 각각의 오디오 채널의 각 헤더에 저장될 수 있다. 메타데이터는 활용성에 의해 몇 가지로 구분할 수 있는데, 멀티 채널 음향 콘텐츠를 구성, 교환하는 데에 적용될 수 있는 것을 basic structure라 정의한다. 예를 들어, basic structure descriptor는 멀티 채널 음향 콘텐츠(complete mix)의 제작, 교환에 이용될 수 있다.
이하, 일실시예에 따른 디스크립터의 basic structure를 설명하도록 한다
디스크립터에서 사용되는 용어들은 다음의 표 1과 같이 정의할 수 있다.
Figure PCTKR2013009112-appb-I000001
사운드 에센스(Sound Essence)는 프로그램에 관한 표현, 음장(Sound-field)에 관한 표현(또는, 명칭), 그 외 관련되는 정보를 기술한다. Sound-field는 계층적인 구성을 가지는 Sound-field configuration에 의해 표현될 수 있다. Sound-field configuration은 복수 개의 Sound Channel들로 구성될 수 있다. Sound channel은 채널 라벨(Channel label) 및 채널 위치(Channel position) 중 적어도 하나에 의한 표현으로 기술될 수 있다. 디스크립터 생성부(220)는 멀티 채널 음향 콘텐츠가 교환되는 다양한 시나리오에 따라 필요한 디스크립터를 선택할 수 있다.
디스크립터는 사운드 에센스 디스크립터(sound essence descriptors), 사운드 필드 구성 디스크립터(sound-field configuration descriptors), 및 사운드 채널 디스크립터(sound channel descriptors) 중 적어도 하나를 포함할 수 있다.
사운드 에센스 디스크립터는 프로그램 이름(program name), 사운드 에센스의 타입(type of sound essence), 사운드 필드 구성의 이름(name of sound-field configuration), 및 소리 크기 값(loudness value) 중 적어도 하나에 관한 정보를 포함할 수 있다.
일실시예에 따른 사운드 에센스 디스크립터의 구성은 다음의 표 2와 같이 나타낼 수 있다.
Figure PCTKR2013009112-appb-I000002
사운드 필드 구성 디스크립터는 멀티 채널 배열 데이터(multichannel arrangement data)를 기술할 수 있다. 사운드 필드 구성 디스크립터는 사운드 필드 구성의 이름(name of sound-field configuration), 오디오 채널의 개수(the number of audio channels), 멀티 채널 오디오 신호의 배열(multichannel sound arrangement description), 오디오 채널의 할당(list of channel allocation), 다운믹싱 계수(down-mixing coefficient) 중 적어도 하나에 관한 정보를 포함할 수 있다.
일실시예에 따른 사운드 필드 구성 디스크립터의 구성은 다음의 표 3와 같이 나타낼 수 있다.
Figure PCTKR2013009112-appb-I000003
사운드 채널 디스크립터는 채널 라벨 디스크립터(channel label descriptors) 및 채널 위치 디스크립터(channel position descriptors) 중 적어도 하나를 포함할 수 있다.
일실시예에 따른 사운드 채널 디스크립터의 지시자(indicator)는 다음의 표 4와 같이 나타낼 수 있다.
Figure PCTKR2013009112-appb-I000004
채널 라벨 디스크립터는 채널 라벨 데이터를 기술할 수 있다. 채널 라벨 디스크립터는 오디오 신호의 배치 순서(allocation number), 오디오 채널의 라벨(channel label) 및 채널 컴포넌트 객체의 타입(type of channel component object) 중 적어도 하나에 관한 정보를 포함할 수 있다.
오디오 채널의 라벨(Channel label)은 수평 채널 라벨(horizontal channel label), 수직 채널 라벨(vertical channel label), 거리 채널 라벨(distance channel label) 및 객체 채널 라벨(object channel label) 중 적어도 하나를 포함할 수 있다.
채널 컴포넌트 객체의 타입은 채널 컴포넌트의 주파수 특성 정보(Nominal frequency range), 채널 컴포넌트의 방향성 정보(Type of channel component directivity) 및 움직임이 있는 객체에 대한 정보(Moving information) 중 적어도 하나를 포함할 수 있다.
일실시예에 따른 채널 라벨 디스크립터의 구성은 다음의 표 5와 같이 나타낼 수 있다.
Figure PCTKR2013009112-appb-I000005
Figure PCTKR2013009112-appb-I000006
채널 위치 디스크립터는 채널 위치 데이터를 기술할 수 있다. 채널 위치 디스크립터는 오디오 신호의 배치 순서(allocation number), 공간 위치 데이터(spatial position data), 거리 위치 데이터(distance position data), 공간 위치의 허용 범위(tolerance of spatial position), 거리 위치의 허용 범위(tolerance of distance position) 및 채널 컴포넌트 객체의 타입(type of channel component object) 중 적어도 하나에 관한 정보를 포함할 수 있다.
공간 위치 데이터는 오디오 신호가 재생되는 공간 상의 위치를 나타내는 방위각(azimuth angle) 및 앙각(elevation angle) 중 적어도 하나에 관한 정보를 포함할 수 있다.
거리 위치 데이터는 오디오 재생 공간의 중심으로부터 오디오 신호가 재생되는 공간 상의 위치까지의 거리를 나타낼 수 있다. 공간 위치 데이터는 오디오 신호 재생 공간에서의 위치를 나타내는 시간의 이동 정보(moving information of time)에 관한 정보를 포함할 수 있다.
공간 위치의 허용 범위에 관한 정보는 수평 방향의 허용 범위(horizontal tolerance), 수직 방향의 허용 범위(vertical tolerance) 및 공간적 위치 허용 범위의 이동 정보(moving information of spatial position tolerance) 중 적어도 하나에 관한 정보를 포함할 수 있다.
거리 위치의 허용 범위에 관한 정보는 오디오 재생 공간의 중심으로부터 오디오 신호가 재생되는 공간 상의 위치까지의 거리 허용 범위 및 움직임이 있는 객체에 대한 거리 위치 허용 범위의 이동 정보(moving information of distance position tolerance) 중 적어도 하나에 관한 정보를 포함할 수 있다.
채널 컴포넌트 객체의 타입은 채널 컴포넌트의 주파수 특성 정보(Nominal frequency range) 및 채널 컴포넌트의 방향성 정보(Type of channel component directivity) 중 적어도 하나를 포함할 수 있다.
일실시예에 따른 채널 위치 디스크립터의 구성은 다음의 표 6와 같이 나타낼 수 있다.
Figure PCTKR2013009112-appb-I000007
다음은, 22.2 채널에서 멀티 채널 오디오 신호를 기술하기 위한 디스크립터 구성의 일례를 나타낸다.
<제1 실시예>
(A) Sound Essence descriptors
Figure PCTKR2013009112-appb-I000008
(B) Sound-field configuration descriptors
Figure PCTKR2013009112-appb-I000009
(C) Sound Channel descriptors
Figure PCTKR2013009112-appb-I000010
Figure PCTKR2013009112-appb-I000011
Figure PCTKR2013009112-appb-I000012
<제2 실시예>
(A) Sound Essence descriptors
Figure PCTKR2013009112-appb-I000013
(B) Sound-field configuration descriptors
Figure PCTKR2013009112-appb-I000014
(C) Sound Channel descriptors
Figure PCTKR2013009112-appb-I000015
Figure PCTKR2013009112-appb-I000016
Figure PCTKR2013009112-appb-I000017
Figure PCTKR2013009112-appb-I000018
위와 같은 디스크립터 기술 방법을 통해 차세대 멀티 채널 오디오 신호를 일반 가정이나 다른 국가, 스튜디오에서 UHDTV 등과 같은 차세대 A/V 시스템에서 활용할 수 있다.
비트스트림 생성부(230)는 디스크립터와 멀티 채널 오디오 신호를 비트스트림으로 생성할 수 있다. 비트스트림 생성부(230)는 디스크립터 멀티 채널 오디오 신호를 부호화하고, 멀티플렉싱하여 비트스트림을 생성할 수 있다.
전송부(240)는 생성된 비트스트림을 오디오 데이터 재생 장치로 전송할 수 있다.
도 3은 일실시예에 따른 오디오 데이터 재생 장치(310)의 세부 구성을 도시한 도면이다.
도 3을 참조하면, 오디오 데이터 재생 장치(310)는 디스크립터 추출부(320) 및 재생부(330)를 포함할 수 있다. 오디오 데이터 재생 장치(310)는 표시부(340) 및 멀티 채널 오디오 신호 추출부(350)를 더 포함할 수도 있다.
멀티채널 오디오 신호 추출부(350)는 오디오 데이터 생성 장치에 의해 생성된 비트스트림으로부터 멀티 채널 오디오 신호를 추출할 수 있다.
디스크립터 추출부(320)는 오디오 데이터 생성 장치에 의해 생성된 비트스트림으로부터 멀티 채널 오디오 신호에 관한 디스크립터를 추출할 수 있다. 디스크립터 추출부(320)는 멀티 채널 오디오 포맷 신호의 헤더 또는 멀티 채널 오디오 신호를 구성하는 각각의 오디오 채널의 헤더에서 디스크립터를 추출할 수 있다. 디스크립터는 멀티 채널 오디오 신호에 포함된 오디오 신호의 재생 위치에 관한 정보를 포함할 수 있다. 디스크립터는 사운드 에센스 디스크립터(sound essence descriptors), 사운드 필드 구성 디스크립터(sound-field configuration descriptors), 및 사운드 채널 디스크립터(sound channel descriptors) 중 적어도 하나를 포함할 수 있다. 디스크립터에 관한 내용은 도 2와 관련하여 기재된 내용을 참고할 수 있다.
재생부(330)는 추출한 디스크립터에 기초하여 멀티 채널 오디오 신호를 재생할 수 있다. 재생부(330)는 디스크립터에 기술된 멀티 채널 오디오 신호의 재생 정보에 기초하여 멀티 채널 오디오 신호를 재생할 수 있다. 재생부(330)는 디스크립터에 포함된 재생 위치 정보에 기초하여 멀티 채널 오디오 신호에 포함된 각각의 오디오 신호를 렌더링할 수 있다.
재생부(330)는 오디오 데이터 재생 장치(310)의 사용자 환경 정보에 기초하여 멀티 채널 오디오 신호를 다운믹싱(down-mixing)할 수 있다. 예를 들어, 재생부(330)는 22.2 채널로 믹싱된 오디오 데이터를 10.2 채널 환경의 오디오 데이터 재생 장치(310)에서 재생하기 위해 22.2 채널의 오디오 데이터를 10.2 채널의 오디오 데이터로 다운믹싱할 수 있다. 사용자 환경 정보는 오디오 재생 장치의 채널 환경, 라우드스피커 배치 정보 등을 포함할 수 있다.
표시부(340)는 메타데이터 또는 디스크립터에 포함된 정보를 화면상에 표시할 수 있다. 예를 들어, 표시부(340)는 오디오 신호의 재생 위치 정보, 재생되고 있는 오디오 신호의 식별 정보 등을 표시할 수 있다.
도 4는 일실시예에 따른 오디오 데이터를 생성하는 일례를 설명하기 위한 도면이다.
오디오 데이터 생성 장치는 오디오 데이터를 수신하는 수신단에서 오디오 신호의 수정, 변환, 교환 등을 용이하게 수행할 수 있도록 basic structure의 디스크립터에 기초하여 오디오 데이터를 생성할 수 있다. 오디오 데이터 생성 장치는 디스크립터 정보를 멀티 채널 오디오 포맷 신호의 헤더 또는 멀티 채널을 구성하는 각각의 오디오 채널의 헤더에 저장시킨 뒤, 수신단에 전송할 수 있다.
일실시예에 따른 오디오 데이터 생성 장치는 믹싱부(420), 코딩부(460) 및 멀티플렉싱부(470)를 포함할 수 있다. 믹싱부(420)는 여러 오디오 소스들(audio sources)(410)을 믹싱(mixing)하여 채널기반 오디오 신호(430), 객체기반 오디오 신호(440)를 출력할 수 있다. 코딩부(460)는 디스크립터를 포함하는 메타데이터(450) 및 멀티 채널 오디오 신호를 코딩할 수 있다. 멀티 채널 오디오 신호는 채널기반 오디오 신호(430)뿐만 아니라 객체기반 오디오 신호(440)를 포함할 수 있다. 디스크립터는 멀티 채널의 구성을 표현하는 정보를 포함할 수 있다. 멀티 채널 코딩부(460)는 다양한 방식을 통해 오디오 신호와 디스크립터를 별도로 코딩하거나 또는 멀티 채널 오디오 신호와 디스크립터를 함께 코딩할 수 있다. 멀티플렉싱부(470)는 코딩된 멀티 채널 오디오 신호와 메타데이터(450)를 다중화하여 비트스트림을 생성할 수 있다.
도 5는 일실시예에 따른 오디오 데이터를 재생하는 일례를 설명하기 위한 도면이다.
오디오 데이터 재생 장치는 디멀티플렉싱(demultiplexing)부(510), 디코딩부(520), 렌더링부(560), 표시부(580)를 포함할 수 있다.
디멀티플렉싱부(510)는 수신한 비트스트림을 역다중화(demuxing)할 수 있다. 디코딩부(520)는 역다중화된 비트스트림을 디코딩하여 멀티 채널 오디오 신호와 메타데이터(550)를 렌더링부(560)에 출력할 수 있다. 멀티 채널 오디오 신호는 채널기반 오디오 신호(530), 객체기반 오디오 신호(540)를 포함할 수 있다. 렌더링부(560)는 메타데이터(550)에 기초하여 멀티 채널 오디오 신호를 재생할 수 있다. 렌더링부(560)는 라우드스피커의 배치 정보 또는 객체기반 오디오 신호의 위치 정보 등에 기초하여 멀티 채널 오디오 신호를 재생할 수 있다. 라우드스피커의 배치 정보, 객체기반 오디오 신호의 위치 정보는 사용자에 의해 오디오 데이터 재생 장치에 입력될 수 있다.
오디오 데이터 재생 장치의 사용자 환경 정보(570)에 기초하여 멀티 채널 오디오 신호를 재생할 수 있다. 오디오 데이터 재생 장치는 오디오 데이터 재생 장치의 재생 환경에 따라 원래의 멀티 채널 오디오 신호를 그대로 재생하거나 또는 멀티 채널 오디오 신호를 다운믹싱(down-mixing)할 수 있다. 멀티 채널 오디오 신호는 오디오 데이터 재생 장치의 재생 환경에 맞추어 재생될 수 있다.
오디오 데이터 재생 장치가 초기의 믹싱(mixing) 단계에서 22.2 채널로 제작된 신호가 재생 환경인 10.2 채널 구조에 맞추어 다운믹싱을 수행하는 방법의 일례는 아래의 표 7과 같이 나타낼 수 있다. Down-mixing coefficient descriptor는 이외에도 다양한 멀티채널 간의 변환을 기술할 수 있다.
Figure PCTKR2013009112-appb-I000019
Figure PCTKR2013009112-appb-I000020
렌더링부(560)는 멀티 채널 오디오 신호를 구성하는 오디오 신호들은 디스크립터의 Channel position data에 정의된 대로, allocation number에 따라 채널 순서대로 Spatial position data에 제시된 Azimuth angle과 Elevation angle 정보에 기초하여 재생될 수 있다. 렌더링부(560)는 Type of channel component object의 Moving Information(또는, Tolerance of Spatial position 의 Moving Information of time 이나 Moving Information of position)에 기술되어 있는 시간의 이동 정보(moving information of time)에 기초하여 객체기반 오디오 신호를 재생할 수 있다. 일례에 따르면, 사용자는 임의로 객체기반 오디오 신호가 렌더링되는 공간상의 위치를 제어할 수 있다.
표시부(580)는 디스크립터에 기술된 정보를 화면상에 디스플레이할 수 있다. 사용자는 디스크립터의 Tolerance of Spatial position 정보를 통해 최적의 재생 위치에 비해 본인의 스피커 배치 등의 환경이 얼마나 유동적인지를 확인할 수 있고, 디스크립터의 Channel label 정보를 통해 개별 채널들의 이름 정보를 확인할 수도 있다. 멀티 채널 오디오 신호에 객체기반 오디오 신호가 포함되어 있는 경우, 사용자는 Channel label의 Object Channel label을 통해 해당 객체기반 오디오 신호가 어떤 소리의 정보인지를 확인할 수 있다.
도 6은 일실시예에 따른 오디오 데이터 생성 방법의 동작을 도시한 흐름도이다.
단계(610)에서, 오디오 데이터 생성 장치는 멀티 채널 오디오 신호를 표현하기 위한 디스크립터를 생성할 수 있다. 디스크립터는 멀티 채널 오디오 신호에 포함된 오디오 신호의 재생 위치에 관한 정보를 포함할 수 있다. 오디오 데이터 생성 장치는 생성된 디스크립터를 메타데이터를 이용하여 멀티 채널 오디오 포맷 신호의 헤더에 저장하거나 또는 멀티 채널 오디오 신호를 구성하는 각각의 오디오 채널의 각 헤더에 저장할 수 있다. 디스크립터는 사운드 에센스 디스크립터(sound essence descriptors), 사운드 필드 구성 디스크립터(sound-field configuration descriptors), 및 사운드 채널 디스크립터(sound channel descriptors) 중 적어도 하나를 포함할 수 있다.
단계(620)에서, 오디오 데이터 생성 장치는 디스크립터와 멀티 채널 오디오 신호를 비트스트림으로 생성할 수 있다. 오디오 데이터 생성 장치는 디스크립터 멀티 채널 오디오 신호를 부호화하고, 멀티플렉싱하여 비트스트림을 생성할 수 있다.
단계(630)에서, 오디오 데이터 생성 장치는 생성된 비트스트림을 오디오 데이터 재생 장치로 전송할 수 있다.
도 7는 일실시예에 따른 오디오 데이터 재생 방법의 동작을 도시한 흐름도이다.
단계(710)에서, 오디오 데이터 재생 장치는 오디오 데이터 생성 장치에 의해 생성된 비트스트림으로부터 멀티 채널 오디오 신호를 표현하기 위한 디스크립터를 추출할 수 있다. 오디오 데이터 재생 장치는 멀티 채널 오디오 포맷 신호의 헤더 또는 멀티 채널 오디오 신호를 구성하는 각각의 오디오 채널의 헤더에서 디스크립터를 추출할 수 있다.
단계(720)에서, 오디오 데이터 재생 장치는 추출한 디스크립터에 기초하여 멀티 채널 오디오 신호를 재생할 수 있다. 오디오 데이터 재생 장치는 디스크립터에 기술된 멀티 채널 오디오 신호의 재생 정보에 기초하여 멀티 채널 오디오 신호를 재생할 수 있다. 오디오 데이터 재생 장치는 디스크립터에 포함된 재생 위치 정보에 기초하여 멀티 채널 오디오 신호에 포함된 각각의 오디오 신호를 렌더링할 수 있다. 오디오 데이터 재생 장치는 오디오 재생 장치의 채널 환경, 라우드스피커 배치 정보 등과 같은 사용자 환경 정보에 따라 멀티 채널 오디오 신호를 다운믹싱할 수 있다.
일실시예에 따르면, 오디오 데이터 재생 장치는 메타데이터 또는 디스크립터에 포함된 정보를 화면상에 표시할 수 있다. 오디오 데이터 재생 장치는 오디오 신호의 재생 위치 정보, 재생되고 있는 오디오 신호의 식별 정보 등을 표시할 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (20)

  1. 오디오 데이터 생성 장치에 의해 생성된 비트스트림으로부터 멀티 채널 오디오 신호에 관한 디스크립터(descriptor)를 추출하는 디스크립터 추출부; 및
    상기 추출한 디스크립터에 기초하여 상기 멀티 채널 오디오 신호를 재생하는 재생부를 포함하고,
    상기 디스크립터는, 상기 멀티 채널 오디오 신호에 포함된 오디오 신호에 관한 정보를 포함하는 것을 특징으로 하는 오디오 데이터 재생 장치.
  2. 제1항에 있어서,
    상기 디스크립터는,
    사운드 에센스 디스크립터(sound essence descriptors), 사운드 필드 구성 디스크립터(sound-field configuration descriptors), 및 사운드 채널 디스크립터(sound channel descriptors) 중 적어도 하나를 포함하는 것을 특징으로 하는 오디오 데이터 재생 장치.
  3. 제2항에 있어서,
    상기 사운드 채널 디스크립터는,
    채널 라벨 디스크립터(channel label descriptors) 및 채널 위치 디스크립터(channel position descriptors) 중 적어도 하나를 포함하는 것을 특징으로 하는 오디오 데이터 재생 장치.
  4. 제3항에 있어서,
    상기 채널 라벨 디스크립터는,
    오디오 신호의 배치 순서(allocation number), 오디오 채널의 라벨(channel label) 및 채널 컴포넌트 객체의 타입(type of channel component object) 중 적어도 하나에 관한 정보를 포함하는 것을 특징으로 하는 오디오 데이터 재생 장치.
  5. 제4항에 있어서,
    상기 오디오 채널의 라벨은,
    수평 채널 라벨(horizontal channel label), 수직 채널 라벨(vertical channel label), 거리 채널 라벨(distance channel label) 및 객체 채널 라벨(object channel label) 중 적어도 하나를 포함하고,
    상기 채널 컴포넌트 객체의 타입은,
    채널 컴포넌트의 주파수 특성 정보(Nominal frequency range), 채널 컴포넌트의 방향성 정보(Type of channel component directivity) 및 움직임이 있는 객체에 대한 정보(Moving information) 중 적어도 하나를 포함하는 것을 특징으로 하는 오디오 데이터 재생 장치.
  6. 제3항에 있어서,
    상기 채널 위치 디스크립터는,
    오디오 신호의 배치 순서(allocation number), 공간 위치 데이터(spatial position data), 거리 위치 데이터(distance position data), 공간 위치의 허용 범위(tolerance of spatial position), 거리 위치의 허용 범위(tolerance of distance position) 및 채널 컴포넌트 객체의 타입(type of channel component object) 중 적어도 하나에 관한 정보를 포함하는 것을 특징으로 하는 오디오 데이터 재생 장치.
  7. 제6항에 있어서,
    상기 공간 위치 데이터는,
    오디오 신호가 재생되는 공간 상의 위치를 나타내는 방위각(azimuth angle), 앙각(elevation angle), 및 오디오 신호 재생 공간에서의 위치를 나타내는 시간의 이동 정보(moving information of time) 중 적어도 하나에 관한 정보를 포함하고,
    상기 거리 위치 데이터는,
    오디오 재생 공간의 중심으로부터 오디오 신호가 재생되는 공간 상의 위치까지의 거리를 나타내는 것을 특징으로 하는 오디오 데이터 재생 장치.
  8. 제6항에 있어서,
    상기 공간 위치의 허용 범위에 관한 정보는,
    수평 방향의 허용 범위(horizontal tolerance), 수직 방향의 허용 범위(vertical tolerance) 및 공간적 위치 허용 범위의 이동 정보(moving information of spatial position tolerance) 중 적어도 하나에 관한 정보를 포함하고,
    상기 거리 위치의 허용 범위에 관한 정보는,
    오디오 재생 공간의 중심으로부터 오디오 신호가 재생되는 공간 상의 위치까지의 거리 위치의 허용 범위 및 거리 위치 허용 범위의 이동 정보(moving information of distance position tolerance) 중 적어도 하나에 관한 정보를 포함하는 것을 특징으로 하는 오디오 데이터 재생 장치.
  9. 제6항에 있어서,
    상기 채널 컴포넌트 객체의 타입은,
    채널 컴포넌트의 주파수 특성 정보(Nominal frequency range) 및 채널 컴포넌트의 방향성 정보(Type of channel component directivity) 중 적어도 하나를 포함하는 것을 특징으로 하는 오디오 데이터 재생 장치.
  10. 제2항에 있어서,
    상기 사운드 에센스 디스크립터는,
    프로그램 이름(program name), 사운드 에센스의 타입(type of sound essence), 사운드 필드 구성의 이름(name of sound-field configuration), 및 소리 크기 값(loudness value) 중 적어도 하나에 관한 정보를 포함하는 것을 특징으로 하는 오디오 데이터 재생 장치.
  11. 제2항에 있어서,
    상기 사운드 필드 구성 디스크립터는,
    사운드 필드 구성의 이름(name of sound-field configuration), 오디오 채널의 개수(the number of audio channels), 멀티 채널 오디오 신호의 배열(multichannel sound arrangement description), 오디오 채널의 할당(list of channel allocation), 다운믹싱 계수(down-mixing coefficient) 중 적어도 하나에 관한 정보를 포함하는 것을 특징으로 하는 오디오 데이터 재생 장치.
  12. 제1항에 있어서,
    상기 디스크립터 추출부는,
    상기 멀티 채널 오디오 포맷 신호의 헤더(header) 또는 상기 멀티 채널 오디오 신호를 구성하는 각각의 오디오 채널의 헤더에서 디스크립터를 추출하는 것을 특징으로 하는 오디오 데이터 재생 장치.
  13. 제1항에 있어서,
    상기 디스크립터에 포함된 정보를 화면상에 표시하는 표시부
    를 더 포함하는 것을 특징으로 하는 오디오 데이터 재생 장치.
  14. 멀티 채널 오디오 신호를 표현하기 위한 디스크립터(descriptor)를 생성하는 디스크립터 생성부; 및
    상기 디스크립터와 상기 멀티 채널 오디오 신호를 비트스트림으로 생성하는 비트스트림 생성부를 포함하고,
    상기 디스크립터는, 상기 멀티 채널 오디오 신호에 포함된 오디오 신호에 관한 정보를 포함하는 것을 특징으로 하는 오디오 데이터 생성 장치.
  15. 제14항에 있어서,
    상기 디스크립터는,
    사운드 에센스 디스크립터(sound essence descriptors), 사운드 필드 구성 디스크립터(sound-field configuration descriptors), 및 사운드 채널 디스크립터(sound channel descriptors) 중 적어도 하나를 포함하는 것을 특징으로 하는 오디오 데이터 생성 장치.
  16. 제14항에 있어서,
    상기 디스크립터는,
    공간 위치 데이터(spatial position data), 거리 위치 데이터(distance position data), 공간 위치의 허용 범위(tolerance of spatial position), 거리 위치의 허용 범위(tolerance of distance position) 및 채널 컴포넌트 객체의 타입(type of channel component object) 중 적어도 하나에 관한 정보를 포함하는 것을 특징으로 하는 오디오 데이터 생성 장치.
  17. 제16항에 있어서,
    상기 공간 위치 데이터는,
    오디오 신호가 재생되는 공간 상의 위치를 나타내는 방위각(azimuth angle), 앙각(elevation angle), 및 오디오 신호 재생 공간에서의 위치를 나타내는 시간의 이동 정보(moving information of time) 중 적어도 하나에 관한 정보를 포함하고,
    상기 거리 위치 데이터는,
    오디오 재생 공간의 중심으로부터 오디오 신호가 재생되는 공간 상의 위치까지의 거리를 나타내는 것을 특징으로 하는 오디오 데이터 생성 장치.
  18. 제16항에 있어서,
    상기 공간 위치의 허용 범위에 관한 정보는,
    수평 방향의 허용 범위(horizontal tolerance), 수직 방향의 허용 범위(vertical tolerance) 및 공간적 위치 허용 범위의 이동 정보(moving information of spatial position tolerance) 중 적어도 하나에 관한 정보를 포함하고,
    상기 거리 위치의 허용 범위에 관한 정보는,
    오디오 재생 공간의 중심으로부터 오디오 신호가 재생되는 공간 상의 위치까지의 거리 위치 허용 범위 및 거리 위치 허용 범위의 이동 정보(moving information of distance position tolerance) 중 적어도 하나에 관한 정보를 포함하는 것을 특징으로 하는 오디오 데이터 생성 장치.
  19. 오디오 데이터 생성 장치에 의해 생성된 비트스트림으로부터 멀티 채널 오디오 신호를 표현하기 위한 디스크립터(descriptor)를 추출하는 단계; 및
    상기 추출한 디스크립터에 기초하여 상기 멀티 채널 오디오 신호를 재생하는 단계를 포함하고,
    상기 디스크립터는, 상기 멀티 채널 오디오 신호에 포함된 오디오 신호에 관한 정보를 포함하는 것을 특징으로 하는 오디오 데이터 재생 방법.
  20. 멀티 채널 오디오 신호를 표현하기 위한 디스크립터(descriptor)를 생성하는 단계; 및
    상기 디스크립터와 상기 멀티 채널 오디오 신호를 비트스트림으로 생성하는 단계를 포함하고,
    상기 디스크립터는, 상기 멀티 채널 오디오 신호에 포함된 오디오 신호에 관한 정보를 포함하는 것을 특징으로 하는 오디오 데이터 생성 방법.
PCT/KR2013/009112 2012-10-11 2013-10-11 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법 WO2014058275A1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2015536716A JP6407155B2 (ja) 2012-10-11 2013-10-11 オーディオデータ生成装置及びオーディオデータ再生装置
US14/434,484 US9836269B2 (en) 2012-10-11 2013-10-11 Device and method for generating audio data, and device and method for playing audio data
US15/803,464 US10282160B2 (en) 2012-10-11 2017-11-03 Apparatus and method for generating audio data, and apparatus and method for playing audio data

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR10-2012-0112984 2012-10-11
KR20120112984 2012-10-11
KR1020130102544A KR20140046980A (ko) 2012-10-11 2013-08-28 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
KR10-2013-0102544 2013-08-28
KR10-2013-0121247 2013-10-11
KR1020130121247A KR102149411B1 (ko) 2012-10-11 2013-10-11 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US14/434,484 A-371-Of-International US9836269B2 (en) 2012-10-11 2013-10-11 Device and method for generating audio data, and device and method for playing audio data
US15/803,464 Continuation US10282160B2 (en) 2012-10-11 2017-11-03 Apparatus and method for generating audio data, and apparatus and method for playing audio data

Publications (1)

Publication Number Publication Date
WO2014058275A1 true WO2014058275A1 (ko) 2014-04-17

Family

ID=50477662

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2013/009112 WO2014058275A1 (ko) 2012-10-11 2013-10-11 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법

Country Status (1)

Country Link
WO (1) WO2014058275A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015199508A1 (ko) * 2014-06-26 2015-12-30 삼성전자 주식회사 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
JPWO2016052191A1 (ja) * 2014-09-30 2017-07-20 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
RU2777511C1 (ru) * 2014-06-26 2022-08-05 Самсунг Электроникс Ко., Лтд. Способ и устройство для рендеринга акустического сигнала и машиночитаемый носитель записи

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007027055A1 (en) * 2005-08-30 2007-03-08 Lg Electronics Inc. A method for decoding an audio signal
KR20090055399A (ko) * 2007-11-28 2009-06-02 엘지전자 주식회사 방송 시스템 및 오디오 데이터 처리 방법
JP2009151785A (ja) * 2007-12-20 2009-07-09 Thomson Licensing オーディオビデオ文書の特徴マップを計算する装置及び方法
KR101003415B1 (ko) * 2007-10-17 2010-12-23 엘지전자 주식회사 Dmb 신호의 디코딩 방법 및 이의 디코딩 장치
KR20120071072A (ko) * 2010-12-22 2012-07-02 한국전자통신연구원 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007027055A1 (en) * 2005-08-30 2007-03-08 Lg Electronics Inc. A method for decoding an audio signal
KR101003415B1 (ko) * 2007-10-17 2010-12-23 엘지전자 주식회사 Dmb 신호의 디코딩 방법 및 이의 디코딩 장치
KR20090055399A (ko) * 2007-11-28 2009-06-02 엘지전자 주식회사 방송 시스템 및 오디오 데이터 처리 방법
JP2009151785A (ja) * 2007-12-20 2009-07-09 Thomson Licensing オーディオビデオ文書の特徴マップを計算する装置及び方法
KR20120071072A (ko) * 2010-12-22 2012-07-02 한국전자통신연구원 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106797524B (zh) * 2014-06-26 2019-07-19 三星电子株式会社 用于渲染声学信号的方法和装置及计算机可读记录介质
US10484810B2 (en) 2014-06-26 2019-11-19 Samsung Electronics Co., Ltd. Method and device for rendering acoustic signal, and computer-readable recording medium
RU2777511C1 (ru) * 2014-06-26 2022-08-05 Самсунг Электроникс Ко., Лтд. Способ и устройство для рендеринга акустического сигнала и машиночитаемый носитель записи
RU2656986C1 (ru) * 2014-06-26 2018-06-07 Самсунг Электроникс Ко., Лтд. Способ и устройство для рендеринга акустического сигнала и машиночитаемый носитель записи
US10021504B2 (en) 2014-06-26 2018-07-10 Samsung Electronics Co., Ltd. Method and device for rendering acoustic signal, and computer-readable recording medium
US10299063B2 (en) 2014-06-26 2019-05-21 Samsung Electronics Co., Ltd. Method and device for rendering acoustic signal, and computer-readable recording medium
CN106797524A (zh) * 2014-06-26 2017-05-31 三星电子株式会社 用于渲染声学信号的方法和装置及计算机可读记录介质
CN110418274A (zh) * 2014-06-26 2019-11-05 三星电子株式会社 用于渲染声学信号的方法和装置及计算机可读记录介质
WO2015199508A1 (ko) * 2014-06-26 2015-12-30 삼성전자 주식회사 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
RU2759448C2 (ru) * 2014-06-26 2021-11-12 Самсунг Электроникс Ко., Лтд. Способ и устройство для рендеринга акустического сигнала и машиночитаемый носитель записи
JP2021105735A (ja) * 2014-09-30 2021-07-26 ソニーグループ株式会社 受信装置および受信方法
US10856042B2 (en) 2014-09-30 2020-12-01 Sony Corporation Transmission apparatus, transmission method, reception apparatus and reception method for transmitting a plurality of types of audio data items
JPWO2016052191A1 (ja) * 2014-09-30 2017-07-20 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
JP7310849B2 (ja) 2014-09-30 2023-07-19 ソニーグループ株式会社 受信装置および受信方法
US11871078B2 (en) 2014-09-30 2024-01-09 Sony Corporation Transmission method, reception apparatus and reception method for transmitting a plurality of types of audio data items

Similar Documents

Publication Publication Date Title
WO2009123409A2 (ko) 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
WO2010143907A2 (ko) 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더
WO2015105393A1 (ko) 삼차원 오디오 재생 방법 및 장치
WO2014021588A1 (ko) 오디오 신호 처리 방법 및 장치
WO2009134085A2 (ko) 슈퍼 프레임을 이용하여 멀티채널 오디오 신호를 송수신하는 방법 및 장치
WO2014175668A1 (ko) 오디오 신호 처리 방법
WO2011005025A2 (en) Signal processing method and apparatus therefor using screen size of display device
WO2013025032A1 (ko) 수신 장치 및 그 수신 방법
WO2013147547A1 (en) Audio apparatus and method of converting audio signal thereof
KR102149411B1 (ko) 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
CN106341719A (zh) 同时利用设备多种播放模块的同步音频播放方法及装置
WO2018101600A1 (en) Electronic apparatus and control method thereof
US20150334502A1 (en) Sound signal description method, sound signal production equipment, and sound signal reproduction equipment
WO2014058275A1 (ko) 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
WO2014021586A1 (ko) 오디오 신호 처리 방법 및 장치
WO2011055926A2 (en) Apparatus and method for reproducing multi-sound channel contents using dlna in mobile terminal
WO2018084483A1 (en) Speaker apparatus, electronic apparatus connected therewith, and controlling method thereof
WO2009154390A2 (en) Method for providing channel service and computer-readable medium having thereon program performing function embodying the same
US7702005B2 (en) Method for transmitting and/or receiving audio data of a plurality of audio sources through a single SPDIF link, and related apparatus
CN103947188A (zh) 音视频文件的编辑、播放方法、装置及广播系统
WO2012087042A2 (ko) 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법
KR102071431B1 (ko) 오디오 데이터 제공 방법 및 장치, 오디오 메타데이터 제공 방법 및 장치, 오디오 데이터 재생 방법 및 장치
WO2016018102A1 (ko) 클라우드 스트리밍 기반 방송 연동형 서비스 시스템, 방송 연동형 서비스 클라이언트 장치, 트리거 컨텐츠 제공 서버 및 이를 이용한 방법
WO2019164029A1 (ko) 복수의 채널을 통한 오디오 재생 방법 및 시스템
WO2021112438A1 (en) Electronic apparatus and controlling method thereof

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13845842

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015536716

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14434484

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13845842

Country of ref document: EP

Kind code of ref document: A1