WO2014010920A1 - 인핸스드 3d 오디오/비디오 처리 장치 및 방법 - Google Patents

인핸스드 3d 오디오/비디오 처리 장치 및 방법 Download PDF

Info

Publication number
WO2014010920A1
WO2014010920A1 PCT/KR2013/006103 KR2013006103W WO2014010920A1 WO 2014010920 A1 WO2014010920 A1 WO 2014010920A1 KR 2013006103 W KR2013006103 W KR 2013006103W WO 2014010920 A1 WO2014010920 A1 WO 2014010920A1
Authority
WO
WIPO (PCT)
Prior art keywords
depth
information
video
audio
video frames
Prior art date
Application number
PCT/KR2013/006103
Other languages
English (en)
French (fr)
Inventor
정상오
김경호
전병문
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to EP13817608.6A priority Critical patent/EP2871842A4/en
Priority to CN201380036875.0A priority patent/CN104429063B/zh
Priority to KR1020147034786A priority patent/KR20150032253A/ko
Priority to US14/408,197 priority patent/US9723287B2/en
Publication of WO2014010920A1 publication Critical patent/WO2014010920A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/265Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
    • G10H2210/295Spatial effects, musical uses of multiple audio channels, e.g. stereo
    • G10H2210/301Soundscape or sound field simulation, reproduction or control for musical purposes, e.g. surround or 3D sound; Granular synthesis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Definitions

  • the present invention relates to a method and apparatus for processing enhanced 3D audio and video, and more particularly, depth related information for controlling 3D audio depth according to 3D video depth using an MPEG file format.
  • the present invention relates to an enhanced 3D audio / video processing method and apparatus for signaling a signal.
  • HTS general home theater systems
  • 3D audio technology has been spotlighted to reproduce 3D sound effects by reproducing directions and distances within a 3D sound space to provide 3D sound.
  • an acoustic sweet spot where sound reproduction is controlled i.e., the location or range at which the user can hear the best sound, can be part of the 3D space and the user's hearing.
  • 3D video and 3D audio technologies can be applied to each content, demand for 3D content in which 3D video technology and 3D audio technology are applied together is increasing.
  • 3D video and 3D audio technologies individually, the demand for 3D content with synchronized 3D video effects and 3D audio effects is increasing beyond 3D content with 3D video effects and 3D audio effects independently applied.
  • the technical problem to be achieved by the present invention is to enhance the 3D video effect and the 3D audio effect, enhanced 3D audio signaling depth information using the MPEG file format to generate a 3D audio effect according to the depth of the 3D video / Video processing method and apparatus.
  • an improved 3D audio / video processing method may include generating 3D (3-Dimtional) content including video content and audio content, and configuring the video content.
  • Generating depth information of video frames wherein the depth information is used to generate a 3D audio effect to be applied to the audio content, and the depth information is frame identification information, depth level information, and depth range.
  • the frame identification information indicates a frame number for identifying each video frame
  • the depth level information indicates a size of a 3D effect applied to each video frame
  • the depth range information indicates Indicate a total number of levels of a depth level
  • the enhanced 3D audio / video processing method processing a 3D enhanced signal including 3D (3-Dimtional) content including video content and audio content, the Obtaining depth information of video frames constituting the video content from the processed 3D enhanced signal, wherein the depth information includes frame identifier, depth level information, and depth range information,
  • the frame identification information indicates a frame number for identifying each video frame
  • the depth level information indicates a size of a 3D effect applied to each video frame
  • the depth range information indicates the total number of levels of the depth level.
  • Apply video effects and may include the step of generating a 3D audio content.
  • an enhanced 3D AV device may generate 3D sound effects using signaling information according to 3D video depth, thereby providing more 3D content in which 3D video and 3D audio are accurately synchronized.
  • an enhanced 3D AV device may generate 3D sound effects using signaling information according to 3D video depth, the complexity of device design may be reduced.
  • the present invention when transmitting the signaling information according to the 3D video depth, it is possible to obtain a higher transmission efficiency because the duplicated information is removed and transmitted.
  • FIG. 1 is a conceptual diagram illustrating a development process of an audio system.
  • FIG. 2 is a conceptual diagram illustrating an enhanced 3D audio / video processing apparatus.
  • FIG. 3 is a diagram illustrating a depth table according to an embodiment of the present invention.
  • FIG. 4 is a diagram illustrating a depth table according to another embodiment of the present invention.
  • FIG. 5 is a diagram illustrating a depth table according to another embodiment of the present invention.
  • FIG. 6 illustrates a 3D sound space according to an embodiment of the present invention.
  • FIG. 7 illustrates a video frame according to an embodiment of the present invention.
  • FIG. 8 illustrates a video frame according to another embodiment of the present invention.
  • FIG 9 illustrates a video frame according to another embodiment of the present invention.
  • FIG. 10 illustrates a video frame according to another embodiment of the present invention.
  • FIG. 11 is a diagram illustrating a video frame according to another embodiment of the present invention.
  • FIG. 12 illustrates an enhanced 3D audio / video processing apparatus according to an embodiment of the present invention.
  • FIG. 13 is a diagram illustrating an enhanced 3D audio / video processing apparatus according to another embodiment of the present invention.
  • FIG. 14 is a flowchart of an enhanced 3D audio / video processing method according to an embodiment of the present invention.
  • 15 is a flowchart of an enhanced 3D audio / video processing method according to another embodiment of the present invention.
  • HTS general home theater systems
  • 3D audio technology has been in the spotlight, which aims to generate 3D audio effects by reproducing direction and distance with respect to sound sources in the 3D sound space.
  • an acoustic sweet spot where sound reproduction is controlled i.e., the location or range at which the user can hear the best sound, can be part of the 3D space and the user's hearing.
  • the depth of the 3D audio is precisely synchronized with the depth of the 3D video, it may provide a sophisticated enhanced 3D audio / video experience to the user.
  • an object of the present invention is to provide an enhanced 3D audio / video processing method and apparatus for signaling depth information for controlling the depth of 3D audio sound according to the depth of 3D video using the MPEG file format.
  • FIG. 1 is a conceptual diagram illustrating a development process of an audio system. As shown in FIG. 1, an audio system has evolved from a two channel stereo audio system to an enhanced 3D audio / video system. Each figure is briefly described below.
  • FIG. 1A illustrates a stereo audio system
  • FIG. 1B illustrates a surround audio system
  • Figure 1 (c) shows an enhanced 3D audio system proposed in the present invention.
  • the stereo audio system may provide audio sound to a user through two speakers, that is, two channels provided in a general TV or HTS.
  • the surround audio system may provide audio sound to the user through two or more speakers, that is, two or more channels, as shown in FIG.
  • the enhanced 3D audio / video system illustrated in FIG. 1C may not only have a plurality of channels surrounding users, but also 3D provided in a 3D sound space using depth information obtained from video content. You can create 3D audio effects to be applied to the audio.
  • the 3D sound space is an area set to provide 3D audio and may be divided into a plurality of audio spots according to a plurality of depth levels. Each audio spot can be defined as a specific location within the 3D sound space, and each audio spot is provided with 3D audio processed according to each depth level.
  • the effect of the 3D audio effect provided to each audio spot may be defined as a sound depth level.
  • the sound depth level may be determined according to the depth information of the above-described 3D video.
  • the depth information of the video content is acquired to generate a 3D audio effect corresponding to the audio spot of the 3D sound space, and the high quality 3D audio is applied to the user by applying the generated 3D audio effect to the audio content corresponding to the current video content.
  • the enhanced 3D audio / video system may use two channels and may use a plurality of channels.
  • FIG. 2 is a conceptual diagram illustrating an enhanced 3D audio / video processing apparatus.
  • the enhanced 3D audio / video processing apparatus may include a video engine 210 and an audio engine 220.
  • the video engine 210 may include a depth map module 211 and a depth analysis module 212
  • the audio engine 220 may include a sound filtering module 221 and a 3D sound effect generation module 222. have.
  • each module will be briefly described.
  • the depth map module 211 included in the video engine 210 may include a left frame configured to deliver a left view image and a right view image constituting 3D video content from the 3D video stream. ) And a depth map for a right frame may be extracted.
  • 3D video content provides a stereoscopic effect using the principle of stereo vision of two eyes.
  • Humans feel perspective through the parallax of two eyes, that is, the binocular parallax by the distance between two eyes about 65mm apart, so the 3D image shows left and right eye images associated with left and right eyes, respectively. It can provide a three-dimensional and perspective. Therefore, the left frame and the light frame are tied in pairs for the stereoscopic effect.
  • Depth may be expressed in units quantified as representing the amount of such stereoscopic effect, that is, 3D effect. This can be changed according to the designer's intention. Depth of the pair frames according to an embodiment of the present invention may be set the same or different for each frame constituting the pair.
  • the depth map module 211 may extract depth information set for each frame to generate a depth map indicating depth information corresponding to each frame, and extract a depth map already included in the 3D video stream. You may.
  • the depth analysis module 212 may analyze the generated depth map or the extracted depth map to determine representative video depth levels for each pair frame. The video engine 210 may then transmit the video depth levels determined by the depth analysis module 212 to the audio engine 220.
  • the sound filtering module 221 included in the audio engine 220 may filter the audio sound.
  • the 3D sound effect generation module 222 may then generate or determine a 3D audio effect (or 3D sound effect) that can represent the 3D effect on the filtered audio sound. Since the sound depth level of the 3D audio effect is determined according to the above-described video depth level, the depth level of the 3D audio and the depth level of the 3D video may be synchronized as a result.
  • the high development cost and product cost required for the design of the device can be a problem.
  • the role of the video engine 210 is to determine 3D video depth levels
  • the role of the audio engine 220 is to generate a corresponding 3D audio effect. Therefore, high development cost and product cost may be required to design a video engine capable of determining 3D video depth levels.
  • the 3D content currently being serviced does not necessarily need to include 3D audio effects synchronized with the depth levels obtained as a result of the 3D video analysis. Therefore, despite the high design complexity and high cost, even when developing enhanced 3D audio and video processing devices, the depth level for adjusting 3D audio effects is low and the quality of 3D audio content is compared to that of 3D video content. Can be low. Furthermore, since the 3D effects applied to the 3D video content are variable, the depth level accuracy for each video frame may be inferior.
  • the present invention provides a method of signaling depth information capable of supporting enhanced 3D audio / video content through an MPEG file format to solve the above problems.
  • the video images or audio data constituting the above-described 3D content may be compressed and encoded in various ways including a moving picture expert group (MPEG).
  • MPEG moving picture expert group
  • images constituting 3D video content or audio data constituting 3D audio content may be compressed and encoded by MPEG or H.264 / AVC (Advanced Video Coding) coding.
  • the receiver may acquire 3D content by decoding video images and audio data in reverse of MPEG or H.264 / AVC coding.
  • the MPEG file format can be used to transport video and audio streams that make up 3D content compressed in an MPEG manner, and is a multimedia container format that contains other additional data.
  • the MPEG file format includes a media data container including data of an actual video / audio stream, and a meta data container including information related to content or information for playing a file. can do.
  • the media data container may be referred to as a media data box
  • the meta data container may be referred to as a meta data box.
  • Each container may contain sub-boxes (or atoms) that are each identified.
  • the media data container may store data of a video / audio stream in units of frames.
  • the meta data container may include video / audio tracks and a sample table box for the video / audio stream.
  • the video / audio sample is an access unit for accessing the video / audio stream stored in units of frames, and each sample represents data of each video frame / audio frame.
  • the sample is referred to as a frame as an embodiment.
  • a video / audio track also means a set of related video / audio samples.
  • the sample table box may include an index for timing and physical layout of samples included in each track.
  • the 3D content transmitting / providing side signals the above-described depth information through the MPEG file format
  • the receiving side detects the depth related information signaled through the MPEG file format, determines the 3D sound depth, and generates a 3D audio effect.
  • 3D audio effects can be generated using depth information included in the MPEG file format without extracting or processing the video depth level in real time, thereby providing higher quality enhanced 3D content. can do.
  • Depth information according to an embodiment of the present invention may be included in the above-described sample table box, which can be changed according to the designer's intention.
  • the depth information according to an embodiment of the present invention may include depth level information or depth range information of a video frame for adjusting the sound depth level of the 3D audio effect, which is a designer. Can be changed according to the intention of the.
  • Depth information according to an embodiment of the present invention may be signaled for each video track.
  • the depth information may include num_depth_levels information.
  • the num_depth_levels information is information indicating the number of depth levels for adjusting the sound depth of the 3D audio effect and is the same as the number of depth levels defined for each video frame.
  • Depth level values may include a total of nine level values from 1 to 9, and num_depth_levels information includes 1, 2, 4, 8, 16, 32, 64, 128, and 256 depending on depth levels 1 to 9, respectively. It can have a value.
  • num_depth_levels may indicate the number of depth levels corresponding to each video track.
  • the num_depth_levels information may be included in VisualsampleEntry or AudioSampleEntry, which is a sample entry element in the above-described sample table box, and may be included in "DepthLevelsFor3DAVBox", which is a lower box included in the sample table box.
  • the name of “DepthLevelsFor3DAVBox” can be changed according to the designer's intention.
  • “DepthLevelsFor3DAVBox” can be included in the above-described sample entry element VisualSamepleEntry or AudioSampleEntry and can be included in another sample entry element MetadataSamepleEntry. This can be changed according to the designer's intention.
  • Table 1 shows a case in which num_depth_levels information is signaled through VisualsampleEntry as syntax according to an embodiment of the present invention.
  • Table 2 shows a case in which num_depth_levels information is signaled through AudiosampleEntry as syntax according to another embodiment of the present invention.
  • Table 3 below shows a case of signaling num_depth_levels information through the above-described “DepthLevelsFor3DAVBox” as a syntax according to another embodiment of the present invention.
  • DepthLevelsFor3DAVBox may be included in the above-described sample entry element VisualSamepleEntry or AudioSampleEntry, and may be included in another sample entry element MetadataSamepleEntry,“ DepthLevelsFor3DAVBox ”in Table 3 represents a case included in VisualSamepleEntry.
  • Depth information may be signaled for each video sample, that is, for each video frame.
  • the depth information may include depth_level_per_video_frame information.
  • the depth_level_per_video_frame information is information indicating depth level information defined for each video frame and may be used to determine a sound depth of a 3D audio effect applied to audio content corresponding to the video frame.
  • the depth_level_per_video_frame information may have any value corresponding to a range from 0 to a value obtained by subtracting 1 from the above-mentioned value of num_depth_levels information, that is, to a num_depth_levels-1 value. If the depth_level_per_video_frame information value is 0, the sound depth level of the 3D audio effect corresponding to the frame may be defined as the 3D sound depth level corresponding to the audio spot closest to the user watching the TV or TV in the 3D sound space. .
  • the sound depth level of the 3D audio effect corresponding to the frame is the 3D sound depth level corresponding to the audio spot farthest away from the user watching the TV or TV in the 3D sound space. Can be defined.
  • Table 4 shows a case in which depth_level_per_video_frame information is included in the above-described “DepthFor3DAVBox” as a syntax according to another embodiment of the present invention.
  • the sample count value shown in Table 4 may be derived from a sample size box included in the meta data container.
  • the 3D content transmitter / provider may signal num_depth_levels information and depth_level_per_video_frame information by using the syntax of the MPEG file formats shown in Tables 1 to 4, and the receiver may syntax the MPEG file formats shown in Tables 1 to 4
  • the 3D sound depth may be determined by detecting num_depth_levels information and depth_level_per_video_frame information included in the.
  • the depth_level_per_video_frame information value should be defined for each sample, the capacity of the depth_level_per_video_frame information in the syntax may be problematic.
  • the present invention proposes a signaling method for indicating depth information for each sample group in which samples are grouped in order to reduce the depth_level_per_video_frame information value for samples and to efficiently signal the samples.
  • the above-described num_depth_levels information and depth_level_per_video_frame information may be signaled through two “DepthLevelsGroupFor3DAVs”, respectively.
  • Table 5 is a syntax according to another embodiment of the present invention and shows a case of signaling through “DepthLevelsGroupFor3DAVBox” each of num_depth_levels information and depth_level_per_video_frame information in order to indicate depth information for each sample group grouping samples.
  • the two "DepthLevelsGroupFor3DAV extends FullBox” may both include entry_count information and group_description_index information.
  • the entry_count information is an information indicating the number of an entry for which a job is processed and has an integer value.
  • group_description_index information is an information indicating the index of the same sample group entry representing the samples in the current group and has an integer value.
  • the group_description_index information may be included in a sample to group box included in the metadata container.
  • “DepthLevelsGroupFor3DAV extends FullBox” may include num_depth_levels information in each sample group, and num_depth_levels information in each sample group may be the same as num_depth_levels information for all samples in a group of 3D video. Can be.
  • depth_level_per_video_frame information is included in “DepthLevelsGroupFor3DAV extends FullBox”, the same depth_level_per_video_frame information value may be applied to samples included in each sample group.
  • depth information according to an embodiment of the present invention may be signaled through a sample entry element in a sample table box.
  • a method of signaling various depth information through a box included in a sample table according to an embodiment of the present invention will be described.
  • Table 6 shows a case of signaling depth information through “DepthLevelsGroupFor3DAVBox” in a sample table box as a syntax according to another embodiment of the present invention.
  • the signaled depth information may include entry_counter information, sample_index information, depth_level information, and depth_range information as shown in Table 6. Each information is described below.
  • the entry_counter information may have an integer value as information indicating an entry number in a depth table to be described later.
  • the sample_index information is information indicating an index number of each sample, that is, frames in the current video track, and may indicate a frame number. It can have an integer value.
  • the depth_range information is information indicating the total number of levels of the depth levels used to adjust the 3D sound depth.
  • the depth_range information is different from the above-mentioned num_depth_levels information but may have the same name. That is, the range of the depth level can be indicated. Therefore, if depth_range is 0, the depth_level information has no meaning.
  • the depth_level information is information used for generating a 3D audio effect to be applied to audio content corresponding to a video frame. Specifically, the sound depth level of the 3D audio effect may be determined according to the depth_level information.
  • the depth_level information indicates the depth level of each video frame.
  • the depth_level information may have the same name as that of the depth_level_per_video_frame information and the same name. Accordingly, the depth_level information may have any value corresponding to a range from 0 to 1, that is, a depth_range-1 value, such as depth_level_per_video_frame information.
  • the sound depth level of the 3D audio effect corresponding to the frame may be defined as the 3D sound depth level corresponding to the audio spot closest to the user watching the TV or TV in the 3D sound space. have.
  • the depth_level information value is the depth_range-1 value
  • the sound depth level of the 3D audio effect corresponding to the frame corresponds to the 3D sound depth level corresponding to the audio spot farthest away from the user watching the TV or TV in the 3D sound space. That is, the 3D sound depth level corresponds to the depth_level information described above, and may be set differently or equally according to each audio spot.
  • sample_index information, depth_level information, and depth_range information are located in a for loop located after entry_counter information, and may be defined for each entry defined as the entry_counter information value increases by one.
  • the syntax according to an embodiment of the present invention shown in Table 6 may provide a depth table of a depth level and a depth range of 3D video samples in a video track.
  • the depth table will be described below.
  • FIG. 3 is a diagram illustrating a depth table according to an embodiment of the present invention.
  • the depth table shown in FIG. 3 may be provided by the syntax of Table 6 as described above.
  • the depth table of FIG. 3- (a) may include sample_index information, decoding_time information, depth_range information, and depth_level information.
  • the decoding_time information is information indicating a time for decoding each frame identified according to the sample_index information. That is, the depth table of FIG. 3- (a) may provide decoding time information, depth range, and depth level information of each frame included in the video track.
  • the depth table illustrated in FIG. 3- (b) may include entry_counter information, sample_index information, depth_range information, and depth_level information. That is, the depth table of FIG. 3B may provide depth range and depth level information of a frame processed for each entry.
  • the depth table shown in Fig. 3- (b) can be obtained from the depth table shown in Fig. 3- (a).
  • the depth table shown in FIG. 3- (b) may be generated and transmitted at the transmitting side, or may be generated at the receiving side using the depth table shown in 3- (a). This can be changed according to the designer's intention.
  • the first row of the depth table includes sample_index information values for identifying a frame included in the video track, and the second to fourth rows each represent a decoding_time information value, a depth_range information value, and a depth_level. It may include an information value.
  • the decoding_time information value, the depth_range information value, and the depth_level information value included in the second to fourth rows are defined for each frame displayed in the first row.
  • frame 1 having the sample_index information value of 1 corresponds to the first frame of the corresponding video track, and thus may have a decoding_time information value of zero.
  • the depth range of frame 1 is 16, and the depth level corresponds to three.
  • the decoding_time information value of frame 2 becomes 10, thus increasing from 0 This can be As shown in the depth table of FIG. 3A, the depth range of frame 2 may be 16 and the depth level may be 3.
  • the first row of the depth table indicates entry_counter information, sample_index information, depth_range information, and depth_level information for identifying each column.
  • the first column of the depth table of FIG. 3- (b) may include an entry_counter information value, and the second to fourth columns may include a sample_index information value, a depth_range information value, and a depth_level information value, respectively.
  • the frame corresponding to the entry 1 may be a frame having a sample_index information value of 1. Therefore, when the entry_counter information value is 1, as shown in the depth table of FIG. 3- (b), the sample_index information value is 1. Accordingly, since the depth range of the frame having the sample_index information value of 1 is 16 and the depth level is 3, the depth_range information value of the depth table of FIG. 3- (b) may be 16 and the depth_level information value may be 3.
  • the frame corresponding to the second entry becomes a frame with a sample_index information value of 2. Therefore, when the entry_counter information value is 2, the sample_index information value can be represented by 2.
  • the depth_range information value is 16 and the depth_level information value is 3 Can be marked as In addition, since the total number of frames is 12, the number of entries in the depth table of FIG. 3- (b) may be 12.
  • the receiver acquires information on the depth range and the depth level of each frame according to each entry using the depth table shown in FIG. 3, and simultaneously decodes the video frame and the depth range of each frame according to the obtained information. And generating a 3D sound effect corresponding to the depth level to generate a synchronized 3D audio sound for each frame.
  • the capacity of the depth table may increase when the number of frames included in one video track increases.
  • overlapping information may be included, thereby causing a problem that transmission efficiency may decrease.
  • Table 7 is a syntax according to another embodiment of the present invention and shows a case of signaling depth level information through “DepthLevelsGroupFor3DAVBox” in a sample table box.
  • the syntax shown in Table 7 may include entry_counter information, sample_index information, and depth_level information in the same manner as the syntax shown in Table 6 above, but does not include depth_range information, and may include sample_offset information. Description of the same information as those shown in Table 6 will be omitted, and sample_offset information will be described below.
  • the sample_offset information may indicate an offset indicating the number of consecutive frames to which the same depth level is applied among the frames included in the video track. Therefore, the sample_index information value and the sample_offset information value of consecutive frames to which the same depth level is applied may sequentially increase from 1. Details will be described later.
  • the syntax according to another embodiment of the present invention shown in Table 7 may provide a depth table of depth levels of 3D video samples in a video track.
  • the depth table will be described below.
  • FIG. 4 is a diagram illustrating a depth table according to another embodiment of the present invention.
  • the depth table shown in FIG. 4 may be provided by the syntax of Table 7 as described above.
  • the depth table shown in FIG. 4- (a) may include a sample_index information value, a decoding_time information value, a sample_offset information value, and a depth_level information value. That is, the depth table illustrated in FIG. 4- (a) may provide decoding time information of all samples included in the video track, offset information of successive frames to which the same depth level is applied, and depth level information.
  • the depth table illustrated in FIG. 4- (b) may include an entry_counter information value, a sample_index information value, a sample_offset information value, and a depth_level information value. In other words.
  • the depth table illustrated in FIG. 4- (b) may provide the depth level of a frame processed in each entry and offset information of frames to which the same depth level is applied.
  • the depth table shown in Fig. 4- (b) can be obtained from the depth table shown in Fig. 4- (a).
  • the depth table shown in FIG. 4- (b) may be generated and transmitted at the transmitter, or may be generated at the receiver using the syntax shown in Table 7 and the depth table shown in 4- (a). This can be changed according to the designer's intention.
  • the first row of the depth table includes sample_index information values for identifying a frame included in a video track, and the second to fourth rows respectively have decoding_time information values, sample_offset information values, and depth_level. It may include an information value.
  • the decoding_time information value, the sample_offset information value, and the depth_level information value included in the second to fourth rows are defined for each frame displayed in the first row.
  • frame 1 having the sample_index information value of 1 has a depth level of 3 according to the depth_level information value.
  • the depth level of frame 2 having the sample_index information value of 2 is the same as the depth level of frame 1, and thus the overlapped depth_level information value is not displayed in the depth table.
  • frames 8 and 9 with sample_index information values of 8 and 9 have the same depth level as that of frame 7 with sample_index information values of 7, so that depth_level information values of frames 8 and 9 are not displayed in the depth table. Do not.
  • the sample_offset value of the frames having the same depth level may increase sequentially from the first frame among the corresponding frames. Accordingly, as illustrated in FIG. 4A, the sample_offset value of the frame 1 is 1, and the sample_offset value of the frame 2 is 2, which is increased by 1 from the sample_offset value of the frame 1.
  • the depth_level information value of the frame 3 having the sample_index information value of 3 is 4, and is different from the depth levels of the frames 1 and 2, and thus the sample_offset value of the frame 3 is represented by 1.
  • the sample_offset value of the frame 7 may be 1
  • the sample_offset value of the frame 8 may be 2
  • the sample_offset value of the frame 9 may be 3. Since frame 10 having a sample_index information value of 10 has a different depth level from those of frames 7 to 9, the sample_offset value of frame 10 is represented by 1.
  • the first row of the depth table indicates entry_counter information, sample_index information, sample_offset information, and depth_level information for identifying each column.
  • the first column of the depth table of FIG. 4- (b) may include an entry_counter information value
  • the second to fourth columns may include a sample_index information value, a sample_offset information value, and a depth_level information value, respectively.
  • the sample_index information value corresponding to each entry is indicated by the sample_index information value of the first frame among the frames having the same depth level.
  • the sample_offset information value corresponding to each entry is indicated by the sample_index information value of the last frame among the frames having the same depth level.
  • the frames 1 and 2 may be processed together. Accordingly, as shown in the first row of the depth table of 4-b, the sample_index information value corresponding to the entry 1 is displayed as 1, which is the sample_index information value of Frame 1, and the sample_offset information value is 2, which is the sample_offset information value of Frame 2 Can be displayed.
  • the depth_level information value 3 may be displayed as depth_level information values of frames 1 and 2.
  • frames 3 having the sample_index information value 3 and frames 6 having the sample_index information value 6 have different depth_level information values. Accordingly, sample_offset information values and depth_level information values of frames 3 to 6 may be displayed in rows corresponding to entries 2 to 5 of the depth table of FIGS.
  • the sample_index information value corresponding to the entry 6 of the depth table of 4- (b) is the sample_index information value of the frame 7. 7 may be displayed, and the sample_offset information value 3 may be displayed as the sample_offset information value of the frame 9.
  • the depth_level information value may be represented by 11, which is a depth_level information value of frames 7 through 9.
  • the depth table of Fig. 4- (b) shows information on 9 entries. It may include.
  • the receiver acquires information on the number of frames to which the same depth level is applied using the depth table shown in FIG. 4, obtains the same depth level information only once, and decodes the video frame according to the obtained information. At the same time, a sound effect corresponding to the depth level of each frame can be generated to efficiently generate synchronized 3D audio sound for each frame.
  • Table 8 shows a case of signaling depth range information through “DepthLevelsGroupFor3DAVBox” in a sample table box as a syntax according to another embodiment of the present invention.
  • the syntax shown in Table 8 may include entry_counter information, sample_index information, and sample_offset information in the same manner as the syntax shown in Table 7 described above, except that depth_range information may be included instead of depth_level information.
  • the sample_offset information has the same name but may include information different from the sample_offset information described in Table 7. Description of the same information as those shown in Tables 6 and 7 will be omitted, and sample_offset information included in the syntax shown in Table 8 will be described.
  • the sample_offset information may indicate an offset indicating the number of consecutive frames to which a depth level having the same depth range is applied among the frames included in the video track.
  • sample_index information value and the sample_offset information value of consecutive frames to which the depth level having the same depth range is applied may sequentially increase from 1. Details will be described later.
  • the syntax according to another embodiment of the present invention shown in Table 8 may provide a depth table of the depth range of 3D video samples in the video track.
  • the depth table will be described below.
  • FIG. 5 is a diagram illustrating a depth table according to another embodiment of the present invention.
  • the depth table shown in FIG. 5 may be provided by the syntax of Table 8 as described above.
  • the depth table illustrated in FIG. 5- (a) may include a sample_index information value, a decoding_time information value, a sample_offset information value, and a depth_range information value, and may optionally include a depth_level information value. That is, the depth table illustrated in FIG. 5- (a) may provide decoding time information of all samples included in a video track, offset information of consecutive frames to which the same depth level is applied, and depth range information.
  • the depth table illustrated in FIG. 5- (b) may include an entry_counter information value, a sample_index information value, a sample_offset information value, and a depth_range information value. In other words.
  • the depth table illustrated in FIG. 4- (b) may provide offset information of frames to which the same depth level and depth range of a frame processed in each entry are applied.
  • the depth table shown in Fig. 5- (b) can be obtained from the depth table shown in Fig. 5- (a).
  • the depth table shown in FIG. 5- (b) may be generated and transmitted at the transmitting side, or may be generated at the receiving side using the syntax shown in Table 8 and the depth table shown in 5- (a). This can be changed according to the designer's intention.
  • frame 1 having the sample_index information value of 1 has a depth level of 3 according to the depth_level information value, and the depth range of the depth level becomes 16 according to the depth_range information value.
  • the depth_range information value of the first frame having the depth level according to the corresponding depth range is displayed in the depth table, and the depth_range information of the subsequent consecutive frames. The value is not displayed. In this case, it does not matter whether the depth_level information values of successive frames are the same.
  • the depth range of the depth level of Frame 2 to Frame 6 having the sample_index information value of 2 to 6 is the same as the depth range of Frame 1, so the duplicate depth_range information value is displayed in the depth table. It doesn't work.
  • the sample_offset value of the frames having the depth level corresponding to the same depth range may be sequentially increased from the first frame among the corresponding frames. Accordingly, as shown in FIG. 5A, the sample_offset value of Frame 1 is 1, and the sample_offset value of Frames 2 to 6 is increased by 1, 1, 2, 3, 4, 5, It is indicated by 6. On the other hand, since the depth_range information value of the frame 7 is 4, which is different from the depth_range information value of the frame 1, it is displayed in the depth table, and the sample_offset value of the frame 7 is represented by 1.
  • the first row of the depth table indicates entry_counter information, sample_index information, sample_offset information, and depth_range information for identifying each column.
  • the first column of the depth table of FIG. 5- (b) may include an entry_counter information value, and the second to fourth columns may each include a sample_index information value, a sample_offset information value, and a depth_range information value.
  • the frames to which the depth level corresponding to the same depth range is applied to each entry may be processed together, so that the sample_index information value corresponding to each entry is the first frame among the frames having the depth level corresponding to the same depth range.
  • the sample_index information value of is displayed.
  • the sample_offset information value corresponding to each entry is indicated by the sample_index information value of the last frame among the frames having the depth level corresponding to the same depth range.
  • the frames 1 to 6 may be processed together. Accordingly, as shown in the first row of the depth table of 5- (b), the sample_index information value corresponding to the entry 1 is displayed as 1, which is the sample_index information value of Frame 1, and the sample_offset information value is 6, which is the sample_offset information value of Frame 6. Can be displayed.
  • the depth_range information value may be displayed as 16, which is a depth_range information value of frames 1 to 6.
  • the sample_index information value corresponding to the entry 2 of the depth table of 5- (b) is A sample_index information value of frame 7 may be displayed as 7, and the sample_offset information value as 6 may be displayed as sample_offset information value of frame 12.
  • the depth_range information value may be represented by 4, which is a depth_range information value of frames 7 to 12.
  • the depth table of FIG. may include information about the entries.
  • the receiver acquires information on the number of frames to which the corresponding depth level is applied using the depth table shown in FIG. 5, obtains the same depth range information only once, and then uses the video according to the obtained information.
  • the receiver By decoding the frame and generating a sound effect corresponding to the depth level of each frame, it is possible to efficiently generate synchronized 3D audio sound for each frame.
  • FIG. 6 illustrates a 3D sound space according to an embodiment of the present invention.
  • the 3D sound space is an area set for providing 3D audio and may be divided into a plurality of audio spots.
  • Each audio spot may be provided with 3D audio generated by applying a 3D audio effect generated according to a corresponding depth level.
  • the number of audio spots may vary depending on the depth range and the depth level.
  • each audio spot may be defined as a specific position in the 3D sound space, and each audio spot is provided with 3D audio processed according to each depth level.
  • the effect of the 3D audio effect provided to each audio spot may be defined as a sound depth level.
  • the sound depth level may be determined according to the depth information of the above-described 3D video.
  • FIG. 6 is a diagram illustrating an embodiment of a 3D sound space, in which the 3D sound space shown on the left side of FIG. 6 indicates a 3D sound space when the depth_range information value is 4, and the 3D sound space shown on the right side of FIG. 6. Represents a 3D sound space when the depth_range information value is 4.
  • num_depth_levels information is different from depth_range information but used as the same information.
  • the depth_level information may have any value corresponding to a range from 0 to a value obtained by subtracting 1 from a value of depth_range information, that is, a depth_range-1 value.
  • the sound depth level of the 3D audio effect corresponding to the frame is the 3D sound depth corresponding to the audio spot closest to the user watching the TV or TV in the 3D sound space.
  • the depth_level information value is a depth_range-1 value
  • the sound depth level of the 3D audio effect corresponding to the frame is the 3D sound depth level corresponding to the audio spot farthest away from the user watching the TV or TV in the 3D sound space.
  • the 3D sound space illustrated in FIG. 6 indicates a case where the depth_level information value is 0, and is defined as a depth level corresponding to the audio spot closest to the user watching the TV.
  • FIG. 6 will be described in detail.
  • the 3D sound space shown on the left side of FIG. 6 is a 3D sound when the depth_range information value is 4, and the depth_level information value may be from 0 to 3, and the 3D sound space is divided into four audio spots according to the depth_level information value. Can lose.
  • the interval of each audio spot is constant, and each audio spot may be provided with 3D audio to which the 3D audio effect generated according to the depth_level information value is applied. Accordingly, a user located at an audio spot having a depth_levlel information value of 3 may recognize a 3D audio effect effect that is larger than a user located at an audio spot having a depth_level information value of zero.
  • the 3D sound space shown on the right side of FIG. 6 is a 3D sound space when the depth_range information value is 16, and the depth_level information value may be 0 to 15.
  • the 3D sound space can be divided into 16 audio spots according to the depth_level information value.
  • the interval of each audio spot is constant, and each audio spot may be provided with 3D audio to which the 3D audio effect generated according to the depth_level information value is applied. Accordingly, a user located at an audio spot having a depth_levlel information value of 14 may recognize a 3D audio effect effect that is larger than a user located at an audio spot having a depth_level information value of zero.
  • a user located in each audio spot may determine a difference in 3D audio provided for each audio spot. You can recognize it cleanly and accurately. That is, a user located at an audio spot having a depth_level information value of 0 may greatly recognize a difference in effects of 3D audio effects provided at each location when the user moves to an audio spot having a depth_level information value of 3.
  • the depth_range information value is large as shown in the right side of FIG. 6, since the number of audio spots according to the depth_level information value is large and the interval between the audio spots is small, the difference of 3D audio provided for each audio spot may not be large. Therefore, when the depth_range information value is large, the difference of 3D audio provided to each audio spot is not largely revealed, thereby providing a smoother sound of 3D audio to the user.
  • FIG. 7 to 9 are diagrams illustrating an embodiment of a video frame according to num_depth_levels information and depth_level_per_video_frame information described above in Tables 1 to 5.
  • depth_level_per_video_frame information is outlined and represented as depth_level. Each figure is demonstrated below.
  • FIG. 7 illustrates a video frame according to an embodiment of the present invention.
  • FIG. 7 illustrates a case in which a depth range for depth levels of all frames included in a video track is fixed, and a num_depth_levels information value for eight video frames is constant to 16.
  • the depth_level information value of each video frame may be set differently for each frame. This can be changed according to the designer's intention.
  • the transmitting side may transmit num_depth_levels information and depth_level information using the signaling methods described in Tables 1 to 4, and the receiving side generates 3D audio sound using the received information and provides the same to the user. can do.
  • FIG. 8 illustrates a video frame according to another embodiment of the present invention.
  • FIG. 8 illustrates another embodiment of the video frame described with reference to FIG. 7, wherein the num_depth_levels information value for the depth levels of all the frames included in the video track is fixed, but the depth_level information value of each video frame is the same or different. .
  • the depth_level information values of the frames 1 to 4 are the same as 3, the depth_level information values of the frames 5 and 6 are 213, and the depth_level information values of the frames 7 and 8 are 29.
  • the transmitting side may transmit num_depth_levels information and depth_level information using the signaling methods described in Tables 1 to 4, and the receiving side generates 3D audio sound using the received information to the user. Can provide.
  • FIG 9 illustrates a video frame according to another embodiment of the present invention.
  • FIG. 9 illustrates a case in which depth_level information values and num_depth_levels information values of frames included in a video track are changed, and num_depth_levels information values for eight video frames may be set differently for each predetermined frame unit. In this case, the depth_level information value of each frame may be set differently for each frame.
  • depth_level information values of frames 1 to 3 are different, but num_depth_levels information values are equal to 16.
  • the depth_level information values of the frames 4 to 6 are different, but the num_depth_levels information value is the same as 256.
  • the depth_level information values of Frame 7 and Frame 8 are different, but the num_depth_levels information value is equal to 32.
  • the transmitting side may transmit num_depth_levels information and depth_level information using the signaling methods described in Tables 1 to 4, and the receiving side generates 3D audio sound using the received information to the user. Can provide.
  • 10 to 11 are diagrams illustrating an embodiment of a video frame according to the depth range information and the depth level information described above with reference to Tables 6 to 8. Each figure is demonstrated below.
  • FIG. 10 illustrates a video frame according to another embodiment of the present invention.
  • FIG. 10 illustrates a case in which a depth range for a depth level of all frames included in a video track is fixed, and a depth_range information value for 12 video frames is constant at 16.
  • the depth_level information value of each video frame may be set the same or different for each frame.
  • the embodiment shown in FIG. 10 is the most common embodiment processed in most of the enhanced 3D audio / video processing apparatus and may be referred to as a common mode. This can be changed according to the designer's intention.
  • the transmitter may transmit depth_range information and depth_level information by using the signaling method described in Table 6 and FIG. 3, and the receiver may generate 3D audio sound using the received information and provide the same to the user. .
  • FIG. 11 is a diagram illustrating a video frame according to another embodiment of the present invention.
  • FIG. 11 illustrates a case in which a depth level and a depth range of frames included in a video track are changed, and depth_range information values for 12 video frames may be set differently for each frame.
  • the depth_level information value of each video frame may be the same or different.
  • the depth_range information values of the frames 1 to 6 are the same as 16, and the depth_range information values of the frames 7 to 12 are equal to 4.
  • the embodiment shown in FIG. 11 is an embodiment that can be used when it is necessary to generate more various 3D sound effects for various portions of video content having different 3D sound characteristics, and is called an adaptive mode. can do. This can be changed according to the designer's intention.
  • the depth_range information value of the adaptive mode may be changed in consideration of the minimum number of video frames in which the user can detect a change in the 3D sound effect. Accordingly, the adaptive mode may be described as a continuation of groups including video frames corresponding to the above-described common mode.
  • the transmitter may transmit depth_range information and depth_level information by using the signaling methods described in Tables 7 to 8 and 4 to 5, and the receiver generates 3D audio sound using the received information to the user. Can provide.
  • FIG. 12 illustrates an enhanced 3D audio / video processing apparatus according to an embodiment of the present invention.
  • An enhanced 3D audio / video processing apparatus may include a 3D content generator 1200, a depth information generator 1210, and a signal generator 1220.
  • the 3D content generator 1200 may generate 3D content including video content and audio content.
  • the 3D content refers to a content to which the 3D effect is applied to the video content and the audio content.
  • the 3D content includes a 3D content in which the 3D video effect and the 3D audio effect are synchronized.
  • the depth information generator 1210 may generate depth information of video frames constituting video content. Depth information is information for use in generating 3D audio effects as described above in FIG. 2.
  • the depth information may include the syntax described in Tables 1 to 8 and the tables described in FIGS. 3 to 5, and may be signaled through an MPEG file format. In particular, it may be signaled through a sample table box in the MPEG file format.
  • the depth information may include frame identification information, depth level information, and depth range information. Each information is briefly described below.
  • the frame identification information may be sample_index information described in Table 6.
  • the depth level information may be depth_level_per_video_frame information described in Tables 1 to 5 or depth_level information described in Tables 6 to 8. Depth level information may be set the same for video frames, differently set for each video frame, or set differently for each unit of consecutive video frames among video frames as described with reference to FIGS. 7 to 11. .
  • the depth information may further include first offset information indicating the number of consecutive video frames.
  • the first offset information may be sample_offset information described in Table 7 and FIG. 4.
  • the depth range information may be num_depth_levels information described in Tables 1 to 5 or depth_range information described in Tables 6 through 8.
  • the depth range information may be set identically to video frames as described with reference to FIGS. 7 to 11, or may be set differently for each unit of consecutive video frames among the video frames.
  • the depth information may further include second offset information indicating the number of consecutive video frames.
  • the second offset information may be sample_offset information described in Table 8 and FIG. 5.
  • the signal generator 1220 may generate a 3D enhanced signal including the generated 3D content and the generated depth information.
  • the 3D enhanced signal may be stored in a storage medium such as a CD or may be transmitted through an internet network or a broadcasting network. This can be changed according to the designer's intention.
  • FIG. 13 is a diagram illustrating an enhanced 3D audio / video processing apparatus according to another embodiment of the present invention.
  • An enhanced 3D audio / video processing apparatus includes a signal processor 1300, a depth information extractor 1310, a 3D audio effect generator 1320, and a 3D audio content generator 1330. can do.
  • the signal processor 1300 may process an enhanced 3D signal including 3D content.
  • the signal processor 1300 may separate 3D content and depth information included in the enhanced 3D signal, and may separate video content and audio content constituting the 3D content.
  • the 3D content refers to a content to which the 3D effect is applied to the video content and the audio content.
  • the 3D content includes a 3D content in which the 3D video effect and the 3D audio effect are synchronized.
  • the 3D enhanced signal may be a signal stored in a storage medium such as a CD or may be a signal received through an internet network or a broadcasting network. This can be changed according to the designer's intention.
  • the depth information extractor 1310 may extract depth information included in the processed enhanced 3D signal.
  • Depth information is information for use in generating 3D audio effects as described above in FIG. 2.
  • the depth information may include the syntax described in Tables 1 to 8 and the tables described in FIGS. 3 to 5, and may be signaled through an MPEG file format. In particular, it may be signaled through a sample table box in the MPEG file format.
  • the depth information may include frame identification information, depth level information, and depth range information. Each information is briefly described below.
  • the frame identification information may be sample_index information described in Table 6.
  • the depth level information may be depth_level_per_video_frame information described in Tables 1 to 5 or depth_level information described in Tables 6 to 8. Depth level information may be set the same for video frames, differently set for each video frame, or set differently for each unit of consecutive video frames among video frames as described with reference to FIGS. 7 to 11. .
  • the depth information may further include first offset information indicating the number of consecutive video frames.
  • the first offset information may be sample_offset information described in Table 7 and FIG. 4.
  • the depth range information may be num_depth_levels information described in Tables 1 to 5 or depth_range information described in Tables 6 through 8.
  • the depth range information may be set identically to video frames as described with reference to FIGS. 7 to 11, or may be set differently for each unit of consecutive video frames among the video frames.
  • the depth information may further include second offset information indicating the number of consecutive video frames.
  • the second offset information may be sample_offset information described in Table 8 and FIG. 5.
  • the 3D audio effect generator 1320 may generate a 3D audio effect by using the acquired depth information.
  • the 3D sound space may be divided into a plurality of audio spots as an area set for providing 3D audio.
  • Each audio spot can be defined as a specific location within the 3D sound space, and each audio spot is provided with 3D audio processed according to each depth level.
  • the effect of the 3D audio effect provided to each audio spot may be defined as a sound depth level.
  • the sound depth level may be determined according to the depth information of the 3D video described above.
  • the 3D audio content generator 1330 may generate 3D audio content by applying the 3D audio effect. Details are as described above with reference to FIG. 6.
  • FIG. 14 is a flowchart of an enhanced 3D audio / video processing method according to an embodiment of the present invention.
  • the 3D content generation unit 1200 described with reference to FIG. 12 may generate 3D content (S1400).
  • the 3D content refers to a content to which the 3D effect is applied to the video content and the audio content.
  • the 3D content includes a 3D content in which the 3D video effect and the 3D audio effect are synchronized.
  • the depth information generator 1210 described with reference to FIG. 12 may generate depth information (S1410).
  • Depth information is depth information of video frames constituting video content, and is information for use in generating 3D audio effects as described above with reference to FIG. 2.
  • the depth information may include the syntax described in Tables 1 to 8 and the tables described in FIGS. 3 to 5, and may be signaled through an MPEG file format. In particular, it may be signaled through a sample table box in the MPEG file format.
  • the depth information may include frame identification information, depth level information, and depth range information. Each information is briefly described below.
  • the frame identification information may be sample_index information described in Table 6.
  • the depth level information may be depth_level_per_video_frame information described in Tables 1 to 5 or depth_level information described in Tables 6 to 8. Depth level information may be set the same for video frames, differently set for each video frame, or set differently for each unit of consecutive video frames among video frames as described with reference to FIGS. 7 to 11. .
  • the depth information may further include first offset information indicating the number of consecutive video frames.
  • the first offset information may be sample_offset information described in Table 7 and FIG. 4.
  • the depth range information may be num_depth_levels information described in Tables 1 to 5 or depth_range information described in Tables 6 through 8.
  • the depth range information may be set identically to video frames as described with reference to FIGS. 7 to 11, or may be set differently for each unit of consecutive video frames among the video frames.
  • the depth information may further include second offset information indicating the number of consecutive video frames.
  • the second offset information may be sample_offset information described in Table 8 and FIG. 5.
  • the signal generator 1220 described with reference to FIG. 12 may generate a 3D enhanced signal including the generated 3D content and the generated depth information (S1420).
  • the 3D enhanced signal may be stored in a storage medium such as a CD or may be transmitted through an internet network or a broadcasting network. This can be changed according to the designer's intention.
  • 15 is a flowchart of an enhanced 3D audio / video processing method according to another embodiment of the present invention.
  • the signal processor 1300 described with reference to FIG. 13 may process the enhanced 3D signal (S1500).
  • the signal processor 1300 may separate 3D content and depth information included in the enhanced 3D signal, and may separate video content and audio content constituting the 3D content.
  • the 3D content refers to a content to which the 3D effect is applied to the video content and the audio content.
  • the 3D content includes a 3D content in which the 3D video effect and the 3D audio effect are synchronized.
  • the 3D enhanced signal may be a signal stored in a storage medium such as a CD or may be a signal received through an internet network or a broadcasting network. This can be changed according to the designer's intention.
  • the depth information extractor 1310 described with reference to FIG. 13 may extract depth information from the processed enhanced 3D signal (S1510).
  • Depth information is information for use in generating 3D audio effects as described above in FIG. 2.
  • the depth information may include the syntax described in Tables 1 to 8 and the tables described in FIGS. 3 to 5, and may be signaled through an MPEG file format. In particular, it may be signaled through a sample table box in the MPEG file format.
  • the depth information may include frame identification information, depth level information, and depth range information. Each information is briefly described below.
  • the frame identification information may be sample_index information described in Table 6.
  • the depth level information may be depth_level_per_video_frame information described in Tables 1 to 5 or depth_level information described in Tables 6 to 8. Depth level information may be set the same for video frames, differently set for each video frame, or set differently for each unit of consecutive video frames among video frames as described with reference to FIGS. 7 to 11. .
  • the depth information may further include first offset information indicating the number of consecutive video frames.
  • the first offset information may be sample_offset information described in Table 7 and FIG. 4.
  • the depth range information may be num_depth_levels information described in Tables 1 to 5 or depth_range information described in Tables 6 through 8.
  • the depth range information may be set identically to video frames as described with reference to FIGS. 7 to 11, or may be set differently for each unit of consecutive video frames among the video frames.
  • the depth information may further include second offset information indicating the number of consecutive video frames.
  • the second offset information may be sample_offset information described in Table 8 and FIG. 5.
  • the 3D audio effect generator 1320 described with reference to FIG. 13 may generate a 3D audio effect by using the acquired depth information (S1520).
  • the 3D sound space may be divided into a plurality of audio spots as an area set for providing 3D audio.
  • Each audio spot can be defined as a specific location within the 3D sound space, and each audio spot is provided with 3D audio processed according to each depth level.
  • the effect of the 3D audio effect provided to each audio spot may be defined as a sound depth level.
  • the sound depth level may be determined according to the depth information of the 3D video described above.
  • the 3D audio content generation unit 1330 described with reference to FIG. 13 may generate 3D audio content by applying the 3D audio effect (S1530). Details are as described above with reference to FIG. 6.
  • the present invention may be applied in whole or in part to a digital broadcasting system or an enhanced 3D AV device.

Abstract

본 발명의 일 실시예에 따른 인핸스드 3D 오디오/비디오 처리 장치는 비디오 컨텐츠 및 오디오 컨텐츠를 포함하는 3D (3-Dimentional) 컨텐츠를 생성하는 3D 컨텐츠 생성부, 비디오 컨텐츠를 구성하는 비디오 프레임들의 뎁스 정보를 생성하는 뎁스 정보 생성부 및 생성된 3D 컨텐츠와 상기 뎁스 정보를 포함하는 3D 인핸스드 (enhanced) 신호를 생성하는 신호 생성부를 포함할 수 있다, 또한 본 발명의 다른 실시예에 따른 인핸스드 3D 오디오/비디오 처리 장치는 비디오 컨텐츠 및 오디오 컨텐츠를 포함하는 3D 컨텐츠를 포함하는 3D 인핸스드 신호를 처리하는 신호 처리부, 처리된 3D 인핸스드 신호로부터 상기 비디오 컨텐츠를 구성하는 비디오 프레임들의 뎁스 정보를 획득하는 뎁스 정보 추출부, 획득한 뎁스 정보에 따라 3D 오디오 이펙트를 생성하는 3D 오디오 이펙트 생성부 및 생성된 3D 오디오 이펙트를 적용하여 3D 오디오 컨텐츠를 생성하는 3D 오디오 컨텐츠 생성부를 포함할 수 있다.

Description

인핸스드 3D 오디오/비디오 처리 장치 및 방법
본 발명은 인핸스드 3D 오디오 및 비디오 처리 방법 및 장치에 관한 것으로, 보다 상세하게는 MPEG 파일 포맷 (MPEG file format)을 이용하여 3D 비디오 뎁스(depth)에 따른 3D 오디오 뎁스를 콘트롤하기 위한 뎁스 관련 정보를 시그널링 하는 인핸스드 3D 오디오/비디오 처리 방법 및 장치에 관한 것이다.
3차원 텔레비젼(3-Dimensional Television, 3DTV)의 보급이 본격화됨에 따라 저장 매체에 의한 3D(3차원) 비디오 컨텐츠 보급뿐만 아니라 디지털 방송에 의한 3D 비디오 컨텐츠의 전송이 활성화되고 있다. 또한 비디오 컨텐츠 뿐만 아니라 오디오 컨텐츠에도 3D 효과를 적용한 3D 오디오 컨텐츠의 보급 및 전송이 활성화 되고 있다.
이러한 디지털 기술 발달에 따라, 사용자들은 보다 정교한 오디오/비디오 익스페리언스(experience)를 요구하고 있다. 이러한 사용자 요구에 따라 오디오/ 비디오 익스페리언스를 극대화 하기 위하여 일반 홈 시어터 시스템(Home Theater System, 이하 HTS라 호칭한다)에서도 적용될 수 있는 스테레오 사운드(stereo sound) 및 서라운드 사운드(surround sound) 기술을 채용한 어드밴스드 사운드 시스템(advanced sound system)이 등장하게 되었다.
대부분의 TV나 HTS는 두 개의 스피커들을 구비하고 있기 때문에 사용자들에게 사운드 익스페리언스를 제공하기 위하여 스테레오 사운드 시스템을 사용하는 것이 일반적이다. 하지만 하이 엔드 (high-end) HTS의 경우에는 두 개 이상의 스피커들을 구비할 수 있으므로, 사용자들에게 보다 잔잔하고 정교한 사운드 익스페리언스를 제공하기 위하여 서라운드 사운드 시스템을 사용하고 있다.
최근에는, 3D 사운드 공간 내의 방향 및 거리를 재생산하여 3D 사운드 이펙트를 생성하여 3D 사운드를 제공하는 3D 오디오 기술이 각광을 받고 있다. 3D 오디오 기술에 있어서, 사운드 재생산이 콘트롤된 어쿠스틱 스윗 스팟(acoustic sweet spot), 즉 사용자들이 가장 좋은 소리를 들을 수 있는 위치 또는 범위는 3D 공간 및 사용자의 청각의 일부분이 될 수 있다.
또한 컨텐츠마다 3D 비디오 및 3D 오디오 기술을 각각 적용할 수 있게 됨으로써, 3D 비디오 기술과 3D 오디오 기술이 함께 적용된 3D 컨텐츠에 대한 요구가 증가되고 있다. 즉, 기존의 3D 비디오 및 3D 오디오 기술을 개별적으로 사용하여 3D 비디오 효과와 3D 오디오 효과가 독립적으로 적용된 3D 컨텐츠를 넘어서서, 3D 비디오 효과와 3D 오디오 효과가 싱크로나이즈된 3D 컨텐츠에 대한 요구가 증대되고 있다.
본 발명이 이루고자 하는 기술적 과제는 상술한 3D 비디오 효과와 3D 오디오 효과를 싱크로나이즈 하기 위하여, 3D 비디오의 뎁스에 따라 3D 오디오 이펙트를 생성하기 위해 뎁스 정보를 MPEG 파일 포맷을 이용하여 시그널링 하는 인핸스드 3D 오디오/비디오 처리 방법 및 장치를 제공하는 데에 있다.
전술한 기술적 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 인핸스드 3D 오디오/비디오 처리 방법은 비디오 컨텐츠 및 오디오 컨텐츠를 포함하는 3D (3-Dimentional) 컨텐츠를 생성하는 단계, 상기 비디오 컨텐츠를 구성하는 비디오 프레임들의 뎁스 정보를 생성하는 단계로서, 상기 뎁스 정보는 상기 오디오 컨텐츠에 적용될 3D 오디오 이펙트를 생성하는데 사용되고, 상기 뎁스 정보는 프레임 식별 정보, 뎁스 레벨 (depth level) 정보 및 뎁스 레인지 (depth range) 정보를 포함하고, 상기 프레임 식별 정보는 각 비디오 프레임을 식별하기 위한 프레임의 번호를 지시하고, 상기 뎁스 레벨 정보는 각 비디오 프레임에 적용되는 3D 효과의 크기를 지시하고, 상기 뎁스 레인지 정보는 상기 뎁스 레벨의 전체 레벨 개수를 지시하고, 상기 생성된 3D 컨텐츠와 상기 뎁스 정보를 포함하는 3D 인핸스드 (enhanced) 신호를 생성하는 단계를 포함할 수 있다.
또한 본 발명의 다른 실시예에 따른 인핸스드 3D 오디오/비디오 처리 방법은, 비디오 컨텐츠 및 오디오 컨텐츠를 포함하는 3D (3-Dimentional) 컨텐츠를 포함하는 3D 인핸스드 (enhanced) 신호를 처리하는 단계, 상기 처리된 3D 인핸스드 신호로부터 상기 비디오 컨텐츠를 구성하는 비디오 프레임들의 뎁스 정보를 획득하는 단계로서, 상기 뎁스 정보는 프레임 식별자, 뎁스 레벨 (depth level) 정보 및 뎁스 레인지 (depth range) 정보를 포함하고, 상기 프레임 식별 정보는 각 비디오 프레임을 식별하기 위한 프레임의 번호를 지시하고, 상기 뎁스 레벨 정보는 각 비디오 프레임에 적용되는 3D 효과의 크기를 지시하고, 상기 뎁스 레인지 정보는 상기 뎁스 레벨의 전체 레벨 개수를 지시하고, 상기 획득한 뎁스 정보에 따라 3D 오디오 이펙트를 생성하는 단계 및 상기 생성된 3D 오디오 이펙트를 적용하여 3D 오디오 컨텐츠를 생성하는 단계를 포함할 수 있다.
본 발명에 따르면, 인핸스드 3D AV 장치는 3D 비디오 뎁스에 따른 시그널링 정보를 이용하여 3D 사운드 이펙트를 생성할 수 있으므로 보다 3D 비디오와 3D 오디오가 정확히 싱크로나이즈된 3D 컨텐츠를 제공할 수 있다.
또한 본 발명에 따르면, 인핸스드 3D AV 장치는 3D 비디오 뎁스에 따른 시그널링 정보를 이용하여 3D 사운드 이펙트를 생성할 수 있으므로 장치 설계의 복잡도가 감소될 수 있다.
또한 본 발명에 따르면, 3D 비디오 뎁스에 따른 시그널링 정보를 전송할 때, 중복되는 정보를 제거하여 전송하므로 보다 높은 전송 효율을 획득할 수 있다.
도 1은 오디오 시스템의 발전 과정을 나타낸 개념도이다.
도 2는 인핸스드 3D 오디오/비디오 처리 장치를 나타낸 개념도이다
도 3은 본 발명의 일 실시예에 따른 뎁스 테이블을 나타낸 도면이다.
도 4는 본 발명의 다른 실시예에 따른 뎁스 테이블을 나타낸 도면이다.
도 5는 본 발명의 다른 실시예에 따른 뎁스 테이블을 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 3D 사운드 스페이스를 나타낸 도면이다.
도 7은 본 발명의 일 실시예에 따른 비디오 프레임을 나타낸 도면이다.
도 8은 본 발명의 다른 실시예에 따른 비디오 프레임을 나타낸 도면이다.
도 9는 본 발명의 또 다른 실시예에 따른 비디오 프레임을 나타낸 도면이다.
도 10은 본 발명의 또 다른 실시예에 따른 비디오 프레임을 나타낸 도면이다.
도 11은 본 발명의 또 다른 실시예에 따른 비디오 프레임을 나타낸 도면이다.
도 12는 본 발명의 일 실시예에 따른 인핸스드 3D 오디오/비디오 처리 장치를 나타낸 도면이다.
도 13은 본 발명의 다른 실시예에 따른 인핸스드 3D 오디오/비디오 처리 장치를 나타낸 도면이다.
도 14는 본 발명의 일 실시예에 따른 인핸스드 3D 오디오/비디오 처리 방법의 플로우 차트이다.
도 15는 본 발명의 다른 실시예에 따른 인핸스드 3D 오디오/비디오 처리 방법의 플로우 차트이다.
이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시예를 상세하게 설명하지만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다.
본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당분야에 종사하는 기술자의 의도 또는 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 가지는 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.
디지털 기술이 발달함에 따라, 사용자들은 보다 정교한 오디오/ 비디오 익스페리언스(experience)를 요구하고 있다. 이러한 사용자 요구에 따라 오디오/ 비디오 익스페리언스를 극대화 하기 위하여 일반 홈 시어터 시스템(Home Theater System, 이하 HTS라 호칭한다)에서도 적용될 수 있는 스테레오 사운드(stereo sound) 및 서라운드 사운드(surround sound) 기술을 채용한 어드밴스드 사운드 시스템(advanced sound system)이 등장하게 되었다.
대부분의 TV나 HTS는 두 개의 스피커들을 구비하고 있기 때문에 사용자들에게 사운드 익스페리언스를 제공하기 위하여 스테레오 사운드 시스템을 사용하는 것이 일반적이다. 하지만 하이 엔드 (high-end) HTS의 경우에는 두 개 이상의 스피커들을 구비할 수 있으므로, 사용자들에게 보다 잔잔하고 정교한 사운드 익스페리언스를 제공하기 위하여 서라운드 사운드 시스템을 사용하고 있다.
최근에는, 3D 사운드 스페이스내의 사운드 소스에 대해 방향 및 거리를 재생산하여 3D 오디오 이펙트를 생성하는 것을 목표로 하는 3D 오디오 기술이 각광을 받고 있다. 3D 오디오 기술에 있어서, 사운드 재생산이 콘트롤된 어쿠스틱 스윗 스팟(acoustic sweet spot), 즉 사용자들이 가장 좋은 소리를 들을 수 있는 위치 또는 범위는 3D 공간 및 사용자의 청각의 일부분이 될 수 있다.
또한 기술의 발전으로, 컨텐츠마다 3D 비디오 및 3D 오디오 기술을 각각 적용할 수 있게 됨으로써, 3D 비디오 기술과 3D 오디오 기술이 함께 적용된 3D 컨텐츠에 대한 요구가 증가되고 있다. 즉, 기존에 3D 비디오 및 3D 오디오 기술을 개별적으로 사용하여 3D 비디오 효과와 3D 오디오 효과가 독립적으로 적용된 3D 컨텐츠를 넘어서서, 3D 비디오 효과와 3D 오디오 효과가 싱크로나이즈되어 적용된 3D 컨텐츠에 대한 요구가 증대되고 있다.
이 경우, 3D 오디오의 뎁스(depth)가 3D 비디오의 뎁스와 정확하게 싱크로나이즈된다면, 사용자에게 정교한 인핸스드 3D 오디오/비디오 익스페리언스를 제공할 수 있을 것이다.
따라서 본 발명에서는 MPEG 파일 포맷을 이용하여 3D 비디오의 뎁스에 따라 3D 오디오 사운드의 뎁스를 컨트롤링 하기 위한 뎁스 정보를 시그널링 하는 인핸스드 3D 오디오/비디오 처리 방법 및 장치를 제공하고자 한다.
도 1은 오디오 시스템의 발전 과정을 나타낸 개념도이다. 도 1에 도시된 바와 같이 오디오 시스템은 두 채널의 스테레오 오디오 시스템에서부터 인핸스드 3D 오디오/비디오 시스템으로 발전해왔다. 이하 각 도면에 대해 간략히 설명한다.
도 1의 (a)은 스테레오 오디오 시스템을 도시하고 있으며, 도 1의 (b)는 서라운드 오디오 시스템을 도시하고 있다. 도 1의 (c)는 본 발명에서 제안하는 인핸스드 3D 오디오 시스템을 도시하고 있다.
스테레오 오디오 시스템은 도 1의 (a)에 도시된 바와 같이 일반적인 TV 또는 HTS에 구비된 두 개의 스피커들, 즉 두 개의 채널을 통해 사용자에게 오디오 사운드를 제공할 수 있다. 서라운드 오디오 시스템은 도 1의 (b)에 도시된 바와 같이 두 개 이상의 스피커들, 즉 두 개 이상의 채널들을 통하여 사용자에게 오디오 사운드를 제공할 수 있다. 서라운드 오디오 시스템의 경우, 스테레오 오디오 시스템에서 사용된 두 개의 채널을 통해 기본 오디오 사운드를 제공하되, 오디오 시스템의 정면 또는 측면, 후면 등에 설치된 추가 스피커를 통해 추가 오디오 사운드를 제공함으로써 입체적인 사운드 효과를 생성할 수 있다.
도 1의 (c)에 도시된 인핸스드 3D 오디오/비디오 시스템은 사용자들을 둘러 싸고 있는 복수의 채널들을 가질 수 있을 뿐만 아니라, 비디오 컨텐츠에서 획득한 뎁스 정보를 이용하여 3D 사운드 스페이스 내에서 제공되는 3D 오디오에 적용될 3D 오디오 이펙트를 생성할 수 있다. 3D 사운드 스페이스는 3D 오디오를 제공하기 위해 설정되는 영역으로 복수 개의 뎁스 레벨에 따라 복수개의 오디오 스팟(spot)으로 나누어질 수 있다. 각 오디오 스팟은 3D 사운드 스페이스 내의 특정 위치로 정의 될 수 있으며, 각각의 오디오 스팟에는 각 뎁스 레벨에 따라 처리된 3D 오디오가 제공된다. 또한 본 발명에서는 각 오디오 스팟에 제공되는 3D 오디오 이펙트의 효과를 사운드 뎁스 레벨로 정의할 수 있다. 또한 사운드 뎁스 레벨은 상술한 3D 비디오의 뎁스 정보에 따라 결정 될 수 있다. 따라서, 비디오 컨텐츠의 뎁스 정보를 획득하여 3D 사운드 스페이스의 오디오 스팟에 해당하는 3D 오디오 이펙트를 생성하고, 현재 비디오 컨텐츠에 대응하는 오디오 컨텐츠에 생성한 3D 오디오 이펙트를 적용하여 사용자에게 높은 퀄리티의 3D 오디오/비디오 익스페리언스를 제공할 수 있다. 인핸스드 3D 오디오/비디오 시스템은 두 개의 채널을 사용할 수 있고, 그 이상의 복수개의 채널들을 사용할 수도 있다.
도 2는 인핸스드 3D 오디오/비디오 처리 장치를 나타낸 개념도이다.
도 2에 도시된 바와 같이, 인핸스드 3D 오디오/비디오 처리 장치는 비디오 엔진(210) 및 오디오 엔진(220)을 포함할 수 있다. 비디오 엔진(210)은 뎁스 맵 모듈(211) 및 뎁스 분석 모듈(212)를 포함할 수 있으며, 오디오 엔진(220)은 사운드 필터링 모듈(221) 및 3D 사운드 이펙트 생성 모듈(222)을 포함할 수 있다. 이하 각 모듈에 대해 간략히 설명한다.
비디오 엔진(210)에 포함된 뎁스 맵 모듈(211)은 3D 비디오 스트림으로부터 3D 비디오 컨텐츠를 구성하는 레프트 뷰 이미지(left view image) 및 라이트 뷰 이미지 (right view image)를 전달하는 레프트 프레임(left frame) 및 라이트 프레임(right frame)에 대한 뎁스 맵(depth map)을 추출할 수 있다.
일반적으로 3D 비디오 컨텐츠는 두 눈의 스테레오(stereo) 시각 원리를 이용하여 입체 효과를 제공한다. 인간은 두 눈의 시차, 다시 말해 약 65mm 정도 떨어진 두 눈 사이의 간격에 의한 양안 시차(binocular parallax)를 통해 원근감을 느끼므로, 3D 영상은 좌안과 우안이 각각 연관된 레프트 뷰 이미지 및 라이트 뷰 이미지를 제공하여 입체감과 원근감을 제공할 수 있다. 따라서 입체 효과를 위하여 레프트 프레임 및 라이트 프레임은 페어로 묶여 있다.
뎁스(depth)는 이러한 입체 효과 즉, 3D 효과의 양을 나타내는 것으로서 수치화된 일정 단위로 표현될 수 있다. 이는 설계자의 의도에 따라 변경 가능하다. 본 발명의 일 실시예에 따른 페어 프레임들의 뎁스는 페어를 구성하고 있는 각 프레임마다 같거나 다르게 설정될 수 있다.
뎁스 맵 모듈(211)은 각 프레임마다 설정되어 있는 뎁스에 관한 정보를 추출하여 각 프레임에 해당하는 뎁스 정보를 지시하는 뎁스 맵을 생성할 수도 있으며, 3D 비디오 스트림 내에 이미 포함되어 있는 뎁스 맵을 추출할 수도 있다. 뎁스 분석 모듈(212)은 생성된 뎁스 맵 또는 추출된 뎁스 맵을 분석하여 각 페어 프레임에 대한 대표 비디오 뎁스 레벨들을 결정할 수 있다. 이후 비디오 엔진(210)은 뎁스 분석 모듈(212)에서 결정된 비디오 뎁스 레벨들을 오디오 엔진(220)으로 전송할 수 있다.
오디오 엔진(220)에 포함된 사운드 필터링 모듈(221)은 오디오 사운드를 필터링 할 수 있다. 이후 3D 사운드 이펙트 생성 모듈(222)은 필터링된 오디오 사운드에 3D 효과를 나타낼 수 있는 3D 오디오 이펙트(또는 3D 사운드 이펙트)를 생성 또는 결정할 수 있다. 3D 오디오 이펙트의 사운드 뎁스 레벨은 상술한 비디오 뎁스 레벨에 따라 결정되므로 결과적으로 3D 오디오의 뎁스 레벨과 3D 비디오의 뎁스 레벨은 싱크로나이즈될 수 있다.
하지만 도 2에 도시된 인핸스드 3D 오디오 및 비디오 처리 장치의 경우, 다음과 같은 문제점이 발생한다.
첫째로, 장치의 설계에 요구되는 높은 개발 비용 및 제품 비용이 문제될 수 있다. 상술한 인핸스드 3D 오디오 및 비디오 처리 장치의 경우, 비디오 엔진(210)의 역할은 3D 비디오 뎁스 레벨들을 결정하는 것이고, 오디오 엔진(220)의 역할은 이에 대응하는 3D 오디오 이펙트를 생성하는 것이다. 따라서 3D 비디오 뎁스 레벨들을 결정할 수 있는 비디오 엔진을 설계하기 위해서는 높은 개발 비용 및 제품 비용이 요구될 수 있다.
둘째로, 장치 설계에 있어서 디자인의 복잡성의 증가가 문제될 수 있다. 일반적으로 오디오 엔진에 비해 높은 퀄리티의 3D 비디오를 실시간 처리하기 위한 비디오 엔진의 설계 디자인은 더 높은 복잡성이 요구된다. 따라서 실시간으로 비디오 엔진과 오디오 엔진을 싱크로나이즈 하기 위한 장치는 디자인 설계 측면에 있어서 추가적인 복잡성이 요구 될 수 있다.
마지막으로, 뎁스 레벨의 낮은 정확도 및 만족도가 문제 될 수 있다. 현재 서비스되고 있는 3D 컨텐츠는 3D 비디오의 분석 결과로 얻어진 뎁스 레벨들과 싱크로나이즈된 3D 오디오 이펙트들을 반드시 포함할 필요가 없다. 따라서 높은 디자인 복잡성과 높은 비용에도 불구하고 인핸스드 3D 오디오 및 비디오 처리 장치를 개발한다 하더라도, 3D 오디오 이펙트를 조절하기 위한 뎁스 레벨의 정확성이 낮아 3D 오디오 컨텐츠의 퀄리티가 3D 비디오 컨텐츠의 퀄리티와 비교할 때 낮을 수 있다. 더욱이, 3D 비디오 컨텐츠에 적용된 3D 효과는 가변적이기 때문에 각 비디오 프레임들에 대한 뎁스 레벨의 정확도가 떨어질 수 있다.
따라서 본 발명에서는 상술한 문제점들을 해결하기 위해 MPEG 파일 포맷을 통해 인핸스드 3D 오디오/비디오 컨텐츠를 지원할 수 있는 뎁스 정보를 시그널링하는 방법을 제시하고자 한다.
상술한 3D 컨텐츠를 구성하는 비디오 이미지들 또는 오디오 데이터들은 MPEG (Moving Picture Experts Group)을 포함하는 다양한 방법으로 압축 부호화될 수 있다. 예를 들어, 3D 비디오 컨텐츠를 구성하는 이미지들 또는 3D 오디오 컨텐츠를 구성하는 오디오 데이터들은 MPEG 또는 H.264/AVC(Advanced Video Coding) 코딩 방식으로 압축 부호화될 수 있다. 이때 수신측은 MPEG 또는 H.264/AVC 코딩 방식의 역으로 각각 비디오 이미지들 및 오디오 데이터들을 복호하여 3D 컨텐츠를 획득할 수 있다.
MPEG 파일 포맷은 MPEG 방식으로 압축된 3D 컨텐츠를 구성하는 비디오 및 오디오 스트림을 전송하기 위해 사용될 수 있으며, 기타 부가 데이터를 포함하는 멀티미디어 컨테이너 포맷이다. 구체적으로 MPEG 파일 포맷은 실제 비디오/오디오 스트림의 데이터를 포함하는 미디어 데이터 컨테이너 (media data container) 및 컨텐츠와 관련된 정보 또는 파일을 재생하기 위한 정보 등을 포함하는 메타 데이터 컨테이너 (meta data container)를 포함할 수 있다. 본 발명에서는 미디어 데이터 컨테이너는 미디어 데이터 박스(media data box)로 호칭하고, 메타 데이터 컨테이너는 메타 데이터 박스(meta data box)로 호칭하는 것을 일 실시예로 할 수 있다. 각 컨테이너들은 각각 식별되는 하위 박스(box, 또는 atom)들을 포함할 수 있다.
미디어 데이터 컨테이너는 비디오/오디오 스트림의 데이터를 프레임 단위로 저장할 수 있다. 메타 데이터 컨테이너는 비디오/오디오 스트림에 대한 비디오/오디오 트랙(track)들과 샘플 테이블 박스(sample table box)을 포함할 수 있다.
비디오/오디오 샘플은 프레임 단위로 저장된 비디오/오디오 스트림에 접근하기 위한 억세스 유닛(access unit)으로, 각 샘플은 각 비디오 프레임/ 오디오 프레임의 데이터를 의미한다. 본 발명에서는 샘플을 프레임이라 호칭하는 것을 일 실시예로 한다. 또한 비디오/오디오 트랙은 관련된 비디오/오디오 샘플들의 집합을 의미한다. 샘플 테이블 박스는 각 트랙에 포함된 샘플들의 타이밍(timing) 및 피지컬 레이아웃(Physical layout)을 위한 인덱스(index)를 포함할 수 있다.
따라서, 3D 컨텐츠 전송/제공측은 MPEG 파일 포맷을 통하여 상술한 뎁스 정보를 시그널링하고, 수신측은 MPEG 파일 포맷을 통해 시그널링된 뎁스 관련 정보를 디텍팅하여 3D 사운드 뎁스를 결정하여 3D 오디오 이펙트를 생성하고, 사용자에게 인핸스드 3D 컨텐츠를 제공할 수 있다. 즉, 도 2에서 설명한 바와 같이 비디오 뎁스 레벨을 실시간으로 추출하거나 처리하지 않고, MPEG 파일 포맷에 포함된 뎁스 정보를 이용하여 3D 오디오 이펙트를 생성할 수 있으므로, 보다 높은 퀄리티의 인핸스드 3D 컨텐츠를 제공할 수 있다.
이하에서는 상술한 뎁스 정보를 MPEG 파일 포맷을 통해 전송하는 시그널링 방법을 설명한다.
본 발명의 일 실시예에 따른 뎁스 정보는 상술한 샘플 테이블 박스에 포함될 수 있으며 이는 설계자의 의도에 따라 변경 가능하다. 특히 본 발명의 일 실시예에 따른 뎁스 정보는 3D 오디오 이펙트의 사운드 뎁스 레벨을 조절하기 위한 비디오 프레임의 뎁스 레벨(depth level) 정보 또는 뎁스 레인지(depth range)정보 등을 포함할 수 있으며, 이는 설계자의 의도에 따라 변경 가능하다. 본 발명의 일 실시예에 따른 뎁스 정보는 각 비디오 트랙마다 시그널링 될 수 있다. 이 경우, 뎁스 정보는 num_depth_levels 정보를 포함할 수 있다. num_depth_levels 정보는 3D 오디오 이펙트의 사운드 뎁스를 조절하기 위한 뎁스 레벨(depth level)의 개수를 지시하는 정보로서, 비디오 프레임마다 정의된 뎁스 레벨의 개수와 동일하다. 뎁스 레벨 값은 1부터 9까지 총 9개의 레벨 값을 포함할 수 있으며, num_depth_levels 정보는 1부터 9까지의 뎁스 레벨에 따라 각각 1, 2, 4, 8, 16, 32, 64, 128, 256의 값을 가질 수 있다. 또한 num_depth_levels는 각 비디오 트랙에 해당하는 뎁스 레벨들의 개수를 지시할 수 있다.
본 발명의 일 실시예에 따른 num_depth_levels 정보는 상술한 샘플 테이블 박스 내의 샘플 엔트리 엘레먼트인 VisualsampleEntry 또는 AudioSampleEntry에 포함될 수 있으며, 샘플 테이블 박스에 포함되는 하위 박스인“DepthLevelsFor3DAVBox”에 포함될 수 있다. “DepthLevelsFor3DAVBox”의 명칭은 설계자의 의도에 따라 변경가능하며, “DepthLevelsFor3DAVBox”는 상술한 샘플 엔트리 엘레먼트인 VisualSamepleEntry 또는 AudioSampleEntry 에 포함될 수 있고, 또 다른 샘플 엔트리 엘레먼트인 MetadataSamepleEntry 에 포함될 수 있다. 이는 설계자의 의도에 따라 변경 가능하다.
하기의 표 1은 본 발명의 일 실시예에 따른 신택스(syntax)로서, num_depth_levels 정보를 VisualsampleEntry를 통해 시그널링 하는 경우를 나타낸다. 표 2는 본 발명의 다른 실시예에 따른 신택스로서 num_depth_levels 정보를 AudiosampleEntry를 통해 시그널링 하는 경우를 나타낸다.
표 1
Figure PCTKR2013006103-appb-T000001
표 2
Figure PCTKR2013006103-appb-T000002
하기 표 3은 본 발명의 또 다른 실시예에 따른 신택스로서, num_depth_levels 정보를 상술한 “DepthLevelsFor3DAVBox”를 통해 시그널링 하는 경우를 나타낸다. 상술한 바와 같이, DepthLevelsFor3DAVBox”는 상술한 샘플 엔트리 엘레먼트인 VisualSamepleEntry 또는 AudioSampleEntry 에 포함될 수 있고, 또 다른 샘플 엔트리 엘레먼트인 MetadataSamepleEntry 에 포함될 수 있다, 표 3의 “DepthLevelsFor3DAVBox”는 VisualSamepleEntry에 포함된 경우를 나타낸다.
표 3
Figure PCTKR2013006103-appb-T000003
본 발명의 일 실시예에 따른 뎁스 정보는 각 비디오 샘플, 즉 비디오 프레임 마다 시그널링 될 수 있다. 이 경우 뎁스 정보는 depth_level_per_video_frame 정보를 포함할 수 있다. depth_level_per_video_frame 정보는 각 비디오 프레임 마다 정의된 뎁스 레벨 정보를 지시하는 정보로서, 비디오 프레임에 대응하는 오디오 컨텐츠에 적용되는 3D 오디오 이펙트의 사운드 뎁스를 결정하기 위해 사용될 수 있다.
구체적으로, depth_level_per_video_frame 정보는 0 부터 상술한 num_depth_levels 정보의 밸류(value)에서 1을 뺀 값, 즉, num_depth_levels-1 값까지의 범위에 해당하는 어느 하나의 값을 가질 수 있다. depth_level_per_video_frame 정보 값이 0인 경우, 해당 프레임에 대응하는 3D 오디오 이펙트의 사운드 뎁스 레벨은 3D 사운드 스페이스 내에서 티비 또는 티비를 시청하는 사용자와 가장 가까운 오디오 스팟에 대응하는 3D 사운드 뎁스 레벨로 정의 될 수 있다. 또한, depth_level_per_video_frame 정보 값이 num_depth_levels-1 값인 경우, 해당 프레임에 대응하는 3D 오디오 이펙트의 사운드 뎁스 레벨은 3D 사운드 스페이스 내에서 티비 또는 티비를 시청하는 사용자로부터 가장 먼 오디오 스팟에 대응하는 3D 사운드 뎁스 레벨로 정의 될 수 있다.
표 4는 본 발명의 또 다른 실시예에 따른 신택스로서 depth_level_per_video_frame 정보가 상술한“DepthFor3DAVBox”에 포함된 경우를 나타낸다.
표 4
Figure PCTKR2013006103-appb-T000004
표 4에 도시된 샘플 카운트(sample count)값은 메타 데이터 컨테이너에 포함된 샘플 사이즈 박스(sample size box)에서 도출될 수 있다.
상술한 바와 같이 3D 컨텐츠 전송/제공기는 표 1 내지 4에 도시된 MPEG 파일 포맷의 신택스를 이용하여 num_depth_levels 정보 및 depth_level_per_video_frame 정보를 시그널링 할 수 있으며, 수신기는 표 1 내지 4에 도시된 MPEG 파일 포맷의 신택스에 포함된 num_depth_levels 정보 및 depth_level_per_video_frame 정보를 디텍팅 하여 3D 사운드 뎁스를 결정할 수 있다. 하지만 이 경우, 각 샘플마다 depth_level_per_video_frame 정보 값이 정의되어야 하므로, 신택스 내의 depth_level_per_video_frame 정보의 용량이 문제될 수 있다.
따라서 본 발명에서는 샘플들에 대한 depth_level_per_video_frame 정보 값을 줄이고 효율적인 시그널링을 위하여, 샘플들을 그룹핑한 샘플 그룹별로 뎁스 정보를 지시하는 시그널링 방법을 제안한다. 이 경우 상술한 num_depth_levels 정보 및 depth_level_per_video_frame 정보는 두 개의“DepthLevelsGroupFor3DAV” 를 통해 각각 시그널링 될 수 있다.
표 5는 본 발명의 또 다른 실시예에 따른 신택스로서, 샘플들을 그룹핑한 샘플 그룹별로 뎁스 정보를 지시하기 위하여 num_depth_levels 정보 및 depth_level_per_video_frame 정보를 상술한 “DepthLevelsGroupFor3DAVBox” 를 통해 각각 시그널링 하는 경우를 나타낸다.
표 5
Figure PCTKR2013006103-appb-T000005
표 5에 도시된 바와 같이, 두 개의“DepthLevelsGroupFor3DAV extends FullBox”들은 모두 entry_count정보 및 group_description_index 정보를 포함할 수 있다.
entry_count정보는 작업이 처리되는 엔트리의 번호를 지시하는 정보로서 정수(integer) 값을 갖는다. 또한 group_description_index 정보는 현재 그룹내의 샘플들을 표현하는 동일한 샘플 그룹 엔트리의 인덱스를 지시하는 정보로서 정수(integer) 값을 갖는다. group_description_index 정보는 메타 데이터 컨테이너에 포함된 샘플투그룹박스(SampleToGroupBox)에 포함될 수 있다. 또한 표 5에 도시된 바와 같이, “DepthLevelsGroupFor3DAV extends FullBox”는 각 샘플 그룹내의 num_depth_levels 정보를 포함할 수 있으며, 각 샘플 그룹내의 num_depth_levels 정보는 3D 비디오의 그룹 내에 있는 전체 샘플들에 대한 num_depth_levels 정보와 동일할 수 있다.
또한,“DepthLevelsGroupFor3DAV extends FullBox”내에 depth_level_per_video_frame 정보가 포함되므로, 각 샘플 그룹에 포함된 샘플들에는 동일한 depth_level_per_video_frame 정보 값이 적용될 수 있다.
상술한 바와 같이 본 발명의 일 실시예에 따른 뎁스 정보는 샘플 테이블 박스 내의 샘플 엔트리 엘레먼트등을 통해 시그널링 될 수 있다. 이하에서는, 본 발명의 일 실시예에 따른 샘플 테이블 내에 포함된 박스를 통해 다양한 뎁스 정보를 시그널링 하는 방법을 설명한다.
표 6은 본 발명의 또 다른 실시예에 따른 신택스로서, 샘플 테이블 박스 내의 “DepthLevelsGroupFor3DAVBox” 를 통해 뎁스 정보를 시그널링 하는 경우를 나타낸다.
표 6
Figure PCTKR2013006103-appb-T000006
이 경우, 시그널링 되는 뎁스 정보는 표 6에 도시된 바와 같이 entry_counter 정보, sample_index 정보, depth_level 정보 및 depth_range 정보를 포함할 수 있다. 이하 각 정보에 대해 설명한다.
entry_counter 정보는 후술할 뎁스 테이블 내의 엔트리 번호를 지시하는 정보로서 정수 값을 가질 수 있다.
sample_index 정보는 현재 비디오 트랙내의 각 샘플, 즉 프레임들의 인덱스 번호를 지시하는 정보로서, 프레임의 번호를 지시할 수 있다. 정수 값을 가질 수 있다.
depth_range 정보는 3D 사운드 뎁스를 조절하기 위해 사용되는 뎁스 레벨의 전체 레벨 개수를 지시하는 정보로서, 상술한 num_depth_levels 정보와 명칭은 다르나 동일한 정보를 전달할 수 있다. 즉, 뎁스 레벨의 범위를 지시할 수 있다. 따라서 depth_range가 0이면, depth_level 정보는 아무런 의미를 가지지 않는다.
depth_level 정보는 비디오 프레임에 대응하는 오디오 컨텐츠에 적용할 3D 오디오 이펙트를 생성하기 위해 사용되는 정보로서, 구체적으로 3D 오디오 이펙트의 사운드 뎁스 레벨은 depth_level 정보에 따라 결정될 수 있다. depth_level 정보는 각 비디오 프레임의 뎁스 레벨을 나타내며, 상술한 depth_level_per_video_frame 정보와 명칭은 다르나 동일한 정보를 전달 할 수 있다. 따라서, depth_level 정보는 depth_level_per_video_frame 정보와 같이, 0 부터 상술한 depth_range 정보 값에서 1을 뺀 값, 즉, depth_range-1 값까지의 범위에 해당하는 어느 하나의 값을 가질 수 있다. 또한 depth_level 정보 값이 0인 경우, 해당 프레임에 대응하는 3D 오디오 이펙트의 사운드 뎁스 레벨은 3D 사운드 스페이스 내에서 티비 또는 티비를 시청하는 사용자와 가장 가까운 오디오 스팟에 해당하는 3D 사운드 뎁스 레벨로 정의될 수 있다. 또한, depth_level 정보 값이 depth_range-1 값인 경우, 해당 프레임에 대응하는 3D 오디오 이펙트의 사운드 뎁스 레벨은 3D 사운드 스페이스 내에서 티비 또는 티비를 시청하는 사용자로부터 가장 먼 오디오 스팟에 해당하는 3D 사운드 뎁스 레벨을 의미한다.즉, 3D 사운드 뎁스 레벨은 상술한 depth_level 정보에 대응하며, 각 오디오 스팟에 따라 다르거나 같게 설정될 수 있다.
표 6에 도시된 바와 같이 sample_index 정보, depth_level 정보 및 depth_range 정보는 entry_counter 정보 다음에 위치한 for 루프 내에 위치하며, entry_counter 정보 값이 1씩 증가함에 따라 정의되는 각 엔트리마다 정의될 수 있다.
표 6에 도시된 본 발명의 일 실시예에 따른 신택스는 비디오 트랙내의 3D 비디오 샘플들의 뎁스 레벨 및 뎁스 레인지의 뎁스 테이블을 제공할 수 있다. 이하 뎁스 테이블을 설명한다.
도 3은 본 발명의 일 실시예에 따른 뎁스 테이블을 나타낸 도면이다.
도 3에 도시된 뎁스 테이블은 상술한 바와 같이 표 6의 신택스에 의해 제공될 수 있다.
도 3-(a)의 뎁스 테이블은 sample_index 정보, decoding_time 정보, depth_range 정보 및 depth_level 정보를 포함할 수 있다. decoding_time 정보는 sample_index 정보에 따라 식별되는 각 프레임이 디코딩되는 시간을 지시하는 정보이다. 즉, 도 3-(a)의 뎁스 테이블은 비디오 트랙에 포함된 각 프레임들의 디코딩 시간 정보, 뎁스 레인지 및 뎁스 레벨 정보를 제공할 수 있다.
도 3-(b)에 도시된 뎁스 테이블은 entry_counter 정보, sample_index 정보, depth_range 정보 및 depth_level 정보를 포함할 수 있다. 즉, 도 3(b)의 뎁스 테이블은 각각의 엔트리마다 처리되는 프레임의 뎁스 레인지 및 뎁스 레벨 정보를 제공할 수 있다.
도 3-(b)에 도시된 뎁스 테이블은 도 3-(a)에 도시된 뎁스 테이블로부터 얻어질 수 있다. 또한 도 3-(b)에 도시된 뎁스 테이블은 송신측에서 생성하여 전송할 수도 있고, 수신측에서 3-(a)에 도시된 뎁스 테이블을 이용하여 생성할 수도 있다. 이는 설계자의 의도에 따라 변경 가능하다.
이하 도 3-(a)의 뎁스 테이블에 대해 설명한다.
도 3-(a)에 도시된 바와 같이 뎁스 테이블의 첫번째 행은 비디오 트랙에 포함된 프레임을 식별하기 위한 sample_index 정보 값들을 포함하며, 두번째 행 내지 네번째 행은 각각 decoding_time 정보 값, depth_range 정보 값, depth_level 정보 값을 포함할 수 있다. 두번째 내지 네번째 행에 포함된 decoding_time 정보 값, depth_range 정보 값 및 depth_level 정보 값은 첫번째 행에 표시된 각 프레임마다 정의된다.
구체적으로, 도 3-(a)의 뎁스 테이블에 도시된 바와 같이 sample_index 정보 값이 1인 프레임 1은 해당 비디오 트랙의 가장 첫번째 프레임에 해당하므로, 0의 decoding_time 정보 값을 가질 수 있다. 또한 도 3-(a)의 뎁스 테이블에 따라 프레임 1의 뎁스 레인지는 16 이 되며, 뎁스 레벨은 3에 해당한다. 또한, 도 3-(a)의 뎁스 테이블에 도시된 바와 같이 sample_index 정보 값이 2인 프레임 2는 가장 첫번째 프레임인 프레임 1을 디코딩한 뒤에 디코딩 되므로, 프레임 2의 decoding_time 정보 값은 되므로 0에서 증가한 10이 될 수 있다. 도 3-(a)의 뎁스 테이블에 도시된 바와 같이 프레임 2의 뎁스 레인지는 16, 뎁스 레벨은 3이 될 수 있다.
이하 도 3-(b)의 뎁스 테이블에 대해 설명한다.
도 3-(b)에 도시된 바와 같이 뎁스 테이블의 첫번째 행은 각 열을 구별하기 위한 entry_counter 정보, sample_index 정보, depth_range 정보 및 depth_level 정보를 나타낸다. 도 3-(b)의 뎁스 테이블의 첫번째 열은 entry_counter 정보 값을 포함할 수 있으며, 두번째 열 내지 네번째 열은 각각 sample_index 정보 값, depth_range 정보 값 및 depth_level 정보 값을 포함할 수 있다.
도 3-(a)에 도시된 바와 같이 각 프레임들은 첫번째 프레임부터 순차적으로 처리되므로, 엔트리 1에 해당하는 프레임은 sample_index 정보 값이 1인 프레임이 될 수 있다. 따라서 도 3-(b)의 뎁스 테이블에 도시된 바와 같이 entry_counter 정보 값이 1인 경우 sample_index 정보 값은 1이 된다. 따라서, sample_index 정보 값이 1인 프레임의 뎁스 레인지는 16이고, 뎁스 레벨은 3이므로, 도 3-(b)의 뎁스 테이블의 depth_range 정보 값은 16, depth_level 정보 값은 3으로 표시될 수 있다.
동일한 방법으로, 두번째 엔트리에 해당하는 프레임은 sample_index 정보 값이 2인 프레임이 되므로, entry_counter 정보 값이 2인 경우 sample_index 정보 값은 2로 표시될 수 있으며, depth_range 정보 값은 16, depth_level 정보 값은 3으로 표시 될 수 있다. 또한, 전체 프레임들의 개수가 12개이므로, 도 3-(b)의 뎁스 테이블의 엔트리 개수는 12개가 될 수 있다.
따라서, 수신기는 도 3에 도시된 뎁스 테이블을 이용하여 각 엔트리에 따른 각 프레임의 뎁스 레인지, 뎁스 레벨에 대한 정보를 획득하고, 획득한 정보에 따라 비디오 프레임을 디코딩함과 동시에 각 프레임의 뎁스 레인지 및 뎁스 레벨과 대응하는 3D 사운드 이펙트를 생성하여 각 프레임마다 싱크로나이즈드된 3D 오디오 사운드를 생성할 수 있다.
하지만 도 3에 도시된 뎁스 테이블은 모든 프레임들에 대한 모든 뎁스 정보를 포함하기 때문에 하나의 비디오 트랙에 포함된 프레임들의 개수가 증가하는 경우 뎁스 테이블의 용량이 증가할 수 있다. 특히 일부 프레임들의 뎁스 레인지 및 뎁스 레벨이 동일한 경우에도 중복되는 정보들을 포함하므로 전송 효율이 떨어질 수 있다는 문제가 발생 할 수 있다.
따라서 본 발명에서는 뎁스 테이블의 용량을 줄이고 전송 효율을 높이기 위하여 동일한 뎁스 레인지 및 뎁스 레벨을 갖는 프레임들에 대해서 중복되는 정보를 제거하고, depth_range 정보와 depth_level 정보를 각각 별도의 신택스를 통해 전송하고, 각각 독립적인 뎁스 테이블을 제공하는 시그널링 방법을 제시한다.
표 7은 본 발명의 또 다른 실시예에 따른 신택스로서, 샘플 테이블 박스 내의 “DepthLevelsGroupFor3DAVBox”를 통해 뎁스 레벨 정보를 시그널링 하는 경우를 나타낸다.
표 7
Figure PCTKR2013006103-appb-T000007
표 7에 도시된 신택스는 상술한 표 6에 도시된 신택스와 동일하게 entry_counter 정보, sample_index 정보 및 depth_level 정보를 포함할 수 있으나, depth_range 정보를 포함하지 않으며, sample_offset 정보를 포함할 수 있다는 점이 다르다. 표 6에서 도시된 정보들과 동일한 정보들에 대한 설명은 생략하며, 이하 sample_offset 정보에 대해 설명한다.
sample_offset 정보는 비디오 트랙 내에 포함된 프레임들 중에 동일한 뎁스 레벨이 적용되는 연속적인 프레임들의 개수를 의미하는 오프셋(offset)을 지시할 수 있다. 따라서 동일한 뎁스 레벨이 적용되는 연속적인 프레임들의 sample_index 정보 값 및 sample_offset 정보 값은 1부터 순차적으로 증가할 수 있다. 구체적인 내용은 후술한다.
표 6에 도시된 신택스와 마찬가지로 표 7에 도시된 본 발명의 또 다른 실시예에 따른 신택스는 비디오 트랙내의 3D 비디오 샘플들의 뎁스 레벨의 뎁스 테이블을 제공할 수 있다. 이하 뎁스 테이블을 설명한다.
도 4는 본 발명의 다른 실시예에 따른 뎁스 테이블을 나타낸 도면이다.
도 4에 도시된 뎁스 테이블은 상술한 바와 같이 표 7의 신택스에 의해 제공될 수 있다.
도 4-(a)에 도시된 뎁스 테이블은 sample_index 정보 값, decoding_time 정보 값, sample_offset 정보 값 및 depth_level 정보 값을 포함할 수 있다. 즉, 도 4-(a)에 도시된 뎁스 테이블은 비디오 트랙에 포함된 모든 샘플들의 디코딩 시간 정보, 동일한 뎁스 레벨이 적용되는 연속적인 프레임들의 오프셋 정보 및 뎁스 레벨 정보를 제공할 수 있다.
도 4-(b)에 도시된 뎁스 테이블은 entry_counter 정보 값, sample_index 정보 값, sample_offset 정보 값 및 depth_level 정보 값을 포함할 수 있다. 즉. 도 4-(b)에 도시된 뎁스 테이블은 각 엔트리에 처리되는 프레임의 뎁스 레벨 및 동일한 뎁스 레벨이 적용되는 프레임들의 오프셋 정보를 제공할 수 있다.
도 4-(b)에 도시된 뎁스 테이블은 도 4-(a)에 도시된 뎁스 테이블로부터 얻어질 수 있다. 또한 도 4-(b)에 도시된 뎁스 테이블은 송신측에서 생성하여 전송할 수도 있고, 수신측에서 표 7에 도시된 신택스와 4-(a)에 도시된 뎁스 테이블을 이용하여 생성할 수도 있다. 이는 설계자의 의도에 따라 변경 가능하다.
이하 도 4-(a)에 도시된 뎁스 테이블을 설명한다.
도 4-(a)에 도시된 바와 같이 뎁스 테이블의 첫번째 행은 비디오 트랙에 포함된 프레임을 식별하기 위한 sample_index 정보 값들을 포함하며, 두번째 행 내지 네번째 행은 각각 decoding_time 정보 값, sample_offset 정보 값 및 depth_level 정보 값을 포함할 수 있다. 두번째 내지 네번째 행에 포함된 decoding_time 정보 값, sample_offset 정보 값 및 depth_level 정보 값은 첫번째 행에 표시된 각 프레임마다 정의된다.
도 4-(a)의 뎁스 테이블에 도시된 바와 같이 sample_index 정보 값이 1인 프레임 1은 depth_level 정보 값에 따라 3의 뎁스 레벨을 갖는다. 상술한 바와 같이 연속적인 프레임들의 뎁스 레벨이 동일한 경우에는, 해당 뎁스 레벨을 갖는 첫번째 프레임의 depth_level 정보 값만이 뎁스 테이블에 표시되며, 바로 다음에 위치하는 연속적인 프레임들의 depth_level 정보 값은 표시되지 않는다. 따라서 도 4-(a)에 도시된 바와 같이 sample_index 정보 값이 2인 프레임 2의 뎁스 레벨은 프레임 1의 뎁스 레벨과 동일하므로 중복된 depth_level 정보 값은 뎁스 테이블에 표시되지 않는다. 동일한 방식으로, sample_index 정보 값이 8 및 9인 프레임 8 및 9는 sample_index 정보 값이 7인 프레임 7의 뎁스 레벨과 동일한 뎁스 레벨을 가지므로, 프레임 8 및 9의 depth_level 정보 값은 뎁스 테이블에 표시되지 않는다.
또한, 상술한 바와 같이 동일한 뎁스 레벨을 갖는 프레임들의 sample_offset 값은 해당 프레임들 중 가장 첫번째에 해당하는 프레임부터 순차적으로 증가할 수 있다. 따라서 도 4-(a)에 도시된 바와 같이, 프레임 1의 sample_offset 값은 1 이 되고, 프레임 2의 sample_offset 값은 프레임 1의 sample_offset 값에서 1이 증가한 2가 된다. 반면, sample_index 정보 값이 3인 프레임 3의 depth_level 정보 값은 4로서, 프레임 1 및 프레임 2의 뎁스 레벨과 다르므로, 프레임 3의 sample_offset 값은 1로 표시된다.
동일한 방식으로, 동일한 뎁스 레벨을 갖는 프레임 7 내지 9의 경우, 프레임 7의 sample_offset 값은 1이 되고, 프레임 8의 sample_offset 값은 2, 프레임 9의 sample_offset 값은 3이 될 수 있다. sample_index 정보 값이 10인 프레임 10은 프레임 7 내지 프레임 9와 다른 뎁스 레벨을 가지므로, 프레임 10의 sample_offset 값은 1로 표시된다.
이하 도 4-(b)의 뎁스 테이블에 대해 설명한다.
도 4-(b)에 도시된 바와 같이 뎁스 테이블의 첫번째 행은 각 열을 구별하기 위한 entry_counter 정보, sample_index 정보, sample_offset 정보 및 depth_level 정보를 나타낸다. 도 4-(b)의 뎁스 테이블의 첫번째 열은 entry_counter 정보 값을 포함할 수 있으며, 두번째 열 내지 네번째 열은 각각 sample_index 정보 값, sample_offset 정보 값 및 depth_level 정보 값을 포함할 수 있다.
이 경우, 각 엔트리마다 동일한 뎁스 레벨이 적용되는 프레임들은 함께 처리될 수 있으므로, 각 엔트리에 해당하는 sample_index 정보 값은 동일한 뎁스 레벨을 갖는 프레임들 중 가장 첫번째 프레임의 sample_index 정보 값이 표시된다. 또한, 각 엔트리에 해당하는 sample_offset 정보 값은 동일한 뎁스 레벨을 갖는 프레임들 중 가장 마지막 프레임의 sample_index 정보 값이 표시된다.
구체적으로, 도 4-(a)에 도시된 바와 같이 프레임 1 및 프레임 2에는 동일한 뎁스 레벨이 적용되므로, 프레임 1 및 프레임 2는 함께 처리될 수 있다. 따라서 4-(b)의 뎁스 테이블의 첫번째 행에 도시된 바와 같이, 엔트리 1에 해당하는 sample_index 정보 값은 프레임 1의 sample_index 정보 값인 1이 표시되며, sample_offset 정보 값은 프레임 2의 sample_offset 정보 값인 2가 표시될 수 있다. 또한 depth_level 정보 값은 프레임 1 및 프레임 2의 depth_level 정보 값인 3이 표시될 수 있다.
도 4-(a)의 뎁스 테이블에 도시된 바와 같이 sample_index 정보 값이 3인 프레임 3부터 sample_index 정보 값이 6인 프레임 6까지는 서로 다른 depth_level 정보 값을 가진다. 따라서 도 4-(b)의 뎁스 테이블의 엔트리 2부터 5에 해당하는 행에는 프레임 3부터 프레임 6의 sample_offset 정보 값 및 depth_level 정보 값이 각각 표시될 수 있다.
또한, 도 4-(a)에 도시된 바와 같이 프레임 7 내지 프레임 9에는 동일한 뎁스 레벨이 적용되므로, 4-(b)의 뎁스 테이블의 엔트리 6에 해당하는 sample_index 정보 값은 프레임 7의 sample_index 정보 값인 7이 표시되며, sample_offset 정보 값은 프레임 9의 sample_offset 정보 값인 3이 표시될 수 있다. 또한 depth_level 정보 값은 프레임 7 내지 프레임 9의 depth_level 정보 값인 11로 표시될 수 있다.
도 4-(a)에 도시된 바와 같이 전체 샘플들의 개수는 12개이나 각 엔트리에서는 동일한 뎁스 레벨이 적용되는 프레임들이 함께 처리되므로, 도 4-(b)의 뎁스 테이블은 9개의 엔트리에 대한 정보를 포함할 수 있다.
따라서 수신기는 도 4에 도시된 뎁스 테이블을 이용하여, 동일한 뎁스 레벨이 적용되는 프레임들의 개수에 대한 정보를 획득하고, 동일한 뎁스 레벨 정보를 한번만 획득하여, 획득한 정보에 따라 비디오 프레임을 디코딩함과 동시에 각 프레임의 뎁스 레벨과 대응하는 사운드 이펙트를 생성하여 각 프레임마다 싱크로나이즈드된 3D 오디오 사운드를 효율적으로 생성할 수 있다.
표 8은 본 발명의 또 다른 실시예에 따른 신택스로서, 샘플 테이블 박스 내의 “DepthLevelsGroupFor3DAVBox”를 통해 뎁스 레인지 정보를 시그널링 하는 경우를 나타낸다.
표 8
Figure PCTKR2013006103-appb-T000008
표 8에 도시된 신택스는 상술한 표 7에 도시된 신택스와 동일하게 entry_counter 정보, sample_index 정보 및 sample_offset 정보를 포함할 수 있으나, depth_level 정보 대신 depth_range 정보를 포함할 수 있다는 점이 다르다. 또한 sample_offset 정보는 명칭은 동일하나 표 7에서 설명한 sample_offset 정보와는 다른 정보를 포함할 수 있다. 표 6 및 표 7에서 도시된 정보들과 동일한 정보들에 대한 설명은 생략하며, 표 8에 도시된 신택스에 포함된 sample_offset 정보에 대해 설명한다.
sample_offset 정보는 비디오 트랙 내에 포함된 프레임들 중에서 동일한 뎁스 레인지를 갖는 뎁스 레벨이 적용되는 연속적인 프레임들의 개수를 나타내는 오프셋을 지시할 수 있다.
따라서 동일한 뎁스 레인지를 갖는 뎁스 레벨이 적용되는 연속적인 프레임들의 sample_index 정보 값 및 sample_offset 정보 값은 1부터 순차적으로 증가할 수 있다. 구체적인 내용은 후술한다.
표 6 및 표 7에 도시된 신택스와 마찬가지로 표 8에 도시된 본 발명의 또 다른 실시예에 따른 신택스는 비디오 트랙내의 3D 비디오 샘플들의 뎁스 레인지의 뎁스 테이블을 제공할 수 있다. 이하 뎁스 테이블을 설명한다.
도 5는 본 발명의 다른 실시예에 따른 뎁스 테이블을 나타낸 도면이다.
도 5에 도시된 뎁스 테이블은 상술한 바와 같이 표 8의 신택스에 의해 제공될 수 있다.
도 5-(a)에 도시된 뎁스 테이블은 sample_index 정보 값, decoding_time 정보 값, sample_offset 정보 값 및 depth_range 정보 값을 포함할 수 있으며, 선택적으로 depth_level 정보 값을 포함할 수 있다. 즉, 도 5-(a)에 도시된 뎁스 테이블은 비디오 트랙에 포함된 모든 샘플들의 디코딩 시간 정보, 동일한 뎁스 레벨이 적용되는 연속적인 프레임들의 오프셋 정보 및 뎁스 레인지 정보를 제공할 수 있다.
도 5-(b)에 도시된 뎁스 테이블은 entry_counter 정보 값, sample_index 정보 값, sample_offset 정보 값 및 depth_range 정보 값을 포함할 수 있다. 즉. 도 4-(b)에 도시된 뎁스 테이블은 각 엔트리에 처리되는 프레임의 뎁스 레인지 및 동일한 뎁스 레벨이 적용되는 프레임들의 오프셋 정보를 제공할 수 있다.
도 5-(b)에 도시된 뎁스 테이블은 도 5-(a)에 도시된 뎁스 테이블로부터 얻어질 수 있다. 또한 도 5-(b)에 도시된 뎁스 테이블은 송신측에서 생성하여 전송할 수도 있고, 수신측에서 표 8에 도시된 신택스와 5-(a)에 도시된 뎁스 테이블을 이용하여 생성할 수도 있다. 이는 설계자의 의도에 따라 변경 가능하다.
이하 도 5-(a)에 도시된 뎁스 테이블을 설명한다.
도 5-(a)의 뎁스 테이블에 도시된 바와 같이 sample_index 정보 값이 1인 프레임 1은 depth_level 정보 값에 따라 3의 뎁스 레벨을 가지며 뎁스 레벨의 뎁스 레인지는 depth_range 정보 값에 따라 16이 된다. 상술한 바와 같이 연속적인 프레임들의 뎁스 레벨의 뎁스 레인지가 동일한 경우, 해당 뎁스 레인지에 따른 뎁스 레벨을 갖는 첫번째 프레임의 depth_range 정보 값만이 뎁스 테이블에 표시되며, 바로 다음에 위치하는 연속적인 프레임들의 depth_range 정보 값은 표시되지 않는다. 이 경우, 연속적인 프레임들의 depth_level 정보 값이 동일한지 여부는 문제되지 않는다.
따라서 도 5-(a)에 도시된 바와 같이 sample_index 정보 값이 2 내지 6인 프레임 2 내지 프레임 6의 뎁스 레벨의 뎁스 레인지는 프레임 1의 뎁스 레인지와 동일하므로 중복된 depth_range 정보 값은 뎁스 테이블에 표시되지 않는다.
또한, 상술한 바와 같이 동일한 뎁스 레인지에 해당하는 뎁스 레벨을 갖는 프레임들의 sample_offset 값은 해당 프레임들 중 가장 첫번째에 해당하는 프레임부터 순차적으로 증가할 수 있다. 따라서 도 5-(a)에 도시된 바와 같이, 프레임 1의 sample_offset 값은 1 이 되고, 프레임 2 내지 프레임 6의 sample_offset 값은 프레임 1의 sample_offset 값인 1부터 1씩 증가한 2, 3, 4, 5, 6으로 표시된다. 반면, 프레임 7의 depth_range 정보 값은 4로서, 프레임 1의 depth_range 정보 값과 다르므로 뎁스 테이블에 표시가 되며, 프레임 7의 sample_offset 값은 1로 표시된다.
이하 도 5-(b)의 뎁스 테이블에 대해 설명한다.
도 5-(b)에 도시된 바와 같이 뎁스 테이블의 첫번째 행은 각 열을 구별하기 위한 entry_counter 정보, sample_index 정보, sample_offset 정보 및 depth_range 정보를 나타낸다. 도 5-(b)의 뎁스 테이블의 첫번째 열은 entry_counter 정보 값을 포함할 수 있으며, 두번째 열 내지 네번째 열은 각각 sample_index 정보 값, sample_offset 정보 값 및 depth_range 정보 값을 포함할 수 있다.
이 경우, 각 엔트리마다 동일한 뎁스 레인지에 해당하는 뎁스 레벨이 적용되는 프레임들은 함께 처리될 수 있으므로, 각 엔트리에 해당하는 sample_index 정보 값은 동일한 뎁스 레인지에 해당하는 뎁스 레벨을 갖는 프레임들 중 가장 첫번째 프레임의 sample_index 정보 값이 표시된다. 또한, 각 엔트리에 해당하는 sample_offset 정보 값은 동일한 뎁스 레인지에 해당하는 뎁스 레벨을 갖는 프레임들 중 가장 마지막 프레임의 sample_index 정보 값이 표시된다.
구체적으로, 도 5-(a)에 도시된 바와 같이 프레임 1 내지 프레임 6은 동일한 뎁스 레인지에 해당하는 뎁스 레벨이 각각 적용되므로, 프레임 1 내지 프레임 6은 함께 처리될 수 있다. 따라서 5-(b)의 뎁스 테이블의 첫번째 행에 도시된 바와 같이, 엔트리 1에 해당하는 sample_index 정보 값은 프레임 1의 sample_index 정보 값인 1이 표시되며, sample_offset 정보 값은 프레임 6의 sample_offset 정보 값인 6이 표시될 수 있다. 또한 depth_range 정보 값은 프레임 1 내지 프레임 6의 depth_range 정보 값인 16이 표시될 수 있다.
또한, 도 5-(a)에 도시된 바와 같이 프레임 7 내지 프레임 12는 동일한 뎁스 레인지에 해당하는 뎁스 레벨이 각각 적용되므로, 5-(b)의 뎁스 테이블의 엔트리 2에 해당하는 sample_index 정보 값은 프레임 7의 sample_index 정보 값인 7이 표시되며, sample_offset 정보 값은 프레임 12의 sample_offset 정보 값인 6이 표시될 수 있다. 또한 depth_range 정보 값은 프레임 7 내지 프레임 12의 depth_range 정보 값인 4로 표시될 수 있다.
도 5-(a)에 도시된 바와 같이 전체 샘플들의 개수는 12개이나 각 엔트리에서는 동일한 뎁스 레인지에 해당하는 뎁스 레벨이 적용되는 프레임들이 함께 처리되므로, 도 5-(b)의 뎁스 테이블은 2개의 엔트리에 대한 정보를 포함할 수 있다.
따라서 수신기는 도 5에 도시된 뎁스 테이블을 이용하여, 동일한 뎁스 레인제 해당하는 뎁스 레벨이 적용되는 프레임들의 개수에 대한 정보를 획득하고, 동일한 뎁스 레인지 정보를 한번만 획득하여, 획득한 정보에 따라 비디오 프레임을 디코딩함과 동시에 각 프레임의 뎁스 레벨과 대응하는 사운드 이펙트를 생성하여 각 프레임마다 싱크로나이즈드된 3D 오디오 사운드를 효율적으로 생성할 수 있다.
도 6은 본 발명의 일 실시예에 따른 3D 사운드 스페이스를 나타낸 도면이다.
상술한 바와 같이, 본 발명의 일 실시예에 따른 3D 사운드 스페이스는 3D 오디오를 제공하기 위해 설정된 영역으로서, 복수개의 오디오 스팟으로 나누어질 수 있다. 각 오디오 스팟에는 해당 뎁스 레벨에 따라 생성된 3D 오디오 이펙트를 적용하여 생성된 3D 오디오가 제공될 수 있다. 또한 오디오 스팟의 개수는 뎁스 레인지 및 뎁스 레벨에 따라 달라질 수 있다. 또한 각 오디오 스팟은 3D 사운드 스페이스 내의 특정 위치로 정의 될 수 있으며, 각각의 오디오 스팟에는 각 뎁스 레벨에 따라 처리된 3D 오디오가 제공된다. 또한 본 발명에서는 각 오디오 스팟에 제공되는 3D 오디오 이펙트의 효과를 사운드 뎁스 레벨로 정의할 수 있다. 사운드 뎁스 레벨은 상술한 3D 비디오의 뎁스 정보에 따라 결정 될 수 있다.
도 6은 3D 사운드 스페이스의 일 실시예를 나타내는 도면으로서, 도 6의 좌측에 도시된 3D 사운드 스페이스는 depth_range 정보 값이 4인 경우의 3D 사운드 스페이스를 나타내며, 도 6의 우측에 도시된 3D 사운드 스페이스는 depth_range 정보 값이 4인 경우의 3D 사운드 스페이스를 나타낸다. 상술한 바와 같이, num_depth_levels 정보는 depth_range 정보와 명칭은 다르나 동일한 정보로 사용된다. 또한 상술한 바와 같이, depth_level 정보는 0 부터 depth_range 정보의 밸류(value)에서 1을 뺀 값, 즉, depth_range-1 값까지의 범위에 해당하는 어느 하나의 값을 가질 수 있다. 또한 상술한 바와 같이, depth_level 정보 값이 0인 경우, 해당 프레임에 대응하는 3D 오디오 이펙트의 사운드 뎁스 레벨은 3D 사운드 스페이스 내에서 티비 또는 티비를 시청하는 사용자와 가장 가까운 오디오 스팟에 해당하는 3D 사운드 뎁스 레벨로 정의될 수 있다. 또한, depth_level 정보 값이 depth_range-1 값인 경우, 해당 프레임에 대응하는 3D 오디오 이펙트의 사운드 뎁스 레벨은 3D 사운드 스페이스 내에서 티비 또는 티비를 시청하는 사용자로부터 가장 먼 오디오 스팟에 해당하는 3D 사운드 뎁스 레벨로 정의될 수 있다.. 도 6에 도시된 3D 사운드 스페이스는 depth_level 정보 값이 0인 경우, 티비를 시청하는 사용자와 가장 가까운 오디오 스팟에 해당하는 뎁스 레벨로 정의된 경우를 나타낸다.
이하 도 6에 대해 구체적으로 설명한다.
도 6의 좌측에 도시된 3D 사운드 스페이스는 depth_range 정보 값이 4인 경우의 3D 사운드로서, depth_level 정보 값은 0부터 3까지 될 수 있으며, 3D 사운드 스페이스는 depth_level 정보 값에 따라 4개의 오디오 스팟으로 나누어 질 수 있다. 각 오디오 스팟들의 간격은 일정하며, 각 오디오 스팟에는 해당 depth_level 정보 값에 따라 생성된 3D 오디오 이펙트를 적용한 3D 오디오가 제공될 수 있다. 따라서 depth_levlel 정보 값이 3에 대응하는 오디오 스팟에 위치한 사용자는 depth_level 정보 값이 0에 대응하는 오디오 스팟에 위치한 사용자보다 더 큰 3D 오디오 이펙트 효과를 인식할 수 있다.
또한, 도 6의 우측에 도시된 3D 사운드 스페이스는 depth_range 정보 값이 16인 경우의 3D 사운드 스페이스로서, depth_level 정보 값은 0부터 15가 될 수 있고. 3D 사운드 스페이스는 depth_level 정보 값에 따라 16개의 오디오 스팟으로 나누어 질 수 있다. 각 오디오 스팟들의 간격은 일정하며, 각 오디오 스팟에는 해당 depth_level 정보 값에 따라 생성된 3D 오디오 이펙트를 적용한 3D 오디오가 제공될 수 있다. 따라서 depth_levlel 정보 값이 14에 대응하는 오디오 스팟에 위치한 사용자는 depth_level 정보 값이 0에 대응하는 오디오 스팟에 위치한 사용자보다 더 큰 3D 오디오 이펙트 효과를 인식할 수 있다.
도 6의 좌측과 같이 depth_range 정보 값이 작은 경우, depth_level 정보 값에 따른 오디오 스팟의 개수가 적고 오디오 스팟 간의 간격이 크므로, 각 오디오 스팟에 위치한 사용자는 각 오디오 스팟마다 제공되는 3D 오디오의 차이를 깨끗하고 정확하게 인식할 수 있다. 즉, depth_level 정보 값이 0인 오디오 스팟에 위치한 사용자는 depth_level 정보 값이 3인 오디오 스팟으로 위치를 옮겼을 때 각 위치에 제공되는 3D 오디오 이펙트의 효과의 차이를 크게 인식할 수 있다.
도 6의 우측과 같이 depth_range 정보 값이 큰 경우, depth_level 정보 값에 따른 오디오 스팟의 개수도 많고, 각 오디오 스팟 간의 간격이 작으므로, 각 오디오 스팟마다 제공되는 3D 오디오의 차이가 크지 않을 수 있다. 따라서 depth_range 정보 값이 큰 경우에는 각 오디오 스팟에 제공되는 3D 오디오의 차이가 크게 드러나지 않으므로 사용자에게 보다 부드러운 사운드의 3D 오디오를 제공할 수 있다.
도 7 내지 도 9는 표 1 내지 표 5에서 상술한 num_depth_levels 정보 및 depth_level_per_video_frame 정보에 따른 비디오 프레임의 실시예를 나타낸 도면이다. 도 7 내지 도 9에서는 depth_level_per_video_frame 정보를 약술하여, depth_level으로 표시한다. 이하 각 도면에 대해 설명한다.
도 7은 본 발명의 일 실시예에 따른 비디오 프레임을 나타낸 도면이다.
도 7은 비디오 트랙내에 포함된 모든 프레임들의 뎁스 레벨에 대한 뎁스 레인지가 고정된 경우로서, 8개의 비디오 프레임에 대한 num_depth_levels 정보 값은 16으로 일정하다. 또한, 각 비디오 프레임의 depth_level 정보 값은 각 프레임 마다 다르게 설정될 수 있다. 이는 설계자의 의도에 따라 변경 가능하다. 도 7의 실시예에 따르는 경우, 송신측은 표 1 내지 4에서 설명한 시그널링 방법을 이용하여, num_depth_levels 정보 및 depth_level 정보를 전송할 수 있으며, 수신측은 수신한 정보들을 이용하여 3D 오디오 사운드를 생성하여 사용자에게 제공할 수 있다.
도 8은 본 발명의 다른 실시예에 따른 비디오 프레임을 나타낸 도면이다.
도 8은 도 7에서 설명한 비디오 프레임의 다른 실시예로서, 비디오 트랙내에 포함된 모든 프레임들의 뎁스 레벨에 대한 num_depth_levels 정보 값은 고정되어 있으나, 각 비디오 프레임의 depth_level 정보 값은 같거나 다른 실시예를 나타낸다. 도 8에 도시된 바와 같이 프레임 1 내지 프레임 4의 depth_level 정보 값은 3으로 동일하며, 프레임 5 및 6의 depth_level 정보 값은 213, 프레임 7 및 프레임 8의 depth_level 정보 값은 29로 동일하다. 상술한 바와 같이, 커먼 모드의 경우, 송신측은 표 1 내지 4에서 설명한 시그널링 방법을 이용하여, num_depth_levels 정보 및 depth_level 정보를 전송할 수 있으며, 수신측은 수신한 정보들을 이용하여 3D 오디오 사운드를 생성하여 사용자에게 제공할 수 있다.
도 9는 본 발명의 또 다른 실시예에 따른 비디오 프레임을 나타낸 도면이다.
도 9는 비디오 트랙내에 포함된 프레임들의 depth_level 정보 값 및 num_depth_levels 정보 값이 변화되는 경우로서, 8개의 비디오 프레임에 대한 num_depth_levels 정보 값은 일정 프레임 단위마다 다르게 설정될 수 있다. 이 경우 각 프레임의 depth_level 정보 값은 프레임 마다 다르게 설정될 수 있다..
도 9에 도시된 바와 같이 프레임 1 내지 프레임 3의 depth_level 정보 값은 각각 다르나, num_depth_levels 정보 값은 16으로 동일하다. 또한 프레임 4 내지 6의 depth_level 정보 값은 각각 다르나, num_depth_levels 정보 값은 256으로 동일하다. 마찬가지로 프레임 7 및 프레임 8의 depth_level 정보 값은 각각 다르나, num_depth_levels 정보 값은 32로 동일하다. 상술한 바와 같이, 커먼 모드의 경우, 송신측은 표 1 내지 4에서 설명한 시그널링 방법을 이용하여, num_depth_levels 정보 및 depth_level 정보를 전송할 수 있으며, 수신측은 수신한 정보들을 이용하여 3D 오디오 사운드를 생성하여 사용자에게 제공할 수 있다.
도 10내지 도 11은 표 6 내지 8에서 상술한 뎁스 레인지 정보 및 뎁스 레벨 정보에 따른 비디오 프레임의 실시예를 나타낸 도면이다. 이하 각 도면에 대해 설명한다.
도 10은 본 발명의 또 다른 실시예에 따른 비디오 프레임을 나타낸 도면이다.
도 10은 비디오 트랙내에 포함된 모든 프레임들의 뎁스 레벨에 대한 뎁스 레인지가 고정된 경우로서, 12개의 비디오 프레임에 대한 depth_range 정보 값은 16으로 일정하다. 또한, 각 비디오 프레임의 depth_level 정보 값은 각 프레임마다 같거나 다르게 설정될 수 있다. 도 10에 도시된 실시예는 대부분의 인핸스드 3D 오디오/비디오 처리 장치에서 처리되는 가장 일반적인 실시예로서, 커먼 모드(common mode)라 호칭할 수 있다. 이는 설계자의 의도에 따라 변경 가능하다. 커먼 모드의 경우, 송신측은 표 6 및 도 3 에서 설명한 시그널링 방법을 이용하여, depth_range 정보 및 depth_level 정보를 전송할 수 있으며, 수신측은 수신한 정보들을 이용하여 3D 오디오 사운드를 생성하여 사용자에게 제공할 수 있다.
도 11은 본 발명의 또 다른 실시예에 따른 비디오 프레임을 나타낸 도면이다.
도 11은 비디오 트랙내에 포함된 프레임들의 뎁스 레벨 및 뎁스 레인지가 변화된 경우로서, 12개의 비디오 프레임에 대한 depth_range 정보 값은 일정 프레임 마다 다르게 설정될 수 있다. 또한 각 비디오 프레임의 depth_level 정보 값은 같거나 다를 수 있다. 도 11에 도시된 바와 같이 프레임 1 내지 프레임 6의 depth_range 정보 값은 16으로 동일하며, 프레임 7 내지 프레임 12의 depth_range 정보 값은 4로 동일하다. 도 11에 도시된 실시예는 서로 다른 3D 사운드 특성을 갖고 있는 비디오 컨텐츠의 여러 부분에 대해서 보다 다양한 3D 사운드 이펙트를 생성할 필요가 있을 때 사용될 수 있는 실시예로, 어댑티브 모드(adaptive mode)라 호칭할 수 있다. 이는 설계자의 의도에 따라 변경 가능하다. 또한 어댑티브 모드의 depth_range 정보 값은 사용자가 3D 사운드 이펙트의 변화를 감지할 수 있는 최소한의 비디오 프레임 개수를 고려하여 변경될 수 있다. 따라서 어댑티브 모드는 상술한 커먼 모드에 해당하는 비디오 프레임들을 포함하는 그룹들의 연속으로 설명될 수 있다. 어댑티브 모드의 경우, 송신측은 표 7 내지 8 및 도 4 내지 5에서 설명한 시그널링 방법을 이용하여, depth_range 정보 및 depth_level 정보를 전송할 수 있으며, 수신측은 수신한 정보들을 이용하여 3D 오디오 사운드를 생성하여 사용자에게 제공할 수 있다.
도 12는 본 발명의 일 실시예에 따른 인핸스드 3D 오디오/비디오 처리 장치를 나타낸 도면이다.
본 발명의 일 실시예에 따른 인핸스드 3D 오디오/비디오 처리 장치는 3D 컨텐츠 생성부(1200), 뎁스 정보 생성부(1210) 및 신호 생성부(1220)를 포함할 수 있다.
3D 컨텐츠 생성부(1200)는 비디오 컨텐츠 및 오디오 컨텐츠를 포함하는 3D 컨텐츠를 생성할 수 있다. 3D 컨텐츠는 상술한 바와 같이 비디오 컨텐츠 및 오디오 컨텐츠에 3D 효과가 적용될 컨텐츠를 의미하며, 특히 3D 비디오 효과와 3D 오디오 효과가 싱크로나이즈된 3D 컨텐츠를 포함하는 개념이다.
뎁스 정보 생성부(1210)는 비디오 컨텐츠를 구성하는 비디오 프레임들의 뎁스 정보를 생성할 수 있다. 뎁스 정보는 도 2에서 상술한 바와 같이 3D 오디오 이펙트를 생성하는데 사용하기 위한 정보이다.
뎁스 정보는 상술한 표 1 내지 표 8에서 설명한 신택스 및 도 3 내지 도 5에서 설명한 테이블들을 포함할 수 있으며, MPEG 파일 포맷을 통해 시그널링 될 수 있다. 특히 MPEG 파일 포맷 내의 샘플 테이블 박스를 통해 시그널링 될 수 있다.
뎁스 정보는 프레임 식별 정보, 뎁스 레벨 정보 및 뎁스 레인지 정보를 포함할 수 있다. 이하 각 정보에 대해 간략히 설명한다.
프레임 식별 정보는 표 6에서 설명한 sample_index 정보가 될 수 있다.
뎁스 레벨 정보는 표 1 내지 표 5에서 설명한 depth_level_per_video_frame 정보 또는 표 6 내지 표 8에서 설명한 depth_level 정보가 될 수 있다. 뎁스 레벨 정보는 도 7 내지 도 11에서 설명한 바와 같이 비디오 프레임들에 대해 동일하게 설정되거나, 각 비디오 프레임에 따라 다르게 설정되거나, 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정될 수 있다.
만약, 뎁스 레벨 정보가 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우에는 뎁스 정보는 연속한 일부 비디오 프레임의 개수를 지시하는 제 1 오프셋 정보를 더 포함할 수 있다. 제 1 오프셋 정보는 표 7 및 도 4에서 설명한 sample_offset 정보가 될 수 있다.
뎁스 레인지 정보는 표 1 내지 표 5에서 설명한 num_depth_levels 정보 또는 표 6 내지 표 8에서 설명한 depth_range 정보가 될 수 있다. 뎁스 레인지 정보는 도 7 내지 도 11에서 설명한 바와 같이 비디오 프레임들에 대해 동일하게 설정되거나, 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정될 수 있다.
만약, 뎁스 레인지 정보가 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우에는, 뎁스 정보는 연속한 일부 비디오 프레임의 개수를 지시하는 제 2 오프셋 정보를 더 포함할 수 있다. 제 2 오프셋 정보는 표 8 및 도 5에서 설명한 sample_offset 정보가 될 수 있다.
이후, 신호 생성부(1220)는 생성된 3D 컨텐츠와 생성된 뎁스 정보를 포함하는 3D 인핸스드 (enhanced) 신호를 생성할 수 있다. 3D 인핸스드 신호는 CD와 같은 저장매체에 저장될 수도 있고, 인터넷 망 또는 방송 망을 통해 전송될 수 있다. 이는 설계자의 의도에 따라 변경 가능하다.
도 13은 본 발명의 다른 실시예에 따른 인핸스드 3D 오디오/비디오 처리 장치를 나타낸 도면이다.
본 발명의 다른 실시예에 따른 인핸스드 3D 오디오/비디오 처리 장치는 신호 처리부(1300), 뎁스 정보 추출부(1310), 3D 오디오 이펙트 생성부(1320) 및 3D 오디오 컨텐츠 생성부(1330)을 포함할 수 있다.
신호 처리부(1300)는 3D 컨텐츠를 포함하는 인핸스드 3D 신호를 처리할 수 있다. 신호 처리부(1300)는 인핸스드 3D 신호에 포함된 3D 컨텐츠와 뎁스 정보를 분리할 수 있고, 3D 컨텐츠를 구성하는 비디오 컨텐츠와 오디오 컨텐츠를 분리할 수도 있다. 3D 컨텐츠는 상술한 바와 같이 비디오 컨텐츠 및 오디오 컨텐츠에 3D 효과가 적용될 컨텐츠를 의미하며, 특히 3D 비디오 효과와 3D 오디오 효과가 싱크로나이즈된 3D 컨텐츠를 포함하는 개념이다.
또한 3D 인핸스드 신호는 CD와 같은 저장매체에 저장된 신호일 수도 있고, 인터넷 망 또는 방송 망을 통해 수신되는 신호일 수도 있다. 이는 설계자의 의도에 따라 변경 가능하다.
뎁스 정보 추출부(1310)는 처리된 인핸스드 3D 신호에 포함된 뎁스 정보를 추출할 수 있다.
뎁스 정보는 도 2에서 상술한 바와 같이 3D 오디오 이펙트를 생성하는데 사용하기 위한 정보이다.
뎁스 정보는 상술한 표 1 내지 표 8에서 설명한 신택스 및 도 3 내지 도 5에서 설명한 테이블들을 포함할 수 있으며, MPEG 파일 포맷을 통해 시그널링 될 수 있다. 특히 MPEG 파일 포맷 내의 샘플 테이블 박스를 통해 시그널링 될 수 있다.
뎁스 정보는 프레임 식별 정보, 뎁스 레벨 정보 및 뎁스 레인지 정보를 포함할 수 있다. 이하 각 정보에 대해 간략히 설명한다.
프레임 식별 정보는 표 6에서 설명한 sample_index 정보가 될 수 있다.
뎁스 레벨 정보는 표 1 내지 표 5에서 설명한 depth_level_per_video_frame 정보 또는 표 6 내지 표 8에서 설명한 depth_level 정보가 될 수 있다. 뎁스 레벨 정보는 도 7 내지 도 11에서 설명한 바와 같이 비디오 프레임들에 대해 동일하게 설정되거나, 각 비디오 프레임에 따라 다르게 설정되거나, 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정될 수 있다.
만약, 뎁스 레벨 정보가 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우에는 뎁스 정보는 연속한 일부 비디오 프레임의 개수를 지시하는 제 1 오프셋 정보를 더 포함할 수 있다. 제 1 오프셋 정보는 표 7 및 도 4에서 설명한 sample_offset 정보가 될 수 있다.
뎁스 레인지 정보는 표 1 내지 표 5에서 설명한 num_depth_levels 정보 또는 표 6 내지 표 8에서 설명한 depth_range 정보가 될 수 있다. 뎁스 레인지 정보는 도 7 내지 도 11에서 설명한 바와 같이 비디오 프레임들에 대해 동일하게 설정되거나, 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정될 수 있다.
만약, 뎁스 레인지 정보가 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우에는, 뎁스 정보는 연속한 일부 비디오 프레임의 개수를 지시하는 제 2 오프셋 정보를 더 포함할 수 있다. 제 2 오프셋 정보는 표 8 및 도 5에서 설명한 sample_offset 정보가 될 수 있다.
3D 오디오 이펙트 생성부(1320)는 획득한 뎁스 정보를 이용하여 3D 오디오 이펙트를 생성할 수 있다. 도 6에서 상술한 바와 같이, 3D 사운드 스페이스는 3D 오디오를 제공하기 위해 설정되는 영역으로 복수개의 오디오 스팟(spot)으로 나누어질 수 있다. 각 오디오 스팟은 3D 사운드 스페이스 내의 특정 위치로 정의 될 수 있으며, 각각의 오디오 스팟에는 각 뎁스 레벨에 따라 처리된 3D 오디오가 제공된다. 또한 본 발명에서는 각 오디오 스팟에 제공되는 3D 오디오 이펙트의 효과를 사운드 뎁스 레벨로 정의할 수 있다 사운드 뎁스 레벨은 상술한 3D 비디오의 뎁스 정보에 따라 결정 될 수 있다.
이후, 3D 오디오 컨텐츠 생성부(1330) 는 3D 오디오 이펙트를 적용하여 3D 오디오 컨텐츠를 생성할 수 있다. 구체적인 내용은 도 6에서 상술한 바와 같다.
도 14는 본 발명의 일 실시예에 따른 인핸스드 3D 오디오/비디오 처리 방법의 플로우 차트이다.
도 12에서 설명한 3D 컨텐츠 생성부(1200)는 3D 컨텐츠를 생성할 수 있다(S1400). 3D 컨텐츠는 상술한 바와 같이 비디오 컨텐츠 및 오디오 컨텐츠에 3D 효과가 적용될 컨텐츠를 의미하며, 특히 3D 비디오 효과와 3D 오디오 효과가 싱크로나이즈된 3D 컨텐츠를 포함하는 개념이다.
도 12에서 설명한 뎁스 정보 생성부(1210)는 뎁스 정보를 생성할 수 있다(S1410). 뎁스 정보는 비디오 컨텐츠를 구성하는 비디오 프레임들의 뎁스 정보로서, 도 2에서 상술한 바와 같이 3D 오디오 이펙트를 생성하는데 사용하기 위한 정보이다.
뎁스 정보는 상술한 표 1 내지 표 8에서 설명한 신택스 및 도 3 내지 도 5에서 설명한 테이블들을 포함할 수 있으며, MPEG 파일 포맷을 통해 시그널링 될 수 있다. 특히 MPEG 파일 포맷 내의 샘플 테이블 박스를 통해 시그널링 될 수 있다.
뎁스 정보는 프레임 식별 정보, 뎁스 레벨 정보 및 뎁스 레인지 정보를 포함할 수 있다. 이하 각 정보에 대해 간략히 설명한다.
프레임 식별 정보는 표 6에서 설명한 sample_index 정보가 될 수 있다.
뎁스 레벨 정보는 표 1 내지 표 5에서 설명한 depth_level_per_video_frame 정보 또는 표 6 내지 표 8에서 설명한 depth_level 정보가 될 수 있다. 뎁스 레벨 정보는 도 7 내지 도 11에서 설명한 바와 같이 비디오 프레임들에 대해 동일하게 설정되거나, 각 비디오 프레임에 따라 다르게 설정되거나, 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정될 수 있다.
만약, 뎁스 레벨 정보가 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우에는 뎁스 정보는 연속한 일부 비디오 프레임의 개수를 지시하는 제 1 오프셋 정보를 더 포함할 수 있다. 제 1 오프셋 정보는 표 7 및 도 4에서 설명한 sample_offset 정보가 될 수 있다.
뎁스 레인지 정보는 표 1 내지 표 5에서 설명한 num_depth_levels 정보 또는 표 6 내지 표 8에서 설명한 depth_range 정보가 될 수 있다. 뎁스 레인지 정보는 도 7 내지 도 11에서 설명한 바와 같이 비디오 프레임들에 대해 동일하게 설정되거나, 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정될 수 있다.
만약, 뎁스 레인지 정보가 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우에는, 뎁스 정보는 연속한 일부 비디오 프레임의 개수를 지시하는 제 2 오프셋 정보를 더 포함할 수 있다. 제 2 오프셋 정보는 표 8 및 도 5에서 설명한 sample_offset 정보가 될 수 있다.
이후, 도 12에서 설명한 신호 생성부(1220)는 생성된 3D 컨텐츠와 생성된 뎁스 정보를 포함하는 3D 인핸스드 (enhanced) 신호를 생성할 수 있다(S1420). 3D 인핸스드 신호는 CD와 같은 저장매체에 저장될 수도 있고, 인터넷 망 또는 방송 망을 통해 전송될 수 있다. 이는 설계자의 의도에 따라 변경 가능하다.
도 15는 본 발명의 다른 실시예에 따른 인핸스드 3D 오디오/비디오 처리 방법의 플로우 차트이다.
도 13에서 설명한 신호 처리부(1300)는 인핸스드 3D 신호를 처리할 수 있다(S1500). 신호 처리부(1300)는 인핸스드 3D 신호에 포함된 3D 컨텐츠와 뎁스 정보를 분리할 수 있고, 3D 컨텐츠를 구성하는 비디오 컨텐츠와 오디오 컨텐츠를 분리할 수도 있다. 3D 컨텐츠는 상술한 바와 같이 비디오 컨텐츠 및 오디오 컨텐츠에 3D 효과가 적용될 컨텐츠를 의미하며, 특히 3D 비디오 효과와 3D 오디오 효과가 싱크로나이즈된 3D 컨텐츠를 포함하는 개념이다.
또한 3D 인핸스드 신호는 CD와 같은 저장매체에 저장된 신호일 수도 있고, 인터넷 망 또는 방송 망을 통해 수신되는 신호일 수도 있다. 이는 설계자의 의도에 따라 변경 가능하다.
도 13에서 설명한 뎁스 정보 추출부(1310)는 처리된 인핸스드 3D 신호로부터 뎁스 정보를 추출할 수 있다(S1510).
뎁스 정보는 도 2에서 상술한 바와 같이 3D 오디오 이펙트를 생성하는데 사용하기 위한 정보이다.
뎁스 정보는 상술한 표 1 내지 표 8에서 설명한 신택스 및 도 3 내지 도 5에서 설명한 테이블들을 포함할 수 있으며, MPEG 파일 포맷을 통해 시그널링 될 수 있다. 특히 MPEG 파일 포맷 내의 샘플 테이블 박스를 통해 시그널링 될 수 있다.
뎁스 정보는 프레임 식별 정보, 뎁스 레벨 정보 및 뎁스 레인지 정보를 포함할 수 있다. 이하 각 정보에 대해 간략히 설명한다.
프레임 식별 정보는 표 6에서 설명한 sample_index 정보가 될 수 있다.
뎁스 레벨 정보는 표 1 내지 표 5에서 설명한 depth_level_per_video_frame 정보 또는 표 6 내지 표 8에서 설명한 depth_level 정보가 될 수 있다. 뎁스 레벨 정보는 도 7 내지 도 11에서 설명한 바와 같이 비디오 프레임들에 대해 동일하게 설정되거나, 각 비디오 프레임에 따라 다르게 설정되거나, 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정될 수 있다.
만약, 뎁스 레벨 정보가 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우에는 뎁스 정보는 연속한 일부 비디오 프레임의 개수를 지시하는 제 1 오프셋 정보를 더 포함할 수 있다. 제 1 오프셋 정보는 표 7 및 도 4에서 설명한 sample_offset 정보가 될 수 있다.
뎁스 레인지 정보는 표 1 내지 표 5에서 설명한 num_depth_levels 정보 또는 표 6 내지 표 8에서 설명한 depth_range 정보가 될 수 있다. 뎁스 레인지 정보는 도 7 내지 도 11에서 설명한 바와 같이 비디오 프레임들에 대해 동일하게 설정되거나, 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정될 수 있다.
만약, 뎁스 레인지 정보가 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우에는, 뎁스 정보는 연속한 일부 비디오 프레임의 개수를 지시하는 제 2 오프셋 정보를 더 포함할 수 있다. 제 2 오프셋 정보는 표 8 및 도 5에서 설명한 sample_offset 정보가 될 수 있다.
도 13에서 설명한 3D 오디오 이펙트 생성부(1320)는 획득한 뎁스 정보를 이용하여 3D 오디오 이펙트를 생성할 수 있다(S1520). 도 6에서 상술한 바와 같이, 3D 사운드 스페이스는 3D 오디오를 제공하기 위해 설정되는 영역으로 복수개의 오디오 스팟(spot)으로 나누어질 수 있다. 각 오디오 스팟은 3D 사운드 스페이스 내의 특정 위치로 정의 될 수 있으며, 각각의 오디오 스팟에는 각 뎁스 레벨에 따라 처리된 3D 오디오가 제공된다. 또한 본 발명에서는 각 오디오 스팟에 제공되는 3D 오디오 이펙트의 효과를 사운드 뎁스 레벨로 정의할 수 있다 사운드 뎁스 레벨은 상술한 3D 비디오의 뎁스 정보에 따라 결정 될 수 있다.
이후, 도 13에서 설명한 3D 오디오 컨텐츠 생성부(1330) 는 3D 오디오 이펙트를 적용하여 3D 오디오 컨텐츠를 생성할 수 있다(S1530). 구체적인 내용은 도 6에서 상술한 바와 같다.
전술한 바와 같이, 상기 발명의 실시를 위한 최선의 형태에서, 관련된 사항을 기술하였다.
전술한 바와 같이, 본 발명은 디지털 방송 시스템 또는 인핸스드 3D AV 장치에 전체적으로 또는 부분적으로 적용될 수 있다.

Claims (20)

  1. 비디오 컨텐츠 및 오디오 컨텐츠를 포함하는 3D (3-Dimentional) 컨텐츠를 생성하는 단계;
    상기 비디오 컨텐츠를 구성하는 비디오 프레임들의 뎁스 정보를 생성하는 단계로서, 상기 뎁스 정보는 상기 오디오 컨텐츠에 적용될 3D 오디오 이펙트를 생성하기 위해 사용되는 정보로서, 상기 뎁스 정보는 프레임 식별 정보, 뎁스 레벨 (depth level) 정보 및 뎁스 레인지 (depth range) 정보를 포함하고, 상기 프레임 식별 정보는 각 비디오 프레임을 식별하기 위한 프레임의 번호를 지시하고, 상기 뎁스 레벨 정보는 각 비디오 프레임에 적용되는 3D 효과의 크기를 지시하고, 상기 뎁스 레인지 정보는 상기 뎁스 레벨의 전체 레벨 개수를 지시하고; 및
    상기 생성된 3D 컨텐츠와 상기 뎁스 정보를 포함하는 3D 인핸스드 (enhanced) 신호를 생성하는 단계를 포함하는 인핸스드 3D 오디오/비디오 처리 방법.
  2. 제 1 항에 있어서, 상기 뎁스 정보는 MPGE 파일 포맷(file format)에 포함되는 것을 특징으로 하는 인핸스드 3D 오디오/비디오 처리 방법.
  3. 제 1 항에 있어서, 상기 뎁스 레벨 정보는 상기 비디오 프레임들에 대해 동일하게 설정되거나, 각 비디오 프레임마다 다르게 설정되거나, 상기 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정되는 것을 포함하는 인핸스드 3D 오디오/비디오 처리 방법.
  4. 제 3 항에 있어서, 상기 뎁스 레인지 정보는 상기 비디오 프레임들에 대해 동일하게 설정되거나, 상기 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정되는 것을 포함하는 인핸스드 3D 오디오/비디오 처리 방법.
  5. 제 4 항에 있어서, 상기 뎁스 정보는 상기 뎁스 레벨 정보가 상기 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우, 상기 연속한 일부 비디오 프레임의 개수를 지시하는 제 1 오프셋 정보를 더 포함하는 인핸스드 3D 오디오/비디오 처리 방법.
  6. 제 5 항에 있어서, 상기 뎁스 정보는 상기 뎁스 레인지 정보가 상기 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우, 상기 연속한 일부 비디오 프레임의 개수를 지시하는 제 2 오프셋 정보를 더 포함하는 인핸스드 3D 오디오/비디오 처리 방법.
  7. 비디오 컨텐츠 및 오디오 컨텐츠를 포함하는 3D (3-Dimentional) 컨텐츠를 포함하는 3D 인핸스드 (enhanced) 신호를 처리하는 단계;
    상기 처리된 3D 인핸스드 신호로부터 상기 비디오 컨텐츠를 구성하는 비디오 프레임들의 뎁스 정보를 획득하는 단계로서, 상기 뎁스 정보는 프레임 식별자, 뎁스 레벨 (depth level) 정보 및 뎁스 레인지 (depth range) 정보를 포함하고, 상기 프레임 식별 정보는 각 비디오 프레임을 식별하기 위한 프레임의 번호를 지시하고, 상기 뎁스 레벨 정보는 각 비디오 프레임에 적용되는 3D 효과의 크기를 지시하고, 상기 뎁스 레인지 정보는 상기 뎁스 레벨의 전체 레벨 개수를 지시하고;
    상기 획득한 뎁스 정보에 따라 3D 오디오 이펙트를 생성하는 단계; 및
    상기 생성된 3D 오디오 이펙트를 적용하여 3D 오디오 컨텐츠를 생성하는 단계를 포함하는 인핸스드 3D 오디오/비디오 처리 방법.
  8. 제 7 항에 있어서, 상기 뎁스 정보는 MPGE 파일 포맷(file format)에 포함되는 것을 특징으로 하는 인핸스드 3D 오디오/비디오 처리 방법.
  9. 제 7 항에 있어서, 상기 뎁스 레벨 정보는 상기 비디오 프레임들에 대해 동일하게 설정되거나, 각 비디오 프레임에 따라 다르게 설정되거나, 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정되는 것을 포함하는 인핸스드 3D 오디오/비디오 처리 방법.
  10. 제 9 항에 있어서, 상기 뎁스 레인지 정보는 상기 비디오 프레임들에 대해 동일하게 설정되거나, 상기 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정되는 것을 포함하는 인핸스드 3D 오디오/비디오 처리 방법.
  11. 제 10 항에 있어서, 상기 뎁스 정보는 상기 뎁스 레벨 정보가 상기 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우, 상기 연속한 일부 비디오 프레임의 개수를 지시하는 제 1 오프셋 정보를 더 포함하는 인핸스드 3D 오디오/비디오 처리 방법.
  12. 제 11 항에 있어서, 상기 뎁스 정보는 상기 뎁스 레인지 정보가 상기 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우, 상기 연속한 일부 비디오 프레임의 개수를 지시하는 제 2 오프셋 정보를 더 포함하는 인핸스드 3D 오디오/비디오 처리 방법.
  13. 비디오 컨텐츠 및 오디오 컨텐츠를 포함하는 3D (3-Dimentional) 컨텐츠를 생성하는 3D 컨텐츠 생성부;
    상기 비디오 컨텐츠를 구성하는 비디오 프레임들의 뎁스 정보를 생성하는 뎁스 정보 생성부로서, 상기 뎁스 정보는 상기 오디오 컨텐츠에 적용될 3D 오디오 이펙트를 생성하는데 사용되고, 상기 뎁스 정보는 프레임 식별 정보, 뎁스 레벨 (depth level) 정보 및 뎁스 레인지 (depth range) 정보를 포함하고, 상기 프레임 식별 정보는 각 비디오 프레임을 식별하기 위한 프레임의 번호를 지시하고, 상기 뎁스 레벨 정보는 각 비디오 프레임에 적용되는 3D 효과의 크기를 지시하고, 상기 뎁스 레인지 정보는 상기 뎁스 레벨의 전체 레벨 개수를 지시하고; 및
    상기 생성된 3D 컨텐츠와 상기 뎁스 정보를 포함하는 3D 인핸스드 (enhanced) 신호를 생성하는 신호 생성부를 포함하는 인핸스드 3D 오디오/비디오 처리 장치.
  14. 제 13 항에 있어서, 상기 뎁스 정보는 MPGE 파일 포맷 (file format)에 포함되는 것을 특징으로 하는 인핸스드 3D 오디오/비디오 처리 장치.
  15. 제 13 항에 있어서, 상기 뎁스 레벨 정보는 상기 비디오 프레임들에 대해 동일하게 설정되거나, 각 비디오 프레임에 따라 다르게 설정되거나, 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정되고, 상기 뎁스 레인지 정보는 비디오 프레임들에 대해 동일하게 설정되거나, 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정되는 것을 포함하는 인핸스드 3D 오디오/비디오 처리 장치.
  16. 제 15 항에 있어서, 상기 뎁스 정보는 제 1 오프셋 정보 및 제 2 오프셋 정보를 더 포함하고, 상기 제 1 오프셋 정보는 상기 뎁스 레벨 정보가 상기 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우, 상기 연속한 일부 비디오 프레임의 개수를 지시하고, 상기 제 2 오프셋 정보는 상기 뎁스 레인지 정보가 상기 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우, 상기 연속한 일부 비디오 프레임의 개수를 지시하는 것을 더 포함하는 인핸스드 3D 오디오/비디오 처리 장치.
  17. 비디오 컨텐츠 및 오디오 컨텐츠를 포함하는 3D (3-Dimentional) 컨텐츠를 포함하는 3D 인핸스드 (enhanced) 신호를 처리하는 신호 처리부;
    상기 처리된 3D 인핸스드 신호로부터 상기 비디오 컨텐츠를 구성하는 비디오 프레임들의 뎁스 정보를 획득하는 뎁스 정보 추출부로서, 상기 뎁스 정보는 프레임 식별자, 뎁스 레벨 (depth level) 정보 및 뎁스 레인지 (depth range) 정보를 포함하고, 상기 프레임 식별 정보는 각 비디오 프레임을 식별하기 위한 프레임의 번호를 지시하고, 상기 뎁스 레벨 정보는 각 비디오 프레임에 적용되는 3D 효과의 크기를 지시하고, 상기 뎁스 레인지 정보는 상기 뎁스 레벨의 전체 레벨 개수를 지시하고;
    상기 획득한 뎁스 정보에 따라 3D 오디오 이펙트를 생성하는 3D 오디오 이펙트 생성부; 및
    상기 생성된 3D 오디오 이펙트를 적용하여 3D 오디오 컨텐츠를 생성하는 3D 오디오 컨텐츠 생성부를 포함하는 인핸스드 3D 오디오/비디오 처리 장치.
  18. 제 17 항에 있어서, 상기 뎁스 정보는 MPGE 파일 포맷(file format)에 포함되는 것을 특징으로 하는 인핸스드 3D 오디오/비디오 처리 방법.
  19. 제 17 항에 있어서, 상기 뎁스 레벨 정보는 상기 비디오 프레임들에 대해 동일하게 설정되거나, 각 비디오 프레임에 따라 다르게 설정되거나, 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정되고, 상기 뎁스 레인지 정보는 비디오 프레임들에 대해 동일하게 설정되거나, 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정되는 것을 포함하는 인핸스드 3D 오디오/비디오 처리 장치.
  20. 제 19 항에 있어서, 상기 뎁스 정보는 제 1 오프셋 정보 및 제 2 오프셋 정보를 더 포함하고, 상기 제 1 오프셋 정보는 상기 뎁스 레벨 정보가 상기 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우, 상기 연속한 일부 비디오 프레임의 개수를 지시하고, 상기 제 2 오프셋 정보는 상기 뎁스 레인지 정보가 상기 비디오 프레임들 중 연속한 일부 비디오 프레임들의 단위 별로 각각 다르게 설정된 경우, 상기 연속한 일부 비디오 프레임의 개수를 지시하는 것을 더 포함하는 인핸스드 3D 오디오/비디오 처리 장치.
PCT/KR2013/006103 2012-07-09 2013-07-09 인핸스드 3d 오디오/비디오 처리 장치 및 방법 WO2014010920A1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP13817608.6A EP2871842A4 (en) 2012-07-09 2013-07-09 APPARATUS AND METHOD FOR PROCESSING IMPROVED 3-DIMENSIONAL AUDIO / VIDEO CONTENT (3D)
CN201380036875.0A CN104429063B (zh) 2012-07-09 2013-07-09 增强3d音频/视频处理装置和方法
KR1020147034786A KR20150032253A (ko) 2012-07-09 2013-07-09 인핸스드 3d 오디오/비디오 처리 장치 및 방법
US14/408,197 US9723287B2 (en) 2012-07-09 2013-07-09 Enhanced 3D audio/video processing apparatus and method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201261669626P 2012-07-09 2012-07-09
US61/669,626 2012-07-09
US201261672255P 2012-07-16 2012-07-16
US61/672,255 2012-07-16

Publications (1)

Publication Number Publication Date
WO2014010920A1 true WO2014010920A1 (ko) 2014-01-16

Family

ID=49916298

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2013/006103 WO2014010920A1 (ko) 2012-07-09 2013-07-09 인핸스드 3d 오디오/비디오 처리 장치 및 방법

Country Status (5)

Country Link
US (1) US9723287B2 (ko)
EP (1) EP2871842A4 (ko)
KR (1) KR20150032253A (ko)
CN (1) CN104429063B (ko)
WO (1) WO2014010920A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10575112B2 (en) 2015-09-04 2020-02-25 Koninklijke Philips N.V. Method and apparatus for processing an audio signal associated with a video image
JP6992511B2 (ja) * 2016-01-13 2022-01-13 ソニーグループ株式会社 情報処理装置および情報処理方法
CN107491172B (zh) * 2017-08-16 2020-10-09 歌尔科技有限公司 体感数据获取方法、装置及电子设备
CN109413563B (zh) * 2018-10-25 2020-07-10 Oppo广东移动通信有限公司 视频的音效处理方法及相关产品
CN113497943A (zh) * 2021-08-09 2021-10-12 杭州小影创新科技股份有限公司 一种深度信息的量化和编码方法
CN114630145A (zh) * 2022-03-17 2022-06-14 腾讯音乐娱乐科技(深圳)有限公司 一种多媒体数据合成方法、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006128818A (ja) * 2004-10-26 2006-05-18 Victor Co Of Japan Ltd 立体映像・立体音響対応記録プログラム、再生プログラム、記録装置、再生装置及び記録メディア
US20110164769A1 (en) * 2008-08-27 2011-07-07 Wuzhou Zhan Method and apparatus for generating and playing audio signals, and system for processing audio signals
KR20110105715A (ko) * 2010-03-19 2011-09-27 삼성전자주식회사 입체 음향 재생 방법 및 장치
KR20110122631A (ko) * 2010-05-04 2011-11-10 삼성전자주식회사 입체 음향 재생 방법 및 장치
KR20110134087A (ko) * 2010-06-08 2011-12-14 엘지전자 주식회사 영상표시장치 및 그 동작방법

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003281138A1 (en) 2002-07-16 2004-02-02 Electronics And Telecommunications Research Institute Apparatus and method for adapting 2d and 3d stereoscopic video signal
KR100585966B1 (ko) * 2004-05-21 2006-06-01 한국전자통신연구원 3차원 입체 영상 부가 데이터를 이용한 3차원 입체 디지털방송 송/수신 장치 및 그 방법
KR100954385B1 (ko) * 2007-12-18 2010-04-26 한국전자통신연구원 개인화된 머리전달함수를 이용한 3차원 오디오 신호 처리장치 및 그 방법과, 그를 이용한 고현장감 멀티미디어 재생시스템
EP2328337A4 (en) 2008-09-02 2011-08-10 Huawei Device Co Ltd 3D VIDEO COMMUNICATION, TRANSMISSION DEVICE, SYSTEM AND IMAGE RECONSTRUCTION, SYSTEM
US8290338B2 (en) * 2009-05-27 2012-10-16 Panasonic Corporation Recording medium, playback device, encoding device, integrated circuit, and playback output device
US8878912B2 (en) * 2009-08-06 2014-11-04 Qualcomm Incorporated Encapsulating three-dimensional video data in accordance with transport protocols
KR20110106715A (ko) 2010-03-23 2011-09-29 삼성전자주식회사 후방 잡음 제거 장치 및 방법
US8665321B2 (en) 2010-06-08 2014-03-04 Lg Electronics Inc. Image display apparatus and method for operating the same
US20120251069A1 (en) * 2011-03-29 2012-10-04 Broadcom Corporation Audio enhancement based on video and/or other characteristics

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006128818A (ja) * 2004-10-26 2006-05-18 Victor Co Of Japan Ltd 立体映像・立体音響対応記録プログラム、再生プログラム、記録装置、再生装置及び記録メディア
US20110164769A1 (en) * 2008-08-27 2011-07-07 Wuzhou Zhan Method and apparatus for generating and playing audio signals, and system for processing audio signals
KR20110105715A (ko) * 2010-03-19 2011-09-27 삼성전자주식회사 입체 음향 재생 방법 및 장치
KR20110122631A (ko) * 2010-05-04 2011-11-10 삼성전자주식회사 입체 음향 재생 방법 및 장치
KR20110134087A (ko) * 2010-06-08 2011-12-14 엘지전자 주식회사 영상표시장치 및 그 동작방법

Also Published As

Publication number Publication date
EP2871842A1 (en) 2015-05-13
US9723287B2 (en) 2017-08-01
EP2871842A4 (en) 2016-06-29
KR20150032253A (ko) 2015-03-25
CN104429063B (zh) 2017-08-25
US20150181192A1 (en) 2015-06-25
CN104429063A (zh) 2015-03-18

Similar Documents

Publication Publication Date Title
WO2014010920A1 (ko) 인핸스드 3d 오디오/비디오 처리 장치 및 방법
WO2011155776A2 (ko) 프래그먼트 기반의 멀티미디어 스트리밍 서비스 제공 방법과 그 장치, 그리고 프래그먼트 기반의 멀티미디어 스트리밍 서비스 수신 방법과 그 장치
WO2017099444A1 (en) Content processing apparatus, content processing method thereof, server, information providing method of server and information providing system
WO2015008987A1 (ko) 디지털 방송 시스템에서 고품질의 색감 표현을 위한 초고화질 방송 신호 송수신 방법 및 장치
WO2012074328A2 (ko) 다시점 3차원 방송 신호를 수신하기 위한 수신 장치 및 방법
WO2010076933A1 (ko) 이차원 영상과 3d 영상의 통합 서비스가 가능한 디지털 방송 수신방법, 및 이를 이용한 디지털 방송 수신장치
WO2015034188A1 (ko) 디지털 방송 시스템에서 광역 밝기 표현을 위한 초고화질 방송 신호 송수신 방법 및 장치
WO2011159128A2 (en) Method and apparatus for providing digital broadcasting service with 3-dimensional subtitle
WO2015012605A1 (ko) 3차원 콘텐츠의 부호화 방법 및 장치
WO2018004239A1 (ko) 영상 복호화 방법, 영상 부호화 방법, 영상 복호화 장치, 및 영상 부호화 장치
WO2013025035A2 (ko) 송신 장치, 수신 장치 및 그 송수신 방법
WO2012044128A4 (ko) 디스플레이 장치 및 신호 처리 장치와, 그 방법들
WO2009145426A1 (en) Method and apparatus for generating stereoscopic image data stream by using camera parameter, and method and apparatus for restoring stereoscopic image by using camera parameter
WO2014092509A1 (en) Glasses apparatus and method for controlling glasses apparatus, audio apparatus and method for providing audio signal and display apparatus
WO2011013995A2 (en) Method and apparatus for generating 3-dimensional image datastream including additional information for reproducing 3-dimensional image, and method and apparatus for receiving the 3-dimensional image datastream
WO2010151044A2 (ko) 3차원 컨텐츠를 출력하는 디스플레이 기기의 영상 처리 방법 및 그 방법을 채용한 디스플레이 기기
WO2012077982A2 (ko) 멀티미디어 컨텐츠를 송수신하는 송신 장치 및 수신 장치와, 그 재생 방법
WO2016129891A1 (ko) 방송 신호 송수신 방법 및 장치
WO2016089093A1 (ko) 방송 신호 송수신 방법 및 장치
WO2020076058A1 (ko) 3차원 비디오 컨텐츠를 포함하는 미디어 파일을 생성하는 방법 및 장치 및 3차원 비디오 컨텐츠를 재생하는 방법 및 장치
WO2013154402A1 (en) Receiving apparatus for receiving a plurality of signals through different paths and method for processing signals thereof
WO2014025239A1 (ko) 3d 영상을 위한 영상 컴포넌트 송수신 처리 방법 및 장치
WO2012057434A1 (en) Stereoscopic image processing system and device and glasses
WO2011155766A2 (ko) 영상 처리 방법 및 그에 따른 영상 표시 장치
WO2013183947A1 (ko) 3d 방송 서비스를 위한 방송 신호 처리 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13817608

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 20147034786

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14408197

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2013817608

Country of ref document: EP