WO2012070875A2 - 멀티미디어 시스템에서 다계층 영상을 위한 미디어 파일 생성 방법 및 장치와 이를 이용한 미디어 파일 재생 장치 - Google Patents

멀티미디어 시스템에서 다계층 영상을 위한 미디어 파일 생성 방법 및 장치와 이를 이용한 미디어 파일 재생 장치 Download PDF

Info

Publication number
WO2012070875A2
WO2012070875A2 PCT/KR2011/009001 KR2011009001W WO2012070875A2 WO 2012070875 A2 WO2012070875 A2 WO 2012070875A2 KR 2011009001 W KR2011009001 W KR 2011009001W WO 2012070875 A2 WO2012070875 A2 WO 2012070875A2
Authority
WO
WIPO (PCT)
Prior art keywords
layer
information
track
enhancement
media file
Prior art date
Application number
PCT/KR2011/009001
Other languages
English (en)
French (fr)
Other versions
WO2012070875A3 (ko
Inventor
박필규
김대희
조대성
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to US13/989,214 priority Critical patent/US20130243391A1/en
Publication of WO2012070875A2 publication Critical patent/WO2012070875A2/ko
Publication of WO2012070875A3 publication Critical patent/WO2012070875A3/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/87Regeneration of colour television signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/24Systems for the transmission of television signals using pulse code modulation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234327Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability

Definitions

  • the present invention relates to a method and apparatus for generating a media file, and more particularly, to a method and apparatus for generating a media file for a multi-layer image.
  • Multi-layer video encoding / decoding is to satisfy various bandwidths of a network, various decoding capabilities of a device, and a quality of service (QoS) under user control. That is, the encoder generates layered video bitstreams layered by one encoding, and the decoder decodes the multilayered video bitstreams according to a decoding capability. Temporal, spatial, and signal-to-noise ratio (SNR) layer coding can be handled, and multi-layer coding is possible according to application scenarios.
  • SNR signal-to-noise ratio
  • An example of a representative file format of the encoded image may be a format of an ISO base media file (hereinafter referred to as an "ISO base file") defined by ISO / IEC.
  • ISO base file is also generally called a media file.
  • the media file format is a standard file format used for multimedia services and is the basis of a flexible and scalable media file structure.
  • FIG. 1A is a diagram schematically illustrating a format of a general ISO basic file 100a.
  • the ISO basic file 100a is configured in the form of an object-based box containing information and functions necessary for playing a plurality of media contents together.
  • the ISO basic file 100a includes a movie box 110 and a media data box 130.
  • the movie box 110 stores temporal and spatial location information and codec information of media data stored in the media data box 130.
  • the media data box 130 stores media data (or media streams) such as video and audio.
  • the movie box 110 includes information on how to organize media data such as video, audio, text, and image in one scene.
  • the tracks 111 and 113 in the movie box 110 include basic information of corresponding media data and information on a reproduction method. Also, in FIG. 1A, the track 111 includes information about video data, and the track 113 includes information about audio data. Media data corresponding to each track 111 and 113 is defined as a set of samples that are contiguous in time in the ISO basic file 100a. Therefore, the media data corresponds to a series of images or a series of audio samples.
  • the ISO basic file 100a of FIG. 1A is proposed as a standard file format for a general multimedia service and does not support multi-layer video. Therefore, a media file format suitable for multi-layer video is required.
  • the present invention provides a method and apparatus for generating a media file for a multilayer image in a multimedia system.
  • the present invention also provides a recording medium for storing a media file for a multi-layer image in a multimedia system.
  • the present invention provides a terminal device for playing a media file for a multi-layer video in a multimedia system.
  • a method for generating a media file for a multi-layer image in a multimedia system includes generating a bit stream of the multi-layer image by encoding an input image, and receiving a bit string of the multi-layer image as a base layer. And generating a media file including a plurality of track information divided into at least one enhancement layer and media data of each layer image.
  • an apparatus for generating a media file for a multilayer image in a multimedia system includes an encoder for generating bit strings of the multilayer images by encoding an input image, and receiving the bit strings of the multilayer image. And a file generator for generating a media file including a plurality of track information divided into a layer and at least one enhancement layer and media data of each layer image.
  • the terminal device for playing a media file in a multimedia system the display unit for displaying the media file, a decoder for decoding a multi-layer image including a base layer and at least one enhancement layer, and At least one of each hierarchical image is extracted by analyzing a media file including a plurality of track information of a multi-layer image and media data of each hierarchical image, and the extracted hierarchical image is reconstructed by the decoder. And a controller for controlling the hierarchical image to be played through the display unit.
  • 1A is a diagram schematically illustrating a format of a general ISO basic file 100a
  • 1B is a diagram illustrating a format of an ISO basic file 100b according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating a configuration of a multilayer video encoding apparatus according to an embodiment of the present invention
  • FIG. 3 is a diagram illustrating a configuration of an apparatus for generating a media file for a multilayer image according to an embodiment of the present invention
  • FIG. 4 is a diagram illustrating a configuration of a multilayer video decoding apparatus according to an embodiment of the present invention
  • FIG. 5 is a diagram showing the configuration of an apparatus for reproducing a media file for a multilayer image according to an embodiment of the present invention
  • FIG. 6 is a view showing in detail the format of a media file according to an embodiment of the present invention.
  • FIG. 7 illustrates a format of a media file according to another embodiment of the present invention.
  • FIG. 8 is a diagram illustrating an example of a configuration of a movie box in a media file according to an embodiment of the present invention.
  • FIG. 1B is a diagram illustrating a format of an ISO basic file 100b according to an embodiment of the present invention.
  • the ISO basic file 100b includes an object-based box in which information and functions necessary for playing media data corresponding to one or more hierarchical images are played.
  • the ISO base file 100b includes a movie box 150 and a media data box 170.
  • the movie box 150 stores temporal and spatial location information and codec information of media data stored in the media data box 170.
  • the media data box 170 stores media data (or media streams) such as video and audio.
  • the movie box 170 includes information on how to organize media data such as video, audio, text, and image in one scene.
  • the information stored in the movie box 170 corresponds to header information required for playing the media data stored in the media data box 170, and the tracks 151, 153 and 155 include basic information of corresponding media data and information on a reproduction method.
  • the ISO basic file 100b supports a multi-layered image.
  • the multi-layer image includes a base layer image and at least one enhancement layer image.
  • the base layer image is, for example, an image having a low resolution, a small size, or a view point
  • the enhancement layer image is an image having a higher resolution, a larger size, or a different view than the base layer image. it means.
  • the format of the ISO base file 100b of FIG. 1B is an example of supporting one base layer image and two enhancement layer images for convenience of description, and the number of enhancement layer images may be one or plural.
  • the basic track 151 for the base layer image in the movie box 110 includes basic information about the base layer image and information about a reproduction method.
  • the enhancement tracks 153 and 155 of the enhancement layer image in the movie box 110 include basic information about the enhancement layer image and information about a reproduction method.
  • the basic information is information such as a frame rate, a bit rate, a picture size, and the like, for the base layer image or the enhancement layer image.
  • the information on the reproduction method is various information for reproducing each hierarchical image such as synchronization information for supporting a reproduction function.
  • the base track 151 includes only information about the base layer image, and each of the enhancement tracks 153 and 155 includes information about the enhancement layer image except for the base track 151 or information about the enhancement layer image. Information on at least one other enhancement layer image may be included together with the information.
  • the base track 151 and all boxes included in the box follow an ISO base file format compatible with the codec used for the base layer, media data (base layer data), and a format defined in the file format. Therefore, even if the playback device that does not support the media file format according to the present invention supports the ISO file format of the codec used in the base layer, the media data of the base layer can be played back.
  • the media data box 170 stores media data (or a media stream) such as video and audio
  • FIG. 1B shows a bit string 171 of a base layer image.
  • FIG. 2 is a diagram illustrating a configuration of a multi-layer video encoding apparatus according to an embodiment of the present invention.
  • the configuration of FIG. 2 is a diagram of a video encoding apparatus for encoding three hierarchical images including a base layer image and two enhancement layer images.
  • One configuration example is shown.
  • the present invention is not limited to the encoding apparatus of FIG. 2, and the media file of the present invention may be applied to a multi-layer image of at least two layers.
  • down-conversion of the original input image is performed twice for three-layer hierarchical encoding. Through this process, two layers of images are generated from the original input image.
  • two down-converted images are a base layer image
  • one down-converted image is a second layer image
  • an original input image is a third layer image.
  • the encoding apparatus of FIG. 2 generates a base layer bitstream using any existing standard video codec.
  • the encoding apparatus of FIG. 2 reconstructs the base layer bit string and generates a second layer bit string by encoding a residual image that is a difference between the base layer image and the second layer image which have undergone a format up-conversion process.
  • the encoding apparatus of FIG. 2 reconstructs a second layer image, synthesizes the restored second layer image with a format up-converted image in the first layer, and then performs an image up-conversion process and a third layer image.
  • a third hierarchical bit string is generated by encoding a residual image that is a difference from the input image.
  • the encoding apparatus sequentially down-converts an input image through a first format down converter 211 and a second format down converter 213.
  • two images are generated from the original input image.
  • the image down-converted twice from the input image, that is, the image output through the second format down-converter 213 is a base layer image.
  • the image down-converted once from the input image, that is, the image output through the first format down-converter 211 is a second hierarchical image.
  • the input image is a third layer image.
  • the base layer encoder 215 encodes a base layer image to generate a base layer bit string.
  • the base layer encoder 215 may use any existing standard video codec such as VC-1, H.264, MPEG-2, MPEG-4, or the like.
  • the residual encoder 223 encodes the residual image to generate a second hierarchical bit string.
  • the residual image refers to a difference between an image that has undergone a format up-conversion process and a second layer image after restoring the base layer image.
  • the base layer reconstruction unit 217 reconstructs the base layer image, and the reconstructed base layer image undergoes a format upconversion process by the first format upconversion unit 219.
  • the first residual unit 221 outputs a residual by obtaining a difference between an image obtained through a format up-conversion process, that is, an up-converted base layer image and a second layer image.
  • the second layer reconstructor 225 reconstructs the second layer image from the output of the residual encoder 223.
  • the reconstructed second hierarchical image is combined with the output image of the first format up-converter 219 by the combiner 231.
  • the output image of the combiner 231 is up-converted by the second format up-converter 233.
  • the second residual unit 227 outputs a residual by obtaining a difference between an image obtained through a format up-conversion process, that is, an input image that is an up-converted second layer image and a third layer image.
  • the residual encoder 229 encodes the residual image output from the second residual unit 227 to generate a third hierarchical bit string.
  • FIG. 2 a configuration of an encoding apparatus that encodes and outputs a multi-layer image including a base layer image, a second layer image, and a third layer image, respectively, as a bit string of a corresponding layer is illustrated.
  • the multi-layer bit string of at least two layers may be generated by the method.
  • FIG. 3 is a diagram illustrating a configuration of an apparatus for generating a media file for a multilayer image according to an exemplary embodiment of the present invention.
  • the media file generating apparatus 300 of FIG. 3 may include an encoder 310 that encodes an input image and outputs bit strings M1 of a multilayer image, and the bit streams M1 of the multilayer image, for example.
  • a file generation unit 330 generates a media file including a plurality of track information divided into a base layer and at least one enhancement layer and media data of each layer image.
  • the encoder 310 may use the encoder of FIG. 2. However, in addition to the encoding apparatus of FIG. 2, various encoding apparatuses capable of encoding a multilayer image may be used as the encoder 310.
  • the detailed structure of the media file proposed by the present invention will be described later.
  • FIG. 4 is a diagram illustrating a configuration of a multi-layer video decoding apparatus according to an embodiment of the present invention, wherein the configuration of FIG. 4 is a configuration of an image decoding apparatus for decoding an image of three layers including a base layer and two enhancement layers. An example is shown. However, the present invention is not limited to the decoding apparatus of FIG. 4, and the media file of the present invention may be applied to a multi-layer image of at least two layers.
  • the multi-layer image decoding apparatus of FIG. 4 reconstructs the base layer image by decoding the base layer bit string through any existing standard image codec.
  • the decoding apparatus of FIG. 4 decodes the second layer bit stream through the residual codec, and reconstructs the second layer image by adding up the decoded residual layer image and the reconstructed base layer image.
  • the decoding apparatus of FIG. 4 decodes the third hierarchical bit stream through the residual codec, and reconstructs the third hierarchical image by adding up the decoded residual image and the reconstructed second hierarchical image. .
  • the base layer decoder 441 reconstructs a base layer image by decoding the base layer bit string.
  • the base layer decoder 441 may use any existing standard video codec such as VC-1, H.264, MPEG-2, MPEG-4, or the like.
  • the residual decoder 443 outputs the residual image by decoding the second layer bit string.
  • the operation of decoding the second layer bit string and outputting the residual image may be understood through the residual encoding process described with reference to FIG. 2. That is, according to the description of FIG. 2, the second hierarchical bit string generated by the residual encoder 223 encodes the residual image output from the first residual unit 221. Therefore, by residual decoding the second layer bit stream, a residual image of the second layer may be obtained.
  • the first combiner 449 combines the residual image of the second layer and the image obtained by format up-converting the decoded base layer image through the first format up-converter 447. Reconstruct a two-layer image
  • the residual decoder 445 decodes the third layer bit stream and outputs a residual image of the third layer.
  • the second combiner 453 reconstructs the third layer image by adding up the residual image of the third layer and the image up-converted by the second format up-converter 451.
  • the third layer image may be, for example, a hi-fi image.
  • FIG. 4 illustrates a configuration of a decoding apparatus that decodes bit streams of a multi-layer image including a base layer bit string, a second layer bit string, and a third layer bit string, and outputs the decoded bit streams as corresponding layer images, respectively.
  • a multi-layered image of at least two layers may be decoded in this manner.
  • FIG. 5 is a diagram illustrating a configuration of an apparatus for reproducing a media file for a multilayer image according to an exemplary embodiment of the present invention.
  • the media file reproducing apparatus of FIG. 5 includes a file parsing unit 510, a decoding unit 530, a reproducing unit 550, and a display unit 570.
  • the file parser 510 receives and analyzes a media file including a plurality of track information divided into a base layer and at least one enhancement layer and media data of each layer image, and extracts each layer image.
  • the file parser 510 may include a base layer image and at least one enhancement layer image from the base track 151 and the enhancement tracks 153 and 155 of the movie box 110 of the media file, respectively.
  • reference information between the tracks is extracted, and the media data (bit string) of each hierarchical image is extracted from the media data box 170 based on the extracted information.
  • the decoder 530 decodes bit streams of the multi-layer image output from the file parser 510 to reconstruct images of the base layer and at least one enhancement layer.
  • the decoder 530 may use the decoder of FIG. 4. However, in addition to the decoding apparatus of FIG. 4, various decoding apparatuses capable of decoding a multilayer image may be used as the decoding unit 530.
  • the playback unit 550 reproduces each hierarchical image output through the decoding unit 530 through the display unit 570. In this case, the playback unit 550 may output only the image selected according to a key input or a predetermined control among the multilayer images. Also, under the control of the playback unit 550, the decoder 530 may decode only the selected image among the multilayer images.
  • the file parsing unit 510, the decoding unit 530, and the reproducing unit 550 may be implemented by at least one processor or a control unit. Although not illustrated, the file parsing unit 510, the decoding unit 530, and the reproduction unit 550 may be stored. A storage unit such as a memory may be provided. In addition, the media file having a structure according to an embodiment of the present invention may be stored non-transitory in a computer-readable recording medium. Such a recording medium may be provided in the apparatus of FIGS. 3 and 5 or may be used as a separate storage means.
  • the structure of the media file described below supports multi-layered images of base layer bit streams and enhancement layer bit streams generated by different codecs. That is, the embodiment of the present invention basically assumes that the codec of the base layer and the codec of the upper layer are different.
  • the codec of the enhancement layers may be a residual encoding codec and the codec of the base layer may be any existing codec.
  • the media file structure of the present invention maintains compatibility with, for example, the ISO basic media file format defined in the ISO / IEC 14496-12 standard.
  • a compatible type (compatible_brands) item in a file type box (not shown) of a media file of the present invention may include a brand corresponding to a codec used in an enhancement layer.
  • a well-known VC-4 codec may be used as the type of compatible codec.
  • the media file format proposed in the embodiment of the present invention does not support the existing ISO base file format corresponding to the codec used in the base layer, the ISO base file format so that the media data of the base layer can be played back.
  • a file type compatible with the item may be included in the file type box (not shown).
  • FIG. 6 is a diagram illustrating a format of a media file according to an exemplary embodiment of the present invention, which specifically illustrates the format of the ISO basic file 100b in FIG. 1B.
  • the media file 600 includes a movie box 610 for storing header information necessary for playing media data, and a media data box 630 for storing the media data. It includes.
  • the header information includes basic information of corresponding media data and information on a reproduction method.
  • the movie box 610 may include a basic track 611 for storing basic information and a reproduction method for a base layer image, and at least one enhancement for storing basic information and a reproduction method for an enhancement layer image.
  • Tracks 613 and 615 are identified using a unique track identifier (track ID) specified in a track header box (tkhd box).
  • track ID unique track identifier
  • tkhd box track header box
  • the media file proposed in the present invention includes a bit string 171 of one base layer image and one or more enhancement layer images in the media data box 170.
  • new boxes are defined in the media file to specify a hierarchical relationship among a plurality of bit strings.
  • the new boxes describe the interrelationships between the layers included in the media file.
  • a movie box 800 includes a hierarchical table box 810 to describe the interrelationship between the hierarchies, and the hierarchical table box ltbl box. Includes a hierarchy information box 830.
  • the hierarchical table box ltbl box 810 and the hierarchical information box 830 are respectively hierarchical.
  • the table box 617 and the hierarchical information boxes 617a, 617b, and 617c corresponds to the movie box 610 of FIG. 6, and the hierarchical table box ltbl box 810 and the hierarchical information box 830 are respectively hierarchical.
  • the table box 617 and the hierarchical information boxes 617a, 617b, and 617c corresponds to the movie box 610 of FIG. 6, and the hierarchical table box ltbl box 810 and the hierarchical information box 830 are respectively hierarchical.
  • the hierarchical table box 810 and the hierarchical information box 830 will be described in more detail below.
  • the layer table box 810 includes a layer count (layer_count) and a layer information box (LayerInfoBox).
  • the layer count indicates the number of all layers including the base layer and the enhancement layer existing in the media file.
  • the layer information box Layer InfoBox corresponds to the layer information box 830 in FIG. 8, and is included in the layer table box 810 as many as indicated by the layer count.
  • An embodiment showing an information structure of the hierarchical information box lyri box 830 is as follows.
  • each layer and each layer information box 830 are mapped to each other by a layer identifier layer_ID, and the layer identifier layer_ID has a unique value assigned to each layer.
  • the reference layer identifier (ref_layer_ID) is a layer identifier (layer_ID) of the layer referred to by the layer
  • the track count (track_count) is the number of tracks including the layer
  • the track identifier (track_ID) is a track including the layer. Is an array of identifiers.
  • enhancement tracks can be configured in various forms by specifying the layers included in each track using the information illustrated in the hierarchical information box 830.
  • a quality refinement flag indicates whether a quality refinement, that is, how many hierarchies of a quality hierarchy is used in the corresponding hierarchy.
  • the maximum quality layer identifier max_quality_layer_ID indicates the number of quality layers in the layer.
  • scalability is a character string for providing information on a scalable method between a current layer and a lower layer.
  • An example of a character string defined in an embodiment of the present invention is shown in Table 1 below.
  • width, height, framerate, maxBitrate, and avgBitrate mean width, height, frame rate, maximum bitrate, and average bitrate of the corresponding layer image, respectively.
  • the enhancement tracks 613, 615 in the media file of FIG. 6 include one or more enhancement layers.
  • each enhancement track 613 and 615 in order to describe the number of enhancement layers included in each enhancement track 613 and 615 and the characteristics of each enhancement layer 613 and 615, for example, an ISO basic media file format of ISO / IEC 14496-12.
  • the enhancement sample entry (EnhSampleEntry) 613a which further defines an enhancement specific box (EnhSpecificBox) and an enhancement bitrate box (EnhBitRateBox) as shown in ⁇ syntax 3>, is added to the items of the visual sample entry (VisualSampleEntry) defined in the enhancement track. Fields 613 and 615, respectively.
  • the information structure of the enhancement specific box (EnhSpecificBox) is as shown in ⁇ syntax 4>.
  • the enhancement bitrate box EnhBitRateBox indicates a bit rate of a corresponding enhancement layer and may be optionally included.
  • a layer count indicates the number of enhancement layers included in a corresponding enhancement track, and the number of enhancement layer characteristic information EnhDecSpecLayerStruc indicated by the layer count (layer_count) is divided according to the layer identifier. Included in the enhancement track.
  • the enhancement layer characteristic information EnhDecSpecLayerStruc includes information such as a layer identifier (layer_ID) of at least one enhancement layer included in a corresponding enhancement track, profile and level information used in a codec to encode the layer.
  • the information structure of the enhancement layer characteristic information EnhDecSpecLayerStruc is shown in ⁇ syntax 5>.
  • sequence_header_length ;
  • a constant bit rate indicates whether a constant bit rate or any other bit rate is applied to a content, ie, an image.
  • the sequence header includes a sequence header of a layer corresponding to the layer identifier, and the sequence header length (sequence_header_length) is the length of the sequence header.
  • the enhancement track proposed in the embodiment of the present invention may include one or more track reference boxes.
  • embodiments of the present invention define three types of track references to the enhancement track as shown in Table 2 below.
  • FIG. 7 is a diagram illustrating a format of a media file 700 according to another embodiment of the present invention.
  • the media file 700 of FIG. 7 is a movie box 710 like the media file 600 of FIG. 6.
  • a media data box (mdat box) 730 and the same configuration as in FIG. 7 in FIG. 7 will be omitted for convenience.
  • the media file 700 of FIG. 7 includes information 'ebas' and 'eext' as well as information for referring to other enhancement tracks required to decode samples of the track, and 'edep' 715a in the track reference box. An example is included.
  • the media data box (mdat box) 630 includes sample data 631 of the base layer and sample data 633 and 635 of one or a plurality of enhancement layers.
  • one enhancement layer may be divided into a plurality of quality layers according to the quality of sample data using subsamples.
  • a new subsample information box (SubSampleInformationBox) is configured by including the information in Table 3 below in the subsample information box (SubSampleInformationBox).
  • the new subsample information box (SubSampleInformationBox) specifies the characteristics of a sub-sample for classifying sample data belonging to an enhancement track including a plurality of enhancement layers for each layer according to its quality.
  • sample_type Type of Sub Sample Layer identifier (layer_ID) ID of the layer to which the sub sample belongs
  • quality_layer_ID Quality layer identifier
  • reference numeral 637 is an enhanced extractor for reference between samples of different enhancement layers, for example, in an enhancement track 615 including two or more enhancement layers.
  • the information of the enhancement extractor 637 is stored in a media data box 630 on a sample basis with corresponding sample data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

본 발명은 다계층 영상을 위한 미디어 파일 생성 방법 및 장치에 대한 것으로서, 본 발명의 실시 예에 따라 멀티미디어 시스템에서 다계층 영상을 위한 미디어 파일 생성 방법은, 입력 영상을 부호화하여 다계층 영상들의 비트열들을 생성하는 과정과, 상기 다계층 영상의 비트열들을 입력 받아 기본 계층과 적어도 하나의 향상 계층으로 구분되는 다수의 트랙 정보와 각 계층 영상의 미디어 데이터를 포함하는 미디어 파일을 생성하는 과정을 포함한다.

Description

멀티미디어 시스템에서 다계층 영상을 위한 미디어 파일 생성 방법 및 장치와 이를 이용한 미디어 파일 재생 장치
본 발명은 미디어 파일 생성 방법 및 장치에 대한 것으로서, 특히 다계층 영상을 위한 미디어 파일 생성 방법 및 장치에 대한 것이다.
다계층 영상 부호화/복호화는 네트워크의 다양한 대역폭과 디바이스의 다양한 디코딩 능력 및 사용자의 제어에 따른 QoS(Quality of Service)를 만족시키기 위한 것이다. 즉 부호화기에서 한 번의 부호화로 계층화된 다계층 영상 비트열들을 발생시키고, 복호화기에서는 복호 능력에 맞게 다계층 영상 비트열들을 복호화한다. 시간적, 공간적, 및 SNR(Signal-to-noise ratio) 계층 부호화를 처리할 수 있으며, 어플리케이션 시나리오에 따라 다계층 부호화가 가능하다.
다계층 영상에서 기본 계층(base layer) 비트열과 향상 계층(enhancement layer) 비트열의 상관도를 이용하는 종래 다계층 영상 부호화/복호화 방법은 복잡도가 높고, 기본 계층에 대한 부호화/복호화의 특성에 따르게 된다. 따라서 종래 다계층 영상 부호화/복호화 방법을 이용하여 다계층 영상을 생성하게 되면 복잡도는 더욱 증가된다. 따라서 다계층 영상을 효율적으로 부호화/복호화하기 위한 방안이 요구된다.
한편 상기 부호화된 영상의 대표적인 파일 포맷의 예로 ISO/IEC 에서 규정하는 ISO 기본 미디어 파일(base media file)(이하, "ISO 기본 파일")의 포맷을 들 수 있다. 또한 상기 ISO 기본 파일은 일반적으로 미디어 파일이라 칭한다. 상기 미디어 파일의 포맷은 멀티미디어 서비스를 위해 사용되는 표준 파일 포맷으로 유연하면서도 확장 가능한 미디어 파일 구조의 기본이 된다.
도 1a는 일반적인 ISO 기본 파일(100a)의 포맷을 개략적으로 나타낸 도면이다. 도 1을 참조하면, ISO 기본 파일(100a)은 다수의 미디어 콘텐츠를 함께 재생하기 위해 필요한 정보 및 기능들이 객체 기반의 박스(box) 형태로 구성된다.
도 1a에서 ISO 기본 파일(100a)은 무비 박스(moov box)(110)와 미디어 데이터 박스(mdat box)(130)을 포함한다. 상기 무비 박스(110)는 미디어 데이터 박스(130)에 저장된 미디어 데이터에 대한 시간적, 공간적인 위치 정보와 코덱 정보 등을 저장한다. 상기 미디어 데이터 박스(130)는 비디오와 오디오 등과 같은 미디어 데이터(or 미디어 스트림)을 저장한다. 상기 무비 박스(110)는 비디오, 오디오, 텍스트, 이미지 등의 미디어 데이터를 하나의 장면(scene) 안에서 어떻게 구성할 지에 대한 정보를 포함한다.
상기 무비 박스(110)에서 트랙(trak)(111, 113)은 해당 미디어 데이터의 기본 정보 및 재생 방법에 대한 정보를 포함한다. 또한 도 1a에서 트랙(111)은 비디오 데이터에 대한 정보를 포함하고, 트랙(113)은 오디오 데이터에 대한 정보를 포함한다. 각 트랙(111, 113)에 대응되는 미디어 데이터는 ISO 기본 파일(100a)에서 시간적으로 연속된 샘플의 집합으로 정의된다. 따라서 미디어 데이터는 연속된 이미지나 연속된 오디오 샘플에 해당된다.
그러나 도 1a의 ISO 기본 파일(100a)은 일반적인 멀티미디어 서비스를 위한 표준 파일 포맷으로 제안된 것이며, 다계층 영상을 지원하지 못한다. 따라서 다계층 영상에 적합한 미디어 파일 포맷이 요구된다.
본 발명은 멀티미디어 시스템에서 다계층 영상을 위한 미디어 파일 생성 방법 및 장치를 제공한다.
또한 본 발명은 멀티미디어 시스템에서 다계층 영상을 위한 미디어 파일을 저장하는 기록 매체를 제공한다.
또한 본 발명은 멀티미디어 시스템에서 다계층 영상을 위한 미디어 파일을 재생하는 단말 장치를 제공한다.
본 발명의 실시 예에 따라 멀티미디어 시스템에서 다계층 영상을 위한 미디어 파일 생성 방법은, 입력 영상을 부호화하여 다계층 영상들의 비트열들을 생성하는 과정과, 상기 다계층 영상의 비트열들을 입력 받아 기본 계층과 적어도 하나의 향상 계층으로 구분되는 다수의 트랙 정보와 각 계층 영상의 미디어 데이터를 포함하는 미디어 파일을 생성하는 과정을 포함한다.
또한 본 발명의 실시 예에 따라 멀티미디어 시스템에서 다계층 영상을 위한 미디어 파일 생성 장치는, 입력 영상을 부호화하여 다계층 영상들의 비트열들을 생성하는 부호화기와, 상기 다계층 영상의 비트열들을 입력 받아 기본 계층과 적어도 하나의 향상 계층으로 구분되는 다수의 트랙 정보와 각 계층 영상의 미디어 데이터를 포함하는 미디어 파일을 생성하는 파일 생성부를 포함한다.
또한 본 발명의 실시 예에 따라 멀티미디어 시스템에서 미디어 파일을 재생하는 단말 장치는, 미디어 파일을 디스플레이하는 표시부와, 기본 계층과 적어도 하나의 향상 계층을 포함하는 다계층 영상을 복호하는 복호화부와, 상기 다계층 영상에 대한 다수의 트랙 정보와 각 계층 영상의 미디어 데이터를 포함하는 미디어 파일을 분석하여 각 계층 영상 중 적어도 하나를 추출하고, 상기 추출된 계층 영상이 상기 복호화부에서 복원되고, 상기 복원된 계층 영상이 상기 표시부를 통해 재생되도록 제어하는 제어부를 포함한다.
도 1a는 일반적인 ISO 기본 파일(100a)의 포맷을 개략적으로 나타낸 도면,
도 1b는 본 발명의 실시 예에 따른 ISO 기본 파일(100b)의 포맷을 나타낸 도면,
도 2는 본 발명의 실시 예에 따른 다계층 영상 부호화 장치의 구성을 나타낸 도면,
도 3은 본 발명의 실시 예에 따른 다계층 영상을 위한 미디어 파일 생성 장치의 구성을 나타낸 도면,
도 4는 본 발명의 실시 예에 따른 다계층 영상 복호화 장치의 구성을 나타낸 도면,
도 5는 본 발명의 실시 예에 따른 다계층 영상을 위한 미디어 파일 재생 장치의 구성을 나타낸 도면,
도 6은 본 발명의 실시 예에 따른 미디어 파일의 포맷을 구체적으로 나타낸 도면,
도 7은 본 발명의 다른 실시 예에 따른 미디어 파일의 포맷을 구체적으로 나타낸 도면,
도 8은 본 발명의 실시 예에 따른 미디어 파일에서 무비 박스(moov box)의 일 구성 예를 나타낸 도면.
하기에서 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 이하 본 발명의 실시 예를 첨부된 도면을 참조하여 설명하면 다음과 같다.
도 1b는 본 발명의 실시 예에 따른 ISO 기본 파일(100b)의 포맷을 나타낸 도면이다. 도 1b를 참조하면, ISO 기본 파일(100b)는 하나 또는 복수의 계층 영상에 해당하는 미디어 데이터를 재생하기 위해 필요한 정보 및 기능들이 객체 기반의 박스(box) 형태로 구성된다.
도 1b에서 ISO 기본 파일(100b)은 무비 박스(moov box)(150)와 미디어 데이터 박스(mdat box)(170)을 포함한다. 상기 무비 박스(150)는 미디어 데이터 박스(170)에 저장된 미디어 데이터에 대한 시간적, 공간적인 위치 정보와 코덱 정보 등을 저장한다. 상기 미디어 데이터 박스(170)는 비디오와 오디오 등과 같은 미디어 데이터(or 미디어 스트림)을 저장한다. 상기 무비 박스(170)는 비디오, 오디오, 텍스트, 이미지 등의 미디어 데이터를 하나의 장면(scene) 안에서 어떻게 구성할 지에 대한 정보를 포함한다. 다시 말하면, 상기 무비 박스(170)에 저장되는 정보는 상기 미디어 데이터 박스(170)에 저장되는 미디어 데이터를 재생하는데 필요한 헤더 정보에 상응하며, 상기 무비 박스(110)에서 트랙(trak)(151, 153, 155)은 해당 미디어 데이터의 기본 정보 및 재생 방법에 대한 정보를 포함한다.
본 발명의 실시 예에 따른 ISO 기본 파일(100b)은 다계층 영상을 지원한다. 상기 다계층 영상은 기본 계층 영상과 적어도 하나의 향상 계층 영상을 포함한다. 상기 기본 계층 영상은 예컨대, 저해상도, 작은 사이즈 또는 일 시점(view point)을 갖는 영상이며, 상기 향상 계층 영상은 상기 기본 계층 영상 보다 고해상도, 큰 사이즈 또는 상기 기본 계층 영상과는 다른 시점을 갖는 영상을 의미한다.
도 1b의 ISO 기본 파일(100b)의 포맷은 설명의 편의상 하나의 기본 계층 영상과 두 개의 향상 계층 영상을 지원하는 일 예를 나타낸 것으로서, 향상 계층 영상의 개수는 하나 또는 복수 개가 될 수 있다.
따라서 상기 무비 박스(110)에서 기본 계층 영상에 대한 기본 트랙(151)은 기본 계층 영상에 대한 기본 정보 및 재생 방법에 대한 정보를 포함한다. 또한 상기 무비 박스(110)에서 향상 계층 영상에 대한 향상 트랙(153, 155)은 해당 향상 계층 영상에 대한 기본 정보 및 재생 방법에 대한 정보를 포함한다. 여기서 상기 기본 정보는 예컨대, 상기 기본 계층 영상 또는 상기 향상 계층 영상에 대한 프레임 레이트(frame rate), 비트 레이트(bit rate), 영상 사이즈(picture size) 등의 정보이다. 상기 재생 방법에 대한 정보는 재생 기능을 지원하기 위한 동기화 정보 등 각 계층 영상을 재생하기 위한 각종 정보이다.
상기 기본 트랙(151)는 기본 계층 영상에 대한 정보만을 포함하며, 상기 향상 트랙(153, 155)의 각각은 기본 트랙(151)을 제외한 해당 향상 계층 영상에 대한 정보, 또는 해당 향상 계층 영상에 대한 정보와 함께 적어도 하나의 다른 향상 계층 영상에 대한 정보를 포함할 수 있다. 상기 기본 트랙(151)과 그 박스 내에 포함되는 모든 박스들은 기본 계층에 이용되는 코덱과 호환되는 ISO 기본 파일 포맷과, 미디어 데이터(기본 계층 데이터)와, 해당 파일 포맷에 정의된 형식을 따른다. 따라서 본 발명에 의한 미디어 파일 포맷을 지원하지 않는 재생 장치에서도 기본 계층에서 이용되는 코덱의 ISO 파일 포맷을 지원한다면, 그 기본 계층의 미디어 데이터는 재생할 수 있다.
또한 도 1b의 ISO 기본 파일(100b)의 포맷에서 미디어 데이터 박스(170)는 비디오와 오디오 등과 같은 미디어 데이터(or 미디어 스트림)을 저장하며, 도 1b는 기본 계층 영상의 비트열(171)과 두 개의 향상 계층 영상의 비트열(173, 175)을 각각 계층 데이터로 구분하여 저장하는 일 예를 나타낸 것이다.
이하 상기한 구조의 ISO 기본 파일(100b), 즉 본 발명의 미디어 파일이 적용되는 다계층 영상 부호화/복호화 장치에 대해 설명하기로 한다.
도 2는 본 발명의 실시 예에 따른 다계층 영상 부호화 장치의 구성을 나타낸 도면으로서, 도 2의 구성은 기본 계층 영상과 2 개의 향상 계층 영상을 포함하여 3 개의 계층 영상을 부호화하는 영상 부호화 장치의 일 구성 예를 나타낸 것이다. 그러나 본 발명이 도 2의 부호화 장치에 한정되는 것은 아니며, 본 발명의 미디어 파일은 적어도 두 계층 이상의 다계층 영상에 적용될 수 있다.
도 2의 실시 예에서 3 계층의 계층 부호화를 위해서는 원래 입력 영상을 두 번에 걸쳐 하향 변환한다. 이 과정을 통해 원래 입력 영상으로부터 두 계층의 영상이 생성된다. 도 2의 실시 예에서 두 번 하향 변환된(down-converted) 영상은 기본 계층 영상, 한 번 하향 변환된 영상은 제2 계층 영상, 원래 입력 영상은 제3 계층 영상임을 가정한다.
도 2의 부호화 장치는 기존의 임의의 표준 영상 코덱을 이용하여 기본 계층 비트열(base layer bitstream)을 생성한다. 또한 도 2의 부호화 장치는 기본 계층 비트열을 복원하고, 포맷 상향 변환 과정을 거친 기본 계층 영상과 제2 계층 영상과의 차이인 잔차(residual) 영상을 부호화하여 제2 계층 비트열을 생성한다. 또한 도 2의 부호화 장치는 제2 계층 영상을 복원하고, 복원된 제2 계층 영상을 제1 계층에서 포맷 상향 변환된 영상과 합성한 후, 포맷 상향 변환 과정을 거친 영상과 제3 계층 영상인 원래 입력 영상과의 차이인 잔차 영상을 부호화하여 제3 계층 비트열을 생성한다.
상기한 부호화 과정을 도 2를 참조하여 구체적으로 설명하면 아래와 같다.
도 2에서 부호화 장치는 입력 영상을 제1 포맷 하향 변환부(211)와 제2포맷 하향 변환부(213)을 통해 순차로 하향 변환한다. 이 과정을 통해 원래 입력 영상으로부터 두 개의 영상이 생성된다. 입력 영상으로부터 두 번 하향 변환된 영상 즉, 제2 포맷 하향 변환부(213)을 통해 출력되는 영상은 기본 계층 영상이다. 상기 입력 영상으로부터 한 번 하향 변환된 영상 즉, 제1 포맷 하향 변환부(211)을 통해 출력되는 영상은 제2 계층 영상이다. 그리고 상기 입력 영상은 제3 계층 영상이 된다. 도 2에서 기본 계층 부호화부(215)는 기본 계층 영상을 부호화하여 기본 계층 비트열을 생성한다. 기본 계층 부호화부(215)는 VC-1, H.264, MPEG-2, MPEG-4 등과 같은 기존의 임의의 표준 영상 코덱을 사용할 수 있다.
도 2에서 잔차 부호화부(223)은 잔차 영상을 부호화하여 제2 계층 비트열을 생성한다. 여기서 상기 잔차 영상은 상기 기본 계층 영상을 복원한 후, 포맷 상향 변환 과정을 거친 영상과 상기 제2 계층 영상간의 차이를 의미한다. 기본 계층 복원부(217)는 기본 계층 영상을 복원하고, 복원된 기본 계층 영상은 제1 포맷 상향 변환부(219)에서 포맷 상향 변환 과정을 거치게 된다. 제1 잔차부(221)은 포맷 상향 변환 과정을 거쳐 얻어진 영상 즉, 상향 변환된(up-converted) 기본 계층 영상과 제2계층 영상간의 차이를 구하여 잔차를 출력한다.
도 2에서 제2 계층 복원부(225)는 잔차 부호화부(223)의 출력으로부터 제2 계층 영상을 복원한다. 이렇게 복원된 제2 계층 영상은 결합부(231)에서 제1 포맷 상향 변환부(219)의 출력 영상과 합해진다. 결합부(231)의 출력 영상은 제2 포맷 상향 변환부(233)에서 포맷 상향 변환된다. 제2 잔차부(227)는 포맷 상향 변환 과정을 거쳐 얻어진 영상 즉, 상향 변환된(up-converted) 제2 계층 영상과 제3 계층 영상인 입력 영상간의 차이를 구하여 잔차를 출력한다. 잔차 부호화부(229)는 제2 잔차부(227)에서 출력되는 잔차 영상을 부호화하여 제3 계층 비트열을 생성한다.
상기한 도 2의 실시 예에서는 기본 계층 영상, 제2 계층 영상, 그리고 제3 계층 영상을 포함하는 다계층 영상을 부호화하여 각각 해당 계층의 비트열로 출력하는 부호화 장치의 구성을 예시하였으나, 이와 같은 방법으로 적어도 2 계층 이상의 다계층 비트열을 생성할 수 있다.
도 3은 본 발명의 실시 예에 따른 다계층 영상을 위한 미디어 파일 생성 장치의 구성을 나타낸 도면이다.
도 3의 미디어 파일 생성 장치(300)는, 입력 영상을 부호화하여 다계층 영상의 비트열들(M1)을 출력하는 부호화부(310)와, 상기 다계층 영상의 비트열들(M1)을 예컨대, 도 1b와 같이 기본 계층과 적어도 하나의 향상 계층으로 구분되는 다수의 트랙 정보와 각 계층 영상의 미디어 데이터를 포함하는 미디어 파일로 생성하는 파일 생성부(330)를 포함한다. 상기 부호화부(310)는 도 2의 부호화 장치를 이용할 수 있다. 그러나 도 2의 부호화 장치 이외에도 다계층 영상을 부호화할 수 있는 각종 부호화 장치를 상기 부호화부(310)로 이용하는 것도 가능하다. 본 발명에서 제안하는 상기 미디어 파일의 구체적인 구조는 후술하기로 한다.
도 4는 본 발명의 실시 예에 따른 다계층 영상 복호화 장치의 구성을 나타낸 도면으로서, 도 4의 구성은 기본 계층과 두 개의 향상 계층을 포함하여 3 계층의 영상을 복호화하는 영상 복호화 장치의 일 구성 예를 나타낸 것이다. 그러나 본 발명이 도 4의 복호화 장치에 한정되는 것은 아니며, 본 발명의 미디어 파일은 적어도 2 계층 이상의 다계층 영상에 적용될 수 있다.
도 4의 다계층 영상 복호화 장치는 기본 계층 비트열을 기존의 임의의 표준 영상 코덱을 통해 복호화하여 기본 계층 영상을 복원한다. 또한 도 4의 복호화 장치는 제2 계층 비트열을 잔차 코덱을 통해 복호화하고, 복호화된 제2 계층의 잔차 영상과 상기 복원된 기본 계층 영상을 포맷 상향 변환한 영상을 합하여 제2 계층 영상을 복원한다. 또한 도 4의 복호화 장치는 제3 계층 비트열을 잔차 코덱을 통해 복호화하고, 복호화된 제3 계층의 잔차 영상과 복원된 제2 계층 영상을 포맷 상향 변환한 영상을 합하여 제3 계층 영상을 복원한다.
상기한 복호화 과정을 도 4를 참조하여 구체적으로 설명하면 아래와 같다.
도 4를 참조하면, 기본 계층 복호화부(441)는 기본 계층 비트열을 복호화하여 기본 계층 영상을 복원한다. 기본 계층 복호화부(441)는 VC-1, H.264, MPEG-2, MPEG-4 등과 같은 기존의 임의의 표준 영상 코덱을 사용할 수 있다. 잔차 복호화부(443)은 제2 계층 비트열을 복호화하여 잔차 영상을 출력한다. 여기서 제2 계층 비트열을 복호화하여 잔차 영상을 출력하는 동작은 도 2에서 설명한 잔차 부호화 과정을 통해 이해할 수 있다. 즉 도 2의 설명에 따르면, 잔차 부호화부(223)에서 생성되는 제2 계층 비트열은 제1 잔차부(221)에서 출력되는 잔차 영상을 부호화한 것이다. 따라서 제2 계층 비트열을 잔차 복호화하면 제2 계층의 잔차 영상을 얻을 수 있다.
다시 도 4의 설명으로 돌아가서, 제1 결합부(449)는 상기 제2 계층의 잔차 영상과, 복호화된 기본 계층 영상을 제1 포맷 상향 변환부(447)을 통해 포맷 상향 변환한 영상을 합하여 제2 계층 영상으로 복원한다.
또한 도 4에서 잔차 복호화부(445)는 제3 계층 비트열을 복호화하여 제3 계층의 잔차 영상을 출력한다. 제2 결합부(453)는 상기 제3 계층의 잔차 영상과, 제2 포맷 상향 변환부(451)을 통해 포맷 상향 변환한 영상을 합하여 제3 계층 영상으로 복원한다. 상기 제3 계층 영상은 예컨대, 하이파이(HiFi) 영상이 될 수 있다.
상기한 도 4의 실시 예에서는 기본 계층 비트열, 제2 계층 비트열, 그리고 제3 계층 비트열을 포함하는 다계층 영상의 비트열들을 복호화하여 각각 해당 계층영상으로 출력하는 복호화 장치의 구성을 예시하였으나, 이와 같은 방법으로 적어도 2 계층 이상의 다계층 영상을 복호화할 수 있다.
도 5는 본 발명의 실시 예에 따른 다계층 영상을 위한 미디어 파일 재생 장치의 구성을 나타낸 도면이다.
도 5의 미디어 파일 재생 장치는, 파일 파싱(parsing)부(510), 복호화부(530), 재생부(550) 및 표시부(570)를 포함한다.
상기 파일 파싱부(510)는 기본 계층과 적어도 하나의 향상 계층으로 구분되는 다수의 트랙 정보와 각 계층 영상의 미디어 데이터를 포함하는 미디어 파일을 수신하여 분석하여 각 계층 영상을 추출한다. 이때 상기 파일 파싱부(510)는 도 1b를 참조하면, 상기 미디어 파일의 무비 박스(110)의 기본 트랙(151)과 향상 트랙(153, 155)으로부터 각각 기본 계층 영상과 적어도 하나의 향상 계층 영상에 대한 기본 정보와 재생 방법은 물론 각 트랙간의 참조 정보 등을 추출하고, 그 추출된 정보를 근거로 미디어 데이터 박스(170)로부터 각 계층 영상의 미디어 데이터(비트열)을 추출한다.
상기 복호화부(530)는 상기 파일 파싱부(510)로부터 출력되는 다계층 영상의 비트열들을 복호화하여 기본 계층과 적어도 하나의 향상 계층의 영상들을 복원한다. 상기 복호화부(530)는 도 4의 복호화 장치를 이용할 수 있다. 그러나 도 4의 복호화 장치 이외에도 다계층 영상을 복호화할 수 있는 각종 복호화 장치를 상기 복호화부(530)로 이용하는 것도 가능하다. 또한 상기 재생부(550)는 상기 복호화부(530)를 통해 출력되는 각 계층 영상이 상기 표시부(570)를 통해 재생되도록 한다. 이때 상기 재생부(550)는 다계층 영상 중 키 입력 또는 정해진 제어에 따라 선택된 영상만을 출력할 수 있다. 또한 상기 재생부(550)의 제어에 따라 복호화부(530)에서 상기 다계층 영상 중 선택된 영상 만을 복호화하는 것도 가능할 것이다.
도 5에서 파일 파싱(parsing)부(510), 복호화부(530), 재생부(550)는 적어도 하나의 프로세서 또는 제어부로 구현될 수 있으며, 도시되지는 않았으나, 복호화된 각 계층 영상을 저장하기 위한 메모리 등의 저장부가 구비될 수 있다. 또한 본 발명의 실시 예에 따른 구조의 미디어 파일은 컴퓨터에서 읽을 수 있는 기록 매체에 비일시적으로(non-transitory) 저장될 수 있다. 그리고 이러한 기록 매체는 도 3 및 도 5의 장치에 구비되거나 별도의 저장 수단으로 이용될 수 있다.
이하 본 발명의 실시 예에 따른 미디어 파일의 구조를 보다 구체적으로 설명하기로 한다.
하기 설명하는 미디어 파일의 구조는 서로 다른 코덱에 의해 생성된 기본 계층 비트열과 향상 계층 비트열의 다계층 영상을 지원한다. 즉 본 발명의 실시 예는 기본적으로 기본 계층의 코덱과 상위 계층의 코덱이 다른 경우를 가정한다. 예컨대, 향상 계층들의 코덱은 잔차 부호화 코덱이고 기본 계층의 코덱은 임의의 현존하는 코덱이 될 수 있다. 또한 본 발명의 미디어 파일 구조는 예컨대, ISO/IEC 14496-12 표준에서 규정하는 ISO 기본 미디어 파일 포맷과 호환성을 유지한다.
먼저 본 발명의 미디어 파일의 파일 타입 박스(ftyp box)(도시되지 않음)에서 호환되는 종류(compatible_brands) 항목은 향상 계층에서 사용하는 코덱에 대응되는 종류(brand)을 포함할 수 있다. 일 예로, 상기 호환되는 코덱의 종류로 잘 알려진 VC-4 코덱을 사용할 수 있다. 또한 본 발명의 실시 예에서 제안하는 미디어 파일 포맷을 지원하지 않아도 기본 계층에서 사용하는 코덱에 해당하는 기존 ISO 기본 파일 포맷을 지원하는 경우, 그 기본 계층의 미디어 데이터를 재생할 수 있도록 해당 ISO 기본 파일 포맷과 호환되는 종류(compatible_brands) 항목을 상기 파일 타입 박스(ftyp box)(도시되지 않음)에 포함시킬 수 있다.
도 6은 본 발명의 실시 예에 따른 미디어 파일의 포맷을 나타낸 도면으로서, 이는 도 1b에서 ISO 기본 파일(100b)의 포맷을 구체적으로 나타낸 것이다.
도 6을 참조하면, 미디어 파일(600)은 미디어 데이터를 재생하는데 필요한 헤더 정보를 저장하는 무비 박스(moov box)(610)와, 상기 미디어 데이터를 저장하는 미디어 데이터 박스(mdat box)(630)을 포함한다. 상기 헤더 정보는 도 1b에서 설명한 바와 같이 해당 미디어 데이터의 기본 정보와 재생 방법에 대한 정보를 포함한다.
도 6에서 상기 무비 박스(moov box)(610)는 기본 계층 영상에 대한 기본 정보와 재생 방법을 저장하는 기본 트랙(611), 향상 계층 영상에 대한 기본 정보와 재생 방법을 저장하는 적어도 하나의 향상 트랙(613, 615)를 포함한다. 도시되지는 않았으나, 각 트랙(611, 613, 615)은 트랙 헤더 박스(tkhd box)에 명시된 고유한 트랙 식별자(track ID)를 이용하여 구별된다. 도 6의 예는 무비 박스(610)가 하나의 기본 트랙(611)과 두 개의 향상 트랙(613, 615)으로 구성된 예를 나타낸 것이며, 실제 향상 트랙의 개수는 지원하는 향상 계층의 수만큼 포함될 수 있다.
도 1b에서 설명한 바와 같이, 본 발명에서 제안하는 미디어 파일, 즉 ISO 기본 파일(100b)는 미디어 데이터 박스(170) 내에 하나의 기본 계층 영상의 비트열(171)과 하나 또는 복수의 향상 계층 영상의 비트열(173, 175)를 포함한다. 그리고 다수의 비트열들이 갖는 계층 관계를 명시하기 위해 본 발명에서는 미디어 파일내 새로운 박스들을 정의한다. 상기 새로운 박스들은 미디어 파일에 포함된 계층들 간의 상호 관계를 기술한다. 예를 들어 도 8을 참조하면, 상기 계층들 간의 상호 관계를 기술하기 위해 무비 박스(moov box)(800)가 계층 테이블 박스(ltbl box)(810)를 포함하고, 상기 계층 테이블 박스(ltbl box)가 계층 정보 박스(lyri box)(830)를 포함한다. 여기서 도 8의 무비 박스(800)는 도 6의 무비 박스(610)에 해당되며, 상기 계층 테이블 박스(ltbl box)(810)와 계층 정보 박스(lyri box)(830)는 각각 도 6의 계층 테이블 박스(617)와 계층 정보 박스(617a, 617b, 617c)에 해당된다.
이하 상기 계층 테이블 박스(ltbl box)(810)와 계층 정보 박스(lyri box)(830)를 보다 구체적으로 설명하기로 한다.
먼저 상기 계층 테이블 박스(ltbl box)(810)의 syntax를 나타낸 실시 예는 다음 <syntax 1>과 같다.
<syntax 1>
class LayerTableBox extends Box('ltbl') {
unsigned int(8) layer_count;
for ( i=1; i <= layer_count; i++) {
LayerInfoBox();
}
}
상기 계층 테이블 박스(ltbl box)(810)는 계층 카운트(layer_count)와, 계층 정보 박스(LayerInfoBox)를 포함한다. 상기 계층 카운트는 미디어 파일 내에 존재하는 기본 계층과 향상 계층을 포함한 모든 계층들의 개수를 나타낸다. 상기 계층 정보 박스(LayerInfoBox)는 도 8에서 상기 계층 정보 박스(lyri box)(830)에 해당하며, 상기 계층 카운트에서 지시하는 개수 만큼 상기 계층 테이블 박스(ltbl box)(810)에 포함된다. 상기 계층 정보 박스(lyri box)(830)의 정보 구성을 나타낸 실시 예는 다음 <syntax 2>와 같다.
<syntax 2>
class LayerInfoBox extends FullBox('lyri', version = 0, 0) {
unsigned int(8) layer_ID;
signed int(8) ref_layer_ID;
unsigned int(8) track_count;
unsigned int(32)[track_count] track_ID;
unsigned int(3) reserved = 0;
unsigned bit(1) quality_refinement_flag;
if (quality_refinement_flag == 1) {
unsigned int(4) max_quality_layer_ID;
}
else {
unsigned int(4) reserved = 0;
}
unsigned int(8) [4] scalability;
unsigned int(16) width;
unsigned int(16) height;
unsigned int(32) framerate;
unsigned int(32) maxBitrate;
unsigned int(32) avgBitrate;
}
상기 <syntax 2>에서 각 계층과 각 계층 정보 박스(lyri box)(830)는 계층 식별자(layer_ID)에 의해 서로 맵핑되며, 상기 계층 식별자(layer_ID)는 각 계층에 할당되는 고유한 값을 갖는다. 그리고 참조 계층 식별자(ref_layer_ID)는 해당 계층이 참조하는 계층의 계층 식별자(layer_ID)이며, 트랙 카운트(track_count)는 해당 계층을 포함하는 트랙의 개수이고, 트랙 식별자(track_ID)는 해당 계층을 포함하는 트랙들의 식별자들의 배열이다. 본 발명에서는 상기 계층 정보 박스(lyri box)(830)에 예시된 정보를 사용하여 각 트랙에 포함되는 계층을 명시함으로써 향상 트랙(enhancement track)을 다양한 형태로 구성할 수 있다. 또한 상기 <syntax 2>에서 품질 세분 플래그(quality_refinement_flag)는 품질 세분(quality refinement) 즉, 품질 계층을 몇 개의 계층으로 세분화하는 것이 해당 계층에서 사용되는 지 여부를 나타낸다. 그리고 최대 품질 계층 식별자(max_quality_layer_ID)는 해당 계층에서 품질 계층들의 개수를 나타낸다.
또한 상기 <syntax 2>에서 범위성(scalability)은 현재 계층과 한 단계 하위 계층 간의 scalable method에 대한 정보를 제공하기 위한 문자열이다. 본 발명의 실시 예에서 정의하는 문자열의 일 예는 다음 <표 1>과 같다.
표 1
명칭 문자열 설명
기본 계층 'base' 하위 계층이 없는 기본 계층에만 사용
SNR 범위성 'snrs' 하위 계층과 해당 계층 간에 SNR 범위성이 존재함
공간 범위성(Spatial scalability) 'spls' 하위 계층과 해당 계층 간에 공간 범위성이 존재함
또한 상기 <syntax 2>에서 width, height, framerate, maxBitrate, 그리고 avgBitrate는 각각 해당 계층 영상의 폭, 높이, 프레임 레이트, 최대 비트레이트, 그리고 평균 비트레이트를 의미한다.
다시 도 6의 설명으로 돌아가서, 도 6의 미디어 파일에서 향상 트랙들(613, 615)은 하나 또는 복수의 향상 계층을 포함한다.
도 6을 참조하면, 각 향상 트랙(613, 615)이 포함하는 향상 계층의 개수와 각 향상 계층(613, 615)의 특성을 기술하기 위해 예컨대, ISO/IEC 14496-12의 ISO 기본 미디어 파일 포맷에 정의된 시각 샘플 엔트리(VisualSampleEntry)의 항목들에 아래 <syntax 3>과 같이 향상 특정 박스(EnhSpecificBox)와 향상 비트레이트 박스(EnhBitRateBox)를 추가로 정의한 향상 샘플 엔트리(EnhSampleEntry)(613a)가 향상 트랙들(613, 615)에 각각 포함된다.
<syntax 3>
class EnhSampleEntry extends VisualSampleEntry () {
EnhSpecifixBox();
EnhBitRateBox(); // optional
}
상기 향상 특정 박스(EnhSpecificBox)의 정보 구성은 아래 <syntax 4>와 같다. 그리고 상기 향상 비트레이트 박스(EnhBitRateBox)는 해당 향상 계층의 비트레이트를 나타내며, 선택적으로 포함될 수 있다.
<syntax 4>
class EnhSpecificBox extends Box ('esbx') {
unsigned int(8) layer_count;
EnhDecSpecLayerStruc [layer_count] DecSpecificLayerInfo;
}
상기 <syntax 4>에서 계층 카운트(layer_count)는 해당 향상 트랙이 포함하는 향상 계층의 개수를 나타내며, 상기 계층 카운트(layer_count)에서 지시된 개수의 향상 계층 특성 정보(EnhDecSpecLayerStruc)가 그 계층 식별자에 따라 구분되게 해당 향상 트랙에 포함된다. 상기 향상 계층 특성 정보(EnhDecSpecLayerStruc)는 해당 향상 트랙에 포함된 적어도 하나의 향상 계층의 계층 식별자(layer_ID), 해당 계층을 부호화하기 위해 코덱에 사용된 프로파일(profile)과 레벨(level) 정보 등의 정보를 포함하며, 상기 향상 계층 특성 정보(EnhDecSpecLayerStruc)의 정보 구성은 아래 <syntax 5>와 같다.
<syntax 5>
class EnhDecSpecLayerStruc {
unsigned int(8) layer_ID;
unsigned int(3) profile;
unsigned int(4) level;
unsigned bit(1) cbr;
unsigned int(16) sequence_header_length;
bit(8*sequence_header_length) sequence_header;
}
또한 상기 <syntax 5>에서 cbr(constant bit rate)은 컨텐츠 즉 영상에 일정 비트 레이트가 적용되는 지 또는 임의의 다른 비트 레이트가 적용되는 지를 나타낸다. 그리고 시퀀스 헤더(sequence_header)는 계층 식별자에 대응되는 계층의 시퀀스 헤더를 포함하고, 시퀀스 헤더 길이(sequence_header_length)는 그 시퀀스 헤더의 길이이다.
또한 본 발명의 실시 예에서 제안하는 향상 트랙은 하나 또는 복수의 트랙 참조 박스(Track Reference Box)를 포함할 수 있다. 이를 구체적으로 설명하면, 각 향상 트랙과 관련된 다른 트랙들간의 관계를 명시하기 위해 본 발명의 실시 예에서는 아래 <표 2>과 같이 향상 트랙에 대한 트랙 참조의 세 가지 형태를 정의한다.
표 2
Reference type 설명
'ebas' 모든 향상 트랙에 포함됨. 해당 향상 트랙에서 기본 트랙을 참조하기 위해 사용됨.
'eext' 해당 향상 트랙으로 복사할 원본 비트열(bit stream)이 존재하는 다른 향상 트랙을 참조하기 위해 사용됨.
'edep' 해당 향상 트랙의 샘플을 복호화하는 데 필요한 다른 향상 트랙을 참조하기 위해 사용됨.
상기 <표 3>에서 예시한 세 가지 형태의 트랙 참조 박스, 'ebas', 'eext'는 각각 도 6에서 참조 번호 613c, 615a에 대응되며, 'edep'는 도 7에서 참조 번호 715a에 대응된다.
도 7은 본 발명의 다른 실시 예에 따른 미디어 파일(700)의 포맷을 나타낸 도면으로서, 도 7의 미디어 파일(700)은 도 6의 미디어 파일(600)과 같이 무비 박스(moov box)(710)와 미디어 데이터 박스(mdat box)(730)를 포함하며, 도 7에서 도 6과 동일한 구성에 대해서는 편의상 설명을 생략하기로 한다. 도 7의 미디어 파일(700)은 상기 트랙 참조 박스로 'ebas', 'eext'는 물론 해당 트랙의 샘플을 복호화하는데 필요한 다른 향상 트랙을 참조하기 위한 정보, 'edep'(715a)가 향상 트랙에 포함된 일 예를 나타낸 것이다.
다시 도 6의 설명으로 돌아가서 미디어 데이터 박스(mdat box)(630)는 기본 계층의 샘플 데이터(631)와 하나 또는 복수의 향상 계층의 샘플 데이터(633, 635)를 포함한다. 그리고 사용된 코덱에 따라 하나의 향상 계층은 서브 샘플을 이용한 샘플 데이터의 품질에 따라 다수의 품질 계층(quality layer)으로 다시 구분될 수 있다. 그리고 향상 트랙(613, 615)의 샘플 데이터(633, 635)를 다수의 품질 계층(또는 세부 계층)으로 구분하기 위해 참조 번호 613b와 같이 ISO/IEC 14496-12의 ISO 기본 미디어 파일 포맷에 규정된 서브 샘플 정보 박스(SubSampleInformationBox)에 아래 <표 3>의 정보를 포함하여 새로운 서브 샘플 정보 박스(SubSampleInformationBox)를 구성한다. 상기 새로운 서브 샘플 정보 박스(SubSampleInformationBox)는 복수의 향상 계층을 포함하는 향상 트랙에 속하는 샘플 데이터들을 그 품질에 따라 계층 별로 구분하기 위한 서브 샘플(sub-sample)의 특성을 명시한 것이다.
표 3
명칭 설명
서브 샘플 타입(subsample_type) 서브 샘플(Sub sample)의 종류
계층 식별자(layer_ID) 서브 샘플(Sub sample)이 속하는 계층의 ID
품질 계층 식별자(quality_layer_ID) 서브 샘플(Sub sample)이 속하는 품질 계층(quality layer)(즉 세부 계층)의 ID
그리고 도 6에서 참조 번호 637은 예컨대, 둘 이상의 향상 계층을 포함하는 향상 트랙(615)에서 서로 다른 향상 계층의 샘플들간의 참조를 위한 향상 추출기(Enhanced Extractor)이다. 상기 향상 추출기(637)의 정보는 해당 샘플 데이터와 함께 샘플 단위로 미디어 데이터 박스(mdat box)(630)에 저장된다.

Claims (25)

  1. 멀티미디어 시스템에서 다계층 영상을 위한 미디어 파일 생성 방법에 있어서,
    입력 영상을 부호화하여 다계층 영상들의 비트열들을 생성하는 과정; 및
    상기 다계층 영상의 비트열들을 입력 받아 기본 계층과 적어도 하나의 향상 계층으로 구분되는 다수의 트랙 정보와 각 계층 영상의 미디어 데이터를 포함하는 미디어 파일을 생성하는 과정을 포함하는 미디어 파일 생성 방법.
  2. 제 1 항에 있어서,
    상기 다수의 트랙 정보 중 적어도 하나는 계층들 간의 관계가 정의된 계층 테이블 정보를 포함하는 미디어 파일 생성 방법.
  3. 제 1 항에 있어서,
    상기 다수의 트랙 정보는 각각 해당 계층의 특성 정보를 포함하는 미디어 파일 생성 방법.
  4. 제 1 항에 있어서,
    상기 미디어 파일을 생성하는 과정은, 상기 다수의 트랙 정보를 상기 미디어 파일의 헤더 정보에 상응하는 무비 박스에 수납하는 과정을 더 포함하는 미디어 파일 생성 방법.
  5. 제 1 항에 있어서,
    상기 미디어 파일을 생성하는 과정은, 상기 기본 계층과 상기 적어도 하나의향상 계층에서 사용하는 적어도 하나의 코덱에 대한 호환 정보를 상기 미디어 파일의 헤더 정보에 상응하는 무비 박스에 수납하는 과정을 더 포함하는 미디어 파일 생성 방법.
  6. 제 1 항에 있어서,
    상기 미디어 파일을 생성하는 과정은, 상기 기본 계층과 상기 적어도 하나의향상 계층에 대한 계층 정보를 상기 다수의 트랙 정보와 구별되게 상기 미디어 파일의 헤더 정보에 상응하는 무비 박스에 수납하는 과정을 더 포함하는 미디어 파일 생성 방법.
  7. 제 6 항에 있어서,
    상기 계층 정보는 모든 계층들의 개수 정보, 각 계층의 계층 식별자, 각 계층이 참조하는 다른 계층의 정보, 각 계층을 포함하는 트랙의 정보 중 적어도 하나를 포함하는 미디어 파일 생성 방법.
  8. 제 7 항에 있어서,
    상기 계층 정보는 상기 기본 계층과 상기 적어도 하나의 향상 계층의 각 계층에 대응되게 상기 무비 박스에 수납되는 미디어 파일 생성 방법.
  9. 제 1 항에 있어서,
    상기 미디어 파일을 생성하는 과정은, 참조되는 트랙이 기본 계층을 포함하는 트랙임을 나타내는 정보와, 참조되는 트랙이 참조하는 트랙의 재생을 위해 요구됨을 나타내는 정보와, 참조되는 트랙으로부터 비트열을 복사할 것을 나타내는 정보 중 적어도 하나가 포함된 트랙 참조 정보를 각 트랙 정보에 수납하는 과정을 더 포함하는 미디어 파일 생성 방법.
  10. 제 1 항에 있어서,
    상기 미디어 파일을 생성하는 과정은, 상기 적어도 하나의 향상 계층에 대한 트랙 정보를 적어도 하나의 향상 트랙으로 구성하는 과정을 더 포함하며,
    상기 적어도 하나의 향상 트랙 중 일부는 복수의 향상 계층에 대한 특성 정보를 포함하는 미디어 파일 생성 방법.
  11. 제 10 항에 있어서,
    상기 복수의 향상 계층에 대한 특성 정보를 포함하는 향상 트랙에 속하는 샘플들을 계층 별로 구분하기 위한 서브 샘플의 종류와 계층 정보 중 적어도 하나를 해당 향상 트랙에 수납하는 과정을 더 포함하는 미디어 파일 생성 방법.
  12. 제 1 항에 있어서,
    상기 기본 계층의 비트열은 ISO 기본 미디어 파일 포맷과 호환되는 상기 미디어 파일의 포맷으로 생성되는 미디어 파일 생성 방법.
  13. 멀티미디어 시스템에서 다계층 영상을 위한 미디어 파일 생성 장치에 있어서,
    입력 영상을 부호화하여 다계층 영상들의 비트열들을 생성하는 부호화기; 및
    상기 다계층 영상의 비트열들을 입력 받아 기본 계층과 적어도 하나의 향상 계층으로 구분되는 다수의 트랙 정보와 각 계층 영상의 미디어 데이터를 포함하는 미디어 파일을 생성하는 파일 생성부를 포함하는 미디어 파일 생성 장치.
  14. 제 13 항에 있어서,
    상기 다수의 트랙 정보 중 적어도 하나는 계층들 간의 관계가 정의된 계층 테이블 정보를 포함하는 미디어 파일 생성 장치.
  15. 제 13 항에 있어서,
    상기 다수의 트랙 정보는 각각 해당 계층의 특성 정보를 포함하는 미디어 파일 생성 장치.
  16. 제 13 항에 있어서,
    상기 파일 생성부는, 상기 다수의 트랙 정보를 상기 미디어 파일의 헤더 정보에 상응하는 무비 박스에 수납하는 미디어 파일 생성 장치.
  17. 제 13 항에 있어서,
    상기 파일 생성부는, 상기 기본 계층과 상기 적어도 하나의 향상 계층에서 사용하는 적어도 하나의 코덱에 대한 호환 정보를 상기 미디어 파일의 헤더 정보에 상응하는 무비 박스에 더 수납하는 미디어 파일 생성 장치.
  18. 제 13 항에 있어서,
    상기 파일 생성부는, 상기 기본 계층과 상기 적어도 하나의 향상 계층에 대한 계층 정보를 상기 다수의 트랙 정보와 구별되게 상기 미디어 파일의 헤더 정보에 상응하는 무비 박스에 더 수납하는 미디어 파일 생성 장치.
  19. 제 18 항에 있어서,
    상기 계층 정보는 모든 계층들의 개수 정보, 각 계층의 계층 식별자, 각 계층이 참조하는 다른 계층의 정보, 각 계층을 포함하는 트랙의 정보 중 적어도 하나를 포함하는 미디어 파일 생성 장치.
  20. 제 19 항에 있어서,
    상기 계층 정보는 상기 기본 계층과 상기 적어도 하나의 향상 계층의 각 계층에 대응되게 상기 무비 박스에 수납되는 미디어 파일 생성 장치.
  21. 제 13 항에 있어서,
    상기 파일 생성부는, 참조되는 트랙이 기본 계층을 포함하는 트랙임을 나타내는 정보와, 참조되는 트랙이 참조하는 트랙의 재생을 위해 요구됨을 나타내는 정보와, 참조되는 트랙으로부터 비트열을 복사할 것을 나타내는 정보 중 적어도 하나가 포함된 트랙 참조 정보를 각 트랙 정보에 더 수납하는 미디어 파일 생성 장치.
  22. 제 13 항에 있어서,
    상기 파일 생성부는, 상기 적어도 하나의 향상 계층에 대한 트랙 정보를 적어도 하나의 향상 트랙으로 더 구성하며, 상기 적어도 하나의 향상 트랙 중 일부는 복수의 향상 계층에 대한 특성 정보를 포함하는 미디어 파일 생성 장치.
  23. 제 22 항에 있어서,
    상기 파일 생성부는, 상기 복수의 향상 계층에 대한 특성 정보를 포함하는 향상 트랙에 속하는 샘플들을 계층 별로 구분하기 위한 서브 샘플의 종류와 계층 정보 중 적어도 하나를 해당 향상 트랙에 수납하는 과정을 더 포함하는 미디어 파일 생성 장치.
  24. 제 13 항에 있어서,
    상기 기본 계층의 비트열은 ISO 기본 미디어 파일 포맷과 호환되는 상기 미디어 파일의 포맷으로 생성되는 미디어 파일 생성 장치.
  25. 멀티미디어 시스템에서 미디어 파일을 재생하는 단말 장치에 있어서,
    미디어 파일을 디스플레이하는 표시부;
    기본 계층과 적어도 하나의 향상 계층을 포함하는 다계층 영상을 복호하는 복호화부; 및
    상기 다계층 영상에 대한 다수의 트랙 정보와 각 계층 영상의 미디어 데이터를 포함하는 미디어 파일을 분석하여 각 계층 영상 중 적어도 하나를 추출하고, 상기 추출된 계층 영상이 상기 복호화부에서 복원되고, 상기 복원된 계층 영상이 상기 표시부를 통해 재생되도록 제어하는 제어부를 포함하는 단말 장치.
PCT/KR2011/009001 2010-11-23 2011-11-23 멀티미디어 시스템에서 다계층 영상을 위한 미디어 파일 생성 방법 및 장치와 이를 이용한 미디어 파일 재생 장치 WO2012070875A2 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US13/989,214 US20130243391A1 (en) 2010-11-23 2011-11-23 Method and apparatus for creating a media file for multilayer images in a multimedia system, and media-file-reproducing apparatus using same

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US41639110P 2010-11-23 2010-11-23
US61/416,391 2010-11-23
US41799510P 2010-11-30 2010-11-30
US61/417,995 2010-11-30

Publications (2)

Publication Number Publication Date
WO2012070875A2 true WO2012070875A2 (ko) 2012-05-31
WO2012070875A3 WO2012070875A3 (ko) 2012-07-19

Family

ID=46146311

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2011/009001 WO2012070875A2 (ko) 2010-11-23 2011-11-23 멀티미디어 시스템에서 다계층 영상을 위한 미디어 파일 생성 방법 및 장치와 이를 이용한 미디어 파일 재생 장치

Country Status (3)

Country Link
US (1) US20130243391A1 (ko)
KR (1) KR20120055488A (ko)
WO (1) WO2012070875A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109257624A (zh) * 2013-10-22 2019-01-22 佳能株式会社 用于生成以及处理媒体文件的方法和设备及存储介质

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10298834B2 (en) 2006-12-01 2019-05-21 Google Llc Video refocusing
US10341632B2 (en) * 2015-04-15 2019-07-02 Google Llc. Spatial random access enabled video system with a three-dimensional viewing volume
US10469873B2 (en) 2015-04-15 2019-11-05 Google Llc Encoding and decoding virtual reality video
US10444931B2 (en) 2017-05-09 2019-10-15 Google Llc Vantage generation and interactive playback
US10275898B1 (en) 2015-04-15 2019-04-30 Google Llc Wedge-based light-field video capture
US10546424B2 (en) 2015-04-15 2020-01-28 Google Llc Layered content delivery for virtual and augmented reality experiences
US10440407B2 (en) 2017-05-09 2019-10-08 Google Llc Adaptive control for immersive experience delivery
US10567464B2 (en) 2015-04-15 2020-02-18 Google Llc Video compression with adaptive view-dependent lighting removal
US10412373B2 (en) 2015-04-15 2019-09-10 Google Llc Image capture for virtual reality displays
US10540818B2 (en) 2015-04-15 2020-01-21 Google Llc Stereo image generation and interactive playback
US10419737B2 (en) 2015-04-15 2019-09-17 Google Llc Data structures and delivery methods for expediting virtual reality playback
GB2538997A (en) 2015-06-03 2016-12-07 Nokia Technologies Oy A method, an apparatus, a computer program for video coding
GB2538998A (en) * 2015-06-03 2016-12-07 Nokia Technologies Oy A method, an apparatus, a computer program for video coding
CA3009777C (en) 2016-02-09 2024-04-16 Sony Corporation Transmission device, transmission method, reception device and reception method
US10679361B2 (en) 2016-12-05 2020-06-09 Google Llc Multi-view rotoscope contour propagation
GB2560921B (en) * 2017-03-27 2020-04-08 Canon Kk Method and apparatus for encoding media data comprising generated content
US10594945B2 (en) 2017-04-03 2020-03-17 Google Llc Generating dolly zoom effect using light field image data
US10474227B2 (en) 2017-05-09 2019-11-12 Google Llc Generation of virtual reality with 6 degrees of freedom from limited viewer data
US10354399B2 (en) 2017-05-25 2019-07-16 Google Llc Multi-view back-projection to a light-field
US10965862B2 (en) 2018-01-18 2021-03-30 Google Llc Multi-camera navigation interface

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070099408A (ko) * 2006-04-04 2007-10-09 한국정보통신대학교 산학협력단 스케일러블 비디오 부호화 콘텐츠의 보호 방법 및 그 장치
KR20080093847A (ko) * 2007-04-18 2008-10-22 한국정보통신대학교 산학협력단 멀티비디오 및 메타데이터로 구성된 통합 파일 포맷 구조및 이를 기반으로 하는 멀티비디오 관리 시스템 및 그 방법
KR20090026012A (ko) * 2007-09-07 2009-03-11 삼성전자주식회사 스테레오스코픽 파일을 생성하기 위한 장치 및 방법
KR20090084875A (ko) * 2006-10-20 2009-08-05 노키아 코포레이션 스케일러블 멀티미디어의 적응 경로들에 대한 포괄적 표시

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004027577A2 (en) * 2002-09-19 2004-04-01 Brian Reynolds Systems and methods for creation and playback performance
KR100517979B1 (ko) * 2002-12-10 2005-10-04 엘지전자 주식회사 이동 통신 단말기의 영상 오버레이 장치
US8948247B2 (en) * 2009-04-14 2015-02-03 Futurewei Technologies, Inc. System and method for processing video files

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070099408A (ko) * 2006-04-04 2007-10-09 한국정보통신대학교 산학협력단 스케일러블 비디오 부호화 콘텐츠의 보호 방법 및 그 장치
KR20090084875A (ko) * 2006-10-20 2009-08-05 노키아 코포레이션 스케일러블 멀티미디어의 적응 경로들에 대한 포괄적 표시
KR20080093847A (ko) * 2007-04-18 2008-10-22 한국정보통신대학교 산학협력단 멀티비디오 및 메타데이터로 구성된 통합 파일 포맷 구조및 이를 기반으로 하는 멀티비디오 관리 시스템 및 그 방법
KR20090026012A (ko) * 2007-09-07 2009-03-11 삼성전자주식회사 스테레오스코픽 파일을 생성하기 위한 장치 및 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109257624A (zh) * 2013-10-22 2019-01-22 佳能株式会社 用于生成以及处理媒体文件的方法和设备及存储介质
CN109257624B (zh) * 2013-10-22 2021-08-17 佳能株式会社 用于生成以及处理媒体文件的方法和设备及存储介质
US11128898B2 (en) 2013-10-22 2021-09-21 Canon Kabushiki Kaisha Method, device, and computer program for encapsulating scalable partitioned timed media data

Also Published As

Publication number Publication date
KR20120055488A (ko) 2012-05-31
US20130243391A1 (en) 2013-09-19
WO2012070875A3 (ko) 2012-07-19

Similar Documents

Publication Publication Date Title
WO2012070875A2 (ko) 멀티미디어 시스템에서 다계층 영상을 위한 미디어 파일 생성 방법 및 장치와 이를 이용한 미디어 파일 재생 장치
US10674170B2 (en) Apparatus, a method and a computer program for video coding and decoding
RU2746934C9 (ru) Межуровневое предсказание для масштабируемого кодирования и декодирования видеоинформации
JP6345827B2 (ja) ビデオデータをストリーミングするためのシーケンスデータセットを提供すること
CN107534801B (zh) 用于处理图像序列轨道的方法、装置和计算机程序产品
JP6649404B2 (ja) 画像コーディング・デコーディングのための装置、方法およびコンピュータ・プログラム
CN112673638B (zh) 处理媒体数据的方法和装置
US9635396B2 (en) System and method for efficient scalable stream adaptation
KR20220087577A (ko) 비디오 코딩 및 디코딩을 위한 장치, 방법 및 컴퓨터 프로그램
US10575010B2 (en) Apparatus, a method and a computer program for image sequence coding and decoding
US10283167B2 (en) Image decoding device, image decoding method, image encoding device, and image encoding method
KR20110033273A (ko) 트랙 및 트랙 서브세트의 그룹화를 위한 방법 및 장치
KR101296059B1 (ko) 다중­소스 멀티미디어 프레젠테이션들을 저장하기 위한 방법 및 시스템
EP3888375A1 (en) Method, device, and computer program for encapsulating media data into a media file
WO2016129981A1 (ko) 미디어 데이터를 송수신하는 방법 및 장치
WO2017171391A1 (ko) 방송 신호 송수신 방법 및 장치
JP2009521174A (ja) ビデオ符号化及び復号化
WO2010027142A2 (ko) 다시점 비디오의 송수신 시스템 및 방법
WO2009148270A2 (en) Apparatus and method for adapting scalable video coding bitstream
US20240040131A1 (en) A method, an apparatus and a computer program product for video encoding and video decoding
JP2016076957A (ja) 送信装置、送信方法、受信装置および受信方法
Ifeachor Video Quality Measurement for 3G Handset

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11843523

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13989214

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 11843523

Country of ref document: EP

Kind code of ref document: A2