WO2013051896A1 - 비디오 부호화/복호화 방법 및 그 장치 - Google Patents

비디오 부호화/복호화 방법 및 그 장치 Download PDF

Info

Publication number
WO2013051896A1
WO2013051896A1 PCT/KR2012/008097 KR2012008097W WO2013051896A1 WO 2013051896 A1 WO2013051896 A1 WO 2013051896A1 KR 2012008097 W KR2012008097 W KR 2012008097W WO 2013051896 A1 WO2013051896 A1 WO 2013051896A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
encoding
information
layer image
view
Prior art date
Application number
PCT/KR2012/008097
Other languages
English (en)
French (fr)
Inventor
강정원
김휘용
이하현
방건
최진수
정원식
허남호
김진웅
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US14/350,225 priority Critical patent/US20140286415A1/en
Priority claimed from KR1020120110803A external-priority patent/KR20130037194A/ko
Publication of WO2013051896A1 publication Critical patent/WO2013051896A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Definitions

  • the present invention relates to image processing, and more particularly, to a video encoding / decoding method and apparatus.
  • an inter prediction technique that predicts pixel values included in a current picture from a previous and / or subsequent picture in time, and predicts pixel values included in a current picture using pixel information in the current picture.
  • An intra prediction technique an entropy encoding technique of allocating a short code to a high frequency symbol and a long code to a low frequency symbol may be used.
  • Video compression technology is a technology that provides a constant network bandwidth under a limited operating environment of hardware without considering a fluid network environment.
  • a new compression technique is required to compress video data applied to a network environment in which bandwidth changes frequently, and a scalable video encoding / decoding method may be used for this purpose.
  • 3DTV services that can be provided within a few years.
  • a multiview image encoding / decoding method may be used.
  • the 3D video service an image of two or more views is displayed on a spatially divided display panel, and images of each individual viewpoint may be reproduced simultaneously. Accordingly, images of different viewpoints may be provided to the two eyes of the person, and the reproduced images may be recognized as three-dimensional images.
  • An object of the present invention is to provide a video encoding method and apparatus for supporting space, time, image quality, and view scalability.
  • Another technical problem of the present invention is to provide a video decoding method and apparatus for supporting space, time, image quality, and view scalability.
  • Another technical problem of the present invention is to provide a video processing system supporting space, time, image quality, and view scalability.
  • One embodiment of the present invention is a video decoding method.
  • the method may perform decoding on a first bitstream corresponding to the base layer image based on first decoding information corresponding to an image belonging to a view different from a view to which a base layer image belongs.
  • the enhancement layer based on the operation and the second decoding information corresponding to the base layer image and the third decoding information corresponding to an image belonging to a viewpoint different from a viewpoint belonging to an enhancement layer image. And decoding the second bitstream corresponding to the image.
  • the base layer image and the enhancement layer image may have different spatial resolutions.
  • the base layer image and the enhancement layer image may have different quality resolutions.
  • the first decoding information, the second decoding information, and the third decoding information may include at least one of texture information, motion information, residual signal information, and decoded signal information.
  • the method may further include receiving a multiplexed, single bit stream based on a first NAL unit corresponding to the first bit stream and a second NAL unit corresponding to the second bit stream.
  • the method may further include extracting the first bit stream and the second bit stream from a single bit stream.
  • the first NAL unit header corresponding to the first NAL unit may include a first spatial identifier, a first temporal identifier, a first quality identifier, and a first view identifier.
  • a second NAL unit header corresponding to the second NAL unit may include at least one of a second spatial identifier, a second time identifier, a second quality identifier, and a second view identifier.
  • the first spatial identifier, the first temporal identifier, the first image quality identifier, and the first view identifier may respectively indicate a spatial resolution, temporal resolution, image quality resolution, and viewpoint resolution corresponding to the base layer image.
  • the second spatial identifier, the second temporal identifier, the second image quality identifier and the second view identifier respectively indicate a spatial resolution, a temporal resolution, an image quality resolution, and a view resolution corresponding to the enhancement layer image. can do.
  • the first bit stream may be extracted based on information included in the first NAL unit header, and the second bit stream is extracted based on information included in the second NAL unit header. can do.
  • inter-view prediction may be performed on the base layer image based on the first decoding information.
  • inter layer texture prediction and inter layer motion information prediction are performed on the enhancement layer image based on the second decoding information. At least one of information prediction and inter layer residual signal prediction may be performed.
  • inter-view prediction may be performed on the enhancement layer image based on the third decoding information.
  • the method may perform encoding on the base layer image by performing encoding on the base layer image based on first encoding information corresponding to an image belonging to a view different from a view to which a base layer image belongs. Generating a corresponding first bitstream, second encoding information corresponding to the base layer image, and third encoding information corresponding to an image belonging to a viewpoint different from a viewpoint belonging to an enhancement layer image; And generating a second bitstream corresponding to the enhancement layer image by performing encoding on the enhancement layer image.
  • the base layer image and the enhancement layer image may have different spatial resolutions.
  • the base layer image and the enhancement layer image may have different quality resolutions.
  • the first encoded information, the second encoded information, and the third encoded information may include at least one of texture information, motion information, residual signal information, and encoded signal information.
  • the method may further comprise generating a single bit stream by performing multiplexing based on the first bitstream and the second bitstream.
  • inter-view prediction may be performed on the base layer image based on the first encoding information.
  • inter layer texture prediction and inter layer motion information prediction may be performed on the enhancement layer image based on the second encoding information. At least one of information prediction and inter layer residual signal prediction may be performed.
  • inter-view prediction may be performed on the enhancement layer image based on the third encoding information.
  • the video encoding method according to the present invention may support space, time, image quality, and view scalability.
  • the video decoding method according to the present invention may support space, time, image quality, and view scalability.
  • the video processing system according to the present invention can support space, time, picture quality and view scalability.
  • FIG. 1 is a block diagram illustrating a basic configuration of an image encoding apparatus according to an embodiment.
  • FIG. 2 is a block diagram illustrating a basic configuration of an image decoding apparatus according to an embodiment.
  • FIG. 3 is a diagram schematically showing an embodiment of a scalable video coding structure using multiple layers to which the present invention can be applied.
  • FIG. 4 is a conceptual diagram schematically illustrating an embodiment of a prediction method in a multiview image encoding / decoding process.
  • FIG. 5 is a block diagram schematically illustrating an embodiment of a system for performing image encoding and decoding according to the present invention.
  • FIG. 6 is a flowchart schematically illustrating an example of an image encoding method for supporting spatial resolution and scalability corresponding to N viewpoints.
  • FIG. 7 is a flowchart schematically illustrating an embodiment of an image encoding method for supporting two image quality resolutions and scalability corresponding to N viewpoints.
  • FIG. 8 is a flowchart schematically illustrating an embodiment of an image encoding method for supporting two spatial resolutions, two image quality resolutions, and scalability corresponding to N viewpoints.
  • FIG. 9 is a block diagram schematically illustrating an embodiment of a video encoder structure supporting two spatial resolutions and scalability corresponding to two viewpoints according to the present invention.
  • first and second may be used to describe various configurations, but the configurations are not limited by the terms. The terms are used to distinguish one configuration from another.
  • first configuration may be referred to as the second configuration, and similarly, the second configuration may also be referred to as the first configuration.
  • each component shown in the embodiments of the present invention are independently shown to represent different characteristic functions, and do not mean that each component is made of separate hardware or one software component unit.
  • each component is listed as a component for convenience of description, and at least two of the components may form one component, or one component may be divided into a plurality of components to perform a function.
  • the integrated and separated embodiments of each component are also included in the scope of the present invention without departing from the spirit of the present invention.
  • FIG. 1 is a block diagram illustrating a basic configuration of an image encoding apparatus according to an embodiment.
  • a scalable video encoding / decoding method or apparatus may be implemented by extension of a general image encoding / decoding method or apparatus that does not provide scalability.
  • an image encoding / decoding process may be performed on an image corresponding to each viewpoint.
  • 1 is a block diagram of an example of an image encoding apparatus that may be the basis of a scalable video encoding apparatus and a 3D video encoding apparatus.
  • the image encoding apparatus 100 may include an inter predictor 110, an intra predictor 120, a switch 125, a subtractor 130, a transformer 135, a quantizer 140, and entropy.
  • the encoder 150 may include an inverse quantizer 160, an inverse transformer 170, an adder 175, a filter 180, and a picture buffer 190.
  • the image encoding apparatus 100 may encode an input image in an intra mode or an inter mode and output a bitstream. In the intra mode, the switch 125 is switched to intra, and in the inter mode, the switch 125 is switched to inter. The image encoding apparatus 100 may generate a prediction block for an input block of an input image and then encode a difference between the input block and the prediction block.
  • the intra predictor 120 may generate a prediction block by performing spatial prediction using pixel values of blocks that are already encoded around the current block.
  • the inter predictor 110 may obtain a motion vector by searching for a region corresponding to the input block in the reference image stored in the picture buffer 190 during the motion prediction process.
  • the inter prediction unit 110 may generate a prediction block by performing motion compensation using the motion vector and the reference image stored in the picture buffer 190.
  • the processing unit in which the prediction is performed and the processing unit in which the prediction method and the detailed content are determined may be different from each other.
  • a prediction mode may be determined in units of PUs, and prediction may be performed in units of TUs, or a prediction mode may be determined in units of PUs, and prediction may be performed in units of TUs.
  • the subtractor 130 may generate a residual block by the difference between the input block and the generated prediction block.
  • the transformer 135 may perform transform on the residual block and output a transform coefficient.
  • the quantization unit 140 may output the quantized coefficient by quantizing the input transform coefficient according to the quantization parameter.
  • the entropy encoder 150 may output a bitstream by entropy encoding the quantized coefficients according to a probability distribution based on the values calculated by the quantizer 140 or the encoding parameter values calculated in the encoding process. Can be.
  • the quantized coefficients may be inversely quantized by the inverse quantizer 160 and inversely transformed by the inverse transformer 170.
  • the inverse quantized and inverse transformed coefficients are added to the prediction block through the adder 175 and a reconstruction block can be generated.
  • the reconstruction block passes through the filter unit 180, and the filter unit 180 applies at least one or more of a deblocking filter, a sample adaptive offset (SAO), and an adaptive loop filter (ALF) to the reconstruction block or the reconstruction picture. can do.
  • the reconstructed block that has passed through the filter unit 180 may be stored in the picture buffer 190.
  • FIG. 2 is a block diagram illustrating a basic configuration of an image decoding apparatus according to an embodiment.
  • a scalable video encoding / decoding method or apparatus may be implemented by an extension of a general image encoding / decoding method or apparatus that does not provide scalability.
  • an image encoding / decoding process may be performed on an image corresponding to each viewpoint.
  • 2 is a block diagram of an example of an image decoding apparatus that may be the basis of a scalable video decoding apparatus and a 3D video decoding apparatus.
  • the image decoding apparatus 200 may include an entropy decoder 210, an inverse quantizer 220, an inverse transformer 230, an intra predictor 240, an inter predictor 250, and a filter ( 260 and a picture buffer 270.
  • the image decoding apparatus 200 may receive a bitstream output from the encoding apparatus, perform decoding in an intra mode or an inter mode, and output a reconstructed image, that is, a reconstructed image.
  • the switch In the intra mode, the switch may be switched to intra, and in the inter mode, the switch may be switched to inter.
  • the image decoding apparatus 200 may generate a reconstructed block, that is, a reconstructed block by obtaining a residual block reconstructed from the received bitstream, generating a prediction block, and adding the reconstructed residual block and the prediction block.
  • the entropy decoder 210 entropy decodes the input bitstream according to a probability distribution. By entropy decoding, quantized (transform) coefficients can be generated.
  • the quantized coefficients are inversely quantized by the inverse quantizer 220 and inversely transformed by the inverse transformer 230, and as a result of the inverse quantization / inverse transformation of the quantized coefficients, a reconstructed residual block may be generated.
  • the intra predictor 240 may generate a prediction block by performing spatial prediction using pixel values of blocks that are already encoded around the current block.
  • the inter predictor 250 may generate a prediction block by performing motion compensation using a motion vector and a reference image stored in the picture buffer 270.
  • the processing unit in which the prediction is performed and the processing unit in which the prediction method and the detailed content are determined may be different from each other.
  • a prediction mode may be determined in units of PUs, and prediction may be performed in units of TUs, or a prediction mode may be determined in units of PUs, and prediction may be performed in units of TUs.
  • the reconstructed residual block and the prediction block are added through the adder 255, and the added block passes through the filter unit 260.
  • the filter unit 260 may apply at least one of the deblocking filter, SAO, and ALF to the reconstructed block or the reconstructed picture.
  • the filter unit 260 may output a reconstructed image, that is, a reconstructed image.
  • the reconstructed image may be stored in the picture buffer 270 and used for inter prediction.
  • a block means a unit of image encoding and decoding.
  • a coding or decoding unit refers to a divided unit when a single image is divided into subdivided units and encoded or decoded, so that a macroblock, a coding unit (CU), and a prediction unit (PU) are used. It may be called a Prediction Unit, a Transform Unit, a transform block, or the like.
  • a block (and / or an encoding / decoding object block) may mean an encoding unit, a prediction unit, and / or a transform unit corresponding to the block (and / or encoding / decoding object block). . This distinction will be readily apparent to those of ordinary skill in the art.
  • SVC Scalable Video Coding
  • FIG. 3 is a diagram schematically showing an embodiment of a scalable video coding structure using multiple layers to which the present invention can be applied.
  • a GOP Group of Picture
  • FIG. 3 a diagram schematically showing an embodiment of a scalable video coding structure using multiple layers to which the present invention can be applied.
  • a GOP Group of Picture
  • FIG. 3 a diagram schematically showing an embodiment of a scalable video coding structure using multiple layers to which the present invention can be applied.
  • a GOP Group of Picture
  • a transmission medium In order to transmit image data, a transmission medium is required, and its performance varies depending on the transmission medium according to various network environments.
  • a scalable video coding method may be provided for application to such various transmission media or network environments.
  • Scalable Video Coding (SVC, hereinafter referred to as 'SVC') is a coding method that improves encoding / decoding performance by removing redundancy between layers by using texture information, motion information, and residual signals between layers. It is a way. For example, in the scalable video encoding / decoding process, interlayer texture prediction and interlayer motion information prediction may be performed to remove redundancy between layers to improve encoding / decoding efficiency. And / or inter layer residual signal prediction may be applied.
  • the SVC can provide various scalability in terms of spatial, temporal, and image quality according to peripheral conditions such as a transmission bit rate, a transmission error rate, and a system resource.
  • the SVC may use multiple layers structure to provide a bitstream applicable to various network situations.
  • the SVC may include a base layer that processes image information using a general image encoding method, and an enhancement layer that processes image information using a base layer encoding information and a general image encoding method. enhancement layer).
  • the layer structure may include a plurality of spatial layers, a plurality of temporal layers, a plurality of quality layers, and the like. Images included in different spatial layers may have different spatial resolutions, and images included in different temporal layers may have different temporal resolutions (frame rates). Also, images included in different image quality layers may have different image quality, for example, different signal-to-noise ratio (SNR) and / or different quantization parameter (QP) values.
  • SNR signal-to-noise ratio
  • QP quantization parameter
  • the layer may be an image and / or bitstream that is divided based on space (eg, image size), time (eg, encoding order, image output order), image quality, complexity, and the like. Can mean a set. Also, the plurality of layers may have a dependency between each other.
  • the SVC structure may include a plurality of layers. 3 shows an example in which pictures of each layer are arranged according to a picture order count (POC).
  • Each layer that is, the base layer and the enhancement layer may have different characteristics such as bit rate, resolution, and size.
  • the bitstream for the base layer may include basic image information, and the bitstream for the enhancement layer may include information about an image in which the quality (eg, accuracy, size, and / or frame rate) of the base layer is improved. It may include.
  • each layer may be encoded / decoded in consideration of different characteristics.
  • the encoding apparatus of FIG. 1 and the decoding apparatus of FIG. 2 may encode and decode a picture of a corresponding layer for each layer as described above with reference to FIGS. 1 and 2.
  • the picture of each layer may be encoded / decoded using information of another layer.
  • a picture of each layer may be encoded and decoded through inter layer prediction using information of another layer. Therefore, in the SVC structure, the prediction units of the encoding apparatus and the decoding apparatus described with reference to FIGS. 1 and 2 may perform prediction using information of another layer, that is, a reference layer.
  • the prediction units of the encoding apparatus and the decoding apparatus may perform interlayer texture prediction, interlayer motion information prediction, interlayer residual signal prediction, and the like using information of another layer.
  • a texture of a current layer may be predicted based on texture information of another layer.
  • motion information of the current layer may be predicted based on motion information (motion vector, reference picture, etc.) of another layer.
  • inter layer residual signal prediction the residual signal of the current layer may be predicted based on the residual signal of another layer.
  • FIG. 4 is a conceptual diagram schematically illustrating an embodiment of a prediction method in a multiview image encoding / decoding process.
  • one viewpoint may mean a viewpoint of an image acquired from one camera.
  • T0 to T8 represent time.
  • an image of three views may be provided, such as view 0, view 1, and view 2.
  • the number of viewpoints is not limited to three, but two or four viewpoints may exist.
  • Prediction from another image within the encoding / decoding target viewpoint may be referred to as temporal prediction, and prediction from an image within another viewpoint may be referred to as inter-view prediction.
  • the encoding / decoding target viewpoint may mean a viewpoint including the current encoding / decoding target image.
  • another view may be a view except for an encoding / decoding target view, and may mean a view that is available from the encoding / decoding target view.
  • images acquired at various viewpoints may be used for encoding / decoding, and thus, inter-view prediction and temporal prediction are performed together in encoding / decoding of a current prediction target block.
  • encoding / decoding efficiency may be improved by removing temporal redundancy through temporal prediction and removing redundancy in an image between viewpoints through inter-view prediction. That is, in a multiview image, temporal scalability and view scalability may be provided.
  • Temporal scalability and view scalability in a multiview image may be implemented based on a hierarchical B structure, as shown in the embodiment of FIG. 4.
  • a coding structure for encoding / decoding corresponds to a hierarchical B structure.
  • the scalable video coding method described above with reference to FIG. 3 may simultaneously or spatially provide spatial, temporal, and image quality scalability.
  • the 3D video coding method described above with reference to FIG. 4 may provide temporal and viewpoint scalability.
  • the viewpoint scalability according to the embodiment of FIG. 4 is provided independently of the spatial, temporal, and image quality scalability according to the embodiment of FIG. 3, the view scalability and the spatial scalability provided in the embodiment of FIG. It may have a structure that is difficult to use combined. Therefore, when providing the 3D video service, there may be a problem that a transcoding and / or a separate encoding / decoding process should be performed in order to change the spatial resolution and the image quality resolution according to the specification of the terminal.
  • one spatial encoding method and / or one integrated decoding process provide different spatial, temporal, and image quality resolutions according to the specifications of the UE, and at the same time, provide a 3D image from a plurality of viewpoints.
  • an image encoding / decoding method capable of selectively providing a viewpoint required for generation.
  • an image encoding / decoding method capable of simultaneously supporting temporal, image quality, and view scalability, or simultaneously supporting spatial, temporal, image quality, and view scalability may be provided.
  • the system according to the present invention may include an encoder 510, a bitstream extractor 520, and a decoder 530.
  • the encoder 510 may input N images simultaneously acquired by N cameras (N is a natural number).
  • the N images may correspond to images acquired at different viewpoints.
  • the N images include a first view image, a second view image,... This is referred to as an N-1th view image and an Nth view image.
  • the N images may have a spatial resolution of A1xA2 (eg, 1920x1080 for HD) and a temporal resolution of 30 fps (frame / sec).
  • the encoder 510 of FIG. 5 may support spatial, temporal, image quality, and view scalability. Therefore, the encoder 510 may receive N images having different viewpoints and output one encoded bit stream.
  • the encoder 510 may encode information on a space, time, image quality, and a view layer generated in the encoding process, and may include the encoded information in a bit stream and transmit the encoded information.
  • the information may be information indicating the highest layer corresponding to the spatial, temporal, image quality, and / or viewpoint resolution required for generating the 3D image.
  • the bit stream extractor 520 of FIG. 5 may support spatial, temporal, image quality, and view scalability. Accordingly, the bit stream extractor 520 receives the bit stream transmitted from the encoder 510 and then selects a bit stream including the highest layer corresponding to the spatial resolution, temporal resolution, image quality resolution, and the number of viewpoints required for generating the 3D image. You can print In this case, for example, the spatial resolution may be A1xA2, the temporal resolution is B fps, the image quality resolution is C, and the number of viewpoints may be D.
  • A1, A2, B, and C may correspond to any number, and D may represent any natural number.
  • the bit stream extractor 520 may use information about space, time, image quality, and a view layer transmitted from the encoder 510.
  • the bit stream output from the bit stream extractor 520 may be decoded through the decoder 530.
  • the decoder 530 illustrated in FIG. 5 may support spatial, temporal, image quality, and view scalability. Accordingly, the decoder 530 may output the D decoded images having the spatial resolution of A1xA2, the temporal resolution of B fps, and the C image quality resolution by decoding the bit stream output from the bit stream extractor 520, respectively. have.
  • the D decoded images may have different viewpoints and may correspond to a YUV type signal.
  • each of the D images output from the decoder 530 may correspond to one partial bit stream. That is, the bit stream input to the decoder 530 may be composed of D partial bit streams.
  • the D images are respectively a first viewpoint output image, a second viewpoint output image,...
  • the second view is displayed as the output image.
  • the D images having different viewpoints may have a spatial resolution of A1xA2, a temporal resolution of B fps, and an image quality resolution of C, respectively.
  • FIG. 6 is a flowchart schematically illustrating an example of an image encoding method for supporting spatial resolution and scalability corresponding to N viewpoints.
  • N may mean two or more natural numbers.
  • Temporal scalability and view scalability may be implemented based on a hierarchical B structure. Since the method of providing temporal scalability and view scalability based on the hierarchical B structure has been described above with reference to FIG. 4, a detailed description thereof will be omitted.
  • N images obtained at different views may be encoded.
  • the N images are respectively represented by a first viewpoint image, a second viewpoint image,... This is called an Nth view image.
  • the methods are described based on a flowchart as a series of steps, but the present invention is not limited to the order of steps, and some steps may occur in different order or simultaneously with other steps than those described below.
  • FIG. 6 is described with respect to two spatial layers, the present invention is not limited thereto. Embodiments described later may be applied to the encoding process in the same or similar manner even when there are two or more spatial layers.
  • the encoder may perform down converting on the first view image to match the resolution of the base layer to be encoded (S610).
  • the encoder may generate a base layer image corresponding to the first view image by performing down-conversion on the first view image.
  • the base layer image corresponding to the first view image is referred to as a first base layer image.
  • the encoder may perform encoding on the first base layer image as in the embodiment illustrated in FIG. 1 (S640).
  • the encoder may perform the inter prediction and / or intra prediction described above with reference to FIG. 1 in order to remove spatial redundancy and / or temporal redundancy in the first base layer image during the encoding process. have.
  • the encoder may perform encoding on an enhancement layer image (hereinafter, referred to as a “first enhancement layer image”) corresponding to the first view image (S670).
  • first enhancement layer image an enhancement layer image corresponding to the first view image (S670).
  • the encoder may remove the spatial redundancy and / or temporal redundancy in the first enhancement layer image in the encoding process as in the first base layer image. Prediction and / or intra prediction may be performed.
  • the encoder may remove the lower spatial layer (eg, the first base layer) to remove redundancy between the first enhancement layer and the lower layer (eg, the first base layer).
  • Encoding related information of the base layer may be used.
  • the encoding related information of the lower spatial layer may include intra related information (eg, texture information), inter related information (eg, motion information), residual signal information, and decoded signal information.
  • the encoder may perform interlayer texture prediction, interlayer motion information prediction, and / or interlayer residual signal prediction based on encoding related information of the lower spatial layer.
  • the encoder may perform down-conversion on the second view image to match the resolution of the base layer to be encoded (S620).
  • the encoder may generate a base layer image corresponding to the second view image by performing down-conversion on the second view image.
  • the base layer image corresponding to the second view image is referred to as a second base layer image.
  • the encoder may perform encoding on the second base layer image (S650).
  • the encoder may remove the spatial redundancy and / or temporal redundancy in the second base layer image in the encoding process, as described in FIG. 1. And / or intra prediction may be performed.
  • the encoder may remove the redundancy between the second base layer image and the first base layer image (the image having a different viewpoint than that of the second base layer image).
  • Information related to encoding of the base layer image may be used.
  • the encoding related information of the first base layer may include intra related information, inter related information, residual signal information, and decoded signal information.
  • the encoder performs inter-view prediction on pictures, blocks, and / or other encoding related information belonging to the second base layer image based on the encoding related information of the first base layer, thereby performing inter-view prediction. Redundancy can be eliminated.
  • the encoder may perform encoding on an enhancement layer image (hereinafter, referred to as a “second enhancement layer image”) corresponding to the second view image based on the second view image (S680).
  • a second enhancement layer image an enhancement layer image corresponding to the second view image based on the second view image (S680).
  • the encoder performs the inter prediction and / or intra prediction described above with reference to FIG. 1 in order to remove spatial redundancy and / or temporal redundancy in the second enhancement layer image in the encoding process. Can be done.
  • the encoder may remove the lower spatial layer (eg, the second layer) to remove redundancy between the second enhancement layer and the lower layer (eg, the second base layer).
  • Encoding related information of the base layer may be used.
  • the encoding related information of the lower spatial layer may include intra related information (eg, texture information), inter related information (eg, motion information), residual signal information, and decoded signal information.
  • the encoder may perform interlayer texture prediction, interlayer motion information prediction, and / or interlayer residual signal prediction based on encoding related information of the lower spatial layer.
  • the encoder may remove redundancy between the second enhancement layer image and the first enhancement layer image (the image having a different viewpoint than that of the second enhancement layer image).
  • encoding related information of the first enhancement layer image may be used.
  • the encoding related information of the first enhancement layer image may include intra related information, inter related information, residual signal information, and decoded signal information.
  • the encoder performs the inter-view prediction on the picture, block and / or other encoding related information belonging to the second enhancement layer image based on the encoding related information of the first enhancement layer, thereby performing the second enhancement layer. Redundancy between viewpoints on an image can be removed.
  • the encoder may perform encoding on the third to Nth view images, respectively.
  • the encoder may perform encoding on each of the third to Nth view images in the same or similar manner as in the second view image.
  • the first view image removes redundancy between views.
  • All of the encoding related information of the viewpoint image to the n-1th viewpoint image may be used. That is, the encoder may perform encoding on the nth view image based on at least one of encoding related information of the first view image to the n-1th view image.
  • the encoder may generate an Nth base layer image corresponding to the Nth view image by performing down-conversion on the Nth view image (S630). .
  • the encoder may perform encoding on the Nth base layer image (S660).
  • the encoder may perform inter prediction and / or intra prediction described above with reference to FIG. 1 to remove spatial redundancy and / or temporal redundancy in the Nth base layer image during the encoding process.
  • the encoder may remove inter-view redundancy by performing inter-view prediction based on encoding related information of a base layer image corresponding to an image of another view.
  • the base layer image corresponding to the image of the other view may correspond to at least one of the first base layer image and the N-th base layer image. Since the embodiment related to the encoding related information has been described above, it will be omitted here.
  • the encoder may perform encoding on an enhancement layer image (hereinafter, referred to as an 'Nth enhancement layer image') corresponding to the Nth view image based on the Nth view image (S690).
  • the encoder may perform inter prediction and / or intra prediction described above with reference to FIG. 1 to remove spatial redundancy and / or temporal redundancy in the N-th enhancement layer image during the encoding process.
  • the encoder may remove redundancy between layers by using encoding related information of a lower spatial layer corresponding to the Nth enhancement layer.
  • the encoder may remove inter-view redundancy by performing inter-view prediction based on encoding related information of an enhancement layer image corresponding to an image of another view.
  • the enhancement layer image corresponding to the image of the other view may correspond to at least one of the first enhancement layer image and the N-1 enhancement layer image. Since the embodiment related to the encoding related information has been described above, it will be omitted here.
  • the encoder may generate an encoded single bit stream by performing multiplexing on the bit stream corresponding to the first view image to the bit stream corresponding to the Nth view image (S695). ).
  • the generated bit stream may be transmitted to the decoder.
  • spatial scalability and view scalability may be provided simultaneously.
  • FIG. 6 Although the embodiment of FIG. 6 has been described in terms of an encoder, the present invention is not limited thereto.
  • embodiments of the prediction and reference process applied to remove spatial redundancy and inter-view redundancy may be applied to the decoder in the same or similar manner as the encoder.
  • the prediction processes applied to remove redundancy in layers, redundancy between layers and redundancy between views in the processes of S640 to S690 may be applied to the decoder in the same manner.
  • FIG. 7 is a flowchart schematically illustrating an embodiment of an image encoding method for supporting two image quality resolutions and scalability corresponding to N viewpoints.
  • N may mean two or more natural numbers.
  • N images obtained at different views may be encoded.
  • the N images are respectively represented by a first viewpoint image, a second viewpoint image,... This is called an Nth view image.
  • the methods are described based on a flowchart as a series of steps, but the present invention is not limited to the order of steps, and some steps may occur in different order or simultaneously with other steps than those described below.
  • FIG. 7 is described with respect to two image quality layers, the present invention is not limited thereto. Embodiments described later may be applied to the encoding process in the same or similar manner even when two or more image quality layers are present.
  • the down-converting process may not be performed to generate an image for each of the plurality of layers.
  • the image quality scalability may be provided by applying a smaller QP (Quantization Parameter) value to the image of the upper layer than the image of the lower layer. That is, the encoder may apply a QP value smaller than the lower layer image when encoding the upper layer image.
  • QP has a larger value as the size of the quantization step is larger, and has a smaller value as the size of the quantization step is smaller. If the size of the quantization step is large, quantization errors may occur. Therefore, the smaller the QP value, the higher the image quality resolution.
  • the encoder may perform encoding on a base layer image (hereinafter, referred to as a “first base layer image”) corresponding to a first view image as in the embodiment illustrated in FIG. 1. (S710).
  • the encoder may perform the inter prediction and / or intra prediction described above with reference to FIG. 1 in order to remove spatial redundancy and / or temporal redundancy in the first base layer image during the encoding process. have.
  • the encoder may perform encoding on an enhancement layer image (hereinafter, referred to as a “first enhancement layer image”) corresponding to the first view image (S740).
  • first enhancement layer image an enhancement layer image
  • the encoder may remove the spatial redundancy and / or temporal redundancy in the first enhancement layer image in the encoding process as in the first base layer image. Prediction and / or intra prediction may be performed.
  • the encoder may remove the lower quality layer (eg, the first quality layer) to remove redundancy between the first enhancement layer and the lower layer (eg, the first base layer).
  • Encoding related information of the base layer may be used.
  • the encoding related information of the lower quality layer may include intra related information (eg, texture information), inter related information (eg, motion information), residual signal information, and decoded signal information.
  • the encoder may perform interlayer texture prediction, interlayer motion information prediction, and / or interlayer residual signal prediction based on encoding related information of a lower quality layer.
  • the encoder may perform encoding on a base layer image (hereinafter, referred to as a “second base layer image”) corresponding to the second view image (S720).
  • the encoder may remove the spatial redundancy and / or temporal redundancy in the second base layer image in the encoding process, as described in FIG. 1. And / or intra prediction may be performed.
  • the encoder may remove the redundancy between the second base layer image and the first base layer image (the image having a different viewpoint than that of the second base layer image).
  • Information related to encoding of the base layer image may be used.
  • the encoding related information of the first base layer may include intra related information, inter related information, residual signal information, and decoded signal information.
  • the encoder may remove inter-view redundancy by performing inter-view prediction on pictures, blocks, and / or other encoding related information belonging to the second base layer image based on the encoding related information of the first base layer. .
  • the encoder may perform encoding on an enhancement layer image (hereinafter, referred to as a “second enhancement layer image”) corresponding to the second view image based on the second view image (S750).
  • the encoder may remove the spatial redundancy and / or temporal redundancy in the second enhancement layer image in the encoding process as in the second base layer image, and thus, the inter prediction and / or intra prediction described above with reference to FIG. Can be performed.
  • the encoder may remove the lower quality layer (eg, the second quality layer) to remove redundancy between the second enhancement layer and the lower layer (eg, the second base layer).
  • Encoding related information of the base layer may be used.
  • the encoding related information of the lower quality layer may include intra related information (eg, texture information), inter related information (eg, motion information), residual signal information, and decoded signal information.
  • the encoder may perform interlayer texture prediction, interlayer motion information prediction, and / or interlayer residual signal prediction based on encoding related information of a lower quality layer.
  • the encoder may remove redundancy between the second enhancement layer image and the first enhancement layer image (the image having a different viewpoint than that of the second enhancement layer image).
  • encoding related information of the first enhancement layer image may be used.
  • the encoding related information of the first enhancement layer image may include intra related information, inter related information, residual signal information, and decoded signal information.
  • the encoder performs the inter-view prediction on the picture, block and / or other encoding related information belonging to the second enhancement layer image based on the encoding related information of the first enhancement layer, thereby performing the second enhancement layer. Redundancy between viewpoints on an image can be removed.
  • the encoder may perform encoding on the third to Nth view images, respectively.
  • the encoder may perform encoding on each of the third to Nth view images in the same or similar manner as in the second view image.
  • the first view image removes redundancy between views.
  • All of the encoding related information of the viewpoint image to the n-1th viewpoint image may be used. That is, the encoder may perform encoding on the nth view image based on at least one of encoding related information of the first view image to the n-1th view image.
  • the encoder may perform encoding on the Nth base layer image corresponding to the Nth view image (S730).
  • the encoder may perform inter prediction and / or intra prediction described above with reference to FIG. 1 to remove spatial redundancy and / or temporal redundancy in the N-th base layer image during the encoding process.
  • the encoder may remove inter-view redundancy by performing inter-view prediction based on encoding related information of a base layer image corresponding to an image of another view.
  • the base layer image corresponding to the image of the other view may correspond to at least one of the first base layer image and the N-th base layer image. Since the embodiment related to the encoding related information has been described above, it will be omitted here.
  • the encoder may perform encoding on an enhancement layer image (hereinafter, referred to as an 'Nth enhancement layer image') corresponding to the Nth view image based on the Nth view image (S760).
  • the encoder may perform the inter prediction and / or intra prediction described above with reference to FIG. 1 in order to remove spatial redundancy and / or temporal redundancy in the N-th enhancement layer image during the encoding process.
  • the encoder may remove redundancy between layers by using encoding related information of a lower quality layer corresponding to the Nth enhancement layer.
  • the encoder may remove inter-view redundancy by performing inter-view prediction based on encoding related information of an enhancement layer image corresponding to an image of another view.
  • the enhancement layer image corresponding to the image of the other view may correspond to at least one of the first enhancement layer image and the N-1 enhancement layer image. Since the embodiment related to the encoding related information has been described above, it will be omitted here.
  • the encoder generates multiple encoded single bit streams by performing multiplexing on the first bit stream corresponding to the first view image to the Nth bit stream corresponding to the Nth view image. It may be (S770).
  • the generated bit stream may be transmitted to the decoder.
  • image quality scalability and view scalability may be simultaneously provided.
  • FIG. 7 Although the embodiment of FIG. 7 has been described in terms of an encoder, the present invention is not limited thereto.
  • embodiments of the prediction and reference process applied to remove image quality redundancy and inter-view redundancy may be applied to the decoder in the same or similar manner as in the encoder.
  • prediction processes applied to remove redundancy in layers, redundancy between layers, and redundancy between views may be applied to the decoder in the same manner.
  • N may represent two or more natural numbers.
  • N images obtained at different views may be encoded.
  • the N images are respectively classified into a first viewpoint image, a second viewpoint image,. This is called an Nth view image.
  • the methods are described based on a flowchart as a series of steps, but the present invention is not limited to the order of steps, and some steps may occur in different order or simultaneously with other steps than those described below.
  • FIG. 8 is described with respect to two spatial layers and two image quality layers, the present invention is not limited thereto. Embodiments described later may be applied in the same or similar manner to the encoding process even when two or more spatial layers and / or two or more quality layers are present.
  • a base layer image may be generated by performing down-conversion on each of the first to Nth view images.
  • two enhancement layers may exist.
  • a layer corresponding to a lower layer among the two enhancement layers is referred to as a lower enhancement layer
  • a layer corresponding to an upper layer among the two enhancement layers is referred to as an upper enhancement layer. Shall be.
  • the base layer image may have lower spatial resolution than the lower enhancement layer and the upper enhancement layer, and the lower enhancement layer and the upper enhancement layer may have the same spatial resolution. Therefore, in the embodiment of FIG. 8, two spatial resolutions may be supported.
  • the encoder may apply a QP value smaller than the lower enhancement layer image when encoding the upper enhancement layer image. In this case, two image quality resolutions may be supported in the embodiment of FIG. 8. Accordingly, the encoding process of FIG. 8 may support both spatial, image quality, and view scalability.
  • the encoder may generate a base layer image (hereinafter, referred to as a “first base layer image”) corresponding to the first view image by performing down converting on the first view image. It may be (S813).
  • the encoder may perform encoding on the first base layer image as in the embodiment illustrated in FIG. 1 (S823).
  • the encoder may perform encoding on the first lower enhancement layer image corresponding to the first view image (S833) and perform encoding on the first higher enhancement layer image corresponding to the first view image. (S843).
  • the encoder may perform encoding based on encoding related information of a lower layer to remove redundancy between layers.
  • the detailed encoding process corresponding to each step is similar to that in the above-described embodiment of FIGS. 6 and 7, and thus will be omitted here.
  • the encoder may generate a base layer image (hereinafter, referred to as a “second base layer image”) corresponding to the second view image by performing down-conversion on the second view image. S816).
  • the encoder may perform encoding on the second base layer image (S826). In this case, the encoder may perform encoding based on encoding related information of the first base layer to remove redundancy between viewpoints.
  • the encoder may perform encoding on the second lower enhancement layer image corresponding to the second view image.
  • the encoder may perform encoding based on encoding related information of a lower layer to remove redundancy between layers, and to remove redundancy between views, based on encoding related information of a first lower enhancement layer. Encoding can be performed.
  • the encoder may perform encoding on the second higher enhancement layer image corresponding to the second view image (S846). In this case, the encoder may perform encoding based on encoding related information of a lower layer to remove redundancy between layers, and in order to remove redundancy between views, based on encoding related information of a first higher enhancement layer. Encoding can be performed.
  • the encoder may perform encoding on the third to Nth view images, respectively.
  • the encoder may perform encoding on each of the third to Nth view images in the same or similar manner as in the second view image.
  • the first view image removes redundancy between views.
  • All of the encoding related information of the viewpoint image to the n-1th viewpoint image may be used. That is, the encoder may perform encoding on the nth view image based on at least one of encoding related information of the first view image to the n-1th view image.
  • the encoder may generate an Nth base layer image corresponding to the Nth view image by performing down-conversion on the Nth view image (S819).
  • the encoder may perform encoding on the Nth base layer image (S829). In this case, the encoder may perform encoding based on encoding related information of a base layer image corresponding to an image of another viewpoint to remove redundancy between viewpoints.
  • the encoder may perform encoding on the Nth lower enhancement layer image corresponding to the Nth view image.
  • the encoder may perform encoding based on encoding related information of a lower layer in order to remove redundancy between layers, and in order to remove redundancy between viewpoints, an encoder of a lower enhancement layer image corresponding to an image of another view may be used. Encoding may be performed based on encoding related information.
  • the encoder may perform encoding on the Nth higher enhancement layer image corresponding to the Nth view image (S849).
  • the encoder may perform encoding based on encoding related information of a lower layer to remove redundancy between layers, and in order to remove redundancy between viewpoints, an encoder of an upper enhancement layer image corresponding to an image of another view may be used. Encoding may be performed based on encoding related information.
  • the encoder may generate an encoded single bit stream by performing multiplexing on the bit stream corresponding to the first view image to the bit stream corresponding to the Nth view image (S850). ).
  • the generated bit stream may be transmitted to the decoder.
  • spatial scalability, image quality scalability, and view scalability may be simultaneously provided.
  • FIG. 8 has been described in terms of an encoder, the present invention is not limited thereto.
  • embodiments of the prediction and reference process applied to remove spatial redundancy and inter-view redundancy may be applied to the decoder in the same or similar manner as the encoder.
  • the prediction processes applied to remove redundancy in layers, redundancy between layers and redundancy between views in the processes of S823 to S849 may be applied to the decoder in the same manner.
  • FIG. 9 is a block diagram schematically illustrating an embodiment of a video encoder structure supporting two spatial resolutions and scalability corresponding to two viewpoints according to the present invention.
  • two images obtained at different views may be encoded.
  • the two images are referred to as a left image 913 and a right image 943, respectively.
  • the left image 913 and the right image 943 may correspond to an ultra high definition (UHD) image, respectively.
  • UHD ultra high definition
  • the down converter 916 may perform down-conversion on the left image 913 to match the resolution of the base layer to be encoded.
  • the down converter 916 may generate a base layer image 923 corresponding to the left image 913 by performing down converting on the left image 913.
  • the base layer image 923 corresponding to the left image 913 is called a “base layer left image”.
  • the base layer left image may correspond to a high definition (HD) image.
  • the up converter 926 may perform up converting on the base layer left image 923.
  • the encoder derives a difference left image 930 corresponding to a difference between the left image 913 and the up-converted base layer left image 923, and performs encoding on the difference left image 930 to perform a left
  • a bitstream corresponding to the image 913 may be generated.
  • the bitstream corresponding to the left image 913 is represented by UHD.
  • the encoder may generate a bitstream corresponding to the base layer left image 923 by performing encoding on the base layer left image 923.
  • the bitstream corresponding to the base layer left image 923 is displayed in HD.
  • the down converter 946 may perform down-conversion on the right image 943 to match the resolution of the base layer to be encoded.
  • the down converter 946 may generate a base layer image 953 corresponding to the right image 943 by performing down-conversion on the right image 943.
  • the base layer image 953 corresponding to the right image 943 is called a “base layer right image”.
  • the base layer right image may correspond to a high definition (HD) image.
  • the up converter 956 may perform up-conversion on the base layer right image 943.
  • the encoder may perform a difference right corresponding to the right image 943 by the difference between the right image 943 and the left image 913 or the difference between the right image 943 and the up-converted base layer right image 953.
  • An image 960 may be derived.
  • the encoder may generate a bitstream corresponding to the right image 943 by performing encoding on the difference right image 960.
  • the bitstream corresponding to the right image 943 is represented by 3D-UHD.
  • the encoder may derive the "base layer difference right image 970" corresponding to the base layer right image 953 by the difference between the base layer right image 953 and the base layer left image 923.
  • the encoder may generate a bitstream corresponding to the base layer right image 953 by performing encoding on the base layer difference right image 970.
  • the bitstream corresponding to the base layer right image 953 is represented by 3D-HD.
  • the encoder may output a single bit stream 980 by performing multiplexing on the generated bit streams UHD, HD, 3D-HD, and 3D-UHD.
  • the single bit stream 980 output as an example may have a form in which NAL units (Network Abstraction Layer units) corresponding to each layer are multiplexed.
  • the NAL unit header corresponding to each NAL unit includes a spatial identifier indicating a spatial resolution in order to indicate which layer includes the encoding / decoding related information for each layer.
  • an identifier, a temporal identifier indicating a temporal resolution, a quality identifier indicating a quality resolution, and a view identifier indicating a view resolution may be included.
  • the encoder may transmit an identifier indicating the highest layer corresponding to the spatial, temporal, image quality, and / or viewpoint resolution required for generating the 3D image.
  • the bit stream extractor may extract a bit stream necessary for generating a 3D image from the single bit stream 980 based on the identifier indicating the highest layer and the information included in each NAL unit header.
  • the extracted bit stream may correspond to a bit stream including the highest layer corresponding to the spatial resolution, temporal resolution, image quality resolution, and the number of viewpoints required for generating the 3D image.
  • the decoder may perform decoding on the bit stream encoded through the above-described encoding process.
  • N images where N is a natural number of 2 or more
  • the N images are respectively a first viewpoint image, a second viewpoint image,... This is called an Nth view image.
  • the decoder may perform decoding on the first base layer image corresponding to the first view image based on the information transmitted from the encoder. In this case, the decoder may perform inter prediction and / or intra prediction described above with reference to FIG. 2. In addition, the decoder may perform decoding on the first enhancement layer image (s) corresponding to the first view image. In this case, the decoder may perform inter prediction and / or intra prediction described above with reference to FIG. 2, and based on encoding / decoding related information of a lower layer, inter layer texture prediction, inter layer motion information prediction, and / or inter layer residual Signal prediction and the like.
  • the decoder may perform decoding on a second base layer image corresponding to the second viewpoint image.
  • the decoder may perform the inter prediction and / or intra prediction described above with reference to FIG. 2, and is based on the encoding / decoding related information of the first base layer image (the image corresponding to a viewpoint different from the second base layer image). For example, inter-view prediction may be performed.
  • the decoder may decode the second enhancement layer image (s) corresponding to the second view image.
  • the decoder may perform inter prediction and / or intra prediction described above with reference to FIG. 2, and based on encoding / decoding related information of a lower layer, inter layer texture prediction, inter layer motion information prediction, and / or inter layer residual Signal prediction and the like.
  • the decoder may perform inter-view prediction based on encoding / decoding related information of the first enhancement layer image (the image corresponding to a different viewpoint than the second enhancement layer image).
  • the decoder may decode the image of a viewpoint other than the first viewpoint image and the second viewpoint image in a manner similar to that of the second viewpoint image.
  • the decoder performs decoding on the first to nth view images (where n may represent the maximum number of view points required to generate the 3D image) according to the maximum number of viewpoints required to generate the 3D image. can do.
  • an image of a viewpoint different from a viewpoint to which the encoding / decoding target image belongs may be used for inter-view prediction.
  • an image belonging to the same layer as the layer to which the encoding / decoding target image belongs may be used for encoding / decoding.
  • the encoder / decoder may use an image belonging to a layer different from a layer belonging to the encoding / decoding target image for inter-view prediction.
  • the methods are described based on a flowchart as a series of steps or blocks, but the present invention is not limited to the order of steps, and any steps may occur in a different order than or simultaneously with other steps as described above. Can be. Also, one of ordinary skill in the art would appreciate that the steps shown in the flowcharts are not exclusive, that other steps may be included, or that one or more steps in the flowcharts may be deleted without affecting the scope of the present invention. I can understand.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

본 발명에 따른 비디오 복호화 방법은, 베이스 레이어 영상이 속한 시점과 다른 시점에 속한 영상에 대응하는 제1 복호화 정보를 기반으로, 베이스 레이어 영상에 대응하는 제1 비트스트림에 대해 복호화를 수행하는 단계 및 베이스 레이어 영상에 대응하는 제2 복호화 정보, 및 인핸스먼트 레이어 영상이 속한 시점과 다른 시점에 속한 영상에 대응하는 제3 복호화 정보를 기반으로, 인핸스먼트 레이어 영상에 대응하는 제2 비트스트림에 대해 복호화를 수행하는 단계를 포함한다.

Description

비디오 부호화/복호화 방법 및 그 장치
본 발명은 영상 처리에 관한 것으로서, 보다 상세하게는 비디오 부호화/복호화 방법 및 장치에 관한 것이다.
최근 HD(High Definition) 해상도를 가지는 방송 서비스가 국내뿐만 아니라 세계적으로 확대되면서, 많은 사용자들이 고해상도, 고화질의 영상에 익숙해지고 있으며 이에 따라 많은 기관들이 차세대 영상기기에 대한 개발에 박차를 가하고 있다. 또한 HDTV와 더불어 HDTV의 4배 이상의 해상도를 갖는 UHD(Ultra High Definition)에 대한 관심이 증대되면서 보다 높은 해상도, 고화질의 영상에 대한 압축기술이 요구되고 있다.
영상 압축을 위해, 시간적으로 이전 및/또는 이후의 픽쳐로부터 현재 픽쳐에 포함된 픽셀 값을 예측하는 인터(inter) 예측 기술, 현재 픽쳐 내의 픽셀 정보를 이용하여 현재 픽쳐에 포함된 픽셀 값을 예측하는 인트라(intra) 예측 기술, 출현 빈도가 높은 심볼(symbol)에 짧은 코드를 할당하고 출현 빈도가 낮은 심볼에 긴 코드를 할당하는 엔트로피 부호화 기술 등이 사용될 수 있다.
영상 압축 기술에는 유동적인 네트워크 환경을 고려하지 않고 하드웨어의 제한적인 동작 환경하에서 일정한 네트워크 대역폭을 제공하는 기술이 있다. 그러나 수시로 대역폭이 변화하는 네트워크 환경에 적용되는 영상 데이터를 압축하기 위해서는 새로운 압축 기술이 요구되고, 이를 위해 스케일러블(scalable) 영상 부호화/복호화 방법이 사용될 수 있다.
한편, 3D 영상을 이용한 디지털 방송 서비스는, UDTV 서비스와 함께 HDTV에 이은 차세대 방송 서비스로 주목 받고 있으며, 고화질의 상용 3D 디스플레이의 출시 등과 같은 관련 기술의 발달을 바탕으로, 각 가정에서 3D 영상을 즐길 수 있는 3DTV 서비스가 수년 내에 제공될 수 있을 것으로 예상된다. 3D 영상을 제공하기 위해, 다시점(multiview) 영상 부호화/복호화 방법이 사용될 수 있다. 3D 비디오 서비스에서는, 공간적으로 분할된 디스플레이 패널(display panel)에 두 시점 (視點; view) 이상의 영상이 표시되며, 각각의 개별 시점의 영상들은 동시에 재생될 수 있다. 따라서, 사람의 두 눈에 각각 서로 다른 시점의 영상이 제공될 수 있고, 재생되는 영상들은 3차원 영상으로 인식될 수 있다.
본 발명의 기술적 과제는 공간, 시간, 화질 및 시점 스케일러빌리티를 지원하는 비디오 부호화 방법 및 장치를 제공함에 있다.
본 발명의 다른 기술적 과제는 공간, 시간, 화질 및 시점 스케일러빌리티를 지원하는 비디오 복호화 방법 및 장치를 제공함에 있다.
본 발명의 또 다른 기술적 과제는 공간, 시간, 화질 및 시점 스케일러빌리티를 지원하는 비디오 처리 시스템을 제공함에 있다.
본 발명의 일 실시 형태는 비디오 복호화 방법이다. 상기 방법은, 베이스 레이어 영상(base layer image)이 속한 시점(view)과 다른 시점에 속한 영상에 대응하는 제1 복호화 정보를 기반으로, 상기 베이스 레이어 영상에 대응하는 제1 비트스트림에 대해 복호화를 수행하는 단계 및 상기 베이스 레이어 영상에 대응하는 제2 복호화 정보, 및 인핸스먼트 레이어 영상(enhancement layer image)이 속한 시점과 다른 시점에 속한 영상에 대응하는 제3 복호화 정보를 기반으로, 상기 인핸스먼트 레이어 영상에 대응하는 제2 비트스트림에 대해 복호화를 수행하는 단계를 포함할 수 있다.
상기 베이스 레이어 영상 및 상기 인핸스먼트 레이어 영상은 서로 다른 공간(spatial) 해상도를 가질 수 있다.
상기 베이스 레이어 영상 및 상기 인핸스먼트 레이어 영상은 서로 다른 화질(quality) 해상도를 가질 수 있다.
상기 제1 복호화 정보, 상기 제2 복호화 정보 및 상기 제3 복호화 정보는 텍스쳐 정보, 움직임 정보, 잔차 신호 정보 및 복호화된 신호 정보 중에서 적어도 하나를 포함할 수 있다.
상기 방법은, 상기 제1 비트 스트림에 대응되는 제1 NAL 유닛(Network Absolute Layer unit) 및 상기 제2 비트 스트림에 대응되는 제2 NAL 유닛을 기반으로 다중화된, 단일 비트 스트림을 수신하는 단계 및 상기 단일 비트 스트림으로부터 상기 제1 비트 스트림 및 상기 제2 비트 스트림을 추출하는 단계를 더 포함할 수 있다.
상기 제1 NAL 유닛에 대응되는 제1 NAL 유닛 헤더는, 제1 공간 식별자(spatial identifier), 제1 시간 식별자(temporal identifier), 제1 화질 식별자(quality identifier) 및 제1 시점 식별자(view identifier) 중에서 적어도 하나를 포함할 수 있고, 상기 제2 NAL 유닛에 대응되는 제2 NAL 유닛 헤더는, 제2 공간 식별자, 제2 시간 식별자, 제2 화질 식별자 및 제2 시점 식별자 중에서 적어도 하나를 포함할 수 있다. 이 때, 상기 제1 공간 식별자, 상기 제1 시간 식별자, 상기 제1 화질 식별자 및 상기 제1 시점 식별자는, 각각 상기 베이스 레이어 영상에 대응되는 공간 해상도, 시간 해상도, 화질 해상도 및 시점 해상도를 지시할 수 있고, 상기 제2 공간 식별자, 상기 제2 시간 식별자, 상기 제2 화질 식별자 및 상기 제2 시점 식별자는, 각각 상기 인핸스먼트 레이어 영상에 대응되는 공간 해상도, 시간 해상도, 화질 해상도 및 시점 해상도를 지시할 수 있다.
상기 추출하는 단계에서는, 상기 제1 NAL 유닛 헤더에 포함된 정보를 기반으로 상기 제1 비트 스트림을 추출할 수 있고, 상기 제2 NAL 유닛 헤더에 포함된 정보를 기반으로 상기 제2 비트 스트림을 추출할 수 있다.
상기 제1 비트스트림에 대해 복호화를 수행하는 단계에서는, 상기 제1 복호화 정보를 기반으로, 상기 베이스 레이어 영상에 대해 시점 간 예측(inter-view prediction)을 수행할 수 있다.
상기 제2 비트스트림에 대해 복호화를 수행하는 단계에서는, 상기 제2 복호화 정보를 기반으로, 상기 인핸스먼트 레이어 영상에 대해 인터 레이어 텍스쳐 예측(inter layer texture prediction), 인터 레이어 움직임 정보 예측(inter layer motion information prediction) 및 인터 레이어 잔차 신호 예측(inter layer residual signal prediction) 중에서 적어도 하나를 수행할 수 있다.
상기 제2 비트스트림에 대해 복호화를 수행하는 단계에서는, 상기 제3 복호화 정보를 기반으로, 상기 인핸스먼트 레이어 영상에 대해 시점 간 예측(inter-view prediction)을 수행할 수 있다.
본 발명의 또 다른 실시 형태는 비디오 부호화 방법이다. 상기 방법은, 베이스 레이어 영상(base layer image)이 속한 시점(view)과 다른 시점에 속한 영상에 대응하는 제1 부호화 정보를 기반으로, 상기 베이스 레이어 영상에 대해 부호화를 수행함으로써 상기 베이스 레이어 영상에 대응하는 제1 비트스트림을 생성하는 단계 및 상기 베이스 레이어 영상에 대응하는 제2 부호화 정보, 및 인핸스먼트 레이어 영상(enhancement layer image)이 속한 시점과 다른 시점에 속한 영상에 대응하는 제3 부호화 정보를 기반으로, 상기 인핸스먼트 레이어 영상에 대해 부호화를 수행함으로써 상기 인핸스먼트 레이어 영상에 대응하는 제2 비트스트림을 생성하는 단계를 포함할 수 있다.
상기 베이스 레이어 영상 및 상기 인핸스먼트 레이어 영상은 서로 다른 공간(spatial) 해상도를 가질 수 있다.
상기 베이스 레이어 영상 및 상기 인핸스먼트 레이어 영상은 서로 다른 화질(quality) 해상도를 가질 수 있다.
상기 제1 부호화 정보, 상기 제2 부호화 정보 및 상기 제3 부호화 정보는 텍스쳐 정보, 움직임 정보, 잔차 신호 정보 및 부호화된 신호 정보 중에서 적어도 하나를 포함할 수 있다.
상기 방법은, 상기 제1 비트스트림 및 상기 제2 비트스트림을 기반으로 다중화를 수행함으로써 단일 비트 스트림을 생성하는 단계를 더 포함할 수 있다.
상기 베이스 레이어 영상에 대해 부호화를 수행하는 단계에서는, 상기 제1 부호화 정보를 기반으로, 상기 베이스 레이어 영상에 대해 시점 간 예측(inter-view prediction)을 수행할 수 있다.
상기 인핸스먼트 레이어 영상에 대해 부호화를 수행하는 단계에서는, 상기 제2 부호화 정보를 기반으로, 상기 인핸스먼트 레이어 영상에 대해 인터 레이어 텍스쳐 예측(inter layer texture prediction), 인터 레이어 움직임 정보 예측(inter layer motion information prediction) 및 인터 레이어 잔차 신호 예측(inter layer residual signal prediction) 중에서 적어도 하나를 수행할 수 있다.
상기 인핸스먼트 레이어 영상에 대해 부호화를 수행하는 단계에서는, 상기 제3 부호화 정보를 기반으로, 상기 인핸스먼트 레이어 영상에 대해 시점 간 예측(inter-view prediction)을 수행할 수 있다.
본 발명에 따른 비디오 부호화 방법은 공간, 시간, 화질 및 시점 스케일러빌리티를 지원할 수 있다.
본 발명에 따른 비디오 복호화 방법은 공간, 시간, 화질 및 시점 스케일러빌리티를 지원할 수 있다.
본 발명에 따른 비디오 처리 시스템은 공간, 시간, 화질 및 시점 스케일러빌리티를 지원할 수 있다.
도 1은 영상 부호화 장치의 일 실시예에 따른 기본 구성을 나타내는 블록도이다.
도 2는 영상 복호화 장치의 일 실시예에 따른 기본 구성을 나타내는 블록도이다.
도 3은 본 발명이 적용될 수 있는, 복수 레이어를 이용한 스케일러블 비디오 코딩 구조의 일 실시예를 개략적으로 나타내는 도면이다.
도 4는 다시점 영상 부호화/복호화 과정에서의 예측 방법의 실시예를 개략적으로 나타내는 개념도이다.
도 5는 본 발명에 따라 영상 부호화 및 복호화를 수행하는 시스템의 일 실시예를 개략적으로 나타내는 블록도이다.
도 6은 2개의 공간적 해상도 및 N개의 시점에 대응되는 스케일러빌리티 지원을 위한 영상 부호화 방법의 일 실시예를 개략적으로 나타내는 흐름도이다.
도 7은 2개의 화질적 해상도 및 N개의 시점에 대응되는 스케일러빌리티 지원을 위한 영상 부호화 방법의 일 실시예를 개략적으로 나타내는 흐름도이다.
도 8은 2개의 공간적 해상도, 2개의 화질적 해상도 및 N개의 시점에 대응되는 스케일러빌리티 지원을 위한 영상 부호화 방법의 일 실시예를 개략적으로 나타내는 흐름도이다.
도 9는 본 발명에 따라 2개의 공간적 해상도 및 2개의 시점에 대응되는 스케일러빌리티를 지원하는 비디오 부호화기 구조의 일 실시예를 개략적으로 나타내는 블록도이다.
이하, 도면을 참조하여 본 발명의 실시예에 대하여 구체적으로 설명한다. 본 명세서의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우에는 해당 설명을 생략할 수도 있다.
본 명세서에서 어떤 구성 요소가 다른 구성 요소에 “연결되어” 있다거나 “접속되어” 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있는 것을 의미할 수도 있고, 중간에 다른 구성 요소가 존재하는 것을 의미할 수도 있다. 아울러, 본 명세서에서 특정 구성을 “포함”한다고 기술하는 내용은 해당 구성 이외의 구성을 배제하는 것이 아니며, 추가적인 구성이 본 발명의 실시 또는 본 발명의 기술적 사상의 범위에 포함될 수 있음을 의미한다.
제1, 제2 등의 용어는 다양한 구성들을 설명하는데 사용될 수 있지만, 상기 구성들은 상기 용어에 의해 한정되지 않는다. 상기 용어들은 하나의 구성을 다른 구성으로부터 구별하는 목적으로 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성은 제2 구성으로 명명될 수 있고, 유사하게 제2 구성도 제1 구성으로 명명될 수 있다.
또한 본 발명의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성 단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 포함한 것으로 각 구성부 중 적어도 두 개의 구성부가 하나의 구성부를 이루거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있다. 각 구성부의 통합된 실시예 및 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리 범위에 포함된다.

도 1은 영상 부호화 장치의 일 실시예에 따른 기본 구성을 나타내는 블록도이다.
스케일러블(scalable) 비디오 부호화/복호화 방법 또는 장치는 스케일러빌리티(scalability)를 제공하지 않는 일반적인 영상 부호화/복호화 방법 또는 장치의 확장(extension)에 의해 구현될 수 있다. 또한, 3D 비디오 부호화/복호화 과정에서는 각각의 시점에 대응되는 영상에 대해 영상 부호화/복호화 과정이 수행될 수 있다. 도 1의 블록도는 스케일러블 비디오 부호화 장치 및 3D 비디오 부호화 장치의 기초가 될 수 있는 영상 부호화 장치의 일 실시예를 나타낸다.
도 1을 참조하면, 영상 부호화 장치(100)는 인터 예측부(110), 인트라 예측부(120), 스위치(125), 감산기(130), 변환부(135), 양자화부(140), 엔트로피 부호화부(150), 역양자화부(160), 역변환부(170), 가산기(175), 필터부(180) 및 픽쳐 버퍼(190)를 포함할 수 있다.
영상 부호화 장치(100)는 입력 영상에 대해 인트라(intra) 모드 또는 인터(inter) 모드로 부호화를 수행하고 비트스트림(bitstream)을 출력할 수 있다. 인트라 모드인 경우 스위치(125)가 인트라로 전환되고, 인터 모드인 경우 스위치(125)가 인터로 전환된다. 영상 부호화 장치(100)는 입력 영상의 입력 블록에 대한 예측 블록을 생성한 후, 입력 블록과 예측 블록의 차분을 부호화할 수 있다.
인트라 모드인 경우, 인트라 예측부(120)는 현재 블록 주변의 이미 부호화된 블록의 픽셀 값을 이용하여 공간적 예측을 수행하여 예측 블록을 생성할 수 있다. 인터 모드인 경우, 인터 예측부(110)는, 움직임 예측 과정에서 픽쳐 버퍼(190)에 저장되어 있는 참조 영상에서 입력 블록에 대응하는 영역을 찾아 움직임 벡터를 구할 수 있다. 인터 예측부(110)는 움직임 벡터와 픽쳐 버퍼(190)에 저장되어 있는 참조 영상을 이용하여 움직임 보상을 수행함으로써 예측 블록을 생성할 수 있다. 이 때, 예측이 수행되는 처리 단위와 예측 방법 및 구체적인 내용이 정해지는 처리 단위는 서로 다를 수 있다. 예컨대, PU 단위로 예측 모드가 정해져서 TU 단위로 예측이 수행될 수도 있고, PU 단위로 예측 모드가 정해지고 TU 단위로 예측이 수행될 수도 있다.
감산기(130)는 입력 블록과 생성된 예측 블록의 차분에 의해 잔차 블록(residual block)을 생성할 수 있다. 변환부(135)는 잔차 블록에 대해 변환(transform)을 수행하여 변환 계수(transform coefficient)를 출력할 수 있다. 그리고 양자화부(140)는 입력된 변환 계수를 양자화 파라미터에 따라 양자화하여 양자화된 계수(quantized coefficient)를 출력할 수 있다.
엔트로피 부호화부(150)는, 양자화부(140)에서 산출된 값들 또는 부호화 과정에서 산출된 부호화 파라미터 값 등을 기초로, 양자화된 계수를 확률 분포에 따라 엔트로피 부호화하여 비트스트림(bitstream)을 출력할 수 있다.
양자화된 계수는 역양자화부(160)에서 역양자화되고 역변환부(170)에서 역변환될 수 있다. 역양자화, 역변환된 계수는 가산기(175)를 통해 예측 블록과 더해지고 복원 블록이 생성될 수 있다.
복원 블록은 필터부(180)를 거치고, 필터부(180)는 디블록킹 필터(deblocking filter), SAO(Sample Adaptive Offset), ALF(Adaptive Loop Filter) 중 적어도 하나 이상을 복원 블록 또는 복원 픽쳐에 적용할 수 있다. 필터부(180)를 거친 복원 블록은 픽쳐 버퍼(190)에 저장될 수 있다.

도 2는 영상 복호화 장치의 일 실시예에 따른 기본 구성을 나타내는 블록도이다.
도 1에서 상술한 바와 같이 스케일러블(scalable) 비디오 부호화/복호화 방법 또는 장치는 스케일러빌리티(scalability)를 제공하지 않는 일반적인 영상 부호화/복호화 방법 또는 장치의 확장(extension)에 의해 구현될 수 있다. 또한, 3D 비디오 부호화/복호화 과정에서는 각각의 시점에 대응되는 영상에 대해 영상 부호화/복호화 과정이 수행될 수 있다. 도 2의 블록도는 스케일러블 비디오 복호화 장치 및 3D 비디오 복호화 장치의 기초가 될 수 있는 영상 복호화 장치의 일 실시예를 나타낸다.
도 2를 참조하면, 영상 복호화 장치(200)는 엔트로피 복호화부(210), 역양자화부(220), 역변환부(230), 인트라 예측부(240), 인터 예측부(250), 필터부(260) 및 픽쳐 버퍼(270)를 포함할 수 있다.
영상 복호화 장치(200)는 부호화 장치에서 출력된 비트스트림을 입력 받아 인트라 모드 또는 인터 모드로 복호화를 수행하고 재구성된 영상, 즉 복원 영상을 출력할 수 있다. 인트라 모드인 경우 스위치가 인트라로 전환되고, 인터 모드인 경우 스위치가 인터로 전환될 수 있다.
영상 복호화 장치(200)는 입력 받은 비트스트림으로부터 복원된 잔차 블록(residual block)을 얻고 예측 블록을 생성한 후 복원된 잔차 블록과 예측 블록을 더하여 재구성된 블록, 즉 복원 블록을 생성할 수 있다.
엔트로피 복호화부(210)는, 입력된 비트스트림을 확률 분포에 따라 엔트로피 복호화한다. 엔트로피 복호화에 의해, 양자화된 (변환) 계수가 생성될 수 있다.
양자화된 계수는 역양자화부(220)에서 역양자화되고 역변환부(230)에서 역변환되며, 양자화된 계수가 역양자화/역변환된 결과, 복원된 잔차 블록(residual block)이 생성될 수 있다.
인트라 모드인 경우, 인트라 예측부(240)는 현재 블록 주변의 이미 부호화된 블록의 픽셀값을 이용하여 공간적 예측을 수행하여 예측 블록을 생성할 수 있다. 인터 모드인 경우, 인터 예측부(250)는 움직임 벡터 및 픽쳐 버퍼(270)에 저장되어 있는 참조 영상을 이용하여 움직임 보상을 수행함으로써 예측 블록을 생성할 수 있다. 이 때, 예측이 수행되는 처리 단위와 예측 방법 및 구체적인 내용이 정해지는 처리 단위는 서로 다를 수 있다. 예컨대, PU 단위로 예측 모드가 정해져서 TU 단위로 예측이 수행될 수도 있고, PU 단위로 예측 모드가 정해지고 TU 단위로 예측이 수행될 수도 있다.
복원된 잔차 블록과 예측 블록은 가산기(255)를 통해 더해지고, 더해진 블록은 필터부(260)를 거친다. 필터부(260)는 디블록킹 필터, SAO, ALF 중 적어도 하나를 복원 블록 또는 복원 픽쳐에 적용할 수 있다. 필터부(260)는 재구성된 영상, 즉 복원 영상을 출력할 수 있다. 복원 영상은 픽쳐 버퍼(270)에 저장되어 인터 예측에 사용될 수 있다.
이하, 블록은 영상 부호화 및 복호화의 단위를 의미한다. 영상 부호화 및 복호화 시 부호화 혹은 복호화 단위는, 하나의 영상을 세분화된 유닛으로 분할하여 부호화 혹은 복호화 할 때 그 분할된 단위를 말하므로, 매크로 블록, 부호화 유닛 (CU: Coding Unit), 예측 유닛 (PU: Prediction Unit), 변환 유닛(TU: Transform Unit), 변환 블록(transform block) 등으로 불릴 수 있다. 따라서, 본 명세서에서 블록(및/또는 부호화/복호화 대상 블록)이라 함은, 상기 블록(및/또는 부호화/복호화 대상 블록)에 대응하는 부호화 유닛, 예측 유닛 및/또는 변환 유닛을 의미할 수 있다. 이러한 구분은 해당 기술 분야에서 통상의 지식을 가진 자라면 용이하게 할 수 있을 것이다.

한편, 통신 및 영상 기술의 발달에 따라서, 영상 정보를 이용하는 다양한 기기가 서로 다른 성능을 가지고 이용되고 있다. 핸드폰과 같은 기기들은 비교적 낮은 해상도의 동영상을 비트 스트림 기반으로 재생하기도 한다. 이에 비하여, PC(Personal Computer)와 같은 기기들은 비교적 높은 해상도의 동영상을 재생할 수 있다.
따라서, 다양한 성능의 기기들에 최적의 동영상 서비스를 제공하기 위한 방법이 고려될 필요가 있다. 이에 대한 해법 중 하나가 스케일러블 비디오 코딩(Scalable Video Coding: SVC, 이하, ‘SVC’라 함)이다.

도 3은 본 발명이 적용될 수 있는, 복수 레이어를 이용한 스케일러블 비디오 코딩 구조의 일 실시예를 개략적으로 나타내는 도면이다. 도 3에서 GOP(Group of Picture)는 픽쳐의 그룹을 나타낸다.
영상 데이터를 전송하기 위해서는 전송 매체가 필요하며, 그 성능은 다양한 네트워크 환경에 따라 전송 매체별로 차이가 있다. 이러한 다양한 전송 매체 또는 네트워크 환경에의 적용을 위해 스케일러블 비디오 코딩 방법이 제공될 수 있다.
스케일러블 비디오 코딩 방법(Scalable Video Coding: SVC, 이하 ‘SVC’라 함)은 레이어(layer) 간의 텍스쳐 정보, 움직임 정보, 잔차 신호 등을 활용하여 레이어 간의 중복성을 제거하여 부호화/복호화 성능을 높이는 코딩 방법이다. 예를 들어, 스케일러블 비디오 부호화/복호화 과정에서는 레이어 간의 중복성을 제거하여 부호화/복호화 효율을 향상시키기 위해, 인터 레이어 텍스쳐 예측(inter layer texture prediction), 인터 레이어 움직임 정보 예측(inter layer motion information prediction) 및/또는 인터 레이어 잔차 신호 예측(inter layer residual signal prediction) 등이 적용될 수 있다. SVC는, 전송 비트율, 전송 에러율, 시스템 자원 등의 주변 조건에 따라, 공간적, 시간적, 화질적 관점에서 다양한 스케일러빌리티를 제공할 수 있다.
SVC는, 다양한 네트워크 상황에 적용 가능한 비트스트림을 제공할 수 있도록, 복수 레이어(multiple layers) 구조를 사용할 수 있다. 예를 들어 SVC는, 일반적인 영상 부호화 방법을 이용하여 영상 정보를 처리하는 베이스 레이어(base layer)와 함께, 베이스 레이어의 부호화 정보 및 일반적인 영상 부호화 방법을 함께 사용하여 영상 정보를 처리하는 인핸스먼트 레이어(enhancement layer)를 포함할 수 있다.
레이어 구조는 복수의 공간 레이어, 복수의 시간 레이어, 복수의 화질 레이어 등을 포함할 수 있다. 서로 다른 공간 레이어에 포함된 영상들은 서로 다른 공간적 해상도를 가질 수 있으며, 서로 다른 시간 레이어에 포함된 영상들은 서로 다른 시간적 해상도(프레임율)를 가질 수 있다. 또한 서로 다른 화질 레이어에 포함된 영상들은 서로 다른 화질, 예를 들어 서로 다른 SNR(Signal-to-Noise Ratio) 및/또는 서로 다른 QP(Quantization Parameter) 값을 가질 수 있다.
여기서, 레이어(layer)는 공간(예를 들어, 영상 크기), 시간(예를 들어, 부호화 순서, 영상 출력 순서), 화질, 복잡도 등을 기준으로 구분되는 영상 및/또는 비트스트림(bitstream)의 집합을 의미할 수 있다. 또한, 복수의 레이어들은 서로 간에 종속성을 가질 수도 있다.
도 3을 참조하면, 상술한 바와 같이, SVC 구조는 복수의 레이어를 포함할 수 있다. 도 3에서는 각 레이어의 픽쳐들이 POC(Picture Order Count)에 따라 배열되어 있는 예를 보여준다. 각 레이어, 즉 베이스 레이어와 인핸스먼트 레이어들은 서로 다른 비트율, 해상도, 크기 등의 특성을 가질 수 있다. 베이스 레이어에 대한 비트스트림은 기본적인 영상 정보를 포함할 수 있고, 인핸스먼트 레이어에 대한 비트스트림은 베이스 레이어의 품질(정확도, 크기 및/또는 프레임 레이트(frame rate) 등)이 더 향상된 영상에 대한 정보를 포함할 수 있다.
따라서, 각 레이어는 서로 다른 특성을 고려하여 부호화/복호화될 수 있다. 예컨대, 도 1의 부호화 장치 및 도 2의 복호화 장치가 각 레이어 별로 해당 레이어의 픽쳐를 도 1 및 도 2에서 상술한 바와 같이 부호화하고 복호화할 있다.
또한, 각 레이어의 픽쳐는 다른 레이어의 정보를 이용하여 부호화/복호화될 수도 있다. 예컨대, 각 레이어의 픽쳐는 다른 레이어의 정보를 이용한 인터 레이어 예측(inter layer prediction)을 통해 부호화되고 복호화될 수 있다. 따라서, SVC 구조에 있어서, 도1와 도 2에서 설명한 부호화 장치 및 복호화 장치의 예측부는 다른 레이어, 즉 참조 레이어(reference layer)의 정보를 이용한 예측을 수행할 수 있다. 부호화 장치 및 복호화 장치의 예측부는 다른 레이어의 정보를 이용하여 인터 레이어 텍스쳐(texture) 예측, 인터 레이어 움직임 정보 예측, 인터 레이어 잔차 신호(residual) 예측 등을 수행할 수 있다.
인터 레이어 텍스쳐 예측에서는 다른 레이어의 텍스쳐 정보를 기반으로 현재 레이어(부호화 또는 복호화 대상 레이어)의 텍스쳐가 예측될 수 있다. 인터 레이어 움직임 정보 예측에서는 다른 레이어의 움직임 정보(움직임 벡터, 참조 픽쳐 등)를 기반으로 현재 레이어의 움직임 정보가 예측될 수 있다. 인터 레이어 잔차 신호 예측에서는 다른 레이어의 잔차 신호를 기반으로 현재 레이어의 잔차 신호가 예측될 수 있다.
SVC에서는 다른 레이어의 정보를 이용하여 현재 레이어가 부호화되고 복호화되므로, 레이어 간의 중복된 정보를 처리하는 복잡도가 감소될 수 있으며, 중복된 정보를 전송하는 오버헤드가 감소될 수도 있다.

도 4는 다시점 영상 부호화/복호화 과정에서의 예측 방법의 실시예를 개략적으로 나타내는 개념도이다.
3D 영상에서는, 동일한 장면이 두 대 이상의 카메라를 이용하여 동시에 촬영될 수 있으므로, 복수의 시점(視點; view)이 존재할 수 있다. 여기서, 하나의 시점은, 하나의 카메라로부터 획득된 영상의 시점을 의미할 수 있다. 도 4의 실시예에서 T0 내지 T8은 시간을 나타낸다.
도 4의 실시예를 참조하면, 시점 0(view 0), 시점 1(view 1), 시점 2(view 2) 이렇게 3개 시점의 영상이 제공될 수 있다. 시점의 수는 세 개에 한정되는 것이 아니고, 2개 또는 4개 이상의 시점이 존재할 수도 있다. 부호화/복호화 대상 시점 내의 다른 영상으로부터의 예측은 시간적 예측(temporal prediction), 다른 시점 내의 영상으로부터의 예측은 시점 간 예측(inter-view prediction)이라 할 수 있다. 여기서, 부호화/복호화 대상 시점은 현재 부호화/복호화 대상 영상을 포함하는 시점을 의미할 수 있다. 또한 다른 시점은 부호화/복호화 대상 시점을 제외한 시점으로서, 부호화/복호화 대상 시점에서 이용 가능한 시점을 의미할 수 있다.
도 4의 실시예를 참조하면, 다시점 영상에서는, 여러 시점에서 획득된 영상들이 부호화/복호화에 사용될 수 있으므로, 현재 예측 대상 블록에 대한 부호화/복호화를 수행함에 있어 시점 간 예측과 시간적 예측이 함께 사용될 수 있다. 다시점 영상 부호화/복호화에서는, 시간적 예측을 통해 시간적 중복성을 제거하고 시점 간 예측을 통해 시점 간의 영상 내 중복성을 제거함으로써, 부호화/복호화 효율이 향상될 수 있다. 즉, 다시점 영상에서는, 시간적 스케일러빌리티 및 시점 스케일러빌리티가 제공될 수 있다. 다시점 영상에서의 시간적 스케일러빌리티 및 시점 스케일러빌리티는 도 4의 실시예에 도시된 바와 같이, 계층적 B 구조(hierarchical B 구조)를 기반으로 구현될 수 있다. 이하, 본 명세서에서 부호화/복호화를 위한 코딩 구조는 계층적 B 구조에 해당된다고 가정한다.

한편, 도 3에서 상술한 스케일러블 비디오 코딩 방법은 공간적, 시간적 및 화질적 스케일러빌리티를 동시에 또는 각각 제공할 수 있다. 또한, 도 4에서 상술한 3D 비디오 코딩 방법은 시간적 및 시점 스케일러빌리티를 제공할 수 있다. 그러나, 도 4의 실시예에 따른 시점 스케일러빌리티는 도 3의 실시예에 따른 공간적, 시간적 및 화질적 스케일러빌리티와는 독립적으로 제공되므로, 도 3의 실시예에서 제공되는 공간적 및 화질적 스케일러빌리티와 결합되어 사용되기 어려운 구조를 가질 수 있다. 따라서, 3D 비디오 서비스 제공 시에는 단말의 사양에 따라 공간적 해상도 및 화질적 해상도를 변경하기 위해, 트랜스코딩(transcoding) 및/또는 별도의 부호화/복호화 과정이 수행되어야 하는 문제점이 발생할 수 있다.
따라서, 3D 비디오 서비스 제공 시에 하나의 통합된 부호화 과정 및/또는 하나의 통합된 복호화 과정을 통해, 단말의 사양에 따라 서로 다른 공간적, 시간적, 화질적 해상도를 제공함과 동시에 복수의 시점 중에서 3D 영상 생성에 필요한 시점을 선택적으로 제공할 수 있는 영상 부호화/복호화 방법이 요구된다. 이를 위해, 시간적, 화질적 및 시점 스케일러빌리티를 동시에 지원하거나 또는 공간적, 시간적, 화질적 및 시점 스케일러빌리티를 동시에 지원할 수 있는 영상 부호화/복호화 방법이 제공될 수 있다.

도 5는 본 발명에 따라 영상 부호화 및 복호화를 수행하는 시스템의 일 실시예를 개략적으로 나타내는 블록도이다. 본 발명에 따른 시스템은 부호화기(510), 비트스트림 추출기(520) 및 복호화기(530)를 포함할 수 있다.
도 5를 참조하면, 부호화기(510)는 N개의 카메라에서 동시에 획득된 N개의 영상이 입력될 수 있다(N은 자연수). 이 때, 상기 N개의 카메라는 서로 다른 시점을 가질 수 있으므로, 상기 N개의 영상은 서로 다른 시점에서 획득된 영상에 해당될 수 있다. 도 5의 실시예에서 상기 N개의 영상은 제1 시점 영상, 제2 시점 영상, … , 제N-1 시점 영상 및 제N 시점 영상이라 한다. 예를 들어, 상기 N개의 영상은 A1xA2(예를 들어, HD의 경우 1920x1080)의 공간 해상도 및 30 fps(frame/sec)의 시간 해상도를 가질 수 있다.
도 5의 부호화기(510)는 공간적, 시간적, 화질적 및 시점 스케일러빌리티를 지원할 수 있다. 따라서, 부호화기(510)는 서로 다른 시점을 갖는 N개의 영상을 입력 받아 부호화된 한 개의 비트 스트림을 출력할 수 있다. 또한, 부호화기(510)는 부호화 과정에서 생성된 공간, 시간, 화질 및 시점 레이어에 관한 정보를 부호화한 후, 부호화된 정보를 비트 스트림에 포함시켜 전송할 수 있다. 여기서, 일례로 상기 정보는 3D 영상 생성에 필요한 공간적, 시간적, 화질적 및/또는 시점 해상도에 대응되는 최상위 레이어를 지시하는 정보일 수 있다.
도 5의 비트 스트림 추출기(520)는 공간적, 시간적, 화질적 및 시점 스케일러빌리티를 지원할 수 있다. 따라서, 비트 스트림 추출기(520)는 부호화기(510)로부터 전송된 비트 스트림을 입력 받은 후, 3D 영상 생성에 필요한 공간 해상도, 시간 해상도, 화질 해상도 및 시점 수에 대응되는 최상위 레이어를 포함하는 비트 스트림을 출력할 수 있다. 이 때, 일례로 상기 공간 해상도는 A1xA2, 상기 시간 해상도는 B fps, 상기 화질 해상도는 C, 상기 시점 수는 D개일 수 있다. 여기서, A1, A2, B 및 C는 임의의 수에 해당될 수 있으며, D는 임의의 자연수를 나타낼 수 있다. 이 때, 비트 스트림 추출기(520)는 부호화기(510)로부터 전송된, 공간, 시간, 화질 및 시점 레이어에 관한 정보를 이용할 수 있다.
비트 스트림 추출기(520)에서 출력된 비트 스트림은 복호화기(530)를 통해 복호화될 수 있다. 도 5에 도시된 복호화기(530)는 공간적, 시간적, 화질적 및 시점 스케일러빌리티를 지원할 수 있다. 따라서, 복호화기(530)는 비트 스트림 추출기(520)에서 출력된 비트 스트림을 복호화함으로써, 각각 A1xA2의 공간 해상도, B fps의 시간 해상도 및 C의 화질 해상도를 갖는 D개의 복호화된 영상을 출력할 수 있다. 상기 D개의 복호화된 영상은 서로 다른 시점을 가질 수 있고, YUV 형태의 신호에 해당될 수 있다. 또한, 복호화기(530)에서 출력된 D개의 영상 각각은 1개의 부분 비트 스트림에 대응될 수 있다. 즉, 복호화기(530)로 입력되는 비트 스트림은 D개의 부분 비트 스트림으로 구성될 수 있다.
도 5의 실시예에서, 상기 D개의 영상은 각각 제1 시점 출력 영상, 제2 시점 출력 영상, …, 제D 시점 출력 영상으로 표시된다. 이 때, 서로 다른 시점을 갖는 D개의 영상은 각각 A1xA2의 공간 해상도, B fps의 시간 해상도 및 C의 화질 해상도를 가질 수 있다.

도 6은 2개의 공간적 해상도 및 N개의 시점에 대응되는 스케일러빌리티 지원을 위한 영상 부호화 방법의 일 실시예를 개략적으로 나타내는 흐름도이다. 여기서, N은 2 이상의 자연수를 의미할 수 있다.
시간적 스케일러빌리티 및 시점 스케일러빌리티는 계층적 B 구조(hierarchical B 구조)를 기반으로 구현될 수 있다. 계층적 B 구조를 기반으로 한 시간적 스케일러빌리티 및 시점 스케일러빌리티 제공 방법은 도 4에서 상술한 바 있으므로, 도 6에서는 이에 대한 구체적인 설명은 생략하기로 한다.
도 6의 실시예에서는 서로 다른 시점에서 획득된 N개의 영상이 부호화될 수 있다. 도 6의 실시예에서는 상기 N개의 영상을 각각 제1 시점 영상, 제2 시점 영상, …, 제N 시점 영상이라 한다. 후술되는 실시예에서 방법들은 일련의 단계로서 순서도를 기초로 설명되지만, 본 발명은 단계들의 순서에 한정되는 것을 아니며, 어떤 단계는 후술되는 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다.
또한, 도 6의 실시예는 공간적 레이어가 두 개인 경우에 대해 서술되지만, 본 발명은 이에 한정되는 것은 아니다. 후술되는 실시예들은 공간적 레이어가 두 개 이상인 경우에도 부호화 과정에 동일하거나 유사한 방식으로 적용될 수 있다.
도 6을 참조하면, 부호화기는 부호화하고자 하는 베이스 레이어의 해상도에 맞도록 제1 시점 영상에 대한 다운 컨버팅(down converting)을 수행할 수 있다(S610). 부호화기는 제1 시점 영상에 대한 다운 컨버팅을 수행함으로써, 제1 시점 영상에 대응되는 베이스 레이어 영상을 생성할 수 있다. 이하, 도 6의 실시예에서 제1 시점 영상에 대응되는 베이스 레이어 영상은 제1 베이스 레이어 영상이라 한다.
제1 베이스 레이어 영상이 생성되면, 부호화기는 제1 베이스 레이어 영상에 대해, 도 1에 도시된 실시예에서와 같이 부호화를 수행할 수 있다(S640). 이 때, 부호화기는 부호화 과정에서 제1 베이스 레이어 영상 내에서의 공간적(spatial) 중복성 및/또는 시간적(temporal) 중복성을 제거하기 위해, 도 1에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다.
그리고, 부호화기는 제1 시점 영상을 기반으로, 상기 제1 시점 영상에 대응되는 인핸스먼트 레이어 영상(이하, ‘제1 인핸스먼트 레이어 영상’이라 함)에 대해 부호화를 수행할 수 있다(S670). 이 때, 부호화기는 제1 베이스 레이어 영상에서와 마찬가지로, 부호화 과정에서 제1 인핸스먼트 레이어 영상 내에서의 공간적(spatial) 중복성 및/또는 시간적(temporal) 중복성을 제거하기 위해, 도 1에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다.
또한, 제1 인핸스먼트 레이어 영상을 부호화함에 있어, 부호화기는 제1 인핸스먼 레이어 및 하위 레이어(예를 들어, 제1 베이스 레이어) 간의 중복성을 제거하기 위해, 하위 공간적 레이어(예를 들어, 제1 베이스 레이어)의 부호화 관련 정보를 이용할 수 있다. 여기서, 하위 공간적 레이어의 부호화 관련 정보에는 인트라 관련 정보(예를 들어, 텍스쳐 정보), 인터 관련 정보(예를 들어, 움직임 정보), 잔차 신호 정보 및 복호화된 신호 정보 등이 있을 수 있다. 이 때, 부호화기는 레이어 간의 중복성을 제거하기 위해, 하위 공간적 레이어의 부호화 관련 정보를 기반으로 인터 레이어 텍스쳐 예측, 인터 레이어 움직임 정보 예측 및/또는 인터 레이어 잔차 신호 예측 등을 수행할 수 있다.
다시 도 6을 참조하면, 부호화기는 부호화하고자 하는 베이스 레이어의 해상도에 맞도록 제2 시점 영상에 대한 다운 컨버팅을 수행할 수 있다(S620). 부호화기는 제2 시점 영상에 대한 다운 컨버팅을 수행함으로써, 제2 시점 영상에 대응되는 베이스 레이어 영상을 생성할 수 있다. 이하, 도 6의 실시예에서 제2 시점 영상에 대응되는 베이스 레이어 영상은 제2 베이스 레이어 영상이라 한다.
제2 베이스 레이어 영상이 생성되면, 부호화기는 제2 베이스 레이어 영상에 대해 부호화를 수행할 수 있다(S650). 이 때, 부호화기는 제1 베이스 레이어 영상에서와 마찬가지로, 부호화 과정에서 제2 베이스 레이어 영상 내에서의 공간적(spatial) 중복성 및/또는 시간적(temporal) 중복성을 제거하기 위해, 도 1에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다.
또한, 제2 베이스 레이어 영상을 부호화함에 있어, 부호화기는 제2 베이스 레이어 영상 및 제1 베이스 레이어 영상(상기 제2 베이스 레이어 영상의 시점과 다른 시점을 갖는 영상) 간의 중복성을 제거하기 위해, 제1 베이스 레이어 영상의 부호화 관련 정보를 이용할 수 있다. 여기서, 제1 베이스 레이어의 부호화 관련 정보에는 인트라 관련 정보, 인터 관련 정보, 잔차 신호 정보 및 복호화된 신호 정보 등이 있을 수 있다. 이 때, 부호화기는 제1 베이스 레이어의 부호화 관련 정보를 기반으로 제2 베이스 레이어 영상에 속한 픽쳐, 블록 및/또는 기타 부호화 관련 정보에 대해 시점 간 예측(inter-view prediction)을 수행함으로써, 시점 간의 중복성을 제거할 수 있다.
그리고, 부호화기는 제2 시점 영상을 기반으로, 상기 제2 시점 영상에 대응되는 인핸스먼트 레이어 영상(이하, ‘제2 인핸스먼트 레이어 영상’이라 함)에 대해 부호화를 수행할 수 있다(S680). 이 때, 부호화기는 제2 베이스 레이어 영상에서와 마찬가지로, 부호화 과정에서 제2 인핸스먼트 레이어 영상에서의 공간적 중복성 및/또는 시간적 중복성을 제거하기 위해, 도 1에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다.
또한, 제2 인핸스먼트 레이어 영상을 부호화함에 있어, 부호화기는 제2 인핸스먼 레이어 및 하위 레이어(예를 들어, 제2 베이스 레이어) 간의 중복성을 제거하기 위해, 하위 공간적 레이어(예를 들어, 제2 베이스 레이어)의 부호화 관련 정보를 이용할 수 있다. 여기서, 하위 공간적 레이어의 부호화 관련 정보에는 인트라 관련 정보(예를 들어, 텍스쳐 정보), 인터 관련 정보(예를 들어, 움직임 정보), 잔차 신호 정보 및 복호화된 신호 정보 등이 있을 수 있다. 이 때, 부호화기는 레이어 간의 중복성을 제거하기 위해, 하위 공간적 레이어의 부호화 관련 정보를 기반으로 인터 레이어 텍스쳐 예측, 인터 레이어 움직임 정보 예측 및/또는 인터 레이어 잔차 신호 예측 등을 수행할 수 있다.
또한, 제2 인핸스먼트 레이어 영상을 부호화함에 있어서, 부호화기는 제2 인핸스먼트 레이어 영상 및 제1 인핸스먼트 레이어 영상(상기 제2 인핸스먼트 레이어 영상의 시점과 다른 시점을 갖는 영상) 간의 중복성을 제거하기 위해, 제1 인핸스먼트 레이어 영상의 부호화 관련 정보를 이용할 수 있다. 여기서, 제1 인핸스먼트 레이어 영상의 부호화 관련 정보에는 인트라 관련 정보, 인터 관련 정보, 잔차 신호 정보 및 복호화된 신호 정보 등이 있을 수 있다. 이 때, 부호화기는 제1 인핸스먼트 레이어의 부호화 관련 정보를 기반으로 제2 인핸스먼트 레이어 영상에 속한 픽쳐, 블록 및/또는 기타 부호화 관련 정보에 대해 시점 간 예측을 수행함으로써, 상기 제2 인핸스먼트 레이어 영상에 대한 시점 간의 중복성을 제거할 수 있다.
다시 도 6을 참조하면, 부호화기는 제3 시점 영상 내지 제N 시점 영상에 대해서도 각각 부호화를 수행할 수 있다. 이 때, 부호화기는 제2 시점 영상에서와 동일하거나 유사한 방식으로 상기 제3 시점 영상 내지 제N 시점 영상 각각에 대한 부호화를 수행할 수 있다. 다만, 제2 시점 영상에서는 시점 간의 중복성을 제거하기 위해, 제1 시점 영상의 부호화 관련 정보만이 이용되지만, 제n 시점 영상(n은 3 이상의 자연수)에서는 시점 간의 중복성을 제거하기 위해, 제1 시점 영상 내지 제n-1 시점 영상의 부호화 관련 정보들이 모두 이용될 수 있다. 즉, 부호화기는 제n 시점 영상에 대해 제1 시점 영상 내지 제n-1 시점 영상의 부호화 관련 정보 중에서 적어도 하나를 기반으로 상기 제n 시점 영상에 대한 부호화를 수행할 수 있다.
예를 들어, 제N 시점 영상에 대한 부호화가 수행되는 경우, 부호화기는 제N 시점 영상에 대한 다운 컨버팅을 수행함으로써, 제N 시점 영상에 대응되는 제N 베이스 레이어 영상을 생성할 수 있다(S630).
제N 베이스 레이어 영상이 생성되면, 부호화기는 제N 베이스 레이어 영상에 대해 부호화를 수행할 수 있다(S660). 이 때, 부호화기는 부호화 과정에서 제N 베이스 레이어 영상에서의 공간적 중복성 및/또는 시간적 중복성을 제거하기 위해, 도 1에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다.
또한, 제N 베이스 레이어 영상을 부호화함에 있어, 부호화기는 다른 시점의 영상에 대응되는 베이스 레이어 영상의 부호화 관련 정보를 기반으로 시점 간 예측을 수행함으로써, 시점 간 중복성을 제거할 수 있다. 이 때, 상기 다른 시점의 영상에 대응되는 베이스 레이어 영상은 제1 베이스 레이어 영상 내지 제N-1 베이스 레이어 영상 중에서 적어도 하나에 해당될 수 있다. 부호화 관련 정보에 관한 실시예는 상술한 바 있으므로, 여기서는 생략하기로 한다.
그리고, 부호화기는 제N 시점 영상을 기반으로, 상기 제N 시점 영상에 대응되는 인핸스먼트 레이어 영상(이하, ‘제N 인핸스먼트 레이어 영상’이라 함)에 대해 부호화를 수행할 수 있다(S690). 이 때, 부호화기는 부호화 과정에서 제N 인핸스먼트 레이어 영상에서의 공간적 중복성 및/또는 시간적 중복성을 제거하기 위해, 도 1에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다. 또한, 부호화기는 제N 인핸스먼트 레이어에 대응되는 하위 공간적 레이어의 부호화 관련 정보를 이용함으로써, 레이어 간의 중복성을 제거할 수 있다.
또한, 제N 인핸스먼트 레이어 영상을 부호화함에 있어, 부호화기는 다른 시점의 영상에 대응되는 인핸스먼트 레이어 영상의 부호화 관련 정보를 기반으로 시점 간 예측을 수행함으로써, 시점 간 중복성을 제거할 수 있다. 이 때, 상기 다른 시점의 영상에 대응되는 인핸스먼트 레이어 영상은 제1 인핸스먼트 레이어 영상 내지 제N-1 인핸스먼트 레이어 영상 중에서 적어도 하나에 해당될 수 있다. 부호화 관련 정보에 관한 실시예는 상술한 바 있으므로, 여기서는 생략하기로 한다.
다시 도 6을 참조하면, 부호화기는 제1 시점 영상에 대응되는 비트 스트림 내지 제N 시점 영상에 대응되는 비트 스트림에 대해 다중화(multiplexing)를 수행함으로써, 부호화된 단일 비트 스트림을 생성할 수 있다(S695). 생성된 비트 스트림은 복호화기로 전송될 수 있다.
상술한 실시예에 의하면, 공간적 스케일러빌리티 및 시점 스케일러빌리티가 동시에 제공될 수 있다.
비록 도 6의 실시예는 부호화기의 관점에서 서술되었지만, 본 발명은 이에 한정되는 것은 아니다. 도 6에서 공간적 중복성 및 시점 간 중복성 등을 제거하기 위해 적용되는 예측, 참조 과정의 실시예들은 복호화기에 대해서도 부호화기와 동일하거나 유사한 방식으로 적용될 수 있다. 예를 들어, 상술한 S640 내지 S690의 과정에서 레이어 내의 중복성, 레이어 간의 중복성 및 시점 간의 중복성을 제거하기 위해 적용되는 예측 과정들은 복호화기에도 동일한 방식으로 적용될 수 있다.

도 7은 2개의 화질적 해상도 및 N개의 시점에 대응되는 스케일러빌리티 지원을 위한 영상 부호화 방법의 일 실시예를 개략적으로 나타내는 흐름도이다. 여기서, N은 2 이상의 자연수를 의미할 수 있다.
도 7의 실시예에서는 서로 다른 시점에서 획득된 N개의 영상이 부호화될 수 있다. 도 7의 실시예에서는 상기 N개의 영상을 각각 제1 시점 영상, 제2 시점 영상, …, 제N 시점 영상이라 한다. 후술되는 실시예에서 방법들은 일련의 단계로서 순서도를 기초로 설명되지만, 본 발명은 단계들의 순서에 한정되는 것을 아니며, 어떤 단계는 후술되는 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다.
또한, 도 7의 실시예는 화질 레이어가 두 개인 경우에 대해 서술되지만, 본 발명은 이에 한정되는 것은 아니다. 후술되는 실시예들은 화질 레이어가 두 개 이상인 경우에도 부호화 과정에 동일하거나 유사한 방식으로 적용될 수 있다.
한편, 복수의 화질 해상도를 지원하는 스케일러블 부호화 과정에서는, 도 6의 실시예에서와 달리, 복수의 레이어 각각에 대한 영상을 생성하기 위해 다운 컨버팅 과정을 수행하지 않을 수 있다. 화질적 스케일러빌리티는, 상위 레이어의 영상에 대해, 하위 레이어의 영상에 비해 작은 QP(Quantization Parameter) 값을 적용함으로써 제공될 수 있다. 즉, 부호화기는 상위 레이어 영상의 부호화 시에 하위 레이어 영상보다 작은 QP 값을 적용할 수 있다. 여기서, QP는 양자화 스텝의 크기가 클수록 큰 값을 가지고, 양자화 스텝의 크기가 작을수록 작은 값을 가진다. 양자화 스텝의 크기가 큰 경우에는 양자화 에러가 많이 발생할 수 있으므로, 영상의 화질 해상도는 QP 값이 작을수록 높아질 수 있다.
도 7을 참조하면, 부호화기는 제1 시점 영상에 대응되는 베이스 레이어 영상(이하, ‘제1 베이스 레이어 영상’이라 함)에 대해, 도 1에 도시된 실시예에서와 같이 부호화를 수행할 수 있다(S710). 이 때, 부호화기는 부호화 과정에서 제1 베이스 레이어 영상 내에서의 공간적(spatial) 중복성 및/또는 시간적(temporal) 중복성을 제거하기 위해, 도 1에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다.
그리고, 부호화기는 제1 시점 영상을 기반으로, 상기 제1 시점 영상에 대응되는 인핸스먼트 레이어 영상(이하, ‘제1 인핸스먼트 레이어 영상’이라 함)에 대해 부호화를 수행할 수 있다(S740). 이 때, 부호화기는 제1 베이스 레이어 영상에서와 마찬가지로, 부호화 과정에서 제1 인핸스먼트 레이어 영상 내에서의 공간적(spatial) 중복성 및/또는 시간적(temporal) 중복성을 제거하기 위해, 도 1에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다.
또한, 제1 인핸스먼트 레이어 영상을 부호화함에 있어, 부호화기는 제1 인핸스먼 레이어 및 하위 레이어(예를 들어, 제1 베이스 레이어) 간의 중복성을 제거하기 위해, 하위 화질 레이어(예를 들어, 제1 베이스 레이어)의 부호화 관련 정보를 이용할 수 있다. 여기서, 하위 화질 레이어의 부호화 관련 정보에는 인트라 관련 정보(예를 들어, 텍스쳐 정보), 인터 관련 정보(예를 들어, 움직임 정보), 잔차 신호 정보 및 복호화된 신호 정보 등이 있을 수 있다. 이 때, 부호화기는 레이어 간의 중복성을 제거하기 위해, 하위 화질 레이어의 부호화 관련 정보를 기반으로 인터 레이어 텍스쳐 예측, 인터 레이어 움직임 정보 예측 및/또는 인터 레이어 잔차 신호 예측 등을 수행할 수 있다.
다시 도 7을 참조하면, 부호화기는 제2 시점 영상에 대응되는 베이스 레이어 영상(이하, ‘제2 베이스 레이어 영상’이라 함)에 대해 부호화를 수행할 수 있다(S720). 이 때, 부호화기는 제1 베이스 레이어 영상에서와 마찬가지로, 부호화 과정에서 제2 베이스 레이어 영상 내에서의 공간적(spatial) 중복성 및/또는 시간적(temporal) 중복성을 제거하기 위해, 도 1에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다.
또한, 제2 베이스 레이어 영상을 부호화함에 있어, 부호화기는 제2 베이스 레이어 영상 및 제1 베이스 레이어 영상(상기 제2 베이스 레이어 영상의 시점과 다른 시점을 갖는 영상) 간의 중복성을 제거하기 위해, 제1 베이스 레이어 영상의 부호화 관련 정보를 이용할 수 있다. 여기서, 제1 베이스 레이어의 부호화 관련 정보에는 인트라 관련 정보, 인터 관련 정보, 잔차 신호 정보 및 복호화된 신호 정보 등이 있을 수 있다. 이 때, 부호화기는 제1 베이스 레이어의 부호화 관련 정보를 기반으로 제2 베이스 레이어 영상에 속한 픽쳐, 블록 및/또는 기타 부호화 관련 정보에 대해 시점 간 예측을 수행함으로써, 시점 간의 중복성을 제거할 수 있다.
그리고, 부호화기는 제2 시점 영상을 기반으로, 상기 제2 시점 영상에 대응되는 인핸스먼트 레이어 영상(이하, ‘제2 인핸스먼트 레이어 영상’이라 함)에 대해 부호화를 수행할 수 있다(S750). 이 때, 부호화기는 제2 베이스 레이어 영상에서와 마찬가지로, 부호화 과정에서 제2 인핸스먼트 레이어 영상 내에서의 공간적 중복성 및/또는 시간적 중복성을 제거하기 위해, 도 1에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다.
또한, 제2 인핸스먼트 레이어 영상을 부호화함에 있어, 부호화기는 제2 인핸스먼 레이어 및 하위 레이어(예를 들어, 제2 베이스 레이어) 간의 중복성을 제거하기 위해, 하위 화질 레이어(예를 들어, 제2 베이스 레이어)의 부호화 관련 정보를 이용할 수 있다. 여기서, 하위 화질 레이어의 부호화 관련 정보에는 인트라 관련 정보(예를 들어, 텍스쳐 정보), 인터 관련 정보(예를 들어, 움직임 정보), 잔차 신호 정보 및 복호화된 신호 정보 등이 있을 수 있다. 이 때, 부호화기는 레이어 간의 중복성을 제거하기 위해, 하위 화질 레이어의 부호화 관련 정보를 기반으로 인터 레이어 텍스쳐 예측, 인터 레이어 움직임 정보 예측 및/또는 인터 레이어 잔차 신호 예측 등을 수행할 수 있다.
또한, 제2 인핸스먼트 레이어 영상을 부호화함에 있어서, 부호화기는 제2 인핸스먼트 레이어 영상 및 제1 인핸스먼트 레이어 영상(상기 제2 인핸스먼트 레이어 영상의 시점과 다른 시점을 갖는 영상) 간의 중복성을 제거하기 위해, 제1 인핸스먼트 레이어 영상의 부호화 관련 정보를 이용할 수 있다. 여기서, 제1 인핸스먼트 레이어 영상의 부호화 관련 정보에는 인트라 관련 정보, 인터 관련 정보, 잔차 신호 정보 및 복호화된 신호 정보 등이 있을 수 있다. 이 때, 부호화기는 제1 인핸스먼트 레이어의 부호화 관련 정보를 기반으로 제2 인핸스먼트 레이어 영상에 속한 픽쳐, 블록 및/또는 기타 부호화 관련 정보에 대해 시점 간 예측을 수행함으로써, 상기 제2 인핸스먼트 레이어 영상에 대한 시점 간의 중복성을 제거할 수 있다.
다시 도 7을 참조하면, 부호화기는 제3 시점 영상 내지 제N 시점 영상에 대해서도 각각 부호화를 수행할 수 있다. 이 때, 부호화기는 제2 시점 영상에서와 동일하거나 유사한 방식으로 상기 제3 시점 영상 내지 제N 시점 영상 각각에 대한 부호화를 수행할 수 있다. 다만, 제2 시점 영상에서는 시점 간의 중복성을 제거하기 위해, 제1 시점 영상의 부호화 관련 정보만이 이용되지만, 제n 시점 영상(n은 3 이상의 자연수)에서는 시점 간의 중복성을 제거하기 위해, 제1 시점 영상 내지 제n-1 시점 영상의 부호화 관련 정보들이 모두 이용될 수 있다. 즉, 부호화기는 제n 시점 영상에 대해 제1 시점 영상 내지 제n-1 시점 영상의 부호화 관련 정보 중에서 적어도 하나를 기반으로 상기 제n 시점 영상에 대한 부호화를 수행할 수 있다.
예를 들어, 제N 시점 영상에 대한 부호화가 수행되는 경우, 부호화기는 제N 시점 영상에 대응되는 제N 베이스 레이어 영상에 대해 부호화를 수행할 수 있다(S730). 이 때, 부호화기는 부호화 과정에서 제N 베이스 레이어 영상 내에서의 공간적 중복성 및/또는 시간적 중복성을 제거하기 위해, 도 1에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다.
또한, 제N 베이스 레이어 영상을 부호화함에 있어, 부호화기는 다른 시점의 영상에 대응되는 베이스 레이어 영상의 부호화 관련 정보를 기반으로 시점 간 예측을 수행함으로써, 시점 간 중복성을 제거할 수 있다. 이 때, 상기 다른 시점의 영상에 대응되는 베이스 레이어 영상은 제1 베이스 레이어 영상 내지 제N-1 베이스 레이어 영상 중에서 적어도 하나에 해당될 수 있다. 부호화 관련 정보에 관한 실시예는 상술한 바 있으므로, 여기서는 생략하기로 한다.
그리고, 부호화기는 제N 시점 영상을 기반으로, 상기 제N 시점 영상에 대응되는 인핸스먼트 레이어 영상(이하, ‘제N 인핸스먼트 레이어 영상’이라 함)에 대해 부호화를 수행할 수 있다(S760). 이 때, 부호화기는 부호화 과정에서 제N 인핸스먼트 레이어 영상 내에서의 공간적 중복성 및/또는 시간적 중복성을 제거하기 위해, 도 1에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다. 또한, 부호화기는 제N 인핸스먼트 레이어에 대응되는 하위 화질 레이어의 부호화 관련 정보를 이용함으로써, 레이어 간의 중복성을 제거할 수 있다.
또한, 제N 인핸스먼트 레이어 영상을 부호화함에 있어, 부호화기는 다른 시점의 영상에 대응되는 인핸스먼트 레이어 영상의 부호화 관련 정보를 기반으로 시점 간 예측을 수행함으로써, 시점 간 중복성을 제거할 수 있다. 이 때, 상기 다른 시점의 영상에 대응되는 인핸스먼트 레이어 영상은 제1 인핸스먼트 레이어 영상 내지 제N-1 인핸스먼트 레이어 영상 중에서 적어도 하나에 해당될 수 있다. 부호화 관련 정보에 관한 실시예는 상술한 바 있으므로, 여기서는 생략하기로 한다.
다시 도 7을 참조하면, 부호화기는 제1 시점 영상에 대응되는 제1 비트 스트림 내지 제N 시점 영상에 대응되는 제N 비트 스트림에 대해 다중화(multiplexing)를 수행함으로써, 부호화된 단일 비트 스트림을 생성할 수 있다(S770). 생성된 비트 스트림은 복호화기로 전송될 수 있다.
상술한 실시예에 의하면, 화질적 스케일러빌리티 및 시점 스케일러빌리티가 동시에 제공될 수 있다.
비록 도 7의 실시예는 부호화기의 관점에서 서술되었지만, 본 발명은 이에 한정되는 것은 아니다. 도 7에서 화질적 중복성 및 시점 간 중복성 등을 제거하기 위해 적용되는 예측, 참조 과정의 실시예들은 복호화기에 대해서도 부호화기에서와 동일하거나 유사한 방식으로 적용될 수 있다. 예를 들어, 상술한 S710 내지 S760의 과정에서 레이어 내의 중복성, 레이어 간의 중복성 및 시점 간의 중복성을 제거하기 위해 적용되는 예측 과정들은 복호화기에도 동일한 방식으로 적용될 수 있다.

도 8은 2개의 공간적 해상도, 2개의 화질적 해상도 및 N개의 시점에 대응되는 스케일러빌리티 지원을 위한 영상 부호화 방법의 일 실시예를 개략적으로 나타내는 흐름도이다. 여기서, N은 2 이상의 자연수를 나타낼 수 있다.
도 8의 실시예에서는 서로 다른 시점에서 획득된 N개의 영상이 부호화될 수 있다. 도 8의 실시예에서는 상기 N개의 영상을 각각 제1 시점 영상, 제2 시점 영상, …, 제N 시점 영상이라 한다. 후술되는 실시예에서 방법들은 일련의 단계로서 순서도를 기초로 설명되지만, 본 발명은 단계들의 순서에 한정되는 것을 아니며, 어떤 단계는 후술되는 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다.
또한, 도 8의 실시예는 공간 레이어가 두 개이고 화질 레이어가 두 개인 경우에 대해 서술되지만, 본 발명은 이에 한정되는 것은 아니다. 후술되는 실시예들은 공간 레이어가 두 개 이상이거나 및/또는 화질 레이어가 두 개 이상인 경우에도 부호화 과정에 동일하거나 유사한 방식으로 적용될 수 있다.
도 8의 실시예에서는 제1 시점 영상 내지 제N 시점 영상 각각에 대해 다운 컨버팅을 수행함으로써, 베이스 레이어 영상이 생성될 수 있다. 또한, 도 8의 실시예에서는 두 개의 인핸스먼트 레이어가 존재할 수 있다. 도 8의 실시예에서, 상기 두 개의 인핸스먼트 레이어 중에서 하위 레이어에 해당되는 레이어는 하위 인핸스먼트 레이어로 지칭하고, 상기 두 개의 인핸스먼트 레이어 중에서 상위 레이어에 해당되는 레이어는 상위 인핸스먼트 레이어로 지칭하기로 한다.
베이스 레이어 영상은 하위 인핸스먼트 레이어 및 상위 인핸스먼트 레이어에 비해 낮은 공간적 해상도를 가질 수 있고, 하위 인핸스먼트 레이어 및 상위 인핸스먼트 레이어는 서로 동일한 공간적 해상도를 가질 수 있다. 따라서, 도 8의 실시예에서는 2개의 공간적 해상도가 지원될 수 있다. 또한, 부호화기는 상위 인핸스먼트 레이어 영상의 부호화 시에 하위 인핸스먼트 레이어 영상보다 작은 QP 값을 적용할 수 있다. 이 경우, 도 8의 실시예에서는 2개의 화질적 해상도가 지원될 수 있다. 따라서, 도 8의 부호화 과정은 공간적, 화질적 및 시점 스케일러빌리티를 모두 지원할 수 있다.
도 8을 참조하면, 부호화기는 제1 시점 영상에 대한 다운 컨버팅(down converting)을 수행함으로써, 제1 시점 영상에 대응되는 베이스 레이어 영상(이하, ‘제1 베이스 레이어 영상’이라 함)을 생성할 수 있다(S813). 제1 베이스 레이어 영상이 생성되면, 부호화기는 제1 베이스 레이어 영상에 대해, 도 1에 도시된 실시예에서와 같이 부호화를 수행할 수 있다(S823). 또한, 부호화기는 제1 시점 영상에 대응되는 제1 하위 인핸스먼트 레이어 영상에 대해 부호화를 수행하고(S833), 제1 시점 영상에 대응되는 제1 상위 인핸스먼트 레이어 영상에 대해 부호화를 수행할 수 있다(S843). 이 때, 부호화기는 레이어 간의 중복성을 제거하기 위해, 하위 레이어의 부호화 관련 정보를 기반으로 부호화를 수행할 수 있다. 각 단계에 대응되는 구체적인 부호화 과정은 상술한 도 6 및 도 7의 실시예에서와 유사하므로, 여기서는 생략하기로 한다.
다시 도 8을 참조하면, 부호화기는 제2 시점 영상에 대한 다운 컨버팅을 수행함으로써, 제2 시점 영상에 대응되는 베이스 레이어 영상(이하, ‘제2 베이스 레이어 영상’이라 함)을 생성할 수 있다(S816). 제2 베이스 레이어 영상이 생성되면, 부호화기는 제2 베이스 레이어 영상에 대해 부호화를 수행할 수 있다(S826). 이 때, 부호화기는 시점 간의 중복성을 제거하기 위해, 제1 베이스 레이어의 부호화 관련 정보를 기반으로 부호화를 수행할 수 있다.
그리고, 부호화기는 제2 시점 영상에 대응되는 제2 하위 인핸스먼트 레이어 영상에 대해 부호화를 수행할 수 있다(S836). 이 때, 부호화기는 레이어 간의 중복성을 제거하기 위해, 하위 레이어의 부호화 관련 정보를 기반으로 부호화를 수행할 수 있고, 시점 간의 중복성을 제거하기 위해, 제1 하위 인핸스먼트 레이어의 부호화 관련 정보를 기반으로 부호화를 수행할 수 있다. 또한, 부호화기는 제2 시점 영상에 대응되는 제2 상위 인핸스먼트 레이어 영상에 대해 부호화를 수행할 수 있다(S846). 이 때, 부호화기는 레이어 간의 중복성을 제거하기 위해, 하위 레이어의 부호화 관련 정보를 기반으로 부호화를 수행할 수 있고, 시점 간의 중복성을 제거하기 위해, 제1 상위 인핸스먼트 레이어의 부호화 관련 정보를 기반으로 부호화를 수행할 수 있다.
제2 시점 영상의 부호화를 위한 각 단계에 대응되는 구체적인 부호화 과정은 상술한 도 6 및 도 7의 실시예에서와 유사하므로, 여기서는 생략하기로 한다.
다시 도 8을 참조하면, 부호화기는 제3 시점 영상 내지 제N 시점 영상에 대해서도 각각 부호화를 수행할 수 있다. 이 때, 부호화기는 제2 시점 영상에서와 동일하거나 유사한 방식으로 상기 제3 시점 영상 내지 제N 시점 영상 각각에 대한 부호화를 수행할 수 있다. 다만, 제2 시점 영상에서는 시점 간의 중복성을 제거하기 위해, 제1 시점 영상의 부호화 관련 정보만이 이용되지만, 제n 시점 영상(n은 3 이상의 자연수)에서는 시점 간의 중복성을 제거하기 위해, 제1 시점 영상 내지 제n-1 시점 영상의 부호화 관련 정보들이 모두 이용될 수 있다. 즉, 부호화기는 제n 시점 영상에 대해 제1 시점 영상 내지 제n-1 시점 영상의 부호화 관련 정보 중에서 적어도 하나를 기반으로 상기 제n 시점 영상에 대한 부호화를 수행할 수 있다.
예를 들어, 제N 시점 영상에 대한 부호화가 수행되는 경우, 부호화기는 제N 시점 영상에 대한 다운 컨버팅을 수행함으로써, 제N 시점 영상에 대응되는 제N 베이스 레이어 영상을 생성할 수 있다(S819). 제N 베이스 레이어 영상이 생성되면, 부호화기는 제N 베이스 레이어 영상에 대해 부호화를 수행할 수 있다(S829). 이 때, 부호화기는 시점 간의 중복성을 제거하기 위해, 다른 시점의 영상에 대응되는 베이스 레이어 영상의 부호화 관련 정보를 기반으로 부호화를 수행할 수 있다.
그리고, 부호화기는 제N 시점 영상에 대응되는 제N 하위 인핸스먼트 레이어 영상에 대해 부호화를 수행할 수 있다(S839). 이 때, 부호화기는 레이어 간의 중복성을 제거하기 위해, 하위 레이어의 부호화 관련 정보를 기반으로 부호화를 수행할 수 있고, 시점 간의 중복성을 제거하기 위해, 다른 시점의 영상에 대응되는 하위 인핸스먼트 레이어 영상의 부호화 관련 정보를 기반으로 부호화를 수행할 수 있다. 또한, 부호화기는 제N 시점 영상에 대응되는 제N 상위 인핸스먼트 레이어 영상에 대해 부호화를 수행할 수 있다(S849). 이 때, 부호화기는 레이어 간의 중복성을 제거하기 위해, 하위 레이어의 부호화 관련 정보를 기반으로 부호화를 수행할 수 있고, 시점 간의 중복성을 제거하기 위해, 다른 시점의 영상에 대응되는 상위 인핸스먼트 레이어 영상의 부호화 관련 정보를 기반으로 부호화를 수행할 수 있다.
제N 시점 영상의 부호화를 위한 각 단계에 대응되는 구체적인 부호화 과정은 상술한 도 6 및 도 7의 실시예에서와 유사하므로, 여기서는 생략하기로 한다.
다시 도 8을 참조하면, 부호화기는 제1 시점 영상에 대응되는 비트 스트림 내지 제N 시점 영상에 대응되는 비트 스트림에 대해 다중화(multiplexing)를 수행함으로써, 부호화된 단일 비트 스트림을 생성할 수 있다(S850). 생성된 비트 스트림은 복호화기로 전송될 수 있다.
상술한 실시예에 의하면, 공간적 스케일러빌리티, 화질적 스케일러빌리티 및 시점 스케일러빌리티가 동시에 제공될 수 있다.
비록 도 8의 실시예는 부호화기의 관점에서 서술되었지만, 본 발명은 이에 한정되는 것은 아니다. 도 8에서 공간적 중복성 및 시점 간 중복성 등을 제거하기 위해 적용되는 예측, 참조 과정의 실시예들은 복호화기에 대해서도 부호화기와 동일하거나 유사한 방식으로 적용될 수 있다. 예를 들어, 상술한 S823 내지 S849의 과정에서 레이어 내의 중복성, 레이어 간의 중복성 및 시점 간의 중복성을 제거하기 위해 적용되는 예측 과정들은 복호화기에도 동일한 방식으로 적용될 수 있다.

도 9는 본 발명에 따라 2개의 공간적 해상도 및 2개의 시점에 대응되는 스케일러빌리티를 지원하는 비디오 부호화기 구조의 일 실시예를 개략적으로 나타내는 블록도이다.
도 9의 실시예에서는 서로 다른 시점에서 획득된 2개의 영상이 부호화될 수 있다. 도 9의 실시예에서 상기 2개의 영상은 각각 좌영상(913), 우영상(943)이라 한다. 여기서, 좌영상(913) 및 우영상(943)은 각각 UHD(Ultra High Definition) 영상에 해당될 수 있다.
도 9를 참조하면, 다운 컨버터 916은 부호화하고자 하는 베이스 레이어의 해상도에 맞도록 좌영상(913)에 대한 다운 컨버팅을 수행할 수 있다. 다운 컨버터(916)는 좌영상(913)에 대한 다운 컨버팅을 수행함으로써, 좌영상(913)에 대응되는 베이스 레이어 영상(923)을 생성할 수 있다. 이하, 도 9의 실시예에서 좌영상(913)에 대응되는 베이스 레이어 영상(923)은 ‘베이스 레이어 좌영상’이라 한다. 여기서, 베이스 레이어 좌영상은 HD(High Definition) 영상에 해당될 수 있다.
업 컨버터 926은 베이스 레이어 좌영상(923)에 대한 업 컨버팅(up converting)을 수행할 수 있다. 이 때, 부호화기는 좌영상(913) 및 업 컨버팅된 베이스 레이어 좌영상(923)의 차이에 해당되는 차분 좌영상(930)을 도출하고, 상기 차분 좌영상(930)에 대한 부호화를 수행함으로써 좌영상(913)에 대응되는 비트스트림을 생성할 수 있다. 도 9에서 좌영상(913)에 대응되는 비트스트림은 UHD로 표시된다. 또한, 부호화기는 베이스 레이어 좌영상(923)에 대한 부호화를 수행함으로써 베이스 레이어 좌영상(923)에 대응되는 비트스트림을 생성할 수 있다. 도 9에서 베이스 레이어 좌영상(923)에 대응되는 비트스트림은 HD로 표시된다.
다시 도 9를 참조하면, 다운 컨버터 946은 부호화하고자 하는 베이스 레이어의 해상도에 맞도록 우영상(943)에 대한 다운 컨버팅을 수행할 수 있다. 다운 컨버터(946)는 우영상(943)에 대한 다운 컨버팅을 수행함으로써, 우영상(943)에 대응되는 베이스 레이어 영상(953)을 생성할 수 있다. 이하, 도 9의 실시예에서 우영상(943)에 대응되는 베이스 레이어 영상(953)은 ‘베이스 레이어 우영상’이라 한다. 여기서, 베이스 레이어 우영상은 HD(High Definition) 영상에 해당될 수 있다.
업 컨버터 956은 베이스 레이어 우영상(943)에 대한 업 컨버팅을 수행할 수 있다. 이 때, 부호화기는 우영상(943) 및 좌영상(913) 간의 차분 또는 우영상(943) 및 업 컨버팅된 베이스 레이어 우영상(953) 간의 차분에 의해, 우영상(943)에 대응되는 차분 우영상(960)을 도출할 수 있다. 부호화기는 상기 차분 우영상(960)에 대한 부호화를 수행함으로써 우영상(943)에 대응되는 비트스트림을 생성할 수 있다. 도 9에서 우영상(943)에 대응되는 비트스트림은 3D-UHD로 표시된다.
또한, 부호화기는 베이스 레이어 우영상(953) 및 베이스 레이어 좌영상(923) 간의 차분에 의해, 베이스 레이어 우영상(953)에 대응되는 ‘베이스 레이어 차분 우영상(970)’을 도출할 수 있다. 이 때, 부호화기는 베이스 레이어 차분 우영상(970)에 대해 부호화를 수행함으로써 베이스 레이어 우영상(953)에 대응되는 비트스트림을 생성할 수 있다. 도 9에서 베이스 레이어 우영상(953)에 대응되는 비트스트림은 3D-HD로 표시된다.
부호화기는 상기 생성된 비트 스트림 UHD, HD, 3D-HD 및 3D-UHD에 대해 다중화를 수행함으로써 단일 비트 스트림(980)을 출력할 수 있다. 이 때, 일례로 출력된 단일 비트 스트림(980)은 각각의 레이어에 해당되는 NAL 유닛(Network Abstraction Layer unit)들이 다중화되어 있는 형태를 가질 수 있다. 이 때, 각각의 NAL 유닛에 대응되는 NAL 유닛 헤더(NAL unit header)에는, 상기 각각의 NAL 유닛이 어떤 레이어에 대한 부호화/복호화 관련 정보를 포함하는지를 나타내기 위해, 공간적 해상도를 나타내는 공간 식별자(spatial identifier), 시간적 해상도를 나타내는 시간 식별자(temporal identifier), 화질적 해상도를 나타내는 화질 식별자(quality identifier) 및 시점 해상도를 나타내는 시점 식별자(view identifier) 등이 포함될 수 있다.
또한, 부호화기는 3D 영상 생성에 필요한 공간적, 시간적, 화질적 및/또는 시점 해상도에 대응되는 최상위 레이어를 지시하는 식별자를 전송할 수 있다. 이 때, 비트 스트림 추출기는 상기 최상위 레이어를 지시하는 식별자 및 각 NAL 유닛 헤더에 포함된 정보를 기반으로, 단일 비트 스트림(980)으로부터 3D 영상 생성에 필요한 비트 스트림을 추출할 수 있다. 여기서, 추출된 비트 스트림은, 3D 영상 생성에 필요한 공간 해상도, 시간 해상도, 화질 해상도 및 시점 수에 대응되는 최상위 레이어를 포함하는 비트 스트림에 해당될 수 있다.

한편, 복호화기는 상술한 부호화 과정을 통해 부호화된 비트 스트림에 대해, 복호화를 수행할 수 있다.
예를 들어, 서로 다른 시점에서 획득된 N개(여기서, N은 2 이상의 자연수임)의 영상에 대해 복호화가 수행된다고 가정한다. 이 때, 상기 N개의 영상은 각각 제1 시점 영상, 제2 시점 영상,…, 제N 시점 영상이라 한다.
이 때, 복호화기는 부호화기로부터 전송된 정보를 기반으로, 제1 시점 영상에 대응되는 제1 베이스 레이어 영상에 대한 복호화를 수행할 수 있다. 이 때, 복호화기는 도 2에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있다. 또한, 복호화기는 제1 시점 영상에 대응되는 제1 인핸스먼트 레이어 영상(들)에 대한 복호화를 수행할 수 있다. 이 때, 복호화기는 도 2에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있고, 하위 레이어의 부호화/복호화 관련 정보를 기반으로 인터 레이어 텍스쳐 예측, 인터 레이어 움직임 정보 예측 및/또는 인터 레이어 잔차 신호 예측 등을 수행할 수 있다.
그리고, 복수의 시점에 대한 복호화가 수행되는 경우, 복호화기는 제2 시점 영상에 대응되는 제2 베이스 레이어 영상에 대한 복호화를 수행할 수 있다. 이 때, 복호화기는 도 2에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있고, 제1 베이스 레이어 영상(제2 베이스 레이어 영상과 다른 시점에 대응되는 영상)의 부호화/복호화 관련 정보를 기반으로 시점 간 예측(inter-view prediction)을 수행할 수 있다.
또한, 복호화기는 제2 시점 영상에 대응되는 제2 인핸스먼트 레이어 영상(들)에 대한 복호화를 수행할 수 있다. 이 때, 복호화기는 도 2에서 상술한 인터 예측 및/또는 인트라 예측을 수행할 수 있고, 하위 레이어의 부호화/복호화 관련 정보를 기반으로 인터 레이어 텍스쳐 예측, 인터 레이어 움직임 정보 예측 및/또는 인터 레이어 잔차 신호 예측 등을 수행할 수 있다. 그리고 복호화기는 제1 인핸스먼트 레이어 영상(제2 인핸스먼트 레이어 영상과 다른 시점에 대응되는 영상)의 부호화/복호화 관련 정보를 기반으로 시점 간 예측을 수행할 수 있다.
복호화기는 제2 시점 영상에서와 유사한 방식으로, 제1 시점 영상 및 제2 시점 영상이 아닌 다른 시점의 영상에 대해서도 복호화를 수행할 수 있다. 이 때, 복호화기는 3D 영상 생성에 필요한 최대의 시점 수에 따라, 제1 시점 영상 내지 제n 시점 영상(여기서, n은 3D 영상 생성에 필요한 최대의 시점 수를 나타낼 수 있음)에 대한 복호화를 수행할 수 있다.

한편, 상술한 실시예들에서는 시점 간의 중복성을 제거하기 위해, 부호화/복호화 대상 영상이 속한 시점과 다른 시점의 영상이 시점 간 예측에 사용될 수 있다. 이 때, 상술한 실시예들에서는 부호화/복호화 대상 영상이 속한 레이어와 동일한 레이어에 속한 영상이 부호화/복호화에 사용될 수 있다. 그러나, 본 발명은 이에 한정되는 것은 아니며, 부호화기/복호화기는 시점 간 예측을 위해 부호화/복호화 대상 영상 속한 레이어와 다른 레이어에 속한 영상을 사용할 수도 있다.

상술한 실시예들에서, 방법들은 일련의 단계 또는 블록으로서 순서도를 기초로 설명되고 있으나, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 당해 기술 분야에서 통상의 지식을 가진 자라면 순서도에 나타난 단계들이 배타적이지 않고, 다른 단계가 포함되거나, 순서도의 하나 또는 그 이상의 단계가 본 발명의 범위에 영향을 미치지 않고 삭제될 수 있음을 이해할 수 있을 것이다.
상술한 실시예는 다양한 양태의 예시들을 포함한다. 다양한 양태들을 나타내기 위한 모든 가능한 조합을 기술할 수는 없지만, 해당 기술 분야의 통상의 지식을 가진 자는 다른 조합이 가능함을 인식할 수 있을 것이다. 따라서, 본 발명은 이하의 특허청구범위 내에 속하는 모든 다른 교체, 수정 및 변경을 포함한다고 할 것이다.

Claims (18)

  1. 베이스 레이어 영상(base layer image)이 속한 시점(view)과 다른 시점에 속한 영상에 대응하는 제1 복호화 정보를 기반으로, 상기 베이스 레이어 영상에 대응하는 제1 비트스트림에 대해 복호화를 수행하는 단계; 및
    상기 베이스 레이어 영상에 대응하는 제2 복호화 정보, 및 인핸스먼트 레이어 영상(enhancement layer image)이 속한 시점과 다른 시점에 속한 영상에 대응하는 제3 복호화 정보를 기반으로, 상기 인핸스먼트 레이어 영상에 대응하는 제2 비트스트림에 대해 복호화를 수행하는 단계를 포함하는 비디오 복호화 방법.
  2. 제 1항에 있어서,
    상기 베이스 레이어 영상 및 상기 인핸스먼트 레이어 영상은 서로 다른 공간(spatial) 해상도를 갖는 것을 특징으로 하는 비디오 복호화 방법.
  3. 제 1항에 있어서,
    상기 베이스 레이어 영상 및 상기 인핸스먼트 레이어 영상은 서로 다른 화질(quality) 해상도를 갖는 것을 특징으로 하는 비디오 복호화 방법.
  4. 제 1항에 있어서,
    상기 제1 복호화 정보, 상기 제2 복호화 정보 및 상기 제3 복호화 정보는 텍스쳐 정보, 움직임 정보, 잔차 신호 정보 및 복호화된 신호 정보 중에서 적어도 하나를 포함하는 것을 특징으로 하는 비디오 복호화 방법.
  5. 제 1항에 있어서,
    상기 제1 비트 스트림에 대응되는 제1 NAL 유닛(Network Absolute Layer unit) 및 상기 제2 비트 스트림에 대응되는 제2 NAL 유닛을 기반으로 다중화된, 단일 비트 스트림을 수신하는 단계; 및
    상기 단일 비트 스트림으로부터 상기 제1 비트 스트림 및 상기 제2 비트 스트림을 추출하는 단계를 더 포함하는 것을 특징으로 하는 비디오 복호화 방법.
  6. 제 5항에 있어서,
    상기 제1 NAL 유닛에 대응되는 제1 NAL 유닛 헤더는, 제1 공간 식별자(spatial identifier), 제1 시간 식별자(temporal identifier), 제1 화질 식별자(quality identifier) 및 제1 시점 식별자(view identifier) 중에서 적어도 하나를 포함하고,
    상기 제2 NAL 유닛에 대응되는 제2 NAL 유닛 헤더는, 제2 공간 식별자, 제2 시간 식별자, 제2 화질 식별자 및 제2 시점 식별자 중에서 적어도 하나를 포함하고,
    상기 제1 공간 식별자, 상기 제1 시간 식별자, 상기 제1 화질 식별자 및 상기 제1 시점 식별자는, 각각 상기 베이스 레이어 영상에 대응되는 공간 해상도, 시간 해상도, 화질 해상도 및 시점 해상도를 지시하고,
    상기 제2 공간 식별자, 상기 제2 시간 식별자, 상기 제2 화질 식별자 및 상기 제2 시점 식별자는, 각각 상기 인핸스먼트 레이어 영상에 대응되는 공간 해상도, 시간 해상도, 화질 해상도 및 시점 해상도를 지시하는 것을 특징으로 하는 비디오 복호화 방법.
  7. 제 6항에 있어서,
    상기 추출하는 단계에서는,
    상기 제1 NAL 유닛 헤더에 포함된 정보를 기반으로 상기 제1 비트 스트림을 추출하고, 상기 제2 NAL 유닛 헤더에 포함된 정보를 기반으로 상기 제2 비트 스트림을 추출하는 것을 특징으로 하는 비디오 복호화 방법.
  8. 제 1항에 있어서,
    상기 제1 비트스트림에 대해 복호화를 수행하는 단계에서는,
    상기 제1 복호화 정보를 기반으로, 상기 베이스 레이어 영상에 대해 시점 간 예측(inter-view prediction)을 수행하는 것을 특징으로 하는 비디오 복호화 방법.
  9. 제 1항에 있어서,
    상기 제2 비트스트림에 대해 복호화를 수행하는 단계에서는,
    상기 제2 복호화 정보를 기반으로, 상기 인핸스먼트 레이어 영상에 대해 인터 레이어 텍스쳐 예측(inter layer texture prediction), 인터 레이어 움직임 정보 예측(inter layer motion information prediction) 및 인터 레이어 잔차 신호 예측(inter layer residual signal prediction) 중에서 적어도 하나를 수행하는 것을 특징으로 하는 비디오 복호화 방법.
  10. 제 1항에 있어서,
    상기 제2 비트스트림에 대해 복호화를 수행하는 단계에서는,
    상기 제3 복호화 정보를 기반으로, 상기 인핸스먼트 레이어 영상에 대해 시점 간 예측(inter-view prediction)을 수행하는 것을 특징으로 하는 비디오 복호화 방법.
  11. 베이스 레이어 영상(base layer image)이 속한 시점(view)과 다른 시점에 속한 영상에 대응하는 제1 부호화 정보를 기반으로, 상기 베이스 레이어 영상에 대해 부호화를 수행함으로써 상기 베이스 레이어 영상에 대응하는 제1 비트스트림을 생성하는 단계; 및
    상기 베이스 레이어 영상에 대응하는 제2 부호화 정보, 및 인핸스먼트 레이어 영상(enhancement layer image)이 속한 시점과 다른 시점에 속한 영상에 대응하는 제3 부호화 정보를 기반으로, 상기 인핸스먼트 레이어 영상에 대해 부호화를 수행함으로써 상기 인핸스먼트 레이어 영상에 대응하는 제2 비트스트림을 생성하는 단계를 포함하는 비디오 부호화 방법.
  12. 제 11항에 있어서,
    상기 베이스 레이어 영상 및 상기 인핸스먼트 레이어 영상은 서로 다른 공간(spatial) 해상도를 갖는 것을 특징으로 하는 비디오 부호화 방법.
  13. 제 11항에 있어서,
    상기 베이스 레이어 영상 및 상기 인핸스먼트 레이어 영상은 서로 다른 화질(quality) 해상도를 갖는 것을 특징으로 하는 비디오 부호화 방법.
  14. 제 11항에 있어서,
    상기 제1 부호화 정보, 상기 제2 부호화 정보 및 상기 제3 부호화 정보는 텍스쳐 정보, 움직임 정보, 잔차 신호 정보 및 부호화된 신호 정보 중에서 적어도 하나를 포함하는 것을 특징으로 하는 비디오 부호화 방법.
  15. 제 11항에 있어서,
    상기 제1 비트스트림 및 상기 제2 비트스트림을 기반으로 다중화를 수행함으로써 단일 비트 스트림을 생성하는 단계를 더 포함하는 것을 특징으로 하는 비디오 부호화 방법.
  16. 제 11항에 있어서,
    상기 베이스 레이어 영상에 대해 부호화를 수행하는 단계에서는,
    상기 제1 부호화 정보를 기반으로, 상기 베이스 레이어 영상에 대해 시점 간 예측(inter-view prediction)을 수행하는 것을 특징으로 하는 비디오 부호화 방법.
  17. 제 11항에 있어서,
    상기 인핸스먼트 레이어 영상에 대해 부호화를 수행하는 단계에서는,
    상기 제2 부호화 정보를 기반으로, 상기 인핸스먼트 레이어 영상에 대해 인터 레이어 텍스쳐 예측(inter layer texture prediction), 인터 레이어 움직임 정보 예측(inter layer motion information prediction) 및 인터 레이어 잔차 신호 예측(inter layer residual signal prediction) 중에서 적어도 하나를 수행하는 것을 특징으로 하는 비디오 부호화 방법.
  18. 제 11항에 있어서,
    상기 인핸스먼트 레이어 영상에 대해 부호화를 수행하는 단계에서는,
    상기 제3 부호화 정보를 기반으로, 상기 인핸스먼트 레이어 영상에 대해 시점 간 예측(inter-view prediction)을 수행하는 것을 특징으로 하는 비디오 부호화 방법.
PCT/KR2012/008097 2011-10-05 2012-10-05 비디오 부호화/복호화 방법 및 그 장치 WO2013051896A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/350,225 US20140286415A1 (en) 2011-10-05 2012-10-05 Video encoding/decoding method and apparatus for same

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2011-0101059 2011-10-05
KR20110101059 2011-10-05
KR10-2012-0110803 2012-10-05
KR1020120110803A KR20130037194A (ko) 2011-10-05 2012-10-05 비디오 부호화/복호화 방법 및 그 장치

Publications (1)

Publication Number Publication Date
WO2013051896A1 true WO2013051896A1 (ko) 2013-04-11

Family

ID=48043951

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2012/008097 WO2013051896A1 (ko) 2011-10-05 2012-10-05 비디오 부호화/복호화 방법 및 그 장치

Country Status (1)

Country Link
WO (1) WO2013051896A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080037593A (ko) * 2006-10-25 2008-04-30 한국전자통신연구원 다시점 비디오의 스케일러블 코딩 및 디코딩 방법과, 코딩및 디코딩 장치
KR20080081407A (ko) * 2007-03-05 2008-09-10 경희대학교 산학협력단 하이브리드 다시점 및 계층화 비디오 코딩 방법과 장치
KR20110007928A (ko) * 2009-07-17 2011-01-25 삼성전자주식회사 다시점 영상 부호화 및 복호화 방법과 장치
KR20110014507A (ko) * 2009-08-05 2011-02-11 경희대학교 산학협력단 비디오 인코딩/디코딩 방법 및 그 장치
KR20110017337A (ko) * 2009-08-13 2011-02-21 경희대학교 산학협력단 추출 방법과 그 장치, 및 다시점 스케일러블 비디오 비트스트림 생성 방법과 그 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080037593A (ko) * 2006-10-25 2008-04-30 한국전자통신연구원 다시점 비디오의 스케일러블 코딩 및 디코딩 방법과, 코딩및 디코딩 장치
KR20080081407A (ko) * 2007-03-05 2008-09-10 경희대학교 산학협력단 하이브리드 다시점 및 계층화 비디오 코딩 방법과 장치
KR20110007928A (ko) * 2009-07-17 2011-01-25 삼성전자주식회사 다시점 영상 부호화 및 복호화 방법과 장치
KR20110014507A (ko) * 2009-08-05 2011-02-11 경희대학교 산학협력단 비디오 인코딩/디코딩 방법 및 그 장치
KR20110017337A (ko) * 2009-08-13 2011-02-21 경희대학교 산학협력단 추출 방법과 그 장치, 및 다시점 스케일러블 비디오 비트스트림 생성 방법과 그 장치

Similar Documents

Publication Publication Date Title
JP6874032B2 (ja) ピクチャの符号化/復号化方法及びこれを利用する装置
KR20220113326A (ko) 스케일러블 비디오 코딩 및 디코딩 방법과 이를 이용한 장치
KR20130037194A (ko) 비디오 부호화/복호화 방법 및 그 장치
KR102209109B1 (ko) 영상 부호화/복호화 방법 및 장치
WO2014092515A1 (ko) 비디오 인코딩 방법 및 비디오 디코딩 방법과 이를 이용하는 장치
KR20130037193A (ko) 스케일러블 비디오 부호화 및 복호화 방법과 이를 이용한 장치
KR20130107861A (ko) 인터 레이어 인트라 예측 방법 및 장치
KR102160242B1 (ko) 영상 복호화 방법 및 이를 이용하는 장치
WO2012173440A2 (ko) 스케일러블 비디오 코딩 및 디코딩 방법과 이를 이용한 장치
WO2013051899A2 (ko) 스케일러블 비디오 부호화 및 복호화 방법과 이를 이용한 장치
KR20130085088A (ko) 스케일러블 비디오 코딩에서의 고속 모드 결정 방법 및 그 장치
KR102356481B1 (ko) 비디오 부호화 방법 및 비디오 복호화 방법과 이를 이용하는 장치
KR20120028262A (ko) 엔트로피 부호화/복호화 방법 및 장치
KR101685556B1 (ko) 영상 부호화/복호화 방법 및 장치
WO2013051896A1 (ko) 비디오 부호화/복호화 방법 및 그 장치
KR102271878B1 (ko) 영상의 부호화/복호화 방법 및 이를 이용하는 장치
KR102219841B1 (ko) 비디오 부호화 방법 및 비디오 복호화 방법과 이를 이용하는 장치
KR102418524B1 (ko) 영상 부호화/복호화 방법 및 장치
US20150010083A1 (en) Video decoding method and apparatus using the same
KR20210013254A (ko) 영상 부호화/복호화 방법 및 장치
KR102325977B1 (ko) 영상의 복호화 방법 및 이를 이용하는 장치
WO2012036436A2 (ko) 엔트로피 부호화/복호화 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12838036

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 14350225

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 12838036

Country of ref document: EP

Kind code of ref document: A1