WO2015002460A1 - 복수의 레이어를 포함하는 영상의 부호화 및 복호화 방법 - Google Patents

복수의 레이어를 포함하는 영상의 부호화 및 복호화 방법 Download PDF

Info

Publication number
WO2015002460A1
WO2015002460A1 PCT/KR2014/005907 KR2014005907W WO2015002460A1 WO 2015002460 A1 WO2015002460 A1 WO 2015002460A1 KR 2014005907 W KR2014005907 W KR 2014005907W WO 2015002460 A1 WO2015002460 A1 WO 2015002460A1
Authority
WO
WIPO (PCT)
Prior art keywords
motion
information
candidate list
merge motion
view
Prior art date
Application number
PCT/KR2014/005907
Other languages
English (en)
French (fr)
Inventor
방건
이광순
허남호
김경용
허영수
박광훈
이윤진
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US14/901,766 priority Critical patent/US10080037B2/en
Priority to EP14819793.2A priority patent/EP3018908B1/en
Publication of WO2015002460A1 publication Critical patent/WO2015002460A1/ko
Priority to US16/058,117 priority patent/US10681378B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/573Motion compensation with multiple frame prediction using two or more reference frames in a given prediction direction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/463Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission

Definitions

  • the present invention relates to encoding and decoding processing of an image, and more particularly, to an encoding and decoding method of an image including a plurality of layers.
  • an inter prediction technique for predicting pixel values included in a current picture from a previous and / or subsequent picture in time, and predicting pixel values included in a current picture using pixel information in the current picture.
  • An intra prediction technique an entropy encoding technique of allocating a short code to a symbol with a high frequency of appearance and a long code to a symbol with a low frequency of appearance may be used.
  • Video compression technology is a technology that provides a constant network bandwidth under a limited operating environment of hardware without considering a fluid network environment.
  • a new compression technique is required to compress image data applied to a network environment in which bandwidth changes frequently, and a scalable video encoding / decoding method may be used for this purpose.
  • the 3D video vividly provides the user with a three-dimensional effect as seen and felt in the real world through the three-dimensional stereoscopic display device.
  • three-dimensional video standards are underway in MPEG of the video standardization organization ISO / IEC.
  • the 3D video standard includes standards for advanced data formats and related technologies that can support not only stereoscopic images but also autostereoscopic images using real images and their depth information maps.
  • FIG. 1 is a diagram illustrating a basic structure of a 3D video system, and shows an example of a system currently considered in a 3D video standard.
  • a 3D Content Production side generates a stereo camera, a depth camera, a multi-camera setup, and a two-dimensional image as a three-dimensional image. 2D / 3D conversion is used to acquire the image content at the time of N (N ⁇ 2).
  • the acquired image content may include video information of N viewpoints (N x Video), depth-map information thereof, and camera-related additional information.
  • the video content of the N view is compressed using a multi-view video encoding method (Multi-View), and the compressed bitstream is transmitted to the terminal through a network, for example, through digital video broadcasting (DVB).
  • Multi-View multi-view video encoding method
  • DVD digital video broadcasting
  • the receiving side decodes the received bitstream by using a multi-view video decoding method (Depth-Image? Based Rendering) to restore an image of N views.
  • a multi-view video decoding method (Depth-Image? Based Rendering) to restore an image of N views.
  • the reconstructed N-view image generates virtual view images of at least N views by a depth-map-based rendering (DIBR) process.
  • DIBR depth-map-based rendering
  • the generated virtual viewpoint images of N or more views are reproduced according to various stereoscopic display devices (for example, 2D display, M-View 3D display, and head-tracked stereo display) to provide a stereoscopic image to the user.
  • various stereoscopic display devices for example, 2D display, M-View 3D display, and head-tracked stereo display
  • the depth map used to generate the virtual view image represents a distance between the camera and the real object (depth information corresponding to each pixel at the same resolution as the real image) in a real number of bits in the real world.
  • FIG. 2 is a diagram illustrating a depth information map of “balloons” images used in the 3D video coding standard of MPEG, an international standardization organization.
  • FIG. 2 (a) is an actual image of the “balloons” image and shows a depth information map of the (b) balloons ”image of FIG. 2. (b) represents depth information at 8 bits per pixel.
  • H.264 / AVC MPEG-4 Part 10 Advanced Video Coding
  • MPEG Moving Picture Experts Group
  • HEVC High Efficiency Video Coding
  • VCEG Video Coding Experts Group
  • 3 is a diagram illustrating an example of an inter-view prediction structure in a 3D video codec.
  • the real image and its depth information map may be images obtained from not only one camera but also several cameras. Images obtained from multiple cameras can be encoded independently and can use a common two-dimensional video encoding codec.
  • images obtained from multiple cameras have correlations between viewpoints, images may be encoded by using different inter-view predictions in order to increase encoding efficiency.
  • View 1 is an image obtained from a camera (left camera) located on the left with respect to View 0, and View 2 is View 0.
  • the image is obtained from the camera on the right (right camera) based on).
  • View 1 and view 2 can perform inter-view prediction using view 0 as a reference image.
  • view 0 is viewed as view 1 And must be coded before View 2.
  • view 0 since view 0 may be independently encoded regardless of other views, it may be represented as an independent view.
  • View 1 and View 2 use View 0 as a reference image, they may be referred to as Dependent Views.
  • Independent viewpoint images can be encoded using a general two-dimensional video codec, whereas dependent viewpoint images must be inter-view predicted, and thus can be encoded using a three-dimensional video codec including an inter-view prediction process. .
  • the encoding using the depth information map may be performed.
  • FIG. 4 is a control block diagram schematically illustrating an example of a video encoder and decoder for encoding and decoding textures and depths of 3D.
  • video encoder 410 includes texture encoder 415 and depth encoder 417
  • video decoder 420 includes texture decoder 425 and depth decoder 427.
  • the texture encoder 415 receives a texture corresponding to an actual image and encodes it into a bitstream, and the texture decoder 425 receives and decodes the encoded bitstream from the texture encoder 415 into a decoded texture.
  • Depth encoder 417 encodes the depth, that is, the depth information map, and depth decoder 427 decodes the depth information map.
  • the real image and its depth information map When encoding the real image and its depth information map, it can be encoded / decoded independently of each other.
  • the encoding and decoding may be performed with reference to each other, that is, dependently.
  • the real image may be encoded / decoded using the depth information map that is already encoded / decoded.
  • the depth information map may be encoded / decoded using the real image that is already encoded / decoded.
  • FIG. 5 is a diagram illustrating a prediction structure of 3D image coding.
  • FIG. 5 illustrates a coding prediction structure for encoding a real image obtained from three cameras and a depth information map thereof.
  • three real images are represented by T0, T1, and T2 according to viewpoints
  • three depth information maps having the same position as the actual image are represented by D0, D1, and D2 according to viewpoints.
  • T0 and D0 are images acquired at View 0
  • T1 and D1 are images acquired at View 1
  • T2 and D2 are images acquired at View 2.
  • Each picture may be encoded into an I (Intra Picture), a P (Uni-prediction Picture), and a B (Bi-prediction Picture).
  • a prediction method for deriving motion information of a current block in an actual image may be divided into temporal prediction and inter-view prediction.
  • Temporal prediction is a prediction method using temporal correlation within the same viewpoint
  • inter-view prediction is a prediction method using inter-view correlation.
  • the motion information may include at least one of a motion vector, a reference picture number, prediction direction information indicating whether one-way prediction or bidirectional prediction, inter-view prediction, temporal prediction, or another prediction.
  • an arrow indicates a prediction direction, and as shown, an actual image and its depth information map may be encoded / decoded depending on each other. That is, the depth information map may be referred to for prediction of the real image, or the real image may be used for prediction of the depth information map.
  • the present invention provides a method for reducing implementation and computational complexity in a video codec.
  • the present invention also provides a method for increasing the reusability of an encoding / decoding module.
  • an embodiment of the present invention reduces the implementation complexity by applying a module used for encoding a general image for an independent viewpoint providing backward compatibility to the general image and depth information maps for the dependent viewpoint as it is, and Encoding efficiency may be improved by additionally applying a partial encoder to the general image and the depth information maps for the in view.
  • the present invention re-uses the encoding / decoding module of a general image for an independent view (View 0), thereby relying on dependent views (View 1 and View 2).
  • the present invention uses an encoding / decoding module used for encoding a general image for an independent view as it is, encodes / decodes a general image and depth information maps for a dependent view, and then uses an additional encoding / decoding module.
  • Dependent viewpoint Provided are a method and apparatus for re-encoding / re-decoding or resetting (or changing) general image and depth information maps for View 1 and View 2).
  • the present invention constructs a "basic merge motion candidate list" for a general image and depth information maps for a dependent viewpoint by using the "basic merge motion list configuration" module used for encoding a general image for an independent viewpoint. Thereafter, the present invention provides a method and apparatus for configuring an extended merge motion candidate list by resetting (or changing) the basic merge motion candidate list by using an additional merge motion list configuration module.
  • the present invention determines whether to perform an additional encoding / decoding module and an “additional merge motion list module” module through information (Texture / Depth information) and viewpoint information (ViewID information) on whether the image is a general image or a depth information map image. It provides a method and apparatus.
  • the extended merge motion candidate list is configured using the basic merge motion candidate list
  • additional motion information is added to the first item (or an item corresponding to an arbitrary position) of the basic merge motion candidate list.
  • the present invention compares the additional motion information with the motion information of the first item and determines whether to insert the additional motion information before inserting the additional motion information into the first item (or an item corresponding to an arbitrary position) of the “basic merge motion candidate list”. It provides a method and apparatus.
  • the present invention provides methods and apparatus for inserting additional motion information into arbitrary positions of the “basic merge motion candidate list” respectively, and resetting and rearranging the motion candidates.
  • a method for reducing implementation complexity and computational complexity in a video codec is provided.
  • the implementation complexity is reduced by applying a module used for encoding a general image for an independent viewpoint providing backward compatibility to the general image and depth information maps for the dependent viewpoint as it is,
  • the coding efficiency is improved by additionally applying the partial encoder to the general image and the depth information maps for the dependent viewpoints.
  • FIG. 1 is a diagram illustrating a basic structure of a 3D video system.
  • FIG. 2 is a diagram illustrating a depth information map for an image of "balloons”.
  • 3 is a diagram illustrating an example of an inter-view prediction structure in a 3D video codec.
  • FIG. 4 is a control block diagram schematically illustrating an example of a video encoder and decoder for encoding and decoding textures and depths of 3D.
  • 5 is a diagram illustrating a prediction structure of 3D image coding.
  • FIG. 6 is a control block diagram illustrating a configuration of a video encoding apparatus according to an embodiment of the present invention.
  • FIG. 7 is a control block diagram illustrating a configuration of a video decoding apparatus according to an embodiment of the present invention.
  • FIG. 8 is a control block diagram illustrating an example of an encoder structure diagram of a 3D video codec.
  • FIG. 9 is a diagram illustrating neighboring blocks used to construct a merge motion candidate list.
  • FIG. 10 is a schematic diagram illustrating a method of generating a merge motion candidate list.
  • FIG. 11 is a diagram illustrating an example of a hardware implementation for generating a merge motion candidate list.
  • FIG. 12 is a schematic diagram of a video encoder according to an embodiment of the present invention.
  • FIG. 13 is a schematic diagram illustrating a method of generating a merge motion candidate list according to an embodiment of the present invention.
  • FIG. 14 is a diagram for describing hardware for implementing a method of constructing a merge motion candidate list according to an embodiment of the present invention.
  • FIG. 15 illustrates a method of constructing a merge motion candidate list according to an embodiment of the present invention.
  • 16 illustrates a method of constructing an extended merge motion candidate list according to an embodiment of the present invention.
  • FIG 17 illustrates a method of constructing an extended merge motion candidate list according to another embodiment of the present invention.
  • FIG. 18 is a diagram for describing a method of constructing an extended merge motion candidate list according to another embodiment of the present invention.
  • 19 is a flowchart illustrating a configuration of an extended motion merge candidate list according to an embodiment of the present invention.
  • 20 is a flowchart illustrating a method of constructing an extended merge motion candidate list according to an embodiment of the present invention.
  • FIG. 21 is a control flow diagram following FIG. 20 using temporal motion information according to an embodiment of the present invention.
  • FIG. 22 is a control flowchart subsequent to FIG. 21 using inter-view motion information according to an embodiment of the present invention.
  • FIG. 23 is a control flowchart subsequent to FIG. 22 using disparity information between viewpoints according to an embodiment of the present invention.
  • FIG. 24 is a control flowchart subsequent to FIG. 23 using temporal motion information according to an embodiment of the present invention.
  • first and second may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another.
  • the first component may be referred to as the second component, and similarly, the second component may also be referred to as the first component.
  • each component shown in the embodiments of the present invention are shown independently to represent different characteristic functions, and do not mean that each component is made of separate hardware or one software component unit.
  • each component is included in each component for convenience of description, and at least two of the components may be combined into one component, or one component may be divided into a plurality of components to perform a function.
  • Integrated and separate embodiments of the components are also included within the scope of the present invention without departing from the spirit of the invention.
  • the components may not be essential components for performing essential functions in the present invention, but may be optional components for improving performance.
  • the present invention can be implemented including only the components essential for implementing the essentials of the present invention except for the components used for improving performance, and the structure including only the essential components except for the optional components used for improving performance. Also included in the scope of the present invention.
  • FIG. 6 is a block diagram illustrating a configuration of a video encoding apparatus according to an embodiment.
  • a multi-view video encoding / decoding method or apparatus may be implemented by an extension of a general video encoding / decoding method or apparatus that does not provide a multiview, and the block diagram of FIG. 6 is a multiview video.
  • An embodiment of an image encoding apparatus that may be the basis of an encoding apparatus is illustrated.
  • the image encoding apparatus 100 may include a motion predictor 111, a motion compensator 112, an intra predictor 120, a switch 115, a subtractor 125, and a converter 130. And a quantization unit 140, an entropy encoding unit 150, an inverse quantization unit 160, an inverse transform unit 170, an adder 175, a deblocking filter unit 180, and a reference image buffer 190.
  • the image encoding apparatus 100 may perform encoding in an intra mode or an inter mode on an input image and output a bit stream.
  • Intra prediction means intra prediction and inter prediction means inter prediction.
  • the switch 115 is switched to intra, and in the inter mode, the switch 115 is switched to inter.
  • the image encoding apparatus 100 may generate a prediction block for an input block of an input image and then encode a difference between the input block and the prediction block.
  • the selection of encoding or not encoding the generated block may be determined to be excellent in terms of rate distortion.
  • the generation of the prediction block may be generated through intra prediction or may be generated through inter prediction. In this case, selection of whether to perform intra prediction or inter prediction may be determined to be excellent in encoding efficiency in terms of rate distortion.
  • the intra predictor 120 may generate a prediction block by performing spatial prediction using pixel values of blocks that are already encoded around the current block.
  • the motion predictor 111 may obtain a motion vector by searching for a region that best matches an input block in the reference image stored in the reference image buffer 190 during the motion prediction process.
  • the motion compensator 112 may generate a prediction block by performing motion compensation using the motion vector and the reference image stored in the reference image buffer 190.
  • the subtractor 125 may generate a residual block by the difference between the input block and the generated prediction block.
  • the transform unit 130 may output a transform coefficient by performing transform on the residual block.
  • the quantization unit 140 may output the quantized coefficient by quantizing the input transform coefficient according to the quantization parameter.
  • the entropy encoding unit 150 entropy encodes a symbol according to a probability distribution based on values calculated by the quantization unit 140 or encoding parameter values calculated in the encoding process, thereby generating a bit stream. You can print
  • the entropy encoding method is a method of receiving a symbol having various values and expressing it in a decodable column while removing statistical redundancy.
  • Encoding parameters are parameters necessary for encoding and decoding, and may include information that may be inferred during encoding or decoding, as well as information encoded by an encoder and transmitted to a decoder, such as syntax elements. Means necessary information. Coding parameters may be, for example, intra / inter prediction modes, moving / motion vectors, reference picture indexes, coding block patterns, presence or absence of residual signals, transform coefficients, quantized transform coefficients, quantization parameters, block sizes, block partitioning information, or the like. May include statistics.
  • the residual signal may mean a difference between the original signal and the prediction signal, and a signal in which the difference between the original signal and the prediction signal is transformed or a signal in which the difference between the original signal and the prediction signal is converted and quantized It may mean.
  • the residual signal may be referred to as a residual block in block units.
  • the entropy encoder 150 may store a table for performing entropy encoding, such as a variable length coding (VLC) table, and the entropy encoder 150 may store the stored variable length encoding. Entropy encoding may be performed using the (VLC) table. In addition, the entropy encoder 150 derives a binarization method of a target symbol and a probability model of a target symbol / bin, and then performs entropy encoding using the derived binarization method or a probability model. You may.
  • VLC variable length coding
  • CABAC context-adaptive binary arithmetic coding
  • the quantized coefficients may be inversely quantized by the inverse quantizer 160 and inversely transformed by the inverse transformer 170.
  • the inverse quantized and inverse transformed coefficients are added to the prediction block through the adder 175 and a reconstruction block can be generated.
  • the reconstruction block passes through the deblocking filter unit 180, and the deblocking filter unit 180 restores at least one or more of a deblocking filter, a sample adaptive offset (SAO), and an adaptive loop filter (ALF). It can be applied to the reconstructed picture.
  • the reconstructed block that has passed through the deblocking filter unit 180 may be stored in the reference image buffer 190.
  • FIG. 7 is a block diagram illustrating a configuration of an image decoding apparatus according to an embodiment.
  • a scalable video encoding / decoding method or apparatus may be implemented by extension of a general video encoding / decoding method or apparatus that does not provide a multiview
  • the block diagram of FIG. 7 is a multiview video decoding.
  • An embodiment of an image decoding apparatus that may be the basis of an apparatus is shown.
  • the image decoding apparatus 200 may include an entropy decoding unit 210, an inverse quantization unit 220, an inverse transform unit 230, an intra predictor 240, a motion compensator 250, and deblocking.
  • the filter unit 260 and the reference image buffer 270 are included.
  • the image decoding apparatus 200 may receive a bitstream output from the encoder and perform decoding in an intra mode or an inter mode, and output a reconstructed image, that is, a reconstructed image.
  • the switch In the intra mode, the switch may be switched to intra, and in the inter mode, the switch may be switched to inter.
  • the image decoding apparatus 200 may generate a reconstructed block, that is, a reconstructed block by obtaining a residual block reconstructed from the received bitstream, generating a prediction block, and adding the reconstructed residual block and the prediction block.
  • the entropy decoding unit 210 may entropy decode the input bitstream according to a probability distribution to generate symbols including symbols in the form of quantized coefficients.
  • the entropy decoding method is a method of generating each symbol by receiving a binary string.
  • the entropy decoding method is similar to the entropy coding method described above.
  • the quantized coefficients are inversely quantized by the inverse quantizer 220 and inversely transformed by the inverse transformer 230, and as a result of the inverse quantization / inverse transformation of the quantized coefficients, a reconstructed residual block may be generated.
  • the intra predictor 240 may generate a predictive block by performing spatial prediction using pixel values of an already encoded block around the current block.
  • the motion compensator 250 may generate a prediction block by performing motion compensation using the motion vector and the reference image stored in the reference image buffer 270.
  • the reconstructed residual block and the prediction block are added through the adder 255, and the added block passes through the deblocking filter unit 260.
  • the deblocking filter unit 260 may apply at least one or more of the deblocking filter, SAO, and ALF to the reconstructed block or the reconstructed picture.
  • the deblocking filter 260 outputs a reconstructed image, that is, a reconstructed image.
  • the reconstructed picture may be stored in the reference picture buffer 270 to be used for inter prediction.
  • FIG. 8 is a control block diagram illustrating an example of an encoder structure diagram of a 3D video codec.
  • the video encoder 800 includes a plurality of view encoders 810 and 820 and a multiplexer 830.
  • the 3D video encoder of FIG. 8 receives three different viewpoint images as inputs, encodes them in the viewpoint encoders 810 and 820, and outputs one integrated bitstream through the multiplexer 830.
  • the images may include not only a texture view but also a depth view map.
  • the 3D video encoder of FIG. 8 encodes an image by using different encoders 810 and 820 according to view information (View ID information). That is, the image of view 0 is encoded by the existing 2D video codec for backward compatibility, and thus is encoded by the base layer encoder (view 0 encoder) 810. Images of View 1 and View 2 must be encoded with a three-dimensional video codec that includes an inter-view prediction algorithm and an algorithm that uses the correlation between the normal image and the depth information map. Encoding is performed at the view 2 encoder 820.
  • the enhancement layer encoder 820 is encoded.
  • a merge motion method is used to encode motion information during image encoding / decoding.
  • FIG. 9 is a diagram illustrating neighboring blocks used to construct a merge motion candidate list.
  • the merge motion candidate list is a call block (H or M) specified based on the neighboring blocks A, B, C, D, and E of the current block X and the block X 'existing at the same position in the reference image. Is generated based on The decoder and the encoder may determine whether motion information of the neighboring block and the call block can be used for the merge motion of the current block, and construct a merge motion candidate list with the motion information of the corresponding block if available.
  • FIG. 10 is a schematic diagram illustrating a method of generating a merge motion candidate list.
  • a merge motion configuration method for view 0 and other motion views (view 1 and view 2) are configured. Are separated from each other.
  • the viewpoint is determined according to the information (Texture / Depth information) and the view information (ViewID) information indicating whether the image is a normal image or a depth information map image.
  • One of the method of configuring the merge motion for 0 (View 0) and the method of configuring the merge motion for the other views (view 1 and view 2) is selected and performed. Then, finally, a merge motion candidate list for the current PU picture is output.
  • the normal image for view 0 that is, the merge motion candidate list for the base layer is configured using a merge motion configuration method for the base layer for backward compatibility.
  • the merge motion candidate list for the normal image and the depth information maps for the view 1 and the view 2 are constructed using the merge motion construction method for the enhancement layer.
  • the merging motion configuration method for the enhancement layer may include merging motion for the base layer. This is done by adding new candidates to the construction method or modifying the candidate list order.
  • the enhancement layer uses an improved merge motion method by modifying the merge motion method in the base layer. That is, the merge motion construction method for the enhancement layer includes the merge motion construction method for the base layer.
  • the merge motion construction method for the enhancement layer is more complicated than the merge motion construction for the base layer, and the computational complexity is also large.
  • both the merge motion configuration method for the base layer and the merge motion configuration method for the enhancement layer must be implemented, so that the complexity of implementation may be more than doubled.
  • FIG. 11 is a diagram illustrating an example of a hardware implementation for generating a merge motion candidate list.
  • a parameter input to the method of constructing a merge motion list applied to a general image of view 0 is a block of spatial motion A and block B corresponding to spatial motion information of block A of FIG. 9.
  • Spatial motion B corresponding to spatial motion information
  • Spatial motion C corresponding to spatial motion information of block C
  • Spatial motion D corresponding to spatial motion information of block D
  • Spatial motion E corresponding to spatial motion information of block E
  • Block Spatial motion H corresponding to the spatial motion information of H is included.
  • the parameters input to the merged motion list construction method for the view 1 and the view 2 are composed of the view 1 and the view 1 and the inputted parameters when the merged motion list for the view 0 is constructed. "Additional motion F” and “additional motion G” for the normal image and depth information map for view 2 are added.
  • the present invention provides a method for reducing the implementation complexity and the computational complexity of an encoding algorithm and a video codec for an enhancement layer (e.g., general image and depth information maps for View 1 and View 2). Suggest.
  • an enhancement layer e.g., general image and depth information maps for View 1 and View 2.
  • An object of the present invention is to reuse the "combined motion candidate list configuration" module for the base layer (general image for view 0) that has already been implemented in the form of a hardware chip as it is, to enhance the enhancement layer (for example, view 1 1) and view 2 (normal image and depth information map) to reduce the hardware implementation complexity.
  • a user having an encoding / decoding machine eg, a "merged motion candidate list construction” module
  • an additional module eg, "merge motion for the enhancement layer”. If only the candidate list construction ”module is attached to the existing encoder / decoder, 3D video service can be easily received.
  • FIG. 12 is a schematic diagram of a video encoder according to an embodiment of the present invention.
  • the video encoder includes a general encoder 1210 and a partial encoder 1220, and receives three different viewpoint images (View 0, View 1, and View 2) as inputs, and integrates one. Outputs a bitstream of.
  • the image may include a normal view and a depth view map.
  • the image is encoded through one encoder instead of an individual encoder for each viewpoint.
  • the video encoder of FIG. 12 is implemented in hardware that supports MPEG-1, MPEG-2, MPEG-4 Part 2 Visual, H.264 / AVC, VC-1, AVS, KTA, HEVC (H.265 / HEVC), and the like. Can be.
  • the general encoder 1210 is a module that encodes a general image of an independent view (View 0) providing backward compatibility.
  • the partial encoder 1220 performs additional encoding to improve encoding efficiency.
  • the partial encoding unit 1220 has depths other than view 0 (view 1 and view 2) other than view 0 of the general video. Encode the information map.
  • bitstreams for the view 0 of the general video and the bitstreams for the other views (View 1 and View 2) and the depth information maps may be multiplexed by the multiplexer 1230. By multiplexing into one bitstream.
  • the encoder according to the present embodiment applies an implementation complexity by applying a module used for encoding a general image for an independent viewpoint providing backward compatibility to the general image and depth information maps for the dependent view.
  • coding efficiency may be improved by additionally applying a partial encoder module to general images and depth information maps for dependent views.
  • the encoder of FIG. 12 may be applied to the entire encoding and decoding apparatus, or may be applied to each specific module.
  • FIG. 13 is a schematic diagram illustrating a method of generating a merge motion candidate list according to an embodiment of the present invention.
  • the inputs for constructing the merge motion candidate list are information (Texture / Depth information) and viewpoint information (ViewID information) on whether the current PU information (or image) and the input image are a normal image or a depth information map image. Is a merge motion candidate list for the current PU.
  • a step of "constructing a basic merge motion list" for the current PU is performed, and through this, a "basic merge motion candidate list” is output.
  • a known merge motion candidate list construction method such as HEVC may be applied to “basic merge motion list construction”.
  • a “additional merge motion list construction” step is additionally performed according to information (Texture / Depth information) and viewpoint information (ViewID information) on whether the current PU image is a normal image or a depth information map image.
  • the input in the “additional merge motion list construction” step is the “basic merge motion candidate list” which is the output of the “configuration of the basic merge motion list” step, and the output is the "expansion merge motion candidate list”.
  • the “additional merge motion list construction” step may be performed on the general image and the depth information maps for the view 1 and the view 2.
  • FIG. 14 is a diagram for describing hardware for implementing a method of constructing a merge motion candidate list according to an embodiment of the present invention.
  • a parameter input to the method of constructing a merge motion list applied to a general image for view 0 may include spatial motion A and block B corresponding to spatial motion information of block A of FIG. 9.
  • Spatial motion B corresponding to spatial motion information
  • Spatial motion C corresponding to spatial motion information of block C
  • Spatial motion D corresponding to spatial motion information of block D
  • Spatial motion E corresponding to spatial motion information of block E
  • Block Spatial motion H corresponding to the spatial motion information of H is included.
  • Base merge motion candidate list in case of normal image for view 0, and in case of normal image and depth information map for view 1 and view 2 Extended merge motion candidate list.
  • a process of constructing a basic merge motion list is performed by using neighboring blocks A, B, C, D, and E of FIG. 9 and candidate blocks H or M of the same location.
  • Merge motion candidate list is output.
  • a “additional merge motion list construction” process is additionally performed according to information (Texture / Depth information) and viewpoint information (ViewID information) on whether the current PU image is a normal image or a depth information map image. That is, in order to construct a merge motion list, in the case of a general image and a depth information map of view 1 and view 2, an additional merge motion list construction process is additionally performed.
  • the inputs of the “Build Additional Merge Motion List” step are “Basic Merge Motion Candidate List” and “Additional Motion F, Additional Motion G” output in the “Build Basic Merge Motion List” step, and the output is “Extended Merge Motion Candidate List”. to be.
  • the hardware implementation complexity may be reduced by using an additional partial module rather than a new module.
  • the “Merge Motion Candidate List Configuration” module for the base layer (general image of view 0), which has already been implemented in the form of a hardware chip, is reused as it is and the enhancement layer (for example, view 1) is used.
  • FIG. 15 illustrates a method of constructing a merge motion candidate list according to an embodiment of the present invention.
  • the inputs for constructing the merge motion candidate list are information on current PU information (or image) and whether it is a normal image or a depth map image (Texture / Depth information) and view information (ViewID information), and the output is sent to the current PU.
  • the merge motion candidate list for the.
  • a basic merge motion candidate list is constructed for the current PU.
  • a known merge motion candidate list construction method such as the existing HEVC may be used.
  • an extended merge motion candidate list is constructed according to information (Texture / Depth information) and viewpoint information (ViewID information) as to whether the current PU image is a normal image or a depth information map image.
  • the extended merge motion candidate list is performed on the general image and depth information maps of the view 1 and the view 2, and the “motion information F” may be added to the extended merge motion candidate list.
  • the output of the merge motion candidate list in FIG. 15 may be a “basic merge motion candidate list”. Otherwise, if the current PU is the general image and the depth information maps for the view 1 and the view 2, the output of the merge motion candidate list in FIG. 15 may be an “expanded merge motion candidate list”. In this case, the number of candidates in the extended merge motion candidate list may be larger than the number of candidates in the basic merge motion candidate list.
  • a method of constructing the "expanded merge motion candidate list", that is, a position at which additional motion information is added to the extended merge motion candidate list may be variously set.
  • 16 illustrates a method of constructing an extended merge motion candidate list according to an embodiment of the present invention.
  • additional motion information “motion information F” may be inserted into the first item (or an item corresponding to an arbitrary position) of the motion candidate list.
  • the first motion candidate “motion information A” of the “basic merge motion candidate list” and the additional motion candidate “motion candidate F” are compared with each other and the first motion list of the list is not the same. You can insert it into an item and vice versa.
  • an additional motion candidate may be added only when the reference pictures of the two motion information are not the same, and vice versa.
  • the “motion information F” may be added to the last item of the motion candidate list.
  • FIG 17 illustrates a method of constructing an extended merge motion candidate list according to another embodiment of the present invention.
  • the additional motion information is plural.
  • FIG. 17 illustrates that the motion information F and the motion information G are added to the motion candidate list when the additional motion information is the motion information F and the motion information G.
  • FIG. 17 illustrates that the motion information F and the motion information G are added to the motion candidate list when the additional motion information is the motion information F and the motion information G.
  • Motion information F is inserted into the first item of the motion candidate list (or an item corresponding to an arbitrary position), and another additional motion information, "motion information G” is the third item of the motion candidate list (or any information). Item corresponding to a location).
  • the original item in the "basic merge motion candidate list" and the additional motion candidate may be added to the list only when they are not the same and vice versa.
  • an additional motion candidate may be added only when the reference pictures of the two motion information are not the same, and vice versa.
  • the motion information F and the motion information G may be added to the first and second items of the motion candidate list or may be added to the last two items.
  • FIG. 18 is a diagram for describing a method of constructing an extended merge motion candidate list according to another embodiment of the present invention.
  • a motion vector having an arbitrary default value may be added to the list.
  • additional motion information may be added to the extended merge motion candidate list.
  • the motion information C, the motion information D, and the motion information E having default values are removed, and the motion information A, the motion information G, the motion information H, and the motion information I are removed from the motion information A and the motion information B.
  • an extended merge motion candidate list is constructed.
  • the basic encoder (or the basic module) may be applied to the general image and depth information maps for the view 1 and the view 2 as well as the general image for the view 0. .
  • the basic encoder (or the basic module) may be applied only to a small block unit of high complexity (eg, 8x8 unit or arbitrary block size).
  • the block is encoded using a basic encoder (or a basic module) below a small block size and is larger than the small block size.
  • a basic encoder or base module
  • a partial encoder or extension module.
  • the basic encoder or basic module
  • the basic encoder may refer to a configuration for performing a basic merge motion list construction step in FIGS. 13 and 15, and the partial encoder (or extension module) performs an additional merge motion list in FIGS. 13 and 15. It can mean a configuration.
  • 19 is a flowchart illustrating a configuration of an extended motion merge candidate list according to an embodiment of the present invention.
  • the extended motion merging candidate list is outputted. (S1940).
  • 20 to 24 are control flowcharts illustrating a method of constructing an extended merge motion candidate list according to an embodiment of the present invention.
  • L denotes the merged motion candidate list that is finally output
  • L denotes a basic merged motion candidate list construction step, that is, a process of deriving spatial motion information A1, ..., B2, and a process of deriving temporal motion information.
  • the basic merge motion candidate list constructed through the input is completed through the process of constructing the extended motion candidate list.
  • AvailableA1 can use the motion information of the left block A1 of the current block as a candidate
  • AvailableB1 can use the motion information of the upper block B1 of the current block as a candidate
  • AvailableB0 is the right top block B0 of the current block. Indicates whether or not the motion information can be used as a candidate.
  • nS represents the number of candidates included in L among the phonetic candidates of the left block A1, the top block B1, and the right top block block B0
  • nB represents the basic merge motion among the motion candidates included in L. Indicates the number of candidates.
  • nE represents the number of newly added candidates when constructing an extended merge motion candidate list.
  • VSP list indicates whether the motion information uses view synthesis prediction (VSP).
  • the VSP list (VPS []]. ) Is changed to 1. Thereafter, L is traversed backward and the number of motion information whose motion information is not the default value (DEFAULT) is set to nB. For example, if list L is composed of ⁇ A1, B1, B0, DEFAULT, DEFAULT, DEFAULT ⁇ , then nB is 3.
  • 21 is a control flowchart subsequent to FIG. 21 using temporal motion information according to an embodiment of the present invention. 21, motion information of an image block corresponding to the current depth information block may be added to the merge motion candidate list.
  • the search index pIdx of L is set to 0, and the extension candidate index nE is initialized to 0.
  • AvailableT indicates whether motion information of an image block at the same position is available as a candidate during depth map encoding
  • candT indicates motion information of an image block corresponding to the current depth information block.
  • nS and nB are decreased by one, otherwise only nB is decreased by one.
  • FIG. 22 is a control flowchart subsequent to FIG. 21 using inter-view motion information according to an embodiment of the present invention.
  • temporal inter-view motion information of the neighboring view block corresponding to the current block may be added to the merge motion candidate list.
  • the search index pIdx of L is set to 0, and the extension candidate index nE is initialized to 0.
  • AvailableIVT indicates whether a candidate is available for temporal inter-view motion information corresponding to the current block, and candIVT indicates motion information of the neighboring view block.
  • nS and nB are decreased by one, otherwise only nB is decreased by one.
  • FIG. 23 is a control flowchart subsequent to FIG. 22 using disparity information between viewpoints according to an embodiment of the present invention.
  • inter-view disparity may be added to the merge motion candidate list.
  • AvailableIVD indicates whether or not inter-view disparity is available as motion information, and candIVD indicates difference between viewpoints derived from different viewpoints.
  • the difference between viewpoints may be added at a position after the spatial motion candidate included in the basic merge motion candidate.
  • FIG. 24 is a control flowchart subsequent to FIG. 23 using temporal motion information according to an embodiment of the present invention.
  • inter-view disparity may be added to the merge motion candidate list.
  • n 0 for VPS indexing.
  • AvailableVSP indicates whether inter-view disparity is available for the current block.
  • CandVSP means motion information by the view synthesis prediction mode.
  • MAX means the maximum number of motion candidates constituting the extended merge motion list, and MAX may be, for example.
  • n + nB is less than MAX
  • L [n + nB] through L [MAX-1] is less than MAX
  • a zero vector may be added to the merge motion candidate as a motion vector.
  • the video encoding and decoding method described above may use High Efficiency Video Coding (HEVC), which is currently being jointly standardized by a Moving Picture Experts Group (MPEG) and a Video Coding Experts Group (VCEG). Therefore, the above-described encoding and decoding method may vary the application range according to the block size, the coding unit depth (CU) depth, or the transform unit (TU) depth, as shown in Table 1.
  • HEVC High Efficiency Video Coding
  • MPEG Moving Picture Experts Group
  • VCEG Video Coding Experts Group
  • Table 1 shows an example of a range determination method applying the encoding and decoding methods of the present invention when a given CU (or TU) depth is 2. "0" indicates that encoding and decoding according to the present invention is applied to the depth, and "1" indicates that encoding and decoding according to the present invention is not applied to the depth.
  • method A the method of applying only to a depth above a given depth
  • method B the method of applying only below a given depth
  • method C the method of applying only to a given depth
  • a variable ie, size or depth information
  • a variable for determining an application range may be set so that the encoder and the decoder use a predetermined value, or may use a value determined according to a profile or level.
  • the decoder may derive the value from the bitstream and use it.
  • reuse_enabled_flag informs whether a video encoding and decoding method according to the present invention is applied. If reuse_enabled_flag is '1', the encoding / decoding module of the general image for the independent view (View 0) may be reused so that the dependent view (View 1) and the view 2 ( General image and depth information maps for View 2)) are encoded / decoded (hereinafter, proposed method), and if reuse_enabled_flag is '0', general image for independent view (View 0). This means encoding / decoding general image and depth information maps of dependent views (View 1 and View 2) without reusing the encoding / decoding module. The reverse is also possible.
  • reuse_disabled_info is a syntax element that is activated when the proposed method is applied (or when "reuse_enabled_flag" is 1).
  • reuse_disabled_info may inform whether the proposed method is applied according to the depth of the CU (or the size of the CU, the size of the macro block, the size of the sub macro block, or the size of the block). For example, if reuse_disabled_info is '0', the proposed method may be applied to all block sizes. If reuse_disabled_info is '1', the proposed method can be applied only to units larger than 4x4 block size. Alternatively, when reuse_disabled_ info is '2', this may indicate that the proposed method is applied only to a unit larger than 8x8 blocks.
  • reuse_disabled_info when reuse_disabled_info is '1', this may indicate that the proposed method is applied only to a unit smaller than a 4x4 block size. That is, various application methods may be signaled using reuse_disabled_info.
  • the proposed method may be applied only to a P picture (or frame) or only to a B picture (or frame).
  • the encoding / decoding module used in the base layer of the scalable video codec may be applied to the enhancement layer as it is, and then the enhancement layer may be encoded / decoded using the partial encoding / decoding module.
  • the “Merge Additional Merge Motion List” module is additionally used.
  • the present invention reduces the implementation complexity by applying a module used for encoding a general image for an independent viewpoint providing backward compatibility to the general image and the depth information maps for the dependent viewpoint as it is, and the dependent viewpoint.
  • the coding efficiency can be improved by additionally applying the partial encoder to the general image and depth information maps for the independent view (View 1) and View 2 (View 2).

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

본 발명의 일 실시예예 따른 복수의 시점(view)을 포함하는 비디오 복호화 방법은 현재 블록의 주변 블록 및 시간 대응 블록의 움직임 정보를 이용하여 기본 병합 움직임 후보 리스트를 구성하는 단계와; 상기 현재 블록과 상이한 시점 영상 및 깊이 정보 맵의 움직임 정보를 이용하여 확장 병합 움직임 후보 리스트를 구성하는 단계를 포함하고, 상기 기본 병합 움직임 후보 리스트에 포함되어 있는 주변 블록 움직임 정보가 시점 합성 예측을 통하여 유도되었는지 여부를 판단하는 단계를 포함할 수 있다.

Description

복수의 레이어를 포함하는 영상의 부호화 및 복호화 방법
본 발명은 영상의 부호화 및 복호화 처리에 관한 것으로서, 보다 상세하게는 복수의 레이어를 포함하는 영상의 부호화 및 복호화 방법에 관한 것이다.
최근 HD(High Definition) 해상도를 가지는 방송 서비스가 국내뿐만 아니라 세계적으로 확대되면서, 많은 사용자들이 고해상도, 고화질의 영상에 익숙해지고 있으며 이에 따라 많은 기관들이 차세대 영상기기에 대한 개발에 박차를 가하고 있다. 또한 HDTV와 더불어 HDTV의 4배 이상의 해상도를 갖는 UHD(Ultra High Definition)에 대한 관심이 증대되면서 보다 높은 해상도, 고화질의 영상에 대한 압축기술이 요구되고 있다.
영상 압축을 위해, 시간적으로 이전 및/또는 이후의 픽쳐로부터 현재 픽쳐에 포함된 화소값을 예측하는 인터(inter) 예측 기술, 현재 픽쳐 내의 화소 정보를 이용하여 현재 픽쳐에 포함된 화소값을 예측하는 인트라(intra) 예측 기술, 출현 빈도가 높은 심볼(symbol)에 짧은 부호를 할당하고 출현 빈도가 낮은 심볼에 긴 부호를 할당하는 엔트로피 부호화 기술 등이 사용될 수 있다.
영상 압축 기술에는 유동적인 네트워크 환경을 고려하지 않고 하드웨어의 제한적인 동작 환경하에서 일정한 네트워크 대역폭을 제공하는 기술이 있다. 그러나 수시로 대역폭이 변화하는 네트워크 환경에 적용되는 영상 데이터를 압축하기 위해서는 새로운 압축 기술이 요구되고, 이를 위해 스케일러블(scalable) 비디오 부호화/복호화 방법이 사용될 수 있다.
한편, 3차원 비디오는 3차원 입체 디스플레이 장치를 통해 사용자에게 실 세계에서 보고 느끼는 것과 같은 입체감을 생생하게 제공한다. 이와 관련된 연구로써 비디오 표준화 단체인 ISO/IEC의 MPEG에서는 3차원 비디오 표준이 진행 중이다. 3차원 비디오 표준은 실제 영상과 그것의 깊이 정보 맵을 이용하여 스테레오스코픽 영상뿐만 아니라 오토스테레오스코픽 영상의 재생 등을 지원할 수 있는 진보된 데이터 형식과 그에 관련된 기술에 대한 표준을 포함하고 있다.
도 1은 3차원 비디오 시스템의 기본 구조를 도시한 도면으로 현재 3차원 비디오 표준에서 고려하고 있는 시스템의 일 예를 나타내고 있다.
도시된 바와 같이, 컨텐츠를 생성하는 송신 측(3D Content Production)에서는 스테레오 카메라(stereo camera), 깊이 정보 카메라(depth camera), 다시점 카메라(mult-camera setup), 2차원 영상을 3차원 영상으로 변환(2D/3D conversion) 등을 이용하여 N(N≥2) 시점의 영상 콘텐츠를 획득한다.
획득된 영상 콘텐츠에는 N 시점의 비디오 정보(N x Video)와 그것의 깊이 정보 맵(Depth-map) 정보 그리고 카메라 관련 부가정보 등이 포함될 수 있다.
N 시점의 영상 콘텐츠는 다시점 비디오 부호화 방법(Multi-View)을 사용하여 압축되며, 압축된 비트스트림은 네트워크를 통해, 예를 들어, DVB(Digital Video Broadcasting) 등을 통해 단말로 전송된다.
수신 측에서는 전송 받은 비트스트림을 다시점 비디오 복호화 방법(Depth-Image ?Based Rendering)하여 복호화하여 N 시점의 영상을 복원한다.
복원된 N 시점의 영상은 깊이 정보 맵 기반 랜더링(DIBR; Depth-Image-Based Rendering) 과정에 의해 N 시점 이상의 가상 시점 영상들을 생성한다.
생성된 N 시점 이상의 가상시점 영상들은 다양한 입체 디스플레이 장치(예컨대, 2D Display, M-View 3D Display, Head-Tracked Stereo Display)에 맞게 재생되어 사용자에게 입체감이 있는 영상을 제공하게 된다.
가상 시점 영상을 생성하는데 사용되는 깊이 정보 맵은 실세계에서 카메라와 실제 사물(object) 간의 거리(실사 영상과 동일한 해상도로 각 화소에 해당하는 깊이 정보)를 일정한 비트수로 표현한 것이다.
도 2는 국제 표준화 기구인 MPEG의 3차원 비디오 부호화 표준에서 사용 중인 “balloons” 영상에 대한 깊이 정보 맵을 도시한 도면이다.
도 2의 (a)는 “balloons” 영상에 대한 실제 영상이고, 도 2의 (b) balloons” 영상에 대한 깊이 정보 맵을 나타낸다. (b)는 깊이 정보를 화소당 8비트로 표현한 것이다.
실제 영상과 그것의 깊이 정보 맵을 부호화하기 7위한 일예로, H.264/AVC(MPEG-4 Part 10 Advanced Video Coding)를 이용할 수도 있고, 또 다른 방법의 일 예로 MPEG(Moving Picture Experts Group)과 VCEG(Video Coding Experts Group)에서 공동으로 표준화를 진행한 HEVC(High Efficiency Video Coding) 국제 동영상 표준를 사용할 수 있다.
도 3은 3D 비디오 코덱에서 시점 간 예측 구조의 일 예를 도시한 도면이다.
실제 영상과 그것의 깊이 정보 맵은 하나의 카메라뿐만 아니라 여러 개의 카메라에서 획득한 영상일 수 있다. 여러 개의 카메라에서 획득한 영상은 독립적으로 부호화될 수 있으며, 일반적인 2차원 비디오 부호화 코덱을 사용할 수 있다.
또한, 여러 개의 카메라에서 획득한 영상은 시점 간의 상관성이 존재하므로, 부호화 효율을 높이기 위하여 서로 다른 시점간 예측을 사용하여 영상들을 부호화할 수 있다.
도 3에 도시된 바와 같이, 시점 1(View 1)은 시점 0(View 0)을 기준으로 왼쪽에 위치한 카메라(왼쪽 카메라)에서 획득한 영상이고, 시점 2(View 2)는 시점 0(View 0)을 기준으로 오른쪽에 위치한 카메라(오른쪽 카메라)에서 획득한 영상이다.
시점 1(View 1)과 시점 2(View 2)는 시점 0(View 0)을 참조 영상으로 사용하여 시점 간 예측을 수행할 수 있으며, 이런 경우 시점 0(View 0)이 시점 1(View 1)과 시점 2(View 2)보다 먼저 부호화되어야 한다. 이때, 시점 0(View 0)은 다른 시점과 상관없이 독립적으로 부호화될 수 있으므로 독립적인 시점(Independent View)이라고 표현될 수 있다.
반면, 시점 1(View 1)과 시점 2(View 2)는 시점 0(View 0)을 참조 영상으로 사용하므로 의존적인 시점(Dependent View)라고 표현할 수 있다. 독립적인 시점 영상은 일반적인 2차원 비디오 코덱을 사용하여 부호화 될 수 있는 반면 의존적인 시점 영상은 시점간 예측을 수행하여야 하므로, 시점간 예측 프로세스가 포함되어 있는 3차원 비디오 코덱을 사용하여 부호화할 수 있다.
또한, 시점 1(View 1)과 시점 2(View 2)의 부호화 효율을 증가시키기 위하여 깊이 정보 맵을 이용한 부호화를 수행할 수 있다.
도 4는 3D의 텍스쳐와 깊이를 인코딩 및 디코딩하는 비디오 인코더 및 디코더의 일 예를 개략적으로 도시한 제어 블럭도이다.
도시된 바와 같이, 비디오 인코더(410)는 텍스쳐 인코더(415) 및 깊이 인코더(417)를 포함하고, 비디오 디코더(420)는 텍스쳐 디코더(425) 및 깊이 디코더(427)를 포함한다.
텍스쳐 인코더(415)는 실제 영상에 해당하는 텍스쳐(texture)를 입력 받아 이를 비트스트림으로 인코딩하고, 텍스쳐 디코더(425)는 텍스쳐 인코더(415)에서 인코딩된 비트스트림을 수신하여 디코딩하여 디코딩된 텍스쳐로 출력한다.
깊이 인코더(417)는 깊이(depth), 즉 깊이 정보 맵을 인코딩하고, 깊이 디코더(427)는 깊이 정보 맵을 디코딩 한다.
실제 영상과 그것의 깊이 정보 맵을 부호화할 때, 서로 독립적으로 부호화/복호화할 수 있다.
또한, 도 4와 같이 영상과 깊이 정보 맵을 부호화할 때, 서로를 참조하여 즉, 의존적으로 부호화/복호화 할 수 있다. 이미 부호화/복호화된 깊이 정보 맵을 이용하여 실제 영상을 부호화/복호화할 수 있으며, 반대로 이미 부호화/복호화된 실제 영상을 이용하여 깊이 정보 맵을 부호화/복호화 할 수 있다.
도 5는 3D 영상 코딩의 예측 구조를 도시한 도면이다. 구체적으로 도 5는 카메라 3대에서 획득한 실제 영상과 그것의 깊이 정보 맵을 부호화하기 위한 부호화 예측 구조를 나타내고 있다.
도 5에서 3개의 실제 영상은 시점에 따라 T0, T1, T2로 표현되고, 실제 영상과 동일한 위치의 3개의 깊이 정보 맵을 시점에 따라 D0, D1, D2로 표현된다.
여기서 T0와 D0는 시점 0(View 0)에서 획득한 영상이며, T1와 D1는 시점 1(View 1)에서 획득한 영상이며, T2와 D2는 시점 2(View 2)에서 획득한 영상이다. 각 픽쳐는 I(Intra Picture), P(Uni-prediction Picture), B(Bi-prediction Picture)로 부호화될 수 있다.
실제 영상에서 현재 블록의 움직임 정보를 유도하기 위한 예측 방법은 크게 시간적 예측과 시점간 예측으로 나뉠 수 있다. 시간적 예측은 동일한 시점 내에서 시간적 상관성을 이용한 예측 방법이고, 시점간 예측은 시점간 상관성을 이용한 예측 방법이다. 하나의 픽쳐의 예측을 위하여 시간적 예측과 시점간 예측은 서로 혼용되어 사용될 수 있다. 움직임 정보는 움직임 벡터, 참조 영상 번호와 단방향 예측인지 양방향 예측인지 나타내는 예측 방향 정보, 시점간 예측인지 시간적 예측인지, 또 다른 예측인지를 나타내는 정보 중 적어도 하나를 포함할 수 있다.
도 5에서 화살표는 예측 방향을 나타내며, 도시된 바와 같이, 실제 영상과 그것의 깊이 정보 맵은 서로 의존적으로 부호화/복호화 될 수 있다. 즉, 실제 영상의 예측을 위하여 깊이 정보 맵을 참조할 수도 있고, 깊이 정보 맵의 예측의 위하여 실제 영상을 이용할 수도 있다.
한편, 이러한 3D 영상을 디코딩 하기 위하여는 하드웨어 및 소프트웨어의 구현 복잡도가 증가되고 계산 복잡도가 증가되는 문제점이 존재한다.
본 발명은 비디오 코덱에서 구현 복잡도 및 계산 복잡도를 감소시키는 방법을 제공한다.
또한, 본 발명은 부호화/복호화 모듈의 재사용성을 증가시키는 방법을 제공한다.
또한, 본 발명의 일 실시예는 역방향 호환성을 제공하는 독립적인 시점에 대한 일반 영상의 부호화에 사용되는 모듈을 의존적인 시점에 대한 일반 영상과 깊이 정보 맵들에 그대로 적용하여 구현 복잡도를 감소시키고, 의존적인 시점에 대한 일반 영상과 깊이 정보 맵들에 부분 인코더를 추가적으로 적용함으로써 부호화 효율을 향상시킬 수 있다.
본 발명은 독립적인 시점(Independent View; 시점 0(View 0))에 대한 일반 영상의 부호화/복호화 모듈을 재사용하여 의존적인 시점(dependent view; 시점 1(View 1)과 시점 2(View 2))에 대한 일반 영상과 깊이 정보 맵들을 부호화/복호화하는 방법 및 장치를 제공한다.
본 발명은 독립적인 시점에 대한 일반 영상의 부호화에 사용되는 부호화/복호화 모듈을 그대로 사용하여, 의존적인 시점에 대한 일반 영상과 깊이 정보 맵들을 부호화/복호화한 후, 추가적인 부호화/복호화 모듈을 이용하여 의존적인 시점; 시점 1(View 1)과 시점 2(View 2))에 대한 일반 영상과 깊이 정보 맵들을 재부호화/재복호화하거나 혹은 재설정(혹은 변경)하는 방법 및 장치를 제공한다.
본 발명은 독립적인 시점에 대한 일반 영상의 부호화에 사용되는 “기본 병합 움직임 리스트 구성“ 모듈을 그대로 사용하여, 의존적인 시점에 대한 일반 영상과 깊이 정보 맵들에 대한 “기본 병합 움직임 후보 리스트”를 구성한 후, 추가적으로 “추가 병합 움직임 리스트 구성” 모듈을 이용하여 “기본 병합 움직임 후보 리스트”를 재설정(혹은 변경)하여 “확장 병합 움직임 후보 리스트”를 구성하는 방법 및 장치를 제공한다.
본 발명은 일반 영상인지 혹은 깊이 정보 맵 영상인지에 대한 정보(Texture/Depth 정보)와 시점 정보(ViewID 정보)를 통해, 추가적인 부호화/복호화 모듈과 “추가 병합 움직임 리스트 구성” 모듈의 수행여부를 결정하는 방법 및 장치를 제공한다.
본 발명은 “기본 병합 움직임 후보 리스트”를 이용하여 “확장 병합 움직임 후보 리스트”를 구성하는데 있어서, 추가적인 움직임 정보를 “기본 병합 움직임 후보 리스트”의 첫 번째 항목(혹은 임의의 위치에 해당하는 항목)에 삽입하는 방법 및 장치를 제공한다.
본 발명은 추가적인 움직임 정보를 “기본 병합 움직임 후보 리스트”의 첫번째 항목(혹은 임의의 위치에 해당하는 항목)에 삽입하기 전에, 추가적인 움직임 정보와 첫번째 항목의 움직임 정보를 서로 비교하여 삽입 여부를 결정하는 방법 및 장치를 제공한다.
본 발명은 추가적인 움직임 정보들을 “기본 병합 움직임 후보 리스트”의 임의의 위치에 각각 삽입하고, 움직임 후보들을 재설정 및 재배치하는 방법 및 장치를 제공한다.
본 발명에 따르면 비디오 코덱에서 구현 복잡도 및 계산 복잡도를 감소시키는 방법이 제공된다.
또한, 본 발명에 따르면 부호화/복호화 모듈의 재사용성을 증가시키는 방법이 제공된다.
또한, 본 발명의 일 실시예에 따르면 역방향 호환성을 제공하는 독립적인 시점에 대한 일반 영상의 부호화에 사용되는 모듈을 의존적인 시점에 대한 일반 영상과 깊이 정보 맵들에 그대로 적용하여 구현 복잡도를 감소시키고, 의존적인 시점에 대한 일반 영상과 깊이 정보 맵들에 부분 인코더를 추가적으로 적용함으로써 부호화 효율이 향상된다.
도 1은 3차원 비디오 시스템의 기본 구조를 도시한 도면이다.
도 2는 “balloons” 영상에 대한 깊이 정보 맵을 도시한 도면이다
도 3은 3D 비디오 코덱에서 시점 간 예측 구조의 일 예를 도시한 도면이다.
도 4는 3D의 텍스쳐와 깊이를 인코딩 및 디코딩하는 비디오 인코더 및 디코더의 일 예를 개략적으로 도시한 제어 블럭도이다.
도 5는 3D 영상 코딩의 예측 구조를 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 비디오 부호화 장치의 구성을 나타내는 제어 블록도이다.
도 7은 본 발명의 일 실시예에 따른 비디오 복호화 장치의 구성을 나타내는 제어 블록도이다.
도 8은 3차원 비디오 코덱(3D Video Codec)의 인코더 구조도의 일 예를 나타낸 제어 블럭도이다.
도 9는 병합 움직임 후보 리스트를 구성하는데 사용되는 주변 블록들을 나타낸 도면이다.
도 10은 병합 움직임 후보 리스트를 생성하는 방법을 설명하기 위한 개략도이다.
도 11은 병합 움직임 후보 리스트를 생성하는 하드웨어 구현의 일 예를 도시단 도면이다.
도 12는 본 발명의 일 실시예에 따른 비디오 부호화기의 개략도이다.
도 13은 본 발명의 일 실시예에 따른 병합 움직임 후보 리스트를 생성하는 방법을 설명하기 위한 개략도이다.
도 14는 본 발명의 일 실시예에 따른 병합 움직임 후보 리스트 구성 방법을 구현하는 하드웨어를 설명하기 위한 도면이다.
도 15는 본 발명의 일 실시예에 따른 병합 움직임 후보 리스트 구성 방법을 설명하기 위한 도면이다.
도 16은 본 발명의 일 실시예에 따른 확장 병합 움직임 후보 리스트 구성 방법을 설명하기 위한 도면이다.
도 17은 본 발명의 다른 실시예에 따른 확장 병합 움직임 후보 리스트 구성 방법을 설명하기 위한 도면이다.
도 18은 본 발명의 또 다른 실시예에 따른 확장 병합 움직임 후보 리스트 구성 방법을 설명하기 위한 도면이다.
도 19는 본 발명의 일 실시예에 따른 확장 움직임 병합 후보 리스트 구성을 설명하기 위한 제어 흐름도이다.
도 20은 본 발명의 일 실시예에 따른 확장 병합 움직임 후보 리스트 구성 방법을 설명하기 위한 제어 흐름도이다.
도 21은 본 발명의 일 실시예에 따른 시간적 움직임 정보를 이용한 도 20에 후속적인 제어 흐름도이다.
도 22는 본 발명의 일 실시예에 따른 시점간 움직임 정보를 이용한 도 21에 후속적인 제어 흐름도이다.
도 23은 본 발명의 일 실시예에 따른 시점간 차이(disparity) 정보를 이용한 도 22에 후속적인 제어 흐름도이다.
도 24는 본 발명의 일 실시예에 따른 시간적 움직임 정보를 이용한 도 23에 후속적인 제어 흐름도이다.
이하, 도면을 참조하여 본 발명의 실시 형태에 대하여 구체적으로 설명한다. 본 명세서의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
어떤 구성 요소가 다른 구성 요소에 “연결되어” 있다거나 “접속되어” 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 아울러, 본 발명에서 특정 구성을 “포함”한다고 기술하는 내용은 해당 구성 이외의 구성을 배제하는 것이 아니며, 추가적인 구성이 본 발명의 실시 또는 본 발명의 기술적 사상의 범위에 포함될 수 있음을 의미한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
또한 본 발명의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 포함한 것으로 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있고 이러한 각 구성부의 통합된 실시예 및 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리범위에 포함된다.
또한, 일부의 구성 요소는 본 발명에서 본질적인 기능을 수행하는 필수적인 구성 요소는 아니고 단지 성능을 향상시키기 위한 선택적 구성 요소일 수 있다. 본 발명은 단지 성능 향상을 위해 사용되는 구성 요소를 제외한 본 발명의 본질을 구현하는데 필수적인 구성부만을 포함하여 구현될 수 있고, 단지 성능 향상을 위해 사용되는 선택적 구성 요소를 제외한 필수 구성 요소만을 포함한 구조도 본 발명의 권리범위에 포함된다.
도 6은 비디오 부호화 장치의 일 실시예에 따른 구성을 나타내는 블록도이다. 다시점(multi-view) 비디오 부호화/복호화 방법 또는 장치는 다시점을 제공하지 않는 일반적인 영상 부호화/복호화 방법 또는 장치의 확장(extension)에 의해 구현될 수 있으며, 도 6의 블록도는 다시점 비디오 부호화 장치의 기초가 될 수 있는 영상 부호화 장치의 일 실시예를 나타낸다.
도 6을 참조하면, 상기 영상 부호화 장치(100)는 움직임 예측부(111), 움직임 보상부(112), 인트라 예측부(120), 스위치(115), 감산기(125), 변환부(130), 양자화부(140), 엔트로피 부호화부(150), 역양자화부(160), 역변환부(170), 가산기(175), 디블록킹 필터부(180) 및 참조영상 버퍼(190)를 포함한다.
영상 부호화 장치(100)는 입력 영상에 대해 인트라(intra) 모드 또는 인터(inter) 모드로 부호화를 수행하고 비트스트림(bit stream)을 출력할 수 있다. 인트라 예측은 화면 내 예측, 인터 예측은 화면 간 예측을 의미한다. 인트라 모드인 경우 스위치(115)가 인트라로 전환되고, 인터 모드인 경우 스위치(115)가 인터로 전환된다. 영상 부호화 장치(100)는 입력 영상의 입력 블록에 대한 예측 블록을 생성한 후, 입력 블록과 예측 블록의 차분을 부호화할 수 있다.
이때 생성된 차분에 대한 블록을 부호화할지 혹은 부호화하지 않을지에 대한 선택은 율왜곡 관점에서 부호화 효율이 우수한 것으로 판단될 수 있다. 예측 블록의 생성은 화면 내 예측 과정을 통해 생성되거나 혹은 화면 간 예측을 통해 생성될 수 있다. 이때 화면 내 예측을 수행할 지 혹은 화면 간 예측을 수행할 지에 대한 선택은 율왜곡 관점에서 부호화 효율이 우수한 것으로 판단될 수 있다.
인트라 모드인 경우, 인트라 예측부(120)는 현재 블록 주변의 이미 부호화된 블록의 화소값을 이용하여 공간적 예측을 수행하여 예측 블록을 생성할 수 있다.
인터 모드인 경우, 움직임 예측부(111)는, 움직임 예측 과정에서 참조 영상 버퍼(190)에 저장되어 있는 참조 영상에서 입력 블록과 가장 매치가 잘 되는 영역을 찾아 움직임 벡터를 구할 수 있다. 움직임 보상부(112)는 움직임 벡터와 참조 영상 버퍼(190)에 저장되어 있는 참조 영상을 이용하여 움직임 보상을 수행함으로써 예측 블록을 생성할 수 있다.
감산기(125)는 입력 블록과 생성된 예측 블록의 차분에 의해 잔여 블록(residual block)을 생성할 수 있다. 변환부(130)는 잔여 블록에 대해 변환(transform)을 수행하여 변환 계수(transform coefficient)를 출력할 수 있다. 그리고 양자화부(140)는 입력된 변환 계수를 양자화 파라미터에 따라 양자화하여 양자화된 계수(quantized coefficient)를 출력할 수 있다.
엔트로피 부호화부(150)는, 양자화부(140)에서 산출된 값들 또는 부호화 과정에서 산출된 부호화 파라미터 값 등을 기초로, 심볼(symbol)을 확률 분포에 따라 엔트로피 부호화하여 비트스트림(bit stream)을 출력할 수 있다. 엔트로피 부호화 방법은 다양한 값을 갖는 심볼을 입력 받아, 통계적 중복성을 제거하면서, 복호 가능한 2진수의 열로 표현하는 방법이다.
여기서, 심볼이란 부호화/복호화 대상 구문 요소(syntax element) 및 부호화 파라미터(coding parameter), 잔여 신호(residual signal)의 값 등을 의미한다. 부호화 파라미터는 부호화 및 복호화에 필요한 매개변수로서, 구문 요소와 같이 부호화기에서 부호화되어 복호화기로 전달되는 정보뿐만 아니라, 부호화 혹은 복호화 과정에서 유추될 수 있는 정보를 포함할 수 있으며 영상을 부호화하거나 복호화할 때 필요한 정보를 의미한다. 부호화 파라미터는 예를 들어 인트라/인터 예측모드, 이동/움직임 벡터, 참조 영상 색인, 부호화 블록 패턴, 잔여 신호 유무, 변환 계수, 양자화된 변환 계수, 양자화 파라미터, 블록 크기, 블록 분할 정보 등의 값 또는 통계를 포함할 수 있다. 또한 잔여 신호는 원신호와 예측 신호의 차이를 의미할 수 있고, 또한 원신호와 예측 신호의 차이가 변환(transform)된 형태의 신호 또는 원신호와 예측 신호의 차이가 변환되고 양자화된 형태의 신호를 의미할 수도 있다. 잔여 신호는 블록 단위에서는 잔여 블록이라 할 수 있다.
엔트로피 부호화가 적용되는 경우, 높은 발생 확률을 갖는 심볼에 적은 수의 비트가 할당되고 낮은 발생 확률을 갖는 심볼에 많은 수의 비트가 할당되어 심볼이 표현됨으로써, 부호화 대상 심볼들에 대한 비트열의 크기가 감소될 수 있다. 따라서 엔트로피 부호화를 통해서 영상 부호화의 압축 성능이 높아질 수 있다.
엔트로피 부호화를 위해 지수 골룸(exponential golomb), CAVLC(Context-Adaptive Variable Length Coding), CABAC(Context-Adaptive Binary Arithmetic Coding)과 같은 부호화 방법이 사용될 수 있다. 예를 들어, 엔트로피 부호화부(150)에는 가변 길이 부호화(VLC: Variable Lenghth Coding/Code) 테이블과 같은 엔트로피 부호화를 수행하기 위한 테이블이 저장될 수 있고, 엔트로피 부호화부(150)는 저장된 가변 길이 부호화(VLC) 테이블을 사용하여 엔트로피 부호화를 수행할 수 있다. 또한 엔트로피 부호화부(150)는 대상 심볼의 이진화(binarization) 방법 및 대상 심볼/빈(bin)의 확률 모델(probability model)을 도출한 후, 도출된 이진화 방법 또는 확률 모델을 사용하여 엔트로피 부호화를 수행할 수도 있다.
양자화된 계수는 역양자화부(160)에서 역양자화되고 역변환부(170)에서 역변환될 수 있다. 역양자화, 역변환된 계수는 가산기(175)를 통해 예측 블록과 더해지고 복원 블록이 생성될 수 있다.
복원 블록은 디블록킹 필터부(180)를 거치고, 디블록킹 필터부(180)는 디블록킹 필터(deblocking filter), SAO(Sample Adaptive Offset), ALF(Adaptive Loop Filter) 중 적어도 하나 이상을 복원 블록 또는 복원 픽쳐에 적용할 수 있다. 디블록킹 필터부(180)를 거친 복원 블록은 참조 영상 버퍼(190)에 저장될 수 있다.
도 7은 영상 복호화 장치의 일 실시예에 따른 구성을 나타내는 블록도이다. 도 1에서 상술한 바와 같이 스케일러블 비디오 부호화/복호화 방법 또는 장치는 다시점을 제공하지 않는 일반적인 영상 부호화/복호화 방법 또는 장치의 확장에 의해 구현될 수 있으며, 도 7의 블록도는 다시점 비디오 복호화 장치의 기초가 될 수 있는 영상 복호화 장치의 일 실시예를 나타낸다.
도 6를 참조하면, 상기 영상 복호화 장치(200)는 엔트로피 디코딩부(210), 역양자화부(220), 역변환부(230), 인트라 예측부(240), 움직임 보상부(250), 디블록킹 필터부(260) 및 참조 영상 버퍼(270)를 포함한다.
영상 복호화 장치(200)는 부호화기에서 출력된 비트스트림을 입력 받아 인트라 모드 또는 인터 모드로 복호화를 수행하고 재구성된 영상, 즉 복원 영상을 출력할 수 있다. 인트라 모드인 경우 스위치가 인트라로 전환되고, 인터 모드인 경우 스위치가 인터로 전환될 수 있다. 영상 복호화 장치(200)는 입력 받은 비트스트림으로부터 복원된 잔여 블록(residual block)을 얻고 예측 블록을 생성한 후 복원된 잔여 블록과 예측 블록을 더하여 재구성된 블록, 즉 복원 블록을 생성할 수 있다.
엔트로피 디코딩부(210)는, 입력된 비트스트림을 확률 분포에 따라 엔트로피 복호화하여, 양자화된 계수(quantized coefficient) 형태의 심볼을 포함한 심볼들을 생성할 수 있다. 엔트로피 복호화 방법은 2진수의 열을 입력 받아 각 심볼들을 생성하는 방법이다. 엔트로피 복호화 방법은 상술한 엔트로피 부호화 방법과 유사하다.
양자화된 계수는 역양자화부(220)에서 역양자화되고 역변환부(230)에서 역변환되며, 양자화된 계수가 역양자화/역변환 된 결과, 복원된 잔여 블록(residual block)이 생성될 수 있다.
인트라 모드인 경우, 인트라 예측부(240)는 현재 블록 주변의 이미 부호화된 블록의 화소값을 이용하여 공간적 예측을 수행하여 예측 블록을 생성할 수 있다. 인터 모드인 경우, 움직임 보상부(250)는 움직임 벡터 및 참조 영상 버퍼(270)에 저장되어 있는 참조 영상을 이용하여 움직임 보상을 수행함으로써 예측 블록을 생성할 수 있다.
복원된 잔여 블록과 예측 블록은 가산기(255)를 통해 더해지고, 더해진 블록은 디블록킹 필터부(260)를 거친다. 디블록킹 필터부(260)는 디블록킹 필터, SAO, ALF 중 적어도 하나 이상을 복원 블록 또는 복원 픽쳐에 적용할 수 있다. 디블록킹 필터부(260)는 재구성된 영상, 즉 복원 영상을 출력한다. 복원 영상은 참조 영상 버퍼(270)에 저장되어 화면 간 예측에 사용될 수 있다.
상술한 바와 같이, 대용량의 3차원 영상 콘텐츠는 비트스트림의 양을 감소시키기 위하여 효율적으로 압축되어야 한다. 부호화 효율을 증가시키기 위하여 서로 다른 시점간 상관성을 이용할 수 있으며, 일반 영상(Texture View)과 깊이 정보 맵(Depth View)간의 상관성을 이용할 수 있다.
도 8은 3차원 비디오 코덱(3D Video Codec)의 인코더 구조도의 일 예를 나타낸 제어 블럭도이다.
도시된 바와 같이 비디오 인코더(800)는 복수의 시점 인코더(810, 820) 및 다중화부(830)를 포함한다.
도 8의 3차원 비디오 인코더는 3개의 서로 다른 시점 영상들을 입력으로 받아 시점 인코더(810, 820)에서 부호화하고, 다중화부(830)를 통해 통합된 하나의 비트스트림을 출력한다. 이때 영상들에는 일반 영상(Texture View)뿐만 아니라 깊이 정보 맵(Depth View)도 포함될 수 있다.
도 8의 3차원 비디오 인코더는 시점 정보(View ID 정보)에 따라 서로 다른 인코더(810, 820)를 이용하여 영상을 부호화된다. 즉, 시점 0(View 0)의 영상은 역방향 호환성(Backward compatibility)를 위하여 기존 2차원 비디오 코덱에서 부호화되어야 하므로, 기본 계층 인코더(시점 0 인코더, 810)에서 부호화 된다. 시점 1(View 1)과 시점 2(View 2)의 영상들은 시점간 예측 알고리즘과 일반 영상과 깊이 정보 맵 간의 상관성을 이용한 알고리즘이 포함된 3차원 비디오 코덱으로 부호화되어야 하므로 향상 계층 인코더(시점 1 또는 시점 2 인코더, 820)에서 부호화된다.
또한, 일반 영상이 아닌 깊이 정보 맵의 경우, 일반 영상의 부호화된 정보를 활용하여 부호화될 수 있으므로, 향상 계층 인코더(820)에서 부호화된다.
따라서, 시점 0(View 0)의 영상을 부호화할 때에 비해, 시점 1(View 1)과 시점 2(View 2)의 영상을 부호화할 때 더욱 복잡한 인코더가 요구되며, 또한 기본 계층의 일반 영상을 부호화하는 경우와 비교하여 깊이 정보 맵을 부호화할 때 더욱 복잡한 인코더가 요구된다. 또한, 이를 구현하기 위한 하드웨어 및 소프트웨어의 구현 복잡도가 증가되고 계산 복잡도가 증가되는 문제점이 존재한다.
한편, HEVC에서는 영상 부호화/복호화 시 움직임 정보의 부호화를 위하여 병합 움직임(merge) 방법을 이용한다.
도 9는 병합 움직임 후보 리스트를 구성하는데 사용되는 주변 블록들을 나타낸 도면이다.
병합 움직임 후보 리스트는 현재 블록(X)의 주변 블록(A, B, C, D, E)과 참조 영상 내 동일 위치에 존재하는 블록(X')에 기초하여 특정되는 콜 블록(H 또는 M))에 기초하여 생성된다. 디코더 및 인코더는 상기 주변 블록 및 콜 블록의 움직임 정보가 현재 블록의 병합 움직임에 이용될 수 있는지를 판단하여, 이용 가능한 경우 해당 블록의 움직임 정보로 병합 움직임 후보 리스트를 구성할 수 있다.
도 10은 병합 움직임 후보 리스트를 생성하는 방법을 설명하기 위한 개략도이다.
도 10에 도시된 바와 같이, 3D 영상 코딩은 시점 0(View 0)에 대한 병합 움직임 구성 방법과 나머지 다른 시점들(시점 1(View 1)과 시점 2(View 2))에 대한 병합 움직임 구성 방법으로 서로 구분되어 있다.
현재 PU(Prediction Unit, PB(Prediction Block) 또는 임의 크기의 블록) 영상이 입력되면 일반 영상인지 혹은 깊이 정보 맵 영상인지에 대한 정보(Texture/Depth 정보)와 시점 정보(ViewID) 정보에 따라, 시점 0(View 0)에 대한 병합 움직임 구성 방법과 나머지 다른 시점들(시점 1(View 1)과 시점 2(View 2))에 대한 병합 움직임 구성 방법 중에 하나가 선택되어 수행된다. 그런 후, 최종적으로 현재 PU 영상에 대한 병합 움직임 후보 리스트가 출력된다.
여기서 시점 0(View 0)에 대한 일반 영상, 즉 기본 계층에 대한 병합 움직임 후보 리스트는 역방향 호환성을 위해 기본 계층을 위한 병합 움직임 구성 방법을 이용하여 구성된다. 반면, 시점 1(View 1)과 시점 2(View 2)에 대한 일반 영상과 깊이 정보 맵에 대한 병합 움직임 후보 리스트는 향상 계층을 위한 병합 움직임 구성 방법을 이용하여 구성된다.
도 10에 도시된 바와 같이, 향상 계층(기본 계층과 다른 시점들(시점 1(View 1)과 시점 2(View 2))과 깊이 정보 맵)을 위한 병합 움직임 구성 방법은 기본 계층을 위한 병합 움직임 구성 방법에 새로운 후보를 추가하거나 후보 리스트 순서를 수정하는 방법으로 수행된다. 향상 계층에서의 부호화 효율을 증가시키기 위해서, 향상 계층에서는 기본 계층에서의 병합 움직임 방법을 수정하여 향상된 병합 움직임 방법을 사용한다. 즉, 향상 계층을 위한 병합 움직임 구성 방법은 기본 계층을 위한 병합 움직임 구성 방법을 포함한다.
향상 계층을 위한 병합 움직임 구성 방법은 기본 계층을 위한 병합 움직임 구성보다 복잡하게 구성되며, 계산 복잡도 역시 크다. 또한, 하드웨어 혹은 소프트웨어로 구현하는 측면에서 기본 계층을 위한 병합 움직임 구성 방법과 향상 계층을 위한 병합 움직임 구성 방법을 모두 구현해야 하므로 구현 복잡도가 2배 이상 증가할 수 있다.
도 11은 병합 움직임 후보 리스트를 생성하는 하드웨어 구현의 일 예를 도시단 도면이다.
도 11에 도시된 바와 같이, 시점 0(View 0)에 대한 일반 영상에 적용되는 병합 움직임 리스트 구성 방법에 입력되는 파라미터는 도 9의 블록 A의 공간적 움직임 정보에 해당하는 공간적 움직임 A, 블록 B의 공간적 움직임 정보에 해당하는 공간적 움직임 B, 블록 C의 공간적 움직임 정보에 해당하는 공간적 움직임 C, 블록 D의 공간적 움직임 정보에 해당하는 공간적 움직임 D, 블록 E의 공간적 움직임 정보에 해당하는 공간적 움직임 E, 블록 H의 공간적 움직임 정보에 해당하는 공간적 움직임 H를 포함한다.
시점 1(View 1)과 시점 2(View 2)에 대한 병합 움직임 리스트 구성 방법에 입력되는 파라미터는 시점 0(View 0)에 대한 병합 움직임 리스트 구성 시 입력되는 상기 파라미터에 시점 1(View 1)과 시점 2(View 2)에 대한 일반 영상과 깊이 정보 맵을 위한 "추가 움직임 F”와 “추가 움직임 G”가 추가된다.
상술한 바와 같이 움직임 후보 리스트 생성을 위한 입력 파라미터가 추가되기 때문에 시점 1(View 1)과 시점 2(View 2)에 대한 일반 영상과 깊이 정보 맵을 위한 새로운 병합 움직임 리스트 구성 모듈이 필요하다. 이는 하드웨어의 구현 복잡도를 증가시킬 수 있다.
따라서, 본 발명은 향상 계층(예컨대, 시점 1(View 1)과 시점 2(View 2)에 대한 일반 영상과 깊이 정보 맵)을 위한 부호화 알고리즘 및 비디오 코덱의 구현 복잡도 및 계산 복잡도를 감소시키는 방법을 제안한다.
본 발명의 목적은 이미 하드웨어 칩 형태로 구현이 완료된 기본 계층(시점0(View 0)에 대한 일반 영상)을 위한 “병합 움직임 후보 리스트 구성” 모듈을 그대로 재사용하여 향상 계층(예컨대, 시점 1(View 1)과 시점 2(View 2)에 대한 일반 영상과 깊이 정보 맵)에 적용함으로써, 하드웨어 구현 복잡도를 감소시키는 것이다.
즉, 2차원 영상 서비스에 사용되는 기본 계층을 위한 부호화/복화화기(예를 들어, “병합 움직임 후보 리스트 구성” 모듈)를 가지고 있는 사용자는 추가적인 모듈(예를 들어, 향상 계층을 위한 “병합 움직임 후보 리스트 구성” 모듈)만 기존 부호화/복호화기에 부착하면 손쉽게 3차원 영상 서비스를 받을 수 있게 된다.
이하, 본 발명에서 제안하는 영상의 부호화 및 복호화 방법에 대하여 구체적으로 설명한다.
도 12는 본 발명의 일 실시예에 따른 비디오 부호화기의 개략도이다.
도시된 바와 같이, 비디오 부호화기는 일반 인코딩부(1210) 및 부분 인코딩부(1220)를 포함하고, 3개의 서로 다른 시점 영상(View 0, View 1, View 2)들을 입력으로 받아 부호화하고 통합된 하나의 비트스트림을 출력한다. 이때 영상은 일반 영상(Texture View)과 깊이 정보 맵(Depth View)을 포함할 수 있다.
영상의 도 8과 달리 시점 별로 개별적인 인코더가 아닌 하나의 인코더를 통하여 부호화된다. 도 12의 비디오 부호화기는 MPEG-1, MPEG-2, MPEG-4 Part 2 Visual, H.264/AVC, VC-1, AVS, KTA, HEVC(H.265/HEVC) 등을 지원하는 하드웨어로 구현될 수 있다.
일반 인코딩부(1210)는 역방향 호환성을 제공하는 독립적인 시점(Independent View; 시점 0(View 0)에 대한 일반 영상을 부호화하는 모듈이다.
부분 인코딩부(1220)는 부호화 효율을 높이기 위하여 추가적인 인코딩을 수행하는 부분으로 일반 영상의 시점 0(View 0)이 아닌 다른 시점(시점 1(View 1)과 시점 2(View 2))들과 깊이 정보 맵을 인코딩한다.
그런 후, 일반 영상의 시점 0(View 0)에 대한 비트스트림과 그리고 다른 시점(시점 1(View 1)과 시점 2(View 2))들과 깊이 정보 맵들에 대한 비트스트림들은 다중화부(1230)에 의하여 하나의 비트스트림으로 다중화된다.
즉, 본 실시예에 따른 부호화기는 역방향 호환성을 제공하는 독립적인 시점에 대한 일반 영상의 부호화에 사용되는 모듈을 의존적인 시점(Dependent view)에 대한 일반 영상과 깊이 정보 맵들에 그대로 적용하여 구현 복잡도를 감소시키고, 의존적인 시점에 대한 일반 영상과 깊이 정보 맵들에 부분 인코더 모듈을 추가적으로 적용함으로써 부호화 효율을 향상시킬 수 있다.
도 12의 부호화기는 부호화 및 복호화 장치 전체에 적용할 수 있으며, 특정한 모듈 각각에 적용할 수도 있다.
도 13은 본 발명의 일 실시예에 따른 병합 움직임 후보 리스트를 생성하는 방법을 설명하기 위한 개략도이다.
병합 움직임 후보 리스트를 구성하기 위한 입력은 현재 PU 정보(또는 영상)와 입력되는 영상이 일반 영상인지 혹은 깊이 정보 맵 영상 인지에 대한 정보(Texture/Depth 정보)와 시점 정보(ViewID 정보)이며, 출력은 현재 PU에 대한 병합 움직임 후보 리스트이다.
도시된 바와 같이, 우선, 기본적으로 현재 PU에 대한 “기본 병합 움직임 리스트 구성” 단계가 수행되고, 이를 통해 “기본 병합 움직임 후보 리스트”가 출력된다. 예를 들어, “기본 병합 움직임 리스트 구성”에는 기존의 HEVC와 같은 공지된 병합 움직임 후보 리스트 구성 방법이 적용될 수 있다.
다음으로, 현재 PU 영상이 일반 영상인지 혹은 깊이 정보 맵 영상인지에 대한 정보(Texture/Depth 정보)와 시점 정보(ViewID 정보)에 따라 “추가 병합 움직임 리스트 구성” 단계가 추가적으로 수행된다.
이 때,“추가 병합 움직임 리스트 구성” 단계에서 입력은 “기본 병합 움직임 리스트 구성” 단계의 출력인 “기본 병합 움직임 후보 리스트”이고, 출력은 “확장 병합 움직임 후보 리스트”이다. “추가 병합 움직임 리스트 구성” 단계는 시점 1(View 1)과 시점 2(View 2)에 대한 일반 영상과 깊이 정보 맵들에 대하여 수행될 수 있다.
도 14는 본 발명의 일 실시예에 따른 병합 움직임 후보 리스트 구성 방법을 구현하는 하드웨어를 설명하기 위한 도면이다.
도 14에 도시된 바와 같이, 시점 0(View 0)에 대한 일반 영상에서 적용되는 병합 움직임 리스트 구성 방법에 입력되는 파라미터는 도 9의 블록 A의 공간적 움직임 정보에 해당하는 공간적 움직임 A, 블록 B의 공간적 움직임 정보에 해당하는 공간적 움직임 B, 블록 C의 공간적 움직임 정보에 해당하는 공간적 움직임 C, 블록 D의 공간적 움직임 정보에 해당하는 공간적 움직임 D, 블록 E의 공간적 움직임 정보에 해당하는 공간적 움직임 E, 블록 H의 공간적 움직임 정보에 해당하는 공간적 움직임 H를 포함한다.
이에 대한 출력은 시점0(View 0)에 대한 일반 영상의 경우에는 “기본 병합 움직임 후보 리스트”이고, 시점 1(View 1)과 시점 2(View 2)에 대한 일반 영상과 깊이 정보 맵의 경우에는 “확장 병합 움직임 후보 리스트”이다.
우선, 도 9의 주변 블록(A, B, C, D, E)과 그리고 동일 위치의 후보 블록(H 또는 M))을 이용하여 “기본 병합 움직임 리스트 구성” 과정이 수행되고, 이를 통해“기본 병합 움직임 후보 리스트”가 출력된다.
다음으로, 현재 PU 영상이 일반 영상인지 혹은 깊이 정보 맵 영상인지에 대한 정보(Texture/Depth 정보)와 시점 정보(ViewID 정보)에 따라 “추가 병합 움직임 리스트 구성” 과정이 추가적으로 수행된다. 즉, 병합 움직임 리스트를 구성하기 위하여 시점 1(View 1)과 시점 2(View 2)에 대한 일반 영상과 깊이 정보 맵일 경우에는 “추가 병합 움직임 리스트 구성” 과정이 추가적으로 수행된다.
“추가 병합 움직임 리스트 구성” 단계의 입력은 “기본 병합 움직임 리스트 구성” 단계에서 출력된 “기본 병합 움직임 후보 리스트”와 “추가 움직임 F, 추가 움직임 G”이며, 출력은 “확장 병합 움직임 후보 리스트”이다.
시점 1(View 1)과 시점 2(View 2)에 대한 일반 영상과 깊이 정보 맵를 위한 병합 움직임 후보 리스트를 구성하기 위해서, 새로운 모듈이 아닌 추가적인 부분 모듈을 사용함으로써 하드웨어 구현 복잡도를 감소시킬 수 있다. 즉, 이미 하드웨어 칩 형태로 구현이 완료된 기본 계층(시점0(View 0)에 대한 일반 영상)을 위한 “병합 움직임 후보 리스트 구성” 모듈을 그대로 재사용하여 향상 계층(예컨대, 시점 1(View 1)과 시점 2(View 2)에 대한 일반 영상과 깊이 정보 맵)에 적용함으로써, 하드웨어 구현 복잡도를 감소시킬 수 있다.
도 15는 본 발명의 일 실시예에 따른 병합 움직임 후보 리스트 구성 방법을 설명하기 위한 도면이다.
병합 움직임 후보 리스트를 구성하기 위한 입력은 현재 PU 정보(혹은 영상)와 일반 영상인지 혹은 깊이 정보 맵 영상인지에 대한 정보(Texture/Depth 정보)와 시점 정보(ViewID 정보)이며, 출력은 현재 PU에 대한 병합 움직임 후보 리스트이다.
우선, 현재 PU에 대하여 기본 병합 움직임 후보 리스트가 구성된다. 기본 병합 움직임 후보 리스트를 구성하기 위하여 기존의 HEVC와 같은 공지된 병합 움직임 후보 리스트 구성 방법이 사용될 수 있다.
다음으로, 현재 PU 영상이 일반 영상인지 혹은 깊이 정보 맵 영상인지에 대한 정보(Texture/Depth 정보)와 시점 정보(ViewID 정보)에 따라 확장 병합 움직임 후보 리스트가 구성된다. 이때, 확장 병합 움직임 후보 리스트는 시점 1(View 1)과 시점 2(View 2)에 대한 일반 영상과 깊이 정보 맵들에 대하여 수행되며, “움직임 정보 F”가 확장 병합 움직임 후보 리스트에 추가될 수 있다.
만약, 현재 PU가 일반 영상의 시점 0(View 0)이면, 도 15에서 병합 움직임 후보 리스트의 출력은 “기본 병합 움직임 후보 리스트”가 될 수 있다. 그렇지 않고 현재 PU가 시점 1(View 1)과 시점 2(View 2)에 대한 일반 영상과 깊이 정보 맵들이면, 도 15에서 병합 움직임 후보 리스트의 출력은 “확장 병합 움직임 후보 리스트”가 될 수 있다. 이때 “확장 병합 움직임 후보 리스트”의 후보 개수는 “기본 병합 움직임 후보 리스트”의 후보 개수보다 많을 수 있다.
이 때, “확장 병합 움직임 후보 리스트“를 구성하는 방법, 즉 추가적인 움직임 정보가 확장 병합 움직임 후보 리스트에 추가되는 위치는 다양하게 설정될 수 있다.
도 16은 본 발명의 일 실시예에 따른 확장 병합 움직임 후보 리스트 구성 방법을 설명하기 위한 도면이다.
실시 일예로, 도 16과 같이, 추가적인 움직임 정보인 “움직임 정보 F”를 움직임 후보 리스트의 첫 번째 항목(혹은 임의의 위치에 해당하는 항목)에 삽입할 수 있다. 이때, 추가적인 움직임 후보를 삽입하기 전에 “기본 병합 움직임 후보 리스트”의 첫 번째 움직임 후보인 “움직임 정보 A”와 추가적인 움직임 후보인 “움직임 후보 F”를 서로 비교하여 동일하지 않을 경우에 리스트의 첫 번째 항목에 삽입할 수 있으며, 그 역도 가능하다.
두 움직임 정보를 비교할 때, 두 움직임 벡터의 차이가 임의의 임계값 이내일 경우에는 추가적인 움직임 후보는 추가되지 않을 수 있으며, 그 역도 가능하다.
또한, 두 움직임 정보의 참조 영상이 동일하지 않을 경우에만 추가적인 움직임 후보를 추가할 수 있으며, 그 역도 가능하다.
다른 예에 따르면“움직임 정보 F”는 움직임 후보 리스트의 마지막 항목에 추가될 수도 있다.
도 17은 본 발명의 다른 실시예에 따른 확장 병합 움직임 후보 리스트 구성 방법을 설명하기 위한 도면이다.
본 실시예에 따를 경우, 추가적인 움직임 정보는 복 수개이다. 도 17은 추가적인 움직임 정보가 움직임 정보 F와 움직임 정보 G인 경우, 움직임 정보 F와 움직임 정보 G를 움직임 후보 리스트에 추가하는 것을 나타내고 있다.
“움직임 정보 F”는 움직임 후보 리스트의 첫 번째 항목(혹은 임의의 위치에 해당하는 항목)에 삽입되고, 또 다른 추가적인 움직임 정보인 “움직임 정보 G”는 움직임 후보 리스트의 세 번째 항목(혹은 임의의 위치에 해당하는 항목)에 추가될 수 있다.
이때, 추가적인 움직임 후보를 추가하기 전에 “기본 병합 움직임 후보 리스트”에 있던 원래 항목과 추가적인 움직임 후보를 서로 비교하여 동일하지 않을 경우에만 리스트에 추가할 수 있으며, 그 역도 가능하다.
두 움직임 정보를 비교할 때, 두 움직임 벡터의 차이가 임의의 임계값 이내일 경우에는 추가적인 움직임 후보는 추가되지 않을 수 있으며, 그 역도 가능하다.
또한, 두 움직임 정보의 참조 영상이 동일하지 않을 경우에만 추가적인 움직임 후보를 추가할 수 있으며, 그 역도 가능하다.
다른 예에 따르면, 움직임 정보 F와 움직임 정보 G는 움직임 후보 리스트의 첫 번째 및 두 번째 항목에 추가될 수도 있고, 마지막 두 개의 항목에 추가될 수도 있다.
도 18은 본 발명의 또 다른 실시예에 따른 확장 병합 움직임 후보 리스트 구성 방법을 설명하기 위한 도면이다.
기본 병합 움직임 후보 리스트 구성 시, 주변 블록으로부터 유도된 움직임 정보들로 리스트를 구성하지 못할 경우, 임의 기본값의 움직임 벡터를 리스트에 추가할 수 있다.
이러한 경우 도 18과 같이, 기본값들로 채워진 움직임 후보들을 미리 제거한 후, 추가적인 움직임 정보를 확장 병합 움직임 후보 리스트에 추가할 수 있다.
기본 병합 움직임 후보 리스트의 엔트리 중 기본값을 갖는 움직임 정보 C, 움직임 정보 D, 움직임 정보 E는 제거되고, 움직임 정보 A, 움직임 정보 B에 움직임 정보 F, 움직임 정보 G, 움직임 정보 H, 움직임 정보 I가 추가되어 확장 병합 움직임 후보 리스트가 구성된다.
이를 통해 보다 많은 추가적인 움직임 정보가 움직임 후보로 이용될 수 있다.
도 12 내지 도 18을 참조하여 설명된 영상의 부호화 및 복호화 방법은 다양하게 변형 가능하다.
예를 들어, 기본 인코더(혹은 기본 모듈)를 시점 0(View 0)에 대한 일반 영상뿐만 아니라 시점 1(View 1)과 시점 2(View 2)에 대한 일반 영상과 깊이 정보 맵들에 적용할 수 있다.
또 다른 실시 예로, 기본 인코더(혹은 기본 모듈)를 복잡도가 높은 작은 블록 단위(예컨대, 8x8 단위 혹은 임의의 블록 크기)에만 적용할 수 있다. 이때, 시점 1(View 1)과 시점 2(View 2)에 대한 일반 영상과 깊이 정보 맵들에 대하여, 작은 블록 크기 이하에서는 기본 인코더(혹은 기본 모듈)를 사용하여 부호화하고, 작은 블록 크기보다 큰 블록에 대해서는 기본 인코더(혹은 기본 모듈)와 부분 인코더(혹은 확장 모듈)를 사용하여 부호화할 수 있다. 기본 인코더(혹은 기본 모듈)는 도 13과 도 15에서 기본 병합 움직임 리스트 구성 단계를 수행하는 구성을 의미할 수 있으며, 또한 부분 인코더(혹은 확장 모듈)은 도 13과 도 15에서 추가 병합 움직임 리스트 수행하는 구성을 의미할 수 있다.
도 19는 본 발명의 일 실시예에 따른 확장 움직임 병합 후보 리스트 구성을 설명하기 위한 제어 흐름도이다.
우선, 기본 움직임 병합 후보 리스트가 생성된다(S1910).
그런 후, 기본 움직임 병합 후보 리스트에서 기본값을 제거하는 리스트 정리가 수행된다(S1920).
마지막으로, 주변 블록의 시점 합성 예측 사용 정보, 주변 시점 블록의 움직임 정보, 시점 간 차이를 이용하여 3D 영상을 위하여 필요한 추가로 사용될 정보를리스트에 추가함으로써(S1930), 확장 움직임 병합후보 리스트가 출력된다(S1940).
도 20 내지 도 24는 은 본 발명의 일 실시예에 따른 확장 병합 움직임 후보 리스트 구성 방법을 설명하기 위한 제어 흐름도이다.
L은 최종적으로 출력되는 병합 움직임 후보 리스트를 의미하고, 이러한 L은 이는 기본 병합 움직임 후보 리스트 구성 단계, 즉 공간적 움직임 정보(A1,…,B2) 유도 과정, 시간적 움직임 정보(temporal candidate) 유도 과정을 거쳐 구성된 기본 병합 움직임 후보 리스트를 입력으로 하여 확장 움직임 후보 리스트 구성 과정을 통하여 완성된다.
AvailableA1는 현재 블록의 좌측 블록(A1)의 움직임 정보를 후보로 사용 가능한지 여부, AvailableB1은 현재 블록의 상단 블록(B1)의 움직임 정보를 후보로 사용 가능한지 여부, AvailableB0는 현재 블록의 우상단 블록(B0)의 움직임 정보를 후보로 사용 가능한지 여부를 나타낸다.
nS는 좌측 블록(A1), 상단 블록(B1), 우상단 블록 블록(B0)의 음직임 후보 중, L에 포함 되어 있는 후보의 개수를 나타내고, nB는 L에 포함되어 있는 움직임 후보 중 기본 병합 움직임 후보의 개수를 나타낸다. nE는 확장 병합 움직임 후보 리스트 구성 시 새로 추가 된 후보 개수를 나타낸다.
또한, VSP 리스트는 움직임 정보가 시점 합성 예측(VSP)을 사용하였는지 여부를 나타낸다.
도 20은 현재 L에 포함되어 있는 움직임 정보 중 공간적 움직임 정보가 시점 합성 예측을 통하여 유도된 것인지 여부를 판단한다.
도시된 바와 같이, 현재 블록의 좌측 블록(A1)의 움직임 정보, 상단 블록(B1)의 움직임 정보, 우상단 블록(B0)의 움직임 정보가 각각 시점 합성 예측을 사용하여 유도되었다면 VSP 리스트(VPS[])의 값은 1로 변경된다. 그 후, L을 역방향으로 순회하며 움직임 정보가 기본값(DEFAULT)가 아닌 움직임 정보의 개수를 nB로 설정한다. 예를 들어, 리스트 L이 {A1, B1, B0, DEFAULT, DEFAULT, DEFAULT}로 구성되어 있다면 nB는 3이 된다.
도시하지 않았지만, 기본 병합 움직임 후보 리스트를 구성하는 공간적 움직임 후보 중 좌하단 블록(A0)의 움직임 정보 및 좌상단 블록(B2)의 움직임 정보에 대하여도 시점 합성 예측을 사용하여 유도되었는지 여부가 판단될 수 있다.
도 21은 본 발명의 일 실시예에 따른 시간적 움직임 정보를 이용한 도 21에 후속적인 제어 흐름도이다. 도 21을 통하여 현재 깊이 정보 블록에 상응하는 영상 블록의 움직임 정보를 병합 움직임 후보 리스트에 추가할 수 있다.
우선, L의 검색 인덱스 pIdx를 0으로 설정하고, 확장 후보 인덱스 nE를 0으로 초기화 한다.
AvailableT는 깊이정보 맵 부호화 시, 동일한 위치의 영상 블록의 움직임 정보를 후보로 이용 가능한지 여부를 나타내고, candT는 현재 깊이 정보 블록에 상응하는 영상 블록의 움직임 정보를 나타낸다.
AvailableT가 1이고 L[0]부터 L[nB-1] 중의 움직임 정보와 candT와 중복 된다면, 중복되는 위치를 pIdx라 할 때 L[0]부터 L[pIdx-1] 값을 한 칸씩 오른쪽으로 이동(shift)시킨 후 L[0] 위치에 candT를 추가한다. 즉, 기본 병합 확장 리스트를 구성했던 움직임 정보와 candT가 동일하다면, 병합 확장 리스트의 첫 번째 엔트리부터 동일한 위치까지의 엔트리까지 한 개씩 다음 순서로 밀려나고, L[0]에 candT가 추가된다. L에 candT가 추가되면, 새로 추가 된 후보 개수를 나타내는 nE이 1만큼 증가된다.
이 때, L[0]부터 L[nB-1] 중의 움직임 정보와 candT와 중복되는 위치 pIdx가 nS보다 작다면 nS와 nB를 1 감소시키고, 그렇지 않으면 nB만 1 감소된다.
AvailableT가 1이고 L[0]부터 L[nB-1] 중 candT와 중복되는 움직임 후보가 없다면, L[0]부터 L[nB-1]까지 한 칸씩 오른쪽으로 이동(shift)시킨 후 L[0] 위치에 candT이 추가되고 nE이 1만큼 증가된다.
도 21에서 AvailableT이 0인 경우, 즉, 현재 깊이 정보 블록에 상응하는 영상 블록의 움직임 정보가 가용하지 않는 경우, 도 22의 과정이 수행된다. 도 22는 본 발명의 일 실시예에 따른 시점간 움직임 정보를 이용한 도 21에 후속적인 제어 흐름도이다.
도 22을 통하여 현재 블록에 상응하는 주변 시점 블록의 움직임 정보(temporal inter-view motion information)를 병합 움직임 후보 리스트에 추가할 수 있다.
우선, L의 검색 인덱스 pIdx를 0으로 설정하고, 확장 후보 인덱스 nE를 0으로 초기화 한다.
AvailableIVT는 현재 블록에 상응하는 주변 시점 블록의 움직임 정보(temporal inter-view motion information)를 후보를 이용 가능 여부를 나타내고, candIVT는 주변 시점 블록의 움직임 정보를 나타낸다.
AvailableIVT가 1이고 L[0]부터 L[nB-1] 중의 움직임 정보와 candIVT와 중복 된다면, 중복되는 위치를 pIdx라 할 때 L[0]부터 L[pIdx-1] 값을 한 칸씩 오른쪽으로 이동(shift)시킨 후 L[0] 위치에 candIVT를 추가한다. 즉, 기본 병합 확장 리스트를 구성했던 움직임 정보와 candIVT가 동일하다면, 병합 확장 리스트의 첫 번째 엔트리부터 동일한 위치까지의 엔트리까지 한 개씩 다음 순서로 밀려나고, L[0]에 candIVT가 추가된다. L에 candIVT가 추가되면, 새로 추가 된 후보 개수를 나타내는 nE이 1만큼 증가된다.
이 때, L[0]부터 L[nB-1] 중의 움직임 정보와 candIVT와 중복되는 위치 pIdx가 nS보다 작다면 nS와 nB를 1 감소시키고, 그렇지 않으면 nB만 1 감소된다.
AvailableIVT가 1이고 L[0]부터 L[nB-1] 중 candIVT와 중복되는 움직임 후보가 없다면, L[0]부터 L[nB-1]까지 한 칸씩 오른쪽으로 이동(shift)시킨 후 L[0] 위치에 candIVT이 추가되고 nE이 1만큼 증가된다.
도 23은 본 발명의 일 실시예에 따른 시점간 차이(disparity) 정보를 이용한 도 22에 후속적인 제어 흐름도이다.
도 23을 통하여 시점 간 차이(inter-view disparity)를 병합 움직임 후보 리스트에 추가할 수 있다.
AvailableIVD는 시점 간 차이(inter-view disparity)를 움직임 정보로서 이용 가능한지 여부를 나타내고, candIVD는 서로 다른 시점에서 유도한 시점 간 차이를 나타낸다.
AvailableIVD가 1이고 L[0]부터 L[nS-1] 중 candIVD와 중복 되는 후보가 없다면, L[nS+nE]부터 L[nB+nE-1]까지 한 칸씩 오른쪽으로 이동(shift)시킨 후 L[nS+nE] 위치에 candIVD를 추가하고, nE를 1 증가시킨다.
즉, 시점 간 차이는 기본 병합 움직임 후보에 포함되었던 공간적 움직임 후보 다음 위치에 추가될 수 있다.
도 24는 본 발명의 일 실시예에 따른 시간적 움직임 정보를 이용한 도 23에 후속적인 제어 흐름도이다.
도 23을 통하여 시점 간 차이(inter-view disparity)를 병합 움직임 후보 리스트에 추가할 수 있다.
우선, VPS 인덱싱을 위해 변수 n을 0으로 초기화 한다. AvailableVSP는 현재 블록에 시점 간 예측(inter-view disparity)을 사용할 수 있는지 여부를 나타낸다. CandVSP는 시점 합성 예측 모드에 의한 움직임 정보를 의미한다.
MAX는 확장 병합 움직임 리스트를 구성하는 움직임 후보의 최대 개수를 의미하며, MAX는 예를 들어 6일 수 있다.
만약, AvailableVSP가 1이면, L[nS+nE]부터 L[nS+nE-1]까지 한 칸씩 오른쪽으로 이동(shift)시킨 후 L[nS+nE] 위치에 candVSP를 추가하고, VSP[nS+nE]을 1로 변경하고, nE를 1 증가시킨다. 즉, candVSP는 기본 병합 움직임 후보에 포함되었던 공간적 움직임 후보 다음 위치에 추가될 수 있다
그 후, n+nB가 MAX보다 작으면 L[n+nB] 부터 L[MAX-1]을 기본값(DEFAULT)으로 구성한다. 기본값의 일예로, 움직임 벡터로써 0 벡터를 병합 움직임 후보에 추가할 수 있다.
상술한 비디오 부호화 및 복호화 방법은 현재 MPEG(Moving Picture Experts Group)과 VCEG(Video Coding Experts Group)에서 공동으로 표준화를 진행 중인 HEVC(High Efficiency Video Coding)를 사용할 수 있다. 따라서 상술한 부호화 및 복호화 방법은 표 1과 같이 블록 크기 혹은 CU(Coding Uint) 깊이 혹은 TU(Transform Unit) 깊이 등에 따라 적용 범위를 달리할 수 있다.
표 1
Figure PCTKR2014005907-appb-T000001
표 1은 주어진 CU(혹은 TU) 깊이가 2인 경우, 본 발명의 부호화 및 복호화 방법들을 적용하는 범위 결정 방식의 예를 나타낸 것이다. "0"은 해당 깊이에 본 발명에 따른 부호화 및 복호화 적용하는 것을 나타내고 "1"은 해당 깊이에 본 발명에 따른 부호화 및 복호화 적용하지 않는 것을 나타낸다.
CU 깊이에 따라 적용 범위를 달리하는 하는 경우, 표 1에 나타난 바와 같이,) 주어진 깊이 이상의 깊이에만 적용하는 방식(방식A, 주어진 깊이 이하에만 적용하는 방식 (방식B), 주어진 깊이에만 적용하는 방식 (방식C) 이 있을 수 있다.
모든 깊이에 대하여 본 발명의 방법들을 적용하지 않는 경우는 임의의 지시자(flag)를 사용하여 나타낼 수도 있고, CU 깊이의 최대값보다 하나 더 큰 값의 CU 깊이 값을 시그널링할 수도 있다.
이 때, 적용 범위를 결정하는 변수(즉, 크기 혹은 깊이 정보)는 부호화기 및 복호화기가 미리 정해진 값을 사용하도록 설정할 수도 있고, 프로파일 또는 레벨에 따라 정해진 값을 사용하도록 할 수도 있다. 또는, 부호화기가 변수 값을 비트스트림에 포함시켜 전송하면 복호화기는 비트스트림으로부터 이 값을 유도하여 사용할 수도 있다.
한편, 상술한 방법의 적용 여부는 비트스트림에 포함되어 시그널링 될 수 있으며, SPS(Sequence Parameter Set), PPS(Picture Parameter Set), 슬라이스 헤더(Slice Header)에 아래와 같은 구문 요소(Syntax)로 표현될 수 있다. 이에 대한 구문 요소는 표 2 내지 표 5과 같다.
표 2
Figure PCTKR2014005907-appb-T000002
표 3
Figure PCTKR2014005907-appb-T000003
표 4
Figure PCTKR2014005907-appb-T000004
표 5
Figure PCTKR2014005907-appb-T000005
reuse_enabled_flag는 본 발명에 따른 비디오 부호화 및 복호화 방법의 적용 여부를 알려준다. reuse_enabled_flag가 ‘1’이면, 독립적인 시점(Independent View; 시점 0(View 0))에 대한 일반 영상의 부호화/복호화 모듈을 재사용하여 의존적인 시점(dependent view; 시점 1(View 1)과 시점 2(View 2))에 대한 일반 영상과 깊이 정보 맵들을 부호화/복호화(이하, 제안 방법)하는 것을 나타내고, reuse_enabled_flag가 ‘0’이면 독립적인 시점(Independent View; 시점 0(View 0))에 대한 일반 영상의 부호화/복호화 모듈을 재사용하지 않고 의존적인 시점(dependent view; 시점 1(View 1)과 시점 2(View 2))에 대한 일반 영상과 깊이 정보 맵들을 부호화/복호화하는 것을 의미한다. 그 반대도 가능하다.
reuse_disabled_info는 제안 방법이 적용되었을 경우(혹은 “reuse_enabled_flag”이 1인 경우) 활성화되는 구문 요소이다.
reuse_disabled_info는 CU의 깊이(depth) (혹은 CU의 크기(size) 혹은 매크로 블록의 크기 혹은 서브 매크로 블록의 크기 혹은 블록의 크기)에 따라 제안 방법의 적용 여부를 알려줄 수 있다. 예를 들어, reuse_disabled_info가 ‘0’일 경우에는 제안 방법이 모든 블록 크기에 적용될 수 있다. reuse_disabled_info가 ‘1’일 경우에는 제안 방법이 4x4 블록 크기보다 큰 단위에만 적용할 수 있다. 또는 reuse_disabled_ info가 ‘2’일 경우에는 제안 방법이 8x8 블록보다 큰 단위에만 적용되는 것을 나타낼 수 있다.
물론 그 역도 가능하다. 예를 들어 reuse_disabled_info가 ‘1’일 경우에는 제안 방법이 4x4 블록 크기보다 작은 단위에만 적용되는 것을 나타낼 수 있다. 즉, reuse_disabled_info를 이용하여 다양하게 적용 방법을 시그널링할 수 있다.
상기의 시그널링을 이용하여 픽쳐(혹은 프레임) 단위로 제안 방법의 적용 여부를 결정할 수 있다. 또는 제안 방법을 P 픽쳐(혹은 프레임)에만 적용하거나 B 픽쳐(혹은 프레임)에만 적용되도록 제안할 수도 있다.
상술된 제안 방법들은 3차원 비디오 코덱뿐만 아니라 스케일러블 비디오 코덱에도 적용할 수 있다. 실시 일예로, 스케일러블 비디오 코덱의 기본 계층에서 사용하는 부호화/복호화 모듈을 그대로 향상 계층에 적용한 후, 추가적으로 부분 부호화/복호화 모듈을 이용하여 향상 계층을 부호화/복호화할 수 있다. 일 예로, 스케일러블 비디오 코덱의 기본 계층에서 사용하는 “기본 병합 움직임 리스트 구성“ 모듈을 그대로 향상 계층에 적용하여 “기본 병합 움직임 후보 리스트”를 구성한 후, 추가적으로 “추가 병합 움직임 리스트 구성” 모듈을 이용하여 “기본 병합 움직임 후보 리스트”를 재설정(변경)하여 향상 계층을 위한 “확장 병합 움직임 후보 리스트”를 구성할 수 있다.
살펴본 바와 같이, 본 발명은 역방향 호환성을 제공하는 독립적인 시점에 대한 일반 영상의 부호화에 사용되는 모듈을 의존적인 시점에 대한 일반 영상과 깊이 정보 맵들에 그대로 적용하여 구현 복잡도를 감소시키고, 의존적인 시점(dependent view; 시점 1(View 1)과 시점 2(View 2))에 대한 일반 영상과 깊이 정보 맵들에 부분 인코더를 추가적으로 적용함으로써 부호화 효율을 향상시킬 수 있다.
상술한 실시예에서, 방법들은 일련의 단계 또는 블록으로서 순서도를 기초로 설명되고 있으나, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 당해 기술 분야에서 통상의 지식을 가진 자라면 순서도에 나타난 단계들이 배타적이지 않고, 다른 단계가 포함되거나, 순서도의 하나 또는 그 이상의 단계가 본 발명의 범위에 영향을 미치지 않고 삭제될 수 있음을 이해할 수 있을 것이다.
상술한 실시예는 다양한 양태의 예시들을 포함한다. 다양한 양태들을 나타내기 위한 모든 가능한 조합을 기술할 수는 없지만, 해당 기술 분야의 통상의 지식을 가진 자는 다른 조합이 가능함을 인식할 수 있을 것이다. 따라서, 본 발명은 이하의 특허청구범위 내에 속하는 모든 다른 교체, 수정 및 변경을 포함한다고 할 것이다.

Claims (12)

  1. 복수의 시점(view)을 포함하는 비디오 복호화 방법에 있어서,
    현재 블록의 주변 블록 및 시간 대응 블록의 움직임 정보를 이용하여 기본 병합 움직임 후보 리스트를 구성하는 단계와;
    상기 현재 블록과 상이한 시점 영상 및 깊이 정보 맵의 움직임 정보를 이용하여 확장 병합 움직임 후보 리스트를 구성하는 단계를 포함하고,
    상기 기본 병합 움직임 후보 리스트에 포함되어 있는 주변 블록 움직임 정보가 시점 합성 예측을 통하여 유도되었는지 여부를 판단하는 단계를 포함하는 것을 특징으로 하는 비디오 복호화 방법.
  2. 제1항에 있어서,
    상기 확장 병합 움직임 후보 리스트를 구성하기 위하여 상기 현재 블록이 포함되어 있는 픽쳐가 영상인지 깊이 정보 맵 인지를 나타내는 정보와 시점을 나타내는 시점 정보(ViewID)가 이용되는 것을 특징으로 하는 비디오 복호화 방법.
  3. 제1항에 있어서,
    상기 확장 병합 움직임 후보 리스트를 구성하는 단계는 상기 깊이 정보 맵 부호화 시 상기 현재 블록의 동일한 위치의 영상 블록의 움직임 정보(candT)를 추가하는 단계를 더 포함하고,
    상기 candT를 추가하는 단계는,
    상기 candT의 가용성 여부를 판단하는 단계와;
    상기 candT가 가용하면, 상기 candT를 상기 확장 병합 움직임 후보 리스트의 첫 번째 후보로 추가하는 단계를 포함하는 것을 특징으로 하는 비디오 복호화 방법.
  4. 제1항에 있어서,
    상기 확장 병합 움직임 후보 리스트를 구성하는 단계는 상기 현재 블록에 대응하는 주변 시점 블록의 움직임 정보(candIVT)를 추가하는 단계를 더 포함하고,
    상기 candIVT를 추가하는 단계는,
    상기 candIVT의 가용성 여부를 판단하는 단계와;
    상기 candIVT가 가용하면, 상기 candIVT를 상기 확장 병합 움직임 후보 리스트의 첫 번째 후보로 추가하는 단계를 포함하는 것을 특징으로 하는 비디오 복호화 방법.
  5. 제1항에 있어서,
    상기 확장 병합 움직임 후보 리스트를 구성하는 단계는 시점 간 차이 정보(candIVD)를 추가하는 단계를 더 포함하고,
    상기 candIVD를 추가하는 단계는,
    상기 candIVDT의 가용성 여부를 판단하는 단계와;
    상기 candIVD가 가용하면, 상기 candIVD를 상기 확장 병합 움직임 후보 리스트에서 상기 주변 블록의 움직임 정보 이후에 추가하는 단계를 포함하는 것을 특징으로 하는 비디오 복호화 방법.
  6. 제1항에 있어서,
    상기 확장 병합 움직임 후보 리스트를 구성하는 단계는 시점 간 차이 정보(candVSP)를 추가하는 단계를 더 포함하고,
    상기 candVSP 를 추가하는 단계는,
    상기 candVSP의 가용성 여부를 판단하는 단계와;
    상기 candVSP가 가용하면, 상기 candVSP를 상기 확장 병합 움직임 후보 리스트에서 상기 주변 블록의 움직임 정보 이후에 추가하는 단계를 포함하는 것을 특징으로 하는 비디오 복호화 방법.
  7. 복수의 시점(view)을 포함하는 비디오 복호화 장치에 있어서,
    현재 블록의 주변 블록 및 시간 대응 블록의 움직임 정보를 이용하여 기본 병합 움직임 후보 리스트를 구성하는 기본 병합 움직임 후보 구성 모듈과;
    상기 현재 블록과 상이한 시점 영상 및 깊이 정보 맵의 움직임 정보를 이용하여 확장 병합 움직임 후보 리스트를 구성하는 확장 병합 움직임 리스트 구성 모듈을 포함하고,
    확장 병합 움직임 리스트 구성 모듈은 상기 기본 병합 움직임 후보 리스트에 포함되어 있는 주변 블록 움직임 정보가 시점 합성 예측을 통하여 유도되었는지 여부를 판단하는 것을 특징으로 하는 비디오 복호화 장치.
  8. 제1항에 있어서,
    상기 확장 병합 움직임 리스트 구성 모듈은 상기 확장 병합 움직임 후보 리스트를 구성하기 위하여 상기 현재 블록이 포함되어 있는 픽쳐가 영상인지 깊이 정보 맵 인지를 나타내는 정보와 시점을 나타내는 시점 정보(ViewID)가 이용되는 것을 특징으로 하는 비디오 복호화 장치.
  9. 제7항에 있어서,
    상기 확장 병합 움직임 리스트 구성 모듈은 상기 깊이 정보 맵 부호화 시 상기 현재 블록의 동일한 위치의 영상 블록의 움직임 정보(candT)를 추가하고,
    상기 candT를 추가하는 시 상기 candT의 가용성 여부를 판단하고, 상기 candT가 가용하면 상기 candT를 상기 확장 병합 움직임 후보 리스트의 첫 번째 후보로 추가하는 것을 특징으로 하는 비디오 복호화 장치.
  10. 제7항에 있어서,
    상기 확장 병합 움직임 리스트 구성 모듈은 상기 현재 블록에 대응하는 주변 시점 블록의 움직임 정보(candIVT)를 추가하고,
    상기 candIVT를 추가 시 상기 candIVT의 가용성 여부를 판단하고, 상기 candIVT가 가용하면 상기 candIVT를 상기 확장 병합 움직임 후보 리스트의 첫 번째 후보로 추가하는 것을 특징으로 하는 비디오 복호화 장치.
  11. 제7항에 있어서,
    상기 확장 병합 움직임 리스트 구성 모듈은 시점 간 차이 정보(candIVD)를 추가하고,
    상기 candIVD를 추가 시, 상기 candIVDT의 가용성 여부를 판단하고, 상기 candIVD가 가용하면 상기 candIVD를 상기 확장 병합 움직임 후보 리스트에서 상기 주변 블록의 움직임 정보 이후에 추가하는 것을 특징으로 하는 비디오 복호화 장치.
  12. 제7항에 있어서,
    상기 확장 병합 움직임 리스트 구성 모듈은 시점 합성 예측 모드에 의한 움직임 정보(candVSP)를 추가하고,
    상기 candVSP를 추가 시, 상기 candVSP의 가용성 여부를 판단하고, 상기 candVSP가 가용하면 상기 candVSP를 상기 확장 병합 움직임 후보 리스트에서 상기 주변 블록의 움직임 정보 이후에 추가하는 것을 특징으로 하는 비디오 복호화 장치.
PCT/KR2014/005907 2013-07-02 2014-07-02 복수의 레이어를 포함하는 영상의 부호화 및 복호화 방법 WO2015002460A1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US14/901,766 US10080037B2 (en) 2013-07-02 2014-07-02 Method for encoding and decoding video including plurality of layers
EP14819793.2A EP3018908B1 (en) 2013-07-02 2014-07-02 Method and apparatus for decoding video including a plurality of layers
US16/058,117 US10681378B2 (en) 2013-07-02 2018-08-08 Method for encoding and decoding video including plurality of layers

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR20130077389 2013-07-02
KR10-2013-0077389 2013-07-02
KR20130084533 2013-07-18
KR10-2013-0084533 2013-07-18
KR1020140081943A KR101854003B1 (ko) 2013-07-02 2014-07-01 복수의 레이어를 포함하는 영상의 부호화 및 복호화 방법
KR10-2014-0081943 2014-07-01

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US14/901,766 A-371-Of-International US10080037B2 (en) 2013-07-02 2014-07-02 Method for encoding and decoding video including plurality of layers
US16/058,117 Continuation US10681378B2 (en) 2013-07-02 2018-08-08 Method for encoding and decoding video including plurality of layers

Publications (1)

Publication Number Publication Date
WO2015002460A1 true WO2015002460A1 (ko) 2015-01-08

Family

ID=52476595

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2014/005907 WO2015002460A1 (ko) 2013-07-02 2014-07-02 복수의 레이어를 포함하는 영상의 부호화 및 복호화 방법

Country Status (4)

Country Link
US (2) US10080037B2 (ko)
EP (1) EP3018908B1 (ko)
KR (1) KR101854003B1 (ko)
WO (1) WO2015002460A1 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI651963B (zh) * 2012-10-12 2019-02-21 韓國電子通信研究院 視訊編碼及解碼方法及使用該方法之裝置
US10484697B2 (en) 2014-09-09 2019-11-19 Qualcomm Incorporated Simultaneous localization and mapping for video coding
KR102185370B1 (ko) * 2017-09-13 2020-12-01 삼성전자주식회사 기본 움직임 벡터를 이용하여 움직임 벡터를 부호화하는 장치 및 방법, 및 복호화 장치 및 방법
KR102389157B1 (ko) 2017-09-19 2022-04-21 한국전자통신연구원 계층 프로젝션 기반 6-자유도 전방위 입체 영상 제공 방법 및 장치
CN114900694A (zh) 2018-06-29 2022-08-12 抖音视界(北京)有限公司 哪个查找表需要更新或不更新
TWI736923B (zh) * 2018-06-29 2021-08-21 大陸商北京字節跳動網絡技術有限公司 擴展Merge模式
JP7460617B2 (ja) * 2018-06-29 2024-04-02 北京字節跳動網絡技術有限公司 Lut更新条件
EP3794825A1 (en) 2018-06-29 2021-03-24 Beijing Bytedance Network Technology Co. Ltd. Update of look up table: fifo, constrained fifo
EP3791586A1 (en) 2018-06-29 2021-03-17 Beijing Bytedance Network Technology Co. Ltd. Concept of using one or multiple look up tables to store motion information of previously coded in order and use them to code following blocks
WO2020003282A1 (en) 2018-06-29 2020-01-02 Beijing Bytedance Network Technology Co., Ltd. Managing motion vector predictors for video coding
CN113383554B (zh) 2019-01-13 2022-12-16 北京字节跳动网络技术有限公司 LUT和共享Merge列表之间的交互
CN113302937A (zh) 2019-01-16 2021-08-24 北京字节跳动网络技术有限公司 运动候选推导
US11704839B2 (en) * 2019-12-17 2023-07-18 Electronics And Telecommunications Research Institute Multiview video encoding and decoding method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080015713A (ko) * 2006-08-16 2008-02-20 엘지전자 주식회사 비디오 신호의 디코딩/인코딩 방법 및 장치
WO2012171442A1 (en) * 2011-06-15 2012-12-20 Mediatek Inc. Method and apparatus of motion and disparity vector prediction and compensation for 3d video coding
KR20130018628A (ko) * 2011-08-09 2013-02-25 삼성전자주식회사 다시점 비디오 예측 부호화 방법 및 그 장치, 다시점 비디오 예측 복호화 방법 및 그 장치
KR20130044189A (ko) * 2011-10-21 2013-05-02 광운대학교 산학협력단 다시점 비디오 부호화/복호화 방법 및 그 장치
WO2013068547A2 (en) * 2011-11-11 2013-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient multi-view coding using depth-map estimate and update

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8823821B2 (en) 2004-12-17 2014-09-02 Mitsubishi Electric Research Laboratories, Inc. Method and system for processing multiview videos for view synthesis using motion vector predictor list
US8691231B2 (en) * 2011-06-03 2014-04-08 Merrimack Pharmaceuticals, Inc. Methods of treatment of tumors expressing predominantly high affinity EGFR ligands or tumors expressing predominantly low affinity EGFR ligands with monoclonal and oligoclonal anti-EGFR antibodies
US10021388B2 (en) * 2012-12-26 2018-07-10 Electronics And Telecommunications Research Institute Video encoding and decoding method and apparatus using the same

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080015713A (ko) * 2006-08-16 2008-02-20 엘지전자 주식회사 비디오 신호의 디코딩/인코딩 방법 및 장치
WO2012171442A1 (en) * 2011-06-15 2012-12-20 Mediatek Inc. Method and apparatus of motion and disparity vector prediction and compensation for 3d video coding
KR20130018628A (ko) * 2011-08-09 2013-02-25 삼성전자주식회사 다시점 비디오 예측 부호화 방법 및 그 장치, 다시점 비디오 예측 복호화 방법 및 그 장치
KR20130044189A (ko) * 2011-10-21 2013-05-02 광운대학교 산학협력단 다시점 비디오 부호화/복호화 방법 및 그 장치
WO2013068547A2 (en) * 2011-11-11 2013-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient multi-view coding using depth-map estimate and update

Also Published As

Publication number Publication date
US10681378B2 (en) 2020-06-09
EP3018908B1 (en) 2021-05-05
US10080037B2 (en) 2018-09-18
KR101854003B1 (ko) 2018-06-14
US20160373784A1 (en) 2016-12-22
EP3018908A1 (en) 2016-05-11
US20180352256A1 (en) 2018-12-06
KR20150004289A (ko) 2015-01-12
EP3018908A4 (en) 2017-03-01

Similar Documents

Publication Publication Date Title
WO2015002460A1 (ko) 복수의 레이어를 포함하는 영상의 부호화 및 복호화 방법
WO2014058216A1 (ko) 비디오 데이터 디코딩 방법 및 비디오 데이터 디코딩 장치
WO2020251319A1 (ko) Sbtmvp를 이용한 인터 예측 기반 영상 또는 비디오 코딩
WO2021145687A1 (ko) 서브 픽처 및 픽처 헤더에 관한 정보를 시그널링하는 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법
WO2021040400A1 (ko) 팔레트 모드 기반 영상 또는 비디오 코딩
WO2020167097A1 (ko) 영상 코딩 시스템에서 인터 예측을 위한 인터 예측 타입 도출
WO2016056779A1 (ko) 3d 비디오 코딩에서 카메라 파라미터 처리 방법 및 장치
WO2015009021A1 (ko) 스케일러블 비디오 신호 인코딩/디코딩 방법 및 장치
WO2021040398A1 (ko) 팔레트 이스케이프 코딩 기반 영상 또는 비디오 코딩
WO2021125700A1 (ko) 예측 가중 테이블 기반 영상/비디오 코딩 방법 및 장치
WO2020251270A1 (ko) 서브블록 단위의 시간적 움직임 정보 기반 영상 또는 비디오 코딩
WO2015057032A1 (ko) 멀티 뷰를 포함하는 비디오 부호화/복호화 방법 및 장치
WO2020197243A1 (ko) Smvd(symmetric motion vector difference)를 이용한 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법
WO2021162494A1 (ko) 필터 가용 정보를 선택적으로 시그널링 하는 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법
WO2021125702A1 (ko) 가중된 예측에 기반한 영상/비디오 코딩 방법 및 장치
WO2021091255A1 (ko) 영상/비디오 코딩을 위한 상위 레벨 신택스 시그널링 방법 및 장치
WO2021040402A1 (ko) 팔레트 코딩 기반 영상 또는 비디오 코딩
WO2021015512A1 (ko) Ibc를 이용한 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법
WO2020180044A1 (ko) Lmcs에 기반한 영상 코딩 방법 및 그 장치
WO2021201617A1 (ko) 레이어간 정렬된 서브픽처 정보에 기반하는 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장하는 기록 매체
WO2021060846A1 (ko) 양자화 매트릭스를 이용한 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법
WO2024010291A1 (ko) 휘도 보상(illumination compensation)에 기반한 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장하는 기록 매체
WO2023055176A1 (ko) 디코더 사이드 움직임 벡터 리파인먼트 기반 영상 코딩 방법 및 장치
WO2023200243A1 (ko) Mvd 부호 예측에 기반한 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장하는 기록 매체
WO2023055171A1 (ko) Mdmvr 기반 영상 코딩 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14819793

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14901766

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2014819793

Country of ref document: EP