WO2016003074A1 - 움직임 병합 모드에서 시점 합성 예측 후보의 중복성 제거 장치 및 방법 - Google Patents

움직임 병합 모드에서 시점 합성 예측 후보의 중복성 제거 장치 및 방법 Download PDF

Info

Publication number
WO2016003074A1
WO2016003074A1 PCT/KR2015/005412 KR2015005412W WO2016003074A1 WO 2016003074 A1 WO2016003074 A1 WO 2016003074A1 KR 2015005412 W KR2015005412 W KR 2015005412W WO 2016003074 A1 WO2016003074 A1 WO 2016003074A1
Authority
WO
WIPO (PCT)
Prior art keywords
candidate
block
vsp
merge
list
Prior art date
Application number
PCT/KR2015/005412
Other languages
English (en)
French (fr)
Inventor
방건
이광순
박광훈
이민성
허남호
허영수
Original Assignee
한국전자통신연구원
경희대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020150074951A external-priority patent/KR102378459B1/ko
Application filed by 한국전자통신연구원, 경희대학교 산학협력단 filed Critical 한국전자통신연구원
Priority to JP2016572762A priority Critical patent/JP6673854B2/ja
Priority to EP15814370.1A priority patent/EP3163880A4/en
Priority to CN201580031649.2A priority patent/CN106464907B/zh
Priority to US15/317,782 priority patent/US10194133B2/en
Publication of WO2016003074A1 publication Critical patent/WO2016003074A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Definitions

  • the present invention relates to an image encoding / decoding apparatus and a method, and more particularly, to an encoding and decoding apparatus and method for removing redundancy of a view synthesis prediction candidate in a motion merge mode.
  • the 3D image requires depth map information as well as actual texture information.
  • the 3D image requires much more information than the conventional 2D image, and is sufficient when encoding / decoding the 3D image using an image encoding / decoding apparatus and method for the 2D image. There was a problem that the encoding / decoding efficiency did not come out.
  • An object of the present invention is to provide an image encoding / decoding apparatus and method for removing redundancy of a merge candidate inserted into a merge list.
  • Another object of the present invention is to provide an apparatus and method for removing redundancy of merge candidates in 3D image encoding / decoding.
  • Another object of the present invention is to provide an apparatus and method for removing redundancy of a view synthesis prediction candidate in 3D image encoding / decoding.
  • the present invention when the first candidate block is inserted into the merge candidate list, when the view synthesis prediction (VSP) is used in the first candidate block, information indicating that the VSP is used is provided.
  • the present invention provides a 3D image decoding method including generating and not inserting a VSP candidate of a current block into a merge candidate list when information indicating that the VSP is used is present.
  • the first candidate block may be a spatial neighboring block.
  • the first candidate block may be the spatial neighboring block located to the left of the current block.
  • the first candidate block may be an A1 block.
  • the information indicating that the VSP is used may include information indicating whether the first candidate block is available or information indicating whether the VSP is used in the first candidate block.
  • the method further includes inserting the first candidate block into the merge candidate list, and then inserting a second candidate block into the merge candidate list, and generating information indicating that the VSP is used.
  • information indicating that the VSP is used may be generated.
  • the first candidate block may be a spatial neighboring block located to the left of the current block
  • the second candidate block may be a spatial neighboring block located above the current block
  • the first candidate block may be an A1 block
  • the second candidate block may be a B1 block.
  • the current block may be a sub prediction block.
  • a spatial merge candidate insertion module for inserting a first candidate block into a merge candidate list and a VSP is used when a view synthesis prediction (VSP) is used in the first candidate block.
  • VSP view synthesis prediction
  • a VSP redundancy determination module for generating information indicating that the VSP is used, and a VSP candidate insertion module for not inserting the VSP candidate of the current block in a merge candidate list when information indicating that the VSP is used is provided.
  • the first candidate block may be a spatial neighboring block.
  • the first candidate block may be the spatial neighboring block located to the left of the current block.
  • the first candidate block may be an A1 block.
  • the information indicating that the VSP is used may include information indicating whether the first candidate block is available or information indicating whether the VSP is used in the first candidate block.
  • the spatial merge candidate insertion module inserts the first candidate block into a merge candidate list, and then inserts a second candidate block into a merge candidate list
  • the VSP redundancy determination module is configured to insert the first candidate block or the second candidate block.
  • the first candidate block may be a spatial neighboring block located to the left of the current block
  • the second candidate block may be a spatial neighboring block located above the current block
  • the first candidate block may be an A1 block
  • the second candidate block may be a B1 block.
  • the current block may be a sub prediction block.
  • the first candidate block when the first candidate block is inserted into the merge candidate list, when the view synthesis prediction (VSP) is used in the first candidate block, information indicating that the VSP is used And generating information indicating that the VSP has been used, and not inserting the VSP candidate of the current block into a merge candidate list.
  • VSP view synthesis prediction
  • the first candidate block may be a spatial neighboring block.
  • the first candidate block may be the spatial neighboring block located to the left of the current block.
  • the first candidate block may be an A1 block.
  • the information indicating that the VSP is used may include information indicating whether the first candidate block is available or information indicating whether the VSP is used in the first candidate block.
  • the method further includes inserting the first candidate block into the merge candidate list, and then inserting a second candidate block into the merge candidate list, and generating information indicating that the VSP is used.
  • information indicating that the VSP is used may be generated.
  • the first candidate block may be a spatial neighboring block located to the left of the current block
  • the second candidate block may be a spatial neighboring block located above the current block
  • the first candidate block may be an A1 block
  • the second candidate block may be a B1 block.
  • the current block may be a sub prediction block.
  • a spatial merge candidate insertion module for inserting a first candidate block into a merge candidate list, and when a view synthesis prediction (VSP) is used in the first candidate block, the VSP is A 3D image encoding apparatus including a VSP redundancy determination module for generating information indicating that the VSP candidate is used and a VSP candidate insertion module for inserting the VSP candidate of the current block into a merge candidate list when information indicating that the VSP is used exists; to provide.
  • VSP view synthesis prediction
  • the first candidate block may be a spatial neighboring block.
  • the first candidate block may be the spatial neighboring block located to the left of the current block.
  • the first candidate block may be an A1 block.
  • the information indicating that the VSP is used may include information indicating whether the first candidate block is available or information indicating whether the VSP is used in the first candidate block.
  • the spatial merge candidate insertion module inserts the first candidate block into a merge candidate list, and then inserts a second candidate block into a merge candidate list
  • the VSP redundancy determination module is configured to insert the first candidate block or the second candidate block.
  • the first candidate block may be a spatial neighboring block located to the left of the current block
  • the second candidate block may be a spatial neighboring block located above the current block
  • the first candidate block may be an A1 block
  • the second candidate block may be a B1 block.
  • the current block may be a sub prediction block.
  • the method when the first candidate block is inserted into the merge candidate list, when the view synthesis prediction (VSP) is used in the first candidate block, information indicating that the VSP is used And a method for executing the 3D image decoding method on the computer, the method comprising the step of generating a CSP and if the information indicating that the VSP has been used does not insert the VSP candidate of the current block into the merge candidate list.
  • VSP view synthesis prediction
  • the first candidate block may be a spatial neighboring block.
  • the first candidate block may be the spatial neighboring block located to the left of the current block.
  • the first candidate block may be an A1 block.
  • the information indicating that the VSP is used may include information indicating whether the first candidate block is available or information indicating whether the VSP is used in the first candidate block.
  • the method further includes inserting the first candidate block into the merge candidate list, and then inserting a second candidate block into the merge candidate list, and generating information indicating that the VSP is used.
  • information indicating that the VSP is used may be generated.
  • the first candidate block may be a spatial neighboring block located to the left of the current block
  • the second candidate block may be a spatial neighboring block located above the current block
  • the first candidate block may be an A1 block
  • the second candidate block may be a B1 block.
  • the current block may be a sub prediction block.
  • VSP view synthesis prediction
  • a computer program for executing a 3D image encoding method including a step of generating a data suffix and a step of not inserting a VSP candidate of a current block into a merge candidate list when information indicating that the VSP is used exists.
  • the first candidate block may be a spatial neighboring block.
  • the first candidate block may be the spatial neighboring block located to the left of the current block.
  • the first candidate block may be an A1 block.
  • the information indicating that the VSP is used may include information indicating whether the first candidate block is available or information indicating whether the VSP is used in the first candidate block.
  • the method further includes inserting the first candidate block into the merge candidate list, and then inserting a second candidate block into the merge candidate list, and generating information indicating that the VSP is used.
  • information indicating that the VSP is used may be generated.
  • the first candidate block may be a spatial neighboring block located to the left of the current block
  • the second candidate block may be a spatial neighboring block located above the current block
  • the first candidate block may be an A1 block
  • the second candidate block may be a B1 block.
  • the current block may be a sub prediction block.
  • redundancy of a merge candidate inserted into a merge list can be eliminated in image encoding / decoding.
  • redundancy of merge candidates can be eliminated in 3D image encoding / decoding.
  • redundancy of a view synthesis prediction candidate can be eliminated in 3D image encoding / decoding.
  • Figure 1 schematically shows the basic structure of a three-dimensional video system.
  • FIG. 2 is a diagram illustrating an example of an actual image and a depth information map image of a “balloons” image.
  • FIG. 3 is a diagram schematically illustrating a segmentation structure of an image when encoding and decoding an image.
  • FIG. 4 illustrates a form of a prediction unit PU that a coding unit CU may include.
  • FIG. 5 schematically illustrates an example of a quadtree splitting structure of a transform unit (TU).
  • FIG. 6 illustrates an example of a structure of inter view prediction in a 3D video codec.
  • FIG. 7 illustrates an example of encoding and / or decoding a texture view and a depth view map in a 3D video encoder and / or a decoder.
  • FIG. 8 is a block diagram illustrating a configuration of a video encoder according to an embodiment.
  • FIG. 9 is a block diagram illustrating a configuration of a video decoder according to an embodiment.
  • FIG. 10 is a diagram illustrating an example of a prediction structure for a 3D video codec.
  • FIG. 11 shows an example of neighboring blocks used to construct a merge candidate list for a current block.
  • FIG. 12 is a diagram illustrating an example of a process of deriving motion information of a current block by using motion information of an adjacent view.
  • FIG. 13 is a diagram illustrating an example in which one prediction unit (PU) is divided into several sub-prediction units.
  • FIG. 14 is a diagram illustrating an example of a process of deriving motion information of a current block by using a reference block.
  • FIG. 15 schematically illustrates the concept of View Synthesis Prediction (VSP).
  • VSP View Synthesis Prediction
  • FIG. 16 illustrates an example of neighboring blocks inherited as VSP candidates in 3D image encoding / decoding.
  • 17 illustrates an example of a merge candidate list in 3D image encoding / decoding.
  • FIG. 18 is a flowchart of a method of restricting addition of a VSP candidate to a merge candidate list according to whether an inherited VSP candidate exists according to an embodiment of the present invention.
  • 19 is a flowchart illustrating a method of restricting adding a VSP candidate to a merge candidate list according to whether an inherited VSP candidate exists according to another embodiment of the present invention in 3D-HEVC.
  • FIG. 20 is a block diagram of an apparatus for restricting adding a VSP candidate to a merge candidate list according to whether an inherited VSP candidate exists according to an embodiment of the present invention.
  • 21 is a block diagram of an apparatus for restricting adding a VSP candidate to a merge candidate list according to whether an inherited VSP candidate exists according to another embodiment of the present invention.
  • FIG. 22 is a view illustrating a merge candidate derivation method and a merge candidate derivation method according to another embodiment of the present invention.
  • FIG. 23 is a flowchart illustrating a method of restricting insertion of a VSP candidate into a merge list by referring to two directions among spatial merge candidates according to another embodiment of the present invention.
  • 24A to 24B are flowcharts illustrating a method of restricting insertion of a VSP candidate into a merge list by referring to two directions among spatial merge candidates according to another embodiment of the present invention, in 3D HEVC.
  • 25 is a view illustrating a merge candidate derivation method and a merge candidate derivation method according to another embodiment of the present invention.
  • FIG. 26 is a flowchart illustrating a method of restricting insertion of a VSP candidate into a merge list with reference to one direction among spatial merge candidates according to another embodiment of the present invention.
  • 27A to 27B are flowcharts illustrating a method of restricting insertion of a VSP candidate into a merge list with reference to one direction among spatial merge candidates according to another embodiment of the present invention, in 3D HEVC.
  • FIG. 28 is a block diagram of an apparatus for restricting inserting a VSP candidate into a merge list according to another embodiment of the present invention.
  • 29 illustrates an example in which redundancy between VSP candidates is removed through the above-described 3D image encoding / decoding apparatus and method.
  • first and second may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another.
  • the first component may be referred to as the second component, and similarly, the second component may also be referred to as the first component.
  • each component shown in the embodiments of the present invention are shown independently to represent different characteristic functions, and do not mean that each component is made of separate hardware or one software unit.
  • each component is included in each component for convenience of description, and at least two of the components may be combined into one component, or one component may be divided into a plurality of components to perform a function.
  • Integrated and separate embodiments of the components are also included within the scope of the present invention without departing from the spirit of the invention.
  • the components may not be essential components for performing essential functions in the present invention, but may be optional components for improving performance.
  • the present invention can be implemented including only the components necessary to implement the essentials of the present invention except for the components used for improving performance, the structure including only the essential components except for the optional components used for improving performance Also included in the scope of the present invention.
  • Three-dimensional video provides a three-dimensional effect as seen and felt in the real world through a three-dimensional stereoscopic display device.
  • JCT-3V Joint Collaborative Team on 3D Video Coding Extension Development
  • MPEG Moving Picture Experts Group
  • VCEG Video Coding Experts Group
  • Figure 1 schematically shows the basic structure of a three-dimensional video system.
  • a 3D video (3D video) system may include a sender and a receiver.
  • the 3D video system of FIG. 1 may be a basic 3D video system considered in the 3D video standard, and the 3D video standard uses a stereoscopic image by using a depth map corresponding to a real image and a real image.
  • the 3D video standard can include standards for advanced data formats and related technologies that can support the playback of autostereoscopic images.
  • the sender may generate multi-view video content.
  • the transmitter may generate video information using a stereo camera and a multi-view camera, and generate a depth map or a depth view using the depth information camera.
  • the transmitter may convert a 2D image into a 3D image using a converter.
  • the transmitter may generate video content of an N (N ⁇ 2) view (that is, a multiview) using the generated video information, the depth information map, and the like.
  • the video content of the N view may include video information of the N view, depth-map information thereof, and additional information related to a camera.
  • the video content of N views may be compressed using a multi-view video encoding method in a 3D video encoder, and the compressed video content (bitstream) may be transmitted to a terminal of a receiving side through a network.
  • the receiver may provide a multi-view image by decoding the image content received from the transmitter.
  • the receiving side may reconstruct an image of N time point by decoding a bitstream received using a multiview video decoding method in a video decoder (for example, a 3D video decoder, a stereo video decoder, a 2D video decoder, etc.).
  • a video decoder for example, a 3D video decoder, a stereo video decoder, a 2D video decoder, etc.
  • virtual view images of more than N views may be generated using a reconstructed N-view image and a depth-image-based rendering (DIBR) process.
  • DIBR depth-image-based rendering
  • the generated virtual viewpoint images of N or more viewpoints are reproduced for various stereoscopic display apparatuses (eg, N-view display, stereo display, two-dimensional display, etc.) to provide a user with a three-dimensional image.
  • FIG. 2 is a diagram illustrating an example of an actual image and a depth information map image of a “balloons” image.
  • FIG. 2 (a) shows “balloons” images being used in the 3D video coding standard of MPEG, which is an international standardization organization.
  • FIG. 2B illustrates a depth information map image of the “balloons” image illustrated in FIG. 2A.
  • depth information displayed on the screen is expressed by 8 bits per pixel.
  • the depth map is used to generate a virtual view image.
  • the depth map is a constant bit of the distance between the camera and the real object (depth information corresponding to each pixel at the same resolution as the real image) in the real world. It is expressed as a number.
  • the depth information map may be acquired by using a depth information map camera or by using an actual general image.
  • the depth map obtained using the depth map map mainly provides reliable depth information in a stationary object or scene, but has a problem in that the depth map camera operates only within a certain distance.
  • the depth information map camera may use a laser, a structured light technique, or a depth measurement technique based on time-of-flight of light (TFL).
  • the depth information map may be generated using an actual general image and a disparity vector.
  • the disparity vector refers to information representing a viewpoint difference between two general images.
  • the disparity vector compares an arbitrary pixel at the present time point with those at another time point to find the most similar pixel. It can be obtained through the distance between one pixel and the most similar pixel).
  • the actual image and its depth information map may be images obtained from not only one camera but also several cameras. Images obtained from several cameras may be independently encoded or encoded / decoded using a general two-dimensional video encoding / decoding codec. In addition, since images obtained by multiple cameras have correlations between viewpoints, images obtained by multiple cameras may be encoded using prediction between different viewpoints in order to increase encoding efficiency.
  • the 'depth information map' may mean a 'depth map' or a 'depth picture'.
  • the 'depth information map' is referred to as a 'depth map' or 'depth picture' for convenience of description. depth picture) '.
  • FIG. 3 is a diagram schematically illustrating a segmentation structure of an image when encoding and decoding an image.
  • encoding and decoding may be performed for each coding unit (CU).
  • a unit is a combination of a syntax element and a block including image samples.
  • Splitting a unit may mean splitting a block corresponding to the unit.
  • the image 300 is sequentially divided into units of a largest coding unit (LCU) (hereinafter referred to as an LCU), and then a division structure is determined for each LCU.
  • LCU largest coding unit
  • the LCU may be used in the same meaning as a coding tree unit (CTU).
  • the partition structure refers to a distribution of a coding unit (hereinafter referred to as a CU) for efficiently encoding an image in the LCU 310, and this distribution decreases one CU to half of its horizontal and vertical sizes. It may be determined according to whether to split into CUs.
  • the partitioned CU may be recursively divided into four CUs whose horizontal size and vertical size are reduced by half with respect to the CU partitioned in the same manner.
  • the CU may be recursively divided up to a predefined depth.
  • Depth information is information indicating the size of a CU, it may be stored for each CU.
  • the depth of the LCU may be 0, and the depth of the smallest coding unit (SCU) may be a predefined maximum depth.
  • the LCU is a coding unit having a maximum size
  • the smallest coding unit (SCU) is a coding unit having a minimum size.
  • each time the division from the LCU 310 to half of the horizontal and vertical sizes increases the depth of the CU by one. For example, if the size of the CU is 2N ⁇ 2N at a certain depth L, the size of the CU is still 2N ⁇ 2N when no splitting is performed, and the size of the CU is N ⁇ N when splitting is performed. At this time, the depth of the NxN size CU is a depth L + 1. That is, the size of N corresponding to the size of the CU decreases in half each time the depth increases by one.
  • an LCU having a minimum depth of 0 may be 64x64 pixels, and an SCU having a maximum depth of 3 may be 8x8 pixels.
  • the depth of the CU (LCU) of 64x64 pixels may be represented by 0, the depth of the CU of 32x32 pixels is 1, the depth of the CU of 16x16 pixels is 2, and the depth of the CU (SCU) of 8x8 pixels is 3.
  • information on whether to partition a specific CU may be expressed through partition information of 1 bit per CU.
  • This partitioning information may be included in all CUs except the SCU. For example, when partitioning a CU, 0 may be stored in partitioning information, and when partitioning a CU, 1 may be stored in partitioning information.
  • the above-mentioned 'coding unit (CU)' may mean a 'coding block', 'coding unit' or 'coding block', and the like.
  • the 'coding unit' will be described.
  • the term 'coding block', 'coding unit' or 'coding block' may be used interchangeably.
  • FIG. 4 illustrates a form of a prediction unit PU that a coding unit CU may include.
  • CUs that are no longer split among the CUs partitioned from the LCU may be partitioned or partitioned into one or more prediction units.
  • a prediction unit (hereinafter, referred to as a PU) is a basic unit for performing prediction, and is encoded and decoded in any one of a skip mode, an inter mode, and an intra mode, and the prediction unit is according to each mode. It can be partitioned in various forms.
  • the 2N ⁇ 2N mode 410 having the same size as the CU may be supported without a partition of the CU.
  • nRx2N mode 445 For inter mode, eight partitioned forms for the CU, such as 2Nx2N mode 410, 2NxN mode 415, Nx2N mode 420, NxN mode 425, 2NxnU mode 430, 2NxnD mode 435 nLx2N mode 440 and nRx2N mode 445 may be supported.
  • the 2Nx2N mode 410 and the NxN mode 425 may be supported for the CU.
  • PU 'prediction unit
  • PU 'prediction unit
  • 'prediction unit' may be used interchangeably as 'prediction block'.
  • FIG. 5 schematically illustrates an example of a quadtree splitting structure of a transform unit (TU).
  • Transform Unit is a basic unit used in a spatial transform and quantization process in a CU.
  • the TU may have a square shape or a rectangular shape, and the TU may be included in the CU.
  • the size of the TU may be the same as the size of the CU or smaller than the size of the CU, and one CU may include a plurality of TUs having different sizes.
  • the TU may have the same size as the CU, and the TU may be divided from the CU using quadtree partitioning.
  • the TU may be split recursively up to twice from the CU, but in this specification, as shown in FIG. 5, the TU is recursively from the CU. The division of three or more times is not excluded from the scope of rights.
  • the TU when a CU has a size of 2N ⁇ 2N, the TU may have a size of 2N ⁇ 2N, which is the same size as the CU, and when the quad tree is split once from the CU, the TU may have a size of N ⁇ N.
  • the TU when a quadtree is divided twice from the CU, the TU may have a size of N / 2 ⁇ N / 2, and when the quadtree is divided three times from the CU, the TU may have a size of N / 4 ⁇ N / 4.
  • Transform Unit may mean a "Transform Block.”
  • Transform Unit may be used interchangeably as a “Transform Block.”
  • FIG. 6 illustrates an example of a structure of inter view prediction in a 3D video codec.
  • View 1 and view 2 may perform inter-view prediction using view 0 as a reference image, and the encoding order is view 1 and view 2 View 0 should be coded before.
  • view 0 is called an independent view because it may be independently encoded regardless of other views.
  • view 1 and view 2 are referred to as dependent views because they are encoded using view 0 as a reference image.
  • Independent viewpoint images may be encoded using a general two-dimensional video codec.
  • the dependent view image since the dependent view image needs to perform inter-view prediction, it may be encoded using a 3D video codec including an inter-view prediction process.
  • the view 1 and the view 2 may be encoded using the depth information map.
  • the real image and the depth information map may be encoded and / or decoded independently of each other.
  • the real image and the depth information map may be encoded and / or decoded depending on each other as shown in FIG. 7.
  • FIG. 7 illustrates an example of encoding and / or decoding a texture view and a depth view map in a 3D video encoder and / or a decoder.
  • the 3D video encoder may include a real image encoder encoding a texture view and a depth map encoder encoding a depth view map. have.
  • the real image encoder may encode the real image using the depth information map encoded by the depth information map encoder.
  • the depth information map encoder may encode the depth information map by using the real image encoded by the real image encoder.
  • the 3D video decoder may include a real image decoder that decodes an actual image and a depth information decoder that decodes a depth information map.
  • the real image decoder may decode the real image using the depth information map decoded by the depth information map decoder.
  • the depth information map decoder may decode the depth information map by using the real image decoded by the real image decoder.
  • FIG. 8 is a block diagram illustrating a configuration of a video encoder according to an embodiment.
  • FIG. 8 illustrates an embodiment of a video encoder applicable to a multi-view structure, wherein the video encoder for the multi-view structure may be implemented by extending a video encoder for a single view structure.
  • the video encoder of FIG. 8 may be used in the real image encoder and / or the depth information map encoder of FIG. 7, and the encoder may mean an encoding apparatus.
  • the video encoder 800 includes an inter predictor 810, an intra predictor 820, a switch 815, a subtractor 825, a transformer 830, a quantizer 840, and entropy encoding.
  • the unit 850 includes an inverse quantization unit 860, an inverse transform unit 870, an adder 875, a filter unit 880, and a reference picture buffer 890.
  • the video encoder 800 may encode the input video in an intra mode or an inter mode and output a bitstream.
  • Intra prediction means intra picture prediction
  • inter prediction means inter picture prediction or inter-view prediction.
  • the switch 815 is switched to the intra mode
  • the switch 815 is switched to the inter mode.
  • the video encoder 800 may generate a prediction block for a block (current block) of an input picture and then encode a difference between the current block and the prediction block.
  • the intra predictor 820 may use the pixel value of an already encoded block around the current block as a reference pixel.
  • the intra predictor 820 may generate prediction samples for the current block by using the reference pixel.
  • the inter prediction unit 810 may obtain a motion vector specifying a reference block corresponding to an input block (current block) from a reference picture stored in the reference picture buffer 890.
  • the inter prediction unit 810 may generate a prediction block for the current block by performing motion compensation using the motion vector and the reference picture stored in the reference picture buffer 890.
  • inter prediction applied in inter mode may include inter view prediction.
  • the inter prediction unit 810 may configure an inter view reference picture by sampling a picture of the reference view.
  • the inter prediction unit 810 may perform inter view prediction by using a reference picture list including an inter view reference picture. Reference relationships between views may be signaled via information specifying dependencies between views.
  • sampling applied to the reference view picture may mean generation of a reference sample by copying or interpolating a sample from the reference view picture.
  • sampling applied to the reference view picture may mean upsampling or downsampling.
  • the inter view reference picture may be configured by upsampling the reconstructed picture of the reference view.
  • Which view picture is used to configure the inter-view reference picture may be determined in consideration of a coding cost or the like.
  • the encoder may transmit information specifying a view to which the picture to be used as the inter-view reference picture belongs to the decoding apparatus.
  • a view used in inter-view prediction that is, a picture used for prediction of the current block in the reference view may be a picture of the same access unit (AU) as the current picture (picture to be predicted in the current view).
  • AU access unit
  • the subtractor 825 may generate a residual block (residual signal) by the difference between the current block and the prediction block.
  • the transform unit 830 may transform the residual block to output transform coefficients, and the transform unit 830 may perform transform using the transform block. When the transform skip mode is applied, the transform unit 830 may omit the transform for the residual block.
  • the quantization unit 840 may output the quantized coefficients by quantizing the transform coefficients according to the quantization parameter.
  • the entropy encoder 850 may entropy-encode the values calculated by the quantizer 840 or the encoding parameter values calculated in the encoding process according to a probability distribution to output a bitstream.
  • the entropy encoder 850 may entropy encode information (eg, syntax elements) for video decoding in addition to the pixel information of the video.
  • the encoding parameter is information necessary for encoding and decoding, and may include information that may be inferred in the encoding or decoding process, as well as information encoded by an encoder and transmitted to the decoding apparatus, such as a syntax element.
  • the residual signal may mean a difference between the original signal and the prediction signal, and a signal in which the difference between the original signal and the prediction signal is transformed or a signal in which the difference between the original signal and the prediction signal is converted and quantized It may mean.
  • the residual signal may be referred to as a residual block.
  • an encoding method such as exponential Golomb, context-adaptive variable length coding (CAVLC), or context-adaptive binary arithmetic coding (CABAC) may be used.
  • the entropy encoder 850 may perform entropy encoding using a variable length coding (VLC) table.
  • VLC variable length coding
  • the entropy encoder 850 derives a binarization method of the target symbol and a probability model of the target symbol / bin, and then performs entropy encoding using the derived binarization method or the probability model. You may.
  • the quantized coefficient may be inversely quantized by the inverse quantizer 860 and inversely transformed by the inverse transformer 870.
  • the inverse quantized and inverse transformed coefficients are added to the prediction block through the adder 875 and a reconstruction block can be generated.
  • the reconstruction block passes through the filter unit 880, and the filter unit 880 applies at least one or more of a deblocking filter, a sample adaptive offset (SAO), and an adaptive loop filter (ALF) to the reconstructed block or reconstructed picture. can do.
  • the reconstructed block that has passed through the filter unit 880 may be stored in the reference image buffer 890.
  • FIG. 9 is a block diagram illustrating a configuration of a video decoder according to an embodiment.
  • FIG. 9 illustrates an embodiment of a video decoder applicable to a multi-view structure, wherein the video decoder for the multi-view structure may be implemented by extending a video decoder for a single view structure.
  • the video decoder of FIG. 9 may be used in the real image decoder and / or the depth information map decoder of FIG. 7.
  • “decoding” and “decoding” may be mixed, or “decoding device” and “decoder” may be mixed.
  • the video decoder 900 includes an entropy decoder 910, an inverse quantizer 920, an inverse transformer 930, an intra predictor 940, an inter predictor 950, and a filter ( 960 and reference picture buffer 970.
  • the video decoder 900 may receive the bitstream output from the encoder and perform decoding in an intra mode or an inter mode, and output a reconstructed image, that is, a reconstructed image.
  • the switch In the intra mode, the switch may be switched for intra prediction, and in the inter mode, the switch may be switched for inter prediction.
  • the video decoder 900 may obtain a residual block reconstructed from the received bitstream, generate a prediction block, and then add the reconstructed residual block and the prediction block to generate a reconstructed block, that is, a reconstruction block. .
  • the entropy decoder 910 may entropy decode the input bitstream according to a probability distribution, and output information such as quantized coefficients and syntax elements.
  • the quantized coefficients are inversely quantized by the inverse quantizer 920 and inversely transformed by the inverse transformer 930. Inverse quantization / inverse transformation of the quantized coefficients may produce a reconstructed residual block.
  • the intra predictor 940 may generate a prediction block for the current block by using pixel values of an already encoded block around the current block.
  • the inter prediction unit 950 may generate a prediction block for the current block by performing motion compensation using the reference picture stored in the motion vector and the reference picture buffer 970.
  • inter prediction applied in inter mode may include inter view prediction.
  • the inter prediction unit 950 may configure an inter view reference picture by sampling a picture of the reference view.
  • the inter prediction unit 950 may perform inter view prediction by using a reference picture list including an inter view reference picture. Reference relationships between views may be signaled via information specifying dependencies between views.
  • sampling applied to the reference view picture may mean generation of a reference sample by copying or interpolating a sample from the reference view picture.
  • sampling applied to the reference view picture may mean upsampling or downsampling.
  • the inter-view reference picture may be constructed by upsampling the reconstructed picture of the reference view.
  • information specifying a view to which a picture to be used as the inter-view reference picture belongs may be transmitted from the encoder to the decoder.
  • a view used in inter-view prediction that is, a picture used for prediction of the current block in the reference view may be a picture of the same access unit (AU) as the current picture (picture to be predicted in the current view).
  • AU access unit
  • the reconstructed residual block and the predictive block are added at the adder 955 to generate a reconstructed block.
  • the residual sample and the predictive sample are added to generate a reconstructed sample or a reconstructed picture.
  • the reconstructed picture is filtered by the filter unit 960.
  • the filter unit 960 may apply at least one or more of the deblocking filter, SAO, and ALF to the reconstructed block or the reconstructed picture.
  • the filter unit 960 outputs a modified or filtered reconstructed picture.
  • the reconstructed picture may be stored in the reference picture buffer 970 and used for inter prediction.
  • each module performs a different function
  • the present invention is not limited thereto and may perform two or more functions in one module.
  • operations of the intra predictor and the inter predictor may be performed in one module (prediction unit) in FIGS. 8 and 9.
  • 8 and 9 illustrate that one encoder / decoder processes all encoding / decoding for the multi-view, this is for convenience of description, and the encoder / decoder may be configured for each view.
  • the encoder / decoder of the current view may perform encoding / decoding of the current view using information of another view.
  • the prediction unit (inter prediction unit) of the current view may perform intra prediction or inter prediction on the current block by using pixel information or reconstructed picture information of another view.
  • the encoder / decoder may perform encoding / decoding on the current layer using information of another view regardless of whether it is configured for each view or one device processes multiple views. have.
  • the description of the view in the present invention can be equally applied to a layer supporting scalability.
  • the view may be a layer.
  • FIG. 10 is a diagram illustrating an example of a prediction structure for a 3D video codec.
  • FIG. 10 shows a prediction structure for encoding a real image acquired by three cameras and a depth information map corresponding to the real image.
  • FIG. 10 three real images acquired from three cameras are represented as T0, T1, and T2 according to a view, and three depth maps corresponding to the actual image are respectively D0 and D1 according to a view. , Represented by D2.
  • T0 and D0 are images acquired at View
  • T1 and D1 are images acquired at View 1
  • T2 and D2 are images acquired at View 2.
  • the rectangle illustrated in FIG. 10 represents an image (picture).
  • Each picture is divided into an I picture (Intra Picture), a P picture (Uni-prediction Picture), and a B picture (Bi-prediction Picture) according to an encoding / decoding type, and each picture is an encoding / decoding type of each picture.
  • Can be encoded / decoded according to The picture itself may be encoded without inter prediction in the I picture, the inter prediction may be performed using only the reference picture existing in the unidirectional direction in the P picture, and the inter prediction may be performed using the reference picture existing in both directions in the B picture.
  • the arrow of FIG. 10 indicates the prediction direction. That is, the actual image and its depth information map may be encoded / decoded depending on the prediction direction.
  • motion information of the current block is required.
  • a method of inferring current motion information there is a method of using motion information of a block adjacent to the current block, a method of using temporal correlation within the same viewpoint, or a method of using inter-view correlation at adjacent viewpoints.
  • the method can be used interchangeably in one picture.
  • the current block refers to a block on which prediction is performed.
  • the motion information may mean a motion vector, a reference picture number, and / or a prediction direction (eg, unidirectional prediction or bidirectional prediction, whether to use temporal correlation or inter-view correlation).
  • the prediction direction may be largely divided into unidirectional prediction and bidirectional prediction according to the use of a reference picture list (RefPicList).
  • Unidirectional prediction is divided into forward prediction (Pred_L0: Prediction L0) using the forward reference picture list (LIST 0, L0) and backward prediction (Pred_L1: Prediction L1) using the reverse reference picture list (LIST 1, L1). do.
  • bidirectional prediction (Pred_BI: Prediction BI) may use both the forward reference picture list (LIST 0) and the reverse reference picture list (LIST 1) to say that both forward and backward prediction exist.
  • the list LIST 0 may be copied to the backward reference picture list LIST 1 to be included in the bidirectional prediction even when there are two forward predictions.
  • Prediction direction can be defined using predFlagL0 and predFlagL1.
  • predFlagL0 is an indicator indicating whether to use the forward reference picture list (List 0)
  • predFlagL1 corresponds to an indicator indicating whether to use the backward reference picture list (List 1).
  • predFlagL0 may be '1' for unidirectional prediction and forward prediction
  • predFlagL1 may be '0' for unidirectional prediction
  • predFlagL0 may be '0' for unidirectional prediction and reverse prediction
  • predFlagL1 may be '1'.
  • predFlagL0 may be '1' and predFlagL1 may be '1'.
  • the motion prediction method includes 1) a motion vector predictor and a motion vector difference, and 2) a flag (merge_flag) indicating whether to use motion merging and a motion inheritance at a certain position.
  • merge motion derivation that is, a merge method using an index (merge_idx) which is information on whether to receive.
  • FIG. 11 shows an example of neighboring blocks used to construct a merge candidate list for a current block.
  • Merge mode is one of methods of performing inter prediction, and in merge mode, neighboring blocks of the current block as motion information (eg, at least one of a motion vector, a reference picture list, and a reference picture index) of the current block.
  • Motion information can be used.
  • using motion information of the neighboring block as motion information of the current block is called merging, motion merging, or merging motion.
  • a merging candidate list that is, a merge motion candidate list may be configured.
  • the merge candidate list represents a list of motion information and may be generated before the merge mode is performed.
  • the motion information of the merge candidate list may be motion information of neighboring blocks adjacent to the current block or new motion information created by combining motion information already present in the merge candidate list.
  • the motion information (eg, the motion vector and / or the reference picture index) of the neighboring block may be motion information specified by the neighboring block or stored in the neighboring block (used for decoding the neighboring block).
  • neighboring blocks A, B, C, D, and E that are spatially adjacent to the current block and the current block are temporal.
  • a corresponding co-located block H or M may be included.
  • a candidate block at the same position refers to a block at a corresponding position in a co-located picture corresponding to the current picture including the current block in time. If the H block in the picture at the same position is available, the H block may be determined as a candidate block at the same position. If the H block is not available, the M block in the picture at the same position may be determined as the candidate block at the same position.
  • merge candidates in which motion information of neighboring blocks A, B, C, D, and E and candidate blocks H or M at the same position form a merge candidate list of the current block It can be determined whether or not can be used as. That is, motion information of blocks available for inter prediction of the current block may be added to the merge candidate list as merge candidates.
  • a method of constructing a merge candidate list for an X block 1) First, when neighboring block A is available, the neighboring block A is included in the merge candidate list. 2) Then, the neighboring block B is included in the merge candidate list only when the motion information of the neighboring block B is not the same as the motion information of the neighboring block A. 3) In the same manner, the neighboring block C is included in the merge candidate list only when the motion information of the neighboring block C is different from the motion information of the neighboring block B. 4) The motion information of the neighboring block D is identical to the motion information of the neighboring block C. The neighbor block D is included in the merge candidate list only when different.
  • the merge candidate list includes the neighboring block H (or M). Let's do it. That is, each neighboring block may be added to the merge candidate list in the order of A ⁇ B ⁇ C ⁇ D ⁇ E ⁇ H (or M) blocks.
  • the same motion information may mean using the same motion vector, the same reference picture, and the same prediction direction (unidirectional or bidirectional).
  • the expression of adding the neighboring block to the merge candidate list as the merge candidate and the expression of adding the motion information of the neighboring block to the merge candidate list as the merge candidate are used for convenience of explanation, and the two expressions are substantially different.
  • the neighboring block as the merge candidate may mean motion information of the corresponding block.
  • FIG. 12 is a diagram illustrating an example of a process of deriving motion information of a current block by using motion information of an adjacent view.
  • FIG. 12 for convenience of description, a process of deriving motion information of the current block using only one adjacent viewpoint is illustrated as an example, but two or more adjacent viewpoints may be provided.
  • motion information of adjacent viewpoints may be used to efficiently encode / decode motion information.
  • the current block (block for the current position X) of FIG. 12 finds a target block (reference position XR) located at an adjacent viewpoint in order to derive motion information for the current block.
  • the target block located in the adjacent view means a block corresponding to the current block, and since the current picture at the current view and the current picture at the reference view only have a difference in camera position, the variation vector ( Disparity Vector (DV) may be used to derive a target block located at an adjacent viewpoint.
  • Disparity Vector DV
  • FIG. 13 is a diagram illustrating an example in which one prediction unit (PU) is divided into several sub-prediction units.
  • an example of a prediction unit (PU) having a 64x64 size is divided into sub prediction units having a size of 8x8.
  • the prediction unit has a size of 64x64, but the prediction unit may have a size of 32x32, 16x16, 8x8, 4x4, etc., as well as the size of 64x64.
  • one prediction unit may be divided into several sub-prediction units. In this case, the derivation of the motion information using the disparity vector is performed in units of sub prediction units.
  • the size of the sub prediction unit may have a preset size (eg, 4x4, 8x8, 16x16, etc.), and the size of the sub prediction unit may be designated at the time of encoding.
  • Information about the size of the sub prediction unit may be signaled by being included in a video parameter set extension syntax (VPS Extension syntax).
  • VPS Extension syntax video parameter set extension syntax
  • FIG. 14 is a diagram illustrating an example of a process of deriving motion information of a current block by using a reference block.
  • the derivation of motion information for the current block means setting motion information existing in the reference block as motion information of the current block.
  • derivation of motion information is performed in units of prediction blocks.
  • motion is performed not only in the prediction block unit but also in each sub-prediction unit for the current block X located in the current picture at the current view. Information can be derived.
  • motion information existing in the sub prediction unit of the reference block XR may be set as motion information for the sub prediction unit of the current block X.
  • the reference block XR may refer to the reference block XR located in the current picture at the reference time point, and a detailed motion information derivation process will be described later.
  • the inter prediction unit may induce motion information not only in the prediction unit but also in the sub prediction unit in the derived reference block of the reference view.
  • the inter prediction unit obtains motion information in units of sub prediction units within the derived reference block of the reference view, not all sub prediction units have motion information. That is, there is a part in the reference block where motion information cannot be obtained.
  • the inter prediction unit checks whether motion information available in the sub prediction unit located in the center of the reference block exists.
  • the inter prediction unit stores the motion information present in the sub prediction unit located in the center of the reference block in a storage space
  • the storage space is video encoded / decoded. It may mean a separate storage device other than the device, and may be located inside the video encoding / decoding device.
  • the storage space may mean a memory, a processor, or the like, and the storage space may mean a virtual, logical storage space, not a physical space. In this case, the motion information stored in the storage space may mean initial motion information.
  • the inter prediction unit derives the motion information for the sub prediction unit of the current block, if the motion information does not exist in the sub prediction unit of the reference block corresponding to the sub prediction unit of the current block, the above-described initial motion information is present. It can be used as motion information for the sub-prediction unit of the block. If there is no motion information available in the sub prediction unit located in the center of the reference block, the inter prediction unit may not use the temporal inter-view motion information prediction. In this case, the motion information may be used as a motion merge candidate, that is, a merge candidate.
  • a merge motion candidate list that is, a merge candidate list, in a 3D image
  • the merge candidate in the 3D image encoding / decoding (eg, 3D-HEVC) may be derived to form a list.
  • the merge candidate in the 3D image encoding / decoding is derived, but in this specification, the derivation of the merge candidate is limited to the above-described order. It doesn't happen.
  • the merge candidates are arranged in the list according to a predetermined order, but in the present specification, the merge candidates are adaptively rearranged according to the video encoding / decoding situation from the scope of rights. It is not.
  • the existing 2D image encoding / decoding merge candidate may mean motion information of a block that is spatially and temporally adjacent to the current block, and the 3D image encoding / decoding merge candidate is a candidate of the image of the 3D image. It may mean merge candidates added according to characteristics.
  • the motion information of a block that is spatially and temporally adjacent to the current block may include A0, A1, B0, B1, B2, and Col (H or M) candidates, and A1 is the left side of the prediction target block as described above.
  • B1 may mean motion information of a block located above a prediction target block as described above.
  • B0 means motion information of a block located on the upper right side of the prediction target block
  • A0 means motion information of a block located on the lower left side of the prediction target block as described above
  • B2 is described above. It may mean motion information of a block located on the upper left side of the prediction target block.
  • Col (H or M) may refer to motion information derived through a block of a corresponding position in a co-located picture corresponding to the current picture including the current block in time. have.
  • merge candidates added to the characteristics of the 3D image may include motion parameter inheritance (MPI), inter-view merging candidate (IVMC), and inter-view disparity vector. candidate, IvDC), view synthesis prediction (VSP), shift inter view (ShiftIV), and Bi and Zero candidates.
  • MPI means motion information inheriting the motion information of the above-described real image
  • IvMC means motion information using merge between views
  • IvDC is derived by using the above-described disparity vector (ie, parallax). It may mean the movement information.
  • VSP may mean motion information derived by synthesizing a viewpoint
  • ShiftIV may mean motion information derived using a corrected parallax.
  • Bi may mean a motion candidate derived using both directions
  • Zero may mean a zero vector.
  • FIG. 15 schematically illustrates the concept of View Synthesis Prediction (VSP).
  • VSP View Synthesis Prediction
  • the view synthesis prediction may use a texture picture, a reference texture picture and a reference depth picture, and the texture picture includes a current block and a current block. Neighboring blocks may be included.
  • the reference depth picture may include a depth block used for the VSP and a block adjacent to the depth block used for the VSP.
  • the texture picture is a picture to which the merge candidate is derived, and the texture picture may mean an actual image.
  • the current block exists in the texture picture, and means a block in which prediction is made.
  • the current block may mean a coding unit, and in the sense that prediction is performed in the current block, the current block may mean a prediction unit or the aforementioned sub prediction unit.
  • the 'texture picture' may mean 'texture slice', 'texture view', 'texture image' and / or 'real picture', etc.
  • the 'texture picture' may be represented as a 'texture slice', a 'texture view', a 'texture image' and / or a 'real picture'.
  • the reference texture picture refers to a texture picture at a different point of time than the texture picture, and the reference texture pictures for the texture picture may be a plurality of pictures.
  • the reference texture picture refers to a texture picture at a different viewpoint than the texture picture, but the reference texture picture does not exclude a case in which the reference texture picture is the same viewpoint as the texture picture.
  • the 'reference texture picture' may include 'reference texture slice', 'reference texture view', 'reference texture image', and / or 'reference actual picture'.
  • 'reference texture picture' means 'reference texture slice', 'reference texture view', 'reference texture image' and / Or as a “reference actual picture”.
  • the reference depth picture refers to a depth information map that exists at a different point of time than the above-described texture picture, and the depth information map may be obtained through the above-described process.
  • the reference depth picture refers to a depth picture at a different viewpoint than the texture picture, but the reference depth picture does not exclude a case in which the reference depth picture is the same viewpoint as the texture picture.
  • the 'reference depth picture' may include 'reference depth slice', 'reference depth view', 'reference depth image' and / or 'reference depth picture', and the like.
  • 'reference depth picture' may be referred to as 'Reference depth slice', 'Reference depth view', 'Reference depth image' and / Or as a “reference depth picture”.
  • the VSP is generated using a disparity vector (DV), a referenced depth information map, and general image information of a corresponding view.
  • DV disparity vector
  • a method of generating a VSP will be described in more detail with reference to FIG. 15. 1.
  • a 3D image encoding / decoding apparatus derives a DV present in a block neighboring a current block. Thereafter, the 3D image encoding / decoding apparatus 2. copies the DV from the neighboring block, and 3. generates a virtual newly generated block through backward warping using the reference texture picture. Thereafter, the current block uses the virtual newly generated block as VSP prediction information, that is, a VSP merge candidate.
  • FIG. 16 illustrates an example of neighboring blocks inherited as VSP candidates in 3D image encoding / decoding.
  • each neighboring block may be a prediction block / sub prediction block unit, and neighboring blocks may mean reconstructed blocks.
  • each size of the neighboring blocks may have the same size as the current block or a different size from the current block, and having a size different from the current block may mean that the size is smaller or larger than the current block.
  • Neighboring blocks may be square or non-square.
  • neighboring blocks of the current block there may be a spatial neighboring block using the VSP.
  • neighboring blocks of the current block that is, A1 and B0 of neighboring blocks may use the VSP. have.
  • the spatial neighboring blocks (eg, A0, A1, B0, B1, B2) use the VSP
  • the spatial neighboring blocks using the VSP are called Inherited VSP candidates because they are inherited by the VSP.
  • the inherited VSP candidate uses the same disparity vector as the VSP candidate of the current block.
  • 17 illustrates an example of a merge candidate list in 3D image encoding / decoding.
  • FIG. 17 illustrates an example of a method of generating a merge candidate list when A1 and B0 use VSP candidates among neighboring blocks of the current block, that is, when A1 and B0 are inherited VSP candidates. It is shown schematically. In FIG. 17, the case where A1 and B0 are inherited VSP candidates is described, but each of the spatial neighboring blocks A0, A1, B0, B1, and B2 may have inherited VSP candidates.
  • each block located on the lower left side A0, the left side A1, the upper side B1, the upper right side B0, and / or the upper left side B2 can be inherited as a VSP candidate, respectively, in which other peripherals Regardless of whether a block is an inherited VSP candidate, each neighboring block may be inherited as a VSP candidate.
  • an apparatus and method for restricting the insertion of a VSP candidate in 3D image encoding / decoding are proposed.
  • the efficiency of using a VSP candidate in a merge candidate list and the possibility of using another candidate may be secured. Can be.
  • only one VSP candidate may be used in constructing the merge list.
  • redundancy that may occur between VSP candidates in 3D image encoding / decoding may be removed, and another candidate may be inserted into the merge list, thereby increasing encoding / decoding efficiency.
  • FIG. 18 is a flowchart of a method of restricting addition of a VSP candidate to a merge candidate list according to whether an inherited VSP candidate exists according to an embodiment of the present invention.
  • the 3D image encoding / decoding apparatus derives a merge motion candidate, that is, a merge candidate (S1810).
  • the derived merge candidates are A0, A1, B0, B1, B2, Col (H or M), Motion Parameter Inheritance (MPI), inter-view merging candidate (IVMC) as described above.
  • MPI Motion Parameter Inheritance
  • IVMC inter-view merging candidate
  • IvDC Inter-view disparity vector candidate
  • VSP view synthesis prediction
  • ShiftIV shift inter-view
  • Bi / or Zero candidates
  • the 3D image encoding / decoding apparatus may insert the derived merge candidate into the merge candidate list.
  • the derived merge candidate in step S1810 may mean A1 and / or B1
  • the 3D image encoding / decoding apparatus may insert A1 and / or B1 into the merge candidate list.
  • the 3D image encoding / decoding apparatus determines whether there is a block using a VSP among spatial candidates (S1820).
  • the spatial candidate may mean a spatial neighboring block, and the spatial neighboring block may include A0, A1, B0, B1, B2 and / or Col (H or M) candidates as described above, for example, in step S1820.
  • the determined spatial candidate block may be A1 and / or B1.
  • a block using a VSP among spatial candidates may mean an inherited VSP candidate, and a detailed description of the inherited VSP candidate is as described above.
  • the 3D image encoding / decoding apparatus inserts the VSP candidates into the merge candidate list (S1830).
  • the VSP candidate inserted into the merge candidate list means the VSP candidate of the current block, and the details of the VSP candidate are as described above.
  • the 3D image encoding / decoding apparatus derives the remaining merge motion candidates (S1840).
  • the remaining merge motion candidates that is, the remaining merge candidates are A0, A1, B0, B1, B2, Col (H or M), Motion Parameter Inheritance (MPI), and inter-view merging candidates.
  • IvMC inter-view disparity vector candidate
  • IvDC inter-view disparity vector candidate
  • VSP view synthesis prediction
  • ShitIV shift interview
  • Bi Bi and / or Zero candidate
  • steps S1810 to S1830 A0, A1, B0, B1, B2, Col (H or M)
  • Motion Parameter Inheritance MPI
  • Interview merge candidate inter-view merging candidate (IvMC), inter-view disparity vector candidate (IvDC), view synthesis prediction (VSP), shift interview (ShiftIV), Bi and / or Zero candidates It may mean candidates except candidates inserted into the merge list.
  • step S1840 the 3D image encoding / decoding apparatus merges the remaining merge candidates except for the A1, B1, and VSP candidates into the merge candidate list. You can derive whether or not to insert it.
  • the 3D image encoding / decoding apparatus does not insert the VSP candidate into the merge candidate list and derives the remaining merge motion candidates (S1840). ).
  • the details of the 3D image encoding / decoding apparatus deriving the remaining merge motion candidates are as described above.
  • 19 is a flowchart illustrating a method of restricting adding a VSP candidate to a merge candidate list according to whether an inherited VSP candidate exists according to another embodiment of the present invention in 3D-HEVC.
  • the 3D image encoding / decoding apparatus derives a merge motion candidate, that is, a merge candidate (S1910).
  • a merge candidate S1910
  • the details of the 3D image encoding / decoding apparatus inducing a merge candidate are as described above.
  • the 3D image encoding / decoding apparatus determines whether there is a block using a VSP among spatial candidates (S1920). In this case, as described above, the 3D image encoding / decoding apparatus determines whether there is a block using the VSP among the spatial candidates.
  • the 3D image encoding / decoding apparatus sets skipVSP to true (S1930).
  • skipVSP means information for determining whether to insert the VSP candidate into the merge candidate list or not. If skipVSP is true, the VSP candidate is not inserted into the merge candidate list. In addition, when skipVSP is false, the VSP candidate is inserted into the merge candidate list.
  • the 3D image encoding / decoding apparatus sets skipVSP to false (S1940).
  • the 3D image encoding / decoding apparatus determines whether skipVSP is true (S1950).
  • the 3D image encoding / decoding apparatus inserts the VSP candidate into the merge candidate list (S1960).
  • the details of inserting the VSP candidate into the merge candidate list by the 3D image encoding / decoding apparatus are as described above.
  • the 3D image encoding / decoding apparatus derives the remaining merge motion candidates (S1970).
  • the details of deriving the remaining merge motion candidates by the 3D image encoding / decoding apparatus are as described above.
  • step S1950 the 3D image encoding apparatus derives the remaining merge motion candidate without inserting the VSP candidate into the merge candidate list (S1970).
  • step S1970 the 3D video encoding apparatus does not insert the VSP candidate into the merge candidate list and derives the remaining merge motion candidates as described above.
  • the 3D image encoding / decoding apparatus may not add the VSP candidate to the merge candidate list. That is, through the above-described method, when there is an inherited VSP among neighboring blocks, that is, neighboring blocks, the 3D image encoding / decoding apparatus does not add the VSP candidate for the current block to the merge candidate list. Redundancy of existing merge candidates can be reduced, and additional merge candidates other than VSP candidates can be inserted into the merge candidate list, thereby improving coding efficiency.
  • the apparatus for restricting the addition of the VSP candidate to the merge candidate list according to whether the inherited VSP candidate exists may be a configuration in which a module for removing redundancy of the VSP is added to the existing inter prediction unit.
  • a module for removing redundancy of the VSP is added to the existing inter prediction unit.
  • FIG. 20 is a block diagram of an apparatus for restricting adding a VSP candidate to a merge candidate list according to whether an inherited VSP candidate exists according to an embodiment of the present invention.
  • the inter prediction unit 2000 may include an existing motion candidate generation module, a VSP redundancy removal module, and a 3D motion candidate generation module.
  • the existing motion candidate generation module derives a merge motion candidate, that is, a merge candidate.
  • the derived merge candidates are as described above, and details of each merge candidate are as described above.
  • the existing motion candidate generation module may insert the derived merge candidate into the merge candidate list.
  • the derived merge candidate may mean A1 and / or B1
  • the 3D image encoding / decoding apparatus may insert A1 and / or B1 into the merge candidate list.
  • the 'existing motion candidate generation module' may mean 'spatial merge candidate insertion module'.
  • the 'existing motion candidate generation module' may be mixed with the 'spatial merge candidate insertion module'. have.
  • the VSP redundancy removal module may determine whether any of the spatial candidates use a VSP block.
  • a spatial candidate may mean a spatial neighboring block, and the spatial neighboring block may include A0, A1, B0, B1, B2 and / or Col (H or M) candidates as described above, eg, eliminating VSP redundancy.
  • the spatial candidate blocks determined in the module may be A1 and / or B1.
  • the block using the VSP among the spatial candidates may mean an inherited VSP candidate, and a detailed description of the inherited VSP candidate is as described above.
  • the VSP redundancy removal module may set the skipVSP value to true or false based on the above determination result. In this case, the VSP redundancy removal module sets the skipVSP value to true or false based on the above determination result, as described above.
  • the 'VSP redundancy removal module' may mean 'VSP redundancy determination module'.
  • the 'VSP redundancy removal module' and the 'VSP redundancy determination module' may be used interchangeably.
  • the 3D motion candidate generation module inserts the VSP candidate into the merge candidate list and then derives the remaining merge motion candidates. Details of the 3D motion candidate generation module deriving the remaining merge motion candidates are the same as described above, and details of the remaining merge motion candidates are the same as described above.
  • the 3D image encoding / decoding apparatus is a 3D image encoding / decoding apparatus except for the A1, B1, and VSP candidates. It may be derived whether to insert the remaining merge candidates into the merge candidate list.
  • the 3D motion candidate generation module does not insert the VSP candidates into the merge candidate list. Deriving a merge motion candidate. The details of the 3D image encoding / decoding apparatus deriving the remaining merge motion candidates are as described above.
  • the 'three-dimensional motion candidate generation module' may mean 'three-dimensional merge candidate insertion module' or 'VSP candidate insertion module'.
  • the 'three-dimensional motion candidate generation module' and '3' The dimension merge candidate insertion module 'and the' VSP candidate insertion module 'may be used interchangeably.
  • the apparatus for restricting the addition of the VSP candidate to the merge candidate list according to whether the inherited VSP candidate exists may be a configuration in which the VSP redundancy removal module is extended / added to the 3D motion candidate generation module. In this case, it may be determined whether the VSP candidate is used according to whether the spatial neighbor candidate determined by the existing motion candidate generation module is to be used, and the determination of whether the VSP candidate is to be used may be made before the decision on deriving the VSP candidate.
  • an apparatus for restricting adding a VSP candidate to a merge candidate list according to whether an inherited VSP candidate exists according to another embodiment of the present invention will be described in more detail with reference to FIG. 21.
  • 21 is a block diagram of an apparatus for restricting adding a VSP candidate to a merge candidate list according to whether an inherited VSP candidate exists according to another embodiment of the present invention.
  • the inter prediction unit 2100 may include an existing motion candidate generation module and a 3D motion candidate generation module, and the 3D motion candidate generation module may include a VSP redundancy removal module.
  • the existing motion candidate generation module is as described above, and details of the existing motion candidate generation module are as described above.
  • the 3D motion candidate generation module may include a VSP redundancy removal module, and may determine whether a VSP candidate is to be used or not, according to whether a spatial neighbor candidate is used in the VSP candidate, which is determined in the existing motion candidate generation module. May be made prior to the determination of VSP candidate derivation. Details of the 3D motion candidate generation module and the VSP redundancy removal module are as described above.
  • the 3D encoding / decoding apparatus may refer to only two or one direction among the spatial merge candidates, By referring to only two or one direction among spatial merge candidates, the decoding apparatus may reduce the number of times of referencing a flag for determining whether to use a VSP. In this case, decreasing the number of times of referring to a flag for determining whether to use a VSP may reduce the number of times of memory access by the 3D encoding / decoding apparatus.
  • FIG. 22 is a view illustrating a merge candidate derivation method and a merge candidate derivation method according to another embodiment of the present invention.
  • each of the spatial neighboring blocks A0, A1, B0, B1, and / or B2 may be encoded / decoded in a VSP mode, that is, an inherited VSP in derivation of an existing merge candidate.
  • VSP mode that is, an inherited VSP in derivation of an existing merge candidate.
  • FIG. 22B illustrates an example of derivation of a merge candidate according to another embodiment of the present invention.
  • the 3D encoding / decoding apparatus constructs a merge candidate list for the current block, whether the VSP is used in A1 and / or B1 among neighboring blocks, that is, whether the VSP is inherited To judge. Thereafter, when the VSP is used in A1 and / or B1 among neighboring blocks, the 3D image encoding / decoding apparatus restricts the insertion of the VSP candidate into the merge list.
  • FIG. 23 is a flowchart illustrating a method of restricting insertion of a VSP candidate into a merge list by referring to two directions among spatial merge candidates according to another embodiment of the present invention.
  • the 3D image encoding / decoding apparatus inserts a candidate located on the left side of the current block, that is, a candidate located on the left side (S2300).
  • a candidate located on the left side of the current block is only an example of the present invention, and the 3D image encoding / decoding apparatus is performed in step S2300.
  • the candidate to insert into the list may be any one of spatial candidates (eg, candidates located on the left, bottom left, top left, top, and top right sides of the current block).
  • the candidate located on the left side of the current block may be A1, the candidate located on the lower left side may be A0, and the candidate located on the upper left side may be B2 candidate.
  • the candidate located on the upper side of the current block may be B1, and the candidate located on the upper right side may be B0.
  • the 3D image encoding / decoding apparatus determines whether the left candidate uses a VSP, that is, whether the left candidate is an inherited VSP (S2310), and the specific method of determining whether the left candidate uses the VSP is as described above.
  • the 3D image encoding / decoding apparatus When the left candidate uses the VSP, the 3D image encoding / decoding apparatus generates information indicating that the VSP is used (S2320), and the details of the information indicating that the VSP is used have been described above.
  • the 3D image encoding / decoding apparatus inserts a candidate located above the current block into the merge list (S2330).
  • the candidate located above the current block is only an example of the present invention, and the 3D image encoding / decoding apparatus is performed in step S2330.
  • the candidate to insert into the list may be any one of spatial candidates (eg, candidates located on the left, bottom left, top left, top, and top right sides of the current block).
  • the 3D image encoding / decoding apparatus does not generate information indicating that the VSP is used, and inserts an upper candidate into the list (S2330).
  • the 3D image encoding / decoding apparatus determines whether information indicating that the upper candidate uses the VSP and that the VSP is used does not exist (S2340).
  • the 3D image encoding / decoding apparatus If the upper candidate used the VSP and there is no information indicating that the VSP is used, the 3D image encoding / decoding apparatus generates information indicating that the VSP is used (S2350). In this case, the information indicating that the VSP is used in step S2350 is generated only when the upper candidate uses the VSP and there is no information indicating that the VSP is used.
  • the 3D image encoding / decoding apparatus determines whether information indicating that the VSP is used exists (S2360), and details of determining whether information indicating that the VSP is used exist as described above.
  • the 3D image encoding / decoding apparatus when there is information indicating that the VSP is used, the 3D image encoding / decoding apparatus does not insert the VSP candidate into the merge candidate list.
  • the 3D image encoding / decoding apparatus If there is no information indicating that the VSP is used in step S2360, the 3D image encoding / decoding apparatus generates the VSP candidate to the merge candidate list, that is, inserts the VSP candidate into the merge candidate list (S2370).
  • the above-described method can be applied to each spatial neighbor candidate, and if VSP inheritance is made from the previous spatial candidate, the current spatial candidate can be used as a candidate for predicting using only DV.
  • the above-described method may be implemented in the above-described three-dimensional image encoding / decoding apparatus.
  • 24A to 24B are flowcharts illustrating a method of restricting insertion of a VSP candidate into a merge list by referring to two directions among spatial merge candidates according to another embodiment of the present invention, in 3D HEVC.
  • the 3D image encoding / decoding apparatus derives an existing HEVC merge candidate and sets usedVSP to false (S2400). Detailed description of deriving an existing HEVC merge candidate and setting usedVSP to false is as described above.
  • the 3D image encoding / decoding apparatus determines whether the left candidate uses the VSP (S2410). In this case, the details of whether the 3D image encoding / decoding apparatus uses the VSP for the left candidate are as described above.
  • the 3D image encoding / decoding apparatus inserts the left candidate into the list as the inherited VSP candidate and sets usedVSP to true (S2430).
  • the details of inserting the left candidate into the list as the inherited VSP candidate and setting the usedVSP to true are as described above.
  • the 3D image encoding / decoding apparatus inserts the left candidate into the merge candidate list (S2420).
  • the details of inserting the left candidate into the merge candidate list by the 3D image encoding / decoding apparatus are as described above.
  • the 3D image encoding / decoding apparatus determines whether the upper candidate uses the VSP and whether the usedVSP is false (S2440). In this case, as described above, the image encoding / decoding apparatus determines whether the VSP is used for the upper candidate and whether the usedVSP is false.
  • the 3D video encoding / decoding apparatus inserts the upper candidate into the list as the inherited VSP candidate and sets usedVSP to true.
  • the 3D image encoding / decoding apparatus inserts the upper candidate into the merge list (S2460).
  • the details of inserting the upper candidate into the merge list by the 3D image encoding / decoding apparatus are as described above.
  • the 3D image encoding / decoding apparatus derives the remaining spatial merging candidates (S2470).
  • the details of deriving the spatial merge candidate in which the 3D image encoding / decoding device remains are as described above.
  • the 3D image encoding / decoding apparatus derives the merge candidate before the VSP candidate (S2475).
  • the merge candidates after the step S2470 and before the VSP candidates are A0, A1, B0, B1, B2, Col (H or M), Motion Parameter Inheritance (MPI), and inter-view merging candidate.
  • MPI Motion Parameter Inheritance
  • IvMC inter-view disparity vector candidate
  • IvDC inter-view disparity vector candidate
  • VSP view synthesis prediction
  • ShiftIV shift interview
  • Bi Bi and / or Zero candidate
  • the 3D image encoding / decoding apparatus determines whether usedVSP is true (S2480). In this case, the details of determining whether the 3D image encoding / decoding device is true for the usedVSP are as described above.
  • the 3D image encoding / decoding apparatus inserts the VSP candidate into the merge list (S2485). In this case, the 3D image encoding / decoding apparatus inserts the VSP candidate into the merge list, and the details of the VSP candidate are as described above.
  • the 3D image encoding / decoding apparatus inserts the remaining merge candidates into the list (S2490).
  • the details of inserting the remaining merge candidates are as described above.
  • the 3D image encoding / decoding apparatus inserts the remaining merge candidates into the list without inserting the VSP candidates into the list (S2490). At this time, the specific details of inserting the remaining merge candidates into the list without inserting the VSP candidates into the list are as described above.
  • 25 is a view illustrating a merge candidate derivation method and a merge candidate derivation method according to another embodiment of the present invention.
  • 25A illustrates an example of derivation for an existing merge candidate.
  • specific details regarding the derivation of the existing merge candidate are as described above.
  • FIG. 22B illustrates an example of derivation of a merge candidate according to another embodiment of the present invention.
  • the 3D encoding / decoding apparatus determines whether a VSP is used in A1 among neighboring blocks, that is, whether it is an inherited VSP. Subsequently, when the VSP is used in A1 among neighboring blocks, the 3D image encoding / decoding apparatus restricts the insertion of the VSP candidate into the merge list.
  • FIG. 26 is a flowchart illustrating a method of restricting insertion of a VSP candidate into a merge list with reference to one direction among spatial merge candidates according to another embodiment of the present invention.
  • the 3D image encoding / decoding apparatus inserts a candidate located on the left side of the current block, that is, a candidate located on the left side (S2600).
  • a candidate located on the left side of the current block is only an example of the present invention, and the 3D image encoding / decoding apparatus is performed in step S2600.
  • the candidate to insert into the list may be any one of spatial candidates (eg, candidates located on the left, bottom left, top left, top, and top right sides of the current block).
  • the 3D image encoding / decoding apparatus determines whether the left candidate uses a VSP, that is, whether the left candidate is an inherited VSP (S2610), and the specific method of determining whether the left candidate uses the VSP is as described above.
  • the 3D image encoding / decoding apparatus When the left candidate uses the VSP, the 3D image encoding / decoding apparatus generates information indicating that the VSP is used (S2620), and the details of the information indicating that the VSP is used have been described above.
  • the 3D image encoding / decoding apparatus does not generate information indicating that the VSP is used.
  • the 3D image encoding / decoding apparatus determines whether information indicating that the VSP is used exists (S2630), and details of determining whether information indicating that the VSP has been used exist as described above.
  • the 3D image encoding / decoding apparatus when there is information indicating that the VSP is used, the 3D image encoding / decoding apparatus does not insert the VSP candidate into the merge candidate list.
  • the 3D image encoding / decoding apparatus If there is no information indicating that the VSP is used in step S2630, the 3D image encoding / decoding apparatus generates the VSP candidate to the merge candidate list, that is, inserts the VSP candidate into the merge candidate list (S2640).
  • the above-described method can be applied to each spatial neighbor candidate, and if VSP inheritance is made from the previous spatial candidate, the current spatial candidate can be used as a candidate for predicting using only DV.
  • the above-described method may be implemented in the above-described three-dimensional image encoding / decoding apparatus.
  • 27A to 27B are flowcharts illustrating a method of restricting insertion of a VSP candidate into a merge list with reference to one direction among spatial merge candidates according to another embodiment of the present invention, in 3D HEVC.
  • the 3D image encoding / decoding apparatus derives an existing HEVC merge candidate and sets usedVSP to false (S2700). Detailed description of deriving an existing HEVC merge candidate and setting usedVSP to false is as described above.
  • the 3D image encoding / decoding apparatus determines whether the left candidate uses a VSP (S2710). In this case, the details of whether the 3D image encoding / decoding apparatus uses the VSP for the left candidate are as described above.
  • the 3D image encoding / decoding apparatus inserts the left candidate into the list as the inherited VSP candidate, and sets usedVSP to true (S2720).
  • the details of inserting the left candidate into the list as the inherited VSP candidate and setting the usedVSP to true are as described above.
  • the 3D image encoding / decoding apparatus inserts the left candidate into the merge candidate list (S2730).
  • the details of inserting the left candidate into the merge candidate list by the 3D image encoding / decoding apparatus are as described above.
  • the 3D image encoding / decoding apparatus derives the remaining spatial merging candidates (S2740).
  • the details of deriving the spatial merge candidate in which the 3D image encoding / decoding device remains are as described above.
  • the 3D image encoding / decoding apparatus derives a merge candidate before the VSP candidate (S2750).
  • the merge candidates after the step S2740 and before the VSP candidates are A0, A1, B0, B1, B2, Col (H or M), Motion Parameter Inheritance (MPI), and inter-view merging candidates.
  • MPI Motion Parameter Inheritance
  • IvMC inter-view disparity vector candidate
  • IvDC inter-view disparity vector candidate
  • VSP view synthesis prediction
  • ShiftIV shift interview
  • Bi Bi and / or Zero candidate
  • the 3D image encoding / decoding apparatus determines whether usedVSP is true (S2760). In this case, the details of determining whether the 3D image encoding / decoding device is true for the usedVSP are as described above.
  • the 3D image encoding / decoding apparatus inserts the VSP candidate into the merge list (S2770). In this case, the 3D image encoding / decoding apparatus inserts the VSP candidate into the merge list, and the details of the VSP candidate are as described above.
  • the 3D image encoding / decoding apparatus inserts the remaining merge candidates into the list (S2780).
  • the details of inserting the remaining merge candidates are as described above.
  • the 3D image encoding / decoding apparatus inserts the remaining merge candidates into the list without inserting the VSP candidates into the list (S2780). At this time, the specific details of inserting the remaining merge candidates into the list without inserting the VSP candidates into the list are as described above.
  • FIG. 28 is a block diagram of an apparatus for restricting inserting a VSP candidate into a merge list according to another embodiment of the present invention.
  • an apparatus for restricting insertion of a VSP candidate into a merge list may include a 3D HEVC candidate generation module, such as an existing HEVC candidate generation module and a VSPO usage determination module for a left block.
  • the existing HEVC candidate generation module may mean the existing motion candidate generation module described above, and details of the existing HEVC candidate generation module are as described above.
  • the VSP usage determination module for the left block and the like may each include a VSP deactivation module of an existing candidate, The VSP determination module may deactivate the use of the VSP of another spatial neighbor candidate according to whether the spatial neighbor candidate uses the VSP. As a result, only the candidates in a predetermined direction are used as the VSP candidates, thereby reducing the number of accesses to the VSP flags stored for each block. As a result, in three-dimensional image encoding / decoding, as a result, memory access can be reduced.
  • the 3D HEVC candidate generation module may mean the above-described 3D motion candidate generation module, and the 3D HEVC candidate generation module may include a VSP redundancy removal module.
  • the above-described 3D video encoding / decoding apparatus and method may be used in 3D-HEVC (High Efficiency Video Coding), which is currently being jointly standardized by a Moving Picture Experts Group (MPEG) and a Video Coding Experts Group (VCEG). Accordingly, the apparatus and method described above may vary in application range according to a block size, a coding unit depth (CU) depth, a transform unit (TU) depth, and the like as shown in Table 1.
  • a variable (ie, size or depth information) for determining an application range may be set to use a predetermined value in an encoding / decoding apparatus and a method, or a value determined according to a profile or level may be used.
  • variable value may be obtained from the bitstream in the decoding apparatus and the method.
  • Table 1 when varying the application range according to the CU depth, A) may be applied only to a depth above a given depth, B) only to be applied below a given depth, and C) may be applied only to a given depth. Can be.
  • any flag may indicate that the method described above does not apply, and the CU depth value indicative of coverage is one more than the maximum value of the CU depth. It may be represented by signaling a large value.
  • 29 illustrates an example in which redundancy between VSP candidates is removed through the above-described 3D image encoding / decoding apparatus and method.
  • VSP candidates are present in the merge candidate list by the conventional method, the VSP candidates are duplicated by the 3D encoding / decoding apparatus proposed herein. You can see that.
  • the methods are described based on a flowchart as a series of steps or units, but the present invention is not limited to the order of steps, and certain steps may occur in a different order or simultaneously from other steps as described above. Can be. Also, one of ordinary skill in the art appreciates that the steps shown in the flowcharts are not exclusive, that other steps may be included, or that one or more steps in the flowcharts may be deleted without affecting the scope of the present invention. I can understand.
  • the method according to the present invention described above may be stored in a computer-readable recording medium that is produced as a program for execution on a computer, and examples of the computer-readable recording medium include ROM, RAM, CD-ROM, magnetic tape , Floppy disks, optical data storage devices, and the like, and also include those implemented in the form of carrier waves (eg, transmission over the Internet).
  • the computer readable recording medium can be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.
  • functional programs, codes, and code segments for implementing the method can be easily inferred by programmers in the art to which the present invention belongs.

Abstract

본 발명은 제1 후보 블록을 머지 후보 리스트에 삽입하는 단계, 상기 제1 후보 블록에서 시점 합성 예측(View Synthesis Prediction, VSP)이 사용된 경우, VSP가 사용되었음을 나타내는 정보를 생성하는 단계 및 상기 VSP가 사용되었음을 나타내는 정보가 존재하는 경우, 머지 후보 리스트에 현재 블록의 VSP 후보를 삽입하지 않는 단계를 포함하는 3차원 영상 복호화 방법을 제공한다.

Description

움직임 병합 모드에서 시점 합성 예측 후보의 중복성 제거 장치 및 방법
본 발명은 영상 부호화/복호화 장치 및 방법에 관한 것으로서, 보다 구체적으로는 움직임 병합 모드에서 시점 합성 예측 후보의 중복성을 제거하는 부호화/복호화 장치 및 방법에 관한 것이다.
방송 통신 산업의 발달은 HD(High Definition) 해상도를 가지는 방송 서비스의 세계적인 확산을 야기시켰으며, 이로 인해 많은 사용자들은 HD 영상에 익숙해지게 되었다. HD화질에 익숙해진 사용자들은 더욱 더 높은 화질과 높은 해상도를 가지는 영상을 원하게 되었으며, 사용자들의 수요를 충족시키기 위해 많은 기관들이 차세대 영상 기기에 대한 개발에 박차를 가하였다. 이로 인하여, 오늘날에는 FHD(Full HD) 및 UHD(Ultra High Definition)가 지원되는 영상을 접할 수 있게 되었으며, FHD 및 UHD가 지원되는 영상으로 인하여 사용자들은 고해상도의 영상을 접할 수 있게 되었다.
사용자들은 높은 화질과 높은 해상도를 가지는 영상뿐만 아니라, 입체감을 느낄 수 있는 3차원 영상을 원하게 되었다. 이로 인하여, 다양한 기관들은 사용자들의 수요를 충족시켜 주기 위한 3차원 영상을 개발하기에 이르렀다.
3차원 영상은 실제 영상(texture) 정보뿐만 아니라 깊이 맵(depth map) 정보를 필요로 한다. 3차원 영상은 기존의 2차원 영상에 비해 훨씬 많은 양의 정보를 필요로 하며, 2차원 영상에 대한 영상 부호화/복호화 장치 및 방법을 이용하여 3차원 영상에 대해 부호화/복호화를 수행하는 경우, 충분한 부호화/복호화 효율이 나오지 않은 문제점이 있었다.
본 발명이 해결하고자 하는 과제는 머지 리스트에 삽입되는 머지 후보의 중복성을 제거하는 영상 부호화/복호화 장치 및 방법을 제공하는 것이다.
본 발명의 해결하고자 하는 다른 과제는 3차원 영상 부호화/복호화에 있어서, 머지 후보의 중복성을 제거하는 장치 및 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 또 다른 과제는 3차원 영상 부호화/복호화에 있어서, 시점 합성 예측 후보의 중복성을 제거하는 장치 및 방법을 제공하는 것이다.
본 발명의 일 실시예에 따르면, 제1 후보 블록을 머지 후보 리스트에 삽입하는 단계, 상기 제1 후보 블록에서 시점 합성 예측(View Synthesis Prediction, VSP)이 사용된 경우, VSP가 사용되었음을 나타내는 정보를 생성하는 단계 및 상기 VSP가 사용되었음을 나타내는 정보가 존재하는 경우, 머지 후보 리스트에 현재 블록의 VSP 후보를 삽입하지 않는 단계를 포함하는 3차원 영상 복호화 방법을 제공한다.
이때, 상기 제1 후보 블록은 공간적 이웃 블록일 수 있다.
이때, 상기 제1 후보 블록은 현재 블록의 좌측에 위치한 상기 공간적 이웃 블록일 수 있다.
이때, 상기 제1 후보 블록은 A1 블록일 수 있다.
이때, 상기 VSP가 사용되었음을 나타내는 정보는 제1 후보 블록이 사용 가능한지 여부에 대해 지시하는 정보 또는 제1 후보 블록에서 VSP가 사용되었는지 여부에 대해 지시하는 정보를 포함할 수 있다.
이때, 상기 제1 후보 블록을 머지 후보 리스트에 삽입한 후, 제2 후보 블록을 머지 후보 리스트에 삽입하는 단계를 더 포함하고, 상기 VSP가 사용되었음을 나타내는 정보를 생성하는 단계에서는, 상기 제1 후보 블록 또는 상기 제2 후보 블록에서 VSP가 사용된 경우, 상기 VSP가 사용되었음을 나타내는 정보를 생성할 수 있다.
이때, 상기 제1 후보 블록은 현재 블록의 좌측에 위치한 공간적 이웃 블록이고, 상기 제2 후보 블록은 현재 블록의 상측에 위치한 공간적 이웃 블록일 수 있다.
이때, 상기 제1 후보 블록은 A1 블록이고, 상기 제2 후보 블록은 B1 블록일 수 있다.
이때, 상기 현재 블록은 서브 예측 블록일 수 있다.
본 발명의 다른 실시예에 따르면, 제1 후보 블록을 머지 후보 리스트에 삽입하는 공간적 머지 후보 삽입 모듈, 상기 제1 후보 블록에서 시점 합성 예측(View Synthesis Prediction, VSP)이 사용된 경우, VSP가 사용되었음을 나타내는 정보를 생성하는 VSP 중복성 판단 모듈 및 상기 VSP가 사용되었음을 나타내는 정보가 존재하는 경우, 머지 후보 리스트에 현재 블록의 VSP 후보를 삽입하지 않는 VSP 후보 삽입 모듈을 포함하는 3차원 영상 복호화 장치를 제공한다.
이때, 상기 제1 후보 블록은 공간적 이웃 블록일 수 있다.
이때, 상기 제1 후보 블록은 현재 블록의 좌측에 위치한 상기 공간적 이웃 블록일 수 있다.
이때, 상기 제1 후보 블록은 A1 블록일 수 있다.
이때, 상기 VSP가 사용되었음을 나타내는 정보는 제1 후보 블록이 사용 가능한지 여부에 대해 지시하는 정보 또는 제1 후보 블록에서 VSP가 사용되었는지 여부에 대해 지시하는 정보를 포함할 수 있다.
이때, 상기 공간적 머지 후보 삽입 모듈은 상기 제1 후보 블록을 머지 후보 리스트에 삽입한 후, 제2 후보 블록을 머지 후보 리스트에 삽입하고, 상기 VSP 중복성 판단 모듈은 상기 제1 후보 블록 또는 상기 제2 후보 블록에서 VSP가 사용된 경우, 상기 VSP가 사용되었음을 나타내는 정보를 생성할 수 있다.
이때, 상기 제1 후보 블록은 현재 블록의 좌측에 위치한 공간적 이웃 블록이고, 상기 제2 후보 블록은 현재 블록의 상측에 위치한 공간적 이웃 블록일 수 있다.
이때, 상기 제1 후보 블록은 A1 블록이고, 상기 제2 후보 블록은 B1 블록일 수 있다.
이때, 상기 현재 블록은 서브 예측 블록일 수 있다.
본 발명의 또 다른 실시예에 따르면, 제1 후보 블록을 머지 후보 리스트에 삽입하는 단계, 상기 제1 후보 블록에서 시점 합성 예측(View Synthesis Prediction, VSP)이 사용된 경우, VSP가 사용되었음을 나타내는 정보를 생성하는 단계 및 상기 VSP가 사용되었음을 나타내는 정보가 존재하는 경우, 머지 후보 리스트에 현재 블록의 VSP 후보를 삽입하지 않는 단계를 포함하는 3차원 영상 부호화 방법을 제공한다.
이때, 상기 제1 후보 블록은 공간적 이웃 블록일 수 있다.
이때, 상기 제1 후보 블록은 현재 블록의 좌측에 위치한 상기 공간적 이웃 블록일 수 있다.
이때, 상기 제1 후보 블록은 A1 블록일 수 있다.
이때, 상기 VSP가 사용되었음을 나타내는 정보는 제1 후보 블록이 사용 가능한지 여부에 대해 지시하는 정보 또는 제1 후보 블록에서 VSP가 사용되었는지 여부에 대해 지시하는 정보를 포함할 수 있다.
이때, 상기 제1 후보 블록을 머지 후보 리스트에 삽입한 후, 제2 후보 블록을 머지 후보 리스트에 삽입하는 단계를 더 포함하고, 상기 VSP가 사용되었음을 나타내는 정보를 생성하는 단계에서는, 상기 제1 후보 블록 또는 상기 제2 후보 블록에서 VSP가 사용된 경우, 상기 VSP가 사용되었음을 나타내는 정보를 생성할 수 있다.
이때, 상기 제1 후보 블록은 현재 블록의 좌측에 위치한 공간적 이웃 블록이고, 상기 제2 후보 블록은 현재 블록의 상측에 위치한 공간적 이웃 블록일 수 있다.
이때, 상기 제1 후보 블록은 A1 블록이고, 상기 제2 후보 블록은 B1 블록일 수 있다.
이때, 상기 현재 블록은 서브 예측 블록일 수 있다.
본 발명의 또 다른 실시예에 따르면, 제1 후보 블록을 머지 후보 리스트에 삽입하는 공간적 머지 후보 삽입 모듈, 상기 제1 후보 블록에서 시점 합성 예측(View Synthesis Prediction, VSP)이 사용된 경우, VSP가 사용되었음을 나타내는 정보를 생성하는 VSP 중복성 판단 모듈 및 상기 VSP가 사용되었음을 나타내는 정보가 존재하는 경우, 머지 후보 리스트에 현재 블록의 VSP 후보를 삽입하지 않는 VSP 후보 삽입 모듈을 포함하는 3차원 영상 부호화 장치를 제공한다.
이때, 상기 제1 후보 블록은 공간적 이웃 블록일 수 있다.
이때, 상기 제1 후보 블록은 현재 블록의 좌측에 위치한 상기 공간적 이웃 블록일 수 있다.
이때, 상기 제1 후보 블록은 A1 블록일 수 있다.
이때, 상기 VSP가 사용되었음을 나타내는 정보는 제1 후보 블록이 사용 가능한지 여부에 대해 지시하는 정보 또는 제1 후보 블록에서 VSP가 사용되었는지 여부에 대해 지시하는 정보를 포함할 수 있다.
이때, 상기 공간적 머지 후보 삽입 모듈은 상기 제1 후보 블록을 머지 후보 리스트에 삽입한 후, 제2 후보 블록을 머지 후보 리스트에 삽입하고, 상기 VSP 중복성 판단 모듈은 상기 제1 후보 블록 또는 상기 제2 후보 블록에서 VSP가 사용된 경우, 상기 VSP가 사용되었음을 나타내는 정보를 생성할 수 있다.
이때, 상기 제1 후보 블록은 현재 블록의 좌측에 위치한 공간적 이웃 블록이고, 상기 제2 후보 블록은 현재 블록의 상측에 위치한 공간적 이웃 블록일 수 있다.
이때, 상기 제1 후보 블록은 A1 블록이고, 상기 제2 후보 블록은 B1 블록일 수 있다.
이때, 상기 현재 블록은 서브 예측 블록일 수 있다.
본 발명의 또 다른 실시예에 따르면, 제1 후보 블록을 머지 후보 리스트에 삽입하는 단계, 상기 제1 후보 블록에서 시점 합성 예측(View Synthesis Prediction, VSP)이 사용된 경우, VSP가 사용되었음을 나타내는 정보를 생성하는 단계 및 상기 VSP가 사용되었음을 나타내는 정보가 존재하는 경우, 머지 후보 리스트에 현재 블록의 VSP 후보를 삽입하지 않는 단계를 포함하는 3차원 영상 복호화 방법을 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체를 포함할 수 있다.
이때, 상기 제1 후보 블록은 공간적 이웃 블록일 수 있다.
이때, 상기 제1 후보 블록은 현재 블록의 좌측에 위치한 상기 공간적 이웃 블록일 수 있다.
이때, 상기 제1 후보 블록은 A1 블록일 수 있다.
이때, 상기 VSP가 사용되었음을 나타내는 정보는 제1 후보 블록이 사용 가능한지 여부에 대해 지시하는 정보 또는 제1 후보 블록에서 VSP가 사용되었는지 여부에 대해 지시하는 정보를 포함할 수 있다.
이때, 상기 제1 후보 블록을 머지 후보 리스트에 삽입한 후, 제2 후보 블록을 머지 후보 리스트에 삽입하는 단계를 더 포함하고, 상기 VSP가 사용되었음을 나타내는 정보를 생성하는 단계에서는, 상기 제1 후보 블록 또는 상기 제2 후보 블록에서 VSP가 사용된 경우, 상기 VSP가 사용되었음을 나타내는 정보를 생성할 수 있다.
이때, 상기 제1 후보 블록은 현재 블록의 좌측에 위치한 공간적 이웃 블록이고, 상기 제2 후보 블록은 현재 블록의 상측에 위치한 공간적 이웃 블록일 수 있다.
이때, 상기 제1 후보 블록은 A1 블록이고, 상기 제2 후보 블록은 B1 블록일 수 있다.
이때, 상기 현재 블록은 서브 예측 블록일 수 있다.
본 발명의 또 다른 실시예에 따르면, 제1 후보 블록을 머지 후보 리스트에 삽입하는 단계, 상기 제1 후보 블록에서 시점 합성 예측(View Synthesis Prediction, VSP)이 사용된 경우, VSP가 사용되었음을 나타내는 정보를 생성하는 단계 및 상기 VSP가 사용되었음을 나타내는 정보가 존재하는 경우, 머지 후보 리스트에 현재 블록의 VSP 후보를 삽입하지 않는 단계를 포함하는 3차원 영상 부호화 방법을 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체를 포함할 수 있다.
이때, 상기 제1 후보 블록은 공간적 이웃 블록일 수 있다.
이때, 상기 제1 후보 블록은 현재 블록의 좌측에 위치한 상기 공간적 이웃 블록일 수 있다.
이때, 상기 제1 후보 블록은 A1 블록일 수 있다.
이때, 상기 VSP가 사용되었음을 나타내는 정보는 제1 후보 블록이 사용 가능한지 여부에 대해 지시하는 정보 또는 제1 후보 블록에서 VSP가 사용되었는지 여부에 대해 지시하는 정보를 포함할 수 있다.
이때, 상기 제1 후보 블록을 머지 후보 리스트에 삽입한 후, 제2 후보 블록을 머지 후보 리스트에 삽입하는 단계를 더 포함하고, 상기 VSP가 사용되었음을 나타내는 정보를 생성하는 단계에서는, 상기 제1 후보 블록 또는 상기 제2 후보 블록에서 VSP가 사용된 경우, 상기 VSP가 사용되었음을 나타내는 정보를 생성할 수 있다.
이때, 상기 제1 후보 블록은 현재 블록의 좌측에 위치한 공간적 이웃 블록이고, 상기 제2 후보 블록은 현재 블록의 상측에 위치한 공간적 이웃 블록일 수 있다.
이때, 상기 제1 후보 블록은 A1 블록이고, 상기 제2 후보 블록은 B1 블록일 수 있다.
이때, 상기 현재 블록은 서브 예측 블록일 수 있다.
본 발명에 따르면, 영상 부호화/복호화에 있어서, 머지 리스트에 삽입되는 머지 후보의 중복성을 제거할 수 있다.
본 발명에 따르면, 3차원 영상 부호화/복호화에 있어서, 머지 후보의 중복성을 제거할 수 있다.
본 발명에 따르면, 3차원 영상 부호화/복호화에 있어서, 시점 합성 예측 후보의 중복성을 제거할 수 있다.
도 1은 3차원 비디오 시스템의 기본 구조를 개략적으로 도시한 것이다.
도 2는 “balloons” 영상의 실제 영상과 깊이 정보 맵 영상의 일례를 나타내는 도면이다.
도 3은 영상을 부호화 및 복호화할 때 영상의 분할 구조를 개략적으로 나타내는 도면이다.
도 4는 부호화 유닛(CU)이 포함할 수 있는 예측 유닛(PU)의 형태를 도시한 것이다.
도 5는 변환 유닛(TU)의 쿼드트리 분할 구조의 일 예를 개략적으로 도시한 것이다.
도 6은 3차원 비디오 코덱(codec)에서 시점 간 예측(inter view prediction)의 구조를 나타내는 일례다.
도 7은 3차원 비디오 인코더 및/또는 디코더에서 실제 영상(texture view)과 깊이 정보 맵(depth view)을 부호화 및/또는 복호화하는 과정을 나타낸 일례다.
도 8은 비디오 인코더의 일 실시예에 따른 구성을 나타내는 블록도이다.
도 9은 비디오 디코더의 일 실시예에 따른 구성을 나타내는 블록도이다.
도 10은 3차원 비디오 코덱에 대한 예측 구조의 일례를 나타내는 도면이다.
도 11은 현재 블록에 대한 머지 후보 리스트(merge candidate list)를 구성하는 데 사용되는 주변 블록들을 나타낸 일례다.
도 12는 인접한 시점의 움직임 정보를 이용하여, 현재 블록의 움직임 정보를 유도하는 과정의 일례를 나타내는 도면이다.
도 13는 하나의 예측 유닛(Prediction Unit, PU)이 여러 개의 서브 예측 유닛(Sub-Prediction Unit)으로 나누어지는 일례를 나타내는 도면이다.
도 14은 참조 블록을 이용하여 현재 블록의 움직임 정보를 유도하는 과정의 일례를 나타내는 도면이다.
도 15는 시점 합성 예측(View-Synthesis Prediction, VSP)의 개념을 개략적으로 도시한 것이다.
도 16은 3차원 영상 부호화/복호화에서, VSP 후보로서 상속되는 주변 블록의 일 예를 도시한 것이다.
도 17은 3차원 영상 부호화/복호화에서, 머지 후보 리스트의 일 예를 도시한 것이다.
도 18은 본 발명의 일 실시예에 따른, 상속된 VSP 후보가 존재하는지 여부에 따라 머지 후보 리스트에 VSP 후보를 추가하는 것을 제한하는 방법의 순서도이다.
도 19는 본 발명의 다른 실시예에 따른, 상속된 VSP 후보가 존재하는지 여부에 따라 머지 후보 리스트에 VSP 후보를 추가하는 것을 제한하는 방법을 3D-HEVC에 구현한 순서도이다.
도 20은 본 발명의 일 실시예에 따른, 상속된 VSP 후보가 존재하는지 여부에 따라 머지 후보 리스트에 VSP 후보를 추가하는 것을 제한하는 장치의 블록도이다.
도 21은 본 발명의 다른 실시예에 따른, 상속된 VSP 후보가 존재하는지 여부에 따라 머지 후보 리스트에 VSP 후보를 추가하는 것을 제한하는 장치의 블록도이다.
도 22는 기존의 머지 후보 유도 방법과, 본 발명의 또 다른 실시예에 따른 머지 후보 유도 방법을 비교한 것이다.
도 23은 본 발명의 또 다른 실시예에 따른 공간적 머지 후보 중에서 두 가지 방향을 참조하여 머지 리스트에 VSP 후보를 삽입하는 것을 제한하는 방법에 관한 순서도이다.
도 24a 내지 도 24b는 본 발명의 또 다른 실시예에 따른 공간적 머지 후보 중에서 두 가지 방향을 참조하여 머지 리스트에 VSP 후보를 삽입하는 것을 제한하는 방법을 3D HEVC에 적용한 순서도이다.
도 25는 기존의 머지 후보 유도 방법과, 본 발명의 또 다른 실시예에 따른 머지 후보 유도 방법을 비교한 것이다.
도 26은 본 발명의 또 다른 실시예에 따른 공간적 머지 후보 중에서 한 가지 방향을 참조하여 머지 리스트에 VSP 후보를 삽입하는 것을 제한하는 방법에 관한 순서도이다.
도 27a 내지 도 27b는 본 발명의 또 다른 실시예에 따른 공간적 머지 후보 중에서 한 가지 방향을 참조하여 머지 리스트에 VSP 후보를 삽입하는 것을 제한하는 방법을 3D HEVC에 적용한 순서도이다.
도 28은 본 발명의 또 다른 실시예에 따른 머지 리스트에 VSP 후보를 삽입하는 것을 제한하는 장치에 대한 블록도이다.
도 29는 상술한 3차원 영상 부호화/복호화 장치 및 방법을 통해 VSP 후보간 중복성이 제거된 일례를 나타낸다.
이하, 도면을 참조하여 본 발명의 실시 형태에 대하여 구체적으로 설명한다. 본 명세서의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
어떤 구성 요소가 다른 구성 요소에 “연결되어” 있다거나 “접속되어” 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 아울러, 본 발명에서 특정 구성을 “포함”한다고 기술하는 내용은 해당 구성 이외의 구성을 배제하는 것이 아니며, 추가적인 구성이 본 발명의 실시 또는 본 발명의 기술적 사상의 범위에 포함 될 수 있음을 의미한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
또한, 본 발명의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 포함한 것으로 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있고 이러한 각 구성부의 통합된 실시예 및 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리범위 에 포함된다.
또한, 일부의 구성 요소는 본 발명에서 본질적인 기능을 수행하는 필수적인 구성 요소는 아니고 단지 성능을 향상시키기 위한 선택적 구성 요소일 수 있다. 본 발명은 단지 성능 향상을 위해 사용되는 구성 요소를 제외한 본 발명의 본질을 구현하는데 필수적인 구성부 만을 포함하여 구현될 수 있고, 단지 성능 향상을 위해 사용되는 선택적 구성 요소를 제외한 필수 구성 요소만을 포함한 구조도 본 발명의 권리범위에 포함된다.
3차원 비디오는 3차원 입체 디스플레이 장치를 통해 사용자에게 실 세계에서 보고 느끼는 것과 같은 입체감을 제공한다. 이와 관련하여, ISO/IEC의 MPEG(Moving Picture Experts Group)와 ITU-T의 VCEG(Video Coding Experts Group)의 공동 표준화 그룹인 JCT-3V(The Joint Collaborative Team on 3D Video Coding Extension Development)에서는 3차원 비디오 표준화가 진행 중이다.
도 1은 3차원 비디오 시스템의 기본 구조를 개략적으로 도시한 것이다.
도 1을 참조하면, 3차원 비디오(3D video; 3DV) 시스템은 송신측(sender) 및 수신측(receiver)을 포함할 수 있다. 이때, 도 1의 3차원 비디오 시스템은 3차원 비디오 표준에서 고려하고 있는 기본적인 3차원 비디오 시스템일 수 있으며, 3차원 비디오 표준은 실제 영상과 실제 영상에 대응되는 깊이 정보 맵을 이용하여, 스테레오스코픽 영상뿐만 아니라 오토스테레오스코픽(autostereoscopic) 영상의 재생을 지원할 수 있는 진보된 데이터 형식과 그에 관련된 기술에 대한 표준을 포함할 수 있다.
송신측은 다시점(multi-view)의 영상 콘텐츠를 생성할 수 있다. 구체적으로, 송신측에서는 스테레오 카메라 및 다시점 카메라를 이용하여 비디오 정보를 생성하고, 깊이 정보 카메라를 이용하여 깊이 정보 맵(depth map, 또는 depth view)을 생성할 수 있다. 또한, 송신측에서는 변환기를 이용하여 2차원 영상을 3차원 영상으로 변환할 수도 있다. 송신측에서는 생성된 비디오 정보와 깊이 정보 맵 등을 이용하여 N(N≥2) 시점(view)(즉, 다시점)의 영상 콘텐츠를 생성할 수 있다. 이때, N 시점의 영상 콘텐츠에는 N 시점의 비디오 정보와 그것의 깊이 정보 맵(Depth-map) 정보 그리고 카메라 관련 부가 정보 등이 포함될 수 있다. N 시점의 영상 콘텐츠는 3차원 비디오 인코더에서 다시점 비디오 부호화 방법을 사용하여 압축될 수 있으며, 압축된 영상 콘텐츠(비트스트림)는 네트워크를 통해 수신측의 단말로 전송될 수 있다.
수신측(receiver)은 송신측으로부터 수신된 영상 콘텐츠를 복호화하여 다시점(multi-view)의 영상을 제공할 수 있다. 구체적으로, 수신측에서는 비디오 디코더(예를 들어, 3차원 비디오 디코더, 스테레오 비디오 디코더, 2차원 비디오 디코더 등)에서 다시점 비디오 복호화 방법을 사용하여 전송 받은 비트스트림을 복호화함으로써 N 시점의 영상을 복원할 수 있다. 이때, 복원된 N 시점의 영상과 깊이 정보 맵 기반 랜더링(DIBR; Depth-Image-Based Rendering) 과정을 이용하여 N 시점 이상의 가상 시점 영상들이 생성될 수도 있다. 생성된 N 시점 이상의 가상 시점 영상들은 다양한 입체 디스플레이 장치(예를 들어, N-시점 디스플레이, 스테레오 디스플레이, 2차원 디스플레이 등)에 맞게 재생되어 사용자에게 입체감이 있는 영상을 제공하게 된다.
도 2는 “balloons” 영상의 실제 영상과 깊이 정보 맵 영상의 일례를 나타내는 도면이다.
도 2의 (a)는 국제 표준화 기구인 MPEG의 3차원 비디오 부호화 표준에서 사용 중인 “balloons” 영상을 나타낸 것이다. 도 2의 (b)는 도 2의 (a)에 도시된 “balloons” 영상에 대한 깊이 정보 맵 영상을 나타낸 것이다. 도 2의 (b)에 도시된 깊이 정보 맵 영상은 화면에 보이는 깊이 정보를 화소당 8비트로 표현한 것이다.
깊이 정보 맵(depth map)은 가상 시점 영상을 생성하는데 사용되며, 깊이 정보 맵은 실세계에서 카메라와 실제 사물(object) 간의 거리(실사 영상과 동일한 해상도로 각 화소에 해당하는 깊이 정보)를 일정한 비트수로 표현한 것이다. 이때, 깊이 정보 맵은 깊이 정보 맵 카메라를 이용하거나, 실제 일반 영상(Texture)을 이용하여 획득할 수 있다.
깊이 정보 맵 카메라를 이용하여 획득한 깊이 정보 맵은 주로 정지된 객체나 장면에서 신뢰성 높은 깊이 정보를 제공하나, 일정한 거리 이내에서만 깊이 정보 맵 카메라가 작동한다는 문제점이 있다. 이때, 깊이 정보 맵 카메라는 레이저(laser)나 구조화된 광선(structured light) 기법 또는 TFL(Time-of-Flight of Light)에 기초한 깊이 측정기법을 사용할 수 있다.
깊이 정보 맵은 실제 일반 영상(Texture)과 변이 벡터(Disparity Vector)를 이용하여 생성될 수도 있다. 변이 벡터는 두 일반 영상 간의 시점 차이를 나타내는 정보를 의미한다. 변이 벡터는 현재 시점에서의 임의의 한 화소를 다른 시점에서의 화소들과 비교하여 가장 유사한 화소를 찾았을 때, 현재 시점에서의 임의의 한 화소와 다른 시점에서의 화소(현재 시점에서의 임의의 한 화소와 가장 유사한 화소) 간의 거리를 통해 획득할 수 있다.
실제 영상과 그것의 깊이 정보 맵은 하나의 카메라뿐만 아니라 여러 개의 카메라에서 획득된 영상일 수 있다. 여러 개의 카메라에서 획득된 영상은 독립적으로 부호화될 수 있고, 일반적인 2차원 비디오 부호화/복호화 코덱을 사용하여 부호화/복호화될 수도 있다. 또한, 여러 개의 카메라에서 획득된 영상은 시점 간의 상관성이 존재하므로, 여러 개의 카메라에서 획득된 영상은 부호화 효율을 높이기 위하여 서로 다른 시점들 간의 예측을 사용하여 부호화될 수 있다.
상술한 ‘깊이 정보 맵’은 ‘깊이 맵’ 또는 ‘깊이 픽처(depth picture)’ 등을 의미할 수 있으며, 이하에서는 ‘깊이 정보 맵’이 설명의 편의를 위해 ‘깊이 맵’ 또는 ‘깊이 픽처(depth picture)’로 혼용될 수도 있다.
도 3은 영상을 부호화 및 복호화할 때 영상의 분할 구조를 개략적으로 나타내는 도면이다.
영상을 효율적으로 분할하기 위해 부호화 유닛(Coding Unit: CU)별로 부호화 및 복호화를 수행할 수 있다. 유닛은 구문 요소(syntax element)와 영상 샘플들이 포함된 블록을 합쳐서 일컫는 말이다. 유닛이 분할된다는 것은 유닛에 해당하는 블록을 분할한다는 것을 의미할 수 있다.
도 3을 참조하면, 영상(300)을 최대 부호화 유닛(Largest Coding Unit; LCU)(이하, LCU라 함) 단위로 순차적으로 분할한 후, LCU 마다 분할 구조를 결정한다. 본 명세서에서, LCU는 코딩 트리 유닛(Coding Tree Unit, CTU)과 동일한 의미로 사용될 수 있다. 분할 구조는 LCU(310) 내에서 영상을 효율적으로 부호화하기 위한 부호화 유닛(이하, CU라 함)의 분포를 의미하며, 이러한 분포는 하나의 CU를 그 가로 크기 및 세로 크기의 절반으로 감소된 4개의 CU로 분할할지 여부에 따라 결정될 수 있다. 분할된 CU는 동일한 방식으로 분할된 CU에 대해서 그 가로 크기 및 세로 크기가 절반씩 감소된 4개의 CU로 재귀적으로 분할될 수 있다.
이때, CU의 분할은 미리 정의된 깊이까지 재귀적으로 분할될 수 있다. 깊이 정보는 CU의 크기를 나타내는 정보로서, 각 CU마다 저장될 수 있다. 예컨대, LCU의 깊이는 0이고, SCU(Smallest Coding Unit)의 깊이는 미리 정의된 최대 깊이일 수 있다. 여기서, LCU는 상술한 바와 같이 최대 크기를 가지는 부호화 유닛이며, SCU(Smallest Coding Unit)는 최소 크기를 가지는 부호화 유닛이다.
LCU(310)로부터 가로 및 세로 크기의 절반으로 분할을 수행할 때마다 CU의 깊이는 1씩 증가한다. 예를 들어, 특정 깊이 L에서 CU의 크기가 2Nx2N라면, 분할이 수행되지 않는 경우에 CU의 크기는 여전히 2Nx2N이며, 분할이 수행되는 경우에 CU의 크기는 NxN이 된다. 이때, NxN 크기 CU의 깊이는 깊이 L+1이 된다. 즉, CU의 크기에 대응하는 N의 크기는 깊이가 1씩 증가할 때마다 절반으로 감소한다.
도 3을 참조하면, 최소 깊이가 0인 LCU의 크기는 64x64 화소들이고, 최대 깊이가 3인 SCU의 크기는 8x8 화소들일 수 있다. 이때, 64x64 화소들의 CU(LCU)의 깊이는 0, 32x32 화소들의 CU의 깊이는 1, 16x16 화소들의 CU의 깊이는 2, 8x8 화소들의 CU(SCU)의 깊이는 3으로 표현될 수 있다.
또한, 특정 CU를 분할할지에 대한 정보는 CU마다 1비트의 분할 정보를 통해 표현될 수 있다. 이 분할 정보는 SCU를 제외한 모든 CU에 포함될 수 있으며, 예컨대 CU를 분할하지 않을 경우에는 분할 정보에 0을 저장할 수 있고, CU를 분할할 경우에는 분할 정보에 1을 저장할 수 있다.
상술한 ‘부호화 유닛(Coding Unit, CU)’은 ‘부호화 블록(Coding Block)’, ‘코딩 유닛’ 또는 ‘코딩 블록(Coding Block)’ 등을 의미할 수 있으며, 이하, ‘부호화 유닛’은 설명의 편의를 위해 ‘부호화 블록’, ‘코딩 유닛’ 또는 ‘코딩 블록’으로 혼용될 수도 있다.
도 4는 부호화 유닛(CU)이 포함할 수 있는 예측 유닛(PU)의 형태를 도시한 것이다.
LCU로부터 분할된 CU 중 더 이상 분할(split)되지 않는 CU는 하나 이상의 예측 유닛으로 분할 또는 파티셔닝(partitioning)될 수 있다.
예측 유닛(이하, PU라 함)은 예측을 수행하는 기본 단위로서, 스킵(skip) 모드, 인터(inter) 모드, 인트라(intra) 모드 중 어느 하나로 부호화 및 복호화되며, 예측 유닛은 각 모드에 따라서 다양한 형태로 파티션될 수 있다.
도 4를 참조하면, 스킵 모드의 경우, CU의 파티션 없이, CU와 동일한 크기를 갖는 2Nx2N 모드(410)를 지원할 수 있다.
인터 모드의 경우, CU에 대하여 8가지의 파티션된 형태, 예컨대 2Nx2N 모드(410), 2NxN 모드(415), Nx2N 모드(420), NxN 모드(425), 2NxnU 모드(430), 2NxnD 모드(435), nLx2N 모드(440), nRx2N 모드(445)를 지원할 수 있다.
인트라 모드의 경우, CU에 대하여 2Nx2N 모드(410), NxN 모드(425)를 지원할 수 있다.
상술한 ‘예측 유닛(Prediction Unit, PU)’은 ‘예측 블록(Prediction Block)’을 의미할 수 있으며, 이하, ‘예측 유닛’은 설명의 편의를 위해 ‘예측 블록’으로 혼용되어 사용될 수도 있다.
도 5는 변환 유닛(TU)의 쿼드트리 분할 구조의 일 예를 개략적으로 도시한 것이다.
변환 유닛(Transform Unit, TU)은 CU 내에서 공간 변환과 양자화 과정에서 사용되는 기본 단위이다. TU는 정사각형 형태 혹은 직사각형 형태를 가질 수 있으며, TU는 CU 내에 포함될 수 있다. TU의 크기는 CU의 크기와 동일하거나, CU의 크기보다 작을 수 있으며, 하나의 CU는 복수의 서로 다른 크기를 가지는 TU를 포함할 수 있다.
아울러, TU는 CU와 동일한 크기를 가질 수 있으며, TU는 쿼드트리 분할을 이용하여 CU로부터 분할될 수도 있다. TU가 쿼드트리를 이용하여 CU로부터 분할될 때, 원칙적으로는 TU가 CU로부터 재귀적으로 두 번까지 분할될 수 있으나, 본 명세서에서는 도 5에서 도시한 바와 같이 TU가 CU로부터 재귀적으로(recursively) 세 번 이상 분할되는 경우를 권리 범위에서 제외하는 것은 아니다.
예컨대, CU가 2Nx2N의 크기를 가지는 경우, TU는 CU와 동일한 크기인 2Nx2N의 크기를 가질 수 있으며, CU로부터 한 번 쿼드트리 분할된 경우에는 TU가 NxN의 크기를 가질 수 있다. 아울러, CU로부터 두 번 쿼드트리 분할된 경우에는 TU가 N/2xN/2의 크기를 가질 수 있으며, CU로부터 세 번 쿼드트리 분할된 경우에는 TU가 N/4xN/4의 크기를 가질 수 있다.
상술한 ‘변환 유닛(Transform Unit, TU)’은 ‘변환 블록(Transform Block)’을 의미할 수 있으며, 이하, ‘변환 유닛’은 설명의 편의를 위해 ‘변환 블록’으로 혼용될 수도 있다.
도 6은 3차원 비디오 코덱(codec)에서 시점 간 예측(inter view prediction)의 구조를 나타내는 일례다.
시점 1(View 1)과 시점 2(View 2)는 시점 0(View 0)을 참조 영상으로 사용하여 시점 간 예측을 수행할 수 있으며, 부호화 순서는 시점 1(View 1)과 시점 2(View 2)보다 시점 0(View 0)이 먼저 부호화되어야 한다.
이때, 시점 0(View 0)은 다른 시점과 상관없이 독립적으로 부호화될 수 있으므로 독립적인 시점(Independent View)이라고 한다. 반면, 시점 1(View 1)과 시점 2(View 2)는 시점 0(View 0)을 참조 영상으로 사용하여 부호화되므로 의존적인 시점(Dependent View)라고 한다. 독립적인 시점 영상은 일반적인 2차원 비디오 코덱을 사용하여 부호화 될 수 있다. 반면, 의존적인 시점 영상은 시점 간 예측을 수행하여야 하므로, 시점 간 예측 과정이 포함된 3차원 비디오 코덱을 사용하여 부호화될 수 있다.
또한, 시점 1(View 1)과 시점 2(View 2)의 부호화 효율을 증가시키기 위하여 시점 1(View 1)과 시점 2(View 2)는 깊이 정보 맵을 이용하여 부호화될 수 있다. 예를 들어, 실제 영상과 그것의 깊이 정보 맵을 부호화할 때, 실제 영상과 깊이 정보 맵은 서로 독립적으로 부호화 및/또는 복호화될 수 있다. 또는 실제 영상과 깊이 정보 맵을 부호화할 때, 실제 영상과 깊이 정보 맵은 도 7과 같이 서로 의존적으로 부호화 및/또는 복호화될 수 있다.
도 7은 3차원 비디오 인코더 및/또는 디코더에서 실제 영상(texture view)과 깊이 정보 맵(depth view)을 부호화 및/또는 복호화하는 과정을 나타낸 일례다.
도 7을 참조하면, 3차원 비디오 인코더는 실제 영상(texture view)을 부호화하는 실제 영상 인코더(texture encoder)와 깊이 정보 맵(depth view)을 부호화하는 깊이 정보 맵 인코더(depth encoder)를 포함할 수 있다.
이때, 실제 영상 인코더는 깊이 정보 맵 인코더에 의해 부호화된 깊이 정보 맵을 이용하여 실제 영상을 부호화할 수 있다. 반대로, 깊이 정보 맵 인코더는 실제 영상 인코더에 의해 부호화된 실제 영상을 이용하여 깊이 정보 맵을 부호화할 수 있다.
3차원 비디오 디코더는 실제 영상을 복호화하는 실제 영상 디코더(texture decoder)와 깊이 정보 맵을 복호화하는 깊이 정보 맵 디코더(depth decoder)를 포함할 수 있다.
이때, 실제 영상 디코더는 깊이 정보 맵 디코더에 의해 복호화된 깊이 정보 맵을 이용하여 실제 영상을 복호화할 수 있다. 반대로, 깊이 정보 맵 디코더는 실제 영상 디코더에 의해 복호화된 실제 영상을 이용하여 깊이 정보 맵을 복호화할 수 있다.
도 8은 비디오 인코더의 일 실시예에 따른 구성을 나타내는 블록도이다.
도 8은 멀티 뷰 구조에 대해 적용 가능한 비디오 인코더의 일 실시예를 나타내며, 멀티 뷰 구조에 대한 비디오 인코더는 단일 뷰 구조에 대한 비디오 인코더를 확장(extension)하여 구현될 수 있다. 이때, 도 8의 비디오 인코더는 도 7의 실제 영상 인코더 및/또는 깊이 정보 맵 인코더에서 사용될 수 있으며, 인코더는 부호화 장치를 의미할 수 있다.
도 8을 참조하면, 비디오 인코더(800)는 인터 예측부(810), 인트라 예측부(820), 스위치(815), 감산기(825), 변환부(830), 양자화부(840), 엔트로피 부호화부(850), 역양자화부(860), 역변환부(870), 가산기(875), 필터부(880) 및 참조 픽처 버퍼(890)를 포함한다.
비디오 인코더(800)는 입력 영상에 대해 인트라(intra) 모드 또는 인터(inter) 모드로 부호화를 수행하고 비트스트림(bitstream)을 출력할 수 있다.
인트라 예측(intra prediction)은 화면 내 예측(intra picture prediction)을 의미하며, 인터 예측(inter prediction)은 화면 간 (inter picture) 예측 또는 뷰 간 (inter-view) 예측을 의미한다. 인트라 모드인 경우 스위치(815)가 인트라 모드로 전환되고, 인터 모드인 경우 스위치(815)가 인터 모드로 전환된다.
비디오 인코더(800)는 입력 픽처의 블록(현재 블록)에 대한 예측 블록을 생성한 후, 현재 블록과 예측 블록의 차분을 부호화할 수 있다.
인트라 모드인 경우, 인트라 예측부(820)는 현재 블록 주변의 이미 부호화된 블록의 화소값을 참조 화소로 이용할 수 있다. 인트라 예측부(820)는 참조 화소를 이용하여 현재 블록에 대한 예측 샘플들을 생성할 수 있다.
인터 모드인 경우, 인터 예측부(810)는, 참조 픽처 버퍼(890)에 저장되어 있는 참조 픽처에서 입력 블록(현재 블록)에 대응하는 참조 블록을 특정하는 움직임 벡터를 구할 수 있다. 인터 예측부(810)는 움직임 벡터와 참조 픽처 버퍼(890)에 저장되어 있는 참조 픽처를 이용하여 움직임 보상을 수행함으로써 현재 블록에 대한 예측 블록을 생성할 수 있다.
멀티 뷰 구조에서, 인터 모드에서 적용되는 인터 예측은 인터 뷰 예측을 포함할 수 있다. 인터 예측부(810)는 참조 뷰의 픽처를 샘플링하여 인터 뷰 참조 픽처를 구성할 수도 있다. 인터 예측부(810)는 인터 뷰 참조 픽처를 포함하는 참조 픽처 리스트를 이용하여 인터 뷰 예측을 수행할 수 있다. 뷰 간의 참조 관계는 뷰 간의 의존성을 특정하는 정보를 통해 시그널링될 수 있다.
한편, 현재 뷰의 픽처와 참조 뷰의 픽처가 동일 사이즈인 경우에 상기 참조 뷰 픽처에 적용되는 샘플링은 참조 뷰 픽처로부터의 샘플 복사 또는 보간에 의한 참조 샘플의 생성을 의미할 수 있다. 현재 뷰 픽처와 참조 뷰 픽처의 해상도가 상이한 경우에 상기 참조 뷰 픽처에 적용되는 샘플링은 업샘플링 또는 다운샘플링을 의미할 수 있다. 예컨대, 뷰 간 해상도가 다른 경우에는 참조 뷰의 복원된 픽처를 업샘플링하여 인터 뷰 참조 픽처가 구성될 수도 있다.
어떤 뷰의 픽처를 이용하여 인터 뷰 참조 픽처를 구성할 것인지는 부호화 비용(coding cost) 등을 고려하여 결정될 수 있다. 인코더는 인터 뷰 참조 픽처로 사용될 픽처가 속하는 뷰(view)를 특정하는 정보를 복호화 장치로 전송할 수 있다.
또한, 인터 뷰 예측에 있어서 참조되는 뷰, 즉 참조 뷰 내에서 현재 블록의 예측에 이용되는 픽처는 현재 픽처(현재 뷰 내 예측 대상 픽처)와 동일 AU(Access Unit)의 픽처일 수 있다.
감산기(825)는 현재 블록과 예측 블록의 차분에 의해 레지듀얼 블록(residual block, 레지듀얼 신호)을 생성할 수 있다.
변환부(830)는 레지듀얼 블록에 대해 변환(transform)을 수행하여 변환 계수(transform coefficient)를 출력할 수 있으며, 변환부(830)는 변환 블록을 이용하여 변환을 수행할 수 있다. 변환 생략(transform skip) 모드가 적용되는 경우에, 변환부(830)는 레지듀얼 블록에 대한 변환을 생략할 수도 있다.
양자화부(840)는 변환 계수를 양자화 파라미터에 따라 양자화하여 양자화된 계수(quantized coefficient)를 출력할 수 있다.
엔트로피 부호화부(850)는, 양자화부(840)에서 산출된 값들 또는 부호화 과정에서 산출된 부호화 파라미터 값 등을 확률 분포에 따라 엔트로피 부호화하여 비트스트림을 출력할 수 있다. 엔트로피 부호화부(850)는 비디오의 화소 정보 외에 비디오 디코딩을 위한 정보(예컨대, 신택스 엘리먼트(syntax element) 등)을 엔트로피 부호화 할 수도 있다.
부호화 파라미터는 부호화 및 복호화에 필요한 정보로서, 신택스 엘리먼트와 같이 인코더에서 부호화되어 복호화 장치로 전달되는 정보뿐만 아니라, 부호화 혹은 복호화 과정에서 유추될 수 있는 정보를 포함할 수도 있다.
레지듀얼 신호는 원신호와 예측 신호의 차이를 의미할 수 있고, 또한 원신호와 예측 신호의 차이가 변환(transform)된 형태의 신호 또는 원신호와 예측 신호의 차이가 변환되고 양자화된 형태의 신호를 의미할 수도 있다. 블록 단위에서, 레지듀얼 신호는 레지듀얼 블록이라 할 수 있다.
엔트로피 부호화가 적용되는 경우, 높은 발생 확률을 갖는 심볼에 적은 수의 비트가 할당되고 낮은 발생 확률을 갖는 심볼에 많은 수의 비트가 할당되어 심볼이 표현됨으로써, 부호화 대상 심볼들에 대한 비트열의 크기가 감소될 수 있다. 따라서 엔트로피 부호화를 통해서 영상 부호화의 압축 성능이 높아질 수 있다.
엔트로피 부호화를 위해 지수 골룸(exponential Golomb), CAVLC(Context-Adaptive Variable Length Coding) 또는 CABAC(Context-Adaptive Binary Arithmetic Coding)과 같은 부호화 방법이 사용될 수 있다. 예를 들어, 엔트로피 부호화부(850)는 가변 길이 부호화(VLC: Variable Lenghth Coding/Code) 테이블을 이용하여 엔트로피 부호화를 수행할 수 있다. 또한 엔트로피 부호화부(850)는 대상 심볼의 이진화(binarization) 방법 및 대상 심볼/빈(bin)의 확률 모델(probability model)을 도출한 후, 도출된 이진화 방법 또는 확률 모델을 사용하여 엔트로피 부호화를 수행할 수도 있다.
양자화된 계수는 역양자화부(860)에서 역양자화되고 역변환부(870)에서 역변환될 수 있다. 역양자화, 역변환된 계수는 가산기(875)를 통해 예측 블록과 더해지고 복원 블록이 생성될 수 있다.
복원 블록은 필터부(880)를 거치고, 필터부(880)는 디블록킹 필터(deblocking filter), SAO(Sample Adaptive Offset), ALF(Adaptive Loop Filter) 중 적어도 하나 이상을 복원 블록 또는 복원 픽처에 적용할 수 있다. 필터부(880)를 거친 복원 블록은 참조 영상 버퍼(890)에 저장될 수 있다.
도 9은 비디오 디코더의 일 실시예에 따른 구성을 나타내는 블록도이다.
도 9은 멀티 뷰 구조에 대해 적용 가능한 비디오 디코더의 일 실시예를 나타내며, 멀티 뷰 구조에 대한 비디오 디코더는 단일 뷰 구조에 대한 비디오 디코더를 확장(extension)하여 구현될 수 있다.
이때, 도 9의 비디오 디코더는 도 7의 실제 영상 디코더 및/또는 깊이 정보 맵 디코더에서 사용될 수 있다. 설명의 편의를 위해, 본 명세서에서는 ‘복호화’와 ‘디코딩’가 혼용되거나 ‘복호화 장치’와 ‘디코더’가 혼용될 수도 있다.
도 9을 참조하면, 상기 비디오 디코더(900)는 엔트로피 복호화부(910), 역양자화부(920), 역변환부(930), 인트라 예측부(940), 인터 예측부(950), 필터부(960) 및 참조 픽처 버퍼(970)를 포함한다.
비디오 디코더(900)는 인코더에서 출력된 비트스트림을 입력 받아 인트라 모드 또는 인터 모드로 복호화를 수행하고 재구성된 영상, 즉 복원 영상을 출력할 수 있다.
인트라 모드인 경우 스위치가 인트라 예측을 위해 전환되고, 인터 모드인 경우 스위치가 인터 예측을 위해 전환될 수 있다.
비디오 디코더(900)는 입력 받은 비트스트림으로부터 복원된 레지듀얼 블록(residual block)을 얻고 예측 블록을 생성한 후 복원된 레지듀얼 블록과 예측 블록을 더하여 재구성된 블록, 즉 복원 블록을 생성할 수 있다.
엔트로피 복호화부(910)는, 입력된 비트스트림을 확률 분포에 따라 엔트로피 복호화하여, 양자화된 계수(quantized coefficient)와 신택스 엘리먼트 등의 정보를 출력할 수 있다.
양자화된 계수는 역양자화부(920)에서 역양자화되고 역변환부(930)에서 역변환 된다. 양자화된 계수를 역양자화/역변환하여, 복원된 레지듀얼 블록(residual block)이 생성될 수 있다.
인트라 모드인 경우, 인트라 예측부(940)는 현재 블록 주변의 이미 부호화된 블록의 화소값을 이용하여 현재 블록에 대한 예측 블록을 생성할 수 있다.
인터 모드인 경우, 인터 예측부(950)는 움직임 벡터 및 참조 픽처 버퍼(970)에 저장되어 있는 참조 픽처를 이용하여 움직임 보상을 수행함으로써 현재 블록에 대한 예측 블록을 생성할 수 있다.
멀티 뷰 구조의 경우, 인터 모드에서 적용되는 인터 예측은 인터 뷰 예측을 포함할 수 있다. 인터 예측부(950)는 참조 뷰의 픽처를 샘플링하여 인터 뷰 참조 픽처를 구성할 수 있다. 인터 예측부(950)는 인터 뷰 참조 픽처를 포함하는 참조 픽처 리스트를 이용하여 인터 뷰 예측을 수행할 수 있다. 뷰 간의 참조 관계는 뷰 간의 의존성을 특정하는 정보를 통해 시그널링될 수 있다.
한편, 현재 뷰 픽처(현재 픽처)와 참조 뷰 픽처가 동일 사이즈인 경우에 상기 참조 뷰 픽처에 적용되는 샘플링은 참조 뷰 픽처로부터의 샘플 복사 또는 보간에 의한 참조 샘플의 생성을 의미할 수 있다. 현재 뷰 픽처와 참조 뷰 픽처의 해상도가 상이한 경우에 상기 참조 뷰 픽처에 적용되는 샘플링은 업샘플링 또는 다운샘플링을 의미할 수 있다.
예컨대, 뷰 간 해상도가 다른 경우에 뷰 간에 인터 뷰 예측이 적용된다면, 참조 뷰의 복원된 픽처를 업샘플링하여 인터 뷰 참조 픽처가 구성될 수 있다.
이때, 인터 뷰 참조 픽처로 사용될 픽처가 속하는 뷰를 특정하는 정보는 인코더로부터 디코더로 전송될 수 있다.
또한, 인터 뷰 예측에 있어서 참조되는 뷰, 즉 참조 뷰 내에서 현재 블록의 예측에 이용되는 픽처는 현재 픽처(현재 뷰 내 예측 대상 픽처)와 동일 AU(Access Unit)의 픽처일 수 있다.
복원된 레지듀얼 블록과 예측 블록은 가산기(955)에서 더해져서, 복원 블록이 생성된다. 다시 말하면, 레지듀얼 샘플과 예측 샘플이 더해져서 복원된 샘플 또는 복원된 픽처가 생성된다.
복원된 픽처는 필터부(960)에서 필터링 된다. 필터부(960)는 디블록킹 필터, SAO, ALF 중 적어도 하나 이상을 복원 블록 또는 복원 픽처에 적용할 수 있다. 필터부(960)는 재구성된(modified) 혹은 필터링된(filtered) 복원 픽처(reconstructed picture)를 출력한다. 복원 영상은 참조 픽처 버퍼(970)에 저장되어 인터 예측에 사용될 수 있다.
도 8과 도 9에서는 각각의 모듈들이 서로 다른 기능을 수행하는 것으로 설명하였으나, 본 발명은 이에 한정되지 않으며, 하나의 모듈에서 둘 이상의 기능을 수행할 있다. 예컨대, 도 8과 도 9에서 인트라 예측부와 인터 예측부의 동작은 하나의 모듈(예측부)에서 수행될 수도 있다.
한편, 도 8 및 도 9에서는 하나의 인코더/디코더가 멀티 뷰에 대한 부호화/복호화를 모두 처리하는 것으로 설명하였으나, 이는 설명의 편의를 위한 것으로서, 인코더/디코더는 뷰별로 구성될 수도 있다.
이 경우, 현재 뷰의 인코더/디코더는 다른 뷰의 정보를 이용하여 현재 뷰의 부호화/복호화를 수행할 수 있다. 예컨대, 현재 뷰의 예측부(인터 예측부)는 다른 뷰의 픽셀 정보 또는 복원된 픽처 정보를 이용하여 현재 블록에 대한 인트라 예측 또는 인터 예측을 수행할 수도 있다.
여기서는, 뷰 간의 예측만을 예로서 설명하였으나, 인코더/디코더는 뷰별로 구성되든, 하나의 장치가 멀티 뷰를 처리하든 상관없이, 다른 뷰의 정보를 이용하여 현재 레이어에 대한 부호화/복호화를 수행할 수 있다.
본 발명에서 뷰에 관한 설명은 스케일러빌러티를 지원하는 레이어(layer)에 대해서도 동일하게 적용될 수 있다. 예컨대, 본 발명에서 뷰(view)는 레이어(layer)일 수도 있다.
도 10은 3차원 비디오 코덱에 대한 예측 구조의 일례를 나타내는 도면이다. 설명의 편의상 도 10에서는 3대의 카메라에서 획득한 실제 영상과 실제 영상에 대응되는 깊이 정보 맵을 부호화하기 위한 예측 구조를 나타낸다.
도 10에서는 3대의 카메라에서 획득된 3개의 실제 영상은 시점(view)에 따라 T0, T1, T2로 나타내었고, 실제 영상에 대응되는 3개의 깊이 정보 맵은 시점(view)에 따라 각각 D0, D1, D2로 나타내었다. 여기서, T0와 D0는 시점 0(View 0)에서 획득한 영상이고, T1와 D1는 시점 1(View 1)에서 획득한 영상이며, T2와 D2는 시점 2(View 2)에서 획득한 영상이다. 이때, 도 10에 도시된 사각형은 영상(픽처)를 나타낸다.
각 영상(픽처)는 부호화/복호화 타입에 따라 I 픽처(Intra Picture), P 픽처(Uni-prediction Picture), B 픽처(Bi-prediction Picture)로 나뉘어지며, 각 픽처는 각 픽처의 부호화/복호화 타입에 따라 부호화/복호화될 수 있다. I 픽처에서는 인터 예측 없이 영상 자체를 부호화하고, P 픽처에서는 단방향에 존재하는 참조 영상만을 이용하여 인터 예측을 하며, B 픽처에서는 양방향에 존재하는 참조 영상을 이용하여 인터 예측을 수행할 수 있다. 이때, 도 10의 화살표는 예측 방향을 나타낸다. 즉, 예측 방향에 따라 실제 영상과 그것의 깊이 정보 맵은 서로 의존적으로 부호화/복호화될 수 있다.
인터 예측을 통해 영상의 부호화/복호화를 수행하기 위해서는 현재 블록의 움직임 정보가 필요하다. 현재 불륵의 움직임 정보를 유추하는 방법으로는 현재 블록과 인접한 블록의 움직임 정보를 이용하는 방법, 동일한 시점 내에서 시간적 상관성을 이용하는 방법, 또는 인접한 시점에서 시점 간 상관성을 이용하는 방법이 있으며, 상술한 인터 예측 방법은 한 픽처에서 혼용되어 사용될 수 있다. 여기서, 현재 블록은 예측이 수행되는 블록을 말한다. 움직임 정보는 움직임 벡터, 참조 영상 번호 및/또는 예측 방향(예컨대, 단방향 예측인지 양방향 예측인지, 시간적 상관성을 이용하는지, 또는 시점 간 상관성을 이용하는지 여부 등)을 의미할 수도 있다.
이때, 예측 방향은 참조 픽쳐 목록(Reference Picture List: RefPicList)의 사용에 따라 크게 단방향 예측과 양방향 예측으로 나누어 질 수 있다. 단방향 예측은 순 방향 참조 픽쳐 목록 (LIST 0, L0)을 사용하는 순방향 예측(Pred_L0: Prediction L0)과 역 방향 참조 픽쳐 목록 (LIST 1, L1)을 사용하는 역방향 예측(Pred_L1: Prediction L1)으로 구분된다. 또한, 양방향 예측(Pred_BI: Prediction BI)은 순방향 참조 픽쳐 목록(LIST 0)과 역방향 참조 픽쳐 목록(LIST 1)을 모두 사용하여, 순방향 예측과 역방향 예측이 모두 존재하는 것을 말할 수 있으며, 순방향 참조 픽쳐 목록 (LIST 0)을 역방향 참조 픽쳐 목록 (LIST 1)에 복사하여 순방향 예측이 두 개 존재하는 경우도 양 방향 예측에 포함할 수 있다.
예측 방향 여부는 predFlagL0, predFlagL1를 사용하여 정의할 수 있다. 이때, predFlagL0는 순방향 참조 픽쳐 목록(List 0)의 사용 여부를 지시하는 지시자이며, predFlagL1는 역방향 참조 픽쳐 목록(List 1)의 사용 여부를 지시하는 지시자에 해당된다. 예컨대, 단방향 예측이고 순방향 예측일 경우에는 predFlagL0가 '1'이 되고 predFlagL1은 '0'이 될 수 있고, 단방향 예측이고 역방향 예측일 경우에는 predFlagL0가 '0'이 되고 predFlagL1이 '1'이 될 수 있으며, 양방향 예측일 경우에는 predFlagL0가 '1'이 되고 predFlagL1이 '1'이 될 수 있다.
움직임 예측 방법은 1) 움직임 벡터 예측기(Motion Vector Predictor)와 차분 움직임 벡터(Motion Vector Difference)를 이용하는 방법과, 2) 움직임 병합을 사용하는지의 여부를 나타내는 플래그(merge_flag)와 어떤 위치에 있는 움직임 상속받을 것인지에 대한 정보인 인덱스(merge_idx)를 이용하는 병합 움직임 유도 즉, 머지 방법이 있다. 이하, 머지에 관한 구체적인 내용을 후술하도록 한다.
도 11은 현재 블록에 대한 머지 후보 리스트(merge candidate list)를 구성하는 데 사용되는 주변 블록들을 나타낸 일례다.
머지 모드(merge mode)는 인터 예측을 수행하는 방법 중 하나이며, 머지 모드에서는 현재 블록의 움직임 정보(예를 들어, 움직임 벡터, 참조 픽처 리스트, 참조 픽처 인덱스 중 적어도 하나)로서 현재 블록의 주변 블록의 움직임 정보를 이용할 수 있다. 이때, 주변 블록의 움직임 정보를 현재 블록의 움직임 정보로 사용하는 것을 머징(merging), 움직임 병합(motion merging) 또는 병합 움직임 (merging motion)이라고 한다.
머지 모드에서는 부호화 유닛(Coding Unit: CU, 이하 ‘CU’라 함) 단위의 병합 움직임(merging)과 예측 유닛(Prediction Unit: PU, 이하 ‘PU’라 함) 단위의 병합 움직임이 가능하다.
블록 단위(예컨대, CU 또는 PU)(이하, 설명의 편의를 위해 ‘블록’이라 함) 로 병합 움직임을 수행하는 경우에는, 블록 파티션(partition)별로 병합 움직임을 수행할지 여부에 관한 정보와 현재 블록에 인접한 주변 블록 중 어떤 블록과 병합 움직임을 할 것인지에 대한 정보가 필요하다.
병합 움직임을 수행하기 위해서 머지 후보 리스트(merging candidate list) 즉, 병합 움직임 후보 리스트를 구성할 수 있다.
머지 후보 리스트는 움직임 정보들의 리스트를 나타내며, 머지 모드가 수행되기 전에 생성될 수 있다. 여기서, 머지 후보 리스트의 움직임 정보는 현재 블록에 인접한 주변 블록의 움직임 정보이거나, 이미 머지 후보 리스트에 존재하는 움직임 정보들을 조합하여 만든 새로운 움직임 정보일 수도 있다. 주변 블록의 움직임 정보(예컨대, 움직임 벡터 및/또는 참조 픽처 인덱스)는 주변 블록에 의해 특정되는 혹은 주변 블록에 저장된(주변 블록의 디코딩에 사용된) 움직임 정보일 수 있다.
이때, 주변 블록은 도 11에 도시된 바와 같이, 현재 블록과 공간적(spatial)으로 인접하여 위치한 주변 블록(neighboring block)(A, B, C, D, E)과, 현재 블록과 시간적(temporal)으로 대응하는 동일 위치의 후보 블록(co-located block)(H 혹은 M)을 포함할 수 있다. 동일 위치의 후보 블록은 현재 블록을 포함하는 현재 픽처와 시간적으로 대응하는 동일 위치의 픽처(co-located picture) 내 대응 위치의 블록을 말한다. 동일 위치의 픽처 내 H 블록이 가용하면 H 블록을 동일 위치의 후보 블록으로 결정하고, H 블록이 가용하지 않으면 동일 위치의 픽처 내 M 블록을 동일 위치의 후보 블록으로 결정할 수 있다.
머지 후보 리스트의 구성시, 주변 블록(A, B, C, D, E) 및 동일 위치의 후보 블록(H 혹은 M)의 움직임 정보가 현재 블록의 머지 후보 리스트를 구성하는 머지 후보(merge candidate)로 이용될 수 있는지 여부가 판단된다. 즉, 현재 블록의 인터 예측에 이용 가능한 블록의 움직임 정보가 머지 후보로서 머지 후보 리스트에 추가될 수 있다.
예컨대, X 블록에 대한 머지 후보 리스트를 구성하는 방법으로, 1) 우선 주변 블록 A가 사용 가능한 경우, 주변 블록 A를 머지 후보 리스트에 포함한다. 2) 이후, 주변 블록 B의 움직임 정보가 주변 블록 A의 움직임 정보와 동일하지 않을 경우에만 주변 블록 B를 머지 후보 리스트에 포함한다. 3) 동일한 방법으로 주변 블록 C의 움직임 정보가 주변 블록 B의 움직임 정보와는 다를 경우에만 주변 블록 C를 머지 후보 리스트에 포함하고, 4) 주변 블록 D의 움직임 정보가 주변 블록 C의 움직임 정보와는 다를 경우에만 주변 블록 D를 머지 후보 리스트에 포함한다. 아울러, 5) 주변 블록 E의 움직임 정보가 주변 블록 D의 움직임 정보와 다를 경우에만 주변 블록 E를 머지 후보 리스트에 포함하고, 6) 마지막으로, 머지 후보 리스트에는 주변 블록 H(혹은 M)를 포함시킨다. 즉, 각각의 주변 블록은 A→B→C→D→E→H(혹은 M) 블록 순서로 머지 후보 리스트에 추가될 수 있다. 여기서, 동일한 움직임 정보는 동일한 움직임 벡터, 동일한 참조 픽쳐, 및 동일한 예측 방향(단방향, 양방향)을 사용하는 것을 의미할 수 있다.
여기서는, 주변 블록을 머지 후보로서 머지 후보 리스트에 추가한다는 표현과 주변 블록의 움직임 정보를 머지 후보로서 머지 후보 리스트에 추가한다는 표현을 혼용하였으나, 이는 설명의 편의를 위한 것으로서, 두 표현은 실질적으로 상이하지 않다. 예컨대, 머지 후보로서의 주변 블록은 해당 블록의 움직임 정보를 의미한다고 할 수 있다.
도 12는 인접한 시점의 움직임 정보를 이용하여, 현재 블록의 움직임 정보를 유도하는 과정의 일례를 나타내는 도면이다.
도 12에서는 설명의 편의를 위하여 하나의 인접한 시점만을 이용하여 현재 블록의 움직임 정보를 유도하는 과정을 예시로 들고 있으나, 인접한 시점은 2개 이상일 수도 있다.
도 12을 참조하면, 3차원 비디오 시스템에서는 움직임 정보를 효율적으로 부호화/복호화 하기 위하여, 인접한 시점의 움직임 정보를 이용할 수 있다. 구체적으로, 도 12의 현재 블록(현재 위치 X에 대한 블록)은 현재 블록에 대한 움직임 정보를 유도하기 위하여, 인접한 시점에 위치한 대상 블록(참조 위치 XR)을 찾는다. 이때, 인접한 시점에 위치한 대상 블록은 현재 블록에 대응하는 블록을 의미하며, 현재 시점에서의 현재 픽처와 참조 시점에서의 현재 픽처는 카메라 위치의 차이만이 있을 뿐이므로, 상술한 바와 같이 변이 벡터(Disparity Vector, DV)를 이용하여 인접한 시점에 위치한 대상 블록을 유도할 수 있다.
도 13는 하나의 예측 유닛(Prediction Unit, PU)이 여러 개의 서브 예측 유닛(Sub-Prediction Unit)으로 나누어지는 일례를 나타내는 도면이다.
도 13에서는 64x64 크기를 가지는 예측 유닛(Prediction Unit, PU)이 8x8 크기의 서브 예측 유닛으로 나누어지는 일례를 나타낸다. 도 13에서는 설명의 편의를 위하여, 예측 유닛이 64x64의 크기를 가지는 것으로 설명하나, 예측 유닛은 64x64 크기뿐만 아니라, 32x32, 16x16, 8x8, 4x4 등의 크기를 가질 수도 있다. 3차원 비디오 시스템에서는 하나의 예측 유닛이 여러 개의 서브 예측 유닛(Sub-Prediction Unit)으로 분할될 수 있다. 이때, 변이 벡터를 이용한 움직임 정보의 유도는 서브 예측 유닛 단위로 수행된다. 서브 예측 유닛의 크기는 기 설정된 크기(예컨대, 4x4, 8x8, 16x16 등)를 가질 수 있으며, 서브 예측 유닛의 크기는 부호화 시에 지정될 수 있다. 서브 예측 유닛의 크기에 대한 정보는 비디오 파라미터 세트 확장 신텍스(Video Parameter Set Extension syntax, VPS Extension syntax) 내에 포함되어 시그널링될 수 있다.
도 14은 참조 블록을 이용하여 현재 블록의 움직임 정보를 유도하는 과정의 일례를 나타내는 도면이다.
현재 블록에 대한 움직임 정보의 유도 과정은 참조 블록에 존재하는 움직임 정보를 현재 블록의 움직임 정보로 설정하는 것을 의미하며, 일반적으로 움직임 정보의 유도는 예측 블록 단위로 이루어 진다. 하지만, 3차원 비디오 시스템에서는 움직임 정보를 효율적으로 부호화/복호화 하기 위하여, 현재 시점(view)에서 현재 픽쳐에 위치한 현재 블록(X)에 대해 예측 블록 단위뿐만 아니라, 각각의 서브 예측 유닛 단위로도 움직임 정보를 유도할 수 있다.
즉, 3차원 비디오 시스템에서는 참조 블록(XR)의 서브 예측 유닛에 존재하는 움직임 정보를 현재 블록(X)의 서브 예측 유닛에 대한 움직임 정보로 설정할 수 있다. 이때, 참조 블록(XR)은 참조 시점에서의 현재 픽쳐에 위치한 참조 블록(XR)을 의미할 수 있으며, 구체적인 움직임 정보 유도 과정은 후술하도록 한다.
인터 예측부는 상술한 바와 같이 참조 시점의 유도된 참조 블록 내에서 예측 유닛 단위뿐만 아니라, 서브 예측 유닛 단위로도 움직임 정보를 유도할 수 있다. 인터 예측부가 참조 시점의 유도된 참조 블록 내에서 서브 예측 유닛 단위로 움직임 정보를 가져올 때 모든 서브 예측 유닛이 움직임 정보를 가지고 있는 것은 아니다. 즉, 참조 블록 내에서는 움직임 정보를 가져올 수 없는 부분이 있다. 참조 블록 내에서 움직임 정보를 가져올 수 없는 경우를 보완하기 위하여, 인터 예측부는 참조 블록의 중앙에 위치한 서브 예측 유닛에 사용 가능한 움직임 정보가 존재하는지 검사한다.
참조 블록의 중앙에 위치한 서브 예측 유닛에 사용 가능한 움직임 정보가 존재하는 경우, 인터 예측부는 참조 블록의 중앙에 위치한 서브 예측 유닛에 존재하는 움직임 정보를 저장 공간에 저장하며, 저장 공간은 비디오 부호화/복호화 장치 외에 존재하는 별도의 저장 장치를 의미할 수 있고, 비디오 부호화/복호화 장치 내부에 위치할 수도 있다. 또한, 저장 공간은 메모리, 프로세서 등을 의미할 수 있으며, 저장 공간은 물리적 공간이 아닌 가상의 즉, 논리적 저장 공간을 의미할 수도 있다. 이때, 저장 공간에 저장된 움직임 정보는 초기 움직임 정보를 의미할 수 있다.
인터 예측부가 현재 블록의 서브 예측 유닛에 대해 움직임 정보를 유도할 때, 현재 블록의 서브 예측 유닛에 대응되는 참조 블록의 서브 예측 유닛에 움직임 정보가 존재하지 않는 경우에는, 상술한 초기 움직임 정보를 현재 블록의 서브 예측 유닛에 대한 움직임 정보로 사용할 수 있다. 만약, 참조 블록의 중앙에 위치한 서브 예측 유닛에 사용 가능한 움직임 정보가 존재하지 않는 경우, 인터 예측부는 시간적 시점간 움직임 정보 예측은 사용하지 않을 수 있다. 이때, 움직임 정보는 움직임 병합 후보 즉, 머지 후보로 사용될 수 있다.
3차원 영상에서, 병합 움직임 후보 리스트 즉, 머지 후보 리스트(Merge candidate list)를 구성할 때, 1) 기존의 2차원 영상 부호화/복호화(예컨대, HEVC 등)에서의 머지 후보를 유도한 후, 2) 3차원 영상 부호화/복호화(예컨대, 3D-HEVC 등)에서의 머지 후보를 유도하여 리스트를 구성할 수 있다. 설명의 편의를 위해 2차원 영상 부호화/복호화에서의 머지 후보가 유도된 후, 3차원 영상 부호화/복호화에서의 머지 후보가 유도된다고 서술하였으나, 본 명세서에서는 머지 후보의 유도가 상술한 순서에 의해 한정되는 것은 아니다. 또한, 머지 후보 리스트를 구성할 때, 원칙적으로는 정해진 순서에 따라 머지 후보가 리스트에 배열되지만, 본 명세서에서는 영상 부호화/복호화 상황에 따라 머지 후보가 적응적으로 재배열되는 것을 권리범위에서 제외하는 것은 아니다.
기존의 2차원 영상 부호화/복호화 머지 후보는 현재 블록에 대하여 공간적(spatial) 시간적(temporal)으로 인접한 블록의 움직임 정보들을 의미할 수 있고, 3차원 영상 부호화/복호화 머지 후보는 3차원 영상의 영상의 특성에 맞게 추가된 머지 후보들을 의미할 수 있다.
여기서, 현재 블록에 대하여 공간적, 시간적으로 인접한 블록의 움직임 정보들은 A0, A1, B0, B1, B2, Col(H 혹은 M) 후보를 포함할 수 있으며, A1은 상술한 바와 같이 예측 대상 블록의 좌측에 위치한 블록의 움직임 정보를 의미하고, B1은 상술한 바와 같이 예측 대상 블록의 상측에 위치한 블록의 움직임 정보를 의미할 수 있다. B0는 상술한 바와 같이 예측 대상 블록의 우상측에 위치한 블록의 움직임 정보를 의미하며, A0은 상술한 바와 같이 예측 대상 블록의 좌하측에 위치한 블록의 움직임 정보를 의미하고, B2는 상술한 바와 같이 예측 대상 블록의 좌상측에 위치한 블록의 움직임 정보를 의미할 수 있다. 아울러, Col(H 혹은 M)은 상술한 바와 같이 현재 블록을 포함하는 현재 픽처와 시간적으로 대응하는 동일 위치의 픽처(co-located picture) 내 대응 위치의 블록을 통해 유도된 움직임 정보를 의미할 수 있다.
아울러, 3차원 영상의 특성에 맞게 추가된 머지 후보들은 모션 파라미터 상속(Motion Parameter Inheritance, MPI), 인터 뷰 머지 후보(inter-view merging candidate, IvMC), 인터 뷰 변이 벡터 후보(inter-view disparity vector candidate, IvDC), 시점 합성 예측(View synthesis prediction, VSP), 쉬프트 인터 뷰(ShiftIV), Bi 및 Zero 후보를 포함할 수 있다. 이때, MPI는 상술한 실제 영상의 움직임 정보를 상속하는 움직임 정보를 의미하고, IvMC는 시점 간 머지를 이용하는 움직임 정보를 의미하며, IvDC는 상술한 변이 벡터를 이용(즉, 시차를 이용)하여 유도된 움직임 정보를 의미할 수 있다. 아울러, VSP는 시점을 합성하여 유도한 움직임 정보를 의미하고, ShiftIV는 보정된 시차를 이용하여 유도된 움직임 정보를 의미할 수 있다. Bi는 양방향을 이용하여 유도된 움직임 후보를 의미하며, Zero는 영 벡터를 의미할 수 있다.
도 15는 시점 합성 예측(View-Synthesis Prediction, VSP)의 개념을 개략적으로 도시한 것이다.
도 15에 나타난 바와 같이, 시점 합성 예측은 텍스쳐 픽처(Texture picture), 참조 텍스쳐 픽처(Reference texture picture) 및 참조 깊이 픽처(Reference depth picture)를 이용할 수 있으며, 텍스쳐 픽처에는 현재 블록(Current block) 및 인접 블록(neighboring block)이 포함될 수 있다. 아울러, 참조 깊이 픽처에는 VSP에 사용되는 깊이 블록과, VSP에 사용되는 깊이 블록에 인접한 블록이 포함될 수 있다.
텍스쳐 픽처는 머지 후보의 유도가 이루어지는 픽처이며, 텍스쳐 픽처는 실제 영상을 의미할 수 있다. 현재 블록은 텍스쳐 픽처 내에 존재하고, 예측이 이루어지는 블록을 의미한다. 현재 블록은 부호화 유닛을 의미할 수 있으며, 현재 블록에서 예측이 이루어진다는 점에서, 현재 블록은 예측 유닛 또는 상술한 서브 예측 유닛을 의미할 수도 있다. ‘텍스쳐 픽처’는 ‘텍스쳐 슬라이스(texture slice)’, ‘텍스쳐 뷰(texture view)’, ‘텍스쳐 영상(texture image)’ 및/또는 ‘실제 픽처’등을 의미할 수 있으며, 설명의 편의를 위해 ‘텍스쳐 픽처’는 ‘텍스쳐 슬라이스(texture slice)’, ‘텍스쳐 뷰(texture view)’, ‘텍스쳐 영상(texture image)’ 및/또는 ‘실제 픽처’ 등으로 표현될 수 있다.
참조 텍스쳐 픽처는 텍스쳐 픽처와는 다른 시점의 텍스쳐 픽처를 의미하며, 텍스쳐 픽처에 대한 참조 텍스쳐 픽처는 복수의 개수일 수 있다. 원칙적으로, 참조 텍스쳐 픽처는 텍스쳐 픽터와는 다른 시점의 텍스쳐 픽처를 의미하나, 본 명세서에서는 참조 텍스쳐 픽처가 텍스쳐 픽처와 동일한 시점인 경우를 배제하는 것은 아니다. 아울러, ‘참조 텍스쳐 픽처’는 ‘참조 텍스쳐 슬라이스(Reference texture slice)’, ‘참조 텍스쳐 뷰(Reference texture view)’, ‘참조 텍스쳐 영상(Reference texture image)’ 및/또는 ‘참조 실제 픽처’등을 의미할 수 있으며, 설명의 편의를 위해 ‘참조 텍스쳐 픽처’는 ‘참조 텍스쳐 슬라이스(Reference texture slice)’, ‘참조 텍스쳐 뷰(Reference texture view)’, ‘참조 텍스쳐 영상(Reference texture image)’ 및/또는 ‘참조 실제 픽처’ 등으로 표현될 수 있다.
참조 깊이 픽처는 상술한 텍스처 픽처와는 다른 시점에 존재하는 깊이 정보 맵을 의미하며, 깊이 정보 맵은 상술한 과정을 통해 구할 수 있다. 원칙적으로, 참조 깊이 픽처는 텍스쳐 픽터와는 다른 시점의 깊이 픽처를 의미하나, 본 명세서에서는 참조 깊이 픽처가 텍스쳐 픽처와 동일한 시점인 경우를 배제하는 것은 아니다. 아울러, ‘참조 깊이 픽처’는 ‘참조 깊이 슬라이스(Reference depth slice)’, ‘참조 깊이 뷰(Reference depth view)’, ‘참조 깊이 영상(Reference depth image)’ 및/또는 ‘참조 깊이 픽처’등을 의미할 수 있으며, 설명의 편의를 위해 ‘참조 깊이 픽처’는 ‘참조 깊이 슬라이스(Reference depth slice)’, ‘참조 깊이 뷰(Reference depth view)’, ‘참조 깊이 영상(Reference depth image)’ 및/또는 ‘참조 깊이 픽처’ 등으로 표현될 수 있다.
VSP는 변이 벡터(Disparity Vector: DV), 참조된 깊이 정보 맵과 해당 시점의 일반 영상 정보를 이용하여 생성된다.
VSP를 생성하는 방법에 대해 도 15를 통해 보다 더 구체적으로 설명하면, 1. 3차원 영상 부호화/복호화 장치는 현재 블록과 이웃하는 블록에 존재하는 DV를 유도한다. 이후, 3차원 영상 부호화/복호화 장치는 2. 이웃한 블록으로부터 DV를 복사하고, 3. 참조 텍스처 픽처를 이용한 백워드 워핑을 통해 가상의 새롭게 생성된 블록을 생성한다. 이후, 현재 블록은 가상의 새롭게 생성된 블록을 VSP 예측 정보, 즉 VSP 머지 후보로서 사용한다.
도 16은 3차원 영상 부호화/복호화에서, VSP 후보로서 상속되는 주변 블록의 일 예를 도시한 것이다.
3차원 영상 부호화/복호화에서 인터 예측을 하는 경우, 현재 블록의 공간적 이웃 블록들로 A0, A1, B0, B1, B2가 있을 수 있으며, 현재 블록은 예측 블록 및/또는 서브 예측 유닛을 의미할 수 있고, 현재 블록은 정방형 또는 비정방형일 수 있다. 이웃 블록은 각각 예측 블록/서브 예측 블록 단위일 수 있으며, 이웃 블록들은 복원된 블록들을 의미할 수도 있다. 아울러, 이웃 블록들의 각각의 크기는 현재 블록과 동일한 크기 또는 현재 블록과 상이한 크기를 가질 수 있으며, 현재 블록과 상이한 크기를 가진다는 것은 현재 블록보다 작은 크기 또는 큰 크기를 가진다는 것을 의미할 수 있고, 이웃 블록은 정방형 또는 비정방형일 수 있다.
이때, 현재 블록의 이웃한 블록들 중, VSP를 이용하는 공간적 이웃 블록이 존재할 수 있으며, 예컨대, 도 16과 마찬가지로, 현재 블록의 이웃한 블록들 즉, 주변 블록들 중 A1, B0가 VSP를 사용할 수도 있다.
공간적 주변 블록(예컨대, A0, A1, B0, B1, B2)이 VSP를 사용하는 경우, VSP를 사용하는 공간적 주변 블록은 VSP로 상속(Inheritance)한다고 하여, 상속된 VSP 후보(Inherited VSP candidate)라고 할 수 있으며, 이때, 상속된 VSP 후보는 현재 블록의 VSP 후보와 동일한 변이 벡터를 사용한다.
도 17은 3차원 영상 부호화/복호화에서, 머지 후보 리스트의 일 예를 도시한 것이다.
도 17은 도 16과 마찬가지로, 현재 블록의 이웃한 블록들 중 A1, B0가 VSP 후보를 사용하는 경우, 즉, A1, B0가 상속된 VSP 후보인 경우의 머지 후보 리스트 생성 방법에 대한 일 예를 개략적으로 도시한 것이다. 도 17에서는 A1, B0가 상속된 VSP 후보인 경우에 대해 서술하였으나, 공간적 주변 블록(A0, A1, B0, B1, B2) 각각은 상속된 VSP 후보를 가질 수도 있다. 즉, 좌하측(A0), 좌측(A1), 상측(B1), 우상측(B0) 및/또는 좌상측(B2)에 위치한 각각의 블록은 각각 VSP 후보로서 상속이 가능하며, 이때, 다른 주변 블록이 상속된 VSP 후보인지와는 무관하게 각각의 주변 블록은 VSP 후보로서 상속이 가능하다.
도 16, 도 17에서의 일 예와 같이, A1, B0가 상속된 VSP 후보인 경우에는 머지 후보 리스트에 A1, IvDC, VSP, B0가 삽입된다. 이때, A1, B0가 상속된 VSP 후보인 경우에는 머지 후보 리스트에 동일한 변이 벡터가 중복적으로 삽입되게 된다. 머지 후보 리스트에 동일한 변이 벡터가 중복적으로 삽입 즉, 다수의 동일한 후보가 리스트에 삽입되는 것은 부호화 효율적 측면으로 보았을 때 이득이 없는 구성으로, 오히려 효율이 더 좋을 수 있는 다른 머지 후보의 머지 후보 리스트 삽입 가능성을 제한하는 구성이다.
따라서, 다수의 동일한 머지 후보가 중복적으로 머지 후보 리스트에 삽입되는 것을 방지하여 부호화 효율을 향상시키는 것이 필요로 하며, 다수의 동일한 머지 후보가 중복적으로 머지 후보 리스트에 삽입되는 대신에, 이미 삽입된 머지 후보와는 다른 머지 후보가 머지 후보 리스트에 삽입되는 장치 및 방법이 요구된다.
이하, 3차원 영상 부호화/복호화에서, VSP 후보의 삽입이 제한되는 장치 및 방법을 제안하며, 본 장치 및 방법을 통해, 머지 후보 리스트에서의 VSP 후보 활용의 효율성과 다른 후보의 활용 가능성이 확보될 수 있다. 아울러, 본 장치 및 방법을 통해, 머지 리스트를 구성하는데 있어서 하나의 VSP 후보만이 사용될 수 있다. 또한, 3차원 영상 부호화/복호화에서 VSP 후보 간에 생길 수 있는 중복성이 제거되고, 머지 리스트에 다른 후보가 삽입될 수 있어, 부호화/복호화 효율이 상승될 수도 있다.
도 18은 본 발명의 일 실시예에 따른, 상속된 VSP 후보가 존재하는지 여부에 따라 머지 후보 리스트에 VSP 후보를 추가하는 것을 제한하는 방법의 순서도이다.
도 18에 따르면, 3차원 영상 부호화/복호화 장치는 병합 움직임 후보 즉, 머지 후보를 유도한다(S1810). 유도된 머지 후보는 상술한 바와 같이 A0, A1, B0, B1, B2, Col(H 혹은 M), 모션 파라미터 상속(Motion Parameter Inheritance, MPI), 인터 뷰 머지 후보(inter-view merging candidate, IvMC), 인터 뷰 변이 벡터 후보(inter-view disparity vector candidate, IvDC), 시점 합성 예측(View synthesis prediction, VSP), 쉬프트 인터 뷰(ShiftIV), Bi 및/또는 Zero 후보를 포함할 수 있으며, 아울러, 각각의 머지 후보에 대한 구체적인 내용은 상술한 바와 같다.
단계 S1810에서 3차원 영상 부호화/복호화 장치는 유도된 머지 후보를 머지 후보 리스트에 삽입할 수 있다. 예컨대, 단계 S1810에서의 유도된 머지 후보는 A1 및/또는 B1를 의미할 수 있으며, 3차원 영상 부호화/복호화 장치는 A1 및/또는 B1을 머지 후보 리스트에 삽입할 수도 있다.
3차원 영상 부호화/복호화 장치는 공간적 후보 중 VSP를 사용하는 블록이 있는지에 대해 판단한다(S1820). 공간적 후보는 공간적 주변 블록을 의미할 수 있고, 공간적 주변 블록은 상술한 바와 같이 A0, A1, B0, B1, B2 및/또는 Col(H 또는 M) 후보를 포함할 수 있으며, 예컨대, 단계 S1820에서 판단되는 공간적 후보 블록은 A1, 및/또는 B1일 수도 있다. 아울러, 공간적 후보 중 VSP를 사용하는 블록은 상속된 VSP 후보를 의미할 수 있으며, 상속된 VSP 후보에 대한 구체적인 설명은 상술한 바와 같다.
공간적 후보 중 VSP를 사용하는 블록이 없는 경우, 3차원 영상 부호화/복호화 장치는 VSP 후보를 머지 후보 리스트에 삽입한다(S1830). 이때, 머지 후보 리스트에 삽입되는 VSP 후보는 현재 블록의 VSP 후보를 의미하며, VSP 후보에 대한 구체적인 내용은 상술한 바와 같다.
VSP 후보를 머지 후보 리스트에 삽입한 후, 3차원 영상 부호화/복호화 장치는 나머지 병합 움직임 후보를 유도(S1840)한다. 이때, 나머지 병합 움직임 후보 즉, 나머지 머지 후보는 A0, A1, B0, B1, B2, Col(H 혹은 M), 모션 파라미터 상속(Motion Parameter Inheritance, MPI), 인터 뷰 머지 후보(inter-view merging candidate, IvMC), 인터 뷰 변이 벡터 후보(inter-view disparity vector candidate, IvDC), 시점 합성 예측(View synthesis prediction, VSP), 쉬프트 인터 뷰(ShiftIV), Bi 및/또는 Zero 후보를 포함할 수 있으며, 만약, 단계 S1810 내지 S1830에서 머지 리스트에 삽입된 후보가 있는 경우, A0, A1, B0, B1, B2, Col(H 혹은 M), 모션 파라미터 상속(Motion Parameter Inheritance, MPI), 인터 뷰 머지 후보(inter-view merging candidate, IvMC), 인터 뷰 변이 벡터 후보(inter-view disparity vector candidate, IvDC), 시점 합성 예측(View synthesis prediction, VSP), 쉬프트 인터 뷰(ShiftIV), Bi 및/또는 Zero 후보 중 머지 리스트에 삽입된 후보를 제외한 후보들을 의미할 수 있다.
예컨대, 단계 S1810 내지 단계 S1830에서 머지 후보 리스트에 A1, B1, VSP 후보가 삽입된 경우, 단계 S1840에서는 3차원 영상 부호화/복호화 장치가 A1, B1, VSP 후보를 제외한 나머지 머지 후보들을 머지 후보 리스트에 삽입할지 여부에 대해 유도할 수 있다.
만약 단계 S1820에서 공간적 후보 중 VSP를 사용하는 블록 즉, 상속된 VSP 후보가 있는 경우, 3차원 영상 부호화/복호화 장치는 VSP 후보를 머지 후보 리스트에 삽입하지 않고, 나머지 병합 움직임 후보를 유도한다(S1840). 3차원 영상 부호화/복호화 장치가 나머지 병합 움직임 후보를 유도하는 것에 대한 구체적인 내용은 상술한 바와 같다.
도 19는 본 발명의 다른 실시예에 따른, 상속된 VSP 후보가 존재하는지 여부에 따라 머지 후보 리스트에 VSP 후보를 추가하는 것을 제한하는 방법을 3D-HEVC에 구현한 순서도이다.
도 19에 따르면, 3차원 영상 부호화/복호화 장치는 병합 움직임 후보 즉, 머지 후보를 유도한다(S1910). 이때, 3차원 영상 부호화/복호화 장치가 머지 후보를 유도하는 구체적인 내용은 상술한 바와 같다.
3차원 영상 부호화/복호화 장치는 공간적 후보 중 VSP를 사용하는 블록이 있는지에 대해 판단한다(S1920). 이때, 3차원 영상 부호화/복호화 장치가 공간적 후보 중 VSP를 사용하는 블록이 있는지에 대해 판단하는 구체적인 내용은 상술한 바와 같다.
만약 공간적 후보 중 VSP를 사용하는 주변 블록이 있는 경우, 3차원 영상 부호화/복호화 장치는 skipVSP를 true로 설정한다(S1930). 이때, skipVSP는 VSP 후보를 머지 후보 리스트에 삽입할지 삽입하지 않을지를 판단하는 정보를 의미하며, skipVSP가 true일 경우에는 VSP 후보를 머지 후보 리스트에 삽입하지 않는다. 아울러, skipVSP가 false일 경우에는 VSP 후보를 머지 후보 리스트에 삽입한다.
만약 공간적 후보 중 VSP를 사용하는 주변 블록이 없는 경우, 3차원 영상 부호화/복호화 장치는 skipVSP를 false로 설정한다(S1940).
이후, 3차원 영상 부호화/복호화 장치는 skipVSP가 true인지 판단한다(S1950).
만약, skipVSP가 true가 아닐 경우 즉, skipVSP가 false일 경우, 3차원 영상 부호화/복호화 장치는 VSP 후보를 머지 후보 리스트에 삽입한다(S1960). 이때, 3차원 영상 부호화/복호화 장치가 VSP 후보를 머지 후보 리스트에 삽입하는 구체적인 내용은 상술한 바와 같다.
이후, 3차원 영상 부호화/복호화 장치는 나머지 병합 움직임 후보를 유도한다(S1970). 이때, 3차원 영상 부호화/복호화 장치가 나머지 병합 움직임 후보를 유도하는 구체적인 내용은 상술한 바와 같다.
만약, 단계 S1950에서 skipVSP가 true인 경우, 3차원 영상 부호화 장치는 VSP 후보를 머지 후보 리스트에 삽입하지 않고, 나머지 병합 움직임 후보를 유도한다(S1970). skipVSP가 true인 경우, 3차원 영상 부호화 장치가 VSP 후보를 머지 후보 리스트에 삽입하지 않고, 나머지 병합 움직임 후보를 유도하는 구체적인 내용은 상술한 바와 같다.
상술한 방법에서는 상속된 VSP가 있는 경우, 3차원 영상 부호화/복호화 장치는 VSP 후보를 머지 후보 리스트에 추가하지 않을 수 있다. 즉, 상술한 방법을 통해 3차원 영상 부호화/복호화 장치는 이웃하는 블록 즉, 주변 블록 중에 상속된 VSP가 있는 경우, 현재 블록에 대한 VSP 후보를 머지 후보 리스트에 추가하지 않음으로써, 머지 후보 리스트에 존재하는 머지 후보의 중복성을 줄일 수 있고, 머지 후보 리스트에 VSP 후보 이외의 추가적인 머지 후보를 삽입할 수도 있어 부호화 효율의 향상을 할 수 있다.
상속된 VSP 후보가 존재하는지 여부에 따라 머지 후보 리스트에 VSP 후보를 추가하는 것을 제한하는 장치는 기존 인터 예측부에 VSP의 중복성 제거를 위한 모듈이 추가된 구성일 수 있다. 이하, 본 발명의 일 실시예에 따른, 상속된 VSP 후보가 존재하는지 여부에 따라 머지 후보 리스트에 VSP 후보를 추가하는 것을 제한하는 장치를 도20을 참조하여 보다 더 구체적으로 설명한다.
도 20은 본 발명의 일 실시예에 따른, 상속된 VSP 후보가 존재하는지 여부에 따라 머지 후보 리스트에 VSP 후보를 추가하는 것을 제한하는 장치의 블록도이다.
도 20에 따르면, 인터 예측부(2000)는 기존 움직임 후보 생성 모듈, VSP 중복성 제거 모듈, 3D 움직임 후보 생성 모듈을 포함할 수 있다.
기존 움직임 후보 생성 모듈은 병합 움직임 후보 즉, 머지 후보를 유도한다. 유도된 머지 후보는 상술한 바와 같으며, 각각의 머지 후보에 대한 구체적인 내용은 상술한 바와 같다. 아울러, 기존 움직임 후보 생성 모듈은 유도된 머지 후보를 머지 후보 리스트에 삽입할 수 있다. 예컨대, 유도된 머지 후보는 A1 및/또는 B1를 의미할 수 있으며, 3차원 영상 부호화/복호화 장치는 A1 및/또는 B1을 머지 후보 리스트에 삽입할 수도 있다.
이때, ‘기존 움직임 후보 생성 모듈’은 ‘공간적 머지 후보 삽입 모듈’을 의미할 수 있으며, 이하, 설명의 편의를 위해, ‘기존 움직임 후보 생성 모듈’은 ‘공간적 머지 후보 삽입 모듈’과 혼용될 수 있다.
VSP 중복성(redundancy) 제거 모듈은 공간적 후보 중 VSP를 사용하는 블록이 있는지에 대해 판단할 수 있다. 공간적 후보는 공간적 주변 블록을 의미할 수 있고, 공간적 주변 블록은 상술한 바와 같이 A0, A1, B0, B1, B2 및/또는 Col(H 또는 M) 후보를 포함할 수 있으며, 예컨대, VSP 중복성 제거 모듈에서 판단되는 공간적 후보 블록은 A1, 및/또는 B1일 수도 있다. 공간적 후보 중 VSP를 사용하는 블록은 상속된 VSP 후보를 의미할 수 있으며, 상속된 VSP 후보에 대한 구체적인 설명은 상술한 바와 같다.
아울러, 3차원 부호화/복호화에 있어서, VSP 중복성 제거 모듈은 상술한 판단 결과에 기반하여 skipVSP 값을 true 또는 false로 설정할 수 있다. 이때, VSP 중복성 제거 모듈은 상술한 판단 결과에 기반하여 skipVSP 값을 true 또는 false로 설정하는 구체적인 내용은 상술한 바와 같다.
이때, ‘VSP 중복성 제거 모듈’은 ‘VSP 중복성 판단 모듈’을 의미할 수 있으며, 이하, 설명의 편의를 위해 ‘VSP 중복성 제거 모듈’과 ‘VSP 중복성 판단 모듈’은 혼용될 수 있다.
3D 움직임 후보 생성 모듈은 VSP 후보를 머지 후보 리스트에 삽입한 후, 나머지 병합 움직임 후보를 유도한다. 3D 움직임 후보 생성 모듈이 나머지 병합 움직임 후보를 유도하는 구체적인 내용은 상술한 바와 같으며, 나머지 병합 움직임 후보에 관한 구체적인 내용도 상술한 바와 같다.
예컨대, 기존 움직임 후보 생성 모듈 및 VSP 중복성 제거 모듈에서 머지 후보 리스트에 A1, B1, VSP 후보가 삽입된 경우, 3D 움직임 후보 생성 모듈은 3차원 영상 부호화/복호화 장치가 A1, B1, VSP 후보를 제외한 나머지 머지 후보들을 머지 후보 리스트에 삽입할지 여부에 대해 유도할 수 있다.
만약 공간적 후보 중 VSP를 사용하는 블록 즉, 상속된 VSP 후보가 있어 VSP 중복성 제거 모듈이 상속된 VSP 후보가 있다고 판단한 경우, 3차원 움직임 후보 생성 모듈은 VSP 후보를 머지 후보 리스트에 삽입하지 않고, 나머지 병합 움직임 후보를 유도한다. 3차원 영상 부호화/복호화 장치가 나머지 병합 움직임 후보를 유도하는 것에 대한 구체적인 내용은 상술한 바와 같다.
이때, ‘3차원 움직임 후보 생성 모듈’은 ‘3차원 머지 후보 삽입 모듈’, ‘VSP 후보 삽입 모듈’을 의미할 수 있으며, 이하, 설명의 편의를 위해 ‘3차원 움직임 후보 생성 모듈’, ‘3차원 머지 후보 삽입 모듈’, ‘VSP 후보 삽입 모듈’은 혼용될 수 있다.
상속된 VSP 후보가 존재하는지 여부에 따라 머지 후보 리스트에 VSP 후보를 추가하는 것을 제한하는 장치는 VSP 중복성 제거 모듈이 3D 움직임 후보 생성 모듈에 확장/추가되는 구성일 수도 있다. 이때, 기존 움직임 후보 생성 모듈에서 판별된 공간적 인접 후보의 VSP 사용 여부에 따라, VSP 후보가 사용될 것인지 결정될 수 있으며, VSP 후보가 사용될 것인지에 대한 결정은 VSP 후보 유도에 대한 결정 전에 이루어질 수 있다. 이하, 본 발명의 다른 실시예에 따른, 상속된 VSP 후보가 존재하는지 여부에 따라 머지 후보 리스트에 VSP 후보를 추가하는 것을 제한하는 장치를 도 21을 통해 보다 더 구체적으로 설명한다.
도 21은 본 발명의 다른 실시예에 따른, 상속된 VSP 후보가 존재하는지 여부에 따라 머지 후보 리스트에 VSP 후보를 추가하는 것을 제한하는 장치의 블록도이다.
도 21에 따르면, 인터 예측부(2100)는 기존 움직임 후보 생성 모듈, 3D 움직임 후보 생성 모듈을 포함할 수 있으며, 3D 움직임 후보 생성 모듈은 VSP 중복성 제거 모듈을 포함할 수 있다.
기존 움직임 후보 생성 모듈은 상술한 바와 같으며, 기존 움직임 후보 생성 모듈의 구체적인 내용은 상술한 바와 같다.
3D 움직임 후보 생성 모듈은 VSP 중복성 제거 모듈을 포함할 수 있으며, 기존 움직임 후보 생성 모듈에서 판별된 공간적 인접 후보의 VSP 사용 여부에 따라, VSP 후보가 사용될 것인지 결정될 수 있으며, VSP 후보가 사용될 것인지에 대한 결정은 VSP 후보 유도에 대한 결정 전에 이루어질 수 있다. 3D 움직임 후보 생성 모듈 및 VSP 중복성 제거 모듈에 대한 구체적인 내용은 상술한 바와 같다.
상속된 VSP 후보가 존재하는지 여부에 따라 머지 후보 리스트에 VSP 후보를 추가하는 것을 제한할 때, 3차원 부호화/복호화 장치는 공간적 머지 후보 중에서 두 가지 또는 한 가지 방향만을 참조할 수 있으며, 3차원 부호화/복호화 장치가 공간적 머지 후보 중에서 두 가지 또는 한 가지 방향만을 참조하는 것을 통해 VSP 사용 여부를 판단하는 플래그를 참조하는 횟수를 줄일 수 있다. 이때, VSP 사용 여부를 판단하는 플래그를 참조하는 횟수가 줄어드는 것은 3차원 부호화/복호화 장치의 메모리 접근 횟수를 감소시킬 수 있다. 이하, 상술한 방법에 대해 보다 구체적으로 설명하도록 한다.
도 22는 기존의 머지 후보 유도 방법과, 본 발명의 또 다른 실시예에 따른 머지 후보 유도 방법을 비교한 것이다.
도 22의 (a)는 기존의 머지 후보에 대한 유도의 일례를 나타낸다. 도 22의 (a)에 따르면, 기존의 머지 후보에 대한 유도에서는 공간적 주변 블록(A0, A1, B0, B1 및/또는 B2)들 각각은 VSP 모드로 부호화/복호화 즉, 상속된 VSP일 수 있다. 3차원 부호화/복호화 장치는 현재 블록에 대한 머지 후보리스트를 구성할 때, 3차원 부호화/복호화 장치는 공간적 주변 블록들이 VSP 모드로 부호화/복호화 되었는지에 대해 무관하게, 현재 블륵의 머지 후보 리스트에 VSP 후보를 삽입하는 경우가 있었으며, 이는 상술한 바와 같이 중복된 움직임 정보를 머지 후보 리스트에 삽입하는 것에 불과하여, 영상 부호화/복호화 효율의 저하를 가져왔다.
도 22의 (b)는 본 발명의 또 다른 실시예에 따른 머지 후보의 유도에 대한 일례다. 도 22의 (b)에 따르면, 3차원 부호화/복호화 장치는 현재 블록에 대한 머지 후보 리스트를 구성할 때, 주변 블록 중 A1 및/또는 B1에서 VSP가 사용되었는지 즉, 상속된 VSP인지 여부에 대해 판단한다. 이후, 3차원 영상 부호화/복호화 장치는 주변 블록 중 A1 및/또는 B1에서 VSP가 사용된 경우, 머지 리스트에 VSP 후보를 삽입하는 것을 제한한다.
이하, 3차원 영상 부호화/복호화에서, 공간적 머지 후보 중에서 두 가지 방향을 참조하여 머지 리스트에 VSP 후보를 삽입하는 것을 제한하는 방법에 대해 보다 구체적으로 설명한다.
도 23은 본 발명의 또 다른 실시예에 따른 공간적 머지 후보 중에서 두 가지 방향을 참조하여 머지 리스트에 VSP 후보를 삽입하는 것을 제한하는 방법에 관한 순서도이다.
도 23을 참조하면, 3차원 영상 부호화/복호화 장치는 현재 블록의 왼쪽에 위치한 후보 즉, 좌측에 위치한 후보를 리스트에 삽입한다(S2300). 3차원 영상 부호화/복호화 장치가 현재 블록의 왼쪽에 위치한 후보를 리스트에 삽입한다고는 하였으나, 여기서 현재 블록의 왼쪽에 위치한 후보는 본 발명의 일례에 불과하며, 단계 S2300에서 3차원 영상 부호화/복호화 장치가 리스트에 삽입하는 후보는 공간적 후보(예컨대, 현재 블록의 좌측, 좌하측, 좌상측, 상측, 우상측에 위치한 후보) 중 어느 하나일 수 있다. 이때, 현재 블록의 좌측에 위치한 후보는 A1일 수 있고, 좌하측에 위치한 후보는 A0일 수 있으며, 좌상측에 위치한 후보는 B2후보일 수 있다. 아울러, 현재 블록의 상측에 위치한 후보는 B1일 수 있고, 우상측에 위치한 후보는 B0일 수 있다.
3차원 영상 부호화/복호화 장치는 왼쪽 후보가 VSP를 사용하였는지 즉, 왼쪽 후보가 상속된 VSP인지에 대해 판단하며(S2310), 왼쪽 후보가 VSP를 사용하였는지에 대해 판단하는 구체적인 방법은 상술한 바와 같다.
왼쪽 후보가 VSP를 사용한 경우, 3차원 영상 부호화/복호화 장치는 VSP가 사용되었음을 나타내는 정보를 생성하며(S2320), VSP가 사용되었음을 나타내는 정보에 대한 구체적인 내용은 상술한 바와 같다.
이후, 3차원 영상 부호화/복호화 장치는 현재 블록의 위쪽에 위치한 후보를 머지 리스트에 삽입한다(S2330). 3차원 영상 부호화/복호화 장치가 현재 블록의 위쪽에 위치한 후보를 리스트에 삽입한다고는 하였으나, 여기서 현재 블록의 위쪽에 위치한 후보는 본 발명의 일례에 불과하며, 단계 S2330에서 3차원 영상 부호화/복호화 장치가 리스트에 삽입하는 후보는 공간적 후보(예컨대, 현재 블록의 좌측, 좌하측, 좌상측, 상측, 우상측에 위치한 후보) 중 어느 하나일 수 있다.
만약, 단계 2310에서 왼쪽 후보가 VSP를 사용하지 않은 경우, 3차원 영상 부호화/복호화 장치는 VSP가 사용되었음을 나타내는 정보를 생성하지 않고, 위쪽 후보를 리스트에 삽입한다(S2330).
단계 S2330에서 위쪽 후보를 머지 리스트에 삽입한 이후, 3차원 영상 부호화/복호화 장치는 위쪽 후보가 VSP를 사용하였고, VSP가 사용되었음을 나타내는 정보가 존재하지 않는지 여부에 대해 판단한다(S2340).
위쪽 후보가 VSP를 사용하였고, VSP가 사용되었음을 나타내는 정보가 존재하지 않는 경우, 3차원 영상 부호화/복호화 장치는 VSP가 사용되었음을 나타내는 정보를 생성한다(S2350). 이때, 단계 S2350에서 VSP가 사용되었음을 나타내는 정보는 위쪽 후보가 VSP를 사용함과 동시에, VSP가 사용되었음을 나타내는 정보가 존재하지 않을 경우에만 생성된다.
이후, 3차원 영상 부호화 복호화 장치는 VSP가 사용되었음을 나타내는 정보가 존재하는지 여부에 대해 판단하며(S2360), VSP가 사용되었음을 나타내는 정보가 존재하는지 여부에 대해 판단하는 구체적인 내용은 상술한 바와 같다.
여기서, VSP가 사용되었음을 나타내는 정보가 존재하는 경우, 3차원 영상 부호화/복호화 장치는 머지 후보 리스트에 VSP 후보를 삽입하지 않는다.
만약, 단계 S2360에서 VSP가 사용되었음을 나타내는 정보가 존재하지 않는 경우, 3차원 영상 부호화/복호화 장치는 VSP 후보를 머지 후보 리스트에 생성 즉, VSP 후보를 머지 후보 리스트에 삽입한다(S2370).
상술한 방법은 해당 방법은 각 공간적 인접 후보마다 적용될 수 있으며, 만약 이전 공간적 후보에서 VSP 상속이 이루어졌다면, 현재 공간적 후보는 DV만 사용하여 예측하는 후보로 사용될 수 있다.
아울러, 상술한 방법은 상술한 3차원 영상 부호화/복호화 장치에서 구현될 수도 있다.
도 24a 내지 도 24b는 본 발명의 또 다른 실시예에 따른 공간적 머지 후보 중에서 두 가지 방향을 참조하여 머지 리스트에 VSP 후보를 삽입하는 것을 제한하는 방법을 3D HEVC에 적용한 순서도이다.
도 24a 내지 도 24b를 참조하면, 3차원 영상 부호화/복호화 장치는 기존 HEVC 병합 후보 유도를 하고, usedVSP를 false로 설정한다(S2400). 기존 HEVC 병합 후보 유도를 하고, usedVSP를 false로 설정하는 구체적인 내용은 상술한 바와 같다.
3차원 영상 부호화/복호화 장치는 왼쪽 후보가 VSP를 사용하는지 여부에 대해 판단한다(S2410). 이때, 3차원 영상 부호화/복호화 장치가 왼쪽 후보에 대해 VSP를 사용하는지 여부에 대해 판단하는 구체적인 내용은 상술한 바와 같다.
왼쪽 후보가 VSP를 사용하는 경우, 3차원 영상 부호화/복호화 장치는 상속된 VSP 후보로 왼쪽 후보를 리스트에 삽입하고, usedVSP를 true로 설정한다(S2430). 이때, 상속된 VSP 후보로 왼쪽 후보를 리스트에 삽입하고, usedVSP를 true로 설정하는 구체적인 내용은 상술한 바와 같다.
만약, 왼쪽 후보가 VSP를 사용하지 않는 경우, 3차원 영상 부호화/복호화 장치는 왼쪽 후보를 머지 후보 리스트에 삽입한다(S2420). 이때, 3차원 영상 부호화/복호화 장치가 왼쪽 후보를 머지 후보 리스트에 삽입하는 구체적인 내용은 상술한 바와 같다.
단계 S2420 또는 S2430 이후, 3차원 영상 부호화/복호화 장치는 위쪽 후보가 VSP를 사용하고 usedVSP가 false인지에 대해 판단한다(S2440). 이때, 영상 부호화/복호화 장치가 위쪽 후보에 대해 VSP를 사용하고 usedVSP가 false인지에 대해 판단하는 구체적인 내용은 상술한 바와 같다.
위쪽 후보가 VSP를 사용하고 usedVSP가 false인 경우, 3차원 영상 부호화/복호화 장치는 상속된 VSP 후보로 위쪽 후보를 리스트에 삽입하고, usedVSP를 true로 설정한다.
만약, 위쪽 후보가 VSP를 사용하고 usedVSP가 false가 아닌 경우, 3차원 영상 부호화/복호화 장치는 위쪽 후보를 머지 리스트에 삽입한다(S2460). 이때, 3차원 영상 부호화/복호화 장치가 위쪽 후보를 머지 리스트에 삽입하는 구체적인 내용은 상술한 바와 같다.
단계 S2450 또는 S2460 이후, 3차원 영상 부호화/복호화 장치는 남아있는 공간적 병합 후보를 유도한다(S2470). 이때, 3차원 영상 부호화/복호화 장치가 남아있는 공간적 병합 후보를 유도하는 구체적인 내용은 상술한 바와 같다.
3차원 영상 부호화/복호화 장치는 VSP 후보 전까지의 병합 후보를 유도한다(S2475). 이때, 단계 S2470 이후 VSP 후보 전까지의 병합 후보는 A0, A1, B0, B1, B2, Col(H 혹은 M), 모션 파라미터 상속(Motion Parameter Inheritance, MPI), 인터 뷰 머지 후보(inter-view merging candidate, IvMC), 인터 뷰 변이 벡터 후보(inter-view disparity vector candidate, IvDC), 시점 합성 예측(View synthesis prediction, VSP), 쉬프트 인터 뷰(ShiftIV), Bi 및/또는 Zero 후보를 포함할 수 있으며, 단계 S2470 이후 VSP 후보 전까지의 병합 후보는 존재하지 않을 수도 있다.
3차원 영상 부호화/복호화 장치는 usedVSP가 true인지에 대해 판단한다(S2480). 이때, 3차원 영상 부호화/복호화 장치가 usedVSP에 대해 true 여부를 판단하는 구체적인 내용은 상술한 바와 같다.
usedVSP가 true가 아닌 경우 즉, usedVSP가 false인 경우, 3차원 영상 부호화/복호화 장치는 VSP 후보를 머지 리스트에 삽입한다(S2485). 이때, 3차원 영상 부호화/복호화 장치는 VSP 후보를 머지 리스트에 삽입하는 구체적인 내용과, VSP 후보의 구체적인 내용은 상술한 바와 같다.
이후, 3차원 영상 부호화/복호화 장치는 남아있는 병합 후보를 리스트에 삽입한다(S2490). 이때, 남아있는 병합 후보를 리스트에 삽입하는 구체적인 내용은 상술한 바와 같다.
만약, usedVSP가 true인 경우, 3차원 영상 부호화/복호화 장치는 VSP 후보를 리스트에 삽입하지 않고, 남아있는 병합 후보를 리스트에 삽입한다(S2490). 이때, VSP 후보를 리스트에 삽입하지 않고, 남아있는 병합 후보를 리스트에 삽입하는 구체적인 내용은 상술한 바와 같다.
도 25는 기존의 머지 후보 유도 방법과, 본 발명의 또 다른 실시예에 따른 머지 후보 유도 방법을 비교한 것이다.
도 25의 (a)는 기존의 머지 후보에 대한 유도의 일례를 나타낸다. 이때, 기존의 머지 후보에 대한 유도에 관한 구체적인 내용은 상술한 바와 같다.
도 22의 (b)는 본 발명의 또 다른 실시예에 따른 머지 후보의 유도에 대한 일례다. 도 22의 (b)에 따르면, 3차원 부호화/복호화 장치는 현재 블록에 대한 머지 후보 리스트를 구성할 때, 주변 블록 중 A1에서 VSP가 사용되었는지 즉, 상속된 VSP인지 여부에 대해 판단한다. 이후, 3차원 영상 부호화/복호화 장치는 주변 블록 중 A1에서 VSP가 사용된 경우, 머지 리스트에 VSP 후보를 삽입하는 것을 제한한다.
이하, 3차원 영상 부호화/복호화에서, 공간적 머지 후보 중에서 한 가지 방향을 참조하여 머지 리스트에 VSP 후보를 삽입하는 것을 제한하는 방법에 대해 보다 구체적으로 설명한다.
도 26은 본 발명의 또 다른 실시예에 따른 공간적 머지 후보 중에서 한 가지 방향을 참조하여 머지 리스트에 VSP 후보를 삽입하는 것을 제한하는 방법에 관한 순서도이다.
도 26 참조하면, 3차원 영상 부호화/복호화 장치는 현재 블록의 왼쪽에 위치한 후보 즉, 좌측에 위치한 후보를 리스트에 삽입한다(S2600). 3차원 영상 부호화/복호화 장치가 현재 블록의 왼쪽에 위치한 후보를 리스트에 삽입한다고는 하였으나, 여기서 현재 블록의 왼쪽에 위치한 후보는 본 발명의 일례에 불과하며, 단계 S2600에서 3차원 영상 부호화/복호화 장치가 리스트에 삽입하는 후보는 공간적 후보(예컨대, 현재 블록의 좌측, 좌하측, 좌상측, 상측, 우상측에 위치한 후보) 중 어느 하나일 수 있다.
3차원 영상 부호화/복호화 장치는 왼쪽 후보가 VSP를 사용하였는지 즉, 왼쪽 후보가 상속된 VSP인지에 대해 판단하며(S2610), 왼쪽 후보가 VSP를 사용하였는지에 대해 판단하는 구체적인 방법은 상술한 바와 같다.
왼쪽 후보가 VSP를 사용한 경우, 3차원 영상 부호화/복호화 장치는 VSP가 사용되었음을 나타내는 정보를 생성하며(S2620), VSP가 사용되었음을 나타내는 정보에 대한 구체적인 내용은 상술한 바와 같다.
만약, 왼쪽 후보가 VSP를 사용하지 않은 경우, 3차원 영상 부호화/복호화 장치는 VSP가 사용되었음을 나타내는 정보를 생성하지 않는다.
이후, 3차원 영상 부호화 복호화 장치는 VSP가 사용되었음을 나타내는 정보가 존재하는지 여부에 대해 판단하며(S2630), VSP가 사용되었음을 나타내는 정보가 존재하는지 여부에 대해 판단하는 구체적인 내용은 상술한 바와 같다.
여기서, VSP가 사용되었음을 나타내는 정보가 존재하는 경우, 3차원 영상 부호화/복호화 장치는 머지 후보 리스트에 VSP 후보를 삽입하지 않는다.
만약, 단계 S2630에서 VSP가 사용되었음을 나타내는 정보가 존재하지 않는 경우, 3차원 영상 부호화/복호화 장치는 VSP 후보를 머지 후보 리스트에 생성 즉, VSP 후보를 머지 후보 리스트에 삽입한다 (S2640).
상술한 방법은 해당 방법은 각 공간적 인접 후보마다 적용될 수 있으며, 만약 이전 공간적 후보에서 VSP 상속이 이루어졌다면, 현재 공간적 후보는 DV만 사용하여 예측하는 후보로 사용될 수 있다. 아울러, 상술한 방법은 상술한 3차원 영상 부호화/복호화 장치에서 구현될 수도 있다.
도 27a 내지 도 27b는 본 발명의 또 다른 실시예에 따른 공간적 머지 후보 중에서 한 가지 방향을 참조하여 머지 리스트에 VSP 후보를 삽입하는 것을 제한하는 방법을 3D HEVC에 적용한 순서도이다.
도 27a 내지 도 27b를 참조하면, 3차원 영상 부호화/복호화 장치는 기존 HEVC 병합 후보 유도를 하고, usedVSP를 false로 설정한다(S2700). 기존 HEVC 병합 후보 유도를 하고, usedVSP를 false로 설정하는 구체적인 내용은 상술한 바와 같다.
3차원 영상 부호화/복호화 장치는 왼쪽 후보가 VSP를 사용하는지 여부에 대해 판단한다(S2710). 이때, 3차원 영상 부호화/복호화 장치가 왼쪽 후보에 대해 VSP를 사용하는지 여부에 대해 판단하는 구체적인 내용은 상술한 바와 같다.
왼쪽 후보가 VSP를 사용하는 경우, 3차원 영상 부호화/복호화 장치는 상속된 VSP 후보로 왼쪽 후보를 리스트에 삽입하고, usedVSP를 true로 설정한다(S2720). 이때, 상속된 VSP 후보로 왼쪽 후보를 리스트에 삽입하고, usedVSP를 true로 설정하는 구체적인 내용은 상술한 바와 같다.
만약, 왼쪽 후보가 VSP를 사용하지 않는 경우, 3차원 영상 부호화/복호화 장치는 왼쪽 후보를 머지 후보 리스트에 삽입한다(S2730). 이때, 3차원 영상 부호화/복호화 장치가 왼쪽 후보를 머지 후보 리스트에 삽입하는 구체적인 내용은 상술한 바와 같다.
단계 S2720 또는 S2730 이후, 3차원 영상 부호화/복호화 장치는 남아있는 공간적 병합 후보를 유도한다(S2740). 이때, 3차원 영상 부호화/복호화 장치가 남아있는 공간적 병합 후보를 유도하는 구체적인 내용은 상술한 바와 같다.
3차원 영상 부호화/복호화 장치는 VSP 후보 전까지의 병합 후보를 유도한다(S2750). 이때, 단계 S2740 이후 VSP 후보 전까지의 병합 후보는 A0, A1, B0, B1, B2, Col(H 혹은 M), 모션 파라미터 상속(Motion Parameter Inheritance, MPI), 인터 뷰 머지 후보(inter-view merging candidate, IvMC), 인터 뷰 변이 벡터 후보(inter-view disparity vector candidate, IvDC), 시점 합성 예측(View synthesis prediction, VSP), 쉬프트 인터 뷰(ShiftIV), Bi 및/또는 Zero 후보를 포함할 수 있으며, 단계 S2740 이후 VSP 후보 전까지의 병합 후보는 존재하지 않을 수도 있다.
3차원 영상 부호화/복호화 장치는 usedVSP가 true인지에 대해 판단한다(S2760). 이때, 3차원 영상 부호화/복호화 장치가 usedVSP에 대해 true 여부를 판단하는 구체적인 내용은 상술한 바와 같다.
usedVSP가 true가 아닌 경우 즉, usedVSP가 false인 경우, 3차원 영상 부호화/복호화 장치는 VSP 후보를 머지 리스트에 삽입한다(S2770). 이때, 3차원 영상 부호화/복호화 장치는 VSP 후보를 머지 리스트에 삽입하는 구체적인 내용과, VSP 후보의 구체적인 내용은 상술한 바와 같다.
이후, 3차원 영상 부호화/복호화 장치는 남아있는 병합 후보를 리스트에 삽입한다(S2780). 이때, 남아있는 병합 후보를 리스트에 삽입하는 구체적인 내용은 상술한 바와 같다.
만약, usedVSP가 true인 경우, 3차원 영상 부호화/복호화 장치는 VSP 후보를 리스트에 삽입하지 않고, 남아있는 병합 후보를 리스트에 삽입한다(S2780). 이때, VSP 후보를 리스트에 삽입하지 않고, 남아있는 병합 후보를 리스트에 삽입하는 구체적인 내용은 상술한 바와 같다.
도 28은 본 발명의 또 다른 실시예에 따른 머지 리스트에 VSP 후보를 삽입하는 것을 제한하는 장치에 대한 블록도이다.
도 28을 참조하면, 머지 리스트에 VSP 후보를 삽입하는 것을 제한하는 장치는 기존 HEVC 후보 생성 모듈, 좌측 블록에 대한 VSPO 사용 여부 결정 모듈 등, 3D HEVC 후보 생성 모듈을 포함할 수 있다.
기존 HEVC 후보 생성 모듈은 상술한 기존 움직임 후보 생성 모듈을 의미할 수 있으며, 기존 HEVC 후보 생성 모듈에 대한 구체적인 내용은 상술한 바와 같다.
좌측 블록에 대한 VSP 사용 여부 결정 모듈 등(예컨대, 상측 블록, 좌하측, 좌상측 또는 우상측에 대한 VSP 사용 여부 결정 모듈)은 각각 기존 후보의 VSP 비활성화 모듈을 포함할 수 있으며, 좌측 블록에 대한 VSP 사용 여부 결정 모듈 등은 각 공간적 인접 후보의 VSP 사용 여부에 따라, 다른 공간적 인접 후보의 VSP 사용을 비활성화 할 수 있다. 이를 통해 공간적 인접 후보는 일정 방향의 정해진 후보만 VSP 후보로서 사용됨으로써, 각 블록 별로 저장되는 VSP 플래그에 대한 접근 횟수가 줄어든다. 이로 인하여, 3차원 영상 부호화/복호화에 있어, 결과적으로 메모리 접근을 감소시킬 수 있다.
3D HEVC 후보 생성 모듈은 상술한 3D 움직임 후보 생성 모듈을 의미할 수 있으며, 3D HEVC 후보 생성 모듈은 VSP 중복성 제거 모듈을 포함할 수 있다.
상술한 3차원 영상 부호화/복호화 장치 및 방법은 현재 MPEG(Moving Picture Experts Group)와 VCEG(Video Coding Experts Group)에서 공동으로 표준화를 진행 중인 3D-HEVC(High Efficiency Video Coding)에서 사용될 수 있다. 따라서, 상술한 장치 및 방법은 표 1과 같이 블록 크기 혹은 CU(Coding Uint) 깊이 혹은 TU(Transform Unit) 깊이 등에 따라 적용 범위가 달라질 수 있다. 적용 범위를 결정하는 변수(즉, 크기 혹은 깊이 정보)는 부호화/복호화 장치 및 방법에서 미리 정해진 값을 사용하도록 설정될 수도 있고, 프로파일 또는 레벨에 따라 정해진 값이 사용되도록 될 수도 있으며, 부호화 장치 및 방법에서 변수 값이 비트스트림에 기재되면, 복호화 장치 및 방법에서 비트스트림으로부터 변수 값이 구해질 수도 있다. CU 깊이에 따라 적용 범위를 달리하는 할 때는 표 1에 예시한 바와 같이, A) 주어진 깊이 이상의 깊이에만 적용하는 경우, B) 주어진 깊이 이하에만 적용하는 경우, C) 주어진 깊이에만 적용하는 경우가 있을 수 있다.
모든 깊이에 대하여 본 발명의 방법들이 적용되지 않는 경우, 임의의 지시자(flag)가 상술한 방법이 적용되지 않는 다는 것을 나타낼 수도 있고, 적용범위를 나타내는 CU 깊이 값이 CU 깊이의 최대값보다 하나 더 큰 값으로 시그널링 됨으로써 표현될 수도 있다.
표 1
CU(또는 PU, 또는 TU)의 깊이 A B C
0 X O X
1 X O X
2 O O O
3 O X X
4 이상 O X X
도 29는 상술한 3차원 영상 부호화/복호화 장치 및 방법을 통해 VSP 후보간 중복성이 제거된 일례를 나타낸다.
도 29를 참조하면, 기존의 방법을 통해서는 머지 후보 리스트에 VSP 후보가 중복적으로 존재하였으나, 본 명세서에서 제안하는 3차원 부호화/복호화 장치를 통해서는 VSP 후보가 중복적으로 존재하는 것이 개선된 것을 확인할 수 있다.
상술한 실시예들에서, 방법들은 일련의 단계 또는 유닛으로서 순서도를 기초로 설명되고 있으나, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 당해 기술 분야에서 통상의 지식을 가진 자라면 순서도에 나타난 단계들이 배타적이지 않고, 다른 단계가 포함되거나, 순서도의 하나 또는 그 이상의 단계가 본 발명의 범위에 영향을 미치지 않고 삭제될 수 있음을 이해할 수 있을 것이다.
상술한 실시예는 다양한 양태의 예시들을 포함한다. 다양한 양태들을 나타내기 위한 모든 가능한 조합을 기술할 수는 없지만, 해당 기술 분야의 통상의 지식을 가진 자는 다른 조합이 가능함을 인식할 수 있을 것이다. 따라서, 본 발명은 이하의 특허청구범위 내에 속하는 모든 다른 교체, 수정 및 변경을 포함한다고 할 것이다.
상술한 본 발명에 따른 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.
컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 상기 방법을 구현하기 위한 기능적인(function) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
또한, 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해 되어서는 안 될 것이다.

Claims (20)

  1. 제1 후보 블록을 머지 후보 리스트에 삽입하는 단계;
    상기 제1 후보 블록에서 시점 합성 예측(View Synthesis Prediction, VSP)이 사용된 경우, VSP가 사용되었음을 나타내는 정보를 생성하는 단계; 및
    상기 VSP가 사용되었음을 나타내는 정보가 존재하는 경우, 머지 후보 리스트에 현재 블록의 VSP 후보를 삽입하지 않는 단계를 포함하는 3차원 영상 복호화 방법.
  2. 제1항에 있어서,
    상기 제1 후보 블록은 공간적 이웃 블록인 것을 특징으로 하는 3차원 영상 복호화 방법.
  3. 제2항에 있어서,
    상기 제1 후보 블록은 현재 블록의 좌측에 위치한 상기 공간적 이웃 블록인 것을 특징으로 하는 3차원 영상 복호화 방법.
  4. 제1항에 있어서,
    상기 제1 후보 블록은 A1 블록인 것을 특징으로 하는 3차원 영상 복호화 방법.
  5. 제1항에 있어서,
    상기 VSP가 사용되었음을 나타내는 정보는 제1 후보 블록이 사용 가능한지 여부에 대해 지시하는 정보 또는 제1 후보 블록에서 VSP가 사용되었는지 여부에 대해 지시하는 정보를 포함하는 것을 특징으로 하는 3차원 영상 복호화 방법.
  6. 제1항에 있어서,
    상기 제1 후보 블록을 머지 후보 리스트에 삽입한 후, 제2 후보 블록을 머지 후보 리스트에 삽입하는 단계를 더 포함하고,
    상기 VSP가 사용되었음을 나타내는 정보를 생성하는 단계에서는, 상기 제1 후보 블록 또는 상기 제2 후보 블록에서 VSP가 사용된 경우, 상기 VSP가 사용되었음을 나타내는 정보를 생성하는 것을 특징으로 하는 3차원 영상 복호화 방법.
  7. 제6항에 있어서,
    상기 제1 후보 블록은 현재 블록의 좌측에 위치한 공간적 이웃 블록이고, 상기 제2 후보 블록은 현재 블록의 상측에 위치한 공간적 이웃 블록인 것을 특징으로 하는 3차원 영상 복호화 방법.
  8. 제6항에 있어서,
    상기 제1 후보 블록은 A1 블록이고, 상기 제2 후보 블록은 B1 블록인 것을 특징으로 하는 3차원 영상 복호화 방법.
  9. 제1항에 있어서,
    상기 현재 블록은 서브 예측 블록인 것을 특징으로 하는 3차원 영상 복호화 방법.
  10. 제1 후보 블록을 머지 후보 리스트에 삽입하는 공간적 머지 후보 삽입 모듈;
    상기 제1 후보 블록에서 시점 합성 예측(View Synthesis Prediction, VSP)이 사용된 경우, VSP가 사용되었음을 나타내는 정보를 생성하는 VSP 중복성 판단 모듈; 및
    상기 VSP가 사용되었음을 나타내는 정보가 존재하는 경우, 머지 후보 리스트에 현재 블록의 VSP 후보를 삽입하지 않는 VSP 후보 삽입 모듈을 포함하는 3차원 영상 복호화 장치.
  11. 제10항에 있어서,
    상기 제1 후보 블록은 공간적 이웃 블록인 것을 특징으로 하는 3차원 영상 복호화 장치.
  12. 제11항에 있어서,
    상기 제1 후보 블록은 현재 블록의 좌측에 위치한 상기 공간적 이웃 블록인 것을 특징으로 하는 3차원 영상 복호화 장치.
  13. 제10항에 있어서,
    상기 제1 후보 블록은 A1 블록인 것을 특징으로 하는 3차원 영상 복호화 장치.
  14. 제10항에 있어서,
    상기 VSP가 사용되었음을 나타내는 정보는 제1 후보 블록이 사용 가능한지 여부에 대해 지시하는 정보 또는 제1 후보 블록에서 VSP가 사용되었는지 여부에 대해 지시하는 정보를 포함하는 것을 특징으로 하는 3차원 영상 복호화 장치.
  15. 제10항에 있어서,
    상기 공간적 머지 후보 삽입 모듈은 상기 제1 후보 블록을 머지 후보 리스트에 삽입한 후, 제2 후보 블록을 머지 후보 리스트에 삽입하고,
    상기 VSP 중복성 판단 모듈은 상기 제1 후보 블록 또는 상기 제2 후보 블록에서 VSP가 사용된 경우, 상기 VSP가 사용되었음을 나타내는 정보를 생성하는 것을 특징으로 하는 3차원 영상 복호화 장치.
  16. 제15항에 있어서,
    상기 제1 후보 블록은 현재 블록의 좌측에 위치한 공간적 이웃 블록이고, 상기 제2 후보 블록은 현재 블록의 상측에 위치한 공간적 이웃 블록인 것을 특징으로 하는 3차원 영상 복호화 장치.
  17. 제15항에 있어서,
    상기 제1 후보 블록은 A1 블록이고, 상기 제2 후보 블록은 B1 블록인 것을 특징으로 하는 3차원 영상 복호화 장치.
  18. 제10항에 있어서,
    상기 현재 블록은 서브 예측 블록인 것을 특징으로 하는 3차원 영상 복호화 장치.
  19. 제1 후보 블록을 머지 후보 리스트에 삽입하는 단계;
    상기 제1 후보 블록에서 시점 합성 예측(View Synthesis Prediction, VSP)이 사용된 경우, VSP가 사용되었음을 나타내는 정보를 생성하는 단계; 및
    상기 VSP가 사용되었음을 나타내는 정보가 존재하는 경우, 머지 후보 리스트에 현재 블록의 VSP 후보를 삽입하지 않는 단계를 포함하는 3차원 영상 부호화 방법.
  20. 제1 후보 블록을 머지 후보 리스트에 삽입하는 공간적 머지 후보 삽입 모듈;
    상기 제1 후보 블록에서 시점 합성 예측(View Synthesis Prediction, VSP)이 사용된 경우, VSP가 사용되었음을 나타내는 정보를 생성하는 VSP 중복성 판단 모듈; 및
    상기 VSP가 사용되었음을 나타내는 정보가 존재하는 경우, 머지 후보 리스트에 현재 블록의 VSP 후보를 삽입하지 않는 VSP 후보 삽입 모듈을 포함하는 3차원 영상 부호화 장치.
PCT/KR2015/005412 2014-06-30 2015-05-29 움직임 병합 모드에서 시점 합성 예측 후보의 중복성 제거 장치 및 방법 WO2016003074A1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2016572762A JP6673854B2 (ja) 2014-06-30 2015-05-29 動き併合モードで視点合成予測候補の重複性除去装置および方法
EP15814370.1A EP3163880A4 (en) 2014-06-30 2015-05-29 Device and method for eliminating redundancy of view synthesis prediction candidate in motion merge mode
CN201580031649.2A CN106464907B (zh) 2014-06-30 2015-05-29 运动合并模式下消除视点合成预测候选冗余的装置和方法
US15/317,782 US10194133B2 (en) 2014-06-30 2015-05-29 Device and method for eliminating redundancy of view synthesis prediction candidate in motion merge mode

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20140081191 2014-06-30
KR10-2014-0081191 2014-06-30
KR1020150074951A KR102378459B1 (ko) 2014-06-30 2015-05-28 움직임 병합 모드에서 시점 합성 예측 후보의 중복성 제거 장치 및 방법
KR10-2015-0074951 2015-05-28

Publications (1)

Publication Number Publication Date
WO2016003074A1 true WO2016003074A1 (ko) 2016-01-07

Family

ID=55019561

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/005412 WO2016003074A1 (ko) 2014-06-30 2015-05-29 움직임 병합 모드에서 시점 합성 예측 후보의 중복성 제거 장치 및 방법

Country Status (1)

Country Link
WO (1) WO2016003074A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017531396A (ja) * 2014-10-07 2017-10-19 サムスン エレクトロニクス カンパニー リミテッド ビュー併合予測を利用して、映像を符号化または復号する方法及びその装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013067938A1 (en) * 2011-11-07 2013-05-16 LI, Yingjin Method of constructing merge list
WO2013106336A2 (en) * 2012-01-09 2013-07-18 Qualcomm Incorporated Device and methods for merge list reordering in video coding
WO2014053086A1 (en) * 2012-10-05 2014-04-10 Mediatek Singapore Pte. Ltd. Method and apparatus of motion vector derivation 3d video coding
WO2014058280A1 (ko) * 2012-10-12 2014-04-17 한국전자통신연구원 영상의 부호화/복호화 방법 및 이를 이용하는 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013067938A1 (en) * 2011-11-07 2013-05-16 LI, Yingjin Method of constructing merge list
WO2013106336A2 (en) * 2012-01-09 2013-07-18 Qualcomm Incorporated Device and methods for merge list reordering in video coding
WO2014053086A1 (en) * 2012-10-05 2014-04-10 Mediatek Singapore Pte. Ltd. Method and apparatus of motion vector derivation 3d video coding
WO2014058280A1 (ko) * 2012-10-12 2014-04-17 한국전자통신연구원 영상의 부호화/복호화 방법 및 이를 이용하는 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Y. ZHANG ET AL.: "Simplification for VSP-related Merge Candidate List Construction.", JCT3V DOCUMENT JCT3V-I0112V1, 26 June 2014 (2014-06-26), pages 1 - 3, XP030132421 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017531396A (ja) * 2014-10-07 2017-10-19 サムスン エレクトロニクス カンパニー リミテッド ビュー併合予測を利用して、映像を符号化または復号する方法及びその装置
US10321145B2 (en) 2014-10-07 2019-06-11 Samsung Electronics Co., Ltd. Method and device for encoding or decoding image by means of view merging prediction

Similar Documents

Publication Publication Date Title
WO2018155986A2 (ko) 비디오 신호 처리 방법 및 장치
WO2021025451A1 (ko) 움직임 정보 후보를 이용한 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법
WO2020180155A1 (ko) 비디오 신호를 처리하기 위한 방법 및 장치
WO2021040480A1 (ko) 인루프 필터링 기반 영상 코딩 장치 및 방법
WO2021034123A1 (ko) 가중 예측을 수행하는 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법
WO2020180129A1 (ko) 인터 예측을 위한 비디오 신호의 처리 방법 및 장치
WO2020251330A1 (ko) 단순화된 mpm 리스트 생성 방법을 활용하는 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법
WO2019194514A1 (ko) 인터 예측 모드 기반 영상 처리 방법 및 이를 위한 장치
WO2020184952A1 (ko) 비디오 신호에서 인터 예측을 위한 움직임 벡터 차분 정보를 처리하기 위한 비디오 신호의 처리 방법 및 장치
WO2020251329A1 (ko) Mip 모드 매핑이 단순화된 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법
WO2019216714A1 (ko) 인터 예측 모드 기반 영상 처리 방법 및 이를 위한 장치
WO2020184964A1 (ko) 인터 예측을 위한 비디오 신호의 처리 방법 및 장치
WO2021006579A1 (ko) 머지 후보의 양방향 예측을 위한 가중치 인덱스를 유도하는 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법
WO2020251328A1 (ko) 인트라 예측 모드 변환에 기반한 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법
WO2020256400A1 (ko) 루마 맵핑 및 크로마 스케일링 기반 비디오 또는 영상 코딩
WO2021172914A1 (ko) 레지듀얼 코딩에 대한 영상 디코딩 방법 및 그 장치
WO2020256482A1 (ko) 변환에 기반한 영상 코딩 방법 및 그 장치
WO2020262962A1 (ko) 크로마 변환 블록의 최대 크기 제한을 이용한 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법
WO2020184958A1 (ko) 인터 예측을 위한 비디오 신호의 처리 방법 및 장치
WO2021172907A1 (ko) 영상 디코딩 방법 및 그 장치
WO2020180153A1 (ko) 인터 예측을 위한 비디오 신호의 처리 방법 및 장치
WO2020185045A1 (ko) 크로마 블록에 대한 분할 제한을 이용한 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법
WO2020256485A1 (ko) 크로마 블록의 적응적 크기 제한을 이용한 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법
WO2021040406A1 (ko) 비디오 또는 영상 코딩 방법 및 그 장치
WO2020256488A1 (ko) 크로마 블록의 크기를 제한하는 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15814370

Country of ref document: EP

Kind code of ref document: A1

REEP Request for entry into the european phase

Ref document number: 2015814370

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 15317782

Country of ref document: US

Ref document number: 2015814370

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2016572762

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE