WO2012093879A2 - Competition-based multiview video encoding/decoding device and method thereof - Google Patents

Competition-based multiview video encoding/decoding device and method thereof Download PDF

Info

Publication number
WO2012093879A2
WO2012093879A2 PCT/KR2012/000136 KR2012000136W WO2012093879A2 WO 2012093879 A2 WO2012093879 A2 WO 2012093879A2 KR 2012000136 W KR2012000136 W KR 2012000136W WO 2012093879 A2 WO2012093879 A2 WO 2012093879A2
Authority
WO
WIPO (PCT)
Prior art keywords
vector
prediction vector
current block
block
index
Prior art date
Application number
PCT/KR2012/000136
Other languages
French (fr)
Korean (ko)
Other versions
WO2012093879A3 (en
Inventor
이진영
김동현
류승철
서정동
손광훈
위호천
Original Assignee
삼성전자주식회사
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020110126950A external-priority patent/KR20120080122A/en
Application filed by 삼성전자주식회사, 연세대학교 산학협력단 filed Critical 삼성전자주식회사
Priority to US13/978,609 priority Critical patent/US20140002599A1/en
Publication of WO2012093879A2 publication Critical patent/WO2012093879A2/en
Publication of WO2012093879A3 publication Critical patent/WO2012093879A3/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Definitions

  • One embodiment of the present invention relates to an apparatus and method for multi-view video encoding / decoding, and to an apparatus and method for encoding / decoding a current block using a spatial prediction vector, a time-base prediction vector, or a view-axis prediction vector.
  • the stereoscopic image refers to a 3D image that simultaneously provides shape information about depth and space.
  • images of different viewpoints are provided to the left and right eyes, whereas stereoscopic images provide the same images as viewed from different directions whenever the viewer views different views. Therefore, in order to generate a stereoscopic image, images captured at various viewpoints are required.
  • Images taken from various viewpoints to generate stereoscopic images have a large amount of data. Therefore, considering the network infrastructure and terrestrial bandwidth for stereoscopic video, it is possible to achieve compression even using encoding devices optimized for Single-View Video Coding such as MPEG-2, H.264 / AVC, and HEVC. This is almost impossible.
  • a multiview video encoding apparatus includes a prediction vector extracting unit which extracts a spatial prediction vector of a current block to be encoded; And an index transmitter for transmitting an index for identifying a spatial prediction vector of the current block to a multi-view video decoding apparatus through a bitstream.
  • a multiview video encoding apparatus includes a prediction vector extracting unit which extracts a temporal prediction vector of a current block to be encoded; And an index transmitter for transmitting an index for identifying a temporal prediction vector of the current block to a multiview video decoding apparatus through a bitstream.
  • a multi-view video encoding apparatus includes a prediction vector extracting unit for extracting a viewpoint prediction vector of a current block to be encoded; And an index transmitter for transmitting an index for identifying the viewpoint prediction vector of the current block to a multiview video decoding apparatus through a bitstream.
  • a multiview video encoding apparatus includes a prediction vector extracting unit which extracts a spatial prediction vector, a temporal prediction vector, and a spatial prediction vector of a current block to be encoded; And an index transmitter for transmitting an index for identifying a prediction vector used to encode a current block among the spatial prediction vector, the temporal prediction vector, and the spatial prediction vector to a multi-view video decoding apparatus through a bitstream.
  • a multiview video decoding apparatus includes an index extractor which extracts an index of a prediction vector from a bitstream received by a multiview video encoding apparatus; And a prediction vector determiner that determines a spatial prediction vector as a final prediction vector for reconstructing a current block based on the index.
  • a multiview video decoding apparatus includes an index extractor which extracts an index of a prediction vector from a bitstream received by a multiview video encoding apparatus; And a prediction vector determiner that determines a temporal prediction vector as a final prediction vector for reconstructing a current block based on the index.
  • a multiview video decoding apparatus includes an index extractor which extracts an index of a prediction vector from a bitstream received by a multiview video encoding apparatus; And a prediction vector determiner that determines a viewpoint prediction vector as a final prediction vector for reconstructing a current block based on the index.
  • a multiview video decoding apparatus includes an index extractor which extracts an index of a prediction vector from a bitstream received by a multiview video encoding apparatus; And a prediction vector determiner configured to determine a final prediction vector for reconstructing a current block among a spatial prediction vector, a temporal prediction vector, and a viewpoint prediction vector based on the index.
  • the multi-view video encoding method comprises the steps of: extracting a spatial prediction vector of a current block to be encoded; And transmitting an index for identifying a temporal prediction vector of the current block to a multi-view video decoding apparatus through a bitstream.
  • the multi-view video encoding method comprises the steps of: extracting a temporal prediction vector of a current block to be encoded; And transmitting an index for identifying a temporal prediction vector of the current block to a multi-view video decoding apparatus through a bitstream.
  • the multi-view video encoding method comprises the steps of: extracting a viewpoint prediction vector of a current block to be encoded; And transmitting an index for identifying the viewpoint prediction vector of the current block to a multiview video decoding apparatus through a bitstream.
  • a multi-view video encoding method includes extracting a spatial prediction vector, a temporal prediction vector, and a spatial prediction vector of a current block to be encoded; And transmitting an index for identifying a prediction vector used to encode a current block among the spatial prediction vector, the temporal prediction vector, and the spatial prediction vector to a multi-view video decoding apparatus through a bitstream.
  • a multiview video decoding method includes extracting an index of a prediction vector from a bitstream received by a multiview video encoding apparatus; And determining the spatial prediction vector as the final prediction vector for reconstructing the current block based on the index.
  • a multiview video decoding method includes extracting an index of a prediction vector from a bitstream received by a multiview video encoding apparatus; And determining the temporal prediction vector as the final prediction vector for reconstructing the current block based on the index.
  • a multiview video decoding method includes extracting an index of a prediction vector from a bitstream received by a multiview video encoding apparatus; And determining the viewpoint prediction vector as the final prediction vector for reconstructing the current block based on the index.
  • a multiview video decoding method includes extracting an index of a prediction vector from a bitstream received by a multiview video encoding apparatus; And determining a final prediction vector for reconstructing a current block among a spatial prediction vector, a temporal prediction vector, and a viewpoint prediction vector based on the index.
  • the prediction vector having the best compression performance is determined, and then the current block is determined using the determined prediction vector.
  • FIG. 1 is a diagram for describing an operation of a multiview video encoding apparatus and a multiview video encoding apparatus according to an embodiment of the present invention.
  • FIG. 2 is a block diagram illustrating a detailed configuration of a multiview video encoding apparatus according to an embodiment of the present invention.
  • FIG. 3 is a block diagram showing a detailed configuration of a multi-view video decoding apparatus according to an embodiment of the present invention.
  • FIG. 4 is a diagram illustrating a structure of a multiview video according to an embodiment of the present invention.
  • FIG. 5 is a diagram illustrating an example of a reference picture used to encode a current block according to an embodiment of the present invention.
  • FIG. 6 is a diagram illustrating types of prediction vectors corresponding to current blocks according to an embodiment of the present invention.
  • FIG. 7 is a diagram illustrating a multiview video encoding apparatus operating in an inter mode / intra mode according to an embodiment of the present invention.
  • FIG. 8 is a diagram illustrating a multiview video encoding apparatus operating in a skip mode according to an embodiment of the present invention.
  • FIG. 9 is a diagram illustrating a multiview video decoding apparatus operating in an inter mode / intra mode according to an embodiment of the present invention.
  • FIG. 10 is a diagram illustrating a multiview video decoding apparatus operating in a skip mode according to an embodiment of the present invention.
  • FIG. 1 is a diagram for describing an operation of a multiview video encoding apparatus and a multiview video encoding apparatus according to an embodiment of the present invention.
  • the multi-view video encoding apparatus 101 can remove time-to-time redundancy and inter-view redundancy more efficiently by defining new motion / disparity vectors and encoding multi-view video.
  • the multi-view video encoding apparatus 101 may encode the input video according to various encoding modes.
  • the multi-view video encoding apparatus 101 may encode an input video by using a prediction vector that indicates a prediction block most similar to the current block in a frame having a different viewpoint or a different time frame from a frame including the current block to be encoded. Can be. Accordingly, the multi-view video encoding apparatus 101 may realize higher encoding performance as the current block and the prediction block are similar.
  • the result derived according to the result of encoding the input video is transmitted to the multi-view video decoding apparatus 102 through the bitstream.
  • Multi-view video encoding apparatus 101 can improve the encoding performance of the current block by defining a spatial prediction vector, a temporal prediction vector, and a viewpoint prediction vector to be used when encoding the input video. have.
  • a motion vector (MV) or a disparity vector (DV) associated with a spatial prediction vector, a temporal prediction vector, or a viewpoint prediction vector is defined as follows.
  • the motion vector of the specific block is determined based on the prediction block indicated by the specific block in a frame different in time from the frame including the specific block.
  • the disparity vector of the specific block is determined based on the prediction block indicated by the specific block in a frame different from a frame including the specific block.
  • FIG. 2 is a block diagram illustrating a detailed configuration of a multiview video encoding apparatus according to an embodiment of the present invention.
  • the multi-view video encoding apparatus 101 may include a prediction vector extractor 201 and an index transmitter 202.
  • the prediction vector extractor 201 may extract a spatial prediction vector of the current block to be encoded.
  • the spatial prediction vector of the current block may be extracted using a frame including the current block.
  • the spatial prediction vector is a first motion vector corresponding to the left block of the current block, a second motion vector corresponding to the top block of the current block, a third motion vector corresponding to the top left block of the current block, or the current block. It may include at least one of a fourth motion vector corresponding to the upper right block of and a fifth motion vector to which a median filter is applied to the first motion vector, the second motion vector, the third motion vector, and the fourth motion vector. .
  • the spatial prediction vector includes a first disparity vector corresponding to a left block of the current block, a second disparity vector corresponding to an upper block of the current block, a third disparity vector corresponding to an upper left block of the current block, or a current And a fourth variation vector corresponding to the upper right block of the block and a fifth variation vector to which a median filter is applied to the first variation vector, the second variation vector, the third variation vector, and the fourth variation vector. have.
  • the index transmitter 202 may transmit an index for identifying the spatial prediction vector of the current block to the multi-view video decoding apparatus 102 through the bitstream.
  • the prediction vector extractor 201 may extract a temporal prediction vector of the current block to be encoded.
  • the temporal prediction vector of the current block may be extracted using a frame located at a position different in time from the frame including the current block.
  • the temporal prediction vector may include a motion vector or a disparity vector of a target block at the same position as the current block in a frame corresponding to a different time than the frame including the current block. For example, if the current block exists at the position (x, y) of frame 1, the temporal prediction vector of the current block is the motion of the target block at the position (x, y) of frame 2 which is different from the frame 1 in time. Vector or variant vectors.
  • the temporal prediction vector may include a motion vector or a disparity vector of neighboring blocks adjacent to the target block at the same position as the current block in a frame corresponding to a different time than the frame including the current block. For example, if the current block exists at position (x, y) of frame 1, the temporal prediction vector of the current block is adjacent to the target block at position (x, y) of frame 2, which is different in time from frame 1
  • the motion vector or the disparity vector of neighboring blocks may be included.
  • the neighboring blocks may include an upper block of the target block, a left block of the target block, an upper right block of the target block, or an upper left block of the target block.
  • the temporal prediction vector may include a motion vector or a disparity vector of a target block that is most similar to the current block in a frame corresponding to a time different from a frame including the current block.
  • the target block most similar to the current block refers to a block having a high association with the pixel property and position of the current block.
  • the index transmitter 202 may transmit an index for identifying the temporal prediction vector of the current block to the multi-view video decoding apparatus 102 through the bitstream.
  • the prediction vector determiner 201 may extract a prediction vector on the viewpoint of the current block to be encoded.
  • the prediction prediction vector of the current block may be extracted using a frame that is different in view from the frame including the current block.
  • the viewpoint prediction vector may include a motion vector or a disparity vector of a target block at the same position as the current block in a frame corresponding to a different viewpoint than a frame including the current block.
  • the predictive vector in view of the current block is the position of the target block at the (x, y) position of the frame 2 different from the frame 1. It may include a motion vector or a disparity vector.
  • the viewpoint prediction vector may include a motion vector or a disparity vector of neighboring blocks adjacent to a target block at the same position as the current block in a frame corresponding to a different viewpoint than a frame including the current block. For example, if the current block exists at the (x, y) position of frame 1, the predictive vector predicted in the viewpoint of the current block is located at the target block at the (x, y) position of frame 2 that is different from the frame 1 in time. It may include a motion vector or a disparity vector of adjacent neighboring blocks.
  • the neighboring blocks may include an upper block of the target block, a left block of the target block, an upper right block of the target block, or an upper left block of the target block.
  • the viewpoint prediction vector may include a motion vector or a disparity vector of a target block that is most similar to the current block in a frame corresponding to a different viewpoint than a frame including the current block.
  • the target block most similar to the current block refers to a block having a high association with the pixel property and position of the current block.
  • the index transmitter 202 may transmit an index for identifying the viewpoint prediction vector of the current block to the multiview video decoding apparatus 102 through the bitstream.
  • the prediction vector determiner 201 may extract a spatial prediction vector, a temporal prediction vector, and a spatial prediction vector of the current block to be encoded.
  • the index transmitter 202 multi-views video decoding through the bitstream an index for identifying a final prediction vector determined for encoding the current block among the spatial prediction vector, the temporal prediction vector, and the spatial prediction vector of the current block. Transmit to device 102.
  • the index transmitter 202 may consider the spatial prediction vector in consideration of at least one of a threshold value, a distance of the prediction vector, a bit amount required when compressing the prediction vector, a degree of image quality degradation, or a cost function when compressing the prediction vector.
  • an index for identifying a prediction vector having the best encoding performance among the temporal prediction vector and the spatial prediction vector may be transmitted.
  • the information included in the bitstream may vary according to the encoding mode of the current block.
  • an index for identifying a spatial prediction vector, a temporal prediction vector, or a viewpoint prediction vector is transmitted through the bitstream.
  • the index indicates a skip mode (SKIP Mode) associated with the current block.
  • the index indicates a direct skip mode included in the direct mode associated with the current block.
  • the prediction vector determined to encode the current block as well as an index for identifying a spatial prediction vector, a temporal prediction vector, or a viewpoint prediction vector.
  • the residual signal which is a difference between the prediction block indicated by the current block and the current block, may be included in the bitstream.
  • FIG. 3 is a block diagram showing a detailed configuration of a multi-view video decoding apparatus according to an embodiment of the present invention.
  • the multiview video decoding apparatus 102 may include an index extractor 301 and a predictor vector determiner 302.
  • the index extractor 301 may extract the index of the prediction vector from the bitstream received by the multiview video encoding apparatus 101. Then, the prediction vector determiner 302 may determine the spatial prediction vector as the final prediction vector for reconstructing the current block based on the index.
  • the spatial prediction vector is a first motion vector corresponding to the left block of the current block, a second motion vector corresponding to the top block of the current block, a third motion vector corresponding to the top left block of the current block, or the current block. It may include at least one of a fourth motion vector corresponding to the upper right block of and a fifth motion vector to which a median filter is applied to the first motion vector, the second motion vector, the third motion vector, and the fourth motion vector. .
  • the spatial prediction vector includes a first disparity vector corresponding to a left block of the current block, a second disparity vector corresponding to an upper block of the current block, a third disparity vector corresponding to an upper left block of the current block, or a current And a fourth variation vector corresponding to the upper right block of the block and a fifth variation vector to which a median filter is applied to the first variation vector, the second variation vector, the third variation vector, and the fourth variation vector. have.
  • the index extractor 301 may extract the index of the prediction vector from the bitstream received by the multiview video encoding apparatus 101. Then, the prediction vector determiner 302 may determine the temporal prediction vector as the final prediction vector for reconstructing the current block based on the index.
  • the temporal prediction vector may include a motion vector or a disparity vector of a target block at the same position as the current block in a frame corresponding to a different time than the frame including the current block. For example, if the current block exists at the position (x, y) of frame 1, the temporal prediction vector of the current block is the motion of the target block at the position (x, y) of frame 2 which is different from the frame 1 in time. Vector or variant vectors.
  • the temporal prediction vector may include a motion vector or a disparity vector of neighboring blocks adjacent to the target block at the same position as the current block in a frame corresponding to a different time than the frame including the current block. For example, if the current block exists at position (x, y) of frame 1, the temporal prediction vector of the current block is adjacent to the target block at position (x, y) of frame 2, which is different in time from frame 1
  • the motion vector or the disparity vector of neighboring blocks may be included.
  • the neighboring blocks may include an upper block of the target block, a left block of the target block, an upper right block of the target block, or an upper left block of the target block.
  • the temporal prediction vector may include a motion vector or a disparity vector of a target block that is most similar to the current block in a frame corresponding to a time different from a frame including the current block.
  • the target block most similar to the current block refers to a block having a high association with the pixel property and position of the current block.
  • the index extractor 301 may extract the index of the prediction vector from the bitstream received by the multiview video encoding apparatus 101. Then, the prediction vector determiner 302 may determine the viewpoint prediction vector as the final prediction vector for reconstructing the current block based on the index.
  • the viewpoint prediction vector may include a motion vector or a disparity vector of a target block at the same position as the current block in a frame corresponding to a different viewpoint than a frame including the current block.
  • the predictive vector in view of the current block is the position of the target block at the (x, y) position of the frame 2 different from the frame 1. It may include a motion vector or a disparity vector.
  • the viewpoint prediction vector may include a motion vector or a disparity vector of neighboring blocks adjacent to a target block at the same position as the current block in a frame corresponding to a different viewpoint than a frame including the current block. For example, if the current block exists at the (x, y) position of frame 1, the predictive vector predicted in the viewpoint of the current block is located at the target block at the (x, y) position of frame 2 that is different from the frame 1 in time. It may include a motion vector or a disparity vector of adjacent neighboring blocks.
  • the neighboring blocks may include an upper block of the target block, a left block of the target block, an upper right block of the target block, or an upper left block of the target block.
  • the viewpoint prediction vector may include a motion vector or a disparity vector of a target block that is most similar to the current block in a frame corresponding to a different viewpoint than a frame including the current block.
  • the target block most similar to the current block refers to a block having a high association with the pixel property and position of the current block.
  • the index extractor 301 may extract the index of the prediction vector from the bitstream received by the multiview video encoding apparatus. Then, the prediction vector determiner 302 may determine a final prediction vector for reconstructing the current block among the spatial prediction vector, the temporal prediction vector, and the viewpoint prediction vector based on the index.
  • the index transmitter 202 may consider the spatial prediction vector in consideration of at least one of a threshold value, a distance of the prediction vector, a bit amount required when compressing the prediction vector, a degree of image quality degradation, or a cost function when compressing the prediction vector.
  • an index for identifying a prediction vector having the best encoding performance among the temporal prediction vector and the spatial prediction vector may be transmitted.
  • the spatial prediction vector, the temporal prediction vector, and the viewpoint prediction vector will be described in detail with reference to FIG. 6.
  • FIG. 4 is a diagram illustrating a structure of a multiview video according to an embodiment of the present invention.
  • a multiview video coding method of encoding a GOP (Group of Picture) '8' is shown.
  • a hierarchical B picture is basically applied to a temporal axis and a view axis, thereby reducing redundancy between pictures.
  • the multiview video encoding apparatus 101 first encodes a left picture (I-view), and then a right picture (P-view) and a center picture (Center).
  • the picture corresponding to three viewpoints can be encoded by encoding Picture: B-view) in order.
  • the frame and the picture may be used in the same concept.
  • the left picture may be encoded in such a manner that temporal redundancy is removed by searching for a similar region from previous pictures through motion estimation.
  • the right picture since the right picture is encoded by using the previously encoded left picture as a reference picture, the right picture may be encoded in such a manner that temporal redundancy based on motion estimation and view redundancy based on disparity estimation are removed. have.
  • the center picture since the center picture is encoded by using both the left picture and the right picture that are already encoded as the reference picture, the inter-view redundancy may be removed according to the shift estimation in both directions.
  • a picture that is encoded without using a reference picture of another view is unidirectionally predicted and encoded by a reference picture of another view, such as an I-View and a right picture.
  • a picture is defined as a B-View that predicts and encodes a reference picture of left and right views in both directions, such as a P-View and a center picture.
  • Frames of MVC are largely classified into six groups according to the prediction structure.
  • the six groups include an I-view anchor frame for intra coding, an I-view non-anchor frame for inter-time inter-coding, a P-view anchor frame for inter-view unidirectional inter coding, and a unidirectional inter-coding between views.
  • FIG. 5 is a diagram illustrating an example of a reference picture used for encoding a current block according to an embodiment of the present invention.
  • the multi-view video encoding apparatus 101 When the multi-view video encoding apparatus 101 encodes a current block located in a current frame that is the current picture 501, reference pictures 502 and 503 located in time around the current frame and a reference picture 504 located in the viewpoint around the current frame , 505).
  • the multi-view video encoding apparatus 101 may search the prediction blocks most similar to the current blocks in the reference pictures 502 ⁇ 505 to encode a residual signal between the current block and the prediction block.
  • the multi-view video encoding apparatus 101 may use the Ref1 picture 502 and the Ref2 picture 503 that are different in time from the current frame including the current block to search for the prediction block based on the motion vector.
  • the Ref3 picture 504 and the Ref4 picture 505 having different viewpoints from the current frame including the current block may be used to search for the prediction block based on the disparity vector.
  • FIG. 6 is a diagram illustrating types of prediction vectors corresponding to current blocks according to an embodiment of the present invention.
  • the multi-view video encoding apparatus 101 may encode a multi-view video through the following process.
  • the following process may be applied to Embodiment 4 of FIGS. 2 and 3, and in Embodiments 1 to 3, a process of calculating encoding performance to select one of a motion vector or a disparity vector to be used for competition may be performed. Can be omitted.
  • the multi-view video encoding apparatus 101 selects a prediction vector having the best encoding performance among a prediction vector corresponding to a current block, that is, a spatial prediction vector, a temporal prediction vector, and a viewpoint prediction vector.
  • the current block can be encoded. That is, the multi-view video encoding apparatus 101 may select the prediction vector having the best encoding performance based on the competition between the prediction vectors.
  • the prediction vectors may be classified into three groups: a spatial prediction vector, a temporal prediction vector, and a viewpoint prediction vector.
  • the prediction vector shown in FIG. 6 may be classified into three groups as shown in Table 1 below.
  • the spatial vector means a motion vector or a disparity vector corresponding to at least one neighboring block adjacent to the current block to be encoded.
  • the spatial prediction vector corresponds to the first motion vector mv a corresponding to the left block of the current block, the second motion vector mv b corresponding to the top block of the current block, and the upper left block of the current block.
  • the filter may include at least one of the fifth motion vectors mv med to which the filter is applied.
  • the spatial prediction vector corresponds to the first disparity vector dv a corresponding to the left block of the current block, the second disparity vector dv b corresponding to the upper block of the current block, and the upper left block of the current block.
  • Median filter on a third variation vector dv d or a fourth variation vector dv c corresponding to the upper right block of the current block and a first variation vector, a second variation vector, a third variation vector, and a fourth variation vector. May include at least one of the fifth variation vectors dv med applied.
  • the temporal prediction vector may be determined based on a previous frame N-1 located earlier than the current frame N that includes the current block to be encoded.
  • the temporal prediction vector is a target block at the same position (x, y) as the current block in a previous frame (Frame N-1) located at a time earlier than the current frame (Frame N) including the current block to be encoded.
  • Motion vector mv col1 or disparity vector dv col1 are a target block at the same position (x, y) as the current block in a previous frame (Frame N-1) located at a time earlier than the current frame (Frame N) including the current block to be encoded.
  • the temporal prediction vector includes a motion vector mv col2 or a disparity vector dv col2 of at least one neighboring block adjacent to a target block at the same position as the current block in a previous frame.
  • the neighboring blocks may include a left block, an upper left block, an upper block, and an upper right block of the target block.
  • the temporal prediction vector may include a motion vector mv tcor or a disparity vector dv tcor of the target block most similar to the current block in the previous frame.
  • the predictive vector in view may be determined based on a neighboring frame (Inter-view Frame) indicating a different view from the current frame (Frame N) including the current block to be encapsulated.
  • Inter-view Frame a neighboring frame indicating a different view from the current frame (Frame N) including the current block to be encapsulated.
  • the viewpoint prediction vector may be a motion vector (mv gdv1 ) or a disparity vector (dv gdv1 ) of a target block located at the same position as the current block in a neighboring frame corresponding to a different viewpoint than a current frame including a current block to be encoded . It may include.
  • the viewpoint prediction vector may be a motion vector (mv gdv2 ) of neighboring blocks adjacent to a target block at the same position as the current block in a neighboring frame corresponding to a different viewpoint than a current frame including a current block to be encoded or It may include a disparity vector (dv gdv2 ).
  • the predictive vector may be a motion vector (mv vcor ) or a disparity vector (dv vcor ) of a target block that is most similar to the current block in a neighboring frame corresponding to a different viewpoint than a current frame including a current block to be encoded. It may include.
  • the motion vector is a vector indicating a specific block (target block or neighboring blocks adjacent to the target block) included in a previous frame indicating the same time point or a different time as the current frame including the current block.
  • the previous frame means a reference picture of the current block.
  • the disparity vector refers to a vector indicating a specific block (a target block or neighboring blocks adjacent to a target block) included in a neighboring frame indicating a different time or the same time as the current frame including the current block.
  • the neighboring frame means a reference picture of the current block.
  • the multi-view video encoding apparatus may extract at least one of a spatial prediction vector, a temporal prediction vector, or a viewpoint prediction vector with respect to a current block to be encoded.
  • the multiview video encoding apparatus may determine a prediction vector to be used when finally encoding through a competition process between the prediction vectors. You can choose.
  • the multi-view video encoding apparatus 101 may extract a prediction vector having the best encoding performance from the extracted prediction vectors.
  • the prediction vector determiner 202 may include (1) a threshold value, (2) a distance between a final determined motion / disparity vector and a prediction vector, (3) a degree of bit quantity and image quality deterioration necessary when encoded with a prediction vector, or ( 4)
  • the prediction vector having the best encoding performance may be determined by considering at least one of the cost functions when the prediction vector is encoded.
  • the cost function may be determined according to Equation 1 below.
  • the sum of square difference is a squared difference value between the current block s and the prediction block r based on the prediction vector
  • is a Lagrangian coefficient
  • R is the number of bits required when encoding a signal obtained by the difference between a current frame to be encoded in a coding mode and a reference frame derived through motion prediction or disparity prediction.
  • R also includes index bits indicating the types of prediction vectors.
  • Index bits may be defined as shown in Table 2 below. If the candidates of the spatial, temporal and viewpoint prediction vectors are all the same, the multiview video encoding apparatus 101 may not transmit the index bit to the multiview video decoding apparatus 102.
  • FIG. 7 is a diagram illustrating a multiview video encoding apparatus operating in an inter mode / intra mode according to an embodiment of the present invention.
  • inter mode / intra mode means encoding a residual signal that is a difference between a current block to be encoded and a prediction block indicated by a motion vector extracted through motion prediction.
  • the inter mode means that the prediction block is located in a different frame from the current block
  • the intra mode means that the current block and the prediction block are located in the same frame.
  • the spatial prediction vector may be used when encoding in the intra mode
  • the temporal prediction vector and the viewpoint prediction vector may be used when encoding in the inter mode.
  • the multi-view video encoding apparatus 101 may extract a prediction vector corresponding to the current block to be encoded.
  • the prediction vector may include at least one of a spatial prediction vector, a temporal prediction vector, and a viewpoint prediction vector.
  • the multiview video encoding apparatus 101 may encode the input image using the final prediction vectors extracted based on the competition between the prediction vectors. In detail, the multi-view video encoding apparatus 101 selects a prediction vector having the best encoding performance among a spatial prediction vector, a temporal prediction vector, and a viewpoint prediction vector to select a final prediction vector for encoding a current frame to be encoded. You can decide. Then, the multi-view video encoding apparatus 101 encodes the current block based on the reference frame indicated by the prediction vector.
  • the multiview video encoding apparatus 101 transmits the bitstream of the multiview video to the multiview video decoding apparatus 102 as a result of encoding.
  • the multiview video encoding apparatus 101 may also transmit an index bit indicating a type of a prediction vector used when encoding the multiview video to the multiview video decoding apparatus 102 through a bitstream.
  • FIG. 8 is a diagram illustrating a multiview video encoding apparatus operating in a skip mode according to an embodiment of the present invention.
  • the multiview video encoding apparatus 101 of FIG. 8 does not encode a residual signal when compared with the multiview video encoding apparatus of FIG. 7. That is, the multi-view video encoding apparatus 101 of FIG. 8 does not encode a residual signal that is a difference between a prediction block derived through motion prediction or disparity prediction for the current block and the current block. Instead, the multi-view video encoding apparatus 101 may include information (index bits) indicating that the current block is encoded according to the skip mode and transmit the information to the multi-view video decoding apparatus 102.
  • FIG. 9 is a diagram illustrating a multiview video decoding apparatus operating in an inter mode / intra mode according to an embodiment of the present invention.
  • the bitstream transmitted through the multiview video encoding apparatus 101 may include encoding information of a block to be reconstructed and a residual signal of the block.
  • the multiview video decoding apparatus 102 may extract a prediction vector associated with the current block.
  • the prediction vector associated with the current block may be determined as index bits included in the bitstream.
  • the multi-view video decoding apparatus 102 may generate the predictive video by motion compensation or disparity compensation of the current block based on the predictive vector, and generate the final output video by combining with the residual signal included in the bitstream.
  • the prediction vector may be any one of a spatial prediction vector, a temporal prediction vector, or a viewpoint prediction vector.
  • FIG. 10 is a diagram illustrating a multiview video decoding apparatus operating in a skip mode according to an embodiment of the present invention.
  • the multi-view video decoding apparatus 102 may generate the predictive video by performing motion compensation or disparity compensation based on the prediction vector associated with the current block to be reconstructed.
  • the prediction vector may be determined according to the index bits of the current block included in the bitstream.
  • the prediction video generated by the multi-view video decoding apparatus 102 may be an output video as it is.
  • Methods according to an embodiment of the present invention can be implemented in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • Program instructions recorded on the media may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

Disclosed are a competition-based multiview video encoding/decoding device and a method thereof. The competition-based multiview video encoding/decoding device can improve encoding efficiency by determining a prediction vector with the best encoding performance through an extraction of a spatial prediction vector, a time prediction vector, and a viewpoint prediction vector corresponding to a current block.

Description

경쟁 기반의 다시점 비디오 부호화/복호화 장치 및 방법Apparatus and method for contention-based multiview video encoding / decoding
본 발명의 일실시예들은 다시점 비디오 부호화/복호화 장치 및 방법에 관한 것으로, 공간적 예측 벡터, 시간축 예측 벡터 또는 시점축 예측 벡터를 이용하여 현재 블록을 부호화/복호화하는 장치 및 방법에 관한 것이다.One embodiment of the present invention relates to an apparatus and method for multi-view video encoding / decoding, and to an apparatus and method for encoding / decoding a current block using a spatial prediction vector, a time-base prediction vector, or a view-axis prediction vector.
입체 영상이란 깊이 및 공간에 대한 형상 정보를 동시에 제공하는 3차원 영상을 의미한다. 스테레오 영상의 경우, 좌우 눈에 각각 다른 시점의 영상을 제공하는 반면에, 입체 영상은 관찰자가 보는 시점을 달리할 때마다 다른 방향에서 본 것과 같은 영상을 제공한다. 따라서, 입체 영상을 생성하기 위해서는 여러 시점에서 촬영한 영상들이 필요하다. The stereoscopic image refers to a 3D image that simultaneously provides shape information about depth and space. In the case of stereo images, images of different viewpoints are provided to the left and right eyes, whereas stereoscopic images provide the same images as viewed from different directions whenever the viewer views different views. Therefore, in order to generate a stereoscopic image, images captured at various viewpoints are required.
입체 영상을 생성하기 위해 여러 시점에서 찍은 영상들은 데이터량이 방대하다. 따라서, 입체 영상을 위해 네트워크 인프라, 지상파 대역폭 등을 고려하면 MPEG-2와 H.264/AVC, HEVC와 같은 단일시점 비디오 압축(Single-View Video Coding)에 최적화된 부호화 장치를 사용하여 압축더라도 실현이 거의 불가능하다.Images taken from various viewpoints to generate stereoscopic images have a large amount of data. Therefore, considering the network infrastructure and terrestrial bandwidth for stereoscopic video, it is possible to achieve compression even using encoding devices optimized for Single-View Video Coding such as MPEG-2, H.264 / AVC, and HEVC. This is almost impossible.
다만, 관찰자가 보는 시점마다 찍은 영상들은 서로 관련성이 있기 때문에 중복되는 정보가 많다. 따라서, 시점간 중복성을 제거할 수 있는 다시점 영상에 최적화된 부호화 장치를 이용하면 보다 적은 양의 데이터를 전송할 수 있다. However, since images taken at each viewpoint viewed by the observer are related to each other, there is a lot of overlapping information. Accordingly, a smaller amount of data may be transmitted by using an encoding apparatus optimized for a multiview image capable of removing inter-view redundancy.
따라서, 입체 영상을 생성하기 위해 최적화된 다시점 영상 부호화 장치가 요구된다. 특히, 시간 및 시점 간의 중복성을 효율적으로 감소시키기 위한 기술 개발이 필요하다.Therefore, a multi-view image encoding apparatus optimized for generating a stereoscopic image is required. In particular, there is a need for technology development to efficiently reduce redundancy between time and time points.
본 발명의 제1 실시예에 따른 다시점 비디오 부호화 장치는 부호화하고자 하는 현재 블록의 공간상 예측 벡터를 추출하는 예측 벡터 추출부; 및 상기 현재 블록의 공간상 예측 벡터를 식별하기 위한 인덱스를 비트스트림을 통해 다시점 비디오 복호화 장치에 전송하는 인덱스 전송부를 포함할 수 있다.A multiview video encoding apparatus according to a first embodiment of the present invention includes a prediction vector extracting unit which extracts a spatial prediction vector of a current block to be encoded; And an index transmitter for transmitting an index for identifying a spatial prediction vector of the current block to a multi-view video decoding apparatus through a bitstream.
본 발명의 제2 실시예에 따른 다시점 비디오 부호화 장치는 부호화하고자 하는 현재 블록의 시간상 예측 벡터를 추출하는 예측 벡터 추출부; 및 상기 현재 블록의 시간상 예측 벡터를 식별하기 위한 인덱스를 비트스트림을 통해 다시점 비디오 복호화 장치에 전송하는 인덱스 전송부를 포함할 수 있다.A multiview video encoding apparatus according to a second embodiment of the present invention includes a prediction vector extracting unit which extracts a temporal prediction vector of a current block to be encoded; And an index transmitter for transmitting an index for identifying a temporal prediction vector of the current block to a multiview video decoding apparatus through a bitstream.
본 발명의 제3 실시예에 따른 다시점 비디오 부호화 장치는 부호화하고자 하는 현재 블록의 시점상 예측 벡터를 추출하는 예측 벡터 추출부; 및 상기 현재 블록의 시점상 예측 벡터를 식별하기 위한 인덱스를 비트스트림을 통해 다시점 비디오 복호화 장치에 전송하는 인덱스 전송부를 포함할 수 있다.A multi-view video encoding apparatus according to a third embodiment of the present invention includes a prediction vector extracting unit for extracting a viewpoint prediction vector of a current block to be encoded; And an index transmitter for transmitting an index for identifying the viewpoint prediction vector of the current block to a multiview video decoding apparatus through a bitstream.
본 발명의 제4 실시예에 따른 다시점 비디오 부호화 장치는 부호화하고자 하는 현재 블록의 공간상 예측 벡터, 시간상 예측 벡터 및 공간상 예측 벡터를 추출하는 예측 벡터 추출부; 및 상기 공간상 예측 벡터, 시간상 예측 벡터 및 공간상 예측 벡터 중 현재 블록을 부호화할 때 사용한 예측 벡터를 식별하는 인덱스를 비트스트림을 통해 다시점 비디오 복호화 장치에 전송하는 인덱스 전송부를 포함할 수 있다.A multiview video encoding apparatus according to a fourth embodiment of the present invention includes a prediction vector extracting unit which extracts a spatial prediction vector, a temporal prediction vector, and a spatial prediction vector of a current block to be encoded; And an index transmitter for transmitting an index for identifying a prediction vector used to encode a current block among the spatial prediction vector, the temporal prediction vector, and the spatial prediction vector to a multi-view video decoding apparatus through a bitstream.
본 발명의 제1 실시예에 따른 다시점 비디오 복호화 장치는 다시점 비디오 부호화 장치에서 수신한 비트스트림으로부터 예측 벡터의 인덱스를 추출하는 인덱스 추출부; 및 상기 인덱스에 기초하여 공간상 예측 벡터를 현재 블록을 복원하기 위한 최종 예측 벡터로 결정하는 예측 벡터 결정부를 포함할 수 있다.A multiview video decoding apparatus according to a first embodiment of the present invention includes an index extractor which extracts an index of a prediction vector from a bitstream received by a multiview video encoding apparatus; And a prediction vector determiner that determines a spatial prediction vector as a final prediction vector for reconstructing a current block based on the index.
본 발명의 제2 실시예에 따른 다시점 비디오 복호화 장치는 다시점 비디오 부호화 장치에서 수신한 비트스트림으로부터 예측 벡터의 인덱스를 추출하는 인덱스 추출부; 및 상기 인덱스에 기초하여 시간상 예측 벡터를 현재 블록을 복원하기 위한 최종 예측 벡터로 결정하는 예측 벡터 결정부를 포함할 수 있다.A multiview video decoding apparatus according to a second embodiment of the present invention includes an index extractor which extracts an index of a prediction vector from a bitstream received by a multiview video encoding apparatus; And a prediction vector determiner that determines a temporal prediction vector as a final prediction vector for reconstructing a current block based on the index.
본 발명의 제3 실시예에 따른 다시점 비디오 복호화 장치는 다시점 비디오 부호화 장치에서 수신한 비트스트림으로부터 예측 벡터의 인덱스를 추출하는 인덱스 추출부; 및 상기 인덱스에 기초하여 시점상 예측 벡터를 현재 블록을 복원하기 위한 최종 예측 벡터로 결정하는 예측 벡터 결정부를 포함할 수 있다.A multiview video decoding apparatus according to a third embodiment of the present invention includes an index extractor which extracts an index of a prediction vector from a bitstream received by a multiview video encoding apparatus; And a prediction vector determiner that determines a viewpoint prediction vector as a final prediction vector for reconstructing a current block based on the index.
본 발명의 제4 실시예에 따른 다시점 비디오 복호화 장치는 다시점 비디오 부호화 장치에서 수신한 비트스트림으로부터 예측 벡터의 인덱스를 추출하는 인덱스 추출부; 및 상기 인덱스에 기초하여 공간상 예측 벡터, 시간상 예측 벡터 및 시점상 예측 벡터 중 현재 블록을 복원하기 위한 최종 예측 벡터를 결정하는 예측 벡터 결정부를 포함할 수 있다.A multiview video decoding apparatus according to a fourth embodiment of the present invention includes an index extractor which extracts an index of a prediction vector from a bitstream received by a multiview video encoding apparatus; And a prediction vector determiner configured to determine a final prediction vector for reconstructing a current block among a spatial prediction vector, a temporal prediction vector, and a viewpoint prediction vector based on the index.
본 발명의 제1 실시예에 따른 다시점 비디오 부호화 방법은 부호화하고자 하는 현재 블록의 공간상 예측 벡터를 추출하는 단계; 및 상기 현재 블록의 시간상 예측 벡터를 식별하기 위한 인덱스를 비트스트림을 통해 다시점 비디오 복호화 장치에 전송하는 단계를 포함할 수 있다.The multi-view video encoding method according to the first embodiment of the present invention comprises the steps of: extracting a spatial prediction vector of a current block to be encoded; And transmitting an index for identifying a temporal prediction vector of the current block to a multi-view video decoding apparatus through a bitstream.
본 발명의 제2 실시예에 따른 다시점 비디오 부호화 방법은 부호화하고자 하는 현재 블록의 시간상 예측 벡터를 추출하는 단계; 및 상기 현재 블록의 시간상 예측 벡터를 식별하기 위한 인덱스를 비트스트림을 통해 다시점 비디오 복호화 장치에 전송하는 단계를 포함할 수 있다.The multi-view video encoding method according to the second embodiment of the present invention comprises the steps of: extracting a temporal prediction vector of a current block to be encoded; And transmitting an index for identifying a temporal prediction vector of the current block to a multi-view video decoding apparatus through a bitstream.
본 발명의 제3 실시예에 따른 다시점 비디오 부호화 방법은 부호화하고자 하는 현재 블록의 시점상 예측 벡터를 추출하는 단계; 및 상기 현재 블록의 시점상 예측 벡터를 식별하기 위한 인덱스를 비트스트림을 통해 다시점 비디오 복호화 장치에 전송하는 단계를 포함할 수 있다.The multi-view video encoding method according to the third embodiment of the present invention comprises the steps of: extracting a viewpoint prediction vector of a current block to be encoded; And transmitting an index for identifying the viewpoint prediction vector of the current block to a multiview video decoding apparatus through a bitstream.
본 발명의 제4 실시예에 따른 다시점 비디오 부호화 방법은 부호화하고자 하는 현재 블록의 공간상 예측 벡터, 시간상 예측 벡터 및 공간상 예측 벡터를 추출하는 단계; 및 상기 공간상 예측 벡터, 시간상 예측 벡터 및 공간상 예측 벡터 중 현재 블록을 부호화할 때 사용한 예측 벡터를 식별하는 인덱스를 비트스트림을 통해 다시점 비디오 복호화 장치에 전송하는 단계를 포함할 수 있다.A multi-view video encoding method according to a fourth embodiment of the present invention includes extracting a spatial prediction vector, a temporal prediction vector, and a spatial prediction vector of a current block to be encoded; And transmitting an index for identifying a prediction vector used to encode a current block among the spatial prediction vector, the temporal prediction vector, and the spatial prediction vector to a multi-view video decoding apparatus through a bitstream.
본 발명의 제1 실시예에 따른 다시점 비디오 복호화 방법은 다시점 비디오 부호화 장치에서 수신한 비트스트림으로부터 예측 벡터의 인덱스를 추출하는 단계; 및 상기 인덱스에 기초하여 공간상 예측 벡터를 현재 블록을 복원하기 위한 최종 예측 벡터로 결정하는 단계를 포함할 수 있다.A multiview video decoding method according to a first embodiment of the present invention includes extracting an index of a prediction vector from a bitstream received by a multiview video encoding apparatus; And determining the spatial prediction vector as the final prediction vector for reconstructing the current block based on the index.
본 발명의 제2 실시예에 따른 다시점 비디오 복호화 방법은 다시점 비디오 부호화 장치에서 수신한 비트스트림으로부터 예측 벡터의 인덱스를 추출하는 단계; 및 상기 인덱스에 기초하여 시간상 예측 벡터를 현재 블록을 복원하기 위한 최종 예측 벡터로 결정하는 단계를 포함할 수 있다.A multiview video decoding method according to a second embodiment of the present invention includes extracting an index of a prediction vector from a bitstream received by a multiview video encoding apparatus; And determining the temporal prediction vector as the final prediction vector for reconstructing the current block based on the index.
본 발명의 제3 실시예에 따른 다시점 비디오 복호화 방법은 다시점 비디오 부호화 장치에서 수신한 비트스트림으로부터 예측 벡터의 인덱스를 추출하는 단계; 및 상기 인덱스에 기초하여 시점상 예측 벡터를 현재 블록을 복원하기 위한 최종 예측 벡터로 결정하는 단계를 포함할 수 있다.A multiview video decoding method according to a third embodiment of the present invention includes extracting an index of a prediction vector from a bitstream received by a multiview video encoding apparatus; And determining the viewpoint prediction vector as the final prediction vector for reconstructing the current block based on the index.
본 발명의 제4 실시예에 따른 다시점 비디오 복호화 방법은 다시점 비디오 부호화 장치에서 수신한 비트스트림으로부터 예측 벡터의 인덱스를 추출하는 단계; 및 상기 인덱스에 기초하여 공간상 예측 벡터, 시간상 예측 벡터 및 시점상 예측 벡터 중 현재 블록을 복원하기 위한 최종 예측 벡터를 결정하는 단계를 포함할 수 있다.A multiview video decoding method according to a fourth embodiment of the present invention includes extracting an index of a prediction vector from a bitstream received by a multiview video encoding apparatus; And determining a final prediction vector for reconstructing a current block among a spatial prediction vector, a temporal prediction vector, and a viewpoint prediction vector based on the index.
본 발명의 일실시예에 따르면, 부호화하고자 하는 현재 블록에 대해 공간상, 시간상 및 시점상 예측 벡터의 후보를 선택하여 압축 성능이 가장 좋은 예측 벡터를 결정한 후, 결정된 예측 벡터를 이용하여 현재 블록을 부호화함으로써 부호화 효율을 향상시킬 수 있다.According to an embodiment of the present invention, after selecting candidates of spatial, temporal, and viewpoint prediction vectors for the current block to be encoded, the prediction vector having the best compression performance is determined, and then the current block is determined using the determined prediction vector. By encoding, coding efficiency can be improved.
도 1은 본 발명의 일실시예에 따른 다시점 비디오 부호화 장치와 다시점 비디오 부호화 장치의 동작을 설명하기 위한 도면이다.1 is a diagram for describing an operation of a multiview video encoding apparatus and a multiview video encoding apparatus according to an embodiment of the present invention.
도 2는 본 발명의 일실시예에 따른 다시점 비디오 부호화 장치의 세부 구성을 도시한 블록 다이어그램이다.2 is a block diagram illustrating a detailed configuration of a multiview video encoding apparatus according to an embodiment of the present invention.
도 3은 본 발명의 일실시예에 따른 다시점 비디오 복호화 장치의 세부 구성을 도시한 블록 다이어그램이다.3 is a block diagram showing a detailed configuration of a multi-view video decoding apparatus according to an embodiment of the present invention.
도 4는 본 발명의 일실시예에 따른 다시점 비디오의 구조를 도시한 도면이다.4 is a diagram illustrating a structure of a multiview video according to an embodiment of the present invention.
도 5는 본 발명의 일실시예에 따른 현재 블록을 부호화하기 위해 사용되는 참조 영상의 예시를 도시한 도면이다.5 is a diagram illustrating an example of a reference picture used to encode a current block according to an embodiment of the present invention.
도 6은 본 발명의 일실시예에 따라 현재 블록에 대응하는 예측 벡터의 종류를 도시한 도면이다.FIG. 6 is a diagram illustrating types of prediction vectors corresponding to current blocks according to an embodiment of the present invention.
도 7은 본 발명의 일실시예에 따라 인터 모드/인트라 모드로 동작하는 다시점 비디오 부호화 장치를 도시한 도면이다.7 is a diagram illustrating a multiview video encoding apparatus operating in an inter mode / intra mode according to an embodiment of the present invention.
도 8은 본 발명의 일실시예에 따라 스킵 모드로 동작하는 다시점 비디오 부호화 장치를 도시한 도면이다.8 is a diagram illustrating a multiview video encoding apparatus operating in a skip mode according to an embodiment of the present invention.
도 9는 본 발명의 일실시예에 따라 인터 모드/인트라 모드로 동작하는 다시점 비디오 복호화 장치를 도시한 도면이다.9 is a diagram illustrating a multiview video decoding apparatus operating in an inter mode / intra mode according to an embodiment of the present invention.
도 10은 본 발명의 일실시예에 따라 스킵 모드로 동작하는 다시점 비디오 복호화 장치를 도시한 도면이다.10 is a diagram illustrating a multiview video decoding apparatus operating in a skip mode according to an embodiment of the present invention.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 일실시예에 따른 다시점 비디오 부호화 장치와 다시점 비디오 부호화 장치의 동작을 설명하기 위한 도면이다.1 is a diagram for describing an operation of a multiview video encoding apparatus and a multiview video encoding apparatus according to an embodiment of the present invention.
본 발명의 일실시예에 따른 다시점 비디오 부호화 장치(101)는 새로운 움직임/변이 벡터 들을 정의하여 다시점 비디오를 부호화함으로써 보다 효율적으로 시간간 중복성 및 시점간 중복성을 제거할 수 있다.The multi-view video encoding apparatus 101 according to an embodiment of the present invention can remove time-to-time redundancy and inter-view redundancy more efficiently by defining new motion / disparity vectors and encoding multi-view video.
다시점 비디오 부호화 장치(101)는 다양한 부호화 모드에 따라 입력 비디오를 부호화할 수 있다. 여기서, 다시점 비디오 부호화 장치(101)는 부호화하고자 하는 현재 블록이 포함된 프레임과 시점이 다른 프레임 또는 시간이 다른 프레임에서 현재 블록과 가장 유사한 예측 블록을 가리키는 예측 벡터를 이용하여 입력 비디오를 부호화할 수 있다. 따라서, 다시점 비디오 부호화 장치(101)는 현재 블록과 예측 블록이 비슷할수록 높은 부호화 성능을 실현할 수 있다. 입력 비디오를 부호화한 결과에 따라 도출된 결과는 비트스트림을 통해 다시점 비디오 복호화 장치(102)에 전송된다.The multi-view video encoding apparatus 101 may encode the input video according to various encoding modes. Here, the multi-view video encoding apparatus 101 may encode an input video by using a prediction vector that indicates a prediction block most similar to the current block in a frame having a different viewpoint or a different time frame from a frame including the current block to be encoded. Can be. Accordingly, the multi-view video encoding apparatus 101 may realize higher encoding performance as the current block and the prediction block are similar. The result derived according to the result of encoding the input video is transmitted to the multi-view video decoding apparatus 102 through the bitstream.
본 발명의 일실시예에 따른 다시점 비디오 부호화 장치(101)는 입력 비디오를 부호화할 때 사용할 공간상 예측 벡터, 시간상 예측 벡터, 및 시점상 예측 벡터를 정의함으로써 현재 블록의 부호화 성능을 향상시킬 수 있다.Multi-view video encoding apparatus 101 according to an embodiment of the present invention can improve the encoding performance of the current block by defining a spatial prediction vector, a temporal prediction vector, and a viewpoint prediction vector to be used when encoding the input video. have.
이하에서, 공간상 예측 벡터, 시간상 예측 벡터 또는 시점상 예측 벡터와 관련된 움직임 벡터(Motion Vector: MV) 또는 변이 벡터(Disparity Vector: DV)는 다음과 같이 정의된다. 특정 블록의 움직임 벡터는 특정 블록이 포함된 프레임과 시간이 다른 프레임에서 특정 블록이 가리키는 예측 블록에 기초하여 결정된다. 또한, 특정 블록의 변이 벡터는 특정 블록이 포함된 프레임과 시점이 다른 프레임에서 특정 블록이 가리키는 예측 블록에 기초하여 결정된다.Hereinafter, a motion vector (MV) or a disparity vector (DV) associated with a spatial prediction vector, a temporal prediction vector, or a viewpoint prediction vector is defined as follows. The motion vector of the specific block is determined based on the prediction block indicated by the specific block in a frame different in time from the frame including the specific block. In addition, the disparity vector of the specific block is determined based on the prediction block indicated by the specific block in a frame different from a frame including the specific block.
도 2는 본 발명의 일실시예에 따른 다시점 비디오 부호화 장치의 세부 구성을 도시한 블록 다이어그램이다.2 is a block diagram illustrating a detailed configuration of a multiview video encoding apparatus according to an embodiment of the present invention.
도 2를 참고하면, 다시점 비디오 부호화 장치(101)는 예측 벡터 추출부(201), 및 인덱스 전송부(202)를 포함할 수 있다.Referring to FIG. 2, the multi-view video encoding apparatus 101 may include a prediction vector extractor 201 and an index transmitter 202.
이하에서는, 4가지의 실시예에 따라 동작하는 다시점 비디오 부호화 장치(101)에 대해서 설명하도록 하겠다. Hereinafter, a multi-view video encoding apparatus 101 operating according to four embodiments will be described.
<실시예 1><Example 1>
예측 벡터 추출부(201)는 부호화하고자 하는 현재 블록의 공간상 예측 벡터를 추출할 수 있다. 여기서, 현재 블록의 공간상 예측 벡터는 현재 블록이 포함된 프레임을 이용하여 추출될 수 있다.The prediction vector extractor 201 may extract a spatial prediction vector of the current block to be encoded. Here, the spatial prediction vector of the current block may be extracted using a frame including the current block.
일례로, 공간상 예측 벡터는 현재 블록의 좌측 블록에 대응하는 제1 움직임 벡터, 현재 블록의 상단 블록에 대응하는 제2 움직임 벡터, 현재 블록의 좌측 상단 블록에 대응하는 제3 움직임 벡터 또는 현재 블록의 우측 상단 블록에 대응하는 제4 움직임 벡터 및 상기 제1 움직임 벡터, 제2 움직임 벡터, 제3 움직임 벡터 및 제4 움직임 벡터에 미디언 필터가 적용된 제5 움직임 벡터 중 적어도 하나를 포함할 수 있다.In one example, the spatial prediction vector is a first motion vector corresponding to the left block of the current block, a second motion vector corresponding to the top block of the current block, a third motion vector corresponding to the top left block of the current block, or the current block. It may include at least one of a fourth motion vector corresponding to the upper right block of and a fifth motion vector to which a median filter is applied to the first motion vector, the second motion vector, the third motion vector, and the fourth motion vector. .
다른 일례로, 공간상 예측 벡터는 현재 블록의 좌측 블록에 대응하는 제1 변이 벡터, 현재 블록의 상단 블록에 대응하는 제2 변이 벡터, 현재 블록의 좌측 상단 블록에 대응하는 제3 변이 벡터 또는 현재 블록의 우측 상단 블록에 대응하는 제4 변이 벡터 및 상기 제1 변이 벡터, 제2 변이 벡터, 제3 변이 벡터 및 제4 변이 벡터에 미디언 필터가 적용된 제5 변이 벡터 중 적어도 하나를 포함할 수 있다.In another example, the spatial prediction vector includes a first disparity vector corresponding to a left block of the current block, a second disparity vector corresponding to an upper block of the current block, a third disparity vector corresponding to an upper left block of the current block, or a current And a fourth variation vector corresponding to the upper right block of the block and a fifth variation vector to which a median filter is applied to the first variation vector, the second variation vector, the third variation vector, and the fourth variation vector. have.
공간상 예측 벡터가 추출되면, 인덱스 전송부(202)는 현재 블록의 공간상 예측 벡터를 식별하기 위한 인덱스를 비트스트림을 통해 다시점 비디오 복호화 장치(102)에 전송할 수 있다.When the spatial prediction vector is extracted, the index transmitter 202 may transmit an index for identifying the spatial prediction vector of the current block to the multi-view video decoding apparatus 102 through the bitstream.
<실시예 2><Example 2>
예측 벡터 추출부(201)는 부호화하고자 하는 현재 블록의 시간상 예측 벡터를 추출할 수 있다. 여기서, 현재 블록의 시간상 예측 벡터는 현재 블록이 포함된 프레임과 시간상으로 다른 위치에 있는 프레임을 이용하여 추출될 수 있다. The prediction vector extractor 201 may extract a temporal prediction vector of the current block to be encoded. Here, the temporal prediction vector of the current block may be extracted using a frame located at a position different in time from the frame including the current block.
일례로, 시간상 예측 벡터는 현재 블록이 포함된 프레임과 다른 시간에 대응하는 프레임에서 현재 블록과 동일한 위치에 있는 타겟 블록의 움직임 벡터 또는 변이 벡터를 포함할 수 있다. 예를 들어, 현재 블록이 프레임 1의 (x,y) 위치에 존재하는 경우, 현재 블록의 시간상 예측 벡터는 프레임 1과 시간이 다른 프레임 2의 (x,y)위치에 존재하는 타겟 블록의 움직임 벡터 또는 변이 벡터를 포함할 수 있다.As an example, the temporal prediction vector may include a motion vector or a disparity vector of a target block at the same position as the current block in a frame corresponding to a different time than the frame including the current block. For example, if the current block exists at the position (x, y) of frame 1, the temporal prediction vector of the current block is the motion of the target block at the position (x, y) of frame 2 which is different from the frame 1 in time. Vector or variant vectors.
다른 일례로, 시간상 예측 벡터는 현재 블록이 포함된 프레임과 다른 시간에 대응하는 프레임에서 현재 블록과 동일한 위치에 있는 타겟 블록에 인접하는 주변 블록들의 움직임 벡터 또는 변이 벡터를 포함할 수 있다. 예를 들어, 현재 블록이 프레임 1의 (x,y) 위치에 존재하는 경우, 현재 블록의 시간상 예측 벡터는 프레임 1과 시간이 다른 프레임 2의 (x,y)위치에 존재하는 타겟 블록에 인접하는 주변 블록들의 움직임 벡터 또는 변이 벡터를 포함할 수 있다. 여기서, 주변 블록들은 타겟 블록의 상단 블록, 타겟 블록의 좌측 블록, 타겟 블록의 우측 상단 블록 또는 타겟 블록의 좌측 상단 블록을 포함할 수 있다.As another example, the temporal prediction vector may include a motion vector or a disparity vector of neighboring blocks adjacent to the target block at the same position as the current block in a frame corresponding to a different time than the frame including the current block. For example, if the current block exists at position (x, y) of frame 1, the temporal prediction vector of the current block is adjacent to the target block at position (x, y) of frame 2, which is different in time from frame 1 The motion vector or the disparity vector of neighboring blocks may be included. Here, the neighboring blocks may include an upper block of the target block, a left block of the target block, an upper right block of the target block, or an upper left block of the target block.
또 다른 일례로, 시간상 예측 벡터는 현재 블록이 포함된 프레임과 다른 시간에 대응하는 프레임에서 현재 블록과 가장 유사한 타겟 블록의 움직임 벡터 또는 변이 벡터를 포함할 수 있다. 여기서, 현재 블록과 가장 유사한 타겟 블록은 현재 블록의 픽셀 속성, 위치와 연관성이 높은 블록을 의미한다.As another example, the temporal prediction vector may include a motion vector or a disparity vector of a target block that is most similar to the current block in a frame corresponding to a time different from a frame including the current block. Here, the target block most similar to the current block refers to a block having a high association with the pixel property and position of the current block.
시간상 예측 벡터가 추출되면, 인덱스 전송부(202)는 현재 블록의 시간상 예측 벡터를 식별하기 위한 인덱스를 비트스트림을 통해 다시점 비디오 복호화 장치(102)에 전송할 수 있다.When the temporal prediction vector is extracted, the index transmitter 202 may transmit an index for identifying the temporal prediction vector of the current block to the multi-view video decoding apparatus 102 through the bitstream.
<실시예 3><Example 3>
예측 벡터 결정부(201)는 부호화하고자 하는 현재 블록의 시점상 예측 벡터를 추출할 수 있다. 여기서, 현재 블록의 시점상 예측 벡터는 현재 블록이 포함된 프레임과 시점상으로 다른 위치에 있는 프레임을 이용하여 추출될 수 있다.The prediction vector determiner 201 may extract a prediction vector on the viewpoint of the current block to be encoded. Here, the prediction prediction vector of the current block may be extracted using a frame that is different in view from the frame including the current block.
일례로, 시점상 예측 벡터는 현재 블록이 포함된 프레임과 다른 시점에 대응하는 프레임에서 현재 블록과 동일한 위치에 있는 타겟 블록의 움직임 벡터 또는 변이 벡터를 포함할 수 있다. 예를 들어, 현재 블록이 프레임 1의 (x,y) 위치에 존재하는 경우, 현재 블록의 시점상 예측 벡터는 프레임 1과 시점이 다른 프레임 2의 (x,y)위치에 존재하는 타겟 블록의 움직임 벡터 또는 변이 벡터를 포함할 수 있다.For example, the viewpoint prediction vector may include a motion vector or a disparity vector of a target block at the same position as the current block in a frame corresponding to a different viewpoint than a frame including the current block. For example, when the current block exists at the (x, y) position of the frame 1, the predictive vector in view of the current block is the position of the target block at the (x, y) position of the frame 2 different from the frame 1. It may include a motion vector or a disparity vector.
다른 일례로, 시점상 예측 벡터는 현재 블록이 포함된 프레임과 다른 시점에 대응하는 프레임에서 현재 블록과 동일한 위치에 있는 타겟 블록에 인접하는 주변 블록들의 움직임 벡터 또는 변이 벡터를 포함할 수 있다. 예를 들어, 현재 블록이 프레임 1의 (x,y) 위치에 존재하는 경우, 현재 블록의 시점상 예측 벡터는 프레임 1과 시간이 다른 프레임 2의 (x,y)위치에 존재하는 타겟 블록에 인접하는 주변 블록들의 움직임 벡터 또는 변이 벡터를 포함할 수 있다. 여기서, 주변 블록들은 타겟 블록의 상단 블록, 타겟 블록의 좌측 블록, 타겟 블록의 우측 상단 블록, 또는 타겟 블록의 좌측 상단 블록을 포함할 수 있다.As another example, the viewpoint prediction vector may include a motion vector or a disparity vector of neighboring blocks adjacent to a target block at the same position as the current block in a frame corresponding to a different viewpoint than a frame including the current block. For example, if the current block exists at the (x, y) position of frame 1, the predictive vector predicted in the viewpoint of the current block is located at the target block at the (x, y) position of frame 2 that is different from the frame 1 in time. It may include a motion vector or a disparity vector of adjacent neighboring blocks. Here, the neighboring blocks may include an upper block of the target block, a left block of the target block, an upper right block of the target block, or an upper left block of the target block.
또 다른 일례로, 시점상 예측 벡터는 현재 블록이 포함된 프레임과 다른 시점에 대응하는 프레임에서 현재 블록과 가장 유사한 타겟 블록의 움직임 벡터 또는 변이 벡터를 포함할 수 있다. 여기서, 현재 블록과 가장 유사한 타겟 블록은 현재 블록의 픽셀 속성, 위치와 연관성이 높은 블록을 의미한다.As another example, the viewpoint prediction vector may include a motion vector or a disparity vector of a target block that is most similar to the current block in a frame corresponding to a different viewpoint than a frame including the current block. Here, the target block most similar to the current block refers to a block having a high association with the pixel property and position of the current block.
시점상 예측 벡터가 추출되면, 인덱스 전송부(202)는 현재 블록의 시점상 예측 벡터를 식별하기 위한 인덱스를 비트스트림을 통해 다시점 비디오 복호화 장치(102)에 전송할 수 있다.When the viewpoint prediction vector is extracted, the index transmitter 202 may transmit an index for identifying the viewpoint prediction vector of the current block to the multiview video decoding apparatus 102 through the bitstream.
<실시예 4><Example 4>
예측 벡터 결정부(201)는 부호화하고자 하는 부호화하고자 하는 현재 블록의 공간상 예측 벡터, 시간상 예측 벡터 및 공간상 예측 벡터를 추출할 수 있다. The prediction vector determiner 201 may extract a spatial prediction vector, a temporal prediction vector, and a spatial prediction vector of the current block to be encoded.
그러면, 인덱스 전송부(202)는 현재 블록의 공간상 예측 벡터, 시간상 예측 벡터 및 공간상 예측 벡터 중 현재 블록을 부호화하기 위해 결정된 최종 예측 벡터를 식별하기 위한 인덱스를 비트스트림을 통해 다시점 비디오 복호화 장치(102)에 전송한다. 일례로, 인덱스 전송부(202)는 임계값, 예측 벡터의 거리, 예측 벡터로 압축했을 때 필요한 비트량 및 화질 열화 정도 또는 예측 벡터로 압축했을 때 비용 함수 중 적어도 하나를 고려하여 공간상 예측 벡터, 시간상 예측 벡터 및 공간상 예측 벡터 중 부호화 성능이 가장 좋은 예측 벡터를 식별하는 인덱스를 전송할 수 있다.Then, the index transmitter 202 multi-views video decoding through the bitstream an index for identifying a final prediction vector determined for encoding the current block among the spatial prediction vector, the temporal prediction vector, and the spatial prediction vector of the current block. Transmit to device 102. For example, the index transmitter 202 may consider the spatial prediction vector in consideration of at least one of a threshold value, a distance of the prediction vector, a bit amount required when compressing the prediction vector, a degree of image quality degradation, or a cost function when compressing the prediction vector. In addition, an index for identifying a prediction vector having the best encoding performance among the temporal prediction vector and the spatial prediction vector may be transmitted.
이상에서 언급한 실시예에 따르는 경우, 현재 블록의 부호화 모드에 따라 비트스트림에 포함되는 정보는 달라질 수 있다.According to the above-described embodiment, the information included in the bitstream may vary according to the encoding mode of the current block.
만약, 현재 블록이 스킵 모드에 따라 부호화되는 경우, 공간상 예측 벡터, 시간상 예측 벡터 또는 시점상 예측 벡터를 식별하기 위한 인덱스가 비트스트림을 통해 전송된다. 이 때, 현재 블록이 P-프레임에 포함되는 경우, 인덱스는 현재 블록과 관련된 스킵 모드(SKIP Mode)를 나타낸다. 그리고, 현재 블록이 B-프레임에 포함되는 경우, 인덱스는 현재 블록과 관련된 다이렉트 모드에 포함된 다이렉트 스킵 모드(Direct SKIP Mode)를 나타낸다.If the current block is encoded according to the skip mode, an index for identifying a spatial prediction vector, a temporal prediction vector, or a viewpoint prediction vector is transmitted through the bitstream. At this time, when the current block is included in the P-frame, the index indicates a skip mode (SKIP Mode) associated with the current block. When the current block is included in the B-frame, the index indicates a direct skip mode included in the direct mode associated with the current block.
그리고, 현재 블록이 스킵 모드가 아닌 부호화 모드(인터 모드)로 부호화되는 경우, 공간상 예측 벡터, 시간상 예측 벡터 또는 시점상 예측 벡터를 식별하기 위한 인덱스 뿐만 아니라, 현재 블록을 부호화하기 위해 결정된 예측 벡터가 가리키는 예측 블록과 현재 블록 간의 차이인 잔차 신호가 비트스트림에 포함될 수 있다. 이 때, 예측 블록과 현재 블록이 유사할수록, 부호화할 잔차 신호로 인해 필요한 비트수가 감소하기 때문에, 현재 블록에 대한 부호화 성능이 향상될 수 있다.When the current block is encoded in an encoding mode (inter mode) instead of a skip mode, the prediction vector determined to encode the current block as well as an index for identifying a spatial prediction vector, a temporal prediction vector, or a viewpoint prediction vector. The residual signal, which is a difference between the prediction block indicated by the current block and the current block, may be included in the bitstream. At this time, since the number of bits required due to the residual signal to be encoded decreases as the prediction block and the current block are similar, the encoding performance of the current block can be improved.
도 3은 본 발명의 일실시예에 따른 다시점 비디오 복호화 장치의 세부 구성을 도시한 블록 다이어그램이다.3 is a block diagram showing a detailed configuration of a multi-view video decoding apparatus according to an embodiment of the present invention.
도 3을 참고하면, 다시점 비디오 복호화 장치(102)는 인덱스 추출부(301) 및 예측 벡터 결정부(302)를 포함할 수 있다.Referring to FIG. 3, the multiview video decoding apparatus 102 may include an index extractor 301 and a predictor vector determiner 302.
이하에서는, 4가지의 실시예에 따라 동작하는 다시점 비디오 복호화 장치(102)에 대해서 설명하도록 하겠다.Hereinafter, a multi-view video decoding apparatus 102 that operates according to four embodiments will be described.
<실시예 1><Example 1>
인덱스 추출부(301)는 다시점 비디오 부호화 장치(101)에서 수신한 비트스트림으로부터 예측 벡터의 인덱스를 추출할 수 있다. 그러면, 예측 벡터 결정부(302)는 인덱스에 기초하여 공간상 예측 벡터를 현재 블록을 복원하기 위한 최종 예측 벡터로 결정할 수 있다.The index extractor 301 may extract the index of the prediction vector from the bitstream received by the multiview video encoding apparatus 101. Then, the prediction vector determiner 302 may determine the spatial prediction vector as the final prediction vector for reconstructing the current block based on the index.
일례로, 공간상 예측 벡터는 현재 블록의 좌측 블록에 대응하는 제1 움직임 벡터, 현재 블록의 상단 블록에 대응하는 제2 움직임 벡터, 현재 블록의 좌측 상단 블록에 대응하는 제3 움직임 벡터 또는 현재 블록의 우측 상단 블록에 대응하는 제4 움직임 벡터 및 상기 제1 움직임 벡터, 제2 움직임 벡터, 제3 움직임 벡터 및 제4 움직임 벡터에 미디언 필터가 적용된 제5 움직임 벡터 중 적어도 하나를 포함할 수 있다.In one example, the spatial prediction vector is a first motion vector corresponding to the left block of the current block, a second motion vector corresponding to the top block of the current block, a third motion vector corresponding to the top left block of the current block, or the current block. It may include at least one of a fourth motion vector corresponding to the upper right block of and a fifth motion vector to which a median filter is applied to the first motion vector, the second motion vector, the third motion vector, and the fourth motion vector. .
다른 일례로, 공간상 예측 벡터는 현재 블록의 좌측 블록에 대응하는 제1 변이 벡터, 현재 블록의 상단 블록에 대응하는 제2 변이 벡터, 현재 블록의 좌측 상단 블록에 대응하는 제3 변이 벡터 또는 현재 블록의 우측 상단 블록에 대응하는 제4 변이 벡터 및 상기 제1 변이 벡터, 제2 변이 벡터, 제3 변이 벡터 및 제4 변이 벡터에 미디언 필터가 적용된 제5 변이 벡터 중 적어도 하나를 포함할 수 있다.In another example, the spatial prediction vector includes a first disparity vector corresponding to a left block of the current block, a second disparity vector corresponding to an upper block of the current block, a third disparity vector corresponding to an upper left block of the current block, or a current And a fourth variation vector corresponding to the upper right block of the block and a fifth variation vector to which a median filter is applied to the first variation vector, the second variation vector, the third variation vector, and the fourth variation vector. have.
<실시예 2><Example 2>
인덱스 추출부(301)는 다시점 비디오 부호화 장치(101)에서 수신한 비트스트림으로부터 예측 벡터의 인덱스를 추출할 수 있다. 그러면, 예측 벡터 결정부(302)는 인덱스에 기초하여 시간상 예측 벡터를 현재 블록을 복원하기 위한 최종 예측 벡터로 결정할 수 있다.The index extractor 301 may extract the index of the prediction vector from the bitstream received by the multiview video encoding apparatus 101. Then, the prediction vector determiner 302 may determine the temporal prediction vector as the final prediction vector for reconstructing the current block based on the index.
일례로, 시간상 예측 벡터는 현재 블록이 포함된 프레임과 다른 시간에 대응하는 프레임에서 현재 블록과 동일한 위치에 있는 타겟 블록의 움직임 벡터 또는 변이 벡터를 포함할 수 있다. 예를 들어, 현재 블록이 프레임 1의 (x,y) 위치에 존재하는 경우, 현재 블록의 시간상 예측 벡터는 프레임 1과 시간이 다른 프레임 2의 (x,y)위치에 존재하는 타겟 블록의 움직임 벡터 또는 변이 벡터를 포함할 수 있다.As an example, the temporal prediction vector may include a motion vector or a disparity vector of a target block at the same position as the current block in a frame corresponding to a different time than the frame including the current block. For example, if the current block exists at the position (x, y) of frame 1, the temporal prediction vector of the current block is the motion of the target block at the position (x, y) of frame 2 which is different from the frame 1 in time. Vector or variant vectors.
다른 일례로, 시간상 예측 벡터는 현재 블록이 포함된 프레임과 다른 시간에 대응하는 프레임에서 현재 블록과 동일한 위치에 있는 타겟 블록에 인접하는 주변 블록들의 움직임 벡터 또는 변이 벡터를 포함할 수 있다. 예를 들어, 현재 블록이 프레임 1의 (x,y) 위치에 존재하는 경우, 현재 블록의 시간상 예측 벡터는 프레임 1과 시간이 다른 프레임 2의 (x,y)위치에 존재하는 타겟 블록에 인접하는 주변 블록들의 움직임 벡터 또는 변이 벡터를 포함할 수 있다. 여기서, 주변 블록들은 타겟 블록의 상단 블록, 타겟 블록의 좌측 블록, 타겟 블록의 우측 상단 블록 또는 타겟 블록의 좌측 상단 블록을 포함할 수 있다.As another example, the temporal prediction vector may include a motion vector or a disparity vector of neighboring blocks adjacent to the target block at the same position as the current block in a frame corresponding to a different time than the frame including the current block. For example, if the current block exists at position (x, y) of frame 1, the temporal prediction vector of the current block is adjacent to the target block at position (x, y) of frame 2, which is different in time from frame 1 The motion vector or the disparity vector of neighboring blocks may be included. Here, the neighboring blocks may include an upper block of the target block, a left block of the target block, an upper right block of the target block, or an upper left block of the target block.
또 다른 일례로, 시간상 예측 벡터는 현재 블록이 포함된 프레임과 다른 시간에 대응하는 프레임에서 현재 블록과 가장 유사한 타겟 블록의 움직임 벡터 또는 변이 벡터를 포함할 수 있다. 여기서, 현재 블록과 가장 유사한 타겟 블록은 현재 블록의 픽셀 속성, 위치와 연관성이 높은 블록을 의미한다.As another example, the temporal prediction vector may include a motion vector or a disparity vector of a target block that is most similar to the current block in a frame corresponding to a time different from a frame including the current block. Here, the target block most similar to the current block refers to a block having a high association with the pixel property and position of the current block.
<실시예 3><Example 3>
인덱스 추출부(301)는 다시점 비디오 부호화 장치(101)에서 수신한 비트스트림으로부터 예측 벡터의 인덱스를 추출할 수 있다. 그러면, 예측 벡터 결정부(302)는 인덱스에 기초하여 시점상 예측 벡터를 현재 블록을 복원하기 위한 최종 예측 벡터로 결정할 수 있다.The index extractor 301 may extract the index of the prediction vector from the bitstream received by the multiview video encoding apparatus 101. Then, the prediction vector determiner 302 may determine the viewpoint prediction vector as the final prediction vector for reconstructing the current block based on the index.
일례로, 시점상 예측 벡터는 현재 블록이 포함된 프레임과 다른 시점에 대응하는 프레임에서 현재 블록과 동일한 위치에 있는 타겟 블록의 움직임 벡터 또는 변이 벡터를 포함할 수 있다. 예를 들어, 현재 블록이 프레임 1의 (x,y) 위치에 존재하는 경우, 현재 블록의 시점상 예측 벡터는 프레임 1과 시점이 다른 프레임 2의 (x,y)위치에 존재하는 타겟 블록의 움직임 벡터 또는 변이 벡터를 포함할 수 있다.For example, the viewpoint prediction vector may include a motion vector or a disparity vector of a target block at the same position as the current block in a frame corresponding to a different viewpoint than a frame including the current block. For example, when the current block exists at the (x, y) position of the frame 1, the predictive vector in view of the current block is the position of the target block at the (x, y) position of the frame 2 different from the frame 1. It may include a motion vector or a disparity vector.
다른 일례로, 시점상 예측 벡터는 현재 블록이 포함된 프레임과 다른 시점에 대응하는 프레임에서 현재 블록과 동일한 위치에 있는 타겟 블록에 인접하는 주변 블록들의 움직임 벡터 또는 변이 벡터를 포함할 수 있다. 예를 들어, 현재 블록이 프레임 1의 (x,y) 위치에 존재하는 경우, 현재 블록의 시점상 예측 벡터는 프레임 1과 시간이 다른 프레임 2의 (x,y)위치에 존재하는 타겟 블록에 인접하는 주변 블록들의 움직임 벡터 또는 변이 벡터를 포함할 수 있다. 여기서, 주변 블록들은 타겟 블록의 상단 블록, 타겟 블록의 좌측 블록, 타겟 블록의 우측 상단 블록, 또는 타겟 블록의 좌측 상단 블록을 포함할 수 있다.As another example, the viewpoint prediction vector may include a motion vector or a disparity vector of neighboring blocks adjacent to a target block at the same position as the current block in a frame corresponding to a different viewpoint than a frame including the current block. For example, if the current block exists at the (x, y) position of frame 1, the predictive vector predicted in the viewpoint of the current block is located at the target block at the (x, y) position of frame 2 that is different from the frame 1 in time. It may include a motion vector or a disparity vector of adjacent neighboring blocks. Here, the neighboring blocks may include an upper block of the target block, a left block of the target block, an upper right block of the target block, or an upper left block of the target block.
또 다른 일례로, 시점상 예측 벡터는 현재 블록이 포함된 프레임과 다른 시점에 대응하는 프레임에서 현재 블록과 가장 유사한 타겟 블록의 움직임 벡터 또는 변이 벡터를 포함할 수 있다. 여기서, 현재 블록과 가장 유사한 타겟 블록은 현재 블록의 픽셀 속성, 위치와 연관성이 높은 블록을 의미한다.As another example, the viewpoint prediction vector may include a motion vector or a disparity vector of a target block that is most similar to the current block in a frame corresponding to a different viewpoint than a frame including the current block. Here, the target block most similar to the current block refers to a block having a high association with the pixel property and position of the current block.
<실시예 4><Example 4>
인덱스 추출부(301)는 다시점 비디오 부호화 장치에서 수신한 비트스트림으로부터 예측 벡터의 인덱스를 추출할 수 있다. 그러면, 예측 벡터 결정부(302)는 인덱스에 기초하여 공간상 예측 벡터, 시간상 예측 벡터 및 시점상 예측 벡터 중 현재 블록을 복원하기 위한 최종 예측 벡터를 결정할 수 있다.The index extractor 301 may extract the index of the prediction vector from the bitstream received by the multiview video encoding apparatus. Then, the prediction vector determiner 302 may determine a final prediction vector for reconstructing the current block among the spatial prediction vector, the temporal prediction vector, and the viewpoint prediction vector based on the index.
일례로, 인덱스 전송부(202)는 임계값, 예측 벡터의 거리, 예측 벡터로 압축했을 때 필요한 비트량 및 화질 열화 정도 또는 예측 벡터로 압축했을 때 비용 함수 중 적어도 하나를 고려하여 공간상 예측 벡터, 시간상 예측 벡터 및 공간상 예측 벡터 중 부호화 성능이 가장 좋은 예측 벡터를 식별하는 인덱스를 전송할 수 있다.For example, the index transmitter 202 may consider the spatial prediction vector in consideration of at least one of a threshold value, a distance of the prediction vector, a bit amount required when compressing the prediction vector, a degree of image quality degradation, or a cost function when compressing the prediction vector. In addition, an index for identifying a prediction vector having the best encoding performance among the temporal prediction vector and the spatial prediction vector may be transmitted.
공간상 예측 벡터, 시간상 예측 벡터 및 시점상 예측 벡터에 대해서는 도 6에서 구체적으로 설명하기로 한다.The spatial prediction vector, the temporal prediction vector, and the viewpoint prediction vector will be described in detail with reference to FIG. 6.
도 4는 본 발명의 일실시예에 따른 다시점 비디오의 구조를 도시한 도면이다.4 is a diagram illustrating a structure of a multiview video according to an embodiment of the present invention.
도 4를 참고하면, 3개 시점(Left, Center, Right)의 픽처를 입력받았을 때, GOP(Group of Picture) '8'로 부호화하는 다시점 비디오 부호화 방식(Multiview Video Coding)을 나타낸다. 다시점(Multi-view) 픽처를 부호화기 위해서는 기본적으로 시간(Temporal)축과 시점(View)축으로 계층적 B 픽처(Hierarchical B Picture)을 적용하기 때문에 픽처 간의 중복성(Redundancy)을 줄일 수 있다. Referring to FIG. 4, when a picture of three views (Left, Center, Right) is received, a multiview video coding method of encoding a GOP (Group of Picture) '8' is shown. In order to encode a multi-view picture, a hierarchical B picture is basically applied to a temporal axis and a view axis, thereby reducing redundancy between pictures.
도 4에 도시된 다시점 비디오의 구조에 따라 다시점 비디오 부호화 장치(101)는 좌측 픽처(Left Picture: I-view)을 먼저 부호화하고 우측 픽처(Right Picture: P-view)과 중앙 픽처(Center Picture: B-view)를 차례대로 부호화함으로써 3개 시점에 대응하는 픽처를 부호화할 수 있다. 본 발명에서, 프레임과 픽처는 동일한 개념으로 사용될 수 있다.According to the structure of a multiview video illustrated in FIG. 4, the multiview video encoding apparatus 101 first encodes a left picture (I-view), and then a right picture (P-view) and a center picture (Center). The picture corresponding to three viewpoints can be encoded by encoding Picture: B-view) in order. In the present invention, the frame and the picture may be used in the same concept.
이 때, 좌측 픽처는 움직임 추정(Motion Estimation)을 통해 이전 픽처들로부터 비슷한 영역을 검색함으로써 시간적 중복성(Temporal Redundancy)이 제거되는 방식으로 부호화될 수 있다. 그리고, 우측 픽처는 이미 부호화된 좌측 픽처를 참조 픽처로 사용하여 부호화되기 때문에, 움직임 추정에 기초한 시간적 중복성과 변이 추정(Disparity Estimation)에 기초한 시점 간 중복성(View Redundancy)이 제거되는 방식으로 부호화될 수 있다. 또한, 중앙 픽처는 이미 부호화된 좌측 픽처와 우측 픽처를 모두 참조 픽처로 이용하여 부호화되기 때문에, 양방향으로의 변이 추정에 따라 시점 간 중복성이 제거될 수 있다.In this case, the left picture may be encoded in such a manner that temporal redundancy is removed by searching for a similar region from previous pictures through motion estimation. In addition, since the right picture is encoded by using the previously encoded left picture as a reference picture, the right picture may be encoded in such a manner that temporal redundancy based on motion estimation and view redundancy based on disparity estimation are removed. have. In addition, since the center picture is encoded by using both the left picture and the right picture that are already encoded as the reference picture, the inter-view redundancy may be removed according to the shift estimation in both directions.
도 4를 참고하면, 다시점 비디오 부호화 방식에서, 좌측 픽처와 같이 다른 시점의 참조 픽처를 이용하지 않고 부호화되는 픽처는 I-View, 우측 픽처와 같이 다른 시점의 참조 픽처를 단방향으로 예측하여 부호화하는 픽처는 P-View, 중앙 픽처와 같이 좌우 시점의 참조 픽처를 양방향으로 예측하여 부호화하는 픽처는 B-View이라고 정의된다.Referring to FIG. 4, in a multiview video encoding scheme, a picture that is encoded without using a reference picture of another view, such as a left picture, is unidirectionally predicted and encoded by a reference picture of another view, such as an I-View and a right picture. A picture is defined as a B-View that predicts and encodes a reference picture of left and right views in both directions, such as a P-View and a center picture.
MVC의 프레임은 예측 구조에 따라 크게 6가지 그룹으로 분류된다. 구체적으로, 6가지 그룹은 인트라 부호화를 위한 I-시점 Anchor 프레임, 시간축간 인터 부호화를 위한 I-시점 Non-anchor 프레임, 시점간 단방향 인터 부호화를 위한 P-시점 Anchor 프레임, 시점간 단방향 인터 부호화와 시간축간 양방향 인터 부호화를 위한 P-시점 Non-anchor 프레임, 시점간 양방향 인터 부호화를 위한 B-시점 Anchor 프레임 및 시점간 양방향 인터 부호화와 시간축간 양방향 인터 부호화를 위한 B-시점 Non-anchor 프레임으로 분류될 수 있다.Frames of MVC are largely classified into six groups according to the prediction structure. Specifically, the six groups include an I-view anchor frame for intra coding, an I-view non-anchor frame for inter-time inter-coding, a P-view anchor frame for inter-view unidirectional inter coding, and a unidirectional inter-coding between views. Classified into P-view non-anchor frame for bidirectional inter-coding between time bases, B-view anchor frame for bidirectional inter-coding between views, and B-view non-anchor frame for bidirectional inter-coding between time-bases. Can be.
도 5는 본 발명의 일실시예에 따른 현재 블록을 부호화하기 위해 사용되는 참조 픽처의 예시를 도시한 도면이다.5 is a diagram illustrating an example of a reference picture used for encoding a current block according to an embodiment of the present invention.
다시점 비디오 부호화 장치(101)는 현재 픽처(501)인 현재 프레임에 위치한 현재 블록을 부호화할 때 현재 프레임에 대해 시간상 주변에 위치한 참조 픽처(502, 503)와 시점상 주변에 위치한 참조 픽처(504, 505)를 이용할 수 있다. 구체적으로, 다시점 비디오 부호화 장치(101)는 참조 픽처(502~505)에서 현재 블록과 가장 유사한 예측 블록을 탐색하여 현재 블록과 예측 블록 간의 잔차 신호(residue)를 부호화할 수 있다. 다시점 비디오 부호화 장치(101)는 움직임 벡터에 기초하여 예측 블록을 탐색하기 위해 현재 블록이 포함된 현재 프레임과 시간이 다른 Ref1 픽처(502)와 Ref2 픽처(503)를 이용할 수 있다. 그리고, 변이 벡터에 기초하여 예측 블록을 탐색하기 위해 현재 블록이 포함된 현재 프레임과 시점이 다른 Ref3 픽처(504)와 Ref4 픽처(505)를 이용할 수 있다. When the multi-view video encoding apparatus 101 encodes a current block located in a current frame that is the current picture 501, reference pictures 502 and 503 located in time around the current frame and a reference picture 504 located in the viewpoint around the current frame , 505). In detail, the multi-view video encoding apparatus 101 may search the prediction blocks most similar to the current blocks in the reference pictures 502 ˜ 505 to encode a residual signal between the current block and the prediction block. The multi-view video encoding apparatus 101 may use the Ref1 picture 502 and the Ref2 picture 503 that are different in time from the current frame including the current block to search for the prediction block based on the motion vector. In addition, the Ref3 picture 504 and the Ref4 picture 505 having different viewpoints from the current frame including the current block may be used to search for the prediction block based on the disparity vector.
도 6은 본 발명의 일실시예에 따라 현재 블록에 대응하는 예측 벡터의 종류를 도시한 도면이다.FIG. 6 is a diagram illustrating types of prediction vectors corresponding to current blocks according to an embodiment of the present invention.
본 발명의 일실시예에 따르면, 다시점 비디오 부호화 장치(101)는 다음과 같은 과정을 통해 다시점 비디오를 부호화할 수 있다. 다만, 아래의 과정은 도 2 및 도 3의 실시예 4에 적용될 수 있으며, 실시예 1 내지 3의 경우, 경쟁에 사용할 움직임 벡터 또는 변이 벡터 중 어느 하나를 선택하기 위해 부호화 성능을 계산하는 과정은 생략할 수 있다. According to an embodiment of the present invention, the multi-view video encoding apparatus 101 may encode a multi-view video through the following process. However, the following process may be applied to Embodiment 4 of FIGS. 2 and 3, and in Embodiments 1 to 3, a process of calculating encoding performance to select one of a motion vector or a disparity vector to be used for competition may be performed. Can be omitted.
(1) 참조 픽처를 선택함(1) Select the reference picture
(2) 예측 벡터들 추출하여 결정함 (예측 구조 기반)(2) Determining by extracting prediction vectors (based on prediction structure)
(3) 움직임 벡터 또는 변이 벡터를 예측함(3) predict motion vectors or disparity vectors
(4) 움직임 벡터 또는 변이 벡터를 추정함(4) estimate motion vector or disparity vector
(5) 잔차 신호(Residual)를 이용하여 부호화 및 움직임/변이 정보 엔트로피 부호화함 (다만, 부호화 모드가 SKIP(DIRECT)모드의 경우 이 단계는 생략)(5) Encoding and motion / variance information entropy encoding using residual signal (However, this step is omitted when the encoding mode is SKIP (DIRECT) mode).
(6) 부호화 성능(ex. RD cost)을 계산함(6) Calculate the coding performance (ex. RD cost)
본 발명의 일실시예에 따르면, 다시점 비디오 부호화 장치(101)는 현재 블록에 대응하는 예측 벡터, 즉 공간상 예측 벡터, 시간상 예측 벡터 및 시점상 예측 벡터 중 부호화 성능이 가장 좋은 예측 벡터를 선택하여 현재 블록을 부호화할 수 있다. 즉, 다시점 비디오 부호화 장치(101)는 예측 벡터들 간의 경쟁에 기초하여 부호화 성능이 가장 좋은 예측 벡터를 선택할 수 있다.According to an embodiment of the present invention, the multi-view video encoding apparatus 101 selects a prediction vector having the best encoding performance among a prediction vector corresponding to a current block, that is, a spatial prediction vector, a temporal prediction vector, and a viewpoint prediction vector. The current block can be encoded. That is, the multi-view video encoding apparatus 101 may select the prediction vector having the best encoding performance based on the competition between the prediction vectors.
예측 벡터들은 특성에 따라 공간상 예측 벡터, 시간상 예측 벡터, 시점상 예측 벡터의 3가지 그룹으로 분류될 수 있다. 도 6에 도시된 예측 벡터는 아래 표 1과 같이 3가지 그룹으로 분류될 수 있다.The prediction vectors may be classified into three groups: a spatial prediction vector, a temporal prediction vector, and a viewpoint prediction vector. The prediction vector shown in FIG. 6 may be classified into three groups as shown in Table 1 below.
Figure PCTKR2012000136-appb-I000001
Figure PCTKR2012000136-appb-I000001
공간상 벡터는 부호화하고자 하는 현재 블록에 인접한 적어도 하나의 주변 블록에 대응하는 움직임 벡터 또는 변이 벡터를 의미한다.The spatial vector means a motion vector or a disparity vector corresponding to at least one neighboring block adjacent to the current block to be encoded.
일례로, 공간상 예측 벡터는 현재 블록의 좌측 블록에 대응하는 제1 움직임 벡터(mva), 현재 블록의 상단 블록에 대응하는 제2 움직임 벡터(mvb), 현재 블록의 좌측 상단 블록에 대응하는 제3 움직임 벡터(mvd) 또는 현재 블록의 우측 상단 블록에 대응하는 제4 움직임 벡터(mvc) 및 제1 움직임 벡터, 제2 움직임 벡터, 제3 움직임 벡터 및 제4 움직임 벡터에 미디언 필터가 적용된 제5 움직임 벡터(mvmed) 중 적어도 하나를 포함할 수 있다.For example, the spatial prediction vector corresponds to the first motion vector mv a corresponding to the left block of the current block, the second motion vector mv b corresponding to the top block of the current block, and the upper left block of the current block. A median to the third motion vector mv d or the fourth motion vector mv c corresponding to the upper right block of the current block and the first motion vector, the second motion vector, the third motion vector, and the fourth motion vector. The filter may include at least one of the fifth motion vectors mv med to which the filter is applied.
또한, 공간상 예측 벡터는 현재 블록의 좌측 블록에 대응하는 제1 변이 벡터(dva), 현재 블록의 상단 블록에 대응하는 제2 변이 벡터(dvb), 현재 블록의 좌측 상단 블록에 대응하는 제3 변이 벡터(dvd) 또는 현재 블록의 우측 상단 블록에 대응하는 제4 변이 벡터(dvc) 및 제1 변이 벡터, 제2 변이 벡터, 제3 변이 벡터 및 제4 변이 벡터에 미디언 필터가 적용된 제5 변이 벡터(dvmed) 중 적어도 하나를 포함할 수 있다.In addition, the spatial prediction vector corresponds to the first disparity vector dv a corresponding to the left block of the current block, the second disparity vector dv b corresponding to the upper block of the current block, and the upper left block of the current block. Median filter on a third variation vector dv d or a fourth variation vector dv c corresponding to the upper right block of the current block and a first variation vector, a second variation vector, a third variation vector, and a fourth variation vector. May include at least one of the fifth variation vectors dv med applied.
시간상 예측 벡터는 부호화하고자 하는 현재 블록이 포함된 현재 프레임(Frame N)보다 이전 시간에 위치한 이전 프레임(Frame N-1)에 기초하여 결정될 수 있다. The temporal prediction vector may be determined based on a previous frame N-1 located earlier than the current frame N that includes the current block to be encoded.
일례로, 시간상 예측 벡터는 부호화하고자 하는 현재 블록이 포함된 현재 프레임(Frame N)보다 이전 시간에 위치한 이전 프레임(Frame N-1)에서 현재 블록과 동일한 위치(x,y)에 있는 타겟 블록의 움직임 벡터(mvcol1) 또는 변이 벡터(dvcol1)를 포함한다.For example, the temporal prediction vector is a target block at the same position (x, y) as the current block in a previous frame (Frame N-1) located at a time earlier than the current frame (Frame N) including the current block to be encoded. Motion vector mv col1 or disparity vector dv col1 .
다른 일례로, 시간상 예측 벡터는 이전 프레임에서 현재 블록과 동일한 위치에 있는 타겟 블록에 인접하는 적어도 하나의 주변 블록들의 움직임 벡터(mvcol2) 또는 변이 벡터(dvcol2)를 포함한다. 여기서, 주변 블록들은 타겟 블록의 좌측 블록, 좌측 상단 블록, 상단 블록, 우측 상단 블록을 포함할 수 있다.In another example, the temporal prediction vector includes a motion vector mv col2 or a disparity vector dv col2 of at least one neighboring block adjacent to a target block at the same position as the current block in a previous frame. Here, the neighboring blocks may include a left block, an upper left block, an upper block, and an upper right block of the target block.
또 다른 일례로, 시간상 예측 벡터는 이전 프레임에서 현재 블록과 가장 유사한 타겟 블록의 움직임 벡터(mvtcor) 또는 변이 벡터(dvtcor)를 포함할 수 있다.As another example, the temporal prediction vector may include a motion vector mv tcor or a disparity vector dv tcor of the target block most similar to the current block in the previous frame.
시점상 예측 벡터는 호화하고자 하는 현재 블록이 포함된 현재 프레임(Frame N)과 다른 시점을 나타내는 이웃 프레임(Inter-view Frame)에 기초하여 결정될 수 있다.The predictive vector in view may be determined based on a neighboring frame (Inter-view Frame) indicating a different view from the current frame (Frame N) including the current block to be encapsulated.
일례로, 시점상 예측 벡터는 부호화하고자 하는 현재 블록이 포함된 현재 프레임과 다른 시점에 대응하는 이웃 프레임에서 현재 블록과 동일한 위치에 있는 타겟 블록의 움직임 벡터(mvgdv1) 또는 변이 벡터(dvgdv1)를 포함할 수 있다.For example, the viewpoint prediction vector may be a motion vector (mv gdv1 ) or a disparity vector (dv gdv1 ) of a target block located at the same position as the current block in a neighboring frame corresponding to a different viewpoint than a current frame including a current block to be encoded . It may include.
다른 일례로, 시점상 예측 벡터는 부호화하고자 하는 현재 블록이 포함된 현재 프레임과 다른 시점에 대응하는 이웃 프레임에서 현재 블록과 동일한 위치에 있는 타겟 블록에 인접하는 주변 블록들의 움직임 벡터(mvgdv2) 또는 변이 벡터(dvgdv2)를 포함할 수 있다.In another example, the viewpoint prediction vector may be a motion vector (mv gdv2 ) of neighboring blocks adjacent to a target block at the same position as the current block in a neighboring frame corresponding to a different viewpoint than a current frame including a current block to be encoded or It may include a disparity vector (dv gdv2 ).
또 다른 일례로, 시점상 예측 벡터는 부호화하고자 하는 현재 블록이 포함된 현재 프레임과 다른 시점에 대응하는 이웃 프레임에서 현재 블록과 가장 유사한 타겟 블록의 움직임 벡터(mvvcor) 또는 변이 벡터(dvvcor)를 포함할 수 있다.As another example, the predictive vector may be a motion vector (mv vcor ) or a disparity vector (dv vcor ) of a target block that is most similar to the current block in a neighboring frame corresponding to a different viewpoint than a current frame including a current block to be encoded. It may include.
본 발명의 일실시예에 있어, 움직임 벡터는 현재 블록이 포함된 현재 프레임과 동일한 시점이나 다른 시간을 나타내는 이전 프레임에 포함된 특정 블록(타겟 블록 또는 타겟 블록에 인접하는 주변 블록들)을 가리키는 벡터를 의미한다. 여기서, 이전 프레임은 현재 블록의 참조 영상을 의미한다. In one embodiment of the present invention, the motion vector is a vector indicating a specific block (target block or neighboring blocks adjacent to the target block) included in a previous frame indicating the same time point or a different time as the current frame including the current block. Means. Here, the previous frame means a reference picture of the current block.
그리고, 변이 벡터는 현재 블록이 포함된 현재 프레임과 다른 시점이나 동일한 시간을 나타내는 이웃 프레임에 포함된 특정 블록(타겟 블록 또는 타겟 블록에 인접하는 주변 블록들)을 가리키는 벡터를 의미한다. 여기서, 이웃 프레임은 현재 블록의 참조 영상을 의미한다.The disparity vector refers to a vector indicating a specific block (a target block or neighboring blocks adjacent to a target block) included in a neighboring frame indicating a different time or the same time as the current frame including the current block. Here, the neighboring frame means a reference picture of the current block.
본 발명의 일실시예에 따르면, 다시점 비디오 부호화 장치는 부호화하고자 하는 현재 블록에 대해 공간상 예측 벡터, 시간상 예측 벡터 또는 시점상 예측 벡터 중 적어도 하나를 추출할 수 있다. According to an embodiment of the present invention, the multi-view video encoding apparatus may extract at least one of a spatial prediction vector, a temporal prediction vector, or a viewpoint prediction vector with respect to a current block to be encoded.
이 때, 부호화하고자 하는 현재 블록에 대해 공간상 예측 벡터, 시간상 예측 벡터 및 시점상 예측 벡터이 추출된 경우, 다시점 비디오 부호화 장치는 예측 벡터들 간 경쟁 과정을 통해 최종적으로 부호화할 때 사용할 예측 벡터를 선택할 수 있다. 본 발명의 일실시예에 따르면, 다시점 비디오 부호화 장치(101)는 추출된 예측 벡터들을 대상으로 부호화 성능이 가장 좋은 예측 벡터를 추출할 수 있다.In this case, when a spatial prediction vector, a temporal prediction vector, and a viewpoint prediction vector are extracted with respect to the current block to be encoded, the multiview video encoding apparatus may determine a prediction vector to be used when finally encoding through a competition process between the prediction vectors. You can choose. According to an embodiment of the present invention, the multi-view video encoding apparatus 101 may extract a prediction vector having the best encoding performance from the extracted prediction vectors.
일례로, 예측 벡터 결정부(202)는 (1)임계값, (2) 최종 결정된 움직임/변이 벡터와 예측 벡터의 거리, (3) 예측 벡터로 부호화했을 때 필요한 비트량 및 화질 열화 정도 또는 (4) 예측 벡터로 부호화했을 때 비용 함수 중 적어도 하나를 고려하여 부호화 성능이 가장 좋은 예측 벡터를 결정할 수 있다.For example, the prediction vector determiner 202 may include (1) a threshold value, (2) a distance between a final determined motion / disparity vector and a prediction vector, (3) a degree of bit quantity and image quality deterioration necessary when encoded with a prediction vector, or ( 4) The prediction vector having the best encoding performance may be determined by considering at least one of the cost functions when the prediction vector is encoded.
여기서, 비용 함수는 하기 수학식 1에 따라 결정될 수 있다.Here, the cost function may be determined according to Equation 1 below.
Figure PCTKR2012000136-appb-I000002
Figure PCTKR2012000136-appb-I000002
여기서, SSD(Sum of Square Difference)는 현재 블록(s)과 예측 벡터에 기초한 예측 블록(r)의 차분 값들을 제곱한 값이고, λ은 라그랑지안 계수이다. R은 부호화 모드(mode)로 부호화하고자 하는 현재 프레임과 움직임 예측 또는 변이 예측을 통해 도출된 참조 프레임의 차분으로 얻어진 신호를 부호화 했을 때 필요한 비트수이다. 그리고 R은 예측 벡터의 종류를 나타내는 인덱스 비트도 포함한다.Here, the sum of square difference (SSD) is a squared difference value between the current block s and the prediction block r based on the prediction vector, and λ is a Lagrangian coefficient. R is the number of bits required when encoding a signal obtained by the difference between a current frame to be encoded in a coding mode and a reference frame derived through motion prediction or disparity prediction. R also includes index bits indicating the types of prediction vectors.
경쟁 기반의 움직임 정보 또는 변이 정보를 부호화하기 위해 예측 벡터의 인덱스를 이진화하여 인덱스 비트를 생성하는 것이 중요하다. 인덱스 비트는 아래 표 2와 같이 정의될 수 있다. 공간상, 시간상 및 시점상 예측 벡터의 후보들이 모두 동일하다면, 다시점 비디오 부호화 장치(101)는 인덱스 비트를 다시점 비디오 복호화 장치(102)에 전송하지 않을 수 있다. It is important to generate an index bit by binarizing the index of the prediction vector in order to encode contention-based motion information or disparity information. Index bits may be defined as shown in Table 2 below. If the candidates of the spatial, temporal and viewpoint prediction vectors are all the same, the multiview video encoding apparatus 101 may not transmit the index bit to the multiview video decoding apparatus 102.
Figure PCTKR2012000136-appb-I000003
Figure PCTKR2012000136-appb-I000003
도 7은 본 발명의 일실시예에 따라 인터 모드/인트라 모드로 동작하는 다시점 비디오 부호화 장치를 도시한 도면이다.7 is a diagram illustrating a multiview video encoding apparatus operating in an inter mode / intra mode according to an embodiment of the present invention.
도 7에서, 인터 모드/인트라 모드는 부호화하고자 하는 현재 블록과 움직임 예측을 통해 추출된 움직임 벡터가 가리키는 예측 블록 간의 차이인 잔차 신호를 부호화하는 것을 의미한다. 인터 모드는 예측 블록이 현재 블록과 다른 프레임에 위치하는 것을 의미하고, 인트라 모드는 현재 블록과 예측 블록이 동일한 프레임에 위치하는 것을 의미한다. 이 때, 공간상 예측 벡터는 인트라 모드로 부호화할 때 사용되고, 시간상 예측 벡터와 시점상 예측 벡터는 인터 모드로 부호화할 때 사용될 수 있다.In FIG. 7, inter mode / intra mode means encoding a residual signal that is a difference between a current block to be encoded and a prediction block indicated by a motion vector extracted through motion prediction. The inter mode means that the prediction block is located in a different frame from the current block, and the intra mode means that the current block and the prediction block are located in the same frame. In this case, the spatial prediction vector may be used when encoding in the intra mode, and the temporal prediction vector and the viewpoint prediction vector may be used when encoding in the inter mode.
본 발명의 일실시예에 따른 다시점 비디오 부호화 장치(101)는 부호화하고자 하는 현재 블록에 대응하는 예측 벡터를 추출할 수 있다. 이 때, 예측 벡터는 공간상 예측 벡터, 시간상 예측 벡터 및 시점상 예측 벡터 중 적어도 하나를 포함할 수 있다.The multi-view video encoding apparatus 101 according to an embodiment of the present invention may extract a prediction vector corresponding to the current block to be encoded. In this case, the prediction vector may include at least one of a spatial prediction vector, a temporal prediction vector, and a viewpoint prediction vector.
만약, 예측 벡터가 2개이상 추출되는 경우, 다시점 비디오 부호화 장치(101)는 예측 벡터들 간의 경쟁에 기초하여 추출된 최종적인 예측 벡터를 이용하여 입력 영상을 부호화할 수 있다. 구체적으로, 다시점 비디오 부호화 장치(101)는 공간상 예측 벡터, 시간상 예측 벡터 및 시점상 예측 벡터 중 부호화 성능이 가장 좋은 예측 벡터를 선택하여 부호화하고자 하는 현재 프레임을 부호화하기 위한 최종적인 예측 벡터를 결정할 수 있다. 그러면, 다시점 비디오 부호화 장치(101)는 예측 벡터가 가리키는 참조 프레임에 기초하여 현재 블록을 부호화한다.If two or more prediction vectors are extracted, the multiview video encoding apparatus 101 may encode the input image using the final prediction vectors extracted based on the competition between the prediction vectors. In detail, the multi-view video encoding apparatus 101 selects a prediction vector having the best encoding performance among a spatial prediction vector, a temporal prediction vector, and a viewpoint prediction vector to select a final prediction vector for encoding a current frame to be encoded. You can decide. Then, the multi-view video encoding apparatus 101 encodes the current block based on the reference frame indicated by the prediction vector.
다시점 비디오 부호화 장치(101)는 부호화를 진행한 결과 다시점 비디오의 비트스트림을 다시점 비디오 복호화 장치(102)에 전송한다. 그리고, 다시점 비디오 부호화 장치(101)는 다시점 비디오를 부호화할 때 사용한 예측 벡터의 종류를 알려주는 인덱스 비트도 비트스트림을 통해 다시점 비디오 복호화 장치(102)에 전송할 수 있다.The multiview video encoding apparatus 101 transmits the bitstream of the multiview video to the multiview video decoding apparatus 102 as a result of encoding. The multiview video encoding apparatus 101 may also transmit an index bit indicating a type of a prediction vector used when encoding the multiview video to the multiview video decoding apparatus 102 through a bitstream.
도 8은 본 발명의 일실시예에 따라 스킵 모드로 동작하는 다시점 비디오 부호화 장치를 도시한 도면이다.8 is a diagram illustrating a multiview video encoding apparatus operating in a skip mode according to an embodiment of the present invention.
도 8의 다시점 비디오 부호화 장치(101)는 도 7의 다시점 비디오 부호화 장치와 비교했을 때 잔차 신호를 부호화하지 않는다. 즉, 도 8의 다시점 비디오 부호화 장치(101)는 현재 블록에 대한 움직임 예측 또는 변이 예측을 통해 도출된 예측 블록과 현재 블록 간의 차이인 잔차 신호를 부호화하지 않는다. 대신, 다시점 비디오 부호화 장치(101)는 현재 블록이 스킵 모드에 따라 부호화되었다는 정보(인덱스 비트)만 비트스트림에 포함시켜 다시점 비디오 복호화 장치(102)에 전송할 수 있다.The multiview video encoding apparatus 101 of FIG. 8 does not encode a residual signal when compared with the multiview video encoding apparatus of FIG. 7. That is, the multi-view video encoding apparatus 101 of FIG. 8 does not encode a residual signal that is a difference between a prediction block derived through motion prediction or disparity prediction for the current block and the current block. Instead, the multi-view video encoding apparatus 101 may include information (index bits) indicating that the current block is encoded according to the skip mode and transmit the information to the multi-view video decoding apparatus 102.
도 9는 본 발명의 일실시예에 따라 인터 모드/인트라 모드로 동작하는 다시점 비디오 복호화 장치를 도시한 도면이다.9 is a diagram illustrating a multiview video decoding apparatus operating in an inter mode / intra mode according to an embodiment of the present invention.
도 9를 참고하면, 다시점 비디오 부호화 장치(101)를 통해 전송된 비트스트림에는 복원하고자 하는 블록에 대한 부호화 정보, 블록에 대한 잔차 신호가 포함될 수 있다.Referring to FIG. 9, the bitstream transmitted through the multiview video encoding apparatus 101 may include encoding information of a block to be reconstructed and a residual signal of the block.
예를 들어, 복원하고자 하는 현재 블록이 인터 모드/인트라 모드로 부호화된 경우, 다시점 비디오 복호화 장치(102)는 현재 블록과 관련된 예측 벡터를 추출할 수 있다. 이 때, 현재 블록과 관련된 예측 벡터은 비트스트림에 포함된 인덱스 비트로 결정될 수 있다. 그러면, 다시점 비디오 복호화 장치(102)는 예측 벡터에 기초하여 현재 블록을 움직임 보상 또는 변이 보상함으로써 예측 비디오를 생성할 수 있고, 비트스트림에 포함된 잔차 신호와 결합하여 최종적인 출력 비디오를 생성할 수 있다. 이 때, 예측 벡터는 공간상 예측 벡터, 시간상 예측 벡터 또는 시점상 예측 벡터 중 어느 하나일 수 있다.For example, when the current block to be reconstructed is encoded in the inter mode / intra mode, the multiview video decoding apparatus 102 may extract a prediction vector associated with the current block. In this case, the prediction vector associated with the current block may be determined as index bits included in the bitstream. Then, the multi-view video decoding apparatus 102 may generate the predictive video by motion compensation or disparity compensation of the current block based on the predictive vector, and generate the final output video by combining with the residual signal included in the bitstream. Can be. In this case, the prediction vector may be any one of a spatial prediction vector, a temporal prediction vector, or a viewpoint prediction vector.
도 10은 본 발명의 일실시예에 따라 스킵 모드로 동작하는 다시점 비디오 복호화 장치를 도시한 도면이다.10 is a diagram illustrating a multiview video decoding apparatus operating in a skip mode according to an embodiment of the present invention.
다시점 비디오 복호화 장치(102)는 복원하고자 하는 현재 블록와 관련한 예측 벡터에 기초하여 움직임 보상 또는 변이 보상을 수행함으로써 예측 비디오를 생성할 수 있다. 이 때, 예측 벡터는 비트스트림에 포함된 현재 블록의 인덱스 비트에 따라 결정될 수 있다.The multi-view video decoding apparatus 102 may generate the predictive video by performing motion compensation or disparity compensation based on the prediction vector associated with the current block to be reconstructed. In this case, the prediction vector may be determined according to the index bits of the current block included in the bitstream.
스킵 모드로 부호화된 현재 블록은 잔차 신호가 전송되지 않고 부호화되었기 때문에, 다시점 비디오 복호화 장치(102)에서 생성된 예측 비디오는 그대로 출력 비디오가 될 수 있다.Since the current block encoded in the skip mode is encoded without transmitting the residual signal, the prediction video generated by the multi-view video decoding apparatus 102 may be an output video as it is.
본 발명의 실시 예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. Methods according to an embodiment of the present invention can be implemented in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. Program instructions recorded on the media may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.As described above, the present invention has been described by way of limited embodiments and drawings, but the present invention is not limited to the above embodiments, and those skilled in the art to which the present invention pertains various modifications and variations from such descriptions. This is possible.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.Therefore, the scope of the present invention should not be limited to the described embodiments, but should be determined not only by the claims below but also by the equivalents of the claims.

Claims (35)

  1. 부호화하고자 하는 현재 블록의 공간상 예측 벡터를 추출하는 예측 벡터 추출부; 및A prediction vector extracting unit which extracts a spatial prediction vector of the current block to be encoded; And
    상기 현재 블록의 공간상 예측 벡터를 식별하기 위한 인덱스를 비트스트림을 통해 다시점 비디오 복호화 장치에 전송하는 인덱스 전송부An index transmitter for transmitting an index for identifying a spatial prediction vector of the current block to a multi-view video decoding apparatus through a bitstream
    를 포함하는 다시점 비디오 부호화 장치.Multiview video encoding apparatus comprising a.
  2. 제1항에 있어서,The method of claim 1,
    상기 공간상 예측 벡터는,The spatial prediction vector is
    상기 현재 블록의 좌측 블록에 대응하는 제1 움직임 벡터, 현재 블록의 상단 블록에 대응하는 제2 움직임 벡터, 현재 블록의 좌측 상단 블록에 대응하는 제3 움직임 벡터 또는 현재 블록의 우측 상단 블록에 대응하는 제4 움직임 벡터 및 상기 제1 움직임 벡터, 제2 움직임 벡터, 제3 움직임 벡터 및 제4 움직임 벡터에 미디언 필터가 적용된 제5 움직임 벡터 중 적어도 하나를 포함하는 것을 특징으로 하는 다시점 비디오 부호화 장치.A first motion vector corresponding to a left block of the current block, a second motion vector corresponding to a top block of the current block, a third motion vector corresponding to a top left block of the current block, or a top right block of the current block And a fourth motion vector and at least one of a fifth motion vector to which a median filter is applied to the first motion vector, the second motion vector, the third motion vector, and the fourth motion vector. .
  3. 제1항에 있어서,The method of claim 1,
    상기 공간상 예측 벡터는,The spatial prediction vector is
    상기 현재 블록의 좌측 블록에 대응하는 제1 변이 벡터, 현재 블록의 상단 블록에 대응하는 제2 변이 벡터, 현재 블록의 좌측 상단 블록에 대응하는 제3 변이 벡터 또는 현재 블록의 우측 상단 블록에 대응하는 제4 변이 벡터 및 상기 제1 변이 벡터, 제2 변이 벡터, 제3 변이 벡터 및 제4 변이 벡터에 미디언 필터가 적용된 제5 변이 벡터 중 적어도 하나를 포함하는 것을 특징으로 하는 다시점 비디오 부호화 장치.A first disparity vector corresponding to a left block of the current block, a second disparity vector corresponding to an upper block of the current block, a third disparity vector corresponding to an upper left block of the current block, or a top right block of the current block A multiview video encoding apparatus comprising at least one of a fourth variation vector and a fifth variation vector to which a median filter is applied to the first variation vector, the second variation vector, the third variation vector, and the fourth variation vector. .
  4. 부호화하고자 하는 현재 블록의 시간상 예측 벡터를 추출하는 예측 벡터 추출부; 및A prediction vector extracting unit which extracts a temporal prediction vector of a current block to be encoded; And
    상기 현재 블록의 시간상 예측 벡터를 식별하기 위한 인덱스를 비트스트림을 통해 다시점 비디오 복호화 장치에 전송하는 인덱스 전송부An index transmitter for transmitting an index for identifying a temporal prediction vector of the current block to a multi-view video decoding apparatus through a bitstream
    를 포함하는 다시점 비디오 부호화 장치.Multiview video encoding apparatus comprising a.
  5. 제4항에 있어서,The method of claim 4, wherein
    상기 시간상 예측 벡터는,The temporal prediction vector is
    상기 현재 블록이 포함된 프레임과 다른 시간에 대응하는 프레임에서 현재 블록과 동일한 위치에 있는 제1 타겟 블록의 움직임 벡터(Motion Vector: MV) 또는 변이 벡터(Disparity Vector: DV)를 포함하는 것을 특징으로 하는 다시점 비디오 부호화 장치.And a motion vector (MV) or a disparity vector (DV) of the first target block at the same position as the current block in a frame corresponding to a different time than the frame including the current block. Multiview video encoding apparatus.
  6. 제4항에 있어서,The method of claim 4, wherein
    상기 시간상 예측 벡터는,The temporal prediction vector is
    상기 현재 블록이 포함된 프레임과 다른 시간에 대응하는 프레임에서 현재 블록과 동일한 위치에 있는 제1 타겟 블록에 인접하는 주변 블록들의 움직임 벡터 또는 변이 벡터를 포함하는 것을 특징으로 하는 다시점 비디오 부호화 장치.And a motion vector or a disparity vector of neighboring blocks adjacent to the first target block at the same position as the current block in a frame corresponding to a different time than the frame including the current block.
  7. 제4항에 있어서,The method of claim 4, wherein
    상기 시간상 예측 벡터는,The temporal prediction vector is
    상기 현재 블록이 포함된 프레임과 다른 시간에 대응하는 프레임에서 현재 블록과 가장 유사한 제2 타겟 블록의 움직임 벡터 또는 변이 벡터를 포함하는 것을 특징으로 하는 다시점 비디오 부호화 장치.And a motion vector or a disparity vector of a second target block most similar to the current block in a frame corresponding to a time different from that of the frame including the current block.
  8. 부호화하고자 하는 현재 블록의 시점상 예측 벡터를 추출하는 예측 벡터 추출부; 및A prediction vector extracting unit which extracts a prediction vector of a view of a current block to be encoded; And
    상기 현재 블록의 시점상 예측 벡터를 식별하기 위한 인덱스를 비트스트림을 통해 다시점 비디오 복호화 장치에 전송하는 인덱스 전송부An index transmitter for transmitting an index for identifying the viewpoint prediction vector of the current block to a multi-view video decoding apparatus through a bitstream
    를 포함하는 다시점 비디오 부호화 장치.Multiview video encoding apparatus comprising a.
  9. 제8항에 있어서,The method of claim 8,
    상기 시점상 예측 벡터는,The viewpoint prediction vector is,
    상기 현재 블록이 포함된 프레임과 다른 시점에 대응하는 프레임에서 현재 블록과 동일한 위치에 있는 제1 타겟 블록의 움직임 벡터 또는 변이 벡터를 포함하는 것을 특징으로 하는 다시점 비디오 부호화 장치.And a motion vector or a disparity vector of a first target block located at the same position as the current block in a frame corresponding to a different viewpoint than the frame including the current block.
  10. 제8항에 있어서,The method of claim 8,
    상기 시점상 예측 벡터는,The viewpoint prediction vector is,
    상기 현재 블록이 포함된 프레임과 다른 시점에 대응하는 프레임에서 현재 블록과 동일한 위치에 있는 제1 타겟 블록에 인접하는 주변 블록들의 움직임 벡터 또는 변이 벡터를 포함하는 것을 특징으로 하는 다시점 비디오 부호화 장치.And a motion vector or a disparity vector of neighboring blocks adjacent to the first target block at the same position as the current block in a frame corresponding to a different viewpoint than the frame including the current block.
  11. 제8항에 있어서,The method of claim 8,
    상기 시점상 예측 벡터는,The viewpoint prediction vector is,
    상기 현재 블록이 포함된 프레임과 다른 시점에 대응하는 프레임에서 현재 블록과 가장 유사한 제2 타겟 블록의 움직임 벡터 또는 변이 벡터를 포함하는 것을 특징으로 하는 다시점 비디오 부호화 장치.And a motion vector or a disparity vector of a second target block most similar to the current block in a frame corresponding to a viewpoint different from the frame including the current block.
  12. 부호화하고자 하는 현재 블록의 공간상 예측 벡터, 시간상 예측 벡터 및 공간상 예측 벡터를 추출하는 예측 벡터 추출부; 및A prediction vector extracting unit which extracts a spatial prediction vector, a temporal prediction vector, and a spatial prediction vector of a current block to be encoded; And
    상기 공간상 예측 벡터, 시간상 예측 벡터 및 공간상 예측 벡터 중 현재 블록을 부호화할 때 사용한 예측 벡터를 식별하는 인덱스를 비트스트림을 통해 다시점 비디오 복호화 장치에 전송하는 인덱스 전송부An index transmitter which transmits an index for identifying a prediction vector used to encode a current block among the spatial prediction vector, the temporal prediction vector, and the spatial prediction vector to a multi-view video decoding apparatus through a bitstream.
    를 포함하는 다시점 비디오 부호화 장치.Multiview video encoding apparatus comprising a.
  13. 제12항에 있어서,The method of claim 12,
    상기 인덱스 전송부는,The index transmission unit,
    임계값, 예측 벡터의 거리, 예측 벡터로 압축했을 때 필요한 비트량 및 화질 열화 정도 또는 예측 벡터로 압축했을 때 비용 함수 중 적어도 하나를 고려하여 상기 공간상 예측 벡터, 시간상 예측 벡터 및 공간상 예측 벡터 중 부호화 성능이 가장 좋은 예측 벡터를 식별하는 인덱스를 전송하는 다시점 비디오 부호화 장치.The spatial prediction vector, the temporal prediction vector, and the spatial prediction vector in consideration of at least one of a threshold value, a distance of the prediction vector, a bit quantity required for compression into the prediction vector, a degree of image quality degradation, or a cost function when compressed into the prediction vector. A multiview video encoding apparatus for transmitting an index for identifying a prediction vector having the best encoding performance.
  14. 다시점 비디오 부호화 장치에서 수신한 비트스트림으로부터 예측 벡터의 인덱스를 추출하는 인덱스 추출부; 및An index extractor which extracts an index of a prediction vector from a bitstream received by a multiview video encoding apparatus; And
    상기 인덱스에 기초하여 공간상 예측 벡터를 현재 블록을 복원하기 위한 최종 예측 벡터로 결정하는 예측 벡터 결정부A prediction vector determiner that determines a spatial prediction vector as a final prediction vector for reconstructing a current block based on the index.
    를 포함하는 다시점 비디오 복호화 장치.Multi-view video decoding apparatus comprising a.
  15. 제14항에 있어서,The method of claim 14,
    상기 공간상 예측 벡터는,The spatial prediction vector is
    상기 현재 블록의 좌측 블록에 대응하는 제1 움직임 벡터, 현재 블록의 상단 블록에 대응하는 제2 움직임 벡터, 현재 블록의 좌측 상단 블록에 대응하는 제3 움직임 벡터 또는 현재 블록의 우측 상단 블록에 대응하는 제4 움직임 벡터 및 상기 제1 움직임 벡터, 제2 움직임 벡터, 제3 움직임 벡터 및 제4 움직임 벡터에 미디언 필터가 적용된 제5 움직임 벡터 중 적어도 하나를 포함하는 것을 특징으로 하는 다시점 비디오 복호화 장치.A first motion vector corresponding to a left block of the current block, a second motion vector corresponding to a top block of the current block, a third motion vector corresponding to a top left block of the current block, or a top right block of the current block And a fourth motion vector and at least one of a fifth motion vector to which a median filter is applied to the first motion vector, the second motion vector, the third motion vector, and the fourth motion vector. .
  16. 제14항에 있어서,The method of claim 14,
    상기 공간상 예측 벡터는,The spatial prediction vector is
    상기 현재 블록의 좌측 블록에 대응하는 제1 변이 벡터, 현재 블록의 상단 블록에 대응하는 제2 변이 벡터, 현재 블록의 좌측 상단 블록에 대응하는 제3 변이 벡터 또는 현재 블록의 우측 상단 블록에 대응하는 제4 변이 벡터 및 상기 제1 변이 벡터, 제2 변이 벡터, 제3 변이 벡터 및 제4 변이 벡터에 미디언 필터가 적용된 제5 변이 벡터 중 적어도 하나를 포함하는 것을 특징으로 하는 다시점 비디오 복호화 장치.A first disparity vector corresponding to a left block of the current block, a second disparity vector corresponding to an upper block of the current block, a third disparity vector corresponding to an upper left block of the current block, or a top right block of the current block And a fourth variation vector and at least one of a first variation vector, a second variation vector, a third variation vector, and a fifth variation vector to which a median filter is applied to the fourth variation vector. .
  17. 다시점 비디오 부호화 장치에서 수신한 비트스트림으로부터 예측 벡터의 인덱스를 추출하는 인덱스 추출부; 및An index extractor which extracts an index of a prediction vector from a bitstream received by a multiview video encoding apparatus; And
    상기 인덱스에 기초하여 시간상 예측 벡터를 현재 블록을 복원하기 위한 최종 예측 벡터로 결정하는 예측 벡터 결정부A prediction vector determiner that determines a temporal prediction vector as a final prediction vector for reconstructing a current block based on the index.
    를 포함하는 다시점 비디오 복호화 장치.Multi-view video decoding apparatus comprising a.
  18. 제17항에 있어서,The method of claim 17,
    상기 시간상 예측 벡터는,The temporal prediction vector is
    상기 현재 블록이 포함된 프레임과 다른 시간에 대응하는 프레임에서 현재 블록과 동일한 위치에 있는 제1 타겟 블록의 움직임 벡터 또는 변이 벡터를 포함하는 것을 특징으로 하는 다시점 비디오 복호화 장치.And a motion vector or a disparity vector of a first target block located at the same position as the current block in a frame corresponding to a different time from the frame including the current block.
  19. 제17항에 있어서,The method of claim 17,
    상기 시간상 예측 벡터는,The temporal prediction vector is
    상기 현재 블록이 포함된 프레임과 다른 시간에 대응하는 프레임에서 현재 블록과 동일한 위치에 있는 제1 타겟 블록에 인접하는 주변 블록들의 움직임 벡터 또는 변이 벡터를 포함하는 것을 특징으로 하는 다시점 비디오 복호화 장치.And a motion vector or a disparity vector of neighboring blocks adjacent to the first target block at the same position as the current block in a frame corresponding to a different time than the frame including the current block.
  20. 제17항에 있어서,The method of claim 17,
    상기 시간상 예측 벡터는,The temporal prediction vector is
    상기 현재 블록이 포함된 프레임과 다른 시간에 대응하는 프레임에서 현재 블록과 가장 유사한 제2 타겟 블록의 움직임 벡터 또는 변이 벡터를 포함하는 것을 특징으로 하는 다시점 비디오 복호화 장치.And a motion vector or a disparity vector of a second target block that is most similar to the current block in a frame corresponding to a time different from that of the frame including the current block.
  21. 다시점 비디오 부호화 장치에서 수신한 비트스트림으로부터 예측 벡터의 인덱스를 추출하는 인덱스 추출부; 및An index extractor which extracts an index of a prediction vector from a bitstream received by a multiview video encoding apparatus; And
    상기 인덱스에 기초하여 시점상 예측 벡터를 현재 블록을 복원하기 위한 최종 예측 벡터로 결정하는 예측 벡터 결정부A prediction vector determiner that determines a viewpoint prediction vector as a final prediction vector for reconstructing a current block based on the index.
    를 포함하는 다시점 비디오 복호화 장치.Multi-view video decoding apparatus comprising a.
  22. 제21항에 있어서,The method of claim 21,
    상기 시점상 예측 벡터는,The viewpoint prediction vector is,
    상기 현재 블록이 포함된 프레임과 다른 시점에 대응하는 프레임에서 현재 블록과 동일한 위치에 있는 제1 타겟 블록의 움직임 벡터 또는 변이 벡터를 포함하는 것을 특징으로 하는 다시점 비디오 복호화 장치.And a motion vector or a disparity vector of the first target block at the same position as the current block in a frame corresponding to a different viewpoint than the frame including the current block.
  23. 제21항에 있어서,The method of claim 21,
    상기 시점상 예측 벡터는,The viewpoint prediction vector is,
    상기 현재 블록이 포함된 프레임과 다른 시점에 대응하는 프레임에서 현재 블록과 동일한 위치에 있는 제1 타겟 블록에 인접하는 주변 블록들의 움직임 벡터 또는 변이 벡터를 포함하는 것을 특징으로 하는 다시점 비디오 복호화 장치.And a motion vector or a disparity vector of neighboring blocks adjacent to the first target block at the same position as the current block in a frame corresponding to a different viewpoint than the frame including the current block.
  24. 제21항에 있어서,The method of claim 21,
    상기 시점상 예측 벡터는,The viewpoint prediction vector is,
    상기 현재 블록이 포함된 프레임과 다른 시점에 대응하는 프레임에서 현재 블록과 가장 유사한 제2 타겟 블록의 움직임 벡터 또는 변이 벡터를 포함하는 것을 특징으로 하는 다시점 비디오 복호화 장치.And a motion vector or a disparity vector of a second target block most similar to the current block in a frame corresponding to a viewpoint different from the frame including the current block.
  25. 다시점 비디오 부호화 장치에서 수신한 비트스트림으로부터 예측 벡터의 인덱스를 추출하는 인덱스 추출부; 및An index extractor which extracts an index of a prediction vector from a bitstream received by a multiview video encoding apparatus; And
    상기 인덱스에 기초하여 공간상 예측 벡터, 시간상 예측 벡터 및 시점상 예측 벡터 중 현재 블록을 복원하기 위한 최종 예측 벡터를 결정하는 예측 벡터 결정부A prediction vector determiner that determines a final prediction vector for reconstructing a current block among a spatial prediction vector, a temporal prediction vector, and a viewpoint prediction vector based on the index.
    를 포함하는 다시점 비디오 복호화 장치.Multi-view video decoding apparatus comprising a.
  26. 제25항에 있어서,The method of claim 25,
    상기 인덱스 전송부는,The index transmission unit,
    임계값, 예측 벡터의 거리, 예측 벡터로 압축했을 때 필요한 비트량 및 화질 열화 정도 또는 예측 벡터로 압축했을 때 비용 함수 중 적어도 하나를 고려하여 상기 공간상 예측 벡터, 시간상 예측 벡터 및 공간상 예측 벡터 중 부호화 성능이 가장 좋은 예측 벡터를 식별하는 인덱스를 전송하는 다시점 비디오 복호화 장치.The spatial prediction vector, the temporal prediction vector, and the spatial prediction vector in consideration of at least one of a threshold value, a distance of the prediction vector, a bit quantity required for compression into the prediction vector, a degree of image quality degradation, or a cost function when compressed into the prediction vector. A multiview video decoding apparatus for transmitting an index for identifying a prediction vector having the best encoding performance.
  27. 부호화하고자 하는 현재 블록의 공간상 예측 벡터를 추출하는 단계; 및Extracting a spatial prediction vector of a current block to be encoded; And
    상기 현재 블록의 시간상 예측 벡터를 식별하기 위한 인덱스를 비트스트림을 통해 다시점 비디오 복호화 장치에 전송하는 단계Transmitting an index for identifying a temporal prediction vector of the current block to a multi-view video decoding apparatus through a bitstream
    를 포함하는 다시점 비디오 부호화 방법.Multi-view video encoding method comprising a.
  28. 부호화하고자 하는 현재 블록의 시간상 예측 벡터를 추출하는 단계; 및Extracting a temporal prediction vector of the current block to be encoded; And
    상기 현재 블록의 시간상 예측 벡터를 식별하기 위한 인덱스를 비트스트림을 통해 다시점 비디오 복호화 장치에 전송하는 단계Transmitting an index for identifying a temporal prediction vector of the current block to a multi-view video decoding apparatus through a bitstream
    를 포함하는 다시점 비디오 부호화 방법.Multi-view video encoding method comprising a.
  29. 부호화하고자 하는 현재 블록의 시점상 예측 벡터를 추출하는 단계; 및Extracting a prediction prediction vector of a current block to be encoded; And
    상기 현재 블록의 시점상 예측 벡터를 식별하기 위한 인덱스를 비트스트림을 통해 다시점 비디오 복호화 장치에 전송하는 단계Transmitting an index for identifying the viewpoint prediction vector of the current block to a multiview video decoding apparatus through a bitstream
    를 포함하는 다시점 비디오 부호화 방법.Multi-view video encoding method comprising a.
  30. 부호화하고자 하는 현재 블록의 공간상 예측 벡터, 시간상 예측 벡터 및 공간상 예측 벡터를 추출하는 단계; 및Extracting a spatial prediction vector, a temporal prediction vector, and a spatial prediction vector of a current block to be encoded; And
    상기 공간상 예측 벡터, 시간상 예측 벡터 및 공간상 예측 벡터 중 현재 블록을 부호화할 때 사용한 예측 벡터를 식별하는 인덱스를 비트스트림을 통해 다시점 비디오 복호화 장치에 전송하는 단계Transmitting an index for identifying a prediction vector used to encode a current block among the spatial prediction vector, the temporal prediction vector, and the spatial prediction vector to a multi-view video decoding apparatus through a bitstream;
    를 포함하는 다시점 비디오 부호화 방법.Multi-view video encoding method comprising a.
  31. 다시점 비디오 부호화 장치에서 수신한 비트스트림으로부터 예측 벡터의 인덱스를 추출하는 단계; 및Extracting an index of the prediction vector from the bitstream received by the multiview video encoding apparatus; And
    상기 인덱스에 기초하여 공간상 예측 벡터를 현재 블록을 복원하기 위한 최종 예측 벡터로 결정하는 단계Determining a spatial prediction vector as a final prediction vector for reconstructing a current block based on the index
    를 포함하는 다시점 비디오 복호화 방법.Multi-view video decoding method comprising a.
  32. 다시점 비디오 부호화 장치에서 수신한 비트스트림으로부터 예측 벡터의 인덱스를 추출하는 단계; 및Extracting an index of the prediction vector from the bitstream received by the multiview video encoding apparatus; And
    상기 인덱스에 기초하여 시간상 예측 벡터를 현재 블록을 복원하기 위한 최종 예측 벡터로 결정하는 단계Determining a temporal prediction vector as a final prediction vector for reconstructing a current block based on the index
    를 포함하는 다시점 비디오 복호화 방법.Multi-view video decoding method comprising a.
  33. 다시점 비디오 부호화 장치에서 수신한 비트스트림으로부터 예측 벡터의 인덱스를 추출하는 단계; 및Extracting an index of the prediction vector from the bitstream received by the multiview video encoding apparatus; And
    상기 인덱스에 기초하여 시점상 예측 벡터를 현재 블록을 복원하기 위한 최종 예측 벡터로 결정하는 단계Determining a viewpoint prediction vector as a final prediction vector for reconstructing a current block based on the index
    를 포함하는 다시점 비디오 복호화 방법.Multi-view video decoding method comprising a.
  34. 다시점 비디오 부호화 장치에서 수신한 비트스트림으로부터 예측 벡터의 인덱스를 추출하는 단계; 및Extracting an index of the prediction vector from the bitstream received by the multiview video encoding apparatus; And
    상기 인덱스에 기초하여 공간상 예측 벡터, 시간상 예측 벡터 및 시점상 예측 벡터 중 현재 블록을 복원하기 위한 최종 예측 벡터를 결정하는 단계Determining a final prediction vector for reconstructing a current block among a spatial prediction vector, a temporal prediction vector, and a viewpoint prediction vector based on the index;
    를 포함하는 다시점 비디오 복호화 방법.Multi-view video decoding method comprising a.
  35. 제27항 내지 제34항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한 기록 매체.A computer-readable recording medium having recorded thereon a program for executing the method of any one of claims 27-34.
PCT/KR2012/000136 2011-01-06 2012-01-06 Competition-based multiview video encoding/decoding device and method thereof WO2012093879A2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US13/978,609 US20140002599A1 (en) 2011-01-06 2012-01-06 Competition-based multiview video encoding/decoding device and method thereof

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2011-0001341 2011-01-06
KR20110001341 2011-01-06
KR10-2011-0126950 2011-11-30
KR1020110126950A KR20120080122A (en) 2011-01-06 2011-11-30 Apparatus and method for encoding and decoding multi-view video based competition

Publications (2)

Publication Number Publication Date
WO2012093879A2 true WO2012093879A2 (en) 2012-07-12
WO2012093879A3 WO2012093879A3 (en) 2012-11-29

Family

ID=46457865

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2012/000136 WO2012093879A2 (en) 2011-01-06 2012-01-06 Competition-based multiview video encoding/decoding device and method thereof

Country Status (1)

Country Link
WO (1) WO2012093879A2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104782126A (en) * 2012-09-28 2015-07-15 三星电子株式会社 Apparatus and method for coding/decoding multi-view image

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070039290A (en) * 2005-10-07 2007-04-11 전자부품연구원 Method for efficiently compressing 2d multi-view images
JP2007104699A (en) * 2002-04-18 2007-04-19 Toshiba Corp Animation encoding method and apparatus
KR20090099096A (en) * 2006-03-30 2009-09-21 엘지전자 주식회사 A method and apparatus for decoding/encoding a video signal

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007104699A (en) * 2002-04-18 2007-04-19 Toshiba Corp Animation encoding method and apparatus
KR20070039290A (en) * 2005-10-07 2007-04-11 전자부품연구원 Method for efficiently compressing 2d multi-view images
KR20090099096A (en) * 2006-03-30 2009-09-21 엘지전자 주식회사 A method and apparatus for decoding/encoding a video signal

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104782126A (en) * 2012-09-28 2015-07-15 三星电子株式会社 Apparatus and method for coding/decoding multi-view image
US9900620B2 (en) 2012-09-28 2018-02-20 Samsung Electronics Co., Ltd. Apparatus and method for coding/decoding multi-view image
CN104782126B (en) * 2012-09-28 2019-01-18 三星电子株式会社 Device and method for being encoded/decoded to multi-view image

Also Published As

Publication number Publication date
WO2012093879A3 (en) 2012-11-29

Similar Documents

Publication Publication Date Title
WO2015142054A1 (en) Method and apparatus for processing multiview video signals
WO2011068331A2 (en) Video encoding device and encoding method thereof, video decoding device and decoding method thereof, and directional intra-prediction method to be used thereto
WO2010068020A2 (en) Multi- view video coding/decoding method and apparatus
WO2013032074A1 (en) Apparatus for decoding merge mode motion information
WO2012144821A2 (en) Method and apparatus for unified scalable video encoding for multi-view video and method and apparatus for unified scalable video decoding for multi-view video
WO2011145819A2 (en) Image encoding/decoding device and method
KR20120080122A (en) Apparatus and method for encoding and decoding multi-view video based competition
WO2012081877A2 (en) Multi-view video encoding/decoding apparatus and method
WO2010050706A2 (en) Method and apparatus for encoding a motion vector, and method and apparatus for encoding/decoding image using same
WO2013069932A1 (en) Method and apparatus for encoding image, and method and apparatus for decoding image
WO2015142057A1 (en) Method and apparatus for processing multiview video signals
WO2016056822A1 (en) 3d video coding method and device
WO2011108879A2 (en) Video coding device, video coding method thereof, video decoding device, and video decoding method thereof
WO2012011672A2 (en) Method and device for encoding/decoding image using extended skip mode
WO2014168443A1 (en) Method and apparatus for processing video signal
WO2016056821A1 (en) Movement information compression method and device for 3d video coding
WO2015057033A1 (en) Method and apparatus for coding/decoding 3d video
WO2014010918A1 (en) Method and device for processing video signal
WO2012053796A2 (en) Apparatus and method for encoding/decoding a differential motion vector, and apparatus and method for encoding/decoding video using same
WO2014171709A1 (en) Object-based adaptive brightness compensation method and apparatus
WO2009108028A1 (en) Method for decoding free viewpoint image, and apparatus for implementing the same
WO2016003209A1 (en) Method and device for processing multi-view video signal
WO2014107098A1 (en) Method and device for generating parameter set for image encoding/decoding
WO2013133587A1 (en) Method and apparatus for processing video signals
WO2015182927A1 (en) Multi-view video signal processing method and apparatus

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12731940

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase in:

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13978609

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 12731940

Country of ref document: EP

Kind code of ref document: A2