WO2020122308A1 - 다시점 영상 정보의 복호화 방법 및 장치 - Google Patents

다시점 영상 정보의 복호화 방법 및 장치 Download PDF

Info

Publication number
WO2020122308A1
WO2020122308A1 PCT/KR2018/016934 KR2018016934W WO2020122308A1 WO 2020122308 A1 WO2020122308 A1 WO 2020122308A1 KR 2018016934 W KR2018016934 W KR 2018016934W WO 2020122308 A1 WO2020122308 A1 WO 2020122308A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
images
image
decoding
view image
Prior art date
Application number
PCT/KR2018/016934
Other languages
English (en)
French (fr)
Inventor
조용범
이기승
Original Assignee
건국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 건국대학교 산학협력단 filed Critical 건국대학교 산학협력단
Priority to US16/711,941 priority Critical patent/US11132819B2/en
Publication of WO2020122308A1 publication Critical patent/WO2020122308A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/179Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scene or a shot
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution

Definitions

  • the present invention relates to a method and apparatus for decoding multi-view image information.
  • the HEVC standard was announced as an extension to the MV-HEVC verification test, with a 30% reduction in speed compared to independent HEVC coding.
  • Multi-view video coding can allow a user to freely select a video from another view.
  • the simplest structure for multi-view video is the multi-view HEVC (MV-HEVC) HEVC extension.
  • MV-HEVC unlike HEVC, has a plurality of sequences of information, so not only motion estimation of the time axis (Motion Estimation, ME) is required, but motion estimation of the spatial axis (Disparity Estimation DE) is essential. Through these two predictions, MV-HEVC has higher compression efficiency.
  • MV-HEVC has become difficult to process in real time.
  • decoding 4 UHD-class images is not possible in a consumer-level computer.
  • MC motion compensation
  • DRC spatial compensation
  • MV-HEVC decoder can have better performance when reducing the time of the spatial axis compensation (Disparity Compensation DC) process.
  • the present application aims to provide a method optimized for MV-HEVC by using the SVM learning method to reduce the time consumption in the spatial axis compensation (Disparity Compensation DC) as a solution to the above-described problems of the prior art.
  • a method of decoding multi-view image information includes a bit stream of image data of a plurality of images captured by a plurality of cameras. Receiving, extracting depth information of blocks in an image frame of a plurality of images from image data included in the bit stream to generate first information, and determining whether the same motion estimation occurs between image frames of a plurality of images Generating second information, extracting pixel information of blocks in an image frame of the plurality of images, and generating third information, and performing pre-trained multi-view image information on a spatial compensation model. And inputting the first information to the third information, performing block matching between image frames of a plurality of images and performing spatial compensation.
  • a method of decoding multi-view image information extracts depth information of a block in an image frame of a plurality of images from image data of a plurality of images captured by a plurality of cameras, and determines a depth information similarity value.
  • Calculating a motion estimation value by determining whether the same motion estimation occurs between image frames of a plurality of images, calculating pixel information similarity values by extracting pixel information of blocks in an image frame of a plurality of images; and
  • the method may further include generating a spatial compensation model of the pre-trained multi-view image information using a machine learning algorithm based on the depth information similarity value, the motion estimation value, and the pixel information similarity value.
  • the machine learning algorithm may include a support vector machine (SVM).
  • SVM support vector machine
  • the depth information in an image frame of the plurality of images may include size information or a tree structure of a coding unit (CU) from 64x64 to 8x8 of each block in the image frame. .
  • CU coding unit
  • determining whether the same motion estimation occurs between image frames of the plurality of images and calculating a motion estimation value may include, when the prediction units of corresponding blocks between image frames are the same. It is determined that the same motion estimation has occurred between image frames and a preset motion estimation value can be assigned.
  • a method of decoding multi-view image information extracts depth information of a block in an image frame of a plurality of images from image data of a plurality of images captured by a plurality of cameras, and determines a depth information similarity value.
  • the method may include decoding image data captured and coded by a plurality of cameras.
  • the machine learning algorithm may include a support vector machine (SVM).
  • SVM support vector machine
  • the decoding of the image data may include receiving a bit stream of encoded image data photographed by a plurality of cameras, from the image data included in the bit stream. Generating first information by extracting depth information of blocks in an image frame of a plurality of images, determining whether the same motion estimation occurs between image frames of a plurality of images and generating second information, and generating the second information. Extracting pixel information of blocks in an image frame to generate third information, and inputting first or third information into a spatial compensation model of the multi-view image information to perform block matching between image frames of a plurality of images And performing spatial compensation.
  • the apparatus for decoding multi-view image information includes: a receiver configured to receive a bit stream of image data of a plurality of images photographed by a plurality of cameras, an image included in the bit stream Depth information of blocks in an image frame of a plurality of images, motion estimation information between image frames of a plurality of images, and feature information of the bit stream including pixel information of blocks in the image frames of the plurality of images are extracted from the data. It includes a feature extraction unit and a spatial compensation model of pre-trained multi-view image information, and performs block matching between image frames of a plurality of images by inputting the extracted feature information into the spatial compensation model. And a decoding unit that performs spatial compensation.
  • the spatial compensation model is a depth information similarity value, a plurality of values calculated by extracting depth information of blocks in a video frame of a plurality of images from image data of a plurality of images captured by a plurality of cameras It can be generated using the machine learning algorithm based on the calculated motion estimation value by determining whether the same motion estimation occurs between the video frames of the video and the pixel information of the blocks in the video frame of the multiple images and calculating the similarity of the pixel information. Can be.
  • the feature extraction unit includes: a first information extraction unit that extracts depth information of blocks in a video frame of a plurality of images from image data included in the bit stream, and generates first information; A second information extraction unit to determine whether the same motion estimation between image frames of an image has occurred, and third information to generate third information by extracting pixel information of blocks in the image frames of the plurality of images It may contain wealth.
  • the machine learning algorithm may include a support vector machine (SVM).
  • SVM support vector machine
  • the MV-HEVC decoder can have better performance.
  • FIG. 1 is a diagram schematically illustrating a system for decoding multi-view image information according to an embodiment of the present application.
  • FIG. 2 is a schematic block diagram of an apparatus for decoding multi-view image information according to an embodiment of the present application.
  • 3A is a diagram for explaining motion estimation of MV-HEVC of a multi-view image information decoding apparatus according to an embodiment of the present application.
  • FIG. 3B is a diagram for explaining an inter-frame prediction method in multi-view image coding of a decoding apparatus for multi-view image information according to an embodiment of the present application.
  • FIG. 4 is a view for explaining the generation of first information in the apparatus for decoding multi-view image information according to an embodiment of the present application.
  • FIG. 5 is a view for explaining generation of second information in a device for decoding multi-view image information according to an embodiment of the present application.
  • 6A is a diagram schematically illustrating a training process of a device for decoding multi-view image information according to an embodiment of the present application.
  • 6B is a diagram schematically illustrating a prediction process of an apparatus for decoding multi-view image information according to an embodiment of the present application.
  • FIG. 7 is a first flowchart illustrating a flow of a method for decoding multi-view image information according to an embodiment of the present application.
  • FIG. 8 is a second flow chart illustrating a flow of a method for decoding multi-view image information according to an embodiment of the present application.
  • FIG. 3A is a diagram for explaining motion estimation of MV-HEVC of a multi-view image information decoding apparatus according to an embodiment of the present application
  • FIG. 3B is a multi-view image decoding apparatus multi-view according to an embodiment of the present application
  • multi-view image information is one of three-dimensional (3D) image processing that geometrically corrects images captured by one or more cameras and provides various viewpoints in various directions to a user through spatial synthesis.
  • Field In general, according to a multi-view high efficiency video coding (HEVC) process, a real scene is captured using two or more cameras, and a multi-view video (MVV) sequence is encoded, followed by bitstream. Is transmitted to the MV-HEVC through the receiver side and then through a decoding process, a 3D image can be displayed. In this process, images taken at various viewpoints to generate a stereoscopic image have a large amount of data.
  • HEVC multi-view high efficiency video coding
  • MVV multi-view video
  • a single-view video coding such as MPEG-2, H.264/AVC, or an encoding device optimized for conventional MVV compression can be used. Even if it is compressed using it, there are many restrictions on the implementation.
  • the most frequently used prediction structure in multi-view video encoding is an I-B-P-B-P structure as a view axis, and a prediction as a time axis is a hierarchical B picture structure.
  • 3B is a space-time prediction structure used using a hierarchical B picture.
  • Sn is the camera at the n-th viewpoint
  • Tn is the n-th screen in time. Arrows are reference relationships between each screen.
  • the encoding for the spatio-spatial prediction structure is performed separately for each viewpoint.
  • S0 which is an I view
  • S2 which is a P view
  • S1 which is the B viewpoint
  • Disparity Estimation DE of a spatial axis in a multiple image is a process of measuring redundancy between frames.
  • the present application seeks to provide a decoding method of multi-view image information so that a block that performs motion estimation of a spatial axis using a machine learning algorithm can be easily decoded in a decoding process.
  • FIG. 1 is a schematic block diagram of an apparatus for decoding multi-view image information according to an embodiment of the present application
  • FIG. 2 is a schematic block diagram of an apparatus for decoding multi-view image information according to an embodiment of the present application
  • 7 is a first flowchart illustrating a flow of a method for decoding multi-view image information according to an embodiment of the present application.
  • a method of decoding multi-view image information includes: a bit stream related to image data of a plurality of images captured by a plurality of cameras 2 ( receiving a bit-stream (S101), extracting depth information of blocks in a video frame of a plurality of images from the image data included in the bit stream, and generating first information (S202), images of a plurality of images Determining whether the same motion estimation occurs between frames (S203), extracting pixel information of blocks in an image frame of a plurality of images (S204), and generating training information in advance (S204) It may include the step of performing block matching between image frames of a plurality of images and performing spatial compensation by inputting the first information to the third information in the spatial compensation model of the multi-view image information (S205). have.
  • the system 100 for decoding multi-view image information may include a device 1 for decoding multi-view image information and a plurality of cameras 2.
  • the apparatus 1 for decoding multi-view image information may include a feature extractor 20 and a decoder 30 of the receiver 10.
  • the feature extraction unit 20 may include a first information extraction unit 21, a second information extraction unit 22, and a third information extraction unit 23.
  • the apparatus 1 for decoding multi-view image information is not limited to those disclosed above.
  • the apparatus 1 for decoding multi-view image information may include an encoding apparatus (not shown) and a user terminal (not shown) for multi-view image information.
  • the system 100 for decoding multi-view image information may further include a broadcast server and a device, and a device for receiving a broadcast signal propagated from a broadcast station. Part of the configuration of the multi-view image information decoding system 100 may be provided in one device or a server.
  • the apparatus 1 for decoding multi-view image information and the user terminal 300 may be included in one apparatus.
  • the plurality of cameras 2 may be image cameras that capture images at a plurality of locations.
  • the plurality of video cameras 2 may be video cameras that photograph a plurality of areas or people in a wide range of places such as a stadium or a concert.
  • the arrangement of the plurality of cameras 2 may be one-dimensional parallel, two-dimensional parallel, one-dimensional array, or the like, and may be an image camera that photographs an image at a predetermined interval.
  • the video camera may include a camera capable of video recording, such as a binocular camera, a camera using a horizontal rig, and a camera using an orthogonal rig.
  • the plurality of cameras 2 may be provided at different positions, and may be video cameras that photograph one object.
  • the apparatus 1 for decoding multi-view image information may receive an image captured from a plurality of cameras 2 through the network 3. Also, the apparatus 1 for decoding multi-view image information may receive a broadcast signal propagated from a broadcast server, a device, and a broadcast station through the network 3.
  • the reception unit 10 may receive a bit stream of image data of a plurality of images captured by the plurality of cameras 2.
  • the reception unit 10 may receive a bit stream of image data of a plurality of images captured by the plurality of cameras 2 from an encoding device (not shown) of multi-view image information.
  • An encoding apparatus (not shown) for multi-view image information may convert image data of a plurality of received images into a bit stream format.
  • the plurality of images may be images obtained from a plurality of cameras 2 provided at different locations. In other words, a plurality of images are taken by one object, but may be images taken at different locations. That is, the plurality of images may be images of the same object at the same time.
  • the bit stream is stored according to an encoding type that satisfies the constraints of the encoder.
  • MPEG requires a syntax (syntax, hereinafter referred to as'syntax') and semantics (hereinafter referred to as'semantics') as constraints of a bit stream.
  • the syntax indicates the structure, format, and length of the data, and indicates in what order the data is expressed. That is, syntax is for matching the grammar for encoding/decoding, and defines the order of each element included in the bit stream, the length of each element, and the data format.
  • Semantics indicates the meaning of each bit constituting data. In other words, Semantics indicates what the meaning of each element in the bit stream is.
  • bit streams may be generated according to an encoding condition of an encoder or an applied standard (or codec).
  • each standard eg, MPEG-1, MPEG-2, MPEG-4, MPEG-4 AVC, etc.
  • each standard eg, MPEG-1, MPEG-2, MPEG-4, MPEG-4 AVC, etc.
  • MPEG-4 AVC MPEG-4 AVC, etc.
  • FIG. 4 is a view for explaining the generation of first information in the apparatus for decoding multi-view image information according to an embodiment of the present application.
  • the first information extraction unit 21 may generate first information by extracting depth information of blocks in the image frames of the plurality of images from the image data included in the bit stream.
  • the first information extracting unit 21 extracts depth information of blocks in an image frame of a plurality of images from image data included in a bit stream received from an encoding device (not shown) of multi-view image information and removes the information.
  • 1 Information can be generated.
  • the first information may be generated by a depth information similarity value calculated by extracting depth information of blocks in an image frame of a plurality of images from image data of a plurality of images captured by a plurality of cameras.
  • a plurality of blocks may be included in an image frame of a plurality of images.
  • the plurality of blocks may have different depths. Depth may have different depths in a portion having a high degree of complexity and a portion having a low degree of complexity in screen content.
  • the region 111 such as the background, may have a small depth because the screen content is less complicated.
  • the region 112 having a lot of motion may have a deep depth because of the complexity of the screen content.
  • the first information extraction unit 21 includes a block 112 in a video frame of a second image captured by the second camera and a region 112 having a lot of motion, which is depth information of a block in the video frame of the first image captured by the first camera.
  • the first information may be generated by extracting depth information of the region 112 having a lot of motion, which is depth information.
  • depth information in an image frame of a plurality of images may include size information or a tree structure of a coding unit (CU) from 64x64 to 8x8 of each block in the image frame.
  • Coding Tree Unit is a hierarchical coding structure technique used in High Efficiency Video Coding (HEVC), an image compression technology.
  • the existing macro block which is a basic unit of compression, has a fixed size of 16x16 pixels, while the CTU increases the compression efficiency by supporting variable sizes ranging from 16x16 pixels to 32x32 pixels and 64x64 pixels.
  • the CTU consists of a luma coding tree block (CTB) and a chroma CTB.
  • One CTB can be further divided into coding units (CUs), and the CUs are divided into prediction units (PUs) and transformation units (TUs).
  • PU is a unit of intra or inter prediction
  • TU is a unit of frequency conversion and quantization.
  • it is effective to encode using a large CTU such as 64x64 pixels for high-resolution video, and using a CTU having a size of 16x16 pixels, which is the same as a conventional macro block, for low-resolution video.
  • the block size of a CU may have size information from 64 x 64 to 8 x 8 in the HEVC standard. That is, a part having a lot of complexity of the screen content uses a smaller block to perform more detailed processing, whereas when the screen content is small, a large size block is used. For this reason, the first information extracting unit 21 can know what part this frame is in one frame in a CU (Coding Unit) block size. In other words, the first information extracting unit 21 may determine that a region having a similar CU (Coding Unit) size in a multiple image is a region having a similar motion estimation (DE) of a spatial axis.
  • DE motion estimation
  • the first information extraction unit 21 extracts depth information of blocks in an image frame of a plurality of images from image data of a plurality of images captured by the plurality of cameras 2 and calculates a depth information similarity value.
  • the first information extraction unit 21 may extract depth information of the first block in the image frame of the image from the image data of the first image captured by the first camera among the plurality of cameras.
  • the first information extraction unit 21 may extract depth information of the second block in the image frame of the image from the image data of the second image captured by the second camera among the plurality of cameras.
  • the image data of the first image may include data taken by the first camera at the first location.
  • the image data of the second image may include data obtained by the second camera at the second location.
  • the image data of the first image and the image data of the second image may be images captured at the same time.
  • the first information extraction unit 21 may calculate the depth information of the first block and the similarity value of the depth information of the second block. When the similarity value between the depth information of the first information and the depth information of the second block is greater than or equal to a preset reference value, the first information extraction unit 21 may determine that the corresponding block is similar. For example, referring to FIG.
  • the first information extracting unit 21 may include depth information (eg, a region 112 having a lot of motion) and a second image of the first block of the image data of the first image. Depth information of the second block of the image data (eg, the area 112 having a lot of motion may be compared, the depth information similarity value may be calculated, and the first information may be generated.
  • depth information eg, a region 112 having a lot of motion
  • Depth information of the second block of the image data eg, the area 112 having a lot of motion may be compared, the depth information similarity value may be calculated, and the first information may be generated.
  • FIG. 5 is a view for explaining generation of second information in a device for decoding multi-view image information according to an embodiment of the present application.
  • the second information extraction unit 22 may determine whether the same motion estimation occurs between image frames of a plurality of images and generate second information.
  • the second information may be generated from the calculated motion estimation value by determining whether the same motion estimation occurs between image frames of a plurality of images.
  • the second information extracting unit 22 may determine whether the same motion estimation has occurred between the video frame photographed at the first time and the video frame photographed at the second time from the first camera.
  • the first time may be a time before the second time.
  • the second information extracting unit 22 may determine whether the same motion estimation has occurred between the video frame photographed at the first time and the video frame photographed at the second time from the second camera.
  • the second information extracting unit 22 determines whether the same motion estimation has occurred through comparison between the first image frame obtained from the first camera and the second image frame obtained from the second camera, which are captured at the first time. I can judge.
  • the second information extraction unit 22 may determine whether the same motion estimation has occurred between video frames of a plurality of images and calculate a motion estimation value.
  • a motion vector can identify the position of a matching prediction unit (PU) in a reference frame.
  • motion vectors MVs
  • MVs motion vectors
  • HEVC HEVC
  • MVs motion vectors
  • the prediction units PU of the corresponding CU (Coding Unit) of the two images are the same, the probability of the same CU (Coding Unit) may be higher.
  • the prediction units PU of blocks (CU (Coding Unit)) of two images acquired at different times are the same, the two images acquired at different times are the same block (CU (Coding Unit)). It may be high.
  • the second information extracting unit 22 may determine whether the same motion estimation has occurred between image frames of a plurality of images acquired at different times and calculate a motion estimation value of a corresponding block.
  • the second information extraction unit 22 determines that the same motion estimation occurs between the image frames and determines a preset motion estimation value. Can be given.
  • the second information extracting unit 22 is the first image frame. And it is determined that the same motion estimation has occurred between the second image frames and a preset motion estimation value can be provided.
  • the second information extracting unit 22 may indicate a movement of an object in a time domain in a region where motion estimation (ME) of the time axis occurs. If the motion estimation of the same time axis occurs in two frames in multiple images, it may be determined that the probability of occurrence of the motion estimation (Disparity Estimation DE) of the spatial axis in the region is high.
  • ME motion estimation
  • a motion estimation (ME) of many time axes occurs in an area in which an object moves. It can be seen that the area where the person (object) moves is painted in a different color compared to the background area. This may mean that motion estimation of the time axis occurs in an area (region) in which the object moves.
  • the third information extraction unit 23 may generate the third information by extracting the pixel information of the blocks in the image frames of the plurality of images.
  • the third information extraction unit 21 may extract pixel information of blocks in an image frame of a plurality of images and calculate a pixel information similarity value.
  • the third information extraction unit 23 may determine that the spatial axis motion estimation (Disparity Estimation DE) is high in the corresponding region.
  • the third information extraction unit 23 extracts pixel information of the first block in the image frame of the image obtained from the first camera and pixel information of the second block in the image frame of the image obtained from the second camera. It can be determined whether they are the same.
  • the third information extracting unit 23 may determine that the corresponding areas (first block and second block) are the same area.
  • the third information extraction unit 23 may extract each pixel information of an area divided into a plurality of blocks for each image frame.
  • the third information extraction unit 23 may extract pixel information corresponding to a first region of a block in an image frame of a plurality of images and calculate a pixel information similarity value.
  • the spatial compensation unit inputs the first information to the third information to the spatial compensation model 31 of multi-view image information that has been previously trained and generated, and then forms a plurality of image frames. It is possible to perform block matching between and perform spatial compensation.
  • the spatial compensation unit blocks information between video frames of a plurality of images by inputting information obtained by extracting first to third information from image data of a plurality of images captured by a plurality of cameras. And space compensation.
  • the spatial compensation unit (not shown) may perform spatial compensation by using the spatial compensation model 31 of multi-view image information that has already been trained in the process of spatial compensation.
  • the spatial compensation model 31 may be generated using a machine learning algorithm based on the depth information similarity value, motion estimation value, and pixel information similarity value.
  • the spatial compensation model 31 extracts depth information of blocks in an image frame of a plurality of images from image data of a plurality of images captured by the plurality of cameras 2, and then calculates depth information similarity values and a plurality of values. It can be generated using a machine learning algorithm based on the calculated motion estimation value by determining whether the same motion estimation between image frames of an image occurs, and the pixel information similarity value calculated by extracting the pixel information of blocks in an image frame of a plurality of images.
  • the machine learning algorithm may include SVM (Support Vector Machine). Support Vector Machine (SVM) is one of the fields of machine learning and is a supervised learning model for pattern recognition and data analysis.
  • SVM Support Vector Machine
  • FIG. 8 is a second flow chart illustrating a flow of a method for decoding multi-view image information according to an embodiment of the present application.
  • the decoding method of the multi-view image information is for each of the apparatus 1 for decoding the multi-view image information, which performs the decoding method of the multi-view image information according to an embodiment of the present application and another embodiment previously described.
  • the same reference numerals are used for the same or similar configurations to the above-described configurations. And, overlapping descriptions will be simplified or omitted.
  • the first information extraction unit 21 may calculate a depth information similarity value of a block in an image frame of a plurality of images from image data of a plurality of images captured by the plurality of cameras 2.
  • the first information extraction unit 21 may extract first information to be used as learning data of the spatial compensation model 30 of multi-view image information.
  • the first information extraction unit 21 may extract depth information of a block in an image frame of the first image from image data of the first image captured by the first camera.
  • the first information extraction unit 21 may extract depth information of a block in the image frame of the second projection from the image data of the second image captured by the second camera.
  • the first information extracting unit 21 calculates a similarity value by comparing depth information of blocks of the same region of the image data of the first image and the image data of the second image captured by each of the first camera and the second camera Can be.
  • the second information extraction unit 22 may determine whether the same motion estimation has occurred between video frames of a plurality of images and calculate a motion estimation value.
  • the second information extraction unit 22 may extract second information to be used as learning data of the spatial compensation model 30 of multi-view image information.
  • the second information extracting unit 21 may determine whether the same motion estimation has occurred between the image frames of the first image and the second image acquired at different times and calculate the motion estimation value.
  • the second information extracting unit 21 may determine whether the same motion estimation has occurred between the image frames of the first image acquired by the first camera at the first time and the second image acquired by the first camera at the second time.
  • the second information extraction unit 21 may determine whether the same motion estimation has occurred in the same region (block) of the first image and the second image acquired at different times and calculate the motion estimation value.
  • the third information extraction unit 23 may extract pixel information of blocks in an image frame of a plurality of images and calculate a pixel information similarity value.
  • the third information extraction unit 23 may extract third information to be used as learning data of the spatial compensation model 30 of multi-view image information.
  • the third information extraction unit 23 may extract pixel information of the first block in the image frame of the first image.
  • the third information extraction unit 23 may extract pixel information of the second block in the image frame of the second image.
  • the third information extraction unit 23 may calculate the similarity value from the pixel information of the first block and the second block.
  • Steps S201 to S203 described above may be a process for extracting training data of the spatial compensation model 31.
  • the training data can be used as learning data of the spatial compensation model 31.
  • the spatial compensation model 31 may be generated using a machine learning algorithm based on the depth information similarity value, motion estimation value, and pixel information similarity value.
  • the machine learning algorithm may include a support vector machine (SVM).
  • SVM support vector machine
  • the spatial compensation model 31 may be generated by inputting the depth information similarity value, motion estimation value, and pixel information similarity value calculated in steps S201 to S203.
  • the decoder 30 may decode the image data captured and coded by the plurality of cameras 2 using the spatial compensation model 31 of multi-view image information.
  • the decoding unit 30 may decode image data to be decoded and encoded by a plurality of cameras 2 using the spatial compensation model 31 of multi-view image information.
  • the decoder 30 uses the spatial compensation model 31 of multi-view image information, and is captured by a plurality of cameras 2 and encoded in a multi-view image information encoding apparatus (not shown). Data can be decrypted.
  • the decoder 30 may receive encoded image data from a decoding apparatus (not shown) of multi-view image information, and decode and output the image data.
  • the decoder 30 extracts the first or third information from the received corresponding image data and inputs it to the spatial compensation model 31 of multi-view image information, performs block matching between image frames of a plurality of images and performs spatial Compensation can be performed.
  • the decoder 30 extracts the first information to the third information to measure redundancy between a plurality of images, inputs them to the spatial compensation model 31 of multi-view image information, and blocks matching between image frames of the plurality of images And space compensation.
  • the apparatus 1 for decoding multi-view image information uses a machine learning algorithm based on a depth information similarity value, a motion estimation value, and a pixel information similarity value to obtain a spatial compensation model 31 of multi-view image information. ) To generate in advance.
  • the apparatus 1 for decoding multi-view image information may perform decoding using the spatial compensation model 31 of multi-view image information trained in a spatial compensation process.
  • 6A is a diagram schematically illustrating a training process of a device for decoding multi-view image information according to an embodiment of the present application.
  • the apparatus 1 for decoding multi-view image information extracts three features (first information to third information) from a bitstream of MV-HEVC in terms of training and DC (spatial compensation) Can be compared to the position of. If the DC (spatial compensation) is equal to the position of the eigenvalues of the three features (first to third information), the label of the SVM (spatial compensation model) is indicated by 1 and vice versa (the position of the unique value is not the same) If not), the label of the SVM (spatial compensation model) may be displayed as 0. Also, in order to train in SVM, after capturing an actual scene using two or more cameras, and encoding a multi-view video (MVV) sequence, the compressed multi-image may be sent to a decoder in the form of a bit stream.
  • DC spatial compensation
  • the label of the SVM spatial compensation model
  • the compressed multi-image may be sent to a decoder in the form of a bit stream.
  • 6B is a diagram schematically illustrating a prediction process of an apparatus for decoding multi-view image information according to an embodiment of the present application.
  • a decoder (MV-HEVC Decoder) is an encoded MV-HEVC bitstream (Bit-sream) photographed by a plurality of cameras 2 Can be decompressed normally.
  • the apparatus 1 for decoding multi-view image information uses the SVM prediction module (machine learning algorithm) to start the processing of the spatial axis compensation (Disparity Compensation DC), and then provides three pieces of information (first information to third information). Can be extracted and predicted.
  • SVM prediction module machine learning algorithm
  • the first information extraction unit 21 extracts depth information of blocks in a video frame of a plurality of images from image data included in a bit stream to generate first information
  • the second information extraction unit 22 includes a plurality of The second information is generated by determining whether the same motion estimation occurs between the video frames of the video
  • the third information extraction unit 23 extracts pixel information of blocks in the video frames of the plurality of videos to generate third information. Can be.
  • the apparatus 1 for decoding multi-view image information may input first or third information into a spatial compensation model of multi-view image information, perform block matching between image frames of a plurality of images, and perform spatial compensation. have.
  • a corresponding coding unit CU
  • CU independent view
  • CU uncompressed coding unit
  • prediction is not successful in the apparatus 1 for decoding multi-view image information, it may be processed as a spatial compensation (Disparity Compensation DC).
  • an apparatus 1 for decoding multi-view image information according to an embodiment of the present application and another embodiment will be described.
  • the apparatus 1 for decoding multi-view image information is previously described for each of the apparatus 1 for decoding multi-view image information, which performs a method of decoding multi-view image information according to an embodiment of the present application and another embodiment.
  • it will be referred to as an invention including the same or corresponding technical features as the decoding method of multi-view image information according to an embodiment of the present application and another embodiment of the present invention, and the same or similar configuration to the above-described configuration Codes are used, and overlapping descriptions will be simplified or omitted.
  • FIG. 2 is a schematic block diagram of an apparatus for decoding multi-view image information according to an embodiment of the present application.
  • the apparatus 1 for decoding multi-view image information may include a reception unit 10, a feature extraction unit 20, and a decoding unit 30.
  • the apparatus 1 for decoding multi-view image information may be a computer, a server, or a device on which software for decoding multi-view image information is installed, but is not limited thereto.
  • the reception unit 10 may receive a bit stream of image data of a plurality of images captured by the plurality of cameras 2.
  • the feature extracting unit 20 includes depth information of blocks in a video frame of a plurality of images, motion estimation information between video frames of a plurality of images, and pixels of blocks in a video frame of a plurality of images from image data included in a bit stream. Feature information of a bit stream including information may be extracted.
  • the feature extraction unit 20 may include a first information extraction unit 21, a second information extraction unit 22 and a third information extraction unit 23.
  • the first information extraction unit 21 may generate first information by extracting depth information of blocks in an image frame of a plurality of images from image data included in a bit stream.
  • the second information extraction unit 22 may determine whether the same motion estimation occurs between image frames of a plurality of images and generate second information.
  • the third information extraction unit 23 may generate the third information by extracting pixel information of blocks in an image frame of a plurality of images.
  • the decoder 30 includes a spatial compensation model 31 of multi-view image information that has been previously trained and generated, and inputs feature information extracted into the spatial compensation model to block matching between image frames of a plurality of images And space compensation.
  • the spatial compensation model 31 extracts depth information of blocks in an image frame of a plurality of images from image data of a plurality of images captured by the plurality of cameras 3, and the depth information similarity value and the plurality of images are calculated. It may be generated by using a machine learning algorithm based on the calculated motion estimation value by determining whether the same motion estimation has occurred between the image frames of and the pixel information similarity values calculated by extracting the pixel information of blocks in the image frames of a plurality of images. .
  • the machine learning algorithm may include a support vector machine (SVM).
  • an encoding apparatus (not shown) for multi-view image information may receive a plurality of image data respectively captured from each of the plurality of cameras 3.
  • An encoding apparatus (not shown) for multi-view image information includes characteristics of image data from a plurality of image cameras 2, degree of zoom-in/zoom-out, and view of the image camera ), a plurality of image data having different camera positions and the like may be received.
  • characteristics of image data may include resolution, color, similarity of background, number of pixels, number of image frames, and the like.
  • An encoding apparatus (not shown) for multi-view image information may encode image data received from a plurality of cameras 2.
  • the encoding device (not shown) of the multi-view image information may vary depending on the characteristics of the received video data, the viewpoint of the video camera, the degree of zoom-in/zoom-out, and the position of the camera.
  • the encoding method of the received image data can be determined.
  • steps S101 to S105 and S201 to S205 may be further divided into additional steps or combined into fewer steps, depending on the implementation herein. Also, some steps may be omitted if necessary, and the order between the steps may be changed.
  • the method of decoding multi-view image information may be implemented in a form of program instructions that can be executed through various computer means and may be recorded on a computer-readable medium.
  • the computer-readable medium may include program instructions, data files, data structures, or the like alone or in combination.
  • the program instructions recorded on the medium may be specially designed and configured for the present invention, or may be known and usable by those skilled in computer software.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs, DVDs, and magnetic media such as floptical disks.
  • -Hardware devices specifically configured to store and execute program instructions such as magneto-optical media, and ROM, RAM, flash memory, and the like.
  • Examples of program instructions include high-level language codes that can be executed by a computer using an interpreter, etc., as well as machine language codes produced by a compiler.
  • the hardware device described above may be configured to operate as one or more software modules to perform the operation of the present invention, and vice versa.
  • the above-described method of decoding multi-view image information may also be implemented in the form of a computer program or application executed by a computer stored in a recording medium.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

다시점 영상 정보의 복호화 방법에 관한 것으로, 다시점 영상 정보의 복호화 방법은 복수의 카메라에 의해 촬영된 복수의 영상의 영상 데이터에 관한 비트 스트림(bit stream)을 수신하는 단계, 상기 비트 스트림에 포함된 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보를 추출하여 제1정보를 생성하는 단계, 복수의 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 제2정보를 생성하는 단계, 상기 복수의 영상의 영상 프레임 내의 블록의 픽셀 정보를 추출하여 제3정보를 생성하는 단계, 미리 훈련되어 생성된 다시점 영상 정보의 공간 보상(Disparity Compensation) 모델에 제1정보 내지 상기 제3정보를 입력하여, 복수의 영상의 영상 프레임 간의 블록 매칭을 수행하고 공간 보상을 수행하는 단계를 포함할 수 있다.

Description

다시점 영상 정보의 복호화 방법 및 장치
본원은 다시점 영상 정보의 복호화 방법 및 장치에 관한 것이다.
제114차(2016년 2월) MPEG 표준화 회의에서 HEVC 표준에 확장 표준으로 MV-HEVC의 검증 테스트에 대해 독립적인 HEVC 코딩과 비교했을 때 30% 정도의 속도의 감소가 있음을 발표되었다.
멀티 뷰 (Multi-view) 비디오 코딩은 사용자가 다른 뷰로부터 비디오를 자유롭게 선택하도록 허용할 수 있다. 다중 뷰 비디오에 대한 가장 간단한 구조는 HEVC 확장인 다중 뷰 HEVC (MV-HEVC)이다.
도 3a을 참조하면, MV-HEVC는 HEVC와 달리 복수의 시퀀스의 정보를 가지고 있으므로 시간축의 모션 추정(Motion Estimation, ME)만 필요한 것이 아니라 공간축의 모션 추정(Disparity Estimation DE)이 필수적이다. 이 두가지 예측을 통해 MV-HEVC는 보다 높은 압축 효율을 가지게 된다.
하지만, 압축 효율을 높이는 대신 MV-HEVC는 실시간 복호화(Decoding) 처리가 어렵게 되었다. 특히 4개의 UHD급 영상을 디코딩할 경우 소비자 레벨의 컴퓨터에서는 불가능하다. 그 이유는 영상이 많이 유사할 경우 도 3b와 같이 모션 추정(Disparity Estimation DE)으로 처리된 데이터가 많기 때문이다. 프로파일링(Profiling)한 결과 모션 보상(Motion Compensation MC) 그리고 공간축의 보상(Disparity Compensation DC)은 MV-HEVC 복호기 90% 이상의 시간을 차지한다. 다중영상 뷰(view)가 많을수록 복호화 과정에서 공간축의 보상(Disparity Compensation DC)이 차지하는 영역이 더 많아진다. 이와 같은 이유로 공간축의 보상(Disparity Compensation DC)과정의 시간을 줄일 경우 MV-HEVC 복호기는 보다 좋은 성능을 가질 수 있다.
본원의 배경이 되는 기술은 한국등록특허공보 제10-1432779호에 개시되어 있다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 공간축의 보상(Disparity Compensation DC)에서 시간 소비를 줄이기 위해 SVM학습 방법을 사용하여 MV-HEVC에 최적화된 방법을 제공하는 것을 목적으로 한다.
다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들도 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따르면, 다시점 영상 정보의 복호화 방법은, 복수의 카메라에 의해 촬영된 복수의 영상의 영상 데이터에 관한 비트 스트림(bit stream)을 수신하는 단계, 상기 비트 스트림에 포함된 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보를 추출하여 제1정보를 생성하는 단계, 복수의 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 제2정보를 생성하는 단계, 상기 복수의 영상의 영상 프레임 내의 블록의 픽셀 정보를 추출하여 제3정보를 생성하는 단계 및 미리 훈련되어 생성된 다시점 영상 정보의 공간 보상(Disparity Compensation) 모델에 제1정보 내지 상기 제3정보를 입력하여, 복수의 영상의 영상 프레임 간의 블록 매칭을 수행하고 공간 보상을 수행하는 단계를 포함할 수 있다.
본원의 일 실시예에 따르면, 다시점 영상 정보의 복호화 방법은, 복수의 카메라에 의해 촬영된 복수의 영상의 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보를 추출하여 뎁스 정보 유사도 값을 연산하는 단계, 복수의 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 모션 추정값을 연산하는 단계, 복수의 영상의 영상 프레임 내의 블록의 픽셀 정보를 추출하여 픽셀 정보 유사도 값을 연산하는 단계 및 상기 뎁스 정보 유사도 값, 상기 모션 추정 값 및 상기 픽셀 정보 유사도 값에 기초하여 머신 러닝 알고리즘을 이용하여 상기 미리 훈련된 다시점 영상 정보의 공간 보상 모델을 생성하는 단계를 더 포함할 수 있다.
본원의 일 실시예에 따르면, 상기 머신 러닝 알고리즘은 SVM(Support Vector Machine)을 포함할 수 있다.
본원의 일 실시예에 따르면, 상기 복수의 영상의 영상 프레임 내의 상기 뎁스 정보는 영상 프레임 내의 각 블록의 64x64부터 8x8까지의 CU(Coding Unit)의 크기 정보 또는 트리 구조에 관한 정보를 포함할 수 있다.
본원의 일 실시예에 따르면, 상기 복수의 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 모션 추정값을 연산하는 단계는, 영상 프레임 간의 대응하는 블록의 예측 유닛(Prediction Unit)이 동일한 경우, 상기 영상 프레임 간의 동일한 모션 추정이 발생한 것으로 판단하여 미리 설정된 모션 추정값을 부여할 수 있다.
본원의 일 실시예에 따르면, 다시점 영상 정보의 복호화 방법은, 복수의 카메라에 의해 촬영된 복수의 영상의 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보를 추출하여 뎁스 정보 유사도 값을 연산하는 단계, 복수의 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 모션 추정값을 연산하는 단계, 복수의 영상의 영상 프레임 내의 블록의 픽셀 정보를 추출하여 픽셀 정보 유사도 값을 연산하는 단계, 상기 뎁스 정보 유사도 값, 상기 모션 추정값 및 상기 픽셀 정보 유사도 값에 기초하여 머신 러닝 알고리즘을 이용하여 미리 훈련된 다시점 영상 정보의 공간 보상 모델을 생성하는 단계 및 상기 다시점 영상 정보의 공간 보상 모델을 이용하여, 복수의 카메라에 의해 촬영되어 부호화된 영상 데이터를 복호화하는 단계를 포함할 수 있다.
본원의 일 실시예에 따르면, 상기 머신 러닝 알고리즘은 SVM(Support Vector Machine)을 포함할 수 있다.
본원의 일 실시예에 따르면, 상기 영상 데이터를 복호화하는 단계는, 복수의 카메라에 의해 촬영된 부호화된 영상 데이터에 관한 비트 스트림(bit stream)을 수신하는 단계, 상기 비트 스트림에 포함된 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보를 추출하여 제1정보를 생성하는 단계, 복수의 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 제2정보를 생성하는 단계, 상기 복수의 영상의 영상 프레임 내의 블록의 픽셀 정보를 추출하여 제3정보를 생성하는 단계 및 상기 다시점 영상 정보의 공간 보상 모델에 제1정보 내지 상기 제3정보를 입력하여, 복수의 영상의 영상 프레임 간의 블록 매칭을 수행하고 공간 보상을 수행하는 단계를 포함할 수 있다.
본원의 일 실시예에 따르면, 다시점 영상 정보의 복호화 장치는, 복수의 카메라에 의해 촬영된 복수의 영상의 영상 데이터에 관한 비트 스트림(bit stream)을 수신하는 수신부, 상기 비트 스트림에 포함된 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보, 복수의 영상의 영상 프레임 간의 모션 추정에 관한 정보 및 상기 복수의 영상의 영상 프레임 내의 블록의 픽셀 정보를 포함하는 상기 비트 스트림의 특징 정보를 추출하는 특징 추출부 및 미리 훈련되어 생성된 다시점 영상 정보의 공간 보상(Disparity Compensation) 모델을 포함하며, 상기 공간 보상 모델에 상기 추출된 특징 정보를 입력하여 복수의 영상의 영상 프레임 간의 블록 매칭을 수행하고 공간 보상을 수행하는 복호화부를 포함할 수 있다.
본원의 일 실시예에 따르면, 상기 공간 보상 모델은, 복수의 카메라에 의해 촬영된 복수의 영상의 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보를 추출하여 연산된 뎁스 정보 유사도 값, 복수의 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 연산된 모션 추정값 및 복수의 영상의 영상 프레임 내의 블록의 픽셀 정보를 추출하여 연산된 픽셀 정보 유사도 값에 기초하여 머신 러닝 알고리즘을 이용하여 생성될 수 있다.
본원의 일 실시예에 따르면, 상기 특징 추출부는, 상기 비트 스트림에 포함된 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보를 추출하여 제1정보를 생성하는 제1정보 추출부, 복수의 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 제2정보를 생성하는 제2정보 추출부 및 상기 복수의 영상의 영상 프레임 내의 블록의 픽셀 정보를 추출하여 제3정보를 생성하는 제3정보 추출부를 포함할 수 있다.
본원의 일 실시예에 따르면, 상기 머신 러닝 알고리즘은 SVM(Support Vector Machine)을 포함할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 공간축의 보상(Disparity Compensation DC)에서 시간 소비를 줄이기 위해 SVM학습 방법을 사용함으로써, MV-HEVC 복호기는 보다 좋은 성능을 가질 수 있다.
다만, 본원에서 얻을 수 있는 효과는 상기된 바와 같은 효과들로 한정되지 않으며, 또 다른 효과들이 존재할 수 있다.
도 1은 본원의 일 실시예에 따른 다시점 영상 정보의 복호화 시스템을 개략적으로 도시한 도면이다.
도 2는 본원의 일 실시예에 따른 다시점 영상 정보의 복호화 장치의 개략적인 블록도이다.
도 3a는 본원의 일 실시예에 따른 다시점 영상 정보의 복호화 장치의 MV-HEVC의 모션 추정을 설명하기 위한 도면이다.
도 3b는 본원의 일 실시예에 따른 다시점 영상 정보의 복호화 장치의 다시점 영상 코딩에서 프레임 간 예측 방법을 설명하기 위한 도면이다.
도 4는 본원의 일 실시예에 따른 다시점 영상 정보의 복호화 장치에서 제1 정보의 생성을 설명하기 위한 도면이다.
도 5는 본원의 일 실시예에 따른 다시점 영상 정보의 복호화 장치에서 제2정보의 생성을 설명하기 위한 도면이다.
도 6a는 본원의 일 실시예에 따른 다시점 영상 정보의 복호화 장치의 훈련 과정을 개략적으로 도시한 도면이다.
도 6b는 본원의 일 실시예에 따른 다시점 영상 정보의 복호화 장치의 예측 과정을 개략적으로 도시한 도면이다.
도 7은 본원의 일 실시예에 따른 다시점 영상 정보의 복호화 방법의 흐름을 도시한 제1순서도이다.
도 8은 본원의 일 실시예에 따른 다시점 영상 정보의 복호화 방법의 흐름을 도시한 제2순서도이다.
아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
도 3a는 본원의 일 실시예에 따른 다시점 영상 정보의 복호화 장치의 MV-HEVC의 모션 추정을 설명하기 위한 도면이고, 도 3b는 본원의 일 실시예에 따른 다시점 영상 정보의 복호화 장치 다시점 영상 코딩에서 프레임 간 예측 방법을 설명하기 위한 도면이다.
도 3a를 참조하면, 다시점 영상 정보는 한 대 이상의 카메라를 통해 촬영된 영상들을 기하학적으로 교정하고 공간적인 합성 등을 통하여 여러 방향의 다양한 시점을 사용자에게 제공하는 3차원(3D) 영상처리의 한 분야이다. 일반적으로 다시점 영상 코딩(Multi-View HEVC(high efficiency video coding)) 과정에 따르면, 실제의 장면을 두 개 이상의 카메라를 이용하여 캡쳐하여 MVV(Multi-View Video) 시퀀스를 인코딩한 후, 비트스트림을 수신기측을 통해 MV-HEVC로 전송한 후 디코딩 과정을 거치면 3D 영상을 디스플레이할 수 있다. 이러한 과정에서, 입체 영상을 생성하기 위해 여러 시점에서 찍은 영상들은 그 데이터양이 방대하다. 따라서, 입체 영상의 구현을 위한 네트워크 인프라, 지상파 대역폭 등을 고려하면 MPEG-2, H.264/AVC 등과 같은 단일시점 비디오 압축(Single-View Video Coding) 또는 종래의 MVV 압축에 최적화된 부호화 장치를 사용하여 압축하더라도 구현상에 많은 제약이 있다.
도 3b를 참조하면, 다시점 비디오 부호화에서 가장 많이 사용하는 예측 구조는 시점 축으로는 I-B-P-B-P 구조이며, 시간 축으로의 예측은 계층적 B 화면인 구조이다. 도 3b는 계층적 B 화면을 이용하여 사용한 시-공간적 예측 구조이다. Sn은 n번째 시점의 카메라이고, Tn은 시간적으로 n번째 화면을 의미한다. 화살표는 각 화면 간의 참조 관계이다. 시-공간적 예측 구조에 대한 부호화는 각 시점별로 따로 수행된다. I-BP-B-P 구조에서 I 시점인 S0을 처음 부호화하고, 이의 복원 영상을 이용하여 P 시점인 S2를 부호화한다. 이와 같은 방법으로 S0과 S2의 복원 영상을 통해 B 시점인 S1을 부호화한다. 다중영상에서 공간축의 모션 추정(Disparity Estimation DE)은 프레임간의 중복성을 측정하는 과정이다.
본원은 머신 러닝 알고리즘을 이용하여 공간축의 모션 추정(Disparity Estimation DE)하는 블록을 찾아, 복호화 과정에서 보다 쉽게 복호화를 진행할 수 있도록 다시점 영상 정보의 복호화 방법을 제공하고자 한다.
도 1은 본원의 일 실시예에 따른 다시점 영상 정보의 복호화 장치를 개략적으로 도시한 도면이고, 도 2는 본원의 일 실시예에 따른 다시점 영상 정보의 복호화 장치의 개략적인 블록도이고, 도 7은 본원의 일 실시예에 따른 다시점 영상 정보의 복호화 방법의 흐름을 도시한 제1순서도이다.
도 1, 도 2, 및 도 7을 참조하면, 본원의 일 실시예에 따른 다시점 영상 정보의 복호화 방법은, 복수의 카메라(2)에 의해 촬영된 복수의 영상의 영상 데이터에 관한 비트 스트림(bit-stream)을 수신하는 단계(S101), 비트 스트림에 포함된 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보를 추출하여 제1정보를 생성하는 단계(S202), 복수의 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 제2정보를 생성하는 단계(S203), 복수의 영상의 영상 프레임 내의 블록의 픽셀 정보를 추출하여 제3정보를 생성하는 단계(S204) 및 미리 훈련되어 생성된 다시점 영상 정보의 공간 보상(Disparity Compensation) 모델에 제1정보 내지 제3정보를 입력하여, 복수의 영상의 영상 프레임 간의 블록 매칭을 수행하고 공간 보상을 수행하는 단계(S205)를 포함할 수 있다.
도 1을 참조하면, 다시점 영상 정보의 복호화 시스템(100)은 다시점 영상 정보의 복호화 장치(1) 및 복수의 카메라(2)를 포함할 수 있다. 다시점 영상 정보의 복호화 장치(1)는 수신부(10) 특징 추출부(20) 및 복호화부(30)를 포함할 수 있다. 또한, 특징 추출부(20)는 제1정보 추출부(21), 제2정보 추출부(22) 및 제3정보 추출부(23)를 포함할 수 있다. 다만, 다시점 영상 정보의 복호화 장치(1)가 앞에 개시된 것들로 한정되는 것은 아니다. 예를 들어, 다시점 영상 정보의 복호화 장치(1)는 다시점 영상 정보의 인코딩 장치(미도시) 및 사용자 단말(미도시)을 포함할 수 있다.
다시점 영상 정보의 복호화 시스템(100)은 방송 서버 및 장치, 방송국에서 전파하는 방송 신호를 수신하는 장치 등을 더 포함할 수 있다. 다시점 영상 정보의 복호화 시스템(100)의 구성 중 일부는 하나의 장치 또는 서버에 구비될 수 있다. 예를 들어, 다시점 영상 정보의 복호화 장치(1) 및 사용자 단말(300)은 하나의 장치 내에 포함될 수 있다.
복수의 카메라(2)는 복수의 위치에서 영상을 촬영하는 영상 카메라 일 수 있다. 예시적으로, 복수의 영상 카메라(2)는 경기장, 콘서트 등의 광범위의 장소에서 다수의 각 영역 또는 인물 등을 촬영하는 영상 카메라 일 수 있다. 일 예로, 복수의 카메라(2)의 배치는 1차원 평행, 2차원 평행, 1차원 배열 등이 사용될 수 있고, 소정의 간격의 위치에서 영상을 촬영하는 영상 카메라일 수 있다. 영상 카메라는 양안식 카메라, 수평 리그를 사용한 카메라, 직교 리그를 사용한 카메라 등 영상 촬영이 가능한 카메라를 포함할 수 있다. 복수의 카메라(2)는 서로 다른 위치에 구비되어 하나의 객체를 촬영하는 영상 카메라 일 수 있다. 다시점 영상 정보의 복호화 장치(1)는 복수의 카메라(2)로부터 촬영된 영상을 네트워크(3)를 통해 수신할 수 있다. 또한, 다시점 영상 정보의 복호화 장치(1)는 방송 서버 및 장치, 방송국에서 전파하는 방송 신호를 네트워크(3)를 통해 수신할 수 있다.
단계 S101에서, 수신부(10)는 복수의 카메라(2)에 의해 촬영된 복수의 영상의 영상 데이터 관한 비트 스트림(bit stream)을 수신할 수 있다. 일예로, 수신부(10)는 복수의 카메라(2)에 의해 촬영된 복수의 영상의 영상 데이터에 관한 비트 스트림(bit stream)을 다시점 영상 정보의 인코딩 장치(미도시)로부터 수신할 수 있다. 다시점 영상 정보의 인코딩 장치(미도시)는 수신한 복수의 영상의 영상 데이터를 비트 스트림 형태로 변환할 수 있다. 복수의 영상은 각기 다른 위치에 구비된 복수의 카메라(2)로부터 획득된 영상일 수 있다. 달리 말해, 복수의 영상은 하나의 객체를 촬영하고 있지만, 서로 다른 위치에 구비되어 촬영된 영상일 수 있다. 즉, 복수의 영상은 동일한 시점에 동일한 객체를 촬영한 영상일 수 있다.
비트 스트림은 부호화기의 제약 조건을 만족하는 부호화 유형에 따라 저장된다. MPEG은 비트 스트림의 제약 조건으로서 구문(syntax, 이하 'syntax'라 칭함) 및 의미(semantics, 이하 'semantics'라 칭함)를 요구한다. 구문(syntax)은 데이터의 구조나 형식 및 길이를 나타내며, 데이터가 어떤 순서로 표현되는지를 나타낸다. 즉, syntax는 부호화(encoding)/복호화(decoding) 작업을 위한 문법을 맞추기 위한 것으로, 비트 스트림에 포함된 각 요소들(elements)의 순서와 각 요소의 길이, 데이터 형식 등을 정의한다. 의미(Semantics)는 데이터를 구성하는 각 비트가 의미하는 뜻을 나타낸다. 즉, 의미(Semantics)는 비트 스트림 내의 각 요소들의 의미가 무엇인지를 나타낸다. 따라서, 부호화기의 부호화 조건 또는 적용된 표준(또는 코덱)에 따라 다양한 형태의 비트 스트림이 생성될 수 있다. 일반적으로 각 표준(예를 들어 MPEG-1, MPEG-2, MPEG-4, MPEG-4 AVC 등)은 각각 상이한 비트 스트림 구문(syntax)을 가진다. 따라서, 각 표준이나 부호화 조건에 따라 부호화된 비트 스트림은 각각 다른 형식(즉, syntax 및 semantics)을 가진다고 할 수 있으며, 해당 비트 스트림의 복호화를 위해서는 부호화기에 대응되는 복호화기가 사용되어야 한다.
도 4는 본원의 일 실시예에 따른 다시점 영상 정보의 복호화 장치에서 제1 정보의 생성을 설명하기 위한 도면이다.
단계 S102에서, 제1정보 추출부(21)는 비트 스트림에 포함된 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보를 추출하여 제1정보를 생성할 수 있다. 예를 들어, 제1정보 추출부(21)는 다시점 영상 정보의 인코딩 장치(미도시)로부터 수신한 비트 스트림에 포함된 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보를 추출하여 제1정보를 생성할 수 있다. 제1 정보는 복수의 카메라에 의해 촬영된 복수의 영상의 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보를 추출하여 연산된 뎁스 정보 유사도 값에 의해 생성될 수 있다.
예시적으로, 도 4를 참조하면, 복수의 영상의 영상 프레임 내에는 복수의 블록이 포함될 수 있다. 복수의 블록은 서로 다른 뎁스를 가질 수 있다. 뎁스는, 화면 내용의 복잡도가 많은 부분과 복잡도가 적은 부분에서 서로 다른 깊이를 가질 수 있다. 예를 들어, 배경과 같은 영역(111)은 화면 내용의 복잡도가 적기 때문에 적은 뎁스를 가질 수 있다. 또한, 움직임이 많은 영역(112)은 화면 내용의 복잡도가 많기 때문에 깊은 뎁스를 가질 수 있다. 제1정보 추출부(21)는 제1 카메라에서 촬영된 제1 영상의 영상 프레임 내의 블록의 뎁스 정보인 움직임이 많은 영역(112)과 제2 카메라에서 촬영된 제2 영상의 영상 프레임 내의 블록의 뎁스 정보인 움직임이 많은 영역(112)의 뎁스 정보를 추출하여 제1 정보를 생성할 수 있다.
본원의 일 실시예에 따르면, 복수의 영상의 영상 프레임 내의 뎁스 정보는 영상 프레임 내의 각 블록의 64x64부터 8x8까지의 CU(Coding Unit)의 크기 정보 또는 트리 구조에 관한 정보를 포함할 수 있다. 코딩 트리 단위(Coding Tree Unit/ CTU)는 영상압축기술인 고효율 비디오코딩(HEVC: High Efficiency Video Coding)에서 사용하는 계층적 부호화 구조기술이다. 압축의 기본단위라 할 수 있는 기존 매크로 블록(macro block)은 16x16 픽셀의 고정크기인 반면 CTU는 16x16 픽셀부터 32x32 픽셀, 64x64 픽셀까지 증가되는 가변크기를 지원하여 압축효율을 높인다. CTU는 루마(luma) 코딩트리블록(CTB: Coding Tree Block)과 크로마(chroma) CTB로 구성된다. 하나의 CTB는 다시 코딩단위(CU: Coding Unit)들로 나눠질 수 있고 이 CU는 예측단위(PU: Prediction Unit)와 변환단위(TU: Transform Unit)로 나눠진다. PU는 인트라 또는 인터예측의 단위이며, TU는 주파수변환, 양자화의 단위이다. 일반적으로 고해상도 비디오의 경우는 64x64 픽셀과 같이 큰 CTU를 사용하고, 저해상도 비디오의 경우 기존 매크로 블록과 동일한 16x16 픽셀 크기의 CTU를 사용하여 부호화하는 것이 효과적이다.
CU(Coding Unit)의 블록 사이즈는 HEVC표준에서 64 x 64부터 8 x 8까지의 크기 정보를 가질 수 있다. 즉 화면 내용의 복잡도가 많은 부분은 보다 작은 블록을 사용하여 더욱 자세한 처리를 진행하고, 반면 화면 내용이 복잡도가 작을 경우 큰 사이즈의 블록을 사용한다. 이러한 이유로 제1정보 추출부(21)는 CU(Coding Unit) 블록 사이즈로 이 부분이 한 프레임에서 어떤 부분인지를 알 수 있다. 달리 말해, 제1정보 추출부(21)는 다중영상에서 CU(Coding Unit) 사이즈가 비슷한 구역은 공간축의 모션 추정(Disparity Estimation DE)이 유사한 구역이라고 판단할 수 있다.
달리 말해, 제1정보 추출부(21)는 복수의 카메라(2)에 의해 촬영된 복수의 영상의 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보를 추출하여 뎁스 정보 유사도 값을 연산할 수 있다. 예시적으로, 제1정보 추출부(21)는 복수의 카메라 중 제1카메라에 의해 촬영된 제1 영상의 영상 데이터로부터 영상의 영상 프레임 내의 제1블록의 뎁스 정보를 추출할 수 있다. 제1정보 추출부(21)는 복수의 카메라 중 제2카메라에 의해 촬영된 제2 영상의 영상 데이터로부터 영상의 영상 프레임 내의 제2 블록의 뎁스 정보를 추출할 수 있다.
일예로, 제1 영상의 영상데이터는 제1 카메라가 제1 객체를 제1위치에서 촬영한 데이터를 포함할 수 있다. 또한, 제2 영상의 영상 데이터는 제2 카메라가 제2 객체를 제2위치에서 촬영한 데이터를 포함할 수 있다. 제1 영상의 영상 데이터 및 제2 영상의 영상 데이터는 같은 시간상에 촬영된 영상일 수 있다. 제1정보 추출부(21)는 제1블록의 뎁스 정보 및 제2블록의 뎁스 정보 유사도 값을 연산할 수 있다. 제1정보 추출부(21)는 제1 정보의 뎁스 정보 및 제2블록의 뎁스 정보의 유사도 값이 미리 설정된 기준 값 이상일 경우, 해당 블록이 유사하다고 판단할 수 있다. 예시적으로, 도 4를 참조하면, 제1정보 추출부(21)는 제1 영상의 영상 데이터의 제1블록의 뎁스 정보(예를 들어, 움직임이 많은 영역(112))과 제2 영상의 영상 데이터의 제2블록의 뎁스 정보(예를 들어, 움직임이 많은 영역(112) 비교하여, 뎁스 정보 유사도 값을 연산하고, 제1 정보를 생성할 수 있다.
도 5는 본원의 일 실시예에 따른 다시점 영상 정보의 복호화 장치에서 제2정보의 생성을 설명하기 위한 도면이다.
단계 S103에서 제2정보 추출부(22)는 복수의 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 제2정보를 생성할 수 있다. 예를 들어, 제2정보는, 복수의 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 연산된 모션 추정값으로 부터 생성될 수 있다. 제2정보 추출부(22)는 제1 카메라로부터 제1시간에 촬영된 영상 프레임과 제2시간에 촬영된 영상 프레임 간의 동일한 모션 추정이 발생하였는지를 판단할 수 있다. 이때, 제1시간은 제2시간 이전 시간일 수 있다. 또한, 제2정보 추출부(22)는 제2카메라로부터 제1시간에 촬영된 영상 프레임과 제2시간에 촬영된 영상 프레임 간의 동일한 모션 추정이 발생하였는지를 판단할 수 있다. 또한, 제2정보 추출부(22)는 제1시간에 촬영된 제1카메라로부터 획득된 제1 영상 프레임과 제2 카메라로부터 획득된 제2 영상 프레임 간의 비교를 통해 동일한 모션 추정이 발생했는지 여부를 판단할 수 있다.
달리 말해, 제2정보 추출부(22)는 복수의 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 모션 추정값을 연산할 수 있다. 비디오 코딩에서 모션벡터(Motion Vector, MV)는 기준 프레임에서 일치하는 예측 유닛(PU)의 위치를 식별할 수 있다. HEVC에서 모션벡터(Motion Vector, MV)는 인접 프레임 간의 움직임을 나타내도록 정교하게 개발되었다. 따라서, 두 개의 영상의 해당 CU(Coding Unit)의 예측 유닛(PU)이 동일하다면, 동일 CU(Coding Unit)일 확률은 더 높을 수 있다. 달리 말해, 서로 다른 시간에 획득된 두 개의 영상의 블록(CU(Coding Unit))의 예측 유닛(PU)이 동일하다면, 서로 다른 시간에 획득된 두 개의 영상은 동일 블록(CU(Coding Unit))일 확률이 높을 수 있다. 제2정보 추출부(22)는 서로 다른 시간에 획득된 복수의 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 해당 블록의 모션 추정값을 연산할 수 있다.
본원의 일 실시예에 따르면, 제2정보 추출부(22)는 영상 프레임 간의 대응하는 블록의 예측 유닛(Prediction Unit)이 동일한 경우, 영상 프레임 간의 동일한 모션 추정이 발생한 것으로 판단하여 미리 설정된 모션 추정값을 부여할 수 있다. 달리 말해, 제 2정보 추출부(22)는 제1 시점에 획득된 제1 영상 프레임 및 제2 시점에 획득된 제2 영상 프레임 간의 대응하는 제1블록의 예측 유닛이 동일한 경우, 제1 영상 프레임 및 제2 영상 프레임 간의 동일한 모션 추정이 발생한 것으로 판단하여 미리 설정된 모션 추정값을 부여할 수 있다.
제2정보 추출부(22)는 시간축의 모션 추정(Motion Estimation, ME)이 발생하는 구역은 시간영역에서 물체의 움직임을 의미할 수 있다. 만약 다중영상에 두 프레임에 똑같은 시간축의 모션 추정(Motion Estimation, ME)이 발생할 경우, 그 구역의 공간축의 모션 추정(Disparity Estimation DE)가 발생할 확률이 높을 것으로 판단할 수 있다.
예시적으로 도 5를 참조하면, 물체가 움직이는 구역은 많은 시간축의 모션 추정(Motion Estimation, ME)이 발생한다. 사람(객체)이 움직이는 영역은 배경 영역과 비교할 때 다른 색으로 칠해져 있는 것을 확인할 수 있다. 이는 물체가 움직이는 구역(영역)에서 시간축의 모션 추정이 발생함을 의미할 수 있다.
단계 S104에서, 제3정보 추출부(23)는 복수의 영상의 영상 프레임 내의 블록의 픽셀 정보를 추출하여 제3정보를 생성할 수 있다. 달리 말해, 제3정보 추출부(21)는 복수의 영상의 영상 프레임 내의 블록의 픽셀 정보를 추출하여 픽셀 정보 유사도 값을 연산할 수 있다. 제3정보 추출부(23)는 복수의 영상의 영상 프레임 내의 블록의 픽셀 정보(픽셀 값)가 동일할 경우, 해당 구역에서 공간축의 모션 추정(Disparity Estimation DE)이 확률이 높다고 판단할 수 있다. 달리 말해, 제3정보 추출부(23)는 제1 카메라로부터 획득된 영상의 영상 프레임 내의 제1블록의 픽셀 정보 및 제2 카메라로부터 획득된 영상의 영상 프레임 내의 제2블록의 픽셀 정보를 추출하여 동일한지 여부를 판단할 수 있다. 제3정보 추출부(23)는 제1블록의 픽셀 정보와 제2블록의 픽셀 정보가 일치할 경우, 해당 영역(제1블록 및 제2블록)이 동일한 구역이라고 판단할 수 있다.
본원의 일 실시예에 따르면, 제3정보 추출부(23)는 영상 프레임마다 복수의 블록으로 나누어진 영역의 각각의 픽셀 정보를 추출할 수 있다. 제3정보 추출부(23)는 복수의 영상의 영상 프레임 내의 블록의 제1영역에 해당하는 각각의 픽셀 정보를 추출하여 픽셀 정보 유사도 값을 연산할 수 있다.
단계 S105에서, 공간 보상부(미도시)는 미리 훈련되어 생성된 다시점 영상 정보의 공간 보상(Disparity Compensation) 모델(31)에 제1정보 내지 제3정보를 입력하여, 복수의 영상의 영상 프레임 간의 블록 매칭을 수행하고 공간 보상을 수행할 수 있다. 예를 들어, 공간 보상부(미도시)는 복수의 카메라에 의해 촬영된 복수의 영상의 영상 데이터로부터 제1정보 내지 제3정보를 추출한 정보를 입력으로 하여, 복수의 영상의 영상 프레임 간의 블록 매칭을 수행하고 공간 보상을 수행할 수 있다. 공간 보상부(미도시)는 공간 보상의 진행 과정에서 이미 훈련된 다시점 영상 정보의 공간 보상 모델(31)을 사용하여 공간 보상을 수행할 수 있다.
본원의 일 실시예에 따르면, 공간 보상 모델(31)은 뎁스 정보 유사도 값, 모션 추정값 및 픽셀 정보 유사도 값에 기초하여 머신 러닝 알고리즘을 이용하여 생성될 수 있다. 달리 말해, 공간 보상 모델(31)은 복수의 카메라(2)에 의해 촬영된 복수의 영상의 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보를 추출하여 연산된 뎁스 정보 유사도 값, 복수의 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 연산된 모션 추정값 및 복수의 영상의 영상 프레임 내의 블록의 픽셀 정보를 추출하여 연산된 픽셀 정보 유사도 값에 기초하여 머신 러닝 알고리즘을 이용하여 생성될 수 있다. 이때, 머신 러닝 알고리즘은 SVM(Support Vector Machine)을 포함을 포함할 수 있다. 서포트 벡터 머신(Support Vector Machine, SVM)은 기계 학습의 분야 중 하나로 패턴 인식, 자료 분석을 위한 지도 학습 모델이다.
도 8은 본원의 일 실시예에 따른 다시점 영상 정보의 복호화 방법의 흐름을 도시한 제2순서도이다.
이하에서는 본원의 일 실시예에 따른 다시점 영상 정보의 복호화 방법의 흐름을 도시한 제2순서도에 대해 설명하고자 한다. 다만, 다시점 영상 정보의 복호화 방법은 앞서 살핀 본원의 일 실시예 및 다른 일 실시예에 따른 다시점 영상 정보의 복호화 방법을 수행하는 다시점 영상 정보의 복호화 장치(1) 각각에 대한 것으로서, 앞서 살핀 본원의 일 실시예 및 다른 일 실시예에 따른 다시점 영상 정보의 복호화 방법과 동일하거나 상응하는 기술적 특징을 포함하는 발명이라 할 것이므로, 앞서 설명한 구성과 동일 또는 유사한 구성에 대해서는 동일한 도면부호를 사용하고, 중복되는 설명은 간략히 하거나 생략 하기로 한다.
단계 S201에서, 제1정보 추출부(21)는 복수의 카메라(2)에 의해 촬영된 복수의 영상의 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보 유사도 값을 연산할 수 있다. 예를 들어, 제1정보 추출부(21)는 다시점 영상 정보의 공간 보상 모델(30)의 학습 데이터로 사용될 제1정보를 추출할 수 있다. 달리 말해, 제1정보 추출부(21)는 제1 카메라에 의해 촬영된 제1 영상의 영상 데이터로부터 제1 영상의 영상 프레임 내의 블록의 뎁스 정보를 추출할 수 있다. 또한, 제1정보 추출부(21)는 제2 카메라에 의해 촬영된 제2 영상의 영상 데이터로부터 제2 영사의 영상 프레임 내의 블록의 뎁스 정보를 추출할 수 있다. 제1정보 추출부(21)는 제 1 카메라 및 제 2 카메라 각각에 의해 촬영된 제1 영상의 영상 데이터 및 제2 영상의 영상 데이터의 동일 영역의 블록의 뎁스 정보를 비교하여 유사도 값을 연산할 수 있다.
단계 S202에서, 제2정보 추출부(22)는 복수의 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 모션 추정값을 연산할 수 있다. 예를 들어, 제2정보 추출부(22)는 다시점 영상 정보의 공간 보상 모델(30)의 학습 데이터로 사용될 제2정보를 추출할 수 있다. 제2정보 추출부(21)는 서로 다른 시간에 획득된 제1 영상 및 제 2 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 모션 추정값을 연산할 수 있다. 제2정보 추출부(21)는 제1시간에 제1카메라로 획득된 제1 영상 및 제 2시간에 제1카메라로 획득된 제2영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단할 수 있다. 또한, 제2정보 추출부(21)는 서로 다른 시간에 획득된 제1 영상 및 제 2 영상의 동일 영역(블록)에 동일한 모션 추정이 발생하였는지 판단하여 모션 추정값을 연산할 수 있다.
단계 S203에서, 제3정보 추출부(23)는 복수의 영상의 영상 프레임 내의 블록의 픽셀 정보를 추출하여 픽셀 정보 유사도 값을 연산할 수 있다. 예를 들어, 제3정보 추출부(23)는 다시점 영상 정보의 공간 보상 모델(30)의 학습 데이터로 사용될 제3정보를 추출할 수 있다. 달리 말해, 제3정보 추출부(23)는 제1 영상의 영상 프레임 내의 제1블록의 픽셀 정보를 추출할 수 있다. 또한, 제3정보 추출부(23)는 제2 영상의 영상 프레임 내의 제2블록의 픽셀 정보를 추출할 수 있다. 제3정보 추출부(23)는 제1 블록 및 제2 블록의 픽셀 정보로부터 유사도 값을 연산할 수 있다.
앞서 설명된 단계 S201 내지 단계 S203은 공간 보상 모델(31)의 훈련용 데이터를 추출하기 위한 과정일 수 있다. 훈련용 데이터는, 공간 보상 모델(31)의 학습 데이터로 사용될 수 있다.
단계 S204에서, 공간 보상 모델(31)은 뎁스 정보 유사도 값, 모션 추정값 및 픽셀 정보 유사도 값에 기초하여 머신 러닝 알고리즘을 이용하여 생성될 수 있다. 이때, 머신 러닝 알고리즘은 SVM(Support Vector Machine)을 포함할 수 있다. 본원의 일 실시예에 따르면, 단계 S204에서, 공간 보상 모델(31)은 단계 S201 내지 단계 S203에서 연산된 뎁스 정보 유사도 값, 모션 추정값 및 픽셀 정보 유사도 값을 입력으로 하여 생성될 수 있다.
단계 S205에서, 복호화부(30)는 다시점 영상 정보의 공간 보상 모델(31)을 이용하여, 복수의 카메라(2)에 의해 촬영되어 부호화된 영상 데이터를 복호화할 수 있다. 예를 들어, 복호화부(30)는 복호화를 수행할 영상 데이터를 다시점 영상 정보의 공간 보상 모델(31)을 이용하여, 복수의 카메라(2)에 의해 촬영되어 부호화된 영상 데이터를 복호화할 수 있다. 예시적으로, 복호화부(30)는 다시점 영상 정보의 공간 보상 모델(31)을 이용하여, 복수의 카메라(2)에 의해 촬영되어 다시점 영상 정보의 인코딩 장치(미도시)에서 부호화된 영상 데이터를 복호화할 수 있다.
본원의 일 실시예에 따르면, 복호화부(30)는 다시점 영상 정보의 디코딩 장치(미도시)로부터 부호화된 영상 데이터를 수신하고, 해당 영상 데이터를 복호화하여 출력할 수 있다. 복호화부(30)는 수신받은 해당 영상 데이터에서 제1정보 내지 제3정보를 추출하여 다시점 영상 정보의 공간 보상 모델(31)에 입력하여, 복수의 영상의 영상 프레임 간의 블록 매칭을 수행하고 공간 보상을 수행할 수 있다. 복호화부(30)는 복수의 영상간의 중복성을 측정하기 위해 제1정보 내지 제3정보를 추출하고, 다시점 영상 정보의 공간 보상 모델(31)에 입력하여, 복수의 영상의 영상 프레임 간의 블록 매칭을 수행하고 공간 보상을 수행할 수 있다.
본원의 일 실시예에 따르면, 다시점 영상 정보의 복호화 장치(1)는 뎁스 정보 유사도 값, 모션 추정값 및 픽셀 정보 유사도 값에 기초하여 머신 러닝 알고리즘을 이용하여 다시점 영상 정보의 공간 보상 모델(31)을 훈련하여 미리 생성할 수 있다. 다시점 영상 정보의 복호화 장치(1)는 공간 보상 과정에서 훈련된 다시점 영상 정보의 공간 보상 모델(31)을 사용하여 복호화를 수행할 수 있다.
도 6a는 본원의 일 실시예에 따른 다시점 영상 정보의 복호화 장치의 훈련 과정을 개략적으로 도시한 도면이다.
예시적으로 도 6a를 참조하면, 다시점 영상 정보의 복호화 장치(1)는 훈련 측면에서 MV-HEVC의 비트스트림으로부터 3개의 특징(제1정보 내지 제3정보)을 추출하고 DC(공간 보상)의 위치(position)와 비교할 수 있다. DC(공간 보상)가 3개의 특징(제1정보 내지 제3정보) 고유 값의 위치(position)와 같으면 SVM(공간 보상 모델)의 레이블은 1로 표시되고 반대의 경우(고유 값의 위치가 같지 않으면)는 SVM(공간 보상 모델)의 레이블은 0으로 표시될 수 있다. 또한, SVM에서 교육하기 위해 실제의 장면을 두 개 이상의 카메라를 이용하여 캡쳐하여 MVV(Multi-View Video) 시퀀스를 인코딩 한 후, 압축된 다중영상은 비트 스트림의 형태로 복호기에 보내질 수 있다.
도 6b는 본원의 일 실시예에 따른 다시점 영상 정보의 복호화 장치의 예측 과정을 개략적으로 도시한 도면이다.
예시적으로 도 6b를 참조하면, 다시점 영상 정보의 복호화 장치(1)에서 디코더(MV-HEVC Decoder)는 복수의 카메라(2)에 의해 촬영된 부호화된 MV-HEVC 비트스트림(Bit-sream)을 정상적으로 압축 해제할 수 있다. 또한, 다시점 영상 정보의 복호화 장치(1)는 공간축의 보상(Disparity Compensation DC)의 처리를 시작할 때 SVM 예측 모듈(머신 러닝 알고리즘)을 사용하여 세 가지 정보(제1정보 내지 제3정보)를 추출하고 예측할 수 있다. 이때, 제1 정보 추출부(21)는 비트 스트림에 포함된 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보를 추출하여 제1정보를 생성하고, 제2정보 추출부(22)는 복수의 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 제2정보를 생성하고, 제3정보 추출부(23)는 복수의 영상의 영상 프레임 내의 블록의 픽셀 정보를 추출하여 제3정보를 생성할 수 있다.
다시점 영상 정보의 복호화 장치(1)는 다시점 영상 정보의 공간 보상 모델에 제1정보 내지 상기 제3정보를 입력하여, 복수의 영상의 영상 프레임 간의 블록 매칭을 수행하고 공간 보상을 수행할 수 있다. 이때, 다시점 영상 정보의 복호화 장치(1)에서 예측이 성공적이면 독립 뷰 (카메라 0)에서 해당 CU(Coding Unit)를 압축되지 않은 CU(Coding Unit)로 복사할 수 있다. 반면, 다시점 영상 정보의 복호화 장치(1)에서 예측이 성공적이지 않다면, 공간축의 보상(Disparity Compensation DC)으로 처리할 수 있다.
이하에서는 본원의 일 실시예 및 다른 일 실시예에 따른 다시점 영상 정보의 복호화 장치(1)에 대해 설명한다. 다만, 다시점 영상 정보의 복호화 장치(1)는 앞서 살핀 본원의 일 실시예 및 다른 일 실시예에 따른 다시점 영상 정보의 복호화 방법을 수행하는 다시점 영상 정보의 복호화 장치(1) 각각에 대한 것으로서, 앞서 살핀 본원의 일 실시예 및 다른 일 실시예에 따른 다시점 영상 정보의 복호화 방법과 동일하거나 상응하는 기술적 특징을 포함하는 발명이라 할 것이므로, 앞서 설명한 구성과 동일 또는 유사한 구성에 대해서는 동일한 도면부호를 사용하고, 중복되는 설명은 간략히 하거나 생략 하기로 한다.
도 2는 본원의 일 실시예에 따른 다시점 영상 정보의 복호화 장치의 개략적인 블록도이다.
도 2를 참조하면, 본원의 일 실시예에 따른 다시점 영상 정보의 복호화 장치(1)는 수신부(10), 특징 추출부(20) 및 복호화부(30)를 포함할 수 있다. 예시적으로, 다시점 영상 정보의 복호화 장치(1)는 다시점 영상 정보의 복호화를 수행하는 소프트웨어가 설치된 컴퓨터, 서버, 디바이스일 수 있으나, 이에 한정되지 않는다.
수신부(10)는 복수의 카메라(2)에 의해 촬영된 복수의 영상의 영상 데이터에 관한 비트 스트림(bit stream)을 수신할 수 있다.
특징 추출부(20)는 비트 스트림에 포함된 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보, 복수의 영상의 영상 프레임 간의 모션 추정에 관한 정보 및 복수의 영상의 영상 프레임 내의 블록의 픽셀 정보를 포함하는 비트 스트림의 특징 정보를 추출할 수 있다.
본원의 일 실시예에 따르면, 특징 추출부(20)는 제1정보 추출부(21), 제2정보 추출부(22) 및 제3정보 추출부(23)를 포함할 수 있다.
제1정보 추출부(21)는 비트 스트림에 포함된 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보를 추출하여 제1정보를 생성할 수 있다.
제2정보 추출부(22)는 복수의 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 제2정보를 생성할 수 있다.
제3정보 추출부(23)는 복수의 영상의 영상 프레임 내의 블록의 픽셀 정보를 추출하여 제3정보를 생성할 수 있다.
복호화부(30)는 미리 훈련되어 생성된 다시점 영상 정보의 공간 보상(Disparity Compensation) 모델(31)을 포함하며, 공간 보상 모델에 추출된 특징 정보를 입력하여 복수의 영상의 영상 프레임 간의 블록 매칭을 수행하고 공간 보상을 수행할 수 있다.
여기서, 공간 보상 모델(31)은 복수의 카메라(3)에 의해 촬영된 복수의 영상의 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보를 추출하여 연산된 뎁스 정보 유사도 값, 복수의 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 연산된 모션 추정값 및 복수의 영상의 영상 프레임 내의 블록의 픽셀 정보를 추출하여 연산된 픽셀 정보 유사도 값에 기초하여 머신 러닝 알고리즘을 이용하여 생성될 수 있다. 이때, 머신 러닝 알고리즘은 SVM(Support Vector Machine)을 포함할 수 있다.
본원의 일 실시예에 따르면, 다시점 영상 정보의 인코딩 장치(미도시)는 복수의 카메라(3) 각각으로부터 각각 촬영된 복수의 영상 데이터를 수신할 수 있다. 다시점 영상 정보의 인코딩 장치(미도시)는 복수의 영상 카메라(2)로부터 영상 데이터의 특성, 줌-인/줌-아웃(zoom-in/zoom-out)의 정도, 영상 카메라의 시점(view), 카메라의 위치 등이 서로 상이한 복수의 영상 데이터를 수신할 수 있다. 예를 들어, 영상 데이터의 특성은 해상도, 색상, 배경(background)의 유사도, 픽셀의 수, 영상 프레임의 수 등을 포함할 수 있다. 다시점 영상 정보의 인코딩 장치(미도시)는 복수의 카메라(2)로부터 수신한 영상 데이터를 부호화할 수 있다. 또한, 다시점 영상 정보의 인코딩 장치(미도시)는 수신한 영상 데이터의 특성, 영상 카메라의 시점, 줌-인/줌-아웃(zoom-in/zoom-out)의 정도, 카메라의 위치 등에 따라 수신한 영상 데이터의 부호화 방법을 결정할 수 있다.
상술한 설명에서, 단계 S101 내지 S105 및 S201 내지 S205는 본원의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
본원의 일 실시 예에 따른 다시점 영상 정보의 복호화 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
또한, 전술한 다시점 영상 정보의 복호화 방법은 기록 매체에 저장되는 컴퓨터에 의해 실행되는 컴퓨터 프로그램 또는 애플리케이션의 형태로도 구현될 수 있다.
전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.

Claims (13)

  1. 다시점 영상 정보의 복호화 방법에 있어서,
    복수의 카메라에 의해 촬영된 복수의 영상의 영상 데이터에 관한 비트 스트림(bit stream)을 수신하는 단계;
    상기 비트 스트림에 포함된 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보를 추출하여 제1정보를 생성하는 단계;
    복수의 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 제2정보를 생성하는 단계;
    상기 복수의 영상의 영상 프레임 내의 블록의 픽셀 정보를 추출하여 제3정보를 생성하는 단계; 및
    미리 훈련되어 생성된 다시점 영상 정보의 공간 보상(Disparity Compensation) 모델에 제1정보 내지 상기 제3정보를 입력하여, 복수의 영상의 영상 프레임 간의 블록 매칭을 수행하고 공간 보상을 수행하는 단계,
    를 포함하는 다시점 영상 정보의 복호화 방법.
  2. 제1항에 있어서,
    복수의 카메라에 의해 촬영된 복수의 영상의 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보를 추출하여 뎁스 정보 유사도 값을 연산하는 단계;
    복수의 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 모션 추정값을 연산하는 단계;
    복수의 영상의 영상 프레임 내의 블록의 픽셀 정보를 추출하여 픽셀 정보 유사도 값을 연산하는 단계; 및
    상기 뎁스 정보 유사도 값, 상기 모션 추정값 및 상기 픽셀 정보 유사도 값에 기초하여 머신 러닝 알고리즘을 이용하여 상기 미리 훈련된 다시점 영상 정보의 공간 보상 모델을 생성하는 단계,
    를 더 포함하는 것인, 다시점 영상 정보의 복호화 방법.
  3. 제2항에 있어서,
    상기 머신 러닝 알고리즘은 SVM(Support Vector Machine)을 포함하는 것인, 다시점 영상 정보의 복호화 방법.
  4. 제2항에 있어서,
    상기 복수의 영상의 영상 프레임 내의 상기 뎁스 정보는 영상 프레임 내의 각 블록의 64x64부터 8x8까지의 CU(Coding Unit)의 크기 정보 또는 트리 구조에 관한 정보를 포함하는 것인, 다시점 영상 정보의 복호화 방법.
  5. 제2항에 있어서,
    상기 복수의 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 모션 추정값을 연산하는 단계는, 영상 프레임 간의 대응하는 블록의 예측 유닛(Prediction Unit)이 동일한 경우, 상기 영상 프레임 간의 동일한 모션 추정이 발생한 것으로 판단하여 미리 설정된 모션 추정값을 부여하는 것인, 다시점 영상 정보의 복호화 방법.
  6. 다시점 영상 정보의 복호화 방법에 있어서,
    복수의 카메라에 의해 촬영된 복수의 영상의 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보를 추출하여 뎁스 정보 유사도 값을 연산하는 단계;
    복수의 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 모션 추정값을 연산하는 단계;
    복수의 영상의 영상 프레임 내의 블록의 픽셀 정보를 추출하여 픽셀 정보 유사도 값을 연산하는 단계;
    상기 뎁스 정보 유사도 값, 상기 모션 추정값 및 상기 픽셀 정보 유사도 값에 기초하여 머신 러닝 알고리즘을 이용하여 미리 훈련된 다시점 영상 정보의 공간 보상 모델을 생성하는 단계; 및
    상기 다시점 영상 정보의 공간 보상 모델을 이용하여, 복수의 카메라에 의해 촬영되어 부호화된 영상 데이터를 복호화하는 단계,
    를 포함하는 다시점 영상 정보의 복호화 방법.
  7. 제6항에 있어서,
    상기 머신 러닝 알고리즘은 SVM(Support Vector Machine)을 포함하는 것인, 다시점 영상 정보의 복호화 방법.
  8. 제6항에 있어서,
    상기 영상 데이터를 복호화하는 단계는,
    복수의 카메라에 의해 촬영된 부호화된 영상 데이터에 관한 비트 스트림(bit stream)을 수신하는 단계;
    상기 비트 스트림에 포함된 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보를 추출하여 제1정보를 생성하는 단계;
    복수의 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 제2정보를 생성하는 단계;
    상기 복수의 영상의 영상 프레임 내의 블록의 픽셀 정보를 추출하여 제3정보를 생성하는 단계; 및
    상기 다시점 영상 정보의 공간 보상 모델에 제1정보 내지 상기 제3정보를 입력하여, 복수의 영상의 영상 프레임 간의 블록 매칭을 수행하고 공간 보상을 수행하는 단계,
    를 포함하는 것인, 다시점 영상 정보의 복호화 방법.
  9. 다시점 영상 정보의 복호화 장치에 있어서,
    복수의 카메라에 의해 촬영된 복수의 영상의 영상 데이터에 관한 비트 스트림(bit stream)을 수신하는 수신부;
    상기 비트 스트림에 포함된 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보, 복수의 영상의 영상 프레임 간의 모션 추정에 관한 정보 및 상기 복수의 영상의 영상 프레임 내의 블록의 픽셀 정보를 포함하는 상기 비트 스트림의 특징 정보를 추출하는 특징 추출부; 및
    미리 훈련되어 생성된 다시점 영상 정보의 공간 보상(Disparity Compensation) 모델을 포함하며, 상기 공간 보상 모델에 상기 추출된 특징 정보를 입력하여 복수의 영상의 영상 프레임 간의 블록 매칭을 수행하고 공간 보상을 수행하는 복호화부,
    를 포함하는 다시점 영상 정보의 복호화 장치.
  10. 제9항에 있어서,
    상기 공간 보상 모델은, 복수의 카메라에 의해 촬영된 복수의 영상의 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보를 추출하여 연산된 뎁스 정보 유사도 값, 복수의 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 연산된 모션 추정값 및 복수의 영상의 영상 프레임 내의 블록의 픽셀 정보를 추출하여 연산된 픽셀 정보 유사도 값에 기초하여 머신 러닝 알고리즘을 이용하여 생성되는 것인, 다시점 영상 정보의 복호화 장치.
  11. 제10항에 있어서,
    상기 특징 추출부는,
    상기 비트 스트림에 포함된 영상 데이터로부터 복수의 영상의 영상 프레임 내의 블록의 뎁스 정보를 추출하여 제1정보를 생성하는 제1정보 추출부;
    복수의 영상의 영상 프레임 간의 동일한 모션 추정이 발생하였는지 판단하여 제2정보를 생성하는 제2정보 추출부; 및
    상기 복수의 영상의 영상 프레임 내의 블록의 픽셀 정보를 추출하여 제3정보를 생성하는 제3정보 추출부,
    를 포함하는 것인, 다시점 영상 정보의 복호화 장치.
  12. 제10항에 있어서,
    상기 머신 러닝 알고리즘은 SVM(Support Vector Machine)을 포함하는 것인, 다시점 영상 정보의 복호화 장치.
  13. 제1항 내지 제7항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한, 컴퓨터로 읽을 수 있는 기록매체.
PCT/KR2018/016934 2018-12-13 2018-12-28 다시점 영상 정보의 복호화 방법 및 장치 WO2020122308A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/711,941 US11132819B2 (en) 2018-12-13 2019-12-12 Method and apparatus for decoding multi-view video information

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180160595A KR102127212B1 (ko) 2018-12-13 2018-12-13 다시점 영상 정보의 복호화 방법 및 장치
KR10-2018-0160595 2018-12-13

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/711,941 Continuation US11132819B2 (en) 2018-12-13 2019-12-12 Method and apparatus for decoding multi-view video information

Publications (1)

Publication Number Publication Date
WO2020122308A1 true WO2020122308A1 (ko) 2020-06-18

Family

ID=71076986

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/016934 WO2020122308A1 (ko) 2018-12-13 2018-12-28 다시점 영상 정보의 복호화 방법 및 장치

Country Status (2)

Country Link
KR (1) KR102127212B1 (ko)
WO (1) WO2020122308A1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014502443A (ja) * 2010-11-04 2014-01-30 コーニンクレッカ フィリップス エヌ ヴェ 深さ表示マップの生成
KR20150038399A (ko) * 2012-09-25 2015-04-08 니폰 덴신 덴와 가부시끼가이샤 영상 부호화 방법 및 장치, 영상 복호 방법 및 장치와 이들의 프로그램

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3151562B1 (en) * 2015-09-29 2020-06-17 Dolby Laboratories Licensing Corporation Feature based bitrate allocation in non-backward compatible multi-layer codec via machine learning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014502443A (ja) * 2010-11-04 2014-01-30 コーニンクレッカ フィリップス エヌ ヴェ 深さ表示マップの生成
KR20150038399A (ko) * 2012-09-25 2015-04-08 니폰 덴신 덴와 가부시끼가이샤 영상 부호화 방법 및 장치, 영상 복호 방법 및 장치와 이들의 프로그램

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LEE, JAE-YUNG ET AL.: "An Efficient Inter-sub Block Filtering for BVSP in 3D-HEVC", PROCEEDINGS OF THE KOREAN INSTITUTE OF BROADCAST AND MEDIA ENGINEERS CONFERENCE, June 2013 (2013-06-01), pages 351 - 353, XP055717595 *
LEE, JAE-YUNG ET AL.: "Coding Technique Using Depth Map in 3D Scalable Video Codec", JOURNAL OF BROADCAST ENGINEERING, vol. 21, no. 2, March 2016 (2016-03-01), pages 237 - 251, XP055717588 *
LEE, JAE-YUNG ET AL.: "Efficient Motion Vector Coding Method for Multi-view Video Coding", CONFERENCE OF IEIE, November 2016 (2016-11-01), pages 383 - 385 *
WEI LIU: "Learning based MV-HEVC Disparity Compensation", 30TH WORKSHOP ON IMAGE PROCESSING AND IMAGE UNDERSTANDING, vol. 30, no. 01, 7 February 2018 (2018-02-07) *

Also Published As

Publication number Publication date
KR20200072705A (ko) 2020-06-23
KR102127212B1 (ko) 2020-07-07

Similar Documents

Publication Publication Date Title
WO2010068020A2 (ko) 다시점 영상 부호화, 복호화 방법 및 그 장치
WO2011019246A2 (en) Method and apparatus for encoding/decoding image by controlling accuracy of motion vector
KR102343700B1 (ko) 독립적으로 인코딩된 배경 업데이트들에 기초한 비디오 송신
CN112789852A (zh) 基于历史的图像编码方法及其设备
CN116684588A (zh) 帧间预测方法及针对图像的数据的发送方法
CN112005551B (zh) 一种视频图像预测方法及装置
WO2012081877A2 (ko) 다시점 비디오 부호화/복호화 장치 및 방법
WO2013176485A1 (ko) 비디오 신호 처리 방법 및 장치
WO2014010918A1 (ko) 비디오 신호 처리 방법 및 장치
WO2013191436A1 (ko) 비디오 신호 처리 방법 및 장치
Perra Light field image compression based on preprocessing and high efficiency coding
WO2018159987A1 (ko) 프리 스캔을 이용한 블록 기반 동영상 복호화 방법 및 그 장치
WO2014054896A1 (ko) 비디오 신호 처리 방법 및 장치
WO2015152504A1 (ko) 시점 간 움직임 병합 후보 유도 방법 및 장치
WO2014054897A1 (ko) 비디오 신호 처리 방법 및 장치
WO2020122308A1 (ko) 다시점 영상 정보의 복호화 방법 및 장치
WO2020004931A1 (ko) 영상 코딩 시스템에서 인터 예측에 따른 영상 처리 방법 및 장치
US11132819B2 (en) Method and apparatus for decoding multi-view video information
KR20120126500A (ko) 분산비디오 코덱 장치 및 이를 이용한 전경 영역 분할 보조정보 생성 방법
WO2014109563A1 (ko) 비디오 신호 처리 방법 및 장치
Zuo et al. Library based coding for videos with repeated scenes
RU2009104704A (ru) Способ получения данных движения для изображений высокого разрешения из данных движения изображений низкого разрешения и кодирующее и декодирующее устройства, осуществляющие упомянутый способ
WO2015102329A1 (en) Method and apparatus for processing video signal for reducing visibility of blocking artifacts
WO2012099352A2 (ko) 다시점 영상 부호화/복호화 장치 및 방법
WO2020009375A1 (ko) 영상 코딩 시스템에서 인트라 예측 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18943183

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18943183

Country of ref document: EP

Kind code of ref document: A1