WO2021241804A1 - 다중 플로우 기반 프레임 보간 장치 및 방법 - Google Patents

다중 플로우 기반 프레임 보간 장치 및 방법 Download PDF

Info

Publication number
WO2021241804A1
WO2021241804A1 PCT/KR2020/011173 KR2020011173W WO2021241804A1 WO 2021241804 A1 WO2021241804 A1 WO 2021241804A1 KR 2020011173 W KR2020011173 W KR 2020011173W WO 2021241804 A1 WO2021241804 A1 WO 2021241804A1
Authority
WO
WIPO (PCT)
Prior art keywords
frame
map
target
interpolation
frames
Prior art date
Application number
PCT/KR2020/011173
Other languages
English (en)
French (fr)
Inventor
이상윤
이형민
김태오
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Publication of WO2021241804A1 publication Critical patent/WO2021241804A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0135Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes
    • H04N7/0137Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes dependent on presence/absence of motion, e.g. of motion zones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the present invention relates to a frame interpolation apparatus and method, and to a multi-flow-based frame interpolation apparatus and method.
  • Video frame interpolation is a technique for increasing the number of frames per second by generating a frame between two frames when two temporally adjacent frames in a video image are given. It is one of the most difficult tasks in the field of video processing.
  • Frame interpolation technology has the advantage of being able to acquire slow-motion video from general video without using a professional and expensive high-speed camera, as well as being able to freely convert the frame rate of the video and apply it to a video coding system.
  • video frame interpolation requires an understanding of pixel movement, unlike image pixel interpolation.
  • Real video contains large and complex motions as well as simple motions, making video frame interpolation very difficult.
  • a kernel-based frame interpolation technique As a representative example of a conventional video frame interpolation technique that performs frame interpolation by analyzing pixel motion, there are a kernel-based frame interpolation technique and a flow-based frame interpolation technique.
  • the kernel-based frame interpolation technique is a technique of searching around the location of a pixel to be generated in two target frames in order to obtain information necessary to generate each pixel of the interpolation frame to be located between two adjacent target frames. .
  • a kernel of sufficient size for pixel search is estimated, and a large weight is assigned to a pixel of interest in the size range of the kernel estimated in two target frames to search for an appropriate reference position.
  • the kernel-based frame interpolation technique has a limitation in that it cannot handle a motion larger than the size of the kernel. Also, there is a problem of inefficiency because a large-sized kernel must always be maintained even when there is little or no movement.
  • the flow-based frame interpolation technique is a technique of generating a vector indicating the positions of corresponding pixels on two target frames with information necessary for generating each pixel of the interpolation frame.
  • the pixel value to be obtained is calculated by combining the pixel values at the positions indicated by each vector.
  • the flow-based frame interpolation technique since only one pixel per frame is referenced, there is a limitation in that complex motion cannot be handled. The problem is that you may need to reference the pixel.
  • the kernel and flow combination-based frame interpolation technique is a technique for estimating a kernel with a relatively small size compared to the kernel-based frame interpolation technique, and then moving the kernel by an additional estimated vector to determine the position of the corresponding pixel.
  • the kernel and flow combination-based frame interpolation technique also has similar disadvantages to the flow-based frame interpolation technique in that the size of the kernel is not large, and also has limitations in that the size or shape of the kernel is not free.
  • Another object of the present invention is to provide a frame interpolation apparatus and method capable of accurately generating an interpolation frame even in an occlusion region of a target frame.
  • a frame interpolation apparatus receives two temporally adjacent target frames from a video image composed of a plurality of frames, and applies two target frames according to a pre-learned pattern estimation method.
  • a motion feature extractor configured to obtain a motion feature map by estimating a pattern according to a relationship between pixels between frames;
  • Two flow maps indicating the position of at least one pixel to which each pixel of an interpolation frame to be generated by estimating a pattern of the motion feature map according to a pre-learned pattern estimation method should reference in each of the two target frames; obtaining two weight maps indicating the importance of each pixel of the two target frames with respect to each pixel of the interpolation frame, and assigning each of the two target frames to the two flow maps and a corresponding one of the two weight maps;
  • a warping frame obtaining unit obtaining two warping frames by warping using a weight map;
  • an occlusion map acquisition unit estimating a pattern of the motion feature map according to a pre
  • the warping frame obtaining unit acquires a first flow map by estimating positions of pixels to be referenced by each pixel of the interpolation frame among a plurality of pixels of a first target frame among the two target frames, a flow map acquisition unit configured to obtain a second flow map by estimating at least one pixel to be referenced by each pixel of the interpolation frame among pixels;
  • a first weight map is obtained by estimating the degree of influence of each of the plurality of pixels of the first target frame among the two target frames on each pixel of the interpolation frame, and each of the plurality of pixels of the second target frame is applied to the interpolation frame a weight map acquisition unit configured to obtain a second weight map by estimating the degree of influence on each pixel; and warping the first target frame according to the first flow map and the first weight map to obtain a first warped frame, and warping the second target frame according to the second flow map and the second weight map and a frame warping unit configured to obtain a second warping frame.
  • the frame warping unit obtains a pixel value for each position of the first warping frame by weighting and summing corresponding weights of the first weight map to pixel positions expressed in a vector form of the first flow map, A pixel value for each position of the first warping frame may be obtained by adding and summing corresponding weights of the second weight map to pixel positions expressed in a vector form.
  • the occlusion map acquisition unit may generate the occlusion map so that the occlusion area of the first target frame and the occlusion area of the second target frame have different specified values.
  • the frame interpolation apparatus further includes a learning unit for learning the motion feature extracting unit, the flow map obtaining unit, the weighting map obtaining unit, and the occlusion map obtaining unit using at least one of a supervised learning method or an adversarial learning method with an artificial neural network.
  • a learning unit for learning the motion feature extracting unit, the flow map obtaining unit, the weighting map obtaining unit, and the occlusion map obtaining unit using at least one of a supervised learning method or an adversarial learning method with an artificial neural network.
  • the learning unit sets the temporally adjacent previous and subsequent frames with respect to a specific frame in the video image as two target frames, applies them to the motion feature extraction unit, and the difference between the interpolated frame and the specific frame obtained by the interpolated frame acquirer can be calculated as a supervised learning loss and backpropagated.
  • the learning unit sequentially arranges and combines the first target frame and the interpolation frame according to a temporal order to obtain a first combined frame, and sequentially arranges and combines the interpolation frame and the second target frame to obtain a second combined frame a frame coupling unit; a random selection unit for randomly selecting one of the first combined frame and the second combined frame; and a frame determining unit that determines whether the selected combined frame is the first combined frame or the second combined frame, calculates a hostile loss, and backpropagates the frame.
  • the learning unit sets the temporally adjacent previous and subsequent frames with respect to a specific frame in the video image as two target frames, applies them to the motion feature extraction unit, and the difference between the interpolated frame and the specific frame obtained by the interpolated frame acquirer is calculated as a supervised learning loss to perform supervised learning by backpropagating, and then sequentially placing and combining each of the first and second target frames and the interpolation frame according to a temporal order to obtain two combined frames, and two combined frames By randomly selecting one of the frames, a frame coupled to the selected combined frame among the first and second target frames may be determined to calculate and backpropagate the hostile loss.
  • two temporally adjacent target frames are applied in a video image composed of a plurality of frames, and two applied according to a pre-learned pattern estimation method obtaining a motion feature map by estimating a pattern according to a relationship between pixels in a target frame;
  • Two flow maps indicating the position of at least one pixel to which each pixel of an interpolation frame to be generated by estimating a pattern of the motion feature map according to a pre-learned pattern estimation method should reference in each of the two target frames;
  • obtaining two warping frames by warping using a weight map; estimating the pattern of the motion feature map according to a pre-learned pattern estimation method to obtain an occlusion map indicating occlusion regions of the
  • the frame interpolation apparatus and method according to an embodiment of the present invention can generate each pixel of an interpolation frame with reference to a variable number of pixels and positions of the target frame, even in a video including various and complex motions and large motions. Accurate interpolation frames can be obtained. In addition, it is possible to stably generate an interpolated frame even when an occlusion region exists in the target frame.
  • FIG. 1 shows a schematic structure of a frame interpolation apparatus according to an embodiment of the present invention.
  • FIG. 2 shows an example of a detailed configuration of the warping frame acquiring unit of FIG. 1 .
  • FIG. 3 is a diagram for explaining the function of the expansion parameter for adjusting the starting position of the offset vector by the warping frame obtaining unit of FIG. 1 .
  • FIG. 4 shows an example of an occlusion map obtained by the occlusion map acquisition unit of FIG. 1 .
  • FIG. 5 shows an implementation example of the frame interpolation apparatus of FIG. 1 using an artificial neural network.
  • FIG. 6 is a diagram for explaining a difference between a frame interpolation method of the frame interpolation apparatus of FIG. 1 and a conventional frame interpolation method.
  • FIG. 7 shows an example of a detailed configuration of the learning unit of FIG. 1 .
  • FIG. 8 shows a frame interpolation method according to an embodiment of the present invention.
  • FIG. 1 shows a schematic structure of a frame interpolation apparatus according to an embodiment of the present invention
  • FIG. 2 shows an example of a detailed configuration of the warping frame acquiring unit of FIG. 1
  • FIG. 3 is an offset vector of the warping frame acquiring unit of FIG. It is a diagram for explaining the function of the expansion parameter for adjusting the starting position of .
  • FIG. 4 shows an example of the occlusion map obtained by the occlusion map acquisition unit of FIG. 1 .
  • the frame interpolation apparatus includes an image obtaining unit 100, a motion feature extracting unit 200, a warping frame obtaining unit 300, an occlusion map obtaining unit 400, and interpolation. and a frame acquisition unit 500 .
  • the image acquisition unit 100 is composed of a plurality of frames, and an interpolation frame (I out ) is generated between two temporally adjacent frames (I n , I n+1 ) among the plurality of frames and is a video image to be included.
  • the image acquisition unit 100 may be implemented as, for example, a video image photographing device such as a camera, or a communication unit that receives a video image from another device through a storage device or a network in which a previously acquired video image is stored.
  • Motion feature extraction unit 200 is being applied to the two frames (I n, I n + 1) adjacent from the image obtaining unit 100, the two frames are applied according to a pre-learning pattern estimation scheme (I n, I n+1 ), a motion feature map (m) is extracted by estimating a pattern according to the relationship between pixels.
  • the two frames (I n , I n+1 ) can be viewed as target frames in which an interpolation frame (I out ) is generated and inserted therebetween.
  • the motion feature extraction unit 200 obtains a motion feature map (m) by extracting features according to the correspondence between the pixels in the two target frames (I n , I n+1).
  • the motion feature extracting unit 200 includes a plurality of pixels of the second target frame (I n+1 ) from the plurality of pixels of the first target frame (I n ) among the two target frames (I n , I n+1 ). It can be seen that the motion feature map (m) is obtained by extracting the changing features of .
  • the motion feature map (m) obtained by the motion feature extracting unit 200 is transmitted to the occlusion map obtaining unit 400 together with the flow map obtaining unit 310 and the weighting map obtaining unit 320 of the warping frame obtaining unit 300 . each is approved.
  • the flow map acquisition unit 310 receives two flow maps f 1 from the motion characteristic map m applied according to a pre-learned pattern estimation method. , f 2 ) is obtained.
  • the flow map acquisition unit 310 estimates a pixel corresponding to each of a plurality of pixels to constitute an interpolation frame (I out ) among a plurality of pixels in each of the two target frames (I n , I n+1 ) (f 1 , f 2 ) can be obtained. That is, each of the two flow maps (f 1 , f 2 ) represents the position of the corresponding pixel to be referenced by each pixel of the interpolation frame (I out ) in the two target frames (I n , I n+1 ) in a vector format. It can be viewed as a feature map.
  • the flow map acquisition unit 310 includes a first flow map acquisition unit 311 and a second flow map acquisition unit 312 .
  • the first flow map acquisition unit 311 is based on the motion feature map (m), the temporally preceding first target frame (I n ) and the interpolation frame (I out ) of the two target frames based on the positional relationship of the pixels corresponding to the interpolation frame (I out ) by estimating obtain a first flow map (f 1) and the second flow map obtaining section 312, a second target frame (I n + 1) and the interpolation frame based on the motion characteristic map (m) (I out ) to obtain a second flow map f 2 by estimating the positional relationship of the pixels corresponding to each other.
  • the first flow map obtaining unit 311 and the second flow map obtaining unit 312 of the flow map obtaining unit 310 are first and second target frames (I n , I n+1 ), respectively.
  • a plurality of pixels corresponding to each pixel of the interpolation frame I out may be estimated at the same time. That is, each pixel of the interpolation frame I out may be generated with reference to a plurality of pixels of the first and second target frames I n and I n+1 .
  • the flow map acquisition unit 310 searches for at least one pixel that can be referenced by a plurality of pixels of the interpolation frame (I out ) in each of the two target frames (I n , I n+1 ), and the interpolation frame ( A positional relationship between a pixel for each position of I out ) and at least one pixel searched for in a target frame corresponding thereto may be acquired as a flow map f 1 , f 2 .
  • the flow map obtaining unit 310 two flow map, which is obtained in (f 1, f 2) is in motion the two target frame changes in each pixel of the (I n, I n + 1 ) interpolation frame (I out) of the virtual to be generated based on the respective It can be seen that it is obtained by estimating based on the inter-pixel change estimated in the feature map (m).
  • each of the first flow map acquisition unit 311 and the second flow map acquisition unit 312 of the flow map acquisition unit 310 is a pixel and a virtual interpolation frame (I) in the target frame (I n , I n+1 ) out ) may be obtained by dividing the positional relationship between pixels in the row direction (or the x-axis direction) and the column direction (or the y-axis direction). That is, the first and second flow maps f 1 , f 2 are divided into first and second row flow maps ⁇ 1 , ⁇ 2 and first and second column flow maps ⁇ 1 , ⁇ 2 , respectively. can be obtained by
  • the flow map acquisition unit 310 acquires two flow maps as the first flow map (f 1 ) and the second flow map (f 2 )
  • the first target frame (I n ) and the interpolation frame ( I out ) and the second target frame (I n+1 ) and the interpolation frame (I out ) by analyzing both the corresponding inter-pixel positional relationship between the interpolation frame (I out ) This is so that the pixel can represent an accurate pixel value between the two target frames I n and I n+1.
  • the weight map acquisition unit 320 acquires two weight maps W 1 , W 2 from the motion characteristic map m applied by the motion characteristic extraction unit 200 according to a pre-learned pattern estimation method.
  • Weight map acquisition unit 320 from the motion feature map (m) a plurality of pixels of the two target frames (I n , I n+1 ) to each of the plurality of pixels of the virtual interpolation frame (I out ) to be generated By estimating the influence, two weight maps (W 1 , W 2 ) are obtained.
  • the weight map (W 1 , W 2 ) is obtained by estimating the importance according to the mutual relationship between each of the plurality of pixels of the two target frames (I n , I n+1 ) and each pixel of the interpolation frame (I out ) do.
  • the weight map obtaining unit 320 may include a first weight map obtaining unit 321 and a second weighting map obtaining unit 312 like the flow map obtaining unit 310 .
  • the first weight map acquisition unit 321 corresponds to the first flow map acquisition unit 311, and the effect of each pixel of the first target frame I n on each pixel of the virtual interpolation frame I out .
  • a first weight map W 1 is obtained by estimating.
  • the second weight map acquisition unit 322 corresponds to the second flow map acquisition unit 312 , so that each pixel of the second target frame I n+1 corresponds to each pixel of the virtual interpolation frame I out .
  • a second weight map W 2 is obtained by estimating the effect.
  • the warping frame obtaining unit 300 separately includes a flow map obtaining unit 310 and a weighting map obtaining unit 320, so that two flow maps f 1 and f 2 and two weight maps W 1 are provided. , W 2 ) are obtained, respectively.
  • This is a more accurate interpolation frame (I out ) by distinguishing and obtaining the positions of pixels of the target frame (I n , I n+1 ) to be referenced by each pixel of the interpolation frame (I out ) and the importance of each pixel to be referenced. in order to be able to create That is, the pixel value of each pixel of the interpolation frame I out to be generated can be accurately estimated.
  • the frame warping unit 330 includes two flow maps f 1 and f 2 obtained by the flow map obtaining unit 310 and two weight maps W 1 and W 2 obtained by the weight map obtaining unit 320 ). By using , the two target frames I n and I n+1 transmitted from the image acquisition unit 100 are respectively warped.
  • the frame warping unit 330 may also include a first frame warping unit 331 and a second frame warping unit 332 .
  • the first frame warping unit 331 warps the first target frame I n using the first flow map f 1 and the first weight map W 1 to form the first warping frame I' n . obtained
  • the second frame warping unit 332 warps the second target frame I n+1 using the second flow map f 2 and the second weight map W 2 to create a second warping frame ( I' n+1 ) is obtained.
  • the first frame warping unit 331 determines the pixels of the first target frame I n to be referenced by each pixel of the first warping frame I' n based on the first flow map f 1 , and determines Each pixel value of the first warping frame I' n may be obtained by adding and summing the pixel values of the pixels of the first target frame I n by weighting the weight of the first weight map W 1 .
  • the first frame warping unit 331 determines the pixels of the first target frame I n to be referenced by each pixel of the first warping frame I' n based on the first flow map f 1 , and , by weighting and summing the pixel values of the pixels of the determined first target frame I n with the weight of the first weight map W 1 to obtain each pixel value of the first warping frame I' n. .
  • F represents the kernel size expressed by the first and second weight maps W 1 , W 2 , ( ⁇ , ⁇ ) represents a flow map (f) divided in each axial direction.
  • W represents a weight map
  • d is a dilation parameter, which is a parameter for adjusting the offset position at which each vector of the flow map f starts.
  • the first and second flow map acquisition units 311 and 312 change the starting position of a vector indicating the flow of a specific pixel to the corresponding pixel position when acquiring the flow map. It is possible to control whether a vector can be obtained by limiting it or whether a vector can be obtained by extending it to a neighboring pixel position. This is to allow a corresponding pixel to be searched for in a wider area.
  • the first warping frame I' n obtained by the first frame warping unit 331 may be viewed as a virtual interpolation frame estimated based on the first target frame I n
  • the second frame warping unit ( The second warping frame I' n+1 obtained in 332 may be viewed as a virtual interpolation frame estimated based on the second target frame I n+1 . If it is assumed that both the first warping frame I' n and the second warping frame I' n+1 are accurately estimated, the first warping frame I' n and the second warping frame I' n+1 ), the remaining regions except for the occluded regions of the two target frames I n and I n+1 may be equally obtained.
  • the warping frame acquiring unit 300 is a pre-operation for generating an interpolation frame positioned between the first target frame (I n ) and the second target frame (I n+1 ), the first target frame obtained two warped frame of (I n) a first warping frame (I '(n + 1, n) and the second target frame (I n + 1) a second warping frame I) which is based on the' which on the basis of do.
  • the occlusion map acquisition unit 400 is configured to obtain only one of the two target frames (I n , I n+1 ) from the pattern of the motion feature map (m) according to the learned pattern estimation method.
  • An occlusion map (V) is obtained by estimating the appearing occlusion region.
  • an occluded area appearing only in one frame exists because it is obscured by a change in the position of an object in each frame.
  • the occluded area may be divided into an area appearing only in the first frame of (a) and an area appearing only in the second frame of (b). Since the occlusion region appears only in one of the two target frames I n and I n+1 , pixels included in the occlusion region must be separately considered when generating the interpolation frame I out .
  • the occlusion map obtaining unit 400 is closed map that can be represented by separating the occlusion region of the first target frame (I n) occlusion region and the second target frame (I n + 1) from the motion feature map (m) ( V) is obtained.
  • the occlusion map acquisition unit 400 may acquire the occlusion map V ⁇ [0, 1] so that the element value of each element has a value of 0 or 1.
  • an element having an element value of 0 indicates that a pixel at a corresponding position in the first target frame I n is a pixel included in the occlusion region
  • an element having an element value of 1 is the second target frame. It may be obtained to indicate that the pixel at the corresponding position in (I n+1 ) is a pixel included in the occlusion area.
  • element value is zero, that is, the first target frame were expressed the region that appears only in the second target frame (I n + 1) in an occlusion region of (I n) in blue, an element value is 1, A region that appears only in the first target frame I n as an occluded region of the in region, that is, the second target frame I n+1 , is displayed in red.
  • the interpolation frame obtaining unit 500 includes the first warping frame (I' n ) and the second warping frame (I' n+1 ) obtained by the warping frame obtaining unit 300 and the occlusion map obtaining unit 400.
  • the occlusion map V is applied, and the interpolated frame I out is obtained using the applied first warping frame I' n and the second warping frame I' n+1 and the occlusion map V .
  • the interpolation frame obtaining unit 500 may obtain the interpolation frame I out according to Equation (2).
  • T denotes a frame warping operation performed by the warping frame obtaining unit 300 .
  • the interpolation frame obtaining unit 500 reflects and combines the occlusion area designated by the occlusion map V in each of the first warping frame I' n and the second warping frame I' n+1, thereby interpolating the frame. (I out ) can be obtained.
  • the learner 600 is a component provided when the frame interpolation apparatus is trained, and may be removed when the frame interpolation apparatus actually performs a frame interpolation operation.
  • the learning unit 600 includes a flow map acquisition unit 310 and a weight map acquisition unit 320 of the motion feature extraction unit 200 and the warping frame acquisition unit 300 implemented as an artificial neural network, and an occlusion map acquisition unit 400 . ) is learned.
  • the learning unit 600 uses at least one of a supervised learning method using learning data for which the truth value has been obtained in advance and an adversarial learning method based on a generative adversarial network (GAN) to provide a frame interpolation device.
  • GAN generative adversarial network
  • FIG. 5 shows an implementation example of the frame interpolation apparatus of FIG. 1 using an artificial neural network.
  • the flow map acquisition unit 310 and the weight map acquisition unit 320 of the motion feature extraction unit 200 and the warping frame acquisition unit 300, and the occlusion map All acquisition units 400 may be implemented as artificial neural networks.
  • the motion feature extraction unit 200, the flow map acquisition unit 310, the weight map acquisition unit 320, and the occlusion map acquisition unit 400 each include a convolutional neural network including at least one convolutional layer. : CNN) can be implemented. Each convolutional layer performs a convolution operation using a convolution kernel, and then performs activation functions, such as an average pooling (avgpool) function, a softmax function, and a sigmoid function. Available.
  • the first and second flow maps f 1 , f 2 are respectively first and second row flow maps ⁇ 1 , ⁇ 2 , and first and second column flow maps ⁇ 1 , ⁇ 2 ), and the first and second frame warping units 331 and 332 are expressed as AdaCoF. This is to perform warping based on adaptive collaboration of flows in which the first and second frame warping units 331 and 332 add weights to a plurality of vectors representing the flow of each pixel. Because.
  • FIG. 6 is a diagram for explaining a difference between a frame interpolation method of the frame interpolation apparatus of FIG. 1 and a conventional frame interpolation method.
  • FIG. 6 shows a conventional kernel-based frame interpolation technique, (b) shows a flow-based frame interpolation technique, and (c) shows a kernel and flow combination based frame interpolation technique. And (d) shows the frame interpolation technique according to the present embodiment.
  • the kernel-based frame interpolation technique cannot respond to the motion of a pixel larger than the kernel size by searching for a corresponding pixel within a kernel of a specified size.
  • the flow-based frame interpolation technique shown in (b) is not limited to the size of the motion of pixels, multiple pixels cannot be referenced at the same time, and the image quality of the target frame (I t-1 , I t+1) is not clear. It is not possible to obtain an accurate interpolation frame (I t ).
  • the kernel and flow combination-based frame interpolation technique can also be viewed as applying the flow-based frame interpolation technique to a pixel having a substantially large size as the size of the kernel is limited. It has limitations.
  • the frame interpolation technique according to the present embodiment can generate pixels of the interpolation frame (I t ) by referring to a plurality of pixels at various positions without being constrained by the position and number of pixels as shown in (d).
  • a very accurate interpolation frame (I t ) can be obtained.
  • FIG. 7 shows an example of a detailed configuration of the learning unit of FIG. 1 .
  • the learning unit 600 temporally for each frame (I t ) in the video image composed of a plurality of frames the previous frame (I t-1 ) and the subsequent frame (I) t+1 ) is applied to the motion feature extraction unit 200 . And using the current frame (I t ) as the truth value (I gt ), the difference between the interpolation frame (I out ) and the truth value (I gt ) obtained by the interpolation frame obtaining unit 500 is supervised learning loss (L 1 ) ) and can be calculated according to Equation 3.
  • the learning unit 600 backpropagates the calculated loss L 1 , the motion feature extracting unit 200 of the frame interpolation apparatus, the flow map obtaining unit 310 and the weighting map obtaining unit 320 , and the occlusion map obtaining unit (400) can be learned.
  • the learning unit 600 may have a configuration as shown in FIG. 7 .
  • the learning unit 600 may include a frame combining unit 610 , a random selecting unit 620 , and a frame determining unit 630 .
  • the frame combiner 610 converts the interpolation frame I out obtained by the interpolation frame obtainer 500 into two target frames (I n , I n+1 ). Concatenate to each and output a combined frame ([I n , I out ], [I out , I n+1 ]). At this time, the frame combining unit 610 combines the frames according to the temporal order between the target frame (I n , I n+1 ) and the interpolation frame (I out ).
  • the frame coupling part 610 may include a first frame coupling part 611 and a second frame coupling part 612 .
  • the first frame combining unit 611 receives and combines the first target frame (I n ) and the interpolation frame (I out ) among the two target frames (I n , I n+1 ) to combine the first combined frame ([I n , I out ]).
  • the first frame combiner 611 first arranges the first target frame (I n ) and the interpolation frame (I out ) according to the temporal arrangement order of the first target frame (I n ), and then the interpolation frame (I out ) Arrange and combine to obtain a first combined frame ([I n , I out ]).
  • a second frame coupling section (612) has two target frames (I n, I n + 1) of the second target frame (I n + 1) and the second coupling frame combination is received the interpolation frame (I out) ( [I out , I n+1 ]).
  • the second frame combiner 612 first arranges the second target frame (I n+1 ) and the interpolation frame (I out ) according to the temporal arrangement order of the interpolation frame (I out ), and then the second target frame (In n) +1 ) is arranged and combined to obtain a second combined frame ([I out , I n+1 ]).
  • the random selection unit 620 randomly selects one of the first combined frame ([I n , I out ]) or the second combined frame ([I out , I n+1 ]) obtained from the frame combiner 610 . It is selected and transmitted to the frame determining unit 630 .
  • the frame determining unit 630 is the combined frame selected by the random selection unit 620 and transmitted is the first combined frame ([I n , I out ]) or the second combined frame ([I out , I n+1) ]) or not. If the interpolation frame (I out ) is generated as a very natural frame between the two target frames (I n , I n+1 ), the frame determining unit 630 determines that the applied combined frame is the first combined frame ([I n , I out ]) or the second combined frame ([I out , I n+1 ]) is difficult to accurately determine.
  • the frame determining unit 630 determines whether the applied combined frame is the first combined frame ([I n , I out ]) or the second combined frame ( [I out , I n+1 ]) can be easily determined.
  • the frame determining unit 630 cannot accurately determine the combined frame, the motion feature extracting unit 200, the flow map obtaining unit 310, the weighting map obtaining unit 320, and the occlusion map obtaining unit 400 are normally performed. can be viewed as learned.
  • the loss L C for the frame determiner 630 may be calculated by Equation (4).
  • C denotes a discriminant function of the frame discriminating unit 630
  • [] denotes a frame combination
  • the adversarial learning method shows very good learning performance, but has a disadvantage that it requires a very long time to learn.
  • the learning rate is relatively fast, the learning performance may be lower than that of the adversarial learning method.
  • a mixed learning method using both a supervised learning method and an adversarial learning method may be performed. That is, first learning is performed according to the supervised learning method to quickly perform primary learning, and then, by additionally applying the adversarial learning method to perform secondary learning, excellent learning results can be obtained while increasing the learning speed. .
  • FIG. 8 shows a frame interpolation method according to an embodiment of the present invention.
  • two temporally adjacent target frames (I n , I n+1 ) are obtained from a video image composed of a plurality of frames (S10) .
  • a motion feature map (m) is obtained by estimating a pattern according to a relationship between pixels between two target frames (I n , I n+1 ) applied according to a pre-learned pattern estimation method (S20).
  • each pixel of the interpolation frame to be generated is divided into two target frames (I n , I n+). 1 ), two flow maps f 1 and f 2 are obtained by estimating the positional relationship of each pixel to be referenced (S30).
  • the first flow map f 1 is a combination of pixels to be referenced by each pixel of the interpolation frame among a plurality of pixels of the first target frame I n among the two target frames I n , I n+1 . It is obtained by estimating the positional relationship, and the second flow map f 2 is obtained by estimating the positional relationship with pixels to be referenced by each pixel of the interpolation frame among a plurality of pixels of the second target frame I n+1 can be
  • each pixel of the two target frames (I n , I n+1 ) By estimating the importance, two weight maps W 1 and W 2 are obtained (S40).
  • the first weight map W 1 is obtained by estimating the influence of a plurality of pixels of the first target frame I n among the two target frames I n , I n+1 on each pixel of the interpolation frame
  • the second weight map W 2 may be obtained by estimating the influence of a plurality of pixels of the second target frame I n+1 on each pixel of the interpolation frame.
  • the two target frames (I n , I n+1 ) respectively correspond to the corresponding flow maps (f 1 , By warping using f 2 ) and the weight maps W 1 , W 2 , two warping frames I' n , I' n+1 are obtained ( S50 ).
  • the warping frame (I 'n, I' n + 1) is the weight map for the pixels of the flow map (f 1, f 2) the target frame (I n, I n + 1 ) at the location specified by the (W 1, By weighting and summing the weights specified by W 2 ), it can be obtained.
  • the pattern of the motion feature map (m) according to the pre-learned pattern estimation method separately from the step (S30) of acquiring the flow map (f 1 , f 2 ) and the step of acquiring the weight map (W 1 , W 2 )
  • An occlusion map V indicating the occlusion regions of the two target frames I n and I n+1 is obtained from ( S60 ).
  • the occlusion map (V) may be generated to have a first target frame (I n) occlusion region and the second target frame (I n + 1) occlusion value ([0,1]) of different specified in the .
  • the interpolation frame may be obtained according to Equation (2).
  • the learning includes a step (S20) of obtaining a motion feature map (m), a step of obtaining two flow maps (f 1 , f 2 ) (S30), and a step of obtaining two weight maps (W 1 , W 2 ) Step S40 and step S60 of obtaining the occlusion map V are performed normally.
  • the frame interpolation method according to the present embodiment may further include a learning step (not shown) before the target frame obtaining step.
  • the learning phase may include at least one of a supervised learning phase and an adversarial learning phase.
  • the supervised learning step is temporally the previous frame (I t-1 ) and the subsequent frame (I t+1 ) for each frame (I t ) in a video image composed of a plurality of frames. is selected as two target frames (I n , I n+1 ) to extract a motion feature (m) to obtain an interpolation frame (I out ). And it can be performed by calculating the difference between the obtained interpolation frame (I out ) and the current frame (I t ), which is the truth value (I gt ), as a supervised learning loss (L 1 ) and backpropagating it.
  • the learning step includes the adversarial learning step
  • the first target frame (I n ) and the interpolation frame (I out ) are arranged and combined according to the temporal sequence to obtain the first combined frame ([I n , I out ])
  • the interpolation frame (I out ) and the second target frame (I n+1 ) are arranged and combined to obtain a second combined frame ([I out , I n+1 ]).
  • the hostile loss (L adv ) is calculated according to Equation 5 based on the determination result This can be done by backpropagating.
  • the learning step may be configured to first perform the supervised learning step and then additionally perform the adversarial learning step.
  • the method according to the present invention may be implemented as a computer program stored in a medium for execution by a computer.
  • the computer-readable medium may be any available medium that can be accessed by a computer, and may include all computer storage media.
  • Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data, and read dedicated memory), RAM (Random Access Memory), CD (Compact Disk)-ROM, DVD (Digital Video Disk)-ROM, magnetic tape, floppy disk, optical data storage, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Television Systems (AREA)

Abstract

본 발명은 대상 프레임의 다양한 개수의 픽셀과 위치를 참조하여 보간 프레임의 각 픽셀을 생성할 수 있어, 다양하고 복잡한 동작 및 큰 동작이 포함된 비디오에서도 정확한 보간 프레임을 획득할 수 있을 뿐만 아니라, 대상 프레임에 폐색 영역 존재하는 경우에도 안정적으로 보간 프레임을 생성할 수 있는 프레임 보간 장치 및 방법을 제공할 수 있다.

Description

다중 플로우 기반 프레임 보간 장치 및 방법
본 발명은 프레임 보간 장치 및 방법에 관한 것으로, 다중 플로우 기반 프레임 보간 장치 및 방법에 관한 것이다.
비디오 프레임 보간은 비디오 영상에서 시간적으로 인접한 두 프레임이 주어졌을 때, 두 프레임 사이의 프레임을 생성하여 초당 프레임 수를 늘리는 기술로, 비디오 처리 분야에서 가장 어려운 과제들 중 하나이다.
프레임 보간 기술을 이용하면, 전문적인 고가의 고속 카메라를 사용하지 않고도 일반 비디오에서 슬로우 모션 비디오를 획득할 수 있을 뿐만 아니라, 비디오의 프레임 속도를 자유롭게 변환하여 비디오 코딩 시스템에 적용할 수 있다는 장점이 있다. 다만 비디오 프레임 보간은 이미지의 픽셀 보간과 달리 픽셀의 움직임에 대한 이해가 필요하다. 실제 비디오에는 단순한 동작뿐만 아니라 크고 복잡한 동작도 포함되어 있어 비디오 프레임 보간 작업을 매우 어렵게 한다.
이에 최근에는 딥러닝(deep learning)을 이용한 다양한 방법들이 제안되고 있는데, 이들의 대부분은 자체적인 와핑(warping) 연산을 정의하여 복원하고자 하는 픽셀을 얻기 위해 필요한 인접 프레임 상의 참조할 위치를 찾는 데 집중한다.
이와 같이 픽셀의 동작을 분석하여 프레임 보간을 수행하는 기존의 비디오 프레임 보간 기법의 대표적인 예로 커널 기반 프레임 보간 기법과 플로우 기반 프레임 보간 기법이 있다.
커널 기반 프레임 보간 기법은 두 개의 인접한 대상 프레임 사이에 위치할 보간 프레임의 각 픽셀을 생성하는데 필요한 정보를 획득하기 위해, 두 개의 대상 프레임에서 생성하고자 하는 픽셀의 위치를 중심으로 주변을 탐색하는 기법이다. 커널 기반 프레임 보간 기법에서는 픽셀 탐색에 충분한 크기의 커널(kernel)을 추정하고, 두 개의 대상 프레임에서 추정된 커널의 크기 범위에서 관심있는 픽셀에 큰 가중치를 할당하여 적절한 참조 위치를 탐색하는 기법이다. 다만, 커널 기반 프레임 보간 기법에서는 커널의 크기보다 큰 움직임을 다룰 수 없다는 한계가 있다. 또한 움직임이 작거나 없는 상황에서도 큰 크기의 커널을 항상 유지해야 하므로 비효율적이라는 문제가 있다.
한편, 플로우 기반 프레임 보간 기법은 보간 프레임의 각 픽셀을 생성하는데 필요한 정보를 두 개의 대상 프레임 상의 대응하는 픽셀의 위치를 가리키는 벡터를 생성하는 기법이다. 플로우 기반 프레임 보간 기법에서는 각 벡터가 가리키는 위치의 픽셀 값을 조합하여 얻고자 하는 픽셀의 값을 계산한다. 다만 플로우 기반 프레임 보간 기법에서는 프레임 하나당 단 하나의 픽셀만을 참조하기 때문에 복잡한 움직임을 다룰 수 없다는 한계가 있을 뿐만 아니라, 입력된 대상 프레임의 화질이 좋지 않을 경우, 안정적인 보간 프레임 생성을 위해 둘 이상의 다수의 픽셀을 참조해야 할 필요가 있을 수 있다는 문제가 있다.
상기한 커널 기반 프레임 보간 기법과 플로우 기반 프레임 보간 기법의 단점을 보완하기 위해 커널 및 플로우 조합 기반 프레임 보간 기법도 제안된 바가 있다. 커널 및 플로우 조합 기반 프레임 보간 기법은 커널 기반 프레임 보간 기법에 비해 상대적으로 작은 크기로 커널을 추정한 후, 추가적으로 추정된 벡터만큼 그 커널을 평행이동 시켜 대응하는 픽셀의 위치를 판별하는 기법이다. 그러나 커널 및 플로우 조합 기반 프레임 보간 기법 또한 커널의 크기가 크지 않다는 점에서 플로우 기반의 프레임 보간 기술과 유사한 단점이 존재할 뿐만 아니라, 커널의 크기 또는 모양이 자유롭지 않다는 한계가 있다.
본 발명의 목적은 대상 프레임의 다양한 개수의 픽셀과 위치를 참조하여 보간 프레임의 각 픽셀을 생성할 수 있어, 다양하고 복잡한 동작이 포함된 비디오에서도 정확한 보간 프레임을 획득할 수 있는 프레임 보간 장치 및 방법을 제공하는데 있다.
본 발명의 다른 목적은 대상 프레임에 폐색 영역에 대해서도 정확하게 보간 프레임을 생성할 수 있는 프레임 보간 장치 및 방법을 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 프레임 보간 장치는 다수의 프레임으로 구성된 비디오 영상에서 시간적으로 인접한 두 개의 대상 프레임을 인가받고, 미리 학습된 패턴 추정 방식에 따라 인가된 두 개의 대상 프레임 사이에서 픽셀들 간의 관계에 따른 패턴을 추정하여 모션 특징맵을 획득하는 모션 특징 추출부; 미리 학습된 패턴 추정 방식에 따라 상기 모션 특징맵의 패턴을 추정하여, 생성되어야 하는 보간 프레임의 각 픽셀이 상기 두 개의 대상 프레임 각각에서 참조해야하는 적어도 하나의 픽셀 위치를 나타내는 2개의 플로우맵과, 상기 보간 프레임의 각 픽셀에 대한 상기 두 개의 대상 프레임의 각 픽셀의 중요도를 나타내는 2개의 가중치맵을 획득하고, 두 개의 대상 프레임 각각을 상기 2개의 플로우맵과 상기 2개의 가중치맵 중 대응하는 플로우맵과 가중치맵을 이용하여 와핑하여 2개의 와핑 프레임을 획득하는 와핑 프레임 획득부; 미리 학습된 패턴 추정 방식에 따라 상기 모션 특징맵의 패턴을 추정하여, 상기 2개의 대상 프레임의 폐색 영역을 나타내는 폐색맵을 획득하는 폐색맵 획득부; 및 상기 2개의 와핑 프레임과 상기 폐색맵을 기지정된 방식으로 결합하여 상기 보간 프레임을 획득하는 보간 프레임 획득부를 포함한다.
상기 와핑 프레임 획득부는 상기 두 개의 대상 프레임 중 제1 대상 프레임의 다수의 픽셀 중 상기 보간 프레임의 각 픽셀이 참조해야하는 픽셀들의 위치를 추정하여 제1 플로우맵을 획득하고, 제2 대상 프레임의 다수의 픽셀 중 상기 보간 프레임의 각 픽셀이 참조해야하는 적어도 하나의 픽셀들의 추정하여 제2 플로우맵을 획득하는 플로우맵 획득부; 상기 두 개의 대상 프레임 중 제1 대상 프레임의 다수의 픽셀 각각이 상기 보간 프레임의 각 픽셀에 미치는 영향도를 추정하여 제1 가중치맵을 획득하고, 제2 대상 프레임의 다수의 픽셀 각각이 상기 보간 프레임의 각 픽셀에 미치는 영향도를 추정하여 제2 가중치맵을 획득하는 가중치맵 획득부; 및 상기 제1 대상 프레임을 상기 제1 플로우맵과 상기 제1 가중치맵에 따라 와핑하여 제1 와핑 프레임을 획득하고, 상기 제2 대상 프레임을 상기 제2 플로우맵과 상기 제2 가중치맵에 따라 와핑하여 제2 와핑 프레임을 획득하는 프레임 와핑부를 포함할 수 있다.
상기 프레임 와핑부는 상기 제1 플로우맵의 벡터 형태로 표현된 픽셀 위치에 상기 제1 가중치맵의 대응하는 가중치를 가중하고 합하여 제1 와핑 프레임의 위치별 픽셀값을 획득하고, 상기 제2 플로우맵의 벡터 형태로 표현된 픽셀 위치에 상기 제2 가중치맵의 대응하는 가중치를 가중하고 합하여 상기 제1 와핑 프레임의 위치별 픽셀값을 획득할 수 있다.
상기 폐색맵 획득부는 상기 폐색맵이 상기 제1 대상 프레임의 폐색 영역과 상기 제2 대상 프레임의 폐색 영역이 서로 다른 지정된 값을 갖도록 생성할 수 있다.
상기 프레임 보간 장치는 인공 신경망으로 상기 모션 특징 추출부와 상기 플로우맵 획득부, 상기 가중치맵 획득부 및 상기 폐색맵 획득부를 지도 학습 방식 또는 적대적 학습 방식 중 적어도 하나를 이용하여 학습시키기 위한 학습부를 더 포함할 수 있다.
상기 학습부는 비디오 영상에서 특정 프레임에 대해 시간적으로 인접한 이전 프레임과 이후 프레임을 2개의 대상 프레임으로 설정하여 상기 모션 특징 추출부로 인가하고, 상기 보간 프레임 획득부에서 획득되는 보간 프레임과 특정 프레임 사이의 차를 지도 학습 손실로 계산하여 역전파할 수 있다.
상기 학습부는 시간적 순서에 따라 상기 제1 대상 프레임과 상기 보간 프레임을 순차 배치 결합하여 제1 결합 프레임을 획득하고, 상기 보간 프레임과 상기 제2 대상 프레임을 순차 배치 및 결합하여 제2 결합 프레임을 획득하는 프레임 결합부; 상기 제1 결합 프레임 또는 상기 제2 결합 프레임 중 하나를 랜덤하게 선택하는 랜덤 선택부; 및 선택된 결합 프레임이 상기 제1 결합 프레임인지 또는 상기 제2 결합 프레임인지 여부를 판별하여 적대적 손실을 계산하여 역전파하는 프레임 판별부를 포함할 수 있다.
상기 학습부는 비디오 영상에서 특정 프레임에 대해 시간적으로 인접한 이전 프레임과 이후 프레임을 2개의 대상 프레임으로 설정하여 상기 모션 특징 추출부로 인가하고, 상기 보간 프레임 획득부에서 획득되는 보간 프레임과 특정 프레임 사이의 차를 지도 학습 손실로 계산하여 역전파하여 지도 학습을 수행하고, 이후 상기 제1 및 제2 대상 프레임 각각과 상기 보간 프레임을 시간적 순서에 따라 순차 배치 결합하여 2개의 결합 프레임을 획득하고, 2개의 결합 프레임 중 하나를 랜덤하게 선택하여, 상기 제1 및 제2 대상 프레임 중 선택된 결합 프레임에 결합된 프레임을 판별하여 적대적 손실을 계산하고 역전파할 수 있다.
상기 다른 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 프레임 보간 방법은 다수의 프레임으로 구성된 비디오 영상에서 시간적으로 인접한 두 개의 대상 프레임을 인가받고, 미리 학습된 패턴 추정 방식에 따라 인가된 두 개의 대상 프레임 사이에서 픽셀들 간의 관계에 따른 패턴을 추정하여 모션 특징맵을 획득하는 단계; 미리 학습된 패턴 추정 방식에 따라 상기 모션 특징맵의 패턴을 추정하여, 생성되어야 하는 보간 프레임의 각 픽셀이 상기 두 개의 대상 프레임 각각에서 참조해야하는 적어도 하나의 픽셀 위치를 나타내는 2개의 플로우맵과, 상기 보간 프레임의 각 픽셀에 대한 상기 두 개의 대상 프레임의 각 픽셀의 중요도를 나타내는 2개의 가중치맵을 획득하고, 두 개의 대상 프레임 각각을 상기 2개의 플로우맵과 상기 2개의 가중치맵 중 대응하는 플로우맵과 가중치맵을 이용하여 와핑하여 2개의 와핑 프레임을 획득하는 단계; 미리 학습된 패턴 추정 방식에 따라 상기 모션 특징맵의 패턴을 추정하여, 상기 2개의 대상 프레임의 폐색 영역을 나타내는 폐색맵을 획득하는 단계; 및 상기 2개의 와핑 프레임과 상기 폐색맵을 기지정된 방식으로 결합하여 상기 보간 프레임을 획득하는 단계를 포함한다.
따라서, 본 발명의 실시예에 따른 프레임 보간 장치 및 방법은 대상 프레임의 다양한 개수의 픽셀과 위치를 참조하여 보간 프레임의 각 픽셀을 생성할 수 있어, 다양하고 복잡한 동작 및 큰 동작이 포함된 비디오에서도 정확한 보간 프레임을 획득할 수 있다. 뿐만 아니라, 대상 프레임에 폐색 영역 존재하는 경우에도 안정적으로 보간 프레임을 생성할 수 있다.
도 1은 본 발명의 일 실시예에 따른 프레임 보간 장치의 개략적 구조를 나타낸다.
도 2는 도 1의 와핑 프레임 획득부의 상세 구성의 일 예를 나타낸다.
도 3은 도 1의 와핑 프레임 획득부가 오프셋 벡터의 시작 위치를 조절하기 위한 팽창 파라미터의 기능을 설명하기 위한 도면이다.
도 4는 도 1의 폐색맵 획득부가 획득하는 폐색맵의 일 예를 나타낸다.
도 5는 인공 신경망을 이용한 도 1의 프레임 보간 장치를 구현 예를 나타낸다.
도 6은 도 1의 프레임 보간 장치의 프레임 보간 방식과 기존의 프레임 보간 기법 사이의 차이를 설명하기 위한 도면이다.
도 7은 도 1의 학습부의 상세 구성의 일 예를 나타낸다.
도 8은 본 발명의 일 실시예에 따른 프레임 보간 방법을 나타낸다.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈", "블록" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 발명의 일 실시예에 따른 프레임 보간 장치의 개략적 구조를 나타내고, 도 2는 도 1의 와핑 프레임 획득부의 상세 구성의 일 예를 나타내며, 도 3은 도 1의 와핑 프레임 획득부가 오프셋 벡터의 시작 위치를 조절하기 위한 팽창 파라미터의 기능을 설명하기 위한 도면이다. 그리고 도 4는 도 1의 폐색맵 획득부가 획득하는 폐색맵의 일 예를 나타낸다.
도 1 내지 도 4를 참조하면, 본 실시예에 따른 프레임 보간 장치는 영상 획득부(100), 모션 특징 추출부(200), 와핑 프레임 획득부(300), 폐색맵 획득부(400) 및 보간 프레임 획득부(500)를 포함한다.
우선 영상 획득부(100)는 다수의 프레임으로 구성되고, 다수의 프레임 중 시간적으로 인접한 두 개의 프레임(I n, I n+1) 사이에 보간 프레임(I out)이 생성되어 포함되어야 하는 비디오 영상을 획득한다. 여기서 영상 획득부(100)는 일 예로 카메라와 같은 비디오 영상 촬영 장치로 구현되거나, 미리 획득된 비디오 영상이 저장된 저장 장치 또는 네트워크를 통해 다른 기기로부터 비디오 영상을 인가받는 통신부로 구현될 수 있다.
모션 특징 추출부(200)는 영상 획득부(100)로부터 인접한 두 개의 프레임(I n, I n+1)을 인가받고, 미리 학습된 패턴 추정 방식에 따라 인가된 두 개의 프레임(I n, I n+1) 사이에서 픽셀들 간의 관계에 따른 패턴을 추정하여 모션 특징맵(m)을 추출한다. 여기서 두 개의 프레임(I n, I n+1)은 사이에 보간 프레임(I out)이 생성되어 삽입되어야 하는 대상 프레임으로 볼 수 있다. 그리고 모션 특징 추출부(200)는 두 개의 대상 프레임(I n, I n+1)에서 픽셀들 사이의 대응 관계에 따른 특징을 추출하여 모션 특징맵(m)을 획득한다.
여기서 모션 특징 추출부(200)는 두 개의 대상 프레임(I n, I n+1) 중 제1 대상 프레임(I n)의 다수의 픽셀에서 제2 대상 프레임(I n+1)의 다수의 픽셀로의 변화되는 특징을 추출하여 모션 특징맵(m)을 획득하는 것으로 볼 수 있다.
모션 특징 추출부(200)에서 획득된 모션 특징맵(m)은 와핑 프레임 획득부(300)의 플로우맵 획득부(310)와 가중치맵 획득부(320)와 함께 폐색맵 획득부(400)에 각각 인가된다.
플로우맵 획득부(310)는 모션 특징 추출부(200)로부터 모션 특징맵(m)이 인가되면, 미리 학습된 패턴 추정 방식에 따라 인가된 모션 특징맵(m)으로부터 2개의 플로우맵(f 1, f 2)을 획득한다.
여기서 플로우맵 획득부(310)는 두 개의 대상 프레임(I n, I n+1) 각각의 다수에 픽셀 중 보간 프레임(I out)을 구성할 다수의 픽셀 각각에 대응하는 픽셀을 추정하여 플로우맵(f 1, f 2)을 획득할 수 있다. 즉 2개의 플로우맵(f 1, f 2) 각각은 보간 프레임(I out)의 각 픽셀이 2개의 대상 프레임(I n, I n+1)에서 참조할 대응하는 픽셀의 위치를 벡터 형식으로 표현한 특징맵으로 볼 수 있다.
도 2를 참조하면, 플로우맵 획득부(310)는 제1 플로우맵 획득부(311)와 제2 플로우맵 획득부(312)를 포함한다. 제1 플로우맵 획득부(311)는 모션 특징맵(m)을 기반으로 2개의 대상 프레임 중 시간적으로 앞서는 제1 대상 프레임(I n)과 보간 프레임(I out) 사이에 대응하는 픽셀들의 위치 관계를 추정하여 제1 플로우맵(f 1)을 획득하고, 제2 플로우맵 획득부(312)는 모션 특징맵(m)을 기반으로 제2 대상 프레임(I n+1)과 보간 프레임(I out) 사이에 대응하는 픽셀들의 위치 관계를 추정하여 제2 플로우맵(f 2)을 획득한다.
이때 본 실시예에서 플로우맵 획득부(310)의 제1 플로우맵 획득부(311)와 제2 플로우맵 획득부(312)는 각각 제1 및 제2 대상 프레임(I n, I n+1)에서 보간 프레임(I out)의 각 픽셀에 대응하는 다수의 픽셀을 동시에 추정할 수 있다. 즉 보간 프레임(I out)의 각 픽셀은 제1 및 제2 대상 프레임(I n, I n+1)의 다수의 픽셀을 참조하여 생성될 수 있다. 이는 기존의 플로우 기반 프레임 보간 기법에서 프레임 하나당 단 하나의 픽셀만을 참조하기 때문에 복잡한 움직임을 다룰 수 없다는 한계를 극복하기 위함이다.
이에 플로우맵 획득부(310)는 보간 프레임(I out)의 다수의 픽셀이 참조할 수 있는 적어도 하나의 픽셀을 2개의 대상 프레임(I n, I n+1) 각각에서 탐색하고, 보간 프레임(I out)의 각 위치별 픽셀과 이에 대응하여 대상 프레임에서 탐색된 적어도 하나의 픽셀 사이의 위치 관계를 플로우맵(f 1, f 2)으로 획득할 수 있다.
모션 특징 추출부(200)에서 획득되는 모션 특징맵(m)이 2개의 대상 프레임(I n, I n+1)의 픽셀들 사이의 변화를 추정하여 획득되는데 반해, 플로우맵 획득부(310)에서 획득되는 2개의 플로우맵(f 1, f 2)은 2개의 대상 프레임(I n, I n+1) 각각을 기준으로 생성되어야 하는 가상의 보간 프레임(I out)의 각 픽셀의 변화를 모션 특징맵(m)에서 추정된 픽셀간 변화를 기반으로 추정하여 획득되는 것으로 볼 수 있다.
여기서 플로우맵 획득부(310)의 제1 플로우맵 획득부(311)와 제2 플로우맵 획득부(312) 각각은 대상 프레임(I n, I n+1)에서 픽셀과 가상의 보간 프레임(I out)의 픽셀 사이의 위치 관계를 행방향(또는 x축 방향) 및 열방향(또는 y축 방향)으로 구분하여 획득할 수도 있다. 즉 제1 및 제2 플로우맵(f 1, f 2) 각각을 제1 및 제2 행 플로우맵(α 1, α 2)과 제1 및 제2 열 플로우맵(β 1, β 2)으로 구분하여 획득할 수 있다.
본 실시예에서 플로우맵 획득부(310)가 제1 플로우맵(f 1)과 제2 플로우맵(f 2)으로 2개의 플로우맵을 획득하는 것은 제1 대상 프레임(I n)과 보간 프레임(I out) 사이의 대응하는 픽셀간 위치 관계와 제2 대상 프레임(I n+1)과 보간 프레임(I out) 사이의 대응하는 픽셀간 위치 관계를 모두 분석하여, 보간 프레임(I out)의 각 픽셀이 2개의 대상 프레임(I n, I n+1) 사이에서 정확한 픽셀값을 나타낼 수 있도록 하기 위함이다.
한편 가중치맵 획득부(320)는 미리 학습된 패턴 추정 방식에 따라 모션 특징 추출부(200)에서 인가된 모션 특징맵(m)으로부터 2개의 가중치맵(W 1, W 2)을 획득한다. 가중치맵 획득부(320)는 모션 특징맵(m)으로부터 두 개의 대상 프레임(I n, I n+1)의 다수의 픽셀이 생성될 가상의 보간 프레임(I out)의 다수의 픽셀 각각에 미치는 영향을 추정하여 2개의 가중치맵(W 1, W 2)을 획득한다. 즉 두 개의 대상 프레임(I n, I n+1)의 다수의 픽셀 각각과 보간 프레임(I out)의 각 픽셀 사이의 상호 관계에 따른 중요도를 추정하여 가중치맵(W 1, W 2)을 획득한다.
도 2에 도시된 바와 같이, 가중치맵 획득부(320)는 플로우맵 획득부(310)와 마찬가지로 제1 가중치맵 획득부(321)와 제2 가중치맵 획득부(312)를 포함할 수 있다.
제1 가중치맵 획득부(321)는 제1 플로우맵 획득부(311)에 대응하여, 제1 대상 프레임(I n)의 각 픽셀이 가상의 보간 프레임(I out)의 각 픽셀에 미치는 영향을 추정하여 제1 가중치맵(W 1)을 획득한다. 그리고 제2 가중치맵 획득부(322)는 제2 플로우맵 획득부(312)에 대응하여, 제2 대상 프레임(I n+1)의 각 픽셀이 가상의 보간 프레임(I out)의 각 픽셀에 미치는 영향을 추정하여 제2 가중치맵(W 2)을 획득한다.
본 실시예에서는 와핑 프레임 획득부(300)가 플로우맵 획득부(310)와 가중치맵 획득부(320)를 별도로 구비하여 2개의 플로우맵(f 1, f 2)과 2개의 가중치맵(W 1, W 2)을 각각 획득한다. 이는 보간 프레임(I out)의 각 픽셀이 참조할 대상 프레임(I n, I n+1)의 픽셀들의 위치와, 참조할 픽셀별 중요도를 구분하여 획득함으로써, 더 정확한 보간 프레임(I out)을 생성할 수 있도록 하기 위함이다. 즉 생성될 보간 프레임(I out)의 각 픽셀의 픽셀값을 정밀하게 추정할 수 있도록 하기 위함이다.
프레임 와핑부(330)는 플로우맵 획득부(310)에서 획득된 2개의 플로우맵(f 1, f 2)과 가중치맵 획득부(320)에서 획득된 2개의 가중치맵(W 1, W 2)를 이용하여, 영상 획득부(100)에서 전송된 2개의 대상 프레임(I n, I n+1)을 각각 와핑한다.
도 2를 참조하면, 프레임 와핑부(330) 또한 제1 프레임 와핑부(331)와 제2 프레임 와핑부(332)를 포함할 수 있다. 제1 프레임 와핑부(331)는 제1 플로우맵(f 1)과 제1 가중치맵(W 1)을 이용하여 제1 대상 프레임(I n)을 와핑하여 제1 와핑 프레임(I' n)을 획득하고, 제2 프레임 와핑부(332)는 제2 플로우맵(f 2)과 제2 가중치맵(W 2)을 이용하여 제2 대상 프레임(I n+1)을 와핑하여 제2 와핑 프레임(I' n+1)을 획득한다.
제1 프레임 와핑부(331)는 제1 와핑 프레임(I' n)의 각 픽셀이 참조해야하는 제1 대상 프레임(I n)의 픽셀들을 제1 플로우맵(f 1)을 기반으로 판별하고, 판별된 제1 대상 프레임(I n)의 픽셀들의 픽셀값에 제1 가중치맵(W 1)의 가중치를 가중하여 합함으로써 제1 와핑 프레임(I' n)의 각 픽셀값을 획득할 수 있다.
이와 마찬가지로 제1 프레임 와핑부(331)는 제1 와핑 프레임(I' n)의 각 픽셀이 참조해야하는 제1 대상 프레임(I n)의 픽셀을 제1 플로우맵(f 1)을 기반으로 판별하고, 판별된 제1 대상 프레임(I n)의 픽셀들의 픽셀값에 제1 가중치맵(W 1)의 가중치를 가중하여 합함으로써 제1 와핑 프레임(I' n)의 각 픽셀값을 획득할 수 있다.
와핑 프레임 획득부(300)에서 획득되는 와핑 프레임(I')을 수학식으로 표현하면 수학식 1과 같이 표현될 수 있다.
Figure PCTKR2020011173-appb-img-000001
여기서 i, j는 와핑 프레임(I')의 각 픽셀의 행방향 및 열방향 위치를 나타내고, F는 제1 및 제2 가중치맵(W 1, W 2)으로 표현되는 커널 크기를 나타내며, (α, β)는 각 축방향으로 구분된 플로우맵(f)을 나타낸다. 그리고 W는 가중치맵을 나타내고, d는 팽창(dilation) 파라미터로서 플로우맵(f)의 각 벡터가 시작하는 오프셋 위치를 조절하기 위한 파라미터이다.
도 3을 참조하면, 팽창 파라미터(d)의 크기에 따라 제1 및 제2 플로우맵 획득부(311, 312)가 플로우맵 획득 시에 특정 픽셀의 플로우를 나타내는 벡터의 시작 위치를 해당 픽셀 위치로 한정하여 벡터를 획득하는지, 주변 픽셀 위치까지 확장하여 벡터를 획득할 수 있는지에 대해 조절할 수 있다. 이는 더 넓은 영역에서 대응하는 픽셀을 탐색할 수 있도록 하기 위함이다.
여기서 제1 프레임 와핑부(331)에서 획득된 제1 와핑 프레임(I' n)은 제1 대상 프레임(I n)을 기준으로 추정한 가상의 보간 프레임으로 볼 수 있고, 제2 프레임 와핑부(332)에서 획득된 제2 와핑 프레임(I' n+1)은 제2 대상 프레임(I n+1)을 기준으로 추정한 가상의 보간 프레임으로 볼 수 있다. 만일 제1 와핑 프레임(I' n)과 제2 와핑 프레임(I' n+1)이 모두 정확하게 추정된 경우를 가정하면, 제1 와핑 프레임(I' n)과 제2 와핑 프레임(I' n+1)에서 2개의 대상 프레임(I n, I n+1)의 폐색 영역을 제외한 나머지 영역은 동일하게 획득될 수 있을 것이다.
즉 본 실시예에서 와핑 프레임 획득부(300)는 제1 대상 프레임(I n)과 제2 대상 프레임(I n+1) 사이에 위치하는 보간 프레임을 생성하기 위한 사전 작업으로, 제1 대상 프레임(I n)을 기준으로 하는 제1 와핑 프레임(I' n)과 제2 대상 프레임(I n+1)을 기준으로 하는 제2 와핑 프레임(I' n+1)의 2개의 와핑 프레임을 획득한다.
다시 도 1을 참조하면, 폐색맵 획득부(400)는 학습된 패턴 추정 방식에 따라 모션 특징맵(m)의 패턴으로부터 2개의 대상 프레임(I n, I n+1) 중 하나의 대상 프레임에만 나타나는 폐색 영역(occlusion region)을 추정하여 폐색맵(V)을 획득한다.
도 4의 (a) 및 (b)에 도시된 바와 같이, 인접하는 두 개의 프레임 사이에서도 각 프레임 내에서의 객체의 위치 변화에 의해 가려져서, 하나의 프레임에만 나타나는 폐색 영역이 존재하게 된다. 그리고 (c)에 도시된 바와 같이, 폐색 영역을 (a)의 제1 프레임에만 나타나는 영역과 (b)의 제2 프레임에만 나타나는 영역으로 구분될 수 있다. 이러한 폐색 영역은 2개의 대상 프레임(I n, I n+1) 중 하나의 대상 프레임에만 나타나므로, 폐색 영역에 포함되는 픽셀들은 보간 프레임(I out) 생성시에 별도로 고려되어야만 한다.
이에 폐색맵 획득부(400)는 모션 특징맵(m)으로부터 제1 대상 프레임(I n)의 폐색 영역과 제2 대상 프레임(I n+1)의 폐색 영역을 구분하여 나타낼 수 있는 폐색맵(V)을 획득한다. 여기서 폐색맵 획득부(400)는 각 원소의 원소값이 0 또는 1의 값을 갖도록 폐색맵(V ∈ [0, 1])을 획득할 수 있다. 일 예로 폐색맵(V)에서 원소값이 0인 원소는 제1 대상 프레임(I n)에서 대응하는 위치의 픽셀이 폐색 영역에 포함된 픽셀임을 나타내고, 원소값이 1인 원소는 제2 대상 프레임(I n+1)에서 대응하는 위치의 픽셀이 폐색 영역에 포함된 픽셀임을 나타내도록 획득될 수 있다.
도 4의 (c)에서는 원소값이 0인 영역, 즉 제1 대상 프레임(I n)의 폐색 영역으로 제2 대상 프레임(I n+1)에서만 나타나는 영역을 파란색으로 표시하였으며, 원소값이 1인 영역, 즉 제2 대상 프레임(I n+1)의 폐색 영역으로 제1 대상 프레임(I n)에서만 나타나는 영역을 빨간색으로 표시하였다.
보간 프레임 획득부(500)는 와핑 프레임 획득부(300)에서 획득된 제1 와핑 프레임(I' n)과 제2 와핑 프레임(I' n+1) 및 폐색맵 획득부(400)에서 획득된 폐색맵(V)을 인가받고, 인가된 제1 와핑 프레임(I' n)과 제2 와핑 프레임(I' n+1) 및 폐색맵(V)을 이용하여 보간 프레임(I out)을 획득한다.
보간 프레임 획득부(500)는 수학식 2에 따라 보간 프레임(I out)을 획득할 수 있다.
Figure PCTKR2020011173-appb-img-000002
여기서 T는 와핑 프레임 획득부(300)가 수행하는 프레임 와핑 연산을 의미한다.
즉 보간 프레임 획득부(500)는 제1 와핑 프레임(I' n)과 제2 와핑 프레임(I' n+1) 각각에서 폐색맵(V)에 의해 지정된 폐색 영역을 반영하여 결합함으로써, 보간 프레임(I out)을 획득할 수 있다.
학습부(600)는 프레임 보간 장치의 학습 시에 구비되는 구성으로, 프레임 보간 장치가 실제 프레임 보간 동작을 수행되는 경우에는 제거될 수 있다. 학습부(600)는 인공 신경망으로 구현되는 모션 특징 추출부(200)와 와핑 프레임 획득부(300)의 플로우맵 획득부(310) 및 가중치맵 획득부(320), 그리고 폐색맵 획득부(400)를 학습시킨다.
본 실시예에서 학습부(600)는 진리값이 미리 획득된 학습 데이터를 이용하는 지도 학습 방식과 생성적 적대 네트워크(Generative Adversarial Network: GAN)에 기반한 적대적 학습 방식 중 적어도 하나를 이용하여 프레임 보간 장치를 학습시킬 수 있다.
학습부(600)가 프레임 보간 장치를 학습시키는 방법에 대한 상세한 설명은 후술하도록 한다.
도 5는 인공 신경망을 이용한 도 1의 프레임 보간 장치를 구현 예를 나타낸다.
도 5에 도시된 바와 같이, 본 실시예의 프레임 보간 장치에서 모션 특징 추출부(200)와 와핑 프레임 획득부(300)의 플로우맵 획득부(310) 및 가중치맵 획득부(320), 그리고 폐색맵 획득부(400)는 모두 인공 신경망으로 구현될 수 있다. 그리고 모션 특징 추출부(200)와 플로우맵 획득부(310), 가중치맵 획득부(320) 및 폐색맵 획득부(400)는 각각 적어도 하나의 콘볼루션 레이어를 포함하는 콘볼루션 신경망(Convolution Neuron Network: CNN)으로 구현될 수 있다. 각각의 콘볼루션 레이어는 콘볼루션 커널을 이용하여 콘볼루션 연산을 수행하고, 이후 활성화 함수(activation function)인 평균값 풀링(avgpool) 함수, 소프트 맥스(Softmax) 함수 및 시그모이드(Sigmoid) 함수 등을 이용할 수 있다.
도 5에서는 상기한 바와 같이, 제1 및 제2 플로우맵(f 1, f 2) 각각을 제1 및 제2 행 플로우맵(α 1, α 2)과 제1 및 제2 열 플로우맵(β 1, β 2)으로 구분하여 표현하였으며, 제1 및 제2 프레임 와핑부(331, 332)를 AdaCoF로 표현하였다. 이는 제1 및 제2 프레임 와핑부(331, 332)가 각 픽셀의 플로우를 나타내는 다수의 벡터에 대해 가중치를 가중하여 합하는 플로우의 적응적 공동 작업(Adaptive Collaboration of Flows)에 기반하여 와핑을 수행하기 때문이다.
도 6은 도 1의 프레임 보간 장치의 프레임 보간 방식과 기존의 프레임 보간 기법 사이의 차이를 설명하기 위한 도면이다.
도 6에서 (a)는 기존의 커널 기반 프레임 보간 기법을 나타내고, (b)는 플로우 기반 프레임 보간 기법을 나타내며, (c)는 커널 및 플로우 조합 기반 프레임 보간 기법을 나타낸다. 그리고 (d)는 본 실시예에 따른 프레임 보간 기법을 나타낸다.
(a)에 도시된 바와 같이 커널 기반 프레임 보간 기법에서는 지정된 크기의 커널 내에서 대응하는 픽셀을 탐색함에 따라 커널 크기보다 큰 픽셀의 움직임에 대응할 수 없다. (b)에 도시된 플로우 기반 프레임 보간 기법은 픽셀의 움직임 크기에는 제한되지 않으나, 여러 픽셀을 동시에 참조할 수 없으며, 대상 프레임(I t-1, I t+1)의 화질이 선명하지 않은 경우에 정확한 보간 프레임(I t)을 획득하지 못한다. (c)와 같이 커널 및 플로우 조합 기반 프레임 보간 기법 또한 커널의 크기가 제한됨에 따라 실질적으로 크기가 큰 픽셀에 대한 플로우 기반 프레임 보간 기법을 적용하는 것으로 볼 수 있으며, 이에 플로우 기반 프레임 보간 기법과 동일한 한계를 갖는다. 그에 비해 본 실시예에 따른 프레임 보간 기법은 (d)에 도시된 바와 같이 픽셀의 위치 및 개수에 제약받지 않고 다양한 위치의 다수의 픽셀을 참조하여 보간 프레임(I t)의 픽셀을 생성할 수 있으므로 매우 정확한 보간 프레임(I t)을 획득할 수 있다.
도 7은 도 1의 학습부의 상세 구성의 일 예를 나타낸다.
지도 학습 방식에 따라 프레임 보간 장치를 학습시키는 경우, 학습부(600)는 다수의 프레임으로 구성된 비디오 영상에서 각 프레임(I t)에 대해 시간적으로 이전 프레임(I t-1)과 이후 프레임(I t+1)이 모션 특징 추출부(200)로 인가되도록 한다. 그리고 현재 프레임(I t)을 진리값(I gt)으로 하여, 보간 프레임 획득부(500)에서 획득된 보간 프레임(I out)과 진리값(I gt) 사이의 차이를 지도 학습 손실(L 1)로서 수학식 3에 따라 계산할 수 있다.
Figure PCTKR2020011173-appb-img-000003
학습부(600)는 계산된 손실(L 1)을 역전파하여 프레임 보간 장치의 모션 특징 추출부(200)와 플로우맵 획득부(310) 및 가중치맵 획득부(320), 그리고 폐색맵 획득부(400)를 학습시킬 수 있다.
한편, 적대적 학습 방식에 따라 프레임 보간 장치를 학습시키는 경우, 학습부(600)는 도 7에 도시된 바와 같은 구성을 가질 수 있다. 도 7을 참조하면, 학습부(600)는 프레임 결합부(610), 랜덤 선택부(620) 및 프레임 판별부(630)를 포함할 수 있다.
적대적 학습 방식에서는 별도의 학습 데이터가 요구되지 않으므로, 프레임 결합부(610)는 보간 프레임 획득부(500)에서 획득된 보간 프레임(I out)을 2개의 대상 프레임(I n, I n+1)에 각각 결합(concatenate)하여 결합 프레임([I n, I out], [I out, I n+1])을 출력한다. 이때 프레임 결합부(610)는 대상 프레임(I n, I n+1)과 보간 프레임(I out) 사이의 시간적 순서에 따라 프레임들을 결합한다.
도 7에 도시된 바와 같이, 프레임 결합부(610)는 제1 프레임 결합부(611)와 제2 프레임 결합부(612)를 포함할 수 있다.
제1 프레임 결합부(611)는 2개의 대상 프레임(I n, I n+1) 중 제1 대상 프레임(I n)과 보간 프레임(I out)을 인가받아 결합하여 제1 결합 프레임([I n, I out])을 출력한다. 제1 프레임 결합부(611)는 제1 대상 프레임(I n)과 보간 프레임(I out)을 시간적 배치 순서에 따라 제1 대상 프레임(I n)을 우선 배치하고 이후 보간 프레임(I out)을 배치 및 결합하여 제1 결합 프레임([I n, I out])을 획득한다.
제2 프레임 결합부(612)는 2개의 대상 프레임(I n, I n+1) 중 제2 대상 프레임(I n+1)과 보간 프레임(I out)을 인가받아 결합하여 제2 결합 프레임([I out, I n+1])을 출력한다. 제2 프레임 결합부(612)는 제2 대상 프레임(I n+1)과 보간 프레임(I out)을 시간적 배치 순서에 따라 보간 프레임(I out)을 우선 배치하고 이후 제2 대상 프레임(I n+1)을 배치 및 결합하여 제2 결합 프레임([I out, I n+1])을 획득한다.
랜덤 선택부(620)는 프레임 결합부(610)에서 획득된 제1 결합 프레임([I n, I out]) 또는 제2 결합 프레임([I out, I n+1]) 중 하나를 랜덤하게 선택하여 프레임 판별부(630)로 전달한다.
그리고 프레임 판별부(630)는 랜덤 선택부(620)에서 선택되어 전달된 결합 프레임이 제1 결합 프레임([I n, I out])인지 또는 제2 결합 프레임([I out, I n+1])인지 여부를 판별한다. 만일 보간 프레임(I out)이 2개의 대상 프레임(I n, I n+1)의 사이에 매우 자연스러운 프레임으로 생성되었다면, 프레임 판별부(630)는 인가된 결합 프레임이 제1 결합 프레임([I n, I out])인지 또는 제2 결합 프레임([I out, I n+1])인지 여부를 정확하게 판별하기 어렵다. 그러나 보간 프레임 생성 장치에서 보간 프레임(I out)이 정상적으로 생성되지 않았다면, 프레임 판별부(630)는 인가된 결합 프레임이 제1 결합 프레임([I n, I out])인지 또는 제2 결합 프레임([I out, I n+1])인지 여부를 용이하게 판별할 수 있을 것이다.
따라서 프레임 판별부(630)가 결합 프레임을 정확하게 판별할 수 없다면, 모션 특징 추출부(200)와 플로우맵 획득부(310), 가중치맵 획득부(320) 및 폐색맵 획득부(400)가 정상적으로 학습된 것으로 볼 수 있다.
다만 결합 프레임을 판별 프레임 판별부(630) 또한 학습이 수행될 필요가 있다. 프레임 판별부(630)에 대한 손실(L C)은 수학식 4로 계산될 수 있다.
Figure PCTKR2020011173-appb-img-000004
여기서 C는 프레임 판별부(630)의 판별함수를 나타내고, []는 프레임 결합을 나타낸다.
한편, 수학식 4에 따라 프레임 판별부(630)의 손실(L C)이 계산되면, 결합 프레임의 불확실성, 즉 엔트로피가 최대화되도록 하여 적대적 손실(L adv)을 수학식 5에 따라 계산할 수 있다.
Figure PCTKR2020011173-appb-img-000005
일반적으로 적대적 학습 방식은 매우 우수한 학습 성능을 나타내지만 학습에 매우 긴 시간이 요구된다는 단점이 있다. 반면, 지도 학습 방식의 경우, 학습 속도는 상대적으로 빠르지만 적대적 학습 방식에 비해 학습 성능이 떨어질 수 있다.
이에 본 실시예에서는 지도 학습 방식과 적대적 학습 방식을 함께 이용하는 혼합 학습 방법을 수행할 수도 있다. 즉 지도 학습 방식에 따라 우선 학습을 수행하여 빠르게 1차 학습을 수행하고, 이후, 적대적 학습 방식을 추가로 적용하여 2차 학습을 수행함으로써, 학습 속도를 높이면서도 우수한 학습 결과를 획득할 수 있도록 한다.
도 8은 본 발명의 일 실시예에 따른 프레임 보간 방법을 나타낸다.
도 1내지 도 7을 참조하여, 도 8의 프레임 보간 방법을 설명하면, 우선 다수의 프레임으로 구성된 비디오 영상에서 시간적으로 인접한 두 개의 대상 프레임(I n, I n+1)을 획득한다(S10). 그리고 미리 학습된 패턴 추정 방식에 따라 인가된 두 개의 대상 프레임(I n, I n+1) 사이에서 픽셀들 간의 관계에 따른 패턴을 추정하여 모션 특징맵(m)을 획득한다(S20).
모션 특징맵(m)이 획득되면, 미리 학습된 패턴 추정 방식에 따라 획득된 모션 특징맵(m)의 패턴으로부터, 생성되어야 하는 보간 프레임의 각 픽셀이 두 개의 대상 프레임(I n, I n+1)에서 참조해야 하는 각 픽셀의 위치 관계를 추정하여 2개의 플로우맵(f 1, f 2)을 획득한다(S30). 이때, 제1 플로우맵(f 1)은 두 개의 대상 프레임(I n, I n+1) 중 제1 대상 프레임(I n)의 다수의 픽셀 중 보간 프레임의 각 픽셀이 참조할 픽셀들과의 위치 관계를 추정하여 획득되고, 제2 플로우맵(f 2)은 제2 대상 프레임(I n+1)의 다수의 픽셀 중 보간 프레임의 각 픽셀이 참조할 픽셀들과의 위치 관계를 추정하여 획득될 수 있다.
이와 함께, 미리 학습된 패턴 추정 방식에 따라 획득된 모션 특징맵(m)의 패턴으로부터, 생성되어야 하는 보간 프레임의 각 픽셀에 대해 두 개의 대상 프레임(I n, I n+1)의 각 픽셀의 중요도를 추정하여 2개의 가중치맵(W 1, W 2)을 획득한다(S40). 여기서 제1 가중치맵(W 1)은 두 개의 대상 프레임(I n, I n+1) 중 제1 대상 프레임(I n)의 다수의 픽셀이 보간 프레임의 각 픽셀에 미치는 영향을 추정하여 획득되고, 제2 가중치맵(W 2)은 제2 대상 프레임(I n+1)의 다수의 픽셀이 보간 프레임의 각 픽셀에 미치는 영향을 추정하여 획득될 수 있다.
2개의 플로우맵(f 1, f 2)과 2개의 가중치맵(W 1, W 2)이 획득되면, 2개의 대상 프레임(I n, I n+1) 각각을 대응하는 플로우맵(f 1, f 2)과 가중치맵(W 1, W 2)을 이용하여 와핑함으로써, 2개의 와핑 프레임(I' n, I' n+1)을 획득한다(S50). 여기서 와핑 프레임(I' n, I' n+1)은 플로우맵(f 1, f 2)에 의해 지정된 위치의 대상 프레임(I n, I n+1)의 픽셀에 대해 가중치맵(W 1, W 2)에 의해 지정된 가중치를 가중하여 합함으로써, 획득될 수 있다.
또한 플로우맵(f 1, f 2)을 획득하는 단계(S30)와 가중치맵(W 1, W 2)을 획득하는 단계와 별도로, 미리 학습된 패턴 추정 방식에 따라 모션 특징맵(m)의 패턴으로부터 2개의 대상 프레임(I n, I n+1)의 폐색 영역을 나타내는 폐색맵(V)을 획득한다(S60). 이때 폐색맵(V)은 제1 대상 프레임(I n)의 폐색 영역과 제2 대상 프레임(I n+1)의 폐색 영역이 서로 다른 지정된 값([0, 1])을 갖도록 생성될 수 있다.
2개의 와핑 프레임(I' n, I' n+1)과 폐색맵(V)이 획득되면, 획득된 2개의 와핑 프레임(I' n, I' n+1)과 폐색맵(V)을 이용하여 보간 프레임(I out)을 획득한다. 이때 보간 프레임은 수학식 2에 따라 획득될 수 있다.
한편, 도 8에 도시된 프레임 보간 방법은 사전에 학습이 수행되어야 한다. 여기서 학습은 모션 특징맵(m)을 획득하는 단계(S20)와 2개의 플로우맵(f 1, f 2)을 획득하는 단계(S30), 2개의 가중치맵(W 1, W 2)을 획득하는 단계(S40) 및 폐색맵(V)을 획득하는 단계(S60)가 정상적으로 수행되도록 수행된다.
따라서 본 실시예에 따른 프레임 보간 방법은 대상 프레임 획득 단계 이전, 학습 단계(미도시)를 더 포함할 수 있다.
학습 단계에서는 지도 학습 단계 및 적대적 학습 단계 중 적어도 하나를 포함할 수 있다. 학습 단계가 지도 학습 단계를 포함하는 경우, 지도 학습 단계는 다수의 프레임으로 구성된 비디오 영상에서 각 프레임(I t)에 대해 시간적으로 이전 프레임(I t-1)과 이후 프레임(I t+1)을 2개의 대상 프레임(I n, I n+1)으로 선택하여 모션 특징(m)을 추출하여 보간 프레임(I out)을 획득한다. 그리고 획득된 보간 프레임(I out)과 진리값(I gt)인 현재 프레임(I t) 사이의 차이를 지도 학습 손실(L 1)로서 계산하여 역전파함으로써 수행될 수 있다.
한편, 학습 단계가 적대적 학습 단계를 포함하는 경우, 시간적 순서에 따라 제1 대상 프레임(I n)과 보간 프레임(I out)을 배치 결합하여 제1 결합 프레임([I n, I out])을 획득하고, 보간 프레임(I out)과 제2 대상 프레임(I n+1)을 배치 및 결합하여 제2 결합 프레임([I out, I n+1])을 획득한다.
그리고 획득된 제1 결합 프레임([I n, I out]) 또는 제2 결합 프레임([I out, I n+1]) 중 하나를 랜덤하게 선택하고, 랜덤하게 선택된 결합 프레임이 제1 결합 프레임([I n, I out])인지 또는 제2 결합 프레임([I out, I n+1])인지 여부를 판별하여, 판별 결과를 기반으로 적대적 손실(L adv)을 수학식 5에 따라 계산하여 역전파함으로써 수행될 수 있다.
경우에 따라서 학습 단계는 지도 학습 단계를 우선 수행한 이후 적대적 학습 단계를 추가적으로 수행하도록 구성될 수도 있다.
본 발명에 따른 방법은 컴퓨터에서 실행시키기 위한 매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다. 여기서 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스 될 수 있는 임의의 가용 매체일 수 있고, 또한 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함하며, ROM(판독 전용 메모리), RAM(랜덤 액세스 메모리), CD(컴팩트 디스크)-ROM, DVD(디지털 비디오 디스크)-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등을 포함할 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.
따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (18)

  1. 다수의 프레임으로 구성된 비디오 영상에서 시간적으로 인접한 두 개의 대상 프레임을 인가받고, 미리 학습된 패턴 추정 방식에 따라 인가된 두 개의 대상 프레임 사이에서 픽셀들 간의 관계에 따른 패턴을 추정하여 모션 특징맵을 획득하는 모션 특징 추출부;
    미리 학습된 패턴 추정 방식에 따라 상기 모션 특징맵의 패턴을 추정하여, 생성되어야 하는 보간 프레임의 각 픽셀이 상기 두 개의 대상 프레임 각각에서 참조해야하는 적어도 하나의 픽셀 위치를 나타내는 2개의 플로우맵과, 상기 보간 프레임의 각 픽셀에 대한 상기 두 개의 대상 프레임의 각 픽셀의 중요도를 나타내는 2개의 가중치맵을 획득하고, 두 개의 대상 프레임 각각을 상기 2개의 플로우맵과 상기 2개의 가중치맵 중 대응하는 플로우맵과 가중치맵을 이용하여 와핑하여 2개의 와핑 프레임을 획득하는 와핑 프레임 획득부;
    미리 학습된 패턴 추정 방식에 따라 상기 모션 특징맵의 패턴을 추정하여, 상기 2개의 대상 프레임의 폐색 영역을 나타내는 폐색맵을 획득하는 폐색맵 획득부; 및
    상기 2개의 와핑 프레임과 상기 폐색맵을 기지정된 방식으로 결합하여 상기 보간 프레임을 획득하는 보간 프레임 획득부를 포함하는 프레임 보간 장치.
  2. 제1항에 있어서, 상기 와핑 프레임 획득부는
    상기 두 개의 대상 프레임 중 제1 대상 프레임의 다수의 픽셀 중 상기 보간 프레임의 각 픽셀이 참조해야하는 픽셀들의 위치를 추정하여 제1 플로우맵을 획득하고, 제2 대상 프레임의 다수의 픽셀 중 상기 보간 프레임의 각 픽셀이 참조해야하는 적어도 하나의 픽셀들의 추정하여 제2 플로우맵을 획득하는 플로우맵 획득부;
    상기 두 개의 대상 프레임 중 제1 대상 프레임의 다수의 픽셀 각각이 상기 보간 프레임의 각 픽셀에 미치는 영향도를 추정하여 제1 가중치맵을 획득하고, 제2 대상 프레임의 다수의 픽셀 각각이 상기 보간 프레임의 각 픽셀에 미치는 영향도를 추정하여 제2 가중치맵을 획득하는 가중치맵 획득부; 및
    상기 제1 대상 프레임을 상기 제1 플로우맵과 상기 제1 가중치맵에 따라 와핑하여 제1 와핑 프레임을 획득하고, 상기 제2 대상 프레임을 상기 제2 플로우맵과 상기 제2 가중치맵에 따라 와핑하여 제2 와핑 프레임을 획득하는 프레임 와핑부를 포함하는 프레임 보간 장치.
  3. 제2항에 있어서, 상기 프레임 와핑부는
    상기 제1 플로우맵의 벡터 형태로 표현된 픽셀 위치에 상기 제1 가중치맵의 대응하는 가중치를 가중하고 합하여 제1 와핑 프레임의 위치별 픽셀값을 획득하고,
    상기 제2 플로우맵의 벡터 형태로 표현된 픽셀 위치에 상기 제2 가중치맵의 대응하는 가중치를 가중하고 합하여 상기 제1 와핑 프레임의 위치별 픽셀값을 획득하는 프레임 보간 장치.
  4. 제2항에 있어서, 상기 폐색맵 획득부는
    상기 폐색맵이 상기 제1 대상 프레임의 폐색 영역과 상기 제2 대상 프레임의 폐색 영역이 서로 다른 지정된 값을 갖도록 생성하는 프레임 보간 장치.
  5. 제2항에 있어서, 상기 프레임 보간 장치는
    인공 신경망으로 상기 모션 특징 추출부와 상기 플로우맵 획득부, 상기 가중치맵 획득부 및 상기 폐색맵 획득부를 지도 학습 방식 또는 적대적 학습 방식 중 적어도 하나를 이용하여 학습시키기 위한 학습부를 더 포함하는 프레임 보간 장치.
  6. 제5항에 있어서, 상기 학습부는
    비디오 영상에서 특정 프레임에 대해 시간적으로 인접한 이전 프레임과 이후 프레임을 2개의 대상 프레임으로 설정하여 상기 모션 특징 추출부로 인가하고, 상기 보간 프레임 획득부에서 획득되는 보간 프레임과 특정 프레임 사이의 차를 지도 학습 손실로 계산하여 역전파하는 프레임 보간 장치.
  7. 제5항에 있어서, 상기 학습부는
    시간적 순서에 따라 상기 제1 대상 프레임과 상기 보간 프레임을 순차 배치 결합하여 제1 결합 프레임을 획득하고, 상기 보간 프레임과 상기 제2 대상 프레임을 순차 배치 및 결합하여 제2 결합 프레임을 획득하는 프레임 결합부;
    상기 제1 결합 프레임 또는 상기 제2 결합 프레임 중 하나를 랜덤하게 선택하는 랜덤 선택부; 및
    선택된 결합 프레임이 상기 제1 결합 프레임인지 또는 상기 제2 결합 프레임인지 여부를 판별하여 적대적 손실을 계산하여 역전파하는 프레임 판별부를 포함하는 프레임 보간 장치.
  8. 제7항에 있어서, 상기 프레임 판별부는
    결합 프레임의 불확실성이 최대가 되도록 상기 적대적 손실(L adv)을 수학식
    Figure PCTKR2020011173-appb-img-000006
    (여기서 C는 프레임 판별 함수를 나타내고, I n, I n+1은 각각 제1 및 제 대상 프레임을 나타내며, I out는 보간 프레임을 나타낸다. 그리고 []는 결합 함수를 나타낸다.)
    에 따라 계산하는 프레임 보간 장치.
  9. 제5항에 있어서, 상기 학습부는
    비디오 영상에서 특정 프레임에 대해 시간적으로 인접한 이전 프레임과 이후 프레임을 2개의 대상 프레임으로 설정하여 상기 모션 특징 추출부로 인가하고, 상기 보간 프레임 획득부에서 획득되는 보간 프레임과 특정 프레임 사이의 차를 지도 학습 손실로 계산하여 역전파하여 지도 학습을 수행하고,
    이후 상기 제1 및 제2 대상 프레임 각각과 상기 보간 프레임을 시간적 순서에 따라 순차 배치 결합하여 2개의 결합 프레임을 획득하고, 2개의 결합 프레임 중 하나를 랜덤하게 선택하여, 상기 제1 및 제2 대상 프레임 중 선택된 결합 프레임에 결합된 프레임을 판별하여 적대적 손실을 계산하고 역전파하는 프레임 보간 장치.
  10. 다수의 프레임으로 구성된 비디오 영상에서 시간적으로 인접한 두 개의 대상 프레임을 인가받고, 미리 학습된 패턴 추정 방식에 따라 인가된 두 개의 대상 프레임 사이에서 픽셀들 간의 관계에 따른 패턴을 추정하여 모션 특징맵을 획득하는 단계;
    미리 학습된 패턴 추정 방식에 따라 상기 모션 특징맵의 패턴을 추정하여, 생성되어야 하는 보간 프레임의 각 픽셀이 상기 두 개의 대상 프레임 각각에서 참조해야하는 적어도 하나의 픽셀 위치를 나타내는 2개의 플로우맵과, 상기 보간 프레임의 각 픽셀에 대한 상기 두 개의 대상 프레임의 각 픽셀의 중요도를 나타내는 2개의 가중치맵을 획득하고, 두 개의 대상 프레임 각각을 상기 2개의 플로우맵과 상기 2개의 가중치맵 중 대응하는 플로우맵과 가중치맵을 이용하여 와핑하여 2개의 와핑 프레임을 획득하는 단계;
    미리 학습된 패턴 추정 방식에 따라 상기 모션 특징맵의 패턴을 추정하여, 상기 2개의 대상 프레임의 폐색 영역을 나타내는 폐색맵을 획득하는 단계; 및
    상기 2개의 와핑 프레임과 상기 폐색맵을 기지정된 방식으로 결합하여 상기 보간 프레임을 획득하는 단계를 포함하는 프레임 보간 방법.
  11. 제10항에 있어서, 상기 와핑 프레임을 획득하는 단계는
    상기 두 개의 대상 프레임 중 제1 대상 프레임의 다수의 픽셀 중 상기 보간 프레임의 각 픽셀이 참조해야하는 픽셀들의 위치를 추정하여 제1 플로우맵을 획득하고, 제2 대상 프레임의 다수의 픽셀 중 상기 보간 프레임의 각 픽셀이 참조해야하는 적어도 하나의 픽셀들의 추정하여 제2 플로우맵을 획득하는 단계;
    상기 두 개의 대상 프레임 중 제1 대상 프레임의 다수의 픽셀 각각이 상기 보간 프레임의 각 픽셀에 미치는 영향도를 추정하여 제1 가중치맵을 획득하고, 제2 대상 프레임의 다수의 픽셀 각각이 상기 보간 프레임의 각 픽셀에 미치는 영향도를 추정하여 제2 가중치맵을 획득하는 단계; 및
    제1 와핑 프레임을 획득하기 위해 상기 제1 대상 프레임을 상기 제1 플로우맵과 상기 제1 가중치맵에 따라 와핑하고, 제2 와핑 프레임을 획득하기 위해 상기 제2 대상 프레임을 상기 제2 플로우맵과 상기 제2 가중치맵에 따라 와핑하는 단계를 포함하는 프레임 보간 방법.
  12. 제11항에 있어서, 상기 와핑하는 단계는
    상기 제1 플로우맵의 벡터 형태로 표현된 픽셀 위치에 상기 제1 가중치맵의 대응하는 가중치를 가중하고 합하여 제1 와핑 프레임의 위치별 픽셀값을 획득하는 단계; 및
    상기 제2 플로우맵의 벡터 형태로 표현된 픽셀 위치에 상기 제2 가중치맵의 대응하는 가중치를 가중하고 합하여 상기 제1 와핑 프레임의 위치별 픽셀값을 획득하는 단계를 포함하는 프레임 보간 방법.
  13. 제11항에 있어서, 상기 폐색맵을 획득하는 단계는
    상기 폐색맵이 상기 제1 대상 프레임의 폐색 영역과 상기 제2 대상 프레임의 폐색 영역이 서로 다른 지정된 값을 갖도록 생성하는 프레임 보간 방법.
  14. 제11항에 있어서, 상기 프레임 보간 방법은
    인공 신경망을 이용하여 수행되는 상기 모션 특징맵을 획득하는 단계와 상기 플로우맵을 획득하는 단계, 상기 가중치맵을 획득하는 단계 및 상기 폐색맵을 획득하는 단계를 지도 학습 방식 또는 적대적 학습 방식 중 적어도 하나를 이용하여 학습시키기 위한 학습 단계를 더 포함하는 프레임 보간 방법.
  15. 제14항에 있어서, 상기 학습 단계는
    비디오 영상에서 특정 프레임에 대해 시간적으로 인접한 이전 프레임과 이후 프레임을 2개의 대상 프레임으로 설정하는 단계; 및
    보간 프레임과 상기 특정 프레임 사이의 차를 지도 학습 손실로 계산하여 역전파하는 단계를 포함하는 프레임 보간 방법.
  16. 제14항에 있어서, 상기 학습 단계는
    시간적 순서에 따라 상기 제1 대상 프레임과 상기 보간 프레임을 순차 배치 결합하여 제1 결합 프레임을 획득하고, 상기 보간 프레임과 상기 제2 대상 프레임을 순차 배치 및 결합하여 제2 결합 프레임을 획득하는 단계;
    상기 제1 결합 프레임 또는 상기 제2 결합 프레임 중 하나를 랜덤하게 선택하는 단계; 및
    선택된 결합 프레임이 상기 제1 결합 프레임인지 또는 상기 제2 결합 프레임인지 여부를 판별하여 적대적 손실을 계산하여 역전파하는 단계를 포함하는 프레임 보간 방법.
  17. 제16항에 있어서, 상기 역전파하는 단계는
    결합 프레임의 불확실성이 최대가 되도록 상기 적대적 손실(L adv)을 수학식
    Figure PCTKR2020011173-appb-img-000007
    (여기서 C는 프레임 판별 함수를 나타내고, I n, I n+1은 각각 제1 및 제 대상 프레임을 나타내며, I out는 보간 프레임을 나타낸다. 그리고 []는 결합 함수를 나타낸다.)
    에 따라 계산하는 프레임 보간 방법.
  18. 제14항에 있어서, 상기 학습 단계는
    비디오 영상에서 특정 프레임에 대해 시간적으로 인접한 이전 프레임과 이후 프레임을 2개의 대상 프레임으로 설정하여 획득되는 보간 프레임과 특정 프레임 사이의 차를 지도 학습 손실로 계산하여 역전파하여 지도 학습을 수행하는 단계; 및
    이후 상기 제1 및 제2 대상 프레임 각각과 상기 보간 프레임을 시간적 순서에 따라 순차 배치 결합하여 2개의 결합 프레임을 획득하고, 2개의 결합 프레임 중 하나를 랜덤하게 선택하여, 상기 제1 및 제2 대상 프레임 중 선택된 결합 프레임에 결합된 프레임을 판별하여 적대적 손실을 계산하고 역전파하는 단계를 포함하는 프레임 보간 방법.
PCT/KR2020/011173 2020-05-29 2020-08-21 다중 플로우 기반 프레임 보간 장치 및 방법 WO2021241804A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200064766A KR102201297B1 (ko) 2020-05-29 2020-05-29 다중 플로우 기반 프레임 보간 장치 및 방법
KR10-2020-0064766 2020-05-29

Publications (1)

Publication Number Publication Date
WO2021241804A1 true WO2021241804A1 (ko) 2021-12-02

Family

ID=74127818

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/011173 WO2021241804A1 (ko) 2020-05-29 2020-08-21 다중 플로우 기반 프레임 보간 장치 및 방법

Country Status (2)

Country Link
KR (1) KR102201297B1 (ko)
WO (1) WO2021241804A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114205648A (zh) * 2021-12-07 2022-03-18 网易(杭州)网络有限公司 插帧方法及装置
CN115883764A (zh) * 2023-02-08 2023-03-31 吉林大学 一种基于数据协同的水下高速视频插帧方法及其系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220301184A1 (en) * 2021-03-16 2022-09-22 Samsung Electronics Co., Ltd. Accurate optical flow interpolation optimizing bi-directional consistency and temporal smoothness
CN113837136B (zh) * 2021-09-29 2022-12-23 深圳市慧鲤科技有限公司 视频插帧方法及装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005339422A (ja) * 2004-05-31 2005-12-08 Rikogaku Shinkokai 時系列画像のモーション推定方法
KR100698640B1 (ko) * 2005-12-30 2007-03-21 고려대학교 산학협력단 와핑 변환을 이용한 프레임 보간 방법 및 그 장치
JP2008244846A (ja) * 2007-03-27 2008-10-09 Toshiba Corp フレーム補間装置及びその方法
KR20100044984A (ko) * 2008-10-23 2010-05-03 삼성전자주식회사 움직임 궤적을 이용한 프레임률 향상 장치 및 방법
KR20200057844A (ko) * 2018-11-15 2020-05-27 이화여자대학교 산학협력단 학습네트워크 기반의 비디오 보간 방법 및 비디오 보외 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102066012B1 (ko) 2017-06-27 2020-01-14 한양대학교 산학협력단 보간 프레임을 생성하기 위한 움직임 예측 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005339422A (ja) * 2004-05-31 2005-12-08 Rikogaku Shinkokai 時系列画像のモーション推定方法
KR100698640B1 (ko) * 2005-12-30 2007-03-21 고려대학교 산학협력단 와핑 변환을 이용한 프레임 보간 방법 및 그 장치
JP2008244846A (ja) * 2007-03-27 2008-10-09 Toshiba Corp フレーム補間装置及びその方法
KR20100044984A (ko) * 2008-10-23 2010-05-03 삼성전자주식회사 움직임 궤적을 이용한 프레임률 향상 장치 및 방법
KR20200057844A (ko) * 2018-11-15 2020-05-27 이화여자대학교 산학협력단 학습네트워크 기반의 비디오 보간 방법 및 비디오 보외 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HYEONGMIN LEE; TAEOH KIM; TAE-YOUNG CHUNG; DAEHYUN PAK; YUSEOK BAN; SANGYOUN LEE: "AdaCoF: Adaptive Collaboration of Flows for Video Frame Interpolation", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 24 July 2019 (2019-07-24), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081610644 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114205648A (zh) * 2021-12-07 2022-03-18 网易(杭州)网络有限公司 插帧方法及装置
CN114205648B (zh) * 2021-12-07 2024-06-04 网易(杭州)网络有限公司 插帧方法及装置
CN115883764A (zh) * 2023-02-08 2023-03-31 吉林大学 一种基于数据协同的水下高速视频插帧方法及其系统
CN115883764B (zh) * 2023-02-08 2023-05-23 吉林大学 一种基于数据协同的水下高速视频插帧方法及其系统

Also Published As

Publication number Publication date
KR102201297B1 (ko) 2021-01-08

Similar Documents

Publication Publication Date Title
WO2021241804A1 (ko) 다중 플로우 기반 프레임 보간 장치 및 방법
CN106952269B (zh) 近邻可逆的视频前景物体序列检测分割方法及系统
WO2020111426A1 (en) Method and system of presenting moving images or videos corresponding to still images
WO2013151270A1 (en) Apparatus and method for reconstructing high density three-dimensional image
WO2020027607A1 (ko) 객체 탐지 장치 및 제어 방법
WO2018084536A1 (ko) 타임 슬라이스 영상 제공 서버, 방법 및 사용자 단말
WO2013125768A1 (ko) 다중 컬러 필터 조리개를 구비한 촬상 장치에 의해 촬영된 영상의 자동 객체 검출 및 깊이 정보 추정장치 및 방법
WO2020235804A1 (ko) 포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치
CN112183506A (zh) 一种人体姿态生成方法及其系统
WO2020149601A1 (ko) 3d cnn을 이용한 고속 영상 인식 방법 및 장치
WO2023080266A1 (ko) 딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치
CN112257526A (zh) 一种基于特征交互学习的动作识别方法及终端设备
WO2020256517A2 (ko) 전방위 화상정보 기반의 자동위상 매핑 처리 방법 및 그 시스템
KR20120133646A (ko) 객체 수 추정 장치 및 방법
WO2020189953A1 (ko) 인공지능에 기반하여 영상을 분석하는 카메라 및 그것의 동작 방법
WO2021172674A1 (ko) 재귀 그래프 모델링을 통한 비디오 요약 생성 장치 및 방법
WO2023113437A1 (ko) 메모리를 이용하는 의미론적 영상 분할 장치 및 방법
WO2019098421A1 (ko) 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법
WO2011078430A1 (ko) 다수의 특징점 기반 마커를 인식하기 위한 순차 검색 방법 및 이를 이용한 증강현실 구현 방법
WO2024106630A1 (ko) 인공지능 기반 영상 콘텐츠 제작 시스템 및 방법
WO2023080667A1 (ko) Ai 기반 객체인식을 통한 감시카메라 wdr 영상 처리
WO2017043945A1 (ko) 얼굴의 미세 표정 인식 방법 및 장치
WO2022080680A1 (ko) 인공지능 기반 이미지 인페인팅 방법 및 디바이스
WO2023149603A1 (ko) 다수의 카메라를 이용한 열화상 감시 시스템
WO2022240016A1 (en) Image super-resolution with reference images from one or more cameras

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20937286

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20937286

Country of ref document: EP

Kind code of ref document: A1