KR101785857B1 - Method for synthesizing view based on single image and image processing apparatus - Google Patents

Method for synthesizing view based on single image and image processing apparatus Download PDF

Info

Publication number
KR101785857B1
KR101785857B1 KR1020160094697A KR20160094697A KR101785857B1 KR 101785857 B1 KR101785857 B1 KR 101785857B1 KR 1020160094697 A KR1020160094697 A KR 1020160094697A KR 20160094697 A KR20160094697 A KR 20160094697A KR 101785857 B1 KR101785857 B1 KR 101785857B1
Authority
KR
South Korea
Prior art keywords
image
matching probability
viewpoint
learning
similarity
Prior art date
Application number
KR1020160094697A
Other languages
Korean (ko)
Inventor
손광훈
김영중
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020160094697A priority Critical patent/KR101785857B1/en
Application granted granted Critical
Publication of KR101785857B1 publication Critical patent/KR101785857B1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2628Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation
    • G06T3/0093
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/32Determination of transform parameters for the alignment of images, i.e. image registration using correlation-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

Provided are an external angle view synthesizing method based on a single image and an image processing device. According to an embodiment of the present invention, the image processing device includes: a matching probability learning part for learning a method of receiving a two-dimensional reference image, including first and second view images, to estimate a matching probability between the first and second view images; a similarity learning part for learning a method of estimating similarity to correct the matching probability; a final inference part for learning a method of correcting the matching probability by using the matching probability and similarity; and a rendering learning part for learning a method of generating an image, synthesized with an external angle view, through probability-based rendering by using the corrected matching probability. The matching probability is the probability of the first view image to be matched with the second view image when moved per pixel, and the probability is indicated as a function about a movement distance of a pixel and exists per pixel. The similarity is a degree of how similar the matching probability per pixel is to that of another pixel.

Description

단일 영상 기반의 외각 시점 합성 방법 및 영상 처리 장치{METHOD FOR SYNTHESIZING VIEW BASED ON SINGLE IMAGE AND IMAGE PROCESSING APPARATUS}BACKGROUND OF THE INVENTION 1. Field of the Invention [0001] The present invention relates to an image processing method,

본 발명은 2차원 영상을 3차원 영상으로 변환하는 기술에 관한 것으로서, 더욱 상세하게는 단일 영상인 2차원의 제1 시점 영상(예를 들어 좌 영상)을 이용하여 외각 시점을 합성한 제2 시점 영상(예를 들어 우 영상)을 생성하는 기술에 관한 것이다.The present invention relates to a technique for converting a two-dimensional image into a three-dimensional image, and more particularly, to a technique for converting a two-dimensional image into a three-dimensional image using a first viewpoint image (for example, To a technique for generating an image (e.g., a right image).

디스플레이 장치의 성능이 고급화되면서, 디스플레이 장치에서 디스플레이하는 컨텐츠의 종류도 다양하게 증대되었다.As the performance of the display device has become higher, the kinds of contents displayed on the display device have also been variously increased.

특히, 최근에는 3D 컨텐츠까지 시청할 수 있는 입체 디스플레이 시스템이 개발되어 보급되고 있다.Particularly, a stereoscopic display system capable of viewing 3D contents has been developed and spreading.

3D 컨텐츠는 스테레오 카메라와 같이 영상의 깊이 정보를 알아낼 수 있는 별도의 카메라로 촬영을 하여야 하며, 일반적인 카메라로 촬영된 컨텐츠는 영상의 깊이 정보를 반영하지 않기 때문에 3D의 형태로 디스플레이될 수 없다.The 3D content should be photographed with a separate camera, such as a stereo camera, which can find the depth information of the image. Since the content photographed by a general camera does not reflect the depth information of the image, it can not be displayed in 3D form.

3D 컨텐츠에 대한 요구가 확대되면서 기존의 2D의 형태로 제작된 컨텐츠에 대해서도 3D로 제공하는 것에 대한 요구가 있으며, 기존의 2D 영상을 3D 영상으로 변환하는 연구도 계속적으로 진행되고 있다.As the demand for 3D contents is expanded, there is a demand for providing 3D contents in the existing 2D contents, and research for converting existing 2D images into 3D images is also being carried out continuously.

예로서, 2D 단일 영상인 제1 시점 영상(예를 들어 좌 영상)을 이용하여 제2 시점 영상(예를 들어 우 영상)을 생성하기 위한 다양한 연구가 시도되고 있다.For example, various attempts have been made to generate a second viewpoint image (e.g., a right viewpoint) using a first viewpoint image (e.g., a left viewpoint) that is a 2D single view.

본 발명은 2차원의 단일 영상인 제1 시점 영상(예를 들어 좌 영상)을 이용하여 제2 시점 영상(예를 들어 우 영상)을 생성하는 방법을 학습하는 방안과, 상기 학습 방안을 이용하여 2차원의 단일 영상인 제1 시점 영상을 이용하여 제 2 시점 영상을 생성하는 방안을 제공하고자 한다.The present invention provides a method of generating a second viewpoint image (e.g., a right viewpoint image) using a first viewpoint image (e.g., a left viewpoint) that is a two-dimensional single view, A method for generating a second viewpoint image using a first viewpoint image, which is a two-dimensional single view, is provided.

상기와 같은 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 영상 처리 장치는 제1 시점 영상 및 제2 시점 영상을 포함하는 2차원의 레퍼런스 영상을 입력받아 상기 제1 시점 영상과 제2 시점 영상간 매칭 확률을 추정하는 방법을 학습시키는 매칭 확률 학습부, 상기 매칭 확률을 보정하기 위한 유사도를 추정하는 방법을 학습시키는 유사도 학습부, 상기 매칭 확률과 상기 유사도를 이용하여 매칭 확률을 보정하는 방법을 학습시키는 최종 추론부 및 상기 보정된 매칭 확률을 이용하여 확률 기반 랜더링을 통해 외각 시점을 합성한 영상을 생성하는 방법을 학습시키는 랜더링 학습부를 포함하되, 상기 매칭 확률은 상기 제1 시점 영상을 픽셀 단위로 이동시켰을 때 상기 제2 시점 영상과 매칭될 확률로서 픽셀의 이동 거리에 대한 함수로 표시되고 픽셀별로 존재하며, 상기 유사도는 상기 픽셀별로 존재하는 매칭 확률이 타 픽셀과 유사한 정도인 것을 특징으로 한다.In order to achieve the above object, an image processing apparatus according to an embodiment of the present invention receives a two-dimensional reference image including a first view image and a second view image, A similarity degree learning unit for learning a method for estimating a similarity degree for correcting the matching probability, a method for correcting the matching probability using the matching probability and the similarity degree, And a rendering learning unit that learns a method of generating a combined image of the outer view through probability based rendering using the corrected matching probability, The second viewpoint image is displayed as a function of the moving distance of the pixel as a probability to be matched with the second viewpoint image, And the degree of similarity is similar to that of the other pixels.

상기와 같은 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 영상 처리 장치가 단일 영상 기반의 외각 시점을 합성하는 방법은 (a) 제1 시점 영상 및 제2 시점 영상을 포함하는 2차원의 레퍼런스 영상을 입력받아 상기 제1 시점 영상과 제2 시점 영상간 매칭 확률을 추정하는 방법을 학습시키는 단계, (b) 상기 매칭 확률을 보정하기 위한 유사도를 추정하는 방법을 학습시키는 단계, (c) 상기 매칭 확률과 상기 유사도를 이용하여 상기 매칭 확률을 보정하는 방법을 학습시키는 단계 및 (d) 상기 보정된 매칭 확률을 이용하여 확률 기반 랜더링을 통해 외각 시점을 합성한 영상을 생성하는 방법을 학습시키는 단계를 포함하되, 상기 매칭 확률은 상기 제1 시점 영상을 픽셀 단위로 이동시켰을 때 상기 제2 시점 영상과 매칭될 확률로서 픽셀의 이동 거리에 대한 함수로 표시되고 픽셀별로 존재하며, 상기 유사도는 상기 픽셀별로 존재하는 매칭 확률이 타 픽셀과 유사한 정도인 것을 특징으로 한다.According to an aspect of the present invention, there is provided a method of synthesizing an external viewpoint based on a single image, the method comprising the steps of: (a) generating a two-dimensional image including a first viewpoint image and a second viewpoint image, Learning a method of estimating a matching probability between the first viewpoint image and the second viewpoint image by receiving a reference image, (b) learning a method of estimating similarity for correcting the matching probability, (c) Learning a method of correcting the matching probability using the matching probability and the similarity; and (d) learning a method of generating a combined image of an outer viewpoint through probability-based rendering using the corrected matching probability Wherein the matching probability is a probability of matching with the second viewpoint image when the first viewpoint image is shifted pixel by pixel, As a function, and is present for each pixel, the degree of similarity is characterized in that the probability of matching the pixels present in each other of approximately similar to the pixel.

상기와 같은 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 영상 처리 장치가 단일 영상 기반의 외각 시점을 합성하는 방법은 (a) 단일 영상인 2차원의 좌 영상 또는 우 영상을 입력받는 단계 및 (b) 딥 러닝(deep learning) 알고리즘을 이용하여 학습된 매칭 확률에 따라서 상기 좌 영상 또는 우 영상에 대응되는 우 영상 또는 좌 영상을 생성하는 단계를 포함하되, 상기 (b) 단계는 (b-1) 제1 시점 영상과 제2 시점 영상을 포함하는 2차원의 레퍼런스 영상을 입력받아 상기 제1 시점 영상과 제2 시점 영상간의 상기 매칭 확률을 추정하는 방법을 학습시키는 단계, (b-2) 상기 매칭 확률을 보정하기 위한 유사도를 추정하는 방법을 학습시키는 단계, (b-3) 상기 매칭 확률과 상기 유사도를 이용하여 상기 매칭 확률을 보정하는 방법을 학습시키는 단계 및 (b-4) 상기 보정된 매칭 확률을 이용하여 확률 기반 랜더링을 통해 외각 시점을 합성한 영상을 생성하는 방법을 학습시키는 단계를 포함하되, 상기 매칭 확률은 상기 제1 시점 영상을 픽셀 단위로 이동시켰을 때 상기 제2 시점 영상과 매칭될 확률로서 픽셀의 이동 거리에 대한 함수로 표시되고 픽셀별로 존재하며, 상기 유사도는 상기 픽셀별로 존재하는 매칭 확률이 타 픽셀과 유사한 정도인 것을 특징으로 한다.According to an aspect of the present invention, there is provided a method of synthesizing a single image-based outline viewpoint according to an embodiment of the present invention includes the steps of: (a) receiving a two- And (b) generating a right image or a left image corresponding to the left or right image according to the learned matching probability using a deep learning algorithm, wherein (b) -1) receiving a two-dimensional reference image including a first viewpoint image and a second viewpoint image and learning a method of estimating the matching probability between the first viewpoint image and the second viewpoint image; (B-3) learning a method of correcting the matching probability by using the matching probability and the similarity; and (b-4) Bo Based on the matching probability, a method of generating a combined image of the outer view through probability-based rendering, wherein the matching probability is a probability that the first viewpoint image is shifted pixel by pixel, And the similarity is similar to that of the other pixels, and the degree of matching is similar to that of the other pixels.

본 발명의 일 실시예에 따르면, 2차원의 단일 영상인 제1 시점 영상을 이용하여 제2 시점 영상을 용이하게 생성함으로써, 고품질의 3차원 콘텐츠 생성이 가능하다.According to an embodiment of the present invention, it is possible to easily generate a second viewpoint image using a first viewpoint image, which is a single two-dimensional viewpoint image, thereby enabling generation of high-quality three-dimensional content.

또한, 2차원의 단일 영상이 제1 시점 영상을 증강 현실, 3D 프린터, 무안경 3D TV 등 다양한 애플리케이션에 적용할 수 있다.Also, a two-dimensional single image can be applied to various applications such as an augmented reality, a 3D printer, and a spectacles 3D TV.

본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.It should be understood that the effects of the present invention are not limited to the above effects and include all effects that can be deduced from the detailed description of the present invention or the configuration of the invention described in the claims.

도 1은 본 발명의 일 실시예에 따른 영상 처리 장치의 구성을 도시한 블록도이다.
도 2 내지 도 4는 본 발명의 일 실시예에 따른 매칭 확률 학습부의 학습 방법을 설명하도록 한다.
도 5는 본 발명의 일 실시예에 따른 단일 영상 기반의 외각 시점 합성 과정을 도시한 흐름도이다.
1 is a block diagram showing a configuration of an image processing apparatus according to an embodiment of the present invention.
2 to 4 illustrate a learning method of the matching probability learning unit according to an embodiment of the present invention.
5 is a flowchart illustrating a process of synthesizing an outline view based on a single image according to an embodiment of the present invention.

이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, the present invention will be described with reference to the accompanying drawings. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein.

그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.In order to clearly illustrate the present invention, parts not related to the description are omitted, and similar parts are denoted by like reference characters throughout the specification.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다.Throughout the specification, when a part is referred to as being "connected" to another part, it includes not only "directly connected" but also "indirectly connected" .

또한 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 구비할 수 있다는 것을 의미한다.Also, when an element is referred to as "comprising ", it means that it can include other elements, not excluding other elements unless specifically stated otherwise.

이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 영상 처리 장치의 구성을 도시한 블록도이다.1 is a block diagram showing a configuration of an image processing apparatus according to an embodiment of the present invention.

참고로, 본 발명은 2차원 영상을 3차원 영상으로 변환하기 위한 하나의 방안으로서, 2차원의 단일 영상인 제1 시점 영상(예를 들어 좌 영상)만을 가지고도 외각 시점을 합성하여 제2 시점 영상(예를 들어 우 영상)을 생성하는 것을 하나의 목적으로 한다.For example, the present invention is a method for converting a two-dimensional image into a three-dimensional image. The method includes synthesizing an outer view point with only a first view image (e.g., a left image) And to generate an image (e.g., a right image).

이를 위해 본 발명의 일 실시예에 따른 영상 처리 장치(100)는 레퍼런스 영상인 좌 영상과 우 영상을 입력받고, 레퍼런스 좌 영상에 외각 시점을 합성하여 외각 시점이 합성된 우 영상을 생성한 후 이를 레퍼런스 우 영상과 비교한다.To this end, the image processing apparatus 100 according to an embodiment of the present invention receives a left image and a right image, which are reference images, generates a right image synthesized with an outer view point by synthesizing an outer view point with a reference left image, Compare with reference right image.

이후 영상 처리 장치(100)는 비교 결과에 따른 오차가 최소가 되도록 외각 시점을 합성하여 레퍼런스 우 영상에 근접한 최종 우 영상이 생성되도록 딥 러닝(deep learning) 알고리즘을 이용한 학습을 수행할 수 있다.Then, the image processing apparatus 100 may perform learning using a deep learning algorithm so that a final right image close to the reference right image is generated by synthesizing the outer view points so that the error according to the comparison result is minimized.

이때, 본 발명에서는 레퍼런스 좌 영상에 외각 시점을 합성하도록 하기 위해 ‘매칭 확률(matching probability)’이라는 개념을 도입하였으며, 상기 매칭 확률의 정확도를 더 높이기 위해 ‘유사도(affinity)’라는 개념을 도입하였다.At this time, in the present invention, a concept of 'matching probability' is introduced to synthesize an external viewpoint on a reference left image, and a concept of 'affinity' is introduced to further improve the accuracy of the matching probability .

후술하겠지만, ‘매칭 확률’은 좌 영상을 픽셀 단위로 이동시켰을 때 우 영상과 매칭될 확률이며 픽셀별로 존재한다. 그리고 유사도는 각 픽셀간 존재하는 매칭 확률에 대한 유사함의 정도이다.As will be described later, the 'matching probability' is a probability that the left image is matched with the right image when the left image is shifted in the pixel unit, and exists for each pixel. The degree of similarity is the degree of similarity to the matching probability existing between each pixel.

이하, 도 1을 참조하여 본 발명의 일 실시예에 따른 영상 처리 장치(100)의 구성을 설명하도록 한다.Hereinafter, a configuration of an image processing apparatus 100 according to an embodiment of the present invention will be described with reference to FIG.

본 발명의 일 실시예에 따른 영상 처리 장치(100)는 매칭 확률 학습부(110), 유사도 학습부(120), 최종 추론부(130) 및 랜더링 학습부(140)를 포함할 수 있다.The image processing apparatus 100 according to an exemplary embodiment of the present invention may include a matching probability learning unit 110, a similarity learning unit 120, a final reasoning unit 130, and a rendering learning unit 140.

각 구성 요소를 설명하면, 매칭 확률 학습부(110)는 양안식 영상에 필요한 좌 영상과 우 영상간 ‘매칭 확률’을 추정하는 방법을 학습할 수 있다(이하, ‘매칭 확률을 학습한다’라고 칭함).The matching probability learning unit 110 can learn a method of estimating a 'matching probability' between a left image and a right image necessary for a binocular image (hereinafter, 'learning a matching probability' Quot;).

여기서 ‘매칭 확률’은 앞서 설명한 바와 같이, 좌 영상을 픽셀 단위로 이동시켰을 때 좌 영상이 우 영상과 매칭될 확률로서, 픽셀 이동 거리에 대한 함수로 표현할 수 있다.As described above, the 'matching probability' is a probability that the left image is matched with the right image when the left image is shifted in the pixel unit, and can be expressed as a function of the pixel shift distance.

매칭 확률 학습부(110)는 딥 러닝(deep learning) 알고리즘을 이용하여 상기 매칭 확률을 학습할 수 있으며, 딥 러닝 알고리즘의 일 실시예로서 CNN(Convolutional Neural Network) 알고리즘을 이용할 수 있다.The matching probability learning unit 110 can learn the matching probability using a deep learning algorithm and can use a CNN (Convolutional Neural Network) algorithm as an embodiment of the deep learning algorithm.

참고로 ‘CNN 알고리즘’은, 사람이 물체를 인식할 때 물체의 기본적인 특징들을 추출한 다음 뇌 속에서 복잡한 계산을 거쳐 그 결과를 기반으로 물체를 인식한다는 가정을 기반으로 만들어진 사람의 뇌 기능을 모사한 모델로서, 최근 영상 인식이나 음성 인식 분야에 많이 활용되고 있는 알고리즘이다.For reference, 'CNN algorithm' simulates human brain function based on the assumption that when a person recognizes an object, it extracts basic features of the object, then undergoes complicated calculation in the brain and recognizes the object based on the result As a model, it is an algorithm widely used in recent image recognition and speech recognition fields.

이하, 도 2 내지 도 4를 참조하여 CNN 알고리즘을 이용하는 매칭 확률 학습부(110)의 학습 방법을 설명하도록 한다.Hereinafter, the learning method of the matching probability learning unit 110 using the CNN algorithm will be described with reference to FIGS. 2 to 4. FIG.

매칭 확률 학습부(110)는 컨벌루션(convolution) 연산을 통해 영상의 특징을 추출하기 위한 다양한 필터와, 비선형적인 특성을 더하기 위한 풀링(pooling) 또는 비선형 활성화(non-linear activation) 함수, 그리고 디컨벌루션(deconvolution) 함수 등을 함께 사용할 수 있다.The matching probability learning unit 110 includes various filters for extracting features of an image through a convolution operation, a pooling or non-linear activation function for adding nonlinear characteristics, and a deconvolution (deconvolution) function can be used together.

매칭 확률 학습부(110)는 입력 영상에 대해 컨벌루션과 다운 샘플링을 통해, 입력 영상에 대한 피쳐 맵(feature map)을 추출(feature learning)하고, 피쳐 맵을 통해 입력 영상을 식별 또는 분류(classification)할 수 있다. 여기서 피쳐 맵은 입력 영상에 대한 특징 정보를 포함한다.The matching probability learning unit 110 extracts a feature map for an input image through convolution and downsampling on the input image and identifies or classifies the input image through the feature map. can do. Here, the feature map includes feature information on the input image.

매칭 확률 학습부(110)는 상기 피쳐 맵 추출을 위해, 컨벌루션(도 2에서 C1-layer, C2-layer, C3-layer)과 다운 샘플링(도 2에서 MP1-layer, MP2-layer)을 반복 수행하며, 반복 횟수는 실시예에 따라서 다양하게 결정될 수 있다.The matching probability learning unit 110 repeatedly performs convolution (C1-layer, C2-layer, C3-layer) and downsampling (MP1-layer and MP2-layer in FIG. 2) And the number of repetition times may be variously determined according to the embodiment.

먼저, 컨벌루션에 이용되는 필터(또는 커널; 도 3에서 310)의 사이즈가 결정되면, 매칭 확률 학습부(110)는 필터의 각 픽셀별로 할당된 가중치와 입력 영상(300)의 픽셀 값의 가중치 합(weighted sum)을 통해 컨벌루션을 수행할 수 있다.First, when the size of the filter (or the kernel 310 in FIG. 3) used for the convolution is determined, the matching probability learning unit 110 calculates a weighting value of the pixel value of the input image 300 the convolution can be performed through a weighted sum.

즉, 필터(310)가 오버랩되는 입력 영상의 특정 영역에 대해 대응되는 픽셀별로 필터의 가중치를 픽셀 값과 곱한 후 더함으로써 컨벌루션 레이어의 픽셀 값(320)이 결정될 수 있다. That is, the pixel value 320 of the convolution layer can be determined by multiplying the weight of the filter by the pixel value for each pixel corresponding to a specific region of the input image where the filter 310 overlaps, and then adding the weight.

도 3에 도시된 바와 같이, 매칭 확률 학습부(110)는 대응되는 픽셀별로 필터(310)의 가중치와 오버랩되는 입력 영상(300)의 특정 영역의 픽셀 값에 대해 가중치 합을 수행하여 최종 -8이라는 픽셀 값을 결정할 수 있다.3, the matching probability learning unit 110 performs weighting summing on the pixel values of the specific region of the input image 300 overlapping with the weight of the filter 310 for each corresponding pixel, Can be determined.

필터(310)가 좌우 상하로 이동하며 총 9개 픽셀에 대해 가중치 합이 수행되고, 일 실시예로서, 입력 영상(300)의 사이즈가 7×7이며 필터(310)의 사이즈가 3×3라면 5×5 사이즈의 컨벌루션 레이어가 생성될 수 있다.If the size of the input image 300 is 7 × 7 and the size of the filter 310 is 3 × 3, the filter 310 is moved left and right and the weighted sum is performed for all nine pixels. A convolution layer of 5x5 size can be generated.

컨벌루션에 따른 픽셀 값은 오버랩된 영역의 중앙 픽셀의 픽셀 값(320)이 되기 때문에, 입력 영상 대비 컨벌루션 레이어의 사이즈는 감소한다.Since the pixel value according to the convolution is the pixel value 320 of the center pixel of the overlapping region, the size of the convolutional layer relative to the input image decreases.

다만, 입력 영상(300)의 외곽 영역을 특정 픽셀 값으로 패딩(padding)할 경우, 매칭 확률 학습부(110)는 입력 영상(300)의 사이즈와 동일한 7×7 사이즈의 컨벌루션 레이어를 생성할 수 있다. 참고로, 컨벌루션 레이어의 개수는 이용되는 필터의 개수에 따라 결정된다.However, if the outer region of the input image 300 is padded with a specific pixel value, the matching probability learning unit 110 can generate a convolution layer having a size of 7 × 7 equal to the size of the input image 300 have. For reference, the number of convolution layers is determined by the number of filters used.

또한, 매칭 확률 학습부(110)는 컨벌루션 레이어의 사이즈를 줄이기 위해서, 즉, 해상도를 낮추기 위해서 다운 샘플링을 수행할 수 있으며, 다운 샘플링의 실시예로서 맥스 풀링(max-pooling) 방식을 이용할 수 있다.In addition, the matching probability learning unit 110 may perform downsampling to reduce the size of the convolution layer, that is, to reduce the resolution, and use a max-pooling scheme as an example of downsampling .

매칭 확률 학습부(110)는 다운 샘플링에 이용되는 커널에 포함된 컨벌루션 레이어의 픽셀 값 중 최대 값을 취함으로써 컨벌루션 레이어의 사이즈보다 작은 맥스 풀링 레이어를 생성할 수 있다.The matching probability learning unit 110 may generate a max pooling layer smaller than the size of the convolution layer by taking the maximum value among the pixel values of the convolution layer included in the kernel used for downsampling.

예를 들어 도 4에서, 2×2 사이즈의 커널이 4×4 사이즈의 컨벌루션 레이어(410)에 적용되는 경우, 매칭 확률 학습부(110)는 서로 다른 색깔로 표시된 2×2 영역별로 6, 8, 3 및 4를 최대값으로 결정하여 맥스 풀링 레이어(420)를 생성할 수 있다.For example, in FIG. 4, when a 2 × 2 size kernel is applied to a 4 × 4 convolution layer 410, the matching probability learning unit 110 calculates 6, 8 , 3 and 4 may be determined as the maximum value to generate the maximum pulling layer 420.

또한, 매칭 확률 학습부(110)는 컨벌루션 이후 다운 샘플링을 통해 축소된 영상을 원 영상 사이즈로 복구하는 디컨벌루션(deconvolution)을 수행할 수 있다.Also, the matching probability learning unit 110 may perform deconvolution to recover the reduced image to the original image size through downsampling after convolution.

매칭 확률 학습부(110)는 전술한 컨벌루션과 다운 샘플링 그리고 디컨벌루션과 같은 공간적 통합(spatial pooling)을 수행함으로써, 디테일한 정보는 사라지지만 확고한(robust) 매칭 확률이 획득되도록 할 수 있다.The matching probability learning unit 110 may perform spatial pooling such as convolution, downsampling, and decoupling as described above so that detailed information disappears but a robust matching probability is obtained.

그리고 매칭 확률 학습부(110)는 좌 영상이 픽셀 단위로 이동했을 때 우 영상에 매칭되는 확률인 매칭 확률을 계산함에 있어, 좌 영상을 소정의 이동 범위 내에서 픽셀 단위로 이동시켜가며 각 픽셀별로 매칭 확률을 계산할 수 있다.The matching probability learning unit 110 calculates the matching probability, which is a probability of matching the right image when the left image moves on a pixel-by-pixel basis. The matching probability learning unit 110 moves the left image in units of pixels within a predetermined moving range, The matching probability can be calculated.

예를 들어, 최대 이동 범위(disparity range)가 200이고 입력 영상의 RGB 사이즈가 320×240인 경우, 출력은 320×240×200 사이즈의 매칭 확률 맵이 된다.For example, when the maximum disparity range is 200 and the RGB size of the input image is 320x240, the output becomes a matching probability map of 320x240x200 size.

여기서, 이동 범위 200은 가로 픽셀에 대한 이동을 의미하며 세로 픽셀에 대한 이동은 고려하지 않는다.Here, the movement range 200 refers to movement to the horizontal pixel, and movement to the vertical pixel is not considered.

이 매칭 확률 맵에서 첫 번째 볼륨(volume) 320×240×1은 각 픽셀별 이동이 1이 될 매칭 확률이며, 150번째 볼륨은 각 픽셀별 이동이 150이 될 매칭 확률이다.In this matching probability map, the first volume (volume) 320 × 240 × 1 is the matching probability that the movement for each pixel is 1, and the 150th volume is the matching probability that the movement for each pixel is 150.

즉, 매칭 확률은 각 픽셀별로 존재할 수 있으며, 영상이 픽셀 단위로 이동할 때 다음 픽셀에서의 매칭 확률은 이전 픽셀에서의 매칭 확률과의 곱으로 나타나게 된다.That is, the matching probability may exist for each pixel, and when the image moves on a pixel-by-pixel basis, the matching probability at the next pixel is expressed as a product of the matching probability at the previous pixel.

만일, 특정 픽셀에서 매칭 확률이 가장 높게 나타난다면, 해당 픽셀의 위치가 좌 영상으로부터 우 영상까지의 이동 거리가 되며, 복수의 픽셀에서 매칭 확률이 동일하게 가장 높게 나타난다면, 복수의 픽셀에 대한 위치의 평균이 좌 영상으로부터 우 영상까지의 이동 거리가 될 수 있다.If the matching probability is highest in a specific pixel, the position of the corresponding pixel is a moving distance from the left image to the right image, and if the matching probability is the highest in a plurality of pixels, Can be the moving distance from the left image to the right image.

결국, 매칭 확률이 파악된다면 양안식 영상에서 필요한 좌 영상과 우 영상 간의 이동 거리가 파악되고, 좌 영상과 상기 이동 거리를 이용하면 좌 영상에 대한 외각 시점을 반영하여 우 영상을 생성해낼 수 있다.As a result, if the matching probability is grasped, the moving distance between the left image and the right image required in the binocular image is grasped, and the right image can be generated by reflecting the outer view of the left image using the left image and the moving distance.

또한, 매칭 확률 학습부(110)는 각 픽셀별로 주파수 성분의 크기 등에 따라서 픽셀별로 서로 다른 가중치를 부여할 수 있다.In addition, the matching probability learning unit 110 may assign different weights to the individual pixels according to the magnitude of the frequency component for each pixel.

다시 도 2를 참조하면, 전술한 피쳐 맵은 완전 연결된(fully-connected) 신경망으로 입력되고, 매칭 확률 학습부(110)는 미리 주어진 입력 영상에 대한 라벨(label)과 신경망의 출력 값의 차이 값에 따라서, 매칭 확률을 학습하기 위한 딥 러닝 알고리즘의 파라미터에 대한 학습을 수행할 수 있다.2, the above-described feature map is input into a fully-connected neural network, and the matching probability learning unit 110 calculates a difference value between a label for a given input image and an output value of a neural network, Learning of the parameters of the deep learning algorithm for learning the matching probability can be performed.

매칭 확률 학습부(110)는 전술한 바와 같이, 레퍼런스로 입력된 좌 영상과 우 영상에 대하여 딥 러닝 알고리즘을 이용하여 매칭 확률을 학습할 수 있다.As described above, the matching probability learning unit 110 can learn the matching probability using the deep learning algorithm for the left and right images input as references.

한편, 유사도 학습부(120)는 매칭 확률 학습부(110)의 학습에 의해 추정된 매칭 확률에 대한 정확도를 높일 수 있는 ‘유사도(affinity)’를 추정하는 방법을 학습할 수 있다(이하, ‘유사도를 학습할 수 있다’라고 칭함).On the other hand, the similarity learning unit 120 can learn a method of estimating 'affinity' which can increase the accuracy of the matching probability estimated by the learning of the matching probability learning unit 110 (hereinafter referred to as' We can learn the degree of similarity ").

여기서 ‘유사도’는 픽셀간 매칭 확률의 유사함 정도로 정의될 수 있다.Here, the 'similarity degree' can be defined as a degree of similarity between the pixel matching probabilities.

이를 위해, 유사도 학습부(120)는 매칭 확률 학습부(110)의 출력 값과 레퍼런스 입력 영상인 좌 영상 및 우 영상을 이용하여 학습 초기의 매칭 확률 맵을 보정하기 위한 유사도를 학습할 수 있다.For this, the similarity learning unit 120 may learn the similarity for correcting the matching probability map at the initial stage of learning using the output value of the matching probability learning unit 110 and the left and right images, which are reference input images.

구체적으로 유사도 학습부(120)는 컨벌루션과 다운 샘플링으로서 비선형 매핑을 수행할 수 있다.Specifically, the similarity learning unit 120 may perform nonlinear mapping as convolution and downsampling.

여기서 컨벌루션과 다운 샘플링에 대해서는 전술한바 있으므로 생략하도록 한다.Convolution and downsampling are omitted here because they are described above.

유사도 학습부(120)는 유사도 매트릭스(affinity matrix)(W)와 디그리 매트릭스(Degree matrix)(D)를 이용하여 유사도(A)를 학습할 수 있다.The similarity learning unit 120 may learn the similarity A using an affinity matrix W and a degree matrix D. [

여기서, 유사도 매트릭스는 N×N 대칭 매트릭스(symmetric matrix)(여기서 N은 전체 영상의 픽셀 수)이며,

Figure 112016072529219-pat00001
이다.Here, the similarity matrix is an N x N symmetric matrix (where N is the number of pixels of the entire image)
Figure 112016072529219-pat00001
to be.

유사도 학습부(120)는 상기 유사도 매트릭스(W)를 이용하여 N×N 대각 매트릭스(diagonal matrix)인 디그리 매트릭스(degree matrix)(D)를 계산할 수 있으며, 아래의 [수학식 1]과 같이 나타낼 수 있다.The similarity learning unit 120 may calculate a degree matrix D which is an N × N diagonal matrix using the similarity matrix W and may be expressed as Equation 1 below .

Figure 112016072529219-pat00002
Figure 112016072529219-pat00002

유사도 학습부(120)는 아래의 [수학식 2]를 이용하여 N×N 매트릭스인 유사도 A를 계산할 수 있다.The similarity learning unit 120 can calculate the similarity A, which is an N × N matrix, using the following equation (2).

Figure 112016072529219-pat00003
Figure 112016072529219-pat00003

후술하겠지만, 유사도 학습부(120)에서 학습된 유사도 A는 매칭 확률 학습부(110)의 매칭 확률을 보정하기 위해 이용될 수 있다.As described later, the degree of similarity A learned by the similarity learning unit 120 can be used to correct the matching probability of the matching probability learning unit 110. [

한편, 최종 추론부(130)는 아래와 같은 에너지 함수인 [수학식 3] 또는 [수학식 4]를 이용하여 보정된 매칭 확률을 추정하는 방법을 학습할 수 있으며(이하, ‘보정된 매칭 확률을 학습한다’라고 칭함), 이는 역 매트릭스(matrix inverse) 연산을 통해서 구현될 수 있다.Meanwhile, the final reasoning unit 130 can learn a method of estimating the corrected matching probability using Equation 3 or Equation 4, which is an energy function as follows (hereinafter referred to as 'the corrected matching probability' Learning "), which can be implemented through a matrix inverse operation.

Figure 112016072529219-pat00004
Figure 112016072529219-pat00004

Figure 112016072529219-pat00005
Figure 112016072529219-pat00005

여기서, ‘f’는 매칭 확률 학습부(110)에서 학습된 매칭 확률이고, ‘A’는 유사도 학습부(120)에서 학습된 유사도이며, ‘I’는 단위 매트릭스(identity matrix)이다.Here, 'f' is the matching probability learned in the matching probability learning unit 110, 'A' is the similarity learned in the similarity learning unit 120, and 'I' is the identity matrix.

그리고 λ는 가중치로서, 최종 추론부(130)는 매칭 확률 학습부(110)에서 학습된 매칭 확률 f에 가중치 λ를 적용하거나, 유사도 학습부(120)에서 학습된 유사도 A에 가중치 λ를 적용할 수 있다.The final inference unit 130 applies the weight λ to the matching probability f learned in the matching probability learning unit 110 or applies the weight λ to the similarity A learned in the similarity learning unit 120 .

이는, 최종 추론부(130)가 [수학식 3] 또는 [수학식 4]를 만족하는 ‘u’를 학습 시, 어디(f 또는 A)에 가중치 λ를 적용했을 때 이후에 설명하는 오차(error)가 최소가 되는지를 판단하여 결정할 수 있다.This is because when the final inference unit 130 learns 'u' satisfying [Equation 3] or [Equation 4], when the weighting factor λ is applied to where (f or A) Can be determined to be minimum.

가중치 λ는 픽셀별로 다르게 결정되고, 주파수 성분의 크기에 따라서도 달라질 수 있으며, 학습 과정을 통해 결정될 수 있다.The weighting factor? Is determined differently for each pixel, and may vary according to the magnitude of the frequency component, and may be determined through a learning process.

한편, 랜더링 학습부(140)는 최종 추론부(130)로부터 추론된 보정된 매칭 확률 ‘u’를 이용하여 확률 기반 랜더링을 통해 좌 영상에 외각 시점을 합성하는 방법을 학습할 수 있다.Meanwhile, the rendering learning unit 140 may learn how to synthesize the outer viewpoint on the left image through probability-based rendering using the corrected matching probability 'u' derived from the final inferring unit 130. [

최종 추론부(130)로부터 추론된 보정된 매칭 확률을 u라고 하면, 픽셀 i, j의 이동 거리(disparity)가 d일 확률은

Figure 112016072529219-pat00006
이고, 따라서,
Figure 112016072529219-pat00007
이다.Let u be the corrected matching probability inferred from the final inference unit 130, the probability that the disparity of the pixel i, j is d is
Figure 112016072529219-pat00006
Lt; / RTI >
Figure 112016072529219-pat00007
to be.

랜더링 학습부(140)는 아래의 [수학식 5]를 이용하여, 좌 영상에 외각 시점 R(우 영상)을 합성할 수 있다.The rendering learning unit 140 can synthesize the outer view point R (right image) on the left image using the following equation (5).

Figure 112016072529219-pat00008
Figure 112016072529219-pat00008

여기서, I는 입력 영상(본 실시예에서는 좌 영상)이다.Here, I is an input image (left image in this embodiment).

또한, 랜더링 학습부(140)는 상기 합성된 외각 시점인 R과 레퍼런스로 입력된 외각 시점(레퍼런스 우 영상)과의 오차를 계산하고, 이 오차가 최소가 되도록 역 전파(back propagation) 알고리즘을 이용하여 학습을 진행할 수 있다.The rendering learning unit 140 calculates an error between the synthesized outer viewpoint R and an outer viewpoint input as a reference (reference right image), and uses a back propagation algorithm so that the error is minimized So that learning can proceed.

레퍼런스로 입력된 외각 시점을 g라 하면, 학습 오차 error는 아래의 [수학식 6]과 같이 나타낼 수 있다.If the external viewpoint input as the reference is g, the learning error error can be expressed by the following equation (6).

Figure 112016072529219-pat00009
Figure 112016072529219-pat00009

결국, 전술한 과정을 통해서 학습 오차가 최소가 되는 매칭 확률이 학습될 수 있으며, 2차원의 단일 영상인 좌 영상이 입력되면 해당 매칭 확률에 기초하여 우 영상이 생성될 수 있다.As a result, the matching probability that minimizes the learning error can be learned through the above-described process, and a right image can be generated based on the matching probability when a left image as a single two-dimensional image is input.

도 5는 본 발명의 일 실시예에 따른 단일 영상 기반의 외곽 시점 합성 과정을 도시한 흐름도이다.5 is a flowchart illustrating a single image based outline view synthesis process according to an exemplary embodiment of the present invention.

참고로, 도 5는 영상 처리 장치(100)에 의해 수행될 수 있으며, 영상 처리 장치(100)는 레퍼런스 영상으로서 2차원 컬러 영상인 좌 영상 및 우 영상을 입력받은 상태이다.5 can be performed by the image processing apparatus 100, and the image processing apparatus 100 receives a left image and a right image, which are two-dimensional color images, as reference images.

먼저, 영상 처리 장치(100)는 입력된 좌 영상에 대해 기 설정된 사이즈의 필터를 이용하여 컨벌루션을 수행하고, 컨벌루션 수행 결과에 대해 다운 샘플링을 수행한다(S501).First, the image processing apparatus 100 performs convolution using a filter of a predetermined size with respect to the input left image, and performs downsampling on the convolution result (S501).

여기서 영상 처리 장치(100)는 컨벌루션과 다운 샘플링을 수회 반복할 수 있다.Here, the image processing apparatus 100 may repeat convolution and downsampling several times.

S501 후, 영상 처리 장치(100)는 다운 샘플링 결과에 대해 영상의 해상도가 줄어드는 것을 보완하는 디컨벌루션으로서 업 샘플링을 수행한다(S502).After S501, the image processing apparatus 100 performs up-sampling as a deconvolution that compensates for the reduction of the resolution of the image with respect to the down-sampling result (S502).

S502 후, 영상 처리 장치(100)는 좌 영상의 이동 범위와 영상의 사이즈에 기초하여 매칭 확률 맵을 생성하고, 그에 따라서 좌 영상을 소정의 이동 범위 내에서 픽셀 단위로 이동시켜가며 매칭 확률을 추정하는 방법을 학습시킨다(S503).After step S502, the image processing apparatus 100 generates a matching probability map based on the moving range of the left image and the size of the image, moves the left image in the predetermined moving range in units of pixels, and estimates the matching probability (S503).

S503 후, 영상 처리 장치(100)는 S503에서 추정된 매칭 확률을 보정하기 위한 유사도를 추정하는 방법을 학습시킨다(S504).After S503, the image processing apparatus 100 learns a method of estimating the degree of similarity for correcting the matching probability estimated in S503 (S504).

여기서 영상 처리 장치(100)는 상기 유사도를 추정 시 N×N의 대칭 매트릭스인 유사도 매트릭스와 N×N의 대각 매트릭스인 디그리 매트릭스를 이용할 수 있다. 참고로, 디그리 매트릭스는 유사도 매트릭스를 이용하여 도출될 수 있다.Here, the image processing apparatus 100 may use a similarity matrix, which is a symmetric matrix of N × N, and a degree matrix, which is a diagonal matrix of N × N, when estimating the similarity. For reference, the degree matrix can be derived using the similarity matrix.

S504 후, 영상 처리 장치(100)는 상기 [수학식 3] 또는 [수학식 4]와 같은 에너지 함수를 이용하여 보정된 매칭 확률을 추정하는 방법을 학습시킨다(S505).After step S504, the image processing apparatus 100 learns a method of estimating the corrected matching probability using an energy function such as Equation (3) or Equation (4) (S505).

이는 보정을 통해 매칭 확률의 추정 정확도를 높이기 하기 위함이다.This is to increase the estimation accuracy of the matching probability through the correction.

여기서 영상 처리 장치(100)는 보정된 매칭 확률을 추정 시 가중치를 적용할 수 있는데, S504에서 계산된 매칭 확률에 적용하거나 S505에서 계산된 유사도에 적용할 수 있다.Here, the image processing apparatus 100 may apply the weighting when estimating the corrected matching probability, which may be applied to the matching probability calculated in S504 or to the similarity calculated in S505.

S505 후, 영상 처리 장치(100)는 보정된 매칭 확률을 이용하여 확률 기반 랜더링을 통해 외각 시점인 우측 시점을 합성하는 방법을 학습시킨다(S506).After step S505, the image processing apparatus 100 learns how to synthesize the right viewpoint, which is the outer viewpoint, through the probability-based rendering using the corrected matching probability (S506).

S506 후, 영상 처리 장치(100)는 합성된 우측 시점과 레퍼런스로 입력된 우측 시점(우 영상)과의 오차를 계산하고, 역 전파 알고리즘을 이용하여 해당 오차가 최소가 되도록 매칭 확률을 보정(외각 시점을 합성)하는 방법을 학습시킨다(S507).After step S506, the image processing apparatus 100 calculates an error between the synthesized right viewpoint and a right viewpoint (right image) input as a reference, and corrects the matching probability so that the corresponding error is minimized using a back propagation algorithm (Synthesizing the viewpoints) (S507).

이와 같은 과정으로 매칭 확률을 추정하는 학습에 의한 알고리즘이 구축되면, 영상 처리 장치(100)는 이후에 입력되는 좌 영상만으로도 해당 좌 영상에 대한 우 영상을 생성할 수 있다.When the learning algorithm for estimating the matching probability is constructed in this way, the image processing apparatus 100 can generate a right image for the left image using only the left image input thereafter.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다.It will be understood by those skilled in the art that the foregoing description of the present invention is for illustrative purposes only and that those of ordinary skill in the art can readily understand that various changes and modifications may be made without departing from the spirit or essential characteristics of the present invention. will be.

그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.It is therefore to be understood that the above-described embodiments are illustrative in all aspects and not restrictive.

예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.For example, each component described as a single entity may be distributed and implemented, and components described as being distributed may also be implemented in a combined form.

본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is defined by the appended claims, and all changes or modifications derived from the meaning and scope of the claims and their equivalents should be construed as being included within the scope of the present invention.

100 : 영상 처리 장치
110 : 매칭 확률 학습부
120 : 유사도 학습부
130 : 최종 추론부
140 : 랜더링 학습부
100: image processing device
110: matching probability learning unit
120: similarity learning unit
130: Final Reasoning Unit
140: Rendering Learning Unit

Claims (13)

영상 처리 장치에 있어서,
제1 시점 영상 및 제2 시점 영상을 포함하는 2차원의 레퍼런스 영상을 입력받아 상기 제1 시점 영상과 제2 시점 영상간 매칭 확률을 추정하는 방법을 학습시키는 매칭 확률 학습부;
상기 매칭 확률을 보정하기 위한 유사도를 추정하는 방법을 학습시키는 유사도 학습부;
상기 매칭 확률과 상기 유사도를 이용하여 매칭 확률을 보정하는 방법을 학습시키는 최종 추론부; 및
상기 보정된 매칭 확률을 이용하여 확률 기반 랜더링을 통해 외각 시점을 합성한 영상을 생성하는 방법을 학습시키는 랜더링 학습부
를 포함하되,
상기 매칭 확률은
상기 제1 시점 영상을 픽셀 단위로 이동시켰을 때 상기 제2 시점 영상과 매칭될 확률로서 픽셀의 이동 거리에 대한 함수로 표시되고 픽셀별로 존재하며,
상기 유사도는
상기 픽셀별로 존재하는 매칭 확률이 타 픽셀과 유사한 정도이고,
상기 매칭 확률 학습부는
상기 레퍼런스 영상에 대해 특정 사이즈의 필터를 이용하여 컨벌루션을 수행하고,
상기 컨벌루션 결과에 대해 다운 샘플링을 수행하며,
상기 다운 샘플링 결과에 대해 업 샘플링을 수행하되
상기 컨벌루션과 다운 샘플링은 미리 정해진 회수만큼 수행하는 방법을 학습시키는 것을 특징으로 하는 영상 처리 장치.
An image processing apparatus comprising:
A matching probability learning unit that receives a two-dimensional reference image including a first viewpoint image and a second viewpoint image and learns a method of estimating a matching probability between the first viewpoint image and the second viewpoint image;
A similarity learning unit that learns a method of estimating similarity for correcting the matching probability;
A final inference unit for learning a method of correcting a matching probability using the matching probability and the similarity; And
And a rendering learning unit that learns a method of generating an image obtained by synthesizing an outer viewpoint through probability-based rendering using the corrected matching probability,
, ≪ / RTI &
The matching probability is
Wherein the first viewpoint image is a function to be matched with the second viewpoint image when the first viewpoint image is moved in a pixel unit,
The degree of similarity
The matching probability existing for each pixel is similar to the other pixels,
The matching probability learning unit
Performs convolution on the reference image using a filter of a specific size,
Perform downsampling on the convolution result,
Performing up-sampling on the down-sampling result
Wherein the convolution and downsampling are performed by a predetermined number of times.
제1 항에 있어서,
상기 랜더링 학습부는
상기 외각 시점이 합성된 영상과 상기 레퍼런스 영상 중 상기 외각 시점에 상응하는 레퍼런스 영상간의 오차가 최소가 되도록 상기 외각 시점을 합성하는 방법을 학습시키는 것을 특징으로 하는 영상 처리 장치.
The method according to claim 1,
The rendering learning unit
Wherein the learning unit learns a method of synthesizing the outer view point so that an error between an image obtained by combining the outer view point and a reference image corresponding to the outer viewpoint of the reference image is minimized.
제1 항에 있어서,
상기 매칭 확률 학습부는
상기 제1 시점 영상을 이동 범위 내에서 픽셀 단위로 이동시켜가며 픽셀별로 상기 매칭 확률을 추정하되,
상기 픽셀 단위로 이동 시, 다음 픽셀에서의 매칭 확률은 이전 픽셀에서의 매칭 확률과의 곱이며, 상기 매칭 확률이 최대인 픽셀의 위치를 상기 제1 시점 영상의 이동 거리로 추정하는 방법을 학습시키는 것을 특징으로 하는 영상 처리 장치.
The method according to claim 1,
The matching probability learning unit
Estimating the matching probability for each pixel while moving the first viewpoint image in a moving range within a pixel unit,
Learning a method of estimating a position of a pixel having the maximum matching probability as a moving distance of the first viewpoint image when the moving speed of the first viewpoint image is shifted in units of pixels, and a matching probability at a next pixel is a product of a matching probability at a previous pixel And the image processing apparatus.
제3 항에 있어서,
상기 매칭 확률 학습부는
상기 매칭 확률이 최대인 픽셀이 복수로 연속 존재하는 경우, 상기 복수의 픽셀의 위치에 대하여 계산된 평균의 위치를 상기 제1 시점 영상의 이동 거리로 추정하는 방법을 학습시키는 것을 특징으로 하는 영상 처리 장치.
The method of claim 3,
The matching probability learning unit
And estimating a position of the average calculated with respect to the positions of the plurality of pixels as a moving distance of the first viewpoint image when a plurality of pixels having the highest matching probability are present continuously. Device.
삭제delete 제1 항에 있어서,
상기 유사도 학습부는
컨벌루션 및 비선형 매핑을 수행하고,
N×N(N은 전체 영상의 픽셀 수)의 대칭 행렬(symmetric matrix)인 유사도 행렬(affinity matrix)과 N×N의 대각 행렬(diagonal matrix)인 디그리 행렬(degree matrix)을 이용하여 상기 유사도를 추정하는 방법을 학습시키는 것을 특징으로 하는 영상 처리 장치.
The method according to claim 1,
The similarity degree learning unit
Perform convolution and non-linear mapping,
The degree of similarity is calculated using an affinity matrix which is a symmetric matrix of N × N (N is the number of pixels of the entire image) and a degree matrix which is a diagonal matrix of N × N And estimates the number of pixels of the image.
제2 항에 있어서,
상기 최종 추론부는
상기 오차가 최소가 되도록 상기 보정된 매칭 확률을 추정하는 방법을 학습시키되,
상기 매칭 확률 학습부에서 학습된 매칭 확률 또는 상기 유사도 학습부에서 학습된 유사도 중 어느 하나에 가중치를 적용하는 것을 특징으로 하는 영상 처리 장치.
3. The method of claim 2,
The final reasoning unit
A method of estimating the corrected matching probability so that the error is minimized,
And applies a weight to either the matching probability learned in the matching probability learning unit or the similarity learned in the similarity learning unit.
영상 처리 장치가 단일 영상 기반의 외각 시점을 합성하는 방법에 있어서,
(a) 제1 시점 영상 및 제2 시점 영상을 포함하는 2차원의 레퍼런스 영상을 입력받아 상기 제1 시점 영상과 제2 시점 영상간 매칭 확률을 추정하는 방법을 학습시키는 단계;
(b) 상기 매칭 확률을 보정하기 위한 유사도를 추정하는 방법을 학습시키는 단계;
(c) 상기 매칭 확률과 상기 유사도를 이용하여 상기 매칭 확률을 보정하는 방법을 학습시키는 단계; 및
(d) 상기 보정된 매칭 확률을 이용하여 확률 기반 랜더링을 통해 외각 시점을 합성한 영상을 생성하는 방법을 학습시키는 단계
를 포함하되,
상기 매칭 확률은
상기 제1 시점 영상을 픽셀 단위로 이동시켰을 때 상기 제2 시점 영상과 매칭될 확률로서 픽셀의 이동 거리에 대한 함수로 표시되고 픽셀별로 존재하며,
상기 유사도는
상기 픽셀별로 존재하는 매칭 확률이 타 픽셀과 유사한 정도이고,
상기 단계(a)는, 상기 레퍼런스 영상에 대해 특정 사이즈의 필터를 이용하여 컨벌루션을 수행하고,
상기 컨벌루션 결과에 대해 다운 샘플링을 수행하며,
상기 다운 샘플링 결과에 대해 업 샘플링을 수행하되
상기 컨벌루션과 다운 샘플링은 미리 정해진 회수만큼 수행하는 방법을 학습시키는 것을 특징으로 하는 단일 영상 기반의 외각 시점 합성 방법.
A method of synthesizing an external viewpoint based on a single image by an image processing apparatus,
(a) learning a method of receiving a two-dimensional reference image including a first viewpoint image and a second viewpoint image and estimating a matching probability between the first viewpoint image and the second viewpoint image;
(b) learning a method of estimating similarity for correcting the matching probability;
(c) learning a method of correcting the matching probability using the matching probability and the similarity; And
(d) learning a method of generating an image in which an outer view point is synthesized through probability-based rendering using the corrected matching probability
, ≪ / RTI &
The matching probability is
Wherein the first viewpoint image is a function to be matched with the second viewpoint image when the first viewpoint image is moved in a pixel unit,
The degree of similarity
The matching probability existing for each pixel is similar to the other pixels,
In the step (a), convolution is performed on the reference image using a filter of a specific size,
Perform downsampling on the convolution result,
Performing up-sampling on the down-sampling result
Wherein the convolution and downsampling are performed by a predetermined number of times.
제8 항에 있어서,
상기 (d) 단계는
상기 외각 시점이 합성된 영상과 상기 외각 시점에 상응하는 레퍼런스 영상인 제2 시점 영상간의 오차가 최소가 되도록 상기 외각 시점을 합성하는 방법을 학습시키는 것을 특징으로 하는 단일 영상 기반의 외각 시점 합성 방법.
9. The method of claim 8,
The step (d)
Wherein the method comprises learning a method of synthesizing the outer viewpoint so that an error between an image obtained by combining the outer viewpoint and a reference image corresponding to the outer viewpoint is minimized.
제9 항에 있어서,
상기 (c) 단계는
상기 오차가 최소가 되도록 상기 보정된 매칭 확률을 추정하는 방법을 학습시키되,
상기 매칭 확률 학습부에서 학습된 매칭 확률 또는 상기 (b) 단계에서 학습된 유사도 중 어느 하나에 가중치를 적용하는 것을 특징으로 하는 단일 영상 기반의 외각 시점 합성 방법.
10. The method of claim 9,
The step (c)
A method of estimating the corrected matching probability so that the error is minimized,
Wherein a weight is applied to either the matching probability learned in the matching probability learning unit or the similarity learned in the step (b).
영상 처리 장치가 단일 영상 기반의 외각 시점을 합성하는 방법에 있어서,
(a) 단일 영상인 2차원의 좌 영상 또는 우 영상을 입력받는 단계; 및
(b) 딥 러닝(deep learning) 알고리즘을 이용하여 학습된 매칭 확률에 따라서 상기 좌 영상 또는 우 영상에 대응되는 우 영상 또는 좌 영상을 생성하는 단계
를 포함하되,
상기 (b) 단계는
(b-1) 제1 시점 영상과 제2 시점 영상을 포함하는 2차원의 레퍼런스 영상을 입력받아 상기 제1 시점 영상과 제2 시점 영상간의 상기 매칭 확률을 추정하는 방법을 학습시키는 단계;
(b-2) 상기 매칭 확률을 보정하기 위한 유사도를 추정하는 방법을 학습시키는 단계;
(b-3) 상기 매칭 확률과 상기 유사도를 이용하여 상기 매칭 확률을 보정하는 방법을 학습시키는 단계; 및
(b-4) 상기 보정된 매칭 확률을 이용하여 확률 기반 랜더링을 통해 외각 시점을 합성한 영상을 생성하는 방법을 학습시키는 단계
를 포함하되,
상기 매칭 확률은
상기 제1 시점 영상을 픽셀 단위로 이동시켰을 때 상기 제2 시점 영상과 매칭될 확률로서 픽셀의 이동 거리에 대한 함수로 표시되고 픽셀별로 존재하며,
상기 유사도는
상기 픽셀별로 존재하는 매칭 확률이 타 픽셀과 유사한 정도이고,
상기 단계(b-1)은, 상기 레퍼런스 영상에 대해 특정 사이즈의 필터를 이용하여 컨벌루션을 수행하고,
상기 컨벌루션 결과에 대해 다운 샘플링을 수행하며,
상기 다운 샘플링 결과에 대해 업 샘플링을 수행하되
상기 컨벌루션과 다운 샘플링은 미리 정해진 회수만큼 수행하는 방법을 학습시키는 것을 특징으로 하는 단일 영상 기반의 외각 시점 합성 방법.
A method of synthesizing an external viewpoint based on a single image by an image processing apparatus,
(a) receiving a two-dimensional left or right image as a single image; And
(b) generating a right image or a left image corresponding to the left image or the right image according to the learned matching probability using a deep learning algorithm
, ≪ / RTI &
The step (b)
(b-1) learning a method of estimating the matching probability between the first viewpoint image and the second viewpoint image by receiving a two-dimensional reference image including a first viewpoint image and a second viewpoint image;
(b-2) learning a method of estimating similarity for correcting the matching probability;
(b-3) learning a method of correcting the matching probability using the matching probability and the similarity; And
(b-4) a step of learning a method of generating an image in which an outer view point is synthesized through probability-based rendering using the corrected matching probability
, ≪ / RTI &
The matching probability is
Wherein the first viewpoint image is a function to be matched with the second viewpoint image when the first viewpoint image is moved in a pixel unit,
The degree of similarity
The matching probability existing for each pixel is similar to the other pixels,
Wherein the step (b-1) performs convolution using a filter of a specific size for the reference image,
Perform downsampling on the convolution result,
Performing up-sampling on the down-sampling result
Wherein the convolution and downsampling are performed by a predetermined number of times.
제11 항에 있어서,
상기 (b-4) 단계는
상기 외각 시점이 합성된 영상과 상기 외각 시점에 상응하는 레퍼런스 영상인 제2 시점 영상간의 오차가 최소가 되도록 상기 외각 시점을 합성하는 방법을 학습시키는 것을 특징으로 하는 단일 영상 기반의 외각 시점 합성 방법.
12. The method of claim 11,
The step (b-4)
Wherein the method comprises learning a method of synthesizing the outer viewpoint so that an error between an image obtained by combining the outer viewpoint and a reference image corresponding to the outer viewpoint is minimized.
제12 항에 있어서,
상기 (b-3) 단계는
상기 오차가 최소가 되도록 상기 보정된 매칭 확률을 추정하는 방법을 학습시키되,
상기 매칭 확률 학습부에서 학습된 매칭 확률 또는 상기 (b-2) 단계에서 학습된 유사도 중 어느 하나에 가중치를 적용하는 것을 특징으로 하는 단일 영상 기반의 외각 시점 합성 방법.
13. The method of claim 12,
The step (b-3)
A method of estimating the corrected matching probability so that the error is minimized,
Wherein the weights are applied to either the matching probability learned in the matching probability learning unit or the similarity learned in the step (b-2).
KR1020160094697A 2016-07-26 2016-07-26 Method for synthesizing view based on single image and image processing apparatus KR101785857B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160094697A KR101785857B1 (en) 2016-07-26 2016-07-26 Method for synthesizing view based on single image and image processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160094697A KR101785857B1 (en) 2016-07-26 2016-07-26 Method for synthesizing view based on single image and image processing apparatus

Publications (1)

Publication Number Publication Date
KR101785857B1 true KR101785857B1 (en) 2017-11-15

Family

ID=60386954

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160094697A KR101785857B1 (en) 2016-07-26 2016-07-26 Method for synthesizing view based on single image and image processing apparatus

Country Status (1)

Country Link
KR (1) KR101785857B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022060001A1 (en) * 2020-09-18 2022-03-24 삼성전자 주식회사 Image processing device and operating method therefor
KR20230079690A (en) 2021-11-29 2023-06-07 연세대학교 산학협력단 Apparatus and Method for Synthesizing Aerial-To-Ground Image

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015011032A (en) 2013-06-28 2015-01-19 トヨタ モーター エンジニアリング アンド マニュファクチャリング ノース アメリカ,インコーポレイティド Method and apparatus for estimating shape and posture of three-dimensional object and tracking the same

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015011032A (en) 2013-06-28 2015-01-19 トヨタ モーター エンジニアリング アンド マニュファクチャリング ノース アメリカ,インコーポレイティド Method and apparatus for estimating shape and posture of three-dimensional object and tracking the same

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Oh, Changjae, Bumsub Ham, and Kwanghoon Sohn. "Probabilistic Correspondence Matching using Random Walk with Restart." BMVC. 2012.,2012.12.31.*

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022060001A1 (en) * 2020-09-18 2022-03-24 삼성전자 주식회사 Image processing device and operating method therefor
KR20230079690A (en) 2021-11-29 2023-06-07 연세대학교 산학협력단 Apparatus and Method for Synthesizing Aerial-To-Ground Image

Similar Documents

Publication Publication Date Title
JP6951565B2 (en) Depth estimation methods and devices, electronic devices and media
JP6929047B2 (en) Image processing equipment, information processing methods and programs
CN111899163B (en) Efficient structure preservation to generate single image super-resolution in an antagonistic network
CN110555434B (en) Method for detecting visual saliency of three-dimensional image through local contrast and global guidance
US10846836B2 (en) View synthesis using deep convolutional neural networks
JP2020524861A (en) Method and apparatus for training semantic segmentation model, electronic device, and storage medium
CN109389667B (en) High-efficiency global illumination drawing method based on deep learning
RU2690757C1 (en) System for synthesis of intermediate types of light field and method of its operation
CN113724155B (en) Self-lifting learning method, device and equipment for self-supervision monocular depth estimation
CN115239857B (en) Image generation method and electronic device
GB2596777A (en) Facial re-enactment
CN112509144A (en) Face image processing method and device, electronic equipment and storage medium
KR101785857B1 (en) Method for synthesizing view based on single image and image processing apparatus
KR101795952B1 (en) Method and device for generating depth image of 2d image
RU2764144C1 (en) Rapid two-layer neural network synthesis of realistic images of a neural avatar based on a single image
Hara et al. Enhancement of novel view synthesis using omnidirectional image completion
CN111292251B (en) Image color cast correction method, device and computer storage medium
US11922649B2 (en) Measurement data calculation apparatus, product manufacturing apparatus, information processing apparatus, silhouette image generating apparatus, and terminal apparatus
KR20220098895A (en) Apparatus and method for estimating the pose of the human body
CN112529975A (en) Image generation method and device and computer
KR101866135B1 (en) Device and method for generating depth information of 2d image, recording medium thereof
CN113614791A (en) Dynamic three-dimensional imaging method
CN113570673B (en) Rendering method of three-dimensional human body and object and application method thereof
CN115294622B (en) Method, system and storage medium for synthesizing and enhancing voice-driven speaker head motion video
JP7281754B2 (en) A system for image completion

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant