KR101665049B1 - Image processing apparatus and method - Google Patents

Image processing apparatus and method Download PDF

Info

Publication number
KR101665049B1
KR101665049B1 KR1020100077146A KR20100077146A KR101665049B1 KR 101665049 B1 KR101665049 B1 KR 101665049B1 KR 1020100077146 A KR1020100077146 A KR 1020100077146A KR 20100077146 A KR20100077146 A KR 20100077146A KR 101665049 B1 KR101665049 B1 KR 101665049B1
Authority
KR
South Korea
Prior art keywords
image
image processing
mode
unit
model
Prior art date
Application number
KR1020100077146A
Other languages
Korean (ko)
Other versions
KR20120014992A (en
Inventor
임화섭
이기창
최욱
정예근
권인소
정지영
Original Assignee
삼성전자주식회사
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 한국과학기술원 filed Critical 삼성전자주식회사
Priority to KR1020100077146A priority Critical patent/KR101665049B1/en
Publication of KR20120014992A publication Critical patent/KR20120014992A/en
Application granted granted Critical
Publication of KR101665049B1 publication Critical patent/KR101665049B1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/158Switching image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/356Image reproducers having separate monoscopic and stereoscopic modes

Abstract

영상 처리 장치가 제공된다. 영상 처리 장치는 입력 비디오 데이터에 포함된 복수 개의 프레임 영상 및 렌더링하고자 하는 목표 시점을 참고하여, 영상 처리 모드를 결정한다. 상기 영상 처리 모드가 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 3D 모델을 생성하는 제1 모드인 경우, 영상 처리 장치는 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 3D 모델을 생성한다. 그리고, 상기 영상 처리 모드가 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 2D 변환을 수행하는 제2 모드인 경우, 상기 영상 처리 장치는 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 2D 변환을 수행한다.An image processing apparatus is provided. The image processing apparatus determines a video processing mode by referring to a plurality of frame images included in the input video data and a target point to be rendered. When the image processing mode is the first mode for generating a 3D model using at least a part of the plurality of frame images, the image processing apparatus generates a 3D model using at least a part of the plurality of frame images. If the image processing mode is the second mode for performing 2D conversion using at least a part of the plurality of frame images, the image processing apparatus performs 2D conversion using at least a part of the plurality of frame images .

Description

영상 처리 장치 및 방법{IMAGE PROCESSING APPARATUS AND METHOD}[0001] IMAGE PROCESSING APPARATUS AND METHOD [0002]

입력되는 비디오 프레임들로부터 임의의 목표 시점에서의 스테레오스코픽 및/또는 멀티 뷰 영상을 렌더링하는 영상 처리 장치 및 방법에 연관되며, 보다 특정하게는, 선택적으로 영상 합성을 이용하여 3D 모델을 생성하거나, 목표 시점에 인접한 2D 영상 프레임을 이용하여 멀티 뷰 영상을 생성하는 영상 처리 장치 및 방법에 연관된다.And more particularly to an image processing apparatus and method for rendering a stereoscopic and / or multi-view image at an arbitrary target time point from input video frames, and more particularly, to a method and apparatus for generating a 3D model using image synthesis, And an image processing apparatus and method for generating a multi-view image using a 2D image frame adjacent to a target time point.

최근 3D(3 Dimensional) 영상에 대한 관심이 높아지고 있다. 그런데, 종래에는 3D 카메라 세트에 의해 제작되거나, 또는 3D 모델의 렌더링에 의해 제작되지 않은 2D 비디오 데이터들이 존재한다.Recently, interest in 3D (3 Dimensional) images is increasing. However, there are 2D video data that are conventionally produced by a 3D camera set or not produced by 3D model rendering.

이 경우, 모델링된 3D 오브젝트 정보를 가지고 있지 않거나, 3D 영상으로 제작되지 않은 기존의 영상들을 이용하여, 3D 효과를 줄 수 있는 영상 처리의 품질을 향상시킨다면, 3D 영상의 시장의 보급이 더 빠를 수 있다.In this case, if the quality of the image processing capable of providing the 3D effect is improved by using the existing images which are not possessed of the modeled 3D object information or are not made of the 3D image, the market of the 3D image may be faster have.

따라서, 서로 다른 시점에서 촬영된 복수 개의 입력 2D 영상으로부터, 임의의 시점에서의 영상을 생성하여 스테레오스코픽(stereoscopic) 또는 멀티 뷰(multi view) 영상을 생성하는 분야에 대한 관심이 높아지고 있다.Accordingly, there is an increasing interest in the field of generating a stereoscopic or multi-view image by generating an image at a certain time from a plurality of input 2D images captured at different points in time.

복수 개의 프레임의 영상을 포함하는 비디오 데이터를 입력 받아, 3D 모델을 생성하고, 이를 이용하여 임의의 시점에서의 스테레오스코픽 영상 및/또는 멀티 뷰 영상을 생성하는 영상 처리 장치 및 방법이 제공된다.There is provided an image processing apparatus and method for generating stereoscopic image and / or multi-view image at an arbitrary time by receiving video data including images of a plurality of frames, generating a 3D model, and using the generated 3D data.

또한, 입력된 비디오 데이터에 포함된 복수 개의 프레임의 영상 중, 적어도 일부를 상기 스테레오스코픽 영상 및/또는 멀티 뷰 영상의 생성에 재활용할 수 있는 영상 처리 장치 및 방법이 제공된다.There is also provided an image processing apparatus and method capable of recycling at least a part of images of a plurality of frames included in input video data to generate a stereoscopic image and / or a multi-view image.

본 발명의 일측에 따르면, 입력 비디오 데이터에 포함된 복수 개의 프레임 영상 및 렌더링하고자 하는 목표 시점을 참고하여, 영상 처리 모드를 결정하는 모드 결정부, 상기 영상 처리 모드가 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 3D 모델을 생성하는 제1 모드인 경우, 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 3D 모델을 생성하는 3D 모델 생성부를 포함하는, 영상 처리 장치가 제공된다.According to an aspect of the present invention, there is provided a video processing apparatus including a mode determination unit for determining an image processing mode by referring to a plurality of frame images included in input video data and a target point to be rendered, And a 3D model generation unit that generates a 3D model using at least a part of the plurality of frame images in a first mode for generating a 3D model using the plurality of frame images.

본 발명의 일실시예에 따르면, 상기 영상 처리 장치는, 상기 영상 처리 모드가 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 2D 변환을 수행하는 제2 모드인 경우, 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 2D 변환을 수행하여 상기 목표 시점에 대응하는 2D 정보를 생성하는 정적 영상 조정부를 더 포함한다.According to an embodiment of the present invention, when the image processing mode is the second mode in which the image processing mode performs 2D conversion using at least a part of the plurality of frame images, at least a part of the plurality of frame images And generating a 2D information corresponding to the target point by performing a 2D conversion using the 2D image data.

한편, 상기 모드 결정부는, 상기 복수 개의 프레임 영상의 적어도 일부로부터, 특징점을 추출하는 특징점 추출부, 상기 추출된 특징점을 정합하여 특징점 간의 대응 관계를 분석하는 특징점 정합부, 상기 특징점 간의 대응 관계를 통해 상기 입력 비디오 데이터의 상기 복수 개의 프레임 영상의 각각에 대응하는 시점의 모션 패턴을 분석하는 시점 추정부, 및 상기 모션 패턴 및 상기 목표 시점을 고려하여 상기 영상 처리 모드를 결정하는 최적화부를 포함할 수 있다.The mode determining unit may include a feature point extracting unit that extracts feature points from at least a part of the plurality of frame images, a feature point matching unit that analyzes the correspondence between the feature points by matching the extracted feature points, A time estimator for analyzing a motion pattern at a time point corresponding to each of the plurality of frame images of the input video data, and an optimizer for determining the image processing mode in consideration of the motion pattern and the target viewpoint .

이 경우, 상기 시점 추정부는, 스트럭쳐 프롬 모션 (structure from motion, SFM) 기법을 이용하여, 상기 시점의 모션 패턴을 분석할 수 있다.In this case, the viewpoint estimating unit may analyze the motion pattern of the viewpoint using a structure from motion (SFM) technique.

한편, 상기 3D 모델 생성부는, 상기 영상 처리 모드가 상기 제1 모드인 경우, 상기 모드 결정부가 상기 영상 처리 모드를 결정하는 과정에서 복원되는 성긴 3차원 구조(sparse 3D structure)를 이용하여, 입력 영상의 재정렬(polar rectification)을 수행하는 영상 정렬부, 상기 성긴 3차원 구조를 이용하여 조밀 3차원 구조(dense 3D structure)를 복원하는 영상 정합부, 상기 조밀 3차원 구조를 이용하여, 3차원 표면 및 텍스처를 복원하는 3D 구조 추정부, 및 상기 3차원 표면 및 텍스처를 이용하여 3D 모델을 생성하는 3D 모델링부를 포함할 수 있다.Meanwhile, when the image processing mode is the first mode, the 3D model generating unit generates a 3D image using the sparse 3D structure, which is restored in the process of determining the image processing mode, An image alignment unit for performing polar rectification of the dense three-dimensional structure, an image matching unit for restoring a dense three-dimensional structure using the sparse three-dimensional structure, A 3D structure estimating unit for restoring the texture, and a 3D modeling unit for generating the 3D model using the 3D surface and the texture.

본 발명의 일실시예에 따르면, 상기 영상 처리 장치는 상기 3D 모델링부가 생성한 상기 3D 모델을 이용하여, 상기 목표 시점에서의 영상을 렌더링하는 렌더링부를 더 포함한다.According to an embodiment of the present invention, the image processing apparatus further includes a rendering unit that renders an image at the target point by using the 3D model generated by the 3D modeling unit.

본 발명의 다른 일실시예에 따르면, 상기 영상 처리 장치는 상기 3D 모델링부가 생성한 상기 3D 모델 및 2D 변형에 의해 상기 정적 영상 조정부가 생성한 2D 정보를 이용하여, 상기 목표 시점에서의 영상을 렌더링하는 렌더링부를 더 포함한다.According to another embodiment of the present invention, the image processing apparatus may further comprise a rendering unit that renders the image at the target point using the 3D model generated by the 3D modeling unit and the 2D information generated by the static image adjustment unit, And a rendering unit.

본 발명의 다른 일측에 따르면, 입력 비디오 데이터에 포함된 복수 개의 프레임 영상 및 렌더링하고자 하는 목표 시점을 참고하여, 영상 처리 모드를 결정하는 모드 결정 단계, 상기 영상 처리 모드가 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 3D 모델을 생성하는 제1 모드인 경우, 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 3D 모델을 생성하는 3D 모델 생성 단계, 및 상기 3D 모델을 이용하여 상기 목표 시점의 영상을 렌더링하는 단계를 포함하는, 영상 처리 방법이 제공된다.According to another aspect of the present invention, there is provided a video processing method including: a mode determining step of determining an image processing mode by referring to a plurality of frame images included in input video data and a target point to be rendered; A 3D model generation step of generating a 3D model using at least a part of the plurality of frame images in a first mode for generating a 3D model using a part of the plurality of frame images, The image processing method comprising the steps of:

3D 모델의 정보가 주어지지 않은 경우라도, 복수 개의 프레임의 영상을 포함하는 비디오 데이터를 통해 3D 모델의 빠른 생성이 가능하다.Even if information of the 3D model is not given, it is possible to quickly generate the 3D model through the video data including the images of the plurality of frames.

또한, 생성된 3D 모델을 이용하여 임의의 시점에서의 스테레오스코픽 영상 및/또는 멀티 뷰 영상을 효율적으로 생성한다.Also, a stereoscopic image and / or a multi-view image at an arbitrary time point are efficiently generated using the generated 3D model.

나아가, 입력된 비디오 데이터에 포함된 복수 개의 프레임의 영상 중, 적어도 일부를 상기 스테레오스코픽 영상 및/또는 멀티 뷰 영상의 생성에 활용하여 영상 처리 속도가 향상되어, 실시간 실감 3D 영상을 제공할 수 있다.Further, at least a part of the images of the plurality of frames included in the input video data are utilized for generation of the stereoscopic image and / or the multi-view image, thereby improving the image processing speed and providing the real-time realistic 3D image .

프로세서의 입장에서는, 계산의 복잡도가 줄어들고 병렬연산이 가능하여 최종 3차원 모델을 보다 빠르게 생성할 수 있다.In terms of processors, computational complexity is reduced and parallel computation is possible, which enables the final three-dimensional model to be generated more quickly.

도 1은 본 발명의 일실시예에 따른 영상 처리 장치를 도시한다.
도 2는 본 발명의 일실시예에 따라 영상 처리 장치에 입력되는 예시적인 비디오 프레임들을 설명하기 위한 개념도이다.
도 3은 본 발명의 일실시예에 따라 생성하고자 하는 멀티 뷰 영상의 시점을 도시하는 개념도이다.
도 4는 본 발명의 일실시예에 따른 영상 처리 장치의 모드 결정부의 세부 구조를 도시한다.
도 5는 본 발명의 일실시예에 따른 영상 처리 장치의 3D 모델 생성부의 세부 구조를 도시한다.
도 6은 본 발명의 일실시예에 따라 3D 모델 생성부가 이용하는 예시적인 복수 개의 프레임의 영상을 도시한다.
도 7은 본 발명의 일실시예에 따라 도 6의 복수 개의 프레임의 영상들로부터 추출되는 특징점들을 도시한다.
도 8은 본 발명의 일실시예에 따른 영상 처리 방법을 도시한다.
FIG. 1 illustrates an image processing apparatus according to an embodiment of the present invention.
2 is a conceptual diagram illustrating exemplary video frames input to an image processing apparatus according to an embodiment of the present invention.
3 is a conceptual diagram showing a viewpoint of a multi-view image to be generated according to an embodiment of the present invention.
4 illustrates a detailed structure of a mode determination unit of an image processing apparatus according to an embodiment of the present invention.
FIG. 5 illustrates a detailed structure of a 3D model generation unit of an image processing apparatus according to an embodiment of the present invention.
6 illustrates an image of an exemplary plurality of frames utilized by the 3D model generator in accordance with an embodiment of the present invention.
FIG. 7 illustrates minutiae points extracted from images of a plurality of frames of FIG. 6 according to an embodiment of the present invention.
FIG. 8 illustrates an image processing method according to an embodiment of the present invention.

이하에서, 본 발명의 일부 실시예를, 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.Hereinafter, some embodiments of the present invention will be described in detail with reference to the accompanying drawings. However, the present invention is not limited to or limited by the embodiments. Like reference symbols in the drawings denote like elements.

도 1은 본 발명의 일실시예에 따른 영상 처리 장치(100)를 도시한다.FIG. 1 shows an image processing apparatus 100 according to an embodiment of the present invention.

영상 처리 장치(100)는, 모드 결정부(110), 3D 모델 생성부(120), 정적 영상 조정부(130) 및 렌더링부(140)을 포함한다.The image processing apparatus 100 includes a mode determination unit 110, a 3D model generation unit 120, a static image adjustment unit 130, and a rendering unit 140.

모드 결정부(110)는 목표 시점의 영상을 렌더링 하기 위한 영상 처리 모드를 결정할 수 있다.The mode determination unit 110 may determine an image processing mode for rendering an image at a target viewpoint.

이 경우 영상 처리 모드는 3D 모델을 생성하는 3D 모델링 모드와 또는 가까운 시점의 기존 입력 영상 프레임을 활용하여 2D 변환(2D homography)를 처리하는 정적 영상 조정 모드일 수 있다.In this case, the image processing mode may be a 3D modeling mode for generating a 3D model, or a static image adjusting mode for processing 2D homography using an existing input image frame at a near point.

한편, 두 가지 모드가 병렬적으로 수행되어 각각의 단점을 보완하여 영상의 품질을 높이는 것도 가능하며, 이 경우는 두 가지 모드의 병렬 진행(도시 되지 않음)에 대응한다. 병렬적인 모드 진행은 도 7을 참조하여 후술한다.Meanwhile, it is also possible to enhance the quality of the image by complementing the respective disadvantages of the two modes in parallel, which corresponds to parallel progression (not shown) of the two modes. The parallel mode progression will be described later with reference to FIG.

모드 결정부(110)의 세부 구조는 도 4를 참조하여 후술한다.The detailed structure of the mode determination unit 110 will be described later with reference to FIG.

목표 시점의 영상 렌더링을 위한 모드가 3D 모델링 모드로 결정되면, 3D 모델 생성부(120)는 입력 비디오 데이터의 복수 개의 프레임 영상들을 이용하여 3D 모델을 생성하며, 그 과정은 도 3 및 도 5를 참조하여 상세히 후술한다.When the mode for the image rendering at the target time point is determined as the 3D modeling mode, the 3D model generating unit 120 generates a 3D model using a plurality of frame images of the input video data, Will be described later in detail.

한편, 목표 시점의 영상 렌더링을 위한 모드가 정적 영상 조정 모드로 결정되면, 정적 영상 조정부(130)는 정적 영상 조정에 의한 2D 변환(2D homography)을 수행된다.On the other hand, if the mode for rendering the target viewpoint image is determined as the static image adjustment mode, the static image adjustment unit 130 performs 2D homography by static image adjustment.

이 과정에서, 정적 영상 조정부(130)는, 모드 결정부(110)가 추출한 영상들의 특징점을 이용하여 전경과 배경을 분리하고, 핵심영역 추출(salient region extraction)을 수행한다.In this process, the static image adjustment unit 130 separates the foreground and the background using the feature points of the images extracted by the mode determination unit 110, and performs a salient region extraction.

그리고, 정적 영상 조정부(130)는 초점 오차 정보 추출(defocused region extraction), 전경/배경 분리(fore/background separation), 단일 영상 3차원 정보 유추(single-view 3D reconstruction) 등의 기술을 이용하여 각 영상에 3차원 효과가 필요할 후보 영역들을 찾는다.Then, the static image adjustment unit 130 performs a static image adjustment using defocused region extraction, fore / background separation, and single-view 3D reconstruction. Find candidate regions that need 3D effects on the image.

그러면, 정적 영상 조정부(130)는 단일 정적 영상에 기반하여, 추출된 정보들을 바탕으로 적용되어야 할 3차원 효과의 정도 및 가상 3차원 깊이를 결정하여 목표 시점에 맞는 가상 시점 영상을 생성해낸다.Then, the static image adjustment unit 130 determines the degree of the 3D effect and the virtual 3D depth to be applied based on the extracted information based on the single static image, and generates the virtual view image corresponding to the target point.

그리고, 렌더링부(140)는 3D 모델 및/또는 정적 영상 조정 결과를 이용하여 목표 시점에서의 스테레오스코픽 및/또는 멀티 뷰 영상을 렌더링 한다. 이 과정에서 렌더링부(140)의 동작은 도 7을 참조하여 상세히 후술한다.Then, the rendering unit 140 renders the stereoscopic and / or multi-view images at the target point using the 3D model and / or the static image adjustment result. The operation of the rendering unit 140 in this process will be described later in detail with reference to FIG.

도 2는 본 발명의 일실시예에 따라 영상 처리 장치에 입력되는 예시적인 비디오 프레임들을 설명하기 위한 개념도이다.2 is a conceptual diagram illustrating exemplary video frames input to an image processing apparatus according to an embodiment of the present invention.

시점(101 내지 119)는 각각 입력 비디오 데이터에 포함되는 복수 개의 프레임의 영상들을 획득한 카메라 시점에 대응한다.The viewpoints 101 to 119 correspond to the camera viewpoints of the images of the plurality of frames included in the input video data, respectively.

상기 각 시점에서 촬영된 데이터는 각각 2D 영상이고, 오브젝트에 대한 별도의 3D 모델 정보, 이를테면 오브젝트의 기하 정보(geometry information) 등은 주어지지 않는다.The data photographed at the respective viewpoints are 2D images, and no separate 3D model information about the object, such as geometry information of the object, is given.

본 발명의 일실시예에 따르면, 이러한 시점(101 내지 119 등) 에서 획득되어 입력으로 제공되는 비디오 데이터의 각 프레임 중 적어도 일부의 프레임의 영상들을 이용하여, 오브젝트에 대한 3D 모델을 생성하고, 상기 생성된 3D 모델을 이용하여, 임의의 목표 시점들에 대응하는 스테레오스코픽 영상 및/또는 멀티 뷰 영상을 생성한다.According to an embodiment of the present invention, a 3D model for an object is generated by using images of frames of at least a part of each frame of video data obtained and input as input at the time (101 to 119 and the like) And generates a stereoscopic image and / or a multi-view image corresponding to arbitrary target time points using the generated 3D model.

한편, 본 발명의 다른 일실시예에 따르면, 상기 3D 모델 생성에 앞서서, 영상 처리 장치(100)는 상기 목표 시점들에 대응하는 영상들이 입력 비디오 데이터에 존재하는지의 여부를 판단하여, 영상 처리를 위한 모드(mode)를 결정하며, 선택적으로 3D 모델의 생성 대신 기존의 입력 비디오의 프레임 중 목표 시점들에 대응하는 적어도 하나의 프레임의 영상들을 이용하여 영상 처리를 수행할 수 있다.According to another embodiment of the present invention, prior to the 3D model generation, the image processing apparatus 100 determines whether images corresponding to the target time points exist in the input video data, And may selectively perform image processing using images of at least one frame corresponding to target points in a frame of an existing input video instead of generating a 3D model.

이하에서는, 본 발명의 일실시예에 따른 영상 처리 장치의 동작을 도 3 이하를 참조하여 보다 상세히 설명한다.Hereinafter, the operation of the image processing apparatus according to one embodiment of the present invention will be described in more detail with reference to FIG.

도 3은 본 발명의 일실시예에 따라 생성하고자 하는 멀티 뷰 영상의 시점을 도시하는 개념도이다.3 is a conceptual diagram showing a viewpoint of a multi-view image to be generated according to an embodiment of the present invention.

시점(101 내지 105)들은 기존 입력 비디오 데이터에 존재하는 복수 개의 프레임들의 2D 영상의 촬영 시점에 대응한다. 시점(101)부터 시점(105)로 촬영이 진행되면서, 카메라의 시점이 왼쪽 위에서 오른쪽 아래로 움직인 것이 관찰된다.The time points 101 to 105 correspond to the shooting time of the 2D image of the plurality of frames existing in the input video data. As the shooting progresses from the viewpoint 101 to the viewpoint 105, it is observed that the viewpoint of the camera moves from the upper left to the lower right.

그런데, 이 중 시점(103)을 중심으로 하는, 9 view(nine view) 영상을 생성하고자 한다면, 시점(103)에 대응하는 영상은 그대로 이용될 수 있으나, 나머지 시점(301 내지 308)에 대응하는 각 영상들을 생성하기 위해서는, 기존의 영상이 그대로 이용될 수 없다.However, if a nine view (nine view) image is generated centering on the viewpoint 103, the image corresponding to the viewpoint 103 can be used as it is, but the image corresponding to the remaining viewpoints 301 to 308 In order to generate each image, the existing image can not be used as it is.

기존에 입력된 비디오 데이터에서 복수 개의 프레임들의 영상 중에서, 현재 렌더링하고자 하는 특정 시점과 유사한 시점의 영상이 존재한다면, 이는 그대로 활용되어서 다른 영상과의 시차 정보(parallax) 생성에 이용될 수 있다.If an image of a plurality of frames in the previously input video data exists at a time point similar to a specific time point to be rendered, it can be utilized as it is and used for generating parallax with other images.

그러나, 이러한 방법들은 렌더링하고자 하는 목표 시점들에 대응하는 시차 정보(parallax)가 기존의 입력 비디오 데이터의 각 프레임 영상들 중에서 존재해야만 현실적인 다시점 영상의 생성이 가능하다는 제약이 있다.However, these methods have a limitation that a real multi-view image can be generated only when parallax corresponding to target points to be rendered exists among each frame image of the existing input video data.

따라서, 이러한 제약 때문에 상기 방법에서 이용할 수 있는 입력 비디오 데이터의 범위를 현저히 좁히게 된다.Thus, due to this constraint, the range of input video data available in the method is significantly narrowed.

단순한 예시로써 입력 비디오 데이터의 촬영 시 카메라가 주로 앞 뒤로 움직이는 경우는 좌우 시차 정보가 존재하지 않기 때문에 적용이 불가능하며, 꼭 직진이 아니더라도 렌더링을 원하는 목표 시점들에 인접한 종래의 입력 비디오 데이터의 프레임 영상이 존재하지 않는 경우에도 적용이 어렵다.As a simple example, when the camera moves mainly forward and backward when photographing input video data, it is impossible to apply the present invention because there is no left and right parallax information. Even if it is not necessarily straight, It is difficult to apply it even when it does not exist.

이를 테면, 도 2의 시점(115)를 중심으로 하여, 스테레오스코픽 영상을 렌더링 하는 경우에는, 시점(115)의 왼쪽이나 오른쪽에 적절한 시차 정보(parallax)를 갖는 다른 프레임 영상들, 즉 시점(114)의 프레임 영상이나 시점(116)의 프레임 영상을 활용하여 별도의 3D 모델의 생성이 없이 바로 스테레오스코픽 영상을 제공할 수 있다.For example, in the case of rendering a stereoscopic image centered on the viewpoint 115 of FIG. 2, other frame images having appropriate parallax information on the left or right of the viewpoint 115, that is, And the frame image of the viewpoint 116, it is possible to provide a stereoscopic image directly without generating a separate 3D model.

그러나, 본 도 3에 도시된 바와 같이, 목표 시점들(103 및 301 내지 308)에 대응하는 시차 정보를 갖는 프레임 영상들이 기존의 입력 비디오 데이터에 존재하지 않는 경우에는, 새로운 3D 모델의 생성에 의한 시차 정보의 획득과 영상 렌더링이 필요하다.However, as shown in FIG. 3, when frame images having time difference information corresponding to the target time points 103 and 301 to 308 are not present in the existing input video data, Acquisition of time difference information and image rendering are required.

나아가, 컷(cut)의 제일 왼쪽에서 촬영된 시점(101)의 프레임의 경우, 그보다 왼쪽의 시점에 대응하는 시차 정보는 얻을 수 없다. 마찬가지로 제일 오른쪽에서 촬영된 시점(119)의 경우에도 그보다 오른쪽의 시점에 대응하는 시차 정보는 얻을 수 없다.Further, in the case of the frame at the time 101 photographed at the leftmost end of the cut, parallax information corresponding to the time point to the left of the cut can not be obtained. The time difference information corresponding to the time point on the right side can not be obtained even in the case of the time point 119 at which the image is photographed from the rightmost side.

따라서 본 발명의 일실시예에 따르면, 입력 비디오가 수신되고, 렌더링을 할 멀티 뷰 시점, 즉 목표 시점들이 확정되는 경우, 영상 처리 장치(100)의 모드 결정부는 입력 비디오 데이터의 각 프레임 영상들을 참고하여, 목표 시점들에 대응하는 영상을 렌더링하기 위한 영상 처리 모드를 결정한다.Therefore, according to an embodiment of the present invention, when the input video is received and the multi view viewpoint, i.e., the target viewpoints to be rendered, is determined, the mode determination unit of the image processing apparatus 100 refers to each frame image of the input video data And determines an image processing mode for rendering an image corresponding to the target time points.

상기 모드(mode)는 상술한 두 가지의 경우에 각각 대응한다. 하나는, 목표 시점들과 유사한 시점의 프레임 영상이 이미 기존의 입력 비디오 데이터에 존재하는 것으로 판단되는 경우, 시차 정보가 확보되어 있으므로 별도의 3D 모델의 생성 없이 2D 변환(2D homography)를 이용하여 렌더링 하는 정적 영상 조정 모드이다.The mode corresponds to each of the above-mentioned two cases. One is that when the frame image at the time point similar to the target time points is already present in the existing input video data, since the time difference information is secured, the 2D image is rendered using 2D homography without generating a separate 3D model Is a static image adjustment mode.

그리고 다른 하나는, 도 3에서 도시된 예에서와 같이, 목표 시점들과 유사한 시점의 프레임 영상이 이미 기존의 입력 비디오 데이터에 존재하지 않는 것으로 판단되는 경우, 복수 개의 프레임의 영상을 이용하여 3D 모델을 생성하는 3D 모델링 모드이다.3, when it is determined that a frame image at a time point similar to the target time points does not already exist in the existing input video data, In the 3D modeling mode.

모드 결정부(110)의 상세한 동작은 도 4를 참조하여 후술하고, 모드 결정부(110)가 영상 처리 모드를 3D 모델링 모드로 결정하는 경우 3D 모델 생성부(120)의 상세한 동작은 도 5를 참조하여 후술한다.The detailed operation of the mode determination unit 110 will be described later with reference to FIG. 4. When the mode determination unit 110 determines the image processing mode as the 3D modeling mode, the detailed operation of the 3D model generation unit 120 will be described with reference to FIG. 5 Will be described later.

도 4는 본 발명의 일실시예에 따른 영상 처리 장치의 모드 결정부(110)의 세부 구조를 도시한다.FIG. 4 illustrates a detailed structure of a mode determination unit 110 of an image processing apparatus according to an embodiment of the present invention.

입력 비디오 데이터가 수신되면, 모드 결정부(110)는, 목표 시점들에서의 영상 렌더링을 위해 활용할 영상 처리 모드를 결정한다. 상기 영상 처리 모드는 직접 3D 모델을 생성하여 목표 시점의 영상을 렌더링하는 3D 모델링 모드, 또는 기존의 입력 비디오 프레임의 영상들을 2D 변환(2D homography)하고 적절한 처리를 수행하여 목표 시점 영상을 렌더링하는 정적 영상 조정 모드이다.When the input video data is received, the mode determination unit 110 determines an image processing mode to be utilized for image rendering at the target viewpoints. The image processing mode may be a 3D modeling mode for directly generating a 3D model and rendering an image at a target time point, or a static image processing unit for 2D-homography of an image of an existing input video frame, This is the image adjustment mode.

본 발명의 일실시예에 따르면, 한 번 영상 처리 모드가 결정되면 계속적으로 결정된 모드를 사용할 수도 있으나, 본 발명의 다른 일실시예에 따르면 목표 시점의 특성에 따라 계속적으로 적절한 모드로 변경함으로써, 적응적인 모드 결정을 수행할 수도 있다.According to an embodiment of the present invention, once the image processing mode is determined, a mode determined continuously may be used. However, according to another embodiment of the present invention, 0.0 > mode decision. ≪ / RTI >

본 발명의 일실시예에 따르면, 비디오 데이터가 입력되는 경우, 특징점 추출부(410)는 입력 비디오 데이터의 각 프레임 영상들로부터 특징점을 추출한다.According to an embodiment of the present invention, when video data is input, the feature point extracting unit 410 extracts feature points from each frame image of input video data.

도 6은 본 발명의 일실시예에 따라 3D 모델 생성부가 이용하는 예시적인 복수 개의 프레임의 영상을 도시한다.6 illustrates an image of an exemplary plurality of frames utilized by the 3D model generator in accordance with an embodiment of the present invention.

다시 도 4를 참조하면, 특징점 정합부(420)는 각 프레임의 영상 간의 특징점 정합(matching)을 통해 대응 점 쌍(pairs of corresponding feature points)을 결정한다. 이렇게 각 특징점들을 추출하고 그 대응 관계를 모색하는 과정을 통해, 각 프레임 영상 간의 시점의 모션 추정이 가능하다.Referring again to FIG. 4, the feature point matching unit 420 determines pairs of corresponding feature points through feature point matching between images of respective frames. In this way, motion estimation of the viewpoint between each frame image is possible by extracting each feature point and searching for the correspondence relationship.

이러한 특징점 추출 내지 정합의 과정은, 오브젝트 간의 성긴 3차원 구조 (sparse 3D structure) 를 복원하는 것으로 이해될 수 있다.The process of extracting or matching feature points can be understood as restoring a sparse 3D structure between objects.

도 7은 본 발명의 일실시예에 따라 도 6의 복수 개의 프레임의 영상들로부터 추출되는 특징점들을 도시한다.FIG. 7 illustrates minutiae points extracted from images of a plurality of frames of FIG. 6 according to an embodiment of the present invention.

시점 영상(610)으로부터 특징점 추출한 결과(710)와 시점 영상(620)으로부터 특징점 추출한 결과(720)이 도시되었다.A feature point extraction result 710 from the view point image 610 and a feature point extraction result 720 from the view point image 620 are shown.

추출된 특징점(711 내지 718)은 각각 추출된 특징점(721 내지 728)과 대응쌍을 이루나, 특징점(719) 또는 특징점(729) 등은 대응하는 특징점이 없다.The extracted feature points 711 to 718 correspond to the extracted feature points 721 to 728, but the feature point 719 or the feature point 729 and the like do not have corresponding feature points.

다시 도 4를 참조하면, 시점 추정부(430)는 스트럭쳐 프롬 모션 (structure from motion, SFM) 기법을 통해, 입력 비디오 데이터의 시점이 어떠한 모션 패턴을 가지는지 분석한다.Referring again to FIG. 4, the viewpoint estimating unit 430 analyzes a motion pattern of the viewpoint of the input video data through a structure from motion (SFM) technique.

이러한 모션 패턴의 분석에서는, 카메라 시점의 이동이 수평 방향인지, 수직 방향인지, 또는 줌 인 /줌 아웃과 같은 전후 방향인지 등이 분석된다.In the analysis of the motion pattern, whether the movement of the camera viewpoint is in the horizontal direction, the vertical direction, or the forward / backward direction such as zoom in / zoom out is analyzed.

그러면, 최적화부(440)은 주어진 목표 시점들을 고려하여 영상 처리 모드를 결정한다. 상기한 바와 같이, 최적화부는 입력되는 비디오 데이터의 시점 모션 특징과 렌더링하고자 하는 목표 시점의 특성을 분석하여, 모드 변경이 필요하다고 판단되면 수시로 모드를 변경할 수 있다.Then, the optimizing unit 440 determines the image processing mode considering the given target time points. As described above, the optimizing unit analyzes the viewpoint motion characteristic of the input video data and the characteristic of the target point to be rendered, and may change the mode from time to time when it is determined that the mode change is necessary.

도 5는 본 발명의 일실시예에 따른 영상 처리 장치의 3D 모델 생성부(120)의 세부 구조를 도시한다.FIG. 5 shows a detailed structure of a 3D model generation unit 120 of an image processing apparatus according to an embodiment of the present invention.

상기 모드 결정부(110)가 영상 처리 모드를 3D 모델링 모드로 결정하는 경우, 3D 모델 생성부(120)의 영상 정렬부(510)는 상기 모드 결정 과정에서 반복적으로 복원된 성긴 3차원 구조(sparse 3D structure)를 이용하여, 입력 영상의 재정렬(polar rectification)을 수행할 수 있다.When the mode determining unit 110 determines the image processing mode to be a 3D modeling mode, the image aligning unit 510 of the 3D model generating unit 120 generates a sparse 3D structure that is repeatedly restored in the mode determination process. 3D structure) can be used to perform the polar rectification of the input image.

본 발명의 일실시예에 따르면, 영상 정렬부(510)는, 이러한 영상 정렬 과정에서, M. Pollefeys, R. Koch 및 L. Van Gool의 논문 "A Simple and efficient rectification method for general motion"(ICCV 1999)에 제시된 성긴 3차원 구조와 영상 정렬의 방법 알고리즘을 이용할 수도 있다.According to one embodiment of the present invention, the image arranging unit 510 performs the image sorting process in accordance with M. Pollefeys, R. Koch, and L. Van Gool, "A Simple and efficient rectification method for general motion" 1999), and algorithm of image alignment method can be used.

영상 정합부(520)는 이러한 영상 정렬 결과를 이용하여, 조밀 3차원 구조(dense 3D structure)를 복원하며, 본 발명의 일실시예에 따르면, 이 과정에서 K. J. Yoon 및 I. S. Kweon의 논문 "Locally Adaptive Support-Weight Approach for Visual Correspondence Search"(CVPR 2005) 및/또는 P. F. Felzenzwalb 및 D. P. Huttenlocher의 논문 "Efficient Belief Propagation for Early Vision"(IJCV 2006) 등의 방법이 활용되어, 빠르고 정확한 조밀 3차원 구조가 복원될 수 있다.The image matching unit 520 reconstructs a dense 3D structure using the image alignment result. According to an embodiment of the present invention, in this process, KJ Yoon and IS Kweon's paper entitled "Locally Adaptive The method of "Support-Weight Approach for Visual Correspondence Search" (CVPR 2005) and / or PF Felzenzwalb and DP Huttenlocher's "Efficient Belief Propagation for Early Vision" (IJCV 2006) .

본 발명의 일실시예에 따르면, 조밀 3차원 구조 복원을 위한 대응관계 추정과정에서 영상 정합부(520)는 연산 비용 계산(cost computation), 최적화 과정(optimization, Belief propagation)을 수행한다.According to an embodiment of the present invention, the image matching unit 520 performs cost computation and optimization (Belief propagation) in the process of estimating the correspondence relationship for dense three-dimensional structure restoration.

이 경우, 영상 정합부(520)는 상기 성긴 3차원 구조에서의 대응관계를 사전 획득 정보(prior knowledge)로서 적용하여, 성긴 대응관계(sparse correspondence)가 존재하는 영역의 후보 대응관계(disparity candidates)들 중 성긴 대응관계를 만족하지 않는 후보들에 불이익(penalty)을 줌으로써, 조밀 대응관계 추정 과정의 정확도를 높이고, 최적화 과정의 수렴 속도를 높인다.In this case, the image matching unit 520 applies the correspondence in the sparse three-dimensional structure as prior knowledge so that the disparity candidates of the sparse correspondence exist, The penalty is given to candidates that do not satisfy the sparse correspondence among the candidates, thereby increasing the accuracy of the process of estimating the correspondence relationship and increasing the convergence speed of the optimization process.

한편, 이러한 본 발명의 범위는 이러한 구체적인 예시적 방법들에 한정되어 해석되는 것은 아니며, 청구범위에 기재된 사항에 의해 해석되어야 한다.The scope of the present invention is not to be interpreted as being limited to these specific exemplary methods, but should be construed according to the scope of the claims.

이렇게 영상 정합을 통해 조밀 3차원 구조가 복원되면, 3D 구조 추정부(530)는 3차원 표면 및 텍스처 복원 과정을 수행하며, 3D 모델링부(550)는 이러한 복원 결과를 이용하여 3D 모델을 생성한다. 본 발명의 일실시예에 따르면, 이러한 3D 모델 생성에 있어서 M. Kazhdan, M. Bolitho 및 H. Hoppe의 논문 "Poisson Surface Reconstruction"(Eurographics Symposium on Geometry Processing, 2006)의 방법 등이 활용될 수 있다.When the dense three-dimensional structure is restored through the image matching, the 3D structure estimator 530 performs a 3D surface and texture restoration process, and the 3D modeling unit 550 generates a 3D model using the restoration result . According to one embodiment of the present invention, the method of M. Kazhdan, M. Bolitho and H. Hoppe, "Poisson Surface Reconstruction" (Eurographics Symposium on Geometry Processing, 2006) .

이러한 과정에서, 조밀 3차원 구조 생성이나, 3D 모델 생성 과정에서 필터부(540)가 아웃라이어 제거나 적절한 데이터 필터링을 수행하여, 오차를 줄일 수 있다.In this process, the filter unit 540 removes the outlier or performs appropriate data filtering in the generation of the dense three-dimensional structure or the 3D model, thereby reducing the error.

이렇게 3D 모델이 생성되면, 렌더링부(140)는 3D 모델을 이용하여 목표 시점에서의 영상을 렌더링한다. 이러한 목표 시점들은, 현재 디스플레이 하고자 하는 스테레오스코픽 및/또는 멀티 뷰 영상의 각 시점에 대응한다.When the 3D model is created, the rendering unit 140 renders the image at the target point using the 3D model. These target times correspond to the respective times of the stereoscopic and / or multi-view images to be displayed at present.

본 발명의 일실시예에 따르면, 이 과정에서 렌더링부(140)는 3D 모델의 깊이 정보에 기반하여 목표 시점 영상을 임시로 렌더링하고, 상기 정적 영상 조정 모드에서 처리한 결과인 2차원 변환(2D homography)에 기반한 결과로 또 다른 목표 시점 영상을 임시로 렌더링하여, 이들을 융합하고 불연속성을 제거함으로써, 최적화된 영상을 렌더링 할 수 있다.According to an embodiment of the present invention, the rendering unit 140 temporarily renders the target viewpoint image based on the depth information of the 3D model, and performs a 2D transformation (2D As a result based on homography, another target viewpoint image is temporarily rendered, and the optimized image can be rendered by fusing them and eliminating the discontinuity.

입력 비디오 데이터에서 목표 시점과 충분히 가까운 시점을 가지는 기존 영상이 존재하지 않을 경우 시차 정보의 오차가 커서 3D 모델링 모드를 선택하게 되는데, 이와는 병렬적으로 정적 영상 모드 또한 수행하여, 깊이 불연속성(depth discontinuity)이 존재하는 곳에서 시차 오차를 극복하는 것이다.When there is no existing image having a time point sufficiently close to the target point in the input video data, the error of the parallax information is large, so that the 3D modeling mode is selected. In addition, the static video mode is also performed in parallel, and depth discontinuity Is to overcome the parallax error where it exists.

이 경우, 3D 모델에 의해 검증된 깊이 정보를 사용하기 때문에 목표 시점과 가까운 깊이 정보가 존재하는 곳에서 정확한 시차 정보(parallax)를 계산할 수 있을 뿐만 아니라, 조밀한 대응관계의 초기 추정치(initial dense correspondence)에서 오차가 존재하는 부분들이 제거되어, 목표 시점과 가까운 영상이 존재하지 않는 경우의 시차 정보를 정확하게 계산할 수 있다.In this case, since the depth information verified by the 3D model is used, not only accurate parallax can be calculated where the depth information is close to the target point, but also an initial dense correspondence The parallax information in the case where there is no image close to the target point can be accurately calculated.

또한 본 발명의 다른 일실시예에 따르면, 렌더링부(140)는 소실되는 영역 정보를 줄이기 위해서 기준 영상을 세부분할(over-segmentation)하여 영역별로 공통 깊이 정보를 결정하여 이동시키는 방법 (segment-based image shifting) 또한 이용하라 수 있다.In addition, according to another embodiment of the present invention, the rendering unit 140 performs a segment-based method in which the reference image is over-segmented in order to reduce the lost region information, image shifting can also be used.

상기 렌더링부(140)의 두 가지 실시예는 서로 반대 되는 특성을 가지며, 앞선 실시예를 통해 얻어진 높은 시차 정확도의 영상을 우선 사용하고, 후자의 실시예를 통해 얻어진 영상으로 깊이 정보가 존재하지 않는 영역들에 대한 부분을 보완함으로써 높은 시차 정확도와 완전성을 가지는 가상 시점 영상을 획득할 수 있다. The two embodiments of the rendering unit 140 have characteristics opposite to each other, and the images with high parallax accuracy obtained through the preceding embodiment are used first, and in the image obtained through the latter embodiment, By complementing the parts of the regions, it is possible to obtain virtual viewpoint images with high parallax accuracy and completeness.

한편, 렌더링부(140)가 두 가지의 모드에 의한 결과를 융합하여 정확한 영상을 렌더링 하는 방법에는 여러 가지가 가능하다.Meanwhile, a variety of methods are available for the rendering unit 140 to render an accurate image by merging the results of the two modes.

본 발명의 일 실시예에 따르면, 렌더링부(140)는, A. A. Efros 및 W. T. Freeman의 논문 "Image Quilting for Texture Synthesis and Transfer"(SIGGRAPH 2001)이나 V. Kwatra, A Schodl, I. Essa, G. Turk 및 A. Bobick의 논문 "Graphcut Textures: Image and Video Synthesis Using Graph Cuts"(SIGGRAPH 2003) 등에서 제시된 방법에 따라, 중복 영역을 활용하여 최적의 경계선을 선택하는 방법을 사용할 수도 있다.According to one embodiment of the present invention, the rendering unit 140 may be implemented in a manner similar to that described in AA Efros and WT Freeman, "Image Quilting for Texture Synthesis and Transfer" (SIGGRAPH 2001) or V. Kwatra, A Schodl, I. Essa, G. It is possible to use a method of selecting an optimal boundary line using overlapping regions according to a method disclosed in Turk and A. Bobick's paper entitled " Graphcut Textures: Image and Video Synthesis Using Graph Cuts "(SIGGRAPH 2003).

또한, 본 발명의 다른 일실시예에 따르면, 렌더링부(140)는 3D 모델의 깊이 정보에 기반하여 목표 시점의 임시 영상을 생성하는 과정을 통해 얻어진 영상에서 소실된 부분을 정적인 영상 조정 모드에서 얻어진 목표 시점 임시 영상의 대응되는 위치의 정보로 채우고, 각 영상의 경사도 정보를 활용하여 전체적인 색을 매끄럽게 변환할 수 있다. 이러한 방법은 P. Perez, M. Gangnet 및 A. Blake의 논문 "Poisson Image Editing"(SIGGRAPH 2003)에 제시되어 있다.In addition, according to another embodiment of the present invention, the rendering unit 140 generates a temporary image of the target viewpoint based on the depth information of the 3D model in a static image adjustment mode It is possible to smoothly convert the entire color using the information of the corresponding position of the obtained target temporal temporal image and utilize the inclination information of each image. Such a method is presented in P. Perez, M. Gangnet and A. Blake, "Poisson Image Editing" (SIGGRAPH 2003).

이러한 방법에 의해 렌더링부(140)는 결과 영상의 불연속성을 효과적으로 제거하고, 경계선 부분에서 보다 정확한 시차(parallax)를 가지면서 완전한(complete) 최적의 가상 시점 영상을 생성해낼 수 있다.In this way, the rendering unit 140 effectively removes the discontinuity of the resultant image, and can generate a complete optimal virtual viewpoint image with a more accurate parallax at the boundary line portion.

도 8은 본 발명의 일실시예에 따른 영상 처리 방법을 도시한다.FIG. 8 illustrates an image processing method according to an embodiment of the present invention.

단계(810)에서, 영상 처리 장치(100)의 모드 결정부(110)는 목표 시점의 영상을 렌더링 하기 위한 영상 처리 모드를 결정할 수 있다.In step 810, the mode determination unit 110 of the image processing apparatus 100 may determine an image processing mode for rendering an image at a target point in time.

이 경우 영상 처리 모드는 3D 모델을 생성하는 3D 모델링 모드와 또는 가까운 시점의 기존 입력 영상 프레임을 활용하여 2D 변환(2D homography)를 처리하는 정적 영상 조정 모드일 수 있다.In this case, the image processing mode may be a 3D modeling mode for generating a 3D model, or a static image adjusting mode for processing 2D homography using an existing input image frame at a near point.

한편, 도 7에서 상술한 바와 같이 두 가지 모드가 병렬적으로 수행되어 각각의 단점을 보완하여 영상의 품질을 높이는 것도 가능하며, 이 경우는 두 가지 모드의 병렬 진행(도시 되지 않음)에 대응한다.Meanwhile, as described above with reference to FIG. 7, two modes may be performed in parallel to improve the quality of the image by complementing the respective disadvantages. In this case, the mode corresponds to parallel progression (not shown) of the two modes .

모드 결정부(110)의 동작은 도 2 내지 도 4를 참조하여 상술한 바와 같다.The operation of the mode determination unit 110 is as described above with reference to FIG. 2 to FIG.

모드가 결정되면, 단계(820)에서 3D 모델링 모드에 해당하는 경우 단계(840)의 3D 모델링 모드가 수행되어 3D 모델이 생성된다.If the mode is determined, the 3D modeling mode of step 840 is performed in step 820 to generate a 3D model.

3D 모델링의 생성 과정은 도 3 및 도 5를 참조하여 상술한 바와 같다.The process of generating the 3D modeling is as described above with reference to FIGS.

그리고 정적 영상 조정 모드인 경우, 단계(S830)에서 정적 영상 조정에 의한 2D 변환(2D homography)가 수행된다.In the case of the static image adjustment mode, 2D homography is performed by static image adjustment in step S830.

이 과정에서, 정적 영상 조정부(130)는, 모드 결정부(110)가 추출한 영상들의 특징점을 이용하여 전경과 배경을 분리하고, 핵심영역 추출(salient region extraction)을 수행한다.In this process, the static image adjustment unit 130 separates the foreground and the background using the feature points of the images extracted by the mode determination unit 110, and performs a salient region extraction.

그리고, 정적 영상 조정부(130)는 초점 오차 정보 추출(defocused region extraction), 전경/배경 분리(fore/background separation), 단일 영상 3차원 정보 유추(single-view 3D reconstruction) 등의 기술을 이용하여 각 영상에 3차원 효과가 필요할 후보 영역들을 찾는다.Then, the static image adjustment unit 130 performs a static image adjustment using defocused region extraction, fore / background separation, and single-view 3D reconstruction. Find candidate regions that need 3D effects on the image.

그러면, 정적 영상 조정부(130)는 단일 정적 영상에 기반하여, 추출된 정보들을 바탕으로 적용되어야 할 3차원 효과의 정도 및 가상 3차원 깊이를 결정하여 목표 시점에 맞는 가상 시점 영상을 생성해낸다.Then, the static image adjustment unit 130 determines the degree of the 3D effect and the virtual 3D depth to be applied based on the extracted information based on the single static image, and generates the virtual view image corresponding to the target point.

그리고, 단계(850)에서는 렌더링부(140)가 상기 결과를 이용하여 목표 시점에서의 영상을 렌더링 한다. 이 과정에서 렌더링부(140)의 동작은 도 7을 참조하여 상술한 바와 같다.In step 850, the rendering unit 140 renders the image at the target point using the result. The operation of the rendering unit 140 in this process is as described above with reference to FIG.

본 발명의 일실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to an embodiment of the present invention can be implemented in the form of a program command which can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions recorded on the medium may be those specially designed and constructed for the present invention or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.While the invention has been shown and described with reference to certain preferred embodiments thereof, it will be understood by those of ordinary skill in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims. This is possible.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.Therefore, the scope of the present invention should not be limited to the described embodiments, but should be determined by the equivalents of the claims, as well as the claims.

100: 영상 처리 장치
110: 모드 결정부
120: 3D 모델 생성부
130: 정적 영상 조정부
140: 렌더링부
100: image processing device
110:
120: 3D model generation unit
130: Static image adjustment unit
140:

Claims (14)

입력 비디오 데이터에 포함된 복수 개의 프레임 영상 및 렌더링하고자 하는 목표 시점을 참고하여, 시차 정보를 기준으로 상기 목표 시점과 유사한 시점의 프레임이 상기 복수 개의 프레임 영상에 존재하는지 여부에 따라서 영상 처리 모드를 결정하는 모드 결정부;
상기 영상 처리 모드가 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 3D 모델을 생성하는 제1 모드인 경우, 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 3D 모델을 생성하는 3D 모델 생성부; 및
상기 3D 모델 생성부가 생성한 상기 3D 모델을 이용하여, 상기 목표 시점에서의 입체 영상을 렌더링하는 렌더링부
를 포함하는, 영상 처리 장치.
The image processing mode is determined according to whether a plurality of frame images included in the input video data and a target time point to be rendered exist and a frame at a time point similar to the target time point exists in the plurality of frame images based on the time difference information ;
A 3D model generation unit for generating a 3D model using at least a part of the plurality of frame images when the image processing mode is a first mode for generating a 3D model using at least a part of the plurality of frame images; And
And a rendering unit for rendering a stereoscopic image at the target time point using the 3D model generated by the 3D model generation unit,
And the image processing apparatus.
제1항에 있어서,
상기 영상 처리 모드가 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 2D 변환을 수행하는 제2 모드인 경우, 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 2D 변환을 수행하여 상기 목표 시점에 대응하는 2D 정보를 생성하는 정적 영상 조정부
를 더 포함하는, 영상 처리 장치.
The method according to claim 1,
When the image processing mode is a second mode for performing 2D conversion using at least a part of the plurality of frame images, performing 2D conversion using at least a part of the plurality of frame images to generate 2D A static image adjustment unit
Further comprising:
제1항에 있어서,
상기 모드 결정부는,
상기 복수 개의 프레임 영상의 적어도 일부로부터, 특징점을 추출하는 특징점 추출부;
상기 추출된 특징점을 정합하여 특징점 간의 대응 관계를 분석하는 특징점 정합부;
상기 특징점 간의 대응 관계를 통해 상기 입력 비디오 데이터의 상기 복수 개의 프레임 영상의 각각에 대응하는 시점의 모션 패턴을 분석하는 시점 추정부; 및
상기 모션 패턴 및 상기 목표 시점을 고려하여 상기 영상 처리 모드를 결정하는 최적화부
를 포함하는, 영상 처리 장치.
The method according to claim 1,
Wherein the mode determination unit determines,
A feature point extracting unit that extracts feature points from at least a part of the plurality of frame images;
A feature point matching unit for matching the extracted feature points and analyzing a correspondence relationship between the feature points;
A time estimator for analyzing a motion pattern at a time point corresponding to each of the plurality of frame images of the input video data through a correspondence relationship between the minutiae points; And
An optimization unit for determining the image processing mode in consideration of the motion pattern and the target time point,
And the image processing apparatus.
제3항에 있어서,
상기 시점 추정부는, 스트럭쳐 프롬 모션 (structure from motion, SFM) 기법을 이용하여, 상기 시점의 모션 패턴을 분석하는, 영상 처리 장치.
The method of claim 3,
Wherein the viewpoint estimating unit analyzes a motion pattern of the viewpoint using a structure from motion (SFM) technique.
제1항에 있어서,
상기 3D 모델 생성부는,
상기 영상 처리 모드가 상기 제1 모드인 경우, 상기 모드 결정부가 상기 영상 처리 모드를 결정하는 과정에서 복원되는 성긴 3차원 구조(sparse 3D structure)를 이용하여, 입력 영상의 재정렬(polar rectification)을 수행하는 영상 정렬부;
상기 성긴 3차원 구조를 이용하여 조밀 3차원 구조(dense 3D structure)를 복원하는 영상 정합부;
상기 조밀 3차원 구조를 이용하여, 3차원 표면 및 텍스처를 복원하는 3D 구조 추정부; 및
상기 3차원 표면 및 텍스처를 이용하여 3D 모델을 생성하는 3D 모델링부
를 포함하는, 영상 처리 장치.
The method according to claim 1,
Wherein the 3D model generating unit comprises:
When the image processing mode is the first mode, a polar rectification of an input image is performed using a sparse 3D structure that is restored in the process of determining the image processing mode by the mode determining unit An image alignment unit;
An image matching unit for reconstructing a dense three-dimensional structure using the sparse three-dimensional structure;
A 3D structure estimating unit for restoring a 3D surface and a texture using the dense three-dimensional structure; And
A 3D modeling unit for generating a 3D model using the 3D surface and the texture,
And the image processing apparatus.
삭제delete 제2항에 있어서,
상기 3D 모델 생성부가 생성한 상기 3D 모델 및 2D 변형에 의해 상기 정적 영상 조정부가 생성한 2D 정보를 이용하여, 상기 목표 시점에서의 영상을 렌더링하는 렌더링부
를 더 포함하는, 영상 처리 장치.
3. The method of claim 2,
A rendering unit for rendering the image at the target point using the 3D model generated by the 3D model generating unit and 2D information generated by the static image adjusting unit according to the 2D deformation,
Further comprising:
입력 비디오 데이터에 포함된 복수 개의 프레임 영상 및 렌더링하고자 하는 목표 시점을 참고하여, 시차 정보를 기준으로 상기 목표 시점과 유사한 시점의 프레임이 상기 복수 개의 프레임 영상에 존재하는지 여부에 따라서 영상 처리 모드를 결정하는 모드 결정 단계;
상기 영상 처리 모드가 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 3D 모델을 생성하는 제1 모드인 경우, 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 3D 모델을 생성하는 3D 모델 생성 단계; 및
상기 3D 모델을 이용하여 상기 목표 시점에서의 입체 영상을 렌더링하는 단계
를 포함하는, 영상 처리 방법.
The image processing mode is determined according to whether a plurality of frame images included in the input video data and a target time point to be rendered exist and a frame at a time point similar to the target time point exists in the plurality of frame images based on the time difference information Determining a mode;
A 3D model generation step of generating a 3D model using at least a part of the plurality of frame images when the image processing mode is a first mode for generating a 3D model using at least a part of the plurality of frame images; And
Rendering the stereoscopic image at the target point using the 3D model
And an image processing method.
제8항에 있어서,
상기 영상 처리 모드가 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 2D 변환을 수행하는 제2 모드인 경우, 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 2D 변환을 수행하여 상기 목표 시점에 대응하는 2D 정보를 생성하는 정적 영상 조정 단계
를 더 포함하는, 영상 처리 방법.
9. The method of claim 8,
When the image processing mode is a second mode for performing 2D conversion using at least a part of the plurality of frame images, performing 2D conversion using at least a part of the plurality of frame images to generate 2D Static image adjustment step to generate information
Further comprising the steps of:
제8항에 있어서,
상기 모드 결정 단계는,
상기 복수 개의 프레임 영상의 적어도 일부로부터, 특징점을 추출하는 단계;
상기 추출된 특징점을 정합하여 특징점 간의 대응 관계를 분석하는 단계;
상기 특징점 간의 대응 관계를 통해 상기 입력 비디오 데이터의 상기 복수 개의 프레임 영상의 각각에 대응하는 시점의 모션 패턴을 분석하는 단계; 및
상기 모션 패턴 및 상기 목표 시점을 고려하여 상기 영상 처리 모드를 결정하는 단계
를 포함하는, 영상 처리 방법.
9. The method of claim 8,
Wherein the mode determination step comprises:
Extracting feature points from at least a portion of the plurality of frame images;
Analyzing a correspondence relationship between the minutiae points by matching the extracted minutiae;
Analyzing a motion pattern at a time point corresponding to each of the plurality of frame images of the input video data through correspondence between the minutiae points; And
Determining the image processing mode in consideration of the motion pattern and the target time point
And an image processing method.
제10항에 있어서,
상기 모션 패턴을 분석하는 단계는, 스트럭쳐 프롬 모션 (structure from motion, SFM) 기법을 이용하여, 상기 시점의 모션 패턴을 분석하는, 영상 처리 방법.
11. The method of claim 10,
Wherein analyzing the motion pattern comprises analyzing the motion pattern of the viewpoint using a structure from motion (SFM) technique.
제8항에 있어서,
상기 3D 모델 생성 단계는,
상기 영상 처리 모드가 상기 제1 모드인 경우, 상기 모드 결정 단계의 상기 영상 처리 모드를 결정하는 과정에서 복원되는 성긴 3차원 구조(sparse 3D structure)를 이용하여, 입력 영상의 재정렬(polar rectification)을 수행하는 단계;
상기 성긴 3차원 구조를 이용하여 조밀 3차원 구조(dense 3D structure)를 복원하는 단계;
상기 조밀 3차원 구조를 이용하여, 3차원 표면 및 텍스처를 복원하는 단계; 및
상기 3차원 표면 및 텍스처를 이용하여 3D 모델을 생성하는 단계
를 포함하는, 영상 처리 방법.
9. The method of claim 8,
In the 3D model generation step,
When the image processing mode is the first mode, a polar rectification of the input image is performed using a sparse 3D structure restored in the process of determining the image processing mode of the mode determination step ;
Reconstructing a dense 3D structure using the sparse three-dimensional structure;
Reconstructing a three-dimensional surface and a texture using the dense three-dimensional structure; And
Generating a 3D model using the 3D surface and texture
And an image processing method.
제9항에 있어서,
상기 3D 모델 생성 단계에서 생성한 상기 3D 모델 및 2D 변형에 의해 상기 정적 영상 조정 단계에서 생성된 2D 정보를 이용하여, 상기 목표 시점에서의 영상을 렌더링하는 단계
를 더 포함하는, 영상 처리 방법.
10. The method of claim 9,
Rendering the image at the target point by using the 2D information generated in the static image adjustment step by the 3D model and the 2D transformation generated in the 3D model creation step
Further comprising the steps of:
제8항 내지 제13항 중 어느 한 항의 영상 처리 방법을 수행하는 프로그램을 수록한 컴퓨터 판독 가능 기록 매체.A computer-readable recording medium containing a program for performing the image processing method according to any one of claims 8 to 13.
KR1020100077146A 2010-08-11 2010-08-11 Image processing apparatus and method KR101665049B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100077146A KR101665049B1 (en) 2010-08-11 2010-08-11 Image processing apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100077146A KR101665049B1 (en) 2010-08-11 2010-08-11 Image processing apparatus and method

Publications (2)

Publication Number Publication Date
KR20120014992A KR20120014992A (en) 2012-02-21
KR101665049B1 true KR101665049B1 (en) 2016-10-11

Family

ID=45837857

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100077146A KR101665049B1 (en) 2010-08-11 2010-08-11 Image processing apparatus and method

Country Status (1)

Country Link
KR (1) KR101665049B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10643372B2 (en) 2017-11-22 2020-05-05 Electronics And Telecommunications Research Institute Method for reconstructing three-dimensional information of object and apparatus for the same

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7170441B2 (en) * 2018-07-12 2022-11-14 キヤノン株式会社 Information processing device, information processing method and program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100837776B1 (en) 2001-12-24 2008-06-13 주식회사 케이티 Apparatus and Method for Converting 2D Images to 3D Object
JP2009237845A (en) 2008-03-27 2009-10-15 Sony Corp Information processor, information processing method, and computer program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100837776B1 (en) 2001-12-24 2008-06-13 주식회사 케이티 Apparatus and Method for Converting 2D Images to 3D Object
JP2009237845A (en) 2008-03-27 2009-10-15 Sony Corp Information processor, information processing method, and computer program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10643372B2 (en) 2017-11-22 2020-05-05 Electronics And Telecommunications Research Institute Method for reconstructing three-dimensional information of object and apparatus for the same

Also Published As

Publication number Publication date
KR20120014992A (en) 2012-02-21

Similar Documents

Publication Publication Date Title
US10540773B2 (en) System and method for infinite smoothing of image sequences
US20220058846A1 (en) Artificially rendering images using viewpoint interpolation and extrapolation
Bhat et al. Using photographs to enhance videos of a static scene
EP2033164B1 (en) Methods and systems for converting 2d motion pictures for stereoscopic 3d exhibition
US8878835B2 (en) System and method for using feature tracking techniques for the generation of masks in the conversion of two-dimensional images to three-dimensional images
KR100748719B1 (en) Apparatus and method for 3-dimensional modeling using multiple stereo cameras
KR100793076B1 (en) Edge-adaptive stereo/multi-view image matching apparatus and its method
KR102380862B1 (en) Method and apparatus for image processing
WO2008112802A2 (en) System and method for 2-d to 3-d image conversion using mask to model, or model to mask, conversion
WO2008112762A1 (en) Systems amd methods for depth peeling using stereoscopic variables during the rendering of 2-d to 3-d images
WO2008112790A2 (en) System and method for using feature tracking techniques for the generation of masks in the conversion of two-dimensional images to three-dimensional images
US8599199B2 (en) Stereoscopic image generation method of background terrain scenes, system using the same, and recording medium for the same
Moustakas et al. Stereoscopic video generation based on efficient layered structure and motion estimation from a monoscopic image sequence
CN103049929A (en) Multi-camera dynamic scene 3D (three-dimensional) rebuilding method based on joint optimization
Zhang et al. Refilming with depth-inferred videos
KR101665049B1 (en) Image processing apparatus and method
Lee et al. Automatic 2d-to-3d conversion using multi-scale deep neural network
Crivelli et al. Multi-step flow fusion: Towards accurate and dense correspondences in long video shots
Guillemaut et al. Stereoscopic content production of complex dynamic scenes using a wide-baseline monoscopic camera set-up
dos Anjos et al. A navigation paradigm driven classification for video-based rendering techniques
Patil et al. Review on 2D-to-3D image and video conversion methods
Wu et al. Stereoscopic video conversion based on depth tracking
Kowdle et al. Recovering depth of a dynamic scene using real world motion prior
Moustakas et al. A non causal bayesian framework for object tracking and occlusion handling for the synthesis of stereoscopic video
Liu Improving forward mapping and disocclusion inpainting algorithms for depth-image-based rendering and geomatics applications

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190910

Year of fee payment: 4