KR101692634B1 - 2차원 영상의 3차원 변환 장치 및 방법 - Google Patents

2차원 영상의 3차원 변환 장치 및 방법 Download PDF

Info

Publication number
KR101692634B1
KR101692634B1 KR1020150121772A KR20150121772A KR101692634B1 KR 101692634 B1 KR101692634 B1 KR 101692634B1 KR 1020150121772 A KR1020150121772 A KR 1020150121772A KR 20150121772 A KR20150121772 A KR 20150121772A KR 101692634 B1 KR101692634 B1 KR 101692634B1
Authority
KR
South Korea
Prior art keywords
word
depth
depth gradient
color patches
dictionary
Prior art date
Application number
KR1020150121772A
Other languages
English (en)
Inventor
손광훈
김선옥
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020150121772A priority Critical patent/KR101692634B1/ko
Priority to US15/246,419 priority patent/US10289933B2/en
Application granted granted Critical
Publication of KR101692634B1 publication Critical patent/KR101692634B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/529Depth or shape recovery from texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/257Colour aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/261Image signal generators with monoscopic-to-stereoscopic image conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Processing Or Creating Images (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)

Abstract

2차원 영상의 3차원 변환 장치 및 방법이 개시된다. 개시된 장치는, SIFT 기술자의 형태를 가지는 워드들과 각 워드들에 대응되는 깊이 그래디언트 정보가 기록된 워드-깊이 그래디언트 사전을 저장하는 사전 저장부; 입력 영상으로부터 다수의 컬러 패치를 획득하는 컬러 패치 획득부; 상기 컬러 패치 획득부에서 획득한 컬러 패치들 각각을 SIFT 기술자의 형태로 변환하고 획득한 컬러 패치들의 SIFT 기술자와 상기 워드-깊이 그래디언트 사전의 워드들 중 가장 근접한 워드를 탐색하는 매칭 워드 탐색부; 상기 획득한 컬러 패치 각각에 매칭되는 워드의 깊이 그래디언트 정보를 상기 워드-깊이 그래디언트 사전으로부터 획득하는 매칭 깊이 그래디언트 획득부; 및 상기 획득한 매칭 깊이 그래디언트로부터 상기 획득한 컬러 패치들 각각의 깊이를 연산하고 깊이 맵을 생성하는 깊이 맵 생성부를 포함한다. 개시된 장치 및 방법에 의하면, 빠른 속도 및 비교적 작은 메모리 용량으로 2차원 영상에 대한 3차원 영상 변환이 가능한 장점이 있다.

Description

2차원 영상의 3차원 변환 장치 및 방법{Method and Device for Transforming 2D Image into 3D}
본 발명은 영상 변환 장치에 관한 것으로서, 더욱 상세하게는 2차원 영상을 3차원 영상으로 변환하는 장치 및 방법에 관한 것이다.
통신 및 영상 처리 기술의 발전과 함께 다양한 미디어 컨텐츠가 제작되고 있으며, 3D 컨텐츠도 활발히 제작되고 있다. 3D 컨텐츠는 스테레오 카메라와 같이 영상의 깊이 정보를 알아낼 수 있는 별도의 카메라로 촬영을 하여야 하며, 일반적인 카메라로 촬영된 컨텐츠는 영상의 깊이 정보를 반영하지 않기에 3D의 형태로 디스플레이될 수는 없다.
3D 컨텐츠에 대한 요구가 확대되면서 기존의 2D의 형태로 제작된 컨텐츠에 대해서도 3D로 제공하는 것에 대한 요구가 있으며, 기존의 2D 이미지를 3D 이미지로 변환하는 연구도 계속적으로 진행되었다.
2D 이미지에는 깊이 정보가 반영되어 있지 않기 때문에 깊이 정보를 2D 이미지로부터 추론하여야 하며, 깊이 정보를 추론하기 위해 다양한 연구가 시도되었다.
2D 이미지로부터 깊이 정보를 추론하기 위한 기존의 연구들은 상당한 양의 레퍼런스 영상들을 미리 저장하고 있고 입력된 영상과 비슷한 컬러를 가지는 레퍼런스 영상을 찾아서 깊이 정보를 추론하는 방식이 주로 이용되었다.
이와 같은 종래의 방식은 상당한 수의 레퍼런스 영상을 일일이 분석하여야 하므로 그 처리 속도가 느릴뿐만 아니라 상당한 메모리 용량을 요구하는 문제점이 있었다.
본 발명은 빠른 속도로 2차원 영상에 대한 3차원 영상 변환이 가능한 장치 및 방법을 제공한다.
또한, 본 발명은 비교적 작은 메모리 용량으로 2차원 영상에 대한 3차원 영상 변환이 가능한 장치 및 방법을 제공한다.
본 발명의 일 측면에 따르면, SIFT 기술자의 형태를 가지는 워드들과 각 워드들에 대응되는 깊이 그래디언트 정보가 기록된 워드-깊이 그래디언트 사전을 저장하는 사전 저장부; 입력 영상으로부터 다수의 컬러 패치를 획득하는 컬러 패치 획득부; 상기 컬러 패치 획득부에서 획득한 컬러 패치들 각각을 SIFT 기술자의 형태로 변환하고 획득한 컬러 패치들의 SIFT 기술자와 상기 워드-깊이 그래디언트 사전의 워드들 중 가장 근접한 워드를 탐색하는 매칭 워드 탐색부; 상기 획득한 컬러 패치 각각에 매칭되는 워드의 깊이 그래디언트 정보를 상기 워드-깊이 그래디언트 사전으로부터 획득하는 매칭 깊이 그래디언트 획득부; 및 상기 획득한 매칭 깊이 그래디언트로부터 상기 획득한 컬러 패치들 각각의 깊이를 연산하고 깊이 맵을 생성하는 깊이 맵 생성부를 포함하는 2차원 영상의 3차원 변환 장치가 제공된다.
상기 워드-깊이 그래디언트 사전은 다수의 트레이닝 영상에 대한 트레이닝 과정을 통해 생성된다.
상기 장치는, 상기 입력 영상의 에지 영역을 검출하는 에지 검출부를 더 포함하며, 상기 컬러 패치 획득부는 상기 에지 검출부에서 검출하는 에지 영역에서 상기 컬러 패치들을 획득한다.
상기 워드-깊이 그래디언트 사전의 워드들은 트레이닝 영상들로부터 획득한 컬러 패치들을 SIFT 기술자로 변환한 결과 데이터로부터 선택된다.
상기 워드들은 상기 트레이닝 영상들로부터 획득한 컬러 패치들을 SIFT 기술자로 변환한 결과 데이터에 대한 클러스터링을 수행한 후 각 클러스터로부터 선택된다.
상기 워드들은 상기 각 클러스터의 중앙에 위치한 SIFT 기술자이다.
본 발명의 다른 측면에 따르면, SIFT 기술자의 형태를 가지는 워드들과 각 워드들에 대응되는 깊이 그래디언트 정보가 기록된 워드-깊이 그래디언트 사전을 저장하는 단계(a); 입력 영상으로부터 다수의 컬러 패치를 획득하는 단계(b); 상기 단계(b)에서 획득한 컬러 패치들 각각을 SIFT 기술자의 형태로 변환하고 획득한 컬러 패치들의 SIFT 기술자와 상기 워드-깊이 그래디언트 사전의 워드들 중 가장 근접한 워드를 탐색하는 단계(c); 상기 획득한 컬러 패치 각각에 매칭되는 워드의 깊이 그래디언트 정보를 상기 워드-깊이 그래디언트 사전으로부터 획득하는 단계(d); 및 상기 획득한 매칭 깊이 그래디언트로부터 상기 획득한 컬러 패치들 각각의 깊이를 연산하고 깊이 맵을 생성하는 깊이 맵 생성 단계(e)를 포함하는 2차원 영상의 3차원 변환 방법이 제공된다.
본 발명에 의하면, 빠른 속도 및 비교적 작은 메모리 용량으로 2차원 영상에 대한 3차원 영상 변환이 가능한 장점이 있다.
도 1에 도시된 트레이닝 장치는 2차원 영상의 3차원 영상 변환에 이용할 워드-깊이 그래디언트를 생성하기 위한 장치를 도시한 도면.
도 2는 본 발명의 일 실시예에 따른 트레이닝 과정에서 생성되는 컬러 패치-깊이 그래디언트 패어의 일례를 도시한 도면.
도 3은 본 발명의 일 실시예에 따른 SIFT 기술자로 변환된 컬러 패치들의 클러스터링의 일례를 도시한 도면.
도 4는 본 발명의 일 실시예에 따른 클러스터로부터 대표 컬러 패치를 선정하는 일례를 도시한 도면.
도 5는 본 발명의 일 실시예에 따른 워드-깊이 그래이디언트 사전의 일례를 도시한 도면.
도 6은 본 발명의 일 실시예에 따른 2차원 영상의 3차원 영상 변환 장치의 구조를 도시한 블록도.
도 7은 본 발명의 일 실시예에 따른 2차원 영상의 3차원 변환 방법의 전체적인 흐름을 도시한 순서도.
이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다.
그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다.
또한 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 구비할 수 있다는 것을 의미한다.
이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 본 발명의 일 실시예에 따른 2차원 영상의 3차원 변환을 위해 선행하여 수행하는 트레이닝 과정을 수행하는 트레이닝 장치의 구조를 도시한 블록도이다.
본 발명의 일 실시예에 따른 2차원 영상의 3차원 영상 변환 장치는 트레이닝 과정을 통해 워드-깊이 그래디언트 사전을 생성하며, 생성된 워드-깊이 그래디언트 사전을 이용하여 입력된 2차원 영상으로부터 깊이 맵을 획득하고 이를 이용한 3차원 변환을 수행한다.
도 1에 도시된 트레이닝 장치는 2차원 영상의 3차원 영상 변환에 이용할 워드-깊이 그래디언트를 생성하기 위한 장치를 도시한 도면이며, 트레이닝 장치로는 트레이닝 영상이 입력된다.
다수의 트레이닝 영상이 트레이닝 장치로 입력되며, 다수의 트레이닝 영상으로부터 획득되는 데이터를 이용하여 적절한 신뢰도를 가지는 워드-깊이 그래디언트 사전을 생성한다.
워드-깊이 그래디언트 사전의 자세한 데이터 구조는 도 1에 도시된 트레이닝 장치를 설명하면서 함께 설명하도록 한다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 트레이닝 장치는 에지 검출부(100), 컬러 패치 획득부(102), 깊이 그래디언트 연산부(104), SIFT 기술자 변환부(106), 클러스터링부(108) 및 워드-깊이 그래디언트 사전 생성부(110)를 포함한다.
본 발명의 일 실시예에 따른 트레이닝 장치로는 트레이닝 영상들이 입력되며, 에지 검출부(100)는 입력된 트레이닝 영상으로부터 에지를 검출하는 기능을 한다. 에지 검출은 입력되는 트레이닝 영상별로 이루어진다. 입력되는 트레이닝 영상들은 깊이 정보를 미리 알고 있는 영상들이다.
에지 검출부(100)는 공지된 다양한 방식으로 영상의 경계 영역에 해당되는 에지들을 검출하며, 다양한 에지 검출 방식이 이미 공지되어 있기에 에지 검출을 위한 상세한 방법은 본 명세서에는 기술하지 않으며 어떠한 에지 검출 방식을 사용하여도 무방하다.
컬러 패치 획득부(102)는 에지 검출부(100)의 에지 정보에 기초하여 입력된 트레이닝 영상으로부터 컬러 패치를 획득한다. 컬러 패치는 입력된 트레이닝 영상에서 작은 영역을 차지하는 패치로서 컬러 패치의 사이즈는 미리 설정된다.
컬러 패치(102)는 입력 영상 중 에지가 형성되는 영역에서 획득되며, 에지가 형성되는 영역을 알아내기 위해 에지 검출부(100)에서 검출되는 에지 정보가 이용된다.
하나의 입력 영상으로부터 획득되는 컬러 패치의 수는 미리 정해질 수도 있으며, 컬러 패치의 수를 미리 설정하지 않고 검출되는 에지의 양에 기초하여 유동적으로 조절될 수도 있을 것이다.
깊이 그래디언트 연산부(104)는 트레이닝 영상들로부터 획득되는 컬러 패치의 깊이 그래디언트(Depth Gradient)를 연산한다.
트레이닝 영상들의 깊이 정보는 이미 알고 있는 정보이며, 알고 있는 깊이 정보를 이용하여 깊이의 변화량인 깊이 그래디언트를 각 패치별로 연산한다. 깊이 그래디언트는 깊이의 변화량으로서 획득된 컬러 패치를 통해 에지 영역에서의 깊이 변화를 연산하는 것이다. 깊이 그래디언트의 연산은 일반적인 연산이므로 상세한 깊이 그래디언트 연산 방법은 본 명세서에서는 생략하기로 한다.
깊이 그래디언트 연산부(104)는 컬러 패치 획득부(102)에서 획득된 컬러 패치별로 깊이 그래디언트 연산을 수행하여 최종적으로 각 컬러 패치별 깊이 그래디언트 패어 정보를 생성하게 된다.
도 2는 본 발명의 일 실시예에 따른 트레이닝 과정에서 생성되는 컬러 패치-깊이 그래디언트 패어의 일례를 도시한 도면이다.
도 2를 참조하면, 컬러 패치(200)와 각 컬러 패치의 깊이 그래디언트 연산 결과(210) 패어가 도시되어 있다. 컬러 패치(200) 및 이에 대응되는 깊이 그래디언트 연산 결과(210)는 트레이닝 장치의 저장부(미도시)에 일시적으로 저장되어 워드-깊이 그래디언트 사전을 생성하는데 이용된다.
SIFT(Scale Invariant Feature Transform) 기술자(Descriptor) 변환부(106)는 컬러 패치(200)를 SIFT 기술자로 변환한다. SIFT는 공지된 영상 변환 방법의 하나로서, SIFT 기술자는 컬러 패치(200)에 대한 SIFT 변환을 수행한 결과 데이터를 의미한다.
컬러 패치를 SIFT 기술자의 형태로 변환하는 것은 컬러 패치들에 대한 클러스터링을 수행하기 위해서이다. 컬러 패치(200) 자체만으로는 그 유사성을 연산하거나 유사성에 기초한 클러스터링이 이루어지기 어렵다. 따라서, 본 발명에서는 컬러 패치를 SIFT 기술자로 변환하는 것이다. 물론 당업자라면 SIFT 기술자가 아닌 클러스터링이 가능한 다른 기술자의 형태로 변환할 수 있다는 점을 용이하게 이해할 수 있을 것이다.
클러스터링부(108)는 SIFT 기술자로 변환된 컬러 패치들에 대한 클러스터링을 수행한다. 여기서, 클러스터링은 SIFT 기술자로 변환된 컬러 패치들을 다수의 클러스터로 그룹핑하는 것을 의미한다. 예를 들어, 다수의 컬러 패치들은 제1 클러스터, 제2 클러스터와 같이 다수의 클러스터로 그룹핑된다.
도 3은 본 발명의 일 실시예에 따른 SIFT 기술자로 변환된 컬러 패치들의 클러스터링의 일례를 도시한 도면이다.
도 3을 참조하면, SIFT 기술자 공간에 SIFT 기술자로 변환된 컬러 패치들을 나열한 것이다. 도 3에는 2차원에 공간에 SIFT 기술자들이 나열된 것으로 도시되어 있으나 이는 예시를 위한 것이며, 실제의 SIFT 기술자는 2차원이 아닌 다차원의 데이터이다.
클러스터링은 SIFT 공간의 SIFT 기술자들 중 인접한 SIFT 기술자들끼리 하나의 클러스터를 형성한다.
도 3을 참조하면, 제1 공간에 나열되는 제1 클러스터(300)와 제2 공간에 나열되는 제2 클러스터(310)가 도시되어 있다.
인접한 공간에 위치하는 SIFT 기술자들간의 클러스터링이 이루어지면 클러스터링 정보는 별도의 저장부에 저장된다.
워드-깊이 그래디언트 사전 생성부(110)는 클러스터링부(108)에 의해 형성된 다수의 클러스터들을 이용하여 2차원-3차원 변환에 사용될 워드- 깊이 그래디언트 사전을 생성한다.
워드-깊이 그래디언트 사전에서 워드는 트레이닝 과정에서 생성되는 각 클러스터에 포함된 컬러 패치(SIFT 기술자의 형태로 변환된 컬러 패치)들 중 대표 컬러 패치로 선택된 컬러 패치를 의미한다.
워드-깊이 그래디언트 사전 생성부(110)는 각각의 클러스터에 포함된 컬러 패치(SIFT 기술자의 형태로 변환된 컬러 패치)들 중 대표 컬러 패치를 선택한다.
본 발명의 바람직한 실시예에 따르면, K-means 클러스터링을 통해 클러스터의 중심에 위치하는 컬러 패치를 대표 컬러 패치로 선정한다.
일례로, 클러스터에 포함된 다수의 컬러 패치(SIFT 기술자의 형태로 변환된 컬러 패치) 중 다음의 수학식을 최소화하는 방식으로 대표 컬러 패치를 선택할 수 있을 것이다.
Figure 112015083794494-pat00001
위 수학식 1에서, K는 클러스터의 수이고, f는 i번째 클러스터 Ci에 속한 SIFT 기술자들(컬러 패치들)을 의미하고, ui는 대표 컬러 패치(생성되는 워드-깊이 그래디언트 사전에서의 하나의 워드가 됨)를 의미한다.
도 4는 본 발명의 일 실시예에 따른 클러스터로부터 대표 컬러 패치를 선정하는 일례를 도시한 도면이다.
도 4를 참조하면, 다수의 컬러 패치들 중 중앙부에 위치한 컬러 패치를 대표 컬러 패치로 선택하는 예가 도시되어 있다.
각 클러스터에서 선정된 대표 컬러 패치(워드)에 대응되는 깊이 그래디언트는 클러스터에 포함된 모든 깊이 그래디언트의 평균을 이용하여 구한다. 즉, 특정 클러스터에 포함된 모든 깊이 그래디언트들의 평균을 연산하고 연산된 평균을 SIFT 기술자의 형태로 변환된 대표 컬러 패치(워드)에 대응되는 깊이 그래디언트로 확정하는 것이다.
이와 같은 대표 컬러 패치의 선정을 통한 워드 결정 작업 및 이에 대응되는 깊이 그래디언트 연산 작업은 각 클러스터별로 이루어진다.
워드-깊이 그래디언트 사전은 클러스터별 대표 컬러 패치(워드)와 이에 대응되는 깊이 그래디언트 패어로 이루어지며, 워드-깊이 그래디언트 사전은 다음의 수학식 2와 같이 표현될 수 있다.
Figure 112015083794494-pat00002
위 수학식 2에서, ui는 i번째 클러스터의 대표 컬러 패치(워드)를 의미하고, vi는 i번째 클러스터의 깊이 그래디언트를 의미하며, K는 클러스터의 개수를 의미한다.
도 5는 본 발명의 일 실시예에 따른 워드-깊이 그래이디언트 사전의 일례를 도시한 도면이다.
도 5를 참조하면, 대표 컬러 패치(워드, 500)와 이에 대응되는 깊이 그래디언트(510)가 도시되어 있으며, 이와 같은 컬러 패치와 깊이 그래디언트 패어로 이루어지는 사전을 이용하여 2차원 영상을 3차원 영상으로 변환한다.
도 6은 본 발명의 일 실시예에 따른 2차원 영상의 3차원 영상 변환 장치의 구조를 도시한 블록도이다.
도 6을 참조하면, 본 발명의 일 실시예에 따른 2차원 영상의 3차원 영상 변환 장치는, 에지 검출부(600), 컬러 패치 획득부(602), 매칭 워드 탐색부(604), 매칭 깊이 그래디언트 획득부(606) 및 깊이 맵 연산부(608)를 포함한다.
본 발명의 일 실시예에 따른 2차원 영상의 3차원 영상 변환 장치로는 깊이 정보가 알려지지 않은 입력 영상이 입력되며, 에지 검출부(600)는 입력 영상의 에지를 검출한다.
컬러 패치 획득부(602)는 에지 검출부(600)에 의해 검출된 에지 영역으로부터 컬러 패치를 획득한다. 컬러 패치의 사이즈는 미리 가지고 있는 워드-깊이 그래디언트 사전에서 워드에 상응하는 컬러 패치 사이즈와 동일하다.
컬러 패치 획득부(602)는 깊이 정보를 정하고자 하는 모든 에지 영역으로부터 컬러 패치를 획득한다.
컬러 패치 획득부(602)로부터 컬러 패치가 획득되면, 매칭 워드 탐색부(604)는 획득된 컬러 패치에 대응되는 워드를 미리 저장되어 있는 워드-깊이 그래디언트 사전으로부터 탐색하며, 컬러 패치에 가장 근접하게 매칭되는 워드를 탐색한다.
매칭 워드를 탐색하기 위해 획득된 컬러 패치를 SIFT 기술자로 변환한다. 획득한 컬러 패치를 변환한 SIFT 기술자와 워드-깊이 그래디언트 사전의 워드들의 유사도가 비교되며, 가장 유사한 워드를 획득한 컬러 패치에 대응되는 워드로 판단한다.
획득된 컬러 패치와 매칭되는 워드는 다음의 수학식 3과 같이 표현될 수 있을 것이다.
Figure 112015083794494-pat00003
위 수학식 3에서 fp는 획득된 컬러 패치를 SIFT 기술자로 변환한 값이며 ui는 워드-깊이 그래디언트 사전의 워드이며, k는 사전으로부터 컬러 패치와 매칭되어 선택된 워드이다.
획득된 컬러 패치로부터 매칭되는 워드를 탐색하는 작업은 획득한 모든 컬러 패치에 대해 이루어진다.
매칭 깊이 그래디언트 획득부(606)는 선택된 워드와 연관된 깊이 그래디언트를 사전으로부터 독출하여 획득한다.
깊이 맵 연산부(608) 획득된 컬러 패치에 대응되는 깊이 그래디언트를 이용하여 각 컬러 패치의 깊이를 연산하고 각 컬러 패치에 대해 연산한 깊이 정보를 이용하여 입력 영상의 깊이 맵을 연산한다.
본 발명의 일 실시예에 따르면, 포아송 솔버(Poisson Solver)와 포스트 프로세싱을 이용하여 깊이 맵을 연산할 수 있을 것이다.
이와 같은 본 발명의 워드-깊이 그래디언트 사전을 이용한 2차원 영상의 3차원 영상 변환은 기존의 데이터 기반 접근 방식에 비해 매우 적은 양의 데이터로 2차원 영상을 3차원 영상으로 변환할 수 있는 장점이 있다.
또한, 에지 영역에 대해서만 컬러 패치를 획득하여 깊이 정보를 연산하고 에지가 전체 이미지에서 차지하는 영역은 많지 않기 때문에 보다 빠른 속도로 영상 변환을 수행할 수 있다.
도 7은 본 발명의 일 실시예에 따른 2차원 영상의 3차원 변환 방법의 전체적인 흐름을 도시한 순서도이다.
도 7을 참조하면, 우선 입력 영상으로부터 에지를 검출한다(단계 700).
에지 검출이 이루어지면, 검출된 에지 영역으로부터 컬러 패치를 획득한다(단계 702). 컬러 패치는 전체적인 에지 영역으로부터 획득되며, 에지 영역이 아닌 곳에서는 컬러 패치를 획득하지 않는다. 획득하는 컬러 패치의 수는 에지 영역의 사이즈에 기초하여 정해질 수 있을 것이다.
컬러 패치들이 입력 영상으로부터 획득되면, 획득한 각 컬러 패치를 SIFT 기술자로 변환한다(단계 704).
컬러 패치를 SIFT 기술자의 형태로 변환하면, SIFT 기술자의 형태로 변환된 컬러 패치와 매칭되는 워드를 워드-깊이 그래디언트 사전으로부터 탐색한다(단계 706).
워드 역시 SIFT 기술자의 형태를 가지므로 일반적인 차 연산을 통해 컬러 패치에 가장 근접하는 워드를 탐색한다.
획득된 컬러 패치에 매칭되는 워드가 탐색되면 워드-깊이 그래디언트 사전으로부터 탐색된 워드에 상응하는 깊이 그래디언트를 독출하고, 독출된 깊이 그래디언트를 획득한 컬러 패치에 상응하는 깊이 그래디언트로 판단한다(단계 708).
획득한 컬러 패치들에 대한 깊이 그래디언트가 각각 획득되면, 깊이 그래디언트를 이용하여 각 컬러 패치의 깊이 정보를 연산하며, 각 컬러 패치의 깊이 정보에 기초하여 입력 영상의 깊이 맵을 생성한다. 생성된 깊이 맵을 이용하여 입력된 2차원 영상을 3차원 영상으로 변환한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다.
그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (11)

  1. SIFT 기술자의 형태를 가지는 워드들과 각 워드들에 대응되는 깊이 그래디언트 정보가 기록된 워드-깊이 그래디언트 사전을 저장하는 사전 저장부;
    입력 영상으로부터 다수의 컬러 패치를 획득하는 컬러 패치 획득부;
    상기 컬러 패치 획득부에서 획득한 컬러 패치들 각각을 SIFT 기술자의 형태로 변환하고 획득한 컬러 패치들의 SIFT 기술자와 상기 워드-깊이 그래디언트 사전의 워드들 중 가장 근접한 워드를 탐색하는 매칭 워드 탐색부;
    상기 획득한 컬러 패치 각각에 매칭되는 워드의 깊이 그래디언트 정보를 상기 워드-깊이 그래디언트 사전으로부터 획득하는 매칭 깊이 그래디언트 획득부;
    상기 획득한 매칭 깊이 그래디언트로부터 상기 획득한 컬러 패치들 각각의 깊이를 연산하고 깊이 맵을 생성하는 깊이 맵 생성부; 및
    상기 입력 영상의 에지 영역을 검출하는 에지 검출부를 더 포함하되, 상기 컬러 패치 획득부는 상기 에지 검출부에서 검출하는 에지 영역에서 상기 컬러 패치들을 획득하는 것을 특징으로 하는 2차원 영상의 3차원 변환 장치.
  2. 제1항에 있어서,
    상기 워드-깊이 그래디언트 사전은 다수의 트레이닝 영상에 대한 트레이닝 과정을 통해 생성되는 것을 특징으로 하는 2차원 영상의 3차원 변환 장치.
  3. 삭제
  4. 제1항에 있어서,
    상기 워드-깊이 그래디언트 사전의 워드들은 트레이닝 영상들로부터 획득한 컬러 패치들을 SIFT 기술자로 변환한 결과 데이터로부터 선택되는 것을 특징으로 하는 2차원 영상의 3차원 변환 장치.
  5. 제4항에 있어서,
    상기 워드들은 상기 트레이닝 영상들로부터 획득한 컬러 패치들을 SIFT 기술자로 변환한 결과 데이터에 대한 클러스터링을 수행한 후 각 클러스터로부터 선택되는 것을 특징으로 하는 2차원 영상의 3차원 변환 장치.
  6. 제5항에 있어서,
    상기 워드들은 상기 각 클러스터의 중앙에 위치한 SIFT 기술자인 것을 특징으로 하는 2차원 영상의 3차원 변환 장치.
  7. SIFT 기술자의 형태를 가지는 워드들과 각 워드들에 대응되는 깊이 그래디언트 정보가 기록된 워드-깊이 그래디언트 사전을 저장하는 단계(a);
    입력 영상으로부터 다수의 컬러 패치를 획득하는 단계(b);
    상기 단계(b)에서 획득한 컬러 패치들 각각을 SIFT 기술자의 형태로 변환하고 획득한 컬러 패치들의 SIFT 기술자와 상기 워드-깊이 그래디언트 사전의 워드들 중 가장 근접한 워드를 탐색하는 단계(c);
    상기 획득한 컬러 패치 각각에 매칭되는 워드의 깊이 그래디언트 정보를 상기 워드-깊이 그래디언트 사전으로부터 획득하는 단계(d); 및
    상기 획득한 매칭 깊이 그래디언트로부터 상기 획득한 컬러 패치들 각각의 깊이를 연산하고 깊이 맵을 생성하는 깊이 맵 생성 단계(e)를 포함하되,
    상기 입력 영상의 에지 영역을 검출하는 에지 검출 단계를 더 포함하며, 상기 단계(b)는 상기 에지 검출 단계에서 검출하는 에지 영역에서 상기 컬러 패치들을 획득하는 것을 특징으로 하는 2차원 영상의 3차원 변환 방법.
  8. 제7항에 있어서,
    상기 워드-깊이 그래디언트 사전은 다수의 트레이닝 영상에 대한 트레이닝 과정을 통해 생성되는 것을 특징으로 하는 2차원 영상의 3차원 변환 방법.
  9. 삭제
  10. 제8항에 있어서,
    상기 워드들은 상기 트레이닝 영상들로부터 획득한 컬러 패치들을 SIFT 기술자로 변환한 결과 데이터에 대한 클러스터링을 수행한 후 각 클러스터로부터 선택되는 것을 특징으로 하는 2차원 영상의 3차원 변환 방법.
  11. 제10항에 있어서,
    상기 워드들은 상기 각 클러스터의 중앙에 위치한 SIFT 기술자인 것을 특징으로 하는 2차원 영상의 3차원 변환 방법.







KR1020150121772A 2015-08-28 2015-08-28 2차원 영상의 3차원 변환 장치 및 방법 KR101692634B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020150121772A KR101692634B1 (ko) 2015-08-28 2015-08-28 2차원 영상의 3차원 변환 장치 및 방법
US15/246,419 US10289933B2 (en) 2015-08-28 2016-08-24 Method and device for transforming 2D image into 3D

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150121772A KR101692634B1 (ko) 2015-08-28 2015-08-28 2차원 영상의 3차원 변환 장치 및 방법

Publications (1)

Publication Number Publication Date
KR101692634B1 true KR101692634B1 (ko) 2017-01-03

Family

ID=57797428

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150121772A KR101692634B1 (ko) 2015-08-28 2015-08-28 2차원 영상의 3차원 변환 장치 및 방법

Country Status (2)

Country Link
US (1) US10289933B2 (ko)
KR (1) KR101692634B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101692634B1 (ko) * 2015-08-28 2017-01-03 연세대학교 산학협력단 2차원 영상의 3차원 변환 장치 및 방법
CN107154029A (zh) * 2017-05-08 2017-09-12 聚龙智瞳科技有限公司 用于低照度图像处理的方法及装置
WO2019138163A1 (en) * 2018-01-15 2019-07-18 Nokia Technologies Oy A method and technical equipment for encoding and decoding volumetric video

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150063681A1 (en) * 2013-09-05 2015-03-05 Ebay Inc. Estimating depth from a single image

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8054170B1 (en) * 2008-09-30 2011-11-08 Adobe Systems Incorporated Characterizing and representing images
EP3364341A1 (en) * 2014-06-16 2018-08-22 Siemens Healthcare Diagnostics Inc. Analyzing digital holographic microscopy data for hematology applications
KR101692634B1 (ko) * 2015-08-28 2017-01-03 연세대학교 산학협력단 2차원 영상의 3차원 변환 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150063681A1 (en) * 2013-09-05 2015-03-05 Ebay Inc. Estimating depth from a single image

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SIFT Bag of Word를 이용한 이미지 카테고리 분류, 2013년 한국컴퓨터종합학술대회 논문집(2013)* *
가중치 기반 Bag-of-Feature와 앙상블 결정 트리를 이용한 정지 영상에서의 인간 행동 인식, 한국통신학회, 한국통신학회논문지 제38권1호(2013)* *

Also Published As

Publication number Publication date
US20170061247A1 (en) 2017-03-02
US10289933B2 (en) 2019-05-14

Similar Documents

Publication Publication Date Title
Turcot et al. Better matching with fewer features: The selection of useful features in large database recognition problems
Agarwal et al. Building rome in a day
US8712156B2 (en) Comparison of visual information
US8712154B2 (en) Image processing system and method
JP2020513124A (ja) 仮想3次元深層ニューラルネットワークを利用する画像解析装置及び方法
US9165217B2 (en) Techniques for ground-level photo geolocation using digital elevation
JP6211407B2 (ja) 画像検索システム、画像検索装置、検索サーバ装置、画像検索方法、及び画像検索プログラム
CN110413816B (zh) 彩色草图图像搜索
CN110516096A (zh) 合成感知数字图像搜索
US20120117122A1 (en) Optimized KD-Tree for Scalable Search
US20180352213A1 (en) Learning-based matching for active stereo systems
US9817845B2 (en) Three-dimensional image file searching method and three-dimensional image file searching system
JP7430243B2 (ja) 視覚的測位方法及び関連装置
KR101977231B1 (ko) 커뮤니티 검출 방법 및 커뮤니티 검출 프레임워크 장치
KR101692634B1 (ko) 2차원 영상의 3차원 변환 장치 및 방법
CN110956213A (zh) 遥感影像特征库生成、遥感影像检索方法及装置
Pratikakis et al. SHREC’16 track: Partial shape queries for 3d object retrieval
CN114298997B (zh) 一种伪造图片检测方法、装置及存储介质
JP2017010549A (ja) ライトフィールドデータベースでのデータ取り出しのための方法及び装置
Bhattacharjee et al. Query adaptive multiview object instance search and localization using sketches
JP6598480B2 (ja) 画像処理装置、画像処理方法及びプログラム
Su et al. 3d-assisted image feature synthesis for novel views of an object
Salarian et al. Improved image-based localization using SFM and modified coordinate system transfer
JP2006260311A (ja) マッチング方法およびマッチング装置ならびにプログラム
CN106469460B (zh) 马赛克图像生成的方法和装置及电子设备

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20191209

Year of fee payment: 4