KR20120014992A - 영상 처리 장치 및 방법 - Google Patents

영상 처리 장치 및 방법 Download PDF

Info

Publication number
KR20120014992A
KR20120014992A KR1020100077146A KR20100077146A KR20120014992A KR 20120014992 A KR20120014992 A KR 20120014992A KR 1020100077146 A KR1020100077146 A KR 1020100077146A KR 20100077146 A KR20100077146 A KR 20100077146A KR 20120014992 A KR20120014992 A KR 20120014992A
Authority
KR
South Korea
Prior art keywords
image processing
image
mode
model
frame images
Prior art date
Application number
KR1020100077146A
Other languages
English (en)
Other versions
KR101665049B1 (ko
Inventor
임화섭
이기창
최욱
정예근
권인소
정지영
Original Assignee
삼성전자주식회사
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 한국과학기술원 filed Critical 삼성전자주식회사
Priority to KR1020100077146A priority Critical patent/KR101665049B1/ko
Publication of KR20120014992A publication Critical patent/KR20120014992A/ko
Application granted granted Critical
Publication of KR101665049B1 publication Critical patent/KR101665049B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/158Switching image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/356Image reproducers having separate monoscopic and stereoscopic modes

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

영상 처리 장치가 제공된다. 영상 처리 장치는 입력 비디오 데이터에 포함된 복수 개의 프레임 영상 및 렌더링하고자 하는 목표 시점을 참고하여, 영상 처리 모드를 결정한다. 상기 영상 처리 모드가 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 3D 모델을 생성하는 제1 모드인 경우, 영상 처리 장치는 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 3D 모델을 생성한다. 그리고, 상기 영상 처리 모드가 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 2D 변환을 수행하는 제2 모드인 경우, 상기 영상 처리 장치는 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 2D 변환을 수행한다.

Description

영상 처리 장치 및 방법{IMAGE PROCESSING APPARATUS AND METHOD}
입력되는 비디오 프레임들로부터 임의의 목표 시점에서의 스테레오스코픽 및/또는 멀티 뷰 영상을 렌더링하는 영상 처리 장치 및 방법에 연관되며, 보다 특정하게는, 선택적으로 영상 합성을 이용하여 3D 모델을 생성하거나, 목표 시점에 인접한 2D 영상 프레임을 이용하여 멀티 뷰 영상을 생성하는 영상 처리 장치 및 방법에 연관된다.
최근 3D(3 Dimensional) 영상에 대한 관심이 높아지고 있다. 그런데, 종래에는 3D 카메라 세트에 의해 제작되거나, 또는 3D 모델의 렌더링에 의해 제작되지 않은 2D 비디오 데이터들이 존재한다.
이 경우, 모델링된 3D 오브젝트 정보를 가지고 있지 않거나, 3D 영상으로 제작되지 않은 기존의 영상들을 이용하여, 3D 효과를 줄 수 있는 영상 처리의 품질을 향상시킨다면, 3D 영상의 시장의 보급이 더 빠를 수 있다.
따라서, 서로 다른 시점에서 촬영된 복수 개의 입력 2D 영상으로부터, 임의의 시점에서의 영상을 생성하여 스테레오스코픽(stereoscopic) 또는 멀티 뷰(multi view) 영상을 생성하는 분야에 대한 관심이 높아지고 있다.
복수 개의 프레임의 영상을 포함하는 비디오 데이터를 입력 받아, 3D 모델을 생성하고, 이를 이용하여 임의의 시점에서의 스테레오스코픽 영상 및/또는 멀티 뷰 영상을 생성하는 영상 처리 장치 및 방법이 제공된다.
또한, 입력된 비디오 데이터에 포함된 복수 개의 프레임의 영상 중, 적어도 일부를 상기 스테레오스코픽 영상 및/또는 멀티 뷰 영상의 생성에 재활용할 수 있는 영상 처리 장치 및 방법이 제공된다.
본 발명의 일측에 따르면, 입력 비디오 데이터에 포함된 복수 개의 프레임 영상 및 렌더링하고자 하는 목표 시점을 참고하여, 영상 처리 모드를 결정하는 모드 결정부, 상기 영상 처리 모드가 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 3D 모델을 생성하는 제1 모드인 경우, 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 3D 모델을 생성하는 3D 모델 생성부를 포함하는, 영상 처리 장치가 제공된다.
본 발명의 일실시예에 따르면, 상기 영상 처리 장치는, 상기 영상 처리 모드가 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 2D 변환을 수행하는 제2 모드인 경우, 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 2D 변환을 수행하여 상기 목표 시점에 대응하는 2D 정보를 생성하는 정적 영상 조정부를 더 포함한다.
한편, 상기 모드 결정부는, 상기 복수 개의 프레임 영상의 적어도 일부로부터, 특징점을 추출하는 특징점 추출부, 상기 추출된 특징점을 정합하여 특징점 간의 대응 관계를 분석하는 특징점 정합부, 상기 특징점 간의 대응 관계를 통해 상기 입력 비디오 데이터의 상기 복수 개의 프레임 영상의 각각에 대응하는 시점의 모션 패턴을 분석하는 시점 추정부, 및 상기 모션 패턴 및 상기 목표 시점을 고려하여 상기 영상 처리 모드를 결정하는 최적화부를 포함할 수 있다.
이 경우, 상기 시점 추정부는, 스트럭쳐 프롬 모션 (structure from motion, SFM) 기법을 이용하여, 상기 시점의 모션 패턴을 분석할 수 있다.
한편, 상기 3D 모델 생성부는, 상기 영상 처리 모드가 상기 제1 모드인 경우, 상기 모드 결정부가 상기 영상 처리 모드를 결정하는 과정에서 복원되는 성긴 3차원 구조(sparse 3D structure)를 이용하여, 입력 영상의 재정렬(polar rectification)을 수행하는 영상 정렬부, 상기 성긴 3차원 구조를 이용하여 조밀 3차원 구조(dense 3D structure)를 복원하는 영상 정합부, 상기 조밀 3차원 구조를 이용하여, 3차원 표면 및 텍스처를 복원하는 3D 구조 추정부, 및 상기 3차원 표면 및 텍스처를 이용하여 3D 모델을 생성하는 3D 모델링부를 포함할 수 있다.
본 발명의 일실시예에 따르면, 상기 영상 처리 장치는 상기 3D 모델링부가 생성한 상기 3D 모델을 이용하여, 상기 목표 시점에서의 영상을 렌더링하는 렌더링부를 더 포함한다.
본 발명의 다른 일실시예에 따르면, 상기 영상 처리 장치는 상기 3D 모델링부가 생성한 상기 3D 모델 및 2D 변형에 의해 상기 정적 영상 조정부가 생성한 2D 정보를 이용하여, 상기 목표 시점에서의 영상을 렌더링하는 렌더링부를 더 포함한다.
본 발명의 다른 일측에 따르면, 입력 비디오 데이터에 포함된 복수 개의 프레임 영상 및 렌더링하고자 하는 목표 시점을 참고하여, 영상 처리 모드를 결정하는 모드 결정 단계, 상기 영상 처리 모드가 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 3D 모델을 생성하는 제1 모드인 경우, 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 3D 모델을 생성하는 3D 모델 생성 단계, 및 상기 3D 모델을 이용하여 상기 목표 시점의 영상을 렌더링하는 단계를 포함하는, 영상 처리 방법이 제공된다.
3D 모델의 정보가 주어지지 않은 경우라도, 복수 개의 프레임의 영상을 포함하는 비디오 데이터를 통해 3D 모델의 빠른 생성이 가능하다.
또한, 생성된 3D 모델을 이용하여 임의의 시점에서의 스테레오스코픽 영상 및/또는 멀티 뷰 영상을 효율적으로 생성한다.
나아가, 입력된 비디오 데이터에 포함된 복수 개의 프레임의 영상 중, 적어도 일부를 상기 스테레오스코픽 영상 및/또는 멀티 뷰 영상의 생성에 활용하여 영상 처리 속도가 향상되어, 실시간 실감 3D 영상을 제공할 수 있다.
프로세서의 입장에서는, 계산의 복잡도가 줄어들고 병렬연산이 가능하여 최종 3차원 모델을 보다 빠르게 생성할 수 있다.
도 1은 본 발명의 일실시예에 따른 영상 처리 장치를 도시한다.
도 2는 본 발명의 일실시예에 따라 영상 처리 장치에 입력되는 예시적인 비디오 프레임들을 설명하기 위한 개념도이다.
도 3은 본 발명의 일실시예에 따라 생성하고자 하는 멀티 뷰 영상의 시점을 도시하는 개념도이다.
도 4는 본 발명의 일실시예에 따른 영상 처리 장치의 모드 결정부의 세부 구조를 도시한다.
도 5는 본 발명의 일실시예에 따른 영상 처리 장치의 3D 모델 생성부의 세부 구조를 도시한다.
도 6은 본 발명의 일실시예에 따라 3D 모델 생성부가 이용하는 예시적인 복수 개의 프레임의 영상을 도시한다.
도 7은 본 발명의 일실시예에 따라 도 6의 복수 개의 프레임의 영상들로부터 추출되는 특징점들을 도시한다.
도 8은 본 발명의 일실시예에 따른 영상 처리 방법을 도시한다.
이하에서, 본 발명의 일부 실시예를, 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 일실시예에 따른 영상 처리 장치(100)를 도시한다.
영상 처리 장치(100)는, 모드 결정부(110), 3D 모델 생성부(120), 정적 영상 조정부(130) 및 렌더링부(140)을 포함한다.
모드 결정부(110)는 목표 시점의 영상을 렌더링 하기 위한 영상 처리 모드를 결정할 수 있다.
이 경우 영상 처리 모드는 3D 모델을 생성하는 3D 모델링 모드와 또는 가까운 시점의 기존 입력 영상 프레임을 활용하여 2D 변환(2D homography)를 처리하는 정적 영상 조정 모드일 수 있다.
한편, 두 가지 모드가 병렬적으로 수행되어 각각의 단점을 보완하여 영상의 품질을 높이는 것도 가능하며, 이 경우는 두 가지 모드의 병렬 진행(도시 되지 않음)에 대응한다. 병렬적인 모드 진행은 도 7을 참조하여 후술한다.
모드 결정부(110)의 세부 구조는 도 4를 참조하여 후술한다.
목표 시점의 영상 렌더링을 위한 모드가 3D 모델링 모드로 결정되면, 3D 모델 생성부(120)는 입력 비디오 데이터의 복수 개의 프레임 영상들을 이용하여 3D 모델을 생성하며, 그 과정은 도 3 및 도 5를 참조하여 상세히 후술한다.
한편, 목표 시점의 영상 렌더링을 위한 모드가 정적 영상 조정 모드로 결정되면, 정적 영상 조정부(130)는 정적 영상 조정에 의한 2D 변환(2D homography)을 수행된다.
이 과정에서, 정적 영상 조정부(130)는, 모드 결정부(110)가 추출한 영상들의 특징점을 이용하여 전경과 배경을 분리하고, 핵심영역 추출(salient region extraction)을 수행한다.
그리고, 정적 영상 조정부(130)는 초점 오차 정보 추출(defocused region extraction), 전경/배경 분리(fore/background separation), 단일 영상 3차원 정보 유추(single-view 3D reconstruction) 등의 기술을 이용하여 각 영상에 3차원 효과가 필요할 후보 영역들을 찾는다.
그러면, 정적 영상 조정부(130)는 단일 정적 영상에 기반하여, 추출된 정보들을 바탕으로 적용되어야 할 3차원 효과의 정도 및 가상 3차원 깊이를 결정하여 목표 시점에 맞는 가상 시점 영상을 생성해낸다.
그리고, 렌더링부(140)는 3D 모델 및/또는 정적 영상 조정 결과를 이용하여 목표 시점에서의 스테레오스코픽 및/또는 멀티 뷰 영상을 렌더링 한다. 이 과정에서 렌더링부(140)의 동작은 도 7을 참조하여 상세히 후술한다.
도 2는 본 발명의 일실시예에 따라 영상 처리 장치에 입력되는 예시적인 비디오 프레임들을 설명하기 위한 개념도이다.
시점(101 내지 119)는 각각 입력 비디오 데이터에 포함되는 복수 개의 프레임의 영상들을 획득한 카메라 시점에 대응한다.
상기 각 시점에서 촬영된 데이터는 각각 2D 영상이고, 오브젝트에 대한 별도의 3D 모델 정보, 이를테면 오브젝트의 기하 정보(geometry information) 등은 주어지지 않는다.
본 발명의 일실시예에 따르면, 이러한 시점(101 내지 119 등) 에서 획득되어 입력으로 제공되는 비디오 데이터의 각 프레임 중 적어도 일부의 프레임의 영상들을 이용하여, 오브젝트에 대한 3D 모델을 생성하고, 상기 생성된 3D 모델을 이용하여, 임의의 목표 시점들에 대응하는 스테레오스코픽 영상 및/또는 멀티 뷰 영상을 생성한다.
한편, 본 발명의 다른 일실시예에 따르면, 상기 3D 모델 생성에 앞서서, 영상 처리 장치(100)는 상기 목표 시점들에 대응하는 영상들이 입력 비디오 데이터에 존재하는지의 여부를 판단하여, 영상 처리를 위한 모드(mode)를 결정하며, 선택적으로 3D 모델의 생성 대신 기존의 입력 비디오의 프레임 중 목표 시점들에 대응하는 적어도 하나의 프레임의 영상들을 이용하여 영상 처리를 수행할 수 있다.
이하에서는, 본 발명의 일실시예에 따른 영상 처리 장치의 동작을 도 3 이하를 참조하여 보다 상세히 설명한다.
도 3은 본 발명의 일실시예에 따라 생성하고자 하는 멀티 뷰 영상의 시점을 도시하는 개념도이다.
시점(101 내지 105)들은 기존 입력 비디오 데이터에 존재하는 복수 개의 프레임들의 2D 영상의 촬영 시점에 대응한다. 시점(101)부터 시점(105)로 촬영이 진행되면서, 카메라의 시점이 왼쪽 위에서 오른쪽 아래로 움직인 것이 관찰된다.
그런데, 이 중 시점(103)을 중심으로 하는, 9 view(nine view) 영상을 생성하고자 한다면, 시점(103)에 대응하는 영상은 그대로 이용될 수 있으나, 나머지 시점(301 내지 308)에 대응하는 각 영상들을 생성하기 위해서는, 기존의 영상이 그대로 이용될 수 없다.
기존에 입력된 비디오 데이터에서 복수 개의 프레임들의 영상 중에서, 현재 렌더링하고자 하는 특정 시점과 유사한 시점의 영상이 존재한다면, 이는 그대로 활용되어서 다른 영상과의 시차 정보(parallax) 생성에 이용될 수 있다.
그러나, 이러한 방법들은 렌더링하고자 하는 목표 시점들에 대응하는 시차 정보(parallax)가 기존의 입력 비디오 데이터의 각 프레임 영상들 중에서 존재해야만 현실적인 다시점 영상의 생성이 가능하다는 제약이 있다.
따라서, 이러한 제약 때문에 상기 방법에서 이용할 수 있는 입력 비디오 데이터의 범위를 현저히 좁히게 된다.
단순한 예시로써 입력 비디오 데이터의 촬영 시 카메라가 주로 앞 뒤로 움직이는 경우는 좌우 시차 정보가 존재하지 않기 때문에 적용이 불가능하며, 꼭 직진이 아니더라도 렌더링을 원하는 목표 시점들에 인접한 종래의 입력 비디오 데이터의 프레임 영상이 존재하지 않는 경우에도 적용이 어렵다.
이를 테면, 도 2의 시점(115)를 중심으로 하여, 스테레오스코픽 영상을 렌더링 하는 경우에는, 시점(115)의 왼쪽이나 오른쪽에 적절한 시차 정보(parallax)를 갖는 다른 프레임 영상들, 즉 시점(114)의 프레임 영상이나 시점(116)의 프레임 영상을 활용하여 별도의 3D 모델의 생성이 없이 바로 스테레오스코픽 영상을 제공할 수 있다.
그러나, 본 도 3에 도시된 바와 같이, 목표 시점들(103 및 301 내지 308)에 대응하는 시차 정보를 갖는 프레임 영상들이 기존의 입력 비디오 데이터에 존재하지 않는 경우에는, 새로운 3D 모델의 생성에 의한 시차 정보의 획득과 영상 렌더링이 필요하다.
나아가, 컷(cut)의 제일 왼쪽에서 촬영된 시점(101)의 프레임의 경우, 그보다 왼쪽의 시점에 대응하는 시차 정보는 얻을 수 없다. 마찬가지로 제일 오른쪽에서 촬영된 시점(119)의 경우에도 그보다 오른쪽의 시점에 대응하는 시차 정보는 얻을 수 없다.
따라서 본 발명의 일실시예에 따르면, 입력 비디오가 수신되고, 렌더링을 할 멀티 뷰 시점, 즉 목표 시점들이 확정되는 경우, 영상 처리 장치(100)의 모드 결정부는 입력 비디오 데이터의 각 프레임 영상들을 참고하여, 목표 시점들에 대응하는 영상을 렌더링하기 위한 영상 처리 모드를 결정한다.
상기 모드(mode)는 상술한 두 가지의 경우에 각각 대응한다. 하나는, 목표 시점들과 유사한 시점의 프레임 영상이 이미 기존의 입력 비디오 데이터에 존재하는 것으로 판단되는 경우, 시차 정보가 확보되어 있으므로 별도의 3D 모델의 생성 없이 2D 변환(2D homography)를 이용하여 렌더링 하는 정적 영상 조정 모드이다.
그리고 다른 하나는, 도 3에서 도시된 예에서와 같이, 목표 시점들과 유사한 시점의 프레임 영상이 이미 기존의 입력 비디오 데이터에 존재하지 않는 것으로 판단되는 경우, 복수 개의 프레임의 영상을 이용하여 3D 모델을 생성하는 3D 모델링 모드이다.
모드 결정부(110)의 상세한 동작은 도 4를 참조하여 후술하고, 모드 결정부(110)가 영상 처리 모드를 3D 모델링 모드로 결정하는 경우 3D 모델 생성부(120)의 상세한 동작은 도 5를 참조하여 후술한다.
도 4는 본 발명의 일실시예에 따른 영상 처리 장치의 모드 결정부(110)의 세부 구조를 도시한다.
입력 비디오 데이터가 수신되면, 모드 결정부(110)는, 목표 시점들에서의 영상 렌더링을 위해 활용할 영상 처리 모드를 결정한다. 상기 영상 처리 모드는 직접 3D 모델을 생성하여 목표 시점의 영상을 렌더링하는 3D 모델링 모드, 또는 기존의 입력 비디오 프레임의 영상들을 2D 변환(2D homography)하고 적절한 처리를 수행하여 목표 시점 영상을 렌더링하는 정적 영상 조정 모드이다.
본 발명의 일실시예에 따르면, 한 번 영상 처리 모드가 결정되면 계속적으로 결정된 모드를 사용할 수도 있으나, 본 발명의 다른 일실시예에 따르면 목표 시점의 특성에 따라 계속적으로 적절한 모드로 변경함으로써, 적응적인 모드 결정을 수행할 수도 있다.
본 발명의 일실시예에 따르면, 비디오 데이터가 입력되는 경우, 특징점 추출부(410)는 입력 비디오 데이터의 각 프레임 영상들로부터 특징점을 추출한다.
도 6은 본 발명의 일실시예에 따라 3D 모델 생성부가 이용하는 예시적인 복수 개의 프레임의 영상을 도시한다.
다시 도 4를 참조하면, 특징점 정합부(420)는 각 프레임의 영상 간의 특징점 정합(matching)을 통해 대응 점 쌍(pairs of corresponding feature points)을 결정한다. 이렇게 각 특징점들을 추출하고 그 대응 관계를 모색하는 과정을 통해, 각 프레임 영상 간의 시점의 모션 추정이 가능하다.
이러한 특징점 추출 내지 정합의 과정은, 오브젝트 간의 성긴 3차원 구조 (sparse 3D structure) 를 복원하는 것으로 이해될 수 있다.
도 7은 본 발명의 일실시예에 따라 도 6의 복수 개의 프레임의 영상들로부터 추출되는 특징점들을 도시한다.
시점 영상(610)으로부터 특징점 추출한 결과(710)와 시점 영상(620)으로부터 특징점 추출한 결과(720)이 도시되었다.
추출된 특징점(711 내지 718)은 각각 추출된 특징점(721 내지 728)과 대응쌍을 이루나, 특징점(719) 또는 특징점(729) 등은 대응하는 특징점이 없다.
다시 도 4를 참조하면, 시점 추정부(430)는 스트럭쳐 프롬 모션 (structure from motion, SFM) 기법을 통해, 입력 비디오 데이터의 시점이 어떠한 모션 패턴을 가지는지 분석한다.
이러한 모션 패턴의 분석에서는, 카메라 시점의 이동이 수평 방향인지, 수직 방향인지, 또는 줌 인 /줌 아웃과 같은 전후 방향인지 등이 분석된다.
그러면, 최적화부(440)은 주어진 목표 시점들을 고려하여 영상 처리 모드를 결정한다. 상기한 바와 같이, 최적화부는 입력되는 비디오 데이터의 시점 모션 특징과 렌더링하고자 하는 목표 시점의 특성을 분석하여, 모드 변경이 필요하다고 판단되면 수시로 모드를 변경할 수 있다.
도 5는 본 발명의 일실시예에 따른 영상 처리 장치의 3D 모델 생성부(120)의 세부 구조를 도시한다.
상기 모드 결정부(110)가 영상 처리 모드를 3D 모델링 모드로 결정하는 경우, 3D 모델 생성부(120)의 영상 정렬부(510)는 상기 모드 결정 과정에서 반복적으로 복원된 성긴 3차원 구조(sparse 3D structure)를 이용하여, 입력 영상의 재정렬(polar rectification)을 수행할 수 있다.
본 발명의 일실시예에 따르면, 영상 정렬부(510)는, 이러한 영상 정렬 과정에서, M. Pollefeys, R. Koch 및 L. Van Gool의 논문 "A Simple and efficient rectification method for general motion"(ICCV 1999)에 제시된 성긴 3차원 구조와 영상 정렬의 방법 알고리즘을 이용할 수도 있다.
영상 정합부(520)는 이러한 영상 정렬 결과를 이용하여, 조밀 3차원 구조(dense 3D structure)를 복원하며, 본 발명의 일실시예에 따르면, 이 과정에서 K. J. Yoon 및 I. S. Kweon의 논문 "Locally Adaptive Support-Weight Approach for Visual Correspondence Search"(CVPR 2005) 및/또는 P. F. Felzenzwalb 및 D. P. Huttenlocher의 논문 "Efficient Belief Propagation for Early Vision"(IJCV 2006) 등의 방법이 활용되어, 빠르고 정확한 조밀 3차원 구조가 복원될 수 있다.
본 발명의 일실시예에 따르면, 조밀 3차원 구조 복원을 위한 대응관계 추정과정에서 영상 정합부(520)는 연산 비용 계산(cost computation), 최적화 과정(optimization, Belief propagation)을 수행한다.
이 경우, 영상 정합부(520)는 상기 성긴 3차원 구조에서의 대응관계를 사전 획득 정보(prior knowledge)로서 적용하여, 성긴 대응관계(sparse correspondence)가 존재하는 영역의 후보 대응관계(disparity candidates)들 중 성긴 대응관계를 만족하지 않는 후보들에 불이익(penalty)을 줌으로써, 조밀 대응관계 추정 과정의 정확도를 높이고, 최적화 과정의 수렴 속도를 높인다.
한편, 이러한 본 발명의 범위는 이러한 구체적인 예시적 방법들에 한정되어 해석되는 것은 아니며, 청구범위에 기재된 사항에 의해 해석되어야 한다.
이렇게 영상 정합을 통해 조밀 3차원 구조가 복원되면, 3D 구조 추정부(530)는 3차원 표면 및 텍스처 복원 과정을 수행하며, 3D 모델링부(550)는 이러한 복원 결과를 이용하여 3D 모델을 생성한다. 본 발명의 일실시예에 따르면, 이러한 3D 모델 생성에 있어서 M. Kazhdan, M. Bolitho 및 H. Hoppe의 논문 "Poisson Surface Reconstruction"(Eurographics Symposium on Geometry Processing, 2006)의 방법 등이 활용될 수 있다.
이러한 과정에서, 조밀 3차원 구조 생성이나, 3D 모델 생성 과정에서 필터부(540)가 아웃라이어 제거나 적절한 데이터 필터링을 수행하여, 오차를 줄일 수 있다.
이렇게 3D 모델이 생성되면, 렌더링부(140)는 3D 모델을 이용하여 목표 시점에서의 영상을 렌더링한다. 이러한 목표 시점들은, 현재 디스플레이 하고자 하는 스테레오스코픽 및/또는 멀티 뷰 영상의 각 시점에 대응한다.
본 발명의 일실시예에 따르면, 이 과정에서 렌더링부(140)는 3D 모델의 깊이 정보에 기반하여 목표 시점 영상을 임시로 렌더링하고, 상기 정적 영상 조정 모드에서 처리한 결과인 2차원 변환(2D homography)에 기반한 결과로 또 다른 목표 시점 영상을 임시로 렌더링하여, 이들을 융합하고 불연속성을 제거함으로써, 최적화된 영상을 렌더링 할 수 있다.
입력 비디오 데이터에서 목표 시점과 충분히 가까운 시점을 가지는 기존 영상이 존재하지 않을 경우 시차 정보의 오차가 커서 3D 모델링 모드를 선택하게 되는데, 이와는 병렬적으로 정적 영상 모드 또한 수행하여, 깊이 불연속성(depth discontinuity)이 존재하는 곳에서 시차 오차를 극복하는 것이다.
이 경우, 3D 모델에 의해 검증된 깊이 정보를 사용하기 때문에 목표 시점과 가까운 깊이 정보가 존재하는 곳에서 정확한 시차 정보(parallax)를 계산할 수 있을 뿐만 아니라, 조밀한 대응관계의 초기 추정치(initial dense correspondence)에서 오차가 존재하는 부분들이 제거되어, 목표 시점과 가까운 영상이 존재하지 않는 경우의 시차 정보를 정확하게 계산할 수 있다.
또한 본 발명의 다른 일실시예에 따르면, 렌더링부(140)는 소실되는 영역 정보를 줄이기 위해서 기준 영상을 세부분할(over-segmentation)하여 영역별로 공통 깊이 정보를 결정하여 이동시키는 방법 (segment-based image shifting) 또한 이용하라 수 있다.
상기 렌더링부(140)의 두 가지 실시예는 서로 반대 되는 특성을 가지며, 앞선 실시예를 통해 얻어진 높은 시차 정확도의 영상을 우선 사용하고, 후자의 실시예를 통해 얻어진 영상으로 깊이 정보가 존재하지 않는 영역들에 대한 부분을 보완함으로써 높은 시차 정확도와 완전성을 가지는 가상 시점 영상을 획득할 수 있다.
한편, 렌더링부(140)가 두 가지의 모드에 의한 결과를 융합하여 정확한 영상을 렌더링 하는 방법에는 여러 가지가 가능하다.
본 발명의 일 실시예에 따르면, 렌더링부(140)는, A. A. Efros 및 W. T. Freeman의 논문 "Image Quilting for Texture Synthesis and Transfer"(SIGGRAPH 2001)이나 V. Kwatra, A Schodl, I. Essa, G. Turk 및 A. Bobick의 논문 "Graphcut Textures: Image and Video Synthesis Using Graph Cuts"(SIGGRAPH 2003) 등에서 제시된 방법에 따라, 중복 영역을 활용하여 최적의 경계선을 선택하는 방법을 사용할 수도 있다.
또한, 본 발명의 다른 일실시예에 따르면, 렌더링부(140)는 3D 모델의 깊이 정보에 기반하여 목표 시점의 임시 영상을 생성하는 과정을 통해 얻어진 영상에서 소실된 부분을 정적인 영상 조정 모드에서 얻어진 목표 시점 임시 영상의 대응되는 위치의 정보로 채우고, 각 영상의 경사도 정보를 활용하여 전체적인 색을 매끄럽게 변환할 수 있다. 이러한 방법은 P. Perez, M. Gangnet 및 A. Blake의 논문 "Poisson Image Editing"(SIGGRAPH 2003)에 제시되어 있다.
이러한 방법에 의해 렌더링부(140)는 결과 영상의 불연속성을 효과적으로 제거하고, 경계선 부분에서 보다 정확한 시차(parallax)를 가지면서 완전한(complete) 최적의 가상 시점 영상을 생성해낼 수 있다.
도 8은 본 발명의 일실시예에 따른 영상 처리 방법을 도시한다.
단계(810)에서, 영상 처리 장치(100)의 모드 결정부(110)는 목표 시점의 영상을 렌더링 하기 위한 영상 처리 모드를 결정할 수 있다.
이 경우 영상 처리 모드는 3D 모델을 생성하는 3D 모델링 모드와 또는 가까운 시점의 기존 입력 영상 프레임을 활용하여 2D 변환(2D homography)를 처리하는 정적 영상 조정 모드일 수 있다.
한편, 도 7에서 상술한 바와 같이 두 가지 모드가 병렬적으로 수행되어 각각의 단점을 보완하여 영상의 품질을 높이는 것도 가능하며, 이 경우는 두 가지 모드의 병렬 진행(도시 되지 않음)에 대응한다.
모드 결정부(110)의 동작은 도 2 내지 도 4를 참조하여 상술한 바와 같다.
모드가 결정되면, 단계(820)에서 3D 모델링 모드에 해당하는 경우 단계(840)의 3D 모델링 모드가 수행되어 3D 모델이 생성된다.
3D 모델링의 생성 과정은 도 3 및 도 5를 참조하여 상술한 바와 같다.
그리고 정적 영상 조정 모드인 경우, 단계(S830)에서 정적 영상 조정에 의한 2D 변환(2D homography)가 수행된다.
이 과정에서, 정적 영상 조정부(130)는, 모드 결정부(110)가 추출한 영상들의 특징점을 이용하여 전경과 배경을 분리하고, 핵심영역 추출(salient region extraction)을 수행한다.
그리고, 정적 영상 조정부(130)는 초점 오차 정보 추출(defocused region extraction), 전경/배경 분리(fore/background separation), 단일 영상 3차원 정보 유추(single-view 3D reconstruction) 등의 기술을 이용하여 각 영상에 3차원 효과가 필요할 후보 영역들을 찾는다.
그러면, 정적 영상 조정부(130)는 단일 정적 영상에 기반하여, 추출된 정보들을 바탕으로 적용되어야 할 3차원 효과의 정도 및 가상 3차원 깊이를 결정하여 목표 시점에 맞는 가상 시점 영상을 생성해낸다.
그리고, 단계(850)에서는 렌더링부(140)가 상기 결과를 이용하여 목표 시점에서의 영상을 렌더링 한다. 이 과정에서 렌더링부(140)의 동작은 도 7을 참조하여 상술한 바와 같다.
본 발명의 일실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
100: 영상 처리 장치
110: 모드 결정부
120: 3D 모델 생성부
130: 정적 영상 조정부
140: 렌더링부

Claims (14)

  1. 입력 비디오 데이터에 포함된 복수 개의 프레임 영상 및 렌더링하고자 하는 목표 시점을 참고하여, 영상 처리 모드를 결정하는 모드 결정부; 및
    상기 영상 처리 모드가 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 3D 모델을 생성하는 제1 모드인 경우, 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 3D 모델을 생성하는 3D 모델 생성부
    를 포함하는, 영상 처리 장치.
  2. 제1항에 있어서,
    상기 영상 처리 모드가 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 2D 변환을 수행하는 제2 모드인 경우, 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 2D 변환을 수행하여 상기 목표 시점에 대응하는 2D 정보를 생성하는 정적 영상 조정부
    를 더 포함하는, 영상 처리 장치.
  3. 제1항에 있어서,
    상기 모드 결정부는,
    상기 복수 개의 프레임 영상의 적어도 일부로부터, 특징점을 추출하는 특징점 추출부;
    상기 추출된 특징점을 정합하여 특징점 간의 대응 관계를 분석하는 특징점 정합부;
    상기 특징점 간의 대응 관계를 통해 상기 입력 비디오 데이터의 상기 복수 개의 프레임 영상의 각각에 대응하는 시점의 모션 패턴을 분석하는 시점 추정부; 및
    상기 모션 패턴 및 상기 목표 시점을 고려하여 상기 영상 처리 모드를 결정하는 최적화부
    를 포함하는, 영상 처리 장치.
  4. 제3항에 있어서,
    상기 시점 추정부는, 스트럭쳐 프롬 모션 (structure from motion, SFM) 기법을 이용하여, 상기 시점의 모션 패턴을 분석하는, 영상 처리 장치.
  5. 제1항에 있어서,
    상기 3D 모델 생성부는,
    상기 영상 처리 모드가 상기 제1 모드인 경우, 상기 모드 결정부가 상기 영상 처리 모드를 결정하는 과정에서 복원되는 성긴 3차원 구조(sparse 3D structure)를 이용하여, 입력 영상의 재정렬(polar rectification)을 수행하는 영상 정렬부;
    상기 성긴 3차원 구조를 이용하여 조밀 3차원 구조(dense 3D structure)를 복원하는 영상 정합부;
    상기 조밀 3차원 구조를 이용하여, 3차원 표면 및 텍스처를 복원하는 3D 구조 추정부; 및
    상기 3차원 표면 및 텍스처를 이용하여 3D 모델을 생성하는 3D 모델링부
    를 포함하는, 영상 처리 장치.
  6. 제1항에 있어서,
    상기 3D 모델링부가 생성한 상기 3D 모델을 이용하여, 상기 목표 시점에서의 영상을 렌더링하는 렌더링부
    를 더 포함하는, 영상 처리 장치.
  7. 제2항에 있어서,
    상기 3D 모델링부가 생성한 상기 3D 모델 및 2D 변형에 의해 상기 정적 영상 조정부가 생성한 2D 정보를 이용하여, 상기 목표 시점에서의 영상을 렌더링하는 렌더링부
    를 더 포함하는, 영상 처리 장치.
  8. 입력 비디오 데이터에 포함된 복수 개의 프레임 영상 및 렌더링하고자 하는 목표 시점을 참고하여, 영상 처리 모드를 결정하는 모드 결정 단계;
    상기 영상 처리 모드가 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 3D 모델을 생성하는 제1 모드인 경우, 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 3D 모델을 생성하는 3D 모델 생성 단계; 및
    상기 3D 모델을 이용하여 상기 목표 시점의 영상을 렌더링하는 단계
    를 포함하는, 영상 처리 방법.
  9. 제8항에 있어서,
    상기 영상 처리 모드가 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 2D 변환을 수행하는 제2 모드인 경우, 상기 복수 개의 프레임 영상 중 적어도 일부를 이용하여 2D 변환을 수행하여 상기 목표 시점에 대응하는 2D 정보를 생성하는 정적 영상 조정 단계
    를 더 포함하는, 영상 처리 방법.
  10. 제8항에 있어서,
    상기 모드 결정 단계는,
    상기 복수 개의 프레임 영상의 적어도 일부로부터, 특징점을 추출하는 단계;
    상기 추출된 특징점을 정합하여 특징점 간의 대응 관계를 분석하는 단계;
    상기 특징점 간의 대응 관계를 통해 상기 입력 비디오 데이터의 상기 복수 개의 프레임 영상의 각각에 대응하는 시점의 모션 패턴을 분석하는 단계; 및
    상기 모션 패턴 및 상기 목표 시점을 고려하여 상기 영상 처리 모드를 결정하는 단계
    를 포함하는, 영상 처리 방법.
  11. 제10항에 있어서,
    상기 모션 패턴을 분석하는 단계는, 스트럭쳐 프롬 모션 (structure from motion, SFM) 기법을 이용하여, 상기 시점의 모션 패턴을 분석하는, 영상 처리 방법.
  12. 제8항에 있어서,
    상기 3D 모델 생성 단계는,
    상기 영상 처리 모드가 상기 제1 모드인 경우, 상기 모드 결정부가 상기 영상 처리 모드를 결정하는 과정에서 복원되는 성긴 3차원 구조(sparse 3D structure)를 이용하여, 입력 영상의 재정렬(polar rectification)을 수행하는 단계;
    상기 성긴 3차원 구조를 이용하여 조밀 3차원 구조(dense 3D structure)를 복원하는 단계;
    상기 조밀 3차원 구조를 이용하여, 3차원 표면 및 텍스처를 복원하는 단계; 및
    상기 3차원 표면 및 텍스처를 이용하여 3D 모델을 생성하는 단계
    를 포함하는, 영상 처리 방법.
  13. 제9항에 있어서,
    상기 3D 모델링부가 생성한 상기 3D 모델 및 2D 변형에 의해 상기 정적 영상 조정부가 생성한 2D 정보를 이용하여, 상기 목표 시점에서의 영상을 렌더링하는 단계
    를 더 포함하는, 영상 처리 방법.
  14. 제8항 내지 제13항 중 어느 한 항의 영상 처리 방법을 수행하는 프로그램을 수록한 컴퓨터 판독 가능 기록 매체.
KR1020100077146A 2010-08-11 2010-08-11 영상 처리 장치 및 방법 KR101665049B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100077146A KR101665049B1 (ko) 2010-08-11 2010-08-11 영상 처리 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100077146A KR101665049B1 (ko) 2010-08-11 2010-08-11 영상 처리 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20120014992A true KR20120014992A (ko) 2012-02-21
KR101665049B1 KR101665049B1 (ko) 2016-10-11

Family

ID=45837857

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100077146A KR101665049B1 (ko) 2010-08-11 2010-08-11 영상 처리 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101665049B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210016613A (ko) * 2018-07-12 2021-02-16 캐논 가부시끼가이샤 정보 처리장치, 정보 처리방법 및 프로그램

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102129458B1 (ko) 2017-11-22 2020-07-08 한국전자통신연구원 객체의 3차원 정보 복원 방법 및 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100837776B1 (ko) * 2001-12-24 2008-06-13 주식회사 케이티 2차원 영상을 3차원 영상으로 변환하는 영상 변환 장치 및그 방법
JP2009237845A (ja) * 2008-03-27 2009-10-15 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100837776B1 (ko) * 2001-12-24 2008-06-13 주식회사 케이티 2차원 영상을 3차원 영상으로 변환하는 영상 변환 장치 및그 방법
JP2009237845A (ja) * 2008-03-27 2009-10-15 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210016613A (ko) * 2018-07-12 2021-02-16 캐논 가부시끼가이샤 정보 처리장치, 정보 처리방법 및 프로그램

Also Published As

Publication number Publication date
KR101665049B1 (ko) 2016-10-11

Similar Documents

Publication Publication Date Title
KR100748719B1 (ko) 다중 스테레오 카메라를 이용한 3차원 모델링 장치 및 그방법
JP5156837B2 (ja) 領域ベースのフィルタリングを使用する奥行マップ抽出のためのシステムおよび方法
US8878835B2 (en) System and method for using feature tracking techniques for the generation of masks in the conversion of two-dimensional images to three-dimensional images
EP2033164B1 (en) Methods and systems for converting 2d motion pictures for stereoscopic 3d exhibition
KR100793076B1 (ko) 에지 적응형 스테레오/다시점 영상 정합 장치 및 그 방법
KR102380862B1 (ko) 영상 처리 방법 및 장치
WO2008112802A2 (en) System and method for 2-d to 3-d image conversion using mask to model, or model to mask, conversion
WO2008112762A1 (en) Systems amd methods for depth peeling using stereoscopic variables during the rendering of 2-d to 3-d images
CN103002309B (zh) 对于多目同步摄像机拍摄的动态场景视频的时空一致性深度恢复的方法
WO2008112790A2 (en) System and method for using feature tracking techniques for the generation of masks in the conversion of two-dimensional images to three-dimensional images
WO2008112771A2 (en) Systems and methods for filling light in frames during 2-d to 3-d image conversion
KR101181199B1 (ko) 배경 지형 장면의 입체 이미지 생성 방법, 시스템 및 이를 위한 기록매체
Moustakas et al. Stereoscopic video generation based on efficient layered structure and motion estimation from a monoscopic image sequence
CN102074020A (zh) 对视频进行多体深度恢复和分割的方法
KR20110027231A (ko) 입체영상 압축 처리 방법 및 장치
TW202037169A (zh) 基於視訊的點雲壓縮的區塊分段的方法及裝置
CN103049929A (zh) 基于联合优化的多摄像机动态场景3d重建方法
KR101665049B1 (ko) 영상 처리 장치 및 방법
Lipski et al. Making of who cares? HD stereoscopic free viewpoint video
Lee et al. Automatic 2d-to-3d conversion using multi-scale deep neural network
KR20180073976A (ko) 다중 시점 카메라 기반 깊이 영상 추정 방법
EP2541494A1 (en) Method and apparatus for restoring resolution of multi-view image
US20130229408A1 (en) Apparatus and method for efficient viewer-centric depth adjustment based on virtual fronto-parallel planar projection in stereoscopic images
Wu et al. Stereoscopic video conversion based on depth tracking
Kowdle et al. Recovering depth of a dynamic scene using real world motion prior

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190910

Year of fee payment: 4