WO2019098421A1

WO2019098421A1 - 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법

Info

Publication number: WO2019098421A1
Application number: PCT/KR2017/013061
Authority: WO
Inventors: 황영배; 김정호; 윤주홍; 박민규; 김병균; 이주리; 강주미
Original assignee: 전자부품연구원
Priority date: 2017-11-15
Filing date: 2017-11-17
Publication date: 2019-05-23
Also published as: KR102083293B1; KR20190055632A

Abstract

본 발명은 모션 정보를 이용한 객체 복원 장치는 객체에 대하여 다시점으로 촬영한 복수의 영상을 수신하여 상기 복수의 영상의 깊이영상을 추정하는 깊이영상 추정부; 상기 깊이영상을 융합하는 깊이영상 융합부; 및 상기 융합된 깊이영상을 이용하여 상기 객체의 모션 정보를 추정하고, 상기 추정된 모션 정보를 기초로 하여 상기 융합된 깊이영상에 대응되는 키볼륨을 업데이트하여 상기 객체를 복원하는 복원부를 포함할 수 있다.

Description

모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법

본 발명은 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법에 관한 것이다.

객체의 모션(움직임) 정보를 획득하여 복원하는 일반적인 기술은 크게 2가지로 분류될 수 있다.

먼저, 마커(marker)를 사용하는 방법이 있다. 종래의 모션 복원 기법들은 모션 정보를 획득하고자 하는 개체의 외형에 마커를 부착하여 매 프레임 마커의 위치를 추적하여 모션 정보를 얻는 방법이 주로 이용되었다. 마커를 통해 얻어진 모션 정보는, 가려짐(occlusion)이나 센서 오차 등에 의해 잘못된 부분에 대한 수작업의 보완 과정을 거쳐서 최종 결과로 얻어지게 된다. 마커 기반의 방법은 비교적 높은 정확도를 얻을 수 있는 장점이 있으나, 개체의 외형에 수많은 마커를 부착하여야 하고 고가의 모션 캡처 장비가 있어야 하며 캡처된 마커의 후처리가 필요하다는 단점이 존재한다.

객체의 모션을 복원하는 또 다른 방법으로는 마커를 사용하지 않는 마커프리(marker-free) 방법이 있다. 이는 마커리스(markerless) 방법이라고도 한다. 마커를 사용하지 않는 방법은, 앞서 언급한 마커를 이용한 방법에 비해 마커를 부착할 필요가 없기 때문에 촬영이 간편하고, 대부분의 경우 고가의 장비 대신 영상 센서만을 이용하므로 가격 측면에서도 저렴한 장점이 존재한다. 하지만, 복잡한 모션의 경우 정확한 모션을 추출해내기 어려운 단점이 존재한다.

마커프리 모션 복원 알고리즘은 사전 휴먼 모델 정보의 사용 유무에 따라 크게 두 가지로 구분될 수 있다. 첫째는 모델을 사용하지 않는 모델프리(model free) 접근법이다. 이 방법의 경우는 대부분 영상을 기반으로 해서 3차원 포즈를 추출하게 된다. 그 방법으로는 몸의 팔다리를 먼저 찾아내고 확률적 조립(probabilistic assemblies)을 이용하여 모션을 추출하는 상향식 접근법과, 미리 저장되어있는 데이터베이스(database; DB)를 기반으로 하여 영상과 3차원 포즈 사이에 직접적인 매칭을 통해 포즈를 알아내는 예제기반 접근법(Examplebased methods)이 존재한다. 그러나 모델프리 방법의 경우는 복잡한 경우에는 정확도가 떨어지며, 예제기반 접근법의 경우에는 DB에 따라 추출할 수 있는 모션이 제한된다는 단점이 존재한다.

둘째로는, 미리 정의된 모델을 사용하는 접근법이 있다. 이 경우, 미리 정의된 모델의 운동학(kinematics) 정보뿐만 아니라, 외형 정보도 활용이 가능하며, 사전 모델과 영상 속의 개체 혹은 다시점 영상에서부터 복셀 복원(Voxel reconstruction) 등을 통해 얻은 3차원 볼륨 개체와의 비교를 통해 모션을 추출해 낼 수 있다.

이런 접근을 통해서 기존의 모델프리 방법에 비해 비교적 복잡한 모션까지도 추출해 내는 것이 가능하다. 하지만 이접근의 경우에도 여전히 모델과 3차원 개체 사이의 대응관계를 어떻게 유추하는지가 주요 이슈로 남아있다.

동적 객체의 모션 복원 기술, 특히 3D 복원 기술은 다수 또는 단일 카메라를 이용하여 캡쳐된 영상을 이용하여 3D의 형태로 복원을 수행할 수 있다. 복원된 3D 영상에서의 객체의 움직임 정보를 포함하는 4D 복원이 수행될 수 있다.

한국등록특허 10-1307341에는 가시광 영역의 영상센서를 동적 객체 모션 캡쳐 방법에 대해 개시하고 있다. 그러나, 깊이 정보가 없이 3D 외형 복원을 수행하기 때문에 정밀한 3D복원이 이루어지기 힘든 단점이 있다.

본 발명은 다수의 카메라를 이용하여 획득한 복수의 다시점 영상을 정합하여 동적 객체에 대한 완전한 3D영상 복원 또는 동적 객체에 대한 모션 정보를 포함하는 4D 영상 복원을 수행하는 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법을 제공한다.

본 발명의 일 실시 예에 따른 모션 정보를 이용한 객체 복원 장치는 객체에 대하여 다시점으로 촬영한 복수의 영상을 수신하여 상기 복수의 영상의 깊이영상을 추정하는 깊이영상 추정부; 상기 깊이영상을 융합하는 깊이영상 융합부; 및 상기 융합된 깊이영상을 이용하여 상기 객체의 모션 정보를 추정하고, 상기 추정된 모션 정보를 기초로 하여 상기 융합된 깊이영상에 대응되는 키볼륨을 업데이트하여 상기 객체를 복원하는 복원부를 포함할 수 있다.

실시 예에 있어서, 상기 객체의 영상을 촬영하는 하나 이상의 카메라 세트를 포함하고, 상기 하나 이상의 카메라 세트는, RGB 카메라 및 IR 카메라 중 적어도 하나 이상을 포함할 수 있다.

실시 예에 있어서, 상기 깊이영상 추정부는, 상기 깊이영상을 정합하는 스테레오 정합부; 및 상기 깊이영상에서 전경 영상 및 배경 영상을 분리하는 전배경 분리부를 포함할 수 있다.

실시 예에 있어서, 상기 복원부는, 대응점 비교를 통해 상기 융합된 깊이영상에 대응되는 키 볼륨을 탐색하고, 상기 융합된 깊이영상에 대응되는 키 볼륨이 존재하지 않으면 키 볼륨을 생성하는 키 볼륨 생성부; 및 상기 융합된 깊이영상에 대응되는 키 볼륨이 존재하면, 상기 융합된 깊이영상으로부터 상기 객체의 모션 정보를 추정하고, 상기 추정된 모션 정보를 기초로 상기 융합된 깊이영상에 대응되는 키 볼륨을 업데이트하는 키 볼륨 업데이트부를 포함할 수 있다.

본 발명의 일 실시 예에 따른 모션 정보를 이용한 객체 복원 방법은 하나 이상의 카메라 세트를 이용하여 객체의 영상을 획득하는 단계; 상기 카메라 세트에서 획득된 영상의 깊이영상을 추정하는 단계; 상기 카메라 세트에서 추정된 상기 깊이영상을 융합하는 단계; 상기 융합된 깊이영상을 이용하여 상기 객체의 모션 정보를 추정하는 단계; 상기 추정된 모션 정보를 기초로 상기 융합된 깊이영상에 대응되는 키 볼륨을 업데이트하는 단계; 및 상기 업데이트된 키 볼륨에 기초하여 상기 객체를 복원하는 단계를 포함할 수 있다.

실시 예에 있어서, 상기 깊이영상을 추정하는 단계는, 상기 깊이영상을 추정하도록, 상기 카메라 세트로부터 둘 이상의 영상 정보를 수신하여 스테레오 정합을 수행하는 단계; 및 상기 스테레오 정합된 영상에서 전경 영역 및 배경 영역을 분리하여 전배경 분할 마스크를 획득하는 단계를 포함할 수 있다.

실시 예에 있어서, 상기 둘 이상의 영상정보는, 하나 이상의 RGB 영상 또는 하나 이상의 IR 영상 중 적어도 하나 이상을 포함할 수 있다.

실시 예에 있어서, 상기 하나 이상의RGB 영상에 대한 컬러 보정을 수행하는 보정단계를 더 포함할 수 있다.

실시 예에 있어서, 상기 깊이영상을 융합하는 단계는, 상기 전배경 분할 마스크를 통해 결정된 상기 깊이영상의 상기 전경 영역의 각 픽셀에 대한 신뢰도를 추정하는 단계; 및 상기 추정된 신뢰도에 기초하여 상기 깊이영상을 융합하는 단계를 포함할 수 있다.

실시 예에 있어서, 상기 대응점 비교를 통해 상기 융합된 깊이영상에 대응되는 키 볼륨을 탐색하는 단계; 및 상기 융합된 깊이영상에 대응되는 키 볼륨이 존재하지 않으면, 키 볼륨을 생성하는 단계를 더 포함하고, 상기 키 볼륨을 업데이트하는 단계는, 상기 융합된 깊이영상에 대응되는 키 볼륨이 존재하면, 상기 추정된 모션정보를 기초로 상기 융합된 깊이영상에 대응되는 키 볼륨을 업데이트할 수 있다.

실시 예에 있어서, 상기 객체를 복원하는 단계는, 상기 업데이트된 키 볼륨을 와핑(warping)하여 메시 및 텍스처를 생성하는 단계를 포함할 수 있다.

본 발명에 따른 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법의 효과에 대해 설명하면 다음과 같다.

본 발명의 실시 예들 중 적어도 하나에 의하면, 동적 객체의 영상정보를 스테레오 정합한 후, 깊이영상을 추정하고, 추정된 깊이영상을 이용하여 모션 정보를 포함하여 정밀도가 높은 완전한3D 복원 및 4D 복원을 수행할 수 있다.

또한, 본 발명의 실시 예들 중 적어도 하나에 의하면, 동적 객체의 깊이영상에 대한 신뢰도를 추정하고, 전배경 분할 마스크를 참고하여 깊이영상을 융합함으로써 정확도가 높은 4D 복원을 수행할 수 있다.

또한, 본 발명의 실시 예들 중 적어도 하나에 의하면, 동적 객체에 대한 완전한 3D 복원 및 모션 복원이 동시에 수행됨으로써 객체의 영상에서 가려져 비어있는 영역이 존재하지 않는다. 그러므로 객체의 모션이 연결되어 자연스러운 4D 복원이 가능할 수 있다. 또한, 본 발명은 이를 이용한 3D컨텐츠의 생성, 모션 인식을 이용한 객체의 의도, 감정, 동작 등을 인식하는데 활용될 수 있다.

도 1은 본 발명의 바람직한 객체 복원 장치의 구성을 간략하게 도시한 블럭도이다.

도 2는 본 발명의 일 실시 예에 따른 객체 복원 장치를 이용한 객체 복원 방법을 도시한 흐름도이다.

도 3은 본 발명의 일 실시 예에 따른 객체 복원 장치를 이용하여 깊이영상을 추정하는 방법을 도시한 흐름도이다.

도 4는 본 발명의 일 실시 예에 객체 복원 장치를 이용하여 깊이영상을 융합하는 방법을 도시한 흐름도이다.

도 5 는 RGB 또는 IR 카메라를 포함하는 객체 복원 장치를 이용하여 깊이영상을 추정하는 방법을 도시한 흐름도이다.

도 6은 RGB 또는 IR 카메라를 포함하는 객체 복원 장치를 이용하여 깊이영상을 융합하는 방법을 도시한 흐름도이다.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하, 도면들을 참조하여 본 발명의 실시 예에 대해 상세히 설명하기로 한다. 본 발명은 본 발명의 정신 및 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 당업자에게 자명하다.

도 1을 참조하면, 객체 복원장치(100)는 영상정보 수신부(110), 깊이영상 추정부(120), 깊이영상 융합부(130), 복원부(140), 제어부(180) 및 영상 송신부(190)를 포함할 수 있다.

영상정보 수신부(110)는 객체 복원장치(100)의 외부에 구비된 하나 이상의 스테레오 카메라 세트(10, 20, 80)로부터 영상정보를 수신하는 구성이다. 스테레오 카메라 세트(10, 20, 80)는 다수 개의 스테레오 카메라를 포함하는 구성으로, N개의 스테레오 카메라 세트가 구비될 수 있다. 도 1에서는 N개의 스테레오 카메라 세트 중 세 개의 카메라 세트만 도시한 것으로, 카메라 세트의 수는 도면에 국한되지 않는다.

하나의 스테레오 카메라 세트(10, 20, 80)는 다수 개의 카메라를 포함할 수 있다. 다수 개의 카메라는 모두 RGB 카메라가 포함될 수도 있고, 모두 IR 카메라가 포함될 수도 있다. 또는 RGB 카메라 및 IR 카메라가 함께 포함될 수 있다. 또한 하나 이상의 스테레오 카메라 세트(10, 20, 80)에는 모두 동일한 종류의 스테레오 카메라가 포함될 수도 있고, 서로 다른 종류의 스테레오 카메라가 포함될 수도 있다. 일 실시 예로써, 스테레오 카메라 세트에 IR 카메라가 두 개 이상 포함된 경우에는 RGB 카메라 한 개가 포함될 수 있다.

본 발명에서는 N개의 스테레오 카메라 세트(10, 20, 80)에 두 개의 RGB 카메라(12, 22, 82) 및 두 개의 IR 카메라(14, 24, 84)가 포함되는 실시 예를 예시적으로 도시하고, 이를 상세하게 설명하였다.

다수 개의 스테레오 카메라 세트(10, 20, 80)는 RGB 카메라(12, 22, 82) 및 IR 카메라(14,24, 84)를 이용하여 동적 객체를 촬영할 수 있다. 이하에서는 동적 객체에 대하여 다시점에서 촬영한 영상을 정합한 영상을 완전한 3D 영상, 동적 객체에 대한 모션 정보를 포함하는 영상을 4D 영상으로 지칭하여 사용한다.

여기서, 본 발명의 객체 복원 장치는 몇 개 내지는 수십 개의 카메라로 구성되는 카메라 세트로부터 복수의 영상을 수신할 수 있으며, 카메라의 개수가 많아질수록 다양한 시점의 영상을 정합할 수 있어 더 많은 정보를 포함하는 완전한 3D 영상을 복원할 수 있다. 또한, 본 발명의 객체 복원 장치는 동적 객체와 그 객체의 모션 정보 사이의 대응 관계를 인식할 수 있어, 모션 정보를 활용하는 VR(가상현실)/AR(증강현실) 콘텐츠의 제작, 모션 정보를 인식하는 인터페이스 등 다양한 형태의 산업에 활용될 수 있다.

동적 객체를 촬영한 영상정보는 객체 복원장치(100)의 영상 정보 수신부(110)로 수신될 수 있다. 영상정보 수신부(110)는 동적 객체의 RGB 영상정보를 수신하는 RGB 영상정보 수신부(112) 및 동적 객체의 IR 영상 정보를 수신하는 IR 영상정보 수신부(114)를 포함할 수 있다.

깊이영상 추정부(120)는 영상정보 수신부(110)에서 촬영된 객체의 영상정보를 이용하여 깊이영상을 추정하는 구성이다. 깊이영상 추정부(120)는 스테레오 정합부(122) 및 전배경 분리부(124)를 포함할 수 있다. 스테레오 정합부(122)는 영상정보 수신부(110)에서 수신된 영상정보를 스테레오 정합하는 구성이다. 여기서, RGB 영상정보와 IR 영상정보는 분리되어 스테레오 정합될 수 있다. 전배경 분리부(124)는 스테레오 정합된 영상으로부터 전경 영역 영상의 정보 및 배경 영역 영상의 정보를 분리하고, 객체 정보만을 획득하는 구성이다.

깊이영상 융합부(130)는 깊이영상 추정부(120)에서 추정된 깊이영상을 융합하는 구성이다. 깊이영상 융합부(130)는 깊이영상 추정부(120)에서 추정된 깊이영상에 대한 신뢰도를 측정하는 신뢰도 추정부(132)를 포함할 수 있다.

복원부(140)는 융합된 깊이영상을 이용하여 동적 객체를 4D로 복원하는 구성이다. 복원부(140)는 키 볼륨을 생성하는 키 볼륨 생성부(142), 생성된 키 볼륨을 업데이트하는 키 볼륨 업데이트부(144) 및 업데이트된 키 볼륨을 현재 시점에서의 볼륨으로 와핑(warping)하고, 메시 및 텍스처를 생성하는 메시 및 텍스처 생성부(146)를 포함할 수 있다. 키 볼륨 생성부(142)는 대응점 비교를 통해 융합된 깊이영상에 대응되는 키 볼륨을 탐색하고, 융합된 깊이영상에 대응되는 키 볼륨이 존재하지 않으면, 키 볼륨을 생성할 수 있다. 키 볼륨 업데이트부(144)는 융합된 깊이영상에 대응되는 키 볼륨이 존재하면, 융합된 깊이영상으로부터 객체의 모션정보를 추정하고, 추정된 모션정보를 기초로 융합된 깊이영상에 대응되는 키 볼륨을 업데이트할 수 있다.

제어부(180)는 객체 복원장치(100) 내의 구성들을 제어하는 구성으로, 각 구성들의 구동을 제어하여 객체 복원을 수행할 수 있다. 제어부(180)는 융합된 깊이영상과 키 볼륨의 대응점을 비교하고, 키 볼륨의 생성여부를 판단할 수 있다.

영상 송신부(190)는 객체 복원장치(100)에서 생성된 객체의 복원 영상을 디스플레이부(200)로 전송할 수 있다. 디스플레이부(200)는 객체 복원장치(100)에 구비될 수도 있고, 외부에 별도의 장치로 구비될 수도 있다. 디스플레이부(200)는 컴퓨터 또는 모니터 등일 수 있다.

도 2는 본 발명의 일 실시예에 따른 객체 복원 장치를 이용한 객체 복원 방법을 도시한 흐름도이고, 도 3은 본 발명의 일 실시 예에 따른 객체 복원 장치를 이용하여 깊이영상을 추정하는 방법을 도시한 흐름도이고, 도 4는 본 발명의 일 실시에에 따른 객체 복원 장치를 이용하여 깊이영상을 융합하는 방법을 도시한 흐름도이다.

도 2를 참조하면, 동적 객체를 복원하는 방법의 일 실시 예는 다음과 같다.

객체 복원 장치는, 먼저 하나 이상의 스테레오 카메라 세트(10, 20, 80)를 이용하여 동적 객체를 촬영할 수 있다. 여기서, 스테레오 카메라 세트(10, 20, 80)는 동적 객체를 소정의 시간 단위(T)로 촬영할 수 있다. 소정의 시간 단위란 일정한 시간 간격이거나, 임의의 시간(예를 들어, 객체의 움직임이 감지되는 시간)일 수 있다. 촬영된 영상정보는 객체 복원장치(100)의 영상 정보 수신부(110)로 전달될 수 있다(S100).

그 다음, 객체 복원 장치는 획득된 영상을 이용하여 깊이영상을 추정할 수 있다(S200). 깊이영상은 각각의 스테레오 카메라 세트(10, 20, 80) 별로 수행될 수 있다.

도 3을 참조하여, 깊이영상을 추정하는 방법을 상세하게 설명하면, 먼저 스테레오 카메라 세트(10, 20, 80)의 둘 이상의RGB 카메라(12, 22, 82)로부터 촬영된 RGB 영상 정보 및 둘 이상의IR 카메라(14, 24, 84)로부터 촬영된 IR 영상 정보를 획득할 수 있다. 스테레오 정합을 위하여 영상정보는 둘 이상을 포함할 수 있다. 영상정보는 하나 이상의 RGB 영상 또는 하나 이상의 IR 영상 중 적어도 하나 이상을 포함할 수 있다. 스테레오 카메라 세트(10, 20, 80)는 동적 객체를 실시간으로 촬영하거나, 소정의 시간 간격으로 촬영할 수 있다(S210).

스테레오 정합부(122)에서는 수신된 하나 이상의 RGB 영상 정보를 이용하여 스테레오 정합을 수행할 수 있다(S211). 또한 스테레오 정합부(122)에서는 수신된 IR 영상 정보를 이용하여 스테레오 정합할 수 있다(S212).

특히, RGB 영상 정보는 컬러(RGB) 정보를 포함하고 있으므로, 색상 보정 과정을 통해 일관성 있는 색상 정보를 획득할 수 있다. 색상 보정을 위한 별도의 보정부(미도시)가 구비될 수 있다. 또한 IR 영상 정보는 DOE 프로젝터를 통해 임의 패턴이 투사된 상태에서 획득될 수 있다.

둘 이상의 RGB 영상 정보는 스테레오 정합되어 제1 깊이영상으로 추정될 수 있다(S214). 또한, 둘 이상의 IR 영상 정보는 스테레오 정합되어 제2 깊이영상으로 추정될 수 있다.(S215)

전배경 분리부(124)는 제1 깊이영상 및 제2 깊이영상을 이용하여 전경 영역 영상 및 배경 영역 영상을 분리하여 객체정보를 획득할 수 있다. 일 실시 예에 따르면, 전경 및 배경 분리는 현재 객체가 평면 위에 존재한다고 가정하고, 제2 깊이영상(IR 영상정보의 깊이영상) 또는 제1 깊이영상 (RGB 영상정보의 깊이영상)에서 공통적으로 나타나는 가장 큰 평면을 추정한 후, 평면 위에 있는 물체 중 특정 거리보다 작은 물체 정보만 남기고 제거하는 방식으로 수행될 수 있다(S216). 전배경 분리부(124)는 전경 영역 영상 및 배경 영역 영상 정보를 분리하여 전배경 분할 마스크를 획득할 수 있다(S217).

다시 도 2를 참조하면, 깊이영상을 추정하는 단계를 통하여 제1 깊이영상, 제2 깊이영상 및 전배경 분할 마스크를 획득할 수 있고, 이를 이용하여 깊이영상을 융합할 수 있다(S300).

도 4를 참조하여 깊이영상을 융합하는 방법을 상세하게 설명하면, 스테레오 카메라 세트(10, 20, 80) 별로 추정된 제1 깊이영상 및 제2 깊이영상은 깊이영상 융합부(130)의 신뢰도 추정부(132)로 전달되어 신뢰도를 추정할 수 있다(S310).

각각의 스테레오 카메라 세트(10, 20, 80)에서 깊이영상 추정 단계를 거쳐 전배경 분할 마스크를 통해 결정된 하나 이상의 깊이영상과 텍스처 매핑을 위한 컬러 영상은 깊이영상 융합부(130)로 수신될 수 있다. 다수 개(N개)의 깊이영상을 효과적으로 융합하기 위해 깊이영상 중 전경 영역의 각 픽셀에 대해 신뢰도를 추정하며, 추정된 신뢰도에 기초하여 신뢰도가 높은 픽셀의 깊이 정보를 우선적으로 융합할 수 있다(S310).

깊이영상 융합부(130)는 신뢰도를 추정한 후 제1 깊이영상 및 제2 깊이영상을 융합할 수 있다(S320). 또한, 융합된 깊이영상과 전배경 분할 마스크 정보를 이용하여, 스테레오 카메라 세트 별로 획득된 N 개의 깊이영상은 깊이영상 융합부(130)에서 융합될 수 있다(S330). 융합된 깊이영상은 입력 볼륨으로써 복원부(140)로 전달될 수 있다.

다시 도 2를 참조하면, 깊이영상 융합단계에서 융합된 깊이영상을 이용하여 키 볼륨을 생성할 수 있다(S400). 융합된 깊이영상은 소정의 시간 간격으로 매 프레임 수신될 수 있다. 융합된 깊이영상은 융합된 형태의 포인트 클라우드를 포함할 수 있다.

먼저, 제어부(180)를 이용하여, 융합된 깊이영상을 이용하여 키 볼륨(기준이 되는 볼륨)의 생성 여부를 판단하기 위한 키 볼륨 탐색 과정이 필요하다. 키 볼륨이 기존에 존재하지 않으면, 입력 볼륨을 키 볼륨으로 선택하여 생성할 수 있다.

융합된 깊이영상에 대응되는 키 볼륨이 기존에 존재하면, 입력 볼륨(다음시간에서 융합된 깊이영상)과 키 볼륨(기존에 생성된 키 볼륨)의 대응점에 기반하여 입력 볼륨과 기존에 생성된 키 볼륨을 비교하고 매칭함으로써 다시 키 볼륨을 생성할지 또는 키 볼륨을 업데이트 할지를 판단할 수 있다(S410).

입력 볼륨과 기존의 키 볼륨의 대응점을 비교하여 거의 매칭되는 경우에는, 객체의 토폴로지(topology) 변화가 적은 경우라고 판단할 수 있다. 여기서, 토폴로지란 객체의 외형 또는 형태 등을 의미할 수 있다.

이러한 경우, 객체의 모션 정보를 추정(S420)하고, 이를 기초로 융합된 깊이영상에 대응되는 키 볼륨을 업데이트 할 수 있다(S430).

객체가 사람인 경우를 예를 들어 설명하면, 스테레오 카메라 세트의 촬영 범위 내의 토폴로지 변화가 적으면, 객체의 영상정보는 거의 변화되지 않을 수 있다. 그러므로 새로운 키 볼륨을 생성하지 않고, 키 볼륨을 업데이트하게 된다.

입력 볼륨과 기존의 키 볼륨의 대응점을 비교하여 매칭이 되지 않고 차이가 난다면, 객체의 토폴로지 변화가 큰 경우라고 판단할 수 있다. 이러한 경우, 키 볼륨을 새롭게 생성해야 하므로 입력 볼륨을 키 볼륨으로 생성할 수 있다. 생성된 키 볼륨으로 키 볼륨을 업데이트 할 수 있다(S430).

객체가 사람인 경우를 예를 들어 설명하면, 스테레오 카메라 세트의 촬영 범위 내의 사람이 갑자기 옷을 갈아입거나 모자를 쓰는 등 객체의 토폴로지 변화가 큰 경우에는 기존의 키 볼륨과 대응점이 매칭되지 않으므로 새로운 키 볼륨을 생성할 수 있다. 업데이트된 키 볼륨은 현재 시점에서의 볼륨으로 와핑(warping) 작업이 수행될 수 있다(S510). 와핑 작업 후 마칭 큐브(Marching cube) 알고리즘을 이용하여 메시 및 텍스처 생성부(146)에서 메시와 텍스처 맵이 생성될 수 있다(S520). 생성된 메시 및 텍스처 맵은 시간적, 공간적 관계를 이용하여 압축될 수 있다(S530). 압축된 메시 및 텍스처 맵을 이용하여 동적 객체에 대한 완전한 3D모델 또는 모션 정보를 포함하는 4D 모델을 복원할 수 있다(S540).

동적 객체의 모션 정보를 이용하여 입력 볼륨과 키 볼륨의 대응점을 확인하여 키 볼륨을 업데이트함으로써, 키 볼륨에서의 깊이 정보에 대한 정확도를 높이고, 키 볼륨에서 가려짐에 의해 비어있는 부분의 영상을 채우는 과정이 수행될 수 있다.

도 5를 참조하면, 스테레오 카메라 세트에 둘 이상의 RGB 카메라 또는 둘 이상의 IR 카메라를 포함하는 경우, 깊이영상을 추정하는 방법을 설명하면 다음과 같다.

스테레오 카메라 세트에 RGB 카메라가 포함된 경우, 다수의RGB 영상정보를 획득할 수 있다. 또는 스테레오 카메라 세트에 IR 카메라가 포함된 경우, 다수의 IR 영상정보를 획득할 수 있다(S610).

다수의 RGB 영상정보는 스테레오 정합될 수 있다. 또는 다수의 IR 영상정보는 스테레오 정합될 수 있다(S620).

스테레오 정합된 영상정보를 이용하여 깊이영상을 추정할 수 있다. 특히, RGB 영상정보는 컬러를 보정하는 단계를 더 포함할 수 있다(S630).

추정된 깊이영상으로부터 전배경을 분리하고(S640), 전배경 분할 마스크를 획득할 수 있다(S650).

도 6을 참조하면, 스테레오 카메라 세트에 둘 이상의 RGB 카메라 또는 둘 이상의 IR 카메라를 포함하는 경우, 깊이영상을 융합하는 방법을 설명하면 다음과 같다.

먼저, 깊이영상 추정 단계를 통해 추정된 RGB 또는 IR 깊이영상에 대한 신뢰도를 추정할 수 있다(S710)

스테레오 카메라 세트 별로 획득된 N개의 깊이영상은 전배경 마스크 및 추정된 신뢰도에 기반하여 융합될 수 있다(S720).

이상의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims

객체에 대하여 다시점으로 촬영한 복수의 영상을 수신하여 상기 복수의 영상의 깊이영상을 추정하는 깊이영상 추정부;

상기 깊이영상을 융합하는 깊이영상 융합부; 및

상기 융합된 깊이영상을 이용하여 상기 객체의 모션 정보를 추정하고, 상기 추정된 모션 정보를 기초로 하여 상기 융합된 깊이영상에 대응되는 키볼륨을 업데이트하여 상기 객체를 복원하는 복원부를 포함하는 모션 정보를 이용한 객체 복원 장치.
제1항에 있어서,

상기 객체의 영상을 촬영하는 하나 이상의 카메라 세트를 포함하고,

상기 하나 이상의 카메라 세트는,

RGB 카메라 및 IR 카메라 중 적어도 하나 이상을 포함하는 모션 정보를 이용한 객체 복원 장치.
제1항에 있어서,

상기 깊이영상 추정부는,

상기 깊이영상을 정합하는 스테레오 정합부; 및

상기 깊이영상에서 전경 영역 영상 및 배경 영역 영상을 분리하는 전배경 분리부를 포함하는 모션 정보를 이용한 객체 복원 장치.
제1항에 있어서,

상기 복원부는,

대응점 비교를 통해 상기 융합된 깊이영상에 대응되는 키 볼륨을 탐색하고, 상기 융합된 깊이영상에 대응되는 키 볼륨이 존재하지 않으면 키 볼륨을 생성하는 키 볼륨 생성부; 및

상기 융합된 깊이영상에 대응되는 키 볼륨이 존재하면, 상기 융합된 깊이영상으로부터 상기 객체의 모션 정보를 추정하고, 상기 추정된 모션 정보를 기초로 상기 융합된 깊이영상에 대응되는 키 볼륨을 업데이트하는 키 볼륨 업데이트부를 포함하는 모션 정보를 이용한 객체 복원 장치.
하나 이상의 카메라 세트를 이용하여 객체의 영상을 획득하는 단계;

상기 카메라 세트에서 획득된 영상의 깊이영상을 추정하는 단계;

상기 카메라 세트에서 추정된 상기 깊이영상을 융합하는 단계;

상기 융합된 깊이영상을 이용하여 상기 객체의 모션 정보를 추정하는 단계;

상기 추정된 모션 정보를 기초로 상기 융합된 깊이영상에 대응되는 키 볼륨을 업데이트하는 단계; 및

상기 업데이트된 키 볼륨에 기초하여 상기 객체를 복원하는 단계를 포함하는 모션 정보를 이용한 객체 복원 방법.
제5항에 있어서,

상기 깊이영상을 추정하는 단계는,

상기 깊이영상을 추정하도록, 상기 카메라 세트로부터 둘 이상의 영상 정보를 수신하여 스테레오 정합을 수행하는 단계; 및

상기 스테레오 정합된 영상에서 전경 영역 영상 및 배경 영역 영상을 분리하여 전배경 분할 마스크를 획득하는 단계를 포함하는 모션 정보를 이용한 객체 복원 방법.
제6항에 있어서,

상기 둘 이상의 영상정보는,

하나 이상의 RGB 영상 또는 하나 이상의 IR 영상 중 적어도 하나 이상을 포함하는 모션 정보를 이용한 객체 복원 방법.
제7항에 있어서,

상기 하나 이상의RGB 영상에 대한 컬러 보정을 수행하는 보정단계를 더 포함하는 모션 정보를 이용한 객체 복원 방법.
제6항에 있어서,

상기 깊이영상을 융합하는 단계는,

상기 전배경 분할 마스크를 통해 결정된 상기 깊이영상의 상기 전경 영역영상의 각 픽셀에 대한 신뢰도를 추정하는 단계; 및

상기 추정된 신뢰도에 기초하여 상기 깊이영상을 융합하는 단계를 포함하는 모션 정보를 이용한 객체 복원 방법.
제5항에 있어서,

상기 대응점 비교를 통해 상기 융합된 깊이영상에 대응되는 키 볼륨을 탐색하는 단계; 및

상기 융합된 깊이영상에 대응되는 키 볼륨이 존재하지 않으면, 키 볼륨을 생성하는 단계를 더 포함하고,

상기 키 볼륨을 업데이트하는 단계는,

상기 융합된 깊이영상에 대응되는 키 볼륨이 존재하면, 상기 추정된 모션정보를 기초로 상기 융합된 깊이영상에 대응되는 키 볼륨을 업데이트하는 모션 정보를 이용한 객체 복원 방법.
제5항에 있어서,

상기 객체를 복원하는 단계는,

상기 업데이트된 키 볼륨을 와핑(warping)하여 메시 및 텍스처를 생성하는 단계를 포함하는 모션 정보를 이용한 객체 복원 방법.