KR20110032351A

KR20110032351A - 영상 처리 장치 및 방법

Info

Publication number: KR20110032351A
Application number: KR1020090089786A
Authority: KR
Inventors: 김용선; 임화섭; 강병민; 최욱
Original assignee: 삼성전자주식회사
Priority date: 2009-09-22
Filing date: 2009-09-22
Publication date: 2011-03-30
Also published as: US20110069866A1; US8781161B2; KR101640039B1

Abstract

영상 처리 장치가 제공된다. 상기 영상 처리 장치는 입력 깊이 영상 및 입력 칼라 영상 중 적어도 하나를 이용하여 타킷 오브젝트의 3D 실루엣 영상을 생성하는 실루엣 생성부, 상기 3D 실루엣 영상을 이용하여 상기 타킷 오브젝트의 모션 캡처를 수행하여 상기 타킷 오브젝트의 골격(skeleton) 모델을 생성하는 모션 모델링부, 및 탬플릿 메쉬 모델을 상기 타킷 오브젝트의 골격 모델에 정합시켜, 상기 타킷 오브젝트의 3D 모델을 생성하는 3D 모델 생성부를 포함할 수 있다.

3D 모델링, 동작 추정, 깊이 영상, 깊이 카메라, Depth image, Depth Camera, Motion Capture

Description

영상 처리 장치 및 방법{IMAGE PROCESSING APPARATUS AND METHOD}

사용자의 인체(human body)와 같은 타킷 오브젝트를 3D 모델링 하는 영상 처리에 연관되며, 보다 특정하게는 깊이 영상을 이용하여 빠르게 타킷 오브젝트를 3D 모델링하는 영상 처리 장치 및 방법에 연관된다.

최근 영상 처리 기술의 발달에 따라, 사용자의 인체와 같은 타킷 오브젝트를 3D 모델링 하는 분야의 관심도 커지고 있다. 인체를 3D 모델링 하는 경우, 가상 현실(virtual reality), 영화 또는 비디오 게임에서의 컴퓨터 그래픽(computer graphic. CG) 등에 활용될 수 있으므로, 활용도가 클 것으로 예상된다.

타킷 오브젝트를 3D 모델링하기 위해, 종래에는 레이저 스캐너(Laser Scanner)를 이용하여 타킷 오브젝트의 공간 형상 정보(spatial geometry information)를 스캐닝 하거나, 여러 개의 칼라 카메라를 이용하여 획득된 칼라 영상을 합성하는 등의 방법이 이용되었다.

그러나, 이러한 기술들은 특수한 촬영 환경을 필요로 하거나, 3D 모델링에 소요되는 처리 시간이 상대적으로 커서, 활용도에 제한이 있었다.

따라서, 특수한 촬영 환경을 요구하거나, 처리 시간을 많이 요구하는 등의 제한을 극복하여 타킷 오브젝트를 빠르고 간단하게 3D 모델링 하는 경우, 활용도가 매우 클 것으로 예상된다.

레이저 스캐너와 같은 특수한 촬영 환경 없이도, 비교적 빠른 시간에 타킷 오브젝트의 3D 모델을 생성함으로써, 효율성을 높인 영상 처리 장치 및 방법이 제공된다.

타킷 오브젝트를 3D 모델링 함에 있어서, 텍스처 정보를 자유롭게 변형시킴으로써, 3D 모델링의 품질을 높일 수 있는 영상 처리 장치 및 방법이 제공된다.

본 발명의 일측에 따르면, 입력 깊이 영상 및 입력 칼라 영상 중 적어도 하나를 이용하여 타킷 오브젝트의 3D 실루엣 영상을 생성하는 실루엣 생성부, 상기 3D 실루엣 영상을 이용하여 상기 타킷 오브젝트의 모션 캡처를 수행하여 상기 타킷 오브젝트의 골격(skeleton) 모델을 생성하는 모션 모델링부, 및 탬플릿 메쉬 모델을 상기 타킷 오브젝트의 골격 모델에 정합시켜, 상기 타킷 오브젝트의 3D 모델을 생성하는 3D 모델 생성부를 포함하는, 영상 처리 장치가 제공된다.

여기서 상기 타킷 오브젝트는 인체(human body)일 수 있다.

한편, 상기 실루엣 생성부는, 상기 입력 깊이 영상의 픽셀 세그멘태이션(segmentation)을 수행하여, 상기 입력 깊이 영상을 복수 개의 세그먼트로 분할하고, 상기 복수 개의 세그먼트 중 학습 기반 얼굴 검출(head detection)을 수행함 으로써, 상기 타킷 오브젝트의 3D 실루엣 영상을 생성할 수 있다.

또한, 상기 실루엣 생성부는, 상기 입력 칼라 영상의 픽셀 세그멘태이션을 수행한 결과를 이용하여, 상기 입력 깊이 영상을 이용하여 생성된 상기 타킷 오브젝트의 3D 실루엣 영상을 보정(refinement)할 수 있다.

그리고, 상기 모션 모델링부는, 상기 3D 실루엣 영상에 학습 기반 얼굴 영역 검출을 수행하고, 상기 얼굴 영역을 기준으로 Rectangle fitting 알고리즘을 통해, 상기 타킷 오브젝트의 복수 개의 절지(Limb) 및 상기 절지를 이어주는 적어도 하나의 관절(Joint)의 위치를 계산하는 제1 계산부, 및 상기 타킷 오브젝트의 복수 개의 절지 및 적어도 하나의 관절의 위치를 이용하여 상기 타킷 오브젝트의 모션 캡처를 수행하여 상기 타킷 오브젝트의 골격(skeleton) 모델을 생성하는 제2 계산부를 포함할 수 있다.

본 발명의 일 실시예에 따르면, 상기 영상 처리 장치는, 상기 3D 실루엣 영상을 이용하여, 상기 타킷 오브젝트의 골격 모델에 정합된 상기 탬플릿 메쉬 모델을 보정함으로써 상기 타킷 오브젝트의 3D 모델을 보정하는 3D 모델 정제부를 더 포함한다.

또한, 본 발명의 일 실시예에 따르면, 상기 영상 처리 장치는, 상기 입력 칼라 영상을 이용하여 상기 타킷 오브젝트의 3D 모델의 텍스처를 생성하는 텍스처 생성부를 더 포함한다.

나아가, 상기 영상 처리 장치는 상기 타킷 오브젝트의 3D 모델에 적용될 수 있는 텍스처 데이터를 저장하는 텍스처 DB를 더 포함할 수 있고, 이 경우, 상기 텍 스처 생성부는, 상기 텍스처 DB에 저장된 텍스처 데이터를 이용하여 상기 타킷 오브젝트의 3D 모델의 텍스처를 생성한다.

한편, 상기 영상 처리 장치는, 상기 입력 깊이 영상과 상기 입력 칼라 영상이 서로 정합되지 않은 경우, 상기 입력 깊이 영상과 상기 입력 칼라 영상을 정합시키는 영상 정합부를 더 포함할 수 있다.

본 발명의 일 실시예에 따르면, 상기 3D 모델 생성부는, Radial Basis Function을 이용하여, 상기 탬플릿 메쉬 모델을 상기 타킷 오브젝트의 골격 모델로 변형시킨다.

본 발명의 다른 일측에 따르면, 입력 깊이 영상을 이용하여 타킷 오브젝트의 3D 실루엣 영상을 생성하는 실루엣 생성부, 상기 3D 실루엣 영상을 이용하여 상기 타킷 오브젝트의 모션 캡처를 수행하여 상기 타킷 오브젝트의 골격(skeleton) 모델을 생성하는 모션 모델링부, 탬플릿 메쉬 모델을 상기 타킷 오브젝트의 골격 모델에 정합시켜, 상기 타킷 오브젝트의 3D 모델을 생성하는 3D 모델 생성부, 상기 타킷 오브젝트의 3D 모델에 적용될 수 있는 텍스처 데이터를 저장하는 텍스처 DB, 및 상기 텍스처 DB에 저장된 텍스처 데이터를 이용하여 상기 타킷 오브젝트의 3D 모델의 텍스처를 생성하는 텍스처 생성부를 포함하는, 영상 처리 장치가 제공된다.

한편, 본 발명의 또 다른 일측에 따르면, 입력 깊이 영상 및 입력 칼라 영상 중 적어도 하나를 이용하여 타킷 오브젝트의 3D 실루엣 영상을 생성하는 실루엣 생성 단계, 상기 3D 실루엣 영상을 이용하여 상기 타킷 오브젝트의 모션 캡처를 수행하여 상기 타킷 오브젝트의 골격(skeleton) 모델을 생성하는 모션 모델링 단계, 및 탬플릿 메쉬 모델을 상기 타킷 오브젝트의 골격 모델에 정합시켜, 상기 타킷 오브젝트의 3D 모델을 생성하는 3D 모델 생성 단계를 포함하는, 영상 처리 방법이 제공된다.

여기서, 상기 실루엣 생성 단계는, 상기 입력 깊이 영상의 픽셀 세그멘태이션(segmentation)을 수행하여, 상기 입력 깊이 영상을 복수 개의 세그먼트로 분할하는 단계, 및 상기 복수 개의 세그먼트 중 학습 기반 얼굴 검출(head detection)을 수행함으로써, 상기 타킷 오브젝트의 3D 실루엣 영상을 생성하는 단계를 포함할 수 있다.

그리고, 상기 모션 모델링 단계는, 상기 3D 실루엣 영상에 학습 기반 얼굴 영역 검출을 수행하고, 상기 얼굴 영역을 기준으로 Rectangle fitting 알고리즘을 통해, 상기 타킷 오브젝트의 복수 개의 절지(Limb) 및 상기 절지를 이어주는 적어도 하나의 관절(Joint)의 위치를 계산하는 단계, 및 상기 타킷 오브젝트의 복수 개의 절지 및 적어도 하나의 관절의 위치를 이용하여 상기 타킷 오브젝트의 모션 캡처를 수행하여 상기 타킷 오브젝트의 골격(skeleton) 모델을 생성하는 단계를 포함할 수 있다.

레이저 스캐너와 같은 특수한 촬영 환경 없이도, 비교적 빠른 시간에 저렴한 비용으로 타킷 오브젝트의 3D 모델을 생성하는 것이 가능하다.

따라서, 3D 모델링을 위한 영상 처리 장치의 크기는 줄어들고, 휴대성은 증가한다.

또한, 타킷 오브젝트를 3D 모델링 함에 있어서, 텍스처 정보를 자유롭게 변형시킴으로써, 3D 모델링의 품질을 높일 수 있다.

이하에서, 본 발명의 일부 실시예를, 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 본 발명의 일 실시예에 따른 영상 처리 장치(100)를 도시한다.

영상 처리 장치(100)는, 깊이 영상 및 칼라 영상을 입력 받아, 상기 깊이 영상 내의 타킷 오브젝트를 모델링 한다. 특히, 영상 처리 장치(100)는 타킷 오브젝트가 인체(human body)인 경우, 즉 3D body 모델링을 수행한다.

다만, 상기 칼라 영상의 입력은 실시예에 따라 생략될 수 있으며, 깊이 영상 만으로 3D 모델을 생성한 다음, 텍스처 정보는 소정의 텍스처 DB(160)에 저장된 데이터로부터 선택하는 것도 가능하다.

영상 정합부(110)는, 입력되는 깊이 영상의 해상도가 칼라 영상의 해상도보다 낮은 경우, 기존에 알려진 Camera calibration 방법 등을 이용하여, 상기 깊이 영상을 상기 칼라 영상에 정합시킨다.

이 과정에서, 특징점(feature) 추출 및 변환행렬 계산을 통하여, 깊이 영상의 각 픽셀의 공간 좌표 값들을 바꿀 수 있으며, 해상도 차이는 보간(interpolation) 등의 방법에 의해 해결할 수도 있다.

깊이 영상이 칼라 영상에 정합되거나, 또는 처음부터 정합되어서 입력되는 경우, 실루엣 생성부(120)는 상기 깊이 영상을 이용하여, 3D 실루엣 영상을 추출한다.

이를 테면, 실루엣 생성부(120)는 상기 깊이 영상의 각 픽셀들에 대하여, 픽셀 세그멘태이션(pixel segmentation)을 수행하여, 상기 입력 깊이 영상을 복수 개의 세그먼트(segment)로 분할한다.

그리고, 실루엣 생성부(120)는 분할된 복수 개의 세그먼트 중, 학습(training) 기반의 얼굴 검출(face detection) 또는 머리 검출(head detection)을 통해, 인체(human body)인 타킷 오브젝트에 해당하는 세그먼트를 검출한다.

실루엣 생성부가 깊이 영상을 이용하여 3D 실루엣 영상을 추출하는 보다 상세한 과정은 도 4 내지 도 5를 참조하여 보다 상세히 후술한다.

3D 실루엣 영상이 생성된 경우, 모션 모델링부(130)의 제1 계산부(131)는, 상기 3D 실루엣 영상에서 머리 검출(head detection)을 수행하고, 검출된 머리 부분을 기초로 하여, Rectangle fitting 알고리즘 등의 방법을 이용하여, 타킷 오브젝트의 절지(Limb)들 및 관절(Joint)들의 위치를 계산한다.

그리고, 계산된 절지(Limb)들 및 관절(Joint)들의 위치를 이용하여, 제2 계산부(132)는 타킷 오브젝트의 Skeleton 모델을 생성하여 제공할 수 있다.

모션 모델링부(130)의 동작은, 도 6을 참조하여 보다 상세히 후술한다.

그리고, 3D 모델 생성부(140)는, 미리 주어지는 탬플릿 메쉬 모델의 Skeleton 정보들, 이를테면 절지(Limb) 및 관절(Joint)의 위치를, 상기 모션 모델링부(130)가 생성한 Skeleton 모델의 형태로 변환하는 과정을 통해, 상기 탬플릿 메쉬 모델을 타킷 오브젝트에 정합시킨다.

이러한 탬플릿 메쉬 모델의 변형, 정제(Refinement) 기타 3D 모델 생성부(140)의 동작에 관해서는, 도 7 내지 도 11을 참조하여 보다 상세히 후술한다.

그리고, 텍스처 생성부(150)는, 상기 입력 칼라 영상을 이용하여, 상기 생성된 3D 메쉬 모델의 텍스처를 결정할 수 있다.

또한, 상기 텍스처 생성부(150)는 상기 입력 칼라 영상을 참조하여 생성된 상기 3D 메쉬 모델의 텍스처를 복수 개의 세그먼트(segment)로 세그멘태이션(segmentation) 한 후, 텍스처 DB(160)에 저장된 다른 텍스처를 선택하여 3D 모델링을 수행하는 것도 가능하다.

텍스처 생성부(150)의 동작은, 도 13 내지 도 16을 참조하여 보다 상세히 후술한다.

도 2는 본 발명의 일 실시예에 따라 입력되는 칼라 영상(200)을 도시한다.

본 발명의 실시예에 따르면, 입력되는 칼라 영상(200)은 타킷 오브젝트인 인체 부분과 배경 부분을 포함한다. 본 발명의 실시예들에 따르면, 상기 타킷 오브젝트 부분을 반영한 3D Body 모델을 생성한다.

도 3은 본 발명의 일 실시예에 따라 입력되는 깊이 영상(300)을 도시한다.

깊이 영상(300)은 깊이 카메라, 이를테면 적외선 TOF(Time of flight) 방식의 깊이 카메라를 이용하여 획득된다.

상기 도 2의 칼라 영상(200)의 획득에 사용되는 칼라 카메라와 상기 깊이 영상(300)의 획득에 사용되는 깊이 카메라의 시점이나 해상도가 다른 경우, 상기 깊이 영상(300)과 칼라 영상(200)을 정합시킬 필요가 있다.

본 발명의 일 실시예에 따르면, 깊이 영상(300)의 해상도가 칼라 영상(200)의 해상도보다 낮은 경우, 도 1의 영상 정합부(110)는, 기존에 알려진 Camera calibration 방법 등을 이용하여, 상기 깊이 영상(300)을 상기 칼라 영상(200)에 정합시킨다.

도 4는 본 발명의 일 실시예에 따라, 도 3의 입력 깊이 영상(300)이 도 2의 입력 칼라 영상(200)에 정합된 결과를 도시한다.

새로운 깊이 영상(400)의 경우, 시점이나 해상도에 있어서, 상기 입력 칼라 영상(200)에 정합되어 있다.

그러나, 이러한 깊이 영상-칼라 영상 간의 정합 과정은, 일부 실시예에서 수행될 뿐이며, 본 발명의 다른 실시예에서, 깊이 영상(300)과 칼라 영상(200)이 동일한 센서에서 동시 취득되는 경우에는 생략될 수 있다.

한편, 깊이 영상(400)은 3D 모델링을 수행해야 할 타킷 오브젝트 부분(410)과 배경 부분(420 및 430)을 포함한다.

본 발명의 일 실시예에 따르면, 도 1의 실루엣 생성부(120)는 상기 깊이 영상(400)을 이용하여, 3D 실루엣 영상을 추출한다.

이를 테면, 실루엣 생성부(120)는 상기 깊이 영상(400)의 각 픽셀들에 대하 여, 픽셀 세그멘태이션(pixel segmentation)을 수행하여, 상기 입력 깊이 영상을 복수 개의 세그먼트(segment)로 분할한다.

그리고, 실루엣 생성부(120)는 분할된 복수 개의 세그먼트 중, 학습(training) 기반의 얼굴 검출(face detection) 또는 머리 검출(head detection)을 통해, 인체(human body)인 타킷 오브젝트에 해당하는 세그먼트(410)를 검출한다.

이 과정에서 실루엣 생성부(120)는 깊이 값이 소정의 범위를 초과하는 픽셀들은 타킷 오브젝트 부분이 아닐 확률이 크므로, 상기 세그멘태이션 과정에서 배제할 수 있다.

또한, 바닥면에 관한 부분(430)이나, 벽면(420)에 관한 부분은, 3개 이상의 인접한 픽셀 값들을 이용하여 생성된 평면 방정식으로 모델링 하고, 이 평면에 해당하는 픽셀들은 일괄적으로 배제할 수도 있다.

또한, 실루엣 생성부(120)에 상기 깊이 영상(400)에 정합된 적외선 인텐시티 영상(intensity image)이 제공되는 경우, 실루엣 생성부(120)는 이를 이용하여 깊이 접힘(depth folding) 부분을 제거하는 등, 3D 실루엣 영상 추출의 품질을 높일 수 있다.

그리고, 이 과정에서 다양한 전처리(pre processing) 및/또는 후처리(post processing)을 통해 3D 실루엣 영상 추출의 품질을 높이는 것도 가능하다.

도 5는 본 발명의 일 실시예에 따라, 도 4의 입력 깊이 영상(400)으로부터 추출된 3D 실루엣 영상(500)을 도시한다.

상술한 실시예에서, 깊이 영상(400)을 이용하여 상기 3D 실루엣 영상(500)을 추출하는 과정을 설명하였으나, 칼라 영상(200)에 세그멘태이션을 수행하는 것도 가능하며, 이 과정에서 깊이 영상(400)이 함께 활용될 수 있다.

그리고, 상술한 실시예에서, 깊이 영상(400)을 이용하여 상기 3D 실루엣 영상(500)이 추출된 후, 또는 그 전에라도, 칼라 영상(200)을 이용하여 정제(refining) 과정을 거쳐서, 품질을 향상시킬 수도 있다.

3D 실루엣 영상(500)에서, 타킷 오브젝트에 대응하는 부분(510)의 픽셀들은, 깊이 값을 가지고, 따라서 상기 픽셀들은 공간 좌표에 의해 표현된다(be coordinated).

그리고, 그 이외의 부분(520)은 blank로 남아 있다.

도 6은 본 발명의 일 실시예에 따라, 도 5의 3D 실루엣 영상(500)을 이용하여 생성되는 Skeleton 모델(600)을 도시한다.

본 발명의 일 실시예에 따르면, 모션 모델링부(130)의 제1 계산부(131)는, 상기 3D 실루엣 영상(500)에서 머리 검출(head detection)을 수행하고, 검출된 머리 부분을 기초로 하여, Rectangle fitting 알고리즘 등의 방법을 이용하여, 타킷 오브젝트의 절지(Limb)들 및 관절(Joint)들의 위치를 계산한다.

물론, 본 발명이 특정 실시예에 국한되는 것은 아니며, 3D 실루엣 영상(500)을 이용하여 타킷 오브젝트의 Skeleton 모델(600)을 생성하는 다른 알고리즘의 이용을 배제하는 것은 아니다.

또한, 본 실시예와는 달리, 보다 정밀한 측정을 위하여, 타킷 오브젝트의 Skeleton 모델(600)이 별도의 모션 캡처 방법(이를테면, 통상적인 모션 센서를 이용하는 등)에 의해 제공되는 것도 가능하다.

다시, 도 6의 실시예에서, 상술한 바에 의해 계산된 머리 부분 및 복수 개의 관절들(610, 611, 612, 613, 614 및 615 등)의 위치가 계산되고, 그 사이의 절지(Limb)들(620, 621, 및 622 등)의 위치가 확정되는 경우, 제2 계산부(132)는 타킷 오브젝트의 Skeleton 모델을 생성하여 제공할 수 있다.

이 과정에서, 모션 모델링부(130)는 다양한 수학적 기법들, 이를테면 Inverse-Kinematics 등을 이용하여, 제1 계산부(131)에 의해 계산된 관절의 수를 더 늘릴 수 있다. 그 결과, 상기 Skeleton 모델(600)의 정밀도가 높아질 수 있다.

도 7은 본 발명의 일 실시예에 따른 영상 처리 장치에서 사용되는 탬플릿 메쉬 모델(700)을 도시한다.

탬플릿 메쉬 모델(700)은 메쉬(mesh) 기반의 형상 정보를 포함한다.

현재 탬플릿 메쉬 모델(700)의 자세는, 상기 실시예에서의 타킷 오브젝트의 자세와 다르며, 탬플릿 메쉬 모델(700)과 상기 타킷 오브젝트의 키(height), 체격 등의 모습도 다르다.

따라서, 이러한 탬플릿 메쉬 모델(700)의 자세와 체격 등을 상기 실시예에서의 타킷 오브젝트의 그것들과 동일하도록 정합시키는 과정이 수행되어야 한다.

도 8은 본 발명의 일 실시예에 따라, 상기 도 7의 탬플릿 메쉬 모델(700)의 Skeleton의 모습(800)을 도시한다.

탬플릿 메쉬 모델(700)의 Skeleton(800) 정보들, 이를테면 머리 부분(800) 이나 관절들(811, 812, 813, 814 및 815 등)의 위치, 그리고 절지(Limb)들의 위치는 상기 탬플릿 메쉬 모델(700)과 함께 미리 제공된다.

본 발명의 일 실시예에 따르면, 제공되는 탬플릿 메쉬 모델(700)의 Skeleton(800) 정보들은, 상기 타킷 오브젝트의 Skeleton 모델(600)과 동일한 수의 관절들 및 절지들의 정보를 포함한다.

따라서, 탬플릿 메쉬 모델(700)의 Skeleton(800)의 관절들의 공간 좌표를, 도 6의 타킷 오브젝트의 Skeleton 모델(600)의 관절들의 공간 좌표로 변경하는 행렬식을 계산하는 경우, 이를 탬플릿 메쉬 모델(700)의 복수 개의 메쉬(또는 Vertex)들에 적용 시킴으로써, 탬플릿 메쉬 모델(700)의 자세나 체격을 타킷 오브젝트의 그것들과 유사하게 변경할 수 있다.

도 9는 본 발명의 일 실시예에 따른 영상 처리 장치에 의해, 상기 도 7의 탬플릿 메쉬 모델(700)이 상기 도 6의 Skeleton 모델(600)에 정합되도록 변형된 결과(900)를 도시한다.

이렇게 변형된 메쉬 모델(900)의 경우, Skeleton 정보에 있어서는 타킷 오브젝트와 유사하나, 오차가 있다. 3D 모델 생성부(140)는 이를 보정(Refinement)하여 보다 정밀한 3D 모델을 생성하는데, 이 과정이 도 10 내지 도 11을 참조하여 후술된다.

도 10은 상기 3D 실루엣 영상(500)에 정합되도록 정제되지 않은 상기 도 9의 메쉬 모델(1010)을 도시한다.

메쉬 모델(1010)의 무릎 근처 부분을 확대한 확대도(1020)를 참조하면, 메 쉬의 가장자리 라인(1021)이 3D 실루엣 영상(500)의 가장자리 라인과 서로 맞지 않다.

따라서, 상기한 과정만으로는 생성된 메쉬 모델(1010)이 실제 타킷 오브젝트보다 더 뚱뚱하거나, 더 말랐거나, 또는 자세가 약간 다른 등의 오차가 생김을 알 수 있다.

따라서, 3D 모델 생성부(140)는 이러한 부분을 영상 처리를 통해 정제(Refinement)한다.

도 11은 본 발명의 일 실시예에 따라, 상기 3D 실루엣 영상(500)에 정합되도록 정제된 상기 도 9의 메쉬 모델(1110)을 도시한다.

메쉬 모델(1110)의 무릎 부분 확대도(1120)을 관찰하면, 메쉬의 가장자리 라인(1121)이 3D 실루엣 영상(500)의 가장자리 라인과 잘 맞는 것을 알 수 있다.

이러한 영상 정제 과정이 반드시 요구되는 것은 아니므로, 본 발명의 다른 실시예에서는 생략될 수도 있으나, 이는 어디까지나, 연산양과 3D 모델 품질 사이의 Trade-off로 볼 수 있다.

이렇게 3D 모델이 확립되면, 텍스처 생성부(150)는, 상기 3D 메쉬 모델(1110)의 텍스처를 결정한다.

상기 텍스처(texture)에는 칼라 정보 등이 포함된다.

본 발명의 일 실시예에 따르면, 텍스처 생성부(150)는 도 2의 입력 칼라 영상(200)을 이용하여, 상기 3D 메쉬 모델(1110)의 텍스처를 결정할 수 있다.

도 12는 본 발명의 일 실시예에 따라, 입력 칼라 영상(1210)의 픽셀 값을 이용하여, 상기 도 11의 메쉬 모델(1220)의 텍스처 정보를 생성하는 과정을 도시한다.

입력 칼라 영상(1210)의 일부분 확대도(1211)을 관찰하면, 3D 메쉬 모델(1220)의 특정 메쉬(1212)에 해당하는 부분의 칼라 값이 무엇인지 알 수 있다. 따라서, 메쉬 모델(1220)의 부분 확대도(1221) 내의 메쉬(1222) 부분 칼라 값이 결정될 수 있는 것이다.

이 경우, 칼라 영상(1210)은 깊이 영상(400), 3D 실루엣 영상(500) 및 3D 메쉬 모델(1220)과 정합되어 있으므로, 상기 결과의 신뢰도는 보장될 수 있다.

도 13은 도 12에서 도시된 본 발명의 일 실시예에 따라, 상기 입력 칼라 영상의 픽셀 값을 이용하여 도 11의 메쉬 모델(1220)의 텍스처 정보를 생성한 결과를 도시한다.

실제 칼라 영상(200)으로부터 칼라 값을 가져왔으므로, 약간의 오차는 별론으로, 실제 칼라 영상(200)과 유사한 형태의 3D 모델 텍스처가 생성되었다.

한편, 상기한 실시예에서는, 타킷 오브젝트의 칼라 영상(200)의 칼라 값을 그대로 채용하여 3D 모델의 텍스처를 생성하였으나, 본 발명은 이에 한정되지 않는다.

보다 다양한 3D 모델의 활용을 위해, 마치 온라인 상의 아바타(avata)의 옷을 갈아 입히는 것처럼, 상기 3D 모델의 텍스처 정보를 임의로 변경하는 것도 가능하다.

이러한 과정이 도 14 이하를 참조하여 후술된다.

도 14는 본 발명의 일 실시예에 따라 도 13의 텍스처 정보를 세그멘태이션 한 결과를 도시한다.

3D 메쉬 모델(1220)의 텍스처를 임의로 변경하기 위해, 텍스처 생성부(150)는 상기 도 13의 텍스처를 복수 개로 세그멘태이션 한다.

상의 부분 세그먼트(1410), 셔츠의 칼라 부분 세그먼트(1420), 타이 부분 세그먼트(1430), 가디건 부분 세그먼트(1440), 하의 부분 세그먼트(1450) 및 구두부분 세그먼트들(1460 및 1470)이 도시되었다.

이들 세그먼트의 각각은 텍스처 DB(160)에 저장된 다른 모양, 다른 칼라의 세그먼트 데이터에 의해 대체될 수 있다.

도 15는 본 발명의 일 실시예에 따라 텍스처 DB 내에서 상기 도 14의 텍스처 정보 세그먼트들을 대체할 텍스처 정보 세그멘트들을 선택한 모습을 도시한다.

도 14에 도시된 텍스처의 상의 부분 세그먼트(1410)는 세그먼트(1510)에 의해, 셔츠의 칼라 부분 세그먼트(1420)는 세그먼트(1520)에 의해, 타이 부분 세그먼트(1430)는 세그먼트(1530)에 의해, 가디건 부분 세그먼트(1440)는 세그먼트(1540)에 의해, 하의 부분 세그먼트(1450)는 세그먼트(1550)에 의해, 그리고 구두부분 세그먼트들(1460 및 1470)은, 세그먼트들(1560 및 1570)에 의해 각각 대체되었다.

도 16은 본 발명의 일 실시예에 따라, 도 15에서 선택된 텍스처 정보 세그먼트들을 도 12의 메쉬 모델(1220)에 적용한 결과(1600)를 도시한다.

3D 모델의 텍스처(1600)는 도 13에서의 텍스처(1300)와는 상이하다. 이러한 과정에 의해, 매우 다양한 변형 및 응용이 가능하리라는 점은 쉽게 이해될 수 있다.

도 17은 본 발명의 일 실시예에 따라 생성된 타킷 오브젝트의 3D 모델(1700)을 도시한다.

이렇게 생성된 3D 모델(1700)은, 상기 타킷 오브젝트인 인체를 반영한다.

그리고, 체격은 유지하면서, 옷이나 구두, 나아가 도시되지는 않았으나, 머리카락의 모양이나 색상, 그리고 피부톤 등도 자유롭게 변형할 수 있다.

이러한 다양한 응용예들은, 본 발명의 사상을 벗어나지 않는 범위 내에서는, 본 발명의 권리에 속한다.

도 18은 본 발명의 일 실시예에 따른 영상 처리 방법을 도시한다.

단계(S1810)에서, 입력되는 깊이 영상의 해상도가 칼라 영상의 해상도보다 낮은 경우, 기존에 알려진 Camera calibration 방법 등을 이용하여, 상기 깊이 영상이 상기 칼라 영상에 정합된다.

이 과정에서, 특징점(feature) 추출 및 변환행렬 계산을 통하여, 깊이 영상의 각 픽셀의 공간 좌표 값들을 바꾸는 것이 가능하며, 해상도 차이는 보간(interpolation) 등의 방법에 의해 해결될 수도 있다.

깊이 영상이 칼라 영상에 정합되거나, 또는 처음부터 정합되어서 입력되는 경우, 단계(S1810)는 생략될 수 있다.

그리고, 단계(S1820)에서, 상기 깊이 영상을 이용하여, 3D 실루엣 영상이 추출된다.

이 경우, 상기 깊이 영상의 각 픽셀들에 대하여, 픽셀 세그멘태이션(pixel segmentation)이 수행되어, 상기 입력 깊이 영상이 복수 개의 세그먼트(segment)로 분할된다.

그리고, 분할된 복수 개의 세그먼트 중, 학습(training) 기반의 얼굴 검출(face detection) 또는 머리 검출(head detection)을 통해, 인체(human body)인 타킷 오브젝트에 해당하는 세그먼트가 검출된다.

단계(S1820)에서 깊이 영상을 이용하여 3D 실루엣 영상이 추출되는 보다 상세한 과정은 도 4 내지 도 5를 참조하여 상술한 바와 같다.

그리고, 단계(S1830)에서, 상기 3D 실루엣 영상에서 머리 검출(head detection)이 수행되고, 검출된 머리 부분을 기초로 하여, Rectangle fitting 알고리즘 등의 방법을 이용하여, 타킷 오브젝트의 절지(Limb)들 및 관절(Joint)들의 위치가 계산된다.

그리고, 계산된 절지(Limb)들 및 관절(Joint)들의 위치를 이용하여, 타킷 오브젝트의 Skeleton 모델이 생성된다.

Skeleton 모델의 생성에 관한 내용은 도 6을 참조하여 상술한 바와 같다.

그리고, 단계(S1840)에서, 탬플릿 메쉬 모델의 Skeleton 정보들, 이를테면 절지(Limb) 및 관절(Joint)의 위치를, 상기 단계(S1830)에서 생성된 Skeleton 모델의 형태로 변환하는 과정을 통해, 상기 탬플릿 메쉬 모델이 타킷 오브젝트에 정합된다.

그리고, 탬플릿 메쉬 모델의 변형 이후, 정제(Refinement)가 수행될 수 있다.

보다 상세한 내용은, 도 7 내지 도 9를 참조하여 상술한 바와 같다.

그리고, 탬플릿 메쉬 모델의 변형에 의해 생성된 3D 모델이 실제 타킷 오브젝트와 키(height)나 체격에 있어서 오차를 갖는 경우, 3D 실루엣 영상을 이용하여 상기 3D 모델에 대한 보정(refinement)이 수행된다. 상세한 내용은 도 10 내지 도 11을 참조하여 상술한 바와 같다.

그리고, 단계(S1860)에서, 상기 입력 칼라 영상을 이용하여, 상기 생성된 3D 메쉬 모델의 텍스처가 결정될 수 있다.

또한, 단계(S1860)에서는, 상술한 바와 같이, 상기 입력 칼라 영상을 참조하여 생성된 상기 3D 메쉬 모델의 텍스처를 복수 개의 세그먼트(segment)로 세그멘태이션(segmentation) 한 후, 텍스처 DB에 저장된 다른 텍스처를 선택하여 3D 모델링을 수행하는 것도 가능하다.

보다 상세한 내용은, 도 12 내지 도 16을 참조하여 상술한 바와 같다.

본 발명의 일 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

도 1은 본 발명의 일 실시예에 따른 영상 처리 장치를 도시한다.

도 2는 본 발명의 일 실시예에 따라 입력되는 칼라 영상을 도시한다.

도 3은 본 발명의 일 실시예에 따라 입력되는 깊이 영상을 도시한다.

도 4는 본 발명의 일 실시예에 따라, 도 3의 입력 깊이 영상이 도 2의 입력 칼라 영상에 정합된 결과를 도시한다.

도 5는 본 발명의 일 실시예에 따라, 도 4의 입력 깊이 영상으로부터 추출된 3D 실루엣 영상을 도시한다.

도 6은 본 발명의 일 실시예에 따라, 도 5의 3D 실루엣 영상을 이용하여 생성되는 Skeleton 모델을 도시한다.

도 7은 본 발명의 일 실시예에 따른 영상 처리 장치에서 사용되는 탬플릿 메쉬 모델을 도시한다.

도 8은 본 발명의 일 실시예에 따라, 상기 도 7의 탬플릿 메쉬 모델의 Skeleton의 모습을 도시한다.

도 9는 본 발명의 일 실시예에 따른 영상 처리 장치에 의해, 상기 도 7의 탬플릿 메쉬 모델이 상기 도 6의 Skeleton에 정합되도록 변형된 결과를 도시한다.

도 10은 상기 3D 실루엣 영상에 정합되도록 정제되지 않은 상기 도 9의 메쉬 모델을 도시한다.

도 11은 본 발명의 일 실시예에 따라, 상기 3D 실루엣 영상에 정합되도록 정제된 상기 도 9의 메쉬 모델을 도시한다.

도 12는 본 발명의 일 실시예에 따라, 입력 칼라 영상의 픽셀 값을 이용하여, 상기 도 11의 메쉬 모델의 텍스처 정보를 생성하는 과정을 도시한다.

도 13은 본 발명의 일 실시예에 따라, 상기 입력 칼라 영상의 픽셀 값을 이용하여 도 11의 메쉬 모델의 텍스처 정보를 생성한 결과를 도시한다.

도 15는 본 발명의 일 실시예에 따라 텍스처 DB 내에서 상기 도 14의 텍스처 정보 세그먼트들을 대체할 텍스처 정보 세그먼트들을 선택한 모습을 도시한다.

도 16은 본 발명의 일 실시예에 따라, 도 15에서 선택된 텍스처 정보 세그맨태이션을 도 12의 메쉬 모델에 적용한 결과를 도시한다.

도 17은 본 발명의 일 실시예에 따라 생성된 타킷 오브젝트의 3D 모델을 도시한다.

Claims

입력 깊이 영상 및 입력 칼라 영상 중 적어도 하나를 이용하여 타킷 오브젝트의 3D 실루엣 영상을 생성하는 실루엣 생성부;

상기 3D 실루엣 영상을 이용하여 상기 타킷 오브젝트의 모션 캡처를 수행하여 상기 타킷 오브젝트의 골격(skeleton) 모델을 생성하는 모션 모델링부; 및

탬플릿 메쉬 모델을 상기 타킷 오브젝트의 골격 모델에 정합시켜, 상기 타킷 오브젝트의 3D 모델을 생성하는 3D 모델 생성부

를 포함하는, 영상 처리 장치.
제1항에 있어서,

상기 타킷 오브젝트는 인체(human body)인, 영상 처리 장치.
제1항에 있어서,

상기 실루엣 생성부는,

상기 입력 깊이 영상의 픽셀 세그멘태이션(segmentation)을 수행하여, 상기 입력 깊이 영상을 복수 개의 세그먼트로 분할하고, 상기 복수 개의 세그먼트 중 학습 기반 얼굴 검출(head detection)을 수행함으로써, 상기 타킷 오브젝트의 3D 실루엣 영상을 생성하는, 영상 처리 장치.
제3항에 있어서,

상기 실루엣 생성부는, 상기 입력 칼라 영상의 픽셀 세그멘태이션을 수행한 결과를 이용하여, 상기 입력 깊이 영상을 이용하여 생성된 상기 타킷 오브젝트의 3D 실루엣 영상을 보정(refinement)하는, 영상 처리 장치.
제1항에 있어서,

상기 모션 모델링부는,

상기 3D 실루엣 영상에 학습 기반 얼굴 영역 검출을 수행하고, 상기 얼굴 영역을 기준으로 Rectangle fitting 알고리즘을 통해, 상기 타킷 오브젝트의 복수 개의 절지(Limb) 및 상기 절지를 이어주는 적어도 하나의 관절(Joint)의 위치를 계산하는 제1 계산부; 및

상기 타킷 오브젝트의 복수 개의 절지 및 적어도 하나의 관절의 위치를 이용하여 상기 타킷 오브젝트의 모션 캡처를 수행하여 상기 타킷 오브젝트의 골격(skeleton) 모델을 생성하는 제2 계산부

를 포함하는, 영상 처리 장치.
제1항에 있어서,

상기 3D 실루엣 영상을 이용하여, 상기 타킷 오브젝트의 골격 모델에 정합된 상기 탬플릿 메쉬 모델을 보정함으로써 상기 타킷 오브젝트의 3D 모델을 보정하는 3D 모델 정제부

를 더 포함하는, 영상 처리 장치.
제1항에 있어서,

상기 입력 칼라 영상을 이용하여 상기 타킷 오브젝트의 3D 모델의 텍스처를 생성하는 텍스처 생성부

를 더 포함하는, 영상 처리 장치.
제1항에

상기 타킷 오브젝트의 3D 모델에 적용될 수 있는 텍스처 데이터를 저장하는 텍스처 DB를 더 포함하고,

상기 텍스처 생성부는, 상기 텍스처 DB에 저장된 텍스처 데이터를 이용하여 상기 타킷 오브젝트의 3D 모델의 텍스처를 생성하는, 영상 처리 장치.
제1항에 있어서,

상기 입력 깊이 영상과 상기 입력 칼라 영상이 서로 정합되지 않은 경우, 상기 입력 깊이 영상과 상기 입력 칼라 영상을 정합시키는 영상 정합부

를 더 포함하는, 영상 처리 장치.
제1항에 있어서,

상기 3D 모델 생성부는, Radial Basis Function을 이용하여, 상기 탬플릿 메쉬 모델을 상기 타킷 오브젝트의 골격 모델로 변형시키는, 영상 처리 장치.
입력 깊이 영상을 이용하여 타킷 오브젝트의 3D 실루엣 영상을 생성하는 실루엣 생성부;

상기 3D 실루엣 영상을 이용하여 상기 타킷 오브젝트의 모션 캡처를 수행하여 상기 타킷 오브젝트의 골격(skeleton) 모델을 생성하는 모션 모델링부;

탬플릿 메쉬 모델을 상기 타킷 오브젝트의 골격 모델에 정합시켜, 상기 타킷 오브젝트의 3D 모델을 생성하는 3D 모델 생성부;

상기 타킷 오브젝트의 3D 모델에 적용될 수 있는 텍스처 데이터를 저장하는 텍스처 DB; 및

상기 텍스처 DB에 저장된 텍스처 데이터를 이용하여 상기 타킷 오브젝트의 3D 모델의 텍스처를 생성하는 텍스처 생성부

를 포함하는, 영상 처리 장치.
제11항에 있어서,

상기 실루엣 생성부는,

상기 입력 깊이 영상의 픽셀 세그멘태이션을 수행하여, 상기 입력 깊이 영상을 복수 개의 세그먼트로 분할하고, 상기 복수 개의 세그먼트 중 학습 기반 얼굴 검출(head detection)을 수행함으로써, 상기 타킷 오브젝트의 3D 실루엣 영상을 생성하는, 영상 처리 장치.
제11항에 있어서,

상기 모션 모델링부는,

상기 3D 실루엣 영상에 학습 기반 얼굴 영역 검출을 수행하고, 상기 얼굴 영역을 기준으로 Rectangle fitting 알고리즘을 통해, 상기 타킷 오브젝트의 복수 개의 절지(Limb) 및 상기 절지를 이어주는 적어도 하나의 관절(Joint)의 위치를 계산하는 제1 계산부; 및

상기 타킷 오브젝트의 복수 개의 절지 및 적어도 하나의 관절의 위치를 이용하여 상기 타킷 오브젝트의 모션 캡처를 수행하여 상기 타킷 오브젝트의 골격(skeleton) 모델을 생성하는 제2 계산부

를 포함하는, 영상 처리 장치.
입력 깊이 영상 및 입력 칼라 영상 중 적어도 하나를 이용하여 타킷 오브젝트의 3D 실루엣 영상을 생성하는 실루엣 생성 단계;

상기 3D 실루엣 영상을 이용하여 상기 타킷 오브젝트의 모션 캡처를 수행하여 상기 타킷 오브젝트의 골격(skeleton) 모델을 생성하는 모션 모델링 단계; 및

탬플릿 메쉬 모델을 상기 타킷 오브젝트의 골격 모델에 정합시켜, 상기 타킷 오브젝트의 3D 모델을 생성하는 3D 모델 생성 단계

를 포함하는, 영상 처리 방법.
제14항에 있어서,

상기 실루엣 생성 단계는,

상기 입력 깊이 영상의 픽셀 세그멘태이션(segmentation)을 수행하여, 상기 입력 깊이 영상을 복수 개의 세그먼트로 분할하는 단계; 및

상기 복수 개의 세그먼트 중 학습 기반 얼굴 검출(head detection)을 수행함으로써, 상기 타킷 오브젝트의 3D 실루엣 영상을 생성하는 단계

를 포함하는, 영상 처리 방법.
제14항에 있어서,

상기 모션 모델링 단계는,

상기 3D 실루엣 영상에 학습 기반 얼굴 영역 검출을 수행하고, 상기 얼굴 영역을 기준으로 Rectangle fitting 알고리즘을 통해, 상기 타킷 오브젝트의 복수 개의 절지(Limb) 및 상기 절지를 이어주는 적어도 하나의 관절(Joint)의 위치를 계산하는 단계; 및

상기 타킷 오브젝트의 복수 개의 절지 및 적어도 하나의 관절의 위치를 이용하여 상기 타킷 오브젝트의 모션 캡처를 수행하여 상기 타킷 오브젝트의 골격(skeleton) 모델을 생성하는 단계

를 포함하는, 영상 처리 방법.
제14항에 있어서,

상기 입력 칼라 영상을 이용하여 상기 타킷 오브젝트의 3D 모델의 텍스처를 생성하는 단계

를 더 포함하는, 영상 처리 방법.
제14항에 있어서,

텍스처 DB에 저장된 텍스처 데이터를 이용하여 상기 타킷 오브젝트의 3D 모델의 텍스처를 생성하는 단계

를 더 포함하는, 영상 처리 방법.
제14항 내지 제18항 중 어느 한 항의 영상 처리 방법을 수행하기 위한 프로그램을 수록한 컴퓨터 판독 가능 기록 매체.