KR20140024058A

KR20140024058A - 이미지 모델 구축 방법 및 장치

Info

Publication number: KR20140024058A
Application number: KR1020147001410A
Authority: KR
Inventors: 도니 티트가트; 얼빈 식스; 사미 리에벤스; 마르텐 아엘츠
Original assignee: 알까뗄 루슨트
Priority date: 2011-06-20
Filing date: 2012-06-04
Publication date: 2014-02-27
Also published as: JP2014520332A; EP2538388A1; EP2538389B1; JP5806399B2; EP2538389A1; US20140212030A1; KR101560508B1; CN103608847B; WO2012175321A1; WO2012175320A1; CN103608847A; US20140212031A1; JP2014520333A; CN103608846A; EP2538388B1; KR101547780B1; CN103608846B; US9269194B2; KR20140037936A; JP5784226B2

Abstract

적어도 하나의 이미지 데이터 입력(IV1; IVl~IVn)으로부터 이미지 모델(Ml; M)을 구축하는 방법은 - 상기 적어도 하나의 이미지 데이터 입력(IV1; IVl~IVn)의 적어도 하나의 상태(PS1; PS1~PSn), 및 중간 학습 모델(MF; MIF)의 상태(PSMF)를 결정하는 단계와, - 상기 적어도 하나의 이미지 데이터 입력의 상기 적어도 하나의 상태(PS1; PS1~PSn) 및 상기 중간 학습 모델(MF; MIF)의 상태(PSMF)로부터 타겟 상태(TSP)를 결정하는 단계와, - 상기 결정된 타겟 상태(TSP)에 따라서, 상기 적어도 하나의 이미지 데이터 입력(IV1; IVl~IVn)에 대해 적어도 하나의 변환을 수행함으로써, 적어도 하나의 변환된 이미지(IV1T; IV1T~IVnT)를 생성하는 단계와, - 상기 적어도 하나의 변환된 이미지(IV1T; IV1T~IVnT)와 중간 학습 모델(MF; MIF; MIT; MFT) 정보를 집성해서, 상기 이미지 모델(M1; M)의 갱신된 추정판(updated estimate)을 생성하는 단계와, - 상기 이미지 모델(M1; M)의 상기 갱신된 추정판을 상기 이미지 모델(M1; M)로서 제공함과 아울러, - 상기 이미지 모델(M1; M)의 상기 갱신된 추정판을 피드백 루프로 모델 객체 학습 모듈(500)에 제공해서, 상기 중간 학습 모델(MF, MIF)의 갱신을 유도하는 단계를, 반복 과정으로서 포함한다.

Description

이미지 모델 구축 방법 및 장치{METHOD AND ARRANGEMENT FOR IMAGE MODEL CONSTRUCTION}

본 발명은 이미지 모델 구축 방법에 관한 것이다.

현재, 실제의 다이나믹 장면에 기초해서, 혹은 저가의 카메라로 촬상한 이미지에 기초해서 모델을 구축하는 것을 어려운 문제가 될 수 있다.

전용 하드웨어 솔루션이 있기는 하지만, 고가인데다가 사용이 번거롭다. 또한 대부분의 솔루션이 장면을 다이나믹하게 하는 것은 불가능하기 때문에, 그 사용이 매우 제한적이다.

3차원(이하에서는 줄여서 3D라함)의 경우에는, 최신 메싱(meshing) 알고리즘의 3D 측정을 이용한 구축을 통해서, 품질 측정에서 양호한 품질을 얻을 수는 있지만, 이 솔루션은 매우 계산 집약적이다. 또한, 저품질 이미지에 기초해서, 양호한 품질의 3D 모델을 생성할 수 있는 솔루션은 없다.

따라서, 본 발명의 실시예의 목적은, 저품질의 실생활 캡션(real life captions)으로부터 고품질의 2D 및 3D 이미지 모델 및 비디오 장면을 생성할 수 있음과 아울러, 저렴하고 간단한 솔루션을 제공하는, 이미지 모델 구축 방법 및 장치를 제공하는 것이다.

본 발명의 실시예에 따라서, 이 목적은 적어도 하나의 이미지 데이터 입력으로부터 이미지 모델을 구축하는 방법에 의해서 달성되며, 이 방법은,

- 적어도 하나의 이미지 데이터 입력의 적어도 하나의 상태, 및 중간 학습 모델의 상태를 결정하는 단계와,

- 상기 적어도 하나의 이미지 데이터 입력의 상기 적어도 하나의 상태, 및 상기 중간 학습 모델의 상태로부터 타겟 상태를 결정하는 단계와,

- 상기 결정된 타겟 상태에 따라서, 상기 적어도 하나의 이미지 데이터 입력에 대해 적어도 하나의 변환을 수행함으로써, 적어도 하나의 변환된 이미지를 생성하는 단계와,

- 상기 적어도 하나의 변환된 이미지와 중간 학습 모델 정보를 집성해서, 상기 이미지 모델의 갱신된 추정판(updated estimate)을 생성하는 단계와,

- 상기 이미지 모델의 상기 갱신된 추정판을 상기 이미지 모델로서 제공함과 아울러,

- 상기 이미지 모델의 상기 갱신된 추정판을 피드백 루프로 모델 객체 학습 모듈에 제공해서, 상기 중간 학습 모델의 갱신을 유도하는 단계를 반복적인 과정으로서 포함하고 있다.

이와 같이, 모델의 후속하는 갱신된 추정판의 피드백을 반복적인 과정을 통해서 제공하고, 이들의 이전에 생성된 갱신된 추정판 모델 중 적어도 하나를 이용해서 학습 모델을 생성하며, 입력 및 이 연속해서 구성된 학습 모델 모두의 상태 파라미터를 이용함으로써, 높은 정확도의 모델을 얻을 수 있음과 아울러, 현재 최신의 기법에 비해서 계산량 및 리소스를 더 적게 이용할 수 있게 된다.

일 실시예에서, 변환은 입력 데이터 중 일부 혹은 전체에 대해서뿐만 아니라, 중간 학습 모델에 대해서도 수행된다. 이들 변환은 결정된 타겟 상태에 따라서 수행된다. 이와 같이, 변환된 이미지 및 생성된 중간 변환된 모델을 함께 집성 단계에서 이용함으로써, 이미지 모델의 더 정확한 갱신된 추정판을, 더 신속하게 얻을 수 있다.

다른 실시예에서, 동일한 이미지 데이터 입력에 대한 후속 상태가 결정되며, 여기서 상기 집성 단계는, 이미지 모델의 마지막 갱신된 추정판만이 상기 이미지 모델로 제공되도록, 상기 이미지 모델의 상기 갱신된 추정판 중 후속하는 것들에 대한 수렴 상태 체크(convergence check)를 수행하는 것을 포함한다.

이는, 종래의 방법에 비해서 적은 계산 리소스를 이용해서, 저품질인 스틸 이미지 입력에 대해서 정확한 모델을 생성하는데 특히 적합하다.

또 다른 실시예에서, 상기 이미지 모델의 후속하는 갱신된 추정판이 비디오의 후속 프레임에서 객체를 추적하도록, 비디오 데이터 입력의 후속 프레임에 대한 상태의 후속값이 결정된다.

이로써, 비디오에서 객체를 추적하는 고품질 모델을 생성하는 문제에 대한 솔루션을 제공한다.

또 다른 실시예에서, 적어도 하나의 이미지 데이터 입력은 2D 혹은 2D+z 포맷의 객체의 비디오 시퀀스를 포함하는 제 1 이미지 데이터 입력, 및 이 객체의 풀 3D 이미지를 포함하는 제 2 이미지 데이터 입력을 포함하며, 여기서 상기 상태는 3D의 이 객체의 위치와 모핑(morphing) 파라미터를 나타내는 값의 조합을 포함하여서, 3D의 상기 이미지 모델의 연속하는 갱신된 추정판이 상기 이미지 모델로서 제공되게 된다.

일 실시예에서, 이러한 위치 파라미터는 3D의 상기 객체의 방향, 3D의 상기 객체의 크기, 3D의 상기 객체의 위치를 포함할 수 있다. 모핑 파라미터는, 사람의 머리가 표시되고 있는 경우에는 얼굴 특성을 나타내고, 혹은 자동차와 같은 비교적 고정된 객체가 표시되고 있는 경우에는 색상 및 질감을 나타내는 파라미터를 포함할 수 있다.

이는, 2D 비디오 이미지를 추적하는 고품질 3D 모델을 생성하는 제 1 구체예를 제공한다. 이는 예컨대, 2D 비디오의 객체를 추적하는 고품질의 3D 모델을 생성하는 화상 회의 애플리케이션에서 사용될 수 있다.

제 2 이미지 데이터 입력이 적어도 하나의 상이한 특성을 가진 상기 객체의 풀 3D 이미지를 포함하는 경우에, 생성된 모델은 2D 비디오 시퀀스의 객체를 추적하면서도, 이 상이한 특성은 보이지 않도록 될 수 있다. 다른 실시예에서, 이러한 3D 추정판은 다시 2D 투사면에 투사되어서, 2D의 이들 2D 투사가 상기 이미지 모델로서 출력에 제공된다.

이는, 사람들이, 실생활 비디오 입력이 있는 그대로 만들어지는 방식에 비해서, 사실적이면서도 개선된 방식으로 표시되기를 요구하는, 화상 회의 애플리케이션이나, 혹은 인터넷 혹은 온라인 회의 애플리케이션에서 사용될 수 있다. 이는 예컨대, 이러한 화상 온라인 회의 세션 동안, 일부 사람이 키보드로 정보를 입력하는 경우가 될 수 있다. 이 사람은 카메라를 직시하지 않고 있음에도 불구하고, 생활 추적 모델(life tracking model)이 온라인 회의의 다른 참가자에게 통신되어서 시청될 것이기 때문에, 어떻게든 이 생활 추적 모델에 의해 자신이 카메라를 직시하고 있는 것으로 표시되기를 희망하고 있다. 이들 실시예는 이러한 문제에 대한 간단하지만 더욱 정확한 솔루션을 제공한다. 따라서, 약간 수정된 모델이 생성되어서, 이는 3D 혹은 2D의 투사 단계 이후에 제공될 것이며, 애플리케이션에 따라서는, 예컨대 생성된 모델의 비디오 시퀀스로서 통신, 전송 혹은 저장된다.

또 다른 실시예에서, 상기 타겟 상태는 이미지 모델이 생성되는 객체와 관련된 추가 정보에 기초해서 더 결정된다.

이와 달리, 상기 중간 학습 모델은 외부에서 제공된 모델 정보로부터 더 획득할 수도 있다.

본 발명은 또한, 이 방법을 수행하는 장치의 실시예, 이 장치를 포함하는 이미지 혹은 비디오 처리 장치의 실시예, 및 데이터 처리 장치에서 실행될 때, 상술한 혹은 청구항에 개시된 방법의 단계를 수행하도록 되어 있는 소프트웨어를 포함하는 컴퓨터 프로그램 제품과도 관련된다.

청구항에서 사용되는 용어 '연결'은, 직접 접속만을 의미하는 것으로 한정해서 해석되어서는 안 된다는 점에 주의한다. 따라서, '장치 B에 연결된 장치 A'라는 표현의 범주는, 장치 A의 출력이 장치 B의 입력에 직접 접속되는 장치 혹은 시스템으로 한정되어서는 안 된다. 이는 A의 출력과 B의 입력 사이의 경로는, 다른 장치 혹은 수단을 포함한 경로가 될 수도 있다는 것을 의미한다.

청구항에서 사용되는 용어 '포함한다'는, 그 앞에 나열된 수단으로 한정되는 것으로 해석되어서는 안된다. 따라서, 이 '수단 A 및 B를 포함하는 장치'라는 표현의 범주는 구성 요소 A 및 B만으로 이루어진 장치로 한정되어서는 안 된다. 본 발명에서 이는, 그 장치의 단지 관련 구성 요소가 A 및 B라는 것을 의미한다.

2차원은 간단히 2D로 기재하고, 3차원은 상술한 바와 같이 간단히 3D로 기재한다.

첨부된 도면에 기초해서 이하의 실시예에 대한 설명을 참조함으로써, 본 발명의 상술한 목적 및 특성, 그리고 다른 목적 및 특성은 자명할 것이며, 발명 자체를 더욱 이해할 수 있을 것이다.

도 1a 및 도 1b는 이미지 데이터의 단일 입력 소스로부터 모델을 제공하는 방법의 개략 실시예를 나타내는 도면이다.
도 1c는 단일 입력 소스로부터 모델을 제공하는 장치(A1)의 개략 실시예를 나타내는 도면이다.
도 2a 및 도 2b는 이미지 데이터의 복수 입력 소스로부터 모델을 제공하는 방법의 개략 실시예를 나타내는 도면이다.
도 2c는 이미지 데이터의 n개의 입력 소스로부터 모델을 제공하는 장치(An)의 개략 실시예를 나타내는 도면이다.
도 3a 및 도 3b는, 사람의 움직임 및 특성을 거의 실시간으로 나타내는 사실적인 3D 모델을 생성하기에 적합하며, 이 사람의 2D+z 정보 및 단일 3D 이미지가 제공되는 방법의 2개의 실시예를 나타내는 도면이다.
도 4a는 사람을 불완전하게 나타내고 있는 2D 및 이 사람의 단일 3D 이미지에 기초해서 3D 모델을 생성하기에 적합한 방법의 또 다른 실시예를 나타내는 도면이다.
도 4b는, 도 4a의 실시예의 또 다른 변형예를 나타내는 도면이다.

당업자라면, 도시된 임의의 블록도가 본 발명의 원리를 실시하는 예시적인 회로의 개념을 나타내고 있다는 것을 이해할 것이다. 유사하게, 임의의 플로우 차트, 흐름도, 상태 천이도, 의사 코드 등이, 컴퓨터 판독 가능 매체에서 실질적으로 나타날 수 있으며, 따라서 컴퓨터 혹은 프로세서가 명백하게 도시되어 있지는 않지만, 컴퓨터 혹은 프로세서에 의해 실행되는 다양한 처리를 나타내고 있다는 것을 이해할 것이다.

도 1a는 단일 이미지 데이터 입력으로부터 2D 혹은 3D 이미지 모델을 생성해서 제공하는 방법의 실시예를 개략적으로 나타내는 도면이다. 이 이미지 데이터 입력은, 이동 물체를 2D, 3D 혹은 2D+z 포맷으로 나타내는 스틸 이미지 혹은 일련의 사진을 제공하는 카메라에 의해 제공될 수 있다. 여기서 2D+z라는 것은 2차원 픽셀 데이터가 깊이 정보와 함께 제공된다는 것을 의미한다. 이러한 표현은 3D 픽셀 데이터를 재구축하는데 이용될 수 있으며, 일반적으로 3D 카메라를 통해서 생성된다. 이미지 입력 데이터는 예컨대, 메모리 즉 저장 장치로부터 획득할 수도 있고 혹은, 예컨대, MMS 화상이 통상의 휴대 전화에 의해 전송되는 것과 같이, 임의의 타입의 통신 네트워크를 통해서 제공받을 수도 있다. 도 1a에서 입력 이미지 데이터는 IV1로 표시되어 있고, 2개의 동작을 거친다. 제 1 동작은 상태 추출 혹은 결정에 관한 것으로, 이는, 이미지 입력의 객체의 상태를 나타내는 상태 파라미터가 결정된다는 것을 의미한다. 상태는 객체 특성의 구성을 의미하고, 이들 특성 자체는 값의 세트로 표현된다. 따라서, 이들 값은 객체의 가변 특징 혹은 특성을 나타낼 수 있다. 이 값의 세트는 벡터로 배열될 수 있지만, 이러한 상태에 대한 다른 표현도 물론 가능하다. 그 상태가 결정되는 객체로서 사람의 머리를 예로 들면, 이 상태는 다음과 같은 특징 혹은 특성의 값을 가진 벡터로 표현될 수 있다:(headOrientation_x, headOrientation_y, headOrientation_z, scale, location_x, location_y, location_z, faceExpression_1_x, faceExpression_1_y, faceExpression_68_x, faceExpression_68_y). 여기서, HeadOrientation_x는 수평 방향으로의 머리의 기울기를 나타내고, HeadOrientation_y는 수직 방향으로의 머리의 기울기를 나타내며, headOrientation_z는 깊이 방향으로의 머리의 기울기를 나타낸다. FaceExpression_1_x는 이미지에서 아이템 1로 표시된 어떤 얼굴 특성의 수평 방향으로의 위치를 나타낸다. 상술한 예에서, 이러한 특성의 68은 그 2D 위치를 이용해서 표현될 것이다. 이러한 얼굴 특성은 예컨대, 입 혹은 눈 등의 좌우 가장자리가 될 수 있다.

유사하게, 예컨대, 레이싱 카와 같은 무빙 이미지인 경우에, 표현되는 객체는 이 레이싱 카가 될 것이며, 이 객체의 상태는, 3D의 자동차의 방향, 3D의 자동차의 크기 및 위치, 3D의 바퀴의 방향, 색상 등과 같은 특성에 대한 값을 가진 벡터로 표현될 수 있다.

상기 예에서, 예컨대, 색상과 질감은 물론, 얼굴 표정을 결정하는 것과 같은 모핑 특성은 외관과 관련된 특성을 식별하는데 사용되는 반면, 방향, 크기 및 장소와 같은 위치 파라미터는 3D의 위치를 식별하는데 사용된다.

입수되는 로우 데이터로부터 객체의 상태를 결정하는 방법은 우선 일반적으로, 분할 동작(segmentation operation)을 수행함으로써 고려하고 있는 객체를 인식하고, 이렇게 인식된 객체의 깊이를 추가 분석하는 단계를 포함할 것이지만, 반드시 그런 것은 아니다. 이 추가 분석은 예컨대, AAM(Active Appearance Model)를 이용하는 것을 포함할 수 있으며, 이는 2D 이미지 입력에 기초해서 모델링되는 것인 사람의 머리인 경우에, 3D 혹은 2D AAM 내부 형상 모델(internal shaping model)과의 맞춤을 통해서 2D 입력 이미지에서의 얼굴 특성의 형상 및 외관을 결정할 수 있게 한다. 이는 2D 입력 이미지를 2D AAM 모델의 개시값과 비교하는 것부터 시작되며, 이 AAM 모델 자체는 최상의 맞춤을 찾아내기까지 점차적으로 더욱 변경되어 간다. 양호한 매칭을 찾았다면, 이렇게 AAM에 구성된 모델에 기초해서 결정된 face_expression_1_x, face_expression_1_y 등과 같은 파라미터가 출력된다.

당업자에게 공지된 바와 같이, 인식된 객체의 상태를 결정하는데 다른 방법이 사용될 수 있음은 물론이다.

이미지 데이터 입력이 하나 이상의 객체를 포함하는 경우에, 상태 파라미터를 결정하는 처리는 모델이 요구되는 각각의 객체에 대해서 수행될 수 있다. 이는, 입력 데이터 자체가 스틸 이미지인지 무빙 이미지인지, 요구되는 정확도 레벨, 및 이용 가능한 계산 리소스에 따라서, 동시에 혹은 순차적으로 수행될 수 있다. 당업자라면, 이미지 데이터가 하나 이상의 객체를 포함하는 경우에 복수의 모델을 제공하는 실시예를 만들 수 있을 것이다.

도 1a에서 객체의 상태는 PS1로 표시되어 있고, 이는 모듈(200)로 표시된 '타겟 상태 합성(target state synthesis)' 단계에 대한 입력으로 이용된다. 이 단계에서, 타겟 상태(TSP)는 하나 이상의 상태 입력에 기초해서 결정된다. 도 1a의 예에서는, 입력 이미지 PS1의 상태 및 '학습 모델 상태' PSMF의, 2개의 상태 입력이 있다. 후자는 출력 모델의 피드백으로 획득한 값에 관한 것이다. 일반적으로, 이러한 피드백 정보는 제 1 이미지가 분석되는 방법의 개시 시점에서는, 아직 이용될 수 있는 것은 아니며, 따라서 최종 모델에 대한 몇가지 초기 지식(knowledge)을 이미 사전에 알 수 있는 경우에는 PSMF의 개시값은 디폴트값이 될 수 있다. 이와 달리, 단계(200)에서는 이 제 1 PSMF 값을 무시할 수 있다. 다른 실시예에서는, 도 1a에서 PSE로 표시된 일부 외부 상태 정보가, 도 1a에서 점선 화살표로 도시된 바와 같이, 옵션 입력으로서 제공될 수 있다. 이 외부 정보는, 예컨대, 입력 비디오 데이터 IV1가 비디오를 포함하는 경우에 동일한 IV1에 대해서 수행되는 외부 음성 분석 모듈로부터 획득할 수 있다. 이러한 음성 분석에 의해 획득한 추가 오디오 정보를 타겟 상태 결정 모듈(200)에 제공함으로써, 몇가지 정교한 방법을 이용해서 PS1에서 이전에 결정된 얼굴 표정을 이 음성 정보와 비교하고, 더 정교한 얼굴 상태가 타겟 상태 TSP로서 제공되도록 이로부터 추정 즉 최적화시킬 수 있다.

서로 다른 입력 상태 PS1, PSMF로부터, 그리고 옵션으로는 외부 정보 PSE로부터, 도 1a에서 TSP로 표시된 타겟 상태를 결정하는 다른 방법은, 다양한 입력 상태의 가중 결합을 수행하는 단계를 포함할 수 있으며, 여기서 이 가중치는 상태의 신뢰도를 반영하는 것으로, 신뢰도 레벨 자체는 상태 추출 자체 동안 결정된 것이다. PS1 파라미터를 결정하는 상술한 AAM 방법의 예에서는, 예컨대, 이러한 신뢰도 측정값으로서 매칭 결과를 나타내는 파라미터가 선택될 수 있다.

타겟 상태를 결정하는 또 다른 방법은 간단히 입력 상태 중 하나를 선택하는 단계로 이루어질 수 있으며, 이 옵션은, 내삽(interpolation) 혹은 상기 예에서 설명한 가중 조합의 결과를 확인해서, 그 내삽된 결과가 사전 결정된 한도를 벗어난 경우에 바람직할 수 있다. 이 옵션은, 이 방법의 초기 구간에서, PSMF만이 디폴트 값을 포함하는 경우나 입력 상태 사이의 차이가 클 때 더욱 적합할 것이다. 이는 예컨대, PS1가 머리의 방향이 z 방향으로 180도라는 것을 나타내는 경우에 발생할 수 있으며, 이는 머리가 뒤를 향하고 있는 경우로, 0.2의 신뢰도를 갖고 있지만, 예컨대 PSMF가 단지 20도의 방향이라는 것을 나타내는 경우에는, 예컨대 이 모델에 대해서 이미 알고 있는 정보에 의해 부여되는 신뢰도는 0.6이다. 이 경우에는, 가중 조합 혹은 내삽을 수행하는 대신, 타겟 상태로서 두 상태 중 하나만 선택하는 것이 가장 바람직하다. 이 선택 자체는 가장 높은 신뢰도 레벨을 가진 상태를 선택하는 것에 기초해서 수행될 수 있다.

타겟 상태 TSP는 입력 이미지 데이터의 변환을 수행하는데 이용될 수 있으며, 이 변환은 단계 300 "이미지 변환"으로 표시되어 있다. 이러한 이미지 변환은 2D의 픽셀 레벨에서, 혹은 보셀(voxel)에서 수행될 수 있으며, 보셀은 3D에서 3D 픽셀 레벨을 나타내는 용어이다. 일 실시예에서, 2D에서, 출력에서 나타나는 모델의 객체에 관한 유용한 픽셀 정보만을 유지하도록, 몇가지 필터링 동작이 수행될 수 있다. 이 객체가, 그 상태가 결정된 객체 중 하나와 동일함을 물론이다. 따라서, 이미지 변환이 타겟 상태 결정 이후에 수행되도록, 상태 추출 처리 및 이미지 변환은 정렬되고 또한 동기화되어야 한다.

이러한 이미지 변환이 또 다른 예는 얼굴 파라미터의 조정을 포함할 수 있다. 2D의 입력 데이터가 구성되는 예에서, 얼굴 특성을 나타내는 삼각형을 사용하는 방법이 이용될 수 있다. 이들 삼각형에 의해 정의되는 거리를 내삽하고, 그 이전 위치에서 픽셀에 이전에 귀속(attribute)되었던 이들 새로운 위치로서, 특성을 픽셀에 귀속시킴으로써, 이미지 변환이 수행될 수 있다.

이들 변환을 수행하는 다른 방법은 도 3a 및 3(b)의 실시예를 설명할 때 개시한다.

어떤 경우든, 이 이미지 변환 동작의 결과는 IV1T로 표시된 변환된 이미지로, 이는 일반적으로 고려중인 객체의 세부 사항만을 포함할 것이다.

이 변환된 이미지 IV1T는 중간 학습 모델 정보 MF와 집성될 것이다. 이 방법의 개시시에, 이 MF 정보는 모델에 관한 디폴트 정보를 포함할 수도 있고, 혹은 이와 달리 무시될 수도 있다. 단계 400에서, 가능하다면 IV1T 및 MF 모두가 하나의 이미지로 집성되어서 출력될 것이며, 이 하나의 이미지를 객체의 추정 모델을 포함한다. 이 모델은 M1로 표시되어 있다.

이 결정된 추정 모델 M1은 모델 객체 학습 모듈(500)로 피드백되고, 이는 이 추정 모델로부터 학습 모델의 업데이트를 획득하도록 되어 있다. 계속되는 반복 단계에서 학습 모델이 연속해서 구성되며, 이는 '중간 학습 모델' MF로 표시되어 있다. 이미지 모델 M1의 추정판으로부터 중간 학습 모델의 갱신을 획득하는 것은, 모델 M1에 대한 연속 추정판을 저장함으로써 계속해서 추적하는 것 그리고, 가장 최근 모델 및 이전에 생성된 출력 M1으로부터 중간 학습 모델 MF를 생성하도록, 이전에 결정된 이미지 모델에 대한 추정판 중 가장 최근의 것이나, 전부 혹은 그 서브세트에 대한 처리 동작을 포함할 수 있다. 제 1 반복 단계에서, MF는 M1과 동일할 수 있으며, 이 모델 객체 학습 단계는 동일한 이름의 모듈(500)에 의해 수행되고, 이 경우, 제 1 입력 M1과 동일한 것을 '중간 학습 모델' MF로서 획득하는 것만을 포함한다. 일반적으로 수회의 반복이 포함될 수 있으며, 따라서 사용되는 피드백의 반복 횟수에 따라서, 그리고 집성 단계 이후에 이미지 모델의 추정판이 어떻게 변경될 수 있는지에 따라서 중간 학습 모델이 연속해서 변경될 수 있도록 MF의 후속값이 생성된다.

중간 학습 모델 MF은 또한, 이 중간 학습 모델의 상태를 결정하도록 상태 추출 단계 100를 거친다. 여기서 입력 이미지의 상태를 결정하는 것과 유사한 동작이 수행될 수 있지만, 그 모델은 일반적으로 고려중인 객체에 대한 데이터만을 포함할 것이므로, 객체 인식은 더 이상 필요없다. 중간 학습 모델의 상태는 PSMF로 표시된다. 중간 학습 모델의 상태 파라미터는, 타겟 상태 TSP를 결정하기 위한 입력 데이터의 상태 파라미터와 함께 사용된다.

피드백 처리 동안, 즉 중간 학습 모델 생성 및 상태 추출 동안, 특히, 다음 프레임이 입력 IV1에 제공되어 있는 입력 비디오의 경우에는 IV1는 이미 변경되어 있을 수 있다. 이 경우, 비디오 시퀀스의 이 새로운 프레임은 또한, 상태 추출 단계 101 및 이미지 변환에 사용될 수 있다. 그러나, 반드시 그런 것은 아니며, 실시예에 따라 다르다. 새로운 프레임이 입력에 제공되는 경우에, 이에 대해서 상태 추출이 수행되어서, 이 입력 이미지의 새로운 상태는, 이전 프레임에 기초해서 TSP를 생성하기 위해서 결정된 중간 학습 모델의 상태와 함께 사용될 것이다. IV1가 변경되지 않은 경우에, 예컨대 스틸 입력 이미지의 경우에, 상태 추출(101)을 통해서는 이전의 그 동작 기간에서와 유사한 결과가 나올 것이지만, 타겟 상태 합성에서는 중간 학습 모델로부터 추출된 상태를 고려할 것이다. 이런 식으로, 타겟 상태를 더욱 양호하게 조정해서, 결국에는 이미지 변환(300)에도 영향을 미치게 된다. 이로써 더욱 신속하게 수렴된다. 도 1b에 도시된 것과 같은 다른 실시예에서는, 중간 학습 모델 MF은 타겟 상태 파라미터에 의해 제어되는 이미지 변환 단계 301도 수행될 것이다. 중간 학습 모델에 대한 이 이미지 변환은 이미지 입력 데이터에 대한 변환과 유사한 방식으로 수행될 수도 있고, 예컨대, 이미지 입력 데이터는 2D로 제공되고 이 모델은 3D 모델인 경우에는, 데이터 자체에 따라서 다른 방식으로 수행될 수도 있다. 그러나, 모든 변환에서, TSP가 모든 처리에 대한 제어 입력으로서 이용된다. MF에 대한 이미지 변환 동작의 결과는 중간 학습 모델 MFT로 표시된다. 이 실시예에서, MFT는 집성 단계에서의 중간 학습 모델 정보로서 이용된다.

분명히, 원활한 동작을 위해서는, 타겟 상태 TSP가 결정되기 전에는 MF의 변환이 수행되지 않도록, 이 모든 단계의 타이밍을 제어하는 것이 가장 중요하다. 학습 모델에 대해 변환이 수행되지 않는 도 1a의 실시예에서는, 변환된 이미지 데이터가 변환되지 않은 학습 모델과 집성되는 경우의 집성 단계에 대한 타이밍 제어가 가장 중요하다. 그러나 당업자라면, 이를 구현하는 기술을 이미 알고 있을 것이며, 따라서 본 명세서에서 더 이상 설명하지 않는다.

도 1b에 도시된 실시예에서는, 2개의 변환된 이미지 데이터 IV1T 및 MFP가 집성 단계(400)에서 입력으로서 이용되며, 이 모델의 더 양호하고 더 사실적인 추정판을 얻을 것이다. M1의 후속하는 갱신된 추정판에 대한 상기 설명한 피드백 과정을 더 반복함으로써, 최종 모델은 더욱 정교하게 조정될 것이다. 후속하는 이미지 모델의 갱신된 추정판은 후속 시점에 출력에 제공될 수 있다. 이는 입력 비디오 데이터에 대해서 가장 활용될 수 있으며, 여기서 이 모델은, 입력 비디오에서 모델링된 객체의 움직임을 추적할 것이다. 다른 방안으로, 집성 단계 자체는, 예컨대, 그 모델이 이후 더 이상 변경되지 않는 추정판으로 수렴된 이후에만 출력으로 제공되도록, 수렴 기준을 체크하는 단계를 더 포함할 수 있다. 분명히, 이러한 실시예는 스틸 이미지에 더욱 적합하지만, 입력 비디오의 경우에는, 이미지 변경 속도로 인해서 한 이미지에 대해 수회 반복은 금지될 수 있다. 입력 비디오 데이터를 처리하는 다른 실시예에서는, 그 모델의 가장 최근 업데이트가 출력에 제공될 수 있기 전까지는, 후속해서 제공되는 이미지 혹은 프레임에 대해서 몇 번의 반복이 수행될 수 있다. 이 경우, 수렴 테스트가 다시 적용될 수 있다.

도 1c는 도 1a의 방법의 단계를 수행하는 장치(A1)를 나타내고 있다. 이러한 장치는 소프트웨어 구현을 통해서 실현될 수 있으며, 이 소프트웨어는 반송파 상의 실행 가능 코드로 제공되거나, 메모리에 프로그래밍 가능하고, 혹은 서버로부터의 다운로드 동작에 의해서 제공되어서, 프로세서에서 실행될 수도 있고 혹은 이와 달리, 이 서버 자체에서 실행될 수도 있다. 이와 달리, 이러한 장치는, 예컨대 단일 프로세서를 통해서 혹은 분산 방식으로, 하드웨어를 통해서 실현될 수 있다. 다양한 단계가 다양한 모듈로 표시되어 있지만, 분명히, 그 명확한 구조도는 일부 구현예에서는 제공되지 않으며, 단계 모두 혹은 그 일부는 하나의 단일 프로세서에 의해 수행될 수 있다.

도 1a의 실시예는 모델 객체 학습 단계 500 동안, 이 모델에 대한 외부 데이터, 예컨대, 이 방법의 이전 사용시에 획득했던 이전에 생성된 것으로, 외부에 저장된 모델이, 현재 외부 입력으로서 제공될 수 있다는 것을 나타낸다. 이는 선택적인 단계이기는 하지만, 수렴 속도를 증가시킬 수 있다.

도 2a는 이 방법의 다른 실시예를 나타내며, 이는 다양한 입력 소스로부터의 이미지 정보를 이용하고 있다. 도 2a의 실시예에서는, n개의 서로 다른 이미지 입력이 IV1, IV2 내지 IVn로 표시되어 있다. 이들은 예컨대, 2D, 3D 및 2D+z의 이미지 정보와 같은 이미지 데이터를 포함하고 있으며, 카메라로부터의 실생활 스트리밍 데이터를 포함할 수도 있고, 메모리에 의해 제공된 혹은, 이격된 컴퓨터 혹은 카메라나 모바일 장치 등으로부터 원격 통신 채널을 통해서 제공된 데이터를 포함할 수 있다.

도 2a의 실시예는 각각의 이미지 입력 데이터에 대해서, 출력 M으로서 표시되는 모델의 객체에 관한 상태가 결정된다는 점을 제외하면, 도 1a와 유사하다. 따라서, n개의 이미지 입력 소스에 대해서 n개의 상태 추출 상태가 동시에 수행되어서, 동일 객체에 대한 n개의 객체 상태를 생성한다. 양호한 동작을 위해서는, 이들 상태 추출 모듈은 다시 동기화되어야 하고, 그 일부에 대한 기본 세부 사항이 상기 설명된, 동일 객체에 대한 파라미터를 추출하도록 동작해야 한다. 이와 달리, 계산 리소스에 따라서, n개의 상태 추출 101, 102 및 10n이 예컨대, 동일 모듈에 의해서 순차적으로 수행될 수 있다. 또한, 이 경우에, 이들 단계과 수행될 다음 단계 사이의 양호한 타이밍 동기화가 중요하며, 당업자라면, 이러한 동기화의 측면을 고려한 구현예를 구현할 수 있을 것이다. 이것이 본 발명의 실시예와 직접 관련되어 있는 것이 아니므로, 본 명세서에서는 이러한 측면은 더 상세하게는 설명하지 않는다.

사람의 머리에 대한 양호한 모델을 생성하는 것을 목적으로 한다면, 모든 상태 추출 모듈(101, 102 내지 10n)이 '사람 머리 형상' 객체를 탐색하도록 구성되며, 이미지에 때때로 나타나는 예컨대 자동차는 탐색하지 않는다. 이렇게 작성한, 이 객체의 추출된 상태 파라미터는 PS1, PS2 내지 PSn로 표시되어 있으며, 타겟 상태 합성 모듈(200)에 제공되고, 여기서 타겟 상태 TSP를 결정하도록 구성된다. 일반적으로, 이 객체의 모델을 생성하기 위해서, 동일한 객체에 관련된 더 많은 이미지 입력 소스가 사용될수록, 이 모델은 더 양호하게 구축될 수 있다. 그러나, 이 객체가 예컨대 입력 이미지에 때때로 나타나지 않는 경우에 획득한 값을 배체하거나 혹은 적어도 주의를 덜 기울이도록 주의해야 한다. 타겟 상태 합성 단계(200)는 도 1a의 실시예에서 사용된 것과 유사하지만, 더 많은 입력을 고려하고 있다. 이들 상태에 대한 제 1 체크는 이들 상태를 모두 고려할지를 결정할 수 있게 하며, 이는, 이들이 모두 임의의 사전 결정된 한도 내의 값을 포함하고 있는지 체크함으로써, 혹은 이들을 서로 비교함으로써 수행될 수 있다. 일부 값이 실제로 이들 한도를 벗어나 있고, 나머지 대부분은 벗어나지 않은 경우에는, 이들을 삭제하는 것이 바람직할 수 있으며, 예컨대 2개의 상태가 n-2의 다른 상태에 비해서 매우 어긋난 값을 값고 있는 경우가 있다.

이 보류된 상태는 내삽을 통해, 예컨대, 이들 값의 가중 평균을 통한 타겟 상태 결정에 이용될 수 있다. 이와 달리, 신뢰도 레벨의 체크는, 도 1a와 관련해서 설명한 바와 같이, 가장 신뢰도가 높은 상태만을 선택하는 것을 나타낼 수 있다.

결정된 타겟 상태 TSP에 기초해서, 입력 이미지는 각각 도 1a와 관련해서 설명된 것과 유사한 방식으로, 단계 301, 302 및 30n으로 표시된 변환 과정을 거친다. 일부 실시예에서는, 이하 도 3a, 도 3b, 도 4a 및 도 4b를 참조로 설명하는 바와 같이, 이들 변환 중 일부는 다른 것에 비해서 그다지 크지 않을 것이며, 이는 이 모델이 입력 데이터 입력으로부터 얼마나 크게 어긋나 있는지 여부에 따라 달라진다. 다음으로 변환된 이미지 데이터 IV1T, IV2T 내지 IVnT가 단계 400에서 집성된다. 도 1a의 실시예와 유사하게, 이 집성 단계에서는 초기 단계에서 중간 학습 모델 MIF의 초기 디폴트 값이 사용될 수 있으며, 혹은 이 값은 무시될 수도 있다. n개의 변환된 이미지 및 첫번째 반복 처리 기간에 MIF의 입력 디폴트 값을 집성하는 동안에, 변환에 사용되는 상태-일관(state-consistent) 데이터 TSP의 조합에 의해 이 모델의 더 사실적인 추정판을 얻을 수 있을 것이다. 나아가, 이 모델의 최종 추정판을 더 정교하게 하고 개선하기 위해서, 특히 집성 단계 동안 메트릭으로서 특정 입력 이미지의 신뢰도를 고려하는 경우에, 메트릭이 사용될 수 있다. 예컨대, 사람 얼굴인 모델의 얼굴 특성의 구축을 위해서, 전면 샷 이미지의 신뢰도가 일반적으로 측면 샷 이미지의 신뢰도보다 반드시 큰 것은 아니다. 집성 단계에서 측면 샷에 비해서 전면 샷 이미지의 정보를 비교적 더 많이 이용함으로써, 더 양호한 추정 모델을 얻을 수 있다. 상태 추정 동안 결정된 신뢰도는, 집성 단계 동안 어느 이미지에 더 많이 가중치를 둘지를 판정하는데 이용될 수 있다.

또한, 최종 모델 M은 모델 객체 학습 모듈(500)로 피드백되고, 여기서 연속해서 결정된 추정 모델을 계속 추적할 수 있으며, 이들로부터 혹은 가장 최근에 생성된 것으로부터 혹은 이들의 가중 조합 등으로부터 개선된 중간 학습 모델 MIF를 작성할 수 있다. 물론, 중간 학습 모델을 생성하는 더 많은 구현예도 가능할 수 있다.

중간 학습 모델 MIF은 상태 추출 단계(100)를 거칠 것이며, 여기서 추출된 상태 PSMF는 타겟 상태 합성(200)에서 다시 사용된다. 이와 같이 획득한 타겟 상태 파라미터 TSP는 다시 입력 이미지(IV1 내지 IVn)의 변환 동안에, 그리고 도 2b의 실시예에 도시된 바와 같이, 중간 학습 모델에 대한 모델 변환 단계(300)에서 사용된다. 후자의 단계에서는 중간 변환된 모델 MIT를 제공할 것이다. 이 중간 변환된 모델을 변환된 이미지 데이터에 추가함으로써, 소망의 출력 모델 M로의 더 정확하고 신속한 수렴을 얻을 수 있다.

도 1a 및 도 1b를 참조로 설명된 것과 유사한 것이, 입력 이미지 데이터의 타입에 따라서, 그리고 이용 가능한 계산 리소스에 따라서 출력 모델 제공에 대해서도 고려될 수 있다. 유사한 것이, 이 반복 단계에서 혹은 다음 반복 단계에서, 특히 비디오의 경우에는 변화되는 입력 이미지 데이터의 관점에서, 상태 결정 및 입력 이미지 데이터의 변환 자체에 관련해서 고려될 수 있다. 원활한 동작을 보장하기 위해서는 모든 단계를 동기화하는 것이 중요하다는 것을 다시 강조한다. 또한, 당업자라면 이러한 동기화의 측면을 이해할 것이다.

도 2c는 이 방법을 수행하는 장치를 나타내고 있다. 또한, 이러한 장치를 구현하는데 있어서는, 도 1c에 대해서 설명한 것과 유사한 것을 고려한다.

도 1a 내지 도 1c에 도시된 실시예와 유사하게, 예컨대, 이 방법의 이전 사용시에 획득한 이전에 외부로부터 저장된 모델과 같은, 외부에서 제공되는 데이터가 단계 500에 제공될 수 있으며, 이는 모델 객체 학습 단계 동안 사용된다. 도 1a의 실시예에 대해서 상세하게 설명한 바와 같이, 외부 정보는 타겟 상태 합성 모듈(200)에 제공할 수도 있다.

이 방법 및 장치의 이점은 도 3a, 도 3b, 도 4a 및 도 4b에 도시된 다른 실시예를 통해서 더욱 명확해질 것이다.

도 3a에 도시된 실시예에서는, 사람의 머리, 자동차, 나무 등과 같은 객체에 대한 일련의 2D+z 이미지를 포함하는 제 1 이미지 데이터 입력(IV1) 및 동일 객체의 스틸 3D 이미지를 포함하는 제 2 이미지 데이터 입력(IV2)을 수신한다. 이미지 모델 M은 이 객체의 3D 모델로, '실시간으로' 제공되어야 할 것이며, 이는 일련의 2D+z 이미지로 표시된 객체가 움직임이 있다면, 이 움직임이 표시되어야 하며, 3D에서 사실적이고 가능하면 정확해야 한다는 것을 의미한다.

이러한 상황은 예컨대, 사용자가 랩톱 앞에 있을 때 2개의 웹 캡의 조합을 통해서도 저렴하게 구현될 수 있는 스테레오 카메라가 사용자의 얼굴 및 상체를 기록하고 있는 동안에, 발생할 수 있다.

현재, 최상의 3D 복원(reconstruction) 알고리즘과 조합해서 최상의 매칭 알고리즘이 마련되어 있는 최고가 스테레오 카메라를 이용해도, 전체 머리를 충분히 높은 품질로 구축하는 것을 불가능하다. 이는, 저렴한 카메라로 획득한 2D+z 이미지 데이터의 경우에는 의심의 여지가 없다.

이제 제 2 이미지 입력이 사용되고, 이는, 이 객체 혹은 사람의 일련의 2D+z 비디오 이전에 오프라인으로 촬상된 3D 화상의 경우이다. 정확한 '실생활' 모델이 생성되는 객체가 자동차에 관한 것인 경우에는, 이 자동차의 3D이 사용된다.

2D+z 모니터링된 사람의 머리 및 얼굴의 정확한 3D '실생활' 표현이 제공되는 실시예에서는, 예컨대, 머리 방향, 3D의 크기, 3D의 위치와 같은 위치 파라미터와, 예컨대 얼굴 표정과 관련된 이들 파라미터와 같은 모핑 파라미터의 조합으로서 상태가 결정된다. 후자는 예컨대, 입, 코, 눈, 턱선, 눈썹 등의 특정 상대 위치 혹은 절대 위치에 관한 68 속성의 값으로 표현될 수 있다. 이들은 3D의 절대 좌표 혹은 상대 좌표로 표현될 수 있다. 모델링되는 것이 자동차인 경우에, 그 상태는 위치 파라미터 및 모핑 파라미터를 3D로 나타내는 값의 조합을 포함할 수 있으며, 위치 파라미터는 또한 이 자동차의 3D의 위치, 크기 및 방향에 관한 것이고, 모핑 파라미터는 예컨대, 바퀴 등과 같은 서브-객체의 색상, 질감, 방향을 식별한다.

3D 화상의 상태는 후속하는 2D+z 비디오의 각각의 이미지의 상태와 함께 결정되지만, 3D 화상은 오프라인 스틸 이미지에 관한 것이므로, 이는 또한 이전에 행해진 것이다. 이 경우, 이들 상태 파라미터는 이전에 결정되어서 저장될 수 있다. 그러나, 온라인 2D+z 입력 이미지 데이터의 경우에는, 예컨대, 사람은 때때로 이동하는 것은 피할 수 없기 때문에 이미지가 바뀔 것이고, 사람의 머리 및 움직임의 모델을 가능한 한 사실적으로 표현하는 정확한 온라인 3D 출력을 렌터링하도록, 이들 이미지를 가능한 한 가깝게 추적하는 것을 목적으로 한다. 이는 특히 다른 이동 차량의 예에서 유효하게 고려되며, 이 차량은 이동하면서 외관 및 경관이 바뀔 것이고, 바퀴의 위치 및 방향 등도 바뀔 것이다.

후속하는 사람의 머리의 2D+z 이미지 각각 혹은 그 서브세트의 소망의 상태는, 머리 방향 추정 및 얼굴 특성 추출을 위한 종래의 이미지 처리 기법의 상태를 이용해서, 결정될 수 있다. 얼굴 특성을 결정하는데는 상기 설명한 AAM 방법과 같은 기법이 이용될 수 있으며, 머리 방향 파라미터 값은, 예컨대, 그루너트 알고리즘(Grunert algorithm)을 이용한 얼굴 특성 삼각 매칭을 통해서 결정될 수 있다.

3D 이미지의 상태는, 사용자가 사람 머리의 3D 이미지를 투사한 몇 개의 버전에 대해서 얼굴 특성의 세트를 수동으로 표시함으로써 이전에 결정된 것이다. 다른 방안으로, 이는 더 자동화된 방식으로 예컨대, 인식 기법을 통해서 수행될 수도 있다. 타겟 상태 TSP를 결정하기 위한 입력으로서 상태 PS1 및 PS2가 모두 제공된다. 이 경우, 후속하는 2D+z 이미지에 대해서 결정된 상태가 3D 이미지의 변경없는 상태에 비해서 더 높은 가중치를 받게 되도록, 움직임을 추적하는 것이 가장 중요하다. 일 실시예에서, TSP는 2D+z 이미지의 상태인 PS1의 값에 대해서만 취해지며, PS2 값을 제거한다. 다음 반복 기간에, 생성된 중간 모델로부터 추출된 상태는 타겟 상태를 결정하는데도 이용될 것이며, 이에 대해서는 상세하게 후술한다.

타겟 상태 TSP에 기초해서, 이미지는 변형된다. 2D+z 비디오 이미지의 움직임 및 표정을 가능한 한 가깝게 따르기 위해서, 개개의 이미지를 포함하는 후속하는 비디오 프레임은 크게 변형되지는 않을 것이며, 일부 필터링만이 수행될 것이다. 한편, 후속하는 2D+z 이미지에서 제공되는 얼굴의 변경되는 표정/움직임에 더 가깝게 구성되도록 3D 이미지는 변형된다. 이는 얼굴 특성의 구성에 따라서, 예컨대, TSP 입력으로서 제공되는 어느 얼굴 특성에 구성시키는 시도를 할 때 입력 이미지에서 검출된 객체의 어느 픽셀/보셀이 변경되어야 하는지를 나타내는 '리기드(rigged) 3D 모델' 방법을 이용해서, 객체 회전, 트랜슬레이션 및 크기 조정의 조합에 의해 수행될 수 있다.

이들 이미지 입력 데이터에 더해서, 후속하는 반복 루프에서 연속해서 피드백되는, 사람의 머리 자체의 3D 모델 M에 대한 피드백 정보도 존재한다. 모델 객체 학습 단계(500)에서는, 3D 모델 M의 다양한 반복 혹은 추정의 로깅을 수행하고, 이는 시간 경과에 따라서 가변하는 표정 및 움직임의 함수로 변경될 수 있다. 또한, 중간 학습 모델 MIF 자체는 몇 번의 피드백 루프 동안, 바람직하게는 공간 의존 방식으로 구성되기도 하며, 이는 중간 학습 모델 MIF가 3D 공간의 모든 고려 지점에 대해서, 일반적으로 희소 적응형 샘플링(sparse adaptive sampling)에 사용되는 거리 메트릭을 가질 것이라는 것을 의미한다. 학습 모델 동작 동안마다, 이들 거리 메트릭은 시간적으로 지수 함수적으로 감소되는 모델에 기초해서 더욱 업데이트된다.

중간 학습 모델 MIF은 또한 상태 추출에도 사용되며, 이 정보는 상기 설명한 방식으로, 따라서 내삽이 적절한지 여부를 우선 결정함으로써, 타겟 상태 TSP를 결정하는데도 이용된다. 이 내삽은 PS1 데이터의 신뢰도가 예컨대, 50% 정도로 높지 않은 경우에 적합할 것이다. 다른 방안으로, PS1의 신뢰도가 예컨대 20% 이하로 낮은 경우에는, PSMF만을 이용하는 것이 더 바람직할 것이다. PS1 데이터의 신뢰도가 예컨대, 50% 이상으로 비교적 높은 경우에는, PS1 데이터만이 사용될 수 있다. 다른 기준이 사용될 수도 있고, 내삽의 경우에, 타겟 상태를 결정하는데 있어서, IV1 입력 비디오의 상태에, PSMF에 대해서 더 많은 가중이 제공될 수도 있음은 물론이다.

이 타겟 상태 TSP는 입력 이미지 데이터를 변환하는데 사용될 수 있다. 도 3a에 도시된 실시예에서는, 중간 학습 모델의 추가 변형은 없으며, 이는 중간 학습 모델 MIF이 이 경우에는 '상태 의존형'이라는 것을 의미한다. 도 3b에 도시된 다른 실시예에서는, 중간 학습 모델 MIF는, TSP에 따라서, TSP를 고려해서 변경되는 입력의 상태를 간접적으로 고려함으로써 더 조정하는 방식으로 더 변환된다. 이는 '상태 독립 모델'로 표시되어 있다. 도 3a에 도시된 실시예에서는, 중간 학습 모델은 집성 단계(400)에서 직접 사용되지만, 도 3b에 도시된 실시예에서는, 이 단계에서 변환된 모델 정보 MIT가 사용된다. 두 실시예 모두에서, 집성 단계(400)는 신뢰도 맵에 더 기초할 수 있고, 이는 일부 실시예에서, 2D+z 데이터와 함께 제공될 수 있으며, 이 신뢰도는 스테레오 카메라 이미지로부터 2D+z 데이터를 결정할 때 스테레오 매칭 처리의 결과가 될 수 있다.

신뢰도 맵은 또한 변환된 3D 데이터 IV2T에 대해서도 구축될 수 있다. 예컨대, 3D 오프라인 스캔된 데이터의 초기의 높은 신뢰도는, 얼굴의 어느 부분에 대해서 중요한 변환이 적용될 때에는, 낮아질 수 있다.

학습된 모델 MIF에 관한 신뢰도 메트릭의 경우에는, 과거로부터 신뢰도를 추론할 수 있으며, 모델의 이전 상태가 어느 픽셀의 새로운 측정값에 부합하지 않는 경우에는, 과거에 움직임이 있었다고 가정해서, 신뢰도도 저하되는 것으로 가정할 수 있다.

구성된 이미지 IV1T, IV2T를 이들의 적절하게 결정된 신뢰도와 결합함으로써, MIF 혹은 MIT에 있어서, 예컨대, '마칭 큐브(marching cubes)' 알고리즘과 같은 3D 구축 알고리즘이, 2D+z 움직임 및 표정에 정확하게 따르는 일정 3D 모델을 만드는데 사용될 수 있다.

따라서 사람 머리의 정확한 "실생활" 3D 표현을 제공하는 상술한 예는, 예컨대, 참여 인원의 풀 3D 표현이, 이 사람에 대한 온라인 트래킹에 제한된 리소스만을 이용할 수 있는 경우에도, 다른 모든 참가자에게 표시되어서 전송되는 것이 바람직한 화상 회의 상황에 적용될 수 있다. 이러한 상황에서, 모든 참가자의 저렴한 2D+z 이미지를 생성하는데 예컨대, 랩톱과 같은 휴대 기기의 내장형 카메라와 2개의 웹캠과의 조합이 이용될 수 있지만, 반면, 각 사람의 3D 표현에서의 사실적이고 정확한 오프라인 표현이, 각각의 사람이 실시간으로 3D로 표현될 수 있도록, 본 방법의 실시예를 이용해서 화상 회의 동안에 그 전에 저장될 수도 있다.

도 4a는 3D 비디오를 생성하는 실시예를 나타내는 것으로, 이는, 약간의 결함이 포함되어 있는 수정된 원래의 실생활 2D 비디오를 갖고 있음과 동시에, 서로 다른 시각(perspective angle)으로부터 입력되는 실생활 2D 비디오를 표현하는, 도 4b에 'P'로 표시된 단계(600)의 통상의 투사 기법을 통해서 사용될 수 있다. 상기 수정은 서로 다른 투사점으로부터의 투사를 통해서 얻을 수 있으며, 이 경우, 투사각 및 투사면을 고려하는 후속의 투사에 경우에는, 정확한 3D 모델만이 생성되게 된다. 이 경우, 도 3a와 관련해서 설명한 기법이 사용될 수 있으며, 투사 단계가 이에 후속한다. 3D 이미지를 통해서, 동일한 객체에 대한 사실적인 3D 모델을 구현하기 위한 정보가 제공되지만, 이는 결함이 있다. 이는 예컨대, 온라인 비디오 통신 영역에서 사용될 수 있으며, 여기서 사용자는 예컨대, 웹캠에 의해 촬영되고 있고, 따라서 카메라를 보고 있을 것으로 예상되지만 키보트를 타이핑하고 있는 경우에 사용될 수 있다. 그럼에도 불구하고, 이 통신의 다른 그룹에는, 사용자의 시선이 카메라를 보고 있는 것으로 전송되는 것이 요구되기 때문에, 일부 이미지 처리 동작에서는, 이 사람의 움직임을 사실적으로 추적해서, 요구되는 시선을 취하고 있는 것처럼 수정되어 있는, 이 사람의 모델을 생성할 필요가 있다. 사용자가 '아래'를 보는 현상을 아이-게이즈(eye-gaze)라고 하며, 따라서 아이-게이즈 수정이 요구된다.

이러한 아이-게이즈 수정을 수행하는 이전의 방법에서는 스크린 주위에 복수의 카메라를 설치하고, 필요한 카메라 위치에서의 시선 내삽을 수행하는 알고리즘을 포함했다. 한편, 도 4a 및 도 4b의 실시예는 매우 간단해서, 참가자가 카메라를 보고 있는 것으로 시선이 수정된, 오프라인으로 촬상된 3D 이미지만을 필요로 한다.

상기 도 3a의 예와 관련해서 설명한 바와 같이, 상태는 위치 파라미터와 모핑 파라미터의 조합으로 정의되며, 상세하게는 3D에서의 사람 머리, 얼굴 회전, 크기, 위치 및 얼굴 표정에 관한 것이다. 실시간 2D 비디오의 상태가 타겟 상태로서 사용될 것이며, 오프라인 스캐닝된 3D 측정값은 이 타겟 상태를 고려해서 변환된다. 집성 단계에서, 오프라인 3D 이미지에 대한 3D 형상이, 실시간 촬상된 2D 정보에 의해 제공되는 질감 정보와 함께 사용된다.

도 4a 및 도 4b에서 M3D로 표시된 3D 모델이 생성되어서, 반복 루프로 피드백된다. 도 4a의 실시예에서, 이 3D 모델은 출력에 제공되지만, 도 4b에서는, 생성된 모델의 2D 투사가 출력에 제공되도록 추가적인 투사 단계가 수행된다. 두 실시예 모두에서, 모델 변형이 수행되지만, 도 3a와 관련해서 설명된 바와 같이, 이 단계(300)가 생략된 다른 실시예가 있을 수도 있다.

이들 모든 실시예에서, 타겟 상태는 도 3a의 실시예와 유사한 방식으로 결정되며, 따라서, 3D 모델은 2D 비디오 이미지의 움직임 및 얼굴 표정을 추적한다. 이렇게 구현된, 획득한 사람 머리에 대한 3D 모델을 서로 다른 투사면에 투사하는 것만으로, 아이-게이즈 수정은 이미 획득될 수 있다. 이 때, 도 3a의 실시예와 유사하게, 추가 투사 단계(600)를 추가하면, 2D+z 대신 2D 비디오를 수신하는 것만으로 이미 충분할 것이다.

다른 방식으로는, 3D 모델이 입력 2D 비디오의 표현 및 움직임을 단지 따르는 것이 아니라, 3D 이미지에 의해 제공되는, 개선된 관찰점(looking position)을 고려할 것이다. 여기서, TSP는 PS2로부터의 입력을 받아야 하므로, 도 3a 및 도 3b의 실시예에 비해서, 상이한 TSP 계산 방식이 사용되어야 한다. IV1의 이미지 변환 단계(301) 동안에, 사람은 다양한 시선을 갖고 있어서 수정되는 경우에는 IV1가 소망의 특성을 갖게 변환되도록 TSP가 고려되는 반면, IV2는 TSP에 기초해서 IV1의 변경되는 표현을 따르도록 변환되지만, 수정된 특성은 유지되게 된다. 이를 구현할 수 있는 방법은, TSP 입력으로서 제공되는 어느 얼굴 특성에 구성해야 할 때, 입력 이미지에서 검출된 객체의 어느 픽셀/보셀이 변경되어야 하는지를 나타내는 상술한 '리기드' 3D 모델을 사용하는 것이다.

학습 모델 자체는 이 '리기드 모델'에 기초해서 모델 변환 단계(300)에서 변환될 수 있으며, IV1 데이터로부터의 변경 정보가 중간 학습 모델을 구성시키는데 사용되게 된다.

모든 실시예에서, 각각의 변환된 이미지는 가장 최근에 생성된 모델 혹은 가장 최근에 변환된 모델과 집성된다. 일 실시예에서, IV1T의 질감 정보는 IV2T 및 MIF 혹은 MIT의 질감 정보와 집성된다. 이는, 이른바 '알파 블렌딩' 기법을 통해서 구현될 수 있으며, 여기서 IV1T의 픽셀은 IV2T 및 MIT의 보셀보다 더 큰 가중치를 부여받는다. 형상과 관련해서는, 메시를 생성하는 공지된 프아송 표면 구성 기법(Poisson surface construction technique)이 사용될 수 있다.

도 4b의 실시예는, 모델 객체 학습 단계(500)로의 외부 모델 정보 ME의 선택 입력을 나타내고 있다. 이 외부 정보는 도 3a와 같은 실시예로부터 제공될 수 있으며, 이는 이 방법의 첫번째 단계에서 사용될 수 있으며, 이 경우 MIF의 초기값이 상태 추출 단계에 이미 제공되어서 모델 변환에 사용될 수 있게 된다. 또 다른 실시예에서는, 이 모델 변환 동작(300)은 생략되고, 이 초기 정보 ME는 직접 제공되도록 MIF로서 사용될 수 있으며, 집성 단계(400) 동안 사용된다.

이상, 특정 장치와 관련해서 본 발명의 원리를 설명했지만, 이 설명은 단지 예로서 제공된 것이고, 첨부된 청구항에 정의되어 있는 본 발명의 범주를 한정하는 것이 아니라는 것을 이해할 것이다. 청구항에서는, 설명한 기능을 수행하는 수단으로서 표현된 구성 요소는 그 기능을 수행하는 임의의 방법을 포함하는 것으로 했다. 이는 예컨대, 이 기능을 수행하는 전자적인 구성 요소 혹은 기계적인 구성 요소의 조합, 혹은 펌웨어, 마이크로코드 등을 포함한 임의의 형태의 소프트웨어를, 이 기능을 수행하는 소프트웨어를 실행하는 적절한 회로 및 소프트웨어 제어되는 회로에 연결되는 기계적인 구성 요소가 있다면, 이와 조합해서 포함할 수 있다. 이러한 청구항에 정의되어 있는 바와 같은 본 발명에서는, 다양하게 인용된 수단에 의해 제공되는 기능들은 청구항에서 요구하는 방식으로 조합되고, 서로 결합되며, 별도로 언급하지 않는 한, 임의의 물리적인 구성은 청구되는 본 발명의 신규성에 크기 혹은 거의 중요하지 않다. 따라서, 본 출원인은, 임의의 수단이 여기 설명되는 것과 같은 이들 기능을 제공할 수 있는 것을 고려했다.

Claims

적어도 하나의 이미지 데이터 입력(IV1; IVl~IVn)으로부터 이미지 모델(Ml; M)을 구축하는 방법에 있어서,
상기 적어도 하나의 이미지 데이터 입력(IV1; IVl~IVn)의 적어도 하나의 상태(PS1; PS1~PSn), 및 중간 학습 모델(MF; MIF)의 상태(PSMF)를 결정하는 단계와,
상기 적어도 하나의 이미지 데이터 입력의 상기 적어도 하나의 상태(PS1; PS1~PSn)로부터 그리고 상기 중간 학습 모델(MF; MIF)의 상태(PSMF)로부터 타겟 상태(TSP)를 결정하는 단계와,
적어도 하나의 변환된 이미지(IV1T; IV1T~IVnT)를 생성하도록, 상기 결정된 타겟 상태(TSP)에 따라서, 상기 적어도 하나의 이미지 데이터 입력(IV1; IVl~IVn)에 대해 적어도 하나의 변환을 수행하는 단계와,
상기 이미지 모델(M1; M)의 갱신된 추정판(updated estimate)을 생성하도록, 상기 적어도 하나의 변환된 이미지(IV1T; IV1T~IVnT)와 중간 학습 모델(MF; MIF; MIT; MFT) 정보를 집성하는(aggregating) 단계와,
상기 이미지 모델(M1; M)의 상기 갱신된 추정판을 상기 이미지 모델(M1; M)로서 제공하는 단계와 아울러,
상기 중간 학습 모델(MF, MIF)의 갱신을 유도하기 위해 피드백 루프로 모델 객체 학습 모듈(500)에 상기 이미지 모델(M1; M)의 상기 갱신된 추정판을 제공하는 단계를, 반복적인 방식으로 포함하는
이미지 모델 구축 방법.
제 1 항에 있어서,
상기 집성 단계 동안, 중간 변환된 모델(MFT; MIT)이 상기 적어도 하나의 변환된 이미지(IV1T; IV1T~IVnT)와 집성되어서, 상기 이미지 모델(M1; M)의 상기 갱신된 추정판이 생성되도록, 상기 결정된 타겟 상태(TSP)에 따라서, 상기 중간 학습 모델(MF, MIF)에 대해서 변환을 수행함으로써, 상기 중간 변환된 모델(MFT; MIT)을 생성하는 단계를 더 포함하는
이미지 모델 구축 방법.
제 1 항 또는 제 2 항에 있어서,
상기 적어도 하나의 이미지 데이터 입력은 2D 혹은 2D+z 포맷의 객체의 비디오 시퀀스를 포함하는 제 1 이미지 데이터 입력(IV1), 및 상기 객체의 풀 3D 이미지를 포함하는 제 2 이미지 데이터 입력(IV2)을 포함하며, 상기 상태는 3D의 상기 객체의 모핑(morphing) 파라미터와 위치를 나타내는 값의 조합을 포함하고, 이로써 3D의 상기 이미지 모델의 연속적인 갱신된 추정판이 상기 이미지 모델(M3D)로서 제공되는
이미지 모델 구축 방법.
제 3 항에 있어서,
상기 객체의 상기 풀 3D 이미지는, 상기 객체를, 상기 객체의 상기 비디오 시퀀스 이미지에 대해 적어도 하나의 상이한 피쳐(feature)로 나타내고, 상기 객체의 3D의 상기 이미지 모델(M3D)은 상기 적어도 하나의 상이한 피쳐를 나타내는
이미지 모델 구축 방법.
제 3 항 또는 제 4 항에 있어서,
상기 3D 이미지 모델의 상기 갱신된 추정판(M3D)을 2D면에 투사하고, 상기 갱신된 추정판의 2D의 투사(M2D)를 상기 이미지 모델로서 제공하는 단계를 더 포함하는
이미지 모델 구축 방법.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
상기 타겟 상태는, 상기 이미지 모델이 생성되는 객체와 관련된 추가 정보(PSE)에 기초해서 더 결정되는
이미지 모델 구축 방법.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
상기 중간 학습 모델은 외부로부터 제공되는 모델 정보(ME)로부터 더 유도되는
이미지 모델 구축 방법.
적어도 하나의 이미지 데이터 입력(IV1; IVl~IVn)으로부터 이미지 모델(Ml; M)을 구축하는 이미지 모델 구축 장치(A1)에 있어서,
상기 이미지 모델 구축 장치는,
상기 이미지 모델 구축 장치의 적어도 하나의 입력에 제공되는 상기 적어도 하나의 이미지 데이터 입력(IV1; IVl~IVn)의 상태(PS1; PS1~PSn) 및 중간 학습 모델(MF; MIF)의 상태의 각각의 값을 결정하고,
상기 적어도 하나의 이미지 데이터 입력의 상기 상태(PS1; PS1~PSn)의 각각의 값 중 적어도 하나의 값으로부터 그리고 상기 중간 학습 모델(MF; MIF)의 상기 상태의 적어도 하나의 값으로부터 타겟 상태(TSP)의 적어도 하나의 값을 결정하며,
적어도 하나의 변환된 이미지(IV1T; IV1T~IVnT)를 생성하도록, 상기 적어도 하나의 이미지 데이터 입력(IV1; IVl~IVn)에 대해 적어도 하나의 변환을 수행하고,
상기 이미지 모델(M1; M)의 갱신된 추정판을 생성하도록, 상기 적어도 하나의 변환된 이미지(IV1T; IV1T~IVnT)와 중간 학습 모델(MF; MIF; MIT; MFT) 정보를 집성하고,
상기 중간 학습 모델(MF, MIF)의 갱신을 유도하기 위해, 상기 이미지 모델(M1; M)의 상기 갱신된 추정판을 피드백 루프로 제공하고,
상기 이미지 모델(M1; M)의 상기 갱신된 추정판을 상기 이미지 모델(M1; M)로서 상기 이미지 모델 구축 장치의 출력으로 제공하는
이미지 모델 구축 장치.
제 8 항에 있어서,
상기 중간 변환된 모델(MFT; MIT)이 적어도 하나의 변환된 이미지(IV1T; IV1T~IVnT)와 집성되어서, 상기 이미지 모델(M1; M)의 상기 갱신된 추정판이 생성되도록, 상기 결정된 타겟 상태(TSP)에 따라서, 상기 중간 학습 모델(MF, MIF)에 대해서 변환을 수행함으로써, 상기 중간 변환된 모델(MFT; MIT)을 생성하도록 더 구성되는
이미지 모델 구축 장치.
제 8 항 또는 제 9 항에 있어서,
상기 적어도 하나의 이미지 데이터 입력은 2D 혹은 2D+z 포맷의 객체의 비디오 시퀀스를 포함하는 제 1 이미지 데이터 입력(IV1), 및 상기 객체의 풀 3D 이미지를 포함하는 제 2 이미지 데이터 입력(IV2)을 포함하며, 상기 상태는 3D의 상기 객체의 모핑 파라미터와 위치를 나타내는 값의 조합을 포함하고, 상기 이미지 모델 구축 장치는 3D의 상기 이미지 모델의 연속적인 갱신된 추정판을 상기 이미지 모델(M3D)로서 생성하도록 구성되는
이미지 모델 구축 장치.
제 10 항에 있어서,
상기 이미지 모델 구축 장치는 상기 3D 이미지 모델의 상기 갱신된 추정판(M3D)을 2D면에 투사하고, 상기 갱신된 추정판의 2D의 투사(M2D)를 상기 이미지 모델로서 상기 출력에 제공하도록 더 구성되는
이미지 모델 구축 장치.
제 8 항 내지 제 11 항 중 어느 한 항에 있어서,
상기 이미지 모델 구축 장치는, 상기 이미지 모델이 생성되는 객체와 관련되고 상기 이미지 모델 구축 장치의 다른 입력에 제공되는, 추가 정보(PSE)에 기초해서, 상기 타겟 상태(TSP)를 결정하도록 더 구성되는
이미지 모델 구축 장치.
제 8 항 내지 제 12 항 중 어느 한 항에 있어서,
상기 중간 학습 모델(MF; MIF)을 상기 이미지 모델 구축 장치의 다른 입력에 외부로부터 제공되는 모델 정보(ME)로부터 유도하도록 더 구성되는
이미지 모델 구축 장치.
제8항 내지 제13항 중 어느 한 항에 따른 이미지 모델 구축 장치를 포함하는
이미지 처리 장치.
데이터 처리 장치에서 실행될 때, 제1항 내지 제7항 중 어느 한 항에 따른 이미지 모델 구축 방법의 단계를 수행하도록 구성된 소프트웨어를 포함하는
컴퓨터 프로그램 제품.