KR101560508B1 - 3차원 이미지 모델 조정을 위한 방법 및 장치 - Google Patents

3차원 이미지 모델 조정을 위한 방법 및 장치 Download PDF

Info

Publication number
KR101560508B1
KR101560508B1 KR1020147001196A KR20147001196A KR101560508B1 KR 101560508 B1 KR101560508 B1 KR 101560508B1 KR 1020147001196 A KR1020147001196 A KR 1020147001196A KR 20147001196 A KR20147001196 A KR 20147001196A KR 101560508 B1 KR101560508 B1 KR 101560508B1
Authority
KR
South Korea
Prior art keywords
model
state
projection
image
adjusted
Prior art date
Application number
KR1020147001196A
Other languages
English (en)
Other versions
KR20140037936A (ko
Inventor
도니 타이트가트
새미 라이벤스
마르텐 에르츠
Original Assignee
알까뗄 루슨트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 알까뗄 루슨트 filed Critical 알까뗄 루슨트
Publication of KR20140037936A publication Critical patent/KR20140037936A/ko
Application granted granted Critical
Publication of KR101560508B1 publication Critical patent/KR101560508B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20121Active appearance model [AAM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Architecture (AREA)
  • Geometry (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Transforming Electric Information Into Light Information (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

객체의 3D 모델(m)을 조정하는 방법으로서, 상기 방법은, - 상기 3D 모델의 적어도 하나의 투영을 수행하여, 관련된 깊이 정보(d1)를 갖는 적어도 하나의 2D 이미지 모델 투영(p1)을 얻는 단계, - 상기 적어도 하나의 2D 이미지 모델 투영(p1)에 대해 적어도 하나의 상태 추출 동작을 수행하여, 적어도 하나의 상태(s1)를 얻는 단계, - 상기 적어도 하나의 상태(s1) 및 타겟 상태(s)에 따라, 상기 적어도 하나의 2D 이미지 모델 투영(p1) 및 상기 관련된 깊이 정보(d1)를 조정함으로써, 적어도 하나의 조정된 2D 이미지 모델(p1') 및 관련된 조정된 깊이(d1')를 얻는 단계, 및 - 상기 관련된 조정된 깊이(d1')에 기초하여, 상기 적어도 하나의 조정된 2D 이미지 모델(p1')을 3D로 역투영함으로써, 조정된 3D 모델(m')을 얻는 단계를 포함하는 방법이 제공된다.

Description

3차원 이미지 모델 조정을 위한 방법 및 장치{METHOD AND ARRANGEMENT FOR 3-DIMENSIONAL IMAGE MODEL ADAPTATION}
본 발명은 유럽 특허 출원 제 11305768 호의 우선권을 주장하며, 본 발명은 3 차원(이하, 3D 라고 약칭함) 이미지 모델의 조정을 위한 방법에 관한 것이다.
3D 모델 조정은 통상적으로 수동 방식으로 행해지며, 일반적으로 그것은 바람직하지 않은 것이다. 3D 모델을 조정하는 다른 방식은 상태 조정을 이용하며, 그것은 특정 상태를 따르기 위한 3D 모델의 조정에 관한 것이다. 상태는 모델의 특정한 부분들 또는 특징들의 텍스쳐와 같은 외관 및/또는 형상의 3D 위치에 영향을 미친다. 다시, 3D 모델 상태 조정을 위한 현재 기술들의 주된 문제점은, 3D에서 조정될 특징들의 수가 통상적으로 매우 높으므로, 불충분한 계산 자원들로 인해, 때때로 수동 조정이 다시 요구된다는 것이다. 더욱이, 최신의 기술들은 조작된 모델들(rigged models)을 이용하는 것으로 제한되며, 그것은 모델들이 학습될 수 있는 동적인 시스템들에서의 이용을 위한 몇 가지의 제한을 제공하여, 그들의 형상이 학습 프로세스 동안 변할 수 있게 된다.
따라서, 본 발명의 실시예들의 목적은, 완전히 자동으로 이용될 수 있고, 동적으로 조정이능한 모델들을 이용할 수 있도록 하는, 3D 이미지 모델 조정을 위한 방법 및 장치를 제공하는 것이다.
본 발명의 실시예들에 따르면, 이러한 목적은 객체(object)의 3D 모델을 조정하는 방법에 의해 달성되며, 상기 방법은,
- 상기 3D 모델의 적어도 하나의 투영을 수행하여, 관련된 깊이 정보(d1)를 갖는 적어도 하나의 2D 이미지 모델 투영(p1)을 얻는 단계,
- 상기 적어도 하나의 2D 이미지 모델 투영(p1)에 대해 적어도 하나의 상태 추출 동작을 수행하여, 적어도 하나의 상태(s1)를 얻는 단계,
- 상기 적어도 하나의 상태(s1) 및 타겟 상태(s)에 따라, 상기 적어도 하나의 2D 이미지 모델 투영(p1) 및 상기 관련된 깊이 정보를 조정함으로써, 적어도 하나의 조정된 2D 이미지 모델(p1') 및 관련된 조정된 깊이(d1')를 얻는 단계, 및
- 상기 관련된 조정된 깊이(d1')에 기초하여, 상기 적어도 하나의 조정된 2D 이미지 모델을 3D로 역투영(back-projecting)함으로써, 조정된 3D 모델(m')을 얻는 단계를 포함한다.
3D 이미지 모델의 적어도 하나의 2D 투영 및 그것의 관련된 깊이 정보의 상태를 조정함으로써, 계산 자원들을 덜 사용하게 되어, 프로세스에서의 수동 조정에 대한 필요성을 제거하게 된다. 3D로의 역투영은, 3D 모델 자체가, 최대한 현실적으로 조정되는 것을 보장한다.
소정의 실시예에서, 조정된 3D 모델(m')은 초기의 3D 모델(m) 정보에 기초하여 더 결정된다.
이것은 조정된 모델의 부드러운 모핑(smooth morphing)을 가능하게 한다.
다른 실시예에서, 타겟 상태(s)는 외부적으로 부과된 제약에 의해 결정된다.
이것은, 예를 들면, 코의 형태, 눈의 색 등에 대한 높은 레벨의 정보를 포함할 수 있다.
다른 실시예에서, 타겟 상태(s)는 외부 이미지 입력(IV)의 상태(se)로부터 얻어진다.
이것은, 타겟 상태가 상기 외부 이미지 입력(IV)의 상태(se)와 상기 적어도 하나의 상태(s1)를 결합함으로써 얻어질 것이므로, 3D 모델이, 예를 들면, 라이브 비디오 상의 객체의 변경되는 특징들에 부드럽게 조정하게 하거나, 또는 스틸 이미지 상에 제공된 것으로서의 이러한 객체에 유사해지도록 할 수 있다.
바람직한 변형예에서, 상기 외부 이미지 입력(IV)은 2D 이미지 입력을 포함하고, 상기 3D 모델의 적어도 하나의 2D 투영들 중 하나는 상기 외부 이미지 입력(IV)으로부터 추론된 가상 카메라에 따라 수행된다.
이것은 외부 이미지 입력과 3D 모델 사이의 최적의 관계를 얻는데 유용하다.
다른 변형예에서, 외부 이미지 입력은 2D + 차이(disparity) 입력을 포함할 수 있으며, 그것은 2D 뿐만 아니라 차이 정보 둘다, 예를 들면, 입체(stereoscopic) 카메라에 의해 외부적으로 제공됨을 의미한다. 그 다음, 깊이 정보가 공식 "깊이 x 차이 = 상수"에 의해 이러한 차이 정보로부터 직접 도출될 수 있다.
이것은 관련된 깊이를 업데이트하기 위해, 이러한 입력으로부터 깊이 데이터를 직접 이용할 수 있도록 한다.
본 발명은 또한 이러한 방법을 수행하기 위한 장치, 그러한 장치를 포함하는 이미지 또는 비디오 처리 장치들, 및 데이터 처리 장치 상에서 실행될 때, 전술하거나 또는 청구된 방법 단계들을 수행하도록 구성된 소프트웨어를 포함하는 컴퓨터 프로그램 제품에 관한 것이다.
청구항들에서 이용된 '연결된' 이라는 용어는, 직접적인 접속으로만 제한되는 것으로서 해석되지 않아야 함을 주지해야 한다. 따라서, '디바이스 B에 연결된 디바이스 A' 라는 표현의 영역은, 디바이스 A의 출력이 디바이스 B의 입력에 직접 접속되는 디바이스들 또는 시스템들로 제한되지 않아야 한다. 그것은 다른 디바이스들 또는 수단들을 포함하는 경로일 수 있는 A의 출력과 B의 입력 사이의 경로가 존재함을 의미한다.
청구항들에서 이용된 "포함하는" 이라는 용어는, 그 이후에 열거된 수단으로 제한되는 것으로서 해석되지 않아야 함을 주지해야 한다. 따라서, '수단 A 및 B를 포함하는 디바이스' 라는 표현의 영역은 구성요소들 A 및 B만으로 구성되는 디바이스들로 제한되지 않아야 한다. 본 발명에 대하여, 디바이스의 유일한 관련된 구성요소들은 A 및 B임을 의미한다.
명세서 전체를 통해 2차원을 2D로 약칭할 것이며, 전술한 바와 같이, 3차원은 3D로 약칭할 것이다.
첨부 도면과 함께 실시예에 대한 이하의 설명을 참조함으로써, 본 발명의 상기 및 다른 목적들 및 특징들이 보다 명백해질 것이며, 본 발명 자체를 가장 잘 이해할 것이다.
도 1a 및 1b는 방법 및 장치의 제1 변형예를 도시한다.
도 2a 및 2b는 본 발명의 실시예들에 포함된 기하학적 모델을 도식적으로 도시한다.
도 3a 및 3b는 방법의 제2 변형예를 도시한다.
도 4a 및 4b는 방법의 제3, 제4 실시예를 각각 도시한다.
도 5a 내지 5c는 추가적인 2D 비디오 입력의 경우에, 도 3a의 실시예에 의해 수행되는 상이한 단계들을 명확하게 도시한다.
당업자라면, 본 명세서에서의 임의의 블록도들은 본 발명의 원리들을 구현하는 예시적인 회로의 개념도를 나타냄을 이해해야 한다. 유사하게, 임의의 흐름 챠트들, 흐름도들, 상태 전이도들, 의사 코드 등은, 컴퓨터 판독가능 매체에서 실질적으로 표현될 수 있으며, 컴퓨터 또는 프로세서가 명시적으로 도시되는지의 여부와는 관계없이, 컴퓨터 또는 프로세서에 의해 실행되는 다양한 프로세스들을 나타냄을 이해할 것이다.
도 1a는 m으로 표시된 3D 모델을 조정하기 위한 방법의 제1 변형예에 의해 수행되는 단계들을 도시한다.
제1 단계에서, 2D로의 3D 모델의 투영이 수행된다. 이러한 투영에 대한 파라미터들은, 예컨대, 사용 지침 안내서 "Multiple View Geometry in computer vision" by Richard Hartley and Andrew Zisserman, Cambridge University Press, second edition 2003, ISBN 0521 54051 8의 챕터 6에 기술된 바와 같은 잘 알려진 핀홀 카메라 모델에 따라 이용된 것이다.
따라서, 이것은 중심 "핀홀"을 통한 3D 공간에서의 포인트들의 평면 상으로의 투영에 관한 것이다. 이러한 모델에서, 평면은 카메라의 투영 평면에 대응하며, 핀홀은 때로는 카메라 중심이라고 지칭되는 카메라의 조리개 개구(diafragma opening)에 대응한다. 투영 단계의 결과는 p1, d1로 표시되며, p1은 색 정보를 포함하는 픽셀 값들의 2D 매트릭스에 의해 표현될 수 있는 2D 투영 자체를 나타내고, d1은 관련된 깊이 값들의 2D 매트릭스에 의해 또한 표현될 수 있는 투영 깊이 맵을 나타낸다. 이러한 관련된 깊이 값들은 원래의 깊이 값들, 및 이후의 단락에서 또한 주어지는 잘 알려진 수학식들에 따른 카메라 위치로부터 계산된다.
대안적으로, 투영 및 깊이 맵은 하나의 큰 2D 매트릭스 내에서 표현될 수 있으며, 각각의 투영된 픽셀에 대해, 색 정보 및 관련된 깊이 정보 둘다 대응하는 매트릭스 행 및 열에 제공된다.
투영 자체가 도 2a에 도식적으로 도시되며, 기준 좌표 시스템을 정의하는 3개의 축 x, y, z를 통해 이러한 좌표들을 정의하는, 원점(origin) O에 대한 3개의 공간 좌표 xA, yA, zA를 갖는 포인트 A를 도시한다. 핀홀 카메라는 동일한 기준 원점 및 기준 좌표 시스템에 대하여 좌표들 xC, yC, zC를 갖는 그 카메라 중심 위치 C에 의해 표시된다. 포인트 A의 투영은 이러한 카메라와 관련된 투영 스크린 상에서 행해지며, S로 표시된다. 포인트 A의 핀홀 C를 통한 이러한 스크린에 대한 투영은, 관련된 좌표들 (xpA, ypA)을 갖는 p(A)로 표시된다. 그러나, 이러한 좌표들은 이러한 투영 평면 S 내에 정의된 바와 같이 2 차원 축들 xp 및 yp에 대하여 정의된다.
도 2a에 부담을 주지 않도록, 카메라는 3개의 기준 좌표들 x, y, z에 대하여 회전되지 않는 것으로 가정한다. 그러나, 이러한 보다 일반적인 경우에 대해 잘 알려진 공식들이 존재하며, 그러한 공식들은 본 발명에 따른 실시예들에서 투영들 및 관련된 깊이 맵들의 계산을 위해 이용된다. 카메라의 이러한 회전들은
Figure 112014004442306-pct00001
로 표시되고, 그 각각은 도 2b에 도식적으로 표시된 바와 같이 x, y, z 축 주위의 카메라 중심의 회전을 나타내며, 원점 O가 카메라 중심 C와 일치하는 경우들에 대해, 이러한 회전들만이 도시된다.
따라서, 가장 일반적인 경우에, C는 기준 원점 O 및 기준 축들 x, y, z에 대하여 병진 및 회전될 수 있다.
본 발명에 따른 실시예들에서, 3D 모델의 투영은, 이들이 스크린 영역 S의 윤곽(contour)들 내에 속하는 한, 그리고 그들이 이러한 모델의 다른 3D 포인트의 다른 투영에 의해 가려지지 않는 한, 이러한 모델의 투영된 3D 포인트들의 색 또는 텍스쳐 정보로 이루어질 수 있다. 가려짐은 실제로 3D 객체의 모든 2D 투영들로 거의 본질적으로 발생되며, 이러한 모델의 하나보다 많은 3D 포인트가 투영 상의 동일한 2D 포인트로 투영될 것이라는 사실과 관련된다.
이러한 투영과 관련된 깊이 맵은, 투영된 픽셀들 p(A)의 각각에 대해, 카메라의 위치에 대하여 그들 각각의 상대적인 깊이 값으로 구성될 것이다. 이것은 다음과 같이 표시된다.
Figure 112014004442306-pct00002
여기서,
Figure 112014004442306-pct00003
는 도 2b에 나타낸 바와 같은 기준 축들 주위의 카메라의 각각의 회전들을 나타내고,
ax, ay, az는 기준 좌표 시스템에서의 포인트 a의 좌표들을 나타내고,
cx, cy, cz는 이러한 기준 좌표 시스템에서의 카메라 중심 c의 좌표들을 나타내고,
dz는 카메라 중심 c에 대한 포인트 a의 관련된 깊이를 나타낸다.
기준 원점 O에서의 기준 좌표 시스템 x, y, z에 대하여 카메라의 회전이 없는 경우에, 이들 회전 각도들은 0이며, 수학식 1은 다음과 같이 감소될 것이다.
Figure 112014004442306-pct00004
이것은, 도 2a에서와 같은 표기법을 이용하며, 다음과 같은 것에 대응한다.
Figure 112014004442306-pct00005
이것은 또한 도 2a 나타낸 바와 같다.
일반적으로, 투영은 3D에서 조정될 3D 모델의 특징들이 충분히 높은 해상도에서 투영의 일부가 되도록, 또는 그들이 투영 이미지를 최적으로 채우도록 선택된다. 이것은 미리 결정된 투영 위치들의 세트를 시도함으로써, 및 최상의 결과들을 제공하는 것을 선택함으로써, 체험적으로 수행될 수 있다.
다른 실시예에서, 이것은 모델의 3D 표면이 3D 삼각형들에 의해 근사화되는 중간 단계를 통해 더 결정될 수 있다. 일반적으로, 조정될 특징들과 관련된 모델의 부분들만이 그러한 3D 삼각형들에 의해 근사화될 것이다. 이러한 삼각형들 각각에 대해, 수직 방향과 관련된 노멀(normal)이 결정된다. 이상적인 투영을 위해, 이러한 노멀의 방향은 이러한 삼각형에 대한 카메라의 방향에 대하여 180도이어야 한다. 각각의 카메라 위치에 대해, 각각의 삼각형에 대한 노멀과 삼각형의 중심에 대한 카메라의 방향 사이의 이러한 각도의 코사인의, 전체 삼각형들에 대한, 합산은 최소로 되어야 한다. 다수의 가능한 카메라 위치들에 대하여 이러한 합산을 계산하고, 이러한 합산에 대한 최소 값을 제공하는 위치를 선택함으로써, 최적의 방향이 계산될 수 있다. 대안적으로, 최소화 문제 자체는, 최적의 카메라 방향을 결정하는 것과 같이 해결될 수 있다.
물론, 본 기술 분야의 당업자에 의해 잘 알려진 바와 같이, 여러 가지의 다른 기술들이 이용될 수 있다.
다음 단계에서, 이러한 투영으로부터 상태가 추출된다. 상태에 의해, 객체 특징들의 구성은, 어느 특징들이 그 자체가 값들의 세트에 의해 표현되는지를 의미한다. 따라서, 이러한 값들은 객체의 가능하게는 가변적인 속성들 또는 특징들을 기술할 수 있다. 이러한 값들의 세트가 벡터 내로 배열될 수 있지만, 그러한 상태에 대한 다른 표현들도 물론 가능하다. 따라서, 상태 추출은 3D 모델의 투영인 이 경우에, 이미지의 객체의 상태를 나타내기 위한 상태 파라미터들이 결정됨을 의미한다. 이것은 다른 문단에서 기술된 예들에서 도시되는 바와 같이, 3D 모델 정보에 기초한 몇몇 계산들을 통해서, 또는 보다 일반적인 방법들, 예를 들면, 먼저 고려중인 객체를 인식/검출하지만 가능하게는 분할 동작들을 수행할 필요는 없는 단계로서, 인식된/검출된 객체의 추가적인 깊이 분석이 뒤따르는 단계를 포함하는 방법들을 이용함으로써 수행될 수 있다.
그러나, 본 발명에 따른 대부분의 실시예들에서, 3D 모델 자체는 이미 알려져 있어서, 상태 추출은 3D 모델의 상태에 기초한 계산들로 크게 감소될 수 있다. 이러한 3D 상태가 사람 머리의 3D 모델인 경우의 얼굴 특징들일 수 있는 소정의 특징들의 좌표들과 관련되는 경우, 이러한 3D 포인트들의 2D 투영들은 2D 이미지들의 상태 파라미터들을 즉각적으로 초래할 수 있다.
3D 모델의 상태가 아직 알려지지 않은 경우, 초기에 기술된 인식 단계 이후에, 예를 들면, AAM(Active Appearance Model)의 이용을 포함하는 다른 분석이 뒤따를 수 있다. 이것은, 예를 들면, 업데이트될 객체 모델로서의 사람 머리의 경우, 2D AAM 내부 성형 모델을 이용한 맞춤(fit)을 통해 2D 투영된 이미지에 대한 얼굴 특징들의 형상 및 외관의 결정을 허용한다. 그것은 2D 투영을, 최상의 맞춤을 찾기 위해 AAM 모델 자체가 더 점진적으로 변경되는 2D AAM 모델의 시작 값과 비교하는 것으로 시작될 수 있다. 양호한 매칭이 발견되면, face_expression_1_x, face_expression_1_y 등과 같은 파라미터들이, 이러한 AAM 조정된 모델이 출력되는 것에 기초하여 그에 따라 결정된다.
도 1a에서, 투영 이미지의 상태는 s1로 표시되고, 이것은 타겟 상태 합성 단계 동안 이용된다. 타겟 상태 s는 2D 투영의 상태 s1로부터, 및 외부 상태 정보로부터 얻어진다. se로 표시되는 이러한 외부 상태 정보는 사전에, 예를 들면, 스틸 이미지 입력으로부터 오프라인으로, 또는 다른 서술 정보, 예를 들면, 코의 형상 또는 눈의 색, 얼굴 표현 등에 대한 하이 레벨 의미론적 정보에 기초하여 결정될 수 있다. 이 경우, 이러한 외부 상태 정보는 메모리 내에 사전에 저장될 수도 있다.
대안적으로, 이러한 외부 상태 정보 se는, 예를 들면, 시간에 걸쳐 신속하게 변경될 수 있는 변경되는 외부 비디오 이미지 입력 데이터에 기초하여, "온 더 플라이(on the fly)"로 결정될 수 있다. 그러한 상황들에서, 외부 상태 se는 일반적으로 비디오 시퀀스의 연속적인 프레임들에 대해 결정될 것이다.
외부 상태 정보는 타겟 상태를 얻기 위해 2D 투영의 상태 si와 함께 이용된다.
입력 상태 s1 및 se로부터, 도 1a에서 s에 의해 표시된 타겟 상태를 결정하기 위한 방법들은 상태들의 신뢰도(confidence)를 반영하는 가중치들과의, s1 및 se의 값의 가중된 결합을 수행하는 것을 포함할 수 있으며, 신뢰도 레벨들 자체는 상태 추출 자체 동안에 결정된다. s1 파라미터들을 결정하기 위한 AAM 방법의 전술한 예의 경우, 매칭 결과를 식별하는 파라미터들은, 예를 들면, 신뢰도 측정과 같이 선택될 수 있다.
타겟 상태를 결정하기 위한 다른 방법은 단순히, 예를 들면, se를 선택하는 것으로 구성될 수 있으며, 그러한 옵션은 상이한 상태들의, 이전의 예에서 설명된 바와 같은 보간 또는 가중된 결합의 결과의 체크가, 그러한 보간된 결과가 미리 결정된 한계들 밖에 있음을 나타내는 경우에 선호될 수 있다.
상태 및 타겟 상태들의 결정을 위한 특정 구현들이, 도 4a 및 4b의 실시예들을 설명하는 동안에 더 기술될 것이다.
도 1a에서 s로 표시된 타겟 상태의 결정시에, 2D 투영 p1 뿐만 아니라 관련된 깊이 맵 d1이, 타겟 상태 s에 따라서 변환될 것이다. 하나의 예에서, 예를 들면, 얼굴 특징들을 나타내기 위해 삼각형들을 이용하는 방법이 이용될 수 있다. 이러한 삼각형들에 의해 정의된 거리들을 보간하고, 특징들을 이전의 위치에서의 픽셀들로 인해 이전에 기인한 새로운 위치들로서의 픽셀들에 기인한 것으로 간주함으로써, 이미지 변환이 초래될 수 있다. 그러한 방법은 그러한 삼각형들이 많이 이용되는 경우에 매우 유용하다.
유사한 방법에서, 특징들과 관련된 투영 이미지들의 픽셀들의 업데이트된 2D 좌표들이, 새로운 상태에 따라 계산될 것이다. 원래의 2D 투영 상에 정의된 삼각형들 사이에 놓이는 픽셀들의 색 및 텍스쳐 정보는, 업데이트된 이미지들에서의 이들 새로운 위치들에서의 삼각형들 사이에 놓이는 픽셀들에 기인할 것이다. 따라서, 2D 투영 상의 2개의 포인트들이 내부 좌표들 (100, 100) 및 (200, 200)을 갖고, 이들이 변환된 투영들 상의 좌표들 (50, 50) 및 (100, 100)로 변환될 것이라면, 좌표 (150, 150)에서의 원래의 픽셀의 색은 좌표 (75, 75)에서의 변환된 이미지에서의 픽셀에 기인할 것이다.
보다 상세한 다른 구현에 대해서는 도 4a 및 4b를 기술하면서 더 기술할 것이다.
조정된 2D 투영은 p1'으로 표시된다.
병행하여, 또한 관련된 깊이 맵의 관련된 깊이 값들이 타겟 상태에 따라 조정된다. 몇몇 실시예들에서, 타겟 상태 결정은, 투영의 픽셀들의 일부에 대한, 조정된 깊이 값들의 계산들을 직접 포함한다. 타겟 상태에 따른 다른 깊이 값들의 조정은, 조정된 투영된 픽셀들에 대한 색 값들의 조정에 대하여 이전 문단에서 설명된 바와 같이, 이미 계산된 조정된 깊이 사이의 보간을 통하여 또한 발생될 수 있다.
조정된 깊이 맵은 d1'으로 표시된다.
일반적으로 조정된 2D 이미지 모델을 포함하는 변환된 2D 투영 및 변환된 깊이 맵에 기초하여, 3D로부터 2D로의 투영들 자체 동안에 이용된 바와 같은 역 변환들을 이용하여, 그러나 이제 조정된 투영 이미지의 각각의 2D 픽셀에 대한 관련된 깊이 값들을 이용하여, 3D로의 재투영(re-projection) 또는 역투영(back-projection)이 수행될 수 있다.
이러한 역투영의 결과는 p3d_1로 표시된다.
몇몇 경우들에 있어서, 3D에서의 역투영된 포인트들은 업데이트된 3D 모델을 형성하기에 충분하다.
다른 실시예들에서, 3D로의 역투영은 원래의 3D 모델 m과 병합되어, 업데이트 또는 조정된 3D 모델 m'을 얻게 된다.
도 1b는 방법의 실시예를 수행하기 위한 장치 A를 도시한다.
도 3a는 1개보다 많은 투영이 초기의 3D 모델 m으로부터 수행되는 변형예를 도시한다. 투영들 자체는 모델의 형태 및 형상, 및 제1 투영의 선택에 의해 발생되는 가림(occlusion)들의 양에 따라서, 또는 투영 파라미터들 자체의 결정을 위해 이전에 기술된 바와 같은 방법들 중 하나를 이용하여 선택될 수 있다. 따라서, 가능한 구현은 3D에서의 삼각형들의 세트에 의해 모델링될 3D 표면의 근사화들에 기초할 수 있다. 이러한 삼각형들 각각에 대해, 수직 방향이 계산된다. 이것은 3D 모델 바디 외부를 포인팅하는 3D "노멀" 벡터에 의해 표현될 수 있다. 이러한 3D 벡터와 카메라 투영 방향 사이의 차이를 계산함으로써, 가림을 결정하기 위한 간단한 방법이 얻어지며, 가려지지 않은 표면들에 대해서는, 프로섹션 방향은 노멀 벡터와는 반대로 되어야 한다. 그러한 카메라 투영은 튜닝될 수 있고, 따라서 모델링될 모든 특징들의 충분히 우수한 투영을 얻기 위해, 충분한 해상도를 갖게 되며, 수 개의 투영들이 필요할 수 있다. 대안적으로, 디폴트 3개의 미리 결정된 투영들이 또한 이용되어, 가장 최적의 카메라 위치의 시행착오 계산을 완화시키게 된다.
이러한 상이한 투영들은 p1, p2 내지 pn으로 표시되며, 관련된 깊이 맵들 d1, d2 내지 dn을 갖는다. 따라서, 이러한 투영들 각각은 도 2a 및 2b에 표시된 바와 같은, 특정한 위치, 회전, 관련된 스크린 폭 및 길이를 갖는 가상 카메라와 관련된다.
이러한 상이한 투영들 p1 내지 pn 각각은 상태 추출 또는 동작들을 또한 겪을 것이며, 그것은 각각의 결정된 상태들 s1, s2 내지 sn을 초래하게 된다. 몇몇 실시예들에서, 이러한 각각의 투영들의 상태들이, 이전에 기술된 바와 같이, 특히 조정될 특징들이 고려중인 특징들의 좌표들 또는 픽셀 위치들과 직접 관련되는 이러한 상황들에서 계산될 수 있다.
타겟 상태 s의 결정을 위해, 이러한 각각의 결정된 상태들 s1 내지 sn은 각각의 입력으로서 이용되지만, 가능하게는 외부 상태 입력 se와 함께일 필요는 없다. 타겟 상태의 이러한 결정은, 상태들의 신뢰도를 반영하는 가중치들과의, 다양한 입력 상태들의 가중된 결합을 수행하는 것을 포함할 수 있으며, 신뢰도 레벨들 자체는 상태 추출 자체 동안에 결정된다. s1 파라미터들을 결정하기 위한 AAM 방법의 전술한 예의 경우, 매칭 결과를 식별하는 파라미터들은, 예를 들면, 신뢰도 측정과 같이 선택될 수 있다.
타겟 상태를 결정하기 위한 다른 방법은 단순히 입력 상태들 또는 외부 상태들 중 하나를 선택하는 것으로 구성될 수 있으며, 그러한 옵션은 상이한 상태들의, 이전의 예에서 설명된 바와 같은 보간 또는 가중된 결합의 결과의 체크가, 그러한 보간된 결과가 미리 결정된 한계들 밖에 있음을 나타내는 경우에 선호될 수 있다.
타겟 상태 s는, n개의 개별적인 투영들 및 그들 각각의 관련된 깊이 맵들이 업데이트되는 기초(basis)를 형성한다. 업데이트된 투영들은 p1', p2' 내지 pn'으로 표시되며, 업데이트된 깊이 맵들은 d1', d2' 내지 dn'으로 표시된다.
그 다음, 이들 업데이트된 투영들 p1', p2' 내지 pn' 각각은, 투영들에서의 각각의 2D 픽셀에 관련된 업데이트된 깊이 맵 값들에 기초하여 3D로 역투영된다. 이러한 역투영들은 원래의 모델과 병합되어, 업데이트 또는 조정된 모델을 생성한다.
도 3b는 이러한 변형 방법을 수행하기 위한 장치의 실시예를 도시한다.
도 4a는 개인의 머리의 3D 모델을 조정하기 위한 실시예를 기술한다. 이러한 실시예에서, 이러한 모델의 상태는 얼굴의 표현들과 관련되지만, 다른 실시예들에서, 상태는 머리카락, 눈, 피부 등의 색들에도 관련될 수 있다. 이러한 특정 실시예에서의 목표는, 입력된 2D 비디오에 의해 제공된 얼굴 특징들을 이용하여 3D 모델을 애니메이팅(animating)하는 것이다.
이러한 입력된 비디오는 도 3a에서 IV로 표시된다. 비디오의 각각의 프레임에 대해, 객체의 스케일 및 방향성이, 3D 모델의 각각에 대해 평가된다. 이것은 3D 모델의 2D 평면으로의 가상 카메라 뷰포인트에 관련되는 제1 투영을 결정하기 위해 선호되며, 그러한 투영은 2D 비디오를 캡쳐하는 카메라에서 이용된 2D 투영과 최대한 유사해야 한다. 제1 투영에 대한 이러한 특정한 선택이 필요한 것은 아니지만, 용이한 업데이트를 위해 이로울 수 있다. 따라서, 이러한 특정한 투영을 위해, 3D 모델의 2D 평면으로의 투영은, 입력된 비디오의 2D 이미지들을 취하기 위해 이용된 카메라의 파라미터들과 최대한 근접하게 유사한 관련된 투영 파라미터들을 갖는 가상 카메라를 이용해야 한다.
이러한 투영 파라미터들의 이러한 계산은, 본 명세서에서 후술되는 바와 같은 알려진 기술들에 따라 수행된다.
이러한 가상 카메라에 대한 파라미터들을 결정하는 프로세스에 대한 입력은 사람 얼굴 및 라이브 2D 비디오 공급(feed)의 3D 데이터베이스 모델이다. 3D 데이터베이스 모델의 얼굴 특징들의 3D 위치들과 같이, 라이브 비디오 공급에서의 얼굴 특징들의 2D 위치들 및 웹캠 및 가상 카메라 둘다의 투영 매트릭스는 알려져 있으며, 이들 데이터는 라이브 비디오 공급에서의 얼굴의 얼굴 특징들의 3D 위치를 계산하기에 충분해야 한다. 라이브 비디오 공급에서의 얼굴 특징들의 3D 위치들이, 데이터베이스 모델의 대응하는 얼굴 특징들의 3D 위치와 함께 알려져 있다면, 대응하는 3D 위치들 사이의 3D 변환(병진 및 회전)이 계산될 수 있다. 대안적으로, 라이브 비디오 공급에서 볼 수 있는 3D 데이터베이스 모델의 동일한 뷰포트(viewport)를 캡쳐하기 위해 가상 카메라에 대해 요구되는 3D 변환(병진 및 회전)이 그에 따라 또한 계산될 수 있다. 가상 카메라에 대해 적용될 이러한 변환의 계산을 위해 요구되는 특징 포인트들의 최소의 양은 3이다. 사람 얼굴은 변화되며 상이한 감정들로 인해 단단한 객체가 아니기 때문에, 보다 많은 얼굴 특징들을 취하는 것은 최소화 문제들을 해결하도록 요구할 것이다. 따라서, 3개의 안정된 포인트들, 예를 들면, 좌측 눈의 좌측 에지, 우측 눈의 우측 에지 및 입의 최상부가 이용된다. 데이터베이스 모델에서의 이러한 3개의 얼굴 특징들의 3D 위치는, 웹캠 투영 매트릭스 및 라이브 비디오 공급에서의 대응하는 얼굴 특징들의 2D 위치와 함께, 잘 알려진 그루너트 알고리즘(Grunert's algorithm)에 입력된다. 이러한 알고리즘은 이들 대응하는 3개의 얼굴 특징들의 계산된 3D 위치들을 제공할 것이다. 또한, 이것은 라이브 비디오 공급에서의 얼굴에 의해 제공되는 데이터베이스 모델의 동일한 2D 뷰를 캡쳐하기 위해 3D 데이터베이스 모델 주위에서 가상 카메라를 이동시키는데 이용될 수 있다.
몇몇 실시예들에서, 도 4a에 도시된 것과 같이, 3D 모델의 다른 투영을 이용하는 것이 선호될 수 있다. 이것은 카메라 파라미터들을 이용하는 제1 투영이 비디오 공급의 이미지와 유사함을 갖는 최적의 투영을 초래하지만, 예를 들면, 투영 이미지에서 얼굴의 일부분이 코에 의해 가려질 때, 충분한 픽셀 데이터가 되도록 하지 않는 경우에 바람직할 수 있다.
이것은 도 5a에 도시되며, 여기서는, 좌측 직사각형에서 "실제(real)" 개인의 "실제" 카메라에 의해 캡쳐된 비디오가 도시되고, 우측 직사각형의 좌측 부분은 가상 카메라 1로 표시된 제1 가상 카메라에 의한 3D 모델의 투영을 도시한다. 관측할 수 있듯이, 이러한 가상 카메라에 의한 3D 모델의 투영은 "라이브(live)" 2D 카메라에 의해 이용된 투영 조건들과 매칭된다. 얼굴의 좌측 부분의 다른 일부 픽셀들은 코에 의해 가려진다. 따라서, 다른 가상 카메라에 의한 다른 투영이 수행되고, 이 카메라는 "가상 카메라 2"로 표시된다. 그 파라미터들은 다른 카메라 위치의 가려진 픽셀들에 기초하여 결정된다. 이것은, 예를 들면, 초점 포인트와 같은 고유의 파라미터들, 가상 카메라들의 외적인 파라미터들, 및 3D 모델의 지식에 기초하여 결정될 수 있다. 이러한 정보는 3D 모델의 모델링될 특징들의 2개의 복셀(voxel)들 또는 3D 포인트들이 2D 투영에서의 동일한 픽셀로 투영될 것인지의 여부를 결정할 수 있게 할 것이다. 만약 그러하다면, 가려짐이 발생될 것이 명백하다. 이러한 정보에 기초하여, 다른 가상 카메라 위치가 계산될 수 있어, 적어도 이러한 복셀에 대해 상이한 투영들을 허용한다. 모든 투영된 픽셀들에 대해 이러한 체크를 수행함으로써, 가려짐의 존재가 결정될 수 있고, 이것에 기초하여 다른 가상 카메라 위치 및 회전이 결정될 수 있다.
다른 실시예에서, 다수의 미리 결정된 가상 카메라들이 이용되거나, 또는 관심 대상의 특징들의 프로섹션들을 얻기 위해 이들 중에서 선택할 수 있다. 대안적으로, 각각 전면 뷰 및 2개의 측면 뷰들을 90도에서 제공하기 위한 가상 카메라의 표준 구성이 또한 이용될 수 있으며, 어느 특징들이 모델링되는지, 모든 투영 또는 그들의 서브세트가 이용될 수 있는지에 의존한다.
2개의 투영만이 이용되는 경우, 이러한 제2 투영의 결과가 도 5a의 우측 직사각형의 우측 부분에 도시된다. 투영들 p1 및 p2와 함께, 관련된 깊이 맵들이 생성되며, d1 및 d2로 표시된다. 이들은 각각의 2D 투영된 픽셀에 대해, 각각의 가상 카메라 1 또는 2의 뷰의 포인트로부터 관찰된 각각의 카메라 위치들에 대한 수학식 1에 의한 회전 정보를 포함하는 상대적인 깊이를 나타낸다. 2개의 투영들 각각에 대한 깊이 맵은 우측 직사각형의 최하부 도면들에서 표시된다.
다음 단계에서, 상태가 두 투영들 p1 및 p2 뿐만 아니라, 입력 비디오의 연속적인 프레임들에 대해 추출된다. 이러한 실시예에서와 같이, 상태는 얼굴 표현들과 관련되며, 따라서 이들은 특징화된다. 이들 얼굴 표현들과 관련된 특징들은, 전술한 AAM 기술과 같은 최신 기술을 이용하여 2D 투영 상에서와 같이 입력 비디오 상의 두 연속적인 프레임들 상에서 추출된다. 모델의 3D 상태 및 대응하는 복셀 투영들에 기초하여 전술한 바와 같이 투영들의 상태들을 계산할 수도 있다. 이것은 도 5b에 도시되며, 좌측 직사각형에서, 라이브 2D 프레임 상의 입 및 눈의 에지들의 상이한 픽셀들의 위치들을 나타낸다. 따라서, 이들 동일한 특징들의 이러한 위치들은 투영들에 대해 또한 결정된다. 도 5b의 우측 부분에서, 이것은 투영 p1에 대해서만 도시되지만, 이것은 도면에 부담을 주지 않도록, 이 도면에서 도시되지 않은 투영 p2에 대해서도 발생됨이 명백하다. 이러한 특정한 실시예에서, 각각의 상태들은 p1, p2 상에 및 입력 프레임 상에 제공된 바와 같은 이들 특징들에 관련된 픽셀들의 위치들에 대응한다. 이러한 상태들은 각각 s1, s2 및 se로 표시된다. 도 5b 상에는 p1만이 도시되므로, 또한 s1만이 도시된다. 이러한 3개의 상태들은 타겟 상태를 결정하는데 이용되며, 이러한 실시예에서 상태 se에 대응한다. 이러한 실시예에서, 각각의 상태들 s1, s2는 그에 따라 타겟 상태의 결정을 위해 이용되지 않지만, 그럼에도 불구하고, 이러한 각각의 상태들 s1, s2는 타겟 상태에 따른 투영들의 변환 동안에 이용된다. 따라서, 이러한 타겟 상태는 2D 투영들 p1 및 p2를 조정하기 위해 또한 이용된다. "실제" 비디오에 대응하는 가상 카메라의 경우, 이러한 조정은 선택된 특징들의 픽셀 위치들을, 비디오 프레임에서 제공된 이들 특징들의 대응하는 픽셀 위치들에 의해 대체함으로써 쉽게 수행될 수 있다. 실제 카메라에 대한 맵핑으로서 가상 카메라 1의 선택에 의해, 이것은 매우 쉽게 수행될 수 있다. 다른 가상 카메라 2dp 의해 얻어진 2D 투영 p2를 조정하기 위해, 가능한 방법은 3D에서 먼저 결정된 p2의 조정된 특징들의 위치들을 계산하는 것을 포함한다. 이것은 조정된 투영 p1' 및 조정된 깊이 맵 d1'에 기초하여 수행될 수 있다. 이것은 p1' 상에서 볼 수 있었던 이들 특징들에 대해, 그들의 위치를 3D에서 계산하는 것을 결정할 수 있도록 한다. 제2 투영에 대한 투영 파라미터들을 이용함으로써, p2' 상의 그들의 대응하는 위치들이 식별될 수 있다. p1 및 p1'으로부터의 가려진 특징들에 대해, 조정된 투영들 및 조정된 깊이 맵을 계산하기 위해, 보간 기술들이 이용될 수 있다.
p1 및 p2에 대한 주요 특징들의 새로운 위치들이 알려지면, 가중된 보간과 같은 모핑 기법들을 이용하여, 주요 특징들이 아닌 픽셀들의 색 및 깊이를 결정할 수 있다.
투영 p1의 조정들은 도 5b 상의 우측 직사각형의 최하부 도면들에 도시된다. 이러한 투영은 좌측 직사각형의 입력 비디오 프레임 상에 제공된 바와 같이, "웃는(laughing)" 얼굴 표현으로 이제 조정됨이 명백하다. 이것은 또한 (도 5b 상에 도시되지 않은) 투영 p2 상에서도 발생될 것이다.
그 다음, 조정된 투영들 p1' 및 p2' 둘다, 조정된 깊이 맵들을 이용하여 3D로 재투영되고, 오래된(old) 데이터를 대체 또는 업데이트하기 위해 병합된다. d1'에 대한 데이터는 조정된 깊이가 초기의 깊이와 동일하고, 따라서 고려중인 특징에 관련되며 투영 좌표 xpA, ypA를 갖는 픽셀 A에 대한 초기 깊이 d(A)가, 고려중인 특징의 조정된 좌표들인 xpA' 및 ypA'에 대한 좌표 xpA', ypA'를 갖는 픽셀에 기인할 것이라는 근사화에 기초하여 계산될 수 있다.
이러한 점에서, 그것은 조정된 2D 이미지들의 모든 역투영들은 3D 영역에서 일관되어야 함을 나타낸다. 기본적으로, 이것은 하나보다 많은 2D 투영된 이미지에서 볼 수 있는 변환된 특징을 역투영할 때, 이러한 특징은 모든 투영들로부터 동일한 3D 위치로 역투영되어야 함을 의미한다. 그러므로, 입의 코너가 변환되고, 이러한 입의 코너가 이들 투영들 중 수 개에서 제공된다면, 모든 역투영된 좌표들이 동일해야 한다.
x_3d는 고려되는 3D 객체 상의 소정의 특징이다(예를 들면, 코의 끝). x_3d는 정보(x, y, z, 색)를 갖는 벡터이다. x_2dz는 2D+Z 영역에서의 소정의 특징이며, 그것은 정보(x_2d, y_2d, 깊이, 색)를 포함하는 벡터이다.
소정의 가상 카메라 c1에 따른 3D의 2D+Z로의 투영은 함수 p로 모델링된다.
Figure 112014004442306-pct00006
이제, 상태 조정된 3D 모델을 고려하자. 상태 조정 이후의 예상된 3D 특징은 x'_3d 라고 지칭된다. 3D 상태 전달 함수(state transfer function)는 m_3d이다.
Figure 112014004442306-pct00007
이것은 다음을 의미한다.
Figure 112014004442306-pct00008
상태에 대한 조정이 투영들에 대해 수행되므로, 2D+Z 영역에서, m_3d 함수는 이용가능하지 않다. 이것은 m_2dz 함수를 이용함으로써 근사화될 수 있다.
Figure 112014004442306-pct00009
이것은, 아래와 같은 경우, 단지 3D 상태 일관적일 수 있다.
Figure 112014004442306-pct00010
이것은 함수들 p(c1, m_3d) 및 m_2dz(c1)이, 고려되는 영역들 내에서 사실상 동일함을 의미한다.
만약 그러하다면, 문제가 없으며, 전술한 방법은 어떠한 문제점없이 이용될 수 있다. 만약 그렇지 않다면, 추가적인 단계가 구현되어야 한다.
이것을 고려하기 위해, 투영 파라미터들을 주의 깊게 선택함으로써, 이러한 문제를 처음부터 해결할 수 있다.
그러나, 이것이 고려되지 않는 경우, 그러한 비일관성의 경우일 수 있다. 3D 모델을 재형성하기 위해 다수의 2D+Z 소스들을 이용할 때의 문제들 중 하나는, 이들 소스들의 역투영들이 상태 전달 함수에 대해 "동의(agree)"할 필요가 있다는 것이다. 함수들이 3D 상태 일관적일 때, (모든 2dz 함수들은 3d 상태 전달 함수의 특정한 2dz 버젼을 실제로 구현하므로) 이것은 문제가 되지 않는다. 그들이 3d 상태 일관적인 것이 아닐 때, "정확한(correct)" 3d 상태 전달 함수 또는 그것의 근사화를 통해, 그들의 일관성을 강제할 필요가 있다. 이것은, 예컨대, 하나의 기준 2DZ 상태 전달 함수를 선택하고, 모든 다른 상태 전달 함수들을 이러한 기준 상으로 투영함으로써, 수행될 수 있다.
Figure 112014004442306-pct00011
이제, 기준 2dz 상태 전달 함수인 m_2dz(c1ref)를 고려한다. 3D 영역을 통해 이동함으로써 다른 함수들을 형성할 수 있다.
Figure 112014004442306-pct00012
Figure 112014004442306-pct00013
3D에서의 객체로부터의 모든 특징들이 p(c, x_3d)를 통해 이동한 후에 유효 값들을 갖는 것은 아님을 주지해야 한다. 예컨대, 가상 카메라 뷰 내에 있지 않은 포인트들, 또는 객체에서 다른 특징들에 의해 가려지는 포인트들이 있다. 그러한 포인트들에 대해 일관된 전달 함수를 갖기 위해, 다른 기준 카메라들이 필요할 것이다.
제2 실시예는 제1 실시예에 대한 변형예이며, 개인의 얼굴의 3D 모델의 상태 조정을 또한 포함하지만, 이전의 실시예와는 반대로, 그것은 예를 들면, 마이크로소프트 키넥트(Microsoft Kinect)와 같은 비행 시간(time-of-flight) 카메라 또는 스테레오 카메라를 이용하는 2D 카메라 대신에 2D+Z 카메라를 이용한다. 이러한 경우, 외부로서의 2D 대신에 3D 좌표들에서의 얼굴 특징 포인트들을 이용할 수 있다. 다시, 라이브 데이터에 의해 수정되는 모든 포인트들을 커버하고, 상태를 이들 투영들 상으로 추론하기 위해 요구되는 만큼 오프라인 모델의 2D+Z 투영들을 취한다. 예를 들어, '오프라인' 2D+Z 데이터에 대해 이전의 실시예의 모핑 기법을 이용함으로써 데이터를 병합할 수 있지만, 이제 특징 포인트들에 대해 수정된 Z 데이터를 또한 이용한다.
이러한 실시예들에서, 3D 상태 조정의 문제점을 감소시킬 수 있었다. 하나 또는 다수의 2D 이미지로부터 풀(full) 3D 모델로 상태를 전달하는 것으로부터 시작하는 경우, 그것은 이제 2D로부터 2D+Z로 상태를 전달하는 것으로 감소되어, 이러한 동작들이 실시간 애플리케이션들을 위해 처리가 용이하도록 한다.
본 발명의 원리들이 특정 장치와 관련하여 위에서 설명되었지만, 그러한 설명은 단지 예로써 행해진 것이며, 첨부된 특허청구범위에서 정의된 바와 같은, 본 발명의 영역을 제한하기 위한 것은 아님을 명백히 이해할 것이다. 본 명세서의 청구항들에서, 지정된 기능을 수행하기 위한 수단으로서 표현된 임의의 요소는 그러한 기능을 수행하는 임의의 방식을 포함하는 것으로 의도된다. 예를 들어, 이것은 기능을 수행하기 위한 소프트웨어를 실행하기 위한 적절한 회로와 결합된, 펌웨어, 마이크로코드 등을 포함하는 임의의 형태의 소프트웨어 또는 기능을 수행하는 전기적 또는 기계적 요소들 뿐만 아니라, 만약 존재하는 경우, 소프트웨어 제어형 회로에 연결된 기계적 요소들의 조합을 포함할 수 있다. 그러한 청구항들에 의해 정의된 본 발명은, 인용된 다양한 수단에 의해 제공된 기능이, 청구항들이 요청하는 방식으로 함께 결합 및 초래되며, 그렇지 않은 경우 구체적으로 그렇게 정의되지 않는 한, 임의의 물리적 구조는 청구된 발명의 신규성에 거의 중요성이 없거나 또는 중요성이 없다는 사실에 있다. 따라서, 본 출원인은 그러한 기능들을 제공할 수 있는 임의의 수단을 본 명세서에서 도시된 것들과 등가인 것으로 간주한다.

Claims (15)

  1. 객체의 3D 모델(m)을 조정하는 방법으로서,
    - 상기 3D 모델의 적어도 하나의 투영을 수행하여, 관련된 깊이 정보(d1)를 갖는 적어도 하나의 2D 이미지 모델 투영(p1)을 얻는 단계와,
    - 상기 적어도 하나의 2D 이미지 모델 투영(p1)에 대해 적어도 하나의 상태 추출 동작을 수행하여, 값들의 세트로 표현되는 객체 특징들의 구성을 포함하는 적어도 하나의 상태(s1)를 얻는 단계와,
    - 스틸 이미지 데이터 또는 서술 정보에 기초하여 오프라인-결정된 상태 정보인 외부 상태 정보(se)를 수신하거나 또는 외부 상태 정보(PS)가 추출되는 외부 이미지 입력(IV)를 수신하는 단계와,
    - 상기 상태 추출 동작 동안 결정된 상기 상태들의 신뢰도(confidence)를 반영하는 가중치들과 상기 적어도 하나의 상태(s1) 및 상기 외부 상태 정보(se; PS)의 가중된 결합(weighted combination)을 수행하거나, 또는 상기 적어도 하나의 상태(s1) 및 상기 외부 상태 정보(se; PS) 중 하나를 선택하여, 상기 적어도 하나의 상태(s1)와 상기 외부 상태 정보(se; PS)로부터 타겟 상태(s)를 결정하는 단계와,
    - 상기 적어도 하나의 상태(s1) 및 상기 타겟 상태(s)에 따라, 상기 적어도 하나의 2D 이미지 모델 투영(p1) 및 상기 관련된 깊이 정보(d1)를 조정함으로써, 적어도 하나의 조정된 2D 이미지 모델 투영(p1') 및 관련된 조정된 깊이(d1')를 얻는 단계, 및
    - 상기 관련된 조정된 깊이(d1')에 기초하여, 상기 적어도 하나의 조정된 2D 이미지 모델 투영(p1')을 3D로 역투영함으로써, 조정된 3D 모델(m')을 얻는 단계를 포함하는
    객체의 3D 모델 조정 방법.
  2. 제1항에 있어서,
    상기 조정된 3D 모델(m')은 초기의 3D 모델(m) 정보에 기초하여 또한 결정되는
    객체의 3D 모델 조정 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 타겟 상태(s)는 외부적으로 부과된 의미론적 정보로부터 얻어지는
    객체의 3D 모델 조정 방법.
  4. 삭제
  5. 제1항 또는 제2항에 있어서,
    상기 타겟 상태는 상기 외부 이미지 입력(IV)의 상태(PS)와 상기 적어도 하나의 상태(s1)를 결합함으로써 얻어지는
    객체의 3D 모델 조정 방법.
  6. 제1항 또는 제2항에 있어서,
    상기 3D 모델의 적어도 하나의 2D 투영 중 하나는, 상기 외부 이미지 입력(IV)으로부터 추론된 가상 카메라에 따라 수행되는
    객체의 3D 모델 조정 방법.
  7. 제1항 또는 제2항에 있어서,
    상기 적어도 하나의 상태(s1) 및 상기 타겟 상태(s)에 따라, 상기 적어도 하나의 2D 이미지 모델 투영(p1) 및 상기 관련된 깊이 정보(d1)를 조정하는 것은, 외부의 라이브 비디오 및 상기 적어도 하나의 2D 이미지 모델 투영(p1)으로부터 추출된 사전결정된 특징들에 대해 수행되고,
    상기 적어도 하나의 조정된 2D 이미지 모델 투영에 대한 상기 사전결정된 특징들의 조정된 위치들이 상기 라이브 비디오의 상기 사전결정된 특징들의 위치들에 기초하여 결정되는
    객체의 3D 모델 조정 방법.
  8. 프로세서와 메모리를 포함하는 제1항 또는 제2항에 따른 객체의 3D 모델 조정 방법을 수행하도록 구성된 장치(A1).
  9. 제8항에 따른 장치를 포함하는 이미지 처리 장치.
  10. 데이터 처리 장치 상에서 실행될 때, 제1항 또는 제2항에 따른 객체의 3D 모델 조정 방법의 단계들을 수행하도록 구성된 소프트웨어가 저장된 컴퓨터 판독가능 저장 매체.
  11. 제5항에 있어서,
    상기 적어도 하나의 상태(s1) 및 상기 타겟 상태(s)에 따라, 상기 적어도 하나의 2D 이미지 모델 투영(p1) 및 상기 관련된 깊이 정보(d1)를 조정하는 것은, 외부의 라이브 비디오 및 상기 적어도 하나의 2D 이미지 모델 투영(p1)으로부터 추출된 사전결정된 특징들에 대해 수행되고,
    상기 적어도 하나의 조정된 2D 이미지 모델 투영에 대한 상기 사전결정된 특징들의 조정된 위치들이 상기 라이브 비디오의 상기 사전결정된 특징들의 위치들에 기초하여 결정되는
    객체의 3D 모델 조정 방법.
  12. 제6항에 있어서,
    상기 적어도 하나의 상태(s1) 및 상기 타겟 상태(s)에 따라, 상기 적어도 하나의 2D 이미지 모델 투영(p1) 및 상기 관련된 깊이 정보(d1)를 조정하는 것은, 외부의 라이브 비디오 및 상기 적어도 하나의 2D 이미지 모델 투영(p1)으로부터 추출된 사전결정된 특징들에 대해 수행되고,
    상기 적어도 하나의 조정된 2D 이미지 모델 투영에 대한 상기 사전결정된 특징들의 조정된 위치들이 상기 라이브 비디오의 상기 사전결정된 특징들의 위치들에 기초하여 결정되는
    객체의 3D 모델 조정 방법.
  13. 프로세서와 메모리를 포함하는 제3항에 따른 객체의 3D 모델 조정 방법을 수행하도록 구성된 장치(A1).
  14. 제13항에 따른 장치를 포함하는 이미지 처리 장치.
  15. 데이터 처리 장치 상에서 실행될 때, 제3항에 따른 객체의 3D 모델 조정 방법의 단계들을 수행하도록 구성된 소프트웨어가 저장된 컴퓨터 판독가능 저장 매체.
KR1020147001196A 2011-06-20 2012-06-04 3차원 이미지 모델 조정을 위한 방법 및 장치 KR101560508B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP11305768.1A EP2538388B1 (en) 2011-06-20 2011-06-20 Method and arrangement for image model construction
EP11305768.1 2011-06-20
EP11306127.9 2011-09-12
EP11306127.9A EP2538389B1 (en) 2011-06-20 2011-09-12 Method and arrangement for 3-Dimensional image model adaptation
PCT/EP2012/060512 WO2012175321A1 (en) 2011-06-20 2012-06-04 Method and arrangement for 3-dimensional image model adaptation

Publications (2)

Publication Number Publication Date
KR20140037936A KR20140037936A (ko) 2014-03-27
KR101560508B1 true KR101560508B1 (ko) 2015-10-14

Family

ID=44674671

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020147001410A KR101547780B1 (ko) 2011-06-20 2012-06-04 이미지 모델 구축 방법 및 장치
KR1020147001196A KR101560508B1 (ko) 2011-06-20 2012-06-04 3차원 이미지 모델 조정을 위한 방법 및 장치

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020147001410A KR101547780B1 (ko) 2011-06-20 2012-06-04 이미지 모델 구축 방법 및 장치

Country Status (6)

Country Link
US (2) US9269194B2 (ko)
EP (2) EP2538388B1 (ko)
JP (2) JP5784226B2 (ko)
KR (2) KR101547780B1 (ko)
CN (2) CN103608847B (ko)
WO (2) WO2012175320A1 (ko)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2013110494A (ru) * 2013-03-11 2014-09-20 ЭлЭсАй Корпорейшн Устройство обработки изображений с уровнем оценки, реализующим программный и аппаратный алгоритмы разной точности
CN103258346A (zh) * 2013-04-24 2013-08-21 苏州华漫信息服务有限公司 一种3d照相打印系统
CN103279987B (zh) * 2013-06-18 2016-05-18 厦门理工学院 基于Kinect的物体快速三维建模方法
US9325936B2 (en) * 2013-08-09 2016-04-26 Samsung Electronics Co., Ltd. Hybrid visual communication
JP6304999B2 (ja) * 2013-10-09 2018-04-04 アイシン精機株式会社 顔検出装置、方法およびプログラム
CN104866860A (zh) * 2015-03-20 2015-08-26 武汉工程大学 一种室内人体行为识别方法
US9818232B2 (en) * 2015-08-26 2017-11-14 Adobe Systems Incorporated Color-based depth smoothing of scanned 3D model to enhance geometry in 3D printing
US10559127B2 (en) 2015-09-25 2020-02-11 Magic Leap, Inc. Methods and systems for detecting and combining structural features in 3D reconstruction
US10445565B2 (en) * 2016-12-06 2019-10-15 General Electric Company Crowd analytics via one shot learning
JP6987508B2 (ja) 2017-02-20 2022-01-05 オムロン株式会社 形状推定装置及び方法
CN107492107B (zh) * 2017-08-10 2020-09-22 昆山伟宇慧创智能科技有限公司 基于平面与空间信息融合的物体识别与重建方法
JP7000766B2 (ja) * 2017-09-19 2022-01-19 富士通株式会社 学習データ選択プログラム、学習データ選択方法、および、学習データ選択装置
US10706577B2 (en) * 2018-03-06 2020-07-07 Fotonation Limited Facial features tracker with advanced training for natural rendering of human faces in real-time
CN110866864A (zh) 2018-08-27 2020-03-06 阿里巴巴集团控股有限公司 人脸姿态估计/三维人脸重构方法、装置及电子设备
US10924721B2 (en) * 2018-12-20 2021-02-16 Intel Corporation Volumetric video color assignment
CN111275813B (zh) * 2020-01-20 2021-09-17 北京字节跳动网络技术有限公司 数据处理方法、装置和电子设备
CN117858834A (zh) * 2021-06-11 2024-04-09 网络无人机公司 用于基于3d模型的无人机飞行规划和控制的系统和方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002015310A (ja) 2000-06-30 2002-01-18 Minolta Co Ltd 点群に面をフィッティングする方法およびモデリング装置
JP2010072700A (ja) 2008-09-16 2010-04-02 Univ Of Electro-Communications 画像処理装置、画像処理方法、及び、撮像システム

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0556354B1 (en) 1991-09-05 2001-10-31 Motorola, Inc. Error protection for multimode speech coders
JP3512992B2 (ja) * 1997-01-07 2004-03-31 株式会社東芝 画像処理装置および画像処理方法
JP3639476B2 (ja) * 1999-10-06 2005-04-20 シャープ株式会社 画像処理装置および画像処理方法ならびに画像処理プログラムを記録した記録媒体
JP2001268594A (ja) * 2000-03-15 2001-09-28 Infiniteface.Com Inc 三次元ビューティーシミュレーション用クライアントサーバシステム
US6806898B1 (en) * 2000-03-20 2004-10-19 Microsoft Corp. System and method for automatically adjusting gaze and head orientation for video conferencing
US6757571B1 (en) * 2000-06-13 2004-06-29 Microsoft Corporation System and process for bootstrap initialization of vision-based tracking systems
JP2002216114A (ja) * 2001-01-17 2002-08-02 Ricoh Co Ltd 3次元モデル生成方法
JP2003044873A (ja) * 2001-08-01 2003-02-14 Univ Waseda 顔の3次元モデルの作成方法及びその変形方法
JP2003346185A (ja) * 2002-05-24 2003-12-05 Olympus Optical Co Ltd 情報表示システム及び携帯情報端末
US7184071B2 (en) * 2002-08-23 2007-02-27 University Of Maryland Method of three-dimensional object reconstruction from a video sequence using a generic model
EP1714249A1 (en) * 2004-01-30 2006-10-25 Cedara Software Corp. System and method for applying active appearance models to image analysis
JP4449723B2 (ja) * 2004-12-08 2010-04-14 ソニー株式会社 画像処理装置、画像処理方法、およびプログラム
US20110102553A1 (en) * 2007-02-28 2011-05-05 Tessera Technologies Ireland Limited Enhanced real-time face models from stereo imaging
JP4216824B2 (ja) * 2005-03-07 2009-01-28 株式会社東芝 3次元モデル生成装置、3次元モデル生成方法および3次元モデル生成プログラム
WO2007148219A2 (en) 2006-06-23 2007-12-27 Imax Corporation Methods and systems for converting 2d motion pictures for stereoscopic 3d exhibition
DE102006048578B4 (de) * 2006-10-13 2010-06-17 Gerhard Witte Verfahren und Vorrichtung zum Bestimmen der Veränderung der Form eines dreidimensionalen Objektes
JP2010517427A (ja) * 2007-01-23 2010-05-20 ユークリッド・ディスカバリーズ・エルエルシー 個人向けのビデオサービスを提供するシステムおよび方法
EP2115662B1 (en) * 2007-02-28 2010-06-23 Fotonation Vision Limited Separating directional lighting variability in statistical face modelling based on texture space decomposition
JP5270670B2 (ja) 2007-05-29 2013-08-21 コグネックス・テクノロジー・アンド・インベストメント・コーポレーション 2次元画像による3次元組立て検査
WO2009003225A1 (en) * 2007-06-29 2009-01-08 Adelaide Research & Innovation Pty Ltd Method and system for generating a 3d model from images
US8170280B2 (en) * 2007-12-03 2012-05-01 Digital Smiths, Inc. Integrated systems and methods for video-based object modeling, recognition, and tracking
US8204301B2 (en) * 2009-02-25 2012-06-19 Seiko Epson Corporation Iterative data reweighting for balanced model learning
EP2236980B1 (en) * 2009-03-31 2018-05-02 Alcatel Lucent A method for determining the relative position of a first and a second imaging device and devices therefore
US8456466B1 (en) * 2009-04-01 2013-06-04 Perceptive Pixel Inc. Resolving ambiguous rotations in 3D manipulation
JP2011097447A (ja) * 2009-10-30 2011-05-12 Sharp Corp コミュニケーションシステム
EP2333692A1 (en) * 2009-12-11 2011-06-15 Alcatel Lucent Method and arrangement for improved image matching
TWM403161U (en) 2010-10-25 2011-05-01 Univ Far East With 3-dimensionally image of the mobile device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002015310A (ja) 2000-06-30 2002-01-18 Minolta Co Ltd 点群に面をフィッティングする方法およびモデリング装置
JP2010072700A (ja) 2008-09-16 2010-04-02 Univ Of Electro-Communications 画像処理装置、画像処理方法、及び、撮像システム

Also Published As

Publication number Publication date
EP2538388B1 (en) 2015-04-01
CN103608846A (zh) 2014-02-26
US20140212030A1 (en) 2014-07-31
EP2538389B1 (en) 2015-04-01
KR20140037936A (ko) 2014-03-27
US9269194B2 (en) 2016-02-23
CN103608846B (zh) 2017-06-20
US20140212031A1 (en) 2014-07-31
WO2012175320A1 (en) 2012-12-27
CN103608847B (zh) 2016-12-28
EP2538389A1 (en) 2012-12-26
EP2538388A1 (en) 2012-12-26
JP2014520333A (ja) 2014-08-21
JP5806399B2 (ja) 2015-11-10
JP5784226B2 (ja) 2015-09-24
US9324191B2 (en) 2016-04-26
KR20140024058A (ko) 2014-02-27
KR101547780B1 (ko) 2015-08-26
CN103608847A (zh) 2014-02-26
JP2014520332A (ja) 2014-08-21
WO2012175321A1 (en) 2012-12-27

Similar Documents

Publication Publication Date Title
KR101560508B1 (ko) 3차원 이미지 모델 조정을 위한 방법 및 장치
US11632533B2 (en) System and method for generating combined embedded multi-view interactive digital media representations
US11210804B2 (en) Methods, devices and computer program products for global bundle adjustment of 3D images
US8933928B2 (en) Multiview face content creation
KR101307341B1 (ko) 동적 개체 모션 캡쳐 방법 및 그 장치
JP6676562B2 (ja) 画像合成装置、画像合成方法及びコンピュータプログラム
KR20170008638A (ko) 3차원 컨텐츠 생성 장치 및 그 3차원 컨텐츠 생성 방법
EP3249613A1 (en) Data processing method and apparatus
US11315313B2 (en) Methods, devices and computer program products for generating 3D models
JP2009211335A (ja) 仮想視点画像生成方法、仮想視点画像生成装置、仮想視点画像生成プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
CN113628327A (zh) 一种头部三维重建方法及设备
CN110443884B (zh) 手部运动重建方法和装置
WO2012096907A1 (en) Mesh animation
US20220148207A1 (en) Processing of depth maps for images
CN112233165A (zh) 一种基于多平面图像学习视角合成的基线扩展实现方法
GB2567245A (en) Methods and apparatuses for depth rectification processing
Liu et al. A new model-based method for multi-view human body tracking and its application to view transfer in image-based rendering
JP2021047468A (ja) 画像処理装置、画像処理方法、および画像処理プログラム
Fazakas et al. 3D reconstruction system for autonomous robot navigation
KR100719400B1 (ko) 영상 시점 합성 방법
US20220309733A1 (en) Surface texturing from multiple cameras
US20230217001A1 (en) System and method for generating combined embedded multi-view interactive digital media representations
TW201320005A (zh) 用於三維影像模型調整之方法及配置
WO2021120052A1 (en) 3d reconstruction from an insufficient number of images
CN117857769A (zh) 自适应多摄像机捕获与实时自由视角视频渲染方法及系统

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180918

Year of fee payment: 4