KR101844367B1

KR101844367B1 - 부분 포즈 추정에 의하여 개략적인 전체 초기설정을 사용하는 머리 포즈 추정 방법 및 장치

Info

Publication number: KR101844367B1
Application number: KR1020130001259A
Authority: KR
Inventors: 커는 헤어펄세드; 비덜 푸 엔엔트
Original assignee: 삼성전자 주식회사
Priority date: 2012-06-11
Filing date: 2013-01-04
Publication date: 2018-04-02
Also published as: KR20130138658A

Abstract

방법 및 시스템은 사람 머리의 포즈(pose)를 추정하기 위한 코어스-투-파인(coarse-to-fine) 접근법을 다룬다. 방법은 머리 포즈(pose)가 전체와 부분에 기반한 특징에 의해 확실히 추정된다는 해석에 기반한다. 초기에 방법은 몇몇의 전경과 배경 분리 기술에 의해 오려진 머리 이미지와, 더 나아가 개략적인 추정을 위한 시스템에 의해 사용되는 오려진 머리 이미지를 얻는다. 방법은 얼굴의 부분의 포즈(pose)를 추정함으로써 개략적인 머리 포즈(pose)와, 더 나아가 개선된 머리 포즈(pose)를 추정하기 위해 컴퓨터에 의한 빠른 단계를 포함한다. 더 빨리 얻어진 머리 윤곽과 함께 부분 위치를 배치하는 기하학적인 기술은 최종적으로 정확한 머리 포즈(pose)를 반환한다. 제안된 방법은 또한 포즈(pose) 추정에 있어서 중요한 과제인 얼굴 표정에 대하여 견고하다.

Description

부분 포즈 추정에 의하여 개략적인 전체 초기설정을 사용하는 머리 포즈 추정 방법 및 장치{Apparatus and Method for Head pose estimation using coarse holistic initialization followed by part localization}

일 실시예는 컴퓨터 비전에 관련된 것이며, 더욱 상세하게는, 전체와 부분 모두에 기반하는 특징를 사용하는, 얼굴 포즈(pose) 추정에 관한 것이다.

컴퓨터와 전자기기가 오늘날 점점 더 일반화 되어감에 따라, 더 많은 개인화를 제공하기 위한 인간과 컴퓨터 간의(human-computer) 인터페이스를 개발하려는 시도가 이루어져 왔다.

머리 포즈(pose) 추정은 컴퓨터 비전에서 활발히 다뤄지는 문제이다. 이것은 인간과 컴퓨터 간의 상호작용에 있어서 정확한 포즈(pose) 추정 시스템의 활용 가능성 때문이다. 이 분야의 응용은 감정 인식, 신중한 고객 피드백, 생물학적인 포즈(pose) 보정 그리고 상호적인 눈동자를 인식하는 인터페이스(gaze interface)이다. 머리 포즈(pose) 정보는 또한, 감시나 아바타 애니메이션을 포함하는, 머리와 얼굴과 관련된 많은 컴퓨터 비전 응용 프로그램에 있어서 상당히 유용하다.

머리 포즈(pose) 추정의 기존 방법은 3D 모델이나, 기계 학습 기법(machine learning techniques), 또는 눈, 코, 입 같은 얼굴 이목구비에 근거해 도형을 추정하는 기법에 기반한 것이었다. 인물에 의존하지 않는 포즈(pose) 추정, 얼굴 표정의 효과, 많은 무리의 사람들의 포즈(pose)를 추정하는 확장성과 같은 몇몇의 과제는 현존하는 방법으로 해결할 수 없는 대단한 난제이다.

대상이 시스템을 사용할 때마다, 3D 기술이 모델을 구조화함으로써 정확한 결과를 제공한다 해도, 이것은 감시나 쇼핑몰 디스플레이 등과 같은 활용면에 있어서는 실용적이지 않을 수도 있다. 기계 학습 기법이 각각 다른 대상들과 얼굴 표정을 더 잘 처리할 수 있다. 그러나 대부분의 기계 학습 기법은, 막대한 학습 데이터를 요하는 도전적인 학습 파이프라인을 가지고, 그들 중 많은 것들은 테스트 동안에 많은 자원이 필요하다. 또한, 기계 학습 기법은 얼라인먼트 문제와, 감광도(sensitivity to illumination) 그리고, 다수의 대상의 포즈(pose)를 추정하지 못하는 비확장성에 시달리고 있다.

그 결과, 머리 포즈(pose)를 추정하는 기존의 방법이 민첩한 동작을 처리할 수 없고 동작을 완화할 수 없다는 것은 명백하다. 또한, 그 기존의 방법은 머리 포즈(pose)를 정하는 전체적인 접근을 고려할 수 없다. 이러한 결점 때문에, 기존의 방법에 있어서 도출된 결과는 매우 비효과적이다.

여기에 구현된 실시예의 주목적은 머리 포즈(pose) 추정에 대해 전체와 부분 모두에 기반한 특징을 사용하는 방법이나 시스템을 제공하기 위한 것이다.

발명의 또 다른 목적은 일반적인 머리 모델의 개별화에 기반해, 얼굴 일부 위치의 3D 구조를 생성하는 방법을 제공하기 위한 것이다.

발명의 또 다른 목적은 추정되는 개략적인 포즈(pose)로부터 그림 같은 구조를 사용하여 정확한 머리 포즈(pose)를 추출하기 위한 방법을 제공하기 위한 것이다.

이에 따라, 발명은 휴먼 인터랙티브 환경에서 전체적인 초기설정과 부분적인 포즈(pose)추정을 이용하여 사용자의 머리 포즈를 추정하기 위한 방법을 제공한다. 이 방법은, 컴퓨팅 장치에 의해, 사용자의 개략적인 머리 포를 추정하고, 사용자 얼굴의 3차원 모델을 생성하고, 개략적인 머리 포즈와 3차원 모델로부터 얼굴 요소를 찾고, 얼굴 요소의 포즈(pose)를 알아냄으로써 정확한 머리 포즈를 얻는 것을 포함한다.

따라서, 발명은 휴먼 인터랙티브 환경에서 전체적인 초기 설정과 부분 포즈(pose)추정을 이용하여 사용자의 머리 포즈를 추정하기 위한 장치를 제공한다. 그 휴먼 인터랙티브 환경에서, 장치는 집적회로를 포함하는데, 나아가 이 집적회로는 적어도 하나의 프로세서와, 그 회로안에 컴퓨터 프로그램 코드를 가진 적어도 하나의 메모리와, 적어도 하나의 프로세서와 함께 배치되는 적어도 하나의 메모리와 컴퓨터 프로그램 코드를 더 포함하고, 이 집적회로를 포함하는 장치는 사용자의 개략적인 머리 포즈를 추정하고, 사용자 얼굴의 3차원 모델을 생성하고, 개략적인 머리 포즈와 3차원 모델로부터 얼굴 요소를 인식하고, 얼굴 요소의 포즈를 파악함으로써 확실한 머리 포즈를 얻도록 한다.

여기에 개재된, 실시예의 여러 양상은 뒤에 나오는 설명과 잇따르는 도면과 함께 고려된다면, 더 이해하기 쉬울 것이다. 그러나, 잇따르는 설명이, 우선시되는 실시예와 그것의 다양한 구체적인 설명을 나타내는 동시에, 또한 규제 없이 도면에 따라 설명된다고 여겨져야 한다. 많은 변화와 수정이 그 의미를 벗어나지 않고 여기에 개재된 실시예의 범위 내에서 이루어질 것이다.

다양한 환경 변화에도, 3차원적인 사용자의 얼굴을 안정적으로 인식할 수 있어서, 얼굴 인식의 정확도를 높일 수 있다. 또한, 머리의 개략적인 포즈를 추정한 후, 얼굴의 이목구비를 식별하므로, 얼굴 표정의 변화를 인식할 수 있다. 더 나아가, 얼굴 인식과 관련된 다양한 응용에도 확대되어 사용 가능 하다는 이점이 있다.

일 실시예에 따르면, 참조부호가 도처에서 다양한 도면에서 해당하는 부분을 나타내 것과 같이, 첨부된 도면에 도식된다. 개재된 실시예는 도면을 참고하여 잇따르는 설명에 의해 더 잘 이해될 수 있을 것이다.
도 1은 여기에 개재된 실시예에 따른, 컴퓨팅 장치의 일반적인 블록 다이어그램을 도식한다.
도 2는 여기에 개재된 실시예에 따른, 머리 포즈 추정의 제안된 방법을 설명하는 플로우 다이어그램을 도식한다.
도 3은 여기에 개재된 실시예에 따른, 개략적인 포즈에 기반해 그림같은 구조를 생성하는 방법을 도식한다.
도 4는 여기에 개제된 실시예에 따라, 응용 프로그램을 수행하는 컴퓨팅 환경을 도식한다.

여기에 개재된 실시예와 다양한 특징과 그것의 이로운 세부내용은 동반되는 도면에 도식되고 그리고 잇따르는 설명에 상술된, 제한이 없는 실시예를 참조하여 더 완벽히 설명된다. 잘 알려진 구성요소와 처리 기술의 설명은 개재된 실시예를 불필요하게 애매하게 할 수 있어서 생략되었다. 여기에서 사용된 예는 여기에 개재된 실시예가 실현될 수 있는 방법의 이해를 단지 용이하게 하기 위해서 그리고, 더 나아가 여기에 개재된 실시예를 실현하기 위한 기술의 그 기능을 가능하게 하기 위해 고안되었다. 따라서, 이에 따라, 그 예는 개재된 실시예의 범위를 한정한다고 해석되어서는 안 된다.

여기에 개재된 실시예는 머리 포즈(pose) 추정에 대한 방법과 시스템을 전체와 부분에 기반한 특징에 의하여 얻는다. 그 방법은 한 단계에서의 오류가 나중에 보정이 될 수 있는 시스템에 견고함을 추가하는 코어스-투-파인(coarse-to-fine) 접근법을 사용한다. 그 방법은 주어진 비디오에서부터 이미지를 얻고, 머리 부분의 포즈(pose)를 찾아내기 위해 이미지를 분할한다. 이후에, 그 방법은 기계 학습 기법(machine learning techniques)를 사용해서 머리의 개략적인 포즈를 추정한다. 또한, 방법은 주어진 비디오나 이미지에서 사용자의 3차원 얼굴을 구조화한다. 게다가, 그 방법은 개략적인 각도와, 3D 그림 같은 구조와, 학습된 부분 모델로부터 이미지에 기반한 얼굴의 요소를 얻어낸다. 게다가, 그 방법은 이미지에 기반한 그림 같은 구조에서부터 눈과, 코와, 입과 같은 얼굴 요소의 가장자리 포즈(pose)를 추정한다. 최종적으로, 그 방법은 추출된 머리 윤곽과 미리 정의된 룩업 테이블(look-up table)로부터 정확한 머리 포즈를 추정한다.

일 실시예에서, 전체에 기반한 특징은 머리 각의 실시간 근사치이다. 성긴 정도를 알 수 있는 코어스-투-파인(coarse-to-fine) 접근법을 사용한다. 예를 들면, 대략 머리의 20~40 각도가 첫 번째로 추정되고, 이후에 머리의 정확한 각도는 머리의 일부분의 포즈(pose)를 추정함으로써 결정된다.

비슷한 참조 부호가 도면 전체에 지속적으로 해당하는 특징을 나타내는 도면, 더욱 상세히는 도 1 내지 4를 참조하면, 드러난 선례가 있다.

도 1은, 여기에 개재된 실시예에 따르면, 컴퓨팅 디바이스의 일반적인 블록 다이어그램을 도식한다. 도면에 묘사된 대로, 컴퓨팅 디바이스(100)는 캡쳐 모듈(101)과 추적 모듈(102)과, 컨트롤러 모듈(103)과 저장 모듈(104)을 포함한다. 일 실시예에 있어서, 컴퓨팅 디바이스(100)는 컴퓨터가 될 수도 있고, 모바일 폰, 태블릿, PDA(Personal Device Assistant) 또는 인간과 상호교류할 수 있는 그러한 기기가 될 수 있다. 캡쳐 모듈(101)은 사용자에게 우선시되는 컨텐트를 읽는다. 일 실시예에 있어서, 캡쳐 모듈(101)은 카메라나 그와 같은 것일 수 있다. 추적 모듈(102)은 캡쳐된 이미지나 영상으로부터 사용자의 머리를 추적한다. 컨트롤러 모듈(103)은 컴퓨팅 디바이스(100)에서 모듈을 제어하고, 정확한 머리 포즈(pose)를 제공한다. 저장 모듈(104)은 기계 학습 기법에 의해 사용되는 학습 세부사항을 저장하고, 또한 정확한 머리 포즈(pose)를 추정하기 위해 룩업 테이블을 저장한다.

설명 전체에 언급되는 '컨텐트(content)'라는 용어는 연속된 프레임이나 이미지를 포함하는 비디오를 의미할 수 있다.

여기에 개재된 실시예에 따르면, 도 2는 머리 포즈(pose)를 추정하는 제안된 방법을 설명하는 흐름도를 도식한다. 그림 200에 묘사된 대로, 일 실시예에 따르면, 초기에 연속된 프레임이나 이미지 컨텐트를 얻는다(201). 일 실시예에 있어서, 사용자의 선호 컨텐트가 카메라를 사용하여 얻어질 수 있다. 얻어진 컨텐트로부터, 일 실시예에 따르면, 사람의 머리를 추적한다(202). 일 실시예에 있어서, 비디오에서 각각 다른 포즈(pose)를 통해 머리를 추적하기 위해 이미지 변화도(image gradient)와 컬러 히스토그램을 사용하는, 타원형의 머리 추적기가 사용된다. 일 실시예에 있어서, 인체 추정에 맞춰진 마이크로소프트 키넥트(Microsoft Kinect)®는 또한 머리 추적에 사용될 수 있다. 일 실시에 따르면, 소니 플레이스테이션 3 키넥트(Sony PlayStation 3 Kinect)® 또는 위 키넥트(Wii Kinect)®는 사용자의 머리를 추적하기 위해 사용될 수 있다. 게다가, 일 실시예에 있어서, 추적된 머리 이미지로부터 전경과 배경을 분리한다(203). 일 실시예에서, 추적된 머리의 경계를 따라 이미지를 잘라냄으로써 전경과 배경을 분리한다. 일 실시예에 있어서, 이 잘려진 이미지를 얻기 위하여, 그랩컷(GrabCut) 소프트웨어를 사용한다. 일 실시예에 있어서, 전경과 배경을 분리하기 위해서, 추적된 머리의 출력에 대하여 이미지 분리 알고리즘을 사용한다. 전경과 배경 분리로부터, 일 실시예에 있어서, 또한 머리 윤곽을 추출한다(204). 일 실시에 따라, 머리 윤곽을 추출하기 위해 간단한 윤곽선(contour)을 따르는, 그랩컷(GrabCut)과 같은 알고리즘을 사용한다. 일 실시에 있어서, 추적된 머리 이미지로부터 머리를 분리하는데 맞춰진 다른 알고리즘을 사용할 수 있다.

이후에, 일 실시예에 있어서, 단계 203에서 얻어진 이미지와, 단계 204에서 추출된 머리 윤곽으로부터 머리의 개략적인 자세를 추정한다(205). 일 실시예에 따르면, 개략적인 포즈(pose) 추정은 머리 포즈 각의 대략적인 범위를 제공한다. 일 실시에 따르면, 학습 기반 시스템은 개략적인 머리 포즈(pose)를 추정하기 위하여, 사람 머리의 추출된 이미지에 따라 학습된다. 나이브 베이즈(Naive Bayes) 분류기는 개략적인 머리 포즈(pose)를 추정하기 위해, 몇 개의 타겟 머리 포즈(pose)의 외형에 기반하는 특징에 따라 학습된다. 일 실시예에 있어서, 학습 시스템은, 각각의 포즈(pose)에 대한 30 가지의 다른 이미지를 포함할 수 있는 데이터베이스로부터의 이미지를 사용한다. 학습 절차는 머리의 경계에 따라 이미지를 잘라내는 것을 포함한다. 이후에 비사실적 랜더링(non-photorealistic rendering)이 적용되어 이미지를 추출한다. 그리고 그레이 스케일로 변환된다. 그레이 스케일은 32 * 32 프레임일 수 있다. 이 단계는 다양한 머리 모양에 걸쳐 추상적인 부분의 위치를 정규화하는 것을 도와준다. 이후에 통계적인 모델은, 중간값과 픽셀 값의 표준 편차를 계산함으로써, 주어진 포즈(pose)에 대하여 각 픽셀에서 얻어진다. 일 실시예에 따르면, 학습 시스템에 기반하여, 개략적인 포즈(pose) 각도를 추정할 수 있다. 예를 들면, 학습 시스템은 정면 포즈로부터 모델을 얻고, 왼쪽과 오른쪽 포즈(pose)에 대해 15도 간격으로 0 ~ 90도의 모델을 얻는다. 또한, 특정한 각에 대해, 틸트 업(tilt up) 30도와 틸트 다운(tilt down) 30도에 대한 모델이 얻어진다.

입력 영상으로부터, 일 실시예에 있어서, 사용자의 3차원 얼굴 모델을 생성한다(206). 일 실시예에 따르면, 얼굴 요소는 눈, 코, 입의 가장자리 등 일 수 있다. 일 실시예에 따르면, 이 단계는 코를, 눈과 입의 가장자리와 같은 다른 부분들이 연결된 근원 부분으로 정의한다. 구성요소들은, 두 눈이 코에 대하여 특정한 깊이에 있고, 입 가장자리가 또 다른 깊이에 있는 3차원에 분산될 수 있다. 초기 가장자리 크기와 방향은 포괄적인 머리 모델에 따른다.

일 실시예에 따르면, 모델은 감지된 얼굴 요소 상에 픽토리얼 구조 피팅 알고리즘에 의해 맞춰진다. 알고리즘은 눈, 코, 입의 가장자리에 대해 개별적인 모델을 만든다. 이후에 알고리즘은 이 각기 다른 모델들의 최적의 위치를 찾고, 이 모델들을 합쳐서 포즈(pose)를 최적화한다. 이것은 코에서부터 눈과 입 모퉁이의 영상면(image plane)에 위치를 표시한다. 이 픽토리얼 구조 피팅 알고리즘을 사용해서, 이 단계는 입력 컨텐트의 3차원 모델을 생성한다. 일 실시예에 따르면, 사람 얼굴의 3차원 모델은, 어떤 머리 포즈(pose)도 없을 곳에 사람이 얼굴 정면을 드러낸다고 추정함으로써, 생성된다.

더 나아가, 일 실시예에 있어서, 추정된 개략적인 포즈(pose) 각에 대하여 픽토리얼 구조에 기반한 이미지를 식별한다(207). 픽토리얼 구조에 기반한 이미지를 식별하기 위해, 일 실시예에 있어서, 개략적인 포즈(pose) 추정을 고려하고(205), 3차원 얼굴 모델을 고려하고(205) 그리고 학습된 부분 모델들을 고려한다(208). 일 실시예에 따르면, 학습된 부분 모델은 눈, 코 그리고 입 모퉁이의 외관 모델(appearance model)을 제공한다. 일 실시예에 따르면, 이 외관 모델은 가버(Gabor) 필터와 가우시안(Gaussian) 필터로 만들어진 특징에 기반해 학습된다. 가버(Gabor) 필터는 머리 포즈(pose) 정보를 향상시킨다.

일 실시예에 따르면, 도 2에 도시된 바와 같이, 얻어진 3차원 얼굴 모델은, 정투영에 의한 영상면위에 개략적인 포즈(pose)와, 구조에 따라 회전된다. 적합한 뷰에 기반한 부분 외관 모델은 이 모델의 노드에 배정된다. 일 실시예에 따르면, 30 도의 개략적인 포즈(pose)의 픽토리얼 구조에 있어서, 외관 모델이 배정된다. 기술한 바와 같이, 외관 모델은 가버(Gabor) 필터와 가우시안(Gaussian) 필터와 같은 필터 뱅크로부터의 특징에 기반하여 학습된다. 학습된 부분 모델과 개략적인 포즈(pose)와 3차원 모델에 기반하여, 최종적으로 이미지 기반의 픽토리얼 구조를 최적화한다. 더 나아가, 단계 207에서 이전에 얻어진 픽토리얼 구조에 가장 잘 맞는 것을 얻기 위해 픽토리얼 구조 피팅 알고리즘을 사용하는 이미지에 있는 얼굴 요소를 찾아낸다(209). 일 실시예에 따르면, 눈, 코, 입 가장자리 등과 같은 얼굴 특징의 정확한 위치를 얻어내기 위하여 검색 알고리즘을 사용한다. 이 알고리즘은 모체(parent)에 대하여 부분의 포즈를 찾아내는데 있어서 유연성을 제공한다. 일 실시예에 따르면, 모체는 코 일 수 있고, 알고리즘은 코에 대해 눈과 입의 가장자리의 포즈를 찾아낸다. 예를들면, 알고리즘은 코의 위치에 대해 두 개의 눈 한 쌍과 두 개의 입 모퉁이의 위치 정보를 얻는다. 이 알고리즘이 역동적인 프로그래밍 기반의 접근을 사용하고, 얼굴 부분의 포즈(pose)를 찾아내기 위해 일반화된 거리 변환이라 불리는 개념을 사용하기 때문에, 이 알고리즘은 현실세계에서 바람직한 응용이다.

마지막으로, 일 실시예에 따르면, 단계 204에서 추출된 머리 윤곽과 함께 정확한 머리 포즈(pose)와, 그리고 단계 209에서 국부적인 얼굴 요소로부터 정확한 머리 포즈(pose)를 얻어낸다(210). 일 양상에 있어서, 정확한 머리 포즈(pose)는 머리 윤곽에서 머리 중심을 계산함으로써 결정된다. 눈의 중심(Nose Bridge)은 눈의 위치의 평균을 구함으로써 얻어진다. 마찬가지로, 입의 중심은 입 모퉁이 위치의 평균을 구함으로써 결정된다. 더 나아가, 머리 중심에서부터 눈의 중심, 코끝, 평균 입 위치까지의, 거리와 회전이 추정된다. 일 실시예에 따르면, 머리 중심에서부터 눈 중심, 코, 입 중심까지의 벡터가 계산된다. 미리 정의된 룩업 테이블(look-up table)은 오프라인으로 수동으로 입력된다. 룩업 테이블에는, 머리 윤곽 중심에 대해 정확한 머리 포즈(pose)를 알아내기 위하여, 다양한 포즈(pose)가 이 세 벡터(눈중심, 코, 입 가장자리 중심)의 위치와 방향에 대해 배치된다. 일 실시예에 따르면, 룩업 테이블은 눈, 코와 입 가장자리의 표시가 있는 다른 머리 자세의 몇몇 이미지를 포함한다. 단계 200에 있는 다양한 동작이 나타난 순서나 다른 순서대로 또는 동시에 수행될 수도 있다. 더 나아가, 다양한 실시예에 있어서, 도 2에 나열된 몇 가지 동작은 생략될 수도 있다.

도 3은, 여기에 개재된 바에 의한 실시예에 따라, 개략적인 포즈(pose)에 기반한 픽토리얼 구조를 생성하는 단계를 도시한다. 그 도면은 두개의 눈, 하나의 코, 두개의 입 가장자리의 3차원 얼굴모델을 도시한다. 3차원 모델은 개략적인 포즈(pose)에 따라 회전되고 영상면에 있는 2차원의 얼굴 모델은 정사영에 의해 얻어진다. 정사영은 2차원에 3차원 물체를 표현하는 방법이다. 그것은 평행사영의 한 형식이다. 평행사영은 모든 투영되는 선이 투영면에 직교하여, 그로 인해 관찰면에 아핀 변형(affine transformation)으로 나타나는 장면의 모든 면이 나타난다. 따라서, 3차원 얼굴 모델은 정사영에 의해 2차원에 나타난다.

도 4는 여기에 개재된 실시예에 따라 응용을 수행하는 컴퓨팅 환경을 도시한다. 설명된 대로, 컴퓨팅 환경은 제어 장치과 산술 논리 장치(ALU: Arithmetic Logic Unit)와 메모리, 기억 장치, 다수의 네트워크 장치와 다수의 입출력 장치와 함께 장착되는, 적어도 하나의 처리 장치를 포함한다. 처리 장치는 알고리즘의 명령을 처리하는 담당을 한다. 처리 장치는 그 처리를 수행하기 위하여 제어 장치로부터 명령을 받는다. 더 나아가, 명령 수행과 관련된, 논리적이고 산술적인 실행이 산술 논리 장치(ALU)의 도움으로 처리된다.

전체적인 컴퓨팅 환경은 동일 및/또는 상이한 다수의 다양한 코어와, 여러 종류의 다수의 CPU와, 특별한 미디어와, 여러 가지 가속기들로 구성될 수 있다. 처리장치는 알고리즘의 명령 처리를 담당한다. 처리장치는 그 처리를 수행하기 위하여 제어 장치로부터 명령어를 받는다. 더 나아가, 명령 수행에 포함된 논리적이고 산술적인 수행은 산술 논리 장치(ALU)의 도움으로 처리된다. 더 나아가, 다수의 처리장치는 하나의 칩 또는 다수의 칩에 포즈(pose)할 수 있다.

수행을 위해 요구되는, 명령과 코드를 포함하는 알고리즘 메모리 장치나 스토리지 장치 또는 둘 모두에 저장된다. 수행중에, 명령은 해당하는 저장 장치에서 꺼내어져, 처리 장치에 의해 수행될 수 있다.

하드웨어 실행에 있어서, 다양한 네트워크 장치 또는 외부 입출력 장치는 네트워크 장치와 입출력 장치 유닛을 통해 수행을 지원하는 컴퓨팅 환경과 연결될 수 있다.

일 실시예에 따르면, 머리 포즈(pose) 추정은 모바일 플랫폼으로 통합될 수 있고 비디오 게임, 증강현실, 화상 채팅과 같은 응용 프로그램에 유용할 것이다.

일 실시예에 따르면, 머리 포즈(pose) 추정은, 텔레비전 시청시 사용자의 행동을 분석하려는 스마트 텔레비전의 일부로써 사용될 수 있다. 또한, 머리 포즈(pose) 정보에 기반하여 사용자가 관심 있는 것과 무관심한 것을 추론하는 것이 쉬울 것이다.

다른 실시예에 있어서, 머리 포즈(pose) 정보는 사람의 감정을 추론하기 위해 사용될 수 있다. 또한, 이 머리 포즈(pose) 정보는, 특히 큰 형태의 디스플레이에 있어서, 많은 사람들의 머리 포즈(pose)를 분석하고 디스플레이를 보고 있는 사람들의 수를 알아내기 위해 소매업 분야에 사용될 수 있다.

여기에 개재된 실시예들은 구성요소를 제어하기 위하여 적어도 하나의 하드웨어 장치에서 작동하고, 네트워크 관리 기능을 수행하는 적어도 하나의 소프트웨어 프로그램을 통해 수행될 수 있다. 도 1과 도 4에 도시된 구성요소들은 하드웨어 장치 중의 적어도 하나 또는, 하드웨어 장치와 소프트웨어 모듈의 조합이 될 수도 있는 블록을 포함한다.

특정 실시예에 관해 전술한 설명은 꽤 충분히 여기에 공개된 실시예들의 일반적인 특성을 드러내므로, 현재의 지식을 적용함으로써 다른 실시예들은 일반적인 개념에서 벗어나지 않고 특정한 실시예같은 다양한 응용 프로그램에 대해 쉽게 수정 및/또는 적용가능할 수 있다, 그리고 그 결과, 그러한 적용과 수정은 개재된 실시예와 동등한 의미와 범위 내에서 이해되도록 해야한다. 여기에 사용된 어투나 용어는 기술의 목적을 위한 것이며 한정을 위한 것이 아니라고 여겨져야 한다. 그 결과, 여기에 개재된 실시예들은 우선시되는 실시예에 관하여 설명되었던 반면에, 기술에 노련한 사람들은 개재된 실시예의 의도와 범위 내에서 여기 개재된 실시예들이 수정되며 수행될 수 있다.

100: 컴퓨팅 디바이스
101: 캡쳐 모듈
102: 추적 모듈
103: 컨트롤러 모듈
104: 저장 모듈
201: 영상을 입력받는 단계
202: 입력된 영상에서 머리를 추적하는 단계
203: 추적된 머리에서 전경과 배경을 분리하는 단계
204: 머리 윤곽을 추출하는 단계
205: 개략적인 머리 포즈를 추정하는 단계
206: 3D 얼굴모델을 생성하는 단계
207: 이미지 기반의 픽토리얼 구조를 식별하는 단계
208: 학습된 부분 모델을 고려하는 단계
209: 이미지에서 얼굴 구성요소의 위치를 판단하는 단계
210: 정확한 머리 위치를 습득하는 단계

Claims

컴퓨팅 디바이스의 사용자의 머리 포즈 추정 방법에 있어서,
사용자의 머리 포즈 각의 대략적인 범위를 나타내는 개략적인 머리 포즈를 추정하는 단계;
사용자 얼굴의 3차원 모델을 생성하는 단계;
3차원 모델을 개략적인 머리 포즈에 따라 회전하는 단계;
회전된 3차원 모델로부터 얼굴 요소를 구별하는 단계와;
얼굴 요소의 포즈를 찾음으로써 정확한 머리 포즈를 얻는 단계;를 포함하는 사용자의 머리 포즈 추정 방법.
제 1 항에 있어서,
상기 개략적인 머리 포즈를 추정하는 단계는,
사용자의 머리를 추적하고 사용자의 머리를 분할함으로써 개략적인 머리 포즈를 추정하는 사용자의 머리 포즈 추정 방법.
제 1 항에 있어서,
적어도 하나의 이미지나 비디오를 포함하는 컨텐트를 캡쳐하는 단계;를 더 포함하는 사용자의 머리 포즈 추정 방법.
제 2 항에 있어서,
상기 개략적인 머리 포즈를 추정하는 단계는,
전경과 배경을 분리함으로써 추적된 머리를 분할하는 단계;를 포함하는 사용자의 머리 포즈 추정 방법.
제 1 항에 있어서,
상기 3차원 모델을 생성하는 단계는,
사용자의 일반적인 머리 모델의 개별화에 기반해 3차원 모델을 생성하는 사용자의 머리 포즈 추정 방법.
제 1 항에 있어서,
상기 정확한 머리 포즈를 얻는 단계는,
얼굴 구성요소의 상대적인 포즈를 확인함으로써 얼굴 요소의 포즈를 알아내는 단계;를 포함하는 사용자의 머리 포즈 추정 방법.
제 1 항에 있어서,
상기 정확한 머리 포즈를 얻는 단계는,
사용자의 머리 윤곽에서 정확한 머리 포즈를 얻는 사용자의 머리 포즈 추정 방법.
제 1 항에 있어서,
상기 정확한 머리 포즈를 얻는 단계는,
미리 정의된 룩업 테이블로 얼굴 요소의 위치와 방향을 나타냄으로써 정확한 머리 포즈를 얻는 사용자의 머리 포즈 추정 방법.
삭제
적어도 하나의 프로세서를 포함하는 집적회로;
집적 회로내에 컴퓨터 프로그램 코드를 가지는 적어도 하나의 메모리;
적어도 하나의 프로세서를 가지고, 장치가:
사용자의 머리 포즈 각의 대략적인 범위를 나타내는 개략적인 머리 포즈를 추정하고, 사용자 얼굴의 3차원 모델을 생성하고, 3차원 모델을 개략적인 머리 포즈에 따라 회전하고, 회전된 3차원 모델로부터 얼굴 구성요소를 식별하고 얼굴 구성요소의 포즈를 추정함으로써 정확한 머리 포즈를 알아내도록 설정된, 적어도 하나의 메모리와 컴퓨터 프로그램 코드;를 포함하는
사용자의 머리 포즈 추정 장치.
제 10 항에 있어서, 사용자의 머리를 추적하고 추적된 머리를 분할함으로써 개략적인 머리 포즈를 추정하기 위해 구성되는 장치를 포함하는 사용자의 머리 포즈 추정 장치.
제 10 항에 있어서, 컨텐츠가 적어도 하나의 비디오와 이미지를 포함하는, 사용자의 선호 컨텐츠를 캡쳐하기 위해 구성되는 장치를 포함하는 사용자의 머리 포즈 추정 장치.
제 10 항에 있어서, 추적된 머리를 전경과 배경 부분을 분리함으로써 설정되는 장치를 포함하는 사용자의 머리 포즈 추정 장치.
제 10 항에 있어서, 사용자의 일반적인 머리 모델의 개별화에 기반해 3차원 모델을 생성하도록 설정되는 장치를 포함하는 사용자의 머리 포즈 추정 장치.
제 10 항에 있어서, 얼굴 구성요소의 상대적인 포즈를 확인함으로써 얼굴 구성요소의 포즈를 확인하도록 설정되는 장치를 포함하는 사용자의 머리 포즈 추정 장치.
제 10 항에 있어서, 사용자의 머리 윤곽으로부터 정확한 머리 포즈를 얻도록 설정되는 장치를 포함하는 사용자의 머리 포즈 추정 장치.
제 10 항에 있어서, 미리 정의된 룩업 테이블로 얼굴 구성요소의 위치와 방향을 나타냄으로써 정확한 머리 포즈를 얻도록 설정되는 장치를 포함하는 사용자의 머리 포즈 추정 장치.