KR101362631B1 - 머리 인식 방법 - Google Patents

머리 인식 방법 Download PDF

Info

Publication number
KR101362631B1
KR101362631B1 KR1020127019659A KR20127019659A KR101362631B1 KR 101362631 B1 KR101362631 B1 KR 101362631B1 KR 1020127019659 A KR1020127019659 A KR 1020127019659A KR 20127019659 A KR20127019659 A KR 20127019659A KR 101362631 B1 KR101362631 B1 KR 101362631B1
Authority
KR
South Korea
Prior art keywords
source image
intensity
depth
head
contour
Prior art date
Application number
KR1020127019659A
Other languages
English (en)
Other versions
KR20120130090A (ko
Inventor
사비어 밸르
줄리엔 톨롯
곤잘레즈 자비어 마티네즈
케빈 시몬즈
Original Assignee
소프트키네틱 소프트웨어
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소프트키네틱 소프트웨어 filed Critical 소프트키네틱 소프트웨어
Publication of KR20120130090A publication Critical patent/KR20120130090A/ko
Application granted granted Critical
Publication of KR101362631B1 publication Critical patent/KR101362631B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Abstract

소스 이미지에서 인간 머리를 인식하기 위한 방법이 여기에 기술된다. 방법은 소스 이미지에서 인간 몸의 적어도 부분의 윤곽을 검출하는 단계, 소스 이미지에서 인간 몸의 심도를 계산하는 단계를 포함한다. 소스 이미지로부터, 심도의 인간 머리에 대응하는 타원의 주반경 크기 및 부반경 크기가 계산되고, 검출된 윤곽의 화소들의 세트의 적어도 몇 개에 대해서, 윤곽 화소의 위치를 중심으로 하고 주반경 크기 및 부반경 크기를 갖는 타원의 적어도 하나의 단편을 누산기 어레이에서 생성한다. 누산기 어레이의 국부적인 세기 최대치들의 위치들은 소스 이미지에서 인간 머리 후보들의 위치들에 대응하는 것으로서 선택된다.

Description

머리 인식 방법{HEAD RECOGNITION METHOD}
본 발명은 소스 이미지의 인간 머리의 인식을 위한 방법 및 컴퓨터 시스템에 관한 것이다. 특히, 본 발명은 머리의 인식을 돕도록 인간 머리의 가장 가능성 있는 지각된 크기를 예측하기 위해 심도 정보(depth information)를 이용하는 방법에 관한 것이다.
다양한 이미징(imaging) 시스템들 및 이미지 처리 애플리케이션들에서, 소스 이미지의 인간 머리의 위치 및/또는 배향을 자동으로 인지하는 것이 유리하다. 예를 들어, 사용자는 이미징 디바이스의 범위 내에서 그의 머리를 이동시킴으로써 컴퓨터 시스템에서 실행중인 프로그램, 예를 들어, 비디오 게임 프로그램과 상호작용할 수 있다. 대안적으로, 이러한 머리 인식 방법은 또한 포트러처(portraiture)를 위해 최적화하도록 유효 구경(aperture), 노출 시간, 초점 심도와 같은 파라미터들을 조정하기 위해 이미징 디바이스에서 이용될 수 있다.
컴퓨터 시스템들과의 상호작용, 및 특히, 데이터 및 커맨드들의 입력은 일반적으로 알려진 이슈이다. 종래에는, 이러한 상호작용은 사용자의 물리적 작용에 응답하여 신호를 생성하는 키보드들, 마우스들, 스크롤 휠들, 펜들, 터치-스크린들, 조이스틱들, 게임 패드들 등과 같은 물리적 입력 디바이스를 통해 발생하였다. 그러나 이러한 물리적 입력 디바이스들은 다수의 단점들을 갖는다. 예를 들어, 이들은 3-차원 "가상 리얼리티(virtual reality)" 환경들과 같은 일부 애플리케이션들에서 어색하고 부족한 현실성을 느끼게 하는 제한된 양의 상이한 입력 신호들만을 제공할 수 있다. 게다가 이들은 휴대하기 쉽고 그들의 계속되는 이용은 심지어 RSI(Repetitive Strain Injury)와 같은 사용자의 건강에 대해 부정적인 결과들을 유발할 수 있다.
대안적인 입력 디바이스들 및 방법들 역시 알려져 있다. 예를 들어, 음성 인식을 위한 실제 시스템들이 이용 가능하다. 그러나 음성 인식은 사용자에 의한 빠르고, 간결하고 반복적 입력들이 요구되는 액션 게임들과 같은 일부 애플리케이션 들에서 실제적인 대안은 아니다. 또한, 그들의 유효성은 배경 잡음에 의해 악영향을 받고, 이들은 일반적으로 특정한 사용자의 음성 커맨드를 인식하기 위한 학습 기간(learning period)을 요구한다.
다른 대안은 이미지 인식이다. 그들의 가장 단순한 형태에서, 이미지 인식 시스템들은 바코드들과 같은 대조적인 컬러(contrasting colour)들의 이진 패턴들을 인식하고, 이 패턴들을 처리를 위해 이진 신호들로 변환한다. 보다 진보된 이미지 인식 시스템들은 이미지들에서 더 복잡한 패턴들을 인식하고, 그에 응답하여 매우 다양한 신호들을 생성할 수 있다. 이미징 시스템의 범위 내에서 사용자의 제스처(gesture)들을 인식하기 위해 예를 들어, 미국 특허 번호 제6256033호에서 이러한 이미지 인식 시스템들이 제안되었다. 그러나 종래의 이미징 시스템들은 심도(depth)의 인식이 없으며 단지 상기 사용자의 2D 프로젝션만 생성할 수 있다. 그 결과, 사용자 제스처들의 인식은 본질적으로 결점이 있고, 가능한 입력들의 범위로 제한되며, 가능한 인식 실수들로 혼란스러워(riddle) 진다. 특히, 이러한 시스템들은 사용자를 그의 배경으로부터 분리하는 문제들을 갖는다.
그러나 3D 이미징 시스템들의 개발은 예를 들어, 더 나은 사용자 제스처 인식을 허용하는 형상 인식 방법들 및 디바이스를 개발할 수 있는 가능성을 제공한다. 하나의 이러한 3D 이미징 시스템은 G.Yahav, G.J.Iddam 및 D.Mandelboum의 "3D Imaging Camera for Gaming Application"에 개시되었다. 이 논문에 개시된 3D 이미징 시스템은 3D 이미징 시스템의 범위 내의 객체들로부터 반사되는 광의 파두(wavefront)의 형상으로부터 심도 지각(depth perception)이 획득되는 이른바 "타임 오브 플라이트(Time-Of-Flight)" 또는 TOF 타입이다. 그러나 스테레오 카메라들, LIDAR, 레이더, 소나(sonar) 등과 같은 다른 타입들의 이미징 시스템들이 또한 제안되었다.
예를 들어, 국제 특허 출원 WO 2008/128568 A1에서, 3D 이미지에서 인간 몸과 같은 대상(subject)을 선택하고 머리를 포함하는 복수의 개별 영역들로 이 대상을 단편화(segment)하기 위해 장면의 3D 이미지를 포착하는 것이 제안되었다.
미국 특허 US 7,203,356에서는, 다양한 대안들 중에서, 3D 이미징 시스템에 의해 포착되는 소스 이미지에서 인간 머리의 위치를 결정하기 위해 타원 또는 타원체 맞춤(fitting)을 이용하는 것이 제안되었다. 그러나 이 종래 기술은 머리를 모델링하는 타원 또는 타원체의 파라미터가 어떻게 획득되는지를 개시하지 않는다.
유사한 3D 모델 맞춤 방법은 Zhengcheng Hu, Tetsuya Kawamura 및 Keiichi Uchimura에 의해, 2008년 11월, 오스트리아, 비엔나, I-Tech의 스테레오 비전, ISBN 978-953-7619-22-0의 "Grayscale Correlation based 3D Model Fitting for Occupant Head Detection and Tracking"의 페이지 91 내지 108에서 제안되었다.
인간 머리를 추적하기 위해 3D 데이터 및 타원 맞춤을 이용하는 또 다른 방법은 인공지능을 갖는 툴들에 관한 19차 IEEE 국제 컨퍼런스에서, "Real-Time 3D Head Tracking Based on Time-of-Flight Depth Sensor"에서 Ehsan Parvizi 및 Q.M.Jonathan Wu에 의해 제안되었다. 그러나 이 논문 역시 원하는 머리 모델의 원하는 파라미터들이 어떻게 획득되었는지를 개시하는데는 실패하였다.
C.Leignel, O.Bernier, D.Collobert, 및 R.Seguier의 "Transformee de Hough elliptique floue rapide"에서는 이미지에서 타원 윤곽을 인식하기 위한 특히 효율적인 컴퓨터-구현 방법 및 머리 인식을 위한 그의 애플리케이션을 개시하였다. 이 방법에서, 소스 이미지로부터 생성된 윤곽 이미지에서 타원 형상을 인식하기 위해 특정 타입의 타원 허프 변환(elliptical Hough transform)이 이용된다.
허프 변환은 표결 프로시저(voting procedure)에 의해 특정한 클래스 내의 객체의 불완벽한 인스턴스를 이미지에서 찾기 위한 방법이다. 이 표결 프로시저는 이른바 누산기 어레이(accumulator array)에서 수행되며, 누산기 어레이로부터 객체 후보들이 국부적 세기 최대치들(local intensity maxima)로서 획득된다. 누산기 어레이는 탐색되고 있는 객체의 인스턴스(instance)를 이미지의 개별 지점들의 위치에 대응하는 위치에서 생성함으로써 채워진다(populated). 타원 허프 변환의 특정한 경우에서, 객체는 타원이다. 누산기 어레이에서 국부적 세기 최대치들, 즉 복수의 타원들이 교차하는 위치들은 이미지에서 유사한 타원들에 대한 후보 위치들을 나타낸다. 계산 속도를 증가시키기 위해 Leignel 등에 의해 개시된 방법에서, 누산기 어레이는 이들 타원들의 대표적 단편들만으로 채워진다. 검출 레이트를 증가시키기 위해, 예를 들어, 이상적인 타원 형상 주위의 세기 분포를 감소시킴으로써 불분명한 타원(fuzzy ellipse)들이 이용된다.
그러나 이미지내의 머리의 예상되는 크기를 미리 알지 못하면, 거짓 양성(false positive)의 가능성과 계산 속도 사이에서 타협점(compromise)을 찾아야 한다. 이 문제를 완화시키기 위해, 종래 기술의 방법에서, 피부색 영역들의 윤곽들 만이 고려된다. 그러나 사용자가 피부색 의류를 입고 있는 경우 거짓 양성들의 위험이 증가된다. 또한, 이 종래 기술 방법은 이미징 시스템으로부터 비교적 제한된 거리 범위, 즉 1 내지 2.5 미터 내의 인간 머리들을 검출하는 것으로 제한된다.
소스 심도 이미지에서 인간 머리의 위치를 찾는 다른 방법들은 공개된 미국 특허 출원들 US 2005/031166, US 2005/058337 및 US 2003/235341에 기술된다.
또한, Clabian M 등은 머리 검출에 관해 URL:http://www.prip.tuwien.ac.at/~krw/papers/2002/DAGM/Ciabian.pdf로부터 검색되는 인터넷 인용 2002, XP002389335의 문서 명칭 "Head detection and localization from sparse 3D data"를 인터넷을 통해 공개하였다. Krotosky SJ 등은 또한 2004년 6월 14일 내지 17일 이탈리아, 2004 IEEE 파르마의 지능적인 차량들의 심포지엄(INTELLIGENT VEHICLES SYMPOSIUM)의 "Occupant posture analysis using reflectance and stereo images for smart airbag deployment"라 명명된 문서, 에어백의 전개(deplyment)를 제어하기 위해 차량 내의 좌석의 위치의 검출에 관한 미국 뉴저지, 2004 Piscatawy의 IEEE LNKD-DOI:10.1109/VS.2004.1336469, 2004년 6월 14일, XP010727732 ISPB: 978-0-7803-8310-4의 페이지 698 내지 703을 공개하였다.
본 발명의 목적은 소스 이미지에서 인간 머리를 인식하기 위한 빠르지만 간결한 방법을 제공하는 것이다.
이 목적을 위해, 본 발명에 따른 방법의 실시예는,
소스 이미지에서 인간 머리의 위치를 인식하기 위한 방법으로서,
- 상기 소스 이미지에서 인간 몸의 적어도 부분의 윤곽(contour)을 검출하는 단계;
- 상기 소스 이미지에서 상기 인간 몸의 상기 부분의 심도(depth)를 계산하는 단계;
- 상기 소스 이미지에서 상기 심도의 인간 머리에 대응하는 타원의 주반경 크기 및 부반경 크기를 계산하는 단계;
- 누산기 어레이(accumulator array)에서, 상기 윤곽의 윤곽 화소들의 적어도 하나의 세트에 대하여, 상기 주반경 크기 및 부반경 크기를 가지며 상기 윤곽 화소의 위치를 중심으로 하는 타원의 적어도 하나의 단편(segment)을 생성하는 단계;
- 상기 소스 이미지에서 최상의 인간 머리 후보들의 위치들에 대응하는 것으로서 상기 누산기 어레이에서 국부적 세기 최대치의 위치를 선택하는 단계; 및
- 상기 누산기 어레이에서 최고 에너지를 갖고 후보들 중에서 최상의 머리 후보를 선택하고 부가적인 검출 방법들에 의해 양으로(positively) 가중화되는 단계를 포함한다.
실제 인간 머리 크기 대 몸 높이의 비(ratio)는 나이 및 성별에 의존적일지라도, 보통은 나이 또는 성별에 독립적으로 상대적으로 좁은 범위 내에 유지되기 때문에, 이미지에서 그의 명백한 크기를 결정하기 위한 가장 중요한 변수는 인간 머리에 대한 거리, 즉 이미지 내의 인간의 심도 측정 값이다. 이미지에서 머리를 구성하는 타원의 주반경 크기 및 부반경 크기는 실질적으로 이 심도에 비례할 것이다. 인간 몸의 적어도 부분의 윤곽의 타원 허프 변환(elliptical Hough transform)을 수행하기 위해 이 정보를 이용함으로써, 계산 속도는 증가될 수 있으면서, 동시에 거짓 양성 레이트는 감소된다.
심도 데이터는 예를 들어, 타임-오브-플라이트(Time-Of-Flight) 카메라, 스테리오 카메라, LIDAR, 레이더, 소나(sonar) 등과 같은 다양한 상이한 방식들로 획득될 수 있다. 유리하게는, 상기 심도는 정해진 순간에 소스 이미지 내의 인간 몸체의 평균 심도일 수 있다. 대안적으로, 상기 심도 및 상기 주반경 크기 및 부반경 크기는 각각의 윤곽 화소에 대해 개별적으로 계산될 수 있다.
소스 이미지에서 인간 머리를 인식하는 기회들을 더 증가시키기 위해, 상기 윤곽의 형태적 팽창은 유리하게는 상기 누산기 어레이에서의 타원의 상기 적어도 하나의 단편을 생성하기 이전에 수행될 수 있다. 윤곽을 넓힘으로써, 후속 허프 변환이 수행되는 표면이 최대화되고, 이에 따라 타원을 인식할 가능성 또한 최대화된다.
유리하게는, 타원의 상기 적어도 하나의 단편은 불분명(fuzzy)할 수 있다. "불분명"이라 함은, 명확하게 정의된 라인 대신, 타원의 적어도 하나의 단편이 이상적인 타원 라인 주위에서 세기 분포 예를 들어, 가우스 세기 분포를 갖는 흐릿한 라인(blurred line)으로서 누산기 어레이에서 프로젝팅되는 것으로 이해된다.
유리하게는, 윤곽 검출 단계는 또한 각각의 윤곽 화소에 대한 국부적 윤곽 배향의 검출을 포함할 수 있다. 예를 들어, 윤곽 검출을 위해 Shen-Castan 알고리즘의 적용은 또한 본 발명의 머리 인식 방법의 속도 및 정확도를 추가로 증가시키기 위해 이용될 수 있는 부가적인 정보를 제공한다. 예를 들어, 훨씬 더 유리하게는, 타원의 상기 적어도 하나의 단편은 대응하는 윤곽 화소의 국부적인 윤곽 배향에 따라 배향될 수 있다.
본 발명의 다른 목적은 거짓 양성들의 수를 최소화시키는 것이다. 이러한 거짓 양성들은 무엇보다도, 팔들 및 다리들의 윤곽들에 기인할 수 있다. 이러한 윤곽들은 보통 타원 허프 변환들이 수행될 때 누산기 어레이에서 세기 리지(intensity ridge)들을 생성하는데 적절한 병렬 라인들의 쌍들을 형성한다. 본 발명에 따른 방법의 특정한 실시예에서, 머리의 위치에 대응하는 분리된 국부적인 세기 최대치로부터 이러한 세기 리지들에 위치한 국부적 세기 최대치들을 분별하기 위해, 상기 선택 단계 이전에, 상기 누산기 어레이에서의 복수의 국부적인 세기 최대치들 중 각각의 세기 최대치에 대해,
- 상기 누산기 어레이에서의 각각의 국부적인 세기 최대치를 중심으로 한 원주의 제 1 위치를 찾는 단계로서, 상기 제 1 위치는 상기 원주의 최고 세기를 갖는, 상기 제 1 위치를 찾는 단계;
- 상기 원주에서 제 2 위치를 찾는 단계로서, 상기 제 2 위치는 제 1 위치에 대향되는 상기 원주의 호(arc)에서 최고 세기를 갖는, 상기 제 2 위치를 찾는 단계;
- 상기 국부적 세기 최대치의 세기(m)를 인자
Figure 112012059412525-pct00001
로 가중화하는 단계가 수행되며,
여기서 mc1은 상기 제 1 위치의 세기이고, mc2는 상기 제 2 위치의 세기이다.
국부적인 세기 최대치가 세기 리지 내에 있는 경우, mc1 및 mc2 둘 다의 값들은 보통 m의 값에 근접하게 될 것이다. 가중 인자(W)는 그러므로 1보다 훨씬 높아지지 않을 것이다. 한편, 국부적인 세기 최대치가 분리되는 경우, 값들(mc1 및 mc2)은 m보다 상당히 낮게 될 것이고, 가중 인자(W)는 이에 따라 증가할 것이다. 이 가중 인자는 이에 따라 인간 머리들에 가장 대응할 가능성이 높은 국부적인 세기 최대치들을 강조할 것이다.
또한, 유리하게는, 거짓 양성들, 특히 어깨들 및 팔꿈치들에 의해 초래되는 거짓 양성들을 최소화하기 위해, 상기 선택 단계 이전에, 누산기 어레이에서 복수의 국부적인 세기 최대치들의 각각의 세기 최대치의 세기는 피부 톤 인식(skin tone recognition), 패턴 매칭, 두발 인식, 아래턱 검출, 구멍 검출, 상기 인간 몸의 주요부(mass) 또는 손발의 중심과의 연결의 검출, 가상 척추에 대한 거리, 상체축에 대한 거리 및/또는 비디오 시퀀스에서의 이전의 머리 위치에 대한 거리를 포함하는 그룹으로부터 선택된 적어도 하나의 부가적인 머리 인식 방법의 출력에 기초하여 부가적으로 가중화될 수 있다. 이에 따라 적어도 2개의 상이하지만 빠른 머리 인식 방법들을 조합함으로써 본 발명에 따른 방법의 신뢰도는 이에 따라 증가될 수 있다.
유리하게는, 상기 소스 이미지가 비디오 시퀀스의 현재 프레임이고, 선행 프레임에서 선택된 위치가 현재 프레임에서 폐색되는(occluded) 경우, 임의의 국부적 세기 최대치는 무시되고 현재 프레임에서의 머리 위치에 대응하는 것으로서 선행 프레임에서 선택된 위치를 유지한다.
본 발명의 다른 목적은 소스 이미지에서 머리 인식을 위한 컴퓨터 시스템을 제공하는 것이다. 본 발명의 특정한 실시예에서, 컴퓨터 시스템은 이에 따라 본 발명에 따른 방법을 수행하도록 프로그래밍된다. 유리하게는, 상기 컴퓨터 시스템은 상기 소스 이미지 및 가능하게는 상기 심도를 포착하기 위한 이미징 디바이스, 바람직하게는, 3D 이미징 디바이스를 포함할 수 있다.
다른 특정한 실시예에서, 본 발명에 따른 컴퓨터-구현 방법을 수행하기 위한 컴퓨터-실행 가능한 명령들을 포함하는 컴퓨터-판독 가능한 데이터 저장 매체가 제공된다.
"컴퓨터-판독 가능한 저장 매체"란, 랜덤 액세스 메모리, 플래시 메모리, 판독 전용 메모리와 같은 고체 상태 메모리뿐만 아니라 하드 디스크 드라이브, 자기 테이프와 같은 자기 데이터 저장 매체, 광학 디스크와 같은 광학 데이터 저장 매체 등을 포함하는(그러나 이것으로 제한되지 않음) 디지털 데이터를 포함하는 임의의 컴퓨터-판독 가능한 지원을 의미한다.
본 발명의 상기들 및 다른 목적들은 첨부된 도면들을 참조하여 그리고 이하의 상세한 설명을 판독하여 더욱 쉽게 명백해질 것이다.
도 1은 인간 사용자가 3D 이미징 디바이스 앞에 서있는 방을 도시하는 도면.
도 2는 3D 이미징 시스템에 의해 포착된 바와 같은 3-차원 공간에 분포된 지점들의 형태로 동일한 방의 3-차원 이미지 데이터를 도시하는 도면.
도 3은 사용자의 비트맵 마스크 이미지를 도시하는 도면.
도 4는 사용자의 윤곽 이미지를 도시하는 도면.
도 5는 사용자의 팽창된 윤곽 이미지를 도시하는 도면.
도 6은 윤곽 이미지의 지점에 대응하는, 누산기 어레이에 불분명한 타원의 생성을 개략적으로 도시하는 도면.
도 6A는 국부적인 윤곽 배향에 따라 불분명한 타원이 배향되는 특정한 실시예를 도시하는 도면.
도 6B는 배향된 불분명한 타원이 잘려지는 특정한 실시예를 도시하는 도면.
도 7은 누산기 어레이의 이미지를 개략적으로 도시하는 도면.
도 8은 세기 리지(intensity ridge)의 국부적인 최대치, 상기 국부적인 최대치를 중심으로 한 원주와 상기 세기 리지의 교차점들을 도시하는 도면.
도 9는 가상 척추와 더불어 도 3의 비트맵 마스크 이미지를 도시하는 도면.
도 10은 상체 축의 주요 방향과 더불어 도 3의 비트맵 마스크 이미지를 도시하는 도면.
도 11은 주요부(mass)의 중심과, 그 주요부의 중심을 2개의 후보 머리 위치들에 연결하는 라인들을 도시하는 도면.
도 12는 도 3의 비트맵 마스크의 부분 상에 중첩되는 직사각형 심도 검사 영역을 도시하는 도면.
도 13은 도 12의 직사각형 심도 검사 영역에 대응하는 심도 히스토그램을 도시하는 도면.
도 14는 양 손들을 그의 머리에 대고 있는 인간 사용자의 비트맵 마스크 이미지를 도시하는 도면.
도 15는 상호연결된 영역들로 분할된 도 3의 비트맵 마스크 이미지를 도시하는 도면.
본 발명이 다양한 변형들 및 대안적인 형태들을 허락하지만, 본 발명의 특정한 실시예들이 도면들에서 예로서 도시되고 여기서 상세히 기술될 것이다. 그러나 본 발명을 개시된 특정 형태로 제한하도록 의도되는 것이 아니라, 오히려 첨부된 청구항들에서 표현된 바와 같이 본 발명의 범위 내에 있는 모든 변형들, 등가물들 및 대안들을 커버하도록 의도된다는 것이 이해되어야 한다.
본 발명에 따른 컴퓨터-구현 머리 인식 방법 및 컴퓨터 시스템의 실시예의 가능한 이용들 중 하나가 도 1에서 예시된다. 이 애플리케이션에서, 이 시스템 및 방법은 인간 사용자(1)에 디스플레이되는 가상 환경을 생성하는 컴퓨터 시스템(2)과 상호작용하기 위해, 관심의 객체, 이 예에서, 인간 사용자(1)의 제스처들의 인식을 위해 이용된다.
볼륨 인식 시스템(volume recognition system)은 3D 이미징 시스템, 이 특정한 실시예에서, TOF(time-of-fligh) 3D 카메라(3)를 포함한다. 이 TOF 3D 카메라(3)는 인간 사용자(1)가 상호작용하는 컴퓨터 시스템(2)에 연결된다. 이 실시예에서, 이 컴퓨터 시스템(2) 자체는 TOF 3D 카메라(3)와 협력하여 본 발명의 볼륨 인식 방법을 수행하도록 프로그래밍된다. 대안적으로 상기 방법을 수행하도록 프로그래밍된 별개의 데이터 프로세싱 디바이스는 인간 사용자가 상기 컴퓨터 시스템(2)과 상호작용하는 것을 가능하게 하도록 TOF 3D 카메라 및 컴퓨터 시스템(2) 사이에 연결될 수 있다.
TOF 3D 카메라(3)는, 복수의 화소들을 갖는 방의 2D 소스 이미지 및 그 화소에 의해 이미징된 지점의 TOF 3D 카메라(3)에 대한 거리에 대응하는 각 화소에 대한 심도 값을 포함하는, 인간 사용자(1)가 서있는 방(4)의 3D 이미지 데이터를 포착한다. 2D 이미지 그 자체들 내의 X 및 Y 위치들은 TOF 3D 카메라(3)에 관하여 이들이 표현하는 지점들의 천정각 및 수평각에 대응하기 때문에, 이 3D 이미지 데이터는 TOF 3D 카메라(3)의 범위 내의 객체들의 가시적 지점들에 대응하는 포인트들의 3-차원 무리(cloud)(5)에 의해 도 2에서와 같이 예시될 수 있다.
(I)가 3D 카메라에 의해 포착된 소스 이미지의 심도 맵이고, (I0)이 사용자( 1) 없는 동일한 장면의 초기 심도 맵인 경우, 형태적 차감은 다음과 같이 심도 맵(Indg)에서 인간 사용자(1)의 몸을 분리할 것이다:
Figure 112012059412525-pct00002

이 심도 맵(Indg)은 인간 사용자(1)의 몸이 "1" 화소들에 의해 표시되고, 배경이 "0" 화소들로 표시되는 비트맵 이미지(Ib)를 획득하기 위해 후속적으로 이진화된다. 이러한 비트맵 이미지(Ib)는 도 3에서 예시된다.
인간 사용자(1)의 몸의 비트맵 이미지가 이 단계들을 통해 분리된 이후, "Transformee de Hough elliptique floue rapide"에 기술된 형태의 Shen-Castan 에지 검출기, 또는 1986년 IEEE 변환 패턴 분석 및 머신 지능(IEEE Trans. Pattern Analysis and Machine Intelligence)의 8:679-714의 "A Computational Approach To Edge Detection"에서 J. Canny에 의해 원래 개시된 바와 같은 Canny 에지 검출기와 같은 에지 검출기는 이어서 도 4에서 예시된 바와 같은 윤곽 이미지(1c)를 생성하도록 사용자(1)의 몸의 윤곽을 검출하는데 이용될 수 있다.
본 발명의 방법의 검출 레이트를 증가시키기 위해, 다음 단계에서, 윤곽 라인은 이 윤곽 이미지(1c) 에 형태적 팽창(morphological dilation)을 적용함으로써 넓어질 수 있어서, 도 5에서 예시된 바와 같이 팽창된 윤곽 이미지(1d)를 획득하게 된다.
제 1 실시예에서, 사용자(1)의 몸에 대응하는 지점들의 3-차원 무리(5)의 심도가 이어서 평균화된다. 이는 적어도 2개의 대안적인 방식들로 수행될 수 있다:
제 1 실시예의 제 1 대안에서, 예를 들어, 국제 특허 출원 WO 2008/128568 A1에 개시된 방법을 이용하여 지점들의 클러스터(5)가 사용자의 몸에 대응하는 것으로서 식별되는 경우, 지점들의 이러한 클러스터(5)의 중심의 심도는 이미지 내의 사용자(1)의 몸의 평균 심도로서 고려될 것이다.
제 1 실시예의 제 2 대안에서, 심도 맵(Indg)에서 사용자(1)를 나타내는 지점들(5)의 심도가 평균화될 수 있다. 예를 들어, 다음의 수학식이 이용될 수 있다:
Figure 112012059412525-pct00003

여기서 dav는 산술적 평균 심도이고, n 및 m은 심도 맵 이미지의 치수들이다. 산술적 평균 대신에, 예를 들어, 중앙값(median)과 같이 다른 타입의 평균이 상황들에 따라 당업자에 의해 대신 고려될 수 있다.
다음 단계에서, 그 평균 심도(dav)에서 소스 이미지 내에서 사용자(1)의 머리를 구성하는 가상 타원의 예상되는 주반경(major radius) 크기(a) 및 부반경(minor radious)(b) 크기가 수학식들에 따라 예상되는 실제 머리 치수들, 초점 길이, 및 상기 심도에 기초하여 계산된다:
Figure 112012059412525-pct00004

여기서, F는 초점 길이이고, A 및 B는 예상되는 실제 머리 높이 및 폭이다.
이 예상되는 실제 머리 치수들(A 및 B)은 (소스 이미지 내의 사용자(1)의 크기, 초점 길이 및 심도에 기초하여 그 자체가 계산될 수 있는) 사용자 1의 실제 크기에 관하여 절대 치수들 및 상대적 치수들로서 컴퓨터 시스템(2)의 메모리에 저장될 수 있다.
다음의 단계에서, 타원 허프 변환이 이어서 팽창된 윤곽 이미지(Id)에 대해 수행된다. 이 동작에서, 이 팽창된 윤곽 이미지(Id) 내의 각각의 화소에 대해서, 주반경 크기 및 부반경 크기들(a 및 b)을 갖는 타원(Ie)(또는 적어도 그의 단편)이 누산기 어레이의 대응하는 위치를 중심으로 하여 생성된다. 이러한 타원 내의 각 위치는 세기 값을 갖고, 이 값들은 부가되며, 여기서, 타원들은 누산기 어레이에서 중첩한다. 도 6에서 예시된 바람직한 모드에서, 누산기 어레이에서 생성된 타원(Ih)은 그의 중앙 주위의 세기 분포를 점차 감소시키는 블루어(blur) 마스크(8) 및 치수들(a, b)을 갖는 타원 마스크(7)를 통해 팽창된 윤곽 이미지(Id)로부터의 화소(6)의 콘볼루션(convolution; T)으로부터 발생하는 불분명한 타원(fuzzy ellipse)이다. 이러한 세기 분포는 예를 들어, 가우스(Gaussian)일 수 있다.
따라서, 예를 들어, 위치들(x, y)의 화소에 대해,
Figure 112012059412525-pct00005
(즉, 기본 타원의 위치들에서 누산기 어레이가 2 단위 만큼 증분됨);
Figure 112012059412525-pct00006
(즉, 기본 타원의 각 위치 바로 우측 및 좌측의 위치들에서 누산기 어레이가 2 단위들 만큼 증분됨)
Figure 112012059412525-pct00007
(즉, 기본 타원의 각 위치 바로 위 및 아래의 위치들에서 누산기 어레이가 2 단위들 만큼 증분됨)
Figure 112012059412525-pct00008
(즉, 기본 타원의 각 위치 바로 위의 우측, 위의 좌측, 아래의 우측 및 아래의 좌측의 위치들에서 누산기 어레이가 1 단위들 만큼 증분됨)
유리하게는, 윤곽 이미지(1c)가 (윤곽 라인의 국부적인 배향에 관한 정보를 또한 제공하는) Shen-Castan 에지 검출기와 같은 에지 검출기를 이용하여 생성되었다면, 이 정보는 타원 마스크(7)를 변형하기 위해 또한 이용될 수 있다. 예를 들어, 도 6A에서 예시되는 바와 같이, 타원 마스크(7)는 축(M)을 따른 윤곽 라인의 국부적인 배향에 따르는 주반경 방향으로 배향될 수 있거나, 또는 도 6B에서 예시되는 바와 같이, 타원 마스크(7)는 팽창된 윤곽 이미지(Id)내에서 아래턱(chin)의 잠재적인 비-출현을 반영하도록 그의 하부에서 잘려질 수 있다.
제 2 실시예에서, 평균 심도(dav)에 기초하여 타원 마스크(7)의 치수들(a 및 b)을 계산하는 대신에, 팽창된 윤곽 이미지(Id) 내의 화소들의 각각의 화소의 개별적인 심도(d(i,j))가 각각의 개별적인 화소에 대해 적용되는 타원 마스크(7)의 치수들에 대해 대신 고려될 수 있다. 이는 예를 들어, 팽창된 윤곽 심도 맵
Figure 112012059412525-pct00009
및 다음의 수학식을 이용하여 수행될 수 있다:
Figure 112012059412525-pct00010

양 실시예들에서, 최종 결과는 도 7에서 도시되는 바와 같은 누산기 어레이이며, 여기서 세기 피크들(8)은 소스 이미지에서 인간 머리의 발생의 가능성이 가장 높은 위치들이다.
그러나 윤곽 이미지(1c)의 근처의 병렬 라인들로 귀착되는, 소스 이미지의 사용자(1)의 손발(extremity)의 종국적인 존재로 인해, 도 7은 상기 세기 피크들(8)과 별개로, 이 손발들에 대응하는 세기 리지들(9)을 또한 제시할 수 있다. 누산기 어레이에서 이러한 세기 리지들(9)의 존재로부터 발생하는 거짓 양성들을 억제하기 위해, 분리된 세기 피크들(8)에 대응하는 국부적인 세기 최대치들을 세기 리지들(9)에 위치한 국부적인 세기 최대치들로부터 분별하는 것이 유리하다.
그러므로 도 8에서 예시되는 다음 단계에서, 세기 리지들(9)을 분별하기 위해 가중 인자(W)가 도입될 수 있다. 각각의 국부적인 세기 최대치에 대해 이러한 가중 인자를 계산하기 위해, 이러한 국부적인 세기 최대치의 위치(11)를 중심으로 하고, 미리 결정된 반경(r≥b(통상적으로 r=b))을 갖는 원주(10)가 누산기 어레이에 그려진다. 이어서 이 원주에서 최고 세기를 가진 제 1 위치(12)가 찾아지고, 그의 세기 값이 mc1로서 저장된다. 이어서, 컴퓨터 시스템(2)은 제 1 위치(12)에 대향되는 이 원주(10)(통상적으로 원주-절반(half-circumference))의 단편(14)에서 최고 세기를 갖는 제 2 위치(13)를 찾고, 그의 세기 값을 mc2로서 저장한다. 이 국부적 세기 최대치의 위치(1)의 세기 값이 m으로서 지정된 경우, 가중 인자(W)는 수학식
Figure 112012059412525-pct00011
에 따라 계산된다. 도 8에서 도시된 바와 같이 세기 리지(9)에서, 양자(mc1 및 mc2)가 m에 근접한 값들을 가질 것이므로, 이러한 세기 리지들(9)에서 찾은 국부적인 세기 최대치들의 세기 값들은 1보다 약간만 더 높은 가중 인자(W)로 가중화될 것인 반면에, 소스 이미지에서 인간 머리의 위치에 대응하는 국부적인 세기 최대치를 포함할 가능성이 더 높은 분리된 국부적인 세기 최대치들은 상당히 더 높은 가중 인자로 가중화될 것이다.
마지막으로, 최고 국부적 세기 최대치들 중에서 후보들의 잔여 세트들은 또한 적어도 하나의 보충적인 머리 검출 방법의 출력들을 이용하여 가중화될 것이다. 후보들은 각각의 보충적인 방법에 적절한 가중 인자로 가중화될 것이다. 표결 프로시저는 이어서 소스 이미지내의 인간 머리들에 대응하는 후보들 또는 후보들의 세트를 선택하는데 이용될 수 있다.
이 보충적인 방법들 중 하나는 도 9에서 예시된 바와 같이, 비트맵 이미지(1b)로 표현되는 바와 같은 인간 사용자(1)의 몸의 최대 길이를 지나는 2-차 또는 3-차 함수의 형태로 가상 척추(15)의 계산을 포함한다. 후보 타원(16)이 인간 사용자(1)의 머리를 나타낼 가능성은 가상 척추와 후보 타원(16) 간의 거리에 따라 감소할 것이다.
유사한 보충적인 방법은 비트맵 이미지(1b)에서 표현되는 바와 같은 인간 사용자(1)의 주요부의 중앙을 중심으로 하는 주요 상체 축(18)의 계산에 기초한다. 이것은 도 10에서 예시된다. 보통, 인간 사용자(1)의 머리는 이 축과 근접하게 정렬되어야 하고, 그러므로 후보 타원(16)이 인간 사용자(1)의 머리를 나타낼 가능성은 또한 이 축과 후보 타원(16) 간의 거리에 따라 감소할 것이다.
이 보충적인 방법들의 다른 하나는 도 11에서 예시된 바와 같이, 주요부(17)의 그의 중앙과 후보 타원(16) 간의 인간 사용자의 몸의 비트맵 이미지(1b)의 연속성을 테스트하는 것이다. 이 테스트에서, Brezenham 알고리즘이 이용될 수 있다. 테스트 출력이 음(negative)인 경우, 후보 타원(16)이 인간 사용자(1)의 머리를 나타낼 가능성은 더 낮아질 것이다.
이 보충적인 방법들의 또 다른 하나는 피부 톤을 인식하는 것이다. 3D 카메라가 컬러 카메라인 경우, 후보는 알려진 피부 톤들과 연관된 컬러들을 갖는지가 추정될 수 있다. 후보가 이 알려진 피부 톤들과 연관된 컬러들을 갖지 않는 경우, 이 후보가 인간 사용자의 머리를 나타낼 가능성은 낮아질 것이다. 유리하게는, 컬러 변환 알고리즘들은 3D 카메라에 의해 포착된 RGB 데이터와 같은 컬러 데이터를, 예를 들어, 디바이스 독립적 CIE 1931 XYZ 컬러 공간, 또는 지각적으로 균일한 CIE 1976 L*a*b 또는 CIECA 02 컬러 공간과 같이, 피부 톤 인식에 더욱 적절한 컬러 공간으로 변환하는데 이용될 수 있다.
이 보충적인 방법들의 또 다른 하나는 두발을 검출하는 것이다. 특히, 3D 카메라가 적외선 텔레메트리 검출기(infrared telemetry detector)를 갖는 TOF 카메라인 경우, 두발은 주로 임의의 입사 적외선을 흡수하기 때문에, 에지의 미리 결정된 거리 내의 영역, 특히 잘-정의된 심도 신호(well-defined depth signal)를 반환하지 않는 후보 타원의 상위 에지가 존재하는 경우, 후보 타원이 인간 사용자를 나타낼 가능성이 더 높아질 것이다.
이 보충적인 방법들의 또 다른 하나는 후보 타원에 대응하는 지점들의 무리를 인간 머리를 나타내는 특정한 또는 일반적인 패턴에 매칭시키는 것이다. 이 패턴 매칭 테스트가 양의 결과를 반환하는 경우, 후보 타원이 인간 사용자의 머리를 나타내는 가능성은 더 높아질 것이다.
이 보충적인 방법들의 또 다른 하나는 아래턱을 검출하는 것이다. 인간 사용자가 3D 카메라를 마주할 때, 3D 카메라는 인간 사용자의 목과 아래턱 사이에 보통 4 내지 9cm의 심도 차이를 등록할 것이다. 이러한 단계가 후보 타원의 하부 에지에서 검출되는 경우, 후보 타원이 인간 사용자의 머리를 나타내는 가능성은 더 높을 것이다. 도 12 및 도 13은 이러한 단계가 어떻게 검출되는지를 도시한다. 예를 들어, 후보 타원의 주요 축에 따라 배향되고 그의 하부 에지를 중심으로 한 20cm 높이 x 10cm 폭의 직사각형 검사 영역이 심도 맵(Indg)에서 선택된다. 도 13의 히스토그램에서 도시되는 바와 같이, 이 검사 영역에서 측정되는 심도 값들이 약 4 내지 9 cm 떨어진 2개의 별개의 주파수 최대치들(20, 21) 주위에서 집중되는 경우 아래턱이 검출된다.
사용자가 적어도 하나의 팔을 머리에 대고 있을 때, 팔꿈치는 도 14에서 도시된 바와 같이 다른 후보 타원(16)을 형성할 수 있다. 동시에, 비트맵 이미지(1b)에 의해 형성된 인간 사용자(1)의 실루엣(silhouette)에서 머리와 이 팔꿈치 사이에 구멍(22)을 형성한다. 다른 보충적인 방법에서, 실루엣에서의 이러한 구멍들(22)의 형성이 검출되고, 구멍(22)에 인접한 임의의 동시에 생성된 새로운 후보 타원들(16)에는 더 낮은 가중치가 주어질 것이다.
인간 사용자에 대응하는 3D 카메라에 의해 포착된 지점들은, 국제 특허 출원 WO 2008/128528에 개시된 바와 같이 상호연결된 영역들의 네트워크로 그룹핑될 때, 이 네트워크에서 손발들의 검출을 포함하는 또 다른 보충적인 방법이 이용될 수 있다. WO 2008/128568에서, 3-차원 이미지 데이터가 3-차원 공간과 더불어 복수의 지점들을 포함하는 3-차원 공간 내의 볼륨을 인지하는 방법이 개시된다. 이 지점들은 클러스터화되고 클러스터는 관심의 지점으로서 선택된다. 선택된 클러스터 내의 지점들은 서브-클러스터들로 재-그룹핑되고, 서브-클러스터들 각각은 중심 및 중심과 연관된 볼륨을 갖는다. 중심들은 객체 나타내는 네트워크를 형성하도록 연결될 수 있고, 손발들을 단지 하나의 다른 중심에 연결되는 중심으로서 식별된다.
도 15에 예시되는 바와 같이, 어느 한쪽이 단지 하나의 다른 영역에 집적 연결되는 이러한 영역들은 손발들(23)로서 고려된다. 2개 이상의 다른 영역에 직접 연결되는 이러한 영역들은, 그들의 중심을 인접한 영역들의 중심들에 연결하는 라인이 예를 들어, 45°와 같은 최대각 내에 있는 경우에는 또한 손발로서 고려된다. 이러한 손발(23)과 동시에 나타나는 후보 타원(16)은 사용자(1)의 머리를 나타낼 가능성이 더 높을 것이다.
비디오 시퀀스에서, 시간 간섭성(coherence) 및 일시적 폐색(occlusion)들 또한 고려될 수 있다. 예를 들어, 이전의 방법들에서 랭크된 후보가 이전의 프레임으로부터 현재의 프레임으로 미리 결정된 거리를 초과하여 건너뛰는 경우, 낮게-랭크된 후보는 그것이 이전의 프레임의 머리 위치로부터 상기 미리 결정된 거리 내에 있는 경우 고려될 수 있다. 선행 프레임에서 최고 랭크된 후보에 대응하는 영역이 하나의 프레임에서 폐색되는 경우, 새로운 프레임의 후보들은 무시되고, 종국적으로 폐색이 끝날 때까지 이전의 프레임으로부터의 머리 위치가 유지된다.
본 발명이 특정한 예시적인 실시예들을 참조하여 기술되었지만, 다양한 변형들 및 변경들이 청구항에서 기술되는 바와 같은 본 발명의 더 넓은 범위로부터 벗어남 없이 이 실시예들에 대해 행해질 수 있다는 것이 자명할 것이다. 이에 따라 설명 및 도면들은 제한적인 의미 보단 예시적인 의미로 간주되어야 한다.

Claims (15)

  1. 소스 이미지에서 인간 머리를 인식하기 위한 컴퓨터 구현 방법으로서, 상기 소스 이미지는 그 각각의 화소에 대한 심도 값(depth value)을 갖는, 상기 컴퓨터 구현 방법에 있어서,
    a) 상기 소스 심도 이미지에서 배경으로부터 인간 몸의 적어도 부분을 단편화(segment)하는 단계와;
    b) 상기 부분의 윤곽을 결정하기 위해 인간 몸의 상기 단편화된 부분의 에지(edge)들을 검출하는 단계와;
    c) 상기 소스 이미지 내의 인간 머리의 위치를 결정하는 단계
    를 포함하고,
    상기 단계 c)는,
    c1) 상기 소스 이미지에서 인간 몸의 상기 부분의 심도를 계산하는 단계와;
    c2) 상기 소스 이미지에서 상기 계산된 심도의 인간 머리의 크기에 대응하는 타원의 주반경 크기(major radius size) 및 부반경 크기를 계산하는 단계와;
    c3) 윤곽 화소들의 세트의 위치들을 중심으로 한 타원의 적어도 하나의 단편에 대한 누산기 어레이(accumulator array)를 생성하는 단계로서, 상기 타원의 상기 적어도 하나의 단편은 상기 주반경 크기 및 상기 부반경 크기를 갖는, 상기 누산기 어레이를 생성하는 단계와;
    c4) 상기 소스 이미지에서 인간 머리의 위치에 대응하는 국부적 세기 최대치(local intensity maxium)의 위치를 상기 누산기 어레이에서 선택하는 단계
    를 더 포함하는 것을 특징으로 하는, 소스 이미지에서 인간 머리를 인식하기 위한 컴퓨터 구현 방법.
  2. 제 1 항에 있어서,
    상기 심도는 상기 소스 이미지에서 인간 몸의 상기 부분의 평균 심도인 것인, 소스 이미지에서 인간 머리를 인식하기 위한 컴퓨터 구현 방법.
  3. 제 1 항에 있어서,
    상기 심도와 상기 주반경 크기 및 부반경 크기는 각각의 윤곽 화소에 대해 개별적으로 계산되는 것인, 소스 이미지에서 인간 머리를 인식하기 위한 컴퓨터 구현 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 단계 c2) 이전에 상기 윤곽의 형태적 팽창(morphological dilation)을 수행하는 단계를 더 포함하고,
    상기 단계 c2)는 상기 팽창된 윤곽에 대해 수행되는 것인, 소스 이미지에서 인간 머리를 인식하기 위한 컴퓨터 구현 방법.
  5. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 타원의 적어도 하나의 단편은 불분명한(fuzzy) 것인, 소스 이미지에서 인간 머리를 인식하기 위한 컴퓨터 구현 방법.
  6. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 단계 b)는, 상기 윤곽에서 각각의 화소에 대한 국부적 윤곽 배향(local contour orientation)의 검출을 더 포함하는 것인, 소스 이미지에서 인간 머리를 인식하기 위한 컴퓨터 구현 방법.
  7. 제 6 항에 있어서,
    상기 타원의 적어도 하나의 단편은 상기 국부적 윤곽 배향에 따라 배향되는 것인, 소스 이미지에서 인간 머리를 인식하기 위한 컴퓨터 구현 방법.
  8. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 단계 c4) 이전에, 상기 누산기 어레이에의 복수의 국부적 세기 최대치들의 각각의 세기 최대치에 대해,
    (i) 상기 누산기 어레이에서 각각의 국부적 세기 최대치를 중심으로 한 원주에서 제 1 위치를 찾는 단계로서, 상기 제 1 위치는 상기 원주에서 최고 세기를 갖는, 상기 제 1 위치를 찾는 단계와;
    (ii) 상기 원주에서 제 2 위치를 찾는 단계로서, 상기 제 2 위치는 상기 제 1 위치에 대향되는 상기 원주의 호(arc)에서 최고 세기를 갖는, 상기 제 2 위치를 찾는 단계와;
    (iii) 상기 국부적 세기 최대치의 세기(m)를 인자(factor)
    Figure 112012083541503-pct00030
    로 가중화하는 단계
    가 수행되며,
    mc1은 상기 제 1 위치에서의 세기이고, mc2는 상기 제 2 위치에서의 세기인 것인, 소스 이미지에서 인간 머리를 인식하기 위한 컴퓨터 구현 방법.
  9. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 단계 c4) 이전에,
    상기 누산기 어레이에서 복수의 국부적 세기 최대치들의 각각의 세기 최대치의 세기는, 피부 톤 인식(skin tone recognition), 패턴 매칭, 두발 인식, 아래턱 검출, 구멍 검출, 상기 인간 몸의 주요부(mass) 또는 손발의 중심과의 연결의 검출, 가상 척추에 대한 거리, 상체축 및 비디오 시퀀스에서의 이전의 머리 위치를 포함하는 그룹으로부터 선택된 적어도 하나의 부가적인 머리 인식 방법의 출력에 기초하여 가중화되는 것인, 소스 이미지에서 인간 머리를 인식하기 위한 컴퓨터 구현 방법.
  10. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 소스 이미지가 비디오 시퀀스의 현재 프레임이고, 선행 프레임에서 선택된 위치가 상기 현재 프레임에서 폐색되는(occluded) 경우, 임의의 국부적 세기 최대치를 무시하고 상기 현재 프레임에서의 머리 위치에 대응하는 것으로서 선행 프레임에서 선택된 위치를 유지하는 것인, 소스 이미지에서 인간 머리를 인식하기 위한 컴퓨터 구현 방법.
  11. 제 1 항 내지 제 3 항 중 어느 한 항에 따른 방법을 수행하기 위한 컴퓨터 실행 가능한 명령들을 포함하는 컴퓨터 판독 가능한 데이터 저장 매체.
  12. 제 1 항 내지 제 3 항 중 어느 한 항에 따른 방법을 수행하도록 프로그래밍된 컴퓨터 시스템.
  13. 제 12 항에 있어서,
    상기 소스 이미지를 포착(capture)하기 위한 이미징 디바이스(imaging device)를 포함하는 컴퓨터 시스템.
  14. 제 13 항에 있어서,
    상기 이미징 디바이스는 상기 심도를 또한 포착하기 위한 3D 이미징 디바이스인 것인 컴퓨터 시스템.
  15. 삭제
KR1020127019659A 2009-12-28 2010-12-28 머리 인식 방법 KR101362631B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP09180783.4 2009-12-28
EP20090180783 EP2339507B1 (en) 2009-12-28 2009-12-28 Head detection and localisation method
PCT/EP2010/070817 WO2011080280A1 (en) 2009-12-28 2010-12-28 Head recognition method

Publications (2)

Publication Number Publication Date
KR20120130090A KR20120130090A (ko) 2012-11-28
KR101362631B1 true KR101362631B1 (ko) 2014-02-12

Family

ID=42199070

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127019659A KR101362631B1 (ko) 2009-12-28 2010-12-28 머리 인식 방법

Country Status (13)

Country Link
US (1) US9081999B2 (ko)
EP (1) EP2339507B1 (ko)
JP (1) JP5514918B2 (ko)
KR (1) KR101362631B1 (ko)
CN (1) CN102812474B (ko)
AU (1) AU2010338283B2 (ko)
BR (1) BR112012015986A2 (ko)
CA (1) CA2784554C (ko)
MX (1) MX2012007593A (ko)
SG (1) SG181597A1 (ko)
TW (1) TW201142719A (ko)
WO (1) WO2011080280A1 (ko)
ZA (1) ZA201204263B (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9001190B2 (en) * 2011-07-05 2015-04-07 Microsoft Technology Licensing, Llc Computer vision system and method using a depth sensor
TWI496090B (zh) * 2012-09-05 2015-08-11 Ind Tech Res Inst 使用深度影像的物件定位方法與裝置
CN103336948A (zh) * 2013-06-24 2013-10-02 深圳锐取信息技术股份有限公司 一种基于人脸识别的视频跟踪方法
KR101501487B1 (ko) * 2013-07-18 2015-03-12 전자부품연구원 깊이 영상 기반 머리 검출방법 및 장치
KR102106135B1 (ko) * 2013-10-01 2020-05-04 한국전자통신연구원 행동 인식 기반의 응용 서비스 제공 장치 및 그 방법
TWI510953B (zh) * 2013-12-20 2015-12-01 Wistron Corp 身份驗證防僞方法與應用此方法的身份驗證裝置
US10325167B1 (en) 2015-01-13 2019-06-18 State Farm Mutual Automobile Insurance Company Apparatuses, systems and methods for generating data representative of vehicle driver ratings
JP6481537B2 (ja) * 2015-07-14 2019-03-13 コニカミノルタ株式会社 被監視者監視装置および被監視者監視方法
US20170255821A1 (en) * 2016-03-02 2017-09-07 National Taiwan University Gesture recognition system and related method
US11321951B1 (en) 2017-01-19 2022-05-03 State Farm Mutual Automobile Insurance Company Apparatuses, systems and methods for integrating vehicle operator gesture detection within geographic maps
CN107093182B (zh) * 2017-03-23 2019-10-11 东南大学 一种基于特征拐点的人体高度估计方法
US10431000B2 (en) * 2017-07-18 2019-10-01 Sony Corporation Robust mesh tracking and fusion by using part-based key frames and priori model
CN107631691A (zh) * 2017-09-13 2018-01-26 南京云计趟信息技术有限公司 一种基于tof技术的车载货物体积计算方法
CN109859158A (zh) * 2018-11-27 2019-06-07 邦鼓思电子科技(上海)有限公司 一种基于视觉的工作区域边界的检测系统、方法及机器设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050031166A1 (en) 2003-05-29 2005-02-10 Kikuo Fujimura Visual tracking using depth data

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09138471A (ja) * 1995-09-13 1997-05-27 Fuji Photo Film Co Ltd 特定形状領域の抽出方法、特定領域の抽出方法及び複写条件決定方法
US6072494A (en) 1997-10-15 2000-06-06 Electric Planet, Inc. Method and apparatus for real-time gesture recognition
JP2003028635A (ja) 2001-07-16 2003-01-29 Honda Motor Co Ltd 画像測距装置
AU2003219926A1 (en) * 2002-02-26 2003-09-09 Canesta, Inc. Method and apparatus for recognizing objects
US7203356B2 (en) * 2002-04-11 2007-04-10 Canesta, Inc. Subject segmentation and tracking using 3D sensing technology for video compression in multimedia applications
JP2004295776A (ja) * 2003-03-28 2004-10-21 Minolta Co Ltd 画像認識装置および画像認識プログラム
US7379559B2 (en) * 2003-05-28 2008-05-27 Trw Automotive U.S. Llc Method and apparatus for determining an occupant's head location in an actuatable occupant restraining system
EP1631937B1 (en) * 2003-06-12 2018-03-28 Honda Motor Co., Ltd. Target orientation estimation using depth sensing
US20050196015A1 (en) * 2004-03-02 2005-09-08 Trw Automotive U.S. Llc Method and apparatus for tracking head candidate locations in an actuatable occupant restraining system
WO2006087789A1 (ja) * 2005-02-17 2006-08-24 Fujitsu Limited 画像処理方法、画像処理システム、画像処理装置及びコンピュータプログラム
JP2006318350A (ja) 2005-05-16 2006-11-24 Sony Corp 物体追跡方法、物体追跡方法のプログラム、物体追跡方法のプログラムを記録した記録媒体及び物体追跡装置
DE102005047160B4 (de) 2005-09-30 2007-06-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und Computerprogramm zum Ermitteln einer Information über eine Form und/oder eine Lage einer Ellipse in einem graphischen Bild
US20070127787A1 (en) * 2005-10-24 2007-06-07 Castleman Kenneth R Face recognition system and method
JP3962803B2 (ja) 2005-12-16 2007-08-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 頭部検出装置、頭部検出方法および頭部検出プログラム
JP5041458B2 (ja) * 2006-02-09 2012-10-03 本田技研工業株式会社 三次元物体を検出する装置
US8208146B2 (en) 2007-03-13 2012-06-26 Advanced Liquid Logic, Inc. Droplet actuator devices, configurations, and methods for improving absorbance detection
DE102007018802B3 (de) 2007-04-20 2008-08-28 Universität Tübingen Abhör- und manipulationssichere Verschlüsselung für Online-Accounts
CN101715581B (zh) 2007-04-20 2014-07-23 索夫特基奈蒂克软件公司 体积识别方法和系统
JP5227888B2 (ja) * 2009-05-21 2013-07-03 富士フイルム株式会社 人物追跡方法、人物追跡装置および人物追跡プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050031166A1 (en) 2003-05-29 2005-02-10 Kikuo Fujimura Visual tracking using depth data

Also Published As

Publication number Publication date
AU2010338283A1 (en) 2012-07-26
CA2784554C (en) 2015-02-10
US20130022262A1 (en) 2013-01-24
EP2339507B1 (en) 2013-07-17
BR112012015986A2 (pt) 2016-04-19
SG181597A1 (en) 2012-07-30
US9081999B2 (en) 2015-07-14
MX2012007593A (es) 2012-11-29
KR20120130090A (ko) 2012-11-28
EP2339507A1 (en) 2011-06-29
JP2013516013A (ja) 2013-05-09
CN102812474A (zh) 2012-12-05
CA2784554A1 (en) 2011-07-07
JP5514918B2 (ja) 2014-06-04
WO2011080280A1 (en) 2011-07-07
ZA201204263B (en) 2013-09-25
TW201142719A (en) 2011-12-01
CN102812474B (zh) 2015-06-17
AU2010338283A2 (en) 2012-08-09
AU2010338283B2 (en) 2013-11-21

Similar Documents

Publication Publication Date Title
KR101362631B1 (ko) 머리 인식 방법
JP6125188B2 (ja) 映像処理方法及び装置
Tombari et al. Classification and evaluation of cost aggregation methods for stereo correspondence
JP5873442B2 (ja) 物体検出装置および物体検出方法
JP5820366B2 (ja) 姿勢推定装置及び姿勢推定方法
JP5837508B2 (ja) 姿勢状態推定装置および姿勢状態推定方法
JP4597391B2 (ja) 顔領域検出装置およびその方法並びにコンピュータ読み取り可能な記録媒体
CN106033601B (zh) 检测异常情形的方法和装置
KR20180055070A (ko) 재질 인식 및 재질 트레이닝을 수행하는 방법 및 장치
US20140098093A2 (en) Method for the Real-Time-Capable, Computer-Assisted Analysis of an Image Sequence Containing a Variable Pose
JP7499280B2 (ja) 人物の単眼深度推定のための方法およびシステム
CN111160291B (zh) 基于深度信息与cnn的人眼检测方法
CN111008935B (zh) 一种人脸图像增强方法、装置、系统及存储介质
KR20170092533A (ko) 얼굴 포즈 교정 방법 및 장치
WO2019228471A1 (zh) 指纹识别方法、设备及计算机可读存储介质
JP2013185905A (ja) 情報処理装置及び方法、並びにプログラム
KR20160046399A (ko) 텍스쳐 맵 생성 방법 및 장치와 데이터 베이스 생성 방법
KR101480816B1 (ko) 입술 영상에서 추출된 다수의 입술 움직임 특징을 이용한 시각적 음성인식 시스템
CN109146969B (zh) 行人定位方法、装置及处理设备及其存储介质
Kerdvibulvech Hybrid model of human hand motion for cybernetics application
CN118692144A (zh) 基于空间差分技术的动作捕捉方法和系统
KR20190110307A (ko) 보행자 검출 장치 및 그 방법

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180126

Year of fee payment: 5