KR20070034966A - 정보 처리 장치 및 그 제어방법 - Google Patents

정보 처리 장치 및 그 제어방법 Download PDF

Info

Publication number
KR20070034966A
KR20070034966A KR1020060093302A KR20060093302A KR20070034966A KR 20070034966 A KR20070034966 A KR 20070034966A KR 1020060093302 A KR1020060093302 A KR 1020060093302A KR 20060093302 A KR20060093302 A KR 20060093302A KR 20070034966 A KR20070034966 A KR 20070034966A
Authority
KR
South Korea
Prior art keywords
face
feature
image data
distance
detection
Prior art date
Application number
KR1020060093302A
Other languages
English (en)
Other versions
KR100886407B1 (ko
Inventor
유지 카네다
마사카주 마쓰구
가쓰히코 모리
Original Assignee
캐논 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2005278783A external-priority patent/JP4799105B2/ja
Priority claimed from JP2005278782A external-priority patent/JP4799104B2/ja
Application filed by 캐논 가부시끼가이샤 filed Critical 캐논 가부시끼가이샤
Publication of KR20070034966A publication Critical patent/KR20070034966A/ko
Application granted granted Critical
Publication of KR100886407B1 publication Critical patent/KR100886407B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Abstract

정보 처리 장치는, 얼굴을 포함하는 화상 데이터를 입력하는 화상 입력부(100)와, 화상 데이터로부터, 얼굴의 특정 부분의 위치를 검출하는 얼굴 위치 검출부(101)와, 검출된 특정 부분의 위치에 의거하여 화상 데이터로부터 얼굴의 특징점을 검출하고, 검출된 특징점에 의거하여 얼굴의 표정을 판정하는 표정 인식부(102)를 포함한다. 특징점은 특정 부분의 위치 검출보다 더 높은 검출 정밀도로 검출된다. 특정 부분의 위치 검출은 검출 대상의 변동에 강건하다.
정보처리, 촬상장치, 화상인식

Description

정보 처리 장치 및 그 제어방법{INFORMATION PROCESSING APPARATUS AND CONTROL METHOD THEREFOR}
도 1은, 제1 실시 예에 따른 정보 처리 장치의 기능 구성을 나타낸 블록도다.
도 2는, 신경망을 나타낸 모식도다.
도 3은, 히스토그램 보정 처리를 도식적으로 나타낸 도면이다.
도 4는, 주어진 계층 특징의 뉴런과 이전 계층 특징의 복수 뉴런과의 결합 관계를 나타낸 도면이다.
도 5는, 주어진 계층 특징의 인접하는 뉴런을 산출하기 위해 필요한 이전 계층 뉴런과의 결합 관계를 나타낸 도면이다.
도 6은, 표정 인식부의 상세한 기능 구성을 나타낸 블록도다.
도 7은, 특징점을 추출하기 위한 CNN의 구성을 나타낸 도면이다.
도 8은, 추출되는 각 특징점을 나타낸 모식도다.
도 9는, 얼굴 위치를 검출하기 위한 CNN으로부터 취득한 얼굴, 좌우 눈, 및 입 중심위치를 나타낸 모식도다.
도 10은, 콧구멍 위치를 얻기 위한 콧구멍 중심 위치 산출 범위, 중심 산출 범위를 얻는데 필요한 곱-합 연산 범위, 및 중심 산출 범위를 얻는데 필요한 입력 화상 범위를 나타낸 모식도다.
도 11은, 좌우 콧구멍 위치와, 코밑 에지를 나타낸 모식도다.
도 12a, 12b, 12c는, 좌우 콧구멍 위치의 중심, 오른쪽 콧구멍 위치의 중심, 코밑 에지의 중심을 산출하는데 필요한 수용 필드를 나타낸 모식도다.
도 13은, 좌우 눈썹 끝점의 특징점을 얻기 위한 중심 산출 범위를 나타낸 모식도다.
도 14는, 좌우 눈썹 중점의 특징점을 얻기 위한 중심 산출 범위를 나타낸 모식도다.
도 15는, 좌우 눈 끝점의 특징점을 얻기 위한 중심 산출 범위를 나타낸 모식도다.
도 16은, 좌우 눈의 상하 에지의 특징점을 얻기 위한 중심 산출 범위를 나타낸 모식도다.
도 17은, 입 끝점의 특징점을 얻기 위한 중심 산출 범위를 나타낸 모식도다.
도 18은, 입의 상하 에지의 특징점을 얻기 위한 중심 산출 범위를 나타낸 모식도다.
도 19는, 이마, 미간 및 볼 영역을 나타낸 도면이다.
도 20은, 모든 특징점을 얻기 위해 필요한 최소한의 입력 화상 영역을 나타낸 도면이다.
도 21은, 사이즈 변동 및 회전 변동을 검출하기 위해 사용된 좌우 눈 영역과 얼굴 영역의 중심 위치를 나타낸 도면이다.
도 22는, 사이즈 변동 시의 좌우 눈 영역과 얼굴 영역의 중심 위치를 나타낸 도면이다.
도 23은, 수평 회전 변동이 발생한 경우의 좌우 눈 영역과 얼굴 영역의 중심 위치를 나타낸 도면이다.
도 24는, 수직 회전 변동이 발생한 경우의 좌우 눈 영역과 얼굴 영역의 중심 위치를 나타낸 모식도다.
도 25는, 표정을 판정하기 위한 CNN의 구성을 나타낸 모식도다.
도 26은, 표정 "기쁨"을 판정하기 위한 특징량 변화량으로부터 득점을 산출할 때의 특징량 변화량의 중량을 도시한 테이블이다.
도 27은, 특징량 변화량으로부터 산출된 득점의 분포를 도시한 그래프이다.
도 28은, 표정 "기쁨"에 대하여 미리 준비된 득점 분포 템플릿을 도시한 그래프이다.
도 29는, 제1 실시 예에 따른 전체 처리의 순서를 나타낸 플로차트다.
도 30은, 제2 실시 예에 따른 정보 처리 장치의 기능 구성을 나타낸 블록도다.
도 31은, 표정 인식부의 기능 구성을 나타낸 블록도다.
도 32는, t[frame]과 t+1[frame] 화상에 있어서 얼굴 검출 위치에서 시점을 갖고 오른쪽 눈초리 특징점에서 종점을 갖는 벡터를 나타낸 모식도다.
도 33은, 움직임 벡터의 산출을 나타낸 모식도다.
도 34는, 얼굴 검출 위치에서 시점을 갖고, 오른쪽 눈초리 특징점에서 종점을 갖는 벡터의 수평, 수직 성분과 눈구석간 거리를 나타낸 도면이다.
도 35는, 사이즈 변동이 생겼을 경우의 얼굴 검출 위치에서 시점을 갖고, 오른쪽 눈초리 특징점에서 종점을 갖는 벡터의 수평, 수직 성분과 눈구석간 거리를 나타낸 도면이다.
도 36은, 제2 실시 예에 따른 전체 처리의 순서를 나타낸 플로차트다.
도 37은, 제3 실시 예에 따른 정보 처리 장치의 기능 구성을 나타낸 블록도다.
도 38은, 제3 실시 예에 따른 전체 처리의 순서를 나타낸 플로차트다.
도 39는, 제1 내지 제3 실시 예에 따른 정보 처리 장치의 하드웨어 구성을 도식적으로 나타낸 블록도다.
도 40은, 테이블(113)의 내용을 나타낸 도면이다.
도 41은, 테이블 313의 내용을 나타낸 도면이다.
본 발명은 정보 처리 장치 및 그 제어방법에 관한 것으로, 특히 화상 인식 기술에 관한 것이다.
종래에는, 촬상장치에 의해 물체를 촬상해서 화상 데이터를 취득하고, 해당화상 데이터를 해석해서 물체의 위치 및 자세(orientation)를 계산하는 물체 인식 (화상 인식)기술이 알려져 있다.
일본국 공개특허 특개평 09-282454호에는, 다음과 같은 물체 인식 기술이 개시되어 있다. 우선, 저해상도 물체 인식 처리를 실행하여, 전체 인식 대상 물체의 위치 및 자세를 대강 얻는다(제1 단계의 인식 처리). 그 인식 결과에 의거하여 물체 위의 특징적인 부분 주위에 국소 인식 범위를 설정한다. 상기 국소 인식 범위에 대해서만 부분적으로 고해상도 물체 인식 처리를 실행한다(제2 단계의 인식 처리). 물체 위의 특징적인 부분에는, 예를 들면, 나사나 로드(rod)용의 구멍, 조립을 위한 돌기, 및 물체 표면 위의 마크가 포함되어 있다. 국소 인식 범위에 있어서의 물체 인식 결과에 의거하여 대상 물체 전체의 위치 및 자세를 계산한다.
그러나, 일본국 공개특허 특개평 09-282454호에 개시된 구성은, 제1 단계의 인식 처리와 제2 단계의 인식 처리와의 사이에 소정의 시간을 요구한다. 이 때문에, 예를 들면, 조명 조건의 변동, 인식 대상 물체의 사이즈 및 형상의 변동, 및 인식 대상 물체의 회전으로 인해, 촬영 조건이 동적으로 변화하는 환경에 있어서는, 물체를 정확하게 인식하는 것이 곤란하다.
따라서, 인식 대상의 물체가 사람의 얼굴이고, 주어진 시점에서 얼굴 표정을 인식해야 하는 경우에는, 상술한 종래기술을 사용할 수 없다.
다른 한편, 촬영된 얼굴 화상의 화상 데이터를 해석하고, 해석 결과에 근거해서 촬영된 화상에 있어서의 인식 대상의 눈 영역을 인식하는 또 다른 종래의 기술이 있다.
일본국 등록특허 제3452685호에는 얼굴 화상 처리 기술이 개시되어 있다. 이 기술에 있어서는, 저휘도값을 추출하는 필터를 사용해서 얼굴 화상으로부터, 저휘도값을 추출하고, 2치화한다. 이 2치화 화상의 중심을 산출한다. 이 중심 위치를 얼굴의 중심 위치로서 설정한다. 이 중심위치에 근거하여 눈 존재 영역을 설정한다. 이 존재 영역 내에서 적어도 한 개의 눈 존재 후보 영역을 설정한다. 이 후보영역으로부터 눈 영역을 판정한다.
일본국 등록특허 제3452685호에 개시된 얼굴 화상 처리 기술은, 얼굴만을 포함하는 화상을 처리하기 위해 수행된다. 그 때문에, 화상에 배경이 존재하는 경우에는, 얼굴 중심 위치가 그 참 위치로부터 멀리 떨어진 위치로서 인식되는 경우가 있다. 이 경우, 눈 영역을 정확하게 설정할 수 없다. 일본국 등록특허 제3452685호에 개시된 기술로 영역을 설정할 때, 물체의 얼굴의 사이즈에 관계없이, 미리 카메라와 물체 사이의 거리를 측정하고, 이 측정된 거리에 의거하여 눈 영역을 설정한다. 이 때문에, 임의의 얼굴의 사이즈에 대하여 정확한 영역 설정이 불가능한 경우가 있다. 회전 등의 변동이 생겼을 경우에도 정확한 영역 설정이 불가능한 경우가 있다.
본 발명은 상기의 문제점을 감안해 이루어진 것으로, 촬영 조건이 동적으로 변화되는 환경에서도 물체를 정확하게 인식하는 기술을 제공하는 것을 목적으로 한다. 또한, 본 발명은 다양한 촬영 조건 하에서 얼굴을 정확하게 인식하는 기술을 제공하는 것을 다른 목적으로 한다.
상기의 목적을 달성하기 위하여, 본 발명에 따른 정보 처리 장치는 이하의 구성을 갖는다. 이 정보 처리 장치는, 얼굴을 포함하는 화상 데이터를 입력하도록 구성된 입력부와,
상기 화상 데이터로부터, 상기 얼굴의 특정 부분의 위치를 검출하도록 구성된 제1 검출부와,
상기 검출된 특정 부분의 위치에 의거하여 상기 화상 데이터로부터 상기 얼굴의 특징점을 검출하도록 구성된 제2 검출부와,
상기 검출된 특징점에 의거하여 상기 얼굴의 표정을 판정하도록 구성된 판정 부를 구비하고,
상기 제2 검출부는 상기 제1 검출부의 검출 정밀도보다 더 높은 검출 정밀도를 갖고, 상기 제1 검출부는 검출 대상의 변동에 강건하다.
또한, 상기 목적을 달성하기 위하여, 본 발명에 따른 정보 처리 장치의 제어 방법은 이하의 구성을 갖는다. 얼굴을 포함하는 화상 데이터를 처리하는 정보 처리 장치의 제어방법은,
얼굴을 포함하는 화상 데이터를 입력하는 입력 스텝과,
상기 화상 데이터로부터, 상기 얼굴의 특정 부분의 위치를 검출하는 제1 검출 스텝과,
상기 검출된 특정 부분의 위치에 의거하여 상기 화상 데이터로부터 상기 얼굴의 특징점을 검출하는 제2 검출 스텝과,
상기 검출된 특징점에 의거하여 상기 얼굴의 표정을 판정하는 판정 스텝을 포함하고,
상기 제2 검출 스텝은 상기 제1 검출 스텝의 검출 정밀도보다 더 높은 검출 정밀도를 갖고, 상기 제1 검출 스텝은 검출 대상의 변동에 강건하다.
본 발명의 또 다른 특징들은 첨부도면을 참조하여 이하의 실시 예의 설명으로부터 분명해질 것이다.
이하, 첨부된 도면을 참조해서 본 발명의 실시 예를 상세히 설명한다. 다만, 이 실시 예에 기재되어 있는 구성요소는 어디까지나 예시이며, 본 발명의 범위를 그것들에만 한정하는 취지의 것은 아니다.
<<제1 실시 예>>
[정보 처리 장치의 하드웨어 구성]
우선, 본 실시 예에 따른 정보 처리 장치의 하드웨어 구성을, 도 39를 참조해서 설명한다. 도 39는, 본 실시 예에 따른 정보 처리 장치의 하드웨어 구성을 도식적으로 나타낸 블록도다. 본 실시 예에 따른 정보 처리 장치는, 예를 들면, 퍼스널 컴퓨터(PC), 워크스테이션(WS), 또는 휴대 정보 단말(PDA) 등으로 실현된다.
도 39를 참조하면, CPU(390)는 (후술하는) 하드 디스크(이하, HD라고 칭함)(395)에 기억되어 있는 애플리케이션 프로그램, 오퍼레이팅 시스템(OS), 및 제어 프로그램을 실행한다. 또한, CPU(390)는 RAM(392)에, 프로그램 실행에 필요한 정보와 파일을 일시적으로 기억하도록 제어한다.
ROM(391)은 기본 I/O 프로그램을 포함하는 프로그램과, 문서 처리 시에 사용 된 폰트 데이터 및 템플릿 데이터 등의 각종 데이터를 기억한다. RAM(392)는 각종 데이터를 일시적으로 기억하고, CPU(390)의 주 메모리 및 워크 에어리어로서 기능을 한다.
기록 매체에의 액세스를 실현하는 외부 기억 드라이브(393)는, 예를 들면 미디어(기록 매체; 394)로부터 컴퓨터 시스템으로 프로그램을 로드할 수 있다. 미디어(394)는, 플렉시블 디스크(FD), CD-ROM, CD-R, CD-RW, PC 카드, DVD, IC 메모리 카드, MO, 또는 메모리 스틱 등의 임의의 미디어일 수도 있다.
본 실시 예에 있어서, 외부 기억장치(395)는, 대용량 기억장치로서 기능을 하는 HD를 구비한다. HD(395)는, 애플리케이션 프로그램, OS, 제어 프로그램, 및 관련 프로그램을 기억한다.
지시 입력장치(396)는, 키보드, 포인팅 디바이스(예를 들면, 마우스), 및 터치 패널 등의 디바이스로 구현된다. 유저는, 지시 입력 장치(396)를 사용하여, 본 실시 예의 정보 처리 장치에, 예를 들면 장치를 제어하기 위한 커멘드를 입력한다.
디스플레이(397)는, 지시 입력 장치(396)로부터 입력된 커멘드나, 그 커멘드에 대한 정보 처리 장치의 응답 출력을 표시한다.
시스템 버스(399)는 정보 처리 장치 내의 데이터 흐름을 관리한다.
촬상장치(398)는 물체를 촬상해서 화상 데이터를 취득한다. 촬상장치(398)는, 결상 광학계, 고체 촬상소자, 및 AD 변환 등을 실행하기 위한 영상 신호 처리 회로 등의 부품을 구비한다. 촬상장치(398)는, 고체 촬상소자로서 기능을 하는 CCD 또는 CMOS 센서로부터 취득한 전기신호를 AD 변환하여, 디지털 화상 데이터를 취득 한다. 촬상장치(398)가 취득한 화상 데이터는, CPU(390)의 제어 하에 버퍼링 처리가 행해지고, DMA에 의해 RAM(392)등의 메모리에 전송된다.
상술한 하드웨어 장치와 같은 기능을 실현하는 소프트웨어를 대신 사용해도 된다.
본 실시 예에서는, 미디어(394)로부터 본 실시 예에 따른 프로그램 및 관련 데이터를 직접 RAM(392)로 로드해서 실행시키는 예를 나타낸다. 본 실시 예의 프로그램을 실행시킬 때마다 본 실시 예의 프로그램은 이미 HD(395)에 인스톨되어, HD(395)로부터 RAM(392)로 로드되어도 된다. 또한, 본 실시 예의 프로그램을 메모리 맵의 일부로서 ROM(391)에 기록해 두고, 직접 CPU(390)로 실행하는 것도 가능하다.
설명의 편의를 위해, 본 실시 예의 정보 처리 장치를 1개의 장치로 실현한다. 그러나 복수의 장치에 리소스를 분산해도 된다. 예를 들면, 기억 및 연산 리소스를 복수의 장치에 분산시켜도 된다. 정보 처리 장치상에서 가상적인 구성요소에 리소스를 분산시켜, 병렬 처리를 행해도 된다.
[정보 처리 장치의 기능 구성]
다음에, 상기의 정보 처리 장치에 의한 물체 인식을 위한 기능 구성에 대해서, 도 1을 참조해서 설명한다. 도 1은, 본 실시 예에 따른 정보 처리 장치의 기능 구성을 나타낸 블록도다.
도 1에 나타낸 각 기능 블록은, 도 39를 참조해서 상술한 정보 처리 장치의 CPU(390)가 RAM(392)로 로드된 프로그램을 실행하고, 도 1에 나타낸 각 하드웨어와 협동함으로써 실현된다. 기능 블록의 일부 또는 전부가 전용의 하드웨어로 실현되어도 된다.
도 1을 참조하면, 화상 입력부(100)는, 물체를 촬상해서 화상 데이터를 취득한다. 화상 입력부(100)는, 도 39에 있어서의 촬상장치(398)에 대응한다. 화상 입력부(100)는, 화상 데이터를 취득하여 RAM(392)등의 메모리에 버퍼링한다.
본 실시 예에 있어서는, 화상 입력부(100)가 입력한 화상 데이터는 얼굴 화상의 데이터이다. 본 실시 예에 있어서, 화상 데이터는 복수의 프레임을 포함하는 동화상의 데이터이다.
얼굴 위치 검출부(101)는 얼굴의 위치, 즉, 위치 및 자세 산출 대상으로서의 물체를 특정한다. 얼굴 위치 검출부(101)는, 도 2에 도식적으로 도시한 다층의 신경회로망(제1 CNN)을 사용하여 얼굴의 위치를 특정한다. 도 2는, 신경망의 모식도이다.
본 실시 예에서는, 신경망으로서, Convolutional Neural Networks(이하, CNN이라고 칭한다)을 사용하여, 디지털 화상 중의 얼굴의 위치를 특정한다. CNN은 예를 들면, M.Matsugu, K. Mori, M. Ishii, and Y. Mitarai, "Convolutional Spiking Neural Network Model for Robust Face Detection", 9th International Conference on Neural Information Processing, PP.660-664, Nov 2002에 개시되어 있는 공지의 기술이다. CNN은, 본 실시 예의 정보 처리 장치에 있어서, 하드웨어 및 프로그램의 협동에 의해 실현된다. 얼굴 위치 검출부(101)의 동작의 상세한 것은 후술한다.
표정 인식부(102)는, 도 6에 나타낸 구성을 갖는다. 도 6은, 표정 인식 부(102)의 상세한 기능 구성을 나타낸 블록도다. 도 6에 나타낸 것과 같이, 표정 인식부(102)는 소정의 특징량 추출부(110), 특징량 변화량 산출부(111), 및 표정 판정부(112)를 구비한다. 표정 판정부(112)는, 특징량과 표정과의 대응관계를 포함하는 테이블(113)을 참조해서 뉴런에게 표정 판정을 학습시킨다.
본 실시 예의 구성은, 2개의 네트워크, 즉 얼굴 위치 검출부(101)가 화상에 근거하여 얼굴의 위치를 검출하기 위한 CNN(제1 CNN)과, 표정 인식부(102)가 표정을 인식하는데 필요한 특징점을 얻기 위한 CNN(제2 CNN)을 사용한다.
소정 특징량 추출부(110)는 얼굴 위치 검출부(101)에 의해 검출된 촬영 대상의 얼굴 위치에 의거하여 표정을 인식하는데 필요한 소정 특징량을 추출한다. 특징량 변화량 산출부(111)는, 소정 특징량 추출부(110)에 의해 추출된 특징량의 변동에 따라 특징량 변화량을 정규화한다. 이 정규화에 있어서, 화상 데이터에 있어서의 특징점의 레이아웃에 의거하여 이 특징점의 위치를 보정한다. 표정 판정부(112)는, 특징량 변화량 산출부(111)에 의해 정규화된 특징량 변화량에 의거하여 표정을 판정한다. 표정 인식부(102)에 포함된 소정 특징량 추출부(110), 특징량 변화량 산출부(111), 및 표정 판정부(112)의 상세한 것은 후술한다.
[전체 처리]
다음에, 본 실시 예의 구성에 의해 실행되는 전체 처리에 대해서 도 29를 참조해서 설명한다. 도 29는, 본 실시 예에 따른 전체 처리의 순서를 나타낸 플로차트이다.
스텝 S270에서는, 얼굴 위치 검출부(101)가, 화상 입력부(100)로 취득한 화 상 데이터의 선별 및 히스토그램 보정을 실행한다. 선별 처리 후의 화상 해상도는, 예를 들면 360×240 [pixels]이다.
스텝 S271에서는, 얼굴 위치 검출부(101)가, CNN을 사용해서 화상 중의 얼굴 위치를 판정한다. 얼굴의 위치를 판정하기 위한 CNN에의 입력 화상의 해상도는 선별처리에 의해, 예를 들면, 180×120 [pixels]으로 더 감소한다.
스텝 S272에서는, 표정 인식부(102)가, 얼굴이 검출되었는지 아닌지를 판단한다. 얼굴이 검출된 경우(스텝 S272에서 YES)에는, 처리가 스텝 S273로 진행된다. 얼굴이 검출되지 않은 경우(스텝 S272에서 NO)에는, 처리가 스텝 S270로 되돌아가서, 다음 프레임의 화상 데이터에 대해서 같은 처리를 행한다.
스텝 S273에서는, 소정 특징량 추출부(110)가, 얼굴 위치 검출을 위한 제1 CNN에 의해 추출된 얼굴 및 눈 위치를 사용해서 콧구멍 특징점 추출 범위를 설정한다.
스텝 S274에서는, 소정 특징량 추출부(110)가, 스텝 S273에서 설정된 추출 범위에 의거하여 콧구멍 특징점을 추출한다.
스텝 S275에서는, 소정 특징량 추출부(110)가, 얼굴의 위치를 판정하기 위한 CNN을 이용해서 취득한 눈 및 입 위치와, 스텝 S274에서 추출한 콧구멍 특징점 위치를 사용하여, 콧구멍 특징점 이외의 특징점 추출 범위를 설정한다.
스텝 S276에서는, 소정 특징량 추출부(110)가, 스텝 S275에서 설정된 추출 범위에 의거하여 제2 CNN을 사용해 특징점을 추출한다. 특징점을 추출하기 위한 제2 CNN에의 입력 화상의 해상도는, 예를 들면 360 × 240 [pixels]이다.
스텝 S277에서는, 소정 특징량 추출부(110)가, 스텝 S273 내지 S276에서의 처리에 의해 모든 특징점이 추출되었는지 아닌지를 판정한다. 모든 특징점이 추출된 경우(스텝 S277에서 YES)에는, 처리가 스텝 S278로 진행된다. 모든 특징점이 추출되지 않은 경우(스텝 S277에서 NO)에는, 처리가 스텝 S270로 되돌아가서, 다음 프레임에 대해서 같은 처리를 행한다.
스텝 S278에서는, 특징량 변화량 산출부(111)가, 미리 준비된 무표정인 참조 얼굴과의 비교에 의해 특징량 변화량을 산출하고, 그 변화량에 따라 그들을 정규화한다. 즉, 화상 데이터에 있어서의 특징점의 레이아웃에 의거하여 이 특징점의 위치를 보정한다. 이 무표정인 참조 얼굴의 데이터는, HD(395)등의 기억장치에 미리 기억되어 있다.
스텝 S279에서는, 표정 판정부(112)가, 표정을 판정하기 위한 NN을 이용해서 표정을 판정한다. NN은 뉴럴 네트워크(Neural Network)라는 점에 유념한다.
이하, 각 기능 구성에 있어서의 처리를 설명함으로써 각 스텝에 있어서의 처리를 상세히 설명한다.
[얼굴 위치 검출부(101)]
다음에, 얼굴 위치 검출부(101)의 기능을 상세히 설명한다. 얼굴 위치 검출부(101)는, 화상 데이터에 있어서의 얼굴의 특정 부분의 위치(얼굴 위치)를, 얼굴의 윤곽에 의거하여 검출한다.
얼굴 위치 검출부(101)는 화상 입력부(100)에 의해 버퍼에 기억된 화상 데이터를 취득하고, 사전 처리로서 선별 처리에 의한 해상도 변경과, 조명 조건의 영향 을 경감시키기 위한 히스토그램 보정을 행한다. 얼굴 위치 검출부(101)는, CNN에 보정된 화상 데이터를 입력한다.
상술한 바와 같이, 화상 입력부(100)가 취득한 화상 데이터는 버퍼에 일시적으로 기억된다. 얼굴 위치 검출부(101)는, 선별 처리에 의해 1화소 걸러서 버퍼로부터 화상 데이터를 판독한다. 예를 들면, 버퍼링된 화상 데이터의 해상도가 720×480 [pixels]인 경우, 얼굴 위치 검출부(101)는 선별 처리에 의해 360×240 [pixels]의 해상도를 갖는 화상 데이터를 취득한다.
다음에, 이하에 서술하는 히스토그램 보정을 실행한다. 도 3에 나타낸 바와 같이, 입력 화상의 휘도값 히스토그램(130)을 작성한다. 도 3은 히스토그램 보정을 도식적으로 나타낸 도면이다. 휘도값 히스토그램(130)은 입력 화상(화상 데이터)의 각 화소의 휘도값의 분포를 나타낸다. 횡좌표는 휘도값을 나타내고, 종좌표는 화소 수(도수(degree))를 나타낸다.
휘도값 히스토그램으로부터 곡선의 끝(최대 및 최소 휘도값)에서의 휘도값 X 131 및 Y 132를 추출한다. 곡선의 끝에 있는 추출한 휘도값 131 및 132가 각각, 예를 들면 255 및 0이 되도록 비선형 함수(133)을 사용해서 휘도값을 변환한다. 이 비선형 함수로서는, 미리 음영 등의 조명조건의 영향을 감소시키는 함수, 즉, 저휘도 영역의 계조를 향상시키는 함수가 선택되어, 정보 처리 장치에서 설정된다.
이상과 같이, 저휘도 영역의 계조를 향상시키기 위해 휘도를 보정하는 경우, 촬영 조건에 관계없이 정확히 화상 인식을 행할 수가 있다.
어떤 다른 방법으로든지 히스토그램 보정을 행해도 된다. 예를 들면, 미리 휘도값의 상한값 및 하한값을 설정해 둔다. 휘도값이 하한값 이하인 화소를 휘도값 "0"으로 변환한다. 휘도값이 상한값 이상인 화소를 휘도값 "255"로 변환한다. 휘도값이 하한값과 상한값 사이에 있는 화소를, 휘도값이 하한값 이하인 화소, 또는 휘도값이 상한값 이상인 화소에 의거하여 적당하게 변환한다. 이러한 변환 방법을 적용하는 것도 가능하다.
CNN의 각 계층 특징은 다수의 뉴런을 포함한다. 본 실시 예의 경우, 1개의 뉴런 출력은 화상 데이터의 하나의 화소의 특징 검출 결과를 나타낸다. 예를 들면, 주어진 계층 특징에 이전 계층 특징이 1개만 결합되어 있는 경우(CNN의 서브 샘플링층 혹은 특징 풀링층)를 생각한다. 이 경우, 도 4에 나타낸 바와 같이, 이전 계층 특징의 복수 뉴런 120과 그들에 대응하는 하중 계수 데이터와의 곱-합 연산에 의해, 계층의 1개의 뉴런 121의 내부 상태 값을 얻을 수 있다. 도 4는, 주어진 계층 특징의 1개의 뉴런과 이전 계층 특징의 복수 뉴런과의 결합 관계를 나타낸 도면이다.
하나의 뉴런이 결합되어 있는 이전 계층의 뉴런 수는, 특정한 특징을 추출하기 위해서 결정되는 각 특징의 수용 필드 사이즈에 의존해서 변화한다. 예를 들면, 어떤 특징을 얻는데 필요한 수용 필드 사이즈가 3×5인 경우, 도 5에 나타낸 바와 같이, 이전 계층에 있어서의 3×5 뉴런값(122)과 3×5 하중 계수와의 곱-합 연산으로 1개의 뉴런의 내부 상태값(124)가 산출된다. 도 5는, 주어진 계층 특징의 인접하는 각각의 뉴런을 산출하는데 필요한 이전 계층 뉴런과의 결합 관계를 나타낸 도면이다.
뉴런 내부 상태값(124)에 바로 인접한 뉴런값(125)를, 이전 계층에서 복수 뉴런값(122)으로부터 1화소씩 시프트시킨 영역의 복수의 뉴런(123)과 하중 계수와의 곱-합 연산에 의해 산출할 수 있다. 즉, 이전 계층에 있어서 수용 필드라고 불리는 영역을 수직 및 수평으로 1화소씩 시프트시키고, 각 수용 필드에 위치한 복수의 뉴런값과 하중 계수 데이터 세트와의 곱-합 연산을 반복함으로써 콘볼루션(convolutional) 연산을 실행한다. 이 처리에 의해, 현 계층에 있어서의 모든 뉴런의 내부 상태값을 얻을 수 있다. 도 2에 나타낸 바와 같이, 주어진 계층 특징에 복수의 이전 계층 특징이 결합되어 있는 경우(CNN의 특징 검출층)에는, 결합되어 있는 이전 계층 특징에서 취득한 내부 상태값의 총합은 1개의 뉴런의 내부 상태값과 같다.
하중 계수 데이터는, 미리 주어진 감독 데이터(supervisory data)를 사용해 학습함으로써 취득된다. 감독 데이터에 따라 다양한 특징을 갖는 CNN(계층 특징)을 작성할 수 있다. 예를 들면, 얼굴의 위치를 검출하기 위한 CNN의 감독 데이터 그룹에, 조명 변동, 사이즈 변동, 및 회전 변동 등의 다양한 변동을 주어 학습을 행한 경우, 조명 변동 등만의 특정한 변동만을 주어서 학습을 행한 경우와 비교해서 위치 검출 정밀도가 떨어진다. 그 대신, 이들 변동에 강건한 얼굴 검출 CNN(계층 특징)을 작성할 수 있다. 또한, 예를 들면, V자형 눈 끝점의 데이터만을 감독 데이터 그룹으로서 줌으로써, V자형 눈 끝 위치만을 정확히 검출할 수 있는 계층 특징을 작성할 수 있다.
본 실시 예에 따른 CNN의 각 계층에 대해서 설명한다. 도 2에 나타낸 입력층 에의 입력 화상, 즉 화상 데이터에 있어서의 얼굴 위치를 특정하는 CNN에 입력된 화상 데이터의 해상도는, 처리 부담을 경감하기 위해서 선별처리에 의해 180×120 [pixels]로 저하된다.
본 실시 예의 CNN은, 도 2에 나타낸 바와 같이, 3개의 계층을 갖는다. 제1 계층 레벨(제1 계층 201)은 기울기(대각선의 우측 오름, 대각선의 우측 내림)에지, 수평 에지, 및 수직 에지의 총 4개의 특징을 추출하여, 얼굴의 윤곽을 인식한다. 제2 계층 레벨(제2 계층 202)은, 눈 및 입 위치 특징을 추출한다.
제3 계층 레벨(제3 계층 203)은 얼굴 위치를 추출한다. 얼굴 위치는, 도 9에 나타낸 바와 같이, 눈 영역의 중심 위치 160 및 161과, 입 영역의 중심위치 163과, 얼굴 영역의 중심 위치 162와, (후술하는) 콧구멍 위치 등의 얼굴 화상에 있어서의 미리 정의된 특정 부분을 포함한다. 도 9는 얼굴의 위치를 검출하기 위한 CNN로부터 취득한 얼굴, 좌우 눈, 및 입 중심 위치를 나타낸 모식도다.
즉, 본 실시 예에 따른 CNN의 네트워크 구성은, 복수의 저차(lower-order) 특징(에지 레벨) 검출 결과를 조합함으로써 중차(medium-order) 특징(눈 및 입) 위치를 추출한 후, 중차 특징(눈 및 입) 검출 결과로부터 고차(higher-order) 특징(얼굴 위치) 위치를 추출한다.
상술한 바와 같이, 미리 감독 데이터를 사용해서 학습한 하중 계수를 사용하고 있기 때문에 이들 특징이 검출된다. 얼굴을 검출하기 위한 CNN에 있어서 학습에 사용된 감독 데이터는, 사이즈 변동, 회전 변동, 조명 변동, 및 형상 변동 등의 다양한 변동의 화상 데이터에 의거하여 생성되어 있다. 이 때문에, 이들 복수의 변동 의 경우에도 얼굴, 눈 및 입 위치를 검출할 수 있는 강건한 네트워크가 구축된다.
화상 데이터 학습은, 예를 들면, 단일의 물체(얼굴)에 대해서, 이하의 조건 하에 변동하는 환경에서 취득한 화상에 근거하여 행해질 수 있다.
(1) 사이즈가 3배까지 변동한다.
(2) 수직, 수평 및 깊이 방향으로 45°이내로 회전 변동이 발생한다.
(3) 면 내에 있어서의 회전 변동은 수평방향으로 45°이내로 발생한다.
(4) 실내 및 실외 조명 환경 하에서 촬영한 화상에서 조명조건이 변동한다.
(5) 눈 및 입의 형상이 수직 및 수평 방향으로 변동한다.
눈, 입, 및 얼굴의 중심의 주변영역을 그들의 정답 위치로서 간주하도록 해서 학습을 하도록 네트워크를 구성할 수 있다. 즉, 눈, 입, 및 얼굴의 정답 위치는, 눈, 입, 및 얼굴 검출 위치의 곱-합 연산 결과의 임계값 처리를 행하여, 임계값 이상의 국소 영역의 중심 위치를 산출함으로써 취득될 수 있다. 눈과 입의 위치는, 얼굴의 위치가 결정되는 경우에만 결정된다. 즉, 눈과 입의 위치를 검출하기 위한 곱-합 연산 및 임계값 처리에 있어서, 눈과 입의 위치의 후보를 검출한다. 얼굴의 위치를 결정하기 위한 곱-합 연산과 임계값 처리에 의해 얼굴 위치가 결정되는 경우에만, 눈과 입의 위치가 결정된다.
CNN의 계층 수, 특징 수, 및 각 특징 간의 결합 관계를 변경해도 된다. 예를 들면, 임계값 처리 및 중심 산출 이외의 최대 뉴런값을 사용하는 그 밖의 방법은 눈, 입, 및 얼굴 특징의 뉴런 값에 근거한 위치 정보를 산출해도 된다. 화상 입력부로부터 취득한 화상 데이터의 해상도는 720 × 480 [pixels]에 한정되지 않는다. 얼굴의 위치를 검출하기 위한 CNN에의 입력 화상의 해상도도 180×120 [pixels]에 한정되지 않는다.
[소정 특징량 추출부(110)]
다음에, 표정 인식부(102)에 포함된 소정 특징량 추출부(110)에 관하여 설명한다. 후에 상세히 설명되는 것처럼, 소정 특징량 추출부(110)는, 얼굴 위치 검출부(101)에 의해 검출된 얼굴 위치에 의거하여 화상 데이터에 영역을 설정한다. 소정 특징량 추출부(110)는 설정된 영역 내에서 얼굴의 특징점을 탐색한 후에, 탐색된 특징점에 의거하여 표정을 판정한다.
상기한 바와 같이, 본 실시 예의 구성은, 얼굴 위치 검출부(101)가 화상에 근거해 얼굴 위치를 검출하기 위한 CNN(제1 CNN)과, 표정 인식부(102)가 표정 인식에 필요한 특징점을 얻기 위한 CNN(제2 CNN)의 2개의 네트워크를 사용한다. 소정 특징량 추출부(110)는, 얼굴 위치 검출부(101)에 의해 취득된 눈, 입, 및 얼굴 검출 위치와 입력 화상에 의거하여 제2 CNN이 표정 인식에 필요한 특징점을 추출하게 한다. 표정 인식에 필요한 특징점을 추출하기 위한 제2 CNN은 도 7에 나타낸 구성을 갖는다. 도 7은, 특징점을 추출하기 위한 CNN의 구성을 나타낸 도면이다.
특징점을 추출하기 위한 제2 CNN에의 입력 화상은 얼굴의 위치를 특정하는 제1 CNN의 사전처리에 의해 취득된 히스토그램 보정된 화상이다. 화상 해상도는 360×240 [pixels]이다. 특징점을 추출하기 위한 제2 CNN는, 얼굴의 위치를 검출하기 위한 제1 CNN과 달리, 선별처리 없이 360×240 [pixels]의 고해상도를 갖는 입력 화상을 처리한다. 이것은, 화상 영역 중의 작은 영역에 존재하는 특징점을 정확 하게 추출해야 하기 때문이다. 특징점을 추출하기 위한 제2 CNN의 입력 화상 해상도는 360×240 [pixels]에 한정되지 않는다.
특징점을 추출하기 위한 제2 CNN은 도 7에 나타낸 바와 같이, 2계층 레벨(701, 702)을 갖는다. 제1 계층 레벨 701은 기울기(대각선의 우측 오름, 대각선의 우측 내림)에지, 수평 에지, 및 수직 에지의 총 4개의 특징을 추출한다. 제2 계층 레벨 702는, 도 8에 나타낸 바와 같이, 표정 인식에 필요한 특징점(좌우 눈썹의 특징점 140∼145, 좌우 눈의 특징점 146∼153, 콧구멍 특징점 154, 입 특징점 155∼158을 추출하기 위해서, 각 특징점에 대응하여 CNN의 1개의 특징을 준비한다. 도 8은, 추출되는 각 특징점을 나타낸 모식도다.
특징점을 추출하기 위한 제2 CNN에 관해서도, 얼굴을 검출하기 위한 제1 CNN과 마찬가지로, 감독 데이터에 근거하여 학습으로 취득한 하중 계수를 사용해서 특징점을 정확하게 취득할 수 있다. 특징점을 추출하기 위한 제2 CNN은, 얼굴 위치를 검출하기 위한 제1 CNN과는 달리, 특정한 변동만의 학습 데이터를 사용한다. 따라서, 얼굴을 검출하기 위한 제1 CNN의 높은 검출 로버스트성을 갖고 있지 않지만, 특징점을 추출하기 위한 제2 CNN의 특징 위치 검출 정밀도는 매우 높다.
본 실시 예에 있어서는, 눈과 입의 형상 변동과 조명 변동 등의 특정 변동만을 가진 화상을 사용해서 학습을 행한다. 그러나, 본 발명은 이것에 한정되지 않는다. 예를 들면, 조명 변동만을 가진 화상에 근거한 학습은, 특징점 추출 정밀도를 저하시키지 않고, 조명 변동 폭을 변화시킴으로써 취득한 화상, 즉 다양한 조명 환경 하에서의 화상을 사용해서 행해져도 된다. 조명 변동과 사이즈 변동 등의 그 외 의 특정 변동만을 가진 화상을 사용해서 학습을 실행해도 된다. 사이즈 변동, 회전 변동, 및 조명 변동의 각각에 대응하여 단일의 특징점에 대한 특징을 준비해도 된다. 얼굴을 검출하기 위한 제1 CNN과 마찬가지로, 특징점을 추출하기 위한 제2 CNN의 계층수, 특징 수, 및 각 특징 간의 결합 관계를 변경해도 된다. 특징점을 추출하기 위한 CNN은, 1개의 특징으로부터 1개의 특징점을 항상 추출할 필요는 없다. 오른쪽 눈의 눈초리(V자형)와 왼쪽 눈의 눈구석(V자형) 등의 유사한 특징들의 특징점을 CNN의 동일한 특징으로부터 추출해도 된다.
소정 특징량 추출부(110)는, 특징점을 추출하기 위한 제2 CNN을 이용하여, 각 계층의 각 특징의 처리 영역을 한정하여, 연산을 실행한다. 구체적으로, 소정 특징량 추출부(110)는 얼굴의 위치를 검출하기 위한 제1 CNN(얼굴 위치 검출부(101))에 의해 산출된 얼굴 위치에 의거하여 각 특징점을 추출하기 위한 처리 영역 한정 범위를 결정한다. 이러한 얼굴 위치는, 예를 들면, 도 9에 나타낸 바와 같이, 눈 영역의 중심위치 160 및 161과, 입 영역의 중심 위치 163과, 얼굴 영역의 중심 위치 162와, (후술의) 콧구멍 위치를 포함한다.
(영역 한정 처리)
다음에, 콧구멍 중심위치를 추출하기 위해서 소정 특징량 추출부(110)가 실행하는 영역 한정 처리를, 도 10을 참조해서 자세히 설명한다. 도 10은, 콧구멍 위치를 얻기 위한 콧구멍 중심위치 산출 범위(중심 산출 범위)와, 중심산출 범위를 얻는데 필요한 곱-합 연산 범위와, 중심산출 범위를 얻는데 필요한 입력 화상 범위를 나타낸 모식도다.
도 10을 참조하면, 영역 173은 중심 산출 범위를 나타낸다. 도 10에 나타낸 바와 같이, 중심산출 범위 173은 오른쪽 눈 검출 위치 170 및 왼쪽 눈 검출 위치 171에 의거하여 결정된 수평 범위를 갖는 직사각형 영역이다. 중심산출 범위 173의 수직 범위는, 오른쪽 눈 검출 위치 170 또는 왼쪽 눈 검출 위치 171과, 입 검출 위치 172에 의거하여 결정된다.
중심산출 범위 173은 취득한 뉴런 값으로부터 중심위치를 산출하기 위해 이용된다. 중심 산출 범위 173에서 중심을 산출하기 위해서는, 중심산출 범위 173 내에 뉴런 값이 존재해야 한다. 중심산출 범위 173 내에 뉴런 값이 존재하기 위해서 필요한 입력 화상 데이터의 최소한의 영역은, 콧구멍을 검출하기 위한 수용 필드 사이즈와 제1 계층의 각 특징의 수용 필드 사이즈를 사용해서 계산될 수 있다.
더 구체적으로, 콧구멍 위치 중심 산출 범위 173에서 뉴런 값을 얻기 위해서는, 콧구멍을 검출하기 위한 수용 필드 사이즈의 1/2정도 확장된 영역 174의 제1 계층의 특징 뉴런 값이 필요하다. 따라서, 제1 계층 레벨의 각 특징은 영역 174의 뉴런 값을 필요로 한다. 제1 계층에 있어서 영역 174의 뉴런 값을 얻기 위해서는, 제1 계층의 각 특징을 검출하기 위한 수용 필드 사이즈의 1/2정도 확장된 영역 175의 입력 화상 데이터가 필요하다. 이렇게 하여, 콧구멍 위치 중심 산출 범위에 필요한 최소한의 입력 화상 데이터 영역을 산출할 수 있다. 콧구멍 위치는, 이들 한정된 범위 내에서, 상술한 바와 같이, 이전 계층의 뉴런 값과 하중 계수의 곱-합 연산을 실행한 후에, 임계값 처리와 중심위치 검출을 행함으로써 산출될 수 있다.
도 11에 나타낸 오른쪽 콧구멍 중심위치 176, 왼쪽 콧구멍 중심위치 177, 좌 우 콧구멍의 중심위치, 및 코밑 에지 178 중 어느 하나를 콧구멍 중심 위치로서 산출해도 된다. 도 11은, 좌우 콧구멍 위치와 코밑 에지를 나타낸 모식도다.
학습할 때에, 콧구멍 위치로서 설정되는 부분을 포함하는 영역을 수용 필드로서 설정한다. 콧구멍 위치로서 설정되는 부분을 포함하는 영역의 중심위치로 학습 정답점을 설정함으로써 학습을 행해도 된다. 도 12a, 도 12b, 도 12c는, 좌우 콧구멍 위치의 중심과, 오른쪽 콧구멍 위치의 중심과, 코밑 에지의 중심을 산출하는데 필요한 수용 필드를 나타낸 모식도다.
예를 들면, 콧구멍 위치로서 좌우 콧구멍의 중심위치를 산출하기 위해서는, 도 12a에 나타낸 바와 같이, 좌우 콧구멍을 포함하는 영역을 수용 필드로서 설정한다. 학습 정답점을 좌우 콧구멍의 중심위치로 설정해서 학습을 행한다. 콧구멍 위치로서 오른쪽 콧구멍의 중심위치 176을 산출하기 위해서는, 도 12b에 나타낸 바와 같이, 오른쪽 콧구멍을 포함하는 영역을 수용 필드로서 설정한다. 학습 정답점을 오른쪽 콧구멍의 중심위치로 설정해서 학습을 행한다. 콧구멍 위치로서 코밑 에지 178을 산출하기 위해서는, 도 12c에 나타낸 바와 같이, 코밑 에지를 포함하는 영역을 수용 필드로서 설정한다. 학습 정답점을 코밑 에지의 중심위치로서 설정해서 학습을 행한다. 본 실시 예에서는, 좌우 콧구멍의 중심위치를 콧구멍 위치로서 산출한다. 이하에 설명하는 나머지의 특징점은, 콧구멍 위치에 대한 상대 위치로 표현된다.
(특징점 중심 산출 범위 설정 처리)
다음에 콧구멍 특징점 이외의 특징점을 추출하기 위한 특징점 중심 산출 범 위를 설정하는 처리를 도 13 내지 18과, 도 20을 참조해서 설명한다. 도 13 내지 도 18은 중심산출 범위를 나타낸 도면이며, 더 구체적으로, 좌우 눈썹 끝점 특징점, 좌우 눈썹 중점 특징점, 좌우 눈 끝점 특징점, 좌우 눈의 상하 에지의 특징점, 입 끝점 특징점, 및 입의 상하 에지의 특징점을 각각 얻기 위한 중심 산출 범위를 나타낸 도면이다. 도 20은 모든 특징점을 얻기 위해 필요한 최소한의 입력 화상 영역을 나타낸 도면이다. 이하의 설명에 있어서, 오른쪽 눈 검출 위치 181과 왼쪽 눈 검출 위치 182 사이의 거리를 L로서 정의한다. 수평 위치를 X축 위치로서 정의하고, 수직 위치를 Y축 위치로서 정의한다.
좌우 눈썹의 각 특징점을 추출하기 위한 중심 산출 범위에 관하여 설명한다. 도 13을 참조하면, 도 8의 특징점 140을 추출하기 위한 영역 183은, "오른쪽 눈 검출 위치 181의 x좌표 - L/2"로부터 "오른쪽 눈 검출 위치 181의 x좌표"까지의 수평 길이를 갖는 x축 영역과, "오른쪽 눈 검출 위치 181의 y좌표 - L/2"로부터 "오른쪽 눈 검출 위치 181의 y좌표"까지의 수직 길이를 갖는 y축 영역을 포함하도록 정의되어 있다. 도 8의 특징점 142를 추출하기 위한 영역 184는, "오른쪽 눈 검출 위치 181의 x좌표"로부터 "콧구멍 위치 180의 x좌표"까지의 수평 길이를 갖는 x축 영역과, "오른쪽 눈 검출 위치 181의 y좌표 - L/2"로부터 "오른쪽 눈 검출 위치 181의 y좌표"까지의 수직 길이를 갖는 y축 영역을 포함하도록 정의되어 있다.
도 14를 참조하면, 도 8의 특징점 141을 추출하기 위한 영역 187은, "오른쪽 눈 검출 위치 181의 x좌표 - L/4"로부터 "오른쪽 눈 검출 위치 181의 x좌표 + L/4"까지의 수평 길이를 갖는 x축 영역과, "오른쪽 눈 검출 위치 181의 y좌표 - L/2"로 부터 "오른쪽 눈 검출 위치 181의 y좌표"까지의 수직 길이를 갖는 y축 영역을 포함하도록 정의되어 있다. 왼쪽 눈썹 특징점 추출 영역 185, 186, 188은 오른쪽 눈썹 특징점 추출 영역 183, 184, 187과 같이 설정되어 있다.
다음에, 좌우 눈의 각 특징점을 추출하기 위한 중심산출 범위에 관하여 설명한다. 도 15를 참조하면, 도 8의 특징점 146을 추출하기 위한 영역 189는, "오른쪽 눈 검출 위치 181의 x좌표 - L/2"로부터 "오른쪽 눈 검출 위치 181의 x좌표"까지의 수평 길이를 가진 x축 영역과, "오른쪽 눈 검출 위치 181의 y좌표 - L/2"로부터 "오른쪽 눈 검출 위치 181의 y좌표 + L/2"까지의 수직 길이를 가진 y축 영역을 포함하도록 정의되어 있다. 도 8의 특징점 149를 추출하기 위한 영역 190은, "오른쪽 눈 검출 위치 181의 x좌표"로부터 "콧구멍 위치 180의 x좌표"까지의 수평 길이를 가진 x축 영역과, "오른쪽 눈 검출 위치 181의 y좌표 - L/2"로부터 "오른쪽 눈 검출 위치 181의 y좌표 + L/2"까지의 y축 영역을 포함하도록 정의되어 있다.
도 16을 참조하면, 특징점 147을 추출하기 위한 영역 193은, "오른쪽 눈 검출 위치 181의 x좌표 - L/8"로부터 "오른쪽 눈 검출 위치 181의 x좌표 + L/8"까지의 수평 길이를 갖는 x축 영역과, "오른쪽 눈 검출 위치 181의 y좌표 - L/4"로부터 "오른쪽 눈 검출 위치 181의 y좌표"까지의 수직 길이를 가진 y축 영역을 포함하도록 정의되어 있다. 도 8의 특징점 148을 추출하기 위한 영역 194는, "오른쪽 눈 검출 위치 181의 x좌표 - L/8"로부터 "오른쪽 눈 검출 위치 181의 x좌표 + L/8"까지의 수평 길이를 가진 x축 영역과, "오른쪽 눈 검출 위치 181의 y좌표"로부터 "오른쪽 눈 검출 위치 181의 y좌표 + L/4"까지의 수직 길이를 가진 y축 영역을 포함하도 록 정의되어 있다. 왼쪽 눈 특징점 추출 영역 191, 192, 195, 196은 오른쪽 눈 특징점 추출 영역 189, 190, 193, 194과 같이 설정된다.
다음에 입의 각 특징점을 추출하기 위한 중심산출 범위에 관하여 설명한다. 이하, 도 17의 콧구멍 위치 180과 입 검출 위치 197 사이의 거리를 L1로서 정의한다. 수평 위치는 x축 위치로서 정의되고, 수직 위치는 y축 위치로서 정의된다.
도 17을 참조하면, 도 8의 특징점 155를 추출하기 위한 영역 198은, "입 검출 위치 197의 x좌표 - 2L/3"로부터 "입 검출 위치 197의 x좌표"까지의 수평 길이와, "입 검출 위치 197의 y좌표 - L1"로부터 "입 검출 위치 197의 y좌표 + L1"까지의 수직 길이를 갖도록 정의되어 있다. 도 8의 특징점 158을 추출하기 위한 영역 199는, "입 검출 위치 197의 x좌표"로부터 "입 검출 위치 197의 x좌표 + 2L/3"까지의 수평 길이와, "입 검출 위치 197의 y좌표 - L1"로부터 "입 검출 위치 197의 y좌표 + L1"까지의 수직 길이를 갖도록 정의되어 있다.
도 18을 참조하면, 도 8의 특징점 156을 추출하기 위한 영역 200은, "입 검출 위치 197의 x좌표 - L/4"로부터 "입 검출 위치 197의 x좌표 + L/4까지의 수평 길이와, "콧구멍 위치 180의 y좌표"로부터 "입 검출 위치 197의 y좌표"까지의 수직 길이를 갖도록 정의되어 있다. 도 8의 특징점 157을 추출하기 위한 제1 계층 201은, "입 검출 위치 197의 x좌표 - L/4"로부터 "입 검출 위치 197의 x좌표 + L/4"까지의 수평 길이와, "입 검출 위치 197의 y좌표"로부터 "입 검출 위치 197의 y좌표 + L1"까지의 수직 길이를 갖도록 정의되어 있다.
상술한 바와 같이, 소정 특징량 추출부(110)는, 얼굴 위치 검출부(101)에 의해 검출된 촬영 대상의 얼굴 위치에 의거하여 특징점을 추출하기 위한 각 중심 산출 범위를 결정한다. 상술한 바와 같이, 각 특징점을 얻기 위한 수용 필드 사이즈와 제1 계층의 각 특징의 수용 필드 사이즈를 사용하여, 입력 화상에 있어서 도 20의 해칭 영역 210과 같이 최소한의 필요한 입력 화상 데이터 영역을 산출한다. 이들 영역은 한정되기 때문에, 특징점을 추출할 때의 CNN에 대한 처리 부담을 경감할 수 있다.
상술한 구성은, 현 프레임에서의 얼굴 검출용의 제1 CNN으로 취득한 얼굴 검출 위치, 좌우 눈 검출 위치, 입 검출 위치, 및 콧구멍 위치에 근거하여 특징점을 추출하기 위한 영역을 설정한다. 그러나, 본 발명은 이것에 한정되지 않는다. 예를 들면, 이전 프레임에서 추출된 각 특징점(예를 들면, 이전 프레임에서 추출된 콧구멍 위치 및 특징점)에 근거해서 각 특징점을 추출해도 된다. 또한, 특징점 간의 복수의 위치에 근거해서 영역을 설정해도 된다. 본 발명은 상술한 영역 설정 범위에 한정되지 않는다.
상기 설명에서는, 특징점 좌표를 콧구멍 검출 위치(도 8의 특징점 154)에 대한 상대 위치로서 나타낸다. 그러나, 본 발명은 이것에 한정되지 않는다. 예를 들면, 특징점 후보를, 얼굴 검출 위치 또는 눈구석 특징점(도 8의 특징점 149 또는 150)에 대한 상대 위치로서 나타내어도 된다.
(특징량)
다음에 취득한 특징점으로부터 표정을 인식하는데 필요한 특징량을 도 8 및 19를 참조해서 설명한다. 도 19는 이마, 미간 및 볼 영역을 나타낸 도면이다.
본 실시 예에서는, 표정을 인식하기 위해서 이하의 특징량을 추출해서 이용한다. 다만, 이하에 열거한 특징량은 예시이며, 용도 및 목적에 따라 어떤 다른 값을 특징량으로서 사용할 수 있다.
눈썹의 형상(예를 들면, 도 8의 특징점 140 및 141을 연결하는 선분과, 특징점 141 및 142를 연결하는 선분으로 이루어진 각도(기울기) 및/또는 특징점 143 및 144를 연결하는 선분과, 특징점 144 및 145를 연결하는 선분으로 이루어진 각도(기울기)).
좌우 눈썹 사이의 거리(도 8의 특징점 142과 143 사이의 거리).
눈썹과 눈 사이의 거리(도 8의 특징점 140과 특징점 146 사이의 거리, 특징점 141과 147 사이의 거리, 특징점 142과 149 사이의 거리, 특징점 143과 150 사이의 거리, 특징점 144와 151 사이의 거리, 특징점 145과 153 사이의 거리).
눈 끝점과 입 끝점 사이의 거리(도 8의 특징점 146과 155 사이의 거리, 특징점 153과 158 사이의 거리).
눈 끝점 사이의 거리(도 8의 특징점 146과 149 사이의 거리, 특징점 150과 153 사이의 거리).
눈 영역의 상하 에지 사이의 거리(도 8의 특징점 147과 148 사이의 거리, 특징점 151과 152 사이의 거리).
입 끝점 사이의 거리(도 8의 특징점 155과 158 사이의 거리).
입 영역의 상하 에지 사이의 거리(도 8의 특징점 156과 157 사이의 거리).
이마 및 미간 영역의 주름(도 19의 영역 220과 221의 에지 밀도).
좌우 볼 영역의 주름(도 19의 영역 222와 223의 에지 밀도).
도 19의 이마 및 미간 영역 220은, 예를 들면, "오른쪽 눈 검출 위치 181의 x좌표"로부터 "콧구멍 위치 180의 x좌표"까지의 수평 길이를 가진 x축 영역과, "오른쪽 눈 검출 위치 181의 y좌표 - 2L/3"로부터 "오른쪽 눈 검출 위치 181의 y좌표"까지의 수직 길이를 가진 y축 영역을 포함하는 직사각형 영역이다. 오른쪽 눈 검출 위치 181과 왼쪽 눈 검출 위치 182 사이의 거리는 L이다. 볼 영역 222는, 예를 들면, "콧구멍 위치 180의 x좌표 - L"로부터 "콧구멍 위치 180의 x좌표"까지의 수평 길이를 가진 x축 영역과, "콧구멍 위치 180의 y좌표 - L/4"로부터 "입 검출 위치 197의 y좌표"까지의 수직 길이를 가진 y축 영역을 포함하는 직사각형 영역이다.
에지 밀도는, 예를 들면 CNN의 제1 계층에 의해 에지 특징 추출의 결과에 의거하여 상기 영역 내에서 에지에 포함된 화소 수를 카운트하고, 화소의 수를 상기 영역의 면적으로 제산함으로써 산출될 수 있다.
[특징량 변화량 산출부(111)]
다음에 특징량 변화량 산출부(111)에 관하여 설명한다. 특징량 변화량 산출부(111)는, 미리 준비된 무표정 얼굴 화상과 현 프레임의 얼굴 화상 간의 각 특징량의 비를 산출함으로써 각 특징량의 변화량을 산출한다. 또한, 특징량 변화량 산출부(111)는 화상 중의 얼굴의 사이즈와 회전 변동에 따라, 특징량 변화량을 정규 화한다. 상술한 바와 같이, 정규화는 화상 데이터에 있어서의 특징점의 레이아웃에 의거하여 이 특징점의 위치를 보정한다.
각 변동은, 도 21에 나타낸 바와 같이, 오른쪽 눈구석 특징점 230의 검출 위치와 눈구석 중점 233 사이의 거리 a1과, 왼쪽 눈구석 특징점 231의 검출 위치와 눈구석 중점 233 사이의 거리 b1과, 콧구멍 위치 232의 검출 위치와 눈구석 중점 233 사이의 거리 c1에 의거하여 검출된다. 미리 설정된(준비된) 무표정 얼굴 화상 있어서의 오른쪽 눈구석 특징점과 눈구석 중점 233 사이의 거리와, 왼쪽 눈구석 특징점과 눈구석 중점 233 사이의 거리와, 콧구멍 위치와 눈구석 중점 233 사이의 거리를 각각 a, b, c로 표기한다.
얼굴의 사이즈 변동은, 도 22에 나타낸 현 프레임으로부터 취득한 검출 위치들 사이의 거리 a1(도 22의 240), b1(도 22의 241), c1(도 22의 242)와, 미리 설정된 무표정 얼굴 화상으로부터 취득한 검출 위치들 사이의 거리 a, b, c와의 비를 산출함으로써 판정된다. 도 22는 사이즈 변동이 발생한 경우의 좌우 눈 영역과 얼굴 영역의 중심위치를 나타낸 도면이다. 예를 들면, a:b:c = a1:b1:c1과, a:a1 = 1:2인 경우에, 얼굴의 사이즈 변동은 2배다. 이 경우, 각 산출된 특징량 변화량을 1/2배 함으로써 정규화가 행해진다.
얼굴의 수평 회전 변동은, 예를 들면, 도 23에 나타낸 현 프레임 화상에서의 a2 : b2(도 23의 250과 251)과 미리 준비된 무표정 정면 얼굴 화상에서의 a:b을 비교함으로써 산출될 수 있다. 도 23은 수평 회전 변동이 발생한 경우의 좌우 눈 영역과 얼굴 영역의 중심위치를 나타낸 도면이다.
예를 들면, 도 23에 나타낸 바와 같이, 좌측으로 회전된 얼굴을 인식하는 경우를 생각한다. 다만, 미리 준비된 무표정 정면 얼굴 화상에 있어서는 a:b = 5:5, 현 프레임 화상에 있어서는 a2:b2 = 5:3(도 23의 250과 251)라고 가정한다. 이 경우, 왼쪽 눈썹 끝점 사이의 거리와, 왼쪽 눈 끝점 사이의 거리와, 입 끝점 사이의 거리의 좌측 방향 회전에 영향이 있는 수평 특징량을 (a2/b2)/(a/b)배 함으로써 정규화를 행할 수 있다. 왼쪽 눈썹 끝점 사이의 거리는, 예를 들면 도 8의 특징점 143과 145 사이의 거리다. 왼쪽 눈 끝점 사이의 거리는, 예를 들면 도 8의 특징점 150과 153 사이의 거리다. 입 끝점 사이의 거리는, 예를 들면 도 8의 특징점 155과 158 사이의 거리다.
눈썹 형상은, 특징점 143 및 144로부터 산출된 수평 영역과, 특징점 144 및 145로부터 산출된 수평 영역을 (a2/b2)/(a/b)배 함으로써 정규화될 수 있다.
얼굴의 수직 회전 변동은, 현 프레임의 얼굴 화상에서의 거리 c3(도 24의 262)와, 미리 준비된 무표정한 정면 얼굴 화상에서의 거리 c의 비에 의거하여 결정될 수 있다. 도 24는, 수직 회전 변동이 발생한 경우의 좌우 눈 영역과 얼굴영역의 중심위치를 나타낸 모식도다. 예를 들면, a/a3 = b/b3 = 1, c:c3 = 2:1인 경우에, 얼굴을, 수직 방향으로만 변동시킨다. 이 경우, 정규화는, 눈 끝점과 입 끝점 사이의 거리와, 눈썹과 눈 사이의 거리와, 눈 영역의 상하 에지 사이의 거리와, 입 영역의 상하 에지 사이의 거리 등의 수직 특징량을 c3/c배 함으로써 취득한 값을 변화량으로서 사용함으로써 실행될 수 있다.
눈 끝점과 입 끝점 사이의 거리는, 예를 들면 도 8의 특징점 146과 155 사이 의 거리와 특징점 153과 158 사이의 거리를 포함한다. 눈썹과 눈 사이의 거리는, 예를 들면 도 8의 특징점 140과 146 사이의 거리와, 특징점 141과 147 사이의 거리와, 특징점 142과 149 사이의 거리와, 특징점 143과 150 사이의 거리와, 특징점 144과 151 사이의 거리와, 특징점 145과 153 사이의 거리를 포함한다. 눈 영역의 상하 에지 사이의 거리는, 예를 들면 도 8의 특징점 147과 148의 사이의 거리와, 특징점 151과 152 사이의 거리를 포함한다. 입 영역의 상하 에지 사이의 거리는, 예를 들면 도 8의 특징점 156과 157 사이의 거리를 포함한다.
이상과 같이 구성함으로써, 오른쪽 눈구석 특징점과, 왼쪽 눈구석 특징점과, 콧구멍 위치를 사용해서 각 변동을 검출할 수 있다. 회전과 사이즈 변동의 양쪽이 생긴 경우에도, 상술한 것과 같은 처리(오른쪽 눈구석 특징점과, 왼쪽 눈구석 특징점과, 콧구멍 위치를 사용)을 사용해서 특징량을 정규화할 수 있다. 상술한 정규화처리는 단지 일례이며, 본 발명은 이것에 한정되지 않는다. 예를 들면, 오른쪽 눈 검출 위치와, 왼쪽 눈 검출 위치와, 얼굴 검출 위치 등의 얼굴의 각 파트 또는 그 외의 특징점을 사용해서 각 변동을 검출하고, 각 특징량 변화량을 정규화해도 된다.
[표정 판정부(112)]
다음에 표정 판정부(112)에 대해서 도 25를 참조해서 설명한다. 도 25는 표정을 판정하기 위한 CNN의 구성을 나타낸 모식도다.
표정 판정부(112)는, 도 25에 나타낸 바와 같이, 특징량 변화량 산출부(111)에 의해 정규화된 특징량 변화량을 수신하는 입력층 2501과, 중간층 2502과, 표정 판정 결과를 출력하는 출력층 2503을 포함하는 3층의 뉴럴 네트워크를 사용해서 판정을 실행한다. 본 실시 예의 구성에서는, 입력층에의 각 특징량 변화량 및 출력층으로부터의 표정 판정 결과에, 각각 1개의 뉴런이 할당되어 있다.
입력층 2501은 정규화된 특징량 변화량을 수신한다. 본 실시 예에 있어서, 입력층 2501은, 예를 들면 22개의 특징을 수신한다.
"눈썹의 형상" 특징량 변화량 (4).
"좌우 눈썹 사이의 거리" 특징량 변화량 (1).
"눈썹과 눈 사이의 거리" 특징량 변화량 (6).
"눈 끝점과 입 끝점 사이의 거리" 특징량 변화량 (2).
"눈 끝점 사이의 거리" 특징량 변화량 (2).
"눈 영역의 상하 에지 사이의 거리" 특징량 변화량 (2).
"입 끝점 사이의 거리" 특징량 변화량 (1).
"입 영역의 상하 에지 사이의 거리" 특징량 변화량 (1).
"이마 및 미간 영역의 주름(에지 밀도)" 특징량 변화량 (1).
"좌우 볼 영역의 주름(에지 밀도)" 특징량 변화량 (2).
중간층(은닉층) 2502는 표정 판정에 필요한 중간적인 처리를 실행한다. 본 실시 예에서는, 중간층 2502가 10개의 뉴런(특징)을 포함한다.
출력층 2503은 중간층 2502로부터의 입력에 의거하여 표정을 판정한다. 본 실시 예에 있어서, 출력층 2503은, "기쁨", "노여움", "슬픔", "동정", "무표정", "근심", "놀람" 등의 표정을 출력하도록 8개의 특징(뉴런)을 포함한다.
인식 대상의 얼굴이 어떤 표정을 형성하면, 특정한 특징량 변화량이 증감한다. 예를 들면, "기쁨"의 표정에 있어서는, 무표정 상태와 비교하면 다음과 같이 특징량 변화량이 증감한다. 눈의 끝점과 입의 끝점 사이의 거리(도 8의 146과 155 사이, 153과 158 사이)의 변화량이 감소한다. 입 끝점 사이의 거리(도 8의 155과 158 사이)의 변화량과, 볼 영역의 에지 밀도(도 19의 영역 222 및 223의 에지 밀도)의 변화량과, 눈초리와 눈구석 사이의 거리(도 8의 146과 149 사이, 150과 153 사이)의 변화량이 증가한다.
증가 또는 감소하는 특징량 변화량의 종류와 특징량 변화량의 증감량에 근거하여 인식 대상 얼굴의 표정을 판정할 수 있다. 본 실시 예에서는, 각 표정에 대응하여 각 특징량 변화량에 대한 임계값을 설정한다. 이 임계값과 검출된 특징량 변화량과의 비교에 의거하여 NN에 표정을 학습시킨다. 학습은, 각 특징량 변화량과 임계값과의 크기 관계에 의거하여 판정된 표정에 대응한 뉴런이 "1"을 출력하도록 행해진다. 다만, 출력층 2503의 출력 값의 범위는 0∼1이다.
예를 들면, "기쁨"의 표정에 대응하여, 특징량 변화량의 임계값을 아래와 같이 설정한다. 다만, 무표정 상태의 특징량 변화량은 "1"이다.
ㆍ눈의 끝점과 입의 끝점 사이의 거리(도 8의 146과 155 사이, 153과 158 사이)의 변화량: 0.7
ㆍ입 끝점 사이의 거리(도 8의 155과 158 사이)의 변화량(특징량 변화량 2):1.2
ㆍ볼 영역의 에지 밀도(도 19의 영역 222 및 223의 에지 밀도)의 변화량(특 징량 변화량 4):1.2
ㆍ눈초리와 눈구석 사이의 거리(도 8의 146과 149 사이, 150과 153 사이)의 변화량(특징량 변화량 5):1.1
ㆍ나머지의 특징량 변화량:1.0
눈의 끝점과 입의 끝점 사이의 거리의 변화량의 값이 임계값(0.7) 이하이고, 입 끝점 사이의 거리의 변화량과, 볼 영역의 에지 밀도의 변화량과, 눈초리와 눈구석 사이의 거리의 변화량이, 임계값(1.2, 1.2, 1.1) 이상인 경우에, NN은 "기쁨"을 학습한다. 즉, "기쁨"에 대응하는 뉴런이 "1" 또는 1에 가까운 값을 출력하도록 NN이 학습한다. 상기의 임계값은 테이블(113)에 기억되어 있다. 도 40은 테이블(113)의 내용을 예시한 도면이다. 표정 판정부(112)는, 테이블(113)을 참조해서 뉴런의 학습을 제어한다. 테이블(113)은 HD(395)등의 기억장치에 미리 정의되어 있다.
학습은, 입력층에의 입력에 대응하여 NN의 출력층 2503에 감독 데이터를 줌으로써 행해진다. 따라서, 표정 판정부(112)는, 특징량 변화량을 수신하여 출력층에서의 표정을 판정하는 뉴런을 참조함으로써 표정을 판정할 수 있다.
입력층 2501, 중간층 2502, 출력층 2503의 구성은 상술한 구성에 한정되는 것은 아니다. 예를 들면, 입력층 2501에의 입력과, 출력층 2503으로부터의 출력에 대해서, 미리 임계값을 설정해도 된다. 그 임계값 이상의 값을 "1"로서 정의하고, 그 임계값 이하의 값을 "0"으로서 정의하여, "0" 및 "1"의 값을 입력 또는 출력한다. 판정되는 표정은 "기쁨"에 한정되지 않는다. 예를 들면, "분노", "슬픔", "동정", "무표정", "근심", 및 "놀람" 등을 판정해도 된다.
표정 판정을 위한 NN의 출력층은, 강한 값(상한값에 가까운 값)을 가진 복수의 특징을 출력하는 경우도 있다. 이 경우에, 강한 값을 출력하는 뉴런 그룹에 의거하여 표정을 판정한다. 예를 들면, "기쁨"과 "슬픔"의 표정을 취득하는 경우, 즉, "기쁨"에 대응하는 뉴런과 "슬픔"에 대응하는 뉴런이 함께 강한 값을 출력하는 경우에는, 표정이 "기쁜 울음"과 비슷하다고 판정된다. 출력층 2503에 포함된 복수의 뉴런이 강한 값을 출력한 경우에, 표정 판정은, 예를 들면 다음과 같이 행해질 수 있다. 강한 값을 출력하고 있는 뉴런의 그룹과 표정과의 대응관계를 기억한 테이블을 HD(395)등의 기억장치에 준비해 둔다. 이 테이블을 참조해서 표정을 판정할 수 있다.
상술한 구성에 있어서는, 예를 들면, 특징량에 미리 설정된 가중치를 곱한 후에 상기 판정을 행해도 된다. 표정 판정에 대한 구성은 상술한 방법에 근거한 구성에 한정되지 않는다. 다른 방법에 근거한 표정 판정 처리에 대해서, 도 26 내지 28을 참조해서 설명한다. 도 26은, 표정 "기쁨"을 판정하기 위해서 각 특징량 변화량으로부터 득점을 산출할 때의 각 특징량 변화량의 중량(가중치)을 도시한 테이블이다. 도 27은, 각 특징량 변화량으로부터 산출된 득점의 분포를 도시한 그래프이다. 도 28은 미리 준비된 표정 "기쁨"에 대한 득점 분포 템플릿을 도시한 그래프이다.
우선, 도 26에 나타낸 바와 같이, 각 표정에 따라 특징량 변화량에 가중치를 준다. 산출된 가중치와 각 특징량 변화량의 곱으로부터 특징량에 대응하여 득점을 산출한다. 산출된 득점에 의거하여 표정 득점 분포를 작성한다. 작성된 표정 득점 분포와, 미리 설정해 둔 각 표정에 대한 득점 분포 템플릿을 비교한다. 득점 분포가 유사한 템플릿에 대응하는 표정을, 인식 대상 물체로서의 얼굴이 나타내는 표정이라고 판정한다.
예를 들면, "기쁨" 표정을 판정하기 위한 산출된 득점 분포를 도 27에 나타낸 득점 분포라고 간주한다. 도 27의 득점 분포와 유사한 미리 설정된 득점 분포의 템플릿을, 도 28의 "기쁨"의 표정에 대응하는 템플릿이라고 간주한다. 이 경우에는, 표정을 "기쁨"이라고 판정한다.
상기한 바와 같이, 본 실시 예에 따른 촬상장치에 있어서는, 화상 데이터에 있어서의 얼굴의 특정 부분의 위치(얼굴 위치)를, 얼굴의 윤곽에 의거하여 검출한다. 검출된 얼굴 위치에 의거하여 특징점을 검색하기 위한 영역을 설정한다. 화상 데이터의 모든 영역이 아니라, 설정된 영역 내에서만 특징점을 탐색한다. 이에 따라, 효율적으로 탐색 작업을 행할 수 있다.
본 실시 예에 따른 촬상장치에 있어서는, 저해상도 화상 데이터를 사용해서 얼굴 위치를 검출한다. 특징점의 탐색은 고해상도 화상 데이터를 사용해서 행한다. 특징점을 효율적으로 탐색하여, 정확히 추출할 수 있기 때문에, 정확히 표정을 판정할 수 있다.
본 실시 예에 따른 촬상장치에 있어서는, 2개의 네트워크(뉴럴 네트워크)를 사용함으로써, 다양한 변동이 생긴 경우에도 정확히 특징점을 추출할 수 있다. 또한, 이들 특징점을 정확히 추출함으로써 얼굴 특징의 변화가 매우 작은 표정 변화도 인식할 수 있다.
<<제2 실시 예>>
제1 실시 예에 있어서는, 미리 등록된 무표정인 참조 얼굴의 특징량과, 인식 대상 얼굴의 특징량을 비교한다. 산출된 특징량의 변화량에 의거하여 표정을 판정한다. 그러나, 표정 판정 방법은 이것에 한정되지 않는다. 제2 실시 예에 있어서는, 측정된 화상의 각 프레임을 해석해서, 취득된 움직임 벡터에 의거하여 표정의 변화를 판정하는 구성에 대해서 설명한다. 본 실시 예의 정보 처리 장치는 제1 실시 예와 같은 하드웨어 구성을 갖는다.
[정보 처리 장치의 기능 구성]
우선, 본 실시 예에 따른 물체 인식을 위한 기능 구성에 대해서, 도 30을 참조해서 설명한다. 도 30은, 본 실시 예에 따른 정보 처리 장치의 기능 구성을 나타낸 블록도다.
도 30에 나타낸 바와 같이, 본 실시 예의 정보 처리 장치의 기능 구성은, 화상 입력부(300), 얼굴 위치 검출부(301), 및 표정 인식부(302)를 포함한다. 화상 입력부(300)와 얼굴 위치 검출부(301)에서의 처리는 제1 실시 예와 같기 때문에, 그것의 설명은 생략한다.
도 31은, 표정 인식부(302)의 기능 구성을 나타낸 블록도다. 본 실시 예에 있어서, 도 31에 나타낸 바와 같이, 표정 인식부(302)는, 소정 특징점 추출부(310)와, 움직임 벡터 산출부(311)와, 표정 판정부(312)를 구비한다. 표정 판정부(312)는, 움직임 벡터와 표정 변화와의 대응관계를 기억한 테이블 313을 참조해서 뉴런에게 표정 변화 판정을 학습시킨다. 소정 특징점 추출부(310)에서의 처리는 제1 실 시 예와 같기 때문에, 그 설명을 생략한다. 본 실시 예에서는, 특징점 좌표를 얼굴의 검출 위치에 근거해서 나타낸다. 그러나, 본 발명은 이것에 한정되지 않는다.
움직임 벡터 산출부(311)는, 얼굴 위치 검출부(301)에 의해 검출된 얼굴 위치에 근거하여, 얼굴의 위치에서 시점을 갖고, 특징점에서 종점을 갖는 각 움직임 벡터를 산출한다. 표정 판정부(112)는, 제1 실시 예와 마찬가지로, NN을 사용해서 표정을 판정한다.
[전체 처리]
다음에 본 실시 예의 구성에 의해 실행되는 전체 처리에 대해서 도 36을 참조해서 설명한다. 도 36은, 본 실시 예에 따른 전체 처리의 순서를 나타낸 플로차트다.
스텝 S320에서는, 얼굴 위치 검출부(301)가, 화상 입력부(300)에 의해 취득된 화상 데이터의 선별 처리 및 히스토그램 보정 처리를 행한다. 선별 처리 후의 화상 해상도는, 예를 들면 360×240 [pixels]이다.
스텝 S321에서는, 얼굴 위치 검출부(301)가, CNN을 사용해서 화상 중의 얼굴 위치를 판정한다. 얼굴 위치를 판정하기 위한 CNN에의 입력 화상의 해상도는 선별 처리에 의해, 예를 들면 180×120 [pixels]로 더 감소한다.
스텝 S322에서는, 표정 인식부(302)가 얼굴이 검출되었는지 아닌지를 판정한다. 얼굴이 검출된 경우(스텝 S322에서 YES)에는, 처리가 스텝 S323로 진행된다. 얼굴이 검출되지 않은 경우(스텝 S322에서 NO)에는, 처리가 스텝 S320로 되돌아가서, 다음 프레임의 화상 데이터에 대해서 같은 처리를 행한다.
스텝 S323에서는, 소정 특징량 추출부(310)가, 얼굴 위치 검출을 위한 제1 CNN에 의해 추출된 얼굴 및 눈 위치를 사용해서 콧구멍 특징점 추출 범위를 설정한다.
스텝 S324에서는, 소정 특징량 추출부(310)가 스텝 S323에서 설정된 추출 범위에 의거하여 제2 CNN을 사용해서 특징점을 추출한다. 특징점을 추출하기 위한 제2 CNN에의 입력 화상의 해상도는, 예를 들면 360×240 [pixels]이다.
스텝 S325에서는, 소정 특징량 추출부(310)가, 스텝 S323 및 S324에서의 처리에 의해 모든 특징점이 추출되었는지 아닌지를 판정한다. 모든 특징점이 추출된 경우(스텝 S325에서 YES)에는, 처리가 스텝 S326로 진행된다. 모든 특징점이 추출되지 않은 경우(스텝 S325에서 NO)에는, 처리가 스텝 S320로 되돌아가서, 다음 프레임에 대해서 같은 처리를 행한다.
스텝 S326에서는, 움직임 벡터 산출부(311)가, 이전 프레임에서 산출된 벡터와 현 프레임에서 산출된 벡터를 비교해서 특징점의 움직임 벡터를 산출한다.
스텝 S327에서는, 스텝 S326에서 산출된 움직임 벡터에 근거하여, 표정을 판정하기 위한 NN을 이용해서 표정을 판정한다. 그리고 처리를 종료한다.
이하, 각 기능 구성에 있어서의 처리를 설명함으로써 각 스텝에 있어서의 처리를 상세히 설명한다.
[움직임 벡터 산출부(311)]
다음에 움직임 벡터 산출부(311)의 기능에 대해서 상세히 설명한다. 움직임 벡터 산출부(311)는, 얼굴 위치 검출부(301)에 의해 검출된 얼굴 위치에 근거하여, 얼굴의 위치에서 시점을 갖고, 특징점에서 종점을 갖는 움직임 벡터를 산출한다. 이 움직임 벡터의 수는 도 8에 나타낸 콧구멍 특징점 이외의 특징점의 수와 같다.
움직임 벡터의 산출에 대해서는 도 32를 참조해서 설명한다. 도 32는, 얼굴 검출 위치에서 시점을 갖고, t[frame] 및 t+1 [frame] 화상에 있어서 오른쪽 눈초리 특징점에서 종점을 갖는 벡터를 나타낸 모식도다.
도 32를 참조하면, 참조번호 3201은 기준점으로서의 얼굴 검출 위치, 3202는 t[frame]에 있어서의 눈초리 특징점, 3203은 t+1[frame]에 있어서의 눈초리 특징점이다. 도 32에 나타낸 바와 같이, t[frame]과 t+1[frame]에 있어서, 얼굴 검출 위치 3201을 시점으로서 설정하고, 눈초리 특징점 3202 및 3203을 종점으로서 설정함으로써 벡터 c 및 b를 정의한다. 움직임 벡터 a는 a = b - c로서 정의된다.
도 33은, 움직임 벡터의 산출을 나타낸 모식도다. 나머지의 특징점에 관해서도 같은 방법으로 움직임 벡터를 산출한다. 콧구멍 특징점을 제외한 총 18개의 움직임 벡터를 산출한다. t[frame]과 t+1[frame]을 사용하는 대신에, 프레임 레이트(frame rate)에 따라 t[frame]과 t+2[frame] 혹은 t+3[frame]을 사용해서 움직임 벡터를 산출해도 된다.
산출한 움직임 벡터의 방향과 사이즈는, 변동에 의해서 변화된다. 사이즈의 변화에 대응하기 위한 정규화 처리를 행한다. 예를 들면, 눈구석간 거리 |f|에 근거하여 각 벡터의 사이즈를 나타낸다.
예를 들면, 도 34를 참조하면, 정규화의 기준으로서 벡터 f을 정의하면, 벡터 d를, 정규화 후에 d/|f|로 나타낼 수 있다. 사이즈가 변동하고, 눈구석간 거 리가, 도 35에 나타낸 바와 같이 |g|로 변화한 경우에는, 도 35의 벡터 e를, 정규화 후에 e/|g|로 나타낼 수 있다. 이러한 정규화에 의해, 눈 및 입 등의 얼굴 특징의 변화없이, 사이즈만이 변동하는 경우에는, 벡터 d는 벡터 e와 같다. 이 때문에, 촬영 각도로 인한 인식 오차를 억제할 수 있다.
수평 회전 변동이 발생한 경우에는, 도 34의 벡터의 수평 성분만이 변화된다. 도 34의 벡터 d의 수평 성분 d2의 크기를 회전 변동에 따라 정규화한다. 정규화에 있어서, 제1 실시 예에서 설명한 바와 같이, 얼굴 검출 위치와 좌우 눈 검출 위치를 사용함으로써 회전을 검출하고, 검출된 회전에 의거하여 특징점의 레이아웃을 수정한다.
예를 들면, 도 23에서는, 회전 방향 영역에서의 특징점으로부터 취득한 각 벡터의 수평 성분을 a2/b2배로 한다. 도 33에 나타낸 바와 같이, b - c = a로부터 움직임 벡터 a을 산출한다. 다만, 회전 방향 영역에서의 특징점은, 예를 들면 도 8의 특징점 143, 144, 145, 150, 151, 152, 153, 및 158이다.
수직 회전 변동에 있어서도, 콧구멍 특징점 이외의 모든 특징점으로부터 취득한 벡터의 각각의 수직 성분 d1의 크기를 c/c3배로 한다. 그 후에, 도 33에 나타낸 바와 같이, b - c = a로부터 움직임 벡터 a을 산출한다.
각 특징점으로부터 산출된 벡터의 시점은 상술한 얼굴 검출 위치에 한정되지 않는다. 또한, 콧구멍 특징점 위치(도 8의 특징점 154)와, 눈구석 특징점(도 8의 특징점 149 및 150)과, 얼굴 검출 CNN으로 취득한 눈 검출 위치(도 9의 오른쪽 눈 검출 위치 160 및 왼쪽 눈 검출 위치 161)와, 입 검출 위치(도 9의 163)를 사용해 도 된다.
[표정 판정부(312)]
다음에 표정 판정부(312)에 관하여 설명한다. 표정 판정부(312)는, 제1 실시 예와 마찬가지로 NN을 사용해서 표정을 판정한다. 제1 실시 예에서는, HD(395)등의 기억장치에 미리 준비해 둔 무표정 얼굴과의 비교에 의해 취득한 정규화된 22개의 특징량 변화량을 입력한다. 제2 실시 예에 있어서는, 예를 들면, 18개의 움직임 벡터의 수평 성분 및 수직 성분, 즉, 총 36개의 벡터의 사이즈와 방향을 NN으로 입력한다. 예를 들면, 움직임 벡터(4,-3)는 수평성분 +4과 수직성분 -3으로 분해될 수 있다. 벡터 성분의 사이즈와 방향을 입력한다.
다른 한편으로, 출력은 "0"부터 "1"까지의 값을 출력하는 8개의 표정 판정 뉴런을 포함한다. 출력계의 뉴런은 제1 실시 예의 뉴런과 같다. 표정의 학습에 관하여 설명한다. 제1 실시 예에서 설명한 바와 같이, 인식 대상 물체로서 기능을 하는 얼굴이 어떤 표정을 나타내는 경우, 특정한 특징량 변화량이 증감한다. 인식 대상 물체로서 기능을 하는 얼굴이 어떤 표정을 나타내는 경우, 움직임 벡터도 특정한 방향과 사이즈를 갖는다. 이 때문에, 어떤 표정을 나타내는 특정한 움직임 벡터의 방향과 사이즈가 입력층의 특징에 입력될 때에, 출력층에서 이 표정을 나타내는 뉴런이 "1"에 가까운 값을 출력하게 한다. 이렇게 함으로써 학습을 수행할 수가 있다.
테이블 313은, 움직임 벡터의 각 파라미터(예를 들면, 방향 및 사이즈를 나타내는 값)와 표정과의 대응관계를 기억한다. 도 41은 테이블 313의 내용을 나타낸 도면이다. 표정 판정부(312)는 테이블 313을 참조해서 뉴런의 학습을 제어한다. 예를 들면, 미리 정의된 움직임 벡터 1의 파라미터 1이 증가 경향에 있고, 파라미터 2가 감소하는 경향이 있는 경우에는, "기쁨"의 출력 레벨을 증가시키도록 학습을 제어한다. 테이블(113)은 HD(395)등의 기억장치에 미리 정의해 둔다.
상기한 바와 같이, 본 실시 예에 따른 구성에 있어서는, 서로 인접하는 프레임에 있어서의 특징점에 의거하여 산출된 움직임 벡터에 의거하여 표정을 판정한다. 이렇게 함으로써, 표정의 변화를 효율적으로 검출할 수 있다.
<<제3 실시 예>>
제1 및 제2 실시 예에 있어서는, 정보 처리 장치로서 PC, WS, PDA 등을 상정한다. 그러나, 본 발명은 이것에 한정되지 않는다. 예를 들면, 디지털 카메라 등의 촬상장치로 상기와 같은 구성을 실현해도 된다.
본 실시 예의 구성은, 디지털 카메라(카메라) 등의 촬상장치에 얼굴 검출 및 표정 인식 기능을 내장하여 피사체가 미리 설정된 원하는 표정(예를 들면, "기쁨")을 나타내는 것을 자동적으로 검출하고, 자동적으로 그것을 기록하는 것을 가능하게 한다. 또한, 기록한 화상을 표시한다.
도 37은, 제3 실시 예에 따른 정보 처리 장치의 기능 구성을 나타낸 블록도다. 도 37에 나타낸 바와 같이, 본 실시 예의 정보 처리 장치는, 화상 입력부(400), 얼굴 위치 검출부(401), 표정 인식부(402), 화상 표시부(403), 및 화상 기억부(404)를 구비한다.
화상 입력부(400)와, 얼굴 위치 검출부(401)와, 표정 인식부(402)는, 제1 및 제2 실시 예에서 설명한 것과 같은 처리를 행한다.
화상 표시부(403)는, 표정 인식부(402)에 의해 미리 설정된 표정을 짓고 있다고 판정된 화상을 디스플레이(397)에 표시한다. 즉, RAM(392)등의 버퍼 메모리에 일시적으로 기억된 화상 데이터를 디스플레이(397)에 표시한다. 이때, 화상 데이터를 수 화소씩 인터레이스(interlace)해서, 표시해도 된다. 이 경우, 고속의 표시가 가능하다.
화상 기억부(404)는, 디스플레이(397)에 표시한 화상 데이터를 RAM 또는 메모리(예를 들면, 플래시 메모리)(394)등의 기억장치에 기억한다.
[전체 처리]
다음에 본 실시 예의 구성에 의해 실행되는 전체 처리에 대해서 도 38을 참조해서 설명한다. 도 38은, 본 실시 예에 따른 전체 처리의 순서를 나타낸 플로차트다.
스텝 S410에서는, 얼굴 위치 검출부(401)가, 화상 입력부(400)에 의해 취득된 화상 데이터의 선별 처리 및 히스토그램 보정 처리를 행한다. 선별 처리 후의 화상 해상도는, 예를 들면 360×240 [pixels]이다.
스텝 S411에서는, 얼굴 위치 검출부(401)가, CNN을 사용해서 화상 중의 얼굴 위치를 판정한다. 이 얼굴 위치를 판정하기 위한 CNN에의 입력 화상의 해상도는 선별처리에 의해 예를 들면 180×120 [pixels]로 더 감소한다.
스텝 S412에서는, 표정 인식부(402)가 얼굴이 검출되었는지 아닌지를 판정한다. 얼굴이 검출된 경우(스텝 S412에서 YES)에는, 처리가 스텝 S413로 진행된다. 얼굴이 검출되지 않은 경우(스텝 S412에서 NO)에는, 처리가 스텝 S410으로 되돌아가서, 다음 프레임의 화상 데이터에 대해서 같은 처리를 행한다.
스텝 S413에서는, 표정 인식부(402)가, 얼굴 위치 검출을 위한 제1 CNN을 이용해서 추출된 얼굴 및 눈 위치를 사용해서 콧구멍 특징점 추출 범위를 설정한다.
스텝 S414에서는, 표정 인식부(402)가, 스텝 S413에서 설정된 각 추출 범위에 의거하여 제2 CNN을 사용해서 특징점을 추출한다. 특징점을 추출하기 위한 제2 CNN에의 입력 화상의 해상도는, 예를 들면 360×240 [pixels]이다.
스텝 S415에서는, 표정 인식부(402)가, 스텝 S413 및 S414의 처리에 의해 모든 특징점이 추출되었는지 아닌지를 판정한다. 모든 특징점이 추출된 경우(스텝 S415에서 YES)에는, 처리가 스텝 S416로 진행된다. 모든 특징점이 추출되지 않은 경우(스텝 S415에서 NO)는, 처리가 스텝 S410로 되돌아가서, 다음 프레임에 대하여 같은 처리를 행한다.
스텝 S416에서는, 표정 인식부(402)가, 이전 프레임에서 산출된 벡터와 현 프레임에서 산출된 벡터를 비교함으로써 각 특징점의 움직임 벡터를 산출한다.
스텝 S417에서는, 스텝 S416에서 산출된 움직임 벡터에 근거하여, 표정을 판정하기 위한 NN을 이용해서 표정을 판정한다.
스텝 S418에서는, 스텝 S417에서 표정이 인식되었는지 아닌지를 판정한다. 표정이 인식된 경우(스텝 S418에서 YES)에는, 처리가 스텝 S419로 진행된다. 표정이 인식되지 않은 경우(스텝 S418에서 NO)에는, 처리가 스텝 S410로 되돌아가서, 처리를 계속한다.
스텝 S419에서는, 표정이 인식된 화상 데이터를 디스플레이(397)에 표시한다. 이 표시는, 필요에 따라 저해상도로 행해진다. 화상 데이터와 함께, 표시된 화상 데이터를 미디어(394)등의 기억장치에 기억할 것인지 아닌지를 유저가 선택가능한 유저 인터페이스를 디스플레이(397)에 표시한다.
스텝 S420에서, 유저가, 화상 데이터의 기억을 선택한 경우(스텝 S420에서 YES)에는, 처리는 스텝 S421로 진행된다. 기억이 선택되지 않은 경우(스텝 S420에서 NO)에는, 처리가 스텝 S410로 되돌아가서, 처리를 계속한다.
스텝 S421에서는, 화상 데이터를 고해상도로 미디어(394)(예를 들면, 플래시 메모리)에 기억한다. 그리고 처리를 종료한다.
스텝 S418 내지 S421에 있어서의 처리는, 예를 들면, 이하의 방식에 따라 실행해도 된다. 디스플레이(397)에 표시 및/또는 미디어(394)등의 기억장치에 기억되는 표정을 미리 설정해 둔다. 스텝 S418에서는, 인식 대상의 화상이 미리 설정된 표정을 갖도록 인식되는지 아닌지를 판정한다. 표정이 인식된 경우(스텝 S418에서 YES)에는, 처리가 스텝 S419로 진행된다. 표정이 인식되지 않은 경우(스텝 S418에서 NO)에는 처리는 스텝 S410으로 되돌아간다.
스텝 S419에서는, 화상 데이터를 디스플레이(397)에 표시한다. 이 처리는 스텝 S420를 스킵하면서 스텝 S421로 진행된다.
스텝 S421에서는, 화상 데이터를 미디어(394)등의 기억장치에 기억한다.
상술한 바와 같이, 본 실시 예에 따른 촬상장치는 화상 데이터의 표정을 자동적으로 인식하고, 미리 설정된 표정에 대응하는 화상 데이터만을 표시 및 기억한 다. 이에 따라, 유저는 셔터의 찬스를 놓치지 않고 원하는 화상을 촬영할 수 있다.
<<그 외의 실시 예>>
이상, 본 발명의 실시 예에 대해서 상세히 설명했다. 본 발명은, 시스템, 장치, 방법, 프로그램 혹은 기억매체 등의 형태를 취할 수 있다. 구체적으로는, 본 발명은 복수의 기기를 포함하는 시스템, 또는 하나의 기기를 포함하는 장치에 적용가능하다.
본 발명은, 상술한 실시 예의 기능을 실현하는 프로그램을, 시스템 혹은 장치에 직접 혹은 원격으로 공급하고, 그 시스템 혹은 장치의 컴퓨터가 상기 공급된 프로그램 코드를 판독해서 실행하게 함으로써도 달성된다.
따라서, 컴퓨터로 본 발명의 기능 처리를 실현하기 위해서 컴퓨터에 인스톨되는 프로그램 코드 자체도 본 발명의 기술적 범위에 포함된다. 즉, 본 발명은, 본 발명의 기능 처리를 실현하기 위한 컴퓨터 프로그램도 포함한다.
그 경우, 프로그램은, 프로그램의 기능을 취득할 수 있는 한, 오브젝트 코드(object code), 인터프리터에 의해 실행되는 프로그램, 또는 OS에 공급하는 스크립트 데이터 등의 어떤 형태든지 취할 수 있다.
프로그램을 공급하기 위한 기록 매체로서는, 예를 들면, 플로피(등록상표) 디스크, 하드 디스크, 광디스크, 광자기 디스크, MO, CD-ROM, CD-R, CD-RW, 자기 테이프, 비휘발성의 메모리 카드, ROM, 또는 DVD(DVD-ROM 또는 DVD-R) 등이 포함된다.
다른 프로그램의 공급 방법으로서는, 클라이언트 컴퓨터의 브라우저를 사용 해서 인터넷상의 홈페이지에 클라이언트 컴퓨터를 접속하고, 본 발명의 컴퓨터 프로그램 자체 또는 자동 인스톨 기능을 포함하는 압축된 파일을, 상기 홈페이지로부터 하드 디스크 등의 기록 매체로 다운로드해도 된다. 본 발명의 프로그램에 포함된 프로그램 코드를 복수의 파일로 분할하고, 각각의 파일을 다른 홈 페이지로부터 다운로드해도 된다. 즉, 본 발명의 기능 처리를 컴퓨터로 실현하기 위한 프로그램 파일을 복수의 유저로 하여금 다운로드하게 하는 WWW 서버도, 본 발명의 청구항에 포함된다.
다음과 같은 공급 형태도 이용가능하다. 본 발명의 프로그램을 암호화해서 CD-ROM 등의 기억매체에 기억시키고, 유저에게 배포한다. 소정의 조건을 만족시키는 어떤 유저든지, 인터넷을 통해서 홈 페이지로부터 해독 열쇠 정보를 다운로드하고, 그 열쇠 정보를 사용해서 암호화된 프로그램을 실행시키며, 그 프로그램을 컴퓨터에 인스톨시키도록 허용되어도 된다. 상술한 공급 형태도 이용가능하다.
컴퓨터로, 판독한 프로그램을 실행하는 경우뿐만 아니라, 그 프로그램의 지시에 근거하여, 예를 들면, 컴퓨터상에서 가동하고 있는 OS 등이, 실제의 처리의 일부 또는 전부를 수행하는 경우에도 상술한 실시 예의 기능이 실현된다.
기록 매체로부터 판독된 프로그램이, 컴퓨터에 삽입된 기능 확장 보드 또는 컴퓨터에 접속된 기능 확장 유닛의 메모리에 기록되고, 그 프로그램의 지시에 근거하여 기능 확장 보드 또는 기능 확장 유닛의 CPU 등이 실제의 처리의 일부 또는 전부를 수행하는 경우에도, 상술한 실시 예의 기능이 실현된다.
본 발명은 예시한 실시 예를 참조하여 설명되었지만, 본 발명은 예시한 실시 예에 한정되는 것이 아니라는 것을 이해해야 한다. 이하의 특허청구범위는 그러한 변형과 균등 구성 및 기능을 모두 포함하도록 가장 넓게 해석되어야 한다.
이상에서 설명한 바와 같이 본 발명에 의하면, 다양한 촬영조건 하에 매우 정확하게 얼굴을 인식하는 기술을 제공할 수 있다.

Claims (16)

  1. 얼굴을 포함하는 화상 데이터를 입력하도록 구성된 입력부와,
    상기 화상 데이터로부터, 상기 얼굴의 특정 부분의 위치를 검출하도록 구성된 제1 검출부와,
    상기 검출된 특정 부분의 위치에 의거하여 상기 화상 데이터로부터 상기 얼굴의 특징점을 검출하도록 구성된 제2 검출부와,
    상기 검출된 특징점에 의거하여 상기 얼굴의 표정을 판정하도록 구성된 판정 부를 구비하고,
    상기 제2 검출부는 상기 제1 검출부의 검출 정밀도보다 더 높은 검출 정밀도를 갖고, 상기 제1 검출부는 검출 대상의 변동에 강건한 것을 특징으로 하는 정보 처리 장치.
  2. 제 1 항에 있어서,
    상기 제1 검출부는 상기 제2 검출부에 의해 처리되는 화상 데이터보다 더 낮은 해상도를 가진 화상 데이터에 의거하여 상기 얼굴의 특정 부분의 위치를 검출하는 것을 특징으로 하는 정보 처리 장치.
  3. 제 1 항에 있어서,
    소정의 표정을 가진 얼굴의 화상 데이터를 기억하도록 구성된 기억부를 더 구비하고,
    상기 판정부는, 상기 입력 화상 데이터에 있어서의 특징점을 사용해서 산출된 제1 특징량과, 상기 기억부에 기억된 화상 데이터에 있어서의 특징점을 사용해서 산출된 제2 특징량과의 차와 비 중 하나에 의거하여 제1 표정을 판정하는 것을 특징으로 하는 정보 처리 장치.
  4. 제 3 항에 있어서,
    상기 판정부는 상기 특징량에 미리 설정된 가중치를 곱한 후에 상기 판정을 실행하는 것을 특징으로 하는 정보 처리 장치.
  5. 제 1 항에 있어서,
    상기 입력 화상 데이터는 복수의 프레임을 포함하는 동화상을 포함하고,
    상기 제1 검출부는, 상기 프레임의 각각에 있어서 상기 얼굴의 특정 부분의 위치를 검출하며,
    상기 제2 검출부는 상기 프레임의 각각에 있어서 상기 얼굴의 특징점을 검출하고,
    상기 판정부는, 서로 인접하는 프레임들 사이에서 상기 특징점의 변동에 의거하여 상기 얼굴의 표정의 변화를 판정하는 것을 특징으로 하는 정보 처리 장치.
  6. 제 1 항에 있어서,
    상기 입력 화상 데이터의 휘도를 보정하여 저휘도 영역의 계조를 향상시키도록 구성된 보정부를 더 구비하는 것을 특징으로 하는 정보 처리 장치.
  7. 제 1 항에 있어서,
    상기 특정 부분은, 얼굴 영역의 중심, 눈 영역의 중심, 입 영역의 중심, 콧구멍 중심 위치, 코 에지, 및 피부색 영역의 중심 중 적어도 하나인 것을 특징으로 하는 정보 처리 장치.
  8. 제 1 항에 있어서,
    상기 특징점은, 콧구멍 중심, 코 에지의 중심, 눈썹의 끝점, 눈썹의 상하 특징점, 눈썹의 중점, 눈의 끝점, 눈의 상하 특징점, 입의 끝점, 및 입의 상하 특징점 중 적어도 하나인 것을 특징으로 하는 정보 처리 장치.
  9. 제 1 항에 있어서,
    상기 특징점은, 눈썹의 형상, 왼쪽 눈썹과 오른쪽 눈썹 사이의 거리, 눈썹과 눈 사이의 거리, 눈 끝점과 입 끝점 사이의 거리, 콧구멍 중심과 입 끝점 사이의 거리, 코 에지와 입 끝점 사이의 거리, 얼굴 영역의 중심과 입 끝점 사이의 거리, 눈 끝점 사이의 거리, 눈 영역의 상하 에지 사이의 거리, 입 끝점 사이의 거리, 입 영역의 상하 에지 사이의 거리, 이마 및 미간 영역의 주름, 좌우 볼 영역의 주름 중 적어도 하나를 포함하는 것을 특징으로 하는 정보 처리 장치.
  10. 제 1 항에 있어서,
    상기 특징점은, 상기 특정 부분에 대한 상대 좌표로 표현되는 것을 특징으로 하는 정보 처리 장치.
  11. 제 1 항에 있어서,
    상기 판정부는, 상기 입력 화상 데이터에 있어서의 특징점과 특정 부분 중 하나의 레이아웃에 의거하여 상기 특징점의 위치를 보정하고, 상기 위치가 보정된 특징점에 의거하여 상기 판정을 행하는 것을 특징으로 하는 정보 처리 장치.
  12. 제 1 항에 있어서,
    상기 판정부가 소정의 표정을 판정한 경우, 상기 입력 화상 데이터를 보유하도록 구성된 보유부를 더 구비하는 것을 특징으로 하는 정보 처리 장치.
  13. 제 1 항에 있어서,
    상기 판정부가 소정의 표정을 판정한 경우, 상기 입력 화상 데이터를 표시하도록 구성된 표시부를 더 구비하는 것을 특징으로 하는 정보 처리 장치.
  14. 제 1 항에 있어서,
    상기 제1 검출부에 의해 검출된 특정 부분의 위치에 의거하여 상기 화상 데이터에 영역을 설정하도록 구성된 설정부를 더 구비하고,
    상기 제2 검출부는, 상기 설정된 영역으로부터 상기 얼굴의 특징점을 검출하는 것을 특징으로 하는 정보 처리 장치.
  15. 얼굴을 포함하는 화상 데이터를 처리하는 정보 처리 장치의 제어 방법으로서,
    얼굴을 포함하는 화상 데이터를 입력하는 입력 스텝과,
    상기 화상 데이터로부터, 상기 얼굴의 특정 부분의 위치를 검출하는 제1 검출 스텝과,
    상기 검출된 특정 부분의 위치에 의거하여 상기 화상 데이터로부터 상기 얼굴의 특징점을 검출하는 제2 검출 스텝과,
    상기 검출된 특징점에 의거하여 상기 얼굴의 표정을 판정하는 판정 스텝을 포함하고,
    상기 제2 검출 스텝은 상기 제1 검출 스텝의 검출 정밀도보다 더 높은 검출 정밀도를 갖고, 상기 제1 검출 스텝은 검출 대상의 변동에 강건한 것을 특징으로 하는 정보 처리 장치의 제어 방법.
  16. 컴퓨터를, 청구항 1에 기재된 정보 처리 장치로서 기능시키기 위한 컴퓨터 프로그램을 기억한 것을 특징으로 하는 컴퓨터 판독가능한 기억매체.
KR1020060093302A 2005-09-26 2006-09-26 정보 처리 장치 및 그 제어방법 KR100886407B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2005278783A JP4799105B2 (ja) 2005-09-26 2005-09-26 情報処理装置及びその制御方法、コンピュータプログラム、記憶媒体
JPJP-P-2005-00278783 2005-09-26
JP2005278782A JP4799104B2 (ja) 2005-09-26 2005-09-26 情報処理装置及びその制御方法、コンピュータプログラム、記憶媒体
JPJP-P-2005-00278782 2005-09-26

Publications (2)

Publication Number Publication Date
KR20070034966A true KR20070034966A (ko) 2007-03-29
KR100886407B1 KR100886407B1 (ko) 2009-03-02

Family

ID=37762181

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060093302A KR100886407B1 (ko) 2005-09-26 2006-09-26 정보 처리 장치 및 그 제어방법

Country Status (3)

Country Link
US (2) US8542928B2 (ko)
EP (1) EP1768058B1 (ko)
KR (1) KR100886407B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101381439B1 (ko) * 2011-09-15 2014-04-04 가부시끼가이샤 도시바 얼굴 인식 장치 및 얼굴 인식 방법
KR101446975B1 (ko) * 2008-07-30 2014-10-06 디지털옵틱스 코포레이션 유럽 리미티드 얼굴 검출 기능을 사용한 얼굴 및 피부의 자동 미화
KR20170136691A (ko) * 2016-06-01 2017-12-12 가천대학교 산학협력단 카메라 영상의 얼굴 인식 방법
KR20200022001A (ko) * 2017-06-22 2020-03-02 웨이모 엘엘씨 희귀 인스턴스 분류기들
KR20200063292A (ko) * 2018-11-16 2020-06-05 광운대학교 산학협력단 얼굴 영상 기반의 감정 인식 시스템 및 방법
KR20230041122A (ko) * 2021-09-16 2023-03-24 주식회사 이엔터 얼굴 인식을 통한 특수효과 연출 시스템 및 그 방법

Families Citing this family (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101496387B (zh) 2006-03-06 2012-09-05 思科技术公司 用于移动无线网络中的接入认证的系统和方法
JP4218711B2 (ja) * 2006-08-04 2009-02-04 ソニー株式会社 顔検出装置、撮像装置および顔検出方法
US8570373B2 (en) 2007-06-08 2013-10-29 Cisco Technology, Inc. Tracking an object utilizing location information associated with a wireless device
JP4999570B2 (ja) 2007-06-18 2012-08-15 キヤノン株式会社 表情認識装置及び方法、並びに撮像装置
US8041076B1 (en) * 2007-08-09 2011-10-18 Adobe Systems Incorporated Generation and usage of attractiveness scores
US8797377B2 (en) 2008-02-14 2014-08-05 Cisco Technology, Inc. Method and system for videoconference configuration
US8355041B2 (en) 2008-02-14 2013-01-15 Cisco Technology, Inc. Telepresence system for 360 degree video conferencing
US8319819B2 (en) 2008-03-26 2012-11-27 Cisco Technology, Inc. Virtual round-table videoconference
US8390667B2 (en) 2008-04-15 2013-03-05 Cisco Technology, Inc. Pop-up PIP for people not in picture
US8694658B2 (en) 2008-09-19 2014-04-08 Cisco Technology, Inc. System and method for enabling communication sessions in a network environment
JP2010176314A (ja) * 2009-01-28 2010-08-12 Seiko Epson Corp 顔の特徴部位の座標位置を検出する画像処理装置
US20100208078A1 (en) * 2009-02-17 2010-08-19 Cisco Technology, Inc. Horizontal gaze estimation for video conferencing
US8477175B2 (en) 2009-03-09 2013-07-02 Cisco Technology, Inc. System and method for providing three dimensional imaging in a network environment
US8659637B2 (en) 2009-03-09 2014-02-25 Cisco Technology, Inc. System and method for providing three dimensional video conferencing in a network environment
US8659639B2 (en) 2009-05-29 2014-02-25 Cisco Technology, Inc. System and method for extending communications between participants in a conferencing environment
US9082297B2 (en) 2009-08-11 2015-07-14 Cisco Technology, Inc. System and method for verifying parameters in an audiovisual environment
JP5812599B2 (ja) * 2010-02-25 2015-11-17 キヤノン株式会社 情報処理方法及びその装置
US9225916B2 (en) 2010-03-18 2015-12-29 Cisco Technology, Inc. System and method for enhancing video images in a conferencing environment
USD626102S1 (en) 2010-03-21 2010-10-26 Cisco Tech Inc Video unit with integrated features
USD626103S1 (en) 2010-03-21 2010-10-26 Cisco Technology, Inc. Video unit with integrated features
US9313452B2 (en) 2010-05-17 2016-04-12 Cisco Technology, Inc. System and method for providing retracting optics in a video conferencing environment
US8737697B2 (en) 2010-05-26 2014-05-27 Nec Corporation Facial feature point position correction device, facial feature point position correcting method, and facial feature point position correcting program
US8896655B2 (en) 2010-08-31 2014-11-25 Cisco Technology, Inc. System and method for providing depth adaptive video conferencing
US8599934B2 (en) 2010-09-08 2013-12-03 Cisco Technology, Inc. System and method for skip coding during video conferencing in a network environment
US20120076368A1 (en) * 2010-09-27 2012-03-29 David Staudacher Face identification based on facial feature changes
EP2631872A4 (en) * 2010-10-18 2015-10-28 Univ Osaka CHARACTER EXTRACTION DEVICE, CHARACTER EXTRACTION METHOD AND PROGRAM THEREFOR
US8599865B2 (en) 2010-10-26 2013-12-03 Cisco Technology, Inc. System and method for provisioning flows in a mobile network environment
US8699457B2 (en) 2010-11-03 2014-04-15 Cisco Technology, Inc. System and method for managing flows in a mobile network environment
US8730297B2 (en) 2010-11-15 2014-05-20 Cisco Technology, Inc. System and method for providing camera functions in a video environment
US9143725B2 (en) 2010-11-15 2015-09-22 Cisco Technology, Inc. System and method for providing enhanced graphics in a video environment
US8902244B2 (en) 2010-11-15 2014-12-02 Cisco Technology, Inc. System and method for providing enhanced graphics in a video environment
US9338394B2 (en) 2010-11-15 2016-05-10 Cisco Technology, Inc. System and method for providing enhanced audio in a video environment
US8542264B2 (en) 2010-11-18 2013-09-24 Cisco Technology, Inc. System and method for managing optics in a video environment
US8723914B2 (en) 2010-11-19 2014-05-13 Cisco Technology, Inc. System and method for providing enhanced video processing in a network environment
US9111138B2 (en) 2010-11-30 2015-08-18 Cisco Technology, Inc. System and method for gesture interface control
JP5669549B2 (ja) * 2010-12-10 2015-02-12 オリンパスイメージング株式会社 撮像装置
USD682294S1 (en) 2010-12-16 2013-05-14 Cisco Technology, Inc. Display screen with graphical user interface
USD678307S1 (en) 2010-12-16 2013-03-19 Cisco Technology, Inc. Display screen with graphical user interface
USD678320S1 (en) 2010-12-16 2013-03-19 Cisco Technology, Inc. Display screen with graphical user interface
USD678308S1 (en) 2010-12-16 2013-03-19 Cisco Technology, Inc. Display screen with graphical user interface
USD682293S1 (en) 2010-12-16 2013-05-14 Cisco Technology, Inc. Display screen with graphical user interface
USD682864S1 (en) 2010-12-16 2013-05-21 Cisco Technology, Inc. Display screen with graphical user interface
USD682854S1 (en) 2010-12-16 2013-05-21 Cisco Technology, Inc. Display screen for graphical user interface
USD678894S1 (en) 2010-12-16 2013-03-26 Cisco Technology, Inc. Display screen with graphical user interface
JP2012169777A (ja) * 2011-02-10 2012-09-06 Sony Corp 情報処理装置、情報処理方法、およびプログラム
US8692862B2 (en) 2011-02-28 2014-04-08 Cisco Technology, Inc. System and method for selection of video data in a video conference environment
WO2012131149A1 (en) * 2011-03-25 2012-10-04 Nokia Corporation Method apparatus and computer program product for detection of facial expressions
US8670019B2 (en) 2011-04-28 2014-03-11 Cisco Technology, Inc. System and method for providing enhanced eye gaze in a video conferencing environment
US8786631B1 (en) 2011-04-30 2014-07-22 Cisco Technology, Inc. System and method for transferring transparency information in a video environment
US8934026B2 (en) 2011-05-12 2015-01-13 Cisco Technology, Inc. System and method for video coding in a dynamic environment
JP5367037B2 (ja) * 2011-09-26 2013-12-11 本田技研工業株式会社 顔向き検出装置
US8947493B2 (en) 2011-11-16 2015-02-03 Cisco Technology, Inc. System and method for alerting a participant in a video conference
CN103164441B (zh) * 2011-12-14 2017-09-19 富泰华工业(深圳)有限公司 基于脸部特征值对图片分类的电子装置及方法
US8682087B2 (en) 2011-12-19 2014-03-25 Cisco Technology, Inc. System and method for depth-guided image filtering in a video conference environment
US8848068B2 (en) * 2012-05-08 2014-09-30 Oulun Yliopisto Automated recognition algorithm for detecting facial expressions
KR101317047B1 (ko) * 2012-07-23 2013-10-11 충남대학교산학협력단 얼굴표정을 이용한 감정인식 장치 및 그 제어방법
WO2014064870A1 (ja) * 2012-10-22 2014-05-01 株式会社ソニー・コンピュータエンタテインメント 画像処理装置および画像処理方法
JP2014106732A (ja) 2012-11-27 2014-06-09 Sony Computer Entertainment Inc 情報処理装置および情報処理方法
US9681154B2 (en) 2012-12-06 2017-06-13 Patent Capital Group System and method for depth-guided filtering in a video conference environment
KR20150005094A (ko) * 2013-07-04 2015-01-14 삼성전자주식회사 전자 디바이스 및 전자 디바이스에서 눈 영역 검출 방법
US9104907B2 (en) * 2013-07-17 2015-08-11 Emotient, Inc. Head-pose invariant recognition of facial expressions
US9547808B2 (en) * 2013-07-17 2017-01-17 Emotient, Inc. Head-pose invariant recognition of facial attributes
US9666088B2 (en) * 2013-08-07 2017-05-30 Xerox Corporation Video-based teacher assistance
US9020213B1 (en) 2013-10-17 2015-04-28 Daon Holdings Limited Methods and systems for detecting biometric characteristics in an image
US9978014B2 (en) * 2013-12-18 2018-05-22 Intel Corporation Reconfigurable processing unit
CN103902990B (zh) * 2014-04-22 2017-03-29 中国科学技术大学 一种基于Haar‑like特征的司机面部特征快速检测方法
CN105303151B (zh) * 2014-06-30 2019-02-26 深圳Tcl新技术有限公司 人脸相似度的检测方法和装置
WO2016013090A1 (ja) * 2014-07-24 2016-01-28 富士通株式会社 顔認証装置、顔認証方法および顔認証プログラム
JP2018527660A (ja) 2015-07-29 2018-09-20 ノキア テクノロジーズ オーユー ニューラルネットワークによるオブジェクト検出
US10783610B2 (en) * 2015-12-14 2020-09-22 Motion Metrics International Corp. Method and apparatus for identifying fragmented material portions within an image
JP6656357B2 (ja) 2016-04-04 2020-03-04 オリンパス株式会社 学習方法、画像認識装置およびプログラム
JP2017202038A (ja) * 2016-05-10 2017-11-16 富士通株式会社 判別装置、判別方法、および判別プログラム
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
WO2018047225A1 (ja) 2016-09-06 2018-03-15 三菱電機株式会社 学習装置、信号処理装置および学習方法
CN106419336B (zh) * 2016-09-29 2017-11-28 浙江农林大学 一种led心情显示与激励智能镜子及其使用方法
KR102252298B1 (ko) * 2016-10-21 2021-05-14 삼성전자주식회사 표정 인식 방법 및 장치
KR102404791B1 (ko) * 2017-03-30 2022-06-02 삼성전자주식회사 입력 영상에 포함된 객체를 인식하는 디바이스 및 방법
CN107491771A (zh) * 2017-09-21 2017-12-19 百度在线网络技术(北京)有限公司 人脸检测方法和装置
CN111373408B (zh) * 2017-11-27 2023-05-02 三菱电机株式会社 表情识别装置
CN108197604A (zh) * 2018-01-31 2018-06-22 上海敏识网络科技有限公司 基于嵌入式设备的快速人脸定位跟踪方法
EP3540635B1 (en) * 2018-03-16 2020-08-26 Identy Inc. Method for identifying an object within an image and mobile device for executing the method
CN113412511A (zh) 2019-02-22 2021-09-17 株式会社半导体能源研究所 眼镜式电子设备
KR20210009066A (ko) 2019-07-16 2021-01-26 삼성전자주식회사 사용자의 의도를 추정하는 방법 및 장치
CN110909680A (zh) * 2019-11-22 2020-03-24 咪咕动漫有限公司 人脸图像的表情识别方法、装置、电子设备及存储介质
US11734888B2 (en) * 2021-04-23 2023-08-22 Meta Platforms Technologies, Llc Real-time 3D facial animation from binocular video

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2840816B2 (ja) * 1995-03-13 1998-12-24 株式会社エイ・ティ・アール通信システム研究所 表情検出装置
JP3735893B2 (ja) * 1995-06-22 2006-01-18 セイコーエプソン株式会社 顔画像処理方法および顔画像処理装置
US5802220A (en) * 1995-12-15 1998-09-01 Xerox Corporation Apparatus and method for tracking facial motion through a sequence of images
JPH09282454A (ja) 1996-04-12 1997-10-31 Meidensha Corp 物体認識方法
JP2962549B2 (ja) 1997-03-11 1999-10-12 株式会社エイ・ティ・アール知能映像通信研究所 顔動画像からの表情認識方法
JP3549013B2 (ja) 1998-03-05 2004-08-04 日本電信電話株式会社 目の位置検出方法、目の位置検出装置および目の位置検出プログラムを記録した記録媒体
JP2000105829A (ja) 1998-09-29 2000-04-11 Matsushita Electric Ind Co Ltd 顔パーツ検出方法及びその装置
US6463163B1 (en) * 1999-01-11 2002-10-08 Hewlett-Packard Company System and method for face detection using candidate image region selection
JP4377472B2 (ja) * 1999-03-08 2009-12-02 株式会社東芝 顔画像処理装置
AUPQ896000A0 (en) * 2000-07-24 2000-08-17 Seeing Machines Pty Ltd Facial image processing system
DE60226754D1 (de) 2001-09-25 2008-07-03 Matsushita Electric Ind Co Ltd Parameterschätzvorrichtung und datenkollationsvorrichtung
US6879709B2 (en) * 2002-01-17 2005-04-12 International Business Machines Corporation System and method for automatically detecting neutral expressionless faces in digital images
US20040001616A1 (en) * 2002-06-27 2004-01-01 Srinivas Gutta Measurement of content ratings through vision and speech recognition
JP2004062651A (ja) 2002-07-30 2004-02-26 Canon Inc 画像処理装置、画像処理方法、その記録媒体およびそのプログラム
KR100553850B1 (ko) 2003-07-11 2006-02-24 한국과학기술원 얼굴인식/표정인식 시스템 및 방법
JP4612806B2 (ja) 2003-07-18 2011-01-12 キヤノン株式会社 画像処理装置、画像処理方法、撮像装置
JP4743823B2 (ja) 2003-07-18 2011-08-10 キヤノン株式会社 画像処理装置、撮像装置、画像処理方法
EP3358501B1 (en) 2003-07-18 2020-01-01 Canon Kabushiki Kaisha Image processing device, imaging device, image processing method
US7388971B2 (en) * 2003-10-23 2008-06-17 Northrop Grumman Corporation Robust and low cost optical system for sensing stress, emotion and deception in human subjects
KR100587570B1 (ko) * 2003-10-25 2006-06-08 삼성전자주식회사 그래프 정합기반의 얼굴 인식방법 및 장치
JP2005266984A (ja) * 2004-03-17 2005-09-29 Konica Minolta Holdings Inc 画像処理システム
US7454039B2 (en) * 2004-07-12 2008-11-18 The Board Of Trustees Of The University Of Illinois Method of performing shape localization

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101446975B1 (ko) * 2008-07-30 2014-10-06 디지털옵틱스 코포레이션 유럽 리미티드 얼굴 검출 기능을 사용한 얼굴 및 피부의 자동 미화
US8902326B2 (en) 2008-07-30 2014-12-02 DigitalOptics Corporation Europe Limited Automatic face and skin beautification using face detection
KR101381439B1 (ko) * 2011-09-15 2014-04-04 가부시끼가이샤 도시바 얼굴 인식 장치 및 얼굴 인식 방법
US9098760B2 (en) 2011-09-15 2015-08-04 Kabushiki Kaisha Toshiba Face recognizing apparatus and face recognizing method
KR20170136691A (ko) * 2016-06-01 2017-12-12 가천대학교 산학협력단 카메라 영상의 얼굴 인식 방법
KR20200022001A (ko) * 2017-06-22 2020-03-02 웨이모 엘엘씨 희귀 인스턴스 분류기들
US11093799B2 (en) 2017-06-22 2021-08-17 Waymo Llc Rare instance classifiers
KR20200063292A (ko) * 2018-11-16 2020-06-05 광운대학교 산학협력단 얼굴 영상 기반의 감정 인식 시스템 및 방법
KR20230041122A (ko) * 2021-09-16 2023-03-24 주식회사 이엔터 얼굴 인식을 통한 특수효과 연출 시스템 및 그 방법

Also Published As

Publication number Publication date
US20070122036A1 (en) 2007-05-31
KR100886407B1 (ko) 2009-03-02
US20130322770A1 (en) 2013-12-05
EP1768058B1 (en) 2018-08-01
US8542928B2 (en) 2013-09-24
EP1768058A3 (en) 2015-08-19
EP1768058A2 (en) 2007-03-28

Similar Documents

Publication Publication Date Title
KR100886407B1 (ko) 정보 처리 장치 및 그 제어방법
JP4799105B2 (ja) 情報処理装置及びその制御方法、コンピュータプログラム、記憶媒体
JP4799104B2 (ja) 情報処理装置及びその制御方法、コンピュータプログラム、記憶媒体
CN111126272B (zh) 姿态获取方法、关键点坐标定位模型的训练方法和装置
CN110532984B (zh) 关键点检测方法、手势识别方法、装置及系统
JP5554984B2 (ja) パターン認識方法およびパターン認識装置
CN111310731A (zh) 基于人工智能的视频推荐方法、装置、设备及存储介质
CN108446672B (zh) 一种基于由粗到细脸部形状估计的人脸对齐方法
CN106874826A (zh) 人脸关键点跟踪方法和装置
CN110555481A (zh) 一种人像风格识别方法、装置和计算机可读存储介质
KR20160096460A (ko) 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법
CN105912126B (zh) 一种手势运动映射到界面的增益自适应调整方法
CN112036260A (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN114549557A (zh) 一种人像分割网络训练方法、装置、设备及介质
CN109325387B (zh) 图像处理方法、装置、电子设备
CN112734747A (zh) 一种目标检测方法、装置、电子设备和存储介质
JP2014119879A (ja) 顔表情評価結果平滑化装置および顔表情評価結果平滑化プログラム
JP2014041587A (ja) 顔表情解析装置および顔表情解析プログラム
CN114511877A (zh) 一种行为识别方法、装置、存储介质及终端
CN111881732B (zh) 一种基于svm的人脸质量评价方法
JP4449483B2 (ja) 画像解析装置、および画像解析方法、並びにコンピュータ・プログラム
JP4537097B2 (ja) パターン検出方法及び装置
CN112232258B (en) Information processing method, device and computer readable storage medium
CN115294623B (zh) 一种人体全身动作捕捉方法、装置、存储介质及终端
US11847823B2 (en) Object and keypoint detection system with low spatial jitter, low latency and low power usage

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130123

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140127

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20150127

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20160121

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20170125

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20180125

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee