KR100941209B1

KR100941209B1 - 로봇 장치, 얼굴 인식 방법 및 얼굴 인식 장치

Info

Publication number: KR100941209B1
Application number: KR1020037005576A
Authority: KR
Inventors: 준 요꼬노; 고따로 사베; 겐따 가와모또
Original assignee: 소니 주식회사
Priority date: 2001-08-23
Filing date: 2002-08-21
Publication date: 2010-02-10
Also published as: CN1476589A; JPWO2003019475A1; WO2003019475A1; US20050036649A1; DE60216411D1; EP1343115A4; DE60216411T2; CN1273912C; JP4609584B2; EP1343115A1; EP1343115B1; JP4333364B2; US7369686B2; JP2009157948A; KR20040028660A

Abstract

로봇은 CCD 카메라에 의한 촬상 화상에 포함되는 얼굴의 특징을 추출하는 얼굴 추출부와, 상기 얼굴 추출부에 의한 얼굴 추출 결과에 기초하여 얼굴을 인식하는 얼굴 인식부를 구비하고 있다. 얼굴 추출부는 방위 선택성을 갖고 주파수 성분이 다른 복수의 필터를 이용하여 화상을 필터링하는 가보 필터로 구성되고, 얼굴 인식부는 얼굴 추출 결과를 비선형인 공간에 한 번 사상하여 해당 공간 내에서 분리하는 초평면을 구함으로써 얼굴과 비얼굴을 식별하는 서포트 벡터 머신으로 구성된다. 동적으로 변화하는 환경 하에서 로봇은 사용자의 얼굴을 일정 시간 내에 인식할 수 있다.

로봇, 가보 필터, 휴먼 인터페이스, 모핑, CCD 카메라

Description

로봇 장치, 얼굴 인식 방법 및 얼굴 인식 장치{ROBOT APPARATUS, FACE RECOGNITION METHOD, AND FACE RECOGNITION APPARATUS}

본 발명은 동적으로 변화하는 작업 환경 하에서 일정 시간 내에 응답할 수 있는 휴먼 인터페이스를 구비한 로봇 장치, 및 로봇용으로 휴먼 인터페이스로서 적용할 수 있는 얼굴 인식 방법 및 얼굴 인식 장치에 관한 것으로, 동적으로 변화하는 작업 환경 하에서 사용자의 얼굴을 일정 시간 내에 인식할 수 있는 로봇 장치, 및 얼굴 인식 방법 및 얼굴 인식 장치에 관한 것이다.

보다 상세하게는, 본 발명은 모핑 등의 위치 정렬을 행할 필요가 없고, 회전, 위치 등의 변화에 대하여 로버스트한 얼굴 인식을 행하는 로봇 장치, 얼굴 인식 방법 및 얼굴 인식 장치에 관한 것으로, 특히 조명 조건이나 카메라·파라미터가 다른 환경 하에서 로버스트한 얼굴 인식을 행하는 로봇 장치, 얼굴 인식 방법 및 얼굴 인식 장치에 관한 것이다.

얼굴 인식의 기술은 사용자에게 부담을 주지 않는 개인 인증 시스템을 비롯하여, 성별의 식별 등, 맨 머신 인터페이스에 폭넓게 적용 가능하다. 초기에는 옆 얼굴을 사용한 인식 기술도 검토되었지만, 현재는 정면 화상의 인식 기술이 중심이 되고 있다.

얼굴 인식에 관한 연구는 패턴 인식 이론을 검증하는 데에 있어서 벤치마킹적인 포지셔닝을 갖고 있으며, 옛부터 다양한 방법이 개발되어 왔다. 따라서, 상정되어 있던 어플리케이션은 시큐러티 시스템에 있어서의 인증이나 대규모 데이터베이스로부터의 인물 검색 등, 정적인 환경 하에서 정확성을 요하는 것이 대부분이다.

그런데, 최근 외관 형상이 개 등의 동물을 모방하여 형성되고, 엔터테인먼트로서의 로봇 장치가 제공되어 있다. 예를 들면, 소니 주식회사는 2000년 11월 25일에 2발 보행의 인간형 로봇 "SDR-3X"를 공표하였다. 이러한 종류의 각식 이동 로봇은 불안정하고 자세 제어나 보행 제어가 어렵게 되지만, 계단이나 사다리의 승강이나 장해물의 타고 넘기 등, 정지·부정지의 구별을 불문하는 유연한 보행·주행 동작을 실현할 수 있다고 하는 점에서 우수하다. 또한, 로봇의 지능을 높여, 자율적인 장치 동작을 가능하게 함으로써, 동일한 주 공간에서 인간과 로봇이 공존하는 것도 꿈이 아니게 된다.

지능형 로봇 장치는, 외부로부터의 정보(예를 들면, 주위 환경의 정보 등)나 내부 상태(예를 들면, 감정 상태 등) 등에 따라 눈이나 다리 등을 자율적으로 동작시킴으로써, 동물과 같은 몸짓을 표출시킬 수 있다.

이러한 로봇 장치의 출현에 의해, 동적으로 변화하는 작업 환경 하에서 일정 시간 내에 응답할 수 있는 휴먼 인터페이스 기술이 요구되고 있으며, 그 하나로서 로봇 장치에 의한 얼굴 식별을 예로 들 수 있다. 예를 들면, 얼굴 식별을 이용함으로써, 로봇 장치는 많은 얼굴 중에서 사용자(기르는 사람 또는 친구, 또는 정당 한 사용자)를 식별할 수 있어, 사용자별로 리액션을 바꾸는 등으로 하여 보다 엔터테인먼트성이 있게 된다.

로봇 장치에 대한 적용이 요구되고 있는 얼굴 인식 기술은, 시큐러티 시스템에 있어서의 인증이나 대규모 데이터베이스로부터의 인물 검색 등의 적용 분야와는 다르고, 다소 부정확해도, 동적으로 변화하는 환경 하에서 일정 시간 내에 응답할 수 있다.

이러한 로봇 장치에 탑재되는 얼굴 식별의 어플리케이션에서는 임의의 주어진 1매의 신(scene) 중에서 인물을 식별하는 문제 외에, 다음과 같은 문제를 해결할 필요가 있다.

(1) 로봇 장치 자신이 이동하기 위해서, 환경의 변화나 그 다양성을 허용해야 한다.

(2) 인간과 로봇 장치의 위치 관계도 변화하기 때문에, 인터액션 중에 인간을 시야 내에 계속 둘 필요가 있다.

(3) 수많은 신(scene) 화상으로부터 인물의 식별에 사용할 수 있는 화상을 선별하여, 종합적으로 판단해야 한다.

(4) 임의의 시간 내에 응답해야 한다.

종래, 얼굴 인식의 방법은 뉴럴 네트워크를 이용한 방법이나, 얼굴 화상의 각 휘도값을 요소로 하는 벡터 공간에 주성분 분석(Principal Components Analysis : PCA)을 적용하는 방법(고유 공간법) 등이 주류였지만, 이들 종래 기술에는, 다음과 같은 결점이 있다.

우선, 뉴럴 네트워크에 의한 얼굴 인식에서는 인크리멘탈한 학습이 불가능하다.

또한, 고유 얼굴에 의한 방법인 경우, 직교하는 부분 선형 공간을 가정하고 있지만(즉, 2매의 얼굴 화상의 평균을 취하면 사람의 얼굴이 됨), 실제로는 선형이 아닌 경우가 많아, 모핑(morphing) 또는 얼라인먼트(alignmemt)라고 불리는 정확한 위치 정렬이 필요하게 된다. 이 전 처리에 의해, 위치, 회전, 크기에 대하여 정규화하여, 그 영향을 없애고자 하는 것도 있지만, 좀처럼 잘 처리할 수 없는 경우도 있어, 인식 성능을 저하시키는 원인으로 되어 있다. 또한, 얼굴 공간의 차원을 현저하게 작게 하여 그 공간에서의 분리를 하기 위해서, 고차원의 특징을 잃게 될 가능성도 있다.

또한, 상술한 어떤 얼굴 인식 방법이라도, 조명 조건의 변화나 카메라·파라미터의 변화, 노이즈, 위치, 회전에 대하여 영향을 받기 쉽고, 노이즈 필터링이나 모핑 등의 전 처리를 필요로 한다. 또한, 범용 능력의 점에서도 의문이 남는다.

본 발명의 목적은, 동적으로 변화하는 작업 환경 하에서 일정 시간 내에 응답할 수 있는 휴먼 인터페이스를 구비한 로봇 장치, 및 로봇용으로 휴먼 인터페이스로서 적용할 수 있는, 우수한 얼굴 인식 방법 및 얼굴 인식 장치를 제공하는 데 있다.

본 발명의 또 다른 목적은, 동적으로 변화하는 작업 환경 하에서 사용자의 얼굴을 일정 시간 내에 인식할 수 있는, 우수한 로봇 장치, 얼굴 인식 방법 및 얼굴 인식 장치를 제공하는 데 있다.

본 발명의 또 다른 목적은, 조명 조건이나 카메라 파라미터가 다른 환경 하에서 로버스트한 얼굴 인식을 행할 수 있는, 우수한 로봇 장치, 얼굴 인식 방법 및 얼굴 인식 장치를 제공하는 데 있다.

본 발명의 또 다른 목적은, 모핑 등의 위치 정렬을 행할 필요가 없고, 회전, 위치 등의 변화에 대하여 로버스트한 얼굴 인식을 행할 수 있는, 우수한 로봇 장치, 얼굴 인식 방법 및 얼굴 인식 장치를 제공하는 데 있다.

본 발명은 상기 과제를 참작하여 이루어진 것으로, 그 제1 측면은 자율적으로 행동하는 로봇 장치로서,

얼굴 화상을 입력하는 화상 입력 수단과,

방위 선택성을 갖고 주파수 성분이 다른 복수의 필터를 이용함으로써, 상기 얼굴 화상의 특징량을 추출하는 얼굴 특징량 추출 수단과,

상기 얼굴 특징량 추출 수단에 의한 얼굴 특징량 추출 결과를 커넬 함수를 이용하여 비선형인 사상을 행하고, 상기 사상 후의 특징 공간 내에서 분리하는 초 평면을 구함으로써, 특정한 얼굴과, 상기 특정한 얼굴 이외의 얼굴을 식별하는 얼굴 식별 수단

을 포함하는 것을 특징으로 하는 로봇 장치이다.

여기서, 상기 얼굴 특징량 추출 수단은 가보(Gabor) 필터로 구성할 수 있다. 또한, 상기 얼굴 식별 수단은 서포트 벡터 머신으로 구성할 수 있다.

본 발명의 제1 측면에 따르면, 로봇 장치는 입력 화상에 대하여 모핑 등의 위치 정렬을 행하지 않고, 즉 회전이나 위치 등의 변화에 대하여 로버스트한 얼굴 인식을 행할 수 있다. 즉, 로봇 장치는 동적으로 변화하는 작업 환경 하에서 사용자의 얼굴을 일정 시간 내에 인식할 수 있어, 각 사용자별 대응을 실시간으로 행할 수 있다.

여기서, 상기 얼굴 특징량 추출 수단은 인식 태스크에 따라 상기 가보 필터의 종류를 변경하는 필터 변경 수단을 더 포함하고 있어도 된다.

또한, 상기 얼굴 특징량 추출 수단은 저주파에서의 필터링에서는 필터링 후의 이미지를 다운 샘플링하여 차원을 떨어뜨리도록 할 수 있다. 다운 샘플링된 각 벡터를 일렬로 배열하여, 긴 벡터를 구성하여, 후단의 얼굴 식별 수단에 건네 준다.

또한, 본 발명의 제2 측면은 로봇용의 휴먼 인터페이스로서 적용 가능한 얼굴 인식 장치 또는 얼굴 인식 방법으로서,

얼굴 화상을 입력하는 화상 입력 수단 또는 단계와,

방위 선택성을 갖고 주파수 성분이 다른 복수의 필터를 이용함으로써, 상기 얼굴 화상의 특징량을 추출하는 얼굴 특징량 추출 수단 또는 단계와,

상기 얼굴 특징량 추출 수단 또는 단계에 의한 얼굴 특징량 추출 결과를 커넬 함수를 이용하여 비선형인 사상을 행하고, 상기 사상 후의 특징 공간 내에서 분 리하는 초평면을 구함으로써, 특정한 얼굴과, 상기 특정한 얼굴 이외의 얼굴을 식별하는 얼굴 식별 수단 또는 단계

를 포함하는 것을 특징으로 하는 얼굴 인식 장치 또는 얼굴 인식 방법이다.

여기서, 상기 얼굴 특징량 추출 수단은 가보 필터로 구성할 수 있다. 또한, 상기 얼굴 식별 수단은 서포트 벡터 머신으로 구성할 수 있다.

본 발명의 제2 측면에 따른 얼굴 인식 장치 또는 얼굴 인식 방법에 따르면, 입력 화상에 대하여 모핑 등의 위치 정렬을 행하지 않고, 즉 회전이나 위치 등의 변화에 대하여 로버스트인 얼굴 인식을 행할 수 있다. 즉, 동적으로 변화하는 작업 환경 하이어도 사용자의 얼굴을 일정 시간 내에 인식할 수 있다. 따라서, 본 발명의 제2 측면에 따른 얼굴 인식 장치 또는 얼굴 인식 방법을 로봇 장치에 적용함으로써, 상기 로봇 장치는 사용자별 다른 리액션을 지연 시간없이 실행할 수 있는 등, 엔터테인먼트성을 향상시킬 수 있다.

여기서, 상기 얼굴 특징량 추출 수단 또는 단계는 인식 태스크에 따라 상기 가보 필터의 종류를 변경하는 필터 변경 수단 또는 단계를 더 포함하고 있어도 된다.

또한, 상기 얼굴 특징량 추출 수단 또는 단계는 저주파에서의 필터링에서는 필터링 후의 이미지를 다운 샘플링하여 차원을 떨어뜨리도록 할 수 있다. 다운 샘플링된 각 벡터를 일렬로 배열하여, 긴 벡터를 구성하여, 후단의 얼굴 인식 수단 또는 단계에 건네 준다.

본 발명의 또 다른 목적, 특징이나 이점은 후술하는 본 발명의 실시 형태나 첨부하는 도면에 기초한, 보다 상세한 설명에 의해 분명히 될 것이다.

도 1은 본 발명의 실시에 이용되는 각식 이동 로봇(100)을 전방으로부터 조망한 모습을 도시한 도면.

도 2는 본 발명의 실시에 이용되는 각식 이동 로봇(100)을 후방으로부터 조망한 모습을 도시한 도면.

도 3은 본 실시 형태에 따른 각식 이동 로봇(100)이 구비하는 자유도 구성 모델을 모식적으로 나타낸 도면.

도 4는 각식 이동 로봇(100)의 제어 시스템 구성을 모식적으로 나타낸 도면.

도 5는 본 실시 형태에 따른 로봇 장치(100)의 처리 동작을 실현하기 위한 제어 프로그램의 소프트웨어 구성을 모식적으로 나타낸 도면.

도 6은 미들웨어 레이어(140)의 구체적인 소프트웨어 구성을 상세하게 나타낸 도면.

도 7은 어플리케이션 레이어(141)의 구체적인 소프트웨어 구성을 상세하게 나타낸 도면.

도 8은 행동 모델 라이브러리(170)의 구체적인 소프트웨어 구성을 상세하게 나타낸 도면.

도 9는 각 행동 모델(170-1∼170-n)로부터 다음의 행동을 결정하기 위한 유한 확률 오토마튼의 구조를 나타낸 도면.

도 10은 자기의 행동 모델(170-1∼170-n)을 형성하는 노드 NODE0∼NODEn에 각각 대응시켜 준비된 상태 천이표를 나타낸 도면.

도 11은 본 실시 형태에 따른 얼굴 인식 시스템(1000)의 학습 단계에서의 기능 구성을 도시한 블록도.

도 12는 본 실시 형태에 따른 얼굴 인식 시스템(1000)의 인식 단계에서의 기능 구성을 도시한 블록도.

도 13은 본 실시 형태에서 사용되는 가보 필터의 공간 영역에서의 양상을 나타낸 도면.

도 14는 본 실시 형태에서 사용되는 가보 필터의 공간 영역에서의 양상을 나타낸 도면.

도 15는 본 실시 형태에서 사용되는 가보 필터의 공간 영역에서의 양상을 나타낸 도면.

도 16은 본 실시 형태에서 사용되는 가보 필터의 공간 영역에서의 양상을 나타낸 도면.

도 17은 본 실시 형태에서 사용되는 가보 필터의 공간 영역에서의 양상을 나타낸 도면.

도 18은 본 실시 형태에서 사용되는 가보 필터의 공간 영역에서의 양상을 나타낸 도면.

도 19는 본 실시 형태에서 사용되는 가보 필터의 공간 영역에서의 양상을 나타낸 도면.

도 20은 본 실시 형태에서 사용되는 가보 필터의 공간 영역에서의 양상을 나 타낸 도면.

도 21은 본 실시 형태에서 사용되는 가보 필터의 공간 영역에서의 양상을 나타낸 도면.

도 22는 본 실시 형태에서 사용되는 가보 필터의 공간 영역에서의 양상을 나타낸 도면.

도 23은 본 실시 형태에서 사용되는 가보 필터의 공간 영역에서의 양상을 나타낸 도면.

도 24는 본 실시 형태에서 사용되는 가보 필터의 공간 영역에서의 양상을 나타낸 도면.

도 25는 본 실시 형태에서 사용되는 가보 필터의 공간 영역에서의 양상을 나타낸 도면.

도 26은 본 실시 형태에서 사용되는 가보 필터의 공간 영역에서의 양상을 나타낸 도면.

도 27은 본 실시 형태에서 사용되는 가보 필터의 공간 영역에서의 양상을 나타낸 도면.

도 28은 본 실시 형태에서 사용되는 가보 필터의 공간 영역에서의 양상을 나타낸 도면.

도 29는 본 실시 형태에서 사용되는 가보 필터의 공간 영역에서의 양상을 나타낸 도면.

도 30은 본 실시 형태에서 사용되는 가보 필터의 공간 영역에서의 양상을 나 타낸 도면.

도 31은 본 실시 형태에서 사용되는 가보 필터의 공간 영역에서의 양상을 나타낸 도면.

도 32는 본 실시 형태에서 사용되는 가보 필터의 공간 영역에서의 양상을 나타낸 도면.

도 33은 본 실시 형태에서 사용되는 가보 필터의 공간 영역에서의 양상을 나타낸 도면.

도 34는 본 실시 형태에서 사용되는 가보 필터의 공간 영역에서의 양상을 나타낸 도면.

도 35는 본 실시 형태에서 사용되는 가보 필터의 공간 영역에서의 양상을 나타낸 도면.

도 36은 본 실시 형태에서 사용되는 가보 필터의 공간 영역에서의 양상을 나타낸 도면.

도 37은 입력 화상의 일례를 나타낸 도면.

도 38은 도 37에 도시한 입력 화상을 도 13에 도시한 가보 필터로 필터링한 결과를 나타낸 도면.

도 39는 도 37에 도시한 입력 화상을 도 14에 도시한 가보 필터로 필터링한 결과를 나타낸 도면.

도 40은 도 37에 도시한 입력 화상을 도 15에 도시한 가보 필터로 필터링한 결과를 나타낸 도면.

도 41은 도 37에 도시한 입력 화상을 도 16에 도시한 가보 필터로 필터링한 결과를 나타낸 도면.

도 42는 도 37에 도시한 입력 화상을 도 17에 도시한 가보 필터로 필터링한 결과를 나타낸 도면.

도 43은 도 37에 도시한 입력 화상을 도 18에 도시한 가보 필터로 필터링한 결과를 나타낸 도면.

도 44는 도 37에 도시한 입력 화상을 도 19에 도시한 가보 필터로 필터링한 결과를 나타낸 도면.

도 45는 도 37에 도시한 입력 화상을 도 20에 도시한 가보 필터로 필터링한 결과를 나타낸 도면.

도 46은 도 37에 도시한 입력 화상을 도 21에 도시한 가보 필터로 필터링한 결과를 나타낸 도면.

도 47은 도 37에 도시한 입력 화상을 도 22에 도시한 가보 필터로 필터링한 결과를 나타낸 도면.

도 48은 도 37에 도시한 입력 화상을 도 23에 도시한 가보 필터로 필터링한 결과를 나타낸 도면.

도 49는 도 37에 도시한 입력 화상을 도 24에 도시한 가보 필터로 필터링한 결과를 나타낸 도면.

도 50은 도 37에 도시한 입력 화상을 도 25에 도시한 가보 필터로 필터링한 결과를 나타낸 도면.

도 51은 도 37에 도시한 입력 화상을 도 26에 도시한 가보 필터로 필터링한 결과를 나타낸 도면.

도 52는 도 37에 도시한 입력 화상을 도 27에 도시한 가보 필터로 필터링한 결과를 나타낸 도면.

도 53은 도 37에 도시한 입력 화상을 도 28에 도시한 가보 필터로 필터링한 결과를 나타낸 도면.

도 54는 도 37에 도시한 입력 화상을 도 29에 도시한 가보 필터로 필터링한 결과를 나타낸 도면.

도 55는 도 37에 도시한 입력 화상을 도 30에 도시한 가보 필터로 필터링한 결과를 나타낸 도면.

도 56은 도 37에 도시한 입력 화상을 도 31에 도시한 가보 필터로 필터링한 결과를 나타낸 도면.

도 57은 도 37에 도시한 입력 화상을 도 32에 도시한 가보 필터로 필터링한 결과를 나타낸 도면.

도 58은 도 37에 도시한 입력 화상을 도 33에 도시한 가보 필터로 필터링한 결과를 나타낸 도면.

도 59는 도 37에 도시한 입력 화상을 도 34에 도시한 가보 필터로 필터링한 결과를 나타낸 도면.

도 60은 도 37에 도시한 입력 화상을 도 35에 도시한 가보 필터로 필터링한 결과를 나타낸 도면.

도 61은 도 37에 도시한 입력 화상을 도 36에 도시한 가보 필터로 필터링한 결과를 나타낸 도면.

도 62는 화상 내의 얼굴의 크기와 거리의 관계를 나타낸 도면.

도 63은 각 얼굴의 크기의 화상을 고속 푸리에 변환하여 주파수 영역의 피크를 구하는 처리를 설명하기 위한 도면.

도 64는 거리와 가보 필터의 주파수의 관계를 나타낸 도면.

도 65는 거리 정보를 이용한 가보 필터에 의한 얼굴 추출 처리의 순서를 도시한 흐름도.

이하, 도면을 참조하면서 본 발명의 실시 형태에 대하여 상세하게 설명한다.

후술하는 본 발명의 실시 형태는, 본 발명을, 외관 형상이 인간을 모방하여 형성된 2발 각식 이동의 로봇 장치, 즉 휴머노이드 로봇(humanoid robot)에 적용한 것이다. 단, 본 발명의 요지는 이에 한정되는 것이 아니고, 예를 들면 개 등의 4발 각식 이동 로봇에도 마찬가지로 본 발명을 적용할 수 있다.

본 실시 형태에 따른 로봇 장치는, 외부로부터의 정보(예를 들면, 주위 환경의 정보 등)나 내부 상태(예를 들면, 감정 상태 등) 등에 따라 눈이나 다리 등을 자율적으로 동작시킴으로써, 리얼리티가 있는 몸짓을 표출시키고 있다. 그리고, 이 로봇 장치는 휴먼 인터페이스로서의 얼굴 인식 기능을 장비하여, 사용자(친구 또는 기르는 사람) 등의 얼굴을 식별할 수 있는 것으로 하여 구성되어 있으며, 얼굴 인식 결과에 기초하여, 사용자별 다른 리액션을 형성할 수 있다.

A. 로봇의 구성

도 1 및 도 2에는 본 발명의 실시에 이용되는 각식 이동 로봇(100)을 전방 및 후방의 각각으로부터 조망한 모습을 나타내고 있다. 또한, 도 3에는 이 각식 이동 로봇(100)이 구비하는 관절 자유도 구성을 모식적으로 나타내고 있다.

도 3에 도시한 바와 같이 각식 이동 로봇(100)은 2개의 완부와 두부(1)를 포함하는 상지와, 이동 동작을 실현하는 2개의 다리부로 이루어지는 하지와, 상지와 하지를 연결하는 체간부로 구성된, 복수의 수족을 구비한 구조체이다.

두부(1)를 지지하는 목 관절은 목 관절 요우축(2)과, 목 관절 피치축(3)과, 목 관절 롤 축(4)이라는 3자유도를 갖고 있다.

또한, 각 완부는 견관절 피치축(8)과, 견관절 롤 축(9)과, 상완 요우축(10)과, 수관절 피치축(11)과, 전완 요우축(12)과, 손목 관절 피치축(13)과, 손목 관절 롤 축(14)과, 손부(15)로 구성된다. 손부(15)는 실제로는 복수의 손가락을 포함하는 다관절·다자유도 구조체이다. 단, 손부(15)의 동작은 로봇(100)의 자세 제어나 보행 제어에 대한 기여나 영향이 적기 때문에, 본 명세서에서는 제로 자유도라고 가정한다. 따라서, 각 완부는 7 자유도를 갖는 것으로 한다.

또한, 체간부는 체간 피치 축(5)과, 체간 롤 축(6)과, 체간 요우축(7)이라는 3 자유도를 갖는다.

또한, 하지를 구성하는 각각의 다리부는 고관절 요우축(16)과, 고관절 피치축(17)과, 고관절 롤 축(18)과, 슬관절 피치 축(19)과, 발목 관절 피치축(20)과, 발목 관절 롤 축(21)과, 족부(22)로 구성된다. 본 명세서 상에서는 고관절 피치축(17)과 고관절 롤 축(18)의 교점은 본 실시 형태에 따른 각식 이동 로봇(100)의 고관절 위치를 정의한다. 인체의 족부(22)는 실제로는 다관절·다자유도의 발바닥을 포함한 구조체이지만, 본 실시 형태에 따른 각식 이동 로봇(100)의 발바닥은 제로 자유도로 한다. 따라서, 각 다리부는 6자유도로 구성된다.

이상을 총괄하면, 본 실시예에 따른 각식 이동 로봇(100) 전체로서는, 합계 3+7×2+3+6×2=32자유도를 갖게 된다. 단, 엔터테인먼트용 각식 이동 로봇(100)이 반드시 32 자유도에 한정되는 것은 아니다. 설계·제작 상의 제약 조건이나 요구 사양 등에 따라, 자유도, 즉 관절 수를 적절하게 증감할 수 있는 것은 물론이다.

상술한 바와 같은 각식 이동 로봇(100)이 갖는 각 자유도는 실제로는 액튜에이터를 이용하여 실장된다. 외관상으로 여분의 팽창을 배제하여 인간의 자연 체형 형상으로 근사시키는 것, 2발 보행이라는 불안정 구조체에 대하여 자세 제어를 행하는 것 등의 요청으로부터, 액튜에이터는 소형이면서 경량인 것이 바람직하다. 본 실시예에서는 기어 직결형이며 서보 제어계를 원 칩화하여 모터 유닛에 내장한 타입의 소형 AC 서보 액튜에이터를 탑재하는 것으로 하였다. 또, 이러한 종류의 AC 서보 액튜에이터에 관해서는, 예를 들면 본출원인에게 이미 양도되어 있는 일본 특개2000-299970호 공보(일본 특원평11-33386호)에 개시되어 있다.

도 4에는 각식 이동 로봇(100)의 제어 시스템 구성을 모식적으로 나타내고 있다. 이 제어 시스템은 컨트롤부(116)와, 이 로봇 장치(100)의 동력원으로서의 배터리(117)로 구성되고, 예를 들면 각식 이동 로봇의 기체 동체부나 그 배면부에 탑재되어 있다. 컨트롤부(116)는 CPU(Central Processing Unit)(110)와, DRAM(Dynamic Random Access Memory)(111)과, 플래시 ROM(Read Only Memory)(112)과, PC(Personal Computer) 카드 인터페이스 회로(113) 및 신호 처리 회로(114)가 내부 버스(115)를 개재하여 서로 접속됨으로써 구성된다. 또한, 기체에는 로봇 장치(100)의 방향이나 움직임의 가속도를 검출하기 위한 각속도 센서(118) 및 가속도 센서(119) 등도 장비되어 있다.

또한, 기체의 두부에는 외부의 상황을 촬상하기 위한 CCD(Charge Coupled Device : 전하 결합 소자) 카메라(120)와, 사용자로부터의 「어루만진다」나 「두드린다」 등의 물리적인 활동 작용에 의해 받은 압력을 검출하기 위한 터치 센서(121)와, 전방에 위치하는 물체까지의 거리를 측정하기 위한 거리 센서(122)와, 외부음을 집음하기 위한 마이크로폰(123)과, 울음 소리 등의 음성을 출력하기 위한 스피커(124) 등이 각각 기체 상의 소정 위치에 배치되어 있다. 여기서, CCD 카메라(120)는 얼굴 식별에 있어서 얼굴 화상을 촬상하기 위한 화상 입력 수단을 구성한다.

또한, 각 다리부 유닛의 관절 부분이나, 각 다리부 유닛 및 동체부 유닛의 각 연결 부분, 및 두부 유닛 및 동체부 유닛의 연결 부분 등에는, 각각 자유도 수분의 액튜에이터(125-1∼125-n), 및 전위차계(126-1∼126-n)가 배치되어 있다. 예를 들면, 액튜에이터(125-1∼125-n)는 각각 하나의 서보 모터로 구성된다. 이들 서보 모터의 구동에 의해, 다리부 유닛이 제어되어, 목표의 자세 또는 동작으로 천이한다.

그리고, 상술한 각속도 센서(118), 가속도 센서(119), 터치 센서(121), 거리 센서(122), 마이크로폰(123), 스피커(124), 및 각 전위차계(126-1∼126-n) 등의 각종 센서, 및 각 액튜에이터(125-1∼125-n)는 각각 대응하는 허브(127-1∼127-n)에 집선된 후에, 컨트롤부(116)의 신호 처리 회로(114)와 접속되어 있다. 또한, CCD 카메라(120) 및 배터리(117)는 각각 신호 처리 회로(114)와 직접 접속되어 있다.

신호 처리 회로(114)는 상술한 각 센서로부터 공급되는 센서 데이터나 화상 데이터, 및 음성 데이터를 순차적으로 받아들여, 이들을 내부 버스(115)를 통하여 DRAM(111) 내의 소정의 어드레스에 적절하게 저장한다. 또한, 신호 처리 회로(114)는 이와 함께 배터리(117)로부터 공급되는 배터리 잔량을 나타내는 배터리 잔량 데이터를 순차적으로 받아들여, 이것도 마찬가지로 DRAM(111) 내의 소정의 어드레스에 저장한다.

이와 같이 하여 DRAM(111)에 저장된 각 센서 데이터, 화상 데이터, 음성 데이터, 및 배터리 잔량 데이터는, 이 후 CPU(110)가 이 로봇 장치(100)의 기체의 동작 제어를 행할 때에 이용 가능하게 된다.

실제, CPU(110)는 로봇 장치(100)의 전원이 투입된 초기 시, 동체부 유닛(2)의 도시하지 않은 PC 카드 슬롯에 장전된 메모리 카드(128) 또는 플래시 ROM(112)에 저장된 제어 프로그램을 PC 카드 인터페이스 회로(113) 경유로 또는 직접 판독하여, 이것을 DRAM(111)에 로드한다.

또한, CPU(110)는 이러한 프로그램 로드의 후, 상술한 바와 같이 신호 처리 회로(114)로부터 DRAM(111)에 순차적으로 저장되어 있는 각 센서 데이터, 화상 데이터, 음성 데이터, 및 배터리 잔량 데이터에 기초하여, 자기 및 기체 주위의 상황이나, 사용자로부터의 지시 및 활동 작용의 유무 등을 판단하도록 되어 있다.

또한, CPU(110)는 이 판단 결과 및 DRAM(111)에 저장한 제어 프로그램에 기초하여 계속되는 행동을 결정함과 함께, 해당 결정 결과에 기초하여 필요한 액튜에이터(125-1∼125-n)를 구동시킴으로써, 두부를 좌우로 흔들거나, 각 다리부 유닛을 구동시켜 보행이나 그 밖의 각식 작업을 실행시킨다.

또한, 이러한 프로그램 실행 시에, CPU(110)는 필요에 따라 음성 데이터를 생성하여, 이것을 신호 처리 회로(114) 경유로 음성 신호로서 스피커(24)에 제공함으로써, 해당 음성 신호에 기초한 음성을 외부로 출력시키기도 한다.

이와 같이 하여, 이 로봇 장치(100)에서는 자기 및 주위의 상황이나, 사용자로부터의 지시 및 작용에 따라 자율적으로 행동할 수 있도록 구성되어 있다.

B. 제어 프로그램의 소프트웨어 구성

도 5에는 본 실시 형태에 따른 로봇 장치(100)의 처리 동작을 실현하기 위한 제어 프로그램의 소프트웨어 구성을 모식적으로 나타내고 있다.

도 5에 도시한 바와 같이 디바이스 드라이버 레이어(130)는 이 제어 프로그램의 최하위층에 위치하고, 복수의 디바이스 드라이버로 이루어지는 디바이스 드라이버 세트(31)로 구성되어 있다. 이 경우, 각 디바이스 드라이버는 CCD 카메라(20)(도 4를 참조)나 타이머 등의 통상의 컴퓨터 처리에 이용되는 하드웨어에 직접 액세스하는 것이 허용된 오브젝트로, 일반적으로는 대응하는 하드웨어로부터의 인터럽트에 응답하여 처리를 개시하도록 되어 있다(인터럽트 핸들러).

또한, 로보틱 서버 오브젝트(132)는 디바이스 드라이버 레이어(130)의 최하 위층에 위치하고, 예를 들면 상술한 각종 센서나 액튜에이터(125-1∼125-n) 등의 하드웨어에 액세스하기 위한 인터페이스를 제공하는 소프트웨어군인 실제 로봇(133)과, 전원의 전환 등을 관리하는 소프트웨어군인 파워 매니저(134)와, 다른 여러가지의 디바이스 드라이버를 관리하는 소프트웨어군인 디바이스 드라이버 매니저(135)와, 로봇 장치(100)의 기구를 관리하는 소프트웨어군인 디자인 로봇(136)으로 구성된다.

매니저 오브젝트(137)는 오브젝트 매니저(138) 및 서비스 매니저(139)로 구성된다. 오브젝트 매니저(138)는 로보틱 서버 오브젝트(132), 미들웨어 레이어(140), 및 어플리케이션 레이어(141)에 포함되는 각 소프트웨어군의 기동이나 종료를 관리하는 소프트웨어군이다. 또한, 서비스 매니저(139)는 메모리 카드(128)(도 4를 참조)에 저장된 커넥션 파일에 기술되어 있는 각 오브젝트 사이의 접속 정보에 기초하여 각 오브젝트의 접속을 관리하는 소프트웨어군이다.

미들웨어 레이어(140)는 로보틱 서버 오브젝트(132)의 바로 가까운 상위에 위치하고, 화상 처리나 음성 처리 등 본 실시 형태에 따른 로봇 장치(100)의 기본적인 기능을 제공하는 소프트웨어군으로 구성된다. 또한, 어플리케이션 레이어(141)는 미들웨어 레이어(140)의 바로 가까운 상위에 위치하고, 해당 미들웨어 레이어(140)를 구성하는 각 소프트웨어군에 의해 처리된 처리 결과에 기초하여 로봇 장치(100)의 행동을 결정하기 위한 소프트웨어군으로 구성된다.

도 6에는 미들웨어 레이어(140)의 구체적인 소프트웨어 구성을 상세히 나타내고 있다.

도 6에 도시한 바와 같이 미들웨어 레이어(140)는 소음 검출용, 온도 검출용, 밝기 검출용, 음계 인식용, 거리 검출용, 자세 검출용, 터치 센서용, 움직임 검출용, 및 색 인식용의 각 신호 처리 모듈(150∼158), 및 입력 세멘틱스 컨버터 모듈(159) 등을 갖는 인식계 미들웨어(160)와, 출력 세멘틱스 컨버터 모듈(168), 자세 관리용, 트랙킹용, 모션 재생용, 보행용, 전도 복귀용, 및 음 재생용의 각 신호 처리 모듈(161∼167) 등을 갖는 출력계 미들웨어(169)로 구성된다.

인식계 미들웨어(160)의 각 신호 처리 모듈(150∼158)은 로보틱 서버 오브젝트(132)의 실제 로봇(133)에 의해 DRAM(11)(도 4를 참조)으로부터 판독되는 각 센서 데이터나 화상 데이터(얼굴 화상 데이터) 및 음성 데이터 중의 대응하는 데이터를 받아들여, 해당 데이터에 기초하여 소정의 처리를 실시하여, 처리 결과를 입력 세멘틱스 컨버터 모듈(159)에 제공한다. 여기서, 예를 들면 실제 로봇(133)은 소정의 통신 규약에 의해, 신호의 수수 또는 변환을 하는 부분으로서 구성되어 있다.

입력 세멘틱스 컨버터 모듈(159)은 이들 각 신호 처리 모듈(150∼158)로부터 주어지는 처리 결과에 기초하여, 「시끄럽다」, 「덥다」, 「밝다」, 「볼을 검출하였다」, 「전도를 검출하였다」, 「어루만져졌다」, 「두드려 맞았다」, 「도미솔의 음계가 들렸다」, 「움직이는 물체를 검출하였다」, 또는 「장해물을 검출하였다」, 「사람 A를 찾아내었다(인식하였다)」 등의 자기 및 주위의 상황을 인식하거나, 사용자로부터의 명령 및 활동 작용을 인식하여, 인식 결과를 어플리케이션 레이어(141)에 출력하도록 되어 있다.

도 7에는 어플리케이션 레이어(141)의 구체적인 소프트웨어 구성을 상세히 나타내고 있다. 도 7에 도시한 바와 같이 어플리케이션 레이어(141)는 행동 모델 라이브러리(170), 행동 전환 모듈(171), 학습 모듈(172), 감정 모델(173), 및 본능 모델(174)의 5개의 모듈로 구성된다.

도 8에는 행동 모델 라이브러리(170)의 구체적인 소프트웨어 구성을 상세히 나타내고 있다. 도 8에 도시한 바와 같이 행동 모델 라이브러리(170)에는 「배터리 잔량이 적어진 경우」, 「전도 복귀한다」, 「장해물을 회피하는 경우」, 「감정을 표현하는 경우」, 「볼을 검출한 경우」, 「사람 A를 찾아내었다(인식하였다)」 등의 미리 선택된 몇 개의 조건 항목에 대응시켜, 각각 독립적인 행동 모델(170-1∼170-n)이 설치되어 있다.

그리고, 이들 행동 모델(170-1∼170-n)은 각각 입력 세멘틱스 컨버터 모듈(159)로부터 인식 결과가 주어졌을 때나, 최후의 인식 결과가 주어지고 나서 일정 시간이 경과했을 때 등에, 후술하는 바와 같이 필요에 따라 감정 모델(173)에 유지되어 있는 대응하는 정서의 파라미터값이나, 본능 모델(174)에 유지되어 있는 대응하는 욕구의 파라미터값을 참조하면서 후속의 행동을 각각 결정하여, 이 결정 결과를 행동 전환 모듈(171)로 출력하게 되어 있다.

또, 본 실시 형태인 경우, 각 행동 모델(170-1∼170-n)은 다음의 행동을 결정하는 방법으로서, 도 9에 도시한 바와 같은 유한 확률 오토마튼이라고 불리는 알고리즘을 이용한다. 유한 확률 오토마튼에 따르면, 도 9에 도시한 바와 같이 1개의 노드(상태) NODE0∼NODEn으로부터 다른 어느 하나의 노드 NODE0∼NODEn으로 천이하는지를 각 노드 NODE0∼NODEn에 접속하는 아크 ARC1∼ARCn에 대하여 각각 설정 된 천이 확률 P1∼Pn에 기초하여 확률적으로 결정할 수 있다.

구체적으로는, 각 행동 모델(170-1∼170-n)은 각각 자기의 행동 모델(170-1∼170-n)을 형성하는 노드 NODE0∼NODEn에 각각 대응시켜, 이들 노드 NODE0∼NODEn마다, 도 10에 도시한 바와 같은 상태 천이표(180)를 갖고 있다.

이 상태 천이표(180)에서는 그 노드 NODE0∼NODEn에서 천이 조건으로 하는 입력 이벤트(인식 결과)가 「입력 이벤트명」의 행에 우선순으로 열기되어, 그 천이 조건에 대한 다른 조건이 「데이터명」 및 「데이터 범위」의 행에 있어서의 대응하는 열에 기술되어 있다.

예를 들면, 도 10에 도시하는 상태 천이표(180)로 표시되는 노드 NODE100에서는 「볼을 검출(BALL)」이라는 인식 결과가 주어진 경우에, 해당 인식 결과와 동시에 주어지는 그 볼의 「크기(SIZE)」가 「0부터 1000」의 범위인 것이 다른 노드로 천이하기 위한 조건으로 되어 있다. 마찬가지로, 「장해물 검출(OBSTACLE)」이라는 인식 결과가 주어진 경우에는 해당 인식 결과와 함께 주어지는 그 장해물까지의 「거리(DISTANCE)」가 「0부터 100」의 범위인 것이 다른 노드로 천이하기 위한 조건이다.

또한, 이 노드 NODE100에서는 인식 결과의 입력이 없는 경우에도, 행동 모델(170-1∼170-n)이 주기적으로 참조하는 감정 모델(173) 및 본능 모델(174)에 각각 유지된 각 정서 및 각 욕구의 파라미터값 중, 감정 모델(173)에 유지된 「기쁨(JOY)」, 「놀람(SURPRISE)」, 또는 「슬픔(SADNESS)」 중 어느 파라미터값이 「50부터 100」의 범위일 때에는 다른 노드로 천이할 수 있도록 되어 있다.

또한, 상태 천이표(180)에서는 「다른 노드로의 천이 확률」의 란에서의 「천이처 노드」의 열에 그 노드 NODE0∼NODEn으로부터 천이할 수 있는 노드명이 열기되어 있음과 함께, 「입력 이벤트명」, 「데이터값」 및 「데이터의 범위」의 행에 기술된 모든 조건이 갖추어졌을 때에 천이할 수 있는 다른 각 노드 NODE0∼NODEn으로의 천이 확률이 「다른 노드로의 천이 확률」의 란 내의 대응하는 개소에 기술되어 있으며, 그 노드 NODE0∼NODEn로 천이할 때에 출력해야 할 행동이 「다른 노드로의 천이 확률」의 란에서의 「출력 행동」의 행에 기술되어 있다. 또, 「다른 노드로의 천이 확률」의 란에서의 각 행의 확률의 합은 100[%]가 된다.

따라서, 도 10에 도시한 상태 천이표(180)로 표시되는 노드 NODE100에서는, 예를 들면 「볼을 검출(BALL)」하고, 그 볼의 「SIZE(크기)」가 「0부터 1000」의 범위라고 하는 인식 결과가 주어진 경우에는 「30[%]」의 확률로 「노드 NODE120(node120)」로 천이할 수 있고, 그 때 「ACTION1」의 행동이 출력, 즉 기체 동작이 실행되게 된다.

각 행동 모델(170-1∼170-n)은, 각각 이러한 상태 천이표(180)로서 기술된 노드 NODE0∼NODEn이 몇 개나 연결되도록 하여 구성되어 있다. 따라서, 입력 세멘틱스 컨버터 모듈(159)로부터 인식 결과가 주어졌을 때 등에, 대응하는 노드 NODE0∼NODEn의 상태 천이표를 이용하여 확률적으로 다음의 행동을 결정하고, 결정 결과를 행동 전환 모듈(171)로 출력하도록 되어 있다. 또한, 도 10에 도시한 상태 천이표에, 「사람 A를 찾아내었다(인식하였다)」라는 입력 이벤트명을 갖는 엔트리를 준비하고, 또한 천이 조건 등을 기술해 둠으로써, 로봇 장치(100)가 특정한 사용자 를 인식했을 때에 일으켜야 되는 리액션을 규정할 수 있다.

도 7에 도시한 행동 전환 모듈(171)은 행동 모델 라이브러리(170)의 각 행동 모델(170-1∼170-n)로부터 출력되는 행동 중, 미리 정해진 우선 순위가 높은 행동 모델(170-1∼170-n)로부터 출력된 행동을 선택하여, 해당 행동을 실행해야 할 취지의 커맨드(이하, 이것을 「행동 커맨드」라고 함)를 미들웨어 레이어(140)의 출력 세멘틱스 컨버터 모듈(168)로 송출하도록 되어 있다. 또, 본 실시 형태에서는 도 8에서 하측에 표기된 행동 모델(170-1∼170-n)만큼 우선 순위가 높게 설정되어 있는 것으로 한다.

또한, 행동 전환 모듈(171)은 행동 완료 후에 출력 세멘틱스 컨버터 모듈(168)로부터 주어지는 행동 완료 정보에 기초하여, 그 행동이 완료한 것을 학습 모듈(172), 감정 모델(173), 및 본능 모델(174)에 통지한다.

한편, 학습 모듈(172)은 입력 세멘틱스 컨버터 모듈(159)로부터 주어지는 인식 결과 중, 「두드려 맞았다」나 「어루만져졌다」등, 사용자로부터의 활동 작용으로서 받은 교시의 인식 결과를 입력한다.

그리고, 학습 모듈(172)은 이 인식 결과 및 행동 전환 모듈(171)로부터의 통지에 기초하여, 「두드려 맞았다(꾸중들었다)」일 때에는 그 행동의 발현 확률을 저하시키고, 「어루만져졌다(칭찬받았다)」일 때에는 그 행동의 발현 확률을 상승시키도록, 행동 모델 라이브러리(170)에서의 대응하는 행동 모델(170-1∼170-n)의 대응하는 천이 확률을 변경한다.

한편, 감정 모델(173)은 「기쁨(joy)」, 「슬픔(sadness)」, 「분노(anger) 」, 「놀람(surprise)」, 「혐오(disgust)」 및 「공포(fear)」의 총 6가지의 정서에 대하여, 각 정서마다 그 정서의 강도를 나타내는 파라미터를 보유하고 있다. 그리고, 감정 모델(173)은 이들 각 정서의 파라미터값을 각각 입력 세멘틱스 컨버터 모듈(159)로부터 주어지는 「두드려 맞았다」 및 「어루만져졌다」 등의 특정한 인식 결과와, 경과 시간 및 행동 전환 모듈(171)로부터의 통지 등에 기초하여 주기적으로 갱신한다.

구체적으로는, 감정 모델(173)은 입력 세멘틱스 컨버터 모듈(159)로부터 주어지는 인식 결과와, 그 때의 로봇 장치(100)의 행동과, 전회 갱신하고 나서의 경과 시간 등에 기초하여 소정의 연산식에 의해 산출되는 그 때의 그 정서의 변동량을 ΔE[t], 현재의 그 정서의 파라미터값을 E[t], 그 정서의 감도를 나타내는 계수를 ke로 하여, 다음 수학식 1에 의해 다음의 주기에서의 그 정서의 파라미터값 E[t+1]를 산출하고, 이것을 현재의 그 정서의 파라미터값 E[t]로 치환하도록 하여, 그 정서의 파라미터값을 갱신한다. 또한, 감정 모델(173)은 이와 마찬가지로 하여 모든 정서의 파라미터값을 갱신한다.

또, 각 인식 결과나 출력 세멘틱스 컨버터 모듈(168)로부터의 통지가 각 정서의 파라미터값의 변동량 ΔE[t]에 어느 정도의 영향을 줄지는 미리 정해져 있다. 예를 들면, 「두드려 맞았다」라는 인식 결과는 「분노」를 나타내는 정서의 파라미터값의 변동량 ΔE[t]에 큰 영향을 준다. 또한, 「어루만져졌다」라는 인식 결 과는 「기쁨」을 나타내는 정서의 파라미터값의 변동량에 ΔE[t]에 큰 영향을 주게 되어 있다.

여기서, 출력 세멘틱스 컨버터 모듈(168)로부터의 통지는, 소위 행동의 피드백 정보(행동 완료 정보)이고, 행동의 출현 결과의 정보이다. 감정 모델(173)은 이러한 정보에 의해서도 감정을 변화시킨다. 이것은 예를 들면, 「짖는다」라는 한 행동에 의해 분노의 감정 레벨이 내려간다고 한 것과 같다. 또, 출력 세멘틱스 컨버터 모듈(168)로부터의 통지는 상술한 학습 모듈(172)에도 입력되어 있다. 학습 모듈(172)은 그 통지에 기초하여 행동 모델(170-1∼170-n)의 대응하는 천이 확률을 변경한다.

또, 행동 결과의 피드백은 행동 전환 변조기(171)의 출력(감정이 부가된 행동)에 의해 이루어지는 것이어도 된다.

한편, 본능 모델(174)은 「운동욕(exercise)」, 「애정욕(affection)」, 「식욕(appetite)」 및 「호기심(curiosity)」의 상호 독립적인 4개의 욕구에 대하여, 이들 욕구마다 그 욕구의 강도를 나타내는 파라미터를 보유하고 있다. 그리고, 본능 모델(174)은 이들 욕구의 파라미터값을 각각 입력 세멘틱스 컨버터 모듈(159)로부터 주어지는 인식 결과나, 경과 시간 및 행동 전환 모듈(171)로부터의 통지 등에 기초하여 주기적으로 갱신한다.

구체적으로는, 본능 모델(174)은 「운동욕」, 「애정욕」 및 「호기심」에 대해서는 인식 결과, 경과 시간 및 출력 세멘틱스 컨버터 모듈(168)로부터의 통지 등에 기초하여 소정의 연산식에 의해 산출되는 그 때의 그 욕구의 변동량을 ΔI[k], 현재의 그 욕구의 파라미터값을 I[k], 그 욕구의 감도를 나타내는 계수 ki로서, 소정 주기로 다음 수학식 2를 이용하여 다음의 주기에서의 그 욕구의 파라미터값 I[k+1]를 산출하고, 이 연산 결과를 현재의 그 욕구의 파라미터값 I[k]로 치환하도록 하여 그 욕구의 파라미터값을 갱신한다. 또한, 본능 모델(174)은 이와 마찬가지로 하여 「식욕」을 제외한 각 욕구의 파라미터값을 갱신한다.

또, 인식 결과 및 출력 세멘틱스 컨버터 모듈(168)로부터의 통지 등이 각 욕구의 파라미터값의 변동량 ΔI[k]에 어느 정도의 영향을 줄지는 미리 정해져 있다. 예를 들면, 출력 세멘틱스 컨버터 모듈(168)로부터의 통지는 「피로」의 파라미터값의 변동량 ΔI[k]에 큰 영향을 주게 되어 있다.

또, 본 실시의 형태에서는 각 정서 및 각 욕구(본능)의 파라미터값이 각각 0부터 100까지의 범위에서 변동하도록 규제되어 있으며, 또한 계수 ke, ki의 값도 각 정서 및 각 욕구마다 개별적으로 설정되어 있다.

한편, 미들웨어 레이어(140)의 출력 세멘틱스 컨버터 모듈(168)은 도 6에 도시한 바와 같이 상술된 바와 같이 하여 어플리케이션 레이어(141)의 행동 전환 모듈(171)로부터 주어지는 「전진」, 「기쁨」, 「운다」 또는 「트랙킹(볼을 쫓아감)」 등의 추상적인 행동 커맨드를 출력계 세멘틱스 컨버터 모듈(169) 내의 대응하는 신호 처리 모듈(161∼167)에 주어진다.

그리고, 이들 신호 처리 모듈(161∼167)은 행동 커맨드가 주어지면, 해당 행동 커맨드에 기초하여, 그 행동을 행하기 위해서 대응하는 액튜에이터(125-1∼125-n)(도 4를 참조)에 제공해야 되는 서보 명령값이나, 스피커(124)로부터 출력하는 음의 음성 데이터 등의 구동 데이터를 생성하여, 이들 데이터를 로보틱 서버 오브젝트(132)의 실제 로봇(133) 및 신호 처리 회로(114)를 순차적으로 개재하여 대응하는 액튜에이터(125-1∼125-n) 또는 스피커(124)에 순차적으로 송출한다.

이와 같이 하여 로봇 장치(100)에서는 제어 프로그램에 기초하여, 자신(내부) 및 주위(외부)의 상황이나, 사용자로부터의 지시 및 작용에 따른 자율적인 행동을 행할 수 있도록 이루어져 있다.

C. 로봇 장치에 의한 얼굴 식별

지능형 로봇 장치에는, 동적으로 변화하는 작업 환경 하에서 일정 시간 내에 응답할 수 있는 휴먼 인터페이스 기술이 요구되어 있다. 본 실시 형태에 따른 로봇 장치(100)는 얼굴 인식 기술을 적용함으로써, 많은 얼굴 중에서 사용자(사육하는 사람 또는 친구, 또는 정당한 사용자)를 식별함과 함께, 인식 결과에 기초하여(즉, 사용자에 따라) 리액션을 제어함으로써, 보다 높은 엔터테인먼트성을 실현한다.

본 실시 형태에 따른 얼굴 인식 시스템(100)은 동적으로 변화하는 환경 하에서 일정 시간 내에 응답할 수 있지만, CCD 카메라에 의한 촬상 화상으로부터 얼굴 패턴을 추출하는 얼굴 추출 처리부(1001)와, 추출된 얼굴 패턴에 기초하여 얼굴을 인식하는 얼굴 인식부(1002)로 구성된다. 본 실시 형태에서는 얼굴 패턴을 추출하 는(얼굴 화상의 특징량을 추출하는) 얼굴 추출 처리에는 방위 선택성을 갖고 주파수 성분이 다른 복수의 필터를 이용함으로써, 상기 얼굴 화상의 특징량을 추출하는 「가보 필터링(Gabor Filtering)」을 채용하고 있다. 또한, 얼굴 패턴으로부터 얼굴을 인식하는 얼굴 인식 처리에는 커넬 함수를 이용하여 비선형인 사상을 행하고, 상기 사상 후의 특징 공간 내에서 분리하는 초평면을 구함으로써, 특정한 얼굴과, 상기 특정한 얼굴 이외의 얼굴을 식별하는 「서포트 벡터 머신(Support Vector Machine: SVM)」을 채용하고 있다.

이 얼굴 인식 시스템(1000)은 얼굴 패턴을 얼굴 인식부가 학습하는 학습 단계와, 학습된 데이터에 기초하여, 촬상 화상으로부터 추출된 얼굴 패턴을 인식하는 인식 단계를 포함한다.

도 11에는 본 실시 형태에 따른 얼굴 인식 시스템(1000)의 학습 단계의 구성을 나타내고, 또한 도 12에는 본 실시 형태에 따른 얼굴 인식 시스템(1000)의 인식 단계의 구성을 각각 나타내고 있다.

학습 단계에서는, 도 11에 도시한 바와 같이 CCD 카메라로부터 입력된 사용자의 촬상 화상을 가보 필터링(1001)으로 얼굴 추출한 결과가 서포트 벡터 머신(1002)에 투입된다. 서포트 벡터 머신(1002)에서는 외부로부터 공급되는 학습용 데이터, 즉 교사 데이터를 이용하여, 잠정적인 식별 함수를 얻는다.

또한, 식별 단계에서는 도 12에 도시한 바와 같이 CCD 카메라로부터 입력된 사용자의 촬상 화상을 가보 필터링(1001)으로 얼굴 추출한 결과가 서포트 벡터 머신(1002)에 투입된다. 서포트 벡터 머신(1002)에서는 잠정적으로 얻어진 식별 함 수를 여러가지의 데이터베이스 상의 화상에 실시하여 얼굴의 검출을 행한다. 그리고, 검출에 성공한 것을 얼굴 데이터로서 출력한다. 또한, 검출에 실패한 것을 비 얼굴 데이터로서 학습 데이터에 추가하여, 학습을 다시 한다.

이하에서는 가보 필터링과 서포트 벡터 머신에 대하여, 각각 상세하게 설명한다.

가보 필터링:

인간의 시각 세포에는 어떤 특정한 방위에 대하여 선택성을 갖는 세포가 존재하는 것을 이미 알고 있다. 이것은 수직의 선에 대하여 발화하는 세포와, 수평의 선에 반응하는 세포로 구성된다. 가보 필터링은 이와 마찬가지로, 방위 선택성을 갖는 복수의 필터로 구성되는 공간 필터이다.

가보 필터는 가보 함수에 의해 공간 표현된다. 가보 함수 g(x, y)는 다음 수학식 3에 도시한 바와 같이 코사인 성분으로 이루어지는 캐리어 s(x, y)와, 2차원 가우스 분포 형상의 엔벨로프 w_r(x, y)로 구성된다.

캐리어 s(x, y)는 복소 함수를 이용하여, 다음 수학식 4와 같이 표현된다. 여기서, 좌표값(u₀, v₀)은 공간 주파수를 나타내고, 또한 P는 코사인 성분의 위상을 나타낸다.

상기 수학식 4에 표현하는 캐리어는 다음 수학식 5에 나타낸 바와 같이 실수 성분 Re(s(x, y))와 허수 성분 Im(s(x, y))으로 분리할 수 있다.

한편, 2차원 가우스 분포로 이루어지는 엔벨로프는 다음 수학식 6과 같이 표현된다.

여기서, 좌표값(x₀, y₀)은 이 함수의 피크이고, 상수 a 및 b는 가우스 분포의 스케일 파라미터이다. 또한, 첨자 r은 다음 수학식 7에 나타낸 바와 같은 회전 조작을 의미한다.

따라서, 상기 수학식 4 및 상기 수학식 6으로부터, 가보 필터는 다음 수학식 8에 나타낸 바와 같은 공간 함수로서 표현된다.

본 실시 형태에 따른 얼굴 추출부(1001)는 8종류의 방향과 3가지의 주파수를 채용하여, 합계 24개의 가보 필터를 이용하여 얼굴 추출 처리를 행한다. 본 실시 형태에서 사용되는 가보 필터의 공간 영역에서의 양상을 도 13∼도 36에 도시해 둔다. 이 중, 도 13∼도 20은 방향을 22.5도씩 변이시킨 고주파 성분의 가보 필터이다. 또한, 도 21∼도 28은 방향을 22.5도씩 변이시킨 중주파 성분의 가보 필터이다. 또한, 도 29∼도 36은 방향을 22.5도씩 변이시킨 저주파 성분의 가보 필터이다. 단, 각 도면에서의 농담은 지면에 직교하는 좌표 축 방향의 성분에 상당하는 것으로 이해하기 바란다.

가보 필터의 응답은 G_i를 i번째의 가보 필터로 하고, i번째의 가보의 결과(Gabor Jet)를 J_i로 하고, 입력 이미지를 I로 하면, 이하의 수학식 9로 표현된다. 수학식 9의 연산은 실제로는 고속 푸리에 변환을 이용하여 고속화할 수 있다.

도 37에 도시한 바와 같은 입력 화상(단, 입력 화상은 20×20 화소로 함)을 도 13∼도 36에 도시한 각 가보 필터로 필터링된 결과를 도 38∼도 61에 도시해 둔다. 가보 필터는 대개 모든 주파수를 다 커버할 수 있다.

작성한 가보 필터의 성능을 조사하기 위해서는 필터링하여 얻어진 화상을 재구축함으로써 행한다. 재구축된 이미지 H는 다음 수학식 10과 같이 표현된다.

그리고, 입력 화상 I와 재구축된 화상 H와의 에러 E는 다음 수학식 11과 같이 표현된다.

이 에러 E를 최소로 하는 최적의 a를 구함으로써 재구축할 수 있다.

서포트 벡터 머신:

본 실시 형태에서는 얼굴 인식에 관하여, 패턴 인식의 분야에서 가장 학습 범화 능력이 높은 서포트 벡터 머신(SVM)을 이용하여 해당하는 얼굴인지의 식별을 행한다.

SVM 자체에 관해서는, 예를 들면 B.sholkopf 외 저의 보고(B. Sholkopf, C. Burges, A. Smola, "Advance in Kernel Methods Support Vector Learning", The MIT Press, 1999.)를 예로 들 수 있다. 본 발명자들이 행한 예비 실험의 결과로부터는 SVM에 의한 얼굴 인식 방법은 주성분 분석(PCA)이나 뉴럴 네트워크를 이용하 는 방법에 비하여, 양호한 결과를 나타내는 것을 알고 있다.

SVM은 식별 함수에 선형 식별기(퍼셉트론)를 이용한 학습 기계로, 커넬 함수를 사용함으로써 비선형 공간으로 확장할 수 있다. 또한, 식별 함수의 학습에서는 클래스간 분리 마진을 최대로 취하도록 행해지고, 그 해는 2차 수리 계획법을 푸는 것으로 얻어지기 때문에, 글로벌 해에 도달할 수 있는 것을 이론적으로 보증할 수 있다.

통상, 패턴 인식의 문제는 테스트 샘플 x=(x1, x2, …, xn)에 대하여, 이하의 식별 함수 f(x)를 구한다.

여기서, SVM의 학습용 교사 라벨을 다음과 같이 둔다.

그러면, SVM에서의 얼굴 패턴의 인식을 이하에 나타내는 제약 조건 하에서의 웨이트 인자 w의 자승의 최소화하는 문제로서 파악할 수 있다.

이러한 제약이 붙은 문제는 라그랑쥬의 미정 정수법을 이용하여 풀 수 있다. 즉, 이하에 나타내는 라그랑쥬를 우선적으로 도입하여,

계속해서, 다음 식에 나타낸 바와 같이 b, w의 각각에 대하여 편미분한다.

이 결과, SVM에서의 얼굴 패턴의 식별을 이하에 나타내는 2차 계획 문제로서 파악할 수 있다.

특징 공간의 차원 수가 훈련 샘플의 수보다 적은 경우에는 슬랙 변수 ξ≥0을 도입하여, 제약 조건을 다음과 같이 변경한다.

최적화에 대해서는 이하의 목적 함수를 최소화한다.

상기 수학식 19에서, C는 제약 조건을 어디까지 늦추는지를 지정하는 계수이고, 실험적으로 값을 결정할 필요가 있다.

그러나, 상기 수학식 20은 비선형의 문제를 풀 수는 없다. 따라서, 본 실시 형태에서는 커넬 함수 K(x, x')를 도입하여, 일단 고차원의 공간에 사상하여(커넬·트릭), 그 공간에서 선형 분리하는 것으로 하고 있다. 따라서, 원래의 공간에서는 비선형 분리하고 있는 것과 동등하게 된다.

커넬 함수는 임의의 사상 Φ을 이용하여 다음 식과 같이 표현된다.

또한, 수학식 12에 나타낸 식별 함수도, 다음과 같이 나타낼 수 있다.

또한, 학습에 관해서도, 이하에 나타내는 2차 계획 문제로서 파악할 수 있다.

커넬로서는 이하에 나타내는 가우스 커넬(RBF(Radius Basic Function)) 등을 이용할 수 있다.

또, 가보 필터링에 관해서는 인식 태스크에 따라 필터의 종류를 변경하도록 해도 된다.

저주파에서의 필터링에서는 필터링 후의 이미지 전부를 벡터로서 갖고 있는 것은 리던던시이다. 따라서, 다운 샘플링하여, 벡터의 차원을 떨어뜨리도록 해도 된다. 다운 샘플링된 24종류 벡터를 일렬로 배열하여, 긴 벡터로 한다.

또한, 본 실시 형태에서 얼굴 패턴의 인식에 적용되는 SVM은 특징 공간을 2분하는 식별기이므로, 「사람 A」인지 「사람 A가 아니다」인지를 판별하도록 학습한다. 그 때문에, 데이터베이스의 화상 중에서, 우선 사람 A의 얼굴 화상을 모아, 가보 필터링 후의 벡터에 「사람 A가 아니다」라는 라벨을 붙인다. 일반적으로, 모으는 얼굴 화상의 수는 특징 공간의 차원보다 많은 것이 좋다. 10명의 얼굴을 인식하고자 하는 경우에는 마찬가지로, 「사람 B이다」, 「사람 B가 아니다」 …와 같이 각각의 사람에 대하여 1개의 식별기를 구성한다.

이러한 학습에 의해, 예를 들면 「사람 A」와 「사람 A가 아니다」를 나누는 서포트 벡터를 구한다. SVM은 특징 공간을 2개로 구획하는 식별기로, 새로운 얼굴 화상이 입력되어 왔을 때에, 역시 가보 필터링 벡터가 구한 서포트 벡터가 구성하는 경계면의 어느 쪽에 있을지로 인식 결과를 출력한다. 그리고, 경계에 대하여, 「사람 A」의 영역에 있으면 「사람 A」라고 인식할 수 있다. 또한, 「사람 A가 아니다」의 영역이면 「사람 A가 아니다」라고 인식된다.

CCD 카메라 등으로부터 입력되는 입력 화상으로부터 얼굴 부분으로서 절취되는 영역은 일정하지 않다. 이 때문에, 특징 공간에서 인식하고자 하는 카테고리와는 떨어진 점에 투영될 가능성이 있다. 따라서, 눈이나 코, 입 등의 특징을 갖는 파트를 추정하여 아핀 변환에 의해 모핑함으로써 인식율이 향상될 가능성이 있다.

또한, 인식 성능을 높이기 위해서, 부팅 스트랩 방법을 채용할 수 있다. 학습에 이용하는 화상과는 별도로 화상을 촬영하여, 부팅 스트랩에 이용한다. 이것은 학습한 식별기가 잘못된 인식 결과를 냈을 때에, 그 입력 화상을 학습 세트에 투입하여 다시 학습하는 것을 의미한다.

또한, 인식 성능을 높이기 위해서, 인식 결과의 시간 변화를 보는 방법도 있다. 가장 간단한 방법에서는 10회 중 8회 「사람 A」라고 인식되면 「사람 A」라고 인식하는 등이다. 그 외에, 칼맨 필터를 이용한 예측법 등도 제안되어 있다.

다른 실시 형태

상술한 바와 같이 얼굴 추출부(1001)에서는 인식 태스크에 따라 상기 가보 필터의 종류를 변경할 수 있다. 여기서 말하는 가보 필터의 종류는, 구체적으로는 주파수의 수와 각 주파수, 방향의 수와 각 방향을 설정하는 것을 가리킨다.

상술한 예에서는 가보 필터의 주파수를 3종류 준비하고 있지만, 주파수가 1개만이라도 얼굴 화상을 인식할 수 있다. 물론, 인식율이 저하될 가능성은 있지만, 이것은 계산량의 삭감으로도 이어진다. 한정된 계산기 자원을 동작 제어나 내부 상태(감정이나 본능) 제어 등의 많은 프로그램으로 소비하는 엔터테인먼트 로봇에서는 계산량의 삭감은 큰 장점이 된다.

본 실시 형태에 따른 얼굴 인식 시스템(1000)을 탑재하는 로봇(100)(도 1∼3을 참조)에서는, 예를 들면 2대의 카메라에 의한 스테레오시로부터 거리 정보를 취득하도록 구성되어 있다. 이 거리 정보를 이용하여, 가보 필터를 연구할 수 있다.

얼굴의 크기와 거리의 관계는 미리 요구할 수 있다. 또한, 얼굴 화상의 크기와 가보 필터의 주파수 사이에는 일정한 관계가 있다. 즉, 얼굴 화상이 작을 때에는 높은 주파수로 특징 추출을 행할 필요가 있지만, 얼굴 화상이 클 때에는 낮은 주파수로 충분하다.

얼굴 영역만큼 절취된 화상 입력이 아닌 경우에는 화상 전체로부터, 어디에 얼굴이 있으며, 그 얼굴이 누구인지를 식별해야 한다. 이러한 경우, 거리 화상의 분포로부터, 그 거리에 따른 주파수를 선택할 수 있다. 그리고, 그 결과를 후속의 서포트 벡터 머신(SVM:후술)으로 식별한다.

이하에서는 거리 정보를 이용한 가보 필터에 의한 얼굴 추출 처리의 순서에 대하여 설명한다.

[준비]

1 : 화상 중에서의 얼굴의 크기(T 화소×T 화소)와 거리(Mcm)의 관계를 구한다. 도 62에서, 횡축에 거리, 종축에 얼굴 화상의 크기를 취한다. 여기서, 종축은 얼굴 화상을 정방 영역으로 하여, 그 근처의 길이를 취하고 있다. 이것은 예를 들면, 임의의 정해진 거리에서 화상을 촬영하고, 그 중에서 얼굴 영역이 어느 정도의 크기인지를 인간이 계측한다.

2 : 각 크기의 얼굴 화상을 고속 푸리에 변환(FFT)에 의해, 주파수 영역에서의 피크를 구한다(도 63을 참조). 여러가지의 크기의 얼굴 화상을 촬영하고, 각각의 주파수의 피크를 구한다.

3 : 거리와 주파수의 관계를 구한다(도 64를 참조). 상기 1, 2에 기초하여, 도 64에 도시한 거리와 주파수의 관계를 구한다

[인식](도 65를 참조)

1 : 임의의 화상에 대하여 거리를 구한다(화상 내의 각 화소에 대하여 3차원 좌표가 결정된다).

2 : 거리로부터 주파수를 구한다.

준비의 순서 3에서 얻어진 관계로부터 주파수를 구한다.

3 : 구해진 주파수의 가보 필터에 의해 특징 추출한다.

4 : 얻어진 화상을 서포트 벡터 머신으로 식별하여, 특정 얼굴인지 비특정 얼굴인지를 구한다.

추보

이상, 특정한 실시예를 참조하면서, 본 발명에 대하여 상세하게 설명해 왔다. 그러나, 본 발명의 요지를 일탈하지 않는 범위에서 당업자가 해당 실시예의 수정이나 대용을 할 수 있는 것은 자명하다.

본 발명의 요지는 반드시 「로봇」이라고 불리는 제품에는 한정되지 않는다. 즉, 전기적 또는 자기적인 작용을 이용하여 인간의 동작에 닮은 운동을 행하는 기계 장치이면, 예를 들면 완구 등과 같은 다른 산업 분야에 속하는 제품이라도, 마찬가지로 본 발명을 적용할 수 있다.

결국, 예시라는 형태로 본 발명을 개시한 것으로, 본 명세서의 기재 내용을 한정적으로 해석해서는 안된다. 본 발명의 요지를 판단하기 위해서는 모두에 기재한 특허 청구의 범위의 란을 참작해야 한다.

본 발명에 따르면, 동적으로 변화하는 작업 환경 하에서 일정 시간 내에 응답할 수 있는 휴먼 인터페이스를 구비한 로봇 장치, 및 로봇용으로 휴먼 인터페이스로서 적용할 수 있는, 우수한 얼굴 인식 방법 및 얼굴 인식 장치를 제공할 수 있다.

또한, 본 발명에 따르면, 동적으로 변화하는 작업 환경 하에서 사용자의 얼굴을 일정 시간 내에 인식할 수 있는, 우수한 로봇 장치, 얼굴 인식 방법 및 얼굴 인식 장치를 제공할 수 있다.

또한, 본 발명에 따르면, 모핑 등의 위치 정렬을 행할 필요가 없고, 회전, 위치 등의 변화에 대하여 로버스트인 얼굴 인식을 행할 수 있는, 우수한 로봇 장치, 얼굴 인식 방법 및 얼굴 인식 장치를 제공할 수 있다.

또한, 본 발명에 따르면, 조명 조건이나 카메라 파라미터가 다른 환경 하에서 로버스트인 얼굴 인식을 행할 수 있는, 우수한 로봇 장치, 얼굴 인식 방법 및 얼굴 인식 장치를 제공할 수 있다.

Claims

자율적으로 행동하는 로봇 장치로서,

얼굴 화상을 입력하는 화상 입력 수단과,

방위 선택성을 갖고 주파수 성분이 다른 복수의 필터로 이루어지는 가보 필터를 이용함으로써, 상기 얼굴 화상의 특징량을 추출하는 얼굴 특징량 추출 수단과,

서포트 벡터 머신으로 구성되고, 상기 얼굴 특징량 추출 수단에 의한 얼굴 특징량 추출 결과를, 커넬 함수를 이용하여 비선형인 사상(寫像)을 행하고, 상기 사상 후의 특징 공간 내에서 분리하는 초평면을 구함으로써, 특정한 얼굴과, 상기 특정한 얼굴 이외의 얼굴을 식별하는 얼굴 식별 수단과,

얼굴 화상의 크기에 따라서 상기 얼굴 특징량 추출 수단에서 이용하는 상기 가보 필터의 주파수를 변경하는 필터 변경 수단

을 포함하는 것을 특징으로 하는 로봇 장치.
삭제
삭제
제1항에 있어서,

상기 얼굴 특징량 추출 수단은 저주파에서의 필터링에서는 필터링 후의 이미지를 다운 샘플링하여 차원을 떨어뜨리도록 하는 것을 특징으로 하는 로봇 장치.
얼굴 화상을 입력하는 화상 입력 수단과,

방위 선택성을 갖고 주파수 성분이 다른 복수의 필터로 이루어지는 가보 필터를 이용함으로써, 상기 얼굴 화상의 특징량을 추출하는 얼굴 특징량 추출 수단과,

서포트 벡터 머신으로 구성되고, 상기 얼굴 특징량 추출 수단에 의한 얼굴 특징량 추출 결과를, 커넬 함수를 이용하여 비선형인 사상을 행하고, 상기 사상 후의 특징 공간내에서 분리하는 초평면을 구함으로써, 특정한 얼굴과, 상기 특정한 얼굴 이외의 얼굴을 식별하는 얼굴 식별 수단과,

얼굴 화상의 크기에 따라서 상기 얼굴 특징량 추출 수단에서 이용하는 상기 가보 필터의 주파수를 변경하는 필터 변경 수단

을 포함하는 것을 특징으로 하는 얼굴 인식 장치.
삭제
삭제
제5항에 있어서,

상기 얼굴 특징량 추출 수단은 저주파에서의 필터링에서는 필터링 후의 이미지를 다운 샘플링하여 차원을 떨어뜨리도록 하는 것을 특징으로 하는 얼굴 인식 장치.
컴퓨터를 이용해서 구축되는 얼굴 인식 시스템상에서, 얼굴 화상을 인식하는 얼굴 인식 방법으로서,

상기 컴퓨터가 구비하는 화상 입력 수단이, 얼굴 화상을 입력하는 화상 입력 단계와,

상기 컴퓨터가 구비하는 얼굴 특징량 추출 수단이, 방위 선택성을 갖고 주파수 성분이 상이한 복수의 필터로 이루어지는 가보 필터를 이용함으로써, 상기 얼굴 화상의 특징량을 추출하는 얼굴 특징량 추출 단계와,

상기 컴퓨터가 구비하는 서포트 벡터 머신으로 구성되는 얼굴 식별 수단이, 상기 얼굴 특징량 추출 단계에 의한 얼굴 특징량 추출 결과를, 커넬 함수를 이용하여 비선형인 사상을 행하고, 상기 사상 후의 특징 공간 내에서 분리하는 초평면을 구함으로써, 특정한 얼굴과, 상기 특정한 얼굴 이외의 얼굴을 식별하는 얼굴 식별 단계와,

얼굴 화상의 크기에 따라서 상기 얼굴 특징량 추출 단계에서 이용하는 상기 가보 필터의 주파수를 변경하는 필터 변경 단계

를 포함하는 것을 특징으로 하는 얼굴 인식 방법.
삭제
삭제
제9항에 있어서,

상기 얼굴 특징량 추출 단계에서는 저주파에서의 필터링에서는 필터링 후의 이미지를 다운 샘플링하여 차원을 떨어뜨리도록 하는 것을 특징으로 하는 얼굴 인식 방법.