KR20090024086A

KR20090024086A - 정보 처리 장치, 정보 처리 방법, 및 컴퓨터 프로그램

Info

Publication number: KR20090024086A
Application number: KR1020080086317A
Authority: KR
Inventors: 신야 오따니; 아쯔시 오꾸보
Original assignee: 소니 가부시끼 가이샤
Priority date: 2007-09-03
Filing date: 2008-09-02
Publication date: 2009-03-06
Also published as: JP2009059257A; US8295556B2; US20090060291A1; EP2031545A2; CN101383000A; CN101383000B

Abstract

정보 처리 장치는, 화상 데이터에 포함되는 얼굴 영역을 검출하는 얼굴 검출부와, 얼굴 검출부가 검출한 얼굴 영역으로부터 얼굴 구성 부위를 검출하는 얼굴 구성 부위 검출부와, 얼굴 구성 부위 검출부에서 얼굴 구성 부위가 검출된 얼굴 화상의 시선 판별 처리를 실행하는 시선 판별부를 포함한다. 시선 판별부는, 얼굴 구성 부위가 검출된 얼굴 화상 데이터의 시선에 대하여, 시선이 카메라 방향을 향하고 있는 포지티브 상태 또는 시선이 카메라 방향을 향하고 있지 않은 네거티브 상태인지를 판별하는 처리를, 각각의 상태에 대응하는 분류 데이터로 이루어지는 학습 데이터를 저장한 시선 판별 사전과 입력 얼굴 화상 데이터와의 대조 처리에 의해 실행한다.

정보 처리, 화상 해석, 화상 데이터, 얼굴 영역, 시선 판별부

Description

정보 처리 장치, 정보 처리 방법, 및 컴퓨터 프로그램{INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, AND COMPUTER PROGRAM}

<관련 출원의 상호 참조>

본 발명은 2007년 9월 3일에 일본 특허청에 제출된 일본 특허출원 제2007-227262호에 관련된 기술 내용을 포함하며, 그 전체 내용은 본 명세서에 참조로서 포함된다.

본 발명은, 정보 처리 장치, 정보 처리 방법 및 컴퓨터 프로그램에 관한 것이며, 더 구체적으로는, 카메라에 의해 촬영된 화상의 해석에 의해, 촬영 화상에 포함되는 사람이나 동물 등의 시선 방향을 검출하는 처리를 실행하는 정보 처리 장치 및 정보 처리 방법과 컴퓨터 프로그램에 관한 것이다.

카메라에 의한 취득 화상으로부터, 사람이나 개나 고양이 등의 펫(pet)이나 동물의 시선을 판정할 수 있게 되면, 예를 들면 시선이 카메라를 향하고 있는 순간에 셔터를 조작하는 것이 가능해져서，사진 촬영시의 실패 줄일 수 있다. 이와 같은 시선 판정 처리를 실행하는 프로그램을 예를 들면 동화상 작성 소프트웨어에 내장함으로써, 다수의 사진 데이터로부터, 정면을 보고 있는 사람이 있는 화상을 선 택하는 등의 동화상의 정리를 효율적으로 행할 수 있다.

시선 판정 처리 실행 프로그램을 예를 들면 텔레비전 회의 시스템 등의 대화 시스템에 내장함으로써, 시선에 따른 카메라의 절환이나 카메라 방향 설정, 줌 처리 등을 행함으로써 원활한 인터랙션(interaction)이 가능하게 된다.

카메라에 의해 촬영되는 화상 데이터로부터 시선 판별을 행하는 기술을 개시한 종래 기술의 하나로서 시선 방향 검출이 있다. 시선 방향 검출이란 카메라에 찍혀 있는 유저가 어느 위치를 보고 있는지를 추정하는 기술로서, 눈동자의 위치의 미묘한 위치 관계를 판독하는 것으로 행해진다. 예를 들면, "Passive Driver Gaze Tracking with Active Appearance Models", T. Ishikawa, S. Baker, I. Matthews, and T. Kanade, Proceedings of the 11th World Congress on Intelligent Transportation Systems, October, 2004(이하, 비특허 문헌 1)에서는, 얼굴 검출한 얼굴에 대하여, AAM(Active Appearance Models)에서 얼굴의 자세를 구해 두고, 또한 눈의 부분으로부터 눈동자의 위치를 검출하고, 눈과 눈동자 위치 관계로부터 안구의 자세 추정을 하여, 얼굴의 자세와 통합함으로써 전체의 시선 방향을 추정하는 구성을 개시하고 있다.

그러나，비특허 문헌 1에 기재된 구성에서는, 안구의 자세 추정에 눈동자나 정밀한 화상 입력이 필요해진다. 그로 인해，고성능의 고해상도 카메라를 이용하는 것이 필수로 된다. 일반 사용자가 집의 거실에서 2∼3m 떨어진 위치에 카메라를 놓고 촬영하는 경우, 100만 화소 정도의 일반적인 카메라를 이용할 수는 없다.

비특허 문헌 1에 기재된 구성을 실현하기 위해서는, 고가의 고화소 카메라를 이용하는 것이 필요하며, 또한 피사체의 눈 부분을 줌 촬영하여 눈동자 위치 측정 정밀도를 높이는 처리나, 눈에 적외선을 조사하여 눈의 망막이나 구체 부분의 휘도를 강하게 하여 정확하게 촬영하는 등, 정밀도를 높이기 위한 특별한 처리가 필요해진다. 또한，얼굴 자세 추정을 행하여 눈의 위치 추정이나 안구 자세의 추정을 행할 필요가 있어, 처리가 복잡화되고, 또한 시선 방향 검출의 오차도 커진다는 문제가 있다.

야마하타 도시히코, 후지에 신야 화상의 인식·이해 심포지움(MIRU 2006)에서의 "대화 시스템을 위한 시선 방향 인식"에서는, 아날로그 값에서의 시선 방향 추정을 단념하고, 시선 방향을 10클래스로 분류하는 처리에 의해 시선 방향 판별을 행하는 방법을 개시하고 있다. 이와 같이 시선 방향을 소정의 범위에서 분류함으로써, 정확한 안구의 자세를 추정할 필요가 없어져서, 눈 부분의 화상으로부터 PCA(주성분 분석)나 LDA(선형 판별 분석) 등을 적용하여 인식 결과를 출력할 수 있고, 인식기 직렬화에 의한 오차 확산의 문제를 해결하고 있다.

그러나，눈 부분의 화상으로부터 PCA(주성분 분석)로 차원 압축을 행하고, LDA(선형 판별 분석)로 선형 판별하기 위해서는, 시선 방향 10클래스 문제를 해결하는 것이 필요해지지만, 이 문제를 로버스트적(robustly)(안정적)으로 해결하는 것은 어렵다.

오노 타치히코, 타케카와 나오키, 요시카와 아츠시의(NTT 커뮤니케이션 과학 기초 연구소) 제8회 화상 센싱 심포지움 강연 논문집, "안구 형상 모델에 기초하는 시선 측정법" pp. 307-312.에서는 각막 반사법에 의한 시선 방향 추정의 방법을 개 시하고 있다. 이것은 동공 중심과 푸르키니에상(Purkinje's　images)의 위치로부터 시선을 추정한다고 하는 것으로，고정밀도로 시선을 추정할 수 있다. 또한 얼굴의 방향에 상관없이 추정할 수 있기 때문에, 얼굴 자세 인식기의 오차의 영향을 받지 않는다.

그러나，푸르키니에상을 추출하기 위해서는, 카메라에 대하여 고정된 위치에 있는 부분부터 광을 조사해야만 해서, 디바이스가 복잡해진다. 또한，푸르키니에상과 동공 중심 및 시선 방향의 관계는 개인차가 있기 때문에, 사람이 변할 때마다 매회 캘리브레이션(calibration)을 행하여만 한다고 하는 문제가 있다.

따라서, 카메라로 촬영된 화상을 분석함으로써, 촬영된 화상에 포함된 사람, 동물의 시선 방향을 효율적으로 검출하는 정보 처리 장치, 정보 처리 방법, 및 컴퓨터 프로그램을 제공하는 것이 바람직하다.

보다 구체적으로는，본 발명은, 카메라에 의해 촬영된 화상의 해석에 의해, 촬영 화상에 포함되는 사람이나 동물 등의 시선이 이쪽을 보고 있는지, 보고 있지 않은지 2개의 종류의 시선 판별을 행하는 정보 처리 장치 및 정보 처리 방법과 컴퓨터 프로그램을 제공하는 것을 목적으로 한다.

본 발명의 일 실시예에 따르면, 화상 데이터에 포함되는 얼굴 영역을 검출하는 얼굴 검출부와, 얼굴 검출부가 검출한 얼굴 영역으로부터 얼굴 구성 부위를 검 출하는 얼굴 구성 부위 검출부와, 얼굴 구성 부위 검출부에서 얼굴 구성 부위가 검출된 얼굴 화상의 시선 판별 처리를 실행하는 시선 판별부를 포함하고, 시선 판별부는, 얼굴 구성 부위가 검출된 얼굴 화상 데이터의 시선에 대하여, 시선이 카메라 방향을 향하고 있는 포지티브 상태 또는 시선이 카메라 방향을 향하고 있지 않은 네거티브 상태인지를 판별하는 처리를, 각각의 상태에 대응하는 분류 데이터로 이루어지는 학습 데이터를 저장한 시선 판별 사전과 입력 얼굴 화상 데이터와의 대조 처리에 의해 실행하는 정보 처리 장치가 제공된다.

실시예에 따른 정보 처리 장치에서, 얼굴 구성 부위 검출부는, 얼굴 검출부가 검출한 얼굴 영역으로부터 눈코입을 검출하는 구성이며, 시선 판별부는, 눈코입이 검출된 얼굴 화상 데이터의 시선 판별 처리를 실행하는 구성이다.

실시예에 따른 정보 처리 장치에서, 시선 판별부는, 화상의 특정 위치의 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘을 이용한 처리에 의해 시선 판별 처리를 실행한다.

실시예에 따른 정보 처리 장치에서, 정보 처리 장치는, 상기 얼굴 구성 부위 검출부에서 얼굴 구성 부위가 검출된 얼굴 화상의 회전 처리, 사이즈 정규화 처리, 얼굴 영역 추출 처리를 실행하는 화상 처리부를 포함하고, 시선 판별부는, 화상 처리부에서의 처리 화상을 입력하여 시선 판별 처리를 실행한다.

실시예에 따른 정보 처리 장치에서, 얼굴 검출부는, 화상 데이터에 포함되는 얼굴 영역 검출 처리를, 다양한 얼굴 영역 화상 정보를 저장한 얼굴 검출 사전을 참조하고, 화상의 특정 위치의 화소 페어의 차분값을 비교 대조 데이터로서 이용하 는 PixDif 알고리즘을 이용하여 실행한다.

실시예에 따른 정보 처리 장치에서, 얼굴 구성 부위 검출부는, 얼굴 검출부가 검출한 얼굴 영역으로부터의 얼굴 구성 부위 검출 처리를, 다양한 얼굴 구성 부위 화상 정보를 저장한 얼굴 구성 부위 검출 사전을 참조하고, 화상의 특정 위치의 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘을 이용하여 실행한다.

실시예에 따른 정보 처리 장치에서, 정보 처리 장치는, 음성 인식 처리를 실행하는 음성 인식부를 갖고, 시선 판별부에서의 시선 판별 결과와, 음성 인식부에서의 음성 인식 결과를 통합하고, 발화자의 해석을 실행한다.

실시예에 따른 정보 처리 장치에서, 정보 처리 장치는 촬상 장치이며, 시선 판별부에서의 시선 판별 결과를 입력해서 촬상 장치의 셔터 제어를 실행하는 셔터 제어부를 갖고, 셔터 제어부는, 촬상 장치의 취득 화상에 포함되는 얼굴의 시선 내에, 시선이 카메라 방향을 향하고 있지 않은 네거티브 상태의 얼굴 화상이 포함되는 경우에, 셔터 조작을 불가로 하는 제어를 행한다.

실시예에 따른 정보 처리 장치에서, 정보 처리 장치는, 또한，시선 판별부에서 판별된 복수의 화상 프레임에 대응하는 시선 판별 결과를 입력하고, 화상 데이터의 선별 처리를 행하는 프레임 선별부를 갖고, 프레임 선별부는, 포지티브 상태와 네거티브 상태의 각 상태 정보를 적용하여 화상 프레임의 선별을 행한다.

실시예에 따른 정보 처리 장치에서, 정보 처리 장치는 촬상 장치이며, 시선 판별부에서의 시선 판별 결과를 입력하여 경고 출력을 실행하는 경고 출력부를 갖 고, 경고 출력부는, 촬상 장치의 취득 화상에 포함되는 얼굴의 시선 내에, 시선이 카메라 방향을 향하고 있지 않은 네거티브 상태의 얼굴 화상이 포함되는 경우에, 경고 출력을 행한다.

실시예에 따른 정보 처리 장치에서, 정보 처리 장치는, 시선 판별부의 시선 판별 결과를 데이터 검색 처리에 적용하고, 시선이 카메라 방향을 향하고 있는 포지티브 상태, 또는 시선이 카메라 방향을 향하고 있지 않은 네거티브 상태의 화상을 선택 추출하는 검색 처리를 실행한다.

실시예에 따른 정보 처리 장치에서, 정보 처리 장치는, 화상 데이터의 시선 판별 처리 결과를 기억부에 저장하는 화상 데이터의 대응 정보로서 기억부에 저장하는 처리를 행한다.

본 발명의 다른 실시예에 따르면, 정보 처리 장치에서 실행하는 정보 처리 방법이며, 얼굴 검출부가, 화상 데이터에 포함되는 얼굴 영역을 검출하는 얼굴 검출 단계와, 얼굴 구성 부위 검출부가, 얼굴 검출 단계에서 검출한 얼굴 영역으로부터 얼굴 구성 부위를 검출하는 얼굴 구성 부위 검출 단계와, 시선 판별부가, 얼굴 구성 부위 검출 단계에 있어서 얼굴 구성 부위가 검출된 얼굴 화상의 시선 판별 처리를 실행하는 시선 판별 단계를 갖고, 시선 판별 단계는, 얼굴 구성 부위가 검출된 얼굴 화상 데이터의 시선에 대하여, 시선이 카메라 방향을 향하고 있는 포지티브 상태, 또는 시선이 카메라 방향을 향하고 있지 않은 네거티브 상태인지를 판별하는 처리를, 각 상태에 대응하는 분류 데이터로 이루어지는 학습 데이터를 저장한 시선 판별 사전과 입력 얼굴 화상 데이터와의 대조 처리에 의해 실행하는 단계인 정보 처리 방법가 제공된다.

실시예에 따른 정보 처리 방법에서, 얼굴 구성 부위 검출 단계는, 얼굴 검출 단계에서 검출된 얼굴 영역으로부터 눈코입을 검출하는 단계이며, 시선 판별 단계는, 눈코입이 검출된 얼굴 화상 데이터의 시선 판별 처리를 실행하는 단계이다.

실시예에 따른 정보 처리 방법에서, 시선 판별 단계는, 화상의 특정 위치의 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘을 이용한 처리에 의해 시선 판별 처리를 실행하는 단계이다.

실시예에 따른 정보 처리 방법에서, 정보 처리 장치는, 얼굴 구성 부위 검출부에서 얼굴 구성 부위가 검출된 얼굴 화상의 회전 처리, 사이즈 정규화 처리, 얼굴 영역 추출 처리를 실행하는 화상 처리부의 단계를 갖고, 시선 판별 단계는, 화상 처리 단계에서 처리된 화상을 입력하여 시선 판별 처리를 실행하는 단계이다.

실시예에 따른 정보 처리 방법에서, 얼굴 검출 단계는, 화상 데이터에 포함되는 얼굴 영역 검출 처리를, 다양한 얼굴 영역 화상 정보를 저장한 얼굴 검출 사전을 참조하여, 화상의 특정 위치의 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘을 이용하여 실행하는 단계이다.

실시예에 따른 정보 처리 방법에서, 얼굴 구성 부위 검출 단계는, 얼굴 검출 단계에 있어서 검출된 얼굴 영역으로부터의 얼굴 구성 부위 검출 처리를, 다양한 얼굴 구성 부위 화상 정보를 저장한 얼굴 구성 부위 검출 사전을 참조하여, 화상의 특정 위치의 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘을 이용하여 실행하는 단계이다.

실시예에 따른 정보 처리 방법에서, 상기 정보 처리 방법은, 또한，음성 인식부가, 음성 인식 처리를 실행하는 음성 인식 단계와, 데이터 처리부가, 시선 판별 결과와, 음성 인식부에서의 음성 인식 결과를 통합하여, 발화자의 해석을 실행하는 단계이다.

실시예에 따른 정보 처리 방법에서, 정보 처리 장치는 촬상 장치이며, 정보 처리 방법은, 또한，셔터 제어부가, 시선 판별 단계에서의 시선 판별 결과를 입력해서 촬상 장치의 셔터 제어를 실행하는 셔터 제어 단계를 갖고, 셔터 제어 단계는, 촬상 장치의 취득 화상에 포함되는 얼굴의 시선 내에, 시선이 카메라 방향을 향하고 있지 않은 네거티브 상태의 얼굴 화상이 포함되는 경우에, 셔터 조작을 불가로 하는 제어를 행하는 단계이다.

실시예에 따른 정보 처리 방법에서, 정보 처리 방법은, 또한，프레임 선별부가, 시선 판별 단계에 있어서 판별된 복수의 화상 프레임에 대응하는 시선 판별 결과를 입력하고, 화상 데이터의 선별 처리를 행하는 프레임 선별 단계를 갖고, 프레임 선별 단계는, 포지티브 상태와 네거티브 상태의 각 상태 정보를 적용하여 화상 프레임의 선별을 행하는 단계이다.

실시예에 따른 정보 처리 방법에서, 정보 처리 장치는 촬상 장치이며, 정보 처리 방법은, 또한，경고 출력부가, 시선 판별 단계에서의 시선 판별 결과를 입력하여 경고 출력을 실행하는 경고 출력 단계를 갖고, 경고 출력 단계는, 촬상 장치의 취득 화상에 포함되는 얼굴의 시선 내에, 시선이 카메라 방향을 향하고 있지 않은 네거티브 상태의 얼굴 화상이 포함되는 경우에, 경고 출력을 행하는 단계이다.

실시예에 따른 정보 처리 방법에서, 정보 처리 방법은 시선 판별부의 시선 판별 결과를 데이터 검색 처리에 적용하고, 시선이 카메라 방향을 향하고 있는 포지티브 상태, 또는 시선이 카메라 방향을 향하고 있지 않은 네거티브 상태 중 어느 하나의 화상을 선택 추출하는 검색 처리를 실행하는 단계를 갖는다.

실시예에 따른 정보 처리 방법에서, 정보 처리 방법은, 또한，데이터 처리부가, 화상 데이터의 시선 판별 처리 결과를 기억부에 저장하는 화상 데이터의 대응 정보로서 기억부에 저장하는 처리를 행하는 단계이다.

본 발명의 또 다른 실시예에 따르면, 정보 처리 장치에서 정보처리를 실행시키는 컴퓨터 프로그램이 제공되며, 얼굴 검출부에, 화상 데이터에 포함되는 얼굴 영역을 검출시키는 얼굴 검출 단계와, 얼굴 구성 부위 검출부에, 얼굴 검출 단계에서 검출한 얼굴 영역으로부터 얼굴 구성 부위를 검출시키는 얼굴 구성 부위 검출 단계와, 시선 판별부에, 상기 얼굴 구성 부위 검출 단계에 있어서 얼굴 구성 부위가 검출된 얼굴 화상의 시선 판별 처리를 실행시키는 시선 판별 단계를 갖고, 시선 판별 단계는, 얼굴 구성 부위가 검출된 얼굴 화상 데이터의 시선에 대하여, 시선이 카메라 방향을 향하고 있는 포지티브 상태, 또는 시선이 카메라 방향을 향하고 있지 않은 네거티브 상태 중 하나인지를 판별하는 처리를, 각 상태에 대응하는 분류 데이터로 이루어지는 학습 데이터를 저장한 시선 판별 사전과 입력 얼굴 화상 데이터와의 대조 처리에 의해 실행시키는 단계이다.

본 발명의 컴퓨터 프로그램은, 예를 들면, 다양한 프로그램 코드를 실행 가능한 범용 컴퓨터 시스템에 대하여, 컴퓨터 판독 가능한 형식으로 제공하는 기억 매체, 통신 매체에 의해 제공 가능한 컴퓨터 프로그램이다. 이와 같은 프로그램을 컴퓨터 판독 가능한 형식으로 제공하는 것에 의해, 컴퓨터 시스템상에서 프로그램에 따른 처리가 실현된다.

본 발명의 또 다른 목적, 특징이나 이점은, 후술하는 본 발명의 실시예나 첨부하는 도면에 기초하는 보다 상세한 설명에 의해 명확해질 것이다. 또한，본 명세서에서 시스템이란, 복수의 장치의 논리적 집합 구성이며, 각 구성의 장치가 동일 케이스 내에 있는 것이라고 한정하지 않는다.

본 발명의 일 실시예에서는, 화상에 포함되는 얼굴 영역, 눈코입 등의 얼굴 구성 부위를 검출하고, 또한，시선 판별부가 눈코입이 검출된 얼굴 화상의 시선 판별 처리를 실행한다. 시선 판별 처리는, 시선이 카메라 방향을 향하고 있는 포지티브 상태, 또는 시선이 카메라 방향을 향하고 있지 않은 네거티브 상태 중 어느 하나인지를, 각 상태에 대응하는 분류 데이터로 이루어지는 학습 데이터를 저장한 시선 판별 사전을 이용하여 행한다. 구체적으로는，화상의 특정 위치의 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘을 적용하여 시선 판별 처리를 행한다. 본 구성에 의하면, 시선이 카메라 방향을 향하고 있거나 향하고 있지 않은 2개의 상태 판별이라고 하는 명확한 구분에 의한 시선 판별이며, 판별 처리의 정밀도가 높고, 또한 판별 결과의 이용 가치도 높은 구성이 실현된다.

이하, 도면을 참조하면서 본 발명의 실시 형태에 따른 정보 처리 장치, 정보 처리 방법과 컴퓨터 프로그램의 상세에 대하여 설명한다.

우선，도 1을 참조하여 본 발명에 따른 정보 처리 장치의 실행하는 처리의 개요에 대하여 설명한다. 실시예에 따른 정보 처리 장치는, 카메라의 촬영 화상의 해석을 실행하고, 촬영 화상에 포함되는 사람이나 동물 등의 얼굴의 눈의 시선 방향을 검출하는 처리를 실행하는 정보 처리 장치이며, 시선이 카메라를 향하고 있는지의 여부를 판별한다. 구체적으로는 이하의 두 상태를 판별한다.

포지티브 상태(Positive): 카메라에 대하여 시선이 향하고 있는 얼굴(정면 얼굴이나 옆 얼굴도 포함함)과,

네거티브 상태(Negative): 카메라에 대하여 시선이 향하고 있지 않은 얼굴, 예를 들면, 옆을 보고 있는 얼굴이나, 눈을 감아버린 얼굴.

실시예에 따른 정보 처리 장치는, 카메라에 의한 촬영 화상에 포함되는 사람이나 동물 등의 얼굴의 눈의 시선 방향이, 이들 2개의 상태 중 어디에 있는지를 판별한다. 구체예를 도 1에 도시한다.

도 1의 (A)는, 포지티브 상태(Positive), 즉, 카메라에 대하여 시선이 향하고 있는 얼굴의 예이며, 도 1의 (B)는, 네거티브 상태(Negative), 즉, 카메라에 대하여 시선이 향하고 있지 않은 얼굴의 예이다.

본 발명의 정보 처리 장치의 구성 및 처리에 대하여, 도 2 이하를 참조하여 설명한다. 도 2는, 본 발명의 정보 처리 장치의 일 실시예 구성을 도시한 도면이다. 본 발명의 정보 처리 장치는, 약한 성능의 학습기(weak learner)를 조합하여 고정밀도의 판별 결과를 출력하는, 소위 부스팅(Boosting)에 의해, 카메라에 의한 촬영 화상에 포함되는 사람이나 동물 등의 얼굴의 눈의 시선 방향이, 카메라에 대하여 시선이 향하고 있는 포지티브 상태이고, 카메라에 대하여 시선이 향하고 있지 않은 네거티브 상태 중 어디에 있는지를 판별한다.

도 2에 도시한 정보 처리 장치(100)는, 얼굴 검출부(101), 눈코입 검출부 (102), 화상 처리부(103), 시선 판별부(104)를 갖고，화상 처리부(103)에는, 회전 보정 처리부(111), 얼굴 사이즈 정규화 처리부(112), 얼굴 영역 추출부(113)가 포함된다. 또한，얼굴 검출부(101)에서의 얼굴 검출 처리에 이용되는 얼굴 검출 사전(121,) 눈코입 검출부(102)에서의 눈코입 검출 처리에 이용되는 눈코입 검출 사전(122), 시선 판별부(104)에서의 시선 판별 처리에 이용되는 시선 판별 사전(123)을 갖는다.

도 2에 도시한 정보 처리 장치(100)는, 부스팅(Boosting)이 약한 성능의 학습기(weak learner)가, 얼굴 검출부(101), 눈코입 검출부(102), 시선 판별부(104)에 있서 이용되며, 이들 처리부에서는, 학습에서 얻어진 화상의 특정 위치의 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘을 이용한 처리를 행하는 구성으로 되어 있다. 또한，이 알고리즘의 상세 내용은, 예를 들면, 일본특허 공개 제2005-284348호에 개시되어 있다.

시선 판별 처리의 대상 화상이 입력되면，우선，얼굴 검출부(101)는, 입력 화상 프레임에 얼굴이 찍혀 있는지의 여부의 검출을 행한다. 이 얼굴 검출 처리는, 얼굴 검출 사전(121)을 이용하여 행해지고, 전술한 바와 같이, 부스팅(Boosting)이 약한 성능의 학습기(weak learner)를 이용한 처리로서 실행되며, 학습에서 얻어진 화상의 특정 위치의 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘을 이용한 처리에 의해 실행된다. 즉, 얼굴 검출부(101)는, 화상 데이터에 포함되는 얼굴 영역 검출 처리를, 다양한 얼굴 영역 화상 정보를 저장한 얼굴 검출 사전(121)을 참조하여, 화상의 특정 위치의 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘을 이용하여 실행한다.

얼굴 검출 사전(121)에는, 화상의 특정 위치의 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘에 의한 얼굴 검출의 학습 결과가 저장되고, 얼굴 검출부(101)는, 입력 화상 프레임에 얼굴이 비쳐서 있는지의 여부의 판단을, 입력 화상의 특정 위치의 화소 페어의 차분값 데이터와, 학습 결과가 저장된 얼굴 검출 사전(121)의 데이터와의 대조에 의해 실행한다.

　얼굴 검출부(101)에서 검출된 얼굴 검출 정보는, 화상과 함께 얼굴 구성 부위 검출부로서의 눈코입 검출부(102)에 입력된다. 눈코입 검출부(102)는, 얼굴 검출부(101)에서 검출된 얼굴에 대하여, 얼굴 구성 부위, 즉 눈·코·입의 검출 처리를 행한다. 이 눈-코-입의 검출 처리는, 얼굴 구성 부위 검출 사전, 즉 눈코입 검출 사전(122)을 이용하여 부스팅(Boosting)이 약한 성능의 학습기(weak learners)를 이용한 처리로서 실행되며, 학습에서 얻어진 화상의 특정 위치의 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘을 이용한 처리에 의해 실행된다. 즉, 얼굴 구성 부위 검출부로서의 눈코입 검출부(102)는, 얼굴 검출부(101)가 검출한 얼굴 영역으로부터의 얼굴 구성 부위 검출 처리를, 다양한 얼굴 구성 부위 화상 정보를 저장한 얼굴 구성 부위 검출 사전, 즉 눈코입 검출 사 전(122)을 참조하여, 화상의 특정 위치의 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘을 이용하여 실행한다.

눈코입 검출 사전(122)에는, 화상의 특정 위치의 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘에 의한 눈코입 검출의 학습 결과가 저장되고, 눈코입 검출부(102)는, 얼굴 검출부(101)에서 검출된 얼굴에 대한 눈-코-입의 검출 처리를, 입력 화상의 특정 위치의 화소 페어의 차분값 데이터와, 학습 결과가 저장된 눈코입 검출 사전(122)의 데이터와의 대조에 의해 실행한다.

눈코입 검출부(102)에서의 눈코입 검출 처리에서，눈코입이 전부 갖춰지지 않은 얼굴은, 여기서 처리 대상으로부터 기각하고, 시선 판별은 행하지 않는다. 눈코입이 전부 검출된 얼굴에 대해서만, 시선 판별 대상의 얼굴로서 선택하고, 눈, 코, 입의 위치 관계 정보를 취득한다.

화상 데이터는, 눈코입이 전부 검출된 얼굴의 선택 정보와, 눈, 코, 입의 위치 관계 정보와 함께 화상 처리부(103)에 입력된다. 화상 처리부(103)의 회전 보정 처리부(111)는, 시선 판별 대상으로 삼아진 얼굴 영역에 대하여, 눈, 코, 입의 위치 관계를 이용하여 화상의 회전 보정을 행한다. 즉, 기울어져 있는 얼굴을 정립시키는 처리를 행한다.

다음으로，회전 보정된 화상 데이터는, 얼굴 사이즈 정규화 처리부(112)에 입력되고, 얼굴 사이즈 정규화 처리부(112)에서 눈코입의 거리 정보를 이용하여 얼굴 부분의 사이즈가, 미리 설정한 표준 사이즈에 동등하게 되도록 화상 사이즈의 확대, 축소를 실행하여 사이즈의 정규화 처리를 행한다.

정규화 처리가 실시된 화상은, 다음에 얼굴 영역 추출부(113)가 입력되고, 얼굴 화상 영역 부분의 추출 처리가 실행된다. 이 추출 화상이, 시선 판별부(104)에 출력된다.

시선 판별부(104)는, 추출 화상에 포함되는 얼굴의 시선 판별 처리를 행한다. 이 시선 판별 처리는, 시선 판별 사전(123)을 이용하여 부스팅(Boosting)이 약한 성능의 학습기(weak learners)를 이용한 처리로서 실행되며, 학습에서 얻어진 화상의 특정 위치의 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘을 이용한 처리에 의해 실행된다.

시선 판별 사전(123)에는, 시선이 카메라 방향을 향하고 있는 포지티브 상태, 또는 시선이 카메라 방향을 향하고 있지 않은 네거티브 상태에 대응하는 분류 데이터로 이루어지는 학습 데이터, 즉 시선 판별의 학습 결과가 저장되고, 시선 판별부(104)는, 입력 화상의 특정 위치의 화소 페어의 차분값 데이터와, 학습 결과가 저장된 시선 판별 사전(123)의 데이터와의 대조에 의해 시선 판별 처리를 실행한다.

시선 판별부(104)는, 추출 화상에 포함되는 얼굴의 시선 판별 처리로서, 화상에 포함되는 사람이나 동물 등의 얼굴의 눈의 시선 방향이, 카메라에 대하여 시선이 향하고 있는 포지티브 상태, 또는 카메라에 대하여 시선이 향하고 있지 않는 네거티브 상태 중 어디에 있는지를 학습에서 얻어진 화상의 특정 위치의 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘을 이용한 처리에 의해 판별하고, 판별 결과를 출력한다.

학습 결과가 저장된 시선 판별 사전(123)은, 포지티브 상태와, 네거티브 상태와의 2 클래스로 분류한 학습 데이터가 저장되고, 시선 판별부(104)는, 이와 같은 학습 결과가 저장된 시선 판별 사전(123)의 데이터와의 대조에 의해 시선 판별을 실행한다.

입력 화상에 복수의 얼굴이 포함되는 경우에는, 하나의 얼굴에 관한 처리가 끝나면 다음의 얼굴부에 대하여 동일한 처리를 반복하고，최종적으로 화상 내에 검출된 모든 얼굴에 관한 처리를 실행하여, 처리를 종료한다.

도 2에 도시한 3개의 사전, 즉, 얼굴 검출부(101)에서의 얼굴 검출 처리에 이용되는 얼굴 검출 사전(121), 눈코입 검출부(102)에서의 눈코입 검출 처리에 이용되는 눈코입 검출 사전(122), 시선 판별부(104)에서의 시선 판별 처리에 이용되는 시선 판별 사전(123), 이것들의 사전은 시선 판별을 행하는 대상에 의해 구분하여 사용한다. 예를 들면, 사람의 시선 판별을 실행하는 경우에는, 사람용의 사전을, 고양이라면 고양이용의 사전을, 개라면 개용의 사전 등과 같이 용도에 따라 구분하여 사용한다.

상술한 바와 같이, 시선 판별부(104)는 추출 화상에 포함되는 얼굴의 시선 판별 처리로서, 화상에 포함되는 사람이나 동물 등의 얼굴의 눈의 시선 방향이 카메라에 대하여 시선이 향하고 있는 포지티브 상태, 또는 카메라에 대하여 시선이 향하고 있지 않는 네거티브 상태 중 어디에 있는지를 학습에서 얻어진 화상의 특정 위치의 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘을 이용한 처리에 의해 판별하지만, 이 처리를 실행할 때, 얼굴 화상의 전체에 관한 처리를 행하면 처리 시간이 길어지게 된다. 따라서, 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘을 이용한 처리의 적용 범위를 눈의 영역에 한정하는 등의 처리 범위를 제한하는 처리를 행하는 것이 바람직하다.

예를 들면, 도 3a 내지 도 3d에 도시한 바와 같이, 처리 대상으로 하는 픽셀 페어를 선택하는 마스크를 이용함으로써, 처리를 효율화할 수 있다. 도 3에는, 이하의 복수의 종류의 마스크 예를 나타내고 있다.

도 3a: 양 눈을 포함하는 사각형 영역을 처리 대조 영역으로서 설정하는 마스크

도 3b: 각 눈의 개별 영역을 처리 대상 영역으로서 설정하는 마스크

도 3c: 각 눈과 코 상부 영역을 처리 대상 영역으로서 설정하는 마스크

도 3d: 각 눈과 코 전체를 처리 대상 영역으로서 설정하는 마스크

이들의 마스크를 설정하여, 처리 영역을 한정함으로써, 효율적인 학습 결과의 생성이나, 판별 처리가 가능하게 된다.

도 2를 참조하여 설명한 정보 처리 장치에서의 시선 판별 처리의 성능 평가 데이터를 도 4에 도시한다. 피험자(촬영 유저)는, 카메라에 대하여 정면무 방향으로부터 -5도∼+5도의 범위에 얼굴의 방향을 설정하고, 다양한 방향으로 시선을 향하여, 도 2에 도시한 구성에 의해 시선 판별을 실행하였다.

도 4는, 서로 다른 방(룸 1, 2)에서의 실험 결과를 ROC 곡선으로서 나타내고 있다. 그래프의 횡축은 판별 결과의 오류율, 종축이 정답율에 대응한다. 시선 판별은, 카메라에 대하여 시선이 향하고 있는 포지티브 상태, 또는 카메라에 대하여 시선이 향하고 있지 않는 네거티브 상태 중 어디에 있는지의 판별을 행한 것으로, 대부분의 실험 결과는 정답이었다.

다음으로，도 5에 도시한 플로우차트를 참조하여, 도 2에 도시한 정보 처리 장치를 적용한 시선 판별 처리의 시퀀스에 대하여 설명한다. 시선 판별 처리의 대상 화상이 입력되면，우선，단계 S101에서 입력 화상 프레임에 얼굴이 찍혀 있는지의 여부의 얼굴 검출 처리를 행한다. 이 처리는, 도 2에 도시한 정보 처리 장치의 얼굴 검출부(101)의 처리로서 실행된다. 전술한 바와 같이, 얼굴 검출부(101)는, 입력 화상 프레임에 얼굴이 찍혀 있는지의 여부의 검출을 얼굴 검출 사전(121)을 이용하고, 화소 페어 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘을 이용한 처리에 의해 실행한다.

단계 S102에서, 미처리 화상의 유무가 판별되고, 미처리 화상이 없는 경우에는 처리를 종료한다. 미처리 화상이 있는 경우에는 단계 S103으로 진행한다. 단계 S103에서는, 눈코입 검출 처리가 실행된다. 이 처리는, 도 2에 도시한 정보 처리 장치의 눈코입 검출부(102)의 처리로서 실행된다. 눈코입 검출부 (102)는, 얼굴 검출부(101)에서 검출된 얼굴에 대하여, 눈-코-입의 검출 처리를 눈코입 검출 사전(122)을 이용하여 화상의 특정 위치의 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘을 이용한 처리에 의해 실행한다.

단계 S104에서, 눈코입 검출 처리에서，눈코입의 모든 부품이 검출되었는지의 여부를 판정한다. 상술한 바와 같이, 눈코입 검출부(102)에서의 눈코입 검출 처리에서，눈코입이 전부 갖춰지지 않은 얼굴은, 여기에서 처리 대상으로부터 기각 하고, 시선 판별은 행하지 않는다. 즉, 단계 S111로 진행하고, 처리 대상으로부터 제거하여, 단계 S101로 진행하고, 다음 얼굴의 처리에 이행한다.

눈코입이 전부 검출된 얼굴에 대해서만, 단계 S105 이하의 처리를 실행한다. 단계 S105∼S107은, 도 2에 도시한 화상 처리부(103)의 처리이다. 우선，단계 S105에서, 화상 처리부(103)의 회전 보정 처리부(111)가, 시선 판별 대상으로 한 얼굴 영역에 대하여, 눈, 코, 입의 위치 관계를 이용하여 화상의 회전 보정을 행한다. 즉, 기울어져 있는 얼굴을 정립시키는 처리를 행한다.

단계 S106에서, 얼굴 사이즈 정규화 처리부(112)에서 눈코입의 거리 정보를 이용하여 얼굴 부분의 사이즈가, 미리 설정한 표준 사이즈에 동등하게 되도록 화상 사이즈의 확대, 축소에 의한 사이즈의 정규화 처리가 행해진다. 다음으로，단계 S107에서, 얼굴 영역 추출부(113)가 정규화 처리가 실시된 화상으로부터 얼굴 화상 영역 부분의 추출 처리를 실행한다.

단계 S108에서, 시선 판별 처리가 실행된다. 이 처리는 도 2에 도시한 정보 처리 장치의 시선 판별부(104)의 처리이다. 시선 판별부(104)는, 추출 화상에 포함되는 얼굴의 시선 판별 처리를 시선 판별 사전(123)을 이용하여 학습에서 얻어진 화상의 특정 위치의 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDi 알고리즘을 이용한 처리에 의해 실행한다. 시선 판별부(104)는, 추출 화상에 포함되는 얼굴의 시선 판별 처리로서, 화상에 포함되는 사람이나 동물 등의 얼굴의 눈의 시선 방향이, 카메라에 대하여 시선이 향하고 있는 포지티브 상태, 및 카메라에 대하여 시선이 향하고 있지 않는 네거티브 상태 중 어디에 있는지를 판별한다. 1 개의 얼굴 화상에 대하여, 이 시선 판별 처리가 종료하면, 단계 S101로 되돌아가 다음의 얼굴 화상의 처리로 이행한다. 단계 S102에서 미처리 화상이 없다고 판단되면 처리가 종료한다.

본 발명의 정보 처리 장치에서는, 도 2에 도시한 정보 처리 장치의 시선 판별부(104)의 처리로서, 화상에 포함되는 사람이나 동물 등의 얼굴의 눈의 시선 방향이, 카메라에 대하여 시선이 향하고 있는 포지티브 상태, 및 카메라에 대하여 시선이 향하고 있지 않는 네거티브 상태 중 어디에 있는지를 판별한다고 하는 매우 명확한 2개의 상태 판별 처리이며, 이 2개의 상태 판별 처리를, 특정 위치의 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘을 이용하여 학습 데이터로서 취득된 시선 판별 사전(123)을 이용하여 실행하는 구성이며, 보다 많은 학습 데이터로부터 생성된 사전을 적용함으로써 정확한 시선 판별이 가능하게 된다. 또한，시선 판별 사전을 시선 판별 대상에 의해 구분하여 사용함으로써, 보다 정확한 판별이 실현된다. 예를 들면, 사람의 시선 판별을 실행하는 경우에, 사람용의 사전을, 고양이라면 고양이용의 사전을, 개라면 개용의 사전 등과 같은 사전의 구분 사용이다.

도 2에 도시한 정보 처리 장치를 이용한 구체적인 데이터 처리 어플리케이션의 복수의 예에 대하여, 도 6 이하를 참조하여 설명한다. 이하 설명하는 처리는, 이하의 (ａ)∼ (d)의 4개의 처리이다.

(a) 화상 음성 인식 시스템에서의 이용예,

(b) 촬상 장치에서의 이용예 A,

(c) 화상 데이터 관리 시스템에서의 이용예, 및

(d) 촬상 장치에서의 이용예 B

이들의 처리는, (a) 및 (c)은 예를 들면 PC 등의 정보 처리 장치에서 실행되고, (b), (d)는 스틸 카메라나 비디오 카메라 등의 촬상 장치에서 실행된다. 이하, 이들 처리 시퀀스에 대하여 설명한다.

(a) 화상 음성 인식 시스템에서의 이용예

우선，전술한 시선 판별 처리를 화상 음성 인식 시스템에 응용한 이용예에 대하여 도 6에 도시한 플로우차트를 참조하여 설명한다. 도 6에 도시한 플로우는, 예를 들면 PC 등의 정보 처리 장치에서 실행된다. 도 6에 도시한 처리 시퀀스 및 먼저 도 5를 참조하여 설명한 시선 판별 처리를 실행하는 프로그램이 정보 처리 장치의 기억부에 저장되고, CPU 등에 의해 구성되는 제어부에서 도 6에 도시한 처리 시퀀스 및 먼저 도 5를 참조하여 설명한 시선 판별 처리가 실행된다.

도 6에 도시한 처리를 실행하는 정보 처리 장치는, 음성 인식 처리를 실행하는 음성 인식부를 갖고，시선 판별 결과와, 음성 인식부에서의 음성 인식 결과를 통합하고, 발화자의 해석을 실행하는 구성을 갖는다. 도 6의 플로우에서의 각 단계의 처리에 대하여 설명한다.

도 6의 플로우의 단계 S201에서, 화상과 음성 정보가 입력된다. 화상은 카메라를 통하여 정보 처리 장치에 입력되며, 음성은 마이크를 통하여 정보 처리 장치에 입력된다.

단계 S202에서는, 입력 화상에 대한 시선 판별 처리가 실행된다. 도 2에 도 시한 처리 구성을 적용한 처리, 구체적으로는，도 5에 도시한 플로우차트에 따라서 시선 판별 처리가 실행된다. 이 시선 판별 처리의 결과는, 입력 화상에 포함되는 얼굴의 시선이, 카메라에 대하여 시선이 향하고 있는 포지티브 상태, 또는 카메라에 대하여 시선이 향하고 있지 않는 네거티브 상태 중 어디에 있는지의 판별 결과이다이 화상에 기초하는 시선 판별 처리와 함께 단계 S203에서, 입력 음성 정보에 기초하는 음성 인식 처리가 실행된다. 이 음성 인식 처리는, 기존의 음성 인식기술을 적용한 것이어도 된다.

단계 S204에서는, 화상에 기초하는 시선 판별 결과와, 음성에 기초하는 음성 인식 결과를 이용한 필터링 처리를 실행한다. 구체적으로는，예를 들면, 음성 인식 결과의 말을 발한 인물을 특정하는 경우에, 화상에 기초하는 시선 판별 결과를 이용하여 카메라 방향을 보고 있는 인물을 발화자로서 특정하는 처리 등을 실행한다.

단계 S205에서는, 시선 판별 결과와, 음성에 기초하는 음성 인식 결과를 이용한 필터링 처리 결과에 기초하여, 다음의 액션을 결정해서 결정 액션을 실행한다. 예를 들면 그 발화자에 대하여 카메라를 줌업하는 등의 처리를 실행한다. 도는 발화 기록 시에, 발화자의 식별 정보를 메타데이터로서 기록하면 일치 처리를 행할 수 있다.

일반적으로, 음성 인식 처리는 인식 오류가 많고, 예를 들면 주위에서 떠들어대고 있는 사람이 있거나, 다양한 소음이 존재하면 유저가 아무것도 발화하지 않아도 멋대로 음성 인식하게 되어, 커맨드(예를 들면, 카메라 제어나 데이터 기록 등의 커맨드)가 입력되게 되는 경우가 많아, 대화 시스템의 큰 문제로 되어 있다. 음성 인식과 함께, 전술한 시선 판별 처리를 실행하여 시선이 카메라를 향하고 있는 경우에만 커맨드를 접수하는 시스템으로 하면，시스템은, 여분의 잘못된 커맨드의 실행을 배제할 수 있어, 확실한 처리를 실행할 수 있다. 특히, 파티나 라이브 회장 등 시끄러운 장소에서는, 잘못 듣지 않도록 시선을 맞춰서 말하는 것이 자연스러우며, 대화 시스템에서 유저가 커맨드를 이야기할 때에 카메라와 의사적으로 "눈을 맞춘다"는 것도 자연스러운 동작이므로 유저에게 고통을 주지 않아, 자연스러운 처리가 가능하게 된다.

(b) 촬상 장치에서의 이용예 A

다음으로，전술한 시선 판별 처리를 촬상 장치에서 이용한 처리예에 대하여 도 7에 도시한 플로우차트를 참조하여 설명한다. 도 7에 도시한 플로우는, 예를 들면 디지털 스틸 카메라 등의 촬상 장치에서 실행된다. 도 7에 도시한 처리 시퀀스 및 먼저 도 5를 참조하여 설명한 시선 판별 처리를 실행하는 프로그램이 촬상 장치의 기억부에 저장되며, CPU 등에 의해 구성되는 제어부에서 도 7에 도시한 처리 시퀀스 및 먼저 도 5를 참조하여 설명한 시선 판별 처리가 실행된다.

도 7에 도시한 플로우에 따른 처리를 실행하는 정보 처리 장치는 촬상 장치이며, 시선 판별부에서의 시선 판별 결과를 입력하여 촬상 장치의 셔터 제어를 실행하는 셔터 제어부를 갖는다. 셔터 제어부는, 촬상 장치의 취득 화상에 포함되는 얼굴의 시선 내에, 시선이 카메라 방향을 향하고 있지 않은 네거티브 상태의 얼굴 화상이 포함되는 경우에, 셔터 조작을 불가로 하는 제어를 행한다. 도 7의 플로우 의 각 단계의 처리에 대하여 설명한다.

도 7의 플로우의 단계 S221에서, 화상이 입력된다. 화상은 카메라의 촬상부 로부터 입력된다. 단계 S222에서는, 입력 화상에 대한 시선 판별 처리가 실행된다. 도 2에 도시한 처리 구성을 적용한 처리, 구체적으로는，도 5에 도시한 플로우차트에 따라서 시선 판별 처리가 실행된다. 이 시선 판별 처리의 결과는, 입력 화상에 포함되는 얼굴의 시선이, 카메라에 대하여 시선이 향하고 있는 포지티브 상태, 또는 카메라에 대하여 시선이 향하고 있지 않는 네거티브 상태 인지의 판별 결과이다.

단계 S223에서는, 단계 S222에서 취득한 시선 판별 결과에 기초하는 셔터 제어 처리가 실행된다. 예를 들면, 화상에 포함되는 얼굴의 시선이 카메라 방향을 향하고 있을 경우(포지티브 상태)에는, 셔터 조작을 가능하게 하고, 화상에 포함되는 얼굴의 시선이 카메라 방향을 향하고 있지 않은 경우(네거티브 상태)는, 셔터 조작을 불가능한 설정으로 하는 등의 제어를 행한다. 이 제어에 의해, 촬영자는, 셔터 조작의 가부에 의해, 피사체의 시선 상태를 판별할 수 있어, 카메라를 보지 않고 있는 얼굴을 잘못하여 촬영하게 되는 것을 방지할 수 있다.

화상에 포함되는 얼굴의 시선이 카메라 방향을 향하고 있는 경우(포지티브 상태)에는, 셔터 조작이 가능해지고，단계 S224에서 촬영 처리가 실행되며, 단계S225에서 촬영 화상 데이터가 기억부에 저장된다.

아기 등, 사진을 찍고 싶어도 좀처럼 카메라를 보아 주지 않는 사람이나 펫을 촬영할 때에, 한쪽 손으로 대상인 사람의 관심을 끌면서, 한쪽 손은 셔터 스위 치에 놓아 두고, 셔터 찬스를 놓치지 않도록 대기한다고 하는 촬영 방법을 강요당하는 경우가 많지만, 한쪽 손으로는 관심을 끄는 것은 어려운 경우가 많아, 타이머 기능을 사용하여 양손을 자유롭게 하여 촬영한다고 하는 경우가 있지만, 아기나 펫의 셔터 찬스는 짧아, 타이머로는 셔터 찬스를 놓치게 되는 경우가 많았다. 그러나，전술한 시선 판별을 행함으로써 피사체가 이쪽을 보고 있는 「좋은 표정」을 확인하여 사진을 찍을 수 있게 된다.

(c) 화상 데이터 관리 시스템에서의 이용예

다음으로，전술한 시선 판별 처리를 화상 데이터 관리 시스템에 응용한 이용 예에 대하여 도 8에 도시한 플로우차트를 참조하여 설명한다. 도 8에 도시한 플로우는, 예를 들면 PC 등의 정보 처리 장치에서 실행된다. 도 8에 도시한 처리 시퀀스 및 먼저 도 5를 참조하여 설명한 시선 판별 처리를 실행하는 프로그램이 정보 처리 장치의 기억부에 저장되며, CPU 등에 의해 구성되는 제어부에서 도 8에 도시한 처리 시퀀스 및 먼저 도 5를 참조하여 설명한 시선 판별 처리가 실행된다.

도 8에 도시한 플로우에 따른 처리를 실행하는 정보 처리 장치는, 시선 판별부에서 판별된 복수의 화상 프레임에 대응하는 시선 판별 결과를 입력하고, 화상 데이터의 선별 처리를 행하는 프레임 선별부를 갖는다. 프레임 선별부는, 포지티브 상태와 네거티브 상태의 각 상태 정보를 적용하여 화상 프레임의 선별을 행한다. 도 8에 도시한 플로우의 각 단계의 처리에 대하여 설명한다.

도 8의 플로우의 단계 S241에서, 동화상이 입력된다. 동화상은, 예를 들면 정보 처리 장치의 기억부에 기억된 동화상 데이터이다.

단계 S242에서는, 입력된 동화상을 구성하는 각 프레임 화상에 대한 시선 판별 처리가 실행된다. 도 2에 도시한 처리 구성을 적용한 처리, 구체적으로는, 도 5에 도시한 플로우차트에 따라서 시선 판별 처리가 실행된다. 이 시선 판별 처리의 결과는, 입력 화상에 포함되는 얼굴의 시선이, 카메라에 대하여 시선이 향하고 있는 포지티브 상태, 또는 카메라에 대하여 시선이 향하고 있지 않는 네거티브 상태 중 어디에 있는지의 판별 결과가 각 화상 프레임에 대응하는 정보로서 취득된다.

단계 S243에서는, 각 화상 프레임에 대응하는 시선 판별 결과를 적용한 화상 프레임의 선별 처리를 실행한다. 예를 들면, 화상 프레임을, 포지티브 상태(Positive)의 얼굴 화상을 포함하는 프레임, 네거티브 상태(Negative)의 얼굴 화상만의 프레임, 및 얼굴 화상을 포함하지 않는 프레임으로 분류하는 처리 등이 실행된다.

단계 S244에서는, 단계 S243에서 분류한 프레임을 인덱스, 예를 들면 썸네일 화상의 표시용 화상 프레임으로서 설정하고, 단계 S245에서 인덱스 정보(썸네일 화상)의 표시나 분류 정보에 기초하는 데이터의 분류 기억 처리 등이 행해진다.

예를 들면, 많은 동화상 편집 소프트웨어에는 각 씬에 대응하는 썸네일 화상을 표시하여 편집을 쉽게 한다고 하는 기능이 존재한다. 썸네일의 만드는 방법으로서는, 구획된 씬의 최초의 프레임을 사용하는 것이나, 일정 프레임 간격으로 몇개의 프레임을 추출하고 옆으로 연결하여 작성하는 것이 존재한다. 그러나，씬의 최초나 일정 간격으로 잘라낸 화상을 썸네일로 하는 것만으로는 씬의 내용을 알기 어려워 썸네일의 의미가 이루어지지 않는 경우가 있다. 이와 같은 경우, 전술한 시선 판별 결과를 이용하여, 찍혀 있는 사람이나 펫이 카메라 방향을 보고 있는 화상을 선택하여 카메라 시선의 "좋은 표정의 프레임"을 인덱스 화상으로서 추출할 수 있어, 알기 쉬운 인덱스 추출이 실현되어, 동화상 편집의 효율을 향상할 수 있다.

(d) 촬상 장치에서의 이용예 B

전술한 시선 판별 처리를 촬상 장치에서 이용한 처리예에 대하여 도 9에 도시한 플로우차트를 참조하여 설명한다. 도 9에 도시한 플로우는, 예를 들면 디지털 스틸 카메라 등의 촬상 장치에서 실행된다. 도 9에 도시한 처리 시퀀스 및 먼저 도 5를 참조하여 설명한 시선 판별 처리를 실행하는 프로그램이 촬상 장치의 기억부에 저장되며, CPU 등에 의해 구성되는 제어부에서 도 9에 도시한 처리 시퀀스 및 먼저 도 5를 참조하여 설명한 시선 판별 처리가 실행된다.

도 9에 도시한 플로우에 따른 처리를 실행하는 정보 처리 장치는 촬상 장치이며, 시선 판별부에서의 시선 판별 결과를 입력하여 경고 출력을 실행하는 경고 출력부를 갖는다. 경고 출력부는, 촬상 장치의 취득 화상에 포함되는 얼굴의 시선 내에, 시선이 카메라 방향을 향하고 있지 않은 네거티브 상태의 얼굴 화상이 포함되는 경우에, 경고 출력을 행한다. 도 9에 도시한 플로우의 각 단계의 처리에 대하여 설명한다.

도 9의 플로우의 단계 S261에서, 화상이 입력된다. 화상은 카메라의 촬상부 로부터 입력된다. 단계 S262에서는, 입력 화상에 대한 시선 판별 처리가 실행된 다.

도 2에 도시한 처리 구성을 적용한 처리, 구체적으로는，도 5에 도시한 플로우차트에 따라서 시선 판별 처리가 실행된다. 이 시선 판별 처리의 결과는, 입력 화상에 포함되는 얼굴의 시선이, 카메라에 대하여 시선이 향하고 있는 포지티브 상태, 또는 카메라에 대하여 시선이 향하고 있지 않는 네거티브 상태 중 어디에 있는지의 판별 결과이다.

단계 S263에서는, 단계 S262에서 취득한 시선 판별 결과에 기초하여, 입력 화상에 포함되는 인물 등의 얼굴의 시선의 모두가 카메라 방향을 향하고 있는지를 판별하는 처리를 실행한다. 입력 화상에 포함되는 인물 등의 얼굴 시선의 모두가 카메라 방향을 향하고 있는 경우, 단계 S264의 판정이 '예'로 되어, 처리가 종료하고, 다음 조작, 예를 들면 촬영 처리가 실행된다.

한편，입력 화상에 포함되는 인물 등의 얼굴의 시선의 모두가 카메라 방향을 향하고 있지 않은 경우, 단계 S264의 판정이 '아니오'로 되어, 단계 S265로 진행하고, 경고의 출력이 행해진다. 예를 들면 경고음의 출력, 경고 메시지의 표시 처리가 행해진다. 이 경고에 의해, 촬영자는, 촬영 처리의 전에 피사체의 시선 상태를 판별할 수 있어, 카메라를 보고 있지 않은 얼굴을 잘못하여 촬영하게 되는 것을 방지할 수 있다.

예를 들면, 중요한 행사에서의 단체 사진을 찍은 다음 그 자리에서 실패하였는지의 여부를 확인하고자 하는 경우가 있지만, 도 9에 도시한 플로우에 따라서 시선 방향 판별 결과를 이용한 처리를 행함으로써, 카메라를 보고 있지 않은 얼굴을 잘못하여 촬영하게 되는 것을 방지할 수 있다. 단체 사진에서는 좌우의 끝에 있는 사람은 옆 방향 얼굴로 되는 경우가 많아, 얼굴 방향 검출만으로는 불충분하다. 알고 싶은 것은 "전원이 카메라를 보고있는지의 여부"이다. 본 실시예에 따른 정보 처리 장치에서는, 얼굴의 방향에 기초하여 시선 판별을 행하는 것이 아니라, 학습 데이터에 기초하여 입력 화상에 포함되는 얼굴의 시선이, 카메라에 대하여 시선이 향하고 있는 포지티브 상태, 또는 카메라에 대하여 시선이 향하고 있지 않는 네거티브 상태 중 어디에 있는지의 판별을 행하는 것이며, 카메라의 취득 화상에 기초하여, 상기한 시선 판별 처리를 행하여, 모니터 등에 경고 아이콘 등을 표시할 수 있도록 된다. 또한，많은 얼굴이 모니터에 표시되어 있는 경우, 네거티브 상태(Negative), 즉, 카메라에 대하여 시선이 향하고 있지 않은 인물만을 특정한 식별 정보를 각 얼굴에 대응지어 표시한다고 하는 처리도 가능하게 된다.

전술한 시선 판별 처리를 이용한 데이터 검색 장치의 구성예에 대하여, 도 10a 및 도 10b를 참조하여 설명한다. 도 10a 및 도 10b에는 검색 처리 장치 구성예를 도시하고 있다.

도 10a는, 사진 등의 다수의 화상 데이터를 저장한 데이터베이스(313)로부터, 검색 조건에 있던 화상을 검색하는 장치이다. 또한，이 검색 장치는, 예를 들면 PC 등의 정보 처리 장치에 의해 실현 가능하다. 도 10a에 도시한 입력부(311), 검색부(312), 데이터베이스(313), 시선 검출부(314), 표시부(315)는 PC 등의 정보 처리 장치의 기능을 이용하여 실현 가능하다. 시선 검출부(314)는, 먼저 도 2를 참조하여 설명한 처리 구성이며, 도 5를 참조하여 설명한 시선 판별 처리를 실행한 다. 검색부(312)의 데이터 검색 처리, 시선 검출부(314)의 시선 검출 처리를 실행하는 프로그램이 정보 처리 장치의 기억부에 저장되며, CPU 등에 의해 구성되는 제어부에서 실행된다.

입력부(311)는, 예를 들면, 데이터베이스(313)에 저장된 다수의 화상 데이터로부터, 임의의 기간의 촬영 화상이며 사람의 얼굴이 포함되고, 또한 그 사람의 얼굴의 시선이 카메라 방향을 보고 있는 화상만을 선택하는 검색 쿼리를 입력한다.

검색부(312)는, 우선，예를 들면 검색 쿼리에 설정된 기간 정보에 기초하여 데이터베이스(313)로부터 그 기간의 화상 데이터를 검색한다. 검색 화상은, 시선 검출부(314)에 건네고, 검색 결과 화상에 대한 시선 판별 처리가 실행된다. 즉, 도 2에 도시한 처리 구성을 적용한 처리, 구체적으로는，도 5에 도시한 플로우차트에 따라서 시선 판별 처리가 실행된다.

시선 검출부(314)는, 검색 결과 화상에 포함되는 얼굴의 시선이 카메라에 대하여 시선이 향하고 있는 포지티브 상태, 또는 카메라에 대하여 시선이 향하고 있지 않는 네거티브 상태 중 어디에 있는지를 판별하는 판별 결과를 생성하고, 판별 결과 정보를 표시부(315)에 출력한다. 표시부(315)는, 포지티브 상태(Positive)의 얼굴이 포함되는 화상, 즉, 카메라에 대하여 시선이 향하고 있는 화상만을 선택하여 표시한다고 하는 처리를 행한다.

도 10b는, 도 10a와 같이 사진 등의 다수의 화상 데이터를 저장한 데이터베이스(323)로부터, 검색 조건에 있는 화상을 검색하는 장치이지만, 이 장치는, 데이터베이스(323)에 대한 화상 데이터의 저장시에, 화상 데이터의 시선 판별을 실행하 고, 시선 판별 결과를 화상 데이터의 대응 메타 정보로서 데이터베이스(323)에 저장하는 설정으로 하고 있다.

입력부(321)로부터 데이터베이스(323)에 저장하는 화상 데이터가 입력되면，시선 검출부(322)가 화상에 대한 시선 판별 처리를 실행한다. 즉, 도 2에 도시한 처리 구성을 적용한 처리, 구체적으로는，도 5에 도시한 플로우차트에 따라서 시선 판별 처리가 실행된다. 검색 결과 화상에 포함되는 얼굴의 시선이, 카메라에 대하여 시선이 향하고 있는 포지티브 상태, 또는 카메라에 대하여 시선이 향하고 있지 않는 네거티브 상태 중 어디에 있는지의 판별 결과를 생성하고, 판별 결과 정보를 화상 대응의 메타 정보로서 설정하여 화상 데이터와 함께 데이터베이스(323)에 저장한다.

검색 처리에 있어서는, 검색 쿼리가 입력부(324)로부터 입력된다. 예를 들면, 데이터베이스(323)에 저장된 다수의 화상 데이터로부터, 임의의 기간의 촬영 화상이며 사람의 얼굴이 포함되고, 또한 그 사람의 얼굴의 시선이 카메라 방향을 보고 있는 화상만을 선택하는 검색 쿼리를 입력한다. 검색부(312)는, 데이터베이스(323)에 저장 화상에 설정된 메타데이터로서의 기간 정보나 시선 판별 정보를 이용하여 데이터 검색을 실행하고, 검색 쿼리에 일치하는 데이터를 취득하여 표시부 (326)에 표시한다. 예를 들면, 표시부(326)에는, 포지티브 상태의 얼굴이 포함되는 화상, 즉, 카메라에 대하여 시선이 향하고 있는 화상만이 표시된다.

도 11a 및 도 11b는, 전술한 시선 판별 처리 기능을 갖는 동화상 데이터 관리 장치의 구성 및 처리예에 대하여 설명하는 도면이다. 도 11a 및 도 11b에 도시 한 장치는, 예를 들면 비디오 카메라에 의해 구성된다. 도 11a에서, 동화상 데이터를 기억부(413)에 저장하는 처리를 행할 때에, 화상 데이터의 시선 판별을 실행하고, 시선 판별 결과를 화상 파일과 다른 독립한 파일로서 기록한다.

예를 들면, 입력부(411)로부터 촬영 동화상 데이터가 입력된다. 시선 검출부 (412)는, 동화상의 구성 프레임 각각에 대한 시선 판별 처리를 실행한다. 즉, 도 2에 도시한 처리 구성을 적용한 처리, 구체적으로는，도 5에 도시한 플로우차트에 따라서 시선 판별 처리가 실행된다. 검색 결과 화상에 포함되는 얼굴의 시선이, 카메라에 대하여 시선이 향하고 있는 포지티브 상태, 또는 카메라에 대하여 시선이 향하고 있지 않는 네거티브 상태 중 어디에 있는지의 판별 결과를 생성한다.

기억부(413)에는, 동화상 데이터 파일과, 시선 검출부(412)의 시선 검출 결과 정보, 즉 각 프레임 화상에 포함되는 얼굴 화상에 대응하는 시선 판별 결과 정보를 기록한 시선 정보 파일이 기록된다.

도 11b에는, 동화상 데이터를 기억부(424)에 저장하는 처리를 행할 때에, 화상 데이터의 시선 판별을 실행하고, 시선 판별 결과를 화상 데이터의 메타데이터로서 기록한다.

입력부(421)로부터 예를 들면 촬영 동화상 데이터가 입력된다. 시선 검출부 (422)는, 동화상의 구성 프레임 각각에 대한 시선 판별 처리를 실행한다. 즉 도 2에 도시한 처리 구성을 적용한 처리, 구체적으로는，도 5에 도시한 플로우차트에 따라서 시선 판별 처리가 실행된다. 검색 결과 화상에 포함되는 얼굴의 시선이, 카메라에 대하여 시선이 향하고 있는 포지티브 상태, 또는 카메라에 대하여 시선이 향하고 있지 않는 네거티브 상태 중 어디에 있는지의 판별 결과를 생성한다.

파일 작성부(423)는, 동화상 데이터의 메타데이터로서, 각 화상 프레임에 포함되는 얼굴의 시선이, 카메라에 대하여 시선이 향하고 있는 포지티브 상태, 또는 카메라에 대하여 시선이 향하고 있지 않는 네거티브 상태 중 어디에 있는지의 판별 결과를 설정한 파일을 생성하고, 생성한 메타데이터 부여 동화상 파일이 기억부(424)에 기록된다.

끝으로, 본 발명의 정보 처리 장치의 일례로서의 촬상 장치의 하드웨어 구성예와 PC의 하드웨어 구성예에 대하여 도 12 및 도 13을 참조하여 설명한다. 도 12는, 본 발명의 정보 처리 장치의 일례로서의 촬상 장치의 하드웨어 구성예이다.

촬상 장치(500)에는, 렌즈, CCD(Charge Coupled Deviced) 등의 촬상부(501)에서 취득한 촬영 신호를 아날로그 신호 처리부(502)에 입력하고, 아날로그 신호 처리부(502)에서 노이즈 제거 등의 처리를 행하고, A/D 변환부(503)에서 디지털 신호로 변환된다. 디지털 변환된 데이터는, 디지털 신호 처리부(504)에서, 데이터 압축 등의 디지털 신호 처리가 이루어진 후, 예를 들면 플래시 메모리 등에 의해 구성되는 기록 디바이스(515)에 기록된다. 또한，모니터(517), 뷰파인더(EVF)(516)에 표시된다.

조작부(511)는, 카메라 본체에 있는 셔터 등 외，기록 디바이스(515)에 기록된 데이터의 재생 지정 스위치, 앞으로 감기 재생이나 되감기 재생 등의 처리 개시를 행하기 위한 스위치 류가 포함된다.

제어부(510)는, CPU를 갖고，촬상 장치가 실행하는 각종의 처리의 제어를 미 리 메모리(ROM)(520) 등에 저장된 프로그램을 따라서 실행한다. 메모리(EEPROM)(512)는 불휘발성 메모리이며, 화상 데이터, 각종 보조 정보, 프로그램 등이 저장된다. 메모리(ROM)(520)은, 제어부(CPU)(510)가 사용하는 프로그램이나 연산 파라미터 등을 저장한다. 메모리(RAM)(521)는, 제어부(CPU)(510)에서 사용하는 프로그램이나, 그 실행에서 적절히 변화하는 파라미터 등을 저장한다.

시선 검출부(505)는, 얼굴 검출, 눈코입 검출, 시선 판별 처리 등을 실행한다. 예를 들면, 먼저 도 5를 참조하여 설명한 화상으로부터 얼굴 영역 검출 및 시선검출을 행하고, 검출 결과를 디지털 신호 처리부(504)에 입력한다. 디지털 신호 처리부(504)는, 예를 들면 검출 결과 메타데이터로서 설정하여 기록 디바이스(515)에 기록하는 처리 등을 실행한다.

도 13은, 본 발명의 정보 처리 장치의 일례로서의 퍼스널 컴퓨터의 하드웨어 구성예이다. CPU(Central Processing Unit)(701)는, ROM(Read Only Memory)(702),또는 기억부(708)에 기억되어 있는 프로그램에 따라서 각종 처리를 실행한다. 예를 들면, 전술한 실시예에서 설명한 얼굴 검출, 눈코입 검출, 시선 판별 처리 등의 처리 프로그램을 실행한다. RAM(Random Access Memory)(703)에는, CPU(701)가 실행하는 프로그램이나 데이터 등이 적절히 기억된다. 이들 CPU(301), ROM(702), 및 RAM(703)은, 버스(704)에 의해 서로 접속되어 있다.

CPU(701)는 버스(704)를 통해서 입출력 인터페이스(705)에 접속되며, 입출력 인터페이스(705)에는, 키보드, 마우스, 마이크로폰 등으로 이루어지는 입력부(706), 디스플레이, 스피커 등으로 이루어지는 출력부(707)가 접속되어 있다. CPU(701)는, 입력부(706)로부터 입력되는 명령에 대응하여 각종 처리를 실행하고, 처리 결과를 예를 들면 출력부(707)에 출력한다.

입출력 인터페이스(705)에 접속되어 있는 기억부(708)는, 예를 들면 하드디스크로 이루어지며, CPU(701)가 실행하는 프로그램이나 각종 데이터를 기억한다. 통신부(709)는, 인터넷이나 로컬 에리어 네트워크 등의 네트워크를 통하여 외부의 장치와 통신한다.

입출력 인터페이스(705)에 접속되어 있는 드라이브(710)는, 자기 디스크, 광 디스크, 광 자기 디스크,혹은 반도체 메모리 등의 리무버블 미디어(711)를 구동하고, 기록되어 있는 프로그램이나 데이터 등을 취득한다. 취득된 프로그램이나 데이터는, 필요에 따라서 기억부(708)에 전송되어 기억된다.

이상, 특정한 실시예를 참조하면서, 본 발명에 대하여 자세히 설명해 왔다.그러나, 본 발명의 요지를 일탈하지 않는 범위에서 당업자가 실시예의 수정이나 대용할 수 있는 것은 자명하다. 즉, 예시라고 하는 형태에서 본 발명을 개시해 온 것이이며, 한정적으로 해석되어서는 안 된다. 본 발명의 요지를 판단하기 위해서는, 특허 청구 범위란을 참작해야 한다.

　명세서 내에서 설명한 일련의 처리는 하드웨어, 또는 소프트웨어, 혹은 양자의 복합 구성에 의해 실행하는 것이 가능하다. 소프트웨어에 의한 처리를 실행하는 경우에는, 처리 시퀀스를 기록한 프로그램을, 전용의 하드웨어에 내장된 컴퓨터 내의 메모리로 인스톨하여 실행시키거나, 또는, 각종 처리가 실행 가능한 범용 컴퓨터에 프로그램을 인스톨하여 실행시키는 것이 가능하다. 예를 들면, 프로그램 은 기록 매체에 미리 기록해 둘 수 있다. 기록 매체로부터 컴퓨터에 인스톨하는 것 외에，LAN(Loacal Area Network), 인터넷 등의 네트워크를 통하여 프로그램을 수신하고, 내장되는 하드디스크 등의 기록 매체에 인스톨할 수 있다.

명세서에 기재된 각종 처리는, 기재에 따라서 시계열로 실행될 뿐만 아니라, 처리를 실행하는 장치의 처리 능력 또는 필요에 따라 병렬적으로 또는 개별로 실행되어도 된다. 또한，본 명세서에서 시스템이란, 복수의 장치의 논리적 집합 구성이며, 각 구성의 장치가 동일 케이스 내에 있는 것에는 한정되지 않는다.

상술한 바와 같이, 본 발명의 일 실시예의 구성에서는, 화상에 포함되는 얼굴 영역, 눈코입 등의 얼굴 구성 부위를 검출하고, 또한，시선 판별부가 눈코입이 검출된 얼굴 화상의 시선 판별 처리를 실행한다. 시선 판별 처리는, 시선이 카메라 방향을 향하고 있는 포지티브 상태, 시선이 카메라 방향을 향하고 있지 않은 네거티브 상태 중 어느 하나인지를, 각 상태에 대응하는 분류 데이터로 이루어지는 학습 데이터를 저장한 시선 판별 사전을 이용하여 행한다. 구체적으로는，화상의 특정 위치의 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘을 적용해서 시선 판별 처리를 행한다. 본 구성에 의하면, 시선이 카메라 방향을 향하고 있거나 향하고 있지 않은 2개의 상태 판별이라고 하는 명확한 구분에 의한 시선 판별이며, 판별 처리의 정밀도가 높고, 또한 판별 결과의 이용 가치도 높은 구성이 실현된다.

당업자라면, 첨부된 특허청구범위 또는 그 균등물의 범위를 벗어나지 않고 설계 요구 및 다른 인자에 따라서 다양한 변형, 조합, 부조합, 및 개조가 가능함을 이해할 것이다.

도 1은 본 발명의 일 실시예에 따른 정보 처리 장치의 실행하는 처리의 개요에 대하여 설명하는 도면.

도 2는 본 발명의 일 실시예의 정보 처리 장치의 구성 및 처리에 대하여 설명하는 도면.

도 3a 내지 도 3d는 본 발명의 일 실시예의 정보 처리 장치에서 적용 가능한 마스크 설정 예에 대하여 설명하는 도면.

도 4는 본 발명의 일 실시예의 정보 처리 장치에서 실행하는 시선 판별 결과의 평가 데이터에 대하여 설명하는 도면.

도 5는 본 발명의 일 실시예의 정보 처리 장치에서 실행하는 시선 판별 처리의 시퀀스를 설명하는 플로우차트를 도시한 도면.

도 6은 본 발명의 시선 판별 처리를 화상 음성 인식 시스템에 응용한 처리 시퀀스를 설명하는 플로우차트를 도시한 도면.

도 7은 본 발명의 시선 판별 처리를 촬상 장치에 응용한 처리 시퀀스를 설명하는 플로우차트를 도시한 도면.

도 8은 본 발명의 시선 판별 처리를 화상 데이터 관리 시스템에 응용한 처리 시퀀스를 설명하는 플로우차트를 도시한 도면.

도 9는 본 발명의 시선 판별 처리를 촬상 장치에 응용한 처리 시퀀스를 설명하는 플로우차트를 도시한 도면.

도 10a 및 도 10b는 본 발명의 시선 판별 처리를 데이터 검색 장치에 응용한 경우의 구성 및 처리에 대하여 설명하는 도면.

도 11a 및 도 11b는 본 발명의 시선 판별 처리를 동화상 데이터 관리 장치에 응용한 경우의 구성 및 처리에 대하여 설명하는 도면.

도 12는 본 발명의 정보 처리 장치의 일 구성예로서의 촬상 장치의 하드웨어 구성예에 대하여 설명하는 도면.

도 13은 본 발명의 정보 처리 장치의 일 구성예로서의 PC의 하드웨어 구성예에 대하여 설명하는 도면.

<도면의 주요 부분에 대한 부호의 설명>

100: 정보 처리 장치

101: 얼굴 검출부

102: 눈코입 검출부

103: 화상 처리부

104: 시선 판별부

111: 회전 보정 처리부

112: 얼굴 사이즈 정규화 처리부

113: 얼굴 영역 추출부

121: 얼굴 검출 사전

122: 눈코입 검출 사전

123: 시선 판별 사전

311: 입력부

312: 검색부

313: 데이터베이스

314: 시선 검출부

315: 표시부

321: 입력부

322: 시선 검출부

323: 데이터베이스

324: 입력부

325: 검색부

326: 표시부

411: 입력부

412: 시선 검출부

413: 기억부

421: 입력부

422: 시선 검출부

423: 파일 작성부

424: 기억부

500: 촬상 장치

501: 촬상부

502: 아날로그 신호 처리부

503: 　A/D 변환부

504: 디지털 신호 처리부

505: 시선 검출부

510: 제어부

511: 조작부

512: 메모리

515: 기록 디바이스

516: 뷰 파인더

517: 모니터

520: 메모리(ROM)

521: 메모리(RAM)

701: CPU

702: ROM

703: RAM

704: 버스

705: 입출력 인터페이스

706: 입력부

707: 출력부

708: 기억부

709: 통신부

710: 드라이브

711: 리무버블 미디어

Claims

화상 데이터에 포함되는 얼굴 영역을 검출하는 얼굴 검출부와,

상기 얼굴 검출부가 검출한 얼굴 영역으로부터 얼굴 구성 부위(face component)를 검출하는 얼굴 구성 부위 검출부와,

상기 얼굴 구성 부위 검출부에서 얼굴 구성 부위가 검출된 얼굴 화상의 시선 판별 처리를 실행하는 시선 판별부를 포함하고,

상기 시선 판별부는, 얼굴 구성 부위가 검출된 얼굴 화상 데이터의 시선에 대하여, 시선이 카메라 방향을 향하고 있는 포지티브 상태 또는 시선이 카메라 방향을 향하고 있지 않은 네거티브 상태인지를 판별하는 처리를, 각각의 상태에 대응하는 분류 데이터로 이루어지는 학습 데이터를 저장한 시선 판별 사전과 입력 얼굴 화상 데이터와의 대조 처리에 의해 실행하는 정보 처리 장치.
제1항에 있어서,

상기 얼굴 구성 부위 검출부는 상기 얼굴 검출부가 검출한 얼굴 영역으로부터 눈코입을 검출하고,

상기 시선 판별부는 눈코입이 검출된 얼굴 화상 데이터의 시선 판별 처리를 실행하는 정보 처리 장치.
제1항에 있어서,

상기 시선 판별부는 화상의 특정 위치의 화소 페어(pixel pair)의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘을 이용한 처리에 의해 시선 판별 처리를 실행하는 정보 처리 장치.
제1항에 있어서,

상기 정보 처리 장치는,

상기 얼굴 구성 부위 검출부에서 얼굴 구성 부위가 검출된 얼굴 화상의 회전 처리, 사이즈 정규화 처리, 및 얼굴 영역 추출 처리를 실행하는 화상 처리부를 포함하고,

상기 시선 판별부는 상기 화상 처리부에서의 처리 화상을 입력하여 시선 판별 처리를 실행하는 정보 처리 장치.
제1항에 있어서,

상기 얼굴 검출부는 다양한 얼굴 영역 화상 정보를 저장한 얼굴 검출 사전을 참조하여, 화상 데이터에 포함되는 얼굴 영역 검출 처리를 화상의 특정 위치의 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘을 이용하여 실행하는 정보 처리 장치.
제1항에 있어서,

상기 얼굴 구성 부위 검출부는, 다양한 얼굴 구성 부위 화상 정보를 저장한 얼굴 구성 부위 검출 사전을 참조하여, 상기 얼굴 검출부가 검출한 얼굴 영역으로부터의 얼굴 구성 부위 검출 처리를, 화상의 특정 위치의 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘을 이용하여 실행하는 정보 처리 장치.
제1항에 있어서,

상기 정보 처리 장치는 음성 인식 처리를 실행하는 음성 인식부를 더 포함하고,

상기 정보 처리 장치는 상기 시선 판별부에서의 시선 판별 결과와 상기 음성 인식부에서의 음성 인식 결과를 통합하여, 발화자의 해석을 실행하는 정보 처리 장치.
제1항에 있어서,

상기 정보 처리 장치는 촬상 장치이며,

상기 정보 처리 장치는, 상기 시선 판별부에서의 상기 시선 판별 결과를 입력하여 상기 촬상 장치의 셔터 제어를 실행하는 셔터 제어부를 포함하고,

상기 셔터 제어부는, 촬상 장치의 취득 화상에 포함되는 얼굴의 시선에서, 시선이 카메라 방향을 향하고 있지 않은 네거티브 상태의 얼굴 화상이 포함되는 경우에, 셔터 조작이 불가한 제어를 행하는 정보 처리 장치.
제1항에 있어서,

상기 정보 처리 장치는, 상기 시선 판별부에서 판별된 복수의 화상 프레임에 대응하는 시선 판별 결과를 입력하여, 화상 데이터의 선별 처리를 행하는 프레임 선별부를 더 포함하며,

상기 프레임 선별부는 포지티브 상태와 네거티브 상태의 각 상태 정보를 적용하여 화상 프레임의 선별을 행하는 정보 처리 장치.
제1항에 있어서,

상기 정보 처리 장치는 촬상 장치이며,

상기 정보 처리 장치는 상기 시선 판별부에서의 시선 판별 결과를 입력하여 경고 출력을 실행하는 경고 출력부를 포함하고,

상기 경고 출력부는 촬상 장치의 취득 화상에 포함되는 얼굴의 시선 내에, 시선이 카메라 방향을 향하고 있지 않은 네거티브 상태의 얼굴 화상이 포함되는 경우에, 경고 출력을 행하는 정보 처리 장치.
제1항에 있어서,

상기 정보 처리 장치는 상기 시선 판별부의 시선 판별 결과를 데이터 검색 처리에 적용하여, 시선이 카메라 방향을 향하고 있는 포지티브 상태, 또는 시선이 카메라 방향을 향하고 있지 않은 네거티브 상태의 화상을 선택 추출하는 검색 처리를 실행하는 정보 처리 장치.
제1항에 있어서,

상기 정보 처리 장치는, 화상 데이터의 시선 판별 처리 결과를 기억부에 저장된 화상 데이터의 대응 정보로서 기억부에 저장하는 처리를 행하는 정보 처리 장치.
정보 처리 장치에서 실행하는 정보 처리 방법으로서,

화상 데이터에 포함되는 얼굴 영역을 검출하는 단계와,

상기 얼굴 검출 단계에서 검출한 얼굴 영역으로부터 얼굴 구성 부위를 검출하는 단계와,

상기 얼굴 구성 부위 검출 단계에서 얼굴 구성 부위가 검출된 얼굴 화상의 시선 판별 처리를 실행하는 시선 판별 단계

을 포함하며,

상기 시선 판별 단계는, 얼굴 구성 부위가 검출된 얼굴 화상 데이터의 시선에 대하여, 시선이 카메라 방향을 향하고 있는 포지티브 상태, 또는 시선이 카메라 방향을 향하고 있지 않은 네거티브 상태인지를 판별하는 처리를, 각 상태에 대응하는 분류 데이터로 이루어지는 학습 데이터를 저장한 시선 판별 사전과 입력 얼굴 화상 데이터와의 대조 처리에 의해 실행하는 단계인 정보 처리 방법.
제13항에 있어서,

상기 얼굴 구성 부위 검출 단계는 상기 얼굴 검출 단계에서 검출된 얼굴 영역으로부터 눈코입을 검출하는 단계이며,

상기 시선 판별 단계는 눈코입이 검출된 얼굴 화상 데이터의 시선 판별 처리를 실행하는 단계인 정보 처리 방법.
제13항에 있어서,

상기 시선 판별 단계는, 화상의 특정 위치의 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘을 이용한 처리에 의해 시선 판별 처리를 실행하는 단계인 정보 처리 방법.
제13항에 있어서,

상기 정보 처리 방법은, 상기 얼굴 구성 부위 검출 단계에서 얼굴 구성 부위가 검출된 얼굴 화상의 회전 처리, 사이즈 정규화 처리, 및 얼굴 영역 추출 처리를 실행하는 단계를 더 포함하고,

상기 시선 판별 단계는 상기 화상 처리 단계에서 처리된 화상을 입력하여 시선 판별 처리를 실행하는 단계인 정보 처리 방법.
제13항에 있어서,

상기 얼굴 검출 단계는, 다양한 얼굴 영역 화상 정보를 저장한 얼굴 검출 사전을 참조하여, 화상 데이터에 포함되는 얼굴 영역 검출 처리를 화상의 특정 위치 의 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘을 이용하여 실행하는 단계인 정보 처리 방법.
제13항에 있어서,

상기 얼굴 구성 부위 검출 단계는, 다양한 얼굴 구성 부위 화상 정보를 저장한 얼굴 구성 부위 검출 사전을 참조하여, 상기 얼굴 검출 단계에서 검출된 얼굴 영역으로부터의 얼굴 구성 부위 검출 처리를 화상의 특정 위치의 화소 페어의 차분값을 비교 대조 데이터로서 이용하는 PixDif 알고리즘을 이용하여 실행하는 단계인 정보 처리 방법.
제13항에 있어서,

음성 인식 처리를 실행하는 음성 인식 단계와,

시선 판별 결과와 상기 음성 인식부에서의 음성 인식 결과를 통합하여, 발화자의 해석을 실행하는 단계

를 더 포함하는 정보 처리 방법.
제13항에 있어서,

상기 정보 처리 장치는 촬상 장치이며,

상기 정보 처리 방법은, 상기 시선 판별 단계에서의 시선 판별 결과를 입력하여 촬상 장치의 셔터 제어를 실행하는 단계를 더 포함하며,

상기 셔터 제어 단계는, 촬상 장치의 취득 화상에 포함되는 얼굴의 시선 내에, 시선이 카메라 방향을 향하고 있지 않은 네거티브 상태의 얼굴 화상이 포함되는 경우에, 셔터 조작을 불가로 하는 제어를 행하는 단계인 정보 처리 방법.
제13항에 있어서,

상기 시선 판별 단계에서 판별된 복수의 화상 프레임에 대응하는 시선 판별 결과를 입력하여, 화상 데이터의 선별 처리를 행하는 프레임 선별 단계를 더 포함하고,

상기 프레임 선별 단계는, 포지티브 상태와 네거티브 상태의 각 상태 정보를 적용하여 화상 프레임의 선별을 행하는 단계인 정보 처리 방법.
제13항에 있어서,

상기 정보 처리 장치는 촬상 장치이며,

상기 정보 처리 방법은, 상기 시선 판별 단계에서의 시선 판별 결과를 입력하여 경고 출력을 실행하는 단계를 더 포함하고,

상기 경고 출력 단계는, 촬상 장치의 취득 화상에 포함되는 얼굴의 시선 내에, 시선이 카메라 방향을 향하고 있지 않은 네거티브 상태의 얼굴 화상이 포함되는 경우에, 경고 출력을 행하는 단계인 정보 처리 방법.
제13항에 있어서,

상기 시선 판별 단계에서의 시선 판별 결과를 데이터 검색 처리에 적용하고, 시선이 카메라 방향을 향하고 있는 포지티브 상태, 또는 시선이 카메라 방향을 향하고 있지 않은 네거티브 상태인 화상을 선택 추출하는 검색 처리를 실행하는 단계를 더 포함하는 정보 처리 방법.
제13항에 있어서,

화상 데이터의 시선 판별 처리 결과를, 기억부에 저장된 화상 데이터의 대응 정보로서 기억부에 저장하는 처리를 행하는 단계를 더 포함하는 정보 처리 방법.