KR20070026228A

KR20070026228A - 영상 처리 장치, 영상 처리 방법 및 프로그램

Info

Publication number: KR20070026228A
Application number: KR1020060084027A
Authority: KR
Inventors: 모또쯔구 아베; 마사유끼 니시구찌
Original assignee: 소니 가부시끼 가이샤
Priority date: 2005-09-02
Filing date: 2006-09-01
Publication date: 2007-03-08
Also published as: CN100534175C; US8103062B2; US20070053660A1; EP1760633A2; JP2007072520A; CN1925609A; EP1760633A3

Abstract

얼굴 영역과 얼굴 영역의 출현부터 소멸까지의 정보를 대응지은 영상 데이터 부수 정보를 생성한다. 얼굴 영역 검출부(410)에서 검출된 프레임에서의 얼굴 영역의 위치 및 속성과, 얼굴 영역 예측부(423)에서 예측된 소정의 트레이스에서의 프레임 중의 얼굴 영역의 위치 및 속성이 트레이스 판단부(424)에서 비교된다. 비교의 결과, 얼굴 영역 검출부(410)에서 검출된 프레임이 소정의 트레이스에 포함된다고 판단된 경우, 그 프레임은 그 소정의 트레이스에 가해진다. 트레이스의 종료 프레임은 종료 프레임 판단부(425)에서 판단된다. 대표 얼굴 영역 정보 생성부(430)에서 트레이스를 구성하는 프레임 중에 포함되는 얼굴 영역으로부터 대표 얼굴 영역이 선택되어 대표 얼굴 영역 정보가 생성된다. 트레이스 및 대표 얼굴 영역에 기초하여 영상 데이터 부수 정보가 영상 데이터 부수 정보 생성부(450)에서 생성된다.

트레이스, 얼굴 영역, 프레임, 위치, 속성, 영상 데이터 부수 정보

Description

영상 처리 장치, 영상 처리 방법 및 프로그램{VIDEO PROCESSING APPARATUS, VIDEO PROCESSING METHOD AND PROGRAM}

도 1은 본 발명의 실시 형태에서의 영상 처리 장치(100)의 구성의 일례를 도시하는 도면.

도 2는 본 발명의 실시 형태에서의 영상 데이터에 대한 영상 데이터 부수 정보를 생성하는 기능 구성의 일례를 도시하는 도면.

도 3은 도 2에서 생성된 영상 데이터 부수 정보를 이용한 조작 기능의 구성의 일례를 도시하는 도면.

도 4는 본 발명의 실시 형태에서의 트레이스의 생성의 모습을 도시하는 도면.

도 5는 도 ４와는 별도의 트레이스에서의 종료 프레임의 판단 방법을 도시하는 도면.

도 6은 본 발명의 실시 형태에서의 얼굴 영역 정보 유지부(422)의 보유 내용을 도시하는 도면.

도 7은 본 발명의 실시 형태에서의 얼굴 영역 특징 데이터 유지부(442)의 보유 내용을 도시하는 도면.

도 8은 본 발명의 실시 형태에서의 영상 데이터 부수 정보 유지부(460)에서 유지된 영상 데이터 부수 정보를 도시하는 도면.

도 9는 본 발명의 실시 형태에서의 트레이스 정보의 내용을 도시하는 도면.

도 10은 본 발명의 실시 형태에서의 조작 메뉴의 표시를 도시하는 도면.

도 11은 도 10에서 얼굴 타임 라인 버튼(722)을 선택한 경우의 표시 화면(700)을 도시하는 도면.

도 12는 본 발명의 실시 형태에서의 영상 처리 장치(100)에서 영상 데이터 부수 정보를 생성할 때까지의 흐름을 설명하는 도면.

도 13은 본 발명의 실시 형태에서의 대표 얼굴 영역에 대하여 얼굴 특징 식별자를 부여할 때까지의 흐름을 설명하는 도면.

도 14는 본 발명의 실시 형태에서의 조작 메뉴에서의 조작의 흐름을 설명하는 도면.

도 15는 영상 데이터에서의 얼굴 영역의 검출의 모습을 도시하는 도면.

<도면의 주요부분에 대한 부호의 설명>

10 : 안테나

20 : 수신부

30 : 기록 재생 처리부

40 : 시스템 제어부

41 : 데이터 처리부

42 : RAM

50 : 하드디스크

60 : 입출력 제어부

61 : 표시 제어부

62 : 음성 제어부

63 : 조작 제어부

64 : 디스크 인터페이스

65 : 디스크

70 : 표시부

80 : 음성 출력부

90 : 조작 입력부

100 : 영상 처리 장치

410 : 얼굴 영역 검출부

420 : 트레이스 생성부

421 : 트레이스 식별자 부여부

422 : 얼굴 영역 정보 유지부

423 : 얼굴 영역 예측부

424 : 트레이스 판단부

425 : 종료 프레임 판단부

430 : 대표 얼굴 영역 정보 생성부

440 : 얼굴 특징 식별자 부여부

441 : 얼굴 영역 특징 데이터 추출부

442 : 얼굴 영역 특징 데이터 유지부

443 : 얼굴 영역 특징 데이터 검색부

450 : 영상 데이터 부수 정보 생성부

460 : 영상 데이터 부수 정보 유지부

470 : 조작 메뉴 일람 생성부

481 : 얼굴 타임 라인 생성부

482 : 유사 얼굴 영역 검색부

483 : 얼굴 영역 취득부

484 : 재생 영상 데이터 취득부

500 : 영상 데이터 유지부

[특허 문헌1] 일본 특개 2000-232638호 공보(도 1)

[특허 문헌2] 일본 특개 2001-167110호 공보(도 1)

본 발명은, 영상 데이터로부터 얼굴 영역을 검출하는 영상 처리 장치에 관한 것으로, 특히, 얼굴 영역의 출현부터 소멸까지를 추적하는 영상 처리 장치, 및, 이들에서의 처리 방법 및 해당 방법을 컴퓨터에 실행시키는 프로그램에 관한 것이다.

영상 데이터는, 정지 화상 데이터와는 달리, 단시간에 그 내용을 파악하는 것은 어렵다. 영상 데이터의 내용을 단시간에 파악하기 위해, 예를 들면 3배속 재생 등의 고속 재생이나, 영상 데이터 중에서의 소정의 장면을 썸네일 표시로 하여 복수 표시시키는 등의 방법이 이용되고 있다.

그러나, 고속 재생이라고 해도 3배속 재생 정도로는 영상 데이터의 내용을 단시간에 파악할 수 있다고는 말하기 어렵다. 한편, 재생 속도를 올려도 사람의 눈이 따라갈 수 있는 재생 속도에는 한도가 있다. 또한, 영상 데이터 중에서의 소정의 장면을 썸네일 표시로 하는 방법에서는, 반드시 영상 데이터의 특징을 나타내는 장면이 썸네일 표시되는 것은 아니기 때문에, 영상 데이터의 내용을 파악시키는 데는 불충분하다.

이러한 영상 데이터의 내용을 파악하기 위해, 영상 데이터의 등장 인물에 주목하는 것은 유효하다. 일반적으로, 영상 데이터에는 인물이 등장하는 경우가 많기 때문이다. 최근에는 얼굴 검출 기술에 관한 연구가 활발하며, 이 얼굴 검출 기술을 이용하여 영상 데이터의 등장 인물을 파악하려고 하는 기술 개발이 행해지고 있다.

예를 들면, 영상 데이터로부터 이동 물체를 검출하고. 그 이동 물체에 대하여 얼굴 검출 기술에 의해 인물인지 여부의 판단을 행하고, 그 인물을 포함하는 영상 데이터 중으로부터 소정수의 프레임을 선택하여 표시시키는 기술이 있다(예를 들면, 특허 문헌 1 참조). 또한, 영상 데이터를 구성하는 프레임으로부터 얼굴 영역을 추출하고 추출한 모든 얼굴 영역을 인물마다 그룹화하고. 그 그룹화한 얼굴 영역 중으로부터 그 인물의 대표 얼굴 영역을 표시시키는 기술도 있다(예를 들면, 특허 문헌 2 참조).

그러나, 상기의 이동 물체에 관한 기술은, 이동하지 않는 물체는 검출하지 않기 때문에, 일반적인 영상 데이터 모두에 관해서 그대로 이용할 수 있는 기술은 아니다. 또한, 일반적으로는, 프레임으로부터 얼굴 영역을 검출하는데, 도 15의 (a)에 도시하는 바와 같이 프레임에 얼굴 영역이 포함되어 있는 경우에는 얼굴 검출 기술에 의해 빠짐없이 검출할 수 있는 것이 이상적이지만, 현 단계에서의 얼굴 검출 기술에서는, 도 15의 (b)에 도시하는 바와 같이 프레임에 얼굴 영역이 포함되어 있어도 검출 누설이 발생할 수 있다. 상기 그룹화한 얼굴 영역 중으로부터 그 인물의 대표 얼굴 영역을 표시시키는 기술에서는, 프레임으로부터 얼굴 영역을 추출하는 전제로서 프레임으로부터 얼굴 영역을 검출하지만, 얼굴 영역의 검출 누설에 관한 대책에 대해서는 실시되지 않고 있다. 따라서, 이대로는 얼굴 영역의 시간 방향의 관계를 충분히 파악할 수 없어, 영상 데이터의 내용을 파악하는 것이 곤란해진다고 하는 문제가 있다.

따라서, 본 발명은, 얼굴 영역과 얼굴 영역의 출현부터 소멸까지의 정보를 대응지은 영상 데이터 부수 정보를 생성하는 영상 처리 장치를 제공하는 것을 목적으로 한다.

본 발명은, 상기 과제를 해결하기 위해 이루어진 것으로, 그 제1 측면은, 영상 데이터를 구성하는 프레임에 포함되는 얼굴 영역을 검출하는 얼굴 영역 검출 수 단과, 상기 검출에 기초하여 상기 얼굴 영역이 출현하고나서 소멸할 때까지의 프레임의 집합을 하나의 단위로 하는 트레이스의 개시 및 종료에 대응하는 프레임 식별자를 생성하는 트레이스 생성 수단과, 상기 트레이스를 구성하는 프레임에 포함되는 상기 얼굴 영역으로부터 대표 얼굴 영역을 선택하여 상기 대표 얼굴 영역의 내용을 나타내는 대표 얼굴 영역 정보를 생성하는 대표 얼굴 영역 정보 생성 수단과, 상기 영상 데이터에 부수되는 영상 데이터 부수 정보로서 상기 영상 데이터에 대하여 상기 트레이스의 개시 및 종료에 대응하는 프레임 식별자와 상기 대표 얼굴 영역 정보를 대응지은 정보를 생성하는 영상 데이터 부수 정보 생성 수단을 구비하는 것을 특징으로 하는 영상 처리 장치이다. 이에 의해, 얼굴 영역과 얼굴 영역의 출현부터 소멸까지의 정보를 대응지은 영상 데이터 부수 정보를 생성시킨다고 하는 작용을 한다. 따라서, 방대한 프레임 중에 등장하는 다수의 인물을 효율적으로 관리할 수 있다.

또한, 이 제1 측면에서, 상기 트레이스 생성 수단은, 상기 얼굴 영역이 출현하고나서 소멸할 때까지의 프레임에 대하여 동일한 트레이스 식별자를 부여하는 트레이스 식별자 부여 수단과, 상기 동일한 트레이스 식별자가 부여된 이전의 프레임에서의 상기 얼굴 영역에 기초하여 현 프레임에서의 상기 얼굴 영역을 예측하는 얼굴 영역 예측 수단과, 상기 예측된 현 프레임에서의 상기 얼굴 영역에 기초하여 상기 얼굴 영역 검출 수단에서 검출된 상기 현 프레임에서의 상기 얼굴 영역이 상기 트레이스에 포함되는지 여부를 판단하여 상기 트레이스에 포함된다고 판단한 경우에 상기 트레이스에 상기 현 프레임을 가하는 트레이스 판단 수단과, 상기 얼굴 영 역 검출 수단에서 검출된 상기 현 프레임에서의 상기 얼굴 영역이 상기 트레이스에 포함되지 않는다고 판단된 경우에 어느 프레임을 상기 트레이스의 종료 프레임으로 할지를 판단하는 종료 프레임 판단 수단을 구비하는 것을 특징으로 하는 것이다. 이에 의해, 영상 데이터를 공급함으로써 자동적으로 얼굴 영역과 얼굴 영역의 출현부터 소멸까지의 정보를 대응지은 영상 데이터 부수 정보를 생성시킨다고 하는 작용을 한다.

또한, 상기 얼굴 영역 예측 수단은, 상기 동일한 트레이스 식별자를 부여받은 이전의 프레임에서의 상기 얼굴 영역에 기초하여 상기 현 프레임에서의 상기 얼굴 영역을 선형 예측에 의해 예측하는 것을 특징으로 하는 것이다. 이에 의해, 정밀도가 좋은 얼굴 영역의 위치 등의 예측치가 얻어진다고 하는 작용을 한다.

또한, 상기 트레이스 판단 수단은, 상기 예측된 현 프레임에서의 상기 얼굴 영역과 상기 얼굴 영역 검출 수단에서 검출된 상기 현 프레임에서의 상기 얼굴 영역을 비교하여 위치의 차 및 속성의 차가 소정의 임계치 내에 있는지의 여부를 판단하고, 상기 임계치 내에 있는 경우에는 상기 현 프레임에서의 상기 얼굴 영역이 상기 트레이스에 포함된다고 판단하여 상기 트레이스에 상기 현 프레임을 가하는 것을 특징으로 하는 것이다. 이에 의해, 실제의 검출치와 예측치에 오차가 있는 경우에도 얼굴 영역의 출현부터 소멸까지의 정보를 생성시킨다고 하는 작용을 한다.

또한, 상기 트레이스 판단 수단은, 상기 속성으로서 상기 얼굴 영역의 크기, 상기 얼굴 영역의 휘도 분포, 상기 얼굴 영역의 색 분포, 상기 얼굴 영역의 형상, 상기 얼굴 영역의 모양 중 적어도 하나의 요소에 기초하여 상기 속성의 차가 소정의 임계치 내에 있는지의 여부를 판단하는 것을 특징으로 하는 것이다. 이에 의해, 얼굴 영역에서의 크기, 휘도 분포, 색 분포, 형상, 모양 등의 요소에 의해 실제의 검출치와 예측치를 비교시킨다고 하는 작용을 한다.

또한, 상기 종료 프레임 판단 수단은, 상기 얼굴 영역 검출 수단에서 검출된 상기 현 프레임에서의 상기 얼굴 영역이 상기 트레이스에 포함되지 않는다고 판단된 경우에 뒤에 계속되는 프레임에 대한 상기 트레이스 판단 수단의 판단 결과에 기초하여 어느 프레임을 상기 종료 프레임으로 할지를 판단하는 것을 특징으로 하는 것이다. 이에 의해, 얼굴 영역의 검출 누설이 있는 경우에도 얼굴 영역의 출현부터 소멸까지의 정보를 생성시킨다고 하는 작용을 한다.

또한, 이 제1 측면에서, 상기 대표 얼굴 영역 정보 생성 수단은, 상기 트레이스를 구성하는 프레임에서의 상기 얼굴 영역의 크기, 상기 얼굴 영역에서의 주파수 분포, 상기 얼굴 영역에서의 색의 농담 분포 및 상기 얼굴 영역의 색 분포 중의 적어도 하나의 요소에 기초하여 상기 대표 얼굴 영역을 선택하는 것을 특징으로 하는 것이다. 이에 의해, 유저에 의해 보기 쉬운 얼굴 영역을 대표 얼굴 영역으로서 선택시킨다고 하는 작용을 한다.

또한, 이 제1 측면에서, 상기 대표 얼굴 영역 정보 생성 수단은, 상기 대표 얼굴 영역을 포함하는 프레임의 프레임 번호와 상기 대표 얼굴 영역을 포함하는 프레임에서의 상기 대표 얼굴 영역의 위치 및 크기를 상기 대표 얼굴 영역 정보로서 생성하는 것을 특징으로 하는 것이다. 이에 의해, 영상 데이터 부수 정보에서의 대표 얼굴 영역 정보의 정보량을 저감시킨다고 하는 작용을 한다.

또한, 이 제1 측면에서, 상기 대표 얼굴 영역 정보 생성 수단은, 상기 대표 얼굴 영역을 포함하는 프레임으로부터 석출된 상기 대표 얼굴 영역을 상기 대표 얼굴 영역 정보로서 생성하는 것을 특징으로 하는 것이다. 이에 의해, 얼굴 영역을 영상 데이터 부수 정보에 포함시켜 생성시킨다고 하는 작용을 한다.

또한, 소정의 얼굴 영역의 특징을 기술한 얼굴 영역 특징 데이터와 상기 얼굴 영역 특징 데이터를 식별하는 얼굴 특징 식별자를 대응지어 유지하는 얼굴 영역 특징 데이터 유지 수단과, 상기 얼굴 영역 정보 생성 수단에서 석출된 상기 대표 얼굴 영역으로부터 얼굴 영역 특징 데이터를 추출하는 얼굴 영역 특징 데이터 추출 수단과, 상기 추출된 얼굴 영역 특징 데이터에 유사한 상기 얼굴 영역 특징 데이터를 상기 얼굴 영역 특징 데이터 유지 수단으로부터 검색하여 상기 추출된 얼굴 영역 데이터에 상기 얼굴 특징 식별자를 부여하는 얼굴 영역 특징 데이터 검색 수단을 구비하고, 상기 영상 데이터 부수 정보 생성 수단은, 상기 영상 데이터 부수 정보에 상기 얼굴 특징 식별자를 포함시켜 생성하는 것을 특징으로 하는 것이다. 이에 의해, 유사한 얼굴 영역을 관련지은 얼굴 특징 식별자를 영상 데이터 부수 정보에 포함시켜 생성시킨다고 하는 작용을 한다.

또한, 상기 얼굴 영역 특징 데이터 검색 수단에서 상기 추출된 얼굴 영역 특징 데이터에 유사한 상기 얼굴 영역 특징 데이터가 상기 얼굴 영역 특징 데이터 유지 수단으로부터 검색되지 않은 경우에 상기 추출된 얼굴 영역 데이터에 새로운 얼굴 특징 식별자를 부여하는 것을 특징으로 하는 것이다. 이에 의해, 유사한 얼굴 영역이 없어도 새로 얼굴 특징 식별자를 부여시킨다고 하는 작용을 한다. 즉, 모든 얼굴 영역에 얼굴 특징 식별자가 부여되게 된다.

또한, 본 발명의 제2 측면은, 영상 데이터에 대하여 얼굴 영역이 연속하여 출현하는 프레임의 집합인 트레이스의 개시 및 종료에 대응하는 프레임 식별자와 상기 트레이스를 구성하는 프레임에 포함되는 상기 얼굴 영역으로부터 선택된 대표 얼굴 영역의 내용을 나타내는 대표 얼굴 영역 정보를 대응지은 정보인 영상 데이터 부수 정보를 보유하는 영상 데이터 부수 정보 유지 수단과, 상기 영상 데이터 부수 정보에 기초하여 조작 메뉴의 일람을 생성하는 조작 메뉴 일람 생성 수단과, 상기 조작 메뉴를 표시하는 표시 수단과, 상기 조작 메뉴에 대한 선택을 접수하는 조작 입력 수단을 구비하는 것을 특징으로 하는 영상 처리 장치이다. 이에 의해, 얼굴 영역과 얼굴 영역의 출현부터 소멸까지의 정보를 대응지은 영상 데이터 부수 정보에 기초하여 영상 데이터를 관리시킨다고 하는 작용을 한다.

또한, 이 제2 측면에서, 상기 영상 데이터의 일람 중 소정의 영상 데이터가 상기 조작 수단으로부터 선택되면 그 선택된 영상 데이터에 대한 상기 영상 데이터 부수 정보를 취득하여 상기 영상 데이터 부수 정보에 포함되는 상기 대표 얼굴 영역 정보에 기초하여 상기 얼굴 영역을 표시시키는 얼굴 영역 취득 수단을 더 구비하는 것을 특징으로 하는 것이다. 이에 의해, 영상 데이터에서 얼굴 영역이 연속하여 출현하는 장면마다 그 장면을 대표하는 얼굴 영역을 표시시킨다고 하는 작용을 한다.

또한, 상기 영상 데이터 부수 정보 유지 수단은, 상기 영상 데이터에 대하여 소정의 얼굴 영역의 특징을 기술한 얼굴 영역 특징 데이터에 부여된 얼굴 특징 식별자를 상기 대표 얼굴 영역 정보와 대응지어 유지하고, 상기 얼굴 영역 취득 수단에 의해 표시된 상기 얼굴 영역 중 어느 하나가 상기 조작 수단에 의해 선택되면 그 선택된 상기 얼굴 영역과 동일한 상기 얼굴 특징 식별자를 갖는 영상 데이터 부수 정보를 검색하고 그 결과를 표시시키는 유사 얼굴 영역 검색 수단을 더 구비하는 것을 특징으로 하는 것이다. 이에 의해, 유사한 얼굴 영역에 기초하여 영상 데이터를 검색시킨다고 하는 작용을 한다.

또한, 이 제2 측면에서, 상기 영상 데이터의 일람 중 소정의 영상 데이터가 상기 조작 수단으로부터 선택되면 그 선택된 영상 데이터에 대한 상기 영상 데이터 부수 정보를 취득하여 상기 트레이스에 대응하는 시간 표시 및 상기 대표 얼굴 영역 정보에 대응하는 상기 얼굴 영역을 포함하는 얼굴 타임 라인 표시를 생성하는 얼굴 타임 라인 생성 수단을 더 구비하는 것을 특징으로 하는 것이다. 이에 의해, 영상 데이터에서 얼굴 영역이 연속하여 출현하는 장면마다 그 장면을 대표하는 얼굴 영역 및 그 장면의 시간을 표시시킨다고 하는 작용을 한다.

또한, 이 제3 측면은, 영상 데이터를 구성하는 프레임에 포함되는 얼굴 영역을 검출하는 얼굴 영역 검출 수순과, 상기 검출에 기초하여 상기 얼굴 영역이 출현하고나서 소멸할 때까지의 프레임의 집합을 하나의 단위로 하는 트레이스의 개시 및 종료에 대응하는 프레임 식별자를 생성하는 트레이스 생성 수순과, 상기 트레이스를 구성하는 프레임에 포함되는 상기 얼굴 영역으로부터 대표 얼굴 영역을 선택하여 상기 대표 얼굴 영역의 내용을 나타내는 대표 얼굴 영역 정보를 생성하는 대 표 얼굴 영역 정보 생성 수순과, 상기 영상 데이터에 부수되는 영상 데이터 부수 정보로서 상기 영상 데이터에 대하여 상기 트레이스의 개시 및 종료에 대응하는 프레임 식별자와 상기 대표 얼굴 영역 정보를 대응지은 정보를 생성하는 영상 데이터 부수 정보 생성 수순을 구비하는 것을 특징으로 하는 영상 처리 방법 또는 이들의 수순을 컴퓨터에 실행시키는 프로그램이다. 이에 따라, 얼굴 영역과 얼굴 영역의 출현부터 소멸까지의 정보를 대응지은 영상 데이터 부수 정보를 생성시킨다고 하는 작용을 한다.

<실시 형태>

다음으로 본 발명의 실시 형태에 대해 도면을 참조하여 상세히 설명한다.

도 1은, 본 발명의 실시 형태에서의 영상 처리 장치(100)의 구성의 일례를 도시하는 도면이다. 영상 처리 장치(100)는, 안테나(10)와, 수신부(20)와, 기록 재생 처리부(30)와, 시스템 제어부(40)와, 하드디스크(Hard disk)(50)와, 입출력 제어부(60)와, 표시부(70)와, 음성 출력부(80)와, 조작 입력부(90)를 구비한다.

안테나(10)는, 공간을 전해져 온 전파를 잡는 역할을 수행한다. 수신부(20)는, 안테나(10)로부터 공급되어 온 수신 데이터에 대하여 복조 처리 및 D/A 변환 등의 처리를 행하는 것이다.

기록 재생 처리부(30)는, 수신부(20)로부터 공급된 데이터를, 예를 들면, MPEG-2(Moving Picture Expert Group-2) 규격에 따라서 부호화 등을 행하는 것이다. 부호화된 데이터는, 하드디스크(50) 또는 디스크 인터페이스(64)에 공급된다. 또한, 기록 재생 처리부(30)는, 하드디스크(50) 또는 디스크 인터페이스(64)로부터 공급된 데이터에 대하여 복호 처리 등을 행한다. 이 복호된 데이터는, 표시 제어부(61)나, 음성 제어부(62)에 공급된다.

시스템 제어부(40)는, 데이터 처리부(41)와, RAM(Random Access Memory)(42)을 구비한다. 데이터 처리부(41)는, 본 발명의 실시 형태에서의 영상 처리 장치(100) 전체의 처리를 담당하는 것으로서, 작업 영역으로서 RAM(42)을 사용한다. 하드디스크(50)는, 기록 재생 처리부(30)에서 소정의 처리가 실시된 데이터를 기억해 두는 것이다.

입출력 제어부(60)는, 표시 제어부(61)와, 음성 제어부(62)와, 조작 제어부(63)와, 디스크 인터페이스(64)를 구비한다. 표시 제어부(61)는, 기록 재생 처리부(30) 등으로부터 공급된 영상 데이터를, 예를 들면 LCD(Liquid Crystal Display) 등에 의해 구성된 표시부(70)에 공급한다. 표시부(70)에서 영상 데이터는 출력된다.

음성 제어부(62)는, 기록 재생 처리부(30) 등으로부터 공급된 음성 데이터를 음성 출력부(80)에 공급한다. 이 음성 출력부(80)로부터 음성 데이터는 출력된다. 조작 제어부(63)는, 조작 입력부(90)로부터의 조작 신호를 데이터 처리부(41)에 전한다. 데이터 처리부(41)는, 조작 입력부(90)에서 어느 쪽의 조작이 행해졌는지를 판별하고, 그 판별 결과에 따른 제어 처리를 행한다.

디스크 인터페이스(64)는, 기록 재생 처리부(30)에서 소정의 처리가 실시된 데이터를 디스크(65)에 기입한다. 또한, 디스크 인터페이스(64)는, 디스크(65)로부터 데이터를 판독하여 기록 재생 처리부(30)에 공급한다. 또한, 디스크(65)는, CD, DVD 등의 광 디스크(optical disk)가 상정된다. 또한, 디스크 이외의 기억 매체를 이용할 수도 있다.

본 발명의 실시 형태에서는, (도시 생략된) 방송국으로부터 공급된 영상 데이터는 안테나(10)에 의해 수신되고, 하드디스크(50)에서 유지된다. 이 하드디스크(50)에 유지된 영상 데이터를 구성하는 프레임에 포함되는 얼굴 영역은 데이터 처리부(41)에서 검출된다. 이 얼굴 영역의 검출에 기초하여, 동일 인물의 얼굴 영역이 프레임에 출현하고나서 소멸할 때까지를 하나의 단위(이하, 트레이스라고 함)로 하여 동일 인물의 얼굴 영역이 연속하여 출현하는 장면에 관한 정보(이하, 트레이스 정보라고 함)를 영상 데이터에 대한 영상 데이터 부수 정보에 포함시킨다. 또한, 트레이스 정보에는, 후술하는 트레이스의 개시 및 종료에 대응하는 프레임 번호와, 대표 얼굴 영역 정보와, 얼굴 특징 식별자가 포함된다.

또한, 상기에서 영상 데이터로서 방송국으로부터 공급된 영상 데이터를 예로 들어 설명하였지만 이것에 한정되는 것은 아니며, 영상 데이터로서, 예를 들면 가정용의 비디오 카메라에 의해 촬상된 영상 데이터이어도 된다. 이 경우에는, 예를 들면 가정용의 비디오 카메라에 의해 촬상된 영상 데이터가 기록된 디스크를 디스크 인터페이스(64)로부터 판독하여 상기 처리가 행해지는 것이 상정된다.

도 2는, 본 발명의 실시 형태에서의 영상 데이터에 대한 영상 데이터 부수 정보를 생성하는 기능 구성의 일례를 도시하는 도면이다. 이 기능은, 얼굴 영역 검출부(410)와, 트레이스 생성부(420)와, 대표 얼굴 영역 정보 생성부(430)와, 얼굴 특징 식별자 부여부(440)와, 영상 데이터 부수 정보 생성부(450)와, 영상 데이 터 부수 정보 유지부(460)를 구비한다.

얼굴 영역 검출부(410)는, 공급된 프레임으로부터 얼굴 영역을 검출하는 것이다. 구체적으로는, 얼굴 영역 검출부(410)는, 프레임 중의 얼굴 영역의 유무와, 얼굴 영역의 위치와, 얼굴 영역의 크기, 휘도 분포, 색 분포, 모양 및 형상 등의 얼굴 영역의 속성을 검출한다. 또한, 얼굴 영역 검출부(410)는, 얼굴 영역의 속성으로서 얼굴 영역 주변의 휘도 분포, 색 분포, 모양 및 형상 등을 검출해도 된다. 또한，이하의 설명에서, 상기의 프레임 중의 얼굴 영역의 유무와, 얼굴 영역의 위치와, 얼굴 영역의 속성을 총칭하여 「얼굴 영역 정보」라고 적절히 부른다. 얼굴 영역 검출부(410)는, 얼굴 영역 정보 및 프레임을 트레이스 생성부(420)에 공급한다.

트레이스 생성부(420)는, 얼굴 영역 정보에 기초하여 트레이스의 개시 및 종료에 대응하는 프레임 번호의 짝을 생성하는 것으로서, 트레이스 식별자 부여부(421)와, 얼굴 영역 정보 유지부(422)와, 얼굴 영역 예측부(423)와, 트레이스 판단부(424)와, 종료 프레임 판단부(425)를 구비한다.

트레이스 식별자 부여부(421)는, 트레이스 판단부(424)로부터 공급된 얼굴 영역의 위치 및 속성에 대하여 트레이스 식별자를 부여하는 것이다. 트레이스 식별자란, 각각의 트레이스에 부여되는 각 트레이스를 구별하기 위한 유니크한 식별자이다. 트레이스 식별자 부여부(421)에서 트레이스 식별자를 부여받은 얼굴 영역의 위치 및 속성은, 얼굴 영역 정보 유지부(422)에 공급된다. 얼굴 영역 정보 유지부(422)는, 트레이스 식별자 부여부(421)로부터 공급된 얼굴 영역의 위치 및 속 성을 트레이스 식별자마다 유지하는 것이다.

얼굴 영역 예측부(423)는, 얼굴 영역 정보 유지부(422)에서 트레이스 식별자마다 유지된 얼굴 영역의 위치 및 속성에 기초하여, 트레이스 식별자마다 다음 프레임에서의 얼굴 영역의 위치 및 속성을 예측하는 것이다. 또한, 얼굴 영역 예측부(423)에서, 선형 예측에 의해 얼굴 영역의 위치 및 속성을 예측하는 것이 상정된다. 여기에서, 선형 예측이란, n번째의 값을 (n-1)번째 이전의 값으로부터 추정하는 것이다.

트레이스 판단부(424)는, 얼굴 영역 예측부(423)로부터 공급된 트레이스 식별자마다의 다음 프레임에서의 얼굴 영역의 위치 및 속성의 예측치에 기초하여, 얼굴 영역 검출부(410)에서 검출된 현 프레임에서의 얼굴 영역이 어느 트레이스에 포함되는지를 판단하는 것이다.

구체적으로는, 얼굴 영역 예측부(423)로부터 공급된 트레이스 식별자마다의 다음 프레임에서의 얼굴 영역의 위치 및 속성의 예측치와, 얼굴 영역 검출부(410)에서 검출된 현 프레임에서의 얼굴 영역의 위치 및 속성과의 차가 소정의 임계치 내에 있으면, 현 프레임은 그 트레이스를 구성하는 다음 프레임이라고 판단되어, 현 프레임은 그 트레이스에 가해진다.

그리고, 트레이스 판단부(424)는, 그 현 프레임에서의 얼굴 영역의 위치 및 속성을 트레이스 식별자 부여부(421)에 공급한다. 현 프레임이 예측 내에 있는 경우, 트레이스 식별자 부여부(421)는, 예측된 트레이스에 부여되어 있는 트레이스 식별자를 현 프레임에 부여하여, 얼굴 영역 정보 유지부(422)에 유지시킨다.

한편, 얼굴 영역 예측부(423)로부터 공급된 트레이스 식별자마다의 다음 프레임에서의 얼굴 영역의 위치 및 속성의 예측치와, 얼굴 영역 검출부(410)에서 검출된 현 프레임에서의 얼굴 영역의 위치 및 속성과의 차가 소정의 임계치 내에 있지 않으면, 현 프레임은 어느 트레이스도 구성하는 것이 아니라고 판단되어, 현 프레임은 그 트레이스에 가해지지 않는다. 이 경우, 그 현 프레임은 새로 출현한 얼굴 영역으로서 취급되고, 트레이스 판단부(424)는, 그 현 프레임에서의 얼굴 영역의 위치 및 속성을 트레이스 식별자 부여부(421)에 공급한다. 그리고, 트레이스 식별자 부여부(421)는, 새로운 트레이스 식별자를 현 프레임에 부여하여, 얼굴 영역 정보 유지부(422)에 유지시킨다.

또한, 트레이스 판단부(424)는, 얼굴 영역 예측부(423)로부터 공급된 트레이스 식별자마다의 다음 프레임에서의 얼굴 영역의 위치 및 속성의 예측치에 대응하는 현 프레임에서의 얼굴 영역의 위치 및 속성이 없는 경우에는, 그 예측치에 대응하는 트레이스가 종료할 가능성이 있다고 판단하여, 그 취지의 통지 및 현 프레임을 종료 프레임 판단부(425)에 공급한다.

종료 프레임 판단부(425)는, 트레이스 판단부(424)로부터 상기 그 취지의 통지를 받으면 트레이스에서의 종료 프레임을 판단한다. 종료 프레임 판단부(425)는, 예를 들면 현 프레임으로부터 소정 시간(예를 들면, 0.5초 정도) 경과하는 동안의 프레임에서 그 트레이스에 대응하는 얼굴 영역이 존재하지 않은 경우에, 상기 그 취지의 통지를 받았을 때의 프레임을 종료 프레임으로 판단한다.

얼굴 영역 예측부(423)로부터 공급된 트레이스 식별자마다의 다음 프레임에 서의 얼굴 영역의 위치 및 속성의 예측치에 대응하는 현 프레임에서의 얼굴 영역의 위치 및 속성이 없는 경우에는, 그 시점에서의 프레임을 종료 프레임으로 하는 것도 생각되지만, 얼굴 영역 검출부(410)에서 얼굴 영역의 검출 누설이 발생할 수도 있기 때문에, 현 프레임으로부터 소정 시간 경과하는 동안의 프레임에서의 얼굴 영역도 대상으로 하고 있다.

또한, 종료 프레임 판단부(425)는, 트레이스 판단부(424)로부터 공급된 현 프레임으로부터 얼굴 영역의 위치의 예측치 부근의 휘도 분포, 색 분포, 모양 및 형상 등을 산출하여, 그 산출치와 트레이스를 구성하는 다른 프레임에 포함되는 얼굴 영역의 휘도 분포, 색 분포, 모양 및 형상 등에서의 값을 비교하여, 양자가 유사하지 않은 경우에 그 현 프레임을 종료 프레임으로 판단하도록 해도 된다. 양자를 비교한 결과가 유사하다고 판단된 경우에는, 어떤 이유로 얼굴 영역이 검출되지 않았다고 간주하여, 트레이스 판단부(424)로부터 공급된 현 프레임은 종료 프레임이라고 판단되지 않는다.

대표 얼굴 영역 정보 생성부(430)는, 트레이스 판단부(424)로부터 공급된 트레이스를 구성하는 프레임에 포함되는 얼굴 영역으로부터 대표 얼굴 영역을 선택하여 대표 얼굴 영역의 내용을 나타내는 대표 얼굴 영역 정보를 생성하는 것이다. 또한, 대표 얼굴 영역은, 2 이상 있어도 된다. 이 대표 얼굴 영역 정보는, 영상 데이터 부수 정보 생성부(450) 및 얼굴 특징 식별자 부여부(440)에 공급된다.

대표 얼굴 영역의 선택은, 얼굴 영역의 크기, 얼굴 영역에서의 주파수 분포, 얼굴 영역에서의 농담 분포 및 얼굴 영역에서의 색 분포 등의 요소에 기초하여 행 해진다. 또한, 얼굴 영역에서의 주파수 분포는 얼굴 영역의 불선명 상태(형편)를 나타내는 지표로서 이용되고, 얼굴 영역에서의 농담 분포는 얼굴 영역의 콘트라스트를 나타내는 지표로서 이용되며, 얼굴 영역에서의 색 분포는 색조를 나타내는 지표로서 이용된다.

대표 얼굴 영역 정보로서는, 구체적으로는 상기 요소에 기초하여 선택된 대표 얼굴 영역을 프레임으로부터 석출된 것, 즉 대표 얼굴 영역 부분의 영상 데이터 그 자체가 상정된다. 또한, 대표 얼굴 영역 정보로서는, 대표 얼굴 영역을 포함하는 프레임의 프레임 번호 및 대표 얼굴 영역의 프레임에서의 위치 및 크기 등의 정보도 상정된다. 이 대표 얼굴 영역을 포함하는 프레임의 프레임 번호 및 대표 얼굴 영역의 프레임에서의 위치 및 크기 등의 정보에 기초하여, 대표 얼굴 영역 부분의 영상 데이터를 취득할 수 있다.

대표 얼굴 영역 정보 중 전자는, 대표 얼굴 영역 정보에 기초하여 얼굴 영역의 영상 데이터를 표시시키는 경우에는, 매회 영상 데이터로부터 대표 얼굴 영역 부분의 영상 데이터를 석출할 필요가 없다고 하는 이점이 있다. 한편, 대표 얼굴 영역 정보 중 후자는, 영상 데이터가 아니기 때문에 기억 영역의 효율적인 이용이 가능하다고 하는 이점이 있다.

얼굴 특징 식별자 부여부(440)는, 얼굴 영역 특징 데이터 추출부(441)와, 얼굴 영역 특징 데이터 유지부(442)와, 얼굴 영역 특징 데이터 검색부(443)를 구비한다. 얼굴 영역 특징 데이터 추출부(441)는, 대표 얼굴 영역 정보 생성부(430)로부터 공급된 대표 얼굴 영역 정보에 기초하여 대표 얼굴 영역으로부터 얼굴 영역에 관한 특징 데이터(이하, 얼굴 영역 특징 데이터라고 함)를 추출하는 것이다. 추출된 얼굴 영역 특징 데이터는, 얼굴 영역 특징 데이터 검색부(443)에 공급된다.

또한, 얼굴 영역 특징 데이터로서는, 예를 들면 눈, 코, 입 등의 조작을 나타내는 특징점을 추출함으로써 각 조작의 형상이나 위치 관계 등을 수치적으로 기술한 특징 벡터가 상정되지만, 이것에 한정되는 것은 아니다.

얼굴 영역 특징 데이터 유지부(442)는, 얼굴 특징 식별자와 얼굴 영역 특징 데이터를 대응지어 유지하는 것이다. 얼굴 특징 식별자란, 얼굴 영역 특징 데이터의 식별자로서, 동일한 얼굴 특징 식별자를 부여받은 얼굴 영역 특징 데이터는 서로 유사한 얼굴 영역의 특징을 갖는다.

얼굴 영역 특징 데이터 검색부(443)는, 얼굴 영역 특징 데이터 유지부(442)에 유지된 얼굴 영역 특징 데이터에서, 얼굴 영역 특징 데이터 추출부(441)로부터 공급된 얼굴 영역 특징 데이터와 유사한 얼굴 영역 특징 데이터를 검색하는 것이다.

얼굴 영역 특징 데이터 유지부(442)에 유지된 얼굴 영역 특징 데이터에서, 얼굴 영역 특징 데이터 추출부(441)로부터 공급된 얼굴 영역 특징 데이터와 유사한 얼굴 영역 특징 데이터가 검색된 경우, 얼굴 영역 특징 데이터 추출부(441)로부터 공급된 얼굴 영역 특징 데이터에는, 상기 검색된 얼굴 영역 특징 데이터와 동일한 얼굴 특징 식별자가 부여되고, 영상 데이터 부수 정보 생성부(450)에 공급된다. 한편, 얼굴 영역 특징 데이터 유지부(442)에 유지된 얼굴 영역 특징 데이터에서, 얼굴 영역 특징 데이터 추출부(441)로부터 공급된 얼굴 영역 특징 데이터와 유사한 얼굴 영역 특징 데이터가 검색되지 않은 경우, 새로운 얼굴 특징 식별자가 부여되어 영상 데이터 부수 정보 생성부(450)에 공급된다.

또한, 얼굴 영역 특징 데이터 검색부(443)에 공급되어 얼굴 특징 식별자를 부여받은 얼굴 영역 특징 데이터는, 얼굴 영역 특징 데이터 유지부(442)에도 공급되고, 얼굴 특징 식별자와 대응지어져 유지된다. 이에 의해, 얼굴 영역 특징 데이터 유지부(442)에는, 얼굴 특징 식별자와 대응지어진 얼굴 영역 특징 데이터가 축적된다.

영상 데이터 부수 정보 생성부(450)는, 영상 데이터에 대하여 트레이스의 개시 및 종료에 대응하는 프레임 번호와, 대표 얼굴 영역 정보와, 얼굴 특징 식별자를 대응지은 영상 데이터 부수 정보를 생성하는 것이다. 즉, 영상 데이터 부수 정보란, 영상 데이터에 도 1에서 설명한 트레이스 정보를 대응지은 정보이다. 이 생성된 영상 데이터 부수 정보는, 영상 데이터 부수 정보 유지부(460)에서 유지된다.

또한, 이들 도 2에서의 기능은, 예를 들면 도 1에서의 시스템 제어부(40)에서 실현되는 것이다.

도 3은, 도 2에서 생성된 영상 데이터 부수 정보를 이용한 조작 기능의 구성의 일례를 도시하는 도면이다. 이 조작 기능은, 조작 메뉴 일람 생성부(470)와, 영상 데이터 부수 정보 유지부(460)와, 영상 데이터 유지부(500)와, 얼굴 타임 라인 생성부(481)와, 유사 얼굴 영역 검색부(482)와, 얼굴 영역 취득부(483)와, 재생 영상 데이터 취득부(484)를 구비한다.

조작 메뉴 일람 생성부(470)는, 영상 데이터 부수 정보 유지부(460)에 유지 된 영상 데이터 부수 정보에 기초하여 영상 데이터에 대한 조작 메뉴의 일람을 생성하는 것이다. 또한, 조작 메뉴 일람 생성부(470)는, 영상 데이터에 대한 조작 메뉴에 대한 조작 입력부(90)로부터의 선택에 따라 조작 메뉴 중 어느 하나에 대응하는 기능을 구비한 얼굴 타임 라인 생성부(481), 유사 얼굴 영역 검색부(482), 얼굴 영역 취득부(483) 및 재생 영상 데이터 취득부(484)에 대하여 지시를 행한다.

얼굴 타임 라인 생성부(481)는, 조작 메뉴 일람 생성부(470)로부터의 지시를 받아, 지시에 대응하는 영상 데이터 부수 정보를 영상 데이터 부수 정보 유지부(460)로부터 취득하고 그 영상 데이터 부수 정보에 기초하여 표시부(70)에 표시시키는 얼굴 타임 라인 표시를 생성하는 것이다.

여기서, 얼굴 타임 라인 표시란, 소정의 영상 데이터에서의 트레이스에 대응하는 시간 표시 및 대표 얼굴 영역 정보에 대응하는 얼굴 영역을 대응지은 표시를 말한다. 영상 데이터 부수 정보에 포함되는 트레이스의 개시 및 종료에 대응하는 프레임 번호에 의해 트레이스에 대응하는 시간 표시를 생성하고, 대표 얼굴 영역 정보에 기초하여 대표 얼굴 영역이 생성된다.

얼굴 영역 취득부(483)는, 조작 메뉴 일람 생성부(470) 또는 유사 얼굴 영역 검색부(482)로부터의 지시를 받아, 지시에 대응하는 영상 데이터 부수 정보를 영상 데이터 부수 정보 유지부(460)로부터 취득하고 그 영상 데이터 부수 정보에 기초하여 표시부(70)에 표시시키는 대표 얼굴 영역을 취득하는 것이다. 구체적으로는, 얼굴 영역 취득부(483)는, 영상 데이터 부수 정보에 포함되는 대표 얼굴 영역 정보에 기초하여 대표 얼굴 영역을 취득한다.

대표 얼굴 영역 정보의 내용이 얼굴 영역의 영상 데이터 그 자체인 경우에는, 얼굴 영역 취득부(483)는, 얼굴 영역을 영상 데이터 부수 정보 유지부(460)로부터 취득한다. 한편, 대표 얼굴 영역 정보의 내용이 대표 얼굴 영역을 포함하는 프레임의 프레임 번호 및 대표 얼굴 영역의 프레임에서의 위치 및 크기 등의 정보인 경우에는, 얼굴 영역 취득부(483)는, 영상 데이터 유지부(500)로부터 대응하는 프레임을 취득하여 그 프레임으로부터 얼굴 영역을 취득한다.

유사 얼굴 영역 검색부(482)는, 조작 메뉴 일람 생성부(470)로부터의 지시를 받아, 영상 데이터 부수 정보 유지부(460)에 유지된 영상 데이터 부수 정보에서의 얼굴 특징 식별자에 기초하여, 지시에 대응하는 얼굴 영역과 유사한 얼굴 영역을 영상 데이터 부수 정보 유지부(460)에서 검색하는 것이다. 구체적으로는，유사 얼굴 영역 검색부(482)는, 조작 메뉴 일람 생성부(470)로부터 지시된 얼굴 영역의 얼굴 특징 식별자와 동일한 얼굴 특징 식별자를 갖는 영상 데이터 부수 정보를 영상 데이터 부수 정보 유지부(460)에서 검색한다. 그리고, 검색된 영상 데이터 부수 정보 중의 대표 얼굴 영역 정보에 기초하여 대응하는 얼굴 영역을 표시부(70)에 표시시킨다.

또한, 본 발명의 실시 형태에서 대표 얼굴 영역 정보의 내용이 얼굴 영역의 영상 데이터 그 자체인 경우, 유사 얼굴 영역 검색부(482)는 검색된 얼굴 특징 식별자에 대응하는 얼굴 영역을 영상 데이터 부수 정보 유지부(460)로부터 취득하여 표시부(70)에 표시시킨다. 한편, 대표 얼굴 영역 정보의 내용이 대표 얼굴 영역을 포함하는 프레임의 프레임 번호 및 대표 얼굴 영역의 프레임에서의 위치 및 크기 등의 정보인 경우, 유사 얼굴 영역 검색부(482)는 얼굴 영역 취득부(483)에 지시를 행하고, 영상 데이터 유지부(500)로부터 대응하는 프레임을 얼굴 영역 취득부(483)에 취득시켜 그 프레임으로부터 얼굴 영역을 석출하여 표시부(70)에 표시시킨다.

재생 영상 데이터 취득부(484)는, 조작 메뉴 일람 생성부(470)로부터의 지시를 받아 지시에 대응하는 영상 데이터를 영상 데이터 유지부(500)로부터 취득하여 표시 제어부(61)에 공급하는 것이다.

도 4는, 본 발명의 실시 형태에서의 트레이스의 생성의 모습을 도시하는 도면이다. 또한, 도 4에서 얼굴 영역(213~215)은 얼굴 영역이 점선으로 나타나 있다. 이것은 실제로는 얼굴 영역이 존재하지만, 얼굴 영역 검출부(410)에서 검출되지 않은 것을 나타내고 있는 것으로 한다. 또한, 실선으로 나타난 얼굴 영역은, 얼굴 영역 검출부(410)에서 검출된 것을 나타내고 있는 것으로 한다.

먼저, 프레임(201)에서 얼굴 영역(211)이 얼굴 영역 검출부(410)에서 검출되고, 트레이스 A의 생성이 개시된다. 다음으로, 프레임(201)에서의 얼굴 영역(211)의 위치 및 속성에 기초하여, 다음 프레임(202)에서의 얼굴 영역의 위치 및 속성이 얼굴 영역 예측부(423)에서 예측된다.

프레임(202)에서 얼굴 영역(212, 221)이 얼굴 영역 검출부(410)에서 검출되고, 얼굴 영역 예측부(423)에서 예측된 얼굴 영역의 위치 및 속성과 프레임(202)에서 검출된 얼굴 영역(212, 221)의 위치 및 속성이 비교된다. 양자의 위치 및 속성의 차가 임계치 내이면, 프레임(202)은 트레이스 A에 가해진다.

도 4에서는, 얼굴 영역 예측부(423)에서 예측된 얼굴 영역의 위치 및 속성 과, 프레임(202)에서 검출된 얼굴 영역(212)의 위치 및 속성의 차는 임계치 내에 있다고 생각되기 때문에, 프레임(202)은 트레이스 A에 가해진다.

한편, 얼굴 영역 예측부(423)에서 예측된 얼굴 영역의 위치 및 속성과, 프레임(202)에서 검출된 얼굴 영역(221)의 위치 및 속성의 차는 임계치 내에 있지 않다고 생각되기 때문에, 새로 출현한 얼굴 영역으로서 취급되어, 트레이스 B의 생성이 개시된다.

다음으로, 얼굴 영역 예측부(423)에서, 트레이스 A에서의 다음 프레임(203)에서의 얼굴 영역의 위치 및 속성의 예측 및 트레이스 B에서의 다음 프레임(203)에서의 얼굴 영역의 위치 및 속성의 예측이 행해진다.

프레임(203)에서 얼굴 영역(222)이 얼굴 영역 검출부(410)에서 검출되고, 트레이스 B에서의 다음 프레임(203)에서의 얼굴 영역의 위치 및 속성의 예측과 프레임(203)에서의 얼굴 영역(222)의 위치 및 속성이 비교된다. 도 4에서는, 트레이스 B에서의 다음 프레임(203)에서의 얼굴 영역의 위치 및 속성의 예측과, 프레임(203)에서의 얼굴 영역(222)의 위치 및 속성의 차는, 임계치 내에 있다고 생각되기 때문에, 프레임(203)은 트레이스 B에 가해진다.

트레이스 B에 대해서는, 프레임(204, 205)에 대해서도 마찬가지의 취급이 이루어져서, 얼굴 영역이 존재하지 않게 되는 프레임(206) 앞의 프레임(205)이 트레이스 B의 종료 프레임으로 된다. 따라서, 트레이스 B의 개시 프레임은 프레임(202)이고, 트레이스 B의 종료 프레임은, 프레임(205)으로 된다.

한편, 트레이스 A에 대응하는 얼굴 영역(213)이 프레임(203)에서는 검출되어 있지 않다. 이 때문에, 트레이스 A에서의 다음 프레임(203)에서의 얼굴 영역의 위치 및 속성의 예측과 비교할 대상이 존재하지 않는다. 이 경우, 트레이스 A에서의 종료 프레임은, 프레임(202)로 해야한다고 생각된다. 그러나, 얼굴 영역 검출부(410)에서의 얼굴 검출의 확률은 100퍼센트가 아니기 때문에, 실제로는 프레임(203)에 얼굴 영역(213)이 존재할 가능성도 있다. 따라서, 본 발명의 실시 형태에서는, 프레임(203)에서 트레이스 A에 대응해야 할 얼굴 영역(213)이 검출되지 않아도, 이 시점에서 즉시 트레이스 A의 종료 프레임을 판단하지 않는다. 또한 앞의 프레임에서의 얼굴 영역도 가미하여 트레이스 A의 종료 프레임을 판단한다.

트레이스 A에 대해서는, 프레임(203~205)까지 얼굴 영역 검출부(410)에서 얼굴 영역(213~215)이 검출되어 있지 않다. 프레임(206)에서는, 얼굴 영역(216)이 검출되어 있다. 얼굴 영역 예측부(423)에서의 프레임(206)에서의 얼굴 영역의 위치 및 속성의 예측과, 프레임(206)에서 검출된 얼굴 영역(216)의 위치 및 속성을 비교하면, 양자의 차는 임계치 내에 있다고 생각되고, 얼굴 영역(216)을 포함하는 프레임(206)은 트레이스 A에 가해진다. 이 경우, 본 발명의 실시 형태에서는 프레임(203~205)에서 얼굴 영역(213~215)은 검출된 것으로 취급되어, 프레임(203~205)도 트레이스 A에 가해진다. 또한, 몇 프레임 앞의 얼굴 영역의 상황까지 상기한 바와 같이 취급할지의 한정은 없지만, 예를 들면 0.5초 정도 앞의 프레임까지 상기한 바와 같이 취급하는 것이 상정된다.

트레이스 A에 대해서는, 프레임(207, 208)에 대해서도 마찬가지의 것이 행해지고, 얼굴 영역이 존재하지 않게 되는 프레임(208) 앞의 프레임(207)이 트레이스 A의 종료 프레임으로 된다. 따라서, 트레이스 A의 개시 프레임은 프레임(201)이고, 트레이스 A의 종료 프레임은, 프레임(207)으로 된다.

도 5는, 도 ４와는 별도의 트레이스에서의 종료 프레임의 판단 방법을 도시하는 것이다. 도 ４에서는, 얼굴 영역이 검출되지 않은 경우에는, 수 프레임 앞까지의 얼굴 영역의 검출 결과를 가미하지만, 도 5에서는, 얼굴 영역이 검출되지 않은 프레임을 해석함으로써 트레이스에서의 종료 프레임을 판단한다.

도 5에 도시한 것은, 도 ４에서의 프레임(202, 203)이다. 프레임(203)에서는 얼굴 영역 검출부(410)에서 얼굴 영역이 검출되어 있지 않지만, 프레임(203)으로부터 전의 프레임(201) 또는 프레임(202)에 기초하여, 프레임(203)에서의 얼굴 영역의 위치 및 속성이 얼굴 영역 예측부(423)에 의해 예측되어 있다. 이 예측된 위치가 프레임(203)의 영역(231)이다.

이 프레임(203)이 트레이스 A에서의 종료 프레임인지의 여부를 판단하기 위해, 영역(231)에서의 휘도 분포, 색 분포, 모양 및 형상 등을 종료 프레임 판단부(425)에서 산출한다. 그리고, 상기 산출된 휘도 분포, 색 분포, 모양 및 형상 등과, 프레임(201) 또는 프레임(202)에 기초하여 예측된 프레임(203)에서의 얼굴 영역에서의 휘도 분포, 색 분포, 모양 및 형상 등으로 이루어지는 속성을 종료 프레임 판단부(425)에서 비교한다.

양자를 비교한 결과, 양자의 휘도 분포, 색 분포, 모양 및 형상 등이 유사하다고 판단된 경우에는, 어떤 이유로 얼굴 영역이 검출되지 않았다고 간주하여, 프레임(203)은 종료 프레임으로 판단되지 않는다. 한편, 양자의 휘도 분포, 색 분 포, 모양 및 형상 등이 유사하지 않다고 판단된 경우에는, 프레임(203)은 종료 프레임으로 판단된다.

또한, 종료 프레임의 판단의 정밀도를 높이기 위해, 상기 영역(231)에서의 주변 영역인 주변 영역(232)도 비교 대상으로 하여 상기한 바와 같이 주변 영역(232)에서의 휘도 분포, 색 분포, 모양 및 형상 등을 산출하도록 해도 된다.

도 6은, 본 발명의 실시 형태에서의 얼굴 영역 정보 유지부(422)의 보유 내용을 도시하는 도면이다. 얼굴 영역 정보 유지부(422)는, 얼굴 영역 정보 테이블(4220)을 유지하고 있고, 얼굴 영역 정보 테이블(4220)은, 트레이스 식별자(4221)와, 얼굴 영역 정보(4222)를 구비한다.

트레이스 식별자(4221)는, 각각의 트레이스에 부여되는 각 트레이스를 구별하기 위한 유니크한 식별자로서, 도 2에서 설명한 것과 마찬가지의 트레이스 식별자이다. 또한, 얼굴 영역 정보(4222)는, 소정의 프레임에서의 얼굴 영역의 위치 및 속성을 나타내는 정보이다. 도 6에서는, 프레임(202)(위치(202), 속성(202))과 같이 나타나 있는데, 이것은 프레임(202)에서의 얼굴 영역의 위치와 속성을 의미하는 것이다. 트레이스는 복수의 프레임으로 구성되는 경우도 있기 때문에, 하나의 트레이스 식별자에 대하여 복수의 프레임에서의 얼굴 영역의 위치와 속성이 얼굴 영역 정보(4222)에서 유지되어 있다.

도 7은, 본 발명의 실시 형태에서의 얼굴 영역 특징 데이터 유지부(442)의 보유 내용을 도시하는 도면이다. 얼굴 영역 특징 데이터 유지부(442)는, 얼굴 영역 특징 데이터 테이블(4420)을 유지하고 있고, 얼굴 영역 특징 데이터 테이 블(4420)은, 얼굴 특징 식별자(4421)와, 얼굴 영역 특징 데이터(4422)를 구비한다.

얼굴 특징 식별자(4421)는, 얼굴 영역 특징 데이터의 식별자로서, 도 2에서 설명한 바와 같이 동일한 얼굴 특징 식별자를 부여받은 얼굴 영역 특징 데이터는 서로 유사한 얼굴 영역의 특징을 갖는다. 도 ７에서 얼굴 특징 식별자는, 「특징 A」, 「특징 B」로 되어 있다. 얼굴 영역 특징 데이터(4422)는, 도 2에서 설명한 얼굴 영역 특징 데이터와 마찬가지의 것이다.

도 8은, 본 발명의 실시 형태에서의 영상 데이터 부수 정보 유지부(460)에서 유지된 영상 데이터 부수 정보를 도시하는 도면이다. 영상 데이터 부수 정보(4600)는, 영상 데이터의 타이틀(4601)과, 트레이스 정보(4602)를 구비한다. 영상 데이터에서는, 일반적으로 얼굴 영역의 출현부터 소멸까지의 상황이 다수 존재한다. 이 때문에, 영상 데이터의 타이틀 하나 당 다수의 트레이스 정보가 유지되어 있다. 트레이스 정보의 구체적인 내용에 대해서는 도 9에서 설명한다.

도 9는, 본 발명의 실시 형태에서의 트레이스 정보의 내용을 도시하는 도면이다. 도 9의 (a)는, 본 발명의 실시 형태에서의 트레이스 정보의 일례를 도시하는 도면이다. 도 9의 (a)에 도시하는 트레이스 정보(4610)는, 트레이스 식별자(4611)와, 개시 프레임 번호(4612)와, 종료 프레임 번호(4613)와, 얼굴 특징 식별자(4614)와, 대표 얼굴 영역 정보(4615)를 구비한다.

트레이스 식별자(4611)는, 각각의 트레이스에 부여되는 각 트레이스를 구별하기 위한 유니크한 식별자로서, 도 2에서 설명한 것과 마찬가지의 트레이스 식별자이다. 개시 프레임 번호(4612)는, 트레이스를 시작한 프레임 번호이다. 또한, 종료 프레임 번호(4613)는, 트레이스를 종료한 프레임 번호이다.

얼굴 특징 식별자(4614)는, 얼굴 영역 특징 데이터의 식별자로서, 도 2에서 설명한 바와 같이 동일한 얼굴 특징 식별자를 부여받은 얼굴 영역 특징 데이터는 서로 유사한 얼굴 영역의 특징을 갖는다. 즉, 동일한 얼굴 특징 식별자(4614)를 갖는 트레이스 정보는, 유사한 특징을 갖는 얼굴 영역을 갖고 있게 되며, 이 얼굴 특징 식별자(4614)는, 유사한 특징을 갖는 얼굴 영역을 검색할 때에 참조된다. 대표 얼굴 영역 정보(4615)는, 대표 얼굴 영역의 내용을 나타내는 정보로서, 도 9의 (a)에서는 프레임 중으로부터 석출된 얼굴 영역 그 자체가 대표 얼굴 영역 정보로 된다. 또한, 대표 얼굴 영역 정보(4615)에서의 대표 얼굴 영역의 내용을 나타내는 정보는, 2 이상 있어도 된다. 도 9의 (a)에서는, 대표 얼굴 영역의 내용을 나타내는 정보로서 「대표 얼굴 영역 정보 #1」의 이외에 「대표 얼굴 영역 정보 #2」가 도시되어 있다.

도 ９(b)에 도시하는 트레이스 정보(4620)는, 트레이스 식별자(4621)와, 개시 프레임 번호(4622)와, 종료 프레임 번호(4623)와, 얼굴 특징 식별자(4624)와, 대표 얼굴 영역 정보(4625)를 구비한다. 도 9의 (b)와 도 9의 (a)에서의 트레이스 정보의 상위점은, 대표 얼굴 영역 정보이다. 그 밖의 점에 대해서는 동일한 내용이기 때문에, 설명을 생략한다. 도 9의 (b)에서의 대표 얼굴 영역 정보(4625)는, 도 9의 (c)에 도시하는 바와 같이 대표 얼굴 영역을 포함하는 프레임 번호(4626)와, 얼굴 영역에서의 소정의 좌표(4627)와, 얼굴 영역의 높이 및 폭(4628)으로 이루어진다. 이들에 의해, 프레임 중의 얼굴 영역이 특정되어, 대표 얼굴 영역으로 서 취득되게 된다.

도 10은, 본 발명의 실시 형태에서의 조작 메뉴의 표시를 도시하는 것이다. 도 10의 (a)에 도시하는 바와 같이 표시부(70)의 표시 화면(700)에는, 영상 데이터의 타이틀의 집합인 영상 데이터 타이틀 표시군(710)과, 얼굴 열거 버튼(721)과, 얼굴 타임 라인 버튼(722)으로 이루어지는 조작 메뉴가 표시된다. 얼굴 열거 버튼(721)은, 커서가 위치하는 영상 데이터에서의 대표 얼굴 영역을 열거하여 표시시키기 위한 버튼이다. 또한, 얼굴 타임 라인 버튼(722)은, 커서가 위치하는 영상 데이터에서의 도 3에서 설명한 얼굴 타임 라인 표시를 표시시키기 위한 버튼이다.

예를 들면, 소정의 영상 데이터 타이틀에 커서를 맞춘 후에 얼굴 열거 버튼(721)을 선택하면, 표시 화면(700)에는 도 10의 (b)에 도시하는 바와 같이 표시된다. 도 10의 (b)에 도시하는 표시 화면(700)에는, 선택 영상 데이터 표시(730)와, 대표 얼굴 영역의 집합인 대표 얼굴 열거군(740)과, 유사 타이틀 버튼(751)과, 재생 버튼(752)이 표시된다.

선택 영상 데이터 표시(730)는, 도 10의 (a)에서 커서에 의해 선택된 영상 데이터의 타이틀 표시이다. 대표 얼굴 열거군(740)은, 커서에 의해 선택된 영상 데이터에서의 대표 얼굴 영역이 표시된다. 유사 타이틀 버튼(751)은, 도 10의 (b)에서 선택된 대표 얼굴 영역과 유사한 대표 얼굴 영역을 포함하는 영상 타이틀을 검색하기 위한 버튼이다. 또한, 재생 버튼(752)은, 도 10의 (b)에서 선택된 대표 얼굴 영역에 대응하는 트레이스를 구성하는 영상 데이터를 재생시키기 위한 버튼이다.

도 10의 (b)에 도시하는 표시 화면(700)에서 대표 얼굴 영역 「얼굴 C」에 커서를 이동시켜, 유사 타이틀 버튼(751)을 선택하면, 도 10의 (c)에 도시하는 바와 같은 표시로 된다. 한편, 도 10의 (b)에 도시하는 표시 화면(700)에서 대표 얼굴 영역 「얼굴 C」에 커서를 이동시켜, 재생 버튼(752)을 선택하면, 대표 얼굴 영역 「얼굴 C」에 대응하는 트레이스를 구성하는 영상 데이터가 재생되어 도 10의 (d)에 도시하는 바와 같은 표시로 된다.

도 10의 (c)에서의 표시 화면(700)에는, 도 10의 (b)에서 커서에 의해 선택된 대표 얼굴 영역 「얼굴 C」와 유사한 대표 얼굴 영역을 포함하는 영상 데이터 타이틀 표시인 유사 대표 얼굴 영역 영상 데이터 타이틀 표시군(760)과, 도 10의 (a)에서 도시한 얼굴 열거 버튼(721)과, 얼굴 타임 라인 버튼(722)이 표시된다. 유사 대표 얼굴 영역 영상 데이터 타이틀 표시군(760) 중 어느 하나를 선택하여 얼굴 열거 버튼(721)을 선택하면, 표시 화면(700)에는 도 10의 (b)에 도시하는 바와 같은 표시로 된다.

도 11은, 도 10에서 얼굴 타임 라인 버튼(722)을 선택한 경우의 표시 화면(700)을 도시하는 도면이다. 도 11에서의 표시 화면(700)에는, 선택 영상 데이터 표시(730)와, 영상 데이터 시간 표시(770)와, 얼굴 타임 라인 표시군(780)와, 유사 타이틀 버튼(751)과, 재생 버튼(752)이 표시된다.

선택 영상 데이터 표시(730)는, 도 10에서 설명한 것과 마찬가지이다. 영상 데이터 시간 표시(770)는, 영상 데이터의 재생 시간을 표시하는 것이다. 도 11에서는, 타이틀 B의 영상 데이터의 재생 시간은 30분이다. 얼굴 타임 라인 표시 군(780)은, 얼굴 타임 라인 표시의 집합이다.

얼굴 타임 라인 표시는, 트레이스 시간 표시(781)와, 대표 얼굴 영역(782)으로 이루어진다. 트레이스 시간 표시(781)는, 트레이스를 구성하는 영상 데이터의 재생 시간이다. 대표 얼굴 영역(782)은, 트레이스를 구성하는 프레임에 포함되는 얼굴 영역으로부터 선택된 얼굴 영역이다. 얼굴 타임 라인 표시를 보면, 영상 데이터 중에서의 트레이스의 위치를 알기 때문에, 영상 데이터의 내용을 파악하는데도 편리하다. 또한, 유사 타이틀 버튼(751)과, 재생 버튼(752)에 대해서는, 도 10에서 설명한 것과 마찬가지이다.

다음으로, 본 발명의 실시 형태에서의 영상 처리 장치(100)의 동작에 대해 도면을 참조하여 설명한다.

도 12는, 본 발명의 실시 형태에서의 영상 데이터 부수 정보를 생성할 때까지의 흐름을 도시하는 도면이다.

영상 데이터를 구성하는 프레임이 얼굴 영역 검출부(410)에 입력되면(스텝 S911), 얼굴 영역 검출부(410)에서 프레임에 포함되는 얼굴 영역의 검출이 행해진다(스텝 S912). 다음으로, 스텝 S912에서 미처리의 트레이스가 존재하는지의 여부가 판단된다(스텝 S913).

미처리의 트레이스가 존재하지 않는다고 판단되면, 스텝 S912에서 새로운 얼굴 영역이 존재하는지의 여부가 판단된다(스텝 S914). 새로운 얼굴 영역이 존재한다고 판단되면, 신규의 트레이스의 생성을 시작한다(스텝 S915).

스텝 S913에서, 미처리의 트레이스가 존재한다고 판단되면, 얼굴의 위치 및 속성이 예측된다(스텝 S916). 다음으로, 스텝 S916에서 예측된 얼굴의 위치 및 속성과, 스텝 S912에서 검출된 얼굴 영역의 위치 및 속성을 비교하여, 스텝 S912에서 검출된 얼굴 영역의 위치 및 속성이 트레이스에 포함되는지 여부가 판단된다(스텝 S917). 스텝 S912에서 검출된 얼굴 영역의 위치 및 속성이 트레이스에 포함된다고 판단되면, 그 검출된 얼굴 영역은 트레이스에 가해진다(스텝 S918).

한편, 스텝 S912에서 검출된 얼굴 영역의 위치 및 속성이 트레이스에 포함되지 않는다고 판단되면, 다음으로, 그 트레이스를 종료할지의 여부가 판단된다(스텝 S919). 트레이스를 종료할지의 여부는, 도 2에서 설명한 바와 같이, 예를 들면 현 프레임으로부터 소정 시간 경과하는 동안의 프레임에서 그 트레이스에 대응하는 얼굴 영역이 검출되지 않은 경우에, 상기 그 취지의 통지를 받았을 때의 프레임을 종료 프레임으로 판단한다.

그 트레이스를 종료하지 않는다고 판단되면, 그 프레임에서는, 얼굴 영역이 존재하는 것으로 되고, 또한 트레이스가 계속된다(스텝 S920). 한편, 그 트레이스를 종료한다고 판단되면, 다음으로, 그 트레이스 내에서의 얼굴 영역으로부터 대표 얼굴 영역을 선택하여 대표 얼굴 영역 정보를 생성한다(스텝 S921). 트레이스에 대응하는 프레임의 개시 및 종료에 대응하는 프레임 번호 및 대표 얼굴 영역 정보에 기초하여 영상 데이터 부수 정보가 생성된다(스텝 S922).

도 13은, 본 발명의 실시 형태에서의 대표 얼굴 영역에 대하여 얼굴 특징 식별자를 부여할 때까지의 흐름을 설명하는 도면이다. 먼저, 얼굴 영역 특징 데이터 추출부(441)에 대표 얼굴 영역 정보가 공급된다(스텝 S931). 얼굴 영역 특징 데이 터 추출부(441)는, 대표 얼굴 영역 정보가 공급되면, 대표 얼굴 영역 정보에 기초하여 대표 얼굴 영역에서의 얼굴 영역 특징 데이터를 추출한다(스텝 S932). 그리고, 얼굴 영역 특징 데이터 추출부(441)에서 추출된 얼굴 영역 특징 데이터는, 얼굴 영역 특징 데이터 검색부(443)에 공급된다.

얼굴 영역 특징 데이터 검색부(443)는, 공급된 얼굴 영역 특징 데이터와 유사한 얼굴 영역 특징 데이터를 얼굴 영역 특징 데이터 유지부(442)로부터 검색한다(스텝 S933). 그리고, 얼굴 영역 특징 데이터 검색부(443)는, 공급된 얼굴 영역 특징 데이터와 유사한 얼굴 영역 특징 데이터가 얼굴 영역 특징 데이터 유지부(442)에 유지되어 있는지의 여부를 판단한다(스텝 S934).

스텝 S934에서, 공급된 얼굴 영역 특징 데이터와 유사한 얼굴 영역 특징 데이터가 얼굴 영역 특징 데이터 유지부(442)에 유지되어 있다고 판단되면, 얼굴 영역 특징 데이터 검색부(443)는, 얼굴 영역 특징 데이터 유지부(442)에 유지되어 있는 그 얼굴 영역 특징 데이터에 대응하는 얼굴 특징 식별자를, 공급된 얼굴 영역 특징 데이터에 대하여 부여한다(스텝 S935).

한편, 스텝 S934에서, 공급된 얼굴 영역 특징 데이터와 유사한 얼굴 영역 특징 데이터가 얼굴 영역 특징 데이터 유지부(442)에 유지되어 있지 않다고 판단되면, 얼굴 영역 특징 데이터 검색부(443)는, 공급된 얼굴 영역 특징 데이터에 대하여 새로운 얼굴 특징 식별자를 부여한다(스텝 S936).

스텝 S935 및 스텝 S936에서, 공급된 얼굴 영역 특징 데이터에 얼굴 특징 식별자가 부여되면, 얼굴 영역 특징 데이터 유지부(442)에서 공급된 얼굴 영역 특징 데이터와 얼굴 특징 식별자가 대응지어져 유지된다(스텝 S937). 또한, 공급된 얼굴 영역 특징 데이터에 부여된 얼굴 특징 식별자는, 영상 데이터 부수 정보 생성부(450)에 공급되어, 영상 데이터 부수 정보에 얼굴 특징 식별자를 포함시킬 수 있다(스텝 S938).

도 14는, 본 발명의 실시 형태에서의 조작 메뉴에서의 조작의 흐름을 설명하는 도면이다. 먼저, 표시부(70)에 조작 메뉴를 표시시킨다(스텝 S941). 또한, 조작 메뉴로서는, 도 10에 도시한 조작 메뉴가 상정된다. 이하에서, 도 10에서의 조작 메뉴를 상정하여 설명한다.

조작 메뉴로부터 소정의 영상 데이터의 타이틀을 선택한다(스텝 S942). 다음으로, 얼굴 열거 버튼(721) 및 얼굴 타임 라인 버튼(722) 중 어느 하나의 버튼을 선택한다(스텝 S943). 얼굴 열거 버튼(721)을 선택하면, 대표 얼굴 열거군(740)이 표시된다(스텝 S944). 한편, 얼굴 타임 라인 버튼(722)을 선택하면, 얼굴 타임 라인 표시군(780)이 표시된다(스텝 S945).

다음으로, 대표 얼굴 열거군(740) 또는 얼굴 타임 라인 표시군(780) 중 어느 하나로부터 대표 얼굴 영역을 선택한다(스텝 S946). 대표 얼굴 영역을 선택한 후에, 유사 타이틀 버튼(751) 및 재생 버튼(752) 중 어느 하나를 선택한다(스텝 S947).

유사 타이틀 버튼(751)을 선택하면, 스텝 S946에서 선택한 대표 얼굴 영역과 유사한 대표 얼굴 영역을 포함하는 영상 데이터의 타이틀의 집합인 유사 대표 얼굴 영역 영상 데이터 타이틀 표시군(760)이 표시되고, 스텝 942로 되돌아간다(스텝 S948). 한편, 재생 버튼(752)을 선택하면, 스텝 S946에서 선택한 대표 얼굴 영역에 대응하는 트레이스를 구성하는 영상 데이터가 재생된다(스텝 S949).

이와 같이, 본 발명의 실시 형태에 따르면, 영상 데이터에 대하여 얼굴 영역과 얼굴 영역이 연속하여 출현하는 정보를 대응지은 영상 데이터 부수 정보를 생성하기 때문에, 방대한 프레임 중에 다수 등장하는 인물을 효율적으로 관리할 수 있다. 또한, 본 발명의 실시 형태에서는, 얼굴 영역의 검출에서 검출 누설이 있어도 얼굴 영역이 연속하여 출현하는 정보를 생성할 수 있다. 이에 의해, 영상 데이터의 내용을 단시간에 유저에게 파악시킬 수 있다.

또한, 본 발명의 실시 형태는 본 발명을 구현화하기 위한 일례를 도시한 것으로서, 이하에 기재하는 바와 같이 특허청구범위에서의 발명 특정 사항과 각각 대응 관계를 갖지만, 이것에 한정되지 않으며 본 발명의 요지를 일탈하지 않는 범위에서 다양한 변형을 실시할 수 있다.

즉, 특허청구범위에서, 얼굴 영역 검출 수단은, 예를 들면 얼굴 영역 검출부(410)에 대응한다. 또한, 트레이스 생성 수단은, 예를 들면 트레이스 생성부(420)에 대응한다. 또한, 대표 얼굴 영역 정보 생성 수단은, 예를 들면 대표 얼굴 영역 정보 생성부(430)에 대응한다. 또한, 영상 데이터 부수 정보 생성 수단은, 예를 들면 영상 데이터 부수 정보 생성부(450)에 대응한다.

또한, 특허청구범위에서, 트레이스 식별자 부여 수단은, 예를 들면 트레이스 식별자 부여부(421)에 대응한다. 또한, 얼굴 영역 예측 수단은, 예를 들면 얼굴 영역 예측부(423)에 대응한다. 또한, 트레이스 판단 수단은, 예를 들면 트레이스 판단부(424)에 대응한다. 또한, 종료 프레임 판단 수단은, 예를 들면 종료 프레임 판단부(425)에 대응한다.

또한, 특허청구범위에서, 얼굴 영역 특징 데이터 유지 수단은, 예를 들면 얼굴 영역 특징 데이터 유지부(442)에 대응한다. 또한, 얼굴 영역 특징 데이터 추출 수단은, 예를 들면 얼굴 영역 특징 데이터 추출부(441)에 대응한다. 또한, 얼굴 영역 특징 데이터 검색 수단은, 예를 들면 얼굴 영역 특징 데이터 검색부(443)에 대응한다.

또한, 특허청구범위에서, 영상 데이터 부수 정보 유지 수단은, 예를 들면 영상 데이터 부수 정보 유지부(460)에 대응한다. 또한, 조작 메뉴 일람 생성 수단은, 예를 들면 조작 메뉴 일람 생성부(470)에 대응한다. 또한, 표시 수단은, 예를 들면 표시부(70)에 대응한다. 또한, 조작 입력 수단은, 예를 들면 조작 입력부(90)에 대응한다.

또한, 특허청구범위에서, 얼굴 영역 취득 수단은, 예를 들면 얼굴 영역 취득부(483)에 대응한다.

또한, 특허청구범위에서，유사 얼굴 영역 검색 수단은, 예를 들면 유사 얼굴 영역 검색부(482)에 대응한다.

또한, 특허청구범위에서, 얼굴 타임 라인 생성 수단은, 예를 들면 얼굴 타임 라인 생성부(481)에 대응한다.

또한, 특허청구범위에서, 얼굴 영역 검출 수순은, 예를 들면 스텝S912에 대응한다. 또한, 트레이스 생성 수순은, 예를 들면 스텝 S913~스텝 S920에 대응한 다. 또한, 대표 얼굴 영역 정보 생성 수순은, 예를 들면 스텝 S921에 대응한다. 또한, 영상 데이터 부수 정보 생성 수순은, 예를 들면 스텝 S922에 대응한다.

또한, 본 발명의 실시 형태에서 설명한 처리 수순은, 이들 일련의 수순을 갖는 방법으로서 파악해도 되고, 또한, 이들 일련의 수순을 컴퓨터에 실행시키기 위한 프로그램 내지 그 프로그램을 기억하는 기록 매체로서 파악해도 된다.

본 발명에 따르면, 얼굴 영역과 얼굴 영역의 출현부터 소멸까지의 정보를 대응지은 영상 데이터 부수 정보를 생성할 수 있다고 하는 우수한 효과를 발휘할 수 있다.

Claims

영상 데이터를 구성하는 프레임에 포함되는 얼굴 영역을 검출하는 얼굴 영역 검출 수단과,

상기 검출에 기초하여 상기 얼굴 영역이 출현하고나서 소멸할 때까지의 프레임의 집합을 하나의 단위로 하는 트레이스의 개시 및 종료에 대응하는 프레임 식별자를 생성하는 트레이스 생성 수단과,

상기 트레이스를 구성하는 프레임에 포함되는 상기 얼굴 영역으로부터 대표 얼굴 영역을 선택하여 상기 대표 얼굴 영역의 내용을 나타내는 대표 얼굴 영역 정보를 생성하는 대표 얼굴 영역 정보 생성 수단과,

상기 영상 데이터에 대하여 상기 트레이스의 개시 및 종료에 대응하는 프레임 식별자와 상기 대표 얼굴 영역 정보를 대응지은 영상 데이터 부수 정보를 생성하는 영상 데이터 부수 정보 생성 수단

을 구비하는 것을 특징으로 하는 영상 처리 장치.
제1항에 있어서,

상기 트레이스 생성 수단은,

상기 얼굴 영역이 출현하고나서 소멸할 때까지의 프레임에 대하여 동일한 트레이스 식별자를 부여하는 트레이스 식별자 부여 수단과,

상기 동일한 트레이스 식별자를 부여받은 이전의 프레임에서의 상기 얼굴 영 역에 기초하여 현 프레임에서의 상기 얼굴 영역을 예측하는 얼굴 영역 예측 수단과,

상기 예측된 현 프레임에서의 상기 얼굴 영역에 기초하여 상기 얼굴 영역 검출 수단에서 검출된 상기 현 프레임에서의 상기 얼굴 영역이 상기 트레이스에 포함되는지 여부를 판단하여 상기 트레이스에 포함된다고 판단한 경우에 상기 트레이스에 상기 현 프레임을 가하는 트레이스 판단 수단과,

상기 얼굴 영역 검출 수단에서 검출된 상기 현 프레임에서의 상기 얼굴 영역이 상기 트레이스에 포함되지 않는다고 판단된 경우에 어느 프레임을 상기 트레이스의 종료 프레임으로 할지를 판단하는 종료 프레임 판단 수단

을 구비하는 것을 특징으로 하는 영상 처리 장치.
제2항에 있어서,

상기 얼굴 영역 예측 수단은, 상기 동일한 트레이스 식별자를 부여받은 이전의 프레임에서의 상기 얼굴 영역에 기초하여 상기 현 프레임에서의 상기 얼굴 영역을 선형 예측에 의해 예측하는 것을 특징으로 하는 영상 처리 장치.
제2항에 있어서,

상기 트레이스 판단 수단은, 상기 예측된 현 프레임에서의 상기 얼굴 영역과 상기 얼굴 영역 검출 수단에서 검출된 상기 현 프레임에서의 상기 얼굴 영역을 비교하여 위치의 차 및 속성의 차가 소정의 임계치 내에 있는지의 여부를 판단하고, 상기 임계치 내에 있는 경우에는 상기 현 프레임에서의 상기 얼굴 영역이 상기 트레이스에 포함된다고 판단하여 상기 트레이스에 상기 현 프레임을 가하는 것을 특징으로 하는 영상 처리 장치.
제4항에 있어서,

상기 트레이스 판단 수단은, 상기 속성으로서 상기 얼굴 영역의 크기, 상기 얼굴 영역의 휘도 분포, 상기 얼굴 영역의 색 분포, 상기 얼굴 영역의 형상, 상기 얼굴 영역의 모양 중 적어도 하나의 요소에 기초하여 상기 속성의 차가 소정의 임계치 내에 있는지의 여부를 판단하는 것을 특징으로 하는 영상 처리 장치.
제2항에 있어서,

상기 종료 프레임 판단 수단은, 상기 얼굴 영역 검출 수단에서 검출된 상기 현 프레임에서의 상기 얼굴 영역이 상기 트레이스에 포함되지 않는다고 판단된 경우에 뒤에 계속되는 프레임에 대한 상기 트레이스 판단 수단의 판단 결과에 기초하여 어느 프레임을 상기 종료 프레임으로 할지를 판단하는 것을 특징으로 하는 영상 처리 장치.
제1항에 있어서,

상기 대표 얼굴 영역 정보 생성 수단은, 상기 트레이스를 구성하는 프레임에서의 상기 얼굴 영역의 크기, 상기 얼굴 영역에서의 주파수 분포, 상기 얼굴 영역 에서의 색의 농담 분포 및 상기 얼굴 영역의 색 분포 중의 적어도 하나의 요소에 기초하여 상기 대표 얼굴 영역을 선택하는 것을 특징으로 하는 영상 처리 장치.
제1항에 있어서,

상기 대표 얼굴 영역 정보 생성 수단은, 상기 대표 얼굴 영역을 포함하는 프레임의 프레임 번호와 상기 대표 얼굴 영역을 포함하는 프레임에서의 상기 대표 얼굴 영역의 위치 및 크기를 상기 대표 얼굴 영역 정보로서 생성하는 것을 특징으로 하는 영상 처리 장치.
제1항에 있어서,

상기 대표 얼굴 영역 정보 생성 수단은, 상기 대표 얼굴 영역을 포함하는 프레임으로부터 석출된 상기 대표 얼굴 영역을 상기 대표 얼굴 영역 정보로서 생성하는 것을 특징으로 하는 영상 처리 장치.
제9항에 있어서,

소정의 얼굴 영역의 특징을 기술한 얼굴 영역 특징 데이터와 상기 얼굴 영역 특징 데이터를 식별하는 얼굴 특징 식별자를 대응지어 유지하는 얼굴 영역 특징 데이터 유지 수단과,

상기 얼굴 영역 정보 생성 수단에서 석출된 상기 대표 얼굴 영역으로부터 얼굴 영역 특징 데이터를 추출하는 얼굴 영역 특징 데이터 추출 수단과,

상기 추출된 얼굴 영역 특징 데이터에 유사한 상기 얼굴 영역 특징 데이터를 상기 얼굴 영역 특징 데이터 유지 수단으로부터 검색하여 상기 추출된 얼굴 영역 데이터에 상기 얼굴 특징 식별자를 부여하는 얼굴 영역 특징 데이터 검색 수단

을 구비하고,

상기 영상 데이터 부수 정보 생성 수단은, 상기 영상 데이터 부수 정보에 상기 얼굴 특징 식별자를 포함하여 생성하는 것을 특징으로 하는 영상 처리 장치.
제10항에 있어서,

상기 얼굴 영역 특징 데이터 검색 수단에서 상기 추출된 얼굴 영역 특징 데이터에 유사한 상기 얼굴 영역 특징 데이터가 상기 얼굴 영역 특징 데이터 유지 수단으로부터 검색되지 않은 경우에 상기 추출된 얼굴 영역 데이터에 새로운 얼굴 특징 식별자를 부여하는 것을 특징으로 하는 영상 처리 장치.
영상 데이터에 대하여 얼굴 영역이 출현하고나서 소멸할 때까지의 프레임의 집합을 하나의 단위로 하는 트레이스의 개시 및 종료에 대응하는 프레임 식별자와 상기 트레이스를 구성하는 프레임에 포함되는 상기 얼굴 영역으로부터 선택된 대표 얼굴 영역의 내용을 나타내는 대표 얼굴 영역 정보를 대응지은 정보인 영상 데이터 부수 정보를 보유하는 영상 데이터 부수 정보 유지 수단과,

상기 영상 데이터 부수 정보에 기초하여 상기 영상 데이터에 대한 조작 메뉴의 일람을 생성하는 조작 메뉴 일람 생성 수단과,

상기 영상 데이터에 대한 조작 메뉴를 표시하는 표시 수단과,

상기 영상 데이터에 대한 조작 메뉴에 대한 선택을 접수하는 조작 입력 수단을 구비하는 것을 특징으로 하는 영상 처리 장치.
제12항에 있어서,

상기 영상 데이터의 일람 중 소정의 영상 데이터가 상기 조작 수단으로부터 선택되면 그 선택된 영상 데이터에 대한 상기 영상 데이터 부수 정보를 취득하여 상기 영상 데이터 부수 정보에 포함되는 상기 대표 얼굴 영역 정보에 기초하여 상기 얼굴 영역을 표시시키는 얼굴 영역 취득 수단을 더 구비하는 것을 특징으로 하는 영상 처리 장치.
제13항에 있어서,

상기 영상 데이터 부수 정보 유지 수단은, 상기 영상 데이터에 대하여 소정의 얼굴 영역의 특징을 기술한 얼굴 영역 특징 데이터에 부여된 얼굴 특징 식별자를 상기 대표 얼굴 영역 정보와 대응지어 유지하고,

상기 얼굴 영역 취득 수단에 의해 표시된 상기 얼굴 영역 중 어느 하나가 상기 조작 수단에 의해 선택되면 그 선택된 상기 얼굴 영역과 동일한 상기 얼굴 특징 식별자를 갖는 영상 데이터 부수 정보를 검색하고 그 결과를 표시시키는 유사 얼굴 영역 검색 수단을 더 구비하는 것을 특징으로 하는 영상 처리 장치.
제12항에 있어서,

상기 영상 데이터의 일람 중 소정의 영상 데이터가 상기 조작 수단으로부터 선택되면 그 선택된 영상 데이터에 대한 상기 영상 데이터 부수 정보를 취득하여 상기 트레이스에 대응하는 시간 표시 및 상기 대표 얼굴 영역 정보에 대응하는 상기 얼굴 영역을 포함하는 얼굴 타임 라인 표시를 생성하는 얼굴 타임 라인 생성 수단을 더 구비하는 것을 특징으로 하는 영상 처리 장치.
영상 데이터를 구성하는 프레임에 포함되는 얼굴 영역을 검출하는 얼굴 영역 검출 수순과,

상기 검출에 기초하여 상기 얼굴 영역이 출현하고나서 소멸할 때까지의 프레임의 집합을 하나의 단위로 하는 트레이스의 개시 및 종료에 대응하는 프레임 식별자를 생성하는 트레이스 생성 수순과,

상기 트레이스를 구성하는 프레임에 포함되는 상기 얼굴 영역으로부터 대표 얼굴 영역을 선택하여 상기 대표 얼굴 영역의 내용을 나타내는 대표 얼굴 영역 정보를 생성하는 대표 얼굴 영역 정보 생성 수순과,

상기 영상 데이터에 부수되는 영상 데이터 부수 정보로서 상기 영상 데이터에 대하여 상기 트레이스의 개시 및 종료에 대응하는 프레임 식별자와 상기 대표 얼굴 영역 정보를 대응지은 정보를 생성하는 영상 데이터 부수 정보 생성 수순

을 구비하는 것을 특징으로 하는 영상 처리 방법.
영상 데이터를 구성하는 프레임에 포함되는 얼굴 영역을 검출하는 얼굴 영역 검출 수순과,

상기 검출에 기초하여 상기 얼굴 영역이 출현하고나서 소멸할 때까지의 프레임의 집합을 하나의 단위로 하는 트레이스의 개시 및 종료에 대응하는 프레임 식별자를 생성하는 트레이스 생성 수순과,

상기 트레이스를 구성하는 프레임에 포함되는 상기 얼굴 영역으로부터 대표 얼굴 영역을 선택하여 상기 대표 얼굴 영역의 내용을 나타내는 대표 얼굴 영역 정보를 생성하는 대표 얼굴 영역 정보 생성 수순과,

상기 영상 데이터에 부수되는 영상 데이터 부수 정보로서 상기 영상 데이터에 대하여 상기 트레이스의 개시 및 종료에 대응하는 프레임 식별자와 상기 대표 얼굴 영역 정보를 대응지은 정보를 생성하는 영상 데이터 부수 정보 생성 수순

을 실행하는 것을 특징으로 하는 프로그램.