KR20070118038A

KR20070118038A - 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램

Info

Publication number: KR20070118038A
Application number: KR1020070056003A
Authority: KR
Inventors: 야스하루 아사노; 프로피오 우고 디; 케이이치 야마다
Original assignee: 소니 가부시끼 가이샤
Priority date: 2006-06-09
Filing date: 2007-06-08
Publication date: 2007-12-13
Also published as: US20080010060A1; EP1865426A3; CN101086741B; CN101655867B; JP4175390B2; US7945439B2; EP1865426A2; CN101655867A; JP2007328675A; EP1865426B1; CN101086741A

Abstract

콘텐츠에 대응하는 메타데이터의 생성을 효율적으로 고정밀도로 실행하는 장치 및 방법을 실현한다.

콘텐츠를 감상중인 사용자와의 인터액션을 실행하여, 인터액션 실행시의 사용자 화상이나 음성을 취득하고, 이러한 정보 해석에 의거하여 인터액션 베이스의 메타데이터를 추출하여 기록한다. 본 구성에 의하면, 사용자 부담을 조금도 발생시키지 않고, 메타데이터의 추출, 기록이 가능해진다. 또한, 콘텐츠 베이스의 메타데이터 추출처리에 임하여서도, 인터액션 베이스의 메타데이터를 참조함으로써 콘텐츠의 내용을 추정하고, 적용 사전을 한정한 메타데이터 추출이 가능해지며, 정밀도가 높은 메타데이터 추출이 실현된다.

Description

정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램{Information processing apparatus, information processing method, and computer program}

도 1은, 본 발명의 정보처리 장치의 이용 예에 대하여 설명하는 도면이다.

도 2는, 본 발명의 정보처리 장치의 구성 예 및 처리 예에 대하여 설명하는 도면이다.

도 3은, 본 발명의 정보처리 장치의 메타데이터 추출처리 구성 예 및 처리 예에 대하여 설명하는 도면이다.

도 4는, 본 발명의 정보처리 장치의 메타데이터 추출처리 예에 대하여 설명하는 도면이다.

도 5는, 본 발명의 정보처리 장치의 콘텐츠 입력시의 처리 순서에 대하여 설명하는 플로차트를 나타내는 도면이다.

도 6은, 본 발명의 정보처리 장치의 콘텐츠 감상시의 처리 순서에 대하여 설명하는 플로차트를 나타내는 도면이다.

도 7은, 본 발명의 정보처리 장치의 인터액션 처리 후의 메타데이터 재추출처리 순서에 대하여 설명하는 플로차트를 나타내는 도면이다.

도 8은, 정보처리 장치의 하드웨어 구성 예에 대하여 설명하는 도면이다.

<도면의 주요부분에 대한 부호의 설명>

10. 콘텐츠 100. 정보처리 장치

101. 디스플레이 102. 스피커

103. 카메라 104. 마이크

200. 정보처리 장치 210. 데이터 입력부

211. 카메라 212. 마이크

220. 데이터 출력부 221. 디스플레이

222. 스피커 231. 콘텐츠 입력부

232. 콘텐츠 제어부 233. 기억부

241. 화상 처리부 242. 음성 처리부

243. 제어부 245. 메타데이터 통합부

246. 인터액션 메타데이터 생성부 247. 인터액션 실행부

248. 출력 제어부 249. 사용자 입력부

250. 메타데이터 생성부 300. 메타데이터 생성부

301. 해석 데이터 변환부 311. 얼굴 식별처리부

312. 일반물체 식별처리부 313. 말하는 사람 식별처리부

314. 음성인식 처리부 315. 웃는 얼굴 식별처리부

316. 웃음소리 식별처리부 317. 큰소리로 외치는 소리 식별처리부

318. 울음소리 식별처리부 321. 얼굴 식별용 사전 데이터

322. 일반물체 식별용 사전 데이터 323. 말하는 사람 식별용 사전 데이터

324. 음성인식용 사전 데이터 331. 메타데이터 결정부

411,412. 메타데이터 421,422. 메타데이터

431,432. 메타데이터 501. CPU(Central Processing Unit)

502. ROM(Read Only Memory) 503. RAM(Random Access Memory)

504. 호스트 버스 505. 브리지

506. 외부 버스 507. 인터페이스

508. 사용자 입력부 509. 데이터 입력부

510. 데이터 출력부 511. HDD(Hard Disk Driｖe)

512. 드라이브 514. 접속 포토

515. 통신부 521. 리무버블 기록 매체

522. 외부 접속 기기

본 발명은, 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램에 관한 것이다. 또한 상세하게는, 정지화면이나 동영상 등의 콘텐츠의 분류처리 등에 이용 가능한 메타데이터의 생성, 기록 처리를 실행하는 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램에 관한 것이다.

구체적으로는, 예를 들면 정지화면이나 동영상 등의 콘텐츠를 재생하여 감상할 때에, 사용자와의 사이에 인터액션를 실시하고, 그것을 카메라, 마이크 등으로 관찰하고, 그 정보를 이용하여 메타데이터를 생성하고, 또한, 이 인터액션를 통하 여 설정된 메타데이터를 이용하여, 콘텐츠를 해석하여 얻어지는 메타데이터의 정밀도를 향상시키는 것을 실현하는 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램에 관한 것이다.

요즘, 디지털카메라, 비디오 카메라 등의 이용이 활발하게 되어 있다. 사용자는, 이러한 카메라를 이용하여 촬영한 정지화면이나 동영상 등의 콘텐츠를 예를 들면 PC 등의 하드 디스크, 혹은 DVD나 플래시 메모리 등의 기억 수단에 격납하여 보존하는 것이 가능하다. 이러한 기억 수단에 격납한 콘텐츠를 재생, 또는 프린트할 때 콘텐츠의 검색을 실시하는 것이 필요하다. 그러나, 콘텐츠의 축적수가 증가하면 목적으로 하는 콘텐츠의 추출이 곤란하게 된다고 하는 문제가 있다.

통상, 콘텐츠에는, 콘텐츠의 속성 정보로서의 콘텐츠 명이나, 촬영 일시, 촬영 장소등의 속성 정보(메타데이터)가, 정지화면이나 동영상 등의 콘텐츠의 실체 데이터에 대응 지어져 기록되며, 사용자가 콘텐츠 검색을 실시하는 경우, 이러한 메타데이터에 의거한 검색을 실시할 수 있다.

메타데이터에는, 예를 들면, 콘텐츠의 촬영 처리에 따라서 자동적으로 부여되는 자동 생성 메타데이터와, 촬영 데이터에 대응하는 정보로서 사용자가 부여하는 사용자 생성 메타데이터가 있다. 예를 들면 촬영 일시 등의 정보는, 카메라에 부속되는 시계 기능에 의거하여 촬영시에 자동적으로 부여되는 자동 생성 메타데이터이다. 한편, 사용자 생성 메타데이터로서는, 콘텐츠 명 외, 콘텐츠의 촬영 대상이 된 장소나, 인물, 그 외, 콘텐츠에 대응하는 에피소드 등의 여러가지 정보가 있다.

그러나, 사용자 생성 메타데이터에 대해서는, 사용자 자신이 촬영, 녹음한 퍼스널한 콘텐츠에 대하여, 순서대로 실시하지 않을 수 없는 매우 번거로운 작업이 된다. 예를 들면, TV프로그램 등의 방송 콘텐츠는, 콘텐츠의 송출원 혹은 제 3자가 각종 메타데이터를 부여하여 사용자로서의 시청자에게 제공하는 구성이 채용되고 있다. 사용자는 이러한 메타데이터를 이용한 프로그램 등의 검색을 효율적으로 실시할 수 있다. 그렇지만, 사용자 자신이 촬영, 녹음한 퍼스널한 콘텐츠에 대한 메타데이터 중, 촬영일시 등의 형식 정보 이외에 대한 메타데이터의 설정 처리는, 각자가 실시하지 않고, 콘텐츠의 양이 많아지면 매우 번거로운 작업이 된다.

이러한 사용자에 의한 메타데이터 부여 작업을 효율적으로 실행하는 것을 가능하게 한 구성으로서 특허 문헌 1에 기재의 구성이 있다. 특허 문헌 1에는, 예를 들면 촬영 비디오 데이터 등의 기록 콘텐츠에 포함되는 음성 데이터나 화상 데이터를 해석 대상으로서 음성인식이나 화상 인식을 실시하고, 그 인식 정보를 메타데이터로서 콘텐츠에 대응 짓고 자동 기록하는 구성을 개시하고 있다. 또, 화상 등의 비(非)텍스트 콘텐츠를 설명한 텍스트 정보의 형태소(形態素)해석을 실행하고, 키워드를 추출하여 추출한 키워드를 콘텐츠에 대응하는 메타데이터로서 부여하는 구성이, 특허 문헌 2에 개시되어 있다.

또, 콘텐츠에 관련하여 미리 제작된 음성 시나리오 정보를 이용하고, 시나리오의 음성인식 처리에 의해서 추출한 워드를 메타데이터로서 부여하는 방법이 특허 문헌 3에 개시되어 있다. 또한, 콘텐츠 재생시의 시청자의 생체적 반응을 가공하고, 그것을 감각적인 메타데이터로서 부여하는 방법이 특허 문헌 4에 개시되어 있 다.

특허 문헌 1에 기재의 구성, 즉, 콘텐츠에 대하여 음성인식이나 화상 인식을 적용하는 방법은, 자동적으로 메타데이터의 부여가 실시되기 때문에 편리하지만, 사용자 자신이 촬영한 퍼스널한 콘텐츠는, 프로의 촬영 데이터와 달리 화상이나 음성 품질이 불충분한 경우가 많다. 이러한 저품질인 콘텐츠에서 음성인식이나 화상 인식에 의하여 메타데이터로서 이용 가능한 키워드 등의 데이터 추출을 행하는 것은 곤란하다고 하는 문제가 있다.

또, 특허 문헌 2에 기재의 비 텍스트 콘텐츠를 설명한 텍스트 정보를 이용하는 방법은, 텍스트 정보가 주어지지 않은 퍼스널 콘텐츠에 관해서는, 적용할 수 없다고 하는 문제가 있다. 또, 특허 문헌 3에 기재의 시나리오를 이용한 구성은, 미리 시나리오 등의 기록되어 있지 않은 콘텐츠에 대해서는 이용할 수 없다고 하는 문제가 있다. 또, 특허 문헌 4에 기재의 생체적인 반응을 이용하는 방법은, 혈압이나 혈류 등의 생체 정보를 측정하기 위한 장치를 사용자가 장착하고 그 분석을 실행하는 장치를 이용하는 것이 필요하며, 일반적인 PC 등의 장치에서는 실현되지 못하고, 비용이 높아진다고 하는 문제가 있다.

[특허 문헌 1] 특개 2001－229180호 공보

[특허 문헌 2] 특개 2003－228569호 공보

[특허 문헌 3] 특개 2004－153764호 공보

[특허 문헌 4] 특개 2003－178078호 공보

본 발명은, 상술의 문제점을 감안하여 이루어진 것이며, 사용자의 부담을 경감하고, 특별한 장치를 이용하지 않고 효율적으로 메타데이터의 생성, 기록을 실시하는 것을 가능하게 하는 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램을 제공하는 것을 목적으로 한다.

구체적으로는, 사용자가 정지화면이나 동영상 등의 콘텐츠를 재생하여 감상할 때에, 사용자와의 사이에 인터액션를 실시하고, 인터액션의 모습을 카메라, 마이크 등으로 취득하고, 취득 정보에 의거하여 감상 콘텐츠에 대응하는 메타데이터를 생성하고 콘텐츠 대응의 메타데이터로서 기록함으로써, 사용자에게 부담이 발생하지 않는 효율적인 메타데이터 기록을 실현하는 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램을 제공하는 것을 목적으로 한다.

본 발명의 제 1의 측면은,

콘텐츠에 대응하는 메타데이터의 생성처리를 실행하는 정보처리 장치이며, 재생 콘텐츠를 출력하는 데이터 출력부와,

재생 콘텐츠를 감상하는 사용자의 화상 또는 음성의 적어도 어느 데이터를 입력하는 데이터 입력부와,

상기 데이터 입력부에서의 입력정보와,

재생 콘텐츠 정보에 의거하여 상기 사용자에 대한 액션을 결정하는 제어부와,

상기 제어부가 결정한 액션을 실행하는 인터액션 실행부와,

상기 데이터 입력부를 통하여 취득하는 상기 인터액션 실행결과를 포함한 사용자의 화상 또는 음성의 적어도 어느 입력정보의 해석을 실행하고, 재생 콘텐츠에 대응한다. 메타데이터를 생성하는 인터액션 메타데이터 생성부와,

상기 인터액션 메타데이터 생성부가 생성한 메타데이터를, 재생 콘텐츠에 대응하는 메타데이터로서 기록하는 콘텐츠 제어부를 가지는 것을 특징으로 하는 정보처리 장치이다.

또한, 본 발명의 정보처리 장치의 일실시 형태에 있어서, 상기 인터액션 메타데이터 생성부는, 얼굴 식별처리, 일반물체 식별처리, 웃는 얼굴 식별처리, 말하는 사람 식별처리, 음성인식 처리, 웃음소리 식별처리, 큰 소리로 외치는 소리 식별처리, 울음소리 식별처리의 적어도 어느 식별처리 또는 인식 처리를 실행하여 이 식별처리 또는 인식 처리에 의거하여 메타데이터의 추출을 실행하는 구성인 것을 특징으로 한다.

또한, 본 발명의 정보처리 장치의 일실시 형태에 있어서, 상기 정보처리 장치는, 또한 콘텐츠를 구성하는 화상 및 음성 데이터에 의거한 메타데이터를 생성하는 메타데이터 생성부를 가지고, 이 메타데이터 생성부는, 콘텐츠를 구성하는 화상 또는 음성 데이터와, 사전(辭典)데이터와의 대조확인 처리에 의하여, 콘텐츠 베이스의 메타데이터를 생성하는 처리를 실행하는 구성이며, 상기 인터액션 메타데이터 생성부에 있어서 생성한 메타데이터에 의거하여 추정되는 콘텐츠 정보에 의거하여, 적용 사전을 선택하여 대조확인 처리를 실행하는 구성인 것을 특징으로 한다.

또한, 본 발명의 정보처리 장치의 일실시 형태에 있어서, 상기 메타데이터 생성부는, 얼굴 식별처리, 일반물체 식별처리, 웃는 얼굴 식별처리, 말하는 사람 식별처리, 음성인식 처리, 웃음소리 식별처리, 큰 소리로 외치는 소리 식별처리, 울음소리 식별처리의 적어도 몇 개의 식별처리 또는 인식 처리를 실행하고 이 식별처리 또는 인식 처리에 의거하여 메타데이터의 추출을 실행하는 구성인 것을 특징으로 한다.

또한, 본 발명의 정보처리 장치의 일실시 형태에 있어서, 상기 정보처리 장치는, 또한 정보처리 장치에 있어서 생성한 메타데이터를, 재생 콘텐츠의 재생 시간 정보에 대응 짓는 메타데이터 통합 처리를 실행하는 메타데이터 통합부를 가지는 것을 특징으로 한다.

또한, 본 발명의 정보처리 장치의 일실시 형태에 있어서, 상기 제어부는, 상기 데이터 입력부에서의 입력정보와, 재생 콘텐츠 정보에 의거하여 상기 사용자에 대한 액션으로서 사용자에 대한 질문을 생성하는 처리를 실행하고, 상기 인터액션 실행부는, 상기 제어부가 결정한 질문을 상기 데이터 출력부를 통하여 출력하고, 상기 인터액션 메타데이터 생성부는, 상기 질문에 대한 사용자의 반응 또는 응답을, 상기 데이터 입력부를 통하여 취득하고, 이 취득 정보의 해석에 의거하여 재생 콘텐츠에 대응하는 메타데이터를 생성하는 처리를 실행하는 구성인 것을 특징으로 한다.

또한, 본 발명의 제 2의 측면은,

정보처리 장치에 있어서, 콘텐츠에 대응하는 메타데이터의 생성처리를 실행하는 정보처리 방법이며,

데이터 출력부에 있어서, 재생 콘텐츠를 출력하는 데이터 출력 스텝과,

데이터 입력부에 있어서, 재생 콘텐츠를 감상하는 사용자의 화상 또는 음성의 적어도 어느 데이터를 입력하는 데이터 입력 스텝과,

제어부에 있어서, 상기 데이터 입력부에서의 입력정보와, 재생 콘텐츠 정보에 의거하여 상기 사용자에 대한 액션을 결정하는 액션 결정 스텝과,

인터액션 실행부에 있어서, 상기 제어부가 결정한 액션을 실행하는 인터액션 실행 스텝과,

인터액션 메타데이터 생성부에 있어서, 상기 데이터 입력부를 통하여 취득하는 상기 인터액션 실행결과를 포함한 사용자의 화상 또는 음성이 적어도 어느 입력정보의 해석을 실행하고, 재생 콘텐츠에 대응하는 메타데이터를 생성하는 인터액션 메타데이타 생성 스텝과,

콘텐츠 제어부에 있어서, 상기 인터액션 메타데이터 생성부의 생성한 메타데이터를, 재생 콘텐츠에 대응하는 메타데이터로서 기록하는 기록 스텝을 가지는 것을 특징으로 하는 정보처리 방법이다.

또한, 본 발명의 정보처리 방법의 일실시 형태에 있어서, 상기 인터액션 메타데이터 생성 스텝은, 얼굴 식별처리, 일반물체 식별처리, 웃는 얼굴 식별처리, 말하는 사람 식별처리, 음성인식 처리, 웃음소리 식별처리, 큰 소리로 외치는 소리 식별처리, 울음소리 식별처리의 적어도 어느 식별처리 또는 인식 처리를 실행하여 이 식별처리 또는 인식 처리에 의거하여 메타데이터의 추출을 실행하는 스텝인 것을 특징으로 한다.

또한, 본 발명의 정보처리 방법의 일실시 형태에 있어서, 상기 정보처리 방법은, 또한, 메타데이터 생성부에 있어서, 콘텐츠를 구성하는 화상 및 음성 데이터에 의거한 메타데이터를 생성하는 메타데이터 생성 스텝을 가지며, 이 메타데이터 생성 스텝은, 콘텐츠를 구성하는 화상 또는 음성 데이터와, 사전 데이터와의 대조확인 처리에 의하여, 콘텐츠 베이스의 메타데이터를 생성하는 처리를 실행하고, 상기 인터액션 메타데이터 생성부에 있어서 생성한 메타데이터에 의거하여 추정되는 콘텐츠 정보에 의거하여, 적용 사전을 선택하여 대조확인 처리를 실행하는 것을 특징으로 한다.

또한, 본 발명의 정보처리 방법의 일실시 형태에 있어서, 상기 메타데이터 생성 스텝은, 얼굴 식별처리, 일반물체 식별처리, 웃는 얼굴 식별처리, 말하는 사람 식별처리, 음성인식 처리, 웃음소리 식별처리, 큰 소리로 외치는 소리 식별처리, 울음소리 식별처리의 적어도 어느 식별처리 또는 인식 처리를 실행하여 이 식별처리 또는 인식 처리에 의거하여 메타데이터의 추출을 실행하는 스텝인 것을 특징으로 한다.

또한, 본 발명의 정보처리 방법의 일실시 형태에 있어서, 상기 정보처리 방법은, 또한, 메타데이터 통합부에 있어서, 정보처리 장치에 있어서 생성한 메타데이터를, 재생 콘텐츠의 재생 시간 정보에 대응 짓는 메타데이터 통합 처리를 실행하는 스텝을 가지는 것을 특징으로 한다.

또한, 본 발명의 정보처리 방법의 일실시 형태에 있어서, 상기 액션 결정 스텝은, 상기 데이터 입력부에서의 입력정보와, 재생 콘텐츠 정보에 의거하여 상기 사용자에 대한 액션으로서 사용자에 대한 질문을 생성하는 처리를 실행하는 스텝이며, 상기 인터액션 실행 스텝은, 상기 제어부가 결정한 질문을, 상기 데이터 출력부를 통하여 출력하는 스텝이고, 상기 인터액션 메타데이터 생성 스텝은, 상기 질문에 대한 사용자의 반응 또는 응답을, 상기 데이터 입력부를 통하여 취득하고, 이 취득 정보의 해석에 의거하여 재생 콘텐츠에 대응하는 메타데이터를 생성하는 처리를 실행하는 스텝인 것을 특징으로 한다.

또한, 본 발명의 제 3의 측면은,

정보처리 장치에 있어서, 콘텐츠에 대응하는 메타데이터의 생성처리를 실행시키는 컴퓨터·프로그램이며,

데이터 출력부에 있어서, 재생 콘텐츠를 출력시키는 데이터 출력 스텝과,

데이터 입력부에 있어서, 재생 콘텐츠를 감상하는 사용자의 화상 또는 음성의 적어도 어느 데이터를 입력시키는 데이터 입력 스텝과,

제어부에 있어서, 상기 데이터 입력부에서의 입력정보와, 재생 콘텐츠 정보에 의거하여 상기 사용자에 대한 액션을 결정시키는 액션 결정 스텝과,

인터액션 실행부에 있어서, 상기 제어부가 결정한 액션을 실행시키는 인터액션 실행 스텝과,

인터액션 메타데이터 생성부에 있어서, 상기 데이터 입력부를 통하여 취득하는 상기 인터액션 실행결과를 포함한 사용자의 화상 또는 음성의 적어도 어느 입력정보의 해석을 실행하고, 재생 콘텐츠에 대응하는 메타데이터를 생성시키는 인터액션 메타데이터 생성 스텝과,

콘텐츠 제어부에 있어서, 상기 인터액션 메타데이터 생성부의 생성한 메타데이터를, 재생 콘텐츠에 대응하는 메타데이터로서 기록시키는 기록 스텝을 실행시키는 것을 특징으로 하는 컴퓨터·프로그램이다.

또한, 본 발명의 컴퓨터·프로그램은, 예를 들면, 여러가지 프로그램·코드를 실행 가능한 컴퓨터 시스템에 대하여, 컴퓨터 가독인 형식으로 제공하는 기억 매체, 통신 매체, 예를 들면, CD나 FD, MO 등의 기록 매체, 혹은, 네트워크 등의 통신 매체에 의하여 제공 가능한 컴퓨터·프로그램이다. 이러한 프로그램을 컴퓨터 가독인 형식으로 제공함으로써, 컴퓨터 시스템상에서 프로그램에 따른 처리가 실현된다.

본 발명의 또 다른 목적, 특징이나 이점은, 후술하는 본 발명의 실시 예나 첨부하는 도면에 의거함으로써 상세한 설명에 의하여 밝혀질 것이다. 또한, 본 명세서에 대하여 시스템이란, 복수의 장치의 논리적 집합 구성이고, 각 구성의 장치가 동일 케이스체 내에 있는 것은 한정되지 않는다.

이하, 도면을 참조하면서 본 발명의 실시 형태에 관계되는 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램의 상세한 것에 대하여 설명한다.

본 발명은, 예를 들면, 사용자가 정지화면이나 동영상 등의 콘텐츠를 재생하여 감상할 때에, 사용자와의 사이에 인터액션를 실시하고, 인터액션의 모습을 카메라, 마이크 등으로 취득하고, 취득 정보에 의거하여 감상 콘텐츠에 대응하는 메타데이터를 추출하여 콘텐츠 대응의 메타데이터로서 기록하는 구성을 가지며, 사용자의 부담을 발생시킬 리가 없는 효율적인 메타데이터 기록을 실현한다.

예를 들면, 도 1에 나타낸 바와 같이, 디지털 카메라나 비디오 카메라로 촬영한 정지화면, 동영상 등의 콘텐츠(10)를, 텔레비전이나 PC 등 디스플레이(101), 스피커(102)를 이용하여 재생하고, 이 재생 콘텐츠를 거실에서 관상하고 있는 모습을 카메라(103)나 마이크(104)로 정보처리 장치(100)에 입력한다.

정보처리 장치(100)는, 재생 콘텐츠 및 입력정보에 의거하여 사용자에 대한 질문 등의 인터액션 데이터를 생성하고, 표시부(101), 스피커(102) 등의 출력부를 통하여 사용자에게 질문을 실시한다. 예를 들면「즐거웠습니까」등의 질문을 제시한다. 또한, 이 질문에 대한 사용자의 반응, 액션 등을 카메라(103), 마이크(104)에 의하여 정보처리 장치(100)에 입력하고, 그 입력정보를 해석하여, 재생 콘텐츠에 대응하는 메타데이터를 추출, 생성하고 기억부에 콘텐츠와 함께 콘텐츠 대응의 메타데이터로서 기록하는 처리를 실시한다.

또한, 본 발명의 정보처리 장치에 있어서, 메타데이터의 부여 대상으로 하는 콘텐츠는, 사용자의 촬영한 화상 등의 퍼스널 콘텐츠뿐만 아니라, 퍼스널 콘텐츠 이외의 콘텐츠, 예를 들면 인터넷상에서 전달되고 있는 동영상, 정지화면 콘텐츠 등 모든 콘텐츠가 포함된다.

도 2를 참조하여 본 발명의 정보처리 장치의 구성 및 처리에 대하여 설명한다. 도 2는, 본 발명의 정보처리 장치(200)의 구성을 나타내는 블럭도이다. 정보처리 장치(200)는, 예를 들면, 사용자가 비디오 카메라나 스틸 카메라로 촬영한 콘텐츠, 혹은 인터넷이나 방송 등을 통하여 취득한 콘텐츠를, 콘텐츠 입력부(231)를 통하여 입력하고, 콘텐츠 제어부(232)의 아래에 기억부(233)로 격납한다.

또한, 본 발명의 정보처리 장치(200)는, 기억부(233)에 격납된 콘텐츠를 출력 제어부(248)의 제어 아래, 데이터 출력부(220)로서의 디스플레이(221), 스피커(222)를 이용하여 콘텐츠 재생을 실시하고, 재생 콘텐츠를 시청하는 사용자와의 인터액션, 예를 들면, 사용자에 대한 질문의 제시, 그 응답의 취득 등의 인터액션을 실행하고, 인터액션에 의거하여 취득한 정보에서 메타데이터를 생성하고 콘텐츠 대응의 메타데이터로서 기억부(233)에 기록하는 처리를 실행한다.

도 2에 나타내는 각 처리부의 처리에 대하여 설명한다. 데이터 입력부(210)는, 카메라(211), 마이크(212)를 가지며, 재생 콘텐츠를 시청하는 사용자의 움직임이나 표정을 카메라(211)로 취득하고, 음성을 마이크(212)로 취득한다. 화상 처리부(241)는, 카메라(211)로 촬상 된 화상 정보에서, 얼굴 인식 처리, 웃는 얼굴 인식 등의 처리를 실시하여, 처리 결과를 제어부(243)에 출력한다.

음성 처리부(242)는, 마이크(212)로 집음 된, 음향·음성 신호로, 음성인식, 말하는 사람 인식, 웃음소리 인식 등의 처리를 실시하고, 처리 결과를 제어부(243)에 출력한다.

콘텐츠 입력부(231)는, 메모리 카드나 USB 등의 케이블 접속 혹은 무선, 유선의 네트워크나 방송에 의하여, 정지화면, 동영상, 음성 등의 콘텐츠 데이터를 취득하여, 콘텐츠 제어부(232)에 보낸다. 기억부(233)는, 하드 디스크 등의 기록 디바이스로 구성되며, 콘텐츠 데이터나 메타데이터를 보존한다.

콘텐츠 제어부(232)는, 콘텐츠 입력부(231)에서 입력하는 콘텐츠 데이터나 , 메타데이터 통합부(245)로 작성된 콘텐츠에 대응하는 속성 정보(메타데이터)를 받 아들이고, 기억부(233)에 보존한다. 메타데이터는, 촬영 일시, 촬영 장소, 사용자의 감상 등의 여러가지 콘텐츠에 대응하는 정보에 의하여 구성되며, 예를 들면 콘텐츠 검색시의 키워드로서 이용 가능한 정보이다. 메타데이터는, 정지화면이나 동영상 등의 콘텐츠의 실체 데이터에 대응 지어지고 기록되며, 사용자가 콘텐츠 검색을 실시하는 경우, 이러한 메타데이터에 의거한 검색을 실시할 수 있다.

제어부(243)는, 사용자 입력부(249)를 통하여 사용자 조작에 의거한 콘텐츠 지정 정보를 수반하는 콘텐츠 재생 요구를 입력하면, 콘텐츠 제어부(232)에 대하여, 기억부(233)에서의 콘텐츠 데이터를 읽어내고, 출력을 요구한다. 콘텐츠 제어부(232)는, 이 요구에 따라서, 지정된 콘텐츠를 기억부(233)에서 읽어내고, 출력 제어부(248)에 출력하여, 출력 제어부(248)의 제어 아래, 디스플레이(221), 스피커(222)를 통하여 콘텐츠의 재생이 실시된다.

콘텐츠 제어부(232)는, 출력 제어부(248)에 출력하는 콘텐츠를 아울러 메타데이터 생성부(250)에도 출력한다. 메타데이터 생성부(250)는, 콘텐츠 제어부(232)에서 받은 콘텐츠에 대하여, 화상 인식, 음성인식 등의 처리를 실시하여, 처리 결과로부터 메타데이터를 생성한다. 예를 들면 화상 인식 처리로서는, 화상 데이터의 해석을 실행하여, 화상 중의 오브젝트 해석을 실시한다. 구체적으로는, 인물, 풍경, 단체 사진, 산, 집, 자동차 등, 화상에 포함되는 오브젝트를 식별하고, 식별 결과에 의거한 워드를 생성하여 메타데이터로 한다. 또, 비디오 데이터에 대응하는 음성 정보의 해석에 의거하여, 워드 추출을 실행하고, 추출한 워드를 메타데이터로 하는 처리를 실행한다. 이들, 콘텐츠 해석에 의거한 추출 메타데이 터는, 제어부(243), 메타데이터 통합부(245)에 공급한다.

인터액션 메타데이터 생성부(246)는, 화상 처리부(241), 음성 처리부(242)에서의 처리 결과로서의 화상 해석 결과 및 음성 해석 결과 정보를, 제어부(243)를 통하여 입력한다. 즉, 재생 콘텐츠를 시청하는 사용자의 움직임이나 표정, 음성에 의거하여 해석된 결과, 예를 들면, 얼굴 인식 처리, 웃는 얼굴 인식 처리 결과나 음성 정보에 의거한 음성인식, 말하는 사람 인식, 웃음소리 인식 정보 등에 의거하여, 메타데이터를 생성하고, 이것을 인터액션 메타데이터로서 메타데이터 통합부(245)에 출력한다.

이 인터액션 메타데이터 생성부(246)에 있어서 생성하는 인터액션 메타데이터는, 예를 들면, 정보처리 장치(200)가 사용자에게 제시하는 질문에 대한 응답을 해석하여 얻어지는 워드, 예를 들면, 질문으로서［어디의 영상입니까］에 대한 사용자의 응답으로서 [유원지］라고 하는 워드가 얻어진 경우에는,［유원지］가 인터액션 메타데이터로서 설정된다. 또, 카메라(211)에 의하여 촬영된 사용자의 표정에 의거한 워드, 예를 들면［즐겁다］,［슬프다］,［무섭다］등의 워드가 인터액션 메타데이터로서 설정된다.

메타데이터 통합부(245)는, 메타데이터 생성부(250), 인터액션 메타데이터 생성부(246)에서 입력하는 각각의 메타데이터에 대하여, 시각 정보를 고려하여 통합 처리를 실행하고, 콘텐츠 제어부(232)에 출력한다. 메타데이터 통합부(245)는, 예를 들면, 인터액션 메타데이터 생성부의 생성한 인터액션 베이스의 메타데이터나, 메타데이터 생성부(250)가 생성한 콘텐츠 베이스의 메타데이터를, 재생 콘텐 츠의 재생 시간 정보에 대응 짓는 메타데이터 통합 처리를 실행한다. 콘텐츠 제어부(232)에서는, 이러한 메타데이터를 재생 콘텐츠에 대응하는 메타데이터로서 기억부(233)에 기록한다.

메타데이터 통합부(245)는, 메타데이터 생성부(250)와 인터액션 메타데이터 생성부(246)에서 입력하는 다른 처리에 의거한 메타데이터를 통합하고, 콘텐츠의 재생 시간의 시간 정보에 대응 짓는 처리를 실행한다. 즉,

(a) 메타데이터 생성부(250)가 생성하는 콘텐츠에 의거한 메타데이터, 즉, 재생 콘텐츠를 해석 대상으로 하는 화상 및 음성 해석에 의하여 얻어지는 콘텐츠 베이스의 메타데이터［콘텐츠 베이스 메타데이터],

(b) 인터액션 메타데이터 생성부(246)가 생성하는 재생 콘텐츠의 시청 사용자와의 인터액션에 의거한 메타데이터：즉, 재생 콘텐츠를 시청하는 사용자의 행동, 표정, 응답을 카메라(211), 마이크(242)의 취득 화상 및 음성에 의거하여 해석하여 얻어지는 인터액션에 의거한 메타데이터［인터액션 베이스 메타데이터],

이들 (a),(b)의 다른 타입의 메타데이터에 대하여, 시각 정보를 고려하여 통합처리를 실행하고, 콘텐츠 제어부(232)에 출력한다.

메타데이터 통합부(245)는, 예를 들면, 인터액션 메타데이터 생성부가 생성한 인터액션 베이스의 메타데이터나, 메타데이터 생성부(250)가 생성한 콘텐츠 베이스의 메타데이터를, 재생 콘텐츠의 재생 시간 정보에 대응 짓는 메타데이터 통합 처리를 실행한다. 콘텐츠 제어부(232)에서는, 이러한 메타데이터를 재생 콘텐츠에 대응 짓는 메타데이터로서 기억부(233)에 기록한다.

제어부(243)는, 메타데이터 생성부(250)에서 제공되는, 현재 재생하고 있는 콘텐츠에 관한 메타데이터와, 화상 처리부(241), 음성 처리부(242)에서의 처리 결과에 의거하여, 시스템 전체의 제어를 실시함과 동시에, 필요에 따라서 이러한 정보를 인터액션 실행부(247)에 보내고, 콘텐츠를 감상하고 있는 사용자에 대한 움직임, 예를 들면 질문의 출력 등을 실시한다.

인터액션 실행부(247)는, 제어부(243)에서 제공된 정보에 의거하여, 콘텐츠를 감상하는 사용자에 대한 움직임으로서, 디스플레이(221) 상에, 질문이나 이미지 정보 등을 표시한다. 혹은 GUI에 의한 메뉴 표시 등을 실시한다. 또한, 스피커(222)를 통하여 음성에 의한 질문이나, 그 외의 음성 정보를 음성 합성 처리에 의하여 생성하고, 출력 제어부(248)에 출력한다.

출력 제어부(248)는, 콘텐츠 제어부(232)에서 입력하는 콘텐츠 데이터와, 인터액션 실행부(247)에서 입력하는 데이터를, 적절한 포맷 변환을 실시하여, 합성하고, 영상 정보는 디스플레이(221)에, 음성 정보는 스피커(222)에 각각 출력한다.

도 2에서 나타낸 바와 같이, 본 발명의 정보처리 장치(200)에서는, 재생 콘텐츠의 해석에 의거한 콘텐츠 베이스의 메타데이터를 생성하는 메타데이터 생성부(250)와, 재생 콘텐츠를 시청하는 사용자와의 인터액션에 의거한 인터액션 베이스의 메타데이터를 생성하는 인터액션 메타데이터 생성부(246)를 가진다.

이러한 2개의 메타데이터 생성부는, 각각 화상 및 음성 해석에 의거하여 메타데이터를 생성한다. 메타데이터 생성부(250)는 콘텐츠의 화상 및 음성에 의거한 처리이며, 인터액션 메타데이터 생성부(246)는, 카메라(211)와 마이크(212)를 통하여 입력하는 화상 및 음성에 의거한 메타데이터를 생성한다.

이러한 2개의 메타데이터 생성처리는, 기본적으로 같은 수법을 적용하는 것이 가능하며, 1개의 메타데이터 생성부로서 구성하고, 처리 대상 데이터를 순서대로, 변환하여 처리를 실행하는 구성이라고 해도 좋다. 이러한 변환 구성을 가지는 메타데이터 생성부의 구성 예를 도 3에 나타낸다.

도 3은, 도 2에 나타내는 메타데이터 생성부(250)와, 인터액션 메타데이터 생성부(246)의 2개의 메타데이터 생성 기능을 실행하는 메타데이터 생성부(300)의 구성 예를 나타내고 있다.

메타데이터 생성부(300)는, 해석 데이터 변환부(301)에 있어서, 해석 대상 데이터의 변환을 실시한다. 즉, 입력하는 데이터를 콘텐츠로 할지, 인터액션 정보, 즉 콘텐츠 시청 사용자의 촬영 화상과 음성 정보로 할지를 선택하여 변환한다.

해석 데이터 변환부(301)는, 입력 데이터로서 선택된 콘텐츠 또는 인터액션 정보의 어느 쪽인지를, 제어부(243)에서의 지시에 의거하여 각 식별처리부(311~

318)에 입력한다. 식별처리부로서는, 도면에 나타낸 바와 같이, 얼굴 식별처리부(311), 일반물체 식별처리부(312), 말하는 사람 식별처리부(313), 음성 식별처리부(314), 웃는 얼굴 식별처리부(315), 웃음소리 식별처리부(316), 큰 소리로 외치는 소리 식별처리부(317), 울음소리 식별처리부(318)를 가진다.

얼굴 식별처리부(311), 일반물체 식별처리부(312), 말하는 사람 식별처리부(313), 음성 식별처리부(314), 이러한 식별처리부는, 각각의 식별처리에 따른 식별용의 사전 데이터를 보유, 혹은 예를 들면 네트워크를 통하여 데이터 베이스에서 취득 가능한 구성을 가진다.

얼굴 식별처리부(311)는, 얼굴 식별용 사전 데이터(321)를 이용하여, 공급된 해석 대상으로 이루어지는 화상 데이터에서, 얼굴을 검출하고, 얼굴 식별용 사전 데이터(321)에 등록되어 있는 얼굴과의 대조확인 처리를 실행한다. 얼굴 식별용 사전 데이터(321)에는, 대조확인 처리에 적용하는 얼굴 화상 데이터와 그 인물명, 카테고리명(가족,동료) 등, 등록 화상에 대응하는 명칭, 카테고리명 등의 대응 데이터가 등록되어져 있고, 얼굴 식별처리부(311)에 있어서, 해석 대상 화상 데이터에서 추출한 얼굴 화상과, 얼굴 식별용 사전 데이터(321)에 등록된 얼굴 화상과의 대조확인을 실행하여, 미리 정해진 소정의 기준을 만족하는 유사한 등록 데이터가 검출되었을 경우, 그 등록 데이터에 대응 지어진 인물명, 카테고리명(가족,동료) 등을 메타데이터의 후보로서 메타데이터 결정부(331)에 출력한다. 등록되지 않은 얼굴이면 등록되지 않은 얼굴(Unknown)로서 출력한다.

얼굴 식별용 사전 데이터(321)에는, 사용자가 등록한 데이터, 또한, 인터넷 등의 네트워크(320)를 통하여 취득한 사전 데이터가 포함된다. 예를 들면 가족의 얼굴 등은, 사용자에 의하여 등록되며, 유명인의 얼굴 데이터 등은, 네트워크(320)를 통하여 취득할 수 있다. 사전의 등록 데이터는, 얼굴 화상 데이터와 그 인물명, 카테고리명(가족,동료) 등의 대응 데이터이다. 사전은, 개개의 얼굴마다 개별로, 혹은「가족」「동료」 등 몇 개의 카테고리에서 그룹화가 되며, 얼굴 화상에 대응 짓는 개인의 이름, 카테고리명 등이 기록되어 있다. 얼굴 식별처리부(311)는, 이용하는 사전 데이터의 그룹을 적당히 변환하여 대조확인 처리를 실행한다.

얼굴 식별처리부(311)에 있어서의 얼굴 식별용 사전 데이터(321)를 이용한 대조확인 처리에 의하여 일치하는 화상이 얻어진 경우, 예를 들면 가족의 이름［타로],［하나꼬］등이 얻어진 경우, 이러한 워드가 메타데이터 결정부(331)에 입력된다. 메타데이터 결정부(331)는, 예를 들면 다른 식별처리부에서 입력된 메타데이터 후보와의 중복 데이터 등을 배제하고, 출력 메타데이터를 결정하여 메타데이터 통합부(245)에 출력한다.

일반물체 식별처리부(312)는, 일반물체 식별용 사전 데이터(322)를 이용하여, 공급된 해석 대상으로 이루어지는 화상 데이터에서, 일반물체를 검출하고, 일반물체 식별용 사전 데이터(322)에 등록되어 있는 일반물체와의 대조확인 처리를 실행한다. 일반물체란, 예를 들면, 자동차, 산, 빌딩, 도쿄 타워, 유원지 등의 인물에 포함되지 않는 오브젝트(object) 전반이다.

일반물체 식별용 사전 데이터(322)에는, 대조확인 처리에 적용하는 일반물체 화상 데이터와 그 명칭, 카테고리명, 예를 들면, 자동차, 차종, 빌딩, 빌딩명, 유원지 등의 등록 화상에 대응하는 명칭, 카테고리명 등의 대응 데이터가 등록되어 있고, 일반물체 식별처리부(312)에 있어서, 해석 대상 화상 데이터에서 추출한 일반물체 화상과, 일반물체 식별용 사전 데이터(322)에 등록된 일반물체 화상과의 대조확인을 실행하여, 미리 정해진 소정의 기준을 만족하는 유사한 등록 데이터가 검출되었을 경우, 그 등록 데이터에 대응 지어진 명칭, 카테고리명 등을 메타데이터의 후보로서 메타데이터 결정부(331)에 출력한다.

일반물체 식별용 사전 데이터(322)에는, 사용자가 등록한 데이터, 또한, 네 트워크(320)를 통하여 취득한 사전 데이터가 포함된다. 사전은, 개개의 일반물체 마다 개별로, 혹은 몇 개의 카테고리로 그룹화가 되며, 일반물체 식별처리부(311)는, 이용하는 사전 데이터의 그룹을 적당 변환하여 대조확인 처리를 실행한다.

일반물체 식별처리부(312)에 있어서의 일반물체 식별용 사전 데이터(322)를 이용한 대조확인 처리에 의하여 일치하는 화상이 얻어진 경우, 예를 들면 건물의 명칭 [도쿄타워] 등이 얻어진 경우, 이러한 워드가 메타데이터 결정부(331)에 입력된다. 그 후, 메타데이터 결정부(331)에 있어서의 선별 처리 후, 선별된 메타데이터 후보가 메타데이터 통합부(245)에 출력된다.

말하는 사람 식별처리부(313)는, 말하는 사람 식별용 사전 데이터(323)를 이용하여, 공급된 해석 대상으로 이루어지는 음성 데이터에서, 말하는 사람을 검출하고, 말하는 사람 식별용 사전 데이터(323)에 등록되어 있는 말하는 사람과의 대조확인 처리를 실행한다. 말하는 사람 식별용 사전 데이터(323)에는, 대조확인 처리에 적용하는 말하는 사람 마다의 음성 데이터와 그 사람의 이름, 혹은 카테고리명(가족, 친구 등) 등록 음성 데이터에 대응하는 명칭, 카테고리명 등의 대응 데이터가 등록되어 있고, 말하는 사람 식별처리부(313)에 있어서, 해석 대상 음성 데이터에서 추출한 말하는 사람 음성 데이터와, 말하는 사람 식별용 사전 데이터(323)에 등록된 말하는 사람 음성 데이터와의 대조확인을 실행하여, 미리 정해진 소정의 기준을 만족하는 유사한 등록 데이터가 검출되었을 경우, 그 등록 데이터에 대응 지어진 명칭, 카테고리명 등을 메타데이터의 후보로서 메타데이터 결정부(331)에 출력한다.

말하는 사람 식별용 사전 데이터(323)에는, 사용자가 등록한 데이터, 또한, 네트워크(320)를 통하여 취득한 사전 데이터가 포함된다. 사전은, 각각의 말하는 사람 마다 개별로, 혹은 몇 개의 카테고리로 그룹화가 되며, 말하는 사람 식별처리부(313)는, 이용하는 사전 데이터의 그룹을 적당 변환하여 대조확인 처리를 실행한다.

말하는 사람 식별처리부(313)에 있어서의 말하는 사람 식별용 사전 데이터(323)를 이용한 대조확인 처리에 의하여 일치하는 등록 음성 데이터가 얻어진 경우, 그 음성 데이터에 대응하는 등록 정보로서의 이름, 카테고리명, 예를 들면［가족］등이 얻어진 경우, 이러한 워드가 메타데이터 결정부(331)에 입력된다. 또한, 메타데이터 결정부(331)에 있어서의 선별 처리 후 메타데이터 통합부(245)에 출력된다.

음성인식 처리부(314)는, 음성인식용 사전 데이터(324)를 이용하고, 공급된 해석 대상으로 이루어지는 음성 데이터의 해석을 실행하여 음성 데이터 중에서 단어를 추출한다. 음성인식용 사전 데이터(324)에는, 대조확인 처리에 적용하는 단어 정보가 등록되어 있고, 음성인식 처리부(314)에 있어서, 해석 대상 음성 데이터에서 추출한 음성 데이터와, 음성인식용 사전 데이터(324)에 등록된 단어와의 대조확인을 실행하여, 미리 정해진 소정의 기준을 만족하는 유사한 등록 데이터가 검출되었을 경우, 그 등록 데이터로서의 단어를 메타데이터의 후보로서 메타데이터 결정부(331)에 출력한다.

음성인식용 사전 데이터(324)에는, 사용자가 등록한 데이터, 또한, 네트워 크(320)를 통하여 취득한 사전 데이터가 포함된다. 사전은, 각각의 단어마다 개별로, 혹은 몇 개의 카테고리로 그룹화가 되며, 음성인식 처리부(314)는, 이용하는 사전 데이터의 그룹을 적당 변환하여 대조확인 처리를 실행한다.

음성인식 처리부(314)에 있어서의 음성인식용 사전 데이터(324)를 이용한 대조확인 처리에 의하여 일치하는 등록 단어가 얻어진 경우, 그 음성 데이터에 대응하는 등록 정보로서의 단어를 메타데이터 결정부(331)에 입력한다. 또한, 메타데이터 결정부(331)에 있어서의 선별 처리 후 메타데이터 통합부(245)에 출력된다.

웃는 얼굴 식별처리부(315)는, 공급된 해석 대상으로 이루어지는 화상데이터에 의거한 화상 해석을 실행하고, 웃는 얼굴이라고 판별되는 화상 영역이 있는지 아닌지를 판단한다. 웃는 얼굴 식별처리부(315)는, 화상에 의거한 웃는 얼굴의 검출을 실시하기 위한 판정 기준 정보를 보유하고, 이 기준 정보를 적용하여 화상에 웃는 얼굴이 포함되는지 아닌지를 판정한다. 웃는 얼굴이라고 판별되는 화상이 추출되었을 경우, 웃는 얼굴에 대응하는 메타데이터 후보로서［웃는 얼굴］［즐겁다］등의 등록 정보를 메타데이터 결정부(331)에 입력한다.

웃음소리 식별처리부(316)는, 공급된 해석 대상으로 이루어지는 음성 데이터에 의거한 음성 해석을 실행하고, 웃음소리라고 판별되는 음성 데이터가 포함되는지 아닌지를 판단한다. 웃음소리 식별처리부(316)는, 음성 데이터에 의거한 웃음소리의 검출을 실시하기 위한 판정 기준 정보를 보유하고, 이 기준 정보를 적용하여 음성 데이터에 웃음소리가 포함되는지 아닌지를 판정한다. 웃음소리라고 판별되는 데이터가 추출되었을 경우, 웃음소리에 대응하는 메타데이터 후보로서［웃음 ］［즐겁다］등의 등록 정보를 메타데이터 결정부(331)에 출력한다.

큰 소리로 외치는 소리 식별처리부(317)는, 공급된 해석 대상으로 이루어지는 음성 데이터에 의거한 음성 해석을 실행하고, 큰 소리로 외치는 소리라고 판별되는 음성 데이터가 포함되는지 아닌지를 판단한다. 큰 소리로 외치는 소리 식별처리부(317)는, 음성 데이터에 의거한 큰 소리로 외치는 소리의 검출을 실시하기 위한 판정 기준 정보를 보유하고, 이 기준 정보를 적용하여 음성 데이터에 큰 소리로 외치는 소리가 포함되는지 아닌지를 판정한다. 큰 소리로 외치는 소리라고 판별되는 데이터가 추출되었을 경우, 큰 소리로 외치는 소리에 대응하는 메타데이터 후보로서［공포］[무섭다] 등의 등록 정보를 메타데이터 결정부(331)에 출력한다.

울음소리 식별처리부(318)는, 공급된 해석 대상으로 이루어지는 음성 데이터에 의거한 음성 해석을 실행하고, 울음소리라고 판별되는 음성 데이터가 포함되는지 아닌지를 판단한다. 울음소리 식별처리부(318)는, 음성 데이터에 의거한 울음소리의 검출을 실시하기 위한 판정 기준 정보를 보유하고, 이 기준 정보를 적용하여 음성 데이터에 울음소리가 포함되는지 아닌지를 판정한다. 울음소리라고 판별되는 데이터가 추출되었을 경우, 울음소리에 대응하는 메타데이터 후보로서［슬프다］［무섭다］등의 등록 정보를 메타데이터 결정부(331)에 출력한다.

메타데이터 결정부(331)는, 복수의 식별처리부에서 입력된 메타데이터 후보와의 중복 데이터 등을 배제하고, 출력 메타데이터를 결정하여 메타데이터 통합부(245)에 출력한다. 메타데이터 통합부(245)는, 메타데이터 생성부(250), 인터액션 메타데이터 생성부(246)에서 입력하는 각각의 메타데이터에 대하여, 시각 정 보를 고려하여 통합 처리를 실행하고, 콘텐츠 제어부(232)에 출력한다.

메타데이터 통합부(245)는, 예를 들면, 인터액션 메타데이터 생성부가 생성한 인터액션 베이스의 메타데이터나, 메타데이터 생성부(250)가 생성한 콘텐츠 베이스의 메타데이터를, 재생 콘텐츠의 재생 시간 정보에 대응 짓는 메타데이터 통합 처리를 실행한다. 콘텐츠 제어부(232)에서는, 이러한 메타데이터를 재생 콘텐츠에 대응하는 메타데이터로서 기억부(233)에 기록한다.

구체적인 메타데이터의 추출, 등록 처리 예에 대하여, 도 4를 참조하여 설명한다. 도 4에 나타내는 예는, 가족이 유원지에 갔을 때에 디지털 카메라로 찍은 사진을, 가족이 감상하고 있는 경우에 있어서의 메타데이터의 설정 처리를 나타내고 있다. 도 4에는, 상단으로부터,

(a) 시청 콘텐츠

(b) 콘텐츠 베이스 메타데이터

(c) 인터액션 베이스 메타데이터

(d) 시스템측 인터액션

(e) 사용자측 인터액션

이러한 (a)~(e)의 각 데이터 또는 처리를 나타내고 있다.

우선, 디지털 카메라에서 사진을 시스템(정보처리 장치)에 입력한 단계에서, 최초의 콘텐츠 베이스 메타데이터의 생성이 실시된다. 도 2에 나타내는 메타데이터 생성부(250)에 기억부(233)에 격납된 콘텐츠의 해석을 실행하고, 콘텐츠 베이스의 메타데이터 추출이 실행된다. 또한 도 2에 나타내는 메타데이터 생성부(250) 는, 도 3을 참조하여 설명한 구성을 가지고, 콘텐츠를 구성하는 화상 데이터, 음성 데이터에 의거한 여러가지 해석이 실행되며, 메타데이터의 추출이 실시된다.

메타데이터 생성부(250)는, 도 3에 나타내는 메타데이터 생성부(300)의 구성을 가지고, 각 식별처리부(311~318)를 적용하여, 사전 데이터(321~324)나 미리 등록된 판정 기준 정보를 이용하여 처리를 실행한다.

도 3에 나타내는 얼굴 식별처리부(311)의 식별처리에 의하여, 예를 들면, 도 4에 나타내는 예에서는, 사진(A401)으로부터, 「아버지」와「딸 2」의 메타데이터(411)가 설정되며, 사진(B402)에 대해서는, 「딸 1」과「딸 2」의 메타데이터(412)가 설정된다.

다음으로 가족이 콘텐츠를 감상하고 있을 때에, 예를 들면 사진(A401)을 감상하고 있을 때의 사용자 측의 인터액션 정보로서, 도 2에 나타내는 데이터 입력부(210)의 카메라(211)의 취득한 화상 및 마이크(212)의 취득한 음성 데이터에 의거한, 인터액션 메타데이터 생성부(246)의 해석에 의하여,

(스텝 S1) 웃는 얼굴이나 웃음소리가 검출되었을 경우, 이러한 정보에 의거하여 「웃는 얼굴」「웃음소리」가 인터액션 메타데이터(421)로서 추출된다.

인터액션 메타데이터 생성부(246)의 처리 구성도, 도 3에 나타내는 메타데이터 생성부(300)의 구성을 가지고, 도 3에 나타내는 각 식별처리부(311~318)를 적용하여, 사전 데이터(321~324)나 미리 등록된 판정 기준 정보를 이용하여 메타데이터의 생성처리를 실행한다.

시스템(정보처리 장치)은, 또한, 사진(A401)에 대응하여 추출된 콘텐츠 베이 스 메타데이터(411)(「아버지」와「딸 2」)에 의거하여,

(스텝 S2) 사용자에 대한 질문을 생성하여 데이터 출력부(220)를 통하여 사용자에 출력한다.

출력 형태는, 디스플레이(221)에 대한 메세지 표시, 혹은, 스피커(222)를 통한 음성 출력, 어느 것인가의 형태로 실행한다.

시스템으로부터의 질문은, 예를 들면,

「아버지와 00(딸 2의 이름)은 어디에 갔습니까？」

라는 질문이다.

이 시스템 측의 질문에 대하여, 어머니가,

(스텝 S3) 응답을 한다. 예를 들면,

「가족과 함께 유원지에 갔어요」

라고 한 응답을 하였다고 한다.

데이터 입력부(210)의 마이크(212)는, 이 응답을 입력하여, 인터액션 메타데이터 생성부(246)에 입력한다. 인터액션 메타데이터 생성부(246)는, 이 어머니의 응답 「가족과 함께 유원지에 갔어요」를 해석한다.

예를 들면, 도 3에 나타내는 음성인식 처리부(314)에 있어서의 음성인식 처리에 의하여, 응답에 포함되는 「가족」「유원지」라는 단어가 추출되며, 이들을 인터액션 메타데이터(422)로서 설정한다.

이와 같이 하여, 콘텐츠 베이스의 메타데이터에, 인터액션 베이스의 메타데이터(422)가 추가된 후, 시스템(정보처리 장치)은, 재차, 다시 콘텐츠 메타데이터 의 추출을 실시한다. 이때는, 인터액션 베이스의 메타데이터가 부여된 결과, 가족은 유원지에 갔을 때이다라고 하는 사진에 대한 새로운 정보가 부여되고 있기 때문에, 시스템(정보처리 장치)은, 그 정보를 이용하고, 도 3을 참조하여 설명한 구성을 가지는 메타데이터 생성부(300)에 있어서, 또한 콘텐츠 베이스의 메타데이터 추출처리를 실행한다.

이 메타데이터 추출처리에 임하여서는, 인터액션의 결과, 새롭게 취득한 정보에 의거하여, 각 식별처리부(311~318)의 적용하는 사전 데이터를 변환하여 처리를 실시한다. 인터액션의 결과, 인터액션 베이스의 메타데이터로서, 「가족」「유원지」가 취득되고 있기 때문에, 이러한 인터액션 베이스 메타데이터에 의거하여, 이러한 데이터에 관련하는 사전을 우선적으로 선택하여 콘텐츠로서의 화상 및 음성 데이터와 사전 등록 데이터와의 대조확인 처리에 의한 메타데이터 추출을 실행한다.

예를 들면, 얼굴 식별처리부(311)나 말하는 사람 식별처리부(313)에서 이용하는 사전으로서는［가족］에 한정한 사전을 이용하고, 음성인식 처리부(314)나 일반물체 식별처리부(312) 등에서 이용하는 사전에는［유원지］에 관련한 데이터를 집적한 사전을 우선적으로 선택하여 처리를 실시한다.

이와 같이, 콘텐츠에 대응하는 정보에 의거하여, 그 정보에 관련하는 사전을 우선적으로 사용한 메타데이터 추출에 의하여, 보다 정밀도가 높은 메타데이터의 추출, 기록 처리가 가능해진다.

처음에 콘텐츠를 시스템에 입력하였을 때에는 일반적인 사전을 이용하여 메 타데이터 추출을 실행하고 있었기 때문에, 그 일반적인 사전에 등록된 정보에 대응하는 메타데이터만이 추출 가능해지지만, 인터액션의 결과로서 취득된 새로운 콘텐츠 대응 정보로서 인터액션 베이스의 메타데이터를 참조함으로써 콘텐츠의 촬영시의 상황에 따른 최적인 사전을 선택하는 것이 가능해지고, 이 최적인 사전을 이용한 화상이나 음성의 해석, 즉 식별처리가 실행됨으로써, 보다 정밀도가 높은 콘텐츠 메타데이터를 추출하는 것이 가능해진다.

도 4에 나타내는 예에서는, 이 새로운 메타데이터 추출처리에 의하여,

(스텝 S4)사진(A401)에 대하여 새롭게「어머니」라고 하는 메타데이터(431),

(스텝 S5)사진(B)에 대하여 「제트 코스터」라고 한 메타데이터(432),

이러한 새로운 메타데이터를 추출하여 콘텐츠 대응의 메타데이터로서 기록하는 것이 가능해진다.

이와 같이 하여 추출한 메타데이터는, 각각의 콘텐츠에 대응하는 메타데이터로서 기억부(233)에 기록된다.

사진에 부여된 자동 기록된 데이터인 촬영 일시의 정보에서, 사진(A)과 사진(B)은 동일한 이벤트에 대응하는 일련의 사진이다라고 판단할 수 있기 때문에, 인터액션 메타데이터(422)는, 양쪽 모두의 사진에 대하여 부여할 수 있다.

사진(A401)에 대한 메타데이터로서는, 콘텐츠 베이스의 메타데이터(411,431) 및 인터액션 베이스의 메타데이터(421,422)가 기록되며,

사진(B402)에 대한 메타데이터로서는, 콘텐츠 베이스의 메타데이터(412,43 2) 및 인터액션 베이스의 메타데이터(422)가 기록된다.

다음으로, 본 발명의 정보처리 장치에 있어서, 실행하는 각종의 처리의 순서에 대하여 설명한다. 이하에 나타내는 (A)~(C)의 각 처리에 대하여, 차례차례, 설명한다.

(A) 콘텐츠 입력 처리시의 순서 (도 5)

(B) 콘텐츠 감상 처리시의 순서 (도 6)

(C) 인터액션 처리 후의 메타데이터 재추출처리 순서 (도 7)

(A) 콘텐츠 입력 처리시의 순서

우선, 도 5에 나타내는 플로차트를 참조하여 콘텐츠 입력 처리시의 순서에 대하여 설명한다. 스텝(S101)에 있어서, 도 2에 나타내는 콘텐츠 입력부(231)를 통하여, 콘텐츠가 정보처리 장치에 받아들여지면, 입력 콘텐츠 데이터는 콘텐츠 제어부(232)를 통하여 메타데이터 생성부(250)에 공급된다.

스텝(S102)에 있어서, 메타데이터 생성부(250)는, 콘텐츠를 구성하는 화상 및 음성 정보의 해석에 의하여, 콘텐츠 베이스의 메타데이터를 추출한다. 즉, 도 3에 나타내는 구성을 가지는 메타데이터 생성부는, 도 3에 나타내는 각 식별처리부(311~318)를 적용하여, 사전 데이터(321~324)나 미리 등록된 판정 기준 정보를 이용하여 콘텐츠에 의거한 메타데이터의 생성처리를 실행한다.

스텝(S103)에 있어서, 메타데이터 생성부(250)가 콘텐츠에 의거하여 생성한 콘텐츠 메타데이터는 콘텐츠 제어부(232)에 제공되며, 콘텐츠 데이터와 함께 콘텐츠 대응의 메타데이터로서 기억부(233)에 격납된다.

(B) 콘텐츠 감상 처리시의 순서

다음으로, 도 6에 나타내는 플로차트를 참조하여 콘텐츠 감상 처리시의 순서에 대하여 설명한다. 스텝(S201)에 있어서, 우선, 사용자가 장치의 전원을 넣으면, 스텝(S202)에 있어서, 도 2에 나타내는 데이터 입력부(210)의 카메라(211)와 마이크(212)를 사용하여 사용자의 관찰이 개시된다. 이 처리는 전원이 OFF가 될 때까지 계속된다.

콘텐츠를 감상하고 싶은 사용자는, 장치에 대하여, 마이크(212)에서의 음성 입력이나, 사용자 입력부(249)(예를 들면 리모콘)에 의하여, 콘텐츠의 재생을 지시한다. 스텝(S203)에 있어서, 제어부(243)가, 콘텐츠 재생 지시 정보를 입력했다고 판정하면, 스텝(S204)에 진행되고, 콘텐츠 제어부(232)에 대하여 콘텐츠의 재생을 지시하고, 콘텐츠 제어부(232)는 기억부(233)에서 콘텐츠 데이터를 읽어내고, 데이터 출력부(220)를 통하여 재생한다.

또, 스텝(S205)에 있어서, 제어부(243)가, 콘텐츠 재생 종료 지시 정보를 입력했다고 판정하면, 스텝(S206)에 진행되고, 콘텐츠 제어부(232)에 대하여 콘텐츠의 재생 종료를 지시하고, 콘텐츠 제어부(232)는 기억부(233)에서의 콘텐츠 데이터를 읽어내는 처리를 종료한다.

스텝(S207) 이하의 처리는, 정보처리 장치와 사용자 사이의 인터액션에 의거한 인터액션 베이스의 메타데이터의 취득 처리이다. 이 처리는, 장치의 전원이 오프가 될 때까지 실행된다. 이러한 처리는, 콘텐츠의 재생 중에만 실행하는 처리라고 해도 좋지만, 콘텐츠의 재생의 유무에 관련되지 않고 실행 가능한 처리이며, 본 플로(flow)에서는, 콘텐츠 재생중인지 아닌지에 관련되지 않고 실행되는 처 리로 하고 있다.

스텝(S207)에서는, 제어부(243)에 있어서, 카메라(211)의 입력 화상의 화상 처리부(241)에서의 처리 결과, 마이크(212)에서 입력하는 음성 데이터의 음성 처리부(242)의 처리 결과에서 추정되는 사용자 상태와, 재생하고 있는 콘텐츠에서 추출된 콘텐츠 메타데이터를 이용하여 시스템 전체의 제어를 실시함과 동시에, 인터액션 실행부(247)에 대하여, 사용자에 대한 적절한 인터액션, 예를 들면 질문의 생성, 출력을 지시한다. 인터액션 실행부(247)는, 제어부(243)에서 제공된 데이터에 의거하여 사용자에 대하여 질문을 제시하는 등의 인터액션를 실행한다. 구체적으로는, 데이터 출력부(220)의 디스플레이(221)에 GUI를 제시하는 처리, 음성 합성 데이터를, 스피커(222)를 통하여 출력하는 처리 등을 실행한다.

또한, 우선 도 4를 참조하여 설명한 바와 같이, 인터액션 실행시에는, 콘텐츠에 대응하여 설정이 끝난 콘텐츠 베이스의 메타데이터와, 사용자의 액션 정보가 이용된다. 이미 부여되고 있는 콘텐츠 메타데이터를 이용하는 예로서는, 예를 들면 디지털 카메라로 촬영한 정지화면 안에, 가족 전원이 비치고 있는 기념 사진이 검출되어 있고, 그 콘텐츠에 대응하는 콘텐츠 베이스의 메타데이터로서［가족］이나, 가족의 이름이 등록되어 있는 경우, 인터액션 실행부(247)는, 「이것은 어느 때의 사진입니까？」라고 한 형태로 사용자에게 질문하는 처리가 실시된다.

이 질문의 출력에 따라서, 「모두 유원지에 갔을 때의 사진이야」라고 한 사용자로부터의 응답을 얻고, 그것을 마이크(212)를 통하여 장치에 입력하고, 스텝(S208)에 있어서, 인터액션 메타데이터 생성부(246)가, 예를 들면 음성인식 처리 를 실시함으로써 텍스트화하여, 메타데이터로서 생성한다.

스텝(S208)의 인터액션 메타데이터 생성부(246)에 있어서의 인터액션 메타데이터의 생성처리로서는, 우선 도 4를 참조하여 설명한 처리뿐만 아니라, 예를 들면, 이하와 같은 데이터를 추출하고, 이것을 메타데이터로 하는 처리가 실시된다. 즉,

(a) 콘텐츠의 재생 시간

(b) 콘텐츠를 감상하고 있는 것은 누구인가

(c) 콘텐츠의 주시 시간

(d) 감상자의 시선의 방향

(e) 누가 언제 어떤 발화를 했는가

(f) 웃음소리, 웃는 얼굴, 울음소리 등의 감정적인 동작

이러한 정보가, 인터액션 메타데이터 생성부(246)에 있어서 추출된다. 또한, (a) 콘텐츠의 재생 시간에 대해서는, 장치가 가지는 타이머 정보를 입력하여 계측한다. 그 외의 (b)~(d)의 각 정보에 대해서는, 도 3에 나타내는 구성중의 각 식별처리부의 처리에 의하여 취득한다.

스텝(S209)에서는, 메타데이터 통합부(245)에 있어서, 인터액션 메타데이터 생성부(246)에 있어서 추출된 인터액션 베이스 메타데이터와, 메타데이터 생성부(250)에 있어서 콘텐츠에 의거하여 추출된 콘텐츠 베이스 메타데이터를 통합한 메타데이터를 작성한다.

메타데이터 통합부(245)는, 인터액션 메타데이터 생성부가 생성한 인터액션 베이스의 메타데이터나, 메타데이터 생성부(250)의 생성한 콘텐츠 베이스의 메타데이터를, 재생 콘텐츠의 재생 시간 정보에 대응 짓는 메타데이터 통합 처리를 실행한다. 즉, 동영상이나 녹음 콘텐츠의 어느 시각 부분을 재생하고 있을 때, 어느 메타데이터가 얻어졌다고 하는 정보가 보관 유지되는 바와 같이 메타데이터의 합성을 실시한다.

또, 메타데이터 통합부(245)는, 메타데이터에 사용자의 발화 내용이 포함되는 경우, 해석 처리로서 이른바 대어휘 연속 음성인식을 이용하여 발화를 한자가나 섞임 텍스트로서 쓰기 시작하거나, 발화중의 키워드만을 추출하거나, 혹은 음소, 음절 등의 형태로 쓰기 시작하는 것 등의 처리를 실행한다.

마지막으로, 스텝(S210)에 있어서, 콘텐츠 제어부(232)가, 인터액션 메타데이터 생성부(246)에 있어서 추출된 인터액션 베이스 메타데이터와, 메타데이터 생성부(250)에 있어서 콘텐츠에 의거하여 추출된 콘텐츠 베이스

메타데이터의 통합 처리 결과를, 콘텐츠 데이터와 관련지은 상태로 기억부(233)에 보존한다. 이상의 처리가, 스텝(S211)에 있어서 전원 오프로 판정될 때까지, 계속하여 실행된다.

(C) 인터액션 처리 후의 메타데이터 재추출처리 순서

다음으로, 도 7에 나타내는 플로차트를 참조하여 인터액션 처리 후의 메타데이터 재추출처리 순서에 대하여 설명한다. 이 처리는, 예를 들면, 장치의 전원이 OFF로 되어 있고, 사용자와의 인터액션이 실시되고 있지않을 때에, 백그라운드에서 실시할 수 있다. 단지, 실행하는 시기는 한정되지 않고, 도 6을 참조하여 설명한 인터액션 베이스의 메타데이터 추출처리에 병렬하여 실행하는 구성이라고 해도 좋다.

우선, 스텝(S301)에 있어서, 제어부(243)의 제어 아래, 기억부(233)에 격납된 콘텐츠와 콘텐츠 대응정보로서 기록된 메타데이터를, 메타데이터 생성부(250)에 입력한다. 이 메타데이터에는, 인터액션 메타데이터 생성부(246)에 있어서 추출된 인터액션 베이스 메타데이터와, 메타데이터 생성부(250)에 있어서 콘텐츠에 의거하여 추출된 콘텐츠 베이스 메타데이터의 양자를 포함하고 있다.

다음으로, 스텝(S302)에 있어서, 메타데이터 생성부(250)는, 우선 도 3을 참조하여 설명한 각 식별처리부(311~318)의 처리에 의하여 콘텐츠의 구성 데이터로서의 화상 및 음성 데이터의 해석을 실행하고, 콘텐츠 데이터에 대한 콘텐트 메타데이터를 생성한다.

먼저 설명한 바와 같이, 이 처리에 있어서는, 예를 들면, 인터액션 메타데이터를 참조하고, 콘텐츠에 관련하는 사전을 선택하는 등의 처리를 실시하여, 콘텐츠에 대응한 처리를 실행한다.

예를 들면, 도 5의 플로를 참조하여 설명한 콘텐츠의 입력시의 메타데이터 생성에 있어서는, 인터액션 메타데이터가 존재하지 않기 때문에, 일반적인 사전을 적용한 메타데이터 추출을 실행할 수밖에 없다. 예를 들면 화상 데이터에 의거한 얼굴 식별처리에서는, 범용적인 얼굴 데이터를 보관 유지한 사전을 이용하여, 얼굴 화상 인식을 실시하고, 음성 데이터를 적용한 식별처리에 있어서도 일반적인 사전을 이용하여 음성인식을 실시하게 된다.

그에 대하여, 인터액션 메타데이터에 의하여, 콘텐츠가 어떠한 콘텐츠인지를 추정할 수 있는 경우, 그 추정 정보에 의거하여 적용 사전을 한정하는 것이 가능해진다. 우선 도 4를 참조하여 설명한 예에서는, 인터액션의 결과, 인터액션 베이스의 메타데이터로서 「가족」「유원지」가 취득되고 있기 때문에, 이러한 인터액션 베이스 메타데이터에 의거하여, 이러한 데이터에 관련하는 사전을 우선적으로 선택하여 콘텐츠로서의 화상 및 음성 데이터와 사전 등록 데이터와의 대조확인 처리에 의한 메타데이터 추출을 실행할 수 있다.

예를 들면, 인터액션의 결과, 인터액션 베이스의 메타데이터로서, 「직장」, 「연회」등의 메타데이터가 설정되어 있는 경우, 이 메타데이터에 의거하여, 직장 관계의 인간만큼의 얼굴 데이터를 보관 유지한 사전을 이용하여 얼굴 화상 인식을 실시하는 것이 가능하고, 인식율을 향상시켜 보다 정밀도가 높은 메타데이터 추출 및 기록이 가능해진다.

마지막으로, 스텝(S303)에 있어서, 생성한 콘텐츠 메타데이터를 콘텐츠 제어부(232)의 제어 아래, 콘텐츠 데이터와 함께 기억부(233)에 보존한다.

이와 같이, 본 발명의 정보처리 장치에서는, 콘텐츠 데이터의 해석에 의거한 콘텐츠 베이스의 메타데이터를 추출하여 기록할 뿐만 아니라, 예를 들면 콘텐츠를 감상중인 사용자와의 인터액션를 실행하고, 인터액션 실행시의 사용자 화상이나 음성 정보를 취득하여 이러한 입력정보의 해석에 의거하여 인터액션 베이스의 메타데이터를 추출하고, 또한, 추출한 인터액션 베이스의 메타데이터를 참조함으로써 콘텐츠의 내용을 추정하고, 적용하는 사전을 한정한 메타데이터 추출을 실행함으로 써, 콘텐츠에 대응한 정밀도가 높은 메타데이터를 콘텐츠에 대응 지어 설정하여 기록하는 것이 가능해진다. 또, 본 발명의 구성에서는, 사용자에 의한 메타데이터의 설정이라고 하는 사용자 부담을 조금도 발생시키지 않고, 예를 들면 거실에서, 모두 콘텐츠를 관상(勸賞)하면서, 즐기면서 메타데이터의 추출, 기록 처리를 실행할 수 있다.

마지막으로, 상술한 처리를 실행하는 정보처리 장치의 하드웨어 구성 예에 대하여, 도 8을 참조하여 설명한다. CPU(Central Processing Unit)(501)는, OS(Operating System)에 대응하는 처리, 상술의 실시 예에 있어서 설명한 데이터 처리부의 실행 주체로서 기능한다. 구체적으로는, 콘텐츠에 의거한 콘텐츠 베이스의 메타데이터 추출, 기록 처리, 사용자와의 인터액션의 실행 처리, 인터액션에 의거한 인터액션 베이스의 메타데이터의 생성, 기록 처리 등을 실행한다. 이러한 처리는, 각 정보처리 장치의 ROM, 하드디스크 등의 데이터 기억부에 격납된 컴퓨터·프로그램에 따라서 실행된다.

ROM(Read Only Memory)(502)은, CPU(501)가 사용하는 프로그램이나 연산 파라미터 등을 격납한다. RAM(Random Access Memory)(503)은, CPU(501)의 실행에 있어서 사용하는 프로그램이나, 그 실행에 있어서 적당 변화하는 파라미터 등을 격납한다. 이들은 CPU 버스 등에서 구성되는 호스트 버스(504)에 의하여 서로 접속되어 있다.

호스트 버스(504)는, 브리지(505)를 통하여, PCI(Peripheral Component Interconnect／Interface) 버스 등의 외부 버스(506)에 접속되어 있다.

사용자 입력부(508)는, 키보드, 포인트 장치 등이고, 사용자에 의하여 조작되는 입력 장치이다. 데이터 입력부(509)는, 도 2에 나타내는 카메라(211), 마이크(212)에 의하여 구성된다. 데이터 출력부(510)는, 도 2에 나타내는 디스플레이(221), 스피커(222) 등에 의하여 구성된다.

HDD(Hard Disk Driｖe)(511)는, 하드 디스크를 내장하고, 하드 디스크를 구동하고, CPU(501)에 의하여 실행하는 프로그램이나 정보를 기록 또는 재생시킨다.

하드 디스크는, 예를 들면 콘텐츠 및 메타데이터 등의 격납 수단 등에 이용되며, 또한, 데이터 처리 프로그램 등, 각종 컴퓨터·프로그램이 격납된다.

드라이브(512)는, 장착되어 있는 자기 디스크, 광디스크, 광학 자기 디스크, 또는 반도체 메모리 등의 리무버블 기록 매체(521)에 기록되어 있는 데이터 또는 프로그램을 읽어내고, 그 데이터 또는 프로그램을, 인터페이스(507), 외부 버스(50 6), 브리지(505) 및 호스트 버스(504)를 통하여 접속되어 있는 RAM(503)에 공급한다.

접속 포토(514)는, 외부 접속 기기(522)를 접속하는 포토이며, USB, IEEE 1394등의 접속부를 가진다. 접속 포토(514)는, 인터페이스(507) 및 외부 버스(506), 브리지(505), 호스트 버스(504) 등을 통하여 CPU(501) 등에 접속되어 있다. 통신부(515)는, 네트워크에 접속되고 있다. 예를 들면 메타데이터 추출처리에 임하여 취득하는 사전 데이터는 통신부(515)를 통하여 입력하는 구성으로 할 수 있다.

또한, 도 8에 나타내는 정보처리 장치의 하드웨어 구성 예는, PC를 적용하여 구성한 장치의 일례이며, 도 8에 나타내는 구성에 한정하지 않고, 상술한 실시 예에 있어서 설명한 처리를 실행 가능한 여러 가지 장치가 적용 가능하다.

이상, 특정의 실시 예를 참조하면서, 본 발명에 대하여 상세하게 풀이하여 왔다. 그렇지만, 본 발명의 요지를 일탈하지 않는 범위에서 당업자가 이 실시 예의 수정이나 대용을 이룰 수 있는 일은 자명하다. 즉, 예시라고 하는 형태에서 본 발명을 개시하여 왔기 때문에, 한정적으로 해석되어서는 안 된다. 본 발명의 요지를 판단하기 위해서는, 특허 청구의 범위의 란(欄)을 참작해야 한다.

또한, 명세서 중에 있어서 설명한 일련의 처리는 하드웨어, 또는 소프트웨어, 혹은 양자의 복합 구성에 의하여 실행하는 것이 가능하다. 소프트웨어에 의한 처리를 실행하는 경우는, 처리 순서를 기록한 프로그램을, 전용의 하드웨어에 짜 넣어진 컴퓨터 내의 메모리에 인스톨(install)하여 실행시키든가, 혹은, 각종 처리가 실행 가능한 범용 컴퓨터에 프로그램을 인스톨하여 실행시키는 것이 가능하다.

예를 들면, 프로그램은 기록 매체로서의 하드디스크나 ROM(Read Only Memory)에 미리 기록해 둘 수 있다. 혹은, 프로그램은 플렉시블 디스크(flexible disk), CD－ROM(Compact Disc Read Only Memory), MO(Magnetooptical) 디스크, DVD(Digital VersatileDisc), 자기 디스크, 반도체 메모리 등의 리무버블 기록 매체에, 일시적 혹은 영속적으로 격납해 둘 수 있다. 이러한 리무버블 기록 매체는, 이른바 패키지 소프트웨어로서 제공할 수 있다.

또한, 프로그램은, 상술한 바와 같은 리무버블 기록 매체에서의 컴퓨터에 인 스톨 하는 것 외, 다운로드 사이트에서, 컴퓨터에 무선 전송하거나 LAN(Local Area Network), 인터넷이라고 하는 네트워크를 통하여, 컴퓨터에 유선으로 전송하고, 컴퓨터에서는, 그처럼 하여 전송되어 오는 프로그램을 수신하고, 내장하는 하드 디스크 등의 기록 매체에 인스톨 할 수 있다.

또한, 명세서에 기재된 각종의 처리는, 기재에 따라서 시계열로 실행될 뿐만 아니라, 처리를 실행하는 장치의 처리 능력 혹은 필요에 따라서 병렬적으로 혹은 개별적으로 실행되어도 좋다. 또, 본 명세서에 있어서 시스템과는, 복수의 장치의 논리적 집합 구성이며, 각 구성의 장치가 동일 케이스체 내에 있는 것에는 한정되지 않는다.

[산업상의 이용 가능성]

이상, 설명한 바와 같이, 본 발명의 일실시 예의 구성에 의하면, 예를 들면 콘텐츠를 감상중인 사용자와의 인터액션을 실행하고, 인터액션 실행시의 사용자 화상이나 음성 정보를 취득하여 이러한 입력정보의 해석에 의거하여 인터액션 베이스의 메타데이터를 추출하고, 콘텐츠 대응의 메타데이터로서 기록하는 것이 가능해진다. 본 발명의 구성에 의하면, 사용자에 의한 메타데이터의 설정이라고 하는 사용자 부담을 조금도 발생시키지 않고, 예를 들면 거실에서, 모든 콘텐츠를 관상하면서, 즐기면서 메타데이터의 추출, 기록 처리를 실행할 수 있는 장치가 실현된다.

또한, 본 발명의 정보처리 장치의 일실시 예의 구성에 의하면, 콘텐츠 베이스의 메타데이터 추출 처리에 임하여서도, 인터액션 베이스의 메타데이터를 참조함으로써 콘텐츠의 내용을 추정하여, 적용하는 사전을 한정한 메타데이터 추출을 실 행하는 것이 가능해지며, 콘텐츠에 대응한 정밀도가 높은 메타데이터를 콘텐츠에 대응지어 설정하여 기록하는 것이 가능해지는 장치가 실현된다.

본 발명의 일실시 예의 구성에 의하면, 예를 들면 콘텐츠를 감상 중의 사용자와의 인터액션을 실행하고, 인터액션 실행시의 사용자 화상이나 음성 정보를 취득하여 이러한 입력정보의 해석에 의거하여 인터액션 베이스의 메타데이터를 추출하고, 콘텐츠 대응의 메타데이터로서 기록하는 것이 가능해진다. 본 발명의 구성에 의하면, 사용자에 의한 메타데이터의 설정이라고 하는 사용자 부담을 조금도 발생시키지 않고, 예를 들면 거실에서, 모두 콘텐츠를 관상(觀賞)하면서, 즐기면서 메타데이터의 추출, 기록 처리를 실행할 수 있다.

또한, 본 발명의 정보처리 장치의 일실시 예 구성에 의하면, 콘텐츠 베이스의 메타데이터 추출처리에 임하여서도, 인터액션 베이스의 메타데이터를 참조함으로써, 콘텐츠의 내용을 추정하여, 적용하는 사전을 한정한 메타데이터 추출을 실행하는 것이 가능해지며, 콘텐츠에 대응한 정밀도가 높은 메타데이터를 콘텐츠에 대응 지어 설정하여 기록하는 것이 가능해진다.

Claims

콘텐츠에 대응하는 메타데이터의 생성처리를 실행하는 정보처리 장치이며, 재생 콘텐츠를 출력하는 데이터 출력부와,

재생 콘텐츠를 감상하는 사용자의 화상 또는 음성의 적어도 어느 데이터를 입력하는 데이터 입력부와,

상기 데이터 입력부에서의 입력정보와, 재생 콘텐츠 정보에 의거하여 상기 사용자에 대한 액션을 결정하는 제어부와,

상기 제어부가 결정한 액션을 실행하는 인터액션 실행부와,

상기 데이터 입력부를 통하여 취득하는 상기 인터액션 실행결과를 포함하는 사용자의 화상 또는 음성의 적어도 어느 입력정보의 해석을 실행하고, 재생 콘텐츠에 대응하는 메타데이터를 생성하는 인터액션 메타데이터 생성부와,

상기 인터액션 메타데이터 생성부가 생성한 메타데이터를, 재생 콘텐츠에 대응하는 메타데이터로서 기록하는 콘텐츠 제어부를 가지는 것을 특징으로 하는 정보처리 장치.
제 1항에 있어서,

상기 인터액션 메타데이터 생성부는,

얼굴 식별처리, 일반물체 식별처리, 웃는 얼굴 식별처리, 말하는 사람 식별처리, 음성인식 처리, 웃음소리 식별처리, 큰 소리로 외치는 소리 식별처리, 울음 소리 식별처리의 적어도 어느 식별처리 또는 인식 처리를 실행하여 이 식별처리 또는 인식 처리에 의거하여 메타데이터의 추출을 실행하는 구성인 것을 특징으로 하는 정보처리 장치.
제 1항에 있어서,

상기 정보처리 장치는, 또한,

콘텐츠를 구성하는 화상 및 음성 데이터에 의거한 메타데이터를 생성하는 메타데이터 생성부를 가지며,

이 메타데이터 생성부는,

콘텐츠를 구성하는 화상 또는 음성 데이터와, 사전(辭典)데이터와의 대조확인 처리에 의하여, 콘텐츠 베이스의 메타데이터를 생성하는 처리를 실행하는 구성이며, 상기 인터액션 메타데이터 생성부에 있어서 생성한 메타데이터에 의거하여 추정되는 콘텐츠 정보에 의거하여, 적용 사전을 선택하여 대조확인 처리를 실행하는 구성인 것을 특징으로 하는 정보처리 장치.
제 3항에 있어서,

상기 메타데이터 생성부는,

얼굴 식별처리, 일반물체 식별처리, 웃는 얼굴 식별처리, 말하는 사람 식별처리, 음성인식 처리, 웃음소리 식별처리, 큰 소리로 외치는 소리 식별처리, 울음소리 식별처리의 적어도 어느 식별처리 또는 인식 처리를 실행하여 이 식별처리 또 는 인식 처리에 의거하여 메타데이터의 추출을 실행하는 구성인 것을 특징으로 하는 정보처리 장치.
제 1항에 있어서,

상기 정보처리 장치는, 또한

정보처리 장치에 있어서 생성한 메타데이터를, 재생 콘텐츠의 재생 시간 정보에 대응 짓는 메타데이터 통합 처리를 실행하는 메타데이터 통합부를 가지는 것을 특징으로 하는 정보처리 장치.
제 1항에 있어서,

상기 제어부는,

상기 데이터 입력부에서의 입력정보와, 재생 콘텐츠 정보에 의거하여 상기 사용자에 대한 액션으로서 사용자에 대한 질문을 생성하는 처리를 실행하고,

상기 인터액션 실행부는, 상기 제어부가 결정한 질문을 상기 데이터 출력부를 통하여 출력하고,

상기 인터액션 메타데이터 생성부는, 상기 질문에 대한 사용자의 반응 또는 응답을, 상기 데이터 입력부를 통하여 취득하고, 이 취득 정보의 해석에 의거하여 재생 콘텐츠에 대응하는 메타데이터를 생성하는 처리를 실행하는 구성인 것을 특징으로 하는 정보처리 장치.
정보처리 장치에 있어서, 콘텐츠에 대응하는 메타데이터의 생성처리를 실행하는 정보처리 방법이며,

데이터 출력부에 있어서, 재생 콘텐츠를 출력하는 데이터 출력 스텝과,

데이터 입력부에 있어서, 재생 콘텐츠를 감상하는 사용자의 화상 또는 음성의 적어도 어느 데이터를 입력하는 데이터 입력 스텝과,

제어부에 있어서, 상기 데이터 입력부에서의 입력정보와, 재생 콘텐츠 정보에 의거하여 상기 사용자에 대한 액션을 결정하는 액션 결정 스텝과,

인터액션 실행부에 있어서, 상기 제어부가 결정한 액션을 실행하는 인터액션 실행 스텝과,

인터액션 메타데이터 생성부에 있어서, 상기 데이터 입력부를 통하여 취득하는 상기 인터액션 실행결과를 포함한 사용자의 화상 또는 음성의 적어도 어느 입력정보의 해석을 실행하고, 재생 콘텐츠에 대응하는 메타데이터를 생성하는 인터액션 메타데이터 생성 스텝과,

콘텐츠 제어부에 있어서, 상기 인터액션 메타데이터 생성부가 생성한 메타데이터를, 재생 콘텐츠에 대응하는 메타데이터로서 기록하는 기록 스텝을 가지는 것을 특징으로 하는 정보처리 방법.
제 7항에 있어서,

상기 인터액션 메타데이터 생성 스텝은,

얼굴 식별처리, 일반물체 식별처리, 웃는 얼굴 식별처리, 말하는 사람 식별 처리, 음성인식 처리, 웃음소리 식별처리, 큰 소리로 외치는 소리 식별처리, 울음소리 식별처리의 적어도 어느 식별처리 또는 인식 처리를 실행하여 이 식별처리 또는 인식 처리에 의거하여 메타데이터의 추출을 실행하는 스텝인 것을 특징으로 하는 정보처리 방법.
제 7항에 있어서,

상기 정보처리 방법은, 또한,

메타데이터 생성부에 있어서, 콘텐츠를 구성하는 화상 및 음성 데이터에 의거한 메타데이터를 생성하는 메타데이터 생성 스텝을 가지고,

이 메타데이터 생성 스텝은,

콘텐츠를 구성하는 화상 또는 음성 데이터와, 사전 데이터와의 대조확인 처리에 의하여, 콘텐츠 베이스의 메타데이터를 생성하는 처리를 실행하고, 상기 인터액션 메타데이터 생성부에 있어서 생성한 메타데이터에 의거하여 추정되는 콘텐츠 정보에 의거하여, 적용 사전을 선택하여 대조확인 처리를 실행하는 것을 특징으로 하는 정보처리 방법.
제 9항에 있어서,

상기 메타데이터 생성 스텝은,

얼굴 식별처리, 일반물체 식별처리, 웃는 얼굴 식별처리, 말하는 사람 식별처리, 음성인식 처리, 웃음소리 식별처리, 큰 소리로 외치는 소리 식별처리, 울음 소리 식별처리의 적어도 어느 식별처리 또는 인식 처리를 실행하여 이 식별처리 또는 인식 처리에 의거하여 메타데이터의 추출을 실행하는 스텝인 것을 특징으로 하는 정보처리 방법.
제 7항에 있어서,

상기 정보처리 방법은, 또한,

메타데이터 통합부에 있어서, 정보처리 장치에 있어서 생성한 메타데이터를, 재생 콘텐츠의 재생 시간 정보에 대응 짓는 메타데이터 통합 처리를 실행하는 스텝을 가지는 것을 특징으로 하는 정보처리 방법.
상기 액션 결정 스텝은,

상기 데이터 입력부에서의 입력정보와, 재생 콘텐츠 정보에 의거하여 상기 사용자에 대한 액션으로서 사용자에 대한 질문을 생성하는 처리를 실행하는 스텝이며,

상기 인터액션 실행 스텝은,

상기 제어부가 결정한 질문을, 상기 데이터 출력부를 통하여 출력하는 스텝이며,

상기 인터액션 메타데이터 생성 스텝은, 상기 질문에 대한 사용자의 반응 또는 응답을, 상기 데이터 입력부를 통하여 취득하고, 이 취득 정보의 해석에 의거하여 재생 콘텐츠에 대응하는 메타데이터를 생성하는 처리를 실행하는 스텝인 것을 특징으로 하는 정보처리 방법.
정보처리 장치에 있어서, 콘텐츠에 대응하는 메타데이터의 생성처리를 실행시키는 컴퓨터·프로그램이며,

데이터 출력부에 있어서, 재생 콘텐츠를 출력시키는 데이터 출력 스텝과,

데이터 입력부에 있어서, 재생 콘텐츠를 감상하는 사용자의 화상 또는 음성의 적어도 어느 데이터를 입력시키는 데이터 입력 스텝과,

제어부에 있어서, 상기 데이터 입력부에서의 입력정보와, 재생 콘텐츠 정보에 의거하여 상기 사용자에 대한 액션을 결정시키는 액션 결정 스텝과,

인터액션 실행부에 있어서, 상기 제어부가 결정한 액션을 실행시키는 인터액션 실행 스텝과,

인터액션 메타데이터 생성부에 있어서, 상기 데이터 입력부를 통하여 취득하는 상기 인터액션 실행결과를 포함한 사용자의 화상 또는 음성의 적어도 어느 입력정보의 해석을 실행하고, 재생 콘텐츠에 대응하는 메타데이터를 생성시키는 인터액션 메타데이터 생성 스텝과,

콘텐츠 제어부에 있어서, 상기 인터액션 메타데이터 생성부의 생성한 메타데이터를, 재생 콘텐츠에 대응하는 메타데이터로서 기록시키는 기록 스텝을 실행시키는 것을 특징으로 하는 컴퓨터·프로그램.