WO2006025272A1

WO2006025272A1 - 映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム

Info

Publication number: WO2006025272A1
Application number: PCT/JP2005/015519
Authority: WO
Inventors: Rui Ishiyama; Fumiko Itou
Original assignee: Nec Corporation
Priority date: 2004-09-01
Filing date: 2005-08-26
Publication date: 2006-03-09
Also published as: JPWO2006025272A1; JP4973188B2

Abstract

　静止画像または動画像である映像のシーンを分類する映像分類装置が開示される。映像入力部は、分類される対象となる映像を入力する。顔姿勢検出部は、入力された映像から顔姿勢データを検出する。ここで、顔姿勢データは、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部のデータである。参照顔姿勢記憶部は、分類の区分となる各種シーン毎に、シーンと対応させて顔姿勢データを参照顔姿勢データとして予め記憶している。顔姿勢評価部は、入力された映像から検出された顔姿勢データと、参照顔姿勢データとの類似度を計算し、類似度に基づいて、入力された映像のシーンを分類する。

Description

明細書

映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム

技術分野

[0001] 本発明は、静止画像または動画像である映像のシーンを分類する映像分類装置および映像分類プログラムと、映像のシーンの中力特定のシーンを検索する映像検索装置および映像検索プログラムに関する。

背景技術

[0002] 近年、映像データのデジタル化が進みデータ圧縮技術ゃ大容量の記憶装置が普及したことにより、大量の映像データを蓄積することが可能となり、そのなかから必要な映像を効率的に検索して閲覧する技術への需要が高まっている。

[0003] 従来から、画像の特徴をデータ化して画像特徴量により示し、画像特徴量を用いて各画像の類似性を判定し、また類似する画像を (例えば、蓄積されている画像の中から)検索する画像検索が行われており、そのためのさまざまな方法、装置、コンビュータプログラムが開発されている。

[0004] 従来の映像検索装置の一例が、特開 2001— 167110号公報（以下、特許文献 1と言う）に記載されている。図 1は、特許文献 1に記載されている映像検索装置の構成を示すブロック図である。顔画像取り込み部 121は、入力された登場人物リスト（映像に登場する人物のリスト）に基づいて、登場人物の顔画像を記録している顔データべース 120から顔画像を取り込み、この顔画像を顔データベース信号として出力する。特徴抽出部 122は、顔データベース信号カゝら特徴量を抽出し、特徴量信号を出力する。また、画像入力部 111は、検索対象の映像を読み込み、映像をフレーム毎にフレーム信号として出力する。顔検出部 112は、フレーム内の顔領域を検出して顔検出信号として出力する。登場人物識別部 123は、顔検出信号とフレーム信号とを用いて顔領域を切り出す。さら〖こ、特徴量信号を用いて、切り出された顔画像が、どの登場人物に最も類似するのかを求める。画像出力部 113は、インタフェース 118を介して、各フレームを登場人物毎にディスプレイ装置 119に表示させる。このような映像検索装置では、映像に登場する人物毎に画像を検索することができる。例えば、有名な俳優や政治家等が登場している場面の検索を素早く行うことができ、映像編集者や検索者の負担を軽減することができる。

[0005] しかし、特許文献 1に記載の映像検索装置では、特定の登場人物が写っているシーンを分類または検索することはできる力映像のシーンの内容によってシーンを分類または検索することができない。例えば、「人物 Aが写っているシーン」という登場人物を特定することによる検索は特許文献 1に記載の映像検索装置では可能だが、特許文献 1に記載の映像検索装置では登場人物が誰であるかに関係なぐ内容が類似しているシーンを検索することはできない。具体的には、例えば、一日に放送された出演者の異なる複数の-ユース番組映像から、キャスターとコメンテイタ一が会話しているシーンのみを検索することなどはできない。また、例えば、人物 Aが写っている映像の中から、さらに特定の内容のシーン (例えば、人物 Aが出演するドラマの中の重要なひとつのシーン）のみを絞り込み検索することなどはできない。この理由は、特許文献 1に記載の映像検索装置では、映像に写っている登場人物が誰であるかと、う情報のみに基づ、て映像を検索して、るためである。

発明の開示

[0006] 本発明の目的は、登場人物が誰であるかによらずに、映像のシーンの分類を行える映像分類装置および映像分類プログラムを提供することである。

[0007] 本発明の他の目的は、利用者が興味を持っているシーンと類似するシーンを検索できる映像検索装置および映像検索プログラムを提供することである。

[0008] 本発明による映像分類装置は、映像から登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして検出する顔姿勢検出手段と、顔姿勢データを用いて映像のシーンを分類する顔姿勢評価手段とを備えている。

[0009] シーンと密接に関連している顔姿勢データにより映像のシーンを分類するので、登場人物が誰であるかによらずに、映像のシーンの分類を行うことができる。

[0010] 映像分類装置は、顔姿勢検出手段によって検出された顔姿勢データと比較される顔姿勢データである参照顔姿勢データを予め各シーンと対応させて記憶する参照顔姿勢記憶手段をさらに備え、顔姿勢評価手段が、顔姿勢検出手段によって検出された顔姿勢データと、参照顔姿勢記憶手段が記憶する参照顔姿勢データとを比較することによって、顔姿勢データが検出された映像のシーンを分類するように構成されていてもよい。

[0011] 顔姿勢検出手段は、シーンを写し出す学習用映像力参照顔姿勢データを検出し

、参照顔姿勢データを、シーンと対応させて参照顔姿勢記憶手段に記憶させるように構成されていてもよい。

[0012] 映像分類装置は、特定のシーンを写し出す参照映像から、顔姿勢検出手段によつて検出された顔姿勢データと比較される顔姿勢データである参照顔姿勢データを検出する参照顔姿勢検出手段をさらに備え、顔姿勢評価手段が、顔姿勢検出手段によって検出された顔姿勢データと、参照顔姿勢検出手段によって検出された参照顔姿勢データとを比較することによって、顔姿勢データが検出された映像のシーンが特定のシーンと同種のシーンに分類される力否かを判定するように構成されて、てもよい。この構成によれば、シーン毎の参照顔姿勢データを予め定めて記憶しておく必要がない。

[0013] 映像分類装置は、分類される各シーンでの顔姿勢データが満たす条件を予め各シーンと対応させて記憶する参照条件記憶手段をさらに備え、顔姿勢評価手段が、顔姿勢検出手段によって検出された顔姿勢データが、参照条件記憶手段が記憶する条件のうちのどのシーンに対応する条件を満たしているかを判定することによって、顔姿勢データが検出された映像のシーンを分類するように構成されて、てもよ、。

[0014] 顔姿勢検出手段が、少なくとも一人の登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部のデータを、他の登場人物の顔に対する相対的な値として計算するように構成されていてもよい。この構成によれば、撮影される登場人物の位置関係が同様のシーンならば、そのシーンを撮影するカメラの位置等に依らず、同種のシーンとして分類することができる。

[0015] 顔姿勢検出手段が、映像が動画像である場合に、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部の時間経過に伴う変化量を顔姿勢データとして検出するように構成されて!ヽてもよヽ。 [0016] また、本発明による映像検索装置は、複数の静止画像または動画像を検索対象となる映像として記憶する映像記憶手段と、映像記憶手段が記憶する映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を用いて、映像のシーンの中から特定のシーンを検索する顔姿勢評価手段とを備えている。

[0017] 映像検索装置は、映像記憶手段から読み込まれた各映像から、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして検出する顔姿勢検出手段と、顔姿勢検出手段によって検出された顔姿勢データと比較される顔姿勢データである参照顔姿勢データを予め各シーンと対応させて記憶する参照顔姿勢記憶手段と、利用者の操作に応じてシーンを指定するシーン指定手段とをさらに備え、顔姿勢評価手段が、顔姿勢検出手段によって検出された顔姿勢データと、指定されたシーンに対応する参照顔姿勢データとを比較することによって、各映像のシーンの中から指定されたシーンを検索するように構成されていてもよい。この構成によれば、利用者が興味を持っているシーンと類似するシーンを検索できる。

[0018] 顔姿勢検出手段は、シーンを写し出す学習用映像力参照顔姿勢データを検出し、参照顔姿勢データを、シーンと対応させて参照顔姿勢記憶手段に記憶させるように構成されていてもよい。

[0019] 映像検索装置は、映像記憶手段が、各映像のシーンと対応させて、各映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして記憶し、映像記憶手段から読み込まれる各顔姿勢データと比較される顔姿勢データである参照顔姿勢データを予め各シーンと対応させて記憶する参照顔姿勢記憶手段と、利用者の操作に応じてシーンを指定するシーン指定手段とをさらに備え、顔姿勢評価手段が、映像記憶手段から読み込まれる各顔姿勢データと、指定されたシーンに対応する参照顔姿勢データとを比較することによって、各映像のシーンの中から指定されたシーンを検索するように構成されていてもよい。この構成によれば、利用者が興味を持っているシーンと類似するシーンを検索できる。 [0020] 映像検索装置は、映像記憶手段から読み込まれた各映像から、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして検出する顔姿勢検出手段と、特定のシーンを写し出す参照映像から、顔姿勢検出手段によって検出された顔姿勢データと比較される顔姿勢データである参照顔姿勢データを検出する参照顔姿勢検出手段とをさらに備え、顔姿勢評価手段が、顔姿勢検出手段によって検出された顔姿勢データと、参照顔姿勢検出手段によって検出された参照顔姿勢データとを比較することによって、各映像のシーンの中力特定のシーンを検索するように構成されていてもよい。この構成によれば、シーン毎の参照顔姿勢データを予め定めて記憶しておく必要がない。

[0021] 映像検索装置は、映像記憶手段が、各映像のシーンと対応させて、各映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして記憶し、特定のシーンを写し出す参照映像から、映像記憶手段から読み込まれる各顔姿勢データと比較される顔姿勢データである参照顔姿勢データを検出する参照顔姿勢検出手段をさらに備え、顔姿勢評価手段力映像記憶手段から読み込まれる各顔姿勢データと、参照顔姿勢検出手段によつて検出された参照顔姿勢データとを比較することによって、各映像のシーンの中から特定のシーンを検索するように構成されていてもよい。この構成によれば、シーン毎の参照顔姿勢データを予め定めて記憶しておく必要がない。

[0022] 映像検索装置は、映像記憶手段から読み込まれた各映像から、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして検出する顔姿勢検出手段と、検索する特定のシーンにおける顔姿勢データが満たす条件を記憶する参照条件記憶手段とをさらに備え、顔姿勢評価手段が、顔姿勢検出手段によって検出された顔姿勢データの中から、参照条件記憶手段が記憶する条件を満たす顔姿勢データを検索することによって、各映像のシーンの中力も特定のシーンを検索するように構成されて、てもよ、。

[0023] 映像検索装置は、参照条件記憶手段が、各シーンにおける顔姿勢データが満たす条件を、シーン毎に記憶し、利用者の操作に応じてシーンを指定するシーン指定手段をさらに備え、顔姿勢評価手段が、顔姿勢検出手段によって検出された顔姿勢データの中から、指定されたシーンに対応する条件を満たす顔姿勢データを検索することによって、各映像のシーンの中から指定されたシーンを検索するように構成されていてもよい。この構成によれば、利用者が興味を持っているシーンと類似するシーンを検索できる。

[0024] 映像検索装置は、映像記憶手段が、各映像のシーンと対応させて、各映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして記憶し、検索する特定のシーンにおける顔姿勢データが満たす条件を記憶する参照条件記憶手段をさらに備え、顔姿勢評価手段力映像記憶手段から読み込まれる各顔姿勢データの中から、参照条件記憶手段が記憶する条件を満たす顔姿勢データを検索することによって、各映像のシーンの中力も特定のシーンを検索するように構成されて、てもよ、。

[0025] 映像検索装置は、参照条件記憶手段が、各シーンにおける顔姿勢データが満たす条件を、シーン毎に記憶し、利用者の操作に応じてシーンを指定するシーン指定手段をさらに備え、顔姿勢評価手段が、映像記憶手段から読み込まれる各顔姿勢データの中から、指定されたシーンに対応する条件を満たす顔姿勢データを検索することによって、各映像のシーンの中から指定されたシーンを検索するように構成されていてもよい。この構成によれば、利用者が興味を持っているシーンと類似するシーンを検索できる。

[0026] 顔姿勢検出手段が、少なくとも一人の登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部のデータを、他の登場人物の顔に対する相対的な値として計算するように構成されていてもよい。この構成によれば、撮影される登場人物の位置関係が同様のシーンならば、そのシーンを撮影するカメラの位置等に依らず、同種のシーンとして検索することができる。

[0027] 顔姿勢検出手段が、映像が動画像である場合に、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部の時間経過に伴う変化量を顔姿勢データとして検出するように構成されて!ヽてもよヽ。

[0028] シーンと密接に関連している顔姿勢データにより映像のシーンを検索するので、登場人物が誰であるかによらずに、映像のシーンの検索を行うことができる。 [0029] 本発明は、映像をそのシーンの内容に応じて分類、認識する映像分類装置、指定されたシーン内容を含む映像をデータベースから検索する映像検索装置、大量の映像を録画、記憶しその中から利用者が必要な映像を自動的に再生、表示する映像再生表示装置、映像全体カゝら重要と考えられる部分のみを検索、抽出することで映像を要約する映像要約装置等に適用可能である。また、本発明によりシーンが分類、検索される映像は、例えば、テレビジョン放送や映画の映像であってもよいし、あるいは写真等の静止画像であってもよ、。

図面の簡単な説明

[0030] [図 1]映像検索装置の従来例のブロック図である。

[図 2]本発明の第 1の実施形態による映像分類装置を示すブロック図である。

[図 3]顔姿勢検出部の構成例を示すブロック図である。

[図 4]顔姿勢検出部による処理を示す説明図である。

[図 5]第 1の実施形態の映像分類装置の動作を示すフローチャートである。

[図 6]第 1の実施形態の第 1の変形例を示すブロック図である。

[図 7]第 1の実施形態の第 2の変形例を示すブロック図である。

[図 8]本発明の第 2の実施形態による映像検索装置を示すブロック図である。

[図 9]第 2の実施形態の第 1の変形例を示すブロック図である。

[図 10]第 2の実施形態の第 2の変形例を示すブロック図である。

[図 11]第 2の実施形態の第 3の変形例を示すブロック図である。

[図 12]本発明の第 3の実施形態による映像検索装置を示すブロック図である。

[図 13]第 3の実施形態の変形例を示すブロック図である。

[図 14]本発明の第 4の実施形態による映像分類装置のブロック図である。

[図 15]各種シーンの例を示す説明図である。

[図 16]本発明の第 5の実施形態による映像検索装置のブロック図である。

[図 17]準備処理における学習用映像や参照顔姿勢データの流れを示す説明図である。

[図 18]準備処理の処理経過の例を示すフローチャートである。

[図 19]本発明の第 6の実施形態による映像検索装置のブロック図である。発明を実施するための最良の形態

[0031] 第 1の実施の形態

図 2を参照すると、本発明の第 1の実施形態による映像分類装置は、映像入力部 1 1と顔姿勢検出部 12と顔姿勢評価部 13と参照顔姿勢記憶部 14とを備える。

[0032] 映像入力部 11は、シーン (場面）が分類される映像を入力する。映像入力部 11が入力する映像は、静止画像であっても動画像であってもよい。映像入力部 11は、映像が複数の異なるシーンを含んで、る場合に (例えば、動画像にぉ、てシーンが切り替わる場合に）、入力した映像をシーン毎に分割してもよい。顔姿勢検出部 12および顔姿勢評価部 13は、シーン毎に分割された映像に対して後述する処理を行ってもよい。なお、映像をシーン毎に分割する処理を、顔姿勢検出部 12が行ってもよい。また、映像入力部 11は、予めシーン毎に分割された映像を入力してもよい。なお、シーンの分割（分割点の検出）には様々な公知技術が利用可能であるが、一例として、特許第 2839132号公報に記載の技術を利用可能である。

[0033] 映像入力部 11は、放送される映像信号を受信する受信装置や、映像を記憶した映像記憶装置から映像を読み込む装置などによって実現される。

[0034] 顔姿勢検出部 12は、シーンが分類される映像から顔姿勢データを検出する。顔姿勢データは、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータ、またはこれらのデータのうちの一部のデータである。また、映像が動画像である場合には、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータ、またはこれらのデータのうちの一部の時間経過に伴う変化量も顔姿勢データに該当する。

[0035] 図 3に示すように、顔姿勢検出部 12は顔領域検出部 21と検出部 22とを含む。

[0036] 顔領域検出部 21は、入力された映像から人物の顔を写す部分領域 (以下、顔領域と記す。）を抽出する。これには様々な公知技術が利用可能であるが、一例として、特開 2003— 178304号公報に記載の技術が利用可能である。同公報の段落 0032には、肌色に指定した色と近い色を持つ画素を取り出して肌色領域を抽出し、さらに、髪に指定した色と近い色を持つ画素を取り出して髪領域を抽出することによって、顔領域を検出する技術が記載されている。なお、同公報に記載の技術では、画像から色情報を利用して顔領域を抽出し、その後顔パーツ抽出と人物認識を行うが、本発明においては人物認識を行う必要はなぐ顔領域を抽出するだけでよい。なお、特開

2003— 178304号公報に記載の技術以外の他の技術によって顔領域を抽出してもよい。

[0037] 顔領域検出部 21は、映像中に写される登場人物が複数存在する場合、複数の顔領域を抽出する。図 4 (a)は、入力された映像の例を示している。図 4 (b)は、顔領域検出部 21によって抽出された顔領域の例を示している。

[0038] 検出部 22は、顔領域検出部 21によって検出されたそれぞれの顔領域において、映像に写っている人物の顔の姿勢 (顔の位置や向き）を、人物が誰であるかに関係なく検出する。顔の姿勢を検出する処理には、顔の姿勢を検出する公知の方法を適用すればよい。例えば、一例として「石山塁、外 2名、 "3Dァピアランスモデルを用いた高速，高精度な顔姿勢推定"、 2004年電子情報通信学会総合大会予稿集、 D— 12— 99 (以下、文献 1と記す。；)」に記載の顔姿勢推定技術を利用可能である。この文献 1に記載の顔姿勢推定技術は、任意の姿勢および照明条件における顔画像を生成できる 3次元見えモデルを使って、顔画像から顔の 3次元的な位置'姿勢を求める技術である。文献 1に記載の技術が用いている「任意の姿勢および照明条件における顔画像を生成できる 3次元見えモデル」については、「石山塁、外 2名、 "3D物体表面上での見えモデル構築による姿勢と照明の変動に頑強な顔照合"、情報処理学会研究報告、 2003- CVIM- 139、 2003年 7月 4日、 pp. 61-68 (以下、文献 2と記す。 ) 」に記載されている。もし、映像における登場人物が誰であるかが既知であり、その人物の 3次元顔形状データを入手可能である場合には、文献 1および文献 2に記載の技術そのまま本発明に用いることができる。しかし、本発明では、登場人物が未知であり、登場人物の 3次元形状データも入手できない場合にも顔の位置と姿勢の推定を可能とするために次のような技術を利用する。すなわち、人間の顔の平均的な 3次元形状データと顔表面各点の輝度画像を用意しておき、これらを用、て文献 2に記載の技術により、平均的な顔の任意の姿勢 ·照明条件における画像を生成可能なモデル (平均顔モデル)を生成する。この平均顔モデルを文献 1に記載の技術にぉ、て利用することにより、映像における登場人物が未知であっても、顔の位置と姿勢を推定することが可能になる。

[0039] ここにあげた検出部 22に利用可能な技術はあくまで一例であり、他の技術によって顔の姿勢を検出してもよい。例えば、特開 2003— 281549号公報の段落 0038、 00 39に記載の技術によって顔の姿勢を検出してもよい。

[0040] 検出部 22は、入力された映像が動画像である場合には、各フレームの画像毎にこの姿勢推定処理を行い、時系列の顔姿勢データを得る。フレームは、動画像に含まれる静止画像である。例えば、 NTSC (National Television System Committee)の規格に従う映像信号では、 1秒間に 30の静止画像が伝達される。この例では、 1/3 0秒毎に伝送される各静止画像がフレームとなる。

[0041] また、検出部 22は、登場人物が複数存在する場合には、各登場人物の顔の姿勢をそれぞれ検出し、人数 (すなわち顔の数)と各登場人物の顔姿勢をまとめて顔姿勢データとする。また、検出部 22は、各登場人物の顔の大きさを検出し、顔の大きさのデータを顔姿勢データに含めてもよい。

[0042] 図 4 (C)は、検出部 22によって検出された顔姿勢データの例を示している。図 4 (C )において、座標 (xl, yl) , (x2, y2)は、顔の位置を示す。また、ベクトル Rl, R2は、顔の向きを示す。また、 zl , z2は、顔の大きさを示す値である。

[0043] また、入力される映像が動画像でシーン毎の分割がされて!/、な!/、場合、顔姿勢検出部 12に含まれる検出部 22がシーン分割処理を行うことも可能である。例えば、検出部 22が検出した時系列の姿勢データに対し、検出部 22がフレーム毎に差分を計算し、姿勢データの差分が大きいフレーム (一例として、登場人物の数が変化する、顔の位置や向きが大きく変化して、るフレーム）があればそこでシーンを分割する。顔姿勢評価部 13は、差分が大きく変化するフレームの直前までのフレームに対して、後述する処理 (後述の類似度を計算する処理)を行えばよ!、。

[0044] 参照顔姿勢記憶部 14は、分類の区分となる各種シーン毎に、シーンと対応させて顔姿勢データを予め記憶する記憶装置である。参照顔姿勢記憶部 14に記憶された顔姿勢データは、顔姿勢検出部 12で検出された顔姿勢データと比較され、顔姿勢検出部 12で検出された顔姿勢データがどの区分のシーンに分類するのかを判定するために用いられる。以下、シーンの分類対象となる映像から検出された顔姿勢データと比較される顔姿勢データを、シーンの分類対象となる映像から検出された顔姿勢データと区別して、参照顔姿勢データと記す。本実施形態において、参照顔姿勢データは、顔姿勢検出部 12により顔姿勢データが検出された映像のシーンを、どの区分のシーンに分類するのかを判定するために用いられる。

[0045] 参照顔姿勢記憶部 14に参照顔姿勢データを記憶させる態様として、例えば、以下の態様がある。分類の区分となる各種シーンそれぞれについて予め用意された映像 (以下、学習用映像と記す。）を入力する。そして、顔姿勢検出部 12が、学習用映像から参照顔姿勢データを検出し、学習用映像のシーンと対応させて参照顔姿勢記憶部 14に記憶させる。このとき、例えば、映像入力部 11が学習用映像を入力してもよい。この場合、映像入力部 11が、学習用映像入力手段としての役割も果たす。また、映像入力部 11とは別個に、学習用映像を入力する学習用映像入力手段を備えてヽてもよい。

[0046] また、学習用映像を入力して、学習用映像力も参照顔姿勢データを検出するのではなぐ予め人手によって各シーンに対応する参照顔姿勢データを決定し、シーンと対応させてその参照顔姿勢データを参照顔姿勢記憶部 14に記憶させてもよい。

[0047] 顔姿勢評価部 13は、シーンが分類される映像から検出された顔姿勢データと、参照顔姿勢記憶部 14に記憶されている各参照顔姿勢データとの類似度を計算する。顔姿勢評価部 13は、顔姿勢データが検出された映像 (すなわち入力された映像)のシーンを、その顔姿勢データとの類似度が最も高い参照顔姿勢データに対応するシーンとして分類する。そして、入力された映像のシーンが、どのシーンに分類されたのかを、シーン分類結果 51として出力する。シーン分類結果 51の出力態様として、例えば、分類した各シーンをディスプレイ装置に表示してもよい。また、例えば、分類した各シーンを記憶装置に記憶させてもよい。この場合、記憶させた各シーンを後で再生してディスプレイ装置に表示させてもよ!、。

[0048] 顔姿勢データのパラメータの設定と類似度の計算には様々な手法が利用可能である。一例としては、画像上での顔の位置 (X, y)と顔の大きさ zを要素とする 3次元べクトル Tと、顔の向きを表す 3次元方向ベクトル R (この例では顔向き方向を軸とした回転は無視する）を合わせて顔姿勢データとして用いる。映像の第 tフレーム (静止画像の場合パラメータ tは不要)の顔姿勢データのうち、顔の位置および大きさを要素とする 3次元ベクトルを T (t)と表す。また、映像の第 tフレームの顔姿勢データのうち、顔の向きを表す 3次元ベクトルを R (t)と表す。ただし、 T (t)、R (t)のノルムは 1である

。また、分類の区分となる各種シーンのうちの一つをシーン iとする。シーン iに対応する参照顔姿勢データのうち、顔の位置および大きさを要素とする 3次元ベクトルを T (t )と表す。シーン iに対応する参照顔姿勢データのうち、顔の向きを表す 3次元べタトルを Ri (t)と表す。この場合、入力された映像のシーンと、シーン iとの類似度は、例えば、以下の式 1によって得られる重み付き和の逆数として表すことができる。

[0049] [数 1]

£ia I T_q(t) - Ti(t) I +b ( 1 -R_q(t) - R.(t) ) } 式¹ 式 1において、 a, bは、それぞれ顔の位置および大きさと、顔の向きのどちらをどの程度重視して類似度を決定するのかを定める重み定数であり、ともに任意に定めることができる。なお、式 1における R (t) -R (t)は、ノルム 1のベクトルの内積なので— 1 力 + 1の値をとる。

[0050] ここでは、式 1の逆数を類似度とする場合を示したが、式 1は、類似度の算出するための式の一例である。顔の位置や向きのノメータと類似度の計算式は様々に変更可能である。すなわち、類似度の計算式は特定の式に限定されるわけではない。また、この例のように類似度を数値として計算するのではなぐ顔姿勢データを特徴量として用いることによりシーン分類毎のクラス分けを行うパターン認識の様々な手法を適用することも可能である。

[0051] 顔領域検出部 21と検出部 22とを含む顔姿勢検出部 12および顔姿勢評価部 13の処理は、例えば、プログラムに従って動作するコンピュータの CPUによって実行される。顔姿勢検出部 12および顔姿勢評価部 13の処理は、同一の CPUによって実行されていてもよい。

[0052] 図 5は、第 1の実施形態の映像分類装置の動作を示すフローチャートである。ここでは、予めシーン毎に分割された映像が入力され、入力された映像のシーンがどのシーンに分類されるのかを判定するものとする。ステップ 101に、映像入力部 11は、シーンの分類対象となる映像を映像分類装置にデータとして取り込む。ステップ 102に、顔姿勢検出部 12における顔領域検出部 21が、ステップ 101で入力された映像中に写っている登場人物の顔の領域を検出する。このとき、顔領域検出部 21は、登場人物が複数写っている場合には、各登場人物に対応させて複数の顔領域を検出する。ステップ 103に、顔姿勢検出部 12における検出部 22が、検出された各顔領域において、顔の位置および姿勢の検出を行う。このとき、顔の大きさのデータを検出してもよい。検出部 22は、以上により検出された登場人物の数、それぞれの顔の位置、向き、大きさ、あるいはこれらのデータのうちの一部を顔姿勢データとして顔姿勢評価部 13に渡す。顔姿勢評価部 13は、ステップ 104に、分類の区分となる各シーンに対応する参照顔姿勢データを参照顔姿勢記憶部 14から読み出す。続いて、顔姿勢評価部 13は、ステップ 105に、顔姿勢データをそれぞれの参照顔姿勢データと比較して類似度を計算し、参照顔姿勢データに対応する各シーンのうち、入力された映像のシーンと最も類似度が高いシーンを特定する。そして、顔姿勢評価部 13は、ステツプ 106に、入力された映像のシーンは、最も類似度が高いシーンとして特定されたシーンと同種のシーンであると分類し、入力された映像のシーンがどのシーンに分類されたのかを、シーン分類結果 51として出力する。

[0053] 本実施形態では、登場人物が誰であるかを認識するのではなく、映像シーンの内容と密接に関連している登場人物の顔姿勢データを検出しこれを用いて、入力された映像のシーンを分類する。したがって、映像中の登場人物が誰であるかに関係なく映像シーンの内容に基づいて映像を分類することができる。

[0054] 次に、第 1の実施形態の変形例について説明する。図 6は第 1の変形例を示すプロック図である。本変形例では、図 2に示す参照顔姿勢記憶部 14の代わりに、参照条件記憶部 15を備えている。参照条件記憶部 15は、分類の区分となる各種シーン毎に、シーンと対応させて、そのシーンでの顔姿勢データが満たす条件を記憶する記憶装置である。すなわち、参照顔姿勢記憶部 14が顔姿勢データを記憶するのに対し、参照条件記憶部 15は、各シーンでの顔姿勢データが満たす条件を記憶する。このような構成の場合、顔姿勢評価部 13は、ステップ 104で、各シーンでの顔姿勢データが満たす条件を参照条件記憶部 15から読み出す。そして、顔姿勢評価部 13は、ステップ 105で、検出部 22から渡された顔姿勢データ (すなわち入力された映像から検出された顔姿勢データ)が、どのシーンに対応する条件を満たしているかを判定する。すなわち、顔姿勢評価部 13は、ステップ 104で読み出した各条件のうち、顔姿勢データが満たしている条件を特定し、入力された映像のシーンは、その条件に対応するシーンに分類されると判定する。そして、入力された映像のシーンがどのシーンに分類されたのかを、シーン分類結果 51として出力する。

[0055] 図 7は第 2の変形例を示すである。本変形例は、図 2に示す参照顔姿勢記憶部 14 の代わりに、参照映像を入力する参照映像入力部 16と、参照映像から参照顔姿勢データを検出する参照顔姿勢検出部 17を備える。参照顔姿勢検出部 17は、顔姿勢検出部 12が分類対象となる映像から顔姿勢データを検出するのと同様に、参照映像力も参照顔姿勢データを検出すればよい。また、顔姿勢評価部 13は、シーンの分類対象となる映像カゝら検出された顔姿勢データと、参照映像カゝら検出された参照顔姿勢データとの類似度を判定する。そして、顔姿勢評価部 13は、その類似度に基づいて、分類対象となる映像のシーン力参照映像が写し出す特定のシーンと同種のシーンである力否かを判定する。類似度が、予め定められた閾値以上であるならば、分類対象となる映像のシーンを、参照映像が写し出す特定のシーンと同種のシーンとして分類する。類似度が閾値未満であるならば、分類対象となる映像のシーンを、参照映像が写し出す特定のシーンとは異なるシーンとして分類する。

[0056] この変形例では、予めシーン毎に参照顔姿勢データを記憶装置に記憶させておく必要がない。利用者は参照映像を入力するだけで、映像入力部 11に入力された映像のシーンを、参照映像と同種のシーンおよび参照映像とは異なるシーンに分類することがでさる。

[0057] なお、参照映像入力部 16は、例えば、参照映像を記憶した参照映像記憶装置から参照映像を読み込む装置などによって実現される。参照顔姿勢検出手段 17の処理は、例えば、プログラムに従って動作するコンピュータの CPUによって実行されるものでもよい。

[0058] また、第 1の実施形態において、登場人物が複数存在する場合、顔姿勢検出部 12 における検出部 22は、ある一人の登場人物の顔姿勢データを、他の登場人物に対する相対的な値として計算してもよい。例えば、二人の顔が互いに向き合つている場合、一人の顔から、もう一人の顔に向力ベクトルを、顔の向きとして計算してもよい。

[0059] 顔姿勢データを他の登場人物に対する相対的な値として計算する登場人物は、一人であってもよい。また、登場人物全員あるいは登場人物の一部について、顔姿勢データを他の登場人物に対する相対的な値として計算してもよい。

[0060] 登場人物の顔姿勢データを、他の登場人物に対する相対的な値として計算する態様として、例えば、以下のような態様が挙げられる。例えば、ある基準となる登場人物 (登場人物 Aとする。）を定めておき、他の全ての登場人物 (登場人物 B、 C、 D、 · · ·とする。）の顔姿勢データを、基準となる登場人物 Aに対する相対的な値として定めてもよい。また、顔姿勢データを計算する登場人物毎に、基準となる人物を変更してもよい。例えば、登場人物として、 A〜Dの 4人が映像中に表れるとする。このとき、登場人物 Aの顔姿勢データを計算するときには、登場人物 Bに対する相対的な値として計算し、登場人物 Cの顔姿勢データを計算するときには、登場人物 Dに対する相対的な値として計算してもよい。

[0061] 顔姿勢データのうち、顔の位置を他の登場人物 (基準となる登場人物）に対する相対的な値として計算する場合、例えば、基準となる人物の顔の位置が原点となる座標系における顔の位置座表を計算すればょヽ。

[0062] 顔姿勢データのうち、顔の大きさを他の登場人物 (基準となる登場人物）に対する相対的な値として計算する場合、例えば、基準となる人物の顔の大きさを 1 (1でなくてもよい。 )とした場合における顔の大きさを計算すればよい。

[0063] 顔姿勢データのうち、顔の向きを他の登場人物 (基準となる登場人物）に対する相対的な値として計算する場合、例えば、基準となる人物の顔の向きのベクトルと、顔姿勢データを計算している登場人物の顔の向きのベクトルとの角度を計算し、その角度を、顔の向きの相対的な値とすればよい。

[0064] 一般に、顔の位置や向き等を検出する場合、顔の位置や向き等は、登場人物とは独立なある特定の座標系における絶対的な値として計算される。この座標系は、例えば、撮影しているカメラの位置や向きを基準とする場合が多い。このような場合、例えば、撮影される登場人物の顔の向きが同じシーンであっても、登場人物を撮影する力メラの位置や向きが異なる場合には、異なる顔の位置や向きが検出されることになる。この結果、撮影される登場人物の顔の向きが同じシーンであっても、同種のシーンとして分類できない。

[0065] しかし、顔の位置、大きさ、および向きまたはこれらデータの一部を、他の登場人物の顔に対する相対的な値として計算する場合には、計算される値は、カメラの位置や向きに依らない。したがって、撮影される登場人物の位置関係が同様のシーンならば、そのシーンを撮影するカメラの位置等に依らず、同種のシーンとして分類することができる。この場合も基準とする人物を誰にするかによつて、計算値が異なってくるが、例えば、基準となる人物を任意に換えて計算し直せば、同種のシーンであるかどうかを用意に判定することができる。

[0066] 第 2の実施形態

第 2の実施形態による映像検索装置は、指定されたシーンと同種のシーンを写す映像を映像データベース力検索するもので、図 8に示すように、図 2に示す第 1の実施の形態の構成に加えて、映像データベース 18とシーン指定部 19とを備えている。

[0067] 映像データベース 18は、検索対象となる様々な映像を記憶する記憶装置である。

映像データベース 18が記憶する映像は、複数の静止画像や動画像である。

[0068] 映像入力部 11は、映像データベース 18に記憶されている検索対象となる各映像（映像群)を読み取り、顔姿勢検出部 12に渡す。

[0069] 顔姿勢検出部 12は、映像入力部 11を介して、映像データベース 18に記憶されている各検索対象映像を読み込む。そして、顔姿勢検出部 12は、読み込んだ各検索対象映像から、登場人物の顔姿勢データを検出する。顔姿勢検出部 12が、各検索対象映像から顔姿勢データを検出する処理は、第 1の実施の形態で示した顔姿勢検出部 12が顔姿勢データを検出する処理と同様である。顔姿勢検出部 12は、各映像から検出した各顔姿勢データ (顔姿勢データ群)を顔姿勢評価部 13に渡す。

[0070] シーン指定部 19は、各種シーンの中から、利用者の操作に応じてシーンを指定する。シーン指定部 19は、例えば、キーボードやマウス等のユーザインタフェース機器およびプログラムに従って動作する CPUによって実現されてもよい。 [0071] 参照顔姿勢記憶部 14は、第 1の実施の形態と同様に、各種シーン毎に、シーンと対応させて参照顔姿勢データを予め記憶する。参照顔姿勢記憶部 14に参照顔姿勢データを記憶させる態様も第 1の実施の形態と同様である。すなわち、学習用映像入力手段 (図示せず)が学習用映像を入力し、顔姿勢検出部 12が、学習用映像力も参照顔姿勢データを検出し、学習用映像のシーンと対応させて参照顔姿勢記憶部 14 に記憶させてもよい。また、予め人手によって各シーンに対応する参照顔姿勢データを決定し、シーンと対応させてその参照顔姿勢データを参照顔姿勢記憶部 14に記憶させてもよい。参照顔姿勢記憶部 14は、シーン指定部 19が指定したシーンに対応する参照顔姿勢データを顔姿勢評価部 13に渡す。この結果、顔姿勢評価部 13はシーン指定部 19が指定したシーンに対応する参照顔姿勢データを読み込む。

[0072] 顔姿勢評価部 13は、各検索対象映像から検出された各顔姿勢データ毎に、参照顔姿勢記憶部 14からの参照顔姿勢データとの類似度を計算する。顔姿勢評価部 13 による類似度の計算は、例えば、第 1の実施の形態で示した類似度の計算と同様に行えばよい。ただし、既に説明したように、類似度の計算に用いる式は特定の式に限定されるわけではない。顔姿勢評価部 13は、算出した類似度が予め定めた閾値以上の場合には、顔姿勢データが検出された映像のシーンは、指定されたシーンと同種のシーンであると判定する。また、算出した類似度が閾値未満の場合には、顔姿勢データが検出された映像のシーンは、指定されたシーンとは異なるシーンであると判定する。顔姿勢評価部 13は、各検索対象映像から検出された各顔姿勢データ毎に参照顔姿勢データとの類似度の判定を行い、指定されたシーンと同種のシーンと判定されたシーンを検索結果 52として出力する。検索結果 52の出力態様として、例えば、検索したシーンをディスプレイ装置に表示してもよい。また、例えば、検索したシーンを記憶装置に記憶させてもよい。この場合、記憶させたシーンを後で再生してディスプレイ装置に表示させてもょ、。

[0073] 本実施形態では、映像データベース 18に蓄積されて、る多種多様な映像から、利用者の指定した映像シーンについて予め設定された参照顔姿勢データと登場人物の顔の位置や姿勢が類似した映像を抽出するように構成されている。従って、映像シーンの内容が類似している映像を検索することができる。 [0074] なお、第 1の実施形態と同様に、顔姿勢検出部 12は、映像が動画像である場合には、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータ、またはこれらのデータのうちの一部の時間経過に伴う変化量を顔姿勢データとして顔姿勢評価部 13に渡してもよい。

[0075] また、登場人物が複数存在する場合、顔姿勢検出部 12は、ある一人の登場人物の顔姿勢データを、他の登場人物に対する相対的な値として計算してもよい。例えば、二人の顔が互いに向き合つている場合、一人の顔から、もう一人の顔に向力うべタトルを、顔の向きとして計算してもよい。登場人物の顔姿勢データを、他の登場人物に対する相対的な値として計算する場合、第 1の実施形態と同様に計算すればよい。

[0076] 既に説明したように、顔の位置、大きさ、および向きまたはこれらデータの一部を、他の登場人物の顔に対する相対的な値として計算する場合には、計算される値は、カメラの位置や向きに依らない。従って、撮影される登場人物の位置関係が同様のシーンならば、そのシーンを撮影するカメラの位置等に依らず、同種のシーンとして検索することができる。顔姿勢データを他の登場人物に対する相対的な値として計算しない場合には、撮影される登場人物の位置関係が同様のシーンであったとしても、カメラの位置や向きによって、異なるシーンと判定され、検索対象から外される場合がある。

[0077] 次に、第 2の実施形態の変形例について説明する。図 9は、第 2の実施形態の第 1 の変形例を示すブロック図である。図 8に示す構成では、映像データベース 18が各検索対象映像を記憶し、顔姿勢検出部 12がその各検索対象映像力も顔姿勢データを検出する。これに対し、図 9に示す変形例では、映像データベース 18は、各検索対象映像と対応させて、予め各索対象映像における顔姿勢データを記憶しておく。データ入力部 30は、映像データベース 18から、各検索対象映像に対応する顔姿勢データ (顔姿勢データ群)を読み取り、顔姿勢評価部 13に渡す。顔姿勢評価部 13は、データ入力部 30を介して、映像データベース 18に記憶されている顔姿勢データ群を読み込む。また、顔姿勢評価部 13は、既に説明した場合と同様に、シーン指定部 19が指定したシーンに対応する参照顔姿勢データを参照顔姿勢記憶部 14から読み込む。顔姿勢評価部 13は、各顔姿勢データ毎に、参照顔姿勢記憶部 14からの参照顔姿勢データとの類似度を計算する。以降の動作は、図 8に示す実施形態の場合と同様である。また、シーン指定部 19および参照顔姿勢記憶部 14の動作も、図 8に示す構成の場合と同様である。

[0078] 図 10は、第 2の実施形態の第 2の変形例を示すブロック図である。図 10に示す変形例は、図 8に示すシーン指定部 19および参照顔姿勢記憶部 14の代わりに参照条件記憶部 31を備える。本変形例における参照条件記憶部 31は、特定のシーンと対応させて、その特定のシーンでの顔姿勢データが満たす条件を記憶する記憶装置である。この構成の場合、顔姿勢評価部 13は、図 8に示す構成の場合と同様に、顔姿勢検出部 12から顔姿勢データ群を渡される。また、顔姿勢評価部 13は、参照条件記憶部 31から特定のシーンで顔姿勢データが満たす条件を読み込む。そして、顔姿勢評価部 13は、顔姿勢検出部 12から渡された顔姿勢データのうち、参照条件記憶部 31から読み込んだ条件を満足する顔姿勢データを抽出する。顔姿勢評価部 13は、その顔姿勢データが検出された映像のシーンを検索結果 52として出力する。

[0079] 図 11は、第 2の実施形態の第 3の変形例を示すブロック図である。本変形例は、図 10に示す変形例にシーン指定部 19を追加した構成となって、る。本変形例における参照条件記憶部 31は、各種シーン毎に、シーンと対応させて、そのシーンでの顔姿勢データが満たす条件を記憶する記憶装置である。シーン指定部 19は、各種シーンの中から、利用者の操作に応じてシーンを指定する。参照条件記憶部 31は、シーン指定部 19が指定したシーンに対応する条件を顔姿勢評価部 13に渡す。この結果、顔姿勢評価部 13は、シーン指定部 19が指定したシーンに対応する条件を読み込む。顔姿勢評価部 13は、顔姿勢検出部 12から渡された顔姿勢データのうち、参照条件記憶部 31から渡された条件を満足する顔姿勢データを抽出する。顔姿勢評価部 13は、その顔姿勢データが検出された映像のシーンを検索結果 52として出力する。

[0080] 図 10、図 11に示す変形例において、映像データベース 18、映像入力部 11および顔姿勢検出部 12の動作は、図 8に示す構成の場合と同様である。また、図 10、図 11 に示す変形例において、映像データベース 18が各検索対象映像と対応させて、予め各索対象映像の顔姿勢データを記憶していてもよい。そして、映像入力部 11および顔姿勢検出部 12の代わりに、図 9に示す構成と同様のデータ入力部 30を備えていてもよい。この場合、顔姿勢評価部 13は、データ入力部 30を介して、映像データベース 18に記憶されて、る顔姿勢データ群を読み込めばよ!/、。

[0081] 第 3の実施形態

第 3の実施形態は、入力した参照映像のシーンと同種のシーンを写す映像を映像データベース力も検索する映像検索装置で、図 12に示すように、図 8に示す第 2の実施の形態におけるシーン指定部 19および参照顔姿勢記憶部 14の代わりに、参照映像入力部 41と参照顔姿勢検出部 42とを備える。映像データベース 18、映像入力部 11、顔姿勢検出部 12および顔姿勢評価部 13の動作は、第 2の実施の形態と同様である。

[0082] 参照映像入力部 41は、特定のシーンを写し出す参照映像を入力する。参照映像入力部 41に入力される参照映像は利用者によって選択される。すなわち、利用者が検索した、と考える特定のシーンを写す映像が利用者に選択され、参照映像入力部 41には、利用者によってその参照映像が入力される。

[0083] 参照顔姿勢検出部 42は、参照映像入力部 41が入力した参照映像から、その参照映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータ、またはこれらのデータうちの一部のデータを参照顔姿勢データとして検出する。参照顔姿勢検出部 42が参照顔姿勢データを検出する処理は、顔姿勢検出部 12が顔姿勢データを検出する処理と同様である。参照顔姿勢検出部 42は、検出した参照顔姿勢データを顔姿勢評価部 13に渡す。

[0084] 映像入力部 11は、映像データベース 18に記憶されている検索対象となる各映像（映像群)を読み取り、顔姿勢検出部 12に渡す。顔姿勢検出部 12は、映像入力部 11 を介して、映像データベース 18に記憶されている映像群を読み込む。そして、顔姿勢検出部 12は、読み込んだ各検索対象映像から、登場人物の顔姿勢データを検出し、各顔姿勢データ (顔姿勢データ群)を顔姿勢評価部 13に渡す。

[0085] 顔姿勢評価部 13は、各検索対象映像から検出された顔姿勢データ毎に、参照顔姿勢検出部 21からの参照顔姿勢データとの類似度を計算する。この類似度の計算は、第 2の実施形態と同様である。顔姿勢評価部 13は、算出した類似度が予め定めた閾値以上の場合には、顔姿勢データが検出された映像のシーンは、参照映像が写し出す特定のシーンと同種のシーンであると判定する。また、算出した類似度が閾値未満の場合には、顔姿勢データが検出された映像のシーンは、参照映像が写し出す特定のシーンとは異なるシーンであると判定する。顔姿勢評価部 13は、各検索対象映像力検出された各顔姿勢データ毎に参照顔姿勢データとの類似度の判定を行い、参照映像が写し出す特定のシーンと同種のシーンと判定されたシーンを検索結果 52として出力する。検索結果 52の出力態様は、第 2の実施形態と同様である

[0086] 本実施形態では、利用者がある参照映像を装置に入力すると、それと同じシーンに相当する映像をデータベース力も検索するように構成されている。従って、予め、検索対象となるシーン分類を定義し、それぞれにつ!/、て参照顔姿勢データを設定しておく必要がなぐ利用者は検索したい映像シーンに相当する映像を入力するだけで、同様のシーン内容の映像を検索することができる。

[0087] なお、第 1の実施形態と同様に、顔姿勢検出部 12は、映像が動画像である場合には、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータ、またはこれらのデータうちの一部の時間経過に伴う変化量を顔姿勢データとして顔姿勢評価部 13に渡してもよい。

[0088] また、登場人物が複数存在する場合、顔姿勢検出部 12は、ある一人の登場人物の顔姿勢データを、他の登場人物に対する相対的な値として計算してもよい。例えば、二人の顔が互いに向き合つている場合、一人の顔から、もう一人の顔に向力うべタトルを、顔の向きとして計算してもよい。登場人物の顔姿勢データを、他の登場人物に対する相対的な値として計算する場合、第 1の実施形態と同様に計算すればよい。第 2の実施形態と同様に、顔姿勢データを他の登場人物に対する相対的な値として計算した場合には、撮影される登場人物の位置関係が同様のシーンならば、そのシーンを撮影するカメラの位置等に依らず、同種のシーンとして検索することができる。

[0089] 次に、第 3の実施形態の変形例について説明する。図 13は、第 3の実施形態の変形例を示すブロック図である。図 12に示す構成では、映像データベース 18が各検索対象映像を記憶し、顔姿勢検出部 12がその各検索対象映像力ゝら顔姿勢データを検出する。これに対し、図 13に示す変形例では、映像データベース 18は、各検索対象映像と対応させて、予め各索対象映像の顔姿勢データを記憶しておく。データ入力部 30は、映像データベース 18から、各検索対象映像に対応する顔姿勢データ (顔姿勢データ群)を読み取り、顔姿勢評価部 13に渡す。顔姿勢評価部 13は、データ入力部 30を介して、映像データベース 18に記憶されている顔姿勢データ群を読み込む。顔姿勢評価部 13は、顔姿勢データ毎に、参照顔姿勢検出部 42からの参照顔姿勢データとの類似度を計算する。以降の動作は、図 12に示す構成の場合と同様である。また、参照映像入力部 41および参照顔姿勢検出部 42の動作も、図 12に示す構成の場合と同様である。

[0090] 第 4の実施形態

第 4の実施形態として、テレビジョン放送で受信する番組映像を、シーンに応じて分類する映像分類装置について説明する。本実施形態は、図 6に示す第 1の実施形態の変形例に相当する。図 14を参照すると、第 4の実施形態の映像分類装置は、テレビジョン放送を受信する受信装置 61と、処理を行うコンピュータ 71と、参照条件記憶装置 81とを備える。

[0091] 受信装置 61は、図 6の映像入力部 11に相当する。参照条件記憶装置 81は、図 6 の参照条件記憶部 15に相当する。

[0092] コンピュータ 71は、 CPU72と、記憶装置 73と、受信装置 61とのインタフェース 74と、参照条件記憶装置 81とのインタフェース 75と、ディスプレイ装置 76とを備える。なお、ユーザが操作するユーザインタフェースとなるキーボードやマウス等を備えてヽてもよい。 CPU72は、記憶装置 73が記憶する映像分類プログラムに従って動作する。インタフェース 74は、受信装置 61から映像信号を受信する。インタフェース 75は、参照条件記憶装置 81との間でデータを送受信する。映像分類プログラムに従って動作する。

[0093] なお、図 14に示す構成は、映像分類装置の構成の一例であり、映像分類装置は他の構成であってもよい。例えば、受信した映像を処理するのではなぐ映像記憶装置 (不図示）に記憶 (例えば録画)されてヽる映像に対してシーン毎の分類処理を行う構成であってもよい。この場合、映像記憶装置が、映像入力部 11として機能し、記憶されている映像を読み込み、その映像をコンピュータ 71に送信する。このような構成の場合には、受信装置 61は不要である。また、映像記憶装置と参照条件記憶装置 81とを同一の装置として実現してもよい。

[0094] 受信装置 61は、テレビ放送信号を受信し、その信号をコンピュータで処理可能な映像のデジタルデータに変換し、コンピュータ 71に送信する。 CPU72は、その映像のデジタルデータを受信し、入力された映像のデジタルデータ力顔姿勢データを検出する。

[0095] 本例では、顔姿勢データを次のパラメータで記述する。ただし、顔姿勢データの記述の仕方は、以下に示す場合に限定されるわけではない。登場人物の顔の数を nとする。登場人物 jの顔の位置を座標により（X , y )と表す。同様に、登場人物 jの顔の大きさを zと表す。また、登場人物 jの顔の向きベクトルを Rと表す。他の登場人物（例えば jとする）のパラメータも添え字 jを用、て同様に表す。

[0096] 例えば、 CPU72は、映像の中で顔姿勢データのフレーム間変化量が予め定めた閾値を超えるフレームをカット点として検出し、シーン毎に映像を分割する。向きべクトルの変化量は、一例として 2つのベクトルのなす角度で評価する。それぞれの変化量の閾値の一例として、 nの変化量は 1、位置を表す X, yおよび顔の大きさを表す z の変化量はそれぞれ画像の大きさの 10%、顔の向きベクトルの変化量は 20° 等のように定めておく。この場合、登場人物の顔の数 nが 1変化したならば、その時点で映像を分割する。また、 X座標である X力ディスプレイ装置 76の表示領域の横幅の 10 %以上変化したならば、その時点で映像を分割する。同様に、 y座標である y力ディスプレイ装置 76の表示領域の縦方向の長さの 10%以上変化したならば、その時点で映像を分割する。また、顔の大きさを表す zが、ディスプレイ装置 76の表示領域の面積の 10%以上変化したならば、その時点で映像を分割する。なお、顔の大きさとして、顔の幅を用いてもよい。この場合、顔の幅 z 1S ディスプレイ装置 76の表示領域の横幅の 10%以上変化したならば、その時点で映像を分割する。また、顔の向きべタトルが 20° 以上変化したならば、その時点で映像を分割する。ここで挙げた分割の仕方は例示であり、映像の内容により、他の基準で映像を分割してもよい。

[0097] 参照条件記憶装置 81は、各シーンでの顔姿勢データが満たす条件を記憶する。本例では、「キャスターが-ユースを読み上げているシーン（以下、シーン Aと記す。 ) 」、「レポータによる現場からの報告シーン (以下、シーン Bと記す。）」、「キャスターとニュース解説者とのやりとりのシーン (以下、シーン Cと記す。；)」それぞれに対応させて、シーン A、シーン B、シーン Cでの顔姿勢データが満たす条件を記憶しているものとする。

[0098] 図 15 (a)、 15 (b)、 15 (c)はそれぞれシーン A、シーン B、シーン Cの例を示して!/ヽる。これらのシーンの映像は、出演者が誰であるかにかかわらず、それぞれ典型的な顔の位置（大きさがほぼ同じとなることもある。）と向きで画面に写っている。従って、映像力も登場人物の顔の位置と向きを抽出し (大きさも抽出してもよ、）、これを用いて映像を分類することにより、それぞれのシーンの内容に応じた分類が可能となる。顔姿勢データの満たす条件の一例を以下に示す。シーン Aは、登場人物が一人で顔がほぼ中央付近にあり顔の大きさは相対的に大きいという特徴がある。シーン Bは、顔が正面向きであるが大きさがシーン Aの場合に比べ半分程度であり画面の中央にないという特徴がある。シーン Cは、複数名の登場人物がおり顔の向きは互いに向き合っているという特徴がある。参照条件記憶装置 81は、これらの特徴を表す顔姿勢データの条件を記憶する。このような条件を表す条件式の一例として、例えば次式の条件を使用する。ただし、正面向きの向きベクトルを Fとする。また、顔の大きさは、顔の幅によって表し、ディスプレイ装置 76の表示領域の横幅を sと表すものとする。

[0099] シーン Aに対応する条件は、例えば、以下のように表される。なお、登場人物は一人なので、顔の向きのベクトル Rや顔の大きさを表す zは、添え字を付けずに表している。また、 cos—¹は逆余弦関数 (アークコサイン)である。

[0100] n= l かつ cos^_1 (F.R) < 20° かつ z>0. 2- s

シーン Bに対応する条件は、例えば、以下のように表される。

[0101] n= l かつ cos^_1 (F'R) < 20° かつ z< 0. 2' s

シーン Cに対応する条件は、例えば、以下のように表される。なお、登場人物のうちの一人を登場人物 iとし、他の一人を登場人物 jとする。

[0102] n≥2 かつある登場人物 i, jの組について cos—¹ (R .R )く 20°

i j

参照条件記憶装置 81が記憶する他の条件の例について説明する。上記のシーン A〜シーン Cの例において、映像が動画像の場合には、映像のシーンの各時刻での顔姿勢データが、シーン A〜シーン Cの条件を満たす力否かを判定することになる。映像が動画像の場合、各時刻毎の顔姿勢データについて判定するのではなぐ各フレーム間での顔姿勢データの変動量に基づ、てシーンを分類することもできる。以下、この場合について説明する。本例では、ボクシング等の格闘技の試合映像において、「膠着状態のシーン（以下、シーン Dと記す。）」、「KOシーンや決定的パンチが当たったシーン (以下、シーン Εと記す。）」、「距離をつめての打ち合いシーン (以下、シーン Fと記す。；)」それぞれに対応させて、シーン D、シーン E、シーン Fにおける条件を記憶する。この条件は、時間経過に伴う登場人物の顔姿勢データの変化量が満たす条件である。

[0103] シーン Dは、 2名の対戦者が互いに向き合って一定の距離を保っているシーンであり、両者の相対的な顔の向きが正反対で顔の大きさに対する両者の顔の距離がほぼ一定であるという特徴がある。シーン Eは、顔の向きが激しく変化し、お互いに向き合つた状態ではなくなるという特徴がある。シーン Fは、顔の大きさに対する両者の顔の距離が極めて小さくなるという特徴がある。以上のような条件を表す条件式の一例として、例えば次式の条件を使用する。ただし、シーン中で顔の大きい順に 2名の登場人物を抽出した場合における、時刻 tでの 2名の顔の距離を d(t)とする。また、顔の大きさの平均値を f (t)とし、 2名の登場人物の顔の向きの単位ベクトルをそれぞれ R1 (t) , R2 (t)とする。また、処理するフレーム間の時刻の差を pとする。例えば、 NTSC の規格に従う場合、各フレームについて条件を満たす力どうかを判定する場合には、 p = lZ30秒となる。また、いくつかのフレームを間引いて、数フレーム毎に条件を満たすかどうかを判定する場合には、 pは 1Z30秒よりも大きくなる。ここでは、 NTSCの規格に従う場合を例示した力動画像は NTSCの規格に従ってヽなくてもょヽ。

[0104] シーン Dに対応する条件は、例えば、以下のように表される。

[0105] 任意の時刻 t>pにおいて I d(t)— d(t— p) I <f (t)かつ d(t) > 3. O'f (t)かつ Rl (t) -R2 (t) < -cos20°

シーン Eに対応する条件は、例えば、以下のように表される。ただし、 max(m, n) は mと nのうち大き!/、方の値を表すものとする。 [0106] ある時刻 tについて、 max ( I cos^{_ 1} (Rl (t) 'Rl (t— p) ) | , | cos^_1 (R2 (t) -R2 ( t-p) ) I ) >45。かつ I cos^_1 (Rl (t) ,R2 (t) ) | > 30。

シーン Fに対応する条件は、例えば、以下のように表される。

[0107] 任意の時刻 t>pにおいて I d (t)— d (t— p) I <f (t)かつ d (t)く 3. O'f (t) 以上に示したシーン A〜シーン Cにおける条件やシーン D〜シーン Fにおける条件は例示であり、上記の条件に限定されるわけではない。より高精度な分類のために上記以外の条件を用いてもょ、。

[0108] CPU72は次に、入力された映像の各フレームの顔姿勢データ力上記に例示した各条件のうち、どの条件を満足しているかを判定し、各フレームがどのシーンに分類されるかを判定する。本実施形態では動画像を対象としているので、映像の各フレーム画像力検出された顔姿勢データに対し、例示した各条件のいずれかが成立するかどうかを判定し、映像に含まれる全フレームの 90%以上のフレーム画像の顔姿勢データが同一の条件を満たしている場合に、その映像全体を、その条件に応じたシーンに該当すると判定してもよい。ここで説明した条件式や判定基準となる全フレームに対する割合（90%)は例示であり、様々に変更可能である。

[0109] 本実施形態では、例えば、一日に放送される全ニュース番組映像に対して上述したシーン分類を自動的に行って、シーンの区分毎に各シーンを記憶装置に記憶させておいてもよい。そして、一日に起きた-ユースに関する様々な解説者のコメントを視聴した、場合には、シーン Cとした分類したシーンを再生してディスプレイ装置に表示させればよい。この結果、視聴者は、その日に放送される多数の-ユース番組をすベて見る必要がなぐキャスターと-ユース解説者とが話しているシーンのみを抜粋して効率的に視聴できるという効果が得られる。このとき、従来技術と異なり、その日の様々な番組に出演するアナウンサーや解説者が誰である力を知る必要がなぐ任意の解説者のコメント映像を視聴することができる。

[0110] 第 5の実施の形態

次に、第 5の実施形態として、録画されている映像カゝら特定のシーンを検索する映像検索装置について説明する。本実施形態の構成は、図 8の第 2の実施形態に相当する。図 16を参照すると、本実施形態による映像検索装置は、検索対象となる様々な映像を録画してある映像記憶装置 91と、処理を行うコンピュータ 71と、シーン毎に参照顔姿勢データを記憶している参照顔姿勢記憶装置 82とを備える。

[0111] 映像記憶装置 91は、映像記憶部 92と、映像読み取り部 93と、コンピュータ 71とのインタフェース 94とを備える。映像記憶部 92は、検索対象となる各種映像を記憶する。映像読み取り部 93は、映像記憶部 92が記憶する各種映像を読み取り、インタフエース 94を介して、読み取った映像の信号をコンピュータ 71に送信する。

[0112] コンピュータ 71は、 CPU72と、記憶装置 73と、映像記憶装置 91とのインタフェース 74と、参照顔姿勢記憶装置 82とのインタフェース 75と、ディスプレイ装置 76と、ユーザが操作するユーザインタフェースとなる操作部（例えば、キーボードやマウス等） 77 とを備える。 CPU72は、記憶装置 73が記憶する映像検索プログラムに従って動作する。インタフェース 74は、映像記憶装置 91から映像信号を受信する。インタフエ一ス 75は、参照顔姿勢記憶装置 82との間でデータを送受信する。

[0113] 本実施形態において、映像記憶部 92は、図 8中の映像データベース 18に相当する。映像読み取り部 93は、図 8中の映像入力部 11に相当する。参照顔姿勢記憶装置 82は、図 8中の参照顔姿勢記憶部 14に相当する。映像検索プログラムに従って動作する CPU72は、図 8中の顔姿勢検出部 12および顔姿勢評価部 13の処理を実行する。また、操作部 77および CPU72は、シーン指定部 19に相当する。

[0114] なお、図 16に示す構成は、映像検索装置の構成の一例であり、映像検索装置は他の構成であってもよい。例えば、コンピュータ 71が映像記憶装置 91に内蔵される構成であってもよい。

[0115] まず、準備処理として、予め参照顔姿勢記憶装置 82に分類対象となるシーンそれぞれの基準となる参照顔姿勢データを記憶させる処理を行っておく。本実施形態では、分類する各シーンに属する映像群を学習用映像群として予め収集し、この学習用映像群から検出した顔姿勢データを参照顔姿勢データとして記憶しておく方法の一例について説明する。ここでは、映像記憶装置 91が備える学習用映像入力部（図 16に図示せず。）が、外部カゝら学習用映像を入力するものとする。図 17は、準備処理における学習用映像や参照顔姿勢データの流れを示す説明図である。図 18は、準備処理の処理経過の例を示すフローチャートである。 [0116] 映像記憶装置 91の学習用映像入力部 97は、あるシーン (シーン Sとする。）を写

k

す学習用映像を入力し、その学習用映像の信号を、インタフェース 94を介して、コンピュータ 71に送信する。 CPU72は、インタフェース 74を介してその学習用映像の信号を受信する。このように CPU72は、学習用映像入力部 97からの信号を受信することにより、学習用映像を読み込む (ステップ 107)。

[0117] 顔姿勢検出部 12の処理を実行する CPU72は、学習用映像から参照顔姿勢データを検出する (ステップ 108)。ここで、学習用映像中の登場人物の顔の数を nとする

k

。また、ある登場人物 iの顔の位置を座標 (X , y )とする。また、この登場人物 iの顔

ki ki

の大きさを z とする。さらに、この登場人物の顔の向きを Rとする。 CPU72は、例え

ki ki

ば、シーン Sでの参照顔姿勢データを D = {η , X , y , z , R }と表して、参照顔

k k k ki ki ki ki 姿勢記憶装置 82に記憶させる (ステップ 109)。対象映像が動画像である場合、顔姿勢検出部 12として動作する CPU72は、各フレームまたは数フレームおきに顔姿勢データを検出し、時系列の参照顔姿勢データ D (t)を得る。そして、この参照顔姿勢

k

データを参照顔姿勢記憶部 14に記憶させる。

[0118] ここでは、シーン Skを写す学習用映像力も参照顔姿勢データを検出して記憶させる場合について説明したが、他のシーンを写す学習用映像からも同様に参照顔姿勢データを検出して、参照顔姿勢データを参照顔姿勢記憶装置 82に記憶させる。

[0119] 以上の準備処理を予め行うことで、シーン S等の各種シーンに属する映像を、映像

k

記憶部 92が記憶する様々な映像力検索できるようになる。

[0120] シーン指定部 19の処理を実行する CPU72は、利用者による操作部 77の操作に応じてシーンを指定する。例えば、 CPU72は、検索可能なシーンの区分の一覧をデイスプレイ装置 76に表示させ、操作 77の操作に応じて、一覧表示した区分の中から視聴者が検索しょうとするシーンに応じた区分を指定してもよい。ここでは、シーン S が指定されたものとして説明する。

[0121] シーン指定部 19の処理を実行する CPU72は、シーン Sを指定して、参照顔姿勢記憶装置 82にシーン Sに対応する参照顔姿勢データを要求する。参照顔姿勢記憶装置 82は、この要求に応じて、シーン Sに対応する参照顔姿勢データをコンピュータ 71に送信する。顔姿勢評価部 13の処理を実行する CPU72は、このシーン Sに対応する参照顔姿勢データを参照顔姿勢記憶装置 82から受信する。

[0122] 映像入力部 11として動作する映像読み取り部 93は、映像記憶部 92に記憶されている検索対象となる映像群をそれぞれ読み込み、コンピュータ 71に送信する。このとき、コンピュータ 71の CPU72は、第 4の実施の形態で示したのと同様に、映像記憶装置 91から受信する映像群における各カット点を検出し、映像群をそれぞれシーン毎に分割する。また、映像群をシーン毎に分割する処理を映像記憶装置 91が行い、映像記憶装置 91が、シーン毎に分割された各映像をコンピュータ 71に送信する構成であってもよい。

[0123] 顔姿勢検出部 12の処理を実行する CPU72は、映像記憶装置 91から読み込んだ各検索対象映像から、登場人物の顔姿勢データ (登場人物の人数 (顔の数)とそれぞれの顔の位置、大きさ、向き)を検出する。この顔姿勢データを Qと表す。検索対象映像が動画像である場合には、各フレーム又は数フレームおきに顔姿勢データを検出し、時系列の顔姿勢データ Q (t)を得る。

[0124] 顔姿勢評価部 13の処理を実行する CPU72は、検索対象映像から検出された顔姿勢データ Q (_t)と指定されたシーン Sの参照顔姿勢データ D (t)との類似度を計算する。計算した類似度が予め定めた閾値以上の場合、 CPU72は、顔姿勢データ Q ( t)を検出した映像のシーンがシーン Sと同じ内容であると判定する。また、類似度が閾値未満の場合、 CPU72は、顔姿勢データ Q (t)を検出した映像のシーンがシーン Sと異なる内容であると判定し、検索候補から外す。

[0125] 類似度の計算には様々なパターン認識の手法が利用可能である。例えば、式 1によって得られる重み付き和の逆数を類似度として求めてもよい。式 1における T (t)は

q

、顔姿勢データ Q (t)における顔の位置と大きさを表す 3次元ベクトルである。式 1における T (t)は、参照顔姿勢データ D (t)における顔の位置と大きさを表す 3次元べクトルである。 R (t)は、顔姿勢データ Q (t)における顔の向きを表す 3次元ベクトルである。 R (t)は、参照顔姿勢データ D (t)における顔の向きを表す 3次元ベクトルである。 a, bは、それぞれ顔の位置および大きさと、顔の向きのどちらをどの程度重視して類似度を決定するのかを定める重み定数であり、ともに任意に定めることができる。なお、登場人物が複数存在する場合には、式 1の値を各登場人物の顔姿勢データ毎に計算し、その結果を加算すればよい。ただし、式 1は、類似度を算出するための式の一例であり、類似度の算出に用いる式は特定の式に限定されない。

[0126] 他の類似度の計算方法の例を次に説明する。登場人物が複数である場合には、式

1の値を各登場人物の顔姿勢データについて加算することで類似度を計算してもよいが、複数の人物の顔の相対的な位置や向き、顔の大きさの関係を用いるとより高性能な検索が行える場合がある。このような場合の一例として、ニュース番組中でキャスターと解説者力 Sコメントを話し合うシーンの検索が挙げられる。このようなシーンでは、発言者の座る位置によって顔の位置や大きさは変化する力 S、互いに顔を向き合って話すので、相対的な顔の向きは反対向き（向かい合う）であるから相対的な顔の向きが反対向きのシーンとして検索できる。また、ドラマや映画のキスシーンなどでは、登場人物の絶対的な顔の位置や向きに関係なぐ 2名の人物の顔の向きが反対向きで相対的な距離が極めて小さいシーンとして検索できる。

[0127] このような場合に用いる類似度の計算の一例を示す。まず、検索対象映像の登場人物のうちから 2名を選択する。選択方法の一例としては、顔の大きさが最も大きい 2 名の人物を選択する方法が挙げられる。顔姿勢データ Q (t)における、この 2名の顔の間の距離を dQ (t)とする。顔姿勢データ Q (t)における、この 2名の顔の大きさの平均値を fQ (t)とする。また、登場人物 1に対する登場人物 2の顔の向きをベクトル RQ ( t)とする。また、参照顔姿勢データにおける、 2名（顔の大きさが最も大きい 2名）の顔の間の距離を dD (t)とする。参照顔姿勢データにおける、この 2名の顔の大きさの平均値を fD (t)とする。また、参照顔姿勢データにおける登場人物 1に対する登場人物 2の顔の向きをベクトル RD (t)とする。この場合、以下に示す式 2の値の逆数を類似度として利用可能である。

[0128] [数 2]

£ { a (d_Q(t) /f _Q(t) - d_D(t) /f _D(t) )²+ b ( I R_Q(t) -R_D(t) I ) } 式 2 以上に示した類似度の計算式はあくまで一例で、顔姿勢データ Q (t)や参照顔姿勢データ D (t)の特徴量の選び方や類似度の計算式は様々に変更可能であり、様々な距離関数やパターン認識手法を利用可能である。また、複数の類似度の計算式を組み合わせて計算を行うことももちろん可能である。

[0129] 顔姿勢評価部 13の処理を実行する CPU72は、映像記憶装置 91に記憶されている全ての映像（映像記憶装置 91から受信した全ての映像）に対して、顔姿勢データと参照顔姿勢データとの類似度を判定する処理を行う。そして、映像記憶装置 91から受信した映像のうち、類似度が高いと判定されるシーンの映像を検索結果とする。

[0130] 本実施形態では、映像記憶部 92 (映像データベース 18に相当）に蓄積されている多種多様な映像から、利用者の指定した映像シーンにっ、て予め設定された参照顔姿勢データと登場人物の顔の位置や姿勢が類似した映像を抽出するように構成されている。従って、映像シーンの内容が類似している映像を検索することができる。

[0131] 本実施形態では、参照顔姿勢記憶装置 82を備え、参照顔姿勢記憶装置 82が記憶する参照顔姿勢データに基づ、てシーンを検索する場合を示した。参照顔姿勢記憶装置 82の代わりに図 11に示す参照条件記憶部 31に相当する参照条件記憶装置を備えていてもよい。すなわち、各種シーンにおいて顔姿勢データが満たす条件を記憶する参照条件記憶部を備え、 CPU72は、指定されたシーンに対応する条件を満足する顔姿勢データを検索することにより、指定されたシーンと同様のシーンを検索してちょい。

[0132] 第 6の実施の形態

次に、第 6の実施形態として、予め定めたシーンを指定するのではなぐある映像を入力して、その映像のシーンと類似のシーン内容の映像を検索する映像検索装置の例を説明する。本実施形態の構成は、図 12に示す第 3の実施形態の構成に相当する。図 19を参照すると、本発明の第 3の実施形態による映像検索装置は、検索対象となる様々な映像を録画してある映像記憶装置 91と、処理を行うコンピュータ 71と、検索するシーンを指定するための参照映像を録画した映像記憶媒体 87が装着される参照映像入力装置 84とを備える。

[0133] 映像記憶装置 91の構成および動作は、図 16の第 5の実施形態における映像記憶装置 91と同様であるのでその説明を省略する。

[0134] 参照映像入力装置 84は、映像記憶媒体 87が装着される記憶媒体装着部 86と、映像読み取り部 88と、コンピュータ 71とのインタフェース 85とを備える。映像記憶媒体 8 7は、記憶媒体装着部 86に着脱可能な映像記憶媒体であり、例えば、ビデオカセットや DVD (Digital Versatile Disk)等を映像記憶媒体 87とすることができる。記憶媒体装着部 86には、視聴者が検索した、と考えるシーンを写す映像 (参照映像)を記憶した映像記憶媒体 87が装着される。映像読み取り部 88は、記憶媒体装着部 86に装着された映像記憶媒体 87が記憶する参照映像を読み取り、インタフェース 85を介して、参照映像の信号をコンピュータ 71に送信する。

[0135] コンピュータ 71は、 CPU72と、記憶装置 73と、映像記憶装置 91とのインタフェース 74と、参照映像入力装置 84とのインタフェース 75と、ディスプレイ装置 76とを備える。なお、ユーザが操作するユーザインタフェースとなるキーボードやマウス等を備えていてもよい。 CPU72は、記憶装置 73が記憶する映像検索プログラムに従って動作する。インタフェース 74は、映像記憶装置 91から映像信号を受信する。インタフエ一ス 75は、参照映像入力装置 84から参照映像の映像信号を受信する。

[0136] 本例において、映像記憶部 92は、図 12の映像データベース 18に相当する。映像読み取り部 93は、図 12の映像入力部 11に相当する。参照映像入力装置 84は、図 1 2の参照映像入力部 16に相当する。映像検索プログラムに従って動作する CPU72 は、図 12の顔姿勢検出部 12、参照顔姿勢検出部 42、および顔姿勢評価部 13の処理を行う。

[0137] なお、図 19に示す構成は、映像検索装置の構成の一例であり、映像検索装置は他の構成であってもよい。例えば、コンピュータ 71が映像記憶装置 91に内蔵される構成であってもよい。また、例えば、参照映像入力装置 84が映像記憶装置 91の一部として構成されて、てもよ、。

[0138] 記憶媒体装着部 86には、利用者が検索したい映像シーンの参照映像を記憶した映像記憶媒体 87が利用者によって装着される。映像読み取り部 88は、映像記憶媒体 87が記憶する参照映像を読み取り、インタフェース 85を介してコンピュータ 71に送信する。

[0139] 参照顔姿勢検出部 42の処理を実行する CPU72は、参照映像入力装置 84から読み込んだ参照映像から、その参照映像における登場人物の数 (顔の数)、各登場人物の顔の位置と大きさ、向きを時系列で検出し、参照顔姿勢データ D (t)として検出する。

[0140] 顔姿勢検出部 12の処理を実行する CPU72は、第 5の実施形態における CPU72 と同様に、映像記憶装置 91から読み込んだ各検索対象映像から、登場人物の数（顔の数)、各登場人物の顔の位置と大きさ、向きを表す顔姿勢データ Q (t)を読み込む。

[0141] 顔姿勢評価部 13の処理を実行する CPU72は、参照顔姿勢データ D (t)と、検索対象映像から検出された顔姿勢データ Q (t)の類似度を計算する。類似度の計算方法として、例えば、既に説明した計算方法を適用すればよい。また、既に説明したように、類似度の計算方法は、特定の計算方法に限定されない。 CPU72は、この類似度が予め定めた閾値以上の場合に検索対象映像が利用者の入力した参照映像と同一シーン内容の映像であると判定し、類似度が低い場合は検索対象映像を検索候補から外す。

[0142] 顔姿勢評価部 13の処理を実行する CPU72は、映像記憶装置 91に記憶されている全ての映像（映像記憶装置 91から受信した全ての映像）に対して、顔姿勢データと参照顔姿勢データとの類似度を判定する処理を行う。そして、映像記憶装置 91から受信した映像のうち、類似度が高いと判定されるシーンの映像を検索結果とする。

[0143] 本実施形態は、ある参照映像を記憶した映像記憶媒体 87が利用者によって参照映像入力装置 84に装着されると、その参照映像と同じシーンに相当する映像を映像記憶装置 91から検索するように構成されている。従って、予め、検索対象となるシーン分類を定義し、それぞれにつ、て予め参照顔姿勢データを設定しておく必要がなぐ利用者は検索したい映像シーンに相当する映像を入力するだけで、同様のシーン内容の映像を検索することができる。

Claims

請求の範囲

[1] 静止画像または動画像である映像のシーンを分類する映像分類装置であって、映像力登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして検出する顔姿勢検出手段と、

前記顔姿勢データを用いて前記映像のシーンを分類する顔姿勢評価手段とを備える映像分類装置。

[2] 前記顔姿勢検出手段によって検出された顔姿勢データと比較される顔姿勢データである参照顔姿勢データを予め各シーンと対応させて記憶する参照顔姿勢記憶手段をさらに備え、

前記顔姿勢評価手段は、前記顔姿勢検出手段によって検出された顔姿勢データと、前記参照顔姿勢記憶手段が記憶する参照顔姿勢データとを比較することによって、前記顔姿勢データが検出された映像のシーンを分類する

請求項 1に記載の映像分類装置。

[3] 前記顔姿勢検出手段は、シーンを写し出す学習用映像から前記参照顔姿勢データを検出し、前記参照顔姿勢データを、前記シーンと対応させて前記参照顔姿勢記憶手段に記憶させる、請求項 2に記載の映像分類装置。

[4] 特定のシーンを写し出す参照映像から、前記顔姿勢検出手段によって検出された顔姿勢データと比較される顔姿勢データである参照顔姿勢データを検出する参照顔姿勢検出手段をさらに備え、

前記顔姿勢評価手段は、前記顔姿勢検出手段によって検出された顔姿勢データと、前記参照顔姿勢検出手段によって検出された参照顔姿勢データとを比較することによって、前記顔姿勢データが検出された映像のシーンが前記特定のシーンと同種のシーンに分類される力否かを判定する

請求項 1に記載の映像分類装置。

[5] 分類される各シーンでの顔姿勢データが満たす条件を予め各シーンと対応させて記憶する参照条件記憶手段をさらに備え、

前記顔姿勢評価手段は、前記顔姿勢検出手段によって検出された顔姿勢データ力前記参照条件記憶手段が記憶する条件のうちのどのシーンに対応する条件を満たしているかを判定することによって、前記顔姿勢データが検出された映像のシーンを分類する

請求項 1に記載の映像分類装置。

[6] 前記顔姿勢検出手段は、少なくとも一人の登場人物の顔の位置、大きさおよび向きのデータの少なくとも一部のデータを、他の登場人物の顔に対する相対的な値として計算する、請求項 1から請求項 5のうちのいずれか 1項に記載の映像分類装置。

[7] 前記顔姿勢検出手段は、前記映像が動画像である場合に、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部の時間経過に伴う変化量を顔姿勢データとして検出する、請求項 1から請求項 6のうちのいずれか 1項に記載の映像分類装置。

[8] 静止画像または動画像である映像のシーンの中カゝら特定のシーンを検索する映像検索装置であって、

複数の静止画像または動画像を検索対象となる映像として記憶する映像記憶手段と、

前記映像記憶手段が記憶する映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を用いて、前記映像のシーンの中から特定のシーンを検索する顔姿勢評価手段と

を備える映像検索装置。

[9] 前記映像記憶手段から読み込まれた各映像から、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして検出する顔姿勢検出手段と、

前記顔姿勢検出手段によって検出された顔姿勢データと比較される顔姿勢データである参照顔姿勢データを予め各シーンと対応させて記憶する参照顔姿勢記憶手段と、

利用者の操作に応じてシーンを指定するシーン指定手段と

をさらに備え、

前記顔姿勢評価手段は、前記顔姿勢検出手段によって検出された顔姿勢データと、前記シーン指定手段によって指定されたシーンに対応する参照顔姿勢データとを比較することによって、前記各映像のシーンの中から指定されたシーンを検索する請求項 8に記載の映像検索装置。

[10] 前記顔姿勢検出手段は、シーンを写し出す学習用映像力参照顔姿勢データを検出し、前記参照顔姿勢データを、前記シーンと対応させて前記参照顔姿勢記憶手段に記憶させる、請求項 9に記載の映像検索装置。

[11] 前記映像記憶手段は、各映像のシーンと対応させて、各映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を前記顔姿勢データとして記憶し、

前記映像記憶手段から読み込まれる各顔姿勢データと比較される顔姿勢データである参照顔姿勢データを予め各シーンと対応させて記憶する参照顔姿勢記憶手段と利用者の操作に応じてシーンを指定するシーン指定手段と

をさらに備え、

前記顔姿勢評価手段は、前記映像記憶手段から読み込まれる各顔姿勢データと、前記シーン指定手段によって指定されたシーンに対応する参照顔姿勢データとを比較することによって、前記各映像のシーンの中から指定されたシーンを検索する請求項 8に記載の映像検索装置。

[12] 前記映像記憶手段から読み込まれた各映像から、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を前記顔姿勢データとして検出する顔姿勢検出手段と、

特定のシーンを写し出す参照映像から、前記顔姿勢検出手段によって検出された顔姿勢データと比較される顔姿勢データである参照顔姿勢データを検出する参照顔姿勢検出手段と

をさらに備え、

前記顔姿勢評価手段は、前記顔姿勢検出手段によって検出された顔姿勢データと、前記参照顔姿勢検出手段によって検出された参照顔姿勢データとを比較することによって、前記各映像のシーンの中力前記特定のシーンを検索する

請求項 8に記載の映像検索装置。

[13] 前記映像記憶手段は、各映像のシーンと対応させて、各映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を前記顔姿勢データとして記憶し、

特定のシーンを写し出す参照映像から、前記映像記憶手段から読み込まれる各顔姿勢データと比較される顔姿勢データである参照顔姿勢データを検出する参照顔姿勢検出手段をさらに備え、

前記顔姿勢評価手段は、前記映像記憶手段から読み込まれる各顔姿勢データと、前記参照顔姿勢検出手段によって検出された参照顔姿勢データとを比較することによって、前記各映像のシーンの中力前記特定のシーンを検索する

請求項 8に記載の映像検索装置。

[14] 前記映像記憶手段から読み込まれた各映像から、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を前記顔姿勢データとして検出する顔姿勢検出手段と、

検索する特定のシーンにおける顔姿勢データが満たす条件を記憶する参照条件記憶手段と

をさらに備え、

前記顔姿勢評価手段は、前記顔姿勢検出手段によって検出された顔姿勢データの中から、前記参照条件記憶手段が記憶する条件を満たす顔姿勢データを検索することによって、前記各映像のシーンの中力前記特定のシーンを検索する

請求項 8に記載の映像検索装置。

[15] 前記参照条件記憶手段は、各シーンにおける顔姿勢データが満たす条件を、シーン毎に記憶し、

利用者の操作に応じてシーンを指定するシーン指定手段をさらに備え、前記顔姿勢評価手段は、前記顔姿勢検出手段によって検出された顔姿勢データの中から、指定されたシーンに対応する条件を満たす顔姿勢データを検索することによって、各映像のシーンの中から前記シーン指定手段によって指定されたシーンを検索する

請求項 14に記載の映像検索装置。

[16] 前記映像記憶手段は、各映像のシーンと対応させて、各映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして記憶し、

検索する特定のシーンにおける顔姿勢データが満たす条件を記憶する参照条件記憶手段をさらに備え、

前記顔姿勢評価手段は、前記映像記憶手段から読み込まれる各顔姿勢データの中から、前記参照条件記憶手段が記憶する条件を満たす顔姿勢データを検索することによって、前記各映像のシーンの中力前記特定のシーンを検索する

請求項 8に記載の映像検索装置。

[17] 前記参照条件記憶手段は、各シーンにおける顔姿勢データが満たす条件を、シーン毎に記憶し、

利用者の操作に応じてシーンを指定するシーン指定手段をさらに備え、前記顔姿勢評価手段は、前記映像記憶手段から読み込まれる各顔姿勢データの中から、前記シーン指定手段によって指定されたシーンに対応する条件を満たす顔姿勢データを検索することによって、各映像のシーンの中から指定されたシーンを検索する

請求項 16に記載の映像検索装置。

[18] 顔姿勢検出手段は、少なくとも一人の登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部のデータを、他の登場人物の顔に対する相対的な値として計算する、請求項 9, 10, 12, 14,および 15のうちのいずれか 1項に記載の映像検索装置。

[19] 前記顔姿勢検出手段は、映像が動画像である場合に、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部の時間経過に伴う変化量を顔姿勢データとして検出する、請求項 9, 10, 12, 14, 15,および 18 のうちのいずれか 1項に記載の映像検索装置。

[20] コンピュータに静止画像または動画像である映像のシーンを分類させるための映像分類プログラムであって、

映像力登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして検出する第 1の命令セットと、前記顔姿勢データを用いて前記映像のシーンを分類する第 2の命令セットとを備える映像分類プログラム。

[21] 前記第 2の命令ステップは、前記第 1の命令セットで検出された顔姿勢データと、該顔姿勢データと比較される顔姿勢データである参照顔姿勢データを予め各シーンと対応させて記憶する参照顔姿勢記憶装置に記憶されている参照顔姿勢データとを比較することによって、前記顔姿勢データが検出された映像のシーンを分類する命令セットを含む、請求項 20に記載の映像分類プログラム。

[22] 前記第 1の命令セットは、シーンを写し出す学習用映像力参照顔姿勢データを検出し、前記参照顔姿勢データを、前記シーンと対応させて参照顔姿勢記憶装置に記憶させる命令セットを含む、請求項 21に記載の映像分類プログラム。

[23] 特定のシーンを写し出す参照映像から、前記第 1の命令セットで検出された顔姿勢データと比較される顔姿勢データである参照顔姿勢データを検出する第 3の命令セットをさらに備え、

前記第 2の命令セットは、前記第 1の命令セットで検出された顔姿勢データと、前記第 3の命令セットで検出された参照顔姿勢データとを比較することによって、前記前記顔姿勢データが検出された映像のシーンが前記特定のシーンと同種のシーンに分類されるカゝ否かを判定する命令セットを含む、請求項 20に記載の映像分類プログラム。

[24] 前記第 2の命令セットは、前記第 1の命令セットで検出された顔姿勢データが、分類される各シーンでの顔姿勢データが満たす条件を予め各シーンと対応させて記憶する参照条件記憶装置に記憶されている条件のうちのどのシーンに対応する条件を満たしているかを判定することによって、前記顔姿勢データが検出された映像のシーンを分類する命令セットを含む、請求項 20に記載の映像分類プログラム。

[25] 前記第 1の命令セットは、少なくとも一人の登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部のデータを、他の登場人物の顔に対する相対的な値として計算する命令セットを含む、請求項 20から請求項 24のうちのいずれか 1項に記載の映像分類プログラム。

[26] 前記第 1の命令セットは、映像が動画像である場合に、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部の時間経過に伴う変化量を顔姿勢データとして検出する命令セットを含む、請求項 20から請求項 25 のうちのいずれか 1項に記載の映像分類プログラム。

[27] コンピュータに、静止画像または動画像である映像のシーンの中力特定のシーンを検索させるための映像検索プログラムであって、

複数の静止画像または動画像を検索対象となる映像として記憶する映像記憶装置に記憶されている、映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を用いて、前記映像のシーンの中から特定のシーンを検索する第 1の命令セットを備える映像検索プログラム。

[28] 前記映像記憶装置から読み込まれた各映像から、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして検出する第 2の命令セットと、

シーンを指定する第 3の命令セットと、

をさらに備え、

前記第 1の命令セットは、前記第 2の命令セットで検出された顔姿勢データと比較される顔姿勢データである参照顔姿勢データを予め各シーンと対応させて記憶する参照顔姿勢記憶装置が記憶している参照顔姿勢データのうち、指定されたシーンに対応する参照顔姿勢データと、前記第 2の命令セットで検出された顔姿勢データとを比較することによって、前記各映像のシーンの中から指定されたシーンを検索する命令セットを含む

請求項 27に記載の映像検索プログラム。

[29] 前記第 2の命令セットは、シーンを写し出す学習用映像力参照顔姿勢データを検出し、前記参照顔姿勢データを、前記シーンと対応させて前記参照顔姿勢記憶装置に記憶させる命令セットを含む、請求項 28に記載の映像検索プログラム。

[30] シーンを指定する第 3の命令セットをさらに備え、

前記第 1の命令セットは、各映像のシーンと対応させて、各映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして記憶している映像記憶装置から読み込まれる各顔姿勢データと、前記各顔姿勢データと比較される顔姿勢データである参照顔姿勢データを予め各シーンと対応させて記憶する参照顔姿勢記憶装置が記憶している参照顔姿勢データのうち、指定されたシーンに対応する参照顔姿勢データとを比較することによつて、前記各映像のシーンの中から指定されたシーンを検索する命令セットを含む請求項 27に記載の映像検索プログラム。

[31] 前記映像記憶装置から読み込まれた各映像から、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして検出する第 2の命令セットと、

特定のシーンを写し出す参照映像から、前記第 2の命令セットで検出された顔姿勢データと比較される顔姿勢データである参照顔姿勢データを検出する第 4の命令セッ卜と

をさらに備え、

前記第 1の命令セットは、前記第 2の命令セットで検出された顔姿勢データと、前記第 4の命令セットで検出された参照顔姿勢データとを比較することによって、前記各映像のシーンの中力前記特定のシーンを検索する命令セットを含む

請求項 27に記載の映像検索プログラム。

[32] 各映像のシーンと対応させて、各映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして記憶する映像記憶装置が記憶している顔姿勢データと比較される顔姿勢データである参照顔姿勢データを、特定のシーンを写し出す参照映像力検出する第 5の命令セットをさらに備え、

第 1の命令セットは、前記映像記憶装置から読み込まれる各顔姿勢データと、前記第 5の命令セットで検出された参照顔姿勢データとを比較することによって、前記各映像のシーンの中力前記特定のシーンを検索する命令セットを含む

請求項 27に記載の映像検索プログラム。

[33] 前記映像記憶装置から読み込まれた各映像から、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして検出する第 2の命令セットをさらに備え、

前記第 1の命令セットは、前記第 2の命令セットで検出された顔姿勢データの中から、検索する特定のシーンにおける顔姿勢データが満たす条件を記憶する参照条件記憶装置が記憶している前記条件を満たす顔姿勢データを検索することによって、前記各映像のシーンの中から前記特定のシーンを検索する命令セットを含む請求項 27に記載の映像検索プログラム。

[34] シーンを指定する第 3の命令セットをさらに備え、

前記第 1の命令セットは、前記参照条件記憶装置が記憶する条件のうち指定されたシーンに対応する条件を満たす顔姿勢データを、第 2の命令セットで検出された顔姿勢データの中力検索することによって、各映像のシーンの中力指定されたシーンを検索する命令セットを含む

請求項 33に記載の映像検索プログラム。

[35] 前記第 1の命令セットは、各映像のシーンと対応させて、各映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータうちの少なくとも一部を顔姿勢データとして記憶する映像記憶装置が記憶してヽる顔姿勢データの中から、検索する特定のシーンにおける顔姿勢データが満たす条件を記憶する参照条件記憶装置が記憶している前記条件を満たす顔姿勢データを検索することによって、前記各映像のシーンの中から前記特定のシーンを検索する命令セットを含む、請求項 27に記載の映像検索プログラム。

[36] シーンを指定する第 3の命令セットをさらに備え、

前記第 1の命令セットは、前記映像記憶装置が記憶する顔姿勢データの中から、前記参照条件記憶装置が記憶する条件のうち指定されたシーンに対応する条件を満たす顔姿勢データを検索することによって、各映像のシーンの中から指定されたシーンを検索する命令セットを含む

請求項 35に記載の映像検索プログラム。

[37] 前記第 2の命令セットは、少なくとも一人の登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部のデータを、他の登場人物の顔に対する相対的な値として計算する命令セットを含む、請求項 28, 29, 30, 33,および 34のうちのいずれ力 1項に記載の映像検索プログラム。

前記第 2の命令セットは、映像が動画像である場合に、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部の時間経過に伴う変化量を顔姿勢データとして検出する命令セットを含む、請求項 28, 29, 31, 33, 34,および 37のうちのいずれか 1項に記載の映像検索プログラム。