WO2010109943A1

WO2010109943A1 - サムネイル生成装置及びサムネイル生成方法

Info

Publication number: WO2010109943A1
Application number: PCT/JP2010/051100
Authority: WO
Inventors: 加藤　大作
Original assignee: 日本ビクター株式会社
Priority date: 2009-03-25
Filing date: 2010-01-28
Publication date: 2010-09-30
Also published as: CN102362491B; US20120020643A1; KR20120001765A; US8849093B2; EP2413597B1; EP2413597A1; EP2413597A4; CN102362491A; JP4640515B2; JP2010226572A; KR101296152B1

Abstract

サムネイル生成装置は、動画像抽出部、縮小拡大率算出部、及び縮小拡大部を備える。動画像抽出部は、動画像に含まれる人物の顔を検出して生成された顔検出情報から得られる顔検出領域の数及び面積に基づいて、動画像から、この動画像の再生時間より短い時間分の動画像を抽出する。縮小拡大率算出部は、動画像抽出部により抽出された動画像の顔検出情報に基づいて、所定の時間間隔毎に顔検出領域を積分し、この積分結果に基づいて、動画像抽出部により抽出された動画像に含まれる人物の顔が大きく表示されるように、動画像抽出部により抽出された動画像の縮小拡大率を算出する。縮小拡大部は、縮小拡大率算出部により算出された縮小拡大率に基づいて、動画像抽出部により抽出された動画像を縮小又は拡大した動画サムネイルを生成する。

Description

サムネイル生成装置及びサムネイル生成方法

　本発明は、再生装置で再生される動画像の内容をユーザに把握させるための動画サムネイルを生成するサムネイル生成装置及びサムネイル生成方法に関する。

　撮影、記録した動画像を構成する複数のフレーム又はフィールドのうちの任意の１枚を抽出して縮小した静止画サムネイルを、記録されている動画像毎や、これらの動画像における所定の区切り（チャプタ）毎に生成し、これら生成した複数の静止画サムネイルを、本体に具備するモニター用の液晶パネルにサムネイル一覧画面として表示させる静止画サムネイル表示機能を有するビデオカメラがよく知られている。

　また、静止画サムネイルに対応した画像の内容をユーザに把握させやすくするための技術として、例えば、特許文献１には、撮影した静止画像から人物の顔を検出し、その検出した人物の顔に合わせて、撮影した静止画像を所定のサイズに縮小した静止画サムネイルを生成する画像処理装置が提案されている。

　しかしながら、特許文献１に記載の技術は、通常の静止画サムネイル表示機能に比較すれば、静止画サムネイルに対応した画像の内容をユーザに把握させやすくなるものの、表示されるサムネイルは静止画であるので、その静止画サムネイルに対応した画像が動画像の場合、利用者は、その動画像の内容を把握できない場合があった。

　一方、ＨＤＤ（Hard Disk Drive）レコーダーやＤＶＤ（Digital Versatile Disk）レコーダーでは、サムネイル一覧画面において、ユーザ操作等によって１つの静止画サムネイルにフォーカス（ハイライト枠）があてられたとき、その静止画サムネイルに換えて動画サムネイルを表示するモーションサムネイル機能を有していることが多い。このモーションサムネイル機能は、選択された静止画サムネイルに対応する所定期間の動画像を再生し、この再生した動画像を静止画サムネイルと同じサイズに縮小させた動画サムネイルを生成し、この生成した動画サムネイルを、静止画サムネイル一覧画面において対応する静止画サムネイルの領域に表示する機能である。利用者はこのモーションサムネイル機能によって表示された動画サムネイルを見ることにより、動画像の内容を把握し易くなる。

特開２００５－２６９５６３号公報

　ここで、ビデオカメラにも、このモーションサムネイル機能を適用することが考えられる。

　しかしながら、ビデオカメラにモーションサムネイル機能を適用した場合、本体に具備するモニター用の液晶パネルの画面は比較的小さいので、サムネイル一覧画面に表示される動画サムネイルも小さくなってしまう。従って、利用者はその動画サムネイルの内容、つまりその動画サムネイルに対応する動画像の内容を把握することが困難であった。

　本発明は、上記課題に鑑みてなされたものであり、その目的は、利用者に、記録再生装置に記録されている動画像の内容を把握させやすい動画サムネイルを生成し表示するサムネイル生成装置及びサムネイル生成方法を提供することにある。

　上記目的を達成するため、本発明に係るサムネイル生成装置の第１の特徴は、動画像の第１の所定期間内において、前記第１の所定期間よりも短い第２の所定期間毎に、前記動画像を構成する各画像を抽出する動画像抽出部と、抽出された各画像に含まれる人物の顔の領域を積分し、この積分された顔の領域を囲むように顔表示領域を決定し、この決定された顔表示領域のサイズが、予め動画サムネイルを表示するために定められた所定の表示領域のサイズと略同一となるように、前記動画像の縮小拡大率を算出する縮小拡大率算出部と、算出された前記縮小拡大率に基づいて、前記動画像を縮小または拡大し、前記動画サムネイルを生成する動画サムネイル生成部とを備えたことにある。

　上記目的を達成するため、本発明に係るサムネイル生成装置の第２の特徴は、前記動画像抽出部によって抽出された各画像のうち、人物の顔の領域が存在する画像の連続する数に基づいて、前記第１の所定期間を１つ以上決定するサムネイル区間決定部を更に備えることを特徴としたことにある。

　上記目的を達成するため、本発明に係るサムネイル生成装置の第３の特徴は、前記縮小拡大率算出部は、前記顔表示領域の面積の値を分母とし、前記顔の領域の合計面積の値を分子として求めた比の値が、所定の閾値より小さい場合、前記顔の領域のうち中心に近くかつ面積が最も大きい顔の領域を代表領域として、この代表領域のサイズが前記表示領域のサイズと略同一となるように、前記縮小拡大率を算出することを特徴としたことにある。

　上記目的を達成するため、本発明に係るサムネイル生成装置の第４の特徴は、人物の顔を一意に識別可能な顔の特徴を顔特徴情報として記憶する顔特徴情報記憶部と、を更に備え、前記縮小拡大率算出部は、前記顔の領域内に存在する顔の特徴が、前記顔特徴情報記憶部に記憶されている顔特徴情報が示す顔の特徴と一致又は近似しているか否かを判定し、一致又は近似していると判定された場合に、この一致又は近似している顔の特徴に対応する前記顔の領域のサイズを前記表示領域のサイズと略同一となるように、前記縮小拡大率を算出することにある。

　上記目的を達成するため、本発明に係るサムネイル生成方法の第１の特徴は、動画像の第１の所定期間内において、前記第１の所定期間よりも短い第２の所定期間毎に、前記動画像を構成する各画像を抽出する動画像抽出ステップと、抽出された各画像に含まれる人物の顔の領域を積分し、この積分された顔の領域を囲むように顔表示領域を決定し、この決定された顔表示領域のサイズが、予めサムネイルを表示するために定められた所定の表示領域のサイズと略同一となるように、前記動画像の縮小拡大率を算出する縮小率算出ステップと、算出された前記縮小拡大率に基づいて、前記動画像を縮小または拡大し、前記動画サムネイルを生成する動画サムネイル生成ステップとを有することにある。

　本発明のサムネイル生成装置及びサムネイル生成方法によれば、利用者に、記録再生装置に記録されている動画像の内容を把握させやすい動画サムネイルを生成し表示することができる。

本発明の実施例１であるサムネイル生成装置に供給するためのＡＶストリーム及びストリーム管理情報を記録媒体に記録するビデオカメラの構成を示した構成図である。本発明の実施例１であるサムネイル生成装置の構成を示した構成図である。本発明の実施例１であるサムネイル生成装置が備えるユーザインタフェース部が表示する画面の一例を示した図である。本発明の実施例１であるサムネイル生成装置が備えるユーザインタフェース部におけるＯＳＤ画面と動画再生画面との重ね合わせを説明した図である。（ａ）は、ＯＳＤ画面及び動画再生画面の重ね合わせの順序を説明した図であり、（ｂ）は、ＯＳＤ画面及び動画再生画面それぞれの一例を示した図であり、（ｃ）は、ＯＳＤ画面と動画再生画面とが重ね合わされた合成画面の一例を示した図である。本発明の実施例１であるサムネイル生成装置が備える動画サムネイル時間記憶部に記憶された動画サムネイル時間情報の一例を示した図である。ビデオカメラが備える顔検出部における顔検出処理を示したフローチャートである。本発明の実施例１であるサムネイル生成装置における動画像抽出処理を示したフローチャートである。本発明の実施例１であるサムネイル生成装置の動画像抽出部が、「単位区分時間の顔あり区間」を抽出する処理を説明した図である。本発明の実施例１であるサムネイル生成装置における動画サムネイル表示処理を示したフローチャートである。本発明の実施例１であるサムネイル生成装置が備えるＣＰＵの縮小率算出部による顔検出領域を囲むアスペクト比１６：９の矩形領域の面積Ａの算出を説明した図である。（ａ）は、ある区間内におけるｔ１時点からｔ５時点までにおける顔検出領域を示しており、（ｂ）は、（ａ）に示した顔検出領域を積分した場合における動画像の図であり、（ｃ）は、顔検出領域が動画像内で分散している場合における動画像の図であり、（ｄ）は、顔検出領域が動画像内で密集している場合における動画像の図である。本発明の実施例１であるサムネイル生成装置が備える縮小率算出部による動画像の縮小率の算出を説明した図である。（ａ）は、縮小する動画像の一例を示しており、（ｂ）は、ＯＳＤ画面の一例を示している。本発明の実施例１であるサムネイル生成装置が備える縮小率算出部による動画像の縮小率の算出を説明した図である。（ａ）は、縮小する動画像の一例を示しており、（ｂ）は、ＯＳＤ画面の一例を示している。本発明の実施例２であるサムネイル生成装置の構成を示した構成図である。本発明の実施例２であるサムネイル生成装置が備える顔特徴情報記憶部に記憶された顔特徴情報の一例を示した図である。本発明の実施例２であるサムネイル生成装置が備える縮小率算出部による動画像の縮小率の算出を説明した図である。（ａ）は、縮小する動画像の一例を示しており、（ｂ）は、ＯＳＤ画面の一例を示している。

　以下、本発明の実施の形態について図面を参照して説明する。

　本発明の実施例１では、撮像された動画像に基づいて人物の顔を検出する顔検出部を有するビデオカメラと、このビデオカメラにより生成されて記録媒体に記録されたＡＶストリーム及びストリーム管理情報に基づいて、動画サムネイルを生成するサムネイル生成装置を例に挙げて説明する。

＜ビデオカメラの構成＞
　図１は、本発明の実施例１であるサムネイル生成装置で用いるためのＡＶストリーム及びストリーム管理情報を生成して記録媒体に記録するビデオカメラの構成を示した構成図である。

　ビデオカメラ１０１は、光学レンズ１１１と、撮像素子１１２と、信号処理部１１３と、Ｈ．２６４エンコーダ１１４と、マルチプレクサ１１５と、顔検出部１１６と、加算器１１７と、マイク１２１と、Ａ／Ｄ変換部１２２と、ＡＣ３エンコーダ１２３と、ＣＰＵ１３１とを備えている。

　光学レンズ１１１は、軸Ｐを光軸として入射する光を集光させる。

　撮像素子１１２は、光学レンズ１１１により集光された光を結像させ、結像させた被写体像を電気信号に変換する。

　信号処理部１１３は、ＣＰＵ１３１の指示により、撮像素子１１２により変換された電気信号に基づいてビデオ信号を生成する。

　Ｈ．２６４エンコーダ１１４は、ＣＰＵ１３１の指示により、信号処理部１１３により生成されたビデオ信号に基づいて、ビデオストリーム及びＧＯＰ（Group of picture）情報を生成する。

　Ａ／Ｄ変換部１２２は、ＣＰＵ１３１の指示により、マイク１２１により集音された音声をアナログデータからディジタルデータに変換する。

　ＡＣ３エンコーダ１２３は、ＣＰＵ１３１の指示により、Ａ／Ｄ変換部１２２により変換されたディジタルデータをエンコードすることによりオーディオストリーム及びオーディオ情報を生成する。

　マルチプレクサ１１５は、ＣＰＵ１３１の指示により、Ｈ．２６４エンコーダ１１４によりエンコードされたビデオストリームと、ＡＣ３エンコーダ１２３によりエンコードされたオーディオストリームとを、マルチプレクスしてＡＶＣＨＤ規格に準拠したＡＶストリームを生成し、生成されたＡＶストリームを記録媒体Ａに記録する。

　顔検出部１１６は、ＣＰＵ１３１の指示により、信号処理部１１３により生成されたビデオ信号に基づいて、顔検出を行う。具体的には、顔検出部１１６は、ビデオ信号に基づいて、所定の顔検出時間間隔で動画像をサンプリングし、サンプリングした動画像から人物の顔を検出し、顔検出情報として加算器１１７へ供給する。

　ここで、顔検出処理は、処理を高速に行なえるデバイスやアルゴリズムを用いればフレーム毎に実現することが可能である。しかし、フレーム毎では、顔検出情報のデータサイズが無駄に大きくなってしまう。従って、顔検出時間は、例えば０．５秒程度に設定することが好ましい。なお、顔検出情報には、顔検出された顔検出領域の数（０～４、０は顔検出なしを示す）と、顔検出された顔検出領域毎の、動画像の左上を基準点とした場合における顔検出された顔検出領域の左上の座標（Ｘ，Ｙ）と、顔検出された顔検出領域のサイズ（幅と高さ）とが含まれる。

　なお、動画像は連続する静止画像であるフレームまたはフィールドで構成され、本発明はいずれにも適用可能であるが、以降は説明の便宜上、静止画像をフレームと呼ぶこととする。

　また、顔検出部１１６は、検出した人物の顔の信頼度、即ち、どの程度の確からしさで人物の顔であるかを示した信頼度を算出し、この信頼度が所定の信頼度閾値以上であるか否かを判定する。

　加算器１１７は、ＣＰＵ１３１の指示により、Ｈ．２６４エンコーダ１１４から供給されるＧＯＰ情報と、ＡＣ３エンコーダ１２３から供給されるオーディオ情報と、顔検出部１１６から供給される顔検出情報とを含むストリーム管理情報を生成し、このストリーム管理情報を記録媒体Ａに記録する。

　ＣＰＵ１３１は、ビデオカメラ１０１の中枢的な制御を行う。具体的には、ＣＰＵ１３１は、上述した撮像素子１１２と、信号処理部１１３と、Ｈ．２６４エンコーダ１１４と、マルチプレクサ１１５と、顔検出部１１６と、加算器１１７と、Ａ／Ｄ変換部１２２と、ＡＣ３エンコーダ１２３とを制御する。

＜サムネイル生成装置の構成＞
　図２は、本発明の実施例１であるサムネイル生成装置の構成を示した構成図である。

　図２に示すように、本発明の実施例１であるサムネイル生成装置１は、デマルチプレクサ１１と、ＡＣ３デコーダ１２と、スピーカ１３と、Ｈ．２６４デコーダ１４と、縮小拡大部１５と、加算器１６と、ユーザインタフェース部１７と、ＯＳＤ生成部１８と、ＣＰＵ２０と、動画サムネイル時間記憶部１９とを備える。

　デマルチプレクサ１１は、ＣＰＵ２０の指示により、記録媒体Ａに記録されたＡＶストリームを読み出し、読み出されたＡＶストリームをデマルチプレクスすることにより、ビデオストリームとオーディオストリームとを生成する。

　ＡＣ３デコーダ１２は、ＣＰＵ２０の指示により、デマルチプレクサ１１から供給されたオーディオストリームをデコードすることにより、再生音声データを生成し、スピーカ１３から音声出力させる。

　Ｈ．２６４デコーダ１４は、ＣＰＵ２０の指示により、デマルチプレクサ１１から供給されたビデオストリームをデコードすることにより、再生動画像データを生成し、この生成した再生動画像データを縮小拡大部１５へ供給する。

　縮小拡大部１５は、ＣＰＵ２０の指示により、Ｈ．２６４デコーダ１４から供給された再生動画像データを縮小または拡大することにより、動画サムネイルとして表示するための縮小または拡大された再生動画像データを生成する。

　ＣＰＵ２０は、サムネイル生成装置１の中枢的な制御を行う。具体的には、ＣＰＵ２０は、デマルチプレクサ１１と、ＡＣ３デコーダ１２と、スピーカ１３と、Ｈ．２６４デコーダ１４と、縮小拡大部１５と、加算器１６と、ユーザインタフェース部１７と、ＯＳＤ生成部１８とを制御する。また、ＣＰＵ２０は、記録媒体Ａから読み出したストリーム管理情報をＯＳＤ生成部１８に供給する。

　ＯＳＤ生成部１８は、ＣＰＵ２０の指示により、供給されたストリーム管理情報に基づいてＯＳＤ画面を表示するためのＯＳＤ画像データに生成し、加算器１６へ供給する。

　加算器１６は、ＣＰＵ２０の指示により、縮小拡大部１５から供給された縮小または拡大された再生動画像データに、ＯＳＤ生成部１８から供給されたＯＳＤ画像データを重ね合わせることにより、合成画像データを生成し、この生成された合成画像データをユーザインタフェース部１７に表示させる。

　ユーザインタフェース部１７は、有機ＥＬ（electroluminescence）ディスプレイや、液晶ディスプレイ等で構成される画像表示部を備える。そして、ユーザインタフェース部１７は、この画像表示部に、ＣＰＵ２０の指示により、加算器１７から供給される合成画像データに基づいて合成画面を表示する。

　また、ユーザインタフェース部１７は、タッチセンサ等で構成される操作ボタンやスライダー等の操作部も備える。そして、ユーザインタフェース部１７は、利用者によってこの操作ボタンやスライダーが操作されると、その操作に応じた操作信号を生成し、生成した操作信号をＣＰＵ２０へ供給する。

　動画サムネイル時間記憶部１９は、動画像の再生時間と、この再生時間に応じた動画サムネイルの再生時間とを関連付けて記憶する。この関連付けについては後述する。

　図３は、本発明の実施例１であるサムネイル生成装置１が備えるユーザインタフェース部１７の外観と、このユーザインタフェース部１７の画像表示部に表示される画面の一例を示した図である。

　図３に示すように、ユーザインタフェース部１７は、画像表示部１７ｇと、操作ボタン１７ｂと、スライダー１７ｃとを含んで構成される。

　画像表示部１７ｇには、ＯＳＤ画像データに基づいて生成された静止画サムネイルを含むＯＳＤ画面と、縮小拡大部１５により縮小または拡大された再生動画像データに基づいて生成された動画サムネイルとが重ね合わされて、合成画面として表示される。

　画像表示部１７ｇに表示されるＯＳＤ画面には、サムネイル表示領域１７ｄと、操作ガイド表示領域１７ｅと、ページ表示領域１７ｆとが領域分割されて表示されている。

　サムネイル表示領域１７ｄは、静止画サムネイルと動画サムネイルとが表示される。この表示方法については後述する。

　操作ガイド表示領域１７ｅには、操作ボタン１７ｂに割り当てた機能をユーザに示すためのアイコン等を表示する。

　ページ表示領域１７ｆには、現在、サムネイル表示領域１７ｄに表示された静止画サムネイル一覧のページを表示する。例えば、８／９と表示されている場合、全部で９ページあり、現在８ページ目を表示していることを示す。

　操作ボタン１７ｂは、図３の例では、５つ配置されている。配置された５つの操作ボタンのうち、左端の操作ボタンは、動画サムネイルの選択確定を要求する操作信号を生成するためのＯＫボタン、右端の操作ボタンは、メニューの表示を要求する操作信号を生成するためのメニューボタンである。また、これらの操作ボタンの間の３個の操作ボタンには固定の機能が割り当てられておらず、ＣＰＵ２０が、ユーザ操作の遷移に応じて種々の機能を割り当てる。そして、各操作ボタンに割り当てた機能をユーザに示すために、上記した操作ガイド表示領域１７ｅを用いる。図３の例では、左側の操作ボタンにダイジェスト再生の機能が割り当てられており、中央の操作ボタンにズーム再生の機能が割り当てられており、右側の操作ボタンにゴミ箱の機能が割り当てられている。

　スライダー１７ｃは、後述する動画サムネイルを表示させるための表示領域であるハイライト枠１７ｋをスライドするためのものである。利用者がこのスライダー１７ｃを下になぞる操作を行うとハイライト枠１７ｋが左から右に移動し、上になぞる操作を行うと、ハイライト枠１７ｋは右から左に移動する。

　図４は、動画サムネイルを静止画サムネイルとともに一覧表示する方法を説明した図である。

　図４（ａ）に示すように、動画サムネイルを静止画サムネイルとともに一覧表示する場合、動画再生画面１７ｈとＯＳＤ画面１７ａとが用いられる。

　まず、図４（ｂ）に示すように、ＣＰＵ２０は、ＯＳＤ画面１７ａ上にサムネイル表示領域１７ｄを表示する。このサムネイル表示領域１７ｄには、静止画サムネイルが一覧表示されている。ここで静止画サムネイルは、例えば、各動画像の任意の位置のＩフレームを抽出してデコードし、そのデコードした画像を縮小または拡大することで生成される。

　図４（ｂ）においてサムネイル表示領域１７ｄ内の左上の静止画サムネイル上に表示されているハイライト枠１７ｋは、利用者によるスライダー１７ｃの操作により、サムネイル表示領域１７ｄに一覧表示された静止画サムネイルの中のいずれか１つが選択されるように移動する。

　そして、静止画サムネイルの中からいずれか１つが選択され後、例えば０．５秒経過すると、ＣＰＵ２０は、ハイライト枠１７ｋにより囲まれた静止画サムネイルを消去して、ハイライト枠１７ｋ内を透過画面にする。

　一方、ＣＰＵ２０は、縮小拡大部１５により、再生動画像データを、ハイライト枠１７ｋと同等のサイズに縮小または拡大するとともに、表示位置をこのハイライト枠に合わせた動画サムネイル１７ｊを生成し、動画再生画面１７ｈとして表示する。

　そして、図４（ｃ）に示すように、ＣＰＵ２０は、加算器１６により、ＯＳＤ画面１７ａの背面に動画再生画面１７ｈを重ね合わせて、合成画面を生成する。このようにすることで、ＯＳＤ画面１７ａのうち、透過画面になったハイライト枠１７ｋ内に背面の動画再生画面１７ｈ内の動画サムネイル１７ｊが表示されるようになる。

　図５は、本発明の実施例１であるサムネイル生成装置１が備える動画サムネイル時間記憶部１９に記憶された動画サムネイル時間情報の一例を示した図である。

　図５に示すように、カラム名“動画像の再生時間”（符号１０１）と、カラム名“動画サムネイルの再生時間”（符号１０２）と、カラム名“動画サムネイル再生区間数”（符号１０３）とが関連付けられて、動画サムネイル時間情報として記憶されている。なお、動画サムネイルの再生時間１０２は、後述する単位区分時間に動画サムネイル再生区間数１０３を乗算することにより算出される。

　また、ＣＰＵ２０は、その機能上、動画像抽出部２０ａと、縮小拡大率算出部２０ｂと、サムネイル区間決定部２０ｄとを備える。

　動画像抽出部２０ａは、動画像の第１の所定期間内において、後述する第１の所定期間よりも短い第２の所定期間毎に、動画像を構成する各画像を抽出する。

　サムネイル区間決定部２０ｄは、動画像抽出部２０ａによって抽出された各画像のうち、人物の顔の領域が存在する画像の連続する数に基づいて、第１の所定期間を１つ以上決定する。

　縮小拡大率算出部２０ｂは、抽出された各画像に含まれる人物の顔の領域を積分し、この積分された顔の領域を囲むように顔表示領域を決定し、この決定された顔表示領域のサイズが、予め動画サムネイルを表示するために定められた所定の表示領域のサイズと略同一となるように、動画像の縮小拡大率を算出する。

　また、縮小拡大率算出部２０ｂは、決定された対象顔領域の面積に対する顔検出領域の合計面積が所定の閾値より小さい場合に、中心に近くかつ面積が大きい顔検出領域を代表領域として、この代表領域のサイズが動画サムネイルのサイズと略同一となるように、前記動画像の縮小拡大率を算出する。

＜ビデオカメラ１０１が備える顔検出部１１６の作用＞
　次に、ビデオカメラ１０１が備える顔検出部１１６が実行する顔検出処理について説明する。

　図６は、ビデオカメラ１０１が備える顔検出部１１６における顔検出処理を示したフローチャートである。

　図６に示すように、顔検出部１１６は、ビデオ信号に基づいて、顔検出時間（第２の所定期間：ここでは、例えば０．５秒とする）毎に、動画像を構成するフレームをサンプリングし、サンプリングしたフレームから人物の顔を検出すると共に、顔検出された顔検出領域（顔の領域）の仮数Ｎｐを生成する（ステップＳ２０１）。

　次に、顔検出部１１６は、顔検出された顔検出領域のカウンタｉの値に初期値として“１”を代入すると共に、有効顔数Ｍに初期値として“０”を代入する（ステップＳ２０２）。

　そして、顔検出部１１６は、顔検出された顔検出領域の仮数Ｎｐのうち第ｉ番目に顔検出された顔検出領域の信頼度を算出し、この信頼度が所定の信頼度閾値以上であるか否かを判定する（ステップＳ２０３）。ここで、信頼度とは、顔検出された顔がどの程度の確からしさで人物の顔であるかを示している。

　ステップＳ２０３において、第ｉ番目の顔検出領域の信頼度が所定の信頼度閾値未満であると判定された場合（ＮＯの場合）、顔検出部１１６は、第ｉ番目の顔検出領域を削除する（ステップＳ２０４）。

　一方、ステップＳ２０３において、第ｉ番目の顔検出領域の信頼度が所定の信頼度閾値以上であると判定された場合（ＹＥＳの場合）、顔検出部１１６は、有効顔数Ｍの値を“１”だけ加算する（ステップＳ２０５）。

　次に、顔検出部１１６は、カウンタｉの値が顔検出された顔検出領域の仮数Ｎｐを越えているか否かを判定する（ステップＳ２０６）。

　ステップＳ２０６において、カウンタｉの値が顔検出された顔検出領域の仮数Ｎｐを越えていると判定された場合（ＹＥＳの場合）、顔検出部１１６は、有効顔数Ｍが最大顔数Ｍｍａｘを越えているか否かを判定する（ステップＳ２０７）。ここで、最大顔数Ｍｍａｘは、例えば“４”といったように、予め提供者等が実測に基づいた適正な値を予め算出し、提供者や利用者等が予め適正な値を設定しておく必要がある。

　ステップＳ２０７において、有効顔数Ｍが最大顔数Ｍｍａｘ以下であると判定された場合（ＮＯの場合）、顔検出部１１６は、有効顔数Ｍの値を、顔評価数Ｍｖａｌへ代入する（ステップＳ２０８）。

　一方、ステップＳ２０７において、有効顔数Ｍが最大顔数Ｍｍａｘを越えていると判定された場合（ＹＥＳの場合）、顔検出部１１６は、有効顔数Ｍ個分の顔検出領域の面積を算出する（ステップＳ２０８）。

　次に、顔検出部１１６は、有効顔数Ｍ個分の顔検出領域を、ステップＳ２０８において算出された顔検出領域の面積が大きい順にソートする（ステップＳ２０９）。

　そして、顔検出部１１６は、ステップＳ２０９においてソートされた有効顔数Ｍ個分の顔検出領域から、Ｍｍａｘ個だけ先頭から選択する（ステップＳ２１０）。

　さらに、顔検出部１１６は、Ｍｍａｘの値を、顔評価数Ｍｖａｌへ代入する（ステップＳ２１１）。

　次に、顔検出部１１６は、顔検出情報を生成する（ステップＳ２１２）。具体的には、顔検出部１１６は、顔評価数Ｍｖａｌの値を、顔検出された顔検出領域の数Ｎに代入し、この顔検出された顔検出領域の数Ｎと、Ｎ個分の顔検出領域の座標（Ｘ，Ｙ）及びサイズ（幅と高さ）とを含む顔検出情報を生成し、この生成された顔検出情報を加算器１１７へ供給する。

　以上のように、本発明の実施例１であるビデオカメラ１０１が備える顔検出部１１６によれば、顔検出処理を実行することにより、顔検出部１１６が、信号処理部１１３により生成されたビデオ信号に基づいて、顔検出時間間隔で動画像（フレーム）をサンプリングし、サンプリングした動画像（フレーム）から人物の顔を検出し、顔検出情報として加算器１１７へ供給するので、後述するように、サムネイル生成装置１が、この顔検出情報に基づいて、動画サムネイルを生成することができる。

＜サムネイル生成装置１の作用＞
　次に、本発明の実施例１であるサムネイル生成装置１の作用について説明する。

　本発明の実施例１であるサムネイル生成装置１は、主に動画像抽出処理及び動画サムネイル表示処理とを順に実行する。そのため、各々の処理について以下に詳細に説明する。

≪動画像抽出処理≫
　本発明の実施例１であるサムネイル生成装置１の動画像抽出処理の詳細について説明する。

　図７は、本発明の実施例１であるサムネイル生成装置１における動画像抽出処理を示したフローチャートである。

　まず、ＣＰＵ２０の動画像抽出部２０ａは、ユーザインタフェース部１７からの操作信号に基づき、静止画サムネイルの中からいずれか１つが選択された後、所定時間（例えば０．５秒）経過したと判断した場合（ステップＳ１０１）、サムネイル区間決定部２０ｄは、記録媒体Ａから読み出したストリーム管理情報の顔検出情報に含まれる顔検出された顔検出領域（顔の領域）の数Ｎに基づいて、所定の単位区分時間（ここでは、５秒とする）以上連続した「顔あり区間」から、「単位区分時間の顔あり区間（第１の所定期間）」を決定する（ステップＳ１０２）。

　ここで、単位区分時間は、長すぎると、後述する顔領域の積分時間が長くなるので、動画サムネイルの効果的な拡大表示ができなくなり、短かすぎると、動画サムネイルの画像が短時間でスキップするので、利用者にとって、内容を把握し難くなる。そのため、例えば５秒といったように、予め提供者等が実測に基づいた適正な値を予め算出し、提供者や利用者等が予め適正な値を設定しておく必要がある。

　図８は、本発明の実施例１であるサムネイル生成装置１のサムネイル区間決定部２０ｄが「単位区分時間の顔あり区間」を決定し、動画像抽出部２０ａが「単位区分時間の顔あり区間」を抽出する処理を説明した図である。

　図８に示すように、記録媒体Ａから読み出したストリーム管理情報には、顔検出時間間隔（０．５秒）毎の顔検出情報が含まれおり、この顔検出情報には、顔検出された顔検出領域の数Ｎが含まれている。

　サムネイル区間決定部２０ｄは、顔検出された顔検出領域の数Ｎが“０”である区間が、４を越えて連続する区間、即ち２秒を越えて顔検出されない区間を「顔なし区間」とし、その他の区間を「顔あり区間」とする。

　図８に示した例では、２秒を越えて顔検出されない区間２０５は、「顔なし区間」とされ、顔検出されないのが２秒以下である区間２０６は、「顔あり区間」とされる。

　そして、動画像抽出部２０ａは、この「顔あり区間」の中から、単位区分時間分の顔あり区間２０７，２０８を抽出する。ここで、動画像抽出部２０ａにより抽出された「単位区分時間分の顔あり区間」の総数を抽出区間数Ｓという。

　次に、動画像抽出部２０ａは、ストリーム管理情報に含まれる動画像の再生時間と、動画サムネイル時間記憶部１９に記憶された動画サムネイル時間情報に基づいて、抽出区間数Ｓが、動画サムネイル再生区間数１０３未満か否かを判定する（ステップＳ１０４）。具体的には、動画像抽出部２０ａは、図５に示す動画サムネイル時間記憶部１９に記憶された動画サムネイル時間情報に基づいて、ストリーム管理情報に含まれる動画像の再生時間に応じた動画サムネイル再生区間数１０３を決定し、抽出区間数Ｓが、この決定された動画サムネイル再生区間数１０３未満か否かを判定する。

　ステップＳ１０４において、抽出区間数Ｓが動画サムネイル再生区間数１０３未満であると判定された場合（ＹＥＳの場合）、動画像抽出部２０ａは、抽出済みの「単位区分時間の顔あり区間」を除いて、単位区分時間未満である「顔あり区間」があるか否かを判定する（ステップＳ１０５）。

　ステップＳ１０５において、抽出済みの「単位区分時間の顔あり区間」を除いて単位区分時間未満である「顔あり区間」があると判定された場合（ＹＥＳの場合）、動画像抽出部２０ａは、抽出済み「単位区分時間の顔あり区間」を除いて、動画像の先頭から「顔あり区間」を不足数だけ抽出する（ステップＳ１０６）。

　そして、動画像抽出部２０ａは、ステップＳ１０６において抽出された区間の数を抽出区間数Ｓに加算し、確定抽出区間数Ｓｆとする（ステップＳ１０７）。

　ステップＳ１０５において、抽出済みの「単位区分時間の顔あり区間」を除いて単位区分時間未満である「顔あり区間」がないと判定された場合（ＮＯの場合）、動画像抽出部２０ａは、確定抽出区間数Ｓｆに抽出区間数Ｓを代入する（ステップＳ１２０）。

　一方、ステップＳ１０４において、抽出区間数Ｓが動画サムネイル再生区間数１０３以上であると判定された場合（ＮＯの場合）、動画像抽出部２０ａは、抽出区間数Ｓが動画サムネイル再生区間数１０３と同一であるか否かを判定する（ステップＳ１０８）。

　ステップＳ１０８において、抽出区間数Ｓが動画サムネイル再生区間数１０３と同一であると判定された場合（ＹＥＳの場合）、動画像抽出部２０ａは、確定抽出区間数Ｓｆに抽出区間数Ｓを代入する（ステップＳ１０９）。

　一方、ステップＳ１０８において、抽出区間数Ｓが動画サムネイル再生区間数１０３と同一ではないと判定された場合（ＮＯの場合）、動画像抽出部２０ａは、顔検出情報に含まれる顔検出領域のサイズ（幅と高さ）に基づいて、「単位区分時間の顔あり区間」毎に、顔検出領域の面積の平均値を算出する（ステップＳ１１０）。

　次に、動画像抽出部２０ａは、抽出された「単位区分時間の顔あり区間」を、ステップＳ１１０において算出された顔検出領域の面積の平均値が大きい順にソートする（ステップＳ１１１）。

　そして、動画像抽出部２０ａは、ステップＳ１１１においてソートされた「単位区分時間の顔あり区間」から、動画サムネイル再生区間数１０３分だけ先頭から選択する（ステップＳ１１２）。

　次に、動画像抽出部２０ａは、確定抽出区間数Ｓｆに動画サムネイル再生区間数１０３数を代入する（ステップＳ１１３）。

　このように、「単位区分時間の顔あり区間」のうち、顔検出領域の面積の平均値が高い区間から優先して選択されるので、人物の顔が大きく撮影されている区間が優先的に選択される。

　以上のように、本発明の実施例１であるサムネイル生成装置１は、動画像抽出処理を実行することにより、動画像抽出部２０ａが、動画像の再生時間と顔検出時間間隔毎に顔検出された顔検出領域の数と、顔検出された顔検出領域のサイズ（幅と高さ）とに基づいて、所定時間連続して顔検出されなかったフレームを除く動画像から、動画像の再生時間を越えない、動画サムネイルの再生時間分の動画像（フレーム）を抽出することができる。

　これにより、選択された静止画サムネイルに対応する動画サムネイルを生成するために、記録媒体Ａに記録された動画像を構成するフレームのうち、適切な区間分のフレームを抽出することができる。

≪動画サムネイル生成及び表示処理≫
　本発明の実施例１であるサムネイル生成装置１の動画サムネイル生成及び表示処理の詳細について説明する。

　図９は、本発明の実施例１であるサムネイル生成装置１における動画サムネイル生成及び表示処理を示したフローチャートである。

　まず、ＣＰＵ２０の縮小拡大率算出部２０ｂは、区間のカウンタｋの値に初期値として“０”を代入し（ステップＳ３０１）、顔検出領域のカウンタｊの値に初期値として“１”を代入する（ステップＳ３０２）。

　次に、ＣＰＵ２０の縮小拡大率算出部２０ｂは、確定抽出区間数Ｓｆ分だけ抽出された「顔あり区間」のうち、第ｋ区間において、顔検出情報に含まれる顔検出領域のサイズ（幅と高さ）に基づいて、顔検出領域（顔の領域）の面積の総和Ｂを算出する（ステップＳ３０３）。

　さらに、ＣＰＵ２０の縮小拡大率算出部２０ｂは、第ｋ区間において、顔検出情報に含まれる顔検出領域の左上の座標（Ｘ，Ｙ）と、顔検出領域のサイズ（幅と高さ）とに基づいて、顔検出領域を囲む動画像と同一のアスペクト比（１６：９）の矩形領域（顔表示領域）の面積Ａを算出する（ステップＳ３０４）。

　図１０は、本発明の実施例１であるサムネイル生成装置１が備えるＣＰＵ２０の縮小拡大率算出部２０ｂによる顔検出領域を囲むアスペクト比１６：９の矩形領域の面積Ａの算出を説明した図である。（ａ）は、ある区間内におけるｔ１時点からｔ５時点までにおける顔検出領域を示しており、（ｂ）は、（ａ）示した顔検出領域を積分した場合におけるフレームの図であり、（ｃ）は、顔検出領域がフレーム内で分散している場合の図であり、（ｄ）は、顔検出領域がフレーム内で密集している場合の図である。

　図１０（ａ）に示すように、ｔ１時点～ｔ５時点において、時間の経過と共に、検出された顔検出領域３０１～３０５の位置が少しずつ移動している。

　そして、これらの顔検出領域３０１～３０５を積分すると、図１０（ｂ）に示すように、積分顔検出領域４０１となる。

　縮小拡大率算出部２０ｂは、この積分顔検出領域４０１を囲むアスペクト比（１６：９）の矩形領域４０２の面積Ａを算出する。

　縮小拡大率算出部２０ｂは、このようにして矩形領域の面積Ａを算出するので、顔検出領域３０１～３０５がフレーム内で分散していた場合、図１０（ｃ）に示すように、矩形領域４０３の面積Ａは大きくなり、顔検出領域３０１～３０５がフレーム内で密集していた場合、図１０（ｄ）に示すように、矩形領域４０４の面積Ａは小さくなる。

　次に、ＣＰＵ２０の縮小拡大率算出部２０ｂは、ステップＳ３０４において算出された矩形領域の面積Ａに対するステップＳ３０３において算出された顔検出領域の面積の総和Ｂが所定の閾値Ｒより小さいか否かを判定する（ステップＳ３０５）。

　ここで、この閾値Ｒは、小さすぎると、後述するように、矩形領域の面積Ａが大きくても、矩形領域の面積が動画サムネイルの面積と同一となるように、動画像の縮小拡大率を算出するので、動画サムネイルの効果的な拡大表示ができなくなる。また、閾値Ｒは、大きすぎると、矩形領域の面積Ａが小さく、複数の顔検出領域それぞれが拡大されるようにしたい場合でも、評価点Ｐが最大の１つの顔検出領域のみを拡大するように、動画像の縮小拡大率を算出してしまうので、この場合も動画サムネイルの効果的な拡大表示ができなくなる。

　ステップＳ３０５において、矩形領域の面積Ａに対する顔検出領域の面積の総和Ｂが所定の閾値Ｒ以上であると判定された場合（ＮＯの場合）、縮小拡大率算出部２０ｂは、矩形領域のサイズ（幅と高さ）が動画サムネイルのサイズ（幅と高さ）と同一となるように、動画像の縮小拡大率を算出する（ステップＳ３０６）。

　図１１は、本発明の実施例１であるサムネイル生成装置１が備える縮小拡大率算出部２０ｂによる動画像の縮小拡大率の算出を説明した図である。（ａ）は、縮小拡大する動画像のフレームの一例を示しており、（ｂ）は、ＯＳＤ画面１７ａの一例を示している。

　図１１（ａ）に示すように、動画像のフレームのサイズがＸ×Ｙ（アスペクト比１６：９）、矩形領域５０１のサイズがＸ２×Ｙ２（アスペクト比１６：９）であり、図１１（ｂ）に示すように、ＯＳＤ画面１７ａの動画サムネイルのサイズ、即ちハイライト枠１７ｋのサイズがＸ１×Ｙ１（アスペクト比１６：９）であるとする。

　この場合、縮小拡大率算出部２０ｂは、矩形領域５０１のサイズがハイライト枠１７ｋのサイズと同一となるように、動画像の縮小拡大率を算出する。即ち縮小拡大率をＱとすると、下記の（数式１）を用いて縮小拡大率Ｑを算出する。

　Ｑ＝（Ｘ１／Ｘ）×（Ｘ１／Ｘ２）　　・・・（数式１）
　なお、（Ｘ１／Ｘ２）のＸ２の値は、図１１（a）に示したオリジナルの動画像のフレーム中のＸ２の大きさではなく、図１１（ｂ）に示した動画サムネイルに合わせられた動画像のフレーム中のＸ２の大きさを表している。このように、縮小拡大率算出部２０ｂは、矩形領域５０１のサイズがハイライト枠１７ｋのサイズと同一となるように、動画像の縮小拡大率を算出するので、（Ｘ１／Ｘ）よりも（Ｘ１／Ｘ２）が大きい場合、動画サムネイルとしては拡大されて表示されているように見えるが、実際には、この動画サムネイルの画像は元の動画像から縮小または拡大されて表示されることとなる。

　一方、図９におけるステップＳ３０５において、矩形領域の面積Ａに対する顔検出領域の面積の総和Ｂが所定の閾値Ｒ未満であると判定された場合（ＹＥＳの場合）、縮小拡大率算出部２０ｂは、第ｋ区間において、Ｎ個の顔検出された顔検出領域のうち第ｊ番目の顔検出領域の評価点Ｐ（ｊ）を、下記の（数式２）を用いて算出する（ステップＳ３０７）。

　Ｐ（ｊ）＝第ｊ番目の顔検出領域の面積－（画面の中央から第ｊ番目の顔検出領域の中央までの長さ）２×０．２・・・（数式２）
　そして、縮小拡大率算出部２０ｂは、カウンタｊの値を“１”だけ加算した後（ステップＳ３０８）、カウンタｊの値が、顔検出された顔検出領域の数Ｎを越えたか否かを判定する（ステップＳ３０９）。

　ステップＳ３０９において、カウンタｊの値が顔検出された顔検出領域の数Ｎを越えたと判定された場合（ＹＥＳの場合）、縮小拡大率算出部２０ｂは、Ｎ個の顔検出された顔検出領域のうち、画面の中心に近くかつ面積が大きい顔検出領域、即ち、評価点Ｐの値が最も高い顔検出領域を代表領域として選択する（ステップＳ３１０）。

　次に、縮小拡大率算出部２０ｂは、ステップＳ３１０において選択された代表領域のサイズ（幅と高さ）が動画サムネイルのサイズ（幅と高さ）と略同一となるように、動画像の縮小拡大率を算出する（ステップＳ３１１）。

　図１２は、本発明の実施例１であるサムネイル生成装置１が備える縮小拡大率算出部２０ｂによる動画像の縮小拡大率の算出を説明した図である。（ａ）は、縮小または拡大する動画像のフレームの一例を示しており、（ｂ）は、ＯＳＤ画面１７ａの一例を示している。

　図１２（ａ）に示すように、動画像のフレームのサイズがＸ×Ｙ（アスペクト比１６：９）、代表領域５０２のサイズがＸ３×Ｙ３（アスペクト比１６：９）であり、図１２（ｂ）に示すように、ＯＳＤ画面１７ａの動画サムネイルのサイズ、即ちハイライト枠１７ｋのサイズがＸ１×Ｙ１（アスペクト比１６：９）であるとする。

　この場合、縮小拡大率算出部２０ｂは、代表領域５０２のサイズがハイライト枠１７ｋのサイズと同一となるように、動画像の縮小拡大率を算出する。即ち縮小拡大率をＱとすると、上述した（数式１）を用いて、Ｘ２，Ｙ２をそれぞれＸ３，Ｙ３に置き換えることにより縮小拡大率Ｑを算出する。

　このように、縮小拡大率算出部２０ｂが、ステップＳ３１０において選択された代表領域のサイズ（幅と高さ）が動画サムネイルのサイズ（幅と高さ）と略同一となるように、動画像の縮小拡大率を算出するので、人物の顔が拡大されやすくなり、利用者は動画像の内容を把握し易くなる。

　次に、縮小拡大部１５は、縮小拡大率算出部２０ｂにより算出された縮小拡大率に基づいて、動画像を縮小または拡大し、動画サムネイルを生成する（ステップＳ３１２）。

　これにより、この生成した動画サムネイルを含む再生画像データが供給された加算器１６は、ＯＳＤ画像データに基づいて、動画再生画面の上にＯＳＤ画面が重なるように、２つの画面を合成し、この合成された画面をユーザインタフェース部１７に表示させる。

　次に、ＣＰＵ２０の縮小拡大率算出部２０ｂは、カウンタｋの値を“１”だけ加算した後（ステップＳ３１３）、カウンタｋが確定抽出区間数Ｓｆ以上か否かを判定し（ステップＳ３１４）、カウンタｋが確定抽出区間数Ｓｆ以上になるまで、ステップＳ３０３～Ｓ３１４の処理を繰り返し実行する。

　以上のように、本発明の実施例１であるサムネイル生成装置１によれば、利用者にとって動画像の内容が把握しやすい動画サムネイルを生成し、表示することができる。

　なお、本発明の実施例１では、ビデオカメラ１０１から媒体Ａを介して、検出された人物の顔に関する顔検出情報が供給され、供給された顔検出情報に基づいて、動画サムネイルを生成するサムネイル生成装置を例に挙げて説明したが、これに限らず、ビデオカメラ１０１とネットワークを介して接続され、このネットワークを介してビデオカメラ１０１から検出された人物の顔に関する顔検出情報が供給され、供給された顔検出情報に基づいて、動画サムネイルを生成するようにしてもよい。

　本発明の実施例１では、撮像された動画像に基づいて人物の顔を検出する顔検出装置が適用されたビデオカメラ１０１により、記録媒体Ａを介して、検出された人物の顔に関する顔検出情報が供給され、供給された顔検出情報に基づいて、動画像を縮小または拡大して動画サムネイルを生成するサムネイル生成装置を例に挙げて説明したが、さらに、登録された顔特徴情報に基づいて、動画像を縮小または拡大して動画サムネイルを生成するようにしてもよい。

　そこで、本発明の実施例２では、撮像された動画像に基づいて人物の顔を検出する顔検出装置が適用されたビデオカメラ１０１により、記録媒体Ａを介して、検出された人物の顔に関する顔検出情報が供給され、供給された顔検出情報と顔特徴情報とに基づいて、動画像を縮小または拡大して動画サムネイルを生成するサムネイル生成装置を例に挙げて説明する。

＜ビデオカメラ１０１の構成＞
　本発明の実施例２であるサムネイル生成装置に供給するためのＡＶストリーム及びストリーム管理情報を記録媒体Ａに記録するビデオカメラ１０１の構成は、本発明の実施例１であるサムネイル生成装置１に供給するためのＡＶストリーム及びストリーム管理情報を記録媒体Ａに記録するビデオカメラ１０１と同一構成を有するので、説明を省略する。

＜サムネイル生成装置の構成＞
　図１３は、本発明の実施例２であるサムネイル生成装置１Ａの構成を示した構成図である。

　図１３に示すように、本発明の実施例２であるサムネイル生成装置１Ａは、デマルチプレクサ１１と、ＡＣ３デコーダ１２と、スピーカ１３と、Ｈ．２６４デコーダ１４と、縮小拡大部１５と、加算器１６と、ユーザインタフェース部１７と、ＯＳＤ生成部１８と、ＣＰＵ２０Ａと、動画サムネイル時間記憶部１９と、顔特徴情報記憶部２１とを備える。

　このうち、デマルチプレクサ１１と、ＡＣ３デコーダ１２と、スピーカ１３と、Ｈ．２６４デコーダ１４と、縮小拡大部１５と、加算器１６と、ユーザインタフェース部１７と、ＯＳＤ生成部１８と、動画サムネイル時間記憶部１９とは、本発明の実施例１であるサムネイル生成装置１が備えるそれぞれ同一符号が付された構成と同一であるので、説明を省略する。

　顔特徴情報記憶部２１は、人物を一意に識別する人物ＩＤと、顔の特徴情報とを関連付けて顔特徴情報として記憶する。

　図１４は、本発明の実施例２であるサムネイル生成装置１Ａが備える顔特徴情報記憶部２１に記憶された顔特徴情報の一例を示した図である。

　図１４に示すように、カラム名“人物ＩＤ”（符号６０１）と、カラム名“特徴情報”（符号６０２）とが関連付けられて、顔特徴情報として記憶されている。なお、顔特徴情報とは、目、鼻、及び口等の大きさ及び形等の人物の顔を一意に識別可能な顔の特徴を示す情報である。

　ＣＰＵ２０Ａは、サムネイル生成装置１Ａの中枢的な制御を行う。また、ＣＰＵ２０Ａは、その機能上、動画像抽出部２０ａと、縮小拡大率算出部２０ｃとを備える。

　動画像抽出部２０ａは、動画像の再生時間と顔検出時間間隔毎に検出された顔画像の数とに基づいて、所定時間連続して顔検出されなかった時間を除く動画像のフレームから、動画サムネイルの再生時間を越えない時間分の動画像のフレームを抽出する。

　縮小拡大率算出部２０ｃは、ビデオカメラ１０１から顔特徴情報を含む顔検出情報が供給された場合に、供給された顔検出情報に含まれる顔特徴情報が、顔特徴情報記憶部２１に記憶されている顔特徴情報に一致又は近似しているか否かを判定し、一致又は近似していると判定された場合に、この一致又は近似している顔特徴情報に対応する顔検出領域が最大になるように動画像の縮小拡大率を算出する。

　具体的には、縮小拡大率算出部２０ｃは、一致又は近似している顔特徴情報に対応する顔検出領域を登録顔領域として選択し、この選択された登録顔領域のサイズが動画サムネイルのサイズと略同一となるように、動画像の縮小拡大率を算出する。

　図１５は、本発明の実施例２であるサムネイル生成装置１Ａが備える縮小拡大率算出部２０ｃによる動画像の縮小拡大率の算出を説明した図である。（ａ）は、縮小または拡大する動画像のフレームの一例を示しており、（ｂ）は、ＯＳＤ画面１７ａの一例を示している。

　図１５（ａ）に示すように、動画像のフレームのサイズがＸ×Ｙ（アスペクト比１６：９）、登録顔領域６０１のサイズがＸ４×Ｙ４（アスペクト比１６：９）であり、図１５（ｂ）に示すように、ＯＳＤ画面１７ａの動画サムネイルのサイズ、即ちハイライト枠１７ｋのサイズがＸ１×Ｙ１（アスペクト比１６：９）であるとする。

　この場合、縮小拡大率算出部２０ｂは、登録顔領域６０１のサイズがハイライト枠１７ｋのサイズと同一となるように、動画像の縮小拡大率を算出する。即ち縮小拡大率をＱとすると、上述した（数式１）を用いて、Ｘ２，Ｙ２をそれぞれＸ４，Ｙ４に置き換えることにより縮小拡大率Ｑを算出する。

　このように、縮小拡大率算出部２０ｃは、選択された登録顔領域のサイズが動画サムネイルのサイズと略同一となるように、動画像の縮小拡大率を算出するので、登録された人物の顔が拡大されやすくなる。これにより、利用者は所望の人物の顔画像を注目して見やすくなるので、動画像の内容を把握し易くなる。

　以上のように、本発明の実施例２であるサムネイル生成装置１Ａによれば顔特徴情報記憶部２１と、縮小拡大率算出部２０ｃとを備えているので、本発明の実施例１であるサムネイル生成装置１による効果に加えて、予め登録された１人以上の人物を優先的に拡大して動画サムネイルとして表示することができる。

　本実施例２では、検出されている顔の中に、予め記憶している顔の特徴と一致する顔が検出された場合、この一致した顔をのみを処理対象とすることで、例えば、他人の子供と自分の子供が一緒に撮影された動画像においても、自分の子供の顔だけを動画サムネイルで拡大表示させることができる。

　１，１Ａ…サムネイル生成装置
　１１…デマルチプレクサ
　１２…ＡＣ３デコーダ
　１３…スピーカ
　１４…Ｈ．２６４デコーダ
　１５…縮小拡大部
　１６…加算器
　１７…ユーザインタフェース部
　１７ａ…画像表示部
　１７ｂ…操作ボタン
　１７ｃ…スライダー
　１７ｄ…サムネイル表示領域
　１７ｅ…操作ガイド表示領域
　１７ｆ…ページ表示領域
　１７ｇ…画像表示部
　１７ｋ…ハイライト枠
　１７ｈ…動画再生画面
　１７ｊ…動画サムネイル
　１８…ＯＳＤ生成部
　１９…動画サムネイル時間記憶部
　２０，２０Ａ，１３１…ＣＰＵ
　２０ａ…動画像抽出部
　２０ｂ，２０ｃ…縮小拡大率算出部
　２０ｄ…サムネイル区間決定部
　２１…顔特徴情報記憶部
　１０１…ビデオカメラ
　１１１…光学レンズ
　１１２…画像素子部
　１１３…信号処理部
　１１４…Ｈ．２６４エンコーダ
　１１５…マルチプレクサ
　１１６…顔検出部
　１１７…加算器
　１２１…マイク
　１２２…Ａ／Ｄ変換部
　１２３…ＡＣ３エンコーダ

Claims

　動画像の第１の所定期間内において、前記第１の所定期間よりも短い第２の所定期間毎に、前記動画像を構成する各画像を抽出する動画像抽出部と、
　抽出された各画像に含まれる人物の顔の領域を積分し、この積分された顔の領域を囲むように顔表示領域を決定し、この決定された顔表示領域のサイズが、予め動画サムネイルを表示するために定められた所定の表示領域のサイズと略同一となるように、前記動画像の縮小拡大率を算出する縮小拡大率算出部と、
　算出された前記縮小拡大率に基づいて、前記動画像を縮小または拡大し、前記動画サムネイルを生成する動画サムネイル生成部と、
　を備えたことを特徴とするサムネイル生成装置。
　前記動画像抽出部によって抽出された各画像のうち、人物の顔の領域が存在する画像の連続する数に基づいて、前記第１の所定期間を１つ以上決定するサムネイル区間決定部
　を更に備えることを特徴とした請求項１記載のサムネイル生成装置。
　前記縮小拡大率算出部は、
　前記顔表示領域の面積の値を分母とし、前記顔の領域の合計面積の値を分子として求めた比の値が、所定の閾値より小さい場合、前記顔の領域のうち中心に近くかつ面積が最も大きい顔の領域を代表領域として、この代表領域のサイズが前記表示領域のサイズと略同一となるように、前記縮小拡大率を算出する
　ことを特徴とした請求項１又は２記載のサムネイル生成装置。
　人物の顔を一意に識別可能な顔の特徴を顔特徴情報として記憶する顔特徴情報記憶部と、を更に備え、
　前記縮小拡大率算出部は、
　前記顔の領域内に存在する顔の特徴が、前記顔特徴情報記憶部に記憶されている顔特徴情報が示す顔の特徴と一致又は近似しているか否かを判定し、一致又は近似していると判定された場合に、この一致又は近似している顔の特徴に対応する前記顔の領域のサイズを前記表示領域のサイズと略同一となるように、前記縮小拡大率を算出する
　ことを特徴とした請求項１又は２記載のサムネイル生成装置。
　動画像の第１の所定期間内において、前記第１の所定期間よりも短い第２の所定期間毎に、前記動画像を構成する各画像を抽出する動画像抽出ステップと、
　抽出された各画像に含まれる人物の顔の領域を積分し、この積分された顔の領域を囲むように顔表示領域を決定し、この決定された顔表示領域のサイズが、予めサムネイルを表示するために定められた所定の表示領域のサイズと略同一となるように、前記動画像の縮小拡大率を算出する縮小率算出ステップと、
　算出された前記縮小拡大率に基づいて、前記動画像を縮小または拡大し、前記動画サムネイルを生成する動画サムネイル生成ステップと、
　を有することを特徴とするサムネイル生成方法。