WO2006028116A1

WO2006028116A1 - 登場物推定装置及び方法、並びにコンピュータプログラム

Info

Publication number: WO2006028116A1
Application number: PCT/JP2005/016395
Authority: WO
Inventors: Naoto Itoh
Original assignee: Pioneer Corporation
Priority date: 2004-09-09
Filing date: 2005-09-07
Publication date: 2006-03-16
Also published as: EP1802115A1; US20080002064A1; JP4439523B2; JPWO2006028116A1; CN101015206A; US7974440B2

Abstract

　登場人物推定装置１０は、映像中の登場人物を特定する特定部２００を有している。特定部２００の特定可能枠によって規定される領域よりも小さい表示面積で表示される登場人物に対しては、特定部２００による登場人物特定と併用する形で、ＣＰＵ１１０が登場人物を推定する。この際、統計ＤＢ２０から登場人物個人に関する、又は登場人物相互の関係を表す統計的なデータが取得され、推定要素として与えられる。登場人物はこの推定要素に基づいて推定される。

Description

登場物推定装置及び方法、並びにコンピュータプログラム

技術分野

[0001] 本発明は、登場物推定装置及び方法、並びにコンピュータプログラムの技術分野に関する。

背景技術

[0002] 例えば、ドラマや映画などの映像番組を録画して視聴する場合に、所望のシーンのみを再生するための装置が提案されている (例えば、特許文献 1参照)。

[0003] 特許文献 1に開示されたインデックス配信装置 (以下、「従来の技術」と称する）によれば、録画装置が放送番組を録画すると同時に、その番組中に現れる各シーンの発生時刻や内容を示す情報であるシーンインデックスが作成され、録画装置に配信される。録画装置の利用者は、この配信されたシーンインデックスに基づいて、録画した番組の中力所望のシーンのみを選択的に再生することが可能であるとされている

[0004] 特許文献 1：特開 2002— 262224号公報

発明の開示

発明が解決しょうとする課題

[0005] し力しながら、係る従来の技術は、以下に示す問題点を有する。

[0006] 従来の技術にお!、ては、シーンインデックスは、係員が放送番組を視聴しながらシーンインデックス配信装置に然るべきシーンインデックスを入力することによって作成されている。即ち、従来の技術は、放送番組毎に係員によるシーンインデックスの入力を必要とするため、肉体的、精神的、及び経済的に莫大な負荷が生じ、極めて非現実的であると!/、う技術的な問題点を有して!/、る。

[0007] また、このような莫大な負荷を軽減するために、顔認識技術などを使用して、映像の幾何学的な特徴から人物の顔を識別し、登場人物などを特定することによって、自動的に映像の内容を記録する手法がある。し力しながら、このような顔認識技術では、例えば、顔が横向きに表示される人間は誰であるか特定できないなど、特定精度が著しく低ぐ映像の登場人物を実用的に特定することは困難である。

[0008] 更に、映像中に登場人物の姿が現れて、な、場合で、その登場人物の声のみが流れている場合などは、例え一連のストーリであっても、その登場人物を特定することは著しく困難であると言える。

[0009] 本発明は、例えば、上述した問題点に鑑みてなされたものであり、映像に登場する登場物の特定精度を向上させ得る登場物推定装置及び方法、並びにコンピュータプログラムを提供することを課題とする。課題を解決するための手段

[0010] <登場物推定装置 >

本発明の登場物推定装置は上記課題を解決するために、記録された映像に登場する登場物を推定するための登場物推定装置であって、所定種類の項目について予め設定された前記登場物に関する統計的性質を夫々有する複数の統計データを含むデータベースの中から、前記登場物のうち前記映像を所定種類の基準に従って分割してなる複数の単位映像のうちの一の単位映像に登場することが予め特定された登場物に対応する統計データを取得するデータ取得手段と、前記取得された統計データに基づいて、前記一の単位映像又は前記複数の単位映像のうち前記一の単位映像と相前後する他の単位映像における登場物を推定する推定手段とを具備する。

[0011] 本発明において、「映像」とは、例えば、ドラマ、映画、スポーツ、アニメ、料理、音楽

、又は情報など多様なジャンルに属する地上波放送、衛星放送、又はケーブルテレビ放送などの各種放送に係る番組に関する、アナログ又はデジタル方式の映像を指し、好適には、例えば地上波デジタル放送などのデジタル放送番組に関する映像を指す。或いは、デジタルビデオカメラなどで撮影された個人的な映像又は特定の目的を有する映像を指す。

[0012] また、このような映像における「登場物」とは、即ち、このような各種ジャンルの映像に対応した、例えば、ドラマや映画に登場する人物、動物若しくは何らかの物体、スポーッ選手、アニメのキャラクター、料理人、歌手、又は-ユースキャスタなどを指し、映像に登場するもの全てを含む概念である。 [0013] また、本発明において「登場」とは、例えば、人物を例に取った場合、映像中に登場人物の姿が現れている状態を指すに限らず、映像中に姿が現れていなくとも、その登場人物の声や登場人物から発せられる音などが含まれている状態も含む。即ち、視聴者に対し、登場物の存在を連想させるような場合も含まれる概念である。

[0014] このような映像をリアルタイムではなぐ予め、例えば DVD録画装置や HD録画装置などの、比較的映像の編集が容易なデジタル映像記録装置に録画して視聴する際には、例えば、所望する登場物のみを視聴したいという要求が自然と生じ得る。より具体的には、例えば、あるドラマ番組に関し、「俳優〇と女優 Xの二人の場面が観たい」といった要求が生じ得る。この際、例えば、視聴者が映像を逐次確認しつっこれらの映像を所望の形態に編集するのは精神的、肉体的、或いは時間的にみて極めて困難であり、何らかの手法により映像中の登場物を特定する必要が生じる。

[0015] ここで特に、画像認識、パターン認識、又は音声認識など公知の認識技術を用いた場合、従来技術として説明した如き、「横向きの顔は特定できない」などの諸問題を含有した比較的低い精度で登場物が特定される。このままでは、視聴者が例えば、「主人公〇〇が登場する△△のシーンを視聴したい」という要求をもっていても、同一シーン中であるにも拘らず、これら認識技術では登場物を特定できな力つた箇所が欠落した、極めて満足度の低ヽ映像が視聴者に提供される可能性が大である。

[0016] 然るに、本発明の登場物推定装置によれば、以下の如くにして係る欠点を補い得る。即ち、本発明の登場物推定装置によれば、その動作時には、先ず、データ取得手段によって、所定種類の項目について予め設定された、登場物に関する統計的性質を夫々有する複数の統計データを含むデータベースの中から、これら登場物のうち前記映像を所定種類の基準に従って分割してなる複数の単位映像のうちの一の単位映像に登場することが予め特定された登場物に対応する統計データが取得される。

[0017] 本発明において、「統計的性質を有する統計データ」とは、例えば、ある程度の量蓄積された過去の情報カゝら推測又は類推される情報を含むデータを指す。或いは、ある程度の量蓄積された過去の情報から演算、算出、又は特定される情報を含むデータを指す。即ち、「統計的性質を有する統計データ」とは、典型的には、映像に係る、ある事象の発生確率を表す確率データを指す。このような統計的性質を有するデータは、登場物の全てに対し設定されていてもよいし、一部に対し設定されていてもよい。

[0018] 例えば、統計的データの作成の一例として、映像の一部分 (例えば、全体の 10% 程度）に対して、顔認識を実行することにより特定された登場物に基づいて統計データが作成されてもよい。この場合、特定できない部分が発生し、連続した登場物データとしては、不完全なものである力例えば何 (誰）が、どの程度の確率で登場するか、或いは何 (誰）と一緒に登場する力などの基準値を作ることが可能となる。尚、この際、係る映像の一部分は、特定箇所ではなぐ映像全体から満遍なく分散して選択されれば好適である。

[0019] また、「所定種類の項目」とは、例えば、「登場人物 Aがドラマ番組 Bの第 1回放送分に登場する確率」など、登場物単体に関する項目や、例えば、「登場人物 Aと登場人物 Bとが一緒に居る確率」などのように登場物相互間の関係を表す項目などを指す。

[0020] 本発明において、「単位映像」とは、本発明に係る映像を所定種類の基準に従って分割してなる映像であり、例えば、ドラマ番組を例に挙げれば、単一のカメラワークにより得られる映像 (本明細書中では適宜「ショット」と称する）、内容的に連続する映像 (本明細書中では適宜、ショットの集合である「カット」と称する）、又は、同一空間を撮影した映像 (本明細書中では適宜、カットの集合である「シーン」と称する）などを指す。或いは、「単位映像」とは、単に一定の時間間隔で映像が分割されたものであってもよい。即ち、本発明における「所定種類の基準」とは、映像を相互に何らかの関連を有するような単位に分割可能な限りにお、て自由に決定されてよ、。

[0021] データ取得手段は、このような単位映像のうちの一の単位映像に登場することが予め特定された登場物に対応する統計データを、データベースの中から取得する。ここで、「予め特定」する態様は、何らの限定を受けずに自由であってよぐ例えば、放送番組を制作する製作会社などが、適当な映像単位 (例えば、 1シーン)毎に、例えば「このシーンには〇〇と△△と X Xが登場する」旨を映像情報と同時に、又は適当なタイミングで配信することによって「特定」されて、てもよ、し、既に述べたような公知の画像認識、パターン認識、又は音声認識技術などを用い、これら認識技術の限界内で単位映像中の登場物が特定されて、てもよ!/、。

[0022] 一方、このような統計データが取得されると、推定手段により、この統計データに基づ、て、前記一の単位映像又は前記単位映像のうち前記一の単位映像と相前後する他の単位映像における登場物が推定される。

[0023] ここで、「推定する」とは、例えば、データ取得手段によって取得された統計データによって表される定性的な要素（例えば、傾向）や定量的な要素（例えば、確率)などを加味して、最終的に一の単位映像又はそれと相前後する単位映像に、既に特定されている以外の登場物が登場していると判断することを指す。或いは既に特定されている以外の登場物が何 (誰)であるかを判断することを指す。従って、必ずしも実際に単位映像中における登場物を正確に特定することを指すものではな、。

[0024] 例えば、このような「推定する」一の態様として、ある一の単位映像 (例えば、一ショット）に、登場物 Aが登場することが特定されている場合に、データ取得手段によって、例えば、「登場物 Aは、登場物 Bと同一ショット中に登場する確率が高い」旨を示すデータや、「登場物 Bがこの映像中に登場する確率が高い」旨を示す統計データが取得され、このようなデータに基づいた統計的な判断によって、このショット中に登場物 Bが登場して、ると推定されてもよ!、。

[0025] 更に、このような推定は、この単位映像における登場物のみに限らず、この単位映像と相前後する単位映像中の登場物に対しても適用が可能である。例えば、ドラマなどにおける主要な登場物は、一ショットに限って登場することは稀であり、大抵の場合は複数ショットにわたって登場する。このような性質を定性的或いは定量的に規定する統計的性質のデータが存在するならば、例えば、「一のショットに登場することが特定されていれば次のショットにも登場している」旨の推定は容易に可能である。この場合には、例えば公知の顔認識技術などでは誰の存在も認識されなヽような単位映像中であっても、登場物の存在を推定することが可能となる。

[0026] 尚、本発明の登場物推定装置において、取得された統計データに基づいた推定手段による推定の基準は自由に設定されてよい。例えば、これら取得された統計データによって表されるある事象の確率力所定の閾値を超えた場合には、その事象が発生しているとみなしてもよい。或いは、実験的、経験的、或いはシミュレーションなどの各種手法により、これら取得されたデータ力より好適に登場物を推定し得る場合には、そのような手法により推定がなされてもよい。

[0027] このように、本発明の登場物推定装置によれば、公知の認識技術では特定不能とされた登場物 (例えば、横向きの登場人物)であっても、従来とは全く概念の異なる統計的な手法によってその存在を推定することが可能となり、登場物の特定精度を著しく向上させることが可能となるのである。

[0028] 例えば、あるカット中に横向きの人物のショット、人物が小さいショット、或いは体の一部しか映らないショットが混在していても、人間の感性では、それが誰であるのか瞬時に判断可能であるのに対し、従来の認識技術では、そのカット中には誰も登場しないか、或いは正体不明の人間が登場しているとし力認識されない。これに対し、本発明の登場物推定装置によれば、そのような感性的な不整合が改善され、極めて人間の感覚と近似した登場物の特定が可能となるのである。

[0029] 尚、推定手段による登場物の推定結果は、その性質上、複数の態様を採り得る。このように、一単位映像中の登場物が一意に推定されない場合には、視聴者側でその推定結果が任意に選択可能に構成されていてもよい。或いは、得られた複数種類の結果に対し、客観的な信憑性を数値的に規定し得る場合には、それら信憑性に基づ V、た順番で推定結果が提供されてもよ!、。

[0030] カロえて、本発明によれば、推定手段による推定が正、確率が高、程、有意義であることは言うまでもないが、該確率がさほど高くなくても、当該推定を行わない場合と比較すれば、映像に登場する人物の特定精度を向上させる上で大きく有利である。特に、本発明を、公知の認識技術と組み合わせることも容易であるので、推定手段による推定が正しい確率力 0より大きい正の値である限りにおいて、当該推定を行わない場合と比較して、映像に登場する登場物の特定精度を向上させる上で顕著に有利である。

[0031] 本発明の登場物推定装置の一の態様では、視聴が所望される登場物に関するデータの入力を促す入力手段を更に具備し、前記データ取得手段は、前記入力がなされた登場物に関するデータに基づいて前記統計データを取得する。

[0032] この態様によれば、例えば、視聴者が、自身が視聴を所望する登場物に関するデータを、入力手段を介して入力することが可能となる。ここで、「視聴を所望する登場物に関するデータ」とは、例えば、「俳優〇〇が見たい」旨を表すデータなどを指す。データ取得手段では、この入力されたデータに基づいて統計データを取得する。従つて、映像において、視聴者が所望する登場物が登場する部分、或いは登場すると推定される部分を効率良く抽出することが可能である。

[0033] 本発明の登場物推定装置の他の態様では、前記一の単位映像における登場物を前記一の単位映像の幾何学的特徴に基づいて特定する特定手段を更に具備する。

[0034] このような特定手段とは、即ち前述した、顔認識技術、又はパターン認識技術などを利用して登場物を特定する手段を指す。このような特定手段を備えることにより、その特定限界内においては、比較的に信憑性の高い登場物特定が可能となり、推定手段との間で言わば相補的に登場物の特定を行うことが可能である。従って、最終的に登場物を高い精度で特定することが可能となる。

[0035] 特定手段を有する本発明の登場物推定装置の一の態様では、前記推定手段は、前記一又は他の単位映像における登場物のうち前記特定手段により特定された登場物については推定せず、前記特定手段により特定されない登場物を推定する。

[0036] 特定手段を備える場合、例えば特定手段による登場物の特定に係る信憑性が推定手段よりも高いならば、特定手段によって特定された登場物については推定手段による推定を行う必要は余り生じない。この態様によれば、推定手段による登場物推定に係る処理負荷を軽減し得るので効果的である。

[0037] 本発明の登場物推定装置の他の態様では、前記推定手段による推定結果に基づいて、前記一の単位映像における登場物についての情報が少なくとも記述された所定のメタデータを生成するメタデータ生成手段を更に具備する。

[0038] ここで述べられる「メタデータ」とは、あるデータについての内容情報を記述したデータを指す。デジタル映像データには、このようなメタデータを付帯させることが可能であり、このメタデータによって、情報の検索を視聴者の要求に応じて的確に行うことが可能となる。この態様によれば、単位映像中の登場物が推定されると共に、メタデータ生成手段によって、そのような推定結果に基づいたメタデータが生成されるので、映像の編集を好適に実施可能である。尚、「推定結果に基づいて」とは、推定手段によって得られる推定結果についてのみが記載されたメタデータが生成されてもよく、予め登場することが特定されている登場物も併せた最終的に特定される登場物の情報が記載されたメタデータが生成されてもよい趣旨である。

[0039] 逆に、メタデータが統計データを担持しており、これをデータベースが抽出して格納するように構成することも可能である。

[0040] 本発明の登場物推定装置の他の態様では、前記データ取得手段は、前記統計データの少なくとも一部として、前記登場物の夫々が前記映像に登場する確率を表す確率データを取得する。

[0041] この態様によれば、データ取得手段が、統計データの少なくとも一部として、登場物の夫々が映像に登場する確率を表す確率データを取得するので、登場物を高い精度で推定することが可能である。

[0042] 尚、ここで述べられる「映像」とは、上述したショット、カット、或いはシーンなどの単位映像、一回の放送分に相当する映像、又は数回の放送分を集めた一シリーズ分の映像などの全て、又は少なくとも一部であってもよい。

[0043] このような登場物各々に設定されるデータは、映像における登場物の全てに対して設定されていなくともよい。例えば、登場する頻度が比較的に高い登場物についてのみ、映像に登場する確率が設定されていてもよい。

[0044] 本発明の登場物推定装置の他の態様では、前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物が登場する場合に、前記一の登場物が、前記一の登場物が登場する単位映像と相互に連続する M個（M：自然数)の単位映像に連続して登場する確率を表す確率データを取得する。

[0045] この態様によれば、データ取得手段が、統計データの少なくとも一部として、単位映像に登場物のうちの一の登場物が登場する場合に、この登場物が、この単位映像と相互に連続する M個の単位映像に連続して登場する確率を表す確率データを取得するので、登場物を高!、精度で推定することが可能である。

[0046] 尚、ここで変数 Mの値は、自然数である限り何らの制限を受けるものではなぐ映像の性質に合わせて適切に定められていれば好適である。例えば、ドラマなどの場合には、 Mの値を大きくし過ぎても、確率はほぼゼロになるだけであるから、データが有効に使用され得る範囲で Mの値が複数個設定されて、てもよ、。

[0047] 本発明の登場物推定装置の他の態様では、前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物が登場する場合に、前記一の登場物が登場する単位映像に前記一の登場物とは異なる他の登場物が N個（N：自然数)登場する確率を表す確率データを取得する。

[0048] この態様によれば、データ取得手段が、統計データの少なくとも一部として、単位映像に登場物のうちの一の登場物が登場する場合に、この一の登場物が登場する単位映像に、この一の登場物とは異なる他の登場物が N個（人間なら N人)登場する確率を表す確率データを取得するので、登場物を高、精度で推定することが可能である。

[0049] 尚、変数 Nの値は、自然数である限り何らの制限を受けるものではなぐ映像の性質に合わせて適切に定められていれば好適である。例えば、ドラマなどの場合には、登場物とみなせる人間が一の単位映像に大量に登場することは稀であり、 Nの値を大きくし過ぎても確率はほぼゼロになるだけであるから、データが有効に使用され得る範囲で Nの値が複数個設定されて、てもよ、。

[0050] 本発明の登場物推定装置の他の態様では、前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物が登場する場合に、前記一の登場物が登場する単位映像に、前記一の登場物を除く前記登場物の夫々が登場する確率を表す確率データを取得する。

[0051] この態様によれば、データ取得手段が、統計データの少なくとも一部として、単位映像に登場物のうちの一の登場物が登場する場合に、この一の登場物が登場する単位映像にこの一の登場物を除く登場物の夫々が登場する確率を表す確率データを取得するので、登場物を高、精度で推定することが可能である。

[0052] 本発明の登場物推定装置の他の態様では、前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物と、前記登場物のうち前記一の登場物とは異なる他の登場物とが登場する場合に、前記一の登場物及び他の登場物が、前記一の登場物及び他の登場物が登場する単位映像と相互に連続する S (L：自然数)の単位映像に連続して登場する確率を表す確率データを取得する。

[0053] この態様によれば、データ取得手段が、統計データの少なくとも一部として、単位映像に登場物のうちの一の登場物と、登場物のうち係る一の登場物とは異なる他の登場物とが登場する場合に、この一の登場物及び他の登場物が、係る単位映像と相互に連続する L個の単位映像に連続して登場する確率を表す確率データを取得するので、登場物を高い精度で推定することが可能である。

[0054] 尚、ここで変数 Lの値は、自然数である限り何らの制限を受けるものではなぐ映像の性質に合わせて適切に定められていれば好適である。例えば、ドラマなどの場合には、 Lの値を大きくし過ぎても、確率はほぼゼロになるだけであるから、データが有効に使用され得る範囲で Lの値が複数個設定されていてもよい。

[0055] 本発明の登場物推定装置の他の態様では、前記一の単位映像及び前記他の単位映像の夫々に対応する音声情報を取得する音声情報取得手段と、前記夫々に対応する音声情報を相互に比較する比較手段とを更に具備し、前記データ取得手段は、前記統計データの少なくとも一部として、前記一の単位映像と他の単位映像とが同一状況下における映像である確率を、前記比較手段による比較の結果に対応付けて表してなる確率データを取得する。

[0056] ここで述べられる「音声情報」とは、例えば、映像全体の音圧レベルであってもよ!/ヽし、特定の周波数の音声信号であってもよぐ単位映像の音声に関する何らかの物理的又は電気的な数値であって、単位映像の連続性を判別可能な限りにお!ヽてその態様は自由であってよい。

[0057] この態様によれば、データ取得手段が、統計データの少なくとも一部として、一の単位映像と他の単位映像とが同一状況下における映像である確率を、比較手段によるこれら音声情報の比較結果に対応付けて表してなる確率データを取得するので、登場物を高、精度で推定することが可能である。

[0058] 尚、この確率データは、単位映像の連続性を判断するためのデータであり、「一の単位映像に登場することが予め特定された登場物に対応するデータ」とは趣が異なつて見えるが、単位映像が連続的であるならば特定された登場物も引き続き登場しているのであり、従って、係る対応するデータの範疇である。

[0059] 尚、ここで述べられる「同一状況下における映像」とは、即ち、同一カット中の各ショット、同一シーン中の各カットなど、相互に関連性又は連続性の高い映像群を指す。 <登場物推定方法 >

本発明の登場物推定方法は上記課題を解決するために、記録された映像に登場する登場物を推定するための登場物推定方法であって、所定種類の項目について予め設定された前記登場物に関する統計的性質を夫々有する複数の統計データを含むデータベースの中から、前記登場物のうち前記映像を所定種類の基準に従って分割してなる複数の単位映像のうちの一の単位映像に登場することが予め特定された登場物に対応する一の統計データを取得するデータ取得工程と、前記取得された一の統計データに基づ、て、前記一の単位映像又は前記複数の単位映像のうち前記一の単位映像と相前後する他の単位映像における登場物を推定する推定工程とを具備する。

[0060] 本発明の登場物推定方法によれば、上述した登場物推定装置における各手段と対応する各工程によって、映像中に登場する登場物の特定精度を向上させ得る。 <コンピュータプログラム >

本発明のコンピュータプログラムは上記課題を解決するために、コンピュータシステムを上記、ずれかの推定手段として機能させる。

[0061] 本発明のコンピュータプログラムによれば、当該コンピュータプログラムを格納する ROM, CD-ROM, DVD-ROM,ハードディスク等の記録媒体から、当該コンビユータプログラムをコンピュータシステムに読み込んで実行させれば、或いは、当該コンピュータプログラムを、例えば、通信手段等を介してコンピュータシステムにダウンロードさせた後に実行させれば、上述した本発明の登場物推定装置を比較的簡単に実現可能である。

[0062] コンピュータ読取可能な媒体内のコンピュータプログラム製品は上記課題を解決するために、コンピュータにより実行可會なプログラム命令を明白に具現ィ匕し、該コンビユータを、上記いずれかの推定手段として機能させる。

[0063] 本発明のコンピュータプログラム製品によれば、当該コンピュータプログラム製品を格納する ROM、 CD-ROM, DVD-ROM,ハードディスク等の記録媒体から、当該コンピュータプログラム製品をコンピュータに読み込めば、或いは、例えば伝送波である当該コンピュータプログラム製品を、通信手段を介してコンピュータにダウン口ードすれば、上述した本発明の登場物推定装置を比較的容易に実施可能となる。更に具体的には、当該コンピュータプログラム製品は、上述した本発明の登場物推定装置として機能させるコンピュータ読取可能なコード (或いはコンピュータ読取可能な命令)から構成されてよい。

[0064] 尚、上述した本発明の登場物推定装置における各種態様に対応して、本発明のコンピュータプログラムも各種態様を採ることが可能である。

[0065] 以上説明したように、登場物推定装置は、データ取得手段、及び推定手段を具備するので、登場物の特定精度を向上させ得る。登場物推定方法は、データ取得工程、及び推定工程を具備するので、登場物の特定精度を向上させ得る。コンピュータプログラムは、コンピュータシステムを推定手段として機能させるので、登場物推定装置を比較的簡単に実現可能である。

[0066] 本発明のこのような作用及び他の利得は次に説明する実施例から明らかにされる。

図面の簡単な説明

[0067] [図 1]本発明の実施例に係る登場人物推定装置を含んだ登場人物推定システムのブロック図である。

[図 2]図 1の登場人物推定装置の特定部における人物特定の模式図である。

[図 3]図 1の登場人物推定システムにおける表示装置に表示される映像の登場人物の相関関係を表す相関テーブルの模式図である。

[図 4]図 1の登場人物推定システムにおける表示装置に表示される映像の構造の一部を表す模式図である。

[図 5]図 1の登場人物推定装置の第 1動作例に係る、登場人物が推定される過程を表す図である。

[図 6]図 1の登場人物推定装置の第 2動作例に係る、登場人物が推定される過程を表す図である。

[図 7]図 1の登場人物推定装置の第 3動作例に係る、登場人物が推定される過程を表す図である。

符号の説明

[0068] 10· ··登場人物推定装置、 20· ··統計 DB、 21· ··相関テーブル、 30· ··録画再生装置、 31· ··記憶部、 32· ··再生部、 40· ··表示装置、 41· ··映像、 100…制御部、 110· ·· CPU, 120· -ROM, 130- --RAM, 200· ··特定部、 300· ··音声解析部、 400· "メタデータ生成部、 1000…登場人物推定システム。

発明を実施するための最良の形態

[0069] 以下、本発明を実施するための最良の形態について実施例毎に順に図面に基づいて説明する。

[0070] 以下、本発明の好適な実施例について図面を参照して説明する。

<実施例の構成 >

始めに、図 1を参照して、本発明の実施例に係る登場人物推定装置の構成について説明する。ここに、図 1は、登場人物推定装置 10を含んでなる登場人物推定システム 1000のブロック図である。

[0071] 図 1において、登場人物推定システム 1000は、登場人物推定装置 10、統計データベース（DB) 20、録画再生装置 30、及び表示装置 40を備える。

[0072] 登場人物推定装置 10は、制御部 100、特定部 200、音声解析部 300、及びメタデータ生成部 400を備え、表示装置 40に表示される映像中の登場人物 (即ち、本発明に係る「登場物」の一例）を特定することが可能に構成された、本発明に係る「登場物推定装置」の一例である。

[0073] 制御部 100は、 CPU (Central Processing Unit) 110、 ROM (Read Only Memory) 120、及び RAM (Random Access Memory) 130を備える。

[0074] CPU110は、登場人物推定装置 10の動作を制御するユニットである。 ROM 120 は、読み出し専用のメモリであり、本発明に係る「コンピュータプログラム」の一例たる登場人物推定プログラムが格納されている。 CPU110は、係る登場人物推定プログラムを実行することにより、本発明に係る「データ取得手段」、及び「推定手段」の一例として機能するように、或いは、本発明に係る「データ取得工程」、及び「推定工程」の一例を実行可能なように構成されている。 RAM130は、書き換え可能なメモリであり、 CPU110が登場人物推定プログラムを実行する際に生じる各種データを一時的に格納することが可能に構成されて、る。

[0075] 特定部 200は、後述する表示装置 40に表示される映像に登場する人物を、その幾何学的特徴に基づいて特定することが可能に構成された、本発明に係る「特定手段」の一例である。

[0076] ここで、図 2を参照して、特定部 200による登場人物特定の詳細について説明する。ここに、図 2は、特定部 200による人物特定の模式図である。

[0077] 図 2において、特定部 200は、表示装置 40に表示される映像に対し、特定可能枠と認識可能枠とを使用して登場人物の特定を行うように構成されている。

[0078] 特定部 200は、人間の顔部分が、特定可能枠によって規定される領域以上の面積で表示されている場合には、係る人間の存在の認識、及びその人間が誰であるのかの特定の両方を行うことが可能に構成されている（図 2 (a) )。また、特定部 200は、人間の顔部分が、特定可能枠によって規定される領域未満であっても、認識可能枠によって規定される領域以上の面積で表示されて、る場合には、係る人間の存在を認識することが可能に構成されている（図 2 (b) )。一方、特定部 200は、人間の顔部分力認識可能枠によって規定される領域未満の面積で表示されている場合には、映像中に人間が存在していることすら認識することができない（図 2 (c) )。また、特定部 200は、ほぼ正面向きの人間の顔のみを特定の対象とする。従って、例えば横向きの顔は、例え特定可能枠によって規定される領域以上の面積で表示されていても、特定することはできない。

[0079] 図 1に戻り、音声解析部 300は、表示装置 40から放音される音声を取得すると共に、取得された音声に基づいて、後述するショットの連続性を判断することが可能に構成された、本発明に係る「音声情報取得手段」、及び「比較手段」の一例である。

[0080] メタデータ生成部 400は、 CPU110が登場人物推定プログラムを実行することによつて推定される登場人物に関する情報を含んだメタデータを生成することが可能に構成された、本発明に係る「メタデータ生成手段」の一例である。

[0081] 統計 DB20は、本発明に係る「統計的性質を有する統計データ」の夫々一例となるデータ Pl、データ P2、データ P3、データ P4、データ P5、及びデータ P6を格納するデータベースである。尚、これら各データについては後述する。

[0082] 録画再生装置 30は、記憶部 31及び再生部 32を備える。

[0083] 記憶部 31には、映像 41 (本発明に係る「映像」の一例である）の映像データが記憶されている。記憶部 31は、例えば、 HDなどの磁気記録媒体、或いは DVDなどの光情報記録媒体であり、係る映像 41は、デジタル形式の映像データとして、記憶部 31 に記憶されている。

[0084] 再生部 32は、記憶部 31に記憶された映像データを順次読み出し、表示装置 40〖こ表示させるべき映像信号を適宜生成して、表示装置 40に供給することが可能に構成されている。尚、録画再生装置 30には、記憶部 31に映像 41を録画するための録画手段を有するが、図示は省略されている。

[0085] 表示装置 40は、例えば、プラズマディスプレイ装置、液晶ディスプレイ装置、有機 E Lディスプレイ装置、又は CRT (Cathode Ray Tube)ディスプレイ装置などのディスプレイ装置であり、録画再生装置 30の再生部 31によって供給される映像信号に基づいて、映像 41を表示することが可能に構成されている。また、表示装置 40は、音声情報を視聴者に提供するべきスピーカなどの各種放音装置を備えるが図示は省略されている。

[0086] 次に、図 3を参照して、統計データベース 20に保管される各データの詳細について説明する。ここに、図 3は、映像 41に登場する登場人物の相関関係を表す相関テーブル 21の模式図である。

[0087] 図 3において、相関テーブル 21は、登場人物 Hm (m=01, 02, · · · , 13)、及び登場人物 Hn (n=01, 02, · · · , 13)を夫々マトリクス状に配置してなるテーブルである。ここで、登場人物 Hm及び登場人物 Hnは、夫々映像 41における登場人物を表し、「m=n」である場合には、同一の登場人物を表す。本実施例では、映像 41の登場人物は 13人であるとする。尚、登場人物の人数は、ここに例示する数に限定されず、自由に設定されてよい。また、相関テーブル 21に記述される登場人物は、映像 41に登場する全ての人物である必要はなぐ例えば、重要な役割を有する人物のみであつてもよい。

[0088] 相関テーブル 21において、登場人物 Hmと登場人物 Hnとの交点に相当する要素は、登場人物 Hnと登場人物 Hmとの相関関係を表す統計データ群「Rm, n」を表す (但し、 m≠n)。統計データ群「Rm, n」は、下記（1)式によって表される。

[0089] Rm, n=P4 (Hm | Hn) , P5 (S | Hm, Hn) (1)

ここで、 P4 (Hm I Hn)とは、登場人物 Hnが登場している場合に、登場人物 Hmが同一のショットに登場する確率を表すデータであり、統計 DB20に保管されるデータ P4に相当する。尚、本実施例においては、ショットに限定される力データ P4は、例えば「シーン」及び「カット」につ、て同様に設定されてヽても構わな!/、。

[0090] また、 P5 (S I Hm, Hn)とは、映像 41において登場人物 Hnと Hmとが一のショットに登場した場合に、それが S個のショットにわたって連続する確率を表すデータであり、統計 DBに保管されるデータ P5に相当する。

[0091] 一方、相関テーブル 21において、「m=n」である場合に限り、登場人物 Hmと登場人物 Hnとの交点に相当する要素は、登場人物個人に関する統計データ群「In ( = I m)」を表す。統計データ群「In」は、下記（2)式によって規定される。

[0092] In=Pl (Hn) , P2 (S | Hn) , P3 (N | Hn) (2)

ここで、 Pl (Hn)とは、登場人物 Hnが映像 41に登場する確率を表すデータであり、統計 DB20に保管されるデータ P1に相当する。

[0093] また、 P2 (S I Hn)とは、映像 41の一ショットに登場人物 Hnが登場した場合に、それが S個のショットにわたって連続する確率を表すデータであり、統計 DB20に保管されるデータ P2に相当する。

[0094] 更に、 P3 (N I Hn)とは、映像 41における一のショットに登場人物 Hnが登場する場合に、係るショットに登場人物 Hnとは異なる登場人物が N人 (N:自然数)登場する確率を表すデータであり、統計 DB20に保管されるデータ P3に相当する。

[0095] 尚、統計 DB20には、テーブル 21では規定されないデータ P6が保管されている。

データ P6とは、 P6 (C I Sn)と表され、ショット Sn— Cから Snにかけての C+ 1個のシヨットが同一カット中のショットである確率を音声認識部 300の音声認識結果に対応付けて表したデータである。

[0096] 即ち、統計 DB20に格納されるデータ P1〜P6は、本発明に係る「確率データ」の夫々一例でもある。 <実施例の動作 >

続いて、本実施例に係る登場人物推定装置 10の動作について説明する。

[0097] 始めに、図 4を参照して、本実施例の動作に係る映像の詳細について説明する。ここに、図 4は、映像 41の構造の一部を表す模式図である。

[0098] 映像 41は、例えば、ドラマなどのストーリ性の高い映像番組である。図 4において、映像 41の一シーンであるシーン SC1は、 4個のカット C1〜C4で構成されており、更に、そのうちの一であるカット C1は、更に、 6個のショット SH1〜SH6によって構成されている。この各ショットは、夫々本発明に係る「単位映像」の一例であり、ショット SH 1が 10秒、 SH2が 5秒、 SH3力 0秒、 SH4力秒、 SH5力秒、及び SH6が 5秒の時間を有する映像である。従って、カット C1は、 45秒の時間を有する映像である。 <第 1動作例 >

次に、図 5を参照して、本発明の第 1動作例について説明する。ここに、図 5は、映像 41のカット C1において登場人物が推定される過程を表す図である。尚、係る登場人物の特定は、 CPU110が ROM130に格納される登場人物推定プログラムを実行すること〖こよって実現される。

[0099] 始めに、 CPU110は、録画再生装置 30の再生部 32を制御して、映像 41を表示装置 40に表示させる。この際、再生部 32は、映像 41に関する映像データを記憶部 31 より取得すると共に、表示装置 40に表示させるための映像信号を生成して、表示装置 40に供給し表示させる。こうして、図 5に示すようにカット C1の表示が開始されると、最初にショット SH1が表示装置 40に表示される。

[0100] 尚、図 5において、「映像」の項目には、表示装置 40の表示内容を示し、登場人物は夫々 Hxp (p = 0, 1, 2, · · · , P (但し、 Pは通し番号となる自然数)）と表すこととする。また、カット C1は、ショット SH1〜SH6により構成され、登場人物 H01と登場人物 H02との二人のカットである（図 5における「事実」の項目参照）とする。

[0101] CPU110は、映像 41の表示が開始されると、特定部 200、音声解析部 300、及びメタデータ生成部 400を夫々制御し、各部の動作を開始する。

[0102] 特定部 200は、この CPU110の制御に従って、映像 41における登場人物の特定を開始する。カット C1のショット SH1においては、 Hxl及び Hx2力夫々十分に大きい面積で表示されているため、特定部 200は、これら二人を夫々登場人物 H01及び登場人物 H02であると特定する。

[0103] 特定部 200によって登場人物が特定されると、 CPU110は、メタデータ生成部 400 を制御して、ショット SH1に関するメタデータを生成する。この際、メタデータ生成部 4

00は、「ショット SH1には登場人物 H01と H02とが登場している」旨が記述されたメタデータを生成する。生成されたメタデータは、ショット SH1に係る映像データに対応付けられる形で記憶部 31に記憶される。

[0104] 尚、特定部 200は、表示装置 40における表示内容の幾何学的な変化量が、所定の範囲内に収まっている場合には、同一のショットであると判断するように構成されている。

[0105] ショット SH1の表示開始から 10秒が経過する（以下、「経過時間」とする）と（図 5における「時間」の項目参照）、映像はショット SH2に切り替わる。即ち、表示装置 40の表示内容に幾何学的な変化が生じる。ここで、特定部 200は、ショットが切り替わったと判断し、新たに登場人物の特定を開始する。ショット SH2は、登場人物 H01に焦点が当たったショットであり、登場人物 H02である Hx4は殆ど表示装置 40の表示領域外となっている。この状態では、特定部 200は Hx4の存在を認識することすらできないため、特定部 200によって特定される登場人物は Hx3、即ち登場人物 H01のみとなる。

[0106] ここで、 CPU110は、特定部 200による登場人物の特定を補完するために、登場人物の推定を開始する。始めに CPU110は、音声解析部 300による音声解析結果を RAM 130に一時的に格納する。この格納された音声解析結果とは、特定部 200 がショットの切り替わりであると判断した時刻前後における表示装置 40から取得した音声データの比較結果である。具体的には、音声解析部 300によって演算された、係る時刻前後の音圧レベルの差分、又は含まれる周波数帯域の比較データなどである。

[0107] CPU110は、この音声解析結果に鑑み、統計 DB20からデータ P6を取得する。より具体的には、データ P6の中の、「P6 (C= 1 I S2)」を取得する。これは、ショット SH 1力ショット SH2にかけての連続する 2個のショットが同一のカットに属するショットである確率を表すデータである。

[0108] CPU110は、この取得されたデータ P6と、 RAM 130に格納された音声解析結果とを照合する。この照合によれば、音声解析力判断される、係る一連のショットが同一カット内のショットである確率は 70%より大きい。

[0109] 次に、 CPU110は、ショット SH1において登場人物 H01と登場人物 H02とが登場していることから、統計 DB20よりデータ P4を取得する。より具体的には、データ P4の中の、「P4 (H02 I H01)」を取得する。これは、登場人物 H01が登場している場合に、登場人物 H02が同一ショットに登場する確率を表すデータである。この取得されたデータ P4によれば、この確率は 70%より大きい。

[0110] 更に、 CPU110は、ショット SH1において登場人物 H01と H02とが登場していることから、統計 DB20よりデータ P5を取得する、より具体的には、データ P5の中の、「P 5 (S = 2 I H02, 01)」を取得する。これは、登場人物 H01と登場人物 H02とが一のショットに登場している場合に、それが 2ショットにわたって連続する確率を表すデータである。この取得されたデータ P5によれば、この確率は 70%より大きい。

[0111] CPU110は、これら得られた確率を推定要素とし、最終的にショット SH2にも登場人物 H02が登場して、ると推定する。

[0112] その推定結果を受けて、メタデータ生成部 400は、「ショット SH2には登場人物 H0 1と H02とが登場している」旨が記述されたメタデータを生成する。

[0113] 経過時間が 15秒になると、映像はショット SH3に切り替わる。ここでも、特定部 200 はショットが切り替わつたと判断し、新たに登場人物の特定を開始する。ショット SH3 は、登場人物 H02に焦点が当たったショットであり、登場人物 H01である Hx5は、殆ど表示装置 40の表示領域外となっている。この状態では、特定部 200は Hx5の存在を認識することすらできないため、特定部 200によって特定される登場人物は Hx6、即ち登場人物 H02のみである。

[0114] CPU110は、ここでもショット SH2と同様にして登場人物の推定を行う。この際、 CP U110は統計 DB20力ゝら、データ P6、データ P4、及びデータ P5を取得する。より具体的には、データ P6によって、ショット SH1からショット SH3にかけての一連の 3ショットが同一カット中のショットである確率力データ P4によって、登場人物 H01が登場している場合に登場人物 H02が同一ショットに登場する確率力更に、データ P5によって、登場人物 H01と登場人物 H02とが一のショットに登場している場合に、それ力 S3ショットにわたって連続する確率力夫々推定要素として与えられる。 CPU110 は、これら推定要素から、ショット SH3にも登場人物 H01が登場していると推定する。その推定結果を受けて、メタデータ生成部 400は、「ショット SH3には登場人物 H01 と H02とが登場して、る」旨が記述されたメタデータを生成する。

[0115] 経過時間が 25秒となり、映像がショット SH4に切り替わると、特定部 200は、登場人物の特定を新たに開始する。この際、ショット SH1と同様にして、登場人物が登場人物 H01と H02であることが特定される。ここでは、 CPU110は特に登場人物の推定を実行しない。

[0116] 経過時間が 30秒となり、再びショットが切り替わると、特定部 200は係るショット SH5 について登場人物の特定を開始する。しかしながら、ショット SH5においては、 Hx9 及び HxlOが夫々特定可能枠によって規定される面積よりも小さ!/、領域に表示されているため、特定部 200は二人の人間が存在することは認識できても、それが誰であるのかを特定することはできな!、。

[0117] CPU110は、特定部 200によって、ショット SH5に二人の人物が登場していることは既に認識されているので、推定部 200によって係る二人の人物が誰であるかを推定する。即ち、統計 DB20から、データ P6、データ P4、及びデータ P5を取得する。

[0118] 先ず、データ P6により、ショット SH1からショット SH5にかけての一連の 5ショットが同一カットである確率が、データ P4により、登場人物 H01が登場している場合に登場人物 H02が同一ショットに登場する確率、及び登場人物 H02が登場している場合に登場人物 H01が同一ショットに登場する確率力そして、データ P5により、登場人物 H01と H02とが登場している場合に、それが 5ショットにわたって連続する確率が、夫々推定要素として与えられる。 CPU110は、これら推定要素から、ショット SH5における登場人物は、登場人物 H01と H02であると推定する。その推定結果を受けて、メタデータ生成部 400は、「ショット SH5には登場人物 H01と H02とが登場している」旨が記述されたメタデータを生成する。

[0119] 経過時間が 40秒となって、映像がショット SH6に切り替わると、特定部 200は、新たに登場人物の特定を開始する。ここでは、ショット SH1及びショット SH4と同様にして、登場人物が登場人物 H01と登場人物 H02であることが特定されて、カット C1に係る登場人物の特定が終了する。

[0120] ここで、登場人物推定装置 10の効果を、メタデータ生成部 400によって生成されたメタデータに関連付けて説明する。

[0121] メタデータ生成部 400は、上述した特定部 200による特定及び CPU110による推定の結果を受けて、カット C1に係る全てのショットについて、「登場人物が登場人物 H01と登場人物 H02である」旨を示すメタデータを生成している。従って、例えば、後々、視聴者力 ^登場人物 H01と登場人物 H02とが両方登場するカット」を検索する際、このメタデータをインデックスとして、ショットの欠落のない完全なカット C1を簡便に抽出することが可能となる。

[0122] 一方、比較例として、特定部 200による登場人物の特定結果のみに基づいてメタデータが生成された場合（図 5の比較例参照）を挙げると、カット C1において、登場人物 H01と H02が両方共登場する旨が記述されたショットは、ショット SH1、 SH4、及び SH6のみであり、メタデータをインデックスとして、同じようにカット C1を抽出する場合、ショット SH2、 SH3、及び SH5が欠落した形でカット CIが抽出される。これでは、会話も、映像も全てが途切れ途切れとなり、極めて不完全な抽出結果となって、視聴者に不満を抱力せることとなる。

[0123] 以上説明したように、本実施例に係る登場人物推定装置 10によれば、映像に登場する人物の特定精度を簡便にして向上させることが可能となるのである。

[0124] 尚、上述した第 1動作例において、ショット SH1、ショット SH4及びショット SH6の夫々に対し、 CPU110は特に登場人物の推定を実行しないが、例えば、積極的に何らかの統計データを統計 DB20から取得して推定が行われる可能性もある。そのような場合には、例えば、存在しない人間を登場人物として推定してしまうことも考えられる。し力しながら、 CPU110は、特定部 200によって特定された登場人物に対しては推定を行わないように設定することも容易に可能であり、従って、既に特定されている登場人物が「存在しない」と推定されることはない。即ち、推定結果が冗長となる可能性はあっても、登場して、る人物を漏れのな、ように特定する精度が劣化する可能性はゼロに等し、ので有益である。

<第 2動作例 >

次に、図 6を参照して、本発明に係る登場人物推定装置 10の第 2動作例について説明する。ここに、図 6は、映像 41のカット C1において登場人物が推定される過程を表す図である。但し、上述の第 1動作例とはカット C1の内容が異なるものとする。尚、同図において、図 5と重複する箇所には同一の符号を付してその説明を省略する。

[0125] 図 6において、カット C1は、第 1実施例と同様に 6個のショットからなる。但し、全てのショットにおいて、登場人物は登場人物 H01のみであり、他の登場人物は登場しない。

[0126] 図 6のショット SH1、 SH3、及び SH6においては、 Hxl、 Hx3及び Hx6は十分に大きい表示面積で表示されており、夫々特定部 200によって容易に登場人物 H01 であると特定される。

[0127] 一方、ショット SH2において、 Hx2は胴体部分よりも下方が表示されており、特定部 200は、人間が存在して、ることを認識することができな!/、。

[0128] ここで、 CPU110は、ショット SH2に登場人物が存在する力、更にはそれが誰であるのかを推定するために、統計 DB20から、データ P6、データ Pl、及びデータ P2を夫々取得する。具体的には、データ P6の中の「P6 (C= 1 I S2)」、データ PIの中の「P1 (H01)」、及びデータ P2の中の「P2 (S2 | H01)」を夫々取得する。

[0129] これらデータのうち、「P6 (C = 1 I S2)」は、第 1動作例で既に述べたのと同様、ショットの連続性の判断に使用される。即ち、ショット SH1からショット SH2にかけての一連の 2ショットが、同一カット中のショットである確率が推定要素として与えられる。

[0130] また、「P1 (H01)」からは、登場人物 H01が映像 41に登場する確率が推定要素として与えられる。そして、「P2 (S2 I H01)」から、登場人物 HOIがーのショットに登場して、る場合に、それが 2ショットにわたって連続する確率が推定要素として与えられる。

[0131] CPU110は、これら 3個の推定要素から、ショット SH2力ショット SH1と同一カット中のショットである確率が高ぐ登場人物 H01が登場する確率が高ぐ登場人物 H01 カ^シヨットに連続して登場する確率が高いと判断し、ショット SH2に登場人物 H01が登場していると推定する。

[0132] 次に、映像がショット SH4に切り替わると、表示装置 40には Hx4が表示されず、 Hx 4の所有物である「煙草」のみが表示される。ここで、視聴者は、この煙草力 Hx4が登場人物 H01であると容易に想像することが可能であるが、特定部 200は、人間の存在すら認識することができな、。

[0133] CPU110は、ここでも、ショット SH2において登場人物 H01を推定したのと同様の手法により、データ P6、データ Pl、及びデータ P2に基づいて登場人物 HOIがショット SH4に登場して、ることを推定する。

[0134] 更に、映像がショット SH5に切り替わると、表示装置 40には「コーヒーカップ」が表示される。ここでも、視聴者はこのアイテムによって示唆される登場人物が登場人物 H01であると容易に想像可能であるが、特定部 200は、人間の存在すら認識することができない。

[0135] ここで、 CPU110は、ショット SH2及び SH4において、登場人物 H01の登場を推定したのと同様の手法により、このショット SH5にも登場人物 H01が登場していると推定する。

[0136] このようなカット C1中の一連の推定動作により、結果的にメタデータ生成部 400によって生成されるメタデータには、ショット SH1から SH6にかけての 6個のショット全てに登場人物 H01が登場している旨が記述される。

[0137] 一方、第 1動作例と同様に、比較例と比較すると、カット C1において登場人物 H01 が登場しているとされるショットはショット SH1、 SH3、及び SH6のみとなり、「登場人物 H01が単独で登場するカット」が検索される場合、例えば、これら不連続な 3個のショットが抽出されることとなり、極めて不自然な映像が視聴者に提供される。

[0138] このように、第 2動作例においても、本実施例に係る登場人物推定の効果は存分に発揮され、登場人物の特定精度が著しく向上する。

<第 3動作例 >

次に、図 7を参照して、本発明に係る登場人物推定装置 10の第 3動作例について説明する。ここに、図 7は、映像 41のカット C1において登場人物が推定される過程を表す図である。但し、上述の動作例とは、カット C1の内容が異なる。尚、同図において、図 5と重複する箇所には同一の符号を付してその説明を省略する。

[0139] 図 7において、カット C1は単一のショット SH1からなる。ショット SH1では、登場人物 H01、 H02、及び H03が登場する力登場人物 H01以外の二人は、特定部 200の認識可能枠によって規定される領域よりも小さい面積で表示されている。従って、存在が認識されるのは、特定部 200によって特定される登場人物 H01のみとなり、他の二人はその存在すら認識されない。ここで、 CPU110は、以下の如くにして登場人物 HO 1以外の登場人物を推定する。

[0140] 先ず、 CPU110は、統計 DB20から、データ P4及びデータ P3を取得する。より具体的には、データ P4の中の「P4 (H02, H03 | H01)」、及びデータ P3の中の「P3 ( 2 I H01)」を取得する。

[0141] 前者は、一のショットに登場人物 H01が登場している場合に、登場人物 H02及び登場人物 H03が同一ショットに登場する確率を表すデータであり、その確率は 70% より大きい。また、後者は、一のショットに登場人物 H01が登場する場合に、登場人物 HO 1を除く二人の登場人物が同一ショットに登場する確率を表すデータであり、その確率は 30%より大きい。

[0142] CPU110は、これらのデータを推定要素とし、登場人物 H01の他に、登場人物 H0 2及び登場人物 H03が登場していると推定する。従って、メタデータ生成部 400によつて生成されるメタデータには、ショット SH1の登場人物は登場人物 H01、 H02、及び H03である旨が記述される。

[0143] 一方、比較例においては、特定部 200による登場人物特定結果し力反映されないため、生成されるメタデータには、ショット SH1の登場人物は登場人物 H01である旨のみが記述される。従って、例えば「登場人物 H01、 H02、及び H03」が登場する力ット」を検索する場合には、本実施例によれば、第 3動作例に係るカット C1を瞬時に検索可能であるのに対し、比較例では、登場人物 H01が登場する膨大なカットの中力も所望のカットを視聴者が検索しなければならなくなり、大変に非効率的である。

[0144] 尚、統計 DB20に格納されるデータは、上述したデータ P1からデータ P6以外にも、映像中の登場人物を推定可能な限りにおいて自由に設定されてよい。例えば、複数回にわたって放送されるドラマ番組などでは、「第〇〇回の放送分に登場人物△△ が登場する確率」を表すデータが設定されていてもよいし、また、「登場人物△△と登場人物□□が登場した場合にそれ以外の登場人物が N人登場する確率」を表すデータが設定されて、てもよ、。

[0145] 尚、登場人物推定装置 10は、ユーザによる入力が可能な、キーボード或いはタツチボタンなどの入力手段を備えていてもよい。この入力手段を介して、ユーザが視聴を所望する登場人物のデータを登場人物推定装置 10に指示してもよい。この場合、登場人物推定装置 10は、統計 DB20の中から、係る入力されたデータに対応する統計データを選択して取得し、係る登場人物が登場するカットやショットなどを検索してもよい。或いは、上述の各実施例において、係る視聴が所望される登場人物が存在する力否かを、係る取得された統計データを参照して積極的に推定してもよ!/、。

[0146] 尚、本実施例においては、本発明に係る「登場物」の一例である登場人物を特定する態様について延べたが、既に述べたように、本発明において「登場物」とは人物に限定されず、動物、植物、或いは何らかの物体であってもよぐ映像に登場するこれらを、本実施例と同様にして特定することも勿論可能である。

[0147] 本発明は、上述した実施例に限られるものではなぐ請求の範囲及び明細書全体力読み取れる発明の要旨或いは思想に反しない範囲で適宜変更可能であり、そのような変更を伴う登場物推定装置及び方法、並びにコンピュータプログラムもまた本発明の技術的範囲に含まれるものである。

産業上の利用可能性

[0148] 本発明に係る登場物推定装置及び方法、並びにコンピュータプログラムは、例えば、映像に登場する登場物の特定精度を向上させ得る登場物推定装置に利用可能である。また、例えば民生用或いは業務用の各種コンピュータ機器に搭載される又は各種コンピュータ機器に接続可能な登場物推定装置等にも利用可能である。

Claims

請求の範囲

[1] 記録された映像に登場する登場物を推定するための登場物推定装置であって、所定種類の項目について予め設定された前記登場物に関する統計的性質を夫々有する複数の統計データを含むデータベースの中から、前記登場物のうち前記映像を所定種類の基準に従って分割してなる複数の単位映像のうちの一の単位映像に登場することが予め特定された登場物に対応する統計データを取得するデータ取得手段と、

前記取得された統計データに基づ、て、前記一の単位映像又は前記複数の単位映像のうち前記一の単位映像と相前後する他の単位映像における登場物を推定する推定手段と

を具備することを特徴とする登場物推定装置。

[2] 視聴が所望される登場物に関するデータの入力を促す入力手段を更に具備し、前記データ取得手段は、前記入力がなされた登場物に関するデータに基づ!/、て前記統計データを取得する

ことを特徴とする請求の範囲第 1項に記載の登場物推定装置。

[3] 前記一の単位映像における登場物を前記一の単位映像の幾何学的特徴に基づヽて特定する特定手段を更に具備する

[4] 前記推定手段は、前記一又は他の単位映像における登場物のうち前記特定手段により特定された登場物については推定せず、前記特定手段により特定されない登場物を推定する

ことを特徴とする請求の範囲第 3項に記載の登場物推定装置。

[5] 前記推定手段による推定結果に基づいて、前記一の単位映像における登場物につ!、ての情報が少なくとも記述された所定のメタデータを生成するメタデータ生成手段を更に具備する

[6] 前記データ取得手段は、前記統計データの少なくとも一部として、前記登場物の夫々が前記映像に登場する確率を表す確率データを取得することを特徴とする請求の範囲第 1項に記載の登場物推定装置。

[7] 前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物が登場する場合に、前記一の登場物が、前記一の登場物が登場する単位映像と相互に連続する M個（M：自然数)の単位映像に連続して登場する確率を表す確率データを取得する

[8] 前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物が登場する場合に、前記一の登場物が登場する単位映像に前記一の登場物とは異なる他の登場物が N個（N：自然数)登場する確率を表す確率データを取得する

[9] 前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物が登場する場合に、前記一の登場物が登場する単位映像に、前記一の登場物を除く前記登場物の夫々が登場する確率を表す確率データを取得する

[10] 前記データ取得手段は、前記統計データの少なくとも一部として、前記単位映像に前記登場物のうちの一の登場物と、前記登場物のうち前記一の登場物とは異なる他の登場物とが登場する場合に、前記一の登場物及び他の登場物が、前記一の登場物及び他の登場物が登場する単位映像と相互に連続する S (L：自然数)の単位映像に連続して登場する確率を表す確率データを取得する

[11] 前記一の単位映像及び前記他の単位映像の夫々に対応する音声情報を取得する音声情報取得手段と、

前記夫々に対応する音声情報を相互に比較する比較手段と

を更に具備し、

前記データ取得手段は、前記統計データの少なくとも一部として、前記一の単位映像と他の単位映像とが同一状況下における映像である確率を、前記比較手段による比較の結果に対応付けて表してなる確率データを取得する

[12] 記録された映像に登場する登場物を推定するための登場物推定方法であって、所定種類の項目について予め設定された前記登場物に関する統計的性質を夫々有する複数の統計データを含むデータベースの中から、前記登場物のうち前記映像を所定種類の基準に従って分割してなる複数の単位映像のうちの一の単位映像に登場することが予め特定された登場物に対応する一の統計データを取得するデータ取得工程と、

前記取得された一の統計データに基づ、て、前記一の単位映像又は前記複数の単位映像のうち前記一の単位映像と相前後する他の単位映像における登場物を推定する推定工程と

を具備することを特徴とする登場物推定方法。

[13] コンピュータシステムを請求の範囲第 1項に記載の推定手段として機能させることを特徴とするコンピュータプログラム。