WO2008050718A1

WO2008050718A1 - Dispositif d'extraction d'informations de droit, procédé d'extraction d'informations de droit et programme

Info

Publication number: WO2008050718A1
Application number: PCT/JP2007/070550
Authority: WO
Inventors: Ryoma Oami
Original assignee: Nec Corporation
Priority date: 2006-10-26
Filing date: 2007-10-22
Publication date: 2008-05-02
Also published as: JP5218766B2; JPWO2008050718A1

Description

明細書

権利情報抽出装置、権利情報抽出方法及びプログラム

技術分野

[0001] 本発明は権利情報抽出装置、権利情報抽出方法及びプログラムに関し、特に、番組等のコンテンツから、著作権や著作隣接権などの権利に関する情報を抽出する権利情報抽出装置、権利情報抽出方法及びプログラムに関する。

背景技術

[0002] 従来、コンテンツに付随する著作権などの権利を管理する権利管理システムが、例えば、特許文献 1に記載されている。

[0003] 特許文献 1に記載されて!/、る権利管理システムは、コンテンツマネジメントサーバで著作権などの権利を一括管理し、契約管理サーバや課金サーバ、認証サーバなどと連携することによって、コンテンツ利用者の要求に応じた自動契約、およびコンテンッのセキュアな流通を実現して!/、る。

[0004] 一方、権利情報は、仲介業者によって人手により登録されることを前提としている。

すなわち、権利情報のデータベースの整備は人手に頼っているのが現状であり、過去に制作したコンテンツを、特許文献 1に記載されたようなシステムで取り扱えるようにするためには、誰かが権利情報を抽出し、仲介業者等を通じてデータベースに登録する必要がある。

[0005] しかしながら、過去のコンテンツの場合、契約情報の詳細などが残って!/、な!/、場合も多く、まず、誰がコンテンツの権利を有するかを明確にする必要がある。従来、これらの作業は人手で確認しながら登録するようになっており、このプロセスに非常に膨大な工数を費やさねばならないという問題があった。これが、例えば、テレビ放送されたドラマなどの優良コンテンツが二次流通市場に流れない原因ともなつていた。

[0006] 特許文献 1：特開 2002— 109254号公報

発明の開示

発明が解決しょうとする課題

[0007] 第 1の問題点は、映像などのコンテンツに関連する権利情報の特定が自動化されていないことである。このため、過去コンテンツの利用に際しては、コンテンツの権利者を特定するために、人手で権利情報を抽出しなければならず、膨大な手間がかかつていた。

[0008] 第 2の問題点は、これをテロップ認識などの技術によって抽出する場合には、精度が十分でないことである。その理由は、通常のテロップ認識では、権利情報に特化していないため、精度が低いという問題があった。また、権利に関係のない情報も多く含まれ、権利情報の特定が困難であるという問題があった。

[0009] そこで、本発明は上記課題に鑑みて発明されたものであって、映像などのコンテンッから権利に関する情報を自動抽出できる権利情報抽出装置及び権利情報抽出方法を提供することである。

課題を解決するための手段

[0010] 上記課題を解決する本発明は、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力するクレジット情報認識手段を有することを特徴とする。

[0011] 上記課題を解決する本発明は、コンテンツから権利に関する権利情報を抽出する権利情報抽出装置であって、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力するクレジット情報認識手段と、前記コンテンツを解析し、コンテンツ内の権利に関する対象物を認識して、その結果を対象物識別情報として出力する対象物認識手段と、前記クレジット候補情報と、前記対象物識別情報とを統合し、権利情報として出力する統合手段とを有することを特徴とする。

[0012] 上記課題を解決する本発明は、コンテンツから権利に関する権利情報を抽出する権利情報抽出装置であって、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力するクレジット情報認識手段と、前記クレジット候補情報を参照し、前記コンテンツを解析してコンテンツ内の権利に関する対象物を認識して、その結果を対象物識別情報として出力する対象物認識手段と、前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力する統合手段とを有することを特徴とする。

[0013] 上記課題を解決する本発明は、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力することを特徴とする権利情報抽出方法である。

[0014] 上記課題を解決する本発明は、コンテンツから権利に関する権利情報を抽出する権利情報抽出方法であって、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力する処理と、前記コンテンツを解析し、コンテンッ内の権利に関する対象物を認識して、その結果を対象物識別情報として出力する処理と、前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力する処理とを有することを特徴とする。

[0015] 上記課題を解決する本発明は、コンテンツから権利に関する権利情報を抽出する権利情報抽出方法であって、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力する処理と、前記クレジット候補情報を参照し、前記コンテンツを解析してコンテンツ内の権利に関する対象物を認識して、その結果を対象物識別情報として出力する処理と、前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力する処理とを有することを特徴とする。

[0016] 上記課題を解決する本発明は、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力する処理を情報処理装置に実行させること

[0017] 上記課題を解決する本発明は、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力する処理と、前記コンテンツを解析し、コンテンッ内の権利に関する対象物を認識して、その結果を対象物識別情報として出力する処理と、前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力する処理とを情報処理装置に実行させることを特徴とするプログラムである。

[0018] 上記課題を解決する本発明は、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力する処理と、前記クレジット候補情報を参照し、前記コンテンツを解析してコンテンツ内の権利に関する対象物を認識して、その結果を対象物識別情報として出力する処理と、前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力する処理とを情報処理装置に実行させることを特 ί毁とするプログラムである。発明の効果

[0019] 本発明は、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力するようにしているので、コンテンツに関連する権利に関する情幸を精度良く、自動由出すること力 Sできる。

[0020] また、著作権等のコンテンツに関連する権利に関する情報を、コンテンツから抽出する処理の省力化が図れる点である。その理由は、コンテンツから自動的に著作権などの権利情報を抽出することが可能になるためである。

図面の簡単な説明

[0021] [図 1]図 1はクレジット認識手段 100のブロック図である。

[図 2]図 2はクレジット情報重畳区間検出手段 400の構成を示した図である。

[図 3]図 3は主題歌検知手段 410の具体的な構成を示した図である。

[図 4]図 4は主題歌検知手段 410の他の具体的な構成を示した図である。

[図 5]図 5は主題歌検知手段 410の他の具体的な構成を示した図である。

[図 6]図 6は主題歌検知手段 410の他の具体的な構成を示した図である。

[図 7]図 7は主題歌検知手段 410の他の具体的な構成を示した図である。

[図 8]図 8は主題歌検知手段 410の他の具体的な構成を示した図である。

[図 9]図 9はクレジット情報重畳区間検出手段 400の他の構成を示した図である。

[図 10]図 10はクレジット情報重畳区間検出手段 400の他の構成を示した図である。

[図 11]図 11はクレジット情報重畳区間検出手段 400の他の具体的な構成を示した図である。

[図 12]図 12はクレジット情報読み取り手段 600の一例を示した図である。

[図 13]図 13はクレジット情報読み取り手段 600の他の構成を示した図である。

[図 14]図 14は主題歌背景映像生成手段 620の構成を示した図である。

[図 15]図 15はクレジット情報読み取り手段 600の他の構成を示した図である。

[図 16]図 16は本発明の第 2の実施の形態の構成を示した図である。

[図 17]図 17は本発明の第 3の実施の形態の構成を示した図である。

[図 18]図 18は音楽著作物認識手段 101の構成例を示した図である。

[図 19]図 19は音楽著作物認識手段 101の他の構成を示した図である。園 20]図 20は音楽著作物照合手段 822の構成を示した図である。

[図 21]図 21は登場人物認識手段 102の構成を示した図である。

園 22]図 22は登場人物認識手段 102の他の構成を示した図である。園 23]図 23は本発明の第 3の実施の形態の他の構成を示した図である園 24]図 24は本発明の第 3の実施の形態の他の構成を示した図である符号の説明

100 睛報認識手段

103 統合手段

105 対象物認識手段

120 統合手段

130 統合手段

400 クレジット情報重畳区間検出手段

410 主題歌検知手段

420 映像切り出し手段

430 音響特徴量抽出手段

431 音響特徴量照合手段

432 主題歌音響特徴量データベース

435 主題歌音響特徴量データベース

440 音響特徴量抽出手段

441 音響特徴量照合手段

442 視覚特徴量抽出手段

443 視覚特徴量照合手段

445 音響特徴量照合手段

450 連続音響区間抽出手段

451 主題歌区間判定手段

452 主題歌候補区間判定手段

470 連続テロップ検知手段

480 ロールテロップ検知手段 481 選択手段

600 クレジット情報読み取り手段

610 テロップ読み取り手段

620 主題歌背景映像生成手段

630 主題歌背景差分映像生成手段

640 テロップ読み取り手段

650 テロップ読み取り結果総合判断

700 背景映像生成手段

710 対応フレーム算出手段

720 視覚特徴量抽出手段

800 楽曲候補抽情報出手段

801 候補音響特徴量選択手段

802 音楽著作物照合手段

803 楽曲音響特徴量データベース

820 音楽関連制作情報抽出手段

821 音楽著作物照合パラメータ選択手段

822 音楽著作物照合手段

823 音楽著作物照合パラメータデータベース

900 出演者候補情報抽出手段

901 候補人物特徴量選択手段

902 出演者照合手段

903 人物特徴量データベース

920 出演者所属団体抽出手段

921 出演者照合パラメータ選択手段

922 出演者照合手段

923 人物照合パラメータデータベース

950 音声重畳判定手段

951 音響特徴量照合手段発明を実施するための最良の形態

[0023] <第 1の実施の形態〉

第 1の実施の形態を説明する。

[0024] 第 1の実施の形態では、コンテンツを解析してクレジット情報を読み取り、クレジット情報の候補となる情報を出力するクレジット情報認識手段 100について説明する。

[0025] 図 1はクレジット認識手段 100のブロック図である。

[0026] クレジット情報認識手段 100では、コンテンツ中からクレジット情報が含まれている可能性が高い区間（以後、この区間をクレジット情報重畳区間と呼ぶ）を抽出する。次に、クレジット情報重畳区間に含まれる映像や音声を解析し、コンテンツからクレジット情報としてテロップ情報や音声を読み取る。そして、その結果をクレジット候補情報として出力する。

また、クレジット情報認識手段 100において、クレジット情報を読み取る際には、タレジット情報が重畳されてレ、る可能性が高い区間だけではなく低レ、区間も読み取る様にしても良い。更に、読み取るクレジット情報は、コンテンツの権利に関しないクレジット情報も読取るようにしても良い。

[0027] ここで、コンテンツとは、映像、音声等から構成されるものであり、例えば、テレビ番組、ラジオ番組、映画等をいい、かならずしも放送や公開されるものに限られず、 DV

D等の記録媒体に格納されたものも含む。

[0028] また、クレジット情報とは、コンテンツの主題歌や最後の部分等に重畳されている、原作者や脚本家、出演者、主題歌、協力団体、提供企業などの情報を記したテロップゃ、音声である。

[0029] また、クレジット情報認識手段 100に入力されるコンテンツは、 MPEGなどの圧縮されたフォーマットで入力されてもよいし、既に復号されてから入力されてもよい。圧縮された映像として入力される場合には、クレジット情報認識手段の中で映像を復号しながら解析を行う。なお、番組映像は、ある特定の一回の放送分の映像であってもよいし、あるいは、同じ番組の複数の回の映像 (例えば、ドラマの第 1話から第 10話までなど）を同時に入力する構成になって!/、てもよ!/、。

[0030] 更に、クレジット候補情報は、認識された文字列とその時間情報、画像中での位置情報（フレーム内での座標）を含んでいてもよい。また、テロップや音声の認識の確からしさを表す指標を含んでいてもよい。また、クレジット候補情報は、認識された各文字列に対して 1つの情報を出力するようになっていてもよいし、複数の候補文字列を出力するようになっていてもよい。また、テロップが読み取れなかった場合には、そのテロップを含む映像中の時空間位置を特定する情報をクレジット候補情報に含んで出力してもよい。さらに、この時空間位置の映像情報自体をクレジット候補情報に含んで出力してもよい。

[0031] 次に、図 1に示されるクレジット情報認識手段 100の各構成について述べる。尚、以下の説明では、コンテンツの例として番組映像を例にして説明する。

[0032] 図 1を参照すると、クレジット情報認識手段 100は、クレジット情報重畳区間検出手段 400とクレジット情報読み取り手段 600とからなる。

[0033] クレジット情報重畳区間検出手段 400は、番組映像を入力とし、その出力はクレジット情報読み取り手段 600へ接続される。クレジット情報読み取り手段 600は、クレジット情報重畳区間検出手段 400から出力されるクレジット情報重畳区間映像データを入力とし、クレジット候補情報を出力する。

[0034] 次に、図 1に示すクレジット情報認識手段 100の実施の形態の動作について説明する。

[0035] 番組映像は、まず、クレジット情報重畳区間検出手段 400へ入力される。クレジット情報重畳区間検出手段 400では、視覚特徴量や音響特徴量、あるいはテロップの出現パターンなどの特徴を用いて、クレジット情報重畳区間を特定する。この方式の詳細については後述する。そして、特定された時間区間の映像データを、クレジット情報重畳区間映像データとして出力する。

[0036] クレジット情報重畳区間映像データは、クレジット情報読み取り手段 600へ入力される。クレジット情報読み取り手段 600では、入力される映像、あるいはそれを処理して得られる映像に対してテロップ認識が行われる。そして得られた認識結果をクレジット候補情報として出力する。

[0037] このように、本発明のクレジット情報認識手段 100では、クレジット情報が重畳されている箇所を特定し、その区間を重点的に識別することで、映像に対して単純にテロップ認識を適用する場合に比べ、効率的に精度よくクレジット情報を抽出することが可能になる。

[0038] <クレジット情報重畳区間検出手段 400の具体的な構成〉

1.主題歌に着目してクレジット情報重畳区間を検出

クレジット情報重畳区間検出手段 400の具体的な構成について説明する。以下に説明するクレジット情報重畳区間検出手段 400は、コンテンツに含まれる音響のうち主題歌の部分にクレジット情報が重畳されることが多いことを利用した具体例である。尚、音響の一例として主題歌を用いた力これに類するものであれば、主題歌に限られなレ、。

[0039] 図 2はクレジット情報重畳区間検出手段 400の構成を示した図であり、クレジット情報重畳区間検出手段 400は、主題歌検知手段 410と映像切り出し手段 420とからな

[0040] 主題歌検知手段 410は、番組映像を入力とし、その出力である区間指定時刻情報は映像切り出し手段 420へ接続される。映像切り出し手段 420は、番組映像と主題歌検知手段 410から出力される区間指定時刻情報を入力とし、クレジット情報重畳区間映像データを出力する。

[0041] 次に、図 2に示すクレジット情報重畳区間検出手段 400の動作について述べる。

[0042] 番組映像は、まず、主題歌検知手段 410へ入力される。主題歌検知手段 410では、映像中から主題歌を含む区間を抽出する。これは、ドラマなどの映像では、ほとんどの場合、主題歌の部分にクレジット情報が重畳されるためである。すなわち、主題歌の時間区間は、クレジット情報重畳区間とみなせる。番組映像から主題歌時間区間を抽出する方法の詳細については後述する。抽出された主題歌部分を特定する時刻情報は、区間指定時刻情報として出力される。

[0043] 区間指定時刻情報は、番組映像とともに、映像切り出し手段 420へ入力される。映像切り出し手段 420では、番組映像ののうち、区間指定時刻情報によって指定される映像データを特定し、クレジット情報重畳区間映像データとして出力する。ここで、特定された映像をもとの番組映像から実際に切り出して出力してもよい。あるいは、実際に切り出すことはせず、区間の先頭と最後の位置へジャンプするための情報 (例えば番組先頭からのバイト数)を取得し、特定された区間にすぐに頭だしできるようにするだけでもよい。この場合も、すぐに指定区間の先頭にアクセスできるため、実際に切り出した場合と同様に後段の処理が行える。

[0044] このように図 2に示すクレジット情報重畳区間検出手段では、主題歌を検知することで、精度よくクレジット情報重畳区間を求めることを可能にする。

[0045] (1)主題歌検知手段 410の具体的構成例 1

主題歌検知手段 410の具体的な構成について説明する。

[0046] 図 3を参照すると、主題歌検知手段 410は、音響特徴量抽出手段 430と音響特徴量照合手段 431と主題歌音響特徴量データベース 432とからなる。音響特徴量抽出手段 430は、番組映像を入力とし、その出力である音響特徴量は音響特徴量照合手段 431へ入力される。音響特徴量照合手段 431は、音響特徴量抽出手段 430から出力される音響特徴量と主題歌音響特徴量データベース 432からの音響特徴量を入力とし、区間指定時刻情報を出力する。

[0047] 次に、図 3に示す主題歌検知手段 410の動作について述べる。

[0048] 番組映像は、まず、音響特徴量抽出手段 430へ入力される。音響特徴量抽出手段 430では、番組映像の音響信号を解析し、音響特徴量を抽出する。抽出された音響特徴量は、音響特徴量照合手段 431へ出力される。音響特徴量照合手段 431では、音響特徴量抽出手段 430から入力される番組映像の音響特徴量と主題歌音響特徴量データベース内の主題歌音響特徴量を照合する。そして、番組音響特徴量中の照合した部分に相当する時間区間を特定する時刻情報（区間の始点、終点、時間長など)を区間指定時刻情報として出力する。

[0049] ここで、主題歌音響特徴量は、主題歌から予め抽出した音響特徴量である。これを事前に登録しておき、主題歌検知に用いる。この際、主題歌が予め既知の場合には、その主題歌の音源（CDなど)から音響特徴量を抽出して用いることができる。あるいは、シリーズもののドラマなどの場合には、ある一回の映像で主題歌の区間を特定し、この部分の音響特徴量を用いて他の回のドラマ映像の主題歌検知に用いることができる。

[0050] 上述した主題歌検知手段 410は、主題歌音響特徴量データベースに登録されている特徴量を用いて照合を行うため、確実に主題歌の部分を抽出することができる。

[0051] (2)主題歌検知手段 410の具体的構成例 2

主題歌検知手段 410の他の具体的な構成について説明する。

[0052] 図 4を参照すると、主題歌検知手段 410の他の具体的な構成例が示されており、音響特徴量抽出手段 440と音響特徴量照合手段 441とからなる。音響特徴量抽出手段 440は、番組映像を入力とし、その出力である音響特徴量は音響特徴量照合手段 441へ入力される。音響特徴量照合手段 441は、音響特徴量抽出手段 440から出力される音響特徴量を入力とし、区間指定時刻情報を出力する。

[0053] 次に、図 4に示す主題歌検知手段 410の動作について述べる。

[0054] 番組映像は、まず、音響特徴量抽出手段 440へ入力される。ここで、番組映像は、単一の回の番組映像ではなぐ複数回の番組映像をまとめて入力するものとする。例えば、シリーズもののドラマの場合には、数話分のドラマ映像がまとめて入力されるものとする。音響特徴量抽出手段 440では、この複数回のドラマ映像それぞれに対して音響特徴量の抽出を行う。抽出された各回の音響特徴量は、音響特徴量照合手段 441へ出力される。

[0055] 音響特徴量照合手段 441では、入力される複数回の番組の音響特徴量間で照合を行う。この際、照合は各回の番組全体で行うのではなぐ番組から切り出される任意長の区間同士で行う。これにより、各回で音響特徴量が一致する区間が求まる。このようにして求まった区間のうち、一定区間長以上のものは、主題歌に相当する可能性が高いと考えられる。よって、上記で求まった一定区間長以上の区間を指定する時刻情報を区間指定時刻情報として出力する。あるいは、さらに区間の位置情報を用いて判定してもよい。即ち、主題歌は番組の冒頭か最後に流れる場合が多いことを利用して主題歌の区間を特定してもよい。この情報は、各回の番組に対して出力される。

[0056] 図 4に示す主題歌検知手段 410は、主題歌が何である力、を知っていなくても、複数回の映像を用いて同じ音響のパターンを有するところを見つけることで、主題歌部分を特定できる。すなわち、主題歌特徴量を格納したデータベースが不要となる。

[0057] また、はじめの数回で主題歌部分を特定し、主題歌の特徴量を抽出すれば、それ以降の回では、抽出した主題歌の特徴量を用いて図 3と同様にして主題歌部分を特定することもできる。これにより、複数回の動画間全体で共通部分を見つける場合に比べ、より少ない演算量で確実に主題歌部分を特定できる。

[0058] (3)主題歌検知手段 410の具体的構成例 3

主題歌検知手段 410の他の具体的な構成について説明する。

[0059] 図 5を参照すると、主題歌検知手段 410の他の具体的な構成の一例が示されており、連続音響区間抽出手段 450と主題歌区間判定手段 451とからなる。連続音響区間抽出手段 450は、番組映像を入力とし、その出力である連続音響時間情報は主題歌区間判定手段 451へ入力される。主題歌区間判定手段 451は、連続音響区間抽出手段 450から出力される連続音響時間情報を入力とし、区間指定時刻情報を出力する。

[0060] 次に、図 5に示す主題歌検知手段 410の動作について述べる。

[0061] 番組映像は、まず、連続音響区間抽出手段 450へ入力される。ここでは、映像中の音響信号から音響の連続性 (持続性)を分析する。そして、連続する音響区間がみつかった場合には、その時刻情報を連続音響時間情報として主題歌区間判定手段 451へ出力する。

[0062] 連続音響の分析は、例えば、番組映像の音響信号のパワーから無音区間を見つけ、無音区間で挟まれる区間を連続音響区間とする方式が考えられる。この際、音響特徴量を分析して音響信号の楽曲らしさを判定し、これが高いときのみ、連続音響区間として出力するようにしてもよい。この分析には、音響データに基づいて学習したサポートベクターマシンなどの音響判別器を用いることができる。

[0063] 主題歌区間判定手段 451では、入力される連続音響時間情報力主題歌に相当する時間区間を選択し、区間指定時刻情報として出力する。この際、主題歌部分は音響が長く続くこと、および、主題歌は番組のはじめか終わりに近い部分に存在することなどの条件を用いて主題歌区間を判定する。

[0064] このように、本説明の主題歌検知手段 410では、音響が連続して続く場所は主題歌や BGMの部分が多ぐ特に、主題歌の部分は、音響信号が長く続く（数十秒から数分)ことを利用して主題歌の部分を特定している。これにより、実際に詳細な音響解析を行わなくても簡易に主題歌部分を特定できる。

[0065] (4)主題歌検知手段 410の具体的構成例 4

主題歌検知手段 410の他の具体的な構成について説明する。

[0066] 図 6を参照すると、主題歌検知手段 410の他の具体的な構成の一例が示されており、視覚特徴量抽出手段 442と視覚特徴量照合手段 443とからなる。視覚特徴量抽出手段 ₄₄₂は、番組映像を入力とし、その出力である番組視覚特徴量は視覚特徴量照合手段 443へ入力される。視覚特徴量照合手段 443は、視覚特徴量抽出手段 44 2から出力される視覚特徴量を入力とし、区間指定時刻情報を出力する。

[0067] 次に、図 6に示す主題歌検知手段 410の動作について説明する。

[0068] 番組映像は、まず、視覚特徴量抽出手段 442へ入力される。ここで、番組映像は、図 4と同様に、複数回の番組映像がまとめて入力されるものとする。視覚特徴量抽出手段 442では、この複数回の番組映像それぞれに対して視覚特徴量の抽出を行う。抽出された各回の視覚特徴量は、視覚特徴量照合手段 443へ出力される。

[0069] 視覚特徴量照合手段 443では、入力される複数回の番組の視覚特徴量間で照合を行う。この際、照合は各回の番組全体で行うのではなぐ番組から切り出される任意長の区間同士で行う。これにより、各回で視覚特徴量が一致する区間が求まる。このようにして求まった区間のうち、一定区間長以上のものは、主題歌に相当する可能性が高いと考えられる。よって上記で求まった一定区間以上の区間を指定する時刻情報を区間指定時刻情報として出力する。この情報は、各回の番組に対して出力され

[0070] 図 6に示す主題歌検知手段 410も、図 4の場合と同様に、主題歌が何である力、を知つていなくても複数回の映像を用いて同じ視覚パターンを有するところを見つけることで、主題歌部分を特定できる。

[0071] なお、視覚特徴量は、画面全体から算出するようになっていてもよいし、画面の一部分のみから抽出するようになっていてもよい。後者の場合には、主題歌背景の一部に本編映像が重ね合わせられるような場合にも対処できるようになる。

[0072] さらに、図 6の視覚特徴量による照合結果と、図 4の音響特徴量による照合結果を組み合わせることも可能である。これにより、より高精度に主題歌区間を検知できるようになる。特に、背景映像は、各回によって出現順が入れ替わる場合もあるが、音響特徴量を組み合わせることで、このような場合であっても、確実に主題歌区間を特定できるようになる。また、本編の音声が主題歌と重なって音響による全区間の特定が困難な場合であっても、視覚特徴量による照合の結果を組み合わせることで、補完すること力 S可倉となる。

[0073] (5)主題歌検知手段 410の具体的構成例 5

主題歌検知手段 410の他の具体的な構成について説明する。

[0074] 図 7を参照すると、主題歌検知手段 410の他の具体的な構成の一例が示されており、音響特徴量抽出手段 440と音響特徴量照合手段 445と音響特徴量抽出手段 43 0と音響特徴量照合手段 431と主題歌音響特徴量データベース 435とからなる。

[0075] 音響特徴量抽出手段 440は、番組映像を入力とし、その出力である番組音響特徴量は音響特徴量照合手段 445へ接続される。音響特徴量照合手段 445は、音響特徴量抽出手段 440から出力される番組音響特徴量を入力とし、主題歌音響特徴量を主題歌音響特徴量データベース 435へ出力するとともに、区間指定時刻情報を出力する。主題歌音響特徴量データベース 435は、音響特徴量照合手段 445からの出力される主題歌音響特徴量を入力とし、それを音響特徴量照合手段 431へ出力する。音響特徴量抽出手段 430は、番組情報を入力とし、その出力である音響特徴量を音響特徴量照合手段 431へ出力する。音響特徴量照合手段 431は、主題歌音響特徴量データベース 435から出力される主題歌音響特徴量と音響特徴量抽出手段 43 0から出力される音響特徴量を入力とし、照合結果を出力する。

[0076] 次に、図 7に示す主題歌検知手段の動作について述べる。

[0077] 番組映像は、複数の回からなる映像であるとする。音響特徴量抽出手段 440の動作は図 4の場合と同じである。音響特徴量照合手段 445の動作も、図 4の音響特徴量照合手段 441の動作と同様であるが、さらに、検知された主題歌音響特徴量を主題歌音響特徴量データベース 435へ出力する。主題歌音響特徴量データベース 43 5は、音響特徴量照合手段 445から出力される主題歌音響特徴量を蓄積しておき、音響特徴量照合手段 431へ出力する。

[0078] 音響特徴量抽出手段 430へは、番組映像のうち、残りの複数回の映像が入力される。音響特徴量抽出手段 430、音響特徴量照合手段 431の動作は、図 3の場合と同様である。

[0079] これにより、複数回の動画間全体で共通部分を見つける場合に比べ、より少ない演算量で確実に主題歌部分を特定できる。また、図 7では、音響特徴量を用いた場合の構成について述べたが、視覚特徴量や、音響特徴量と視覚特徴量を用いた場合もまったく同様にして主題歌区間を検知できる。

[0080] (6)主題歌検知手段 410の具体的構成例 6

次に、主題歌検知手段 410の他の具体的な構成について説明する。

[0081] 図 8を参照すると、主題歌検知手段 410の他の具体的な構成が示されており、連続音響区間抽出手段 450、主題歌候補区間判定手段 452、音響特徴量抽出手段 433 、音響特徴量照合手段 431、主題歌音響特徴量データベース 432とからなる。連続音響区間抽出手段 450は番組映像を入力とし、その出力である連続音響時間情報を主題歌候補区間判定手段 452へ出力する。主題歌候補区間判定手段 452は、連続音響区間抽出手段 450から出力される連続音響時間情報を入力とし、その出力である主題歌候補区間時刻情報を音響特徴量抽出手段 433へ出力する。音響特徴量抽出手段 433は、番組映像と主題歌候補区間判定手段 452から出力される主題歌候補区間時刻情報を入力とし、その出力である音響特徴量を音響特徴量照合手段 4 31へ出力する。音響特徴量照合手段 431は、音響特徴量抽出手段 433から出力される音響特徴量と主題歌音響特徴量データベース 432から出力される主題歌音響特徴量を入力とし、区間指定時刻情報を出力する。

[0082] 次に、図 8に示す主題歌検知手段 410の動作について説明する。

[0083] 番組映像は、連続音響区間抽出手段 450へ入力される。連続音響区間抽出手段 450の動作は、図 5の場合と同様であり、求まった連続音響時間情報を主題歌候補区間判定手段 452へ出力する。

[0084] 主題歌候補区間判定手段 452の動作も基本的には、図 5の主題歌区間判定手段 451と同様である力 S、ここでは、完全に主題歌区間を特定する必要はなぐ候補となる区間を抽出するのみでよレ、ため、図 5の場合よりもゆる!/、判定基準を用いてもよ!/、。求まった主題歌候補区間時刻情報は音響特徴量抽出手段 433へ出力される。 [0085] 音響特徴量抽出手段 433へは、番組映像も入力され、音響特徴量を抽出する。ただし、ここでは、主題歌候補区間時刻情報で指定された区間に対してのみ音響特徴量を抽出する。抽出された音響特徴量は、音響特徴量照合手段 431へ出力される。

[0086] 音響特徴量照合手段 431、主題歌音響特徴量データベース 432の動作は、図 3の場合と同様である。

[0087] 図 8に示す主題歌検知手段 410では、主題歌候補区間に対してのみ音響特徴量を抽出 ·照合するため、番組全体に対して特徴量抽出を行う場合に比べ、処理量を軽減できる。なお、このような絞込みは、図 4、図 6、図 7などに示す主題歌検知手段 4 10に対しても適用可能であり、処理量の低減が図れる。

[0088] 2.テロップが連続的に出現するという特性に着目してクレジット情報重畳区間を検出

クレジット情報重畳区間検出手段 400の具体的な他の構成について説明する。以下に説明するクレジット情報重畳区間検出手段 400は、コンテンツでは、クレジット情報が重畳されているテロップは連続的に出現するという特性を利用した具体例である

[0089] 図 9を参照するとクレジット情報重畳区間検出手段 400の実施の形態の一例が示されており、連続テロップ検知手段 470と映像切り出し手段 420とからなる。連続テロップ検知手段 470は、番組映像を入力とし、その出力である区間指定時刻情報は映像切り出し手段 420 接続される。映像切り出し手段 420は、番組映像と連続テロップ検知手段 470から出力される区間指定時刻情報を入力とし、クレジット情報重畳区間映像データを出力する。

[0090] 次に、図 9に示すクレジット情報重畳区間検出手段 400の動作について述べる。

番組映像は、まず、連続テロップ検知手段 470 入力される。連続テロップ検知手段 470では、テロップが連続して現れる区間を抽出する。これは、ドラマやバラエティ番組などで、クレジット情報がテロップとして重畳される区間では、テロップが連続的に出現するという特性に基づく。そして、この時間区間を区間指定時刻情報として出力する。

具体的には、番組映像に対してテロップ検出を行い、テロップが検出できた場合には、その開始時刻と終了時刻を求める処理を繰り返す。次に、開始時刻と終了時刻を解析し、複数のテロップがほとんど間を空けずに次々と出現する時間区間を求める。あるいは、異なるテロップ間の時間間隔を解析するかわりに、 1画面中のテロップ占有面積を求め、ある一定領域以上の占有面積が断続的に続く区間として、区間指定時刻情報を求めてもよい。区間指定時刻情報は、番組映像とともに、映像切り出し手段 420へ入力される。映像切り出し手段 420の動作は、図 2の場合と同様である。

[0091] このように図 9に示すクレジット情報重畳区間検出手段は、音響特徴用の解析などの複雑な処理を行わなくても、テロップ出現のパターン情報のみを用いてクレジット情報重畳区間を求めることを可能にする。特に、静止テロップでクレジット情報が表示される番組に対して有効である。

[0092] 3.ロールテロップ上にクレジット情報が連続的に出現するという特性に着目してクレジット情報重畳区間を検出

図 10を参照するとクレジット情報重畳区間検出手段 400の他の例が示されており、ロールテロップ検知手段 480と映像切り出し手段 420とからなる。ロールテロップ検知手段 480は、番組映像を入力とし、その出力である区間指定時刻情報は映像切り出し手段 420へ接続される。映像切り出し手段 420は、番組映像とロールテロップ検知手段 480から出力される区間指定時刻情報を入力とし、クレジット情報重畳区間映像データを出力する。

[0093] 次に、図 10に示すクレジット情報重畳区間検出手段 400の動作について述べる。

[0094] 番組映像は、まず、ロールテロップ検知手段 480へ入力される。ロールテロップ検知手段 480では、水平方向、あるいは垂直方向にスクロールするロールテロップを検知し、ロールテロップの存在する区間を区間指定時刻情報として出力する。これは、ドラマやバラエティ番組などで、クレジット情報が水平方向、あるいは垂直方向にスクロールしながら表示される場合が多いことに基づく。

[0095] このタイプのクレジットは、たいてい番組の最後であるため、エンドロールと呼ばれることもある。このため、ロールテロップを検知する際、時刻情報も併用し、映像の終わりに近い部分に対してロールテロップ検知を行うようになっていてもよい。これにより、番組映像央全体に対してロールテロップ検知を行う場合に比べ、処理量を大幅に低減できる。

[0096] 具体的なロールテロップの検知方法としては、フレーム間で動き推定を行い、水平または垂直方向に等速直線運動を行っている領域を探す。そして、この等速直線運動が一定の時間間隔続く場合にロールテロップとして検知する。動き推定には、例えばブロックマッチングや、一般化ハフ変換を用いることができる。

[0097] 求まった区間指定時刻情報は、番組映像とともに、映像切り出し手段 420へ入力される。映像切り出し手段 420の動作は、図 2の場合と同様である。

[0098] このように、図 10に示すクレジット情報重畳区間検出手段は、ロールテロップを検知することで、音響信号を用いずとも、クレジット重畳区間を検知できる。これは、映画やドラマなど、コンテンツの最後でクレジット情報が縦や横方向にスクロールしていく場合に特に有効である。また、ノエティなど、主題歌がなぐ音響情報が使えない場合であっても、ロールテロップを検知することで、クレジット重畳区間を求めることができる。

[0099] 4.上述した構成の組み合わせによりクレジット情報重畳区間を検出

次に、主題歌検知手段 400の他の具体的な構成について説明する。図 11を参照すると、クレジット情報重畳区間検出手段 400の他の具体的な構成が示されており、主題歌検知手段 410、ロールテロップ検知手段 480、連続テロップ検知手段 470、選択手段 481、映像切り出し手段 420とからなる。主題歌検知手段 410、ロールテロップ検知手段 480、連続テロップ検知手段 470は、すべて、番組映像を入力とし、区間指定時刻情報を選択手段 481へ出力する。選択手段 481は、主題歌検知手段 41 0から出力される区間指定時刻情報と、ロールテロップ検知手段 480から出力される区間指定時刻情報と、連続テロップ検知手段 470から出力される区間指定時刻情報とを入力とし、区間指定時刻情報を映像切り出し手段 420へ出力する。映像切り出し手段 420は、番組映像と選択手段 481から出力される区間指定時刻情報とを入力とし、クレジット情報重畳区間映像データを出力する。

[0100] 次に、図 11に示すクレジット情報重畳区間検出手段 400の動作について説明する。番組映像は、主題歌検知手段 410、ロールテロップ検知手段 480、連続テロップ検知手段 470へ入力される。主題歌検知手段 410、ロールテロップ検知手段 480、連続テロップ検知手段 470の動作は、前述のものと同様である。これらから出力される区間指定時刻情報は選択手段 481へ入力される。選択手段 481では、入力される区間指定時刻情報のうち、確からしいものを選択して出力する。もし、入力のうち、どれカ、 1つのみしか区間指定時刻情報が入力されない場合には、その区間指定時刻情報を出力する。一方、複数の区間指定時刻情報が重なる場合 (例えば、主題歌中にロールテロップが現れる場合など）には、重複する区間指定時刻情報を出力する。ただし、各検知手段で部分的にしか検知できない場合もあるため、全体の ORをとるようにして区間指定時刻情報を求めてもよい。求まった区間指定時刻情報は、映像切り出し手段 420へ出力される。

[0101] 映像切り出し手段 420の動作は、図 7の場合と同様である。

[0102] 図 11のクレジット情報重畳区間検出手段は、様々なクレジットの出現パターンに適応的に対応できるという特長がある。また、複数のソースの利用により、クレジット重畳区間の検出精度を高めることができる。

[0103] <クレジット情報読み取り手段 600の具体的な構成〉

(1)クレジット情報読み取り手段 600の具体的な構成例 1

次に、クレジット情報読み取り手段 600の具体的な構成の一例を説明する。

[0104] 図 12はクレジット情報読み取り手段 600の一例を示した図であり、クレジット情報読み取り手段 600はテロップ読み取り手段 610からなる。テロップ読み取り手段 610は、クレジット情報重畳区間映像データを入力とし、クレジット候補情報を出力する。

[0105] 図 12のクレジット情報読み取り手段 600の動作について述べる。

[0106] クレジット情報重畳区間映像データは、テロップ読み取り手段 610へ入力される。テロップ読み取り手段 610では、入力される映像に対してテロップ認識を行い、認識結果をクレジット候補情報として出力する。ここで、テロップ認識をクレジット用にカスタマイズすることで、識別率を向上できる。例えば、「脚本」や「主題歌」など、クレジット情報で頻繁に使用される重要単語を重点的に学習した辞書を用いることができる。あるいは、このような特定の単語を事前に登録しておき、その単語が現れたかどうかを半 IJ定するようにすることで、より精度よく単語を由出できるようになる。また、このような特定な単語を複数のフォントに対して学習しておき、文字列が出現したときにフォントを推定し、フォントごとにカスタマイズしたテロップ認識辞書を選択して、他のタレジット情報の読み取りを行うようにしてもよい。また、クレジットに現れる可能性がある人名を、その人の属性 (例えば脚本家、俳優といった職業などの情報)別にデータべースに登録しておき、例えば脚本の箇所であれば、脚本家のデータベースから人名を探して識別するようにすることで、人名の識別精度を飛躍的に向上できる。さらに、この人名データベースを用いることで、人名の一部が読み取れなかった場合であつても、効率よく候補を絞り込むことが可能になる。また、クレジット情報の現れる順番やノターンにもある程度の規則性がある（例えば脚本家や原作家の情報は出演者の情報よりも時間的に先に出現しやすい、あるいは、単独で表示されることが多いなど)ため、これらの情報を反映させてテロップを識別することで、さらに精度を向上できる。以後、このようなテロップ認識に用いるパラメータ類をテロップ認識パラメータと呼ぶことにする。

[0107] このようなクレジット情報読み取り手段 600は、テロップ読み取り手段のみを用いて構成しているため、簡易に構成することができる。また、クレジット情報読み取り手段 6 00には、テロップが重畳されているクレジット情報重畳区間映像データが入力されるので、番組全体に対してテロップの読み取りを行う場合に比べると、余分な処理を行わずに、処理を軽減できる。すなわち、番組全体をテロップ読み取りする場合よりも、テロップが重畳された部分だけ、より詳細に効率よく解析し、テロップを読み取ることができる。このため、読み取りアルゴリズムをテロップ読み取りに特化することができ、クレジット情報の読み取り精度を向上できる。

[0108] (2)クレジット情報読み取り手段 600の具体的な構成例 2

クレジット情報読み取り手段 600の他の具体的な構成の一例を説明する。本例は、コンテンツに含まれる音響のうち主題歌が流れている映像に着目してクレジット情報読み取る例である。

[0109] 図 13を参照すると、クレジット情報読み取り手段 600の実施の形態の一例が示されており、主題歌背景映像生成手段 620と主題歌背景差分映像生成手段 630とテロップ読み取り手段 640とからなる。

[0110] 主題歌背景映像生成手段 620は、クレジット情報重畳区間映像データを入力とし、主題歌背景映像を主題歌背景差分映像生成手段 630へ出力する。主題歌背景差分映像生成手段 630は、クレジット情報重畳区間映像データと主題歌背景映像生成手段 620から出力される主題歌背景映像とを入力とし、主題歌背景差分映像をテロップ読み取り手段 640へ出力する。テロップ読み取り手段 640は、主題歌背景差分映像生成手段 630から出力される主題歌背景差分映像を入力とし、クレジット候補情報を出力する。

[0111] 次に、図 13のクレジット情報読み取り手段 600の動作について説明する。

まず、クレジット情報重畳区間映像データは、主題歌背景映像生成手段 620へ入力される。ここで、クレジット情報重畳区間映像データは、複数回の映像を含むものとする。

[0112] 主題歌背景映像生成手段 620では、複数回の映像間で背景 (クレジット情報以外の部分）が同じであるフレーム同士を対応付ける。対応付けられたフレーム間で画像処理を行って、主題歌の背景映像を作成し、主題歌背景差分映像生成手段 630へ出力する。画像処理の詳細については後述する。

[0113] 主題歌背景差分映像生成手段 630では、入力される主題歌背景映像とクレジット情報重畳区間映像データの差分を求め、この値に基づいて主題歌背景差分映像を生成する。具体的には、差分が大きい画素は原画像をそのまま用いるようにし、そうでない画素は画素値を 0にする。これにより、クレジットの部分のみが残る主題歌背景差分映像を生成できる。主題歌背景差分映像は、テロップ読み取り手段 640へ出力される。

[0114] テロップ読み取り手段 640では、入力される映像に対してテロップ認識を行い、認識結果をクレジット候補情報として出力する。

[0115] 図 13のクレジット情報読み取り手段 600では、テロップ認識において背景の影響がなくなるため、読み取り精度を向上できる。

[0116] ここで、主題歌背景映像生成手段 620について述べる。

[0117] 図 14を参照すると、主題歌背景映像生成手段 620の実施の形態の一例が示されており、視覚特徴量抽出手段 720と対応フレーム算出手段 710と背景映像生成手段 700とからなる。視覚特徴量抽出手段 720は、クレジット情報重畳区間映像データを入力とし、主題歌背景視覚特徴量を対応フレーム算出手段 710へ出力する。対応フレーム算出手段 710は、視覚特徴量抽出手段 720から出力される主題歌背景視覚特徴量を入力とし、フレーム対応情報を背景映像生成手段 700へ出力する。背景映像生成手段 700は、クレジット情報重畳区間映像データと対応フレーム算出手段 71 0から出力されるフレーム対応情報とを入力とし、主題歌背景映像を出力する。

[0118] 次に、図 14の主題歌背景映像生成手段 620の動作について説明する。

[0119] まず、クレジット情報重畳区間映像データは、視覚特徴量抽出手段 720へ入力される。ここで、クレジット情報重畳区間映像データは、複数回の映像分のクレジット情報重畳区間映像である。例えば、シリーズもののドラマの場合には、数話分のドラマに対応する映像がまとめて入力されるものとする。視覚特徴量抽出手段 720では、各回の映像から視覚特徴量を抽出する。抽出された視覚特徴量は、主題歌背景視覚特徴量として、対応フレーム算出手段 710へ出力される。

[0120] 対応フレーム算出手段 710では、入力された各回の視覚特徴量間で照合を行う。

この際、照合は各回の特徴量全体で行うのではなぐ各回のクレジット情報重畳区間映像から切り出される任意長の区間同士で行う。これにより、各回で映像特徴量が一致する区間が求まる。区間が求まると、映像のフレーム同士の対応関係も求まる。なお、ここで、区間の対応付けは、数フレーム分前後にずれる可能性もあるため、このずれを補償する仕組みを追加してもよい。例えば、対応付けられた前後のフレームでフレーム間差分をとり、これが最小なるものを選ぶ、あるいは、マッチングがとれるピクセルの数が最大になるフレームを選ぶなどの方法が考えられる。このようにして求まつた各回のフレーム間の対応情報は、フレーム対応情報として背景映像生成手段 7 00へ出力される。

[0121] 背景映像生成手段 700では、入力される各回のクレジット情報重畳区間映像データと、対応フレーム算出手段 710から出力されるフレーム対応情報とから、主題歌背景映像を生成する。フレーム対応情報から対応付けられる各回のフレームの対応位置の画素値に統計処理を行って生成する。

[0122] 次に、このアルゴリズムの詳細について説明する。ここで、 Fn，m(i，j)を n番目の映像の m番目のフレームの位置 (I)における画素値とする。また、入力される番組の数を Nとし、 n番目の映像の m_n番目のフレームが対応するフレームであるとする。また、生成する背景映像の m番目のフレームの位置 (U)における画素値を Bm(iJ)で表すこととする。このとき、 Bm(i，j)の値は、 Fn，m_n(i，j) (n=l、 · · ·、 N)から算出される。

まず、各画素 (U)において、 Fn，m_n(i，j) (n=l、 · · ·、 N)の分散 σ (i，j)を求める。これが十分小さい場合は、この位置にはどの回もテロップが載っていないと考えられる。よつて、 Bm(iJ)の値は単純に平均することで算出できる。すなわち、

" ,ゾ)

によって算出する。一方、分散 σ(υ)が大きい場合には、テロップが重畳されている可能性が高いと考えられる。この場合にそのまま単純平均を出すと、テロップの影響が背景に含まれ、背景映像力まく生成できないという問題がある。そこで、分散 σ(υ )が大きいときには、例えば、 Fn，m_n(i，j) (n=l、 · · ·、 N)のメディアン値を Bm(i，j)とする。これにより、テロップが載っている回の方が少ない場合には、背景画像生成でのテロップの影響を排除できる。

[0123] しかしながら、テロップが載っている回の方が多い位置 (U)も存在すると考えられる。

そこで、各回の映像 Fn，m_n(i，j) (n=l、 · · ·、 N)で、対象画素 (i，j)がテロップに含まれている可能性を表す指標を定義し、これが大きいほど重みを小さくして加重平均をとる。これにより、テロップの入っていない回の映像の画素値の重みが大きくなり、背景映像へのテロップの影響を軽減できる。

[0124] このテロップらしさを表す指標を Rn，m_n(i，j)で表すことにする。ただし、 Rn，m_n(i，j)は非負の値を有し、これが大きいほど、テロップにふくまれている可能性が高いものとする。これを用いて以下の式により、背景映像の画素値 Bm(iJ)を算出する。

ここで、 g(X)は非負の値を返す Xに対する単調減少関数である。このようにして、テロップの影響が少な!/、背景映像を生成することが可能である。 Rn，m_n(i，j)としては、例えば、位置 (U)近傍のエッジの多さや勾配の大きさなどを用いることができる。あるいは、テロップらしいパターンを学習したニューラルネットなどの識別器を用いて、テロップらしさを半 IJ定するようにしてもょレ、。

[0125] このようにして得られた背景映像を用いると、背景の影響がないクレジット部分のみ力、らなる映像を生成できるため、後段に接続されるテロップ認識の精度向上に貢献する。

[0126] (3)クレジット情報読み取り手段 600の具体的な構成例 3

図 15を参照すると、クレジット情報読み取り手段 600の他の一例が示されており、主題歌背景映像生成手段 620と主題歌背景差分映像生成手段 630と第 1のテロップ読み取り手段 610と第 2のテロップ読み取り手段 640とテロップ読み取り結果統合手段 650と力、らなる。第 1のテロップ読み取り手段 610は、クレジット情報重畳区間映像データを入力とし、第 1のクレジット候補情報をテロップ読み取り結果統合手段 650 へ出力する。主題歌背景映像生成手段 620は、クレジット情報重畳区間映像データを入力とし、主題歌背景映像を主題歌背景差分映像生成手段 630へ出力する。主題歌背景差分映像生成手段 630は、クレジット情報重畳区間映像データと主題歌背景映像生成手段 620から出力される主題歌背景映像とを入力とし、主題歌背景差分映像を第 2のテロップ読み取り手段 640へ出力する。第 2のテロップ読み取り手段 64 0は、主題歌背景差分映像生成手段 630から出力される主題歌背景差分映像を入力とし、第 2のクレジット候補情報をテロップ読み取り結果統合手段 650へ出力する。

読み取り結果統合手段 650は、第 1のテロップ読み取り手段 610から出力される第 1のクレジット候補情報と第 2のテロップ読み取り手段 640から出力される第 2 のクレジット候補情報を入力とし、クレジット候補情報を出力する。

[0127] 次に、図 15のクレジット情報読み取り手段 600の動作について述べる。第 1のテロップ読み取り手段 610の動作は、図 12のテロップ読み取り手段 610と同様であり、第 1のクレジット候補情報がテロップ読み取り結果統合手段 650へ出力される。主題歌背景映像生成手段 620と主題歌背景差分映像生成手段 630の動作は、図 13のものと同様である。また、第 2のテロップ読み取り手段 640の動作も図 13のテロップ読み取り手段 640と同様であり、第 2のクレジット候補情報がテロップ読み取り結果統合手段 650へ出力される。

[0128] テロップ読み取り結果統合手段 650では、第 1のクレジット候補情報と第 2のクレジット候補情報を統合し、クレジット候補情報を生成して出力する。統合方法としてはいくつか考えられるが、例えば、両者の候補情報を合わせて候補情報として出力する方法、両者のうち、テロップ認識の信頼度が高い方を候補情報として出力する方法、両者のうち、信頼度が一定の基準より高いものをすベて候補情報として出力する方法などがある。これ以外にも、両者を統合して出力を生成する方法であれば、どのような方法でもよい。

[0129] 図 15のクレジット情報読み取り手段 600では、通常の画像データか主題歌背景差分の画像データのどちらかで正しく読み取れればよいため、図 12や図 13のように単独で用いる場合に比べ、認識精度を向上できる。

[0130] 本説明のクレジット情報読み取り手段 600は、第 1の読み取り手段での読み取り結果と第 2の読み取り手段での読み取り結果とのうち、信頼度が高い方を選択してマージしているので、どちらか一方のみを用いた場合よりも読み取り精度を向上することができる。例えば、背景の主題歌で毎回同じ位置に同じクレジット情報が重畳される場合には、背景差分ではクレジット文字列が抽出できないため、直接テロップを読み取つた方が精度がよい。一方、テロップ重畳位置や内容が毎回異なる場合には、背景が複雑で通常のテロップ読み取りができない場合であっても、背景差分を読み取ることで、クレジット情報の読み取れるようになる。このようにして、両者をマージすることでクレジット読み取りの精度を向上することができる。 [0131] <第 2の実施の形態〉

本発明の第 2の実施の形態について図面を参照して詳細に説明する。

[0132] 図 16を参照すると、本発明の第 2の実施の形態の一例が示されており、クレジット情報認識手段 100と、対象物認識手段 105と、統合手段 103とを含む。

[0133] クレジット情報認識手段 100は、番組映像を入力とし、その出力は統合手段 103へ接続される。対象物認識手段 105は、番組映像を入力とし、その出力は、統合手段 1

03へ接続される。統合手段 103は、クレジット情報認識手段 100の出力と対象物認識手段 105の出力を入力とし、権利情報を出力する。

[0134] 次に、第 2の実施の形態の動作について説明する。

[0135] 番組映像は、クレジット情報認識手段 100と対象物認識手段 101とへ入力される。

[0136] クレジット情報認識手段 100の動作は、上述した第 1の実施の形態又は実施例のものと同様であり、クレジット候補情報を統合手段 103へ出力する。

[0137] 対象物認識手段 105は、コンテンツ内の権利に関する対象物を認識する手段であり、対象物とは、コンテンツ内の音楽著作物や、登場人物等である。

[0138] 例えば、対象物が音楽著作物の場合、番組映像から音響特徴量を抽出し、既にデータベースに登録されている音響特徴量と照合する。この際、音楽著作物の全体ではなぐ一部区間のみの照合も許可して照合を行う。照合した結果、データベース内の楽曲と同一であると判定された場合には、その楽曲を特定する音楽識別情報 (例えば楽曲に付与された ID)を出力する。同じ楽曲でも複数の音源がデータベースに登録されており、それらの一つが照合された場合には、その音源を特定する情報も含んでいてもよい。また、楽曲の全体ではなく一部が照合された場合には、その照合区間を特定する情報を音楽識別情報に含んでいてもよい。さらに、音楽識別の確からしさを表す指標も合わせて含んでいてもよい。また、音楽識別情報は、各楽曲に対して 1つだけ出力するようになっていてもよいし、複数の候補を出力するようになっていてもよい。また、抽出した音響特徴量が照合を試行したどの音響特徴量ともマッチングしない場合には、その音響特徴量を含む映像区間を特定する情報を音楽識別情報に含めて出力するようになっていてもよい。さらに、この区間の音響信号を一緒に出力するようになっていてもよい。このようにして求められた音楽識別情報は、統合手段 103へ出力される。

[0139] また、対象物が登場人物である場合、映像中に出現する登場人物の人物特徴量を抽出 '照合する。すなわち、映像情報から人物特徴量を抽出し、既にデータベースに登録されている人物特徴量と照合する。照合した結果、データベース内の人物と同一であると判定された場合には、その人物を特定する人物識別情報 (例えば人物に付与された ID)を出力する。また、人物識別の確力もしさを表す指標も合わせて含んでいてもよい。また、人物識別情報は、各登場人物に対して 1つだけ出力するようになっていてもよいし、複数の候補を出力するようになっていてもよい。また、抽出した人物特徴量が、照合を試行したレ、ずれの人物特徴量ともマッチングしな!/、場合には、その人物特徴量を含む映像区間または映像中の時空間位置を特定する情報を人物識別情報に含んで出力してもよい。さらに、この時空間位置の映像情報自体も合わせて出力してもよい。このようにして求められた人物識別情報は、統合手段 103へ出力される。ここで、人物特徴量としては、顔を記述する特徴量であってもよいし、人の声の特徴量であってもよい。あるいは、これらを組み合わせた特徴量であってもよく、また、人物の識別に用いることができる他の特徴量であってもよい。

[0140] 統合手段 103は、クレジット情報認識手段 100から出力されるクレジット候補情報、対象物認識手段 105から出力される対象物識別情報を統合し、権利情報として出力する。

[0141] 統合手段 103の統合の方法であるが、単純に、クレジット情報認識手段 100から出力されるクレジット候補情報と、対象物認識手段 105から出力される対象物識別情報とを出力する方法が考えられる。

[0142] また、統合の他の方法として、クレジット情報認識手段 100から出力されるクレジット候補情報と、対象物認識手段 105から出力される対象物識別情報とを照合し、グノレープ化して出力する方法が考えられる。このときに信頼度に応じて優先順位をつけてもよい。また、信頼度が最も高いものを選択する、あるいは、信頼度が一定以上のものを選択するようにしても良レ、。

[0143] 照合の方法として、対象物が音楽の場合、識別された楽曲の中から、連続音響の長さから主題歌/テーマソングを選択する。選択された楽曲のタイトルやその属性情報 (作詞者、作曲者、あるいは歌手、演奏家名）と、クレジット候補情報の音楽情報とを照合し、一致度がある一定以上の場合に同一楽曲とみなす方法がある。また、番組中での出現時刻を考慮し、主題歌かどうかを判定 (すなわち、番組の冒頭に近い位置あるいは最後に近い位置で出現するかどうかを判定）し、上記と同じ基準で重複を判定する方法もある。

[0144] 更に、対象物が人物の場合、単純に人物識別の結果得られた名前と、クレジット候補情報から得られた出演者の名前を照合し、一致度がある一定以上の場合に同一人物とみなす方法がある。例えば、文字の数が一定以上一致する場合、あるいは、文字の形状の類似度が名前全体で一定以上になる場合に同一人物とみなす。この際、一致した文字の汎用度を考慮して類似度を判定してもよい。例えば、「木村」よりも「拓也」のほうが同じ 2文字でも人物を特定しやすいため、後者のほうを類似度が高いと判定するようにしてもよい。この判定には、 TF'IDF法などの方法を用いることができる。また、人物識別の結果から、同じ人物と判定される人物識別情報をグループ化して出演頻度あるいは出演時間を算出あるいは推定し、主役級力、どうかを判定し、クレジット候補情報での出現順や、出現パターン (脇役は複数まとめて表示されるのに対し、主役級は単独で表示される、あるいは、ロールテロップの場合は、主役級の場合は前後と間隔を空けて表示される）を考慮して、同一人物かどうかを判定する方法もめる。

[0145] このような照合方法を用いて、クレジット候補情報と対象物識別情報とをグループ化し、権利情報として出力する。

[0146] 次に、本発明の第 2の実施の形態の効果について説明する。

[0147] 第 2の実施の形態では、クレジット情報認識手段と対象物認識手段とを独立に動かし、これらの結果を統合することによって、クレジット候補情報のみの場合と比べて、より正確に権利に関する情報を知ることができる。

[0148] <第 3の実施の形態〉

第 3の実施の形態を説明する。

[0149] 第 3の実施の形態は、上述した第 1の実施の形態と第 2の実施の形態とを組み合わせたものであり、更に、対象物認識手段 105がクレジット情報認識手段からのクレジット候補情報を用いることを特徴とする。尚、以下の説明では、対象物認識手段の例として、音楽著作物認識手段 101と、登場人物認識手段 102との例を示す。

[0150] 図 17を参照すると、本発明の第 3の実施の形態は、クレジット情報認識手段 100と、音楽著作物認識手段 101と、登場人物認識手段 102と、統合手段 103とを含む。クレジット情報認識手段 100は、番組映像を入力とし、その出力は、音楽著作物認識手段 101と、登場人物認識手段 102と、統合手段 103へ接続される。音楽著作物認識手段 101は、番組映像とクレジット情報認識手段 100の出力とを入力とし、その出力は、統合手段 103へ接続される。登場人物認識手段 102は、番組映像とクレジット情報認識手段 100の出力とを入力とし、その出力は、統合手段 103へ接続される。統合手段 103へは、クレジット情報認識手段 100と音楽著作物認識手段 101と登場人物認識手段 102の出力が接続され、権利情報を出力する。

[0151] 次に、図 17の実施の形態の動作について説明する。

[0152] 番組映像は、クレジット情報認識手段 100と、音楽著作物認識手段 101と、登場人物認識手段 102とへ入力される。これらの 3つの手段のうち、まず、クレジット情報認識手段 100によって番組映像が解析される。

[0153] クレジット情報認識手段 100では、入力される番組映像を解析し、映像中に重畳されているクレジット情報を読み取り、クレジット情報の候補となる情報を出力する。

[0154] ここで、クレジット情報とは、上述したように、番組の主題歌や最後の部分に重畳されている、原作者や脚本家、出演者、主題歌などの情報を記したテロップや音声である。また、番組映像は、 MPEGなどの圧縮されたフォーマットで入力されてもよいし、既に復号されてから入力されてもょレ、。圧縮された映像として入力される場合には、クレジット情報認識手段の中で映像を復号しながら解析を行う。なお、番組映像は、ある特定の一回の放送分の映像であってもよいし、あるいは、同じ番組の複数の回の映像を同時に入力する構成になって!/、てもよレ、。

[0155] クレジット情報認識手段 100では、番組映像中からクレジット情報が重畳されている情報重畳区間を抽出する。次に、クレジット情報重畳区間に含まれる映像を解析し、映像からテロップ情報を読み取る。そして、その結果をクレジット候補情報として出力する。クレジット候補情報は、認識された文字列とその時間情報、画像中での位置情報（フレーム内での座標）を含んでいてもよい。また、テロップの認識の確からしさを表す指標を含んでいてもよい。また、クレジット候補情報は、認識された各文字列に対して 1つの情報を出力するようになっていてもよいし、複数の候補文字列を出力するようになっていてもよい。このようにして求められたクレジット候補情報は、統合手段 103 へ出力されるとともに、音楽著作物認識手段 101、登場人物認識手段 102へも出力される。

[0156] 尚、クレジット情報認識手段 100は、上述した具体的な構成のいずれかを用いることが可能である。

[0157] 音楽著作物認識手段 101では、入力される番組映像とクレジット候補情報とを解析し、映像中で使われている音楽情報を抽出 ·照合する。すなわち、まず番組映像から音響特徴量を抽出し、次に既にデータベースに登録されている音響特徴量と照合する。この際、音楽著作物の全体ではなぐ一部区間のみの照合も許可して照合を行う。また、クレジット候補情報から音楽に関連する情報を抽出し、照合に用いるデータベースの制御、あるいは、照合時のパラメータの調整に用いる。照合した結果、データベース内の楽曲と同一であると判定された場合には、その楽曲を特定する音楽識別情報 (例えば楽曲に付与された ID)を出力する。同じ楽曲でも複数の音源がデータベースに登録されており、それらの一つが照合された場合には、その音源を特定する情報も含んでいてもよい。また、楽曲の全体ではなく一部が照合された場合には、その照合区間を特定する情報を音楽識別情報に含んでいてもよい。さらに、音楽識別の確力もしさを表す指標も合わせて含んでいてもよい。また、音楽識別情報は、各楽曲に対して 1つだけ出力するようになっていてもよいし、複数の候補を出力するようになつていてもよい。このようにして求められた音楽識別情報は、統合手段 103へ出力される。

[0158] 登場人物認識手段 102では、入力される番組映像とクレジット情報とを解析し、映像中に出現する登場人物の人物特徴量を抽出 '照合する。すなわち、まず映像情報から人物特徴量を抽出し、次に既にデータベースに登録されている人物特徴量と照合する。この際、クレジット候補情報力も登場人物に関連する情報を抽出し、照合に用いるデータベースの制御、あるいは、照合時のパラメータの調整に用いる。そして、この照合結果を人物識別情報として出力する。照合した結果、データベース内の人物と同一であると判定された場合には、その人物を特定する人物識別情報 (例えば人物に付与された ID)を出力する。また、人物識別の確からしさを表す指標も合わせて含んでいてもよい。また、人物識別情報は、各登場人物に対して 1つだけ出力するようになつていてもよいし、複数の候補を出力するようになっていてもよい。このようにして求められた人物識別情報は、統合手段 103へ出力される。

[0159] ここで、人物特徴量としては、顔を記述する特徴量であってもよ!/、し、人の声の特徴量であってもよい。あるいは、これらを組み合わせた特徴量であってもよぐまた、人物の識別に用いることができる他の特徴量であってもよい。

[0160] 統合手段 103では、クレジット情報認識手段 100から出力されるクレジット候補情報、音楽著作物認識手段 101から出力される音楽識別情報、登場人物認識手段 102 力出力される人物識別情報を統合し、権利情報として出力する。

[0161] 統合の方法は、上述した第 2の実施の形態における統合手段 103で説明した手法を用いても良いし、認識された文字列とその位置の関係から、原作や脚本家、出演者など権利対象の種別ごとに対応付け、権利情報として出力するようにしても良い。

[0162] また、音楽著作物の場合には、認識された音楽タイトルや音楽識別情報を各楽曲に対して出力する。あるいは、各楽曲の著作権情報を格納したデータベースにァクセスができる場合には、音楽識別情報からその音楽に付随する権利情報を求め、これを出力してもよい。人物については、人物識別情報をそのまま出力してもよいし、それと合わせて人物名を出力するようにしてもよい。なお、これらの権利情報は、最終的には 1つに絞り込まずに、候補を全て出力するようにし、最終的には人が確認するようにしてもよい。これにより、認識された権利情報が誤っている場合の訂正が容易になる。

[0163] <音楽著作物認識手段 101の構成例〉

( 1)音楽著作物認識手段 101の具体的な構成例 1

図 18を参照すると、音楽著作物認識手段 101の構成例が示されており、楽曲候補抽出手段 800と候補音響特徴量選択手段 801と音楽著作物照合手段 802と楽曲音響特徴量データベース 803とからなる。楽曲候補抽出手段 800は、クレジット候補情報を入力とし、楽曲候補情報を候補音響特徴量選択手段 801へ出力する。候補音響特徴量選択手段 801は、楽曲候補抽出手段 800から出力される楽曲候補情報に基づいて楽曲音響特徴量データベース 803から楽曲音響特徴量を選択し、候補音響特徴量を音楽著作物照合手段 802へ出力する。音楽著作物照合手段 802は、番組映像と候補音響特徴量選択手段 801から出力される候補音響特徴量を入力とし、音楽識別情報を出力する。

[0164] 次に、図 18の音楽著作物認識手段 101の動作について述べる。

[0165] クレジット候補情報は、楽曲候補情報抽出手段 800へ入力される。楽曲候補情報抽出手段 800では、クレジット候補情報から、主題歌ゃ揷入歌など、番組中で使われている楽曲に関する候補情報を抽出する。例えば、「主題歌」や「揷入歌」、「テーマソング」など、楽曲に関するキーワードを登録しておき、これらのキーワードが検出された場合には、これと並んで表示されるかある!/、は続けて表示される文字列の認識結果を楽曲候補情報として抽出する。ここで得られる情報は、楽曲の題名、歌手ゃ演奏家の名前、作詞 ·作曲家の名前などである。そして、得られた楽曲候補情報を候補音響特徴量選択手段 801へ出力する。

[0166] 候補音響特徴量選択手段 801では、楽曲音響特徴量データベース 803から、得られた楽曲候補情報と一致するか、あるいは類似する題名や人名と関連付けられた楽曲の特徴量を選択する。そして、選択された音響特徴量データを候補音響特徴量として音楽著作物照合手段 802へ出力する。

[0167] 音楽著作物照合手段 802では、まず、番組映像から音響特徴量を抽出する。この音響特徴量と候補音響特徴量選択手段 801から出力される候補音響特徴量とを照合し、照合された場合には、その音楽の識別情報を出力する。この際、音楽著作物の全体ではなぐ一部区間のみの照合も許可して照合を行う。

[0168] このように、図 18の音楽著作物認識手段 101は、クレジットの情報が完全に読み取れなくても、実際に使われている楽曲を特徴量同士で照合することで、楽曲に関する著作権情報抽出の精度を向上できる。

[0169] (2)音楽著作物認識手段 101の具体的な構成例 2

図 19を参照すると、音楽著作物認識手段 101の他の構成例が示されており、音楽関連制作情報抽出手段 820と音楽著作物照合パラメータ選択手段 821と音楽著作物照合手段 822と音楽著作物照合パラメータデータベース 823と楽曲音響特徴量データベース 803とからなる。音楽関連制作情報抽出手段 820は、クレジット候補情報を入力とし、音楽関連制作情報を音楽著作物照合パラメータ選択手段 821へ出力する。音楽著作物照合パラメータ選択手段 821は、音楽関連制作情報抽出手段 820から出力される音楽関連制作情報を入力とし、音楽著作物照合パラメータデータべ一ス 823から音楽著作権照合パラメータを選択し、音楽著作物照合手段 822へ出力する。音楽著作物照合手段 822は、番組情報と音楽著作物照合パラメータ選択手段 8 21から出力される音楽著作物照合パラメータと楽曲音響特徴量データベース 803に格納された楽曲音響特徴量とを入力とし、音楽識別情報を出力する。

[0170] 次に、図 19の音楽著作物認識手段 101の動作について述べる。

クレジット候補情報は、音楽関連制作情報抽出手段 820へ入力される。音楽関連制作情報抽出手段 820では、音楽関連制作情報をクレジット候補情報力抽出する。ここで、音楽関連制作情報とは、番組制作における音楽関連の情報であり、音楽の担当者、音楽協力を行ったレコード会社、選曲を担当した人物などである。これも、前述の楽曲候補情報抽出手段 800と同様に、「音楽」、「選曲」などといったキーヮードを登録しておき、これらのキーワードが検出された場合には、これと並んで表示されるかあるいは続けて表示される文字列の認識結果を音楽関連制作情報として抽出する。そして、抽出結果を音楽制作関連情報として音楽著作物照合パラメータ選択手段 821へ出力する。

[0171] 音楽著作物照合パラメータ選択手段 821では、入力される音楽関連制作情報に応じて、音楽著作物照合パラメータデータベース 823に格納されている音楽著作物の照合で使用するパラメータを選択する。あるいは、選択された情報に基づいて、音楽著作物照合パラメータを制御する。例えば、音楽関連制作情報として抽出された文字列がレコード会社の名前の場合には、そのレコード会社が持っている楽曲を優先的に選択させるように音楽著作物照合パラメータを調整する。あるいは、レコード会社ごとにグループ化されて、あるいはデータベースを分けて楽曲音響特徴量データべース 803に楽曲音響特徴量が格納されている場合には、そのグループやデータべースを指定するための情報を音楽著作物照合パラメータとして選択する。あるいは、音楽関連制作情報が、 BGMなどの楽曲の選定に関わった人や団体名である場合には、その人の過去の楽曲使用履歴に応じて、音楽著作物照合パラメータを調整するようになっていてもよい。このようにして選択された音楽著作物照合パラメータは、音楽著作物照合手段 822へ入力される。

[0172] 音楽著作物照合手段 822の動作は、基本的に図 18の音楽著作物照合手段 802 の動作と同様である。違いは、さらに音楽著作物照合パラメータ選択手段 821から音楽著作物照合パラメータが入力され、これによつて照合のパラメータを調整できるようになっている点である。照合の結果は、音楽識別情報として出力される。

[0173] 図 19の音楽著作物認識手段 101により、照合パラメータを調整することで、認識の精度を高めることが可能になる。

[0174] ここで、図 19の音楽著作物認識手段 101における音楽著作物照合手段 822について、更に、詳細に説明する。

[0175] 図 20を参照すると、音楽著作物照合手段 822の実施の形態の一例が示されており、音声重畳判定手段 950と音響特徴量照合手段 951とからなる。音声重畳判定手段 950は、番組映像を入力とし、音声重畳区間時刻情報を音響特徴量照合手段 951 へ出力する。音響特徴量照合手段 951は、番組映像と音声重畳判定手段 950から出力される音声重畳区間時刻情報と、音楽著作物照合パラメータとを入力とし、音声識別情報を出力する。

[0176] 次に、図 20の音楽著作物照合手段 822の動作について述べる。

[0177] 番組映像は、音声重畳判定手段 950へ入力される。音声重畳判定手段 950では、音響信号を解析し、音声が重畳されているかどうかを判定する。例えば、音響信号の周波数解析を行い、人間の声に近い特性を有する場合には、音声が重畳されていると判定する。これ以外にも、音声の重畳を判定可能な方法であれば、どのような方法も用いること力 Sできる。音声が重畳していると判定された場合には、音声が重畳している区間の時間情報（区間開始点、終了点、区間時間長など)を音声重畳区間時刻情報として音響特徴量照合手段 951へ出力する。

[0178] 音響特徴量照合手段 951では、入力される映像番組から音響特徴量を抽出し、候補音響特徴量と照合する。この際、音声重畳判定手段 950から出力される音声重畳区間時刻情報を用い、照合方法を調整する。例えば、音声が重畳している区間を省いて照合を行う、音声が重畳している区間では、音声周波数帯域の重みを低くして照合を行うなどの方法が考えられる。また、音楽著作物照合パラメータも入力されるようになつており、これを用いて照合方式を調整するようになっていてもよい。照合の結果は音楽識別情報として出力される。

[0179] 図 20の音楽著作物照合手段 822は、音声情報が BGMに力、かった場合でもその影響を小さく抑え、認識精度を向上できる。

[0180] <登場人物認識手段 102の構成例〉

( 1 )登場人物認識手段 102の具体的な構成例 1

図 21を参照すると、登場人物認識手段 102の実施の形態の一例が示されており、出演者候補情報抽出手段 900と候補人物特徴量選択手段 901と出演者照合手段 9 02と人物特徴量データベース 903とからなる。出演者候補情報抽出手段 900は、クレジット候補情報を入力とし、出演者候補情報を候補人物特徴量選択手段 901へ出力する。候補人物特徴量選択手段 901は、出演者候補情報抽出手段 900から出力される出演者候補情報を入力とし、人物特徴量データベース 903から候補人物特徴量を選択し、出演者照合手段 902へ出力する。出演者照合手段 902は、番組映像と候補人物特徴量選択手段 901から出力される候補人物特徴量を入力とし、人物識別情報を出力する。

[0181] 次に、図 21の登場人物認識手段 102の動作について述べる。

[0182] クレジット候補情報は、出演者候補情報抽出手段 900へ入力される。出演者候補情報抽出手段 900では、クレジット候補情報から、出演者に相当する部分を抽出し、出演者候補情報として出力する。具体的には、配役名と推定される名前と一緒に記されて!/、る人物名を抽出する、「出演」とレ、う単語と同時かあるいはそれに続!/、て表示される人物名を抽出する、クレジットに記載されている人物名から脚本家やプロデューサ一など、番組に明らかに出演していない人物名を判定し、これらを除いた人物名を抽出するなどの方法が考えられる。抽出された出演者候補情報は、候補人物特徴量選択手段 901へ出力される。 [0183] 候補人物特徴量選択手段 901では、人物特徴量データベース 903から、人名が一致、あるいは近い人物の特徴量を選択する。この際、 1つの認識された人名候補に対して 1つの人物特徴量を対応付けて出力する必要はなぐ複数の類似した名前を有する人物の人物特徴量を出力するようになっていてもよい。選択された候補人物特徴量は、出演者照合手段 902へ出力される。

[0184] 出演者照合手段 902では、まず、入力される番組映像から人物特徴量を抽出する。例えば、人物特徴量が顔特徴量の場合には、映像に対して顔検出を行い、次に、検出された領域の顔特徴量を算出する。あるいは、人物特徴量が音声特徴量の場合には、まず、音声を含む区間を抽出し、次に、この区間の音声の特徴量を抽出する。抽出された人物特徴量は、候補人物特徴量選択手段 901から入力される候補人物特徴量の各々と照合される。照合の結果、同一と判定された場合には、その人物を識別するための情報を人物識別情報として出力する。

[0185] 図 21に示す登場人物認識手段 102では、クレジット情報が完全に正確には認識できなかった場合や同姓同名などで曖昧な場合であっても、実際の人物特徴量を照合することで、出演者情報を正しく抽出することを可能にする。

[0186] (2)登場人物認識手段 102の具体的な構成例 2

図 22を参照すると、登場人物認識手段 102の実施の形態の一例が示されており、出演者所属団体抽出手段 920と出演者照合パラメータ選択手段 921と出演者照合手段 922と人物特徴量データベース 903と人物照合パラメータデータベース 923と力なる。

[0187] 出演者所属団体抽出手段 920は、クレジット候補情報を入力とし、出演者所属関連情報を出演者照合パラメータ選択手段 921へ出力する。出演者照合パラメータ選択手段 921は、出演者所属団体抽出手段 920から出力される出演者所属関連情報を入力とし、人物照合パラメータデータベース 923から出演者照合パラメータを選択し、出演者照合手段 922へ出力する。出演者照合手段 922は、番組映像と出演者照合パラメータ選択手段 921から出力される出演者照合パラメータと人物特徴量データベース 903に格納されている人物特徴量を入力とし、人物識別情報を出力する。

[0188] 次に、図 22の登場人物認識手段 102の動作について述べる。 [0189] クレジット候補情報は出演者所属団体抽出手段 920へ入力される。出演者所属団体抽出手段 920では、クレジット候補情報から、劇団名や芸能プロダクション名など、出演者の所属に関連する情報を抽出する。具体的には、出演者の所属情報の辞書を用意し、この辞書に登録されている名前と照合することで抽出できる。抽出された結果は、出演者所属関連情報として出演者照合パラメータ選択手段 921へ出力され

[0190] 出演者照合パラメータ選択手段 921では、人物照合パラメータデータベース 923から出演者照合パラメータを選択する。例えば、所属団体ごとにグループ化されて、あるいはデータベースを分けて人物特徴量データベース 903に人物特徴量が格納されて!/、る場合には、そのグループやデータベースを指定するための情報を出演者照合パラメータとして選択する。選択された出演者照合パラメータは出演者照合手段 9 22へ出力される。

[0191] 出演者照合手段 922の動作は、基本的に図 21の出演者照合手段 902の動作と同様である。違いは、さらに出演者照合パラメータ選択手段 921から出力される出演者照合パラメータが入力され、これによつて照合のパラメータを調整できるようになっている点である。照合の結果は、人物識別情報として出力される。

[0192] 図 22の登場人物認識手段 102により、クレジットには劇団名などの団体名しか記載されていない場合であっても、その団体に所属する誰が出演した力、を効率的に抽出することが可能になる。

[0193] 本発明の第 3の実施の形態の効果について説明する。

[0194] 本実施の形態では、映像中からクレジットの重畳区間を求め、テロップ認識を行うため、権利情報として重要なクレジット情報を直接得ることができる。また、重畳区間のみに処理を絞っているため、番組全体にテロップ認識を行う場合に比べ、演算負荷を低減できる。

[0195] また、音楽著作物の識別にも、このクレジット情報を用いるため、通常の音楽識別に比べ、識別の精度を高めることができる。また、登場人物の識別にも、クレジット情報を用いるため、単体の人物識別に比べ、識別の精度を高めることができる。

[0196] 尚、上述した説明では、対象物認識手段の例として、音楽著作物認識手段 101と、登場人物認識手段 102との例を示したが、この例に限ることなぐ例えば、図 23、図 2 4のようにいずれかの一方のみを用いる構成としても良い。また、対象物認識手段は、上述した各具体的な構成のものを組み合わせて用いても良!/、。

本出願は、 2006年 10月 26日に出願された特願 2006— 291442号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

請求の範囲

[1] コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力するクレジット情報認識手段を有することを特徴とする権利情報抽出装置。

[2] コンテンツから権利に関する権利情報を抽出する権利情報抽出装置であって、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力するクレジット情報認識手段と、

前記コンテンツを解析し、コンテンツ内の権利に関する対象物を認識して、その結果を対象物識別情報として出力する対象物認識手段と、

前記クレジット候補情報と、前記対象物識別情報とを統合し、権利情報として出力する統合手段と

を有することを特徴とする権利情報抽出装置。

[3] コンテンツから権利に関する権利情報を抽出する権利情報抽出装置であって、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力するクレジット情報認識手段と、

前記クレジット候補情報を参照し、前記コンテンツを解析してコンテンツ内の権利に関する対象物を認識して、その結果を対象物識別情報として出力する対象物認識手段と、

前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力する統合手段と

を有することを特徴とする権利情報抽出装置。

[4] 前記クレジット情報認識手段は、コンテンツ中でクレジット情報が含まれているタレジット情報区間を検出するクレジット情報区間検出手段と、

前記クレジット情報区間からクレジット情報を読み取り、結果をクレジット候補情報として出力するクレジット情報読取手段と

を有することを特徴とする請求項 1から請求項 3のいずれかに記載の権利情報抽出装置。

[5] 前記クレジット情報区間検出手段は、クレジット情報が映像に重畳されている映像区間をコンテンツから検出し、その映像区間の映像データであるクレジット情報区間映像データを出力することを特徴とする請求項 4または 5に記載の権利情報抽出装置。

[6] 前記クレジット情報区間検出手段は、前記コンテンツから音響区間を検知し、音響区間情報として出力する音響検知手段と、

前記音響区間情報によって特定される前記コンテンツの区間を前記クレジット情報区間として出力する手段と

を有することを特徴とする請求項 4に記載の権利情報抽出装置。

[7] 前記音響検知手段は、

コンテンツ中の連続的な音響情報の持続時間を計測し、連続音響時間として出力する連続音響時間計測手段と、

前記連続音響時間を用いて音響区間を判定し、音響区間情報として出力する音響区間判定手段と

を有することを特徴とする請求項 6に記載の権利情報抽出装置。

[8] 前記音響検知手段は、

前記コンテンツを構成する複数のコンテンツの各回のそれぞれに対して音響特徴量の抽出し、音響特徴量として出力する音響特徴量抽出手段と、

前記音響特徴量間で音響特徴量の照合を行い、音響特徴量が共通である区間を特定することによって音響部分を検知し、音響区間情報として出力する音響特徴量照合手段と

を有することを特徴とする請求項 6又は請求項 7に記載の権利情報抽出装置。

[9] 前記クレジット情報区間検出手段は、

テロップ候補領域が連続的に出現する映像区間を前記コンテンツから検出し、この映像区間を連続テロップ出現区間情報として出力する連続テロップ検知手段と、前記連続テロップ出現区間情報によって特定される前記番組映像の映像区間を前記クレジット情報区間映像データとして出力する手段と

を有することを特徴とする請求項 5に記載の権利情報抽出装置。

[10] 前記クレジット情報区間検出手段は、

前記コンテンツからロールテロップを検知し、この映像区間の時刻情報をロールテロップ区間情報として出力するロールテロップ検知手段と、

前記ロールテロップ区間情報によって特定される前記コンテンツの映像区間を前記クレジット情報区間映像データとして出力する手段と

[11] 前記クレジット情報読取手段は、前記クレジット情報区間映像データにテロップ認識を行って前記クレジット候補情報を出力することを有することを特徴とする請求項 5 に記載の権利情報抽出装置。

[12] 前記クレジット情報読取手段は、

複数回のコンテンツのクレジット情報区間映像データが入力され、前記複数回のクレジット情報区間映像データ間で共通する特徴を持つ音響背景映像を生成して出力する音響背景映像生成手段と、

前記音響背景映像を前記クレジット情報区間映像データから差し引くことで音響背景差分映像を生成して出力する音響背景差分映像生成手段と、

前記音響背景差分映像にテロップ認識を適用して前記クレジット候補情報を取得して出力するテロップ読み取り手段と

[13] 前記クレジット情報読取手段は、

前記クレジット情報区間映像データにテロップ認識を適用して第 1のクレジット候補情報を取得して出力する第 1のテロップ読み取り手段と、

前記音響背景差分映像にテロップ認識を適用して第 2のクレジット候補情報を取得して出力するテロップ読み取り手段と、

前記第 1のクレジット候補情報と前記第 2のクレジット候補情報とを統合して、クレジット候補情報を求め、出力するテロップ読み取り結果統合手段とを有することを特徴とする請求項 5に記載の権利情報抽出装置。

[14] 前記音響背景映像生成手段は、

前記クレジット情報区間映像データの各回のそれぞれに対して視覚特徴量を抽出し、音響背景視覚特徴量として出力する視覚特徴量抽出手段と、

前記音響背景視覚特徴量間で視覚特徴量の照合を行い、背景が共通である映像フレームを対応付け、フレーム対応情報として出力する対応フレーム算出手段と、前記フレーム対応情報で対応付けられる各回のフレーム間で画素値の統計処理を行って音響背景の各画素の値を算出し、音響背景映像を生成し、出力する背景映像生成手段と

を有することを特徴とする請求項 12又は請求項 13に記載の権利情報抽出装置。

[15] 前記背景映像生成手段は、対応フレーム間で画素値の変動が大きい場合には、前記統計処理としてメディアンを用いることを特徴とする請求項 14に記載の権利情報抽出装置。

[16] 前記背景映像生成手段は、対応フレーム間で画素値の変動が大きい場合には、前記統計処理として、前記画素値の近隣の画素値情報から前記画素値がテロップ領域に該当する可能性を現す指標を算出し、前記指標が小さいほど大きな加重をかけて統計処理を行うことを特徴とする請求項 14に記載の権利情報抽出装置。

[17] 前記クレジット情報認識手段は、

読み取れな力、つたクレジット候補領域が存在した場合には、そのクレジット候補領域を含む映像中の時空間位置を特定する情報を前記クレジット候補情報とともに出力することを特徴とする請求項 1から請求項 16のいずれかに記載の権利情報抽出装置

[18] 前記対象物認識手段は、コンテンツの音響特徴量を解析し、前記音響特徴量と前記クレジット候補情報とに基づいて、コンテンツの音楽著作物を認識し、結果を音楽識別情報として出力する音楽著作物認識手段であることを特徴とする請求項 2から請求項 ₄のいずれかに記載の権利情報抽出装置。

[19] 前記対象物認識手段は、コンテンツの人物特徴量を解析し、前記人物特徴量と前記クレジット候補情報とに基づいて、コンテンツの登場人物を認識し、結果を出演者識別情報として出力する登場人物認識手段であることを特徴とする請求項 2から請求項 4のいずれかに記載の権利情報抽出装置。

[20] 前記音楽著作物認識手段は、

前記クレジット候補情報力使用楽曲の候補情報を抽出し、使用楽曲候補情報として出力する楽曲候補情報抽出手段と、

前記使用楽曲候補情報に近い音楽の音響特徴量を音響特徴量データベースから選択し、候補音響特徴量として出力する候補音響特徴量選択手段と、

前記候補音響特徴量と前記コンテンツ力抽出される音響特徴量とを照合し、一致したと判定された場合にはその音楽識別情報を出力する音楽著作物照合手段とを有することを特徴とする請求項 18に記載の権利情報抽出装置。

[21] 前記音楽著作物認識手段は、

前記クレジット候補情報から、音楽制作にかかわった人物、団体の情報、又はレコード製作者の情報を抽出し、音楽関連制作情報として出力する音楽関連制作情報抽出手段と、

前記音楽関連制作情報に応じて、音楽照合に用いる変数や楽曲データベースの選択情報などの照合パラメータを選択する音楽著作物照合パラメータ選択手段と、前記照合パラメータを用いて、楽曲音響特徴量データベース内の音響特徴量と前記コンテンツから抽出される音響特徴量とを照合し、一致したと判定された場合にはその音楽識別情報を出力する音楽著作物照合手段と

を有することを特徴とする請求項 18に記載の権利情報抽出装置。

[22] 前記音楽著作物照合手段は、

前記コンテンツを解析して音声が含まれる区間を判定し、その区間の時刻情報を音声重畳区間時刻情報として出力する音声重畳判定手段と、

前記コンテンツから音響特徴量を抽出し、前記音声重畳区間時刻情報に基づいて音声が重畳されていない区間である音声非重畳区間を検出し、前記音声非重畳区間においてのみ、前記音楽著作物照合パラメータを用いて前記候補音響特徴量との照合を行い、照合結果を前記音楽識別情報として出力する音響特徴量照合手段とを有することを特徴とする請求項 20又は請求項 21に記載の権利情報抽出装置。

[23] 前記音楽著作物照合手段は、

前記コンテンツを解析して音声が含まれる音声重畳区間を判定し、その区間の時刻情報を音声重畳区間時刻情報として出力する音声重畳判定手段と、

前記コンテンツから音響特徴量を抽出し、前記音声重畳区間時刻情報に基づいて音声が重畳されていない区間である音声非重畳区間を検出し、前記音声非重畳区間においては前記音楽著作物照合パラメータを用いて前記候補音響特徴量との照合を行い、前記音声重畳区間においては音声周波数帯の信号の影響を抑圧して前記音楽著作物照合パラメータを用いて前記候補音響特徴量との照合を行い、照合結果を前記音楽識別情報として出力する音響特徴量照合手段と

を有することを特徴とする請求項 20又は請求項 21に記載の権利情報抽出装置。

[24] 前記音楽著作物認識手段は、

前記番組映像から抽出した音響特徴量が照合を試行したどの音響特徴量ともマッチングしない場合には、その音響特徴量を含む映像区間を特定する情報を前記音楽識別情報とともに出力することを特徴とする請求項 18から請求項 23のいずれかに記載の権利情報抽出装置。

[25] 前記登場人物認識手段は、

前記クレジット候補情報力出演者に関する人物の候補情報を抽出し、出演者候補情報として出力する出演者候補情報抽出手段と、

前記出演者候補情報に近い人物の人物特徴量を人物特徴量データベースから選択し、候補人物特徴量として出力する候補人物特徴量選択手段と、

前記候補人物特徴量と前記コンテンツから抽出される人物特徴量とを照合し、一致したと判定された場合にはその人物識別情報を出力する出演者照合手段とを有することを特徴とする請求項 19に記載の権利情報抽出装置。

[26] 前記登場人物認識手段は、

前記クレジット候補情報力出演者の所属団体に関する情報を抽出し、出演者所属関連情報として出力する出演者所属団体抽出手段と、

前記出演者所属関連情報に応じて照合パラメータを選択する出演者照合パラメ一タ選択手段と、

前記照合パラメータを用いて、人物特徴量データベース内の人物特徴量と前記コンテンッから抽出される人物特徴量とを照合し、一致したと判定された場合にはその人物識別情報を出力する出演者照合手段と

することを特徴とする請求項 19に記載の権利情報抽出装置。

[27] 前記人物特徴量が少なくとも人物の顔の特徴量を含むことを特徴とする請求項 19

、 25又は 26に記載の権利情報抽出装置。

[28] 前記人物特徴量が少なくとも人物の声の特徴量を含むことを特徴とする請求項 19

、 25又は 26に記載の権利情報抽出装置。

[29] 前記登場人物認識手段は、前記コンテンツから抽出した人物特徴量が、照合を試行した!/、ずれの人物特徴量ともマッチングしな!/、場合には、その人物特徴量を含む映像区間または映像中の時空間位置を特定する情報を前記人物識別情報とともに出力することを特徴とする請求項 19、又は請求項 25から 28のいずれかに記載の権利情報抽出装置。

[30] コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力することを特徴とする権利情報抽出方法。

[31] コンテンツから権利に関する権利情報を抽出する権利情報抽出方法であって、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力する処理と、

前記コンテンツを解析し、コンテンツ内の権利に関する対象物を認識して、その結果を対象物識別情報として出力する処理と、

前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力する処理と

を有することを特徴とする権利情報抽出方法。

[32] コンテンツから権利に関する権利情報を抽出する権利情報抽出方法であって、コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力する処理と、

前記クレジット候補情報を参照し、前記コンテンツを解析してコンテンツ内の権利に関する対象物を認識して、その結果を対象物識別情報として出力する処理と、前記クレジット候補情報と前記対象物識別情報とを統合し、権利情報として出力する処理と

を有することを特徴とする権利情報抽出方法。

[33] 前記クレジット候補情報として出力する処理は、

コンテンツ中でクレジット情報が重畳されているクレジット情報区間を検出する処理と、

前記クレジット情報区間からクレジット情報を読み取り、結果をクレジット候補情報として出力する処理と

を有することを特徴とする請求項 30から請求項 32のいずれかに記載の権利情報抽出方法。

[34] コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力する処理を情報処理装置に実行させることを特徴とするプログラム。

[35] コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力する処理と、

を情報処理装置に実行させることを特徴とするプログラム。

[36] コンテンツから権利に関するクレジット情報を読み取り、結果をクレジット候補情報として出力する処理と、

[37] 前記クレジット候補情報として出力する処理は、コンテンツ中でクレジット情報が重畳されているクレジット情報区間を検出する処理と、

を有することを特徴とする請求項 34から請求項 37のいずれかに記載のプログラム。