WO2020012700A1

WO2020012700A1 - ラベル付与装置、ラベル付与方法およびプログラム

Info

Publication number: WO2020012700A1
Application number: PCT/JP2019/008197
Authority: WO
Inventors: 真暉近藤
Original assignee: 株式会社東芝; 東芝デジタルソリューションズ株式会社
Priority date: 2018-07-11
Filing date: 2019-03-01
Publication date: 2020-01-16
Also published as: US20210124997A1; JP6829226B2; CN112384911A; US11531839B2; JP2020009300A

Abstract

実施形態のラベル付与装置（１０）は、ラベル候補生成部（１１）と、特徴量ペア検出部（１３）と、ラベル付与部（１４）と、を備える。ラベル候補生成部（１１）は、コンテンツ（５１）に関連付けられた関連データ（５２）からラベル候補を生成する。特徴量ペア検出部（１３）は、第１コンテンツから抽出された特徴量と第２コンテンツから抽出された特徴量との組み合わせのうち、特徴量間の類似度が最も高い組み合わせである特徴量ペアを検出する。ラベル付与部（１４）は、前記第１コンテンツに関連付けられた第１関連データと前記第２コンテンツに関連付けられた第２関連データとの双方から生成された共通のラベル候補を、前記特徴量ペアを構成する各特徴量に対してラベルとして付与する。

Description

ラベル付与装置、ラベル付与方法およびプログラム

　本発明の実施形態は、ラベル付与装置、ラベル付与方法およびプログラムに関する。

　ストレージ性能や回線技術の進展に伴い、ローカルのストレージデバイスやネットワーク上のデータベースサーバなどに保有された多量のコンテンツの中から所望のものを検索して利用する機会が増えている。コンテンツの検索は、キーワード検索が最も単純で利便性が高い。コンテンツから抽出される特徴量にキーワード相当のラベルが付与されていれば、キーワード検索によって所望のコンテンツを高精度に検索できる。また、コンテンツが動画コンテンツなどであれば、例えばキーワードで指定した人物が映るシーンを探し出すといったシーン検索も可能になる。しかし、コンテンツから抽出された特徴量に人手でラベルを付与する作業は非常に煩雑であり、こうしたラベル付与を自動で行える技術が求められる。

特開２０１６－８１２６５号公報特許第３６０２７６５号公報

Common　Subspace　for　Model　and　Similarity：Phrase　Learning　for　Sentence　Generation　from　Images（ICCV　2015） MeCab：Yet　Another　Part-of-Speech　and　Morphological　Analyzer（http://mecab.sourceforge.net/） Efficient　estimation　of　word　representations　in　vectorspace（ICIL　2013） GloVe：Global　Vectors　for　Word　Representation（EMNLP　2014）

　本発明が解決しようとする課題は、コンテンツから抽出される特徴量に対するラベル付与を自動で行うことができるラベル付与装置、ラベル付与方法およびプログラムを提供することである。

　実施形態のラベル付与装置は、ラベル候補生成部と、特徴量ペア検出部と、ラベル付与部と、を備える。ラベル候補生成部は、コンテンツに関連付けられた関連データからラベル候補を生成する。特徴量ペア検出部は、第１コンテンツから抽出された特徴量と第２コンテンツから抽出された特徴量との組み合わせのうち、特徴量間の類似度が最も高い組み合わせである特徴量ペアを検出する。ラベル付与部は、前記第１コンテンツに関連付けられた第１関連データと前記第２コンテンツに関連付けられた第２関連データとの双方から生成された共通のラベル候補を、前記特徴量ペアを構成する各特徴量に対してラベルとして付与する。

図１は、実施形態の基本概念を説明する図である。図２は、第１実施例に係るラベル付与装置の機能的な構成例を示すブロック図である。図３は、動画から顔特徴ベクトルを抽出して顔特徴代表ベクトルを生成する処理を説明する図である。図４は、動画ペアからベクトルペアを検出してラベルを付与する処理を説明する図である。図５は、動画ペアからベクトルペアを検出してラベルを付与する処理を説明する図である。図６は、動画ペアからベクトルペアを検出してラベルを付与する処理を説明する図である。図７は、動画のメタデータを生成する処理を説明する図である。図８は、第２実施例に係るラベル付与装置の機能的な構成例を示すブロック図である。図９は、第３実施例に係るラベル付与装置の機能的な構成例を示すブロック図である。図１０は、第３実施例の処理の概要を説明する図である。図１１は、第３実施例の処理の概要を説明する図である。図１２は、第３実施例の処理の概要を説明する図である。図１３は、第４実施例に係るラベル付与装置の機能的な構成例を示すブロック図である。図１４は、第４実施例の処理手順の一例を示すフローチャートである。図１５は、第４実施例の処理手順の一例を示すフローチャートである。図１６は、第４実施例の処理手順の一例を示すフローチャートである。図１７は、第４実施例の処理手順の一例を示すフローチャートである。図１８は、第５実施例に係るラベル付与装置の機能的な構成例を示すブロック図である。図１９は、ラベル付与装置のハードウェア構成例を示すブロック図である。

　以下、実施形態のラベル付与装置、ラベル付与方法およびプログラムについて、添付図面を参照して詳細に説明する。

＜実施形態の概要＞
　本実施形態は、コンテンツから抽出される特徴量に対するラベル付与を自動で行うものである。本実施形態で想定するコンテンツは、例えば、動画、静止画、音声、センサデータなど、様々な形式のデータを含む。本実施形態では、これらのコンテンツに関連付けられた関連データを用いて、コンテンツから抽出した特徴量に付与するラベルの候補を生成する。関連データは、例えばコンテンツの説明文、字幕情報などのように、コンテンツに対して予め付与されたテキストデータであってもよいし、コンテンツに対して、音声認識や文字認識、画像説明文生成（キャプショニング）などの所定の処理を行うことで得られるテキストデータであってもよい。

　コンテンツから抽出される特徴量と関連データから生成されるラベル候補が１つずつであれば、特徴量とラベルの対応関係は一意に特定できる。しかし、こうした状況は極めて稀であり、一般的には、コンテンツから複数の特徴量が抽出され、関連データからも複数のラベル候補が生成されることが多い。この場合、どの特徴量にどのラベル候補が対応するかを一意に特定できないため、特徴量に対するラベル付与を自動で行うことはできない。そこで、本実施形態では、コンテンツと関連データのデータセットを複数用い、データセット間の共通部分を手掛かりとして、特徴量とラベル候補の対応関係を特定できるようにする。

　図１は、実施形態の基本概念を説明する図である。図１に示すように、関連データが関連付けられたコンテンツとして、コンテンツＡとコンテンツＢがあるとする。ここで、コンテンツＡとコンテンツＢからはそれぞれ３つの特徴量が抽出されるとする。また、コンテンツＡの関連データからは「ａ」、「ｂ」、「ｃ」の３つのラベル候補が生成され、コンテンツＢの関連データからは「ａ」、「ｄ」、「ｅ」の３つのラベル候補が生成されるとする。つまり、コンテンツＡとその関連データのデータセットと、コンテンツＢとその関連データのデータセットは、関連データから生成されるラベル候補が１つのみ共通する。本実施形態では、このように、関連データから生成されるラベル候補が１つのみ共通するデータセットの組み合わせを選択する。

　本実施形態では、まず、コンテンツＡ，Ｂの各々から特徴量を抽出する処理と、それぞれの関連データからラベル候補を生成する処理を行う。その後、コンテンツＡから抽出された特徴量とコンテンツＢから抽出された特徴量とを共通の特徴量空間にマッピングする。そして、コンテンツＡから抽出された特徴量とコンテンツＢから抽出された特徴量との組み合わせのうち、特徴量間の類似度が最も高い組み合わせ（例えば、特徴量間の距離が最も小さい組み合わせ）を特徴量ペアとして検出する。このように検出される特徴量ペアは、コンテンツＡとコンテンツＢの双方に含まれる共通の（同一の）対象を表している可能性が高い。そこで、この特徴量ペアを構成する各特徴量に対し、コンテンツＡの関連データとコンテンツＢの関連データの双方から生成された共通のラベル候補（図１の例ではラベル候補「ａ」）を、ラベルとして付与する。

　以上の処理では、コンテンツＡとコンテンツＢとから１つの特徴量ペアを検出し、この特徴量ペアを構成する各特徴量に対してラベルを付与するため、コンテンツＡ，Ｂともにラベル未付与の特徴量が残る。しかし、コンテンツＡ，Ｂの双方とも、他のデータセットとの組み合わせを選択して以上の処理を繰り返すことにより、ラベル未付与の特徴量に対しても同様にラベルを付与することが可能となる。また、多数のデータセットを用いて以上の処理を繰り返し行い、多くの特徴量にラベルが付与されれば、関連データが関連付けられていないコンテンツから抽出される特徴量に対しても、最近傍探索により自動でラベルを付与することが可能となる。すなわち、関連データが関連付けられていないコンテンツから抽出される特徴量がラベル付与済みの特徴量に十分に近ければ、同じラベルを付与することができる。

　以下では、分かり易い例として、コンテンツがＴＶ番組（動画）であり、関連データがＴＶ番組の内容を説明する番組説明文である場合を例に挙げて、本実施形態の概念を適用した具体的な実施例について詳しく説明する。なお、以下の説明において、同様の機能を持つ構成要素については同一の符号を付して、重複した説明を適宜省略する。

＜第１実施例＞
　ＴＶ番組は、一般的に動画と番組説明文がセットとなって提供される。番組説明文はＴＶ番組の内容を説明するテキストデータであり、ＴＶ番組に登場する主要登場人物の名前が記載されていることが多い。本実施例では、ＴＶ番組の動画から得られる主要登場人物の顔特徴代表ベクトル（代表特徴量の一例）に対して、番組説明文から得られる主要登場人物の名前をラベルとして自動で付与する。

　まず、本実施例の処理の概要を説明する。本実施例では、ＴＶ番組の動画の各フレームに対して、顔検出・顔特徴ベクトル生成の処理を行う。このとき、ＴＶ番組の主要登場人物はそのＴＶ番組において多く登場することから、動画から多くの顔特徴ベクトルが抽出される。また、動画から抽出された同一人物の顔特徴ベクトルは、特徴ベクトル空間において近くに存在する。すなわち、動画から多数抽出される主要登場人物の顔特徴ベクトルは、特徴ベクトル空間上に多く存在し、さらに密集していると考えられる。一方、主要登場人物以外の人物（非主要登場人物）は登場回数が少ないため、特徴ベクトル空間上では密集率が低いと考えられる。したがって、特徴ベクトル空間上でスパースな顔特徴ベクトルを外れ値とした上で、特徴ベクトル空間上の顔特徴ベクトル群に対し、Ｋ＝主要登場人物数としてＫ－ｍｅａｎｓクラスタリングを行うと、主要登場人物の顔特徴代表ベクトルが得られる。

　複数のＴＶ番組の中には、主要登場人物が共通するものがある。複数のＴＶ番組に共通して登場する主要登場人物をここでは共通登場人物と呼ぶ。このとき、ＴＶ番組の組み合わせを適切に選択することにより、共通登場人物を絞り込むことができる。例えば、主要登場人物として人物ａと人物ｂが登場するＴＶ番組Ｘと、主要登場人物として人物ａと人物ｃが登場するＴＶ番組Ｙとが存在するとき、これらＴＶ番組ＸとＴＶ番組Ｙとの組み合わせで得られる共通登場人物は人物ａである。

　本実施例では、まず、各ＴＶ番組の動画から抽出した顔特徴ベクトルに対して上述のＫ－ｍｅａｎｓクラスタリングを行うことで、ＴＶ番組ごとに主要登場人物の顔特徴代表ベクトルを生成する。このとき、１つのＴＶ番組には複数の主要登場人物が登場することが多いため、顔特徴代表ベクトルと主要登場人物の名前を一意に対応付けることができない。そこで、共通登場人物が１名となる複数のＴＶ番組の組み合わせを選択し、これらＴＶ番組の動画から各々生成された顔特徴代表ベクトルを共通の特徴ベクトル空間にマッピングする。例えば、共通登場人物が１名となる２つのＴＶ番組のうちの一方のＴＶ番組の動画を第１動画、他方のＴＶ番組の動画を第２動画としたとき、第１動画から生成された複数の顔特徴代表ベクトルと、第２動画から生成された複数の顔特徴代表ベクトルとを、共通の特徴ベクトル空間にマッピングする。

　ここで、２つのＴＶ番組の共通登場人物は１名であるため、第１動画から生成された顔特徴代表ベクトルと第２動画から生成された顔特徴代表ベクトルとの組み合わせのうち、顔特徴代表ベクトル間の類似度が最も高い組み合わせ（特徴量ペアの一例。以下ではこれをベクトルペアと呼ぶ。）は、共通登場人物のものである可能性が高い。したがって、ベクトルペアを構成する各顔特徴代表ベクトルに対し、共通登場人物の名前をラベルとして付与することができる。なお、以下の説明においては、顔特徴代表ベクトル間の類似度を、顔特徴代表ベクトル間の距離（例えばユークリッド距離）を用いて判定する例を挙げるが、２つの顔特徴代表ベクトルの内積を用いて両者の類似度を判定してもよい。顔特徴代表ベクトル間の距離を用いて類似度を判定する場合は、距離が小さいほど類似度が高くなるが、２つの顔特徴代表ベクトルの内積を用いて類似度を判定する場合は、内積が大きいほど類似度が高くなる。

　次に、本実施例に係るラベル付与装置の構成について説明する。図２は、本実施例に係るラベル付与装置１０の機能的な構成例を示すブロック図である。このラベル付与装置１０は、図２に示すように、ラベル候補生成部１１と、特徴量抽出部１２と、特徴量ペア検出部１３と、ラベル付与部１４と、メタデータ生成部１５と、データ保持部１６とを備える。

　このラベル付与装置１０は、コンテンツＤＢ５０に格納されたコンテンツ５１から特徴量を抽出し、抽出した特徴量に対し、関連データ５２から生成されるラベル候補のうちのいずれかをラベルとして付与する。本実施例では、上述のように、コンテンツ５１と関連データ５２との組み合わせからなるデータセット５３がＴＶ番組であり、コンテンツ５１がＴＶ番組の動画、関連データ５２が番組説明文である場合を想定する。

　ラベル候補生成部１１は、コンテンツ５１に関連付けられた関連データ５２からラベル候補を生成する。例えば、関連データ５２がＴＶ番組の番組説明文である場合、ラベル候補生成部１１は、この番組説明文に対して形態素解析を行い、その結果からＴＶ番組に登場する主要登場人物の名前を取得してこれをラベル候補とする。なお、関連データ５２は、ラベル候補となる主要登場人物の名前を取得できるテキストデータであればよく、例えば、動画にリンクする音声に対して音声認識処理を行った結果得られるテキストデータであってもよいし、動画を構成するフレーム画像に対して、例えば非特許文献１に示す画像説明文生成の技術を適用することで得られるテキストデータであってもよい。また、動画に対して付与された字幕情報のテキストデータを関連データ５２として用いてもよい。

　特徴量抽出部１２は、コンテンツ５１から特徴量を抽出する。例えば、コンテンツ５１がＴＶ番組の動画である場合、特徴量抽出部１２は、動画の各フレームに対して、顔検出・顔特徴ベクトル生成の処理を行う。これにより、ＴＶ番組に登場する全ての登場人物の顔特徴ベクトルが網羅される。なお、画像から顔を検出してその特徴量（顔特徴ベクトル）を抽出する技術は広く知られているため、ここでは詳細な説明を省略する。

　また、特徴量抽出部１２は、処理対象のコンテンツ５１が関連データ５２と関連付けられている場合、このコンテンツ５１から抽出した特徴量群をクラスタリングしてクラスタごとの代表特徴量を生成する。例えば、コンテンツ５１がＴＶ番組の動画であり、この動画に関連データ５２として番組説明文が関連付けられている場合、特徴量抽出部１２は、動画から抽出した顔特徴ベクトル群に対してＫ－ｍｅａｎｎｓクラスタリングを行い、クラスタごとの顔特徴代表ベクトルを生成する。このＫ－ｍｅａｎｓクラスタリングのＫの値は、ラベル候補生成部１１により生成されたラベル候補の数、すなわち、ＴＶ番組に登場する主要登場人物の数である。これにより、主要登場人物の数と同じ数の顔特徴代表ベクトルが得られる。なお、コンテンツ５１から抽出される特徴量の数がラベル候補の数と同等である場合は、特徴量に対するクラスタリング（代表特徴量の生成）は行わなくてもよい。

　ラベル候補生成部１１により生成されたラベル候補（主要登場人物名）の一覧、および、特徴量抽出部１２により生成された複数の顔特徴代表ベクトル（代表特徴量）は、本実施例における処理の中間データとして、コンテンツ５１（ＴＶ番組の動画）の識別情報と対応付けてデータ保持部１６に保持される。

　特徴量ペア検出部１３は、コンテンツＤＢ５０に格納されたデータセット５３のうち、関連データ５２から生成されたラベル候補が１つのみ共通するデータセット５３の組み合わせを用いて、特徴量ペアの検出を行う。例えば、コンテンツＤＢ５０に格納されたデータセット５３がＴＶ番組であり、コンテンツ５１がＴＶ番組の動画、関連データ５２が番組説明文であるとする。そして、各データセット５３について、ラベル候補生成部１１によりラベル候補の一覧として主要登場人物の名前の一覧が生成され、特徴量抽出部１２により代表特徴量として主要登場人物数と同じ数の顔特徴代表ベクトルが生成されているとする。この場合、特徴量ペア検出部１３は、コンテンツＤＢ５０にデータセット５３として格納されたＴＶ番組のうち、主要登場人物が１名のみ共通するＴＶ番組の組み合わせを選択する。そして、一方のＴＶ番組の動画を第１動画、他方のＴＶ番組の動画を第２動画とすると、特徴量ペア検出部１３は、第１動画から生成された顔特徴代表ベクトルと第２動画から生成された顔特徴代表ベクトルとの組み合わせのうち、顔特徴代表ベクトル間の距離が最も小さい（類似度が最も高い）顔特徴代表ベクトルの組み合わせを、ベクトルペアとして検出する。

　なお、本実施例では、１つのコンテンツ５１（ＴＶ番組の動画）から同一の対象（主要登場人物）を表す特徴量（顔特徴ベクトル）が多く抽出されることを想定し、特徴量抽出部１２がコンテンツ５１から抽出される特徴量をクラスタリングするようにしている。しかし、コンテンツ５１から抽出される特徴量のそれぞれにラベルを付与する場合は、特徴量のクラスタリング（代表特徴量の生成）は不要である。このように、特徴量抽出部１２が特徴量のクラスタリングを行わない場合は、特徴量ペア検出部１３は、代表特徴量ではなく特徴量の組み合わせについて類似度を判定して、特徴量ペアを検出すればよい。

　ラベル付与部１４は、特徴量ペア検出部１３により検出された特徴量ペアを構成する各特徴量に対し、上述のデータセット５３の組み合わせに含まれる各関連データ５２から生成された共通のラベル候補をラベルとして付与する。例えば、特徴量ペア検出部１３によって上述のベクトルペアが検出された場合、このベクトルペアを構成する各顔特徴代表ベクトルに対し、共通の主要登場人物の名前をラベルとして付与する。

　また、ラベル付与部１４は、関連データ５２が関連付けられていないコンテンツ５１から抽出された特徴量（顔特徴ベクトル）が、特徴量ペア検出部１３により検出された特徴量ペア（ベクトルペア）を構成する各特徴量（顔特徴代表ベクトル）と類似する場合、関連データ５２が関連付けられていないコンテンツ５１から抽出された特徴量に対し、特徴量ペアを構成する各特徴量に付与したラベルと共通のラベルを付与することができる。この処理は、例えば、後述の最近傍探索の手法により実現することができる。

　メタデータ生成部１５は、ラベルが付与された特徴量を用いてコンテンツ５１のメタデータを生成する。例えば、特徴量抽出部１２が上述のように動画の各フレームから顔特徴ベクトルを抽出した場合、抽出された顔特徴ベクトルとフレーム番号の対応関係を記録しておく。その後、ラベル付与部１４により顔特徴ベクトルに対してラベルが付与された場合、顔特徴ベクトルに付与されたラベルをその顔特徴ベクトルが抽出されたフレーム番号に付与することができる。このフレーム番号に付与されたラベルは、ＴＶ番組の中から所望の主要登場人物が登場するシーンを検索するためのメタデータとなる。

　次に、本実施例に係るラベル付与装置１０による処理の具体例について説明する。まず、ＴＶ番組の主要登場人物の顔特徴代表ベクトルと主要登場人物一覧を生成する処理について、図３を参照して説明する。図３は、動画から顔特徴ベクトルを抽出して顔特徴代表ベクトルを生成する処理を説明する図である。

　ラベル候補生成部１１は、ＴＶ番組の番組説明文に対して形態素解析を行う。そして、この形態素解析の結果から、ＴＶ番組に登場する主要登場人物の名前をラベル候補として取得し、主要登場人物一覧を生成する。この主要登場人物一覧に含まれる主要登場人物の数がラベル候補数である。図３では、動画Ａに関連付けられた番組説明文から、ラベル候補として人物ａ、人物ｂ、人物ｃの３名の主要登場人物名が取得された例を示している。なお、番組説明文に対する形態素解析には、例えば非特許文献２に開示されるMeCabなどを用いることができる。

　特徴量抽出部１２は、図３に示すように、ＴＶ番組の動画Ａの各フレームから登場人物の顔検出を行い、顔特徴ベクトルを生成する。これにより、１つの動画Ａから複数人物および複数個の顔特徴ベクトル群が生成される。すなわち、ＴＶ番組中に登場する人物の顔特徴ベクトルが網羅される。

　次に、特徴量抽出部１２は、動画Ａから生成した顔特徴ベクトル群に対しＫ－ｍｅａｎｓクラスタリングを行い、各クラスタのセントロイドを顔特徴代表ベクトルとする。このときのＫの値は、ラベル候補生成部１１により生成されたラベル候補数、つまり、主要登場人物一覧に含まれる主要登場人物名の数である。これによって、ＴＶ番組に登場する主要登場人物の数に対応する数の顔特徴代表ベクトルが得られる。図３では、３つの顔特徴代表ベクトルが得られている。これらの顔特徴代表ベクトルは、主要登場人物一覧に含まれるいずれかの主要登場人物を表す特徴量と考えられる。ただし、動画Ａから生成した顔特徴ベクトル群には、主要登場人物以外の人物（非主要登場人物）も含まれている可能性がある。そこで、以下のような処理を行い、非主要登場人物の顔特徴ベクトルを除去する。

　まず、顔特徴代表ベクトルと同一クラスタに属する全ての顔特徴ベクトル間の距離を計算する。ここで、距離が統計的に外れ値になるようなベクトルは、顔特徴代表ベクトルとは異なるラベルを持つ人物（非主要登場人物）と考えられる。そこで、このようなベクトルは「外れ値ベクトル」とみなす。

　次に、外れ値ベクトルを除去した上で、再度Ｋ－ｍｅａｎｓクラスタリングを行う。

　この処理を、クラスタリングの結果が収束するまで（外れ値ベクトルがなくなるまで）繰り返す。そして、クラスタリングの結果が収束したときのクラスタ内最大距離を、そのクラスタのセントロイドである顔特徴代表ベクトルと対応付けてデータ保持部１６に記録する。この値は、後述のメタデータ生成時の最近傍探索において閾値として用いる値である。

　ここまでの処理によって、動画中の主要登場人物の顔特徴代表ベクトルと主要登場人物一覧が生成される。ただし、この状態では、顔特徴代表ベクトルと主要登場人物が各１つしか存在しない特殊な場合を除き、顔特徴代表ベクトルと主要登場人物との対応付けができない。そのため、顔特徴ベクトルに対するラベル付与を自動で行うことができない。そこで、複数のデータセット５３を組み合わせて用いることにより、顔特徴代表ベクトルと主要登場人物との対応関係の絞り込みを行う。そのため、コンテンツＤＢ５０にデータセット５３として格納された他のＴＶ番組に対しても、上記（１）～（３）の処理を行って、動画中の主要登場人物の顔特徴代表ベクトルと主要登場人物一覧を生成しておく。そして、共通登場人物が１名となるＴＶ番組の組み合わせを選択する。

　ここでは、３つのＴＶ番組の動画Ａ，Ｂ，Ｃからそれぞれ３つの顔特徴代表ベクトルが生成されたとする。また、動画Ａに関連付けられた番組説明文からはラベル候補として人物ａ、人物ｂ、人物ｃ、動画Ｂに関連付けられた番組説明文からはラベル候補として人物ａ、人物ｄ、人物ｅ、動画Ｃに関連付けられた番組説明文からはラベル候補として人物ｂ、人物ｄ、人物ｆがそれぞれ生成されたとする。この場合、動画Ａと動画Ｂの共通登場人物は人物ａの１名であり、動画Ａと動画Ｃの共通登場人物は人物ｂの１名であり、動画Ｂと動画Ｃの共通登場人物は人物ｄの１名である。

　本実施例では、これら共通登場人物が１名となるＴＶ番組の動画の組み合わせを用い、顔特徴代表ベクトルと主要登場人物との対応関係の絞り込みを行う。なお、ここでは２つの動画の組み合わせ（以下、これを動画ペアと呼ぶ）を用いる例を説明するが、３つ以上の動画の組み合わせを用いてもよい。

　以下では、上述の動画ペアを用いて顔特徴代表ベクトルと主要登場人物との対応関係の絞り込みを行う処理について、図４乃至図６を参照して説明する。図４乃至図６は、動画ペアからベクトルペアを検出してラベルを付与する処理を説明する図である。

　特徴量ペア検出部１３は、まず図４に示すように、動画Ａと動画Ｂからなる動画ペアを選択し、動画Ａから生成された３つの顔特徴代表ベクトルと、動画Ｂから生成された３つの顔特徴代表ベクトルを共通の特徴ベクトル空間にマッピングする。そして、動画Ａから生成された顔特徴代表ベクトルと動画Ｂから生成された顔特徴代表ベクトルとの組み合わせのうち、顔特徴代表ベクトル間の距離が最も小さい組み合わせであるベクトルペアを検出する。一般的に、同一人物の顔特徴ベクトルは近くに存在する。したがって、動画Ａと動画Ｂからなる動画ペアから検出されたベクトルペアを構成する２つの顔特徴代表ベクトルは、動画Ａと動画Ｂの共通登場人物である人物ａの顔特徴代表ベクトルであると推定できる。そこで、ラベル付与部１４は、このベクトルペアを構成する２つの顔特徴代表ベクトルに対し、人物ａのラベルを付与する。

　特徴量ペア検出部１３は、次に図５に示すように、動画Ａと動画Ｃからなる動画ペアを選択し、動画Ａから生成された３つの顔特徴代表ベクトルと、動画Ｃから生成された３つの顔特徴代表ベクトルを共通の特徴ベクトル空間にマッピングする。そして、動画Ａから生成された顔特徴代表ベクトルと動画Ｃから生成された顔特徴代表ベクトルとの組み合わせのうち、顔特徴代表ベクトル間の距離が最も小さい組み合わせであるベクトルペアを検出する。このように検出されたベクトルペアを構成する２つの顔特徴代表ベクトルは、動画Ａと動画Ｃの共通登場人物である人物ｂの顔特徴代表ベクトルであると推定できる。そこで、ラベル付与部１４は、このベクトルペアを構成する２つの顔特徴代表ベクトルに対し、人物ｂのラベルを付与する。また、動画Ａについては、３つの顔特徴代表ベクトルのうちの２つに対してそれぞれ人物ａと人物ｂのラベルが付与されたため、残りの顔特徴代表ベクトルは人物ｃのものと推定できる。そこで、ラベル付与部１４は、この残りの顔特徴代表ベクトルに対し、人物ｃのラベルを付与する。

　特徴量ペア検出部１３は、次に図６に示すように、動画Ｂと動画Ｃからなる動画ペアを選択し、動画Ｂから生成された３つの顔特徴代表ベクトルと、動画Ｃから生成された３つの顔特徴代表ベクトルを共通の特徴ベクトル空間にマッピングする。そして、動画Ｂから生成された顔特徴代表ベクトルと動画Ｃから生成された顔特徴代表ベクトルとの組み合わせのうち、顔特徴代表ベクトル間の距離が最も小さい組み合わせであるベクトルペアを検出する。このように検出されたベクトルペアを構成する２つの顔特徴代表ベクトルは、動画Ｂと動画Ｃの共通登場人物である人物ｄの顔特徴代表ベクトルであると推定できる。そこで、ラベル付与部１４は、このベクトルペアを構成する２つの顔特徴代表ベクトルに対し、人物ｄのラベルを付与する。また、動画Ｂについては、３つの顔特徴代表ベクトルのうちの２つに対してそれぞれ人物ａと人物ｄのラベルが付与されたため、残りの顔特徴代表ベクトルは人物ｅのものと推定できる。そこで、ラベル付与部１４は、この残りの顔特徴代表ベクトルに対し、人物ｅのラベルを付与する。また、動画Ｃについては、３つの顔特徴代表ベクトルのうちの２つに対してそれぞれ人物ｂと人物ｄのラベルが付与されたため、残りの顔特徴代表ベクトルは人物ｆのものと推定できる。そこで、ラベル付与部１４は、この残りの顔特徴代表ベクトルに対し、人物ｆのラベルを付与する。

　以上のように、共通登場人物が１名となる動画ペアを用いて顔特徴代表ベクトルと主要登場人物との対応関係の絞り込みを行うことで、各動画から生成される顔特徴代表ベクトルに対して主要登場人物名のラベルを自動で付与することができる。また、顔特徴代表ベクトルにラベルが付与されれば、このラベルが付与された顔特徴代表ベクトルを用いて、例えば動画のシーン検索用のメタデータを生成することができる。

　以下では、ラベルが付与された顔特徴代表ベクトルを用いて動画のメタデータを生成する処理の具体例について、図７を参照して説明する。図７は、動画のメタデータを生成する処理を説明する図である。

　メタデータ生成部１５は、メタデータを生成したい動画ＤをコンテンツＤＢ５０から取り出して特徴量抽出部１２に渡し、顔特徴ベクトルの生成を依頼する。この動画Ｄは、関連データ５２が関連付けられていないコンテンツ５１であってもよい。また、動画Ｄは、上述の処理によって顔特徴代表ベクトルに対するラベル付与が行われた動画（上述の動画Ａ，Ｂ，Ｃなど）であってもよい。特徴量抽出部１２は、図７に示すように、メタデータ生成部１５から渡された動画Ｄに対して、上述の動画Ａに対する処理と同様に、顔特徴ベクトルを生成する処理を行う。すなわち、動画Ｄの各フレームから登場人物の顔検出を行い、顔特徴ベクトルを生成する。このとき、メタデータ生成部１５は、特徴量抽出部１２により抽出された顔特徴ベクトルと、その顔特徴ベクトルを抽出したシーンのフレーム番号とを対応付けて、データ保持部１６に記録しておく。

　次に、メタデータ生成部１５は、動画Ｄから生成された全ての顔特徴ベクトルをラベル付与部１４に渡し、ラベルが付与された顔特徴代表ベクトルを用いた最近傍探索によるラベル付与を依頼する。ラベル付与部１４は、メタデータ生成部１５からの依頼に応じて、動画Ｄから生成された各顔特徴ベクトルをクエリベクトルとし、ラベルが付与された顔特徴代表ベクトル群に対して最近傍探索を行う。最近傍探索は、ベクトル群の中からクエリベクトルに最も近いベクトルを探索する処理である。この最近傍探索により、動画Ｄから生成された各顔特徴ベクトルについて、最も近い顔特徴代表ベクトルが特定される。

　次に、ラベル付与部１４は、動画Ｄから生成された各顔特徴ベクトルについて、最近傍として特定された顔特徴代表ベクトルとの間の距離を算出する。そして、算出した距離が上述の閾値以下の場合、つまり、顔特徴代表ベクトルのクラスタ内最大距離以下である場合に、顔特徴ベクトルに対して顔特徴代表ベクトルと同じラベルを付与する。これにより、動画Ｄから生成された顔特徴ベクトルに対して誤ったラベルが付与されることを抑制できる。

　メタデータ生成部１５は、以上のように動画Ｄから生成された顔特徴ベクトルに対してラベルが付与されると、データ保持部１６に記録した顔特徴ベクトルとフレーム番号の対応関係を参照し、顔特徴ベクトルが抽出されたフレーム番号に対し、その顔特徴ベクトルに付与されたラベルを付与する。このフレーム番号に付与されたラベルは、ＴＶ番組の中から所望の主要登場人物が登場するシーンを検索するためのメタデータとなる。

　以上のように、本実施例に係るラベル付与装置１０によれば、コンテンツ５１と関連データ５２を含むデータセット５３を複数組み合わせて用い、特徴量とラベル候補との対応関係を絞り込む処理を行うことにより、コンテンツ５１から抽出される特徴量に対して自動でラベルを付与することができる。また、本実施例に係るラベル付与装置１０によれば、ラベルが付与された特徴量を用いた簡単な最近傍探索を行うことにより、他のコンテンツ５１から抽出される特徴量に対しても自動でラベルを付与することができ、例えばコンテンツ５１のシーン検索用のメタデータなどを自動で生成することができる。

　なお、以上の説明は、データセット５３が複数存在することを前提としているが、１つのコンテンツ５１を分割して用いることで、上述した処理と同様の処理により、特徴量に対する自動ラベル付与を実現することもできる。例えば、１つの動画を複数に分割して、分割後の動画のそれぞれを個別のコンテンツ５１とみなす。このとき、分割された各動画のそれぞれが関連データ５２と関連付けられている必要があるが、例えば動画に付与された字幕情報や動画とリンクする音声に対する音声認識結果などのテキストデータを関連データ５２として採用することで、分割後の動画のそれぞれに関連データ５２を関連付けることができる。なぜならば、字幕情報や音声認識結果のテキストデータは動画の各シーンに対応付けられており（時間情報を持っている）、動画を分割したときにそれらの情報も自動で分割されるためである。

　また、以上はＴＶ番組の動画をコンテンツ５１とする場合を想定した説明であるが、処理対象のコンテンツ５１が他の動画であっても同様に、特徴量に対するラベルの自動付与やメタデータの自動生成を行うことができる。ＴＶ番組以外の適用例としては、例えば動画配信サービスがある。また、例えば、関連データ５２として工場の入出場記録を用いることで、工場内に設置されたカメラで撮影された工場内の映像から抽出される作業者の特徴量に対しても、作業者の名前や社員番号などをラベルとして自動で付与することができる。また、マイクやカメラといった複数モダリティを備えたホームロボットにおいても、例えば、マイクで取得した音声に対する音声認識結果のテキストデータと、カメラで撮影した映像を組み合わせることで、映像から抽出される人物の特徴量に対して音声認識結果のテキストデータから生成されるラベル候補をラベルとして自動付与（いわゆる概念習得）することが可能となる。

　また、以上の説明では、コンテンツ５１が動画である場合を例示したが、コンテンツ５１が静止画、音声、センサデータであっても、上述の例と同様の処理により、コンテンツ５１から抽出される特徴量に対する自動ラベル付与を実現することができる。以下にその例を挙げる。

　まず、静止画の場合、例えば、複数の人物が映っている写真をコンテンツ５１とし、写真のタイトルを関連データ５２とする。この場合、写真に対して顔検出および顔特徴ベクトルの生成を行うことで、複数の顔特徴ベクトルが得られる。また、写真のタイトルから複数のラベル候補が得られる。これらを用いることで、上述の例と同様に、顔特徴ベクトルに対する自動ラベル付与を実現できる。

　次に、音声の場合、例えば、ラジオドラマの音声をコンテンツ５１とし、ドラマの説明文を関連データ５２とする。この場合、音声データの波形から話者を特定する特徴ベクトルを生成し、ドラマの説明文から話者の名前などのラベル候補を生成する。これらを用いることで、上述の例と同様に、話者を特定する特徴ベクトルに対する自動ラベル付与を実現できる。

　次に、センサデータの場合、例えば、監視対象のモータに取り付けられた回転センサが出力するモータ回転数の時系列データをコンテンツ５１とする。また、ユーザがモータの状態を観測してこれを記録した文章が存在することを想定し、この記録文を関連データ５２とする。この場合、記録文から例えば過剰回転、過小回転、正常回転などのキーワードを取り出してこれらをラベル候補とする。また、回転センサが出力するモータ回転数の時系列データから特徴量としてモータ回転数を抽出し、抽出したモータ回転数に対してキーワード数でＫ－ｍｅａｎｓクラスタリングを行うことで、過剰回転の代表特徴量、過小回転の代表特徴量、正常回転の代表特徴量が得られる。これらを用いることで、上述の例と同様に、モータ回転数に対して過剰回転、過小回転、正常回転などのラベルを自動で付与することができる。

＜第２実施例＞
　次に、第２実施例について説明する。本実施例は、上述の第１実施例に対し、ラベル候補の表記ゆれを吸収する機能を付加したものである。その他の機能は上述の第１実施例と同様であるため、以下では、本実施例に特有の機能についてのみ説明する。

　上述の第１実施例は、ＴＶ番組に登場する同一の主要登場人物については同一のラベル候補が生成されることを前提としていた。しかし、実際には同一人物であっても、本名と芸名など、異なる表記で番組説明文に記載されている場合もある。この場合、番組説明文から生成されるラベル候補に表記ゆれが発生するため、それを吸収する必要がある。そこで、本実施例では、ラベル候補の単語を意味ベクトル化し、意味ベクトルが類似するラベル候補同士を共通化することで、表記ゆれの対策を行う。

　図８は、第２実施例に係るラベル付与装置１０の機能的な構成例を示すブロック図である。本実施例に係るラベル付与装置１０は、図２に示した第１実施例の構成に対し、ラベル候補修正部１７が追加された構成である。

　ラベル候補修正部１７は、ラベル候補生成部１１により関連データ５２から生成されたラベル候補の意味ベクトルを生成し、意味ベクトル間の類似度が閾値以上のラベル候補同士を共通化する。意味ベクトルは単語の意味を表現するベクトルであり、例えば単語間の共起情報を用いて意味を表現する方法などが知られている。

　ラベル候補修正部１７は、まず、ラベル候補の意味ベクトルを生成するためのモデルの学習を行う。すなわち、ラベル候補修正部１７は、まず、コンテンツＤＢ５０に格納された全ての関連データ５２（テキストデータ）を収集し、収集したテキストデータに対し、上述のMecabなどを用いた形態素解析により、単語分割処理を行う。そして、ラベル候補修正部１７は、単語分割によって得られた単語群を用い、意味ベクトルを生成するためのモデルを学習する。この学習には、例えば非特許文献３に開示されるWord2Vecなどを利用することができる。また、非特許文献４に開示されるGloVeなどを用いてもよい。

　その後、ラベル候補修正部１７は、ラベル候補生成部１１によって関連データ５２からラベル候補として主要登場人物の名前が生成されると、学習したモデルを用いて、主要登場人物を意味ベクトル化する。そして、ラベル候補修正部１７は、意味ベクトルの全組み合わせについて、意味ベクトル間の類似度を算出する。このとき、類似度が閾値以上となる意味ベクトルの組み合わせは、類似する意味を持つと考えられる。そこで、このような意味ベクトルの組み合わせを抽出する。なお、閾値は超パラメタである。また、意味ベクトルの組み合わせは必ずしも２つの意味ベクトルの組み合わせに限らず、３つ以上の意味ベクトルを組み合わせてもよい。

　ラベル候補修正部１７は、以上のように抽出した意味ベクトルの組み合わせに対し、ラベル候補を共通化する処理を行う。ラベル候補の共通化とは、ラベル候補の表記を同じ表記にすることをいう。例えば、上述の単語分割処理の結果をもとに、ラベル候補ごとの単語出現数を計算することができる。ラベル候補修正部１７は、この単語出現数が最も多いラベル候補の表記を用いて、意味ベクトルの類似度が閾値以上のラベル候補同士を共通化する。

　以上説明したように、本実施例によれば、ラベル候補修正部１７によってラベル候補の表記ゆれを吸収することができるので、同一人物が異なる表記で番組説明文に記載されている場合など、関連データ５２から生成されるラベル候補に表記ゆれがあったとしてもそれを吸収した上で、上述の第１実施例と同様の処理を行うことができる。これにより、例えば同一人物であるにも関わらず異なるラベルが付与されるといった問題を解消できる。

＜第３実施例＞
　次に、第３実施例について説明する。本実施例は、上述の第１実施例に対し、ラベルを自動付与できない特徴量に対する手動によるラベル付与を効率よく行うための機能を付加したものである。その他の機能は上述の第１実施例と同様であるため、以下では、本実施例に特有の機能についてのみ説明する。

　上述の第１実施例は、共通登場人物が１名となる動画ペアを用いて、共通登場人物を表していると推定される顔特徴代表ベクトルに対し、共通登場人物の名前をラベルとして自動で付与している。しかし、コンテンツＤＢ５０内の動画の中には、他の動画との組み合わせを全て試しても共通登場人物を１名にできないものもあることが想定される。このような場合は、ユーザが手動でラベル付与する必要がある。しかし、自動でラベル付与ができない全てのパターンについて手動でラベルを付与する作業は手間がかかる。そこで、本実施例では、１つの顔特徴代表ベクトルに対して手動でラベルが付与されれば、他の顔特徴代表ベクトルに対するラベル付与を自動で行うことができるようなラベル候補を教示対象として選択して、ユーザに提示する。具体的には、共通登場人物が複数ある動画組み合わせを複数用い、これら複数の動画組み合わせにおける共通登場人物の重複をチェックすることにより、教示が行われたら消去法により他の人物のラベルも自動で決定されるような人物を特定する。そして、この人物についての教示操作をユーザに優先的に行わせることにより、少ない労力でのラベル付与を実現する。

　図９は、第３実施例に係るラベル付与装置１０の機能的な構成例を示すブロック図である。本実施例に係るラベル付与装置１０は、図２に示した第１実施例の構成に対し、教示対象選択部１８と、操作受付部１９とが追加された構成である。

　教示対象選択部１８は、共通のラベル候補が複数存在し、ラベル候補と特徴量との関係が決定することにより他のラベル候補と特徴量との関係が決定する場合に、１つのラベル候補を教示対象として選択する。例えば教示対象選択部１８は、共通登場人物が複数存在する動画組み合わせを複数用い、これら複数の動画組み合わせにおける共通登場人物の重複をチェックすることにより、教示対象となる人物を特定する。

　操作受付部１９は、教示対象選択部１８により選択された教示対象のラベル候補と特徴量との関係を教示するユーザ操作を受け付ける。例えば操作受付部１９は、教示対象のラベル候補である人物名を、動画組み合わせを構成する各動画から顔特徴代表ベクトルを生成したときの顔動画とともにユーザに提示し、教示対象のラベル候補である人物名に合致する顔画像を選択するユーザ操作を受け付ける。

　以下、図１０乃至図１２を参照して、本実施例の処理の具体例について説明する。図１０乃至図１２は、本実施例の処理の概要を説明する図である。ここでは、図１０に示すような３つの動画ペアα，β，γを用いる場合を例に挙げて説明する。動画ペアαの共通登場人物は人物ａ、人物ｂ、人物ｃの３名であり、動画ペアβの共通登場人物は人物ｂ、人物ｃの２名であり、動画ペアγの共通登場人物は人物ａ、人物ｃ、人物ｄの３名であるとする。

　教示対象選択部１８は、まず、構築された動画ペアを共通登場人物の数で分類する。上記の例では、共通登場人物が２名の動画ペアβと、共通登場人物が３名の動画ペアα，γに分けられる。

　次に、教示対象選択部１８は、共通登場人物が少ない動画ペアと共通登場人物が多い動画ペアとの組み合わせについて、共通登場人物の重複をチェックする。そして、重複しない共通登場人物の数が少ない動画ペアの組み合わせ、つまり、共通登場人物の否定論理積（NOT　AND）の結果が少ない動画ペアの組み合わせを選択する。上記の例では、図１０に示すように、動画ペアαと動画ペアβの組み合わせで重複しない共通登場人物は１名（人物ａ）であり、動画ペアαと動画ペアγの組み合わせで重複しない共通登場人物は３名（人物ａ、人物ｂ、人物ｄ）であるため、動画ペアαと動画ペアβの組み合わせが選ばれる。

　次に、教示対象選択部１８は、選択した動画ペアの組み合わせのうち、共通登場人物の人数が最も少ない動画ペアを選択する。上記の例では、動画ペアαと動画ペアβの組み合わせのうち、動画ペアαの共通登場人物は人物ａ、人物ｂ、人物ｃの３名、動画ペアβの共通登場人物は人物ｂ、人物ｃの２名であるため、動画ペアβが選ばれる。

　次に、教示対象選択部１８は、選択した動画ペアの共通登場人物について、人数分存在するラベル候補を適当に１つ選択する。このラベル候補は、教示対象として主要登場人物一覧から選択された主要登場人物の名前である。そして、操作受付部１９が、教示対象選択部１８により選択されたラベル候補を、人数分存在する顔特徴代表ベクトルの各々に対応する顔画像の一覧とともにユーザに提示する。上記の例では、動画ペアβの共通登場人物である人物ｂまたは人物ｃの名前が、顔画像一覧とともにユーザに提示される。

　ユーザは、操作受付部１９によりラベル候補と顔画像一覧が提示されると、顔画像一覧の中からラベル候補に一致する顔画像を選択する。この操作は、提示されたラベル候補と共通登場人物の顔特徴代表ベクトルとの関係を教示する操作であり、この教示操作が操作受付部１９により受け付けられると、ラベル付与部１４が、その顔特徴代表ベクトルに対してラベル候補の人物名をラベルとして付与する。

　ここで、動画ペアの共通登場人物が２名であれば、一方の共通登場人物についてラベル候補と顔特徴代表ベクトルとの対応関係が確定すれば、他方の共通登場人物についてもラベル候補と顔特徴代表ベクトルとの対応関係が確定する。したがって、ラベル未付与の顔特徴代表ベクトルに対しては、自動でラベルを付与することができる。また、動画ペアの共通登場人物が３名以上であれば、教示対象のラベル候補の選択と、選択したラベル候補を顔画像一覧とともに提示してユーザの教示操作を受け付ける処理を繰り返すことにより、動画ペアの全ての共通登場人物について、ラベル候補と顔特徴代表ベクトルの対応関係を確定させて、それぞれの顔特徴代表ベクトルに対してラベルを付与することができる。また、ラベル未付与の共通登場人物が１名となった段階で上述の第１実施例の処理を適用することで、ラベル未付与の顔特徴代表ベクトルに対して自動でラベルを付与することも可能である。

　以上の手順により、選択した動画ペアの組み合わせのうちの一方の動画ペアについて、共通登場人物のラベル付与が完了する。上記の例では、動画ペアαと動画ペアβの組み合わせのうち、動画ペアβの共通登場人物である人物ｂと人物ｃのラベル付与が完了する。すなわち、図１１に示すように、動画ペアβの一方の共通登場人物である人物ｂについて手動でラベル付与されることにより、他方の共通登場人物である人物ｃについては自動でラベル付与される。

　次に、選択した動画ペアの組み合わせのうちの他方の動画ペアについて考える。まず、他方の動画ペアの共通登場人物のうち、すでにラベル付与が完了した一方の動画ペアと重複する共通登場人物を削除する。上記の例では、動画ペアαの共通登場人物である人物ａ、人物ｂ、人物ｃのうち、ラベル付与が完了した人物ｂと人物ｃが削除される。ここで、削除されずに残った共通登場人物が１名であれば、ラベル候補と顔特徴代表ベクトルとの対応関係が確定するため、自動でラベル付与が可能である。上記の例では、動画ペアαの共通登場人物のうち、削除されずに残った共通登場人物は人物ａのみであるため、図１１に示すように、動画ペアαの共通登場人物である人物ａについては自動でラベル付与される。また、仮に、動画ペアαの共通登場人物のうち、削除されずに残った共通登場人物が２名以上いる場合は、上述の動画ペアβに対する処理と同様に、教示対象のラベル候補の選択と、選択したラベル候補を顔画像一覧とともに提示してユーザの教示操作を受け付ける処理を行うことで、ラベル未付与の共通登場人物に対するラベル付与が可能となる。

　また、選択した動画ペアの組み合わせに含まれない未処理の動画ペアについても同様に、すでにラベル付与が完了した共通登場人物を削除する。上記の例では、動画ペアγの共通登場人物である人物ａ、人物ｃ、人物ｄのうち、ラベル付与が完了した人物ａと人物ｃが削除される。ここで、削除されずに残った共通登場人物が１名であれば、ラベル候補と顔特徴代表ベクトルとの対応関係が確定するため、自動でラベル付与が可能である。上記の例では、動画ペアγの共通登場人物のうち、削除されずに残った共通登場人物は人物ｄのみであるため、図１２に示すように、動画ペアγの共通登場人物である人物ｄについては自動でラベル付与される。また、仮に、動画ペアγの共通登場人物のうち、削除されずに残った共通登場人物が２名以上いる場合は、上述の動画ペアβに対する処理と同様に、教示対象のラベル候補の選択と、選択したラベル候補を顔画像一覧とともに提示してユーザの教示操作を受け付ける処理を行うことで、ラベル未付与の共通登場人物に対するラベル付与が可能となる。

　以上説明したように、本実施例によれば、ユーザが手動でラベル付与する必要がある場合に、消去法によって効率的なラベル付与を可能にするラベル候補を教示対象として選択して、このラベル候補に対する教示操作を優先的に行わせるようにしているので、手動でラベル付与する際のユーザの労力を低減させて、効率よくラベル付与を行うことができる。

＜第４実施例＞
　次に、第４実施例について説明する。本実施例は、上述の第１実施例に対し、特徴量に対するラベルの自動付与が期待通りに処理されているか否かを確認し、期待通りに処理されていない可能性がある場合にユーザによる手動確認および修正を行うための機能を付加したものである。その他の機能は上述の第１実施例と同様であるため、以下では、本実施例に特有の機能についてのみ説明する。

　上述の第１実施例は、主要登場人物が動画中に多く登場し、非主要登場人物は動画中にほとんど登場しないという仮定に基づいて処理を行っている。したがって、この仮定が成り立たない事例においては、期待した処理が行われない懸念がある。すなわち、主要登場人物の顔特徴代表ベクトルが生成されず、非主要登場人物の顔特徴代表ベクトルが生成されてしまう場合である。そこで、本実施例では、上述のベクトルペアについて誤りスコアを算出し、この誤りスコアに基づいてそのベクトルペアを構成する顔特徴代表ベクトルが同一人物のものかどうかをチェックする。チェックの結果、顔特徴代表ベクトルが同一人物のものでない場合、非主要登場人物の顔特徴代表ベクトルが生成されている可能性が高い。そこで、ユーザによる手動チェックおよび修正を行う。これにより、非主要登場人物の顔特徴代表ベクトルが生成されたことが原因で顔特徴代表ベクトルに誤ったラベルが付与された場合に、その誤りを修正することができる。

　図１３は、第４実施例に係るラベル付与装置の機能的な構成例を示すブロック図である。本実施例に係るラベル付与装置１０は、図２に示した第１実施例の構成に対し、特徴量ペア判定部２０と、ラベル確認部２１とが追加された構成である。また、本実施例では、データ保持部１６内に、未チェック特徴量保持部１６ａ、チェック済み特徴量保持部１６ｂ、要手動チェック特徴量ペア保持部１６ｃ、要手動チェック特徴量保持部１６ｄおよび要手動指定特徴量保持部１６ｅが構築されている。

　未チェック特徴量保持部１６ａは、ラベル付与が正しく行われたことが確認できていない顔特徴代表ベクトルと、それに関連する情報（ラベル、顔画像、ベクトルペア構成情報のいずれか）を保持する。なお、ベクトルペア構成情報は、当該顔特徴代表ベクトルとともにベクトルペアを構成する他の顔特徴代表ベクトルを示す情報である。

　チェック済み特徴量保持部１６ｂは、ラベル付与が正しく行われたことが確認できた顔特徴代表ベクトルと、それに関連する情報（ラベル、顔画像）を保持する。

　要手動チェック特徴量ペア保持部１６ｃは、ユーザによる手動チェックが必要となるベクトルペアを構成する顔特徴代表ベクトルと、それに関連する情報（ラベル、顔画像、ベクトルペア構成情報）を保持する。

　要手動チェック特徴量保持部１６ｄは、ユーザによる手動チェックが必要となる顔特徴代表ベクトルと、それに関連する情報（ラベル、顔画像）を保持する。

　要手動指定特徴量保持部１６ｅは、ユーザが手動でラベルを指定する必要がある顔特徴代表ベクトルと、それに関連する情報（ラベル、顔画像）を保持する。

　特徴量ペア判定部２０は、未チェック特徴量保持部１６ａから取り出した顔特徴代表ベクトルのうち、他の顔特徴代表ベクトルとベクトルペアを構成できる顔特徴代表ベクトル、つまり、ベクトルペア構成情報を持つ顔特徴代表ベクトルを対象として、ベクトルペアの誤りスコアを算出する。そして、特徴量ペア判定部２０は、算出した誤りスコアに基づいて、ベクトルペアが同一人物のものかどうかを判定する。例えば、ベクトルペアの誤りスコアが所定の閾値以下であれば、ベクトルペアが同一人物のものであると判定し、ベクトルペアの誤りスコアが閾値を超える場合は、ベクトルペアが同一人物のものではないと判定する。ベクトルペアの誤りスコアは、ベクトルペアを構成する２つの顔特徴代表ベクトルが同一人物のものであれば低く、異なる人物であれば高くなるものであり、例えば、２つの顔特徴代表ベクトル間の距離（ユークリッド距離）、あるいは２つの顔特徴代表ベクトルの内積の値を１から引いた値などを用いることができる。

　ベクトルペアが同一人物のものである場合、顔特徴代表ベクトルが適切に生成されている、つまり、主要登場人物の顔特徴代表ベクトルとなっている可能性が非常に高い。なぜならば、主要登場人物が重複するように動画組み合わせが選択されたとき、それぞれの動画において非主要登場人物が主要登場人物よりも多く登場し、かつ、同じ非主要登場人物が複数の動画において重複して登場する可能性は極めて低いと考えられるためである。

　ラベル確認部２１は、誤りスコアが閾値を超えるベクトルペアを構成する各顔特徴代表ベクトル、または、ベクトルペアを構成できない顔特徴代表ベクトルに対して、正しいラベルが付与されているかをユーザに確認する。例えばラベル確認部２１は、確認対象の顔特徴代表ベクトルに関連する顔画像とラベル（人物名）をユーザに提示し、両者が一致しているか否かの確認結果を取得する。

　以下、図１４乃至図１７を参照して、本実施例の処理の流れを説明する。図１４乃至図１７は、本実施例の処理手順の一例を示すフローチャートである。本実施例の処理は、以下の処理（１）と処理（２）の２つの処理を含む。図１４は処理（１）の手順を示しており、図１５乃至図１７は、処理（２）の手順を示している。

　処理（１）：顔特徴代表ベクトルが高確率で適切に生成されているかどうかを自動的に確認し、ユーザの手動チェックが必要な顔特徴代表ベクトルを要手動チェック特徴量ペア保持部１６ｃまたは要手動チェック特徴量保持部１６ｄに格納する。
　処理（２）：要手動チェック特徴量ペア保持部１６ｃと要手動チェック特徴量保持部１６ｄに格納された顔特徴代表ベクトルに対してラベルが適切に付与されているか否かをユーザの手動チェックにより確認し、必要があるときはユーザによる手動の修正を受け付ける。

　まず、処理（１）について、図１４のフローチャートを用いて説明する。処理（１）が開始されると、特徴量ペア判定部２０が、未チェック特徴量保持部１６ａから顔特徴代表ベクトルを１つ取り出す（ステップＳ１０１）。そして、特徴量ペア判定部２０は、ステップＳ１０１で取り出した顔特徴代表ベクトルが、ベクトルペアを構成できる顔特徴代表ベクトルであるか否かを判定する（ステップＳ１０２）。顔特徴代表ベクトルがベクトルペアを構成できるか否かは、例えば、その顔特徴代表ベクトルがベクトルペア構成情報を持つかどうかによって判定することができる。

　ここで、ステップＳ１０１で取り出した顔特徴代表ベクトルがベクトルペアを構成できないと判定した場合（ステップＳ１０２：Ｎｏ）、特徴量ペア判定部２０は、その顔特徴代表ベクトルを要手動チェック特徴量保持部１６ｄに格納する（ステップＳ１０３）。一方、ステップＳ１０１で取り出した顔特徴代表ベクトルがベクトルペアを構成できると判定した場合は（ステップＳ１０２：Ｙｅｓ）、特徴量ペア判定部２０は、その顔特徴代表ベクトルが構成するベクトルペアの誤りスコアを算出し（ステップＳ１０４）、算出した誤りスコアが閾値以下か否かを判定する（ステップＳ１０５）。

　ステップＳ１０５の判定に用いる閾値は、例えば、全ベクトルペアの平均誤りスコアの２倍に設定される。これは、画像データが充分に存在するとき、ベクトルペアの大半は同一人物のものであり、平均値周辺は正しく対応付けられたベクトルペアであると考えられるためである。なお、ここでは便宜的に２倍としているが、チューニングによって閾値を決定してもよい。また、平均値ではなく中央値などを用いてもよい。

　ここで、ベクトルペアの誤りスコアが閾値以下であれば（ステップＳ１０５：Ｙｅｓ）、そのベクトルペアは同一人物の顔特徴代表ベクトルから構成されているとみなす。この場合、ベクトルペアを構成する各顔特徴代表ベクトルはラベルが正しく付与されていると考えられるため、特徴量ペア判定部２０は、このベクトルペアを構成する各顔特徴代表ベクトルをチェック済み特徴量保持部１６ｂに格納する（ステップＳ１０６）。

　一方、ベクトルペアの誤りスコアが閾値を超えている場合には（ステップＳ１０５：Ｎｏ）、特徴量ペア判定部２０は、ステップＳ１０１で取り出した顔特徴代表ベクトルが別のベクトルペアを構成できるか否かを判定し（ステップＳ１０７）、別のベクトルペアを構成できる場合は（ステップＳ１０７：Ｙｅｓ）、ステップＳ１０４に戻ってそのベクトルペアの誤りスコア算出と閾値判定を繰り返す。つまり、ステップＳ１０１で取り出した顔特徴代表ベクトルが動画組み合わせを変更することで別のベクトルペアを構成できる場合は、そのベクトルペアの誤りスコアが閾値以下かどうかを確認する。そして、全ての動画組み合わせを試しても誤りスコアが閾値以下となるベクトルペアが見つからない場合は（ステップＳ１０７：Ｎｏ）、誤りスコアが最も小さかったベクトルペアを要手動チェック特徴量ペア保持部１６ｃに格納する（ステップＳ１０８）。

　その後、特徴量ペア判定部２０は、未チェック特徴量保持部１６ａに未処理の顔特徴代表ベクトルが残っているかを判定する（ステップＳ１０９）。そして、未処理の顔特徴代表ベクトルが未チェック特徴量保持部１６ａに残っていれば（ステップＳ１０９：Ｙｅｓ）、ステップＳ１０１に戻って同様の処理を繰り返す。そして、未チェック特徴量保持部１６ａに保持された全ての顔特徴代表ベクトルに対する処理が終わると（ステップＳ１０９：Ｎｏ）、処理（１）が終了する。

　次に、処理（２）について説明する。処理（２）は、要手動チェック特徴量ペア保持部１６ｃに格納されたベクトルペアに対する処理と、要手動チェック特徴量保持部１６ｄに格納された顔特徴代表ベクトルに対する処理と、要手動指定特徴量保持部１６ｅに格納された顔特徴代表ベクトルに対する処理とを含む。

　まず、要手動チェック特徴量ペア保持部１６ｃに格納されたベクトルペアに対する処理について、図１５のフローチャートを用いて説明する。この処理が開始されると、ラベル確認部２１が、要手動チェック特徴量ペア保持部１６ｃからベクトルペアを１つ取り出す（ステップＳ２０１）。そして、ラベル確認部２１は、ベクトルペアを構成する２つの顔特徴代表ベクトルに各々関連する顔画像と共通のラベルとをユーザに提示し、それぞれの顔特徴代表ベクトルに対して正しいラベルが付与されているか否かを確認する（ステップＳ２０２）。例えば、ユーザは提示された顔画像が同一人物かどうかをチェックし、同一人物であれば、共通のラベルがその人物の名前であるかをチェックする。また、同一人物でなければ、共通のラベルどちらの人物の名前であるかをチェックする。

　ここで、ベクトルペアを構成する各顔特徴代表ベクトルに対して正しいラベルが付与されていると判定した場合（ステップＳ２０２：Ｙｅｓ）、ラベル確認部２１は、ベクトルペアを構成する各顔特徴代表ベクトルをチェック済み特徴量保持部１６ｂに格納する（ステップＳ２０３）。一方、ベクトルペアを構成する顔特徴代表ベクトルの少なくとも一方に正しくラベルが付与されていないと判定した場合は（ステップＳ２０２：Ｎｏ）、ラベル確認部２１は、正しいラベルが付与されていない顔特徴代表ベクトルを要手動チェック特徴量保持部１６ｄに格納する（ステップＳ２０４）。

　その後、ラベル確認部２１は、要手動チェック特徴量ペア保持部１６ｃに未処理のベクトルペアが残っているかを判定する（ステップＳ２０５）。そして、未処理のベクトルペアが要手動チェック特徴量ペア保持部１６ｃに残っていれば（ステップＳ２０５：Ｙｅｓ）、ステップＳ２０１に戻って同様の処理を繰り返す。そして、要手動チェック特徴量ペア保持部１６ｃに保持された全てのベクトルペアに対する処理が終わると（ステップＳ２０５：Ｎｏ）、一連の処理を終了する。

　次に、要手動チェック特徴量保持部１６ｄに格納された顔特徴代表ベクトルに対する処理について、図１６のフローチャートを用いて説明する。この処理が開始されると、ラベル確認部２１は、要手動チェック特徴量保持部１６ｄから顔特徴代表ベクトルを１つ取り出す（ステップＳ３０１）。そして、ラベル確認部２１は、顔特徴代表ベクトルに関連する顔画像とラベルとをユーザに提示し、その顔特徴代表ベクトルに対して正しいラベルが付与されているか否かを確認する（ステップＳ３０２）。例えば、ユーザは提示されたラベルが顔画像の人物の名前であるかをチェックする。

　ここで、顔特徴代表ベクトルに対して正しいラベルが付与されていると判定した場合（ステップＳ３０２：Ｙｅｓ）、ラベル確認部２１は、その顔特徴代表ベクトルをチェック済み特徴量保持部１６ｂに格納する（ステップＳ３０５）。一方、顔特徴代表ベクトルに正しくラベルが付与されていないと判定した場合は（ステップＳ３０２：Ｎｏ）、ラベル確認部２１は、その顔特徴代表ベクトルを生成した動画に対応する主要登場人物の一覧をユーザに提示し、その顔特徴代表ベクトルに対応するラベル候補が生成されているか否かを確認する（ステップＳ３０３）。例えば、ユーザは提示された顔画像の人物名が主要登場人物一覧に含まれているか否かをチェックする。そして、顔画像の人物名が主要登場人物一覧に含まれていれば、ユーザはその人物名を選択する操作を行う。

　ここで、顔特徴代表ベクトルに対応するラベル候補が生成されている場合、つまり、提示した顔画像の人物名が主要登場人物一覧に含まれており、ユーザが主要登場人物一覧から顔画像の人物名を選択する操作を行った場合（ステップＳ３０３：Ｙｅｓ）、ラベル確認部２１は、このユーザ操作に応じて顔特徴代表ベクトルのラベルを変更し（ステップＳ３０４）、その顔特徴代表ベクトルをチェック済み特徴量保持部１６ｂに格納する（ステップＳ３０５）。一方、顔特徴代表ベクトルに対応するラベル候補が生成されていない場合は（ステップＳ３０３：Ｎｏ）、ラベル確認部２１は、その顔特徴代表ベクトルを要手動指定特徴量保持部１６ｅに格納する（ステップＳ３０６）。

　その後、ラベル確認部２１は、要手動チェック特徴量保持部１６ｄに未処理の顔特徴代表ベクトルが残っているかを判定する（ステップＳ３０７）。そして、未処理の顔特徴代表ベクトルが要手動チェック特徴量保持部１６ｄに残っていれば（ステップＳ３０７：Ｙｅｓ）、ステップＳ３０１に戻って同様の処理を繰り返す。そして、要手動チェック特徴量保持部１６ｄに保持された全ての顔特徴代表ベクトルに対する処理が終わると（ステップＳ３０７：Ｎｏ）、一連の処理を終了する。

　次に、要手動指定特徴量保持部１６ｅに格納された顔特徴代表ベクトルに対する処理について、図１７のフローチャートを用いて説明する。この処理が開始されると、ラベル確認部２１は、要手動指定特徴量保持部１６ｅから顔特徴代表ベクトルを１つ取り出す（ステップＳ４０１）。そして、ラベル確認部２１は、顔特徴代表ベクトルに関連するラベルと、この顔特徴代表ベクトルを生成する際に「外れ値ベクトル」としてクラスタリングの対象から除外した顔特徴ベクトルに対応する顔画像の一覧とをユーザに提示し、ユーザ操作に応じてラベルに対応する顔特徴ベクトルを変更する（ステップＳ４０２）。

　すなわち、ラベル確認部２１は、処理対象の顔特徴代表ベクトルの生成時に「外れ値ベクトル」とした顔特徴ベクトルを修正候補とし、修正候補の顔特徴ベクトルに対応する顔画像の一覧を、処理対象の顔特徴代表ベクトルに付与されたラベルとともにユーザに提示する。このとき、顔画像一覧は、顔画像の大きさや、顔がどれだけ正面を向いているかなど、フレーム画像上で目立つ人物の顔画像ほど上位にくるようにソートしてもよい。ユーザは、提示されたラベルの人物名に合致する人物の顔画像を顔画像一覧の中から選択する操作を行う。ラベル確認部２１は、このユーザ操作に応じて、ユーザに提示したラベルに対応する顔特徴ベクトルを変更する。そして、ラベル確認部２１は、変更した顔特徴ベクトルをチェック済み特徴量保持部１６ｂに格納する（ステップＳ４０３）。

　その後、ラベル確認部２１は、要手動指定特徴量保持部１６ｅに未処理の顔特徴代表ベクトルが残っているかを判定する（ステップＳ４０４）。そして、未処理の顔特徴代表ベクトルが要手動指定特徴量保持部１６ｅに残っていれば（ステップＳ４０４：Ｙｅｓ）、ステップＳ４０１に戻って同様の処理を繰り返す。そして、要手動指定特徴量保持部１６ｅに保持された全ての顔特徴代表ベクトルに対する処理が終わると（ステップＳ４０４：Ｎｏ）、一連の処理を終了する。

　以上説明したように、本実施例によれば、特徴量に対するラベルの自動付与が期待通りに処理されているか否かを確認し、期待通りに処理されていない可能性がある場合にユーザによる手動確認および修正を行うようにしているので、特徴量に対するラベル付与をより精度よく行うことができる。

＜第５実施例＞
　次に、第５実施例について説明する。本実施例は、上述の第４実施例に対して、ユーザによる手動確認および修正を効率よく行うための機能を付加したものである。その他の機能は上述の第４実施例と同様であるため、以下では、本実施例に特有の機能についてのみ説明する。

　上述の実施例４では、ベクトルペアの誤りスコアを算出した結果、顔特徴代表ベクトルが主要登場人物のものでない可能性が高いと判断される場合に、ユーザによる手動確認および修正を行うようにしている。しかし、コンテンツＤＢ５０に新たなコンテンツ５１（動画）が追加されることにより、誤りスコアが閾値以下となる新たなベクトルペアが構築できる場合があり、この場合、新たなコンテンツ５１が追加される前に必要とされていたユーザによる手動確認および修正が不要になる。

　したがって、新たなコンテンツ５１が追加されたときは再度同じ処理を行うことが有効であるが、コンテンツＤＢ５０内の全てのコンテンツ５１を対象として再度同じ処理を行うと、処理時間が長くなる。そこで、本実施例では、新たなコンテンツ５１から生成された特徴量とユーザによる手動確認および修正が必要とされていた特徴量とを対象として実施例４の処理を再度行うことにより、短い処理時間で、ユーザによる手動確認および修正が必要となる特徴量を絞り込む。

　図１８は、第５実施例に係るラベル付与装置１０の機能的な構成例を示すブロック図である。本実施例に係るラベル付与装置１０は、図１３に示した第４実施例の構成に対し、確認対象絞り込み部２２が追加された構成である。

　確認対象絞り込み部２２は、コンテンツＤＢ５０に新たなコンテンツ５１が追加された場合に、新たなコンテンツ５１から抽出された特徴量を用いて、誤りスコアが閾値を超える特徴量ペアを構成する各特徴量、または、特徴量ペアを構成できない特徴量のうち、ラベルが正しく付与されているか否かの確認が必要な特徴量を絞り込む。

　以下、本実施例における処理の概要を説明する。本実施例では、まず、特徴量ペア判定部２０が、上述の第４実施例の処理（１）を実行して、ユーザによる手動確認および修正が必要となる顔特徴代表ベクトルを要手動チェック特徴量ペア保持部１６ｃや要手動チェック特徴量保持部１６ｄに格納する。また、コンテンツＤＢ５０に新たなコンテンツ５１として追加された動画に対して上述の第１実施例の処理を実行し、新たな顔特徴代表ベクトルを生成する。

　次に、確認対象絞り込み部２２が、新たなコンテンツ５１として追加された動画から生成された新たな顔特徴代表ベクトルと、要手動チェック特徴量ペア保持部１６ｃに保持されている顔特徴代表ベクトルと、要手動チェック特徴量保持部１６ｄに保持されている顔特徴代表ベクトルとを、全て未チェック特徴量保持部１６ａに格納する。その後、特徴量ペア判定部２０が上述の第４実施例の処理（１）を再度実行することで、要手動チェック特徴量ペア保持部１６ｃや要手動チェック特徴量保持部１６ｄに格納される顔特徴代表ベクトル、つまり、ユーザによる手動確認および修正が必要となる顔特徴代表ベクトルが絞り込まれる。

　以上説明したように、本実施例によれば、新たなコンテンツ５１が追加された場合に、新たなコンテンツから抽出された特徴量を用いてユーザによる手動確認および修正が必要となる特徴量を絞り込むようにしているので、ユーザによる手動確認および修正を効率よく行うことができる。

＜補足説明＞
　上述した各実施例のラベル付与装置１０は、一例として、一般的なコンピュータとしてのハードウェアを用いた実行環境で動作するプログラムによる実装が可能である。この場合、ラベル付与装置１０における上述の各機能的な構成要素（ラベル候補生成部１１、特徴量抽出部１２、特徴量ペア検出部１３、ラベル付与部１４、メタデータ生成部１５、データ保持部１６、ラベル候補修正部１７、教示対象選択部１８、操作受付部１９、特徴量ペア判定部２０、ラベル確認部２１、確認対象絞り込み部２２）は、ハードウェアとソフトウェア（プログラム）との協働により実現される。

　図１９は、ラベル付与装置１０のハードウェア構成例を示すブロック図である。ラベル付与装置１０は、例えば図１９に示すように、ＣＰＵ（Central　Processing　Unit）１０１などのプロセッサ回路、ＲＯＭ（Read　Only　Memory）１０２やＲＡＭ（Random　Access　Memory）１０３などの記憶装置、表示パネルや各種操作デバイスが接続される入出力Ｉ／Ｆ１０４、ネットワークに接続して通信を行う通信Ｉ／Ｆ１０５、各部を接続するバス１０６などを備えた、一般的なコンピュータを利用したハードウェア構成とすることができる。

　また、上述した構成のハードウェア上で実行されるプログラムは、例えば、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ（Compact　Disk　Read　Only　Memory）、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ（Compact　Disk　Recordable）、ＤＶＤ（Digital　Versatile　Disc）などのコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。また、上述した構成のハードウェア上で実行されるプログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上述した構成のハードウェア上で実行されるプログラムをインターネットなどのネットワーク経由で提供または配布するように構成してもよい。また、上述した構成のハードウェア上で実行されるプログラムを、ＲＯＭ１０２などに予め組み込んで提供するように構成してもよい。

　上述した構成のハードウェア上で実行されるプログラムは、ラベル付与装置１０の各機能的な構成要素を含むモジュール構成となっており、例えば、ＣＰＵ１０１（プロセッサ回路）が上記記録媒体からプログラムを読み出して実行することにより、上述した各部がＲＡＭ１０３（主記憶）上にロードされ、ＲＡＭ１０３（主記憶）上に生成されるようになっている。なお、ラベル付与装置１０の各機能的な構成要素は、複数のコンピュータに跨って実現される構成であってもよい。また、上述の機能的な構成要素の一部または全部を、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field-Programmable　Gate　Array）などの専用のハードウェアを用いて実現することも可能である。

　以上述べた少なくとも一つの実施形態によれば、コンテンツから抽出される特徴量に対するラベル付与を自動で行うことができる。

　以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims

　コンテンツに関連付けられた関連データからラベル候補を生成するラベル候補生成部と、
　第１コンテンツから抽出された特徴量と第２コンテンツから抽出された特徴量との組み合わせのうち、特徴量間の類似度が最も高い組み合わせである特徴量ペアを検出する特徴量ペア検出部と、
　前記第１コンテンツに関連付けられた第１関連データと前記第２コンテンツに関連付けられた第２関連データとの双方から生成された共通のラベル候補を、前記特徴量ペアを構成する各特徴量に対してラベルとして付与するラベル付与部と、
　を備えるラベル付与装置。
　前記ラベル付与部は、第３コンテンツから抽出された特徴量と前記特徴量ペアを構成する各特徴量との間の距離が閾値以下の場合に、前記第３コンテンツから抽出した特徴量に対して前記特徴量ペアを構成する各特徴量と共通のラベルを付与する
　請求項１に記載のラベル付与装置。
　コンテンツから特徴量を抽出する特徴量抽出部をさらに備える
　請求項１または２に記載のラベル付与装置。
　前記特徴量抽出部は、コンテンツから抽出した特徴量群をクラスタリングしてクラスタごとの代表特徴量を生成し、
　前記特徴量ペア検出部は、前記第１コンテンツから生成された代表特徴量と前記第２コンテンツから生成された代表特徴量との組み合わせのうち、代表特徴量間の類似度が最も高い組み合わせを前記特徴量ペアとして検出する
　請求項３に記載のラベル付与装置。
　ラベルが付与された特徴量を用いてコンテンツのメタデータを生成するメタデータ生成部をさらに備える
　請求項１乃至４のいずれか一項に記載のラベル付与装置。
　前記第１コンテンツと前記第２コンテンツは、１つのコンテンツを分割することで生成される
　請求項１乃至５のいずれか一項に記載のラベル付与装置。
　前記ラベル候補の意味ベクトルを生成し、意味ベクトル間の類似度が閾値以上のラベル候補同士を共通化するラベル候補修正部をさらに備える
　請求項１乃至６のいずれか一項に記載のラベル付与装置。
　前記共通のラベル候補が複数存在し、１つのラベル候補と特徴量との関係が決定することにより他のラベル候補と特徴量との関係が決定する場合、前記１つのラベル候補を教示対象として選択する教示対象選択部と、
　前記教示対象のラベル候補と特徴量との関係を教示するユーザ操作を受け付ける操作受付部と、をさらに備える
　請求項１乃至７のいずれか一項に記載のラベル付与装置。
　前記特徴量ペアの誤りスコアを算出し、算出した誤りスコアに基づいて前記特徴量ペアが同一の対象を表しているか否かを判定する特徴量ペア判定部をさらに備える
　請求項１乃至８のいずれか一項に記載のラベル付与装置。
　前記誤りスコアが閾値を超える特徴量ペアを構成する各特徴量、または、前記特徴量ペアを構成できない特徴量に対して正しくラベルが付与されているか否かをユーザに確認するラベル確認部をさらに備える
　請求項９に記載のラベル付与装置。
　新たなコンテンツが追加された場合に、新たなコンテンツから抽出された特徴量を用いて、前記誤りスコアが閾値を超える特徴量ペアを構成する各特徴量、または、前記特徴量ペアを構成できない特徴量のうち、ラベルが正しく付与されているか否かの確認が必要な特徴量を絞り込む確認対象絞り込み部をさらに備える
　請求項１０に記載のラベル付与装置。
　前記コンテンツは、動画、静止画、音声、センサデータのいずれかである
　請求項１乃至１１のいずれか一項に記載のラベル付与装置。
　前記関連データは、前記コンテンツに対して予め付与されたテキストデータ、または、前記コンテンツに対して所定の処理を行うことで得られるテキストデータである
　請求項１乃至１２のいずれか一項に記載のラベル付与装置。
　コンテンツに関連付けられた関連データからラベル候補を生成するステップと、
　第１コンテンツから抽出された特徴量と第２コンテンツから抽出された特徴量との組み合わせのうち、特徴量間の類似度が最も高い組み合わせである特徴量ペアを検出するステップと、
　前記第１コンテンツに関連付けられた第１関連データと前記第２コンテンツに関連付けられた第２関連データとの双方から生成された共通のラベル候補を、前記特徴量ペアを構成する各特徴量のラベルとして決定するステップと、
　を含むラベル付与方法。
　コンピュータに、
　コンテンツに関連付けられた関連データからラベル候補を生成する機能と、
　第１コンテンツから抽出された特徴量と第２コンテンツから抽出された特徴量との組み合わせのうち、特徴量間の類似度が最も高い組み合わせである特徴量ペアを検出する機能と、
　前記第１コンテンツに関連付けられた第１関連データと前記第２コンテンツに関連付けられた第２関連データとの双方から生成された共通のラベル候補を、前記特徴量ペアを構成する各特徴量のラベルとして決定する機能と、
　を実現させるためのプログラム。