WO2021019645A1

WO2021019645A1 - 学習データ生成装置、学習装置、識別装置、生成方法及び記憶媒体

Info

Publication number: WO2021019645A1
Application number: PCT/JP2019/029673
Authority: WO
Inventors: 悠鍋藤
Original assignee: 日本電気株式会社
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2021-02-04
Also published as: US20220262099A1; JPWO2021019645A1; JP7268739B2

Abstract

照合部５３Ａは、映像データ又は音データの少なくとも一方を含む素材データＤｒの特徴量である素材特徴量Ｆｒと、素材データＤｒを編集した編集データＤｅの特徴量である編集特徴量Ｆｅとを照合することで、素材データＤｒと編集データＤｅとで一致する一致区間の照合を行う。ラベリング部５４Ａは、上述の一致区間を重要区間とし、当該一致区間以外の区間を非重要区間として定める情報を、素材データＤｒに対するラベルデータＤＬとして生成する。

Description

学習データ生成装置、学習装置、識別装置、生成方法及び記憶媒体

　本発明は、機械学習における学習データ生成装置、学習装置、識別装置、生成方法及び記憶媒体の技術分野に関する。

　動画像から映像ダイジェストを生成する技術が特許文献１に開示されている。特許文献１には、予め準備されたトレーニング動画像及びユーザが指定した重要シーン動画像から学習データファイルを作成し、当該学習データファイルに基づき、対象の動画像から重要シーンの検出を行うハイライト抽出装置が開示されている。

特開２００８－０２２１０３号公報

　映像ダイジェストの生成を深層学習により行う場合には、大量の学習データが必要となるが、学習データの生成には、重要シーンのラベリングを人手により行う正解付け作業を行う必要があり、膨大な手間がかかるという問題があった。

　本発明の目的は、上述した課題を鑑み、ダイジェストの生成に好適な学習データ生成装置、学習装置、識別装置、生成方法及び記憶媒体を提供することを主な課題とする。

　学習データ生成装置の一の態様は、学習データ生成装置であって、映像データ又は音データの少なくとも一方を含む素材データの特徴量と、前記素材データを編集した編集データの特徴量とを照合することで、前記素材データと前記編集データとで一致する一致区間の照合を行う照合部と、前記一致区間を重要区間とし、前記一致区間以外の区間を非重要区間として定める情報を、前記素材データに対するラベルデータとして生成するラベリング部と、を有する。

　生成方法の一の態様は、学習データ生成装置が実行する生成方法であって、映像データ又は音データの少なくとも一方を含む素材データの特徴量と、前記素材データを編集した編集データの特徴量とを照合することで、前記素材データと前記編集データとで一致する一致区間の照合を行い、前記一致区間を重要区間とし、前記一致区間以外の区間を非重要区間として定める情報を、前記素材データに対するラベルデータとして生成する。

　記憶媒体の一の態様は、映像データ又は音データの少なくとも一方を含む素材データの特徴量と、前記素材データを編集した編集データの特徴量とを照合することで、前記素材データと前記編集データとで一致する一致区間の照合を行う照合部と、前記一致区間を重要区間とし、前記一致区間以外の区間を非重要区間として定める情報を、前記素材データに対するラベルデータとして生成するラベリング部としてコンピュータを機能させるプログラムを格納する記憶媒体である。

　本発明によれば、ダイジェストの生成に必要な学習データを生成し、活用することができる。

実施形態におけるダイジェスト生成システムの概略構成である。（Ａ）学習データ生成装置のハードウェア構成の一例を示す。（Ｂ）学習装置のハードウェア構成の一例を示す。（Ｃ）識別装置のハードウェア構成の一例を示す。ダイジェスト生成システムの機能ブロックの一例である。（Ａ）素材データと編集データとの照合結果の一例を示した図である。（Ｂ）Ｎ個の素材データと編集データとの照合結果の一例を示した図である。素材特徴量生成処理の処理手順を示すフローチャートの一例である。ラベルデータ生成処理の処理手順を示すフローチャートの一例である。学習処理の処理手順を示すフローチャートの一例である。識別処理の処理手順を示すフローチャートの一例である。（Ａ）素材データの重要区間及び非重要区間の長さを明示した図である。（Ｂ）素材データの重要区間と非重要区間との長さが同一となるように正規化した素材データの重要区間及び非重要区間の長さを示す。（Ａ）素材データと編集データとの一致区間の対応関係の一例を示す。（Ｂ）１の素材データが複数の編集データに対応する場合の一致区間の対応関係の一例を示す。３台のカメラにより同時間帯で撮影された素材データと、これらの素材データから生成された素材データとの一致区間を表した図である。素材データにおける予兆区間と重要区間とを明示した図である。第２実施形態に係る学習データ生成装置の概略構成を示す。

　以下、図面を参照しながら、学習データ生成装置、学習装置、識別装置、生成方法及び記憶媒体の実施形態について説明する。

　＜第１実施形態＞
　［全体構成］
　図１は、実施形態におけるダイジェスト生成システム１００の概略構成である。ダイジェスト生成システム１００は、映像データ（音データを含んでもよい、以下同じ。）のダイジェストの生成を行うモデルの学習に用いる学習データの生成、当該モデルの学習、及び学習されたモデルによる映像データのダイジェストの生成を行う。ダイジェスト生成システム１００は、学習データ生成装置１０と、記憶装置２０と、学習装置３０と、識別装置４０と、を有する。

　学習データ生成装置１０は、映像データのダイジェストの生成を行うモデルの学習に必要な学習データの生成を行う。具体的には、学習データ生成装置１０は、編集されたダイジェストの映像データ（「編集データＤｅ」とも呼ぶ。）と、当該編集データＤｅの生成に用いられた映像データ（「素材データＤｒ」とも呼ぶ。）との照合を行うことで、素材データＤｒに対するラベリングを行う。そして、学習データ生成装置１０は、ラベリングの結果を示す情報（「ラベルデータＤＬ」とも呼ぶ。）を、対象の素材データＤｒに対する正解データとして生成する。ラベルデータＤＬは、編集データＤｅに用いられた素材データＤｒの映像区間を重要区間（重要シーン）、編集データＤｅに用いられていない素材データＤｒの映像区間を非重要区間（非重要シーン）として定めた情報である。重要区間は、編集データＤｅに用いられた重要な映像区間に相当し、非重要区間は、編集データＤｅに用いられておらず、重要性が低い映像区間に相当する。

　記憶装置２０は、素材データ記憶部２１と、編集データ記憶部２２と、特徴量記憶部２３と、ラベルデータ記憶部２４と、パラメータ記憶部２５とを有する。これらの各記憶部については後述する。なお、記憶装置２０は、学習データ生成装置１０、学習装置３０、又は識別装置４０に接続又は内蔵されたハードディスクなどの外部記憶装置であってもよく、フラッシュメモリなどの記憶媒体であってもよく、学習データ生成装置１０とデータ通信を行うサーバ装置などであってもよい。また、記憶装置２０は、複数の記憶装置から構成され、上述した各記憶部を分散して保有してもよい。

　学習装置３０は、素材データ記憶部２１に記憶された素材データＤｒとラベルデータ記憶部２４に記憶されたラベルデータＤＬとを学習データとして用いることで、入力された映像データから重要区間及び非重要区間に関する識別を行う識別器のパラメータを生成する。そして、学習装置３０は、生成した識別器のパラメータを、パラメータ記憶部２５に記憶する。

　識別装置４０は、映像データを含む入力データ「Ｄ１」が入力された場合に、当該入力データＤ１に対して重要区間及び非重要区間に関する識別を行い、当該識別の結果に基づく出力データ「Ｄ２」を出力する。ここで、識別装置４０は、パラメータ記憶部２５に記憶されたパラメータを参照することで識別器を構成し、当該識別器に入力データＤ１を入力することで、重要区間及び非重要区間に関する識別結果を生成する。識別装置４０は、入力データＤ１を、通信又は放送により映像データを配信する任意の装置から受信してもよく、識別装置４０に接続された撮影用のカメラ等から受信してもよい。例えば、識別装置４０は、識別装置４０に接続する表示装置又は／及び音出力装置に対して出力データＤ２を供給することで、所定の表示又は／及び音出力を行ってもよい。他の例では、識別装置４０は、出力データＤ２に基づき所定の処理を行う他の装置に出力データＤ２を送信してもよい。

　なお、学習データ生成装置１０、学習装置３０、及び識別装置４０がそれぞれ別装置として構成される代わりに、学習データ生成装置１０、学習装置３０、及び識別装置４０の少なくともいずれか２つが同一装置として構成されてもよい。

　次に、記憶装置２０に記憶されるデータについて説明する。

　素材データ記憶部２１は、編集データＤｅの生成に用いられた素材データＤｒを記憶する。素材データ記憶部２１に記憶される素材データＤｒは、当該素材データＤｒを用いて生成された編集データＤｅと関連付けられている。編集データＤｅは、編集データ記憶部２２に記憶されている。なお、素材データＤｒ及び編集データＤｅは、時系列に生成された画像データである映像データの他、映像データと同時間帯に生成された音データを含んでもよい。

　ここで、素材データＤｒと編集データＤｅとの組み合わせの具体例について説明する。

　第１の例では、素材データＤｒは、撮影現場において１又は複数のカメラにより撮影された映像データであり、編集データＤｅは、当該素材データＤｒから編集により生成された放送用の映像データである。この場合、編集データＤｅは、野球やサッカーなどのスポーツ中継用の映像データであってもよく、国会中継などのスポーツ以外の中継用の映像データであってもよく、スタジオなどで収録された映像データであってもよい。第２の例では、素材データＤｒは、スポーツ中継などの放送に用いられる映像データであり、編集データＤｅは、スポーツ中継などの放送のダイジェストを扱うニュース番組の映像データである。このように、素材データＤｒは、カメラから出力された未編集の映像データに限らず、編集された映像データであってもよい。

　なお、素材データＤｒ及び編集データＤｅは、放送用の映像データに限られない。例えば、素材データＤｒは、監視カメラにより撮影された映像データであって、編集データＤｅは、犯罪などの重要な映像区間を当該映像データから切り取った映像データであってもよい。また、素材データＤｒは、複数の編集データＤｅの生成に用いられてもよい。この場合、素材データＤｒは、複数の編集データＤｅと関連付けられて素材データ記憶部２１に記憶される。

　特徴量記憶部２３は、学習データ生成装置１０が抽出した素材データＤｒの特徴量（「素材特徴量Ｆｒ」とも呼ぶ。）を記憶する。例えば、素材特徴量Ｆｒは、素材データＤｒの時系列での特徴量であり、例えば素材データＤｒに含まれる映像フレーム毎に生成される特徴量である。なお、素材特徴量Ｆｒは、音データから抽出された特徴量を含んでもよい。

　ラベルデータ記憶部２４は、学習データ生成装置１０が生成したラベルデータＤＬを記憶する。ラベルデータ記憶部２４に記憶されるラベルデータＤＬは、夫々、素材データ記憶部２１に記憶されるいずれかの素材データＤｒと関連付けられている。

　パラメータ記憶部２５は、学習装置３０が学習した識別器のパラメータを記憶する。上述の識別器は、例えば、カメラにより撮影された映像データが入力された場合に、当該映像データから重要区間及び非重要区間に関する識別結果を出力するように学習される学習モデルである。学習モデルは、ニューラルネットワークに基づく学習モデルであってもよく、サポートベクターマシーンなどの他の種類の学習モデルであってもよく、これらを組み合わせた学習モデルであってもよい。例えば、上述の識別器がニューラルネットワークに基づく構成を有する場合、パラメータ記憶部２５には、識別器の層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みなどの種々のパラメータの情報が記憶される。

　［ハードウェア構成］
　次に、学習データ生成装置１０、学習装置３０、及び識別装置４０の各ハードウェア構成について説明する。

　図２（Ａ）は、学習データ生成装置１０のハードウェア構成の一例を示す。学習データ生成装置１０は、ハードウェアとして、プロセッサ１１と、メモリ１２と、インターフェース１３とを含む。プロセッサ１１、メモリ１２、及びインターフェース１３は、データバス１９を介して接続されている。

　プロセッサ１１は、メモリ１２に記憶されているプログラムを実行することにより、所定の処理を実行する。プロセッサ１１は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などのプロセッサである。

　メモリ１２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、フラッシュメモリなどの各種のメモリにより構成される。また、メモリ１２には、学習データ生成装置１０が実行する学習データの生成に関する処理を実行するためのプログラムが記憶される。また、メモリ１２は、作業メモリとして使用され、記憶装置２０から取得した情報等を一時的に記憶する。なお、メモリ１２は、記憶装置２０又は記憶装置２０の一部として機能してもよい。この場合、メモリ１２は、記憶装置２０の代わりに、素材データ記憶部２１、編集データ記憶部２２、特徴量記憶部２３又はラベルデータ記憶部２４の少なくともいずれかを有してもよい。同様に、記憶装置２０は、学習データ生成装置１０のメモリ１２として機能してもよい。

　インターフェース１３は、プロセッサ１１の制御に基づき記憶装置２０とデータの送受信を有線又は無線により行うための通信インターフェースであり、ネットワークアダプタなどが該当する。なお、学習データ生成装置１０と記憶装置２０とはケーブル等により接続されてもよい。この場合、インターフェース１３は、記憶装置２０とデータ通信を行う通信インターフェースの他、記憶装置２０とデータの授受を行うためのＵＳＢ、ＳＡＴＡ（Ｓｅｒｉａｌ　ＡＴ　Ａｔｔａｃｈｍｅｎｔ）などに準拠したインターフェースである。

　なお、学習データ生成装置１０のハードウェア構成は、図２（Ａ）に示す構成に限定されない。例えば、学習データ生成装置１０は、ディスプレイなどの表示部、キーボードやマウスなどの入力部、スピーカなどの音出力部などをさらに備えてもよい。また、学習データ生成装置１０は、複数の装置により構成されてもよい。この場合、これらの各装置は、各装置が予め定め割り当てられた処理を実行するために必要な情報の授受を、装置間で行う。

　図２（Ｂ）は、学習装置３０のハードウェア構成の一例を示す。学習装置３０は、ハードウェアとして、プロセッサ３１と、メモリ３２と、インターフェース３３とを含む。プロセッサ３１、メモリ３２、及びインターフェース３３は、データバス３９を介して接続されている。

　プロセッサ３１は、メモリ３２に記憶されているプログラムを実行することにより、所定の処理を実行する。プロセッサ３１は、ＣＰＵ、ＧＰＵなどのプロセッサである。インターフェース３３は、プロセッサ３１の制御に基づき記憶装置２０とデータの送受信を有線又は無線により行うための通信インターフェースである。

　メモリ３２は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの各種のメモリにより構成される。また、メモリ３２には、学習装置３０が実行する学習に関する処理を実行するためのプログラムが記憶される。また、メモリ３２は、作業メモリとして使用され、記憶装置２０から取得した情報等を一時的に記憶する。なお、メモリ３２は、記憶装置２０又は記憶装置２０の一部として機能してもよい。この場合、メモリ３２は、記憶装置２０の代わりに、素材データ記憶部２１、ラベルデータ記憶部２４又はパラメータ記憶部２５の少なくともいずれかを有してもよい。同様に、記憶装置２０は、学習装置３０のメモリ３２として機能してもよい。

　なお、学習装置３０のハードウェア構成は、図２（Ｂ）に示す構成に限定されない。例えば、学習装置３０は、ディスプレイなどの表示部、キーボードやマウスなどの入力部、スピーカなどの音出力部などをさらに備えてもよい。また、学習装置３０は、複数の装置により構成されてもよい。この場合、これらの各装置は、各装置が予め定め割り当てられた処理を実行するために必要な情報の授受を、装置間で行う。

　図２（Ｃ）は、識別装置４０のハードウェア構成の一例を示す。識別装置４０は、ハードウェアとして、プロセッサ４１と、メモリ４２と、インターフェース４３とを含む。プロセッサ４１、メモリ４２、及びインターフェース４３は、データバス４９を介して接続されている。

　プロセッサ４１は、メモリ４２に記憶されているプログラムを実行することにより、所定の処理を実行する。プロセッサ４１は、ＣＰＵ、ＧＰＵなどのプロセッサである。インターフェース４３は、プロセッサ４１の制御に基づき、記憶装置２０、入力データＤ１の供給元の装置、及び、出力データＤ２の供給先の装置とデータの送受信を有線又は無線により行うためのインターフェースである。

　メモリ４２は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの各種のメモリにより構成される。また、メモリ４２には、識別装置４０が実行する学習に関する処理を実行するためのプログラムが記憶される。また、メモリ４２は、作業メモリとして使用され、記憶装置２０から取得した情報等を一時的に記憶する。なお、メモリ４２は、記憶装置２０又は記憶装置２０の一部として機能してもよい。この場合、メモリ４２は、記憶装置２０の代わりに、パラメータ記憶部２５を有してもよい。同様に、記憶装置２０は、識別装置４０のメモリ４２として機能してもよい。

　なお、識別装置４０のハードウェア構成は、図２（Ｃ）に示す構成に限定されない。例えば、識別装置４０は、ディスプレイなどの表示部、キーボードやマウスなどの入力部、スピーカなどの音出力部などをさらに備えてもよい。また、識別装置４０は、複数の装置により構成されてもよい。この場合、これらの各装置は、各装置が予め定め割り当てられた処理を実行するために必要な情報の授受を、装置間で行う。

　［機能ブロック］
　次に、ダイジェスト生成システム１００の機能的な構成について説明する。

　図３は、ダイジェスト生成システム１００の機能ブロックの一例である。図３に示すように、学習データ生成装置１０のプロセッサ１１は、取得部５１と、特徴抽出部５２と、照合部５３と、ラベリング部５４とを有する。また、学習装置３０のプロセッサ３１は、取得部５５と、学習部５６とを有する。また、識別装置４０のプロセッサ４１は、取得部５７と、識別部５８と、出力部５９とを有する。

　取得部５１は、インターフェース１３を介し、素材データ記憶部２１から素材データＤｒを取得する。また、取得部５１は、インターフェース１３を介し、編集データ記憶部２２から編集データＤｅを取得する。

　特徴抽出部５２は、取得部５１が取得した素材データＤｒに対して特徴量抽出を行い、抽出した素材特徴量Ｆｒを特徴量記憶部２３に記憶する。素材特徴量Ｆｒは、素材データＤｒを構成する１枚の映像フレーム毎の特徴量の集合であってもよく、所定枚数分の映像フレーム毎の特徴量の集合であってもよい。なお、このような特徴量の抽出手法は種々の手法が存在するが、本実施形態においては特定の手法に限定されるものではなく、任意の手法が用いられてもよい。

　また、特徴抽出部５２は、取得部５１が取得した編集データＤｅに対し、素材データＤｒに対して行った特徴量抽出と同一のアルゴリズムに基づく特徴量抽出を行う。そして、特徴抽出部５２は、抽出した編集データＤｅの特徴量（「編集特徴量Ｆｅ」とも呼ぶ。）を、照合部５３に供給する。

　照合部５３は、特徴抽出部５２から所定の編集データＤｅに対する編集特徴量Ｆｅを受信した場合に、当該編集データＤｅに関連付けられた素材データＤｒの素材特徴量Ｆｒを特徴量記憶部２３から抽出する。そして、照合部５３は、編集特徴量Ｆｅと素材特徴量Ｆｒとの照合を行うことで、対象となる編集データＤｅと素材データＤｒとの間で一致する映像区間（「一致区間」とも呼ぶ。）の判定を行う。なお、映像における照合処理は種々の手法が存在するが、本実施形態においては特定の手法に限定されるものではなく、任意の手法が用いられてもよい。そして、照合部５３は、編集特徴量Ｆｅと素材特徴量Ｆｒとの照合に基づく一致区間を示す照合結果「Ｒｍ」を、ラベリング部５４に供給する。

　ラベリング部５４は、照合部５３から供給される照合結果Ｒｍに基づき、照合部５３により特徴量の照合が行われた素材データＤｒに対して付与すべきラベルデータＤＬを生成する。具体的には、ラベリング部５４は、照合結果Ｒｍに基づき、対象の素材データＤｒにおける編集データＤｅとの一致区間を重要区間、当該一致区間以外の非一致区間を非重要区間とするラベルデータＤＬを生成する。そして、ラベリング部５４は、生成したラベルデータＤＬをラベルデータ記憶部２４に記憶する。

　ここで、照合部５３とラベリング部５４の処理の具体例について説明する。

　図４（Ａ）は、素材データＤｒと編集データＤｅとの照合結果の一例を示した図である。図４（Ａ）は、素材データＤｒ及び編集データＤｅを、夫々のコンテンツの時間長（即ちフレーム数）に応じた帯グラフにより示している。図４（Ａ）に示す素材データＤｒは、編集データＤｅにおいて使用されたシーンＡとシーンＢとシーンＣとを含んでいる。編集データＤｅは、シーンＡ、シーンＣ、シーンＢ、シーンＡの順に素材データＤｒの部分データを含んでいる。

　この場合、照合部５３は、素材特徴量Ｆｒと編集特徴量Ｆｅとを照合することで、素材データＤｒと編集データＤｅとにおいてシーンＡ、シーンＢ、及びシーンＣの各映像区間が一致区間であると判定する。そして、ラベリング部５４は、素材データＤｒにおいて、シーンＡ、シーンＢ、及びシーンＣに相当する映像区間を重要区間、それ以外の映像区間を非重要区間とするラベルデータＤＬを生成する。

　図４（Ｂ）は、Ｎ個の素材データＤｒ（第１素材データＤｒ～第Ｎ素材データＤｒ）と編集データＤｅとの照合結果の一例を示した図である。ここでは、素材データＤｒは、Ｎ台のカメラから夫々撮影された映像データであり、編集データＤｅは、Ｎ個の素材データＤｒを編集することで生成された映像データである。

　この場合、照合部５３は、Ｎ個の素材データＤｒの各々に対して、編集データＤｅとの一致区間の判定を行う。図４（Ｂ）の例では、照合部５３は、第１素材データＤｒの素材特徴量Ｆｒと編集特徴量Ｆｅとの照合により、第１素材データＤｒのシーン１Ａ及びシーン１Ｂに相当する各映像区間が編集データＤｅとの一致区間であると判定する。この場合、ラベリング部５４は、第１素材データＤｒに対応するラベルデータＤＬとして、シーン１Ａ及びシーン１Ｂに相当する各映像区間を重要区間とし、他の映像区間を非重要区間とするラベルデータＤＬを生成する。同様に、照合部５３は、第Ｎ素材データＤｒの素材特徴量Ｆｒと編集特徴量Ｆｅとの照合により、第Ｎ素材データＤｒのシーンＮＡ及びシーンＮＢに相当する各映像区間が編集データＤｅとの一致区間であると判定する。この場合、ラベリング部５４は、第Ｎ素材データＤｒに対応するラベルデータＤＬとして、シーンＮＡ及びシーンＮＢに相当する各映像区間を重要区間とし、他の映像区間を非重要区間とするラベルデータＤＬを生成する。

　このように、学習データ生成装置１０は、Ｎ個の素材データＤｒと１個の編集データＤｅとが対応する場合、Ｎ個の素材データＤｒの各々の素材特徴量Ｆｒと編集特徴量Ｆｅとの照合を行い、Ｎ個の素材データＤｒの各々に対応するラベルデータＤＬを生成する。

　再び図３を参照し、学習装置３０及び識別装置４０の機能的な構成について説明する。

　学習装置３０の取得部５５は、インターフェース３３を介し、素材データ記憶部２１から素材データＤｒを取得すると共に、当該素材データＤｒに対応するラベルデータＤＬをラベルデータ記憶部２４から取得する。そして、取得部５５は、素材データＤｒとラベルデータＤＬの組を、学習データとして学習部５６に供給する。

　学習部５６は、取得部５５から受信した素材データＤｒとラベルデータＤＬの組を学習データとして用いることで、入力された映像データから重要区間及び非重要区間の識別を行う識別器の学習を行う。学習部５６は、識別器として、畳み込みニューラルネットワークなどのニューラルネットワークに基づく学習モデルを採用してもよく、サポートベクターマシーンなどの他の種類の学習モデルを採用してもよい。この場合、学習部５６は、例えば、現在のパラメータ（初期値も含む）に基づく識別に対する損失を算出し、当該損失が減少するように、学習モデルのパラメータの更新を行う。この場合のパラメータを決定するアルゴリズムは、勾配降下法や誤差逆伝播法などの機械学習において用いられる任意の学習アルゴリズムであってもよい。そして、学習部５６は、複数組の学習データに対してそれぞれ学習モデルのパラメータの更新を行い、学習すべき全ての学習データを用いた学習が終了した時点での学習モデルのパラメータを、パラメータ記憶部２５に記憶する。

　識別装置４０の取得部５７は、他の装置からインターフェース４３を介して入力データＤ１を取得する。そして、取得部５７は、取得した入力データＤ１を識別部５８へ供給する。識別部５８は、取得部５７から入力データＤ１が供給された場合に、パラメータ記憶部２５に記憶されたパラメータに基づき構成した識別器に入力データＤ１を入力する。そして、識別部５８は、上述の識別器が出力する識別結果を、出力部５９に供給する。出力部５９は、識別部５８から供給される識別結果に基づき出力データＤ２を生成し、インターフェース４３を介して出力データＤ２を他の装置に出力する。図３の例では、出力部５９は、出力データＤ２を、ディスプレイ又は／及び音出力装置などの出力装置６０に供給している。この場合、出力部５９は、出力データＤ２として、識別部５８から供給される識別結果に基づき所定の通知を行うための表示データ又は音データの少なくとも一方を生成する。

　なお、入力データＤ１は、ファイル単位の映像データであってもよく、カメラ等からリアルタイムに取得されるストリーミングデータ（放送データを含む）であってもよい。前者の場合、識別部５８は、ファイル単位で入力データＤ１として取得された映像データを識別器に入力することで、当該映像データの全映像区間における重要区間と非重要区間との識別結果を、出力部５９に供給する。後者の場合、識別部５８は、取得部５７が取得するフレーム単位又は所定時間単位のデータに対して重要区間又は非重要区間のいずれに属するかの識別を行い、当該識別結果を出力部５９に供給する。この場合、例えば、出力部５９は、取得部５７が入力データＤ１としてリアルタイムに取得する映像データを識別装置４０に接続する出力装置６０に出力しつつ、出力中の映像データが重要区間に属すると判定した場合に、重要区間である旨の通知（警告）を出力装置６０に出力する。

　［処理フロー］
　次に、学習データ生成装置１０、学習装置３０及び識別装置４０が夫々実行する処理の流れについて説明する。

　（１）素材特徴量生成処理
　図５は、学習データ生成装置１０がラベルデータＤＬの生成処理（「ラベルデータ生成処理」とも呼ぶ。）に先立って実行する素材特徴量Ｆｒの生成処理（「素材特徴量生成処理」とも呼ぶ。）の処理手順を示すフローチャートの一例である。学習データ生成装置１０は、図５に示すフローチャートの処理を、学習に使用する素材データＤｒの各々に対して実行する。

　まず、学習データ生成装置１０の取得部５１は、ラベルデータＤＬが生成されていない素材データＤｒを素材データ記憶部２１から取得する（ステップＳ１１）。そして、特徴抽出部５２は、取得部５１がステップＳ１１で取得した素材データＤｒに対して特徴抽出処理を実行する（ステップＳ１２）。そして、特徴抽出部５２は、ステップＳ１２の特徴抽出処理により得られた素材特徴量を、取得部５１がステップＳ１１で取得した素材データＤｒと関連付けて特徴量記憶部２３に記憶する（ステップＳ１３）。そして、学習データ生成装置１０は、学習に使用する素材データＤｒであって、ラベルデータＤＬが生成されていない他の素材データＤｒに対して、ステップＳ１１～ステップＳ１３の処理を繰り返し実行する。

　（２）ラベルデータ生成処理
　図６は、学習データ生成装置１０が素材特徴量生成処理の実行後に行うラベルデータ生成処理の処理手順を示すフローチャートの一例である。学習データ生成装置１０は、図６に示すフローチャートの処理を、学習に使用する編集データＤｅの各々に対して実行する。

　まず、学習データ生成装置１０の取得部５１は、学習に使用する編集データＤｅであって、まだ取得部５１が取得していない編集データＤｅを編集データ記憶部２２から取得する（ステップＳ２１）。そして、特徴抽出部５２は、取得部５１がステップＳ２１で取得した編集データＤｅに対して特徴抽出処理を実行する（ステップＳ２２）。そして、照合部５３は、対象の編集データＤｅに関連する素材データＤｒの素材特徴量Ｆｒを特徴量記憶部２３から抽出し、ステップＳ２２で特徴抽出部５２が抽出した編集特徴量Ｆｅと、特徴量記憶部２３から取得した素材特徴量Ｆｒとの照合を行う（ステップＳ２３）。そして、ラベリング部５４は、照合部５３が出力する照合結果Ｒｍに基づき、上述の２つの特徴量が一致する素材データＤｒの区間を重要区間、特徴量が一致しない素材データＤｒの区間を非重要区間と定めたラベルデータＤＬを生成する。そして、ラベリング部５４は、生成したラベルデータＤＬを、対応する素材データＤｒに関連付けてラベルデータ記憶部２４に記憶する（ステップＳ２４）。なお、ラベリング部５４は、ステップＳ２１で取得した編集データＤｅに対応する素材データＤｒが複数存在する場合には、当該素材データＤｒの各々に対応するラベルデータＤＬを生成する。そして、ラベリング部５４は、各ラベルデータＤＬを、対応する素材データＤｒに関連付けてラベルデータ記憶部２４に記憶する。

　（３）学習処理
　図７は、学習装置３０が実行する学習処理の処理手順を示すフローチャートの一例である。

　まず、学習装置３０の取得部５５は、取得部５５がまだ取得していない素材データＤｒを素材データ記憶部２１から取得すると共に、当該素材データＤｒに対応するラベルデータＤＬをラベルデータ記憶部２４から取得する（ステップＳ３１）。

　そして、学習部５６は、ステップＳ３１で取得した素材データＤｒとラベルデータＤＬとの組み合わせを学習データとして用いることで学習を行う（ステップＳ３２）。この場合、例えば、学習部５６は、現在のパラメータを用いた識別器に対して対象の素材データＤｒを入力することで識別を行い、ラベルデータＤＬを用いて当該識別に対する損失を算出し、当該損失が減少するように識別器のパラメータを決定する。そして、学習部５６は、学習により得られたパラメータにより、パラメータ記憶部２５に記憶するパラメータを更新する（ステップＳ３３）。

　そして、学習装置３０は、学習の終了条件を満たすか否か判定する（ステップＳ３４）。例えば、学習装置３０は、学習を終了すべき旨のユーザ入力等を検知した場合、又は、素材データ記憶部２１及びラベルデータ記憶部２４に記憶された全ての素材データＤｒとラベルデータＤＬとの組み合わせに対してステップＳ３１～ステップＳ３３の処理を実行した場合、終了条件を満たすと判定する。そして、学習装置３０は、学習の終了条件を満たす場合（ステップＳ３４；Ｙｅｓ）、フローチャートの処理を終了する。一方、学習装置３０は、学習の終了条件を満たさない場合（ステップＳ３４；Ｎｏ）、ステップＳ３１へ処理を戻す。

　（４）識別処理
　図８は、識別装置４０が実行する識別処理の処理手順を示すフローチャートの一例である。識別装置４０は、図８のフローチャートの処理を繰り返し実行する。

　識別装置４０の取得部５７は、他の装置から入力される入力データＤ１を取得する（ステップＳ４１）。そして、識別部５８は、パラメータ記憶部２５に記憶されたパラメータを用いて構成した識別器に入力データＤ１を入力することで、重要区間及び非重要区間に関する識別を行う（ステップＳ４２）。そして、出力部５９は、識別部５８による識別結果に基づく出力データＤ２を出力する（ステップＳ４３）。なお、第１の例では、識別装置４０は、ファイル単位の映像データをステップＳ４１で入力データＤ１として受信した場合に、ファイル単位の映像データに対してステップＳ４２及びステップＳ４３の処理を実行する。第２の例では、識別装置４０は、放送データなどのストリーミングデータを入力データＤ１として取得し、当該入力データＤ１に対してステップＳ４２及びステップＳ４３の処理をリアルタイムにより繰り返し実行する。この場合、ステップＳ４３において、識別装置４０は、処理中の入力データＤ１が重要区間に属すると判定した場合に、重要区間である旨の通知（警告）を出力装置６０に出力してもよい。

　［変形例］
　次に、第１実施形態に好適な変形例について説明する。以下の変形例は、任意に組み合わせて上述の第１実施形態に適用してもよい。

　（変形例１）
　図７のステップＳ３２において、学習部５６は、学習に用いる素材データＤｒの重要区間と非重要区間との合計長が同一となるように、素材データＤｒ及びラベルデータＤＬを正規化し、正規化した素材データＤｒ及びラベルデータＤＬに基づき学習を行ってもよい。

　図９（Ａ）は、図４（Ａ）に示した素材データＤｒを学習データとして用いる場合の当該素材データＤｒの重要区間及び非重要区間の長さを明示した図である。この場合の「長さ」は、時間長又はフレーム数を表すものとする。

　図９（Ａ）に示すように、学習データとして取得した素材データＤｒの重要区間の合計長（Ｌ２＋Ｌ４＋Ｌ６）は、非重要区間の合計長（Ｌ１＋Ｌ３＋Ｌ５＋Ｌ７）よりも短い。この素材データＤｒに基づき識別器の学習を行った場合には、非重要区間に対する学習が重要区間に対する学習よりも多くなり、識別器の学習に偏りが生じる可能性がある。

　図９（Ｂ）は、学習に用いる素材データＤｒの重要区間と非重要区間との長さが同一となるように正規化した素材データＤｒの重要区間及び非重要区間の長さを示す。図９（Ｂ）に示すように、学習部５６は、非重要区間の長さを夫々短縮する（映像の場合にはフレーム数を削除する）ことで、重要区間の合計長（Ｌ２＋Ｌ４＋Ｌ６）と、非重要区間の合計長（Ｌ１ａ＋Ｌ３ａ＋Ｌ５ａ＋Ｌ７ａ）とを同一長としている。この場合、例えば、学習部５６は、各非重要区間を所定割合で短縮することで、重要区間の合計長と非重要区間の合計長とを同一長にする。なお、学習部５６は、その他の任意の規則に基づき、重要区間の合計長と同一の合計長となるように短縮した非重要区間を学習データとして抽出してもよい。

　本変形例によれば、学習部５６は、重要区間と非重要区間とが均等な学習データにより学習を行い、非重要区間を偏って学習するのを好適に防ぐことができる。

　（変形例２）
　学習データ生成装置１０のラベリング部５４は、図６のステップＳ２４においてラベルデータＤＬを生成する場合、重要区間に対する重要度に応じた学習段階での重み付けに関する情報（「重み付け情報」とも呼ぶ。）を、ラベルデータＤＬに付加してもよい。

　まず、重み付け情報の第１の例として、編集データＤｅにおいて使用される回数に基づき、重要区間の各々の重みを決定する例について、図１０（Ａ）及び図１０（Ｂ）を参照して説明する。

　図１０（Ａ）は、素材データＤｒと編集データＤｅとの一致区間の対応関係の一例を示す。この場合、まず、ラベリング部５４は、ステップＳ２３の照合処理により得られた照合結果Ｒｍに基づき、素材データＤｒのシーンＸ１及びシーンＸ２を、編集データＤｅとの一致区間として認識する。そして、この場合、ラベリング部５４は、シーンＸ１及びシーンＸ２に相当する素材データＤｒの各映像区間を重要区間とするラベルデータＤＬを生成すると共に、当該各映像区間に関する重み付け情報をラベルデータＤＬに付加する。ここで、シーンＸ１が編集データＤｅにおいて２回用いられており、シーンＸ２が編集データＤｅにおいて１回用いられていることから、ラベリング部５４は、シーンＸ１に相当する映像区間に対する重みを、シーンＸ２に相当する映像区間に対する重みよりも高く設定する。例えば、ラベリング部５４は、編集データＤｅで使用された回数を重みとみなし、シーンＸ１に相当する映像区間に対する重みを「２」、シーンＸ２に相当する映像区間に対する重みを「１」としてもよい。なお、ラベリング部５４は、シーンＸ１に相当する映像区間に対する重みが、シーンＸ２に相当する映像区間に対する重みよりも大きくなるような任意の重みを示す重み付け情報を生成してもよい。

　図１０（Ｂ）は、１の素材データＤｒが複数の編集データＤｅ（編集データαと編集データβ）に対応する場合の一致区間の対応関係の一例を示す。この場合、ラベリング部５４は、シーンＹ１及びシーンＹ２の各々を重要区間とするラベルデータＤＬを生成すると共に、シーンＹ１及びシーンＹ２に関する重み付け情報をラベルデータＤＬに付加する。ここで、シーンＹ１は、編集データαと編集データβに１回ずつ（計２回）用いられることから、編集データαにのみ１回だけ用いられるシーンＹ２よりも重みを高く設定する。

　このように、ラベリング部５４は、編集データＤｅにおいて用いられた回数が多い重要区間ほど重要度が高いとみなし、当該重要区間に対する重みを高くした重み付け情報を生成する。これにより、ラベリング部５４は、各重要区間での重要度を考慮した学習を可能にする重み付け情報を、ラベルデータＤＬに好適に付加することができる。

　また、重み付け情報の第２の例として、ラベリング部５４は、編集データＤｅの属性情報に基づき、当該編集データＤｅに対応する素材データＤｒの重要区間に対する学習の重みを決定してもよい。上述の属性情報は、例えば、視聴率に関する情報、編集データＤｅの時間長に関する情報、又は、編集データの時系列での重要度を示す情報である。以下では、これらの属性情報に基づき重み付け情報を生成する例について順に説明する。

　例えば、視聴率に関する情報が編集データＤｅの属性情報として編集データＤｅのメタデータ等に含まれていた場合には、ラベリング部５４は、視聴率に関する情報に基づき、重要区間の重みを決定する。例えば、ラベリング部５４は、素材データＤｒの各重要区間に対する重みを、対応する編集データＤｅの視聴率に応じた値に設定した重み付け情報を生成する。この場合、ラベリング部５４は、編集データＤｅの視聴率が高いほど、当該編集データＤｅに用いられた重要区間に対する重みが大きくなるように、重み付け情報を生成する。なお、ラベリング部５４は、視聴率に限らず、視聴者数の多さを客観的に表す任意の指標に基づき、重みを設定してもよい。これにより、視聴者の関心が高い編集データＤｅに使用された重要区間に対する重み付けを高く設定することができる。

　また、編集データＤｅの属性情報として、編集データＤｅの時間長を用いる場合、ラベリング部５４は、素材データＤｒの各重要区間に対する重みを、対応する編集データＤｅの時間長に応じた値に設定した重み付け情報を生成する。この場合、ラベリング部５４は、編集データＤｅの時間長が短いほど、当該編集データＤｅに用いられた重要区間に対する重みが大きくなるように、重み付け情報を生成する。この場合、ラベリング部５４は、時間長が短い編集データＤｅにおいて使用される映像区間は重要性が高いと判断し、各重要区間に対する重みを設定する。この態様によっても、ラベリング部５４は、各重要区間の重要度に応じて各重要区間の重みを設定した重み付け情報を好適に生成することができる。

　また、編集データＤｅの属性情報として、編集データＤｅの時系列での重要度を示すメタデータを使用する場合には、ラベリング部５４は、素材データＤｒの各重要区間に対する重みを、対応する編集データＤｅの映像区間に対する重要度に基づいて設定する。これにより、ラベリング部５４は、編集データＤｅ内の時系列での重要度を考慮してラベルデータＤＬに付加する重み付け情報を生成することができる。

　次に、重み付け情報を利用した学習について説明する。学習装置３０の学習部５６は、取得部５５が取得したラベルデータＤＬと素材データＤｒとの組に基づき識別器の学習を行う場合、ラベルデータＤＬに付加された重み付け情報を参照することで、素材データＤｒの各重要区間に対する重みを決定する。そして、学習部５６は、例えば、重みが大きい重要区間ほど、当該重要区間への誤識別に対する損失が大きくなるように損失関数のパラメータ等を調整し、損失が最小となるように識別器の学習を行う。他の例では、学習部５６は、重みに応じて重要区間の学習回数を決定してもよい。例えば、編集データＤｅでの使用回数を各重要区間の重みとする例（図１０（Ａ）、（Ｂ）参照）では、学習部５６は、重みが１（即ち使用回数が１回）となる重要区間については１回のみ学習を行い、重みがＮ（Ｎは２以上の整数）となる重要区間についてはＮ回学習を行う。このようにすることで、学習装置３０は、素材データＤｒにおける各重要区間での重要度を考慮した学習を好適に実行することができる。

　（変形例３）
　学習データ生成装置１０は、素材特徴量Ｆｒを生成する素材特徴量生成処理（図５参照）の実行後に、編集特徴量Ｆｅの生成処理及びラベルデータＤＬの生成処理を含むラベルデータ生成処理（図６参照）を実行したが、実行手順はこれに限られない。

　例えば、学習データ生成装置１０は、編集特徴量Ｆｅの生成処理を実行した後、素材特徴量Ｆｒの生成処理とラベルデータＤＬの生成処理を行ってもよい。他の例では、学習データ生成装置１０は、編集特徴量Ｆｅと素材特徴量Ｆｒの生成処理を予め実行することで編集特徴量Ｆｅと素材特徴量Ｆｒを特徴量記憶部２３に記憶しておき、その後に特徴量記憶部２３を参照することでラベルデータＤＬの生成処理を行ってもよい。この場合、学習データ生成装置１０以外の装置が編集特徴量Ｆｅと素材特徴量Ｆｒの生成処理を実行し、生成した編集特徴量Ｆｅ及び素材特徴量Ｆｒを特徴量記憶部２３に記憶してもよい。

　（変形例４）
　同時間帯に複数のカメラにより撮影された複数の素材データＤｒが存在する場合、学習データ生成装置１０のラベリング部５４は、複数の素材データＤｒのいずれかで定めた重要区間と同一時間帯の他の素材データＤｒの映像区間を、重要区間とみなしてもよい。

　図１１は、３台のカメラにより同時間帯で撮影された素材データＤｒ（素材データａ、素材データｂ、素材データｃ）と、これらの素材データＤｒから生成された編集データＤｅとの一致区間を表した図である。編集データＤｅは、素材データａの区間ａ１、素材データｂの区間ｂ２、素材データｃの区間ｃ３に夫々一致する区間を含んでいる。また、各素材データＤｒには、時系列での撮影日時を表すメタデータが含まれている。

　この場合、ラベリング部５４は、素材データａの区間ａ１、素材データｂの区間ｂ２、及び素材データｃの区間ｃ３を重要区間とみなすと共に、当該重要区間と同時間帯に撮影された他の素材データＤｒの映像区間についても重要区間とみなす。そして、ラベリング部５４は、素材データａ～素材データｃの夫々に対するラベルデータＤＬを生成する。具体的には、ラベリング部５４は、素材データａの区間ａ１と同時間帯に撮影された素材データｂの区間ｂ１と素材データｃの区間ｃ１とを、重要区間とみなす。また、ラベリング部５４は、素材データｂの区間ｂ２と同時間帯に撮影された素材データａの区間ａ２と素材データｃの区間ｃ２とを、重要区間とみなす。さらに、ラベリング部５４は、素材データｃの区間ｃ３と同時間帯に撮影された素材データａの区間ａ３と素材データｂの区間ｂ３とを、重要区間とみなす。

　本変形例によれば、ラベリング部５４は、重要区間のラベリングを効率的かつ的確に実行することができる。

　（変形例５）
　識別装置４０は、同時間帯に複数のカメラにより撮影された複数の映像データを示す入力データＤ１が入力された場合、１つの映像データに対して識別した重要区間と同時間帯の他の映像データの映像区間についても重要区間であると識別してもよい。

　この場合、識別装置４０の識別部５８は、入力データＤ１が示す少なくとも１つの映像データに対して識別器を適用することで重要区間を識別する。そして、識別部５８は、１つの映像データに対して重要区間を識別した場合、他の映像データの同時間帯の映像区間を、重要区間として識別する。このようにすることで、識別装置４０は、入力された複数の映像データから重要区間を効率的かつ的確に特定することができる。

　（変形例６）
　学習データ生成装置１０は、ラベルデータＤＬの生成に加えて、重要区間の直前の区間に対して当該重要区間の予兆を表す区間（「予兆区間」とも呼ぶ。）とする第２のラベルデータを生成してもよい。

　図１２は、素材データＤｒにおける予兆区間と重要区間とを明示した図である。また、図１２では、素材データＤｒから抽出したシーンＤのみからなる編集データＤｅが示されている。この場合、素材データＤｒは、例えば、監視カメラの映像データであり、編集データＤｅは、素材データＤｒから犯罪シーンなどの重要部分を抽出した映像データである。

　この場合、ラベリング部５４は、照合部５３が一致区間と判定したシーンＤに相当する映像区間を重要区間とするラベルデータＤＬを生成すると共に、シーンＤの直前のシーンＥに相当する映像区間を予兆区間とする第２のラベルデータを生成する。そして、ラベリング部５４は、生成した第２のラベルデータを、ラベルデータＤＬに付加してラベルデータ記憶部２４に記憶する。この場合、ラベリング部５４は、例えば、重要区間の直前の所定時間長の区間を、予兆区間として定める。上述の所定時間長は、予め定められた時間長であってもよく、対象となる重要区間の時間長に基づき決定される時間長であってもよい。

　このように生成された予兆区間に関する第２のラベルデータは、学習装置３０による識別器の学習に好適に使用される。例えば、学習装置３０の学習部５６は、第２のラベルデータを参照し、重要区間に加えて、又は、重要区間に加えて、予兆区間を識別するように識別器の学習を行い、学習により得られたパラメータをパラメータ記憶部２５に記憶する。これにより、学習装置３０は、予兆区間を識別する識別器の学習を好適に実行することができる。

　また、識別装置４０の識別部５８は、パラメータ記憶部２５に記憶されたパラメータを用いて識別器を構成する。これにより、識別部５８は、入力データＤ１が示す映像データを、上述の識別器に入力することで、予兆区間を好適に識別することができる。そして、出力部５９は、識別器により予兆区間と判定された映像データを出力装置６０に出力する場合に、重要シーンへ移行する予兆がある旨の通知を行う。これにより、出力部５９は、重要シーンの見逃し等を好適に抑制するようにユーザに注意喚起することができる。

　（変形例７）
　学習データ生成装置１０は、ラベルデータＤＬの生成に加えて、素材データＤｒを構成する各画像に対して所定の対象物の検出を行い、当該対象物が検出される映像区間を表す第２のラベルデータを生成してもよい。

　この場合、例えば、ラベリング部５４は、生成するラベルデータＤＬに対応する素材データＤｒを構成する各画像に対し、画像認識処理を実行することで、所定の対象物の検出を行う。この対象物は、予め定められた物体であって、特定の人物（選手）であってもよく、特定のマーク、建物、器具などの任意の物であってもよい。そして、ラベリング部５４は、対象物を検出する区間を示す第２のラベルデータを生成する。そして、ラベリング部５４は、生成した第２のラベルデータを、ラベルデータＤＬに付加してラベルデータ記憶部２４に記憶する。

　このように生成された第２のラベルデータは、学習装置３０による識別器の学習に好適に使用される。例えば、学習装置３０の学習部５６は、ラベルデータＤＬ及び第２のラベルデータを参照し、対象物が検出される重要区間を識別するように識別器の学習を行い、学習により得られたパラメータをパラメータ記憶部２５に記憶する。この場合、識別装置４０は、パラメータ記憶部２５に記憶されたパラメータを用いて識別器を構成することで、入力データＤ１が示す映像データから、対象物が検出される重要区間を好適に識別することができる。

　＜第２実施形態＞
　図１３は、第２実施形態に係る学習データ生成装置１０Ａの概略構成を示す。学習データ生成装置１０Ａは、照合部５３Ａと、ラベリング部５４Ａとを備える。

　第２実施形態に係る学習データ生成装置１０Ａは、素材特徴量Ｆｒと編集特徴量Ｆｅとを照合することにより、編集データＤｅに用いられた重要区間に関するラベルデータＤＬを、ユーザ入力によらず好適に生成することができる。

　その他、上記の各実施形態（変形例を含む、以下同じ）の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。

［付記１］
　映像データ又は音データの少なくとも一方を含む素材データの特徴量と、前記素材データを編集した編集データの特徴量とを照合することで、前記素材データと前記編集データとで一致する一致区間の照合を行う照合部と、
　前記一致区間を重要区間とし、前記一致区間以外の区間を非重要区間として定める情報を、前記素材データに対するラベルデータとして生成するラベリング部と、
を有する学習データ生成装置。

［付記２］
　前記素材データと、前記編集データとを取得する取得部と、
　前記素材データの特徴量と、前記編集データの特徴量とを抽出する特徴抽出部と、
をさらに有する、付記１に記載の学習データ生成装置。

［付記３］
　前記ラベリング部は、前記重要区間の各々に対する学習の重みを示す重み付け情報を、前記ラベルデータに付加する、付記１または２に記載の学習データ生成装置。

［付記４］
　前記ラベリング部は、前記編集データにおいて使用される回数に基づき、前記重要区間の各々の重みを決定した前記重み付け情報を、前記ラベルデータに付加する、付記３に記載の学習データ生成装置。

［付記５］
　前記ラベリング部は、前記編集データの属性情報に基づき生成した前記重み付け情報を、前記ラベルデータに付加する、付記３に記載の学習データ生成装置。

［付記６］
　前記属性情報は、前記編集データの視聴率に関する情報、前記編集データの時間長に関する情報、又は前記編集データの時系列での重要度を示す情報である、付記５に記載の学習データ生成装置。

［付記７］
　前記編集データは、複数の素材データを編集したデータであり、
　前記照合部は、前記編集データの特徴量と、前記複数の素材データの各々の特徴量とを照合することで、前記複数の素材データの各々と前記編集データとで一致する一致区間の照合を行い、
　前記ラベリング部は、前記複数の素材データの各々に対する前記ラベルデータを生成する、付記１～６のいずれか一項に記載の学習データ生成装置。

［付記８］
　前記複数の素材データは、同時間帯に異なるカメラにより撮影された映像データであり、
　前記ラベリング部は、前記複数の素材データのいずれかにおいて前記一致区間が存在する場合、同一時間帯となる他の前記素材データの区間を前記重要区間として定める、付記７に記載の学習データ生成装置。

［付記９］
　前記ラベリング部は、前記重要区間の直前の区間に対して当該重要区間の予兆を表す区間とする第２のラベルデータを生成する、付記１～８のいずれか一項に記載の学習データ生成装置。

［付記１０］
　前記ラベリング部は、前記素材データを構成する各画像に対して所定の対象物の検出を行い、当該対象物が検出される区間を表す第２のラベルデータを生成する、付記１～８のいずれか一項に記載の学習データ生成装置。

［付記１１］
　付記１～１０のいずれか一項に記載の学習データ生成装置が生成したラベルデータと、当該ラベルデータに対応する素材データとの組み合わせを取得する取得部と、
　前記取得部が取得したラベルデータと前記素材データとの組み合わせに基づき、
　映像データ又は音データの少なくとも一方を含むデータから重要区間と非重要区間とを識別する学習モデルの学習を行う学習部と、
を有する学習装置。

［付記１２］
　前記学習部は、前記重要区間の合計長に基づき前記非重要区間の合計長を短縮した素材データに基づき、前記学習モデルの学習を行う、付記１１に記載の学習装置。

［付記１３］
　前記ラベルデータには、前記重要区間の各々に対する学習の重みを示す重み付け情報が付加されており、
　前記学習部は、前記重み付け情報に基づき、前記学習モデルの学習を行う、付記１１または１２に記載の学習装置。

［付記１４］
　前記ラベルデータには、前記重要区間の予兆を表す区間を示す第２のラベルデータが付加されており、
　前記学習部は、前記第２のラベルデータに基づき、前記学習モデルの学習を行う、付記１１～１３のいずれか一項に記載の学習装置。

［付記１５］
　映像データ又は音データの少なくとも一方を含む入力データを取得する取得部と、
　付記１１～１４のいずれか一項に記載の学習装置が学習した学習モデルに前記入力データを入力することで、前記入力データに含まれる重要区間を識別する識別部と、
を有する識別装置。

［付記１６］
　前記識別部は、前記入力データが示す１の映像データと異なるカメラにより撮影された他の映像データに対し、前記１の映像データの重要区間と同一時間帯に対応する前記他の映像データの区間を、重要区間として識別する、付記１５に記載の識別装置。

［付記１７］
　前記識別部は、請求項１４に記載の学習装置が学習した学習モデルに前記入力データを入力することで、前記入力データに含まれる重要区間の予兆を表す区間を識別する、付記１５または１６に記載の識別装置。

［付記１８］
　前記重要区間又は前記予兆を表す区間に属する前記入力データの出力を行う場合に、所定の通知を行う出力部をさらに有する、付記１７に記載の識別装置。

［付記１９］
　学習データ生成装置が実行する生成方法であって、
　映像データ又は音データの少なくとも一方を含む素材データの特徴量と、前記素材データを編集した編集データの特徴量とを照合することで、前記素材データと前記編集データとで一致する一致区間の照合を行い、
　前記一致区間を重要区間とし、前記一致区間以外の区間を非重要区間として定める情報を、前記素材データに対するラベルデータとして生成する、
生成方法。

［付記２０］
　映像データ又は音データの少なくとも一方を含む素材データの特徴量と、前記素材データを編集した編集データの特徴量とを照合することで、前記素材データと前記編集データとで一致する一致区間の照合を行う照合部と、
　前記一致区間を重要区間とし、前記一致区間以外の区間を非重要区間として定める情報を、前記素材データに対するラベルデータとして生成するラベリング部
としてコンピュータを機能させるプログラムを格納する記憶媒体。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。

　１０、１０Ａ　学習データ生成装置
　１１、３１、４１　プロセッサ
　１２、３２、４２　メモリ
　１３、３３、４３　インターフェース
　２０　記憶装置
　３０　学習装置
　４０　識別装置
　１００　ダイジェスト生成システム

Claims

　映像データ又は音データの少なくとも一方を含む素材データの特徴量と、前記素材データを編集した編集データの特徴量とを照合することで、前記素材データと前記編集データとで一致する一致区間の照合を行う照合部と、
　前記一致区間を重要区間とし、前記一致区間以外の区間を非重要区間として定める情報を、前記素材データに対するラベルデータとして生成するラベリング部と、
を有する学習データ生成装置。
　前記素材データと、前記編集データとを取得する取得部と、
　前記素材データの特徴量と、前記編集データの特徴量とを抽出する特徴抽出部と、
をさらに有する、請求項１に記載の学習データ生成装置。
　前記ラベリング部は、前記重要区間の各々に対する学習の重みを示す重み付け情報を、前記ラベルデータに付加する、請求項１または２に記載の学習データ生成装置。
　前記ラベリング部は、前記編集データにおいて使用される回数に基づき、前記重要区間の各々の重みを決定した前記重み付け情報を、前記ラベルデータに付加する、請求項３に記載の学習データ生成装置。
　前記ラベリング部は、前記編集データの属性情報に基づき生成した前記重み付け情報を、前記ラベルデータに付加する、請求項３に記載の学習データ生成装置。
　前記属性情報は、前記編集データの視聴率に関する情報、前記編集データの時間長に関する情報、又は前記編集データの時系列での重要度を示す情報である、請求項５に記載の学習データ生成装置。
　前記編集データは、複数の素材データを編集したデータであり、
　前記照合部は、前記編集データの特徴量と、前記複数の素材データの各々の特徴量とを照合することで、前記複数の素材データの各々と前記編集データとで一致する一致区間の照合を行い、
　前記ラベリング部は、前記複数の素材データの各々に対する前記ラベルデータを生成する、請求項１～６のいずれか一項に記載の学習データ生成装置。
　前記複数の素材データは、同時間帯に異なるカメラにより撮影された映像データであり、
　前記ラベリング部は、前記複数の素材データのいずれかにおいて前記一致区間が存在する場合、同一時間帯となる他の前記素材データの区間を前記重要区間として定める、請求項７に記載の学習データ生成装置。
　前記ラベリング部は、前記重要区間の直前の区間に対して当該重要区間の予兆を表す区間とする第２のラベルデータを生成する、請求項１～８のいずれか一項に記載の学習データ生成装置。
　前記ラベリング部は、前記素材データを構成する各画像に対して所定の対象物の検出を行い、当該対象物が検出される区間を表す第２のラベルデータを生成する、請求項１～８のいずれか一項に記載の学習データ生成装置。
　請求項１～１０のいずれか一項に記載の学習データ生成装置が生成したラベルデータと、当該ラベルデータに対応する素材データとの組み合わせを取得する取得部と、
　前記取得部が取得したラベルデータと前記素材データとの組み合わせに基づき、
　映像データ又は音データの少なくとも一方を含むデータから重要区間と非重要区間とを識別する学習モデルの学習を行う学習部と、
を有する学習装置。
　前記学習部は、前記重要区間の合計長に基づき前記非重要区間の合計長を短縮した素材データに基づき、前記学習モデルの学習を行う、請求項１１に記載の学習装置。
　前記ラベルデータには、前記重要区間の各々に対する学習の重みを示す重み付け情報が付加されており、
　前記学習部は、前記重み付け情報に基づき、前記学習モデルの学習を行う、請求項１１または１２に記載の学習装置。
　前記ラベルデータには、前記重要区間の予兆を表す区間を示す第２のラベルデータが付加されており、
　前記学習部は、前記第２のラベルデータに基づき、前記学習モデルの学習を行う、請求項１１～１３のいずれか一項に記載の学習装置。
　映像データ又は音データの少なくとも一方を含む入力データを取得する取得部と、
　請求項１１～１４のいずれか一項に記載の学習装置が学習した学習モデルに前記入力データを入力することで、前記入力データに含まれる重要区間を識別する識別部と、
を有する識別装置。
　前記識別部は、前記入力データが示す１の映像データと異なるカメラにより撮影された他の映像データに対し、前記１の映像データの重要区間と同一時間帯に対応する前記他の映像データの区間を、重要区間として識別する、請求項１５に記載の識別装置。
　前記識別部は、請求項１４に記載の学習装置が学習した学習モデルに前記入力データを入力することで、前記入力データに含まれる重要区間の予兆を表す区間を識別する、請求項１５または１６に記載の識別装置。
　前記重要区間又は前記予兆を表す区間に属する前記入力データの出力を行う場合に、所定の通知を行う出力部をさらに有する、請求項１７に記載の識別装置。
　学習データ生成装置が実行する生成方法であって、
　映像データ又は音データの少なくとも一方を含む素材データの特徴量と、前記素材データを編集した編集データの特徴量とを照合することで、前記素材データと前記編集データとで一致する一致区間の照合を行い、
　前記一致区間を重要区間とし、前記一致区間以外の区間を非重要区間として定める情報を、前記素材データに対するラベルデータとして生成する、
生成方法。
　映像データ又は音データの少なくとも一方を含む素材データの特徴量と、前記素材データを編集した編集データの特徴量とを照合することで、前記素材データと前記編集データとで一致する一致区間の照合を行う照合部と、
　前記一致区間を重要区間とし、前記一致区間以外の区間を非重要区間として定める情報を、前記素材データに対するラベルデータとして生成するラベリング部
としてコンピュータを機能させるプログラムを格納する記憶媒体。