WO2022074788A1

WO2022074788A1 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: WO2022074788A1
Application number: PCT/JP2020/038143
Authority: WO
Inventors: 建一郎上木; 琢也山本; 晴菜磯部
Original assignee: ソニーグループ株式会社
Priority date: 2020-10-08
Filing date: 2020-10-08
Publication date: 2022-04-14
Also published as: CN116438792A; EP4207749A4; US20230353846A1; EP4207749A1

Abstract

情報処理装置（１００）は、シーン抽出部（１３３３）と、生成部（１３４）と、を備える。シーン抽出部（１３３３）は、ダイジェスト動画を生成するための複数の生成ルールのそれぞれに基づき、動画コンテンツに関するコンテンツ情報から複数のダイジェストシーンを抽出する。生成部（１３４）は、複数のダイジェストシーンを連結してダイジェスト動画を生成する。

Description

情報処理装置、情報処理方法及びプログラム

　本開示は、情報処理装置、情報処理方法及びプログラムに関する。

　画像などのコンテンツから、ユーザの指示に基づいてダイジェスト動画像を生成する技術が開発されている。上記技術として、例えば下記の特許文献１に記載の技術が挙げられる。

特開２０１１－８２９１５号公報

　ダイジェスト動画像は、上記技術のように、大量の画像コンテンツや見逃したコンテンツの概要を確認するため以外にも、コンテンツ視聴の訴求を目的として生成される。

　コンテンツ視聴の訴求を目的としたダイジェスト動画像を容易に生成可能な技術が望まれるが、従来の技術では、コンテンツの内容を確認するためのダイジェスト動画像を生成するため、コンテンツ視聴の訴求効果を得ることが困難である。

　そこで、本開示では、コンテンツ視聴の訴求効果が高いダイジェスト動画像をより容易に生成することができる情報処理装置、情報処理方法及びプログラムを提案する。

　なお、上記課題又は目的は、本明細書に開示される複数の実施形態が解決し得、又は達成し得る複数の課題又は目的の１つに過ぎない。

　本開示によれば、情報処理装置が提供される。情報処理装置は、シーン抽出部と、生成部と、を備える。シーン抽出部は、ダイジェスト動画を生成するための複数の生成ルールのそれぞれに基づき、動画コンテンツに関するコンテンツ情報から複数のダイジェストシーンを抽出する。生成部は、前記複数のダイジェストシーンを連結して前記ダイジェスト動画を生成する。

本開示の実施形態に係る情報処理方法の概要を説明するための図である。本開示の実施形態に係る情報処理システムの構成例を示す図である。本開示の実施形態に係る解析装置の構成例を示す図である。本開示の実施形態に係る情報処理装置の構成例を示す図である。本開示の実施形態に係るルール取得部が取得するルール情報の一例について説明するための図である。本開示の実施形態に係る条件取得部が取得する生成条件の一例を説明するための図である。本開示の実施形態に係る関連情報解析部が解析する関連情報の一例について説明するための図である。本開示の実施形態に係る関連情報解析部による解析結果の一例を示す図である。本開示の実施形態に係るシーン解析部による解析の一例を説明するための図である。本開示の実施形態に係るシーン解析部による解析の他の例を説明するための図である本開示の実施形態に係るリズム解析部による解析について説明するための図である。本開示の実施形態に係るブロック決定部が決定したブロックの長さの一例について説明するための図である。本開示の実施形態に係るテロップ決定部が決定したテロップの一例について説明するための図である。本開示の実施形態に係るルール補正部による補正の一例を説明するための図である。本開示の実施形態に係る生成部が生成するダイジェスト動画の一例を示す図である。本開示の実施形態に係る情報処理装置が実行する生成処理の一例を示すフローチャートである。情報処理装置、解析装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

　以下に添付図面を参照しながら、本開示の実施形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　以下に説明される１又は複数の実施形態（実施例、変形例を含む）は、各々が独立に実施されることが可能である。一方で、以下に説明される複数の実施形態は少なくとも一部が他の実施形態の少なくとも一部と適宜組み合わせて実施されてもよい。これら複数の実施形態は、互いに異なる新規な特徴を含み得る。したがって、これら複数の実施形態は、互いに異なる目的又は課題を解決することに寄与し得、互いに異なる効果を奏し得る。

　なお、説明は以下の順序で行うものとする。
　　１．情報処理方法の概要
　　２．情報処理システム
　　　２．１．情報処理システムの構成例
　　　２．２．解析装置の構成例
　　　２．３．情報処理装置の構成例
　　３．生成処理
　　４．その他の実施形態
　　５．ハードウェア構成
　　６．むすび

　＜＜１．情報処理方法の概要＞＞
　本実施形態に係る情報処理方法に係る処理を、本実施形態に係る情報処理装置１００が行う場合を例に挙げて説明する。

　なお、以下では、本実施形態に係る情報処理方法が、ドラマのダイジェスト動画を生成する場合に適用される例を、主に説明する。本実施形態に係る情報処理方法の適用例は、これに限定されない。本実施形態に係る情報処理方法が適用される例は、ドラマのダイジェスト動画生成に限定されず、例えば、映画などの動画コンテンツのダイジェスト動画生成にも適用され得る。

　図１は、本開示の実施形態に係る情報処理方法の概要を説明するための図である。本実施形態に係る情報処理方法では、情報処理装置１００が、ドラマのダイジェスト動画を生成する。

　図１に示すように、情報処理装置１００は、ダイジェスト動画の生成対象である動画コンテンツ（以下、ソースコンテンツとも記載する）を取得する（ステップＳ１）。情報処理装置１００は、例えば、ユーザからアップロードされるソースコンテンツを取得する。

　次に、情報処理装置１００は、複数のルール情報を取得する（ステップＳ２）。ルール情報は、ダイジェスト動画を生成するための生成ルールを含む。

　図１の例では、情報処理装置１００は、ダイジェスト動画を３つのブロックＢ１～Ｂ３に分けて生成する。この場合、情報処理装置１００は、ブロックＢ１～Ｂ３ごとにルールＲ１～Ｒ３を取得する。ルールＲ１～Ｒ３は、例えば、ソースコンテンツから、ダイジェスト動画を生成するためのコンテンツデータを抽出するためのルールである。例えば、ルールＲ１は「主役アップ」、ルールＲ２は「敵役アップ」、ルールＲ３は「盛り上がり」である。

　続いて、情報処理装置１００は、取得したソースコンテンツを解析する（ステップＳ３）。情報処理装置１００は、例えば、動画コンテンツを解析する解析装置（図示省略）を用いてソースコンテンツを解析する。情報処理装置１００は、音声認識、顔認識、テロップ認識等により、シーン分割され、シーンごとに関連する情報が例えばタグとして付与された解析後のソースコンテンツ（以下、解析コンテンツとも記載する）を取得する。

　情報処理装置１００は、解析コンテンツから複数のルール情報（ルールＲ１～Ｒ３）それぞれにあったシーンをブロックＢ１～Ｂ３ごとに選択する（ステップＳ４）。なお、選択するシーンは複数であってもよい。情報処理装置１００は、選択した少なくとも１つのシーンを、各ブロックＢ１～Ｂ３のコンテンツデータ（ダイジェストシーンの一例）として抽出する。

　例えば、ブロックＢ１に対応するルールＲ１は「主役アップ」である。そこで、情報処理装置１００は、ブロックＢ１に対応するコンテンツデータとして、主役に関する情報が付与されたシーンを選択する。同様に、情報処理装置１００は、ブロックＢ２に対応するコンテンツデータとして、敵役に関する情報が付与されたシーンを選択する。

　また、情報処理装置１００は、ブロックＢ３に対応するコンテンツデータとして、最も盛り上がっていると推定されるシーンを選択する。情報処理装置１００は、例えば、ソースコンテンツに付与された音情報に基づき、盛り上がりシーンを推定する。例えば情報処理装置１００は、ソースコンテンツの音の波長の上下、換言すると振幅の振れ幅が一番大きいシーンを盛り上がりシーンとして推定する。

　情報処理装置１００は、抽出したコンテンツデータを連結してダイジェスト動画を生成する（ステップＳ５）。このとき、情報処理装置１００は、ソースコンテンツに関する文字情報を例えばテロップとしてダイジェスト動画に付与してもよい。

　ダイジェスト動画を生成する方法として、従来は、例えば「盛り上がり」等の１つのルール情報に基づいて生成されていた。このように１つのルール情報に基づいて生成されたダイジェスト動画は、ソースコンテンツの概要把握には適しているが、ソースコンテンツの視聴を訴求する効果が高いとは言えなかった。

　そこで、本開示の情報処理方法では、情報処理装置１００が、複数のルール情報それぞれに基づき、ソースコンテンツから複数のコンテンツデータを抽出し、抽出した複数のコンテンツデータを連結してダイジェスト動画を生成する。

　情報処理装置１００が、複数のルール情報に基づいて複数のコンテンツデータを抽出することで、例えば、ドラマの登場人物や盛り上がりシーンなど、コンテンツ視聴の訴求効果が高いシーンを含むダイジェスト動画を生成することが可能となる。

　このように、本実施形態に係る情報処理方法では、情報処理装置１００が、コンテンツ視聴の訴求効果がより高いダイジェスト動画をより容易に生成することができる。

　＜＜２．情報処理システム＞＞
　＜２．１．情報処理システムの構成例＞
　図２は、本開示の実施形態に係る情報処理システムの構成例を示す図である。図２に示す情報処理システムは、情報処理装置１００と、解析装置２００と、端末装置３００と、を含む。情報処理装置１００、解析装置２００及び端末装置３００は、例えば、図２に示すように、ネットワークを介して接続される。

　（情報処理装置１００）
　情報処理装置１００は、ソースコンテンツのダイジェスト動画を生成する装置（例えば、サーバ装置）である。情報処理装置１００は、例えば、端末装置３００からソースコンテンツ及び複数のルール情報を取得する。情報処理装置１００は、取得したソースコンテンツを、解析装置２００を用いて解析し、解析コンテンツを生成する。情報処理装置１００は、ルール情報に基づき、解析コンテンツからダイジェスト動画を生成し、端末装置３００に出力する。

　（解析装置２００）
　解析装置２００は、ソースコンテンツを解析する装置（例えば、サーバ装置）である。解析装置２００は、情報処理装置１００が取得したソースコンテンツの音声認識、顔認識及びテロップ認識等を行い、各種情報（メタデータ）を生成する。解析装置２００は、ソースコンテンツを複数のシーンに分割し、シーンごとに情報をタグとして付与する。解析装置２００は、ソースコンテンツの解析結果を情報処理装置１００に出力する。

　（端末装置３００）
　端末装置３００は、ユーザが操作する装置であり、例えばスマートフォン、ＰＣ（personal　computer）、タブレット端末等の情報処理端末である。端末装置３００は、ソースコンテンツやルール情報、後述するテロップなどダイジェスト動画生成のための情報を情報処理装置１００に出力する。端末装置３００は、情報処理装置１００が生成したダイジェスト動画を取得する。

　＜２．２．解析装置の構成例＞
　図３は、本開示の実施形態に係る解析装置２００の構成例を示す図である。図３に示す解析装置２００は、Ｉ／Ｆ（interface）部２１０と、デコーダ部２２０と、制御部２３０と、記憶部２４０と、を備える。

　（Ｉ／Ｆ部２１０）
　Ｉ／Ｆ部２１０は、ネットワークを介して情報処理装置１００と接続する通信部である。Ｉ／Ｆ部２１０は、例えば、ＮＩＣ（Network　Interface　Card）等によって実現される。Ｉ／Ｆ部２１０は、情報処理装置１００からソースコンテンツである動画像データを受信する。

　（デコーダ部２２０）
　デコーダ部２２０は、Ｉ／Ｆ部２１０が受信した動画像データを復号する復号部である。

　（制御部２３０）
　制御部２３０は、解析装置２００の各部を制御する。制御部２３０は、例えば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）等によって解析装置２００内部に記憶されたプログラムがＲＡＭ（Random　Access　Memory）等を作業領域として実行されることにより実現される。また、制御部２３０は、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現される。

　制御部２３０は、映像認識部２３１と、音声認識部２３２と、発話認識部２３３と、テロップ認識部２３４と、顔認識部２３５と、人物識別部２３６と、タグ抽出部２３７と、シーン分割部２３８と、解析データ生成部２３９と、を有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部２３０の内部構成は、図３に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部２３０が有する各処理部の接続関係は、図３に示した接続関係に限られず、他の接続関係であってもよい。

　（映像認識部２３１）
　映像認識部２３１は、動画像データから例えば画像の切り替わりを認識する。また、映像認識部２３１が、フレーム画像に写る物体の認識や、撮影場所（屋内、屋外、部屋、オフィス、公園など）の認識を行うようにしてもよい。

　（音声認識部２３２）
　音声認識部２３２は、ソースコンテンツに含まれる音情報から音声を抽出し、抽出した音声に対して音声認識（ＡＳＲ：Ａｕｔｏｍａｔｉｃ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ）を行うことで、発話のテキスト化を行う。例えば、ソースコンテンツがドラマの場合、音声認識部２３２は、ドラマの登場人物の台詞を抽出し、抽出した台詞のテキスト化を行う。

　（発話認識部２３３）
　発話認識部２３３は、音声認識部２３２によりテキスト化された発話に対して、例えば自然言語理解（ＮＬＵ：Ｎａｔｕｒａｌ　Ｌａｎｇｕａｇｅ　Ｕｎｄｅｒｓｔａｎｄｉｎｇ）を行い、発話を、名詞や動詞や修飾語等に分類する。

　（テロップ認識部２３４）
　テロップ認識部２３４は、例えば動画像データに重畳された文字情報（テロップ）を抽出する。テロップ認識部２３４は、例えば抽出した文字情報に対してＮＬＵを行い、文字情報を名詞や動詞や修飾語等に分類し得る。テロップ認識部２３４は、動画像データに重畳された文字情報以外にも、例えば看板や印刷物等、フレーム画像に含まれる文字情報を認識し得る。

　（顔認識部２３５）
　顔認識部２３５は、フレーム画像に映る人物の顔を認識する。

　（人物識別部２３６）
　人物識別部２３６は、顔認識部２３５が顔であると認識した人物を識別する。例えば、人物識別部２３６は、人物に関する情報（例えば名前等）と顔を対応付けた人物データベース（図示省略）を参照し、顔認識部２３５が認識した顔に対応する人物に関する情報（以下、人物情報とも記載する）を取得することで人物を識別する。

　あるいは、人物識別部２３６は、テロップ認識部２３４が認識した文字情報から人物情報を抽出することで人物を識別するようにしてもよい。この場合、人物識別部２３６は、識別した人物の顔と人物情報を対応付けて人物データベースを更新し得る。

　（タグ抽出部２３７）
　タグ抽出部２３７は、発話認識部２３３が認識した発話情報、テロップ認識部２３４が認識した文字情報及び人物識別部２３６が識別した人物情報からタグとして動画データに付与するメタデータを抽出する。

　（シーン分割部２３８）
　シーン分割部２３８は、映像認識部２３１による映像認識結果、音声認識部２３２が認識した音声情報、発話認識部２３３が認識した発話情報及びテロップ認識部２３４が認識した文字情報等に基づき、動画像データを複数のシーンに分割する。例えば、シーン分割部２３８は、映像が切り替わるタイミングでシーンを分割する。また、シーン分割部２３８は、例えば、「次は」、「ここからは」等の文字情報や発話情報に基づき、シーンを分割してもよい。また、シーン分割部２３８は、音声情報や発話情報を解析し、同じような内容の話がなされているかどうかに応じてシーンを分割する。

　（解析データ生成部２３９）
　解析データ生成部２３９は、例えばシーン分割部２３８が分割したシーンごとにタグとしてメタデータ及び人物情報を付与することで解析データを生成する。解析データ生成部２３９は、生成した解析データを解析コンテンツとしてＩ／Ｆ部２１０を介して情報処理装置１００に送信する。

　（記憶部２４０）
　記憶部２４０は、制御部２３０によって実行されるプログラムを記憶したり、プログラムの実行に必要なデータを記憶したりする記録装置である。また、記憶部２４０は、制御部２３０による処理のためにデータを一時的に記憶する。また、記憶部２４０は、人物データベース等、制御部２３０による処理に使用する情報を記憶する。

　＜２．３．情報処理装置の構成例＞
　図４は、本開示の実施形態に係る情報処理装置１００の構成例を示す図である。図４に示す情報処理装置１００は、Ｉ／Ｆ（interface）部１１０と、記憶部１２０と、制御部１３０と、を備える。

　（Ｉ／Ｆ部１１０）
　Ｉ／Ｆ部２１０は、ネットワークを介して解析装置２００及び端末装置３００と接続する通信部である。Ｉ／Ｆ部１１０は、例えば、ＮＩＣ（Network　Interface　Card）等によって実現される。

　（記憶部１２０）
　記憶部１２０は、制御部１３０によって実行されるプログラムを記憶したり、プログラムの実行に必要なデータを記憶したりする記録装置である。また、記憶部１２０は、制御部１３０による処理のためにデータを一時的に記憶する。

　（制御部１３０）
　制御部１３０は、情報処理装置１００の各部を制御する。制御部１３０は、例えば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）等によって情報処理装置１００内部に記憶されたプログラムがＲＡＭ（Random　Access　Memory）等を作業領域として実行されることにより実現される。また、制御部１３０は、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現される。

　制御部１３０は、取得部１３１と、解析部１３２と、決定部１３３と、生成部１３４と、を有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図４に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１３０が有する各処理部の接続関係は、図４に示した接続関係に限られず、他の接続関係であってもよい。

　（取得部１３１）
　取得部１３１は、端末装置３００及び記憶部１２０からダイジェスト動画の生成に使用する情報を取得する。取得部１３１は、コンテンツ取得部１３３１と、ルール取得部１３１２と、条件取得部１３１３と、関連情報取得部１３１４と、を有する。

　（コンテンツ取得部１３３１）
　コンテンツ取得部１３３１は、端末装置３００からダイジェスト動画の生成に使用する動画コンテンツをソースコンテンツとして取得する。コンテンツ取得部１３３１が取得する動画コンテンツは、１つであってもよく、２以上であってもよい。例えば、動画コンテンツが連続ドラマや映画シリーズである場合、コンテンツ取得部１３３１は、ドラマの複数話や映画の複数シリーズをソースコンテンツとして取得し得る。複数の動画コンテンツを取得した場合、コンテンツ取得部１３３１は、取得した複数の動画コンテンツを連結して１つのソースコンテンツとして扱うようにしてもよい。

　（ルール取得部１３１２）
　ルール取得部１３１２は、ダイジェスト動画の生成に使用する生成ルールである複数のルール情報を取得する。ルール取得部１３１２は、端末装置３００からユーザが指示する複数のルール情報を取得する。

　ここで、図５を用いてルール取得部１３１２が取得する複数のルール情報の一例について説明する。図５は、本開示の実施形態に係るルール取得部１３１２が取得するルール情報の一例について説明するための図である。

　ルール取得部１３１２は、ダイジェスト動画のブロック数（ここでは５）と同じ数のルール情報を取得する。図５の例では、ルール取得部１３１２は、複数のルール情報としてルールＲ１～Ｒ５を取得する。

　１つのルール情報には複数のルール（以下、詳細ルールとも記載する）が含まれ得る。例えば、ルールＲ１には、「主人公のソロアップ」、「副主人公のソロアップ」及び「味方側サブキャストのソロアップ」の３つの詳細ルールが含まれる。各詳細ルールには例えば優先度が設定される。ルールＲ１では、「主人公のソロアップ」、「副主人公のソロアップ」及び「味方側サブキャストのソロアップ」の順に高い優先度が設定されている。なお、図５に示す優先度は数字が小さい程、優先度が高いものとする。

　１つのルール情報に含まれる詳細ルールの数は３つに限定されず、２つ以下であっても４つ以上であってもよい。

　ルール取得部１３１２は、ダイジェスト動画を複数に分割したブロックごとに複数のルール情報を取得する。

　ルール情報には、「主人公」や「副主人公」等、ソースコンテンツの登場人物に関する情報が含まれる。また、ルール情報には、「ストーリー主役が属するグループ」や「敵」、「味方」等、登場人物同士の関係を表す人間関係情報（例えば、後述する人物関係図）に基づく情報が含まれる。この情報は、人間関係情報に基づき、複数の登場人物をグループに分類した場合に、所定の登場人物（例えば、ストーリー主役等）と同じグループに属する登場人物を抽出するための情報である。なお、ここでは、「ストーリー主役」とは、「主人公」を除き、動画コンテンツに最も多く（長く）出演する登場人物であるものとする。

　ルール情報には、登場人物の数や画面に占める大きさ（例えば「ソロアップ」）、及び、登場人物の登場時間（例えば「出演時間順」）の少なくとも１つに応じた生成ルールが含まれる。

　また、ルール情報には、「盛り上がりが大きい」等、動画コンテンツの盛り上がりに応じた生成ルールが含まれる。なお、詳細は後述するが、情報処理装置１００は、例えば動画コンテンツの音情報に基づき、動画コンテンツの「盛り上がり」を推定する。

　このように、ルール情報は、ブロック毎に適したコンテンツデータを抽出するための生成ルールが含まれる。

　（条件取得部１３１３）
　図４に戻る。条件取得部１３１３は、ダイジェスト動画の生成条件を取得する。条件取得部１３１３は、例えば生成するダイジェスト動画の長さ（時間）や、分割するブロック数を端末装置３００から取得する。

　条件取得部１３１３は、例えばダイジェスト動画に付与する音情報を端末装置３００から取得する。音情報は、例えばダイジェスト動画のＢＧＭとなる楽曲等である。

　また、条件取得部１３１３は、各ブロックの長さやダイジェスト動画におけるストーリー中の盛り上がりに関する情報を取得する。

　ここで、図６を用いて条件取得部１３１３が取得する生成条件の一例について説明する。図６は、本開示の実施形態に係る条件取得部１３１３が取得する生成条件の一例を説明するための図である。

　ダイジェスト動画の長さ及び分割するブロック数を取得した条件取得部１３１３は、取得した条件に応じて、各ブロックの長さや生成するダイジェスト動画におけるストーリーの盛り上がり条件を、生成条件として取得する。

　図６の例では、ダイジェスト動画の長さが３０秒、分割ブロック数が５つという生成条件を条件取得部１３１３が取得したものとする。この場合、条件取得部１３１３は、５つの各ブロックＢ１～Ｂ５の長さの条件を取得する。

　このとき、条件取得部１３１３は、ブロックの長さの条件として一定の範囲を有する生成条件を取得する。例えば、条件取得部１３１３は、ブロックＢ１の長さの条件として２～７秒を生成条件として取得する。このように、条件取得部１３１３が一定の範囲の時間をブロックの長さの条件として取得することで、情報処理装置１００は、後述するように、ダイジェスト動画を音情報（例えばＢＧＭ）のリズムに合わせて分割することができる。

　また、条件取得部１３１３は、ダイジェスト動画におけるストーリー中の盛り上がりを生成条件（以下、盛り上がり条件とも記載する）として取得する。例えば、図６では、条件取得部１３１３は、ブロックＢ１から徐々に盛り上がりが大きくなり、ブロックＢ４で最も盛り上がりが大きくなる生成条件を取得する。

　条件取得部１３１３は、上記生成条件を、例えば記憶部１２０から取得する。この場合、記憶部１２０には、ダイジェスト動画の長さ及びブロック数と、上記生成条件と、を対応付けた情報が記憶されているものとする。

　なお、条件取得部１３１３は、例えば音情報に基づき、盛り上がり条件を取得するようにしてもよい。例えば、条件取得部１３１３は、音情報（例えばＢＧＭ）の音の大きさ、換言すると振幅の大きさから盛り上がり条件を取得するようにしてもよい。この場合、条件取得部１３１３は、音が小さいブロックの盛り上がりが小さく、音が大きいブロックの盛り上がりが大きくなる盛り上がり条件を取得する。

　（関連情報取得部１３１４）
　図４に戻る。関連情報取得部１３１４は、ソースコンテンツに関連する情報を例えばネットワークに接続する他の装置（図示省略）から取得する。関連情報取得部１３１４は、例えばソースコンテンツの公式サイトからソースコンテンツのあらすじや人物関係図等のコンテンツ関連情報を取得する。また、関連情報取得部１３１４は、例えば番組表等から、ソースコンテンツに関する記載をコンテンツ関連情報として取得する。ソースコンテンツのあらすじや番組表等のソースコンテンツに関する記載等を文字コンテンツとも記載する。

　（解析部１３２）
　解析部１３２は、取得部１３１が取得した各情報の解析を行う。解析部１３２は、コンテンツ解析部１３２１と、リズム解析部１３２２と、シーン解析部１３２３と、関連情報解析部１３２４と、を有する。

　（コンテンツ解析部１３２１）
　コンテンツ解析部１３２１は、解析装置２００を使用して、ソースコンテンツの解析を行う。コンテンツ解析部１３２１は、解析装置２００による解析に加えて、ダイジェスト動画を生成するためのコンテンツ解析を行い得る。例えば、コンテンツ解析部１３２１は、出演者の出演時間の累計を算出する。

　（関連情報解析部１３２４）
　関連情報解析部１３２４は、関連情報取得部１３１４が取得した関連情報を解析する。関連情報解析部１３２４は、例えばソースコンテンツのあらすじや番組表などの文字情報に対してＮＬＵを行い、文字情報を名詞や動詞や修飾語等に分類し得る。

　また、関連情報解析部１３２４は、例えば人物関係図から登場人物の重要度や関係等、登場人物に関する解析を行う。図７を用いて、関連情報解析部１３２４が解析する関連情報について説明する。

　図７は、本開示の実施形態に係る関連情報解析部１３２４が解析する関連情報の一例について説明するための図である。

　関連情報解析部１３２４は、例えば人物関係図から登場人物の重要度を分類する。人物関係図の写真の大きさや位置から、登場人物の重要度、例えば主人公か、メインキャストかサブキャストかを解析する。例えば、図７では、関連情報解析部１３２４は、写真が最も大きい「ＡＡ　ＡＡ」を主人公に分類する。また、関連情報解析部１３２４は、次に写真が大きい登場人物（例えば「ＥＥ　ＥＥ」や「ＢＢ　ＢＢ」）をメインキャストに分類し、写真が小さい登場人物（例えば「ＤＤ　ＤＤ」）をサブキャストに分類する。

　また、関連情報解析部１３２４は、例えば人物関係図から登場人物を複数のグループに分類する。関連情報解析部１３２４は、例えば、同じ枠内に配置された登場人物を１つのグループに分類する。図７の例では、関連情報解析部１３２４は、「○○機器」と記載された枠内に配置される登場人物（例えば、「ＡＡ　ＡＡ」や「ＢＢ　ＢＢ」）を同じグループＧ１に分類する。また、「××メーカー」と記載された枠内に配置される登場人物（例えば「ＥＥ　ＥＥ」や「ＦＦ　ＦＦ」）を同じグループＧ２に分類する。

　また、関連情報解析部１３２４は、例えば人物関係図から登場人物の関係を分類する。関連情報解析部１３２４は、例えば人物関係図に含まれる、例えば、「敵」や「Ｖ．Ｓ．」、「ライバル」といった文字情報や、対立を表すマーク等から、登場人物の関係を「味方」や「敵」に分類する。

　図７の例では、関連情報解析部１３２４は、主人公と同じグループＧ１に属する登場人物（例えば「ＢＢ　ＢＢ」）を主人公との関係において「味方」に分類する。また、関連情報解析部１３２４は、グループＧ１（「○○機器」）と敵対を表すマークが付されたグループＧ２（「××メーカー」）に属する登場人物（例えば「ＥＥ　ＥＥ」）を「敵」に分類する。

　図８は、本開示の実施形態に係る関連情報解析部１３２４による解析結果の一例を示す図である。図８の例では、関連情報解析部１３２４は、出演者ごとに役名、所属グループ、重要度及び関係について解析を行う。なお、図８では、コンテンツ解析部１３２１が算出した出演時間についても示している。

　（シーン解析部１３２３）
　図４に戻る。シーン解析部１３２３は、コンテンツ解析部１３２１による解析結果やソースコンテンツの音情報等に基づき、ソースコンテンツの各シーンを解析する。

　図９は、本開示の実施形態に係るシーン解析部１３２３による解析の一例を説明するための図である。シーン解析部１３２３は、ソースコンテンツの音情報を解析し、ソースコンテンツの中で最も盛り上がるシーンを推定して「盛り上がりシーン」に分類する。

　シーン解析部１３２３は、ソースコンテンツの音の波長から波長の上下幅（振幅）が一番大きいシーンを「盛り上がりシーン」に分類する。図９に示す波形のうち、領域Ｍ１、Ｍ２の振幅が他の領域の振幅より大きいが、シーン解析部１３２３は、最も振幅が大きい領域Ｍ１を含むシーンを「盛り上がりシーン」に分類する。なお、シーン解析部１３２３が複数のシーンを「盛り上がりシーン」に分類してもよい。例えば、シーン解析部１３２３が領域Ｍ１、Ｍ２を含むシーンをそれぞれ「盛り上がりシーン」に分類してもよい。この場合、シーン解析部１３２３は、振幅の大きい順に順位付けして「盛り上がりシーン」を分類し得る。例えば、音が大きいシーンとしては、「主人公」等の登場人物が大きな声をだしたシーンやＢＧＭが大きなシーン等が挙げられる。

　シーン解析部１３２３は、「盛り上がりシーン」以外にもシーンごとに種々の分類を行う。図１０は、本開示の実施形態に係るシーン解析部１３２３による解析の他の例を説明するための図である。

　図１０に示すように、シーン解析部１３２３は、シーンごとに、登場人物や登場人物の所属グループ、登場人物の画面に占める割合（画面占有）、ショット等を分類する。

　例えば、シーン解析部１３２３は、シーン＃１１では、「グループＧ１」に「ＡＡ　ＡＡ」が登場すると解析する。また、シーン解析部１３２３は、「ＡＡ　ＡＡ」が画面に占める割合が小さく、全身が画面に映る「フルショット」であると解析する。また、シーン解析部１３２３は、音情報から、シーン＃１１が「盛り上がり」シーンであると解析する。

　（リズム解析部１３２２）
　図４に戻る。リズム解析部１３２２は、ダイジェスト動画に付与する音情報（以下、単に楽曲とも記載する）のリズムを解析する。例えば、リズム解析部１３２２は、楽曲の拍や拍子を解析する。

　図１１は、本開示の実施形態に係るリズム解析部１３２２による解析について説明するための図である。図１１に示すように、楽曲は一定のリズムが刻まれる。リズム解析部１３２２は、一定のリズムで刻まれる拍を検出する。また、拍は、「強拍」、「中拍」、「弱拍」等が一定周期で繰り返される。リズム解析部１３２２は、この一定周期で繰り返される「強拍」と「弱拍」を「拍子」として検出する。

　なお、情報処理装置１００は、リズム解析部１３２２で検出した拍に基づき、ダイジェスト動画を複数のブロックに分割する。ブロックの分割の詳細については後述する。

　（決定部１３３）
　図４に戻る。決定部１３３は、取得部１３１が取得した各情報、及び、解析部１３２による解析結果に基づき、ダイジェスト動画の生成に使用する各情報を決定する。決定部１３３は、ブロック決定部１３３１と、テロップ決定部１３３２と、シーン決定部１３３３と、を有する。

　（ブロック決定部１３３１）
　ブロック決定部１３３１は、条件取得部１３１３が取得したブロックの長さに関する生成条件と、リズム解析部１３２２が解析したＢＧＭのリズムと、に応じてブロックの長さを決定する。ブロック決定部１３３１は、ＢＧＭの拍に合わせてブロックの長さを決定する。

　図１２は、本開示の実施形態に係るブロック決定部１３３１が決定したブロックの長さの一例について説明するための図である。ブロック決定部１３３１は、条件取得部１３１３が取得したブロックの長さの条件である範囲内で、ＢＧＭの拍に合わせてブロックの長さを決定する。

　例えば、ブロックＢ１の長さの条件は２～７秒である（図６参照）。そこで、ブロック決定部１３３１は、リズム解析部１３２２が解析したＢＧＭの拍のタイミングでブロックＢ１の長さを決定する。図１２では、ブロック決定部１３３１は、ブロックＢ１の長さを２秒に決定する。ブロック決定部１３３１は、ブロックＢ２～Ｂ５も同様にして長さを決定する。

　（テロップ決定部１３３２）
　図４に戻る。テロップ決定部１３３２は、関連情報解析部１３２４が解析したソースコンテンツに関する文字情報に基づき、ダイジェスト動画に重畳するテロップを決定する。テロップ決定部１３３２は、例えば、ソースコンテンツのあらすじや番組表に含まれる文言から、ブロックごとに複数のテロップを決定する。

　図１３は、本開示の実施形態に係るテロップ決定部１３３２が決定したテロップの一例について説明するための図である。テロップ決定部１３３２は、ソースコンテンツのあらすじや番組表に含まれる文言から、ブロックＢ１～Ｂ５のテロップを決定する。

　このとき、テロップ決定部１３３２は、ブロックＢ１～Ｂ５の長さに応じてテロップを決定し得る。例えば、ブロックＢ１の長さは２秒であるため、テロップ決定部１３３２は、ブロックＢ１のテロップの長さ（文字数）が所定値以下になるように、ブロックＢ１のテロップを決定する。

　なお、ここでは、テロップ決定部１３３２が、ブロックＢ１～Ｂ５の長さ（時間）に応じてテロップを決定するとしたが、これに限定されない。例えば、テロップ決定部１３３２が決定したテロップの長さ（文字数）及びＢＧＭのリズムに応じて、ブロック決定部１３３１が、ブロックの長さの条件に合うように、各ブロックの長さを決定するようにしてもよい。

　（シーン決定部１３３３）
　図４に戻る。シーン決定部１３３３は、ルール取得部１３１２が取得したルール情報に基づき、ブロックごとにダイジェスト動画の生成に使用するシーンを決定（抽出）する。シーン決定部１３３３は、ルール補正部１３３３ａを有する。

　（ルール補正部１３３３ａ）
　ルール補正部１３３３ａは、テロップ決定部１３３２が決定したテロップに合わせてルール情報を補正する。例えば、テロップ決定部１３３２が決定したテロップにソースコンテンツの登場人物の名前が含まれる場合がある。この場合、テロップを重畳するブロックに当該登場人物が登場しないとダイジェスト動画の視聴者が違和感を抱く恐れがある。

　このように、テロップに含まれるキーワード（例えば、人物名や地名など）にシーンが合わないとダイジェスト動画の視聴者に違和感を与える可能性がある場合がある。この場合、ルール補正部１３３３ａは、テロップに含まれるキーワードに関するシーンが抽出されるようにルール情報を補正する。

　図１４は、本開示の実施形態に係るルール補正部１３３３ａによる補正の一例を説明するための図である。

　図１３に示すように、テロップ決定部１３３２が決定したテロップのうち、ブロックＢ２、Ｂ３に対応するテロップにソースコンテンツの登場人物名が含まれる。

　そこで、図１４に示すように、ルール補正部１３３３ａは、ブロックＢ２、Ｂ３に対応するルール情報（ルールＲ２、Ｒ３）を補正する。例えば、ブロックＢ２に対応するテロップには登場人物「ＨＨ　ＨＨ」の名前が含まれる。そこで、ルール補正部１３３３ａは、ルールＲ２を、「ＨＨ　ＨＨ」に関連するシーンが抽出されるように補正する。例えば、ルール補正部１３３３ａは、ルールＲ２を優先順位が高い方から「ＨＨのソロ」、「ＨＨが属するグループのサブキャストを出演時間順に出す」、「ＨＨ／サブキャストを含む複数人が出演するシーン」の３つに変更する。

　同様に、ルール補正部１３３３ａは、ルールＲ３の補正を行う。

　図４に戻り、シーン決定部１３３３は、ルール補正部１３３３ａが補正したルール情報に基づき、ダイジェスト動画のブロック毎にシーンを抽出する。

　例えば、シーン決定部１３３３は、ルール情報に含まれる詳細ルールに合うシーンに、優先順位に応じた点数を付与し、点数の高いシーンを、ブロックに対応するコンテンツデータとして抽出する。なお、コンテンツデータは、ダイジェスト動画の生成に使用するデータであり、情報処理装置１００は、後述するように、コンテンツデータを連結してダイジェスト動画を生成する。

　ここで、シーン決定部１３３３は、抽出したシーンの長さがブロックの長さより長い場合、シーンの一部（以下、場面とも記載する）をブロックの長さに合わせて切り取ることでコンテンツデータを生成し得る。

　また、シーン決定部１３３３は、ブロックの長さ（時間）が所定値以上である場合、ブロックを複数のパートに分割し、分割したパートごとに複数のシーンを抽出してもよい。シーン決定部１３３３は、抽出した複数のシーンを連結してブロックに対応するコンテンツデータを生成する。

　なお、ここでは、シーン決定部１３３３が、詳細ルールの優先順位に応じてシーンに点数をつけることで、ブロック毎にコンテンツデータを抽出するとしたが、これに限定されない。例えば、シーン決定部１３３３が機械学習に基づいてソースコンテンツからブロックごとにコンテンツデータを抽出するようにしてもよい。

　（生成部１３４）
　生成部１３４は、シーン決定部１３３３が決定したコンテンツデータを連結してダイジェスト動画を生成する。

　図１５は、本開示の実施形態に係る生成部１３４が生成するダイジェスト動画の一例を示す図である。生成部１３４は、ブロックＢ１～Ｂ５ごとにシーン決定部１３３３が抽出したコンテンツデータにテロップ決定部１３３２が決定したテロップを重畳し、各コンテンツデータを連結してダイジェスト動画を生成する。

　＜＜３．生成処理＞＞
　次に、情報処理装置１００が実行するダイジェスト動画の生成処理について説明する。図１６は、本開示の実施形態に係る情報処理装置１００が実行する生成処理の一例を示すフローチャートである。情報処理装置１００は、端末装置３００を介してユーザからの指示を受信した場合に、図１６の生成処理を実行する。

　情報処理装置１００は、端末装置３００から１以上の動画コンテンツをソースコンテンツとして取得する（ステップＳ１０１）。また、情報処理装置１００は、複数のルール情報を端末装置３００から取得する（ステップＳ１０２）。

　情報処理装置１００は、端末装置３００から、ダイジェスト動画の生成に使用する生成条件を取得する（ステップＳ１０３）。情報処理装置１００は、ソースコンテンツに関する関連情報を取得する（ステップＳ１０４）。

　次に、情報処理装置１００は、解析装置２００を用いてソースコンテンツを解析する（ステップＳ１０５）。また、情報処理装置１００は、ＢＧＭのリズムを解析する（ステップＳ１０６）。

　情報処理装置１００は、ソースコンテンツのシーンを解析し（ステップＳ１０７）、関連情報を解析する（ステップＳ１０８）。

　情報処理装置１００は、解析結果に基づき、生成条件の範囲でブロックの長さを決定する（ステップＳ１０９）。情報処理装置１００は、関連情報の解析結果に基づき、テロップを決定する（ステップＳ１０８）。

　情報処理装置１００は、決定したテロップに応じてルール情報を補正するか否かを判定する（Ｓ１１１）。

　ルール情報の補正が必要と判定した場合（ステップＳ１１１；Ｙｅｓ）、情報処理装置１００は、テロップに応じてルール情報を補正し、ステップＳ１１３に進む（ステップＳ１１２）。

　ルール情報の補正が不要と判定した場合（ステップＳ１１１；Ｎｏ）、情報処理装置１００は、ルール情報に基づき、各ブロックに対応するコンテンツデータを決定する（ステップＳ１１３）。

　情報処理装置１００は、コンテンツデータを連結してダイジェスト動画を生成する（ステップＳ１１４）。

　＜＜４．その他の実施形態＞＞
　上述した実施形態や変形例に係る処理は、上記実施形態や変形例以外にも種々の異なる形態（変形例）にて実施されてよい。

　上述した実施形態の説明では、情報処理装置１００が動画コンテンツを取得し、解析装置２００を用いて動画コンテンツの解析を行っているが、これに限定されない。情報処理装置１００が、動画コンテンツの代わりに、動画コンテンツの解析結果である解析コンテンツを端末装置３００から取得するようにしてもよい。このように、情報処理装置１００は、ダイジェスト動画を生成する動画コンテンツに関するコンテンツ情報を取得すればよく、動画コンテンツそのものを取得しなくてもよい。

　上述した実施形態の説明では、情報処理装置１００が動画コンテンツに関する文字コンテンツ（例えば、動画コンテンツのあらすじや番組表）からテロップを生成するとしたが、これに限定されない。例えば、情報処理装置１００が、ダイジェスト動画に関するテロップ情報を端末装置３００から取得するようにしてもよい。

　このように、上述した実施形態の説明で、情報処理装置１００が生成するとした情報（解析コンテンツやテロップ等）を、情報処理装置１００が他の装置（例えば端末装置３００）から取得するようにしてもよい。

　あるいは、上述した実施形態の説明で、情報処理装置１００が他の装置（例えば端末装置３００）から取得するとした情報（例えば、ルール情報や生成条件）を、情報処理装置１００自身が生成するようにしてもよい。この場合、情報処理装置１００は、あらかじめ記憶部１２０に記憶された情報に基づいて上記情報を生成してもよく、例えば機械学習を用いて生成してもよい。

　上述した実施形態の説明では、情報処理装置１００が１つの動画コンテンツから１つのダイジェスト動画を生成するが、これに限定されない。情報処理装置１００が複数の動画コンテンツから１つのダイジェスト動画を生成してもよい。

　また、情報処理装置１００が、１つの動画コンテンツから複数のダイジェスト動画を生成するようにしてもよい。この場合、情報処理装置１００は、ダイジェスト動画ごとに異なる複数のルール情報を用いて複数のダイジェスト動画を生成してもよい。あるいは、情報処理装置１００が、同じ複数のルール情報を用いて複数のダイジェスト動画を生成してもよい。この場合、情報処理装置１００は、詳細ルールの重み付けをダイジェスト動画ごとに変更してもよく、あるいは、ブロックの長さやテロップ、ダイジェスト動画の盛り上がり等を複数のダイジェスト動画ごとに変更してもよい。

　また、情報処理装置１００が、複数の動画コンテンツから複数のダイジェスト動画を生成するようにしてもよい。この場合、情報処理装置１００は、複数の動画コンテンツそれぞれに対応するダイジェスト動画を生成してもよく、複数の動画コンテンツを１つのソースコンテンツとして、当該ソースコンテンツから複数のダイジェスト動画を生成するようにしてもよい。

　また、上述した実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

　また、上述してきた実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

　＜＜５．ハードウェア構成＞＞
　上述してきた各実施形態や変形例に係る情報処理装置１００、解析装置２００等の情報機器は、例えば図１７に示すような構成のコンピュータ１０００によって実現される。図１７は、情報処理装置１００、解析装置２００の機能を実現するコンピュータの一例を示すハードウェア構成図である。以下、実施形態に係る情報処理装置１００を例に挙げて説明する。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read　Only　Memory）１３００、ＨＤＤ（Hard　Disk　Drive）１４００、通信インタフェース１５００、及び入出力インタフェース１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る情報処理プログラムを記録する記録媒体である。

　通信インタフェース１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインタフェースである。例えば、ＣＰＵ１１００は、通信インタフェース１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インタフェース１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインタフェースである。例えば、ＣＰＵ１１００は、入出力インタフェース１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インタフェース１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インタフェース１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインタフェースとして機能してもよい。メディアとは、例えばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が実施形態に係る情報処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた情報処理プログラムを実行することにより、制御部１３０等の機能を実現する。また、ＨＤＤ１４００には、本開示に係るプログラムや、記憶部１２０内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

　＜＜６．むすび＞＞
　上述のように、本開示の実施形態によれば、情報処理装置１００は、シーン決定部１３３３（シーン抽出部の一例）と、生成部１３４と、を備える。シーン決定部１３３３は、ダイジェスト動画を生成するための複数のルール情報（生成ルールの一例）のそれぞれに基づき、ソースコンテンツ（動画コンテンツに関するコンテンツ情報の一例）から複数のコンテンツデータ（ダイジェストシーンの一例）を抽出する。生成部１３４は、複数のコンテンツデータを連結してダイジェスト動画を生成する。これにより、情報処理装置１００は、コンテンツ視聴の訴求効果が高いダイジェスト動画をより容易に生成することができる。

　また、本開示の実施形態によれば、情報処理装置１００は、ダイジェスト動画に関連する複数のテロップ（テロップ情報の一例）を取得するテロップ決定部（テロップ取得部の一例）をさらに備える。生成部１３４は、複数のコンテンツデータに対応する複数のテロップをそれぞれ重畳してダイジェスト動画を生成する。これにより、情報処理装置１００は、コンテンツ視聴の訴求効果が高いダイジェスト動画をより容易に生成することができる。

　また、本開示の実施形態によれば、情報処理装置１００は、テロップに応じてルール情報を補正するルール補正部１３３３ａをさらに備える。シーン決定部１３３３は、補正後のルール情報に基づき、コンテンツデータを抽出する。これにより、情報処理装置１００は、テロップの内容に合わせたダイジェスト動画を生成することができる。

　また、本開示の実施形態によれば、情報処理装置１００は、ダイジェスト動画に関連する文字コンテンツから複数のテロップを取得する。これにより、情報処理装置１００は、コンテンツ視聴の訴求効果が高いダイジェスト動画をより容易に生成することができる。

　また、本開示の実施形態によれば、ルール情報は、動画コンテンツの登場人物に関する情報を含む。これにより、情報処理装置１００は、コンテンツ視聴の訴求効果が高いダイジェスト動画をより容易に生成することができる。

　また、本開示の実施形態によれば、ルール情報は、登場人物同士の関係を表す人間関係図（人間関係情報の一例）に基づき、登場人物を含むコンテンツデータを抽出するための情報を含む。これにより、情報処理装置１００は、コンテンツ視聴の訴求効果が高いダイジェスト動画をより容易に生成することができる。

　また、本開示の実施形態によれば、ルール情報は、人間関係図に基づいて複数の登場人物を複数のグループに分類した場合に、所定の登場人物と同じグループに属する登場人物を含むコンテンツデータを抽出するための情報を含む。これにより、情報処理装置１００は、コンテンツ視聴の訴求効果が高いダイジェスト動画をより容易に生成することができる。

　また、本開示の実施形態によれば、ルール情報は、登場人物の数、画面に占める大きさ、及び、登場時間の少なくとも１つに応じて、登場人物を含むコンテンツデータを抽出するための情報を含む。これにより、情報処理装置１００は、コンテンツ視聴の訴求効果が高いダイジェスト動画をより容易に生成することができる。

　また、本開示の実施形態によれば、情報処理装置１００は、動画コンテンツに含まれる音情報に基づき、動画コンテンツの盛り上がりを推定するシーン解析部１３２３（推定部の一例）をさらに備える。ルール情報は、盛り上がりをコンテンツデータとして抽出するための情報を含む。これにより、情報処理装置１００は、少なくとも一部に盛り上がりシーンを含むダイジェスト動画を生成することができる。

　また、本開示の実施形態によれば、情報処理装置１００は、ルール情報の数、ダイジェスト動画の時間、及び、ダイジェスト動画に付与する音楽（ＢＧＭ）に基づき、複数のダイジェストシーンの時間を決定するブロック決定部１３３１（決定部の一例）をさらに備える。これにより、情報処理装置１００は、コンテンツ視聴の訴求効果が高いダイジェスト動画をより容易に生成することができる。

　また、本開示の実施形態によれば、ブロック決定部１３３１は、音楽の拍に合わせて、複数のコンテンツデータの時間を決定する。これにより、情報処理装置１００は、コンテンツデータの切り替わりにおいてダイジェスト動画の視聴者に与える違和感を小さくすることができる。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。

　なお、本技術は以下のような構成も取り得る。
（１）
　ダイジェスト動画を生成するための複数の生成ルールのそれぞれに基づき、動画コンテンツに関するコンテンツ情報から複数のダイジェストシーンを抽出するシーン抽出部と、
　前記複数のダイジェストシーンを連結して前記ダイジェスト動画を生成する生成部と、
　を備える情報処理装置。
（２）
　前記ダイジェスト動画に関連する複数のテロップ情報を取得するテロップ取得部をさらに備え、
　前記生成部は、前記複数のダイジェストシーンに対応する前記複数のテロップ情報をそれぞれ重畳して前記ダイジェスト動画を生成する、
　（１）に記載の情報処理装置。
（３）
　前記テロップ情報に応じて前記生成ルールを補正するルール補正部をさらに備え、
　前記シーン抽出部は、補正後の前記生成ルールに基づき、前記ダイジェストシーンを抽出する、
　（２）に記載の情報処理装置。
（４）
　前記テロップ取得部は、前記ダイジェスト動画に関連する文字コンテンツから前記複数のテロップ情報を取得する、（２）又は（３）に記載の情報処理装置。
（５）
　前記生成ルールは、前記動画コンテンツの登場人物に関する情報を含む、（１）～（４）のいずれか１つに記載の情報処理装置。
（６）
　前記生成ルールは、前記登場人物同士の関係を表す人間関係情報に基づき、前記登場人物を含む前記ダイジェストシーンを抽出するための情報を含む、（５）に記載の情報処理装置。
（７）
　前記生成ルールは、前記人間関係情報に基づいて複数の前記登場人物をグループに分類した場合に、所定の前記登場人物と同じグループに属する前記登場人物を含む前記ダイジェストシーンを抽出するための情報を含む、（６）に記載の情報処理装置。
（８）
　前記生成ルールは、前記登場人物の数、画面に占める大きさ、及び、登場時間の少なくとも１つに応じて、前記登場人物を含む前記ダイジェストシーンを抽出するための情報を含む、（５）～（７）のいずれか１つに記載の情報処理装置。
（９）
　前記動画コンテンツに含まれる音情報に基づき、前記動画コンテンツの盛り上がりを推定する推定部をさらに備え、
　前記生成ルールは、前記盛り上がりを前記ダイジェストシーンとして抽出するための情報を含む、
　（１）～（８）のいずれか１つに記載の情報処理装置。
（１０）
　前記生成ルールの数、前記ダイジェスト動画の時間、及び、前記ダイジェスト動画に付与する音楽に基づき、前記複数のダイジェストシーンの時間を決定する決定部をさらに備える、（１）～（９）のいずれか１つに記載の情報処理装置。
（１１）
　前記決定部は、前記音楽の拍に合わせて、前記複数のダイジェストシーンの時間を決定する、（１０）に記載の情報処理装置。
（１２）
　ダイジェスト動画を生成するための複数の生成ルールのそれぞれに基づき、動画コンテンツに関するコンテンツ情報から複数のダイジェストシーンを抽出し、
　前記複数のダイジェストシーンを連結して前記ダイジェスト動画を生成する、
　情報処理方法。
（１３）
　ダイジェスト動画を生成するための複数の生成ルールのそれぞれに基づき、動画コンテンツに関するコンテンツ情報から複数のダイジェストシーンを抽出し、
　前記複数のダイジェストシーンを連結して前記ダイジェスト動画を生成する、
　ことをコンピュータに実行させるプログラム。

１００　情報処理装置
１１０、２１０　Ｉ／Ｆ部
１２０、２４０　記憶部
１３０、２３０　制御部
１３１　取得部
１３２　解析部
１３３　決定部
１３４　生成部
２００　解析装置
２２０　デコーダ部
３００　端末装置
１３１１　コンテンツ取得部
１３１２　ルール取得部
１３１３　条件取得部
１３１４　関連情報取得部
１３２１　コンテンツ解析部
１３２２　リズム解析部
１３２３　シーン解析部
１３２４　関連情報解析部
１３３１　ブロック決定部
１３３２　テロップ決定部
１３３３　シーン決定部
１３３３ａ　ルール補正部

Claims

　ダイジェスト動画を生成するための複数の生成ルールのそれぞれに基づき、動画コンテンツに関するコンテンツ情報から複数のダイジェストシーンを抽出するシーン抽出部と、
　前記複数のダイジェストシーンを連結して前記ダイジェスト動画を生成する生成部と、
　を備える情報処理装置。
　前記ダイジェスト動画に関連する複数のテロップ情報を取得するテロップ取得部をさらに備え、
　前記生成部は、前記複数のダイジェストシーンに対応する前記複数のテロップ情報をそれぞれ重畳して前記ダイジェスト動画を生成する、
　請求項１に記載の情報処理装置。
　前記テロップ情報に応じて前記生成ルールを補正するルール補正部をさらに備え、
　前記シーン抽出部は、補正後の前記生成ルールに基づき、前記ダイジェストシーンを抽出する、
　請求項２に記載の情報処理装置。
　前記テロップ取得部は、前記ダイジェスト動画に関連する文字コンテンツから前記複数のテロップ情報を取得する、請求項２に記載の情報処理装置。
　前記生成ルールは、前記動画コンテンツの登場人物に関する情報を含む、請求項１に記載の情報処理装置。
　前記生成ルールは、前記登場人物同士の関係を表す人間関係情報に基づき、前記登場人物を含む前記ダイジェストシーンを抽出するための情報を含む、請求項５に記載の情報処理装置。
　前記生成ルールは、前記人間関係情報に基づいて複数の前記登場人物をグループに分類した場合に、所定の前記登場人物と同じグループに属する前記登場人物を含む前記ダイジェストシーンを抽出するための情報を含む、請求項６に記載の情報処理装置。
　前記生成ルールは、前記登場人物の数、画面に占める大きさ、及び、登場時間の少なくとも１つに応じて、前記登場人物を含む前記ダイジェストシーンを抽出するための情報を含む、請求項５に記載の情報処理装置。
　前記動画コンテンツに含まれる音情報に基づき、前記動画コンテンツの盛り上がりを推定する推定部をさらに備え、
　前記生成ルールは、前記盛り上がりを前記ダイジェストシーンとして抽出するための情報を含む、
　請求項１に記載の情報処理装置。
　前記生成ルールの数、前記ダイジェスト動画の時間、及び、前記ダイジェスト動画に付与する音楽に基づき、前記複数のダイジェストシーンの時間を決定する決定部をさらに備える、請求項１に記載の情報処理装置。
　前記決定部は、前記音楽の拍に合わせて、前記複数のダイジェストシーンの時間を決定する、請求項１０に記載の情報処理装置。
　ダイジェスト動画を生成するための複数の生成ルールのそれぞれに基づき、動画コンテンツに関するコンテンツ情報から複数のダイジェストシーンを抽出し、
　前記複数のダイジェストシーンを連結して前記ダイジェスト動画を生成する、
　情報処理方法。
　ダイジェスト動画を生成するための複数の生成ルールのそれぞれに基づき、動画コンテンツに関するコンテンツ情報から複数のダイジェストシーンを抽出し、
　前記複数のダイジェストシーンを連結して前記ダイジェスト動画を生成する、
　ことをコンピュータに実行させるプログラム。