WO2023090040A1

WO2023090040A1 - コメント生成装置、コメント生成方法及びプログラム

Info

Publication number: WO2023090040A1
Application number: PCT/JP2022/039071
Authority: WO
Inventors: 文規本間
Original assignee: ソニーグループ株式会社
Priority date: 2021-11-18
Filing date: 2022-10-20
Publication date: 2023-05-25

Abstract

［課題］対象動画データに記録されているイベントの状態に応じた実況コメントを、適応的なタイミングで動画とともに提供するのに有利な技術を提供する。［解決手段］コメント生成装置は、対象動画データを解析して、対象動画データに記録されている対象イベントに関連付けられる履歴メタ情報を取得する履歴メタ情報取得部と、履歴メタ情報に基づいて対象の実況分類メタ情報を取得し、対象の実況分類メタ情報に対応する対象の実況コメントを決定する実況決定部とを備える。履歴メタ情報は、対象イベントにおいて対象の実況コメントが関連付けられる時点より前のイベント状態に関連付けられた過去のイベントメタ情報及び実況分類メタ情報を含む。イベントメタ情報は、対象イベントの状態に関連するメタ情報であり、実況分類メタ情報は、実況コメントの分類に関連するメタ情報である。

Description

コメント生成装置、コメント生成方法及びプログラム

　本開示は、コメント生成装置、コメント生成方法及びプログラムに関する。

　スポーツの試合等のイベントを記録した動画において、イベント状態に応じたコメントを自動的に生成する装置が知られている。

　例えば特許文献１は、抽出したイベントの内容に応じたコメントを生成することを目的とした装置を開示する。

特開２００５－１６５９４１号公報

　従来提案されているコメント生成装置は、予め定められた固定的なルールに従ってコメントが生成されたり、予め定められたタイミングでコメントが映像に付加されたりする。そのため、生成されるコメントの内容及びコメントの付加タイミングが単調になりやすい。

　予め定められたルールに則ったそのような単調なコメントは、イベント動画を視聴するユーザに退屈さを与えやすく、ユーザの視聴満足感を必ずしも十分には満たせていなかった。

　本開示は、動画データに記録されているイベントの状態に応じた実況コメントを、適応的なタイミングで動画とともに提供するのに有利な技術を提供する。

　本開示の一態様は、対象動画データを解析して、対象動画データに記録されている対象イベントに関連付けられる履歴メタ情報を取得する履歴メタ情報取得部と、履歴メタ情報に基づいて対象の実況分類メタ情報を取得し、対象の実況分類メタ情報に対応する対象の実況コメントを決定する実況決定部と、を備え、履歴メタ情報は、対象イベントにおいて対象の実況コメントが関連付けられる時点より前のイベント状態に関連付けられた過去のイベントメタ情報及び実況分類メタ情報を含み、イベントメタ情報は、対象イベントの状態に関連するメタ情報であり、実況分類メタ情報は、実況コメントの分類に関連するメタ情報である、コメント生成装置に関する。

　実況決定部は、履歴メタ情報に基づいて実況分類メタ情報を出力するように学習された学習済みの実況発行モデルに、対象イベントに関連付けられる履歴メタ情報を入力することで、対象の実況分類メタ情報を取得してもよい。

　学習済みの実況発行モデルは、学習用動画データに記録されている学習用イベントに含まれる学習用対象実況コメントに対応する学習用実況分類メタ情報と、学習用イベントにおいて学習用対象実況コメントが関連付けられる時点より前のイベント状態に関連付けられた学習用履歴メタ情報を実況発行モデルに入力することで取得される実況分類メタ情報と、に基づいて得られてもよい。

　コメント生成装置は、学習用動画データを解析して、学習用動画データに記録されている学習用イベントに含まれる学習用対象実況コメントに対応する学習用実況分類メタ情報を取得する実況分類部と、教師データとして用いられる学習用実況分類メタ情報と、学習用イベントにおいて学習用対象実況コメントが関連付けられる時点より前のイベント状態に関連付けられた学習用履歴メタ情報を実況発行モデルに入力することで取得される実況分類メタ情報と、に基づいて実況発行モデルの学習を行う学習部と、を備えてもよい。

　実況決定部は、リポジトリ部に記憶される複数の実況テンプレートデータの中から、対象の実況分類メタ情報に応じて選択される実況テンプレートデータに基づいて、対象の実況コメントを決定してもよい。

　複数の実況テンプレートデータは、イベントメタ情報に基づいて複数の実況テンプレートデータを出力するように学習された学習済みの実況生成モデルに、イベントメタ情報が入力されることで取得されてもよい。

　コメント生成装置は、ネットワーク上で開示される情報からイベントメタ情報に応じて抽出される学習用実況テンプレートデータを教師データとして使って、実況生成モデルの学習を行う学習部を備えてもよい。

　イベントメタ情報は、人に関連する情報を含んでもよい。

　人に関連する情報は、対象動画データを解析することで得られる人の動きを示す動作情報に基づいて推定される状況メタ情報を含んでもよい。

　状況メタ情報は、イベントのシーン内容を示すシーン情報及びイベントのプレイ内容を示すプレイ情報のうちの少なくともいずれか一方を含んでもよい。

　動作情報は、対象動画データを解析することで得られる人の身体パーツの情報に基づいてもよい。

　動作情報は、対象動画データを解析することで得られる人の移動位置の情報に基づいてもよい。

　人に関連する情報は、人の外観の画像及び人の装着物の画像のうちの少なくともいずれか一方から導出される人を識別する情報を含んでもよい。

　イベントメタ情報は、人には関連しない情報を含んでもよい。

　対象イベントは、スポーツの試合であり、イベントメタ情報は、試合のシーン内容に関するシーン情報、試合のプレイ内容に関するプレイ情報、試合の参加者に関する人識別情報、試合のスコアに関するスコア情報、及び試合の時間に関する時間情報のうちの少なくともいずれか１以上を含んでもよい。

　学習用イベントのジャンルは、対象イベントのジャンルとは異なってもよい。

　対象動画データ及び学習用動画データのうちの一方は実写動画データであり、他方は生成動画データであってもよい。

　本開示の他の態様は、対象動画データを解析して、対象動画データに記録されている対象イベントに関連付けられる履歴メタ情報を取得するステップと、履歴メタ情報に基づいて対象の実況分類メタ情報を取得し、対象の実況分類メタ情報に対応する対象の実況コメントを決定するステップと、を含み、履歴メタ情報は、対象イベントにおいて対象の実況コメントが関連付けられる時点より前のイベント状態に関連付けられた過去のイベントメタ情報及び実況分類メタ情報を含み、イベントメタ情報は、対象イベントの状態に関連するメタ情報であり、実況分類メタ情報は、実況コメントの分類に関連するメタ情報である、コメント生成方法に関する。

　本開示の他の態様は、コンピュータに、対象動画データを解析して、対象動画データに記録されている対象イベントに関連付けられる履歴メタ情報を取得する手順と、履歴メタ情報に基づいて対象の実況分類メタ情報を取得し、対象の実況分類メタ情報に対応する対象の実況コメントを決定する手順と、を実行させ、履歴メタ情報は、対象イベントにおいて対象の実況コメントが関連付けられる時点より前のイベント状態に関連付けられた過去のイベントメタ情報及び実況分類メタ情報を含み、イベントメタ情報は、対象イベントの状態に関連するメタ情報であり、実況分類メタ情報は、実況コメントの分類に関連するメタ情報である、プログラムに関する。

図１は、コメント生成装置のハードウェア構成の典型例を示す図である。図２は、実況テンプレートデータの生成に関わる機能構成の一例を示すブロック図である。図３は、決定実況コメントデータの決定に関わるコメント生成装置の機能構成の一例を示すブロック図である。図４は、イベントメタ情報の概念の一例を示すブロック図である。図５は、プレイ推論モデルの学習処理に関わる機能構成の一例を示すブロック図である。図６は、プレイ推論モデルを使ったプレイ情報の取得処理（推論処理）に関わる機能構成の一例を示すブロック図である。図７は、プレイ推論モデルを用いたプレイ情報の推論処理の他の例に関わる機能構成を示すブロック図である。図８は、シーン推論モデルの学習処理に関わる機能構成の一例を示すブロック図である。図９は、シーン推論モデルを使ったシーン情報の取得処理（推論処理）に関わる機能構成の一例を示すブロック図である。図１０は、顔推論モデルの学習処理に関わる機能構成の一例を示すブロック図である。図１１は、顔推論モデルを使った人識別情報の取得処理（推論処理）に関わる機能構成の一例を示すブロック図である。図１２は、顔推論モデルを用いた人識別情報の推論処理の他の例に関わる機能構成を示すブロック図である。図１３は、背番号推論モデルの学習処理に関わる機能構成の一例を示すブロック図である。図１４は、背番号推論モデルを使った背番号情報の取得処理（推論処理）に関わる機能構成の一例を示すブロック図である。図１５は、スコア推論モデルの学習処理に関わる機能構成の一例を示すブロック図である。図１６は、時間推論モデルの学習処理に関わる機能構成の一例を示すブロック図である。図１７は、スコア推論モデルを使ったスコア情報の取得処理（推論処理）に関わる機能構成の一例を示すブロック図である。図１８は、時間推論モデルを使った時間情報の取得処理（推論処理）に関わる機能構成の一例を示すブロック図である。図１９Ａは、対象動画データのある動画フレームが示す画像例を示す。図１９Ｂは、図１９Ａの動画フレームから検出された顔画像（対象顔画像データ）の一例を示す。図２０Ａは、対象動画データのある動画フレームが示す画像例を示す。図２０Ｂは、図２０Ａの動画フレームを解析することで取得される特徴データ（対象動画解析データ）の一例を示す。図２１Ａは、対象動画データのある動画フレームが示す画像例を示す。図２１Ｂは、図２１Ａの動画フレームを解析することで取得される特徴データ（対象動画解析データｄ）の一例を示す。図２２は、３ＤＣＧ技術に基づく学習用動画データの生成を含む学習用動画解析データの作成例を示すフローチャートである。図２３は、実況生成モデルの学習処理に関わる機能構成の一例を示すブロック図である。図２４は、実況生成モデルを使った実況テンプレートデータの取得処理（推論処理）に関わる機能構成の一例を示すブロック図である。図２５は、実況生成モデルの具体例を示すブロック図である。図２６は、動画データにおけるメタ画像（第１～第５メタ画像）及び実況コメント（第１～第３実況コメント）の時系列例を示す図である。図２７は、実況分類メタ情報の概念の一例を示すブロック図である。図２８は、実況発行モデルの学習処理に関わる機能構成の一例を示すブロック図である。図２９は、実況発行モデルを使って対象の実況コメント（決定実況データ）の決定処理に関わる機能構成の一例を示すブロック図である。図３０は、対象イベント及び実況コメントを出力する出力装置の一例を示す図である。

　以下、図面を参照して本開示の典型的な実施形態について例示的に説明する。

　図１は、コメント生成装置１０のハードウェア構成の典型例を示す図である。

　コメント生成装置１０は、ＣＰＵ（Central Processing Unit）１１、ＧＰＵ（Graphics Processing Unit）１２、ＲＡＭ（Random Access Memory）１３、ストレージ１４及びネットワークＩ／Ｆ（ネットワークインターフェース）１５を備える。コメント生成装置１０が具備するこれらのデバイスは、バス１６を介して相互に接続され、バス１６を介して相互にデータの送受信を行うことができる。

　コメント生成装置１０には、入力装置１７（例えばキーボード及びマウス）、出力装置１８（例えばディスプレイ）及びネットワーク１９（例えばインターネット）が接続される。

　ユーザは、入力装置１７を介してコメント生成装置１０に対するデータ入力を行うことができ、出力装置１８を介してコメント生成装置１０からのデータ出力（例えば映像及び実況コメント）を視覚、聴覚及びその他の感覚を通じて確認することができる。またコメント生成装置１０は、必要に応じて、ネットワーク１９につながっている各種サーバー、通信端末及び他の外部装置との間でデータの送受信を行って、外部装置からの情報の収集及び外部装置に対する情報の提供を行う。

　コメント生成装置１０は、後述のように、動画データに記録されているイベントの映像に対し、イベント状態に応じた適応的タイミングで付される実況コメントを決定する。

　ここで言う「イベント」は、動画として記録可能であり且つ実況コメントとともに提供可能な事象全般を指しうる。典型的には、経時的に状況が変わりうる行事や催し物が「イベント」に該当しうる。

　以下では、主として動画データに記録されているイベントがスポーツの試合である場合について説明する。ただし以下に説明する技術は、動画データが他のイベントを記録する場合にも適宜応用可能である。

　図２は、実況テンプレートデータｄ２の生成に関わる機能構成の一例を示すブロック図である。図３は、決定実況コメントデータｄ５の決定に関わるコメント生成装置１０の機能構成の一例を示すブロック図である。図４は、イベントメタ情報ｄ１の概念の一例を示すブロック図である。

　図２～図４及び後述の各図面に示す各機能ブロックは、任意のハードウェア及び／又はソフトウェアによって適宜構成可能である。

　コメント生成装置１０は、図２に示すように実況生成部２１及び実況リポジトリ部２２を備える。

　実況生成部２１は、イベントメタ情報ｄ１が入力され、入力されたイベントメタ情報ｄ１に対応する実況テンプレートデータｄ２を出力する。

　実況テンプレートデータｄ２は、イベントメタ情報ｄ１に関連するコメント内容に基づくテンプレートデータであり、動画に付される実況コメント（実況文）の基礎データを構成する。

　実況生成部２１から出力される実況テンプレートデータｄ２は、実況リポジトリ部２２（例えば図１に示すストレージ１４）に記憶保持される。実況リポジトリ部２２に記憶される実況テンプレートデータｄ２は、他のデバイスにより、必要に応じて読み出されて使われる。

　コメント生成装置１０は、図３に示すように、解析部２３、実況決定部２４及び出力部２５を更に備える。

　解析部２３は、入力される対象動画データｄ３を解析して、対象動画データｄ３に記録されているスポーツ試合などのイベント（対象イベント）に関連付けられる履歴メタ情報ｄ４を取得して出力する。

　対象動画データｄ３は、リアルタイム動画データであってもよいし、保存済み動画データであってもよい。すなわち対象イベントを撮影している撮像装置（図示省略）から出力される対象動画データｄ３が解析部２３に直接的に入力されてもよいし、対象イベントの終了後に記憶部（例えば図１のストレージ１４）から解析部２３に対象動画データｄ３が入力されてもよい。

　履歴メタ情報ｄ４は、対象イベントにおいて対象の実況コメントが関連付けられる時点より前のイベント状態に関連付けられた過去のイベントメタ情報ｄ１及び実況分類メタ情報を含む。イベントメタ情報ｄ１は、対象イベントの状態に関連するメタ情報である（図４参照）。実況分類メタ情報は、コメント内容に応じた実況コメントの分類に関連するメタ情報である（後述の図２７参照）。このように、対象の実況コメントを得るために、当該対象の実況コメントを基準とした過去のメタ情報（イベントメタ情報ｄ１及び実況分類メタ情報）を含む履歴メタ情報ｄ４が使われる。なお履歴メタ情報ｄ４については後述する。

　実況決定部２４は、解析部２３からの履歴メタ情報ｄ４と、実況リポジトリ部２２からの実況テンプレートデータｄ２とに基づいて、決定実況コメントデータｄ５を決定して出力する。このようにして決定される決定実況コメントデータｄ５は、対象の実況コメントとして最適と考えられる実況コメントを示す。

　出力部２５は、実況決定部２４から出力される決定実況コメントデータｄ５を使った出力処理を行う。その結果、決定実況コメントデータｄ５が示す実況コメントが、対象動画データｄ３に基づく動画とともに、ディスプレイ等の出力装置１８（図１参照）を介して出力され、ユーザに提示される。

　出力部２５は、対象動画データｄ３を任意の手法で取得することができる。対象動画データｄ３は、決定実況コメントデータｄ５と一緒に出力部２５に提供されてもよいし、決定実況コメントデータｄ５とは別個に出力部２５に提供されてもよい。

　なおコメント生成装置１０の機能構成は、上述の図２及び図３に示す例には限定されない。例えば、図２及び図３に示す機能ブロックの一部（例えば実況生成部２１及び／又は実況リポジトリ部２２）が、コメント生成装置１０以外の外部装置によって実現されてもよい。一例として実況リポジトリ部２２が外部装置によって構成される場合、ネットワーク１９（図１参照）を利用した通信を介し、コメント生成装置１０（例えば実況決定部２４）と実況リポジトリ部２２との間でデータの送受信が行われてもよい。

　上述のイベントメタ情報ｄ１は、対象動画データｄ３に記録される対象イベントに応じて決められる様々なタイプの情報を含みうる。対象動画データｄ３に記録されている対象イベントがスポーツの試合の場合、イベントメタ情報ｄ１は、典型的には図４に示す各種情報を含みうる。すなわちプレイ情報Ａ１、シーン情報Ｂ１、人識別情報Ｃ１、背番号情報Ｄ１、スコア情報Ｅ１及び時間情報Ｆ１が、イベントメタ情報ｄ１に含まれうる。

　プレイ情報Ａ１は、試合のプレイ内容に関するイベントメタ情報ｄ１である。例えばラグビーの試合の場合、各プレーヤーの動作（例えばキックやパス）がプレイ情報Ａ１に分類される。

　シーン情報Ｂ１は、試合のシーン内容に関するイベントメタ情報ｄ１である。例えばラグビーの試合の場合、ラインアウトシーンやスクラムシーンがシーン情報Ｂ１に分類される。

　人識別情報Ｃ１は、試合の参加者の識別に関するイベントメタ情報ｄ１である。例えばラグビーの試合の場合、プレーヤー、審判、監督及び観客の顔が人識別情報Ｃ１に分類される。

　背番号情報Ｄ１は、参加者（典型的にはプレーヤー）に割り当てられる識別番号を示すイベントメタ情報ｄ１である。例えばラグビーの試合の場合、プレーヤーのユニフォーム（例えば上着）に表されている背番号が背番号情報Ｄ１に分類される。

　スコア情報Ｅ１は、試合のスコアを示すイベントメタ情報ｄ１である。

　時間情報Ｆ１は、試合の時間情報（例えば試合の経過時間や残り時間）を示すイベントメタ情報ｄ１である。

　なおイベントメタ情報ｄ１に含まれうる情報は上述のプレイ情報Ａ１～時間情報Ｆ１には限定されず、他の情報がイベントメタ情報ｄ１に含まれてもよい。例えばイベントが球技スポーツの試合である場合、球の情報（例えば位置情報）がイベントメタ情報ｄ１に含まれてもよい。また対象動画データｄ３に記録される対象イベントがスポーツの試合ではない場合、イベントメタ情報ｄ１は、上述のプレイ情報Ａ１～時間情報Ｆ１のうちの１以上が含まれなくてもよい。

　次に、対象動画データｄ３からイベントメタ情報ｄ１を得る手法について例示する。

　以下では主にＡＩ（Artificial Intelligence）技術に基づいて、プレイ情報Ａ１、シーン情報Ｂ１、人識別情報Ｃ１、背番号情報Ｄ１、スコア情報Ｅ１及び時間情報Ｆ１を取得する手法の一例について説明する。

　ここで言うＡＩ技術は、いわゆる機械学習技術及び深層学習技術を含みうる概念であり、「教師あり学習」、「教師なし学習」、「強化学習」及び他の学習方式のいずれを採用してもよい。イベントメタ情報ｄ１を取得するために利用可能なＡＩ技術は限定されず、任意のアルゴリズムに基づいてイベントメタ情報ｄ１を導き出すことが可能である。

　したがって以下に説明する手法は一例に過ぎず、他のＡＩ技術（例えば教師なし学習）を実施する装置によってイベントメタ情報ｄ１が取得されてもよいし、ＡＩ技術以外の技術を利用する装置によってイベントメタ情報ｄ１が取得されてもよい。

［プレイ情報］
　図５は、プレイ推論モデル３３の学習処理に関わる機能構成の一例を示すブロック図である。図６は、プレイ推論モデル３３を使ったプレイ情報Ａ１の取得処理（推論処理）に関わる機能構成の一例を示すブロック図である。

　まず、プレイ推論モデル３３の学習処理について説明する。

　図５に示す解析部２３は、フレーム切出部３１、特徴情報取得部３２、プレイ推論モデル３３及び学習部３４を有する。

　フレーム切出部３１は、入力される学習用動画データｄ２１から所望数の動画フレーム（静止画）を切り出す。

　特徴情報取得部３２は、フレーム切出部３１により切り出された各動画フレームの画像解析を行って、各動画フレームにおける特徴情報を表す学習用動画解析データｄ２２を取得する。

　一例として、特徴情報取得部３２は、各動画フレームにおける１又は複数の人の姿勢を表す１以上の座標点の情報を、学習用動画解析データｄ２２として取得することができる。すなわち特徴情報取得部３２は、人の関節やその他の特徴部位を表す座標情報を取得し、当該座標情報に基づいて手、足、その他の身体部位の姿勢を示す学習用動画解析データｄ２２を取得することができる（後述の図２０Ａ及び図２０Ｂ参照）。対象動画フレームから対象の人の身体パーツの情報を取得する際には任意の解析技術（例えば対象の人の関節などの特徴点を検出する「キーポイント検出技術」）を利用することができる。

　なお特徴情報取得部３２によって取得される学習用動画解析データｄ２２は、身体部位の姿勢以外に関する情報を含んでいてもよいし、身体部位の姿勢を示す情報を含んでいなくてもよい。ただし学習用動画解析データｄ２２は、特徴情報取得部３２が学習用動画データｄ２１を解析することで導出可能な情報であって、プレイ情報Ａ１に直接的又は間接的に関連付けられる情報を含む。

　プレイ推論モデル３３は、学習用動画解析データｄ２２に基づいてプレイ情報Ａ１を出力するように学習された学習済みモデルである。プレイ推論モデル３３のアルゴリズムは限定されず、学習用動画解析データｄ２２が入力されることで対応のプレイ情報Ａ１を出力可能な任意のアルゴリズム（ニューラルネットワーク等）を採用可能である。

　プレイ推論モデル３３は、単一の動画フレームから得られる学習用動画解析データｄ２２に基づいてプレイ情報Ａ１を出力してもよいし、複数の動画フレームから得られる学習用動画解析データｄ２２に基づいてプレイ情報Ａ１を出力してもよい。特に経時的に連続変化するプレイを示すプレイ情報Ａ１を取得する場合、プレイ推論モデル３３は、時系列的に連続する複数の動画フレームの学習用動画解析データｄ２２が入力されることで対応のプレイ情報Ａ１を出力してもよい。この場合、プレイ推論モデル３３によって導き出されるプレイ情報Ａ１の導出精度の向上が期待できる。

　学習部３４は、学習用動画解析データｄ２２が入力されたプレイ推論モデル３３から出力されるプレイ情報Ａ１と、教師データｄ２３とに基づいてプレイ推論モデル３３の学習を行う。

　学習部３４による具体的な学習手法は限定されない。典型的には、学習部３４は、教師データｄ２３に対するプレイ情報Ａ１の誤差を評価し、当該誤差が最小になるようにプレイ推論モデル３３を修正することで、プレイ推論モデル３３の学習を行うことができる。なお学習用動画データｄ２１に記録されるプレイ情報の正解を示す教師データｄ２３は、任意の手法で準備可能である。

　次に、プレイ推論モデル３３を使った推論処理について説明する。

　図６に示す解析部２３は、フレーム切出部３１、特徴情報取得部３２及びプレイ推論モデル３３を有する。

　解析部２３に対象動画データｄ３が入力されることで、フレーム切出部３１が対象動画データｄ３から所望数の動画フレームを切り出す。そして特徴情報取得部３２が切り出された各動画フレームの画像解析を行うことで、各動画フレームにおける特徴情報を表す対象動画解析データｄ２４が取得される。対象動画データｄ３から対象動画解析データｄ２４を取得する処理は、学習用動画データｄ２１から学習用動画解析データｄ２２を取得する上述の図５に示す処理と同じであってもよいし、部分的又は全体的に異なっていてもよい。

　このようにして得られる対象動画解析データｄ２４が学習済みのプレイ推論モデル３３に入力されることで、プレイ推論モデル３３からはプレイ情報Ａ１が出力される。

　上述のように本例では、解析部２３に学習用動画データｄ２１を入力することでプレイ推論モデル３３の学習処理が行われ、解析部２３に対象動画データｄ３を入力することでプレイ推論モデル３３で推論処理が行われてプレイ情報Ａ１が取得される。

　なお学習用動画データｄ２１（図５参照）に記録されるイベント（学習用イベント）のジャンルは、対象動画データｄ３（図６参照）に記録されるイベント（対象イベント）のジャンルと同じであってもよいし、異なっていてもよい。

　例えば対象動画データｄ３がラグビーの試合を記録する場合、典型的にはラグビーの試合を記録する学習用動画データｄ２１を用いてプレイ推論モデル３３の学習処理が行われる。

　ただし、ラグビーの試合と類似するプレイを含むイベント（例えばサッカーの試合）を記録する学習用動画データｄ２１が、プレイ推論モデル３３の学習処理において用いられてもよい。例えば、対象動画データｄ３及び学習用動画データｄ２１のうちの一方としてラグビーのキック動画を用いつつ、他方としてサッカーのキック動画を用いることが可能である。また対象動画データｄ３及び学習用動画データｄ２１のうちの一方としてサッカーのスローイン動画を用いつつ、他方としてラグビーのラインアウト動画を用いることが可能である。

　また対象動画データｄ３及び学習用動画データｄ２１のうちの一方が実写動画データであり、他方が生成動画データであってもよい。

　ここで言う生成動画データには、実写動画データ以外の動画データ（典型的にはアニメーション映像やＣＧ映像（Computer Graphics））が含まれうる。

　例えばｅスポーツなどのコンピュータ上のラグビーゲームのプレイ動画を学習用動画データｄ２１として使用して学習が行われたプレイ推論モデル３３を使って、実写のラグビーの試合を記録する対象動画データｄ３からプレイ情報Ａ１が取得されてもよい。逆もまた同様であり、実写のラグビーの試合を記録する学習用動画データｄ２１を使用して学習が行われたプレイ推論モデル３３を使って、コンピュータ上のラグビーゲームのプレイ動画を記録する対象動画データｄ３からプレイ情報Ａ１が取得されてもよい。例えば、対象動画データｄ３及び学習用動画データｄ２１のうちの一方としてラグビーの試合に関する実写キック動画を用いつつ、他方としてラグビーゲームに関するＣＧキック動画を用いることが可能である。

　したがって、お互いに異なるジャンルの実写動画データ及び生成動画データを、対象動画データｄ３及び学習用動画データｄ２１として用いることも可能である。例えば、対象動画データｄ３及び学習用動画データｄ２１のうちの一方が実写のボクシングのプレイ動画（例えばパンチ動画）を記録し、他方がコンピュータ上の格闘ゲームのプレイ動画（例えばパンチ動画）を記録してもよい。

　図７は、プレイ推論モデル３３を用いたプレイ情報Ａ１の推論処理の他の例に関わる機能構成を示すブロック図である。以下に説明する図７に示すアルゴリズムは、例えばＳｌｏｗＦａｓｔと呼ばれる画像解析技術にも応用されている。

　図７に示す例では、解析部２３が動画分類部３７、低フレームレート解析部３８、高フレームレート解析部３９及びプレイ推論モデル３３を具備する。

　動画分類部３７は、複数の動画フレームに基づく対象動画解析データｄ２４が入力され、当該対象動画解析データｄ２４から低フレームレートデータｄ２５及び高フレームレートデータｄ２６を切り出す。

　低フレームレートデータｄ２５は、対象動画解析データｄ２４を構成する多数の動画フレームのうち、相対的に低いフレームレート（例えば１ｆｐｓ（frames per second））に相当する複数動画フレームの集合データである。高フレームレートデータｄ２６は、対象動画解析データｄ２４を構成する多数の動画フレームのうち、相対的に高いフレームレート（例えば３０ｆｐｓ）に相当する複数動画フレームの集合データである。

　そして低フレームレート解析部３８が、低フレームレートデータｄ２５を解析してプレイ空間情報ｄ２７を取得する。一方、高フレームレート解析部３９が、高フレームレートデータｄ２６を解析してプレイ時間情報ｄ２８を取得する。

　なお、低フレームレート解析部３８及び高フレームレート解析部３９との間で低フレームレートデータｄ２５及び高フレームレートデータｄ２６の送受信が行われてもよい。例えば低フレームレート解析部３８は、動画分類部３７からの低フレームレートデータｄ２５だけではなく、高フレームレート解析部３９からのプレイ時間情報ｄ２８にも基づいて、プレイ空間情報ｄ２７を取得してもよい。

　そして、プレイ空間情報ｄ２７及びプレイ時間情報ｄ２８がプレイ推論モデル３３に入力されることで、プレイ推論モデル３３からプレイ情報Ａ１が出力されてもよい。このように対象動画解析データｄ２４から導出される空間的な情報及び時間的な情報の両方の観点に基づいてプレイ情報Ａ１が推論されることで、プレイ情報Ａ１の推論精度の向上が期待できる。

［シーン情報］
　図８は、シーン推論モデル４３の学習処理に関わる機能構成の一例を示すブロック図である。図９は、シーン推論モデル４３を使ったシーン情報Ｂ１の取得処理（推論処理）に関わる機能構成の一例を示すブロック図である。

　まず、シーン推論モデル４３の学習処理について説明する。

　図８に示す解析部２３は、フレーム切出部４１、特徴情報取得部４２、シーン推論モデル４３及び学習部４４を有する。

　フレーム切出部４１は、入力される学習用動画データｄ３１から所望数の動画フレームを切り出す。フレーム切出部４１は、プレイ情報Ａ１の学習及び推論の際に用いられる上述のフレーム切出部３１（図５及び図６参照）と共通に設けられてもよいし、別個に設けられてもよい。

　特徴情報取得部４２は、フレーム切出部４１により切り出された各動画フレームの画像解析を行うことで、各動画フレームにおける特徴情報を表す学習用動画解析データｄ３２を取得する。特徴情報取得部４２は、プレイ情報Ａ１の学習及び推論の際に用いられる上述の特徴情報取得部３２（図５及び図６参照）と共通に設けられてもよいし、別個に設けられてもよい。

　一例として、特徴情報取得部４２は、各動画フレームにおける１又は複数の人の位置を表す１以上の座標点の情報を、学習用動画解析データｄ３２として取得することができる（後述の図２１Ａ及び図２１Ｂ参照）。このような複数の座標点の情報は、複数の人の相対位置に関連付けられるシーン情報Ｂ１を取得するための基礎情報として使用されうる。

　なお特徴情報取得部４２によって取得される学習用動画解析データｄ３２は、複数の人の位置以外に関する情報を含んでいてもよいし、複数の人の位置を示す情報を含んでいなくてもよい。ただし学習用動画解析データｄ３２は、特徴情報取得部４２が学習用動画データｄ３１を解析することで導出可能な情報であって、シーン情報Ｂ１に直接的又は間接的に関連付けられる情報を含む。

　シーン推論モデル４３は、学習用動画解析データｄ３２に基づいてシーン情報Ｂ１を出力するように学習された学習済みモデルである。シーン推論モデル４３のアルゴリズムは限定されず、学習用動画解析データｄ３２が入力されることで対応のシーン情報Ｂ１を出力可能な任意のアルゴリズムを採用可能である。

　シーン推論モデル４３は、単一の動画フレームから得られる学習用動画解析データｄ３２に基づいてシーン情報Ｂ１を出力してもよいし、複数の動画フレームから得られる学習用動画解析データｄ３２に基づいてシーン情報Ｂ１を出力してもよい。特に経時的に連続的に変化するシーンを示すシーン情報Ｂ１を取得する場合、シーン推論モデル４３は、時系列的に連続する複数の動画フレームの学習用動画解析データｄ３２が入力されることで対応のシーン情報Ｂ１を出力してもよい。この場合、シーン推論モデル４３によって導き出されるシーン情報Ｂ１の導出精度の向上が期待できる。

　学習部４４は、学習用動画解析データｄ３２が入力されたシーン推論モデル４３から出力されるシーン情報Ｂ１と、教師データｄ３３とに基づいてシーン推論モデル４３の学習を行う。学習部４４による具体的な学習手法は限定されない。典型的には、学習部４４は、教師データｄ３３に対するシーン情報Ｂ１の誤差を評価し、当該誤差が最小になるようにシーン推論モデル４３を修正することで、シーン推論モデル４３の学習を行うことができる。なお学習用動画データｄ３１に記録されるシーン情報の正解を示す教師データｄ３３は、任意の手法で準備可能である。

　次に、シーン推論モデル４３を使った推論処理について説明する。

　図９に示す解析部２３は、フレーム切出部４１、特徴情報取得部４２及びシーン推論モデル４３を有する。

　解析部２３に対象動画データｄ３が入力されることで、フレーム切出部４１が対象動画データｄ３から所望数の動画フレームを切り出す。そして特徴情報取得部４２が切り出された各動画フレームの画像解析を行うことで、各動画フレームにおける特徴情報を表す対象動画解析データｄ３４が取得される。

　対象動画データｄ３から対象動画解析データｄ３４を取得する処理は、上述の学習用動画データｄ３１（図８参照）から学習用動画解析データｄ３２を取得する処理と同じでもよいし、部分的又は全体的に異なっていてもよい。

　このようにして得られる対象動画解析データｄ３４が学習済みのシーン推論モデル４３に入力されることで、シーン推論モデル４３からはシーン情報Ｂ１が出力される。

　上述のように本例では、解析部２３に学習用動画データｄ３１を入力することでシーン推論モデル４３の学習処理が行われ、解析部２３に対象動画データｄ３を入力することでシーン推論モデル４３で推論処理が行われてシーン情報Ｂ１が取得される。

　なおフレーム切出部４１及び特徴情報取得部４２は、プレイ情報Ａ１の学習及び推論の際に用いられる上述のフレーム切出部３１及び特徴情報取得部３２（図５及び図６参照）と共通に設けられてもよい。この場合、対象動画解析データｄ２４、ｄ３４のそれぞれが特徴情報取得部４２から並列的に出力されてプレイ推論モデル３３及びシーン推論モデル４３に入力され、プレイ情報Ａ１及びシーン情報Ｂ１が並列的に出力されてもよい。

　なお学習用動画データｄ３１に記録される学習用イベントは、プレイ推論モデル３３の学習時に用いられる学習用動画データｄ２１と同様に、対象動画データｄ３と共通する又は共通しないジャンル、対象及び形式を採用しうる。

［人識別情報］
　図１０は、顔推論モデル４７の学習処理に関わる機能構成の一例を示すブロック図である。図１１は、顔推論モデル４７を使った人識別情報Ｃ１の取得処理（推論処理）に関わる機能構成の一例を示すブロック図である。

　まず、顔推論モデル４７の学習処理について説明する。

　図１０に示す解析部２３は、顔推論モデル４７及び学習部４８を有する。

　顔推論モデル４７は、学習用顔画像データｄ３８に基づいて人識別情報Ｃ１を出力するように学習された学習済みモデルである。顔推論モデル４７のアルゴリズムは限定されず、学習用顔画像データｄ３８が入力されることで対応の人識別情報Ｃ１を出力可能な任意のアルゴリズムを採用可能である。

　学習用顔画像データｄ３８は、人識別情報Ｃ１によって特定される人の顔画像を示すデータであれば限定されない。例えばネットワーク１９を介して得られる顔画像データを、学習用顔画像データｄ３８として使用しうる。コメント生成装置１０を構成する任意のデバイス（例えば解析部２３）が、任意のプログラムに従って、学習用顔画像データｄ３８として使用可能な対象の人の顔画像データを、ネットワーク１９を通じて収集してもよい。

　学習用顔画像データｄ３８は、対象動画データｄ３が記録する対象イベントと関連する画像データ（例えば対象イベントと同じジャンルのイベントに関する画像データ）であってもよいし、関連しない画像データであってもよい。

　学習部４８は、学習用顔画像データｄ３８が入力された顔推論モデル４７から出力される人識別情報Ｃ１と、教師データｄ３９とに基づいて顔推論モデル４７の学習を行う。学習部４８による具体的な学習手法は限定されない。典型的には、学習部４８は、教師データｄ３９に対する人識別情報Ｃ１の誤差を評価し、当該誤差が最小になるように顔推論モデル４７を修正することで、顔推論モデル４７の学習を行うことができる。なお学習用顔画像データｄ３８に記録される人識別情報の正解を示す教師データｄ３９は、任意の手法で準備可能である。

　次に、顔推論モデル４７を使った推論処理について説明する。

　図１１に示す解析部２３は、フレーム切出部４９、顔画像検出部５０及び顔推論モデル４７を有する。

　解析部２３に対象動画データｄ３が入力されることで、フレーム切出部４９が対象動画データｄ３から所望数の動画フレームを切り出す。そして顔画像検出部５０が切り出された各動画フレームの画像解析を行うことで、各動画フレームにおける対象顔画像データｄ４０が取得される。対象動画データｄ３から対象顔画像データｄ４０を取得する処理は限定されず、任意の顔認識技術に基づいて各動画フレームから人の顔画像が抜き出される。

　このようにして得られる対象顔画像データｄ４０が学習済みの顔推論モデル４７に入力されることで、顔推論モデル４７からは人識別情報Ｃ１が出力される。

　上述のように本例では、解析部２３に学習用顔画像データｄ３８を入力することで顔推論モデル４７の学習処理が行われ、解析部２３に対象動画データｄ３を入力することで顔推論モデル４７で推論処理が行われて人識別情報Ｃ１が取得される。

　なおフレーム切出部４９は、プレイ情報Ａ１及びシーン情報Ｂ１の学習及び推論の際に用いられる上述のフレーム切出部３１、４１と共通に設けられてもよい。また対象動画データｄ３から、プレイ情報Ａ１、シーン情報Ｂ１及び人識別情報Ｃ１が並列的に取得されてもよい。

　図１２は、顔推論モデル４７を用いた人識別情報Ｃ１の推論処理の他の例に関わる機能構成を示すブロック図である。以下に説明する図１２に示すアルゴリズムは、一例としてＦａｃｅＮｅｔと呼ばれる画像解析技術にも応用されている。

　図１２に示す顔推論モデル４７は、畳み込みニューラルネットワーク（CNN：Convolution Neural Network）４７ａ、畳み込みニューラルネットワーク（CNN）４７ｂ、及びニューラルネットワーク４７ｃを有する。

　顔推論モデル４７には、学習用顔画像データｄ３８及び対象動画データｄ３が入力される。

　学習用顔画像データｄ３８は畳み込みニューラルネットワーク４７ａに入力される。畳み込みニューラルネットワーク４７ａは、学習用顔画像データｄ３８を解析し、学習用顔画像データｄ３８における顔画像特徴量データを出力する。

　同様に、対象動画データｄ３は畳み込みニューラルネットワーク４７ｂに入力される。畳み込みニューラルネットワーク４７ｂは、対象動画データｄ３を解析し、対象動画データｄ３における顔画像特徴量データを出力する。

　学習用顔画像データｄ３８から得られる顔画像特徴量データ及び対象動画データｄ３から得られる顔画像特徴量データは、ニューラルネットワーク４７ｃに入力される。ニューラルネットワーク４７ｃは、学習用顔画像データｄ３８と対象動画データｄ３と間の距離を、畳み込みニューラルネットワーク４７ａ及び畳み込みニューラルネットワーク４７ｂから入力される顔画像特徴量データの近似度に基づいて取得する。ニューラルネットワーク４７ｃは、取得した画像データ間距離に基づいて、対象動画データｄ３の顔画像が示す人が学習用顔画像データｄ３８の顔画像が示す人と同じか否かを判定する。

　顔推論モデル４７は、上述の処理フローに従って複数の人に関する複数の学習用顔画像データｄ３８の中から対象動画データｄ３の顔画像に対応するものを選定し、当該選定結果に基づいて対象動画データｄ３の顔画像に対応する人識別情報Ｃ１を出力する。

　本例の顔推論モデル４７は、上述のように画像間距離に基づいて人識別情報Ｃ１を出力するため、「対象動画データｄ３の顔画像がどのクラスに属するか」という判定処理が不要である。一般に、クラス分類に基づく顔認識処理では、個々人の大量の画像を使ったモデル学習が必要とされる傾向があるのに対し、本例のような画像間距離に基づく顔認識処理では、比較的少ない数の画像から顔認識判定を行うことが可能である。

　したがって本例によれば、学習用顔画像データｄ３８を事前に準備する労力を軽減しつつ、対象動画データｄ３から人識別情報Ｃ１を取得することが可能である。

［背番号情報］
　図１３は、背番号推論モデル５３の学習処理に関わる機能構成の一例を示すブロック図である。図１４は、背番号推論モデル５３を使った背番号情報Ｄ１の取得処理（推論処理）に関わる機能構成の一例を示すブロック図である。

　まず、背番号推論モデル５３の学習処理について説明する。

　図１３に示す解析部２３は、背番号推論モデル５３及び学習部５４を有する。

　背番号推論モデル５３は、学習用背番号画像データｄ４２に基づいて背番号情報Ｄ１を出力するように学習された学習済みモデルである。背番号推論モデル５３のアルゴリズムは限定されず、学習用背番号画像データｄ４２が入力されることで対応の背番号情報Ｄ１を出力可能な任意のアルゴリズムを採用可能である。

　学習用背番号画像データｄ４２は、背番号情報Ｄ１によって特定される背番号を示すデータであれば限定されない。例えばネットワーク１９を介して得られる背番号画像データを、学習用背番号画像データｄ４２として使用しうる。なお学習用背番号画像データｄ４２は、対象動画データｄ３が記録するイベント（対象イベント）と関連する画像データであっても、関連しない画像データであってもよい。

　学習部５４は、学習用背番号画像データｄ４２が入力された背番号推論モデル５３から出力される背番号情報Ｄ１と、教師データｄ４３とに基づいて背番号推論モデル５３の学習を行う。学習部５４による具体的な学習手法は限定されない。典型的には、学習部５４は、教師データｄ４３に対する背番号情報Ｄ１の誤差を評価し、当該誤差が最小になるように背番号推論モデル５３を修正することで、背番号推論モデル５３の学習を行うことができる。なお学習用背番号画像データｄ４２に記録される背番号情報の正解を示す教師データｄ４３は、任意の手法で準備可能である。

　次に、背番号推論モデル５３を使った推論処理について説明する。

　図１４に示す解析部２３は、フレーム切出部５５、背番号画像検出部５６、背番号推論モデル５３及び人推定部５７を有する。

　解析部２３に対象動画データｄ３が入力されることで、フレーム切出部５５が対象動画データｄ３から所望数の動画フレームを切り出す。そして背番号画像検出部５６が切り出された各動画フレームの画像解析を行うことで、各動画フレームにおける対象背番号画像データｄ４４が取得される。対象動画データｄ３から対象背番号画像データｄ４４を取得する処理は限定されず、任意の画像認識技術に基づいて各動画フレームから背番号画像が抜き出される。

　このようにして得られる対象背番号画像データｄ４４が学習済みの背番号推論モデル５３に入力されることで、背番号推論モデル５３からは背番号情報Ｄ１が出力される。

　上述のように本例では、解析部２３に学習用顔画像データｄ３８を入力することで背番号推論モデル５３の学習処理が行われ、解析部２３に対象動画データｄ３を入力することで背番号推論モデル５３で推論処理が行われて背番号情報Ｄ１が取得される。

　なおフレーム切出部５５は、プレイ情報Ａ１、シーン情報Ｂ１及び人識別情報Ｃ１の学習及び推論の際に用いられる上述のフレーム切出部３１、４１、４９と共通に設けられてもよい。また対象動画データｄ３から、プレイ情報Ａ１、シーン情報Ｂ１、人識別情報Ｃ１及び背番号情報Ｄ１が並列的に取得されてもよい。

　背番号情報Ｄ１は、そのままイベントメタ情報ｄ１として出力されてもよいし、更に人識別情報Ｃ１を取得するための基礎情報として用いられてもよい。

　図１４に示す例では、人推定部５７に背番号情報Ｄ１が入力され、人推定部５７が背番号情報Ｄ１から人識別情報Ｃ１を取得して出力する。一例として人推定部５７は、背番号と人識別情報Ｃ１とが対応付けられたデータベース（図示省略）にアクセスし、入力された背番号情報Ｄ１が示す背番号に対応付けられる人識別情報Ｃ１を取得して出力することが可能である。

　このように人識別情報Ｃ１の取得は、上述の顔画像解析（図１１及び図１２）及び背番号解析（図１４）のうちのいずれか一方又は両方に基づいて行うことが可能である。すなわち人を識別する人識別情報Ｃ１は、「顔画像などの人の外観の画像」及び「服等の人が装着する物の画像」のうちの少なくともいずれか一方から導出可能である。

［スコア情報及び時間情報］
　図１５は、スコア推論モデル６０の学習処理に関わる機能構成の一例を示すブロック図である。図１６は、時間推論モデル６２の学習処理に関わる機能構成の一例を示すブロック図である。図１７は、スコア推論モデル６０を使ったスコア情報Ｅ１の取得処理（推論処理）に関わる機能構成の一例を示すブロック図である。図１８は、時間推論モデル６２を使った時間情報Ｆ１の取得処理（推論処理）に関わる機能構成の一例を示すブロック図である。

　まず、スコア推論モデル６０及び時間推論モデル６２の学習処理について説明する。

　図１５に示す解析部２３は、スコア推論モデル６０及び学習部６１を有する。

　スコア推論モデル６０は、学習用スコア画像データｄ４７に基づいてスコア情報Ｅ１を出力するように学習された学習済みモデルである。

　学習部６１は、学習用スコア画像データｄ４７が入力されたスコア推論モデル６０から出力されるスコア情報Ｅ１と、教師データｄ４８とに基づいてスコア推論モデル６０の学習を行う。典型的には、学習部６１は、教師データｄ４８に対するスコア情報Ｅ１の誤差を評価し、当該誤差が最小になるようにスコア推論モデル６０を修正することで、スコア推論モデル６０の学習を行うことができる。

　図１６に示す解析部２３は、時間推論モデル６２及び学習部６３を有する。

　時間推論モデル６２は、学習用時間画像データｄ４９に基づいて時間情報Ｆ１を出力するように学習された学習済みモデルである。

　学習部６３は、学習用時間画像データｄ４９が入力された時間推論モデル６２から出力される時間情報Ｆ１と、教師データｄ５０とに基づいて時間推論モデル６２の学習を行う。典型的には、学習部６１は、教師データｄ５０に対する時間情報Ｆ１の誤差を評価し、当該誤差が最小になるように時間推論モデル６２を修正することで、時間推論モデル６２の学習を行うことができる。

　なおスコア推論モデル６０及び時間推論モデル６２のアルゴリズムは限定されず、スコア画像データ及び時間画像データが入力されることで対応のスコア情報Ｅ１及び時間情報Ｆ１を出力可能な任意のアルゴリズムを採用可能である。

　学習用スコア画像データｄ４７及び学習用時間画像データｄ４９は、それぞれスコア画像及び時間画像を示すデータであれば限定されない。例えばネットワーク１９を介して得られるスコア画像データ及び時間画像データが、学習用スコア画像データｄ４７及び学習用時間画像データｄ４９として使用されてもよい。

　学習用スコア画像データｄ４７及び学習用時間画像データｄ４９は、対象動画データｄ３に記録される対象イベントと関連する画像データであっても、関連しない画像データであってもよい。

　学習部６１及び学習部６３による具体的な学習手法は限定されない。なお、学習用スコア画像データｄ４７及び学習用時間画像データｄ４９に記録されるスコア情報及び時間情報の正解を示す教師データｄ４８及び教師データｄ５０は、任意の手法で準備可能である。

　次に、スコア推論モデル６０及び時間推論モデル６２を使った推論処理について説明する。

　図１７に示す解析部２３は、フレーム切出部６４、スコア画像検出部６５及びスコア推論モデル６０を有する。

　解析部２３に対象動画データｄ３が入力されることで、フレーム切出部６４が対象動画データｄ３から所望数の動画フレームを切り出す。そしてスコア画像検出部６５が切り出された各動画フレームの画像解析を行うことで、各動画フレームにおける対象スコア画像データｄ５１が取得される。

　このようにして得られる対象スコア画像データｄ５１が学習済みのスコア推論モデル６０に入力されることで、スコア推論モデル６０からはスコア情報Ｅ１が出力される。

　図１８に示す解析部２３は、フレーム切出部６６、時間画像検出部６７及び時間推論モデル６２を有する。

　解析部２３に対象動画データｄ３が入力されることで、フレーム切出部６６が対象動画データｄ３から所望数の動画フレームを切り出す。そして時間画像検出部６７が切り出された各動画フレームの画像解析を行うことで、各動画フレームにおける対象時間画像データｄ５２が取得される。

　このようにして得られる対象時間画像データｄ５２が学習済みの時間推論モデル６２に入力されることで、時間推論モデル６２からは時間情報Ｆ１が出力される。

　上述のように本例では、解析部２３に学習用スコア画像データｄ４７を入力することでスコア推論モデル６０の学習処理が行われる。そして解析部２３に対象動画データｄ３を入力することで、スコア推論モデル６０で推論処理が行われてスコア情報Ｅ１が取得される。また解析部２３に学習用時間画像データｄ４９を入力することで時間推論モデル６２の学習処理が行われ、解析部２３に対象動画データｄ３を入力することで時間推論モデル６２で推論処理が行われて時間情報Ｆ１が取得される。

　なお対象動画データｄ３から対象スコア画像データｄ５１及び対象時間画像データｄ５２を取得する処理は限定されず、任意の画像認識技術に基づいて各動画フレームからスコア画像及び時間画像が抜き出される。

　フレーム切出部６４、６６、は、プレイ情報Ａ１、シーン情報Ｂ１、人識別情報Ｃ１及び背番号情報Ｄ１の学習及び推論の際に用いられる上述のフレーム切出部３１、４１、４９、５５と共通に設けられてもよい。また対象動画データｄ３から、プレイ情報Ａ１、シーン情報Ｂ１、人識別情報Ｃ１、背番号情報Ｄ１、スコア情報Ｅ１及び時間情報Ｆ１が並列的に取得されてもよい。

［イベントメタ情報］
　上述のようにイベントメタ情報ｄ１は、人に応じて変わりうる「人に関連する情報」（例えばプレイ情報Ａ１、シーン情報Ｂ１、人識別情報Ｃ１及び背番号情報Ｄ１）と、「人には関連しない情報」（例えばスコア情報Ｅ１及び時間情報Ｆ１）を含みうる。

　特に「イベントのプレイ内容を示すプレイ情報Ａ１」及び「イベントのシーン内容を示すシーン情報Ｂ１」は、動画データを解析することで得られる人の動きを示す動作情報に基づいて推定される状況メタ情報に分類される。

　すなわち動画データを解析することで得られる人の身体パーツの情報に基づく動作情報に応じて、プレイ情報Ａ１を決めることができる。また動画データを解析することで得られる人の移動位置の情報に基づく動作情報に応じて、シーン情報Ｂ１を決めることができる。

　イベントメタ情報ｄ１に含まれるこれらの情報のうちの２以上を共通の対象画像（対象動画フレーム）から同時的に取得可能な場合もあるが、対象画像から単一の情報しか取得できない場合もある。例えば、画像データから人に関連するイベントメタ情報ｄ１を取得する場合、当該画像データに含まれる人の画像の状態に応じて、プレイ情報Ａ１、シーン情報Ｂ１及び人識別情報Ｃ１のうちのいずれか１つのみしか取得できない場合がある。

　図１９Ａ、図２０Ａ及び図２１Ａは、対象動画データｄ３のある動画フレームが示す画像例を示す。図１９Ｂは、図１９Ａの動画フレームから検出された顔画像（対象顔画像データｄ４０）の一例を示す。図２０Ｂは、図２０Ａの動画フレームを解析することで取得される特徴データ（対象動画解析データｄ２４）の一例を示す。図２１Ｂは、図２１Ａの動画フレームを解析することで取得される特徴データ（対象動画解析データｄ３４）の一例を示す。

　例えば、対象動画データｄ３を撮影取得する際のカメラ装置のズームの倍率（画角）によって、プレイ情報Ａ１、シーン情報Ｂ１及び人識別情報Ｃ１のうちのいずれか一つのみしか得られない場合がある。

　図１９Ａに示す対象動画フレームは、人（例えばプレーヤー）の顔の鮮明な画像を含むが、当該人の足等の他の身体パーツの画像が含まれておらず、また他の人の画像が含まれていない。この場合、当該対象動画フレームから顔画像を抜き出して人識別情報Ｃ１を取得することは可能である。しかしながらプレイ情報Ａ１及びシーン情報Ｂ１を当該対象動画フレームから取得することは難しい。

　一方、図２０Ａに示す対象動画フレームは、一人の人全体の身体パーツの鮮明な画像を含むが、当該人の顔の鮮明な画像を含まず、十分な数の他の人の画像を含まない。この場合、当該対象動画フレームから対象の人の身体パーツ（例えば骨格）の情報を画像解析により導き出してプレイ情報Ａ１を取得することは可能である。しかしながらシーン情報Ｂ１及び人識別情報Ｃ１を当該対象動画フレームから取得することは難しい。

　一方、図２１Ａに示す対象動画フレームは、十分な数の人の画像を含むが、個々人の顔の鮮明な画像を含まず、人同士が重なり合うオクルージョンの影響が大きく、個々人の身体パーツの鮮明な画像を含まない。この場合、当該対象動画フレームから各人の位置情報を画像解析により導き出してシーン情報Ｂ１を取得することは可能である。しかしながらプレイ情報Ａ１及び人識別情報Ｃ１を当該対象動画フレームから取得することは難しい。

［学習用画像データ］
　上述のように学習済みモデルを使ってイベントメタ情報ｄ１を取得する場合、モデルの推論精度を向上させるためには、多数の様々な学習用画像データ（学習用動画データを含む）を使ってモデルの学習を行うことが求められる。

　多数の様々な学習用画像データを確保するために、対象動画データｄ３に記録されるイベントと同じジャンルのイベントを記録する画像データに加え、他のジャンルのイベントを記録する画像データを、学習用画像データとして使用してもよい。また実写動画データに加え、生成動画データを学習用画像データとして使用してもよい。

　図２２は、３ＤＣＧ（3 Dimensional Computer Graphics）技術に基づく学習用動画データの生成を含む学習用動画解析データの作成例を示すフローチャートである。

　なお以下に説明する工程（Ｓ１～Ｓ５）の全体がコメント生成装置１０によって実施されてもよいし、一部のみ（例えばＳ５のみ）がコメント生成装置１０によって実施され、他の工程が外部装置によって実施されてもよい。

　まずサンプル画像が取得され（Ｓ１）、当該サンプル画像からモーションデータベースが構築される（Ｓ２）。

　使用可能なサンプル画像は限定されない。例えば複数の撮像装置が異なる撮像方向で同一の人を撮影することで取得される画像を、サンプル画像として用いることができる。この場合、様々な撮像方向で撮影取得される複数画像から、人の姿勢を表す３次元データに基づくモーションデータベースを構築できる。

　このようにして構築されるモーションデータベースは、典型的には人の筋骨格モデルに基づいて構築されるが、他の身体パーツ特性に基づいて構築されてもよい。

　そして人を３次元的に取り囲むように複数のカメラパラメータが設定され（Ｓ３）、カメラパラメータ毎に動画レンダリングが実行される（Ｓ４）。これにより、人の動きを示す動作情報を含む学習用動画データが生成される。

　このようにして得られる学習用動画データの画像解析処理（例えばキーポイント検出技術を利用した姿勢推定処理）を行うことで、学習用対象動画解析データを取得できる（Ｓ５）。

　上述のように生成動画データを学習用画像データとして使用することで、十分な数及びバリエーションの実写の学習用画像データを準備できない場合であっても、推論モデルの学習を適切に行うことが可能であり、推論精度に優れた学習済みモデルを準備できる。

［実況コメント生成］
　図２３は、実況生成モデル７１の学習処理に関わる機能構成の一例を示すブロック図である。図２４は、実況生成モデル７１を使った実況テンプレートデータｄ２の取得処理（推論処理）に関わる機能構成の一例を示すブロック図である。

　まず、実況生成モデル７１の学習処理について説明する。

　図２３に示す実況生成部２１は、実況生成モデル７１及び学習部７２を有する。

　実況生成モデル７１は、イベントメタ情報ｄ１に基づいて複数の実況テンプレートデータｄ２を出力するように学習された学習済みモデルである。実況生成モデル７１のアルゴリズムは限定されず、イベントメタ情報ｄ１が入力されることで対応の実況テンプレートデータｄ２を出力可能な任意のアルゴリズムを採用可能である。

　イベントメタ情報ｄ１は、上述のように複数の情報（例えば上述の図４に示すプレイ情報Ａ１～時間情報Ｆ１）を含みうる。実況生成モデル７１には、イベントメタ情報ｄ１として１又は複数の情報を入力することができる。

　学習部７２は、イベントメタ情報ｄ１が入力された実況生成モデル７１から出力される実況テンプレートデータｄ２と、教師データｄ６１とに基づいて実況生成モデル７１の学習を行う。学習部７２による具体的な学習手法は限定されない。典型的には、学習部７２は、教師データｄ６１に対する実況テンプレートデータｄ２の誤差を評価し、当該誤差が最小になるように実況生成モデル７１を修正することで、実況生成モデル７１の学習を行うことができる。

　イベントメタ情報ｄ１に記録される実況テンプレートデータ（実況コメント）の正解を示す教師データｄ６１は、任意の手法で準備可能である。学習部７２は、例えばネットワーク１９において開示される情報から学習用のイベントメタ情報ｄ１に応じて抽出される実況テンプレートデータを教師データｄ６１として使って、実況生成モデル７１の学習を行うことが可能である。

　次に、実況生成モデル７１を使った推論処理について説明する。

　すなわち、イベントメタ情報ｄ１が実況生成部２１（特に学習済みの実況生成モデル７１）に入力されることで、実況生成モデル７１から複数の実況テンプレートデータｄ２が出力される。

　実況テンプレートデータｄ２の生成のために実況生成モデル７１に入力されるイベントメタ情報ｄ１は、実況生成モデル７１の学習のために実況生成モデル７１に入力されるイベントメタ情報ｄ１と同じであってもよい。また実況生成モデル７１に入力されるイベントメタ情報ｄ１は、既知の情報であり、対象動画データｄ３に記録される対象イベントに応じてユーザにより適宜決定可能である。

　したがって実況コメントの生成処理（すなわち実況生成モデル７１の学習処理及び推論処理）において、動画データ（すなわち学習用動画データ及び対象動画データ）は不要である。ただし動画データが使われて実況テンプレートデータｄ２が取得されてもよい。例えば、実況生成部２１が学習用動画データを解析して当該学習用動画データで使われている実況コメントを抽出し、必要に応じて当該実況コメントの修正処理を行った後、当該実況コメントに基づく実況テンプレートデータｄ２を取得してもよい。

　このようにして実況生成部２１（実況生成モデル７１）により取得される複数の実況テンプレートデータｄ２は、実況リポジトリ部２２（図２参照）に保存される。

　上述のように本例では、実況生成部２１にイベントメタ情報ｄ１を入力することで実況生成モデル７１の学習処理が行われる。そして実況生成部２１にイベントメタ情報ｄ１を入力することで、実況生成モデル７１で推論処理が行われて複数の実況テンプレートデータｄ２が取得される。

　図２５は、実況生成モデル７１の具体例を示すブロック図である。以下に説明する図２５に示すアルゴリズムは、一例としてＳｅｑ２Ｓｅｑと呼ばれる深層学習モデル技術にも応用されている。

　図２５に示す実況生成モデル７１は、エンコーダ部７１ａ及びデコーダ部７１ｂを含む。エンコーダ部７１ａ及びデコーダ部７１ｂは、典型的にはＲＮＮ（Recurrent Neural Network）に基づいて構成されるが、任意の構成を有しうる。

　エンコーダ部７１ａは、イベントメタ情報ｄ１が入力され、当該イベントメタ情報ｄ１をベクトル情報にコンパイルし、当該ベクトル情報をデコーダ部７１ｂに送る。

　デコーダ部７１ｂは、エンコーダ部７１ａから提供されるベクトル情報に基づいて、イベントメタ情報ｄ１に対応する実況テンプレートデータｄ２を出力する。

　このようにしてデコーダ部７１ｂから出力される実況テンプレートデータｄ２は、実況リポジトリ部２２に記憶される。

［実況コメント発行］
　図２６は、動画データにおけるメタ画像（第１～第５メタ画像）及び実況コメント（第１～第３実況コメント）の時系列例を示す図である。図２７は、実況分類メタ情報ｄ７０の概念の一例を示すブロック図である。

　一般に、動画データに記録されているイベント（スポーツ試合等）では、画像に映し出される状態が経時的に変わり、イベント状態に応じた実況コメントが不規則的なタイミングで動画に付される。特に、各実況コメントの挿入タイミングは、対応のイベント状態のタイミングから不規則的に遅れる。そのため各実況コメントは、必ずしも直前のタイミングにおけるイベント状態に対応するとは限らない。

　図２６に示す動画データでは、第１メタ画像、第１実況コメント、第２メタ画像、第３メタ画像、第２実況コメント、第４メタ画像、第３実況コメント及び第５メタ画像が、この順番に再生される。

　ここで言うメタ画像は、解析部２３において動画データから切り出されてイベントメタ情報ｄ１の取得に用いられる動画フレームであり、関連付けられる代表的なイベントメタ情報ｄ１に応じて分類される。

　例えば第１メタ画像は、代表的なイベントメタ情報ｄ１としてスコア情報Ｅ１が関連付けられる画像（スコアメタ画像）を示す。第２メタ画像、第４メタ画像及び第５メタ画像は、代表的なイベントメタ情報ｄ１としてプレイ情報Ａ１が関連付けられる画像（プレイメタ画像）を示す。第３メタ画像は、代表的なイベントメタ情報ｄ１としてシーン情報Ｂ１が関連付けられる画像（シーンメタ画像）を示す。

　また図２６には示されていないが、人識別情報Ｃ１が代表的に関連付けられる動画フレームは人識別メタ画像に分類され、背番号情報Ｄ１が代表的に関連付けられる動画フレームは背番号メタ画像に分類される。また時間情報Ｆ１が代表的に関連付けられる動画フレームは時間メタ画像に分類される。

　一方、実況コメントは、コメント内容に関連付けられる代表的な実況分類メタ情報ｄ７０（図２７参照）に応じて、分類される。すなわち実況分類メタ情報ｄ７０は、実況コメントの分類に関連するメタ情報である。

　図２７に示す実況分類メタ情報ｄ７０は、イベントメタ情報ｄ１に含まれる複数の情報（図４に示す「プレイ情報Ａ１」～「時間情報Ｆ１」参照）のそれぞれに対応する複数の実況情報を含む。すなわちプレイ情報Ａ１に対応するプレイ実況情報Ａ２、シーン情報Ｂ１に対応するシーン実況情報Ｂ２、人識別情報Ｃ１に対応する人識別実況情報Ｃ２、及び背番号情報Ｄ１に対応する背番号実況情報Ｄ２が、図２７に示す実況分類メタ情報ｄ７０に含まれる。またスコア情報Ｅ１に対応するスコア実況情報Ｅ２及び時間情報Ｆ１に対応する時間実況情報Ｆ２も、図２７に示す実況分類メタ情報ｄ７０に含まれる。なお、実況分類メタ情報ｄ７０は、イベントメタ情報ｄ１に含まれる複数の情報のいずれにも対応しない実況情報（例えば後述を「ブランク実況情報」）を含んでいてもよい。

　図２６に示す例において、第１実況コメントは、スコア実況情報Ｅ２が関連付けられるコメント内容を有するスコア実況コメントに分類され、スコア情報Ｅ１に関連付けられる第１メタ画像（スコアメタ画像）に起因して発せられている。第２実況コメントは、プレイ実況情報Ａ２が関連付けられるコメント内容を有するプレイ実況コメントに分類され、プレイ情報Ａ１に関連付けられる第２メタ画像（プレイメタ画像）に起因して発せられている。第３実況コメントは、プレイ実況情報Ａ２が関連付けられるコメント内容を有するプレイ実況コメントに分類され、プレイ情報Ａ１に関連付けられる第４メタ画像（プレイメタ画像）に起因して発せられている。

　図２６から明らかなように、各実況コメント（第１～第３実況コメントの各々）は、対応のメタ画像（第１、第２及び第４メタ画像の各々）から遅延して発せられる。

　なお図２６には示されていないが、シーン実況情報Ｂ２が代表的に関連付けられる実況コメントはシーン実況コメントに分類され、人識別実況情報Ｃ２が代表的に関連付けられる実況コメントは人識別実況コメントに分類される。背番号実況情報Ｄ２が代表的に関連付けられる実況コメントは背番号実況コメントに分類され、時間実況情報Ｆ２が代表的に関連付けられる実況コメントは時間実況コメントに分類される。

　以下、メタ画像及び実況コメントの時系列情報（履歴メタ情報ｄ４を含む）は、関連付けられるイベントメタ情報ｄ１及び実況分類メタ情報ｄ７０の対応情報の符号が使われて、簡易的に表現される。したがって図２６に示す例における時系列再生情報は「Ｅ１、Ｅ２、Ａ１、Ｂ１、Ａ２、Ａ１、Ａ２、Ａ１」と表現される。

　図２８は、実況発行モデル７７の学習処理に関わる機能構成の一例を示すブロック図である。図２９は、実況発行モデル７７を使って対象の実況コメント（決定実況データｄ７９）の決定処理に関わる機能構成の一例を示すブロック図である。

　まず、実況発行モデル７７の学習処理について説明する。

　実況発行モデル７７は、学習用履歴メタ情報ｄ７８に基づいて実況分類メタ情報ｄ７０を出力するように学習された学習済みモデルである。すなわち実況発行モデル７７は、次の実況コメントに割り当てられる実況分類メタ情報ｄ７０を、当該次の実況コメントに先立つ履歴メタ情報（イベントメタ情報ｄ１及び実況分類メタ情報ｄ７０）から推論するモデルである。

　以下、理解を容易にするため、図２６に示す例の時系列再生情報に基づいて、実況発行モデル７７の学習処理の流れを説明する。すなわち「Ｅ１、Ｅ２、Ａ１、Ｂ１、Ａ２」が既知の履歴情報であり、次のイベントメタ情報ｄ１である「Ａ１（第４メタ画像）」及び次の実況分類メタ情報である「Ａ２（第３実況コメント）」が新たに取得される場合を、例示的に説明する。

　図２８に示すコメント生成装置１０は、解析抽出部７４、実況分類モデル７５、履歴メタ情報生成部７６、実況発行モデル７７及び学習部７８を含む。

　解析抽出部７４は、学習用動画データｄ７５を解析して、次のイベントメタ情報ｄ１（「Ａ１」）と、次の実況コメント（「対象の実況コメント」）を示す学習用対象実況コメントｄ７６とを、学習用動画データｄ７５から取得する。

　学習用対象実況コメントｄ７６は、学習用動画データｄ７５に記録されている「対象の実況コメント」が解析部２３により抽出されることによって取得され、解析部２３から出力されて実況分類モデル７５に入力される。

　実況分類モデル７５は、入力された学習用対象実況コメントｄ７６に基づいて学習用実況分類メタ情報ｄ７７（「Ａ２」）を出力する。このようにして実況分類モデル７５から出力される学習用実況分類メタ情報ｄ７７は、学習用対象実況コメントｄ７６に対応する実況分類メタ情報ｄ７０（図２７参照）である。

　学習用実況分類メタ情報ｄ７７は、後述のように実況発行モデル７７の学習処理における教師データとして用いられるとともに、履歴メタ情報生成部７６に送られる。

　一方、解析抽出部７４から出力されるイベントメタ情報ｄ１は、上述のように学習済みの推論モデルを使った学習用動画データｄ７５の解析処理を行うことで取得され、履歴メタ情報生成部７６に入力される。

　履歴メタ情報生成部７６は、解析抽出部７４から入力されるイベントメタ情報ｄ１（「Ａ１」）と、実況分類モデル７５から入力される学習用実況分類メタ情報ｄ７７（「Ａ２」）とに基づいて、学習用履歴メタ情報ｄ７８を生成して出力する。

　学習用履歴メタ情報ｄ７８は、学習用動画データｄ７５の履歴メタ情報であり、メタ画像及び実況コメントの時系列再生情報である。すなわち学習用履歴メタ情報ｄ７８は、学習用イベントにおいて「対象の実況コメント」が関連付けられる時点より前のイベント状態に関連付けられた過去のイベントメタ情報ｄ１及び実況分類メタ情報ｄ７０を含む。

　そのため学習用履歴メタ情報ｄ７８は、今回の学習処理で履歴メタ情報生成部７６に入力されるイベントメタ情報ｄ１（「Ａ１」）を含むが、今回の学習処理で履歴メタ情報生成部７６に入力される学習用実況分類メタ情報ｄ７７（「Ａ２」）を含まない。すなわち今回の処理までに得られたイベントメタ情報ｄ１と、前回の処理までに得られた学習用履歴メタ情報ｄ７８とが、今回の処理で履歴メタ情報生成部７６から出力される学習用履歴メタ情報ｄ７８（「Ｅ１、Ｅ２、Ａ１、Ｂ１、Ａ２、Ａ１」）に含まれる。

　具体的には、履歴メタ情報生成部７６が、上述の「既知の履歴情報（「Ｅ１、Ｅ２、Ａ１、Ｂ１、Ａ２」）」を保有し、解析抽出部７４から入力されるイベントメタ情報ｄ１（「Ａ１」）を当該既知の履歴情報に付加する。その結果、履歴メタ情報生成部７６から出力される学習用履歴メタ情報ｄ７８（「Ｅ１、Ｅ２、Ａ１、Ｂ１、Ａ２、Ａ１」）は、「既知の履歴情報（「Ｅ１、Ｅ２、Ａ１、Ｂ１、Ａ２」）」及び次のイベントメタ情報ｄ１（「Ａ１」）を含む。

　なお次回の学習処理で使われる「既知の履歴情報」は、今回のイベントメタ情報ｄ１及び今回の学習用実況分類メタ情報ｄ７７を含む。すなわち履歴メタ情報生成部７６は、今回の既知の履歴情報に今回のイベントメタ情報ｄ１及び今回の学習用履歴メタ情報ｄ７８を付加した新たな履歴情報（「Ｅ１、Ｅ２、Ａ１、Ｂ１、Ａ２、Ａ１、Ａ２」）を、次回の学習処理で「既知の履歴情報」として使う。

　実況発行モデル７７は、履歴メタ情報に基づいて実況分類メタ情報ｄ７０を出力するように学習された学習済みモデルであり、任意のアルゴリズムを採用可能である。本例では、履歴メタ情報生成部７６から出力される学習用履歴メタ情報ｄ７８（「Ｅ１、Ｅ２、Ａ１、Ｂ１、Ａ２、Ａ１」）が実況発行モデル７７に入力され、当該学習用履歴メタ情報ｄ７８に対応する実況分類メタ情報ｄ７０が実況発行モデル７７から出力される。

　学習部７８は、学習用履歴メタ情報ｄ７８が入力された実況発行モデル７７から出力される実況分類メタ情報ｄ７０と、教師データとして用いられる学習用実況分類メタ情報ｄ７７（「Ａ２」）とに基づいて、実況発行モデル７７の学習を行う。

　学習部７８による具体的な学習手法は限定されない。典型的には、学習部７８は、学習用履歴メタ情報ｄ７８に対する実況分類メタ情報ｄ７０の誤差を評価し、当該誤差が最小になるように実況発行モデル７７を修正することで、実況発行モデル７７の学習を行うことができる。

　以上説明したように解析抽出部７４及び実況分類モデル７５を含む実況分類部８０によって、学習用動画データｄ７５に記録されている学習用イベントに含まれる学習用対象実況コメントｄ７６に対応する学習用実況分類メタ情報ｄ７７が取得される。

　また当該学習用実況分類メタ情報ｄ７７が関連付けられる時点より前の学習用イベントの状態に関連付けられた学習用履歴メタ情報ｄ７８を、実況発行モデル７７に入力することで、実況分類メタ情報ｄ７０が取得される。

　そして学習部７８が、このようにして得られる実況分類メタ情報ｄ７０を、教師データとして用いられる学習用実況分類メタ情報ｄ７７と比較して評価することで、実況発行モデル７７の学習を行う。このように学習済みの実況発行モデル７７は、教師データとして用いられる学習用実況分類メタ情報ｄ７７と、学習用履歴メタ情報ｄ７８を実況発行モデル７７に入力することで取得される実況分類メタ情報ｄ７０と、に基づいて取得される。

　次に、実況発行モデル７７を使った推論処理について説明する。

　以下、理解を容易にするため、図２６に示す例の時系列再生情報に基づいて、実況発行モデル７７の推論処理の流れを説明する。すなわち「Ｅ１、Ｅ２、Ａ１、Ｂ１、Ａ２、Ａ１」が履歴メタ情報ｄ４であり、次の実況分類メタ情報である「Ａ２（第３実況コメント）」が新たに取得される場合を、例示的に説明する。

　図２９に示すコメント生成装置１０は、履歴メタ情報取得部７９及び実況決定部２４を含む。

　履歴メタ情報取得部７９は、対象動画データｄ３を解析して、対象動画データｄ３に記録されている対象イベントに関連付けられる履歴メタ情報ｄ４（「Ｅ１、Ｅ２、Ａ１、Ｂ１、Ａ２、Ａ１」）を取得する。本例の履歴メタ情報取得部７９は、解析部２３によって実現され、具体的には上述の図２８示す解析抽出部７４及び履歴メタ情報生成部７６を含む。

　実況決定部２４は、履歴メタ情報ｄ４に基づいて対象の実況分類メタ情報ｄ７０（「Ａ２」）を取得し、この対象の実況分類メタ情報ｄ７０に対応する対象の実況コメントを決定する。本例の実況決定部２４は、実況発行モデル７７及び実況検索部８１を含む。

　実況発行モデル７７は、履歴メタ情報ｄ４が入力されることで、実況分類メタ情報ｄ７０（「Ａ２」）を取得して実況検索部８１に出力する。

　実況検索部８１は、実況リポジトリ部２２に記憶される複数の実況テンプレートデータｄ２の中から、対象の実況分類メタ情報ｄ７０（「Ａ２」）に応じて選択される実況テンプレートデータｄ２に基づいて、対象の実況コメントを決定する。そして実況検索部８１は、決定した対象のコメントを決定実況コメントデータｄ５として出力する。

　なお、実況検索部８１が対象の実況コメントを決定する具体的な手法は限定されない。

　一例として、実況検索部８１は、関連タグ情報に基づいて、対象の実況分類メタ情報ｄ７０に応じた実況テンプレートデータｄ２を選択することができる。

　すなわち、上述のように実況生成モデル７１により生成された複数の実況テンプレートデータｄ２は、対応の関連タグ情報に関連付けられた状態で実況リポジトリ部２２に記憶される。一方、実況発行モデル７７から出力される実況分類メタ情報ｄ７０は、対応の関連タグ情報に関連付けられた状態で実況検索部８１に入力される。実況検索部８１は、実況分類メタ情報ｄ７０に関連付けられている関連タグ情報を参照し、実況リポジトリ部２２に記憶される複数の実況テンプレートデータｄ２の中から、当該関連タグ情報に関連付けられている１以上の実況テンプレートデータｄ２を探し出す。そして実況検索部８１は、このようにして探し出した１以上の実況テンプレートデータｄ２に基づいて、対象の実況コメントを決定し、決定実況コメントデータｄ５を出力する。

　ここで言う「関連タグ情報」は、上述のように実況テンプレートデータｄ２及び実況分類メタ情報ｄ７０の双方に関連付けられる分類情報である。関連タグ情報に含まれる複数のタグ情報は限定されないが、典型的には、イベントメタ情報ｄ１に含まれる情報に対応するタグ情報が関連タグ情報に含まれる。例えばイベントメタ情報ｄ１が図４に示す情報を含む場合、関連タグ情報は、プレイタグ情報、シーンタグ情報、人識別タグ情報、背番号タグ情報、スコアタグ情報及び時間タグ情報を含んでもよい。

　なお実況分類メタ情報ｄ７０は、対象動画データｄ３における対象のタイミングにおいて実況コメントを付さないことを示す「ブランク実況情報」を含んでもよい。実況検索部８１は、実況分類メタ情報ｄ７０としてブランク実況情報が入力された場合、実質的に実況コメントを含まない決定実況コメントデータｄ５を出力する。例えば、対象動画データｄ３において経時的に連続するメタ画像間に実況コメントを挿入しない場合、実況発行モデル７７は、実況分類メタ情報ｄ７０としてブランク実況情報を出力する。

　或いは、関連タグ情報が、実況コメントを付さないことを示す「ブランクタグ情報」を含んでもよい。実況発行モデル７７は、ブランクタグ情報が関連付けられた実況分類メタ情報ｄ７０を出力してもよい。ブランクタグ情報が関連付けられた実況分類メタ情報ｄ７０が実況検索部８１に入力された場合、実況検索部８１は実質的に実況コメントを含まない決定実況コメントデータｄ５を出力する。

　以上説明したように本実施形態のコメント生成装置１０及びコメント生成方法によれば、履歴メタ情報取得部７９により対象動画データｄ３が解析され、対象動画データｄ３に記録されている対象イベントに関連付けられる履歴メタ情報ｄ４が取得される。また実況決定部２４により履歴メタ情報ｄ４に基づいて対象の実況分類メタ情報ｄ７０が取得され、この対象の実況分類メタ情報ｄ７０に対応する対象の実況コメントが決定される。

　これにより、対象動画解析データｄ３４に記録されている対象イベントの状態に応じた実況コメントを、適応的なタイミングで動画とともに提供することができる。

　また実況決定部２４は、履歴メタ情報ｄ４に基づいて実況分類メタ情報ｄ７０を出力するように学習された学習済みの実況発行モデル７７に、対象イベントに関連付けられる履歴メタ情報ｄ４を入力することで、実況分類メタ情報ｄ７０を取得する。

　これにより、動画とともに提供される実況コメントのタイミングが単調になることを効果的に避けることができる。

　また学習済みの実況発行モデル７７は、学習用対象実況コメントｄ７６に対応する学習用実況分類メタ情報ｄ７７と、学習用履歴メタ情報ｄ７８を実況発行モデル７７に入力することで取得される実況分類メタ情報ｄ７０と、に基づいて得られる。

　これにより、実況発行モデル７７の最適化が促され、実況コメントがより適切なタイミングで動画とともに提供されるようになることを期待できる。

　また実況決定部２４は、実況リポジトリ部２２に記憶される複数の実況テンプレートデータｄ２の中から、対象の実況分類メタ情報ｄ７０に応じて選択される実況テンプレートデータｄ２に基づいて、対象の実況コメントを決定する。

　これにより、イベント状態に応じた適切な実況コメントを動画とともに提供できる。

　また複数の実況テンプレートデータｄ２は、イベントメタ情報ｄ１に基づいて複数の実況テンプレートデータｄ２を出力するように学習された学習済みの実況生成モデル７１に、イベントメタ情報ｄ１が入力されることで取得される。

　これにより、動画とともに提供される実況コメントの内容が単調になることを効果的に避けることができる。

　またネットワーク１９上で開示される情報から学習用のイベントメタ情報ｄ１に応じて抽出される学習用実況テンプレートデータを教師データｄ６１として使って、実況生成モデル７１の学習を行うことが可能である。

　これにより、多数の様々な学習用実況テンプレートデータを容易に収集することが可能である。

　またイベントメタ情報ｄ１は、人に関連する情報を含む。

　これにより、人に関連する実況コメントを動画とともに提供できる。

　また、当該人に関連する情報は、対象動画データｄ３を解析することで得られる人の動きを示す動作情報に基づいて推定される状況メタ情報を含む。

　これにより、人の動きに関連する実況コメントを動画とともに提供できる。

　また当該状況メタ情報は、対象動画データｄ３に記録されるイベントのシーン内容を示すシーン情報Ｂ１及びイベントのプレイ内容を示すプレイ情報Ａ１を含む。

　これにより、シーン内容及びプレイ内容に関連する実況コメントを動画とともに提供できる。

　また当該動作情報は、対象動画データｄ３を解析することで得られる人の身体パーツの情報に基づきうる。

　この場合、対象動画データｄ３の抽象化情報である「人の身体パーツの情報」に基づいて実況コメントの選定及び実況コメントのタイミングを決めることができる。このような抽象化情報を利用することで、様々なジャンル、対象及び形式の画像データ（動画データを含む）を、推論モデルの学習に用いられる学習用画像データ（学習用動画データを含む）として利用しうる。

　また当該動作情報は、対象動画データｄ３を解析することで得られる人の移動位置の情報に基づきうる。

　この場合、人の移動位置に基づく実況コメントを動画とともに提供できる。

　また上記の人に関連する情報は、人の外観の画像及び人の装着物の画像のうちの少なくともいずれか一方から導出される人を識別する情報を含むことができる。

　この場合、人に関連する情報を容易に取得でき、人に関連する情報の取得精度の向上も期待できる。

　またイベントメタ情報ｄ１は、人には関連しない情報を含む。

　これにより、人に関連しない実況コメントを動画とともに提供できる。

　また対象動画データｄ３に記録される対象イベントはスポーツの試合であり、イベントメタ情報ｄ１は、プレイ情報Ａ１、シーン情報Ｂ１、人識別情報Ｃ１、スコア情報Ｅ１及び時間情報Ｆ１のうちの少なくともいずれか１以上を含みうる。

　この場合、スポーツの試合の動画とともに、当該試合に適応した実況コメントを提供できる。

　また学習用動画データｄ７５に記録されている学習用イベントのジャンルは、対象動画データｄ３に記録されている対象イベントのジャンルとは異なってもよい。

　この場合、学習用動画データｄ７５が得やすく、実況発行モデル７７の学習処理を促進することができる。

　また対象動画データｄ３及び学習用動画データｄ７５のうちの一方は実写動画データであり、他方は生成動画データであってもよい。

［変形例］
　コメント生成装置１０により生成される実況コメントは、様々な態様で、対応の動画とともにユーザに提供可能である。例えば、コメント生成装置１０は、対象動画データｄ３に本来的に記録されている対象イベントの映像及び音声と、新たに生成及び発行した実況コメントとを、別々の出力装置を介してユーザに提供してもよい。

　図３０は、対象イベント及び実況コメントを出力する出力装置の一例を示す図である。図３０に示す例では、出力装置としてディスプレイ１８ａ及びＡＩロボット（ＡＩデバイス）１８ｂが設けられている。対象動画データｄ３に本来的に記録されている対象イベントの映像及び音声はディスプレイ１８ａを介して出力され、コメント生成装置１０が生成及び発行した実況コメントはＡＩロボット１８ｂを介して出力される。

　なおディスプレイ１８ａ及びＡＩロボット１８ｂの各々とコメント生成装置１０との接続態様は限定されず、無線接続であってもよいし、有線接続であってもよい。図示しない中継装置を介して、ディスプレイ１８ａ及びＡＩロボット１８ｂの各々とコメント生成装置１０とが接続されてもよい。

　ユーザ９０は、ディスプレイ１８ａを介して対象イベントの映像及び音声を楽しみつつ、ＡＩロボット１８ｂとコミュニケーションをとりながら実況コメントを適切なタイミングで聞くことが可能である。したがってユーザ９０は、任意のタイミングで、実況コメントの提供の停止及び開始をＡＩロボット１８ｂに対して指示することができ、ＡＩロボット１８ｂはユーザ９０の指示に応じて実況コメントの提供の停止及び開始を行うことができる。またユーザ９０は、対象イベントの映像及び音声を楽しみつつ、実況コメントに関連する情報や実況コメントに関連しない情報をＡＩロボット１８ｂから取得したり、任意の処理をＡＩロボット１８ｂに指示したりしてもよい。

　本明細書で開示されている実施形態及び変形例はすべての点で例示に過ぎず限定的には解釈されないことに留意されるべきである。上述の実施形態及び変形例は、添付の特許請求の範囲及びその趣旨を逸脱することなく、様々な形態での省略、置換及び変更が可能である。例えば上述の実施形態及び変形例が全体的に又は部分的に組み合わされてもよく、また上述以外の実施形態が上述の実施形態又は変形例と組み合わされてもよい。また、本明細書に記載された本開示の効果は例示に過ぎず、その他の効果がもたらされてもよい。

　上述の技術的思想を具現化する技術的カテゴリーは限定されない。例えば上述の装置を製造する方法或いは使用する方法に含まれる１又は複数の手順（ステップ）をコンピュータに実行させるためのコンピュータプログラムによって、上述の技術的思想が具現化されてもよい。またそのようなコンピュータプログラムが記録されたコンピュータが読み取り可能な非一時的（non-transitory）な記録媒体によって、上述の技術的思想が具現化されてもよい。

［付記］
　本開示は以下の構成をとることもできる。

［項目１］
　対象動画データを解析して、前記対象動画データに記録されている対象イベントに関連付けられる履歴メタ情報を取得する履歴メタ情報取得部と、
　前記履歴メタ情報に基づいて対象の実況分類メタ情報を取得し、前記対象の実況分類メタ情報に対応する対象の実況コメントを決定する実況決定部と、
　を備え、
　前記履歴メタ情報は、前記対象イベントにおいて前記対象の実況コメントが関連付けられる時点より前のイベント状態に関連付けられた過去のイベントメタ情報及び実況分類メタ情報を含み、
　前記イベントメタ情報は、前記対象イベントの状態に関連するメタ情報であり、
　前記実況分類メタ情報は、実況コメントの分類に関連するメタ情報である、
　コメント生成装置。

［項目２］
　前記実況決定部は、前記履歴メタ情報に基づいて前記実況分類メタ情報を出力するように学習された学習済みの実況発行モデルに、前記対象イベントに関連付けられる前記履歴メタ情報を入力することで、前記対象の実況分類メタ情報を取得する項目１に記載のコメント生成装置。

［項目３］
　前記学習済みの実況発行モデルは、
　学習用動画データに記録されている学習用イベントに含まれる学習用対象実況コメントに対応する学習用実況分類メタ情報と、
　前記学習用イベントにおいて前記学習用対象実況コメントが関連付けられる時点より前のイベント状態に関連付けられた学習用履歴メタ情報を前記実況発行モデルに入力することで取得される前記実況分類メタ情報と、
　に基づいて得られる項目２に記載のコメント生成装置。

［項目４］
　学習用動画データを解析して、前記学習用動画データに記録されている学習用イベントに含まれる学習用対象実況コメントに対応する学習用実況分類メタ情報を取得する実況分類部と、
　教師データとして用いられる前記学習用実況分類メタ情報と、前記学習用イベントにおいて前記学習用対象実況コメントが関連付けられる時点より前のイベント状態に関連付けられた学習用履歴メタ情報を前記実況発行モデルに入力することで取得される前記実況分類メタ情報と、に基づいて前記実況発行モデルの学習を行う学習部と、
　を備える項目２又は３に記載のコメント生成装置。

［項目５］
　前記実況決定部は、リポジトリ部に記憶される複数の実況テンプレートデータの中から、前記対象の実況分類メタ情報に応じて選択される実況テンプレートデータに基づいて、前記対象の実況コメントを決定する項目１～４のいずれかに記載のコメント生成装置。

［項目６］
　前記複数の実況テンプレートデータは、前記イベントメタ情報に基づいて複数の実況テンプレートデータを出力するように学習された学習済みの実況生成モデルに、前記イベントメタ情報が入力されることで取得される項目５に記載のコメント生成装置。

［項目７］
　ネットワーク上で開示される情報から前記イベントメタ情報に応じて抽出される学習用実況テンプレートデータを教師データとして使って、前記実況生成モデルの学習を行う学習部を備える項目６に記載のコメント生成装置。

［項目８］
　前記イベントメタ情報は、人に関連する情報を含む項目１～７のいずれかに記載のコメント生成装置。

［項目９］
　前記人に関連する情報は、前記対象動画データを解析することで得られる人の動きを示す動作情報に基づいて推定される状況メタ情報を含む、
　項目８に記載のコメント生成装置。

［項目１０］
　前記状況メタ情報は、イベントのシーン内容を示すシーン情報及びイベントのプレイ内容を示すプレイ情報のうちの少なくともいずれか一方を含む、
　項目９に記載のコメント生成装置。

［項目１１］
　前記動作情報は、前記対象動画データを解析することで得られる人の身体パーツの情報に基づく項目９又は１０に記載のコメント生成装置。

［項目１２］
　前記動作情報は、前記対象動画データを解析することで得られる人の移動位置の情報に基づく項目９～１１のいずれかに記載のコメント生成装置。

［項目１３］
　前記人に関連する情報は、人の外観の画像及び人の装着物の画像のうちの少なくともいずれか一方から導出される人を識別する情報を含む項目８～１２のいずれかに記載のコメント生成装置。

［項目１４］
　前記イベントメタ情報は、人には関連しない情報を含む項目１～１３のいずれかに記載のコメント生成装置。

［項目１５］
　前記対象イベントは、スポーツの試合であり、
　前記イベントメタ情報は、前記試合のシーン内容に関するシーン情報、前記試合のプレイ内容に関するプレイ情報、前記試合の参加者に関する人識別情報、前記試合のスコアに関するスコア情報、及び前記試合の時間に関する時間情報のうちの少なくともいずれか１以上を含む、
　項目１～１４のいずれかに記載のコメント生成装置。

［項目１６］
　前記学習用イベントのジャンルは、前記対象イベントのジャンルとは異なる、
　項目３～１５のいずれかに記載のコメント生成装置。

［項目１７］
　前記対象動画データ及び前記学習用動画データのうちの一方は実写動画データであり、他方は生成動画データである、
　項目３～１６のいずれかに記載のコメント生成装置。

［項目１８］
　対象動画データを解析して、前記対象動画データに記録されている対象イベントに関連付けられる履歴メタ情報を取得するステップと、
　前記履歴メタ情報に基づいて対象の実況分類メタ情報を取得し、前記対象の実況分類メタ情報に対応する対象の実況コメントを決定するステップと、
　を含み、
　前記履歴メタ情報は、前記対象イベントにおいて前記対象の実況コメントが関連付けられる時点より前のイベント状態に関連付けられた過去のイベントメタ情報及び実況分類メタ情報を含み、
　前記イベントメタ情報は、前記対象イベントの状態に関連するメタ情報であり、
　前記実況分類メタ情報は、実況コメントの分類に関連するメタ情報である、
　コメント生成方法。

［項目１９］
　コンピュータに、
　対象動画データを解析して、前記対象動画データに記録されている対象イベントに関連付けられる履歴メタ情報を取得する手順と、
　前記履歴メタ情報に基づいて対象の実況分類メタ情報を取得し、前記対象の実況分類メタ情報に対応する対象の実況コメントを決定する手順と、
　を実行させ、
　前記履歴メタ情報は、前記対象イベントにおいて前記対象の実況コメントが関連付けられる時点より前のイベント状態に関連付けられた過去のイベントメタ情報及び実況分類メタ情報を含み、
　前記イベントメタ情報は、前記対象イベントの状態に関連するメタ情報であり、
　前記実況分類メタ情報は、実況コメントの分類に関連するメタ情報である、
　プログラム。

１０　コメント生成装置
１１　ＣＰＵ
１２　ＧＰＵ
１３　ＲＡＭ
１４　ストレージ
１５　ネットワークＩ／Ｆ
１６　バス
１７　入力装置
１８　出力装置
１８ａ　ディスプレイ
１８ｂ　ＡＩロボット
１９　ネットワーク
２１　実況生成部
２２　実況リポジトリ部
２３　解析部
２４　実況決定部
２５　出力部
３１　フレーム切出部
３２　特徴情報取得部
３３　プレイ推論モデル
３４　学習部
３７　動画分類部
３８　低フレームレート解析部
３９　高フレームレート解析部
４１　フレーム切出部
４２　特徴情報取得部
４３　シーン推論モデル
４４　学習部
４７　顔推論モデル
４７ａ　畳み込みニューラルネットワーク
４７ｂ　畳み込みニューラルネットワーク
４７ｃ　ニューラルネットワーク
４８　学習部
４９　フレーム切出部
５０　顔画像検出部
５３　背番号推論モデル
５４　学習部
５５　フレーム切出部
５６　背番号画像検出部
５７　人推定部
６０　スコア推論モデル
６１　学習部
６２　時間推論モデル
６３　学習部
６４　フレーム切出部
６５　スコア画像検出部
６６　フレーム切出部
６７　時間画像検出部
７１　実況生成モデル
７１ａ　エンコーダ部
７１ｂ　デコーダ部
７２　学習部
７４　解析抽出部
７５　実況分類モデル
７６　履歴メタ情報生成部
７７　実況発行モデル
７８　学習部
７９　履歴メタ情報取得部
８０　実況分類部
８１　実況検索部
９０　ユーザ
Ａ１　プレイ情報
Ｂ１　シーン情報
Ｃ１　人識別情報
Ｄ１　背番号情報
Ｅ１　スコア情報
Ｆ１　時間情報
Ａ２　プレイ実況情報
Ｂ２　シーン実況情報
Ｃ２　人識別実況情報
Ｄ２　背番号実況情報
Ｅ２　スコア実況情報
Ｆ２　時間実況情報
ｄ１　イベントメタ情報
ｄ２　実況テンプレートデータ
ｄ３　対象動画データ
ｄ４　履歴メタ情報
ｄ５　決定実況コメントデータ
ｄ２１　学習用動画データ
ｄ２２　学習用動画解析データ
ｄ２３　教師データ
ｄ２４　対象動画解析データ
ｄ２５　低フレームレートデータ
ｄ２６　高フレームレートデータ
ｄ２７　プレイ空間情報
ｄ２８　プレイ時間情報
ｄ３１　学習用動画データ
ｄ３２　学習用動画解析データ
ｄ３３　教師データ
ｄ３４　対象動画解析データ
ｄ３８　学習用顔画像データ
ｄ３９　教師データ
ｄ４０　対象顔画像データ
ｄ４２　学習用背番号画像データ
ｄ４３　教師データ
ｄ４４　対象背番号画像データ
ｄ４７　学習用スコア画像データ
ｄ４８　教師データ
ｄ４９　学習用時間画像データ
ｄ５０　教師データ
ｄ５１　対象スコア画像データ
ｄ５２　対象時間画像データ
ｄ６１　教師データ
ｄ７０　実況分類メタ情報
ｄ７５　学習用動画データ
ｄ７６　学習用対象実況コメント
ｄ７７　学習用実況分類メタ情報
ｄ７８　学習用履歴メタ情報
ｄ７９　決定実況データ

Claims

　対象動画データを解析して、前記対象動画データに記録されている対象イベントに関連付けられる履歴メタ情報を取得する履歴メタ情報取得部と、
　前記履歴メタ情報に基づいて対象の実況分類メタ情報を取得し、前記対象の実況分類メタ情報に対応する対象の実況コメントを決定する実況決定部と、
　を備え、
　前記履歴メタ情報は、前記対象イベントにおいて前記対象の実況コメントが関連付けられる時点より前のイベント状態に関連付けられた過去のイベントメタ情報及び実況分類メタ情報を含み、
　前記イベントメタ情報は、前記対象イベントの状態に関連するメタ情報であり、
　前記実況分類メタ情報は、実況コメントの分類に関連するメタ情報である、
　コメント生成装置。
　前記実況決定部は、前記履歴メタ情報に基づいて前記実況分類メタ情報を出力するように学習された学習済みの実況発行モデルに、前記対象イベントに関連付けられる前記履歴メタ情報を入力することで、前記対象の実況分類メタ情報を取得する請求項１に記載のコメント生成装置。
　前記学習済みの実況発行モデルは、
　学習用動画データに記録されている学習用イベントに含まれる学習用対象実況コメントに対応する学習用実況分類メタ情報と、
　前記学習用イベントにおいて前記学習用対象実況コメントが関連付けられる時点より前のイベント状態に関連付けられた学習用履歴メタ情報を前記実況発行モデルに入力することで取得される前記実況分類メタ情報と、
　に基づいて得られる請求項２に記載のコメント生成装置。
　学習用動画データを解析して、前記学習用動画データに記録されている学習用イベントに含まれる学習用対象実況コメントに対応する学習用実況分類メタ情報を取得する実況分類部と、
　教師データとして用いられる前記学習用実況分類メタ情報と、前記学習用イベントにおいて前記学習用対象実況コメントが関連付けられる時点より前のイベント状態に関連付けられた学習用履歴メタ情報を前記実況発行モデルに入力することで取得される前記実況分類メタ情報と、に基づいて前記実況発行モデルの学習を行う学習部と、
　を備える請求項２に記載のコメント生成装置。
　前記実況決定部は、リポジトリ部に記憶される複数の実況テンプレートデータの中から、前記対象の実況分類メタ情報に応じて選択される実況テンプレートデータに基づいて、前記対象の実況コメントを決定する請求項１に記載のコメント生成装置。
　前記複数の実況テンプレートデータは、前記イベントメタ情報に基づいて複数の実況テンプレートデータを出力するように学習された学習済みの実況生成モデルに、前記イベントメタ情報が入力されることで取得される請求項５に記載のコメント生成装置。
　ネットワーク上で開示される情報から前記イベントメタ情報に応じて抽出される学習用実況テンプレートデータを教師データとして使って、前記実況生成モデルの学習を行う学習部を備える請求項６に記載のコメント生成装置。
　前記イベントメタ情報は、人に関連する情報を含む請求項１に記載のコメント生成装置。
　前記人に関連する情報は、前記対象動画データを解析することで得られる人の動きを示す動作情報に基づいて推定される状況メタ情報を含む、
　請求項８に記載のコメント生成装置。
　前記状況メタ情報は、イベントのシーン内容を示すシーン情報及びイベントのプレイ内容を示すプレイ情報のうちの少なくともいずれか一方を含む、
　請求項９に記載のコメント生成装置。
　前記動作情報は、前記対象動画データを解析することで得られる人の身体パーツの情報に基づく請求項９に記載のコメント生成装置。
　前記動作情報は、前記対象動画データを解析することで得られる人の移動位置の情報に基づく請求項９に記載のコメント生成装置。
　前記人に関連する情報は、人の外観の画像及び人の装着物の画像のうちの少なくともいずれか一方から導出される人を識別する情報を含む請求項８に記載のコメント生成装置。
　前記イベントメタ情報は、人には関連しない情報を含む請求項１に記載のコメント生成装置。
　前記対象イベントは、スポーツの試合であり、
　前記イベントメタ情報は、前記試合のシーン内容に関するシーン情報、前記試合のプレイ内容に関するプレイ情報、前記試合の参加者に関する人識別情報、前記試合のスコアに関するスコア情報、及び前記試合の時間に関する時間情報のうちの少なくともいずれか１以上を含む、
　請求項１に記載のコメント生成装置。
　前記学習用イベントのジャンルは、前記対象イベントのジャンルとは異なる、
　請求項３に記載のコメント生成装置。
　前記対象動画データ及び前記学習用動画データのうちの一方は実写動画データであり、他方は生成動画データである、
　請求項３に記載のコメント生成装置。
　対象動画データを解析して、前記対象動画データに記録されている対象イベントに関連付けられる履歴メタ情報を取得するステップと、
　前記履歴メタ情報に基づいて対象の実況分類メタ情報を取得し、前記対象の実況分類メタ情報に対応する対象の実況コメントを決定するステップと、
　を含み、
　前記履歴メタ情報は、前記対象イベントにおいて前記対象の実況コメントが関連付けられる時点より前のイベント状態に関連付けられた過去のイベントメタ情報及び実況分類メタ情報を含み、
　前記イベントメタ情報は、前記対象イベントの状態に関連するメタ情報であり、
　前記実況分類メタ情報は、実況コメントの分類に関連するメタ情報である、
　コメント生成方法。
　コンピュータに、
　対象動画データを解析して、前記対象動画データに記録されている対象イベントに関連付けられる履歴メタ情報を取得する手順と、
　前記履歴メタ情報に基づいて対象の実況分類メタ情報を取得し、前記対象の実況分類メタ情報に対応する対象の実況コメントを決定する手順と、
　を実行させ、
　前記履歴メタ情報は、前記対象イベントにおいて前記対象の実況コメントが関連付けられる時点より前のイベント状態に関連付けられた過去のイベントメタ情報及び実況分類メタ情報を含み、
　前記イベントメタ情報は、前記対象イベントの状態に関連するメタ情報であり、
　前記実況分類メタ情報は、実況コメントの分類に関連するメタ情報である、
　プログラム。