WO2023148963A1

WO2023148963A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: WO2023148963A1
Application number: PCT/JP2022/004668
Authority: WO
Inventors: 諒川合; 登吉田; 智史山崎; テイテイトウ; 健全劉; カレンステファン; 直樹進藤; 悠太並木; 洋平佐々木
Original assignee: 日本電気株式会社
Priority date: 2022-02-07
Filing date: 2022-02-07
Publication date: 2023-08-10

Abstract

本発明の情報処理装置（１０）は、プレイヤーを撮影した第１の動画の中の指定された時刻を基準にして特定される部分から画像解析技術を用いて注目シーンを抽出する抽出部（１１）と、第１の動画内における注目シーンの位置を示す情報を出力する出力部（１２）と、を有する。

Description

情報処理装置、情報処理方法、およびプログラム

　本発明は、情報処理装置、情報処理方法、およびプログラムに関する。

　本発明に関連する技術が特許文献１乃至３、非特許文献１に開示されている。

　特許文献１には、スポーツ競技の審判員や記録員等の視線を検出し、検出結果に基づき、競技撮影用カメラで撮影すべき位置を算出する技術が開示されている。

　特許文献２には、同一シーンを異なる視点から撮影した多視点映像を用いて、自由視点映像を生成する技術が開示されている。

　特許文献３には、画像に含まれる人体の複数のキーポイント各々の特徴量を算出し、算出した特徴量に基づき姿勢が似た人体や動きが似た人体を含む画像を検索したり、当該姿勢や動きが似たもの同士でまとめて分類したりする技術が開示されている。

　特許文献４には、観客の注視状態を検出し、検出結果に基づき撮影位置を確定し、確定した撮影位置に無人機を飛行させて撮影する技術が開示されている。

　特許文献５には、プレイヤーの姿勢に基づき動画の中から注目シーンを抽出する技術が開示されている。

　特許文献６には、動きを伴う競技を撮影した動画の動き情報に基づき、競技内容及び競技結果を示すデータを生成する技術が開示されている。

　非特許文献１には、人物の骨格推定に関連する技術が開示されている。

特開２００８－５２０８号国際公開第２０１８／０３０２０６号国際公開第２０２１／０８４６７７号特開２０１９－１９３２０９号特開２０２１－１４１４３４号特開平１１－３３９００９号

Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, P. 7291-7299

　スポーツやその他のパフォーマンス等のプレイヤーを撮影した動画から注目シーンを取り出して集めたハイライト動画を作成し、視聴者に提供することが行われている。このハイライト動画を作成する作業においては、取り出す注目シーンを選別する作業が手間、すなわち作業性が悪いという問題があった。

　上述の通り、特許文献１及び４に記載の技術は、撮影の支援を行うものであり、ハイライト動画を作成する作業の支援を行うものではない。特許文献２に記載の技術は、撮影した映像を処理して新たな映像を生成するものであるが、上述の通り多視点映像から自由視点映像を生成するものであり、ハイライト動画を作成するものではない。特許文献３に記載の技術は、姿勢が似た人体や動きが似た人体を含む画像を検索したり、当該姿勢や動きが似たもの同士でまとめて分類したりする技術であり、ハイライト動画を作成することについての記載はない。特許文献５に記載の技術は、注目シーンを抽出する技術であるが、処理する動画のデータ量が大きい場合コンピュータの処理に要する時間が大きくなるという問題がある。特許文献６に記載の技術は、競技内容及び競技結果を示すデータを生成する技術であり、ハイライト動画を作成するものではない。非特許文献１に記載の技術は、人物の骨格推定に関連する技術であり、ハイライト動画を作成することについての記載はない。

　このような特許文献１乃至６、及び非特許文献１の技術のみでは、上述したハイライト動画作成の作業性の問題を解決できないという問題点があった。

　本発明の目的の一例は、上述した課題を鑑み、ハイライト動画作成の作業性の問題を解決する情報処理装置、情報処理方法、およびプログラムを提供することにある。

　本発明の一態様によれば、
　プレイヤーを撮影した第１の動画の中の指定された時刻を基準にして特定される部分から画像解析技術を用いて注目シーンを抽出する抽出手段と、
　前記第１の動画内における前記注目シーンの位置を示す情報を出力する出力手段と、
を有する情報処理装置が提供される。

　本発明の一態様によれば、
　コンピュータが、
　　プレイヤーを撮影した第１の動画の中の指定された時刻を基準にして特定される部分から画像解析技術を用いて注目シーンを抽出し、
　　前記第１の動画内における前記注目シーンの位置を示す情報を出力する、
情報処理方法が提供される。

　本発明の一態様によれば、
　コンピュータを、
　　プレイヤーを撮影した第１の動画の中の指定された時刻を基準にして特定される部分から画像解析技術を用いて注目シーンを抽出する抽出手段、
　　前記第１の動画内における前記注目シーンの位置を示す情報を出力する出力手段、
として機能させるプログラムが提供される。

　本発明の一態様によれば、ハイライト動画作成の作業性の問題が解決される。

　上述した目的、およびその他の目的、特徴および利点は、以下に述べる公的な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

情報処理装置の機能ブロック図の一例を示す図である。情報処理装置のハードウエア構成の一例を示す図である。処理部の処理を説明するための図である。情報処理装置が出力する情報の一例を模式的に示す図である。情報処理装置の処理の流れの一例を示すフローチャートである。情報処理装置が出力する情報の他の一例を模式的に示す図である。情報処理装置が出力する情報の他の一例を模式的に示す図である。情報処理装置が出力する情報の他の一例を模式的に示す図である。

　以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

＜第１の実施形態＞
　図１は、第１の実施形態に係る情報処理装置１０の概要を示す機能ブロック図である。情報処理装置１０は、抽出部１１と、出力部１２とを備える。

　抽出部１１は、スポーツやその他のパフォーマンス等のプレイヤーを撮影した第１の動画の中の指定された時刻を基準にして特定される部分から画像解析技術を用いて注目シーンを抽出する。出力部１２は、第１の動画内における注目シーンの位置を示す情報を出力する。

　このような構成を備える情報処理装置１０によれば、ハイライト動画作成の作業性の問題が解決される。

＜第２の実施形態＞
「概要」
　本実施形態の情報処理装置１０は、第１の実施形態の情報処理装置１０をより具体化したものである。

　本実施形態の情報処理装置１０は、画像解析の技術を用いて、スポーツやその他のパフォーマンス等のプレイヤーを撮影した第１の動画から注目シーンを取り出して集めたハイライト動画を作成する作業の支援を行う。情報処理装置１０が利用する画像解析の技術は、顔認識、人型認識、姿勢認識、動き認識、外観属性認識、画像の勾配特徴検出、画像の色特徴検出、物体認識及び文字認識等が例示されるが、これらに限定されない。

「ハードウエア構成」
　次に、情報処理装置１０のハードウエア構成の一例を説明する。情報処理装置１０の各機能部は、任意のコンピュータのＣＰＵ（Central Processing Unit）、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット（あらかじめ装置を出荷する段階から格納されているプログラムのほか、ＣＤ（Compact Disc）等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる）、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。

　図２は、情報処理装置１０のハードウエア構成を例示するブロック図である。図２に示すように、情報処理装置１０は、プロセッサ１Ａ、メモリ２Ａ、入出力インターフェイス３Ａ、周辺回路４Ａ、バス５Ａを有する。周辺回路４Ａには、様々なモジュールが含まれる。情報処理装置１０は周辺回路４Ａを有さなくてもよい。なお、情報処理装置１０は物理的及び／又は論理的に分かれた複数の装置で構成されてもよい。この場合、複数の装置各々が上記ハードウエア構成を備えることができる。

　バス５Ａは、プロセッサ１Ａ、メモリ２Ａ、周辺回路４Ａ及び入出力インターフェイス３Ａが相互にデータを送受信するためのデータ伝送路である。プロセッサ１Ａは、例えばＣＰＵ、ＧＰＵ（Graphics Processing Unit）などの演算処理装置である。メモリ２Ａは、例えばＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）などのメモリである。入出力インターフェイス３Ａは、入力装置、外部装置、外部サーバ、外部センサ、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ１Ａは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。

「機能構成」
　次に、本実施形態の情報処理装置１０の機能構成を詳細に説明する。図１に、本実施形態の情報処理装置１０の機能ブロック図の一例を示す。図示するように、情報処理装置１０は、抽出部１１と、出力部１２とを有する。

　抽出部１１は、画像解析技術を用いて、プレイヤーを撮影した第１の動画の中の注目シーンを抽出する。そして、出力部１２は、第１の動画内における注目シーン（抽出部１１により抽出された注目シーン）の位置を示す情報を出力する。

　「プレイヤー」は、スポーツやその他のパフォーマンス等のプレイヤーである。パフォーマンスは、例えば歌、音楽、踊り、ダンス、劇、芝居、トーク等に関するものであるが、これらに限定されない。

　「第１の動画」は、ハイライト動画の元となる動画である。すなわち、第１の動画からハイライト動画が作成される。

　「注目シーン」は、ハイライト動画に含める候補となるシーンである。例えば、作業者が、抽出された注目シーンの中からハイライト動画に含めるシーンを決定することができる。作業者は、情報処理装置１０が出力した「第１の動画内における注目シーンの位置を示す情報」に基づき、抽出された注目シーンを認識できる。抽出部１１は、画像解析技術を用いて、第１の動画の中の注目シーンを抽出する。

　次に、画像解析技術を用いて注目シーンを抽出する処理について説明する。本実施形態では、図３に示すように、画像を解析し、解析結果を出力する画像解析システム２０が用意される。画像解析システム２０は、情報処理装置１０の一部であってもよいし、情報処理装置１０から物理的及び／又は論理的に独立した外部装置であってもよい。抽出部１１は、画像解析システム２０を利用して、第１の動画の中の注目シーンの抽出を実現する。

　ここで、画像解析システム２０について説明する。画像解析システム２０は、顔認識機能、人型認識機能、姿勢認識機能、動き認識機能、外観属性認識機能、画像の勾配特徴検出機能、画像の色特徴検出機能、物体認識機能及び文字認識機能の中の少なくとも１つを備える。

　顔認識機能では、人物の顔特徴量を抽出する。さらに、顔特徴量間の類似性を照合・計算してもよい（同一人物であるかの判定等）。また、抽出した顔特徴量とデータベースに予め登録されている複数のプレイヤーの顔特徴量との照合を行い、画像に写っている人物がどのプレイヤーであるかを特定してもよい。その他、抽出した顔特徴量とデータベースに予め登録されている検出対象のプレイヤーの顔特徴量との照合を行い、第１の動画の中から検出対象のプレイヤーを検出してもよい。検出対象のプレイヤーは１人であってもよいし、複数であってもよい。なお、抽出した顔特徴量とデータベースに予め登録されている顔特徴量との照合は、画像解析システム２０が行ってもよいし、画像解析システム２０でなく、抽出部１１が行ってもよい。

　人型認識機能では、人物の人体的特徴量（例えば、体形の肥痩や、身長、服装などの全体的な特徴を指す）を抽出する。さらに、人体的特徴量間の類似性を照合・計算してもよい（同一人物であるかの判定等）。また、抽出した人体的特徴量とデータベースに予め登録されている複数の人プレイヤーの人体的特徴量との照合を行い、画像に写っている人物がどのプレイヤーであるかを特定してもよい。その他、抽出した人体的特徴量とデータベースに予め登録されている検出対象のプレイヤーの人体的特徴量との照合を行い、第１の動画の中から検出対象のプレイヤーを検出してもよい。検出対象のプレイヤーは１人であってもよいし、複数であってもよい。なお、抽出した人体的特徴量とデータベースに予め登録されている人体的特徴量との照合は、画像解析システム２０が行ってもよいし、画像解析システム２０でなく、抽出部１１が行ってもよい。

　姿勢認識機能及び動き認識機能では、人物の関節点を検出し、関節点を繋げて棒人間モデルを構成する。そして、その棒人間モデルの情報を用いることで、人物の身長を推定したり、姿勢の特徴量を抽出したり、姿勢の変化に基づき動きを特定したりする。さらに、姿勢の特徴量間や動きの特徴量間の類似性を照合・計算してもよい（同一姿勢また同一の動きであるかの判定等）。また、推定した身長とデータベースに予め登録されている複数のプレイヤーの身長との照合を行い、画像に写っている人物がどのプレイヤーであるかを特定してもよい。その他、推定した身長とデータベースに予め登録されている検出対象のプレイヤーの身長との照合を行い、第１の動画の中から検出対象のプレイヤーを検出してもよい。検出対象のプレイヤーは１人であってもよいし、複数であってもよい。なお、推定した身長とデータベースに予め登録されている身長との照合は、画像解析システム２０が行ってもよいし、画像解析システム２０でなく、抽出部１１が行ってもよい。

　姿勢認識機能及び動き認識機能は、上記特許文献３及び非特許文献１に開示の技術で実現されてもよい。

　外観属性認識機能では、人物に付随する外観的な属性（例えば、服装色、靴色、髪型、帽子・ネクタイなどの着用、例えば合計１００種類以上の外観属性がある）を認識する。さらに、認識した外観属性の類似性を照合・計算してもよい（同一属性であるかの判定が可能）。また、認識した外観的な属性とデータベースに予め登録されている複数のプレイヤーの外観的な属性との照合を行い、画像に写っている人物がどのプレイヤーであるかを特定してもよい。その他、認識した外観的な属性とデータベースに予め登録されている検出対象のプレイヤーの外観的な属性との照合を行い、第１の動画の中から検出対象のプレイヤーを検出してもよい。検出対象のプレイヤーは１人であってもよいし、複数であってもよい。なお、認識した外観的な属性とデータベースに予め登録されている外観的な属性との照合は、画像解析システム２０が行ってもよいし、画像解析システム２０でなく、抽出部１１が行ってもよい。

　画像の勾配特徴検出機能は、SIFT、SURF、RIFF、ORB、BRISK、CARD、HOGなどである。当該機能によれば、各フレーム画像の勾配特徴が検出される。例えば、検出した画像の勾配特徴と、データベースに予め登録されている検出対象の画像の勾配特徴との照合を行い、第１の動画の中から検出対象の画像（シーン）を検出してもよい。なお、検出した画像の勾配特徴と、データベースに予め登録されている検出対象の画像の勾配特徴との照合は、画像解析システム２０が行ってもよいし、画像解析システム２０でなく、抽出部１１が行ってもよい。

　画像の色特徴検出機能では、例えばカラーヒストグラムなど、画像の色の特徴を示すデータが生成される。当該機能によれば、各フレーム画像の色特徴が検出される。例えば、検出した画像の色特徴と、データベースに予め登録されている検出対象の画像の色特徴との照合を行い、第１の動画の中から検出対象の画像（シーン）を検出してもよい。なお、検出した画像の色特徴と、データベースに予め登録されている検出対象の画像の色特徴との照合は、画像解析システム２０が行ってもよいし、画像解析システム２０でなく、抽出部１１が行ってもよい。

　物体認識機能は、例えばYOLO（一般物体[例えば、スポーツやその他のパフォーマンスで利用される道具、設備など]の抽出や、人の抽出ができる）等のエンジンを利用して実現される。物体認識機能を利用することで、画像から物体を検出することができる。

　文字認識機能では、数字や字等を認識する。また、人物が写る領域で認識した数字と、データベースに予め登録されている複数のプレイヤーの番号（背番号等）との照合を行い、画像に写っている人物がどのプレイヤーであるかを特定してもよい。その他、人物が写る領域で認識した数字と、データベースに予め登録されている検出対象のプレイヤーの番号（背番号等）との照合を行い、第１の動画の中から検出対象のプレイヤーを検出してもよい。検出対象のプレイヤーは１人であってもよいし、複数であってもよい。なお、人物が写る領域で認識した数字と、データベースに予め登録されている検出対象のプレイヤーの番号（背番号等）との照合は、画像解析システム２０が行ってもよいし、画像解析システム２０でなく、抽出部１１が行ってもよい。

　図３に示すように、抽出部１１は、画像解析システム２０に第１の動画を入力する。そして、抽出部１１は、画像解析システム２０から出力された第１の動画の解析結果を取得する。

　顔認識機能を利用した場合、画像解析システム２０から出力される解析結果の中には、
・第１の動画の中から抽出した顔特徴量、及び各顔特徴量が抽出されたシーンの第１の動画内の位置を示す情報、
・第１の動画内で検出されたプレイヤーを示す情報、及び各プレイヤーが写っているシーンの第１の動画内の位置を示す情報、
・検出対象のプレイヤーが写っているシーンの第１の動画内の位置を示す情報、
の中の少なくとも１つが含まれる。

　あるシーンの第１の動画内の位置は、例えば第１の動画の冒頭からの経過時間等で示される。以下同様である。

　人型認識機能を利用した場合、画像解析システム２０から出力される解析結果の中には、
・第１の動画の中から抽出した人体的特徴量、及び各人体的特徴量が抽出されたシーンの第１の動画内の位置を示す情報、
・第１の動画内で検出されたプレイヤーを示す情報、及び各プレイヤーが写っているシーンの第１の動画内の位置を示す情報、
・検出対象のプレイヤーが写っているシーンの第１の動画内の位置を示す情報、
の中の少なくとも１つが含まれる。

　姿勢認識機能及び／又は動き認識機能を利用した場合、画像解析システム２０から出力される解析結果の中には、
・第１の動画の中から検出した姿勢及び／又は動きを示す情報、及び各姿勢及び／又は動きが写っているシーンの第１の動画内の位置を示す情報、
・第１の動画内で検出されたプレイヤーを示す情報、及び各プレイヤーが写っているシーンの第１の動画内の位置を示す情報、
・検出対象のプレイヤーが写っているシーンの第１の動画内の位置を示す情報、
の中の少なくとも１つが含まれる。

　外観属性認識機能を利用した場合、画像解析システム２０から出力される解析結果の中には、
・第１の動画の中から検出した外観的属性を示す情報、及び各外観的属性が検出されたシーンの第１の動画内の位置を示す情報、
・第１の動画内で検出されたプレイヤーを示す情報、及び各プレイヤーが写っているシーンの第１の動画内の位置を示す情報、
・検出対象のプレイヤーが写っているシーンの第１の動画内の位置を示す情報、
の中の少なくとも１つが含まれる。

　画像の勾配特徴検出機能を利用した場合、画像解析システム２０から出力される解析結果の中には、
・各フレーム画像の勾配特徴、
・検出対象の画像（シーン）と同様な勾配特徴となっているシーンの第１の動画内の位置を示す情報、
の中の少なくとも１つが含まれる。

　画像の色特徴検出機能を利用した場合、画像解析システム２０から出力される解析結果の中には、
・各フレーム画像の色特徴、
・検出対象の画像（シーン）と同様な色特徴となっているシーンの第１の動画内の位置を示す情報、
の中の少なくとも１つが含まれる。

　物体認識機能を利用した場合、画像解析システム２０から出力される解析結果の中には、検出対象の物体が写るシーンの第１の動画内の位置を示す情報が含まれる。

　文字認識機能を利用した場合、画像解析システム２０から出力される解析結果の中には、
・第１の動画内で検出されたプレイヤーを示す情報、及び各プレイヤーが写っているシーンの第１の動画内の位置を示す情報、
・検出対象のプレイヤーが写っているシーンの第１の動画内の位置を示す情報、
の中の少なくとも１つが含まれる。

　抽出部１１は、上述のような画像解析システム２０から出力される解析結果に基づき、第１の動画の中の注目シーンを抽出する。

　注目シーンは、
・所定の姿勢のプレイヤーが写っているシーン、
・所定の動きのプレイヤーが写っているシーン、
・所定のプレイヤーが写っているシーン、
・所定の姿勢で所定のプレイヤーが写っているシーン、
・所定の動きで所定のプレイヤーが写っているシーン、
の中の少なくとも１つである。

　所定の姿勢、所定の動き及び所定のプレイヤーは、予め登録される。例えば、所定の姿勢、所定の動き及び所定のプレイヤーのみが検出されるように、画像解析システム２０が設定されてもよい。その他、画像解析システム２０は、所定の姿勢、所定の動き及び所定のプレイヤーのみならず、その他の姿勢、動き及びプレイヤーも検出するように設定されてもよい。そして、抽出部１１は、画像解析システム２０により検出された姿勢、動き及びプレイヤーの中から、所定の姿勢、所定の動き及び所定のプレイヤーを抽出してもよい。

　例えば、人気のプレイヤーや注目されているプレイヤー等を所定のプレイヤーとすることで、人気のプレイヤーや注目されているプレイヤー等が写っているシーンを注目シーンとして抽出できる。また、ガッツポーズや好プレー時の姿勢や動き等を所定の姿勢や所定の動きとすることで、ガッツポーズをとっているシーンや好プレー時のシーン等を注目シーンとして抽出できる。上述した注目シーンは一例であり、その他のシーンを注目シーンとしてもよい。

　なお、上述した「所定の対象（姿勢、動き、プレイヤー等）が写っているシーン」は、所定の対象が写っているフレーム画像のみを集めたものであってもよいし、所定の対象が写っているフレーム画像とその前後の所定数のフレーム画像を集めたものであってもよい。「所定の対象が写っているフレーム画像の前後の所定数のフレーム画像」には所定の対象が写っていなくてもよい。このようにした場合、例えばガッツポーズをとる前のプレー等を注目シーンに含めることができる。１つのシーンは、連続する少なくとも２つのフレーム画像で構成される。

　上述の処理で第１の動画の中の注目シーンが抽出され後、出力部１２は、第１の動画内における注目シーンの位置を示す情報を出力する。第１の動画内における注目シーンの位置を示す情報は、例えば第１の動画の冒頭からの経過時間等で示される。複数の注目シーンが抽出された場合、出力部１２は、複数の注目シーン各々の第１の動画内における位置を示す情報を出力する。

　図４に、出力部１２が出力する情報の一例を模式的に示す。図４に示す情報では、ファイル名と、通番と、注目シーン位置と、抽出理由が示されている。なお、少なくとも注目シーン位置が示されていればよく、他の情報は表示されなくてもよい。

　「ファイル名」は、第１の動画のファイル名である。

　「通番」は、抽出された複数の注目シーンを互いに識別するための番号である。

　「注目シーン位置」は、抽出された注目シーンの第１の動画内における位置を示す情報である。図４に示す例の場合、第１の動画の冒頭からの経過時間で注目シーンの位置が示されている。

　「抽出理由」は、注目シーンとして抽出された理由を示す。例えば、各注目シーンに写っている所定のプレイヤーや、所定の姿勢や、所定の動き等が当該理由として示される。

　例えば図４に示すように列挙された複数の注目シーンの中から１つを選択するユーザ入力を受付けると、出力部１２は、選択された注目シーンの冒頭から第１の動画の再生を開始してもよい。出力部１２は、第１の動画内における各注目シーンの位置を示す情報を用いて、選択された注目シーンの冒頭からの再生を実現することができる。

　次に、図５のフローチャートを用いて、情報処理装置１０の処理の流れの一例を説明する。

　Ｓ１０では、情報処理装置１０は、プレイヤーを撮影した第１の動画を取得する。例えば、情報処理装置１０は、作業者が入力した第１の動画を取得したり、アクセス可能な記憶装置内に記憶された複数の動画ファイルの中から作業者が指定した動画を第１の動画として取得したりする。

　Ｓ１１では、情報処理装置１０は、画像解析技術を用いて、第１の動画の中の注目シーンを抽出する。例えば、情報処理装置１０は、第１の動画を画像解析システム２０に入力した後、画像解析システム２０から出力された第１の動画の解析結果を取得する。そして、情報処理装置１０は、その解析結果に基づき、第１の動画の中の注目シーンを抽出する。

　注目シーンは、所定の姿勢のプレイヤーが写っているシーン、所定の動きのプレイヤーが写っているシーン、所定のプレイヤーが写っているシーン、所定の姿勢で所定のプレイヤーが写っているシーン、所定の動きで所定のプレイヤーが写っているシーンの中の少なくとも１つである。

　Ｓ１２では、情報処理装置１０は、Ｓ１１で抽出した注目シーンの第１の動画内における位置を示す情報を出力する。情報処理装置１０は、例えば図４に示すような情報を出力する。

「作用効果」
　本実施形態の情報処理装置１０は、画像解析技術を用いて、プレイヤーを撮影した第１の動画の中の注目シーンを抽出し、第１の動画内における注目シーンの位置を示す情報を出力する。ハイライト動画を作成する作業者は、注目シーンの中からハイライト動画に含めるシーンを選択することができる。

　また、本実施形態の情報処理装置１０は、顔認識機能、人型認識機能、姿勢認識機能、動き認識機能、外観属性認識機能、画像の勾配特徴検出機能、画像の色特徴検出機能、物体認識機能及び文字認識機能の中の少なくとも１つを用いて、第１の動画を解析することができる。このため、様々な視点から注目シーンを抽出することができる。

　例えば、本実施形態の情報処理装置１０によれば、所定の姿勢のプレイヤーが写っているシーン、所定の動きのプレイヤーが写っているシーン、所定のプレイヤーが写っているシーン、所定の姿勢で所定のプレイヤーが写っているシーン、所定の動きで所定のプレイヤーが写っているシーン等を、注目シーンとして抽出することができる。結果、視聴者が希望するシーンを注目シーンとして抽出することができる。

＜第３の実施形態＞
　本実施形態の情報処理装置１０は、第１の動画の中の一部を上述した解析対象とし、他の一部を解析対象から外すことができる点で、第１及び第２の実施形態と異なる。以下、詳細に説明する。

　抽出部１１は、時刻を指定する入力を受付ける。そして、抽出部１１は、第１の動画内の一部であって、指定された時刻を基準にして特定される部分を上述した画像解析の対象として、注目シーンを抽出する。第１の動画内の他の部分（指定された時刻を基準にして特定されなかった部分）は上述した画像解析の対象とならない。

　「時刻を指定する入力」は、例えばハイライト動画作成の作業者が行う。作業者は、得点シーンや観客が盛り上がったシーンの大体の時刻を入力する。

　「指定された時刻を基準にして特定される部分」は、指定された時刻を基準にして特定される時間帯に撮影されたフレーム画像であり、例えば指定された時刻から所定時間前に撮影されたフレーム画像から、指定された時刻から所定時間後に撮影されたフレーム画像までである。所定時間は設計的事項である。例えば、抽出部１１は、第１の動画のタイムスタンプ（各フレーム画像の撮影時刻を示す情報）に基づき、指定された時刻から所定時間前に撮影されたフレーム画像、及び指定された時刻から所定時間後に撮影されたフレーム画像を特定することができる。

　抽出部１１は、例えば第１の動画全体を画像解析システム２０に入力するのでなく、第１の動画から指定された時刻を基準にして特定される部分のみを切り出し、切り出した部分のみを画像解析システム２０に入力してもよい。その他、抽出部１１は、第１の動画全体を画像解析システム２０に入力するとともに、画像解析の対象となる部分を示す情報を画像解析システム２０に入力してもよい。

　本実施形態の情報処理装置１０のその他の構成は、第１及び第２の実施形態と同様である。

　本実施形態の情報処理装置１０によれば、第１及び第２の実施形態の情報処理装置１０と同様の作用効果が実現される。

　また、本実施形態の情報処理装置１０によれば、第１の動画の全体を解析するのでなく、一部を解析することができる。結果、画像解析システム２０の処理負担の軽減や、画像解析に要する時間の短縮などが実現される。例えば、作業者が、予め得点シーンや盛り上がったシーン等の大体の時刻を知っている場合、本実施形態の情報処理装置１０は有益である。

＜第４の実施形態＞
　本実施形態の情報処理装置１０は、プレイヤーを見る観客を撮影した第２の動画を解析した結果に基づき、第１の動画の中の注目シーンを抽出する機能をさらに有する点で、第１乃至第３の実施形態と異なる。以下、詳細に説明する。

　抽出部１１は、第２及び第３の実施形態で説明した第１の動画を解析した結果に加えて、プレイヤーを見る観客を撮影した第２の動画を解析した結果に基づき、第１の動画の中の注目シーンを抽出する。第１の動画を解析した結果に基づき第１の動画の中の注目シーンを抽出する処理は、第２及び第３の実施形態で説明したものと同様である。

　図３に示すように、抽出部１１は、画像解析システム２０に第２の動画を入力する。そして、抽出部１１は、画像解析システム２０から出力された第２の動画の解析結果を取得する。

　姿勢認識機能及び／又は動き認識機能を利用した場合、画像解析システム２０から出力される解析結果の中には、第２の動画の中から検出した姿勢及び／又は動きを示す情報、及び各姿勢及び／又は動きが写っているシーンの第２の動画内の位置を示す情報が含まれる。

　画像の勾配特徴検出機能を利用した場合、画像解析システム２０から出力される解析結果の中には、
・各フレーム画像の勾配特徴、
・検出対象の画像（シーン）と同様な勾配特徴となっているシーンの第２の動画内の位置を示す情報、
の中の少なくとも１つが含まれる。

　画像の色特徴検出機能を利用した場合、画像解析システム２０から出力される解析結果の中には、
・各フレーム画像の色特徴、
・検出対象の画像（シーン）と同様な色特徴となっているシーンの第２の動画内の位置を示す情報、
の中の少なくとも１つが含まれる。

　物体認識機能を利用した場合、画像解析システム２０から出力される解析結果の中には、検出対象の物体が写るシーンの第２の動画内の位置を示す情報が含まれる。

　また、本実施形態の場合、画像解析システム２０は、さらに表情検出機能を有してもよい。表情検出機能を利用した場合、画像解析システム２０から出力される解析結果の中には、第２の動画の中から検出した観客の表情を示す情報、及び各表情の観客が写っているシーンの第２の動画内の位置を示す情報が含まれる。

　抽出部１１は、上述のような画像解析システム２０から出力される第２の動画の解析結果に基づき、第２の動画の中の検出対象シーンを検出する。

　検出対象シーンは、
・所定の姿勢の観客が写っているシーン、
・所定の動きの観客が写っているシーン、
・所定の表情の観客が写っているシーン、
の中の少なくとも１つである。

　所定の姿勢、所定の動き及び所定の表情は、予め登録される。例えば、所定の姿勢、所定の動き及び所定の表情のみが検出されるように、画像解析システム２０が設定されてもよい。その他、画像解析システム２０は、所定の姿勢、所定の動き及び所定の表情のみならず、その他の姿勢、動き及び表情も検出するように設定されてもよい。そして、抽出部１１は、画像解析システム２０により検出された姿勢、動き及び表情の中から、所定の姿勢、所定の動き及び所定の表情を抽出してもよい。

　例えば、立っている姿勢や、両手を挙げて喜んでいる姿勢や、立ち上がる動きや、飛び跳ねて喜んでいる動きや、喜んでいる表情や、興奮した表情等を所定の姿勢や所定の動きや所定の表情とすることで、観客が喜び、興奮しているシーン等を検出対象シーンとして検出できる。なお、上述した検出対象シーンは一例であり、その他のシーンを検出対象シーンとしてもよい。その他、第２の動画の音声データに基づき、検出対象シーンを検出してもよい。例えば、音声が基準値より大きくなっているシーンを検出対象シーンとしてもよい。

　上述した「所定の対象（姿勢、動き及び表情）が写っているシーン」は、所定の対象が写っているフレーム画像のみを集めたものであってもよいし、所定の対象が写っているフレーム画像とその前後の所定数のフレーム画像を集めたものであってもよい。１つのシーンは、連続する少なくとも２つのフレーム画像で構成される。

　抽出部１１は、上述の処理で第２の動画内の検出対象シーンを検出した後、その検出結果に基づき、第１の動画の中の注目シーンを抽出する。具体的には、抽出部１１は、第２の動画内で検出された検出対象シーンと同じタイミングで撮影された第１の動画内のシーンを、第１の動画の中の注目シーンとして抽出する。例えば、抽出部１１は、第１の動画及び第２の動画各々のタイムスタンプ（各フレーム画像の撮影時刻を示す情報）に基づき、第２の動画内で検出された検出対象シーンと同じタイミングで撮影された第１の動画内のシーンを特定することができる。

　本実施形態の情報処理装置１０のその他の構成は、第１乃至第３の実施形態と同様である。

　本実施形態の情報処理装置１０によれば、第１乃至第３の実施形態の情報処理装置１０と同様の作用効果が実現される。

　また、本実施形態の情報処理装置１０によれば、プレイヤーを見る観客を撮影した第２の動画を解析した結果に基づき、第１の動画の中の注目シーンを抽出することができる。このような本実施形態の情報処理装置１０によれば、プレイヤーを撮影した第１の動画を解析した結果に基づき第１の動画の中の注目シーンを抽出する第１の実施形態の情報処理装置１０と異なる視点で、第１の動画の中の注目シーンを抽出することができる。

　また、本実施形態の情報処理装置１０によれば、第２の動画内の所定の姿勢、動き又は表情の観客が写るシーンと同じタイミングで撮影された第１の動画内のシーンを、注目シーンとして抽出することができる。この場合、例えば観客が喜び、興奮している時のシーンを注目シーンとして抽出できる。

＜第５の実施形態＞
　本実施形態の情報処理装置１０は、特徴的なＵＩ（user interface）画面で、第１の動画内における注目シーンの位置を示す情報を表示する点で、第１乃至第４の実施形態と異なる。以下、詳細に説明する。

　抽出部１１は、第１の動画から抽出された注目シーンをその内容に応じてグループ化する。そして、出力部１２は、グループ毎に分けて、第１の動画内における注目シーンの位置を示す情報を出力する。抽出部１１は、例えば、注目シーンを、写っているプレイヤー毎、写っているプレイヤーの姿勢毎、写っているプレイヤーの動き毎、同じタイミングで撮影された動画に写っている観客がとっている姿勢毎、同じタイミングで撮影された動画に写っている観客がとっている動き毎、又は同じタイミングで撮影された動画に写っている観客がとっている表情毎に分けてグループ化する。なお、１つのシーンが複数のグループに属してもよい。

　図６に、出力部１２が出力するＵＩ画面の一例を模式的に示す。図６に示すＵＩ画面では、ファイル名と、プレイヤーインデックスと、シーンインデックスとが示されている。

　「ファイル名」は、第１の動画のファイル名である。

　「プレイヤーインデックス」は、第１の動画に写っているプレイヤーの名前の一覧である。

　「シーンインデックス」は、第１の動画に写っているシーンの一覧である。例えば、好プレーのシーン、ガッツポーズのシーン、観客が盛り上がったシーン等である。

　図６に示すようなＵＩ画面において、複数のインデックスの中から１つを選択するユーザ入力がなされると、出力部１２は、当該ユーザ入力に応じて、図７に示すようにシーン位置の情報をさらに表示してもよい。図７に示す例の場合、枠Ｗで囲まれた「田中順」がユーザ入力で選択されている。そして、シーン位置の欄には、選択された田中順が写っている注目シーン（抽出理由が田中順である注目シーン）の位置を示す情報が表示されている。なお、図７に示す例の場合、第１の動画の冒頭からの経過時間で注目シーンの開始位置が示されている。

　本実施形態の情報処理装置１０のその他の構成は、第１乃至第４の実施形態と同様である。

　本実施形態の情報処理装置１０によれば、第１乃至第４の実施形態の情報処理装置１０と同様の作用効果が実現される。

　また、本実施形態の情報処理装置１０によれば、図６及び図７に示すような特徴的なＵＩ画面で、第１の動画内における注目シーンの位置を示す情報を表示することができる。具体的には、注目シーンをその内容に応じてグループ化し、グループ毎に分けて、第１の動画内における注目シーンの位置を示す情報を出力することができる。このような本実施形態の情報処理装置１０によれば、ハイライト動画を作成する作業者は、複数の注目シーンの中から所望の注目シーンを容易に見つけることができる。結果、ハイライト動画作成の作業性の問題が解決される。

＜第６の実施形態＞
　本実施形態の情報処理装置１０は、複数の第１の動画を取得し、複数の第１の動画各々内における注目シーンの位置を示す情報を出力する点で、第１乃至第５の実施形態と異なる。

　プレイヤーがプレーするプレーエリア（野球場、競技場、コンサートホール等）が広い場合、また複数のプレイヤーが同時にプレーする場合等には、複数のカメラでそれらを撮影することがある。複数の第１の動画は、このように、複数のカメラで、同じタイミングで、同じプレーエリア内を撮影して生成された動画である。複数のカメラは、互いに異なる対象（プレイヤー、スコアボード、時計、監督等）を撮影していてもよいし、互いに異なる場所（同じエリアの中の互いに異なる場所）を撮影していてもよいし、同一の対象を互いに異なる角度から撮影してもよい。

　抽出部１１は、複数の第１の動画各々に対して、第１乃至第５の実施形態で説明した画像解析を行う。そして、出力部１２は、複数の第１の動画内における注目シーンの位置を示す情報をまとめて出力する。

　図８に、出力部１２が出力するＵＩ画面の一例を模式的に示す。図８に示すＵＩ画面では、プレイヤーインデックスと、シーンインデックスと、シーン位置が示されている。

　「プレイヤーインデックス」は、複数の第１の動画のいずれかに写っているプレイヤーの名前の一覧である。

　「シーンインデックス」は、複数の第１の動画のいずれかに写っているシーンの一覧である。例えば、好プレーのシーン、ガッツポーズのシーン、観客が盛り上がったシーン等である。

　「シーン位置」は、抽出された注目シーンの第１の動画内における位置を示す情報である。図８に示す例の場合、作業者が選択したグループに属する注目シーンの第１の動画内における位置が示される。図８に示す例の場合、枠Ｗで囲まれた「田中順」に関連するグループがその時点で選択されている。このため、シーン位置の欄には、田中順が写っている注目シーンの位置が示されている。なお、図８に示す例の場合、第１の動画のファイル名と、その第１の動画の冒頭からの経過時間とを紐付けた情報で、各注目シーンの開始位置が示されている。図示するように、複数の動画から抽出された複数の注目シーンがまとめて一覧表示される。また、シーン位置は、図６及び図７を用いて説明した例のように、１つのインデックスが選択されたことに応じて表示されてもよい。

「変形例」
　ここで、第６の実施形態の変形例を説明する。第６の実施形態の技術を、プレイヤーを見る観客を撮影した第２の動画を解析した結果に基づき第１の動画の中の注目シーンを抽出する第３の実施形態の技術と組み合わせる場合、情報処理装置１０は以下のような処理を実行することができる。

　まず、抽出部１１は、第２の動画から検出した検出対象シーンに含まれる観客がプレイエリアの中のどこを見ているか特定する。

　具体的には、抽出部１１は、画像解析で、観客が向く方向（視線方向、顔が向く方向、又は身体が向く方向）を特定する。次いで、抽出部１１は、プレイエリアのマップと、複数のカメラ各々のプレイエリア内の設置位置と、検出対象シーンに含まれる背景画像とに基づき、検出対象シーンを撮影したタイミングにおける複数のカメラ各々の向きを特定する。そして、抽出部１１は、プレイエリアのマップと、複数のカメラ各々のプレイエリア内の設置位置と、検出対象シーンを撮影したタイミングにおける複数のカメラ各々の向きと、特定した観客が向く方向とに基づき、観客がプレイエリアの中のどこを見ているか特定する。これらの処理は、関連するあらゆる技術を用いて実現することができる。

　検出対象シーンに複数の観客が含まれる場合、抽出部１１は、複数の観客各々が向く方向を特定し、それらを統計して算出された方向（最も多くの人が向く方向、複数の観客が向く方向の平均）を、観客が向く方向として特定してもよい。

　なお、これらの処理の少なくとも一部は画像解析システム２０が実行してもよい。

　次に、抽出部１１は、プレイエリアのマップと、複数のカメラ各々のプレイエリア内の設置位置と、検出対象シーンを撮影したタイミングにおける複数のカメラ各々の向きと、検出対象シーンにおいて観客が見ているプレイエリア内の位置と、に基づき、検出対象シーンにおいて観客が見ているプレイエリア内の位置を撮影しているカメラを特定する。そして、抽出部１１は、特定したカメラが撮影した第１の動画内のシーンであって、第２の動画内で検出された検出対象シーンと同じタイミングで撮影されたシーンを、第１の動画の中の注目シーンとして抽出する。

　本実施形態の情報処理装置１０のその他の構成は、第１乃至第５の実施形態と同様である。

　本実施形態の情報処理装置１０によれば、第１乃至第５の実施形態の情報処理装置１０と同様の作用効果が実現される。

　また、本実施形態の情報処理装置１０によれば、複数の第１の動画から抽出された注目シーンの位置をまとめて出力することができる。野球、サッカー、コンサート等のように、同時にプレーするプレイヤーが複数いる場合、複数のカメラでその競技等を撮影する場合がある。この場合、複数のカメラで撮影して生成された複数の第１の動画からハイライト画像を生成することで、より魅力的なハイライト画像を生成できる。しかし、複数の第１の動画各々視聴し、各々からハイライト動画に含める部分を選別する作業は非常に手間である。複数の第１の動画から抽出された注目シーンの位置をまとめて出力する本実施形態の情報処理装置１０によれば、複数の第１の動画からハイライト動画に含める部分を選別する作業の効率が向上する。

　また、本実施形態の情報処理装置１０の上述した変形例によれば、例えば観客が喜び、興奮している時に観客が見ている位置を撮影していたカメラが生成した第１の動画内のシーンを注目シーンとして抽出することができる。

＜変形例＞
　ここで、第１乃至第６の実施形態に適用可能な変形例を説明する。

－変形例１－
　抽出部１１は、上記技術で複数のプレイヤー各々が写るシーンを検出した後、各シーンを所定の手法で処理することで、プレイヤー毎のスタッツを算出してもよい。そして、出力部１２は、算出されたスタッツを出力してもよい。

－変形例２－
　画像解析システム２０は、第１の動画から複数の姿勢及び／又は動きを検出した後、似ている姿勢や動き毎にまとめてグループ分けし、グループ分けの結果を出力してもよい。当該処理は、特許文献３に記載の技術を用いて実現できる。そして、出力部１２は、そのグループ分けの結果を出力してもよい。作業者は、当該出力情報に基づき、どのような姿勢や動きが第１の動画内から検出されたのか、その概要を把握できる。そして、作業者は、その把握内容に基づき、作成するハイライト動画の大まかなストーリーを構築することができる。そして、ストーリーを構築した後、図４、６、７又は８に示すようなＵＩ画面から所望の注目シーンを探しだし、ハイライト動画を作成することができる。

－変形例３－
　抽出部１１は、過去に作成されたハイライト動画の入力を受付けてもよい。そして、抽出部１１は、過去に作成されたハイライト動画に含まれるプレイヤーの姿勢や動きと同様の姿勢や動きのプレイヤーが写るシーンを、注目シーンとして抽出してもよい。

　また、この場合、抽出部１１は、抽出した複数の注目シーンを、過去に作成されたハイライト動画と同じ順番で繋ぎ合わせてハイライト動画を作成してもよい。

　以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。上述した実施形態の構成は、互いに組み合わせたり、一部の構成を他の構成に入れ替えたりしてもよい。また、上述した実施形態の構成は、趣旨を逸脱しない範囲内において種々の変更を加えてもよい。また、上述した各実施形態や変形例に開示される構成や処理を互いに組み合わせてもよい。

　また、上述の説明で用いた複数のフローチャートでは、複数の工程（処理）が順番に記載されているが、各実施の形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施の形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施の形態は、内容が相反しない範囲で組み合わせることができる。

　上記の実施の形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
１．　プレイヤーを撮影した第１の動画の中の指定された時刻を基準にして特定される部分から画像解析技術を用いて注目シーンを抽出する抽出手段と、
　前記第１の動画内における前記注目シーンの位置を示す情報を出力する出力手段と、
を有する情報処理装置。
２．　前記注目シーンは、所定の姿勢のプレイヤー、又は所定の動きのプレイヤーが写っているシーンである１に記載の情報処理装置。
３．　前記注目シーンは、所定のプレイヤーが写っているシーンである１又は２に記載の情報処理装置。
４．　前記抽出手段は、さらに、前記プレイヤーを見る観客を撮影した第２の動画を解析した結果に基づき、前記第１の動画の中の前記注目シーンを抽出する１から３のいずれかに記載の情報処理装置。
５．　前記注目シーンは、前記第２の動画内の所定の姿勢の観客が写るシーン、所定の動きの観客が写るシーン又は所定の表情の観客が写るシーンと同じタイミングで撮影された前記第１の動画内のシーンである４に記載の情報処理装置。
６．　前記抽出手段は、抽出した前記注目シーンをその内容に応じてグループ化し、
　前記出力手段は、前記グループ毎に分けて、前記第１の動画内における前記注目シーンの位置を示す情報を出力する１から５のいずれかに記載の情報処理装置。
７．　前記抽出手段は、
　　前記注目シーンを、写っているプレイヤー毎、写っているプレイヤーの姿勢毎、写っているプレイヤーの動き毎、同じタイミングで撮影された動画に写っている観客がとっている姿勢毎、同じタイミングで撮影された動画に写っている観客がとっている動き毎、又は同じタイミングで撮影された動画に写っている観客がとっている表情毎に分けてグループ化する６に記載の情報処理装置。
８．　コンピュータが、
　　プレイヤーを撮影した第１の動画の中の指定された時刻を基準にして特定される部分から画像解析技術を用いて注目シーンを抽出し、
　　前記第１の動画内における前記注目シーンの位置を示す情報を出力する、
情報処理方法。
９．　コンピュータを、
　　プレイヤーを撮影した第１の動画の中の指定された時刻を基準にして特定される部分から画像解析技術を用いて注目シーンを抽出する抽出手段、
　　前記第１の動画内における前記注目シーンの位置を示す情報を出力する出力手段、
として機能させるプログラム。
１０．　プレイヤーを撮影した第１の動画の中から画像解析技術を用いて注目シーンを抽出し、前記注目シーンをその内容に応じてグループ化する抽出手段と、
　前記グループ毎に分けて、前記第１の動画内における前記注目シーンの位置を示す情報を出力する出力手段と、
を有する情報処理装置。
１１．　コンピュータが、
　　プレイヤーを撮影した第１の動画の中から画像解析技術を用いて注目シーンを抽出し、
　　前記注目シーンをその内容に応じてグループ化し、
　　前記グループ毎に分けて、前記第１の動画内における前記注目シーンの位置を示す情報を出力する、
情報処理方法。
１２．　コンピュータを、
　　プレイヤーを撮影した第１の動画の中から画像解析技術を用いて注目シーンを抽出し、前記注目シーンをその内容に応じてグループ化する抽出手段、
　　前記グループ毎に分けて、前記第１の動画内における前記注目シーンの位置を示す情報を出力する出力手段、
として機能させるプログラム。

　１０　　情報処理装置
　１１　　抽出部
　１２　　出力部
　２０　　画像解析システム
　１Ａ　　プロセッサ
　２Ａ　　メモリ
　３Ａ　　入出力Ｉ／Ｆ
　４Ａ　　周辺回路
　５Ａ　　バス

Claims

　プレイヤーを撮影した第１の動画の中の指定された時刻を基準にして特定される部分から画像解析技術を用いて注目シーンを抽出する抽出手段と、
　前記第１の動画内における前記注目シーンの位置を示す情報を出力する出力手段と、
を有する情報処理装置。
　前記注目シーンは、所定の姿勢のプレイヤー、又は所定の動きのプレイヤーが写っているシーンである請求項１に記載の情報処理装置。
　前記注目シーンは、所定のプレイヤーが写っているシーンである請求項１又は２に記載の情報処理装置。
　前記抽出手段は、さらに、前記プレイヤーを見る観客を撮影した第２の動画を解析した結果に基づき、前記第１の動画の中の前記注目シーンを抽出する請求項１から３のいずれか１項に記載の情報処理装置。
　前記注目シーンは、前記第２の動画内の所定の姿勢の観客が写るシーン、所定の動きの観客が写るシーン又は所定の表情の観客が写るシーンと同じタイミングで撮影された前記第１の動画内のシーンである請求項４に記載の情報処理装置。
　前記抽出手段は、抽出した前記注目シーンをその内容に応じてグループ化し、
　前記出力手段は、前記グループ毎に分けて、前記第１の動画内における前記注目シーンの位置を示す情報を出力する請求項１から５のいずれか１項に記載の情報処理装置。
　前記抽出手段は、
　　前記注目シーンを、写っているプレイヤー毎、写っているプレイヤーの姿勢毎、写っているプレイヤーの動き毎、同じタイミングで撮影された動画に写っている観客がとっている姿勢毎、同じタイミングで撮影された動画に写っている観客がとっている動き毎、又は同じタイミングで撮影された動画に写っている観客がとっている表情毎に分けてグループ化する請求項６に記載の情報処理装置。
　コンピュータが、
　　プレイヤーを撮影した第１の動画の中の指定された時刻を基準にして特定される部分から画像解析技術を用いて注目シーンを抽出し、
　　前記第１の動画内における前記注目シーンの位置を示す情報を出力する、
情報処理方法。
　コンピュータを、
　　プレイヤーを撮影した第１の動画の中の指定された時刻を基準にして特定される部分から画像解析技術を用いて注目シーンを抽出する抽出手段、
　　前記第１の動画内における前記注目シーンの位置を示す情報を出力する出力手段、
として機能させるプログラム。