JPWO2019123762A1

JPWO2019123762A1 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JPWO2019123762A1
Application number: JP2019560810A
Authority: JP
Inventors: 省吾高梨
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2017-12-22
Filing date: 2018-09-28
Publication date: 2021-01-07
Anticipated expiration: 2038-09-28
Also published as: WO2019123762A1; CN111465916A; US12008682B2; US20200388057A1; JP7192792B2; EP3731073A4; US11321880B2; CN111465916B; US20220207788A1; EP3731073A1

Abstract

【課題】動的なコンテントを含む動画のうち重要領域を効率的に特定することが可能な仕組みを提供する。【解決手段】動画における被操作体に対する操作者の動作を認識し、前記操作者の操作位置に基づいて、前記動画における前記被操作体の重要領域を特定する制御部、を備える情報処理装置。【選択図】図１

Description

本開示は、情報処理装置、情報処理方法及びプログラムに関する。

近年、カメラ性能の向上、及び記憶媒体の容量増加等に伴い、動画の撮影が広く行われている。一方で、動画の再生には時間がかかる。また、広い画面のどこを注視するべきかは、最初から動画を視聴しなければ分かりづらい。そのため、動画を効率的に視聴可能にするための技術が求められている。

例えば、下記特許文献１では、レーザーポインタを用いて行われたプレゼンテーション資料の説明のビデオ録画動画における、レーザーポインタの指示位置に基づいて、プレゼンテーション資料に含まれる情報毎の重要度を求める技術が開示されている。

特開２００６−２２８０５９号公報

しかし、上記特許文献１に記載の技術は、適用対象がプレゼンテーション資料を含む動画に限られる。プレゼンテーション資料は、１枚１枚が変化しない又は限定的な変化しかしない静的なコンテントである。よって、上記特許文献１に記載の技術は、動的なコンテントを含む動画を適用対象にすることが困難であると言える。

そこで、本開示では、動的なコンテントを含む動画のうち重要領域を効率的に特定することが可能な仕組みを提案する。

本開示によれば、動画における被操作体に対する操作者の動作を認識し、前記操作者の操作位置に基づいて、前記動画における前記被操作体の重要領域を特定する制御部、
を備える情報処理装置が提供される。

また、本開示によれば、動画における被操作体に対する操作者の操作位置に基づいて特定された、前記動画における前記被操作体の重要領域を示す情報が、前記動画に重畳された重畳画像の表示を制御する制御部、を備える情報処理装置が提供される。

また、本開示によれば、動画における被操作体に対する操作者の動作を認識し、前記操作者の操作位置に基づいて、前記動画における前記被操作体の重要領域を特定すること、を含む、プロセッサにより実行される情報処理方法が提供される。

また、本開示によれば、コンピュータを、動画における被操作体に対する操作者の動作を認識し、前記操作者の操作位置に基づいて、前記動画における前記被操作体の重要領域を特定する制御部、として機能させるためのプログラムが提供される。

以上説明したように本開示によれば、動的なコンテントを含む動画のうち重要領域を効率的に特定することが可能な仕組みが提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態に係るシステムの概要を説明するための図である。本実施形態に係るシステムの構成の一例を説明するための図である。本実施形態に係る情報処理装置により実行される指示位置検出処理の流れの一例を示すフローチャートである。本実施形態に係る指示位置検出処理の一例を説明するための図である。本実施形態に係る指示位置検出処理の一例を説明するための図である。本実施形態に係る指示位置検出処理の一例を説明するための図である。本実施形態に係る指示位置検出処理の一例を説明するための図である。本実施形態に係る指示位置検出処理の一例を説明するための図である。本実施形態に係る情報処理装置により実行される重要度マップの生成処理の流れの一例を示すフローチャートである。本実施形態に係る重要度マップの生成処理の一例を説明するための図である。本実施形態に係る重要度マップの生成処理の一例を説明するための図である。本実施形態に係る講義動画の再生用画面の一例を示す図である。本実施形態に係る講義動画の再生用画面の一例を示す図である。本実施形態に係る講義動画の再生用画面の一例を示す図である。本実施形態に係る情報処理装置により実行される再生制御処理の流れの一例を示すフローチャートである。本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。手術室システムの全体構成を概略的に示す図である。集中操作パネルにおける操作画面の表示例を示す図である。手術室システムが適用された手術の様子の一例を示す図である。図１９に示すカメラヘッド及びＣＣＵの機能構成の一例を示すブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．はじめに
２．構成例
３．技術的特徴
３．１．指示位置検出処理
３．２．重要度マップ生成処理
３．３．再生制御処理
４．ハードウェア構成例
５．応用例
６．まとめ

＜＜１．はじめに＞＞
まず、図１を参照しながら、本開示の一実施形態に係るシステムの概要を説明する。

図１は、本開示の一実施形態に係るシステムの概要を説明するための図である。図１に示すように、システム１は、情報処理装置１００及び情報処理装置１００に接続されるカメラ２００を含む。

カメラ２００は、撮像装置及び音声入力装置を含む。撮像装置は、撮像レンズ、絞り、ズームレンズ、及びフォーカスレンズ等により構成されるレンズ系、レンズ系に対してフォーカス動作やズーム動作を行わせる駆動系、レンズ系で得られる撮像光を光電変換して撮像信号を生成する固体撮像素子アレイ等を含む。音声入力装置は、周囲の音を収音するマイクロフォン、マイクロフォンで得られた音声信号を増幅処理するマイクアンプ回路、Ａ／Ｄ変換器、及びノイズキャンセラ等の信号処理回路を含む。カメラ２００は、デジタル信号とされた画像データ及び撮像時の音声のデータを出力する。

カメラ２００は、物理空間における物体を撮像対象として、静止画及び動画を撮像可能である。本実施形態では、カメラ２００は、物理空間における被操作体２及び当該物理空間における操作者３を撮像対象として動画を撮像する。動画とは、複数の静止画像（画像データ）及び各々の静止画像の再生時刻を含むデータである。動画が再生される際には、再生時刻の順に静止画像が連続的に再生される。動画を構成する静止画像は、フレームとも称される。動画の表示速度は、フレームレートとも称され、１秒間当たりに表示されるフレームの数（ＦＰＳ：Frame Per Second）で表される。動画は、画像データの再生と共に再生されるべき音声データを含んでいてもよい。以下では、一例として、動画は画像データと音声データとを含む概念であるものとして説明する。

被操作体２は、点、線、文字、文章、数式、記号、絵又は画像等の視覚的な情報を含む物体である。本実施形態では、被操作体２は、情報（以下、筆記情報とも称する。）が筆記された筆記面である。筆記面は、黒板、ホワイトボード、電子ペーパー、又はタッチパネル等であり、筆記情報は、チョーク、マーカー、スタイラス又は指等により筆記面に筆記される。被操作体２は、動的なコンテントの一例である。動的なコンテントとは、動的に変化する物体又は空間である。動的なコンテントの一例として、操作者により操作される被操作体が挙げられる。これとは逆に、静的なコンテントとは、変化が静的又は準静的な物体又は空間である。静的なコンテントの一例として、プレゼンテーション資料を表示するディスプレイ、又はプレゼンテーション資料が投影される投影面が挙げられる。

操作者３は、被操作体２に対して動作を行う人である。操作者３は、被操作体２の各部分を、手又は手に持つレーザーポインタ若しくは指示棒等の指示器で指示しながら被操作体２の説明を行う。

以下では、操作者３は、被操作体２を用いて講義を行う講師であり、被操作体２は、筆記情報が筆記された筆記面であるものとして説明する。また、カメラ２００により撮像される動画を、講義動画とも称する。

カメラ２００は、筆記情報が筆記された筆記面（被操作体２）及び当該筆記面を指示しながら講義を行う講師（操作者３）の様子を撮像する。講師は、典型的には筆記面に筆記情報を筆記しながら説明を行う。そのため、講義動画は、内容が動的に変化する筆記面、即ち動的なコンテントを含む動画であると言える。

情報処理装置１００は、カメラ２００により撮像した講義動画に基づいて、講義動画に映る被操作体のうち重要領域を特定する。情報処理装置１００は、特定した重要領域に基づいて再生用画面を生成する。再生用画面は、ユーザ（以下では視聴者とも称する）により視聴される。そのため、視聴者は、講義動画を最初から視聴せずとも、特定された重要領域に基づいて動的に変化する筆記面における重要領域を認識することができ、利便性が向上する。なお、視聴者としては、講義を受講する学生、又は講師自身等が挙げられる。

さらに、情報処理装置１００は、特定した重要領域に基づいて講義動画に再生用インデックスを付与し、再生用インデックスに基づく再生用画面を生成する。視聴者は、再生用画面において、再生用インデックスを用いて講義動画の再生位置を指示しながら、講義動画を再生することができる。これにより、視聴者は、重要な説明がなされていると思しき場面を効率よく視聴することができる。

＜＜２．構成例＞＞
図２は、本実施形態に係るシステム１の構成の一例を説明するための図である。図２に示すように、システム１は、情報処理装置１００、カメラ２００、出力装置２１０及び操作装置２２０を含む。

カメラ２００は、上述したように、筆記情報が筆記された筆記面及び当該筆記面を指示しながら講義を行う講師の様子を撮像し、撮像した講義動画を情報処理装置１００に出力する。

出力装置２１０は、画像及び音声等によって、情報を出力する装置である。出力装置２１０は、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置、レーザープロジェクタ、ＬＥＤプロジェクタ及びランプ等の表示装置、並びにスピーカ及びヘッドホン等の音声出力装置により実現される。出力装置２１０は、情報処理装置１００による制御に基づき、講義動画及び講義動画に関連する情報を出力する。具体的には、出力装置２１０は、後述する再生用画面を出力する。

操作装置２２０は、視聴者による操作の入力を受け付ける装置である。操作装置２２０は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ、レバー、リモートコントロール装置又は外部接続機器等により実現される。操作装置２２０は、再生用画面における視聴者による操作を受け付けて、操作情報を情報処理装置１００に出力する。操作装置２２０は、後述する再生用画面に表示されたＵＩ（User Interface）要素を選択又は移動等する操作の入力を受け付ける。その際、再生用画面に表示されたポインタが操作されてもよいし、タッチ操作、タップ操作、フリック操作又はスワイプ操作等のタッチパネルに特有の操作が成されてもよい。また、操作装置２２０は、撮像装置を含み、ジェスチャ操作を受け付けてもよい。また、操作装置２２０は、音声入力装置を含み、音声入力を受け付けてもよい。また、操作装置２２０は、赤外線やその他の電波を利用したリモートコントロール装置又は情報処理装置１００の操作に対応した携帯電話やＰＤＡ等の外部接続機器であってもよく、これらの外部装置からの操作を受け付けてもよい。なお、出力装置２１０と操作装置２２０とは、タッチパネル型ディスプレイとして一体的に構成されてもよい。さらに、出力装置２１０と操作装置２２０とは、スマートフォン又はタブレット端末として、情報処理装置１００とは独立した他の情報処理装置として構成されてもよい。

情報処理装置１００は、システム１の動作全体を制御する装置である。情報処理装置１００は、ＰＣ（Personal Computer）、スマートフォン又はタブレット端末等により実現される。図２に示すように、情報処理装置１００は、取得部１１０、検出部１２０、生成部１３０、記憶部１４０、及び再生制御部１５０を含む。これらの構成要素を、システム１全体の動作を制御するための制御部として捉えることもできる。

取得部１１０は、カメラ２００により撮像された講義動画を取得する機能を有する。検出部１２０は、講義動画に基づいて、後述する指示位置を検出する機能を有する。生成部１３０は、検出部１２０により検出された指示位置に基づいて、後述する重要度マップを生成する機能を有する。記憶部１４０は、生成部１３０により生成された、講義動画の各時刻の重要度マップを記憶する機能を有する。再生制御部１５０は、記憶部１４０に記憶された重要度マップに基づいて再生用画面を生成し、再生用画面を出力する機能を有する。その際、記憶部１４０は、操作装置２２０から出力された操作情報に基づいて再生画面における表示内容を制御する。

情報処理装置１００による動作処理について、以下に詳しく説明する。

＜＜３．技術的特徴＞＞
＜３．１．指示位置検出処理＞
（１）特徴
検出部１２０は、講義動画における筆記面に対する講師の動作を認識し、講師の操作位置を検出する。講師の操作位置とは、筆記面における講師により操作される位置であり、より詳しくは、講師により指示される位置である。詳しくは、検出部１２０は、講義動画において、講師が筆記面のうちどこを指示しながら講義を行っているかを検出する。講師により指示される位置は、筆記面における位置として捉えられてもよいし、筆記面に筆記された筆記情報の位置として捉えられてもよい。

講師により指示される位置は、講師の手先（即ち、指先）又は講師が持つ指示器により指示される位置である。詳しくは、検出部１２０は、人差し指等の講師が指示する際に用いる指の指先の位置、又は最も筆記面との距離が近い若しくは筆記面に触れている指の指先の位置を、講師により指示される位置として検出し得る。また、検出部１２０は、レーザーポインタから照射されるレーザーの照射位置、指示棒の先端が筆記面に触れている場合は接触位置、又は支持棒の先端が筆記面に触れていない場合は指示棒の延長線上の筆記面の位置を、講師により指示される位置として検出し得る。講師により指示される位置を、以下では指示位置とも称する。

指示位置の検出方法は多様に考えられる。検出部１２０は、講義動画に基づき、講師の手先又は講師が持つ指示器を画像認識することで、指示位置を検出する。例えば、検出部１２０は、講義動画を構成する各フレームの静止画像から骨格形状（例えば、関節の位置）を抽出し、抽出した骨格形状に基づいて指示位置を検出してもよい。その場合、検出部１２０は、講義動画における各関節の位置を推定し、最も手先に近い関節の位置から手先へのオフセット分シフトさせた位置を、講義動画における指示位置として検出する。また、検出部１２０は、講義動画を構成する各フレームの静止画像から講師のシルエット形状を抽出し、抽出したシルエット形状に基づいて指示位置を検出してもよい。

他にも、カメラ２００を基準とする講師及び筆記面の深度情報が得られる場合には、検出部１２０は、深度情報に基づいて指示位置を検出してもよい。また、講師の身体（例えば、手）に慣性センサ（加速度センサ及び角速度センサ）が装着される場合には、検出部１２０は、当該慣性センサによるセンシング結果に基づいて指示位置を検出してもよい。また、筆記面に感圧センサ又は赤外センサ等の接触検知センサが設けられる場合には、検出部１２０は、これらのセンサによるセンシング結果に基づいて指示位置を検出してもよい。

（２）シルエット形状に基づく指示位置の検出
以下、図３〜図８を参照しながら、手先による指示位置がシルエット形状に基づいて検出される場合の処理について詳しく説明する。図３は、本実施形態に係る情報処理装置１００により実行される指示位置検出処理の流れの一例を示すフローチャートである。また、図４〜図８は、本実施形態に係る指示位置検出処理の一例を説明するための図である。

図３に示すように、まず、検出部１２０は、講師のシルエット曲線（換言するとシルエット）を抽出する（ステップＳ１０２）。例えば、検出部１２０は、背景差分を用いて講師のシルエットを抽出する。検出部１２０は、背景動画を内部で生成しつつ、カメラ２００から入力された講義動画と生成した背景動画との間の画素値の差分を算出し、所定の閾値以上の差が生じる画素を前景画素として抽出する。そして、検出部１２０は、前景画素を講師のシルエットとして抽出する。例えば、図４に示すように、検出部１２０は、講義動画１１に基づいて前景画素１２を抽出し、前景画素１２の輪郭であるシルエット曲線１４を含むシルエット画像１３を得る。シルエット画像１３においてシルエット曲線１４により囲まれる領域は、講義動画１１のうち講師に相当する領域である。

次いで、検出部１２０は、シルエット曲線を平滑化する（ステップＳ１０４）。詳しくは、検出部１２０は、シルエット曲線にフィルタ処理を適用して、シルエット曲線の細かな凹凸を削除することで、シルエット曲線を鈍らせる。例えば、図５に示すように、検出部１２０は、シルエット画像１３に含まれるシルエット曲線１４を平滑化して、平滑化されたシルエット曲線１６を含むシルエット画像１５を得る。

次に、検出部１２０は、講師の腕と胴体とが成す空間の位置を認識する（ステップＳ１０６）。例えば、図６に示すように、検出部１２０は、シルエット画像１５に含まれるシルエット曲線１６のうち、腕に相当する部分と胴体に相当する部分とが成す空間１７、並びに当該空間１７の上端水平線１８及び下端水平線１９を認識する。

次いで、検出部１２０は、左右の指示方向を判定する（ステップＳ１０８）。例えば、図７に示すように、検出部１２０は、シルエット画像１５に含まれるシルエット曲線１６を内包する矩形２０を想定する。そして、検出部１２０は、シルエット曲線１６により囲まれる領域の重心２１の位置が、矩形２０に対して右寄りか左寄りかを判定することにより、講師の身体に対して手先の位置が右にあるのか左にあるのかを推定する。一般に、重心の逆側に手先が位置する場合が多いので、検出部１２０は、シルエット曲線１６により囲まれる領域の重心２１の位置が矩形２０に対し右寄りの場合は手先が左側にあると判定し、その逆の場合は手先が右側にあると判定する。図７に示した例では、シルエット曲線１６により囲まれる領域の重心２１の位置が矩形２０に対し右寄りであるので、手先は左側にあると判定する。

次に、検出部１２０は、上下の指示方向を判定する（ステップＳ１１０）。例えば、図７に示すように、検出部１２０は、空間１７の位置が矩形２０に対し上寄りか下寄りかを判定することにより、講師の身体に対し手先の位置が上側にあるのか下側にあるのかを推定する。詳しくは、検出部１２０は、空間１７の位置が矩形２０に対し上寄りの場合は手先の位置が上側にあると判定し、その逆の場合は手先の位置が下側にあると判定する。図７に示した例では、空間１７の位置が矩形２０に対し下寄りにあるから、手先は下側にあると判定する。

そして、検出部１２０は、指示位置を決定する（ステップＳ１１２）。検出部１２０は、上記ステップＳ１０８及びＳ１１０における判定結果に基づいて指示位置を決定する。詳しくは、検出部１２０は、上端水平線１８及び下端水平線１９のうち、手先が位置すると判定した側の水平線を、手先の上下の位置とする。また、検出部１２０は、手先が位置すると判定した側の水平線の、空間１７に接する区間の左端又は右端のうち、手先が位置すると判定した側の端部を、手先の左右の位置とする。図７に示した例では、手先は下側且つ左側にあると判定されたので、検出部１２０は、下端水平線１９の、空間１７に接する区間の左端２２を、手先位置として決定する。

以上、指示位置検出処理の流れの一例を説明した。

上記説明した指示位置検出処理を、他の講師画像に適用した場合の例を、図８を参照しながら説明する。図８に示すように、情報処理装置１００に、講義動画３１が入力されたものとする。すると、検出部１２０は、講義動画３１に基づいて前景画素３２を抽出し、前景画素３２の輪郭であるシルエット曲線を抽出し、当該シルエット曲線を平滑化することで、平滑化されたシルエット曲線３６を含むシルエット画像３５を得る。次いで、図８に示すように、検出部１２０は、シルエット画像３５に含まれるシルエット曲線３６のうち、腕に相当する部分と胴体に相当する部分とが成す空間３７、並びに当該空間３７の上端水平線３８及び下端水平線３９を認識する。次いで、検出部１２０は、シルエット画像３５に含まれるシルエット曲線３６が内接する矩形４０を想定する。次に、検出部１２０は、シルエット曲線３６により囲まれる領域の重心４１の位置が、矩形４０に対して左寄りにあるので、手先は右側にあると判定する。また、検出部１２０は、空間３７の位置が矩形４０に対し上寄りにあるから、手先は上側にあると判定する。そして、検出部１２０は、手先は上側且つ右側にあると判定されたので、上端水平線３８の空間３７に接する区間の右端４２を、手先位置として決定する。

なお、上述したシルエット形状に基づく指示位置検出処理では、筆記面の近くで筆記情報を指している手先だけが検出されるとは限らない。例えば、講師が単に手を広げただけでも、その手先が検出され得る。しかし、そのような挙動における手先位置が検出されたとしても、情報処理装置１００は、後述する手先位置の累積値を計算することにより、重要領域を適切に特定することができる。

＜３．２．重要度マップ生成処理＞
（１）特徴
生成部１３０は、講義動画において講師により指示される位置に基づいて、講義動画における筆記情報が筆記された筆記面の重要領域を特定する。生成部１３０は、講義動画を構成する各静止画像における講師の指示位置に基づいて、重要領域を特定する。典型的な講師は、筆記情報が筆記された筆記面のうち重要な領域を指示しながら説明を行うと考えられる。この点、指示位置に基づいて重要領域が特定されるので、筆記面のうち重要な領域を適切に特定することが可能となる。

生成部１３０は、講義動画に映る筆記情報が筆記された筆記面の各領域について、指示位置が留まる時間（即ち、講師が指示する時間）の累積値を計算し、累積値が大きい領域を重要領域として特定する。生成部１３０は、講義動画に映る筆記面の各領域に関し、検出部１２０により検出された指示位置を時間方向に累積したマップを生成する。かかるマップは、指示位置の存在時間を累積した、累積存在マップとも捉えられる。累積存在マップは、例えば１領域１ビンとする二次元ヒストグラムである。そして、生成部１３０は、累積値（即ち、手先が存在する時間長）が大きい領域を重要領域として特定する。講義を通して講師が手を用いて長い時間指示した（換言すると、頻繁に指示した）領域の累積値は高くなり、そうでない領域の累積値は低くなる。従って、生成部１３０は、講義を通して講師が手を用いて頻繁に指示した領域を、重要領域として特定することができる。また、上述したように、指示位置検出処理では、講師が単に手を広げただけでも、その手先が検出され得る。この点、累積値に基づいて重要領域が特定されるので、そのような重要な部分を指示していない手先の位置を、重要領域として特定しないようにすることができる。

なお、累積値は、重要度として捉えることができる。即ち、ある領域を講師が指示する時間の累積値が高いほど、当該領域の重要度が高いと言える。

累積値を計算する上記領域は、画素であってもよい。即ち、生成部１３０は、画素ごとに指示位置を時間方向に累積し、１画素１ビンの２次元ヒストグラムを生成し、累積値が大きい画素を重要領域として特定する。生成部１３０は、画素単位で累積値を計算した上で、画素間で累積値を平滑化してもよい。これにより、画素間の累積値の差が滑らかになる。その場合、生成部１３０は、平滑化後の累積値が周囲よりも大きいひとまとまりの複数の画素を含む領域を、重要領域として特定する。

生成部１３０は、累積値を時間の経過に応じて減少（即ち、劣化）させる。生成部１３０は、講師により指示された領域の累積値を増加させる一方で、講師により指示されていない領域の累積値を減少させる。つまり、一度累積値が上がった領域でも、その後当該領域において指示位置が検出されなかった場合、累積値が減少していくこととなる。従って、各領域の累積値は、時間方向で指示される密度が高いほど高くなる。例えば、講師が時間的に集中して指示した領域の累積値が高くなる。そのため、生成部１３０は、講義動画を構成する各静止画像における重要領域を特定するだけでなく、当該重要領域が重点的に指示されて説明されるタイミングを特定することが可能である。

生成部１３０は、講義動画に映る筆記情報が筆記された筆記面に所定の変化が生じた場合に、累積値の減少を開始させる。所定の変化とは、例えば、書き換えられた、又は消された等である。このような変化が生じた場合に累積値を減少させることで、書き換えられた筆記情報を含む領域又は消されて何も筆記されていない領域を、誤って重要領域として特定することが防止される。

生成部１３０は、講義動画に重要領域を示す情報を重畳した重畳画像を生成する。詳しくは、生成部１３０は、講義動画を構成する各静止画において累積値を計算し、重要領域を特定する。そして、生成部１３０は、各静止画に対応する重要領域を示す情報を重畳することで、重畳画像を生成する。重畳画像における重要領域に相当する筆記面の領域は、講師が頻繁に指示した領域であるから、当該領域（に筆記された筆記情報）は重要であると言える。従って、重畳画像により、筆記面に筆記された筆記情報のうち重要な部分が認識容易になる。なお、重畳画像における重要領域を示す情報は、当該重要領域に含まれる領域（例えば、画素）ごとの累積値の高低を示す情報を含む。このようにして生成される重畳画像を、以下では重要度マップとも称する。

ここで、カメラ２００は、固定的に設置されるものとする。カメラの位置及び姿勢が固定であるから、講義動画における講師の指示位置と実際に講師により指示された筆記面上の位置との関係は不変である。そのため、生成部１３０は、講義動画における画素単位で指示位置を累積することで、重要領域を特定することができる。仮に、カメラ２００が位置及び姿勢が変更可能に設置される場合、講義動画における講師の指示位置と実際に講師により指示された筆記面上の位置との関係は変わり得る。その場合、生成部１３０は、カメラ２００の位置及び姿勢に基づいて、講義動画における講師の指示位置を、実際に講師により指示された筆記面上の位置に変換しながら、指示位置の累積値の計算を行う。

（２）具体的な処理
以下、図９〜図１１を参照しながら、重要度マップの生成処理について詳しく説明する。図９は、本実施形態に係る情報処理装置１００により実行される重要度マップの生成処理の流れの一例を示すフローチャートである。また、図１０及び図１１は、本実施形態に係る重要度マップの生成処理の一例を説明するための図である。

図９に示すように、まず、生成部１３０は、各画素における指示位置の累積値を計算する（ステップＳ２０２）。詳しくは、生成部１３０は、講義動画を構成する各静止画に映る筆記面の各画素に関し、検出部１２０により検出された指示位置を時間方向に累積しておき、１画素１ビンとする二次元ヒストグラムを生成する。次いで、生成部１３０は、二次元ヒストグラムにおいて画素間での累積値の平滑化を行う。

そして、生成部１３０は、累積値に応じて重要度マップを生成する（ステップＳ２０４）。詳しくは、まず、生成部１３０は、上記ステップＳ２０２において生成した二次元ヒストグラムにおいて、累積値が周囲よりも大きいひとまとまりの複数の画素を含む領域を、重要領域として特定する。例えば、図１０に示すように、生成部１３０は、二次元ヒストグラム５１における、平滑化後の累積値が周囲よりも大きいひとまとまりの複数の画素を含む領域５２Ａ及び５２Ｂを、重要領域として特定する。なお、図１０に示した例では、色が濃い領域ほどは累積値が大きい。そして、生成部１３０は、ステップＳ２０２の入力となった講義動画に、特定した重要領域を示す情報を重畳することで、重要度マップを生成する。例えば、図１１に示すように、生成部１３０は、講義動画５４に、重要領域を示す情報５５Ａ及び５２Ｂを重畳することで、重要度マップ５３を生成する。

重要度マップ５３は、重要領域の重要度を示す情報を示す情報を含んでいてもよい。重要領域の重要度とは、重要領域に含まれる各領域（各画素）の指示位置の累積値である。重要領域の重要度は、重要領域に含まれる各領域の指示位置の累積値の平均値、最大値、又は総和等の任意の統計量であってもよい。重要度マップ５３は、重要領域の重要度を示す情報として、重要度の数値そのものを含んでいてもよい。他にも、重要領域を示す情報の色、大きさ、又は形状等により、重要領域の重要度が示されてもよい。例えば、図１１に示した例では、重要領域を示す情報５５の中央の円の色が濃く、周囲に行くと徐々に色が薄くなる表現がなされており、この色の濃さが重要度を示す情報である。色が濃いほど重要度が高く、色が薄いほど重要度が低い。また、図１１に示した例において、重要領域を示す情報５５の円の大きさにより、重要度が示されてもよい。例えば、円が大きいほど重要度が高く、円が小さいほど重要度が低い。

＜３．３．再生制御処理＞
（１）インデックスの付与
再生制御部１５０は、重要度マップにおける重要領域の重要度に応じて、講義動画に再生用インデックスを付与する。再生用インデックスとは、講義動画を再生する際の、再生位置（再生を開始する時刻）の目安となる情報である。視聴者により再生用インデックスが選択されると、再生制御部１５０は、選択された再生用インデックスに対応する再生位置から講義動画を再生する。再生用インデックスが付与されることで、視聴者の利便性が向上する。

再生制御部１５０は、講義動画に含まれるひとつ以上の重要領域の各々の重要度の累積が開始されてから終了するまでの間の所定の条件を満たすタイミングにおいて、再生用インデックスを付与する。重要度の累積が開始されるタイミングとは、重要度が０ではなくなったタイミングであり、重要度の累積が終了するタイミングとは、重要度が０になったタイミングである。例えば、再生制御部１５０は、講義動画に含まれるひとつ以上の重要領域の各々の重要度がピークに達する時刻の各々において、再生用インデックスを付与する。ある重要領域に着目したとき、当該重要領域の重要度は、指示位置の累積値が大きくなるほど、即ち講師が指示する時間が長いほど大きくなる一方で、講師が指示しなくなると時間の経過に応じて減少する。従って、重要領域の重要度は、時間方向で講師により当該重要領域が指示される密度が高いタイミング、即ち当該重要領域が重点的に指示されて説明されるタイミングで、ピークに達する。そのため、重要領域の各々の重要度がピークに達する時刻の各々において再生用インデックスを付与することで、各々の重要領域が重点的に指示されて説明されるタイミングで、再生用インデックスを付与することが可能となる。他にも、再生制御部１５０は、重要領域の重要度が所定の閾値を超え続ける場合に、所定の閾値を超える最初のタイミング又は最後のタイミングの少なくともいずれかに再生用インデックスを付与してもよい。その場合、各々の重要領域が重点的に指示されて説明され始めたタイミング又は説明し終えたタイミングの少なくともいずれかに、再生用インデックスを付与することが可能となる。

（２）再生用画面
再生制御部１５０は、再生用画面を生成する。視聴者は、再生用画面において講義動画を再生し、視聴することができる。

再生制御部１５０は、重要度マップに基づいて再生位置を制御するための第１の領域を含む、再生用画面を生成する。第１の領域では、例えば、再生用インデックスが付与された時刻の重要度マップが表示される。第１の領域は、視聴者による重要度マップの選択、即ち再生用インデックスの選択を受け付ける領域である。第１の領域は、複数の重要度マップを含んでいてもよい。

再生制御部１５０は、第１の領域に含まれる重要度マップが視聴者により選択された場合、選択された重要度マップに対応する再生位置から、講義動画を再生する。選択された重要度マップ（即ち、再生用インデクス）に対応する再生位置とは、例えば、再生用インデックスが付与された時刻と同一の時刻である。その場合、視聴者は、重要度マップを選択することで、当該重要度マップにおける重要領域が重点的に説明されているタイミングから講義動画を視聴することができる。

選択された重要度マップに対応する再生位置は、再生用インデックスが付与された時刻と異なっていてもよい。とりわけ、再生制御部１５０は、選択された重要度マップの時刻よりも所定時間前の時刻を再生位置とすることが望ましい。これにより、講師が重点的な説明を行っている途中から再生が開示されることが防止され、視聴者は、講師の重点的な説明を初めから視聴することが可能となる。

例えば、再生制御部１５０は、第１の領域に含まれる重要度マップが視聴者により選択された場合、選択された重要度マップに含まれる重要領域の時間変化に応じた再生位置から、講義動画を再生してもよい。選択された重要度マップに含まれる重要領域の時間変化に応じた再生位置とは、重要領域に対応する筆記面に、筆記情報が筆記される直前の時刻、筆記されている最中の時刻、又は筆記完了の時刻である。これにより、視聴者は、講師が重点的に説明する筆記情報が、筆記される直前から、筆記途中から又は筆記完了時から、講義動画を視聴することができる。筆記情報を筆記しながら説明を行う講師、及び筆記情報を筆記し終えてから説明を行う講師等がいることを考慮すれば、このような再生位置の制御により視聴者の利便性はさらに向上する。

再生用画面は、上述した第１の領域と共に又は代えて、任意の領域を含み得る。例えば、再生用画面は、講義動画が再生される第２の領域と、講義動画の再生位置に対応する時刻の重要度マップが表示される第３の領域とを含み得る。これにより、視聴者は、再生中の講義動画における重要領域を把握しながら、講義動画を視聴することができる。

以下、図１２及び図１３を参照しながら、再生用画面の一例を説明する。

図１２は、本実施形態に係る講義動画の再生用画面の一例を示す図である。図１２に示した再生用画面６０は、第１の領域のみを含んでいる。詳しくは、再生用画面６０は、再生用インデックスが付された時刻の重要度マップ６１（６１Ａ〜６１Ｆ）を含んでいる。また、各々の重要度マップ６１には、重要度マップ６１の時刻（即ち、再生インデックスが付された時刻）を示す時刻表示６２（６２Ａ〜６２Ｆ）が関連付けられている。視聴者は、ポインタ６３を操作して任意の重要度マップ６１を選択することで、選択した重要度マップ６１に対応する再生位置から講義動画を再生させることができる。なお、ポインタ６３の操作の他に、タッチ操作等のタッチパネルに特有の操作、ジェスチャ操作、音声入力又は外部装置からの操作等により、重要度マップ６１が選択されてもよい。例えば、視聴者により重要度マップ６１Ａが選択されると、再生制御部１５０は、１２分５０秒の位置から講義動画を再生する。その際、講義動画を再生するための再生用ウィンドウが別途生成され得る。ここで、再生用画面６０では、重要度マップ６１は重要度が高い順にソートされており、再生用画面６０のうち上にある重要度マップ６１ほど重要度が高く、下にある重要度マップ６１ほど重要度が低い。従って、視聴者は、再生用画面６０の上から下にかけて重要度マップ６１を選択しながら講義動画を視聴することで、重要な説明がなされていると思しき場面を効率よく視聴することができる。

図１３は、本実施形態に係る講義動画の再生用画面の一例を示す図である。図１３に示した再生用画面７０は、第１の領域７１、第２の領域７２及び第３の領域７３を含んでいる。第１の領域７１の横軸は時間軸であり、縦軸は重要度である。図１３に示すように、第１の領域７１において、複数の重要度マップ７４は時間軸（即ち、横軸）に沿って並べられ、且つ再生用インデックスが付与された時刻の重要度マップ７４Ａ〜７４Ｆは強調されている。時間軸に沿って並べられるとは、講義動画において再生される順に一端から他端に向かって所定の方向に沿って並べられることを意味する。並べられる方向は、左から右へ、右から左へ、上から下へ、又は下から上へ等任意であり、２段以上で並べられてもよい。また、強調とは、他の重畳画像と比較して視聴者が認識容易に表示されることを意味する。図１３では、強調の一例として、重畳画像の枠が太く表示されているが、強調のされ方は図１３に示した例に限定されず、重畳画像の色又は濃淡の変化等により強調されてもよい。また、再生用インデックスが付与された時刻の重要度マップ７４Ａ〜７４Ｆには、それぞれの時刻表示が関連付けられている。このような表示により、視聴者は、時刻軸に沿って重要度マップ７４を見進めながら、どの時刻に重要度の高い内容が説明される場面があるかを容易に視認することができ、利便性が向上する。さらに、第１の領域７１において、複数の重要度マップ７４は、重要度マップに含まれる重要領域の重要度に応じて、重要度の軸（即ち、縦軸）に沿って並べられている。重要度の軸に沿って並べられるとは、重要度の順（例えば、大きい順又は小さい順）に一端から他端に向かって所定の方向に沿って並べられることを意味する。並べられる方向は、左から右へ、右から左へ、上から下へ、又は下から上へ等任意であり、２段以上で並べられてもよい。このような表示により、視聴者は、講義動画全体における重要度の増減を視認しながら再生位置を選択することが可能となり、利便性が向上する。視聴者は、ポインタ７５を操作して任意の重要度マップ７４を選択することで、第２の領域７２において、選択した重要度マップ７４に対応する再生位置から講義動画を再生させることができる。なお、ポインタ７５の操作の他に、タッチ操作等のタッチパネルに特有の操作、ジェスチャ操作、音声入力又は外部装置からの操作等により、重要度マップ７４が選択されてもよい。図１３に示した例では、重要度マップ７４Ｃが選択された例が示されている。第２の領域７２では、重要度マップ７４Ｃの時刻である１２分５０秒から講義動画が再生される。また、第３の領域７３では、１２分５０秒の時点における重要度マップが表示される。時刻表示７６は、第２の領域７２において再生中の講義動画の時刻を示している。

・変形例
上記では、第１の領域に、再生用インデックスが付与された時刻の重要度マップが表示される例を説明したが、本技術はかかる例に限定されない。例えば、再生制御部１５０は、筆記情報が筆記された筆記面の画像に、再生用インデックスが付与された複数の時刻における複数の重要領域を示す情報を重畳した画像を、第１の領域として含む再生用画面を生成してもよい。ここでの筆記情報が筆記された筆記面とは、一通り筆記情報が筆記された筆記面（例えば、全面に筆記情報が筆記された筆記面）である。再生制御部１５０は、講義動画における講師の位置が異なる各時刻の背景画素を繋ぎ合わせて合成することで、一通り筆記情報が筆記された筆記面の画像を生成する。このような再生制御により、視聴者は、一通り筆記情報が筆記された筆記面の内容、及び当該筆記面における複数の重要領域を一目で確認することができる。

再生制御部１５０は、第１の領域に含まれる重要領域を示す情報が視聴者により選択された場合、選択された重要領域を示す情報に対応する再生位置から、講義動画を再生する。選択された重要領域を示す情報に対応する再生位置とは、選択された重要領域を示す情報に対応する再生用インデックスが付与された時刻の、重要度マップに対応する再生位置である。重要度マップに対応する再生位置については、上述した通りである。このような再生制御により、視聴者は、筆記情報が筆記された筆記面における複数の重要領域を一目で確認しながら、各々の重要領域に関する説明がなされていると思しき場面を効率よく視聴することができる。

この場合の再生用画面の一例を、図１４を参照しながら説明する。

図１４は、本実施形態に係る講義動画の再生用画面の一例を示す図である。図１４に示す再生用画面８０では、一通り筆記情報が筆記された筆記面の画像８１に、再生用インデックスが付与された複数の時刻における複数の重要領域を示す情報８２（８２Ａ〜８２Ｆ）が重畳されている。図１４では、重要領域を示す情報８２は矩形で表示されているが、楕円形又は文字の輪郭に沿う曲線等の任意の形状で表示されてもよいし、重要領域に相当する文字が太字になる又は濃くなる等の文字スタイルを用いて表示されてもよい。また、各々の重要領域を示す情報８２には、各々の重要領域に対応する再生用インデックスが付与された時刻を示す時刻表示８３（８３Ａ〜８３Ｆ）が関連付けられている。さらに、各々の重要領域を示す情報８２には、各々の重要領域の認識結果を示す情報８４（８４Ａ〜８４Ｆ）が関連付けられている。ここでの認識結果とは、重要領域に含まれる文字の認識結果等の要約情報である。このような認識結果が関連付けられることで、視聴者は、重要領域の内容を容易に把握することが可能となる。視聴者は、図示しないポインタを操作して任意の重要領域を示す情報８２（又は時刻表示８３若しくは認識結果を示す情報８４）を選択することで、選択した重要領域を示す情報８２に対応する再生位置から講義動画を再生させることができる。例えば、視聴者により重要領域を示す情報８２Ａが選択されると、再生制御部１５０は、１２分５０秒の位置から講義動画を再生する。その際、講義動画を再生するための再生用ウィンドウが別途生成され得る。

なお、複数の重要領域が重複する場合には重要領域を示す情報８２は重複して表示され、視聴者による図示しないポインタを用いた選択によりいずれを最前面とするかが制御される。例えば、図１４では、重要領域を示す情報８２Ａ及び８２Ｅが重複しており、重要領域を示す情報８２Ｂ及び８２Ｆが重複しており、視聴者による操作に応じて、重要領域を示す情報８２Ｅ及び８２Ｂが最前面となっている。

（３）処理の流れ
以下、図１５を参照しながら、再生制御処理の流れの一例を説明する。図１５は、本実施形態に係る情報処理装置１００により実行される再生制御処理の流れの一例を示すフローチャートである。

図１５に示すように、まず、再生制御部１５０は、重要度マップに基づいて講義動画に再生用インデックスを付与する（ステップＳ３０２）。詳しくは、再生制御部１５０は、講義動画に含まれるひとつ以上の重要領域の各々の重要度がピークに達する時刻の各々において、再生用インデックスを付与する。

次いで、再生制御部１５０は、再生用画面を生成し、出力装置２１０により出力する（ステップＳ３０４、ステップＳ３０６）。詳しくは、再生制御部１５０は、第１の領域、第２の領域又は第３の領域の少なくともいずれかを含む再生用画面を生成する。再生用画面については、図１２〜図１４を参照して上記説明した通りである。

そして、再生制御部１５０は、操作装置２２０を介して入力された視聴者による操作に応じた再生位置から、講義動画を再生する（ステップＳ３０８）。詳しくは、再生制御部１５０は、第１の領域において選択された重要度マップに応じた再生位置（図１２又は図１３に示した例）、又は重要領域を示す情報に応じた再生位置（図１４に示した例）から、講義動画を再生する。

＜＜４．ハードウェア構成例＞＞
最後に、図１６を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図１６は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図１６に示す情報処理装置９００は、例えば、図２に示した情報処理装置１００を実現し得る。本実施形態に係る情報処理装置１００による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。

図１６に示すように、情報処理装置９００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３及びホストバス９０４ａを備える。また、情報処理装置９００は、ブリッジ９０４、外部バス９０４ｂ、インタフェース９０５、入力装置９０６、出力装置９０７、ストレージ装置９０８、ドライブ９０９、接続ポート９１１及び通信装置９１３を備える。情報処理装置９００は、ＣＰＵ９０１に代えて、又はこれとともに、電気回路、ＤＳＰ若しくはＡＳＩＣ等の処理回路を有してもよい。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置９００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。ＣＰＵ９０１は、例えば、図２に示す取得部１１０、検出部１２０、生成部１３０及び再生制御部１５０を形成し得る。本実施形態では、ＣＰＵ９０１は、講義動画を取得し、取得された講義動画に基づいて指示位置を検出し、検出された指示位置に基づいて重要度マップを生成し、生成した重要度マップに基づいて再生画面を生成して、講義動画の再生を制御する。

ＣＰＵ９０１、ＲＯＭ９０２及びＲＡＭ９０３は、ＣＰＵバスなどを含むホストバス９０４ａにより相互に接続されている。ホストバス９０４ａは、ブリッジ９０４を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９０４ｂに接続されている。なお、必ずしもホストバス９０４ａ、ブリッジ９０４および外部バス９０４ｂを分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

入力装置９０６は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置９０６は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置９００の操作に対応した携帯電話やＰＤＡ等の外部接続機器であってもよい。さらに、入力装置９０６は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などを含んでいてもよい。情報処理装置９００のユーザは、この入力装置９０６を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。入力装置９０６は、例えば、図２に示す操作装置２２０を形成し得る。即ち、情報処理装置１００及び操作装置２２０は、一体的に構成されてもよい。なお、入力装置９０６がタッチパネルとして構成される場合、入力装置９０６は、タッチ操作、タップ操作、フリック操作又はスワイプ操作等の入力を受け付け得る。

出力装置９０７は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置、レーザープロジェクタ、ＬＥＤプロジェクタ及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置９０７は、例えば、情報処理装置９００が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置９００が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。出力装置９０７は、例えば、図２に示す出力装置２１０を形成し得る。即ち、情報処理装置１００及び出力装置２１０は、一体的に構成されてもよい。

ストレージ装置９０８は、情報処理装置９００の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置９０８は、例えば、ＨＤＤ等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置９０８は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置９０８は、ＣＰＵ９０１が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置９０８は、例えば、図２に示す記憶部１４０を形成し得る。本実施形態では、ストレージ装置９０８は、生成部１３０により生成された重要度マップを記憶する。

ドライブ９０９は、記憶媒体用リーダライタであり、情報処理装置９００に内蔵、あるいは外付けされる。ドライブ９０９は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、ＲＡＭ９０３に出力する。また、ドライブ９０９は、リムーバブル記憶媒体に情報を書き込むこともできる。

接続ポート９１１は、外部機器と接続されるインタフェースであって、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）などによりデータ伝送可能な外部機器との接続口である。

通信装置９１３は、例えば、ネットワーク９２０に接続するための通信デバイス等で形成された通信インタフェースである。通信装置９１３は、例えば、有線若しくは無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード等である。また、通信装置９１３は、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ又は各種通信用のモデム等であってもよい。この通信装置９１３は、例えば、インターネットや他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。本実施形態では、取得部１１０は、通信装置９１３を介してカメラ２００から講義動画を取得し得る。

なお、ネットワーク９２０は、ネットワーク９２０に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク９２０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク９２０は、ＩＰ−ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ−ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

以上、本実施形態に係る情報処理装置９００の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。

なお、上述のような本実施形態に係る情報処理装置９００の各機能を実現するためのコンピュータプログラムを作製し、ＰＣ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。

＜＜５．応用例＞＞
本開示に係る技術は、様々な製品へ応用することができる。例えば、本開示に係る技術は、手術室システムに適用されてもよい。

図１７は、本開示に係る技術が適用され得る手術室システム５１００の全体構成を概略的に示す図である。図１７を参照すると、手術室システム５１００は、手術室内に設置される装置群が視聴覚コントローラ（AV Controller）５１０７及び手術室制御装置５１０９を介して互いに連携可能に接続されることにより構成される。

手術室には、様々な装置が設置され得る。図１７では、一例として、内視鏡下手術のための各種の装置群５１０１と、手術室の天井に設けられ術者の手元を撮像するシーリングカメラ５１８７と、手術室の天井に設けられ手術室全体の様子を撮像する術場カメラ５１８９と、複数の表示装置５１０３Ａ〜５１０３Ｄと、レコーダ５１０５と、患者ベッド５１８３と、照明５１９１と、を図示している。

ここで、これらの装置のうち、装置群５１０１は、後述する内視鏡手術システム５１１３に属するものであり、内視鏡や当該内視鏡によって撮像された画像を表示する表示装置等からなる。内視鏡手術システム５１１３に属する各装置は医療用機器とも呼称される。一方、表示装置５１０３Ａ〜５１０３Ｄ、レコーダ５１０５、患者ベッド５１８３及び照明５１９１は、内視鏡手術システム５１１３とは別個に、例えば手術室に備え付けられている装置である。これらの内視鏡手術システム５１１３に属さない各装置は非医療用機器とも呼称される。視聴覚コントローラ５１０７及び／又は手術室制御装置５１０９は、これら医療機器及び非医療機器の動作を互いに連携して制御する。

視聴覚コントローラ５１０７は、医療機器及び非医療機器における画像表示に関する処理を、統括的に制御する。具体的には、手術室システム５１００が備える装置のうち、装置群５１０１、シーリングカメラ５１８７及び術場カメラ５１８９は、手術中に表示すべき情報（以下、表示情報ともいう）を発信する機能を有する装置（以下、発信元の装置とも呼称する）であり得る。また、表示装置５１０３Ａ〜５１０３Ｄは、表示情報が出力される装置（以下、出力先の装置とも呼称する）であり得る。また、レコーダ５１０５は、発信元の装置及び出力先の装置の双方に該当する装置であり得る。視聴覚コントローラ５１０７は、発信元の装置及び出力先の装置の動作を制御し、発信元の装置から表示情報を取得するとともに、当該表示情報を出力先の装置に送信し、表示又は記録させる機能を有する。なお、表示情報とは、手術中に撮像された各種の画像や、手術に関する各種の情報（例えば、患者の身体情報や、過去の検査結果、術式についての情報等）等である。

具体的には、視聴覚コントローラ５１０７には、装置群５１０１から、表示情報として、内視鏡によって撮像された患者の体腔内の術部の画像についての情報が送信され得る。また、シーリングカメラ５１８７から、表示情報として、当該シーリングカメラ５１８７によって撮像された術者の手元の画像についての情報が送信され得る。また、術場カメラ５１８９から、表示情報として、当該術場カメラ５１８９によって撮像された手術室全体の様子を示す画像についての情報が送信され得る。なお、手術室システム５１００に撮像機能を有する他の装置が存在する場合には、視聴覚コントローラ５１０７は、表示情報として、当該他の装置からも当該他の装置によって撮像された画像についての情報を取得してもよい。

あるいは、例えば、レコーダ５１０５には、過去に撮像されたこれらの画像についての情報が視聴覚コントローラ５１０７によって記録されている。視聴覚コントローラ５１０７は、表示情報として、レコーダ５１０５から当該過去に撮像された画像についての情報を取得することができる。なお、レコーダ５１０５には、手術に関する各種の情報も事前に記録されていてもよい。

視聴覚コントローラ５１０７は、出力先の装置である表示装置５１０３Ａ〜５１０３Ｄの少なくともいずれかに、取得した表示情報（すなわち、手術中に撮影された画像や、手術に関する各種の情報）を表示させる。図示する例では、表示装置５１０３Ａは手術室の天井から吊り下げられて設置される表示装置であり、表示装置５１０３Ｂは手術室の壁面に設置される表示装置であり、表示装置５１０３Ｃは手術室内の机上に設置される表示装置であり、表示装置５１０３Ｄは表示機能を有するモバイル機器（例えば、タブレットＰＣ（Personal Computer））である。

また、図１７では図示を省略しているが、手術室システム５１００には、手術室の外部の装置が含まれてもよい。手術室の外部の装置は、例えば、病院内外に構築されたネットワークに接続されるサーバや、医療スタッフが用いるＰＣ、病院の会議室に設置されるプロジェクタ等であり得る。このような外部装置が病院外にある場合には、視聴覚コントローラ５１０７は、遠隔医療のために、テレビ会議システム等を介して、他の病院の表示装置に表示情報を表示させることもできる。

手術室制御装置５１０９は、非医療機器における画像表示に関する処理以外の処理を、統括的に制御する。例えば、手術室制御装置５１０９は、患者ベッド５１８３、シーリングカメラ５１８７、術場カメラ５１８９及び照明５１９１の駆動を制御する。

手術室システム５１００には、集中操作パネル５１１１が設けられており、ユーザは、当該集中操作パネル５１１１を介して、視聴覚コントローラ５１０７に対して画像表示についての指示を与えたり、手術室制御装置５１０９に対して非医療機器の動作についての指示を与えることができる。集中操作パネル５１１１は、表示装置の表示面上にタッチパネルが設けられて構成される。

図１８は、集中操作パネル５１１１における操作画面の表示例を示す図である。図１８では、一例として、手術室システム５１００に、出力先の装置として、２つの表示装置が設けられている場合に対応する操作画面を示している。図１８を参照すると、操作画面５１９３には、発信元選択領域５１９５と、プレビュー領域５１９７と、コントロール領域５２０１と、が設けられる。

発信元選択領域５１９５には、手術室システム５１００に備えられる発信元装置と、当該発信元装置が有する表示情報を表すサムネイル画面と、が紐付けられて表示される。ユーザは、表示装置に表示させたい表示情報を、発信元選択領域５１９５に表示されているいずれかの発信元装置から選択することができる。

プレビュー領域５１９７には、出力先の装置である２つの表示装置（Monitor1、Monitor2）に表示される画面のプレビューが表示される。図示する例では、１つの表示装置において４つの画像がＰｉｎＰ表示されている。当該４つの画像は、発信元選択領域５１９５において選択された発信元装置から発信された表示情報に対応するものである。４つの画像のうち、１つはメイン画像として比較的大きく表示され、残りの３つはサブ画像として比較的小さく表示される。ユーザは、４つの画像が表示された領域を適宜選択することにより、メイン画像とサブ画像を入れ替えることができる。また、４つの画像が表示される領域の下部には、ステータス表示領域５１９９が設けられており、当該領域に手術に関するステータス（例えば、手術の経過時間や、患者の身体情報等）が適宜表示され得る。

コントロール領域５２０１には、発信元の装置に対して操作を行うためのＧＵＩ（Graphical User Interface）部品が表示される発信元操作領域５２０３と、出力先の装置に対して操作を行うためのＧＵＩ部品が表示される出力先操作領域５２０５と、が設けられる。図示する例では、発信元操作領域５２０３には、撮像機能を有する発信元の装置におけるカメラに対して各種の操作（パン、チルト及びズーム）を行うためのＧＵＩ部品が設けられている。ユーザは、これらのＧＵＩ部品を適宜選択することにより、発信元の装置におけるカメラの動作を操作することができる。なお、図示は省略しているが、発信元選択領域５１９５において選択されている発信元の装置がレコーダである場合（すなわち、プレビュー領域５１９７において、レコーダに過去に記録された画像が表示されている場合）には、発信元操作領域５２０３には、当該画像の再生、再生停止、巻き戻し、早送り等の操作を行うためのＧＵＩ部品が設けられ得る。

また、出力先操作領域５２０５には、出力先の装置である表示装置における表示に対する各種の操作（スワップ、フリップ、色調整、コントラスト調整、２Ｄ表示と３Ｄ表示の切り替え）を行うためのＧＵＩ部品が設けられている。ユーザは、これらのＧＵＩ部品を適宜選択することにより、表示装置における表示を操作することができる。

なお、集中操作パネル５１１１に表示される操作画面は図示する例に限定されず、ユーザは、集中操作パネル５１１１を介して、手術室システム５１００に備えられる、視聴覚コントローラ５１０７及び手術室制御装置５１０９によって制御され得る各装置に対する操作入力が可能であってよい。

図１９は、以上説明した手術室システムが適用された手術の様子の一例を示す図である。シーリングカメラ５１８７及び術場カメラ５１８９は、手術室の天井に設けられ、患者ベッド５１８３上の患者５１８５の患部に対して処置を行う術者（医者）５１８１の手元及び手術室全体の様子を撮影可能である。シーリングカメラ５１８７及び術場カメラ５１８９には、倍率調整機能、焦点距離調整機能、撮影方向調整機能等が設けられ得る。照明５１９１は、手術室の天井に設けられ、少なくとも術者５１８１の手元を照射する。照明５１９１は、その照射光量、照射光の波長（色）及び光の照射方向等を適宜調整可能であってよい。

内視鏡手術システム５１１３、患者ベッド５１８３、シーリングカメラ５１８７、術場カメラ５１８９及び照明５１９１は、図１７に示すように、視聴覚コントローラ５１０７及び手術室制御装置５１０９（図１９では図示せず）を介して互いに連携可能に接続されている。手術室内には、集中操作パネル５１１１が設けられており、上述したように、ユーザは、当該集中操作パネル５１１１を介して、手術室内に存在するこれらの装置を適宜操作することが可能である。

以下、内視鏡手術システム５１１３の構成について詳細に説明する。図示するように、内視鏡手術システム５１１３は、内視鏡５１１５と、その他の術具５１３１と、内視鏡５１１５を支持する支持アーム装置５１４１と、内視鏡下手術のための各種の装置が搭載されたカート５１５１と、から構成される。

内視鏡手術では、腹壁を切って開腹する代わりに、トロッカ５１３９ａ〜５１３９ｄと呼ばれる筒状の開孔器具が腹壁に複数穿刺される。そして、トロッカ５１３９ａ〜５１３９ｄから、内視鏡５１１５の鏡筒５１１７や、その他の術具５１３１が患者５１８５の体腔内に挿入される。図示する例では、その他の術具５１３１として、気腹チューブ５１３３、エネルギー処置具５１３５及び鉗子５１３７が、患者５１８５の体腔内に挿入されている。また、エネルギー処置具５１３５は、高周波電流や超音波振動により、組織の切開及び剥離、又は血管の封止等を行う処置具である。ただし、図示する術具５１３１はあくまで一例であり、術具５１３１としては、例えば攝子、レトラクタ等、一般的に内視鏡下手術において用いられる各種の術具が用いられてよい。

内視鏡５１１５によって撮影された患者５１８５の体腔内の術部の画像が、表示装置５１５５に表示される。術者５１８１は、表示装置５１５５に表示された術部の画像をリアルタイムで見ながら、エネルギー処置具５１３５や鉗子５１３７を用いて、例えば患部を切除する等の処置を行う。なお、図示は省略しているが、気腹チューブ５１３３、エネルギー処置具５１３５及び鉗子５１３７は、手術中に、術者５１８１又は助手等によって支持される。

（支持アーム装置）
支持アーム装置５１４１は、ベース部５１４３から延伸するアーム部５１４５を備える。図示する例では、アーム部５１４５は、関節部５１４７ａ、５１４７ｂ、５１４７ｃ、及びリンク５１４９ａ、５１４９ｂから構成されており、アーム制御装置５１５９からの制御により駆動される。アーム部５１４５によって内視鏡５１１５が支持され、その位置及び姿勢が制御される。これにより、内視鏡５１１５の安定的な位置の固定が実現され得る。

（内視鏡）
内視鏡５１１５は、先端から所定の長さの領域が患者５１８５の体腔内に挿入される鏡筒５１１７と、鏡筒５１１７の基端に接続されるカメラヘッド５１１９と、から構成される。図示する例では、硬性の鏡筒５１１７を有するいわゆる硬性鏡として構成される内視鏡５１１５を図示しているが、内視鏡５１１５は、軟性の鏡筒５１１７を有するいわゆる軟性鏡として構成されてもよい。

鏡筒５１１７の先端には、対物レンズが嵌め込まれた開口部が設けられている。内視鏡５１１５には光源装置５１５７が接続されており、当該光源装置５１５７によって生成された光が、鏡筒５１１７の内部に延設されるライトガイドによって当該鏡筒の先端まで導光され、対物レンズを介して患者５１８５の体腔内の観察対象に向かって照射される。なお、内視鏡５１１５は、直視鏡であってもよいし、斜視鏡又は側視鏡であってもよい。

カメラヘッド５１１９の内部には光学系及び撮像素子が設けられており、観察対象からの反射光（観察光）は当該光学系によって当該撮像素子に集光される。当該撮像素子によって観察光が光電変換され、観察光に対応する電気信号、すなわち観察像に対応する画像信号が生成される。当該画像信号は、ＲＡＷデータとしてカメラコントロールユニット（ＣＣＵ：Camera Control Unit）５１５３に送信される。なお、カメラヘッド５１１９には、その光学系を適宜駆動させることにより、倍率及び焦点距離を調整する機能が搭載される。

なお、例えば立体視（３Ｄ表示）等に対応するために、カメラヘッド５１１９には撮像素子が複数設けられてもよい。この場合、鏡筒５１１７の内部には、当該複数の撮像素子のそれぞれに観察光を導光するために、リレー光学系が複数系統設けられる。

（カートに搭載される各種の装置）
ＣＣＵ５１５３は、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等によって構成され、内視鏡５１１５及び表示装置５１５５の動作を統括的に制御する。具体的には、ＣＣＵ５１５３は、カメラヘッド５１１９から受け取った画像信号に対して、例えば現像処理（デモザイク処理）等の、当該画像信号に基づく画像を表示するための各種の画像処理を施す。ＣＣＵ５１５３は、当該画像処理を施した画像信号を表示装置５１５５に提供する。また、ＣＣＵ５１５３には、図１７に示す視聴覚コントローラ５１０７が接続される。ＣＣＵ５１５３は、画像処理を施した画像信号を視聴覚コントローラ５１０７にも提供する。また、ＣＣＵ５１５３は、カメラヘッド５１１９に対して制御信号を送信し、その駆動を制御する。当該制御信号には、倍率や焦点距離等、撮像条件に関する情報が含まれ得る。当該撮像条件に関する情報は、入力装置５１６１を介して入力されてもよいし、上述した集中操作パネル５１１１を介して入力されてもよい。

表示装置５１５５は、ＣＣＵ５１５３からの制御により、当該ＣＣＵ５１５３によって画像処理が施された画像信号に基づく画像を表示する。内視鏡５１１５が例えば４Ｋ（水平画素数３８４０×垂直画素数２１６０）又は８Ｋ（水平画素数７６８０×垂直画素数４３２０）等の高解像度の撮影に対応したものである場合、及び／又は３Ｄ表示に対応したものである場合には、表示装置５１５５としては、それぞれに対応して、高解像度の表示が可能なもの、及び／又は３Ｄ表示可能なものが用いられ得る。４Ｋ又は８Ｋ等の高解像度の撮影に対応したものである場合、表示装置５１５５として５５インチ以上のサイズのものを用いることで一層の没入感が得られる。また、用途に応じて、解像度、サイズが異なる複数の表示装置５１５５が設けられてもよい。

光源装置５１５７は、例えばＬＥＤ（light emitting diode）等の光源から構成され、術部を撮影する際の照射光を内視鏡５１１５に供給する。

アーム制御装置５１５９は、例えばＣＰＵ等のプロセッサによって構成され、所定のプログラムに従って動作することにより、所定の制御方式に従って支持アーム装置５１４１のアーム部５１４５の駆動を制御する。

入力装置５１６１は、内視鏡手術システム５１１３に対する入力インタフェースである。ユーザは、入力装置５１６１を介して、内視鏡手術システム５１１３に対して各種の情報の入力や指示入力を行うことができる。例えば、ユーザは、入力装置５１６１を介して、患者の身体情報や、手術の術式についての情報等、手術に関する各種の情報を入力する。また、例えば、ユーザは、入力装置５１６１を介して、アーム部５１４５を駆動させる旨の指示や、内視鏡５１１５による撮像条件（照射光の種類、倍率及び焦点距離等）を変更する旨の指示、エネルギー処置具５１３５を駆動させる旨の指示等を入力する。

入力装置５１６１の種類は限定されず、入力装置５１６１は各種の公知の入力装置であってよい。入力装置５１６１としては、例えば、マウス、キーボード、タッチパネル、スイッチ、フットスイッチ５１７１及び／又はレバー等が適用され得る。入力装置５１６１としてタッチパネルが用いられる場合には、当該タッチパネルは表示装置５１５５の表示面上に設けられてもよい。

あるいは、入力装置５１６１は、例えばメガネ型のウェアラブルデバイスやＨＭＤ（Head Mounted Display）等の、ユーザによって装着されるデバイスであり、これらのデバイスによって検出されるユーザのジェスチャや視線に応じて各種の入力が行われる。また、入力装置５１６１は、ユーザの動きを検出可能なカメラを含み、当該カメラによって撮像された映像から検出されるユーザのジェスチャや視線に応じて各種の入力が行われる。更に、入力装置５１６１は、ユーザの声を収音可能なマイクロフォンを含み、当該マイクロフォンを介して音声によって各種の入力が行われる。このように、入力装置５１６１が非接触で各種の情報を入力可能に構成されることにより、特に清潔域に属するユーザ（例えば術者５１８１）が、不潔域に属する機器を非接触で操作することが可能となる。また、ユーザは、所持している術具から手を離すことなく機器を操作することが可能となるため、ユーザの利便性が向上する。

処置具制御装置５１６３は、組織の焼灼、切開又は血管の封止等のためのエネルギー処置具５１３５の駆動を制御する。気腹装置５１６５は、内視鏡５１１５による視野の確保及び術者の作業空間の確保の目的で、患者５１８５の体腔を膨らめるために、気腹チューブ５１３３を介して当該体腔内にガスを送り込む。レコーダ５１６７は、手術に関する各種の情報を記録可能な装置である。プリンタ５１６９は、手術に関する各種の情報を、テキスト、画像又はグラフ等各種の形式で印刷可能な装置である。

以下、内視鏡手術システム５１１３において特に特徴的な構成について、更に詳細に説明する。

（支持アーム装置）
支持アーム装置５１４１は、基台であるベース部５１４３と、ベース部５１４３から延伸するアーム部５１４５と、を備える。図示する例では、アーム部５１４５は、複数の関節部５１４７ａ、５１４７ｂ、５１４７ｃと、関節部５１４７ｂによって連結される複数のリンク５１４９ａ、５１４９ｂと、から構成されているが、図１９では、簡単のため、アーム部５１４５の構成を簡略化して図示している。実際には、アーム部５１４５が所望の自由度を有するように、関節部５１４７ａ〜５１４７ｃ及びリンク５１４９ａ、５１４９ｂの形状、数及び配置、並びに関節部５１４７ａ〜５１４７ｃの回転軸の方向等が適宜設定され得る。例えば、アーム部５１４５は、好適に、６自由度以上の自由度を有するように構成され得る。これにより、アーム部５１４５の可動範囲内において内視鏡５１１５を自由に移動させることが可能になるため、所望の方向から内視鏡５１１５の鏡筒５１１７を患者５１８５の体腔内に挿入することが可能になる。

関節部５１４７ａ〜５１４７ｃにはアクチュエータが設けられており、関節部５１４７ａ〜５１４７ｃは当該アクチュエータの駆動により所定の回転軸まわりに回転可能に構成されている。当該アクチュエータの駆動がアーム制御装置５１５９によって制御されることにより、各関節部５１４７ａ〜５１４７ｃの回転角度が制御され、アーム部５１４５の駆動が制御される。これにより、内視鏡５１１５の位置及び姿勢の制御が実現され得る。この際、アーム制御装置５１５９は、力制御又は位置制御等、各種の公知の制御方式によってアーム部５１４５の駆動を制御することができる。

例えば、術者５１８１が、入力装置５１６１（フットスイッチ５１７１を含む）を介して適宜操作入力を行うことにより、当該操作入力に応じてアーム制御装置５１５９によってアーム部５１４５の駆動が適宜制御され、内視鏡５１１５の位置及び姿勢が制御されてよい。当該制御により、アーム部５１４５の先端の内視鏡５１１５を任意の位置から任意の位置まで移動させた後、その移動後の位置で固定的に支持することができる。なお、アーム部５１４５は、いわゆるマスタースレイブ方式で操作されてもよい。この場合、アーム部５１４５は、手術室から離れた場所に設置される入力装置５１６１を介してユーザによって遠隔操作され得る。

また、力制御が適用される場合には、アーム制御装置５１５９は、ユーザからの外力を受け、その外力にならってスムーズにアーム部５１４５が移動するように、各関節部５１４７ａ〜５１４７ｃのアクチュエータを駆動させる、いわゆるパワーアシスト制御を行ってもよい。これにより、ユーザが直接アーム部５１４５に触れながらアーム部５１４５を移動させる際に、比較的軽い力で当該アーム部５１４５を移動させることができる。従って、より直感的に、より簡易な操作で内視鏡５１１５を移動させることが可能となり、ユーザの利便性を向上させることができる。

ここで、一般的に、内視鏡下手術では、スコピストと呼ばれる医師によって内視鏡５１１５が支持されていた。これに対して、支持アーム装置５１４１を用いることにより、人手によらずに内視鏡５１１５の位置をより確実に固定することが可能になるため、術部の画像を安定的に得ることができ、手術を円滑に行うことが可能になる。

なお、アーム制御装置５１５９は必ずしもカート５１５１に設けられなくてもよい。また、アーム制御装置５１５９は必ずしも１つの装置でなくてもよい。例えば、アーム制御装置５１５９は、支持アーム装置５１４１のアーム部５１４５の各関節部５１４７ａ〜５１４７ｃにそれぞれ設けられてもよく、複数のアーム制御装置５１５９が互いに協働することにより、アーム部５１４５の駆動制御が実現されてもよい。

（光源装置）
光源装置５１５７は、内視鏡５１１５に術部を撮影する際の照射光を供給する。光源装置５１５７は、例えばＬＥＤ、レーザ光源又はこれらの組み合わせによって構成される白色光源から構成される。このとき、ＲＧＢレーザ光源の組み合わせにより白色光源が構成される場合には、各色（各波長）の出力強度及び出力タイミングを高精度に制御することができるため、光源装置５１５７において撮像画像のホワイトバランスの調整を行うことができる。また、この場合には、ＲＧＢレーザ光源それぞれからのレーザ光を時分割で観察対象に照射し、その照射タイミングに同期してカメラヘッド５１１９の撮像素子の駆動を制御することにより、ＲＧＢそれぞれに対応した画像を時分割で撮像することも可能である。当該方法によれば、当該撮像素子にカラーフィルタを設けなくても、カラー画像を得ることができる。

また、光源装置５１５７は、出力する光の強度を所定の時間ごとに変更するようにその駆動が制御されてもよい。その光の強度の変更のタイミングに同期してカメラヘッド５１１９の撮像素子の駆動を制御して時分割で画像を取得し、その画像を合成することにより、いわゆる黒つぶれ及び白とびのない高ダイナミックレンジの画像を生成することができる。

また、光源装置５１５７は、特殊光観察に対応した所定の波長帯域の光を供給可能に構成されてもよい。特殊光観察では、例えば、体組織における光の吸収の波長依存性を利用して、通常の観察時における照射光（すなわち、白色光）に比べて狭帯域の光を照射することにより、粘膜表層の血管等の所定の組織を高コントラストで撮影する、いわゆる狭帯域光観察（Narrow Band Imaging）が行われる。あるいは、特殊光観察では、励起光を照射することにより発生する蛍光により画像を得る蛍光観察が行われてもよい。蛍光観察では、体組織に励起光を照射し当該体組織からの蛍光を観察するもの（自家蛍光観察）、又はインドシアニングリーン（ICG）等の試薬を体組織に局注するとともに当該体組織にその試薬の蛍光波長に対応した励起光を照射し蛍光像を得るもの等が行われ得る。光源装置５１５７は、このような特殊光観察に対応した狭帯域光及び／又は励起光を供給可能に構成され得る。

（カメラヘッド及びＣＣＵ）
図２０を参照して、内視鏡５１１５のカメラヘッド５１１９及びＣＣＵ５１５３の機能についてより詳細に説明する。図２０は、図１９に示すカメラヘッド５１１９及びＣＣＵ５１５３の機能構成の一例を示すブロック図である。

図２０を参照すると、カメラヘッド５１１９は、その機能として、レンズユニット５１２１と、撮像部５１２３と、駆動部５１２５と、通信部５１２７と、カメラヘッド制御部５１２９と、を有する。また、ＣＣＵ５１５３は、その機能として、通信部５１７３と、画像処理部５１７５と、制御部５１７７と、を有する。カメラヘッド５１１９とＣＣＵ５１５３とは、伝送ケーブル５１７９によって双方向に通信可能に接続されている。

まず、カメラヘッド５１１９の機能構成について説明する。レンズユニット５１２１は、鏡筒５１１７との接続部に設けられる光学系である。鏡筒５１１７の先端から取り込まれた観察光は、カメラヘッド５１１９まで導光され、当該レンズユニット５１２１に入射する。レンズユニット５１２１は、ズームレンズ及びフォーカスレンズを含む複数のレンズが組み合わされて構成される。レンズユニット５１２１は、撮像部５１２３の撮像素子の受光面上に観察光を集光するように、その光学特性が調整されている。また、ズームレンズ及びフォーカスレンズは、撮像画像の倍率及び焦点の調整のため、その光軸上の位置が移動可能に構成される。

撮像部５１２３は撮像素子によって構成され、レンズユニット５１２１の後段に配置される。レンズユニット５１２１を通過した観察光は、当該撮像素子の受光面に集光され、光電変換によって、観察像に対応した画像信号が生成される。撮像部５１２３によって生成された画像信号は、通信部５１２７に提供される。

撮像部５１２３を構成する撮像素子としては、例えばＣＭＯＳ（Complementary Metal Oxide Semiconductor）タイプのイメージセンサであり、Ｂａｙｅｒ配列を有するカラー撮影可能なものが用いられる。なお、当該撮像素子としては、例えば４Ｋ以上の高解像度の画像の撮影に対応可能なものが用いられてもよい。術部の画像が高解像度で得られることにより、術者５１８１は、当該術部の様子をより詳細に把握することができ、手術をより円滑に進行することが可能となる。

また、撮像部５１２３を構成する撮像素子は、３Ｄ表示に対応する右目用及び左目用の画像信号をそれぞれ取得するための１対の撮像素子を有するように構成される。３Ｄ表示が行われることにより、術者５１８１は術部における生体組織の奥行きをより正確に把握することが可能になる。なお、撮像部５１２３が多板式で構成される場合には、各撮像素子に対応して、レンズユニット５１２１も複数系統設けられる。

また、撮像部５１２３は、必ずしもカメラヘッド５１１９に設けられなくてもよい。例えば、撮像部５１２３は、鏡筒５１１７の内部に、対物レンズの直後に設けられてもよい。

駆動部５１２５は、アクチュエータによって構成され、カメラヘッド制御部５１２９からの制御により、レンズユニット５１２１のズームレンズ及びフォーカスレンズを光軸に沿って所定の距離だけ移動させる。これにより、撮像部５１２３による撮像画像の倍率及び焦点が適宜調整され得る。

通信部５１２７は、ＣＣＵ５１５３との間で各種の情報を送受信するための通信装置によって構成される。通信部５１２７は、撮像部５１２３から得た画像信号をＲＡＷデータとして伝送ケーブル５１７９を介してＣＣＵ５１５３に送信する。この際、術部の撮像画像を低レイテンシで表示するために、当該画像信号は光通信によって送信されることが好ましい。手術の際には、術者５１８１が撮像画像によって患部の状態を観察しながら手術を行うため、より安全で確実な手術のためには、術部の動画像が可能な限りリアルタイムに表示されることが求められるからである。光通信が行われる場合には、通信部５１２７には、電気信号を光信号に変換する光電変換モジュールが設けられる。画像信号は当該光電変換モジュールによって光信号に変換された後、伝送ケーブル５１７９を介してＣＣＵ５１５３に送信される。

また、通信部５１２７は、ＣＣＵ５１５３から、カメラヘッド５１１９の駆動を制御するための制御信号を受信する。当該制御信号には、例えば、撮像画像のフレームレートを指定する旨の情報、撮像時の露出値を指定する旨の情報、並びに／又は撮像画像の倍率及び焦点を指定する旨の情報等、撮像条件に関する情報が含まれる。通信部５１２７は、受信した制御信号をカメラヘッド制御部５１２９に提供する。なお、ＣＣＵ５１５３からの制御信号も、光通信によって伝送されてもよい。この場合、通信部５１２７には、光信号を電気信号に変換する光電変換モジュールが設けられ、制御信号は当該光電変換モジュールによって電気信号に変換された後、カメラヘッド制御部５１２９に提供される。

なお、上記のフレームレートや露出値、倍率、焦点等の撮像条件は、取得された画像信号に基づいてＣＣＵ５１５３の制御部５１７７によって自動的に設定される。つまり、いわゆるＡＥ（Auto Exposure）機能、ＡＦ（Auto Focus）機能及びＡＷＢ（Auto White Balance）機能が内視鏡５１１５に搭載される。

カメラヘッド制御部５１２９は、通信部５１２７を介して受信したＣＣＵ５１５３からの制御信号に基づいて、カメラヘッド５１１９の駆動を制御する。例えば、カメラヘッド制御部５１２９は、撮像画像のフレームレートを指定する旨の情報及び／又は撮像時の露光を指定する旨の情報に基づいて、撮像部５１２３の撮像素子の駆動を制御する。また、例えば、カメラヘッド制御部５１２９は、撮像画像の倍率及び焦点を指定する旨の情報に基づいて、駆動部５１２５を介してレンズユニット５１２１のズームレンズ及びフォーカスレンズを適宜移動させる。カメラヘッド制御部５１２９は、更に、鏡筒５１１７やカメラヘッド５１１９を識別するための情報を記憶する機能を備えてもよい。

なお、レンズユニット５１２１や撮像部５１２３等の構成を、気密性及び防水性が高い密閉構造内に配置することで、カメラヘッド５１１９について、オートクレーブ滅菌処理に対する耐性を持たせることができる。

次に、ＣＣＵ５１５３の機能構成について説明する。通信部５１７３は、カメラヘッド５１１９との間で各種の情報を送受信するための通信装置によって構成される。通信部５１７３は、カメラヘッド５１１９から、伝送ケーブル５１７９を介して送信される画像信号を受信する。この際、上記のように、当該画像信号は好適に光通信によって送信され得る。この場合、光通信に対応して、通信部５１７３には、光信号を電気信号に変換する光電変換モジュールが設けられる。通信部５１７３は、電気信号に変換した画像信号を画像処理部５１７５に提供する。

また、通信部５１７３は、カメラヘッド５１１９に対して、カメラヘッド５１１９の駆動を制御するための制御信号を送信する。当該制御信号も光通信によって送信されてよい。

画像処理部５１７５は、カメラヘッド５１１９から送信されたＲＡＷデータである画像信号に対して各種の画像処理を施す。当該画像処理としては、例えば現像処理、高画質化処理（帯域強調処理、超解像処理、ＮＲ（Noise reduction）処理及び／又は手ブレ補正処理等）、並びに／又は拡大処理（電子ズーム処理）等、各種の公知の信号処理が含まれる。また、画像処理部５１７５は、ＡＥ、ＡＦ及びＡＷＢを行うための、画像信号に対する検波処理を行う。

画像処理部５１７５は、ＣＰＵやＧＰＵ等のプロセッサによって構成され、当該プロセッサが所定のプログラムに従って動作することにより、上述した画像処理や検波処理が行われ得る。なお、画像処理部５１７５が複数のＧＰＵによって構成される場合には、画像処理部５１７５は、画像信号に係る情報を適宜分割し、これら複数のＧＰＵによって並列的に画像処理を行う。

制御部５１７７は、内視鏡５１１５による術部の撮像、及びその撮像画像の表示に関する各種の制御を行う。例えば、制御部５１７７は、カメラヘッド５１１９の駆動を制御するための制御信号を生成する。この際、撮像条件がユーザによって入力されている場合には、制御部５１７７は、当該ユーザによる入力に基づいて制御信号を生成する。あるいは、内視鏡５１１５にＡＥ機能、ＡＦ機能及びＡＷＢ機能が搭載されている場合には、制御部５１７７は、画像処理部５１７５による検波処理の結果に応じて、最適な露出値、焦点距離及びホワイトバランスを適宜算出し、制御信号を生成する。

また、制御部５１７７は、画像処理部５１７５によって画像処理が施された画像信号に基づいて、術部の画像を表示装置５１５５に表示させる。この際、制御部５１７７は、各種の画像認識技術を用いて術部画像内における各種の物体を認識する。例えば、制御部５１７７は、術部画像に含まれる物体のエッジの形状や色等を検出することにより、鉗子等の術具、特定の生体部位、出血、エネルギー処置具５１３５使用時のミスト等を認識することができる。制御部５１７７は、表示装置５１５５に術部の画像を表示させる際に、その認識結果を用いて、各種の手術支援情報を当該術部の画像に重畳表示させる。手術支援情報が重畳表示され、術者５１８１に提示されることにより、より安全かつ確実に手術を進めることが可能になる。

カメラヘッド５１１９及びＣＣＵ５１５３を接続する伝送ケーブル５１７９は、電気信号の通信に対応した電気信号ケーブル、光通信に対応した光ファイバ、又はこれらの複合ケーブルである。

ここで、図示する例では、伝送ケーブル５１７９を用いて有線で通信が行われていたが、カメラヘッド５１１９とＣＣＵ５１５３との間の通信は無線で行われてもよい。両者の間の通信が無線で行われる場合には、伝送ケーブル５１７９を手術室内に敷設する必要がなくなるため、手術室内における医療スタッフの移動が当該伝送ケーブル５１７９によって妨げられる事態が解消され得る。

以上、本開示に係る技術が適用され得る手術室システム５１００の一例について説明した。なお、ここでは、一例として手術室システム５１００が適用される医療用システムが内視鏡手術システム５１１３である場合について説明したが、手術室システム５１００の構成はかかる例に限定されない。例えば、手術室システム５１００は、内視鏡手術システム５１１３に代えて、検査用軟性内視鏡システムや顕微鏡手術システムに適用されてもよい。

本開示に係る技術は、以上説明した構成のうち、例えば視聴覚コントローラ５１０７に好適に適用され得る。具体的には、視聴覚コントローラ５１０７が上述した取得部１１０、検出部１２０、生成部１３０、記憶部１４０及び再生制御部１５０等の機能を有し、入力される動画（画像データ及び音声データ）に基づいて重要度マップを生成し、重要度マップに基づく出力画像を出力してもよい。

本開示に係る技術が視聴覚コントローラ５１０７に適用される場合、入力される画像データは、例えばシーリングカメラ５１８７、術場カメラ５１８９、内視鏡５１１５等のカメラの撮像により取得される画像、あるいはレコーダ５１０５に記憶された画像であってもよい。例えば、術場カメラ５１８９の撮像により取得された画像と内視鏡５１１５の撮像により取得された画像とが、入力される画像データであってもよい。あるいは、内視鏡５１１５の撮像により取得された画像と不図示の顕微鏡の撮像により取得された画像とが、入力される画像データであってもよい。あるいは、術場カメラ５１８９の撮像により取得された画像と術者に装着された不図示の視線カメラ（ウェアラブルカメラ）の撮像により取得された画像とが、入力される画像データであってもよい。

また、本開示に係る技術が視聴覚コントローラ５１０７に適用される場合、入力される音声データは、例えば、入力装置５１６１により取得される音声データであってもよい。
他にも、シーリングカメラ５１８７、術場カメラ５１８９、又は内視鏡５１１５等のカメラに図示しない音声入力装置が併設されていてもよく、これらの音声入力装置により取得された音声データが、入力される音声データであってもよい。

本開示に係る技術が視聴覚コントローラ５１０７に適用される場合、物理空間における被操作体とは術部、患者５１８５、患部又は手術室の様子であり、操作者とは術者５１８１、又は術者５１８１以外の医療スタッフである。また、操作位置とは、術者５１８１又は術者５１８１以外の医療スタッフの手先、又は術具の先端等である。例えば、視聴覚コントローラ５１０７は、術部を背景とする術者５１８１の手元の動画（以下、手術動画とも称する）に基づいて、手元の位置情報を累積し、重要度マップを生成する。これにより、視聴覚コントローラ５１０７は、手術動画のうち術者５１８１が集中的に処置した部位（即ち、治療のための重要な部位）を、重要領域として特定することができる。

本開示に係る技術が視聴覚コントローラ５１０７に適用される場合、上記重要度マップに基づいて再生用画面を生成し、再生制御を行う。例えば、視聴覚コントローラ５１０７は、重要度マップに基づいて手術動画に再生用インデックスを付与する。視聴者は、再生用インデックスを用いて手術動画を再生させることで、術者５１８１が集中的に処置した部位の処置の様子を効率的に視聴することができる。この場合、視聴者とは、術者５１８１を監督する上司、患者５１８５の家族、患者５１８５自身又は手術動画を用いて手術の学習を行う学生若しくは研修医である。視聴者が術者５１８１を監督する上司、患者５１８５の家族、又は患者５１８５自身である場合には、術者５１８１は、術後に、手術の様子を効率的に見せながら説明することができる。また、視聴者が学生又は研修医である場合には、視聴者が学生又は研修医を効率的に視聴しながら学習することができる。

本開示に係る技術が視聴覚コントローラ５１０７に適用される場合、再生用画面のうち第１の領域が発信元操作領域５２０３に表示され、第２の領域及び第３の領域がプレビュー領域５１９７に表示され得る。視聴者は、発信元操作領域５２０３を操作することで、手術動画の再生位置を制御する。そして、プレビュー領域５１９７において、発信元操作領域５２０３において操作された再生位置から手術動画が再生されると共に、再生中の手術動画の重要度マップが表示される。この場合、視聴者は、手術中の術者５１８１、又は術者５１８１以外の医療スタッフである。術者５１８１又は術者５１８１以外の医療スタッフは、手術中に手術の内容を効率的に振り返ることができるので、処置し忘れ、及び当てたガーゼの取り忘れ等を防止することができる。

＜＜６．まとめ＞＞
以上、図１〜図２０を参照して、本開示の一実施形態について詳細に説明した。上記説明したように、本実施形態に係る情報処理装置１００は、動画における被操作体に対する操作者の動作を認識し、操作者の操作位置に基づいて、動画における被操作体の重要領域を特定する。これにより、例えば講義動画において、筆記情報が筆記された筆記面において、講師が指示しながら説明した重要と思われる領域を効率よく特定することができる。換言すると、筆記情報が筆記された筆記面のうち、講師が重要であると認識している部分を可視化することができる。これにより、講義動画を視聴する学生は、効率的に学習することができる。また、講義動画を講師自身が視聴することで、講師は反省を促され、よりよい授業形成が促進される。

また、情報処理装置１００は、重要領域を特定する際に計算した指示位置の累積値に基づいて講義動画に再生用インデックスを付与する。これにより、視聴者は、時間軸順ではなく重要な場面から順に視聴を進めるなど、効率よく講義動画を視聴することができる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、上記実施形態では、本技術の適用先として、講義及び手術の例を説明したが、本技術は係る例に限定されない。

例えば、本技術は、農業に適用されてもよい。農業においては、被操作体とは農場であり、操作者は農業従事者である。情報処理装置１００は、農場と当該農場で働く農業従事者を撮像した動画（以下、農業動画とも称する）に基づいて、農場のうち重要領域を特定する。重要領域は、農業動画に映る農場の各領域について農業従事者により操作される時間の累積値に基づいて特定される。農業従事者により操作される位置とは、農業従事者の手先又は農具により操作される位置である。例えば、農場のうち、農業従事者が時間をかけて作業を行った領域が重要領域として特定され、かかる重要領域への作業が行われる時刻に再生用インデックスが付与される。視聴者は、例えば農業を学ぶ学生である。学生は、再生用インデックスを用いて、重要な作業が行われた部分を効率的に再生しながら、学習を行うことができる。視聴者は、農業従事者自身であってもよい。農業従事者は、再生用インデックスを用いて、自身の作業の履歴を効率よく振り返ることができるので、例えば種を植えたが水をやり忘れた領域や雑草を抜き忘れた領域を、効率的に発見することができる。

また、本技術は、講義、手術室システム及び農業の他にも、固定的に設置されるカメラにより操作者と操作者の背景となる被操作体とを含む動画が撮像される任意のユースケースに適用可能である。例えば、本技術は、監視カメラ、及び家庭内の見守り用カメラ等に適用可能である。また、本技術は、プレゼンテーション資料を用いた講義にも適用可能である。その場合、情報処理装置１００は、１枚ずつのプレゼンテーション資料について、重要領域を特定することができる。

例えば、本技術は、非固定的に設置されるカメラが用いられるユースケースに適用されてもよい。例えば、本技術は、ユーザに装着されて位置及び姿勢が変化しながらユーザの生活を記録する、いわゆるライフログカメラに適用されてもよい。この場合、操作者とはライフログカメラに映る任意の人であり、被操作体とは操作者の後ろに映る背景全般である。ただし、ライフログカメラでは、カメラの位置及び姿勢が任意に変化するので、仮に操作者が操作する位置が不変であっても、動画に映る操作位置は変わり得る。そのため、情報処理装置１００は、カメラの周囲の物体の配置及び形状等を示す情報を含む環境マップにおけるカメラの位置及び姿勢を推定しながら、操作者及び被操作体の位置関係を推定し、被操作体における重要領域を特定してもよい。その際には、例えばカメラの位置及び姿勢とカメラの画像に映る特徴点の位置とを同時に推定可能な、ＳＬＡＭ（Simultaneous Localization And Mapping）とよばれる技術が用いられ得る。

また、本明細書においてフローチャート及びシーケンス図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
動画における被操作体に対する操作者の動作を認識し、前記操作者の操作位置に基づいて、前記動画における前記被操作体の重要領域を特定する制御部、
を備える情報処理装置。
（２）
前記制御部は、前記動画に前記重要領域を示す情報を重畳した重畳画像を生成する、前記（１）に記載の情報処理装置。
（３）
前記制御部は、再生用インデックスが付与された時刻の前記重畳画像が表示される第１の領域を含む再生用画面を生成する、前記（２）に記載の情報処理装置。
（４）
前記第１の領域において、複数の前記重畳画像は、前記動画において再生される順に一端から他端に向かって所定の方向に沿って並べられ、且つ前記再生用インデックスが付与された時刻の前記重畳画像は他の前記重畳画像と比較して認識容易に表示される、前記（３）に記載の情報処理装置。
（５）
前記第１の領域において、複数の前記重畳画像は、前記重畳画像に含まれる前記重要領域の重要度の順に一端から他端に向かって所定の方向に沿って並べられる、前記（４）に記載の情報処理装置。
（６）
前記制御部は、前記重要領域の重要度に応じて、前記動画に前記再生用インデックスを付与する、前記（３）〜（５）のいずれか一項に記載の情報処理装置。
（７）
前記制御部は、前記動画に含まれるひとつ以上の前記重要領域の各々の重要度の累積が開始されてから終了するまでの間の所定の条件を満たすタイミングにおいて、前記再生用インデックスを付与する、前記（６）に記載の情報処理装置。
（８）
前記制御部は、前記動画に含まれるひとつ以上の前記重要領域の各々の重要度がピークに達する時刻の各々において前記再生用インデックスを付与する、前記（７）に記載の情報処理装置。
（９）
前記再生用画面は、前記動画が再生される第２の領域と、前記動画の再生位置に対応する時刻の前記重畳画像が表示される第３の領域とをさらに含む、前記（３）〜（８）のいずれか一項に記載の情報処理装置。
（１０）
前記制御部は、前記第１の領域に含まれる前記重畳画像が視聴者により選択された場合、選択された前記重畳画像に対応する再生位置から、前記動画を再生する、前記（９）に記載の情報処理装置。
（１１）
前記制御部は、前記第１の領域に含まれる前記重畳画像が視聴者により選択された場合、選択された前記重畳画像に含まれる前記重要領域の時間変化に応じた再生位置から、前記動画を再生する、前記（１０）に記載の情報処理装置。
（１２）
前記再生用画面は、前記被操作体の画像に、前記再生用インデックスが付与された複数の時刻における複数の前記重要領域を示す情報を重畳した画像を含む、前記（３）に記載の情報処理装置。
（１３）
前記重要領域を示す情報には、前記重要領域の認識結果を示す情報が関連付けられる、前記（１２）に記載の情報処理装置。
（１４）
前記制御部は、前記動画に映る前記被操作体の各領域について前記操作位置が留まる時間の累積値を計算し、前記累積値が大きい領域を前記重要領域として特定する、前記（１）〜（１３）のいずれか一項に記載の情報処理装置。
（１５）
前記制御部は、前記累積値を時間の経過に応じて減少させる、前記（１４）に記載の情報処理装置。
（１６）
前記制御部は、前記動画に映る前記被操作体に所定の変化が生じた場合に、前記累積値の減少を開始させる、前記（１５）に記載の情報処理装置。
（１７）
前記被操作体は、情報が筆記された筆記面であり、前記操作位置は、前記操作者の手先の位置又は前記操作者が持つ指示器により指示される位置である、前記（１）〜（１６）のいずれか一項に記載の情報処理装置。
（１８）
動画における被操作体に対する操作者の操作位置に基づいて特定された、前記動画における前記被操作体の重要領域を示す情報が、前記動画に重畳された重畳画像の表示を制御する制御部、
を備える情報処理装置。
（１９）
動画における被操作体に対する操作者の動作を認識し、前記操作者の操作位置に基づいて、前記動画における前記被操作体の重要領域を特定すること、
を含む、プロセッサにより実行される情報処理方法。
（２０）
コンピュータを、
動画における被操作体に対する操作者の動作を認識し、前記操作者の操作位置に基づいて、前記動画における前記被操作体の重要領域を特定する制御部、
として機能させるためのプログラム。

１システム
２被操作体
３操作者
１００情報処理装置
１１０取得部
１２０検出部
１３０生成部
１４０記憶部
１５０再生制御部
２００カメラ
２１０出力装置
２２０操作装置

Claims

動画における被操作体に対する操作者の動作を認識し、前記操作者の操作位置に基づいて、前記動画における前記被操作体の重要領域を特定する制御部、
を備える情報処理装置。
前記制御部は、前記動画に前記重要領域を示す情報を重畳した重畳画像を生成する、請求項１に記載の情報処理装置。
前記制御部は、再生用インデックスが付与された時刻の前記重畳画像が表示される第１の領域を含む再生用画面を生成する、請求項２に記載の情報処理装置。
前記第１の領域において、複数の前記重畳画像は、前記動画において再生される順に一端から他端に向かって所定の方向に沿って並べられ、且つ前記再生用インデックスが付与された時刻の前記重畳画像は他の前記重畳画像と比較して認識容易に表示される、請求項３に記載の情報処理装置。
前記第１の領域において、複数の前記重畳画像は、前記重畳画像に含まれる前記重要領域の重要度の順に一端から他端に向かって所定の方向に沿って並べられる、請求項４に記載の情報処理装置。
前記制御部は、前記重要領域の重要度に応じて、前記動画に前記再生用インデックスを付与する、請求項３に記載の情報処理装置。
前記制御部は、前記動画に含まれるひとつ以上の前記重要領域の各々の重要度の累積が開始されてから終了するまでの間の所定の条件を満たすタイミングにおいて、前記再生用インデックスを付与する、請求項６に記載の情報処理装置。
前記制御部は、前記動画に含まれるひとつ以上の前記重要領域の各々の重要度がピークに達する時刻の各々において前記再生用インデックスを付与する、請求項７に記載の情報処理装置。
前記再生用画面は、前記動画が再生される第２の領域と、前記動画の再生位置に対応する時刻の前記重畳画像が表示される第３の領域とをさらに含む、請求項３に記載の情報処理装置。
前記制御部は、前記第１の領域に含まれる前記重畳画像が視聴者により選択された場合、選択された前記重畳画像に対応する再生位置から、前記動画を再生する、請求項９に記載の情報処理装置。
前記制御部は、前記第１の領域に含まれる前記重畳画像が視聴者により選択された場合、選択された前記重畳画像に含まれる前記重要領域の時間変化に応じた再生位置から、前記動画を再生する、請求項１０に記載の情報処理装置。
前記再生用画面は、前記被操作体の画像に、前記再生用インデックスが付与された複数の時刻における複数の前記重要領域を示す情報を重畳した画像を含む、請求項３に記載の情報処理装置。
前記重要領域を示す情報には、前記重要領域の認識結果を示す情報が関連付けられる、請求項１２に記載の情報処理装置。
前記制御部は、前記動画に映る前記被操作体の各領域について前記操作位置が留まる時間の累積値を計算し、前記累積値が大きい領域を前記重要領域として特定する、請求項１に記載の情報処理装置。
前記制御部は、前記累積値を時間の経過に応じて減少させる、請求項１４に記載の情報処理装置。
前記制御部は、前記動画に映る前記被操作体に所定の変化が生じた場合に、前記累積値の減少を開始させる、請求項１５に記載の情報処理装置。
前記被操作体は、情報が筆記された筆記面であり、前記操作位置は、前記操作者の手先の位置又は前記操作者が持つ指示器により指示される位置である、請求項１に記載の情報処理装置。
動画における被操作体に対する操作者の操作位置に基づいて特定された、前記動画における前記被操作体の重要領域を示す情報が、前記動画に重畳された重畳画像の表示を制御する制御部、
を備える情報処理装置。
動画における被操作体に対する操作者の動作を認識し、前記操作者の操作位置に基づいて、前記動画における前記被操作体の重要領域を特定すること、
を含む、プロセッサにより実行される情報処理方法。
コンピュータを、
動画における被操作体に対する操作者の動作を認識し、前記操作者の操作位置に基づいて、前記動画における前記被操作体の重要領域を特定する制御部、
として機能させるためのプログラム。