JPWO2019123762A1 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JPWO2019123762A1
JPWO2019123762A1 JP2019560810A JP2019560810A JPWO2019123762A1 JP WO2019123762 A1 JPWO2019123762 A1 JP WO2019123762A1 JP 2019560810 A JP2019560810 A JP 2019560810A JP 2019560810 A JP2019560810 A JP 2019560810A JP WO2019123762 A1 JPWO2019123762 A1 JP WO2019123762A1
Authority
JP
Japan
Prior art keywords
image
information processing
moving image
important
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019560810A
Other languages
English (en)
Other versions
JP7192792B2 (ja
Inventor
省吾 高梨
省吾 高梨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2019123762A1 publication Critical patent/JPWO2019123762A1/ja
Application granted granted Critical
Publication of JP7192792B2 publication Critical patent/JP7192792B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0354Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of 2D relative movements between the device, or an operating part thereof, and a plane or surface, e.g. 2D mice, trackballs, pens or pucks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • G06F3/042Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means
    • G06F3/0425Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means using a single imaging device like a video camera for tracking the absolute position of a single or a plurality of objects with respect to an imaged reference surface, e.g. video camera imaging a display or a projection screen, a table or a wall surface, on which a computer generated image is displayed or projected
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/02Electrically-operated educational appliances with visual presentation of the material to be studied, e.g. using film strip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Analysis (AREA)

Abstract

【課題】動的なコンテントを含む動画のうち重要領域を効率的に特定することが可能な仕組みを提供する。【解決手段】動画における被操作体に対する操作者の動作を認識し、前記操作者の操作位置に基づいて、前記動画における前記被操作体の重要領域を特定する制御部、を備える情報処理装置。【選択図】図1

Description

本開示は、情報処理装置、情報処理方法及びプログラムに関する。
近年、カメラ性能の向上、及び記憶媒体の容量増加等に伴い、動画の撮影が広く行われている。一方で、動画の再生には時間がかかる。また、広い画面のどこを注視するべきかは、最初から動画を視聴しなければ分かりづらい。そのため、動画を効率的に視聴可能にするための技術が求められている。
例えば、下記特許文献1では、レーザーポインタを用いて行われたプレゼンテーション資料の説明のビデオ録画動画における、レーザーポインタの指示位置に基づいて、プレゼンテーション資料に含まれる情報毎の重要度を求める技術が開示されている。
特開2006−228059号公報
しかし、上記特許文献1に記載の技術は、適用対象がプレゼンテーション資料を含む動画に限られる。プレゼンテーション資料は、1枚1枚が変化しない又は限定的な変化しかしない静的なコンテントである。よって、上記特許文献1に記載の技術は、動的なコンテントを含む動画を適用対象にすることが困難であると言える。
そこで、本開示では、動的なコンテントを含む動画のうち重要領域を効率的に特定することが可能な仕組みを提案する。
本開示によれば、動画における被操作体に対する操作者の動作を認識し、前記操作者の操作位置に基づいて、前記動画における前記被操作体の重要領域を特定する制御部、
を備える情報処理装置が提供される。
また、本開示によれば、動画における被操作体に対する操作者の操作位置に基づいて特定された、前記動画における前記被操作体の重要領域を示す情報が、前記動画に重畳された重畳画像の表示を制御する制御部、を備える情報処理装置が提供される。
また、本開示によれば、動画における被操作体に対する操作者の動作を認識し、前記操作者の操作位置に基づいて、前記動画における前記被操作体の重要領域を特定すること、を含む、プロセッサにより実行される情報処理方法が提供される。
また、本開示によれば、コンピュータを、動画における被操作体に対する操作者の動作を認識し、前記操作者の操作位置に基づいて、前記動画における前記被操作体の重要領域を特定する制御部、として機能させるためのプログラムが提供される。
以上説明したように本開示によれば、動的なコンテントを含む動画のうち重要領域を効率的に特定することが可能な仕組みが提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係るシステムの概要を説明するための図である。 本実施形態に係るシステムの構成の一例を説明するための図である。 本実施形態に係る情報処理装置により実行される指示位置検出処理の流れの一例を示すフローチャートである。 本実施形態に係る指示位置検出処理の一例を説明するための図である。 本実施形態に係る指示位置検出処理の一例を説明するための図である。 本実施形態に係る指示位置検出処理の一例を説明するための図である。 本実施形態に係る指示位置検出処理の一例を説明するための図である。 本実施形態に係る指示位置検出処理の一例を説明するための図である。 本実施形態に係る情報処理装置により実行される重要度マップの生成処理の流れの一例を示すフローチャートである。 本実施形態に係る重要度マップの生成処理の一例を説明するための図である。 本実施形態に係る重要度マップの生成処理の一例を説明するための図である。 本実施形態に係る講義動画の再生用画面の一例を示す図である。 本実施形態に係る講義動画の再生用画面の一例を示す図である。 本実施形態に係る講義動画の再生用画面の一例を示す図である。 本実施形態に係る情報処理装置により実行される再生制御処理の流れの一例を示すフローチャートである。 本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。 手術室システムの全体構成を概略的に示す図である。 集中操作パネルにおける操作画面の表示例を示す図である。 手術室システムが適用された手術の様子の一例を示す図である。 図19に示すカメラヘッド及びCCUの機能構成の一例を示すブロック図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.はじめに
2.構成例
3.技術的特徴
3.1.指示位置検出処理
3.2.重要度マップ生成処理
3.3.再生制御処理
4.ハードウェア構成例
5.応用例
6.まとめ
<<1.はじめに>>
まず、図1を参照しながら、本開示の一実施形態に係るシステムの概要を説明する。
図1は、本開示の一実施形態に係るシステムの概要を説明するための図である。図1に示すように、システム1は、情報処理装置100及び情報処理装置100に接続されるカメラ200を含む。
カメラ200は、撮像装置及び音声入力装置を含む。撮像装置は、撮像レンズ、絞り、ズームレンズ、及びフォーカスレンズ等により構成されるレンズ系、レンズ系に対してフォーカス動作やズーム動作を行わせる駆動系、レンズ系で得られる撮像光を光電変換して撮像信号を生成する固体撮像素子アレイ等を含む。音声入力装置は、周囲の音を収音するマイクロフォン、マイクロフォンで得られた音声信号を増幅処理するマイクアンプ回路、A/D変換器、及びノイズキャンセラ等の信号処理回路を含む。カメラ200は、デジタル信号とされた画像データ及び撮像時の音声のデータを出力する。
カメラ200は、物理空間における物体を撮像対象として、静止画及び動画を撮像可能である。本実施形態では、カメラ200は、物理空間における被操作体2及び当該物理空間における操作者3を撮像対象として動画を撮像する。動画とは、複数の静止画像(画像データ)及び各々の静止画像の再生時刻を含むデータである。動画が再生される際には、再生時刻の順に静止画像が連続的に再生される。動画を構成する静止画像は、フレームとも称される。動画の表示速度は、フレームレートとも称され、1秒間当たりに表示されるフレームの数(FPS:Frame Per Second)で表される。動画は、画像データの再生と共に再生されるべき音声データを含んでいてもよい。以下では、一例として、動画は画像データと音声データとを含む概念であるものとして説明する。
被操作体2は、点、線、文字、文章、数式、記号、絵又は画像等の視覚的な情報を含む物体である。本実施形態では、被操作体2は、情報(以下、筆記情報とも称する。)が筆記された筆記面である。筆記面は、黒板、ホワイトボード、電子ペーパー、又はタッチパネル等であり、筆記情報は、チョーク、マーカー、スタイラス又は指等により筆記面に筆記される。被操作体2は、動的なコンテントの一例である。動的なコンテントとは、動的に変化する物体又は空間である。動的なコンテントの一例として、操作者により操作される被操作体が挙げられる。これとは逆に、静的なコンテントとは、変化が静的又は準静的な物体又は空間である。静的なコンテントの一例として、プレゼンテーション資料を表示するディスプレイ、又はプレゼンテーション資料が投影される投影面が挙げられる。
操作者3は、被操作体2に対して動作を行う人である。操作者3は、被操作体2の各部分を、手又は手に持つレーザーポインタ若しくは指示棒等の指示器で指示しながら被操作体2の説明を行う。
以下では、操作者3は、被操作体2を用いて講義を行う講師であり、被操作体2は、筆記情報が筆記された筆記面であるものとして説明する。また、カメラ200により撮像される動画を、講義動画とも称する。
カメラ200は、筆記情報が筆記された筆記面(被操作体2)及び当該筆記面を指示しながら講義を行う講師(操作者3)の様子を撮像する。講師は、典型的には筆記面に筆記情報を筆記しながら説明を行う。そのため、講義動画は、内容が動的に変化する筆記面、即ち動的なコンテントを含む動画であると言える。
情報処理装置100は、カメラ200により撮像した講義動画に基づいて、講義動画に映る被操作体のうち重要領域を特定する。情報処理装置100は、特定した重要領域に基づいて再生用画面を生成する。再生用画面は、ユーザ(以下では視聴者とも称する)により視聴される。そのため、視聴者は、講義動画を最初から視聴せずとも、特定された重要領域に基づいて動的に変化する筆記面における重要領域を認識することができ、利便性が向上する。なお、視聴者としては、講義を受講する学生、又は講師自身等が挙げられる。
さらに、情報処理装置100は、特定した重要領域に基づいて講義動画に再生用インデックスを付与し、再生用インデックスに基づく再生用画面を生成する。視聴者は、再生用画面において、再生用インデックスを用いて講義動画の再生位置を指示しながら、講義動画を再生することができる。これにより、視聴者は、重要な説明がなされていると思しき場面を効率よく視聴することができる。
<<2.構成例>>
図2は、本実施形態に係るシステム1の構成の一例を説明するための図である。図2に示すように、システム1は、情報処理装置100、カメラ200、出力装置210及び操作装置220を含む。
カメラ200は、上述したように、筆記情報が筆記された筆記面及び当該筆記面を指示しながら講義を行う講師の様子を撮像し、撮像した講義動画を情報処理装置100に出力する。
出力装置210は、画像及び音声等によって、情報を出力する装置である。出力装置210は、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置、レーザープロジェクタ、LEDプロジェクタ及びランプ等の表示装置、並びにスピーカ及びヘッドホン等の音声出力装置により実現される。出力装置210は、情報処理装置100による制御に基づき、講義動画及び講義動画に関連する情報を出力する。具体的には、出力装置210は、後述する再生用画面を出力する。
操作装置220は、視聴者による操作の入力を受け付ける装置である。操作装置220は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ、レバー、リモートコントロール装置又は外部接続機器等により実現される。操作装置220は、再生用画面における視聴者による操作を受け付けて、操作情報を情報処理装置100に出力する。操作装置220は、後述する再生用画面に表示されたUI(User Interface)要素を選択又は移動等する操作の入力を受け付ける。その際、再生用画面に表示されたポインタが操作されてもよいし、タッチ操作、タップ操作、フリック操作又はスワイプ操作等のタッチパネルに特有の操作が成されてもよい。また、操作装置220は、撮像装置を含み、ジェスチャ操作を受け付けてもよい。また、操作装置220は、音声入力装置を含み、音声入力を受け付けてもよい。また、操作装置220は、赤外線やその他の電波を利用したリモートコントロール装置又は情報処理装置100の操作に対応した携帯電話やPDA等の外部接続機器であってもよく、これらの外部装置からの操作を受け付けてもよい。なお、出力装置210と操作装置220とは、タッチパネル型ディスプレイとして一体的に構成されてもよい。さらに、出力装置210と操作装置220とは、スマートフォン又はタブレット端末として、情報処理装置100とは独立した他の情報処理装置として構成されてもよい。
情報処理装置100は、システム1の動作全体を制御する装置である。情報処理装置100は、PC(Personal Computer)、スマートフォン又はタブレット端末等により実現される。図2に示すように、情報処理装置100は、取得部110、検出部120、生成部130、記憶部140、及び再生制御部150を含む。これらの構成要素を、システム1全体の動作を制御するための制御部として捉えることもできる。
取得部110は、カメラ200により撮像された講義動画を取得する機能を有する。検出部120は、講義動画に基づいて、後述する指示位置を検出する機能を有する。生成部130は、検出部120により検出された指示位置に基づいて、後述する重要度マップを生成する機能を有する。記憶部140は、生成部130により生成された、講義動画の各時刻の重要度マップを記憶する機能を有する。再生制御部150は、記憶部140に記憶された重要度マップに基づいて再生用画面を生成し、再生用画面を出力する機能を有する。その際、記憶部140は、操作装置220から出力された操作情報に基づいて再生画面における表示内容を制御する。
情報処理装置100による動作処理について、以下に詳しく説明する。
<<3.技術的特徴>>
<3.1.指示位置検出処理>
(1)特徴
検出部120は、講義動画における筆記面に対する講師の動作を認識し、講師の操作位置を検出する。講師の操作位置とは、筆記面における講師により操作される位置であり、より詳しくは、講師により指示される位置である。詳しくは、検出部120は、講義動画において、講師が筆記面のうちどこを指示しながら講義を行っているかを検出する。講師により指示される位置は、筆記面における位置として捉えられてもよいし、筆記面に筆記された筆記情報の位置として捉えられてもよい。
講師により指示される位置は、講師の手先(即ち、指先)又は講師が持つ指示器により指示される位置である。詳しくは、検出部120は、人差し指等の講師が指示する際に用いる指の指先の位置、又は最も筆記面との距離が近い若しくは筆記面に触れている指の指先の位置を、講師により指示される位置として検出し得る。また、検出部120は、レーザーポインタから照射されるレーザーの照射位置、指示棒の先端が筆記面に触れている場合は接触位置、又は支持棒の先端が筆記面に触れていない場合は指示棒の延長線上の筆記面の位置を、講師により指示される位置として検出し得る。講師により指示される位置を、以下では指示位置とも称する。
指示位置の検出方法は多様に考えられる。検出部120は、講義動画に基づき、講師の手先又は講師が持つ指示器を画像認識することで、指示位置を検出する。例えば、検出部120は、講義動画を構成する各フレームの静止画像から骨格形状(例えば、関節の位置)を抽出し、抽出した骨格形状に基づいて指示位置を検出してもよい。その場合、検出部120は、講義動画における各関節の位置を推定し、最も手先に近い関節の位置から手先へのオフセット分シフトさせた位置を、講義動画における指示位置として検出する。また、検出部120は、講義動画を構成する各フレームの静止画像から講師のシルエット形状を抽出し、抽出したシルエット形状に基づいて指示位置を検出してもよい。
他にも、カメラ200を基準とする講師及び筆記面の深度情報が得られる場合には、検出部120は、深度情報に基づいて指示位置を検出してもよい。また、講師の身体(例えば、手)に慣性センサ(加速度センサ及び角速度センサ)が装着される場合には、検出部120は、当該慣性センサによるセンシング結果に基づいて指示位置を検出してもよい。また、筆記面に感圧センサ又は赤外センサ等の接触検知センサが設けられる場合には、検出部120は、これらのセンサによるセンシング結果に基づいて指示位置を検出してもよい。
(2)シルエット形状に基づく指示位置の検出
以下、図3〜図8を参照しながら、手先による指示位置がシルエット形状に基づいて検出される場合の処理について詳しく説明する。図3は、本実施形態に係る情報処理装置100により実行される指示位置検出処理の流れの一例を示すフローチャートである。また、図4〜図8は、本実施形態に係る指示位置検出処理の一例を説明するための図である。
図3に示すように、まず、検出部120は、講師のシルエット曲線(換言するとシルエット)を抽出する(ステップS102)。例えば、検出部120は、背景差分を用いて講師のシルエットを抽出する。検出部120は、背景動画を内部で生成しつつ、カメラ200から入力された講義動画と生成した背景動画との間の画素値の差分を算出し、所定の閾値以上の差が生じる画素を前景画素として抽出する。そして、検出部120は、前景画素を講師のシルエットとして抽出する。例えば、図4に示すように、検出部120は、講義動画11に基づいて前景画素12を抽出し、前景画素12の輪郭であるシルエット曲線14を含むシルエット画像13を得る。シルエット画像13においてシルエット曲線14により囲まれる領域は、講義動画11のうち講師に相当する領域である。
次いで、検出部120は、シルエット曲線を平滑化する(ステップS104)。詳しくは、検出部120は、シルエット曲線にフィルタ処理を適用して、シルエット曲線の細かな凹凸を削除することで、シルエット曲線を鈍らせる。例えば、図5に示すように、検出部120は、シルエット画像13に含まれるシルエット曲線14を平滑化して、平滑化されたシルエット曲線16を含むシルエット画像15を得る。
次に、検出部120は、講師の腕と胴体とが成す空間の位置を認識する(ステップS106)。例えば、図6に示すように、検出部120は、シルエット画像15に含まれるシルエット曲線16のうち、腕に相当する部分と胴体に相当する部分とが成す空間17、並びに当該空間17の上端水平線18及び下端水平線19を認識する。
次いで、検出部120は、左右の指示方向を判定する(ステップS108)。例えば、図7に示すように、検出部120は、シルエット画像15に含まれるシルエット曲線16を内包する矩形20を想定する。そして、検出部120は、シルエット曲線16により囲まれる領域の重心21の位置が、矩形20に対して右寄りか左寄りかを判定することにより、講師の身体に対して手先の位置が右にあるのか左にあるのかを推定する。一般に、重心の逆側に手先が位置する場合が多いので、検出部120は、シルエット曲線16により囲まれる領域の重心21の位置が矩形20に対し右寄りの場合は手先が左側にあると判定し、その逆の場合は手先が右側にあると判定する。図7に示した例では、シルエット曲線16により囲まれる領域の重心21の位置が矩形20に対し右寄りであるので、手先は左側にあると判定する。
次に、検出部120は、上下の指示方向を判定する(ステップS110)。例えば、図7に示すように、検出部120は、空間17の位置が矩形20に対し上寄りか下寄りかを判定することにより、講師の身体に対し手先の位置が上側にあるのか下側にあるのかを推定する。詳しくは、検出部120は、空間17の位置が矩形20に対し上寄りの場合は手先の位置が上側にあると判定し、その逆の場合は手先の位置が下側にあると判定する。図7に示した例では、空間17の位置が矩形20に対し下寄りにあるから、手先は下側にあると判定する。
そして、検出部120は、指示位置を決定する(ステップS112)。検出部120は、上記ステップS108及びS110における判定結果に基づいて指示位置を決定する。詳しくは、検出部120は、上端水平線18及び下端水平線19のうち、手先が位置すると判定した側の水平線を、手先の上下の位置とする。また、検出部120は、手先が位置すると判定した側の水平線の、空間17に接する区間の左端又は右端のうち、手先が位置すると判定した側の端部を、手先の左右の位置とする。図7に示した例では、手先は下側且つ左側にあると判定されたので、検出部120は、下端水平線19の、空間17に接する区間の左端22を、手先位置として決定する。
以上、指示位置検出処理の流れの一例を説明した。
上記説明した指示位置検出処理を、他の講師画像に適用した場合の例を、図8を参照しながら説明する。図8に示すように、情報処理装置100に、講義動画31が入力されたものとする。すると、検出部120は、講義動画31に基づいて前景画素32を抽出し、前景画素32の輪郭であるシルエット曲線を抽出し、当該シルエット曲線を平滑化することで、平滑化されたシルエット曲線36を含むシルエット画像35を得る。次いで、図8に示すように、検出部120は、シルエット画像35に含まれるシルエット曲線36のうち、腕に相当する部分と胴体に相当する部分とが成す空間37、並びに当該空間37の上端水平線38及び下端水平線39を認識する。次いで、検出部120は、シルエット画像35に含まれるシルエット曲線36が内接する矩形40を想定する。次に、検出部120は、シルエット曲線36により囲まれる領域の重心41の位置が、矩形40に対して左寄りにあるので、手先は右側にあると判定する。また、検出部120は、空間37の位置が矩形40に対し上寄りにあるから、手先は上側にあると判定する。そして、検出部120は、手先は上側且つ右側にあると判定されたので、上端水平線38の空間37に接する区間の右端42を、手先位置として決定する。
なお、上述したシルエット形状に基づく指示位置検出処理では、筆記面の近くで筆記情報を指している手先だけが検出されるとは限らない。例えば、講師が単に手を広げただけでも、その手先が検出され得る。しかし、そのような挙動における手先位置が検出されたとしても、情報処理装置100は、後述する手先位置の累積値を計算することにより、重要領域を適切に特定することができる。
<3.2.重要度マップ生成処理>
(1)特徴
生成部130は、講義動画において講師により指示される位置に基づいて、講義動画における筆記情報が筆記された筆記面の重要領域を特定する。生成部130は、講義動画を構成する各静止画像における講師の指示位置に基づいて、重要領域を特定する。典型的な講師は、筆記情報が筆記された筆記面のうち重要な領域を指示しながら説明を行うと考えられる。この点、指示位置に基づいて重要領域が特定されるので、筆記面のうち重要な領域を適切に特定することが可能となる。
生成部130は、講義動画に映る筆記情報が筆記された筆記面の各領域について、指示位置が留まる時間(即ち、講師が指示する時間)の累積値を計算し、累積値が大きい領域を重要領域として特定する。生成部130は、講義動画に映る筆記面の各領域に関し、検出部120により検出された指示位置を時間方向に累積したマップを生成する。かかるマップは、指示位置の存在時間を累積した、累積存在マップとも捉えられる。累積存在マップは、例えば1領域1ビンとする二次元ヒストグラムである。そして、生成部130は、累積値(即ち、手先が存在する時間長)が大きい領域を重要領域として特定する。講義を通して講師が手を用いて長い時間指示した(換言すると、頻繁に指示した)領域の累積値は高くなり、そうでない領域の累積値は低くなる。従って、生成部130は、講義を通して講師が手を用いて頻繁に指示した領域を、重要領域として特定することができる。また、上述したように、指示位置検出処理では、講師が単に手を広げただけでも、その手先が検出され得る。この点、累積値に基づいて重要領域が特定されるので、そのような重要な部分を指示していない手先の位置を、重要領域として特定しないようにすることができる。
なお、累積値は、重要度として捉えることができる。即ち、ある領域を講師が指示する時間の累積値が高いほど、当該領域の重要度が高いと言える。
累積値を計算する上記領域は、画素であってもよい。即ち、生成部130は、画素ごとに指示位置を時間方向に累積し、1画素1ビンの2次元ヒストグラムを生成し、累積値が大きい画素を重要領域として特定する。生成部130は、画素単位で累積値を計算した上で、画素間で累積値を平滑化してもよい。これにより、画素間の累積値の差が滑らかになる。その場合、生成部130は、平滑化後の累積値が周囲よりも大きいひとまとまりの複数の画素を含む領域を、重要領域として特定する。
生成部130は、累積値を時間の経過に応じて減少(即ち、劣化)させる。生成部130は、講師により指示された領域の累積値を増加させる一方で、講師により指示されていない領域の累積値を減少させる。つまり、一度累積値が上がった領域でも、その後当該領域において指示位置が検出されなかった場合、累積値が減少していくこととなる。従って、各領域の累積値は、時間方向で指示される密度が高いほど高くなる。例えば、講師が時間的に集中して指示した領域の累積値が高くなる。そのため、生成部130は、講義動画を構成する各静止画像における重要領域を特定するだけでなく、当該重要領域が重点的に指示されて説明されるタイミングを特定することが可能である。
生成部130は、講義動画に映る筆記情報が筆記された筆記面に所定の変化が生じた場合に、累積値の減少を開始させる。所定の変化とは、例えば、書き換えられた、又は消された等である。このような変化が生じた場合に累積値を減少させることで、書き換えられた筆記情報を含む領域又は消されて何も筆記されていない領域を、誤って重要領域として特定することが防止される。
生成部130は、講義動画に重要領域を示す情報を重畳した重畳画像を生成する。詳しくは、生成部130は、講義動画を構成する各静止画において累積値を計算し、重要領域を特定する。そして、生成部130は、各静止画に対応する重要領域を示す情報を重畳することで、重畳画像を生成する。重畳画像における重要領域に相当する筆記面の領域は、講師が頻繁に指示した領域であるから、当該領域(に筆記された筆記情報)は重要であると言える。従って、重畳画像により、筆記面に筆記された筆記情報のうち重要な部分が認識容易になる。なお、重畳画像における重要領域を示す情報は、当該重要領域に含まれる領域(例えば、画素)ごとの累積値の高低を示す情報を含む。このようにして生成される重畳画像を、以下では重要度マップとも称する。
ここで、カメラ200は、固定的に設置されるものとする。カメラの位置及び姿勢が固定であるから、講義動画における講師の指示位置と実際に講師により指示された筆記面上の位置との関係は不変である。そのため、生成部130は、講義動画における画素単位で指示位置を累積することで、重要領域を特定することができる。仮に、カメラ200が位置及び姿勢が変更可能に設置される場合、講義動画における講師の指示位置と実際に講師により指示された筆記面上の位置との関係は変わり得る。その場合、生成部130は、カメラ200の位置及び姿勢に基づいて、講義動画における講師の指示位置を、実際に講師により指示された筆記面上の位置に変換しながら、指示位置の累積値の計算を行う。
(2)具体的な処理
以下、図9〜図11を参照しながら、重要度マップの生成処理について詳しく説明する。図9は、本実施形態に係る情報処理装置100により実行される重要度マップの生成処理の流れの一例を示すフローチャートである。また、図10及び図11は、本実施形態に係る重要度マップの生成処理の一例を説明するための図である。
図9に示すように、まず、生成部130は、各画素における指示位置の累積値を計算する(ステップS202)。詳しくは、生成部130は、講義動画を構成する各静止画に映る筆記面の各画素に関し、検出部120により検出された指示位置を時間方向に累積しておき、1画素1ビンとする二次元ヒストグラムを生成する。次いで、生成部130は、二次元ヒストグラムにおいて画素間での累積値の平滑化を行う。
そして、生成部130は、累積値に応じて重要度マップを生成する(ステップS204)。詳しくは、まず、生成部130は、上記ステップS202において生成した二次元ヒストグラムにおいて、累積値が周囲よりも大きいひとまとまりの複数の画素を含む領域を、重要領域として特定する。例えば、図10に示すように、生成部130は、二次元ヒストグラム51における、平滑化後の累積値が周囲よりも大きいひとまとまりの複数の画素を含む領域52A及び52Bを、重要領域として特定する。なお、図10に示した例では、色が濃い領域ほどは累積値が大きい。そして、生成部130は、ステップS202の入力となった講義動画に、特定した重要領域を示す情報を重畳することで、重要度マップを生成する。例えば、図11に示すように、生成部130は、講義動画54に、重要領域を示す情報55A及び52Bを重畳することで、重要度マップ53を生成する。
重要度マップ53は、重要領域の重要度を示す情報を示す情報を含んでいてもよい。重要領域の重要度とは、重要領域に含まれる各領域(各画素)の指示位置の累積値である。重要領域の重要度は、重要領域に含まれる各領域の指示位置の累積値の平均値、最大値、又は総和等の任意の統計量であってもよい。重要度マップ53は、重要領域の重要度を示す情報として、重要度の数値そのものを含んでいてもよい。他にも、重要領域を示す情報の色、大きさ、又は形状等により、重要領域の重要度が示されてもよい。例えば、図11に示した例では、重要領域を示す情報55の中央の円の色が濃く、周囲に行くと徐々に色が薄くなる表現がなされており、この色の濃さが重要度を示す情報である。色が濃いほど重要度が高く、色が薄いほど重要度が低い。また、図11に示した例において、重要領域を示す情報55の円の大きさにより、重要度が示されてもよい。例えば、円が大きいほど重要度が高く、円が小さいほど重要度が低い。
<3.3.再生制御処理>
(1)インデックスの付与
再生制御部150は、重要度マップにおける重要領域の重要度に応じて、講義動画に再生用インデックスを付与する。再生用インデックスとは、講義動画を再生する際の、再生位置(再生を開始する時刻)の目安となる情報である。視聴者により再生用インデックスが選択されると、再生制御部150は、選択された再生用インデックスに対応する再生位置から講義動画を再生する。再生用インデックスが付与されることで、視聴者の利便性が向上する。
再生制御部150は、講義動画に含まれるひとつ以上の重要領域の各々の重要度の累積が開始されてから終了するまでの間の所定の条件を満たすタイミングにおいて、再生用インデックスを付与する。重要度の累積が開始されるタイミングとは、重要度が0ではなくなったタイミングであり、重要度の累積が終了するタイミングとは、重要度が0になったタイミングである。例えば、再生制御部150は、講義動画に含まれるひとつ以上の重要領域の各々の重要度がピークに達する時刻の各々において、再生用インデックスを付与する。ある重要領域に着目したとき、当該重要領域の重要度は、指示位置の累積値が大きくなるほど、即ち講師が指示する時間が長いほど大きくなる一方で、講師が指示しなくなると時間の経過に応じて減少する。従って、重要領域の重要度は、時間方向で講師により当該重要領域が指示される密度が高いタイミング、即ち当該重要領域が重点的に指示されて説明されるタイミングで、ピークに達する。そのため、重要領域の各々の重要度がピークに達する時刻の各々において再生用インデックスを付与することで、各々の重要領域が重点的に指示されて説明されるタイミングで、再生用インデックスを付与することが可能となる。他にも、再生制御部150は、重要領域の重要度が所定の閾値を超え続ける場合に、所定の閾値を超える最初のタイミング又は最後のタイミングの少なくともいずれかに再生用インデックスを付与してもよい。その場合、各々の重要領域が重点的に指示されて説明され始めたタイミング又は説明し終えたタイミングの少なくともいずれかに、再生用インデックスを付与することが可能となる。
(2)再生用画面
再生制御部150は、再生用画面を生成する。視聴者は、再生用画面において講義動画を再生し、視聴することができる。
再生制御部150は、重要度マップに基づいて再生位置を制御するための第1の領域を含む、再生用画面を生成する。第1の領域では、例えば、再生用インデックスが付与された時刻の重要度マップが表示される。第1の領域は、視聴者による重要度マップの選択、即ち再生用インデックスの選択を受け付ける領域である。第1の領域は、複数の重要度マップを含んでいてもよい。
再生制御部150は、第1の領域に含まれる重要度マップが視聴者により選択された場合、選択された重要度マップに対応する再生位置から、講義動画を再生する。選択された重要度マップ(即ち、再生用インデクス)に対応する再生位置とは、例えば、再生用インデックスが付与された時刻と同一の時刻である。その場合、視聴者は、重要度マップを選択することで、当該重要度マップにおける重要領域が重点的に説明されているタイミングから講義動画を視聴することができる。
選択された重要度マップに対応する再生位置は、再生用インデックスが付与された時刻と異なっていてもよい。とりわけ、再生制御部150は、選択された重要度マップの時刻よりも所定時間前の時刻を再生位置とすることが望ましい。これにより、講師が重点的な説明を行っている途中から再生が開示されることが防止され、視聴者は、講師の重点的な説明を初めから視聴することが可能となる。
例えば、再生制御部150は、第1の領域に含まれる重要度マップが視聴者により選択された場合、選択された重要度マップに含まれる重要領域の時間変化に応じた再生位置から、講義動画を再生してもよい。選択された重要度マップに含まれる重要領域の時間変化に応じた再生位置とは、重要領域に対応する筆記面に、筆記情報が筆記される直前の時刻、筆記されている最中の時刻、又は筆記完了の時刻である。これにより、視聴者は、講師が重点的に説明する筆記情報が、筆記される直前から、筆記途中から又は筆記完了時から、講義動画を視聴することができる。筆記情報を筆記しながら説明を行う講師、及び筆記情報を筆記し終えてから説明を行う講師等がいることを考慮すれば、このような再生位置の制御により視聴者の利便性はさらに向上する。
再生用画面は、上述した第1の領域と共に又は代えて、任意の領域を含み得る。例えば、再生用画面は、講義動画が再生される第2の領域と、講義動画の再生位置に対応する時刻の重要度マップが表示される第3の領域とを含み得る。これにより、視聴者は、再生中の講義動画における重要領域を把握しながら、講義動画を視聴することができる。
以下、図12及び図13を参照しながら、再生用画面の一例を説明する。
図12は、本実施形態に係る講義動画の再生用画面の一例を示す図である。図12に示した再生用画面60は、第1の領域のみを含んでいる。詳しくは、再生用画面60は、再生用インデックスが付された時刻の重要度マップ61(61A〜61F)を含んでいる。また、各々の重要度マップ61には、重要度マップ61の時刻(即ち、再生インデックスが付された時刻)を示す時刻表示62(62A〜62F)が関連付けられている。視聴者は、ポインタ63を操作して任意の重要度マップ61を選択することで、選択した重要度マップ61に対応する再生位置から講義動画を再生させることができる。なお、ポインタ63の操作の他に、タッチ操作等のタッチパネルに特有の操作、ジェスチャ操作、音声入力又は外部装置からの操作等により、重要度マップ61が選択されてもよい。例えば、視聴者により重要度マップ61Aが選択されると、再生制御部150は、12分50秒の位置から講義動画を再生する。その際、講義動画を再生するための再生用ウィンドウが別途生成され得る。ここで、再生用画面60では、重要度マップ61は重要度が高い順にソートされており、再生用画面60のうち上にある重要度マップ61ほど重要度が高く、下にある重要度マップ61ほど重要度が低い。従って、視聴者は、再生用画面60の上から下にかけて重要度マップ61を選択しながら講義動画を視聴することで、重要な説明がなされていると思しき場面を効率よく視聴することができる。
図13は、本実施形態に係る講義動画の再生用画面の一例を示す図である。図13に示した再生用画面70は、第1の領域71、第2の領域72及び第3の領域73を含んでいる。第1の領域71の横軸は時間軸であり、縦軸は重要度である。図13に示すように、第1の領域71において、複数の重要度マップ74は時間軸(即ち、横軸)に沿って並べられ、且つ再生用インデックスが付与された時刻の重要度マップ74A〜74Fは強調されている。時間軸に沿って並べられるとは、講義動画において再生される順に一端から他端に向かって所定の方向に沿って並べられることを意味する。並べられる方向は、左から右へ、右から左へ、上から下へ、又は下から上へ等任意であり、2段以上で並べられてもよい。また、強調とは、他の重畳画像と比較して視聴者が認識容易に表示されることを意味する。図13では、強調の一例として、重畳画像の枠が太く表示されているが、強調のされ方は図13に示した例に限定されず、重畳画像の色又は濃淡の変化等により強調されてもよい。また、再生用インデックスが付与された時刻の重要度マップ74A〜74Fには、それぞれの時刻表示が関連付けられている。このような表示により、視聴者は、時刻軸に沿って重要度マップ74を見進めながら、どの時刻に重要度の高い内容が説明される場面があるかを容易に視認することができ、利便性が向上する。さらに、第1の領域71において、複数の重要度マップ74は、重要度マップに含まれる重要領域の重要度に応じて、重要度の軸(即ち、縦軸)に沿って並べられている。重要度の軸に沿って並べられるとは、重要度の順(例えば、大きい順又は小さい順)に一端から他端に向かって所定の方向に沿って並べられることを意味する。並べられる方向は、左から右へ、右から左へ、上から下へ、又は下から上へ等任意であり、2段以上で並べられてもよい。このような表示により、視聴者は、講義動画全体における重要度の増減を視認しながら再生位置を選択することが可能となり、利便性が向上する。視聴者は、ポインタ75を操作して任意の重要度マップ74を選択することで、第2の領域72において、選択した重要度マップ74に対応する再生位置から講義動画を再生させることができる。なお、ポインタ75の操作の他に、タッチ操作等のタッチパネルに特有の操作、ジェスチャ操作、音声入力又は外部装置からの操作等により、重要度マップ74が選択されてもよい。図13に示した例では、重要度マップ74Cが選択された例が示されている。第2の領域72では、重要度マップ74Cの時刻である12分50秒から講義動画が再生される。また、第3の領域73では、12分50秒の時点における重要度マップが表示される。時刻表示76は、第2の領域72において再生中の講義動画の時刻を示している。
・変形例
上記では、第1の領域に、再生用インデックスが付与された時刻の重要度マップが表示される例を説明したが、本技術はかかる例に限定されない。例えば、再生制御部150は、筆記情報が筆記された筆記面の画像に、再生用インデックスが付与された複数の時刻における複数の重要領域を示す情報を重畳した画像を、第1の領域として含む再生用画面を生成してもよい。ここでの筆記情報が筆記された筆記面とは、一通り筆記情報が筆記された筆記面(例えば、全面に筆記情報が筆記された筆記面)である。再生制御部150は、講義動画における講師の位置が異なる各時刻の背景画素を繋ぎ合わせて合成することで、一通り筆記情報が筆記された筆記面の画像を生成する。このような再生制御により、視聴者は、一通り筆記情報が筆記された筆記面の内容、及び当該筆記面における複数の重要領域を一目で確認することができる。
再生制御部150は、第1の領域に含まれる重要領域を示す情報が視聴者により選択された場合、選択された重要領域を示す情報に対応する再生位置から、講義動画を再生する。選択された重要領域を示す情報に対応する再生位置とは、選択された重要領域を示す情報に対応する再生用インデックスが付与された時刻の、重要度マップに対応する再生位置である。重要度マップに対応する再生位置については、上述した通りである。このような再生制御により、視聴者は、筆記情報が筆記された筆記面における複数の重要領域を一目で確認しながら、各々の重要領域に関する説明がなされていると思しき場面を効率よく視聴することができる。
この場合の再生用画面の一例を、図14を参照しながら説明する。
図14は、本実施形態に係る講義動画の再生用画面の一例を示す図である。図14に示す再生用画面80では、一通り筆記情報が筆記された筆記面の画像81に、再生用インデックスが付与された複数の時刻における複数の重要領域を示す情報82(82A〜82F)が重畳されている。図14では、重要領域を示す情報82は矩形で表示されているが、楕円形又は文字の輪郭に沿う曲線等の任意の形状で表示されてもよいし、重要領域に相当する文字が太字になる又は濃くなる等の文字スタイルを用いて表示されてもよい。また、各々の重要領域を示す情報82には、各々の重要領域に対応する再生用インデックスが付与された時刻を示す時刻表示83(83A〜83F)が関連付けられている。さらに、各々の重要領域を示す情報82には、各々の重要領域の認識結果を示す情報84(84A〜84F)が関連付けられている。ここでの認識結果とは、重要領域に含まれる文字の認識結果等の要約情報である。このような認識結果が関連付けられることで、視聴者は、重要領域の内容を容易に把握することが可能となる。視聴者は、図示しないポインタを操作して任意の重要領域を示す情報82(又は時刻表示83若しくは認識結果を示す情報84)を選択することで、選択した重要領域を示す情報82に対応する再生位置から講義動画を再生させることができる。例えば、視聴者により重要領域を示す情報82Aが選択されると、再生制御部150は、12分50秒の位置から講義動画を再生する。その際、講義動画を再生するための再生用ウィンドウが別途生成され得る。
なお、複数の重要領域が重複する場合には重要領域を示す情報82は重複して表示され、視聴者による図示しないポインタを用いた選択によりいずれを最前面とするかが制御される。例えば、図14では、重要領域を示す情報82A及び82Eが重複しており、重要領域を示す情報82B及び82Fが重複しており、視聴者による操作に応じて、重要領域を示す情報82E及び82Bが最前面となっている。
(3)処理の流れ
以下、図15を参照しながら、再生制御処理の流れの一例を説明する。図15は、本実施形態に係る情報処理装置100により実行される再生制御処理の流れの一例を示すフローチャートである。
図15に示すように、まず、再生制御部150は、重要度マップに基づいて講義動画に再生用インデックスを付与する(ステップS302)。詳しくは、再生制御部150は、講義動画に含まれるひとつ以上の重要領域の各々の重要度がピークに達する時刻の各々において、再生用インデックスを付与する。
次いで、再生制御部150は、再生用画面を生成し、出力装置210により出力する(ステップS304、ステップS306)。詳しくは、再生制御部150は、第1の領域、第2の領域又は第3の領域の少なくともいずれかを含む再生用画面を生成する。再生用画面については、図12〜図14を参照して上記説明した通りである。
そして、再生制御部150は、操作装置220を介して入力された視聴者による操作に応じた再生位置から、講義動画を再生する(ステップS308)。詳しくは、再生制御部150は、第1の領域において選択された重要度マップに応じた再生位置(図12又は図13に示した例)、又は重要領域を示す情報に応じた再生位置(図14に示した例)から、講義動画を再生する。
<<4.ハードウェア構成例>>
最後に、図16を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図16は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図16に示す情報処理装置900は、例えば、図2に示した情報処理装置100を実現し得る。本実施形態に係る情報処理装置100による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。
図16に示すように、情報処理装置900は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM(Random Access Memory)903及びホストバス904aを備える。また、情報処理装置900は、ブリッジ904、外部バス904b、インタフェース905、入力装置906、出力装置907、ストレージ装置908、ドライブ909、接続ポート911及び通信装置913を備える。情報処理装置900は、CPU901に代えて、又はこれとともに、電気回路、DSP若しくはASIC等の処理回路を有してもよい。
CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。CPU901は、例えば、図2に示す取得部110、検出部120、生成部130及び再生制御部150を形成し得る。本実施形態では、CPU901は、講義動画を取得し、取得された講義動画に基づいて指示位置を検出し、検出された指示位置に基づいて重要度マップを生成し、生成した重要度マップに基づいて再生画面を生成して、講義動画の再生を制御する。
CPU901、ROM902及びRAM903は、CPUバスなどを含むホストバス904aにより相互に接続されている。ホストバス904aは、ブリッジ904を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス904bに接続されている。なお、必ずしもホストバス904a、ブリッジ904および外部バス904bを分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
入力装置906は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置906は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話やPDA等の外部接続機器であってもよい。さらに、入力装置906は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などを含んでいてもよい。情報処理装置900のユーザは、この入力装置906を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。入力装置906は、例えば、図2に示す操作装置220を形成し得る。即ち、情報処理装置100及び操作装置220は、一体的に構成されてもよい。なお、入力装置906がタッチパネルとして構成される場合、入力装置906は、タッチ操作、タップ操作、フリック操作又はスワイプ操作等の入力を受け付け得る。
出力装置907は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置、レーザープロジェクタ、LEDプロジェクタ及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置907は、例えば、情報処理装置900が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置900が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。出力装置907は、例えば、図2に示す出力装置210を形成し得る。即ち、情報処理装置100及び出力装置210は、一体的に構成されてもよい。
ストレージ装置908は、情報処理装置900の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置908は、例えば、HDD等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置908は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置908は、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置908は、例えば、図2に示す記憶部140を形成し得る。本実施形態では、ストレージ装置908は、生成部130により生成された重要度マップを記憶する。
ドライブ909は、記憶媒体用リーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ909は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、RAM903に出力する。また、ドライブ909は、リムーバブル記憶媒体に情報を書き込むこともできる。
接続ポート911は、外部機器と接続されるインタフェースであって、例えばUSB(Universal Serial Bus)などによりデータ伝送可能な外部機器との接続口である。
通信装置913は、例えば、ネットワーク920に接続するための通信デバイス等で形成された通信インタフェースである。通信装置913は、例えば、有線若しくは無線LAN(Local Area Network)、LTE(Long Term Evolution)、Bluetooth(登録商標)又はWUSB(Wireless USB)用の通信カード等である。また、通信装置913は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置913は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。本実施形態では、取得部110は、通信装置913を介してカメラ200から講義動画を取得し得る。
なお、ネットワーク920は、ネットワーク920に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク920は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク920は、IP−VPN(Internet Protocol−Virtual Private Network)などの専用回線網を含んでもよい。
以上、本実施形態に係る情報処理装置900の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
なお、上述のような本実施形態に係る情報処理装置900の各機能を実現するためのコンピュータプログラムを作製し、PC等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。
<<5.応用例>>
本開示に係る技術は、様々な製品へ応用することができる。例えば、本開示に係る技術は、手術室システムに適用されてもよい。
図17は、本開示に係る技術が適用され得る手術室システム5100の全体構成を概略的に示す図である。図17を参照すると、手術室システム5100は、手術室内に設置される装置群が視聴覚コントローラ(AV Controller)5107及び手術室制御装置5109を介して互いに連携可能に接続されることにより構成される。
手術室には、様々な装置が設置され得る。図17では、一例として、内視鏡下手術のための各種の装置群5101と、手術室の天井に設けられ術者の手元を撮像するシーリングカメラ5187と、手術室の天井に設けられ手術室全体の様子を撮像する術場カメラ5189と、複数の表示装置5103A〜5103Dと、レコーダ5105と、患者ベッド5183と、照明5191と、を図示している。
ここで、これらの装置のうち、装置群5101は、後述する内視鏡手術システム5113に属するものであり、内視鏡や当該内視鏡によって撮像された画像を表示する表示装置等からなる。内視鏡手術システム5113に属する各装置は医療用機器とも呼称される。一方、表示装置5103A〜5103D、レコーダ5105、患者ベッド5183及び照明5191は、内視鏡手術システム5113とは別個に、例えば手術室に備え付けられている装置である。これらの内視鏡手術システム5113に属さない各装置は非医療用機器とも呼称される。視聴覚コントローラ5107及び/又は手術室制御装置5109は、これら医療機器及び非医療機器の動作を互いに連携して制御する。
視聴覚コントローラ5107は、医療機器及び非医療機器における画像表示に関する処理を、統括的に制御する。具体的には、手術室システム5100が備える装置のうち、装置群5101、シーリングカメラ5187及び術場カメラ5189は、手術中に表示すべき情報(以下、表示情報ともいう)を発信する機能を有する装置(以下、発信元の装置とも呼称する)であり得る。また、表示装置5103A〜5103Dは、表示情報が出力される装置(以下、出力先の装置とも呼称する)であり得る。また、レコーダ5105は、発信元の装置及び出力先の装置の双方に該当する装置であり得る。視聴覚コントローラ5107は、発信元の装置及び出力先の装置の動作を制御し、発信元の装置から表示情報を取得するとともに、当該表示情報を出力先の装置に送信し、表示又は記録させる機能を有する。なお、表示情報とは、手術中に撮像された各種の画像や、手術に関する各種の情報(例えば、患者の身体情報や、過去の検査結果、術式についての情報等)等である。
具体的には、視聴覚コントローラ5107には、装置群5101から、表示情報として、内視鏡によって撮像された患者の体腔内の術部の画像についての情報が送信され得る。また、シーリングカメラ5187から、表示情報として、当該シーリングカメラ5187によって撮像された術者の手元の画像についての情報が送信され得る。また、術場カメラ5189から、表示情報として、当該術場カメラ5189によって撮像された手術室全体の様子を示す画像についての情報が送信され得る。なお、手術室システム5100に撮像機能を有する他の装置が存在する場合には、視聴覚コントローラ5107は、表示情報として、当該他の装置からも当該他の装置によって撮像された画像についての情報を取得してもよい。
あるいは、例えば、レコーダ5105には、過去に撮像されたこれらの画像についての情報が視聴覚コントローラ5107によって記録されている。視聴覚コントローラ5107は、表示情報として、レコーダ5105から当該過去に撮像された画像についての情報を取得することができる。なお、レコーダ5105には、手術に関する各種の情報も事前に記録されていてもよい。
視聴覚コントローラ5107は、出力先の装置である表示装置5103A〜5103Dの少なくともいずれかに、取得した表示情報(すなわち、手術中に撮影された画像や、手術に関する各種の情報)を表示させる。図示する例では、表示装置5103Aは手術室の天井から吊り下げられて設置される表示装置であり、表示装置5103Bは手術室の壁面に設置される表示装置であり、表示装置5103Cは手術室内の机上に設置される表示装置であり、表示装置5103Dは表示機能を有するモバイル機器(例えば、タブレットPC(Personal Computer))である。
また、図17では図示を省略しているが、手術室システム5100には、手術室の外部の装置が含まれてもよい。手術室の外部の装置は、例えば、病院内外に構築されたネットワークに接続されるサーバや、医療スタッフが用いるPC、病院の会議室に設置されるプロジェクタ等であり得る。このような外部装置が病院外にある場合には、視聴覚コントローラ5107は、遠隔医療のために、テレビ会議システム等を介して、他の病院の表示装置に表示情報を表示させることもできる。
手術室制御装置5109は、非医療機器における画像表示に関する処理以外の処理を、統括的に制御する。例えば、手術室制御装置5109は、患者ベッド5183、シーリングカメラ5187、術場カメラ5189及び照明5191の駆動を制御する。
手術室システム5100には、集中操作パネル5111が設けられており、ユーザは、当該集中操作パネル5111を介して、視聴覚コントローラ5107に対して画像表示についての指示を与えたり、手術室制御装置5109に対して非医療機器の動作についての指示を与えることができる。集中操作パネル5111は、表示装置の表示面上にタッチパネルが設けられて構成される。
図18は、集中操作パネル5111における操作画面の表示例を示す図である。図18では、一例として、手術室システム5100に、出力先の装置として、2つの表示装置が設けられている場合に対応する操作画面を示している。図18を参照すると、操作画面5193には、発信元選択領域5195と、プレビュー領域5197と、コントロール領域5201と、が設けられる。
発信元選択領域5195には、手術室システム5100に備えられる発信元装置と、当該発信元装置が有する表示情報を表すサムネイル画面と、が紐付けられて表示される。ユーザは、表示装置に表示させたい表示情報を、発信元選択領域5195に表示されているいずれかの発信元装置から選択することができる。
プレビュー領域5197には、出力先の装置である2つの表示装置(Monitor1、Monitor2)に表示される画面のプレビューが表示される。図示する例では、1つの表示装置において4つの画像がPinP表示されている。当該4つの画像は、発信元選択領域5195において選択された発信元装置から発信された表示情報に対応するものである。4つの画像のうち、1つはメイン画像として比較的大きく表示され、残りの3つはサブ画像として比較的小さく表示される。ユーザは、4つの画像が表示された領域を適宜選択することにより、メイン画像とサブ画像を入れ替えることができる。また、4つの画像が表示される領域の下部には、ステータス表示領域5199が設けられており、当該領域に手術に関するステータス(例えば、手術の経過時間や、患者の身体情報等)が適宜表示され得る。
コントロール領域5201には、発信元の装置に対して操作を行うためのGUI(Graphical User Interface)部品が表示される発信元操作領域5203と、出力先の装置に対して操作を行うためのGUI部品が表示される出力先操作領域5205と、が設けられる。図示する例では、発信元操作領域5203には、撮像機能を有する発信元の装置におけるカメラに対して各種の操作(パン、チルト及びズーム)を行うためのGUI部品が設けられている。ユーザは、これらのGUI部品を適宜選択することにより、発信元の装置におけるカメラの動作を操作することができる。なお、図示は省略しているが、発信元選択領域5195において選択されている発信元の装置がレコーダである場合(すなわち、プレビュー領域5197において、レコーダに過去に記録された画像が表示されている場合)には、発信元操作領域5203には、当該画像の再生、再生停止、巻き戻し、早送り等の操作を行うためのGUI部品が設けられ得る。
また、出力先操作領域5205には、出力先の装置である表示装置における表示に対する各種の操作(スワップ、フリップ、色調整、コントラスト調整、2D表示と3D表示の切り替え)を行うためのGUI部品が設けられている。ユーザは、これらのGUI部品を適宜選択することにより、表示装置における表示を操作することができる。
なお、集中操作パネル5111に表示される操作画面は図示する例に限定されず、ユーザは、集中操作パネル5111を介して、手術室システム5100に備えられる、視聴覚コントローラ5107及び手術室制御装置5109によって制御され得る各装置に対する操作入力が可能であってよい。
図19は、以上説明した手術室システムが適用された手術の様子の一例を示す図である。シーリングカメラ5187及び術場カメラ5189は、手術室の天井に設けられ、患者ベッド5183上の患者5185の患部に対して処置を行う術者(医者)5181の手元及び手術室全体の様子を撮影可能である。シーリングカメラ5187及び術場カメラ5189には、倍率調整機能、焦点距離調整機能、撮影方向調整機能等が設けられ得る。照明5191は、手術室の天井に設けられ、少なくとも術者5181の手元を照射する。照明5191は、その照射光量、照射光の波長(色)及び光の照射方向等を適宜調整可能であってよい。
内視鏡手術システム5113、患者ベッド5183、シーリングカメラ5187、術場カメラ5189及び照明5191は、図17に示すように、視聴覚コントローラ5107及び手術室制御装置5109(図19では図示せず)を介して互いに連携可能に接続されている。手術室内には、集中操作パネル5111が設けられており、上述したように、ユーザは、当該集中操作パネル5111を介して、手術室内に存在するこれらの装置を適宜操作することが可能である。
以下、内視鏡手術システム5113の構成について詳細に説明する。図示するように、内視鏡手術システム5113は、内視鏡5115と、その他の術具5131と、内視鏡5115を支持する支持アーム装置5141と、内視鏡下手術のための各種の装置が搭載されたカート5151と、から構成される。
内視鏡手術では、腹壁を切って開腹する代わりに、トロッカ5139a〜5139dと呼ばれる筒状の開孔器具が腹壁に複数穿刺される。そして、トロッカ5139a〜5139dから、内視鏡5115の鏡筒5117や、その他の術具5131が患者5185の体腔内に挿入される。図示する例では、その他の術具5131として、気腹チューブ5133、エネルギー処置具5135及び鉗子5137が、患者5185の体腔内に挿入されている。また、エネルギー処置具5135は、高周波電流や超音波振動により、組織の切開及び剥離、又は血管の封止等を行う処置具である。ただし、図示する術具5131はあくまで一例であり、術具5131としては、例えば攝子、レトラクタ等、一般的に内視鏡下手術において用いられる各種の術具が用いられてよい。
内視鏡5115によって撮影された患者5185の体腔内の術部の画像が、表示装置5155に表示される。術者5181は、表示装置5155に表示された術部の画像をリアルタイムで見ながら、エネルギー処置具5135や鉗子5137を用いて、例えば患部を切除する等の処置を行う。なお、図示は省略しているが、気腹チューブ5133、エネルギー処置具5135及び鉗子5137は、手術中に、術者5181又は助手等によって支持される。
(支持アーム装置)
支持アーム装置5141は、ベース部5143から延伸するアーム部5145を備える。図示する例では、アーム部5145は、関節部5147a、5147b、5147c、及びリンク5149a、5149bから構成されており、アーム制御装置5159からの制御により駆動される。アーム部5145によって内視鏡5115が支持され、その位置及び姿勢が制御される。これにより、内視鏡5115の安定的な位置の固定が実現され得る。
(内視鏡)
内視鏡5115は、先端から所定の長さの領域が患者5185の体腔内に挿入される鏡筒5117と、鏡筒5117の基端に接続されるカメラヘッド5119と、から構成される。図示する例では、硬性の鏡筒5117を有するいわゆる硬性鏡として構成される内視鏡5115を図示しているが、内視鏡5115は、軟性の鏡筒5117を有するいわゆる軟性鏡として構成されてもよい。
鏡筒5117の先端には、対物レンズが嵌め込まれた開口部が設けられている。内視鏡5115には光源装置5157が接続されており、当該光源装置5157によって生成された光が、鏡筒5117の内部に延設されるライトガイドによって当該鏡筒の先端まで導光され、対物レンズを介して患者5185の体腔内の観察対象に向かって照射される。なお、内視鏡5115は、直視鏡であってもよいし、斜視鏡又は側視鏡であってもよい。
カメラヘッド5119の内部には光学系及び撮像素子が設けられており、観察対象からの反射光(観察光)は当該光学系によって当該撮像素子に集光される。当該撮像素子によって観察光が光電変換され、観察光に対応する電気信号、すなわち観察像に対応する画像信号が生成される。当該画像信号は、RAWデータとしてカメラコントロールユニット(CCU:Camera Control Unit)5153に送信される。なお、カメラヘッド5119には、その光学系を適宜駆動させることにより、倍率及び焦点距離を調整する機能が搭載される。
なお、例えば立体視(3D表示)等に対応するために、カメラヘッド5119には撮像素子が複数設けられてもよい。この場合、鏡筒5117の内部には、当該複数の撮像素子のそれぞれに観察光を導光するために、リレー光学系が複数系統設けられる。
(カートに搭載される各種の装置)
CCU5153は、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等によって構成され、内視鏡5115及び表示装置5155の動作を統括的に制御する。具体的には、CCU5153は、カメラヘッド5119から受け取った画像信号に対して、例えば現像処理(デモザイク処理)等の、当該画像信号に基づく画像を表示するための各種の画像処理を施す。CCU5153は、当該画像処理を施した画像信号を表示装置5155に提供する。また、CCU5153には、図17に示す視聴覚コントローラ5107が接続される。CCU5153は、画像処理を施した画像信号を視聴覚コントローラ5107にも提供する。また、CCU5153は、カメラヘッド5119に対して制御信号を送信し、その駆動を制御する。当該制御信号には、倍率や焦点距離等、撮像条件に関する情報が含まれ得る。当該撮像条件に関する情報は、入力装置5161を介して入力されてもよいし、上述した集中操作パネル5111を介して入力されてもよい。
表示装置5155は、CCU5153からの制御により、当該CCU5153によって画像処理が施された画像信号に基づく画像を表示する。内視鏡5115が例えば4K(水平画素数3840×垂直画素数2160)又は8K(水平画素数7680×垂直画素数4320)等の高解像度の撮影に対応したものである場合、及び/又は3D表示に対応したものである場合には、表示装置5155としては、それぞれに対応して、高解像度の表示が可能なもの、及び/又は3D表示可能なものが用いられ得る。4K又は8K等の高解像度の撮影に対応したものである場合、表示装置5155として55インチ以上のサイズのものを用いることで一層の没入感が得られる。また、用途に応じて、解像度、サイズが異なる複数の表示装置5155が設けられてもよい。
光源装置5157は、例えばLED(light emitting diode)等の光源から構成され、術部を撮影する際の照射光を内視鏡5115に供給する。
アーム制御装置5159は、例えばCPU等のプロセッサによって構成され、所定のプログラムに従って動作することにより、所定の制御方式に従って支持アーム装置5141のアーム部5145の駆動を制御する。
入力装置5161は、内視鏡手術システム5113に対する入力インタフェースである。ユーザは、入力装置5161を介して、内視鏡手術システム5113に対して各種の情報の入力や指示入力を行うことができる。例えば、ユーザは、入力装置5161を介して、患者の身体情報や、手術の術式についての情報等、手術に関する各種の情報を入力する。また、例えば、ユーザは、入力装置5161を介して、アーム部5145を駆動させる旨の指示や、内視鏡5115による撮像条件(照射光の種類、倍率及び焦点距離等)を変更する旨の指示、エネルギー処置具5135を駆動させる旨の指示等を入力する。
入力装置5161の種類は限定されず、入力装置5161は各種の公知の入力装置であってよい。入力装置5161としては、例えば、マウス、キーボード、タッチパネル、スイッチ、フットスイッチ5171及び/又はレバー等が適用され得る。入力装置5161としてタッチパネルが用いられる場合には、当該タッチパネルは表示装置5155の表示面上に設けられてもよい。
あるいは、入力装置5161は、例えばメガネ型のウェアラブルデバイスやHMD(Head Mounted Display)等の、ユーザによって装着されるデバイスであり、これらのデバイスによって検出されるユーザのジェスチャや視線に応じて各種の入力が行われる。また、入力装置5161は、ユーザの動きを検出可能なカメラを含み、当該カメラによって撮像された映像から検出されるユーザのジェスチャや視線に応じて各種の入力が行われる。更に、入力装置5161は、ユーザの声を収音可能なマイクロフォンを含み、当該マイクロフォンを介して音声によって各種の入力が行われる。このように、入力装置5161が非接触で各種の情報を入力可能に構成されることにより、特に清潔域に属するユーザ(例えば術者5181)が、不潔域に属する機器を非接触で操作することが可能となる。また、ユーザは、所持している術具から手を離すことなく機器を操作することが可能となるため、ユーザの利便性が向上する。
処置具制御装置5163は、組織の焼灼、切開又は血管の封止等のためのエネルギー処置具5135の駆動を制御する。気腹装置5165は、内視鏡5115による視野の確保及び術者の作業空間の確保の目的で、患者5185の体腔を膨らめるために、気腹チューブ5133を介して当該体腔内にガスを送り込む。レコーダ5167は、手術に関する各種の情報を記録可能な装置である。プリンタ5169は、手術に関する各種の情報を、テキスト、画像又はグラフ等各種の形式で印刷可能な装置である。
以下、内視鏡手術システム5113において特に特徴的な構成について、更に詳細に説明する。
(支持アーム装置)
支持アーム装置5141は、基台であるベース部5143と、ベース部5143から延伸するアーム部5145と、を備える。図示する例では、アーム部5145は、複数の関節部5147a、5147b、5147cと、関節部5147bによって連結される複数のリンク5149a、5149bと、から構成されているが、図19では、簡単のため、アーム部5145の構成を簡略化して図示している。実際には、アーム部5145が所望の自由度を有するように、関節部5147a〜5147c及びリンク5149a、5149bの形状、数及び配置、並びに関節部5147a〜5147cの回転軸の方向等が適宜設定され得る。例えば、アーム部5145は、好適に、6自由度以上の自由度を有するように構成され得る。これにより、アーム部5145の可動範囲内において内視鏡5115を自由に移動させることが可能になるため、所望の方向から内視鏡5115の鏡筒5117を患者5185の体腔内に挿入することが可能になる。
関節部5147a〜5147cにはアクチュエータが設けられており、関節部5147a〜5147cは当該アクチュエータの駆動により所定の回転軸まわりに回転可能に構成されている。当該アクチュエータの駆動がアーム制御装置5159によって制御されることにより、各関節部5147a〜5147cの回転角度が制御され、アーム部5145の駆動が制御される。これにより、内視鏡5115の位置及び姿勢の制御が実現され得る。この際、アーム制御装置5159は、力制御又は位置制御等、各種の公知の制御方式によってアーム部5145の駆動を制御することができる。
例えば、術者5181が、入力装置5161(フットスイッチ5171を含む)を介して適宜操作入力を行うことにより、当該操作入力に応じてアーム制御装置5159によってアーム部5145の駆動が適宜制御され、内視鏡5115の位置及び姿勢が制御されてよい。当該制御により、アーム部5145の先端の内視鏡5115を任意の位置から任意の位置まで移動させた後、その移動後の位置で固定的に支持することができる。なお、アーム部5145は、いわゆるマスタースレイブ方式で操作されてもよい。この場合、アーム部5145は、手術室から離れた場所に設置される入力装置5161を介してユーザによって遠隔操作され得る。
また、力制御が適用される場合には、アーム制御装置5159は、ユーザからの外力を受け、その外力にならってスムーズにアーム部5145が移動するように、各関節部5147a〜5147cのアクチュエータを駆動させる、いわゆるパワーアシスト制御を行ってもよい。これにより、ユーザが直接アーム部5145に触れながらアーム部5145を移動させる際に、比較的軽い力で当該アーム部5145を移動させることができる。従って、より直感的に、より簡易な操作で内視鏡5115を移動させることが可能となり、ユーザの利便性を向上させることができる。
ここで、一般的に、内視鏡下手術では、スコピストと呼ばれる医師によって内視鏡5115が支持されていた。これに対して、支持アーム装置5141を用いることにより、人手によらずに内視鏡5115の位置をより確実に固定することが可能になるため、術部の画像を安定的に得ることができ、手術を円滑に行うことが可能になる。
なお、アーム制御装置5159は必ずしもカート5151に設けられなくてもよい。また、アーム制御装置5159は必ずしも1つの装置でなくてもよい。例えば、アーム制御装置5159は、支持アーム装置5141のアーム部5145の各関節部5147a〜5147cにそれぞれ設けられてもよく、複数のアーム制御装置5159が互いに協働することにより、アーム部5145の駆動制御が実現されてもよい。
(光源装置)
光源装置5157は、内視鏡5115に術部を撮影する際の照射光を供給する。光源装置5157は、例えばLED、レーザ光源又はこれらの組み合わせによって構成される白色光源から構成される。このとき、RGBレーザ光源の組み合わせにより白色光源が構成される場合には、各色(各波長)の出力強度及び出力タイミングを高精度に制御することができるため、光源装置5157において撮像画像のホワイトバランスの調整を行うことができる。また、この場合には、RGBレーザ光源それぞれからのレーザ光を時分割で観察対象に照射し、その照射タイミングに同期してカメラヘッド5119の撮像素子の駆動を制御することにより、RGBそれぞれに対応した画像を時分割で撮像することも可能である。当該方法によれば、当該撮像素子にカラーフィルタを設けなくても、カラー画像を得ることができる。
また、光源装置5157は、出力する光の強度を所定の時間ごとに変更するようにその駆動が制御されてもよい。その光の強度の変更のタイミングに同期してカメラヘッド5119の撮像素子の駆動を制御して時分割で画像を取得し、その画像を合成することにより、いわゆる黒つぶれ及び白とびのない高ダイナミックレンジの画像を生成することができる。
また、光源装置5157は、特殊光観察に対応した所定の波長帯域の光を供給可能に構成されてもよい。特殊光観察では、例えば、体組織における光の吸収の波長依存性を利用して、通常の観察時における照射光(すなわち、白色光)に比べて狭帯域の光を照射することにより、粘膜表層の血管等の所定の組織を高コントラストで撮影する、いわゆる狭帯域光観察(Narrow Band Imaging)が行われる。あるいは、特殊光観察では、励起光を照射することにより発生する蛍光により画像を得る蛍光観察が行われてもよい。蛍光観察では、体組織に励起光を照射し当該体組織からの蛍光を観察するもの(自家蛍光観察)、又はインドシアニングリーン(ICG)等の試薬を体組織に局注するとともに当該体組織にその試薬の蛍光波長に対応した励起光を照射し蛍光像を得るもの等が行われ得る。光源装置5157は、このような特殊光観察に対応した狭帯域光及び/又は励起光を供給可能に構成され得る。
(カメラヘッド及びCCU)
図20を参照して、内視鏡5115のカメラヘッド5119及びCCU5153の機能についてより詳細に説明する。図20は、図19に示すカメラヘッド5119及びCCU5153の機能構成の一例を示すブロック図である。
図20を参照すると、カメラヘッド5119は、その機能として、レンズユニット5121と、撮像部5123と、駆動部5125と、通信部5127と、カメラヘッド制御部5129と、を有する。また、CCU5153は、その機能として、通信部5173と、画像処理部5175と、制御部5177と、を有する。カメラヘッド5119とCCU5153とは、伝送ケーブル5179によって双方向に通信可能に接続されている。
まず、カメラヘッド5119の機能構成について説明する。レンズユニット5121は、鏡筒5117との接続部に設けられる光学系である。鏡筒5117の先端から取り込まれた観察光は、カメラヘッド5119まで導光され、当該レンズユニット5121に入射する。レンズユニット5121は、ズームレンズ及びフォーカスレンズを含む複数のレンズが組み合わされて構成される。レンズユニット5121は、撮像部5123の撮像素子の受光面上に観察光を集光するように、その光学特性が調整されている。また、ズームレンズ及びフォーカスレンズは、撮像画像の倍率及び焦点の調整のため、その光軸上の位置が移動可能に構成される。
撮像部5123は撮像素子によって構成され、レンズユニット5121の後段に配置される。レンズユニット5121を通過した観察光は、当該撮像素子の受光面に集光され、光電変換によって、観察像に対応した画像信号が生成される。撮像部5123によって生成された画像信号は、通信部5127に提供される。
撮像部5123を構成する撮像素子としては、例えばCMOS(Complementary Metal Oxide Semiconductor)タイプのイメージセンサであり、Bayer配列を有するカラー撮影可能なものが用いられる。なお、当該撮像素子としては、例えば4K以上の高解像度の画像の撮影に対応可能なものが用いられてもよい。術部の画像が高解像度で得られることにより、術者5181は、当該術部の様子をより詳細に把握することができ、手術をより円滑に進行することが可能となる。
また、撮像部5123を構成する撮像素子は、3D表示に対応する右目用及び左目用の画像信号をそれぞれ取得するための1対の撮像素子を有するように構成される。3D表示が行われることにより、術者5181は術部における生体組織の奥行きをより正確に把握することが可能になる。なお、撮像部5123が多板式で構成される場合には、各撮像素子に対応して、レンズユニット5121も複数系統設けられる。
また、撮像部5123は、必ずしもカメラヘッド5119に設けられなくてもよい。例えば、撮像部5123は、鏡筒5117の内部に、対物レンズの直後に設けられてもよい。
駆動部5125は、アクチュエータによって構成され、カメラヘッド制御部5129からの制御により、レンズユニット5121のズームレンズ及びフォーカスレンズを光軸に沿って所定の距離だけ移動させる。これにより、撮像部5123による撮像画像の倍率及び焦点が適宜調整され得る。
通信部5127は、CCU5153との間で各種の情報を送受信するための通信装置によって構成される。通信部5127は、撮像部5123から得た画像信号をRAWデータとして伝送ケーブル5179を介してCCU5153に送信する。この際、術部の撮像画像を低レイテンシで表示するために、当該画像信号は光通信によって送信されることが好ましい。手術の際には、術者5181が撮像画像によって患部の状態を観察しながら手術を行うため、より安全で確実な手術のためには、術部の動画像が可能な限りリアルタイムに表示されることが求められるからである。光通信が行われる場合には、通信部5127には、電気信号を光信号に変換する光電変換モジュールが設けられる。画像信号は当該光電変換モジュールによって光信号に変換された後、伝送ケーブル5179を介してCCU5153に送信される。
また、通信部5127は、CCU5153から、カメラヘッド5119の駆動を制御するための制御信号を受信する。当該制御信号には、例えば、撮像画像のフレームレートを指定する旨の情報、撮像時の露出値を指定する旨の情報、並びに/又は撮像画像の倍率及び焦点を指定する旨の情報等、撮像条件に関する情報が含まれる。通信部5127は、受信した制御信号をカメラヘッド制御部5129に提供する。なお、CCU5153からの制御信号も、光通信によって伝送されてもよい。この場合、通信部5127には、光信号を電気信号に変換する光電変換モジュールが設けられ、制御信号は当該光電変換モジュールによって電気信号に変換された後、カメラヘッド制御部5129に提供される。
なお、上記のフレームレートや露出値、倍率、焦点等の撮像条件は、取得された画像信号に基づいてCCU5153の制御部5177によって自動的に設定される。つまり、いわゆるAE(Auto Exposure)機能、AF(Auto Focus)機能及びAWB(Auto White Balance)機能が内視鏡5115に搭載される。
カメラヘッド制御部5129は、通信部5127を介して受信したCCU5153からの制御信号に基づいて、カメラヘッド5119の駆動を制御する。例えば、カメラヘッド制御部5129は、撮像画像のフレームレートを指定する旨の情報及び/又は撮像時の露光を指定する旨の情報に基づいて、撮像部5123の撮像素子の駆動を制御する。また、例えば、カメラヘッド制御部5129は、撮像画像の倍率及び焦点を指定する旨の情報に基づいて、駆動部5125を介してレンズユニット5121のズームレンズ及びフォーカスレンズを適宜移動させる。カメラヘッド制御部5129は、更に、鏡筒5117やカメラヘッド5119を識別するための情報を記憶する機能を備えてもよい。
なお、レンズユニット5121や撮像部5123等の構成を、気密性及び防水性が高い密閉構造内に配置することで、カメラヘッド5119について、オートクレーブ滅菌処理に対する耐性を持たせることができる。
次に、CCU5153の機能構成について説明する。通信部5173は、カメラヘッド5119との間で各種の情報を送受信するための通信装置によって構成される。通信部5173は、カメラヘッド5119から、伝送ケーブル5179を介して送信される画像信号を受信する。この際、上記のように、当該画像信号は好適に光通信によって送信され得る。この場合、光通信に対応して、通信部5173には、光信号を電気信号に変換する光電変換モジュールが設けられる。通信部5173は、電気信号に変換した画像信号を画像処理部5175に提供する。
また、通信部5173は、カメラヘッド5119に対して、カメラヘッド5119の駆動を制御するための制御信号を送信する。当該制御信号も光通信によって送信されてよい。
画像処理部5175は、カメラヘッド5119から送信されたRAWデータである画像信号に対して各種の画像処理を施す。当該画像処理としては、例えば現像処理、高画質化処理(帯域強調処理、超解像処理、NR(Noise reduction)処理及び/又は手ブレ補正処理等)、並びに/又は拡大処理(電子ズーム処理)等、各種の公知の信号処理が含まれる。また、画像処理部5175は、AE、AF及びAWBを行うための、画像信号に対する検波処理を行う。
画像処理部5175は、CPUやGPU等のプロセッサによって構成され、当該プロセッサが所定のプログラムに従って動作することにより、上述した画像処理や検波処理が行われ得る。なお、画像処理部5175が複数のGPUによって構成される場合には、画像処理部5175は、画像信号に係る情報を適宜分割し、これら複数のGPUによって並列的に画像処理を行う。
制御部5177は、内視鏡5115による術部の撮像、及びその撮像画像の表示に関する各種の制御を行う。例えば、制御部5177は、カメラヘッド5119の駆動を制御するための制御信号を生成する。この際、撮像条件がユーザによって入力されている場合には、制御部5177は、当該ユーザによる入力に基づいて制御信号を生成する。あるいは、内視鏡5115にAE機能、AF機能及びAWB機能が搭載されている場合には、制御部5177は、画像処理部5175による検波処理の結果に応じて、最適な露出値、焦点距離及びホワイトバランスを適宜算出し、制御信号を生成する。
また、制御部5177は、画像処理部5175によって画像処理が施された画像信号に基づいて、術部の画像を表示装置5155に表示させる。この際、制御部5177は、各種の画像認識技術を用いて術部画像内における各種の物体を認識する。例えば、制御部5177は、術部画像に含まれる物体のエッジの形状や色等を検出することにより、鉗子等の術具、特定の生体部位、出血、エネルギー処置具5135使用時のミスト等を認識することができる。制御部5177は、表示装置5155に術部の画像を表示させる際に、その認識結果を用いて、各種の手術支援情報を当該術部の画像に重畳表示させる。手術支援情報が重畳表示され、術者5181に提示されることにより、より安全かつ確実に手術を進めることが可能になる。
カメラヘッド5119及びCCU5153を接続する伝送ケーブル5179は、電気信号の通信に対応した電気信号ケーブル、光通信に対応した光ファイバ、又はこれらの複合ケーブルである。
ここで、図示する例では、伝送ケーブル5179を用いて有線で通信が行われていたが、カメラヘッド5119とCCU5153との間の通信は無線で行われてもよい。両者の間の通信が無線で行われる場合には、伝送ケーブル5179を手術室内に敷設する必要がなくなるため、手術室内における医療スタッフの移動が当該伝送ケーブル5179によって妨げられる事態が解消され得る。
以上、本開示に係る技術が適用され得る手術室システム5100の一例について説明した。なお、ここでは、一例として手術室システム5100が適用される医療用システムが内視鏡手術システム5113である場合について説明したが、手術室システム5100の構成はかかる例に限定されない。例えば、手術室システム5100は、内視鏡手術システム5113に代えて、検査用軟性内視鏡システムや顕微鏡手術システムに適用されてもよい。
本開示に係る技術は、以上説明した構成のうち、例えば視聴覚コントローラ5107に好適に適用され得る。具体的には、視聴覚コントローラ5107が上述した取得部110、検出部120、生成部130、記憶部140及び再生制御部150等の機能を有し、入力される動画(画像データ及び音声データ)に基づいて重要度マップを生成し、重要度マップに基づく出力画像を出力してもよい。
本開示に係る技術が視聴覚コントローラ5107に適用される場合、入力される画像データは、例えばシーリングカメラ5187、術場カメラ5189、内視鏡5115等のカメラの撮像により取得される画像、あるいはレコーダ5105に記憶された画像であってもよい。例えば、術場カメラ5189の撮像により取得された画像と内視鏡5115の撮像により取得された画像とが、入力される画像データであってもよい。あるいは、内視鏡5115の撮像により取得された画像と不図示の顕微鏡の撮像により取得された画像とが、入力される画像データであってもよい。あるいは、術場カメラ5189の撮像により取得された画像と術者に装着された不図示の視線カメラ(ウェアラブルカメラ)の撮像により取得された画像とが、入力される画像データであってもよい。
また、本開示に係る技術が視聴覚コントローラ5107に適用される場合、入力される音声データは、例えば、入力装置5161により取得される音声データであってもよい。
他にも、シーリングカメラ5187、術場カメラ5189、又は内視鏡5115等のカメラに図示しない音声入力装置が併設されていてもよく、これらの音声入力装置により取得された音声データが、入力される音声データであってもよい。
本開示に係る技術が視聴覚コントローラ5107に適用される場合、物理空間における被操作体とは術部、患者5185、患部又は手術室の様子であり、操作者とは術者5181、又は術者5181以外の医療スタッフである。また、操作位置とは、術者5181又は術者5181以外の医療スタッフの手先、又は術具の先端等である。例えば、視聴覚コントローラ5107は、術部を背景とする術者5181の手元の動画(以下、手術動画とも称する)に基づいて、手元の位置情報を累積し、重要度マップを生成する。これにより、視聴覚コントローラ5107は、手術動画のうち術者5181が集中的に処置した部位(即ち、治療のための重要な部位)を、重要領域として特定することができる。
本開示に係る技術が視聴覚コントローラ5107に適用される場合、上記重要度マップに基づいて再生用画面を生成し、再生制御を行う。例えば、視聴覚コントローラ5107は、重要度マップに基づいて手術動画に再生用インデックスを付与する。視聴者は、再生用インデックスを用いて手術動画を再生させることで、術者5181が集中的に処置した部位の処置の様子を効率的に視聴することができる。この場合、視聴者とは、術者5181を監督する上司、患者5185の家族、患者5185自身又は手術動画を用いて手術の学習を行う学生若しくは研修医である。視聴者が術者5181を監督する上司、患者5185の家族、又は患者5185自身である場合には、術者5181は、術後に、手術の様子を効率的に見せながら説明することができる。また、視聴者が学生又は研修医である場合には、視聴者が学生又は研修医を効率的に視聴しながら学習することができる。
本開示に係る技術が視聴覚コントローラ5107に適用される場合、再生用画面のうち第1の領域が発信元操作領域5203に表示され、第2の領域及び第3の領域がプレビュー領域5197に表示され得る。視聴者は、発信元操作領域5203を操作することで、手術動画の再生位置を制御する。そして、プレビュー領域5197において、発信元操作領域5203において操作された再生位置から手術動画が再生されると共に、再生中の手術動画の重要度マップが表示される。この場合、視聴者は、手術中の術者5181、又は術者5181以外の医療スタッフである。術者5181又は術者5181以外の医療スタッフは、手術中に手術の内容を効率的に振り返ることができるので、処置し忘れ、及び当てたガーゼの取り忘れ等を防止することができる。
<<6.まとめ>>
以上、図1〜図20を参照して、本開示の一実施形態について詳細に説明した。上記説明したように、本実施形態に係る情報処理装置100は、動画における被操作体に対する操作者の動作を認識し、操作者の操作位置に基づいて、動画における被操作体の重要領域を特定する。これにより、例えば講義動画において、筆記情報が筆記された筆記面において、講師が指示しながら説明した重要と思われる領域を効率よく特定することができる。換言すると、筆記情報が筆記された筆記面のうち、講師が重要であると認識している部分を可視化することができる。これにより、講義動画を視聴する学生は、効率的に学習することができる。また、講義動画を講師自身が視聴することで、講師は反省を促され、よりよい授業形成が促進される。
また、情報処理装置100は、重要領域を特定する際に計算した指示位置の累積値に基づいて講義動画に再生用インデックスを付与する。これにより、視聴者は、時間軸順ではなく重要な場面から順に視聴を進めるなど、効率よく講義動画を視聴することができる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、上記実施形態では、本技術の適用先として、講義及び手術の例を説明したが、本技術は係る例に限定されない。
例えば、本技術は、農業に適用されてもよい。農業においては、被操作体とは農場であり、操作者は農業従事者である。情報処理装置100は、農場と当該農場で働く農業従事者を撮像した動画(以下、農業動画とも称する)に基づいて、農場のうち重要領域を特定する。重要領域は、農業動画に映る農場の各領域について農業従事者により操作される時間の累積値に基づいて特定される。農業従事者により操作される位置とは、農業従事者の手先又は農具により操作される位置である。例えば、農場のうち、農業従事者が時間をかけて作業を行った領域が重要領域として特定され、かかる重要領域への作業が行われる時刻に再生用インデックスが付与される。視聴者は、例えば農業を学ぶ学生である。学生は、再生用インデックスを用いて、重要な作業が行われた部分を効率的に再生しながら、学習を行うことができる。視聴者は、農業従事者自身であってもよい。農業従事者は、再生用インデックスを用いて、自身の作業の履歴を効率よく振り返ることができるので、例えば種を植えたが水をやり忘れた領域や雑草を抜き忘れた領域を、効率的に発見することができる。
また、本技術は、講義、手術室システム及び農業の他にも、固定的に設置されるカメラにより操作者と操作者の背景となる被操作体とを含む動画が撮像される任意のユースケースに適用可能である。例えば、本技術は、監視カメラ、及び家庭内の見守り用カメラ等に適用可能である。また、本技術は、プレゼンテーション資料を用いた講義にも適用可能である。その場合、情報処理装置100は、1枚ずつのプレゼンテーション資料について、重要領域を特定することができる。
例えば、本技術は、非固定的に設置されるカメラが用いられるユースケースに適用されてもよい。例えば、本技術は、ユーザに装着されて位置及び姿勢が変化しながらユーザの生活を記録する、いわゆるライフログカメラに適用されてもよい。この場合、操作者とはライフログカメラに映る任意の人であり、被操作体とは操作者の後ろに映る背景全般である。ただし、ライフログカメラでは、カメラの位置及び姿勢が任意に変化するので、仮に操作者が操作する位置が不変であっても、動画に映る操作位置は変わり得る。そのため、情報処理装置100は、カメラの周囲の物体の配置及び形状等を示す情報を含む環境マップにおけるカメラの位置及び姿勢を推定しながら、操作者及び被操作体の位置関係を推定し、被操作体における重要領域を特定してもよい。その際には、例えばカメラの位置及び姿勢とカメラの画像に映る特徴点の位置とを同時に推定可能な、SLAM(Simultaneous Localization And Mapping)とよばれる技術が用いられ得る。
また、本明細書においてフローチャート及びシーケンス図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
動画における被操作体に対する操作者の動作を認識し、前記操作者の操作位置に基づいて、前記動画における前記被操作体の重要領域を特定する制御部、
を備える情報処理装置。
(2)
前記制御部は、前記動画に前記重要領域を示す情報を重畳した重畳画像を生成する、前記(1)に記載の情報処理装置。
(3)
前記制御部は、再生用インデックスが付与された時刻の前記重畳画像が表示される第1の領域を含む再生用画面を生成する、前記(2)に記載の情報処理装置。
(4)
前記第1の領域において、複数の前記重畳画像は、前記動画において再生される順に一端から他端に向かって所定の方向に沿って並べられ、且つ前記再生用インデックスが付与された時刻の前記重畳画像は他の前記重畳画像と比較して認識容易に表示される、前記(3)に記載の情報処理装置。
(5)
前記第1の領域において、複数の前記重畳画像は、前記重畳画像に含まれる前記重要領域の重要度の順に一端から他端に向かって所定の方向に沿って並べられる、前記(4)に記載の情報処理装置。
(6)
前記制御部は、前記重要領域の重要度に応じて、前記動画に前記再生用インデックスを付与する、前記(3)〜(5)のいずれか一項に記載の情報処理装置。
(7)
前記制御部は、前記動画に含まれるひとつ以上の前記重要領域の各々の重要度の累積が開始されてから終了するまでの間の所定の条件を満たすタイミングにおいて、前記再生用インデックスを付与する、前記(6)に記載の情報処理装置。
(8)
前記制御部は、前記動画に含まれるひとつ以上の前記重要領域の各々の重要度がピークに達する時刻の各々において前記再生用インデックスを付与する、前記(7)に記載の情報処理装置。
(9)
前記再生用画面は、前記動画が再生される第2の領域と、前記動画の再生位置に対応する時刻の前記重畳画像が表示される第3の領域とをさらに含む、前記(3)〜(8)のいずれか一項に記載の情報処理装置。
(10)
前記制御部は、前記第1の領域に含まれる前記重畳画像が視聴者により選択された場合、選択された前記重畳画像に対応する再生位置から、前記動画を再生する、前記(9)に記載の情報処理装置。
(11)
前記制御部は、前記第1の領域に含まれる前記重畳画像が視聴者により選択された場合、選択された前記重畳画像に含まれる前記重要領域の時間変化に応じた再生位置から、前記動画を再生する、前記(10)に記載の情報処理装置。
(12)
前記再生用画面は、前記被操作体の画像に、前記再生用インデックスが付与された複数の時刻における複数の前記重要領域を示す情報を重畳した画像を含む、前記(3)に記載の情報処理装置。
(13)
前記重要領域を示す情報には、前記重要領域の認識結果を示す情報が関連付けられる、前記(12)に記載の情報処理装置。
(14)
前記制御部は、前記動画に映る前記被操作体の各領域について前記操作位置が留まる時間の累積値を計算し、前記累積値が大きい領域を前記重要領域として特定する、前記(1)〜(13)のいずれか一項に記載の情報処理装置。
(15)
前記制御部は、前記累積値を時間の経過に応じて減少させる、前記(14)に記載の情報処理装置。
(16)
前記制御部は、前記動画に映る前記被操作体に所定の変化が生じた場合に、前記累積値の減少を開始させる、前記(15)に記載の情報処理装置。
(17)
前記被操作体は、情報が筆記された筆記面であり、前記操作位置は、前記操作者の手先の位置又は前記操作者が持つ指示器により指示される位置である、前記(1)〜(16)のいずれか一項に記載の情報処理装置。
(18)
動画における被操作体に対する操作者の操作位置に基づいて特定された、前記動画における前記被操作体の重要領域を示す情報が、前記動画に重畳された重畳画像の表示を制御する制御部、
を備える情報処理装置。
(19)
動画における被操作体に対する操作者の動作を認識し、前記操作者の操作位置に基づいて、前記動画における前記被操作体の重要領域を特定すること、
を含む、プロセッサにより実行される情報処理方法。
(20)
コンピュータを、
動画における被操作体に対する操作者の動作を認識し、前記操作者の操作位置に基づいて、前記動画における前記被操作体の重要領域を特定する制御部、
として機能させるためのプログラム。
1 システム
2 被操作体
3 操作者
100 情報処理装置
110 取得部
120 検出部
130 生成部
140 記憶部
150 再生制御部
200 カメラ
210 出力装置
220 操作装置

Claims (20)

  1. 動画における被操作体に対する操作者の動作を認識し、前記操作者の操作位置に基づいて、前記動画における前記被操作体の重要領域を特定する制御部、
    を備える情報処理装置。
  2. 前記制御部は、前記動画に前記重要領域を示す情報を重畳した重畳画像を生成する、請求項1に記載の情報処理装置。
  3. 前記制御部は、再生用インデックスが付与された時刻の前記重畳画像が表示される第1の領域を含む再生用画面を生成する、請求項2に記載の情報処理装置。
  4. 前記第1の領域において、複数の前記重畳画像は、前記動画において再生される順に一端から他端に向かって所定の方向に沿って並べられ、且つ前記再生用インデックスが付与された時刻の前記重畳画像は他の前記重畳画像と比較して認識容易に表示される、請求項3に記載の情報処理装置。
  5. 前記第1の領域において、複数の前記重畳画像は、前記重畳画像に含まれる前記重要領域の重要度の順に一端から他端に向かって所定の方向に沿って並べられる、請求項4に記載の情報処理装置。
  6. 前記制御部は、前記重要領域の重要度に応じて、前記動画に前記再生用インデックスを付与する、請求項3に記載の情報処理装置。
  7. 前記制御部は、前記動画に含まれるひとつ以上の前記重要領域の各々の重要度の累積が開始されてから終了するまでの間の所定の条件を満たすタイミングにおいて、前記再生用インデックスを付与する、請求項6に記載の情報処理装置。
  8. 前記制御部は、前記動画に含まれるひとつ以上の前記重要領域の各々の重要度がピークに達する時刻の各々において前記再生用インデックスを付与する、請求項7に記載の情報処理装置。
  9. 前記再生用画面は、前記動画が再生される第2の領域と、前記動画の再生位置に対応する時刻の前記重畳画像が表示される第3の領域とをさらに含む、請求項3に記載の情報処理装置。
  10. 前記制御部は、前記第1の領域に含まれる前記重畳画像が視聴者により選択された場合、選択された前記重畳画像に対応する再生位置から、前記動画を再生する、請求項9に記載の情報処理装置。
  11. 前記制御部は、前記第1の領域に含まれる前記重畳画像が視聴者により選択された場合、選択された前記重畳画像に含まれる前記重要領域の時間変化に応じた再生位置から、前記動画を再生する、請求項10に記載の情報処理装置。
  12. 前記再生用画面は、前記被操作体の画像に、前記再生用インデックスが付与された複数の時刻における複数の前記重要領域を示す情報を重畳した画像を含む、請求項3に記載の情報処理装置。
  13. 前記重要領域を示す情報には、前記重要領域の認識結果を示す情報が関連付けられる、請求項12に記載の情報処理装置。
  14. 前記制御部は、前記動画に映る前記被操作体の各領域について前記操作位置が留まる時間の累積値を計算し、前記累積値が大きい領域を前記重要領域として特定する、請求項1に記載の情報処理装置。
  15. 前記制御部は、前記累積値を時間の経過に応じて減少させる、請求項14に記載の情報処理装置。
  16. 前記制御部は、前記動画に映る前記被操作体に所定の変化が生じた場合に、前記累積値の減少を開始させる、請求項15に記載の情報処理装置。
  17. 前記被操作体は、情報が筆記された筆記面であり、前記操作位置は、前記操作者の手先の位置又は前記操作者が持つ指示器により指示される位置である、請求項1に記載の情報処理装置。
  18. 動画における被操作体に対する操作者の操作位置に基づいて特定された、前記動画における前記被操作体の重要領域を示す情報が、前記動画に重畳された重畳画像の表示を制御する制御部、
    を備える情報処理装置。
  19. 動画における被操作体に対する操作者の動作を認識し、前記操作者の操作位置に基づいて、前記動画における前記被操作体の重要領域を特定すること、
    を含む、プロセッサにより実行される情報処理方法。
  20. コンピュータを、
    動画における被操作体に対する操作者の動作を認識し、前記操作者の操作位置に基づいて、前記動画における前記被操作体の重要領域を特定する制御部、
    として機能させるためのプログラム。
JP2019560810A 2017-12-22 2018-09-28 情報処理装置、情報処理方法及びプログラム Active JP7192792B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017245779 2017-12-22
JP2017245779 2017-12-22
PCT/JP2018/036568 WO2019123762A1 (ja) 2017-12-22 2018-09-28 情報処理装置、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2019123762A1 true JPWO2019123762A1 (ja) 2021-01-07
JP7192792B2 JP7192792B2 (ja) 2022-12-20

Family

ID=66992601

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019560810A Active JP7192792B2 (ja) 2017-12-22 2018-09-28 情報処理装置、情報処理方法及びプログラム

Country Status (5)

Country Link
US (2) US11321880B2 (ja)
EP (1) EP3731073A4 (ja)
JP (1) JP7192792B2 (ja)
CN (1) CN111465916B (ja)
WO (1) WO2019123762A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11321880B2 (en) * 2017-12-22 2022-05-03 Sony Corporation Information processor, information processing method, and program for specifying an important region of an operation target in a moving image
US20220401179A1 (en) 2021-06-22 2022-12-22 Olympus Corporation Surgical support system, surgical support method, and information storage medium

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004187043A (ja) * 2002-12-04 2004-07-02 Fuji Xerox Co Ltd 映像処理装置
JP2006228059A (ja) * 2005-02-18 2006-08-31 Tokyo Institute Of Technology ポインタの位置情報を利用するプレゼンテーションコンテンツ検索システムおよびその方法、ならびにコンピュータ読み取り可能な記録媒体
JP2007134771A (ja) * 2005-11-08 2007-05-31 Sony Corp 情報処理装置、撮像装置、および情報処理方法、並びにコンピュータ・プログラム
JP2007148904A (ja) * 2005-11-29 2007-06-14 Toshiba Corp 情報提示方法、情報提示装置及び情報提示プログラム
JP2007336106A (ja) * 2006-06-13 2007-12-27 Osaka Univ 映像編集支援装置
JP2009245406A (ja) * 2008-04-01 2009-10-22 Fujifilm Corp 画像処理装置およびそのプログラム
JP2012059271A (ja) * 2010-09-13 2012-03-22 Ricoh Co Ltd ヒューマンコンピュータインタラクションシステム、手と手指示点位置決め方法、及び手指のジェスチャ決定方法
JP2013239797A (ja) * 2012-05-11 2013-11-28 Canon Inc 画像処理装置
JP2014531662A (ja) * 2011-09-19 2014-11-27 アイサイト モバイル テクノロジーズ リミテッド 拡張現実システムのためのタッチフリーインターフェース
JP2016039548A (ja) * 2014-08-08 2016-03-22 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6535639B1 (en) * 1999-03-12 2003-03-18 Fuji Xerox Co., Ltd. Automatic video summarization using a measure of shot importance and a frame-packing method
US7647555B1 (en) * 2000-04-13 2010-01-12 Fuji Xerox Co., Ltd. System and method for video access from notes or summaries
KR100593837B1 (ko) * 2001-10-17 2006-07-03 박남교 인터넷 동영상에 연동 기능을 부가한 능동적 학습 자료제공 방법
US7035435B2 (en) * 2002-05-07 2006-04-25 Hewlett-Packard Development Company, L.P. Scalable video summarization and navigation system and method
US7260257B2 (en) * 2002-06-19 2007-08-21 Microsoft Corp. System and method for whiteboard and audio capture
KR100590537B1 (ko) * 2004-02-18 2006-06-15 삼성전자주식회사 복수 영상의 요약 방법 및 장치
JP2005234368A (ja) * 2004-02-20 2005-09-02 Earnet Co Ltd 遠隔講義システム
JP4817289B2 (ja) * 2005-09-29 2011-11-16 富士通株式会社 穴埋めテスト問題作成プログラム、方法及び装置
US8671346B2 (en) * 2007-02-09 2014-03-11 Microsoft Corporation Smart video thumbnail
TW201004339A (en) * 2008-07-09 2010-01-16 Univ Nat Taiwan Method and system for processing synthetic graphic images on digital video file
US8433138B2 (en) * 2008-10-29 2013-04-30 Nokia Corporation Interaction using touch and non-touch gestures
WO2012088443A1 (en) * 2010-12-24 2012-06-28 Kevadiya, Inc. System and method for automated capture and compaction of instructional performances
EP2718856A4 (en) * 2011-06-10 2015-02-25 Tata Consultancy Services Ltd METHOD AND SYSTEM FOR AUTOMATIC MARKINGS IN TV CONSUMPTION USING A CROWDSOURCING METHOD
JP5762892B2 (ja) * 2011-09-06 2015-08-12 ビッグローブ株式会社 情報表示システム、情報表示方法、及び情報表示用プログラム
US9646313B2 (en) * 2011-12-13 2017-05-09 Microsoft Technology Licensing, Llc Gesture-based tagging to view related content
US9049482B2 (en) * 2012-02-19 2015-06-02 Udacity, Inc. System and method for combining computer-based educational content recording and video-based educational content recording
JP6075110B2 (ja) * 2013-02-21 2017-02-08 富士通株式会社 画像処理装置、画像処理方法および画像処理プログラム
JP2016009266A (ja) * 2014-06-23 2016-01-18 コニカミノルタ株式会社 撮影システム、撮影の方法、およびコンピュータープログラム
JP5954377B2 (ja) * 2014-08-19 2016-07-20 カシオ計算機株式会社 画像生成装置、画像生成方法及びプログラム
KR101686143B1 (ko) * 2014-12-30 2016-12-13 채수한 영상 처리 장치 및 영상 처리 방법
JP6776716B2 (ja) * 2016-08-10 2020-10-28 富士ゼロックス株式会社 情報処理装置、プログラム
US10349022B2 (en) * 2017-03-22 2019-07-09 Casio Computer Co., Ltd. Image processing apparatus, projector, image processing method, and storage medium storing image processing program
US10942575B2 (en) * 2017-06-07 2021-03-09 Cisco Technology, Inc. 2D pointing indicator analysis
US10325629B1 (en) * 2017-12-15 2019-06-18 International Business Machines Corporation Cognitive system and method for optimized video playback
US11321880B2 (en) * 2017-12-22 2022-05-03 Sony Corporation Information processor, information processing method, and program for specifying an important region of an operation target in a moving image

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004187043A (ja) * 2002-12-04 2004-07-02 Fuji Xerox Co Ltd 映像処理装置
JP2006228059A (ja) * 2005-02-18 2006-08-31 Tokyo Institute Of Technology ポインタの位置情報を利用するプレゼンテーションコンテンツ検索システムおよびその方法、ならびにコンピュータ読み取り可能な記録媒体
JP2007134771A (ja) * 2005-11-08 2007-05-31 Sony Corp 情報処理装置、撮像装置、および情報処理方法、並びにコンピュータ・プログラム
JP2007148904A (ja) * 2005-11-29 2007-06-14 Toshiba Corp 情報提示方法、情報提示装置及び情報提示プログラム
JP2007336106A (ja) * 2006-06-13 2007-12-27 Osaka Univ 映像編集支援装置
JP2009245406A (ja) * 2008-04-01 2009-10-22 Fujifilm Corp 画像処理装置およびそのプログラム
JP2012059271A (ja) * 2010-09-13 2012-03-22 Ricoh Co Ltd ヒューマンコンピュータインタラクションシステム、手と手指示点位置決め方法、及び手指のジェスチャ決定方法
JP2014531662A (ja) * 2011-09-19 2014-11-27 アイサイト モバイル テクノロジーズ リミテッド 拡張現実システムのためのタッチフリーインターフェース
JP2013239797A (ja) * 2012-05-11 2013-11-28 Canon Inc 画像処理装置
JP2016039548A (ja) * 2014-08-08 2016-03-22 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TAKASHI KOBAYASHI ET AL.: ""Presentation Scene Retrieval Exploiting Features in Videos Including Pointing and Speech Informatio", RESEARCHGATE, JPN7022004409, 21 May 2014 (2014-05-21), DE, pages 1 - 6, ISSN: 0004872783 *
山田 伸、外2名: ""ビデオインデックス作成・編集技術"", MATSUSHITA TECHNICAL JOURNAL, vol. 44, no. 5, JPN6018041422, 18 October 1998 (1998-10-18), JP, pages 125 - 132, ISSN: 0004872784 *

Also Published As

Publication number Publication date
WO2019123762A1 (ja) 2019-06-27
CN111465916A (zh) 2020-07-28
US12008682B2 (en) 2024-06-11
US20200388057A1 (en) 2020-12-10
JP7192792B2 (ja) 2022-12-20
EP3731073A4 (en) 2021-02-24
US11321880B2 (en) 2022-05-03
CN111465916B (zh) 2024-04-23
US20220207788A1 (en) 2022-06-30
EP3731073A1 (en) 2020-10-28

Similar Documents

Publication Publication Date Title
JP6950707B2 (ja) 情報処理装置および方法、並びにプログラム
US11818454B2 (en) Controller and control method
WO2019092956A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US12008682B2 (en) Information processor, information processing method, and program image to determine a region of an operation target in a moving image
WO2018221068A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
WO2018212013A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP7420137B2 (ja) 信号処理装置、撮像装置、信号処理方法
WO2020213296A1 (ja) 信号処理装置、信号処理方法、プログラム及び指向性可変用システム
JP7355009B2 (ja) 撮像装置、ゲイン設定方法及びプログラム
WO2018173605A1 (ja) 手術用制御装置、制御方法、手術システム、およびプログラム
WO2020203265A1 (ja) 映像信号処理装置、映像信号処理方法および撮像装置
US11902692B2 (en) Video processing apparatus and video processing method
US11496662B2 (en) Image processing apparatus, image processing method, and image pickup system for displaying information associated with an image
WO2020246181A1 (ja) 画像処理装置、画像処理方法、プログラム
JP7444074B2 (ja) 撮像装置、撮像制御装置、撮像方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210819

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221121

R151 Written notification of patent or utility model registration

Ref document number: 7192792

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151