WO2023162479A1

WO2023162479A1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: WO2023162479A1
Application number: PCT/JP2023/000043
Authority: WO
Inventors: 創太正満; 悟士尾崎; 純二大塚; 翔稲吉
Original assignee: ソニーグループ株式会社
Priority date: 2022-02-24
Filing date: 2023-01-05
Publication date: 2023-08-31

Abstract

本技術の一形態に係る情報処理装置は、取得部と、行動出力部と、根拠出力部と、提示部と、記憶部とを具備する。取得部は、施術に関する施術画像を取得する。行動出力部は、複数の認識器の各々に施術画像が入力されることで施術に関する医療機器の行動に関する行動情報及び行動情報が出力された根拠の位置情報を示す根拠領域を出力する。根拠出力部は、根拠領域に基づいてクロップされた施術画像が分類器に入力されることで根拠に関する根拠情報を出力する。提示部は、複数の行動情報、及び複数の根拠情報をユーザに提示する。記憶部は、行動情報及び根拠情報に基づくユーザにより入力された入力情報を複数の認識器及び分類器の学習データとして保存する。

Description

情報処理装置、情報処理方法、及びプログラム

　本技術は、機械学習等に適用可能な情報処理装置、情報処理方法、及びプログラムに関する。

　特許文献１には、被検体に関する医用データに対し所定の処理を施して医用診断データを出力すると共に、所定の処理の一部又は全てを施さずに、機械学習用に規格化された、医用データに基づく規格化医用データを出力する医用データ処理装置が記載される。これにより、機械学習の精度を向上させることが図られている（特許文献１の明細書段落［００３６］～［００６６］図２、６等）。

特開２０２０－２０３０１８号公報

　このような、医療支援ロボットを用いた機械学習において、最適な学習データの抽出を実現することが可能な技術が求められている。

　以上のような事情に鑑み、本技術の目的は、最適な学習データの抽出を実現することが可能な情報処理装置、情報処理方法、及びプログラムを提供することにある。

　上記目的を達成するため、本技術の一形態に係る情報処理装置は、取得部と、行動出力部と、根拠出力部と、提示部と、記憶部とを具備する。
　前記取得部は、施術に関する施術画像を取得する。
　前記行動出力部は、複数の認識器の各々に前記施術画像が入力されることで、前記施術に関する医療機器の行動に関する行動情報、及び前記行動情報が出力された根拠の位置情報を示す根拠領域を出力する。
　前記根拠出力部は、前記根拠領域に基づいてクロップされた前記施術画像が分類器に入力されることで、前記根拠に関する根拠情報を出力する。
　前記提示部は、複数の前記行動情報、及び複数の前記根拠情報をユーザに提示する。
　前記記憶部は、前記行動情報及び前記根拠情報に基づく前記ユーザにより入力された入力情報を、前記複数の認識器及び前記分類器の学習データとして保存する。

　この情報処理装置では、複数の認識器の各々に施術画像が入力されることで、施術に関する医療機器の行動に関する行動情報、及び行動情報が出力された根拠の位置情報を示す根拠領域が出力され、根拠領域に基づいてクロップされた施術画像が分類器に入力されることで、根拠に関する根拠情報が出力される。複数の行動情報及び複数の根拠情報がユーザに提示され、その行動情報及び根拠情報に基づく入力情報が複数の認識器及び分類器の学習データとして保存される。これにより、最適な学習データの抽出が可能となる。

　前記行動情報は、前記医療機器の位置情報、移動情報、又は動作情報の少なくとも１つを含んでもよい。

　前記根拠情報は、前記根拠、及び前記根拠の精度を下げる原因を含んでもよい。この場合、前記根拠は、術具、術具軸、又は臓器の少なくとも１つを含んでもよい。前記原因は、スモーク、前記術具の汚れ、レンズの汚れ、又はオクルージョンの少なくとも１つを含んでもよい。

　前記複数の認識器は、オフライン学習を行う第１の認識器と、オンライン学習を行う第２の認識器とを含んでもよい。この場合、前記第１の認識器は、第１の前記行動情報、及び第１の前記根拠領域を出力してもよい。前記第２の認識器は、第２の前記行動情報、及び第２の前記根拠領域を出力してもよい。

　前記根拠出力部は、前記第１の根拠領域に基づいてクロップされた第１の前記施術画像と、前記第２の根拠領域に基づいてクロップされた第２の前記施術画像とが前記分類器に入力されることで、第１の前記根拠情報と第２の前記根拠情報とを出力してもよい。

　前記提示部は、前記第１の行動情報、前記第２の行動情報、前記第１の根拠情報、及び前記第２の根拠情報を認識可能なＧＵＩ（Graphical User Interface）を前記ユーザに提示してもよい。

　前記入力情報は、前記行動情報の選択、前記判断根拠の選択、前記行動情報とは異なる新たな行動情報の入力、前記根拠情報とは異なる新たな根拠情報の入力、又は前記クロップされた前記施術画像とは異なる新たなクロップされた施術画像の少なくとも１つを含んでもよい。

　前記記憶部は、前記第１の行動情報、又は前記第２の行動情報が正しい場合に、前記ＧＵＩを介して前記ユーザにより選択された前記第１の行動情報、又は前記第２の行動情報を、前記複数の認識器及び前記分類器の学習データとして保存してもよい。

　前記記憶部は、前記第１の行動情報、及び前記第２の行動情報が誤っている場合に、前記ＧＵＩを介して前記ユーザにより入力された前記第１の行動情報、及び前記第２の行動情報とは異なる第３の行動情報を、前記複数の認識器及び前記分類器の学習データとして保存してもよい。

　前記記憶部は、前記第１の根拠情報、又は前記第２の根拠情報が正しい場合に、前記ＧＵＩを介して前記ユーザにより選択された前記第１の根拠情報、又は前記第２の根拠情報を、前記複数の認識器及び前記分類器の学習データとして保存してもよい。

　前記記憶部は、前記第１の行動情報、及び前記第２の根拠情報が正しい場合に、前記ＧＵＩを介して前記ユーザにより入力された新たな根拠情報を、前記複数の認識器及び前記分類器の学習データとして保存してもよい。

　前記記憶部は、前記第１の根拠情報、及び前記第２の根拠情報が誤っている場合に、前記ＧＵＩを介して前記ユーザにより入力された前記第１の根拠情報、及び前記第２の根拠情報とは異なる第３の根拠情報を、前記複数の認識器及び前記分類器の学習データとして保存してもよい。

　本技術の一形態に係る情報処理方法は、コンピュータシステムが実行する情報処理方法であって、施術に関する施術画像を取得することを含む。複数の認識器の各々に前記施術画像が入力されることで、前記施術に関する医療機器の行動に関する行動情報、及び前記行動情報が出力された根拠の位置情報を示す根拠領域が出力され、前記根拠領域に基づいてクロップされた前記施術画像が分類器に入力されることで、前記根拠に関する根拠情報が出力され、複数の前記行動情報、及び複数の前記根拠情報がユーザに提示され、前記行動情報及び前記根拠情報に基づく前記ユーザにより入力された入力情報が、前記複数の認識器及び前記分類器の学習データとして保存される

　本技術の一形態に係るプログラムは、コンピュータシステムに以下のステップを実行させる。
　施術に関する施術画像を取得するステップ。
　複数の認識器の各々に前記施術画像が入力されることで、前記施術に関する医療機器の行動に関する行動情報、及び前記行動情報が出力された根拠の位置情報を示す根拠領域を出力するステップ。
　前記根拠領域に基づいてクロップされた前記施術画像が分類器に入力されることで、前記根拠に関する根拠情報を出力するステップ。
　複数の前記行動情報、及び複数の前記根拠情報をユーザに提示するステップ。
　前記行動情報及び前記根拠情報に基づく前記ユーザにより入力された入力情報を、前記複数の認識器及び前記分類器の学習データとして保存するステップ。

本技術に係る情報処理装置の構成例を示すブロック図である。行動決定器の学習時のフローチャートである。認識結果の選択のフローチャートである。施術画像と根拠領域とクロップ画像とを模式的に示す図である。クロップ画像及び判断根拠を示す模式図である。クロップ画像及び判断根拠の他の例を示す模式図である。クロップ画像及び判断根拠の他の例を示す模式図である。認識結果を表示するＧＵＩの一例を示す模式図である。認識結果を表示するＧＵＩの一例を示す模式図である。行動決定器が３つ以上存在する場合のＧＵＩの一例を示す模式図である。判断根拠を表示するＧＵＩの一例を示す模式図である。認識結果が阻害された場合の判断根拠を表示するＧＵＩの一例を示す模式図である。認識結果及び判断根拠が異なる場合のＧＵＩの一例を示す模式図である。判断根拠が誤っている場合のＧＵＩを示す模式図である。判断根拠分類器の学習のフローチャートである。情報処理装置のハードウェア構成例を示すブロック図である。

　以下、本技術に係る実施形態を、図面を参照しながら説明する。

　図１は、本技術に係る情報処理装置２０の構成例を示すブロック図である。

　本実施形態では、情報処理装置２０は、カメラ１、ディスプレイ２、ロボット３、及び入力装置４と所定の通信網（ネットワーク）を介して、有線又は無線により通信可能に接続される。

　カメラ１は、施術に関する施術画像を撮像する。例えば、施術画像は、患部や、患部を摘出するための開腹等の医療に関する場面（施術の工程）が撮像された画像を含む。これ以外にも、施術を行う前や、縫合が終わった後等の施術が完了した際の画像も含む。すなわち、施術がこれから行われる部位、又は施術が行われた部位も施術画像に含まれる。また部位に限らず、患者全体を含む画像も含まれてもよい。

　ロボット３は、施術に用いられる医療機器を含む。例えば、ロボット３は、カメラ１を操作（移動）するロボットアームやカメラ１の撮像のタイミングを制御可能な制御機器を含む。これ以外にも、網膜等にレーザを照射するレーザ装置やメス等の術具を操作及び制御するデバイスが含まれてもよい。

　図１に示すように、情報処理装置２０は、カメラ画像取得部２１、認識処理部２２、学習処理部２３、認識結果表示部２４、ロボット操作処理部２５、認識結果選択処理部２６を有する。

　カメラ画像取得部２１は、カメラ１により撮像された施術画像を取得する。本実施形態では、カメラ画像取得部２１は、施術画像記憶装置１０を有し、撮像された施術画像を記憶する。なお、施術画像は、動画も含まれてもよい。

　認識処理部２２は、施術画像に基づいて、認識結果及び根拠領域を出力する。本実施形態では、認識処理部２２は、第１の行動決定器１１及び第２の行動決定器１２の各々に施術画像が入力されることで、施術に関する医療機器の行動に関する認識結果、及び行動情報が出力された根拠の位置情報を示す根拠領域を出力する。

　認識結果とは、ロボット３をどのように動かすかの情報である。例えば、ユーザ（医療関係者）がこれからどの領域を注目して動くべきか、という位置情報及び移動情報を含む。例えば、ユーザの術具を動かす方向及び距離に基づいて、カメラ１の移動するべき位置及び方向が認識結果として出力される。また認識結果は、レーザを照射する位置やタイミング、撮像倍率の制御等のロボット３に関する動作が含まれてもよい。なお、本実施形態において、認識結果は、施術に関する医療機器の行動に関する行動情報に相当する。

　根拠領域とは、認識結果が施術画像のどこを参照して導き出されたかの根拠を示す。例えば、施術画像の各ピクセルに値が入っており、その値が高いほど行動決定器が認識結果の根拠としたことを示す。また本実施形態では、ＸＡＩ（Explainable AI）が用いられ、施術画像のどの領域に注目したか、すなわち、認識結果が出力された根拠が存在するであろう領域として根拠領域が出力される。

　また認識処理部２２は、出力された根拠領域に基づいて、該当する部分をクロップする。クロップされた施術画像が判断根拠分類器１３に入力されることで判断根拠が出力される。判断根拠分類器１３は、各行動決定器の判断根拠を分類するためのＡＩである。

　判断根拠とは、行動決定器により出力された認識結果が出力された根拠を示す。例えば、判断根拠は、術具、術具軸、及び臓器等の認識結果が出力された根拠と、スモーク、術具汚れ、レンズ汚れ、及びオクルージョン等の認識結果が正確に出力されなくなる誤認識の原因とを含む。なお、本実施形態において、判断根拠は、行動情報が出力された根拠に関する根拠情報に相当する。

　以下、第１の行動決定器１１から出力される認識結果、及び根拠領域を第１の認識結果、第１の根拠領域と記載する。また第１の根拠領域に基づいて、クロップされた施術画像が判断根拠分類器１３に入力されることで出力された判断根拠を第１の判断根拠と記載する。同様に第２の行動決定器１２に関しても、第２の認識結果、第２の根拠領域、第２の判断根拠と記載する。

　本実施形態では、第１の行動決定器１１は、オフライン学習により、ロボット３の行動を決定するためのＡＩである。また第２の行動決定器１２は、オンライン学習により、ロボット３の行動を決定するためのＡＩである。

　また本実施形態では、第１の行動決定器１１は、事前に得られる第１の学習データ１４により学習が行われる。第２の行動決定器１２は、施術中もしくは施術後に得られる第２の学習データ１５により学習が行われる。なお、第１の学習データ１４は複数存在していてもよい。また学習データ及び行動決定器が合計３つ以上存在していてもよい。さらに、各行動決定器は、オフライン学習又はオンライン学習のいずれか一方のみにより学習が行われてもよい。なお学習モデルは学習データの数の分だけ存在する。

　図２は、行動決定器の学習時のフローチャートである。図２Ａは、オフライン学習のフローチャートである。図２Ｂは、オンライン学習のフローチャートである。

　図２Ａに示すように、第１の行動決定器１１は、以下のように学習が行われる。事前に施術画像に対して術具の位置や臓器の位置等のアノテーションが行われる（ステップ１０１）。また学習データに基づいて、教師あり学習が行われる（ステップ１０２）。

　本実施形態では、オフライン学習の教師データとして、術具や臓器の位置及び種類に関する情報、患者の診断情報等が用いられる。例えば、各臓器の位置関係、臓器に対して用いられる術具、病名、及び病名に関する患部の位置や種類等が用いられてもよい。

　図２Ｂに示すように、第２の行動決定器１２は、以下のように学習が行われる。事前に学習済みの行動決定器が準備される（ステップ２０１）。カメラ１から施術が取得される（ステップ２０２）。取得された施術画像に基づいて、学習が行われ行動決定器が更新される（ステップ２０３）。ステップ２０２及びステップ２０３は、学習が終わるまでループされる。

　本実施形態では、オンライン学習では、カメラ１から得られた施術画像を基に逐次学習が行われ、行動決定器のパラメータが更新される。教師データは事前に学習が行われた疑似ラベル生成器等のラベルを生成するＡＩが用いられてもよいし、教師なし学習が行われてもよい。

　図１に戻り、学習処理部２３は、第１の行動決定器１１、第２の行動決定器１２、及び判断根拠分類器１３の学習を行う。本実施形態では、学習処理部２３は、ユーザに提示される認識結果及び判断根拠に基づくユーザにより入力された入力情報から学習を行う。

　認識結果表示部２４は、認識処理部２２から出力される認識結果、及び判断根拠を提示する。本実施形態では、認識結果表示部２４は、第１の認識結果、第２の認識結果、第１の判断根拠、及び第２の判断根拠を視認可能なＧＵＩ（Graphical User Interface）をディスプレイ２に表示する。

　本実施形態では、ユーザは入力装置４を用いて、提示されたＧＵＩを介して認識結果を選択する。例えば、マウス５を用いて認識結果を選択してもよい。これ以外にも、ディスプレイ２に表示される認識結果をユーザがタッチすることで選択されてもよい。

　またユーザは、提示された判断根拠の修正を行うことも可能である。例えば、キーボード６を用いて正しい判断根拠を入力してもよい。これ以外にも、音声認識７（例えば、マイク）により認識結果の選択、判断根拠の修正を行ってもよい。またＧＵＩはディスプレイ２以外にも、ＨＭＤ（Head Mounted Display）８が用いられてもよい。

　すなわち、入力情報とは、認識結果及び判断根拠の選択、又は認識結果及び判断根拠の修正（正しい認識結果及び判断根拠の入力）の少なくとも一方を含む。またユーザは、入力情報をＧＵＩを介して入力することができる。これ以外にも、ユーザがＧＵＩを介して入力する種々の情報が含まれてもよい。具体的な選択方法や修正方法は後述する。

　ロボット操作処理部２５は、ロボット３に関する操作処理を実行する。例えば、操作処理は、カメラ１の撮像タイミングを制御する信号の出力、カメラ１を支持するロボットアームを駆動する信号の出力等を含む。

　認識結果選択処理部２６は、認識結果表示部２４により提示されたＧＵＩを介して選択された認識結果を処理する。本実施形態では、認識結果選択処理部２６は、選択された認識結果、及び認識結果における判断根拠（又は修正された判断根拠）を記憶領域に保存する。

　なお、本実施形態において、カメラ画像取得部２１は、施術に関する施術画像を取得する取得部に相当する。
　なお、本実施形態において、認識処理部２２は、複数の認識器の各々に施術画像が入力されることで、施術に関する医療機器の行動に関する行動情報、及び行動情報が出力された根拠の位置情報を示す根拠領域を出力する行動出力部と、根拠領域に基づいてクロップされた施術画像が分類器に入力されることで、根拠に関する根拠情報を出力する根拠出力部として機能する。
　なお、本実施形態において、認識結果表示部２４は、複数の行動情報、及び複数の根拠情報をユーザに提示する提示部に相当する。
　なお、本実施形態において、認識結果選択処理部２６は、行動情報及び根拠情報に基づくユーザにより入力された入力情報を、複数の認識器及び分類器の学習データとして保存する記憶部に相当する。

　図３は、認識結果の選択のフローチャートである。

　図３に示すように、カメラ画像取得部２１により、施術画像が取得される（ステップ３０１）。

　認識処理部２２により、第１の行動決定器１１に施術画像が入力されることで出力された第１の認識結果と第１の根拠領域とが取得される（ステップ３０２）。同様に、認識処理部２２により、第２の行動決定器１２に施術画像が入力されることで出力された第２の認識結果と第２の根拠領域とが取得される（ステップ３０３）。なお図３では、ステップ３０２及びステップ３０３は、並列処理される。これに限定されず直列に処理されてもよい。

　認識処理部２２により、第１の認識結果と第２の認識結果とに差異があるか否かが判定される（ステップ３０４）。例えば、認識結果の示す位置や移動の方向（移動量）等が異なるか否かが判定される。

　認識結果に差異がある場合（ステップ３０４のＹＥＳ）、根拠領域に基づいて、施術画像の該当部分がクロップされる（ステップ３０５）。以下、クロップされた施術画像をクロップ画像と記載する。

　図４は、施術画像と根拠領域とクロップ画像とを模式的に示す図である。

　図４に示すように、第１の行動決定器１１又は第２の行動決定器１２に施術画像３０が入力されることで、根拠領域３１が出力される。なお、図４では根拠領域３１は、説明のために、領域が記載されているが、実際は各ピクセル事にどれほど認識結果に影響したのかを示す数値が入っている。

　本実施形態では、根拠領域３１の各ピクセル値の極大値を取っている範囲を中心とする矩形領域がクロップされることで、クロップ画像が取得される。例えば図４では、根拠領域３１内の印３２及び印３３は、極大値を取ったピクセルを示している。すなわち、図４の例では、２つの極大値が得られたことを示しており、各極大値を中心とした矩形領域がクロップされる範囲となる。なお、クロップ画像は１つの認識結果に対して、最低１つ以上存在する。また図４の例のように、２つ以上存在していることもある。

　第１の根拠領域に基づく第１のクロップ画像と、第２の根拠領域に基づく第２のクロップ画像とがそれぞれ判断根拠分類器１３に入力されることで、第１の判断根拠と第２の判断根拠とが取得される（ステップ３０６）。

　図５は、クロップ画像及び判断根拠を示す模式図である。

　図５に示すように、施術画像３５及び根拠領域３６に基づいて、クロップ画像３７が取得される。クロップ画像３７が判断根拠分類器１３に入力されることで、判断根拠３８が出力される。

　図５では、左に記載されるグラフは、クロップされた領域に映っている物体が何か、を示す。グラフに示すように、映っている物体の候補として術具先端、術具軸、臓器、及びその他が挙げられ、数値が高い項目が映っている物体である可能性が高いことを示す。

　また右に記載されるグラフは、施術時に誤認識の原因になると想定される原因が含まれているのか、を示す。例えば、原因の候補としてスモーク、術具汚れ、レンズ汚れ、及びオクルージョンが挙げられる。これらの候補のうち、数値が高い項目が誤認識の原因である可能性が高いことを示す。

　図６は、クロップ画像及び判断根拠の他の例を示す模式図である。

　図６も図５と同様に、施術画像４０及び根拠領域の印（極大値を取ったピクセル）４１に基づいて、クロップ画像４２が取得される。クロップ画像４２が判断根拠分類器１３に入力されることで、判断根拠４３が出力される。

　図６に示すように、クロップ画像４２にスモーク４４が含まれる。この場合、右に記載されるグラフは、スモーク４４が誤認識の原因となっている可能性が高いため、高い数値で表示されている。またスモーク４４により、クロップ画像４２に映っている物体が術具先端である可能性が低い、すなわち、数値が低く表示される。

　図７は、クロップ画像及び判断根拠の他の例を示す模式図である。

　図７では、根拠領域５０の印５１は、術具５２ではなく臓器５３を指している。判断根拠分類器１３は、クロップ画像が入力されることで、臓器を判断根拠として出力する（グラフ５４を参照）。

　この場合、予め特定の臓器が重要であることが分かっているのであれば、グラフ５４のように臓器かどうかを判断できるように、判断根拠分類器１３を学習させる。例えば、患者が盲腸である場合、盲腸を摘出する手術の手順、及び盲腸の位置や形状等を学習させる。

　図３に戻り、認識結果表示部２４により、ディスプレイ２に第１の認識結果と、第１の判断根拠と、第２の認識結果と、第２の判断根拠とを視認可能なＧＵＩが表示される（ステップ３０７）。

　ユーザにより、正しい認識結果が選択される、また認識結果又は判断根拠に誤りがある場合、修正された認識結果又は判断根拠が入力される（ステップ３０８）。選択された認識結果及び判断根拠（又は、修正された認識結果及び判断根拠）は、記憶領域に保存される（ステップ３０９）。

　図８は、認識結果を表示するＧＵＩの一例を示す模式図である。図８Ａは、認識結果の表示方法の一例を示す模式図である。図８Ｂは、認識結果の表示方法の他の例を示す模式図である。

　図８Ａに示すように、認識結果表示部２４は、施術画像６０に第１の行動決定器１１から出力された第１の認識結果６１と、第２の行動決定器１２から出力された第２の認識結果６２を認識可能なＧＵＩをディスプレイ２に表示する。

　例えば図８Ａでは、異なる術具６３及び術具６４の先にある領域が重要だとして認識結果が２つ表示されている。ユーザは、表示された認識結果から、正しい認識結果を選択する。

　なお、認識結果の表示方法は限定されず、図８Ｂに示すように術具６５の骨格が認識結果として表示されてもよい。

　図９は、認識結果を表示するＧＵＩの一例を示す模式図である。

　図９に示すように、認識結果として位置情報以外にも移動情報が表示されてもよい。例えば図９では、術具７０の移動する方向を示す認識結果７１及び認識結果７２が表示される。

　図１０は、行動決定器が３つ以上存在する場合のＧＵＩの一例を示す模式図である。図１０Ａは、認識結果が３つ存在する場合のＧＵＩの一例を示す模式図である。

　図１０では、オンライン学習が行われた第１の行動決定器１１とオフライン学習が行われた第２の行動決定器１２とは異なる第３の行動決定器が存在する場合のＧＵＩが図示される。例えば図１０Ａでは、３つの認識結果は医師（ユーザ）が注目している領域を推定した結果を示す。

　図１０に示すように、第３の行動決定器は、オフライン学習（図１０に示すオフライン学習２）が行われた行動決定器である。これに限定されず、オンライン学習が用いられてもよいし、行動決定器の数と学習方法も限定されない。

　ユーザは、表示された認識結果を選択する。認識結果が３つ以上存在する場合、２つ以上の認識結果が選択されてもよい。２つ以上が選択された場合、それらの認識結果の全てが記憶領域に保存される。

　図１０Ｂは、表示された認識結果の全てが誤っている場合のＧＵＩの一例を示す模式図である。

　図１０Ｂに示すように、ユーザは、行動決定器から出力された３つの認識結果が全て誤っている場合、正しい位置（破線７５）を指定する。指定された位置（入力情報）は、新しい教師データとして記憶領域に保存される。

　図１１は、判断根拠を表示するＧＵＩの一例を示す模式図である。

　図１１では、認識結果表示部２４により、判断根拠を認識可能なＧＵＩ８０が提示される。図１１に示すように、クロップ画像の領域が矩形（黒枠８１及び８２、灰枠８３）で囲んで表示され、その矩形の上に判断根拠が表示される。

　例えば、図８のように認識結果（灰丸６１及び黒丸６２）が出力された場合、その認識結果に対応する判断根拠分類器１３における最も数値が高い判断根拠（図５参照）が表示される。これにより、ユーザは、どちらの認識結果が正しいのかを選択しやすくなる。

　なおクロップ画像の領域は、１つの認識結果に対して複数表示される場合もある。

　図１２は、認識結果が阻害された場合の判断根拠を表示するＧＵＩの一例を示す模式図である。

　図１２Ａは、認識結果が視認可能なＧＵＩを示す模式図である。図１２Ａに示すように、スモーク８５が発生しているため、第２の行動決定器１２から出力される第２の認識結果８６の位置が術具８７からずれて表示される。

　図１２Ｂは、判断根拠が視認可能なＧＵＩを示す模式図である。図１２Ｂに示すように、スモーク８５が発生していることにより、クロップ画像の領域８８の位置にずれが生じている。またスモーク８５がクロップ画像の領域中に映っていることが表示される。すなわち、領域８８の上に判断根拠として「術具先端、スモーク」と表示されることで、ユーザは何故誤った認識結果が出力されたのかが容易に理解することができる。

　図１３は、認識結果及び判断根拠が異なる場合のＧＵＩの一例を示す模式図である。図１３Ａは、認識結果が視認可能なＧＵＩを示す模式図である。図１３Ｂは、判断根拠が視認可能なＧＵＩを示す模式図である。

　図１３Ａに示すように、第２の行動決定器１２から出力された第２の認識結果９０は、術具９１の先端を示す位置に表示される。また第１の行動決定器１１から出力された第１の認識結果９２は、術具９３の先端を示す位置に表示される。

　また図１３Ｂに示すように、第２の認識結果９０が表示されている箇所に第１の判断根拠９４が表示されている。また第１の認識結果９２が表示されている箇所に第２の判断根拠９５が表示されている。

　図１３では、第２の認識結果９０と、第１の判断根拠９４とが正しいとする。すなわち、第２の認識結果９０に対する第２の判断根拠９２が誤っている場合、ユーザは第２の判断根拠９２の修正を行い、正しいクロップ画像の領域と正しい判断根拠とを教示する。ユーザにより提示された正しい領域及び判断根拠は記憶領域に保存され、次回の判断根拠分類器１３の学習時に活用される。

　図１４は、判断根拠が誤っている場合のＧＵＩを示す模式図である。

　図１４に示すように、第１の判断根拠９６及び第２の判断根拠９７が間違っている場合、又は第１の判断根拠９６及び第２の判断根拠９７以外に注目すべきクロップ画像の領域と判断根拠とがある場合、ユーザは、正しいクロップ画像の領域（破線９８）及び正しい判断根拠（術具先端）を教示する。

　またユーザは、クロップ画像の領域の位置が正しく、判断根拠が誤っている場合も同様に正しい判断根拠を教示する。

　以上、本実施形態に係る情報処理装置２０は、施術に関する施術画像を取得する。第１の行動決定器１１及び第２の行動決定器１２の各々に施術画像が入力されることで、施術に関する医療機器の行動に関する認識結果、及び認識結果が出力された根拠の位置情報を示す根拠領域が出力される。根拠領域に基づいてクロップされた施術画像が判断根拠分類器１３に入力されることで、判断根拠が出力される。第１の認識結果及び第２の認識結果と、第１の根拠情報及び第２の根拠情報とがユーザに提示される。ユーザにより選択された認識結果及び判断根拠を、第１の行動決定器１１、第２の行動決定器１２、及び判断根拠分類器１３の学習データとして保存される。これにより、最適な学習データの抽出が可能となる。

　従来、医療支援ロボットでは、事前に収集されたデータベースで学習されたモデルを基に医療支援を行うが、実際に使う際の条件に即したロボットの動きを実現することが難しかった。また診断支援ＡＩでは、ロボットが医師や環境に即して最適な行動を行うために、どのような学習データで学習すべきかを追求することは難しい。

　本技術では、認識結果に差異があった場合に、認識結果とその判断根拠とをそれぞれ表示することで、ユーザはどちらが正しいのか、あるいはどちらも間違っていて正しい教示が必要なのかを判断して、その修正ができる。修正された情報は記憶領域に保存され、次回の学習時に活用される。

　すなわち、オフラインデータベースで学習したモデルによるロボットの行動と、オンラインデータベースで学習したモデルによるロボットの行動と、医療従事者に判断してもらうことにより、優れた行動に起因する学習データを抽出し、洗練されたデータベースで新しいモデルを学習する。また判断根拠を合わせて表示することで医療従事者の判断が容易になる。

　＜その他の実施形態＞
　本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。

　上記の実施形態では、施術画像がクロップされ、ユーザはその施術画像の判断根拠と認識結果とを選択、又は修正を行った。これに限定されず、動画でも同様の処理が行われてもよい。例えば、施術が行われる動画が再生されている間に、認識結果及び判断根拠が同化中に表示され、ユーザにより選択、又は修正が行われてもよい。

　図１５は、判断根拠分類器１３の学習のフローチャートである。

　図１５に示すように、判断根拠分類器１３は以下のように学習が行われる。準備として、事前に教師あり学習が行われた行動決定器が少なくとも１つ用意される（ステップ４０１）。判断根拠分類器用の学習データが学習済みモデルに入力され、図３と同様の方法でクロップ画像が取得される（ステップ４０２）。取得されたクロップ画像に対して、何が映っているのか、誤認識になる原因は映っているのかがアノテーションされる（ステップ４０３）。アノテーションされたデータで教師あり学習が行われる（ステップ４０５）。

　判断根拠分類器１３は、上記のステップから事前に学習される。また判断根拠に誤りがあり、その誤りをユーザが直接修正した場合、その教示されたデータに基づいて判断根拠分類器１３の再学習が行われる。

　図１６は、情報処理装置２０のハードウェア構成例を示すブロック図である。

　情報処理装置２０は、ＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、入出力インタフェース１０５、及びこれらを互いに接続するバス１０４を備える。入出力インタフェース１０５には、表示部１０６、入力部１０７、記憶部１０８、通信部１０９、及びドライブ部１１０等が接続される。

　表示部１０６は、例えば液晶、ＥＬ等を用いた表示デバイスである。入力部１０７は、例えばキーボード、ポインティングデバイス、タッチパネル、その他の操作装置である。入力部１０７がタッチパネルを含む場合、そのタッチパネルは表示部１０６と一体となり得る。

　記憶部１０８は、不揮発性の記憶デバイスであり、例えばＨＤＤ、フラッシュメモリ、その他の固体メモリである。ドライブ部１１０は、例えば光学記録媒体、磁気記録テープ等、リムーバブルの記録媒体１１１を駆動することが可能なデバイスである。

　通信部１０９は、ＬＡＮ、ＷＡＮ等に接続可能な、他のデバイスと通信するためのモデム、ルータ、その他の通信機器である。通信部１０９は、有線及び無線のどちらを利用して通信するものであってもよい。通信部１０９は、情報処理装置２０とは、別体で使用される場合が多い。

　上記のようなハードウェア構成を有する情報処理装置２０による情報処理は、記憶部１０８またはＲＯＭ１０２等に記憶されたソフトウェアと、情報処理装置２０のハードウェア資源との協働により実現される。具体的には、ＲＯＭ１０２等に記憶された、ソフトウェアを構成するプログラムをＲＡＭ１０３にロードして実行することにより、本技術に係る情報処理方法が実現される。

　プログラムは、例えば記録媒体１１１を介して情報処理装置２０にインストールされる。あるいは、グローバルネットワーク等を介してプログラムが情報処理装置２０にインストールされてもよい。その他、コンピュータ読み取り可能な非一過性の任意の記憶媒体が用いられてよい。

　通信端末に搭載されたコンピュータとネットワーク等を介して通信可能な他のコンピュータとが連動することにより本技術に係る情報処理方法、及びプログラムが実行され、本技術に係る評価部が構築されてもよい。

　すなわち本技術に係る情報処理装置、情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。なお、本開示において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれもシステムである。

　コンピュータシステムによる本技術に係る情報処理装置、情報処理方法、及びプログラムの実行は、例えば、認識結果の出力、根拠領域の出力、及び判断根拠の出力等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部又は全部を他のコンピュータに実行させその結果を取得することを含む。

　すなわち本技術に係る情報処理装置、情報処理方法、及びプログラムは、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。

　各図面を参照して説明した認識処理部、学習処理部、認識結果表示部等の各構成、通信システムの制御フロー等はあくまで一実施形態であり、本技術の趣旨を逸脱しない範囲で、任意に変形可能である。すなわち本技術を実施するための他の任意の構成やアルゴリズム等が採用されてよい。

　なお、本開示中に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。上記の複数の効果の記載は、それらの効果が必ずしも同時に発揮されるということを意味しているのではない。条件等により、少なくとも上記した効果のいずれかが得られることを意味しており、もちろん本開示中に記載されていない効果が発揮される可能性もある。

　以上説明した各形態の特徴部分のうち、少なくとも２つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。

　なお、本技術は以下のような構成も採ることができる。
（１）
　施術に関する施術画像を取得する取得部と、
　複数の認識器の各々に前記施術画像が入力されることで、前記施術に関する医療機器の行動に関する行動情報、及び前記行動情報が出力された根拠の位置情報を示す根拠領域を出力する行動出力部と、
　前記根拠領域に基づいてクロップされた前記施術画像が分類器に入力されることで、前記根拠に関する根拠情報を出力する根拠出力部と、
　複数の前記行動情報、及び複数の前記根拠情報をユーザに提示する提示部と、
　前記行動情報及び前記根拠情報に基づく前記ユーザにより入力された入力情報を、前記複数の認識器及び前記分類器の学習データとして保存する記憶部と
　を具備する情報処理装置。
（２）（１）に記載の情報処理装置であって、
　前記行動情報は、前記医療機器の位置情報、移動情報、又は動作情報の少なくとも１つを含む
　情報処理装置。
（３）（１）に記載の情報処理装置であって、
　前記根拠情報は、前記根拠、及び前記根拠の精度を下げる原因を含み、
　前記根拠は、術具、術具軸、又は臓器の少なくとも１つを含み、
　前記原因は、スモーク、前記術具の汚れ、レンズの汚れ、又はオクルージョンの少なくとも１つを含む
　情報処理装置。
（４）（１）に記載の情報処理装置であって、
　前記複数の認識器は、オフライン学習を行う第１の認識器と、オンライン学習を行う第２の認識器とを含み、
　前記第１の認識器は、第１の前記行動情報、及び第１の前記根拠領域を出力し、
　前記第２の認識器は、第２の前記行動情報、及び第２の前記根拠領域を出力する
　情報処理装置。
（５）（４）に記載の情報処理装置であって、
　前記根拠出力部は、前記第１の根拠領域に基づいてクロップされた第１の前記施術画像と、前記第２の根拠領域に基づいてクロップされた第２の前記施術画像とが前記分類器に入力されることで、第１の前記根拠情報と第２の前記根拠情報とを出力する
　情報処理装置。
（６）（５）に記載の情報処理装置であって、
　前記提示部は、前記第１の行動情報、前記第２の行動情報、前記第１の根拠情報、及び前記第２の根拠情報を認識可能なＧＵＩ（Graphical User Interface）を前記ユーザに提示する
　情報処理装置。
（７）（６）に記載の情報処理装置であって、
　前記入力情報は、前記行動情報の選択、前記判断根拠の選択、前記行動情報とは異なる新たな行動情報の入力、前記根拠情報とは異なる新たな根拠情報の入力、又は前記クロップされた前記施術画像とは異なる新たなクロップされた施術画像の少なくとも１つを含む
　情報処理装置。
（８）（７）に記載の情報処理装置であって、
　前記記憶部は、前記第１の行動情報、又は前記第２の行動情報が正しい場合に、前記ＧＵＩを介して前記ユーザにより選択された前記第１の行動情報、又は前記第２の行動情報を、前記複数の認識器及び前記分類器の学習データとして保存する
　情報処理装置。
（９）（７）に記載の情報処理装置であって、
　前記記憶部は、前記第１の行動情報、及び前記第２の行動情報が誤っている場合に、前記ＧＵＩを介して前記ユーザにより入力された前記第１の行動情報、及び前記第２の行動情報とは異なる第３の行動情報を、前記複数の認識器及び前記分類器の学習データとして保存する
　情報処理装置。
（１０）（７）に記載の情報処理装置であって、
　前記記憶部は、前記第１の根拠情報、又は前記第２の根拠情報が正しい場合に、前記ＧＵＩを介して前記ユーザにより選択された前記第１の根拠情報、又は前記第２の根拠情報を、前記複数の認識器及び前記分類器の学習データとして保存する
　情報処理装置。
（１１）（７）に記載の情報処理装置であって、
　前記記憶部は、前記第１の行動情報、及び前記第２の根拠情報が正しい場合に、前記ＧＵＩを介して前記ユーザにより入力された新たな根拠情報を、前記複数の認識器及び前記分類器の学習データとして保存する
　情報処理装置。
（１２）（７）に記載の情報処理装置であって、
　前記記憶部は、前記第１の根拠情報、及び前記第２の根拠情報が誤っている場合に、前記ＧＵＩを介して前記ユーザにより入力された前記第１の根拠情報、及び前記第２の根拠情報とは異なる第３の根拠情報を、前記複数の認識器及び前記分類器の学習データとして保存する
　情報処理装置。
（１３）
　施術に関する施術画像を取得し、
　複数の認識器の各々に前記施術画像が入力されることで、前記施術に関する医療機器の行動に関する行動情報、及び前記行動情報が出力された根拠の位置情報を示す根拠領域を出力し、
　前記根拠領域に基づいてクロップされた前記施術画像が分類器に入力されることで、前記根拠に関する根拠情報を出力し、
　複数の前記行動情報、及び複数の前記根拠情報をユーザに提示し、
　前記行動情報及び前記根拠情報に基づく前記ユーザにより入力された入力情報を、前記複数の認識器及び前記分類器の学習データとして保存する
　ことをコンピュータシステムが実行する情報処理方法。
（１４）
　施術に関する施術画像を取得するステップと、
　複数の認識器の各々に前記施術画像が入力されることで、前記施術に関する医療機器の行動に関する行動情報、及び前記行動情報が出力された根拠の位置情報を示す根拠領域を出力するステップと、
　前記根拠領域に基づいてクロップされた前記施術画像が分類器に入力されることで、前記根拠に関する根拠情報を出力するステップと、
　複数の前記行動情報、及び複数の前記根拠情報をユーザに提示するステップと、
　前記行動情報及び前記根拠情報に基づく前記ユーザにより入力された入力情報を、前記複数の認識器及び前記分類器の学習データとして保存するステップと
　をコンピュータシステムに実行させるプログラム。

　１１…第１の行動決定器
　１２…第２の行動決定器
　１３…判断根拠分類器
　２０…情報処理装置
　２１…カメラ画像取得部
　２２…認識処理部
　２３…学習処理部
　２４…認識結果表示部
　２６…認識結果選択処理部

Claims

　施術に関する施術画像を取得する取得部と、
　複数の認識器の各々に前記施術画像が入力されることで、前記施術に関する医療機器の行動に関する行動情報、及び前記行動情報が出力された根拠の位置情報を示す根拠領域を出力する行動出力部と、
　前記根拠領域に基づいてクロップされた前記施術画像が分類器に入力されることで、前記根拠に関する根拠情報を出力する根拠出力部と、
　複数の前記行動情報、及び複数の前記根拠情報をユーザに提示する提示部と、
　前記行動情報及び前記根拠情報に基づく前記ユーザにより入力された入力情報を、前記複数の認識器及び前記分類器の学習データとして保存する記憶部と
　を具備する情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記行動情報は、前記医療機器の位置情報、移動情報、又は動作情報の少なくとも１つを含む
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記根拠情報は、前記根拠、及び前記根拠の精度を下げる原因を含み、
　前記根拠は、術具、術具軸、又は臓器の少なくとも１つを含み、
　前記原因は、スモーク、前記術具の汚れ、レンズの汚れ、又はオクルージョンの少なくとも１つを含む
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記複数の認識器は、オフライン学習を行う第１の認識器と、オンライン学習を行う第２の認識器とを含み、
　前記第１の認識器は、第１の前記行動情報、及び第１の前記根拠領域を出力し、
　前記第２の認識器は、第２の前記行動情報、及び第２の前記根拠領域を出力する
　情報処理装置。
　請求項４に記載の情報処理装置であって、
　前記根拠出力部は、前記第１の根拠領域に基づいてクロップされた第１の前記施術画像と、前記第２の根拠領域に基づいてクロップされた第２の前記施術画像とが前記分類器に入力されることで、第１の前記根拠情報と第２の前記根拠情報とを出力する
　情報処理装置。
　請求項５に記載の情報処理装置であって、
　前記提示部は、前記第１の行動情報、前記第２の行動情報、前記第１の根拠情報、及び前記第２の根拠情報を認識可能なＧＵＩ（Graphical User Interface）を前記ユーザに提示する
　情報処理装置。
　請求項６に記載の情報処理装置であって、
　前記入力情報は、前記行動情報の選択、前記判断根拠の選択、前記行動情報とは異なる新たな行動情報の入力、前記根拠情報とは異なる新たな根拠情報の入力、又は前記クロップされた前記施術画像とは異なる新たなクロップされた施術画像の少なくとも１つを含む
　情報処理装置。
　請求項７に記載の情報処理装置であって、
　前記記憶部は、前記第１の行動情報、又は前記第２の行動情報が正しい場合に、前記ＧＵＩを介して前記ユーザにより選択された前記第１の行動情報、又は前記第２の行動情報を、前記複数の認識器及び前記分類器の学習データとして保存する
　情報処理装置。
　請求項７に記載の情報処理装置であって、
　前記記憶部は、前記第１の行動情報、及び前記第２の行動情報が誤っている場合に、前記ＧＵＩを介して前記ユーザにより入力された前記第１の行動情報、及び前記第２の行動情報とは異なる第３の行動情報を、前記複数の認識器及び前記分類器の学習データとして保存する
　情報処理装置。
　請求項７に記載の情報処理装置であって、
　前記記憶部は、前記第１の根拠情報、又は前記第２の根拠情報が正しい場合に、前記ＧＵＩを介して前記ユーザにより選択された前記第１の根拠情報、又は前記第２の根拠情報を、前記複数の認識器及び前記分類器の学習データとして保存する
　情報処理装置。
　請求項７に記載の情報処理装置であって、
　前記記憶部は、前記第１の行動情報、及び前記第２の根拠情報が正しい場合に、前記ＧＵＩを介して前記ユーザにより入力された新たな根拠情報を、前記複数の認識器及び前記分類器の学習データとして保存する
　情報処理装置。
　請求項７に記載の情報処理装置であって、
　前記記憶部は、前記第１の根拠情報、及び前記第２の根拠情報が誤っている場合に、前記ＧＵＩを介して前記ユーザにより入力された前記第１の根拠情報、及び前記第２の根拠情報とは異なる第３の根拠情報を、前記複数の認識器及び前記分類器の学習データとして保存する
　情報処理装置。
　施術に関する施術画像を取得し、
　複数の認識器の各々に前記施術画像が入力されることで、前記施術に関する医療機器の行動に関する行動情報、及び前記行動情報が出力された根拠の位置情報を示す根拠領域を出力し、
　前記根拠領域に基づいてクロップされた前記施術画像が分類器に入力されることで、前記根拠に関する根拠情報を出力し、
　複数の前記行動情報、及び複数の前記根拠情報をユーザに提示し、
　前記行動情報及び前記根拠情報に基づく前記ユーザにより入力された入力情報を、前記複数の認識器及び前記分類器の学習データとして保存する
　ことをコンピュータシステムが実行する情報処理方法。
　施術に関する施術画像を取得するステップと、
　複数の認識器の各々に前記施術画像が入力されることで、前記施術に関する医療機器の行動に関する行動情報、及び前記行動情報が出力された根拠の位置情報を示す根拠領域を出力するステップと、
　前記根拠領域に基づいてクロップされた前記施術画像が分類器に入力されることで、前記根拠に関する根拠情報を出力するステップと、
　複数の前記行動情報、及び複数の前記根拠情報をユーザに提示するステップと、
　前記行動情報及び前記根拠情報に基づく前記ユーザにより入力された入力情報を、前記複数の認識器及び前記分類器の学習データとして保存するステップと
　をコンピュータシステムに実行させるプログラム。