JPWO2020110278A1

JPWO2020110278A1 - 情報処理システム、内視鏡システム、学習済みモデル、情報記憶媒体及び情報処理方法

Info

Publication number: JPWO2020110278A1
Application number: JP2020557499A
Authority: JP
Inventors: 真人石掛; 都士也上山; 雅史猪股; 剛衛藤; 幸雄岩下; 中島　誠; 達士徳安; 佑将松延
Original assignee: fukuokakougyoudaigaku; NATIONAL UNIVERSITY CORPORATION OITA UNIVERSITY; Olympus Corp
Current assignee: fukuokakougyoudaigaku; NATIONAL UNIVERSITY CORPORATION OITA UNIVERSITY; Olympus Corp
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2021-10-28
Anticipated expiration: 2038-11-30
Also published as: US11907849B2; WO2020110278A1; US20210287395A1; JP7127785B2

Abstract

情報処理システム（１０）は、学習済みモデルを記憶する記憶部（７）と、処理部（４）と、を含む。学習済みモデルは、教師データに基づいて、学習用画像における対象物の位置形状を出力するように学習された学習モデルである。教師データは、学習用画像に対して、対象物の位置形状を示すアノテーションが付されたデータである。学習用画像は、画像中に明確な位置形状が表示されない対象物が画角内に入るように撮像された画像である。処理部（４）は、検出用画像に対して検出処理を行うことで、対象物の位置形状を示す検出情報を出力する。そして処理部（４）は、検出情報を検出用画像に重畳して表示部（３）に表示させる。

Description

本発明は、情報処理システム、内視鏡システム、学習済みモデル、情報記憶媒体及び情報処理方法等に関する。

機械学習を用いて画像から認識対象の検出処理を行う手法が知られている。例えば特許文献１には、機械学習を用いて医用画像から病変を検出する手法が開示されている。特許文献１では、教師データは、複数の病変疑い領域画像と、その病変部の種別を示す画像特徴ラベルと、を含み、その教師データに基づいて機械学習が行われる。画像特徴ラベルは、面積大小、又は濃淡、管状、骨接触等である。

特開２０１８−６１７７１号公報

機械学習を用いた検出処理において、画像に明確な位置形状が表示されない対象物を精度良く検出し、その対象物の位置形状を表示するという課題がある。上記の従来技術では、病変の種別を画像特徴量に基づいて学習及び検出することはできるが、画像において明確な位置形状が表示されない対象物を検出及び表示することはできない。

本発明の一態様は、学習済みモデルを記憶する記憶部と、前記学習済みモデルに基づく検出処理を行う処理部と、を含み、前記学習済みモデルは、画像中に明確な位置形状が表示されない対象物が画角内に入るように撮像された学習用画像に対して、前記対象物の位置形状を示すアノテーションが付された教師データに基づいて、前記学習用画像における前記対象物の位置形状を出力するように学習された学習済みモデルであり、前記処理部は、前記対象物が画角内に入るように撮像された検出用画像に対して前記検出処理を行うことで、前記対象物の位置形状を示す検出情報を出力し、前記検出情報を前記検出用画像に重畳して表示部に表示させる情報処理システムに関係する。

また本発明の他の態様は、学習済みモデルを記憶する記憶部と、前記学習済みモデルに基づく検出処理を行う処理部と、を含み、前記学習済みモデルは、内視鏡手術の手順において用いられるランドマークが画角内に入るように撮像された学習用画像に対して、前記ランドマークの位置形状を示すアノテーションが付された教師データに基づいて、前記学習用画像における前記ランドマークの位置形状を出力するように学習された学習済みモデルであり、前記処理部は、前記ランドマークが画角内に入るように撮像された検出用画像に対して前記検出処理を行うことで、前記ランドマークの位置形状を示す検出情報を出力し、前記検出情報を前記検出用画像に重畳して表示部に表示させる情報処理システムに関係する。

また本発明の更に他の態様は、上記のいずれかに記載の情報処理システムを有するプロセッサユニットと、前記プロセッサユニットに接続され、前記検出用画像を撮像して前記プロセッサユニットに送信する内視鏡スコープと、前記プロセッサユニットに接続され、前記対象物の位置形状を示す前記検出情報が重畳された前記検出用画像を表示する前記表示部と、を含む内視鏡システムに関係する。

また本発明の更に他の態様は、ニューラルネットワークに検出用画像の入力を受け付けて対象物を検出する検出処理を行い、前記検出用画像における前記対象物の位置形状を示す検出情報を前記検出用画像に重畳して表示部に表示させるように、コンピュータを機能させる学習済みモデルであって、前記ニューラルネットワークは、データを入力する入力層と、前記入力層を通じて入力されたデータに対し演算処理を行う中間層と、前記中間層から出力される演算結果に基づき、データを出力する出力層と、を備え、前記学習済みモデルは、画像中に明確な位置形状が表示されない対象物が画角内に入るように撮像された学習用画像に対して、前記対象物の位置形状を示すアノテーションが付された教師データに基づいて、前記学習用画像における前記対象物の位置形状を出力するように学習されている学習済みモデルに関係する。

また本発明の更に他の態様は、上記に記載の学習済みモデルを記憶した情報記憶媒体に関係する。

また本発明の更に他の態様は、学習済みモデルに基づく検出処理を行う情報処理方法であって、前記学習済みモデルは、画像中に明確な位置形状が表示されない対象物が画角内に入るように撮像された学習用画像に対して、前記対象物の位置形状を示すアノテーションが付された教師データに基づいて、前記学習用画像における前記対象物の位置形状を出力するように学習された学習済みモデルであり、前記対象物が画角内に入るように撮像された検出用画像に対して、前記学習済みモデルに基づく前記検出処理を行うことで、前記対象物の位置形状を示す検出情報を出力し、前記検出情報を前記検出用画像に重畳して表示部に表示させる情報処理方法に関係する。

本実施形態の情報処理システム、及び情報処理システムを含む内視鏡システムの構成例。図２（Ａ）〜図２（Ｃ）は、画像中に明確な位置形状が表示されない対象物の一例。本実施形態における教師データの作成から対象物の検出までの一連の手順を示すフローチャート。アノテーションの例。アノテーションにより生成された教師データの例。トラッキングによる自動タグ付けを説明する図。学習装置の構成例。学習の手順を示すフローチャート。検出及び表示の手法を説明するためのブロック図。検出された対象物の位置形状が表示された画像の例。

以下、本発明の実施形態（以下、「本実施形態」という。）について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された本発明の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本発明の必須構成要件であるとは限らない。例えば以下では腹腔鏡下胆のう摘出手術を例に説明するが、本実施形態の適用対象は腹腔鏡下胆のう摘出手術に限定されない。即ち、作業者により画像にアノテーションが付された教師データに基づいて機械学習が行われ、その学習済みモデルにより画像から対象物が検出される場合に、本実施形態を適用可能である。

１．情報処理システム、内視鏡システム
図１は、本実施形態の情報処理システム１０、及び情報処理システム１０を含む内視鏡システム１００の構成例である。内視鏡システム１００は、プロセッサユニット１と、内視鏡スコープ２と、表示部３と、を含む。また内視鏡システム１００は操作部９を更に含んでもよい。

内視鏡スコープ２の先端部には撮像装置が設けられ、その先端部が腹腔内に挿入される。撮像装置が腹腔内の画像を撮影し、その撮像データが内視鏡スコープ２からプロセッサユニット１へ送信される。

プロセッサユニット１は、内視鏡システム１００における種々の処理を行う装置である。例えばプロセッサユニット１は、内視鏡システム１００の制御、及び画像処理等を行う。プロセッサユニット１は、内視鏡スコープ２からの撮像データを受信する撮像データ受信部８と、学習済みモデルにより撮像データから対象物を検出する情報処理システム１０と、を含む。

撮像データ受信部８は、例えば内視鏡スコープ２のケーブルが接続されるコネクター、又は、撮像データを受信するインターフェース回路等である。

情報処理システム１０は、学習済みモデルを記憶する記憶部７と、記憶部７に記憶された学習済みモデルに基づいて画像から対象物を検出する処理部４と、を含む。

記憶部７は、例えば半導体メモリ、又はハードディスクドライブ、光学ディスクドライブ等の記憶装置である。記憶部７には、予め学習済みモデルが記憶されている。或いは、サーバ等の外部装置からネットワークを介して学習済みモデルが情報処理システム１０に入力され、その学習済みモデルを記憶部７が記憶してもよい。

処理部４は、学習済みモデルによる推論によって画像から対象物を検出する検出部５と、その検出結果に基づいて対象物を示す情報を画像に重畳して表示部３に表示させる出力部６と、を含む。学習済みモデルによる推論を実行するハードウェアとしては、種々想定できる。例えば、検出部５はＣＰＵ等の汎用プロセッサである。この場合、記憶部７は、推論アルゴリズムが記述されたプログラムと、その推論アルゴリズムに用いられるパラメータと、を学習済みモデルとして記憶する。或いは、検出部５は、推論アルゴリズムがハードウェア化された専用プロセッサであってもよい。この場合、記憶部７は、推論アルゴリズムに用いられるパラメータを学習済みモデルとして記憶する。推論アルゴリズムはニューラルネットワークを適用することができる。この場合、ニューラルネットワークにおけるノード間接続の重み係数がパラメータである。

表示部３は、出力部６から出力された画像を表示するモニタであり、例えば液晶ディスプレイ又は有機ＥＬディスプレイ等の表示装置である。

操作部９は、作業者が内視鏡システム１００を操作するための装置である。例えば、操作部９は、ボタン、又はダイヤル、フットスイッチ、タッチパネル等である。後述するように、出力部６は、操作部９からの入力情報に基づいて、対象物の表示態様を変更してもよい。

なお、上記では情報処理システム１０がプロセッサユニット１に含まれるが、情報処理システム１０の一部又は全部がプロセッサユニット１の外部に設けられてもよい。例えば、記憶部７と検出部５がＰＣ又はサーバ等の外部処理装置により実現されてもよい。この場合、撮像データ受信部８は、撮像データを、ネットワーク等を介して外部処理装置に送信する。外部処理装置は、検出した対象物を示す情報を、ネットワーク等を介して出力部６に送信する。出力部６は、受信した情報を画像に重畳して表示部３に表示させる。

内視鏡下の外科手術において、画像に明確な位置形状が表示されない対象物を作業者が識別しにくい場合がある。例えば、内視鏡下の外科手術において所定のランドマークを目印として手順を進めていくが、そのランドマークの位置形状が画像に明確に表示されない状態を想定できる。このとき、熟練してない医師が、不明瞭なランドマークを見分けにくい場合がある。なお、位置形状は位置及び形状のことである。

本実施形態の内視鏡システム１００は、画像中に明確な位置形状が表示されない対象物を検出し、その検出された対象物を示す情報を作業者に提示する。これにより、例えば不明瞭なランドマークの位置形状を示す情報を画像上に提示できる。また、本実施形態では、教師データを作成する際に、画像に明確な位置形状が表示されない対象物にアノテーションが付される。例えば、内視鏡下の外科手術に熟練した医師等がアノテーションを行う。このような教師データによって機械学習された学習済みモデルで対象物を検出することで、熟練医師等の暗黙知に基づく対象物の検出及び表示を実現する。

図２（Ａ）〜図２（Ｃ）に、画像中に明確な位置形状が表示されない対象物の一例を示す。図２（Ａ）においては総胆管が、また、図２（Ｂ）においては胆のう管が、図２（Ｃ）においてはルビエレ溝が対象物となる。なお図２（Ａ）〜図２（Ｃ）は模式図であり、実際の臓器又は組織の正確な形状を示すものではない。図４以降についても同様である。

図２（Ａ）、図２（Ｂ）は、対象物が臓器又は組織に覆われている状態の例である。この場合、対象物がカメラの画角内に入っていたとしても、対象物そのものは画像上では見えない、または、位置形状が明確でない。具体的には、図２（Ａ）に示すように、腹腔鏡下胆のう摘出手術の内視鏡画像において、総胆管は肝臓に覆われており、総胆管そのものは画像に表示されない。総胆管は、総肝管と胆のう管とが合流する部分と、十二指腸との間を接続する管である。また図２（Ｂ）に示すように、胆のう管は脂肪に覆われており、胆のう管そのものは画像に表示されない。胆のう管は、胆のうと総胆管とを接続する管である。

図２（Ｃ）は、画像中に対象物が露出して視認できるが、対象物の境界が曖昧な状態の例である。図２（Ｃ）に示すように、腹腔鏡下胆のう摘出手術の内視鏡画像において、ルビエレ溝は視認可能であり、その溝の開始部分は比較的明瞭である。しかし、溝の終了部分に向かって徐々に溝が消失していくため、ルビエレ溝の境界が曖昧となっている。ルビエレ溝は、肝臓右葉の表面に存在する溝である。また、画像で視認できるが境界が曖昧な対象物の例として、肝臓左葉内側の下縁であるＳ４下縁がある。

総胆管及び胆のう管、ルビエレ溝、Ｓ４下縁は、腹腔鏡下胆のう摘出術におけるランドマークである。ランドマークとは、手術の手順を進める際に用いられる目印である。本実施形態では、これらのランドマークが対象物としてアノテーションされることで教師データが作成され、その教師データにより機械学習が行われる。そして、内視鏡システム１００の情報処理システム１０が学習済みモデルによりランドマークを検出することで、画像中に明確な位置形状が表示されないランドマークの位置形状を画像上に表示する。

以上に説明したように、本実施形態の情報処理システム１０は、学習済みモデルを記憶する記憶部７と、学習済みモデルに基づく検出処理を行う処理部４と、を含む。学習済みモデルは、教師データに基づいて、学習用画像における対象物の位置形状を出力するように学習された学習モデルである。教師データは、学習用画像に対して、対象物の位置形状を示すアノテーションが付されたデータである。学習用画像は、画像中に明確な位置形状が表示されない対象物が画角内に入るように撮像された画像である。処理部４は、対象物が画角内に入るように撮像された検出用画像に対して検出処理を行うことで、対象物の位置形状を示す検出情報を出力する。そして処理部４は、検出情報を検出用画像に重畳して表示部３に表示させる。

このようにすれば、機械学習を用いた検出処理において、画像に明確な位置形状が表示されない対象物を精度良く検出し、その対象物の位置形状を表示できる。また対象物の位置形状を示すアノテーションが付された教師データにより機械学習することで、熟練医師等の暗黙知に基づく対象物の検出及び表示を実現できる。

また本実施形態では、学習用画像は、対象物が他の臓器又は他の組織で覆われている状態、または前記対象物が露出して視認できるが、境界が曖昧な状態を撮像した画像である。

即ち、対象物が他の臓器又は他の組織で覆われているため、画像において対象物の位置形状が明確ではない。または、対象物が露出して視認できるが、画像において対象物の境界が曖昧である。本実施形態では、このような対象物の位置形状を、学習済みモデルにより検出することで、その対象物の位置形状を示す情報を画像に表示させることができる。

また本実施形態では、対象物は、所定の外科手術シーンにおける所定のランドマークである。

図２（Ａ）〜図２（Ｃ）で説明したように、画像上においてランドマークの位置形状が明確でない場合がある。本実施形態では、このようなランドマークの位置形状を、学習済みモデルにより検出することで、そのランドマークの位置形状を示す情報を画像に表示させることができる。

また本実施形態では、学習用画像は、ルビエレ溝及びＳ４下縁、総胆管、胆のう管のうち、少なくとも１つが画角内に入るように撮像された画像である。処理部４は、ルビエレ溝及びＳ４下縁、総胆管、胆のう管のうち、少なくとも１つの位置形状を示す検出情報を出力する。

本実施形態によれば、ルビエレ溝及びＳ４下縁、総胆管、胆のう管のうち１又は複数の位置形状を示す情報が、検出及び表示される。例えば胆のう管を例にとると、図２（Ｂ）で説明したように、胆のう管は脂肪で覆われているため、画像において胆のう管の位置形状は明確でない。本実施形態では、このような胆のう管の位置形状を、学習済みモデルにより検出することで、脂肪に覆われた胆のう管の位置形状を示す情報を、画像に表示させることができる。

また、本実施形態の学習済みモデルは情報記憶媒体に記憶されてもよい。情報記憶媒体は、コンピュータにより読み取り可能な媒体である。情報記憶媒体としては、ＤＶＤ又はＣＤ等の光ディスク、ハードディスク、不揮発性メモリ又はＲＯＭ等の半導体メモリなど、種々の記憶媒体を想定できる。情報処理システム１０は、情報記憶媒体に格納されるプログラムとデータに基づいて本実施形態における種々の処理を行う。即ち情報記憶媒体には、本実施形態の情報処理システム１０としてコンピュータを機能させるためのプログラムが記憶される。コンピュータは、入力装置、及び処理部、記憶部、出力部を備える装置である。

また本実施形態の学習済みモデルは、ニューラルネットワークを含むことができる。ニューラルネットワークは、データを入力する入力層と、入力層を通じて入力されたデータに対し演算処理を行う中間層と、中間層から出力される演算結果に基づいてデータを出力する出力層と、を含む。本実施形態において、入力層に入力されるデータは、学習用画像である。また出力層から出力されるデータは、対象物の位置形状を示す検出情報である。これらの入力データ及び出力データの詳細については後述する。なお、ニューラルネットワークとして、公知の様々なＡＩ（Artificial Intelligence）技術を採用できる。ニューラルネットワークを利用するためには、学習や推論アルゴリズムを実行するためのソフトウェア開発を行う必要があるが、市販化、無償公開されたソフトウェアパッケージも現在複数入手可能であり、それらを利用することもできる。また、ニューラルネットワークにおける機械学習のアルゴリズムとして、公知の種々な学習アルゴリズムを採用でき、誤差逆伝播法を用いた教師有り学習アルゴリズムが好適である。

また本実施形態の情報処理システム１０が行う処理は、情報処理方法として実現されてもよい。即ち、情報処理方法は、対象物が画角内に入るように撮像された検出用画像に対して、上述の学習済みモデルに基づく検出処理を行うことで、対象物の位置形状を示す検出情報を出力し、その検出情報を検出用画像に重畳して表示部に表示させる方法である。

２．詳細な実施形態
以下、詳細な実施形態について説明する。図３は、本実施形態における教師データの作成から対象物の検出までの一連の手順を示すフローチャートである。

ステップＳ１〜Ｓ３は、教師データを作成するステップである。ステップＳ１において、作業者が手術動画の所定フレーム画像にタグ付けを行う。作業者は、例えば対象手術に習熟した医師等である。後述するように、所定フレーム画像は、動画においてシーン変化した後の最初のフレーム画像である。次に、ステップＳ２において、学習装置が、タグ付けされた領域をトラッキングすることで、教師データを作成する。或いは、ステップＳ３に示すように、作業者が各フレーム画像にタグ付けすることで、教師データが作成されてもよい。ステップＳ１〜Ｓ３においてタグ付けされた手術動画の各フレーム画像が学習用画像となる。なお、画像にタグ付けすることをアノテーションと呼ぶ。

ステップＳ４は、学習ステップである。即ち、学習装置が、ステップＳ１〜Ｓ３で作成された教師データを用いて機械学習を行う。この機械学習により得られた学習済みモデルは、情報処理システム１０の記憶部７に記憶される。

ステップＳ５は、学習したＡＩにより推論を行うステップである。即ち、情報処理システム１０の処理部４が、記憶部７に記憶された学習済みモデルに基づいて検出用画像から対象物を検出する。処理部４は、検出された対象物を示す情報を検出用画像に表示させる。

次に教師データを作成する手法を説明する。教師データの作成は、画像中に明確な位置形状が表示されない対象物を画角内に撮像した学習用画像について、対象物の位置形状を示すアノテーションを付すことによって行われる。上述したように、対象物は、外科手術シーンにおける所定のランドマークとすることができる。

「画像中に明確な位置形状が表示されない」とは、輝度又はコントラストに基づき境界を検出する手法によって、対象物の位置形状を特定できない状態を意味する。例えば図２（Ａ）〜図２（Ｃ）で説明したように、腹腔鏡下胆のう摘出術における、以下の対象物である。第１例は、他の臓器又は組織等で覆われており、位置形状の境界が曖昧、又は視認できない対象物である。例えば、総胆管と胆のう管である。第２例は、画像中に露出して視認できるが、境界が曖昧な対象物である。例えば、ルビエレ溝とＳ４下縁である。

画像中に明確な位置形状が表示されない上記ランドマークについて、作業者の暗黙知に基づいて、画像内の位置形状を特定し、アノテーションデータとして与える。アノテーションを行う作業者は、腹腔鏡下胆のう摘出術の豊富な暗黙知を有している医師等である。

図４に、アノテーションの例を示す。アノテーション前の学習用画像には、肝臓ＫＺと、胆のうＴＮＮと、処置具ＴＬ１、ＴＬ２とが撮像されている。この学習用画像の画角内には、総胆管及び胆のう管、ルビエレ溝、Ｓ４下縁が含まれている。図４において、肝臓右葉の実線部分は、ルビエレ溝の開始部分（比較的明瞭な部分）を示し、点線部分は溝の終了部分に向かって徐々に溝が消失していく状態を示す。また、肝臓左葉内側の下縁付近の点線は、画像で視認できるが境界が曖昧な対象物であるＳ４下縁の領域を示す。

アノテーションを行う作業者は、学習用画像から総胆管及び胆のう管、ルビエレ溝、Ｓ４下縁を識別し、各々に対してタグ付けを行う。アノテーション後の学習用画像には、総胆管を示すタグＴＧＡと、胆のう管を示すタグＴＧＢと、ルビエレ溝を示すタグＴＧＣと、Ｓ４下縁を示すタグＴＧＤが付されている。例えば、作業者は、マウス又はタッチパネル等のポインティングデバイスを用いて、総胆管等の領域を指定する。学習装置は、作業差によって指定された学習用画像上の領域にタグを付す。

図５に、アノテーションにより生成された教師データの例を示す。図５に示すように、タグ付けされた領域の画素に、フラグが付される。この各画素にフラグが付されたマップデータを、以下ではフラグデータと呼ぶ。フラグデータは、タグＴＧＡ〜ＴＧＤの各々について生成される。即ち、教師データは、学習用画像と、その学習用画像にタグ付けすることで生成された４層のフラグデータと、で構成されている。

図６は、トラッキングによる自動タグ付けを説明する図である。図６には、内視鏡スコープ２で撮像された動画のフレーム画像を示す。これらの各フレーム画像が学習用画像となる。この動画のうち、所定のフレーム画像Ｆ１、Ｆｘ＋１が選択される。ｘは１以上の整数である。作業者が所定のフレーム画像Ｆ１、Ｆｘ＋１を選択してもよいし、学習装置が画像処理によるシーン検出等によって所定のフレーム画像Ｆ１、Ｆｘ＋１を選択してもよい。作業者は、選択された所定のフレーム画像Ｆ１、Ｆｘ＋１に対してタグ付けを行う。

所定のフレーム画像Ｆ１、Ｆｘ＋１は、例えば手術手順が切り替わるときのフレーム画像、又は動画の明暗が変化したときのフレーム画像、フレーム間のブレが大きく変化するときのフレーム画像、撮像する対象物が切り替わるときのフレーム画像等である。

タグ付けが行われた所定のフレーム画像以降のフレーム画像は、トラッキングによってタグ付けされる。例えば、タグ付けされた領域から輪郭を抽出し、輪郭上の点をトラッキングする方法でタグ付けが行われる。或いは、テンプレートマッチングを用いて被写体の動きを検出し、その検出された動きに基づいてタグ付けが行われてもよい。

具体的には、フレーム画像Ｆ１に対して作業者がタグＴＧＥ１を付したとする。フレーム画像ＦｘとＦｘ＋１の間でシーン変化があったとすると、フレーム画像Ｆ２〜Ｆｘがトラッキングによるタグ付け対象となる。例えば、Ｆ１とＦ２の間における被写体の動きベクトルがトラッキングにより検出される。図５で説明したように、タグＴＧＥ１はフラグデータである。このフラグマップを、検出された動きベクトルに従って平行移動されることで、Ｆ２のフラグデータが生成される。これがＦ２のタグＴＧＥ２となる。同様にして、Ｆ３〜Ｆｘに対してタグＴＧＥ３〜ＴＧＥｘが生成される。

同様に、シーン変化後のフレーム画像Ｆｘ＋１に対して作業者がタグＴＧＦ１を付したとする。上記と同様にして、トラッキングにより、フレーム画像Ｆｘ＋２〜Ｆｘ＋ｙに対してタグＴＧＦ２〜ＴＧＦｙが付される。ｙは１以上の整数である。

以上の実施形態によれば、学習用画像の画素に対してフラグが与えられることによって、アノテーションが行われる。フラグが与えられる画素は、学習用画像において対象物の位置形状に属する画素として判断された画素である。

このようにすれば、作業者が、画像上に位置形状が明確に表示されない対象物を学習用画像から識別し、その識別した領域等を指定することによって、その領域内の画素にタグ付けできる。また、画素に対してフラグが与えられた教師データにより機械学習を行うことで、学習済みモデルが、画素に対してフラグが与えられたデータを出力できるようになる。このフラグが与えられた画素は、検出された対象物の位置及び形状に対応している。このため、学習済みモデルが出力するデータを検出用画像に重畳することで、検出された対象物の位置及び形状を表示できる。

また本実施形態では、各フレーム画像が学習用画像である動画の所定フレーム画像Ｆ１、Ｆｘ＋１において、手動アノテーションされた領域に対してフラグが与えられる。所定フレーム画像Ｆ１、Ｆｘ＋１以降のフレーム画像において、手動アノテーションされた領域がトラッキングされ、そのトラッキングされた領域に対してフラグが与えられる。

このようにすれば、作業者は、動画の所定フレーム画像Ｆ１、Ｆｘ＋１にのみアノテーションを行えばよいため、作業者の負担が軽減される。また、トラッキングにより教師データが自動生成されるので、画像上における被写体の位置又は向き等が変化した複数の教師データが得られる。この教師データにより機械学習を行うことで、学習済みモデルによる対象物検出の精度を向上できる。

次に、学習手法について説明する。
図７は、学習装置５０の構成例である。学習装置５０は、処理部５１と記憶部５２と操作部５３と表示部５４とを含む。例えば、学習装置５０はＰＣ等の情報処理装置である。処理部５１はＣＰＵ等のプロセッサである。処理部５１は、学習モデルに対する機械学習を行って学習済みモデルを生成する。記憶部５２は半導体メモリ又はハードディスクドライブ等の記憶装置である。操作部５３はマウス又はタッチパネル、キーボード等の種々の操作入力装置である。表示部５４は液晶ディスプレイ等の表示装置である。

なお、図１の情報処理システム１０が学習装置を兼ねてもよい。この場合、処理部４、記憶部７、操作部９、表示部３が、それぞれ学習装置５０の処理部５１、記憶部５２、操作部５３、表示部５４に対応する。

図８は、学習の手順を示すフローチャートである。

教師データは記憶部５２に記憶されている。ステップＳ１１において、処理部５１は記憶部５２から教師データを読み出す。例えば１回の推論に対して１つの学習用画像と、それに対応したフラグデータとが読み出される。なお、１回の推論に複数の学習用画像と、それに対応したフラグデータとが用いられてもよい。

ステップＳ１２において、処理部５１は対象物の位置形状を推定し、その結果を出力する。即ち、処理部５１は、ニューラルネットワークに学習用画像を入力する。処理部５１は、ニューラルネットワークによる推論処理を実行し、対象物の位置形状を示すフラグデータを出力する。

ステップＳ１３において、処理部５１は、推定した位置形状と、アノテーションが示す位置形状を比較し、その結果に基づいて誤差を計算する。即ち、処理部５１は、ニューラルネットワークから出力されたフラグデータと、教師データのフラグデータとの誤差を計算する。

ステップＳ１４において、処理部５１は、誤差が減少するように学習モデルのモデルパラメータを調整する。即ち、処理部５１は、ステップＳ１３で求めた誤差に基づいて、ニューラルネットワークにおけるノード間の重み係数等を調整する。

ステップＳ１５において、処理部５１は、パラメータ調整を規定回数終了したか否かを判断する。パラメータ調整が規定回数終了していない場合、処理部５１はステップＳ１１〜Ｓ１５を再び実行する。パラメータ調整が規定回数終了した場合、ステップＳ１６に示すように処理部５１は学習処理を終了する。又は、処理部５１は、ステップＳ１３で求めた誤差が規定値以下になったか否かを判断する。誤差が規定値以下になっていない場合、処理部５１はステップＳ１１〜Ｓ１５を再び実行する。誤差が規定値以下になった場合、ステップＳ１６に示すように処理部５１は学習処理を終了する。

本実施形態において、画像上に位置形状が明確に表示されない対象物が、ＡＩの検出対象となっている。しかし、学習用画像は医療用画像であり、学習用画像には、対象物以外にも、対象物を覆う臓器又は組織、或いはそれらの周辺に存在する臓器又は組織等、様々な被写体が写っている。機械学習においては、例えば、これらの被写体と、アノテーションされた対象物の位置形状との位置関係等が学習される。これによって、学習済みモデルは、医療用画像である検出用画像から、画像上に位置形状が明確に表示されない対象物の位置形状を推定できるようになる。

次に、情報処理システム１０が対象物を検出及び表示する手法について説明する。図９は、検出及び表示の手法を説明するためのブロック図である。

検出部５は、内視鏡スコープ２で撮像された検出用画像を学習済みモデルに入力する。検出部５は、学習済みモデルによる検出処理を行うことで、検出用画像における対象物の位置形状を検出する。即ち、検出結果は検出フラグデータとして出力される。検出フラグデータは、検出された対象物の位置形状に対応した画素にフラグが付されたフラグマップである。例えば、図５で説明した教師データと同様に、各対象物に対応した４層の検出フラグデータが出力される。

図１０は、検出された対象物の位置形状が表示された画像の例である。ＫＺ’は肝臓であり、ＴＮＴ’は胆のうであり、ＴＬ１’、ＴＬ２’は処置具である。

出力部６は、検出された対象物の位置形状を示す情報を検出用画像上に重畳して表示部３に表示させる。即ち、出力部６は、フラグデータにおいてフラグが付された画素に対応した検出用画像の画素に対して、画像処理を行う。出力部６は、画像処理後の検出用画像を表示部３に出力する。例えば、出力部６は、フラグが付された画素に対応した検出用画像の画素に対して、所定色を付す。或いは、出力部６は、フラグが付された画素に対応した検出用画像の画素に対して、所定透過率で所定色をスーパーインポーズする。図１０に示すように、これらの画像処理によって、対象物の位置形状に対応した領域ＭＫＡ〜ＭＫＤが強調表示される。ＭＫＡは、総胆管の位置形状を示す領域である。ＭＫＢは、胆のう管の位置形状を示す領域である。ＭＫＣは、ルビエレ溝の位置形状を示す領域である。ＭＫＤは、Ｓ４下縁の位置形状を示す領域である。以上のようにして、外科手術中に撮像される手術動画についてリアルタイムに対象物を検出して、手術動画上に位置情報を重畳表示することができる。

検出された対象物の位置形状を表示する手法は、以下のように種々考えられる。なお以下の手法は適宜に組み合わされてもよい。

第１手法では、検出部５は、他の臓器又は他の組織で覆われている対象物と共に、他の臓器又は他の組織で覆われずに露出した対象物を検出可能である。出力部６は、検出情報を検出用画像に重畳する際に、他の臓器又は他の組織で覆われている対象物と、他の臓器又は他の組織で覆われずに露出した対象物とで、位置形状の表示態様を異ならせる。

即ち、出力部６は、他の臓器又は他の組織で覆われている対象物を示すフラグデータを第１表示態様で検出用画像に重畳し、他の臓器又は他の組織で覆われずに露出した対象物を示すフラグデータを第２表示態様で検出用画像に重畳する。例えば、第１表示態様では、フラグが付された画素に第１透過率で所定色が重畳され、第２表示態様では、フラグが付された画素に第２透過率で所定色が重畳される。第１透過率は第２透過率より高い。或いは、第１表示態様では、フラグが付された画素に第１所定色が重畳され、第２表示態様では、フラグが付された画素に第２所定色が重畳される。第１所定色と第２所定色は異なる色である。例えば腹腔鏡下胆のう摘出手術において、出力部６は、総胆管及び胆のう管の位置形状に対応した画素に、赤色等の第１所定色を付す。また出力部６は、ルビエレ溝及びＳ４下縁の位置形状に対応した画素に、第１所定色とは異なる黄色等の第２所定色を付す。

このようにすれば、内視鏡システム１００を用いる作業者が、表示されている対象物が他の臓器または組織で覆われているか、露出しているかを、容易に認識できる。

第２手法では、出力部６は、検出情報を検出用画像に重畳する際に、対象物に対応した所定の重要度に基づいて、位置形状の表示態様を異ならせる。

即ち、出力部６は、第１重要度である第１対象物の位置形状を示すフラグデータを第１表示態様で検出用画像に重畳し、第２重要度である第２対象物の位置形状を示すフラグデータを第２表示態様で検出用画像に重畳する。例えば、第１重要度が第２重要度より高い場合、出力部６は、第２対象物の位置形状よりも、第１対象物の位置形状を強調して表示させる。例えば腹腔鏡下胆のう摘出手術において、総胆管が第１重要度に設定され、胆のう管及びルビエレ溝、Ｓ４下縁が第２重要度に設定されたとする。出力部６は、総胆管の位置形状に対応した画素に、赤色等の第１所定色を付す。また出力部６は、胆のう管及びルビエレ溝、Ｓ４下縁の位置形状に対応した画素に、第１所定色より目立たない黄色等の第２所定色を付す。或いは、出力部６は、胆のう管及びルビエレ溝、Ｓ４下縁の位置形状に対応した画素に色を付さない。

このようにすれば、画像に複数の対象物が表示されている場合において、重要度の高い対象物をより強調して作業者に提示できる。例えば、腹腔鏡下胆のう摘出手術のカロー三角展開シーンにおいて、胆のうを鉗子でめくりＳ４下縁を確認するシーンのとき、Ｓ４下縁の重要度を高くし、他のランドマークよりも強調して表示することができる。

例えば出力部６は、内視鏡システム１００の操作部９から入力された情報に基づいて、シーンを判断する。出力部６は、判断したシーンに対応して対象物の重要度を決定する。或いは、シーンに応じて重要度が決定されるのではなく、予め決められた重要度が用いられてもよい。

第３手法では、出力部６は、検出情報を検出用画像に重畳する際に、検出された対象物の名称を付記表示する。

即ち、出力部６は、検出された対象物の位置形状を示すフラグデータを検出用画像に重畳すると共に、その表示された位置形状に対して、対象物の名称を付記する。また更に、出力部６は、対象物の属性情報を付記表示してもよい。属性情報は、例えば対象物が他の臓器または組織で覆われているか、露出しているか等を示す情報である。例えば腹腔鏡下胆のう摘出手術において、出力部６は、総胆管の位置形状に対応した領域に所定色を付し、その所定色が付された領域を指し示す名称として、「総胆管」を表示する。胆のう管、ルビエレ溝、Ｓ４下縁についても同様である。

このようにすれば、位置形状が表示されている対象物の名称或いは属性情報を、作業者に提示できる。作業者は、位置形状が示された各領域が、どの対象物を示しているのかを確認しながら、手術の手順を進めることができる。

第４手法では、出力部６は、検出情報を検出用画像に重畳する際に、検出された対象物の検出結果の確からしさを付記表示する。

即ち、出力部６は、検出された対象物の位置形状を示すフラグデータを検出用画像に重畳すると共に、その推論の確からしさを示す情報を付記する。例えば、検出部５は、フラグデータと共に、推論の確からしさを示す確率データを出力する。例えば、ある画素に、胆のう管を示す検出フラグが付されている場合、その画素に確からしさのデータが対応付けられる。ここでの確からしさは、その画素が胆のう管であるとの推論の確からしさである。この画素に確からしさのデータが対応付けられたものが、確率データである。例えば、出力部６は、胆のう管についての確率データを画面内で平均した値を、胆のう管の位置形状に付記する。総胆管、ルビエレ溝、Ｓ４下縁についても同様である。

このようにすれば、位置形状が表示されている対象物について推論の確からしさを、作業者に提示できる。手術手順を進めるのは、医師等の作業者である。推論の確からしさが提示されることで、作業者は、推論された対象物の位置形状がどの程度信用できるものであるかを考慮しながら、手術手順を進めていくことができる。

第５手法では、出力部６は、検出情報を検出用画像に重畳する際に、検出された対象物のサイズ情報を付記する。

即ち、出力部６は、検出された対象物の位置形状を示すフラグデータを検出用画像に重畳すると共に、その表示された位置形状に対して、対象物のサイズ情報を付記する。対象物のサイズを測定する方法として、術中に撮像された鉗子などの大きさが既知の物体を参照する方法がある。例えば、出力部６は、検出された位置形状の画像上における長さ又は面積等を求める。また出力部６は、術中に撮像された鉗子などの画像上における長さ又は面積等を求める。鉗子の実際の長さ又は面積は既知であるとする。出力部６は、検出された位置形状の画像上における長さ又は面積等と、術中に撮像された鉗子などの画像上における長さ又は面積等とを比較することで、対象物のサイズ情報を取得する。またステレオ内視鏡であれば、出力部６は、視差情報から対象物のサイズを計測することが可能である。

このようにすれば、位置形状が表示されている対象物のサイズ情報を、作業者に提示できる。これにより、作業者は、推論された対象物のサイズを考慮しながら、手術手順を進めていくことができる。例えば腹腔鏡下胆のう摘出手術では、総胆管を切断しないようにしつつ、胆のう管を切断する。このとき、総胆管又は胆のう管の長さ情報が、手術における参考情報となるが、これらの長さには個人差がある。本実施形態では、総胆管又は胆のう管の長さ情報が作業者に提示されるので、作業者は、個人差等を考慮しつつ手術手順を進めることができる。

以上、本発明を適用した実施形態およびその変形例について説明したが、本発明は、各実施形態やその変形例そのままに限定されるものではなく、実施段階では、発明の要旨を逸脱しない範囲内で構成要素を変形して具体化することができる。また、上記した各実施形態や変形例に開示されている複数の構成要素を適宜組み合わせることによって、種々の発明を形成することができる。例えば、各実施形態や変形例に記載した全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態や変形例で説明した構成要素を適宜組み合わせてもよい。このように、発明の主旨を逸脱しない範囲内において種々の変形や応用が可能である。また、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。

１プロセッサユニット、２内視鏡スコープ、３表示部、４処理部、５検出部、６出力部、７記憶部、８撮像データ受信部、９操作部、１０情報処理システム、５０学習装置、５１処理部、５２記憶部、５３操作部、５４表示部、１００内視鏡システム、Ｆ１，Ｆｘ＋１所定フレーム画像、ＫＺ肝臓、ＴＧＡ〜ＴＧＤタグ、ＴＬ１，ＴＬ２処置具、ＴＮＮ胆のう

Claims

学習済みモデルを記憶する記憶部と、
前記学習済みモデルに基づく検出処理を行う処理部と、
を含み、
前記学習済みモデルは、
画像中に明確な位置形状が表示されない対象物が画角内に入るように撮像された学習用画像に対して、前記対象物の位置形状を示すアノテーションが付された教師データに基づいて、前記学習用画像における前記対象物の位置形状を出力するように学習された学習済みモデルであり、
前記処理部は、
前記対象物が画角内に入るように撮像された検出用画像に対して前記検出処理を行うことで、前記対象物の位置形状を示す検出情報を出力し、前記検出情報を前記検出用画像に重畳して表示部に表示させることを特徴とする情報処理システム。
請求項１において、
前記学習用画像は、
前記対象物が他の臓器又は他の組織で覆われている状態、または前記対象物が露出して視認できるが、境界が曖昧な状態を撮像した画像であることを特徴とする情報処理システム。
請求項１又は２において、
前記アノテーションは、
前記学習用画像において前記対象物の位置形状に属する画素として判断された画素に対してフラグが与えられることによって、行われることを特徴とする情報処理システム。
請求項３において、
各フレーム画像が前記学習用画像である動画の所定フレーム画像において、手動アノテーションされた領域に対して前記フラグが与えられ、
前記所定フレーム画像以降のフレーム画像において、前記手動アノテーションされた領域がトラッキングされ、前記トラッキングされた領域に対して前記フラグが与えられることを特徴とする情報処理システム。
請求項１乃至４のいずれか一項において、
前記対象物は、
所定の外科手術シーンにおける所定のランドマークであることを特徴とする情報処理システム。
請求項５において、
前記学習用画像は、
ルビエレ溝及びＳ４下縁、総胆管、胆のう管のうち、少なくとも１つが画角内に入るように撮像された画像であり、
前記処理部は、
前記ルビエレ溝及び前記Ｓ４下縁、前記総胆管、前記胆のう管のうち、少なくとも１つの位置形状を示す前記検出情報を出力することを特徴とする情報処理システム。
請求項１乃至６のいずれか一項において、
前記処理部は、
他の臓器又は他の組織で覆われている前記対象物と、他の臓器又は他の組織で覆われずに露出した前記対象物とを検出可能であり、
前記検出情報を前記検出用画像に重畳する際に、他の臓器又は他の組織で覆われている前記対象物と、他の臓器又は他の組織で覆われずに露出した前記対象物とで、位置形状の表示態様を異ならせることを特徴とする情報処理システム。
請求項１乃至６のいずれか一項において、
前記処理部は、
前記検出情報を前記検出用画像に重畳する際に、前記対象物に対応した所定の重要度に基づいて、位置形状の表示態様を異ならせることを特徴とする情報処理システム。
請求項１乃至８のいずれか一項において、
前記処理部は、
前記検出情報を前記検出用画像に重畳する際に、検出された前記対象物の名称を付記表示することを特徴とする情報処理システム。
請求項１乃至９のいずれか一項において、
前記処理部は、
前記検出情報を前記検出用画像に重畳する際に、検出された前記対象物の検出結果の確からしさを付記表示することを特徴とする情報処理システム。
請求項１乃至１０のいずれか一項において、
前記処理部は、
前記検出情報を前記検出用画像に重畳する際に、検出された前記対象物のサイズ情報を付記することを特徴とする情報処理システム。
請求項１乃至１１のいずれか一項において、
前記学習済みモデルは、
前記学習用画像と、前記学習用画像において前記対象物の位置形状に属する画素として判断された画素に対してフラグが与えられたフラグデータと、を含む前記教師データに基づいて、学習され、
前記処理部は、
前記検出用画像に対して前記検出処理を行うことで、前記対象物の位置形状に属する画素に検出フラグが与えられた検出フラグデータを、前記検出情報として出力することを特徴とする情報処理システム。
請求項１２において、
前記処理部は、
前記検出用画像の画素データに対して、前記検出フラグに基づく画素データを重畳処理することで、前記検出情報を前記検出用画像に重畳することを特徴とする情報処理システム。
学習済みモデルを記憶する記憶部と、
前記学習済みモデルに基づく検出処理を行う処理部と、
を含み、
前記学習済みモデルは、
内視鏡手術の手順において用いられるランドマークが画角内に入るように撮像された学習用画像に対して、前記ランドマークの位置形状を示すアノテーションが付された教師データに基づいて、前記学習用画像における前記ランドマークの位置形状を出力するように学習された学習済みモデルであり、
前記処理部は、
前記ランドマークが画角内に入るように撮像された検出用画像に対して前記検出処理を行うことで、前記ランドマークの位置形状を示す検出情報を出力し、前記検出情報を前記検出用画像に重畳して表示部に表示させることを特徴とする情報処理システム。
請求項１乃至１４のいずれか一項に記載の情報処理システムを有するプロセッサユニットと、
前記プロセッサユニットに接続され、前記検出用画像を撮像して前記プロセッサユニットに送信する内視鏡スコープと、
前記プロセッサユニットに接続され、前記対象物の位置形状を示す前記検出情報が重畳された前記検出用画像を表示する前記表示部と、
を含むことを特徴とする内視鏡システム。
ニューラルネットワークに検出用画像の入力を受け付けて対象物を検出する検出処理を行い、前記検出用画像における前記対象物の位置形状を示す検出情報を前記検出用画像に重畳して表示部に表示させるように、コンピュータを機能させる学習済みモデルであって、
前記ニューラルネットワークは、
データを入力する入力層と、
前記入力層を通じて入力されたデータに対し演算処理を行う中間層と、
前記中間層から出力される演算結果に基づき、データを出力する出力層と、
を備え、
前記学習済みモデルは、
画像中に明確な位置形状が表示されない対象物が画角内に入るように撮像された学習用画像に対して、前記対象物の位置形状を示すアノテーションが付された教師データに基づいて、前記学習用画像における前記対象物の位置形状を出力するように学習されていることを特徴とする学習済みモデル。
請求項１６に記載の学習済みモデルを記憶した情報記憶媒体。
学習済みモデルに基づく検出処理を行う情報処理方法であって、
前記学習済みモデルは、
画像中に明確な位置形状が表示されない対象物が画角内に入るように撮像された学習用画像に対して、前記対象物の位置形状を示すアノテーションが付された教師データに基づいて、前記学習用画像における前記対象物の位置形状を出力するように学習された学習済みモデルであり、
前記対象物が画角内に入るように撮像された検出用画像に対して、前記学習済みモデルに基づく前記検出処理を行うことで、前記対象物の位置形状を示す検出情報を出力し、
前記検出情報を前記検出用画像に重畳して表示部に表示させることを特徴とする情報処理方法。