WO2022162766A1

WO2022162766A1 - 情報処理システム、内視鏡システム、情報処理方法及びアノテーションデータ生成方法

Info

Publication number: WO2022162766A1
Application number: PCT/JP2021/002754
Authority: WO
Inventors: 都士也上山; 真人石掛; 雄作藤田; 達士徳安; 佑将松延; 雅史猪股; 剛衛藤; 裕一遠藤; 浩輔鈴木; 洋平河野; 寛明中沼; 美哲白坂; 淳郎藤永
Original assignee: オリンパス株式会社; 国立大学法人大分大学; 学校法人福岡工業大学
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2022-08-04
Also published as: JPWO2022162766A1

Abstract

情報処理システム（１０）は、検出用画像から対象物の物体検出を行う処理部（４）を含む。処理部（４）は、検出用画像を第１グリッドセル群に分割する。対象物が、第１グリッドセル群のうち第２グリッドセル群にオーバーラップして位置する。このとき、処理部（４）は、第２グリッドセル群に含まれる第２グリッドセルにおいてバウンディングボックスを生成する。処理部（４）は、第２グリッドセルにおいて生成したバウンディングボックスによって、第２グリッドセルに位置する対象物の部位を取り囲み、対象物の位置形状を複数のバウンディングボックスの集合によって検出用画像に重畳して表示部（３）に表示させる。

Description

情報処理システム、内視鏡システム、情報処理方法及びアノテーションデータ生成方法

　本発明は、情報処理システム、内視鏡システム、情報処理方法及びアノテーションデータ生成方法等に関する。

　非特許文献１には、機械学習を用いた物体検出の手法としてＹＯＬＯ（You Only Look Once）が開示されている。ＹＯＬＯは、予め学習させた特定の物体を検出する手法であり、検出した物体を囲むバウンディングボックスを出力する。このバウンディングボックスが画像に重畳されることで、検出された物体を囲むバウンディングボックスが表示される。

　非特許文献２には、機械学習を用いたセマンティックセグメンテーションの手法としてＵ－ｎｅｔが開示されている。セマンティックセグメンテーションは、画像を、各カテゴリに属する領域に分割する手法である。Ｕ－ｎｅｔは、画像の各ピクセルをカテゴリ分類する。特定の物体を示すカテゴリに分類されたピクセルが、特定の色で表示されることで、画像において特定の物体が存在する領域が、特定の色で塗りつぶされて表示される。

　非特許文献３には、機械学習を用いて画像に属性を付与する手法としてＢｏｄｙＰｉｘが開示されている。ＢｏｄｙＰｉｘは、画像をグリッドセルに分割し、各グリッドセルに属性を付与する。例えば、ＢｏｄｙＰｉｘは、各グリッドセルが人又は背景のいずれに属するか、人に属するグリッドセルが顔又は腕等のいずれの部位に属するか、を判定する。そして、属性に応じてグリッドセルが色分け表示等されることで、人間の体部位と背景が、グリッド表示される。

"オブジェクト検出YOLO", [online], ［令和2年9月9日検索］, インターネット＜URL：https://www.renom.jp/ja/notebooks/tutorial/image_proprocess/yolo/notebook.html＞ "U-Net：ディープラーニングによるSemantic Segmentation手法", [online], ［令和2年9月9日検索］, インターネット＜URL：https://blog.negativemind.com/2019/03/15/semantic-segmentation-by-u-net/＞ "[Updated] BodyPix: Real-time Person Segmentation in the Browser with TensorFlow.js", [online], 令和1年11月18日, ［令和2年9月9日検索］,インターネット＜URL：https://blog.tensorflow.org/2019/11/updated-bodypix-2.html＞

　ＹＯＬＯは、非常に高速に検出できるので、動画などにおいてリアルタイム性を保持した検出結果の表示が可能である。一方、ＹＯＬＯは、注目物体を１つの矩形のバウンディングボックスで囲むことしかできないため、注目物体の輪郭形状を判定できない。Ｕ－ｎｅｔは、ピクセル単位で注目物体を判定して画像を塗り分けるので、注目物体の輪郭形状を表現できる。一方、Ｕ－ｎｅｔは、長い計算時間が必要であるため、動画などにおいてリアルタイム性を保持できない。ＢｏｄｙＰｉｘは、ピクセルよりも粗いグリッドセルの属性を判定するため、Ｕ－ｎｅｔ等のセマンティックセグメンテーションよりも高速に動作する。一方、注目物体が粗いグリッドセルの集合で表現されるので、注目物体の輪郭形状を細かく表現できない。

　以上のように、従来技術では、機械学習を用いた注目物体の表示において、リアルタイム性の保持と、注目物体の輪郭形状の表示とを両立できないという課題がある。

　本開示の一態様は、検出用画像から対象物の物体検出を行う処理部を含み、前記処理部は、前記検出用画像を第１グリッドセル群に分割し、前記対象物が、前記第１グリッドセル群のうち第２グリッドセル群にオーバーラップして位置するとき、前記第２グリッドセル群に含まれる第２グリッドセルにおいてバウンディングボックスを生成し、前記第２グリッドセルにおいて生成した前記バウンディングボックスによって、前記第２グリッドセルに位置する前記対象物の部位を取り囲み、前記対象物の位置形状を複数のバウンディングボックスの集合によって前記検出用画像に重畳して表示部に表示させる情報処理システムに関係する。

　また、本開示の他の態様は、上記に記載の情報処理システムと、前記検出用画像を撮像する撮像装置と、を含む内視鏡システムに関係する。

　また、本開示の更に他の態様は、検出用画像から対象物の物体検出を行う情報処理方法であって、前記検出用画像を第１グリッドセル群に分割し、前記対象物が、前記第１グリッドセル群のうち第２グリッドセル群にオーバーラップして位置するとき、前記第２グリッドセル群に含まれる第２グリッドセルにおいてバウンディングボックスを生成し、前記第２グリッドセルにおいて生成した前記バウンディングボックスによって、前記第２グリッドセルに位置する前記対象物の部位を取り囲み、前記対象物の位置形状を複数のバウンディングボックスの集合によって前記検出用画像に重畳して表示部に表示させる情報処理方法に関係する。

　また、本開示の更に他の態様は、学習用画像内の対象物の位置形状を示すマスクデータを入力し、前記マスクデータをグリッドセル群に分割し、前記グリッドセル群のうち複数のグリッドセルが前記対象物にオーバーラップするとき、前記複数のグリッドセルの各グリッドセルにおいてバウンディングボックスを生成し、生成した複数のバウンディングボックスの集合を前記対象物のアノテーションとするアノテーションデータ生成方法に関係する。

情報処理システム及び内視鏡システムの構成例。処理部が行う処理のフローチャート。処理部が行う処理の説明図。処理部が行う処理の説明図。処理部が行う処理の説明図。ＢｏｄｙＰｉｘを用いた場合の表示例。本実施形態の物体検出を用いた場合の表示例。バウンディングボックスＢＢＸの第１例。バウンディングボックスＢＢＸの第２例。バウンディングボックスＢＢＸの第３例。腹腔鏡下胆のう摘出手術における学習用画像及びマスクデータの一例。アノテーションデータの例。学習処理のフローチャート。アノテーションデータ生成方法のフローチャート。アノテーションデータ生成方法の説明図。

　以下、本実施形態について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。

　１．情報処理システム、内視鏡システム
　図１は、本実施形態の情報処理システム１０、及び情報処理システム１０を含む内視鏡システム１００の構成例である。内視鏡システム１００は、プロセッサユニット１と、内視鏡スコープ２と、表示部３と、を含む。また内視鏡システム１００は操作部９を更に含んでもよい。

　内視鏡スコープ２の先端部には撮像装置が設けられ、その先端部が腹腔内に挿入される。撮像装置は、被写体を結像する対物光学系と、その結像を撮像するイメージセンサと、で構成される。撮像装置が腹腔内の画像を撮影し、その撮像データが内視鏡スコープ２からプロセッサユニット１へ送信される。

　プロセッサユニット１は、内視鏡システム１００における種々の処理を行う装置である。例えばプロセッサユニット１は、内視鏡システム１００の制御、及び画像処理等を行う。プロセッサユニット１は、内視鏡スコープ２からの撮像データを受信する撮像データ受信部８と、学習済みモデルにより撮像データから対象物を検出する情報処理システム１０と、を含む。

　撮像データ受信部８は、例えば内視鏡スコープ２のケーブルが接続されるコネクター、又は、撮像データを受信するインターフェース回路等である。

　情報処理システム１０は、学習済みモデルを記憶する記憶部７と、記憶部７に記憶された学習済みモデルに基づいて画像から対象物を検出する処理部４と、を含む。

　記憶部７は、例えば半導体メモリ、又はハードディスクドライブ、光学ディスクドライブ等の記憶装置である。記憶部７には、予め学習済みモデルが記憶されている。或いは、サーバ等の外部装置からネットワークを介して学習済みモデルが情報処理システム１０に入力され、その学習済みモデルを記憶部７が記憶してもよい。

　処理部４は、学習済みモデルによる推論によって画像から対象物を検出する検出部５と、その検出結果に基づいて対象物を示す情報を画像に重畳して表示部３に表示させる出力部６と、を含む。物体検出のアルゴリズムとしては、ＹＯＬＯ（You Only Look Once）又はＳＳＤ（Single Shot multibox Detector）等のディテクションと呼ばれる種々のアルゴリズムが採用される。但し、候補枠の生成、バウンディングボックスの生成と表示、及び学習時の教師データ等が従来とは異なる。この詳細については後述する。

　学習済みモデルによる推論を実行するハードウェアとしては、種々想定できる。例えば、検出部５は、ＣＰＵ、ＭＰＵ、ＧＰＵ又はＤＳＰ等の汎用プロセッサである。この場合、記憶部７は、推論アルゴリズムが記述されたプログラムと、その推論アルゴリズムに用いられるパラメータと、を学習済みモデルとして記憶する。或いは、検出部５は、推論アルゴリズムがハードウェア化されたＡＳＩＣ又はＦＰＧＡ等の専用プロセッサであってもよい。この場合、記憶部７は、推論アルゴリズムに用いられるパラメータを学習済みモデルとして記憶する。推論アルゴリズムはニューラルネットワークを適用することができる。この場合、ニューラルネットワークにおけるノード間接続の重み係数がパラメータである。

　表示部３は、出力部６から出力された画像を表示するモニタであり、例えば液晶ディスプレイ又は有機ＥＬディスプレイ等の表示装置である。

　操作部９は、作業者が内視鏡システム１００を操作するための装置である。例えば、操作部９は、ボタン、又はダイヤル、フットスイッチ、タッチパネル等である。後述するように、出力部６は、操作部９からの入力情報に基づいて、対象物の表示態様を変更してもよい。

　なお、上記では情報処理システム１０がプロセッサユニット１に含まれるが、情報処理システム１０の一部又は全部がプロセッサユニット１の外部に設けられてもよい。例えば、記憶部７と検出部５がＰＣ又はサーバ等の外部処理装置により実現されてもよい。この場合、撮像データ受信部８は、撮像データを、ネットワーク等を介して外部処理装置に送信する。外部処理装置は、検出した対象物を示す情報を、ネットワーク等を介して出力部６に送信する。出力部６は、受信した情報を画像に重畳して表示部３に表示させる。

　図２に、処理部４が行う処理のフローチャートを示す。また、図３～図５に、処理部４が行う処理の説明図を示す。

　図２に示すように、ステップＳ１において検出部５に画像が入力される。具体的には、内視鏡スコープ２は腹腔内をビデオ撮影し、そのビデオ撮影のフレーム画像がリアルタイムに検出部５に入力される。図２に示すステップＳ１～Ｓ５は、各フレーム画像に対して行われる。

　ステップＳ２において、検出部５は、画像をグリッドセルＧＣＡに分割する。図３に示すように、横方向の間隔Ｘで縦方向の間隔Ｙであるグリッドによって画像が分割され、その分割された個々の領域がグリッドセルＧＣＡとなる。１つのグリッドセルＧＣＡは、横辺の長さＸであり、縦辺の長さＹである。横方向とは、画像の水平走査方向に対応し、縦方向とは、画像の垂直走査方向に対応する。長さＸ、Ｙは例えば画素数で表される。画像全体を分割して得られた複数のグリッドセルＧＣＡを第１グリッドセル群とも呼び、その各々を第１グリッドセルとも呼ぶ。

　図４に示すように、画像の一部に対象物５０が写っているとする。対象物５０は、検出部５が検出対象としている物体である。なお、図４では画像に直接的に対象物５０が写っている例を示すが、後述するように、対象物５０は直接的には画像に写っていないが撮影画角内に含まれるような物体であってもよい。図４において、上記第１グリッドセル群のうち複数のグリッドセルＧＣＢが対象物５０に重なっている。このような対象物５０に重なる複数のグリッドセルＧＣＢを第２グリッドセル群とも呼び、その各々を第２グリッドセルとも呼ぶ。図４では、第２グリッドセル群をハッチングにより示している。第２グリッドセル群は第１グリッドセル群に含まれており、グリッドセルそのものは同じものである。即ち、グリッドセルＧＣＢも、横辺の長さＸ、縦辺の長さＹである。

　図２のステップＳ３に示すように、検出部５は、各グリッドセルにおいて候補枠を生成する。このとき、検出部５は、対象物５０に重なるグリッドセルＧＣＢにおいて候補枠を生成する。また、検出部５は、１つのグリッドセルＧＣＢに対して複数の候補枠を生成する。候補枠は、グリッドセルＧＣＢ内に収まるように、即ち隣りのグリッドセルに重ならないように、生成される。なお、候補枠はこれに限定されるものでなく、候補枠の詳細については後述する。

　ステップＳ４において、検出部５は、各グリッドセルにおいてバウンディングボックスを決定する。検出部５は、バウンディングボックスの複数の候補枠を生成し、その複数の候補枠の各候補枠について信頼度スコアを算出し、その信頼度スコアに基づいて複数の候補枠の中からバウンディングボックスを決定する。具体的には、検出部５は、信頼度スコアが最も高い候補枠をバウンディングボックスに決定する。図５に示すように、対象物５０に重なるグリッドセルＧＣＢの各々に対してバウンディングボックスＢＢＸが生成される。即ち、従来の物体検出では１つの対象物５０に対して１つのバウンディングボックスが生成されるが、本実施形態では、１つの対象物５０に対して複数のバウンディングボックスＢＢＸが生成され、その複数のバウンディングボックスＢＢＸの集合によって対象物５０が覆われる。

　なお、バウンディングボックスＢＢＸとは、対象物５０のうちグリッドセルＧＣＢに重なる部位を内包する矩形のことである。信頼度スコアは、候補枠のバウンディングボックスＢＢＸとしての尤もらしさを示すスコアである。即ち、対象物５０のうちグリッドセルＧＣＢに重なる部位を適切に内包する候補枠において、信頼度スコアが高くなる。

　ステップＳ５において、出力部６は、グリッドセルＧＣＢにおいて決定されたバウンディングボックスＢＢＸを画像に重畳し、その重畳後の画像を表示部３に出力する。出力部６は、バウンディングボックスＢＢＸの枠のみを画像に重畳してもよいし、バウンディングボックスＢＢＸの内部を塗りつぶした矩形を画像に重畳してもよい。また、出力部６は、バウンディングボックスＢＢＸと画像とをαブレンドすることで、バウンディングボックスＢＢＸを画像に重畳してもよい。上述のように、１つの対象物５０に対して複数のバウンディングボックスＢＢＸが生成されているので、その複数のバウンディングボックスＢＢＸの集合によって対象物５０が覆われるような表示となる。

　以上に説明したように、本実施形態の情報処理システム１０は、検出用画像から対象物の物体検出を行う処理部４を含む。処理部４の検出部５は、検出用画像を第１グリッドセル群に分割する。検出部５は、対象物５０が、第１グリッドセル群のうち第２グリッドセル群にオーバーラップして位置するとき、第２グリッドセル群に含まれる第２グリッドセルＧＣＢにおいてバウンディングボックスＢＢＸを生成する。処理部４の出力部６は、第２グリッドセルＧＣＢにおいて生成したバウンディングボックスＢＢＸによって、第２グリッドセルＧＣＢに位置する対象物５０の部位を取り囲み、対象物５０の位置形状を複数のバウンディングボックスＢＢＸの集合によって検出用画像に重畳して表示部３に表示させる。

　ここで、検出用画像とは、物体検出の対象として処理部４に入力される画像のことであり、内視鏡スコープ２により撮像された生体画像である。図１では、内視鏡スコープ２から撮像データ受信部８を介して処理部４に入力される画像が、検出用画像である。或いは、内視鏡スコープ２により撮像された画像が記憶部７等に記録され、その記録された画像が再生される際に処理部４に入力されてもよい。この場合、記憶部７から処理部４に入力される画像が検出用画像である。

　本実施形態によれば、検出した物体に対してバウンディングボックスを生成する物体検出の手法を用いているため、高速な処理が可能であり、動画におけるリアルタイム性を保持できる。また、対象物５０の位置形状が複数のバウンディングボックスＢＢＸの集合によって表示されるので、対象物５０を１つのバウンディングボックスで囲む従来の物体検出、又はグリッドセル毎に塗り分けるＢｏｄｙＰｉｘに比べて、対象物５０の位置形状を詳細に表現できる。このように、本実施形態によれば、リアルタイム性と位置形状の表示とを両立できる。

　図６に、ＢｏｄｙＰｉｘを用いた場合の表示例を示す。図６の上段に示すように、対象物５０を含む画像が複数のグリッドセルＧＣＣに分割され、その複数のグリッドセルＧＣＣのうち対象物５０を含むと判定されたグリッドセルＧＣＣに色が付されて表示される。図６では、対象物５０を含むと判定されたグリッドセルＧＣＣを、ハッチングにより示す。

　ＢｏｄｙＰｉｘでは、グリッドセルＧＣＣ単位で色が付されるので、対象物５０の位置形状をグリッドセルＧＣＣよりも細かく表現できない。本実施形態によれば、図５で説明したように、処理部４はグリッドセルＧＣＢよりも小さいバウンディングボックスＢＢＸを生成できるので、対象物５０が曲線部分を含むような複雑な形状であっても、対象物５０の位置形状を詳細に表現できる。

　図６の下段に示すように、血管、胆管、尿管又は神経等のような細長い形状の対象物５１にＢｏｄｙＰｉｘを適用した場合、その細長い形状をグリッドセルＧＣＣの幅でしか表現できない。また、生体の拍動又は内視鏡スコープ２の操作等によって対象物５１の位置が変動するが、グリッドセルＧＣＣの幅よりも小さい変動は表示に反映されないため、対象物５０の位置が適切に表示されない。本実施形態によれば、図７に示すように、処理部４は、グリッドセルＧＣＢよりも細いバウンディングボックスＢＢＸを生成できるので、対象物５１の細長い形状を表現できる。また、対象物５１の位置が変動する場合であっても、グリッドセルＧＣＢよりも狭い幅のバウンディングボックスＢＢＸによって、対象物５０の位置の変動を細かく捉えることができる。

　なお、出力部６は、バウンディングボックスＢＢＸを、信頼度スコアに応じた不透明度で検出用画像に重畳してもよい。αブレンドにおいて、バウンディングボックスＢＢＸのブレンド率をαとし、検出用画像のブレンド率を１－αとしたとき、αが不透明度に相当する。出力部６は、バウンディングボックスＢＢＸの信頼度スコアが高いほど、そのバウンディングボックスＢＢＸの不透明度を高くする。

　このようにすれば、対象物５０の位置形状をより細かく表現できる。例えば、対象物５０の輪郭においてバウンディングボックスＢＢＸの信頼度スコアが低下することが想定される。この場合、対象物５０の輪郭に配置されるバウンディングボックスＢＢＸは、対象物５０の内部に配置されるバウンディングボックスＢＢＸよりも不透明度が低く、薄く表示される。これにより、対象物５０の形状が、より実際の形状に近く見えるように表示される。

　２．バウンディングボックスと候補枠について
　図８に、バウンディングボックスＢＢＸの第１例を示す。

　第２グリッドセルＧＣＢに対して横方向に第１の第２グリッドセルＧＣＢ１と第２の第２グリッドセルＧＣＢ２が隣り合い、第２グリッドセルＧＣＢに対して縦方向に第３の第２グリッドセルＧＣＢ３と第４の第２グリッドセルＧＣＢ４が隣り合うとする。また、第１の第２グリッドセルＧＣＢ１と第２の第２グリッドセルＧＣＢ２のアンカーＡＮＫ間の長さをＸＡとし、第３の第２グリッドセルＧＣＢ３と第４の第２グリッドセルＧＣＢ４のアンカーＡＮＫ間の長さをＹＡとする。このとき、検出部５は、横辺の長さｘがＸＡより小さく、且つ縦辺の長さｙがＹＡより小さく、且つ第１～第４の第２グリッドセルＧＣＢ１～ＧＣＢ４のアンカーＡＮＫを含まないバウンディングボックスＢＢＸを生成する。

　アンカーＡＮＫは、検出部５が候補枠を生成するときの代表点であり、例えば各グリッドセルの中心点である。即ち、検出部５は、第２グリッドセルＧＣＢのアンカーＡＮＫを基準として候補枠を生成する。候補枠の中心とアンカーＡＮＫは一致していなくてもよい。長さｘ、ｙ、ＸＡ、ＹＡは、例えば画素数で表される。「バウンディングボックスＢＢＸがグリッドセルＧＣＢ１～ＧＣＢ４のアンカーＡＮＫを含まない」とは、バウンディングボックスＢＢＸで囲まれる矩形領域内に、グリッドセルＧＣＢ１～ＧＣＢ４のアンカーＡＮＫが存在しないという意味である。

　本実施形態によれば、バウンディングボックスＢＢＸの大きさｘ×ｙが、ＸＡ×ＹＡにより制限されている。即ち、隣り合うグリッドセルのアンカー間の距離によって制限されている。また、バウンディングボックスＢＢＸの位置は、隣り合うグリッドセルのアンカーを超えないように制限されている。これにより、グリッドセルよりも大きい対象物に対して複数のバウンディングボックスＢＢＸが生成され、その複数のバウンディングボックスＢＢＸの集合によって対象物５０が表現される。

　図９に、バウンディングボックスＢＢＸの第２例を示す。

　第２グリッドセルＧＣＢの横辺の長さをＸとし、縦辺の長さをＹとする。このとき、バウンディングボックスＢＢＸの横辺の長さｘはＸ以下であり、且つ縦辺の長さｙはＹ以下である。

　本実施形態によれば、グリッドセルＧＣＢよりも小さいバウンディングボックスＢＢＸが生成されるので、対象物５０の位置形状を、グリッドセルＧＣＢよりも小さいバウンディングボックスＢＢＸによって細かく表現できる。

　なお、検出部５は、ｘ≦Ｘとｙ≦Ｙの少なくとも一方を満たすバウンディングボックスＢＢＸを生成してもよい。即ち、バウンディングボックスＢＢＸの横辺の長さｘはＸ以下であり、且つ縦辺の長さｙは図８のＹＡより小さくてもよい。又は、バウンディングボックスＢＢＸの横辺の長さｘは図８のＸＡより小さく、且つ縦辺の長さｙはＹ以下であってもよい。

　上記図８又は図９のようなバウンディングボックスＢＢＸを決定するための候補枠について説明する。

　検出部５は、複数の候補枠の中からバウンディングボックスＢＢＸを決定する。このとき、複数の候補枠は、候補枠の横辺の長さｘがＸより小さいこと、又は候補枠の縦辺の長さｙがＹより小さいこと、の少なくとも一方を満たす候補枠を含む。図９で説明したように、ＸはグリッドセルＧＣＢの横辺の長さであり、ＹはグリッドセルＧＣＢの縦辺の長さである。なお、複数の候補枠の全部が上記条件を満たす必要はなく、複数の候補枠の一部が上記条件を満たしていればよい。

　このようにすれば、検出部５が、候補枠の横辺の長さｘがＸより小さいこと、又は候補枠の縦辺の長さｙがＹより小さいこと、の少なくとも一方を満たす候補枠を、バウンディングボックスＢＢＸとして決定することが可能となる。このようなバウンディングボックスＢＢＸが選択されることで、グリッドセルＧＣＢよりも細かい位置形状の表現が可能となる。

　また、検出部５は次のような複数の候補枠を生成してもよい。各候補枠の横辺の長さをｘｃとし、縦辺の長さのｙｃとする。このとき、ｘｃが図８のＸＡより小さく、且つｙｃが図８のＹＡより小さく、且つ各候補枠が第１～第４の第２グリッドセルＧＣＢ１～ＧＣＢ４のアンカーＡＮＫを含まない。

　このようにすれば、検出部５が上記複数の候補枠の中からバウンディングボックスＢＢＸを決定することで、図８で説明した条件のバウンディングボックスＢＢＸを生成できる。即ち、バウンディングボックスＢＢＸの横辺の長さｘがＸＡより小さく、且つ縦辺の長さｙがＹＡより小さく、且つバウンディングボックスＢＢＸが第１～第４の第２グリッドセルＧＣＢ１～ＧＣＢ４のアンカーＡＮＫを含まない。

　また、検出部５は、次のような複数の候補枠を生成してもよい。各候補枠の横辺の長さｘｃはＸ以下であり且つ縦辺の長さｙｃはＹＡより小さい、又は、各候補枠の横辺の長さｘｃはＸＡより小さく且つ縦辺の長さｙｃはＹ以下である。

　このようにすれば、検出部５が上記複数の候補枠の中からバウンディングボックスＢＢＸを決定することで、次のような条件のバウンディングボックスＢＢＸを生成できる。即ち、バウンディングボックスＢＢＸの横辺の長さｘはＸ以下であり且つ縦辺の長さｙはＹＡより小さい、又は、バウンディングボックスＢＢＸの横辺の長さｘはＸＡより小さく且つ縦辺の長さｙはＹ以下である。

　また、検出部５は、次のような複数の候補枠を生成してもよい。各候補枠の横辺の長さｘｃはＸ以下であり、且つ縦辺の長さｙｃはＹ以下である。

　このようにすれば、検出部５が上記複数の候補枠の中からバウンディングボックスＢＢＸを決定することで、図９で説明した条件のバウンディングボックスＢＢＸを生成できる。即ち、バウンディングボックスＢＢＸの横辺の長さｘがＸより小さく、且つ縦辺の長さｙがＹより小さい。

　図１０に、バウンディングボックスＢＢＸの第３例を示す。

　第２グリッドセル群のうち隣り合う２つの第２グリッドセルをＧＣＢａ、ＧＣＢｂとする。このうち一方の第２グリッドセルＧＣＢａにおいて生成されるバウンディングボックスＢＢＸａと、他方の第２グリッドセルＧＣＢｂにおいて生成されるバウンディングボックスＢＢＸｂとは、互いに重複しない。

　バウンディングボックスの重複が許されていると、大きなバウンディングボックスが生成される可能性があり、そのバウンディングボックスによって位置形状の表現が粗くなる可能性がある。本実施形態によれば、互いに重複しない複数のバウンディングボックスの集合によって対象物５０の位置形状が表現されるので、対象物５０の位置形状を細かく表現できる。

　上記図１０のようなバウンディングボックスＢＢＸを決定するための候補枠について説明する。

　検出部５は、隣り合う２つの第２グリッドセルＧＣＢａ、ＧＣＢｂのうち一方の第２グリッドセルＧＣＢａにおいて生成される複数の候補枠と、他方の第２グリッドセルＧＣＢｂにおいて生成される複数の候補枠との中から、互いに重複しない候補枠の組を、一方及び他方の第２グリッドセルＧＣＢａ、ＧＣＢｂのバウンディングボックスＢＢＸａ、ＢＢＸｂとして決定する。

　図１０には、第２グリッドセルＧＣＢａに候補枠ＣＡＦａが生成され、第２グリッドセルＧＣＢｂに候補枠ＣＡＦｂ１、ＣＡＦｂ２が生成される。なお、実際には第２グリッドセルＧＣＢａに複数の候補枠が生成される。図１０の例では、候補枠ＣＡＦａとＣＡＦｂ１が重複している。検出部５は、互いに重複しない候補枠ＣＡＦａ、ＣＡＦｂ２の組を、バウンディングボックスＢＢＸａ、ＢＢＸｂとして決定する。

　このようにすれば、隣り合う２つの第２グリッドセルをＧＣＢａ、ＧＣＢｂにおいて生成されるバウンディングボックスＢＢＸａ、ＢＢＸｂとが互いに重複しないような、バウンディングボックスを生成できる。

　上記図８～図１０で説明した候補枠の横辺の長さｘｃと縦辺の長さｙｃは、ユニット長ａの整数倍である。このような候補枠から決定されるバウンディングボックスＢＢＸの横辺の長さｘと縦辺の長さｙは、ユニット長ａの整数倍である。

　ｎ、ｍを１以上の整数としたとき、ｘｃ＝ｎ×ａ、ｙｃ＝ｍ×ａと表される。ユニット長ａは、辺の長さのユニットとして予め設定されており、グリッドセルの辺の長さＸ、Ｙよりも小さい。より具体的には、ユニット長ａはＸ／２及びＹ／２より小さい。

　図８又は図９で説明したように、候補枠の大きさｘｃ×ｙｃは制限されているので、ｎ、ｍは有限な整数以下となる。これにより、検出部５が生成する複数の候補枠が有限な数に限定されるので、物体検出の処理負荷が低減される。

　３．学習処理とアノテーションデータ生成方法
　次に、本実施形態の物体検出を実現する学習処理について説明する。本実施形態の物体検出は、例えば腹腔鏡下胆のう摘出手術に適用可能である。以下では、腹腔鏡下胆のう摘出手術を例にとって、学習処理を説明する。但し、本実施形態の物体検出と学習処理の適用対象は、腹腔鏡下胆のう摘出手術に限定されない。即ち、作業者により画像にアノテーションが付された教師データに基づいて機械学習が行われ、その学習済みモデルにより画像から対象物が検出される場合に、本実施形態を適用可能である。

　図１１に、腹腔鏡下胆のう摘出手術における学習用画像及びマスクデータの一例を示す。学習用画像は、学習処理に用いられる画像のことであり、内視鏡システムを用いて予め撮影されたものである。学習用画像は、例えば腹腔内がビデオ撮影された動画のフレーム画像である。

　学習用画像には、肝臓ＫＺと、胆のうＴＮＮと、処置具ＴＬ１、ＴＬ２とが撮像されている。この学習用画像の画角内には、物体検出の対象物として、総胆管、胆のう管、ルビエレ溝及びＳ４下縁が含まれている。アノテーションを行う作業者は、学習用画像から総胆管及び胆のう管、ルビエレ溝、Ｓ４下縁を識別し、各々に対してマスクデータを付す。マスクデータ付与後の学習用画像には、総胆管を示すマスクデータＴＧＡと、胆のう管を示すマスクデータＴＧＢと、ルビエレ溝を示すマスクデータＴＧＣと、Ｓ４下縁を示すマスクデータＴＧＤが付されている。例えば、作業者は、マウス又はタッチパネル等のポインティングデバイスを用いて、総胆管等の領域を指定する。

　図１２に示すように、マスクデータは複数のバウンディングボックスの集合に変換され、このバウンディングボックスの集合がアノテーションデータとして用いられる。変換手法についてはアノテーションデータ生成方法として後述する。図１２では、マスクデータＴＧＡを例に図示しているが、マスクデータＴＧＢ～ＴＧＤについても同様の手法でバウンディングボックスが生成される。

　図１２に示すように、学習用画像は、検出用画像と同様に、複数の第１グリッドセルＧＣＡである第１グリッドセル群に分割される。図１２において、第１グリッドセル群のうち複数のグリッドセルＧＣＥがマスクデータＴＧＡに重なっている。このようなマスクデータＴＧＡに重なる複数のグリッドセルＧＣＥを第３グリッドセル群と呼び、その各々を第３グリッドセルと呼ぶこととする。図１２では、第３グリッドセル群をハッチングにより示している。第３グリッドセル群は第１グリッドセル群に含まれており、グリッドセルそのものは同じものである。即ち、第３グリッドセルＧＣＥも、横辺の長さＸ、縦辺の長さＹである。

　マスクデータＴＧＡに重なる第３グリッドセルＧＣＥの各々に対してバウンディングボックスＢＢＸＴが付与される。従来の物体検出では１つのマスクデータＴＧＡに対して１つのバウンディングボックスが付与されるが、本実施形態では、１つのマスクデータＴＧＡに対して複数のバウンディングボックスＢＢＸＴが生成され、その複数のバウンディングボックスＢＢＸＴの集合によってマスクデータＴＧＡが覆われる。

　図１３は、学習処理のフローチャートである。

　学習処理は、学習装置により実行される。学習装置は、処理部と記憶部と操作部と表示部とを含む。学習装置は、例えばＰＣ等の情報処理装置である。処理部はＣＰＵ等のプロセッサである。処理部は、学習モデルに対する機械学習を行って学習済みモデルを生成する。記憶部は半導体メモリ又はハードディスクドライブ等の記憶装置である。操作部はマウス又はタッチパネル、キーボード等の種々の操作入力装置である。表示部は液晶ディスプレイ等の表示装置である。なお、図１の情報処理システム１０が学習装置を兼ねてもよい。この場合、処理部４、記憶部７、操作部９、表示部３が、それぞれ学習装置の処理部、記憶部、操作部、表示部に対応する。

　図１３に示すように、ステップＳ１１において、学習装置の処理部は記憶部から教師データを読み出す。例えば１回の推論に対して１又は複数の学習用画像と、それに対応したアノテーションデータとが読み出される。アノテーションデータは、図１２で説明したバウンディングボックスの集合である。バウンディングボックスを示すデータは、例えば、バウンディングボックスの位置座標とサイズを示すデータ等であってよい。なお、マスクデータと学習用画像が教師データとして記憶部に記憶されていてもよい。この場合、処理部がマスクデータをバウンディングボックスに変換し、そのバウンディングボックスをアノテーションデータとして学習に用いる。

　ステップＳ１２において、処理部は学習用画像から対象物の位置形状を推定し、その結果を出力する。即ち、処理部は、ニューラルネットワークに学習用画像を入力する。処理部は、ニューラルネットワークによる推論処理を実行し、対象物の位置形状を示すバウンディングボックスの集合を出力する。

　ステップＳ１３において、処理部は、推定したバウンディングボックスと、アノテーションデータのバウンディングボックスとを比較し、その結果に基づいて誤差を計算する。即ち、処理部は、ニューラルネットワークから出力されたバウンディングボックスと、教師データのバウンディングボックスとの誤差を計算する。

　ステップＳ１４において、処理部は、誤差が減少するように学習モデルのモデルパラメータを調整する。即ち、処理部は、ステップＳ１３で求めた誤差に基づいて、ニューラルネットワークにおけるノード間の重み係数等を調整する。

　ステップＳ１５において、処理部は、パラメータ調整を規定回数終了したか否かを判断する。パラメータ調整が規定回数終了していない場合、処理部はステップＳ１１～Ｓ１５を再び実行する。パラメータ調整が規定回数終了した場合、ステップＳ１６に示すように処理部は学習処理を終了する。又は、処理部は、ステップＳ１３で求めた誤差が規定値以下になったか否かを判断する。誤差が規定値以下になっていない場合、処理部はステップＳ１１～Ｓ１５を再び実行する。誤差が規定値以下になった場合、ステップＳ１６に示すように処理部は学習処理を終了する。

　以上の学習処理によって学習済みモデルが得られ、その学習済みモデルが図１の記憶部７に記憶される。学習用画像が第１グリッドセル群に分割され、学習用画像内の対象物が、第１グリッドセル群のうち第３グリッドセル群にオーバーラップして位置する。このとき、学習済みモデルは、学習用画像にアノテーションが付された教師データにより学習され、対象物の位置形状を、第３グリッドセル群から生成した複数のバウンディングボックスの集合によって出力するように学習されている。図１３で説明したように、アノテーションは、第３グリッドセル群に含まれる第３グリッドセルＧＣＥにおいて生成されるバウンディングボックスＢＢＸＴによって、第３グリッドセルＧＣＥに位置する対象物の部位を取り囲むことで、対象物の位置形状を複数のバウンディングボックスの集合によって表現する。具体的には、対象物の位置形状はマスクデータにより示されており、第３グリッドセルＧＣＥに位置するマスクデータの部位を取り囲むことで、マスクデータの位置形状が複数のバウンディングボックスの集合によって表現されている。

　本実施形態によれば、学習用画像における対象物の位置形状を複数のバウンディングボックスの集合によって表現したアノテーションを用いて学習処理が行われることで、その学習済みモデルを用いた物体検出により、検出用画像における対象物の位置形状を複数のバウンディングボックスの集合によって表現した表示が可能となる。

　腹腔鏡下胆のう摘出手術においては、以下のような効果を期待できる。即ち、総胆管、胆のう管、ルビエレ溝及びＳ４下縁は、腹腔鏡下胆のう摘出手術におけるランドマークであるが、画像内において位置形状が明確には表示されないランドマークとなっている。具体的には、総胆管と胆のう管は、臓器又は組織に覆われており、ルビエレ溝とＳ４下縁は、露出して視認できるが、境界があいまいである。例えば、腹腔鏡下胆のう摘出術の豊富な暗黙知を有している医師等が、上記ランドマークにアノテーションを付す。これにより、暗黙知を有している医師等により識別されたランドマークの位置形状が、マスクデータとして生成される。そして、このマスクデータを教師データとして機械学習が行われることで、暗黙知を反映して位置形状が明確化されたランドマークを検出し、表示することが可能となる。本実施形態の物体検出では、１つの矩形でなくバウンディングボックスの集合によってランドマークの位置形状を表現できる。これにより、手術において重要なリアルタイム性を確保しながら、不明瞭なランドマークの位置形状を詳細に医師等に提示できる。

　次に、マスクデータをバウンディングボックスに変換するアノテーションデータ生成方法について説明する。図１４は、アノテーションデータ生成方法のフローチャートである。図１５は、アノテーションデータ生成方法の説明図である。アノテーションデータ生成方法は、例えば学習装置とは異なる情報処理装置によって実行されてもよいし、或いは学習装置において学習処理の前処理として実行されてもよい。

　図１４に示すように、ステップＳ２１においてマスクデータを入力する。マスクデータは、学習用画像における対象物の領域を示すデータであり、各画素に１又は０が付されたデータである。１は対象物を示し、０は非対象物を示す。以下、図１１のマスクデータＴＧＡを例に説明する。

　ステップＳ２２において、マスクデータＴＧＡをａ×ａの正方形の集合に変換する。ａは候補枠とバウンディングボックスのユニット長である。図１５の上段図に示すように、マスクデータＴＧＡをａ×ａのグリッドに分割する。上段図において、マスクデータＴＧＡのうち「１」が付された画素をハッチングで示す。図１５の中段図に示すように、マスクデータＴＧＡのうち「１」が付された画素に重なるａ×ａの正方形を抽出する。中段図において、抽出されたａ×ａの正方形を実線で示す。

　ステップＳ２３において、ａ×ａの正方形の集合に変換されたマスクデータＴＧＡを、第１グリッドセル群に分割する。図１５の中段図には、３×３個のａ×ａの正方形が第１グリッドセルＧＣＡに対応する例を示す。但し、１つのグリッドセルに含まれるａ×ａの正方形の数は、任意であってよい。

　ステップＳ２４において、各グリッドセルにおいてバウンディングボックスを生成する。図１５の中段図及び下段図に示すように、第３グリッドセルＧＣＥにおいてマスクデータＴＧＡから変換されたａ×ａの正方形の集合を内包するように、バウンディングボックスＢＢＸＴを生成する。バウンディングボックスＢＢＸＴは、ａ×ａの正方形の集合を内包するので、当然ながら、マスクデータＴＧＡのうち第３グリッドセルＧＣＥに含まれる部分を、内包している。第３グリッドセル群の各第３グリッドセルＧＣＥにバウンディングボックスＢＢＸＴが生成されることで、複数のバウンディングボックスＢＢＸＴによってマスクデータＴＧＡが覆われる。

　ステップＳ２５において、上記複数のバウンディングボックスＢＢＸＴを、マスクデータＴＧＡが示す対象物のアノテーションデータとして出力する。

　以上に説明したアノテーションデータ生成方法は、学習用画像内の対象物の位置形状を示すマスクデータＴＧＡを入力し、そのマスクデータＴＧＡをグリッドセル群に分割する。アノテーションデータ生成方法は、グリッドセル群のうち複数のグリッドセルＧＣＥが対象物にオーバーラップするとき、複数のグリッドセルＧＣＥの各グリッドセルにおいてバウンディングボックスＢＢＸＴを生成する。アノテーションデータ生成方法は、生成した複数のバウンディングボックスＢＢＸＴの集合を対象物のアノテーションとする。

　本実施形態によれば、１つの対象物を複数のバウンディングボックスで囲むアノテーションデータが生成される。このアノテーションデータを用いて機械学習が行われることで、その学習済みモデルを用いた物体検出により、検出用画像における対象物の位置形状を複数のバウンディングボックスの集合によって表現した表示が可能となる。

　より具体的には、グリッドセル群に含まれるグリッドセルＧＣＥの横辺の長さをＸとし、縦辺の長さをＹとし、ａをＸ及びＹより小さいユニット長とする。このとき、アノテーションデータ生成方法は、マスクデータＴＧＡを、ａ×ａの正方形からなる集合に変換する。アノテーションデータ生成方法は、ａ×ａの正方形からなる集合のうち、複数のグリッドセルＧＣＥの各グリッドセルに属する正方形を選択し、選択した正方形を包含するバウンディングボックスＢＢＸＴを、各グリッドセルにおけるバウンディングボックスＢＢＸＴとして生成する。

　アノテーションデータを用いた機械学習において、推論モデルは学習用画像からユニット長ａのバウンディングボックスを推論する。本実施形態によれば、アノテーションデータ生成方法はユニット長ａのバウンディングボックスを生成するので、誤差評価時において、推論されたユニット長ａのバウンディングボックスと、アノテーションデータにおけるユニット長ａのバウンディングボックスとが比較される。同じユニット長ａのバウンディングボックスが比較されることで、誤差の評価が簡素化される。

　以上、本実施形態およびその変形例について説明したが、本開示は、各実施形態やその変形例そのままに限定されるものではなく、実施段階では、要旨を逸脱しない範囲内で構成要素を変形して具体化することができる。また、上記した各実施形態や変形例に開示されている複数の構成要素を適宜組み合わせることができる。例えば、各実施形態や変形例に記載した全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態や変形例で説明した構成要素を適宜組み合わせてもよい。このように、本開示の主旨を逸脱しない範囲内において種々の変形や応用が可能である。また、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。

１　プロセッサユニット、２　内視鏡スコープ、３　表示部、４　処理部、５　検出部、６　出力部、７　記憶部、８　撮像データ受信部、９　操作部、１０　情報処理システム、５０，５１　対象物、１００　内視鏡システム、ＡＮＫ　アンカー、ＢＢＸ，ＢＢＸＴ，ＢＢＸａ，ＢＢＸｂ　バウンディングボックス、ＣＡＦａ，ＣＡＦｂ１，ＣＡＦｂ２　候補枠、ＧＣＡ　第１グリッドセル、ＧＣＢ，ＧＣＢａ，ＧＣＢｂ　第２グリッドセル、ＧＣＢ１　第１の第２グリッドセル、ＧＣＢ２　第２の第２グリッドセル、ＧＣＢ３　第３の第２グリッドセル、ＧＣＢ４　第４の第２グリッドセル、ＧＣＥ　第３グリッドセル、ＴＧＡ，ＴＧＢ，ＴＧＣ，ＴＧＤ　マスクデータ、ａ　ユニット長

Claims

　検出用画像から対象物の物体検出を行う処理部を含み、
　前記処理部は、
　前記検出用画像を第１グリッドセル群に分割し、
　前記対象物が、前記第１グリッドセル群のうち第２グリッドセル群にオーバーラップして位置するとき、前記第２グリッドセル群に含まれる第２グリッドセルにおいてバウンディングボックスを生成し、
　前記第２グリッドセルにおいて生成した前記バウンディングボックスによって、前記第２グリッドセルに位置する前記対象物の部位を取り囲み、前記対象物の位置形状を複数のバウンディングボックスの集合によって前記検出用画像に重畳して表示部に表示させることを特徴とする情報処理システム。
　請求項１において、
　前記第２グリッドセルに対して横方向に第１、第２の第２グリッドセルが隣り合い、前記第２グリッドセルに対して縦方向に第３、第４の第２グリッドセルが隣り合い、前記第１、第２の第２グリッドセルのアンカー間の長さをＸＡとし、前記第３、第４の第２グリッドセルのアンカー間の長さをＹＡとしたとき、
　前記処理部は、
　横辺の長さｘが前記ＸＡより小さく、且つ縦辺の長さｙが前記ＹＡより小さく、且つ前記第１～第４の第２グリッドセルのアンカーを含まない前記バウンディングボックスを生成することを特徴とする情報処理システム。
　請求項１において、
　前記処理部は、
　前記バウンディングボックスの複数の候補枠の中から前記バウンディングボックスを決定し、
　前記複数の候補枠は、
　前記第２グリッドセルの横辺の長さをＸとし、縦辺の長さをＹとしたとき、候補枠の横辺の長さｘｃが前記Ｘより小さいこと、又は前記候補枠の縦辺の長さｙｃが前記Ｙより小さいこと、の少なくとも一方を満たす前記候補枠を含むことを特徴とする情報処理システム。
　請求項１において、
　学習済みモデルを記憶する記憶部を含み、
　前記処理部は、
　前記学習済みモデルに基づく前記物体検出を行い、
　前記学習済みモデルは、
　前記学習用画像が前記第１グリッドセル群に分割され、前記学習用画像内の前記対象物が、前記第１グリッドセル群のうち第３グリッドセル群にオーバーラップして位置するとき、前記学習用画像にアノテーションが付された教師データにより学習され、前記対象物の位置形状を、前記第３グリッドセル群から生成した複数のバウンディングボックスの集合によって出力するように学習された学習済みモデルであり、
　前記アノテーションは、
　前記第３グリッドセル群に含まれる第３グリッドセルにおいて生成されるバウンディングボックスによって、前記第３グリッドセルに位置する前記対象物の部位を取り囲むことで、前記対象物の位置形状を複数のバウンディングボックスの集合によって表現したアノテーションであることを特徴とする情報処理システム。
　請求項２において、
　前記第２グリッドセルの横辺の長さをＸとし、縦辺の長さをＹとしたとき、
　前記ｘは前記Ｘ以下であり且つ前記ｙは前記ＹＡより小さい、又は、前記ｘは前記ＸＡより小さく且つ前記ｙは前記Ｙ以下であることを特徴とする情報処理システム。
　請求項５において、
　前記ｘは前記Ｘ以下であり且つ前記ｙは前記Ｙ以下であることを特徴とする情報処理システム。
　請求項２において、
　前記ｘと前記ｙは、ユニット長ａの整数倍であることを特徴とする情報処理システム。
　請求項１において、
　前記第２グリッドセル群の隣り合う２つの第２グリッドセルのうち一方の第２グリッドセルにおいて生成される前記バウンディングボックスと、他方の第２グリッドセルにおいて生成される前記バウンディングボックスとは、互いに重複しないことを特徴とする情報処理システム。
　請求項１において、
　前記処理部は、
　前記第２グリッドセルのアンカーを基準に前記バウンディングボックスの候補枠を生成することを特徴とする情報処理システム。
　請求項１において、
　前記処理部は、
　前記バウンディングボックスの複数の候補枠を生成し、前記複数の候補枠の各候補枠について信頼度スコアを算出し、前記信頼度スコアに基づいて前記複数の候補枠の中から前記バウンディングボックスを決定することを特徴とする情報処理システム。
　請求項１０において、
　前記処理部は、
　前記バウンディングボックスを、前記信頼度スコアに応じた不透明度で前記検出用画像に重畳することを特徴とする情報処理システム。
　請求項１０において、
　前記処理部は、
　前記第２グリッドセル群の隣り合う２つの第２グリッドセルのうち一方の第２グリッドセルにおいて生成される前記複数の候補枠と、他方の第２グリッドセルにおいて生成される前記複数の候補枠との中から、互いに重複しない候補枠の組を、前記一方及び前記他方の第２グリッドセルの前記バウンディングボックスとして決定することを特徴とする情報処理システム。
　請求項１０において、
　前記第２グリッドセルに対して横方向に第１、第２の第２グリッドセルが隣り合い、前記第２グリッドセルに対して縦方向に第３、第４の第２グリッドセルが隣り合い、前記第１、第２の第２グリッドセルのアンカー間の長さをＸＡとし、前記第３、第４の第２グリッドセルのアンカー間の長さをＹＡとしたとき、
　前記処理部は、
　各候補枠の横辺の長さｘｃが前記ＸＡより小さく、且つ縦辺の長さｙｃが前記ＹＡより小さく、且つ前記各候補枠が前記第１～第４の第２グリッドセルのアンカーを含まない前記複数の候補枠を生成することを特徴とする情報処理システム。
　請求項１３において、
　前記第２グリッドセルの横辺の長さをＸとし、縦辺の長さをＹとしたとき、
　前記ｘｃは前記Ｘ以下であり且つ前記ｙｃは前記ＹＡより小さい、又は、前記ｘｃは前記ＸＡより小さく且つ前記ｙｃは前記Ｙ以下であることを特徴とする情報処理システム。
　請求項１４において、
　前記ｘｃは前記Ｘ以下であり、且つ前記ｙｃは前記Ｙ以下であることを特徴とする情報処理システム。
　請求項１３において、
　前記ｘｃと前記ｙｃは、ユニット長ａの整数倍であることを特徴とする情報処理システム。
　請求項１に記載の情報処理システムと、
　前記検出用画像を撮像する撮像装置と、
　を含むことを特徴とする内視鏡システム。
　検出用画像から対象物の物体検出を行う情報処理方法であって、
　前記検出用画像を第１グリッドセル群に分割し、
　前記対象物が、前記第１グリッドセル群のうち第２グリッドセル群にオーバーラップして位置するとき、前記第２グリッドセル群に含まれる第２グリッドセルにおいてバウンディングボックスを生成し、
　前記第２グリッドセルにおいて生成した前記バウンディングボックスによって、前記第２グリッドセルに位置する前記対象物の部位を取り囲み、前記対象物の位置形状を複数のバウンディングボックスの集合によって前記検出用画像に重畳して表示部に表示させることを特徴とする情報処理方法。
　学習用画像内の対象物の位置形状を示すマスクデータを入力し、
　前記マスクデータをグリッドセル群に分割し、
　前記グリッドセル群のうち複数のグリッドセルが前記対象物にオーバーラップするとき、前記複数のグリッドセルの各グリッドセルにおいてバウンディングボックスを生成し、
　生成した複数のバウンディングボックスの集合を前記対象物のアノテーションとすることを特徴とするアノテーションデータ生成方法。
　請求項１９において、
　前記グリッドセル群に含まれるグリッドセルの横辺の長さをＸとし、縦辺の長さをＹとし、ａを前記Ｘ及び前記Ｙより小さいユニット長としたとき、
　前記マスクデータを、ａ×ａの正方形からなる集合に変換し、
　前記ａ×ａの正方形からなる集合のうち、前記複数のグリッドセルの各グリッドセルに属する正方形を選択し、選択した正方形を包含するバウンディングボックスを、前記各グリッドセルにおける前記バウンディングボックスとして生成することを特徴とするアノテーションデータ生成方法。