JPWO2020031851A1 - 画像処理方法及び画像処理装置 - Google Patents
画像処理方法及び画像処理装置 Download PDFInfo
- Publication number
- JPWO2020031851A1 JPWO2020031851A1 JP2020535717A JP2020535717A JPWO2020031851A1 JP WO2020031851 A1 JPWO2020031851 A1 JP WO2020031851A1 JP 2020535717 A JP2020535717 A JP 2020535717A JP 2020535717 A JP2020535717 A JP 2020535717A JP WO2020031851 A1 JPWO2020031851 A1 JP WO2020031851A1
- Authority
- JP
- Japan
- Prior art keywords
- learning
- data set
- image
- layer
- image processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/87—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
- G06V10/95—Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
Description
<画像処理システムの構成>
図1は、第1の実施形態に係る画像処理システム1(画像処理装置)の構成を示すブロック図である。画像処理システム1は、被検体内に挿入される内視鏡で撮像された画像に基づく学習処理及び/または認識処理を行う画像処理装置500(画像処理装置)と、1つ以上の内視鏡システム10と、第1の画像データベース601と、第2の画像データベース602とを備える。
<通常光画像及び特殊光画像>
第1の画像データベース601及び第2の画像データベース602は、ハードディスク等の記録媒体により構成され、内視鏡システム10で取得した内視鏡画像が記録される。第1の画像データベース601には、例えば通常光を観察光(第1の観察光)として撮影された複数の内視鏡画像(医療画像)を記録し、第2の画像データベース602には、通常光と異なる観察光(第2の観察光;例えば特殊光)として撮影された複数の内視鏡画像を記録することができる。すなわち、第1の画像データベース601に記録された複数の通常光画像は本発明における「第1画像群」の一態様であり、第2の画像データベース602に記録された複数の特殊光画像は本発明における「第1画像群とは素性が異なる第2画像群」の一態様である。特殊光画像を撮影する特殊光(狭帯域光)は以下では短波長狭帯域光(青色狭帯域光)として説明するが、長波長狭帯域光(赤色狭帯域光)等他の波長でもよい。また、上述の例では第1,第2の観察光が白色光と狭帯域光である場合について説明しているが、波長帯域及び/または強度が異なる第1,第2の狭帯域光を観察光として取得された内視鏡画像等の医用画像を用いてもよい。
上述した通常光画像と特殊光画像のように観察光の波長バランスが異なる内視鏡画像だけでなく、第1の画像データベース601と第2の画像データベース602とで撮像デバイス、解像度、及び画像に施す画像処理のうち1または複数が異なる内視鏡画像を記録してもよい。「撮像デバイスが異なる」には異なるスコープ、光源や光学系の特性、プロセッサの性能が異なる内視鏡を用いていることが含まれる(複数の内視鏡システム10の間で特性が異なる場合もある)が、これに限定されるものではない。また、「画像に施す画像処理が異なる」には、注目領域等特定の領域を強調または目立たなくする処理、特定の波長成分の影響を強調または低減する処理の有無及び/または程度が異なることが含まれるが、これらに限定されるものではない。また、これらのデータに加えて、またはこれに代えて被検体の異なる部位を撮像して得られた画像(内視鏡画像)を第1の画像データベース601と第2の画像データベース602に記録してもよいし、被検体の属性が異なる画像(内視鏡画像)を記録してもよい。「被検体の属性」の例としては年齢、性別、人種等を挙げることができるが、これらに限定されるものではない。
内視鏡を用いた観察や検査を行う場合、ユーザは通常光(白色光)を観察光として取得された画像をモニタに表示させて確認するケースが多い。観察や検査の目的、状況(例えば、通常光では病変の構造が観察しづらい)により狭帯域光等の特殊光を観察光として画像をケースもあるが、通常光と比較すると観察光としての使用頻度が低く、そのため特殊光画像は通常光画像よりも著しく数が少ない場合が多い。機械学習により画像の学習及び/または認識を行う場合、特殊光画像についても学習及び/または認識を行う必要があるが、データ数が少ないと通常光画像と比較して学習及び/または認識の精度が低下するおそれがある。このような状況に鑑み、第1の実施形態では後述する学習処理により素性が異なるデータを効率的に学習及び/または認識できるようにしている。
第1の画像データベース601及び第2の画像データベース602は、上述した内視鏡画像に加え、注目領域(ROI:Region of Interest)を識別するための「正解データ」を画像と対応させて記憶することができる。例えば、第1の画像データベース601は複数の通常光画像にそれぞれ対応する複数の正解データを記憶し、第2の画像データベース602は複数の特殊光画像にそれぞれ対応する複数の正解データを記憶する。正解データは、内視鏡画像に対して医師が指定した注目領域や鑑別結果であることが好ましい。また、このような観察光の波長バランスが異なる内視鏡画像の正解データに代えて、またはこれに加えて、撮像デバイス、解像度、及び画像に施す画像処理、被検体の部位(撮像部位)や属性についての正解データを記録してもよい。
画像取得部510は、外部サーバ、データベース等とネットワークを介して通信する装置等により構成され、学習や認識に用いる内視鏡画像及び/または正解データを第1の画像データベース601、第2の画像データベース602から取得する。画像取得部510は、図示せぬネットワークで画像処理システム1と接続された内視鏡システム、病院内サーバ等からも内視鏡画像を取得することができる。操作部520は図示せぬキーボード、マウス等の入力デバイスを備え、ユーザはこれらデバイスを介して画像取得、学習や認識等の処理に必要な操作を行うことができる。制御部530は記録部550に記録された各種プログラムを読み込み、操作部520から入力される指令にしたがって、画像処理システム1全体の動作を制御する。また制御部530は、後述する誤差算出部568が算出した誤差(損失)を第1のCNN562及び/または第2のCNN563(CNN:Convolutional Neural Network、畳み込みニューラルネットワーク)に逆伝搬することにより、これらCNNの重みパラメータを更新する。
第1の実施形態に係る画像処理システム1(画像処理装置500)は、畳み込みニューラルネットワーク(階層型ネットワーク)である第1のCNN562及び第2のCNN563を備える。後述する第1,第2学習処理が実行された状態において、第1のCNN562は第1学習処理により構築されたネットワークであり、第2のCNN563は第1のCNN562と同一の層構成を有するネットワークに対して第1のCNN562の状態(重みパラメータ等の値)を適用し、その状態で第2学習処理を行って構築されたネットワークである。すなわち、第2のCNN563は第1学習処理後に第2学習処理を行って構築したのと同様のCNNである。
第1のCNN562及び第2のCNN563の層構成について説明する。以下では主として第1のCNN562について説明するが、第2のCNN563も同様の構成を採用することができる。なお、第1のCNN562の重みパラメータ等(第1学習処理の結果)を第2のCNN563に反映すること(詳細は後述する)を考慮すると、第1のCNN562と第2のCNN563とで層構成(層の種類、数、及び順序、各層におけるノードの数等)を同一にすることが好ましい。
中間層562Bは、畳み込み演算及びプーリング処理によって特徴量を算出する。畳み込み層564で行われる畳み込み演算はフィルタを使用した畳み込み演算により特徴マップを取得する処理であり、画像からのエッジ抽出等の特徴抽出の役割を担う。このフィルタを用いた畳み込み演算により、1つのフィルタに対して1チャンネル(1枚)の「特徴マップ」が生成される。「特徴マップ」のサイズは、畳み込みによりダウンスケーリングされ、各層で畳み込みが行われるにつれて小さくなって行く。プーリング層565で行われるプーリング処理は畳み込み演算により出力された特徴マップを縮小(または拡大)して新たな特徴マップとする処理であり、抽出された特徴が、平行移動などによる影響を受けないようにロバスト性を与える役割を担う。中間層562Bは、これらの処理を行う1または複数の層により構成することができる。
出力層562Cは、中間層562Bから出力された特徴量に基づき、入力された画像(通常光画像、特殊光画像)に映っている注目領域の位置検出を行ってその結果を出力する層である。セグメンテーションを行う場合、出力層562Cは、中間層562Bから得られる「特徴マップ」により、画像に写っている注目領域の位置を画素レベルで把握する。すなわち、内視鏡画像の画素ごとに注目領域に属するか否かを検出し、その検出結果を出力することができる。一方、物体検出を行う場合は画素レベルでの判断は必要なく、出力層562Cが対象物の位置情報を出力する。
図4は、内視鏡システム10(画像処理装置、診断支援装置、内視鏡システム、医療画像処理装置)の外観図であり、図5は内視鏡システム10の要部構成を示すブロック図である。図4,5に示すように、内視鏡システム10は、内視鏡本体100(内視鏡)、プロセッサ200(プロセッサ、画像処理装置、医療画像処理装置)、光源装置300、及びモニタ400(表示装置)から構成される。
内視鏡本体100は、手元操作部102と、この手元操作部102に連設される挿入部104とを備える。術者(ユーザ)は手元操作部102を把持して操作し、挿入部104を被検体(生体)の体内に挿入して観察する。また、手元操作部102には送気送水ボタン141、吸引ボタン142、及び各種の機能を割り付けられる機能ボタン143、及び撮影指示操作(静止画像、動画像)を受け付ける撮影ボタン144が設けられている。挿入部104は、手元操作部102側から順に、軟性部112、湾曲部114、先端硬質部116で構成されている。すなわち、先端硬質部116の基端側に湾曲部114が接続され、湾曲部114の基端側に軟性部112が接続される。挿入部104の基端側に手元操作部102が接続される。ユーザは、手元操作部102を操作することにより湾曲部114を湾曲させて先端硬質部116の向きを上下左右に変えることができる。先端硬質部116には、撮影光学系130、照明部123、鉗子口126等が設けられる(図4,図5参照)。
図5に示すように、光源装置300は、照明用の光源310、絞り330、集光レンズ340、及び光源制御部350等から構成されており、観察光をライトガイド170に入射させる。光源310は、それぞれ赤色、緑色、青色、紫色の狭帯域光を照射する赤色光源310R、緑色光源310G、青色光源310B、及び紫色光源310Vを備えており、赤色、緑色、青色、及び紫色の狭帯域光を照射することができる。光源310による観察光の照度は光源制御部350により制御され、必要に応じて観察光の照度を下げること、及び照明を停止することができる。
光源310は白色帯域の光、または白色帯域の光として複数の波長帯域の光を発生する光源でもよいし、白色の波長帯域よりも狭い特定の波長帯域の光を発生する光源でもよい。特定の波長帯域は、可視域の青色帯域もしくは緑色帯域、あるいは可視域の赤色帯域であってもよい。特定の波長帯域が可視域の青色帯域もしくは緑色帯域である場合、390nm以上450nm以下、または530nm以上550nm以下の波長帯域を含み、かつ、390nm以上450nm以下または530nm以上550nm以下の波長帯域内にピーク波長を有していてもよい。また、特定の波長帯域が可視域の赤色帯域である場合、585nm以上615nm以下、または610nm以上730nm以下、の波長帯域を含み、かつ、特定の波長帯域の光は、585nm以上615nm以下または610nm以上730nm以下の波長帯域内にピーク波長を有していてもよい。
図5に基づきプロセッサ200の構成を説明する。プロセッサ200は、内視鏡本体100から出力される画像信号を画像入力コントローラ202を介して入力し、画像処理部204で必要な画像処理を行ってビデオ出力部206を介して出力する。これによりモニタ400(表示装置)に観察画像(生体内画像)が表示される。これらの処理はCPU210(CPU:Central Processing Unit)の制御下で行われる。通信制御部205は、図示せぬ病院内システム(HIS:Hospital Information System)や病院内LAN(Local Area Network)、及び上述した画像取得部510、第1の画像データベース601、第2の画像データベース602等、あるいは外部のシステムやネットワークとの通信制御を行う。記録部207には、被検体の画像(内視鏡画像、医療画像)、注目領域の検出及び/または分類結果を示す情報等が記録される。音声処理部209は、CPU210及び画像処理部204の制御により、注目領域の検出及び/または分類の結果に応じたメッセージ(音声)等をスピーカ209Aから出力する。
画像処理部204は、特徴量の算出、特定の周波数帯域の成分を強調または低減する処理、特定の対象(注目領域、所望の深さの血管等)を強調または目立たなくする処理等を行うことができる。また、画像処理部204は、白色帯域の光、または白色帯域の光として複数の波長帯域の光を照射して得る通常光画像に基づいて特定の波長帯域の情報を有する特殊光画像を取得する特殊光画像取得部を備えていてもよい。この場合、特定の波長帯域の信号は、通常光画像に含まれるRGB(R:赤、G:緑、B:青)あるいはCMY(C:シアン、M:マゼンタ、Y:イエロー)の色情報に基づく演算により得ることができる。また、画像処理部204は、白色帯域の光、または白色帯域の光として複数の波長帯域の光を照射して得る通常光画像と、特定の波長帯域の光を照射して得る特殊光画像との少なくとも一方に基づく演算によって、特徴量画像を生成する特徴量画像生成部を備え、医用画像(医療画像)としての特徴量画像を取得及び表示してもよい。なお、これらの機能による処理はCPU210の制御下で行われる。
上述した構成の画像処理システム1では、1つの内視鏡システム10で撮影条件や画像処理条件等を変えて「素性の異なる画像」を取得してもよいし、複数の内視鏡システム10で「素性の異なる画像」を取得してもよい。複数の内視鏡システム10どうしでシステムの特性や撮影条件等が異なるものが含まれていてもよい。また、画像取得部510等が外部のシステムからデータを取得してもよい。
上述した画像取得部510、制御部530、処理部560(第1のCNN562、第2のCNN563、誤差算出部568)、画像処理部204の機能は、各種のプロセッサ(processor)及び記録媒体を用いて実現できる。各種のプロセッサには、例えばソフトウェア(プログラム)を実行して各種の機能を実現する汎用的なプロセッサであるCPU(Central Processing Unit)が含まれる。また、上述した各種のプロセッサには、画像処理に特化したプロセッサであるGPU(Graphics Processing Unit)、FPGA(Field Programmable Gate Array)などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)も含まれる。本発明のように画像の学習や認識を行う場合は、GPUを用いた構成が効果的である。さらに、ASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路なども上述した各種のプロセッサに含まれる。
上述した構成の画像処理システム1における画像処理方法について説明する。図6,7は第1の実施形態に係る画像処理方法の手順を示すフローチャートである。なお、ユーザは操作部520を介して画像処理の実行指示や実行に必要な条件の指定を行うことができ、表示部540はこれら指示の際の画面表示、学習処理及び/または認識処理の過程、結果をモニタ542に表示することができる。
画像取得部510(学習データ取得部)は、第1の画像データベース601に記録されている通常光画像(白色光画像)の画像群から選択された第1データセットを取得する(ステップS100:第1学習処理)。第1データセットは、複数のミニバッチにより構成されるデータセットでもよい。この場合、第1のCNN562では、学習を行う際のミニバッチを単位としてデータの分布を正規化する(バッチノーマライゼーション処理)。第1データセットの取得は、操作部520を介したユーザの指示入力に応じて行ってもよい。
<第2のCNNの構築>
制御部530は、第2のCNN563に第1のCNN562の重みパラメータ(上述した第1学習処理の結果)を反映して、第2のCNN563を構築する(ステップS104:第2学習処理、CNN構築処理)。これにより、第2のCNN563は第1学習処理がなされた状態になる。
制御部530及び第2のCNN563は、第2のCNN563の各層での学習率を設定する(ステップS106:第2学習処理)。この際、第2のCNN563の入力側に近い層は学習率を大きく、出力側に近い層は学習率を小さくする(図8の(b)部分を参照)。階層型ネットワークを用いた学習及び認識では、入力に近い層は認識に必要となる特徴を抽出する特徴抽出器として機能し、出力に近い層は抽出した特徴を組み合わせて認識を行っていることが経験的に知られている。したがって、第1の実施形態のように、第2学習処理の際に第2のCNN563の入力側に近い層での学習率を出力側に近い層の学習率に対し大きく設定して学習を行うことは、素性の異なるデータセットに対して主に特徴抽出部分を再学習(調整)することに相当する。これによりデータセット間の差違を吸収することができ、単純に転移学習を行う(第1データセットについて学習を行った状態で、学習率を調整せずに第2データセットについて学習を行う)よりも効率的な学習が可能となる。
以下、第2のCNN563における学習率の設定例について説明する。
図9は、各層に入力するデータのサイズに基づいて、第2のCNN563を「入力側に近い層」と「出力側に近い層」に分ける様子を示す概念図である。図9は、第2のCNN563(階層型ネットワーク)に入力する際の画像のサイズを第1サイズとし、第1サイズより小さいサイズを第2サイズとした場合に、第2のCNN563を構成する層のうち第2サイズよりも大きいサイズのデータが入力される層(領域563Lに含まれる層)を「入力側に近い層」とし、第2サイズ以下のサイズのデータが入力される層を出力側に近い層(領域563Sに含まれる層)とする様子を示している。図中の曲線は、中間層563Bでの畳み込み処理によりデータサイズが変化していく様子を示している。
図10は、入力層563A、中間層563B、及び出力層563Cにより構成される第2のCNN563を「全結合層を含むか否か」に基づいて「入力側に近い層」と「出力側に近い層」に分ける様子を示す図である。図10の(a)部分は、全結合層566以外の層を全て「入力側に近い層」(領域563L)とし、全結合層566のみを「出力側に近い層」(領域563S)とする様子を示している。一方、図10の(b)部分は、全結合層566に加えて畳み込み層564、プーリング層565を含む層を「出力側に近い層」(領域563S)とし、残りの層を「入力側に近い層」(領域563L)とする様子を示している。制御部530及び第2のCNN563は、領域563Lに含まれる層での学習率を領域563Sに含まれる層での学習率に対し大きく設定する。
図11は、第2のCNN563を「畳み込み層を含むか否か」に基づいて「入力側に近い層」と「出力側に近い層」に分ける様子を示す図である。畳み込み層を含む層を「入力側に近い層」(領域563L)とし、全結合層566のみを「出力側に近い層」(領域563S)とする(図11に示す層構成の場合、結果として図10の(a)部分に示す例と同一の分け方になる)。制御部530及び第2のCNN563は、領域563Lに含まれる層での学習率を領域563Sに含まれる層での学習率に対し大きく設定する。
ステップS106で学習率を設定したら、上述した第1学習処理と同様の手順で第2学習処理を実行する。ステップS104で第2のCNN563が構築され第1学習処理がなされた状態になっているので、以下の処理により「第1学習処理の実行後に第2学習処理を実行する」ことになる。
第1の実施形態に係る画像処理システム1では、上述した第1,第2学習処理により構築されたCNNによる認識処理を行うことができる。認識処理においては、第1の学習処理が実行された状態の第1のCNN562が第1学習済みモデル(第1認識器)となり入力されるデータセットの認識結果(例えば、注目領域の検出結果や鑑別結果)を出力する。同様に、第1,第2の学習処理が実行された状態の第2のCNN563が第2学習済みモデル(第2認識器)となり、入力されるデータセットの認識結果を出力する。以下、認識処理の手順を説明する。
画像取得部510(データセット取得部)は、制御部530の制御により、画像で構成される認識用データセットを取得する(ステップS114:認識処理、データセット取得処理)。認識用データセットは第1の画像データベース601あるいは第2の画像データベース602に記録されている画像(白色光画像、BLI画像)で構成されていてもよいし、画像取得部510が内視鏡システム10や他のシステムから取得した画像で構成されていてもよい。画像取得部510は、「いずれのデータベース、装置、システムから認識用データセットを取得するか」を、操作部520を介したユーザの指示入力に基づいて決定してもよい。
画像取得部510(素性取得部)は、制御部530の制御により、ステップS114で取得したデータセットの素性を取得する(ステップS116:認識処理、素性取得処理)。「素性」は、具体的には例えば「データセットが、内視鏡システム10で取得され第1の画像データベース601に記録されている通常光画像(白色光画像)により構成される」という情報である。このような情報に加えて、またはこれに代えて撮像デバイスの識別情報、光源の情報、画像処理の内容、撮像部位、被検体の属性等の情報を含んでいてもよい。素性の情報は第1の画像データベース601あるいは第2の画像データベース602に記録されているものを取得してよいし、画像取得部510が内視鏡システム10や他のシステムから取得してもよい。例えば、操作部520を介してユーザが入力する、機器の設定情報から取得する(光源モードや画像処理パラメータの場合)、画像から素性を認識する認識器(例えば、画像から被検体の部位を認識する認識器)の出力結果を利用する、診断時に入力される患者情報(被検体の年齢、性別等の素性の場合)を利用する、等の態様が可能である。
制御部530(入力制御部)は、ステップS116で取得した素性に応じて、第1認識器(第1のCNN562)と第2認識器(第2のCNN563)の少なくとも一方にデータセットを入力する(図7のステップS118,S120,S124:認識処理、入力制御処理)。具体的には、制御部530は「取得したデータセットの素性が、第2学習処理に用いた第2データセットの素性よりも第1学習処理に用いた第1データセットの素性に近いか否か」を判断する(ステップS118:認識処理、入力制御処理)。「取得したデータセットの素性が第1学習処理に用いた第1データセットの素性に近い」場合(上述した例では、認識用データセットが白色光画像により構成される場合)はステップS118の判断が肯定され、制御部530は第1認識器(第1のCNN562)にデータセットを入力する(ステップS120:認識処理、入力制御処理)。ステップS118の判断が否定された場合は、制御部530は第2認識器(第2のCNN563)にデータセットを入力する(ステップS124:認識処理、入力制御処理)。
データセットが入力された第1認識器または第2認識器は、認識結果を出力する(ステップS122、ステップS126:認識処理、出力処理)。認識結果は、例えば注目領域の検出結果や鑑別結果をモニタ542に表示することにより、及び/または記録部550に記録することにより出力される。出力の内容は認識器の構成(注目領域の検出、鑑別、その他)により異なる。認識結果を出力すると、制御部530は認識処理が終了したか否かを判断し(ステップS128:認識処理)、判断が肯定されるまでステップS114からS126の処理をくり返す。ステップS128の判断が肯定されたら認識処理を終了する。
上述した第1の実施形態では、画像処理装置500で学習及び認識を行う場合について説明したが、画像処理装置500の構成を内視鏡システム10(例えばプロセッサ200の画像処理部204)に含めてもよい。また、第1の画像データベース601、第2の画像データベース602をプロセッサ200の記録部207に含めてもよい。また、第1の実施形態では通常光画像(白色光画像)及び短波長狭帯域光画像(BLI画像)を用いた学習及び認識について説明したが、通常光画像と他の狭帯域光画像(例えば、LCI画像等の長波長狭帯域光画像)を用いて学習及び認識を行ってもよい。また、素性の異なる複数の通常光画像、あるいは素性が異なる複数の狭帯域光画像を用いて学習及び認識を行ってもよい。複数の狭帯域光画像を用いる場合、狭帯域光の組み合わせとしては複数の青色狭帯域光、青色狭帯域光と紫色狭帯域光、複数の赤色狭帯域光等を用いることができる。
10 内視鏡システム
100 内視鏡本体
102 手元操作部
104 挿入部
106 ユニバーサルケーブル
108 ライトガイドコネクタ
112 軟性部
114 湾曲部
116 先端硬質部
116A 先端側端面
123 照明部
123A 照明用レンズ
123B 照明用レンズ
126 鉗子口
130 撮影光学系
132 撮影レンズ
134 撮像素子
136 駆動回路
138 AFE
141 送気送水ボタン
142 吸引ボタン
143 機能ボタン
144 撮影ボタン
170 ライトガイド
200 プロセッサ
202 画像入力コントローラ
204 画像処理部
205 通信制御部
206 ビデオ出力部
207 記録部
208 操作部
209 音声処理部
209A スピーカ
210 CPU
211 ROM
212 RAM
300 光源装置
310 光源
310B 青色光源
310G 緑色光源
310R 赤色光源
310V 紫色光源
330 絞り
340 集光レンズ
350 光源制御部
400 モニタ
500 画像処理装置
510 画像取得部
520 操作部
530 制御部
540 表示部
542 モニタ
550 記録部
560 処理部
562 第1のCNN
562A 入力層
562B 中間層
562C 出力層
563 第2のCNN
563A 入力層
563B 中間層
563C 出力層
563E 領域
563L 領域
563S 領域
564 畳み込み層
565 プーリング層
566 全結合層
568 誤差算出部
601 第1の画像データベース
602 第2の画像データベース
F1 フィルタ
F2 フィルタ
Fn フィルタ
S100〜S128 画像処理方法の各ステップ
内視鏡を用いた観察や検査を行う場合、ユーザは通常光(白色光)を観察光として取得された画像をモニタに表示させて確認するケースが多い。観察や検査の目的、状況(例えば、通常光では病変の構造が観察しづらい)により狭帯域光等の特殊光を観察光として画像を取得するケースもあるが、通常光と比較すると観察光としての使用頻度が低く、そのため特殊光画像は通常光画像よりも著しく数が少ない場合が多い。機械学習により画像の学習及び/または認識を行う場合、特殊光画像についても学習及び/または認識を行う必要があるが、データ数が少ないと通常光画像と比較して学習及び/または認識の精度が低下するおそれがある。このような状況に鑑み、第1の実施形態では後述する学習処理により素性が異なるデータを効率的に学習及び/または認識できるようにしている。
画像取得部510は、外部サーバ、データベース等とネットワークを介して通信する装置等により構成され、学習や認識に用いる内視鏡画像及び/または正解データを第1の画像データベース601、第2の画像データベース602から取得する。画像取得部510は、図示せぬネットワークで画像処理システム1と接続された内視鏡システム、病院内サーバ等からも内視鏡画像を取得することができる。操作部520は図示せぬキーボード、マウス等の入力デバイスを備え、ユーザはこれらデバイスを介して画像取得、学習や認識等の処理に必要な操作を行うことができる。制御部530は記録部550に記録された各種プログラムを読み込み、操作部520から入力される指令にしたがって、画像処理システム1全体の動作を制御する。また制御部530は、後述する誤差算出部568が算出した誤差(損失)を第1のCNN562及び/または第2のCNN563(CNN:Convolutional Neural Network、畳み込みニューラルネットワーク)に逆伝搬することにより、これらCNNの重みパラメータを更新する。
Claims (16)
- 画像を受け付けて前記画像の特徴量を出力する階層型ネットワークを備える画像処理装置の画像処理方法であって、
第1画像群から選択された第1データセットを前記階層型ネットワークに入力して学習させる第1学習処理を実行し、
前記第1学習処理の実行後に、前記第1画像群とは素性が異なる第2画像群から選択された第2データセットを前記階層型ネットワークに入力して学習させる第2学習処理であって、前記階層型ネットワークの入力側に近い層での学習率を出力側に近い層の学習率に対し大きく設定して学習を行う第2学習処理を実行する、
画像処理方法。 - 前記第1学習処理と前記第2学習処理とでは撮像デバイスが異なる画像により構成されるデータセットを入力する請求項1に記載の画像処理方法。
- 前記第1学習処理と前記第2学習処理とでは異なる画像処理が施された画像により構成されるデータセットを入力する請求項1または2に記載の画像処理方法。
- 前記第1学習処理と前記第2学習処理とでは被検体の異なる部位を撮像して得られた画像により構成されるデータセットを入力する請求項1から3のいずれか1項に記載の画像処理方法。
- 前記第1学習処理と前記第2学習処理とでは被検体の属性が異なる画像により構成されるデータセットを入力する請求項1から4のいずれか1項に記載の画像処理方法。
- 前記第1学習処理及び前記第2学習処理では医療画像により構成されるデータセットを入力する請求項1から5のいずれか1項に記載の画像処理方法。
- 前記第1学習処理及び前記第2学習処理では観察光の波長バランスが異なる内視鏡画像により構成されるデータセットを入力する請求項6に記載の画像処理方法。
- 前記階層型ネットワークは畳み込みニューラルネットワークである請求項1から7のいずれか1項に記載の画像処理方法。
- 前記階層型ネットワークに入力する際の画像のサイズを第1サイズとし、前記第1サイズより小さいサイズを第2サイズとした場合に、
前記第2学習処理では、前記階層型ネットワークを構成する層のうち前記第2サイズよりも大きいサイズのデータが入力される層を前記入力側に近い層とし、前記階層型ネットワークを構成する層のうち前記第2サイズ以下のサイズのデータが入力される層を前記出力側に近い層として、前記入力側に近い層での前記学習率を前記出力側に近い層での前記学習率に対し大きく設定して学習を行う請求項1から8のいずれか1項に記載の画像処理方法。 - 前記階層型ネットワークは畳み込み層と全結合層とを有し、
前記第2学習処理では、前記階層型ネットワークを構成する層のうち前記全結合層を含まない層を前記入力側に近い層とし、前記階層型ネットワークを構成する層のうち前記全結合層を含む層を前記出力側に近い層として、前記入力側に近い層での前記学習率を前記出力側に近い層での前記学習率に対し大きく設定して学習を行う請求項1から9のいずれか1項に記載の画像処理方法。 - 前記階層型ネットワークは畳み込み層と全結合層とを有し、
前記第2学習処理では、前記階層型ネットワークを構成する層のうち前記畳み込み層を含む層を前記入力側に近い層とし、前記階層型ネットワークを構成する層のうち前記畳み込み層を含まない層を前記出力側に近い層として、前記入力側に近い層での前記学習率を前記出力側に近い層での前記学習率に対し大きく設定して学習を行う請求項1から10のいずれか1項に記載の画像処理方法。 - 前記第1学習処理では、前記第2データセットより多くの数の画像により構成されるデータセットを前記第1データセットとして前記学習を行う請求項1から11のいずれか1項に記載の画像処理方法。
- 画像で構成されるデータセットを取得するデータセット取得処理と、
前記画像の素性を取得する素性取得処理と、
前記第1学習処理により得られる第1学習済みモデルを有し、入力されるデータセットの認識結果を出力する第1認識器と、前記第1学習処理及び前記第2学習処理により得られる第2学習済みモデルを有し、入力されるデータセットの認識結果を出力する第2認識器と、のうち少なくとも一方に、前記素性に応じて前記取得した前記データセットを入力する入力制御処理と、
を行う請求項1から12のいずれか1項に記載の画像処理方法。 - 第1画像群から選択された第1データセット及び前記第1画像群とは素性が異なる第2画像群から選択された第2データセットを取得する学習データ取得部と、
前記第1データセットまたは前記第2データセットを受け付けて特徴量を出力する階層型ネットワークと、
前記第1データセットまたは前記第2データセットを前記階層型ネットワークに入力して学習させる学習制御部と、
を備え、
前記学習制御部は、前記第1データセットを前記階層型ネットワークに入力して学習させる第1学習処理を実行し、前記第1学習処理の実行後に、前記第2データセットを前記階層型ネットワークに入力して学習させる第2学習処理であって、前記階層型ネットワークの入力側に近い層での学習率を出力側に近い層の学習率に対し大きく設定して学習させる第2学習処理を実行する画像処理装置。 - 前記第1学習処理では、前記第2データセットより多くの数の画像により構成されるデータセットを前記第1データセットとして前記学習を行う請求項14に記載の画像処理装置。
- 画像で構成されるデータセットを取得するデータセット取得部と、
前記データセットの素性を取得する素性取得部と、
前記第1学習処理により得られる第1学習済みモデルを有し、入力されるデータセットの認識結果を出力する第1認識器と、
前記第1学習処理及び前記第2学習処理により得られる第2学習済みモデルを有し、入力されるデータセットの認識結果を出力する第2認識器と、
前記第1認識器と、前記第2認識器と、のうち少なくとも一方に、前記素性に応じて前記取得した前記データセットを入力する入力制御部と、
を備える請求項14または15に記載の画像処理装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018149388 | 2018-08-08 | ||
JP2018149388 | 2018-08-08 | ||
PCT/JP2019/030255 WO2020031851A1 (ja) | 2018-08-08 | 2019-08-01 | 画像処理方法及び画像処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020031851A1 true JPWO2020031851A1 (ja) | 2021-08-12 |
JP7062068B2 JP7062068B2 (ja) | 2022-05-02 |
Family
ID=69413670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020535717A Active JP7062068B2 (ja) | 2018-08-08 | 2019-08-01 | 画像処理方法及び画像処理装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11948080B2 (ja) |
JP (1) | JP7062068B2 (ja) |
WO (1) | WO2020031851A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020156903A (ja) * | 2019-03-27 | 2020-10-01 | Hoya株式会社 | 内視鏡用プロセッサ、情報処理装置、プログラム、情報処理方法および学習モデルの生成方法 |
WO2021156974A1 (ja) * | 2020-02-05 | 2021-08-12 | オリンパス株式会社 | 画像処理装置、画像処理方法、画像処理プログラム、表示制御装置及び内視鏡装置 |
JP7274071B2 (ja) * | 2021-03-29 | 2023-05-15 | 三菱電機株式会社 | 学習装置 |
WO2022249572A1 (ja) * | 2021-05-26 | 2022-12-01 | ソニーグループ株式会社 | 画像処理装置、画像処理方法及び記録媒体 |
WO2023084900A1 (ja) * | 2021-11-10 | 2023-05-19 | 富士フイルム株式会社 | 学習方法、学習装置、学習プログラム、及び画像処理装置 |
JP2023172341A (ja) | 2022-05-23 | 2023-12-06 | 日本電子株式会社 | マスイメージ処理装置及び方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002042107A (ja) * | 2000-07-31 | 2002-02-08 | Fuji Electric Co Ltd | ニューラルネットワークの学習方法 |
US20170032222A1 (en) * | 2015-07-30 | 2017-02-02 | Xerox Corporation | Cross-trained convolutional neural networks using multimodal images |
WO2017175282A1 (ja) * | 2016-04-04 | 2017-10-12 | オリンパス株式会社 | 学習方法、画像認識装置およびプログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6620439B2 (ja) | 2015-07-01 | 2019-12-18 | 株式会社リコー | 学習方法、プログラム及び学習装置 |
EP3433816A1 (en) * | 2016-03-22 | 2019-01-30 | URU, Inc. | Apparatus, systems, and methods for integrating digital media content into other digital media content |
US10753881B2 (en) * | 2016-05-27 | 2020-08-25 | Purdue Research Foundation | Methods and systems for crack detection |
WO2018165753A1 (en) * | 2017-03-14 | 2018-09-20 | University Of Manitoba | Structure defect detection using machine learning algorithms |
JP7276150B2 (ja) * | 2017-06-21 | 2023-05-18 | ソニーグループ株式会社 | 医用イメージングシステム、方法およびコンピュータプログラム製品 |
US11093793B2 (en) * | 2017-08-29 | 2021-08-17 | Vintra, Inc. | Systems and methods for a tailored neural network detector |
US10579897B2 (en) * | 2017-10-02 | 2020-03-03 | Xnor.ai Inc. | Image based object detection |
-
2019
- 2019-08-01 JP JP2020535717A patent/JP7062068B2/ja active Active
- 2019-08-01 WO PCT/JP2019/030255 patent/WO2020031851A1/ja active Application Filing
-
2021
- 2021-01-27 US US17/159,171 patent/US11948080B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002042107A (ja) * | 2000-07-31 | 2002-02-08 | Fuji Electric Co Ltd | ニューラルネットワークの学習方法 |
US20170032222A1 (en) * | 2015-07-30 | 2017-02-02 | Xerox Corporation | Cross-trained convolutional neural networks using multimodal images |
WO2017175282A1 (ja) * | 2016-04-04 | 2017-10-12 | オリンパス株式会社 | 学習方法、画像認識装置およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
US11948080B2 (en) | 2024-04-02 |
US20210150277A1 (en) | 2021-05-20 |
WO2020031851A1 (ja) | 2020-02-13 |
JP7062068B2 (ja) | 2022-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7062068B2 (ja) | 画像処理方法及び画像処理装置 | |
JP7278202B2 (ja) | 画像学習装置、画像学習方法、ニューラルネットワーク、及び画像分類装置 | |
US20210235980A1 (en) | Medical-use image processing device, endoscope system, and medical-use image processing method | |
WO2020162275A1 (ja) | 医療画像処理装置、内視鏡システム、及び医療画像処理方法 | |
JP7048732B2 (ja) | 画像処理装置、内視鏡システム、及び画像処理方法 | |
JP7289296B2 (ja) | 画像処理装置、内視鏡システム及び画像処理装置の作動方法 | |
JPWO2020012872A1 (ja) | 医用画像処理装置、医用画像処理システム、医用画像処理方法、及びプログラム | |
US11398033B2 (en) | Diagnosis support system, endoscope system, processor, and diagnosis support method | |
JP2022000163A (ja) | 画像処理装置、内視鏡システム、及び画像処理方法 | |
WO2020170809A1 (ja) | 医療画像処理装置、内視鏡システム、及び医療画像処理方法 | |
WO2021149552A1 (ja) | 医療画像処理装置、医療画像処理装置の作動方法、及び内視鏡システム | |
US20220285010A1 (en) | Medical image processing apparatus, medical image processing method, and program | |
US20230157768A1 (en) | Medical image processing apparatus, medical image processing method, endoscope system, and medical image processing program | |
JP7387859B2 (ja) | 医用画像処理装置、プロセッサ装置、内視鏡システム、医用画像処理装置の作動方法及びプログラム | |
WO2022228396A1 (zh) | 内窥镜多光谱图像处理系统及处理和训练方法 | |
WO2021157487A1 (ja) | 医用画像処理装置、内視鏡システム、医用画像処理方法、及びプログラム | |
WO2021153471A1 (ja) | 医療画像処理装置、医療画像処理方法、及びプログラム | |
WO2021029293A1 (ja) | 医用画像処理装置、内視鏡システム、及び医用画像処理方法 | |
US20230077690A1 (en) | Image processing device, image processing method, and program | |
WO2022064901A1 (ja) | 学習済みモデル変換方法、推論方法、学習済みモデル変換装置、学習済みモデル、及び推論装置 | |
WO2022181748A1 (ja) | 医療画像処理装置、内視鏡システム、医療画像処理方法、及び医療画像処理プログラム | |
US20230206445A1 (en) | Learning apparatus, learning method, program, trained model, and endoscope system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210209 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210209 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220413 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220419 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7062068 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |