JPWO2020003434A1 - 機械学習方法、機械学習装置、及び機械学習プログラム - Google Patents

機械学習方法、機械学習装置、及び機械学習プログラム Download PDF

Info

Publication number
JPWO2020003434A1
JPWO2020003434A1 JP2020526802A JP2020526802A JPWO2020003434A1 JP WO2020003434 A1 JPWO2020003434 A1 JP WO2020003434A1 JP 2020526802 A JP2020526802 A JP 2020526802A JP 2020526802 A JP2020526802 A JP 2020526802A JP WO2020003434 A1 JPWO2020003434 A1 JP WO2020003434A1
Authority
JP
Japan
Prior art keywords
image
learning
machine learning
learning model
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020526802A
Other languages
English (en)
Other versions
JP6977886B2 (ja
Inventor
▲高▼橋 渉
渉 ▲高▼橋
翔太 押川
翔太 押川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shimadzu Corp
Original Assignee
Shimadzu Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shimadzu Corp filed Critical Shimadzu Corp
Publication of JPWO2020003434A1 publication Critical patent/JPWO2020003434A1/ja
Application granted granted Critical
Publication of JP6977886B2 publication Critical patent/JP6977886B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

フルサイズの学習画像は画像縮小部(11)で縮小されてFCN(全層畳み込みニューラルネットワーク)演算部(13)に入力され、FCN演算部(13)は設定されたフィルタ係数の下での演算を行い縮小ラベル画像を出力する。縮小ラベル画像は画像拡大部(14)でフルサイズまで拡大され、誤差計算部(15)はその拡大されたラベル画像とフルサイズの正解画像との誤差を損失関数に基づいて計算し、パラメータ更新部(16)はその誤差に応じてフィルタ係数を更新する。学習制御部(17)の制御により学習を繰り返すことで、画像拡大時に生じる誤差を含んで最適なセグメンテーションを実行するような学習モデルを作成することができる。また、学習モデルに画像拡大処理を含むことで、フルサイズのラベル画像を出力することができ、モデルの精度評価も高い精度で行うことができる。

Description

本発明は、画像情報を対象とする機械学習方法、機械学習装置、及び機械学習用のコンピュータプログラムに関し、さらに詳しくは、教師有り機械学習により画像に対するセマンティックセグメンテーションを実行する学習モデルを作成するための機械学習方法、機械学習装置、及び機械学習プログラムに関する。
近年、自動運転、医療用画像診断など様々な分野において、機械学習、特にディープラーニング(深層学習)を用いたセマンティックセグメンテーション等の画像処理技術が利用されている。ディーラーニングを用いた画像処理では、畳み込みニューラルネットワーク(Convolutional Neural Network:以下「CNN」と略す )が広く利用されている。CNNは、通常、複数のフィルタによる畳み込み処理によって画像の特徴を抽出する畳み込み層と、一定領域の応答を集約するプーリング処理によって局所的なデータの位置不変性を与えるプーリング層と、畳み込み層及びプーリング層により特徴部分が抽出された画像データを一つのノードに結合し、活性化関数によって変換された値(特徴変数)を出力する全結合層と、を有する。また、最近では、CNNを構成する全結合層を畳み込み層にする全層(又は完全)畳み込みニューラルネットワーク(Fully Convolutional Neural Network:以下「FCN」と略す)が提案され(非特許文献1参照)、特にセマンティックセグメンテーションにおける応用が進んでいる。
いずれにしても上記CNN、FCNを含む機械学習では一般に、入力データxに対しパラメータwを用いてモデル関数f(w,x)を構築し、該モデル関数における予め用意された正解データに対する損失を定義して、該損失を最小化するようにパラメータwを修正することで適切なモデル関数を求める。こうした手法は誤差逆伝播法(Back Propagation)としてよく知られている。セマンティックセグメンテーションにおいて、上記正解データとは入力画像を正しくセグメンテーションした結果であるラベル画像を構成するデータである。
一般に、画像データを対象とするディープラーニングの学習ではその計算量が膨大になる。そこで、通常、入力された画像データは画像計算処理に特化するように設計されたGPU(Graphics Processing Unit)で処理される。ただし、その場合でも、一度に多量の画像を処理することは難しいため、入力される画像を所定の枚数毎に区切り、その区切られたひとまとまりの画像毎に損失関数を計算するという処理が実施される。ひとまとまりとされる画像の枚数はバッチサイズと呼ばれ、機械学習の際の一つの重要なパラメータとして予め設定される。
バッチサイズを大きくすると学習が速く進んで効率的であるものの、GPUのメモリ容量の制約のために設定可能なバッチサイズには制約がある。また、入力画像のサイズが極端に大きい場合には、バッチサイズを最小値に設定しても学習に必要なデータサイズがGPUのメモリ容量を超えてしまい処理を実行できない場合がある。例えば本出願人らはPCT/JP2018/008483号、PCT/JP2018/009046号等において、ホログラフィック顕微鏡により得られた細胞観察画像に対し機械学習を適用して、多能性幹細胞を培養する過程で発生する未分化逸脱細胞を識別する方法を提案している。こうした場合、元の細胞観察画像は非常に高精細で且つ撮影範囲も広いために画像データのサイズは膨大であり、それに伴って学習時に使用する一時メモリサイズも膨大となるため、1枚の画像の学習に必要なデータサイズがGPUのメモリ容量を超えてしまうことがある。
そこで従来は、バッチサイズをできるだけ大きくするため、或いは、データサイズが極端に大きな画像を処理するために、入力された画像とこれに対応する正解画像のサイズを同じように縮小し、その縮小された画像を用いて学習を実施するという方法が採られている。画像縮小のアルゴリズムとしては、バイリニア補間法、バイキュービック補間法、最近傍法、ランチョス(Lanczos)補間法などが知られている。
ジョナサン・ロング(Jonathan Long)、ほか2名、「フーリー・コンボリューショナル・ネットワークス・フォー・セマンティック・セグメンテーション(Fully Convolutional Networks for Semantic Segmentation)」、ザ・アイトリプルイー・カンファレンス・オン・コンピュータ・ビジョン・アンド・パターン・リコグニション(The IEEE Conference on Computer Vision and Pattern Recognition)、2015年、pp.3431-3440、(インターネット<URL: https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf>)
しかしながら、上記従来の機械学習方法では次のような問題がある。
機械学習では、学習画像及び正解画像を用いた学習により学習モデルが作成されたあと、その学習モデルが適切であるかどうかの精度評価が実施されるのが一般的である。この学習モデルの精度評価の際には、テスト画像とこれに対応する正解画像とが用いられるが、該テスト画像を学習モデルに入力した結果として該学習モデルから出力されるラベル画像は縮小された画像である。そのため、その縮小されたラベル画像をバイリニア補間法等により拡大して正解画像と同じフルサイズの画像に戻したうえで、両画像を比較して評価が行われる。ところが、縮小されたラベル画像を拡大する際に生じる画素信号の誤差のために両画像間の微細な領域での差異が顕在化し、評価精度が低下してしまう場合がある。
本発明は上記課題を解決するためになされたものであり、その目的とするところは、学習時に入力画像のサイズが大きく画像を縮小する必要がある場合であっても、フルサイズの高精度のラベル画像が出力される学習モデルを作成することができる機械学習方法、機械学習装置、及び機械学習プログラムを提供することである。
上記課題を解決するために成された本発明に係る機械学習方法は、機械学習を用いて入力画像に対するセマンティックセグメンテーションを行うための学習モデルを作成する機械学習方法であって、
a)入力された学習画像のサイズを縮小する画像縮小ステップと、
b)複数の縮小された学習画像を用い、所定のパラメータに基づく学習モデルに従ってラベル画像を生成するラベル画像生成ステップ、該ラベル画像を前記入力された学習画像のサイズまで拡大する画像拡大ステップ、及び、該拡大されたラベル画像と前記学習画像に対応する正解画像とに基づき損失関数による誤差を求め該誤差に応じて前記パラメータを更新するパラメータ更新ステップと、を含み、該ラベル画像生成ステップ、該画像拡大ステップ及び該パラメータ更新ステップを繰り返し行うことで前記学習モデルを逐次的に改良する学習実行ステップと、
を有し、前記学習実行ステップにおいて改良された学習モデルに前記画像拡大ステップによる拡大処理を加えた拡大学習モデルをセマンティックセグメンテーションを行うための学習モデルとして得ることを特徴としている。
また上記課題を解決するために成された本発明に係る機械学習装置は、機械学習を用いて入力画像に対するセマンティックセグメンテーションを行うための学習モデルを作成する機械学習装置であって、
a)入力された学習画像のサイズを縮小する画像縮小部と、
b)複数の縮小された学習画像を用い、所定のパラメータに基づく学習モデルに従ってラベル画像を生成するラベル画像生成部、該ラベル画像を前記入力された学習画像のサイズまで拡大する画像拡大部、該拡大されたラベル画像と前記学習画像に対応する正解画像とに基づき損失関数による誤差を求め該誤差に応じて前記パラメータを更新するパラメータ更新部、及び、それら各部による処理を繰り返し行うことで前記学習モデルを逐次的に改良する繰り返し制御部と、を含む学習実行部と、
を備え、前記学習実行部において改良された学習モデルに前記画像拡大部による拡大処理を加えた拡大学習モデルをセマンティックセグメンテーションを行うための学習モデルとして得ることを特徴としている。
さらにまた上記課題を解決するために成された本発明に係る機械学習プログラムは、機械学習を用いて入力画像に対するセマンティックセグメンテーションを行うための学習モデルをコンピュータ上で作成する機械学習プログラムであって、
コンピュータを、
a)入力された学習画像のサイズを縮小する画像縮小機能部と、
b)複数の縮小された学習画像を用い、所定のパラメータに基づく学習モデルに従ってラベル画像を生成するラベル画像生成機能部、該ラベル画像を前記入力された学習画像のサイズまで拡大する画像拡大機能部、該拡大されたラベル画像と前記学習画像に対応する正解画像とに基づき損失関数による誤差を求め該誤差に応じて前記パラメータを更新するパラメータ更新機能部、及び、それら各機能部による処理を繰り返し行うことで前記学習モデルを逐次的に改良する繰り返し制御機能部と、を含む学習実行機能部と、
して動作させ、前記学習実行機能部において改良された学習モデルに前記画像拡大機能部による拡大処理を加えた拡大学習モデルをセマンティックセグメンテーションを行うための学習モデルとして得ることを特徴としている。
本発明における機械学習の手法は、学習モデルに基づいて画像のセマンティックセグメンテーションが可能であれば特にその方法やアルゴリズムを問わず、例えば、前述のFCN、CNNを含むディープラーニングのほか、サポートベクターマシン(Support Vector Machine:SVM)、ランダムフォレスト(Random Forest)、アダブースト(AdaBoost)などが挙げられる。
本発明では、学習モデルを作成するための画像として、同じサイズ(フルサイズ)の学習画像と正解画像とを一組とする複数(通常はかなり多数)組の画像が入力される。正解画像は学習画像に対して正確なセマンティックセグメンテーションが実施された結果であるラベル画像である。本発明に係る機械学習方法では、まず画像縮小ステップにより、入力されたフルサイズの学習画像が所定のサイズに縮小される。この画像縮小のアルゴリズムは特に限定されず、前述の幾つかの方法を含むいずれかの方法を用いることができる。
学習実行ステップでは、上述のように縮小された複数の学習画像を用いて機械学習を行うことにより、未知の画像に対してセマンティックセグメンテーションを行うための学習モデルを作成する。例えばFCNによるディープラーニングを行う場合、ラベル画像生成ステップでは、フィルタの係数(重み)をパラメータとする複数の畳み込み層と複数のプーリング層とを含む多層ネットワークによりラベル画像を生成するが、まずそのフィルタの係数が所定値に設定された畳み込み層を含む多層ネットワークによりラベル画像を生成する。該ネットワークへの入力画像は縮小された画像であるので、該ネットワークから出力されるラベル画像も縮小されたものである。
画像拡大ステップでは、その縮小されたラベル画像を元の学習画像のサイズ、つまりフルサイズまで拡大する。そして、パラメータ更新ステップでは、所定の損失関数を用いて拡大後のフルサイズのラベル画像と同じフルサイズの正解画像とから誤差を求め、その誤差に応じてパラメータ、つまり畳み込み層のフィルタ係数を更新する。そして、フィルタ係数が更新された多層ネットワークによりラベル画像を再び生成し、そのラベル画像を拡大して正解画像との誤差を求める、という処理を繰り返す。この繰り返しにより、フィルタ係数群つまりは学習モデルを逐次的に改良してより正確なモデルに近づける。そして、最終的な学習モデルに画像拡大ステップにおける拡大処理を加えた拡大学習モデルを、セマンティックセグメンテーションを行うための学習モデルとして取得する。
本発明では、画像拡大ステップにおける拡大処理を含んで学習が実行されるから、その拡大処理の際に発生する可能性がある画素信号の誤差等をできるだけ小さくするように学習モデルのパラメータが決定されることになる。従来の学習方法で作成される学習モデルでは、入力されたテスト画像に対して出力されるラベル画像は縮小された画像であったが、本発明において作成される学習モデルでは、出力されるラベル画像は入力されたテスト画像と同じフルサイズの画像である。そのため、学習モデルから出力されるラベル画像とフルサイズである正解画像をそのまま用いて、学習モデルの精度評価を行うことができる。
上述したように本発明によれば、入力画像のサイズを縮小して学習を行うことができるので、バッチサイズを大きくしたり、或いは、画像のサイズが極端に大きな画像も処理したりすることができる。一方、学習モデルから出力されるラベル画像は縮小画像ではなく元の入力画像と同じフルサイズの高精細な画像であるので、例えば高い精度で以て学習モデルの精度評価を行うことができる。
本発明に係る機械学習装置の一実施例のブロック構成図。 本実施例の機械学習装置におけるFCN演算部の構造の概念図。 本実施例の機械学習装置における学習時の処理の流れを示すフローチャート。
以下、本発明に係る機械学習方法、機械学習装置、及び機械学習プログラムの一実施例について、添付図面を参照して説明する。
図1は本発明に係る機械学習方法を実施するための機械学習装置の一実施例の概略ブロック構成図である。
本実施例の機械学習装置は機能ブロックとして、画像縮小部11と、FCN演算部13、画像拡大部14、誤差計算部15、及びパラメータ更新部16を含む学習実行部12と、学習制御部17と、を含む。なお、この機械学習装置はパーソナルコンピュータやより性能の高いワークステーション、或いは、そうしたコンピュータと通信回線を介して接続された高性能なコンピュータを含むコンピュータシステムをハードウェア資源とし、そうしたコンピュータ単体又はコンピュータシステムに搭載されているソフトウェアを実行することで具現化されるものとすることができる。
図2はFCN演算部13の構造の概念図である。FCNの構造や処理の詳細は非特許文献1を始めとする多くの文献に詳しく説明されている。また、米国マスワークス(MathWorks)社が提供している「MATLAB」などの市販の或いはフリーのソフトウェアを利用した実装も可能である。そのため、ここでは概略的に説明する。
図2に示すように、FCNは、例えば畳み込み層とプーリング層との繰り返しが多層化された多層ネットワーク131と、畳み込みニューラルネットワークにおける全結合層に相当する畳み込み層132と、を含む。この場合、多層ネットワーク131では、所定のサイズのフィルタ(カーネル)を用いた畳み込み処理と、畳み込み結果を2次元的に縮小して有効値を抽出するプーリング処理とを繰り返す。但し、多層ネットワーク131は、プーリング層がなく畳み込み層のみで構成されていてもよい。また、最終段の畳み込み層132では、所定のサイズのフィルタを入力画像内でスライドさせつつ局所的な畳み込み及び逆畳み込みを行う。このFCNでは、入力画像133に対してセマンティックセグメンテーションを行うことで、ラベル付けしたラベル画像134を出力することができる。
FCNによりセグメンテーションを行うには、予め多数の学習画像を用いて、多層ネットワーク131に含まれる複数の畳み込み層や最終段の畳み込み層132それぞれにおけるフィルタの係数(重み)を学習させる必要がある。次に、図3に示すフローチャートに従って、本実施例の機械学習装置において学習を行う際の動作を説明する。ここでは一般的に機械学習でしばしば用いられている確率的勾配降下法を利用した学習を行う。この方法は、与えられた多数の学習データを予め定めたミニバッチ単位で区切りつつ学習を繰り返す方法であり、学習データがランダムにシャッフルされることにより、局所解にはまりにくくなるという利点がある。
学習の際には、セグメンテーションの対象である学習画像と、この学習画像に対して適切にセグメンテーションがなされた結果のラベル画像である正解画像とを一組とするセット画像が多数用いられる。ここでは、説明の便宜上、学習画像と正解画像との組はMであるものとする。
学習制御部17は、予め決められているバッチサイズに応じて、複数のミニバッチに割り当てる学習画像をランダムに決定する(ステップS1)。ここでは、ミニバッチの数はNであり、一つのミニバッチに割り当てられる学習画像の数はnであるとする。
画像縮小部11は学習制御部17で決められた割当てに従って、一つのミニバッチに含まれるn枚の学習画像を読み込み、各画像のサイズを所定のサイズに縮小する。次に、学習実行部12は縮小された複数の学習画像と元の学習画像にそれぞれ対応する正解画像とに基づいて、FCNの学習を実行する(ステップS13)。
具体的には、まずパラメータ更新部16により初期的に設定されたフィルタ係数の下でFCN演算部13は入力画像に対する処理を実行しセグメンテーションの結果であるラベル画像を出力する。入力画像は縮小画像であるから、出力されるラベル画像も縮小画像である。画像拡大部14は複数のラベル画像それぞれについて、元の学習画像と同じフルサイズまで画像のサイズを拡大する。誤差計算部15は拡大されたラベル画像とそれに対応する正解画像とに基づき、所定の損失関数による誤差を算出する。即ち、この誤差を計算する際には、ラベル画像、正解画像共にフルサイズの画像である。パラメータ更新部16は算出された誤差に基づいて、FCN演算部13におけるフィルタ係数を更新する。これにより、同じ入力画像に対するFCN演算部13における処理の結果、つまりはラベル画像が変化する。学習制御部17はこのようなルーチンを例えば誤差が所定の許容範囲に収まるまで繰り返すことで、一つのミニバッチに基づくFCN演算部13のフィルタ係数を学習する。即ち、誤差逆伝播法によりFCN演算部13のフィルタ係数を学習する。
そのあと、学習制御部17は全てのミニバッチについての学習が終了したか否かを判定する(ステップS14)。ステップS14でNoと判定された場合には、ステップS11で学習画像の割当てが決められた複数のミニバッチの中で未だ学習が済んでいないものがあるから、ステップS12に戻る。そして、学習制御部17の制御の下で画像縮小部11は別の一つのミニバッチに含まれる学習画像を読み込んで縮小する。したがって、ステップS12〜S14の処理はミニバッチの数Nだけ繰り返される。
上記ステップS14でYesと判定されると、学習制御部17は、ステップS11の処理を予め決められたエポック数だけ繰り返したか否かを判定する(ステップS15)。このステップS15でNoと判定された場合には、ステップS15からS11へと戻り、学習制御部17は再び複数のミニバッチに割り当てる学習画像をランダムに決定する。したがって、各ミニバッチに割り当てられる学習画像はシャッフルされることになる。エポック数は予め適宜に決められるが、通常、例えば1000回或いは1万回など大きな値である。即ち、このエポック数だけステップS11〜S15の処理が繰り返され、その繰り返しの過程でFCN演算部13のフィルタ係数の学習が進められる。そして、ステップS15でYesと判定されると学習を終了する。そして、その学習結果を学習済みのモデルとして保存する(ステップS16)。
上述したようにFCN演算部13のフィルタ係数を学習する際のループには、画像拡大部14における拡大処理が含まれる。通常、拡大処理では縮小処理を逆の操作を行うが、補間により生成される画素信号には誤差が避けられないが、本実施例の機械学習装置では、この画像拡大の際に生じる誤差も含めてFCNによる学習モデルが作成される。したがって、ここで作成される学習モデルは画像拡大部14における拡大処理を含んだモデルである。即ち、このFCNと、そのFCNの出力であるラベル画像を拡大する拡大処理を合わせた拡大学習モデルが、入力画像に対するセマンティックセグメンテーションを行うための学習モデルであり、この学習モデルの出力はフルサイズのラベル画像である。
これにより、例えばテスト画像を用いて、作成された学習モデルの精度を評価する際に、入力されたテスト画像に対して出力されるフルサイズのラベル画像とテスト画像に対応するフルサイズの正解画像とを用いて高精度な評価を行うことができる。
なお、上記実施例では、セマンティックセグメンテーションのための機械学習法としてFCNを用いていたが、通常のCNNでもよいことは明らかである。また、ニューラルネットワークを用いた機械学習法に限らず、画像についてのセグメンテーションが可能な機械学習法であれば本発明を適用することが有効である。こうした機械学習法としては、例えばサポートベクターマシン、ランダムフォレスト、アダブーストなどがある。
また、上記実施例はあくまでも本発明の一例にすぎず、本発明の趣旨の範囲でさらに適宜変形、修正、追加を行っても本願特許請求の範囲に包含されることは明らかである。
11…画像縮小部
12…学習実行部
13…FCN演算部
131…多層ネットワーク
132…畳み込み層
14…画像拡大部
15…誤差計算部
16…パラメータ更新部
17…学習制御部
近年、自動運転、医療用画像診断など様々な分野において、機械学習、特にディープラーニング(深層学習)を用いたセマンティックセグメンテーション等の画像処理技術が利用されている。ディーラーニングを用いた画像処理では、畳み込みニューラルネットワーク(Convolutional Neural Network:以下「CNN」と略す )が広く利用されている。CNNは、通常、複数のフィルタによる畳み込み処理によって画像の特徴を抽出する畳み込み層と、一定領域の応答を集約するプーリング処理によって局所的なデータの位置不変性を与えるプーリング層と、畳み込み層及びプーリング層により特徴部分が抽出された画像データを一つのノードに結合し、活性化関数によって変換された値(特徴変数)を出力する全結合層と、を有する。また、最近では、CNNを構成する全結合層を畳み込み層にする全層(又は完全)畳み込みニューラルネットワーク(Fully Convolutional Neural Network:以下「FCN」と略す)が提案され(非特許文献1参照)、特にセマンティックセグメンテーションにおける応用が進んでいる。
学習の際には、セグメンテーションの対象である学習画像と、この学習画像に対して適切にセグメンテーションがなされた結果のラベル画像である正解画像とを一組とするセット画像が多数用いられる
上述したようにFCN演算部13のフィルタ係数を学習する際のループには、画像拡大部14における拡大処理が含まれる。通常、拡大処理では縮小処理逆の操作を行うが、補間により生成される画素信号には誤差が避けられないが、本実施例の機械学習装置では、この画像拡大の際に生じる誤差も含めてFCNによる学習モデルが作成される。したがって、ここで作成される学習モデルは画像拡大部14における拡大処理を含んだモデルである。即ち、このFCNと、そのFCNの出力であるラベル画像を拡大する拡大処理を合わせた拡大学習モデルが、入力画像に対するセマンティックセグメンテーションを行うための学習モデルであり、この学習モデルの出力はフルサイズのラベル画像である。

Claims (6)

  1. 機械学習を用いて入力画像に対するセマンティックセグメンテーションを行うための学習モデルを作成する機械学習方法であって、
    a)入力された学習画像のサイズを縮小する画像縮小ステップと、
    b)複数の縮小された学習画像を用い、所定のパラメータに基づく学習モデルに従ってラベル画像を生成するラベル画像生成ステップ、該ラベル画像を前記入力された学習画像のサイズまで拡大する画像拡大ステップ、及び、該拡大されたラベル画像と前記学習画像に対応する正解画像とに基づき損失関数による誤差を求め該誤差に応じて前記パラメータを更新するパラメータ更新ステップと、を含み、該ラベル画像生成ステップ、該画像拡大ステップ及び該パラメータ更新ステップを繰り返し行うことで前記学習モデルを逐次的に改良する学習実行ステップと、
    を有し、前記学習実行ステップにおいて改良された学習モデルに前記画像拡大ステップによる拡大処理を加えた拡大学習モデルをセマンティックセグメンテーションを行うための学習モデルとして得ることを特徴とする機械学習方法。
  2. 請求項1に記載の機械学習方法であって、
    前記機械学習は畳み込みニューラルネットワークを用いたディープラーニングであることを特徴とする機械学習方法。
  3. 機械学習を用いて入力画像に対するセマンティックセグメンテーションを行うための学習モデルを作成する機械学習装置であって、
    a)入力された学習画像のサイズを縮小する画像縮小部と、
    b)複数の縮小された学習画像を用い、所定のパラメータに基づく学習モデルに従ってラベル画像を生成するラベル画像生成部、該ラベル画像を前記入力された学習画像のサイズまで拡大する画像拡大部、該拡大されたラベル画像と前記学習画像に対応する正解画像とに基づき損失関数による誤差を求め該誤差に応じて前記パラメータを更新するパラメータ更新部、及び、それら各部による処理を繰り返し行うことで前記学習モデルを逐次的に改良する繰り返し制御部と、を含む学習実行部と、
    を備え、前記学習実行部において改良された学習モデルに前記画像拡大部による拡大処理を加えた拡大学習モデルをセマンティックセグメンテーションを行うための学習モデルとして得ることを特徴とする機械学習装置。
  4. 請求項3に記載の機械学習装置であって、
    前記機械学習は畳み込みニューラルネットワークを用いたディープラーニングであることを特徴とする機械学習装置。
  5. 機械学習を用いて入力画像に対するセマンティックセグメンテーションを行うための学習モデルをコンピュータ上で作成する機械学習プログラムであって、
    コンピュータを、
    a)入力された学習画像のサイズを縮小する画像縮小機能部と、
    b)複数の縮小された学習画像を用い、所定のパラメータに基づく学習モデルに従ってラベル画像を生成するラベル画像生成機能部、該ラベル画像を前記入力された学習画像のサイズまで拡大する画像拡大機能部、該拡大されたラベル画像と前記学習画像に対応する正解画像とに基づき損失関数による誤差を求め該誤差に応じて前記パラメータを更新するパラメータ更新機能部、及び、それら各機能部による処理を繰り返し行うことで前記学習モデルを逐次的に改良する繰り返し制御機能部と、を含む学習実行機能部と、
    して動作させ、前記学習実行機能部において改良された学習モデルに前記画像拡大機能部による拡大処理を加えた拡大学習モデルをセマンティックセグメンテーションを行うための学習モデルとして得ることを特徴とする機械学習プログラム。
  6. 請求項5に記載の機械学習プログラムであって、
    前記機械学習は畳み込みニューラルネットワークを用いたディープラーニングであることを特徴とする機械学習プログラム。
JP2020526802A 2018-06-28 2018-06-28 機械学習方法、機械学習装置、及び機械学習プログラム Active JP6977886B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/024566 WO2020003434A1 (ja) 2018-06-28 2018-06-28 機械学習方法、機械学習装置、及び機械学習プログラム

Publications (2)

Publication Number Publication Date
JPWO2020003434A1 true JPWO2020003434A1 (ja) 2021-01-07
JP6977886B2 JP6977886B2 (ja) 2021-12-08

Family

ID=68986315

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020526802A Active JP6977886B2 (ja) 2018-06-28 2018-06-28 機械学習方法、機械学習装置、及び機械学習プログラム

Country Status (4)

Country Link
US (1) US11176672B1 (ja)
JP (1) JP6977886B2 (ja)
CN (1) CN112262394B (ja)
WO (1) WO2020003434A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7210380B2 (ja) * 2019-06-04 2023-01-23 京セラ株式会社 画像学習プログラム、画像学習方法、及び画像認識装置
CN111612803B (zh) * 2020-04-30 2023-10-17 杭州电子科技大学 一种基于图像清晰度的车辆图像语义分割方法
CN114693694A (zh) * 2020-12-25 2022-07-01 日本电气株式会社 图像处理的方法、设备和计算机可读存储介质
WO2023038074A1 (ja) * 2021-09-13 2023-03-16 株式会社島津製作所 細胞画像の学習時におけるメモリ容量判定システムおよび細胞画像の学習時におけるメモリ容量判定方法
JP7321577B2 (ja) * 2021-11-10 2023-08-07 株式会社アクセル 情報処理装置、情報処理方法、及びプログラム
WO2023157439A1 (ja) * 2022-02-18 2023-08-24 富士フイルム株式会社 画像処理装置及びその作動方法、推論装置並びに学習装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3814353B2 (ja) * 1996-11-20 2006-08-30 キヤノン株式会社 画像分割方法および画像分割装置
JP3767667B2 (ja) * 1999-08-18 2006-04-19 富士ゼロックス株式会社 画像処理装置
US9785866B2 (en) * 2015-01-22 2017-10-10 Microsoft Technology Licensing, Llc Optimizing multi-class multimedia data classification using negative data
US9824189B2 (en) * 2015-01-23 2017-11-21 Panasonic Intellectual Property Management Co., Ltd. Image processing apparatus, image processing method, image display system, and storage medium
US11071501B2 (en) * 2015-08-14 2021-07-27 Elucid Bioiwaging Inc. Quantitative imaging for determining time to adverse event (TTE)
CN106874921B (zh) * 2015-12-11 2020-12-04 清华大学 图像分类方法和装置
CN106023220B (zh) * 2016-05-26 2018-10-19 史方 一种基于深度学习的车辆外观部件图像分割方法
CN106920243B (zh) * 2017-03-09 2019-12-17 桂林电子科技大学 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
US10997462B2 (en) * 2018-04-04 2021-05-04 Canon Virginia, Inc. Devices, systems, and methods for clustering reference images for non-destructive testing

Also Published As

Publication number Publication date
CN112262394B (zh) 2024-01-16
CN112262394A (zh) 2021-01-22
WO2020003434A1 (ja) 2020-01-02
US20210358129A1 (en) 2021-11-18
US11176672B1 (en) 2021-11-16
JP6977886B2 (ja) 2021-12-08

Similar Documents

Publication Publication Date Title
JP6977886B2 (ja) 機械学習方法、機械学習装置、及び機械学習プログラム
US11093669B2 (en) Method and system for quantum computing
US10755162B2 (en) Method and apparatus to reduce neural network
Chen et al. Graph unrolling networks: Interpretable neural networks for graph signal denoising
van Wyk et al. Evolutionary neural architecture search for image restoration
JP2019056975A (ja) 改良型敵対的生成ネットワーク実現プログラム、改良型敵対的生成ネットワーク実現装置及び学習済モデル生成方法
Giovannangeli et al. Toward automatic comparison of visualization techniques: Application to graph visualization
Wei et al. Deep unfolding with normalizing flow priors for inverse problems
JP6832252B2 (ja) 超解像装置およびプログラム
KR102329546B1 (ko) 뉴럴 네트워크 및 비국소적 블록을 이용하여 세그멘테이션을 수행하는 질병 진단 시스템 및 방법
Guo et al. Circuit synthesis using generative adversarial networks (GANs)
Suganuma et al. Designing convolutional neural network architectures using cartesian genetic programming
WO2020256698A1 (en) Dynamic image resolution assessment
CN111753980A (zh) 将第一图像的特征转移到第二图像的方法
Lima et al. Automatic design of deep neural networks applied to image segmentation problems
Liu et al. Densely connected stacked u-network for filament segmentation in microscopy images
JP2023078578A (ja) 画像処理装置、学習システム、および、学習方法
Gharehchopogh et al. A novel approach for edge detection in images based on cellular learning automata
KR20210061800A (ko) 희소 신경망 생성 방법 및 이를 위한 시스템
Raumanns et al. ENHANCE (ENriching Health data by ANnotations of Crowd and Experts): A case study for skin lesion classification
Yuan et al. MMSR: a multi-model super resolution framework
Christopher et al. Projected Generative Diffusion Models for Constraint Satisfaction
Bourqui et al. Toward automatic comparison of visualization techniques: application to graph visualization
Skaruz et al. Two-dimensional patterns and images reconstruction with use of cellular automata
JP2020030702A (ja) 学習装置、学習方法及び学習プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200706

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210902

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211012

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211025

R151 Written notification of patent or utility model registration

Ref document number: 6977886

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151