WO2024079820A1

WO2024079820A1 - 学習装置、学習方法、プログラム、および分類装置

Info

Publication number: WO2024079820A1
Application number: PCT/JP2022/038080
Authority: WO
Inventors: 康夫尾見
Original assignee: 日本電気株式会社
Priority date: 2022-10-12
Filing date: 2022-10-12
Publication date: 2024-04-18

Abstract

推論精度がより高くなるように機械学習モデルを学習させるために、学習装置（１）は、学習用画像を取得する取得部（１１）と、学習用画像を用いて機械学習モデルを学習させる学習部（１２）と、を備え、注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、注目画像が属するクラスと同じクラスに属する学習用画像を準正例とし、注目画像が属するクラスとは異なるクラスに属する学習用画像を負例として、注目画像の特徴量と準正例の特徴量との類似度の方が、注目画像の特徴量と負例の特徴量との類似度よりも大きくなるように機械学習モデルを学習させる。

Description

学習装置、学習方法、プログラム、および分類装置

　本発明は、画像の特徴量に基づいて画像認識タスクを行う機械学習モデル（ニューラルネットワーク）を学習させる学習装置、学習方法、プログラム、および画像を分類する分類装置に関する。

　画像を入力として、当該画像に含まれる被写体の特徴に応じた推論結果を出力する機械学習モデルの学習方法が開示されている。

　特許文献１には、眼底画像等の生体画像を入力として、疾患のリスクに関するデータを学習データとして機械学習モデルを学習させる方法が開示されている。

国際公開第２０２１／０３９３３９号

　特許文献１に記載のような学習方法では通常クロスエントロピーを損失関数として用いて、機械学習モデルからの出力と正解データとの誤差を最小化するように学習する。この方法よりも画像認識タスクの種類に依存しにくい不変的な特徴量（invariant feature）を得ることができる学習方法として、対照学習（Contrastive Learning）が知られている。対照学習では、注目画像であるアンカーと正例との特徴ベクトルの内積が大きくなるように、かつアンカーと負例との特徴ベクトルの内積が小さくなるように機械学習モデルを学習させる。

　ここで、一例として、被写体として画像に含まれている検体細胞が良性細胞であるか悪性細胞であるかを推論する機械学習モデルを、対照学習によって学習させる場合を想定してみる。この場合、被写体として画像に含まれている検体細胞の種類が、アンカーの画像に被写体として含まれている細胞の種類と同じ画像を、正例とする。また、当該検体細胞の種類がアンカーの画像に被写体として含まれている細胞の種類と異なる画像を、負例とする。さらに、アンカーの画像に対して回転や上下左右反転、拡大縮小、色合い変換、切り取りなどの任意の画像拡張(Data augmentation)を行った画像も、正例とすることが望ましい。

　この場合、被写体として画像に含まれている検体細胞の種類が、アンカーの画像に被写体として含まれている良性（または悪性）細胞の種類とは異なるものの、当該検体細胞が良性（または悪性）細胞である場合も、負例となる。すなわち、細胞の小分類（腺がん、扁平上皮癌がん）は異なるが、細胞の大分類（良性または悪性）としては同じ場合も、負例となる。当該負例は、当該検体細胞とアンカーの画像に被写体として含まれている細胞と部分的に共通する特徴を有する場合がある。しかしながら、従来の対照学習では、このような場合は想定されていないため、推論精度をより高くすることができないという問題がある。

　本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、推論精度がより高くなるように機械学習モデルを学習させる技術を提供することである。

　本発明の一側面に係る学習装置は、入力画像の特徴量を生成し、画像認識タスクを行う機械学習モデルを学習させる学習装置であって、複数の学習用画像を取得する取得手段と、前記複数の学習用画像を用いて前記機械学習モデルを学習させる学習手段と、を備え、各学習用画像は、当該学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属し、かつ、前記複数のクラスのそれぞれを前記被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属し、前記学習手段は、前記複数の学習用画像に含まれる注目画像に対し、前記注目画像が属するサブクラスと同じサブクラスに属する学習用画像を正例とし、前記注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、前記注目画像が属するクラスと同じクラスに属する学習用画像を準正例とし、前記注目画像が属するクラスとは異なるクラスに属する学習用画像を負例として、前記注目画像の特徴量と前記正例の特徴量との類似度が大きくなり、前記注目画像の特徴量と前記準正例の特徴量との類似度が小さくなり、前記注目画像の特徴量と前記負例の特徴量との類似度が小さくなり、かつ、前記注目画像の特徴量と前記準正例の特徴量との類似度の方が、前記注目画像の特徴量と前記負例の特徴量との類似度よりも大きくなるように前記機械学習モデルを学習させる。

　本発明の一側面に係る学習方法は、入力画像の特徴量を生成し、画像認識タスクを行う機械学習モデルを学習させる学習装置が実行する学習方法であって、複数の学習用画像を取得することと、前記複数の学習用画像を用いて前記機械学習モデルを学習させることと、を含み、各学習用画像は、当該学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属し、かつ、前記複数のクラスのそれぞれを前記被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属し、前記学習させることにおいて、前記複数の学習用画像に含まれる注目画像に対し、前記注目画像が属するサブクラスと同じサブクラスに属する学習用画像を正例とし、前記注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、前記注目画像が属するクラスと同じクラスに属する学習用画像を準正例とし、前記注目画像が属するクラスとは異なるクラスに属する学習用画像を負例として、前記注目画像の特徴量と前記正例の特徴量との類似度が大きくなり、前記注目画像の特徴量と前記準正例の特徴量との類似度が小さくなり、前記注目画像の特徴量と前記負例の特徴量との類似度が小さくなり、かつ、前記注目画像の特徴量と前記準正例の特徴量との類似度の方が、前記注目画像の特徴量と前記負例の特徴量との類似度よりも大きくなるように前記機械学習モデルを学習させる。

　本発明の一側面に係るプログラムは、コンピュータを、入力画像の特徴量を生成し、画像認識タスクを行う機械学習モデルを学習させる学習装置として機能させるプログラムであって、前記プログラムは、前記コンピュータを、複数の学習用画像を取得する取得手段と、前記複数の学習用画像を用いて前記機械学習モデルを学習させる学習手段と、として機能させ、各学習用画像は、当該学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属し、かつ、前記複数のクラスのそれぞれを前記被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属し、前記学習手段は、前記複数の学習用画像に含まれる注目画像に対し、前記注目画像が属するサブクラスと同じサブクラスに属する学習用画像を正例とし、前記注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、前記注目画像が属するクラスと同じクラスに属する学習用画像を準正例とし、前記注目画像が属するクラスとは異なるクラスに属する学習用画像を負例として、前記注目画像の特徴量と前記正例の特徴量との類似度が大きくなり、前記注目画像の特徴量と前記準正例の特徴量との類似度が小さくなり、前記注目画像の特徴量と前記負例の特徴量との類似度が小さくなり、かつ、前記注目画像の特徴量と前記準正例の特徴量との類似度の方が、前記注目画像の特徴量と前記負例の特徴量との類似度よりも大きくなるように前記機械学習モデルを学習させる。

　本発明の一態様によれば、推論精度が高くなるように機械学習モデルを学習させることができる。

本発明の例示的実施形態１に係る学習装置の構成を示すブロック図である。本発明の例示的実施形態１に係る学習方法の流れを示すフロー図である。本発明の例示的実施形態２におけるクラスおよびサブクラスの一例を示す図である。本発明の例示的実施形態２におけるクラス、ミドルクラス、およびサブクラスの一例を示す図である。本発明の例示的実施形態２に係る学習装置の構成を示すブロック図である。本発明の例示的実施形態２に係る分類部２２の構成を示すブロック図である。本発明の各例示的実施形態に係る学習装置のハードウェア構成の一例を示すブロック図である。

　〔例示的実施形態１〕
　本発明の第１の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。

　（学習装置１の概要）
　本例示的実施形態に係る学習装置１は、画像を入力として、入力画像の特徴量を生成し、特徴量に基づいて当該画像を認識した結果を出力する画像認識タスクを行う機械学習モデルを学習させる学習装置である。画像認識タスクの一例として、画像に被写体として含まれている物体が事前に定義されたラベルの何れに属するかを識別する分類タスクが挙げられる。機械学習モデルは、一例として、ニューラルネットワークである。

　この場合、学習装置１が機械学習モデルを学習させるために用いる各学習用画像は、学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属する。さらに、学習用画像は、複数のクラスのそれぞれを被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属する。

　一例として、学習装置１は、対照学習によって機械学習モデルを学習させる。この場合、学習装置１は、学習用画像から、任意の注目画像（アンカー）を選択する。選択された注目画像が属するクラスおよびサブクラスと、各学習用画像が属するクラスおよびサブクラスとに応じて、各学習用画像は以下のように正例（ポジティブサンプル）、準正例、および負例（ネガティブサンプル）の何れかに分類される。

　注目画像に対して、注目画像が属するサブクラスと同じサブクラスに属する学習用画像を正例とする。

　注目画像に対して、注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、注目画像が属するクラスと同じクラスに属する学習用画像を準正例とする。

　注目画像に対して、注目画像が属するクラスとは異なるクラスに属する学習用画像を負例とする。

　学習装置１は、学習用画像が正例であるか、準正例であるか、および負例であるかに応じて、機械学習モデルを学習させる。一例として、学習装置１は、学習用画像が正例であるか、準正例であるか、および負例であるかに応じて、寄与が変化するような損失関数を用いて、機械学習モデルを学習させる。学習装置１が機械学習モデルを学習させる方法については、後述する。

　（学習装置１の構成）
　本例示的実施形態に係る学習装置１の構成について、図１を参照して説明する。図１は、本例示的実施形態に係る学習装置１の構成を示すブロック図である。

　学習装置１は、図１に示すように、取得部１１および学習部１２を備えている。取得部１１および学習部１２は、それぞれ本例示的実施形態において、取得手段および学習手段を実現する構成である。

　取得部１１は、複数の学習用画像を取得する。取得部１１は、取得した複数の学習用画像を、学習部１２に供給する。

　学習部１２は、取得部１１が取得した複数の学習用画像を用いて、機械学習モデルを学習させる。

　具体的には、学習部１２は、注目画像の特徴量と正例の特徴量との類似度が大きくなり、注目画像の特徴量と準正例の特徴量との類似度が小さくなり、注目画像の特徴量と負例の特徴量との類似度が小さくなり、かつ、注目画像の特徴量と準正例の特徴量との類似度の方が、注目画像の特徴量と負例の特徴量との類似度よりも大きくなるように機械学習モデルを学習させる。

　以上のように、本例示的実施形態に係る学習装置１は、入力画像の特徴量を生成し、画像認識タスクを行う機械学習モデルを学習させる学習装置１であって、複数の学習用画像を取得する取得部１１と、取得部１１が取得した複数の学習用画像を用いて機械学習モデルを学習させる学習部１２と、を備える構成が採用されている。

　また、各学習用画像は、学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属し、かつ、複数のクラスのそれぞれを被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属する。

　また、学習部１２は、複数の学習用画像に含まれる注目画像に対し、注目画像が属するサブクラスと同じサブクラスに属する学習用画像を正例とし、注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、注目画像が属するクラスと同じクラスに属する学習用画像を準正例とし、注目画像が属するクラスとは異なるクラスに属する学習用画像を負例として、次のように機械学習モデルを学習させる。

　学習部１２は、注目画像の特徴量と正例の特徴量との類似度が大きくなり、注目画像の特徴量と準正例の特徴量との類似度が小さくなり、注目画像の特徴量と負例の特徴量との類似度が小さくなり、かつ、注目画像の特徴量と準正例の特徴量との類似度の方が、注目画像の特徴量と負例の特徴量との類似度よりも大きくなるように機械学習モデルを学習させる。

　このため、本例示的実施形態に係る学習装置１によれば、注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、注目画像が属するクラスと同じクラスに属する学習用画像を準正例として、注目画像の特徴量と準正例の特徴量との類似度の方が、注目画像の特徴量と負例の特徴量との類似度よりも大きくなるように機械学習モデルを学習させる。このように、本例示的実施形態に係る学習装置１では、準正例を考慮して機械学習モデルを学習させるので、推論精度がより高くなるように機械学習モデルを学習させることができるという効果が得られる。

　（学習方法の流れ）
　本例示的実施形態に係る学習方法Ｓ１の流れについて、図２を参照して説明する。図２は、本例示的実施形態に係る学習方法Ｓ１の流れを示すフロー図である。

　（ステップＳ１１）
　ステップＳ１１において、取得部１１は、複数の学習用画像を取得する。取得部１１は、取得した複数の学習用画像を、学習部１２に供給する。

　（ステップＳ１２）
　ステップＳ１２において、学習部１２は、取得部１１が取得した複数の学習用画像を用いて、機械学習モデルを学習させる。

　具体的には、ステップＳ１２において、学習部１２は、注目画像の特徴量と正例の特徴量との類似度が大きくなり、注目画像の特徴量と準正例の特徴量との類似度が小さくなり、注目画像の特徴量と負例の特徴量との類似度が小さくなり、かつ、注目画像の特徴量と準正例の特徴量との類似度の方が、注目画像の特徴量と負例の特徴量との類似度よりも大きくなるように機械学習モデルを学習させる。

　以上のように、本例示的実施形態に係る学習方法Ｓ１は、入力画像の特徴量を生成し、画像認識タスクを行う機械学習モデルを学習させる学習装置１が実行する学習方法Ｓ１であって、ステップＳ１１において、取得部１１が複数の学習用画像を取得し、ステップＳ１２において、学習部１２が、取得部１１が取得した複数の学習用画像を用いて、機械学習モデルを学習させる構成が採用されている。

　また、ステップＳ１２において、学習部１２は、注目画像の特徴量と正例の特徴量との類似度が大きくなり、注目画像の特徴量と準正例の特徴量との類似度が小さくなり、注目画像の特徴量と負例の特徴量との類似度が小さくなり、かつ、注目画像の特徴量と準正例の特徴量との類似度の方が、注目画像の特徴量と負例の特徴量との類似度よりも大きくなるように機械学習モデルを学習させる。

　このため、本例示的実施形態に係る学習方法Ｓ１によれば、上述した学習装置１と同様の効果が得られる。

　〔例示的実施形態２〕
　本発明の第２の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。

　（分類装置２の概要）
　本例示的実施形態に係る分類装置２は、後述する第１の損失関数を用いて学習させた第１の機械学習モデルを含む第２の学習モデルであって、第２の損失関数（クロスエントロピー）を用いて学習させた第２の機械学習モデルを用いて、被写体を含む画像をクラスまたはサブクラスに分類する装置である。分類装置２は、一例として、術中迅速診（ＲＯＳＥ:Rapid On-Site Evaluation）における細胞診に用いられ得る。

　学習用画像は、学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属する。さらに、学習用画像は、複数のクラスのそれぞれを被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属する。クラスおよびサブクラスの一例を図３に示す。図３は、本例示的実施形態におけるクラスおよびサブクラスの一例を示す図である。

　図３では、画像に被写体として含まれる検体細胞が良性であるか悪性であるかに応じて、クラスに分類されることを示している。また、図３では、画像に被写体として含まれる検体細胞の種類に応じてサブクラスに分類されることを示している。図３では、例えば、クラス「良性細胞」は、複数のサブクラス「ＥＣ　正常上皮細胞」、「ＩＥＣ　炎症性のＥＣ」、「Ｍ　マクロファージ」、「ＬＣ　リンパ球」、および「ＷＢＣ　白血球」に分類されている。

　また、学習用画像は、クラスのそれぞれを複数に分類した複数のミドルクラスであって、１以上のサブクラスをグループ化した複数のミドルクラスの何れかに属してもよい。図３に示した例をさらにミドルクラスに分類した例を、図４に示す。図４は、本例示的実施形態におけるクラス、ミドルクラス、およびサブクラスの一例を示す図である。

　図４では、例えば、クラス「良性細胞」は、３つのミドルクラス「正常細胞」、「所見のある正常細胞」、および「その他の正常細胞」に分類されている。また、図４では、ミドルクラス「正常細胞」には、サブクラス「ＥＣ　正常上皮細胞」がグループ化され、ミドルクラス「所見のある正常細胞」には、サブクラス「ＩＥＣ　炎症性のＥＣ」および「Ｍ　マクロファージ」がグループ化されている。

　また、分類装置２は、第１の機械学習モデルの学習と第２の機械学習モデルの学習とを実行する。換言すると、分類装置２は、学習装置としての機能も備える。分類装置２が第１の機械学習モデルの学習と第２の機械学習モデルの学習とを実行する処理の詳細については、後述する。

　（分類装置２の構成）
　図５は、本例示的実施形態に係る分類装置２の構成を示すブロック図である。分類装置２は、図５に示すように、制御部２１、記憶部２５、通信部２６、入力部２７、および出力部２８を備えている。

　記憶部２５には、制御部２１が参照するデータが格納されている。記憶部２５に格納されているデータの一例として、学習用画像、および教師データ（教師ラベル）が挙げられる。

　通信部２６は、ネットワークを介して接続されている他の装置と通信する通信モジュールである。一例として、通信部２６は、学習用画像を受信したり、分類結果を出力したりする。

　入力部２７は、接続されている他の装置からデータを取得するインタフェースである。一例として、入力部２７は、学習用画像を取得する。

　出力部２８は、接続されている他の装置にデータを出力するインタフェースである。一例として、出力部２８は、分類結果を出力する。

　（制御部２１）
　制御部２１は、分類装置２が備える各構成要素を制御する。また、制御部２１は、図５に示すように、取得部１１、学習部１２、および分類部２２を備える。取得部１１、学習部１２、および分類部２２は、本例示的実施形態において、それぞれ取得手段、学習手段、および分類手段を実現する構成である。

　取得部１１は、通信部２６または入力部２７を介して、データを取得する。取得部１１が取得するデータの一例として、学習用画像、分類の対象となる画像が挙げられる。取得部１１は、取得したデータを記憶部２５に格納する。

　学習部１２は、第１の損失関数を用いて第１の機械学習モデルを学習させ、第２の損失関数を用いて第２の機械学習モデルを学習させる。第１の機械学習モデルは、入力画像を入力として、入力画像の特徴量を生成するＥｎｃｏｄｅｒ（特徴分析モデル）であり、第２の機械学習モデルの事前学習モデルとして使用される。第２の機械学習モデルは、第１の機械学習モデルであるＥｎｃｏｄｅｒ（第１の層群）にＣｌａｓｓｉｆｉｅｒ（分類器、第２の層群）を接続したものである。学習部１２は、図５に示すように、第１の学習部１２Ａおよび第２の学習部１２Ｂを備えている。第１の学習部１２Ａおよび第２の学習部１２Ｂは、それぞれ本例示的実施形態において、学習手段および第２の学習手段を実現する構成である。

　第１の学習部１２Ａは、記憶部２５に格納されている複数の学習用画像と、当該複数の学習用画像のそれぞれに対応する教師ラベルとを用いて、第１の機械学習モデルを学習させる。前述のように第１の機械学習モデルはＥｎｃｏｄｅｒ（特徴分析モデル）であり、第２の機械学習モデルの事前学習モデルとして使用される。

　第１の学習部１２Ａが、第１の機械学習モデルを学習させる処理の詳細については、後述する。

　第２の学習部１２Ｂは、記憶部２５に格納されている複数の学習用画像と、当該複数の学習用画像のそれぞれを前記クラスまたは前記サブクラスに分類した結果に対応する教師ラベルとを用いて、第２の機械学習モデルを学習させる。前述のように第２の機械学習モデルは、第１の機械学習モデルであるＥｎｃｏｄｅｒにＣｌａｓｓｉｆｉｅｒ（分類器）を接続したものである。第２の学習部１２Ｂが第２の機械学習モデルを学習させる方法や損失関数（第２の損失関数）は、既知の方法が用いられる。一例として、クロスエントロピーを用いて第２の機械学習モデルからの出力データと教師ラベルとの誤差を最小化する方法が挙げられる。第２の学習部１２Ｂは、主にＣｌａｓｓｉｆｉｅｒ部分を学習させるが、必要に応じてＥｎｃｏｄｅｒ部分も微調整するように学習させてもよい。

　分類部２２は、第２の機械学習モデルに対して画像を入力することにより、入力した画像をクラスまたはサブクラスに分類する。

　分類部２２の構成の一例について、図６を参照して説明する。図６は、本例示的実施形態に係る分類部２２の構成を示すブロック図である。

　図６に示すように、分類部２２は、Ｅｎｃｏｄｅｒ（特徴分析モデル）である第１の機械学習モデルと、Ｅｎｃｏｄｅｒ（特徴分析モデル）にＣｌａｓｓｉｆｉｅｒ（分類器）を接続した第２の機械学習モデルを備えている。

　第１の機械学習モデルは、被写体を含む入力画像を入力することによって、第１の損失関数によって最適化された特徴量（特徴ベクトル）を出力する。

　第２の機械学習モデルは、Ｅｎｃｏｄｅｒと、Ｅｎｃｏｄｅｒに接続され、Ｅｎｃｏｄｅｒから出力された入力画像の特徴量を入力として、入力画像をクラスまたはサブクラスに分類するＣｌａｓｓｉｆｉｅｒとを備える。第２の機械学習モデルは、Ｃｌａｓｓｉｆｉｅｒが分類したクラスまたはサブクラスを分類結果として出力する。

　（第１の機械学習モデルを学習させる処理１）
　第１の学習部１２Ａは、複数の学習用画像から、任意の注目画像（アンカー）を選択する。選択された注目画像が属するクラスおよびサブクラスと、各学習用画像が属するクラスおよびサブクラスとに応じて、各学習用画像は以下のように正例、準正例、および負例の何れかに分類される。

　注目画像に対して、準画像が属するクラスとは異なるクラスに属する学習用画像を負例とする。

　また、第１の学習部１２Ａは、注目画像をデータ拡張したデータ拡張画像を正例に追加することが望ましい。データ拡張画像の一例として、注目画像を回転させた画像、注目画像に含まれる被写体を移動させた画像、注目画像に含まれる被写体を拡大または縮小させた画像、注目画像を上下および左右方向の少なくとも何れかに反転させた画像、注目画像の一部を切り取った画像、ならびに注目画像の色相や彩度や明度を変更させた画像などが挙げられる。

　そして、第１の学習部１２Ａは、注目画像の特徴量と正例の特徴量との類似度（すなわち特徴ベクトルの内積）が大きくなり、注目画像の特徴量と準正例の特徴量との類似度が小さくなり、注目画像の特徴量と負例の特徴量との類似度が小さくなり、かつ、注目画像の特徴量と準正例の特徴量との類似度の方が、注目画像の特徴量と負例の特徴量との類似度よりも大きくなるように第１の機械学習モデルを学習させる。

　第１の学習部１２Ａは、一例として、以下の損失関数である式（１）の値が小さくなるように第１の機械学習モデルを学習させる。

Ｉ：注目画像の集合
ｉ：選択された注目画像
ｚ_ｉ：注目画像の特徴ベクトル
Ｐ（ｉ）：正例の集合
ｐ：正例
ｚ_ｐ：正例の特徴ベクトル
Ｎ（ｉ）：負例である画像の集合
ｎ：負例
ｚ_ｎ：負例の特徴ベクトル
Ｗ_ｎ：負例に付与される重み係数
Ｑ（ｉ）：準正例の集合
ｑ：準正例
ｚ_ｑ：準正例の特徴ベクトル
Ｗ_ｑ：準正例に付与される重み係数
・：内積
τ：温度パラメータ（定数）
　第１の学習部１２Ａは、損失関数である式（１）の値を小さくするため、注目画像の特徴ベクトルと正例の特徴ベクトルとの内積が大きくなるように第１の機械学習モデルを学習させる。また、第１の学習部１２Ａは、注目画像の特徴ベクトルと準正例の特徴ベクトルとの内積が小さくなるように第１の機械学習モデルを学習させる。また、第１の学習部１２Ａは、注目画像の特徴ベクトルと負例の特徴ベクトルとの内積が小さくなるように第１の機械学習モデルを学習させる。

　すなわち、式（１）において、特徴量は特徴ベクトルであり、注目画像の特徴ベクトルと正例、準正例、および負例のそれぞれの特徴ベクトルとの類似度は、注目画像の特徴ベクトルと、正例、準正例、および負例のそれぞれの特徴ベクトルとの内積に基づく。

　また、式（１）において、準正例に付与される重み係数Ｗ_ｑは、負例に付与される重み係数Ｗ_ｎより大きい値に設定されることが好ましい。この場合、式（１）の値は、注目画像の特徴ベクトルと負例の特徴ベクトルとの内積よりも、注目画像の特徴ベクトルと準正例の特徴ベクトルとの内積に応じて大きく値が変わる。換言すると、第１の学習部１２Ａは、注目画像の特徴量と準正例の特徴量との類似度の方が、注目画像の特徴量と負例の特徴量との類似度よりも大きくなるように第１の機械学習モデルを学習させることができる。

　（第１の機械学習モデルを学習させる処理２）
　上述したように、学習用画像は、クラスのそれぞれを複数に分類した複数のミドルクラスであって、１以上のサブクラスをグループ化した複数のミドルクラスの何れかに属する構成であってもよい。この場合、各学習用画像は、上述した正例、準正例、および負例に加えて、準正例は以下のように第１の準正例および第２の準正例の何れかに分類される。

　準正例のうち、注目画像が属するミドルクラスと同じミドルクラスに属する学習用画像を第１の準正例とする。

　準正例のうち、注目画像が属するミドルクラスと異なるミドルクラスに属する学習用画像を第２の準正例とする。

　そして、第１の学習部１２Ａは、注目画像の特徴量と第１の準正例の特徴量との類似度の方が、注目画像の特徴量と第２の準正例の特徴量との類似度よりも大きくなるように第１の機械学習モデルを学習させる。なお、第１の学習部１２Ａが正例および負例を用いて第１の機械学習モデルを学習させる処理は、上述した通りである。

　第１の学習部１２Ａは、一例として、以下の損失関数である式（２）の値が小さくなるように第１の機械学習モデルを学習させる。

Ｉ：注目画像の集合
ｉ：選択された注目画像
ｚ_ｉ：注目画像の特徴ベクトル
Ｐ（ｉ）：正例の集合
ｐ：正例
ｚ_ｐ：正例の特徴ベクトル
Ｎ（ｉ）：負例である画像の集合
ｎ：負例
ｚ_ｎ：負例の特徴ベクトル
Ｗ_ｎ：負例に付与される重み係数
Ｑ（ｉ）：準正例の集合
ｑ１：第１の準正例
ｚ_ｑ１：第１の準正例の特徴ベクトル
Ｗ_ｑ１：第１の準正例に付与される重み係数
ｑ２：第２の準正例
ｚ_ｑ２：第２の準正例の特徴ベクトル
Ｗ_ｑ２：第２の準正例に付与される重み係数
・：内積
τ：温度パラメータ（定数）
　第１の学習部１２Ａは、損失関数である式（２）の値を小さくするために、注目画像の特徴ベクトルと第１の準正例の特徴ベクトルとの内積が小さくなるように第１の機械学習モデルを学習させる。さらに、第１の学習部１２Ａは、注目画像の特徴ベクトルと第２の準正例の特徴ベクトルとの内積が小さくなるように第１の機械学習モデルを学習させる。なお、上述したように、正例については、第１の学習部１２Ａは、注目画像の特徴ベクトルと正例の特徴ベクトルとの内積が大きくなるように第１の機械学習モデルを学習させる。また、負例については、第１の学習部１２Ａは、注目画像の特報ベクトルと負例の特徴ベクトルとの内積が小さくなるように第１の機械学習モデルを学習させる。

　また、式（２）において、第１の準正例に付与される重み係数Ｗ_ｑ１は、第２の準正例に付与される重み係数Ｗ_ｑ２より大きい値に設定されることが好ましい。この場合、式（２）の値は、注目画像の特徴ベクトルと第２の準正例の特徴ベクトルとの内積よりも、注目画像の特徴ベクトルと第１の準正例の特徴ベクトルとの内積に応じて大きく値が変わる。換言すると、第１の学習部１２Ａは、注目画像の特徴量と第１の準正例の特徴量との類似度の方が、注目画像の特徴量と第２の準正例の特徴量との類似度よりも大きくなるように第１の機械学習モデルを学習させることができる。

　（分類装置２の効果）
　以上のように、本例示的実施形態に係る分類装置２においては、各学習用画像は、さらに、複数のクラスのそれぞれを複数に分類した複数のミドルクラスであって、１以上のサブクラスをグループ化した複数のミドルクラスの何れかに属する構成が採用されている。そして、本例示的実施形態に係る分類装置２においては、準正例のうち、注目画像が属するミドルクラスと同じミドルクラスに属する学習用画像を第１の準正例とし、準正例のうち、注目画像が属するミドルクラスと異なるミドルクラスに属する学習用画像を第２の準正例とし、注目画像の特徴量と第１の準正例の特徴量との類似度の方が、注目画像の特徴量と第２の準正例の特徴量との類似度よりも大きくなるように機械学習モデルを学習させる。

　このため、本例示的実施形態に係る分類装置２によれば、準正例をさらに分類した第１の準正例と第２の準正例とを考慮して機械学習モデルを学習させるので、推論精度がより高くなるように機械学習モデルを学習させることができるという効果が得られる。

　〔ソフトウェアによる実現例〕
　学習装置１および分類装置２の一部又は全部の機能は、集積回路（ＩＣチップ）等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。

　後者の場合、学習装置１および分類装置２は、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例（以下、コンピュータＣと記載する）を図７に示す。コンピュータＣは、少なくとも１つのプロセッサＣ１と、少なくとも１つのメモリＣ２と、を備えている。メモリＣ２には、コンピュータＣを学習装置１および分類装置２として動作させるためのプログラムＰが記録されている。コンピュータＣにおいて、プロセッサＣ１は、プログラムＰをメモリＣ２から読み取って実行することにより、学習装置１および分類装置２の各機能が実現される。

　プロセッサＣ１としては、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、ＦＰＵ（Floating point number Processing Unit）、ＰＰＵ（Physics Processing Unit）、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリＣ２としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、又は、これらの組み合わせなどを用いることができる。

　なお、コンピュータＣは、プログラムＰを実行時に展開したり、各種データを一時的に記憶したりするためのＲＡＭ（Random Access Memory）を更に備えていてもよい。また、コンピュータＣは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータＣは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。

　また、プログラムＰは、コンピュータＣが読み取り可能な、一時的でない有形の記録媒体Ｍに記録することができる。このような記録媒体Ｍとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータＣは、このような記録媒体Ｍを介してプログラムＰを取得することができる。また、プログラムＰは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータＣは、このような伝送媒体を介してプログラムＰを取得することもできる。

　〔付記事項１〕
　本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。

　〔付記事項２〕
　上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。

　（付記１）
　入力画像の特徴量を生成し、画像認識タスクを行う機械学習モデルを学習させる学習装置であって、複数の学習用画像を取得する取得手段と、前記複数の学習用画像を用いて前記機械学習モデルを学習させる学習手段と、を備え、各学習用画像は、当該学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属し、かつ、前記複数のクラスのそれぞれを前記被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属し、前記学習手段は、前記複数の学習用画像に含まれる注目画像に対し、前記注目画像が属するサブクラスと同じサブクラスに属する学習用画像を正例とし、前記注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、前記注目画像が属するクラスと同じクラスに属する学習用画像を準正例とし、前記注目画像が属するクラスとは異なるクラスに属する学習用画像を負例として、前記注目画像の特徴量と前記正例の特徴量との類似度が大きくなり、前記注目画像の特徴量と前記準正例の特徴量との類似度が小さくなり、前記注目画像の特徴量と前記負例の特徴量との類似度が小さくなり、かつ、前記注目画像の特徴量と前記準正例の特徴量との類似度の方が、前記注目画像の特徴量と前記負例の特徴量との類似度よりも大きくなるように前記機械学習モデルを学習させる、学習装置。

　（付記２）
　前記特徴量は、特徴ベクトルであり、前記注目画像の特徴ベクトルと前記正例、前記準正例および前記負例のそれぞれの特徴ベクトルとの類似度は、前記注目画像の特徴ベクトルと、前記正例、前記準正例および前記負例のそれぞれの特徴ベクトルとの内積に基づく、付記１に記載の学習装置。

　（付記３）
　各学習用画像は、さらに、前記複数のクラスのそれぞれを複数に分類した複数のミドルクラスであって、１以上の前記サブクラスをグループ化した複数のミドルクラスの何れかに属し、前記学習手段はさらに、前記準正例のうち、前記注目画像が属するミドルクラスと同じミドルクラスに属する学習用画像を第１の準正例とし、前記準正例のうち、前記注目画像が属するミドルクラスと異なるミドルクラスに属する学習用画像を第２の準正例とし、前記注目画像の特徴量と前記第１の準正例の特徴量との類似度の方が、前記注目画像の特徴量と前記第２の準正例の特徴量との類似度よりも大きくなるように前記機械学習モデルを学習させる、付記１または２に記載の学習装置。

　（付記４）
　前記学習用画像に含まれる被写体は検体細胞であり、前記検体細胞が良性であるか悪性であるかに応じてクラスに分類され、前記検体細胞の種類に応じてサブクラスに分類される、付記１～３の何れかに記載の学習装置。

　（付記５）
　前記学習手段はさらに、前記注目画像をデータ拡張したデータ拡張画像を正例とする、付記１～４の何れかに記載の学習装置。

　（付記６）
　前記機械学習モデルは、前記入力画像を入力として、前記入力画像の特徴量を生成する第１の層群と、前記第１の層群に接続され、前記入力画像の特徴量を入力として、前記入力画像を前記クラスまたは前記サブクラスに分類する第２の層群と、を備え、前記学習手段はさらに、複数の学習用画像と、当該複数の学習用画像のそれぞれを前記クラスまたは前記サブクラスに分類した結果に対応する教師ラベルとを用いて前記機械学習モデルを学習させる、
付記１～５の何れか１項に記載の学習装置。

　（付記７）
　付記１～６の何れかに記載の学習装置が学習させた前記機械学習モデルに対して、被写体を含む画像を入力することにより、前記画像を前記クラスまたは前記サブクラスに分類する分類手段、を備える分類装置。

　（付記８）
　入力画像の特徴量を生成し、画像認識タスクを行う機械学習モデルを学習させる学習装置が実行する学習方法であって、複数の学習用画像を取得することと、前記複数の学習用画像を用いて前記機械学習モデルを学習させることと、を含み、各学習用画像は、当該学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属し、かつ、前記複数のクラスのそれぞれを前記被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属し、前記学習させることにおいて、前記複数の学習用画像に含まれる注目画像に対し、前記注目画像が属するサブクラスと同じサブクラスに属する学習用画像を正例とし、前記注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、前記注目画像が属するクラスと同じクラスに属する学習用画像を準正例とし、前記注目画像が属するクラスとは異なるクラスに属する学習用画像を負例として、前記注目画像の特徴量と前記正例の特徴量との類似度が大きくなり、前記注目画像の特徴量と前記準正例の特徴量との類似度が小さくなり、前記注目画像の特徴量と前記負例の特徴量との類似度が小さくなり、かつ、前記注目画像の特徴量と前記準正例の特徴量との類似度の方が、前記注目画像の特徴量と前記負例の特徴量との類似度よりも大きくなるように前記機械学習モデルを学習させる、学習方法。

　（付記９）
　コンピュータを、入力画像の特徴量を生成し、画像認識タスクを行う機械学習モデルを学習させる学習装置として機能させるプログラムであって、前記プログラムは、前記コンピュータを、複数の学習用画像を取得する取得手段と、前記複数の学習用画像を用いて前記機械学習モデルを学習させる学習手段と、として機能させ、各学習用画像は、当該学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属し、かつ、前記複数のクラスのそれぞれを前記被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属し、前記学習手段は、前記複数の学習用画像に含まれる注目画像に対し、前記注目画像が属するサブクラスと同じサブクラスに属する学習用画像を正例とし、前記注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、前記注目画像が属するクラスと同じクラスに属する学習用画像を準正例とし、前記注目画像が属するクラスとは異なるクラスに属する学習用画像を負例として、前記注目画像の特徴量と前記正例の特徴量との類似度が大きくなり、前記注目画像の特徴量と前記準正例の特徴量との類似度が小さくなり、前記注目画像の特徴量と前記負例の特徴量との類似度が小さくなり、かつ、前記注目画像の特徴量と前記準正例の特徴量との類似度の方が、前記注目画像の特徴量と前記負例の特徴量との類似度よりも大きくなるように前記機械学習モデルを学習させる、プログラム。

　〔付記事項３〕
　上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。

　入力画像の特徴量を生成し、画像認識タスクを行う機械学習モデルを学習させる学習装置は、少なくとも１つのプロセッサを備え、前記プロセッサは、複数の学習用画像を取得する取得処理と、前記複数の学習用画像を用いて前記機械学習モデルを学習させる学習手段処理とを実行し、各学習用画像は、当該学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属し、かつ、前記複数のクラスのそれぞれを前記被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属し、前記学習処理では、前記複数の学習用画像に含まれる注目画像に対し、前記注目画像が属するサブクラスと同じサブクラスに属する学習用画像を正例とし、前記注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、前記注目画像が属するクラスと同じクラスに属する学習用画像を準正例とし、前記注目画像が属するクラスとは異なるクラスに属する学習用画像を負例として、前記注目画像の特徴量と前記正例の特徴量との類似度が大きくなり、前記注目画像の特徴量と前記準正例の特徴量との類似度が小さくなり、前記注目画像の特徴量と前記負例の特徴量との類似度が小さくなり、かつ、前記注目画像の特徴量と前記準正例の特徴量との類似度の方が、前記注目画像の特徴量と前記負例の特徴量との類似度よりも大きくなるように前記機械学習モデルを学習させる、学習装置。

　なお、この学習装置は、更にメモリを備えていてもよく、このメモリには、前記取得処理と、前記学習処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。

　１　学習装置
　２　分類装置
　１１　取得部
　１２　学習部
　１２Ａ　第１の学習部
　１２Ｂ　第２の学習部
　２２　分類部

Claims

　入力画像の特徴量を生成し、画像認識タスクを行う機械学習モデルを学習させる学習装置であって、
　複数の学習用画像を取得する取得手段と、
　前記複数の学習用画像を用いて前記機械学習モデルを学習させる学習手段と、を備え、
　各学習用画像は、当該学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属し、かつ、前記複数のクラスのそれぞれを前記被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属し、
　前記学習手段は、
　前記複数の学習用画像に含まれる注目画像に対し、
　　前記注目画像が属するサブクラスと同じサブクラスに属する学習用画像を正例とし、
　　前記注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、前記注目画像が属するクラスと同じクラスに属する学習用画像を準正例とし、
　　前記注目画像が属するクラスとは異なるクラスに属する学習用画像を負例として、
　　前記注目画像の特徴量と前記正例の特徴量との類似度が大きくなり、
　　前記注目画像の特徴量と前記準正例の特徴量との類似度が小さくなり、
　　前記注目画像の特徴量と前記負例の特徴量との類似度が小さくなり、かつ、
　　前記注目画像の特徴量と前記準正例の特徴量との類似度の方が、前記注目画像の特徴量と前記負例の特徴量との類似度よりも大きくなるように前記機械学習モデルを学習させる、
学習装置。
　前記特徴量は、特徴ベクトルであり、
　前記注目画像の特徴ベクトルと前記正例、前記準正例および前記負例のそれぞれの特徴ベクトルとの類似度は、前記注目画像の特徴ベクトルと、前記正例、前記準正例および前記負例のそれぞれの特徴ベクトルとの内積に基づく、
請求項１に記載の学習装置。
　各学習用画像は、さらに、前記複数のクラスのそれぞれを複数に分類した複数のミドルクラスであって、１以上の前記サブクラスをグループ化した複数のミドルクラスの何れかに属し、
　前記学習手段はさらに、
　　前記準正例のうち、前記注目画像が属するミドルクラスと同じミドルクラスに属する学習用画像を第１の準正例とし、
　　前記準正例のうち、前記注目画像が属するミドルクラスと異なるミドルクラスに属する学習用画像を第２の準正例とし、
　　前記注目画像の特徴量と前記第１の準正例の特徴量との類似度の方が、前記注目画像の特徴量と前記第２の準正例の特徴量との類似度よりも大きくなるように前記機械学習モデルを学習させる、
請求項１または２に記載の学習装置。
　前記学習用画像に含まれる被写体は検体細胞であり、
　前記検体細胞が良性であるか悪性であるかに応じてクラスに分類され、
　前記検体細胞の種類に応じてサブクラスに分類される、
請求項１～３の何れか１項に記載の学習装置。
　前記学習手段はさらに、
　前記注目画像をデータ拡張したデータ拡張画像を正例とする、
請求項１～４の何れか１項に記載の学習装置。
　前記機械学習モデルは、
　　前記入力画像を入力として、前記入力画像の特徴量を生成する第１の層群と、
　　前記第１の層群に接続され、前記入力画像の特徴量を入力として、前記入力画像を前記クラスまたは前記サブクラスに分類する第２の層群と、
　を備え、
　前記学習手段はさらに、複数の学習用画像と、当該複数の学習用画像のそれぞれを前記クラスまたは前記サブクラスに分類した結果に対応する教師ラベルとを用いて前記機械学習モデルを学習させる、
請求項１～５の何れか１項に記載の学習装置。
　請求項１～６の何れか１項に記載の学習装置が学習させた前記機械学習モデルに対して、被写体を含む画像を入力することにより、前記画像を前記クラスまたは前記サブクラスに分類する分類手段、
を備える分類装置。
　入力画像の特徴量を生成し、画像認識タスクを行う機械学習モデルを学習させる学習装置が実行する学習方法であって、
　複数の学習用画像を取得することと、
　前記複数の学習用画像を用いて前記機械学習モデルを学習させることと、を含み、
　各学習用画像は、当該学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属し、かつ、前記複数のクラスのそれぞれを前記被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属し、
　前記学習させることにおいて、
　前記複数の学習用画像に含まれる注目画像に対し、
　　前記注目画像が属するサブクラスと同じサブクラスに属する学習用画像を正例とし、
　　前記注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、前記注目画像が属するクラスと同じクラスに属する学習用画像を準正例とし、
　　前記注目画像が属するクラスとは異なるクラスに属する学習用画像を負例として、
　　前記注目画像の特徴量と前記正例の特徴量との類似度が大きくなり、
　　前記注目画像の特徴量と前記準正例の特徴量との類似度が小さくなり、
　　前記注目画像の特徴量と前記負例の特徴量との類似度が小さくなり、かつ、
　　前記注目画像の特徴量と前記準正例の特徴量との類似度の方が、前記注目画像の特徴量と前記負例の特徴量との類似度よりも大きくなるように前記機械学習モデルを学習させる、
学習方法。
　コンピュータを、入力画像の特徴量を生成し、画像認識タスクを行う機械学習モデルを学習させる学習装置として機能させるプログラムであって、
　前記プログラムは、前記コンピュータを、
　複数の学習用画像を取得する取得手段と、
　前記複数の学習用画像を用いて前記機械学習モデルを学習させる学習手段と、として機能させ、
　各学習用画像は、当該学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属し、かつ、前記複数のクラスのそれぞれを前記被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属し、
　前記学習手段は、
　前記複数の学習用画像に含まれる注目画像に対し、
　　前記注目画像が属するサブクラスと同じサブクラスに属する学習用画像を正例とし、
　　前記注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、前記注目画像が属するクラスと同じクラスに属する学習用画像を準正例とし、
　　前記注目画像が属するクラスとは異なるクラスに属する学習用画像を負例として、
　　前記注目画像の特徴量と前記正例の特徴量との類似度が大きくなり、
　　前記注目画像の特徴量と前記準正例の特徴量との類似度が小さくなり、
　　前記注目画像の特徴量と前記負例の特徴量との類似度が小さくなり、かつ、
　　前記注目画像の特徴量と前記準正例の特徴量との類似度の方が、前記注目画像の特徴量と前記負例の特徴量との類似度よりも大きくなるように前記機械学習モデルを学習させる、
プログラム。