WO2021176605A1

WO2021176605A1 - 学習データ作成システム及び学習データ作成方法

Info

Publication number: WO2021176605A1
Application number: PCT/JP2020/009215
Authority: WO
Inventors: 淳安藤
Original assignee: オリンパス株式会社
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2021-09-10
Also published as: JPWO2021176605A1; US20230011053A1; JP7298010B2; CN115210751A

Abstract

学習データ作成システム（１０）は、取得部（１１０）と第１ニューラルネットワーク（１２１）と第２ニューラルネットワーク（１２２）と特徴マップ合成部（１３０）と出力誤差算出部（１４０）とニューラルネットワーク更新部（１５０）とを含む。第１ニューラルネットワークは、第１画像（ＩＭ１）が入力されることで第１特徴マップ（ＭＡＰ１）を生成し、第２画像（ＩＭ２）が入力されることで第２特徴マップ（ＭＡＰ２）を生成する。特徴マップ合成部は、第１特徴マップの一部を第２特徴マップの一部で差し替えることで合成特徴マップ（ＳＭＡＰ）を生成する。第２ニューラルネットワークは、合成特徴マップに基づいて出力情報（ＮＮＱ）を生成する。出力誤差算出部は、出力情報、第１正解情報（ＴＤ１）、及び第２正解情報（ＴＤ２）に基づいて出力誤差（ＥＲＱ）を算出する。

Description

学習データ作成システム及び学習データ作成方法

　本発明は、学習データ作成システム及び学習データ作成方法等に関する。

　ディープラーニングによってＡＩ（Artificial Intelligence）の精度を高めるには大量の学習データが必要である。大量の学習データを用意するために、オリジナルの学習データを元にして学習データを水増しする手法が知られている。学習データを水増しする手法として、非特許文献１にManifold Mixupが開示されている。この手法では、異なる２枚の画像をＣＮＮ（Convolutional Neural Network）に入力し、ＣＮＮの中間層の出力である特徴マップを取り出し、１枚目の画像の特徴マップと２枚目の画像の特徴マップとを重み付け加算することで特徴マップを合成し、その合成した特徴マップを次の中間層の入力とする。２枚のオリジナル画像による学習に加えて、中間層において特徴マップを合成する学習が行われるので、結果的に学習データが水増しされている。

Vikas Verma, Alex Lamb, Christopher Beckham, Amir Najafi, Ioannis Mitliagkas, Aaron Courville, David Lopez-Paz and Yoshua Bengio: "Manifold Mixup: Better Representations by Interpolating Hidden States", arXiv: 1806.05236 (2018)

　上記の従来技術では、ＣＮＮの中間層において２枚の画像の特徴マップを重み付け加算するため、各画像の特徴マップに含まれるテクスチャ情報が失われてしまう。例えば、特徴マップを重み付け加算することで、テクスチャの細かな違いが潰れてしまう。このため、画像に含まれるテクスチャに基づいて対象を画像認識する場合には、従来技術の水増し手法を用いて学習を行ったとしても、認識の精度が十分に上がらないという課題がある。例えば、超音波画像等の医療画像から病変鑑別を行う際には、画像に写る病変のテクスチャの微妙な差を認識できることが重要になる。

　本開示の一態様は、第１画像、第２画像、前記第１画像に対応する第１正解情報、及び前記第２画像に対応する第２正解情報を取得する取得部と、前記第１画像が入力されることで第１特徴マップを生成し、前記第２画像が入力されることで第２特徴マップを生成する第１ニューラルネットワークと、前記第１特徴マップの一部を前記第２特徴マップの一部で差し替えることで合成特徴マップを生成する特徴マップ合成部と、前記合成特徴マップに基づいて出力情報を生成する第２ニューラルネットワークと、前記出力情報、前記第１正解情報、及び前記第２正解情報に基づいて出力誤差を算出する出力誤差算出部と、前記出力誤差に基づいて前記第１ニューラルネットワーク及び前記第２ニューラルネットワークを更新するニューラルネットワーク更新部と、を含む学習データ作成システムに関係する。

　本開示の他の態様は、第１画像、第２画像、前記第１画像に対応する第１正解情報、及び前記第２画像に対応する第２正解情報を取得することと、前記第１画像が第１ニューラルネットワークに入力されることで第１特徴マップを生成し、前記第２画像が前記第１ニューラルネットワークに入力されることで第２特徴マップを生成することと、前記第１特徴マップの一部を前記第２特徴マップの一部で差し替えることで合成特徴マップを生成することと、第２ニューラルネットワークが前記合成特徴マップに基づいて出力情報を生成することと、前記出力情報、前記第１正解情報、及び前記第２正解情報に基づいて出力誤差を算出することと、前記出力誤差に基づいて前記第１ニューラルネットワーク及び前記第２ニューラルネットワークを更新することと、を含む学習データ作成方法に関係する。

Manifold Mixupの説明図。学習データ作成システムの第１構成例。学習データ作成システムの処理を説明する図。第１構成例において処理部が行う処理のフローチャート。第１構成例において処理部が行う処理を模式的に示した図。病変に対する画像認識のシミュレーション結果。学習データ作成システムの第２構成例。第２構成例において処理部が行う処理のフローチャート。第２構成例において処理部が行う処理を模式的に示した図。ＣＮＮの全体構成例。畳み込み処理の例。ＣＮＮが出力する認識結果の例。超音波画像を学習データ作成システムに入力する場合のシステム構成例。超音波診断システムにおけるニューラルネットワークの構成例。

　以下、本実施形態について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。

　１．第１構成例
　ディープラーニングを用いた認識処理では、過学習を避けるために大量の学習データが必要である。しかし、医療画像のように、認識に必要な大量の学習データを集めることが困難な場合がある。例えば、希少病変の画像は、その症例自体が少ないことから学習データを大量に収集することが難しい。或いは、医療画像に教師ラベルを付す必要があるが、専門的な知識が必要であること等から、大量の画像に教師ラベルを付すことが難しい。

　このような問題に対して、既存の学習データに変形等の処理を加えることで、学習データを拡張する画像拡張が提案されている。この手法は、データオーギュメンテーションとも呼ばれる。或いは、異なるラベルをもつ２枚の画像を重み付け和によって合成した画像を学習画像に加えることでラベル間の境界付近を重点的に学習するMixupが提案されている。或いは、上述した非特許文献１のように、異なるラベルをもつ２枚の画像をＣＮＮの中間層で重み付け和によって合成するManifold Mixupが提案されている。主に自然画像認識でMixup及びManifold Mixupの有効性が示されている。

　図１を用いて、Manifold Mixupの手法を説明する。ニューラルネットワーク５は、畳み込み処理を用いた画像認識を行うＣＮＮ（Convolutional Neural Network）である。学習後の画像認識では、ニューラルネットワーク５は、１枚の入力画像に対して１つのスコアマップを出力する。一方、学習時には、ニューラルネットワーク５に２枚の入力画像を入力し、中間層において特徴マップの合成を行うことで学習データの水増しが行われる。

　具体的には、ニューラルネットワーク５の入力層には、入力画像ＩＭＡ１、ＩＭＡ２が入力される。ＣＮＮの畳み込み層は、特徴マップと呼ばれる画像データを出力する。ある中間層から、入力画像ＩＭＡ１に対応した特徴マップＭＡＰＡ１と、入力画像ＩＭＡ２に対応した特徴マップＭＡＰＡ２とを取り出す。ＭＡＰＡ１は、入力層から当該中間層までのＣＮＮが入力画像ＩＭＡ１に対して適用されることによって生成された特徴マップである。特徴マップＭＡＰＡ１は複数のチャンネルを有しており、各チャンネルが、それぞれ１枚の画像データとなっている。ＭＡＰＡ２についても同様である。

　図１には、特徴マップが３つのチャンネルを有する例を示す。このチャンネルをｃｈ１～ｃｈ３とする。特徴マップＭＡＰＡ１のｃｈ１と特徴マップＭＡＰＡ２のｃｈ１が重み付け加算され、合成特徴マップＳＭＡＰＡのｃｈ１が生成される。ｃｈ２、ｃｈ３についても同様の重み付け加算が行われ、合成特徴マップＳＭＡＰＡのｃｈ２、ｃｈ３が生成される。合成特徴マップＳＭＡＰＡは、特徴マップＭＡＰＡ１、ＭＡＰＡ２が取り出された中間層の次の中間層に入力される。ニューラルネットワーク５は、出力情報ＮＮＱＡとしてスコアマップを出力し、そのスコアマップと正解情報とに基づいてニューラルネットワーク５が更新される。

　特徴マップの各チャンネルには、畳み込み処理のフィルタ重み係数に応じて様々な特徴が抽出されている。上記図１の手法では、特徴マップＭＡＰＡ１、ＭＡＰＡ２のチャンネルが重み付け加算されるので、各特徴マップが有しているテクスチャの情報が混合される。このため、テクスチャの微妙な差が適切に学習されない可能性がある。例えば超音波内視鏡画像からの病変鑑別のように、病変のテクスチャの微妙な差を認識する必要がある場合において、十分な学習効果が得られない可能性がある。

　図２は、本実施形態の学習データ作成システム１０の第１構成例である。学習データ作成システム１０は、取得部１１０と第１ニューラルネットワーク１２１と第２ニューラルネットワーク１２２と特徴マップ合成部１３０と出力誤差算出部１４０とニューラルネットワーク更新部１５０とを含む。図３は、学習データ作成システム１０の処理を説明する図である。

　取得部１１０は、第１画像ＩＭ１、第２画像ＩＭ２、第１画像ＩＭ１に対応する第１正解情報ＴＤ１、及び第２画像ＩＭ２に対応する第２正解情報ＴＤ２を取得する。第１ニューラルネットワーク１２１は、第１画像ＩＭ１が入力されることで第１特徴マップＭＡＰ１を生成し、第２画像ＩＭ２が入力されることで第２特徴マップＭＡＰ２を生成する。特徴マップ合成部１３０は、第１特徴マップＭＡＰ１の一部を第２特徴マップＭＡＰ２の一部で差し替えることで合成特徴マップＳＭＡＰを生成する。なお図３には、第１特徴マップＭＡＰ１のｃｈ２、ｃｈ３が第２特徴マップＭＡＰ２のｃｈ２、ｃｈ３で差し替えられた例を示す。第２ニューラルネットワーク１２２は、合成特徴マップＳＭＡＰに基づいて出力情報ＮＮＱを生成する。出力誤差算出部１４０は、出力情報ＮＮＱ、第１正解情報ＴＤ１、及び第２正解情報ＴＤ２に基づいて出力誤差ＥＲＱを算出する。ニューラルネットワーク更新部１５０は、出力誤差ＥＲＱに基づいて第１ニューラルネットワーク１２１及び第２ニューラルネットワーク１２２を更新する。

　ここで、「差し替える」とは、第１特徴マップＭＡＰ１の一部のチャンネル又は領域を削除し、削除した一部のチャンネル又は領域の代わりに第２特徴マップＭＡＰ２の一部のチャンネル又は領域を配置することである。合成特徴マップＳＭＡＰの側で考えれば、合成特徴マップＳＭＡＰの一部が第１特徴マップＭＡＰ１から選択され、合成特徴マップＳＭＡＰの残りの部分が第２特徴マップＭＡＰ２から選択される、とも言える。

　本実施形態によれば、第１特徴マップＭＡＰ１の一部が第２特徴マップＭＡＰ２の一部で差し替えられるので、特徴マップが有するテクスチャが重み付け加算されることなく合成特徴マップＳＭＡＰに保持される。これにより、上述の従来技術に比べてテクスチャの情報を良好に保持したまま特徴マップを合成できるので、ＡＩによる画像認識の精度を向上できる。具体的には、超音波内視鏡画像からの病変鑑別のように、病変テクスチャの微妙な差を認識する必要がある場合においても画像合成による水増し方法が活用でき、学習データが少量の場合でも高い認識性能が得られる。

　以下、第１構成例の詳細を説明する。図２に示すように、学習データ作成システム１０は、処理部１００と記憶部２００とを含む。処理部１００は、取得部１１０とニューラルネットワーク１２０と特徴マップ合成部１３０と出力誤差算出部１４０とニューラルネットワーク更新部１５０とを含む。

　学習データ作成システム１０は、例えばＰＣ（Personal Computer）等の情報処理装置である。或いは、学習データ作成システム１０は、端末装置と情報処理装置により構成されてもよい。例えば、端末装置は記憶部２００と不図示の表示部と不図示の操作部等を含み、情報処理装置は処理部１００を含み、端末装置と情報処理装置がネットワークを介して接続されてもよい。或いは、学習データ作成システム１０は、ネットワークを介して接続された複数の情報処理装置が分散処理を行うクラウドシステムであってもよい。

　記憶部２００は、ニューラルネットワーク１２０の学習に用いられる教師データを記憶する。教師データは、学習用画像と、その学習用画像に付された正解情報と、で構成される。正解情報は教師ラベルとも呼ばれる。記憶部２００は、メモリ、ハードディスクドライブ又は光学ドライブ等の記憶装置である。メモリは半導体メモリであり、ＲＡＭ等の揮発性メモリ、又はＥＰＲＯＭ等の不揮発性メモリである。

　処理部１００は、１又は複数の回路部品を含む処理回路又は処理装置である。処理部１００は、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphical Processing Unit）又はＤＳＰ（Digital Signal Processor）等のプロセッサを含む。プロセッサは、ＦＰＧＡ（Field Programmable Gate Array）又はＡＳＩＣ（Application Specific Integrated Circuit）等の集積回路装置であってもよい。処理部１００は、複数のプロセッサを含んでもよい。プロセッサは、記憶部２００に記憶されたプログラムを実行することで処理部１００の機能を実現する。プログラムには、取得部１１０、ニューラルネットワーク１２０、特徴マップ合成部１３０、出力誤差算出部１４０及びニューラルネットワーク更新部１５０の機能が記述されている。記憶部２００は、ニューラルネットワーク１２０の学習モデルを記憶している。学習モデルには、ニューラルネットワーク１２０のアルゴリズムと、その学習モデルに用いられるパラメータとが記述されている。パラメータは、ノード間の重み付け係数等である。プロセッサは、学習モデルを用いてニューラルネットワーク１２０の推論処理を実行し、学習により更新されたパラメータで、記憶部２００に記憶されたパラメータを更新する。

　図４は、第１構成例において処理部１００が行う処理のフローチャートであり、図５は、その処理を模式的に示した図である。

　ステップＳ１０１において処理部１００はニューラルネットワーク１２０を初期化する。ステップＳ１０２、Ｓ１０３において第１画像ＩＭ１と第２画像ＩＭ２が処理部１００に入力され、ステップＳ１０４、Ｓ１０５において第１正解情報ＴＤ１と第２正解情報ＴＤ２が処理部１００に入力される。ステップＳ１０２～Ｓ１０５は、図４の実行順序に限定されず順不同に実行されてもよいし、或いは並列的に実行されてもよい。

　具体的には、取得部１１０は、記憶部２００から第１画像ＩＭ１と第２画像ＩＭ２を取得する画像取得部１１１と、記憶部２００から第１正解情報ＴＤ１と第２正解情報ＴＤ２を取得する正解情報取得部１１２と、を含む。取得部１１０は、例えば、記憶部２００へのアクセスを制御するアクセス制御部である。

　図５に示すように、第１画像ＩＭ１には認識対象ＴＧ１が写り、第２画像ＩＭ２には、認識対象ＴＧ１と分類カテゴリが異なる認識対象ＴＧ２が写っている。即ち、記憶部２００は、画像認識における分類カテゴリが異なる第１学習用画像群と第２学習用画像群とを記憶している。分類カテゴリは、臓器、臓器内の部位、又は病変の分類等である。画像取得部１１１は、第１学習用画像群のうち任意の１つを第１画像ＩＭ１として取得し、第２学習用画像群のうち任意の１つを第２画像ＩＭ２として取得する。

　ステップＳ１０８において処理部１００は第１画像ＩＭ１に第１ニューラルネットワーク１２１を適用し、第１ニューラルネットワーク１２１が第１特徴マップＭＡＰ１を出力する。また、処理部１００は第２画像ＩＭ２に第１ニューラルネットワーク１２１を適用し、第１ニューラルネットワーク１２１が第２特徴マップＭＡＰ２を出力する。ステップＳ１０９において特徴マップ合成部１３０が第１特徴マップＭＡＰ１と第２特徴マップＭＡＰ２を合成し、合成特徴マップＳＭＡＰを出力する。ステップＳ１１０において、処理部１００は合成特徴マップＳＭＡＰに第２ニューラルネットワーク１２２を適用し、第２ニューラルネットワーク１２２が出力情報ＮＮＱを出力する。

　具体的には、ニューラルネットワーク１２０はＣＮＮであり、そのＣＮＮが中間層で分割されたものが第１ニューラルネットワーク１２１と第２ニューラルネットワーク１２２である。即ち、ＣＮＮの入力層から当該中間層までが第１ニューラルネットワーク１２１となり、当該中間層の次の中間層から出力層までが第２ニューラルネットワーク１２２となる。ＣＮＮは、畳み込み層、正規化層、活性化層及びプーリング層を有するが、そのいずれを境に第１ニューラルネットワーク１２１と第２ニューラルネットワーク１２２に分割されてもよい。ディープラーニングにおいて中間層は複数存在するが、そのいずれの中間層で分割するのかを、画像入力毎に異ならせてもよい。

　図５には、第１ニューラルネットワーク１２１がチャンネル数６の特徴マップを出力する例を示す。特徴マップの各チャンネルは、各画素にノードの出力値が割り当てられた画像データである。特徴マップ合成部１３０は、第１特徴マップＭＡＰ１のチャンネルｃｈ２、ｃｈ３を第２特徴マップＭＡＰ２のチャンネルｃｈ２、ｃｈ３に差し替える。即ち、合成特徴マップＳＭＡＰの一部のチャンネルｃｈ１、ｃｈ４～ｃｈ６に第１特徴マップＭＡＰ１のチャンネルｃｈ１、ｃｈ４～ｃｈ６が割り当てられ。残りの一部のチャンネルｃｈ２、ｃｈ３に第２特徴マップＭＡＰ２のチャンネルｃｈ２、ｃｈ３が割り当てられる。

　合成特徴マップＳＭＡＰに占める各特徴マップの割合を差し替え率と呼ぶこととする。第１特徴マップＭＡＰ１の差し替え率は、４／６≒０．７であり、第２特徴マップＭＡＰ２の差し替え率は、２／６≒０．３である。なお、特徴マップのチャンネル数は６に限定されない。また、どのチャンネルを差し替えるのか、及び差し替えるチャンネル数は、図５の例に限定されず、例えば画像入力毎にランダムに設定されてもよい。

　第２ニューラルネットワーク１２２が出力する出力情報ＮＮＱは、スコアマップと呼ばれるデータである。複数の分類カテゴリがある場合には、スコアマップは複数のチャンネルを有し、１つのチャンネルが１つの分類カテゴリに対応する。図５には、分類カテゴリが２つである例を示す。スコアマップの各チャンネルは、各画素に推定値が割り当てられた画像データである。推定値は、その画素に認識対象が検出された確からしさを示す値である。

　図４のステップＳ１１１において、出力誤差算出部１４０は、出力情報ＮＮＱと第１正解情報ＴＤ１と第２正解情報ＴＤ２に基づいて出力誤差ＥＲＱを求める。図５に示すように、出力誤差算出部１４０は、出力情報ＮＮＱと第１正解情報ＴＤ１の誤差を示す第１出力誤差ＥＲＲ１と、出力情報ＮＮＱと第２正解情報ＴＤ２の誤差を示す第２出力誤差ＥＲＲ２と、を求める。出力誤差算出部１４０は、第１出力誤差ＥＲＲ１と第２出力誤差ＥＲＲ２を差し替え率で重み付け加算することで出力誤差ＥＲＱを求める。図５の例では、ＥＲＱ＝ＥＲＲ１×０．７＋ＥＲＲ２＋０．３である。

　図４のステップＳ１１２において、ニューラルネットワーク更新部１５０は、出力誤差ＥＲＱに基づいてニューラルネットワーク１２０を更新する。ニューラルネットワーク１２０の更新とは、ノード間の重み付け係数等のパラメータを更新することである。更新手法としては、誤差逆伝播法等の種々の公知の手法を採用できる。ステップＳ１１３において、処理部１００は学習の終了条件を満たすか否かを判断する。終了条件は、出力誤差ＥＲＱが所定以下となったこと、或いは所定数の画像を学習したこと等である。処理部１００は、終了条件が満たされた場合には本フローの処理を終了し、終了条件が満たされていない場合にはステップＳ１０２に戻る。

　図６は、病変に対する画像認識のシミュレーション結果である。横軸は、認識対象となっている全ての分類カテゴリの病変に対する正解率である。縦軸は、認識対象となっている分類カテゴリのうち少量病変に対する正解率である。ＤＡは、単一の画像だけから学習データを水増しする従来手法のシミュレーション結果であり、ＤＢは、Manifold Mixupのシミュレーション結果であり、ＤＣは、本実施形態の手法のシミュレーション結果である。各結果に３点ずつプロットされているが、これらは少量病変の検出に対するオフセットを異ならせてシミュレーションした結果である。

　図６において、右上、即ち全体病変正解率と少量病変正解率の両方が高くなる方向にグラフがあるほど、画像認識の成績がよい。本実施形態の手法を用いたシミュレーション結果ＤＣは、従来技術を用いたシミュレーション結果ＤＡ、ＤＢよりも右上にあり、従来技術よりも高精度な画像認識が可能である。

　なお、第１特徴マップＭＡＰ１の一部が差し替えられることで、その一部に含まれる情報が失われている。しかし、中間層のチャンネル数は大きめに設定されるので、中間層の出力が持つ情報には冗長性がある。このため、差し替えによって一部の情報が失われたとしても、あまり問題にならない。

　また、特徴マップを合成する際に重み付け加算を行わなかったとしても、その後段の中間層においてチャンネル間の線形結合が行われる。しかし、この線形結合の重み付け係数は、ニューラルネットワークの学習において更新されるパラメータである。このため、テクスチャの細かい違いが失われないように、学習において重み付け係数が最適化されることが期待できる。

　以上の本実施形態によれば、第１特徴マップＭＡＰ１は、第１の複数のチャンネルを含み、第２特徴マップＭＡＰ２は、第２の複数のチャンネルを含む。特徴マップ合成部１３０は、第１の複数のチャンネルのうち一部のチャンネル全体を、第２の複数のチャンネルのうち一部のチャンネル全体で差し替える。

　このようにすれば、一部のチャンネルの全体を差し替えることで、第１特徴マップＭＡＰ１の一部を第２特徴マップＭＡＰ２の一部で差し替えることができる。各チャンネルには異なるテクスチャが抽出されているが、あるテクスチャについては第１画像ＩＭ１が選択され、他のあるテクスチャについては第２画像ＩＭ２が選択される、といった混ざり方になる。

　或いは、特徴マップ合成部１３０は、第１の複数のチャンネルに含まれるチャンネルの一部の領域を、第２の複数のチャンネルに含まれるチャンネルの一部の領域で差し替えてもよい。

　このようにすれば、チャンネル全体でなくチャンネル内の一部の領域が差し替えられる。これにより、例えば、認識対象が存在する領域のみを差し替えることで、一方の特徴マップの背景の中に他方の特徴マップの認識対象が嵌め込まれたような合成特徴マップを生成できる。或いは、認識対象の一部を差し替えることで、２つの特徴マップの認識対象を合成したような合成特徴マップを生成できる。

　特徴マップ合成部１３０は、第１の複数のチャンネルに含まれるチャンネルの帯状領域を、第２の複数のチャンネルに含まれるチャンネルの帯状領域で差し替えてもよい。なお、チャンネルの一部領域を差し替える手法は上記に限定されない。例えば、特徴マップ合成部１３０は、第１の複数のチャンネルに含まれるチャンネルにおいて周期的に設定された領域を、第２の複数のチャンネルに含まれるチャンネルにおいて周期的に設定された領域で差し替えてもよい。周期的に設定された領域は、例えば縞状の領域、或いはチェッカードパターン状の領域等である。

　このようにすれば、第１特徴マップのチャンネルと第２特徴マップのチャンネルを、各々のテクスチャを残しつつ混ぜ合わせることができる。例えば、チャンネルにおける認識対象を切り抜いて差し替えるような場合には、第１画像ＩＭ１と第２画像ＩＭ２の認識対象の位置が一致する必要がある。本実施形態では、第１画像ＩＭ１と第２画像ＩＭ２で認識対象の位置が一致していなくても、その認識対象のテクスチャを残しつつ混ぜ合わせることが可能である。

　特徴マップ合成部１３０は、第１の複数のチャンネルに含まれるチャンネルにおいて差し替えの対象となる一部の領域のサイズを、第１画像と第２画像の分類カテゴリに基づいて決定してもよい。

　このようにすれば、画像の分類カテゴリに応じたサイズの領域で特徴マップを差し替えることができる。例えば、分類カテゴリにおいて病変等の認識対象に特徴的なサイズが決まっている場合に、そのサイズの領域で特徴マップを差し替える。これにより、例えば、一方の特徴マップの背景の中に他方の特徴マップの認識対象が嵌め込まれたような合成特徴マップを生成できる。

　また本実施形態では、第１画像ＩＭ１と第２画像ＩＭ２は、超音波画像である。なお、超音波画像に基づいて学習を行うシステムは図１３等で後述する。

　超音波画像は通常はモノクロ画像であり、画像認識においてテクスチャが重要な要素となる。本実施形態では、テクスチャの微妙な差に基づく高精度な画像認識が可能となるので、超音波画像診断に適した画像認識システムを生成できる。なお、本実施形態の適用対象は超音波画像に限定されず、様々な医療画像に適用できる。例えば、イメージセンサを用いて撮像する内視鏡システムによって取得される医療画像にも、本実施形態の手法を適用できる。

　また本実施形態では、第１画像ＩＭ１と第２画像ＩＭ２は、異なる分類カテゴリである。

　中間層において第１特徴マップＭＡＰ１と第２特徴マップＭＡＰ２が合成されて学習が行われることで、第１画像ＩＭ１の分類カテゴリと第２画像ＩＭ２の分類カテゴリの境界が学習される。本実施形態によれば、特徴マップが有する微妙なテクスチャの違いが失われることなく合成されるので、分類カテゴリの境界が適切に学習される。例えば、第１画像ＩＭ１の分類カテゴリと第２画像ＩＭ２の分類カテゴリは、画像認識処理において判別が難しい組み合わせである。このような分類カテゴリの境界が本実施形態の手法で学習されることで、判別が難しい分類カテゴリの認識精度が向上する。また、第１画像ＩＭ１と第２画像ＩＭ２は同一の分類カテゴリであってもよい。分類カテゴリは同一であるが特徴が異なる認識対象を合成することで、同一カテゴリ内でより多様性に富んだ画像データが作成できる。

　また本実施形態では、出力誤差算出部１４０は、出力情報ＮＮＱと第１正解情報ＴＤ１に基づいて第１出力誤差ＥＲＲ１を算出し、出力情報ＮＮＱと第２正解情報ＴＤ２に基づいて第２出力誤差ＥＲＲ２を算出し、第１出力誤差ＥＲＲ１と第２出力誤差ＥＲＲ２の重み付け和を出力誤差ＥＲＱとして算出する。

　中間層において第１特徴マップＭＡＰ１と第２特徴マップＭＡＰ２が合成されるので、出力情報ＮＮＱは、第１画像ＩＭ１の分類カテゴリに対する推定値と、第２画像ＩＭ２の分類カテゴリに対する推定値とが重み付け加算された情報になっている。本実施形態によれば、第１出力誤差ＥＲＲ１と第２出力誤差ＥＲＲ２の重み付け和を算出することで、出力情報ＮＮＱに対応した出力誤差ＥＲＱが求められる。

　また本実施形態では、特徴マップ合成部１３０は、第１割合で、第１特徴マップＭＡＰ１の一部を第２特徴マップのＭＡＰ２一部で差し替える。第１割合は、図５で説明した差し替え率＝０．７に相当する。出力誤差算出部１４０は、第１割合に基づく重み付けによって、第１出力誤差ＥＲＲ１と第２出力誤差ＥＲＲ２の重み付け和を算出し、その重み付け和を出力誤差ＥＲＱとする。

　上述した出力情報ＮＮＱにおける推定値の重み付けは、第１割合に応じた重み付けになっている。本実施形態によれば、第１割合に基づく重み付けによって、第１出力誤差ＥＲＲ１と第２出力誤差ＥＲＲ２の重み付け和が算出されることで、出力情報ＮＮＱに対応した出力誤差ＥＲＱが求められる。

　具体的には、出力誤差算出部１４０は、第１割合と同じ割合で第１出力誤差ＥＲＲ１と第２出力誤差ＥＲＲ２の重み付け和を算出する。

　上述した出力情報ＮＮＱにおける推定値の重み付けは、第１割合と同じ割合となることが期待される。本実施形態によれば、第１割合と同じ割合で第１出力誤差ＥＲＲ１と第２出力誤差ＥＲＲ２の重み付け和が算出されることで、出力情報ＮＮＱにおける推定値の重み付けが、期待値である第１割合となるようにフィードバックされる。

　或いは、出力誤差算出部１４０は、第１割合と異なる割合で第１出力誤差ＥＲＲ１と第２出力誤差ＥＲＲ２の重み付け和を算出してもよい。

　具体的には、希少病変等の少量カテゴリの推定値が正方向にオフセットされるように重み付けが行われてもよい。例えば、第１画像ＩＭ１が希少病変の画像であり、第２画像ＩＭ２が非希少病変の画像である場合、第１出力誤差ＥＲＲ１の重み付けを第１割合より大きくする。本実施形態によれば、認識精度を上げにくい少量カテゴリが検出されやすくなるように、フィードバックされる。

　なお、出力誤差算出部１４０は、第１正解情報ＴＤ１と第２正解情報ＴＤ２から正解確率分布を作成し、出力情報ＮＮＱと正解確率分布から算出したＫＬダイバージェンスを出力誤差ＥＲＱとしてもよい。

　２．第２構成例
　図７は、学習データ作成システム１０の第２構成例である。図７では、画像取得部１１１は画像拡張部１６０を含む。図８は、第２構成例において処理部１００が行う処理のフローチャートであり、図９は、その処理を模式的に示した図である。なお、第１構成例で説明した構成要素及びステップには同一の符号を付し、その構成要素及びステップについての説明を適宜に省略する。

　記憶部２００は、第１入力画像ＩＭ１’と第２入力画像ＩＭ２’を記憶する。画像取得部１１１は、記憶部２００から第１入力画像ＩＭ１’と第２入力画像ＩＭ２’を読み出す。画像拡張部１６０は、第１入力画像ＩＭ１’を画像拡張することで第１画像ＩＭ１を生成する第１拡張処理と、第２入力画像ＩＭ２’を画像拡張することで第２画像ＩＭ２を生成する第２拡張処理との少なくとも一方を行う。

　画像拡張とは、ニューラルネットワーク１２０の入力画像に対する画像処理であり、例えば入力画像を学習に適した画像に変換する処理、或いは認識対象の見え方が異なる画像を生成することで学習の精度を上げるための画像処理等である。本実施形態によれば、第１入力画像ＩＭ１’と第２入力画像ＩＭ２’の少なくとも一方に画像拡張が施されることで、効果的な学習が可能となる。

　図８のフローでは、画像拡張部１６０は、ステップＳ１０６において第１入力画像ＩＭ１’を画像拡張し、ステップＳ１０７において第２入力画像ＩＭ２’を画像拡張する。但し、ステップＳ１０６とＳ１０７の両方が実行されてもよいし、いずれか一方のみが実行されてもよい。

　図９には、第２入力画像ＩＭ２’を画像拡張する第２拡張処理のみが実行される例を示している。第２拡張処理は、第１入力画像ＩＭ１’に写る第１認識対象ＴＧ１と第２入力画像ＩＭ２’に写る第２認識対象ＴＧ２との間の位置関係に基づいて、第２認識対象ＴＧ２の位置補正を第２入力画像ＩＭ２’に対して行う処理を含む。

　位置補正は、平行移動を含むアフィン変換である。画像拡張部１６０は、第１正解情報ＴＤ１から第１認識対象ＴＧ１の位置を把握し、第２正解情報ＴＤ２から第２認識対象ＴＧ２の位置を把握し、それらの位置が一致するように補正を行う。例えば、画像拡張部１６０は、第１認識対象ＴＧ１の重心位置と第２認識対象ＴＧ２の重心位置が一致するように、位置補正を行う。

　なお同様に、第１拡張処理は、第１入力画像ＩＭ１’に写る第１認識対象ＴＧ１と第２入力画像ＩＭ２’に写る第２認識対象ＴＧ２との間の位置関係に基づいて、第１認識対象ＴＧ１の位置補正を第１入力画像ＩＭ１’に対して行う処理を含む。

　本実施形態によれば、第１画像ＩＭ１における第１認識対象ＴＧ１の位置と、第２画像ＩＭ２における第２認識対象ＴＧ２の位置とが一致する。これにより、特徴マップを差し替えた後の合成特徴マップＳＭＡＰにおいても、第１認識対象ＴＧ１の位置と第２認識対象ＴＧ２の位置とが一致するので、分類カテゴリの境界を適切に学習できる。

　第１拡張処理と第２拡張処理は、上記の位置補正に限定されない。例えば、画像拡張部１６０は、色補正、明るさ補正、平滑化処理、鮮鋭化処理、ノイズ付加及びアフィン変換の少なくとも１つの処理によって第１拡張処理及び第２拡張処理の少なくとも一方を行ってもよい。

　３．ＣＮＮ
　上述したように、ニューラルネットワーク１２０はＣＮＮである。以下、ＣＮＮの基本構成を説明する。

　図１０には、ＣＮＮの全体構成例を示す。ＣＮＮの入力層は畳み込み層であり、正規化層、活性化層と続く。次に、プーリング層、畳み込み層、正規化層及び活性化層を１セットとして、同様なセットが繰り返される。ＣＮＮの出力層は畳み込み層である。畳み込み層は、入力に対して畳み込み処理を行うことで特徴マップを出力する。後段の畳み込み層になるほど、特徴マップのチャンネル数が増えると共に、１チャンネルの画像サイズが小さくなる傾向にある。

　ＣＮＮの各層はノードを含み、ノードと次の層のノードとの間が重み係数によって結合される。このノード間の重み係数が出力誤差に基づいて更新されることで、ニューラルネットワーク１２０の学習が行われる。

　図１１には、畳み込み処理の例を示す。ここでは３チャンネルの入力マップから２チャンネルの出力マップが生成され、重み係数のフィルタサイズが３×３である例を説明する。入力層では入力マップは入力画像であり、出力層では出力マップはスコアマップである。中間層では入力マップと出力マップは共に特徴マップである。

　３チャンネルの入力マップに対して、３チャンネルの重み係数フィルタが畳み込み演算されることで、出力マップの１チャンネルが生成される。３チャンネルの重み係数フィルタが２セットあり、出力マップは２チャンネルとなる。畳み込み演算では、入力マップの３×３のウィンドウと重み係数の積和をとり、ウィンドウを１画素ずつ順次にスライドしていくことで、入力マップ全体について積和を演算する。具体的には、下式（１）が演算される。

　ｙ^oc _n,mは、出力マップにおいてチャンネルｏｃのｎ行ｍ列に配置される値である。ｗ^oc,ic _j,iは、重み係数フィルタにおいてセットｏｃのチャンネルｉｃのｊ行ｉ列に配置される値である。ｘ^ic _n+j,m+iは、入力マップにおいてチャンネルｉｃのｎ＋ｊ行ｍ＋ｉ列に配置される値である。

　図１２には、ＣＮＮが出力する認識結果の例を示す。出力情報は、ＣＮＮから出力された認識結果を示しており、位置（ｕ，ｖ）の各々に推定値が割り当てられたスコアマップである。推定値は、その位置に認識対象が検出された確からしさを示す。正解情報は、理想的な認識結果を示しており、認識対象が存在する位置（ｕ，ｖ）に１が割り当てられたマスク情報である。ニューラルネットワーク１２０の更新処理において、正解情報と出力情報の誤差が小さくなるように、上述の重み係数が更新される。

　４．超音波診断システム
　図１３は、超音波画像を学習データ作成システム１０に入力する場合のシステム構成例である。図１３のシステムは、超音波診断システム２０と教師データ作成システム３０と学習データ作成システム１０と超音波診断システム４０とを含む。なお、これらは常時接続されている必要はなく、作業の各段階において適宜に接続されればよい。

　超音波診断システム２０は、学習用画像としての超音波画像を撮影し、その超音波画像を教師データ作成システム３０に転送する。教師データ作成システム３０は、超音波画像をディスプレイに表示し、ユーザから正解情報の入力を受け付け、超音波画像と正解情報を対応づけて教師データを作成し、その教師データを学習データ作成システム１０に転送する。学習データ作成システム１０は、教師データに基づいてニューラルネットワーク１２０の学習を行い、学習済みモデルを超音波診断システム４０に転送する。

　超音波診断システム４０は、超音波診断システム２０と同じシステムであってもよいし、異なるシステムであってもよい。超音波診断システム４０は、プローブ４１と処理部４２とを含む。プローブ４１は、被検体からの超音波エコーを検出する。処理部４２は、超音波エコーに基づいて超音波画像を生成する。処理部４２は、学習済みモデルに基づく画像認識処理を超音波画像に対して行うニューラルネットワーク５０を含む。処理部４２は、画像認識処理の結果をディスプレイに表示する。

　図１４は、ニューラルネットワーク５０の構成例である。ニューラルネットワーク５０は、学習データ作成システム１０のニューラルネットワーク１２０と同じアルゴリズムを有し、学習済みモデルに含まれる重み付け係数等のパラメータを用いることで、学習データ作成システム１０における学習結果が反映された画像認識処理を行う。第１ニューラルネットワーク５１と第２ニューラルネットワーク５２は、学習データ作成システム１０の第１ニューラルネットワーク１２１と第２ニューラルネットワーク１２２に相当する。第１ニューラルネットワーク５１には１枚の画像ＩＭが入力され、その画像ＩＭに対応した特徴マップＭＡＰが第１ニューラルネットワーク５１から出力される。超音波診断システム４０では特徴マップの合成は行わないので、第１ニューラルネットワーク５１が出力する特徴マップＭＡＰが第２ニューラルネットワーク５２の入力となる。なお、図１４では学習データ作成システム１０との比較のために第１ニューラルネットワーク５１と第２ニューラルネットワーク５２を図示したが、実際の処理ではニューラルネットワーク５０は分割されない。

　以上、本実施形態及びその変形例について説明したが、本開示は、各実施形態やその変形例そのままに限定されるものではなく、実施段階では、要旨を逸脱しない範囲内で構成要素を変形して具体化することができる。また、上記した各実施形態や変形例に開示されている複数の構成要素を適宜組み合わせることができる。例えば、各実施形態や変形例に記載した全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態や変形例で説明した構成要素を適宜組み合わせてもよい。このように、本開示の主旨を逸脱しない範囲内において種々の変形や応用が可能である。また、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。

５　ニューラルネットワーク、６　チャンネル数、１０　学習データ作成システム、２０　超音波診断システム、３０　教師データ作成システム、４０　超音波診断システム、４１　プローブ、４２　処理部、５０　ニューラルネットワーク、５１　第１ニューラルネットワーク、５２　第２ニューラルネットワーク、１００　処理部、１１０　取得部、１１１　画像取得部、１１２　正解情報取得部、１２０　ニューラルネットワーク、１２１　第１ニューラルネットワーク、１２２　第２ニューラルネットワーク、１３０　特徴マップ合成部、１４０　出力誤差算出部、１５０　ニューラルネットワーク更新部、１６０　画像拡張部、２００　記憶部、ＥＲＱ　出力誤差、ＥＲＲ１　第１出力誤差、ＥＲＲ２　第２出力誤差、ＩＭ１　第１画像、ＩＭ１’　第１入力画像、ＩＭ２　第２画像、ＩＭ２’　第２入力画像、ＭＡＰ１　第１特徴マップ、ＭＡＰ２　第２特徴マップ、ＮＮＱ　出力情報、ＳＭＡＰ　合成特徴マップ、ＴＤ１　第１正解情報、ＴＤ２　第２正解情報、ＴＧ１　第１認識対象、ＴＧ２　第２認識対象、ｃｈ１～ｃｈ６　チャンネル

Claims

　第１画像、第２画像、前記第１画像に対応する第１正解情報、及び前記第２画像に対応する第２正解情報を取得する取得部と、
　前記第１画像が入力されることで第１特徴マップを生成し、前記第２画像が入力されることで第２特徴マップを生成する第１ニューラルネットワークと、
　前記第１特徴マップの一部を前記第２特徴マップの一部で差し替えることで合成特徴マップを生成する特徴マップ合成部と、
　前記合成特徴マップに基づいて出力情報を生成する第２ニューラルネットワークと、
　前記出力情報、前記第１正解情報、及び前記第２正解情報に基づいて出力誤差を算出する出力誤差算出部と、
　前記出力誤差に基づいて前記第１ニューラルネットワーク及び前記第２ニューラルネットワークを更新するニューラルネットワーク更新部と、
　を含むことを特徴とする学習データ作成システム。
　請求項１において、
　前記第１特徴マップは、第１の複数のチャンネルを含み、
　前記第２特徴マップは、第２の複数のチャンネルを含み、
　前記特徴マップ合成部は、
　前記第１の複数のチャンネルのうち一部のチャンネル全体を、前記第２の複数のチャンネルのうち一部のチャンネル全体で差し替えることを特徴とする学習データ作成システム。
　請求項２において、
　前記第１画像と前記第２画像は、超音波画像であることを特徴とする学習データ作成システム。
　請求項１において、
　前記出力誤差算出部は、
　前記出力情報と前記第１正解情報に基づいて第１出力誤差を算出し、前記出力情報と前記第２正解情報に基づいて第２出力誤差を算出し、前記第１出力誤差と前記第２出力誤差の重み付け和を前記出力誤差として算出することを特徴とする学習データ作成システム。
　請求項１において、
　前記取得部は、
　第１入力画像を画像拡張することで前記第１画像を生成する第１拡張処理と、第２入力画像を画像拡張することで前記第２画像を生成する第２拡張処理との少なくとも一方を行う画像拡張部を含むことを特徴とする学習データ作成システム。
　請求項５において、
　前記第１拡張処理は、
　前記第１入力画像に写る第１認識対象と前記第２入力画像に写る第２認識対象との間の位置関係に基づいて、前記第１認識対象の位置補正を前記第１入力画像に対して行う処理を含み、
　前記第２拡張処理は、
　前記位置関係に基づいて、前記第２認識対象の位置補正を前記第２入力画像に対して行う処理を含むことを特徴とする学習データ作成システム。
　請求項５において、
　前記画像拡張部は、
　色補正、明るさ補正、平滑化処理、鮮鋭化処理、ノイズ付加及びアフィン変換の少なくとも１つの処理によって前記第１拡張処理及び前記第２拡張処理の少なくとも一方を行うことを特徴とする学習データ作成システム。
　請求項１において、
　前記第１特徴マップは、第１の複数のチャンネルを含み、
　前記第２特徴マップは、第２の複数のチャンネルを含み、
　前記特徴マップ合成部は、
　前記第１の複数のチャンネルに含まれるチャンネルの一部の領域を、前記第２の複数のチャンネルに含まれるチャンネルの一部の領域で差し替えることを特徴とする学習データ作成システム。
　請求項８において、
　前記特徴マップ合成部は、
　前記第１の複数のチャンネルに含まれるチャンネルの帯状領域を、前記第２の複数のチャンネルに含まれるチャンネルの帯状領域で差し替えることを特徴とする学習データ作成システム。
　請求項８において、
　前記特徴マップ合成部は、
　前記第１の複数のチャンネルに含まれるチャンネルにおいて周期的に設定された領域を、前記第２の複数のチャンネルに含まれるチャンネルにおいて周期的に設定された領域で差し替えることを特徴とする学習データ作成システム。
　請求項８において、
　前記特徴マップ合成部は、
　前記第１の複数のチャンネルに含まれるチャンネルにおいて差し替えの対象となる前記一部の領域のサイズを、前記第１画像と前記第２画像の分類カテゴリに基づいて決定することを特徴とする学習データ作成システム。
　請求項１において、
　前記特徴マップ合成部は、
　第１割合で、前記第１特徴マップの一部を前記第２特徴マップの一部で差し替え、
　前記出力誤差算出部は、
　前記出力情報と前記第１正解情報に基づいて第１出力誤差を算出し、前記出力情報と前記第２正解情報に基づいて第２出力誤差を算出し、前記第１割合に基づく重み付けによって前記第１出力誤差と前記第２出力誤差の重み付け和を算出し、前記重み付け和を前記出力誤差とすることを特徴とする学習データ作成システム。
　請求項１２において、
　前記出力誤差算出部は、
　前記第１割合と同じ割合で前記第１出力誤差と前記第２出力誤差の前記重み付け和を算出することを特徴とする学習データ作成システム。
　請求項１２において、
　前記出力誤差算出部は、
　前記第１割合と異なる割合で前記第１出力誤差と前記第２出力誤差の前記重み付け和を算出することを特徴とする学習データ作成システム。
　請求項１において、
　前記第１画像と前記第２画像は、超音波画像であることを特徴とする学習データ作成システム。
　請求項１において、
　前記第１画像と前記第２画像は、異なる分類カテゴリであることを特徴とする学習データ作成システム。
　第１画像、第２画像、前記第１画像に対応する第１正解情報、及び前記第２画像に対応する第２正解情報を取得することと、
　前記第１画像が第１ニューラルネットワークに入力されることで第１特徴マップを生成し、前記第２画像が前記第１ニューラルネットワークに入力されることで第２特徴マップを生成することと、
　前記第１特徴マップの一部を前記第２特徴マップの一部で差し替えることで合成特徴マップを生成することと、
　第２ニューラルネットワークが前記合成特徴マップに基づいて出力情報を生成することと、
　前記出力情報、前記第１正解情報、及び前記第２正解情報に基づいて出力誤差を算出することと、
　前記出力誤差に基づいて前記第１ニューラルネットワーク及び前記第２ニューラルネットワークを更新することと、
　を含むことを特徴とする学習データ作成方法。