WO2021079479A1

WO2021079479A1 - 判定方法、判定プログラムおよび情報処理装置

Info

Publication number: WO2021079479A1
Application number: PCT/JP2019/041793
Authority: WO
Inventors: 泰斗横田
Original assignee: 富士通株式会社
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2021-04-29
Also published as: JP7205644B2; US20220230028A1; JPWO2021079479A1

Abstract

導入判定装置は、学習モデルに対して、学習環境とは異なる他の環境で生成された他環境データを入力したときの第一の出力結果を取得する。導入判定装置は、学習モデルを他の環境に転用した際の学習モデルの正解率の低下を検出する検出モデルに対して、他環境データを入力したときの第二の出力結果を取得する。導入判定装置は、第一の出力結果および第二の出力結果に基づいて、学習モデルを他の環境に転用する際に、学習モデルを再学習するか否かを判定する。

Description

判定方法、判定プログラムおよび情報処理装置

　本発明は、判定方法、判定プログラムおよび情報処理装置に関する。

　企業等で利用されている情報システムに対して、データの判定や分類機能などへの機械学習モデル（以下では、単に「モデル」と記載する場合がある）の導入が進んでいる。機械学習モデルは、システム開発時に学習させた教師データの通りに判定や分類を行うので、システム運用中に入力データの傾向（データ分布）が変化すると、機械学習モデルの精度が劣化する。

　一般的に、システム運用中のモデル精度劣化検知は、定期的に手動で、モデルの出力結果の正誤を人間が確認することで正解率を算出し、正解率の低下から精度劣化を検知する手法が利用される。

　近年では、システム運用中の機械学習モデルの精度劣化を自動で検出する技術として、Ｔ^２統計量（Hotelling’s　T-squre）が知られている。例えば、入力データと正常データ（訓練データ）群を主成分分析し、標準化した各主成分の原点からの距離の二乗の合計である、入力データのＴ^２統計量を算出する。そして、入力データ群のＴ^２統計量の分布に基づき、異常値データの割合の変化を検出して、モデルの精度劣化を自動で検知する。

A.　Shabbak　and　H．Midi,"An　Improvement　of　the　Hotelling　Statistic　in　Monitoring　Multivariate　Quality　Characteristics"，　Mathematical　Problems　in　Engineering　（２０１２）　１－１５．

　ところで、機械学習モデルの開発環境と機械学習モデルを導入する導入環境（本番環境）とは必ずしも一致せず、入力データの特徴量や品質が異なることが多い。例えば、画像データを扱う場合には、明るさ、カメラの設置位置、カメラの性能などが異なるので、撮像される画像データの解像度なども異なる。

　一般的に、機械学習モデルは、開発時に開発環境で学習させた教師データの通りに判定や分類を行うので、開発環境の教師データと本番環境の入力データの傾向（データ分布）の違いにより、性能低下が発生することが考えられる。現状では、本番環境の導入時に、手動で、モデルの出力結果の正誤を人間が確認することで、正解率を算出してモデル性能を検査し、導入可否を判定している。

　一つの側面では、学習済みの機械学習モデルの本番環境への導入可否を自動で検査することができる判定方法、判定プログラムおよび情報処理装置を提供することを目的とする。

　第１の案では、判定方法は、コンピュータが、学習モデルに対して、学習環境とは異なる他の環境で生成された他環境データを入力したときの第一の出力結果を取得する処理を実行する。判定方法は、コンピュータが、前記学習モデルを前記他の環境に転用した際の学習モデルの正解率の低下を検出する検出モデルに対して、前記他環境データを入力したときの第二の出力結果を取得する処理を実行する。判定方法は、コンピュータが、前記第一の出力結果および前記第二の出力結果に基づいて、前記学習モデルを前記他の環境に転用する際に、前記学習モデルを再学習するか否かを判定する処理を実行する。

　一実施形態によれば、学習済みの機械学習モデルの本番環境への導入可否を自動で検査することができる。

図１は、実施例１にかかる導入判定装置を説明する図である。図２は、精度劣化を説明する図である。図３は、実施例１にかかるインスペクターモデルを説明する図である。図４は、実施例１にかかる導入判定装置の機能構成を示す機能ブロック図である。図５は、開発環境データＤＢに記憶される情報の例を示す図である。図６は、教師データの具体例を説明する図である。図７は、導入先データＤＢに記憶される情報の例を示す図である。図８は、訓練データ数と適用範囲との関係を示す図である。図９は、精度劣化の検出を説明する図である。図１０は、合致率による導入判定を説明する図である。図１１は、処理の流れを示すフローチャートである。図１２は、導入可否の具体例を説明する図である。図１３は、実施例２にかかる機械学習モデルの生成手法を説明する図である。図１４は、ハードウェア構成例を説明する図である。

　以下に、本発明にかかる判定方法、判定プログラムおよび情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

［導入判定装置の説明］
　図１は、実施例１にかかる導入判定装置１０を説明する図である。図１に示す導入判定装置１０は、学習済みの機械学習モデル（以下では、単に「モデル」と記載する場合がある）を用いて入力データの判定（分類）を実行する一方で、機械学習モデルの精度を監視して精度劣化を検出するコンピュータ装置の一例である。

　例えば、機械学習モデルは、学習時には、説明変数を画像データ、目的変数を衣料名とする教師データを用いて学習され、運用時には、入力データとして画像データが入力されると、「シャツ」などの判定結果を出力する画像分類器である。つまり、機械学習モデルは、高次元データの分類や多クラス分類を実行する画像分類器の一例である。

　ここで、機械学習や深層学習などで学習された機械学習モデルは、訓練データとラベル付けの組み合わせた教師データを元に学習されるので、教師データが含む範囲でのみ機能する。例えば、開発環境で撮像された教師データを用いた場合、開発環境の特徴量を含んだ状態（入力データの分布が本番環境と異なる状態）で学習が実行される。そのため、開発環境で学習された学習済みの機械学習モデルを、開発環境と異なる本番環境に導入した場合に、入力データの分布が異なることから、本番環境では精度が劣化し、開発環境と同程度の性能が発揮できない場合がある。

　図２は、精度劣化を説明する図である。図２では、入力データの余計なデータを除いて整理した情報であり、機械学習モデルが入力された入力データを分類する、特徴量空間を示している。図２では、クラス０、クラス１、クラス２に分類する特徴量空間を図示している。

　図２に示すように、開発環境では、機械学習モデルにデータを入力すると、全ての入力データが正常な位置であり、各クラスの決定境界の内側に分類されるので、機械学習モデルの出力結果の信頼性が高く、高精度を維持できる。しかし、本番環境では、開発環境と比較してクラス０の入力データの分布が異なる場合がある。つまり、学習されたクラス０の特徴量では、クラス０と分類することが難しい入力データが入力される。この場合、本番環境では、クラス０の入力データが決定境界を跨ぎ、機械学習モデルの正解率が低下する。つまり、クラス０と分類すべき入力データの特徴量が開発環境とは異なる。

　このように、開発環境から本番環境に導入すると、入力データの分布が学習時から変化することがあり、結果として、機械学習モデルの正解率が低下し、機械学習モデルの精度劣化が発生する。

　そこで、図１に示すように、実施例１にかかる導入判定装置１０は、監視対象の機械学習モデルと同様の問題を解く、ＤＮＮ（Deep　Neural　Network）を用いて生成された少なくとも１つのインスペクターモデル（監視器、以下では単に「インスペクター」と記載する場合がある）を用いる。具体的には、導入判定装置１０は、機械学習モデルを本番環境に導入する前に、本番環境のデータに対する、機械学習モデルの出力と各インスペクターモデルの出力との合致率を、機械学習モデルの出力クラスごとに集計する。このようにして、実施例１にかかる導入判定装置１０は、機械学習モデルの導入可否を判定する。

　ここで、インスペクターモデルについて説明する。図３は、実施例１にかかるインスペクターモデルを説明する図である。インスペクターモデルは、機械学習モデルとは異なる条件（異なるモデル適用領域（Applicability　Domain））で生成される検出モデルの一例である。つまり、インスペクターモデルがクラス０、クラス１、クラス２と判定する各領域（各特徴量）は、機械学習モデルがクラス０、クラス１、クラス２と判定する各領域よりも狭い範囲となるように、インスペクターモデルが生成される。

　これは、モデル適用領域が狭いほど、入力データの小さな変化で出力が敏感に変化するためである。そのため、監視対象の機械学習モデルよりもインスペクターモデルのモデル適用領域の狭くすることで、入力データの小さな変化でインスペクターモデルの出力値が変動し、機械学習モデルの出力値との合致率でデータの傾向の変化を測定することができる。

　具体的には、図３に示すように、導入先（本番環境）の入力データがインスペクターモデルのモデル適用領域の範囲内である場合、当該入力データに対して、機械学習モデルはクラス０と判定し、インスペクターモデルもクラス０と判定する。つまり、両方ともクラス０のモデル適用領域内となり、出力値は必ず合致するので、合致率は低下しない。

　一方、導入先（本番環境）の入力データがインスペクターモデルのモデル適用領域の範囲外である場合、当該入力データに対して、機械学習モデルはクラス０と判定するが、インスペクターモデルは各クラスのモデル適用範囲外の領域であることから、必ずしもクラス０と判定するとは限らない。つまり、出力値は必ずしも合致しないので、合致率が低下する。

　このように、実施例１にかかる導入判定装置１０は、開発途中または開発が完了した機械学習モデルと、機械学習モデルのモデル適用領域より狭いモデル適用領域を有するように学習されたインスペクターモデルとのそれぞれに、本番環境の入力データを入力して出力結果を取得する。そして、導入判定装置１０は、各出力結果の合致率により、機械学習モデルを本番環境へ導入した時の精度の変化を事前に収集することができる。

［導入判定装置の機能構成］
　図４は、実施例１にかかる導入判定装置１０の機能構成を示す機能ブロック図である。図４に示すように、導入判定装置１０は、通信部１１、記憶部１２、制御部２０を有する。

　通信部１１は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部１１は、管理者端末などから各種指示を受信する。また、通信部１１は、各種端末から、判定対象の入力データを受信する。

　記憶部１２は、データや制御部２０が実行するプログラムなどを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部１２は、開発環境データＤＢ１３、導入先データＤＢ１４、機械学習モデル１５、インスペクターモデルＤＢ１６を記憶する。

　開発環境データＤＢ１３は、機械学習モデルの学習に利用された開発環境の教師データであって、インスペクターモデルの学習にも利用される教師データを記憶するデータベースである。図５は、開発環境データＤＢ１３に記憶される情報の例を示す図である。図５に示すように、開発環境データＤＢ１３は、データＩＤと教師データとを対応付けて記憶する。

　ここで記憶されるデータＩＤは、教師データを識別する識別子である。教師データは、学習に利用される訓練データまたは学習時の検証に利用される検証データである。図５の例では、データＩＤが「Ａ１」である訓練データＸと、データＩＤが「Ｂ１」である検証データＹを図示している。なお、訓練データや検証データは、説明変数である画像データと、目的変数である正解情報（ラベル）とが対応付けられたデータである。

　教師データに利用される画像データの例について説明する。図６は、教師データの具体例を説明する図である。図６に示すように、教師データの具体例は、ラベルがクラス０であるＴ－シャツ、ラベルがクラス１であるズボン、ラベルがクラス２であるプロオーバー、ラベルがクラス３ではドレス、ラベルがクラス４であるコートの各画像データを用いる。また、ラベルがクラス５であるサンダル、ラベルがクラス６であるシャツ、ラベルがクラス７であるスニーカー、ラベルがクラス８ではバッグ、ラベルがクラス９であるアンクルブーツの各画像データを用いる。

　導入先データＤＢ１４は、機械学習モデル１５を導入する先である導入先（本番環境）で取得や収集されたデータを記憶するデータベースである。具体的には、導入先データＤＢ１４は、機械学習モデルへ入力されることが想定される画像データ、または、画像分類を行う対象の画像データを記憶する。図７は、導入先データＤＢ１４に記憶される情報の例を示す図である。図７に示すように、導入先データＤＢ１４は、データＩＤと入力データとを対応付けて記憶する。

　ここで記憶されるデータＩＤは、入力データを識別する識別子である。入力データは、機械学習モデル１５が判定（予測）対象とすることが想定される分類対象の画像データである。図７の例では、データＩＤが「０１」である入力データ１を図示している。入力データは、予め記憶する必要はなく、他の端末からデータストリームとして送信されてもよい。

　機械学習モデル１５は、学習された機械学習モデルであり、導入判定装置１０による評価対象となるモデルである。なお、学習済みのパラメータが設定されたニューラルネットワークやサポートベクタマシンなどの機械学習モデル１５を記憶することもでき、学習済みの機械学習モデル１５が構築可能な学習済みのパラメータなどを記憶していてもよい。

　インスペクターモデルＤＢ１６は、精度劣化検出に利用する少なくとも１つのインスペクターモデルに関する情報を記憶するデータベースである。例えば、インスペクターモデルＤＢ１６は、５つのインスペクターモデルそれぞれを構築するためのパラメータであって、後述する制御部２０によって機械学習によって生成（最適化）されたＤＮＮの各種パラメータを記憶する。なお、インスペクターモデルＤＢ１６は、学習済みのパラメータを記憶することもでき、学習済みのパラメータが設定されたインスペクターモデルそのもの（ＤＮＮ）を記憶することもできる。

　制御部２０は、導入判定装置１０全体を司る処理部であり、例えばプロセッサなどである。この制御部２０は、インスペクターモデル生成部２１、閾値設定部２２、劣化検出部２３、導入判定部２６を有する。なお、インスペクターモデル生成部２１、閾値設定部２２、劣化検出部２３、導入判定部２６は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例などである。

　インスペクターモデル生成部２１は、機械学習モデル１５の精度劣化を検出する監視器や検出モデルの一例であるインスペクターモデルを生成する処理部である。具体的には、インスペクターモデル生成部２１は、機械学習モデル１５の学習に利用された開発環境データＤＢ１３に記憶される教師データを用いた深層学習により、モデル適用範囲の異なる複数のインスペクターモデルを生成する。そして、インスペクターモデル生成部２１は、深層学習によって得られた、モデル適用範囲が異なる各インスペクターモデル（各ＤＮＮ）を構築するための各種パラメータをインスペクターモデルＤＢ１６に格納する。

　例えば、インスペクターモデル生成部２１は、訓練データの数を制御することで、適用範囲の異なる複数のインスペクターモデルを生成する。図８は、訓練データ数と適用範囲との関係を示す図である。図８では、クラス０、クラス１、クラス２の３クラス分類の特徴量空間を図示している。

　図８に示すように、一般的には、訓練データの数が多いほど、多くの特徴量を多く学習することになるので、より網羅的な学習が実行され、モデル適用範囲が広いモデルが生成される。一方で、訓練データの数が少ないほど、学習する教師データの特徴量が少ないので、網羅できる範囲（特徴量）が限定的になり、モデル適用範囲が狭いモデルが生成される。

　そこで、インスペクターモデル生成部２１は、訓練回数は同じにして、訓練データの数を変更することで、複数のインスペクターモデルを生成する。例えば、機械学習モデル１５が訓練回数（１００エポック）、訓練データ数（１０００個／１クラス）で学習された状態で、５つのインスペクターモデルを生成する場合を考える。この場合、インスペクターモデル生成部２１は、インスペクターモデル１の訓練データ数を「５００個／１クラス」、インスペクターモデル２の訓練データ数を「４００個／１クラス」、インスペクターモデル３の訓練データ数を「３００個／１クラス」、インスペクターモデル４の訓練データ数を「２００個／１クラス」、インスペクターモデル５の訓練データ数を「１００個／１クラス」と決定し、開発環境データＤＢ１３から教師データを無作為に選択して、それぞれを１００エポックで学習する。

　その後、インスペクターモデル生成部２１は、学習されたインスペクターモデル１、２、３、４、５それぞれの各種パラメータをインスペクターモデルＤＢ１６に格納する。このようにして、インスペクターモデル生成部２１は、機械学習モデル１５の適用範囲よりも狭いモデル適用範囲を有するとともに、それぞれのモデル適用範囲が異なる５つのインスペクターモデルを生成することができる。

　なお、インスペクターモデル生成部２１は、誤差逆伝搬などの手法を用いて、各インスペクターモデルを学習することができ、他の手法を採用することもできる。例えば、インスペクターモデル生成部は、訓練データをインスペクターモデルに入力して得られる出力結果と、入力された訓練データのラベルとの誤差が小さくなるように、ＤＮＮのパラメータを更新することで、インスペクターモデル（ＤＮＮ）の学習を実行する。

　図４に戻り、閾値設定部２２は、機械学習モデル１５の本番環境への導入可否を判定する閾値であって、合致率の判定に利用する閾値を設定する。例えば、閾値設定部２２は、記憶部１２から機械学習モデル１５を読み出すとともに、インスペクターモデルＤＢ１６から各種パラメータを読み出して学習済みの５つのインスペクターモデルを構築する。そして、閾値設定部２２は、開発環境データＤＢ１３に記憶される開発環境の各検証データを読み出して、機械学習モデル１５と各インスペクターモデルに入力して、それぞれの出力結果（分類結果）に基づくモデル適用領域への分布結果を取得する。

　その後、閾値設定部２２は、検証データに対する機械学習モデル１５とインスペクターモデル１と間の各クラスの合致率、機械学習モデル１５とインスペクターモデル２と間の各クラスの合致率、機械学習モデル１５とインスペクターモデル３と間の各クラスの合致率、機械学習モデル１５とインスペクターモデル４と間の各クラスの合致率、機械学習モデル１５とインスペクターモデル５と間の各クラスの合致率を算出する。

　そして、閾値設定部２２は、各合致率を用いて閾値を設定する。例えば、閾値設定部２２は、各合致率をディスプレイ等に表示して、ユーザから閾値の設定を受け付ける。また、閾値設定部２２は、各合致率の平均値、各合致率の最大値、各合致率の最小値など、ユーザが検出を要求する劣化状態に応じて、任意に選択して設定することができる。

　図４に戻り、劣化検出部２３は、分類部２４、監視部２５を有し、導入環境の入力データに対する機械学習モデル１５の出力結果と各インスペクターモデルの出力結果とを比較し、機械学習モデル１５の精度の劣化を検出する処理部である。

　分類部２４は、導入先データＤＢ１４に記憶される入力データを機械学習モデル１５と各インスペクターモデルとのそれぞれに入力して、それぞれの出力結果（分類結果）を取得する処理部である。例えば、分類部２４は、各インスペクターモデルの学習が完了すると、各インスペクターモデルのパラメータをインスペクターモデルＤＢ１６から取得して各インスペクターモデルを構築するとともに、機械学習モデル１５を実行する。

　そして、分類部２４は、導入先の入力データを機械学習モデル１５に入力してその出力結果を取得するとともに、当該導入先の入力データをインスペクターモデル１（ＤＮＮ１）からインスペクターモデル５（ＤＮＮ５）の５つのインスペクターモデルそれぞれに入力して各出力結果を取得する。その後、分類部２４は、導入先の入力データと各出力結果とを対応付けて記憶部１２に格納するとともに、監視部２５に出力する。

　監視部２５は、各インスペクターモデルの出力結果を用いて、機械学習モデル１５の精度劣化を監視する処理部である。具体的には、監視部２５は、分類部２４による処理結果に基づき、クラスごとに機械学習モデル１５の出力と、インスペクターモデルの出力との合致率の分布変化を測定する。例えば、監視部２５は、各入力データに対する機械学習モデル１５の出力結果と各インスペクターモデルの出力結果との合致率を算出し、合致率が低下した場合に、機械学習モデル１５の精度劣化を検出する。なお、監視部２５は、検出結果を導入判定部２６に出力する。

　図９は、精度劣化の検出を説明する図である。図９では、導入先の入力データに対する監視対象の機械学習モデル１５の出力結果とインスペクターモデルの出力結果とを図示している。ここでは、説明を分かりやすくするため、１つのインスペクターモデルを例に、特徴量空間におけるモデル適用領域へのデータ分布を用いて、監視対象の機械学習モデル１５の出力に対してインスペクターモデルの出力が合致する確率を説明する。

　図９に示すように、監視部２５は、運用開始時、監視対象の機械学習モデル１５から、クラス０のモデル適用領域には６つの入力データが属し、クラス１のモデル適用領域には６つの入力データが属し、クラス２のモデル適用領域には８つの入力データが属することを取得する。一方、監視部２５は、インスペクターモデルから、クラス０のモデル適用領域には６つの入力データが属し、クラス１のモデル適用領域には６つの入力データが属し、クラス２のモデル適用領域には８つの入力データが属することを取得する。

　つまり、監視部２５は、機械学習モデル１５とインスペクターモデルとの各クラスの合致率が一致することから合致率を１００％と算出する。このタイミングでは、それぞれの分類結果が一致する。

　時間経過が進むと、監視部２５は、監視対象の機械学習モデル１５から、クラス０のモデル適用領域には６つの入力データが属し、クラス１のモデル適用領域には６つの入力データが属し、クラス２のモデル適用領域には８つの入力データが属することを取得する。一方、監視部２５は、インスペクターモデルから、クラス０のモデル適用領域には３つの入力データが属し、クラス１のモデル適用領域には６つの入力データが属し、クラス２のモデル適用領域には８つの入力データが属することを取得する。

　つまり、監視部２５は、クラス０については合致率を５０％（（３／６）×１００）と算出し、クラス１とクラス２については合致率を１００％と算出する。すなわち、クラス０のデータ分布の変化が検出される。このタイミングでは、インスペクターモデルは、クラス０に分類されなかった３つの入力データに対して、クラス０に分類するとは限らない状態である。

　さらに時間経過が進むと、監視部２５は、監視対象の機械学習モデル１５から、クラス０のモデル適用領域には３つの入力データが属し、クラス１のモデル適用領域には６つの入力データが属し、クラス２のモデル適用領域には８つの入力データが属することを取得する。一方、監視部２５は、インスペクターモデルから、クラス０のモデル適用領域には１つの入力データが属し、クラス１のモデル適用領域には６つの入力データが属し、クラス２のモデル適用領域には８つの入力データが属することを取得する。

　つまり、監視部２５は、クラス０については合致率を３３％（（１／３）×１００）と算出し、クラス１とクラス２については合致率を１００％と算出する。すなわち、クラス０のデータ分布が変化したと判定される。このタイミングでは、機械学習モデル１５では、クラス０と分類されるべき入力データがクラス０と分類されず、インスペクターモデルでは、クラス０に分類されなかった５つの入力データに対しては、クラス０に分類されるとは限らない状態である。

　このようにして、監視部２５は、開発環境の教師データを用いて開発された機械学習モデル１５と、開発環境の教師データを用いて生成された各インスペクターモデルとのそれぞれに、導入先（本番環境）の入力データを入力したときの合致率を算出する。そして、監視部２５は、定期的に、合致率を算出して導入判定部２６に出力する。

　導入判定部２６は、監視部２５により算出された合致率に基づき、機械学習モデル１５の本番環境への導入可否を判定する処理部である。具体的には、導入判定部２６は、クラスごとに合致率が算出された各インスペクターモデルについて、クラスごとの合致率の平均を算出し、各インスペクターモデルの合致率を算出する。そして、導入判定部２６は、各インスペクターモデルのうち合致率が閾値未満であるインスペクターモデルが所定数以上存在する場合に、機械学習モデル１５を本番環境に導入した場合に精度劣化の発生が予見できると判定し、機械学習モデル１５を導入不可と判定するとともに、機械学習モデル１５の再学習が必要と判定する。

　図１０は、合致率による導入判定を説明する図である。図１０では、横軸が各インスペクターモデル、縦軸が各インスペクターモデルの合致率（合致した割合）であり、５つのインスペクターモデルそれぞれと機械学習モデル１５との合致率の変化を示している。ここでは、合致率の閾値を０．６（６０％）として説明する。また、インスペクターモデル１、２、３、４、５のモデル適用領域の大きさをインスペクターモデル１が最も広く、インスペクターモデル５が最も狭い。

　図１０の（ａ）に示すように、インスペクターモデル１から５は、モデル適用範囲が徐々に狭いことから、開発環境の検証データに対する合致率もインスペクターモデル１が最も高く、インスペクターモデル５が最も低い。このような状態で、導入判定部２６は、導入先（本番環境）のデータを機械学習モデル１５と各インスペクターモデルとに入力し、各合致率に基づき導入判定を実行する。

　例えば、図１０の（ｂ）に示すように、インスペクターモデル１を２の合致率が閾値以上であり、インスペクターモデル３から５の合致率が閾値未満である場合、導入判定部２６は、導入可能と判定する。具体的には、導入判定部２６は、合致率が閾値以上であるインスペクターモデルの数が規定数（例えば２）以上であることから、機械学習モデル１５を本番環境への導入したときの性能劣化が小さいと判定する。

　また、図１０の（ｃ）に示すように、インスペクターモデル１の合致率が閾値以上であり、インスペクターモデル２から５の合致率が閾値未満である場合、導入判定部２６は、導入不可能と判定する。具体的には、導入判定部２６は、合致率が閾値以上であるインスペクターモデルの数が規定数（例えば２）未満であることから、機械学習モデル１５を本番環境への導入したときの性能劣化が大きいと判定する。

　また、導入判定部２６は、クラスごとに、各インスペクターモデルの合致率を取得して、機械学習モデル１５の学習方針を決定することができる。例えば、導入判定部２６は、クラス０、クラス１、クラス２のそれぞれについて、図１０のような各インスペクターモデルの合致率を比較する。そして、導入判定部２６は、クラス０については合致率が閾値以上であるインスペクターモデルの数が３、クラス１については合致率が閾値以上であるインスペクターモデルの数が４、クラス２については合致率が閾値以上であるインスペクターモデルの数が１であることを特定したとする。

　この場合、導入判定部２６は、クラス２について、機械学習モデル１５の再学習を促すメッセージ等をディスプレイ等に出力することができる。この結果、ユーザは、クラス２の教師データとして、学習に利用された教師データにノイズ等を付加した新たな教師データを生成して、機械学習モデル１５の再学習を実行することができる。

　また、導入判定部２６が、ユーザ通知に限らず、自動で機械学習モデル１５の再学習を実行することができる。例えば、導入判定部２６が、クラス１については合致率が閾値未満であるインスペクターモデルの出力結果を正解情報とする新たな教師データを生成して、機械学習モデル１５の再学習を実行する。

　なお、導入判定のタイミングは、任意に設定することができる。例えば、劣化検出部２２３により合致率が算出されたタイミングで導入判定を実行することができ、所定数以上の導入先の入力データに対する合致率の算出が終了してから、導入判定を実行することもできる。

［処理の流れ］
　図１１は、処理の流れを示すフローチャートである。図１１に示すように、処理が開始されると（Ｓ１０１：Ｙｅｓ）、インスペクターモデル生成部２１は、開発環境における教師データに基づき各インスペクターモデル用の教師データを生成し（Ｓ１０２）、生成した開発環境の教師データ内の訓練データを用いて、各インスペクターモデル用の訓練を実行して、各インスペクターモデルを生成する（Ｓ１０３）。

　続いて、閾値設定部２２は、開発環境の教師データ内の検証データを機械学習モデル１５と各インスペクターモデルに入力して得られる出力結果の合致率を算出し（Ｓ１０４）、合致率に基づき閾値を設定する（Ｓ１０５）。

　その後、劣化検出部２３は、導入先の入力データを機械学習モデル１５に入力して出力結果を取得し（Ｓ１０６）、導入先の入力データを各インスペクターモデルに入力して出力結果を取得する（Ｓ１０７）。

　そして、劣化検出部２３は、出力結果の比較、すなわち特徴量空間におけるモデル適用領域の分布を蓄積し（Ｓ１０８）、蓄積数が規定数に到達するまで（Ｓ１０９：Ｎｏ）、Ｓ１０６以降を繰り返す。

　その後、劣化検出部２３は、蓄積数が規定数に到達すると（Ｓ１０９：Ｙｅｓ）、クラスごとに各インスペクターモデルと機械学習モデル１５との合致率を算出する（Ｓ１１０）。そして、導入判定部２６は、合致率に基づき、機械学習モデル１５の本番環境への導入可否を判定導入先への判定結果を出力する（Ｓ１１１）。

［効果］
　上述したように、導入判定装置１０は、検査対象の機械学習モデルと同様の問題を解く複数のインスペクターモデルを用意し、その出力の合致率をクラスごとまたはインスペクターモデルごとに集計する。そして、導入判定装置１０は、開発環境と本番環境での合致率の分布の差異から、機械学習モデルの性能低下を検査し、導入可否を判定する。この結果、導入判定装置１０は自動でモデル性能低下を導入前に事前に検査することができ、人手が不要となるので、機械学習モデル１５の本番環境導入時のコストが削減できる。

　図１２は、導入可否の具体例を説明する図である。図１２の各グラフの横軸、縦軸も特徴量を示している。図１２では、開発環境で、背景に緑色が多く利用される猫の画像データを訓練データに用いて学習した機械学習モデル１５を、Ａ導入先とＢ導入先に導入する場合の導入判定結果を示している。

　図１２に示すように、機械学習モデル１５は、開発時に、画像データから猫クラスと判定するために、緑の成分と白の成分とが多いことを特徴量として学習する。そこで、Ａ導入先のように、緑成分の多い犬の画像データが入力された場合、緑成分の特徴量を猫クラスと学習していることから、猫クラスと誤判定する。さらに、機械学習モデル１５は、Ｂ導入先のように、白が異常に多い画像データの場合には、それが猫の画像であっても、白の特徴量が多すぎることから、猫クラスと検出できない。

　一方、実施例１によるインスペクターモデルは、機械学習モデル１５よりもモデル適用領域が狭い。このため、インスペクターモデルは、Ａ導入先のように、緑成分の多い犬の画像データが入力された場合でも、猫クラスではない判定することができる。さらに、インスペクターモデルは、Ｂ導入先のように、白が異常に多い猫の画像データであっても、猫の特徴量を正確に学習できているので、猫クラスと検出することができる。

　この結果、Ａ導入先の入力データを用いた場合、機械学習モデル１５の出力結果とインスペクターモデルの出力結果との合致率は小さくなる。同様に、Ｂ導入先の入力データを用いた場合、機械学習モデル１５の出力結果とインスペクターモデルの出力結果との合致率も小さくなる。したがって、導入判定装置１０は、Ａ導入先への導入もＢ導入先への導入も適切ではないと判定することができる。

　また、これらの結果を踏まえて、導入判定装置１０は、緑成分の多い犬の画像データ（ラベル：犬）や白が異常に多い猫の画像データ（ラベル：猫）を用いて、機械学習モデル１５の再学習を実行することができる。また、ユーザは、機械学習モデル１５の再学習を実行した上で、Ａ導入先やＢ導入先に、機械学習モデル１５を導入することもできる。

　ところで、実施例１では、機械学習モデル１５を本番環境のデータを用いて評価する例を説明したが、これに限定されるものではない。例えば、複数の異なる顧客先のデータを利用して汎用性の高い機械学習モデルを開発することもできる。

　例えば、セキュリティや契約の問題により、顧客から取得した現場のデータを他社（異なる顧客）の機械学習モデルの教師データとして利用することが難しく、顧客ごとに用意した教師データで機械学習モデルを訓練せざるを得ないことが想定される。そのため、汎用性の高い機械学習モデルを開発するために、各顧客の現場のデータを持ち寄って教師データとして利用することが困難なことが多い。

　そこで、実施例２にかかる導入判定装置１０は、異なる環境（異なる顧客先）に導入する汎用的な機械学習モデルを開発する際に、既存の様々な顧客先のデータを開発する機械学習モデルの教師データとして利用できない状況下で、汎用性の高い機械学習モデルを開発するために適した入力データを検査し、教師データを生成する。なお、ここで説明する処理は、実施例１で説明した各処理とは独立して実行することもできる。

　図１３は、実施例２にかかる機械学習モデル１５の生成手法を説明する図である。図１３に示すように、導入判定装置１０は、既存の顧客先の現場の教師データを利用して、顧客先ごとのインスペクターモデルを生成する（図１３の（１）参照）。例えば、インスペクターモデル生成部２１は、顧客Ａのデータ（教師データ）を用いてインスペクターモデルＡを生成し、顧客Ｂのデータ（教師データ）を用いてインスペクターモデルＢを生成し、顧客Ｃのデータ（教師データ）を用いてインスペクターモデルＣを生成する。

　次に、導入判定装置１０は、各インスペクターモデルについて、インターネット等から収集した各入力データを開発中のモデル（機械学習モデル１５）とインスペクターモデルとのそれぞれに入力して、合致率を算出する（図１３の（２）参照）。

　例えば、劣化検出部２３は、入力データＸをインスペクターモデルＡ、インスペクターモデルＢ、インスペクターモデルＣと開発中のモデルとに入力して、インスペクターモデルＡと開発中のモデルの合致率（０．６）、インスペクターモデルＢと開発中のモデルの合致率（０．２）、インスペクターモデルＣと開発中のモデルの合致率（０．９）を算出する。

　また、劣化検出部２３は、入力データＹをインスペクターモデルＡ、インスペクターモデルＢ、インスペクターモデルＣと開発中のモデルとに入力して、インスペクターモデルＡと開発中のモデルの合致率（０．１）、インスペクターモデルＢと開発中のモデルの合致率（０．３）、インスペクターモデルＣと開発中のモデルの合致率（０．２）を算出する。

　そして、導入判定装置１０は、１つのインスペクターモデルと開発中の学習モデルの合致率が閾値以上の入力データを教師データに追加する（図１３の（３）参照）。上記例で説明すると、導入判定部２６は、入力データＸについては、インスペクターモデルＡとの合致率およびインスペクターモデルＣのとの合致率が閾値（０．６）以上であることから、教師データに選択する。一方、導入判定部２６は、入力データＹについては、いずれのインスペクターモデルの合致率も閾値（０．６）未満であることから、教師データに選択しない。

　その後、導入判定装置１０は、追加した全ての教師データを使って、開発中の学習モデルを再学習することで、より汎用性が高い学習モデルを生成できる。上記例で説明すると、導入判定部２６は、インターネットから収集した入力データのうち入力データＸを開発環境の教師データ群に追加して、開発中の学習モデルを再学習する。

　上述した処理により、自社所有の教師データのみで、汎用性の高い機械学習モデルを開発できるので、新規顧客に対して機械学習モデルの新規開発が不要となり、コストを削減できる。

　さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。

［環境等］
　上記実施例では、開発環境（学習環境）と異なる本番環境を例にして説明したが、環境の一例としては、モデルの利用シーン、教師データを生成するカメラやセンサの場所、モデルを適用するシステム環境などが想定される。

［再学習］
　上記実施例では、機械学習モデル１５の再学習が必要と判定されたときに、導入先の入力データに対するインスペクターモデルの判定結果を正解情報とする再学習データを用いて、機械学習モデル１５の再学習を実行する例を説明した。例えば、導入先の入力データＰに対するインスペクターモデルの判定結果が「ラベルＰ」で、機械学習モデルの判定結果が「ラベルＱ」である場合、入力データを説明変数、ラベルＰを目的変数とする再学習データを用いて、機械学習モデル１５の再学習を実行する例を説明したが、これに限定されるものではない。

　例えば、導入先である本番環境のデータを収集して再学習データとすることもできる。つまり、本番環境において本番のカメラで撮像された各入力データを説明変数、各入力データの正解情報（ラベル）を目的変数とする再学習データを用いて、機械学習モデル１５の再学習を実行することもできる。

　また、実施例２では、開発途中の機械学習モデルを例にして説明したが、学習済みの機械学習モデルに対しても適用することができ、その場合は、機械学習モデルの再学習が実行される。また、実施例２における合致率判定の入力データは、顧客Ａ、Ｂ、Ｃのデータであってもよい。この場合、顧客Ａ、Ｂ、Ｃの各データのうち汎用的な学習に有効なデータが抽出される。

［数値等］
　また、上記実施例で用いたデータ例、数値、各閾値、特徴量空間、ラベル数、インスペクターモデル数、具体例等は、あくまで一例であり、任意に変更することができる。また、入力データや学習方法などもあくまで一例であり、任意に変更することができる。また、学習モデルには、ニューラルネットワークなど様々な手法を採用することができる。

［モデル適用範囲等］
　実施例１では、教師データの数を削減することで、モデル適用範囲の異なる複数のインスペクターモデルを生成する例を説明したが、これに限定されるものではなく、例えば訓練回数（エポック数）を削減することで、モデル適用範囲の異なる複数のインスペクターモデルを生成することもできる。また、教師データの数ではなく、教師データに含まれる訓練データの数を削減することで、モデル適用範囲の異なる複数のインスペクターモデルを生成することもできる。

［合致率］
　例えば、上記実施例では、各クラスのモデル適用領域に属する入力データの合致率を求める例を説明したが、これに限定されるものではない。例えば、機械学習モデル１５の出力結果とインスペクターモデルの出力結果との合致率により精度劣化を検出することもできる。

　また、図９の例では、クラス０に着目して合致率を算出したが、各クラスに着目することもできる。例えば、図９の例では、時間経過後、監視部２５は、監視対象の機械学習モデル１５から、クラス０のモデル適用領域には６つの入力データが属し、クラス１のモデル適用領域には６つの入力データが属し、クラス２のモデル適用領域には８つの入力データが属することを取得する。一方、監視部２５は、インスペクターモデルから、クラス０のモデル適用領域には３つの入力データが属し、クラス１のモデル適用領域には９つの入力データが属し、クラス２のモデル適用領域には８つの入力データが属することを取得する。この場合、監視部２５は、クラス０とクラス１のそれぞれについて、合致率の低下を検出することができる。

［システム］
　上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、機械学習モデル１５を実行して入力データを分類する装置と、精度劣化を検出する装置とを別々の筐体で実現することもできる。

　さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

［ハードウェア］
　図１４は、ハードウェア構成例を説明する図である。図１４に示すように、導入判定装置１０は、通信装置１０ａ、ＨＤＤ（Hard　Disk　Drive）１０ｂ、メモリ１０ｃ、プロセッサ１０ｄを有する。また、図１４に示した各部は、バス等で相互に接続される。

　通信装置１０ａは、ネットワークインタフェースカードなどであり、他の装置との通信を行う。ＨＤＤ１０ｂは、図４に示した機能を動作させるプログラムやＤＢを記憶する。

　プロセッサ１０ｄは、図４に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１０ｂ等から読み出してメモリ１０ｃに展開することで、図４等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、導入判定装置１０が有する各処理部と同様の機能を実行する。具体的には、プロセッサ１０ｄは、インスペクターモデル生成部２１、閾値設定部２２、劣化検出部２３、導入判定部２６等と同様の機能を有するプログラムをＨＤＤ１０ｂ等から読み出す。そして、プロセッサ１０ｄは、インスペクターモデル生成部２１、閾値設定部２２、劣化検出部２３、導入判定部２６等と同様の処理を実行するプロセスを実行する。

　このように、導入判定装置１０は、プログラムを読み出して実行することで導入判定方法を実行する情報処理装置として動作する。また、導入判定装置１０は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、導入判定装置１０によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

　１０　導入判定装置
　１１　通信部
　１２　記憶部
　１３　開発環境データＤＢ
　１４　導入先データＤＢ
　１５　機械学習モデル
　１６　インスペクターモデルＤＢ
　２０　制御部
　２１　インスペクターモデル生成部
　２２　閾値設定部
　２３　劣化検出部
　２４　分類部
　２５　監視部
　２６　導入判定部

Claims

　コンピュータが、
　学習モデルに対して、学習環境とは異なる他の環境で生成された他環境データを入力したときの第一の出力結果を取得し、
　前記学習モデルを前記他の環境に転用した際の学習モデルの正解率の低下を検出する検出モデルに対して、前記他環境データを入力したときの第二の出力結果を取得し、
　前記第一の出力結果および前記第二の出力結果に基づいて、前記学習モデルを前記他の環境に転用する際に、前記学習モデルを再学習するか否かを判定する
　処理を実行することを特徴とする判定方法。
　前記コンピュータが、
　前記学習モデルを再学習すると判定された場合に、前記他環境データに対する前記検出モデルの判定結果に基づき、前記他環境データを説明変数、前記判定結果を目的変数とする再学習データを用いて、前記学習モデルを再学習する処理を実行することを特徴とする請求項１に記載の判定方法。
　前記コンピュータが、
　前記学習モデルを再学習すると判定された場合に、前記他の環境で生成されたデータを用いて、前記学習モデルを再学習する処理を実行することを特徴とする請求項１に記載の判定方法。
　前記コンピュータが、
　複数の異なる環境それぞれの教師データを用いて、前記複数の異なる環境それぞれに対応した複数の検出モデルを生成し、
　複数のデータそれぞれを、学習途中である前記学習モデルと前記複数の検出モデルそれぞれとに入力し、前記学習途中である学習モデルの出力結果と前記複数の検出モデルそれぞれの出力結果との合致率を算出し、
　前記複数のデータのうち、前記複数の検出モデルに対応するいずれかの合致率が閾値以上であるデータを、前記学習モデルの学習データに選択する処理を実行することを特徴とする請求項１に記載の判定方法。
　前記コンピュータが、
　前記学習環境で生成された教師データと前記学習データとを用いて、前記学習モデルの学習を実行する処理を実行することを特徴とする請求項４に記載の判定方法。
　コンピュータに、
　学習モデルに対して、学習環境とは異なる他の環境で生成された他環境データを入力したときの第一の出力結果を取得し、
　前記学習モデルを前記他の環境に転用した際の学習モデルの正解率の低下を検出する検出モデルに対して、前記他環境データを入力したときの第二の出力結果を取得し、
　前記第一の出力結果および前記第二の出力結果に基づいて、前記学習モデルを前記他の環境に転用する際に、前記学習モデルを再学習するか否かを判定する
　処理を実行させることを特徴とする判定プログラム。
　学習モデルに対して、学習環境とは異なる他の環境で生成された他環境データを入力したときの第一の出力結果を取得する取得部と、
　前記学習モデルを前記他の環境に転用した際の学習モデルの正解率の低下を検出する検出モデルに対して、前記他環境データを入力したときの第二の出力結果を取得する取得部と、
　前記第一の出力結果および前記第二の出力結果に基づいて、前記学習モデルを前記他の環境に転用する際に、前記学習モデルを再学習するか否かを判定する判定部と
　を有することを特徴とする情報処理装置。