WO2021095358A1

WO2021095358A1 - 学習方法、評価装置、及び評価システム

Info

Publication number: WO2021095358A1
Application number: PCT/JP2020/035187
Authority: WO
Inventors: 厚星野
Original assignee: 株式会社チノウ
Priority date: 2019-11-12
Filing date: 2020-09-17
Publication date: 2021-05-20
Also published as: JP2021077206A; JP6751955B1

Abstract

【課題】短時間で評価モデルを選択することができる学習方法、評価装置、及び評価システムを提供する。【解決手段】テストデータを用いた機械学習によりデータベースを生成する学習方法であって、複数の評価モデルによって予め導出された前記テストデータに対する複数の判定結果を取得する取得ステップと、前記テストデータと、前記判定結果に基づく参照データと、を一対の学習データとして、複数の前記学習データを用いた機械学習により、複数の前記テストデータと、複数の前記参照データとの間における連関性が記憶されたデータベースを生成する学習ステップとを備える。前記参照データは、前記判定結果を導出した前記評価モデルに関する識別情報を有する。

Description

学習方法、評価装置、及び評価システム

　本発明は、学習方法、評価装置、及び評価システムに関する。

　従来、ＡＩ（Artificial Intelligence）サービスシステム等のような評価モデルが複数存在する場合、各評価モデルの比較方法として例えば特許文献１のＡＩサービス利用システムが提案されている。

　特許文献１では、ＡＩサービスシステムの利用を支援するＡＩサービス利用支援システムに関する技術が開示されている。ＡＩサービス利用支援システムは、通常時の利用に設定されたＡＩサービスシステムに対して、問い合わせデータを送ることで、回答データと確信度とを受け付け、確信度が条件を充足しない場合には、通常時の利用に設定されたＡＩサービスシステム以外のＡＩサービスシステムに対して、問い合わせデータを送るＡＩサービス問い合わせ処理部、を有する。

特開２０１９－２８９５０号公報

　ここで、１つの評価対象となる情報を複数の評価モデル別に評価すると、評価モデル毎に得られる評価結果が異なる場合がある。このため、評価対象となる情報の特徴に応じて、適した評価モデルを選択することが求められている。このとき、例えば特許文献１のように、評価モデル（ＡＩサービスシステム）毎に回答データを取得すると、評価モデルの増加に伴い膨大な時間を費やす必要がある。このため、短時間で評価モデルを選択できることが望まれている。

　そこで本発明は、上述した問題点に鑑みて案出されたものであり、その目的とするところは、短時間で評価モデルを選択することができる学習方法、評価装置、及び評価システムを提供することにある。

　第１発明に係る学習方法は、テストデータを用いた機械学習によりデータベースを生成する学習方法であって、複数の評価モデルによって予め導出された前記テストデータに対する複数の判定結果を取得する取得ステップと、前記テストデータと、前記判定結果に基づく参照データと、を一対の学習データとして、複数の前記学習データを用いた機械学習により、複数の前記テストデータと、複数の前記参照データとの間における連関性が記憶されたデータベースを生成する学習ステップとを備え、前記参照データは、前記判定結果を導出した前記評価モデルに関する識別情報を有し、前記参照データは、前記判定結果に対して付与された正否結果、判定精度、及び判定に費やした時間の少なくとも何れかを有することを特徴とする。

　第２発明に係る学習方法は、第１発明において、複数の前記評価モデルは、それぞれ異なる機械学習の条件により生成された２以上の学習済みモデルを含むことを特徴とする。

　第３発明に係る学習方法は、第１発明において、複数の前記評価モデルは、人間によって前記テストデータを判定するヒューマンモデルを更に含むことを特徴とする。

　第４発明に係る学習方法は、第３発明において、前記テストデータは、前記評価モデルによって処理が実行される作業工程に関する作業情報を含むことを特徴とする。

　第５発明に係る評価装置は、第１発明の学習方法により生成された前記データベースを参照し、評価対象データを評価する評価装置であって、前記評価対象データを取得する取得部と、前記データベースを参照し、複数の前記参照データのうち、前記評価対象データに対する第１参照データを選択する選択部とを備えることを特徴とする。

　第６発明に係る評価装置は、第５発明において、前記第１参照データの有する第１識別情報に基づき、複数の前記評価モデルのうち前記第１識別情報に紐づく第１評価モデルを用いて、前記評価対象データを評価する評価部を更に備えることを特徴とする。

　第７発明に係る評価装置は、第３発明の学習方法により生成された前記データベースを参照し、評価対象データを評価する評価装置であって、前記評価モデルによって処理が実行される作業工程に関する作業情報を複数含む前記評価対象データを取得する取得部と、前記データベースを参照し、複数の前記参照データのうち、複数の前記作業情報のそれぞれに対する複数の第２参照データを選択する選択部とを備えることを特徴とする。

　第８発明に係る評価装置は、第７発明において、複数の前記作業情報と、複数の前記作業情報のそれぞれに対して選択された前記第２参照データに対応する前記評価モデルと、の関係を出力する出力部を更に備えることを特徴とする。

　第９発明に係る評価システムは、テストデータを用いた機械学習により生成されたデータベースを参照し、評価対象データを評価する評価システムであって、評価モデルによって処理が実行される作業工程に関する作業情報を複数含む前記評価対象データを取得する取得手段と、予め取得された複数のテストデータと、複数の前記評価モデルによって予め導出された１つの前記テストデータに対する判定結果に基づく複数の参照データと、の間における連関性が記憶されたデータベースと、前記データベースを参照し、複数の前記参照データのうち、複数の前記作業情報のそれぞれに対する複数の第２参照データを選択する選択手段とを備え、複数の前記評価モデルは、機械学習により生成された学習済みモデル、及び人間によって前記テストデータを判定するヒューマンモデルを含み、前記参照データは、前記判定結果を導出した前記評価モデルに関する識別情報を有することを特徴とする。

　第１０発明に係る評価システムは、第９発明において、複数の前記作業情報と、前記作業情報に対して選択された前記第２参照データに対応する前記評価モデルと、の関係を出力する出力手段を更に備えることを特徴とする。

　第１発明～第８発明によれば、複数の学習データを用いた機械学習により、複数のテストデータと、複数の参照データとの間における連関性が記憶されたデータベースを生成する学習ステップを備える。参照データは、判定結果を導出した評価モデルに関する識別情報を有する。このため、学習方法により生成されたデータベースを参照し、評価対象の情報（評価対象データ）を評価することで、評価対象の情報の特徴に適した評価モデルを選択することができる。これにより、短時間で評価モデルを選択することが可能となる。また、第１発明～第８発明によれば、参照データは、判定結果に対して付与された正否結果、判定精度、及び判定に費やした時間の少なくとも何れかを有する。このため、複数の評価モデルにより導出された判定結果の比較を容易に実施することができる。これにより、評価モデルの選択精度を向上させることが可能となる。

　特に、第２発明によれば、評価モデルは、それぞれ異なる機械学習の条件により生成された２以上の学習済みモデルを含む。このため、２以上のＡＩサービスシステムの比較をする場合、データベースを参照することで、ＡＩサービスシステムの利用料を発生させずに最適なＡＩサービスモデルを選択することができる。これにより、評価に必要な費用を抑制することが可能となる。

　特に、第３発明によれば、評価モデルは、人間によってテストデータを判定するヒューマンモデルを含む。このため、学習済みモデルのような機械的処理と、人的処理との比較を定量的に行うことができる。これにより、多角的な観点によって、評価対象の情報に適した評価モデルを選択することが可能となる。

　特に、第４発明によれば、テストデータは、評価モデルによって処理が実行される作業工程に関する作業情報を含む。このため、学習方法により生成されたデータベースを参照し、評価対象データに含まれる作業情報を評価することで、作業情報に適した機械的処理又は人的処理を選択することができる。これにより、従来人的処理により行っていた作業工程を、機械的処理に変更するか否かの定量的評価を図ることが可能となる。

　特に、第５発明によれば、選択部は、評価対象データに対する第１参照データを選択する。このため、第１参照データの有する識別情報により、評価対象データに適した評価モデルの選択を実現することが可能となる。

　特に、第６発明によれば、評価部は、第１識別評価情報に紐づく第１評価モデルを用いて、評価対象データを評価する。このため、評価対象データに適した評価モデルによる評価を、円滑に実現することが可能となる。

　特に、第７発明によれば、選択部は、複数の作業情報のそれぞれに対する複数の第２参照データを選択する。このため、作業情報毎に適した機械的処理又は人的処理を、それぞれ選択することができる。これにより、従来人的処理により行っていた作業工程を、機械的処理に変更するか否かの定量的評価を実現することが可能となる。

　特に、第８発明によれば、出力部は、複数の作業情報と、複数の作業情報のそれぞれに対して選択された第２参照データに対応する評価モデルと、の関係を出力する。このため、各作業情報に適した評価モデルを、ユーザ等に報知することが可能となる。

　第９発明、第１０発明によれば、複数のテストデータと、複数の参照データとの間における連関度が記憶されたデータベースを備える。参照データは、判定結果を導出した評価モデルに関する識別情報を有する。選択手段は、複数の作業情報のそれぞれに対する第２参照データを選択する。このため、第２参照データの有する識別情報により、各作業情報に適した評価モデルを選択することができる。これにより、短時間で評価モデルを選択することが可能となる。

　また、第９発明、第１０発明によれば、選択手段は、複数の作業情報のそれぞれに対する複数の第２参照データを選択する。このため、作業情報毎に適した機械的処理又は人的処理を、それぞれ選択することができる。これにより、従来人的処理により行っていた作業工程を、機械的処理に変更するか否かの定量的評価を実現することが可能となる。

図１は、第１実施形態における評価システムの一例を示す模式図である。図２は、第１実施形態における評価システムの動作の一例を示す模式図である。図３（ａ）は、データベースの一例を示す模式図であり、図３（ｂ）は、データベースの第１変形例を示す模式図である。図４（ａ）及び図４（ｂ）は、第１実施形態における学習方法の一例を示す模式図である。図５は、データベースの他の例を示す模式図である。図６（ａ）は、第１実施形態における評価装置の構成の一例を示す模式図であり、図６（ｂ）は、第１実施形態における評価装置の機能の一例を示す模式図である。図７（ａ）は、第１実施形態における学習方法の一例を示すフローチャートであり、図７（ｂ）は、第１実施形態における評価システムの動作の一例を示すフローチャートである。図８（ａ）は、第２実施形態における評価システムの動作の一例を示す模式図であり、図８（ｂ）及び図８（ｃ）は、第２実施形態における学習方法の一例を示す模式図である。図９は、第２実施形態における評価システムの動作の一例を示すフローチャートである。

　以下、本発明を適用した実施形態における学習方法、評価装置、及び評価システムの一例について、図面を参照しながら説明する。

（第１実施形態）
　図１～図４を参照して、第１実施形態における評価システム１００、学習方法、及び評価装置１の一例について説明する。図１は、本実施形態における評価システム１００の一例を示す模式図である。図２は、本実施形態における評価システム１００の動作の一例を示す模式図である。図３は、データベースの例を示す模式図である。図４は、本実施形態における学習方法の一例を示す模式図である。

　＜評価システム１００＞
　評価システム１００は、テストデータを用いた機械学習により生成されたデータベースを参照し、評価対象データを評価するために用いられる。評価システム１００では、例えば評価対象データの特徴に応じて、複数の評価モデルのうち評価特徴データの評価に適した評価モデルを選択することができる。

　評価システム１００は、例えば図１に示すように、評価装置１を備える。評価システム１００は、例えば端末２及びサーバ３の少なくとも何れかを備えてもよい。評価装置１は、例えば通信網４を介して端末２やサーバ３と接続される。

　評価システム１００では、例えば図２に示すように、評価装置１が評価対象データを取得する。評価装置１は、データベースを参照し、評価対象データに対する参照データ（第１参照データ）を選択する。第１参照データは、評価モデルに関する識別情報を有する。このため、第１参照データを参照することで、評価対象データに適した評価モデル（第１評価モデル）を選択することができる。

　評価システム１００は、例えば選択した評価モデルを用いて、評価対象データを評価してもよい。このため、評価対象データに適した評価モデルによる評価を、円滑に実現することが可能となる。

　評価対象データは、ＡＩサービスシステム等の評価モデルによって評価（分類）可能な情報に関するデータを示す。評価対象データとして、例えば質問、課題、作業工程等に関するテキストデータや音データが用いられるほか、例えば人物等を撮像した画像データが用いられてもよい。

　例えば、質問や課題に関する評価対象データを用いた場合、評価システム１００は、評価対象データに適した評価モデルによって、例えば質問に対する回答や、課題に対する対策等を、評価結果として生成してもよい。例えば、人物を撮像した画像に関する評価対象データを用いた場合、評価システム１００は、評価対象データに適した評価モデルによって、例えば人物の性別や推定年齢等の属性情報を、評価結果として生成してもよい。

　例えば、製造工程内のオペレーション、品質管理センサの確認、定期的なメール送信等の作業工程等に関する評価対象データを用いた場合、評価システム１００は、作業工程を実施する際に適した評価モデルを選択してもよい。即ち、評価対象データは、例えば評価モデルによって処理が実行できる作業工程に関する作業情報を含んでもよい。

　評価システム１００では、例えば図３に示すように、畳み込みニューラルネットワークモデルにより生成されたデータベースが用いられてもよい。例えば図３（ａ）に示すように、例えばResNet50の畳み込み層部分を用い、出力部には全結合層を加えた学習方法により学習させてもよい。この場合、例えば全結合層では、活性化関数にLeaky ReLUを用い、出力層では、シグモイド関数を用いて正解確率を出力し、例えば最も正解確率の高い評価モデルに紐づく第１参照データを選択する。これにより、効率的かつ安定した機械学習を実現することが可能となる。なお、上述した畳み込みニューラルネットワークモデルは、例えば転移学習を用いて予め機械学習により構築されるほか、例えば全結合層と共に学習方法を用いて構築されてもよい。また、活性化関数として、上述したLeaky ReLu（ReLu関数）やシグモイド関数が用いられるほか、例えば恒等関数、ソフトマックス関数等の公知の関数が用いられてもよい。

　上記のほか、評価システム１００では、例えば図３（ｂ）に示すように、畳み込みニューラルネットワークモデル（例えばResNet50）を評価モデル毎に用い、各評価モデルに対する正解確率を出力するようにしてもよい。この場合、図３（ａ）に示したデータベースに比べて、精度の向上を図ることが可能となる。なお、上述したResNet50の代わりに、例えばVGG16、InceptionV3、DenseNet、InceptionResNetV2等が用いられてもよい。

　＜学習方法の例＞
　学習方法は、例えば図４（ａ）及び図４（ｂ）に示すように、テストデータを用いた機械学習により、データベースを生成する。学習方法は、例えば評価装置１を用いて行うほか、端末２等のような公知の電子機器を用いて行うことができる。

　学習方法は、例えば図４（ａ）に示すように、テストデータと、参照データとを一対の学習データとして、複数の学習データを用いた機械学習を行う。これにより、データベースが生成される。学習方法の詳細については、後述する。

　テストデータは、上述した評価対象データと同種のデータを示す。学習方法に用いる複数のテストデータとして、例えば複数種類の内容を示すテキストデータが用いられるほか、テキストデータ及び画像データを混合したデータが用いられてもよい。

　参照データは、例えば図４（ｂ）に示すように、テストデータに基づき生成される。参照データは、評価装置１により生成されるほか、例えば端末２等のような公知の電子機器を用いて生成されてもよい。

　例えば評価装置１等は、複数のテストデータを取得する。評価装置１等は、複数の評価モデルを参照し、１つのテストデータに対して評価モデル毎に判定結果を導出する。即ち、判定結果として、テストデータの数に評価モデルの数を乗算した数が導出される。このため、同一のテストデータに対して評価モデル毎に異なる判定結果を得ることができ、利用する評価モデル毎の特徴を明確にすることができる。その後、判定結果に基づく参照データを生成する。

　参照データは、判定結果を導出した評価モデルに関する識別情報を有する。参照データは、例えば判定結果に対して付与された正否結果、判定精度、及び判定に費やした時間の少なくとも何れかを有するほか、判定結果を有してもよい。正否結果、及び判定精度は、任意の公知技術を用いて取得することができ、例えばテストデータに対する正解や閾値等を、予め評価装置１等に記憶させておくことで実現してもよく、例えば人的に付与された判定結果に対する正否結果等に関するデータを、評価装置１等が取得してもよい。

　評価モデルは、評価対象データに対して評価結果を導出できる処理手段やアルゴリズムを示し、例えば機械学習により生成された学習済みモデル（分類器以外での学習器）を含む。学習済みモデルが複数存在する場合、複数の学習済みモデルは、例えばそれぞれ異なる機械学習の条件により生成された２以上の学習済みモデルを含む。評価モデルとして、例えば公知のＡＩサービスシステムが用いられ、例えば「IBM Watson Visual Recognition」、「Microsoft Face API」、「Amazon Recognition」等が用いられるほか、例えば深層学習モデルを含む公知の学習器が用いられてもよい。

　評価モデルは、例えば人間によって評価対象データに対して評価結果を導出するヒューマンモデルを含んでもよい。ヒューマンモデルは、例えば評価者によって評価対象データの内容を判断又は演算等を行うことを示し、ヒューマンモデルが評価モデルに含まれることで、機械的処理と、人的処理との比較を定量的に行うことができる。評価モデルにヒューマンモデルが含まれる場合、参照データを生成する評価装置１等は、例えばテストデータに対する判定結果を取得し、参照データを生成する。

　学習方法により用いられる機械学習として、畳み込みニューラルネットワーク等の深層学習が用いられるほか、例えばランダムフォレストや、ＳＶＭ（Support Vector Machine）等のような公知の技術（例えば教師あり機械学習）が用いられてもよい。学習方法により生成されたデータベースには、複数のテストデータと、複数の参照データとの間における連関性が記憶される。

　例えば連関性は、多対多の情報（複数のテストデータ、対、複数の参照データ）の間における繋がりの度合いにより構築される。連関性は、機械学習の過程で適宜更新され、例えば複数のテストデータ、及び複数の参照データに基づいて最適化された関数（分類器）を示す。なお、連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。

　このため、評価システム１００では、テストデータの判定した結果を全て踏まえた連関性を用いて、評価対象データに適した参照データ（評価モデル）を選択する。これにより、評価対象データが、テストデータと同一又は類似である場合のほか、非類似である場合においても、適した評価モデルを定量的に選択することができる。なお、機械学習を行う際に汎化能力を高めることで、未知の評価対象データに対する評価精度の向上を図ることができる。

　連関性は、例えば図５に示すように、複数のテストデータと、複数の参照データとの間における繋がりの度合いを示してもよい。この場合、連関性を用いることで、複数のテストデータ（図５では「テストＡ」～「テストＣ」）のそれぞれに対し、複数の参照データ（図５では「参照Ａ」～「参照Ｃ」）の関係の度合いを紐づけて記憶させることができる。このため、例えば連関性を介して、１つのテストデータに対して、複数の参照データを紐づけることができる。これにより、評価対象データに対して多角的な参照データの選択や評価を実現することができる。

　連関性は、各テストデータと、各参照データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、１０段階、又は５段階等の３段階以上で示され、例えば線の特徴（例えば太さ等）で示される。例えば、テストデータに含まれる「テストＡ」は、参照データに含まれる「参照Ａ」との間の連関度ＡＡ「７３％」を示し、参照データに含まれる「参照Ｂ」との間の連関度ＡＢ「１２％」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。

　＜評価装置１＞
　次に、図６を参照して、本実施形態における評価装置１の一例を説明する。図６（ａ）は、本実施形態における評価装置１の構成の一例を示す模式図であり、図６（ｂ）は、本実施形態における評価装置１の機能の一例を示す模式図である。

　評価装置１として、例えばラップトップ（ノート）ＰＣ又はデスクトップＰＣ等の電子機器が用いられる。評価装置１は、例えば図６（ａ）に示すように、筐体１０と、ＣＰＵ（Central Processing Unit）１０１と、ＲＯＭ（Read Only Memory）１０２と、ＲＡＭ（Random Access Memory）１０３と、保存部１０４と、Ｉ／Ｆ１０５～１０７とを備える。各構成１０１～１０７は、内部バス１１０により接続される。

　ＣＰＵ１０１は、評価装置１全体を制御する。ＲＯＭ１０２は、ＣＰＵ１０１の動作コードを格納する。ＲＡＭ１０３は、ＣＰＵ１０１の動作時に使用される作業領域である。保存部１０４は、データベースや評価対象データ等の各種情報が記憶される。保存部１０４として、例えばＨＤＤ（Hard Disk Drive）のほか、ＳＳＤ（Solid State Drive）等のデータ保存装置が用いられる。なお、例えば評価装置１は、図示しないＧＰＵ（Graphics Processing Unit）を有してもよい。

　Ｉ／Ｆ１０５は、通信網４を介して、必要に応じて端末２、サーバ３、ウェブサイト等との各種情報の送受信を行うためのインターフェースである。Ｉ／Ｆ１０６は、入力部１０８との情報の送受信を行うためのインターフェースである。入力部１０８として、例えばキーボードが用いられ、評価装置１の使用者等は、入力部１０８を介して、各種情報、又は評価装置１の制御コマンド等を入力する。Ｉ／Ｆ１０７は、表示部１０９との各種情報の送受信を行うためのインターフェースである。表示部１０９は、保存部１０４に保存された各種情報、又は評価結果等を表示する。表示部１０９として、ディスプレイが用いられ、例えばタッチパネル式の場合、入力部１０８と一体に設けられる。

　図６（ｂ）は、評価装置１の機能の一例を示す模式図である。評価装置１は、取得部１１と、選択部１２と、評価部１３と、出力部１４と、記憶部１５とを備え、例えば学習部１６を有してもよい。なお、図６（ｂ）に示した各機能は、ＣＰＵ１０１が、ＲＡＭ１０３を作業領域として、保存部１０４等に記憶されたプログラムを実行することにより実現され、例えば人工知能等により制御されてもよい。

　＜＜取得部１１＞＞
　取得部１１は、評価対象データを取得する。取得部１１は、例えば入力部１０８から入力された評価対象データを取得するほか、例えば通信網４を介して端末２等から評価対象データを取得してもよい。

　例えば評価装置１を用いて学習方法を行う場合、取得部１１は、複数の評価モデルによって予め導出されたテストデータに対する複数の判定結果と、複数のテストデータとを取得する。なお、例えば評価装置１を用いて、テストデータに対する判定結果を導出する処理を行うことで、複数の判定結果を取得してもよい。

　＜＜選択部１２＞＞
　選択部１２は、データベースを参照し、複数の参照データのうち、評価対象データに対する参照データ（例えば第１参照データ）を選択する。選択部１２は、例えば評価対象データに対し、連関性の最も高い参照データを、第１参照データとして選択するほか、例えば予め設定された閾値以上の連関度を有する複数の参照データを、第１参照データとして選択してもよい。

　例えば図５のデータベースを参照した場合、選択部１２は、評価対象データと同一又は類似するテストデータ（例えば「テストＡ」：第１テストデータとする）を選択する。選択されるテストデータとして、評価対象データと一部一致又は完全一致するテストデータが選択されるほか、例えば評価対象データと類似するテストデータが選択される。なお、選択される類似度の度合い、及び選択されるテストデータの数については、任意に設定できる。

　選択部１２は、選択した第１テストデータに紐づく参照データのうち、例えば最も連関度の高い参照データ（例えば「参照Ａ」：第１参照データとする）を選択するほか、例えば閾値（例えば３０％）以上の連関度を有する参照データ（例えば「参照Ａ」（連関度ＡＡ（７３％）））、及び「参照Ｃ」（連関度ＡＣ（３３％））を、第１参照データとして選択してもよい。

　＜＜評価部１３＞＞
　評価部１３は、例えば第１参照データの有する識別情報（例えば図２に示す「モデルＡ」：第１識別情報とする）に基づき、複数の評価モデルのうち第１識別情報に紐づく評価モデル（例えば図２に示す「評価モデルＡ」：第１評価モデルとする）を用いて、評価対象データを評価する。評価部１３は、例えば第１評価モデルとして複数の評価モデルを用い、それぞれの評価モデルによって評価対象データを評価してもよい。

　＜＜出力部１４＞＞
　出力部１４は、評価対象データに対する評価結果を出力する。出力部１４は、例えば評価対象データに対して選択された第１参照データを出力してもよい。

　出力部１４は、例えば保存部１０４に予め記憶された表示用のフォーマットを用いて、評価結果を使用者等が理解できる文字列等に変換した評価結果情報を生成し、出力する。出力部１４は、Ｉ／Ｆ１０７を介して表示部１０９に評価結果情報を送信するほか、例えばＩ／Ｆ１０５を介して、端末２等に評価結果情報を送信する。

　＜＜記憶部１５＞＞
　記憶部１５は、保存部１０４に保存されたデータベース等の各種データを必要に応じて取出す。記憶部１５は、各構成１１～１４、１６により取得又は生成された各種データを、必要に応じて保存部１０４に保存する。

　＜＜学習部１６＞＞
　学習部１６は、例えばテストデータと、判定結果に基づく参照データと、を一対の学習データとして、複数の学習データを用いた機械学習によりデータベースを生成する。機械学習には、例えば上述した畳み込みニューラルネットワーク等が用いられる。

　学習部１６は、例えば取得部１１により取得された判定結果に基づき、参照データを生成してもよい。学習部１６は、例えば判定結果を導出した評価モデルに関する識別情報を有する参照データを生成する。識別情報は、例えば評価モデルに紐づく識別情報リスト等を予め保存部１０４に記憶させておき、必要に応じてリスト等を参照して生成されてもよく、予め判定結果に含まれるように設定してもよい。

　学習部１６は、例えば判定結果に対して、正否結果、判定精度、及び判定に費やした時間の少なくとも何れかを算出し、それらを有する参照データを生成してもよい。正否結果、及び判定精度は、例えばテストデータに対する正解や閾値等を予め保存部１０４に記憶させておき、必要に応じて正解等を参照して生成されてもよい。

　＜端末２＞
　端末２は、例えば評価システム１００を用いたサービスのユーザ等が保有し、通信網４を介して評価装置１と接続される。端末２は、例えばデータベースを生成する電子機器を示してもよい。端末２は、例えばパーソナルコンピュータや、タブレット端末等の電子機器が用いられる。端末２は、例えば評価装置１の備える機能のうち、少なくとも一部の機能を備えてもよい。

　＜サーバ３＞
　サーバ３は、通信網４を介して評価装置１と接続される。サーバ３は、過去の各種データ等が記憶され、必要に応じて評価装置１から各種データが送信される。サーバ３は、例えば評価装置１の備える機能のうち、少なくとも一部の機能を備えてもよく、例えば評価装置１の代わりに少なくとも一部の処理を行ってもよい。サーバ３は、例えば評価装置１の保存部１０４に記憶された各種データのうち少なくとも一部が記憶され、例えば保存部１０４の代わりに用いられてもよい。

　＜通信網４＞
　通信網４は、例えば評価装置１が通信回路を介して接続されるインターネット網等である。通信網４は、いわゆる光ファイバ通信網で構成されてもよい。また、通信網４は、有線通信網のほか、無線通信網等の公知の通信技術で実現してもよい。

（第１実施形態：学習方法）
　次に、本実施形態における学習方法の一例について説明する。図７（ａ）は、本実施形態における学習方法の一例を示すフローチャートである。

　学習方法は、取得ステップＳ１１０と、学習ステップＳ１２０とを備える。学習方法は、例えば導出ステップＳ１００を備えてもよい。

　＜導出ステップＳ１００＞
　導出ステップＳ１００は、例えば複数の評価モデルによって、テストデータに対する複数の判定結果を導出する。取得部１１は、例えば複数のテストデータを取得する。

　例えば複数の評価モデルが公知のＡＩサービスシステムを含む場合、取得部１１は、通信網４を介してテストデータをＡＩサービスシステムのウェブサイト等に送信する。これにより、ＡＩサービスシステムによって、テストデータに対する判定結果が導出される。

　例えば複数の評価モデルが保存部１０４に保存されている場合、取得部１１は、記憶部１５を介して評価モデルを取得する。これにより、取得部１１は、評価モデルを参照し、テストデータに対する判定結果を導出できる。

　例えば複数の評価モデルがヒューマンモデルを含む場合、取得部１１は、表示部１０９を介してテストデータを表示する。これにより、人間によって、テストデータに対する判定結果が導出される。

　＜取得ステップＳ１１０＞
　取得ステップＳ１１０は、テストデータに対する複数の判定結果を取得する。判定結果は、例えば上述した導出ステップＳ１００等において、予め複数の評価モデルによって導出される。取得部１１は、１つのテストデータに対する複数の判定結果を１組として、複数組取得する。

　例えば複数の評価モデルが公知のＡＩサービスシステムを含む場合、取得部１１は、通信網４を介して判定結果をＡＩサービスシステムのウェブサイト等から取得する。

　例えば複数の評価モデルがヒューマンモデルを含む場合、取得部１１は、入力部１０８等を介して人間により入力された判定結果を取得する。

　＜学習ステップＳ１２０＞
　学習ステップＳ１２０は、テストデータと、判定結果に基づく参照データと、を一対の学習データとして、複数の学習データを用いた機械学習によりデータベースを生成する。学習部１６は、例えば畳み込みニューラルネットワークを用いた機械学習により、データベースを生成する。

　学習部１６は、例えば取得ステップＳ１１０により取得された判定結果に基づき、参照データを生成する。学習部１６は、例えば１つ以上の判定結果に対して１つ以上の参照データを生成する。

　これにより、本実施形態における学習方法が終了する。なお、上記では評価装置１を用いて学習方法を行う場合について説明したが、例えば各ステップＳ１００、Ｓ１１０、Ｓ１２０のうち、少なくとも一部において端末２等を用いて行ってもよい。

（第１実施形態：評価システム１００の動作）
　次に、本実施形態における評価システム１００の動作の一例について説明する。図７（ｂ）は、本実施形態における評価システム１００の動作の一例を示すフローチャートである。

　評価システム１００は、取得手段Ｓ２１０と、選択手段Ｓ２２０とを備える。評価システム１００は、例えば評価手段Ｓ２３０を備えてもよい。

　＜取得手段Ｓ２１０＞
　取得手段Ｓ２１０は、評価対象データを取得する。取得部１１は、例えば入力部１０８を介して、使用者等が入力した評価対象データを取得するほか、例えば通信網４を介して、端末２等から評価対象データを取得する。取得部１１は、例えば記憶部１５を介して、取得した評価対象データを保存部１０４に保存してもよい。

　＜選択手段Ｓ２２０＞
　選択手段Ｓ２２０は、データベースを参照し、複数の参照データのうち、評価対象データに対する第１参照データを選択する。選択部１２は、例えば記憶部１５を介して、保存部１０４に保存されたデータベースを取得する。選択部１２は、データベースを参照し、例えば評価対象データに対して最も連関度の高い参照データを、第１参照データとして選択する。上記のほか、例えば選択部１２は、予め設定された閾値以上の連関度に紐づく１以上の参照データを、第１参照データとして選択してもよい。

　選択部１２は、例えば複数の参照データを、第１参照データとして選択してもよい。この場合、例えば評価モデル毎に紐づく参照データを選択するように設定することで、各評価モデルが評価対象データを評価した場合に想定される評価精度等を、取得することができる。これにより、評価モデル毎の比較を容易に実施することが可能となる。

　第１参照データを選択したあと、例えば出力部１４は、表示部１０９や端末２等に第１参照データを出力してもよい。また、例えば出力部１４は、参照データの有する識別情報に基づき、評価モデルに対する推定評価結果として、第１参照データの有する判定結果や正否結果等を出力してもよい。

　＜評価手段Ｓ２３０＞
　評価手段Ｓ２３０では、例えば評価部１３は、第１参照データの有する第１識別情報に基づき、複数の評価モデルのうち第１識別情報に紐づく第１評価モデルを用いて、評価対象データを評価する。

　例えば第１評価モデルが公知のＡＩサービスシステムを含む場合、評価部１３は、通信網４を介してテストデータをＡＩサービスシステムのウェブサイト等に送信する。その後、ＡＩサービスシステムにより導出された評価対象データに対する評価結果を取得する。これにより、ＡＩサービスシステムによって、評価対象データに対する評価結果が得られる。

　例えば第１評価モデルが保存部１０４に保存されている場合、評価部１３は、記憶部１５を介して評価モデルを取得する。これにより、評価部１３は、評価モデルを参照し、評価対象データに対する評価結果が得られる。

　例えば第１評価モデルがヒューマンモデルを含む場合、評価部１３は、表示部１０９を介して評価対象データを表示する。その後、人間によって導出された評価対象データに対する評価結果を、入力部１０８等を介して取得する。これにより、ヒューマンモデルによって、評価対象データに対する評価結果が得られる。

　評価結果を得た後、例えば出力部１４は、表示部１０９や端末２等に評価結果を出力してもよい。

　これにより、本実施形態における評価システム１００の動作が終了する。

　本実施形態における学習方法によれば、複数の学習データを用いた機械学習により、複数のテストデータと、複数の参照データとの間における連関性が記憶されたデータベースを生成する学習ステップＳ１２０を備える。参照データは、判定結果を導出した評価モデルに関する識別情報を有する。このため、学習方法により生成されたデータベースを参照し、評価対象の情報（評価対象データ）を評価することで、評価対象の情報の特徴に適した評価モデルを選択することができる。これにより、短時間で評価モデルを選択することが可能となる。

　また、本実施形態における学習方法によれば、評価モデルは、それぞれ異なる機械学習の条件により生成された２以上の学習済みモデルを含む。このため、２以上のＡＩサービスシステムの比較をする場合、データベースを参照することで、ＡＩサービスシステムの利用料を発生させずに最適なＡＩサービスモデルを選択することができる。これにより、評価に必要な費用を抑制することが可能となる。

　また、本実施形態における学習方法によれば、参照データは、判定結果に対して付与された正否結果、判定精度、及び判定に費やした時間の少なくとも何れかを有する。このため、複数の評価モデルにより導出された判定結果の比較を容易に実施することができる。これにより、評価モデルの選択精度を向上させることが可能となる。

　また、本実施形態における学習方法によれば、評価モデルは、人間によってテストデータを判定するヒューマンモデルを含む。このため、学習済みモデルのような機械的処理と、人的処理との比較を定量的に行うことができる。これにより、多角的な観点によって、評価対象の情報に適した評価モデルを選択することが可能となる。

　また、本実施形態における学習方法によれば、テストデータは、評価モデルによって処理が実行される作業工程に関する作業情報を含む。このため、学習方法により生成されたデータベースを参照し、評価対象データに含まれる作業情報を評価することで、作業情報に適した機械的処理又は人的処理を選択することができる。これにより、従来人的処理により行っていた作業工程を、機械的処理に変更するか否かの定量的評価を図ることが可能となる。

　本実施形態における評価装置１によれば、選択部１２は、評価対象データに対する第１参照データを選択する。このため、第１参照データの有する識別情報により、評価対象データに適した評価モデルの選択を実現することが可能となる。

　また、本実施形態における評価装置１によれば、評価部１３は、第１識別評価情報に紐づく第１評価モデルを用いて、評価対象データを評価する。このため、評価対象データに適した評価モデルによる評価を、円滑に実現することが可能となる。

　本実施形態における評価システム１００によれば、複数のテストデータと、複数の参照データとの間における連関度が記憶されたデータベースを備える。参照データは、判定結果を導出した評価モデルに関する識別情報を有する。選択手段Ｓ２２０は、評価対象データに対する第１参照データを選択する。このため、第１参照データの有する識別情報により、評価対象データに適した評価モデルを選択することができる。これにより、短時間で評価モデルを選択することが可能となる。

（第２実施形態）
　次に、図８を参照して、第２実施形態における評価システム１００、学習方法、及び評価装置１の一例について説明する。図８（ａ）は、本実施形態における評価システム１００の動作の一例を示す模式図であり、図８（ｂ）及び図８（ｃ）は、本実施形態における学習方法の一例を示す模式図である。

　第２実施形態と、第１実施形態との違いは、評価対象データが、作業処理に関する作業情報を複数含む点である。なお、第１実施形態と同様の構成については、説明を省略する。

　本実施形態における評価システム１００では、例えば図８（ａ）に示すように、評価対象データが、複数の作業情報を含む（例えば「〇〇作業」、「××作業」等）。評価システム１００では、作業情報毎に、最適な評価モデルを選択することができる。

　特に、評価システム１００では、複数の評価モデルが、機械学習により生成された学習済みモデル、及びヒューマンモデルを含む。このため、作業情報毎に適した機械的処理又は人的処理を、それぞれ選択することができる。

　本実施形態における学習方法は、例えば図８（ｂ）及び図８（ｃ）に示すように、テストデータが、１つ以上の作業情報を含む。このため、参照データには、作業情報に対する評価モデルの適正を判断できる指標を含ませることができる。なお、本実施形態における学習方法は、上述した各ステップと同様の内容によって行うことができる。

（第２実施形態：評価システム１００の動作）
　次に、本実施形態における評価システム１００の動作の一例について説明する。図９は、本実施形態における評価システム１００の一例を示すフローチャートである。

　評価システム１００は、取得手段Ｓ２１１と、選択手段Ｓ２２１と、出力手段Ｓ２４０とを備える。

　＜取得手段Ｓ２１１＞
　取得手段Ｓ２１１は、上述した取得手段Ｓ２１０と同様の内容によって行うことができるほか、例えば取得部１１は、複数の作業情報を取得したあと、１つの評価対象データとして取得してもよい。

　＜選択手段Ｓ２２１＞
　選択手段Ｓ２２１は、データベースを参照し、参照データのうち、複数の作業情報のそれぞれに対する複数の参照データ（例えば第２参照データ）を選択する。選択部１２は、例えば評価データに含まれる複数の作業情報毎に、データベースを参照して第２参照データを選択する。このため、各作業情報に対する第２参照データが、それぞれ独立に選択される。

　なお、例えば選択部１２は、１つの作業情報に対して複数の参照データを、１つの第２参照データとして選択してもよい。この場合、例えば１つの作業情報に対し、評価モデル毎の評価精度等を取得することができる。

　＜出力手段Ｓ２４０＞
　出力手段Ｓ２４０は、複数の作業情報と、作業情報に対して選択された第２参照データに対応する評価モデルと、の関係を出力する。出力部１４は、例えば作業情報に対して評価モデルを紐づけた内容に関する情報を出力するほか、例えば複数の作業情報を行、複数の評価モデルを列としたテーブルに、各作業情報に対する評価モデルの評価精度や連関度を示す情報を出力してもよい。

　これにより、本実施形態における評価システム１００の動作が終了する。なお、本実施形態における評価システム１００は、例えば選択手段Ｓ２２１として上述した選択手段Ｓ２２０を実施してもよく、例えば上述した評価手段Ｓ２３０を実施してもよい。

　本実施形態における評価装置１によれば、上述した実施形態の効果に加え、選択部１２は、複数の作業情報のそれぞれに対する複数の第２参照データを選択する。このため、作業情報毎に適した機械的処理又は人的処理を、それぞれ選択することができる。これにより、従来人的処理により行っていた作業工程を、機械的処理に変更するか否かの定量的評価を実現することが可能となる。

　また、本実施形態における評価装置１によれば、出力部１４は、複数の作業情報と、複数の作業情報のそれぞれに対して選択された第２参照データに対応する評価モデルと、の関係を出力する。このため、各作業情報に適した評価モデルを、ユーザ等に報知することが可能となる。

　本実施形態における評価システム１００によれば、上述した実施形態の効果に加え、複数のテストデータと、複数の参照データとの間における連関度が記憶されたデータベースを備える。参照データは、判定結果を導出した評価モデルに関する識別情報を有する。選択手段Ｓ２２１は、複数の作業情報のそれぞれに対する第２参照データを選択する。このため、第２参照データの有する識別情報により、各作業情報に適した評価モデルを選択することができる。これにより、短時間で評価モデルを選択することが可能となる。

　また、本実施形態における評価システム１００によれば、選択手段Ｓ２２１は、複数の作業情報のそれぞれに対する複数の第２参照データを選択する。このため、作業情報毎に適した機械的処理又は人的処理を、それぞれ選択することができる。これにより、従来人的処理により行っていた作業工程を、機械的処理に変更するか否かの定量的評価を実現することが可能となる。

　本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１　　　　：評価装置
２　　　　：端末
３　　　　：サーバ
４　　　　：通信網
１０　　　：筐体
１１　　　：取得部
１２　　　：選択部
１３　　　：評価部
１４　　　：出力部
１５　　　：記憶部
１６　　　：学習部
１００　　：評価システム
１０１　　：ＣＰＵ
１０２　　：ＲＯＭ
１０３　　：ＲＡＭ
１０４　　：保存部
１０５　　：Ｉ／Ｆ
１０６　　：Ｉ／Ｆ
１０７　　：Ｉ／Ｆ
１０８　　：入力部
１０９　　：表示部
１１０　　：内部バス
Ｓ１００　：導出ステップ
Ｓ１１０　：取得ステップ
Ｓ１２０　：学習ステップ
Ｓ２１０　：取得手段
Ｓ２２０　：選択手段
Ｓ２３０　：評価手段
Ｓ２４０　：出力手段

Claims

　テストデータを用いた機械学習によりデータベースを生成する学習方法であって、
　複数の評価モデルによって予め導出された前記テストデータに対する複数の判定結果を、取得する取得ステップと、
　前記テストデータと、前記判定結果に基づく参照データと、を一対の学習データとして、複数の前記学習データを用いた機械学習により、複数の前記テストデータと、複数の前記参照データとの間における連関性が記憶されたデータベースを生成する学習ステップと
　を備え、
　前記参照データは、前記判定結果を導出した前記評価モデルに関する識別情報を有し、
　前記参照データは、前記判定結果に対して付与された正否結果、判定精度、及び判定に費やした時間の少なくとも何れかを有すること
　を特徴とする学習方法。
　複数の前記評価モデルは、それぞれ異なる機械学習の条件により生成された２以上の学習済みモデルを含むこと
　を特徴とする請求項１記載の学習方法。
　複数の前記評価モデルは、人間によって前記テストデータを判定するヒューマンモデルを更に含むこと
　を特徴とする請求項１記載の学習方法。
　前記テストデータは、前記評価モデルによって処理が実行される作業工程に関する作業情報を含むこと
　を特徴とする請求項３記載の学習方法。
　請求項１記載の学習方法により生成された前記データベースを参照し、評価対象データを評価する評価装置であって、
　前記評価対象データを取得する取得部と、
　前記データベースを参照し、複数の前記参照データのうち、前記評価対象データに対する第１参照データを選択する選択部と
　を備えることを特徴とする評価装置。
　前記第１参照データの有する第１識別情報に基づき、複数の前記評価モデルのうち前記第１識別情報に紐づく第１評価モデルを用いて、前記評価対象データを評価する評価部を更に備えること
　を特徴とする請求項５記載の評価装置。
　請求項３記載の学習方法により生成された前記データベースを参照し、評価対象データを評価する評価装置であって、
　前記評価モデルによって処理が実行される作業工程に関する作業情報を複数含む前記評価対象データを取得する取得部と、
　前記データベースを参照し、複数の前記参照データのうち、複数の前記作業情報のそれぞれに対する複数の第２参照データを選択する選択部と
　を備えることを特徴とする評価装置。
　複数の前記作業情報と、複数の前記作業情報のそれぞれに対して選択された前記第２参照データに対応する前記評価モデルと、の関係を出力する出力部を更に備えること
　を特徴とする請求項７記載の評価装置。
　テストデータを用いた機械学習により生成されたデータベースを参照し、評価対象データを評価する評価システムであって、
　評価モデルによって処理が実行される作業工程に関する作業情報を複数含む前記評価対象データを取得する取得手段と、
　　予め取得された複数のテストデータと、
　　複数の前記評価モデルによって予め導出された１つの前記テストデータに対する判定結果に基づく複数の参照データと、
　の間における連関性が記憶されたデータベースと、
　前記データベースを参照し、複数の前記参照データのうち、複数の前記作業情報のそれぞれに対する複数の第２参照データを選択する選択手段と
　を備え、
　複数の前記評価モデルは、機械学習により生成された学習済みモデル、及び人間によって前記テストデータを判定するヒューマンモデルを含み、
　前記参照データは、前記判定結果を導出した前記評価モデルに関する識別情報を有すること
　を特徴とする評価システム。
　複数の前記作業情報と、前記作業情報に対して選択された前記第２参照データに対応する前記評価モデルと、の関係を出力する出力手段を更に備えること
　を特徴とする請求項９記載の評価システム。