JPWO2019198408A1

JPWO2019198408A1 - 学習装置、学習方法、及び学習プログラム

Info

Publication number: JPWO2019198408A1
Application number: JP2020513128A
Authority: JP
Inventors: 豪啓安藤; 理貴近藤
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2018-04-11
Filing date: 2019-03-13
Publication date: 2021-02-12
Anticipated expiration: 2039-03-13
Also published as: JP6804009B2; WO2019198408A1

Abstract

材料又は薬剤を生成するための実験条件と実験結果の性能値との複数の組み合わせを入力とし、実験条件を出力とした出力モデルに、前記複数の組み合わせを入力することによって出力された実験条件を、仮想的な実験を行う実験モデルに入力することにより得られた実験結果の性能値を用いて前記出力モデルの評価値を導出する導出部と、前記導出部により導出された評価値を反映させる機械学習によって前記出力モデルを学習させる学習部と、を備えた学習装置。

Description

本開示は、学習装置、学習方法、及び学習プログラムに関する。

第１の結果値を有するデータと第２の結果値を有するデータとの間の関係に基づいて、第２の結果値を有するデータを第１の結果値を有するデータに変化させるための評価項目及びその値を抽出するデータ分析装置が提案されている（特開２０００−３０５９４１号公報参照）。このデータ分析装置は、抽出した評価項目の値を変更する場合に、結果値への影響を調べ、かつ抽出した評価項目の値の変更の効果を計算する。

また、訓練データの複数の属性値に対応する出力値の対応関係を、異なる複数の予測アルゴリズムを含む能動学習装置を用いて、複数の予測アルゴリズムでそれぞれ学習させるデータセット選択装置が提案されている（特開２００７−３０４７８２号公報参照）。このデータセット選択装置は、複数の予測アルゴリズムによりそれぞれ学習された複数の対応関係を用いて、予測データに対応する出力値を予測し、予測結果値として複数の予測アルゴリズム毎に複数取得する。また、このデータセット選択装置は、取得した複数の予測アルゴリズムによる複数の予測結果値のばらつきが、対応する予測データのデータセット内で大きいものを選択する。

また、技術的な系の出力量であって、入力量ベクトルの形式の複数の入力量に非線形に依存する出力量に関するモデルを算出する技術が提案されている（特開２０１６−５３０５８５号公報参照）。

材料の研究開発において、性能がより良い材料を獲得するために、実験を繰り返し行うことによって、性能がより良い材料を探索することが行われている。この場合、過去に行われた材料を生成するための実験条件と実験結果の性能値との組み合わせから、適切な実験条件を新たに探索することができると研究開発の効率化のためにも好ましい。

特開２０００−３０５９４１号公報に記載の技術では、データベースに存在するデータに類似するデータしか探索することができないため、材料を生成するための実験条件を探索する手法に適用したとしても、必ずしも適切な実験条件を探索することができない場合がある、という問題点がある。また、特開２００７−３０４７８２号公報及び特開２０１６−５３０５８５号公報に記載の技術は、そもそも新たな実験条件を探索することについては考慮されていない。なお、この問題点は、材料の研究開発に限らず、薬剤の研究開発でも発生し得る問題点である。

本開示は、以上の事情を鑑みて成されたものであり、材料又は薬剤を生成するための適切な実験条件を探索可能とすることを目的とする。

本開示の学習装置は、材料又は薬剤を生成するための実験条件と実験結果の性能値との複数の組み合わせを入力とし、実験条件を出力とした出力モデルに、複数の組み合わせを入力することによって出力された実験条件を、仮想的な実験を行う実験モデルに入力することにより得られた実験結果の性能値を用いて出力モデルの評価値を導出する導出部と、導出部により導出された評価値を反映させる機械学習によって出力モデルを学習させる学習部と、を備えている。

これにより、材料又は薬剤を生成するための適切な実験条件を探索することができる。

なお、本開示の学習装置は、評価値が、複数の性能値における目標とする性能を満たす値の比率が高いほど良い値であってもよいし、目標とする性能を満たす性能値が得られるまでの仮想的な実験回数が少ないほど良い値であってもよいし、性能値が目標とする性能に近いほど良い値であってもよい。

これにより、性能値として適切な値を用いて探索行動を評価することにより適切な出力モデルが定まる結果、材料又は薬剤を生成するための適切な実験条件を探索することができる。

また、本開示の学習装置では、導出部は、出力モデルから、予め定められた規則を満たさない実験条件が出力された場合、評価値を低く補正してもよい。

これにより、過去の経験則等に基づく予め定められた規則を満たす実験条件が得られる可能性を高くすることができる結果、材料又は薬剤を生成するための適切な実験条件を探索することができる。

また、本開示の学習装置では、導出部が、出力モデルから出力された実験条件を実際の実験に使用可能な実験条件に補正してもよい。

これにより、実際の実験に使用可能な実験条件が得られる可能性を高くすることができる結果、材料又は薬剤を生成するための適切な実験条件を探索することができる。

また、本開示の学習装置は、出力モデルが、遺伝的アルゴリズムを用いて学習されるモデルであってもよい。

これにより、材料又は薬剤を生成するためのより適切な実験条件を探索することができる。

本開示の学習装置は、材料又は薬剤を生成するための実験条件と実験結果の性能値との複数の組み合わせ、及び実験条件の候補を入力とし、強化学習における行動価値を出力とした出力モデルに、複数の組み合わせと複数の異なる実験条件の候補各々とをそれぞれ入力することにより出力された複数の行動価値のうち、所定値以上の行動価値に対応する実験条件の候補を、仮想的な実験を行う実験モデルに入力することにより得られた実験結果の性能値に基づいて導出される値を報酬として、出力モデルを学習させる学習部を備えている。

なお、本開示の学習装置は、報酬が、複数の性能値における目標とする性能を満たす値の比率が高いほど良い値であるか、目標とする性能を満たす性能値が得られるまでの仮想的な実験回数が少ないほど良い値であるか、又は性能値が目標とする性能に近いほど良い値であってもよい。

これにより、性能値として適切な値が用いられる結果、材料又は薬剤を生成するための適切な実験条件を探索することができる。

また、本開示の学習装置は、強化学習が、Ｑ学習であり、行動価値が、Ｑ値であってもよい。

また、本開示の学習装置は、学習部により学習された出力モデルを用いる場合に、複数の実験条件の候補を出力モデルに逐次的に複数回入力することにより出力された累計の行動価値が最大となる実験条件の候補を次に実験対象とする実験条件の候補として出力する出力部を更に備えてもよい。

また、本開示の学習装置は、実験モデルが、機械学習により得られたモデルであってもよい。

これにより、特定の問題に特化した出力モデルを生成することができる。

また、本開示の学習装置は、実験モデルが、複数存在し、複数の実験モデルのそれぞれの作成条件が異なってもよい。

これにより、作成条件の異なる実験モデルにより得られた複数の仮想的な実験結果を用いることによって、材料又は薬剤を生成するためのより適切な実験条件を探索することができる。また、実験モデルが、ｓｉｎ又はｅｘｐ等の関数を含んで構成された数式であってもよい。これにより、実験データが全く得られていないような実験系でも、出力モデルを生成することができる。

また、本開示の学習装置では、出力モデルが、複数存在し、複数の出力モデルのそれぞれの作成条件が異なってもよい。

これにより、作成条件の異なる出力モデルにより得られた複数の実験条件から得られる複数の性能値の評価により学習することによって、材料又は薬剤を生成するためのより適切な実験条件を探索することができる。

本開示の学習方法は、材料又は薬剤を生成するための実験条件と実験結果の性能値との複数の組み合わせを入力とし、実験条件を出力とした出力モデルに、複数の組み合わせを入力することによって出力された実験条件を、仮想的な実験を行う実験モデルに入力することにより得られた実験結果の性能値を用いて出力モデルの評価値を導出し、導出した評価値を反映させる機械学習によって出力モデルを学習させる処理をコンピュータが実行する方法である。

本開示の学習プログラムは、材料又は薬剤を生成するための実験条件と実験結果の性能値との複数の組み合わせを入力とし、実験条件を出力とした出力モデルに、複数の組み合わせを入力することによって出力された実験条件を、仮想的な実験を行う実験モデルに入力することにより得られた実験結果の性能値を用いて出力モデルの評価値を導出し、導出した評価値を反映させる機械学習によって出力モデルを学習させる処理をコンピュータに実行させるためのものである。

本開示の学習方法は、材料又は薬剤を生成するための実験条件と実験結果の性能値との複数の組み合わせ、及び実験条件の候補を入力とし、強化学習における行動価値を出力とした出力モデルに、複数の組み合わせと複数の異なる実験条件の候補各々とをそれぞれ入力することにより出力された複数の行動価値のうち、所定値以上の行動価値に対応する実験条件の候補を、仮想的な実験を行う実験モデルに入力することにより得られた実験結果の性能値に基づいて導出される値を報酬として、出力モデルを学習させる処理をコンピュータが実行する方法である。

本開示の学習プログラムは、材料又は薬剤を生成するための実験条件と実験結果の性能値との複数の組み合わせ、及び実験条件の候補を入力とし、強化学習における行動価値を出力とした出力モデルに、複数の組み合わせと複数の異なる実験条件の候補各々とをそれぞれ入力することにより出力された複数の行動価値のうち、所定値以上の行動価値に対応する実験条件の候補を、仮想的な実験を行う実験モデルに入力することにより得られた実験結果の性能値に基づいて導出される値を報酬として、出力モデルを学習させる処理をコンピュータに実行させるためのものである。

また、本開示の学習装置は、材料又は薬剤を生成するための実験条件と実験結果の性能値との複数の組み合わせを入力とし、実験条件を出力とした出力モデルに、複数の組み合わせを入力することによって出力された実験条件を、仮想的な実験を行う実験モデルに入力することにより得られた実験結果の性能値を用いて出力モデルの評価値を導出し、導出した評価値を反映させる機械学習によって出力モデルを学習させるプロセッサを有する。

また、本開示の学習装置は、材料又は薬剤を生成するための実験条件と実験結果の性能値との複数の組み合わせ、及び実験条件の候補を入力とし、強化学習における行動価値を出力とした出力モデルに、複数の組み合わせと複数の異なる実験条件の候補各々とをそれぞれ入力することにより出力された複数の行動価値のうち、所定値以上の行動価値に対応する実験条件の候補を、仮想的な実験を行う実験モデルに入力することにより得られた実験結果の性能値に基づいて導出される値を報酬として、出力モデルを学習させるプロセッサを有する。

本開示によれば、材料又は薬剤を生成するための適切な実験条件を探索することができる。

第１実施形態に係る学習フェーズにおける学習装置の機能的な構成の一例を示すブロック図である。各実施形態に係る学習用データの一例を示す図である。第１実施形態に係る出力モデルの一例を示す図である。第１実施形態に係る出力モデルから出力されるデータのデータ構造の一例を示す図である。各実施形態に係る実験モデルの一例を示す図である。各実施形態に係る実験モデルから出力されるデータのデータ構造の一例を示す図である。第１実施形態に係る出力モデルの評価値の導出処理を説明するための図である。変形例に係る出力モデルの評価値の導出処理を説明するための図である。第１実施形態に係る運用フェーズにおける学習装置の機能的な構成の一例を示すブロック図である。各実施形態に係る学習装置のハードウェア構成の一例を示すブロック図である。各実施形態に係る実験モデル学習処理の一例を示すフローチャートである。第１実施形態に係る出力モデル学習処理の一例を示すフローチャートである。第１実施形態に係る実験条件出力処理の一例を示すフローチャートである。第２実施形態に係る学習フェーズにおける学習装置の機能的な構成の一例を示すブロック図である。第２実施形態に係る出力モデルの一例を示す図である。第２実施形態に係る出力モデルの評価値の導出処理を説明するための図である。第２実施形態に係る運用フェーズにおける学習装置の機能的な構成の一例を示すブロック図である。第２実施形態に係る出力モデル学習処理の一例を示すフローチャートである。第２実施形態に係る実験条件出力処理の一例を示すフローチャートである。

以下、図面を参照して、本開示の技術を実施するための形態例を詳細に説明する。

［第１実施形態］
まず、図１を参照して、本実施形態に係る学習フェーズにおける学習装置１０の機能的な構成について説明する。図１に示すように、学習装置１０は、導出部１２及び学習部１４を備える。また、学習装置１０の記憶部４２（図１０参照）には、学習用データ２０、複数の出力モデル２２、及び複数の実験モデル２４が記憶される。

図２に、学習用データ２０の一例を示す。図２に示すように、本実施形態に係る学習用データ２０は、材料を生成するための実験条件と、その実験条件で実験を行った場合の実験結果の材料の性能値との組み合わせを含む。実験条件は、例えば、半導体レジスト材料等の材料を生成する際の条件であり、主成分組成、添加物量、及びプロセス条件を含む。図２の例では、主成分組成は、材料の主成分の比率を示し、添加物量は添加物の濃度を示し、プロセス条件は、材料を生成する際の温度を示す。

また、学習用データ２０の性能値は、対応する実験条件により材料が生成された際の材料の性能値を示す。本実施形態に係る性能値は、材料の出来のよさを表す尺度であり、例えば、材料の表面の凹凸の度合い、及び所望の大きさの穴があけられたかを表す度合い等が挙げられる。また、本実施形態では、性能値が小さいほど材料の出来がよいことを示している。また、本実施形態の学習用データ２０は、複数の異なる実験条件と性能値との組み合わせを含む。なお、実験条件には、同じものが複数含まれていてもよい。

図３に、出力モデル２２の一例を示す。図３に示すように、本実施形態に係る出力モデル２２は、入力層、複数の中間層、及び出力層を含むニューラルネットワークである。出力モデル２２の入力層には、実験条件と性能値との複数の組み合わせが入力される。出力モデル２２の出力層は、１つの実験条件を出力する。図４に、出力モデル２２の出力層から出力される実験条件のデータ構造の一例を示す。図４に示すように、出力モデル２２の出力層は、例えば、主成分組成、添加物量、及びプロセス条件を含む実験条件を出力する。

詳細には、出力モデル２２は、例えば、以下の（１）〜（３）に示すように構成される。
（１）入力層のノード数：Ｎ×Ｍ
なお、Ｎは、実験条件の項目数を表し、Ｍは、実験回数を表す。
（２）中間層の構成：カーネルが３×３、フィルタ数が３２、ストライドが２、活性化関数がＲｅｌｕの畳み込み層を１０層有する。
（３）出力層のノード数：Ｎ×１

また、本実施の形態に係る複数の出力モデル２２は、それぞれモデルの作成条件が異なる。詳細には、複数の出力モデル２２は、中間層の層数、中間層の各層のノード数、及び重みの初期値の少なくとも１つが異なることによって、それぞれモデルの作成条件が異なる。

図５に、実験モデル２４の一例を示す。図５に示すように、本実施形態に係る実験モデル２４は、入力層、複数の中間層、及び出力層を含むニューラルネットワークとされている。実験モデル２４は、仮想的な実験を行うモデルであり、実験モデル２４の入力層には、１つの実験条件が入力される。実験モデル２４の出力層は、入力層に入力された１つの実験条件に対応する実験結果の性能値を出力する。図６に、実験モデル２４の出力層から出力される実験結果の性能値のデータ構造の一例を示す。なお、実験モデル２４は、複数種類の性能値を出力してもよい。この場合、例えば、実験モデル２４は、材料の性能値として、材料の表面の凹凸の度合い、及び材料の光感度の双方を出力する。

詳細には、実験モデル２４は、例えば、以下の（４）〜（６）に示すように構成される。
（４）入力層のノード数：Ｎ×１
なお、Ｎは、実験条件の項目数を表す。
（５）中間層の構成：カーネルが３×３、フィルタ数が３２、ストライドが２、活性化関数がＲｅｌｕの畳み込み層を４層有する。
（６）出力層のノード数：１×Ｊ
なお、Ｊは、性能値の種類数を表す。

また、本実施の形態に係る複数の実験モデル２４は、それぞれモデルの作成条件が異なる。詳細には、複数の実験モデル２４は、中間層の層数、中間層の各層のノード数、及び重みの初期値の少なくとも１つが異なることによって、それぞれモデルの作成条件が異なる。

導出部１２は、材料を生成するための実験条件と実験結果の性能値との複数の組み合わせを出力モデル２２に入力し、出力モデル２２から出力された実験条件を取得する。詳細には、導出部１２は、まず、学習用データ２０に含まれる全ての実験条件と性能値との組み合わせを出力モデル２２に入力し、出力モデル２２から出力された実験条件を取得する。なお、導出部１２は、学習用データ２０に含まれる一部の複数の実験条件と性能値との組み合わせを出力モデル２２に入力してもよいし、学習用データ２０とは異なる複数の実験条件と性能値との組み合わせを出力モデル２２に入力してもよい。

また、導出部１２は、出力モデル２２から出力された実験条件を、実際の実験に使用可能な実験条件に補正する。本実施形態では、導出部１２は、出力モデル２２から出力された実験条件を、実際に使用する実験装置の制約を満たす最も近い実験条件に補正する。例えば、実験装置の仕様上、プロセス条件で設定可能な温度が５℃単位で、かつ出力モデル２２から出力された実験条件に含まれるプロセス条件の温度が５℃単位ではない温度（例えば、９２．３℃）の場合、導出部１２は、出力モデル２２から出力された上記温度を、最も近い５の倍数の温度（例えば、９０℃）に補正する。

次に、導出部１２は、補正して得られた実験条件を各実験モデル２４に入力し、各実験モデル２４から出力された性能値をそれぞれ取得する。

更に、導出部１２は、出力モデル２２に入力した複数セットの実験条件と性能値との複数の組み合わせに、それぞれ対応する実験モデル２４に入力した実験条件と導出した性能値との組み合わせを追加した複数セットの実験条件と性能値との複数の組み合わせを得る。そして、導出部１２は、再度、得られた複数セットの実験条件と性能値との複数の組み合わせを出力モデル２２に入力することにより得られた複数の実験条件をそれぞれ対応する各実験モデル２４に入力する。これにより、導出部１２は、再度、それぞれ対応する実験モデル２４に入力した実験条件に対応する性能値を得る。導出部１２は、以上の出力モデル２２に入力した複数セットの実験条件と性能値との複数の組み合わせに、それぞれ対応する実験モデル２４に入力した実験条件と得られた性能値との組み合わせを追加して、再度それぞれ対応する実験モデル２４を用いて性能値を得る処理を所定の回数（例えば、１００回）繰り返す。

また、導出部１２は、以上の処理を各出力モデル２２に対して行う。すなわち、導出部１２は、各出力モデル２２について、所定回数分の出力モデル２２から出力された実験条件と、その実験条件に対応する性能値との複数の組み合わせを得る。

導出部１２は、各出力モデル２２について、得られた所定回数分の性能値を用いて、出力モデル２２の評価値を導出する。本実施形態では、導出部１２は、一例として図７に示すように、目標とする性能を満たす性能値（本実施形態では、目標値以下である性能値）が得られるまでの仮想的な実験回数（図７に示すＮ）が少ないほど良い値として出力モデル２２の評価値を導出する。なお、図７の縦軸は性能値を示し、横軸はその性能値が何回目の仮想的な実験で得られた値であるかを表す仮想的な実験回数を示す。図７の例では、Ｎ回目の仮想的な実験で初めて目標とする性能を満たす性能値が得られたことを示している。

なお、導出部１２は、一例として図８に示すように、得られた所定回数分の性能値における目標とする性能を満たす性能値の比率（図８に示す全ての性能値の数に対する一点鎖線の矩形で囲まれた性能値の数の比率）が高いほど良い値として出力モデル２２の評価値を導出してもよい。なお、図８における「ｇｏｏｄ」は、目標とする性能を満たすことを意味する。また、導出部１２は、各性能値が目標値に近いほど良い値として出力モデル２２の評価値を導出してもよい。

なお、導出部１２は、出力モデル２２から予め定められた規則を満たさない実験条件が出力された場合に、上記評価値を低く補正してもよい。この予め定められた規則としては、例えば、材料Ａと材料Ｂとを混合させることは無い、又は５種類以上の材料を混合させることは無い等のユーザの経験則に従った規則が挙げられる。

学習部１４は、機械学習の一例としての誤差逆伝播法を用いて、実験モデル２４を学習させる。具体的には、学習部１４は、学習用データ２０に含まれる実験条件を実験モデル２４に入力し、実験モデル２４から出力された性能値を取得する。そして、学習部１４は、取得した性能値と、学習用データ２０に含まれる実験条件に対応する性能値との差が最小となるように、実験モデル２４を学習させる。学習部１４は、この実験モデル２４を学習させる処理を、学習用データ２０に含まれる全ての実験条件と性能値との組み合わせを用いて行う。なお、学習部１４は、学習用データ２０に含まれる一部の実験条件と性能値との複数の組み合わせを用いて実験モデル２４を学習させてもよい。また、学習部１４が各実験モデル２４を学習させる際に各実験モデル２４に入力するデータは、各実験モデル２４間で同じデータでもよいし、異なるデータでもよい。

また、学習部１４は、各出力モデル２２について導出部１２により導出された評価値を用いて、最適化アルゴリズムの一例としての遺伝的アルゴリズムを用いた機械学習によって各出力モデル２２を学習させる。なお、この遺伝的アルゴリズムで用いられる個体の選択手法（例えば、ルーレット選択等）、交叉方法（例えば、二点交叉等）、及び突然変異の確率等のパラメータは、ユーザによって予め設定される。

詳細には、例えば、学習部１４は、各出力モデル２２のうち、最も評価の良い２つの出力モデル２２を交配することによって新たな出力モデル２２を生成する。この交配は、例えば、一方の出力モデル２２の入力層と中間層のうちの入力層側の半分の中間層、及び他方の出力モデル２２の中間層のうちの出力層側の半分の中間層と出力層を結合することによって行われる。なお、交配の手法はこの例に限定されない。例えば、一方の出力モデル２２の図３に示す入力層、中間層、及び出力層の上半分と、他方の出力モデル２２の図３に示す入力層、中間層、及び出力層の下半分と、を結合することによって交配を行ってもよい。また、本実施形態では、学習部１４は、世代間で出力モデル２２の数が変わらないように、遺伝的アルゴリズムにより次世代の出力モデル２２を生成する。すなわち、遺伝的アルゴリズムを用いることにより出力モデル２２の重み値が更新されることによって、出力モデル２２が学習される。また、出力モデル２２が学習されることにより、導出部１２により導出された評価値が反映される。

上記の導出部１２による各出力モデル２２の評価値の導出処理、及び学習部１４による出力モデル２２群の学習処理は、所定の世代数（例えば、１万世代）だけ行われる。そして、学習部１４は、最終世代において評価値が示す評価が最も良い１つの出力モデル２２を、後述する運用フェーズで用いる出力モデル２２Ａとして記憶部４２に記憶する。なお、上記の導出部１２による各出力モデル２２の評価値の導出処理、及び学習部１４による出力モデル２２群の学習処理は、評価値が収束するまで行ってもよい。

次に、図９を参照して、本実施形態に係る運用フェーズにおける学習装置１０の機能的な構成について説明する。図９に示すように、学習装置１０は、受付部３０及び出力部３２を備える。また、学習装置１０の記憶部４２には、前述した学習フェーズで得られた出力モデル２２Ａが記憶される。

受付部３０は、ユーザにより入力部４４（図１０参照）を介して入力された材料を生成するための実験条件と、実験結果の材料の性能値との複数の組み合わせを受け付ける。

出力部３２は、受付部３０により受け付けられた実験条件と性能値との複数の組み合わせを出力モデル２２Ａに入力し、出力モデル２２Ａから出力された実験条件を取得する。また、出力部３２は、学習フェーズにおける導出部１２と同様に、出力モデル２２Ａから出力された実験条件を実際の実験に使用可能な実験条件に補正する。そして、出力部３２は、補正して得られた実験条件を表示部４３（図１０参照）に出力する。ユーザは、表示部４３に表示された実験条件を目視し、必要に応じてその実験条件での実験を行う。なお、出力部３２は、補正して得られた実験条件を記憶部４２に出力（記憶）してもよい。

次に、図１０を参照して、学習装置１０のハードウェア構成について説明する。学習装置１０は、図１０に示すコンピュータによって実現される。図１０に示すように、学習装置１０は、ＣＰＵ（Central Processing Unit）４０、一時記憶領域としてのメモリ４１、及び不揮発性の記憶部４２を備える。また、学習装置１０は、液晶ディスプレイ等の表示部４３、及びキーボードとマウス等の入力部４４を備える。ＣＰＵ４０、メモリ４１、記憶部４２、表示部４３、及び入力部４４は、バス４５を介して接続される。

記憶部４２は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、及びフラッシュメモリ等によって実現される。記憶媒体としての記憶部４２には、学習プログラム５０が記憶される。ＣＰＵ４０は、学習プログラム５０を記憶部４２から読み出し、読み出した学習プログラム５０をメモリ４１に展開してから実行する。ＣＰＵ４０が学習プログラム５０を実行することによって、導出部１２、学習部１４、受付部３０、及び出力部３２として機能する。

次に、図１１〜図１３を参照して、本実施形態に係る学習装置１０の作用を説明する。学習装置１０が学習プログラム５０を実行することにより、図１１に示す実験モデル学習処理、図１２に示す出力モデル学習処理、及び図１３に示す実験条件出力処理が実行される。図１１に示す実験モデル学習処理は、例えば、学習フェーズにおいて、ユーザによって入力部４４を介して実験モデル学習処理の実行指示が入力された場合に実行される。また、図１２に示す出力モデル学習処理は、例えば、学習フェーズにおいて、ユーザによって入力部４４を介して出力モデル学習処理の実行指示が入力された場合に実行される。また、図１３に示す実験条件出力処理は、例えば、運用フェーズにおいて、ユーザによって入力部４４を介して実験条件出力処理の実行指示が入力された場合に実行される。

図１１のステップＳ１０で、学習部１４は、記憶部４２から学習用データ２０を読み出す。ステップＳ１２で、学習部１４は、それぞれモデルの作成条件が異なる複数の実験モデル２４を生成する。ステップＳ１４で、学習部１４は、ステップＳ１２の処理により生成された複数の実験モデル２４の中から、学習させる対象の１つの実験モデル２４を選択する。なお、ステップＳ１４の処理が繰り返し実行される際には、学習部１４は、それまでに未選択の実験モデル２４を選択する。

ステップＳ１６で、学習部１４は、前述したように、ステップＳ１０の処理により読み出された学習用データ２０を用いて、ステップＳ１４の処理により選択された実験モデル２４を誤差逆伝播法によって学習させる。ステップＳ１８で、学習部１４は、ステップＳ１６の処理により学習された実験モデル２４を記憶部４２に記憶する。ステップＳ２０で、学習部１４は、ステップＳ１２の処理により生成された全ての実験モデル２４について、ステップＳ１４〜ステップＳ１８の処理が完了したか否かを判定する。この判定が否定判定となった場合は、処理はステップＳ１４に戻り、肯定判定となった場合は、実験モデル学習処理が終了する。

図１２のステップＳ３０で、学習部１４は、それぞれモデルの作成条件が異なる複数の出力モデル２２を生成する。ステップＳ３２で、導出部１２は、材料を生成するための実験条件と実験結果の性能値との複数の組み合わせを各出力モデル２２に入力し、各出力モデル２２から出力された実験条件をそれぞれ取得する。

なお、この実験条件と性能値との複数の組み合わせは、ステップＳ３２が出力モデル２２の各世代の初回に実行される際（すなわち、初回にステップＳ３２が実行される際、又は後述するステップＳ４６の判定が否定判定となった後の初回にステップＳ３２が実行される際）には、学習用データ２０に含まれる全ての実験条件と性能値との組み合わせとされる。また、この実験条件と性能値との複数の組み合わせは、ステップＳ３２が出力モデル２２の各世代の２回目以降に実行される際（すなわち、ステップＳ４０の判定が否定判定となった後にステップＳ３２が実行される際）には、前回のステップＳ３２で出力モデル２２に入力された実験条件と性能値との複数の組み合わせに、後述するステップＳ３８で実験条件と性能値との組み合わせが追加されたものとなる。

ステップＳ３４で、導出部１２は、前述したように、ステップＳ３２の処理により各出力モデル２２から出力された実験条件を、実際の実験に使用可能な実験条件に補正する。ステップＳ３６で、導出部１２は、ステップＳ３４の処理により補正されて得られた各実験条件を、各実験モデル２４に入力し、各実験モデル２４から出力された性能値をそれぞれ取得する。また、導出部１２は、各出力モデル２２について、出力モデル２２から出力された実験条件に対応して、実験条件と性能値との複数の組み合わせをそれぞれ保持する。

ステップＳ３８で、導出部１２は、今回（直前）のステップＳ３２の処理により出力モデル２２に入力された実験条件と性能値との複数の組み合わせに、以下に示す実験条件と性能値との組み合わせを追加する。すなわち、この場合、導出部１２は、今回のステップＳ３６の処理により実験モデル２４に入力した実験条件と、性能値との組み合わせを追加する。この追加を行うことにより得られた実験条件と性能値との複数の組み合わせは、後述するステップＳ４０の判定が否定判定となった後に、次に実行されるステップＳ３２で用いられる。

ステップＳ４０で、導出部１２は、ステップＳ３２〜ステップＳ３８の処理を、所定の回数（例えば、１００回）繰り返して実行したか否かを判定する。この判定が否定判定となった場合は、処理はステップＳ３２に戻り、肯定判定となった場合は、処理はステップＳ４２に移行する。

ステップＳ４２で、導出部１２は、前述したように、各出力モデル２２について、ステップＳ３２〜ステップＳ３８の繰り返し処理により得られた所定回数分の性能値を用いて、出力モデル２２の評価値を導出する。ステップＳ４４で、学習部１４は、前述したように、各出力モデル２２についてステップＳ４２の処理により導出された評価値を用いて、遺伝的アルゴリズムによって次世代の出力モデル２２を生成する。この次世代の出力モデル２２は、後述するステップＳ４６の判定が否定判定となった後に、次に実行されるステップＳ３２で用いられる。

ステップＳ４６で、学習部１４は、出力モデル２２の世代数が所定の世代数（例えば、１万世代）に達したか否かを判定する。この判定が否定判定となった場合は、処理はステップＳ３２に戻り、肯定判定となった場合は、処理はステップＳ４８に移行する。ステップＳ４８で、学習部１４は、前述したように、最終世代において評価値が示す評価が最も良い１つの出力モデル２２を出力モデル２２Ａとして記憶部４２に記憶する。ステップＳ４８の処理が終了すると、出力モデル学習処理が終了する。

図１３のステップＳ５０で、受付部３０は、ユーザにより入力部４４を介して入力された材料を生成するための実験条件と、実験結果の材料の性能値との複数の組み合わせを受け付ける。ステップＳ５２で、出力部３２は、記憶部４２から出力モデル２２Ａを読み出す。ステップＳ５４で、出力部３２は、ステップＳ５０の処理により受け付けられた実験条件と性能値との複数の組み合わせを、ステップＳ５２の処理により読み出された出力モデル２２Ａに入力し、出力モデル２２Ａから出力された実験条件を取得する。

ステップＳ５６で、出力部３２は、前述したように、ステップＳ５４の処理により出力モデル２２Ａから出力された実験条件を実際の実験に使用可能な実験条件に補正する。ステップＳ５８で、出力部３２は、前述したように、ステップＳ５６の処理により補正された実験条件を表示部４３に出力する。ステップＳ５８の処理により、表示部４３には実験条件が表示される。ステップＳ５８の処理が終了すると、実験条件出力処理が終了する。

以上説明したように、本実施形態によれば、材料を生成するための実験条件と実験結果の性能値との複数の組み合わせを入力とし、実験条件を出力とした出力モデル２２により得られた実験条件を、仮想的な実験を行う実験モデル２４に入力する。また、この入力により得られた実験結果の性能値を用いて出力モデル２２の評価値を導出する。そして、導出した出力モデル２２の評価値を用いて出力モデル２２を機械学習によって学習させる。従って、このように学習された出力モデル２２を用いることによって、材料の適切な実験条件を探索することができる。

［第２実施形態］
開示の技術の第２実施形態を説明する。なお、第１実施形態と同一の構成要素については、同一の符号を付して説明を省略する。まず、図１４を参照して、本実施形態に係る学習フェーズにおける学習装置１０の機能的な構成について説明する。図１４に示すように、学習装置１０は、導出部１２Ａ、学習部１４Ａ、及び生成部１６を備える。記憶部４２には、学習用データ２０、複数の出力モデル２２Ｂ、及び複数の実験モデル２４が記憶される。

図１５に、出力モデル２２Ｂの一例を示す。図１５に示すように、本実施形態に係る出力モデル２２Ｂは、入力層、複数の中間層、及び出力層を含むニューラルネットワークとされている。出力モデル２２Ｂの入力層には、材料を生成するための実験条件と実験結果の性能値との複数の組み合わせ、及び１つの実験条件の候補が入力される。出力モデル２２Ｂの出力層は、強化学習における行動価値の一例としてのＱ値を出力する。すなわち、本実施形態に係る学習装置１０は、実験条件と性能値との複数の組み合わせを現状態ｓとし、実験条件の候補を行動ａとして、強化学習の一例としてのＱ学習に従って出力モデル２２Ｂを学習させる。なお、本実施形態に係る複数の出力モデル２２Ｂも、第１実施形態に係る出力モデル２２と同様に、それぞれモデルの作成条件が異なる。

生成部１６は、複数の異なる実験条件の候補を生成する。本実施形態では、生成部１６は、予め定められた規則を満たし、かつ実際の実験に使用可能な実験条件の候補を生成する。この規則及び実際の実験に使用可能な実験条件については、第１実施形態と同様であるため、説明を省略する。具体的には、生成部１６は、複数の異なる実験条件の候補を生成する都度、予め定められた規則を満たし、かつ実際の実験に使用可能な実験条件の候補をランダムに生成する。

導出部１２Ａは、後述する学習部１４Ａが各出力モデル２２ＢをＱ学習に従って学習させる際に報酬として用いる値（以下、「報酬値」という）を導出する。以下、導出部１２Ａが報酬値を導出する処理の詳細を説明する。

まず、導出部１２Ａは、材料を生成するための実験条件と実験結果の性能値との複数の組み合わせ、及び生成部１６により生成された実験条件の候補を出力モデル２２Ｂに入力し、出力モデル２２Ｂから出力されたＱ値を取得する。詳細には、図１６に示すように、導出部１２Ａは、材料を生成するための実験条件と実験結果の性能値との複数の組み合わせ、及び生成部１６により生成された複数の実験条件の候補の何れか１つを、生成された全ての実験条件の候補について、出力モデル２２Ｂに個別に入力する。すなわち、導出部１２Ａは、生成部１６により生成された複数の実験条件の候補のそれぞれに対応して出力モデル２２Ｂから出力されたＱ値を取得する。

次に、導出部１２Ａは、取得した複数のＱ値のうち、所定値以上のＱ値の何れかに対応する実験条件の候補を実験モデル２４に入力する。本実施形態では、導出部１２Ａは、取得した複数のＱ値のうち、最大のＱ値に対応する実験条件の候補を各実験モデル２４に入力し、各実験モデル２４から出力された性能値を取得する。また、導出部１２Ａは、第１実施形態に係る導出部１２と同様に、実験条件と実験結果の性能値との複数の組み合わせを、それぞれ保持する。

更に、導出部１２Ａは、出力モデル２２Ｂに入力した実験条件と性能値との複数の組み合わせに、実験モデル２４に入力した実験条件と導出した性能値との組み合わせを追加した実験条件と性能値との複数の組み合わせを得る。また、導出部１２Ａは、再度、得られた実験条件と性能値との複数の組み合わせ、及び生成部１６により生成された複数の実験条件の候補の何れか１つを、生成された全ての実験条件の候補について、出力モデル２２Ｂに個別に入力する。そして、導出部１２Ａは、再度、前述した処理と同様に、複数の実験条件の候補のそれぞれに対応して出力モデル２２Ｂから出力されたＱ値と実験モデル２４とを用いて、実験条件の候補に対応する性能値を取得する。導出部１２Ａは、この実験条件の候補に対応する性能値を取得するための処理を所定の回数（例えば、１００回）繰り返す。

また、導出部１２Ａは、以上の処理を各出力モデル２２Ｂについて行う。すなわち、導出部１２Ａは、各出力モデル２２Ｂのそれぞれについて所定回数分の性能値を取得する。導出部１２Ａは、第１実施形態に係る導出部１２と同様に、各出力モデル２２Ｂについて、得られた所定回数分の性能値を用いて出力モデル２２Ｂの評価値を導出する（図７参照）。

また、導出部１２Ａは、導出した評価値が高い出力モデル２２Ｂほど高い報酬が得られるように報酬値を導出する。例えば、導出部１２Ａは、評価値が高い順番に上位３つの出力モデル２２Ｂの報酬値を「１」と導出し、下位３つの出力モデル２２Ｂの報酬値を「−１」と導出し、他の出力モデル２２Ｂの報酬値を「０」と導出する。

学習部１４Ａは、導出部１２Ａにより導出された報酬値をＱ学習における報酬ｒとして用いて、各出力モデル２２Ｂを学習させる。

上記の導出部１２Ａによる各出力モデル２２Ｂの報酬値を導出するための処理、及び学習部１４Ａによる各出力モデル２２Ｂの学習処理は、所定の回数（例えば、１万回）だけ行われる。そして、学習部１４Ａは、最後の回において、評価値が示す評価が最も良い１つの出力モデル２２Ｂを、後述する運用フェーズで用いる出力モデル２２Ｃとして記憶部４２に記憶する。なお、上記の導出部１２Ａによる各出力モデル２２Ｂの報酬値を導出するための処理、及び学習部１４Ａによる各出力モデル２２Ｂの学習処理は、評価値が収束するまで行ってもよい。

また、学習部１４Ａは、第１実施形態に係る学習部１４と同様に、学習用データ２０を用いて、誤差逆伝播法に従って、実験モデル２４を学習させる。

次に、図１７を参照して、本実施形態に係る運用フェーズにおける学習装置１０の機能的な構成について説明する。図１７に示すように、学習装置１０は、生成部１６、受付部３０、及び出力部３２Ａを備える。また、学習装置１０の記憶部４２には、前述した学習フェーズで得られた出力モデル２２Ｃが記憶される。

出力部３２Ａは、受付部３０により受け付けられた実験条件と性能値との複数の組み合わせ、及び生成部１６により生成された複数の実験条件の候補の何れか１つを、生成された全ての実験条件の候補について、出力モデル２２Ｃに個別に入力する。出力部３２Ａは、この入力それぞれに対応して出力モデル２２Ｃから出力されたＱ値を取得する。そして、出力部３２Ａは、取得した複数のＱ値のうち、最大のＱ値に対応する実験条件の候補を、次に実験対象とする実験条件の候補として表示部４３に出力する。なお、出力部３２Ａは、取得した複数のＱ値のうち、所定値以上のＱ値の何れか（例えば、所定値以上で、かつ２番目に大きいＱ値）に対応する実験条件の候補を、次に実験対象とする実験条件の候補として表示部４３に出力してもよい。また、出力部３２Ａは、取得した複数のＱ値のうち、最大のＱ値に対応する実験条件の候補を、次に実験対象とする実験条件の候補として記憶部４２に出力（記憶）してもよい。

本実施形態に係る学習装置１０のハードウェア構成は、第１実施形態に係る学習装置１０と同様（図１０参照）であるため、説明を省略する。ＣＰＵ４０が学習プログラム５０を実行することによって、導出部１２Ａ、学習部１４Ａ、生成部１６、受付部３０、及び出力部３２Ａとして機能する。

次に、図１８及び図１９を参照して、本実施形態に係る学習装置１０の作用を説明する。なお、実験モデル学習処理は、第１実施形態と同様（図１１参照）であるため、説明を省略する。図１８に示す出力モデル学習処理は、例えば、学習フェーズにおいて、ユーザによって入力部４４を介して出力モデル学習処理の実行指示が入力された場合に実行される。また、図１９に示す実験条件出力処理は、例えば、運用フェーズにおいて、ユーザによって入力部４４を介して実験条件出力処理の実行指示が入力された場合に実行される。

図１８のステップＳ６０で、学習部１４は、それぞれモデルの作成条件が異なる複数の出力モデル２２Ｂを生成する。ステップＳ６０の処理により生成された各出力モデル２２Ｂについて以下のステップＳ６２〜Ｓ７０の処理が同様に実行される。ステップＳ６２で、生成部１６は、前述したように、複数の異なる実験条件の候補を生成する。

ステップＳ６４で、導出部１２Ａは、前述したように、材料を生成するための実験条件と実験結果の性能値との複数の組み合わせ、及びステップＳ６２の処理により生成された実験条件の候補を出力モデル２２Ｂに入力し、出力モデル２２Ｂから出力されたＱ値を取得する。

なお、この実験条件と性能値との複数の組み合わせは、ステップＳ６４が出力モデル２２Ｂの学習処理における初回に実行される際（すなわち、初回にステップＳ６４が実行される際、又は後述するステップＳ７８の判定が否定判定となった後の初回にステップＳ６２が実行される際）には、学習用データ２０に含まれる全ての実験条件と性能値との組み合わせとされる。また、この実験条件と性能値との複数の組み合わせは、ステップＳ６４が出力モデル２２Ｂの学習処理における２回目以降に実行される際（すなわち、ステップＳ７０の判定が否定判定となった後にステップＳ６４が実行される際）には、前回のステップＳ６４で出力モデル２２Ｂに入力された実験条件と性能値との複数の組み合わせに、後述するステップＳ６８で実験条件と性能値との組み合わせが追加されたものとなる。

ステップＳ６６で、導出部１２Ａは、ステップＳ６４の処理により取得された複数のＱ値のうち、最大のＱ値に対応する実験条件の候補を各実験モデル２４に入力し、各実験モデル２４から出力された性能値を取得する。また、導出部１２Ａは、最大のＱ値に対応する実験条件の候補に対応して、実験条件と実験結果の性能値との複数の組み合わせを、それぞれ保持する。

ステップＳ６８で、導出部１２Ａは、今回（直前）のステップＳ６４の処理により出力モデル２２Ｂに入力された実験条件と性能値との複数の組み合わせに、以下に示す実験条件と性能値との組み合わせを追加する。すなわち、この場合、導出部１２Ａは、今回のステップＳ６６の処理により実験モデル２４に入力した実験条件と、取得された性能値との組み合わせを追加する。この追加を行うことにより得られた実験条件と性能値との複数の組み合わせは、後述するステップＳ７０の判定が否定判定となった後に、次に実行されるステップＳ６４で用いられる。

ステップＳ７０で、導出部１２Ａは、ステップＳ６２〜ステップＳ６８の処理を、所定の回数（例えば、１００回）繰り返して実行したか否かを判定する。この判定が否定判定となった場合は、処理はステップＳ６２に戻り、肯定判定となった場合は、処理はステップＳ７２に移行する。

ステップＳ７２で、導出部１２Ａは、前述したように、各出力モデル２２Ｂについて、ステップＳ６２〜ステップＳ６８の繰り返し処理により得られた所定回数分の性能値を用いて、出力モデル２２Ｂの評価値を導出する。ステップＳ７４で、導出部１２Ａは、前述したように、ステップＳ７２の処理により導出された評価値が高い出力モデル２２Ｂほど高い報酬が得られるように報酬値を導出する。

ステップＳ７６で、学習部１４Ａは、ステップＳ７４の処理により導出された報酬値をＱ学習における報酬ｒとして用いて、各出力モデル２２Ｂを学習させる。ステップＳ７８で、学習部１４は、ステップＳ６２〜ステップＳ７６の処理を、所定の回数（例えば、１万回）繰り返して実行したか否かを判定する。この判定が否定判定となった場合は、処理はステップＳ６２に戻り、肯定判定となった場合は、処理はステップＳ８０に移行する。ステップＳ８０で、学習部１４Ａは、前述したように、最後に実行されたステップＳ７２の処理により導出された評価値が示す評価が最も良い１つの出力モデル２２Ｂを出力モデル２２Ｃとして記憶部４２に記憶する。ステップＳ８０の処理が終了すると、出力モデル学習処理が終了する。

図１９のステップＳ９０で、受付部３０は、ユーザにより入力部４４を介して入力された材料を生成するための実験条件と、実験結果の材料の性能値との複数の組み合わせを受け付ける。ステップＳ９２で、出力部３２Ａは、記憶部４２から出力モデル２２Ｃを読み出す。ステップＳ９４で、生成部１６は、前述したように、複数の異なる実験条件の候補を生成する。

ステップＳ９６で、出力部３２Ａは、ステップＳ９０の処理により受け付けられた実験条件と性能値との複数の組み合わせ、及びステップＳ９２の処理により生成された複数の実験条件の候補の何れか１つを、生成された全ての実験条件の候補について、出力モデル２２Ｃに個別に入力する。出力部３２Ａは、この入力それぞれに対応して出力モデル２２Ｃから出力されたＱ値を取得する。

ステップＳ９８で、出力部３２Ａは、ステップＳ９６の処理により取得された複数のＱ値のうち、最大のＱ値に対応する実験条件の候補を、次に実験対象とする実験条件の候補として表示部４３に出力する。ステップＳ９８の処理が終了すると、実験条件出力処理が終了する。

以上説明したように、本実施形態によれば、材料を生成するための実験条件と実験結果の性能値との複数の組み合わせ、及び実験条件の候補を入力とし、Ｑ値を出力とした出力モデル２２Ｂにより得られたＱ値が最大となる実験条件の候補を実験モデル２４に入力する。また、この入力により得られた実験結果の性能値を用いて出力モデル２２Ｂの評価値を導出し、導出した評価値に応じて出力モデル２２Ｂに与える報酬を導出する。そして、導出した報酬を用いて出力モデル２２ＢをＱ学習によって学習させる。従って、このように学習された出力モデル２２Ｂを用いることによって、材料の適切な実験条件を探索することができる。

なお、上記各実施形態では、材料を生成するための実験条件を導出する場合について説明したが、これに限定されない。例えば、薬剤を生成するための実験条件を導出する形態としてもよい。

また、上記各実施形態では、実験モデル２４として機械学習によって得られた学習済みモデルを適用した場合について説明したが、仮想的な実験が可能なモデルであれば、これに限定されない。例えば、実験モデル２４として、１つの実験条件を入力とし、入力された１つの実験条件に対応する実験結果の性能値を出力とした任意の関数を適用してもよい。このようなモデルを適用した場合でも出力モデル２２、２２Ｂが学習されることによって最適化される。また、例えば、実験モデル２４は、実験をシミュレーションするシミュレータであってもよい。

また、上記第２実施形態の運用フェーズにおいて、出力部３２Ａは、複数の実験条件の候補を出力モデル２２Ｃに逐次的に複数回入力することにより得られた累計のＱ値が最大となる実験条件の候補を次に実験対象とする実験条件の候補として出力してもよい。この場合、出力部３２Ａは、まず、第２実施形態と同様に、出力モデル２２Ｃから１回目の複数の実験条件の候補それぞれに対応するＱ値を得る。次に、出力部３２Ａは、例えば、１回目に出力モデル２２Ｃに入力した実験条件と性能値との複数の組み合わせに、１回目に出力モデル２２Ｃに入力した実験条件の候補と性能値との組み合わせを追加する。この性能値は、例えば、ＳＶＭ（Support Vector Machine）等の既知の手法により推定すればよい。そして、出力部３２Ａは、１回目と同様に、追加して得られた実験条件と性能値との複数の組み合わせ、及び２回目の複数の実験条件の候補それぞれを出力モデル２２Ｃに入力することにより出力モデル２２Ｃから２回目の複数の実験条件の候補それぞれに対応するＱ値を得る。この場合、出力部３２Ａは、１回目のＱ値と２回目のＱ値の累計値が最大となる実験条件の候補を次に実験対象とする実験条件の候補として出力する。なお、ここでは、２回のＱ値の累計値を用いる場合を説明したが、３回以上のＱ値の累計値を用いる場合も同様に可能である。

また、上記各実施形態でＣＰＵがソフトウェア（プログラム）を実行することにより実行した各種処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Field-Programmable Gate Array）等の製造後に回路構成を変更可能なＰＬＤ（Programmable Logic Device）、及びＡＳＩＣ（Application Specific Integrated Circuit）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、上記各種処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より詳細には、半導体素子等の回路素子を組み合わせた電気回路である。

また、上記各実施形態では、学習プログラム５０が記憶部４２に予め記憶（インストール）されている態様を説明したが、これに限定されない。学習プログラム５０は、ＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、ＤＶＤ−ＲＯＭ（Digital Versatile Disk Read Only Memory）、及びＵＳＢ（Universal Serial Bus）メモリ等の非一時的記録媒体に記録された形態で提供されてもよい。また、学習プログラム５０は、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

本願は２０１８年４月１１日出願の日本出願第２０１８−０７６００１号の優先権を主張すると共に、その全文を参照により本明細書に援用する。

Claims

材料又は薬剤を生成するための実験条件と実験結果の性能値との複数の組み合わせを入力とし、実験条件を出力とした出力モデルに、前記複数の組み合わせを入力することによって出力された実験条件を、仮想的な実験を行う実験モデルに入力することにより得られた実験結果の性能値を用いて前記出力モデルの評価値を導出する導出部と、
前記導出部により導出された評価値を反映させる機械学習によって前記出力モデルを学習させる学習部と、
を備えた学習装置。
前記評価値は、複数の前記性能値における目標とする性能を満たす値の比率が高いほど良い値であるか、前記目標とする性能を満たす性能値が得られるまでの仮想的な実験回数が少ないほど良い値であるか、又は前記性能値が前記目標とする性能に近いほど良い値である
請求項１に記載の学習装置。
前記導出部は、前記出力モデルから、予め定められた規則を満たさない実験条件が出力された場合、前記評価値を低く補正する
請求項１又は請求項２に記載の学習装置。
前記導出部は、前記出力モデルから出力された実験条件を実際の実験に使用可能な実験条件に補正する
請求項１から請求項３の何れか１項に記載の学習装置。
前記出力モデルは、遺伝的アルゴリズムを用いて学習されるモデルである
請求項１から請求項４の何れか１項に記載の学習装置。
材料又は薬剤を生成するための実験条件と実験結果の性能値との複数の組み合わせ、及び実験条件の候補を入力とし、強化学習における行動価値を出力とした出力モデルに、前記複数の組み合わせと複数の異なる前記実験条件の候補各々とをそれぞれ入力することにより出力された複数の行動価値のうち、所定値以上の行動価値に対応する前記実験条件の候補を、仮想的な実験を行う実験モデルに入力することにより得られた実験結果の性能値に基づいて導出される値を報酬として、前記出力モデルを学習させる学習部
を備えた学習装置。
前記報酬は、複数の前記性能値における目標とする性能を満たす値の比率が高いほど良い値であるか、前記目標とする性能を満たす性能値が得られるまでの仮想的な実験回数が少ないほど良い値であるか、又は前記性能値が前記目標とする性能に近いほど良い値である
請求項６に記載の学習装置。
前記強化学習は、Ｑ学習であり、
前記行動価値は、Ｑ値である
請求項６又は請求項７に記載の学習装置。
前記学習部により学習された出力モデルを用いる場合に、複数の前記実験条件の候補を前記出力モデルに逐次的に複数回入力することにより出力された累計の行動価値が最大となる前記実験条件の候補を次に実験対象とする実験条件の候補として出力する出力部を更に備えた
請求項６から請求項８の何れか１項に記載の学習装置。
前記実験モデルは、機械学習により得られたモデルである
請求項１から請求項９の何れか１項に記載の学習装置。
前記実験モデルは、複数存在し、
前記複数の前記実験モデルは、それぞれモデルの作成条件が異なる
請求項１から請求項１０の何れか１項に記載の学習装置。
前記出力モデルは、複数存在し、
前記複数の前記出力モデルは、それぞれモデルの作成条件が異なる
請求項１から請求項１１の何れか１項に記載の学習装置。
材料又は薬剤を生成するための実験条件と実験結果の性能値との複数の組み合わせを入力とし、実験条件を出力とした出力モデルに、前記複数の組み合わせを入力することによって出力された実験条件を、仮想的な実験を行う実験モデルに入力することにより得られた実験結果の性能値を用いて前記出力モデルの評価値を導出し、
導出した評価値を反映させる機械学習によって前記出力モデルを学習させる
処理をコンピュータが実行する学習方法。
材料又は薬剤を生成するための実験条件と実験結果の性能値との複数の組み合わせを入力とし、実験条件を出力とした出力モデルに、前記複数の組み合わせを入力することによって出力された実験条件を、仮想的な実験を行う実験モデルに入力することにより得られた実験結果の性能値を用いて前記出力モデルの評価値を導出し、
導出した評価値を反映させる機械学習によって前記出力モデルを学習させる
処理をコンピュータに実行させるための学習プログラム。
材料又は薬剤を生成するための実験条件と実験結果の性能値との複数の組み合わせ、及び実験条件の候補を入力とし、強化学習における行動価値を出力とした出力モデルに、前記複数の組み合わせと複数の異なる前記実験条件の候補各々とをそれぞれ入力することにより出力された複数の行動価値のうち、所定値以上の行動価値に対応する前記実験条件の候補を、仮想的な実験を行う実験モデルに入力することにより得られた実験結果の性能値に基づいて導出される値を報酬として、前記出力モデルを学習させる
処理をコンピュータが実行する学習方法。
材料又は薬剤を生成するための実験条件と実験結果の性能値との複数の組み合わせ、及び実験条件の候補を入力とし、強化学習における行動価値を出力とした出力モデルに、前記複数の組み合わせと複数の異なる前記実験条件の候補各々とをそれぞれ入力することにより出力された複数の行動価値のうち、所定値以上の行動価値に対応する前記実験条件の候補を、仮想的な実験を行う実験モデルに入力することにより得られた実験結果の性能値に基づいて導出される値を報酬として、前記出力モデルを学習させる
処理をコンピュータに実行させるための学習プログラム。