WO2023053918A1

WO2023053918A1 - 予測モデル作成方法、予測方法、予測モデル作成装置、予測装置、予測モデル作成プログラム、予測プログラム

Info

Publication number: WO2023053918A1
Application number: PCT/JP2022/034047
Authority: WO
Inventors: 皓亮角田; 真平竹本; 仁子高; 好成奥野
Original assignee: 株式会社レゾナック
Priority date: 2021-09-29
Filing date: 2022-09-12
Publication date: 2023-04-06
Also published as: JP7384322B2; JP2023182783A; JPWO2023053918A1; EP4411602A1; CN118043826A

Abstract

学習済みのクラスタリングモデルと分類されたクラスターを用いて適切な重みを設定することで、学習済みの予測モデルの予測精度を向上させる。材料特性の予測モデル作成方法は、学習用データセットを取得するステップと、前記学習用データセットとクラスタリングモデルを用いて、学習済みクラスタリングモデルを生成するとともに、前記学習用データセットをＮ個のクラスターに分類するステップと、前記各クラスターの重心間の距離を算出するステップと、前記クラスターの重心間の距離と前記学習用データセットの特徴を表すパラメータとを用いて、前記クラスター間の重みを算出するステップと、前記クラスターごとに、クラスターと前記重みを用いて学習済み予測モデル｛Ｍｉ｝１≦ｉ≦Ｎを生成するステップと、を有する。

Description

予測モデル作成方法、予測方法、予測モデル作成装置、予測装置、予測モデル作成プログラム、予測プログラム

　本願は、日本特許庁に２０２１年９月２９日に出願された基礎出願２０２１-１５９４７４号の優先権を主張するものであり、その全内容を参照によりここに援用する。

　本開示は、クラスタリングと重みを考慮した予測モデル作成方法、予測方法、予測モデル作成装置、予測装置、予測モデル作成プログラム、予測プログラムに関する。

　従来より、材料の設計は、材料開発者の経験に基づく試作を繰り返すことにより行われてきた。この場合、望ましい特性を得るために膨大な実験を行うことになる。そこで、近年、材料の設計において、機械学習を適用する試みがなされている。例えば、試作時の設計条件と、試作した材料の評価結果（材料の特性値等）とを収集し、学習用データセットとしてモデルの学習を行い、得られた学習済みモデルを用いて新たな設計条件のもとで試作する材料の特性値を予測することが可能になる。これにより望ましい特性を得るための実験を最小回数に抑えることができる。

特開２０２０－１８７４１７号公報

　例えば、特許文献１には、訓練データをクラスタリングし、各クラスターにおける代表ベクトルの近傍にある第１所定数の訓練データを使って物性値を予測するベースモデルと、代表ベクトルの近傍にある第２所定数の訓練データを使ってベースモデルごとの残差の反数を予測する補正モデルを有し、物性予測においては、未知入力ベクトルに対して、未知入力ベクトルに近い代表ベクトルに関するベースモデル及び補正モデルを検索し、ベースモデルの予測値及び補正モデルの予測値を算出し、ベースモデルの予測値と補正モデルの予測値に所定の定数を掛けた値との和によって物性予測値を算出する方法が開示されている。しかしながら、特許文献１に開示された物性予測方法の場合、代表ベクトル近傍にある第１所定数および第２所定数に含まれない訓練データはモデルの学習に用いられないため、物性予測精度の低下につながるおそれがあり、また、過学習しやすい問題もあった。

　本開示は、以上の点を考慮してなされたもので、訓練データを余すことなく用いて予測精度を向上させる予測モデル作成方法を提供することを目的としている。

　本発明は、以下の構成を有する。
［1］材料特性の予測モデル作成方法であって、
　学習用データセットを取得するステップと、
　前記学習用データセットとクラスタリングモデルを用いて、学習済みクラスタリングモデルを生成するとともに、前記学習用データセットをＮ個のクラスターに分類するステップと、
　前記各クラスターの重心間の距離を算出するステップと、
前記クラスターの重心間の距離と前記学習用データセットの特徴を表すパラメータとを用いて、前記クラスター間の重みを算出するステップと、
　前記クラスターごとに、クラスターと前記重みを用いて学習済み予測モデル｛Ｍ_ｉ｝_{１≦ｉ≦Ｎ}を生成するステップと、を有することを特徴とする材料特性の予測モデル作成方法。
［２］前項１に記載の予測モデル作成方法に引き続いて行う材料特性の予測方法であって、
　予測用データを取得するステップと、
　前記学習済みクラスタリングモデルを用いて、前記予測用データがＮ個に分類された学習用データセットクラスターのうちクラスターｐに属することを特定するステップと、
　前記予測用データを入力として、前記クラスターｐに対応する学習済み予測モデルＭ_ｐを用いて予測値を求めるステップと、を有することを特徴とする材料特性の予測方法。
［３］前項1に記載の材料特性の予測モデル作成方法であって、
　前項1に記載のクラスタリングモデルを構築するステップにおいて、Ｋ－ｍｅａｎｓ法、Ｎｅａｒｅｓｔ　Ｎｅｉｇｈｂｏｒ法、階層的クラスタリング法、混合ガウス法、ＤＢＳＣＡＮ法、ｔ－ＳＮＥ法、自己組織化マップ法のうち、いずれか1つまたは複数のクラスタリング手法を用いることを特徴とする材料特性の予測モデル作成方法。
［４］前項1に記載の材料特性の予測モデル作成方法であって、
　前項1に記載のクラスターの重心間の距離を算出するステップにおいて、ユークリッド距離法、マンハッタン距離法、マハラノビス距離法、ミンコフスキー距離法、コサイン距離法、最短距離法、最長距離法、重心法、群平均法、ｗａｒｄ法、Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒダイバージェンス、Ｊｅｎｓｅｎ―Ｓｈａｎｎｏｎダイバージェンス、Ｄｙｎａｍｉｃ　ｔｉｍｅ　ｗａｒｐｉｎｇ、Ｅａｒｔｈ　ｍｏｖｅｒ'ｓ　ｄｉｓｔａｎｃｅのうち、いずれか1つまたは複数の組合せを用いて距離を算出することを特徴とする材料特性の予測モデル作成方法。
［５］前項1に記載の材料特性の予測モデル作成方法であって、
　前記学習用データセットの特徴を表すパラメータとして、前記学習用データセットの特性値に係る系統誤差、標準偏差、分散、変動係数、分位数、尖度、歪度のうち、いずれか1つまたは複数のパラメータを用いることを特徴とする材料特性の予測モデル作成方法。
［６］前項1に記載の材料特性の予測モデル作成方法であって、
　前記重みを算出するステップにおいて、指数関数型、逆数型、逆数の累乗型のうち、いずれか1つまたは複数の重み関数を用いることを特徴とする材料特性の予測モデル作成方法。
［７］材料特性の予測モデル作成装置であって、
　学習用データセットが入力されることで、学習済みクラスタリングモデルを生成するとともに、前記学習用データセットをＮ個のクラスターに分類するクラスタリングモデルと、
　分類された前記各クラスターの重心間の距離を算出し、算出された各クラスターの重心間の距離と前記学習用データセットの特徴を表すパラメータとを用いて、前記各クラスター間の重みを算出する重み定義部と、
　前記クラスターごとに、クラスターと前記重みを用いて学習済み予測モデルを生成する予測モデル｛Ｍ_ｉ｝_{１≦ｉ≦Ｎ}と、を有することを特徴とする予測モデル作成装置。
［８］材料特性の予測装置であって、
　予測用データが入力されることで、前記予測用データがＮ個に分類されたクラスターのうちクラスターｐに属することを特定する、前項７に記載の予測モデル作成装置により作成された学習済みクラスタリングモデルと、
　特定された前記クラスターｐに対応し、予測用データを入力として予測値を求める、前項７に記載の予測モデル作成装置により作成された学習済み予測モデルＭ_ｐと、
　求められた予測値を出力する出力部と、を有することを特徴とする材料特性の予測装置。
［９］材料特性の予測モデル作成プログラムであって、
　学習用データセットを取得する工程と、
　前記学習用データセットとクラスタリングモデルを用いて、学習済みクラスタリングモデルを生成するとともに、前記学習用データセットをＮ個のクラスターに分類する工程と、
　前記各クラスターの重心間の距離を算出する工程と、
　前記クラスターの重心間の距離と前記学習用データセットの特徴を表すパラメータを用いて、前記クラスター間の重みを算出する工程と、
　前記クラスターごとに、クラスターと前記重みを用いて学習済み予測モデル｛Ｍ_ｉ｝_{１≦ｉ≦Ｎ}を生成する工程と、をコンピュータに実行させるための予測モデル作成プログラム。
［1０］材料特性の予測プログラムであって、
　予測用データを取得する工程と、
　前項９に記載の予測モデル作成プログラムにより作成された学習済みクラスタリングモデルを用いて、前記予測用データがＮ個に分類された学習用データセットクラスターのうちクラスターｐに属することを特定する工程と、
　前記予測用データを入力として、特定された前記クラスターｐに対応し、前項９に記載の予測モデルＭ_ｐを用いて予測値を求める工程と、をコンピュータに実行させるための予測プログラム。

　本開示の予測モデル作成方法を用いて作成された予測モデルは、訓練データを余すことなく用いることによりデータ数の不足による過学習を抑えるとともに、データの傾向を反映した重みを導入することで、予測精度を向上させることができる。

学習フェーズにおける予測モデル作成装置及び予測フェーズにおける予測装置の機能構成の一例を示す図である。予測モデル作成装置及び予測装置のハードウェア構成の一例を示す図である。学習処理の流れを示すフローチャートである。予測処理の流れを示すフローチャートである。本実施形態に係る予測モデル作成方法における要件設定画面の一例のイメージ図である。比較例のうち通常のランダムフォレストの学習処理の流れを示すフローチャートである。比較例のうち通常のランダムフォレストの予測処理の流れを示すフローチャートである。予測精度の一例を示す図である。

　以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。

　＜予測モデル作成装置及び予測装置の機能構成＞
　はじめに、予測モデル作成装置及び予測装置の機能構成について説明する。予測モデル作成装置は、試作時の設計条件と、試作した材料の特性値とを含む学習用データセットを用いて予測モデルの生成を行う予測モデル作成装置を例に説明する。また、予測装置は、予測モデル作成装置において作成された学習済み予測モデルを用いて新たな設計条件のもとで試作する材料の特性値を予測する予測装置を例に説明する。

　ただし、実施形態に係る予測モデル作成装置及び予測装置は、上記用途に限定されず、材料の設計以外に用いられてもよい。

　図１は、学習フェーズにおける予測モデル作成装置及び予測フェーズにおける予測装置の機能構成の一例を示す図である。予測モデル作成装置１２０には、学習プログラムがインストールされており、当該プログラムが実行されることで、予測モデル作成装置１２０は、
・クラスタリングモデル１２１、
・重み定義部１２２、
・予測モデル１２３、
として機能する（図１（ａ）参照）。

　予測モデル作成装置１２０は、材料データ格納部１１０に格納された学習用データセット１１１を用いて、クラスタリングモデル１２１、予測モデル１２３の学習を行い、学習済みクラスタリングモデル１３１及び学習済み予測モデル１３２を生成する。

　図１（ａ）に示すように、学習用データセット１１１には、情報の項目として、"入力データ"と"正解データ"とが含まれる。なお、図１（ａ）の例は、"入力データ"として、「設計条件１」～「設計条件ｎ」が格納され、"正解データ"として、「特性値１」～「特性値ｎ」が格納された場合を示している。

　クラスタリングモデル１２１は、学習用データセット１１１の"入力データ"に格納された「設計条件１」～「設計条件ｎ」が入力されることで、出力データとして学習用データセットクラスターを出力する。つまり、学習用データセット１１１が入力されることで学習済みクラスタリングモデル１３１およびクラスターｉに分類された学習用データセット１１１が生成される。

　なお、クラスタリングモデル１２１で生成されるクラスターの数はＮと設定する。

　なお、予測モデル作成装置１２０が学習を行うクラスタリングモデル１２１は、学習手法として、たとえば、"Ｋ－ｍｅａｎｓ法、Ｎｅａｒｅｓｔ　Ｎｅｉｇｈｂｏｒ法、階層的クラスタリング法、混合ガウス法、ＤＢＳＣＡＮ法、ｔ－ＳＮＥ法、自己組織化マップ法"、
のうちのいずれか１つまたは複数の学習手法のもとで学習が行われるモデルであるとする。

　より具体的には、クラスタリングモデル１２１は、学習用データセット１１１の"入力データ"に格納された「設計条件１」～「設計条件ｎ」をいずれかのクラスターｉ（１≦ｉ≦Ｎ）に分類するとともに、クラスターｉの重心座標を出力する。

　重み定義部１２２は、分類されたクラスター間の距離と学習用データセット１１１の特徴を表すパラメータを用いて予測モデル１２３で用いる重み｛Ｗ_ｉｊ｝_{1≦ｉ≦Ｎ，1≦ｊ≦Ｎ}を算出する。

　分類されたクラスター間の距離｛ｌ_ｉｊ｝_{1≦ｉ≦Ｎ，1≦ｊ≦Ｎ}は、前述した重心座標間の距離で表され、Ｎ（Ｎ－１）／２通り算出される。

　なお、重み定義部１２２で用いる各クラスター間の距離を算出する手法として、たとえば、"ユークリッド距離法、マンハッタン距離法、マハラノビス距離法、ミンコフスキー距離法、コサイン距離法、最短距離法、最長距離法、重心法、群平均法、ｗａｒｄ法、Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒダイバージェンス、Ｊｅｎｓｅｎ―Ｓｈａｎｎｏｎダイバージェンス、Ｄｙｎａｍｉｃ　ｔｉｍｅ　ｗａｒｐｉｎｇ、Ｅａｒｔｈ　ｍｏｖｅｒ'ｓ　ｄｉｓｔａｎｃｅ"、
のうちのいずれか1つまたは複数の組合せを用いて距離を算出することができる。

　重み定義部１２２で用いる学習用データセット１１１の特徴を表すパラメータとしては、"正解データ"に格納されている「特性値１」～「特性値ｎ」の"系統誤差、標準偏差、分散、変動係数、分位数、尖度、歪度"、のうちのいずれか１つまたは複数のパラメータを用いて定義することができる。

　分類されたクラスター間の距離と学習用データセット１１１の特徴を表すパラメータを用いて算出される重みは重み関数で表され、重み関数としては、たとえば、"指数関数型、逆数型、逆数の累乗型"、
のうちいずれか１つまたは複数を用いて定義される。

　たとえば、重み関数Ｗ_ｉｊとしては、

　式（１）で表されるボルツマン型のような指数関数で定義することができる。

　ここで、ｌ_ｉｊは各クラスター間の距離であり、τは学習用データセットの特徴を表すパラメータであり、αは任意定数である。

　予測モデル１２３は、クラスタリングモデル１２１で出力される学習用データセットクラスターが含む説明変数と重み定義部１２２で算出された重みを乗じた値が入力され、入力に用いた説明変数（設計条件）に対応する目的変数（特性値）を出力データとして特性値を出力するように学習することで生成される。

　なお、予測モデル作成装置１２０が学習を行う予測モデルは、学習手法として、
"ランダムフォレスト、決定木、勾配ブースティング、アダブースト、バギング、線形、部分最小二乗、ラッソ、線形リッジ、エラスティックネット"、
のうちのいずれか１つまたは複数の組合せを用いることができる。

　なお、予測モデル作成装置１２０が予測モデル１２３の学習を行うにあたり、クラスタリングモデル１２１で分類されたＮ個のクラスターに対して、予測モデル１２３｛Ｍ_ｉ｝_{１≦ｉ≦Ｎ}が学習するものとする。つまり、クラスターｉに対して、重みＷ_ｉｊを適用した学習が行われ、学習済み予測モデル１３２｛Ｍ_ｉ｝_{１≦ｉ≦Ｎ}がそれぞれ生成される。

　重みを適用した学習の方法としては、一例として、例えば、ｓｃｉｋｉｔ－ｌｅａｒｎに格納されているランダムフォレスト回帰アルゴリズムのｆｉｔ関数内のパラメータとして重みを入力する方法を挙げることができる。

　これにより、予測モデル作成装置１２０は、学習済みクラスタリングモデル１３１および学習済み予測モデル１３２を生成する。また、予測モデル作成装置１２０は、生成した学習済みクラスタリングモデル１３１および学習済み予測モデル１３２を予測装置１３０に適用する。

　一方、予測装置１３０には、予測プログラムがインストールされており、当該プログラムが実行されることで、予測装置１３０は、
・学習済みクラスタリングモデル１３１、
・学習済み予測モデル１３２、
・出力部１３３、
として機能する（図１（ｂ）参照）。

　学習済みクラスタリングモデル１３１は、予測モデル作成装置１２０が、学習用データセット１１１の"入力データ"に格納された「設計条件１」～「設計条件ｎ」を用いてクラスタリングモデル１２１の学習を行うことで生成される。

　また、学習済みクラスタリングモデル１３１は、予測用データ（設計条件ｘ）が入力されることで、学習用データセット１１１が分類されたＮ個のクラスターのうち、クラスターｐに属することを特定する。

　学習済み予測モデル１３２は、予測モデル作成装置１２０が、学習用データセット１１１が分類されたＮ個のクラスター、および重み定義部１２２で算出した重みを用いて予測モデル１２３の学習を行うことで生成される。

　また、学習済み予測モデル１３２は、設計条件ｘおよび学習済みクラスタリングモデルが出力するクラスターの所属区分ｐが入力されることで、所属区分ｐに対応した学習済み予測モデル１３２Ｍ_ｐを用いて特性値ｙを予測し、出力部１３３は、予測された特性値を予測データとして、出力する。

　これにより、予測装置１３０によれば、設計条件ｘが属するクラスター及びそのクラスターに応じた重みを用いて学習した学習済みモデルを用いて特性値の予測を行うことで、十分な予測精度を得ることができるようになる。つまり、本実施形態によれば、学習済み予測モデルを用いた予測装置において予測精度を向上させることができる。
＜予測モデル作成装置及び予測装置のハードウェア構成＞
　次に、予測モデル作成装置１２０及び予測装置１３０のハードウェア構成について説明する。なお、予測モデル作成装置１２０及び予測装置１３０は、同様のハードウェア構成を有するため、ここでは、図２を用いて、予測モデル作成装置１２０及び予測装置１３０のハードウェア構成をまとめて説明する。

　図２は、学習装置及び予測装置のハードウェア構成の一例を示す図である。図２に示すように、学習装置１２０及び予測装置１３０は、プロセッサ２０１、メモリ２０２、補助記憶装置２０３、Ｉ／Ｆ（Interface）装置２０４、通信装置２０５、ドライブ装置２０６を有する。なお、学習装置１２０及び予測装置１３０の各ハードウェアは、バス２０７を介して相互に接続されている。

　プロセッサ２０１は、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の各種演算デバイスを有する。プロセッサ２０１は、各種プログラム（例えば、学習プログラム、予測プログラム等）をメモリ２０２上に読み出して実行する。

　メモリ２０２は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等の主記憶デバイスを有する。プロセッサ２０１とメモリ２０２とは、いわゆるコンピュータを形成し、プロセッサ２０１が、メモリ２０２上に読み出した各種プログラムを実行することで、当該コンピュータは各種機能を実現する。

　補助記憶装置２０３は、各種プログラムや、各種プログラムがプロセッサ２０１によって実行される際に用いられる各種データを格納する。

　Ｉ／Ｆ装置２０４は、不図示の外部装置と接続する接続デバイスである。通信装置２０５は、ネットワークを介して外部装置（例えば、材料データ格納部１１０）と通信するための通信デバイスである。

　ドライブ装置２０６は記録媒体２１０をセットするためのデバイスである。ここでいう記録媒体２１０には、ＣＤ－ＲＯＭ、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記録媒体２１０には、ＲＯＭ、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。

　なお、補助記憶装置２０３にインストールされる各種プログラムは、例えば、配布された記録媒体２１０がドライブ装置２０６にセットされ、該記録媒体２１０に記録された各種プログラムがドライブ装置２０６により読み出されることでインストールされる。あるいは、補助記憶装置２０３にインストールされる各種プログラムは、通信装置２０５を介してネットワークからダウンロードされることで、インストールされてもよい。

　＜学習処理の流れ＞
　次に、学習処理の流れについて説明する。図３は、学習処理の流れを示すフローチャートである。

　ステップＳ３０１において、予測モデル作成装置１２０は、学習用データセット１１１を取得する。

　ステップＳ３０２において、予測モデル作成装置１２０は、取得した学習用データセット１１１を用いて、クラスタリングモデル１２１の学習を行い、学習済みクラスタリングモデル１３１を生成するとともに、各クラスター間の重心座標およびＮ個にクラスター分類された学習用データセットクラスターを得る。

　ステップＳ３０３において、重み定義部１２２は、学習用データセットクラスターｉについて、各クラスター間の重心間の距離｛ｌ_ｉｊ｝_{1≦ｉ≦Ｎ，1≦ｊ≦Ｎ}を算出する。

　ステップＳ３０４において、重み定義部１２２は、クラスター間の距離と学習用データセット１１１の特徴を表すパラメータを用いて予測モデル１２３で用いる重み｛Ｗ_ｉｊ｝_{1≦ｉ≦Ｎ，1≦ｊ≦Ｎ}を算出する。

　ステップＳ３０５において、予測モデル作成装置１２０は、Ｎ個にクラスター分類された学習用データセット１１１の全てのクラスターについて重みを算出したか否かを判定する。ステップＳ３０５において、重みを算出していないクラスターがあると判定した場合には（ステップＳ３０５においてＮＯの場合には）、ステップＳ３０４に戻る。

　一方、ステップＳ３０５において、重みを算出していないクラスターがないと判定した場合には（ステップＳ３０５においてＹＥＳの場合には）、ステップＳ３０６に進む。

　ステップＳ３０６において、予測モデル作成装置１２０は、前記生成された学習用データセットクラスターおよび対応した重みの組み合わせを用いて、予測モデル１２３の学習を行い、学習済み予測モデル１３２を生成する。

　ステップＳ３０７において、予測モデル作成装置１２０は、Ｎ個にクラスター分類された学習用データセット１１１の全てのクラスターについて予測モデル１２３の学習を行ったか否かを判定する。ステップＳ３０６において、学習済み予測モデル１３２を生成していないクラスターがあると判定した場合には（ステップＳ３０７においてＮＯの場合には）、ステップＳ３０６に戻る。

　一方、ステップＳ３０７において、学習済み予測モデル１３２を生成していない学習用データセットクラスターがないと判定した場合には（ステップＳ００７においてＹＥＳの場合には）、学習処理を終了する。
＜予測処理の流れ＞
　次に、予測処理の流れについて説明する。図４は、予測処理の流れを示すフローチャートである。

　ステップＳ４０１において、予測装置１３０は、予測用データ（設計条件ｘ）を取得する。

　ステップＳ４０２において、予測装置１３０は、取得した予測用データを学習済みクラスタリングモデル１３１に入力し、学習用データセットクラスターのうちクラスターｐに属することを特定する。

　ステップＳ４０３において、予測装置１３０は、特定されたクラスターｐに対応した学習済み予測モデル１３２Ｍ_ｐを取得し、取得した予測用データを入力として、特性値を予測する

　ステップＳ４０４において、予測装置１３０は、予測した特性値を、予測対象の入力データ（設計条件ｘ）に対する予測データとして、出力する。

　図５の画面５００は、クラスタリングモデル１２１の生成を行うにあたって、クラスター数Ｎの手動設定もしくはエルボー法による自動設定の選択、及び、学習用データセット１１１の特徴を表すパラメータの種類の選択を行うＧＵＩ（グラフィカルユーザインタフェース）を示している。ユーザーは画面から最適なクラスター数の設定を選択するとともに、系統誤差、標準偏差、分散、変動係数、四分位数、尖度、歪度などのパラメータを選択する。例えば、図５ではクラスター数の設定方法として、エルボー法による自動設定を選択し、学習用データセット１１１の特徴を表すパラメータとして系統誤差を選択している例を示している。図５の状態で「予測」ボタンが押下されると、予測モデル作成装置１２０のクラスタリングモデル１２１および重み定義部１２２、予測モデル１２３は、図３のフローチャートの手順に従い、学習済みクラスタリングモデル１３１および学習済み予測モデル１３２を生成する。

　＜まとめ＞
　以上の説明から明らかなように、実施形態に係る予測装置１３０は、
・入力データをクラスタリングするための学習済みクラスタリングモデル１３１と、クラスターｐに対応した学習済み予測モデル１３２を有する。
・適切な重みのもとで、学習済み予測モデル１３２により予測された特性値を予測データとして、出力する。

　これにより、実施形態に係る予測装置１３０によれば、学習済み予測モデル１３２を用いた予測装置１３０において、予測精度を向上させることができる。

　［実施例］
　本発明の予測方法の具体的な実施例を、公知のデータセットを用いて説明する。なお、本発明による特性予測は材料系分野に限らず適用が可能である。

　実施例の説明に際して、材料データ格納部１１０には、例えば、ｓｃｉｋｉｔ－ｌｅａｒｎのＴｏｙ　ｄａｔａｓｅｔｓ（https://scikit-learn.org/stable/datasets/toy_dataset.html）で公開されている５０６データのボストン住宅価格に関するデータセットが格納されているものとする。

　当該ボストン住宅価格データセットを用いて予測モデル作成処理及び予測処理を行う場合、例えば、以下の手順により処理が行われる。

　［学習手順］
（１）手順１
　以下で学習手順の説明を行う。

　ボストン住宅価格データセットを、学習用データセット／予測用データセットに、７５％／２５％の割合でランダムに分割した。なお、ボストン住宅価格データセットのうち、説明変数として、ＣＲＩＭ（町別の「犯罪率」）、ＺＮ（「広い家の割合」）、ＩＮＤＵＳ（町別の「非小売業の割合」）、ＣＨＡＳ（「川の隣か」）、ＮＯＸ（「ＮＯｘ濃度（０．１ｐｐｍ単位）」）、ＲＭ（１戸当たりの「平均部屋数」）、ＡＧＥ（「古い家の割合」）、ＤＩＳ（「主要施設への距離」）、ＲＡＤ（「主要高速道路へのアクセス性」）、ＴＡＸ（「固定資産税率」）、ＰＴＲＡＴＩＯ（町別の「生徒と先生の比率」）、Ｂ（「町ごとの黒人の割合」）、ＬＳＴＡＴ（「低所得者人口の割合」）を用い、目的変数としてＭＥＤＶ（「住宅価格」（１０００ドル単位）の中央値）を用いた。

（２）手順２
　手順１で得た学習用データセットを用いて、ｓｃｉｋｉｔ－ｌｅａｒｎに格納されているクラスタリングアルゴリズムであるＫ―Ｍｅａｎｓ法を用いて学習を行い、学習済みクラスタリングモデルを得た。

（３）手順３
　手順２で学習した学習済みクラスタリングモデルを用い、学習用データセットを入力することで、Ｎ個にクラスター分類された学習用データセットクラスターを得た。ここでは、エルボー法で行った結果として、２個のクラスターを得た。

（４）手順４
　手順３でクラスター分類された学習用データセットクラスターに対し、各クラスター間の重心間の距離｛ｌ_ｉｊ｝_{1≦ｉ≦Ｎ，1≦ｊ≦Ｎ}をＮ（Ｎ－１）／２通り算出した。ここでは、各クラスター間の重心間の距離として、ユークリッド距離を用いた。

（５）手順５
　手順４で算出したクラスター間の距離｛ｌ_ｉｊ｝_{1≦ｉ≦Ｎ，1≦ｊ≦Ｎ}と、学習用データセットの特徴を表すパラメータとを用いて、前記クラスター間の重み｛Ｗ_ｉｊ｝_{1≦ｉ≦Ｎ，1≦ｊ≦Ｎ}を算出した。ここでは、学習用データセットの特徴を表すパラメータとして、学習用データセットのＭＥＤＶの標準偏差を用いた。また、クラスター間の重みとして下記式（１）で表される重み関数を用いた。なお、任意定数として、α＝１．０を用いた。

（６）手順６
　手順２で生成した学習用データセットクラスターと手順５で生成した各クラスターごとの重みとを、ｓｃｉｋｉｔ－ｌｅａｒｎに格納されているランダムフォレスト回帰アルゴリズムを予測モデルとして用い、各クラスターに対して予測モデルＭ_ｉに学習させ、２つの学習済み予測モデルを得た。なお、ここでは、重みを適用した学習の方法として、ｓｃｉｋｉｔ－ｌｅａｒｎに格納されているランダムフォレスト回帰アルゴリズムのｆｉｔ関数内のパラメータに重みを入力した。

　［予測手順］
（７）手順７
　以下で予測手順の説明を行う。

　手順１で得た予測用データセットから予測用データを取得した。次いで、手順２で学習した学習済みクラスタリングモデルを用い、予測用データが手順３に記載のクラスターのうち、クラスターｐに属するかを特定した。

（８）手順８
　予測用データを入力として、手順６で作成した、予測用データの属するクラスターｐに対応する学習済み予測モデルＭ_ｐを用いて特性値を予測し、予測された特性値を予測データとして出力した。

　予測用データセットの残りの各予測用データについても同様にして予測データを出力した。

（９）手順９
　本発明の予測方法の予測精度を求めた。予測精度は、下記式（２）によって定義されるＲ^２値を評価指標とした。Ｒ^２値は、１に近いほど予測精度が高い。

［比較例］
　一方、比較例として、手順２のクラスタリングを行わず、手順５にある重みを用いないことを除いて、図６および図７のフローチャートに示すように、実施例と同様に予測モデルの作成の予測を行い、Ｒ^２値を算出した。

　実施例の予測精度としてＲ^２＝０．８７９を得た。一方、比較例の予測精度として、Ｒ^２＝０．８６８を得た。

　図８に示すように、通常のランダムフォレスト回帰モデルの場合よりも、本実施例のようにクラスター分類を行い、適切な重みを考慮したランダムフォレスト回帰モデルの予測精度の方が、比較例の予測精度よりも高くなっていることがわかる。

　このように、予測用データを適切なクラスターに分類し、各クラスターごとに適切な重みを考慮したモデルを構築したことで比較例よりも、より精度良く予測することができる。

　［その他の実施形態］
　上記各実施形態において、予測モデル作成装置と予測装置とは別体の装置として説明した。しかしながら、予測モデル作成装置と予測装置とは一体の装置により構成されてもよい。

　なお、上記の実施形態では、重心間の距離の算出方法はユークリッド距離を用いて行い、他の具体例については言及しなかった。しかしながら、重心間の距離の算出方法は、例えば、マンハッタン距離法、マハラノビス距離法、ミンコフスキー距離法、コサイン距離法、最短距離法、最長距離法、重心法、群平均法、ｗａｒｄ法、Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒダイバージェンス、Ｊｅｎｓｅｎ―Ｓｈａｎｎｏｎダイバージェンス、Ｄｙｎａｍｉｃ　ｔｉｍｅ　ｗａｒｐｉｎｇ、Ｅａｒｔｈ　ｍｏｖｅｒ'ｓ　ｄｉｓｔａｎｃｅなどであっても良い。

　また、上記の実施形態では、Ｋ―Ｍｅａｎｓ法とランダムフォレスト回帰アルゴリズムを用いて行い、他の学習手法の具体例について言及しなかった。しかしながら、クラスタリングモデルの学習を行う際に用いられる学習手法は、例えば、Ｎｅａｒｅｓｔ　Ｎｅｉｇｈｂｏｒ法、階層的クラスタリング法、混合ガウス法、ＤＢＳＣＡＮ法、ｔ－ＳＮＥ法、自己組織化マップ法などであっても良い。

　一方、予測モデルの学習を行う際に用いられる学習手法は、例えば、決定木、勾配ブースティング、アダブースト、バギング、線形、部分最小二乗、ラッソ、線形リッジ、エラスティックネットなどであっても良い。

　本発明の一実施形態では、本発明の予測方法により特性を予測された材料の設計条件を製造に用いることもできる。例えば、材料を製造する装置は、予測装置１３０が特性を予測した材料の設計条件の情報を予測装置１３０から取得し、当該取得した設計条件の情報を用いて、材料を製造することができる。

　なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせ等、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。

　１１１　　　　　：学習用データセット
　１２０　　　　　：予測モデル作成装置
　１２１　　　　　：クラスタリングモデル
　１２２　　　　　：重み定義部
　１２３　　　　　：予測モデル
　１３０　　　　　：予測装置
　１３１　　　　　：学習済みクラスタリングモデル
　１３２　　　　　：学習済み予測モデル
　１３３　　　　　：出力部

Claims

　材料特性の予測モデル作成方法であって、
　学習用データセットを取得するステップと、
　前記学習用データセットとクラスタリングモデルを用いて、学習済みクラスタリングモデルを生成するとともに、前記学習用データセットをＮ個のクラスターに分類するステップと、
　前記各クラスターの重心間の距離を算出するステップと、
前記クラスターの重心間の距離と前記学習用データセットの特徴を表すパラメータとを用いて、前記クラスター間の重みを算出するステップと、
　前記クラスターごとに、クラスターと前記重みを用いて学習済み予測モデル｛Ｍ_ｉ｝_{１≦ｉ≦Ｎ}を生成するステップと、を有することを特徴とする材料特性の予測モデル作成方法。
　請求項1に記載の予測モデル作成方法に引き続いて行う材料特性の予測方法であって、
　予測用データを取得するステップと、
　前記学習済みクラスタリングモデルを用いて、前記予測用データがＮ個に分類された学習用データセットクラスターのうちクラスターｐに属することを特定するステップと、
　前記予測用データを入力として、前記クラスターｐに対応する学習済み予測モデルＭ_ｐを用いて予測値を求めるステップと、を有することを特徴とする材料特性の予測方法。
　請求項1に記載の材料特性の予測モデル作成方法であって、
　請求項1に記載のクラスタリングモデルを構築するステップにおいて、Ｋ－ｍｅａｎｓ法、Ｎｅａｒｅｓｔ　Ｎｅｉｇｈｂｏｒ法、階層的クラスタリング法、混合ガウス法、ＤＢＳＣＡＮ法、ｔ－ＳＮＥ法、自己組織化マップ法のうち、いずれか1つまたは複数のクラスタリング手法を用いることを特徴とする材料特性の予測モデル作成方法。
　請求項1に記載の材料特性の予測モデル作成方法であって、
　請求項1に記載のクラスターの重心間の距離を算出するステップにおいて、ユークリッド距離法、マンハッタン距離法、マハラノビス距離法、ミンコフスキー距離法、コサイン距離法、最短距離法、最長距離法、重心法、群平均法、ｗａｒｄ法、Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒダイバージェンス、Ｊｅｎｓｅｎ―Ｓｈａｎｎｏｎダイバージェンス、Ｄｙｎａｍｉｃ　ｔｉｍｅ　ｗａｒｐｉｎｇ、Ｅａｒｔｈ　ｍｏｖｅｒ'ｓ　ｄｉｓｔａｎｃｅのうち、いずれか1つまたは複数の組合せを用いて距離を算出することを特徴とする材料特性の予測モデル作成方法。
　請求項1に記載の材料特性の予測モデル作成方法であって、
　前記学習用データセットの特徴を表すパラメータとして、前記学習用データセットの特性値に係る系統誤差、標準偏差、分散、変動係数、分位数、尖度、歪度のうち、いずれか1つまたは複数のパラメータを用いることを特徴とする材料特性の予測モデル作成方法。
　請求項1に記載の材料特性の予測モデル作成方法であって、
　前記重みを算出するステップにおいて、指数関数型、逆数型、逆数の累乗型のうち、いずれか1つまたは複数の重み関数を用いることを特徴とする材料特性の予測モデル作成方法。
　材料特性の予測モデル作成装置であって、
　学習用データセットが入力されることで、学習済みクラスタリングモデルを生成するとともに、前記学習用データセットをＮ個のクラスターに分類するクラスタリングモデルと、
　分類された前記各クラスターの重心間の距離を算出し、算出された各クラスターの重心間の距離と前記学習用データセットの特徴を表すパラメータとを用いて、前記各クラスター間の重みを算出する重み定義部と、
　前記クラスターごとに、クラスターと前記重みを用いて学習済み予測モデルを生成する予測モデル｛Ｍ_ｉ｝_{１≦ｉ≦Ｎ}と、を有することを特徴とする予測モデル作成装置。
　材料特性の予測装置であって、
　予測用データが入力されることで、前記予測用データがＮ個に分類されたクラスターのうちクラスターｐに属することを特定する、請求項７に記載の予測モデル作成装置により作成された学習済みクラスタリングモデルと、
　特定された前記クラスターｐに対応し、予測用データを入力として予測値を求める、請求項７に記載の予測モデル作成装置により作成された学習済み予測モデルＭ_ｐと、
　求められた予測値を出力する出力部と、を有することを特徴とする材料特性の予測装置。
　材料特性の予測モデル作成プログラムであって、
　学習用データセットを取得する工程と、
　前記学習用データセットとクラスタリングモデルを用いて、学習済みクラスタリングモデルを生成するとともに、前記学習用データセットをＮ個のクラスターに分類する工程と、
　前記各クラスターの重心間の距離を算出する工程と、
前記クラスターの重心間の距離と前記学習用データセットの特徴を表すパラメータを用いて、前記クラスター間の重みを算出する工程と、
　前記クラスターごとに、クラスターと前記重みを用いて学習済み予測モデル｛Ｍ_ｉ｝_{１≦ｉ≦Ｎ}を生成する工程と、をコンピュータに実行させるための予測モデル作成プログラム。
　材料特性の予測プログラムであって、
　予測用データを取得する工程と、
　請求項９に記載の予測モデル作成プログラムにより作成された学習済みクラスタリングモデルを用いて、前記予測用データがＮ個に分類された学習用データセットクラスターのうちクラスターｐに属することを特定する工程と、
　前記予測用データを入力として、特定された前記クラスターｐに対応し、請求項９に記載の予測モデルＭ_ｐを用いて予測値を求める工程と、をコンピュータに実行させるための予測プログラム。