WO2021095742A1

WO2021095742A1 - 入力データ生成システム、入力データ生成方法、及び入力データ生成プログラム

Info

Publication number: WO2021095742A1
Application number: PCT/JP2020/041973
Authority: WO
Inventors: 恭平花岡
Original assignee: 昭和電工マテリアルズ株式会社
Priority date: 2019-11-12
Filing date: 2020-11-10
Publication date: 2021-05-20
Also published as: US20220391699A1; CN114651309A; JP7395974B2; EP4044189A4; JP2021077187A; KR20220097922A; EP4044189A1

Abstract

一実施形態に係る入力データ生成システムは、少なくとも１つのプロセッサを備え、少なくとも１つのプロセッサが、第１の分子に対応した分子グラフを特定する第１の分子グラフデータと、第２の分子に対応した分子グラフを特定する第２の分子グラフデータと、第１の分子及び第２の分子の混合率を表す混合率データとの入力を少なくとも受け付け、第１の分子グラフデータと第２の分子グラフデータとを少なくとも組み合わせて合成分子グラフデータを生成し、合成分子グラフデータを特徴ベクトルに変換し、特徴ベクトルに混合率データを反映することにより機械学習用の入力データを生成する。

Description

入力データ生成システム、入力データ生成方法、及び入力データ生成プログラム

　本開示の一側面は、入力データ生成システム、入力データ生成方法、及び入力データ生成プログラムに関する。

　従来から、分子の構造を所定のフォーマットで取得しそれをベクトル情報に変換して機械学習アルゴリズムに入力して特性を予測することが行われている。例えば、生体高分子の立体構造と化合物の立体構造との結合性を機械学習を用いて予測する方法が知られている（下記特許文献１参照）。この方法では、生体高分子の立体構造と化合物の立体構造とに基づいて生体高分子と化合物との複合体の予測立体構造を生成し、その予測立体構造を予測立体構造ベクトルに変換し、機械学習アルゴリズムを用いてその予測立体構造ベクトルを判別することによって生体高分子の立体構造と化合物の立体構造との結合性を予測している。

特開２０１９－２８８７９号公報

　近年では、分子グラフを入力としたニューラルネットワークによって物質の特性を予測する技術が知られている。しかしながら、この技術では、複数種類の成分を様々な配合比で混合した多成分物質の特性を効率よく予測することは実現されていない。また、多成分物質に関しては一般に立体構造を予め知ることは難しい傾向にあるため、上記特許文献１の方法を用いて多成分物質の特性を予測することもできない。そこで、複数種類の成分が混合された多成分物質の特性を効率よく予測させるための仕組みが望まれている。

　本開示の一形態の入力データ生成システムは、少なくとも１つのプロセッサを備え、少なくとも１つのプロセッサが、第１の分子に対応した分子グラフを特定する第１の分子グラフデータと、第２の分子に対応した分子グラフを特定する第２の分子グラフデータと、第１の分子及び第２の分子の混合率を表す混合率データとの入力を少なくとも受け付け、第１の分子グラフデータと第２の分子グラフデータとを少なくとも組み合わせて合成分子グラフデータを生成し、合成分子グラフデータを特徴ベクトルに変換し、特徴ベクトルに混合率データを反映することにより機械学習用の入力データを生成する。

　あるいは、本開示の他の形態の入力データ生成方法は、少なくとも１つのプロセッサを備えるコンピュータにより実行される入力データ生成方法であって、第１の分子に対応した分子グラフを特定する第１の分子グラフデータと、第２の分子に対応した分子グラフを特定する第２の分子グラフデータと、第１の分子及び第２の分子の混合率を表す混合率データとの入力を少なくとも受け付けるステップと、第１の分子グラフデータと第２の分子グラフデータとを少なくとも組み合わせて合成分子グラフデータを生成するステップと、合成分子グラフデータを特徴ベクトルに変換するステップと、特徴ベクトルに混合率データを反映することにより機械学習用の入力データを生成するステップと、を備える。

　あるいは、本開示の他の形態の入力データ生成プログラムは、コンピュータに、第１の分子に対応した分子グラフを特定する第１の分子グラフデータと、第２の分子に対応した分子グラフを特定する第２の分子グラフデータと、第１の分子及び第２の分子の混合率を表す混合率データとの入力を少なくとも受け付けるステップと、第１の分子グラフデータと第２の分子グラフデータとを少なくとも組み合わせて合成分子グラフデータを生成するステップと、合成分子グラフデータを特徴ベクトルに変換するステップと、特徴ベクトルに混合率データを反映することにより機械学習用の入力データを生成するステップと、を実行させる。

　上記形態によれば、第１の分子の分子構造を特定するデータと第２の分子の分子構造を特定するデータとが組み合わされて合成分子グラフデータが生成され、その合成分子グラフデータが特徴ベクトルに変換され、その特徴ベクトルに第１の分子及び第２の分子の混合率を表すデータが反映されて機械学習用の入力データが生成される。このような構成により、分子グラフを入力とするニューラルネットワークに入力させるための多成分物質に関する入力データを効率的に生成することができる。その結果、複数種類の成分を含む多成分物質であっても、ニューラルネットワークによって入力データを処理させることにより、多成分物質の特性を高精度に予測させることができる。

　本開示の側面によれば、複数種類の成分を含む多成分物質の特性を高精度に予測させることができる。

実施形態に係る入力データ生成システムを構成するコンピュータのハードウェア構成の一例を示す図である。実施形態に係る入力データ生成システムの機能構成の一例を示す図である。図２の取得部１１が取得する分子グラフデータによって特定される分子グラフの一例を示す図である。図２の合成部１２が図３に示す第１の分子グラフ及び第２の分子グラフを組み合わせて生成した多成分物質の分子グラフの一例を示す図である。実施形態に係る入力データ生成システムの動作の一例を示すフローチャートである。実施形態に係る入力データ生成システムの動作において扱われる分子データの一例を示す図である。

　以下、添付図面を参照して、本発明の実施形態について詳細に説明する。なお、説明において、同一要素又は同一機能を有する要素には、同一符号を用いることとし、重複する説明は省略する。

　［システムの概要］
　実施形態に係る入力データ生成システム１０は、複数種類の成分を様々な混合比で混合することにより生成される多成分物質を表現する入力データの生成処理を実行するコンピュータシステムである。成分とは、多成分物質を生成するために用いられる特定の分子構造を有する化学物質のことをいい、例えば、モノマー、ポリマー、または、低分子添加剤、溶質分子、ガス分子等の単分子である。１つの成分には複数種類の分子が含まれていてもよい。多成分物質とは、複数の成分を所定の混合比で混合することによって生成される化学物質であり、例えば、成分がモノマーの場合はポリマーアロイ、成分がポリマーの場合はポリマーブレンド、成分が溶質分子あるいは溶媒の場合には混合溶液、成分がガス分子の場合は混合気体である。

　入力データ生成システム１０によって生成された入力データは、機械学習用の入力データとして、多成分物質の特性を予測するために用いられる。多成分物質の特性とは、例えば、多成分物質が樹脂の場合は、ガラス転移温度及び融点などの熱物性、機械物性、又は、接着性等である。また、多成分物質の特性は、多成分物質が他の種類の物質の場合は、薬剤の薬効あるいは毒性、可燃物の発火点等の危険性、外観上の特性、又は、特定の用途に対する適正等である。入力データが入力される機械学習とは、与えられた情報に基づいて反復的に学習することで法則またはルールを自律的に見つけ出す手法である。機械学習の具体的な手法は限定されない。例えば、機械学習は、ニューラルネットワークを含んで構成される計算モデルである機械学習モデルを用いた機械学習であってよい。ニューラルネットワークとは、人間の脳神経系の仕組みを模した情報処理のモデルのことをいう。より具体的な例として、機械学習は、グラフを入力とするニューラルネットワーク及びグラフを入力とする畳み込みニューラルネットワークのうちの少なくとも一つを用いたものである。

　［システムの構成］
　入力データ生成システム１０は１台以上のコンピュータで構成される。複数台のコンピュータを用いる場合には、これらのコンピュータがインターネット、イントラネット等の通信ネットワークを介して接続されることで、論理的に一つの入力データ生成システム１０が構築される。

　図１は、入力データ生成システム１０を構成するコンピュータ１００の一般的なハードウェア構成の一例を示す図である。例えば、コンピュータ１００は、オペレーティングシステム、アプリケーション・プログラム等を実行するプロセッサ（例えばＣＰＵ）１０１と、ＲＯＭおよびＲＡＭで構成される主記憶部１０２と、ハードディスク、フラッシュメモリ等で構成される補助記憶部１０３と、ネットワークカードまたは無線通信モジュールで構成される通信制御部１０４と、キーボード、マウス、タッチパネル等の入力装置１０５と、モニタ、タッチパネルディスプレイ等の出力装置１０６とを備える。

　入力データ生成システム１０の各機能要素は、プロセッサ１０１または主記憶部１０２の上に予め定められたプログラムを読み込ませてプロセッサ１０１にそのプログラムを実行させることで実現される。プロセッサ１０１はそのプログラムに従って、通信制御部１０４、入力装置１０５、または出力装置１０６を動作させ、主記憶部１０２または補助記憶部１０３におけるデータの読み出しおよび書き込みを行う。処理に必要なデータまたはデータベースは主記憶部１０２または補助記憶部１０３内に格納される。

　図２は入力データ生成システム１０の機能構成の一例を示す図である。入力データ生成システム１０は機能要素として取得部１１、合成部１２、追加部１３、ベクトル変換部１４、および混合率反映部１５を備える。

　取得部１１は、複数の成分の分子グラフデータと、これらの複数の成分を混合して混合物を生成することを想定した場合のそれぞれの複数の成分の混合率を表す混合率データとの入力を受け付ける機能要素である。取得部１１は、これらのデータを入力データ生成システム１０内のデータベースから入力データ生成システム１０のユーザによる選択入力に応じて取得してもよいし、外部のコンピュータ等からユーザによる選択に応じて取得してもよい。

　具体的には、取得部１１は、第１の成分に含まれる第１の分子に対応した分子グラフを特定する第１の分子グラフデータと、第２の成分に含まれる第２の分子に対応した分子グラフを特定する第２の分子グラフデータとを少なくとも取得する。これらの分子グラフデータは、分子構造をノード及びエッジで表現した無向グラフの構造を特定するデータである。分子グラフデータは、例えば、無向グラフの構造を、数字、英字、テキスト、ベクトル等で特定するデータでもよいし、その構造を二次元画像、三次元画像等によって可視化するデータであってもよいし、これらのデータのうちの任意の２以上の組合せのデータであってもよい。分子グラフデータを構成する個々の数値は、十進法で表されてもよいし、二進法、十六進法などの他の表記法によって表されてもよい。より詳細には、取得部１１は、第１の成分である第１のモノマーの分子グラフを特定する第１の分子グラフデータと、第２の成分である第２のモノマーの分子グラフを特定する第２の分子グラフデータを少なくとも取得する。

　図３には、（ａ）部に第１の分子グラフの構造の一例を示し、（ｂ）部に第２の分子グラフの構造の一例を示す。図３の（ａ）部に示す第１の分子グラフは、原子“Ａ”のノードＮ１と原子“Ｂ”のノードＮ２とがエッジＥ１２によって結合され、ノードＮ２と原子“Ｃ”のノードＮ３とがエッジＥ２３によって結合された構造を有する。第１の分子グラフデータには、各ノードＮ１～Ｎ３を特定するノード情報と、各エッジＥ１２，Ｅ２３を特定するエッジ情報が含まれている。さらに、第１の分子グラフにおいては、ノードＮ１及びノードＮ３が他のノードとさらに確率的に結合しうる性質を有するノードである。例えば、第１の分子グラフが直鎖構造のモノマーである場合は、端部のノードＮ１，Ｎ３が確率的に結合しうる性質を有する。ここでいう「確率的に結合しうる」とは、他のノードと結合が確率的に生じる、言い換えれば、結合する場合と結合しない場合が生じうることを意味する。第１の分子グラフがこのようなノードを有する場合には、第１の分子グラフデータには、さらに結合しうるノード（例えば、ノードＮ１，Ｎ３）を特定する結合ノード情報も含まれる。この結合ノード情報には、そのノードの結合先のノードあるいは結合先のノードの種類（原子等）を限定する限定情報が含まれていてもよい。

　同様に、図３の（ｂ）部に示す第２の分子グラフは、原子“Ｄ”のノードＮ４と原子“Ｅ”のノードＮ５とがエッジＥ４５によって結合され、ノードＮ５と原子“Ｆ”のノードＮ６とがエッジＥ５６によって結合された構造を有する。第２の分子グラフデータには、各ノードＮ４～Ｎ６を特定するノード情報と、各エッジＥ４５，Ｅ５６を特定するエッジ情報が含まれている。さらに、第２の分子グラフにおいては、第１の分子グラフと同様に、ノードＮ４及びノードＮ６が他のノードとさらに結合しうる性質を有するノードである。第２の分子グラフがこのようなノードを有する場合には、第２の分子グラフデータには、さらに結合しうるノードを特定する結合ノード情報も含まれる。この結合ノード情報には、そのノードの結合先のノードあるいは結合先のノードの種類を限定する情報が含まれていてもよい。

　また、取得部１１は、複数の成分の混合率ｒを表す混合率データとして、それぞれの成分の混合率自体を示すデータを取得してもよいし、複数の成分間の混合比を示すデータを取得してもよいし、複数の成分のそれぞれの混合量（重量、体積等）を絶対値あるいは相対値で示すデータを取得してもよい。例えば、第１の成分である第１のモノマーの混合率ｒ_１＝“０．５”と、第２の成分である第２のモノマーの混合率ｒ_２＝“０．５”とを取得する。

　合成部１２は、複数の成分の分子グラフを組み合わせて、多成分物質の分子グラフに対応する合成分子グラフデータを生成する。ここで、合成部１２は、少なくとも第１の分子グラフデータと第２の分子グラフデータとを参照して、第１の分子グラフと第２の分子グラフを組み合わせた多成分物質の分子グラフを特定する合成分子グラフデータを生成する。図４には、図３に示す第１の分子グラフ及び第２の分子グラフを組み合わせて生成した多成分物質の分子グラフの一例を示している。このように、合成部１２は、第１の分子グラフデータから特定されるノードＮ１，Ｎ２，Ｎ３に関するノード情報及びエッジＥ１２，Ｅ２３に関するエッジ情報と、第２の分子グラフデータから特定されるノードＮ４，Ｎ５，Ｎ６に関するノード情報及びエッジＥ４５，Ｅ５６に関するエッジ情報とを、そのまま組み合わせることによって合成分子グラフデータを生成する。そして、合成部１２は、生成した合成分子グラフデータにおけるノードの集合を特定する集合データＶと、合成分子グラフデータにおけるエッジの集合を特定する集合データＥとを生成する。例えば、合成部１２は、図４の例においては、各ノードの分子を識別する識別子を用いて、集合データＶ＝｛Ａ，Ｂ，Ｃ，Ｄ，Ｅ，Ｆ｝、集合データＥ＝｛ＡＢ，ＢＣ，ＤＥ，ＥＦ｝を生成し、これらの集合データＶ，Ｅを組み合わせたグラフデータＧ＝（Ｖ，Ｅ）を合成分子グラフデータを代表するデータとする。

　追加部１３は、合成部１２によって生成された合成分子グラフデータに対して、その合成分子グラフデータによって特定される多成分物質の分子グラフ中の２つのノードを結合する追加エッジ情報を追加することにより、合成分子グラフデータを再生成する。詳細には、追加部１３は、第１の分子グラフデータに含まれる結合ノード情報と第２の分子グラフデータに含まれる結合ノード情報とを少なくとも参照して、第１の分子グラフ中のさらに結合しうるノードと、第２の分子グラフ中のさらに結合しうるノードとのうちから２つのノードの組み合わせを抽出する。そして、追加部１３は、抽出したノードの組み合わせを結合する追加エッジ情報を、合成分子グラフデータに追加する。例えば、図４の例においては、ノードＮ１，Ｎ３，Ｎ４，Ｎ６がさらに結合しうるノードとして指定されているので、追加部１３は、ノードＮ１とノードＮ３とを結合するエッジＥ１３、ノードＮ１とノードＮ６とを結合するエッジＥ１６、ノードＮ３とノードＮ４とを結合するエッジＥ３４、及びノードＮ４とノードＮ６とを結合するエッジＥ４６に関する追加エッジ情報を追加する。このとき、追加部１３は、ノードの組み合わせを抽出する際には、結合ノード情報に含まれる限定情報を参照して結合しうる組み合わせを限定してもよいし、ノード間で化学結合が起こりうる原子の組み合わせを判断して抽出してもよい。図４に示す分子グラフは、追加部１３が限定情報を参照して組み合わせを抽出した例であり、限定情報により、ノードＮ１の結合先がノードＮ３，Ｎ６に限定され、ノードＮ３の結合先がノードＮ１，Ｎ４に限定されている例である。そして、追加部１３は、合成分子グラフデータにおける集合データＥに対して追加エッジ情報の示すエッジを追加して集合データＥ’を生成し、集合データＶ，Ｅ’を組みわせたグラフデータＧ’＝（Ｖ，Ｅ’）を合成分子グラフデータを代表するデータとする。例えば、図４の例に従えば、追加部１３は、集合データＥ’＝｛ＡＢ，ＡＣ，ＡＦ，ＢＣ，ＣＤ，ＤＥ，ＤＦ，ＥＦ｝を生成する。

　ベクトル変換部１４は、追加部１３によって生成された合成分子グラフデータを代表するグラフデータＧ’を特徴ベクトルＦに変換する。具体的には、ベクトル変換部１４は、グラフデータＧ’に含まれるノードに関する集合データＶを変換する際には、集合データＶの各元のノードを構成する原子の特徴を表す数値を順番に並べたベクトル要素に変換する。原子の特徴を表す数値とは、原子番号、電気陰性度等である。また、ベクトル変換部１４は、グラフデータＧ’に含まれるエッジに関する集合データＥ’を変換する際には、集合データＥ’の各元のエッジの特徴を表す数値を順番に並べたベクトル要素に変換する。エッジの特徴を表す数値とは、結合次数、結合距離等である。ベクトル変換部１４は、集合データＶを変換したベクトル要素と集合データＥ’を変換したベクトル要素とを別々のベクトルとして含む特徴ベクトルＦを生成する。

　混合率反映部１５は、ベクトル変換部１４によって生成された特徴ベクトルＦに混合率データを反映し、混合率が反映された特徴ベクトルｆを基に機械学習用の入力データを生成する。すなわち、混合率反映部１５は、特徴ベクトルＦの要素のうち成分の分子グラフのノードに対応する要素に対してはその成分に対応する混合率ｒを反映する。例えば、混合率反映部１５は、第１の分子グラフのノードの原子に対応するベクトル要素に対しては第１の分子によって構成される第１の成分の混合率ｒ_１を反映し、第２の分子グラフのノードの原子に対応するベクトル要素に対しては第２の分子によって構成される第２の成分の混合率ｒ_２を反映する。また、混合率反映部１５は、特徴ベクトルＦの要素のうち成分の分子グラフのエッジに対応する要素に対してはその成分に対応する混合率を反映する。例えば、混合率反映部１５は、第１の分子グラフのエッジに対応するベクトル要素に対しては第１の分子によって構成される第１の成分の混合率ｒ_１を反映し、第２の分子グラフのエッジに対応するベクトル要素に対しては第２の分子によって構成される第２の成分の混合率ｒ_２を反映する。混合率の反映は、ベクトル要素の各要素に対して混合率ｒを乗算、加算するか、あるいは、ベクトル要素に混合率ｒの要素を連結することによって行われる。

　また、混合率反映部１５は、特徴ベクトルＦのベクトル要素のうち追加部１３によって追加された追加エッジ情報に対応するエッジのベクトル要素に対しては、次のようにして混合率データを反映する。すなわち、混合率反映部１５は、エッジによって結合される２つのノードが属する分子グラフに対応する１つあるいは２つの成分の混合率ｒを、そのエッジのベクトル要素に反映する。すなわち、混合率反映部１５は、一方のノードが属する成分の混合率がｒｉであり、他方のノードが属する成分の混合率がｒｊの場合は、そのエッジのベクトル要素には２つの成分の混合率ｒｉ，ｒｊの乗算値ｒｉ×ｒｊを反映する。例えば、該当のエッジが１つの分子グラフのノード間を結合するものである場合は、そのエッジのベクトル要素には当該１つの分子グラフに対応する成分の混合率ｒの２乗の値を反映し、該当のエッジが２つの分子グラフのノード間を結合するものである場合は、そのエッジのベクトル要素には当該２つの分子グラフに対応する２つの成分の混合率ｒの乗算値を反映する。言い換えれば、該当のエッジが第１の分子グラフ内の２つのノード間を結合するものである場合は、そのエッジのベクトル要素には第１の分子によって構成される成分の混合率ｒ_１のみを反映し、該当のエッジが第１の分子グラフのノードと第２の分子グラフのノード間を結合するものである場合は、そのエッジのベクトル要素には、第１の分子によって構成される第１の成分の混合率ｒ_１と、第２の分子によって構成される第２の成分の混合率ｒ_２との両方を反映する。混合率の乗算値の反映は、ベクトル要素の各要素に対して混合率の乗算値を乗算、加算するか、あるいは、ベクトル要素に混合率の乗算値の要素を連結することによって行われ、２つの成分の混合率ｒ_１，ｒ_２の反映は、２つの成分の混合率を乗算した数値ｒ_１×ｒ_２を反映することにより行われる。

　さらに、混合率反映部１５は、生成した入力データを外部に出力する。出力された入力データは、入力データ生成システム１０の外部に接続されたコンピュータ内のトレーニング部２０によって読み込まれる。そして、トレーニング部２０において、その入力データが説明変数として任意の教師ラベルとともに機械学習モデルに入力されることにより、学習済みモデルが生成される。さらに、トレーニング部２０によって生成された学習済みモデルを基に予測器３０内の機械学習モデルが設定される。ただし、トレーニング部２０と予測器３０は同一の機能部であってもよい。そして、入力データ生成システム１０によって生成された入力データが予測器３０内の機械学習モデルに入力されることによって、予測器３０によって多成分物質の特性の予測結果が生成および出力される。なお、これらのトレーニング部２０および予測器３０は、入力データ生成システム１０を構成するコンピュータ１００と同一のコンピュータ内に構成されてもよいし、コンピュータ１００と別体のコンピュータ内に構成されてもよい。

　一例では、トレーニング部２０の生成する機械学習モデルは、推定精度が最も高いと期待される学習済みモデルであり、したがって「最良の機械学習モデル」ということができる。しかし、この学習済みモデルは“現実に最良である”とは限らないことに留意されたい。学習済みモデルは、入力データと出力データとの多数の組合せを含む教師データをコンピュータが処理することで生成される。コンピュータは、入力データを機械学習モデルに入力することで出力データを算出し、算出された出力データと、教師データで示される出力データとの誤差（すなわち、推定結果と正解との差）を求める。そして、コンピュータはその誤差に基づいて機械学習モデルであるニューラルネットワークの所与のパラメータを更新する。コンピュータはこのような学習を繰り返すことで学習済みモデルを生成する。学習済みモデルを生成する処理は学習フェーズということができ、その学習済みモデルを利用する予測器３０の処理は運用フェーズということができる。

　［システムの動作］
　図５および図６を参照しながら、入力データ生成システム１０の動作を説明するとともに本実施形態に係る入力データ生成方法について説明する。図５は入力データ生成システム１０の動作の一例を示すフローチャートである。図６は、入力データ生成システム１０の動作において扱われる分子データの一例を示す図である。

　まず、入力データ生成システム１０のユーザの指示入力を契機に入力データ生成処理が開始されると、取得部１１によって、複数の成分それぞれについての分子グラフデータ、及びそれぞれの複数の成分に関する混合率データが取得される（ステップＳ１）。この際、取得部１１によって、第１の成分に含まれる第１の分子の分子グラフを特定する第１分子グラフデータと、第２の成分に含まれる第２の分子の分子グラフを特定する第２分子グラフデータと、それらの第１の成分及び第２の成分に関する混合率データとが少なくとも取得される。図６の（ａ）部は、取得部１１によって取得される第１の分子グラフデータの示す分子グラフの一例を示し、図６の（ｂ）部は、取得部１１によって取得される第２の分子グラフデータの示す分子グラフの一例を示している。この例では、第１の分子としてポリプロピレン、第２の分子としてポリブチレンが例示されている。例えば、混合率データとしては、第１の成分であるポリプロピレンの混合率ｒ_１＝“０．５”、及び第２の成分であるポリブチレンの混合率ｒ_２＝“０．５”が取得される。

　その後、合成部１２によって、複数の成分の分子グラフデータが組み合わせることにより混合物に関する合成分子グラフデータが生成されるとともに、合成分子グラフデータにおけるノードの集合を特定する集合データＶが各分子グラフのノードを識別する情報を組み合わせることによって生成される（ステップＳ２）。加えて、合成部１２によって、合成分子グラフデータにおけるエッジの集合を特定する集合データＥが各分子グラフのエッジを識別する情報を組み合わせることによって生成され、集合データＶ，Ｅを組み合わせた合成分子グラフデータを代表するグラフデータＧ＝（Ｖ，Ｅ）が生成される（ステップＳ３）。例えば、図６における（ａ）部及び（ｂ）部の例においては、第１の分子グラフデータの示すノードの集合データＶ１＝｛Ｃ_α，Ｃ_β，Ｃ_γ｝と、第２の分子グラフデータの示すノードの集合データＶ２＝｛Ｃ_δ，Ｃ_ε，Ｃ_ζ，Ｃ_η｝とを組み合わせて合成分子グラフデータに関するノードの集合データＶ＝｛Ｃ_α，Ｃ_β，Ｃ_γ，Ｃ_δ，Ｃ_ε，Ｃ_ζ，Ｃ_η｝が生成される。また、第１の分子グラフデータの示すエッジの集合データＥ１＝｛Ｃ_αＣ_β，Ｃ_βＣ_γ｝と、第２の分子グラフデータの示すエッジの集合データＥ２＝｛Ｃ_δＣ_ε，Ｃ_εＣ_ζ，Ｃ_ζＣ_η｝とを組み合わせて合成分子グラフデータに関するエッジの集合データＥ＝｛Ｃ_αＣ_β，Ｃ_βＣ_γ，Ｃ_δＣ_ε，Ｃ_εＣ_ζ，Ｃ_ζＣ_η｝が生成される。

　次に、追加部１３によって、複数の成分の分子グラフ上でさらに結合しうる２つのエッジ（反応点）が抽出され、それらの２つの反応点を結合する追加エッジ情報が、合成分子グラフデータに追加される（ステップＳ４）。このとき、追加部１３によって、集合データＥに対して追加エッジ情報の示すエッジが追加されることにより、合成分子グラフデータにおけるエッジの集合を特定する集合データＥ’が再生成され、集合データＶ，Ｅ’を組み合わせた合成分子グラフデータを代表するグラフデータＧ’＝（Ｖ，Ｅ’）が再生成される。例えば、図６における（ａ）部及び（ｂ）部の例においては、追加エッジ情報の示すエッジ｛Ｃ_αＣ_δ，Ｃ_βＣ_δ，Ｃ_αＣ_ε，Ｃ_βＣ_ε｝が追加されて、集合データＥ’＝｛Ｃ_αＣ_β，Ｃ_βＣ_γ，Ｃ_δＣ_ε，Ｃ_εＣ_ζ，Ｃ_ζＣ_η，Ｃ_αＣ_δ，Ｃ_βＣ_δ，Ｃ_αＣ_ε，Ｃ_βＣ_ε｝が再生成される。

　さらに、ベクトル変換部１４により、合成分子グラフデータを代表するグラフデータＧ’が一定の変換ルールで特徴ベクトルＦに変換される（ステップＳ５）。この変換ルールとしては、集合データＶの元に関しては、各元の原子を表す特徴（例えば、電気陰性度、原子番号）をベクトル要素中に並べること、集合データＥ’の元に関しては、各元のエッジを表す特徴（例えば、結合次数、結合距離）をベクトル要素中に並べることが適用される。特徴ベクトルＦは、グラフデータＧ’の各元から変換されたベクトルが順番に一次元的に連結されることで生成される。例えば、集合データＶの元｛Ｃ_α｝が、原子番号及び電気陰性度を並べたベクトル［１２，２．５５］に変換され、集合データＥ’の元｛Ｃ_αＣ_β｝が結合次数及び結合距離（オングストローム）を並べたベクトル［１，１．５３］に変換される。

　その後、混合率反映部１５により、特徴ベクトルＦに混合率データが反映されて特徴ベクトルｆが生成される。さらに、混合率反映部１５により、特徴ベクトルｆと合成分子グラフデータとが組み合わされて入力データが生成され、その入力データがトレーニング部２０に出力される（ステップＳ６）。混合率を反映する際には、特徴ベクトルＦの要素のうちある成分の分子グラフのノード及びエッジに対応する要素に対してはその成分の混合率ｒが反映され、特徴ベクトルＦの要素のうち追加エッジ情報に対応するエッジに対応する要素に対しては、エッジによって接続される２つのノードが属する成分の混合率ｒが反映される。例えば、図６における（ａ）部及び（ｂ）部の例においては、追加エッジ情報に対応するエッジに対応する要素以外においては、混合率ｒ_１＝ｒ_２＝“０．５”が反映され、追加エッジ情報に対応するエッジに対応する要素においては、そのエッジによって接続される２つのノードが同一の分子グラフに属する場合には混合率ｒ_１ ^２（またはｒ_２ ^２）＝“０．２５”が反映され、そのエッジによって接続される２つのノードが別々の分子グラフに属する場合には混合率ｒ_１×ｒ_２＝“０．２５”が反映される。このとき、混合率の反映は、ベクトル要素に対して混合率を、乗算、加算、あるいは連結することによって行われる。例えば、ベクトル要素［１２，２．５５］に対して混合率ｒ＝“０．５”を乗算して反映する場合には、［１２×０．５，２．５５×０．５］＝［６，１．２７５］と設定される。また、例えば、ベクトル要素［１２，２．５５］に対して混合率ｒ＝“０．５”を連結して反映する場合には、［１２，２．５５，０．５］と設定される。

　次に、トレーニング部２０において、学習フェーズが実行され、入力データと教師データとを用いてトレーニングを繰り返すことで学習済みモデルが生成される（ステップＳ７）。そして、生成された学習済みモデルが予測器３０に設定され、予測器３０により、新たに入力データ生成システム１０から取得される入力データを用いて運用フェーズが実行され、多成分物質の特性の予測結果が生成および出力される（ステップＳ８）。

　［プログラム］
　コンピュータまたはコンピュータシステムを入力データ生成システム１０として機能させるための入力データ生成プログラムは、該コンピュータシステムを取得部１１、合成部１２、追加部１３、ベクトル変換部１４、および混合率反映部１５として機能させるためのプログラムコードを含む。この入力データ生成プログラムは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、半導体メモリ等の有形の記録媒体に固定的に記録された上で提供されてもよい。あるいは、入力データ生成プログラムは、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。提供された入力データ生成プログラムは例えば補助記憶部１０３に記憶される。プロセッサ１０１が補助記憶部１０３からその入力データ生成プログラムを読み出して実行することで、上記の各機能要素が実現する。

　［効果］
　以上説明したように、上記実施形態によれば、第１の分子の分子構造を特定するデータと第２の分子の分子構造を特定するデータとが組み合わされて合成分子グラフデータが生成され、その合成分子グラフデータが特徴ベクトルに変換され、その特徴ベクトルに第１の分子及び第２の分子の混合率を表すデータが反映されて機械学習用の入力データが生成される。このような構成により、分子グラフを入力とするニューラルネットワークに入力させるための多成分物質に関する入力データを効率的に生成することができる。その結果、複数種類の成分を含む多成分物質であっても、ニューラルネットワークによって入力データを処理させることにより、多成分物質の特性を高精度に予測させることができる。特にモノマーを混合して生成されるポリマーアロイの特性を高精度に予測させることができる。

　また、上記実施形態においては、成分の分子を構成する原子の情報であるノード情報にその分子の混合率を反映することにより、多成分物質を表現する入力データを適切に生成できる。その結果、多成分物質の特性をより高精度に予測させることができる。特に、分子グラフデータのノード情報に対応するベクトルに対して、成分の混合率を、乗算、加算、あるいは連結することにより、多成分物質を表現する入力データに混合率を簡易かつ適切に反映させることができる。

　また、上記実施形態においては、成分の分子を構成する原子間の結合情報であるエッジ情報にその分子の混合率を反映することにより、多成分物質を表現する入力データを適切に生成できる。その結果、多成分物質の特性をより高精度に予測させることができる。特に、分子グラフデータのエッジ情報に対応するベクトルに対して、成分の混合率を、乗算、加算、あるいは連結することにより、多成分物質を表現する入力データに混合率を簡易かつ適切に反映させることができる。

　さらに、上記実施形態においては、多成分物質において結合しうる原子間の結合情報を追加のエッジ情報として生成することができ、追加のエッジ情報にその分子の混合率を反映することにより、多成分物質を表現する入力データを適切に生成できる。その結果、多成分物質の特性をより高精度に予測させることができる。特に、コポリマーなどのモノマーの並び順にランダム性があるようなポリマーアロイを対象とした場合には、従来のグラフを入力とするニューラルネットワークでは、入力対象の分子グラフを構築することが困難である。本実施形態では、モノマー間の化学結合を分子グラフに取り込んで、「ポリマーアロイ」などの多成分物質をグラフとして表現して、その多成分物質のグラフを効率的にニューラルネットワークに入力することができる。

　また、上記実施形態では、機械学習のモデルとしてグラフを入力とするニューラルネットワークを採用している。これにより、分子グラフデータを入力として多成分物質の特性を高精度に予測させることができる。

　［変形例］
　以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。

　上記実施形態では、入力データ生成システム１０が２つの成分の分子グラフを組み合わせて分子グラフデータ及びそれに関する特徴ベクトルを生成する例を示したが、３つ以上の成分の分子グラフをそれらの混合率とともに組み合わせるように機能してもよい。

　また、入力データ生成システム１０のベクトル変換部１４に具備されている一定の変換ルールは、他のルールであってもよい。例えば、原子あるいは結合の類似性に基づいて、特徴ベクトル自体を機械学習を用いて取得してもよい。例えば、自然言語処理で単語をベクトル化する際に使用されるニューラルネットワークであるＷｏｒｄ２Ｖｅｃと同様な方法を用いて、特徴ベクトルを分散表現として取得してもよい。また、特徴ベクトルの生成がトレーニング部２０による学習フェーズとともに実行されてもよい。

　少なくとも一つのプロセッサにより実行される入力データ生成方法の処理手順は上記実施形態での例に限定されない。例えば、上述したステップ（処理）の一部が省略されてもよいし、別の順序で各ステップが実行されてもよい。また、上述したステップのうちの任意の２以上のステップが組み合わされてもよいし、ステップの一部が修正または削除されてもよい。あるいは、上記の各ステップに加えて他のステップが実行されてもよい。例えばステップＳ７，Ｓ８の処理が省略されてもよい。

　本開示において、「少なくとも一つのプロセッサが、第１の処理を実行し、第２の処理を実行し、…第ｎの処理を実行する。」との表現、またはこれに対応する表現は、第１の処理から第ｎの処理までのｎ個の処理の実行主体（すなわちプロセッサ）が途中で変わる場合を含む概念を示す。すなわち、この表現は、ｎ個の処理のすべてが同じプロセッサで実行される場合と、ｎ個の処理においてプロセッサが任意の方針で変わる場合との双方を含む概念を示す。

　本発明の一形態は、入力データ生成システム、入力データ生成方法、及び入力データ生成プログラムを使用用途とし、複数種類の成分が混合された多成分物質の特性を効率よく予測することを可能にするものである。

　１０…入力データ生成システム、１００…コンピュータ、１０１…プロセッサ、１１…取得部、１２…合成部、１３…追加部、１４…ベクトル変換部、１５…混合率反映部、２０…トレーニング部、３０…予測器。

Claims

　少なくとも１つのプロセッサを備え、
　前記少なくとも１つのプロセッサが、
　　第１の分子に対応した分子グラフを特定する第１の分子グラフデータと、第２の分子に対応した分子グラフを特定する第２の分子グラフデータと、前記第１の分子及び前記第２の分子の混合率を表す混合率データとの入力を少なくとも受け付け、
　　前記第１の分子グラフデータと第２の分子グラフデータとを少なくとも組み合わせて合成分子グラフデータを生成し、
　　前記合成分子グラフデータを特徴ベクトルに変換し、
　　前記特徴ベクトルに前記混合率データを反映することにより機械学習用の入力データを生成する、
入力データ生成システム。
　前記少なくとも１つのプロセッサは、
　　前記第１の分子グラフデータ及び第２の分子グラフデータとして分子グラフのノードを特定するノード情報を受け付け、
　　前記第１の分子グラフデータに含まれる前記ノード情報と、前記第２の分子グラフデータに含まれる前記ノード情報とを組み合わせて前記合成分子グラフデータを生成し、
　　前記特徴ベクトルのうちの前記第１の分子グラフデータのノード情報に対応するベクトルに前記第１の分子の前記混合率を反映し、前記特徴ベクトルのうちの前記第２の分子グラフデータのノード情報に対応するベクトルに前記第２の分子の前記混合率を反映することにより、前記入力データを生成する、
請求項１に記載の入力データ生成システム。
　前記少なくとも１つのプロセッサは、
　　前記第１及び第２の分子グラフデータのノード情報に対応するベクトルに対して、前記第１及び第２の分子のそれぞれの前記混合率を、乗算、加算、あるいは連結する、
請求項２に記載の入力データ生成システム。
　前記少なくとも１つのプロセッサは、
　　前記第１の分子グラフデータ及び第２の分子グラフデータとして分子グラフのエッジを特定するエッジ情報をさらに受け付け、
　　前記第１の分子グラフデータに含まれる前記エッジ情報と、前記第２の分子グラフデータに含まれる前記エッジ情報とを組み合わせて前記合成分子グラフデータを生成し、
　　前記特徴ベクトルのうちの前記第１の分子グラフデータのエッジ情報に対応するベクトルに前記第１の分子の前記混合率を反映し、前記特徴ベクトルのうちの前記第２の分子グラフデータのエッジ情報に対応するベクトルに前記第２の分子の前記混合率を反映することにより、前記入力データを生成する、
請求項１～３のいずれか１項に記載の入力データ生成システム。
　前記少なくとも１つのプロセッサは、
　　前記第１及び第２の分子グラフデータのエッジ情報に対応するベクトルに対して、前記第１及び第２の分子のそれぞれの前記混合率を、乗算、加算、あるいは連結する、
請求項４に記載の入力データ生成システム。
　前記少なくとも１つのプロセッサは、
　　前記第１の分子グラフデータ及び第２の分子グラフデータとして、結合しうる分子グラフのノードを特定する結合ノード情報をさらに受け付け、
　　前記第１の分子グラフデータに含まれる前記結合ノード情報の示すノード、及び前記第２の分子グラフデータに含まれる前記結合ノード情報の示すノードのうちの２つのノードを結合するエッジに関する追加エッジ情報を生成し、前記追加エッジ情報を追加して前記合成分子グラフデータを生成し、
　　前記特徴ベクトルのうちの前記追加エッジ情報に対応するベクトルに前記第１の分子及び前記第２の分子の前記混合率を反映することにより、前記入力データを生成する、
請求項１～５のいずれか１項に記載の入力データ生成システム。
　前記機械学習は、グラフを入力とするニューラルネットワークである、
請求項１～６のいずれか１項に記載の入力データ生成システム。
　前記第１の分子及び前記第２の分子は、モノマーであり、
　前記混合率データは、第１の分子及び第２の分子を基に生成されるポリマーアロイにおける前記第１の分子及び前記第２の分子の混合率を表す、
請求項１～７のいずれか１項に記載の入力データ生成システム。
　少なくとも１つのプロセッサを備えるコンピュータにより実行される入力データ生成方法であって、
　第１の分子に対応した分子グラフを特定する第１の分子グラフデータと、第２の分子に対応した分子グラフを特定する第２の分子グラフデータと、前記第１の分子及び前記第２の分子の混合率を表す混合率データとの入力を少なくとも受け付けるステップと、
　前記第１の分子グラフデータと第２の分子グラフデータとを少なくとも組み合わせて合成分子グラフデータを生成するステップと、
　前記合成分子グラフデータを特徴ベクトルに変換するステップと、
　前記特徴ベクトルに前記混合率データを反映することにより機械学習用の入力データを生成するステップと、
を備える入力データ生成方法。
　コンピュータに、
　第１の分子に対応した分子グラフを特定する第１の分子グラフデータと、第２の分子に対応した分子グラフを特定する第２の分子グラフデータと、前記第１の分子及び前記第２の分子の混合率を表す混合率データとの入力を少なくとも受け付けるステップと、
　前記第１の分子グラフデータと第２の分子グラフデータとを少なくとも組み合わせて合成分子グラフデータを生成するステップと、
　前記合成分子グラフデータを特徴ベクトルに変換するステップと、
　前記特徴ベクトルに前記混合率データを反映することにより機械学習用の入力データを生成するステップと、
を実行させる入力データ生成プログラム。