WO2022091413A1

WO2022091413A1 - 機械学習プログラム、推定プログラム、装置、及び方法

Info

Publication number: WO2022091413A1
Application number: PCT/JP2020/041077
Authority: WO
Inventors: 孝典鵜飼
Original assignee: 富士通株式会社
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2022-05-05
Also published as: JPWO2022091413A1; US20230259828A1; EP4239535A4; JP7444280B2; EP4239535A1

Abstract

機械学習装置は、事例データをグラフ化した事例グラフデータの埋め込みベクトルと、オントロジーの埋め込みベクトルと、正解ラベルとを含む訓練データを機械学習モデルに入力する。機械学習モデルの第１隠れ層からは、事例グラフデータの埋め込みベクトルからなる事例データの素性のみで計算される活性化関数の値が出力され、第２隠れ層からは、医薬品オントロジーの埋め込みベクトルからなる医薬品の素性のみで計算される活性化関数の値が出力され、第３隠れ層からは、疾病オントロジーの埋め込みベクトルからなる疾病の素性のみで計算される活性化関数の値が出力され、機械学習装置は、これらの値と全素性とを結合した値と、正解ラベルとによって計算される損失関数に基づいて、機械学習モデルの機械学習を実行する。

Description

機械学習プログラム、推定プログラム、装置、及び方法

　開示の技術は、機械学習技術に関する。

　従来、過去の事例を訓練データとして機械学習を実行した機械学習モデルを用いて、対象の事象を推定することが行われている。例えば、薬物の間の類似性を計算し、指定薬物の副作用を推定するシステムが提案されている。このシステムは、類似性計算装置と、副作用決定装置とを有する。類似性計算装置は、複数のオープンデータソースから薬物セットに関連するデータを得て、ＲＤＦ（Resource Description Framework）トリプルを生成し、ＲＤＦトリプルのＲＤＦグラフを格納する。類似性計算装置は、ＲＤＦトリプルに基づいて薬物毎の特徴ベクトルを生成し、特徴ベクトルを比較することにより、各々の薬物と全ての他の薬物との類似性を計算する。副作用決定装置は、薬物の類似性に基づいて、指定薬物の副作用を推定する。

特開２０１６－２１２８５３号公報

　しかしながら、上述の従来技術のように、特徴ベクトルを比較した医薬品（薬物）の類似性だけでは、副作用の推定精度が十分でない場合がある。例えば、同じ医薬品を投与している患者であっても、患者が罹患している疾病が相違する場合には、副作用の状況が異なる場合があるためである。上記のような状況は、医薬品の類似性で副作用を推定する場合に限らず、過去の事例を訓練データとして機械学習を実行した機械学習モデルを用いて、何らかの事象を推定する場合に起こり得る。

　一つの側面として、開示の技術は、事象の推定精度を向上させるように機械学習モデルを訓練することを目的とする。

　一つの態様として、開示の技術は、グラフデータの埋め込みベクトルとオントロジーの埋め込みベクトルと正解ラベルとを含む訓練データを入力する。また、開示の技術は、損失関数に基づいて、機械学習モデルの機械学習を実行する。損失関数は、入力された訓練データのうちグラフデータの埋め込みベクトルのみで計算される活性化関数の値と、訓練データのうちオントロジーの埋め込みベクトルのみで計算される活性化関数の値とを結合して得られた値と正解ラベルとによって計算される。

　一つの側面として、事象の推定精度を向上させるように機械学習モデルを訓練することができる、という効果を有する。

機械学習装置の機能ブロック図である。機械学習用事例データの一例を示す図である。オントロジーの一例を示す図である。事例グラフデータの生成を説明するための図である。事例グラフデータへのオントロジーの接続を説明するための図である。埋め込みベクトルの計算を説明するための図である。訓練データの一例を示す図である。機械学習モデルのネットワーク構成を概略的に示す図である。推定装置の機能ブロック図である。推定対象事例データ及び推定結果の一例を示す図である。機械学習装置として機能するコンピュータの概略構成を示すブロック図である。推定装置として機能するコンピュータの概略構成を示すブロック図である。機械学習処理の一例を示すフローチャートである。推定処理の一例を示すフローチャートである。オントロジーの埋め込みベクトルを初期値として、事例グラフデータの埋め込みベクトルを計算する場合を説明するための図である。オントロジーの埋め込みベクトルを初期値として、事例グラフデータの埋め込みベクトルを計算する場合を説明するための図である。オントロジーの埋め込みベクトルを初期値として、事例グラフデータの埋め込みベクトルを計算する場合を説明するための図である。

　以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。なお、以下の各実施形態では、医薬品の投与における、想定以外の作用（以下、「副作用」という）の推定に開示の技術を適用する場合を例に説明する。

　まず、実施形態の詳細を説明する前に、従来技術のように、医薬品の類似性を比較するのみでは精度良く副作用の推定が行えない場合があることを考慮して、過去の事例データに、オントロジーを組み合せた特徴ベクトルを用いる場合を考える。事例データは、患者の属性、投与した医薬品、患者が罹患している疾病等の情報を含むものとする。また、オントロジーとは、対象の分野における背景知識を体系化したものであり、本実施形態の場合、例えば、疾病の類似性や関係、医薬品の類似性や含まれている成分等の情報を木構造等の形式で整理したものである。疾病が類似する場合や、同じ成分が含まれている医薬品を投与する場合などには、同じような副作用が起こる可能性がある。そこで、上記のようなオントロジーの情報を素性として含む特徴ベクトルを用いることで、このような可能性を推定可能になると考えられる。

　しかし、事例データを示す素性と、オントロジーを示す素性とを並べて特徴ベクトルを生成することが困難な場合がある。例えば、医薬品に含まれる成分を素性として並べることはできるが、木構造の形式で整理された疾病の関係性を素性として利用することは困難である。

　そこで、以下のような方法が考えられる。その方法は、事例データを、ノードとノード間を接続するエッジとで構成されるグラフデータに変換し、このグラフデータに木構造のオントロジーを結合する。そして、その方法は、事例データとオントロジーとが組み合わされたグラフデータから、各ノードを表す埋め込みベクトルを計算する。さらに、その方法は、この埋め込みベクトルから生成される特徴ベクトルを訓練データとして用いて機械学習モデルを訓練する方法である。しかし、この方法の場合、特徴ベクトルに含まれる事例データに関する情報とオントロジーに関する情報との扱いに区別がなく、オントロジーの情報を、事象（ここでは、副作用）の推定に適切に反映することができない場合がある。そこで、以下の各実施形態では、オントロジーの情報が適切に機械学習モデルの機械学習に反映されるようにする。以下、各実施形態について詳述する。

＜第１実施形態＞
　第１実施形態に係る機械学習システムは、機械学習装置１０と、推定装置３０とを含む。まず、機械学習装置１０について説明する。図１に示すように、機械学習装置１０には、機械学習用事例データ及びオントロジーが入力される。機械学習用事例データは、患者の属性、投与した医薬品、患者が罹患している疾病等の情報、及び、副作用の情報を含むデータである。図２に、機械学習用事例データの一例を示す。図２の例では、患者毎に、「ＩＤ」、「性別」、「年代」、「体重」、「身長」、「医薬品」、「疾病」、及び「副作用」の情報が含まれている。「ＩＤ」は、患者の識別情報である。「性別」、「年代」、「体重」、及び「身長」は、患者の属性の一例である。「医薬品」は、患者に投与された医薬品の名称である。「疾病」は、患者が罹患している原疾病の名称である。「副作用」は、「医薬品」に示す医薬品を投与した際に発生した副作用の情報である。

　図３に、オントロジーの一例を示す。本実施形態では、医薬品に関するオントロジー（以下、「医薬品オントロジー」という）、及び疾病に関するオントロジー（以下、「疾病オントロジー」という）を用いる場合について説明する。図３に示すように、医薬品オントロジーは、医薬品を示すノード（中に医薬品名が表記された丸）と、背景知識を示すノード（中に背景知識が表記された楕円）と、関連するノード間を接続したエッジ（矢印）とを含む木構造の情報である。エッジには、医薬品と背景知識とがどのように関連するかを示す関連情報が対応付けられている場合がある。例えば、重症感染症の患者への投与が禁止される医薬品については、その医薬品を示すノードと、重症感染症を示すノードとがエッジで接続され、投与を禁止する関連情報（図３では「禁忌」と表記）が付与される。

　疾病オントロジーも同様に、疾病を示すノード（中に疾病名が表記された丸）と、背景知識を示すノード（中に背景知識が表記された楕円）と、関連するノード間を接続したエッジ（矢印）を含む木構造の情報である。例えば、アルコール摂取という疾病が精神疾患に分類される場合、アルコール摂取を示すノードと、精神疾患を示すノードとがエッジで接続され、例えば「分類」という関連情報がエッジに付与される。

　機械学習装置１０は、機能的には、図１に示すように、グラフ生成部１２と、埋め込みベクトル計算部１４と、訓練データ生成部１６と、機械学習部１８とを含む。

　グラフ生成部１２は、機械学習装置１０に入力された機械学習用事例データを取得し、取得した機械学習用事例データから、ノードとノード間を接続するエッジとで構成されるグラフデータを生成する。例えば、グラフ生成部１２は、図４に示すように、機械学習用事例データに含まれる副作用以外の各項目の各値をノードとして生成する。図４において、中に各値が表記された丸で示すノードは、属性、医薬品、及び疾病の各々を示すノードである。そして、グラフ生成部１２は、各「ＩＤ」のノードから、そのＩＤが示す患者についての属性、医薬品、及び疾病の各々を示すノードへエッジを接続する。なお、図４では、各事例データと副作用との関係を明確にするため、副作用を示すノード（中に副作用が表記された角丸の四角で示すノード）、及び「ＩＤ」のノードと副作用を示すノードとを接続するエッジも表記している。また、グラフデータの生成方法は上記の例に限定されず、他の方法を採用してもよい。以下、事例データから生成したグラフデータを「事例グラフデータ」という。なお、以下の説明では、事例グラフデータには、副作用を示すノードは含まれない。

　また、グラフ生成部１２は、機械学習用事例データに基づく事例グラフデータにオントロジーを接続したグラフデータを生成する。具体的には、グラフ生成部１２は、事例グラフデータとオントロジーとで一致するノードを共通化することで、事例グラフデータとオントロジーとを接続させる。例えば、グラフ生成部１２は、事例グラフデータに含まれる「医薬品」及び「疾病」を示すノードと一致するノードを、医薬品オントロジー及び疾病オントロジーから検索し、検索したノード及びそのノードに接続する部分を抽出する。そして、グラフ生成部１２は、図５の破線で示す部分のように、オントロジーから抽出した部分を、一致する「医薬品」又は「疾病」を示すノードを重ね合わせるように、事例グラフデータに接続する。以下では、事例グラフデータにオントロジーから抽出した部分を接続したグラフデータを「全体グラフデータ」という。

　埋め込みベクトル計算部１４は、全体グラフデータに基づいて、全体グラフデータに含まれる各ノードを表現する埋め込みベクトルを計算する。具体的には、埋め込みベクトル計算部１４は、全体グラフデータに含まれるノード及びエッジの各々をｎ次元のベクトル空間に写像することにより埋め込みベクトルを計算する。より具体的に、図６上段の図に示すように、ノードＡ、Ｂ、Ｃ、ノードＡ－Ｂ間のエッジｒ、及びノードＣ－Ｂ間のエッジｒを含むグラフデータを例に、埋め込みベクトル計算部１４による埋め込みベクトルの計算について説明する。ここでは、説明を簡単にするため、２次元のベクトル空間に写像する場合について説明する。

　まず、埋め込みベクトル計算部１４は、図６中段の図に示すように、グラフデータに含まれるノード及びエッジの各々を、初期値のベクトルとしてベクトル空間に配置する。そして、埋め込みベクトル計算部１４は、ノードの接続関係を表現するように、各ベクトルの配置を最適化する。図６の例では、埋め込みベクトル計算部１４は、図６下段の図に示すように、ベクトルＡ＋ベクトルｒがベクトルＢに近くなるように、かつ、ベクトルＣ＋ベクトルｒがベクトルＢに近くなるように、各ベクトルの配置を最適化する。最適化後のベクトルが、そのベクトルが示すノードの埋め込みベクトルとなる。埋め込みベクトル計算部１４は、上記のような計算方法により、全体グラフデータに含まれる各ノードについての埋め込みベクトルを計算する。

　訓練データ生成部１６は、埋め込みベクトル計算部１４により計算された埋め込みベクトルと、副作用の情報から生成した正解ラベルとを用いて、機械学習モデルの機械学習に用いる訓練データを生成する。具体的には、訓練データ生成部１６は、全体グラフデータに含まれる「ＩＤ」のノード毎に、そのノードに接続する各ノードについて計算された埋め込みベクトルのベクトル値を連結して素性を生成する。そして、訓練データ生成部１６は、副作用の情報に基づいて、対象の副作用が生じている場合には「ＴＲＵＥ」を示す正解ラベル、対象の副作用が生じていない場合には、「ＦＡＬＳＥ」を示す正解ラベルを生成し、素性に付加して訓練データを生成する。

　図７に、訓練データの一例を示す。図７に示すように、各ノードについての埋め込みベクトルのベクトル値を連結しているため、素性には、事例グラフデータのノードの埋め込みベクトルを連結した素性（以下、「事例データの素性」という）が含まれる。また、素性には、医薬品オントロジーのノードの埋め込みベクトルを連結した素性（以下、「医薬品の素性」という）、及び疾病オントロジーのノードの埋め込みベクトルを連結した素性（以下、「疾病の素性」という）が含まれることになる。なお、事例グラフデータとオントロジーとで共通するノード（事例データの項目「医薬品」及び「疾病」を示すノード）の埋め込みベクトルは、事例データの素性と、医薬品の素性又は疾病の素性との両方に含まれている。また、図７の例では、対象の副作用を「静脈閉塞」とした場合を示している。

　機械学習部１８は、訓練データ生成部１６で生成された訓練データを用いて、例えばニューラルネットワーク等で構成される機械学習モデル２０のパラメータを更新する。ここで、図８に、機械学習モデル２０のネットワーク構成を概略的に示す。図８に示すように、機械学習モデル２０は、第１隠れ層、第２隠れ層、第３隠れ層、及び第４隠れ層を含む。第１隠れ層には、訓練データのうち、事例データの素性が入力され、第２隠れ層には、医薬品の素性が入力され、第３隠れ層には、疾病の素性が入力される。第４隠れ層には、第１隠れ層、第２隠れ層、及び第３隠れ層の各々からの出力と、訓練データに含まれる全ての素性とが入力される。そして、機械学習モデル２０は、第４隠れ層からの出力に基づいて、対象の副作用が生じる確率を出力する。

　機械学習部１８は、上記のようなネットワーク構成の機械学習モデル２０のパラメータを、下記に示す損失関数の値ＬＯＳＳを最小化するように更新する。
ＬＯＳＳ＝ｇ（Ｌａｂｅｌ，Ｏｕｔｐｕｔ）
Ｏｕｔｐｕｔ
＝ｆ４（Ｔ，Ｏ１，Ｏ２，ｆ１（Ｔ），ｆ２（Ｏ１），ｆ３（Ｏ２））

　ｇ（Ａ，Ｂ）は、ＡとＢとの損失関数であり、例えば、２乗和誤差や交差エントロピー誤差等を算出する関数である。Ｌａｂｅｌは、正解ラベルがＴＲＵＥの場合には１、ＦＡＬＳＥの場合には０を返す関数である。Ｏｕｔｐｕｔは、機械学習モデル２０に訓練データの素性を入力した際の出力値である。Ｔは、訓練データに含まれる素性のうち、事例データの素性からなるベクトルである。Ｏ１は、訓練データに含まれる素性のうち、医薬品の素性からなるベクトルである。Ｏ２は、訓練データに含まれる素性のうち、疾病の素性からなるベクトルである。ｆ１は、第１隠れ層に相当する活性化関数、ｆ２は、第２隠れ層に相当する活性化関数、ｆ３は、第３隠れ層に相当する活性化関数である。この活性化関数は、例えば、ＲｅＬＵ（Rectified Linear Unit）である。すなわち、ｆ１（Ｔ）は、入力された訓練データのうち、事例グラフデータのノードの埋め込みベクトルのみで計算される活性化関数の値である。また、ｆ２（Ｏ１）は、入力された訓練データのうち、医薬品オントロジーのノードの埋め込みベクトルのみで計算される活性化関数の値である。また、ｆ３（Ｏ２）は、入力された訓練データのうち、疾病オントロジーのノードの埋め込みベクトルのみで計算される活性化関数の値である。ｆ４は、第４隠れ層に相当する活性化関数であり、例えば、シグモイド関数である。すなわち、ｆ４（Ｔ，Ｏ１，Ｏ２，ｆ１（Ｔ），ｆ２（Ｏ１），ｆ３（Ｏ２））は、全ての素性、及び第１～第３隠れ層の各々からの出力を結合したベクトルに活性化関数を適用した値である。

　機械学習部１８は、上記の損失関数の値ＬＯＳＳが所定の閾値以下となった場合、前回算出されたＬＯＳＳとの差が所定値以下となった場合、機械学習の繰り返し数が所定回数に到達した場合等の場合に、損失関数の値ＬＯＳＳが最小化したと判断する。機械学習部１８は、損失関数の値ＬＯＳＳが最小化したと判断すると、機械学習を終了し、ネットワーク構成の情報、及び機械学習が終了した時点でのパラメータの値を含む機械学習モデル２０を出力する。

　次に、推定装置３０について説明する。図９に示すように、推定装置３０には、副作用を推定する対象となる、正解が未知の事例データである推定対象事例データ及びオントロジーが入力される。推定対象事例データは、機械学習用事例データから「副作用」の項目を除いた事例データである。

　推定装置３０は、機能的には、図９に示すように、グラフ生成部３２と、埋め込みベクトル計算部３４と、推定部３６とを含む。また、推定装置３０の所定の記憶領域には、機械学習装置１０から出力された機械学習モデル２０が記憶される。

　グラフ生成部３２は、グラフデータを生成する元となるデータが、機械学習用事例データではなく推定対象事例データである点を除いて、機械学習装置１０のグラフ生成部１２と同様である。また、埋め込みベクトル計算部３４も、機械学習装置１０の埋め込みベクトル計算部１４と同様である。

　推定部３６は、グラフ生成部３２により生成された全体グラフデータに含まれる「ＩＤ」のノード毎に、そのノードに接続する各ノードについて、埋め込みベクトル計算部３４で計算された埋め込みベクトルのベクトル値を連結して素性を生成する。生成される素性には、機械学習装置１０の訓練データ生成部１６で生成される訓練データに含まれる素性と同様に、事例データの素性、医薬品の素性、及び疾病の素性の各々が含まれる。推定部３６は、生成した素性を機械学習モデル２０に入力することにより、推定対象事例データについて、対象の副作用が発生するか否かを示す推定結果を出力する。例えば、推定部３６は、図１０に示すように、「ＩＤ」がＣ及びＤの各々の患者についての推定対象事例データから生成した素性を機械学習モデル２０に入力し、対象の副作用が発生する確率を取得する。推定部３６は、取得した確率が所定値以上の場合には、ＴＲＵＥを出力し、取得した確率が所定値未満の場合には、ＦＡＬＳＥを出力する。なお、推定部３６は、機械学習モデル２０から出力される確率をそのまま推定結果として出力してもよい。

　機械学習装置１０は、例えば図１１に示すコンピュータ４０で実現することができる。コンピュータ４０は、ＣＰＵ（Central Processing Unit）４１と、一時記憶領域としてのメモリ４２と、不揮発性の記憶部４３とを備える。また、コンピュータ４０は、入力部、表示部等の入出力装置４４と、記憶媒体４９に対するデータの読み込み及び書き込みを制御するＲ／Ｗ（Read/Write）部４５とを備える。また、コンピュータ４０は、インターネット等のネットワークに接続される通信Ｉ／Ｆ（Interface）４６を備える。ＣＰＵ４１、メモリ４２、記憶部４３、入出力装置４４、Ｒ／Ｗ部４５、及び通信Ｉ／Ｆ４６は、バス４７を介して互いに接続される。

　記憶部４３は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部４３には、コンピュータ４０を、機械学習装置１０として機能させるための機械学習プログラム５０が記憶される。機械学習プログラム５０は、グラフ生成プロセス５２と、埋め込みベクトル計算プロセス５４と、訓練データ生成プロセス５６と、機械学習プロセス５８とを有する。

　ＣＰＵ４１は、機械学習プログラム５０を記憶部４３から読み出してメモリ４２に展開し、機械学習プログラム５０が有するプロセスを順次実行する。ＣＰＵ４１は、グラフ生成プロセス５２を実行することで、図１に示すグラフ生成部１２として動作する。また、ＣＰＵ４１は、埋め込みベクトル計算プロセス５４を実行することで、図１に示す埋め込みベクトル計算部１４として動作する。また、ＣＰＵ４１は、訓練データ生成プロセス５６を実行することで、図１に示す訓練データ生成部１６として動作する。また、ＣＰＵ４１は、機械学習プロセス５８を実行することで、図１に示す機械学習部１８として動作する。これにより、機械学習プログラム５０を実行したコンピュータ４０が、機械学習装置１０として機能することになる。なお、プログラムを実行するＣＰＵ４１はハードウェアである。

　推定装置３０は、例えば図１２に示すコンピュータ６０で実現することができる。コンピュータ６０は、ＣＰＵ６１と、メモリ６２と、記憶部６３と、入出力装置６４と、Ｒ／Ｗ部６５と、通信Ｉ／Ｆ６６とを備える。ＣＰＵ６１、メモリ６２、記憶部６３、入出力装置６４、Ｒ／Ｗ部６５、及び通信Ｉ／Ｆ６６は、バス６７を介して互いに接続される。

　記憶部６３は、ＨＤＤ、ＳＳＤ、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部６３には、コンピュータ６０を、推定装置３０として機能させるための推定プログラム７０が記憶される。推定プログラム７０は、グラフ生成プロセス７２と、埋め込みベクトル計算プロセス７４と、推定プロセス７６とを有する。また、記憶部６３は、機械学習済みの機械学習モデル２０を構成する情報が記憶される情報記憶領域８０を有する。

　ＣＰＵ６１は、推定プログラム７０を記憶部６３から読み出してメモリ６２に展開し、推定プログラム７０が有するプロセスを順次実行する。ＣＰＵ６１は、グラフ生成プロセス７２を実行することで、図９に示すグラフ生成部３２として動作する。また、ＣＰＵ６１は、埋め込みベクトル計算プロセス７４を実行することで、図９に示す埋め込みベクトル計算部３４として動作する。また、ＣＰＵ６１は、推定プロセス７６を実行することで、図９に示す推定部３６として動作する。また、ＣＰＵ６１は、情報記憶領域８０から情報を読み出して、機械学習モデル２０をメモリ６２に展開する。これにより、推定プログラム７０を実行したコンピュータ６０が、推定装置３０として機能することになる。なお、プログラムを実行するＣＰＵ６１はハードウェアである。

　なお、機械学習プログラム５０及び推定プログラム７０の各々により実現される機能は、例えば半導体集積回路、より詳しくはＡＳＩＣ（Application Specific Integrated Circuit）等で実現することも可能である。

　次に、第１実施形態に係る機械学習システムの作用について説明する。まず、機械学習装置１０に機械学習用事例データ及びオントロジーが入力されると、機械学習装置１０が、図１３に示す機械学習処理を実行する。そして、機械学習処理の実行により機械学習された機械学習モデル２０が機械学習装置１０から出力される。推定装置３０が、機械学習装置１０から出力された機械学習モデル２０を取得し、所定の記憶領域に記憶した状態で、推定装置３０に推定対象事例データ及びオントロジーが入力されると、推定装置３０が、図１４に示す推定処理を実行する。なお、機械学習処理は、開示の技術の機械学習方法の一例であり、推定処理は、開示の技術の推定方法の一例である。以下、機械学習処理及び推定処理の各々について詳述する。

　まず、図１３に示す機械学習処理について説明する。ステップＳ１０で、グラフ生成部１２が、機械学習用事例データの各項目の各値をノードとして生成する。そして、グラフ生成部１２が、各「ＩＤ」のノードから、そのＩＤが示す患者についての属性、医薬品、及び疾病の各々を示すノードへエッジを接続することにより、事例グラフデータを生成する。

　次に、ステップＳ１２で、グラフ生成部１２が、事例グラフデータに含まれる「医薬品」及び「疾病」を示すノードと一致するノードを、医薬品オントロジー及び疾病オントロジーから検索し、検索したノード及びそのノードに接続する部分を抽出する。そして、グラフ生成部１２が、オントロジーから抽出した部分を、一致する「医薬品」又は「疾病」を示すノードを重ね合わせるように、事例グラフデータに接続し、全体グラフデータを生成する。

　次に、ステップＳ１４で、埋め込みベクトル計算部１４が、全体グラフデータに含まれるノード及びエッジの各々を、初期値のベクトルとしてｎ次元のベクトル空間に配置する。そして、埋め込みベクトル計算部１４が、ノードの接続関係を表現するように、各ベクトルの配置を最適化することにより、全体グラフデータに含まれる各ノードの埋め込みベクトルを計算する。したがって、事例グラフデータの各ノードの埋め込みベクトルと、オントロジーの各ノードの埋め込みベクトルとが計算される。

　次に、ステップＳ１６で、訓練データ生成部１６が、全体グラフデータに含まれる「ＩＤ」のノード毎に、そのノードに接続する各ノードについて計算された埋め込みベクトルのベクトル値を連結して素性を生成する。そして、訓練データ生成部１６が、副作用の情報に基づいて、対象の副作用についての正解ラベルを生成し、素性に付加して訓練データを生成する。

　次に、ステップＳ１８で、機械学習部１８が、上記ステップＳ１６で生成された訓練データを用いて、上述した損失関数の値ＬＯＳＳを最小化するように、機械学習モデル２０のパラメータを更新する。機械学習部１８は、損失関数の値ＬＯＳＳが最小化したと判断すると、機械学習を終了し、ネットワーク構成の情報、及び機械学習が終了した時点でのパラメータの値を含む機械学習モデル２０を出力し、機械学習処理は終了する。

　次に、図１４に示す推定処理について説明する。ステップＳ２０で、グラフ生成部３２が、推定対象事例データから事例グラフデータを生成する。次に、ステップＳ２２で、グラフ生成部３２が、事例グラフデータにオントロジーを接続し、全体グラフデータを生成する。次に、ステップＳ２４で、埋め込みベクトル計算部３４が、全体グラフデータから、事例グラフデータ及びオントロジーの各ノードの埋め込みベクトルを計算する。次に、ステップＳ２６で、推定部３６が、全体グラフデータに含まれる「ＩＤ」のノード毎に、そのノードに接続する各ノードについて計算された埋め込みベクトルのベクトル値を連結して素性を生成する。次に、ステップＳ２８で、推定部３６が、上記ステップＳ２６で生成した素性を機械学習モデル２０に入力することにより、推定対象事例データについて、対象の副作用が発生するか否かを示す推定結果を出力し、推定処理は終了する。

　以上説明したように、第１実施形態に係る機械学習システムによれば、機械学習装置が、事例グラフデータの埋め込みベクトルと、オントロジーの埋め込みベクトルと、正解ラベルとを含む訓練データを入力する。そして、機械学習装置が、損失関数に基づいて、機械学習モデルの機械学習を実行する。損失関数の値は、入力された訓練データのうち事例グラフデータの埋め込みベクトルのみで計算される活性化関数の値と、オントロジーの埋め込みベクトルのみで計算される活性化関数の値とを結合して得られた値と正解ラベルとによって計算される。これにより、第１実施形態に係る機械学習装置は、事例データの情報とオントロジーの情報とがグループ化されて伝達される機械学習モデルを訓練することができる。したがって、第１実施形態に係る機械学習装置は、オントロジーの情報を適切に反映させて、事象の推定精度を向上させるように機械学習モデルを訓練することができる。

　また、第１実施形態に係る機械学習システムによれば、推定装置が、上記のように機械学習された機械学習モデルと、推定対象事例グラフデータ及びオントロジーから計算した埋め込みベクトルとを用いて、推定対象事例に対する事象を推定する。これにより、事象の推定精度が向上する。

＜第２実施形態＞
　次に、第２実施形態について説明する。なお、第２実施形態に係る機械学習システムにおいて、第１実施形態に係る機械学習システムと同様の部分については、同一符号を付して詳細な説明を省略する。

　第２実施形態に係る機械学習システムは、機械学習装置２１０と、推定装置２３０とを含む。まず、機械学習装置２１０について説明する。機械学習装置２１０は、機能的には、図１に示すように、グラフ生成部１２と、埋め込みベクトル計算部２１４と、訓練データ生成部１６と、機械学習部１８とを含む。

　埋め込みベクトル計算部２１４は、まず、事例グラフデータにオントロジーを接続させた全体グラフデータにおいて、オントロジーのノードについて埋め込みベクトルを計算する。例えば、埋め込みベクトル計算部２１４は、図１５に示すように、医薬品オントロジーのノード（図１５中の実線で示すノード）の埋め込みベクトルを計算する。また、埋め込みベクトル計算部２１４は、図１６に示すように、疾病オントロジーのノード（図１６中の実線で示すノード）の埋め込みベクトルを計算する。そして、埋め込みベクトル計算部２１４は、図１７に示すように、オントロジーのノードの埋め込みベクトルを初期値として（図１７中の破線部分）、事例グラフデータのノード（図１６中の実線で示すノード）の埋め込みベクトルを計算する。

　オントロジーは、背景知識を体系化したものであるため、オントロジーの埋め込みベクトルは、ノード間の接続が持つ意味が精度良く反映されたものとなる。埋め込みベクトルは、初期値が適切に与えられるほど、精度良く計算することができるため、オントロジーの埋め込みベクトルを初期値として用いることで、事例グラフデータの埋め込みベクトルを精度良く計算することができる。

　推定装置２３０は、機能的には、図９に示すように、グラフ生成部３２と、埋め込みベクトル計算部２３４と、推定部３６とを含む。また、推定装置２３０の所定の記憶領域には、機械学習装置２１０から出力された機械学習モデル２０が記憶される。埋め込みベクトル計算部２３４は、機械学習装置２１０の埋め込みベクトル計算部２１４と同様に、まず、オントロジーの埋め込みベクトルを計算し、これを初期値として、事例グラフデータの埋め込みベクトルを計算する。

　機械学習装置２１０は、例えば図１１に示すコンピュータ４０で実現することができる。コンピュータ４０の記憶部４３には、コンピュータ４０を、機械学習装置２１０として機能させるための機械学習プログラム２５０が記憶される。機械学習プログラム２５０は、グラフ生成プロセス５２と、埋め込みベクトル計算プロセス２５４と、訓練データ生成プロセス５６と、機械学習プロセス５８とを有する。

　ＣＰＵ４１は、機械学習プログラム２５０を記憶部４３から読み出してメモリ４２に展開し、機械学習プログラム２５０が有するプロセスを順次実行する。ＣＰＵ４１は、埋め込みベクトル計算プロセス２５４を実行することで、図１に示す埋め込みベクトル計算部２１４として動作する。他のプロセスについては、第１実施形態に係る機械学習プログラム５０と同様である。これにより、機械学習プログラム２５０を実行したコンピュータ４０が、機械学習装置２１０として機能することになる。

　推定装置２３０は、例えば図１２に示すコンピュータ６０で実現することができる。コンピュータ６０の記憶部６３には、コンピュータ６０を、推定装置２３０として機能させるための推定プログラム２７０が記憶される。推定プログラム２７０は、グラフ生成プロセス７２と、埋め込みベクトル計算プロセス２７４と、推定プロセス７６とを有する。また、記憶部６３は、機械学習済みの機械学習モデル２０を構成する情報が記憶される情報記憶領域８０を有する。

　ＣＰＵ６１は、推定プログラム２７０を記憶部６３から読み出してメモリ６２に展開し、推定プログラム２７０が有するプロセスを順次実行する。ＣＰＵ６１は、埋め込みベクトル計算プロセス２７４を実行することで、図９に示す埋め込みベクトル計算部２３４として動作する。他のプロセスについては、第１実施形態に係る推定プログラム７０と同様である。これにより、推定プログラム２７０を実行したコンピュータ６０が、推定装置２３０として機能することになる。

　なお、機械学習プログラム２５０及び推定プログラム２７０の各々により実現される機能は、例えば半導体集積回路、より詳しくはＡＳＩＣ等で実現することも可能である。

　第２実施形態に係る機械学習システムの作用については、図１３に示す機械学習処理のステップＳ１４、及び図１４に示す推定処理のステップＳ２４における埋め込みベクトルの計算手順が上記の通り第１実施形態と異なるだけであるため、説明を省略する。

　以上説明したように、第２実施形態における機械学習システムによれば、機械学習装置が、まず、オントロジーの埋め込みベクトルを計算し、これを初期値として、事例グラフデータの埋め込みベクトルを計算する。これにより、埋め込みベクトルを精度良く計算することができるため、事象の推定精度を向上させるように機械学習モデルを訓練することができる。また、第２実施形態に係る推定装置においては、事象の推定精度が向上する。

　なお、上記第２実施形態では、オントロジーに含まれるノードの埋め込みベクトルを全て素性として用いる場合について説明したが、これに限定されない。第２実施形態と同様の手順により埋め込みベクトルを計算した上で、医薬品の素性及び疾病の素性は、事例グラフデータとオントロジーとで共通するノードの埋め込みベクトルから生成するようにしてもよい。すなわち、図１７の例では、実線で示す事例グラフデータのノードの埋め込みグラフから事例データの素性が生成され、そのうちの破線で囲まれたノードの埋め込みグラフから医薬品の素性及び疾病の素性が生成されるようにしてもよい。この場合でも、オントロジーの埋め込みベクトルを初期値として事例グラフデータの埋め込みベクトルが計算されているため、オントロジーの情報は反映された素性となっている。さらに、素性の情報量を削減することができるため、機械学習処理及び推定処理の負荷が軽減される。また、この場合、事例グラフデータにオントロジーを接続することなく計算したオントロジーの埋め込みベクトルを事例グラフデータの埋め込みベクトルの初期値として与えてもよい。この場合のオントロジーの埋め込みベクトルは、事例グラフデータの医薬品及び疾病を示すノードと一致するノードを含むオントロジーの部分を特定して、特定したオントロジーの部分について計算すればよい。

　また、上記各実施形態では、患者への医薬品の投与に対する副作用を推定する場合に開示の技術を適用する例で説明したが、開示の技術は他の事象を推定する例にも適用可能である。例えば、複数の化学物質を調合する場合に発生する事象を推定する場合等にも適用することができる。この場合、事例データに、調合する化学物質、調合の条件（温度、触媒等）等の情報を含め、物質Ａと物質Ｂとは融点が同一である等、性質が類似する化学物質の情報等をオントロジーとして用い、調合の際に発生した事象を正解ラベルとすればよい。

　また、上記各実施形態では、２種類のオントロジーを用いる場合について説明したが、用いるオントロジーは１種類であってもよいし、３種類以上であってもよい。この場合、用いるオントロジーの種類毎に、機械学習モデルの隠れ層を対応させて設ければよい。

　また、上記各実施形態では、機械学習装置と推定装置とを別々のコンピュータで構成する場合について説明したが、機械学習装置と推定装置とを１つのコンピュータで構成してもよい。

　また、上記各実施形態では、機械学習プログラム及び推定プログラムが記憶部に予め記憶（インストール）されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリ等の記憶媒体に記憶された形態で提供することも可能である。

１０、２１０  機械学習装置
１２   グラフ生成部
１４、２１４  埋め込みベクトル計算部
１６   訓練データ生成部
１８   機械学習部
２０   機械学習モデル
３０、２３０  推定装置
３２   グラフ生成部
３４、２３４  埋め込みベクトル計算部
３６   推定部
４０、６０    コンピュータ
４１、６１    ＣＰＵ
４２、６２    メモリ
４３、６３    記憶部
４９   記憶媒体
５０、２５０  機械学習プログラム
７０、２７０  推定プログラム

Claims

　グラフデータの埋め込みベクトルとオントロジーの埋め込みベクトルと正解ラベルとを含む訓練データを入力し、
　入力された訓練データのうちグラフデータの埋め込みベクトルのみで計算される活性化関数の値と、入力された訓練データのうちオントロジーの埋め込みベクトルのみで計算される活性化関数の値とを結合して得られた値と正解ラベルとによって計算される損失関数に基づいて、機械学習モデルの機械学習を実行する、
　処理をコンピュータに実行させることを特徴とする機械学習プログラム。
　前記オントロジーの埋め込みベクトルを、前記グラフデータと前記オントロジーとの共通部分の初期値に用いて、前記グラフデータの埋め込みベクトルを計算する、
　処理をさらに前記コンピュータに実行させることを特徴とする請求項１に記載の機械学習プログラム。
　前記オントロジーの埋め込みベクトルのみで計算される活性化関数の値は、前記共通部分の埋め込みベクトルで計算されることを含む、
　ことを特徴とする請求項２に記載の機械学習プログラム。
　前記グラフデータに前記オントロジーを接続させた全体グラフデータに基づいて、前記グラフデータの埋め込みベクトル、及び前記オントロジーの埋め込みベクトルを計算する、
　処理をさらに前記コンピュータに実行させることを特徴とする請求項１に記載の機械学習プログラム。
　前記グラフデータの埋め込みベクトルを計算する処理は、前記全体グラフデータに基づいて、前記オントロジーの埋め込みベクトルを計算し、前記オントロジーの埋め込みベクトルを、前記グラフデータと前記オントロジーとの共通部分の初期値に用いて、前記グラフデータの埋め込みベクトルを計算する、
　ことを含むことを特徴とする請求項４に記載の機械学習プログラム。
　前記オントロジーは、前記グラフデータが示す元のデータに関する背景知識を体系化したデータである、
　ことを特徴とする請求項１～請求項５のいずれか１項に記載の機械学習プログラム。
　グラフデータの埋め込みベクトルとオントロジーの埋め込みベクトルと正解ラベルとを含む訓練データを入力のうちグラフデータの埋め込みベクトルのみで計算される活性化関数の値と、入力された訓練データのうちオントロジーの埋め込みベクトルのみで計算される活性化関数の値とを結合して得られた値と正解ラベルとによって計算される損失関数に基づいて、機械学習が実行された機械学習モデルに、正解が未知の推定対象データを示すグラフデータの埋め込みベクトルとオントロジーの埋め込みベクトルとを入力し、前記推定対象データに関する推定結果を出力する
　処理をコンピュータに実行させることを特徴とする推定プログラム。
　グラフデータの埋め込みベクトルとオントロジーの埋め込みベクトルと正解ラベルとを含む訓練データを入力し、
　入力された訓練データのうちグラフデータの埋め込みベクトルのみで計算される活性化関数の値と、入力された訓練データのうちオントロジーの埋め込みベクトルのみで計算される活性化関数の値とを結合して得られた値と正解ラベルとによって計算される損失関数に基づいて、機械学習モデルの機械学習を実行する、
　処理を実行する制御部を含むことを特徴とする機械学習装置。
　前記制御部は、前記オントロジーの埋め込みベクトルを、前記グラフデータと前記オントロジーとの共通部分の初期値として、前記グラフデータの埋め込みベクトルを計算する、
　ことを特徴とする請求項８に記載の機械学習装置。
　前記制御部は、前記オントロジーの埋め込みベクトルのみで計算される活性化関数の値を、前記共通部分の埋め込みベクトルで計算する、
　ことを特徴とする請求項９に記載の機械学習装置。
　前記制御部は、前記グラフデータに前記オントロジーを接続させた全体グラフデータに基づいて、前記グラフデータの埋め込みベクトル、及び前記オントロジーの埋め込みベクトルを計算する、
　ことを特徴とする請求項８に記載の機械学習装置。
　前記制御部は、前記グラフデータの埋め込みベクトルを計算する処理として、前記全体グラフデータに基づいて、前記オントロジーの埋め込みベクトルを計算し、前記オントロジーの埋め込みベクトルを、前記グラフデータと前記オントロジーとの共通部分の初期値として、前記グラフデータの埋め込みベクトルを計算する、
　ことを特徴とする請求項１１に記載の機械学習装置。
　前記オントロジーは、前記グラフデータが示す元のデータに関する背景知識を体系化したデータである、
　ことを特徴とする請求項８～請求項１２のいずれか１項に記載の機械学習装置。
　グラフデータの埋め込みベクトルとオントロジーの埋め込みベクトルと正解ラベルとを含む訓練データを入力のうちグラフデータの埋め込みベクトルのみで計算される活性化関数の値と、入力された訓練データのうちオントロジーの埋め込みベクトルのみで計算される活性化関数の値とを結合して得られた値と正解ラベルとによって計算される損失関数に基づいて、機械学習が実行された機械学習モデルに、正解が未知の推定対象データを示すグラフデータの埋め込みベクトルとオントロジーの埋め込みベクトルとを入力し、前記推定対象データに関する推定結果を出力する
　処理を実行する制御部を含むことを特徴とする推定装置。
　グラフデータの埋め込みベクトルとオントロジーの埋め込みベクトルと正解ラベルとを含む訓練データを入力し、
　入力された訓練データのうちグラフデータの埋め込みベクトルのみで計算される活性化関数の値と、入力された訓練データのうちオントロジーの埋め込みベクトルのみで計算される活性化関数の値とを結合して得られた値と正解ラベルとによって計算される損失関数に基づいて、機械学習モデルの機械学習を実行する、
　処理をコンピュータに実行させることを特徴とする機械学習方法。
　前記オントロジーの埋め込みベクトルを、前記グラフデータと前記オントロジーとの共通部分の初期値として、前記グラフデータの埋め込みベクトルを計算する、
　処理をさらに前記コンピュータに実行させることを特徴とする請求項１５に記載の機械学習方法。
　前記オントロジーの埋め込みベクトルのみで計算される活性化関数の値は、前記共通部分の埋め込みベクトルで計算されることを含む、
　ことを特徴とする請求項１６に記載の機械学習方法。
　前記グラフデータに前記オントロジーを接続させた全体グラフデータに基づいて、前記グラフデータの埋め込みベクトル、及び前記オントロジーの埋め込みベクトルを計算する、
　処理をさらに前記コンピュータに実行させることを特徴とする請求項１５に記載の機械学習方法。
　前記グラフデータの埋め込みベクトルを計算する処理は、前記全体グラフデータに基づいて、前記オントロジーの埋め込みベクトルを計算し、前記オントロジーの埋め込みベクトルを、前記グラフデータと前記オントロジーとの共通部分の初期値として、前記グラフデータの埋め込みベクトルを計算する、
　ことを含むことを特徴とする請求項１８に記載の機械学習方法。
　グラフデータの埋め込みベクトルとオントロジーの埋め込みベクトルと正解ラベルとを含む訓練データを入力のうちグラフデータの埋め込みベクトルのみで計算される活性化関数の値と、入力された訓練データのうちオントロジーの埋め込みベクトルのみで計算される活性化関数の値とを結合して得られた値と正解ラベルとによって計算される損失関数に基づいて、機械学習が実行された機械学習モデルに、正解が未知の推定対象データを示すグラフデータの埋め込みベクトルとオントロジーの埋め込みベクトルとを入力し、前記推定対象データに関する推定結果を出力する
　処理をコンピュータに実行させることを特徴とする推定方法。