WO2021075574A1

WO2021075574A1 - 被験物質のヒトにおける適応疾患を予測するための人工知能モデル

Info

Publication number: WO2021075574A1
Application number: PCT/JP2020/039179
Authority: WO
Inventors: 匠徳佐藤
Original assignee: ＫａｒｙｄｏＴｈｅｒａｐｅｕｔｉＸ株式会社
Priority date: 2019-10-17
Filing date: 2020-10-16
Publication date: 2021-04-22
Also published as: IL292185A; CN114556481A; EP4047607A1; US20240153649A1; EP4047607A4; JPWO2021075574A1; CA3158327A1

Abstract

被験物質が、訓練データを取得する際に使用した既存物質について知られていない効能を持っていたとしても予測することを課題とする。　第１訓練データ群と、第２訓練データ群と、第３訓練データ群とを関連付けて人工知能モデルに入力して人工知能モデルを訓練することを含み、前記第１訓練データ群は、ヒトにおける適応症が既知である複数の所定の既存物質を個別に投与した各非ヒト動物から採取された１又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群と、前記投与した所定の既存物質のそれぞれの名称を示すラベルとが紐付けられたデータの群であり、前記第２訓練データ群は、前記複数の所定の既存物質のそれぞれの名称を示すラベルと、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとが紐付けられたデータの群であり、前記第３訓練データ群は、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとこれらの適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群であり、前記人工知能モデルは、被験物質のヒトにおける適応症を予測するためのものである、訓練方法により訓練された人工知能モデルを使用する。

Description

被験物質のヒトにおける適応疾患を予測するための人工知能モデル

　本明細書には、被験物質のヒトにおける適応疾患を予測する方法、被験物質のヒトにおける適応疾患を予測するための装置、被験物質のヒトにおける適応疾患を予測するためのプログラム、並びに被験物質のヒトにおける適応疾患を予測するために使用される人工知能モデルの訓練方法及び訓練された人工知能モデルが開示される。

　新薬の開発は、新薬の候補物質を見つけるための創薬研究（ディスカバリーフェーズ）から始まり、動物や培養細胞を使った前臨床試験（フェーズ０）、ヒトにおけるフェーズＩ～ＩＩＩまでの臨床試験を経て、合格した物質のみが、医薬品として厚生労働省から製造販売の承認を受けるための承認申請を行うことを許される。そして、しかるべき審査を受け医薬品として認可され、発売された後も、開発段階や承認審査段階で予測のつかなかった有害事象や効果を監視するための期間が設けられている。このように、１つの新薬が発売されるまでには、膨大な時間と費用を要する。一方で、ディスカバリーフェーズから製造販売承認に至る確率は、１．６％程度といわれている。また前臨床試験を通過してからフェーズＩＩＩまでの臨床試験の間に、効果が得られ、かつ有害事象が現れずに承認申請まで至る物質は、前臨床試験を通過してからした物質の１３．８％にとどまるといわれている。つまり、８割以上の候補物質がフェーズＩ～ＩＩＩまでの臨床試験に間にドロップアウトすることになる。このドロップアウトによる損失は、１物質あたり、１.５億ドル～２億ドルともいわれており、膨大な損失となっている。

　新薬の開発において、新薬の候補物質の探索を補助する方法として、特許文献１には、被験物質が投与された個体の１種以上の器官由来の細胞又は組織から得られた各器官における器官連関指標因子の被験データと、あらかじめ決定された対応する器官連関指標因子の標準データとを比較して、器官連関指標因子のパターンの類似度を算出するパターン類似度を求め、器官連関指標因子のパターンの類似度を指標にして、前記１種以上の器官における、及び／又は前記１種以上の器官以外の器官における被験物質の効能又は副作用を予測する方法が開示されている。

　また、新薬の開発において、候補物質の効能又は副作用を予測する方法として、特許文献２には、ヒトにおける作用が既知である複数の既存物質を個別に投与した非ヒト動物から前記非ヒト動物ごとに採取された複数の異なる器官におけるトランスクリプトームの挙動を示すデータ群と、前記既存物質ごとのヒトにおける既知の作用を示すデータとを訓練データとして人工知能モデルに入力し、人工知能モデルを訓練することを含む、被験物質を投与した非ヒト動物の複数の異なる器官であって、訓練データの作成時に採取された器官と同じ複数の器官におけるトランスクリプトームの挙動から前記被験物質のヒトにおける１又は複数の作用を予測するための人工知能モデルが開示されている。

国際公開第２０１６／２０８７７６号特許第６５５９８５０号公報

　本開示では、ヒト以外の動物に被験物質を投与した時のバイオマーカーの挙動から、ヒトにおける被験物質の適応症を効率よく予測することを一課題とする。

　特許文献２に記載の方法では、訓練データとして複数の器官のトランスクリプトームデータを取得する際に使用した既存物質について、既に知られている効能についてのみ予測が可能であった。

　本発明は、被験物質が、訓練データを取得する際に使用した既存物質について知られていない効能を持っていたとしても予測することを課題とする。

　本発明は、実施形態として、以下の形態を含みうる。

項１．本発明のある実施形態は、人工知能モデルの訓練方法に関する。前記訓練方法は、第１訓練データ群と、第２訓練データ群と、第３訓練データ群とを関連付けて人工知能モデルに入力して人工知能モデルを訓練することを含み、前記第１訓練データ群は、ヒトにおける適応症が既知である複数の所定の既存物質を個別に投与した各非ヒト動物から採取された１又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群と、前記投与した所定の既存物質のそれぞれの名称を示すラベルとが紐付けられたデータの群であり、前記第２訓練データ群は、前記複数の所定の既存物質のそれぞれの名称を示すラベルと、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとが紐付けられたデータの群であり、前記第３訓練データ群は、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとこれらの適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群であり、前記人工知能モデルは、被験物質のヒトにおける適応症を予測するためのものである、前記訓練方法。
項２．項１に記載の訓練において、前記第１訓練データ群と前記第３訓練データ群とを前記第２訓練データ群により紐付けて第４訓練データ群を生成し、前記第４訓練データ群を人工知能に入力する。
項３．項１又は項２に記載の訓練方法において、前記有害事象に関する情報は、前記有害事象を示すラベルと、前記適応症における前記有害事象の有無、又は発生頻度を含む。
項４．項１から３のいずれか一項に記載の訓練方法において、前記バイオマーカーがトランスクリプトームである。
項５．項１から４のいずれか一項に記載の訓練方法において、前記人工知能モデルは、Ｏｎｅ－Ｃｌａｓｓ　ＳＶＭである。
項６．本発明のある実施形態は、人工知能モデルの訓練装置に関する。前記訓練装置は、処理部を備え、前記処理部は、第１訓練データ群と、第２訓練データ群と、第３訓練データ群とを関連付けて人工知能モデルに入力して人工知能モデルを訓練し、前記第１訓練データ群は、ヒトにおける適応症が既知である複数の所定の既存物質を個別に投与した各非ヒト動物から採取された１又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群と、前記投与した所定の既存物質のそれぞれの名称を示すラベルとが紐付けられたデータの群であり、前記第２訓練データ群は、前記複数の所定の既存物質のそれぞれの名称を示すラベルと、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとが紐付けられたデータの群であり前記第３訓練データ群は、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとこれらの適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群であり、前記人工知能モデルは、被験物質のヒトにおける適応症を予測するためのものである。
項７．本発明のある実施形態は、コンピュータに実行させたときに、第１訓練データ群と、第２訓練データ群と、第３訓練データ群とを関連付けて人工知能モデルに入力して人工知能モデルを訓練するステップをコンピュータに実行させる、人工知能モデルの訓練プログラムに関する。前記プログラムにおいて、第１訓練データ群は、ヒトにおける適応症が既知である複数の所定の既存物質を個別に投与した各非ヒト動物から採取された１又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群と、前記投与した所定の既存物質のそれぞれの名称を示すラベルとが紐付けられたデータの群であり、前記第２訓練データ群は、前記複数の所定の既存物質のそれぞれの名称を示すラベルと、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとが紐付けられたデータの群であり、前記第３訓練データ群は、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとこれらの適応症のそれぞれに対応して報告されている有害事象に関する情報が紐付けられたデータの群であり、前記人工知能モデルは、被験物質のヒトにおける適応症を予測するためのものである。
項８．本発明のある実施形態は、被験物質のヒトにおける適応症を予測する方法に関する。前記方法は、第１被験データ群を取得する工程であって、前記第１被験データ群は、被験物質を投与した非ヒト動物から採取された１又は複数の器官におけるバイオマーカーの挙動を示すデータの群である工程と、前記第１被験データ群と、第２被験データ群とを項１～５のいずれか一項に記載の方法で訓練された人工知能モデルに入力し、前記訓練された人工知能モデルにより、入力した前記第１被験データ群と第２被験データ群に基づいて前記被験物質のヒトにおける適応症を予測する工程であって、前記第２被験データ群は、複数の公知の適応症のラベルと、前記複数の公知の適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群である工程と、を含む。
項９．項８に記載の予測方法において、前記被験物質は、既存物質又は既存物質の等価物質を含まない。
項１０．項８又は項９に記載の予測方法において、前記被験物質は、既存物質又は既存物質の等価物質から選択される１種である。
項１１．本発明のある実施形態は、被験物質のヒトにおける適応症を予測する予測装置に関する。前記予測装置は、処理部を備え、前記処理部は、第１被験データ群と、第２被験データ群とを項１～５のいずれか一項に記載の方法で訓練された人工知能モデルに入力し、前記訓練された人工知能モデルにより、入力した前記第１被験データ群と第２被験データ群に基づいて前記被験物質のヒトにおける適応症を予測し、前記第１被験データ群は、被験物質を投与した非ヒト動物から採取された１又は複数の器官におけるバイオマーカーの挙動を示すデータの群であって、第１訓練データ群の生成時に採取された器官に対応する１又は複数の器官におけるバイオマーカーの挙動を示すデータの群であり、前記第２被験データ群は、複数の公知の適応症のラベルと、前記複数の公知の適応症のそれぞれに対応して報告されている第３訓練データ群の生成時に取得された有害事象に関する情報とが紐付けられたデータの群である。
項１２．本発明のある実施形態は、コンピュータに実行させた時に、第１被験データ群と、第２被験データ群とを項１～５のいずれか一項に記載の方法で訓練された人工知能モデルに入力し、前記訓練された人工知能モデルにより、入力した前記第１被験データ群と第２被験データ群に基づいて前記被験物質のヒトにおける適応症を予測するステップであって、前記第１被験データ群は、被験物質を投与した非ヒト動物から採取された１又は複数の器官におけるバイオマーカーの挙動を示すデータの群であって、第１訓練データ群の生成時に採取された器官に対応する１又は複数の器官におけるバイオマーカーの挙動を示すデータの群であり、前記第２被験データ群は、複数の公知の適応症のラベルと、前記複数の公知の適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群であるステップを、コンピュータに実行させる、被験物質のヒトにおける適応症を予測するためのコンピュータプログラムに関する。
項１３．本発明のある実施形態は、被験物質のヒトにおける適応症を予測するための予測システムに関する。前記システムは、第１被験データ群を送信するサーバ装置であって、前記第１被験データ群が被験物質を投与した非ヒト動物から採取された１又は複数の器官におけるバイオマーカーの挙動を示すデータの群である、サーバ装置と、前記サーバ装置とネットワークを介して接続された、ヒトにおける前記被験物質の作用を予測するための予測装置と、を備える。前記サーバ装置は、前記第１被験データ群を送信するための通信部を備え、前記予測装置は、処理部と、通信部を備え、前記処理部は、前記サーバ装置の通信部を介して送信された第１被験データ群を、前記予測装置の通信部を介して取得し、取得した第１被験データ群と、第２被験データ群とを項１～５のいずれか一項に記載の方法で訓練された人工知能モデルに入力し、前記訓練された人工知能モデルにより、入力した前記第１被験データ群と第２被験データ群に基づいて前記被験物質のヒトにおける適応症を予測し、前記第１被験データ群は、被験物質を投与した非ヒト動物から採取された１又は複数の器官におけるバイオマーカーの挙動を示すデータの群であって、第１訓練データ群の生成時に採取された器官に対応する１又は複数の器官におけるバイオマーカーの挙動を示すデータの群であり、前記第２被験データ群は、複数の公知の適応症のラベルと、前記複数の公知の適応症のそれぞれに対応して報告されている第３訓練データ群の生成時に取得された有害事象に関する情報とが紐付けられたデータの群である。
項１４．本発明のある実施形態は、１又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群と、前記バイオマーカーの挙動を示すデータの群を取得する際に投与した前記既存物質の名称を示すラベルとが紐付けられたデータの群である、第１訓練データ群であって、前記１又は複数の異なる器官は、ヒトにおける適応症が既知である複数の所定の既存物質を個別に投与した各非ヒト動物から採取される、前記第１訓練データ群と、前記複数の所定の既存物質のそれぞれの名称を示すラベルと、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとが紐付けられたデータの群である、第２訓練データ群と、前記適応症を示すラベルと前記適応症のそれぞれに対応して報告されている有害事象に関する情報が紐付けられたデータの群である、前記第３訓練データ群と、を、被験物質のヒトにおける適応症を予測するための人工知能モデルの訓練のために使用する方法に関する。
項１５．第１被験データ群と、第２被験データ群とを、被験物質のヒトにおける適応症を予測するための被験データとして使用する方法に関する。前記方法において、前記第１被験データ群は、被験物質を投与した非ヒト動物から採取された１又は複数の器官におけるバイオマーカーの挙動を示すデータの群であって、第１訓練データ群の生成時に採取された器官に対応する１又は複数の器官におけるバイオマーカーの挙動を示すデータの群であり、前記第２被験データ群は、複数の公知の適応症のラベルと、前記複数の公知の適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群である。

　被験物質が、訓練データを取得する際に使用した既存物質について知られていない効能を持っていたとしても、その効能を予測することができる。

本発明の概要を示す。特許文献２に記載の発明（従来技術）の概要を示す。訓練データの例を示す。（A）は第１訓練データの例を示す。（B）は第２訓練データの例を示す。（C）は第３訓練データの例を示す。（D）は第4訓練データの例を示す。（A）は、訓練システムのハードウエアの構成を示す。（B）は、予測システムのハードウエアの構成を示す。訓練装置のハードウエアの構成を示す。訓練プログラムの処理の流れを示すフローチャートである。予測装置のハードウエアの構成を示す。予測プログラムの処理の流れを示すフローチャートである。サーバ装置のハードウエアの構成を示す。予測システムの処理の流れを示すフローチャートである。被験薬剤のトランスクリプトームデータを使用せず訓練した人工知能の予測結果を示す。被験薬剤のトランスクリプトームデータを使用して訓練した人工知能の予測結果を示す。アレンドロネートのdecision function valuesの一部を示す。

１．訓練方法及び予測方法の概要と用語の説明
　はじめに、本開示のある実施形態である人工知能の訓練方法、及び予測方法の概要を説明する。また、従来法と本開示に含まれる訓練方法、及び予測方法の相違点を説明する。

　予測方法は、被験物質のヒトにおける適応症を予測する。好ましくは、予測方法は、ヒトにおける作用が既知である既存物質を投与した非ヒト動物におけるバイオマーカーの挙動と、公知の適応症と、前記公知の適応症に対応して報告されている有害事象に関する情報に基づいて、被験物質のヒトにおける適応症を予測する。前記予測は、人工知能モデルを使用して達成される。

（１）訓練フェーズ
　図１に示すように、予測に用いられる人工知能モデルは、好ましくは、第１訓練データ群、第２訓練データ群及び第３訓練データ群の３種類の訓練データ群を関連付けたデータ群により訓練される。

　図１に示すように第１訓練データ群は、ヒトにおける適応症が既知である複数の所定の既存物質を個別に投与に非ヒト動物に投与し、非ヒト動物のそれぞれから採取された１又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群と、前記投与した所定の既存物質のそれぞれの名称を示すラベルとが紐付けられたデータの群である。第１訓練データは、例えば、図１に示すように、所定の既存物質として薬剤Ａ、Ｂ、Ｃを個別にマウス等の非ヒト動物に投与し、前記非ヒト動物からそれぞれに器官又は器官の一部である組織を採取する。次に採取した器官又は組織におけるバイオマーカーの挙動を解析し、［各器官名とバイオマーカーの挙動を示すデータ］と［投与した薬剤のそれぞれの名称］から第１訓練データ群を生成する。図３（Ａ）により具体的な第１訓練データ群の例を示す。図３（Ａ）に示す第１の訓練データ群の例では、一番左側の列を第１列とする。図３（Ａ）に示す第１列には、例として薬剤名“Ａｒｉｐｉｐｒａｚｏｌｅ”、薬剤名“ＥＭＰＡ”が示されている。第２列目以降は各器官におけるＲＮＡの発現量を示す。“Ｈｅａｒｔ”、“Ｓｋｉｎ”が器官名のラベルであり、“Ａｌａｓ２”、“Ａｐｏｄ”が発現を解析した遺伝子名のラベルである。第２列目以降第２行目以降は、各遺伝子の発現量を示す値が要素として入力されている。第１訓練データ群は、［器官名を示すラベルと遺伝子名を示すラベル］と［各遺伝子の発現量を示す値］が、薬剤名を示すラベルと対応している。

　図１に示すように第２訓練データは、第１訓練データ群を取得する際に投与した複数の所定の既存物質のそれぞれの名称を示すラベル（図３（Ａ）の第１列目）と、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとが紐付けられたデータの群である。図３（Ｂ）に第２訓練データ群の具体例を示す。図３（Ｂ）に示す第１の訓練データ群の例では、一番左側の列を第１列とする。図３（Ｂ）に示す第１列には、例として薬剤名“Ａｒｉｐｉｐｒａｚｏｌｅ”、薬剤名“ＥＭＰＡ”が示されている。第２列目以降は、第１列目に記載された各薬剤について報告されている適応症である。ここでは、薬剤名“Ａｒｉｐｉｐｒａｚｏｌｅ”適応症を示す名称のラベルとして“Ｎｅｒｖｅ　ｉｎｊｕｒｙ”が、薬剤名“ＥＭＰＡ”の適応症を示す名称のラベルとして“Ｔｙｐｅ　２　ｄｉａｂｅｔｅｓ　ｍｅｌｌｉｔｕｓ”が示されている。

　図１に示すように第３訓練データは、第１訓練データ群を取得する際に投与した複数の所定の既存物質のそれぞれについて報告されている図３（Ｂ）に示す適応症を示すラベルとこれらの適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群である。ここで、有害事象に関する情報には、有害事象の名称を示すラベルと、有害事象の有無、又は発生頻度が含まれ得る。図３（Ｃ）に第３訓練データ群のより具体的な例を示す。図３（Ｃ）に示す第１の訓練データ群の例では、一番左側の列を第１列とする。図３（Ｂ）の“Ｉｎｄｉｃａｔｉｏｎ　１”に記載された薬剤名“Ａｒｉｐｉｐｒａｚｏｌｅ”の適応症である“Ｎｅｒｖｅ　ｉｎｊｕｒｙ”が図３（Ｃ）の第１列目に示されている。また、図３（Ｂ）の“Ｉｎｄｉｃａｔｉｏｎ　１”に記載された薬剤名“ＥＭＰＡ”の適応症として“Ｔｙｐｅ　２　ｄｉａｂｅｔｅｓ　ｍｅｌｌｉｔｕｓ”が図３（Ｃ）の第１列目に示されている。図３（Ｃ）の第２列目移行の最上列は有害事象の名称を示すラベルであり、ここでは“Ｓｌｅｅｐ　ｄｉｓｏｒｄｅｒ”、　“Ｂｌｏｏｄ　ｇｌｕｃｏｓｅ　ｄｅｃｒｅａｓｅｄ”が示されている。図３（Ｃ）第２列目の第２行目以降の数値は、各有害事象の発生頻度を示す。

　本実施形態の訓練方法において人工知能に入力されるのは、第１訓練データ群と前記第３訓練データ群とを前記第２訓練データ群により紐付けて生成された第４訓練データ群である。

　第４訓練データ群の例を図３（Ｄ）に示す。図３（Ｄ）に示す第１の訓練データ群の例では、一番左側の列を第１列とする。第１列目及び第２列目には、図３（Ｃ）で示した有害事象の名称を示すラベルと、それぞれの発生頻度が示されている。また、第４列目以降は、図３（Ａ）で示した器官の名称を示すラベルと遺伝子の名称のラベルと、遺伝子の発現量が示されている。言い換えると、図３（Ｄ）は、図３（Ａ）の薬剤名を示す第１列目のラベルに、図３（Ｃ）に示す第２列目以降の有害事象の発生頻度を代入したデータ群となる。

（２）予測フェーズ
　上記１．（１）において訓練された人工知能モデルを用いて、被験物質のヒトにおける適応症を予測する。適応症を予測する際に訓練された人工知能モデルに入力される被験データ群は、第１被験データ群と第２被験データ群となる。第１被験データ群は第２被験データ群と共に訓練された人工知能モデルに入力される。

　第１被験データ群は、被験物質を投与した非ヒト動物から採取された１又は複数の器官におけるバイオマーカーの挙動を示すデータの群である。また、前記複数の期間は、第１訓練データ群の生成時に採取された器官に対応する。好ましくは、第１被験データは、一つの被験物質を非ヒト動物に投与し、１又は複数の器官を採取し、トランスクリプトームの解析を行い、［器官名を示すラベルと遺伝子名を示すラベル］と［各遺伝子の発現量を示す値］とを紐付けたデータである。

　第２被験データ群は、複数の公知の適応症のラベルと、前記複数の公知の適応症のそれぞれに対応して報告されている第３訓練データ群の生成時に取得された有害事象に関する情報とが紐付けられたデータの群である。ここで、前記複数の公知の適応症は、第２訓練データとして使用される適応症だけでなく、外部データベースに登録されている公知の適応症を含み得る。公知の適応症において、「複数」とは、例えば１００、５００、１０００、又は２０００、さらにそれ以上を意図しうる。

　ここで、予測方法は、被験物質として、既存物質又は既存物質の等価物質でなくてもよい。被験物質が既存物質又は既存物質の等価物質でない場合には、予測方法は、新規物質の適応症を予測する方法となる。

　また、予測方法は、被験物質として、既存物質又は既存物質の等価物質を含んでいてもよい。この場合、予測方法は、既存物質又は既存物質の等価物質の新たな適応症を探索するためのドラッグリポジショニング法となる。ドラッグリポジショニング法として本明細書に記載の予測方法を使用する場合、第１訓練データ群を取得するために投与する既存物質にも、被験物質を含めることが好ましい。このようにすることで予測精度を高めることができる。

（３）従来法との比較
　図２に示す従来法は、特許文献２に記載の方法であり、例えば既存物質として薬剤Ａ、Ｂ、Ｃを個別にマウス等の非ヒト動物に投与し、前記非ヒト動物からそれぞれに器官又は器官の一部である組織を採取する。次に採取した器官又は組織におけるバイオマーカーの挙動を解析し、第１訓練データ群を生成する。また、既存物質の有害事象、適応症、薬物動態、及び適応症等のヒト臨床データベースから、第２訓練データを生成する。ぞして、図２に示す人工知能モデルは、第１訓練データ群と第２訓練データとを用いて訓練することにより生成される。言い換えると、従来法では、バイオマーカーの挙動と既存物質の有害事象、適応症、薬物動態、又は適応症の一つずつを対応付けて人工知能モデルを構築する。また、従来法で使用する被験データは、被験物質を投与した非ヒト動物の１又は複数の異なる器官であって、第１訓練データ群の生成時に採取された器官に対応する１又は複数の器官におけるバイオマーカーの挙動を示すデータである。

　本実施形態では、訓練データとして、バイオマーカーの挙動だけでなく、適応症名に代入される有害事象に関する情報を使用する点において従来法とは相違する。また、被験データとしても、バイオマーカーの挙動だけでなく、複数の公知の適応症と有害事象に関する情報を使用する。

　このため、被験物質が、訓練データを取得する際に使用した既存物質について知られていない適応症を持っていたとしても、それを予測することができる。

（４）用語の説明
　本開示において、非ヒト動物は、制限されない。例えば、マウス、ラット、イヌ、ネコ、ウサギ、ウシ、ウマ、ヤギ、ヒツジ、ブタ等の哺乳動物、ニワトリ等の鳥類等が挙げられる。好ましくはマウス、ラット、イヌ、ネコ、ウシ、ウマ、ブタ等の哺乳動物であり、より好ましくはマウス、又はラット等であり、さらに好ましくはマウスである。非ヒト動物には、前記動物の胎児、雛等も含まれる。

　本開示において、「物質」には、例えば化合物；核酸；糖質；脂質；糖タンパク質；糖脂質；リポタンパク質；アミノ酸；ペプチド；タンパク質；ポリフェノール類；ケモカイン；前記物質の終末代謝産物、中間代謝産物、及び合成原料物質からなる群から選択される少なくとも一種の代謝物質；金属イオン；又は微生物等が含まれうる。また、前記物質は、単体でもよいが複数種の物質を混合したものであってもよい。好ましくは、「物質」には、医薬品、医薬部外品、薬用化粧品、食品、特定保健用食品、機能性表示食品及びこれらの候補品等が含まれる。また、「物質」には、薬事承認のための前臨床試験又は臨床試験において試験が中止又は中断された物質も含まれ得る。

　「既存物質」は、既存の物質である限り、制限されない。好ましくは、ヒトにおける作用が既知である物質である。また、「既存物質の等価物質」には、既存物質と構造が類似し、既存物質と類似の作用を有するものを含み得る。ここで類似の作用とは、作用の強さが同じまたは異なるものの既存物質と同種の作用を有するものを意図する。

　「有害事象」は、ヒトに害があると判断される作用である限り制限されない。好ましくは、ＦＡＥＲＳ(https://www.fda.gov/Drugs/GuidanceComplianceRegulatoryInformation/Surveillance/AdverseDrugEffects/ucm082193.htm)、又はｃｌｉｎｉｃａｌｔｒｉａｌｓ．ｇｏｖ (https://clinicaltrials.gov/)等の外部データベースに収載された有害事象を例示することができる。

　「適応症」は、ヒトにおける疾患や症状を軽減、治療、進行を停止、予防する対象である限り制限されない。前記疾患や症状として、前述のＦＡＥＲＳ、ＤＡＩＬＹＭＥＤのａｌｌ　ｄｒｕｇ　ｌａｂｅｌｓ　(https://dailymed.nlm.nih.gov/dailymed/spl-resources-all-drug-labels.cfm )、Ｍｅｄｉｃａｌ　Ｓｕｂｊｅｃｔ　Ｈｅａｄｉｎｇｓ (https://www.nlm.nih.gov/mesh/meshhome.html)、Ｄｒｕｇｓ＠ＦＤＡ(https://www.accessdata.fda.gov/scripts/cder/daf/)、Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｏｆ　Ｄｉｓｅａｓｅｓ（https://www.who.int/health-topics/international-classification-of-diseases）等の外部データベースに収載された疾患又は症状を例示することができる。より具体的には、適応症は、血栓症、塞栓症、狭窄症等の虚血性疾患（特に心臓、脳、肺、大腸等）；動脈瘤、静脈瘤、うっ血、出血等の循環障害（大動脈、静脈、肺、肝臓、脾臓、網膜等）；アレルギー性気管支炎、糸球体腎炎等のアレルギー性疾患；アルツハイマー型認知症等の認知症、パーキンソン病、筋萎縮性側索硬化症、重症筋無力症等の変性疾患（神経、骨格筋等）；腫瘍（良性上皮性腫瘍、良性非上皮性腫瘍、悪性上皮性腫瘍、悪性非上皮性腫瘍）；代謝性疾患（糖質代謝異常、脂質代謝異常、電解質異常）；感染症（細菌、ウイルス、リケッチア、クラミジア、真菌等、原虫、寄生虫等）、腎疾患、全身性エリテマトーデス、多発性硬化症等の自己免疫疾患等に伴う症状又は疾病を挙げることができる。

　有害事象の発生率は、次の方法により求めることができる。有害事象の名称を示す単語を上記ｃｌｉｎｉｃａｌｔｒｉａｌｓ．ｇｏｖ、ＦＡＥＲＳ、ＤＡＩＬＹＭＥＤのａｌｌ　ｄｒｕｇ　ｌａｂｅｌｓ等のデータベースからテキスト抽出等により抽出する。抽出された１単語は、報告された１件の有害事象としてカウントすることができる。１つの既存物質に対して、発生率＝（１つの有害事象が報告された件数）／（その既存物質について報告された有害事象の全件数）の式により求めることができる。データベースにおいて作用に関連する説明が文章で登録されている場合には、自然言語処理により、登録されている文章に対して、構文解析、単語分割、意味解析等を行ってから、作用に対応するテキストを抽出してもよい。

　「器官」は、上述した哺乳動物、又は鳥類の体内に存在する器官である限り制限されない。例えば、哺乳動物の場合、器官として循環器系器官（心臓、動脈、静脈、リンパ管等）、呼吸器系器官（鼻腔、副鼻腔、喉頭、気管、気管支、肺等）、消化器系器官（口唇、頬部、口蓋、歯、歯肉、舌、唾液腺、咽頭、食道、胃、十二指腸、空腸、回腸、盲腸、虫垂、上行結腸、横行結腸、Ｓ状結腸、直腸、肛門、肝臓、胆嚢、胆管、胆道、膵臓、膵管等）、泌尿器系器官（尿道、膀胱、尿管、腎臓）、神経系器官（大脳、小脳、中脳、脳幹、脊髄、末梢神経、自律神経等）、女性生殖器系器官（卵巣、卵管、子宮、膣等）、乳房、男性生殖器系器官（陰茎、前立腺、精巣、精巣上体、精管）、内分泌系器官（視床下部、下垂体、松果体、甲状腺、副甲状腺、副腎等）、外皮系器官（皮膚、毛、爪等）、造血器系器官（血液、骨髄、脾臓等）、免疫系器官（リンパ節、扁桃、胸腺等）、骨軟部器官（骨、軟骨、骨格筋、結合組織、靱帯、腱、横隔膜、腹膜、胸膜、脂肪組織（褐色脂肪、白色脂肪）等）、及び感覚器系器官（眼球、眼瞼、涙腺、外耳、中耳、内耳、蝸牛等）から選択される少なくとも一種が挙げられる。好ましくは、「器官」として、骨髄、膵臓、頭蓋骨、肝臓、皮膚、脳、脳下垂体、副腎、甲状腺、脾臓、胸腺、心臓、肺、大動脈、骨格筋、精巣、精巣上体周囲脂肪、眼球、回腸、胃、空腸、大腸、腎臓、及び耳下腺から選択される少なくとも一種を挙げることができる。好ましくは、骨髄、膵臓、頭蓋骨、肝臓、皮膚、脳、脳下垂体、副腎、甲状腺、脾臓、胸腺、心臓、肺、大動脈、骨格筋、精巣、精巣上体周囲脂肪、眼球、回腸、胃、空腸、大腸、腎臓、及び耳下腺すべてを、本開示に係る予測に使用する。複数の器官とは、２以上であれば制限されない。例えば、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、及び２４種の器官から選択することができる。

　「器官由来」とは、例えば、器官から採取されたこと、採取された器官の細胞、若しくは組織、又は体液から培養されたことを意図する。

　前記「体液」には、血清、血漿、尿、髄液、腹水、胸水、唾液、胃液、膵液、胆汁、乳汁、リンパ液、細胞間質液等が含まれる。

　「バイオマーカー」には、前記物質の投与に依存して、各器官の細胞若しくは組織、及び／又は体液で変動しうる生体内物質をいう。「バイオマーカー」となりうる生体内物質は、核酸；糖質；脂質；糖タンパク質；糖脂質；リポタンパク質；アミノ酸、ペプチド；タンパク質；ポリフェノール類；ケモカイン；前記物質の終末代謝産物、中間代謝産物、及び合成原料物質からなる群から選択される少なくとも一種の代謝物質；及び金属イオン等から選択される少なくとも一種を例示することができる。より好ましくは、核酸である。前記バイオマーカーは、前記物質の投与に依存して、各器官の細胞若しくは組織、及び／又は体液で変動しうる生体内物質の群であることが好ましい。生体内物質の群として、例えば、核酸；糖質；脂質；糖タンパク質；糖脂質；リポタンパク質；アミノ酸、ペプチド；タンパク質；ポリフェノール類；ケモカイン；前記物質の終末代謝産物、中間代謝産物、及び合成原料物質からなる群から選択される少なくとも一種の代謝物質；及び金属イオン等から選択される少なくとも一種の群を例示することができる。

　「核酸」として好ましくはｍＲＮＡ、非翻訳ＲＮＡ、ｍｉｃｒｏＲＮＡ等のトランスクリプトームに含まれるＲＮＡの群であり、より好ましくはｍＲＮＡの群である。ＲＮＡとして好ましくは、上記器官の細胞若しくは組織、又は体液中の細胞において発現され得るｍＲＮＡ、非翻訳ＲＮＡ及び／又はｍｉｃｒｏＲＮＡであり、より好ましくは、ＲＮＡ－Ｓｅｑ等で検出され得るｍＲＮＡ、非翻訳ＲＮＡ及び／ｍｉｃｒｏＲＮＡである（https://www.ncbi.nlm.nih.gov/gene?LinkName=genome_gene&from_uid=52、http://jp.support.illumina.com/sequencing/sequencing_software/igenome.html）。好ましくは、ＲＮＡ－Ｓｅｑにより解析可能なＲＮＡすべてを本開示に係る予測に使用する。

　「バイオマーカーの挙動を示すデータの群」とは、既存物質の投与に応じてバイオマーカーが変動したこと、又は変動しなかったことを示すデータの群を意図する。好ましくは、バイオマーカーの挙動は、既存物質の投与に応じてバイオマーカーが変動したことを示す。前記データは、例えば、次の方法により取得することができる。既存物質を投与した非ヒト動物から採取されたある器官に由来する組織、細胞、又は体液等について、各バイオマーカーの存在量又は濃度を測定し、既存物質投与個体の各器官における測定値を取得する。また、既存物質を投与していない非ヒト動物から、既存物質投与個体の測定値を取得した器官に対応する器官に由来する組織、細胞、又は体液等について、同様に各バイオマーカーの存在量又は濃度を測定し、非投与個体の測定値を取得する。既存物質投与個体の各器官に由来する各バイオマーカーの測定値を、非投与個体において既存物質投与個体のバイオマーカーに対応する各器官におけるバイオマーカーの測定値と比較し、その差を示す値をデータとして取得する。ここで「対応する」とは、器官及びバイオマーカーが同じであるか、同種であるかを意味する。好ましくは、前記差は、既存物質投与個体に由来する各バイオマーカーの測定値と、このバイオマーカーに対応する非投与個体においてバイオマーカーの測定値との比（例えば除算値）で示すことができる。例えば、データは、既存物質投与個体に由来する器官ＡのバイオマーカーＡの測定値を非投与個体に由来する器官ＡのバイオマーカーＡの測定値で除した除算値である。

　また、バイオマーカーがトランスクリプトームである場合、ＲＮＡ－Ｓｅｑにより解析可能な全ＲＮＡを使用してもよいが、前記ＲＮＡは、例えば、ＷＧＣＮＡ（https://labs.genetics.ucla.edu/horvath/CoexpressionNetwork/Rpackages/WGCNA/）を用いて前記ＲＮＡの発現について解析し、器官名と遺伝子名が紐付けられた各ＲＮＡの挙動を示すデータの部分集合（モジュール）に分割してもよい。ＷＧＣＮＡにより分割した各モジュールについて、各既存物質について、１－ｏｆ－Ｋ表現とのピアソンの相関係数を算出し、各既存物質について相関係数の絶対値が一番高いモジュールを選択し、選択されたモジュールに含まれる各器官におけるＲＮＡをバイオマーカーとしてもよい。

　さらに、既存物質の投与に応じてバイオマーカーがトランスクリプトームである場合、既存物質の非投与動物と比較した既存物質投与動物の各器官におけるトランスクリプトームの変動を、ＤＥＳｅｑ２解析を用いて行うことができる。例えば、既存物質投与動物から採取した各器官におけるＲＮＡの発現量と、既存物質非投与動物採取した対応する各器官における遺伝子の発現量とを、ｈｔｓｅｑ－ｃｏｕｎｔで定量し、それぞれのカウントデータを得る。そして、各器官及び各器官における各遺伝子の発現量の比較を行う。比較結果として、既存物質投与動物の遺伝子発現変動量のｌｏｇ_２（ｆｏｌｄ）値、及び各変動量の確からしさの指標となるｐ値が器官ごとに各遺伝子について出力される。ｌｏｇ_２（ｆｏｌｄ）値に基づいて、トランスクリプトーム等のバイオマーカーの挙動の有無を判定することができる。

　前記バイオマーカーの測定値は、公知の方法により取得することができる。バイオマーカーが核酸の場合には、ＲＮＡ－Ｓｅｑ等のシーケンシング、定量的ＰＣＲ等で測定値を取得することができる。バイオマーカーが、糖質、脂質、糖脂質、アミノ酸、ポリフェノール類；ケモカイン；前記物質の終末代謝産物、中間代謝産物、及び合成原料物質からなる群から選択される少なくとも一種の代謝物質等である場合には、質量分析等によって、測定値を取得することができる。バイオマーカーが、糖タンパク質、リポタンパク質、ペプチド、タンパク質等である場合には、ＥＬＩＳＡ法（Ｅｎｚｙｍｅ－Ｌｉｎｋｅｄ　Ｉｍｍｕｎｏ　Ｓｏｒｂｅｎｔ　Ａｓｓａｙ）等で測定値を取得することができる。また、測定に用いる器官由来の組織、細胞、又は体液の採取方法、バイオマーカーを測定するための前処理方法も公知である。

　「被験物質」は、作用を評価する対象となる物質である。被験物質は、既存物質又は既存物質の等価物であっても、新規物質であってもよい。予測方法では、被験物質の作用と、既存物質又は既存物質の等価物質と作用の関連性がみいだされていない場合であっても、ヒトにおける被験物質の作用を予測することができる。一方、被験物質が、既存物質又は既存物質の等価物から選択される一種である場合、既存物質又は既存物質の等価物の未知の作用を見つけることができる。未知の作用は１種であっても複数種であってもよい。未知の作用は、好ましくは新規適用症である。ヒトにおける被験物質の新規適用症を予測することにより、ドラッグリポジショニングを行うこともできる。被験物質の非ヒト動物への投与は公知である。また被験物質を投与した非ヒト動物から採取された１又は複数の器官におけるバイオマーカーの挙動を示すデータは、既存物質を投与した非ヒト動物から採取された１又は複数の器官におけるバイオマーカーの挙動を示すデータと同様に取得することができる。

２．人工知能モデルの構築
２－１．訓練データの生成
（１）第１訓練データ群の生成
　第１訓練データ群は、１又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群と、前記既存物質名を示すラベルから構成される。前記１又は複数の異なる器官は、ヒトにおける作用が既知である複数の既存物質を個別に投与した各非ヒト動物から採取され得る。前記第１訓練データ群は、データベースＴＲ１として図５に示す訓練装置１０の補助記憶部１０４に格納され得る。

　１又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群は、上記１．（４）に記載の方法により取得されうる。
　前記各器官におけるバイオマーカーの挙動を示すデータのそれぞれは、投与した既存物質の名称に関する情報、採取された器官の名称に関する情報、バイオマーカーの名称に関する情報等と紐付けられ得る。名称に関する情報とは、名称そのもの、あるいは略称等のラベルであってもよく、各名称に対応するラベル値であってもよい。

　バイオマーカーの挙動を示すデータの群に含まれる各データは、後述する人工知能モデルの第１訓練データ群において行列を構成する要素となる。バイオマーカーがトランスクリプトームである場合、各ＲＮＡの発現量がバイオマーカーの挙動を示すデータの群に含まれるデータに相当し、第１訓練データ群を構成する行列の要素となる。例えば、バイオマーカーがトランスクリプトームである場合、ＤＥＳｅｑ２解析により得られた各既存物質のｌｏｇ_２（ｆｏｌｄ）値を第１訓練データ群の各要素としてもよい。
　第１訓練データ群の例は、上記１．（１）と図３（Ａ）に示したとおりである。

　バイオマーカーの挙動を示すデータの群は、バイオマーカーの測定値をそのまま第１訓練データ群の要素として使用してもよいが、標準化、次元削減等を行ってから第１訓練データ群の要素として使用してもよい。標準化の方法としては、例えば発現差を示すデータを平均値が０、分散が１となるように変換する方法を例示することができる。標準化における平均値は、各器官における平均値、各遺伝子における平均値、又は全データにおける平均値とすることができる。また次元削減は、主成分分析等の統計処理で行うことができる。統計処理を行う場合の母集団は、器官ごと、遺伝子ごと、又は全データとすることができる。例えばバイオマーカーがトランスクリプトームである場合、ＤＥＳｅｑ２解析により得られた各既存物質のｌｏｇ_２（ｆｏｌｄ）値に対するｐ値が所定の値以下である遺伝子のみを第１訓練データ群の要素として用いてもよい。前記所定の値は、例えば１０^－３、又は１０^－４とすることができる。好ましくは、１０^－４である。

　第１訓練データ群に含まれる、投与した所定の既存物質のそれぞれの名称を示すラベルは、物質の名称そのものであってもよいが、符号化してもよい。

　第１訓練データ群は、既存物質の更新、新たなバイオマーカーの挙動を示すデータの追加により、更新されうる。

（２）第２訓練データ群の生成
　前記第２訓練データ群は、上記１．（１）及び図３（Ｂ）に示したように、第１訓練データ群を生成する際に非ヒト動物に投与した、複数の所定の既存物質それぞれの名称を示すラベルと、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとを紐付けて生成される。既存物質の適応症は、上記１．（４）で述べたＦＡＥＲＳ、ＤＡＩＬＹＭＥＤのａｌｌ　ｄｒｕｇ　ｌａｂｅｌｓ　、Ｍｅｄｉｃａｌ　Ｓｕｂｊｅｃｔ　Ｈｅａｄｉｎｇｓ、Ｄｒｕｇｓ＠ＦＤＡ、Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｏｆ　Ｄｉｓｅａｓｅｓ等の外部データベースから、既存物質ごとに、例えば既存物質名を示す単語で検索し、これに対応する適応症名のラベルを取得することができる。適応症は、１つの既存物質に対して、１又は２以上存在し得る。各適応症が、１つの既存物質に対して２以上存在する場合、前記２以上の複数の適応症が第２訓練データ群を構成する。複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルは、データベースに格納されているデータ群に対し、テキスト抽出、自然言語処理、デジタイズ処理、画像解析処理等を行うことにより取得することができる。例えば、外部データベースに格納されている、第１訓練データ群を生成する際に非ヒト動物に投与した各既存物質に対応した各適応症の名称を示すラベルが文章に挿入されて登録されている場合には、自然言語処理により、登録されている文章に対して、構文解析、単語分割、意味解析等を行ってから、作用に対応するテキストを抽出してもよい。

（３）第３訓練データ群の生成
　第３訓練データは、上記１．（１）、及び図３（Ｃ）で述べたように、第１訓練データ群を取得する際に投与した複数の所定の既存物質のそれぞれについて報告されている図３（Ｂ）に示す適応症を示すラベルとこれらの適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群である。複数の所定の既存物質のそれぞれについて報告されている適応症は、ＦＡＥＲＳ、ＤＡＩＬＹＭＥＤのａｌｌ　ｄｒｕｇ　ｌａｂｅｌｓ　、Ｍｅｄｉｃａｌ　Ｓｕｂｊｅｃｔ　Ｈｅａｄｉｎｇｓ、Ｄｒｕｇｓ＠ＦＤＡ、Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｏｆ　Ｄｉｓｅａｓｅｓ等の外部データベースから、既存物質ごとに、例えば既存物質名の単語で検索し、これに対応する適応症名のラベルを取得することができる。これらの適応症のそれぞれに対応して報告されている有害事象を示すラベルは、ＦＡＥＲＳ、又はｃｌｉｎｉｃａｌｔｒｉａｌｓ．ｇｏｖ等の外部データベースから、適応症名を示すラベルで検索し、取得することができる。また、適応症又は有害事象の名称を示すラベルが文章に挿入されて登録されている場合には、自然言語処理により、登録されている文章に対して、構文解析、単語分割、意味解析等を行ってから、作用に対応するテキストを抽出してもよい。
　有害事象の発生頻度は、上記１．（４）で説明した方法により、算出することができる。

（４）第４訓練データ群の生成
　第４訓練データ群は、上記１．（１）及び図３（Ｄ）において説明したように、第１訓練データ群に含まれる薬剤名を示すラベルの部分（図３（Ａ）の薬剤名を示す第１列目）に、第１訓練データを取得するために投与された既存物質の名称を示すラベルに対応する適応症について報告されている有害事象の発生頻度（図３（Ｃ）に示す第２列目以降の有害事象の発生頻度）を代入し生成される。

２－２．人工知能モデルへの訓練データの入力
　人工知能モデルは、本発明に係る課題を解決することができる限り制限されない。本実施形態では、Ｌｉｎｋ　Ｐｒｅｄｉｃｔｉｏｎを行うことができる人工知能モデルを使用することが好ましい。このような人工知能モデルとしてＯｎｅ－Ｃｌａｓｓ　ＳＶＭ（ワンクラス　サポートベクターマシン）等を挙げることができる。

　Ｌｉｎｋ　ＰｒｅｄｉｃｔｉｏｎをＯｎｅ－Ｃｌａｓｓ　ＳＶＭで行う場合を例にして、第４の訓練データの入力例を説明する。Ｏｎｅ－ｃｌａｓｓ　ＳＶＭに入力するためのデータは下式のカーネル関数により、第１訓練データ群と第３訓練データ群を対応付けて第４訓練データ群としてＯｎｅ－ｃｌａｓｓ　ＳＶＭに入力する。
　　　ｋ（ｇ_Ａｄ_１，ｇ_Ｂｄ_２）＝＜ｇ_Ａ，ｇ_Ｂ＞＜ｄ_１，ｄ_２＞
　ここで、＜・，・＞は１２ノルムが１になるように各ベクトルをスケーリングし、スケーリングされた両方のベクトル間の内積を取る演算子を示す。

　Ｏｎｅ－ｃｌａｓｓ　ＳＶＭは、例えば、Ｐｙｔｈｏｎの ‘ｓｃｉｋｉｔ－ｌｅａｒｎ’　パッケージを用い、ｐａｒａｍｅｔｅｒはｎｕ＝０．１とすることができる。

２－３．人工知能モデルの訓練システム
　図４（Ａ）に訓練システム５０のハードウエアの構成を示す。訓練システム５０は、次世代シーケンサー等のバイオマーカーの測定データを取得するための測定部３０と、訓練装置１０を備える。訓練装置１０と測定部３０は、無線又は有線のネットワークで通信可能に接続されていてもよいが、測定部３０で取得されたデータをＣＤ－Ｒ等の記憶媒体を介して取得してもよい。

（１）人工知能モデルの訓練装置
　前記人工知能モデルの訓練は、例えば、訓練装置１０（以下、装置１０ともいう）を使用して行うことができる。

　装置１０及び装置１０の処理に係る説明において、上記１．、上記２－１．に記載された用語と共通する用語については、上記説明をここに援用する。

　装置１０は、少なくとも処理部１０１と記憶部を備える。記憶部は、主記憶部１０２及び／又は補助記憶部１０４から構成される。

　図５に、装置１０のハードウエアの構成を示す。装置１０は、入力部１１１と、出力部１１２と、記憶媒体１１３とに接続されていてもよい。また、次世代シーケンサー、質量分析装置等の測定部３０と接続されていてもよい。また装置１０は、ＦＡＥＲＳ、ＤＡＩＬＹＭＥＤのａｌｌ　ｄｒｕｇ　ｌａｂｅｌｓ　、Ｍｅｄｉｃａｌ　Ｓｕｂｊｅｃｔ　Ｈｅａｄｉｎｇｓ、Ｄｒｕｇｓ＠ＦＤＡ、Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｏｆ　Ｄｉｓｅａｓｅｓ、ｃｌｉｎｉｃａｌｔｒｉａｌｓ．ｇｏｖ等の外部データベース６０と通信可能に接続されていてもよい

　装置１０において、処理部１０１と、主記憶部１０２と、ＲＯＭ（ｒｅａｄ　ｏｎｌｙ　ｍｅｍｏｒｙ）１０３と、補助記憶部１０４と、通信インタフェース（Ｉ／Ｆ）１０５と、入力インタフェース（Ｉ／Ｆ）１０６と、出力インタフェース（Ｉ／Ｆ）１０７と、メディアインターフェース（Ｉ／Ｆ）１０８は、バス１０９によって互いにデータ通信可能に接続されている。

　処理部１０１は、ＣＰＵ、又はＭＰＵ等から構成される。処理部１０１の処理はＧＰＵによって補助されてもよい。処理部１０１が、補助記憶部１０４又はＲＯＭ１０３に記憶されているコンピュータプログラムを実行し、取得されるデータの処理を行うことにより、装置１０が機能する。処理部１０１は、上記１．で述べた既存物質を投与した非ヒト動物から採取された複数の異なる器官におけるバイオマーカーの挙動を示すデータ群と、前記既存物質のヒトにおける既知の作用を訓練データとして取得する。また、前記２つの訓練データを使用して、人工知能モデルを訓練する。

　ＲＯＭ１０３は、マスクＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭなどによって構成され、処理部１０１により実行されるコンピュータプログラム及びこれに用いるデータが記録されている。ＲＯＭ１０３は、装置１０の起動時に、処理部１０１によって実行されるブートプログラム、装置１０のハードウエアの動作に関連するプログラム、及び設定等を記憶する。

　主記憶部１０２は、ＳＲＡＭ又はＤＲＡＭなどのＲＡＭ（Ｒａｎｄｏｍ　ａｃｃｅｓｓ　ｍｅｍｏｒｙ）によって構成される。主記憶部１０２は、ＲＯＭ１０３及び補助記憶部１０４に記録されているコンピュータプログラムの読み出しに用いられる。また、主記憶部１０２は、処理部１０１がこれらのコンピュータプログラムを実行する時の作業領域として利用される。主記憶部１０２は、ネットワークを介して取得された訓練データ等、補助記憶部１０４より読み出された人工知能モデルの関数等を一時的に記憶する。

　補助記憶部１０４は、ハードディスク、フラッシュメモリ等の半導体メモリ素子、光ディスク等によって構成される。補助記憶部１０４には、処理部１０１に実行させるための種々のコンピュータプログラム及びコンピュータプログラムの実行に用いる各種設定データが記憶されている。具体的には、オペレーションソフト（ＯＳ）１０４１と、訓練プログラムＴＰと、人工知能モデルデータベースＡＩ１、第１訓練データ群を格納するデータベースＴＲ１と、第２訓練データ群を格納するデータベースＴＲ２と、第３訓練データ群を格納するデータベースＴＲ３とを不揮発性に記憶する。訓練プログラムＴＰは、オペレーションソフト（ＯＳ）１０４１と協働して、後述する人工知能の訓練処理を行う。

　通信Ｉ／Ｆ１０５は、ＵＳＢ、ＩＥＥＥ１３９４、ＲＳ－２３２Ｃなどのシリアルインタフェース、ＳＣＳＩ、ＩＤＥ、ＩＥＥＥ１２８４などのパラレルインタフェース、及びＤ／Ａ変換器、Ａ／Ｄ変換器などからなるアナログインタフェース、ネットワークインタフェースコントローラ（Ｎｅｔｗｏｒｋ　ｉｎｔｅｒｆａｃｅ　ｃｏｎｔｒｏｌｌｅｒ：ＮＩＣ）等から構成される。通信Ｉ／Ｆ１０５は、通信部１０５として機能し、処理部１０１の制御下で、測定部３０又は他の外部機器からのデータを受信し、必要に応じて装置１０が保存又は生成する情報を、測定部３０又は外部に送信又は表示する。通信Ｉ／Ｆ１０５は、ネットワークを介して測定部３０又は他の外部機器（図示せず、例えば他のコンピュータ、又はクラウドシステム）と通信を行ってもよい。

　入力Ｉ／Ｆ１０６は、例えばＵＳＢ、ＩＥＥＥ１３９４、ＲＳ－２３２Ｃなどのシリアルインタフェース、ＳＣＳＩ、ＩＤＥ、ＩＥＥＥ１２８４などのパラレルインタフェース、及びＤ／Ａ変換器、Ａ／Ｄ変換器などからなるアナログインタフェースなどから構成される。入力Ｉ／Ｆ１０６は、入力部１１１から文字入力、クリック、音声入力等を受け付ける。受け付けた入力内容は、主記憶部１０２又は補助記憶部１０４に記憶される。

　入力部１１１は、タッチパネル、キーボード、マウス、ペンタブレット、マイク等から構成され、装置１０に文字入力又は音声入力を行う。入力部１１１は、装置１０の外部から接続されても、装置１０と一体となっていてもよい。

　出力Ｉ／Ｆ１０７は、例えば入力Ｉ／Ｆ１０６と同様のインタフェースから構成される。出力Ｉ／Ｆ１０７は、処理部１０１が生成した情報を出力部１１２に出力する。出力Ｉ／Ｆ１０７は、処理部１０１が生成し、補助記憶部１０４に記憶した情報を、出力部１１２に出力する。

　出力部１１２は、例えばディスプレイ、プリンター等で構成され、測定部３０から送信される測定結果及び装置１０における各種操作ウインドウ、各訓練データ、人工知能モデル等を表示する。

　メディアＩ／Ｆ１０８は、記憶媒体１１３に記憶された例えばアプリケーションソフト等を読み出す。読み出されたアプリケーションソフト等は、主記憶部１０２又は補助記憶部１０４に記憶される。また、メディアＩ／Ｆ１０８は、処理部１０１が生成した情報を記憶媒体１１３に書き込む。メディアＩ／Ｆ１０８は、処理部１０１が生成し、補助記憶部１０４に記憶した情報を、記憶媒体１１３に書き込む。

　記憶媒体１１３は、フレキシブルディスク、ＣＤ－ＲＯＭ、又はＤＶＤ－ＲＯＭ等で構成される。記憶媒体１１３は、フレキシブルディスクドライブ、ＣＤ－ＲＯＭドライブ、又はＤＶＤ－ＲＯＭドライブ等によってメディアＩ／Ｆ１０８と接続される。記憶媒体１１３には、コンピュータがオペレーションを実行するためのアプリケーションプログラム等が格納されていてもよい。

　処理部１０１は、装置１０の制御に必要なアプリケーションソフトや各種設定をＲＯＭ１０３又は補助記憶部１０４からの読み出しに代えて、ネットワークを介して取得してもよい。前記アプリケーションプログラムがネットワーク上のサーバコンピュータの補助記憶部内に格納されており、このサーバコンピュータに装置１０がアクセスして、コンピュータプログラムをダウンロードし、これをＲＯＭ１０３又は補助記憶部１０４に記憶することも可能である。

　また、ＲＯＭ１０３又は補助記憶部１０４には、例えば米国マイクロソフト社が製造販売するＷｉｎｄｏｗｓ（登録商標）などのグラフィカルユーザインタフェース環境を提供するオペレーションシステムがインストールされている。第２の実施形態に係るアプリケーションプログラムは、前記オペレーティングシステム上で動作するものとする。すなわち、装置１０は、パーソナルコンピュータ等であり得る。

（２）人工知能モデルの訓練処理
　図６を用いて、訓練プログラムＴＰによる人工知能モデルの訓練処理の流れを説明する。
　処理部１０１は、オペレータが入力部１１１から入力した処理開始指令を受け付け、ステップＳ１において補助記憶部１０４に格納された第１訓練データ群データベースＴＲ１と、第２訓練データ群データベースＴＲ２と、第３訓練データ群データベースＴＲ３のそれぞれから第１訓練データ群と、第２訓練データ群と、第３訓練データ群を取得する。

　次に、処理部１０１は、オペレータが入力部１１１から入力した第４訓練データ群の生成開始指令を受け付け、ステップＳ２において第４訓練データ群を生成する。

　次に、処理部１０１は、オペレータが入力部１１１から入力した第４訓練データ群の入力指令を受け付け、ステップＳ３において第４訓練データ群を人工知能モデルＡＩ１に入力し、人工知能モデルを訓練する。

　処理部１０１は、訓練した人工知能モデルを補助記憶部１０４に記憶する。
　各スッテプ間の移行は、オペレータが指令を入力してもよいが、処理部１０１が前のステップが終了したことをトリガーとして自動的に進めてもよい。

　訓練処理において、上記１．、上記２－１．に記載された用語と共通する用語、説明については、上記説明をここに援用する。

３．人工知能モデルによる適応症の予測
３－１．被験データの生成
（１）第１被験データ群の生成
　第１被験データ群は、１又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群であって、前記第１訓練データを取得した１又は複数の異なる器官に対応する期間から取得されうる。各器官におけるバイオマーカーの挙動を示すデータの群は、上記１．（４）に記載の方法により第１訓練データとして使用されるバイオマーカーの挙動を示すデータ群と同様に取得され得る。

（２）第２被験データ群の生成
　第２被験データは、上記１．（２）で説明したように、複数の公知の適応症のラベルと、前記複数の公知の適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群である。複数の公知の適応症のラベルと、これらの適応症のそれぞれに対応して報告されている有害事象を示すラベルは、ＦＡＥＲＳ、又はｃｌｉｎｉｃａｌｔｒｉａｌｓ．ｇｏｖ等の外部データベースから、適応症名を示すラベルで検索し、取得することができる。また、適応症又は有害事象の名称を示すラベルが文章に挿入されて登録されている場合には、自然言語処理により、登録されている文章に対して、構文解析、単語分割、意味解析等を行ってから、作用に対応するテキストを抽出してもよい。
　有害事象の発生頻度は、上記１．（４）で説明した方法により、算出することができる。

３－２．予測システム１
　図４（Ａ）に予測システム５１のハードウエアの構成を示す。予測システム５１は、次世代シーケンサー等のバイオマーカーの測定データを取得するための測定部３０と、予測装置２０を備える。予測装置２０と測定部３０は、無線又は有線のネットワークで接続されていてもよいが、測定部３０で取得されたデータをＣＤ－Ｒ等の記憶媒体を介して取得してもよい。

（１）適応症の予測装置
　前記適応症の予測は、例えば、予測装置２０（以下、単に装置２０と呼ぶことがある）を使用して行うことができる。

　装置２０及び装置２０の処理に係る説明において、上記１．、上記２－１．に記載された用語と共通する用語については、上記説明をここに援用する。

　図７に予測装置２０（以下、装置２０ともいう）のハードウエアの構成を示す。装置２０は、少なくとも処理部２０１と記憶部を備える。記憶部は、主記憶部２０２及び／又は補助記憶部２０４から構成される。装置２０は、入力部２１１と、出力部２１２と、記憶媒体２１３とに接続されていてもよい。また、次世代シーケンサー、質量分析装置等の測定部３０と接続されていてもよい。

　装置２０において、処理部２０１と、主記憶部２０２と、ＲＯＭ（ｒｅａｄ　ｏｎｌｙ　ｍｅｍｏｒｙ）２０３と、補助記憶部２０４と、通信インタフェース（Ｉ／Ｆ）２０５と、入力インタフェース（Ｉ／Ｆ）２０６と、出力インタフェース（Ｉ／Ｆ）２０７と、メディアインターフェース（Ｉ／Ｆ）２０８は、バス２０９によって互いにデータ通信可能に接続されている。

　装置２０の基本的なハードウエアの構成は、装置１０と同様であるので、上記２－３．（１）の説明をここに援用する。通信インタフェース２０５は、通信部２０５として機能する。

　ただし、装置２０の補助記憶部２０４には、オペレーションソフト（ＯＳ）１０４１と、訓練プログラムＴＰと、人工知能モデルＡＩ１、第１訓練データ群を格納するデータベースＴＲ１と、第２訓練データ群を格納するデータベースＴＲ２と、第３訓練データ群を格納するデータベースＴＲ３に代えて、オペレーションソフト（ＯＳ）２０４１と、予測プログラムＰＰと、訓練した人工知能モデルＡＩ２、第１被験データ群を格納するデータベースＴＳ１と、第２被験データ群を格納するデータベースＴＳ２とを不揮発性に記憶する。予測プログラムＰＰは、オペレーションソフト（ＯＳ）２０４１と協働して、後述する適応症の予測処理を行う。

（２）適応症の予測処理
　図８を用いて、予測プログラムＰＰによる適応症の予測処理の流れを説明する。
　処理部２０１は、オペレータが入力部２１１から入力した処理開始指令を受け付け、ステップＳ５１において補助記憶部２０４に格納された第１被験データ群と、第２被験データ群を取得する。

　次に、処理部２０１は、オペレータが入力部２１１から入力した予測開始指令を受け付け、ステップＳ５２において第１被験データ群データベースＴＳ１と、第２被験データ群データベースＴＳ２と、第１被験データ群と第２被験データ群とを訓練した人工知能モデルＡＩ２に入力し被験物質の適応症を予測する。

　この時、訓練された人工知能モデルＡＩ２は第２被験データとして入力した全ての適応症について個別に目的とする被験物質が効くか否かを一つずつ判断する。具体的には、訓練された人工知能モデルＡＩ２は、ＬＰ　ｐｒｏｂｌｅｍにおいて、目的薬剤と個々の適応症にリンクが有るか無いかを判断する。

　次に、処理部２０１は、結果を記憶部に記憶する。処理部２０１が、訓練された人工知能モデルＡＩ２によって導き出す結果は、被験物質がある適応症に効くのであればラベル“１”を返し、被験物質ある適応症に効かないのであればラベル“－１”となる。
　つまり、“１”が付されている適応症が、被験物質の予測された適応症となる。

　さらに、人工知能モデルがＯｎｅ－Ｃｌａｓｓ　ＳＶＭである場合、予測の信頼性を示すｄｅｃｉｓｉｏｎ　ｆｕｎｃｔｉｏｎ　ｖａｌｕｅｓが算出される。予測結果として出力された適応症が多い場合には、この値が高い順に適応症の可能性が高いと予測することができる。また、予測結果として出力された適応症が多い場合には、目的としている被験物質と作用機序が似ている別の薬剤を被験物質と投与し、採取した１又は複数の器官におけるトランスクリプトームの挙動を示すデータを使用して、同様に予測を行い、目的とする被験物質の予測結果と、作用機序が似ている他の被験物質の予測結果を比較し、両方に共通する適応症を、予測結果としてもよい。

３－３．予測システム２
　図４（Ｂ）に予測システム４００の構成を示す。
　予測システム４００は、測定部３０と、訓練装置１０と、予測装置２０と、バイオマーカーの挙動を示すデータ群を送信するサーバ装置４０とは、通信可能に接続されている。訓練装置１０と予測装置２０は、測定部３０が取得したデータを、サーバ装置４０を介して取得する。

（１）サーバ装置
　サーバ装置４０（以下、単に装置４０と呼ぶことがある）について、上記１．、上記２－１．に記載された用語と共通する用語については、上記説明をここに援用する。

　図９にサーバ装置４０（以下、装置４０ともいう）のハードウエアの構成を示す。装置４０は、少なくとも処理部４０１と記憶部を備える。記憶部は、主記憶部４０２及び／又は補助記憶部４０４から構成される。装置４０は、入力部４１１と、出力部４１２と、記憶媒体４１３とに接続されていてもよい。また、次世代シーケンサー、質量分析装置等の測定部３０と、無線又は有線のネットワークで通信可能に接続され得る。

　装置４０において、処理部４０１と、主記憶部４０２と、ＲＯＭ（ｒｅａｄ　ｏｎｌｙ　ｍｅｍｏｒｙ）４０３と、補助記憶部４０４と、通信インタフェース（Ｉ／Ｆ）４０５と、入力インタフェース（Ｉ／Ｆ）４０６と、出力インタフェース（Ｉ／Ｆ）４０７と、メディアインターフェース（Ｉ／Ｆ）４０８は、バス４０９によって互いにデータ通信可能に接続されている。

　装置４０の基本的なハードウエアの構成は、装置１０と同様であるので、上記２－３．（１）の説明をここに援用する。通信インタフェース４０５は、通信部４０５として機能する。

　ただし、装置４０の補助記憶部４０４には、オペレーションソフト（ＯＳ）１０４１と、訓練プログラムＴＰと、人工知能モデルＡＩ１、第１訓練データ群を格納するデータベースＴＲ１と、第２訓練データ群を格納するデータベースＴＲ２と、第３訓練データ群を格納するデータベースＴＲ３に代えて、オペレーションソフト（ＯＳ）４０４１と、第１被験データ群を格納するデータベースＴＳ１を不揮発性に記憶する。

（２）予測システム２の動作
　図１０を用いて予測システムの動作を説明する。
　ここでは測定部３０によるバイオマーカーの測定値の取得から、予測結果の出力まで一連の流れを説明する。

　測定部３０は、ステップＳ８１において、既存物質を投与した非ヒト動物の各器官のバイオマーカーの測定値を取得する。測定部３０における測定値の取得は、オペレータによる測定開始指示の入力により行われ得る。ステップＳ８２において、測定部３０は、取得した測定値をサーバ装置４０に送信する。送信処理は、オペレータによる送信開始指示の入力により行われ得る。

　サーバ装置４０の処理部４０１は、ステップＳ８３において、通信Ｉ／Ｆ４０５を介して、測定値を取得する。このとき通信Ｉ／Ｆ４０５は通信部として機能する。

　ステップＳ８４において、訓練装置１０の入力部１１１からオペレータにより入力された測定値の取得開始の指示により、訓練装置１０の処理部１０１は通信Ｉ／Ｆ１０５から、測定値送信開始の信号をサーバ装置４０に送信する。サーバ装置４０の処理部４０１は、通信Ｉ／Ｆ４０５を介して、測定値送信開始の入力を受け付け、通信Ｉ／Ｆ４０５から測定値の送信を開始する。このとき通信Ｉ／Ｆ１０５及び通信Ｉ／Ｆ４０５は、それぞれ通信部１０５及び通信部４０５として機能する。

　訓練装置１０の処理部１０１は、ステップＳ８５において、外部データベース６０から非ヒト動物に投与した既存物質の適応症、及び前記適応症に対応する有害事象に関する情報を、通信Ｉ／Ｆ１０５を介して取得する。

　また、訓練装置１０の処理部１０１は、ステップＳ８４において、サーバ装置４０から送信された測定値を通信Ｉ／Ｆ１０５を介して取得し（ステップＳ８６）、訓練装置１０の記憶部に記憶する。ステップＳ８６は、ステップＳ８５の前に行ってもよい。

　次に、訓練装置１０の処理部１０１は、図１４のステップＳ８７において、図６のステップＳ１に示した処理にしたがって、第１訓練データ群、第２訓練データ群、及び第３訓練データ群を生成する。図６のステップＳ１の説明は、ここに援用する。

　次に、訓練装置１０の処理部１０１は、図１４のステップＳ８８において、図６のステップＳ２に示した処理にしたがって、第１訓練データ群、第２訓練データ群、及び第３訓練データ群から第４訓練データ群を生成する。図６のステップＳ２の説明は、ここに援用する。

　次に、訓練装置１０の処理部１０１は、図１４のステップＳ８９において、図６のステップＳ３～Ｓ４に示した処理にしたがって、第４訓練データ群を人工知能モデルに入力し、人工知能モデルを訓練し、訓練した人工知能モデルを記憶部に記憶する。また、図６のステップＳ３～Ｓ４の説明は、ここに援用する。

　訓練装置１０の処理部１０１は、予測装置２０からの人工知能モデル送信開始の指示を受け付けた後、図１４のステップＳ９０において記憶した訓練した人工知能モデルを通信Ｉ／Ｆ１０５を介して予測装置２０に送信する。このとき通信Ｉ／Ｆ１０５は通信部１０５として機能する。

　次に、測定部３０は、ステップＳ９１において、被験物質を投与した非ヒト動物の各器官のバイオマーカーの測定値を取得する。測定部３０における測定値の取得は、オペレータによる測定開始指示の入力により行われ得る。ステップＳ９２において、測定部３０は、取得した測定値をサーバ装置４０に送信する。送信処理は、オペレータによる送信開始指示の入力により行われ得る。

　サーバ装置４０の処理部４０１は、ステップＳ９３において、通信Ｉ／Ｆ４０５を介して、測定値を取得する。このとき通信Ｉ／Ｆ４０５は通信部４０５として機能する。

　ステップＳ９４において、予測装置２０の入力部２１１からオペレータにより入力された測定値の取得開始の指示により、予測装置２０の処理部２０１は通信Ｉ／Ｆ２０５から、測定値送信開始の信号をサーバ装置４０に送信する。サーバ装置４０の処理部４０１は、通信Ｉ／Ｆ４０５を介して、測定値送信開始の入力を受け付け、通信Ｉ／Ｆ４０５から測定値の送信を開始する。このとき通信Ｉ／Ｆ２０５及び通信Ｉ／Ｆ４０５は通信部として機能する。予測装置２０の処理部２０１は、通信Ｉ／Ｆ２０５を介して測定値を取得し、予測装置２０の記憶部に記憶する。続いて、予測装置２０の処理部２０１は、第１被験データ群を生成する。第１被験データ群の生成は、上記２－４．（１）にしたがう。

　次に、ステップＳ９５において、予測装置２０の処理部２０１は、通信Ｉ／Ｆ２０５を介して訓練装置１０に人工知能モデル送信開始指示を送信する。訓練装置１０の処理部１０１は、予測装置２０からの人工知能モデル送信開始指示を受け付けると、訓練装置１０の通信Ｉ／Ｆ１０５を介して、予測装置２０に訓練した人工知能モデルを送信する。予測装置２０は、通信Ｉ／Ｆ２０５を介して訓練された人工知能モデルを取得する。ステップＳ９５はステップＳ９４の前に行ってもよい。

　次に、ステップＳ９６において、予測装置２０の処理部２０１は、ステップＳ９４で生成した第１被験データと、記憶部に記憶している第２被験データとをステップＳ９５で取得した訓練された人工知能モデルＡＩ２に入力し、図１２のステップＳ５２にしたがって、被験物質のヒトのおける作用を予測する。予測装置２０の処理部２０１は、ステップＳ９７において、結果を出力する。或いは、図１４のステップＳ９４から９７において、予測装置２０の処理部２０１は、図１３に記載のステップＳ６２からＳ６７までを行い、既存物質の新たな適用症に関する予測結果を予測してもよい。

（３）予測システムの構築方法
　予測システムの構築方法は、訓練装置１０と予測装置２０を準備する工程を含む。前記構築方法は、さらに既存物質を投与した非ヒト動物の１又は複数の器官におけるバイオマーカーの測定値、あるいは、被験物質を投与した非ヒト動物の１又は複数の器官におけるバイオマーカーの測定値を準備する工程を含んでいてもよい。

４．コンピュータプログラム
４－１．訓練プログラム
　訓練プログラムＴＰは、上記人工知能モデルの訓練で述べた図６のステップＳ１～Ｓ４を含む処理をコンピュータで実行させることにより、コンピュータを訓練装置１０として機能させるコンピュータプログラムである。

４－２．予測プログラム
　予測プログラムＰＰは、上記被験物質の作用の予測で述べたステップＳ５１～Ｓ５３を含む処理をコンピュータで実行させることにより、コンピュータを予測装置２０として機能させるコンピュータプログラムである。

５．コンピュータプログラムを記憶した記憶媒体
　上記コンピュータプログラムを記憶した記憶媒体に関する。前記コンピュータプログラムは、ハードディスク、フラッシュメモリ等の半導体メモリ素子、光ディスク等の記憶媒体に記憶される。また前記コンピュータプログラムは、クラウドサーバ等のネットワークで接続可能な記憶媒体に記憶されていてもよい。コンピュータプログラムは、ダウンロード形式の、又は記憶媒体に記憶されたプログラム製品であってもよい。

　前記憶媒体へのプログラムの記憶形式は、前記提示装置が前記プログラムを読み取り可能である限り制限されない。前記記憶媒体への記憶は、不揮発性であることが好ましい。
６．変形例
　上記２．では訓練装置１０と予測装置２０が別のコンピュータである実施形態を示した。しかし、１台のコンピュータが、人工知能モデルの訓練と予測を行ってもよい。
　本明細書において、ハードウエアに付された同一符号は、同じ部分又は同じ機能をしめす。

　以下に実施例を示して、本発明をより具体的に説明する。しかし、本発明は下記実施形態に限定して解釈されるものではない。

　以下の動物実験は、Karydo TherapeutiX、Inc.の倫理委員会において承認を受けて行った。

実験例Ｉ．薬剤投与マウスにおける遺伝子発現解析
Ｉ－１．薬剤投与マウスの作製、および遺伝子発現解析
１．薬剤の投与
（１）アレンドロネート
　11週齢の雄のC57BL / 6Nマウスに、アレンドロン酸ナトリウム塩三水和物（和光）をPBS（ナカライテスク）に溶解し、1.0 mg / kgの用量で3日又は4日ごとに8日間皮下注射した。薬剤は投与ごとに新たに調製した。薬剤投与後8日目の午後に各器官を採取した。

（２）アセトアミノフェン
　10週齢の雄のC57BL/6Nマウスを12時間絶食させ、その間水を自由に摂取させた。絶食期間の直後に、生理食塩水（大塚製薬）に溶解したアセトアミノフェン（和光）を300 mg / kgの用量で単回でマウスの腹腔内に投与した。投与後、マウスには通常の飼料を自由に摂取させた。投与は正午までに行い、投与2時間後に器官を採取した。

（３）アリピプラゾール
　11週齢の雄C57BL / 6Nマウスに、アリピプラゾール（Sigma-Aldrich）を0.5％（w / v）カルボキシメチルセルロース400溶液（Wako）に溶解し0.3 mg / kgの用量で単回で腹腔内に投与した。午後に薬剤を投与し2時間後に器官を採取した。

（４）アセナピン
　11週齢のオスのC57BL/6Nマウスに、0.3 mg / kgの用量で生理食塩水に溶解したアセナピンマレイン酸塩（Chemscene）を単回で皮下に投与した。午後に薬剤を投与し2時間後に器官を採取した。

（５）シスプラチン
　11週齢のオスのC57BL / 6Nマウスに、20 mg/kgの用量でシスプラチン（Bristol-Myers Squibb）を単回で腹腔内に投与した。薬剤投与後3日目の午後に器官を採取した。

（６）クロザピン
　11週齢のオスのC57BL / 6Nマウスに、クロザピン（Sigma-Aldrich）を0.3 mg / kgの用量で単回で皮下投与した。クロザピンを最初に酢酸に溶解してから生理食塩水で希釈し、1M NaOHでpH 6に調整した。薬剤投与の2時間後の午後に器官を採取した。

（７）ドキシサイクリン
　9週齢の雄のC57BL / 6Nマウスに、5％スクロース（ナカライテスク）と2 mg / mLのドキシサイクリン塩酸塩n－水和物（和光）を含む2週間RO水を摂取させた。薬剤を含むRO水は1週間ごとに新しいものに交換した。薬剤投与後13日目の午後に器官を採取した。陰性コントロール群には、5％スクロース（ナカライテスク）を添加したRO水を摂取させた。

（８）エンパグリフロジン
　10週齢のオスのC57BL / 6Nマウスに、エンパグリフロジン（トロントの研究用化学物質）を0.5％カルボキシメチルセルロースに溶解し、2週間毎日10 mg / kgの用量となるように強制的に経口投与した。薬剤は、毎回投与ごとに新しく調製した。薬剤の薬剤投与開始から2週間目の午後に器官を採取した。

（９）レナリドマイド
　8週齢のオスのC57BL / 6Nマウスに、0.5％カルボキシメチルセルロースと0.25％Tween-80（ナカライテスク）を含む溶液にレナリドマイド（和光）を溶解し、69日間毎日50mg / kgを強制的に経口投与した。薬剤は、毎回投与ごとに新しく調製した。薬剤の投与開始から69日目の午後に器官を採取した。また、陰性コントロール群には、0.5％カルボキシメチルセルロースおよび0.25％Tween-80を含む溶液を投与した。

（１０）ルラシドン
　11週齢の雄のC57BL / 6Nマウスに、0.5％カルボキシメチルセルロース溶液に溶解した塩酸ルラシドン（Medchemexpress）を0.3 mg / kgとなるように単回で強制的に経口投与した。薬剤投与後2時間後の午後に器官を採取した。

（１１）オランザピン
　0．5％カルボキシメチルセルロース溶液に溶解したオランザピン（東京化成工業）を0.3 mg/kgとなるように単回で強制的に経口投与した。薬剤投与後2時間後の午後に器官を採取した。

（１２）エボロクマブ（Repatha（商標））
　11週齢のオスのC57BL / 6Nマウスに、4週間、10日ごとに生理食塩水溶解したRepatha（商標）（アステラス製薬株会社）を10 mg / kgの用量で皮下投与した。薬剤投与の4週間後の午後に器官を採取した。

（１３）リセドロネート
　11週齢の雄のC57BL / 6Nマウスに、PBSに溶解したリセドロン酸ナトリウム塩（Cayman Chemical Company）を10 mg / kgの用量で1日おきに8日間強制的に経口投与した。薬剤は、毎回投与ごとに新しく調製した。投与開始後8日目の午後に器官を採取した。

（１４）ソフォスビル
　7週齢のオスのC57BL / 6Nマウスに、ソフォスビル（LKT）を20 mg / kgの用量で毎日10日間腹腔内投与した。ソフォスビルは、最初にDMSO（ナカライテスク）で希釈し、その後、投与前にPBSで100倍に希釈した（最終濃度は1.0％DMSO / PBSです）。投与開始後10日目の午後に器官を採取した。

（１５）テリパラチド
　10週齢の雄のC57BL / 6Nマウスに、生理食塩水に溶解したヒト副甲状腺ホルモンフラグメント1-34（テリパラチド）（Sigma-Aldrich）を40 μg/kg用量で毎日皮下投与した。薬剤の投与の開始後4週間目の午後に器官を採取した。陰性コントロールには、生理食塩水を投与した。

（１６）野生型（WT）マウス
　薬剤を投与していない11週齢の雄C57BL / 6Nマウスから、器官を午後に採取した。

２．マウスおよび24器官トランスクリプトーム解析
（１）器官
　マウスを使った実験、器官の抽出、及びトランスクリプトーム解析は、特許文献１に記載された方法にしたがって行った。24の器官は、副腎、大動脈、骨髄細胞（BM）、脳、結腸、目、心臓、回腸、空腸、左腎臓、肝臓、肺、膵臓、耳下腺、下垂体、骨格筋、皮膚、頭蓋、脾臓、胃、左精巣、胸腺、甲状腺、および性腺の白色脂肪組織（WAT）である。

　すべてのマウスは、約25℃の温度制御された部屋に12時間の明暗サイクルで飼育し、水と通常の飼料（CE-2、CLEA Japan、Inc.、東京、日本）を自由に摂取させた。

（２）トランスクリプトーム解析
　トランスクリプトーム解析は、 QuantSeq 3’mRNA-Seq Library Prep Kit for Illumina (FWD) (cat#015.384, LEXOGEN)とIllumina NextSeq 500 (75bp single-read, ca. 400 million reads/run, NextSeq 500/550 High Output Kit v2.5, cat#20024906)を使用して行った。

　各薬剤を投与したマウスから採取した各器官における差次的遺伝子発現データを、機械学習フレームワークの各薬剤の特徴として使用した。RNA-seqデータ処理（転写産物のマッピングとカウント）は、特許文献１に記載の方法に従って行った。

　マウスゲノムのマッピングは、TopHat2を使用してmm10に対して行った。薬剤投与群と、陰性コントロール群（ドキシサイクリンおよびレナリドマイド投与群）またはWTマウス群（ドキシサイクリンおよびレナリドマイド以外の薬剤投与群に対するコントロール）の各器官における差次的な遺伝子発現を、DESeq2（1.22.1）によって同定した。それぞれの薬剤投与群、陰性コントロール群、WTマウス群は、それぞれn=2で解析した。

３．実施例
　One-class SVMを用いたLink Prediction（LP）を使用した人工知能モデルを構築し、薬剤の適応症の予測を行った。

３－１．訓練
（１）第１訓練データ
　各薬剤の特徴として、各器官において発現の変化が、p<0.0001を示した遺伝子を選択した。器官と、すべての器官（24器官のフレームワーク）または個々の器官（個々の器官のフレームワーク）から選択したすべての遺伝子のlog₂fold値と器官名との組み合わせと、その遺伝子発現データを取得する際に投与した薬剤の名称のラベルをセットにして第１訓練データとして使用した。

（２）第２訓練データ
　上記１．でマウスに投与した薬剤名のラベルと、その各薬剤の適応症名のラベルをセットにして第２訓練データとして使用した。薬剤名に対応する適応症名は、The FDA Adverse Event Reporting System (FAERS: https://open.fda.gov/data/faers/)にしたがった。

（３）第３訓練データ
　FAERS(https://www.fda.gov/Drugs/GuidanceComplianceRegulatoryInformation/Surveillance/AdverseDrugEffects/ucm082193.htm) から2014Q2~2018Q1までのadverse event報告データをダウンロードした。上記１．でマウスに投与した各薬剤の適応症名に対応する有害事象を名示す単語を報告データから抽出した。抽出された１単語を、１つの報告された有害事象とし、（１つの薬剤の適応症名について１つの有害事象が報告された件数）／（１つの薬剤の適応症名について報告された有害事象の全ての件数）の式を用いて各有害事象の発生頻度（％）をそれぞれ計算した。

（４）第４訓練データ
　薬剤名を例えばA、Bとしたとき、g_A, g_Bは、各薬剤A、Bを投与した時の24器官のトランスクリプトームのパターンを示す（第1訓練データ群）。また、薬剤Aの適応症を“1”、薬剤Bの適応症を“2”で表し、適応症1ついて報告されている有害事象（AE）の要素をi、ii・・・Nで表すと、適応症１のベクトルはd₁= (d_1i, d_1ii, … , d_1N), d₂= (d_2i, d_2ii, … , d_2N)となる（第３訓練データ群）。また、第２訓練データ群は、薬剤Aの名称を示すラベルと適応症1の名称を示すラベル、及び薬剤Bの名称を示すラベルと適応症2の名称を示すラベルをセットにしたものであるので、それぞれg_Ad₁, g_Bd₂で表すことができる（第２訓練データ群）。ここで、適応症は、FAERSにおいて適応症1の患者が服用した薬剤Aのレコードが10個を超える場合を陽性（適応有り）とした。

（５）One-class SVM
　One-class SVMに入力するためのデータは下式のカーネル関数により、第１訓練データ群と第３訓練データ群を対応付けて第４訓練データ群としてOne-class SVMに入力した。
　　k(g_Ad₁, g_Bd₂)= <g_A, g_B><d₁, d₂>
　ここで、<・,・> は12ノルムが1になるように各ベクトルをスケーリングし、スケーリングされた両方のベクトル間の内積を取る演算子を示す。

　One-class SVMは、Pythonのp ‘scikit-learn’ パッケージを用い、parameterはnu=0.1とした。

３－２．予測
　訓練されたOne-class SVMに目的とする薬剤を投与した時の24器官のトランスクリプトームのパターン（第１被験データ）と、FAERSに登録されている［全ての適応症の名称を示すラベル］と［その適応症に対応する有害事象名と発生頻度の組み合わせ（gd）］を入力し、全ての適応症について個別に目的とする薬剤が効くか否かを訓練されたOne-class SVMに判断させた。具体的には、LP problemにおいて、目的薬剤と個々の適応症にリンクが有るか無いかを訓練されたOne-class SVMに判断させた。SVMは、目的薬剤がある適応症に効くのであればラベル“1”を返し、目的薬剤がある適応症に効かないのであればラベル“-1” を返す。

３－３．実施例１
　実施例１では、上記１．で投与した薬剤の１つの適応症が未知であると仮定して、予測を行った。言い換えると、はじめに、上記１．で投与した薬剤のうち１つを除いた１４種の薬剤に関するデータを訓練データとしてOne-class SVMを訓練した。その後除かれた薬剤を目的薬剤として、目的薬剤を投与した際のトランスクリプトームのパターンとを第１被験データとして、訓練されたOne-class SVMに第２被験データと共に入力し、適応症を予測した。その結果を図１１に示す。図１１において、TNは真陰性、TPは真陽性、FNは偽陰性、FPは真陽性を示す。真陰性は、「適応症でない」ものを「適応症でない」と予測できた項目数を示し、真陽性は、「適応症である」ものを「適応症である」と予測できた項目数を示す。偽陰性は、「適応症である」ものを「適応症でない」と予測した項目数を示し、偽陽性は、「適応症ない」ものを「適応症である」と予測した項目数を示す。 accuracy scoresは予測の正確性を示すスコアである。recall scoresは「適応症である」と予測された場合の網羅率を示す。precision scoreは「適応症である」と予測された場合の信頼度を示す。

　accuracy scoresは15薬剤とも高かった(>0.78)。この結果は、78%以上の予測された適応症又は非適応症が実際に報告されているか報告されていないことを示している。また、recall scoresは、アレンドロネート、アリピプラゾール、アセナピン、クロザピン、エンパグリフロジン、ルラシドン、オランザピン、エボロクマブ、リセドロネート、ソホスブビルおよびテリパラチドにおいて高い値を示した（>0.8）。recall scoresは、これらの薬剤について既に報告されている適応症の80％以上を予測できていることを示している。ドキシサイクリンのrecall scoreは0.527であり、報告された適応症の約50％がこの薬剤で予測されていることを示している。アセトアミノフェン（APAP）のみが高いprecision score（1.000）を示し、他のすべては低いprecision scores（<0.35）を示した。シスプラチンとレナリドマイドの両方が0 TPと0 FNを示すため、precision scoreとFメジャースコアを計算できなかった。多くの薬剤においてこのような低いprecision scoreを示す理由は、主にTPと比較して多くのFPが存在するためであると考えられた。

　これらの結果から、本発明の予測方法は、適応症がわからない新たな物質の適応症を予測する上で有用な方法であると考えられた。

３－４．実施例２
　本発明が、公知物質の新たな適応症を探索する、いわゆるドラッグリポジショニングに有用であるかいなかを評価した。上記１．で述べた15薬剤全てのデータを使って人工知能を訓練し、個々の薬剤の適応症を予測した。その結果を図１２に示す。図内の記号は図１１と同様である。

　結果として、すべての薬剤のTPの数が増加し、FNの数が減少した。またrecall scoreも改善した。さらに、全ての薬剤についてaccuracy scoresとrecall scores が改善し、0.770－1.000を示した。この結果は、報告されている適応症と報告されていない適応症の両方を77%以上の確率で捉えることができることを示している。全ての薬剤について、precision scores はFNの数が多いため低くなった。図１２において、FPは、これまで報告されていない新たな適応症の可能性を示す。FPの数が比較的多いため、候補を絞る必要がある場合には、FPにおけるそれぞれの適応症のdecision function valuesを算出し、各薬剤のそれぞれの適応症をランク付けすることにより、より候補を絞ることが可能である。図１３にアレンドロネートのdecision function valuesの例を示す。また、類似の作用機序を持っていることが既に知られている薬剤同士（例えば、アレンドロネートとリセドロネートや、アリピプラゾールとクロザピン）で共通のFPに予測された適応症もリポジショニングされた適応症として高い可能性を持っていると考えられる。

　これらの結果から、本発明の予測方法は、ドラッグリポジショニングにも有用であると考えられた。

１０　訓練装置
２０　予測装置
４０　サーバ装置
１０１　処理部
２０１　処理部
４０１　処理部
４００　予測システム
１０５　通信部
４０５　通信部

Claims

　人工知能モデルの訓練方法であって、
　前記訓練方法は、第１訓練データ群と、第２訓練データ群と、第３訓練データ群とを関連付けて人工知能モデルに入力して人工知能モデルを訓練することを含み、
　　前記第１訓練データ群は、ヒトにおける適応症が既知である複数の所定の既存物質を個別に投与した各非ヒト動物から採取された１又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群と、前記投与した所定の既存物質のそれぞれの名称を示すラベルとが紐付けられたデータの群であり、
　　前記第２訓練データ群は、前記複数の所定の既存物質のそれぞれの名称を示すラベルと、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとが紐付けられたデータの群であり、
　　前記第３訓練データ群は、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとこれらの適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群であり、
　前記人工知能モデルは、被験物質のヒトにおける適応症を予測するためのものである、
　前記訓練方法。
　前記訓練において、前記第１訓練データ群と前記第３訓練データ群とを前記第２訓練データ群により紐付けて第４訓練データ群を生成し、前記第４訓練データ群を人工知能に入力する、
請求項１に記載の訓練方法。
　前記有害事象に関する情報は、前記有害事象を示すラベルと、前記適応症における前記有害事象の有無、又は発生頻度を含む、
請求項１又は２に記載の訓練方法。
　前記バイオマーカーがトランスクリプトームである、請求項１から３のいずれか一項に記載の訓練方法。
　前記人工知能モデルが、Ｏｎｅ－Ｃｌａｓｓ　ＳＶＭである、請求項１から４のいずれか一項に記載の訓練方法。
　人工知能モデルの訓練装置であって、
　前記訓練装置は、処理部を備え、
　　前記処理部は、
　　第１訓練データ群と、第２訓練データ群と、第３訓練データ群とを関連付けて人工知能モデルに入力して人工知能モデルを訓練し、
　　　前記第１訓練データ群は、ヒトにおける適応症が既知である複数の所定の既存物質を個別に投与した各非ヒト動物から採取された１又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群と、前記投与した所定の既存物質のそれぞれの名称を示すラベルとが紐付けられたデータの群であり、
　　　前記第２訓練データ群は、前記複数の所定の既存物質のそれぞれの名称を示すラベルと、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとが紐付けられたデータの群であり、
　　　前記第３訓練データ群は、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとこれらの適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群であり、
前記人工知能モデルは、被験物質のヒトにおける適応症を予測するためのものである、
前記訓練装置。
　コンピュータに実行させたときに、第１訓練データ群と、第２訓練データ群と、第３訓練データ群とを関連付けて人工知能モデルに入力して人工知能モデルを訓練するステップをコンピュータに実行させる、人工知能モデルの訓練プログラムであって、
　　前記第１訓練データ群は、ヒトにおける適応症が既知である複数の所定の既存物質を個別に投与した各非ヒト動物から採取された１又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群と、前記投与した所定の既存物質のそれぞれの名称を示すラベルとが紐付けられたデータの群であり、
　　前記第２訓練データ群は、前記複数の所定の既存物質のそれぞれの名称を示すラベルと、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとが紐付けられたデータの群であり、
　　前記第３訓練データ群は、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとこれらの適応症のそれぞれに対応して報告されている有害事象に関する情報が紐付けられたデータの群であり、
　前記人工知能モデルは、被験物質のヒトにおける適応症を予測するためのものである、
前記訓練プログラム。
　被験物質のヒトにおける適応症を予測する方法であって、
　　第１被験データ群を取得する工程であって、前記第１被験データ群は、被験物質を投与した非ヒト動物から採取された１又は複数の器官におけるバイオマーカーの挙動を示すデータの群である工程と、
　　前記第１被験データ群と、第２被験データ群とを請求項１～５のいずれか一項に記載の方法で訓練された人工知能モデルに入力し、前記訓練された人工知能モデルにより、入力した前記第１被験データ群と第２被験データ群に基づいて前記被験物質のヒトにおける適応症を予測する工程であって、前記第２被験データ群は、複数の公知の適応症のラベルと、前記複数の公知の適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群である工程と、
を含む、前記予測方法。
　前記被験物質は、既存物質又は既存物質の等価物質を含まない、請求項７に記載の予測方法。
　前記被験物質は、既存物質又は既存物質の等価物質から選択される１種である、請求項７に記載の予測方法。
　被験物質のヒトにおける適応症を予測する予測装置であって、
　前記予測装置は、処理部を備え、前記処理部は、
　　第１被験データ群と、第２被験データ群とを請求項１～５のいずれか一項に記載の方法で訓練された人工知能モデルに入力し、前記訓練された人工知能モデルにより、入力した前記第１被験データ群と第２被験データ群に基づいて前記被験物質のヒトにおける適応症を予測し、
　　　前記第１被験データ群は、被験物質を投与した非ヒト動物から採取された１又は複数の器官におけるバイオマーカーの挙動を示すデータの群であって、第１訓練データ群の生成時に採取された器官に対応する１又は複数の器官におけるバイオマーカーの挙動を示すデータの群であり、
　　　前記第２被験データ群は、複数の公知の適応症のラベルと、前記複数の公知の適応症のそれぞれに対応して報告されている第３訓練データ群の生成時に取得された有害事象に関する情報とが紐付けられたデータの群である、
前記予測装置。
　コンピュータに実行させた時に、
　　第１被験データ群と、第２被験データ群とを請求項１～５のいずれか一項に記載の方法で訓練された人工知能モデルに入力し、前記訓練された人工知能モデルにより、入力した前記第１被験データ群と第２被験データ群に基づいて前記被験物質のヒトにおける適応症を予測するステップであって、
　　　前記第１被験データ群は、被験物質を投与した非ヒト動物から採取された１又は複数の器官におけるバイオマーカーの挙動を示すデータの群であって、第１訓練データ群の生成時に採取された器官に対応する１又は複数の器官におけるバイオマーカーの挙動を示すデータの群であり、
　　　前記第２被験データ群は、複数の公知の適応症のラベルと、前記複数の公知の適応症のそれぞれに対応して報告されている第３訓練データ群の生成時に取得された有害事象に関する情報とが紐付けられたデータの群であるステップを、
コンピュータに実行させる、被験物質のヒトにおける適応症を予測するためのコンピュータプログラム。
　被験物質のヒトにおける適応症を予測するための予測システムであって、
　前記システムは、
　　第１被験データ群を送信するサーバ装置であって、前記第１被験データ群が被験物質を投与した非ヒト動物から採取された１又は複数の器官におけるバイオマーカーの挙動を示すデータの群である、サーバ装置と、
　　前記サーバ装置とネットワークを介して接続された、ヒトにおける前記被験物質の作用を予測するための予測装置と、
を備え、
　　　前記サーバ装置は、前記第１被験データ群を送信するための通信部を備え、
　　　前記予測装置は、処理部と、通信部を備え、
　　　　前記処理部は、
　　　　前記サーバ装置の通信部を介して送信された第１被験データ群を、前記予測装置の通信部を介して取得し、
　　　　取得した第１被験データ群と、第２被験データ群とを請求項１～５のいずれか一項に記載の方法で訓練された人工知能モデルに入力し、前記訓練された人工知能モデルにより、入力した前記第１被験データ群と第２被験データ群に基づいて前記被験物質のヒトにおける適応症を予測し、
　　　　　前記第１被験データ群は、被験物質を投与した非ヒト動物から採取された１又は複数の器官におけるバイオマーカーの挙動を示すデータの群であって、第１訓練データ群の生成時に採取された器官に対応する１又は複数の器官におけるバイオマーカーの挙動を示すデータの群であり、
　　　　　前記第２被験データ群は、複数の公知の適応症のラベルと、前記複数の公知の適応症のそれぞれに対応して報告されている第３訓練データ群の生成時に取得された有害事象に関する情報とが紐付けられたデータの群である、
前記システム。
　１又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群と、前記バイオマーカーの挙動を示すデータの群を取得する際に投与した既存物質の名称を示すラベルとが紐付けられたデータの群である、第１訓練データ群であって、
　　前記１又は複数の異なる器官は、ヒトにおける適応症が既知である複数の所定の既存物質を個別に投与した各非ヒト動物から採取される、前記第１訓練データ群と、
　前記複数の所定の既存物質のそれぞれの名称を示すラベルと、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとが紐付けられたデータの群である、第２訓練データ群と、
　前記適応症を示すラベルと前記適応症のそれぞれに対応して報告されている有害事象に関する情報が紐付けられたデータの群である、前記第３訓練データ群と、
を、被験物質のヒトにおける適応症を予測するための人工知能モデルの訓練のために使用する方法。
　第１被験データ群と、第２被験データ群とを、被験物質のヒトにおける適応症を予測するための被験データとして使用する方法であって、
　前記第１被験データ群は、被験物質を投与した非ヒト動物から採取された１又は複数の器官におけるバイオマーカーの挙動を示すデータの群であって、第１訓練データ群の生成時に採取された器官に対応する１又は複数の器官におけるバイオマーカーの挙動を示すデータの群であり、
　前記第２被験データ群は、複数の公知の適応症のラベルと、前記複数の公知の適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群である、
方法。