WO2023033027A1

WO2023033027A1 - 化合物の安全性予測装置、化合物の安全性予測プログラム及び化合物の安全性予測方法

Info

Publication number: WO2023033027A1
Application number: PCT/JP2022/032725
Authority: WO
Inventors: 拓也南; 直樹橋爪
Original assignee: 株式会社レゾナック
Priority date: 2021-09-06
Filing date: 2022-08-31
Publication date: 2023-03-09
Also published as: EP4401082A1; JP7485229B2; JPWO2023033027A1; CN117882139A

Abstract

本発明に係る化合物の安全性予測装置（１Ａ）は、一つ以上の分子の構造式を入力する入力部（１０）と、前記分子の安全性評価を予測すると共に前記予測の確信度を算出する安全性予測部（２０）と、前記分子と類似する類似分子の安全性評価データを取得する類似分子データ検索部（３０）と、前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データを出力する出力部（８０）と、を備える。

Description

化合物の安全性予測装置、化合物の安全性予測プログラム及び化合物の安全性予測方法

　本発明は、化合物の、安全性予測装置、安全性予測プログラム及び安全性予測方法に関する。

　化学品や医薬品等において使用される化合物の種類は何千万種も存在し、化合物は様々な構造を有する。化合物は、生態、環境に有害な影響を与える可能性があるため、化合物の分解性、毒性等の種々の安全性を予測することは極めて重要である。そこで、化学工業、製薬等の様々な分野において、化合物の種々の安全性を予測する化合物の安全性予測装置の開発が検討されている。

　化合物の安全性の予測率が低いと、人や環境に被害を与える可能性があるため、安全性予測装置を実用化するためには、化合物の安全性の予測に対して極めて高い信頼性を実現することが必須である。

　化合物の安全性を予測する化合物の安全性予測装置として、例えば、化粧品素材に関する情報を用いて計算された記述子の中から化粧品素材の特定の評価に有効な記述子を学習して解析する手段と、解析された記述子を用いて、特定の評価に有効な評価モデルを検索し、化粧品素材の刺激性、感作性又は反復投与毒性の予測値を取得する手段とを有する安全性評価システムが提案されている（例えば、特許文献１参照）。

　また、他の化合物の安全性予測装置として、例えば、催奇形性未知の一般化学物質分子と予めデータベース中に格納されている全ての催奇形性既知の医薬品分子の類似度を算出し、類似度の高い順に一般化学物質分子に関する医薬品安全性評価をスコア化して提供する化学構造の類似度を算出し、化合物の安全性を評価する方法が提案されている（例えば、特許文献２参照）。

日本国特許第５５１２０７７号公報日本国特開２００７－１５３７６７号公報

　しかしながら、特許文献１の技術は、化粧品素材の刺激性、感作性又は反復投与毒性の予測に限られるので、従来と異なる新規な化合物等、化合物の種類によっては化合物の安全性を高い精度で予測できない可能性が高いという問題があった。

　また、特許文献２の技術は、データベースに登録されている全ての医薬品分子に対して類似度を算出し、類似分子の安全性データを参照しなければならないため、化合物の安全性の評価に手間がかかり、使用者の利便性が低いという問題があった。

　本発明の一態様は、使用者の利便性を高めながら、高精度に化合物の安全性評価を行うことができる化合物の安全性予測装置を提供することを目的とする。

　本発明は、以下に示す構成を備える。
［１］　一つ以上の分子の構造式を入力する入力部と、
　前記分子の安全性評価を予測すると共に前記予測の確信度を算出する安全性予測部と、
　前記分子と類似する類似分子の安全性評価データを取得する類似分子データ検索部と、
　前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データを出力する出力部と、
を備える、化合物の安全性予測装置。
［２］　前記出力部は、前記予測の確信度が高い場合には、前記分子の安全性評価の予測結果及び前記予測の確信度に関するメッセージを出力し、
　前記予測の確信度が低い場合には、前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データに関するメッセージを出力する［１］に記載の化合物の安全性予測装置。
［３］　前記類似分子の安全性評価データより前記分子の安全性評価の予測結果の妥当性を検証し、前記分子の安全性評価の予測結果と前記類似分子の安全性評価データとの合致度を判定する検証部を備える［１］に記載の化合物の安全性予測装置。
［４］　前記出力部は、前記予測の確信度が高い場合には、前記分子の安全性評価の予測結果及び前記予測の確信度に関するメッセージを出力し、
　前記予測の確信度が低い場合には、前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データに関するメッセージを出力する［３］に記載の化合物の安全性予測装置。
［５］　前記予測の確信度が低い場合に、
　前記出力部は、前記合致度が高い場合には、前記分子の安全性評価の予測結果が前記類似分子の安全性評価データと整合することを示すメッセージを出力し、
　前記合致度が低い場合には、前記分子の安全性評価の予測結果が前記類似分子の安全性評価データと整合しないことを示すメッセージを出力する［４］に記載の化合物の安全性予測装置。
［６］　前記安全性予測部は、
　前記分子の構造式に基づいて前記分子の特徴量を算出する特徴量算出部と、
　前記特徴量に基づいて前記分子の安全性評価を予測すると共に前記予測の確信度を算出する予測部と、
を備える［１］～［５］の何れか一つに記載の化合物の安全性予測装置。
［７］　前記特徴量算出部は、前記分子の構造式に基づくフィンガープリント、又は前記分子の構造式に基づいて、量子化学計算により計算された物性値、定量的構造活性相関により推算された物性値及び前記分子の構造式と物性値との関係を学習した学習済みモデルによる予測値の何れか一つ以上を用いて前記分子の特徴量を算出する［６］に記載の化合物の安全性予測装置。
［８］　前記類似分子データ検索部は、
　前記入力部で入力された前記分子の構造式と、過去に評価された評価済み分子の安全性評価結果が格納された安全性評価データベース中の複数の前記評価済み分子の構造式との類似度を計算する類似度評価部と、
　前記類似度が高い前記評価済み分子の安全性評価結果を前記類似分子の安全性評価データとして取得するデータ検索部と、
を備える［１］～［７］の何れか一つに記載の化合物の安全性予測装置。
［９］　一つ以上の分子の構造式を入力する入力工程と、
　前記分子の安全性評価を予測すると共に前記予測の確信度を算出する安全性予測工程と、
　前記分子と類似する類似分子の安全性評価データを取得する類似分子データ検索工程と、
　前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データを出力する出力工程と、
をコンピュータに実行させる、化合物の安全性予測プログラム。
［１０］　一つ以上の分子の構造式を入力する入力工程と、
　前記分子の安全性評価を予測すると共に前記予測の確信度を算出する安全性予測工程と、
　前記分子と類似する類似分子の安全性評価データを取得する類似分子データ検索工程と、
　前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データを出力する出力工程と、
を含む、化合物の安全性予測方法。

　本発明に係る化合物の安全性予測装置、安全性予測プログラム及び安全性予測方法の一態様は、分子の安全性の予測の確信度を数値化することで、化合物の安全性を適切に評価でき、確信度が高い場合には、その予測結果をそのまま採用することで、化合物の安全性の評価を高精度に行いつつ、迅速かつ容易に行うことができる。これにより、本発明に係る化合物の安全性予測装置、安全性予測プログラム及び安全性予測方法の一態様は、使用者の利便性を高めながら、高精度に化合物の安全性評価を行うことができる。

本発明の第１の実施形態に係る化合物の安全性予測装置の概略構成を示すブロック図である。構造式（ＳＭＩＬＥＳ）が記載された表の一例を示す図である。予測の確信度が５０％以上の場合に予測の確信度が高いとみなす場合の一例を示す説明図である。分子の安全性評価の予測結果が記載された表の一例を示す図である。類似分子の評価データの一例を示す図である。類似分子の評価データの他の一例を示す図である。統合ファイルの一例を示す図である。学習データテーブルの一例を示す図である。化合物の特徴量の一例を示す図である。モデル学習部の構成を示す概略図である。モデルの学習方法を説明するフローチャートである。本発明の第１の実施形態に係る化合物の安全性予測方法を説明するフローチャートである。図１２の確認工程（ステップＳ２２）を説明するフローチャートである。図１２の分子の安全性評価の予測及びその予測の確信度の算出工程（ステップＳ２３）を説明するフローチャートである。図１２の類似分子の安全性評価データ検索工程（ステップＳ２４）を説明するフローチャートである。図１２の統合工程（ステップＳ２５）を説明するフローチャートである。本発明の第２の実施形態に係る化合物の安全性予測装置の概略構成を示すブロック図である。本発明の第２の実施形態に係る化合物の安全性予測方法を説明するフローチャートである。化合物の安全性予測装置のハードウェア構成を示すブロック図である。

　以下、本発明の実施形態について、詳細に説明する。なお、説明の理解を容易にするため、各図面において同一の構成要素に対しては同一の符号を付して、重複する説明は省略する。また、本明細書において数値範囲を示す「～」は、別段の断わりがない限り、その前後に記載された数値を下限値及び上限値として含むことを意味する。

［第１の実施形態］
＜化合物の安全性予測装置＞
　本発明の第１の実施形態に係る化合物の安全性予測装置について説明する。図１は、本実施形態に係る化合物の安全性予測装置の概略構成を示すブロック図である。図１に示すように、化合物の安全性予測装置（以下、単に「安全性予測装置」という）１Ａは、入力部１０、安全性予測部２０、類似分子データ検索部３０、統合部４０、記憶部５０、モデル学習部６０、特性予測モデル７０及び出力部８０を備える。

　安全性予測装置１Ａは、安全性予測部２０で得られる分子の安全性評価の予測結果及びその予測の確信度と、類似分子データ検索部３０で得られる安全性評価データとを出力する。これにより、ユーザ（使用者）は、確信度が高い場合には、その予測結果をそのまま採用し、確信度が低い場合には、予測結果及び安全性評価データのどちらを採用するか検討できる。よって、安全性予測装置１Ａは、確信度を数値化して出力することで、安全性予測部２０で得られる分子の安全性評価の予測結果及び類似分子データ検索部３０で得られる安全性評価データの少なくともどちらか一方に基づいて、使用者は、化合物の安全性を判断することができる。したがって、安全性予測装置１Ａは、使用者の利便性を高めると共に、化合物の安全性評価の精度を向上させることができる。

　なお、出力とは、後述するように、画面への表示、音声等を含む。

　確信度が高い及び確信度が低いとは、後述する高確信度及び低確信度と同様であり、確信度が高い又は確信度が低いと判断する閾値は、安全性を評価する分子の種類に応じて適宜設定可能である。例えば、閾値を５０％としたとき、確信度がその閾値以上であれば、確信度が高いとする。

　安全性とは、化合物が人や環境に与える負荷の大きさを表わす指標であり、生分解性、生物濃縮性、変異原性、急性毒性、慢性毒性、阻害毒性、反復毒性等が挙げられる。

　入力部１０は、安全性を評価する評価対象である、一つ以上の分子の構造式を入力する。

　構造式は、ＳＭＩＬＥＳ等を用いることができる。ＳＭＩＬＥＳは、化合物の分子構造を文字列で表示したものである。構造式（ＳＭＩＬＥＳ）が記載された表の一例を図２に示す。図２に示すように、ＳＭＩＬＥＳは、各化合物にＩＤ番号としてＡ１・・・を付け、各化合物のＳＭＩＬＥＳを表示する。各分子の構造式を含む表は、ＣＳＶ、表計算ソフトウェアであるエクセル等の形式のデータから得てよい。入力部１０は、図２に示すような各分子のＳＭＩＬＥＳが記載された表を入力してよい。

　入力部１０は、入力される分子の構造式に記載ミスがないか確認してもよい。使用者が構造式を入力する際、誤入力する可能性がある。入力部１０は、構造式の誤入力を確認することで、入力された分子の構造式が記載ミスであると判断できる。

　入力部１０は、例えば、米国Ａｎａｃｏｎｄａ社から配布されているソフトウェアであるＡｎａｃｏｎｄａ（登録商標）等のライブラリに含まれるＲＤＫｉｔ等を使用して、入力された分子の構造式の分子Ｍｏｌオブジェクトへの変換の有無を確認することで、入力された分子の構造式の記載ミスを判断してよい。構造式がＳＭＩＬＥＳである場合、ＲＤＫｉｔに含まれるＭｏｌＦｒｏｍＳｍｉｌｅｓを用いて、ＳＭＩＬＥＳの文字列を読み込み、分子の構造式を読み込ませる。ＳＭＩＬＥＳがＭｏｌオブジェクトに変換され、正常に分子Ｍｏｌオブジェクトが作成された場合には、入力された分子の構造式に記載ミスがないと判断できる。一方、ＳＭＩＬＥＳがＭｏｌオブジェクトに変換されず、分子Ｍｏｌオブジェクトが作成されない場合には、入力された分子の構造式が間違いであると判断できる。

　入力部１０は、記載ミスを有しない構造式を含む表と、記載ミスを有する構造式を含む表を別々に作成し、後述する出力部８０で出力させてよい。これにより、使用者が構造式の入力を失敗した場合でも、安全性予測装置１Ａが異常終了することなく安全性評価を予測できる。

　図１に示すように、安全性予測部２０は、分子の安全性評価を予測すると共に、予測の確信度を算出する。安全性予測部２０は、特徴量算出部２１と、予測部２２とを備える。

　特徴量算出部２１は、分子の構造式に基づいて特徴量を算出する。

　特徴量は、記載ミスを有しない分子の構造式に基づいて求めることができる。特徴量は、ＲＤｋｉｔに実装されているＭｏｒｇａｎフィンガープリント（Ｃｉｒｃｕｌａｒフィンガープリント）を用いて算出される、ＥＸＴＥＮＤＥＤＣｏｎｎｅｃｔｉｖｉｔｙＦｉｎｇｅｒｐｒｉｎｔｓ（ＥＣＦＰ）相当のフィンガープリント、ＡｔｏｍＰａｉｒ等の別のフィンガープリント等の、分子の構造式に基づくフィンガープリントを用いることができる。特徴量は、分子の脂溶性を表すオクタノール／水分配係数（ｌｏｇＰ）等の物性でもよい。フィンガープリントは、部分構造の有無をそれぞれ１又は０で表現してもよいし、部分構造の数で表現してもよいし、部分構造の数を構成原子数で割った部分構造の比率で表現してもよい。

　特徴量は、分子の構造式に基づいて、量子化学計算により計算された物性値、分子の構造式と物性値との定量的構造活性相関により求められた物性値及び分子の構造式と物性値との関係を学習した学習済みモデルによる予測値の何れか一つ以上を用いて算出してもよい。ここで、量子化学計算により計算された物性値としては、ＨＯＭＯ、ＬＵＭＯ、電荷、屈折率及び振動数等が挙げられる。構造活性相関とは、物質の化学構造上の特徴（又は物理化学定数）と生物学的な活性（例えば、分解性、蓄積性、各種毒性エンドポイント等）との相関関係を指す。

　また、特徴量は、融点、粘度及び比表面積等の実験で測定可能な物性値でもよい。

　予測部２２は、特徴量算出部２１で算出された特徴量に基づいて分子の安全性評価を予測すると共にその予測の確信度を計算する。

　分子の安全性評価の指標として、例えば、生物化学的酸素要求量（ＢＯＤ）等を用いることができる。ＢＯＤが所定値（例えば、６０％）以上の場合には、分子の安全性は良好であると評価できる。

　予測の確信度は、特性予測モデル７０を用いて計算できる。予測部２２は、特徴量算出部２１で算出された特徴量を説明変数として、特性予測モデル７０に入力し、分類結果が「ＯＫ」である分類確率Ｐ（ＯＫ）を出力する。予測部２２は、分類結果が「ＯＫ」である分類確率Ｐ（ＯＫ）に対して、以下の式（１）を用いて、予測の確信度（単位：％）を算出する。
予測の確信度（％）≡１００×２×｜０．５－Ｐ（ＯＫ）|　・・・（１）
（式（１）中、Ｐ（ＯＫ）は、分類結果が「ＯＫ」である分類確率である。）

　予測の確信度は０％～１００％の値をとり、予測の確信度が１００％に近いほど予測結果の正答率は高くなる。そのため、予測の確信度から使用者は予測結果が信頼できるか否か容易に判断できる。

　予測の確信度は、上記式（１）の通り、分類確率に対応しており、分類確率の大きさに応じて予測の確信度は変化する。図３に、予測の確信度が５０％以上の場合に予測の確信度が高いとみなす場合の一例を示す。分類確率が０以上０．２５以下の場合、予測の確信度は５０％以上１００％以下となり、「高確信度のＮＧ」とみなす。分類確率が０．２５より大きく０．５０未満の場合、予測の確信度は０％より大きく５０％未満となり、「低確信度のＮＧ」とみなす。分類確率０．５０以上０．７５未満の場合、予測の確信度は０％以上５０％未満となり、「低確信度のＯＫ」とみなす。分類確率が０．７５以上１．００以下の場合、予測の確信度は５０％以上１００％以下であり、「高確信度のＯＫ」とみなす。このように、予測の確信度を定量化することで、使用者は、予測結果の信頼性を容易に判断できる。

　高確信度と低確信度を判断する閾値は、安全性を評価する分子の種類に応じて適宜設定可能であり、例えば、５０％が好ましい。

　予測部２２は、各分子の構造式と、予測結果と、予測の確信度とを含む分子の安全性評価の予測結果の表を作成できる。分子の安全性評価の予測結果が記載された表の一例を図４に示す。なお、図４では、分子の構造式にＳＭＩＬＥＳを用い、各化合物のＩＤ番号Ａ１・・・と、各化合物のＳＭＩＬＥＳを用いる。分子の安全性評価の指標として、ＢＯＤを用いる。ＢＯＤが６０％以上の場合には、分子の安全性評価は良好（ＯＫ）とし、ＢＯＤが６０％未満の場合には、分子の安全性は不良（ＮＧ）とした。

　図４に示すように、分子の安全性評価の予測結果の表には、安全性予測部２０で得られる、各分子とそのＳＭＩＬＥＳ毎に、分子の安全性評価の予測結果と、その予測の確信度を含めることができる。ＳＭＩＬＥＳに誤入力がある場合には、「SMILES load error」を表示して、誤入力であり認識できないことを出力する。ＩＤがＡ１～Ａ３のように、安全性評価の予測の確信度が高い場合には、この予測は信用できるものと見なせる。一方、ＩＤがＡ５のように、予測の確信度が低い場合には、この予測は信用が低いものと見なせる。予測の確信度が低い場合、使用者は、後述する類似分子データ検索部３０で類似分子の検索を行った結果を参照して、安全性の評価対象の分子の安全性をより詳細に評価することができる。

　特徴量算出部２１は、図４に示すような、分子の安全性評価の予測結果とその予測の確信度を含む分子の安全性評価の予測結果の表を作成し、後述する出力部８０で出力させてよい。これにより、使用者が分子の安全性評価に関する予測結果を簡易に把握することができる。

　図１に示すように、類似分子データ検索部３０は、評価対象である分子と類似する類似分子の安全性評価データを取得する。類似分子データ検索部３０は、類似度評価部３１と、データ検索部３２とを備える。

　類似度評価部３１は、入力部１０で入力された分子の構造式と、安全性評価データベース３３に格納されている複数の評価済み分子の構造式との類似度を計算して評価する。なお、類似度評価部３１は、分子の構造式にＳＭＩＬＥＳを用いてよい。

　安全性評価データベース３３は、過去に評価された評価済み分子の安全性評価データが格納されている。

　類似度は、ＲＤｋｉｔに実装されているBulk Tanimoto Similarityを用いて、タニモト係数を算出することで求めることができる。類似度は、ダイス（Ｄｉｃｅ）係数、コサイン（ｃｏｓ）類似度等でもよい。

　類似度評価部３１は、安全性評価データベース３３に格納されている安全性評価データのうち、目的、使い易さ等に応じて適宜取得する類似分子の安全性評価データの数を変更でき、類似度が上位から所定の件数（例えば、上位２０件）までのデータを類似分子の安全性評価データ（類似分子データ）として取得してよい。

　類似分子の安全性評価データとしては、例えば、図５及び図６に示すように、これらの分子に関する情報として、分子の化学式、ＣＡＳ登録番号、分子の名称、構造式（ＳＭＩＬＥＳ）、安全性評価（ＢＯＤ）、化審法の判定結果、残留性変化物１～５及び類似度が挙げられる。

　化審法判定とは、「化学物質の審査及び製造等の規制に関する法律」による判定をいう。

　残留性変化物とは、化審法等における生分解性試験において、試験後に残留する変化物をいう。

　図５に示すように、類似分子の安全性評価データを含む表には、一行目に評価対象の分子として、前述した図４中のＩＤがＡ３である分子の情報が表示され、二行目以降に過去データに記録されている類似分子の情報が表示される。一行目に表示される評価対象の分子を参照することで、評価対象の分子が難分解性であることが確認できる。そして、一行目に表示される評価対象の分子と、二行目以降に表示される類似分子とを比較することで、使用者は良分解性であるか難分解性であるかを確認できる。

　図６に示すように、類似分子の安全性評価データを含む他の例の表には、一行目に評価対象の分子として、前述した図４中のＩＤがＡ５である分子の構造式が表示され、二行目以降に過去データに記録されている類似分子の情報が表示される。一行目に表示される評価対象の分子の情報と、二行目以降に表示される類似分子とを比較することで、一行目に表示される評価対象の分子の分解性が確認できなくても、使用者は、類似分子が良分解性であるか難分解性であるか確認できるため、評価対象の分子も良分解性であるか難分解性であるかを判定し易くなる。

　類似度評価部３１が、類似分子の安全性評価データを含む表に、評価対象である分子に関する情報と、類似分子に関する情報とをまとめて表示することで、評価対象の分子と類似分子を視覚的に比べることができるため、類似分子のうち、どの類似分子の安全性評価データを参照するか使用者によって判断され易くなる。

　類似度評価部３１は、図５及び図６に示すような、類似分子の安全性評価データを含む表を作成し、後述する出力部８０で出力させてよい。これにより、使用者が類似分子に関する情報を把握することができる。

　データ検索部３２は、類似度が高い、類似分子の安全性評価データを取得する。

　図１に示すように、統合部４０は、安全性予測部２０で得られる、評価対象の分子の安全性評価の予測結果と予測の確信度とを含む予測結果ファイルと、類似分子データ検索部３０で得られる安全性評価データを含む評価データファイルとを統合する。これにより、統合部４０は、図７に示すような、安全性予測部２０で得られる予測結果ファイル（図４参照）と、類似分子データ検索部３０で得られる評価データファイル（図５及び図６参照）とを統合した統合ファイルが作成される。図７では、例えば、予測シートに予測結果ファイルの内容が記載され、Ａ１シート、Ａ２シート、・・・に各ＩＤの分子の類似分子の評価データファイルが記載されている。

　統合部４０は、統合ファイルを後述する出力部８０で出力させてよい。これにより、使用者が統合ファイルに含まれる、評価対象の分子に関する情報と、類似分子の安全性評価に関する情報とをまとめて、容易に把握することができる。

　記憶部５０は、化合物の分子の構造式、安全性評価、化合物の特徴量、化合物の特性等が対応付けられた関連データを学習データとして記憶する。学習データテーブルの一例を図８に示す。図８に示すように、学習データは、化合物の分子の、ＣＡＳ登録番号、ＳＭＩＬＥＳ、化合物の目的変数として安全性評価結果であるＢＯＤ、化合物の特性として化審法の判定結果、残留性変化物の種類等の対応関係を含む。なお、図８中の「－」は「該当無し」を示す。化合物の特徴量は、対応する化合物のＳＭＩＬＥＳからＥＣＦＰ等の手法により計算される。例えば、図９に示すように、化合物の特徴量は、ＥＣＦＰにより計算された特徴量１及び２等として数値の行列形式により表される。

　記憶部５０は、関連データに、化合物の分子の構造式（例えば、ＳＭＩＬＥＳ等）、化合物の特徴量、化合物の特性等をそれぞれ入力して、関連データを更新してもよい。

　モデル学習部６０は、記憶部５０に記憶されている関連データを学習データとして利用してモデルの学習を行う。

　具体的には、モデル学習部６０は、記憶部５０に記憶された化合物の分子の構造式（例えば、ＳＭＩＬＥＳ等）及び化合物の特徴量を説明変数とし、化合物の予測したい特性を目的変数として用いる。これにより、モデル学習部６０は、化合物の特徴量と、化合物の特性との対応関係を特定するモデルを学習し、学習済みモデル（特性予測モデル７０）を生成する。モデル学習部６０は、その対応関係が機械学習により学習データの対応関係に近づくように、モデルを学習させる。

　モデルは、機械学習の中でも、教師あり学習のアルゴリズムを適用することが好ましい。教師あり学習として、例えば、線形回帰（Linear regression）、ロジスティック回帰（Logistic regression）、ランダムフォレスト（Random Forest）、ブースティング（Boosting）、サポートベクターマシン（Support Vector Machine、ＳＶＭ）、ニューラルネットワーク（Neural Network）等が挙げられる。ニューラルネットワークは、ニューラルネットワークを３層よりも多層にした深層学習（ディープラーニング）を用いることができる。ニューラルネットワークの種類としては、例えば、畳み込みニューラルネットワーク（Convolutional Neural Network、ＣＮＮ）、回帰型（再帰型）ニューラルネットワーク（Recurrent Neural Network、ＲＮＮ）及び一般回帰ニューラルネットワーク（General Regression Neural Network）等を用いることができる。また、モデルは、関数等の数式で表してもよい。

　モデルとしては、具体的には、米国Ａｎａｃｏｎｄａ社から配布されているソフトウェアであるＡｎａｃｏｎｄａ（登録商標）等を用いて構築した機械学習モデルを用いることができる。

　Ａｎａｃｏｎｄａ（登録商標）には、ｓｃｉｋｉｔ－ｌｅａｒｎ等の機械学習で使用されるライブラリ群が含まれており、モデル学習部６０は、これらのうちの何れか１つ以上を用いて、機械学習を行ってよい。

　また、モデル学習部６０は、新たに記憶部５０に記憶された安全性評価データから、化合物の分子の構造式（例えば、ＳＭＩＬＥＳ等）及び化合物の特徴量を説明変数、化合物の特性を目的変数として用いることで、学習済みのモデルについて再学習を行ってもよい。

　図１０は、モデル学習部６０の構成を示す概略図である。図１０に示すように、モデル学習部６０は、第１の取得部６１、第２の取得部６２、関数部６３、判定部６４、モデル６５及び保存部６６を有する。

　第１の取得部６１は、化合物の分子の構造式（例えば、ＳＭＩＬＥＳ等）を含み、これらが列挙された表と、化合物の特性を列挙した表を含む学習データを取得する。

　学習データは、例えば、ＣＳＶ、表計算ソフトウェアのエクセル等の形式のファイルで保存できる。

　第２の取得部６２は、第１の取得部６１で取得した学習データから、１分子の分子構造を取得する。

　１分子の分子構造としては、１分子のＳＭＩＬＥＳが好ましい。

　関数部６３は、第２の取得部６２で取得した、１分子の分子構造に基づいて、特徴量を計算する。特徴の計算方法は、特徴量算出部２１と同様に行うことができるため、詳細は省略する。

　判定部６４は、学習データが含む全ての分子の特徴量を計算したか否か判定する。

　モデル６５は、記憶部５０に記憶された化合物の分子の構造式及び化合物の特徴量を説明変数、化合物の特性を目的変数として、モデル学習部６０によって学習が行われる。

　保存部６６は、モデル学習部６０がモデル６５に学習を行わせることで生成した学習済みモデルを保存する。

　図１に示すように、特性予測モデル７０は、モデル学習部６０がモデル６５に学習を行わせることで生成した学習済みモデルである。

　なお、予測の確信度の高低は、分類確率の所定値に応じて適宜設定可能であり、分類確率の所定値が０．５０である場合、予測の確信度が高いとは、例えば、予測の確信度が５０％以上である場合をいい、予測の確信度が低いとは、例えば、予測の確信度が５０％未満である場合をいう。

　出力部８０は、統合部４０で得られた、分子の安全性評価の予測結果と、予測の確信度と、類似分子の安全性評価データとを出力する。即ち、出力部８０は、統合ファイルを出力する。

　なお、出力は、モニタ等への表示、音声等を含み、使用者に報知できる方法であればよい。

　また、出力部８０は、入力部１０で作成した、記載ミスを有しない構造式（例えば、ＳＭＩＬＥＳ）の表と、記載ミスを有する構造式の表とを出力してよい。また、出力部８０は、安全性予測部２０で作成した、分子の安全性評価の予測結果とその予測の確信度を含む分子の安全性評価の予測結果の表を出力してよいし、類似度評価部３１で作成した、類似分子に関する情報を含む類似分子の安全性評価データを出力してよい。さらに、出力部８０は、統合ファイルを参照して、分子の安全性評価の予測の確信度が低い場合には、類似分子の安全性評価データの出力を行ってよい。

　出力部８０は、分子の安全性評価の予測の確信度が高い（高確信度）場合には、分子の安全性評価の予測結果及び予測の確信度に関するメッセージを出力し、分子の安全性評価の予測の確信度が低い（低確信度）場合には、分子の安全性評価の予測結果、予測の確信度及び類似分子の安全性評価データに関するメッセージを出力してもよい。

　メッセージの内容は、例えば、予測の確信度が高い場合には、「分子の安全性評価の予測結果が高く、予測の確信度が５０％以上である。」等と、予測の確信度が低い場合には、「分子の安全性評価の予測結果が低く、予測の確信度が５０％未満である。」等としてよい。

＜化合物の安全性予測プログラム＞
　本実施形態に係る化合物の安全性予測プログラム（以下、単に「安全性予測プログラム」という）は、以下の構成のプログラムを用いることができる。

　即ち、本実施形態に係る安全性予測プログラムは、
　一つ以上の分子の構造式を入力する入力工程と、
　前記分子の安全性評価を予測すると共に前記予測の確信度を算出する安全性予測工程と、
　前記分子と類似する類似分子の安全性評価データを取得する類似分子データ検索工程と、
　前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データを出力する出力工程と、
を少なくともコンピュータに実行させるプログラムを用いることができる。

＜化合物の安全性予測方法＞
　次に、本実施形態に係る安全性予測装置を適用した化合物の安全性予測方法（以下、単に「安全性予測方法」という）について説明する。本実施形態に係る安全性予測装置を適用した安全性予測方法は、図１に示すような構成を有する安全性予測装置１Ａを用いて、化合物の安全性評価の予測を行う方法である。

　ここで、安全性予測方法において使用される特性予測モデル７０の学習方法について説明する。特性予測モデル７０は、上述の通り、モデル学習部６０で構築したモデル６５が適用されるため、特性予測モデル７０の学習方法は、モデル６５の学習方法として説明する。

　図１１は、モデルの学習方法を説明するフローチャートである。図１１に示すように、モデルの学習方法は、図１０に示すような構成を有するモデル学習部６０において、図１に示す安全性予測装置１Ａの記憶部５０に記憶された化合物の分子の構造式及び化合物の特徴量を含む説明変数と、化合物の特性を含む目的変数とが対応付けられた学習データを用いて、モデルの学習を行う方法である。

　モデルの学習方法では、安全性予測装置１Ａは、第１の取得部６１により、学習データを取得する（学習データの取得工程：ステップＳ１１）。

　学習データは、化合物の分子の構造式（例えば、ＳＭＩＬＥＳ等）が列挙された表と、化合物の特性が列挙された表等を含む。

　次に、安全性予測装置１Ａは、第２の取得部６２により、学習データから、１分子の構造式を取得する（１分子の構造式の取得工程：ステップＳ１２）。

　１分子の構造式としては、１分子のＳＭＩＬＥＳでもよい。

　次に、安全性予測装置１Ａは、関数部６３により、第２の取得部６２で取得した１分子の構造式を用いて、ｓｃｉｋｉｔ－ｌｅａｒｎ、ＲＤＫｉｔ等のＡｎａｃｏｎｄａ（登録商標）に含まれるライブラリ群を使用することにより特徴量を計算する（特徴量の計算工程：ステップＳ１３）。

　次に、安全性予測装置１Ａは、判定部６４により、学習データが含む全ての分子の特徴量を計算したか否か判定する（全ての分子の特徴量の判定工程：ステップＳ１４）。

　全ての分子の特徴量を計算していない場合（ステップＳ１４：Ｎｏ）には、１分子の構造式の取得工程（ステップＳ１２）に戻り、特徴量が計算されていない残りの分子の構造式を取得する。

　全ての分子の特徴量が計算された場合（ステップＳ１４：Ｙｅｓ）には、モデル学習部６０により、全ての分子の特徴量を含む説明変数と、全ての分子の特性を含む目的変数とが対応付けられた学習データを用いて学習し、モデル６５を構築する（学習工程：ステップＳ１５）。

　学習部１５は、学習データに含まれる説明変数の入力に応じて、説明変数に紐付けられた目的変数と合致した出力となるように、モデルに学習させる。

　次に、安全性予測装置１Ａは、保存部６６により、学習部１５で構築されたモデルを保存する（保存工程：ステップＳ１６）。

　次に、本実施形態に係る安全性予測装置を適用した安全性予測方法を説明する。図１２は、本実施形態に係る安全性予測方法を説明するフローチャートである。図１２に示すように、安全性予測装置１Ａは、入力部１０により、安全性を評価する評価対象である、一つ以上の分子の構造式が入力される（入力工程：ステップＳ２１）。

　次に、安全性予測装置１Ａは、安全性予測部２０により、入力された構造式の記載ミスを確認する（確認工程：ステップＳ２２）。

　確認工程（ステップＳ２２）の詳細は、後述する。なお、確認工程（ステップＳ２２）は行わなくてもよい。

　次に、安全性予測装置１Ａは、安全性予測部２０により、分子の安全性評価を予測すると共にその予測の確信度を算出し、分子の安全性評価の予測及びその予測の確信度を含む分子の安全性評価の予測結果の表を取得する（分子の安全性評価の予測及びその予測の確信度の算出工程：ステップＳ２３）。

　分子の安全性評価の予測及びその予測の確信度の算出工程（ステップＳ２３）の詳細は、後述する。

　また、安全性予測装置１Ａは、類似分子データ検索部３０により、安全性の評価対象の分子の類似分子の安全性評価データを検索して取得する（類似分子の安全性評価データ検索工程：ステップＳ２４）。

　類似分子の安全性評価データ検索工程（ステップＳ２４）の詳細は、後述する。

　次に、安全性予測装置１Ａは、統合部４０により、分子の安全性評価の予測及びその予測の確信度の算出工程（ステップＳ２３）で得られた分子の安全性評価の予測結果及びその予測の確信度と、類似分子の安全性評価データ検索工程（ステップＳ２４）で得られた類似分子の安全性評価データとを統合し、統合データを得る（統合工程：ステップＳ２５）。

　統合工程（ステップＳ２５）の詳細は、後述する。

　次に、安全性予測装置１Ａは、出力部８０により、統合部４０により統合された統合データを出力する（出力工程：ステップＳ２６）。

　安全性予測装置１Ａは、出力部８０により、統合データのうち、予測の確信度が高い場合は、予測結果及びその予測の確信度を表示等により出力し、安全性予測の確信度が低い場合には、予測結果及びその予測の確信度の他に、類似分子の安全性評価データを表示等により出力してもよい。

　なお、分子の安全性評価の予測及びその予測の確信度の算出工程（ステップＳ２３）は、類似分子の安全性評価データ検索工程（ステップＳ２４）と同時に行ってもよいし、類似分子の安全性評価データ検索工程（ステップＳ２４）の後に行ってもよい。

　次に、図１２の確認工程（ステップＳ２２）を説明する。図１３は、図１２の確認工程（ステップＳ２２）を説明するフローチャートである。図１３に示すように、安全性予測装置１Ａは、安全性予測部２０により、安全性を評価する評価対象の分子の構造式を全て入力する（評価対象の全ての分子の構造式の入力工程：ステップＳ２２１）。

　分子の構造式としては、例えば、図２に示すようなＳＭＩＬＥＳを取得してよい。

　次に、安全性予測装置１Ａは、安全性予測部２０により、評価対象として入力した全ての分子のうちの一の分子の構造式を取得する（一の分子の構造式の取得工程：ステップＳ２２２）。

　次に、安全性予測装置１Ａは、安全性予測部２０により、一の分子の構造式の記載ミスを確認する（記載ミスの確認工程：ステップＳ２２３）。

　次に、安全性予測装置１Ａは、安全性予測部２０により、全ての分子に対して構造式の計算ミスを確認したか否か判定する（記載ミスの判定工程：ステップＳ２２４）。

　全ての分子に対して計算ミスを確認していない場合（ステップＳ２２４：Ｎｏ）には、再度、確認していない分子の構造式を取得する（ステップＳ２２２）。

　全ての分子に対して計算ミスを確認した場合（ステップＳ２２４：Ｙｅｓ）には、安全性予測装置１Ａは、安全性予測部２０により、記載ミスを有しない構造式の表をファイルに出力する（記載ミスを有しない構造式の表の出力工程：ステップＳ２２５）。

　次に、安全性予測装置１Ａは、安全性予測部２０により、記載ミスを有する構造式の表をファイルに出力する（記載ミスを有する構造式の出力工程：ステップＳ２２６）。

　次に、図１２の分子の安全性評価の予測及びその予測の確信度の算出工程（ステップＳ２３）を説明する。図１４は、図１２の分子の安全性評価の予測及びその予測の確信度の算出工程（ステップＳ２３）を説明するフローチャートである。図１４に示すように、安全性予測装置１Ａは、安全性予測部２０により、モデル学習部６０で得られたモデルを特性予測モデル７０として取得する（特性予測モデルの取得工程：ステップＳ２３１）。

　次に、安全性予測装置１Ａは、安全性予測部２０により、記載ミスを有しない構造式の表を取得する（構造式の取得工程：ステップＳ２３２）。

　次に、安全性予測装置１Ａは、安全性予測部２０により、記載ミスを有しない構造式の表に記載されている全て分子のうちの一の分子の構造式を取得する（一の分子の構造式の取得工程：ステップＳ２３３）。

　次に、安全性予測装置１Ａは、安全性予測部２０により、一の分子の特徴量を生成する（一の分子の特徴量の生成工程：Ｓ２３４）。

　次に、安全性予測装置１Ａは、安全性予測部２０により、一の分子の安全性評価の予測を行うと共にその予測の確信度を算出する（分子の安全性評価の予測及びその予測の確信度の算出工程：Ｓ２３５）。

　次に、安全性予測装置１Ａは、安全性予測部２０により、全ての分子に対して安全性評価の予測及びその予測の確信度の算出を行ったか否か判定する（全ての分子の安全性評価の予測及びその予測の確信度の算出の判定工程：ステップＳ２３６）。

　全ての分子に対して安全性評価の予測及びその予測の確信度の算出を行っていない場合（ステップＳ２３６：Ｎｏ）には、再度、確認していない分子の構造式を取得する（ステップＳ２３２）。

　全ての分子に対して安全性評価の予測及びその予測の確信度の算出を行った場合（ステップＳ２３６：Ｙｅｓ）には、全ての分子の安全性評価の予測及びその予測の確信度を含む分子の安全性評価の予測結果の表をファイルに出力する（分子の安全性評価の予測結果の表の出力工程：ステップＳ２３７）。

　次に、図１２の類似分子の安全性評価データの取得工程（ステップＳ２４）を説明する。図１５は、図１２の類似分子の安全性評価データの取得工程（ステップＳ２４）を説明するフローチャートである。図１５に示すように、安全性予測装置１Ａは、類似分子データ検索部３０により、安全性評価データベースから全ての分子の安全性評価データを取得する（全ての分子の安全性評価データの取得工程：ステップＳ２４１）。

　次に、安全性予測装置１Ａは、類似分子データ検索部３０により、記載ミスを有しない構造式の表を取得する（構造式の表の取得工程：ステップＳ２４２）。

　次に、安全性予測装置１Ａは、類似分子データ検索部３０により、記載ミスを有しない構造式の表に記載されている全ての分子のうちの一の分子の構造式を取得する（一の分子の構造式の取得工程：ステップＳ２４３）。

　次に、安全性予測装置１Ａは、類似分子データ検索部３０により、取得した一の分子と安全性評価データベース中の全ての分子との類似度を計算する（類似度の計算工程：ステップＳ２４４）。

　次に、安全性予測装置１Ａは、類似分子データ検索部３０により、類似度の計算工程（ステップＳ２４４）で計算して得られた全ての分子のうち、類似度の上位から所定の件数の安全性評価データを取得する（所定の件数の安全性評価データの取得工程：ステップＳ２４５）。

　次に、安全性予測装置１Ａは、類似分子データ検索部３０により、記載ミスを有しない構造式の表に記載されている全ての分子に対して、類似分子を検索したか否か判定する（全ての分子の類似分子検索の判定工程：ステップＳ２４６）。

　全ての分子に対して類似分子を検索していない場合（ステップＳ２４６：Ｎｏ）には、再度、確認していない分子の構造式を取得する（ステップＳ２４３）。

　全ての分子に対して類似分子を検索した場合（ステップＳ２４６：Ｙｅｓ）には、全ての分子の、それぞれの類似分子の安全性評価データの表を出力する（ステップＳ２４７）。

　次に、図１２の統合工程（ステップＳ２５）を説明する。図１６は、図１２の統合工程（ステップＳ２５）を説明するフローチャートである。図１６に示すように、安全性予測装置１Ａは、統合部４０により、分子の安全性評価の予測及びその予測の確信度の算出工程（ステップＳ２３）で求めた、全ての分子の安全性評価の予測及びその予測の確信度を含む分子の安全性評価の予測結果の表を安全性予測部２０から取得する（分子の安全性評価の予測結果の表の取得工程：ステップＳ２５１）。

　次に、安全性予測装置１Ａは、統合部４０により、類似分子の安全性評価データの取得工程（ステップＳ２４）で得られた、全ての分子の、それぞれの類似分子の安全性評価データの表を類似分子データ検索部３０から取得する（類似分子の安全性評価データの取得工程：ステップＳ２５２）。

　次に、安全性予測装置１Ａは、統合部４０により、分子の安全性評価の予測結果の表と、全ての分子の類似分子の安全性評価データの表とを１つの表に統合して統合ファイルを作成する（表の統合工程：ステップＳ２５３）。

　次に、安全性予測装置１Ａは、出力部８０により、図７に示すような統合ファイルを出力する（統合ファイルの出力工程：ステップＳ２５４）。

　本実施形態に係る安全性予測装置１Ａは、入力部１０、安全性予測部２０、類似分子データ検索部３０及び出力部８０を備える。安全性予測装置１Ａは、安全性予測部２０で、分子の安全性評価の予測とその予測の確信度とを算出し、類似分子データ検索部３０で類似分子の安全性評価データを取得する。安全性予測装置１Ａは、分子の安全性評価の予測の確信度を数値化して出力することで、使用者に化合物の安全性評価の予測結果を適切に提供できる。予測の確信度が高い場合には、使用者は、その予測結果をそのまま採用することで、化合物の安全性の評価を高精度に迅速かつ容易に行うことができる。予測の確信度が低い場合には、使用者は、予測結果及び安全性評価データのどちらを採用するか検討することで、化合物の安全性の評価を高精度に迅速かつ容易に行うことができる。よって、安全性予測装置１Ａは、使用者の利便性を高めながら、高精度に化合物の安全性評価を行うことができる。

　安全性予測装置１Ａは、出力部８０が、予測の確信度の高い場合には、分子の安全性評価の予測結果及び予測の確信度に関するメッセージを出力し、予測の確信度の低い場合には、分子の安全性評価の予測結果、予測の確信度及び安全性評価データに関するメッセージを出力できる。使用者は、出力されるメッセージの内容を確認することで、化合物の安全性の評価内容を的確に判断することができる。よって、安全性予測装置１Ａは、使用者の利便性をより高めながら、高精度に化合物の安全性評価を適切に行うことができる。

　安全性予測装置１Ａは、安全性予測部２０が特徴量算出部２１及び予測部２２を備えることができる。これにより、安全性予測装置１Ａは、特徴量算出部２１で分子の構造式に基づき特徴量を算出し、予測部２２で算出した特徴量に基づいて分子の安全性を予測できる。そのため、安全性予測装置１Ａは、化合物の安全性評価をより高精度に行うことができる。

　安全性予測装置１Ａは、特徴量算出部２１で分子の構造式を特性予測モデル７０に入力して、分子の特徴量を算出できる。安全性予測部２０は、分子の構造式から分子の安全性評価の予測とその予測の確信度を精度良く簡易に予測できると共に、計算に要する負担及び時間を抑えることができる。よって、安全性予測装置１Ａは、化合物の安全性評価の予測を高精度に簡便かつ低い計算コストで予測できる。

　安全性予測装置１Ａは、類似分子データ検索部３０が類似度評価部３１及びデータ検索部３２を備えることができる。これにより、安全性予測装置１Ａは、類似度評価部３１で、入力された分子と安全性評価データベース３３に記載の複数の分子との類似度を評価し、データ検索部３２で、類似度の高い類似分子の安全性評価データを取得できる。よって、安全性予測装置１Ａは、化合物の安全性評価をより高精度に行うことができる。

　安全性予測装置１Ａは、出力部８０を備えることができる。これにより、安全性予測装置１Ａは、使用者に対して、予測された化合物の安全性評価の予測結果に関する情報と、類似分子データに関する情報を視覚的に提示できるので、使用者が化合物に関する情報を容易に把握できる。

　このように、安全性予測装置１Ａは、化合物の安全性を簡便かつ低い計算コストで高精度に予測できるため、例えば、化学工業、製薬等において用いられる材料、薬品等に用いられる化合物の安全性を高精度に予測できるため、研究開発、製品の製造等を安全に行うのに好適に用いることができる。

　また、安全性予測装置１Ａは、生分解性、生物濃縮性、変異原性、魚類急性毒性、甲殻類遊泳阻害毒性、藻類成長阻害毒性、哺乳類反復毒性等の評価試験に有効に用いることができる。変異原性の評価試験としては、復帰突然変異試験（エームス（Ａｍｅｓ）試験）、染色体異常試験等が挙げられる。魚類急性毒性の評価試験としては、「魚類による急性毒性試験- ＪＩＳ　Ｋ　０１０２．７１－」によりＬＣ５０（Median lethal concentration：半数致死濃度）の測定等が挙げられる。甲殻類遊泳阻害毒性の評価試験としては、半数遊泳阻害濃度（ＥＣ_５０）の測定等が挙げられる。藻類成長阻害毒性の評価試験としては、５０%生長阻害濃度（ＥＣ_５０）の測定等が挙げられる。哺乳類反復毒性の評価試験としては、最小毒性量（ＮＯＡＥＬ）の測定等が挙げられる。

［第２の実施形態］
＜安全性予測装置＞
　本発明の第２の実施形態に係る安全性予測装置について説明する。図１７は、本実施形態に係る安全性予測装置の概略構成を示すブロック図である。図１７に示すように、安全性予測装置１Ｂは、上述の第１の実施形態に係る安全性予測装置１Ａの構成に加えて、さらに検証部１１０を備える。検証部１１０以外は、上述の第１の実施形態に係る安全性予測装置１Ａと同様であるため、詳細は省略する。

　検証部１１０は、分子の安全性評価の予測結果と安全性評価データとの合致度を判定することで、分子の安全性評価の予測結果の妥当性を判定する。

　検証部１１０は、予測の確信度が低い場合には、分子の安全性評価の予測結果と類似分子の安全性評価データとの合致度を判定する。検証部１１０は、予測結果と、類似分子の安全性評価データの予測結果とが合致する場合には、予測の確信度は低いが予測結果は妥当である（低確信度のＯＫ）と見なす。検証部１１０は、予測結果と、分子の安全性評価データの予測結果とが合致しない場合には、予測の確信度は低く、予測結果は妥当でない（低確信度のＮＧ）と見なす。検証部１１０は、予測の確信度が低い場合のみ、類似分子の安全性評価データを参照することで、類似分子の安全性評価データの使用頻度を下げられるため、使用者の利便性の向上が図られる。

　例えば、図４のＩＤがＡ５の場合、図４に示すように、安全性評価がＯＫであり、良分解性を示すとする。Ａ５の予測の確信度は４２％であり、５０％未満である。この場合、安全性評価データから複数（例えば、２０個）の類似分子の安全性評価データの多数決により分子の安全性評価の予測結果の妥当性を判定してよい。

　複数（例えば、２０個）の類似分子の安全性評価データのうち、所定数（例えば、１１個）以上の類似分子の安全性評価データが合致しており、合致度が高い場合には、検証部１１０は、予測対象の分子は、安全性評価がＯＫであり、良分解性であると判断し、低確信度のＯＫと見なしてよい。この場合、予測対象の分子の安全性評価はＯＫであり、良分解性を示し、類似分子の安全性評価データを参照した場合も、予測対象の分子の安全性評価はＯＫであり、良分解性を示すことになり、安全性評価データより得られる分子の安全性評価の予測結果と、類似分子の安全性評価データとが整合する。そのため、検証部１１０は、分子の安全性評価の予測結果は妥当であると判定できる。

　一方、複数（例えば、２０個）の類似分子の安全性評価データのうち、所定数（例えば、１１個）未満の類似分子の安全性評価データしか合致せず、合致度が低い場合には、検証部１１０は、予測対象の分子が難分解性であると判断し、低確信度のＮＧと見なせる。この場合、予測対象の分子の安全性評価はＯＫであり、良分解性を示すが、類似分子の安全性評価データを参照した場合には、予測対象の分子の安全性評価はＮＧであり、難分解性を示すため、分子の安全性評価の予測結果と、類似分子の安全性評価データとは整合しない。そのため、検証部１１０は、分子の安全性評価の予測結果は妥当でないと判定できる。

　なお、分子の安全性評価の予測結果と、類似分子の安全性評価データとの合致度を判定する際、検証部１１０は、類似分子の安全性評価データの個数の多数決で判断する以外に、それぞれの類似分子の類似度の合計で判断してもよいし、それぞれの類似分子の類似度に重みを乗じた値の合計で判断してもよい。重みは、それぞれの類似分子ごとに同じ値でもよいし、異なる値でもよい。

　本実施形態では、出力部８０は、予測の確信度が低く、合致度が高い場合には、分子の安全性評価の予測結果が類似分子の安全性評価データと整合することを示すメッセージを出力し、予測の確信度及び合致度が低い場合には、分子の安全性評価の予測結果が類似分子の安全性評価データと整合しないことを示すメッセージを出力してよい。

　メッセージの内容としては、例えば、予測の確信度が低く、合致度が高い場合には、「予測の確信度が５０％未満であるが、分子の安全性評価の予測結果と類似分子の安全性評価データとの整合性は高い。」等としてよい。予測の確信度及び合致度が低い場合には、メッセージの内容は、「予測の確信度が５０％未満であり、分子の安全性評価の予測結果と類似分子の安全性評価データとの整合性も低い。」等としてよい。

＜安全性予測方法＞
　次に、本実施形態に係る安全性予測装置を適用した安全性予測方法について説明する。本実施形態に係る安全性予測装置を適用した安全性予測方法は、図１７に示すような構成を有する安全性予測装置１Ｂを用いて、化合物の安全性の予測を行う方法である。

　本実施形態に係る安全性予測装置１Ｂを適用した安全性予測方法を説明する。図１８は、本実施形態に係る安全性予測方法を説明するフローチャートである。図１８に示すように、安全性予測装置１Ｂは、入力部１０により、安全性を評価する評価対象である、一つ以上の分子の構造式が入力される（入力工程：ステップＳ３１）。

　次に、安全性予測装置１Ｂは、安全性予測部２０により、入力された構造式の記載ミスを確認する（確認工程：ステップＳ３２）。

　確認工程（ステップＳ３２）は、図１２に示す第１の実施形態に係る安全性予測方法の確認工程（ステップＳ２２）と同様であるため、詳細は省略する。なお、確認工程（ステップＳ３２）は行わなくてもよい。

　次に、安全性予測装置１Ｂは、安全性予測部２０により、分子の安全性評価を予測すると共にその予測の確信度を算出し、分子の安全性評価の予測及びその予測の確信度を含む分子の安全性評価の予測結果の表を取得する（分子の安全性評価の予測及びその予測の確信度の算出工程：ステップＳ３３）。

　分子の安全性評価の予測及びその予測の確信度の算出工程（ステップＳ３３）は、図１２に示す第１の実施形態に係る安全性予測方法の分子の安全性評価の予測及びその予測の確信度の算出工程（ステップＳ２３）と同様であるため、詳細は省略する。

　次に、安全性予測装置１Ｂは、類似分子データ検索部３０により、安全性の評価対象の分子の類似分子の安全性評価データを検索して取得する（類似分子の安全性評価データ検索工程：ステップＳ３４）。

　類似分子の安全性評価データの検索工程（ステップＳ３４）は、図１２に示す第１の実施形態に係る安全性予測方法の類似分子の安全性評価データの検索工程（ステップＳ２４）と同様であるため、詳細は省略する。

　次に、安全性予測装置１Ｂは、検証部１１０により、分子の安全性評価の予測及びその予測の確信度の算出工程（ステップＳ３３）の後、予測の確信度が５０％以上か否か判定する（予測の確信度の判定工程：ステップＳ３５）。

　予測の確信度の判定工程（ステップＳ３５）において、予測の確信度が５０％以上の場合（ステップＳ３５：Ｙｅｓ）には、安全性予測装置１Ｂは、出力部８０により、分子の安全性評価の予測結果を出力する（予測結果の出力工程：ステップＳ３６）。

　予測の確信度が５０％未満の場合（ステップＳ３５：Ｎｏ）には、安全性予測装置１Ｂは、検証部１１０により、類似分子の安全性評価データの検索工程（ステップＳ３４）の後、分子の安全性評価の予測結果と、類似分子の安全性評価データとの合致度が高いか否か判定する（合致度の判定工程：ステップＳ３７）。

　分子の安全性評価の予測結果と類似分子の安全性評価データとの合致度が高い場合（ステップＳ３７：Ｙｅｓ）には、安全性予測装置１Ｂは、検証部１１０により、予測の確信度は低いが分子の安全性評価の予測結果は妥当である（低確信度のＯＫ）と見なし、出力部８０により分子の安全性評価の予測結果の表を出力する（分子の安全性評価の予測結果の表の出力工程：ステップＳ３６）。

　分子の安全性評価の予測結果と類似分子の安全性評価データとの合致度が低い場合（ステップＳ３７：Ｎｏ）には、安全性予測装置１Ａは、検証部１１０により、予測の確信度は低く、分子の安全性評価の予測結果は妥当でない（低確信度のＮＧ）と見なす。安全性予測装置１Ａは、統合部４０により、分子の安全性評価の予測及びその予測の確信度の算出工程（ステップＳ３３）で得られた分子の安全性評価の予測結果の表と、類似分子の評価データ検索工程（ステップＳ３４）で得られた類似分子の安全性評価データとを統合し、統合データを得る（統合工程：ステップＳ３８）。

　統合工程（ステップＳ３８）は、図１２に示す第１の実施形態に係る安全性予測方法の統合工程（ステップＳ２５）と同様であるため、詳細は省略する。

　次に、安全性予測装置１Ｂは、出力部８０により、統合部４０によって統合された統合データ（図７参照）を出力する（出力工程：ステップＳ３９）。

　なお、本実施形態に係る安全性予測方法では、分子の安全性評価の予測及びその予測の確信度の算出工程（ステップＳ３３）は、類似分子の安全性評価データ検索工程（ステップＳ３４）と同時に行ってもよいし、類似分子の安全性評価データ検索工程（ステップＳ３４）の後に行ってもよい。

　本実施形態に係る安全性予測装置１Ｂは、上記の第１の実施形態に係る安全性予測装置１Ａの構成に加えて、さらに検証部１１０を備え、検証部１１０で、分子の安全性評価の予測結果の妥当性を検証し、分子の安全性評価の予測結果と、安全性評価データとの合致度を判定する。これにより、安全性予測装置１Ｂは、予測の確信度が低い場合でも、類似分子の安全性評価データを参照して、分子の安全性評価の予測結果と安全性評価データとの合致度を判定することで、安全性の評価の予測が難しい化合物に対しても、化合物の安全性評価をさらに高精度に行なうことができる。よって、安全性予測装置１Ａは、使用者の利便性を更に高めながら、化合物の安全性評価を更に高精度に行なうことができる。

　安全性予測装置１Ｂは、出力部８０が、予測の確信度が高い場合には、分子の安全性評価の予測結果及び予測の確信度に関するメッセージを出力し、予測の確信度が低い場合には、分子の安全性評価の予測結果、予測の確信度及び安全性評価データに関するメッセージを出力できる。安全性予測装置１Ａと同様、使用者は、出力されるメッセージの内容を確認することで、化合物の安全性の評価をより的確に判断することができる。よって、安全性予測装置１Ｂにおいても、使用者の利便性をより高めながら、高精度に化合物の安全性評価を適切に行うことができる。

　安全性予測装置１Ｂは、出力部８０が、予測の確信度が低く、合致度が高い場合には、分子の安全性評価の予測結果が安全性評価データと整合することを示すメッセージを出力でき、予測の確信度及び合致度が低い場合には、分子の安全性評価の予測結果が安全性評価データと整合しないことを示すメッセージを出力できる。これにより、安全性予測装置１Ｂは、使用者に対して、予測された化合物の安全性評価の予測結果と、その安全性評価データとの合致度との内容を提供できる。使用者は、出力されるメッセージの内容を確認することで、化合物の安全性の評価を更に的確に判断することができる。よって、安全性予測装置１Ｂは、使用者の利便性をより高めながら、化合物、特に安全性の評価の予測が難しい化合物の安全性評価をさらに適切に高精度に行なうことができる。

　安全性予測装置１Ｂは、安全性予測装置１Ａと同様、化合物の安全性を簡便かつ低い計算コストで高精度に予測できるため、例えば、化学工業、製薬等において用いられる材料、薬品等に用いられる化合物の安全性を高精度に予測できるため、研究開発、製品の製造等を安全に行うのに好適に用いることができる。

　また、安全性予測装置１Ｂは、安全性予測装置１Ａと同様、生分解性、生物濃縮性、変異原性、魚類急性毒性、甲殻類遊泳阻害毒性、藻類成長阻害毒性、哺乳類反復毒性等の評価試験に有効に用いることができる。

［安全性予測装置１Ａ及び１Ｂのハードウェア構成］
　次に、安全性予測装置１Ａ及び１Ｂのハードウェア構成の一例について説明する。図１９は、安全性予測装置１Ａ及び１Ｂのハードウェア構成を示すブロック図である。図１９に示すように、安全性予測装置１Ａ及び１Ｂは、情報処理装置（コンピュータ）で構成され、物理的には、演算処理部であるＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ：プロセッサ）１０１、主記憶装置であるＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１０２及びＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１０３、入力デバイスである入力装置１０４、出力装置１０５、通信モジュール１０６並びにハードディスク等の補助記憶装置１０７等を含むコンピュータシステムとして構成することができる。これらは、バス１０８で相互に接続されている。なお、出力装置１０５及び補助記憶装置１０７は、外部に設けられていてもよい。

　ＣＰＵ１０１は、安全性予測装置１Ａ及び１Ｂの全体の動作を制御し、各種の情報処理を行う。ＣＰＵ１０１は、ＲＯＭ１０３又は補助記憶装置１０７に格納された安全性予測プログラムを実行して、測定収録画面と解析画面の表示動作を制御する。

　ＲＡＭ１０２は、ＣＰＵ１０１のワークエリアとして用いられ、主要な制御パラメータや情報を記憶する不揮発ＲＡＭを含んでもよい。

　ＲＯＭ１０３は、基本入出力プログラム等を記憶する。安全性予測プログラムはＲＯＭ１０３に保存されてもよい。

　入力装置１０４は、キーボード、マウス、操作ボタン、タッチパネル等である。

　出力装置１０５は、モニタディスプレイ等である。出力装置１０５では、予測結果等が表示され、入力装置１０４や通信モジュール１０６を介した入出力操作に応じて画面が更新される。

　通信モジュール１０６は、ネットワークカード等のデータ送受信デバイスであり、外部のデータ収録サーバ等からの情報を取り込み、他の電子機器に解析情報を出力する通信インタフェースとして機能する。

　補助記憶装置１０７は、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）、及びＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）等の記憶装置であり、例えば、安全性予測装置１Ａ及び１Ｂの動作に必要な各種のデータ、ファイル等を格納する。

　図１及び図１７に示す安全性予測装置１Ａ及び１Ｂの各機能は、ＣＰＵ１０１、ＲＡＭ１０２等の主記憶装置又は補助記憶装置１０７に所定のコンピュータソフトウェア（安全性予測プログラムを含む）を読み込ませ、ＲＡＭ１０２、ＲＯＭ１０３又は補助記憶装置１０７に格納された安全性予測プログラム等をＣＰＵ１０１により実行する。入力装置１０４、出力装置１０５及び通信モジュール１０６を動作させると共に、ＲＡＭ１０２、ＲＯＭ１０３及び補助記憶装置１０７等におけるデータの読み出し及び書き込みを行うことで、安全性予測装置１Ａ及び１Ｂの各機能は、実現される。即ち、本実施形態に係る安全性予測プログラムをコンピュータ上で実行させることで、安全性予測装置１Ａ及び１Ｂは、図１及び図１７の各処理部として機能を実現することができる。

　安全性予測プログラムは、例えばコンピュータが備える記憶装置内に格納される。なお、安全性予測プログラムは、その一部又は全部が、通信回線等の伝送媒体を介して伝送され、コンピュータが備える通信モジュール１０６等により受信されて記録（インストールを含む）される構成としてもよい。また、安全性予測プログラムは、その一部又は全部が、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、フラッシュメモリ等の持ち運び可能な記憶媒体に格納された状態から、コンピュータ内に記録（インストールを含む）される構成としてもよい。

　上記の情報処理装置で実行されるプログラムは、上述した安全性予測装置１Ａ及び１Ｂの各処理部を含むモジュール構成となっており、プロセッサ１０１がこのプログラムを適宜読み出して実行することにより、上述した各処理部がＲＡＭ１０２等のメモリ上に生成されるようになっている。

　安全性予測装置１Ａ及び１Ｂは、複数台の情報処理装置を通信可能に接続したシステムとして構成し、上述した各処理部を複数台の情報処理装置に分散して実現する構成であってもよい。また、クラウドシステム上で動作する仮想マシンであってもよい。

　以上の通り、実施形態を説明したが、上記実施形態は、例として提示したものであり、上記実施形態により本発明が限定されるものではない。上記実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の組み合わせ、省略、置き換え、変更等を行うことが可能である。これら実施形態やその変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

　本出願は、２０２１年９月６日に日本国特許庁に出願した特願２０２１－１４４７５５号に基づく優先権を主張するものであり、特願２０２１－１４４７５５号の全内容を本出願に援用する。

　１Ａ、１Ｂ　化合物の安全性予測装置
　１０　入力部
　２０　安全性予測部
　２１　特徴量算出部
　２２　予測部
　３０　類似分子データ検索部
　３１　類似度評価部
　３２　データ検索部
　３３　安全性評価データベース
　４０　統合部
　５０　記憶部
　６０　モデル学習部
　７０　特性予測モデル
　８０　出力部
　１１０　検証部

Claims

　一つ以上の分子の構造式を入力する入力部と、
　前記分子の安全性評価を予測すると共に前記予測の確信度を算出する安全性予測部と、
　前記分子と類似する類似分子の安全性評価データを取得する類似分子データ検索部と、
　前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データを出力する出力部と、
を備える、化合物の安全性予測装置。
　前記出力部は、前記予測の確信度が高い場合には、前記分子の安全性評価の予測結果及び前記予測の確信度に関するメッセージを出力し、
　前記予測の確信度が低い場合には、前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データに関するメッセージを出力する請求項１に記載の化合物の安全性予測装置。
　前記類似分子の安全性評価データより前記分子の安全性評価の予測結果の妥当性を検証し、前記分子の安全性評価の予測結果と前記類似分子の安全性評価データとの合致度を判定する検証部を備える請求項１に記載の化合物の安全性予測装置。
　前記出力部は、前記予測の確信度が高い場合には、前記分子の安全性評価の予測結果及び前記予測の確信度に関するメッセージを出力し、
　前記予測の確信度が低い場合には、前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データに関するメッセージを出力する請求項３に記載の化合物の安全性予測装置。
　前記予測の確信度が低い場合に、
　前記出力部は、前記合致度が高い場合には、前記分子の安全性評価の予測結果が前記類似分子の安全性評価データと整合することを示すメッセージを出力し、
　前記合致度が低い場合には、前記分子の安全性評価の予測結果が前記類似分子の安全性評価データと整合しないことを示すメッセージを出力する請求項４に記載の化合物の安全性予測装置。
　前記安全性予測部は、
　前記分子の構造式に基づいて前記分子の特徴量を算出する特徴量算出部と、
　前記特徴量に基づいて前記分子の安全性評価を予測すると共に前記予測の確信度を算出する予測部と、
を備える請求項１～５の何れか一項に記載の化合物の安全性予測装置。
　前記特徴量算出部は、前記分子の構造式に基づくフィンガープリント、又は前記分子の構造式に基づいて、量子化学計算により計算された物性値、定量的構造活性相関により推算された物性値及び前記分子の構造式と物性値との関係を学習した学習済みモデルによる予測値の何れか一つ以上を用いて前記分子の特徴量を算出する請求項６に記載の化合物の安全性予測装置。
　前記類似分子データ検索部は、
　前記入力部で入力された前記分子の構造式と、過去に評価された評価済み分子の安全性評価結果が格納された安全性評価データベース中の複数の前記評価済み分子の構造式との類似度を計算する類似度評価部と、
　前記類似度が高い前記評価済み分子の安全性評価結果を前記類似分子の安全性評価データとして取得するデータ検索部と、
を備える請求項１～７の何れか一項に記載の化合物の安全性予測装置。
　一つ以上の分子の構造式を入力する入力工程と、
　前記分子の安全性評価を予測すると共に前記予測の確信度を算出する安全性予測工程と、
　前記分子と類似する類似分子の安全性評価データを取得する類似分子データ検索工程と、
　前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データを出力する出力工程と、
をコンピュータに実行させる、化合物の安全性予測プログラム。
　一つ以上の分子の構造式を入力する入力工程と、
　前記分子の安全性評価を予測すると共に前記予測の確信度を算出する安全性予測工程と、
　前記分子と類似する類似分子の安全性評価データを取得する類似分子データ検索工程と、
　前記分子の安全性評価の予測結果、前記予測の確信度及び前記類似分子の安全性評価データを出力する出力工程と、
を含む、化合物の安全性予測方法。