JPWO2009118845A1

JPWO2009118845A1 - 化合物の予測信頼性評価システム

Info

Publication number: JPWO2009118845A1
Application number: JP2010505086A
Authority: JP
Inventors: 浩太郎湯田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-03-26
Filing date: 2008-03-26
Publication date: 2011-07-21
Anticipated expiration: 2028-03-26
Also published as: WO2009118845A1; JP5087756B2

Abstract

予測モデルを用いて予測対象化合物の目的変数を予測した場合に、その予測の信頼性をシステマティックにかつ定量的に算出することが可能なシステムを提供する。本システムは、予測対象化合物に構造類似する複数の化合物を仮想的に生成する仮想化合物生成装置（１５０）と、前記予測対象化合物と前記生成された各仮想化合物に対して予測モデルを適用し目的変数の予測値を算出する予測値算出装置（１８０）と、前記予測対象化合物の予測値と前記各仮想化合物の予測値との一致の度合いに基づいて、前記予測対象化合物の予測信頼度を算出する予測信頼度算出装置（１９０）とを備える。

Description

本発明は、分類予測モデルを使用して化合物のクラス予測を行う場合に、予測結果の信頼性を評価するためのシステム、方法およびプログラムに関する。

クラス分類問題とは、複数のクラスのうちどのクラスに帰属するかが既知であるサンプルの集団から、そのクラスを分類するための規則を学習し、学習した規則を分類予測モデルのかたちとして使用し、どのクラスに帰属するかが未知のサンプルについてそれが帰属するクラスを予測することである。特に、サンプルセットを２つのクラスに分類する二クラス分類は分類問題中でも最も基本的なものであり、長年にわたって構造−活性相関や構造−物性相関研究に活用され、最近では、化合物毒性等の有無を評価する有用な手法として注目されている。規則を学習するための手法、即ち分類手法には、線形学習機械、判別分析、Ｂａｙｅｓ線形判別分析、ＳＶＭ（サポートベクターマシン）、ＡｄａＢｏｏｓｔ等の線形判別分析法、および、Ｂａｙｅｓ非線形判別分析、ＳＶＭ（サポートベクターマシン＋カーネル）、ニューラルネットワーク、ＫＮＮ法（最近隣法）、決定木等の非線形判別分析法がある。

一般的にクラス分類問題では、必ず誤分類が発生し、分類率を１００％にすることが難しい。ここで「分類率」とは、帰属クラスが既知のサンプルをどの程度正しくクラス分けを行ったのかを示す指標であり、「予測率」とは、分類結果に基づいて作成された予測モデルを使用して帰属クラスが不明のサンプルのクラス分類予測を行った場合、どの程度の数のサンプルが正しくクラス分類されたかを示す指標である。基本的に「分類率」は「予測率」を下回ることはない。従って、「分類率」を上げれば、「予測率」の上限も自動的に上がってくる。この事実から、分類率を高い値にすることが出来れば、予測率も高くなる。また、データ解析の一般的な特徴として、予測モデル作成時に用いるサンプルの数が増えるに従って誤分類されるサンプルも多くなり、結果として全体の分類率が低下することも良く知られている。ここで、誤分類とは、本来はクラス１に帰属するサンプルを誤ってクラス２に帰属するサンプルとして分類することである。これは全体のサンプル数が増えることで、分類上でノイズとなるサンプルの絶対数も増えることが大きな原因である。統計と異なり、多変量解析／パターン認識のような強力なデータ解析手法ではノイズの影響を受けやすく、サンプル数増大は殆どの場合データ解析そのものを困難にする結果となる。

高い分類／予測率が要求される分野として化合物毒性評価が、環境という観点で重用となりつつある。この分野では化合物群を毒性を有する化合物セット（クラス１）と毒性を持たない化合物セット（クラス２）にクラス分類することが多いが、この分野の特徴として毒性発現の要因が複雑で多岐にわたることから、誤分類が発生しやすく、現在存在するデータ解析手法の単純な適用では、分類率を上げることが非常に困難である。

また、分類率の値が高くとも使用するサンプル数が多い場合は誤分類サンプルの絶対数が大きくなるので、この点で注意が必要である。例えば、毒性化合物と非毒性化合物を分類する場合、学習に使用するサンプル数が多い場合、例えば１万個の化合物セットを用いて分類を行う時は、たとえ９０％の分類率が得られていても、１千個の化合物について誤分類されており、この数は無視できない。更に、毒性分類の場合の特徴として、毒性を持たない化合物を毒性を持つと誤分類（フォールスポジティブ）しても大きな影響はないが、毒性化合物を非毒性化合物と誤分類（フォールスネガティブ）することは毒性という特性上非常に危険であり、絶対に避けねばならない問題である。この点でも、分類率は１００％であることが望まれる。

本発明者は、鋭意研究の結果、分類率をほぼ１００％にすることが可能な新しいデータ解析手法を開発し既に報告している（非特許文献１参照）。この手法は、分類を行うためのサンプル母集団に段階的なデータ解析を適用することによって、理論的に１００％の分類率を達成したものであり、その結果、種々の事例において予測率の大幅な向上が見られている。

上述したように、「予測率」とは、作成された予測モデルをクラス未知のサンプルに適用して分類予測を行う場合、分類予測を行うクラス予測対象化合物の総数に対して、どの程度の数のクラス予測対象化合物が正確に分類されたかを示す指標である。例えば、ある予測モデルを使用して１００個のクラス予測対象化合物の予測を行った場合、９０個のサンプルで分類予測が正確であればその予測率は９０％となり、使用した予測モデルは９０％の予測率を有する強力なツールであると評価することができる。

ところが「予測率」が９０％であるということは、１００個の予測対象化合物を予測した場合、１０個の予測対象化合物についての予測結果は間違っていることを意味している。そして、どのサンプルの予測結果が正しく、どれが間違っているかを特定すること、あるいは推定することが出来ない。このことは、上述した化合物の毒性予測の場合などで非常に大きな問題をもたらす。即ち、化合物の毒性予測のように、誤分類結果が深刻な問題を引き起こす分野では、９０％の予測率を達成する予測モデルを使用して予測を行っても、予測結果において誤分類の可能性の高い１０％の予測対象化合物を特定する手段を持たないので、結果的に全ての予測対象化合物について動物実験等を行ってその毒性の有無を確認しなければならない。

本発明者は、実際に化合物毒性予測を行う上でこのような問題に直面し、個々のサンプルの予測結果の信頼性が如何に重要であるかを認識した。そして、「類似化合物（サンプル）は類似活性（例えば、毒性、物性）を持つ」という化学分野では最も良く知られた基本原理に基づいて、予測モデル作成に用いたサンプル母集団の中から予測対象化合物に類似の構造を有するサンプルを取り出し、そのサンプルの実測値を予測対象化合物の予測値と比較することで、予測対象化合物の予測結果の信頼性評価を行うことを考えた。即ち、サンプル母集団から、予測対象の予測対象化合物と構造類似のサンプルを複数個取り出し、それらのサンプルの実測値と予測対象化合物の予測結果とを比較し、両者が一致した場合は予測の信頼性が高い、と判断し、両者が一致しない場合は予測の信頼性が低いと判断する。

このような定性的アプローチによって、個々のサンプルの予測信頼性の評価は一応、可能である。ところが、実際の予測作業においては、サンプル母集団中に予測対象の予測対象化合物と類似の構造を有するサンプルが存在しないかあるいは存在しても１個あるいは２個しかない場合が殆どである。存在しない場合は予測信頼性の評価は困難であり、また、数個存在しそれぞれのサンプルの実測値が一致しない場合にはその結果をどのように扱うかと言う問題が生じる。従って、このような定性的アプローチによる信頼性評価方法は多くの問題を抱え、実用化が困難である。

個々のサンプルの予測信頼性を評価する別の手法として、サンプル母集団に複数のデータ解析手法を適用して複数の予測モデルを得た後、これらの予測モデルを１個の予測対象化合物に適用して複数の予測結果を得る方法がある。得られた予測結果が一致していればその予測対象化合物についての予測の信頼性は高く、一致していなければ予測の信頼性は低いと判断する。しかしながら、この方法では、予測結果が不一致の場合の客観的評価が難しく、１つでも一致しない結果が出ると予測信頼性が無いと判断され、予測の作業性を大幅に低下させる。

なお、フィッティング手法を用いたデータ解析において、「予測精度」という指標が存在するが、これは、現在の議論の対象である「予測信頼性」とは内容が異なる。フィッティングにおける予測精度は、
予測精度＝予測値の分散＋予測値のバイアスの二乗
として示される値であって、予測モデルの予測傾向を評価する指標であり、ここで言う個々の化合物の「予測信頼性」とは全く異なったものである。

「Ｋ−ｓｔｅｐ・Ｙａｒｄ・Ｓａｍｐｌｉｎｇ・Ｍｅｔｈｏｄの開発とＡＤＭＥ−Ｔ予測への適用」３４回構造活性相関シンポジウム、２００６年１１月

本発明は、予測モデルを使用した化合物の分類予測における上記のような問題点を解決する目的でなされたもので、個々の予測対象化合物の予測結果の信頼性を定量的に、かつシステマティックに評価することが可能なシステム、方法およびプログラムを提供することを課題とする。

上記課題を解決するシステムは、予測対象化合物に構造類似する複数の化合物を仮想的に生成する仮想化合物生成装置と、前記予測対象化合物と前記生成された仮想化合物に対して予測モデルを適用し目的変数の予測値を算出する予測値算出装置と、前記予測対象化合物の予測値と前記仮想化合物の予測値との一致の度合いに基づいて前記予測対象化合物の予測信頼度を算出する予測信頼度算出装置と、を備える。

上記課題を解決する方法は、予測対象化合物を準備し、前記予測対象化合物に構造類似する複数の化合物を仮想的に生成し、前記予測対象化合物と前記仮想的に生成した化合物とに同一の予測モデルを適用して各化合物の予測値結果を獲得し、前記予測対象化合物の予測信頼性評価のために前記獲得した各化合物の予測結果の一致度を算出する、各ステップを備える。

上記課題を解決するプログラムは、予測対象化合物を準備し、前記予測対象化合物に構造類似する複数の化合物を仮想的に生成し、前記予測対象化合物と前記仮想的に生成した化合物とに同一の予測モデルを適用して各化合物の予測値結果を獲得し、前記予測対象化合物の予測信頼性評価のために前記獲得した各化合物の予測結果の一致度を算出する、各手順をコンピュータに実行させる。

予測対象化合物の基本骨格に例えばメチル基等を付加することにより、予測対象化合物に構造類似した複数の化合物を仮想的に生成することが出来る。このようにして生成された仮想化合物と予測対象化合物とに同一の予測モデルを適用して、それぞれの化合物の予測値を算出する。化合物の分野では「類似化合物は類似活性（例えば、毒性、物性）を持つ」という基本的な原理が存在し、予測対象化合物と構造類似した仮想化合物に同じ予測モデルを適用することにより、同じ予測結果が期待される。従って、算出した各化合物の予測値の一致度合いを求めることにより、予測対象化合物に対する予測の信頼性をシステマティックにかつ定量的に決定することが出来る。

なお、「仮想的に化合物を生成する」とは、化合物を合成等によって生成するのではなく、構造式レベルで生成することを意味する。この仮想化合物とは、実際に存在する化合物であっても良く、あるいは存在しない化合物であっても良い。

従来の化合物の予測方法では、例え予測率が９５％の予測モデルを用いて目的変数の予測を行っても、特定の化合物の予測結果を評価する術がないため、５％の確率で発生する誤分類化合物を特定するために、各化合物の目的変数の実測値を求める必要が有った。これに対して開示のシステム、方法、プログラムによれば、予測対象化合物の予測の信頼性をシステマティックにかつ定量的に示すことが出来るので、予測信頼性の低い化合物に対してのみ、目的変数の実測値を求めれば良くなる。その結果、分類予測モデルの実用性が大きく向上する。特に、誤った予測結果が重大な問題を引き起こす化合物の毒性予測の分野では、その効果が大きい。

図１は、本発明の一実施形態にかかる化合物の予測評価システムの概略構成を示すブロック図である。図２は、予測信頼度の計算方法の一例を示す図である。図３は、予測信頼度の計算方法の他の例を示す図である。図４は、一実施形態にかかる化合物の予測信頼性評価方法を実施する手順を示すフローチャートである。図５は、本発明の一実施形態に従って生成された仮想化合物グループを示す図である。図６は、本発明の一実施形態に従って生成された仮想化合物グループを示す図である。図７は、本発明の一実施形態に従って仮想化合物を生成する方法を示す図である。図８は、本発明の一実施形態に従って仮想化合物を生成する方法を示す図である。図９は、本発明の一実施形態に従って仮想化合物を生成する方法を示す図である。図１０は、本発明の一実施形態に従って仮想化合物を生成する方法を示す図である。図１１は、本発明の一実施形態に従って仮想化合物を生成する方法を示す図である。図１２は、本発明の一実施形態に従って仮想化合物を生成する方法を示す図である。図１３は、本発明の一実施形態に従って仮想化合物を生成する方法を示す図である。図１４は、本発明の一実施形態に従って仮想化合物を生成する方法を示す図である。図１５は、化合物のＭＯＬファイルを示す図である。図１６は、図１５に示す構造を有する化合物から作成された構造類似化合物のＭＯＬファイルを示す図である。図１７は、本発明の一実施形態にかかるシステムにおいて実施された予測対象化合物と仮想化合物に対する予測結果を示す図である。図１８は、図１７に示す予測対象化合物と一部の仮想化合物の構造を示す図である。図１９は、図１７に示す仮想化合物のうち、図１８に示された以外の仮想化合物の構造を示す図である。

１００予測信頼性評価システム
１１０入力装置
１２０出力装置
１３０制御装置
１４０記憶装置
１５０構造類似化合物の生成装置
１６０パラメータ発生装置
１７０類似度計算装置
１８０予測値算出装置
１９０信頼度算出装置

以下に、図面を参照して種々の実施形態について説明する。なお、以下の図面において同一の符号は同じかあるいは類似の要素を示すので、重複した説明は行わない。

［化合物の予測信頼性評価システム］
図１は、一実施形態にかかる化合物の予測信頼性評価システム１００の概略構造を示すブロック図である。予測信頼性評価システム１００は、予測対象化合物の構造式および予め作成された予測モデルに関するデータを入力するための入力装置１１０、予測結果、予測信頼度および処理途中の必要なデータを出力する出力装置１２０、システム全体の制御を行う制御装置１３０、入力データ、演算途中のデータ、出力データ等を一時保存するための記憶装置１４０を備えている。

システム１００は更に、構造類似化合物の生成装置１５０、予測モデルに基づいて予測対象化合物の目的変数の値、即ち分類予測値を算出するためのパラメータ発生装置１６０、予測対象化合物と仮想化合物との構造の類似度を計算するための類似度計算装置１７０、予測値算出装置１８０および信頼度計算装置１９０を備えている。

入力装置１１０は、予測対象化合物の化合物名、２次元構造式、ＣＡＳ番号等が入力されるとこれをＭＯＬファイルの形式に変換し、予測対象化合物のＭＯＬファイルとして記憶装置１４０に保存する。入力装置１１０からは予め作成された予測モデルも入力され、記憶装置１４０に保存される。構造類似化合物の生成装置１５０は、記憶装置１４０に保存された予測対象化合物のＭＯＬファイルを参照して、予測対象化合物と構造類似の化合物を生成するための装置であり、仮想化合物生成／停止条件の入力・設定部と、仮想化合物生成パターン関連の種々のプログラムを備えている。

入力・設定部は、生成する仮想化合物の最大数、および類似度の閾値を設定する。この設定はユーザによってなされていても良いし、あるいはシステムとしてデフォルト値が設定されていても良い。仮想化合物生成パターン関連プログラムとしては、構造変換パターンの指定、変換箇所数、変換パターンの組合せ等を指定するプログラムであり、１）メチル基（ＭＥ）の付加、削減プログラム、２）原子／結合の変換プログラム、３）官能基の付加、削減プログラム、官能基の変化プログラム、開環、閉環プログラム、架橋、開裂プログラム、立体の変化（物性デザイン分野等）プログラム等を含む。

なお、構造類似化合物の生成装置１５０は、予測対象化合物のＭＯＬファイルに基づいて、自動的に必要な個数の仮想化合物を生成するプログラムを備えていても良いし、あるいはユーザ指定による仮想化合物の入力ユニット１５１を有していても良い。この場合は、ディスプレイ上に表示された予測対象化合物の２次元構造式に、ユーザが所望の部分構造式を付加し、あるいは削減することにより仮想化合物を生成し、システムに入力する。なお、生成された構造類似化合物（仮想化合物）はＭＯＬファイルの形で記憶装置１４０に保存される。

パラメータ発生装置１６０は、予測対象化合物と生成された仮想化合物について、予測モデルを適用するためのパラメータを発生する装置である。予測モデルは、目的変数の値が既知のサンプル母集団に基づいて、既知の種々の手法により予め作成されたものを使用することができる。本システムでは予測信頼度の計算に当たって、どのような予測モデルを用いても良いので、ここでは予測モデルの作成方法については詳述しない。

なお、発明者は、１００％に近い分類率を達成することが出来る二クラス分類予測モデルの作成方法を既に提案しており（ＰＣＴ／２００７／０５６４１２あるいはＰＣＴ／２００７／０７４３３４）、この方法によって作成された予測モデルを使用することが可能である。

類似度計算装置１７０は、公知の種々の構造類似度評価関数を用いて、予測対象化合物と生成された仮想化合物間の類似度を演算する。なお、類似度計算装置１７０は、ユーザ定義による類似度評価関数を使用して、類似度の計算を行うものであっても良い。

予測値算出装置１８０は、パラメータ発生装置１６０で発生された予測対象化合物と仮想化合物についてのパラメータを予測モデルに入力することにより、予測対象化合物と各仮想化合物について、目的変数の値を計算する（予測を実行する）。予測の目的が判別分析の場合、予測モデルは以下の式（１）として示される。
Ｙ＝ａ１・ｘ１±ａ２・ｘ２±・・・±ａｎ・ｘｎ±Ｃ（１）

式（１）において、Ｙは目的変数、ｘ１、ｘ２、・・・、ｘｎは説明変数（パラメータ）、ａ１、ａ２、・・・ａｎは重み係数、Ｃは定数を示す。説明変数（パラメータ）ｘ１、ｘ２、・・・、ｘｎは各化合物によって異なる値であり、パラメータ発生装置１６０において計算される。従って、式（１）に対して、予測対象化合物に対して求めたパラメータ値を代入することにより、予測対象化合物の目的変数の値Ｙ（Ｓ）が求められる。一方、各仮想化合物に対して求めたパラメータ値を式（１）に代入することにより、各仮想化合物の目的変数Ｙ（Ｖ１）、Ｙ（Ｖ２）、・・・が求められる。

信頼度算出装置１９０は、予測対象化合物と仮想化合物の予測結果に対して予め定義されている信頼度計算方法を適用して、予測対象化合物に対する予測の信頼度を計算する。この場合、予測対象化合物の予測の信頼度を、所定個数の仮想化合物の単純な予測結果に基づいて計算する方法、あるいは、予測結果に仮想化合物の構造類似度に基づく重み付けを行って予測の信頼度を計算する方法などがある。

図２は、予測対象化合物（Ｓ）の予測信頼性の計算方法の一例を説明するための図である。今、分類問題が２クラス分類問題であり、予測対象化合物１個に対して１０個の仮想化合物（Ｖ１、Ｖ２・・・Ｖ１０）を生成した場合を考える。図２では、クラス１（例えば、発癌性有り）を＋、クラス２（例えば発癌性無し）を−で示している。図１の予測値算出装置１８０において予測対象化合物（Ｓ）、仮想化合物グループ（Ｖ１、Ｖ２・・・Ｖ１０）に対して予測モデルを適用し、それぞれの予測結果（目的変数の値）＋または−を得る。予測信頼性を評価する第１の計算方法は、仮想化合物グループ中の個々の化合物の予測結果を単純に予測対象化合物の結果と比較し、結果が一致する確率を導出するものである。

即ち、図２の例では予測対象化合物（Ｓ）の目的変数は＋となり、１０個の仮想化合物のうち、７個の仮想化合物（Ｖ１、Ｖ２、Ｖ３、Ｖ４、Ｖ６、Ｖ７、Ｖ９）の目的変数の値が＋となり、３個の仮想化合物（Ｖ５、Ｖ８、Ｖ１０）の目的変数の値が−となった。従って、予測対象化合物（Ｓ）の目的変数の値と一致するのは、目的変数の値が＋となった７個の仮想化合物（Ｖ１、Ｖ２、Ｖ３、Ｖ４、Ｖ６、Ｖ７、Ｖ９）である。予測信頼度を、（予測対象化合物の目的変数の値と一致する目的変数を有する仮想化合物の数）÷（仮想化合物の総数）と定義すれば、予測信頼度は７０％となる。

一方、図３に示す様に、各仮想化合物（Ｖ１、Ｖ２・・・Ｖ１０）の予測対象化合物（Ｓ）に対する構造類似度を重みとして、予測信頼度を計算することも可能である。この場合、予測信頼度を、（予測対象化合物の目的変数の値と一致する目的変数を有する仮想化合物の類似度の総数）÷（仮想化合物の類似度の総数）と定義すれば、予測対象化合物の予測信頼度は７３％となる。

以上のようにして、予測対象化合物の予測結果と、予測信頼度が計算されると、これらを出力装置１２０を介して出力する。出力形態はディスプレイ上への表示、プリントアウト、あるいは出力ファイルとして外部記憶装置に保存するなど、種々の形態が可能である。

図４は、図１に示すシステムを利用して化合物の予測信頼性を評価する手順を示すフローチャートである。まず、ステップＳ１において、予測対象化合物である予測対象化合物を入力する。入力の形態は、化合物の２次元構造式あるいは３次元構造式で有り、あるいは化合物名、ＣＡＳ番号であっても良い。次に、ステップＳ２において予測対象化合物と構造式が微小に異なる仮想化合物を生成するためのパターンを選択する。仮想化合物生成のパターンについては、後述する。ステップＳ２では更に、仮想的に生成する化合物の個数ｎ（例えば１０個）と、構造の類似度の閾値θとを設定する。閾値θは、仮想的に生成された化合物について予測対象化合物との構造の類似度を計算し、類似度がθ以下である場合、生成された化合物を構造類似化合物として採用しないようにする基準となる。なお、「類似度が大」とは構造が類似していることを意味し、「類似度が小」とは構造があまり類似していないことを示す。

ステップＳ３でｋを１に設定し、ステップＳ４で最初の仮想化合物を生成する。なお、本明細書において、仮想化合物とは現実に存在する化合物であるか否かを問わず、予測対象化合物の構造式を微小に変更して生成される構造式を有する化合物を意味する。仮想化合物の構造式の作成方法については後述する。ステップＳ５で、予測対象化合物と作成された仮想化合物に対して、構造類似性を算出するためのパラメータ（構造記述子）を発生する。ステップＳ６で、予測対象化合物と仮想化合物との類似度αを計算する。構造類似度の計算には、現在知られている化合物間の類似度を評価する種々の関数を利用することが出来る。

ステップＳ７では、計算された類似度αがステップＳ２で設定した類似度の閾値θよりも小さいか否かが判定される。類似度αが閾値θよりも小さいか同じ場合（ステップＳ７のＮＯ）、ステップＳ８において現在の仮想化合物を評価用の化合物として選択しないことを決定し、ステップＳ４に戻って再度別の仮想化合物を生成する。ステップＳ７でＹＥＳの場合、即ち類似度αが閾値θよりも大きい場合、現在の仮想化合物を評価用化合物として選択し、記憶装置に記憶する（ステップＳ９）。ステップＳ１０では、ｋが仮想化合物生成の個数ｎに達したか否かを判定し、達していない場合（ステップＳ１０のＮＯ）、ステップＳ１１でｋを１だけ進め、ステップＳ４以下を再度実行する。

以上のようにして、ステップＳ４からステップＳ１１を繰り返して、仮想化合物としてｎ個の化合物が生成されると（ステップＳ１０のＹＥＳ）、ステップＳ１２で予測対象化合物と生成されたｎ個の仮想化合物に対して、分類予測用のパラメータを発生する。分類予測用のパラメータの種類は、予測モデルによって指定されている。次のステップＳ１３では、ステップＳ１２で発生したパラメータに対し予測モデルを適用して、予測対象化合物と仮想化合物グループの目的変数の値を計算し、予測値とする。

なお、予測モデルは、予測しようとする特性あるいは物性の値（目的変数）が既知の複数のサンプルに種々のデータ解析手法を適用することによって生成されるが、本装置は予測モデルの作成方法に依存するものではなく、従ってステップＳ１３では、既知のいずれかの方法を用いて作成された任意の予測モデルを用いれば良い。ステップＳ１４では、ステップＳ１３における予測結果から、予測対象化合物の予測の信頼性を計算する。

以上のようにして、ステップＳ１４において、予測対象化合物の予測結果と仮想化合物グループの予測結果に基づく予測信頼性度とが計算されると、ステップＳ１５において、予測対象化合物の予測結果とその予測信頼性とを、例えばグラフィックディスプレイに表示して一連の処理を終了する。なお、ステップＳ１５における出力は、このようなグラフィックディスプレイ上への表示であっても良いし、あるいはファイルとして記憶装置に記憶するようにしても良い。

以下に、図１の装置および図２のフローチャートにおける主要部について詳細に説明する。

［予測対象化合物に構造類似する仮想化合物の生成］
本方法を実施するには、予測対象化合物を基本としてその類似サンプルを生成することが必用となる。サンプルの類似性は、予測対象化合物との類似性が問題であり、生成された仮想化合物同士の類似性は検討対象外となる。従って、生成する仮想化合物は、予測対象化合物からの化合物構造式の変化が最小であり、かつサンプル母集団内の化合物の構造変化性の大きさよりも充分に小さいことが望まれる。以下に、化合物の類似構造の生成手法について説明する。

［類似化合物の特徴と定義、および生成法］
類似化合物とは、比較される二つのサンプル（化合物）間での構造的な変化性が少ない化合物を意味する。化合物の特性から、構造変化性が少ないということは、化合物を構成する基本となる原子数が似ているということである。従って、化合物の構造変化が少ない（即ち、類似化合物である）ということは、原子数が似ていることといえる。従って、予測対象サンプルを基本として、その化合物から最少の数の原子を取り除く、あるいは付加することで、類似化合物の生成が可能である。

［Ａ−原子や官能基の付加または削減による類似化合物の生成］
類似化合物生成という内容から考えて大きく全く方向性の異なる二種類の構造式変換アプローチが考えられる。これらは、予測対象化合物を起点とし、そのサンプルから原子を取り除いて構造変化を生じさせるアプローチと、逆に予測対象化合物に原子、更にはもう少し大きなグループ（例えば官能基等）を付け加えて構造変化を実現するアプローチである。これが、化合物構造式変化の大きな二大方向性となる。個々のより具体的な化合物構造式変換様式としては、化合物の構造変化性を考えると、原子の種類や数、結合の種類、環構造、架橋構造、縮合構造、芳香属／非芳香族、分子量、立体情報、その他の様々な変化要因が考えられる。今回の目的から考えると、これらの変化要因中、構造式を変えたとしてもその変化の影響が小さい手段を取ることが必要である。

類似化合物の生成として一番に考えられるのは、原子数を削減することである。原子数のみならず、官能基等を削減する、あるいは官能基とは認められないものとする等の構造変化も、対象サンプルをより小さな構造単位とすることによる類似化合物の生成アプローチである。

［Ｂ−最少の数の炭素原子の付加による構造変化］
炭素原子（飽和）は化合物の基本骨格を形成する上で極めて重要な原子である。ところが、炭素原子、特にメチル基（ＭＥ）の付加は、化合物の構造上の変化のみならず、化合物の特性（電子密度関連、種々物性関連、全体的形状、分子量、他）に大きな変化を及ぼさない。また、化合物構造式中、メチル基を追加できる部分は比較的多い。従って、最小数のメチル基を構造式中に追加することで、化合物の全体的な類似性を保ちつつ構造式を変化させることが可能である。

図５および６に、上記Ａ、Ｂに基づいて化合物の構造を変化させた様子を示す。図５の例は、構造変化が比較的小さい事例である。図において、１は構造変化を生じさせる基本となる化合物、即ち、予測対象化合物の構造式を示す。構造式１に対して、メチル基ＭＥ（−ＣＨ_３）の付加、原子の置換（（Ｆ→Ｃｌ），（Ｆ→Ｃ）を行うことによって構造式２〜８を生成することが出来る。図６は、構造変化が比較的大きい事例である。構造変化が大きいといっても、図５の事例と比較した場合のことであって、本格的な化合物構造変化とは異なっている。

ここで、構造変化が比較的大きいという根拠は、構造変化を起している場所が二箇所以上あること、所謂、極性の大きなヘテロ原子（Ｏ；酸素、Ｓ；硫黄）が導入／置換されていること、および、原子レベルの変化からより大きな官能基レベルの変化（（ケトン→チオケトン、イミン、オレフィン）、（ケトン→水酸基）、（Ｆ→水酸基）、（Ｆ→メトキシ））等があることである。このようなレベルでの構造変化の場合、電子密度等の構造以外の要因も変化しているものと考えられる。図６において、符号１０〜１９は、予測対象化合物の構造式１に対して、比較的大きな構造変化を付加して生成された新たな構造式を示している。

以上のような考察を踏まえ、一実施形態の装置では、図１の構造類似化合物の生成装置１５０あるいは図２のステップＳ４において仮想化合物を生成するにあたって、次のような化合物生成パターンを採用することができる。なお、以下の［Ｃ］から［Ｉ］に示す類似化合物生成パターンは、図１の類似化合物の生成装置１５０あるいは図４のステップＳ２において任意の一個のパターンを選択しても良いし、あるいは、複数のパターンの適宜の組合せを選択して類似化合物を生成するようにしても良い。

［Ｃ］図７に示す様に、予測対象化合物の構造式１にメチル基１個を付加し、構造式７とする。通常、予測対象化合物の基本構造中にメチル基を付加する場所が複数個あるため、この変更によって複数の仮想化合物が生成される。メチル基追加の特徴は、基本的に１原子だけの追加（水素は除く）であり、またメチル基の追加が化合物の様々な特性に及ぼす変化が小さいということである。従って、予測対象化合物の構造変化を小さくして仮想化合物を生成しようとする場合に、都合の良いパターンとなる。

［Ｄ］図８に示す様に、予測対象化合物の構造式１にメチル基２個を付加し、構造式２０とする。メチル基２個を付加するサイトの組合せによって、図示の例では３個の仮想化合物が生成される。

［Ｅ］エチル基１個を付加する（図示せず）。メチル基の付加の場合と同様に、この変更によって複数の仮想化合物が生成される。エチル基（−ＣＨ_２ＣＨ_３）はメチル基に比べて炭素原子の数が１個多く、その分、メチル基の付加よりも構造変化が大きい。

［Ｆ］エチル基２個を付加する（図示せず）。メチル基の付加の場合と同様に、この変更によって複数の仮想化合物が生成される。

［Ｇ］予測対象化合物中の１個の原子を他の原子に置換する。図９に示す例では、予測対象化合物１中の酸素原子を硫黄原子に置換して、仮想化合物２１を生成している。図１０に示す例では、予測対象化合物１中のフッ素原子を塩素原子に置換し、仮想化合物２２を生成している。この構造変化の場合は、原子の結合次数を変えていない。従って、原子の種類を変えると言う比較的大きな変化を与えているが、構造に与える変化はさほど大きくない。メチル基、エチル基の付加と異なり、ヘテロ原子を変化させると、電子関連の環境が比較的大きく変化する。従って、原子の変換によって生じる構造的な変化は小さいが、電子的な環境における変化は比較的大きい。

［Ｈ］予測対象化合物中の官能基を異なる官能基に変える。図１１の例では、予測対象化合物１中のケトン基をメチレン基に変更することによって、仮想化合物２３を生成している。図１２の例では、予測対象化合物１中のケトン基を水酸基に変更することによって、仮想化合物２４を生成している。官能基レベルを置換することによる構造の変化量は比較的大きい。更に、構造からは見えない電子的な変化、結果としての化合物特性等の変化も大きい。しかしながら、化合物のサイズが大きくなると、内部にこのような変化があっても、化合物全体の構造変化に与える影響は大きくない。従って、予測対象化合物が化合物サイズの大きいものである場合、このような官能基レベルの置換も仮想化合物の生成のために有効である。

［Ｉ］予測対象化合物中の原子を１個、削減する。図１３の例では、予測対象化合物１中のフッ素原子を１個削減して、仮想化合物２５を生成する。図１４の例では、予測対象化合物１中のメチル基を１個削減して、仮想化合物２６を生成する。元の構造式からの原子の削減、あるいは官能基の削減は、化合物の構造に与える影響が大きく、従って６）の場合と同様に予測対象化合物の化合物サイズが大きい場合に有効な手法である。

なお、システム上で仮想化合物を生成するためには、基本構造式を表示するグラフィックディスプレイとの対話によって、ユーザが、基本構造式に部分構造式を付加する操作を行うことによって実行される。あるいは、上記［Ｃ］から［Ｉ］の仮想化合物生成パターンに従って自動的に仮想化合物を生成するプログラムを作成することも可能である。また、図４のフローチャートでは、仮想化合物を仮想化合物の生成基準に従ってシステムにおいて自動的に生成しているが、図１のシステムに示す様に、ユーザの責任において予測対象化合物に対して構造類似の化合物を生成し、システムに仮想化合物として入力することも可能である。

［構造式のＭＯＬファイルへの変換］
次に、例えば二次元構造式の形でコンピュータ上に入力された予測対象化合物から、仮想化合物のファイルを作成するための一手法について説明する。この手法では、ケモインフォマティクスにおいて汎用されているＭＯＬファイルを利用する。

図１５は、予測対象化合物１の２次元構造式１とその構造を記載したＭＯＬファイル３０を示す。例えば、ＣｈａｍｂｒｉｄｇｅＳｏｆｔ社のＣｈｅｍＤｒａｗを用いて予測対象化合物１の構造式を入力すると、この構造式は文字および数値情報のファイルであるＭＯＬファイルとして保存される。このＭＯＬファイルがあれば、いつでも化合物の構造式は再現可能である。図１５は、予測対象化合物１にメチル基（ＭＥ）１個を追加し、更にＦ原子１個をＣｌ原子に変更した仮想化合物２（図５参照）の２次元構造式とそのＭＯＬファイル３１を示す。コンピュータのメモリ（図１の記憶装置１４０）内に、予測対象化合物のＭＯＬファイルと、その構造を一部変化させた仮想化合物のＭＯＬファイルを保存しておくことにより、これらの化合物の構造式を任意の時点で再現することが可能である。

［類似度の計算］
図１および２に示す実施形態では、１個の仮想化合物を生成すると、その仮想化合物の予測対象化合物に対する類似度を計算する。類似度評価のために種々の方法が提案されているが、どのような計算方法を採用しても良い。あるいは、ユーザ定義による類似度評価関数を使用しても良い。ユーザ定義による類似度評価関数としては、例えば、予測対象化合物に対してＭＥ基を付加して仮想化合物を生成する場合、ＭＥ基の数を類似度評価関数にするものなどが考えられる。この例については、後述の、発明者が行った実験例を説明する項において詳細に説明する。

なお、化合物の構造類似度を評価する既存の関数として、例えば以下の６個の評価関数をあげることができる。これらの評価関数は何れも周知のものであり、従ってその詳細についてここでは説明しない。以下の式において、ｘ_ｊｋはそれぞれ化合物ｉおよび化合物ｊについてのｋ番目の記述子の値を表す。

（ａ）ユークリッド距離（ＳＥＤ）：

（ｂ）Ｔａｎｉｍｏｔｏ係数（ＴＣ）：

（ｃ）Ｃｏｓｉｎｅ係数（ＳＣ）：

（ｄ）Ｐｅａｒｓｏｎ’ｓ相関係数（ＳＰ）：

［予測信頼性評価の実験例］
以下に、図１７〜図１９を参照して、アセトアミノフェンを予測対象化合物として予測信頼性の評価を行った場合の実験結果を示す。図１７は、ＩＤ番号１のアセトアミノフェンを予測対象サンプルとし、このサンプルに構造類似する２０個の仮想化合物（ＩＤ番号８〜２７）を発生させ、予測対象化合物と各仮想化合物に対して発癌性と２種類の変異原性試験（ＡＭＥＳ−ＴＡ１００、ＡＭＥＳ−ＴＡ９８）結果を予測した結果を示す。仮想化合物８〜２７の構造を図１８および図１９に示す。本実験では、予測対象サンプルであるアセトアミノフェン（ＩＤ番号１）に対して、メチル基（ＭＥ）を付加することによって構造類似サンプルを生成した。

例えば、図１７のＩＤ番号８に示す仮想化合物は、図１８の８に示す様に、アセトアミノフェンのベンゼン環に１個のＭＥを付加して構成している。ＩＤ番号９の仮想化合物はＩＤ番号８の仮想化合物とは異なる位置に１個のＭＥを付加している。ＩＤ番号１３の仮想化合物は、アセトアミノフェンのベンゼン環に２個のＭＥを付加している。ＩＤ番号１６の仮想化合物はアセトアミノフェンの酸素原子にＭＥを付加している。このように、アセトアミノフェンの基本構造の種々の位置に１個あるいは２個以上のＭＥを付加することによって、図１８および図１９に示す２０個の仮想化合物を生成した。

発明者は、予測対象サンプルと仮想化合物との類似度を算出するにあたって、付加したＭＥの個数を基準として類似度得点を算出する、ユーザ定義の類似度を採用した。即ち、ＭＥ（メチル基）１個の付加を１点とし、付加されたＭＥがベンゼン環以外のＣ、Ｎ、Ｏ原子に繋がる場合に０．２５点を追加することにより、類似度得点を計算する。この場合、予測対象サンプルの類似度得点は０点となる。図１７のＩＤ番号８の仮想化合物は、ベンゼン環に１個のＭＥが付加された構造を有しているため、類似度得点は１となる。ＩＤ番号１０の仮想化合物は、ベンゼン環ではない炭素原子にＭＥが付加されているので、類似度得点は１．２５となる。ＩＤ番号１１の仮想化合物はベンゼン環に２個のＭＥが付加されているので、類似度得点は２となる。この場合は、類似度得点が小さい仮想化合物が予測対象サンプルに対して大きい類似度を有する。なお、図１７に示す２０個の仮想化合物は、類似度得点の閾値を５として生成したものである。

図１７は、ＩＤ番号１の予測対象サンプルと、ＩＤ番号８〜２７の仮想化合物に対して、目的変数を発癌性の有無、変異原性の有無として、既存の予測モデルを適用して予測を行った結果を示している。なお、図１７で、ＡＭＥＳ−ＴＡ１００は菌ＴＡ１００を用いる変異原性試験を示し、ＡＭＥＳ−ＴＡ９８は菌ＴＡ９８を用いる変異原性試験を示している。

予測モデルを適用して発癌性の予測を行った結果、予測対象サンプルであるアセトアミノフェンは発癌性無し、と予測された。ＩＤ番号２３の化合物を除いた１９個の仮想化合物も同様に発癌性無し、と予測された。従って、単純に予測結果のみを比較する信頼性評価方法によれば、発癌性の予測信頼度は９５％となる。一方、類似度の上位１０位（類似度得点の下位１０位）の仮想化合物を予測信頼度の評価に使用した場合は、予測信頼度は１００％となる。ＡＭＥＳ−ＴＡ１００では、予測対象サンプル、仮想化合物全てが変異原性無し、と予測された。従って、予測対象サンプル（アセトアミノフェン）のＡＭＥＳ−ＴＡ１００における予測信頼度は１００％となる。ＡＭＥＳ−ＴＡ９８の場合は、２０個の仮想化合物のうち６個の予測値が予測対象サンプルであるアセトアミノフェンの予測結果と異なっていた。従ってその予測信頼度は７０％となる。この場合、類似度の上位１０個の仮想化合物から予測信頼度を計算しても７０％と言う結果が得られる。

なお、予測対象サンプルとして用いたアセトアミノフェンの場合、発癌性、ＡＭＥＳ−ＴＡ１００、ＡＭＥＳ−ＴＡ９８の実測値は何れも“無し”であった。

以上のように、予測モデルを使用した予測対象サンプルの予測結果に対して、予測対象サンプルと構造類似する複数の仮想化合物の予測結果を付加することにより、予測結果の信頼性を定量的に評価することが可能となる。従って、信頼性の低い予測結果に対しては、発癌性試験等を行って実測値を得ることを促すコメントを付加するようにしても良い。

Claims

予測対象化合物に構造類似する複数の化合物を仮想的に生成する仮想化合物生成装置と、
前記予測対象化合物と前記生成された各仮想化合物に対して予測モデルを適用し目的変数の予測値を算出する予測値算出装置と、
前記予測対象化合物の予測値と前記各仮想化合物の予測値との一致の度合いに基づいて、前記予測対象化合物の予測信頼度を算出する予測信頼度算出装置と、を備える、化合物の予測信頼性評価システム。
請求項１に記載のシステムにおいて、前記仮想化合物生成装置は、前記予測対象化合物との構造の類似度が予め決定した一定値以上の化合物を仮想化合物として生成する、化合物の予測信頼性評価システム。
請求項１に記載のシステムにおいて、前記予測信頼度算出装置は、前記仮想化合物の予測値に個々の仮想化合物の前記予測対象化合物との構造の類似度に基づく重み付けを行って予測信頼度を算出する、化合物の予測信頼性評価システム。
請求項１に記載のシステムにおいて、前記仮想化合物生成装置は、ユーザによって指定された仮想化合物を入力する入力ユニットを含む、化合物の予測信頼性評価システム。
請求項１に記載のシステムにおいて、前記仮想化合物生成装置は、予測対象化合物に原子又は官能基を付加することによって仮想化合物を生成する、化合物の予測信頼性評価システム。
請求項１に記載のシステムにおいて、前記仮想化合物生成装置は、予測対象化合物から原子又は官能基を削除することによって仮想化合物を生成する、化合物の予測信頼性評価システム。
請求項１に記載のシステムにおいて、前記仮想化合物生成装置は、予測対象化合物に少なくとも１個のメチル基を付加することにより仮想化合物を生成する、化合物の予測信頼性評価システム。
請求項１に記載のシステムにおいて、前記仮想化合物生成装置は、予測対象化合物のベンゼン環以外のＣ、Ｏ、ＳまたはＮ原子にメチル基を付加することにより、仮想化合物を生成する、化合物の予測信頼性評価システム。
予測対象化合物を準備し、
前記予測対象化合物に構造類似する複数の化合物を仮想的に生成し、
前記予測対象化合物と前記仮想的に生成した化合物とに同一の予測モデルを適用して各化合物の予測値結果を獲得し、
前記予測対象化合物の予測信頼性評価のために前記獲得した各化合物の予測結果の一致度を算出する、各ステップを備える、化合物の予測信頼性の評価方法。
請求項９に記載の方法において、前記仮想化合物を生成するステップは、前記予測対象化合物との構造の類似度が予め決定した一定値以上の化合物を仮想化合物として生成する、化合物の予測信頼性の評価方法。
請求項９に記載の方法において、前記予測結果の一致度を算出するステップは、前記仮想化合物の予測値に個々の仮想化合物の前記予測対象化合物との構造の類似度に基づく重み付けを行って予測信頼度を算出する、化合物の予測信頼性の評価方法。
請求項９に記載の方法において、前記仮想化合物を生成するステップは、予測対象化合物に原子又は官能基を付加することによって仮想化合物を生成するステップを含む、化合物の予測信頼性評価方法。
請求項９に記載の方法において、前記仮想化合物を生成するステップは、予測対象化合物から原子又は官能基を削除することによって仮想化合物を生成するステップを含む、化合物の予測信頼性評価方法。
請求項９に記載の方法において、前記仮想化合物を生成するステップは、予測対象化合物に少なくとも１個のメチル基を付加することにより仮想化合物を生成するステップを含む、化合物の予測信頼性評価方法。
請求項９に記載の方法において、前記仮想化合物を生成するステップは、予測対象化合物のベンゼン環以外のＣ、Ｏ、ＳまたはＮ原子にメチル基を付加することにより、仮想化合物を生成するステップを含む、化合物の予測信頼性評価方法。
予測対象化合物を入力する手順と、
前記予測対象化合物に構造類似する複数の化合物を仮想的に生成する手順と、
前記予測対象化合物と前記仮想的に生成した化合物とに同一の予測モデルを適用して各化合物の予測値結果を獲得する手順と、
前記予測対象化合物の予測信頼性評価のために前記獲得した各化合物の予測結果の一致度を算出する手順と、
前記算出した結果を予測対象化合物の予測結果と共に出力する手順と、をコンピュータに実行させるための、化合物の予測信頼性評価プログラム。
請求項１６に記載のプログラムにおいて、前記仮想化合物を生成する手順は、前記予測対象化合物との構造の類似度が予め決定した一定値以上の化合物を仮想化合物として生成する、化合物の予測信頼性評価プログラム。
請求項１６に記載のプログラムにおいて、前記予測結果の一致度を算出する手順は、前記仮想化合物の予測値に個々の仮想化合物の前記予測対象化合物との構造の類似度に基づく重み付けを行って予測信頼度を算出する、化合物の予測信頼性評価プログラム。
請求項１６に記載のプログラムにおいて、前記仮想化合物を生成する手順は、予測対象化合物に原子又は官能基を付加することによって仮想化合物を生成する手順を含む、化合物の予測信頼性評価プログラム。
請求項１６に記載のプログラムにおいて、前記仮想化合物を生成する手順は、予測対象化合物に少なくとも１個のメチル基を付加することにより仮想化合物を生成する手順を含む、化合物の予測信頼性評価プログラム。