JPWO2009118845A1 - 化合物の予測信頼性評価システム - Google Patents

化合物の予測信頼性評価システム Download PDF

Info

Publication number
JPWO2009118845A1
JPWO2009118845A1 JP2010505086A JP2010505086A JPWO2009118845A1 JP WO2009118845 A1 JPWO2009118845 A1 JP WO2009118845A1 JP 2010505086 A JP2010505086 A JP 2010505086A JP 2010505086 A JP2010505086 A JP 2010505086A JP WO2009118845 A1 JPWO2009118845 A1 JP WO2009118845A1
Authority
JP
Japan
Prior art keywords
compound
prediction
virtual
prediction target
target compound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010505086A
Other languages
English (en)
Other versions
JP5087756B2 (ja
Inventor
浩太郎 湯田
浩太郎 湯田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2009118845A1 publication Critical patent/JPWO2009118845A1/ja
Application granted granted Critical
Publication of JP5087756B2 publication Critical patent/JP5087756B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures

Landscapes

  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Computing Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)

Abstract

予測モデルを用いて予測対象化合物の目的変数を予測した場合に、その予測の信頼性をシステマティックにかつ定量的に算出することが可能なシステムを提供する。本システムは、予測対象化合物に構造類似する複数の化合物を仮想的に生成する仮想化合物生成装置(150)と、前記予測対象化合物と前記生成された各仮想化合物に対して予測モデルを適用し目的変数の予測値を算出する予測値算出装置(180)と、前記予測対象化合物の予測値と前記各仮想化合物の予測値との一致の度合いに基づいて、前記予測対象化合物の予測信頼度を算出する予測信頼度算出装置(190)とを備える。

Description

本発明は、分類予測モデルを使用して化合物のクラス予測を行う場合に、予測結果の信頼性を評価するためのシステム、方法およびプログラムに関する。
クラス分類問題とは、複数のクラスのうちどのクラスに帰属するかが既知であるサンプルの集団から、そのクラスを分類するための規則を学習し、学習した規則を分類予測モデルのかたちとして使用し、どのクラスに帰属するかが未知のサンプルについてそれが帰属するクラスを予測することである。特に、サンプルセットを2つのクラスに分類する二クラス分類は分類問題中でも最も基本的なものであり、長年にわたって構造−活性相関や構造−物性相関研究に活用され、最近では、化合物毒性等の有無を評価する有用な手法として注目されている。規則を学習するための手法、即ち分類手法には、線形学習機械、判別分析、Bayes線形判別分析、SVM(サポートベクターマシン)、AdaBoost等の線形判別分析法、および、Bayes非線形判別分析、SVM(サポートベクターマシン+カーネル)、ニューラルネットワーク、KNN法(最近隣法)、決定木等の非線形判別分析法がある。
一般的にクラス分類問題では、必ず誤分類が発生し、分類率を100%にすることが難しい。ここで「分類率」とは、帰属クラスが既知のサンプルをどの程度正しくクラス分けを行ったのかを示す指標であり、「予測率」とは、分類結果に基づいて作成された予測モデルを使用して帰属クラスが不明のサンプルのクラス分類予測を行った場合、どの程度の数のサンプルが正しくクラス分類されたかを示す指標である。基本的に「分類率」は「予測率」を下回ることはない。従って、「分類率」を上げれば、「予測率」の上限も自動的に上がってくる。この事実から、分類率を高い値にすることが出来れば、予測率も高くなる。また、データ解析の一般的な特徴として、予測モデル作成時に用いるサンプルの数が増えるに従って誤分類されるサンプルも多くなり、結果として全体の分類率が低下することも良く知られている。ここで、誤分類とは、本来はクラス1に帰属するサンプルを誤ってクラス2に帰属するサンプルとして分類することである。これは全体のサンプル数が増えることで、分類上でノイズとなるサンプルの絶対数も増えることが大きな原因である。統計と異なり、多変量解析/パターン認識のような強力なデータ解析手法ではノイズの影響を受けやすく、サンプル数増大は殆どの場合データ解析そのものを困難にする結果となる。
高い分類/予測率が要求される分野として化合物毒性評価が、環境という観点で重用となりつつある。この分野では化合物群を毒性を有する化合物セット(クラス1)と毒性を持たない化合物セット(クラス2)にクラス分類することが多いが、この分野の特徴として毒性発現の要因が複雑で多岐にわたることから、誤分類が発生しやすく、現在存在するデータ解析手法の単純な適用では、分類率を上げることが非常に困難である。
また、分類率の値が高くとも使用するサンプル数が多い場合は誤分類サンプルの絶対数が大きくなるので、この点で注意が必要である。例えば、毒性化合物と非毒性化合物を分類する場合、学習に使用するサンプル数が多い場合、例えば1万個の化合物セットを用いて分類を行う時は、たとえ90%の分類率が得られていても、1千個の化合物について誤分類されており、この数は無視できない。更に、毒性分類の場合の特徴として、毒性を持たない化合物を毒性を持つと誤分類(フォールスポジティブ)しても大きな影響はないが、毒性化合物を非毒性化合物と誤分類(フォールスネガティブ)することは毒性という特性上非常に危険であり、絶対に避けねばならない問題である。この点でも、分類率は100%であることが望まれる。
本発明者は、鋭意研究の結果、分類率をほぼ100%にすることが可能な新しいデータ解析手法を開発し既に報告している(非特許文献1参照)。この手法は、分類を行うためのサンプル母集団に段階的なデータ解析を適用することによって、理論的に100%の分類率を達成したものであり、その結果、種々の事例において予測率の大幅な向上が見られている。
上述したように、「予測率」とは、作成された予測モデルをクラス未知のサンプルに適用して分類予測を行う場合、分類予測を行うクラス予測対象化合物の総数に対して、どの程度の数のクラス予測対象化合物が正確に分類されたかを示す指標である。例えば、ある予測モデルを使用して100個のクラス予測対象化合物の予測を行った場合、90個のサンプルで分類予測が正確であればその予測率は90%となり、使用した予測モデルは90%の予測率を有する強力なツールであると評価することができる。
ところが「予測率」が90%であるということは、100個の予測対象化合物を予測した場合、10個の予測対象化合物についての予測結果は間違っていることを意味している。そして、どのサンプルの予測結果が正しく、どれが間違っているかを特定すること、あるいは推定することが出来ない。このことは、上述した化合物の毒性予測の場合などで非常に大きな問題をもたらす。即ち、化合物の毒性予測のように、誤分類結果が深刻な問題を引き起こす分野では、90%の予測率を達成する予測モデルを使用して予測を行っても、予測結果において誤分類の可能性の高い10%の予測対象化合物を特定する手段を持たないので、結果的に全ての予測対象化合物について動物実験等を行ってその毒性の有無を確認しなければならない。
本発明者は、実際に化合物毒性予測を行う上でこのような問題に直面し、個々のサンプルの予測結果の信頼性が如何に重要であるかを認識した。そして、「類似化合物(サンプル)は類似活性(例えば、毒性、物性)を持つ」という化学分野では最も良く知られた基本原理に基づいて、予測モデル作成に用いたサンプル母集団の中から予測対象化合物に類似の構造を有するサンプルを取り出し、そのサンプルの実測値を予測対象化合物の予測値と比較することで、予測対象化合物の予測結果の信頼性評価を行うことを考えた。即ち、サンプル母集団から、予測対象の予測対象化合物と構造類似のサンプルを複数個取り出し、それらのサンプルの実測値と予測対象化合物の予測結果とを比較し、両者が一致した場合は予測の信頼性が高い、と判断し、両者が一致しない場合は予測の信頼性が低いと判断する。
このような定性的アプローチによって、個々のサンプルの予測信頼性の評価は一応、可能である。ところが、実際の予測作業においては、サンプル母集団中に予測対象の予測対象化合物と類似の構造を有するサンプルが存在しないかあるいは存在しても1個あるいは2個しかない場合が殆どである。存在しない場合は予測信頼性の評価は困難であり、また、数個存在しそれぞれのサンプルの実測値が一致しない場合にはその結果をどのように扱うかと言う問題が生じる。従って、このような定性的アプローチによる信頼性評価方法は多くの問題を抱え、実用化が困難である。
個々のサンプルの予測信頼性を評価する別の手法として、サンプル母集団に複数のデータ解析手法を適用して複数の予測モデルを得た後、これらの予測モデルを1個の予測対象化合物に適用して複数の予測結果を得る方法がある。得られた予測結果が一致していればその予測対象化合物についての予測の信頼性は高く、一致していなければ予測の信頼性は低いと判断する。しかしながら、この方法では、予測結果が不一致の場合の客観的評価が難しく、1つでも一致しない結果が出ると予測信頼性が無いと判断され、予測の作業性を大幅に低下させる。
なお、フィッティング手法を用いたデータ解析において、「予測精度」という指標が存在するが、これは、現在の議論の対象である「予測信頼性」とは内容が異なる。フィッティングにおける予測精度は、
予測精度=予測値の分散+予測値のバイアスの二乗
として示される値であって、予測モデルの予測傾向を評価する指標であり、ここで言う個々の化合物の「予測信頼性」とは全く異なったものである。
「K−step・Yard・Sampling・Methodの開発とADME−T予測への適用」34回構造活性相関シンポジウム、2006年11月
本発明は、予測モデルを使用した化合物の分類予測における上記のような問題点を解決する目的でなされたもので、個々の予測対象化合物の予測結果の信頼性を定量的に、かつシステマティックに評価することが可能なシステム、方法およびプログラムを提供することを課題とする。
上記課題を解決するシステムは、予測対象化合物に構造類似する複数の化合物を仮想的に生成する仮想化合物生成装置と、前記予測対象化合物と前記生成された仮想化合物に対して予測モデルを適用し目的変数の予測値を算出する予測値算出装置と、前記予測対象化合物の予測値と前記仮想化合物の予測値との一致の度合いに基づいて前記予測対象化合物の予測信頼度を算出する予測信頼度算出装置と、を備える。
上記課題を解決する方法は、予測対象化合物を準備し、前記予測対象化合物に構造類似する複数の化合物を仮想的に生成し、前記予測対象化合物と前記仮想的に生成した化合物とに同一の予測モデルを適用して各化合物の予測値結果を獲得し、前記予測対象化合物の予測信頼性評価のために前記獲得した各化合物の予測結果の一致度を算出する、各ステップを備える。
上記課題を解決するプログラムは、予測対象化合物を準備し、前記予測対象化合物に構造類似する複数の化合物を仮想的に生成し、前記予測対象化合物と前記仮想的に生成した化合物とに同一の予測モデルを適用して各化合物の予測値結果を獲得し、前記予測対象化合物の予測信頼性評価のために前記獲得した各化合物の予測結果の一致度を算出する、各手順をコンピュータに実行させる。
予測対象化合物の基本骨格に例えばメチル基等を付加することにより、予測対象化合物に構造類似した複数の化合物を仮想的に生成することが出来る。このようにして生成された仮想化合物と予測対象化合物とに同一の予測モデルを適用して、それぞれの化合物の予測値を算出する。化合物の分野では「類似化合物は類似活性(例えば、毒性、物性)を持つ」という基本的な原理が存在し、予測対象化合物と構造類似した仮想化合物に同じ予測モデルを適用することにより、同じ予測結果が期待される。従って、算出した各化合物の予測値の一致度合いを求めることにより、予測対象化合物に対する予測の信頼性をシステマティックにかつ定量的に決定することが出来る。
なお、「仮想的に化合物を生成する」とは、化合物を合成等によって生成するのではなく、構造式レベルで生成することを意味する。この仮想化合物とは、実際に存在する化合物であっても良く、あるいは存在しない化合物であっても良い。
従来の化合物の予測方法では、例え予測率が95%の予測モデルを用いて目的変数の予測を行っても、特定の化合物の予測結果を評価する術がないため、5%の確率で発生する誤分類化合物を特定するために、各化合物の目的変数の実測値を求める必要が有った。これに対して開示のシステム、方法、プログラムによれば、予測対象化合物の予測の信頼性をシステマティックにかつ定量的に示すことが出来るので、予測信頼性の低い化合物に対してのみ、目的変数の実測値を求めれば良くなる。その結果、分類予測モデルの実用性が大きく向上する。特に、誤った予測結果が重大な問題を引き起こす化合物の毒性予測の分野では、その効果が大きい。
図1は、本発明の一実施形態にかかる化合物の予測評価システムの概略構成を示すブロック図である。 図2は、予測信頼度の計算方法の一例を示す図である。 図3は、予測信頼度の計算方法の他の例を示す図である。 図4は、一実施形態にかかる化合物の予測信頼性評価方法を実施する手順を示すフローチャートである。 図5は、本発明の一実施形態に従って生成された仮想化合物グループを示す図である。 図6は、本発明の一実施形態に従って生成された仮想化合物グループを示す図である。 図7は、本発明の一実施形態に従って仮想化合物を生成する方法を示す図である。 図8は、本発明の一実施形態に従って仮想化合物を生成する方法を示す図である。 図9は、本発明の一実施形態に従って仮想化合物を生成する方法を示す図である。 図10は、本発明の一実施形態に従って仮想化合物を生成する方法を示す図である。 図11は、本発明の一実施形態に従って仮想化合物を生成する方法を示す図である。 図12は、本発明の一実施形態に従って仮想化合物を生成する方法を示す図である。 図13は、本発明の一実施形態に従って仮想化合物を生成する方法を示す図である。 図14は、本発明の一実施形態に従って仮想化合物を生成する方法を示す図である。 図15は、化合物のMOLファイルを示す図である。 図16は、図15に示す構造を有する化合物から作成された構造類似化合物のMOLファイルを示す図である。 図17は、本発明の一実施形態にかかるシステムにおいて実施された予測対象化合物と仮想化合物に対する予測結果を示す図である。 図18は、図17に示す予測対象化合物と一部の仮想化合物の構造を示す図である。 図19は、図17に示す仮想化合物のうち、図18に示された以外の仮想化合物の構造を示す図である。
100 予測信頼性評価システム
110 入力装置
120 出力装置
130 制御装置
140 記憶装置
150 構造類似化合物の生成装置
160 パラメータ発生装置
170 類似度計算装置
180 予測値算出装置
190 信頼度算出装置
以下に、図面を参照して種々の実施形態について説明する。なお、以下の図面において同一の符号は同じかあるいは類似の要素を示すので、重複した説明は行わない。
[化合物の予測信頼性評価システム]
図1は、一実施形態にかかる化合物の予測信頼性評価システム100の概略構造を示すブロック図である。予測信頼性評価システム100は、予測対象化合物の構造式および予め作成された予測モデルに関するデータを入力するための入力装置110、予測結果、予測信頼度および処理途中の必要なデータを出力する出力装置120、システム全体の制御を行う制御装置130、入力データ、演算途中のデータ、出力データ等を一時保存するための記憶装置140を備えている。
システム100は更に、構造類似化合物の生成装置150、予測モデルに基づいて予測対象化合物の目的変数の値、即ち分類予測値を算出するためのパラメータ発生装置160、予測対象化合物と仮想化合物との構造の類似度を計算するための類似度計算装置170、予測値算出装置180および信頼度計算装置190を備えている。
入力装置110は、予測対象化合物の化合物名、2次元構造式、CAS番号等が入力されるとこれをMOLファイルの形式に変換し、予測対象化合物のMOLファイルとして記憶装置140に保存する。入力装置110からは予め作成された予測モデルも入力され、記憶装置140に保存される。構造類似化合物の生成装置150は、記憶装置140に保存された予測対象化合物のMOLファイルを参照して、予測対象化合物と構造類似の化合物を生成するための装置であり、仮想化合物生成/停止条件の入力・設定部と、仮想化合物生成パターン関連の種々のプログラムを備えている。
入力・設定部は、生成する仮想化合物の最大数、および類似度の閾値を設定する。この設定はユーザによってなされていても良いし、あるいはシステムとしてデフォルト値が設定されていても良い。仮想化合物生成パターン関連プログラムとしては、構造変換パターンの指定、変換箇所数、変換パターンの組合せ等を指定するプログラムであり、1)メチル基(ME)の付加、削減プログラム、2)原子/結合の変換プログラム、3)官能基の付加、削減プログラム、官能基の変化プログラム、開環、閉環プログラム、架橋、開裂プログラム、立体の変化(物性デザイン分野等)プログラム等を含む。
なお、構造類似化合物の生成装置150は、予測対象化合物のMOLファイルに基づいて、自動的に必要な個数の仮想化合物を生成するプログラムを備えていても良いし、あるいはユーザ指定による仮想化合物の入力ユニット151を有していても良い。この場合は、ディスプレイ上に表示された予測対象化合物の2次元構造式に、ユーザが所望の部分構造式を付加し、あるいは削減することにより仮想化合物を生成し、システムに入力する。なお、生成された構造類似化合物(仮想化合物)はMOLファイルの形で記憶装置140に保存される。
パラメータ発生装置160は、予測対象化合物と生成された仮想化合物について、予測モデルを適用するためのパラメータを発生する装置である。予測モデルは、目的変数の値が既知のサンプル母集団に基づいて、既知の種々の手法により予め作成されたものを使用することができる。本システムでは予測信頼度の計算に当たって、どのような予測モデルを用いても良いので、ここでは予測モデルの作成方法については詳述しない。
なお、発明者は、100%に近い分類率を達成することが出来る二クラス分類予測モデルの作成方法を既に提案しており(PCT/2007/056412あるいはPCT/2007/074334)、この方法によって作成された予測モデルを使用することが可能である。
類似度計算装置170は、公知の種々の構造類似度評価関数を用いて、予測対象化合物と生成された仮想化合物間の類似度を演算する。なお、類似度計算装置170は、ユーザ定義による類似度評価関数を使用して、類似度の計算を行うものであっても良い。
予測値算出装置180は、パラメータ発生装置160で発生された予測対象化合物と仮想化合物についてのパラメータを予測モデルに入力することにより、予測対象化合物と各仮想化合物について、目的変数の値を計算する(予測を実行する)。予測の目的が判別分析の場合、予測モデルは以下の式(1)として示される。
Y=a1・x1±a2・x2±・・・±an・xn±C (1)
式(1)において、Yは目的変数、x1、x2、・・・、xnは説明変数(パラメータ)、a1、a2、・・・anは重み係数、Cは定数を示す。説明変数(パラメータ)x1、x2、・・・、xnは各化合物によって異なる値であり、パラメータ発生装置160において計算される。従って、式(1)に対して、予測対象化合物に対して求めたパラメータ値を代入することにより、予測対象化合物の目的変数の値Y(S)が求められる。一方、各仮想化合物に対して求めたパラメータ値を式(1)に代入することにより、各仮想化合物の目的変数Y(V1)、Y(V2)、・・・が求められる。
信頼度算出装置190は、予測対象化合物と仮想化合物の予測結果に対して予め定義されている信頼度計算方法を適用して、予測対象化合物に対する予測の信頼度を計算する。この場合、予測対象化合物の予測の信頼度を、所定個数の仮想化合物の単純な予測結果に基づいて計算する方法、あるいは、予測結果に仮想化合物の構造類似度に基づく重み付けを行って予測の信頼度を計算する方法などがある。
図2は、予測対象化合物(S)の予測信頼性の計算方法の一例を説明するための図である。今、分類問題が2クラス分類問題であり、予測対象化合物1個に対して10個の仮想化合物(V1、V2・・・V10)を生成した場合を考える。図2では、クラス1(例えば、発癌性有り)を+、クラス2(例えば発癌性無し)を−で示している。図1の予測値算出装置180において予測対象化合物(S)、仮想化合物グループ(V1、V2・・・V10)に対して予測モデルを適用し、それぞれの予測結果(目的変数の値)+または−を得る。予測信頼性を評価する第1の計算方法は、仮想化合物グループ中の個々の化合物の予測結果を単純に予測対象化合物の結果と比較し、結果が一致する確率を導出するものである。
即ち、図2の例では予測対象化合物(S)の目的変数は+となり、10個の仮想化合物のうち、7個の仮想化合物(V1、V2、V3、V4、V6、V7、V9)の目的変数の値が+となり、3個の仮想化合物(V5、V8、V10)の目的変数の値が−となった。従って、予測対象化合物(S)の目的変数の値と一致するのは、目的変数の値が+となった7個の仮想化合物(V1、V2、V3、V4、V6、V7、V9)である。予測信頼度を、(予測対象化合物の目的変数の値と一致する目的変数を有する仮想化合物の数)÷(仮想化合物の総数)と定義すれば、予測信頼度は70%となる。
一方、図3に示す様に、各仮想化合物(V1、V2・・・V10)の予測対象化合物(S)に対する構造類似度を重みとして、予測信頼度を計算することも可能である。この場合、予測信頼度を、(予測対象化合物の目的変数の値と一致する目的変数を有する仮想化合物の類似度の総数)÷(仮想化合物の類似度の総数)と定義すれば、予測対象化合物の予測信頼度は73%となる。
以上のようにして、予測対象化合物の予測結果と、予測信頼度が計算されると、これらを出力装置120を介して出力する。出力形態はディスプレイ上への表示、プリントアウト、あるいは出力ファイルとして外部記憶装置に保存するなど、種々の形態が可能である。
図4は、図1に示すシステムを利用して化合物の予測信頼性を評価する手順を示すフローチャートである。まず、ステップS1において、予測対象化合物である予測対象化合物を入力する。入力の形態は、化合物の2次元構造式あるいは3次元構造式で有り、あるいは化合物名、CAS番号であっても良い。次に、ステップS2において予測対象化合物と構造式が微小に異なる仮想化合物を生成するためのパターンを選択する。仮想化合物生成のパターンについては、後述する。ステップS2では更に、仮想的に生成する化合物の個数n(例えば10個)と、構造の類似度の閾値θとを設定する。閾値θは、仮想的に生成された化合物について予測対象化合物との構造の類似度を計算し、類似度がθ以下である場合、生成された化合物を構造類似化合物として採用しないようにする基準となる。なお、「類似度が大」とは構造が類似していることを意味し、「類似度が小」とは構造があまり類似していないことを示す。
ステップS3でkを1に設定し、ステップS4で最初の仮想化合物を生成する。なお、本明細書において、仮想化合物とは現実に存在する化合物であるか否かを問わず、予測対象化合物の構造式を微小に変更して生成される構造式を有する化合物を意味する。仮想化合物の構造式の作成方法については後述する。ステップS5で、予測対象化合物と作成された仮想化合物に対して、構造類似性を算出するためのパラメータ(構造記述子)を発生する。ステップS6で、予測対象化合物と仮想化合物との類似度αを計算する。構造類似度の計算には、現在知られている化合物間の類似度を評価する種々の関数を利用することが出来る。
ステップS7では、計算された類似度αがステップS2で設定した類似度の閾値θよりも小さいか否かが判定される。類似度αが閾値θよりも小さいか同じ場合(ステップS7のNO)、ステップS8において現在の仮想化合物を評価用の化合物として選択しないことを決定し、ステップS4に戻って再度別の仮想化合物を生成する。ステップS7でYESの場合、即ち類似度αが閾値θよりも大きい場合、現在の仮想化合物を評価用化合物として選択し、記憶装置に記憶する(ステップS9)。ステップS10では、kが仮想化合物生成の個数nに達したか否かを判定し、達していない場合(ステップS10のNO)、ステップS11でkを1だけ進め、ステップS4以下を再度実行する。
以上のようにして、ステップS4からステップS11を繰り返して、仮想化合物としてn個の化合物が生成されると(ステップS10のYES)、ステップS12で予測対象化合物と生成されたn個の仮想化合物に対して、分類予測用のパラメータを発生する。分類予測用のパラメータの種類は、予測モデルによって指定されている。次のステップS13では、ステップS12で発生したパラメータに対し予測モデルを適用して、予測対象化合物と仮想化合物グループの目的変数の値を計算し、予測値とする。
なお、予測モデルは、予測しようとする特性あるいは物性の値(目的変数)が既知の複数のサンプルに種々のデータ解析手法を適用することによって生成されるが、本装置は予測モデルの作成方法に依存するものではなく、従ってステップS13では、既知のいずれかの方法を用いて作成された任意の予測モデルを用いれば良い。ステップS14では、ステップS13における予測結果から、予測対象化合物の予測の信頼性を計算する。
以上のようにして、ステップS14において、予測対象化合物の予測結果と仮想化合物グループの予測結果に基づく予測信頼性度とが計算されると、ステップS15において、予測対象化合物の予測結果とその予測信頼性とを、例えばグラフィックディスプレイに表示して一連の処理を終了する。なお、ステップS15における出力は、このようなグラフィックディスプレイ上への表示であっても良いし、あるいはファイルとして記憶装置に記憶するようにしても良い。
以下に、図1の装置および図2のフローチャートにおける主要部について詳細に説明する。
[予測対象化合物に構造類似する仮想化合物の生成]
本方法を実施するには、予測対象化合物を基本としてその類似サンプルを生成することが必用となる。サンプルの類似性は、予測対象化合物との類似性が問題であり、生成された仮想化合物同士の類似性は検討対象外となる。従って、生成する仮想化合物は、予測対象化合物からの化合物構造式の変化が最小であり、かつサンプル母集団内の化合物の構造変化性の大きさよりも充分に小さいことが望まれる。以下に、化合物の類似構造の生成手法について説明する。
[類似化合物の特徴と定義、および生成法]
類似化合物とは、比較される二つのサンプル(化合物)間での構造的な変化性が少ない化合物を意味する。化合物の特性から、構造変化性が少ないということは、化合物を構成する基本となる原子数が似ているということである。従って、化合物の構造変化が少ない(即ち、類似化合物である)ということは、原子数が似ていることといえる。従って、予測対象サンプルを基本として、その化合物から最少の数の原子を取り除く、あるいは付加することで、類似化合物の生成が可能である。
[A−原子や官能基の付加または削減による類似化合物の生成]
類似化合物生成という内容から考えて大きく全く方向性の異なる二種類の構造式変換アプローチが考えられる。これらは、予測対象化合物を起点とし、そのサンプルから原子を取り除いて構造変化を生じさせるアプローチと、逆に予測対象化合物に原子、更にはもう少し大きなグループ(例えば官能基等)を付け加えて構造変化を実現するアプローチである。これが、化合物構造式変化の大きな二大方向性となる。個々のより具体的な化合物構造式変換様式としては、化合物の構造変化性を考えると、原子の種類や数、結合の種類、環構造、架橋構造、縮合構造、芳香属/非芳香族、分子量、立体情報、その他の様々な変化要因が考えられる。今回の目的から考えると、これらの変化要因中、構造式を変えたとしてもその変化の影響が小さい手段を取ることが必要である。
類似化合物の生成として一番に考えられるのは、原子数を削減することである。原子数のみならず、官能基等を削減する、あるいは官能基とは認められないものとする等の構造変化も、対象サンプルをより小さな構造単位とすることによる類似化合物の生成アプローチである。
[B−最少の数の炭素原子の付加による構造変化]
炭素原子(飽和)は化合物の基本骨格を形成する上で極めて重要な原子である。ところが、炭素原子、特にメチル基(ME)の付加は、化合物の構造上の変化のみならず、化合物の特性(電子密度関連、種々物性関連、全体的形状、分子量、他)に大きな変化を及ぼさない。また、化合物構造式中、メチル基を追加できる部分は比較的多い。従って、最小数のメチル基を構造式中に追加することで、化合物の全体的な類似性を保ちつつ構造式を変化させることが可能である。
図5および6に、上記A、Bに基づいて化合物の構造を変化させた様子を示す。図5の例は、構造変化が比較的小さい事例である。図において、1は構造変化を生じさせる基本となる化合物、即ち、予測対象化合物の構造式を示す。構造式1に対して、メチル基ME(−CH)の付加、原子の置換((F→Cl),(F→C)を行うことによって構造式2〜8を生成することが出来る。図6は、構造変化が比較的大きい事例である。構造変化が大きいといっても、図5の事例と比較した場合のことであって、本格的な化合物構造変化とは異なっている。
ここで、構造変化が比較的大きいという根拠は、構造変化を起している場所が二箇所以上あること、所謂、極性の大きなヘテロ原子(O;酸素、S;硫黄)が導入/置換されていること、および、原子レベルの変化からより大きな官能基レベルの変化((ケトン→チオケトン、イミン、オレフィン)、(ケトン→水酸基)、(F→水酸基)、(F→メトキシ))等があることである。このようなレベルでの構造変化の場合、電子密度等の構造以外の要因も変化しているものと考えられる。図6において、符号10〜19は、予測対象化合物の構造式1に対して、比較的大きな構造変化を付加して生成された新たな構造式を示している。
以上のような考察を踏まえ、一実施形態の装置では、図1の構造類似化合物の生成装置150あるいは図2のステップS4において仮想化合物を生成するにあたって、次のような化合物生成パターンを採用することができる。なお、以下の[C]から[I]に示す類似化合物生成パターンは、図1の類似化合物の生成装置150あるいは図4のステップS2において任意の一個のパターンを選択しても良いし、あるいは、複数のパターンの適宜の組合せを選択して類似化合物を生成するようにしても良い。
[C]図7に示す様に、予測対象化合物の構造式1にメチル基1個を付加し、構造式7とする。通常、予測対象化合物の基本構造中にメチル基を付加する場所が複数個あるため、この変更によって複数の仮想化合物が生成される。メチル基追加の特徴は、基本的に1原子だけの追加(水素は除く)であり、またメチル基の追加が化合物の様々な特性に及ぼす変化が小さいということである。従って、予測対象化合物の構造変化を小さくして仮想化合物を生成しようとする場合に、都合の良いパターンとなる。
[D]図8に示す様に、予測対象化合物の構造式1にメチル基2個を付加し、構造式20とする。メチル基2個を付加するサイトの組合せによって、図示の例では3個の仮想化合物が生成される。
[E]エチル基1個を付加する(図示せず)。メチル基の付加の場合と同様に、この変更によって複数の仮想化合物が生成される。エチル基(−CHCH)はメチル基に比べて炭素原子の数が1個多く、その分、メチル基の付加よりも構造変化が大きい。
[F]エチル基2個を付加する(図示せず)。メチル基の付加の場合と同様に、この変更によって複数の仮想化合物が生成される。
[G]予測対象化合物中の1個の原子を他の原子に置換する。図9に示す例では、予測対象化合物1中の酸素原子を硫黄原子に置換して、仮想化合物21を生成している。図10に示す例では、予測対象化合物1中のフッ素原子を塩素原子に置換し、仮想化合物22を生成している。この構造変化の場合は、原子の結合次数を変えていない。従って、原子の種類を変えると言う比較的大きな変化を与えているが、構造に与える変化はさほど大きくない。メチル基、エチル基の付加と異なり、ヘテロ原子を変化させると、電子関連の環境が比較的大きく変化する。従って、原子の変換によって生じる構造的な変化は小さいが、電子的な環境における変化は比較的大きい。
[H]予測対象化合物中の官能基を異なる官能基に変える。図11の例では、予測対象化合物1中のケトン基をメチレン基に変更することによって、仮想化合物23を生成している。図12の例では、予測対象化合物1中のケトン基を水酸基に変更することによって、仮想化合物24を生成している。官能基レベルを置換することによる構造の変化量は比較的大きい。更に、構造からは見えない電子的な変化、結果としての化合物特性等の変化も大きい。しかしながら、化合物のサイズが大きくなると、内部にこのような変化があっても、化合物全体の構造変化に与える影響は大きくない。従って、予測対象化合物が化合物サイズの大きいものである場合、このような官能基レベルの置換も仮想化合物の生成のために有効である。
[I]予測対象化合物中の原子を1個、削減する。図13の例では、予測対象化合物1中のフッ素原子を1個削減して、仮想化合物25を生成する。図14の例では、予測対象化合物1中のメチル基を1個削減して、仮想化合物26を生成する。元の構造式からの原子の削減、あるいは官能基の削減は、化合物の構造に与える影響が大きく、従って6)の場合と同様に予測対象化合物の化合物サイズが大きい場合に有効な手法である。
なお、システム上で仮想化合物を生成するためには、基本構造式を表示するグラフィックディスプレイとの対話によって、ユーザが、基本構造式に部分構造式を付加する操作を行うことによって実行される。あるいは、上記[C]から[I]の仮想化合物生成パターンに従って自動的に仮想化合物を生成するプログラムを作成することも可能である。また、図4のフローチャートでは、仮想化合物を仮想化合物の生成基準に従ってシステムにおいて自動的に生成しているが、図1のシステムに示す様に、ユーザの責任において予測対象化合物に対して構造類似の化合物を生成し、システムに仮想化合物として入力することも可能である。
[構造式のMOLファイルへの変換]
次に、例えば二次元構造式の形でコンピュータ上に入力された予測対象化合物から、仮想化合物のファイルを作成するための一手法について説明する。この手法では、ケモインフォマティクスにおいて汎用されているMOLファイルを利用する。
図15は、予測対象化合物1の2次元構造式1とその構造を記載したMOLファイル30を示す。例えば、ChambridgeSoft社のChemDrawを用いて予測対象化合物1の構造式を入力すると、この構造式は文字および数値情報のファイルであるMOLファイルとして保存される。このMOLファイルがあれば、いつでも化合物の構造式は再現可能である。図15は、予測対象化合物1にメチル基(ME)1個を追加し、更にF原子1個をCl原子に変更した仮想化合物2(図5参照)の2次元構造式とそのMOLファイル31を示す。コンピュータのメモリ(図1の記憶装置140)内に、予測対象化合物のMOLファイルと、その構造を一部変化させた仮想化合物のMOLファイルを保存しておくことにより、これらの化合物の構造式を任意の時点で再現することが可能である。
[類似度の計算]
図1および2に示す実施形態では、1個の仮想化合物を生成すると、その仮想化合物の予測対象化合物に対する類似度を計算する。類似度評価のために種々の方法が提案されているが、どのような計算方法を採用しても良い。あるいは、ユーザ定義による類似度評価関数を使用しても良い。ユーザ定義による類似度評価関数としては、例えば、予測対象化合物に対してME基を付加して仮想化合物を生成する場合、ME基の数を類似度評価関数にするものなどが考えられる。この例については、後述の、発明者が行った実験例を説明する項において詳細に説明する。
なお、化合物の構造類似度を評価する既存の関数として、例えば以下の6個の評価関数をあげることができる。これらの評価関数は何れも周知のものであり、従ってその詳細についてここでは説明しない。以下の式において、xjkはそれぞれ化合物iおよび化合物jについてのk番目の記述子の値を表す。
(a)ユークリッド距離(SED):
Figure 2009118845
(b)Tanimoto係数(TC):
Figure 2009118845
(c)Cosine係数(SC):
Figure 2009118845
(d)Pearson’s相関係数(SP):
Figure 2009118845
[予測信頼性評価の実験例]
以下に、図17〜図19を参照して、アセトアミノフェンを予測対象化合物として予測信頼性の評価を行った場合の実験結果を示す。図17は、ID番号1のアセトアミノフェンを予測対象サンプルとし、このサンプルに構造類似する20個の仮想化合物(ID番号8〜27)を発生させ、予測対象化合物と各仮想化合物に対して発癌性と2種類の変異原性試験(AMES−TA100、AMES−TA98)結果を予測した結果を示す。仮想化合物8〜27の構造を図18および図19に示す。本実験では、予測対象サンプルであるアセトアミノフェン(ID番号1)に対して、メチル基(ME)を付加することによって構造類似サンプルを生成した。
例えば、図17のID番号8に示す仮想化合物は、図18の8に示す様に、アセトアミノフェンのベンゼン環に1個のMEを付加して構成している。ID番号9の仮想化合物はID番号8の仮想化合物とは異なる位置に1個のMEを付加している。ID番号13の仮想化合物は、アセトアミノフェンのベンゼン環に2個のMEを付加している。ID番号16の仮想化合物はアセトアミノフェンの酸素原子にMEを付加している。このように、アセトアミノフェンの基本構造の種々の位置に1個あるいは2個以上のMEを付加することによって、図18および図19に示す20個の仮想化合物を生成した。
発明者は、予測対象サンプルと仮想化合物との類似度を算出するにあたって、付加したMEの個数を基準として類似度得点を算出する、ユーザ定義の類似度を採用した。即ち、ME(メチル基)1個の付加を1点とし、付加されたMEがベンゼン環以外のC、N、O原子に繋がる場合に0.25点を追加することにより、類似度得点を計算する。この場合、予測対象サンプルの類似度得点は0点となる。図17のID番号8の仮想化合物は、ベンゼン環に1個のMEが付加された構造を有しているため、類似度得点は1となる。ID番号10の仮想化合物は、ベンゼン環ではない炭素原子にMEが付加されているので、類似度得点は1.25となる。ID番号11の仮想化合物はベンゼン環に2個のMEが付加されているので、類似度得点は2となる。この場合は、類似度得点が小さい仮想化合物が予測対象サンプルに対して大きい類似度を有する。なお、図17に示す20個の仮想化合物は、類似度得点の閾値を5として生成したものである。
図17は、ID番号1の予測対象サンプルと、ID番号8〜27の仮想化合物に対して、目的変数を発癌性の有無、変異原性の有無として、既存の予測モデルを適用して予測を行った結果を示している。なお、図17で、AMES−TA100は菌TA100を用いる変異原性試験を示し、AMES−TA98は菌TA98を用いる変異原性試験を示している。
予測モデルを適用して発癌性の予測を行った結果、予測対象サンプルであるアセトアミノフェンは発癌性無し、と予測された。ID番号23の化合物を除いた19個の仮想化合物も同様に発癌性無し、と予測された。従って、単純に予測結果のみを比較する信頼性評価方法によれば、発癌性の予測信頼度は95%となる。一方、類似度の上位10位(類似度得点の下位10位)の仮想化合物を予測信頼度の評価に使用した場合は、予測信頼度は100%となる。AMES−TA100では、予測対象サンプル、仮想化合物全てが変異原性無し、と予測された。従って、予測対象サンプル(アセトアミノフェン)のAMES−TA100における予測信頼度は100%となる。AMES−TA98の場合は、20個の仮想化合物のうち6個の予測値が予測対象サンプルであるアセトアミノフェンの予測結果と異なっていた。従ってその予測信頼度は70%となる。この場合、類似度の上位10個の仮想化合物から予測信頼度を計算しても70%と言う結果が得られる。
なお、予測対象サンプルとして用いたアセトアミノフェンの場合、発癌性、AMES−TA100、AMES−TA98の実測値は何れも“無し”であった。
以上のように、予測モデルを使用した予測対象サンプルの予測結果に対して、予測対象サンプルと構造類似する複数の仮想化合物の予測結果を付加することにより、予測結果の信頼性を定量的に評価することが可能となる。従って、信頼性の低い予測結果に対しては、発癌性試験等を行って実測値を得ることを促すコメントを付加するようにしても良い。

Claims (20)

  1. 予測対象化合物に構造類似する複数の化合物を仮想的に生成する仮想化合物生成装置と、
    前記予測対象化合物と前記生成された各仮想化合物に対して予測モデルを適用し目的変数の予測値を算出する予測値算出装置と、
    前記予測対象化合物の予測値と前記各仮想化合物の予測値との一致の度合いに基づいて、前記予測対象化合物の予測信頼度を算出する予測信頼度算出装置と、を備える、化合物の予測信頼性評価システム。
  2. 請求項1に記載のシステムにおいて、前記仮想化合物生成装置は、前記予測対象化合物との構造の類似度が予め決定した一定値以上の化合物を仮想化合物として生成する、化合物の予測信頼性評価システム。
  3. 請求項1に記載のシステムにおいて、前記予測信頼度算出装置は、前記仮想化合物の予測値に個々の仮想化合物の前記予測対象化合物との構造の類似度に基づく重み付けを行って予測信頼度を算出する、化合物の予測信頼性評価システム。
  4. 請求項1に記載のシステムにおいて、前記仮想化合物生成装置は、ユーザによって指定された仮想化合物を入力する入力ユニットを含む、化合物の予測信頼性評価システム。
  5. 請求項1に記載のシステムにおいて、前記仮想化合物生成装置は、予測対象化合物に原子又は官能基を付加することによって仮想化合物を生成する、化合物の予測信頼性評価システム。
  6. 請求項1に記載のシステムにおいて、前記仮想化合物生成装置は、予測対象化合物から原子又は官能基を削除することによって仮想化合物を生成する、化合物の予測信頼性評価システム。
  7. 請求項1に記載のシステムにおいて、前記仮想化合物生成装置は、予測対象化合物に少なくとも1個のメチル基を付加することにより仮想化合物を生成する、化合物の予測信頼性評価システム。
  8. 請求項1に記載のシステムにおいて、前記仮想化合物生成装置は、予測対象化合物のベンゼン環以外のC、O、SまたはN原子にメチル基を付加することにより、仮想化合物を生成する、化合物の予測信頼性評価システム。
  9. 予測対象化合物を準備し、
    前記予測対象化合物に構造類似する複数の化合物を仮想的に生成し、
    前記予測対象化合物と前記仮想的に生成した化合物とに同一の予測モデルを適用して各化合物の予測値結果を獲得し、
    前記予測対象化合物の予測信頼性評価のために前記獲得した各化合物の予測結果の一致度を算出する、各ステップを備える、化合物の予測信頼性の評価方法。
  10. 請求項9に記載の方法において、前記仮想化合物を生成するステップは、前記予測対象化合物との構造の類似度が予め決定した一定値以上の化合物を仮想化合物として生成する、化合物の予測信頼性の評価方法。
  11. 請求項9に記載の方法において、前記予測結果の一致度を算出するステップは、前記仮想化合物の予測値に個々の仮想化合物の前記予測対象化合物との構造の類似度に基づく重み付けを行って予測信頼度を算出する、化合物の予測信頼性の評価方法。
  12. 請求項9に記載の方法において、前記仮想化合物を生成するステップは、予測対象化合物に原子又は官能基を付加することによって仮想化合物を生成するステップを含む、化合物の予測信頼性評価方法。
  13. 請求項9に記載の方法において、前記仮想化合物を生成するステップは、予測対象化合物から原子又は官能基を削除することによって仮想化合物を生成するステップを含む、化合物の予測信頼性評価方法。
  14. 請求項9に記載の方法において、前記仮想化合物を生成するステップは、予測対象化合物に少なくとも1個のメチル基を付加することにより仮想化合物を生成するステップを含む、化合物の予測信頼性評価方法。
  15. 請求項9に記載の方法において、前記仮想化合物を生成するステップは、予測対象化合物のベンゼン環以外のC、O、SまたはN原子にメチル基を付加することにより、仮想化合物を生成するステップを含む、化合物の予測信頼性評価方法。
  16. 予測対象化合物を入力する手順と、
    前記予測対象化合物に構造類似する複数の化合物を仮想的に生成する手順と、
    前記予測対象化合物と前記仮想的に生成した化合物とに同一の予測モデルを適用して各化合物の予測値結果を獲得する手順と、
    前記予測対象化合物の予測信頼性評価のために前記獲得した各化合物の予測結果の一致度を算出する手順と、
    前記算出した結果を予測対象化合物の予測結果と共に出力する手順と、をコンピュータに実行させるための、化合物の予測信頼性評価プログラム。
  17. 請求項16に記載のプログラムにおいて、前記仮想化合物を生成する手順は、前記予測対象化合物との構造の類似度が予め決定した一定値以上の化合物を仮想化合物として生成する、化合物の予測信頼性評価プログラム。
  18. 請求項16に記載のプログラムにおいて、前記予測結果の一致度を算出する手順は、前記仮想化合物の予測値に個々の仮想化合物の前記予測対象化合物との構造の類似度に基づく重み付けを行って予測信頼度を算出する、化合物の予測信頼性評価プログラム。
  19. 請求項16に記載のプログラムにおいて、前記仮想化合物を生成する手順は、予測対象化合物に原子又は官能基を付加することによって仮想化合物を生成する手順を含む、化合物の予測信頼性評価プログラム。
  20. 請求項16に記載のプログラムにおいて、前記仮想化合物を生成する手順は、予測対象化合物に少なくとも1個のメチル基を付加することにより仮想化合物を生成する手順を含む、化合物の予測信頼性評価プログラム。
JP2010505086A 2008-03-26 2008-03-26 化合物の予測信頼性評価システム Active JP5087756B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/055753 WO2009118845A1 (ja) 2008-03-26 2008-03-26 化合物の予測信頼性評価システム

Publications (2)

Publication Number Publication Date
JPWO2009118845A1 true JPWO2009118845A1 (ja) 2011-07-21
JP5087756B2 JP5087756B2 (ja) 2012-12-05

Family

ID=41113086

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010505086A Active JP5087756B2 (ja) 2008-03-26 2008-03-26 化合物の予測信頼性評価システム

Country Status (2)

Country Link
JP (1) JP5087756B2 (ja)
WO (1) WO2009118845A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5340204B2 (ja) * 2010-03-01 2013-11-13 キヤノン株式会社 推論装置、その制御方法およびプログラム
US10497464B2 (en) 2015-10-28 2019-12-03 Samsung Electronics Co., Ltd. Method and device for in silico prediction of chemical pathway
JP6941353B2 (ja) * 2017-07-12 2021-09-29 国立大学法人東海国立大学機構 毒性予測方法及びその利用
CN116635352A (zh) * 2020-12-25 2023-08-22 富士胶片株式会社 信息处理装置、信息处理方法及信息处理程序

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003323601A (ja) * 2002-05-01 2003-11-14 Fujitsu Ltd 信頼性尺度付き予測装置
JP2007153767A (ja) * 2005-12-01 2007-06-21 Univ Of Tokushima 化学構造の類似度を算出し化合物の安全性を評価する方法及びこれを用いた医薬品安全性情報システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003323601A (ja) * 2002-05-01 2003-11-14 Fujitsu Ltd 信頼性尺度付き予測装置
JP2007153767A (ja) * 2005-12-01 2007-06-21 Univ Of Tokushima 化学構造の類似度を算出し化合物の安全性を評価する方法及びこれを用いた医薬品安全性情報システム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHERIDAN, R.P.: "Similarity to Molecules in the Training Set Is a Good Discriminator for Prediction Accuracy in QSAR", J. CHEM. INF. COMPUT. SCI., vol. 44, JPN6012038847, 2004, pages 1912 - 1928, XP002380043, ISSN: 0002287263, DOI: 10.1021/ci049782w *
湯田浩太郎: "K-step Yard sampling methodの開発とADME-T予測への適用", 第34回構造活性相関シンポジウム講演要旨集, JPN6012038844, 7 November 2006 (2006-11-07), pages 29 - 30, ISSN: 0002287262 *
颯々野学: "サポートベクタマシンを使った文書分類における仮想事例の利用", 自然言語処理, vol. 第13巻,第3号, JPN6012038843, 10 July 2006 (2006-07-10), pages 21 - 35, ISSN: 0002287261 *

Also Published As

Publication number Publication date
WO2009118845A1 (ja) 2009-10-01
JP5087756B2 (ja) 2012-12-05

Similar Documents

Publication Publication Date Title
JP5104877B2 (ja) 二クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび二クラス分類予測モデルの作成装置
JP5141767B2 (ja) サンプルの帰属クラス予測方法、帰属クラス予測プログラムおよび帰属クラス予測装置
JP5293739B2 (ja) 重回帰分析による予測モデルの作成方法、作成システムおよび作成プログラム
JP4985653B2 (ja) 2クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび2クラス分類予測モデルの作成装置
Ienco et al. Deep multivariate time series embedding clustering via attentive-gated autoencoder
EP3764252A1 (en) Polymer physical property prediction device, storage medium, and polymer physical property prediction method
Gimpy Missing value imputation in multi attribute data set
JP5087756B2 (ja) 化合物の予測信頼性評価システム
JP2010009177A (ja) 学習装置、ラベル予測装置、方法、及び、プログラム
Zheng et al. A self-adaptive temporal-spatial self-training algorithm for semisupervised fault diagnosis of industrial processes
Le Thi et al. Gene selection for cancer classification using DCA
Tompkins et al. Fourier feature approximations for periodic kernels in time-series modelling
JP7353874B2 (ja) 材料特性予測装置および材料特性予測方法
Cuentas et al. An SVM-GA based monitoring system for pattern recognition of autocorrelated processes
Nowak et al. Conversion of CVSS Base Score from 2.0 to 3.1
Colla et al. GADF—Genetic Algorithms for distribution fitting
JP6629682B2 (ja) 学習装置、分類装置、分類確率計算装置、及びプログラム
Dzemyda et al. Data science: new issues, challenges and applications
JP7298870B2 (ja) 分子動力学データ解析装置及びプログラム
Salles et al. Towards the next generation of species delimitation methods: an overview of Machine Learning applications
Yu Independent screening for nonparametric additive Cox model
Sun Imbalanced Binary Classification for Detecting Transcription Factor Binding Sites in H1 Human Embryonic Stem Cells
Chang et al. TimeDRL: Disentangled Representation Learning for Multivariate Time-Series
Kırbaş Determination of Appropriate Distribution Functions for the Wind Speed Data Using the R Language
Elarabi et al. Utilizing LASSO for Breast Cancer Prediction: A Hyper Machine Learning Technique with Significant

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120731

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120813

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150921

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5087756

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150