JPWO2010016110A1 - 重回帰分析による予測モデルの作成方法、作成システムおよび作成プログラム - Google Patents

重回帰分析による予測モデルの作成方法、作成システムおよび作成プログラム Download PDF

Info

Publication number
JPWO2010016110A1
JPWO2010016110A1 JP2010523669A JP2010523669A JPWO2010016110A1 JP WO2010016110 A1 JPWO2010016110 A1 JP WO2010016110A1 JP 2010523669 A JP2010523669 A JP 2010523669A JP 2010523669 A JP2010523669 A JP 2010523669A JP WO2010016110 A1 JPWO2010016110 A1 JP WO2010016110A1
Authority
JP
Japan
Prior art keywords
sample
multiple regression
sample set
value
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010523669A
Other languages
English (en)
Other versions
JP5293739B2 (ja
Inventor
浩太郎 湯田
浩太郎 湯田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2010016110A1 publication Critical patent/JPWO2010016110A1/ja
Application granted granted Critical
Publication of JP5293739B2 publication Critical patent/JP5293739B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

重回帰分析に基づき、予測精度の高い、目的変数の予測モデルを形成する。a)目的変数の実測値が既知のサンプルから初期サンプルセットを構築し、b)このセットを重回帰分析して重回帰式を獲得し、c)この重回帰式に基づいて各サンプルの残差値を計算し、d)残差値に基づいて前記重回帰式にフィットするサンプルを特定し、e)特定したサンプルを初期サンプルセットから取り除いて新たなサンプルセットを構築し、f)前記新たなサンプルセットを前記初期サンプルセットに設定して、ステップa)からe)を繰り返して、複数の重回帰式とその重回帰式を適用すべきサンプルを特定する。

Description

本発明は、サンプルの物理的、化学的あるいは生理学的な特性に関するデータが連続量である場合に、そのデータの予測をフィッティング手法によって行うための、予測モデルの作成方法、作成システムおよび作成プログラムに関する。
連続変数を目的変数としてデータ解析する一般的な手法は、フィッティング問題である。フィッティング問題に対するアプローチは、線形フィッティングおよび非線形フィッティングの二種類に大別される。線形フィッティングの代表的な手法として、線形重回帰分析法があり、非線形フィッティングの代表的な手法として非線形重回帰分析法がある。現在、非線形フィッティングとして、PLS(Partial Least Squares)法、ニューラルネットワーク法等があり、かなり複雑な形状を有する曲線上にもフィッティング可能となっている。
目的変数が未知のサンプル、即ち、未知サンプルの予測信頼度は、線形あるいは非線形フィッティング手法の適用によって算出された重回帰式の良否による。重回帰式の良否は、相関係数Rあるいは決定係数R2の値で評価される。これらの値が1に近づくほど良好な回帰式となり、0に近づくほど粗悪な回帰式となる。
相関係数Rあるいは決定係数R2は、一個のサンプルの実際の目的変数の値と、作成された線形/非線形重回帰式(予測モデル)を用いて計算された予測値との差異に基づいて算出される。従って、相関係数Rあるいは決定係数R2が1という事は、そのサンプルの実際の目的変数の値と、予測モデルによって算出された目的変数の予測値が完全に一致することを意味する。
通常の解析では、相関係数R及び決定係数R2が1となることは少ない。多くの解析では、相関係数Rが0.9(90%)程度の値となることを目標としている。ところが、化合物関連の解析分野(構造−活性相関、構造−ADME相関、構造−毒性相関、構造−物性相関、構造−スペクトル相関、他)において、このように高い値を達成することは困難である。その理由は、主に、化合物サンプル間の構造変化が大きく、しかもデータ解析で扱うサンプル数が大きいことである。
一方で、化合物の安全性評価のような人体に悪影響を及ぼす可能性のある要因についてデータ解析あるいはデータ予測を行う場合、相関係数R、決定係数R2の値が低いデータの解析結果は実用に適さない。相関係数R、決定係数R2の値が低いことによって、予測率は更に低下する。安全性評価における誤った予測が、致命的な結果を生じる場合がある。例えば、本来毒性値が高い化合物を誤って低い毒性値として予測した場合、その結果が社会に及ぼす影響は大きい。このような理由から、現在のところ、多変量解析/パターン認識に基づいた化合物の安全性評価は実用の域に達していない。
ところが、最近、EUでREACH規則が運用開始され、また、動物愛護の観点から、化合物の毒性実験に動物を用いることが規制される方向に進んでいる。例えば、EUでは、2010年度より、皮膚感作性や皮膚毒性の評価実験に動物を用いることが禁止されることとなっている。したがって、実験動物を必要とせず、しかも、大量の化合物を高速で評価することが可能な、多変量解析/パターン認識によるデータ解析が注目されている。この観点から、サンプルの多様性、サンプル数の多さにも関わらず、高い相関係数値Rあるいは決定係数値R2を得ることが可能な、新たな線形/非線形重回帰分析法が求められている。
なお、線形、非線形重回帰分析を用いた化合物の毒性や薬理活性予測については、これまでに多くの事例が報告されている(例えば、非特許文献1、2参照)。
線形/非線形重回帰分析法における、相関係数R値、決定係数R2値を改良する手法として現在、二つのアプローチが提案されている。第一のアプローチは、データ解析に用いるパラメータ(この場合は説明変数)を変えることによって、相関係数R値や決定係数R2値の向上を目指すものである。第二のアプローチは、学習サンプルセット全体から、相関係数R値や決定係数R2値を大きく低下させる原因となるサンプル、いわゆるアウトライヤーサンプルを取り除くことである。残った学習サンプルにより形成されるサンプルセットは、良好なサンプルのみで構成されることとなり、結果として相関係数R値や決定係数R2値が向上する。
この他のアプローチとして、非線形のより強力なデータ解析手法を適用することによって相関係数R値および決定係数R2値を向上させることも可能である。ところが、この場合、過剰適合(Over Fitting)と呼ばれるデータ解析上での別の問題が発生し、データ解析の精度(相関係数R値や決定係数R2値)は向上しても、データ解析自体の信頼性が低下し、且つ最も重要な予測性が大幅に低下することになる。そのため、非線形の強力なデータ解析法を用いることは好ましくない。
解析に用いるパラメータの種類を最適に決定するために、特徴抽出が行われる。したがって、特徴抽出後の最終パラメータを用いて分析を行う場合、相関係数R値および決定係数R2値を改良するためには、今のところ、上述の第二のアプローチ、即ち、学習サンプルセットからアウトライヤーサンプルを取り除いて新しい学習サンプルセットを構築し、再度、重回帰分析を行う方法しかない。この方法では、回帰線から大きく離れた(アウトライヤー)サンプルが取り除かれるので、相関係数R値や決定係数R2値は必ず向上する。
ところが、相関係数R値や決定係数R2値を向上させようと無制限にサンプルを取り除くと、これらの値が向上する一方で、全体のサンプル数が減少するのでデータ解析としての信頼性や汎用性が低下し、予測性が大きく低下すると言う問題が発生する。一般的なデータ解析では、一回の解析で初期サンプル母集団から取り除くサンプルの限界は全サンプルの10%以内というルールが存在する。従って、これだけのサンプルを取り除いても相関係数R値や決定係数R2値が改良されない場合は、最終的にそのデータ解析は失敗したことになる。また、このように10%といえどもサンプルを取り除くことは、これらのサンプルが有している情報を無視することであり、相関係数R値や決定係数R2値が改良されたとしても、データ解析全体としてはあまり優れた解析を行うことができない。したがって、理想的には、サンプルを除くことなく、相関係数R値と決定係数R2値を向上させることが望ましい。
永松朝文、他;フラビン及び5−デアザフラビン類縁化合物の抗腫瘍活性分子設計とPTK阻害に関するAutoDock研究、第25回メディシナルケミストリーシンポジウム講演要旨集、1P−20,pp.82−83、名古屋(2006) 馬場暁子、他;1−β−O−Acyl glucuronidesの親電子反応性に関する構造−活性相関、第34回構造−活性相関シンポジウム講演要旨集、KP20,pp.123−126、新潟(2006)
したがって、本発明は、学習サンプル間の多様性が大きくしかもサンプル数が多い場合であっても、学習サンプル個々が持つ情報を失うことなくしかも相関度の高い重回帰分析を行って、予測精度の高い予測モデルを作成することが可能な、予測モデルの作成方法、システムおよびプログラムを提供することを課題とする。
前記課題を解決する方法は、a)目的変数の実測値が既知のサンプルによって初期サンプルセットを構築し、b)前記初期サンプルセットを重回帰分析して重回帰式を作成し、
c)前記重回帰式に基づいて各サンプルの残差値を計算し、d)前記残差値に基づいて前記重回帰式にフィットするサンプルを特定し、e)前記特定したサンプルを前記初期サンプルセットから取り除いて新たなサンプルセットを構築し、f)前記新たなサンプルセットを前記初期サンプルセットに設定して、前記ステップa)からe)を繰り返し、g)前記繰り返しの各段階で獲得される前記重回帰式と前記取り除くサンプルとの組合せを、前記目的変数が未知のサンプルの予測モデルとして設定する、各ステップを有する。
前記方法において、前記ステップd)では、前記残差値が小さいものから予め定めた一定の個数のサンプルを取り除くサンプルとして特定するようにしても良い。
また、前記ステップd)では、あらかじめ定めた閾値以下の残差値を有するサンプルを取り除くサンプルとして特定するようにしても良い。
前記方法において、前記ステップf)における前記繰り返しを、前記新たなサンプルセットにおいて、サンプルの総数が予め定めた数以下になった場合、サンプルの最小残差値が予め定めた値を超えた場合、サンプル数と重回帰分析に使用するパラメータ数との比が予め定めた一定値以下となった場合、あるいは前記繰り返しの回数が予め定めた一定回数を超えた場合の何れかで、停止するようにしても良い。
前記方法において、更に、前記目的変数が未知のサンプルを用意し、当該サンプルに最も構造類似するサンプルを前記初期サンプルセット中で特定するステップを設け、前記ステップf)における繰り返しを、前記取り除かれるサンプル中に前記最も構造類似するサンプルが含まれた段階で停止するようにしても良い。
前記方法では、目的変数が既知のサンプルで構成した学習サンプルセット(初期サンプルセット)を重回帰分析して重回帰式を獲得することにより、各学習サンプルの目的変数の予測値を計算することができる。次に、各学習サンプルの目的変数の実測値と予測値との差、即ち、残差値を求める。これによって、求めた重回帰式が、どの程度、個々の学習サンプルの目的変数の実測値にフィットしているかが分かる。例えば、残差値が0であることは、そのサンプルの目的変数の予測値が実測値に一致しており、したがって、予測が完全であることを意味する。残差値が大きくなればなる程、その重回帰式による予測はうまく行われていないことがわかる。
したがって、個々のサンプルの残差値に基づいて、求めた重回帰式にフィットする学習サンプルを特定し、求めた重回帰式をこれらのサンプルに適用すべき予測モデルとする。同時に、フィットした学習サンプルを初期サンプルセットから取り除いて、残りの学習サンプルによって新たな学習サンプルセットを構成し、再び重回帰分析を行うことにより、新たな学習サンプルセットに適した新たな重回帰式が得られる。この新たな重回帰式に対して、個々の学習サンプルの残差値を求め、新たな重回帰式にフィットした学習サンプルを特定する。新たな重回帰式を、特定した学習サンプルに適用すべき予測モデルとする。
以上の操作を繰り返し行うことによって、複数の重回帰式を得ることができ、さらに、個々の重回帰式を適用すべき1個または複数の学習サンプルを特定することができる。即ち、初期サンプルセットは、少なくとも重回帰式の個数分のサブサンプルセットに分解され、個々のサブサンプルセットには、相関度の高い特定の重回帰式が割り当てられる。個々の重回帰式と対応するサブサンプルセットが、初期サンプルセットから形成された全体の予測モデルとなる。本アプローチではサンプルそのものを取り除くことがないので、アウトライヤーサンプルを取り除く従来の方法と異なり、初期サンプルセットの個々の学習サンプルが有する目的変数に関する情報を失うことなく、予測精度の高い予測モデル群を作成することができる。
なお、目的変数が未知のサンプルについて、形成された予測モデルを使用して予測を行う場合は、未知サンプルと最も構造類似する学習サンプルを初期サンプルセットの中で特定し、特定された学習サンプルが属するサブサンプルセットに割り当てられた重回帰式を用いて、未知サンプルの目的変数を計算する。その結果、信頼性の高い予測を行うことができる。
前記課題を解決するプログラムは、コンピュータに、a)目的変数の実測値が既知のサンプルによって初期サンプルセットを構築する手順、b)前記初期サンプルセットを重回帰分析して重回帰式を獲得する手順、c)前記重回帰式に基づいて各サンプルの残差値を計算する手順、d)前記残差値に基づいて前記重回帰式にフィットするサンプルを特定する手順、e)前記特定したサンプルを前記初期サンプルセットから取り除いて新たなサンプルセットを構築する手順、f)前記新たなサンプルセットを前記初期サンプルセットに設定して、前記ステップa)からe)を繰り返す手順、g)前記繰り返しの各段階で獲得される前記重回帰式と前記取り除くサンプルとの組合せを、前記目的変数が未知のサンプルの予測モデルとして設定する手順、を実行させる。
前記課題を解決するシステムは、目的変数の実測値が既知のサンプルによって初期サンプルセットを構築する第1の手段と、前記初期サンプルセットを重回帰分析して重回帰式を獲得する第2の手段と、前記重回帰式に基づく各サンプルの残差値を計算する第3の手段と、前記残差値に基づいて、前記重回帰式にフィットするサンプルを特定する第4の手段と、前記特定したサンプルを前記初期サンプルセットから取り除いて新たなサンプルセットを構築する第5の手段と、前記新たなサンプルセットを前記初期サンプルセットに設定して、前記ステップa)からe)を繰り返す第6の手段と、前記新たなサンプルセットにおいて、サンプルの総数が予め定めた数以下になった場合、サンプルの最小残差値が予め定めた値を超えた場合、サンプル数と重回帰分析に使用するパラメータ数との比が予め定めた一定値以下となった場合、あるいは前記繰り返しの回数が予め定めた一定回数を超えた場合の何れかを検出して、前記第6の手段における繰り返しを停止させる第7の手段と、を備えている。
前記方法、プログラムおよびシステムによれば、初期サンプルセットから、このセット中に含まれる個々の学習サンプルが有する情報を失うことなく、予測精度の高い予測モデル群を作成することができる。そのため、予測に対して高い精度が要求される、化合物の安全性評価の分野にも本発明を適用可能である。
図1は、本発明の原理を説明するための図であって、重回帰分析によって得られたサンプルの計算値と実測値の関係を示す相関図である。 図2は、図1に示す相関図において、残差値の小さな領域を説明するための図である。 図3は、新たな学習サンプルセットについて実施した重回帰分析の結果としての相関図を示す。 図4は、更に新たな学習サンプルセットについて実施した重回帰分析の結果としての相関図を示す。 図5は、更に新たな学習サンプルセットについて実施した重回帰分析の結果としての相関図を示す。 図6は、第1の実施形態の処理手順を示すフローチャートである。 図7は、初期パラメータセットテーブルの一例を示す。 図8は、第1段階の重回帰分析結果をグラフィック表示で示す図である。 図9は、第2段階の重回帰分析結果をグラフィック表示で示す図である。 図10は、最終に近い段階の重回帰分析結果をグラフィック表示で示す図である。 図11は、第1の実施形態による重回帰分析結果の一部を示す図である。 図12は、第1の実施形態に基づく予測モデルを使用した、未知サンプルの目的変数の予測手順を示すフローチャートである。 図13Aは、第2の実施形態の実行手順の一部を示すフローチャートである。 図13Bは、図13Aのフローチャートの後続部分を示すフローチャートである。 図14は、第3の実施形態に係る予測モデル作成システムの概略構成を示すブロック図である。
符号の説明
1、2、3、4 残差値の小さいサンプル
5、6 残差値の大きいサンプル
10、20 残差値の小さいサンプルの存在領域
200 予測モデル作成装置
210 入力装置
220 出力装置
300 記憶装置
400 解析部
M1、M2、M3、Mn 重回帰線
[発明の原理]
本発明の実施形態を説明する前に、まず、本発明の原理について説明する。
図1は、ある学習サンプルセットを線形重回帰分析した結果を示す。この図は、学習サンプルの目的変数について、実測値と計算値(作成された予測モデルを用いて計算された値)との相関関係を示している。図の横軸は各サンプルの目的変数についての実測値を示し、縦軸は重回帰分析の結果として得られた重回帰式(予測モデルM1)に基づいて計算した、各サンプルの目的変数Y1の値(計算値)を示す。この場合の重回帰式は、以下の式(1)で示される。
重回帰式(M1):
M1=±a1・x1±a2・x2±・・・±an・xn±C1 (1)
式(1)において、M1は各サンプルの目的変数の計算値を示し、x1、x2・・・xnは説明変数(パラメータ)の値を、a1、a2・・・anは係数を、C1は定数をそれぞれ示している。各サンプルについて、説明変数の値を式(1)に入力することによって、各サンプルの目的変数Yの値が算出される。式(1)に基づいて算出した目的変数M1の値がサンプルの実測値と一致した場合、サンプルSは図1の回帰線M1上に乗る。したがって、サンプルが回帰線M1の周りに密集して分布すればするほど、その回帰式は良好(精度の高い)な回帰式であると言える。重回帰式の精度は、上述したように、相関係数Rあるいは決定係数R2によって決定される。相関係数Rが1の場合、全サンプルは回帰線上に載る。図1では、相関係数Rが0.7の場合を示している。
図1に示す線形重回帰分析では、サンプルセット全体の分析に基づく相関係数Rは0.7であるが、サンプル1、2、3、4については回帰線M1上に乗っており、したがって、これらのサンプルは重回帰式M1に理想的にフィッティングしているものと考えられる。言い換えると、これらのサンプルの目的変数が未知の場合、重回帰式M1を予測モデルとしてサンプル1、2、3、4の目的変数を計算した場合、その計算値(予測値)はほぼ正確に目的変数の実測値に一致し、予測が正確に行われていることを示す。一方、サンプル5、6、7等については、目的変数の実測値と計算値が大きく離れており、したがって、重回帰式M1はこれらのサンプルについては予測を正確に行うことができない。このように、相関係数Rが0.7の場合であっても、サンプル毎にその重回帰式M1のフィッティングの良否は異なる。
重回帰式M1の信頼性を示す別の指標として、総残差値が使われることがある。残差値とは、個々のサンプルの目的変数の実測値と計算値との差であり、総残差値は個々のサンプルの残差値の総和である。重回帰式M1に良くフィッティングしているサンプル1では実測値と計算値が同じであるため、残差値は0となる。良くフィッティングしていないサンプル7では、残差値は大きくなる。したがって、総残差値が0に近いほど、重回帰式M1の信頼性が高くなる。
総残差値は、サンプル母集団全体に対する重回帰式M1の信頼性を評価することが可能であるが、個々のサンプルについて重回帰式M1の信頼性を評価するものではない。例えば、サンプル1については、重回帰式M1は良くフィッティングしており、サンプル7については良くフィッティングしていない。このように、総残差値には、個々のサンプルの残差値に関する情報が反映されていない。
本発明では、個々のサンプルの残差値の改良に着目し、如何にすれば個々のサンプルの残差値が小さくなるかについて検討を行った結果、以下に示す新たな手法を開発した。
図1において、重回帰式M1を表す直線の近辺に存在するサンプルはその残差値が小さい。したがって、残差値に、0に近い閾値α(絶対値)を設けることによって、重回帰式M1に良くフィットするサンプルを特定することができる。閾値αは任意の数値で良いが、0に近い程精度が向上する。図1の相関図では、点線で囲まれた領域10が、閾値α以下の残差値を有するサンプルが存在する領域である。したがって、領域10内に存在するサンプル、即ち、残差値がα以下のサンプルに対して、重回帰式M1をこれらのサンプルに対する予測モデル(第1段階の予測モデル)として特定する。
次に、図2に示す様に、領域10内のサンプルをサンプル母集団(以下、サンプルセット)から除去し、残りのサンプルを新たなサンプルセットとして2回目の重回帰分析を行う。この場合、サンプルセットが新しいものとなったために、新たな特徴抽出が行われて新たなパラメータセットが創出されるので、その結果、新たな重回帰式M2(図3参照)が算出される。
図3は、新たなサンプルセットに対して形成された重回帰式M2を用いて、個々のサンプルの実測値と計算値の相関関係を示した図である。重回帰式M1に良くフィットしていたサンプルがサンプルセットから除去されたので、重回帰式M1では回帰線から離れた領域に存在していたサンプルが、図3に示す様に、新たな重回帰式M2による回帰線の近辺に落ち込んで行く現象が見られる。その結果、重回帰線M2の近辺に存在するサンプルについては、実測値と予測値(計算値)のかい離が小さく、重回帰式M2はこれらのサンプルに対して精度の高い予測モデル(第2段階の予測モデル)となる。なお、図3において、10、10は2回目の重回帰分析によって発生したアウトライヤーサンプルを示す。
第2段階の予測モデルを適用するサンプルを特定するために、残差値に対して閾値β(絶対値)を決定する。閾値βは第1段階の閾値αと同じであっても違っていてもどちらでも良い。図3の点線で示す領域20が、残差値がβ以下であるサンプルが存在する領域である。このようにして、第2段階の予測モデルM2とこのモデルに適用するサンプルが特定されると、第1段階の場合と同様にして、これらのサンプルをサンプルセットから除去し、新たなサンプルセットを形成する。
図4は、以上のようにして形成された新たな母集団に対して新たな重回帰分析を行い、その結果として得られた新たな重回帰式M3による、各サンプルの実測値と計算値との相関を示す図である。新たなサンプルが重回帰線M3の近辺に落ち込んでいく様子が見られる。したがって、第1、第2段階と同様に、残差値の新たな閾値γ(絶対値)を設定し、残差値がこの値γ以下であるサンプル(領域30内のサンプル)を特定し、これを第3段階の予測モデルM3に対するサンプルとして特定する。なお、閾値γは、閾値α、βと同じでもよくあるいは異なっていても良い。2回目の重回帰分析によって発生したアウトライヤーサンプルは、図4に示す様に、3回目の重回帰分析によって消滅している。
図5は、以上の段階を繰り返した結果としてのn段階目の重回帰式Mnによる、個々のサンプルの実測値と計算値との相関を示す図である。これまでの各段階で除去されずに残ったサンプルセットに対して、重回帰式Mnが良くフィットしていることが分かる。したがって、重回帰式Mnをn段階目の予測モデルとし、残ったサンプルをこの予測モデルの適用サンプルとする。なお、重回帰分析には、データ解析精度を保証するのに必要な条件、すなわちサンプル数とパラメータ数の比における制限条件が有り、サンプルセットがこれらの制限に合致した場合にそれ以上の重回帰分析は行われない。したがって、必ずしも最終の分析段階で全てのサンプルがその段階の重回帰線近辺に来るとは限らない。
以上の結果、最初のサンプルセットから以下のような予測モデルが得られる。
表1の予測モデルにおける総残差値は、サンプルセットの個々の学習サンプルについて、そのサンプルが属する段階の予測モデルを用いて計算された残差値を算出し、その総和として求められる。例えば、学習サンプル11では第1段階の予測モデルM1を用いて目的変数の計算値を求め、計算値と実測値との差を残差値とする。サンプル23では、第3段階の予測モデルM3を用いて目的変数の計算値を求め、計算値と実測値との差の絶対値を残差値とする。全ての学習サンプルについて同様にしてそれらの残差値を求め、総計することによって総残差値とする。個々の学習サンプルの残差値は、このようにして最もフィットした予測モデルによって決定されるので、それらの値は一様に低く、したがって、総残差値も従来の方法(1回の重回帰分析によって予測モデルを確定する方法)に比べてかなり低くなることが予想される。
表1の予測モデルを使用して、目的変数の実測値が未知のサンプルについて、目的変数の予測を行う場合は、まず、未知サンプルがサンプルセットのどの学習サンプルに最も類似しているかを特定する。サンプルが例えば化学物質である場合、未知サンプルの化学構造に最も類似する学習サンプルを特定する。これは、例えば、タニモト係数などを用いて周知の構造類似計算を行うことにより、容易に求められる。未知サンプルに最も類似する学習サンプルが特定されれば、その学習サンプルが属する表1の段階が特定されるので、特定された段階の予測モデルを未知サンプルに適用して、未知サンプルの目的変数を計算する。これによって、高い精度で未知サンプルの目的変数が予測される。構造が類似する化合物間では、その物理、化学的な特性、物性あるいは毒性等は類似するため、本方法による予測精度は極めて高くなる。
なお、個々の段階で得られた重回帰式に最もフィットする学習サンプルを特定する場合に、残差値に閾値を設ける場合のほか、残差値の小さい順から予め決定した任意の個数の学習サンプルを特定する方法もある。
[第1の実施形態]
以下に、第1の実施形態について説明する。
図6は、第1の実施形態にかかる予測モデルの作成方法の全体手順を示すフローチャートである。まず、ステップS1において、解析対象である目的変数の値が既知である複数のサンプルを用意し、学習のためのサンプルセットを形成する。本実施形態では、目的変数を魚毒性とする。具体的には、96時間IC50を目的変数とする。IC50とは半数阻害濃度を意味し、これは、ある化合物が、一セットの実験生物に対してその50%の遊泳、増殖、成長(藻類では生長)や酵素活性等を阻害すると予想される濃度を意味し、化合物の環境毒性を評価する上で非常に重要な指標である。サンプルセットは86個のサンプルを含む。
次のステップS2では、個々の学習サンプルについて、重回帰分析に使用する初期パラメータ(説明変数)を発生させる。富士通株式会社で販売するADMEWORKS−MODELBUILDER(登録商標)では、化合物の2次元あるいは3次元構造式、各種の物性などに基づいて、約4000種類以上のパラメータを自動的に発生させることができる。次に、STAGEを1に設定し(ステップS3)、ステップS2で発生させた初期パラメータに対して特徴抽出を行って重回帰分析に必要のないノイズパラメータを除去し(ステップS4)、最終パラメータセットを決定する(ステップS5)。本実施形態では、11個のパラメータがSTAGE1の最終パラメータとして選択された。
図7に、初期パラメータセットテーブルの一例を示す。図7のコラム70は化合物であるサンプルを特定するためのIDを示す。コラム71は、各サンプルの目的変数LC50の値をμMolの単位で示している。コラム72は最終パラメータセットを構成する説明変数を示す。この例では、サンプルの総原子数(x1)、炭素原子数(x2)、酸素原子数(x3)、窒素原子数(x4)、硫黄原子数(x5)、フッ素原子数(x6)、塩素原子数(x7)、臭素原子数(x8)などを説明変数として採用している。
図7の表における各セル内に記載された数値が、各サンプルについてのパラメータ値である。例えば、サンプルIDが3の化合物は、LC50の値が3.2μモル(μM)であり、その化合物の総原子数は21、そのうち炭素原子数は15、酸素原子数は6であり、一方、窒素、硫黄、フッ素、塩素、臭素原子を含まないことを示している。
図6のステップS6では、例えば、図7のデータテーブルに示されたデータを用いて重回帰分析を行い、第1段階目の重回帰式M1を形成する。重回帰式M1は、前述の式(1)で示される。
重回帰式(M1):
M1=a1・x1+a2・x2+・・・+an・xn+C1 (1)
ここで、a1、a2・・・anは各パラメータx1、x2・・・xnに対する係数であり、C1は定数である。このようにして第1回目の重回帰式M1が形成されると、ステップS7で個々の学習サンプルについて重回帰式M1に基づく目的変数の値(予測値)が計算される。個々の学習サンプルについての目的変数の計算値は、式(1)に、例えば、図7に示すような各サンプルのパラメータ値を代入することによって求められる。
ステップS8では、個々の学習サンプルについて、目的変数の実測値とステップS7で計算した予測値とを比較し、残差値を算出する。このとき、全ての学習サンプルを残差値(絶対値)の大小順にソートしても良い。ステップS9では、残差値の小さい学習サンプルを初期サンプルセットから取り出す。このとき、取り出す学習サンプルは、残差値に閾値を任意に設定し、閾値以下の残差値を有する学習サンプルを取り出す方法、あるいは、予め決めた個数の学習サンプルを残差値の小さい順から取り出す方法等が有り、何れの方法でも良い。残差値の閾値は、勿論0であっても良い。あるいは、最大の残差値をサンプル数で除した値として設定することもできる。この場合は、各段階における閾値はそれぞれ異なってくる。予め決めた個数の学習サンプルを残差値の小さい順から取り出す場合には、取り出す個数を1に設定しても良いし、あるいは、各段階のサンプル数の数パーセント、例えば3%、等として設定しても良い。
図8は、第1回目の重回帰分析の結果をグラフィック表示したものである。図8において、80は、各サンプルについて、目的変数の実測値に対して計算値(予測値)をプロットしたグラフを示し、82は、各サンプルの残差値(絶対値)の棒グラフを示している。グラフ80の横軸は目的変数の実測値を、縦軸は目的変数の計算値を示す。グラフ82の横軸はサンプルIDを、縦軸は残差値を示している。学習サンプルの残差値(絶対値、以下同様)が小さい程、その学習サンプルはステップS6で求めた初期重回帰式に良くフィットしている。したがって、グラフ80および82上に矢印で示す様に、残差値の小さなサンプルを特定し、これらを初期学習サンプルセットから取り除く。
図6のステップS10では、ステップS9で取り出した学習サンプルと重回帰式M1とを第1段階の予測モデルとして設定して、記憶装置に記憶させる。ステップS11では、分析の終了条件を満足したか否かが判定される。分析の終了条件とは、例えば、予め設定された最大のSTAGE数に達したか否か、学習サンプルセット中のサンプル数が予め設定した一定個数以下となったか否か、あるいは、信頼性指標が予め決定された値以下となったか否か、あるいはサンプルの最小残差値が予め定めた値より大きくなったか否か、等である。サンプルの最少残差値に対して予め定めた値とは、例えば、ステップS9における残差値の閾値とすることができる。
ここで、信頼性指標とは、サンプル数をパラメータ数で除した値であり、この値が小さくなると、これらのサンプルとパラメータとから得られる重回帰式はほとんど科学的およびデータ解析的に意味を持たず、どんなに高い相関係数R値や決定係数R2値を得たとしてもその解析は失敗したと判断される。通常、この値が5よりも大きい場合は意味のあるデータ解析(成功解析)とされ、5よりも大きければ大きいほど信頼性の高い重回帰式とみなされる。信頼性指標が5に達しない条件下で得られた重回帰式は意味の無いデータ解析より得られたものと判断され、データ解析は失敗解析と見なされる。したがってこの信頼性指標は、重回帰分析において重要な指標である。信頼性指標の最低値が5であることから、パラメータ数を1個とすると、最低のサンプル数は5個となる。したがって、ステップS11で、最低のサンプル数として5を設定しておいても良い。
ステップS11で何らかの終了条件が満足されたと判断されると(ステップS11のNO)、ステップS14において処理を終了する。ステップS11で何れの終了条件も満足されない場合(ステップS11のYES)、ステップS12において、残りの学習サンプルによって新たな学習サンプルセットを構築し、ステップS13でSTAGEを1だけ進める。その後、ステップS4以下を繰り返して実行する。
ステップS4以下を再度実行することにより、ステップS5で新たな最終パラメータセットが構築され、ステップS6で新たな重回帰式M2が形成される。ステップS8では、この新たな重回帰式M2に基づいて個々の学習サンプルの予測値を算出し、ステップS9で新たな重回帰式M2に基づく各サンプルの残差値が算出される。
図9は、このような第2回目の重回帰分析の結果をコンピュータのスクリーン上にグラフィックとして表示したものである。図9において、90は、各サンプルについて、目的変数の実測値に対して計算値(予測値)をプロットしたグラフを示し、92は、各サンプルの残差値をプロットしたグラフを示している。グラフ90の横軸は目的変数の実測値を、縦軸は目的変数の計算値を示す。グラフ92の横軸はサンプルIDを、縦軸は残差値を示している。図8に示した第1回目の重回帰分析の結果、17個の学習サンプルが除去されているので、第2回目の重回帰分析は69個のサンプルに対して行われた。このときの最終パラメータセットは9個のパラメータを含んでいた。
図9に示す様に、新たな重回帰分析によって残差値の小さなサンプルが新たに発生するので、ステップS9においてこれらのサンプルを取り除き、ステップS10で重回帰式M2と共に取り出したサンプルをSTAGE2の予測モデルとして設定する。
その後、ステップS11で、終了条件が満足されているか否かを判定し、NOの場合ステップS12で残りの学習サンプルによって新たな学習サンプルセットを構築し、次のSTAGEに進む。尚、ステップS11はステップS5の次のステップで実行されてもよい。この場合、ステップS11で分析終了条件が満足されない場合に、重回帰式が作成される。
図10は、ステップS4以下の処理を何回か繰り返した後のSTAGEにおける重回帰分析の結果を、コンピュータのスクリーン上にグラフィックとして表示したものである。図8および図9の場合と同様に、図10の100は各サンプルについて、目的変数の実測値に対して計算値(予測値)をプロットしたグラフを示し、102は、各サンプルの残差値をプロットしたグラフを示している。図10に示す重回帰分析では、サンプル数は10、パラメータ数は2となっている。
図11は、全86個のサンプルのうち、幾つかのサンプルについて、多段階重回帰分析の結果をまとめて示す表である。“段階1計算値”として示すコラムには、重回帰式M1を用いて計算された各サンプルの予測値が、“残差値1”として示すコラムには、各サンプルの実測値と段階1計算値の差が示されている。“段階2計算値”として示すコラムには、重回帰式M2を用いて計算された各サンプルの予測値が、“残差値2”として示すコラムには、各サンプルの実測値と段階2計算値との差が示されている。以下、同様に各段階における予測値と残差値が示されている。
図11の、“Structure9”として示すサンプルは、段階2の計算の結果、残差値2で示されるように、残差値が充分に小さくなり、この時点で決定サンプルとしてサンプルセットから取り除かれている。そのため、以降の段階の重回帰処理は行われていない。“Structure9”の最終段階の残差値は0.077となる。“Structure46”として示すサンプルは、段階1の計算の結果、残差値が充分に小さくなり、この時点で決定サンプルとしてサンプルセットから取り除かれている。そのため、以降の段階の重回帰処理は行われていない。“Structure46”の最終段階の残差値は0.099となる。
“Structure74”として示すサンプルは、段階6の計算の結果、残差値が0となり、この時点で決定サンプルとしてサンプルセットから取り除かれている。そのため、以降の段階の重回帰処理は行われていない。“Structure74”の最終段階の残差値が0ということは、実測値と予測値が完全に一致したことを示す。“Structure401”として示すサンプルは、図示する各段階では残差値が充分に小さくなっていないが、段階7で残差値が充分小さくなり、この時点で決定サンプルとしてサンプルセットから取り除かれている。その時点での残差値、即ち、最終残差値は0.051である。
図11のセル110は、全86サンプルの段階1の残差値の総和を示す。従来の一段階だけのフィッティング手法では、セル110内の値が、そのフィッティングの良否を判定する指標の一つである総残差値を示す。本実施形態のフィッティング手法では、個々のサンプルの最終段階での残差値の総和、即ち、セル112内に示す値が総残差値となる。セル110とセル112内の値を比べることによって明らかなように、本実施形態のフィッティング手法では、総残差値の値が従来の手法の3分の1以下となり、本実施形態の手法の優位性が明らかである。
以上に述べたように、図6のフローチャートに従うことにより、個々のサンプルが有する種々の情報を最大限に含む予測モデルが形成される。予測モデルの形式は、前述の表1に示すものとなる。なお、前記実施形態は、化合物のLC50、即ち半数致死濃度の予測モデル作成について記載しているが、半数効果濃度(EC50)、半数阻害濃度(IC50)などを目的変数とした場合も、図6のフローチャートに示す手法が適用可能であることはもちろんである。また、化合物の生分解性、生体蓄積性についても、同様である。
図12は、例えば図6のフローチャートに示す手順を実行することにより得られた予測モデルを使用して、目的変数が未知のサンプルについてその値を予測するための手順を示すフローチャートである。まず、ステップS20において、未知サンプルに対してパラメータ値を発生させる。この場合のパラメータの種類は、学習サンプルに対して発生させた初期パラメータと同じであって良い。ステップS21では、未知サンプルと学習サンプルセット中の個々のサンプルとの間の構造の類似度が算出される。
化合物についての構造類似度算出に関しては、種々の既知アプローチがあり、どのようなものを選択しても良い。これらは既知技術であるため、ここでは詳述しない。本発明者は、化合物の構造類似を利用した予測モデルの作成に関して、PCT/JP2007/066286を出願しており、この中に構造類似度計算について詳細に記載しているので、必要であればこれを参照されたい。
ステップS22で未知サンプルに最も類似した学習サンプルが特定されると、ステップS23において、特定された学習サンプルに適用される重回帰式M(n)を用いて、未知サンプルの目的変数を計算し、これを予測値として処理を終了する。表1を参照してステップS23の手順を詳細に説明すると、ステップS22で例えば学習サンプル22が未知サンプルに最も構造類似するとして特定されると、表1から学習サンプル22が含まれる段階が特定される。この例では、学習サンプル22は第2段階に含まれる。したがって、ステップS23では、第2段階の予測モデルM2を用いて未知サンプルの目的変数を算出し、その結果を予測値とする。これによって、未知サンプルの目的変数の算出が高い精度で実行されることとなる。
[第2の実施形態]
以下に、第2の実施形態を図13Aおよび図13Bを参照して説明する。本実施形態は、学習サンプルセットを用いた予測モデルの作成と未知サンプルの予測とを並行して行う実施形態である。EUでREACH規則の運用が開始されており、その運用に伴って化合物の毒性に関する大量のデータの蓄積が進むものと考えられる。通常、予測モデルは、目的変数が既知のサンプルを集め、これを学習サンプルセットとして作成される。学習サンプルセットに含まれるサンプル数が多いほど、予測精度の高い予測モデルを作成することができる。したがって、一旦作成された予測モデルであっても、学習サンプルとして使用可能な新たなデータが蓄積されると、そのデータを加えた新たな学習サンプルセットで新たな予測モデルを作成することが望まれる。
しかしながら、そのためには定期的に予測モデルを更新する必要があり、多大の労力と経費を要する。もし、予測モデルの作成と未知サンプルの予測を並行して行うことが可能なシステムが実現されれば、学習サンプルセットを固定しておく必要がなく、未知サンプルの予測を行う時点で常に新しいデータを加えた学習サンプルセットを用いて予測を行うことができる。本実施形態は、このような予測システムを実現する実施形態である。固定された予測モデルを使用することなく予測を行うことから、このシステムをモデルフリーのシステムと言うことができる。なお、このモデルフリーシステムで大量のデータを扱うには大きな計算機パワーを要するが、ペタスケールコンピュータ等のスーパーコンピュータの開発によって、大量のデータを扱うモデルフリーシステムの実現が容易となる。
図13Aおよび図13Bは、第2の実施形態にかかる予測方法の全体手順を示すフローチャートである。まず、ステップS30において、分析対象である目的変数の値が既知である複数のサンプルを用意し、学習のためのサンプルセットを形成する。同時に、予測を行おうとする未知サンプルを用意する。ステップS31では、個々の学習サンプルおよび未知サンプルについて初期パラメータを発生させる。なお、学習サンプルセットについて、初期パラメータを発生させたものをデータテーブルとして作成しておけば、このデータテーブルを利用することによって、ステップS31では未知サンプルについての初期パラメータの発生のみを実行すれば良い。あるいは、学習サンプルとして既存の学習サンプルセットに新たに加える学習サンプルがあれば、その学習サンプルについて初期パラメータを発生させれば良い。
ステップS32では、ステップS31で発生させた初期パラメータを利用して、未知サンプルに最も構造類似する学習サンプルを特定する。この特定は、図12の実施形態におけるステップS21とステップS22に関して説明した方法を利用する。次に、ステップS33でSTAGEを1に設定し、ステップS34〜ステップS40を実行して、学習サンプルセットについて重回帰分析を行い、このSTAGEでの重回帰式M(STAGE)を決定し、この重回帰式M(STAGE)によって残差値が小さくなる学習サンプルを特定する。なお、ステップS34〜ステップS40は、図6に示す第1の実施形態の場合のステップS4〜ステップS10と同様の処理であるため、その詳細についてはここでは説明しない。
ステップS40までの実行によって、重回帰式M(STAGE)とそのSTAGEで取り出すべき学習サンプルが特定されると、図13BのステップS41で、ステップS32で特定した未知サンプルに最も構造類似する学習サンプルが、取り出すべき学習サンプル中に含まれているか否かを判定する。含まれている場合(ステップS41のYES)、ステップS42において、重回帰式M(STAGE)を使用して未知サンプルの予測値を計算し、処理を終了する。
一方、ステップS41で含まれていないと判断されると(ステップS41のNO)、ステップS43以降に進み、残りの学習サンプルを新たな学習サンプルセットとする第2段階以降の重回帰分析を実行する。ステップS43〜ステップS45は、図6に示す第1の実施形態のフローチャートにおけるステップS11からステップS13に相当するので、その処理の詳細はここでは説明しない。
以上のように、図13Aおよび13Bに示すフローチャートに従えば、いずれかの段階における重回帰分析において、取り出すべき学習サンプル中に、未知サンプルに最も構造類似した学習サンプルが存在していれば、その時点の重回帰式M(STAGE)を未知サンプルの予測モデルとして決定し、予測値を計算することができる。したがって、その時点以降の段階の処理を続ける必要はない。
本実施形態の予測システムでは、図13Aおよび13Bにそって形成されるプログラムを用意しておけば、学習サンプルが追加されるごとに予測モデルを更新する必要がなくなる。学習サンプルが追加されれば、その学習サンプルについて目的変数の実測値と初期パラメータをデータテーブルあるいはデータベースに追加するのみで良い。したがって、非常に汎用性に優れた予測システムを提供することができる。
[第3の実施形態]
前記第1および第2の実施形態は、プログラムとして構築され、パソコン、並列コンピュータシステムあるいはスーパーコンピュータに実装されて実施される。あるいは、前記第1、第2の実施形態に基づいて、予測モデル作成装置として構成することも可能である。
図14は、第3の実施形態に係る予測モデル作成装置のシステム構成を示すブロック図である。この予測モデル作成装置は、前記第2の実施形態に示す処理が可能なように構成されている。予測モデル作成装置200は、サンプルの構造式、目的変数の実測値等のサンプルデータを入力する入力装置210、予測モデル、未知サンプルの予測結果あるいは処理途中でユーザが必要とするデータを出力することができる出力装置220を備えている。入力装置210から、重回帰分析による予測モデル作成に必要な学習サンプル情報および未知サンプル情報が記憶装置300の入力データテーブル310に入力される。入力装置210は、同様に初期パラメータセットのデータを初期パラメータセットテーブル320に入力する。なお、解析部400が、入力されたサンプル情報について初期パラメータを自動的に発生するためのエンジン410を有している場合は、初期パラメータセットデータを入力装置210から入力する必要はない。
図14において、330は最終パラメータセットを保存するテーブルであり、初期パラメータセットに対して特徴抽出を行った結果としての最終パラメータセットを保存する。340は、解析の結果作成された予測モデルを保存するためのテーブルであり、具体的にはSTAGEごとに決定された重回帰式M(STAGE)と、その重回帰式M(STAGE)が適用されるサンプルのセットについての情報を保存している。350は、未知サンプルについての予測値を保存するためのテーブルである。未知サンプルが複数個ある場合に、計算された予測値を一旦保存しておき、後で一括して出力するためのものである。
解析部400は、制御部420と、初期パラメータ発生エンジン410、特徴抽出エンジン430、構造類似度算出エンジン440、重回帰式作成エンジン450、サンプルの予測値算出エンジン460、残差値算出エンジン470、新たなサンプルセット設定部480および解析終了条件検出部490を備えている。初期パラメータを本装置の外部で発生させる場合は、初期パラメータ発生エンジン410は必要とされない。また、初期パラメータ発生エンジン410、特徴抽出エンジン430は、既存のものを使用することができる。
特徴抽出エンジン430は、初期パラメータセットに対して特徴抽出を行って最終パラメータセットを決定し、これを最終パラメータセットテーブル330に保存する。構造類似度算出エンジン440は、類似度計算のための種々のアルゴリズムに基づいて初期パラメータの幾つかを適宜選択し、未知サンプルと各学習サンプル間の構造の類似度を算出し、未知サンプルに最も構造類似する学習サンプルを特定する。重回帰式作成エンジン450は、種々の既存の重回帰式作成プログラムを備えており、ユーザによって指定された重回帰式作成プログラムあるいはシステムが適宜選択したプログラムを用いて、最終パラメータセットテーブル330を参照しながら、入力サンプルセットについての重回帰分析を行い、重回帰式を作成する。作成された重回帰式は、予測モデル保存テーブル340に保存される。
サンプルの予測値算出エンジン460は、重回帰式作成エンジン450で作成された重回帰式に基づいて、各学習サンプルの予測値を計算する。更に、未知サンプルの予測を行う場合は、予測モデル保存テーブル340に保存された重回帰式に基づいて、未知サンプルの予測値を計算する。残差値計算エンジン470は、サンプルの予測値算出エンジン460で計算された予測値と、入力データテーブル310に保存されているサンプルの目的変数の実測値とを比較し、その相違を計算する。新たなサンプルセット設定部480は、残差値算出エンジン470に基づいて算出された残差値に基づいて、学習サンプルセットから取り除くサンプルを特定し、新たなサンプルセットを構築し、これを次のSTAGEのサンプルセットとして設定する。解析終了条件検出部490は、それ以降の段階の重回帰分析を続行するか否かを判定する装置であり、例えば、図6のステップS11あるいは図13BのステップS43で説明した処理を実行する。
初期パラメータ発生エンジン410、特徴抽出エンジン430、構造類似度算出エンジン440、重回帰式作成エンジン450、サンプルの予測値算出エンジン460、残差値算出エンジン470、新たなサンプルセット設定部480、解析終了条件検出部490は、制御部420の制御下で作動し、図6および図13A、13Bに示す処理を実行する。なお、解析終了条件は、システムによって予め設定しておいてもよく、あるいは、入力装置210を介してユーザが適宜設定するようにしてもよい。
解析部400で得られた各STAGEの重回帰式M(STAGE)と、この重回帰式が適用されるサンプル、さらに予測結果は、記憶装置300の予測モデル保存テーブル340、予測値保存テーブルに保存され、あるいは出力装置220を介して外部に出力される。出力装置としては、種々の記憶装置、ディスプレイ、プリンタ等が選択可能で有り、出力の形態としては、各種ファイル(例えばUSBファイル)、ディスプレイ表示、プリントアウト等を適宜選択することが可能である。
上記した各プログラムは、コンピュータ読取可能な記録媒体に格納することが可能であり、これらの記録媒体を頒布、流通することが可能である。また、同様に上記した各プログラムはインターネット等の通信回線を介して頒布、流通することが可能である。前記したコンピュータ読取可能な記録媒体としては、磁気記録装置、光ディスク、光磁気ディスクであるいは半導体メモリ(RAM、ROM等)などがある。一例として、磁気記録装置としてはハードディスクドライブ(HDD)、フレキシブルディスク(FD)、磁気テープ(MT)等がある。光ディスクの例としては、DVD(Digital・Versatile・Disc)、DVD−RAM、CD−ROM、CD−R、CD−RW等がある。光磁気ディスクとしてはMO(Magneto・Optical・Disk)等がある。
本発明は、重回帰分析が適用可能な全ての産業分野に適用可能である。以下に、主な適用分野を列挙する。
1)化学データ解析
2)バイオ関連研究
3)蛋白質関連研究
4)医療関連研究
5)食品関連研究
6)経済関連研究
7)工学関連研究
8)生産歩留まり向上等を目的としたデータ解析
9)環境関連研究
1)の化学データ解析分野では、より詳細には、下記のような研究に適用できる。
(1)構造−活性/ADME/毒性/物性相関の研究
(2)構造−スペクトル相関研究
(3)メタボノミクス関連研究
(4)ケモメトリクス研究
例えば、構造−毒性相関研究分野では、化合物の半数阻害濃度(IC50)、半数影響濃度(EC50)、半数致死濃度(LC50)、分解性試験、濃縮性試験、28日間反復投与毒性試験等の予測を行うことが極めて重要である。これらは毒性化合物規制関連の化合物審査法や労働安全衛生法等の国レベルの化合物規制に、最重要項目の一つして組み込まれているからである。この濃度基準をクリアしなければ、日本国内での化合物生産はできなくなり、企業の生産活動自体がストップする。また、海外での生産や輸出等も対象国の安全性規制により活動できなくなる。例えば、ヨーロッパ議会におけるREACH規則では、化合物を使用する企業が、その化合物についてこれらの濃度を予測し、評価する義務を負っている。従って、高い予測精度で、これらの濃度を予測することが可能な本発明の方法、装置、プログラムは、REACH規則を実行する上で、有効なツールとなる。

Claims (20)

  1. a)目的変数の実測値が既知のサンプルによって初期サンプルセットを構築し、
    b)前記初期サンプルセットを重回帰分析して重回帰式を獲得し、
    c)前記重回帰式に基づいて各サンプルの残差値を計算し、
    d)前記残差値に基づいて前記重回帰式にフィットするサンプルを特定し、
    e)前記特定したサンプルを前記初期サンプルセットから取り除いて新たなサンプルセットを構築し、
    f)前記新たなサンプルセットを前記初期サンプルセットに設定して、前記ステップa)からe)を繰り返し、
    g)前記繰り返しの各段階で獲得される前記重回帰式と前記取り除くサンプルとの組合せを、前記目的変数が未知のサンプルの予測モデルとして設定する、各ステップを備える、重回帰分析に基づいた予測モデルの作成方法。
  2. 請求項1に記載の方法において、前記ステップd)では、前記残差値が小さいものから予め定めた一定の個数のサンプルを取り除くサンプルとして特定する、重回帰分析に基づいた予測モデルの作成方法。
  3. 請求項1に記載の方法において、前記ステップd)では、あらかじめ定めた閾値以下の残差値を有するサンプルを取り除くサンプルとして特定する、重回帰分析に基づいた予測モデルの作成方法。
  4. 請求項1に記載の方法において、前記ステップf)における前記繰り返しは、前記新たなサンプルセットにおいて、サンプルの総数が予め定めた数以下になった場合、サンプルの最小残差値が予め定めた値を超えた場合、サンプル数と重回帰分析に使用するパラメータ数との比が予め定めた一定値以下となった場合、あるいは前記繰り返しの回数が予め定めた一定回数を超えた場合の何れかで停止される、重回帰分析に基づいた予測モデルの作成方法。
  5. 請求項1に記載の方法において、更に、前記目的変数が未知のサンプルを用意し、当該サンプルに最も構造類似するサンプルを前記初期サンプルセット中で特定するステップを設け、前記ステップf)における繰り返しは、前記取り除かれるサンプル中に前記最も構造類似するサンプルが含まれた段階で停止される、重回帰分析に基づいた予測モデルの作成方法。
  6. a)目的変数の実測値が既知のサンプルによって初期サンプルセットを構築する手順、
    b)前記初期サンプルセットを重回帰分析して重回帰式を獲得する手順、
    c)前記重回帰式に基づいて各サンプルの残差値を計算する手順、
    d)前記残差値に基づいて前記重回帰式にフィットするサンプルを特定する手順、
    e)前記特定したサンプルを前記初期サンプルセットから取り除いて新たなサンプルセットを構築する手順、
    f)前記新たなサンプルセットを前記初期サンプルセットに設定して、前記ステップa)からe)を繰り返す手順、
    g)前記繰り返しの各段階で獲得される前記重回帰式と前記取り除くサンプルとの組合せを、前記目的変数が未知のサンプルの予測モデルとして設定する手順、をコンピュータに実行させるための、重回帰分析に基づいた予測モデルの作成プログラム。
  7. 請求項6に記載のプログラムにおいて、前記ステップd)では、前記残差値が小さいものから予め定めた一定の個数のサンプルを取り除くサンプルとして特定する、重回帰分析に基づいた予測モデルの作成プログラム。
  8. 請求項6に記載のプログラムにおいて、前記ステップd)では、あらかじめ定めた閾値以下の残差値を有するサンプルを取り除くサンプルとして特定する、重回帰分析に基づいた予測モデルの作成プログラム。
  9. 請求項6に記載のプログラムにおいて、前記ステップf)における前記繰り返しは、前記新たなサンプルセットにおいて、サンプルの総数が予め定めた数以下になった場合、サンプルの最小残差値が予め定めた値を超えた場合、サンプル数と重回帰分析に使用するパラメータ数との比が予め定めた一定値以下となった場合、あるいは前記繰り返しの回数が予め定めた一定回数を超えた場合の何れかで、停止される、重回帰分析に基づいた予測モデルの作成プログラム。
  10. 請求項6に記載のプログラムにおいて、更に、前記目的変数が未知のサンプルを用意し、当該サンプルに最も構造類似するサンプルを前記初期サンプルセット中で特定する手順を設け、前記ステップf)における繰り返しは、前記取り除かれるサンプル中に前記最も構造類似するサンプルが含まれた段階で停止される、重回帰分析に基づいた予測モデルの作成プログラム。
  11. a)化合物の任意の毒性を目的変数とする時、当該目的変数の実測値が既知の化合物によって初期サンプルセットを構築し、
    b)前記初期サンプルセットを重回帰分析して重回帰式を獲得し、
    c)前記重回帰式に基づいて前記化合物の残差値を計算し、
    d)前記残差値に基づいて、前記重回帰式にフィットするサンプルを特定し、
    e)前記特定した化合物を前記初期サンプルセットから取り除いて新たなサンプルセットを構築し、
    f)前記新たなサンプルセットを前記初期サンプルセットに設定して、前記ステップa)からe)を繰り返し、
    g)前記繰り返しの各段階で獲得される前記重回帰式と前記取り除く化合物との組合せを、前記目的変数が未知の化合物の前記目的変数を求めるための予測モデルとして設定する、各ステップを備える、重回帰分析に基づいた化合物の毒性予測モデルの作成方法。
  12. 請求項11に記載の方法において、前記任意の毒性は、化合物の生分解性、生体蓄積性、半数阻害濃度、半数影響濃度、半数阻害濃度、半数致死濃度のいずれか一つである、重回帰分析に基づいた化合物の毒性予測モデルの作成方法。
  13. 請求項11に記載の方法において、前記ステップd)では、前記残差値が小さいものから予め定めた一定の個数のサンプルを取り除くサンプルとして特定する、重回帰分析に基づいた化合物の毒性予測モデルの作成方法。
  14. 請求項11に記載の方法において、前記ステップd)では、あらかじめ定めた閾値以下の残差値を有するサンプルを取り除くサンプルとして特定する、重回帰分析に基づいた化合物の毒性予測モデルの作成方法。
  15. 請求項11に記載の方法において、前記ステップf)における前記繰り返しは、前記新たなサンプルセットにおいて、サンプルの総数が予め定めた数以下になった場合、サンプルの最小残差値が予め定めた値を超えた場合、サンプル数と重回帰分析に使用するパラメータ数との比が予め定めた一定値以下となった場合、あるいは前記繰り返しの回数が予め定めた一定回数を超えた場合の何れかで、停止される、重回帰分析に基づいた化合物の毒性予測モデルの作成方法。
  16. 請求項11に記載の方法において、更に、前記目的変数が未知のサンプルを用意し、当該サンプルに最も構造類似するサンプルを前記初期サンプルセット中で特定するステップを設け、前記ステップf)における繰り返しは、前記取り除かれるサンプル中に前記最も構造類似するサンプルが含まれた段階で停止される、重回帰分析に基づいた化合物の毒性予測モデルの作成方法。
  17. 目的変数の実測値が既知のサンプルによって初期サンプルセットを構築する第1の手段と、
    前記初期サンプルセットを重回帰分析して重回帰式を獲得する第2の手段と、
    前記重回帰式に基づく各サンプルの残差値を計算する第3の手段と、
    前記残差値に基づいて、前記重回帰式にフィットするサンプルを特定する第4の手段と、
    前記特定したサンプルを前記初期サンプルセットから取り除いて新たなサンプルセットを構築する第5の手段と、
    前記新たなサンプルセットを前記初期サンプルセットに設定して、前記ステップa)からe)を繰り返す第6の手段と、
    前記新たなサンプルセットにおいて、サンプルの総数が予め定めた数以下になった場合、サンプルの最小残差値が予め定めた値を超えた場合、サンプル数と重回帰分析に使用するパラメータ数との比が予め定めた一定値以下となった場合、あるいは前記繰り返しの回数が予め定めた一定回数を超えた場合の何れかを検出して、前記第6の手段における繰り返しを停止させる第7の手段と、を備える、予測モデルの作成システム。
  18. 請求項17に記載のシステムにおいて、更に、前記目的変数が未知のサンプルを入力する第8の手段と、前記未知のサンプルに最も構造類似するサンプルを前記初期サンプルセット中で特定する第9の手段と、前記第4の手段によって特定された前記取り除くサンプル中に前記最も構造類似するサンプルが含まれる場合、前記第6の手段の前記繰り返しを停止させる第10の手段、とを有する、予測モデルの作成システム。
  19. 請求項17に記載のシステムにおいて、前記サンプルは化合物であり、前記目的変数は、前記化合物の生分解性、生体蓄積性、半数阻害濃度、半数影響濃度、半数阻害濃度、半数致死濃度のいずれか一つである、予測モデルの作成システム。
  20. 目的変数が未知のサンプルについて前記目的変数を予測するための複数の予測モデルを準備する第1のステップであって、前記複数の予測モデルは、
    a)目的変数の実測値が既知のサンプルによって初期サンプルセットを構築し、
    b)前記初期サンプルセットを重回帰分析して重回帰式を獲得し、
    c)前記重回帰式に基づいて各サンプルの残差値を計算し、
    d)前記残差値に基づいて、前記重回帰式にフィットするサンプルを特定し、
    e)前記特定したサンプルを前記初期サンプルセットから取り除いて新たなサンプルセットを構築し、
    f)前記新たなサンプルセットを前記初期サンプルセットに設定して、前記ステップa)からe)を繰り返す、各ステップを実行することにより形成した、前記重回帰式と前記取り除くサンプルとを含む複数のセットにより形成される、前記第1のステップと、
    前記目的変数が未知のサンプルと前記初期サンプルセット中の個々のサンプルとの構造の類似度を算出する第2のステップと、
    前記算出された類似度に基づいて、前記未知サンプルに最も近い構造を有するサンプルを特定する第3のステップと、
    前記複数の予測モデルのうち、前記特定されたサンプルとセットとされる前記重回帰式に基づいて、前記未知サンプルの目的変数を算出する第4のステップ、とを備える、未知サンプルの目的変数予測方法。
JP2010523669A 2008-08-05 2008-08-05 重回帰分析による予測モデルの作成方法、作成システムおよび作成プログラム Expired - Fee Related JP5293739B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/064061 WO2010016110A1 (ja) 2008-08-05 2008-08-05 重回帰分析による予測モデルの作成方法、作成システムおよび作成プログラム

Publications (2)

Publication Number Publication Date
JPWO2010016110A1 true JPWO2010016110A1 (ja) 2012-01-12
JP5293739B2 JP5293739B2 (ja) 2013-09-18

Family

ID=41663340

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010523669A Expired - Fee Related JP5293739B2 (ja) 2008-08-05 2008-08-05 重回帰分析による予測モデルの作成方法、作成システムおよび作成プログラム

Country Status (4)

Country Link
US (1) US20110208495A1 (ja)
EP (1) EP2323081A1 (ja)
JP (1) JP5293739B2 (ja)
WO (1) WO2010016110A1 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5714269B2 (ja) * 2010-08-30 2015-05-07 株式会社Kri 化学物質の溶解パラメータ予測方法
JP5877542B2 (ja) * 2012-04-16 2016-03-08 一般財団法人電力中央研究所 硫黄放出量の推算式の生成方法、推算方法および推算システム
JP5930225B2 (ja) * 2014-01-27 2016-06-08 横河電機株式会社 エネルギー効率評価支援装置、コンピュータプログラムおよびエネルギー効率評価支援方法
JP6216294B2 (ja) * 2014-07-30 2017-10-18 日本電信電話株式会社 重回帰分析装置および重回帰分析方法
JP6505534B2 (ja) * 2015-07-22 2019-04-24 株式会社平間理化研究所 現像液の管理方法及び装置
US11443015B2 (en) * 2015-10-21 2022-09-13 Adobe Inc. Generating prediction models in accordance with any specific data sets
US10353008B2 (en) * 2016-10-06 2019-07-16 Mitsubishi Electric Research Laboratories, Inc. Hybrid battery state sensor
JP6736087B2 (ja) * 2017-01-23 2020-08-05 株式会社平間理化研究所 現像液の濃度監視装置、及び現像液管理装置
JP2018120893A (ja) * 2017-01-23 2018-08-02 株式会社平間理化研究所 現像液の成分濃度測定装置、及び現像液管理装置
CN107167617B (zh) * 2017-05-26 2018-09-25 山东师范大学 鉴定ic50剂量维生素c对raw264.7和k562细胞差异标志物的方法
US11537610B2 (en) * 2017-12-09 2022-12-27 AtScale, Inc. Data statement chunking
JP6954082B2 (ja) * 2017-12-15 2021-10-27 富士通株式会社 学習プログラム、予測プログラム、学習方法、予測方法、学習装置および予測装置
CN108805980B (zh) * 2018-07-17 2022-06-03 新疆农业大学 一种基于3d的马体尺测量系统及数据修正方法
CN109284320B (zh) * 2018-08-15 2021-10-26 上海派拉软件股份有限公司 大数据平台上的自动回归诊断方法
JP7056497B2 (ja) * 2018-10-03 2022-04-19 トヨタ自動車株式会社 重回帰分析装置及び重回帰分析方法
JP7202973B2 (ja) 2019-05-29 2023-01-12 株式会社日立製作所 データ分析装置、データ分析方法、およびデータ分析プログラム
CN110648014B (zh) * 2019-08-28 2022-04-15 山东大学 一种基于时空分位数回归的区域风电预测方法及系统
US11188412B2 (en) * 2019-12-03 2021-11-30 Dell Products L.P. System and method for improving server usage based on anomaly detection
CN111126685B (zh) * 2019-12-16 2023-02-03 武汉材料保护研究所有限公司 一种发动机润滑油质量预测模型建立方法
CN111091244B (zh) * 2019-12-16 2023-02-03 武汉材料保护研究所有限公司 一种发动机润滑油换油周期预测方法
CN111028896A (zh) * 2019-12-27 2020-04-17 华电淄博热电有限公司 一种根据指标相关性自主建立回归方程的煤质化验研究方法
JP2021196778A (ja) * 2020-06-11 2021-12-27 パナソニックIpマネジメント株式会社 生成方法、推定方法、生成装置、および推定装置
CN112509643B (zh) * 2021-02-03 2021-07-09 蓝星安迪苏南京有限公司 一种定量分析模型构建方法、定量分析方法、装置及系统
CN113035287B (zh) * 2021-03-09 2022-11-04 清华大学 一种蒸汽热裂解过程的预测方法
CN113642142B (zh) * 2021-06-08 2023-11-17 天津大学 一种基于海面热通量计算水体层化开始时刻的方法
JP7219374B1 (ja) * 2021-06-23 2023-02-07 昭和電工株式会社 物性予測装置、物性予測方法、及びプログラム
CN113553712B (zh) * 2021-07-22 2023-05-26 华侨大学 基于多元回归的粉末冶金混合材料配方建模及控制方法
KR102647054B1 (ko) * 2021-07-27 2024-03-13 한국전자통신연구원 통신 시스템에서 응용 서비스 응답 시간 예측 방법 및 장치
CN114566292B (zh) * 2022-01-29 2022-11-11 浙江大学医学院附属第一医院 应用内源性物质预测肾移植药物剂量的模型的构建方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56168742A (en) * 1980-05-29 1981-12-25 Tokiwa Kagaku Kikai Kk Tester for inhaled virulence
JPH07218496A (ja) * 1994-02-01 1995-08-18 Sumitomo Chem Co Ltd 溶解パラメータを用いた化学物質の哺乳動物に対する急性毒性の予測システム
JPH08123781A (ja) * 1994-10-20 1996-05-17 Fujitsu Ltd 3次元化合物構造式の周辺空間情報を数値データへ変換する方法、並びに、3次元化合物構造式とその周辺空間との相互作用を数値データへ変換する方法
US6087662A (en) * 1998-05-22 2000-07-11 Marathon Ashland Petroleum Llc Process for analysis of asphaltene content in hydrocarbon mixtures by middle infrared spectroscopy
US7044604B1 (en) * 2001-07-11 2006-05-16 Arrowsmith Peter N Method for determining the power of an intraocular lens used for the treatment of myopia
US20030065409A1 (en) * 2001-09-28 2003-04-03 Raeth Peter G. Adaptively detecting an event of interest
CN1921535A (zh) 2005-08-26 2007-02-28 株式会社理光 图像检索装置,图像处理装置,图像检索方法,以及图像处理方法
KR101232945B1 (ko) * 2006-11-13 2013-02-13 후지쯔 가부시끼가이샤 2클래스 분류 예측 모델의 작성 방법, 분류 예측 모델 작성을 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 및 2클래스 분류 예측 모델의 작성 장치

Also Published As

Publication number Publication date
JP5293739B2 (ja) 2013-09-18
EP2323081A1 (en) 2011-05-18
US20110208495A1 (en) 2011-08-25
WO2010016110A1 (ja) 2010-02-11

Similar Documents

Publication Publication Date Title
JP5293739B2 (ja) 重回帰分析による予測モデルの作成方法、作成システムおよび作成プログラム
Tomaschek et al. Strategies for addressing collinearity in multivariate linguistic data
JPWO2008126209A1 (ja) 重回帰分析による予測モデルの作成方法、作成装置、作成プログラム
Baumann et al. Reliable estimation of prediction errors for QSAR models under model uncertainty using double cross-validation
Zanghellini et al. Elementary flux modes in a nutshell: properties, calculation and applications
Li et al. A multi-task learning formulation for survival analysis
Schuster‐Böckler et al. An introduction to hidden Markov models
JP2008003920A (ja) 時系列データの予測・診断装置およびそのプログラム
Fu et al. Survival trees for left-truncated and right-censored data, with application to time-varying covariate data
Peltola et al. Hierarchical Bayesian Survival Analysis and Projective Covariate Selection in Cardiovascular Event Risk Prediction.
Gritsenko et al. Unbiased quantitative models of protein translation derived from ribosome profiling data
WO2010029627A1 (ja) 重回帰分析による予測モデルの作成方法、作成プログラム、作成装置
Arcari et al. Modeling mean stress relaxation in variable amplitude loading for 7075-T6511 and 7249-T76511 high strength aluminum alloys
Parag et al. Exact Bayesian inference for phylogenetic birth-death models
Majumdar et al. Beware of naïve q2, use true q2: Some comments on QSAR model building and cross validation
Van Dijck et al. Genetic algorithm for informative basis function selection from the wavelet packet decomposition with application to corrosion identification using acoustic emission
Héberger et al. Which performance parameters are best suited to assess the predictive ability of models?
Heuclin et al. Bayesian varying coefficient model with selection: An application to functional mapping
JP2020139914A (ja) 物質構造分析装置、方法及びプログラム
Gebert et al. Identifying genes of gene regulatory networks using formal concept analysis
Jie et al. Chaos game representation (CGR)-walk model for DNA sequences
Cappello et al. Bayesian Change Point Detection with Spike-and-Slab Priors
Zhang et al. Mitigating bias in scientific data: a materials science case study
Malusare et al. Understanding the Natural Language of DNA using Encoder-Decoder Foundation Models with Byte-level Precision
JP2019191634A (ja) データ分析方法、データ分析プログラムおよびデータ分析システム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121203

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130408

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130527

R150 Certificate of patent or registration of utility model

Ref document number: 5293739

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees