JPWO2007139037A1 - ケミカルゲノム情報に基づく、タンパク質−化合物相互作用の予測と化合物ライブラリーの合理的設計 - Google Patents

ケミカルゲノム情報に基づく、タンパク質−化合物相互作用の予測と化合物ライブラリーの合理的設計 Download PDF

Info

Publication number
JPWO2007139037A1
JPWO2007139037A1 JP2008517917A JP2008517917A JPWO2007139037A1 JP WO2007139037 A1 JPWO2007139037 A1 JP WO2007139037A1 JP 2008517917 A JP2008517917 A JP 2008517917A JP 2008517917 A JP2008517917 A JP 2008517917A JP WO2007139037 A1 JPWO2007139037 A1 JP WO2007139037A1
Authority
JP
Japan
Prior art keywords
chemical substance
space
group
data processing
chemical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008517917A
Other languages
English (en)
Other versions
JP5448447B2 (ja
Inventor
恭史 奥野
恭史 奥野
慶 種石
慶 種石
辻本 豪三
豪三 辻本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyoto University
Original Assignee
Kyoto University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyoto University filed Critical Kyoto University
Priority to JP2008517917A priority Critical patent/JP5448447B2/ja
Publication of JPWO2007139037A1 publication Critical patent/JPWO2007139037A1/ja
Application granted granted Critical
Publication of JP5448447B2 publication Critical patent/JP5448447B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • G16C20/64Screening of libraries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medicinal Chemistry (AREA)
  • Bioethics (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本発明は、化合物のスクリーニングを合理的かつ効率的に行うことを目的とする。第1の化学物質群の空間座標を表す第1空間と第2の化学物質群の空間座標を表す第2空間とを定義し、第1の化学物質群は第1の特徴量により特徴付けられ、第2の化学物質群は第2の特徴量により特徴付けられ、前記第1空間と前記第2空間との相関が最大になるように、多変量解析手法、機械学習法およびそれらの等価方法からなる群より選択される手法によって、該第1空間の座標および該第2空間の座標を写像変換することによって解決した。具体的には、タンパク質群と化合物群の相互作用様式をタンパク質の特徴量(配列や発現情報などの生物学的情報)と化合物の特徴量(化学構造、物性などの化学物質情報)の統計的パターンとして機械学習し、それに基づく相互作用予測を実現したシステムであり、これにより上記の問題点が解決された。

Description

本発明は、2種類の化学物質のデータベースを用いて効率よくスクリーニングを行い、合理的設計を行うためのデータ構造に関する。詳細には、遺伝子の配列情報などゲノム情報と化合物の化学特性などのケミカル情報の両情報を用いて、化合物−タンパク質相互作用予測する計算手法に関する。
ヒトゲノムが公開されている現在、ゲノム情報を利用した医薬応用が注目されている。ゲノム情報に基づく医薬品開発には、タンパク質(遺伝子)と化合物の相互作用を解明することが不可欠であるが、これら相互作用を実験的に解明するには莫大な労力である。バイオインフォマティクスの日本での市場は2004年度約350億円で前年比横ばいと推定されている。このうちパッケージソフトの市場は約50億円でやはり横ばい。しかし薬物動態や毒性検査のシミュレーション、タンパク質機能解析ソフトの市場は拡大している(日経バイオ年鑑2005)。また、別の資料では、バイオインフォマティクスの世界市場は2003年2116億円、2010年予測1兆7700億円、2015年予測2兆8700億円と見込まれている(非特許文献1=日経産業新聞2004年11月29日)。現在、この技術の適用ならびに、製品化に向けた研究が製薬企業およびバイオベンチャーにおいて盛んに行われて、医薬品、バイオ産業への市場の拡大が見込まれる。
タンパク質と化合物との相互作用を予測する従来技術としては、一般に、立体構造モデルを用いた予測システムが知られている(非特許文献2〜5)。このシステムは、生体高分子の立体構造情報に基づき、リガンドとの安定な複合体構造およびその結合の強さを推定する方法であり、このようなアプローチはドッキングスタディと呼ばれている。しかしこれらの手法は、X線結晶解析などで信頼できる立体構造を得ている場合でなければ科学的根拠を有する予測が成り立たないこと、さらに立体構造を用いた計算は負荷が高く計算時間が膨大にかかるため、無限のバリエーションを有する化合物群やタンパク質群の組み合わせを網羅的に計算することが不可能であることなどの問題点を有する。
また発明者自身の従来法(非特許文献6)は、タンパク質群と化合物群を別々に統計処理(クラスター解析など)した後、タンパク質処理データと化合物処理データを融合すること(2次元マップ表示)により、タンパク質と化合物の相互作用ペアを推測するもので
あったが、本手法はタンパク質群と化合物群を同時に統計処理することにより、予測性能の著しい向上に成功した技術である。
さらには、2004年12月のNature誌Chemical Space特集号(非特許文献7)では、「化合物のバリエーションは膨大であり全ての化合物を追い求めることは不可能であるため、生物にとって有用な化合物群のみを対象にしなければならない」ことが示されているが、これまでにその具体的方法に関する報告はなされていない。本技術はタンパク質群と化合物群の相互作用様式の統計モデルを構築していることから、生物にとって有用な化合物群の化学特性の統計モデル化に成功している。
特表2002−530727号公表公報(特許文献1)は、ケミカル空間の高活性領域
を特定し、ライブラリー構築を行うことを記載している。しかし、この方法は、ケミカル情報(構造活性相関情報、ファルマコフォア情報など)のみを用いてケミカル空間を定義しているに過ぎない。しかし、この方法では、主成分分析(PCA)が用いられている。
2004年に米国NIHは国家プロジェクトとしてケミカルゲノミクスプロジェクトを開始した。以来、米国や欧州を中心にゲノム情報の化学分野への応用が世界中で取り組まれている。従って、少なくとも米国など先進国において、効率的な予測方法に対する需要が存在する。
日経産業新聞2004年11月29日 Yoshifumi Fukunishi, Yoshiaki Mikami, and Haruki Nakamura "Thefillingpotential method:A methodfor estimating the free energy surfaceforprotein-liganddocking" J.Phys. Chem. B. (2003) 107, 13201-13210. Shoichet, B.K.,D.L. Bodian,and I.D. Kuntz, "Molecular docking usingshapedescriptors."J.Comp. Chem., 1992. 13(3), 380-397. Jones G, WillettP, Glen RC, Leach AR,Taylor R. "Developmentand validation ofa geneticalgorithm for flexible docking." J Mol Biol.1997.267(3):727-748. Rarey M, KramerB,Lengauer T. "Time-efficient docking of flexibleligands intoactive sites ofproteins." Proc Int Conf IntellSyst Mol Biol.1995;3:300-308. Okuno, Y.,Yang,J., Taneishi, K., Yabuuchi,H., Tsujimoto, G, "GLIDA:GPCR-Liganddatabasefor Chemical Genomic Drug Discovery" Nucleic AcidsResearch,34,D673-677, 2006 "Chemical Space", Nature, 432 No 7019 (Insight) 823-865 特表2002−530727号公表公報
本発明は、化合物のスクリーニングを合理的にかつ効率的に行うことを目的とする。
本発明者らは、鋭意開発した結果、第1の化学物質群の空間座標を表す第1空間と第2の化学物質群の空間座標を表す第2空間とを定義し、第1の化学物質群は第1の特徴量により特徴付けられ、第2の化学物質群は第2の特徴量により特徴付けられ、前記第1空間と前記第2空間との相関が最大になるように、多変量解析手法、機械学習法およびそれらの等価方法からなる群より選択される手法によって、該第1空間の座標および該第2空間の座標を写像変換することによって解決した。具体的には、タンパク質群と化合物群の相互作用様式をタンパク質の特徴量(配列や発現情報などの生物学的情報)と化合物の特徴量(化学構造、物性などの化学物質情報)の統計的パターンとして機械学習し、それに基づく相互作用予測を実現したシステムであり、これにより上記の問題点が解決された。
化合物のライブラリー設計やリード探索における従来法は、図1上段のように化合物のケミカル情報のみを用いて行っていた(ケモインフォマティクス)。本発明者らの手法はこのケミカル情報のみの従来手法に、図1下段のバイオインフォマティクス技術を融合させ、ゲノム情報を考慮に入れた化合物ライブラリー設計やリード探索という新しい手法を開発することができた。
化合物のリード探索やライブラリー設計を計算で行う際の基本的な考え方は、個々の化合物の相対的な位置関係(類似度)を示す座標空間が必要である。
例えば、図1上段のケミカル空間上の丸印はそれぞれ異なる化合物を表しており、特性の似ている化合物は相対的に近い位置関係になるように配置されているとするとこれら化合物の位置から構成される座標空間をケミカル空間という。
同様に、遺伝子(タンパク質)についても類似関係を相対的な位置関係として表現したものがバイオ空間である(図1下段、四角印が遺伝子またはタンパク質)。さらに個々の化合物とタンパク質の結合をリンク(図1、中央矢印)することによって、これらケミカル空間とバイオ空間を融合したモデルを作ることができる。
従って、本発明は、以下を提供する。
(1)第1の化学物質の空間座標のデータベースにより定義される第1空間と、第2の化学物質の空間座標のデータベースにより定義される第2空間とを備えるデータ構造物であって、第1の化学物質は、第1の特徴量により特徴付けられ、第2の化学物質は、第2の特徴量により特徴付けられる、データ構造物。
(2)上記第1の特徴量と上記第2の特徴量とは互いに単純な関連が見られないことを特徴とする、項目1に記載のデータ構造物。
(3)上記第1の特徴量は、上記第1の化学物質の化学特性であり、上記第2の特徴量は、上記第2の化学物質の生物活性である、項目1に記載のデータ構造物。
(4)上記第1の化学物質は化合物であり、上記第2の化学物質は、生体物質である、項目1に記載のデータ構造物。
(5)上記生体物質は、核酸、ペプチドまたはポリペプチドまたはタンパク質、サッカリドまたはポリサッカリド、脂質、およびそれらの複合体からなる群より選択される、項目4に記載のデータ構造物。
(6)上記生体物質の空間座標は配列情報、二次構造、三次構造、四次構造、立体構造情報、発現情報、パスウェイ情報、機能情報および生物活性情報からなる群より選択される少なくとも1種類の情報により定義される、項目4に記載のデータ構造物。
(7)上記第1空間と上記第2空間との相関が最大になるように上記第1空間の座標およ
び上記第2空間の座標が定義される、項目1に記載のデータ構造物。
(8)上記第1空間と上記第2空間とは、多変量解析手法、機械学習法およびそれらの等価方法からなる群より選択される手法によって定義されることを特徴とする、項目1に記載のデータ構造物。
(9)上記多変量解析手法は、正準相関分析(CCA)およびカーネル正準相関分析(kernel CCA)からなる群より選択される、項目8に記載のデータ構造物。
(10)上記機械学習法は、サポートベクターマシン(SVM)法を含む、項目8に記載のデータ構造物。
(11)上記第1化学物質の空間座標は、ケミカル情報および化学特性からなる群より選択される情報によって定義される、項目1に記載のデータ構造物。
(12)上記ケミカル情報は、化合物記述子によって定義される、項目9に記載のデータ構造物。
(13)上記化合物記述子は、一次元記述子、二次元記述子および三次元記述子からなる群より選択される、項目12に記載のデータ構造物。
(14)上記化合物記述子は、一次元記述子であり、上記一次元記述子は、化学組成を記述することを特徴とする、項目12に記載のデータ構造物。
(15)上記化合物記述子は、二次元記述子であり、上記二次元記述子は、化学トポロジーを記述することを特徴とする、項目12に記載のデータ構造物。
(16)上記化合物記述子は、三次元記述子であり、上記三次元記述子は、三次元形状および官能性からなる群より選択される特徴を記述することを特徴とする、項目12に記載のデータ構造物。
(17)上記化合物記述子は、ファルマコフォアである、項目12に記載のデータ構造物。
(18)上記化合物記述子は、ファルマコフォアであり、上記ファルマコフォアは、少なくとも3つの空間的に離れたファルマコフォア中心を含み、各ファルマコフォア中心は、
(i)空間位置と、
(ii)ある化学特性を特定する所定のファルマコフォア型と、を含み、基本セットのファルマコフォア型には、少なくとも、水素結合受容体、水素結合供与体、負電荷中心、正電荷中心、疎水性中心、芳香族中心、ならびに他のいずれのファルマコフォアの型にも入らないデフォルトカテゴリが含まれる、項目12に記載のデータ構造物。
(19)上記空間位置を、隣接するファルマコフォア中心間の隔絶距離あるいは隔絶距離範囲として与える、項目18に記載のデータ構造物。
(20) 所望の特性を有する化学物質を生産する方法であって、
A)第1の化学物質の空間座標のデータベースにより定義される第1空間に包含される第1の化学物質群を提供する工程と、
B)第2の化学物質の空間座標のデータベースにより定義される第2空間に包含される第2の化学物質群を提供する工程であって、第1の化学物質は、第1の特徴量により特徴付けられ、第2の化学物質は、第2の特徴量により特徴付けられる、工程と、
C)第2の特徴量において所望の特性を選択する工程と、
D)上記選択された所望の特性を有する第2の化学物質の、第2空間における目的領域を算出する工程と、
E)上記目的領域と所定の距離以下に存在する第1空間の標的領域を算出する工程と、
F)上記第1空間の標的領域に存在する化学物質を選択する工程と、
を包含する、方法。
(21)サンプルデータを用いて上記第1空間と第2空間とを相関させるようトレーニングすること工程をさらに包含する、項目20に記載の方法。
(22)上記トレーニングにより、行列Aと行列Bを生成し、第一モダリティの第一空間を表わすXAと第二モダリティの第一空間を表わすYBとの間の相関は最大となり、これにより、上記第一モダリティから第二モダリティへの特徴の移転が可能となり、上記移転は、行列X、Yの行には化学物質のエントリーが、列には化学物質情報が並ぶ2種の異質な
データ(例えば化合物とタンパク質)を行列X,Y(第一空間が行列X、第二空間が行列Y)
と表現したとき、
第一空間と第二空間の相関を最大にするために、
相関係数
を最大にする係数ベクトルa,bの組を探し、
ここで
、の条件付のとき、
を最大にするとき、
を正準相関、
を正準変量と呼ぶ、方法。
(23)上記正準相関解析において、XとYの特異値分解を行い、
U, D,Vを算出し、上記U,D,Vを用い、
を求め、
ただし、A,B,F,Gは、
であり、ここで、i=1から順番に相関の高いもの
ことを特徴とする項目22に記載の方法。
(24)
上記第一空間を表わすXAのクエリは、上記第二空間を表わすYBの上記クエリの結果のみが与えられると、YBはXAと最大の相関を有することから特定可能であることを特徴とする項目19に記載の方法。
(25)上記工程A)〜F)を機械学習法によって自動的に行うことを包含する、項目20に記載の方法。
(26)上記機械学習法は、SVM法によって達成される、項目25に記載の方法。
(27) 上記機械学習法において、
G1)既知の第1化学物質と第2化学物質との結合データを機械学習アルゴリズムにトレーニングさせる工程;
G2)問い合わせとなる第1化学物質と第二化学物質との問い合わせペアを、第1の化学物質の空間座標のデータベースおよび第2の化学物質の空間座標のデータベースによって構築された空間モデルにおいてマッピングする工程;および
G3)上記問い合わせペアが、空間エリア内に存在する場合、第1化学物質と第二化学物質とが結合すると判定し、空間エリア内に存在しない場合、第1化学物質と第二化学物質とが結合しないと判定する工程を包含する、
項目25に記載の方法。
(28)上記第1の特徴量と上記第2の特徴量とは互いに相関しないことを特徴とする、項目20に記載の方法。
(29)上記第1の特徴量は、上記第1の化学物質の化学特性であり、上記第2の特徴量は、上記第2の化学物質の生物活性である、項目20に記載の方法。
(30)上記第1の化学物質は化合物であり、上記第2の化学物質は、生体物質である、項目20に記載の方法。
(31)上記生体物質は、核酸、ペプチドまたはポリペプチドまたはタンパク質、サッカリドまたはポリサッカリド、脂質、およびそれらの複合体からなる群より選択される、項目30に記載の方法。
(32)上記生体物質の空間座標は配列情報、二次構造、三次構造、四次構造、立体構造情報、発現情報、パスウェイ情報、機能情報および生物活性情報からなる群より選択される少なくとも1種類の情報により定義される、項目30に記載の方法。
(33)上記第1の特徴量は、上記第1の化学物質の生物特性であり、上記第2の特徴量は、上記第2の化学物質の化学活性である、項目20に記載の方法。
(34)上記第2の化学物質は化合物であり、上記第1の化学物質は、生体物質である、項目20に記載の方法。
(35)上記生体物質は、核酸、ペプチドまたはポリペプチドまたはタンパク質、サッカリドまたはポリサッカリド、脂質、およびそれらの複合体からなる群より選択される、項目34に記載の方法。
(36)上記生体物質の空間座標は配列情報、二次構造、三次構造、四次構造、立体構造情報、発現情報、パスウェイ情報、機能情報および生物活性情報からなる群より選択される少なくとも1種類の情報により定義される、項目30に記載の方法。
(37)上記第1空間と第2空間との相関が最大になるように上記第1座標および上記第2座標が定義される、項目20に記載の方法。
(38)上記第1空間と上記第2空間とは、多変量解析手法、機械学習法およびそれらの等価方法からなる群より選択される手法によって定義されることを特徴とする、項目20に記載の方法。
(39)上記多変量解析手法は、正準相関分析(CCA)およびカーネル正準相関分析(kernel CCA)からなる群より選択される、項目38に記載の方法。
(40)上記機械学習法は、サポートベクターマシン(SVM)法を含む、項目38に記載の方法。
(41)さらに、多変量解析手法、機械学習法または等価方法のうち2つ以上を組み合わせて適用することを特徴とする、項目38に記載の方法。
(42)上記相関は、上記目的領域と上記標的領域との間の相関である、項目20に記載の方法。
(43)さらに、上記選択された化学物質をインシリコで生産する工程を包含する、項目20に記載の方法。
(44)さらに、上記選択された化学物質をウェットで生産する工程を包含する、項目20に記載の方法。
(45)上記ウェットでの生産は、コンビナトリアルケミストリを用いて達成される、項目44に記載の方法。
(46)上記ウェットでの生産は、遺伝子組み換え技術を用いて達成される、項目44に記載の方法。
(47)さらに、上記第1空間の化学物質の選択の後、上記第1空間の化学物質の上記第2の特徴量を測定して、実際に所望の活性を有する化学物質を選択する工程をさらに包含する、項目20に記載の方法。
(48)上記化学物質の選択工程において、上記化学物質を上記第2の特徴量に基づいてスコア付けすることを特徴とする、項目20に記載の方法。
(49)上記生体物質の空間座標は配列情報、二次構造、三次構造、四次構造、立体構造情報、発現情報、パスウェイ情報、機能情報および生物活性情報からなる群より選択される少なくとも1種類の情報により定義される、項目20に記載の方法。
(50)上記第1化学物質の空間座標は、ケミカル情報または化学特性によって定義される、項目20に記載の方法。
(51)上記ケミカル情報は、化合物記述子によって定義される、項目50に記載の方法。
(52)上記化合物記述子は、一次元記述子、二次元記述子および三次元記述子からなる群より選択される、項目51に記載の方法。
(53)上記化合物記述子は、一次元記述子であり、上記一次元記述子は、化学組成を記述することを特徴とする、項目51に記載の方法。
(54)上記化合物記述子は、二次元記述子であり、上記二次元記述子は、化学トポロジーを記述することを特徴とする、項目51に記載の方法。
(55)上記化合物記述子は、三次元記述子であり、上記三次元記述子は、三次元形状および官能性からなる群より選択される特徴を記述することを特徴とする、項目51に記載の方法。
(56)上記化合物記述子は、ファルマコフォアである、項目51に記載の方法。
(57)上記第1化学物質は、ファルマコフォアであり、上記ファルマコフォアは、少なくとも3つの空間的に離れたファルマコフォア中心を含み、各ファルマコフォア中心は、
(i)空間位置と、
(ii)ある化学特性を特定する所定のファルマコフォア型と、を含み、基本セットのファルマコフォア型には、少なくとも、水素結合受容体、水素結合供与体、負電荷中心、正電荷中心、疎水性中心、芳香族中心、ならびに他のいずれのファルマコフォアの型にも入らないデフォルトカテゴリが含まれる、項目20に記載の方法。
(58)上記空間位置を、隣接するファルマコフォア中心間の隔絶距離あるいは隔絶距離範囲として与える、項目57に記載の方法。
(59)項目20〜58のいずれか1項に記載の方法によって生産された化学物質。
(60)化合物ライブラリーを生産する方法であって、
A)第1の化学物質の空間座標のデータベースにより定義される第1空間に包含される第1の化学物質群を提供する工程と、
B)第2の化学物質の空間座標のデータベースにより定義される第2空間に包含される第2の化学物質群を提供する工程であって、第1の化学物質は、第1の特徴量により特徴付けられ、第2の化学物質は、第2の特徴量により特徴付けられる、工程と、
C)第2の特徴量において所望の特性を選択する工程と、
D)上記選択された所望の特性を有する第2の化学物質の、第2空間における目的領域を算出する工程と、
E)上記目的領域と所定の距離以下に存在する第1空間の標的領域を算出する工程と、
F)上記第1空間の標的領域に存在する複数の化学物質を選択して所望の特性を有するライブラリーを生産する工程と
を包含する、方法。
(61)項目21〜59のいずれか1項に記載の特徴を有する、項目60に記載の方法。
(62)項目60または61に記載の方法によって生産されたライブラリー。
(63) 所望の特性を有する化学物質を生産する方法をコンピュータに実行させるプログラムであって、上記方法は:
A)第1の化学物質の空間座標のデータベースにより定義される第1空間に包含される第1の化学物質群を提供する工程と、
B)第2の化学物質の空間座標のデータベースにより定義される第2空間に包含される第2の化学物質群を提供する工程であって、第1の化学物質は、第1の特徴量により特徴付けられ、第2の化学物質は、第2の特徴量により特徴付けられる、工程と、
C)第2の特徴量において所望の特性を選択する工程と、
D)上記選択された所望の特性を有する第2の化学物質の、第2空間における目的領域を算出する工程と、
E)上記目的領域と所定の距離以下に存在する第1空間の標的領域を算出する工程と、
F)上記第1空間の標的領域に存在する化学物質を選択する工程と、
を包含する、
プログラム。
(64) 所望の特性を有する化学物質を生産する方法をコンピュータに実行させるプログラムを格納したコンピュータ読み出し可能な記録媒体であって、上記方法は:
A)第1の化学物質の空間座標のデータベースにより定義される第1空間に包含される第1の化学物質群を提供する工程と、
B)第2の化学物質の空間座標のデータベースにより定義される第2空間に包含される第2の化学物質群を提供する工程であって、第1の化学物質は、第1の特徴量により特徴付けられ、第2の化学物質は、第2の特徴量により特徴付けられる、工程と、
C)第2の特徴量において所望の特性を選択する工程と、
D)上記選択された所望の特性を有する第2の化学物質の、第2空間における目的領域を算出する工程と、
E)上記目的領域と所定の距離以下に存在する第1空間の標的領域を算出する工程と、
F)上記第1空間の標的領域に存在する化学物質を選択する工程と、
を包含する、
記録媒体。
(65)第1の化学物質の空間座標のデータベースにより定義される第1空間と、第2の化学物質の空間座標のデータベースにより定義される第2空間とを備えるデータ構造物であって、第1の化学物質は、第1の特徴量により特徴付けられ、第2の化学物質は、第2の特徴量により特徴付けられる、データ構造物が記録された記録媒体。
(66) 所望の特性を有する化学物質を生産するシステムであって、上記システムは:
A)第1の化学物質の空間座標のデータベースにより定義される第1空間に包含される第1の化学物質群と、
B)第2の化学物質の空間座標のデータベースにより定義される第2空間に包含される第2の化学物質群であって、第1の化学物質は、第1の特徴量により特徴付けられ、第2の化学物質は、第2の特徴量により特徴付けられる、第2の化学物質群と、
C)第2の特徴量において所望の特性を選択する手段と、
D)上記選択された所望の特性を有する第2の化学物質の、第2空間における目的領域を算出する手段と、
E)上記目的領域と所定の距離以下に存在する第1空間の標的領域を算出する手段と、
F)上記第1空間の標的領域に存在する化学物質を選択する手段と、
G)上記選択された化学物質を生産する手段と
を備える、システム。
(67) 所望の特性を有する化学物質をスクリーニングするシステムであって、上記システムは:
A)第1の化学物質の空間座標のデータベースにより定義される第1空間に包含される第1の化学物質群と、
B)第2の化学物質の空間座標のデータベースにより定義される第2空間に包含される第2の化学物質群であって、第1の化学物質は、第1の特徴量により特徴付けられ、第2の化学物質は、第2の特徴量により特徴付けられる、第2の化学物質群と、
C)第2の特徴量において所望の特性を選択する手段と、
D)上記選択された所望の特性を有する第2の化学物質の、第2空間における目的領域を算出する手段と、
E)上記目的領域と所定の距離以下に存在する第1空間の標的領域を算出する手段と、
F)上記第1空間の標的領域に存在する化学物質を選択する手段と、
を備える、システム。
(68)化学物質ライブラリーを作成する方法であって、
A)第1の化学物質の空間座標のデータベースにより定義される第1空間を特定する工程、
B)少なくとも1つの特性が既知の第2の化学物質の空間座標のデータベースにより定義される第2空間を特定する工程であって、ここで、第1の化学物質は、第1の特徴量により特徴付けられ、第2の化学物質は、第2の特徴量により特徴付けられる工程、
C)上記第1空間と上記第2空間との相関が最大になるように上記第1空間の座標を定義しなおす工程、
D)上記定義しなおした第1空間を新たな化学物質ライブラリーとして生成する工程、を包含する、方法。
(69) 第1の化学物質群と第2の化学物質群との間の相互作用パターンを統計モデルとして定義するデータ処理方法であって、
第1の化学物質群の空間座標を表す第1空間と、第2の化学物質群の空間座標を表す第2空間とを定義し、第1の化学物質群は、第1の特徴量により特徴付けられ、第2の化学物質群は、第2の特徴量により特徴付けられ、
(I)第1の化学物質群は化合物であり、該第2の化学物質群は、核酸またはタンパク質あるいはそれらの複合体であり、かつ
該第1の特徴量は、該第1の化学物質の1種類以上の化学物質情報からなるベクトルとして表現され、該第2の特徴量は、該第2の化学物質群の1種類以上の生物学的情報からなるベクトルとして表現される場合、あるいは
(II)第1の化学物質群は核酸またはタンパク質あるいはそれらの複合体であり、該第2の化学物質群は、化合物であり、かつ
該第1の特徴量は、該第1の化学物質群の1種類以上の生物学的情報からなるベクトルとして表現され、該第2の特徴量は、該第2の化学物質の1種類以上の化学物質情報からなるベクトルとして表現される場合において、
該第1空間と該第2空間とは、多変量解析手法、機械学習法およびそれらの等価方法からなる群より選択される手法によって写像変換される、データ処理方法であって、
前記第1空間と前記第2空間との相関が最大になるように、多変量解析手法、機械学習法およびそれらの等価方法からなる群より選択される手法によって、該第1空間の座標および該第2空間の座標が写像変換され、変換後の第1空間座標と変換後の第2空間座標を定義する、
ことを特徴とするデータ処理方法。
(70) 項目69に記載のデータ処理方法において、第1の化学物質と第2の化学物質との間の相互作用を予測するデータ処理方法であって、
A)相互作用することが既知である第1の化学物質群と第2の化学物質群について、項目69に記載のデータ処理方法によって、第1の化学物質群の空間座標を表す第1空間と第2の化学物質群の空間座標を表す第2空間とが写像変換される工程と、
B)相互作用の予測対象となる第1の化学物質の第1の特徴量からなるベクトルを該写像変換することによって第1の化学物質を変換後の第1空間へとマッピングする工程と、相互作用の予測対象となる第2の化学物質の第2の特徴量からなるベクトルを該写像変換することによって第2の化学物質を変換後の第2空間へとマッピングする工程と
C)相互作用の予測対象となる第1の化学物質の変換後の座標位置と相互作用の予測対象となる第2の化学物質の変換後の座標位置とによって、予測対象となる第1の化学物質と第2の化学物質とが相互作用する確率をスコアとして算出する工程と、
D)特定のスコア以上を有する第1の化学物質と第2の化学物質を出力する工程と、
を包含する、
データ処理方法。
(71) 項目69に記載のデータ処理方法において、所望の特徴量を有する化学物質またはライブラリーを生産するデータ処理方法であって、
A)相互作用することが既知である第1の化学物質群と第2の化学物質群について、項目69に記載のデータ処理方法によって、第1の化学物質群の空間座標を表す第1空間と第2の化学物質群の空間座標を表す第2空間とが写像変換される工程と、
B)第1の化学物質群の第1の特徴量からなるベクトルを該写像変換することによって第1の化学物質群を変換後の第1空間へとマッピングする工程と、第2の化学物質群の第2の特徴量からなるベクトルを該写像変換することによって第2の化学物質群を変換後の第2空間へとマッピングする工程と
C)第1の化学物質群の変換後の座標位置と第2の化学物質群の変換後の座標位置とによって、第1の化学物質群と第2化学物質群とが相互作用する確率をスコアとして算出する工程と、
D)第2の特徴量において所望の特徴量を選択する工程と、
E)該選択された所望の特徴量を有する第2の化学物質群の、変換後の第2空間における目的領域を算出する工程と、
F)該目的領域内に存在する第2の化学物質群と所定のスコア以上を示す変換後の第1空間の標的領域を算出する工程と、
G)該標的領域に存在する第1の化学物質または化学物質群を選択する工程と、
を包含する、
データ処理方法。
(72) 第1の化学物質群と第2の化学物質群との間の相互作用パターンを統計モデルとして定義するデータ処理方法であって、
第1の化学物質と第2の化学物質のペアが、第1の化学物質の第1の特徴量と第2の化学物質の第2の特徴量とを連結したベクトルとして表現され、
(I)該第1の化学物質は化合物であり、該第2の化学物質は、核酸またはタンパク質あるいはそれらの複合体であり、
該第1の特徴量は、該第1の化学物質の1種類以上の化学物質情報からなるベクトルとして表現され、該第2の特徴量は、該第2の化学物質群の1種類以上の生物学的情報からなるベクトルとして表現される場合、あるいは
(II)第1の化学物質群は核酸またはタンパク質あるいはそれらの複合体であり、該第2の化学物質群は、化合物であり、かつ
該第1の特徴量は、該第1の化学物質群の1種類以上の生物学的情報からなるベクトルとして表現され、該第2の特徴量は、該第2の化学物質の1種類以上の化学物質情報からなるベクトルとして表現される場合において、
第1の化学物質の第1の特徴量と第2の化学物質の第2の特徴量とを連結したベクトルは、多変量解析手法、機械学習法およびそれらの等価方法からなる群より選択される手法によって特徴空間へと写像変換される
データ処理方法。
(73) 項目72に記載のデータ処理方法において、第1の化学物質と第2の化学物質との間の相互作用を予測するデータ処理方法であって、
A)所望の相互作用情報を有する第1の化学物質群と第2の化学物質群のペアについて、項目72に記載のデータ処理方法によって、第1の化学物質の第1の特徴量と第2の化学物質の第2の特徴量とを連結したベクトルを、特徴空間へと写像変換する工程と、
B)予測対象となる第1の化学物質の第1の特徴量と予測対象となる第2の化学物質の第2の特徴量とを述結したベクトルを該写像変換することによって特徴空間へとマッピングする工程と
C)予測対象となる第1の化学物質と予測対象となる第2の化学物質の特徴空間上での座標位置とによって、予測対象となる第1の化学物質と第2化学物質とが所望の相互作用する確率をスコアとして算出する工程と、
D)特定のスコア以上を有する第1の化学物質と第2の化学物質を出力する工程と、
を包含し、
相互作用情報は、結合の有・無、結合活性、薬理活性からなる群より選択される少なくとも1種類の情報により定義される、データ処理方法。
(74) 項目72に記載のデータ処理方法において、所望の特徴量を有する化学物質またはライブラリーを生産するデータ処理方法であって、
A)所望の相互作用情報を有する第1の化学物質群と第2の化学物質群のペアについて、項目72に記載のデータ処理方法によって、第1の化学物質の第1の特徴量と第2の化学物質の第2の特徴量とを連結したベクトルを、特徴空間へと写像変換する工程と、
B)第1の化学物質群の第1の特徴量と第2の化学物質群の第2の特徴量とを連結したベクトルを該写像変換することによって特徴空間へとマッピングする工程と
C)第1の化学物質と第2の化学物質の特徴空間上での座標位置とによって、第1の化学物質と第2化学物質とが所望の相互作用する確率をスコアとして算出する工程と、
D)第2の特徴量において所望の特徴量を選択する工程と、
E)該選択された所望の特徴量を有する第2の化学物質群の、変換後の第2空間における目的領域を算出する工程と、
F)該目的領域内に存在する第2の化学物質群と所定のスコア以上を示す変換後の第1空間の標的領域を算出する工程と、
G)該標的領域に存在する第1の化学物質または化学物質群を選択する工程と、
を包含する、
データ処理方法。
(75) 項目69に記載のデータ処理方法を用いて、第1の化学物質と第2の化学物質との間の相互作用を予測するデータ処理装置であって、該データ処理装置は、演算装置を備え、かつ、以下の工程A)〜D)、すなわち、
A)相互作用することが既知である第1の化学物質群と第2の化学物質群について、項目69に記載のデータ処理方法によって、第1の化学物質群の空間座標を表す第1空間と第2の化学物質群の空間座標を表す第2空間とが写像変換される工程と、
B)相互作用の予測対象となる第1の化学物質の第1の特徴量からなるベクトルを該写像変換することによって第1の化学物質を変換後の第1空間へとマッピングする工程と、相互作用の予測対象となる第2の化学物質の第2の特徴量からなるベクトルを該写像変換することによって第2の化学物質を変換後の第2空間へとマッピングする工程と
C)相互作用の予測対象となる第1の化学物質の変換後の座標位置と相互作用の予測対象となる第2の化学物質の変換後の座標位置とによって、予測対象となる第1の化学物質と第2化学物質とが相互作用する確率をスコアとして算出する工程と
D)特定のスコア以上を有する第1の化学物質と第2の化学物質を出力する工程と、
を包含する方法を該演算装置に実行させる、
データ処理装置。
(76) 項目69に記載のデータ処理方法を用いて、所望の特徴量を有する化学物質またはライブラリーを生産するデータ処理装置であって、該データ処理装置は、演算装置を備え、かつ、以下の工程A)〜D)、すなわち、
A)相互作用することが既知である第1の化学物質群と第2の化学物質群について、項目69に記載のデータ処理方法によって、第1の化学物質群の空間座標を表す第1空間と第2の化学物質群の空間座標を表す第2空間とが写像変換される工程と、
B)第1の化学物質群の第1の特徴量からなるベクトルを該写像変換することによって第1の化学物質群を変換後の第1空間へとマッピングする工程と、第2の化学物質群の第2の特徴量からなるベクトルを該写像変換することによって第2の化学物質群を変換後の第2空間へとマッピングする工程と
C)第1の化学物質群の変換後の座標位置と第2の化学物質群の変換後の座標位置とによって、第1の化学物質群と第2化学物質群とが相互作用する確率をスコアとして算出する工程と、
D)第2の特徴量において所望の特徴量を選択する工程と、
E)該選択された所望の特徴量を有する第2の化学物質群の、変換後の第2空間における目的領域を算出する工程と、
F)該目的領域内に存在する第2の化学物質群と所定のスコア以上を示す変換後の第1空間の標的領域を算出する工程と、
G)該標的領域に存在する第1の化学物質または化学物質群を選択する工程と、
を包含する方法を該演算装置に実行させる、
データ処理装置。
(77) 項目72に記載のデータ処理方法を用いて、第1の化学物質と第2の化学物質との間の相互作用を予測するデータ処理装置であって、該データ処理装置は、演算装置を備え、かつ、以下の工程A)〜D)、すなわち、
A)所望の相互作用情報を有する第1の化学物質群と第2の化学物質群のペアについて、項目72に記載のデータ処理方法によって、第1の化学物質の第1の特徴量と第2の化学物質の第2の特徴量とを連結したベクトルを、特徴空間へと写像変換する工程と、
B)予測対象となる第1の化学物質の第1の特徴量と予測対象となる第2の化学物質の第2の特徴量とを連結したベクトルを該写像変換することによって特徴空間へとマッピングする工程と
C)予測対象となる第1の化学物質と予測対象となる第2の化学物質の特徴空間上での座標位置とによって、予測対象となる第1の化学物質と第2化学物質とが所望の相互作用する確率をスコアとして算出する工程と
D)特定のスコア以上を有する第1の化学物質と第2の化学物質を出力する工程と、
を包含する方法を該演算装置に実行させる、データ処理装置であって、
相互作用情報は、結合の有・無、結合活性、薬理活性からなる群より選択される少なくとも1種類の情報により定義される、
データ処理装置。
(78) 項目72に記載のデータ処理方法を用いて、所望の特徴量を有する化学物質またはライブラリーを生産するデータ処理装置であって、該データ処理装置は、演算装置を備え、かつ、以下の工程A)〜G)、すなわち、
A)所望の相互作用情報を有する第1の化学物質群と第2の化学物質群のペアについて、項目72に記載のデータ処理方法によって、第1の化学物質の第1の特徴量と第2の化学物質の第2の特徴量とを連結したベクトルを、特徴空間へと写像変換する工程と、
B)第1の化学物質群の第1の特徴量と第2の化学物質群の第2の特徴量とを連結したベクトルを該写像変換することによって特徴空間へとマッピングする工程と
C)第1の化学物質と第2の化学物質の特徴空間上での座標位置とによって、第1の化学物質と第2化学物質とが所望の相互作用する確率をスコアとして算出する工程と、
D)第2の特徴量において所望の特徴量を選択する工程と、
E)該選択された所望の特徴量を有する第2の化学物質群の、変換後の第2空間における目的領域を算出する工程と、
F)該目的領域内に存在する第2の化学物質群と所定のスコア以上を示す変換後の第1空間の標的領域を算出する工程と、
G)該標的領域に存在する第1の化学物質または化学物質群を選択する工程と、
を包含する、方法を該演算装置に実行させる、
データ処理装置。
(79) 項目69に記載のデ一タ処理方法を用いて、第1の化学物質と第2の化学物質との間の相互作用を予測するデータ処理プログラムであって、工程A)〜D)、すなわち、
A)相互作用することが既知である第1の化学物質群と第2の化学物質群について、項目69に記載のデータ処理方法によって、第1の化学物質群の空間座標を表す第1空間と第2の化学物質群の空間座標を表す第2空間とが写像変換される工程と、
B)相互作用の予測対象となる第1の化学物質の第1の特徴量からなるベクトルを該写像変換することによって第1の化学物質を変換後の第1空聞へとマッピングする工程と、相互作用の予測対象となる第2の化学物質の第2の特徴量からなるベクトルを該写像変換することによって第2の化学物質を変換後の第2空間へとマッピングする工程と
C)相互作用の予測対象となる第1の化学物質の変換後の座標位置と相互作用の予測対象となる第2の化学物質の変換後の座標位置とによって、予測対象となる第1の化学物質と第2化学物質とが相互作用する確率をスコアとして算出する工程と
D)特定のスコア以上を有する第1の化学物質と第2の化学物質を出力する工程と、
を包含する方法を計算機に実行させるための
データ処理プログラム。
(80) 項目69に記載のデータ処理方法を用いて、所望の特徴量を有する化学物質またはライブラリーを生産するデータ処理プログラムであって、以下のA)〜G)、すなわち、
A)相互作用することが既知である第1の化学物質群と第2の化学物質群について、項目69に記載のデータ処理方法によって、第1の化学物質群の空間座標を表す第1空間と第2の化学物質群の空間座標を表す第2空間とが写像変換される工程と、
B)第1の化学物質群の第1の特徴量からなるベクトルを該写像変換することによって第1の化学物質群を変換後の第1空間へとマッピングする工程と、第2の化学物質群の第2の特徴量からなるベクトルを該写像変換することによって第2の化学物質群を変換後の第2空間へとマッピングする工程と
C)第1の化学物質群の変換後の座標位置と第2の化学物質群の変換後の座標位置とによって、第1の化学物質群と第2化学物質群とが相互作用する確率をスコアとして算出する工程と、
D)第2の特徴量において所望の特徴量を選択する工程と、
E)該選択された所望の特徴量を有する第2の化学物質群の、変換後の第2空間における目的領域を算出する工程と、
F)該目的領域内に存在する第2の化学物質群と所定のスコア以上を示す変換後の第1空間の標的領域を算出する工程と、
G)該標的領域に存在する第1の化学物質または化学物質群を選択する工程と、
を包含する方法を計算機に実行させるための
データ処理プログラム。
(81) 項目72に記載のデータ処理方法を用いて、第1の化学物質と第2の化学物質との間の相互作用を予測するデータ処理プログラムであって、以下の工程A)〜D)、すなわち、
A)所望の相互作用情報を有する第1の化学物質群と第2の化学物質群のペアについて、項目72に記載のデータ処理方法によって、第1の化学物質の第1の特徴量と第2の化学物質の第2の特徴量とを連結したベクトルを、特徴空間へと写像変換する工程と、
B)予測対象となる第1の化学物質の第1の特徴量と予測対象となる第2の化学物質の第2の特徴量とを連結したベクトルを該写像変換することによって特徴空間へとマッピングする工程と
C)予測対象となる第1の化学物質と予測対象となる第2の化学物質の特徴空間上での座標位置とによって、予測対象となる第1の化学物質と第2化学物質とが所望の相互作用する確率をスコアとして算出する工程と
D)特定のスコア以上を有する第1の化学物質と第2の化学物質を出力する工程と、
を包含する方法を計算機に実行させるためのデータ処理プログラムであって、
相互作用情報は、結合の有・無、結合活性、薬理活性からなる群より選択される少なくとも1種類の情報により定義される、
データ処理プログラム。
(82) 項目72に記載のデータ処理方法を用いて、所望の特徴量を有する化学物質またはライブラリーを生産するデータ処理プログラムであって、以下の工程A)〜G)、すなわち、
A)所望の相互作用情報を有する第1の化学物質群と第2の化学物質群のペアについて、項目72に記載のデータ処理方法によって、第1の化学物質の第1の特徴量と第2の化学物質の第2の特徴量とを連結したベクトルを、特徴空間へと写像変換する工程と、
B)第1の化学物質群の第1の特徴量と第2の化学物質群の第2の特徴量とを連結したベクトルを該写像変換することによって特徴空間へとマッピングする工程と
C)第1の化学物質と第2の化学物質の特徴空間上での座標位置とによって、第1の化学物質と第2化学物質とが所望の相互作用する確率をスコアとして算出する工程と、
D)第2の特徴量において所望の特徴量を選択する工程と、
E)該選択された所望の特徴量を有する第2の化学物質群の、変換後の第2空間における目的領域を算出する工程と、
F)該目的領域内に存在する第2の化学物質群と所定のスコア以上を示す変換後の第1空間の標的領域を算出する工程と、
G)該標的領城に存在する第1の化学物質または化学物質群を選択する工程と、
を包含する方法を計算機に実行させるための
データ処理プログラム。
(83) 項目79〜82のいずれか1項に記載のデータ処理プログラムを格納したコンピュータ読み取り可能な記録媒体。
(84) 項目79〜82のいずれか1項に記載のデータ処理プログラムを備え、該データ処理プログラムによって予測、或いは生産された、或いは項目75〜78のいずれか1項に記載のデータ処理装置によって予測、或いは生産された化学物質および化学物質群を化学合成する、化学合成装置。
(85) 項目79〜82のいずれか1項に記載のデータ処理プログラムを備え、該データ処理プログラムによって予測された、第1空間の化学物質群を化学合成した後、該第1空間の化学物質の前記第2の特徴量を測定して、実際に所望の活性を有する化学物質を選択する手段を備える、スクリーニング装置。
(86) 項目79〜82に記載のデータ処理プログラム、または項目83に記載のコンピュータ読み取り可能な記録媒体、および項目16または17に記載の装置を使用することにより実行された方法によって生産された化学物質。
遺伝子の配列情報などゲノム情報と化合物の化学特性などのケミカル情報の両情報を用いて、化合物−タンパク質相互作用予測する計算手法を開発することができた。この手法では、従来型の化合物の化学特性情報のみを用いた予測とは異なり、遺伝子の配列情報をも加えることによって予測の精度向上をはかることに成功した。
従って、この計算手法は具体的に次の2つに適用できる。
1)化合物ライブラリーの生物活性に基づく合理的設計が実現できる。
2)従来法よりも性能の良いリード化合物探索ができる。
以下に、本発明の好ましい実施形態を示すが、当業者は本発明の説明および当該分野における周知慣用技術からその実施形態などを適宜実施することができ、本発明が奏する作用および効果を容易に理解することが認識されるべきである。
従って、本発明のこれらおよび他の利点は、必要に応じて添付の図面等を参照して、以下の詳細な説明を読みかつ理解すれば、当業者には明白になることが理解される。
図1は、本発明の概念図である。化合物のライブラリー設計やリード探索における従来法は、図1上段のように化合物のケミカル情報のみを用いて行っていた。(ケモインフォマティクス)。本発明の手法はこのケミカル情報のみの従来手法に、図1下段のバイオインフォマティクス技術を融合させ、ゲノム情報を考慮に入れた化合物ライブラリー設計やリード探索という新しい手法を開発した。 図2は、本発明の別の概念図である。上段のケミカル空間上の丸印はそれぞれ異なる化合物を表しており、特性の似ている化合物は相対的に近い位置関係になるように配置されているとするとこれら化合物の位置から構成される座標空間をケミカル空間という。同様に、遺伝子(タンパク質)についても類似関係を相対的な位置関係として表現したものがバイオ空間である(下段、四角印が遺伝子またはタンパク質)。さらに個々の化合物とタンパク質の結合をリンク(図1、中央矢印)することによって、これらケミカル空間とバイオ空間を融合したモデルを作ることができる。 図3は、本発明の別の概念図である。上段のケミカル空間上の丸印はそれぞれ異なる化合物を表しており、特性の似ている化合物は相対的に近い位置関係になるように配置されているとするとこれら化合物の位置から構成される座標空間をケミカル空間という。同様に、遺伝子(タンパク質)についても類似関係を相対的な位置関係として表現したものがバイオ空間である(下段、四角印が遺伝子またはタンパク質)。さらに個々の化合物とタンパク質の結合をリンク(図1、中央矢印)することによって、これらケミカル空間とバイオ空間を融合したモデルを作ることができる。 図4は、本発明の別の概念図である。図に示すように、広大なケミカル空間のうち、黄色のバイオ空間に対応するエリア(biologically relevant chemical space)内の化合物が、バイオ空間を形成するタンパク群と相互作用する可能性が高いと考えられるため、生物活性を有する化合物ライブラリーの設計が可能となる。 図5は、最も重要である「ケミカル空間とバイオ空間を融合したモデル」の構築方法について、本手法の特徴を示す。従来法(上段)は、ケミカル情報のみを用い、化合物の化学特性ができる限り多様になるように、ケミカル空間座標を定義していた。ここで大きな問題点は、化合物の多様性と生物活性との直接の因果関係は無いということである。そこで、本手法は、ケミカル情報とタンパク配列情報の両情報を用いて、ケミカル空間とタンパク空間の両空間の相関が高くなるように互いの空間座標を定義することにした。これはバイオ空間との関連を考慮して、ケミカル空間座標を定義する方が、生物活性にとって都合の良い空間座標を構築できると考えられるからである。 図6は、従来法(PCA)と本手法(CCA)の性能評価をするために、それぞれで構築した「ケミカル空間とバイオ空間の融合モデル」を用いて上述のインシリコスクリーニング(In silico screening)を行った結果を示す。図は、予測性能を評価する有名な方法の一つであるROC曲線である。このグラフは曲線が上に位置すれば位置するほど、予測性能が良いことを表すものであり、本手法の曲線が従来法の曲線より上に位置することから、本手法の方が実際に予測性能が高いことがわかる。 図7Aは、モデルの予測性能比較を目的とするROC曲線を示す。 図7Bは、β2ARリガンド予測結果の検証の結果を示す。予測スコア上位50位(Top 50)(B−1)と下位50(Bottom 50)(B−2)の化合物に対する調査・実験結果を示す。それぞれ、左側が、文献調査および実験検証で判明した化合物の内訳であり、右側が、[125I]−シアノピンドロールに対する結合阻害曲線、縦軸が阻害された割合、横軸が各化合物の濃度を示す。 図7Cは、新規モデルおよび従来法によるβ2ARリガンド予測結果の比較を示す。各点が化合物であり、縦軸は新規モデル、横軸は従来の手法による相互作用予測スコアを示している。文献調査および実験検証の結果を以下の色分けにて表示した。 本発明の概念図である。本手法が従来法よりインシリコスクリーニング(In silico screening)予測の性能が良いことから、本手法を用いて、実際に化合物ライブラリーの構築(標的遺伝子の予測)を行った。予測は、米国NCBI/PubChemデータベース内の化合物6,391,005件を用いて、それらの化合物が標的とし得るタンパク候補を予測し、化合物ライブラリーを構築した。 図9は、PubChem化合物の生物活性予測の結果である。各列は化合物と標的タンパクの結合可能性の信頼性を表すスコアごとに分かれている。すなわちスコアが高ければ高いほど、その化合物の生物活性の信頼性は高いと考えられる。また、各行の項目は標的タンパクの機能(遺伝子オントロジー(gene ontology)に基づく)ごとの分類を表している。図9中の数値は、該当する部分に対応する(予測された)化合物の数である。例えば、receptor activityに関するタンパクを標的とし、スコア値27の信頼性を示す化合物は、198個予測されたことになる。 図10は、図9と同様に、PubChem化合物の生物活性予測の結果であるが、標的タンパクの機能分類を異なる基準で行ったものである。図10の見方は図9と同様である。 本発明における計算フロー(実施例としては、CCAを適用した)を示す。 本発明における計算フロー(実施例としては、SVMを適用した)を示す。 図13は、本発明の概念図である。
以下、本発明を説明する。本明細書の全体にわたり、単数形の表現は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。従って、単数形の冠詞または形容詞(例えば、英語の場合は「a」、「an」、「the」など)は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。また、本明細書において使用される用語は、特に言及しない限り、当該分野で通常用いられる意味で用いられることが理解されるべきである。したがって、他に定義されない限り、本明細書中で使用される全ての専門用語および科学技術用語は、本発明の属する分野の当業者によって一般的に理解されるのと同じ意味を有する。矛盾する場合、本明細書(定義を含めて)が優先する。
(定義)
以下に本明細書において特に使用される用語の定義を列挙する。
本明細書において「化学物質」とは、物質という一般用語の中で,とくに化学的な立場で物質を取り扱う場合の用語であり、任意の一定の分子構造をもつ物質をいう。
本明細書において「空間座標」とは、対象物の空間内の位置を特定するための指標である。
本明細書において「空間」とは、「スペース」と交換可能に使用され、集合の別名であり、なんらかの位相や幾何学的構造を想定するものをいう。空間は、例えば、配列情報、二次構造、三次構造、四次構造、立体構造情報、発現情報、パスウェイ情報、機能情報および生物活性情報からなる群より選択される少なくとも1種類の情報により定義され得る。空間としては、例えば、化合物記述子や化学特性などのケミカル情報で定義されるケミカルスペースや発現情報、パスウェイ情報、機能情報、および生物活性などのバイオ情報で定義できるバイオロジカルスペース(Current Opinion in Chemical Biology 2005, 9:296−303)を例示することができる。
本明細書において「特性」とは、ある化学物質が有する、特別の性質をいい、特性としては、例えば、物理的特性(例えば、融点、沸点、比重など)、化学的特性(反応性、酸性、アルカリ性、など)、生物学的活性(酵素活性、レセプターとの結合能、サイトカイン能、細胞との相互作用力など)を挙げることができるがそれらに限定されない。
本明細書において「単純な関連が見られない」とは、第一特性と第二特性を直感的な相関が見られないことをいう。「単純な関連が見られない」とは、既知の相関がみられない。その具体例としては、例えば、第一特性を示すベクトルをa,bとし、第二特性を示すベクトルをx,yとしたとき、aとx、aとy、bとx、bとyのペアには相関が無いが、線形結合ベクトルm*a+n*bとM*x+N*y(m,n,M, Nは0で無い係数)との間に相関が見られるなどの、単純な相関は無いが、適当な変換を加えたF(a,b,…)とF’(x,y,…)の間に相関が見られる場合があることなどである。
本明細書において「生体物質」とは、生物に関連する任意の物質を言う。生体物質もまた、化学物質の一種として捕らえることができる。本明細書において「生体」とは、生物学的な有機体をいい、動物、植物、菌類、ウイルスなどを含むがそれらに限定されない。従って、本明細書では生体物質は、生体から抽出される分子を包含するが、それに限定されず、生体に影響を与え得る分子であれば生体物質の定義に入る。したがって、コンビナトリアルケミストリで合成された分子、医薬品として利用され得る低分子(たとえば、低分子リガンドなど)もまた生体への効果が意図され得るかぎり、生体物質の定義に入る。そのような生体物質には、タンパク質、ポリペプチド、オリゴペプチド、ペプチド、ポリヌクレオチド、オリゴヌクレオチド、ヌクレオチド、核酸(例えば、cDNA、ゲノムDNAのようなDNA、mRNAのようなRNAを含む)、ポリサッカライド、オリゴサッカライド、脂質、低分子(例えば、ホルモン、リガンド、情報伝達物質、有機低分子など)、これらの複合分子(糖脂質、糖タンパク質、リポタンパク質など)などが包含されるがそれらに限定されない。生体物質にはまた、細胞への導入が企図される限り、細胞自体、組織の一部も包含され得る。通常、生体物質は、核酸、タンパク質、脂質、糖、プロテオリピッド、リポプロテイン、糖タンパク質およびプロテオグリカンなどであり得る。好ましくは、生体物質は、核酸(DNAまたはRNA)またはタンパク質を含む。別の好ましい実施形態では、生体物質は、核酸(例えば、ゲノムDNAまたはcDNA、あるいはPCRなどによって合成されたDNA)である。他の好ましい実施形態では、生体物質はタンパク質であり得る。好ましくは、そのような生体物質は、ホルモンまたはサイトカインであり得る。本明細書において使用される「サイトカイン」は、当該分野において用いられる最も広義の意味と同様に定義され、細胞から産生され同じまたは異なる細胞に作用する生理活性物質をいう。サイトカインは、一般にタンパク質またはポリペプチドであり、免疫応答の制禦作用、内分泌系の調節、神経系の調節、抗腫瘍作用、抗ウイルス作用、細胞増殖の調節作用、細胞分化の調節作用などを有する。本明細書では、サイトカインはタンパク質形態または核酸形態あるいは他の形態であり得るが、実際に作用する時点においては、サイトカインは通常はタンパク質形態を意味する。本明細書において用いられる「増殖因子」とは、細胞の増殖を促進または制御する物質をいう。増殖因子は、成長因子または発育因子ともいわれる。増殖因子は、細胞培養または組織培養において、培地に添加されて血清高分子物質の作用を代替し得る。多くの増殖因子は、細胞の増殖以外に、分化状態の制御因子としても機能することが判明している。サイトカインには、代表的には、インターロイキン類、ケモカイン類、コロニー刺激因子のような造血因子、腫瘍壊死因子、インターフェロン類が含まれる。増殖因子としては、代表的には、血小板由来増殖因子(PDGF)、上皮増殖因子(EGF)、線維芽細胞増殖因子(FGF)、肝実質細胞増殖因子(HGF)、血管内皮増殖因子(VEGF)のような増殖活性を有するものが挙げられる。
本明細書において「レセプター」とは、細胞上または核内などに存在し、外界からの因子または細胞内の因子に対する結合能を有し、その結合によりシグナルが伝達される分子をいう。レセプターは通常タンパク質の形態をとる。レセプターの結合パートナーは、通常リガンドという。
本明細書において「アゴニスト」とは、ある生体作用物質(リガンド)のレセプターに結合し、その物質のもつ作用と同じ(あるいは類似の)作用を現わすは因子をいう。
本明細書において「アンタゴニスト」とは、ある生体作用物質(リガンド)のレセプターへの結合に拮抗的に働き、それ自身はそのレセプターを介した生理作用を現わさない因子をいう。拮抗薬、遮断剤(ブロッカー)、阻害剤(インヒビター)などもこのアンタゴニストに包含される。
本明細書において「化合物」とは、化学変化によって2種またはそれ以上の元素の単体に分けることができる純粋物質をいう。2種以上の元素の原子の化学結合によって生じた
純粋物質といってもよい。通常、各元素の組成比は一般に定比例の法則に従って一定であるが、不定比化合物のように組成比がある範囲で連続的に変化しても安定な結晶をつくるものもまた、本明細書において化合物の範疇に入れる。本明細書において「化合物種」とは、ある化合物の集合において、特定の目的とする活性を有するなど、所望の性質を有する1種の化合物についていう。例えば、ある生体物質の活性を調節する化合物の集合において、ある生体物質の活性を調節する化合物が特定される場合、そのような単一の化合物は、化合物種と称され得る。本明細書では、単に化合物とも称される。
本明細書において「単純な関連が見られない」とは、第一特性と第二特性を直感的な相関が見られないことをいう。単純な関連が見られないとは、例えば、既知の相関がみられないことによって判定することができ、その具体例としては、例えば、第一特性を示すベクトルをa,bとし、第二特性を示すベクトルをx,yとしたとき、aとx、aとy、bとx、bとyのペアには相関が無いが、線形結合ベクトルm*a+n*bとM*x+N*y(m,n,M,Nは0で無い係数)との間に相関が見られるなどの、単純な相関は無いが、適当な変換を加えたF(a,b,…)とF’(x,y,…)の間に相関が見られる場合があることなどである。例えば、分子量と、融点または沸点とは、ある程度関連があることから、単純な関連が見られない、とはいわない。
本明細書において「相関が最大になるように」「座標を変換」するとは、ある空間における各要素と、別の空間における各要素との関係が、全体としてみたときに、最大限に相関している状態を言う。このような定義は、種々の計算手法によって達成することができる。
本明細書において「相関」とは、数理統計学や生物統計学において,一般に二つまたはそれ以上の変量のあいだの関連性をいい、2つの確率変数の間の直線的な共変関係をいう
。数量分類学において,対象とする二つの操作的分類単位(OTU)間の類似係数(類似の程度)によって表現することができる。従って、相関分析とは、対のデータに基づいて相関の有無を検証し,あるいは相関の大きさを推定したりする統計方法のことである。とくに一方が増すと他方も増す場合に正の相関が,この逆の場合に負の相関があるという。データを2次元平面にプロットしたものを散布図という。
本明細書において相関係数とは、2つの確率変数X,Yの間の関連を示す,一次変換で不変な量をいう。XとYの共分散をXおよびYのおのおのの分散の積の平方根で割った値である。
本明細書において相関関数とは、空間の相関関数と時間の相関関数がある。2点の物理量A(r)とA(r’)の積の平均値A(r)A(r’)を空間の相関関数という。これが2点間の距離に対して指数関数的に変化するとき、これを
とおいて, 相関距離ξが定義される。時間の相関関数に対しても同様に相関時間τが定義される。ξやτは臨界点で発散する。
本明細書において「相関距離」とは、空間の各点に存在する確率変数A(r)の相関関数〈A(r)A(r’)〉が2点間距離r=|r−r’|の増大とともに絶対値として減少していく場合,その減衰の目安となる距離をいう。相関関数がexp(−r/ξ)の形である場合,ξが相関距離である。減衰が指数関数的でない場合に一義的に定義することはできないが,多くの場合,適当な長さの尺度として定まる。
ある実施形態では、本明細書において相関を最大にする方法としては、例えば、正準相関分析(CCA)、カーネル正準相関分析(kernel CCA)、サポートベクターマシン(SVM)法、多変量解析手法、機械学習法または等価方法によって達成することができる。
本明細書において「ケミカル情報」または「化学物質情報」とは、化学物質の化合物としての情報をいう。より詳細に定義すると、化学構造自体や化学構造から計算処理によって算出された各種記述子(文献 Handbook of Chemoinformatics:From Data to Knowledge Gasteiger,Johann(EDT)/Publisher:John Wiley Published 2003/10)、化学構造や記述子より計算推定される化学特性、さらには化合物を計測して得られる化学特性が含まれる。通常、各々の情報は数値または数値列(ベクトル)として表現される。各々の化合物は、適宜選択した各種ケミカル情報の数値列を連結した数値列(ベクトル)として表現される。
通常、ケミカル情報は、化合物記述子によって定義される。このような記述子としては、例えば、一次元記述子、二次元記述子および三次元記述子からなる群より選択されるものを挙げることができる。本明細書において「記述子」とは、ディスクリプタともいい、ある情報を記述するための方法およびそれにより表された表現物をいう。記述子は、電波、磁波、音、光、色、画像、数字、文字などならびにそれらの組み合わせによって表現することができる。分子構造を特徴づける記述子群の特定は、数多くの化合物を解析するプロセスでは重要な工程である。数多くの記述子が提案されているが、分子構造へのアプローチに応じて、これらを分類することができる(M.Hassan et al.,Molecular Diversity,1996,2,64;M.J.McGregor
et al.,J.Chem.Inf.Comput.Sci.,1999,39,569;R.D.Brown,Perspectives in Drug Discovery and Design,1997,7/8,31参照。以上は先に本明細書に参考文献として援用する。R.D.Brown et al.,J.Chem.Inf.Comput.Sci.1996,36,572;R.D.Brown et al.,J.Chem.Inf.Comput.Sci.1996,37,1;D.E.Patterson et al.,J.Med.Chem.1996,39,3049;S.K.Kearsley et al.,J.Chem.Inf.Comput.Sci.1996,36,118参照。以上を本明細書に参考文献として援用する)。1次元(1D)特性は、分子量やclogP等の全体的な分子特性をあらわす。2次元特性(2D)には、分子の機能性や結合性が含まれる。2D記述子の実例としては、MDLサブストラクチャーキー(MDL Information SystemsInc.,14600 Catalina St.,San Leandro,CA 94577)(M.J.McGregor et al.,J.Chem.Inf.Comput.Sci.,1997,37,443参照。これを本明細書に参考文献として援用する)やMSI50記述子(Molecular Simulations Inc.,9685 Scranton Road,San Diego,CA 92121−3752)が挙げられる。例えば、薬剤化合物に対する要件を特定する際に有用な、周知の5つの法則(rule of five)は、1次元記述子及び2次元記述子から導かれる(C.A.Lipinski et al.,Advanced Drug Delivery Reviews,1997,23,3参照。これを本明細書に参考文献として援用する)。
3次元記述子(3D)の算出には、適度なエネルギーを有する少なくとも1つの3次元構造体が必要である。更に、複数のコンホメーション(立体配座)からの寄与を考慮にいれて、3次元記述子を算出してもよい。また、リガンド結合において重要な特徴に基づいて、あるいは、その他の重要な所望の特徴に応じて、記述子を選択するようにしてもよい。あるいは、数多くの化合物群の解析に多数の記述子を用いる場合には、主成分分析(PCA)や部分最小2乗法(PLS)等の統計手法により最少数の重要な記述子群を求めればよい。
本明細書において「バイオ情報」または「生物学的情報」とは、遺伝子やタンパク質などの生体物質である化学物質の生物学的特性にかかわる情報をいう。生物学的情報とは、例えば、配列情報、二次構造、三次構造、四次構造、立体構造情報、発現情報、パスウェイ情報、機能情報、および生物活性情報などが挙げられる。本発明においては、この生物学的情報またはバイオ情報は、計算処理や計測によって数値化した数値を各要素として持つ数値列(ベクトル)として表現され得る。
本発明の分析では、系またはそれに相互作用する因子に起因する情報を検出することができる限り、種々の検出方法および検出手段を用いることができる。そのような検出方法および検出手段としては、生物または細胞を対象とする場合、例えば、目視、光学顕微鏡、蛍光顕微鏡、レーザー光源を用いた読取装置、表面プラズモン共鳴(SPR)イメージング、電気信号、化学的または生化学的マーカーのいずれかあるいは複数種を用いる方法および手段を挙げることができるがそれらに限定されない。
生体物質の特性は、その独自の記述子で生物学的特性を指標に表現することができる。従って、本明細書において、ある状態に関する「指標」とは、その状態を表すための目印となる関数をいう。本明細書では、例えば、生物または細胞であれば、その生物または細胞内の種々の物理的指標(電位、生体内温度、移動速度・距離、局在化率。扁平率、伸長率、回転速度など)、化学的指標(ゲノム量、特定の遺伝子の転写産物(例えば、mRNA、翻訳タンパク質、翻訳後修飾されたタンパク質、イオン濃度、pHなどの量、代謝産物の量、イオン量など)、生物学的指標(個体差、進化速度、薬物応答など)など、あるいはその生物または細胞の環境、例えば、温度、湿度(例えば、絶対湿度、相対湿度など)、pH、塩濃度(例えば、塩全体の濃度または特定の塩の濃度)、栄養(例えば、ビタミン量、脂質量、タンパク質量、炭水化物量、金属イオン濃度など)、金属(例えば、金属全体の量または特定の金属(例えば、重金属、軽金属など)の濃度など)、ガス(例えば、ガス全体の量または特定のガス(例えば、酸素、二酸化炭素、水素など)の量)、有機溶媒(例えば、有機溶媒全体の量または特定の有機溶媒(例えば、エタノールなど)、DMSO、メタノールの量)、圧力(例えば、局所圧または全体の圧(気圧、水圧)など、粘性、流速(例えば、培地中に生物が存在する場合のその培地の流速、膜流動など)、光度(ある特定波長の光量など)、光波長(例えば、可視光のほか紫外線、赤外線なども含み得る)、電磁波、放射線、重力、張力、音波、対象となる生物とは異なる他の生物(例えば、寄生虫、病原菌、細菌、ウイルスなど)、化学薬品(例えば、医薬品、食品添加物、農薬、肥料、環境ホルモンなど)、抗生物質、天然物、精神的ストレス、物理的ストレスなどのような指標に対する反応性または耐性を、そのような状態に関する「指標」として使用することができる。

本明細書において「表示」、「ディスプレイ」および「提示」とは、交換可能に用いられ、ある信号を感覚器官(例えば、視覚、聴覚、嗅覚など)によって知覚されるように変換して表現することをいう。代表的には、視覚的に表示することが挙げられ、ディスプレイとは、特に限定的な意味で用いる場合、視覚的に信号を表示する手段をさす。従って、「表示」、「ディスプレイ」および「提示」とは、本発明の方法に従って得られたディスクリプタまたはそれに由来する情報を直接または間接的にあるいは情報処理をした形態で具現化することをいう。そのような表示の形態としては、グラフ、写真、表、アニメーションなど種々の方法があり、限定されない。そのような技術としては、例えば、METHODS IN CELL BIOLOGY,VOL. 56,ed. 1998,pp:185−215、A High−Resolusion Multimode Digital Microscope System(Sluder & Wolf、Salmon)において、顕微鏡を自動化し、カメラを制御するためのアプリケーションソフトウェアとともに、自動光学顕微鏡の顕微鏡、カメラ、Z軸フォーカス装置を含む、ハードウェアシステムの設計について議論されており、本発明において利用することができる。カメラによるイメージ取得は、Inoue and Spring,Video Miroscopy,2d.Edition,1997に詳細に記載されており、本明細書において参考文献として援用される。
本明細書において用いられる数理処理は、例えば、生命システム解析のための数学、コロナ社、清水和幸(1999)などにおいて記載される周知技術を適用することができる。
本明細書においてタンパク質の「立体構造(コンピュータ)モデル」とは、コンピュータを用いて表現された、ある化合物の立体構造のモデルをいう。そのようなモデルは、当該分野において公知のコンピュータプログラムを用いて表示することができ、そのようなプログラムとしては、例えば、CCP4でサポートされるプログラム、DENZO(HKL2000)、MolScript(Avatar Software AB)、Raster3D、PyMOL(DeLano Scientific)、TURBO−FRODO(AFMB−CNRS)、O(A.Jones、Uppsala Universi
tet、Sweden)、ImageMagic(John Chrysty)、RasMol(University of Massachusetts,Amherst MA USA)などがあるがそれらに限定されない。そのようなプログラムは、原子座標のデータを用いてモデルを生成することができる。
本明細書において「ファルマコフォア」または「ファーマコフォア」とは、原子と官能基との組み合わせ(およびそれらの三次元的な位置)をいい、これを用いることによって薬物が特定の方式で標的タンパク質と相互作用できるようにし、その薬理学的活性を示す。薬物分子の立体(物理的)および電場によって形成される三次元の「機能的形態」であり、これにより分子の薬理学的活性が生じる。医薬のリード化合物、および特定の標的に対するリード化合物の測定可能な活性を研究する様々なアプローチ法が開発され、一連の構造活性の関係からファルマコフォアが設計され得る。
ファルマコフォア(薬の担体)のスクリーニングは、コンピュータ支援薬剤デザインにおいて、ルーチンとして行われている手法である(P.W.Sprague et al.,Perspectives in Drug Discovery and Design,ESCOM Science Publishers B.V.,K.Muller,ed.1995,3,1; D.Barnum et al.,J.Chem.Inf.Comput.Sci.,1996,36,563; J.Greene et al.,J.Chem.Inf.Comput.Sci.,1994,34,1297参照。以上を本明細書に参考文献として援用する)。ファルマコフォアのスクリーニングは、ハイスループット・スクリーニングとコンビナトリアルケミストリとにより与えられる数多くの化合物の解析に有効であると考えられる。ファルマコフォアの概念は、水素結合やイオン化,疎水性結合等の分子認識で観察される相互作用に基づく。ファルマコフォアは、リガンド群と1つの生物学的標的との間の共通相互作用を表わす特異的なコンホメーション(例えば、三角形)における官能基群の種類(例えば、芳香族中心、マイナス電荷中心、水素結合供与体等)として定義される。この定義において、ファルマコフォアは、立体的な記述子(3D記述子)である。
ファルマコフォアのスクリーニングを実行する市販のソフトウェアシステムとしては、例えば、Catalyst(Molecular Simulations Inc.製9685Scranton Road,San Diego,CA 92121−3752)(P.W.Sprague et al.,Perspectives inDrug Discovery and Design,ESCOM Science Publishers B.V.,K.Muller,ed.1995,3,1;D.Barnum et al.,J.Chem.Inf.Comput.Sci.,1996,36,563;J.Greene etal.,J.Chem.Inf.Comput.Sci.,1994,34,1297参照)やChem−XのChemDiverseモジュール(ChemicalDesign Ltd.製、Roundway House,Cromwell Park,Chipping Norton,Oxfordshire,OX75SSR,U.K.)(S.D.Pickett et al.,J.Chem.Inf.Comput.Sci.,1996,36,1214参照。これを本明細書に参考文献として援用する)が挙げられる。ただし、残念ながら、これらのソフトウェアシステムの利用にあたっては、製造者が所有する閉鎖的なデータベースシステムへの化合物の登録が義務づけられている。
ファルマコフォア・フィンガープリントは、種々の距離範囲を有する様々な種類のファルマコフォアによりファルマコフォアの基本セットを構成する上述のアプローチを拡張したものである。ファルマコフォアの基本セットを化合物群に適用して、リガンド−レセプタ結合において重要な特徴を示す記述子であるファーマ コフォア・フィンガープリントを生成する。ファルマコフォア・フィンガープリントに関してはA.C.Good et
al.,J.Comput.Aided Mo.Des.,1995,9,373;J.S.Mason et al.,Perspective in Drug Discovery and Design,1997,7/8/,85;S.D.Pickett et al.,J.Chem.Inf.Comput.Sci.,1998,38,144;S.D.Pickett etal.,J.Chem.Inf.Comput.Sci.,1996,36,1214;C.M.Murray et al.,J.Chem.Inf.Comput.Sci.,1999,39,46;J.S.Mason et al.,J.Med.Chem.,1999,39,46;S.D.Pickett etal.,J.Chem.Inf.Comput.Sci.,1998,38,144;R.Nilakantan et al.,J.Chem.Inf.Comput.Sci.,1993,33,79 に詳述されている。また、構造活性相関への適用に関しては、X.Chen et al.,J.Chem.Inf.Comput.Sci.,1998,38,1054に報告されている。以上の各々を本明細書に参考文献として援用する。
算出された分子記述子は、いくつかの所望の特徴を有している。記述子は、分子類似性の定量的な目安を与えるものであることが望ましい。実験的に測定可能な特性に関連づけることにより、分子記述子の用途が広がる。例えば、logP(ここで、logPは、物質の疎水性や移行性の指標を意味する。)の演算値を可能な限り測定値に近づけることができる。生物学的標的に対するリガンドの結合は、薬剤デザインにおける重要な特性である。標的の構造が(例えば、ドッキング演算を用いることで)利用できる場合には、リガンドの結合を明確に計算することができる。しかし、通常は、リガンドの結合を、独立変数とみなせる、もっと簡単な算出特性から推定する場合が多い。コンホメーションの情報を含む記述子は、生理活性を推測するより優れたツールとなる。
本明細書において「遺伝子」とは、遺伝形質を規定する因子をいう。通常染色体上に一定の順序に配列している。タンパク質の一次構造を規定する構造遺伝子といい、その発現を左右する調節遺伝子という。本明細書では、特定の状況において、「遺伝子」は、「ポリヌクレオチド」、「オリゴヌクレオチド」および「核酸」ならびに/あるいは「タンパク質」、「ポリペプチド」、「オリゴペプチド」および「ペプチド」をさすことがある。
高分子構造(例えば、ポリペプチド構造)は種々のレベルの構成に関して記述され得る。この構成の一般的な議論については、例えば、Albertsら、Molecular
Biology of the Cell(第3版、1994)、ならびに、CantorおよびSchimmel、Biophysical Chemistry Part
I:The Conformation of Biological Macromolecules(1980)を参照。「一次構造」とは、特定のペプチドのアミノ酸配列をいう。「二次構造」とは、ポリペプチド内の局所的に配置された三次元構造をいう。これらの構造はドメインとして一般に公知である。ドメインは、ポリペプチドの緻密単位を形成し、そして代表的には50〜350アミノ酸長であるそのポリペプチドの部分である。代表的なドメインは、βシート(βストランドなど)およびα−ヘリックスのストレッチ(stretch)のような、部分から作られる。「三次構造」とは、ポリペプチドモノマーの完全な三次元構造をいう。「四次構造」とは、独立した三次単位の非共有的会合により形成される三次元構造をいう。異方性に関する用語は、エネルギー分野において知られる用語と同様に使用される。
タンパク質の結晶構造解析は、当該分野において周知の方法を用いて行うことができる。そのような方法は、例えば、タンパク質のX線結晶構造解析(シュプリンガー・フェアラーク東京社)、生命科学のための結晶解析入門(丸善)などに記載されており、本明細書ではそのような方法を任意に用いることができる。
本明細書において、「トポロジー」とは、本明細書中において、タンパク質の二次構造単位の並びまたは空間配置のことをいう。立体構造について、トポロジーなどの観点から、タンパク質立体構造の公的データバンクであるプロテインデータバンク(PDB)に登録されている種々のタンパク質(機能が類似するタンパク質のフラグメントを含む)の立体構造との比較を行い得る。
タンパク質の「立体構造データ」または「原子座標データ」とは、そのタンパク質の三次元構造に関するデータをいう。タンパク質の立体構造データには、代表的に、原子座標データ、トポロジー、分子力場定数が挙げられる。原子座標データは、代表的に、X線結晶構造解析またはNMR構造解析から得られたデータであり、このような原子座標データは、新規にX線結晶構造解析またはNMR構造解析を行って得られ得るか、または公知のデータベース(例えば、プロテイン・データ・バンク(PDB))から入手し得る。原子座標データはまた、モデリングまたは計算によって作成されたデータであり得る。
トポロジーは、市販もしくはフリーウェアのツールプログラムを用いて算出し得るが、自作プログラムを用いてもよい。また、市販の分子力場計算プログラム(例えば、PRESTO、タンパク質工学研究所株式会社、に付属のpreparプログラム)に付属の分子トポロジー計算プログラムを使用し得る。分子力場定数(または分子力場ポテンシャル)もまた、市販もしくはフリーウェアのツールプログラムを用いて算出し得るが、自作データを用いてもよい。また、市販の分子力場計算プログラム(例えば、AMBER、Oxford Molecular)に付属の分子力場定数データを使用し得る。
本明細書において、改変体分子の設計は、変異前のタンパク質またはポリペプチド分子(例えば、野生型分子)のアミノ酸配列および立体構造を解析することによって、各アミノ酸がどのような特性(例えば、触媒活性、他の分子との相互作用など)を担うかを予測し、所望の特性の改変(例えば、触媒活性の向上、タンパク質の安定性の向上など)をもたらすために適切なアミノ酸変異を算出することにより行われる。設計の方法は、好ましくはコンピューターを用いて行われる。このような設計方法で用いられるコンピュータープログラムの例としては、本明細書において言及されるように、以下が挙げられる:構造を解析するプログラムとして、X線回折データの処理プログラムであるDENZO(マックサイエンス);位相を決定するための処理プログラムとして、PHASES(Univ.of Pennsylvania、PA、USA);初期位相の改良のためのプログラムとして、プログラムDM(CCP4パッケージ、SERC);3次元グラフィックスを得るためのプログラムとしてプログラムO(Uppsala Universitet、Uppsala、スウェーデン);立体構造精密化プログラムとして、XPLOR(Yale University、CT、USA);そして、変異導入モデリングのためのプログラムとして、Swiss−PDBViewer(前出)。
コンピュータモデリングを行うためのコンピュータープログラムもまた、フラグメントまたは化学物質を選択するプロセスにおいて使用され得る。このようなプログラムとしては、以下が挙げられる。
1.GRID(P.J.Goodford,「A Computational Procedure for Determining Energetically Favorable Binding Sites on Biologically Important Macromolecules」,J.Med.Chem.,28,849−857頁(1985))。GRIDは、Oxford University,Oxford,UKから入手可能である。
2.MCSS(A.Mirankerら,「Functionality Maps of Binding Sites:A Multiple Copy Simultaneous Search Method」 Proteins:Structure,Function and Genetics,11,29−34頁(1991))。MCSSは、Molecular Simulations,San Diego,CAから入手可能である。
3.AUTODOCK(D.S.Goodsellら,「Automated Docking of Substrates to Proteins by Simulated Annealing」,Proteins:Structure,Function,and Genetics,8,195−202頁(1990))。AUTODOCKは、Scripps Research Institute,La Jolla,CAから入手可能である。
4.DOCK(I.D.Kuntzら,「A Geometric Approach
to Macromolecule−Ligand Interactions」,J.Mol.Biol.,161,269−288頁(1982))。DOCKは、University of California,San Francisco,CAから入手可能である。
本明細書において「ライブラリー」とは、スクリーニングをするための化合物または生体物質などの化学物質などの一定の集合をいう。ライブラリーは、同様の性質を有する化合物の集合であっても、ランダムな化合物の集合であってもよい。好ましくは、同様の性質を有すると予測される化合物の集合が使用されるが、それに限定されない。
本明細書において「相互作用」とは、2以上の分子が存在する場合、ある分子と別の分子との間の作用をいう。そのような相互作用としては、水素結合、ファンデルワールス力、イオン性相互作用、非イオン性相互作用、受容体リガンド相互作用、静電的相互作用およびホスト−ゲスト相互作用が挙げられるがそれらに限定されない。分子間の相互作用を定量化する手法の1つとしては、分子間相互作用の熱力学的あるいは速度論的な定量評価法が挙げられるが、これらの限定されるものではない。分子間相互作用の熱力学的あるいは速度論的な定量評価法としては、例えば、熱測定(calorimetory)、表面プラズモン共鳴法、超遠遠心分析法などが挙げられるがこれらに限定されない。分子間相互作用は、複合体を形成した状態と解離した状態の熱力学量の変化を示す指標により表現可能であり、例えば、結合定数、解離定数、結合/解離に伴う標準化学ポテンシャル変化、エンタルピー変化、イオン結合数変化などにより表現可能である。
本明細書において、「相互作用情報」は、例えば、分子間における結合の有無、結合活性、薬理活性などにより表現されるが、これらに限定されるものではない。1つの好ましい実施形態において、「薬理活性」は、一般に、薬物の効力を示す指標であって、例えば、生理活性の50%阻害効果を示す濃度であるIC50や生理活性の50%亢進効果を示す濃度のEC50として与えられ、また、「結合の有無」および「結合活性」についても、例えば、解離定数Kdとして与えられる。
本願明細書で使用される場合、「情報(information)」とは、一定の文脈において意味を有する、事実やデータ等の集合をいう。
本願明細書で使用される場合、「データ」とは、情報の表現であり、解釈、処理などに適するように形式化、符号化されたもの示す一般的用語である。例えば、計算機処理の入力に用いられる場合においては、数字、英字、記号、アナログ量、意味を与えられる文字またはアナログ量表現などを示す。例えば、タンパク質において、その「立体構造データ」または「原子座標データ」とは、そのタンパク質の三次元構造に関するデータをいう。
本願明細書で使用される場合、「情報処理(information processing)」または「処理(processing)」とは、情報をより取り扱いやすくするため、一つの形式から他の形式へ変換または統合することをいう。また、「データ処理」とは、データを一つの形式から他の形式へと変換または統合する過程と定義できる。
本願明細書で使用される場合、「パターン認識」とは、自然情報処理の1つであって、例えば、形態、図形、物体、画像、音声、生理的現象のような単純な数量として与えられない情報を識別し認定することをいう。このような諸情報を、「パターン情報」または、単に「パターン」という。パターン認識を行う識別器としては、例えば、SVM(サポートベクターマシン)、ベイズ分類、ニューラルネットワークなど、機械学習により大量のデータから識別パラメータを構成する手法を用いることが可能である。本明細書において、「相互作用パターン」は、上述の識別器により統計モデルとして定義づけられる情報をいう。
本願明細書において「モデル(model)」とは、自然科学における系(例えば、物理的、生物的な系)を理解するため(つまり、ある解釈を具体的に表現するため)に用いられる、ある特定の条件に従う数学的、物理的な系をいう。特に、統計的な解析の対象となる場合、そのモデルを「統計モデル」という。本願明細書において使用される場合、ある現象の「モデル化」とは、データの背後にある現象の解明と予測・制御、そして新たな知識発見のために「モデル」を導入することをいう。さらに、「モデル選択」とは、モデル化の過程において、モデルの良し悪しをいずれかの基準に基づいて評価することをいう。このモデルの選択に用いられる基準としては、例えば、赤池情報量基準AIC(Akaike’s Information Criterion)、ベイズ情報量規準BIC(Bayesian Information Criteria)、最小記述長(Minimum Description Length)、および交差検証法(Cross Validation)などが挙げられる。
本発明における、「写像変換」とは、集合X(本発明では化学物質の集合)の要素が任意に与えられたとき、関数fによって集合Yの要素がひとつ対応づけられていることを「集合Xから集合Yへの写像」と表現し、関数fによって集合Xから集合Yへと移行することを「写像変換」という。
また本発明における「マッピング」とは、トレーニングデータをCCAやPCAやカーネル化などの計算によって写像変換することによって算出される重み係数行列やカーネル関数をテストデータにかけることでなされる。
本発明で使用するライブラリーは、例えば、コンビナトリアルケミストリ技術、醗酵方法、植物および細胞抽出手順などが挙げられるがこれらに限定されない、いずれかの手段により、作製することができるかまたは入手することができる。コンビナトリアルライブラリーを作成する方法は、当該技術分野で周知である。例えば、E.R.Felder,Chimia 1994,48,512−541;Gallopら、J.Med.Chem.1994,37,1233−1251;R.A.Houghten,Trends Genet.1993,9,235−239;Houghtenら、Nature 1991,354,84−86;Lamら、Nature 1991,354,82−84;Carellら、Chem.Biol.1995,3,171−183;Maddenら、Perspectives in Drug Discovery and Design2,269−282;Cwirlaら、Biochemistry 1990,87,6378−6382;Brennerら、Proc.Natl.Acad.Sci.USA 1992,89,5381−5383;Gordonら、J.Med.Chem.1994,37,1385−1401;Leblら、Biopolymers 1995,37 177−198;およびそれらで引用された参考文献を参照のこと。これらの参考文献は、その全体を、本明細書中で参考として援用する。
コンビナトリアル・ケミストリとハイスループット・スクリーニングの最近の発展に伴い、数多くの化合物に対する実験的アプローチが可能になった(D.K.Agrafiotis et al.,Molecular Diversity,1999,4,1;U.Eichleret al.,Drugs ofthe Future,1999,24,177;A.K.Ghose et al.,J.Comb.Chem.,1,1999,55;E.J.Martin et al.,J.Comb.Chem.,1999,1,32;P.R.Menard et al.,J.Chem.Inf.Comput.Sci.,1998,38,1204;R.A.Lewis et al.,J.Chem.Inf.Comput.Sci.,1997,37,599;M.Hassanet al.,Molecular Diversity,1996,2,64;M.J.McGregor et al.,J.Chem.Inf.Comput.Sci.,1999,39,569;R.D.Brown,Perspectives in Drug Discovery andDesign,1997,7/8,31参照。以上を本明細書に参考文献として援用する)。このため、数多くの化合物に関する演算特性を解析する技術が、薬剤開発において、ますます重要になってきている。特定ライブラリー、すなわち、標的ライブラリーの構築並びにプライマリ・ライブラリーの構築という2つの適用例では、数多くの化合物に関する演算特性の解析により、薬剤設計にとって特に重要な情報を提供することができる。
標的ライブラリーの構築は、本質的には、スキャフォールド(3次元構造モチーフ)設計とビルディングブロックの選択に定量的構造活性相関(QSAR)を利用する計算化学と分子モデルの技術を発展させたものである。QSARでは、分子記述子(ディスクリプタ)を算出し、この分子記述子を用いて、個々の標的に対する生理活性を予想するモデルを構築する。
プライマリ・ライブラリーを利用して、レセプタ(受容体)やリガンド(受容体に結合するもの)の構造に関する情報を必要とすることなく、1つあるいは複数の標的に対する活性化合物を生成することが可能である。また、多くの構造的に無関係な多様な標的に対して、プライマリ・ライブラリーのスクリーニングを行うことができる。さらに、薬剤活性分子の重要な活性であるリガンド結合に無関係な特性である、最適の吸収、分布、代謝、排泄(ADME)、並びに、毒性プロファイルを有する化合物の生成にプライマリ・ライブラリーを利用することも可能である。
さらに、構造的に関連のある化合物群に対して活性のある化合物の同定に、中間ライブラリーを用いることも可能である。従って、中間ライブラリーは、標的ライブラリーとプライマリ・ライブラリーの2つに特徴的な特性をあわせもつ。
(本発明の応用)
本発明において、以下に、化合物の空間(すなわち、ケミカル空間)と生体物質の空間(すなわち、バイオ空間)をモデルとして説明する。
化合物のリード探索やライブラリー設計を計算で行う際の基本的な考え方は、個々の化合物の相対的な位置関係を示す座標空間が必要である。例えば、図1〜3のケミカル空間上の丸印はそれぞれ異なる化合物を表しており、特性の似ている化合物は相対的に近い位置関係になるように配置されているとするとこれら化合物の位置から構成される座標空間をケミカル空間という。同様に、遺伝子(タンパク質)についても類似関係を相対的な位置関係として表現したものがバイオ空間である(図1下段、四角印が遺伝子またはタンパク質)。さらに個々の化合物とタンパク質の結合をリンク(図1、中央矢印)することによって、これらケミカル空間とバイオ空間を融合したモデルを作ることができる。
このケミカル空間とバイオ空間の融合モデルが存在するとき、活性未知の化合物の標的タンパクを予測する場合を考えると、1)活性未知の化合物(星印)の化学構造からその化合物がケミカル空間座標にマッピングされる。2)ケミカル空間にマッピングされた未知化合物の近隣化合物からのバイオ空間へのリンク情報をたどること(矢印)により、その未知化合物が関係するバイオ空間のエリア(円内)を指定することができる。3)このエリア内のタンパク群が、この活性未知の化合物が相互作用する可能性のあるタンパク群と推定される(図2)。
また、この「ケミカル空間とバイオ空間を融合したモデル」があれば、例えば図の矢印で示すように、疾患ターゲット遺伝子に作用するリード化合物の予測も可能となる(図3)。
さらに、このケミカル空間とバイオ空間を融合したモデルは化合物ライブラリーの合理的設計にも適用できる(図4)。
図に示すように、広大なケミカル空間のうち、黄色のバイオ空間に対応するエリア(biologically relevant chemical space)内の化合物が、バイオ空間を形成するタンパ
ク群と相互作用する可能性が高いと考えられるため、生物活性を有する化合物ライブラリーの設計が可能となる。
また、バイオ空間のタンパク群を例えばGPCRファミリーなどに限定してやるとFocused
libraryの設計が可能となる。
(空間の定義)
最も重要である「ケミカル空間とバイオ空間を融合したモデル」の構築方法について、本手法の特徴を示す。図5を参照しながら、以下の説明を行う。
従来法(上段)は、ケミカル情報のみを用い、化合物の化学特性ができる限り多様になるように、ケミカル空間座標を定義していた。
ここで大きな問題点は、化合物の多様性と生物活性との直接の因果関係は無いということである。
そこで、本手法は、ケミカル情報とタンパク配列情報の両情報を用いて、ケミカル空間とタンパク空間の両空間の相関が高くなるように互いの空間座標を定義することにした。これはバイオ空間との関連を考慮して、ケミカル空間座標を定義する方が、生物活性にとって都合の良い空間座標を構築できると考えられるからである。
従来法(PCA)と本手法(CCA)の性能評価をするために、それぞれで構築した「ケミカル空間とバイオ空間の融合モデル」を用いて上述のインシリコスクリーニング(In silico screening)を行った。
図6は、予測性能を評価する有名な方法の一つであるROC曲線である。このグラフは曲線が上に位置すれば位置するほど、予測性能が良いことを表すものであり、本手法の曲線が従来法の曲線より上に位置することから、本手法の方が実際に予測性能が高いことがわかる。
図7A〜図7Cにおいて、化合物−GPCR相互作用予測手法の一実施例を示す。本発明のSVM法を、Gタンパク質共役型受容体(GPCR)と化合物の相互作用予測に適用して性能評価を行った。5分割交差検証法(5−fold cross−validation)により評価した結果、化合物構造に基づく従来の方法では約82%、相互作用情報に基づくSVM法では約91%の相互作用を正しく予測した。
さらに、SVM法を用いてヒトβアドレナリン受容体(βAR)に結合するリガンドの探索を行い、インビトロ(in vitro)実験等で検証を行ったところ、予測されたリガンドの81%(17/21)が実際に結合することが確認され、さらに、従来法では見つからないような新規骨格を持つβARリガンドの検出に成功した。
本研究結果は、ケミカルゲノミクス情報がリガンド予測精度の向上のみならず、新規骨格を持つリガンドの検出にも有用であることを示している。
図8において示すように、本手法が従来法よりインシリコスクリーニング(In silico screening)予測の性能が良いことから、本手法を用いて、実際に化合物ライブラリーの構築(標的遺伝子の予測)を行った。
予測は、米国NCBI/PubChemデータベース内の化合物6,391,005件を用いて、それらの化合物が標的とし得るタンパク候補を予測し、化合物ライブラリーを構築した。ここで、予測の基準座標となる「ケミカル空間とバイオ空間の融合モデル」の作成には、薬物とその標的タンパク質のデータを蓄積したカナダのDrugBankデータベースを用いた。
図9は、PubChem化合物の生物活性予測の結果である。各列は化合物と標的タンパクの結合可能性の信頼性を表すスコアごとに分かれている。すなわちスコアが高ければ高いほど、その化合物の生物活性の信頼性は高いと考えられる。ここで言うスコアは、第一空間内の任意の化学物質Aと第二空間内の任意の化学物質Bの結合のしやすさ(結合予測の統計的有意性)を示すものと考えられる。例えば、AとBとの結合スコアは次のように定義できる。第二空間内の全ての化学物質数をN、そのうち化学物質Aと結合する個数がLあったとする。ここで、Bに近接する第二空間内の化学物質K個を考えた場合、そのうち化学物質Aと結合する個数がHであったとする。その際の化学物質AからBの結合スコアはlog(H/K)/(L/N))というようなオッズスコアとして定義できる。また逆に、第一空間内の全ての化学物質数をn、そのうち化学物質Bと結合する個数がlあったとする。ここで、Aに近接する第一空間内の化学物質k個を考えた場合、そのうち化学物質Bと結合する個数がhであったとする。その際の化学物質BからAの結合スコアはlog(h/k)/(l/n))というようなオッズスコアとして定義できる。図9では化学物質AからBへのスコアとBからAへのスコアから、化学物質AとBの結合可能性の総合スコアをlog((H/K)/(L/N))+log((h/k)/(l/n))+20と定義した。
また、各行の項目は標的タンパクの機能(遺伝子オントロジー(gene ontology)に基づく)ごとの分類を表している。表中の数値は、該当する部分に対応する(予測された)化合物の数である。例えば、receptor activityに関するタンパクを標的とし、スコア値27以上の信頼性を示す化合物は、198個予測されたことになる。
図10では、図9と同様に、PubChem化合物の生物活性予測の結果であるが、標的タンパクの機能分類を異なる基準で行ったものである。図10の見方は図9と同様である。
以下に本発明を実施するための実施形態の説明を記載するが、この実施形態は本発明を実施するための単なる例示であり、本発明の範囲はそのような好ましい実施形態に限定されないことが理解されるべきである。
1つの局面において、本発明は、第1の化学物質群の空間座標を表す第1空間と第2の化学物質群の空間座標を表す第2空間とを定義し、第1の化学物質群は第1の特徴量により特徴付けられ、第2の化学物質群は第2の特徴量により特徴付けられるデータ構造物を提供する。ここで、データ構造物とは、データ要素間の相互関係で表される、データの有する論理的構造をいう。
1つの実施形態において、本発明において使用される第1の特徴量と第2の特徴量とは互いに単純な関連が見られないものであり得る。
ある具体的な実施形態としては、例えば、第1の特徴量は、第1の化学物質の化学特性であり、前記第2の特徴量は、第2の化学物質の生物活性であり得る。生物活性と化学活性とは、互いに単純な関連が見られない特性の組の代表である。
別の実施形態では、第1の化学物質は化合物であり、第2の化学物質は、生体物質である。このような場合、第1の空間は、ケミカル空間と呼ばれ、第2の空間は、バイオ空間と呼ばれ得る。化合物としては、任意の化合物のライブラリーを挙げることができ、例えば、コンビナトリアルライブラリー、ある企業が有する任意の化合物ライブラリー、公的機関が運営するデータベース、コンソーシアムによって運営されている化合物ライブラリーデータベースなどを挙げることができるがそれらに限定されない。生体物質としては、例えば、前記生体物質は、核酸、ペプチドまたはポリペプチドまたはタンパク質、サッカリドまたはポリサッカリド、脂質、およびそれらの複合体などを挙げることができるがそれらに限定されない。
本発明の空間座標の作成には、どのような情報を用いてもよい。例えば、生体物質の空間座標の場合、配列情報、二次構造、三次構造、四次構造、立体構造情報、発現情報、パスウェイ情報、および機能情報からなる群より選択される少なくとも1種類の情報を用いることができる。
好ましい実施形態では、第1空間と第2空間との相関が最大になるように第1空間の座標および第2空間の座標が定義される。ここで、第1空間と第2空間との相関を最大にするには、以下のように行う。正準相関(CCA)、カーネル正準相関(kernel CCA)、
サポートベクターマシン(SVM)法などの多変量解析や機械学習法または等価方法により行うことができる。手順はCCAやSVMなどの手順そのものを利用することができる。
ここで、第1空間と第2空間の相関付けは、例えば、正準相関分析(CCA)、カーネル正準相関分析(kernel CCA)、サポートベクターマシン(SVM)法、多変量解析手法、機械学習法または等価方法により行うことができる。
正準相関分析(CCA)とは、2種類の異質なデータセット(例えば、化合物とタンパク質)が与えられたときに、そのデータセット間の相関関係を解析する多変量解析手法の一種である。CCAでは、両データセット間の相関を最もよく表すように写像変換し、それによって2つのデータ間の相関を解析するものである。具体的には、以下を言う。
正準相関分析の具体的手順は、以下のような物を例示することができる(T. W. Anderson. An Introduction to Multivariate StatisticalAnalysis. Wiley & Sons, 1984.、H. Hotelling. Relations between two sets ofvariates. Biometrika, 28:321−377, 1936.)。
行列X、Yの行には化学物質のエントリーが、列には化学物質情報が並ぶ2種の異質なデータ(例えば化合物とタンパク質)を行列X,Y(第一空間が行列X、第二空間が行列Y)と表現したとき、
第一空間と第二空間の相関を最大にするために、
相関係数
を最大にする係数ベクトルa,bの組を探し、
ここで
、の条件付のとき、
を最大にするとき、
を正準相関、
を正準変量と呼ぶ。より具体的には、正準相関解析において、XとYの特異値分解を行い、
U,D,Vを算出し、そのU,D,Vを用い、
を求め、
ただし、A, B,F, Gは、
であり、ここで、i=1から順番に相関の高いもの
を得ることができる。
カーネル正準相関分析(kernel CCA)とは、通常の正準相関分析にカーネル法を導入した手法であり、線形モデルに基づく正準相関分析に対して、非線形モデルに基づく相関分析がカーネル正準相関分析では可能である。
上記正準相関分析で対象にした第一空間のXと第2空間のYをそれぞれヒルベルト空間に写像したX’とY’について、正準相関分析を行う方法である(S.Akaho, A
kernel method for canonical correlation
analysis,International Meeting of Phychometric Society (IMPS), 2001)。
サポートベクターマシン(SVM)法とは、教師付き識別問題を解くための機械学習アルゴリズムである。(文献B.E.Boser,I.M.Guyon,and V.N.Vapnik.A training algorithm for optimal margin classifiers.In D.Haussler,editor,5th Annual ACM Workshop on COLT,pages 144−152)SVMでは、データを2種類に分類するために各データ点との距離が最大となる分離平面(超平面)を求めるマージン最大化という考え方を用いる特徴を有する。さらに、カーネル関数を用いてパターンを有限もしくは無限次元の特徴空間へ写像し、特徴空間上で線形分離を行う方法を取ることによって非線形分離問題にも優れた性能を示すという特徴も有する。ここで、教師付き分類問題を、タンパク質と化合物の結合予測に適用すると、タンパク質と化合物が結合するというクラスと結合しないというクラスを分類する識別器を作ることになる。この場合、文献や実験などで得られる既知のタンパク質と化合物の結合データを教師データと用いることができる。
多変量解析手法とは、複数の変数(項目、属性、次元数)を持つデータ(多変量データ)を利用し、その変数間の相互の関係性をとらえるために使われる統計的手法の総称。重
回帰分析や判別分析、正準相関分析、主成分・因子分析、クラスター分析、多次元尺度法、フェース分析、数量化分析、コンジョイント分析などの手法がある。複雑なデータが持つ傾向や特徴を“要約”したり、結果に影響する相関関係を明らかにして“原因発見”や“推定・予測”を行ったり、あるいは因果関係のモデル化などに有効である。CCA、カーネルCCAもまた、この多変量解析に該当する。
機械学習法とは、人工知能における研究課題の一つで、人間が自然に行っている学習能力と同様の機能をコンピュータで実現させるための技術・手法のことである。ある程度の数のサンプルデータ集合を対象に解析を行い、そのデータから有用な規則、ルール、知識表現、判断基準などを抽出する。
これらは、以下のように組み合わせることができる。
1つの実施形態では、本発明における第1化学物質の空間座標は、ケミカル情報によって定義される。ここで、ケミカル情報は、化合物記述子によって定義される。
具体的な実施形態では、化合物記述子は、一次元記述子、二次元記述子および三次元記述子からなる群より選択される。1つの実施形態では、化合物記述子は、一次元記述子であり、この一次元記述子は、化学組成を記述することを特徴とする。
別の実施形態では、化合物記述子は、二次元記述子であり、この二次元記述子は、化学トポロジーを記述することを特徴とする。
別の実施形態では、化合物記述子は、三次元記述子であり、この三次元記述子は、三次元形状および官能性からなる群より選択される特徴を記述することを特徴とする。
別の実施形態では、化合物記述子は、ファルマコフォアである。
具体的な実施形態では、ファルマコフォアは、少なくとも3つの空間的に離れたファルマコフォア中心を含み、各ファルマコフォア中心は、(i)空間位置と、(ii)ある化学特性を特定する所定のファルマコフォア型と、を含み、基本セットのファルマコフォア型には、少なくとも、水素結合受容体、水素結合供与体、負電荷中心、正電荷中心、疎水性中心、芳香族中心、ならびに他のいずれのファルマコフォアの型にも入らないデフォルトカテゴリが含まれる。
1つの実施形態では、空間位置を、隣接するファルマコフォア中心間の隔絶距離あるいは隔絶距離範囲として与えることによって、ファルマコフォアをより詳細に記述することができる。
(生産方法)
1つの局面では、本発明は、所望の特性を有する化学物質を生産する方法を提供する。この方法は、A)第1の化学物質の空間座標のデータベースにより定義される第1空間に包含される第1の化学物質群を提供する工程と、B)第2の化学物質の空間座標のデータベースにより定義される第2空間に包含される第2の化学物質群を提供する工程であって、第1の化学物質は、第1の特徴量により特徴付けられ、第2の化学物質は、第2の特徴量により特徴付けられる、工程と、C)第2の特徴量において所望の特性を選択する工程と、D)該選択された所望の特性を有する第2の化学物質の、第2空間における目的領域を算出する工程と、E)該目的領域と所定の距離以下に存在する第1空間の標的領域を算出する工程と、F)該第1空間の標的領域に存在する化学物質を選択する工程と、を包含する。
この方法において用いられている「目的領域」とは、スクリーニングの参照側(クエリ側)の空間においてスクリーニングの目的の空間の領域を指す。
この方法において用いられている「標的領域」とは、スクリーニングの計算対象側(アウトプット側)の空間において算出されるべき対象の空間の領域を指す。
ここで、A)第1の化学物質の空間座標のデータベースにより定義される第1空間に包含される第1の化学物質群を提供する工程では、化学構造自体や化学構造から計算処理によって算出された各種記述子、化学構造や記述子より計算推定される化学特性、さらには化合物を計測して得られる化学特性の数値を各要素として持つ数値列(ベクトル)として化学物質は表現される。よって、各々の化学物質は第一空間座標上のベクトルとして位置が特定される。
B)第2の化学物質の空間座標のデータベースにより定義される第2空間に包含される第2の化学物質群を提供する工程では、配列情報、二次構造、三次構造、四次構造、立体構造情報、発現情報、パスウェイ情報、機能情報、および生物活性情報などのバイオ情報を計算処理や計測によって数値化した数値を各要素として持つ数値列(ベクトル)として化学物質は表現される。よって、各々の化学物質は第2空間座標上のベクトルとして位置が特定される。
ここで、第1の化学物質は、第1の特徴量により特徴付けられ、第2の化学物質は、第2の特徴量により特徴付けられる。第1の特徴量と、第2の特徴量とは、好ましくは、相互に単純に関連しないことが有利である。そのような2つの相互に関連しない特性によって規定された空間を二種類以上使用してスクリーニングすることによって、より詳細なかつ綿密なスクリーニングを行うことができることが判明した。
C)第2の特徴量において所望の特性を選択する工程において、スクリーニングが対象とする任意の所望の活性を選択することができる。
D)選択された所望の特性を有する第2の化学物質の、第2空間における目的領域を算出する工程において、目的領域は、例えば、一定以上の活性などの特性を選択すると、それに対応する、空間内の任意の領域を決定することができる。
スクリーニングの目的とする特定のタンパク質(遺伝子)あるいはタンパク質群が与えられている場合、その目的タンパク質(群)と配列や構造などが相同なタンパク質群を選出し、それらが占有する空間領域として目的領域は定義できる。
また、タンパク質に定義されている機能(例えば、遺伝子オントロジー(gene ontology)など)に基づいて目的領域を定義したい場合は、目的とする特定タンパク質(群)と同等の機能が定義されているタンパク質群を選出し、それらが占有する空間領域として目的領域を定義する。
さらには、タンパク質に定義されている遺伝子発現パターン、パスウェイ位置情報、生物活性情報(例えば、マイクロアレイデータ、反応経路、薬理活性など)に基づいて目的領域を定義したい場合は、目的とする特定タンパク質(群)と同等の遺伝子発現パターン、パスウェイ位置情報、生物活性情報が定義されているタンパク質群を選出し、それらが占有する空間領域として目的領域を定義する。
E)目的領域と所定の距離以下に存在する第1空間の標的領域を算出する工程において、当業者は、一旦目的領域が決まると、所定の距離以下に存在する標的領域を計算するこ
とができる。
目的領域内の各々のタンパク質について、結合し得る第一空間の化合物群が特定される。特定された化合物各々について、第一空間座標内で所定の距離以下に存在する標的領域を算出する。ここで言う距離とは、ユークリッド距離、マンハッタン距離などの距離の公理を満たすものから、相関係数やカーネルなどの類似度指標も含むものとする。
F)該第1空間の標的領域に存在する化学物質を選択する工程では、一旦算出された標的領域に対応する化学物質を選択することができる。これは、一旦空間が定義されていると、自動的な計算によって選択することも可能である。
1つの実施形態では、本発明は、サンプルデータを用いて前記第1空間と第2空間とを相関させるようトレーニングすること工程をさらに包含する。
本明細書において「トレーニング」とは、装置の使用のための訓練に要する計算機操作で,取付け操作,操作卓操作,変換操作,印刷操作のような活動や,必要なデモンストレーションを行なうのに使われた操作をいう。
本明細書において「トレーニングデータ」とは、操作の始めにロボットのコンピューターへ入力される練習データをいう。
1つの実施形態において、トレーニングは、直交行列A=Cxx −1/2UとB=C
−1/2Vを生成し(ここで、det(A)=det(B)=1かつ
である)、
第1モダリティの第1空間を表すAXと第2モダリティの第2空間を表すBYとの間の相関は最大となり、これにより、該第1モダリティから該第2モダリティへの特徴の移転が可能となる、ことを特徴としてもよい。
別の実施形態では、前記トレーニングにより、行列Aと行列Bを生成し、第一モダリティの第一空間を表わすXAと第二モダリティの第一空間を表わすYBとの間の相関は最大となり、これにより、該第一モダリティから第二モダリティへの特徴の移転が可能となり、該移転は、行列X、Yの行には化学物質のエントリーが、列には化学物質情報が並ぶ2種
の異質なデータ(例えば化合物とタンパク質)を行列X,Y(第一空間が行列X、第二空
間が行列Y)と表現したとき、
第一空間と第二空間の相関を最大にするために、
相関係数
を最大にする係数ベクトルa,bの組を探し、
ここで
、の条件付のとき、
を最大にするとき、
を正準相関、
を正準変量と呼ぶ。
前記正準相関解析において、XとYの特異値分解を行い、
U, D,Vを算出し、該U,D,Vを用い、
を求め、
ただし、A,B,F,Gは、
であり、ここで、i=1から順番に相関の高いもの
を得ることができる。
本明細書において「モダリティー」とは、特徴的属性をいう。
1つの実施形態において、上記式では、第1空間を表すAXのクエリは、第2空間を表すBYの前記クエリの結果のみが与えられると、BYはAXと最大の相関を有することから特定可能である。
本発明の好ましい実施形態では、本発明の方法は、工程A)〜F)を機械学習法によって自動的に行うことを包含する。機械学習法としては、どのようなものであっても使用することができるが、好ましくは、機械学習法は、SVM法によって達成される。
本明細書において「サポートベクターマシン(SVM)」とは、教師付き識別問題を解くための機械学習アルゴリズムである。(文献B.E.Boser,I.M.Guyon,and V.N.Vapnik.A training algorithm for
optimal margin classifiers.In D. Haussler, editor,5th Annual ACM Workshop on COLT, pages 144−152)SVMでは、データを2種類に分類するために各データ点との距離が最大となる分離平面(超平面)を求めるマージン最大化という考え方を用いる特徴を有する。さらに、カーネル関数を用いてパターンを有限もしくは無限次元の特徴空間へ写像し、特徴空間上で線形分離を行う方法を取ることによって非線形分離問題にも優れた性能を示すという特徴も有する。ここで、教師付き分類問題を、タンパク質と化合物の結合予測に適用すると、タンパク質と化合物が結合するというクラスと結合しないというクラスを分類する識別器を作ることになる。この場合、文献や実験などで得られる既知のタンパク質と化合物の結合データを教師データと用いることができる。
具体的な実施形態では、機械学習法において、G1)問い合わせとなる第1化学物質と第二化学物質との問い合わせペアを、第1の化学物質の空間座標のデータベースおよび第2の化学物質の空間座標のデータベースによって構築された空間モデルにおいてマッピングする工程;G2)該問い合わせペアが、空間エリア内に存在する場合、第1化学物質と第二化学物質とが結合すると判定し、空間エリア内に存在しない場合、第1化学物質と第二化学物質とが結合しないと判定する工程を包含する。
1つの重要な実施形態では、第1の特徴量と第2の特徴量とは互いに相関しないことを特徴とする。
別の実施形態では、第1の特徴量は、第1の化学物質の化学特性であり、第2の特徴量は、第2の化学物質の生物活性である。第1の特徴量と第2の特徴量とは互いに相関しない例として、化学特性と生物特性とはその代表例である。従って、この場合、代表的には、第1の化学物質は化合物であり、前記第2の化学物質は、生体物質である。
生体物質は、本発明ではどのようなものを用いてもよいが、例えば、前記生体物質は、核酸、ペプチドまたはポリペプチドまたはタンパク質、サッカリドまたはポリサッカリド、脂質、およびそれらの複合体などであり得る。従って、生体物質の空間座標は配列情報、二次構造、三次構造、四次構造、立体構造情報、発現情報、パスウェイ情報、および機能情報からなる群より選択される少なくとも1種類の情報により定義される。このような情報は、種々のデータベースから取得することもでき、自ら生成したデータベースを用いてもよい。
本発明の方法では、第1空間と第2空間とは、第1空間と第2空間との相関が最大になるように前記第1座標および前記第2座標が定義されるが、この場合、正準相関分析(CCA)、カーネル正準相関分析(kernel CCA)、サポートベクターマシン(SV
M)法等を含む、多変量解析手法、機械学習法または等価方法を用いることができる。これらに加え、さらに、正準相関分析(CCA)、カーネル正準相関分析(kernel CCA)、サポートベクターマシン(SVM)法等を含む多変量解析手法、機械学習法または等価方法のうち2つ以上を組み合わせて適用してもよい。多変量解析手法は、正準相関分析(CCA)およびカーネル正準相関分析(kernel CCA)等であり得る。機械学習法は、サポートベクターマシン(SVM)法を含み得る。
本発明において、標的とする相関は、どのような特性の相関であってもよく、好ましくは、相関は、目的領域と標的領域との間の相関である。
1つの実施形態では、本発明の方法は、さらに、選択された化学物質をインシリコで生産する工程を包含する。インシリコでの生産方法は、本明細書において別の場所において記載されており、周知の技術を用いることができる。
別の実施形態では、本発明の方法は、さらに、ウェットで選択された化学物質を生産する工程を包含する。ウェットでの生産方法は、本明細書において別の場所において記載されており、周知の技術を用いることができる。ウェットでの生産の代表例としては、コンビナトリアルケミストリを用いることがあり得る。
あるいは、ウェットでの生産は、遺伝子組み換え技術を用いて達成されてもよい。
1つの具体的な実施形態では、本発明の方法は、さらに、前記第1空間の化学物質の選択の後、該第1空間の化学物質の前記第2の特徴量を測定して、実際に所望の活性を有する化学物質を選択する工程をさらに包含する。
1つの実施形態では、本発明の化学物質の選択工程において、該化学物質を前記第2の特徴量に基づいてスコア付けすることを特徴とする。
ここで言うスコアは、第一空間内の任意の化学物質Aと第二空間内の任意の化学物質Bの結合のしやすさ(結合予測の統計的有意性)を示すものと考えられる。例えば、AとBとの結合スコアは次のように定義できる。第二空間内の全ての化学物質数をN、そのうち化学物質Aと結合する個数がLあったとする。ここで、Bに近接する第二空間内の化学物質K個を考えた場合、そのうち化学物質Aと結合する個数がHであったとする。その際の化学物質AからBの結合スコアはlog(H/K)/(L/N))というようなオッズスコアとして定義できる。また逆に、第一空間内の全ての化学物質数をn、そのうち化学物質Bと結合する個数がlあったとする。ここで、Aに近接する第一空間内の化学物質k個を考えた場合、そのうち化学物質Bと結合する個数がhであったとする。その際の化学物質BからAの結合スコアはlog(h/k)/(l/n))というようなオッズスコアとして定義できる。従って、化学物質AからBへのスコアとBからAへのスコアから、化学物質AとBの総合スコアをlog(H/K)/(L/N))+log(h/k)/(l/n))と定義することができる。これらのスコアはCCAやkernel CCAで算出された第一空間と第二空間の相関モデルから算出される。また、SVM法を用いた場合は、第一空間内の化学物質群と第二空間内の化学物質群との間の既知の結合ペアと結合しないペアを分離する超平面からの距離に相当するものからスコアを換算できる。
化学物質および生体物質の記述の仕方としては、本明細書において別の場所に記載されている任意の記述方法を用いることができることが理解される。
別の局面において、本発明は、本発明の方法によって生産された化学物質を提供する。
別の局面において、本発明は、化合物ライブラリーを生産する方法を提供する。このような化合物ライブラリーの生産方法は、A)第1の化学物質の空間座標のデータベースにより定義される第1空間に包含される第1の化学物質群を提供する工程と、B)第2の化学物質の空間座標のデータベースにより定義される第2空間に包含される第2の化学物質群を提供する工程であって、第1の化学物質は、第1の特徴量により特徴付けられ、第2の化学物質は、第2の特徴量により特徴付けられる、工程と、C)第2の特徴量において所望の特性を選択する工程と、D)該選択された所望の特性を有する第2の化学物質の、第2空間における目的領域を算出する工程と、E)該目的領域と所定の距離以下に存在する第1空間の標的領域を算出する工程と、F)該第1空間の標的領域に存在する複数の化学物質を選択して所望の特性を有するライブラリーを生産する工程とを包含する。
本発明のライブラリー生産方法では、本明細書において記載される任意の実施形態を利用することができることが理解される。
別の局面において、本発明は、本発明の方法によって生産されたライブラリーを提供する。
別の局面において、本発明は、所望の特性を有する化学物質を生産する方法をコンピュータに実行させるプログラムを提供する。このプログラムが規定する方法は:A)第1の化学物質の空間座標のデータベースにより定義される第1空間に包含される第1の化学物質群を提供する工程と、B)第2の化学物質の空間座標のデータベースにより定義される第2空間に包含される第2の化学物質群を提供する工程であって、第1の化学物質は、第1の特徴量により特徴付けられ、第2の化学物質は、第2の特徴量により特徴付けられる、工程と、C)第2の特徴量において所望の特性を選択する工程と、D)該選択された所望の特性を有する第2の化学物質の、第2空間における目的領域を算出する工程と、E)該目的領域と所定の距離以下に存在する第1空間の標的領域を算出する工程と、F)該第1空間の標的領域に存在する化学物質を選択する工程と、を包含する。このような実装方法は、プログラムが格納されたコンピュータ読み取り可能な記録媒体を記録媒体を読み取る手段(例えば、CD−Rであれば、CD−Rドライブ)を介してコンピュータに実装させることによって達成することができる。プログラムの記述は、当該分野において任意の言語(例えば、C+言語、Perl、Basic、html、XML、Pascal、FORTRANなど)を挙げることができるがそれらに限定されない。なお、特に限定しない限り、本明細書では、プログラムというとき、コンピュータプログラムを指すことが理解される。
別の局面において、本発明は、所望の特性を有する化学物質を生産する方法をコンピュータに実行させるプログラムを格納したコンピュータ読み出し可能な記録媒体を提供する。この記録媒体が記録するプログラムが実行する方法は:A)第1の化学物質の空間座標のデータベースにより定義される第1空間に包含される第1の化学物質群を提供する工程と、B)第2の化学物質の空間座標のデータベースにより定義される第2空間に包含される第2の化学物質群を提供する工程であって、第1の化学物質は、第1の特徴量により特徴付けられ、第2の化学物質は、第2の特徴量により特徴付けられる、工程と、C)第2の特徴量において所望の特性を選択する工程と、D)該選択された所望の特性を有する第2の化学物質の、第2空間における目的領域を算出する工程と、E)該目的領域と所定の距離以下に存在する第1空間の標的領域を算出する工程と、F)該第1空間の標的領域に存在する化学物質を選択する工程と、を包含する記録媒体を提供する。記録媒体としては、プログラムを記録することができる限り、任意の形態(例えば、フレキシブルディスク、MO、CD−ROM、CD−R、DVD−ROMのような任意のタイプ)を使用することができることが理解される。
本発明はまた、本発明のデータ構造物を記録した記録媒体を提供する。代表的には、この記録媒体は、第1の化学物質の空間座標のデータベースにより定義される第1空間と、第2の化学物質の空間座標のデータベースにより定義される第2空間とを備えるデータ構造物であって、第1の化学物質は、第1の特徴量により特徴付けられ、第2の化学物質は、第2の特徴量により特徴付けられる、データ構造物が記録されている。
別の局面において、本発明は、所望の特性を有する化学物質を生産するシステムを提供する。このシステムは:A)第1の化学物質の空間座標のデータベースにより定義される第1空間に包含される第1の化学物質群と、B)第2の化学物質の空間座標のデータベースにより定義される第2空間に包含される第2の化学物質群であって、第1の化学物質は、第1の特徴量により特徴付けられ、第2の化学物質は、第2の特徴量により特徴付けられる、第2の化学物質群と、C)第2の特徴量において所望の特性を選択する手段と、D)該選択された所望の特性を有する第2の化学物質の、第2空間における目的領域を算出する手段と、E)該目的領域と所定の距離以下に存在する第1空間の標的領域を算出する手段と、F)該第1空間の標的領域に存在する化学物質を選択する手段と、G)該選択された化学物質を生産する手段とを備える。ここで使用されるA)〜G)の手段等としては、本明細書において記載された任意の実施形態を使用することが理解される。
別の局面において、本発明は、所望の特性を有する化学物質をスクリーニングするシステムを提供する。このシステムは、A)第1の化学物質の空間座標のデータベースにより定義される第1空間に包含される第1の化学物質群と、B)第2の化学物質の空間座標のデータベースにより定義される第2空間に包含される第2の化学物質群であって、第1の化学物質は、第1の特徴量により特徴付けられ、第2の化学物質は、第2の特徴量により特徴付けられる、第2の化学物質群と、C)第2の特徴量において所望の特性を選択する手段と、D)該選択された所望の特性を有する第2の化学物質の、第2空間における目的領域を算出する手段と、E)該目的領域と所定の距離以下に存在する第1空間の標的領域を算出する手段と、F)該第1空間の標的領域に存在する化学物質を選択する手段と、を備える。ここで使用されるA)〜F)の手段等としては、本明細書において記載された任意の実施形態を使用することが理解される。
別の局面において、本発明は、化学物質ライブラリーを作成する方法を提供する。この方法は、A)第1の化学物質の空間座標のデータベースにより定義される第1空間を特定
する工程、B)少なくとも1つの特性が既知の第2の化学物質の空間座標のデータベースにより定義される第2空間を特定する工程であって、ここで、第1の化学物質は、第1の特徴量により特徴付けられ、第2の化学物質は、第2の特徴量により特徴付けられる工程、C)該第1空間と該第2空間との相関が最大になるように該第1空間の座標を定義しなおす工程、D)該定義しなおした第1空間を新たな化学物質ライブラリーとして生成する工程、を包含する。
また、本願発明は、以下に示すように局面、実施形態においても利用することが可能である(図11〜図13は、以下の説明に関する概念図を示すものである)。
別の局面において、本発明は、第1の化学物質群と第2の化学物質群との間の相互作用パターンを統計モデルとして定義するデータ処理方法を提供し、この方法は、第1の化学物質群の空間座標を表す第1空間と、第2の化学物質群の空間座標を表す第2空間とを定義し、第1の化学物質群は、第1の特徴量により特徴付けられ、第2の化学物質群は、第2の特徴量により特徴付けられ、(I)第1の化学物質群は化合物であり、該第2の化学物質群は、核酸またはタンパク質あるいはそれらの複合体であり、かつ該第1の特徴量は、該第1の化学物質の1種類以上の化学物質情報からなるベクトルとして表現され、該第2の特徴量は、該第2の化学物質群の1種類以上の生物学的情報からなるベクトルとして表現される場合、あるいは(II)第1の化学物質群は核酸またはタンパク質あるいはそれらの複合体であり、該第2の化学物質群は、化合物であり、かつ該第1の特徴量は、該第1の化学物質群の1種類以上の生物学的情報からなるベクトルとして表現され、該第2の特徴量は、該第2の化学物質の1種類以上の化学物質情報からなるベクトルとして表現される場合(図13に記載されるように、(I)の場合における化学物質ならびに特徴量の定義を取り替えた場合)において、該第1空間と該第2空間とは、多変量解析手法、機械学習法およびそれらの等価方法からなる群より選択される手法によって写像変換される、データ処理方法であって、前記第1空間と前記第2空間との相関が最大になるように、多変量解析手法、機械学習法およびそれらの等価方法からなる群より選択される手法によって、該第1空間の座標および該第2空間の座標が写像変換され、変換後の第1空間座標と変換後の第2空間座標を定義することを特徴とする。
ここで、本発明のこの局面における、写像変換には、CCAやPCAなどの線形変換のほか、カーネル関数による非線形変換が含まれる。また、(I)および(II)の両方において利用可能であるので、特定の標的タンパク質に活性を持つ化合物を探索する目的に適用可能(Iの用途)のほか、特定の化合物が与えられたときにその化合物に作用される複数のタンパク質の推定(II)の用途)につながり、薬物の副作用に関する知見を提供する。また、特定の化合物に作用できる人工タンパク質(遺伝子改変タンパク質)の創製などの応用も可能であると考えられる。

この方法における1つの実施形態は、第1の化学物質と第2の化学物質との間の相互作用を予測するデータ処理方法であり、以下のA)〜D)を包含する。すなわち、A)相互作用することが既知である第1の化学物質群と第2の化学物質群について、請求項1に記載のデータ処理方法によって、第1の化学物質群の空間座標を表す第1空間と第2の化学物質群の空間座標を表す第2空間とが写像変換される工程と、B)相互作用の予測対象となる第1の化学物質の第1の特徴量からなるベクトルを該写像変換することによって第1の化学物質を変換後の第1空間へとマッピングする工程と、相互作用の予測対象となる第2の化学物質の第2の特徴量からなるベクトルを該写像変換することによって第2の化学物質を変換後の第2空間へとマッピングする工程とC)相互作用の予測対象となる第1の化学物質の変換後の座標位置と相互作用の予測対象となる第2の化学物質の変換後の座標位置とによって、予測対象となる第1の化学物質と第2の化学物質とが相互作用する確率をスコアとして算出する工程と、D)特定のスコア以上を有する第1の化学物質と第2の化学物質を出力する工程とを包含する。ここでのマッピングとは、相互作用することが既知である第1の化学物質群の第1空間と第2の化学物質群の第2空間との相関が最大になるように、多変量解析手法、機械学習手法およびそれらの等価方法によって、写像変換した際に導出される関数を用いて、予測対象となる第1の化学物質および第2の化学物質を写像変換することである。さらに、D)において、指定する「特定のスコア」について、その特定のスコアに関する基準は、例えば、統計的有意点を示す5%有意点などが挙げられるがこれらに限定されない。
また、別の実施形態において、このデータ処理方法は、所望の特徴量を有する化学物質またはライブラリーを生産するデータ処理方法を提供し、以下のA)〜D)を包含する。すなわち、A)相互作用することが既知である第1の化学物質群と第2の化学物質群について、請求項1に記載のデータ処理方法によって、第1の化学物質群の空間座標を表す第1空間と第2の化学物質群の空間座標を表す第2空間とが写像変換される工程と、B)第1の化学物質群の第1の特徴量からなるベクトルを該写像変換することによって第1の化学物質群を変換後の第1空間へとマッピングする工程と、第2の化学物質群の第2の特徴量からなるベクトルを該写像変換することによって第2の化学物質群を変換後の第2空間へとマッピングする工程とC)第1の化学物質群の変換後の座標位置と第2の化学物質群の変換後の座標位置とによって、第1の化学物質群と第2化学物質群とが相互作用する確率をスコアとして算出する工程と、D)第2の特徴量において所望の特徴量を選択する工程と、E)該選択された所望の特徴量を有する第2の化学物質群の、変換後の第2空間における目的領域を算出する工程と、F)該目的領域内に存在する第2の化学物質群と所定のスコア以上を示す変換後の第1空間の標的領域を算出する工程と、G)該標的領域に存在する第1の化学物質または化学物質群を選択する工程とを包含する。
別の局面において、本発明は、第1の化学物質群と第2の化学物質群との間の相互作用パターンを統計モデルとして定義するデータ処理方法であって、第1の化学物質と第2の化学物質のペアが、第1の化学物質の第1の特徴量と第2の化学物質の第2の特徴量とを連結したベクトルとして表現され、(I)該第1の化学物質は化合物であり、該第2の化学物質は、核酸またはタンパク質あるいはそれらの複合体であり、該第1の特徴量は、該第1の化学物質の1種類以上の化学物質情報からなるベクトルとして表現され、該第2の特徴量は、該第2の化学物質群の1種類以上の生物学的情報からなるベクトルとして表現される場合、あるいは(II)第1の化学物質群は核酸またはタンパク質あるいはそれらの複合体であり、該第2の化学物質群は、化合物であり、かつ該第1の特徴量は、該第1の化学物質群の1種類以上の生物学的情報からなるベクトルとして表現され、該第2の特徴量は、該第2の化学物質の1種類以上の化学物質情報からなるベクトルとして表現される場合において、第1の化学物質の第1の特徴量と第2の化学物質の第2の特徴量とを連結したベクトルは、多変量解析手法、機械学習法およびそれらの等価方法からなる群より選択される手法によって特徴空間へと写像変換される。
1つの実施形態において、この方法は、第1の化学物質と第2の化学物質との間の相互作用を予測するデータ処理方法であって、A)所望の相互作用情報を有する第1の化学物質群と第2の化学物質群のペアについて、上述したデータ処理方法によって、第1の化学物質の第1の特徴量と第2の化学物質の第2の特徴量とを連結したベクトルを、特徴空間へと写像変換する工程と、B)予測対象となる第1の化学物質の第1の特徴量と予測対象となる第2の化学物質の第2の特徴量とを述結したベクトルを該写像変換することによって特徴空間へとマッピングする工程とC)予測対象となる第1の化学物質と予測対象となる第2の化学物質の特徴空間上での座標位置とによって、予測対象となる第1の化学物質と第2化学物質とが所望の相互作用する確率をスコアとして算出する工程と、
D)特定のスコア以上を有する第1の化学物質と第2の化学物質を出力する工程と、を包含し、相互作用情報は、結合の有・無、結合活性、薬理活性からなる群より選択される少なくとも1種類の情報により定義される。ここで、「相互作用情報」には、解離定数Kd、50%阻害効果濃度IC50、50%亢進効果濃度EC50などが挙げられる。医薬品開発の場合、結合の有無、結合活性、薬理活性の基準として、Kd、IC50、EC50が、マイクロモルオーダー、ナノモルオーダーであると望ましい。また、「相互作用する確率をスコア」を評価する基準としては、そのスコアは、特徴空間内でクラス分類(例えば、結合する化合物とタンパク質ペアのクラスと結合しない化合物とタンパク質ペアのクラスなど)をする境界面(超平面)からの予測対象の距離で表され、境界面から遠距離にあるほど、相互作用する確率が高くなる。
別の実施形態において、この方法は、所望の特徴量を有する化学物質またはライブラリーを生産するデータ処理方法であって、A)所望の相互作用情報を有する第1の化学物質群と第2の化学物質群のペアについて、請求項4に記載のデータ処理方法によって、第1の化学物質の第1の特徴量と第2の化学物質の第2の特徴量とを連結したベクトルを、特徴空間へと写像変換する工程と、B)第1の化学物質群の第1の特徴量と第2の化学物質群の第2の特徴量とを連結したベクトルを該写像変換することによって特徴空間へとマッピングする工程とC)第1の化学物質と第2の化学物質の特徴空間上での座標位置とによって、第1の化学物質と第2化学物質とが所望の相互作用する確率をスコアとして算出する工程と、D)第2の特徴量において所望の特徴量を選択する工程と、E)該選択された所望の特徴量を有する第2の化学物質群の、変換後の第2空間における目的領域を算出する工程と、F)該目的領域内に存在する第2の化学物質群と所定のスコア以上を示す変換後の第1空間の標的領域を算出する工程と、G)該標的領域に存在する第1の化学物質または化学物質群を選択する工程とを包含する。
上述で記載した本発明のいずれの局面のデータ処理方法を用いても、第1の化学物質と第2の化学物質との間の相互作用を予測するデータ処理装置が提供される。さらに別の実施形態において、上述のデータ処理方法を用いて、所望の特徴量を有する化学物質またはライブラリーを生産するデータ処理装置が提供される。これらの処理装置は、その処理装置に備え付けられた演算装置上で本発明の方法が実行されることにより実施される。
さらに別の実施形態において、本発明のデータ処理方法を用いて、所望の特徴量を有する化学物質またはライブラリーを生産するデータ処理プログラムが提供される。さらに別の実施形態において、本発明のデ一タ処理方法を用いて、第1の化学物質と第2の化学物質との間の相互作用を予測するデータ処理プログラムが提供される。このような実装方法は、プログラムが格納されたコンピュータ読み取り可能な記録媒体を記録媒体を読み取る手段(例えば、CD−Rであれば、CD−Rドライブ)を介してコンピュータ、計算機に実装させることによって達成することができる。本発明のデータ処理プログラムは、計算機、コンピュータ上で実行される。なお、本願明細書において、「計算機」、「コンピュータ」は、交換可能に使用され、命令に基づいて情報処理を自動的に行なう電子機械を示す。また、計算機は、最も代表的な場合、入力装置、記憶装置、演算装置、制御装置、出力装置を備える。入力装置は、データや情報を,自動データ処理システムに転送するのに用いる装置であり、例えば、キーボード、マウス、タブレット、スキャナなどが挙げられるがこれらに限定されない。記憶装置は、計算に必要な情報を記憶する装置であり、メモリ、ディスク、テープ、CD−ROM/RAM、DVDなどが挙げられるがこれらに限定されない。演算装置は、すべての算術演算と論理演算を実行する計算機の部分であり、CPUなどがこれの例である。制御装置は、データバッファーと論理回路を備えた電子装置であり、計算機チャネルと入出力装置の間にあり、例えば、データ転送やテープ巻戻しのような操作を制御する。演算装置および制御装置をまとめて、「処理装置」と呼び、また、演算装置との用語を処理装置の意味で用いる場合もある。本願明細書においてプログラムの記述は、当該分野において任意の言語(例えば、C+言語、Perl、Basic、html、XML、Pascal、FORTRANなど)を挙げることができるがそれらに限定されない。なお、特に限定しない限り、本明細書では、プログラムというとき、コンピュータプログラムを指すことが理解される。また、本発明のデータ処理プログラムは、コンピュータ読み取り可能な記録媒体に格納(記憶)され得る。記録媒体としては、プログラムを記録することができる限り、任意の形態を使用することができることが理解される。
また、本発明の別の実施形態にとして、本発明のデータ処理プログラムを備え、そのデータ処理プログラムによって予測、或いは生産された、或いは本発明のデータ処理装置によって予測、或いは生産された化学物質および化学物質群を化学合成する、化学合成装置もまた、本発明によって提供される。
さらに、本発明のデータ処理プログラムを備え、そのデータ処理プログラムによって予測された、第1空間の化学物質群を化学合成した後、該第1空間の化学物質の前記第2の特徴量を測定して、実際に所望の活性を有する化学物質を選択する手段を備える、スクリーニング装置もまた、本発明によって提供される。
さらに、本発明のデータ処理プログラム、またはコンピュータ読み取り可能な記録媒体、および装置を使用することにより、所望の化学物質が合成される。本発明のデータ処理法により得た知見に基づき、所望の化学物質が通常の化学技術を用いて合成され得る。
本明細書において引用された、科学文献、特許、特許出願などの参考文献は、その全体が、各々具体的に記載されたのと同じ程度に本明細書において参考として援用される。
以上、本発明を、理解の容易のために好ましい実施形態を示して説明してきた。以下に、実施例に基づいて本発明を説明するが、上述の説明および以下の実施例は、例示の目的のみに提供され、本発明を限定する目的で提供したのではない。従って、本発明の範囲は、本明細書に具体的に記載された実施形態にも実施例にも限定されず、特許請求の範囲によってのみ限定される。
以下に実施例を示して本発明をさらに詳しく説明するが、この発明は以下の例に限定されるものではない。
(実施例1:CCAを用いたバイオ空間およびケミカル空間でのスクリーニング)
従来法(PCA)と本手法(CCA)の性能評価をするために、それぞれで構築した「ケミカル空間とバイオ空間の融合モデル」を用いて上述のインシリコスクリーニング(In silico screening)を行った。
図は、予測性能を評価する有名な方法の一つであるROC曲線である。このグラフは曲線が上に位置すれば位置するほど、予測性能が良いことを表すものであり、本手法の赤曲線が従来法の黒曲線より上に位置することから、本手法の方が実際に予測性能が高いことがわかる。以下にその具体的手順を示す。
(プロトコール)
1、融合モデルの構築に用いる既知のタンパク質と化合物のデータは、DrugBankデータベース(http://redpoll.pharmacy.ualberta.ca/drugbank/)2005年8月リリース版から取得した。
2、全ての化合物エントリーのmol fileについて、DragonXソフトウェアを用いて、937個の化合物記述子を算出した。ここで、計算された化合物数は3079個である。さらに、CCA計算を行うにあたり、属性となる記述子のプロファイルは独立していなければならないため、相関係数0.8以上の相関性を持つ記述子は、情報量の高い記述子300個に縮約した。
3、全てのタンパク質エントリーのfasta fileについて、mismatch string kernelを生成する手法と同様の手法により、ミスマッチを考慮した連続する2アミノ酸の組成比からなる400次元(アミノ酸20種*20種)のプロファイルを算出した。ここで、プロファイル化されたタンパク質数は3476個である。また、上記2で算出された化合物との結合数は8006個であった。
4、予測性能の評価には、5分割交差検証法(5 fold cross validation)を用いた。すなわち、上記2と3で作成した8006個の化合物−タンパク質結合データを無作為に4:1に分類し、80%の結合データをトレーニングデータとしてCCA計算やPCA計算をし、タンパク質空間と化合物空間のそれぞれの座標を構築した。残りの20%の結合データはテストデータとして用いた。ここで、テストデータの負例(結合しないデータ)は、正例である結合データを構成する化合物とタンパク質の組合せで結合しない組合せを発生させ、正例と同数を無作為に選出した。このように作成したテストデータをトレーニングデータによって構築したタンパク質空間と化合物空間にそれぞれマッピングした。マッピングとは、トレーニングデータをCCAやPCA計算することによって、算出される重み係数行列(PCAの場合は主成分得点係数行列)をテストデータ行列にかけることでなされる。タンパク質空間と化合物空間にそれぞれマッピングされたタンパク質と化合物については各々についてスコアを算出した。
5、上記4のようにテストデータを予測したとき、実際に結合するデータを結合すると予測できたものの比率を真陽性率、実際には結合しないデータを結合すると予測してしまったものの比率を偽陽性率と呼ぶ。ここで、特定の予測スコア(閾値)以上の値を持つデータは陽性とみなし、特定スコア以下の値を持つデータは陰性とみなす。上記CCAとPCAにおいて予測した化合物―タンパク質結合スコアに基づいて、スコアの閾値を動かし、それに伴う偽陽性率と真陽性率を(x,y)としてプロットした(ROC曲線)。
(実施例2:化合物−GPCR相互作用予測手法)
化合物−GPCR相互作用予測手法の開発を以下の手順で行った。
なお、本実施例にあたり用いたデータセットおよび解析方法等に関する詳細を記載した文献等については、本文中に参照番号を付し、本実施例の末尾にその参考文献一覧を添付した。これらの文献は、本明細書中で参考として援用される。
(#1 化合物−タンパク質相互作用情報の収集)
GLIDA(GPCR−LIgand DAtabase)[1]、DrugBank[2]、IUPHAR Receptor database[3]、PDSP Ki database[4]から、相互作用する化合物−GPCRの組み合わせ5207例(化合物:866、GPCR:317)を収集した。ただし、ここではヒト、マウス、ラットのGPCRを用い、GPCRの定義はGPCRDB[5]に従った。また、化合物については、続く記述子(descriptor)の計算に構造情報が必要であるため、mol(sdf) 形式のファイルが提供されているGLIDAおよびPubChem Compound[6]に登録されている化合物を用いた。
(#2 記述子の計算)
化合物およびタンパク質を特徴ベクトルとして表現するために、以下の方法によりそれぞれの記述子を計算した。
・化学記述子(chemical descriptor)
収集した化合物の構造から、化合物の構造・物性に関する記述子をDRAGONX ver.1.2[7]により計算した。この研究では、カテゴリー1−10(constitutional descriptors,topological descriptors,walk and path counts,connectivity indices,information indices,2D autocorrelations,edge adjacency indices,Burden eigenvalue descriptors,topological charge indicesおよびeigenvalue−based indices)、カテゴリー17−18(functional group countsおよびatom−centered fragments)、カテゴリー20(molecular properties)の計929記述子を計算した。なお、分子の三次元座標に依存する記述子(カテゴリー11−14)、官能基や原子タイプの数を数える記述子(カテゴリー15および16)、電荷記述子(カテゴリー19)は、ここでは用いなかった。続いて、これらの記述子のうち、すべての化合物で同一の値として計算出力されるものを取り除き、結果として残った797種類の記述子を以下で用いた。
・タンパク質記述子(protein descriptor)
ミスマッチを許容したスペクトラム法[8]により計算した。この方法は、タンパク質配列を固定長kのアミノ酸配列に分解し、この中に現れる、最大m個のミスマッチまで許容した長さkのアミノ酸配列パターンの頻度を数えることにより計算される。発明者らは (k,m)を(2,1)に設定した。したがって、計算される記述子は、1アミノ酸のミスマッチを許容した2連アミノ酸202種類となる。
(#3 サポートベクターマシン(SVM)による学習モデルの構築)
SVMは、Vapnikら[9]により提案された学習アルゴリズムであり、その高い汎化能力から各方面において多用されている。SVMは、2つの異なるグループの特徴ベクトルを最大マージンで分離するような超平面を構築する。ここで、最大マージンとは、分離した超平面から各サンプル間までの最短距離を指す。
発明者らは、化合物−タンパク質相互作用の有無を分離する超平面を求めるために、正例(相互作用するパターン)および負例(相互作用しないパターン)に対応する化学記述子、タンク質記述子をそれぞれ組み合わせて特徴ベクトルを構築し、SVMを用いて学習モデルを構築した。ただし、負例については、相互作用しないパターンの情報が得られないため、2つの記述子をランダムに組み合わせて正例と同数を生成した。ここで、SVMライブラリとして、「Sequential Minimal Optimization」アルゴリズム[10,11]を採用しているlibsvmプログラム[12]のコードを用いた。SVMモデルが得られると、新しいベクトル(化合物−タンパク質ペア)が、相互作用 有/無 のどちらのクラスに属するかを予測することができる。さらに、判別だけでなく、サンプルのスコアリングを行う方法も報告されている[13]。これは、分離面に近いサンプルは、分離面から遠いサンプルよりも、誤って分類される確率が高いであろうという考えに基づいている。発明者らは、化合物−タンパク質間の相互作用予測において、この方法により、その可能性のスコア化、および順位付けを行った。
(#4 化合物構造類似性によるリガンド予測)
発明者らは、モデルの比較対象となるリガンド予測方法として、化学記述子から計算される化合物の類似性を用いた。この類似性は、一般的な化合物探索の方法であり、リード化合物を発見する手助けになると言われている[14]。この研究では、上述の「#2」で計算した797種類の化学記述子を主成分分析し、主成分座標上で既知リガンドと隣接する化合物から順にスコア付けを行った。化合物A−タンパク質Bペアのスコアは、主成分空間において化合物Aから見て最近傍にあるタンパク質B既知リガンドとの類似度で表現される。主成分は、累積寄与率80%までのもの(30主成分)を用いた。また、類似度の尺度として相関係数(Pearson correlation coefficient)を用いた。
(#5交差検証法(cross validation)によるモデルの評価)
n分割交差検証法(n−fold cross−validation)を用いて学習モデルの予測性能を評価した。この評価法では、最初に全学習データセットがn個の等サイズなサブセットに分割される。続いて、それぞれのサブセットについて、残りのn−1サブセットで学習して作られた分類器を用いて予測する。そして、この操作は、すべてのサブセットが一度だけ予測されるように繰り返されて評価される。予測性能の尺度としては、以下の式で計算される正確度(Accuracy)を用いた。
Accuracy = ( TP + TN)/(TP + TN +FP+FN)
ここで、TPは真陽性、TNは真陰性、FPは偽陽性、FNは偽陰性を表す。
ランダムな組み合わせで作られる負例によるスコア変動を考慮し、負例を交換しながら10回の異なるデータセットを生成して5分割交差検証法(5−fold cross−validation)を繰り返し行い、正確度の平均値により発明者らのモデルを評価した。続いて、計算された相互作用予測スコアからROC分析を行った。ここで、各評価において、化合物の構造類似性に基づいたリガンド予測法(#4)を比較対象とした。
(#6 ヒトβ2アドレナリン受容体(β2AR)のリガンド予測)
発明者らが収集した化合物−GPCR相互作用情報は、今までの研究により「強く結合する」と知られているもののみであり、その他の大部分の化合物−GPCR相互作用は不明である。発明者らの疑問は、リガンド探索において、予想に反して相互作用すると予測された化合物が本当に相互作用しないかどうかということである。そこで、発明者らは、インビトロ(in vitro)結合阻害実験により、相互作用予測スコアと相互作用の有無との関連性を確認した。
そのために、ヒトβ2ARを標的タンパク質とし、作成した学習モデルを用いてリガンド予測を行った。この受容体は、喘息治療の標的として治療薬の開発が進められている生理学的に重要な遺伝子である。リガンド予測の対象化合物は、GPCRとの相互作用が知られている上記866化合物(ただし、モデル構築時にヒトβ2ARとの相互作用を学習した化合物は除く)とした。これらの化合物の化学記述子に対してβ2ARのタンパク質記述子(protein descriptor)を組み合わせ、予測用データセットとした。負例組み合わせによるスコア変動を考慮し、負例を交換しながら学習と予測の試行を30回繰り返し、各リガンドについて、得られたスコアの最大値を最終的な予測スコアとした。
次に、相互作用予測スコア上位50(Top 50)の化合物について、さらなる調査・実験を行った。まず、文献・特許調査(SciFinder、PubMed)により、β2ARとの相互作用に関する報告が存在しないか確認した。
続いて、相互作用情報を確認できなかった化合物のうち、入手可能な化合物について、インビトロ(in vitro)結合阻害実験による検証を行った。この実験では、ヒトβ2AR強制発現細胞株から膜画分を調製し、放射性β2ARリガンドである[125I]−シアノピンドロールに対する競合的な阻害効果を確認した。
ところで、相互作用しないという情報の欠如により、発明者らのモデルでは、ランダムに発生させた化合物−タンパク質ペアを負例(相互作用なし)パターンとして採用している。このため、相互作用予測スコアの低い化合物が本当に相互作用しないか、ということを確認する必要がある。そこで、発明者らは、予測スコア下位50(Bottom 50)の化合物についても、上位50(Top 50)と同様の文献調査・検証実験を行った。
(結果)
(交差検証法による新規リガンド予測モデルの評価)
まず、手始めに今回開発した方法と従来法との比較検討を行った。公共データベースから収集したGPCR−リガンド相互作用情報を用い、化合物−タンパク質相互作用パターンの特徴ベクトルをSVM分類器の入力とし、学習モデルを構築した。負例を交換しながら5分割交差検証法を10回試行した結果、発明者らが開発したモデルの予測性能(accuracy)は91.3%±0.3%だった。対照として、化合物類似度に基づいた従来法についても同様に5分割検証法を行ったところ、予測性能は81.9±0.3%だった。また、ROC曲線からも、発明者らの開発したモデルの予測性能が高いことが判明した(図7A)。
(ヒトβ2ARリガンド予測)
次に、新規手法をヒトβ2ARの新規リガンド予測に適用し、その有効性を実験により検証した。また、新規手法でのみ予測されるリガンドが従来法では検出できないような新規骨格を持つ化合物を含むかどうか調べた。構築したモデルを用いて、866種類のGPCRリガンドについてβ2ARとの相互作用予測スコアを算出した。
新規モデルが予測したβ2ARリガンド候補Top 50の化合物のうち、文献・特許調査により14種の化合物がβ2ARとの相互作用に関する報告を確認した(図7B (B−1)左)。さらに、残りの相互作用不明な化合物のうち、入手可能な21種類についてインビトロ(in vitro)結合阻害実験を行ったところ、17種類の化合物が相互作用(10−5M<IC50<10−3M)を示した(図7B (B−1)右)。実験のヒット率は81%(17/21)にのぼり、ここにおいても高い予測的中率が示された。
一方、下位50(Bottom 50)の化合物については、β2ARリガンドとして報告されているものは文献および特許調査では確認されなかった(図7B (B−2)左)。さらに、残りのうち入手可能な9化合物についてインビトロ(in vitro)結合実験を行ったところ、2個の化合物が同程度の強さの相互作用を示したが、残りの7化合物は相互作用を示さなかった(図7B (B−1)右)。
これらの予測結果を従来法によるものと比較した図が図7Cである。実験で相互作用を確認した化合物の半数近くは、化合物の構造類似性に基づく従来の方法ではスコアが低かった。実際に、これらの化合物は、典型的なβ2AR作動薬の構造(カテコラミン骨格、イソプレナリン誘導体)およびβ2AR拮抗薬の構造(アリルアルキルアミン誘導体)とは異なる多様な骨格(図7C左)を持っており、化合物の構造類似性に基づく従来の方法では発見できないリガンド群であるといえる。すなわち、相互作用情報に基づく新しいモデルは、多様な構造を持つ化合物が同一タンパク質に作用するという関係を正しく予測することができたといえる。また、これらの化合物の中には、ニューロペプタイド受容体アンタゴニストなど、従来はペプチド受容体に作用する化合物として知られていたものも含まれていたが、遠縁にあたるβ2ARとも相互作用することが実験により確認された。
本技術によって、特に創薬の分野では新薬開発のコストを大幅に下げ、また研究開発サイクルも短縮することができる。これにより、従来よりも短い期間でより良い薬品を市場に送り出すことができる。また、製薬コストに占める研究開発費の割合を下げることで、社会的には医療費負担の低減という貢献が期待できる。

Claims (18)

  1. 第1の化学物質群と第2の化学物質群との間の相互作用パターンを統計モデルとして定義するデータ処理方法であって、
    第1の化学物質群の空間座標を表す第1空間と、第2の化学物質群の空間座標を表す第2空間とを定義し、第1の化学物質群は、第1の特徴量により特徴付けられ、第2の化学物質群は、第2の特徴量により特徴付けられ、
    (I)第1の化学物質群は化合物であり、該第2の化学物質群は、核酸またはタンパク質あるいはそれらの複合体であり、かつ
    該第1の特徴量は、該第1の化学物質の1種類以上の化学物質情報からなるベクトルとして表現され、該第2の特徴量は、該第2の化学物質群の1種類以上の生物学的情報からなるベクトルとして表現される場合、あるいは
    (II)第1の化学物質群は核酸またはタンパク質あるいはそれらの複合体であり、該第2の化学物質群は、化合物であり、かつ
    該第1の特徴量は、該第1の化学物質群の1種類以上の生物学的情報からなるベクトルとして表現され、該第2の特徴量は、該第2の化学物質の1種類以上の化学物質情報からなるベクトルとして表現される場合において、
    該第1空間と該第2空間とは、多変量解析手法、機械学習法およびそれらの等価方法からなる群より選択される手法によって写像変換される、データ処理方法であって、
    前記第1空間と前記第2空間との相関が最大になるように、多変量解析手法、機械学習法およびそれらの等価方法からなる群より選択される手法によって、該第1空間の座標および該第2空間の座標が写像変換され、変換後の第1空間座標と変換後の第2空間座標を定義する、
    ことを特徴とするデータ処理方法。
  2. 請求項1に記載のデータ処理方法において、第1の化学物質と第2の化学物質との間の相互作用を予測するデータ処理方法であって、
    A)相互作用することが既知である第1の化学物質群と第2の化学物質群について、請求項1に記載のデータ処理方法によって、第1の化学物質群の空間座標を表す第1空間と第2の化学物質群の空間座標を表す第2空間とが写像変換される工程と、
    B)相互作用の予測対象となる第1の化学物質の第1の特徴量からなるベクトルを該写像変換することによって第1の化学物質を変換後の第1空間へとマッピングする工程と、相互作用の予測対象となる第2の化学物質の第2の特徴量からなるベクトルを該写像変換することによって第2の化学物質を変換後の第2空間へとマッピングする工程と
    C)相互作用の予測対象となる第1の化学物質の変換後の座標位置と相互作用の予測対象となる第2の化学物質の変換後の座標位置とによって、予測対象となる第1の化学物質と第2の化学物質とが相互作用する確率をスコアとして算出する工程と、
    D)特定のスコア以上を有する第1の化学物質と第2の化学物質を出力する工程と、
    を包含する、
    データ処理方法。
  3. 請求項1に記載のデータ処理方法において、所望の特徴量を有する化学物質またはライブラリーを生産するデータ処理方法であって、
    A)相互作用することが既知である第1の化学物質群と第2の化学物質群について、請求項1に記載のデータ処理方法によって、第1の化学物質群の空間座標を表す第1空間と第2の化学物質群の空間座標を表す第2空間とが写像変換される工程と、
    B)第1の化学物質群の第1の特徴量からなるベクトルを該写像変換することによって第1の化学物質群を変換後の第1空間へとマッピングする工程と、第2の化学物質群の第2の特徴量からなるベクトルを該写像変換することによって第2の化学物質群を変換後の第2空間へとマッピングする工程と
    C)第1の化学物質群の変換後の座標位置と第2の化学物質群の変換後の座標位置とによって、第1の化学物質群と第2化学物質群とが相互作用する確率をスコアとして算出する工程と、
    D)第2の特徴量において所望の特徴量を選択する工程と、
    E)該選択された所望の特徴量を有する第2の化学物質群の、変換後の第2空間における目的領域を算出する工程と、
    F)該目的領域内に存在する第2の化学物質群と所定のスコア以上を示す変換後の第1空間の標的領域を算出する工程と、
    G)該標的領域に存在する第1の化学物質または化学物質群を選択する工程と、
    を包含する、
    データ処理方法。
  4. 第1の化学物質群と第2の化学物質群との間の相互作用パターンを統計モデルとして定義するデータ処理方法であって、
    第1の化学物質と第2の化学物質のペアが、第1の化学物質の第1の特徴量と第2の化学物質の第2の特徴量とを連結したベクトルとして表現され、
    (I)該第1の化学物質は化合物であり、該第2の化学物質は、核酸またはタンパク質あるいはそれらの複合体であり、
    該第1の特徴量は、該第1の化学物質の1種類以上の化学物質情報からなるベクトルとして表現され、該第2の特徴量は、該第2の化学物質群の1種類以上の生物学的情報からなるベクトルとして表現される場合、あるいは
    (II)第1の化学物質群は核酸またはタンパク質あるいはそれらの複合体であり、該第2の化学物質群は、化合物であり、かつ
    該第1の特徴量は、該第1の化学物質群の1種類以上の生物学的情報からなるベクトルとして表現され、該第2の特徴量は、該第2の化学物質の1種類以上の化学物質情報からなるベクトルとして表現される場合において、
    第1の化学物質の第1の特徴量と第2の化学物質の第2の特徴量とを連結したベクトルは、多変量解析手法、機械学習法およびそれらの等価方法からなる群より選択される手法によって特徴空間へと写像変換される
    データ処理方法。
  5. 請求項4に記載のデータ処理方法において、第1の化学物質と第2の化学物質との間の相互作用を予測するデータ処理方法であって、
    A)所望の相互作用情報を有する第1の化学物質群と第2の化学物質群のペアについて、請求項4に記載のデータ処理方法によって、第1の化学物質の第1の特徴量と第2の化学物質の第2の特徴量とを連結したベクトルを、特徴空間へと写像変換する工程と、
    B)予測対象となる第1の化学物質の第1の特徴量と予測対象となる第2の化学物質の第2の特徴量とを述結したベクトルを該写像変換することによって特徴空間へとマッピングする工程と
    C)予測対象となる第1の化学物質と予測対象となる第2の化学物質の特徴空間上での座標位置とによって、予測対象となる第1の化学物質と第2化学物質とが所望の相互作用する確率をスコアとして算出する工程と、
    D)特定のスコア以上を有する第1の化学物質と第2の化学物質を出力する工程と、
    を包含し、
    相互作用情報は、結合の有・無、結合活性、薬理活性からなる群より選択される少なくとも1種類の情報により定義される、データ処理方法。
  6. 請求項4に記載のデータ処理方法において、所望の特徴量を有する化学物質またはライブラリーを生産するデータ処理方法であって、
    A)所望の相互作用情報を有する第1の化学物質群と第2の化学物質群のペアについて、請求項4に記載のデータ処理方法によって、第1の化学物質の第1の特徴量と第2の化学物質の第2の特徴量とを連結したベクトルを、特徴空間へと写像変換する工程と、
    B)第1の化学物質群の第1の特徴量と第2の化学物質群の第2の特徴量とを連結したベクトルを該写像変換することによって特徴空間へとマッピングする工程と
    C)第1の化学物質と第2の化学物質の特徴空間上での座標位置とによって、第1の化学物質と第2化学物質とが所望の相互作用する確率をスコアとして算出する工程と、
    D)第2の特徴量において所望の特徴量を選択する工程と、
    E)該選択された所望の特徴量を有する第2の化学物質群の、変換後の第2空間における目的領域を算出する工程と、
    F)該目的領域内に存在する第2の化学物質群と所定のスコア以上を示す変換後の第1空間の標的領域を算出する工程と、
    G)該標的領域に存在する第1の化学物質または化学物質群を選択する工程と、
    を包含する、
    データ処理方法。
  7. 請求項1に記載のデータ処理方法を用いて、第1の化学物質と第2の化学物質との間の相互作用を予測するデータ処理装置であって、該データ処理装置は、演算装置を備え、かつ、以下の工程A)〜D)、すなわち、
    A)相互作用することが既知である第1の化学物質群と第2の化学物質群について、請求項1に記載のデータ処理方法によって、第1の化学物質群の空間座標を表す第1空間と第2の化学物質群の空間座標を表す第2空間とが写像変換される工程と、
    B)相互作用の予測対象となる第1の化学物質の第1の特徴量からなるベクトルを該写像変換することによって第1の化学物質を変換後の第1空間へとマッピングする工程と、相互作用の予測対象となる第2の化学物質の第2の特徴量からなるベクトルを該写像変換することによって第2の化学物質を変換後の第2空間へとマッピングする工程と
    C)相互作用の予測対象となる第1の化学物質の変換後の座標位置と相互作用の予測対象となる第2の化学物質の変換後の座標位置とによって、予測対象となる第1の化学物質と第2化学物質とが相互作用する確率をスコアとして算出する工程と
    D)特定のスコア以上を有する第1の化学物質と第2の化学物質を出力する工程と、
    を包含する方法を該演算装置に実行させる、
    データ処理装置。
  8. 請求項1に記載のデータ処理方法を用いて、所望の特徴量を有する化学物質またはライブラリーを生産するデータ処理装置であって、該データ処理装置は、演算装置を備え、かつ、以下の工程A)〜D)、すなわち、
    A)相互作用することが既知である第1の化学物質群と第2の化学物質群について、請求項1に記載のデータ処理方法によって、第1の化学物質群の空間座標を表す第1空間と第2の化学物質群の空間座標を表す第2空間とが写像変換される工程と、
    B)第1の化学物質群の第1の特徴量からなるベクトルを該写像変換することによって第1の化学物質群を変換後の第1空間へとマッピングする工程と、第2の化学物質群の第2の特徴量からなるベクトルを該写像変換することによって第2の化学物質群を変換後の第2空間へとマッピングする工程と
    C)第1の化学物質群の変換後の座標位置と第2の化学物質群の変換後の座標位置とによって、第1の化学物質群と第2化学物質群とが相互作用する確率をスコアとして算出する工程と、
    D)第2の特徴量において所望の特徴量を選択する工程と、
    E)該選択された所望の特徴量を有する第2の化学物質群の、変換後の第2空間における目的領域を算出する工程と、
    F)該目的領域内に存在する第2の化学物質群と所定のスコア以上を示す変換後の第1空間の標的領域を算出する工程と、
    G)該標的領域に存在する第1の化学物質または化学物質群を選択する工程と、
    を包含する方法を該演算装置に実行させる、
    データ処理装置。
  9. 請求項4に記載のデータ処理方法を用いて、第1の化学物質と第2の化学物質との間の相互作用を予測するデータ処理装置であって、該データ処理装置は、演算装置を備え、かつ、以下の工程A)〜D)、すなわち、
    A)所望の相互作用情報を有する第1の化学物質群と第2の化学物質群のペアについて、請求項4に記載のデータ処理方法によって、第1の化学物質の第1の特徴量と第2の化学物質の第2の特徴量とを連結したベクトルを、特徴空間へと写像変換する工程と、
    B)予測対象となる第1の化学物質の第1の特徴量と予測対象となる第2の化学物質の第2の特徴量とを連結したベクトルを該写像変換することによって特徴空間へとマッピングする工程と
    C)予測対象となる第1の化学物質と予測対象となる第2の化学物質の特徴空間上での座標位置とによって、予測対象となる第1の化学物質と第2化学物質とが所望の相互作用する確率をスコアとして算出する工程と
    D)特定のスコア以上を有する第1の化学物質と第2の化学物質を出力する工程と、
    を包含する方法を該演算装置に実行させる、データ処理装置であって、
    相互作用情報は、結合の有・無、結合活性、薬理活性からなる群より選択される少なくとも1種類の情報により定義される、
    データ処理装置。
  10. 請求項4に記載のデータ処理方法を用いて、所望の特徴量を有する化学物質またはライブラリーを生産するデータ処理装置であって、該データ処理装置は、演算装置を備え、かつ、以下の工程A)〜G)、すなわち、
    A)所望の相互作用情報を有する第1の化学物質群と第2の化学物質群のペアについて、請求項4に記載のデータ処理方法によって、第1の化学物質の第1の特徴量と第2の化学物質の第2の特徴量とを連結したベクトルを、特徴空間へと写像変換する工程と、
    B)第1の化学物質群の第1の特徴量と第2の化学物質群の第2の特徴量とを連結したベクトルを該写像変換することによって特徴空間へとマッピングする工程と
    C)第1の化学物質と第2の化学物質の特徴空間上での座標位置とによって、第1の化学物質と第2化学物質とが所望の相互作用する確率をスコアとして算出する工程と、
    D)第2の特徴量において所望の特徴量を選択する工程と、
    E)該選択された所望の特徴量を有する第2の化学物質群の、変換後の第2空間における目的領域を算出する工程と、
    F)該目的領域内に存在する第2の化学物質群と所定のスコア以上を示す変換後の第1空間の標的領域を算出する工程と、
    G)該標的領域に存在する第1の化学物質または化学物質群を選択する工程と、
    を包含する、方法を該演算装置に実行させる、
    データ処理装置。
  11. 請求項1に記載のデ一タ処理方法を用いて、第1の化学物質と第2の化学物質との間の相互作用を予測するデータ処理プログラムであって、工程A)〜D)、すなわち、
    A)相互作用することが既知である第1の化学物質群と第2の化学物質群について、請求項1に記載のデータ処理方法によって、第1の化学物質群の空間座標を表す第1空間と第2の化学物質群の空間座標を表す第2空間とが写像変換される工程と、
    B)相互作用の予測対象となる第1の化学物質の第1の特徴量からなるベクトルを該写像変換することによって第1の化学物質を変換後の第1空聞へとマッピングする工程と、相互作用の予測対象となる第2の化学物質の第2の特徴量からなるベクトルを該写像変換することによって第2の化学物質を変換後の第2空間へとマッピングする工程と
    C)相互作用の予測対象となる第1の化学物質の変換後の座標位置と相互作用の予測対象となる第2の化学物質の変換後の座標位置とによって、予測対象となる第1の化学物質と第2化学物質とが相互作用する確率をスコアとして算出する工程と
    D)特定のスコア以上を有する第1の化学物質と第2の化学物質を出力する工程と、
    を包含する方法を計算機に実行させるための
    データ処理プログラム。
  12. 請求項1に記載のデータ処理方法を用いて、所望の特徴量を有する化学物質またはライブラリーを生産するデータ処理プログラムであって、以下のA)〜G)、すなわち、
    A)相互作用することが既知である第1の化学物質群と第2の化学物質群について、請求項1に記載のデータ処理方法によって、第1の化学物質群の空間座標を表す第1空間と第2の化学物質群の空間座標を表す第2空間とが写像変換される工程と、
    B)第1の化学物質群の第1の特徴量からなるベクトルを該写像変換することによって第1の化学物質群を変換後の第1空間へとマッピングする工程と、第2の化学物質群の第2の特徴量からなるベクトルを該写像変換することによって第2の化学物質群を変換後の第2空間へとマッピングする工程と
    C)第1の化学物質群の変換後の座標位置と第2の化学物質群の変換後の座標位置とによって、第1の化学物質群と第2化学物質群とが相互作用する確率をスコアとして算出する工程と、
    D)第2の特徴量において所望の特徴量を選択する工程と、
    E)該選択された所望の特徴量を有する第2の化学物質群の、変換後の第2空間における目的領域を算出する工程と、
    F)該目的領域内に存在する第2の化学物質群と所定のスコア以上を示す変換後の第1空間の標的領域を算出する工程と、
    G)該標的領域に存在する第1の化学物質または化学物質群を選択する工程と、
    を包含する方法を計算機に実行させるための
    データ処理プログラム。
  13. 請求項4に記載のデータ処理方法を用いて、第1の化学物質と第2の化学物質との間の相互作用を予測するデータ処理プログラムであって、以下の工程A)〜D)、すなわち、
    A)所望の相互作用情報を有する第1の化学物質群と第2の化学物質群のペアについて、請求項4に記載のデータ処理方法によって、第1の化学物質の第1の特徴量と第2の化学物質の第2の特徴量とを連結したベクトルを、特徴空間へと写像変換する工程と、
    B)予測対象となる第1の化学物質の第1の特徴量と予測対象となる第2の化学物質の第2の特徴量とを連結したベクトルを該写像変換することによって特徴空間へとマッピングする工程と
    C)予測対象となる第1の化学物質と予測対象となる第2の化学物質の特徴空間上での座標位置とによって、予測対象となる第1の化学物質と第2化学物質とが所望の相互作用する確率をスコアとして算出する工程と
    D)特定のスコア以上を有する第1の化学物質と第2の化学物質を出力する工程と、
    を包含する方法を計算機に実行させるためのデータ処理プログラムであって、
    相互作用情報は、結合の有・無、結合活性、薬理活性からなる群より選択される少なくとも1種類の情報により定義される、
    データ処理プログラム。
  14. 請求項4に記載のデータ処理方法を用いて、所望の特徴量を有する化学物質またはライブラリーを生産するデータ処理プログラムであって、以下の工程A)〜G)、すなわち、
    A)所望の相互作用情報を有する第1の化学物質群と第2の化学物質群のペアについて、請求項4に記載のデータ処理方法によって、第1の化学物質の第1の特徴量と第2の化学物質の第2の特徴量とを連結したベクトルを、特徴空間へと写像変換する工程と、
    B)第1の化学物質群の第1の特徴量と第2の化学物質群の第2の特徴量とを連結したベクトルを該写像変換することによって特徴空間へとマッピングする工程と
    C)第1の化学物質と第2の化学物質の特徴空間上での座標位置とによって、第1の化学物質と第2化学物質とが所望の相互作用する確率をスコアとして算出する工程と、
    D)第2の特徴量において所望の特徴量を選択する工程と、
    E)該選択された所望の特徴量を有する第2の化学物質群の、変換後の第2空間における目的領域を算出する工程と、
    F)該目的領域内に存在する第2の化学物質群と所定のスコア以上を示す変換後の第1空間の標的領域を算出する工程と、
    G)該標的領城に存在する第1の化学物質または化学物質群を選択する工程と、
    を包含する方法を計算機に実行させるための
    データ処理プログラム。
  15. 請求項11〜14のいずれか1項に記載のデータ処理プログラムを格納したコンピュータ読み取り可能な記録媒体。
  16. 請求項11〜14のいずれか1項に記載のデータ処理プログラムを備え、該データ処理プログラムによって予測、或いは生産された、或いは請求項7〜10のいずれか1項に記載のデータ処理装置によって予測、或いは生産された化学物質および化学物質群を化学合成する、化学合成装置。
  17. 請求項11〜14のいずれか1項に記載のデータ処理プログラムを備え、該データ処理プログラムによって予測された、第1空間の化学物質群を化学合成した後、該第1空間の化学物質の前記第2の特徴量を測定して、実際に所望の活性を有する化学物質を選択する手段を備える、スクリーニング装置。
  18. 請求項11〜14に記載のデータ処理プログラム、または請求項15に記載のコンピュータ読み取り可能な記録媒体、および請求項16または17に記載の装置を使用することにより実行された方法によって生産された化学物質。
JP2008517917A 2006-05-26 2007-05-25 ケミカルゲノム情報に基づく、タンパク質−化合物相互作用の予測と化合物ライブラリーの合理的設計 Expired - Fee Related JP5448447B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008517917A JP5448447B2 (ja) 2006-05-26 2007-05-25 ケミカルゲノム情報に基づく、タンパク質−化合物相互作用の予測と化合物ライブラリーの合理的設計

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006147433 2006-05-26
JP2006147433 2006-05-26
JP2008517917A JP5448447B2 (ja) 2006-05-26 2007-05-25 ケミカルゲノム情報に基づく、タンパク質−化合物相互作用の予測と化合物ライブラリーの合理的設計
PCT/JP2007/060736 WO2007139037A1 (ja) 2006-05-26 2007-05-25 ケミカルゲノム情報に基づく、タンパク質-化合物相互作用の予測と化合物ライブラリーの合理的設計

Publications (2)

Publication Number Publication Date
JPWO2007139037A1 true JPWO2007139037A1 (ja) 2009-11-19
JP5448447B2 JP5448447B2 (ja) 2014-03-19

Family

ID=38778558

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008517917A Expired - Fee Related JP5448447B2 (ja) 2006-05-26 2007-05-25 ケミカルゲノム情報に基づく、タンパク質−化合物相互作用の予測と化合物ライブラリーの合理的設計

Country Status (4)

Country Link
US (1) US8949157B2 (ja)
EP (1) EP2031528A4 (ja)
JP (1) JP5448447B2 (ja)
WO (1) WO2007139037A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200538738A (en) 2004-02-20 2005-12-01 Univ California Molecular flux rates through critical pathways measured by stable isotope labeling in vivo, as biomarkers of drug action and disease activity
EP2083265A1 (en) * 2006-10-31 2009-07-29 Keio University Method of classifying protein/compound pairs
EP2753707A4 (en) 2011-09-08 2015-03-04 Univ California MEASUREMENT OF METABOLIC FLOW, IMAGING AND MICROSCOPY
JP6294233B2 (ja) 2011-12-07 2018-03-14 グラクソスミスクライン エルエルシー 全身骨格筋量の定量方法
US20150310162A1 (en) 2012-08-27 2015-10-29 Kyoto Constella Technologies Co., Ltd. Compound Design Device, Compound Design Method, And Computer Program
US8855968B1 (en) * 2012-12-10 2014-10-07 Timothy Lynn Gillis Analytical evaluation tool for continuous process plants
US9134319B2 (en) 2013-03-15 2015-09-15 The Regents Of The University Of California Method for replacing biomarkers of protein kinetics from tissue samples by biomarkers of protein kinetics from body fluids after isotopic labeling in vivo
EP3356999B1 (en) * 2015-10-04 2019-11-27 Atomwise Inc. System for applying a convolutional network to spatial data
JP7126337B2 (ja) * 2016-10-27 2022-08-26 武田薬品工業株式会社 化合物の生物活性を予測するためのプログラム、装置及び方法
JP6941353B2 (ja) * 2017-07-12 2021-09-29 国立大学法人東海国立大学機構 毒性予測方法及びその利用
AU2019231261A1 (en) * 2018-03-05 2020-10-01 The Board Of Trustees Of The Leland Stanford Junior University Machine learning and molecular simulation based methods for enhancing binding and activity prediction
US20190304568A1 (en) * 2018-03-30 2019-10-03 Board Of Trustees Of Michigan State University System and methods for machine learning for drug design and discovery
JP2019185506A (ja) * 2018-04-13 2019-10-24 株式会社中村超硬 フロー合成装置およびフロー合成方法
CN113728390A (zh) * 2019-01-04 2021-11-30 思科利康有限公司 使用合成数据预测药物结合的方法和系统
US10515715B1 (en) 2019-06-25 2019-12-24 Colgate-Palmolive Company Systems and methods for evaluating compositions
US20210057050A1 (en) 2019-08-23 2021-02-25 Insilico Medicine Ip Limited Workflow for generating compounds with biological activity against a specific biological target
EP4163920A4 (en) 2020-06-05 2023-07-19 Fujitsu Limited INFORMATION PROCESSING PROGRAM, METHOD AND DEVICE
EP4177766A4 (en) 2020-07-03 2023-08-16 Fujitsu Limited INFORMATION PROCESSING PROGRAM, INFORMATION PROCESSING METHOD AND INFORMATION PROCESSING DEVICE
CN112509641B (zh) * 2020-12-04 2022-04-08 河北环境工程学院 一种基于深度学习监测抗生素与金属联合产物的智能方法

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998047089A1 (en) * 1997-04-11 1998-10-22 California Institute Of Technology Apparatus and method for automated protein design
US7444308B2 (en) * 2001-06-15 2008-10-28 Health Discovery Corporation Data mining platform for bioinformatics and other knowledge discovery
CA2346235A1 (en) 1998-10-28 2000-05-04 Glaxo Group Limited Pharmacophore fingerprinting in qsar and primary library design
US6349265B1 (en) * 1999-03-24 2002-02-19 International Business Machines Corporation Method and apparatus for mapping components of descriptor vectors for molecular complexes to a space that discriminates between groups
US20020187514A1 (en) * 1999-04-26 2002-12-12 Hao Chen Identification of molecular targets useful in treating substance abuse and addiction
US6651008B1 (en) * 1999-05-14 2003-11-18 Cytokinetics, Inc. Database system including computer code for predictive cellular bioinformatics
US6743576B1 (en) * 1999-05-14 2004-06-01 Cytokinetics, Inc. Database system for predictive cellular bioinformatics
US20030228565A1 (en) * 2000-04-26 2003-12-11 Cytokinetics, Inc. Method and apparatus for predictive cellular bioinformatics
EP1283479A4 (en) * 2000-03-13 2005-01-12 Chugai Pharmaceutical Co Ltd METHOD OF PROCESSING INFORMATION RELATING TO A CHEMICAL SUBSTANCE
GB0006153D0 (en) * 2000-03-14 2000-05-03 Inpharmatica Ltd Database
US20050053999A1 (en) * 2000-11-14 2005-03-10 Gough David A. Method for predicting G-protein coupled receptor-ligand interactions
US20020090631A1 (en) * 2000-11-14 2002-07-11 Gough David A. Method for predicting protein binding from primary structure data
US6599694B2 (en) * 2000-12-18 2003-07-29 Cytokinetics, Inc. Method of characterizing potential therapeutics by determining cell-cell interactions
JP2003159095A (ja) * 2001-07-12 2003-06-03 Takeda Chem Ind Ltd 結合分子予測方法およびその利用方法
DE60235642D1 (de) * 2001-11-12 2010-04-22 Analiza Inc Charakterisierung von molekülen
US20040073527A1 (en) * 2002-06-04 2004-04-15 Sherr Alan B. Method, system and computer software for predicting protein interactions
WO2005010677A2 (en) * 2003-07-18 2005-02-03 Cytokinetics, Inc. Characterizing biological stimuli by response curves
WO2005069188A1 (ja) * 2003-12-26 2005-07-28 Dainippon Sumitomo Pharma Co., Ltd. 化合物および蛋白質間の相互作用を予測するシステム
JP4845080B2 (ja) * 2004-10-29 2011-12-28 独立行政法人産業技術総合研究所 活性化g蛋白質予測装置、プログラムおよび方法
JP2006146380A (ja) * 2004-11-17 2006-06-08 Hitachi Ltd 化合物の機能予測方法及び機能予測システム
US7679740B2 (en) * 2005-07-14 2010-03-16 Chemimage Corporation Method and apparatus for multimodal detection
CU23586A1 (es) * 2005-11-22 2010-10-30 Ct Ingenieria Genetica Biotech Métodos y proteínas para el tratamiento profiláctico y/o terapéutico de los cuatro serotipos del virus de dengue y otros flavivirus
US20070192033A1 (en) * 2006-02-16 2007-08-16 Microsoft Corporation Molecular interaction predictors
US20070294068A1 (en) * 2006-05-24 2007-12-20 Jones Jeffrey P Line-walking recursive partitioning method for evaluating molecular interactions and questions relating to test objects
EP2083265A1 (en) * 2006-10-31 2009-07-29 Keio University Method of classifying protein/compound pairs
JP5287251B2 (ja) * 2006-11-24 2013-09-11 日本電気株式会社 分子間相互作用予測装置の性能評価システム、方法、及びプログラム

Also Published As

Publication number Publication date
JP5448447B2 (ja) 2014-03-19
EP2031528A1 (en) 2009-03-04
WO2007139037A1 (ja) 2007-12-06
US8949157B2 (en) 2015-02-03
EP2031528A4 (en) 2009-06-17
US20100099891A1 (en) 2010-04-22

Similar Documents

Publication Publication Date Title
JP5448447B2 (ja) ケミカルゲノム情報に基づく、タンパク質−化合物相互作用の予測と化合物ライブラリーの合理的設計
Simonovsky et al. DeeplyTough: learning structural comparison of protein binding sites
Lima et al. Use of machine learning approaches for novel drug discovery
Heikamp et al. Support vector machines for drug discovery
Clark et al. Open source Bayesian models. 2. Mining a “big dataset” to create and validate models with ChEMBL
Jónsdóttir et al. Prediction methods and databases within chemoinformatics: emphasis on drugs and drug candidates
Rohrer et al. Maximum unbiased validation (MUV) data sets for virtual screening based on PubChem bioactivity data
Maldonado et al. Molecular similarity and diversity in chemoinformatics: from theory to applications
Priya et al. Machine learning approaches and their applications in drug discovery and design
Mpamhanga et al. Knowledge-based interaction fingerprint scoring: a simple method for improving the effectiveness of fast scoring functions
Lin et al. Clustering methods in protein-protein interaction network
JP2007511470A (ja) リード分子交差反応の予測・最適化システム
Warr Some Trends in Chem (o) informatics
Sundar et al. The effect of debiasing protein–ligand binding data on generalization
Ahmad et al. Attention-based graph neural network for molecular solubility prediction
Gu et al. Can molecular dynamics simulations improve predictions of protein-ligand binding affinity with machine learning?
Chen et al. PubChem BioAssays as a data source for predictive models
Ji et al. Comprehensive assessment of nine target prediction web services: which should we choose for target fishing?
Stork et al. Computational prediction of frequent hitters in target-based and cell-based assays
Zhou Chemoinformatics and library design
US20120290624A1 (en) Defining and mining a joint pharmacophoric space through geometric features
Lobanov Using artificial neural networks to drive virtual screening of combinatorial libraries
Krotzky et al. Extraction of protein binding pockets in close neighborhood of bound ligands makes comparisons simple due to inherent shape similarity
Steinfath et al. Integrated data analysis for genome-wide research
Ashenden Screening library design

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090825

AA91 Notification that invitation to amend document was cancelled

Free format text: JAPANESE INTERMEDIATE CODE: A971091

Effective date: 20091013

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100602

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121220

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131101

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20131122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131224

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5448447

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D04

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees