JPWO2005069188A1 - System for predicting interaction between compound and protein, system for predicting similar protein or compound, and method thereof - Google Patents

System for predicting interaction between compound and protein, system for predicting similar protein or compound, and method thereof Download PDF

Info

Publication number
JPWO2005069188A1
JPWO2005069188A1 JP2005516985A JP2005516985A JPWO2005069188A1 JP WO2005069188 A1 JPWO2005069188 A1 JP WO2005069188A1 JP 2005516985 A JP2005516985 A JP 2005516985A JP 2005516985 A JP2005516985 A JP 2005516985A JP WO2005069188 A1 JPWO2005069188 A1 JP WO2005069188A1
Authority
JP
Japan
Prior art keywords
protein
information
class
classification
compound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005516985A
Other languages
Japanese (ja)
Inventor
一人 山崎
一人 山崎
礼仁 寺本
礼仁 寺本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sumitomo Pharma Co Ltd
Original Assignee
Sumitomo Dainippon Pharma Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sumitomo Dainippon Pharma Co Ltd filed Critical Sumitomo Dainippon Pharma Co Ltd
Publication of JPWO2005069188A1 publication Critical patent/JPWO2005069188A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

複数の化合物および複数の蛋白質の相互作用に対して、化学物質および生命工学の各情報を統合したデータベースの構築およびそれらを使用し、計算速度と精度を兼ね備えた網羅的な相互作用の解析方法の確立。蛋白質のアミノ酸配列情報、化合物の構造情報および蛋白質と化合物の相互作用情報が相互に関連づけられているデータに基づき、任意で該当させた蛋白質およびその類縁情報を持った蛋白質群に対して相互作用する化合物群を、任意の化合物群に対して識別し得る構造活性相関モデルと、該蛋白質およびその類縁蛋白質群に対して相互作用する化合物群の中から、該蛋白質に相互作用する化合物群を識別し得る構造活性相関モデルとを組み合わせて予測する方法。For the interaction of multiple compounds and multiple proteins, construct a database that integrates information on chemical substances and biotechnology, and use them to create a comprehensive interaction analysis method that combines computational speed and accuracy. Established. It interacts with proteins that are arbitrarily assigned and related protein groups based on data that correlates protein amino acid sequence information, compound structure information, and protein-compound interaction information. Identify the compound group that interacts with the protein from the structure-activity relationship model that can distinguish the compound group from any compound group and the compound group that interacts with the protein and its related proteins. A method of predicting by combining with the obtained structure-activity relationship model.

Description

関連出願の相互参照Cross-reference of related applications

日本国特許出願2003−435659号(2003年12月26日出願)の明細書、請求の範囲、図面および要約を含む全開示内容は、これら全開示内容を参照することによって本出願に合体される。   The entire disclosure of Japanese Patent Application No. 2003-435659 (filed on Dec. 26, 2003), including the specification, claims, drawings and abstract, is incorporated into this application by reference to these disclosures. .

本発明は、化合物と蛋白質との間の相互作用を解析および/または予測するシステム、類似蛋白質または類似化合物を予測するシステム、およびそれらの方法に関する。詳しくは、蛋白質のアミノ酸配列情報等、化合物の構造情報等、および化合物−蛋白質間の相互作用情報とが相互に関連づけられているデータに基づき、任意の化合物−蛋白質間の相互作用、類似蛋白質または類似化合物の解析および/または予測を行う方法である。   The present invention relates to a system for analyzing and / or predicting an interaction between a compound and a protein, a system for predicting a similar protein or similar compound, and methods thereof. Specifically, based on data in which protein amino acid sequence information, compound structure information, etc., and compound-protein interaction information are correlated with each other, any compound-protein interaction, similar protein or This is a method for analyzing and / or predicting similar compounds.

化学の創薬分野では、ゲノム時代に先んじて、特定の蛋白質を対象とした多数の化合物の相互作用解析をおこなう高処理スクリーニング系(high-throughput screening、以下HTS)、複数の化合物を一度に合成するコンビナトリアル合成技術(combinatorial chemistry)が確立されたことにより、大量の情報を取り扱う化学物質の生物作用に関する情報科学技術(ケモインフォマティクス)が進展し、一定の成功を納めてきた。一方、生物学の創薬分野では、多数の生体内因子を同時に測定するマイクロアレイ解析やプロテオーム技術が発展してきた。また、特定の薬物を対象とした多数の生体内因子の相互作用解析を行うリバースプロテオミクス技術も確立されている。これらの実験手法と共に、塩基配列やアミノ酸配列間の比較や、生体内因子間の相互作用ネットワーク解析等のバイオインフォマティクス技術が進展してきた。   In the field of chemical drug discovery, a high-throughput screening system (HTS) that analyzes the interaction of a large number of compounds targeting a specific protein, the synthesis of multiple compounds at the same time, prior to the genome era. As a result of the establishment of combinatorial chemistry, information science and technology (chemoinformatics) related to the biological action of chemical substances that handle a large amount of information has progressed and has achieved some success. On the other hand, in the field of drug discovery in biology, microarray analysis and proteome technology for simultaneously measuring a large number of in vivo factors have been developed. In addition, a reverse proteomics technique for analyzing the interaction of a large number of in vivo factors targeting a specific drug has been established. Along with these experimental methods, bioinformatics techniques such as comparison between base sequences and amino acid sequences and analysis of interaction networks between in vivo factors have progressed.

しかしながら、ケモインフォマティクスとバイオインフォマティクスは、それぞれ独立に発展してきた経緯があり、両者が十分に統合されているとは言い難い状況にある。   However, chemoinformatics and bioinformatics have developed independently, and it is difficult to say that both are well integrated.

一方、創薬プロセスの一つに「ゲノム創薬」と言う新たなパラダイムに基づく研究が、世界中で精力的に進められている。いうまでもなく「ゲノム」とは、「生体内にあるすべての遺伝子」を意味する。一方の「薬物」は複数の生体内因子と直接的・間接的に相互作用することにより、目的とする薬理作用のみならず副作用や毒性を発現する。よって、「ゲノム創薬」のパラダイムとは、「薬物と生体内にあるすべての因子との相互作用を考慮すること」が意味される。   On the other hand, research based on a new paradigm called “genome drug discovery” as one of the drug discovery processes has been energetically promoted around the world. Needless to say, “genome” means “all genes in the living body”. On the other hand, a “drug” interacts directly and indirectly with a plurality of in vivo factors to develop not only the intended pharmacological action but also side effects and toxicity. Therefore, the “genomic drug discovery” paradigm means “considering the interaction between a drug and all factors in vivo”.

創薬研究では多数の化合物の中から最適な化合物を探索する為、多数の化合物とすべての生体内因子との網羅的な相互作用解析(インタラクトーム)が必須である。しかし、化合物の種類は無限に近いためその解析対象は膨大な数にのぼる。よって、多数の化合物とすべての生体内因子との網羅的な相互作用解析および/あるいは予測を高精度かつ迅速に実現する方法が望まれる。   In drug discovery research, an exhaustive interaction analysis (interaction) between a large number of compounds and all in vivo factors is indispensable in order to search for an optimal compound from a large number of compounds. However, since the number of types of compounds is almost infinite, the number of analysis targets is enormous. Therefore, there is a demand for a method for realizing a comprehensive and accurate analysis and / or prediction of a large number of compounds and all in vivo factors with high accuracy and speed.

現在、生体内因子である蛋白質と化学物質の相互作用を解析および/または予測する方法として知られているものに、化合物−蛋白質間の相補性を解析するドッキングスタディー、化合物−蛋白質の両構造記述子を説明変数とし情報科学に基づいた解析をおこなうインフォマティクス技術等が知られている。現在、最も発展しているものとしてドッキングスタディー技術が挙げられるが、これは、蛋白質の活性部位近傍において、任意の化合物が良好に結合するモデルを探索する手法である。しかしながらこの手法は、蛋白質の立体構造座標が既知であることを前提とすることに加え、最適解を探索する必要がある為に多大な時間を要する。計算速度の観点から網羅的な解析には不適であり、その精度も十分とは言い難い状況である。   Description of the structure of both compound-protein and docking studies that analyze compound-protein complementarity, currently known as a method for analyzing and / or predicting the interaction between proteins and chemical substances that are in vivo factors Informatics technology that performs analysis based on information science using children as explanatory variables is known. Currently, the docking study technique is the most developed, which is a technique for searching for a model in which an arbitrary compound binds well in the vicinity of the active site of a protein. However, in addition to the premise that the three-dimensional structure coordinates of the protein are known, this method requires a great amount of time because it is necessary to search for an optimal solution. It is not suitable for exhaustive analysis from the viewpoint of calculation speed, and its accuracy is not sufficient.

ドッキングスタディーの問題点に対して、立体構造情報を用いずに任意の化合物と蛋白質間の相互作用を推定する方法が近年報告されている。つまり、化合物の構造式および蛋白質の配列情報をそれぞれ構造記述子に変換し、両者を入力変数としたインフォマティクス解析である。   In recent years, a method for estimating an interaction between an arbitrary compound and a protein without using the three-dimensional structure information has been reported for the problem of the docking study. In other words, it is an informatics analysis in which the structural formula of the compound and the sequence information of the protein are converted into structure descriptors and both are used as input variables.

上記解析方法は、立体構造を必要としないことから適用範囲が広がることに加え、多大な計算時間を必要とする最適解探索を回避できるが、計算精度の観点から実用レベルには未だ至っていない。   The above analysis method does not require a three-dimensional structure, so that the range of application is widened, and an optimal solution search that requires a large amount of calculation time can be avoided, but it has not yet reached a practical level from the viewpoint of calculation accuracy.

この計算精度を高める方法として、4つの主要クラスのリガンドのためのアノテーション手法と、それをインシリコスクリーニングおよびライブラリーデザインに適用する技術が提案されている(非特許文献1)。同文献のアノテーション手法は、リガンド機能と既存分類による階層化を基礎にしている。そして、そのアノテーションを基礎にしてリガンド・データベースに対する検索を実行する。   As a method for improving the calculation accuracy, an annotation method for four major classes of ligands and a technique for applying it to in silico screening and library design have been proposed (Non-patent Document 1). The annotation method of this document is based on the hierarchy of ligand functions and existing classifications. Then, a search for the ligand database is executed based on the annotation.

また、これを発展させた方法として、リファレンスとなるリガンドと同一のターゲットだけではなく、類似のターゲットへのリガンドの結合を検索する手法が提案されている(非特許文献2)。同文献の検索手法は、ターゲットとなる蛋白質に対する分子の相互作用能力、分子構造等を反映させた分子の記述を利用する。   Further, as a method developed from this, there has been proposed a method for searching for the binding of a ligand to a similar target as well as the same target as the reference ligand (Non-patent Document 2). The search method of this document uses a description of a molecule reflecting the ability of the molecule to interact with the target protein, the molecular structure, and the like.

Ansgar Schuffenhauerら,「薬剤リガンドのためのオントロジーおよびインシリコスクリーニングおよびライブラリーデザインに対するオントロジーの適用(An Ontology for Pharmaceutical Ligands and Its Application for in Silico Screening and Library Design)」J.Chem.Inf.Comput.Sci. 2002年第42巻947−955頁。Ansgar Schuffenhauer et al., “Ontology for Pharmaceutical Ligands and Its Application for in Silico Screening and Library Design,” J. et al. Chem. Inf. Comput. Sci. 2002, 42, 947-955.

Ansgar Schuffenhauerら,「標的蛋白質の類似性を反映させたリガンドの類似性測定(Similarity Metrics for Ligands Reflecting the Similarity of the Target Proteins)」J.Chem.Inf.Comput.Sci. 2003年第43巻391−405頁。Ansgar Schuffenhauer et al., “Similarity Metrics for Ligands Reflecting the Similarity of the Target Proteins”. Chem. Inf. Comput. Sci. 2003, 43, 391-405.

生体内因子間の網羅的な相互作用解析(インタラクトーム)は、マイクロアレイやプロテオーム、バイオインフォマティクス等の技術で膨大な対象の中から有用な情報を抽出する目的において、強力なツールとして位置付けられている。しかし、前記のマイクロアレイやプロテオーム解析を含むバイオインフォマティクス等の各技術は、得られた情報の中に数多くの擬陽性が含まれており、その中から真に有益な情報を抽出することが重要な課題となっている。   Comprehensive interaction analysis between in vivo factors (interactome) is positioned as a powerful tool for the purpose of extracting useful information from a huge amount of objects using technologies such as microarrays, proteomes, and bioinformatics. . However, each technique such as bioinformatics including microarray and proteome analysis described above contains many false positives in the obtained information, and it is important to extract truly useful information from them. It has become.

本発明の課題には大別してふたつの課題が挙げられる。ひとつは、データベースの構築であり、他方はインフォマティクス手法の確立である。具体的には、複数の化合物および複数の蛋白質の相互作用に対して化学物質および生命工学の各情報を統合したデータベースの構築、および、それらを使用した計算速度と精度を兼ね備えた網羅的な化合物−蛋白質の相互作用の解析方法の確立である。   The problems of the present invention are roughly divided into two problems. One is the construction of a database and the other is the establishment of an informatics method. Specifically, a database that integrates information on chemical substances and biotechnology with respect to the interaction of multiple compounds and multiple proteins, and comprehensive compounds that have both calculation speed and accuracy using them -Establishing methods for analyzing protein interactions.

本発明は、上記ケモインフォマティクスおよびバイオインフォマティクスの2つの利点を掛け合わせ発展させたものである。本発明者らは鋭意検討の結果、本発明の装置および方法の一つの特徴として、蛋白質のアミノ酸配列情報と、化合物の構造情報と、蛋白質−化合物の相互作用情報とが相互に関連づけられているデータを利用に基づき、(i)蛋白質とその類縁蛋白質とを含む蛋白質群に対して相互作用する化合物群を、他の任意の化合物群と識別可能にする構造活性相関モデルと、(ii)その蛋白質群に対して相互作用する化合物群の中から、特定の蛋白質(または蛋白質群)に相互作用する化合物(または化合物群)を識別可能にする構造活性相関モデルとを組み合わせて予測する方法を確立した。   The present invention has been developed by combining the two advantages of chemoinformatics and bioinformatics. As a characteristic of the apparatus and method of the present invention, as a result of intensive studies, the present inventors have correlated protein amino acid sequence information, compound structure information, and protein-compound interaction information. Based on the data, (i) a structure-activity relationship model that makes it possible to distinguish a compound group that interacts with a protein group including a protein and its related protein from any other compound group, and (ii) Established a prediction method in combination with a structure-activity relationship model that makes it possible to identify a compound (or compound group) that interacts with a specific protein (or protein group) from a group of compounds that interact with the protein group did.

本発明は、以下のような複数の特徴を含んでいる。   The present invention includes a plurality of features as follows.

(1)本発明にかかる方法は、蛋白質のアミノ酸配列情報、機能および/または構造の類似性により体系的に分類された蛋白質のアミノ酸配列情報、化合物の構造情報および蛋白質と化合物の相互作用情報が相互に関連づけられているデータに基づき、任意の蛋白質と化合物間の相互作用を予測する方法である。 (1) In the method according to the present invention, protein amino acid sequence information, protein amino acid sequence information systematically classified by function and / or structure similarity, compound structure information, and protein-compound interaction information This is a method for predicting the interaction between an arbitrary protein and a compound based on correlated data.

(2)本発明にかかる任意の蛋白質と任意の化合物間の相互作用を予測する方法は、(a)該蛋白質および、該蛋白質と機能および/または構造的に類似した蛋白質群に対して相互作用する化合物群を、任意の化合物群に対して識別し得る構造活性相関モデルと、(b)該蛋白質および、該蛋白質と機能および/または構造的に類似した蛋白質群に対して相互作用する化合物群の中から、該蛋白質に相互作用する化合物群を識別し得る構造活性相関モデルとを組み合わせて予測する方法である。 (2) A method for predicting an interaction between an arbitrary protein and an arbitrary compound according to the present invention includes (a) an interaction with the protein and a protein group that is functionally and / or structurally similar to the protein. A structure-activity relationship model capable of discriminating a group of compounds with respect to an arbitrary group of compounds, and (b) a group of compounds that interact with the protein and a group of proteins functionally and / or structurally similar to the protein Among them, and a structure-activity relationship model that can identify a group of compounds that interact with the protein.

(3)本発明にかかる任意の蛋白質と任意の化合物間の相互作用を予測する方法は、アミノ酸配列情報の機能および/または構造の類似性による体系的な分類に基づき、(a)該蛋白質が属する最上位の分類項目に属する蛋白質群に対して相互作用する化合物群を、任意の化合物群に対して識別し得る構造活性相関モデルと、(b)該蛋白質が属する最上位の分類項目より下位の各分類項目において、該蛋白質が属する分類項目に属する蛋白質群に対して相互作用する化合物群を、該蛋白質と共通の親分類項目を有する子分類項目に属する蛋白質群に対して相互作用する化合物群に対して識別し得る構造活性モデルとを組み合わせて予測する方法である。 (3) The method for predicting the interaction between an arbitrary protein and an arbitrary compound according to the present invention is based on systematic classification based on similarity in function and / or structure of amino acid sequence information. A structure-activity relationship model capable of discriminating a compound group that interacts with a protein group belonging to the highest class item to which it belongs, with respect to any compound group, and (b) a lower level than the highest class item to which the protein belongs A compound group that interacts with a protein group that belongs to a class item to which the protein belongs, and a compound that interacts with a protein group that belongs to a child class item that has a common parent class item with the protein This is a method of predicting by combining with a structure activity model that can be identified for a group.

(8)本発明にかかるシステムは、機能および/または構造が類似する蛋白質を予測する予測システムであって、(a)蛋白質の機能特徴および/または構造特徴の分類を示す第1分類に属する第1分類蛋白質の情報と、当該第1分類に属さない非第1分類蛋白質の情報とを記録する第1記録手段、(b)前記第1記録手段に記録される第1分類蛋白質の中から選択される、前記第1分類よりも小概念である機能特徴および/または構造特徴の分類を示す第2分類に属する第2分類蛋白質の情報と、前記第1分類に属するが当該第2分類に属さない非第2分類蛋白質とを記録する第2記録手段、(c)予測対象蛋白質の機能特徴および/または構造特徴を示す予測対象情報を取得する取得手段、(d)前記取得手段が取得した予測対象情報と前記第1記録手段に記録された情報とに基づいて、前記非第1分類蛋白質との比較における、前記予測対象蛋白質と前記第1分類蛋白質との類似性を解析する第1解析手段、(e)前記第1解析手段によって前記予測対象蛋白質が前記第1分類蛋白質に類似すると解析された場合には、さらに、前記予測対象情報と前記第2記録手段に記録された情報とに基づいて、前記非第2分類蛋白質との比較における、前記予測対象蛋白質と前記第2分類蛋白質との類似性を解析する第2解析手段、(f)前記第1解析手段および第2解析手段による解析結果に基づいて、前記予測対象蛋白質と機能特徴および/または構造特徴が類似する蛋白質の情報を出力する出力手段、
を備えた予測システムである。
(8) A system according to the present invention is a prediction system for predicting a protein having a similar function and / or structure, and (a) a first class belonging to the first class indicating the classification of the functional characteristic and / or structural characteristic of the protein. A first recording means for recording information on one class protein and information on a non-first class protein not belonging to the first classification; (b) a selection from among the first classification proteins recorded on the first recording means Information of the second class protein belonging to the second class indicating the classification of the functional feature and / or the structural feature which is a sub-concept than the first class, and belonging to the second class but belonging to the second class Second recording means for recording non-secondary classification proteins, (c) acquisition means for acquiring prediction target information indicating functional characteristics and / or structural characteristics of the prediction target protein, (d) prediction acquired by the acquisition means Target information and First analysis means for analyzing similarity between the protein to be predicted and the first classification protein in comparison with the non-first classification protein based on the information recorded in the first recording means, (e ) When it is analyzed by the first analysis means that the protein to be predicted is similar to the first class protein, the prediction target information and the information recorded in the second recording means are further used. Second analysis means for analyzing the similarity between the protein to be predicted and the second classification protein in comparison with the non-second classification protein, (f) based on the analysis results by the first analysis means and the second analysis means Output means for outputting information on a protein having functional characteristics and / or structural characteristics similar to the protein to be predicted,
It is the prediction system provided with.

(9)本発明の前記予測システムの前記(a)第1記録手段に記録される蛋白質の情報および/または(b)第2記録手段に記録される蛋白質の情報は、当該蛋白質と相互作用する化合物の情報と対応づけられており、
前記予測システムは、さらに、(g)前記蛋白質と相互作用する化合物の情報と、前記(d)第1解析手段および/または(e)第2解析手段によって解析された前記予測対象蛋白質に類似する蛋白質の情報とに基づいて、当該予測対象蛋白質と相互作用すると予測される化合物の情報を解析する相互作用情報解析手段、を備えており、前記(f)出力手段は、前記予測対象蛋白質と機能特徴および/または構造特徴が類似する蛋白質の情報、および/または前記相互作用情報解析手段によって解析された化合物の情報を出力する。
(9) In the prediction system of the present invention, (a) protein information recorded in the first recording means and / or (b) protein information recorded in the second recording means interacts with the protein. Associated with compound information,
The prediction system is further similar to (g) information on a compound that interacts with the protein, and (d) the protein to be predicted analyzed by the first analysis means and / or (e) the second analysis means. Interaction information analysis means for analyzing information on a compound predicted to interact with the protein to be predicted based on the protein information, and (f) the output means has the function of the protein to be predicted and the function Information on proteins having similar characteristics and / or structural features and / or information on compounds analyzed by the interaction information analysis means are output.

(10)本発明の前記(f)出力手段は、前記第2解析手段による解析結果としての前記蛋白質および/または当該蛋白質と相互作用する化合物の情報に加えて、当該第2分類よりも大概念である、前記第1解析手段による解析結果としての前記蛋白質および/または当該蛋白質と相互作用する化合物の情報を併せて出力する。 (10) The (f) output means of the present invention is more conceptual than the second classification in addition to the information of the protein and / or the compound that interacts with the protein as an analysis result by the second analysis means. The information on the protein and / or the compound that interacts with the protein as an analysis result by the first analysis means is also output.

(13)本発明にかかるシステムは、機能および/または構造が類似する蛋白質(または化合物)を予測する予測システムであって、(a)蛋白質(または化合物)の機能特徴および/または構造特徴の分類を示す第1分類に属する第1分類蛋白質(または第1分類化合物)の情報と、当該第1分類に属さない非第1分類蛋白質(または非第1分類化合物)の情報とを記録する第1記録手段、(b)前記第1記録手段に記録される第1分類蛋白質(または第1分類化合物)の中から選択される、前記第1分類よりも小概念である機能特徴および/または構造特徴の分類を示す第2分類に属する第2分類蛋白質(または第2分類化合物)の情報と、前記第1分類に属するが当該第2分類に属さない非第2分類蛋白質(または非第2分類化合物)とを記録する第2記録手段、(c)予測対象蛋白質(または予測対象化合物)の機能特徴および/または構造特徴を示す予測対象情報を取得する取得手段、(d)前記取得手段が取得した予測対象情報と前記第1記録手段に記録された情報とに基づいて、前記非第1分類蛋白質(または非第1分類化合物)との比較における、前記予測対象蛋白質(または予測対象化合物)と前記第1分類蛋白質(または第1分類化合物)との類似性を解析する第1解析手段、(e)前記第1解析手段によって前記予測対象蛋白質(または予測対象化合物)が前記第1分類蛋白質(または第1分類化合物)に類似すると解析された場合には、さらに、前記予測対象情報と前記第2記録手段に記録された情報とに基づいて、前記非第2分類蛋白質(または非第2分類化合物)との比較における、前記予測対象蛋白質(または予測対象化合物)と前記第2分類蛋白質(または第2分類化合物)との類似性を解析する第2解析手段、(f)前記第1解析手段および第2解析手段による解析結果に基づいて、前記予測対象蛋白質(または予測対象化合物)と機能特徴および/または構造特徴が類似する蛋白質(または化合物)の情報を出力する出力手段、
を備えた予測システムである。
(13) The system according to the present invention is a prediction system for predicting a protein (or compound) having a similar function and / or structure, and (a) a classification of the functional characteristic and / or structural characteristic of the protein (or compound). First information that records information on a first class protein (or first class compound) belonging to the first class and information on a non-first class protein (or non-first class compound) not belonging to the first class Recording means, (b) a functional and / or structural feature that is selected from the first class proteins (or first class compounds) recorded in the first recording means and is a sub-concept than the first class Information of the second class protein (or second class compound) belonging to the second class indicating the classification of the non-second class protein (or non-second class compound belonging to the first class but not belonging to the second class) ) (C) acquisition means for acquiring prediction target information indicating the functional characteristics and / or structure characteristics of the prediction target protein (or prediction target compound), (d) the prediction target acquired by the acquisition means Based on the information and the information recorded in the first recording means, the prediction target protein (or prediction target compound) and the first in comparison with the non-first classification protein (or non-first classification compound) First analysis means for analyzing similarity to a classification protein (or first classification compound); (e) the prediction target protein (or prediction target compound) is converted into the first classification protein (or first classification) by the first analysis means; If it is analyzed that it is similar to the classification compound), the non-second classification protein (or non-second classification) is further based on the prediction target information and the information recorded in the second recording means. Second analysis means for analyzing the similarity between the prediction target protein (or prediction target compound) and the second classification protein (or second classification compound) in comparison with a similar compound), (f) the first analysis An output means for outputting information on a protein (or compound) having a functional characteristic and / or a structural characteristic similar to that of the prediction target protein (or prediction target compound) based on the analysis result of the means and the second analysis means;
It is the prediction system provided with.

本発明の特徴、他の目的、用途、効果等は、図面を考慮に入れた上で以下の開示によりさらに明らかになるであろう。   Features, other objects, applications, effects, etc. of the present invention will become more apparent from the following disclosure in view of the drawings.

図1は、本発明の実施形態による処理の手順を示したフローチャートである。FIG. 1 is a flowchart showing a processing procedure according to an embodiment of the present invention. 図2は、実施形態における蛋白質を階層的に分類した時のカテゴリー階層の概念を示した図である。FIG. 2 is a diagram showing a concept of a category hierarchy when proteins in the embodiment are classified hierarchically. 図3は、実施形態による解析結果を表示した画面の構成の一例である。FIG. 3 is an example of a configuration of a screen displaying the analysis result according to the embodiment. 図4は、実施例1で、活性群のデータセットに対して得られたモデルのうち、「ホスホジエステラーゼ(Phosphodiesterase(以下、「PDE」とする。))のグローバルモデル(Global Model)+各サブタイプのローカルモデル(Local Model)」と「各サブタイプのグローバルモデル」を適用した場合の識別能の違いを示したグラフである。グラフの縦軸は、「活性と認識される率」を示す。FIG. 4 shows a global model (Global Model) of phosphodiesterase (hereinafter referred to as “PDE”) + subtypes among the models obtained for the active group data set in Example 1. It is the graph which showed the difference in discriminability at the time of applying "Local model of (Local Model)" and "Global model of each subtype". The vertical axis of the graph indicates “rate recognized as activity”. 図5は、実施例1で、グローバルモデルに用いた不活性群のデータセットに対して得られたモデルのうち、「PDEのグローバルモデル+各サブタイプのローカルモデル」と「各サブタイプのグローバルモデル」を適用した場合の識別能の違いを示したグラフである。グラフの縦軸は、「活性と認識される率」を示す。FIG. 5 shows “PDE global model + local model of each subtype” and “global of each subtype” among the models obtained for the inactive group data set used in the global model in Example 1. It is the graph which showed the difference in discriminating ability at the time of applying a "model". The vertical axis of the graph indicates “rate recognized as activity”. 図6は、実施例1でローカルモデルに用いた不活性群のデータセットに対して得られたモデルのうち、「PDEのグローバルモデル+各サブタイプのローカルモデル」と「各サブタイプのグローバルモデル」を適用した場合の識別能の違いを示したグラフである。グラフの縦軸は、「活性と認識される率」を示す。FIG. 6 shows “PDE global model + local model of each subtype” and “global model of each subtype” among the models obtained for the inactive group data set used for the local model in Example 1. It is the graph which showed the difference in discriminating ability at the time of applying "." The vertical axis of the graph indicates “rate recognized as activity”. 図7は、活性群のデータセットに対してPDEのグローバルモデルと各サブタイプのローカルモデルについてCART法(事前等確率)から得られた識別能とベイジアンネット解析とを比較した結果を示したグラフである。グラフの縦軸は、「活性と認識される率」を示す。FIG. 7 is a graph showing the results of comparing the discrimination ability obtained from the CART method (prior equiprobability) and the Bayesian network analysis for the global model of PDE and the local model of each subtype for the active group data set. It is. The vertical axis of the graph indicates “rate recognized as activity”. 図8は、不活性群のデータセットに対してPDEのグローバルモデルと各サブタイプのローカルモデルについてCART法(事前等確率)から得られた識別能とベイジアンネット解析とを比較した結果を示したグラフである。グラフの縦軸は、「活性と認識される率」を示す。FIG. 8 shows the results of comparing the discrimination ability obtained from the CART method (prior probability) and the Bayesian network analysis for the global model of PDE and the local model of each subtype for the inactive group data set. It is a graph. The vertical axis of the graph indicates “rate recognized as activity”. 図9は、活性群のデータセットに対してPDEのグローバルモデルと各サブタイプのローカルモデルについてCART法(等確立)とベイジアンネット解析とを比較した結果を示したグラフである。グラフの縦軸は、「活性と認識される率」を示す。FIG. 9 is a graph showing the result of comparing the CART method (equal establishment) and Bayesian network analysis for the PDE global model and the local model of each subtype for the active group data set. The vertical axis of the graph indicates “rate recognized as activity”. 図10は不活性群のデータセットに対してPDEのグローバルモデルと各サブタイプのローカルモデルについてCART法(等確立)とベイジアンネット解析とを比較した結果を示したグラフである。グラフの縦軸は、「活性と認識される率」を示す。FIG. 10 is a graph showing the result of comparing the CART method (equal establishment) and Bayesian network analysis for the global model of PDE and the local model of each subtype for the inactive group data set. The vertical axis of the graph indicates “rate recognized as activity”. 図11Aは、PDEのグローバルモデルとサブタイプ(PDE1)のローカルモデルを組み合わせて、活性群、グローバルモデルに用いた不活性群、ローカルモデルに用いた不活性群の3種類のデータセットに適用した分布グラフである。グラフの縦軸は、「活性と認識される率」を示す。FIG. 11A is a combination of an active group, an inactive group used for the global model, and an inactive group used for the local model in combination with a global model of PDE and a local model of subtype (PDE1). It is a distribution graph. The vertical axis of the graph indicates “rate recognized as activity”. 図11Bは、PDEのグローバルモデルとサブタイプ(PDE2)のローカルモデルを組み合わせて、活性群、グローバルモデルに用いた不活性群、ローカルモデルに用いた不活性群の3種類のデータセットに適用した分布グラフである。FIG. 11B is a combination of an active group, an inactive group used for the global model, and an inactive group used for the local model in combination with the global model of PDE and the local model of the subtype (PDE2). It is a distribution graph. 図11Cは、PDEのグローバルモデルとサブタイプ(PDE3)のローカルモデルを組み合わせて、活性群、グローバルモデルに用いた不活性群、ローカルモデルに用いた不活性群の3種類のデータセットに適用した分布グラフである。FIG. 11C is a combination of a PDE global model and a subtype (PDE3) local model applied to three types of data sets: an active group, an inactive group used for the global model, and an inactive group used for the local model. It is a distribution graph. 図11Dは、PDEのグローバルモデルとサブタイプ(PDE4)のローカルモデルを組み合わせて、活性群、グローバルモデルに用いた不活性群、ローカルモデルに用いた不活性群の3種類のデータセットに適用した分布グラフである。FIG. 11D is a combination of a global model of PDE and a local model of subtype (PDE4), and applied to three types of data sets: an active group, an inactive group used for the global model, and an inactive group used for the local model. It is a distribution graph. 図11Eは、PDEのグローバルモデルとサブタイプ(PDE5)のローカルモデルを組み合わせて、活性群、グローバルモデルに用いた不活性群、ローカルモデルに用いた不活性群の3種類のデータセットに適用した分布グラフである。FIG. 11E is a combination of a PDE global model and a subtype (PDE5) local model applied to three types of data sets: an active group, an inactive group used for the global model, and an inactive group used for the local model. It is a distribution graph. 図12は、相互作用解析装置の機能ブロック図である。FIG. 12 is a functional block diagram of the interaction analysis device. 図13は、解析装置のハードウェア構成例である。FIG. 13 is a hardware configuration example of the analysis apparatus. 図14は、本発明の実施形態としての相互作用解析処理の概念図である。FIG. 14 is a conceptual diagram of an interaction analysis process as an embodiment of the present invention. 図15は、実施形態における蛋白質データベースの構造例を示す図である。FIG. 15 is a diagram illustrating a structure example of a protein database according to the embodiment. 図16は、実施形態における化合物データベースの構造例を示す図である。FIG. 16 is a diagram illustrating a structure example of a compound database in the embodiment. 図17は、実施形態における相互作用データベースの構造例を示す図である。FIG. 17 is a diagram illustrating a structure example of an interaction database according to the embodiment. 図18は、実施形態における体系的分類データベースの構造例を示す図である。FIG. 18 is a diagram illustrating a structure example of a systematic classification database in the embodiment. 図19は、実施形態における評価関数を説明する模式図である。FIG. 19 is a schematic diagram illustrating an evaluation function in the embodiment. 図20は、第1実施形態による相互作用解析処理プログラムのフローチャートである。FIG. 20 is a flowchart of the interaction analysis processing program according to the first embodiment. 図21は、第2実施形態による相互作用解析処理プログラムのフローチャートである。FIG. 21 is a flowchart of the interaction analysis processing program according to the second embodiment. 図22Aおよび図22Bは、第2実施形態によって出力される画面表示例である。22A and 22B are screen display examples output by the second embodiment.

本発明における「蛋白質のアミノ酸情報」は、例えば、配列、機能、または立体構造などが含れる。配列、機能については、既知情報、バイオインフォマティクスから推定された情報、複数種類のアノテーション情報、または体系的な機能分類を指向したオントロジー情報等が挙げられる。立体構造については、既知情報として、公共のデータベースとしてPDB(Protein Data Bank)、ホモロジーモデリングにより構築された商用もしくはインハウスのデータベース等が挙げられる。商用のホモロジーモデリングデータベースには、SGI社から販売されているFAMSBASE等が挙げられる。   The “protein amino acid information” in the present invention includes, for example, a sequence, a function, or a three-dimensional structure. Examples of sequences and functions include known information, information estimated from bioinformatics, multiple types of annotation information, ontology information directed to systematic function classification, and the like. As for the three-dimensional structure, known information includes a PDB (Protein Data Bank) as a public database, a commercial or in-house database constructed by homology modeling, and the like. Commercial homology modeling databases include FAMSBASE sold by SGI.

本発明の「化合物の構造情報」は、例えば構造式を記述化した情報、または薬物情報等があげられ、例えば化合物に対する薬理活性の有無および/または強度、またはBiological TestingからLaunchedに至るまでの開発ステージ情報などが含まれる。例えば、MDL社のMDDR(MDL Drug Data Report)等が挙げられる。   “Structural information of a compound” of the present invention includes, for example, information describing a structural formula, drug information, and the like. For example, presence or absence and / or strength of pharmacological activity on a compound, or development from Biological Testing to Launched Includes stage information. For example, MDDR (MDL Drug Data Report) of MDL is mentioned.

本発明で用いる「蛋白質のアミノ酸情報」は、前記の蛋白質のアミノ酸情報の部分を組み合わせて統合させたデータベース、または、前記の蛋白質のアミノ酸情報の全てを包含したデーターベースから取得し分類された情報であればよく、商用またはインハウス等のデータの取得先は限定しない。好ましくは、機能および/または構造の類似性により体系的に分類された情報が挙げられ、例えば、Gene Ontology(ジーンオントロジー)(登録商標)の情報等が挙げられる。「ジーンオントロジー(登録商標)」はジーンオントロジー ConsortiumのWebサイト(http://www.geneontology.org)において公開されている。   The “protein amino acid information” used in the present invention is a database obtained by combining and combining the amino acid information parts of the protein or a database including all the amino acid information of the protein and classified. Any source may be used as long as it is commercial or in-house. Preferably, information systematically classified by function and / or structural similarity is mentioned, for example, Gene Ontology (registered trademark) information and the like. “Gene Ontology” is published on the Gene Ontology Consortium website (http://www.geneontology.org).

本発明の「相互作用」とは、蛋白質と、その蛋白質に対して活性を示す化合物との関係、または、化合物と、その化合物に対して相補性を有する蛋白質との関係を示す。「相互作用」は、複数の蛋白質に対する複数の化合物の相互作用、または、複数の化合物に対する複数の蛋白質の相互作用を含む。   The “interaction” of the present invention indicates a relationship between a protein and a compound that exhibits activity against the protein, or a relationship between a compound and a protein that is complementary to the compound. “Interaction” includes the interaction of a plurality of compounds with a plurality of proteins or the interaction of a plurality of proteins with a plurality of compounds.

本発明の「構造活性相関モデル」は、例えば、データセットとして、所定の分類に属する蛋白質(または化合物)および任意の蛋白質(または化合物)の構造特徴情報を用い、それらに説明変数を与え、所定の解析手法によって得られる評価関数(以下グローバルモデル(Global Model))と、データセットとして、所定の分類に属する蛋白質(または化合物)およびその類縁の蛋白質(または化合物)の構造特徴情報を用い、それらに説明変数を与え、所定の解析手法によって得られる評価関数(以下ローカルモデル(ローカルモデル))とを含む。説明変数としては、例えば、定量的構造活性相関解析における説明変数に用いられるファーマコフォア記述子や、類似性検索に用いられるトポロジカルインデックス、またはADMET関連の指標等を用いることができる。解析手法としては例えば、重回帰分析、線型・非線形判別分析、ロジスティック回帰分析、ニューラルネットワーク、決定木解析、ベイジアンネットワーク、またはサポートベクトルマシン等を用いることができる。   The “structure-activity relationship model” of the present invention uses, for example, a structural feature information of a protein (or compound) and an arbitrary protein (or compound) belonging to a predetermined classification as a data set, gives explanatory variables to them, Using the evaluation function (hereinafter referred to as the Global Model) obtained by the analysis method of, and the structure feature information of the protein (or compound) belonging to the predetermined classification and the related protein (or compound) as the data set, And an evaluation function (hereinafter referred to as a local model (local model)) obtained by a predetermined analysis method. As the explanatory variable, for example, a pharmacophore descriptor used as an explanatory variable in quantitative structure-activity relationship analysis, a topological index used for similarity search, an index related to ADMET, or the like can be used. As an analysis method, for example, multiple regression analysis, linear / nonlinear discriminant analysis, logistic regression analysis, neural network, decision tree analysis, Bayesian network, or support vector machine can be used.

本発明の実施形態による装置の機能は、「検索」、「閲覧」および「解析」に分けることができ、「検索」と「解析」については既設環境をそのまま用いることができる。既設環境としては、化合物および蛋白質リストの入出力機能をもち、化合物情報およびバイオ情報が関連付けられた形式で閲覧できるシステムがよく、例えば、クライアントサーバ型システム、Webベースのシステムなどが挙げられる。本発明のシステムは、複数のデータベースにアクセスして、入力リストを反映した形での表示や、出力対象を個別に指定することが可能である。プログラムの記述言語は、C、C++、JAVA(登録商標)、HTML、XML等が挙げられる。Webベースにおける構造式の閲覧には、MDL社から無償で提供されている「Chime」等の既存プログラムを用いることも可能である。   The functions of the apparatus according to the embodiment of the present invention can be divided into “search”, “browse”, and “analysis”, and the existing environment can be used as it is for “search” and “analysis”. As an existing environment, a system that has an input / output function for a compound and protein list and can be browsed in a format in which compound information and bioinformation are associated with each other is preferable. Examples thereof include a client server type system and a web-based system. The system of the present invention is capable of accessing a plurality of databases and individually specifying a display reflecting an input list and an output target. Examples of the program description language include C, C ++, JAVA (registered trademark), HTML, and XML. Existing programs such as “Chime” provided free of charge by MDL can also be used to browse structural formulas on the Web base.

以下、本発明の実施形態等について説明する。   Hereinafter, embodiments of the present invention will be described.

目次
1.実施形態の概要
2.解析処理方法の検証
3.相互作用解析装置および解析方法の概要
4.データベース
5.相互作用解析処理
6.その他の実施形態
−−−−−−−−−−−−−−−−−−−
1.実施形態の概要
1−1.データベースおよび相互作用解析処理
図1は、本発明の一つの実施形態の概念を示したフローチャートである。101は、蛋白質側の情報のデータベースを示す。統合される蛋白質側の情報には「アミノ酸配列」と「3次元構造(モデリングされたものも含む)」が含まれ、例えば、SwissProt等から得られた情報が挙げられる。102は、化合物側の情報のデータベースを表す。統合される化合物側の情報には、「構造式」と「配座」とが含まれ、例えば、CAS等から得られた情報が挙げられる。103は、機能および/または構造の類似性により体系的に分類された蛋白質のアミノ酸配列情報等を示す。例えば、ジーンオントロジーのGO番号等を含むオントロジー情報等の、蛋白質を階層的に分類した時のカテゴリーが挙げられる。101の蛋白質の情報は103の情報により、体系的な分類情報と関連付けられる。104は蛋白質と化合物との情報により関連付けられた相互作用データベースを示す。情報は例えば、MDL社のMDDR(MDL Drug Data Report)等の市販データベース、薬理活性性試験データ、リバースプロテオミクス等の情報が挙げられる。105は構造活性相関の解析機能を示す。
Table of contents Outline of Embodiments 2. 2. Verification of analysis processing method 3. Outline of interaction analysis apparatus and analysis method Database 5. Interaction analysis processing Other embodiments -------------------
1. 1. Outline of Embodiment 1-1. Database and Interaction Analysis Processing FIG. 1 is a flowchart showing the concept of one embodiment of the present invention. Reference numeral 101 denotes a database of information on the protein side. The information on the protein side to be integrated includes “amino acid sequence” and “three-dimensional structure (including modeled one)”, for example, information obtained from SwissProt or the like. Reference numeral 102 represents a database of information on the compound side. The information on the compound side to be integrated includes “structural formula” and “conformation”, for example, information obtained from CAS or the like. Reference numeral 103 denotes amino acid sequence information of proteins systematically classified by function and / or structural similarity. For example, there is a category when proteins are classified hierarchically, such as ontology information including the GO number of Gene Ontology. The information of the protein 101 is related to the systematic classification information by the information 103. Reference numeral 104 denotes an interaction database associated with information on proteins and compounds. Examples of the information include commercial databases such as MDDR (MDL Drug Data Report) of MDL, pharmacological activity test data, reverse proteomics, and the like. Reference numeral 105 denotes a structure-activity relationship analysis function.

実施形態では、蛋白質のアミノ酸配列情報(図1の101および103)、化合物の構造情報(図1の102)、および、蛋白質と化合物との相互作用情報が相互に関連づけられている統合化データベース(図1の104)のデータに基づき、解析対象の機能特徴および/または構造特徴の共通性と差異の両方を考慮した網羅的な相互作用解析を行う。具体的には、103の機能および/または構造の類似性により体系的に分類された蛋白質のアミノ酸情報等を利用して、例えば、ジーンオントロジー(登録商標)における共通の親ノードをもつ子ノード間の選択的構造活性相関(SAR)モデルをすべての階層で構築する。そして、それらのモデルに対する解析対象の適合性(例えば相互作用の有無)を評価する。ノードとは、蛋白質を階層的に分類した時のカテゴリーを示し、例えば、ジーンオントロジーのGO番号等が挙げられる。図2にノード階層のイメージを表す。各ノードにおける解析モデルは「1段階上位のノードにおけるグローバルモデル」(201)と「同位ノード間におけるローカルモデル」(202)とを組み合わせたもの(203)であり、ツリー全体では、「最上位ノードのグローバルモデル(204)および各ノードのローカルモデル(205)」の組み合わせとなる。各ノードにおけるモデル構築は、各種構造記述子を説明変数とするインフォマティクス解析により行う。各種構造記述子としては、定量的構造活性相関解析における説明変数に用いられるファーマコフォア記述子や、類似性検索に用いられるトポロジカルインデックス、またはADMET関連の指標等を用いることができる。図1における「最上位ノードのグローバルモデル」とは、最上位ノードに属する化合物群を、その他の任意の化合物群に対して有意に識別できるモデルを表す。「各ノードのローカルモデル」とは、あるノードに属する化合物群を、共通の親ノードを有するその他のノードに属する化合物群に対して優位に識別できるモデルを表す。   In the embodiment, an integrated database (101 and 103 in FIG. 1), structure information (102 in FIG. 1), and interaction information between a protein and a compound are associated with each other. Based on the data of 104) in FIG. 1, a comprehensive interaction analysis is performed in consideration of both the commonality and difference of the functional features and / or structural features to be analyzed. Specifically, using amino acid information of proteins systematically classified by 103 functions and / or structural similarity, for example, between child nodes having a common parent node in Gene Ontology (registered trademark) Build a selective structure-activity relationship (SAR) model at all levels. Then, the suitability (for example, the presence or absence of interaction) of the analysis target with respect to those models is evaluated. The node indicates a category when the proteins are hierarchically classified, and examples thereof include a gene ontology GO number. FIG. 2 shows an image of the node hierarchy. The analysis model in each node is a combination (203) of a “global model in a node one level higher” (201) and a “local model between peer nodes” (202). The global model (204) and the local model (205) of each node ”. Model construction at each node is performed by informatics analysis using various structure descriptors as explanatory variables. As the various structure descriptors, a pharmacophore descriptor used as an explanatory variable in quantitative structure-activity relationship analysis, a topological index used for similarity search, an ADMET-related index, or the like can be used. The “global model of the highest node” in FIG. 1 represents a model that can significantly distinguish the compound group belonging to the highest node from any other compound group. The “local model of each node” represents a model that can preferentially identify a compound group belonging to a certain node with respect to a compound group belonging to another node having a common parent node.

1−2.インターフェイス
図3は、実施形態による相互作用解析システムの画面表示イメージを示す。相互作用解析処理の内容は後述する。図3の301は、機能および/または構造の類似性により体系的に分類された蛋白質のアミノ酸配列情報(例えば、ジーンオントロジー)の機能分類の樹形図を示す。301に、対応する化合物番号が関連付けられる。デフォルト表示は、指定されたアミノ酸配列情報番号(例えば、ジーンオントロジーのGO番号)または化合物番号を含むノードだけツリーが展開され、それ以外は折り畳まれた状態で表示される。図3の右側のツリーは展開された状態を示す。例えば、解析結果に相当するGO番号は他と違う文字色で表される。各ノードには、下位のアミノ酸配列情報の番号(例えば「GO番号」。以下同様。)、アミノ酸数、および化合物数の集計結果が表示され、表示形式の変更に伴い随時変更される。いずれかの化合物番号をクリックすることにより、対応する構造式およびそれに付随するデータが表示される。リストの入出力機能を有したボタンを4つ配置する(図3の302から305)。入力はアミノ酸配列情報の番号と化合物番号を、出力は蛋白質の配列情報、蛋白質の座標データ(PDB形式)および化合物番号を想定している。ターミナルノードにあたるアミノ酸配列情報の番号および化合物番号には、それぞれチェックボックスを設定し、チェックされたものについてそれぞれリストが出力される。
1-2. Interface FIG. 3 shows a screen display image of the interaction analysis system according to the embodiment. The contents of the interaction analysis process will be described later. 301 in FIG. 3 shows a dendrogram of functional classification of amino acid sequence information (eg, gene ontology) of proteins systematically classified by functional and / or structural similarity. 301 is associated with the corresponding compound number. In the default display, the tree is expanded only for nodes including the designated amino acid sequence information number (for example, the GO number of Gene Ontology) or the compound number, and the rest are displayed in a folded state. The tree on the right side of FIG. 3 shows the expanded state. For example, the GO number corresponding to the analysis result is represented by a different character color. In each node, the lower amino acid sequence information number (for example, “GO number”, the same applies hereinafter), the number of amino acids, and the total number of compounds are displayed, and are changed as needed according to the change in the display format. Clicking on any compound number will display the corresponding structural formula and associated data. Four buttons having a list input / output function are arranged (302 to 305 in FIG. 3). The input assumes amino acid sequence information numbers and compound numbers, and the output assumes protein sequence information, protein coordinate data (PDB format), and compound numbers. A check box is set for each of the amino acid sequence information number and the compound number corresponding to the terminal node, and a list of the checked items is output.

次に各表示ボタンの機能を図3の符号を用いて説明する。301のアミノ酸配列情報の番号は、ノードのクリック、またはアミノ酸配列情報の番号リストの入力により、複数指定することができる。303の構造式クエリー(Query)は、複数指定することができ、エディタで入力するかSDファイルを指定する304のRunボタンを押すことにより、指定したアミノ酸配列情報の番号×構造式のスコアが計算される。301の特定のアミノ酸配列情報の番号、または306に表示される化合物の一方を指定すると、他方にスコアが表示される。閾値を指定した上でFilterボタン(305)を押すと、閾値以上のレコード(ノード)が抽出される。305のフィルター操作はand/or/notの指定と共に複数回実行でき、結果はCSV(Comma Separated Values)形式等の区切りつきテキストファイルに出力することが可能である。   Next, the function of each display button will be described using the reference numerals in FIG. A plurality of amino acid sequence information numbers 301 can be designated by clicking a node or inputting a number list of amino acid sequence information. Multiple structural formula queries (Query) 303 can be specified, and the number of the specified amino acid sequence information x the structural formula score is calculated by entering in the editor or pressing the Run button 304 for specifying the SD file. Is done. When the number of the specific amino acid sequence information of 301 or one of the compounds displayed in 306 is designated, the score is displayed on the other. When the filter button (305) is pressed after specifying the threshold value, records (nodes) that are equal to or higher than the threshold value are extracted. The filter operation 305 can be executed a plurality of times with designation of “and / or / not”, and the result can be output to a delimited text file such as CSV (Comma Separated Values) format.

2.解析処理方法の検証
実施形態としての相互作用解析システムが利用する解析処理方法の検証について説明する。以下、所定の化合物および蛋白質の相互解析情報の例を用いた複数の解析処理方法の検証結果を示す。
2. Verification of Analysis Processing Method Verification of the analysis processing method used by the interaction analysis system as the embodiment will be described. Hereinafter, verification results of a plurality of analysis processing methods using examples of mutual analysis information of predetermined compounds and proteins will be shown.

2−1.ホスホジエステラーゼ(Phosphodiesterase)に関するCART法による解析
実施形態としての相互作用解析システムによる相互作用解析処理は、化合物の構造式情報から薬理活性の有無を識別するファーマコフォア記述子等を説明変数としたCART法を利用する。実施形態では、例示として、対象蛋白質と相互作用しない(または「相互作用が小さい」。以下同じ。)化合物群としての「不活性群」を含む多様な化合物セットを用いる「グローバルモデル(グローバルモデル)」と、活性群近傍の化合物セットを用いる「ローカルモデル(ローカルモデル)」との組み合わせによって相互作用解析処理を実現する。グローバルモデルおよびローカルモデルの内容は後述する。
2-1. Analysis by phosphodiesterase (Phosphodiesterase) by CART method The interaction analysis processing by the interaction analysis system as an embodiment is a CART method using pharmacophore descriptors for identifying the presence or absence of pharmacological activity from structural formula information of compounds as explanatory variables. Is used. In the embodiment, as an example, a “global model (global model)” using various compound sets including an “inactive group” as a compound group that does not interact with the target protein (or “small interaction”. The same applies hereinafter). "And a" local model (local model) "using a compound set near the active group, the interaction analysis process is realized. The contents of the global model and the local model will be described later.

表1は、ジーンオントロジーの基本単位である1段階のツリー構造について、「各ノードのグローバルモデル」と「上位ノードのグローバルモデルと各ノードのローカルモデル」との間における各下位ノードの識別能の比較を示す。実験例は、例示としてホスホジエステラーゼ(Phosphodiesterase(以下、「PDE」とする。))を上位ノードとする5つのサブタイプ(PDE1〜PDE5)を用いた。PDE は、リン酸ジエステルを加水分解して、リン酸モノエステルにする酵素の総称である。   Table 1 shows the discriminating ability of each lower node between the “global model of each node” and the “global model of each node and the local model of each node” with respect to the one-level tree structure that is the basic unit of the gene ontology. A comparison is shown. In the experimental example, five subtypes (PDE1 to PDE5) having a phosphodiesterase (Phosphodiesterase (hereinafter referred to as “PDE”)) as an upper node are used as an example. PDE is a general term for enzymes that hydrolyze phosphodiester to phosphomonoester.

上位ノードであるPDEには2871化合物が帰属されている。各下位ノードに属する化合物数のばらつきは大きく、最少が29化合物(PDE2)、最大が1699化合物(PDE4)になる。「グローバルモデル」に含まれる不活性群の中に分子サイズ等による分布差がでないように、分子量200以上800未満の化合物だけを採用した。「グローバルモデル」の不活性群には、数多くのベンダーから収集した約50万件の市販HTS化合物の中からランダムに抽出した3000化合物を用いた。「ローカルモデル」の作成において、上位ノードに属する2871化合物の中で薬理活性が既知のもの以外は不活性と見なした。表1に例示する比較結果においては、いずれの解析も共通のパラメーター(最大階層=10/親ノード=5/子ノード=1)を用い、事前確率のみ「データセット依存」(「cart_data」)と「等確率」(「cart_even」)の双方について検討した。PDE(上位ノード)およびPDEの各サブタイプ(下位ノード)のCART法による解析結果を表1、図4〜6に示す。   The 2871 compound is assigned to the PDE which is the upper node. The number of compounds belonging to each lower node varies widely, with a minimum of 29 compounds (PDE2) and a maximum of 1699 compounds (PDE4). Only compounds with a molecular weight of 200 or more and less than 800 were adopted in the inactive group included in the “global model” so that there would be no distribution difference due to molecular size or the like. The inactive group of the “global model” used 3000 compounds randomly extracted from about 500,000 commercially available HTS compounds collected from many vendors. In the creation of the “local model”, it was regarded as inactive except for those with known pharmacological activity among the 2871 compounds belonging to the upper node. In the comparison results illustrated in Table 1, all the analyzes use common parameters (maximum hierarchy = 10 / parent node = 5 / child node = 1), and only the prior probability is “data set dependent” (“cart_data”). Both “equal probabilities” (“cart_even”) were examined. The analysis results by the CART method of PDE (upper node) and each subtype (lower node) of PDE are shown in Table 1 and FIGS.

Figure 2005069188
Figure 2005069188

表1の上段にはグローバルモデルの識別能を、下段にはローカルモデルの識別能を示している。各カラムには2つの数値が併記されているが、左側がモデル(例えば化合物を識別するための評価関数等)を構築するために用いたデータセット(学習データ)に対する識別能、右側が構築したモデルの検証用に用いたデータセット(検証データ)に対する識別能を示している。結果を概観すると、事前確率を等確率にした場合に総じて好ましいモデルが得られていることから、以下の検討には、事前確率を等角率にしたモデルを用いた。   The upper part of Table 1 shows the discrimination ability of the global model, and the lower part shows the discrimination ability of the local model. Two numbers are written in each column, but the left side is the discriminating ability for the data set (learning data) used to build the model (e.g., evaluation function for identifying compounds), the right side is The discriminating ability for the data set (verification data) used for model verification is shown. An overview of the results shows that generally favorable models are obtained when the prior probabilities are made equal. For the following examination, a model with prior probabilities made equiangular was used.

図4〜図6は、(1)PDEと相互作用する化合物群(活性群)、(2)グローバルモデルに用いた不活性群(PDEと相互作用しない化合物群)、(3)ローカルモデルに用いた不活性群、の3種類のデータセットに対して、上記で得られたモデルのうち「(a)PDEのグローバルモデル+各サブタイプのローカルモデル(図中、"Global_PDE & Local _PDEx"として表示)」と「(b)各サブタイプのグローバルモデル(図中、"Global_PDEx"として表示)」を適用した場合の識別能の違いをグラフである。図4および図5に示すように、(1)活性群、および(2)グローバルモデルに用いた不活性群のデータセットに対しては、(a)および(b)両者において識別能にほとんど差がみられなかった。しかしながら、図6に示すように、(3)ローカルモデルに用いた不活性群のデータセットに対しては、「(b)各サブタイプのグローバルモデル」を用いた場合に極めて乏しい識別能しか示さなかった。つまり、グローバルモデルでは類縁蛋白質間の違いを解析できないことを意味する。これらの考察から、任意の化合物が各ノードに属する蛋白質に対して相互作用するか否かを判定するには、「1段階上位のノードにおけるグローバルモデル」と「下位ノード間におけるローカルモデル」とを組み合わせる必要性が示唆された。   4 to 6 are: (1) Compound group interacting with PDE (active group), (2) Inactive group used in global model (compound group not interacting with PDE), (3) Used for local model For the three types of data set of the inactive group, “(a) PDE global model + local model of each subtype (displayed as“ Global_PDE & Local _PDEx ”in the figure) ) ”And“ (b) Global model of each subtype (displayed as “Global_PDEx” in the figure) ”are graphs showing the difference in discriminability. As shown in FIG. 4 and FIG. 5, for the data sets of (1) active group and (2) inactive group used in the global model, (a) and (b) there is little difference in discriminability between both. Was not seen. However, as shown in FIG. 6, (3) the inactive group data set used in the local model shows very poor discrimination ability when using “(b) global model of each subtype”. There wasn't. This means that the global model cannot analyze differences between related proteins. From these considerations, in order to determine whether or not an arbitrary compound interacts with a protein belonging to each node, a “global model at a node one level higher” and a “local model between lower nodes” are determined. The necessity of combining was suggested.

2−2.ベイジアンネットワークによる解析
任意の化合物についての評価する際には、上位ノードから下位ノードへ向けて段階的に評価する。しかしながら、上記CART法のように分類をバイナリで判定する手法では、一旦上位ノードで偽判定された化合物はそれ以下のノードで評価されない。この点に対処するために、例えば、バイナリで分類を判定する手法ではなく、スコア値として判定する手法を採用することもできる。
2-2. Analysis by Bayesian network When evaluating an arbitrary compound, the evaluation is performed in stages from the upper node to the lower node. However, in the method of determining the classification in binary as in the CART method, a compound that has been falsely determined by the upper node is not evaluated by a node below that. In order to deal with this point, for example, a technique of determining as a score value can be adopted instead of a technique of determining classification in binary.

上記「2−1」と同様の解析を、特定の目的変数を設定するベイジアンネット解析(Belief Network)により実行した。まず、PDEのグローバルモデルと各サブタイプのローカルモデルについて、CART法(事前等確率)から得られた識別能と比較した。一般的な解析ソフトウェアBayesiaLab2.0では5種類の解析方法を利用できる為、これらの比較検討も合わせて行った(表2参照)。   Analysis similar to the above “2-1” was performed by Bayesian network analysis (Belief Network) in which specific objective variables were set. First, the PDE global model and local models of each subtype were compared with the discriminating ability obtained from the CART method (prior equiprobability). In general analysis software BayesiaLab 2.0, since five kinds of analysis methods can be used, these comparative studies were also performed (see Table 2).

表に示すように、短時間で計算が完了するNaive Bayes法、Markov Blanket法およびAugmented Markov Blanket法の3つは類似の傾向を示したが、その識別能は十分とは言い難いものであった。一方、Sons&Spouses法は先の3つに較べると比較的長い計算時間を必要とされるが、CART法に近い識別能を示す。しかしながら、活性群の数が極端に少ない場合に、識別能が大きく低下してしまう。それに対しAugmented Naive Bayes法は、ほぼ同等の計算時間を要するものの、活性群の数が少ない場合にも高い識別能を示した。しかしながら逆に、サンプル数が多いグローバルモデルについては、Sons&Spouses法がCART法と同等の識別能を示したのに対し、明らかに過学習に陥っている。よって、Augmented Naive Bayes法とSons&Spouses法は一長一短であると言える。   As shown in the table, the Naive Bayes method, Markov Blanket method, and Augmented Markov Blanket method, which complete the calculation in a short time, showed similar trends, but their discriminating ability was not sufficient. . The Sons & Spouses method, on the other hand, requires a relatively long calculation time compared to the previous three methods, but shows discrimination ability similar to that of the CART method. However, when the number of active groups is extremely small, the discrimination ability is greatly reduced. In contrast, the Augmented Naive Bayes method required almost the same calculation time, but showed high discrimination ability even when the number of active groups was small. On the other hand, for the global model with a large number of samples, the Sons & Spouses method showed the same discrimination ability as the CART method, but it was clearly overlearned. Therefore, Augmented Naive Bayes method and Sons & Spouses method can be said to have advantages and disadvantages.

Figure 2005069188
Figure 2005069188

ここで、「2−1.」の項で説明したCART法では、事前確率を等確率に設定することで識別能の改善が見られた。これは、不活性群に較べて活性群のデータ量が極めて少ない場合に顕著であった。そこで、事前確率を等確率にしたベイジアンネット解析を検討した。BayesiaLabには事前確率を設定する機能はない為、確率として出力される結果に対して外部的に考慮した。具体的には、通常は目的変数が2クラスならば確率が0.5を境として、いずれのクラスに属するかが決められる。仮に、2クラスの事前確率が1/10と9/10とすれば、属するクラスの境界値を0.1にすることで、CART法における事前等確率と同等の効果が期待できることになる。ベイジアンネット解析による結果を表3に示す。   Here, in the CART method described in the section “2-1.”, Improvement of discrimination ability was seen by setting prior probabilities to equal probabilities. This was noticeable when the amount of data in the active group was very small compared to the inactive group. Therefore, we examined Bayesian network analysis with equal prior probabilities. Since BayesiaLab does not have a function to set prior probabilities, the results output as probabilities are considered externally. More specifically, if the objective variable is 2 classes, it is determined which class the probability variable belongs to at a boundary of 0.5. If the prior probabilities of the two classes are 1/10 and 9/10, an effect equivalent to the prior equiprobability in the CART method can be expected by setting the boundary value of the class to 0.1. Table 3 shows the results of Bayesian network analysis.

Figure 2005069188
Figure 2005069188

当然ながら、活性群に対する識別率は向上し、不活性群に対する誤認識率は高くなった。特にデータ数の少ないPDE-1およびPDE-2において、大幅な識別率の向上が見られた。Augmented Naive Bayes法は過学習になっていた為、事前確率を考慮しても結果に差が見られなかった。これらの結果は、各モデルごとに分類の閾値を決めることにより、良好な分類結果が得られることを示唆する。例えば、データセットを学習用とテスト用に分け、学習用データからモデル(例えば化合物を識別するための評価関数等)を構築し、そのモデルによりテスト用データを評価して得られたスコア値の分布から分類閾値を決めるようにしてもよい。解析手法の例示として、識別能と過学習のバランスを考慮してSons&Spouses法を採用することができる。結果を図7〜図10に示す。   Naturally, the discrimination rate for the active group was improved, and the misrecognition rate for the inactive group was increased. In particular, PDE-1 and PDE-2, which have a small number of data, showed a significant improvement in recognition rate. The Augmented Naive Bayes method was over-learning, so there was no difference in the results even when considering the prior probabilities. These results suggest that good classification results can be obtained by determining the classification threshold for each model. For example, the data set is divided into learning and testing, a model (for example, an evaluation function for identifying a compound) is constructed from the learning data, and the score value obtained by evaluating the test data using the model is calculated. The classification threshold may be determined from the distribution. As an example of the analysis method, the Sons & Spouses method can be adopted in consideration of the balance between discrimination ability and over-learning. The results are shown in FIGS.

次に、上記検討で得られたPDEのグローバルモデルと各サブタイプのローカルモデルとを組み合わせて、(1)活性群、(2)グローバルモデルに用いた不活性群、(3)ローカルモデルに用いた不活性群の3種類のデータセットに適用した。CART法は、バイナリーで分類が決まるが、ここでは各ノードにおいて適合する確率として表した。確率は、例示として上位ノードとの条件付確率として表し、確率値の分布から分類閾値を決めることとした。図11A、B、C、D、Eのそれぞれは、各サブタイプ(PDE-1〜5)における3種類のデータセットの確率分布を示す。図中の「1」は活性群、「0」はローカルモデルに用いた不活性群、「−1」はグローバルモデルに用いた不活性群を表す。横軸は、PDEのグローバルモデルと各サブタイプのローカルモデルとを適用したときの条件付確率を表す。グラフの縦軸は、「活性と認識される率」を示す。図11に示すように、CART法の結果と同様、グローバルモデルおよびローカルモデルの不活性群共に、活性群と良好に分離される。また、条件付確率で表されるため、0〜1の中間値を取るものがみられる。   Next, the PDE global model obtained in the above study and the local model of each subtype are combined to (1) active group, (2) inactive group used in the global model, and (3) local model. It was applied to three different data sets of the inactive group. In the CART method, classification is determined by binary, but here, it is expressed as a probability of matching at each node. The probability is expressed as a conditional probability with the upper node as an example, and the classification threshold is determined from the distribution of probability values. Each of FIG. 11A, B, C, D, and E shows the probability distribution of three types of data sets in each subtype (PDE-1 to PDE-5). In the figure, “1” represents an active group, “0” represents an inactive group used in the local model, and “−1” represents an inactive group used in the global model. The horizontal axis represents the conditional probability when applying the global model of PDE and the local model of each subtype. The vertical axis of the graph indicates “rate recognized as activity”. As shown in FIG. 11, both the inactive group of the global model and the local model are well separated from the active group, similarly to the result of the CART method. Moreover, since it is represented by a conditional probability, there are some which take an intermediate value of 0-1.

2−3.サポートベクトルマシンによる解析
次に、ローカルモデルを構築する際における不活性情報の取り扱いを検討した。通常、薬理活性が既知のもののみデータベースに格納される。したがって、薬理活性の情報がないものについては、実際に不活性なのか、それとも調べられていないのかを知りえない。グローバルモデルの構築については、実施形態では、データセットとして不活性情報としての多様な化合物セットを与える為、確率的に問題とならない。一方、ローカルモデルの構築については、実施形態では、データセットとして類縁化合物を与える。したがって、薬理活性を有するにも関わらず試験されていない為にデータとして抜け落ちているものが無視できない割合で存在する。この問題を回避するために、例えば、不活性情報を欠損値として扱い、薬理活性既知のデータのみをデータセットとして利用する解析モデルを構築してもよい。そこで、PDE及びPDEのサブタイプに対する阻害剤の活性モデルをサポートベクトルマシン(Support Vector Machine)。以下、「SVM」とする。)により予測モデルを構築し、交差検証(4-fold cross validation)を実施した。SVMにおけるパラメータは固定し、説明変数の標準化とガウシアン・カーネルを用いた。使用したソフトウェアはLIBSVMである。SVMの概念は、例えば「Vapnik, Statistical Learning Theory , Wiley, 1998」に記載されている。交差検証の結果を表4、表5示す。
2-3. Analysis by support vector machine Next, we examined the handling of inert information when building a local model. Normally, only those with known pharmacological activity are stored in the database. Therefore, it is impossible to know whether a substance without pharmacological activity information is actually inactive or has not been investigated. Regarding the construction of the global model, in the embodiment, various compound sets as inactive information are given as a data set, so that there is no problem in terms of probability. On the other hand, regarding the construction of a local model, in the embodiment, related compounds are given as a data set. Therefore, there is a non-negligible percentage of missing data as it is not tested despite having pharmacological activity. In order to avoid this problem, for example, an inactive information may be treated as a missing value, and an analysis model using only data having a known pharmacological activity as a data set may be constructed. Therefore, an inhibitor activity model for PDE and subtypes of PDE is a Support Vector Machine. Hereinafter, it is referred to as “SVM”. ) Was used to construct a prediction model and cross-validation (4-fold cross validation) was performed. The parameters in SVM were fixed, standardization of explanatory variables and Gaussian kernel were used. The software used is LIBSVM. The concept of SVM is described in, for example, “Vapnik, Statistical Learning Theory, Wiley, 1998”. Tables 4 and 5 show the results of cross-validation.

Figure 2005069188
Figure 2005069188

Figure 2005069188
Figure 2005069188

OCSVM(One-Class SVM) は、活性群の特徴量(記述子)のみで、薬物の活性・不活性を識別する学習アルゴリズムである。PDE1-5の阻害剤に対してOCSVMのモデルを構築し、活性群内での交差検証、及び、ランダムにサンプリングした3000個の化合物に対する識別能力を検証した。SVMにおけるパラメータは固定し、説明変数の標準化とRBFカーネル(ガウシアン・カーネル)により実施した。使用したソフトウェアはLIBSVMである。OCSVMの概念は、例えば「B. Scholkopf,et.al. Estimating the support of a high-dimensional distribution. Neural Computation, 13, 2001, 1443-1471」に記載されている。   OCSVM (One-Class SVM) is a learning algorithm that identifies the activity / inactivity of a drug using only the feature quantity (descriptor) of the active group. An OCSVM model was constructed for inhibitors of PDE1-5 to verify cross-validation within the active group and the ability to discriminate against 3000 randomly sampled compounds. The parameters in SVM were fixed, and the standardization of explanatory variables and the RBF kernel (Gaussian kernel) were used. The software used is LIBSVM. The concept of OCSVM is described in, for example, “B. Scholkopf, et.al. Estimating the support of a high-dimensional distribution. Neural Computation, 13, 2001, 1443-1471”.

計算機実験は、以下の手順で実施した。   The computer experiment was performed according to the following procedure.

(1)OCSVMによる各PDEサブタイプの交差検証法による識別能力の検証
(2)訓練データと同一データによる各PDEサブタイプの識別能力の検証
(3)ランダムにサンプリングした化合物に対する識別能力の検証
計算機実験の結果を、表6に示す。
(1) Verification of discrimination ability of each PDE subtype by cross-validation method by OCSVM (2) Verification of discrimination ability of each PDE subtype by the same data as training data (3) Verification of discrimination ability for randomly sampled compounds The results of the experiment are shown in Table 6.

Figure 2005069188
Figure 2005069188

以上、複数の一般的な統計処理を例示として、解析処理方法の検証の結果について説明した。本発明に係る解析処理は、上記の各手法のいずれか、各手法の変形、各手法の組合せ、または、いわゆる当業者に周知の手法によって実現可能である。以下の説明では、本発明の実施形態として上述の解析処理方法を実現する装置、および、解析処理方法の詳細を中心に説明する。   Heretofore, the results of verification of the analysis processing method have been described using a plurality of general statistical processes as examples. The analysis processing according to the present invention can be realized by any one of the above-described methods, a modification of each method, a combination of the methods, or a method known to those skilled in the art. In the following description, an apparatus for realizing the above-described analysis processing method and details of the analysis processing method will be mainly described as an embodiment of the present invention.

3.相互作用解析装置および解析方法の概要
3−1.機能ブロック
図12は、本発明のシステムまたは方法の実施形態としての相互作用解析装置500の機能ブロック図を示す。相互作用解析装置500は、(a)第1記録手段72、(b)第2記録手段74、(c)取得手段70、(d)第1解析手段76、(e)第2解析手段78、(f)出力手段82、(g)相互作用情報解析手段80を備える。
3. 3. Outline of interaction analysis apparatus and analysis method 3-1. Functional Block FIG. 12 shows a functional block diagram of an interaction analysis apparatus 500 as an embodiment of the system or method of the present invention. The interaction analysis apparatus 500 includes (a) first recording means 72, (b) second recording means 74, (c) acquisition means 70, (d) first analysis means 76, (e) second analysis means 78, (F) An output unit 82 and (g) an interaction information analysis unit 80 are provided.

3−2.ハードウェア構成
図13は、図12に示す相互作用解析装置500をCPUを用いて実現したハードウェア構成の例を示す。相互作用解析装置500は、CPU10、メモリ12、スピーカ14、通信回路16、キーボード/マウス18、ディスプレイ(表示装置)20、ハードディスク22を備えている。
3-2. Hardware Configuration FIG. 13 shows an example of a hardware configuration in which the interaction analysis apparatus 500 shown in FIG. 12 is realized using a CPU. The interaction analysis device 500 includes a CPU 10, a memory 12, a speaker 14, a communication circuit 16, a keyboard / mouse 18, a display (display device) 20, and a hard disk 22.

CPU10は、後述する相互作用解析処理を実行するほか、相互作用解析装置500全体を制御する。ハードディスク22は、蛋白質データベース600、化合物データベース700、相互作用データベース800、体系的分類データベース900、相互作用解析装置500を制御するプログラム(例えば、相互作用解析処理プログラム)を記録する。メモリ12は、CPU10のワーク領域、取得したデータの保存領域として利用される。キーボード/マウス18の操作によって入力された情報は、CPU10によって処理される。   The CPU 10 executes an interaction analysis process described later, and controls the entire interaction analysis apparatus 500. The hard disk 22 records a protein database 600, a compound database 700, an interaction database 800, a systematic classification database 900, and a program for controlling the interaction analysis device 500 (for example, an interaction analysis processing program). The memory 12 is used as a work area for the CPU 10 and a storage area for acquired data. Information input by operating the keyboard / mouse 18 is processed by the CPU 10.

実施形態では、相互作用解析装置500のオペレーティングシステム(OS)の例として、マイクロソフト社のWindows(登録商標)XP、NT、2000等を用いることとする。実施形態のコンピュータプログラムは、OSと共働して図12に示す各機能を実現しているが、これに限らず、コンピュータプログラム単独で各機能を実現するようにしてもよい。   In the embodiment, as an example of an operating system (OS) of the interaction analysis apparatus 500, Windows (registered trademark) XP, NT, 2000, or the like of Microsoft Corporation is used. The computer program of the embodiment realizes each function shown in FIG. 12 in cooperation with the OS. However, the present invention is not limited to this, and each function may be realized by a computer program alone.

3−3.解析方法
図14は、本発明の実施形態としての相互作用解析処理の概念図である。実施形態としての相互作用解析装置500は、蛋白質データベース600、化合物データベース700、相互作用データベース800、体系的分類データベース900を備えている。装置500は、例示として、解析対象となる化合物と相互作用する蛋白質を予測する機能、および、解析対象となる蛋白質と相互作用する化合物を予測する機能を備える。
3-3. Analysis Method FIG. 14 is a conceptual diagram of an interaction analysis process as an embodiment of the present invention. The interaction analysis apparatus 500 as an embodiment includes a protein database 600, a compound database 700, an interaction database 800, and a systematic classification database 900. For example, the apparatus 500 has a function of predicting a protein that interacts with a compound to be analyzed and a function of predicting a compound that interacts with a protein to be analyzed.

蛋白質データベース600には、複数の蛋白質に関する情報が記録される。化合物データベース700には、複数の化合物に関する情報が記録されている。相互作用データベースには、蛋白質と化合物との間の相互作用に関する情報が記録される(記号1000)。したがって、蛋白質データベース600に記録される蛋白質と、化合物データベース700に記録される化合物とは、相互作用する対象同士が互いに関連付けられる。   Information relating to a plurality of proteins is recorded in the protein database 600. Information relating to a plurality of compounds is recorded in the compound database 700. Information on the interaction between the protein and the compound is recorded in the interaction database (symbol 1000). Accordingly, the proteins recorded in the protein database 600 and the compounds recorded in the compound database 700 are associated with each other.

実施形態では、蛋白質データベース600に記録される蛋白質情報は、体系的分類データベース900の情報によって体系的に分類される。その他の実施形態として体系的分類データベース900は、化合物データベース700に記録される化合物情報を体系的に分類してもよい。あるいは、体系的分類データベース900は、蛋白質(データベース600に含まれる)と、その蛋白質と相互作用する化合物(データベース700に含まれる)とを組み合わせた情報を体系的に分類してもよい。実施形態としての体系的分類データベース900は、例示として、蛋白質に関連する情報を、蛋白質の機能および/または構造の類似性により体系的に分類した情報、より具体的には、ジーンオントロジーのGO番号等を含むオントロジー情報によって蛋白質を階層的に分類した情報を含む。上述のように、相互作用データベース800によって相互作用する蛋白質と化合物とが関連づけられているのであるから、データベース900の情報によって蛋白質と化合物との相互作用情報が体系的に分類されることになる(記号1002)。蛋白質および/または化合物の体系的分類は、実施形態で説明するものに限らず、例えば、物性、分子構造、構造式、アミノ酸配列、構造アノテーション情報、リガンド機能、または機能アノテーション情報を含む、機能および/または構造に関する情報の類似性を利用することができる。 In the embodiment, the protein information recorded in the protein database 600 is systematically classified by the information of the systematic classification database 900. As another embodiment, the systematic classification database 900 may systematically classify compound information recorded in the compound database 700. Alternatively, the systematic classification database 900 may systematically classify information that combines a protein (included in the database 600) and a compound that interacts with the protein (included in the database 700). The systematic classification database 900 according to the embodiment includes, as an example, information obtained by systematically classifying information related to a protein based on similarity in function and / or structure of the protein, more specifically, a gene ontology GO number. It includes information that classifies proteins hierarchically by ontology information that includes etc. As described above, the interacting database 800 associates the interacting protein and compound, so that the interaction information between the protein and the compound is systematically classified based on the information in the database 900 ( Symbol 1002). The systematic classification of proteins and / or compounds is not limited to those described in the embodiments, and includes, for example, physical properties, molecular structures, structural formulas, amino acid sequences, structural annotation information, ligand functions, or functional annotation information. Similarity of information about the structure can be used.

図14に示すツリー構造1004は、体系的分類データベース900によって体系的に分類される蛋白質および/または化合物の関係を示す。上位分類ノード1008は、複数の蛋白質および/または化合物を含む。一方、下位分類ノード1006、1010のそれぞれは、上位分類ノード1008に帰属する蛋白質および/または化合物の中から選択された、所定の機能特徴および/または構造特徴を有するものを含む。図14には、説明の便宜上、2階層に分けられた合計3つの分類ノードを示した。体系的分類における階層の数、各階層に含まれる分類ノードの数は、利用する体系的分類の内容にしたがって任意の数を採用することができる。   A tree structure 1004 shown in FIG. 14 shows the relationship between proteins and / or compounds that are systematically classified by the systematic classification database 900. The upper classification node 1008 includes a plurality of proteins and / or compounds. On the other hand, each of the lower classification nodes 1006 and 1010 includes those having predetermined functional characteristics and / or structural characteristics selected from proteins and / or compounds belonging to the higher classification node 1008. FIG. 14 shows a total of three classification nodes divided into two layers for convenience of explanation. Arbitrary numbers can be adopted as the number of layers in the systematic classification and the number of classification nodes included in each layer according to the contents of the systematic classification to be used.

解析対象の蛋白質および/または化合物と相互作用する化合物および/または蛋白質を解析する際、相互作用解析装置500は、ツリー構造1004によって体系的に分類された蛋白質および/または化合物の各ノードの情報を利用する。具体的には、装置500は、解析対象が上位分類ノードに帰属するか否かを解析する(ステップS101)。次に装置500は、解析対象が下位分類ノードに帰属するか否かを解析する(S103)。以上のように、装置500は、解析対象についての各分類ノードへの帰属の有無を解析、すなわち、機能および/または構造が類似する蛋白質および/または化合物(データベースに含まれる相互作用情報が既知のもの)を特定し、その解析対象と相互作用する蛋白質および/または化合物に関する情報を出力する。   When analyzing a compound and / or protein that interacts with a protein and / or compound to be analyzed, the interaction analysis apparatus 500 obtains information on each node of the protein and / or compound systematically classified by the tree structure 1004. Use. Specifically, the device 500 analyzes whether or not the analysis target belongs to the higher class node (step S101). Next, the apparatus 500 analyzes whether or not the analysis target belongs to the lower classification node (S103). As described above, the apparatus 500 analyzes the presence / absence of attribution to each classification node with respect to the analysis target, that is, a protein and / or compound having similar functions and / or structures (interaction information included in the database is known). Information on the protein and / or compound that interacts with the analysis target.

3−4.装置機能の説明
図12に示す相互作用解析装置500の各構成が有する機能の一部と、実施形態における各機能との対応として、例えば以下の内容を挙げることができる。
3-4. Explanation of Device Functions As a correspondence between a part of the functions of each configuration of the interaction analysis apparatus 500 shown in FIG. 12 and each function in the embodiment, for example, the following contents can be given.

第1記録手段72は、体系的分類データベース900(図18参照)に記録されるノードAに関する情報に対応する(図19のテーブル66参照)。第2記録手段74は、体系的分類データベース900に記録されるノードA−1(またはA−2)に関する情報に対応する(図19のテーブル62または68参照)。取得手段70は、図20のステップS201の処理を実行する装置500のCPU10に対応する。第1解析手段76は、図20のステップS203の処理を実行するCPU10に対応する。第2解析手段78は、図20のステップS205の処理を実行するCPU10に対応する。出力手段82は、図20のステップS211または図21のステップS307の処理を実行するCPU10に対応する。相互作用情報解析手段80は、図21のステップS305の処理を実行するCPU10に対応する。   The 1st recording means 72 respond | corresponds to the information regarding the node A recorded on the systematic classification | category database 900 (refer FIG. 18) (refer the table 66 of FIG. 19). The 2nd recording means 74 respond | corresponds to the information regarding the node A-1 (or A-2) recorded on the systematic classification | category database 900 (refer the table 62 or 68 of FIG. 19). The acquisition unit 70 corresponds to the CPU 10 of the device 500 that executes the process of step S201 in FIG. The first analysis unit 76 corresponds to the CPU 10 that executes the process of step S203 of FIG. The second analysis unit 78 corresponds to the CPU 10 that executes the process of step S205 of FIG. The output unit 82 corresponds to the CPU 10 that executes the process of step S211 of FIG. 20 or step S307 of FIG. The interaction information analysis means 80 corresponds to the CPU 10 that executes the process of step S305 in FIG.

4.データベース
4−1.蛋白質データベース
相互作用解析装置500のハードディスク22に記録される各データベースの記録内容について説明する。図15は、実施形態としての蛋白質データベース600の記録内容である。蛋白質データベース600には、複数の蛋白質の情報が記録される。具体的には、蛋白質データベース600には、蛋白質を特定する「蛋白質ID(Protein ID)」、蛋白質の構造特徴および/または機能特徴の例示としての「構造指標(Structure Index)」の各情報を示すカラムが含まれる。蛋白質データベース600に含まれる各蛋白質の情報は、一般的な公開データベースの情報等に基づく。「構造指標」は、例えばアミノ酸配列および/または蛋白質の三次元構造情報を、当業者に周知の手段によって数値化したものである。
4). Database 4-1. Protein Database The contents recorded in each database recorded on the hard disk 22 of the interaction analysis apparatus 500 will be described. FIG. 15 shows the recorded contents of the protein database 600 as an embodiment. In the protein database 600, information on a plurality of proteins is recorded. Specifically, the protein database 600 includes information on a “protein ID (Protein ID)” for specifying a protein and a “structure index” as an example of the structural characteristics and / or functional characteristics of the protein. Column is included. Information on each protein included in the protein database 600 is based on information in a general public database. The “structure index” is, for example, an amino acid sequence and / or three-dimensional structure information of a protein that is digitized by means well known to those skilled in the art.

4−2.化合物データベース
図16は、実施形態としての化合物データベース700の記録内容である。化合物データベース700には、複数の化合物の情報が記録される。具体的には、化合物データベース700には、化合物を特定する「化合物ID(Compound ID)」、化合物の構造特徴および/または機能特徴を示す情報を記録するカラムが含まれる。化合物の構造特徴および/または機能特徴を示す情報は、例えば化合物の機能(物性を含む)および/または化合物の構造式に基づく構造特徴を数値化した構造特徴情報が含まれる。図16には、構造特徴情報の例示としてLogP(油水分配係数、n−オクタノール/水分配係数))、水素結合受容体(Hydrogen bond acceptor(HBA))、水素結合供与体(Hydrogen bond donor(HBD))、分子量(Molecular weight (MW))が含まれる。化合物データベース700に含まれる各化合物の情報は、一般的な公開データベースの情報等にもとづく。
4-2. Compound Database FIG. 16 shows the recorded contents of the compound database 700 as an embodiment. In the compound database 700, information on a plurality of compounds is recorded. Specifically, the compound database 700 includes a “compound ID” that identifies a compound, and a column that records information indicating the structural characteristics and / or functional characteristics of the compound. The information indicating the structural characteristics and / or functional characteristics of the compound includes, for example, structural characteristic information obtained by quantifying the structural characteristics based on the function (including physical properties) of the compound and / or the structural formula of the compound. In FIG. 16, LogP (oil-water partition coefficient, n-octanol / water partition coefficient)), hydrogen bond acceptor (HBA), hydrogen bond donor (HBD) are exemplified as structural feature information. )), Molecular weight (MW). Information on each compound included in the compound database 700 is based on information in a general public database.

4−3.相互作用データベース
図17は、実施形態としての相互作用データベース800の記録内容である。相互作用データベース800には、蛋白質データベース600に含まれる蛋白質(「蛋白質ID(Protein ID)」で特定される)と、化合物データベース700に含まれる化合物(「化合物ID(Compound ID)」で特定される)との相互作用(例えば、蛋白質に対して薬理活性を示す化合物に関する情報)に関する情報である「活性(Activity)」が記録される。この活性情報として、例えばMDL社のMDDR(MDL Drug Data Report)の情報のほか、一般的な公開データベースの情報および/または実験的に確証された情報を利用することができる。その他、この相互作用の情報は、蛋白質および薬理活性を示す化合物の各名称(同義語を含む)の対応関係に基づいて作成することも可能である。図では、例えばID「P001」と「C005」は相互作用し(「Activity=1」)、「P002」と「C123」は相互作用しない(「Activity=2」)。「活性」のカラムに記録する情報のその他の実施形態として、相互作用の指標となる数値(確率を示すスコア値を含む)を記録することができる。
4-3. Interaction Database FIG. 17 shows recorded contents of an interaction database 800 as an embodiment. In the interaction database 800, a protein (specified by “Protein ID”) included in the protein database 600 and a compound (“Compound ID”) specified in the compound database 700 are specified. "Activity", which is information related to the interaction (for example, information on a compound exhibiting pharmacological activity with respect to a protein). As this activity information, for example, information on a general public database and / or experimentally confirmed information can be used in addition to information on MDL (MDL Drug Data Report) of MDL. In addition, this interaction information can also be created based on the correspondence between each name (including synonyms) of a protein and a compound exhibiting pharmacological activity. In the figure, for example, IDs “P001” and “C005” interact (“Activity = 1”), and “P002” and “C123” do not interact (“Activity = 2”). As another embodiment of the information to be recorded in the “activity” column, a numerical value (including a score value indicating a probability) serving as an index of interaction can be recorded.

実施形態では、蛋白質と化合物との間の相互作用に関する情報を相互作用データベース800に記録している。その他の実施形態では、相互作用に関する情報を、蛋白質データベース600および/または化合物データベース700に記録することによって、相互作用する蛋白質と化合物との組み合わせを対応づけることができる。その他の実施形態として、装置500は、蛋白質同士の相互作用を解析することもできる。この場合、蛋白質データベース600および/または相互作用データベース800は、相互作用する蛋白質同士の組み合わせを記録する。   In the embodiment, information related to the interaction between the protein and the compound is recorded in the interaction database 800. In other embodiments, the information on the interaction can be recorded in the protein database 600 and / or the compound database 700 to associate the combination of interacting protein and compound. As another embodiment, the apparatus 500 can also analyze the interaction between proteins. In this case, the protein database 600 and / or the interaction database 800 records combinations of interacting proteins.

4−4.体系的分類データベース900
図18は、実施形態としての体系的分類データベース900の記録内容である。体系的分類データベース900は、蛋白質データベース600に記録された複数の蛋白質を機能および/または構造の類似性によって体系的分類するための情報を含む。実施形態では、機能および/または構造の類似性による体系的分類の例示として、アミノ酸配列情報の機能分類情報(例えばジーンオントロジーのGO番号)にしたがって蛋白質を階層的に分類している。体系的分類データベース900は、機能および/または構造の類似性による蛋白質の体系的分類情報を、例えばXML(Extensible Markup Language)ツリー構造50で記録する。
4-4. Systematic classification database 900
FIG. 18 shows recorded contents of the systematic classification database 900 as an embodiment. The systematic classification database 900 includes information for systematically classifying a plurality of proteins recorded in the protein database 600 according to function and / or structural similarity. In the embodiment, as an example of systematic classification based on similarity in function and / or structure, proteins are hierarchically classified according to functional classification information (for example, GO number of Gene Ontology) of amino acid sequence information. The systematic classification database 900 records protein systematic classification information based on similarity in function and / or structure in, for example, an XML (Extensible Markup Language) tree structure 50.

XMLツリー構造50の各ノードには、ジーンオントロジーのGO番号に基づくノード番号と評価関数とが関連づけられる。体系的分類データベース900に記録されるテーブルデータ52は、XMLノードに含まれる蛋白質IDとノード番号との対応を記録する。体系的分類データベース900に記録されるテーブルデータ54は、ノード番号と、そのノードへの帰属を判定するための評価関数との対応を記録する。図18に示す例では、蛋白質ID「P001」「P002」「P003」はノード番号「A−1」に含まれる。そして、任意の蛋白質のノード「A−1」への帰属の有無は、評価関数y=fA-1(x)で判定される。   Each node of the XML tree structure 50 is associated with a node number based on the GO number of the gene ontology and an evaluation function. The table data 52 recorded in the systematic classification database 900 records the correspondence between the protein ID and the node number included in the XML node. The table data 54 recorded in the systematic classification database 900 records a correspondence between a node number and an evaluation function for determining attribution to the node. In the example illustrated in FIG. 18, the protein IDs “P001”, “P002”, and “P003” are included in the node number “A-1”. Whether or not an arbitrary protein belongs to the node “A-1” is determined by the evaluation function y = fA−1 (x).

図19は、実施形態における評価関数を説明する模式図である。本発明の「構造活性相関モデル」の実施形態としての評価関数(グローバルモデルおよびローカルモデル)を利用することにより、解析対象としての蛋白質(または化合物)の機能および/または構造の特徴情報に基づき、蛋白質データベース600および/または化合物データベース700の中からその蛋白質(または化合物)と類似の機能および/または構造の特徴を有するものを識別すること、および、その蛋白質(または化合物)と相互作用する化合物(または蛋白質)を解析することができる。解析対象が蛋白質である場合には、蛋白質の機能および/または構造の特徴情報を説明変数とする評価関数を利用する。一方、解析対象が化合物である場合には、化合物の機能および/または構造の特徴情報を説明変数とする評価関数を利用する。   FIG. 19 is a schematic diagram illustrating an evaluation function in the embodiment. By using the evaluation function (global model and local model) as an embodiment of the “structure-activity relationship model” of the present invention, based on the function and / or structural feature information of the protein (or compound) as the analysis target, Identifying the protein database 600 and / or compound database 700 having functions and / or structural characteristics similar to that of the protein (or compound), and compounds interacting with the protein (or compound) ( Or protein). When the analysis target is a protein, an evaluation function having the function information and / or structural feature information of the protein as explanatory variables is used. On the other hand, when the analysis target is a compound, an evaluation function having the function and / or structure characteristic information of the compound as explanatory variables is used.

図19は、例示として蛋白質の構造特徴情報を説明変数とする評価関数について説明するものである。ツリー構造60は、図18に示す体系的分類データベース900に記録される蛋白質の体系的分類情報である。テーブル66には、上位ノードであるノードAに属する蛋白質(記号67に示す「P001」〜「P006」)および任意の蛋白質(「P007」〜)が含まれる。一方、テーブル62および68には、ノードAに属する蛋白質(「P001」〜「P006」)が含まれる。   FIG. 19 illustrates an evaluation function using protein structural feature information as an explanatory variable as an example. The tree structure 60 is protein systematic classification information recorded in the systematic classification database 900 shown in FIG. The table 66 includes proteins belonging to the higher-level node A (“P001” to “P006” indicated by the symbol 67) and arbitrary proteins (“P007” to “). On the other hand, the tables 62 and 68 include proteins belonging to the node A (“P001” to “P006”).

評価関数は、蛋白質データベース600(または化合物データベース700)に含まれる、構造特徴の情報が既知である蛋白質(または化合物)の情報に基づいて、所定の解析手法を用いることによって得ることができる。実施形態では、装置500が評価関数を作成する機能を「学習機能」と表現する。記号69に示すように、分類ノードAの評価関数は、蛋白質の構造特徴情報を説明変数Xとして与えた場合に、分類ノードAに属する蛋白質と、分類Aに属さない任意の蛋白質とを識別可能にする関数である。ノードへの帰属の有無をYとした場合には、評価関数:Y=fA(X)で表される。記号64は、分類ノードAに属する蛋白質の中で、下位ノードであるノードA−1に属する蛋白質(「P001」「P002」「P005」)とノードA−1に属さない蛋白質(「P003」「P004」「P006」)とを有意に識別可能にする評価関数を示す(評価関数:Y=fA-1(X))。記号65は、分類ノードAに属する蛋白質の中で、下位ノードであるノードA−2に属する蛋白質とノードA−2に属さない蛋白質とを有意に識別可能にする評価関数を示す(評価関数:Y=fA-2(X))。分類の性格上、ノードA−1およびA−2の両方に帰属する蛋白質が存在する場合もある。   The evaluation function can be obtained by using a predetermined analysis method based on information on a protein (or compound) whose structural feature information is known, which is included in the protein database 600 (or the compound database 700). In the embodiment, the function that the apparatus 500 creates an evaluation function is expressed as a “learning function”. As shown by the symbol 69, the evaluation function of the classification node A can discriminate between proteins belonging to the classification node A and arbitrary proteins not belonging to the classification A when the structural feature information of the protein is given as the explanatory variable X. This function is If the presence / absence of the node is Y, the evaluation function is expressed as Y = fA (X). Symbol 64 indicates a protein belonging to node A-1 (“P001”, “P002”, “P005”) and a protein not belonging to node A-1 (“P003” “ P004 "" P006 ") is shown as an evaluation function (evaluation function: Y = fA-1 (X)). Symbol 65 indicates an evaluation function that makes it possible to significantly distinguish a protein belonging to node A-2, which is a lower node, from a protein belonging to classification node A, and a protein not belonging to node A-2 (evaluation function: Y = fA-2 (X)). Due to the nature of the classification, there are cases where proteins belonging to both nodes A-1 and A-2 exist.

以上のように、記号69に示す評価関数と、記号64および65に示す評価関数とは、評価関数を得るために利用するデータセットが相違する。上位ノード(ノードA)では、データセットとして、所定の上位分類(ノードA)に属する蛋白質の情報と、任意の蛋白質の情報とを用いて評価関数を得る。一方、下位ノード(ノードA−1)においては、下位分類(ノードA−1)に属する蛋白質の情報と、その類縁の蛋白質(ノードAに属するが、ノードA−1に属さない)の情報とを用いて評価関数を得る。実施形態では、記号69に含まれる評価関数をグローバルモデル、記号64および65に含まれる評価関数をローカルモデルと表現する。   As described above, the evaluation function indicated by symbol 69 is different from the evaluation function indicated by symbols 64 and 65 in the data set used for obtaining the evaluation function. In the upper node (node A), an evaluation function is obtained using information on proteins belonging to a predetermined upper classification (node A) and information on arbitrary proteins as a data set. On the other hand, in the lower node (node A-1), information on the protein belonging to the lower classification (node A-1) and information on the related protein (belonging to node A but not belonging to node A-1) Get the evaluation function using. In the embodiment, the evaluation function included in the symbol 69 is expressed as a global model, and the evaluation function included in the symbols 64 and 65 is expressed as a local model.

以下に説明する相互作用解析処理は、上位ノードにおけるグローバルモデルと下位ノードにおけるローカルモデルとを組み合わせて実行する点を一つの特徴としている。より具体的には、グローバルモデルとローカルモデルとは、利用するデータセットが異なる。したがって、グローバルモデルによって広い比較対象範囲における解析対象の分類ノードを絞り込むことができ、かつ、ローカルモデルによって近傍の比較対象との差異を有意に識別可能にしたうえで解析対象の分類ノードを特定することができる。言い換えると本実施形態は、解析対象の機能特徴および/または構造特徴の「共通性」を考慮した解析(グローバルモデル)、および、解析対象の機能特徴および/または構造特徴の「差異」を考慮した解析(ローカルモデル)の両方による網羅的な相互作用解析を行う点を一つの特徴としている。上位ノードにおけるグローバルモデルと下位ノードにおけるローカルモデルとの組み合わせによる解析処理の有効性の検証結果は、例えば上記「2.解析処理方法の検証」の項目において説明したとおりである。   One feature of the interaction analysis processing described below is that the global model in the upper node and the local model in the lower node are executed in combination. More specifically, the global model and the local model use different data sets. Therefore, it is possible to narrow down the classification nodes of the analysis target in the wide comparison target range by the global model, and specify the classification node of the analysis target after making the difference from the comparison target of the neighborhood comparatively significant by the local model. be able to. In other words, in the present embodiment, analysis (global model) in consideration of “commonality” of functional features and / or structural features to be analyzed, and “difference” in functional features and / or structural features to be analyzed are considered. One feature is that comprehensive interaction analysis is performed by both analysis (local model). The verification result of the effectiveness of the analysis processing by the combination of the global model in the upper node and the local model in the lower node is, for example, as described in the item “2. Verification of analysis processing method”.

5.相互作用解析処理
5−1.第1実施形態
図20は、相互作用解析装置500のCPU10が実行する、第1実施形態としての相互作用解析処理プログラムのフローチャートである。装置500は、(1)化合物に相互作用する蛋白質の予測、(2)蛋白質に相互作用する化合物の予測、(3)化合物と蛋白質との間の相互作用に関する予測、のそれぞれの処理を実行可能である。以下、例示として(2)蛋白質に相互作用する化合物の予測、を説明する。その他の(1)化合物に相互作用する蛋白質の予測、および(3)化合物と蛋白質との間の相互作用に関する予測も同様の処理によって実行可能である。
5). Interaction analysis processing 5-1. First Embodiment FIG. 20 is a flowchart of an interaction analysis processing program as a first embodiment executed by the CPU 10 of the interaction analysis apparatus 500. The apparatus 500 can execute (1) prediction of a protein that interacts with a compound, (2) prediction of a compound that interacts with a protein, and (3) prediction of an interaction between a compound and a protein. It is. Hereinafter, as an example, (2) prediction of a compound that interacts with a protein will be described. Other (1) prediction of the protein interacting with the compound and (3) prediction regarding the interaction between the compound and the protein can be performed by the same processing.

装置500のCPU10は、装置のユーザによるキーボード/マウス18の操作を介して、解析対象である蛋白質の機能特徴および/または構造特徴に関するデータの入力を受け付ける(図20のステップS201)。実施形態では入力データの例示として、アミノ酸配列を数値化した構造特徴データが入力される。CPU10は、階層N(初期値=1)の分類ノードにおける評価関数によって分類ノードに対する解析対象の帰属の有無を解析する(S203)。具体的にはCPU10は、上位分類ノードの評価関数に対して、入力された構造特徴データを説明変数(X)としてノードへの帰属の有無(Y)を演算する。評価関数は、例えば図18、19に示すノードAの評価関数(グローバルモデル)である(図19の記号69参照)。解析対象が上位分類ノードに帰属しなければ、CPU10は処理を終了する。   The CPU 10 of the apparatus 500 receives input of data relating to the functional characteristics and / or structural characteristics of the protein to be analyzed through the operation of the keyboard / mouse 18 by the user of the apparatus (step S201 in FIG. 20). In the embodiment, as an example of input data, structural feature data obtained by digitizing an amino acid sequence is input. The CPU 10 analyzes the presence / absence of the analysis object belonging to the classification node by the evaluation function in the classification node of the hierarchy N (initial value = 1) (S203). Specifically, the CPU 10 calculates the presence / absence (Y) of belonging to the node using the input structural feature data as the explanatory variable (X) for the evaluation function of the higher class node. The evaluation function is, for example, the evaluation function (global model) of node A shown in FIGS. 18 and 19 (see symbol 69 in FIG. 19). If the analysis target does not belong to the higher class node, the CPU 10 ends the process.

解析対象が上位分類ノードに帰属すると解析された場合には、CPU10は、階層N+1の各分類ノードに対する解析対象の帰属の有無を解析する(S205)。具体的にはCPU10は、下位分類ノードの評価関数に対して、入力された構造特徴データを説明変数(X)としてノードへの帰属の有無(Y)を演算する。評価関数は、例えば図18、19に示すノードA−1、A−2、・・・A−Nの評価関数(ローカルモデル)である(図19の記号64、65参照)。   When it is analyzed that the analysis target belongs to the higher class node, the CPU 10 analyzes whether the analysis target belongs to each classification node of the hierarchy N + 1 (S205). Specifically, the CPU 10 calculates the presence / absence (Y) of belonging to the node using the input structural feature data as the explanatory variable (X) for the evaluation function of the lower classification node. The evaluation function is, for example, an evaluation function (local model) of nodes A-1, A-2,..., A-N shown in FIGS.

CPU10は、階層N+1が最下位階層(最下位分類ノード)であるか否かを判断する(S207)。最下位階層でないと判断した場合には、CPU10は、NをN+1として(S209)、解析対象が帰属すると解析された分類ノードよりもさらに下位の分類ノードに対してステップS205からの処理を繰り返す。ステップS207の処理において最下位階層であると判断した場合には、CPU10は、分類ノードの解析結果をディスプレイ20に出力して処理を終了する(S211)。   The CPU 10 determines whether or not the hierarchy N + 1 is the lowest hierarchy (lowest classification node) (S207). If the CPU 10 determines that it is not the lowest hierarchy, the CPU 10 sets N to N + 1 (S209), and repeats the processing from step S205 to a classification node further lower than the classification node analyzed when the analysis target belongs. If it is determined in step S207 that it is the lowest hierarchy, the CPU 10 outputs the analysis result of the classification node to the display 20 and ends the process (S211).

以上のように、CPU10は、解析対象の構造特徴データを上位ノードのグローバルモデルに適用し、さらに下位ノードのローカルモデルに順番に適用していく。この結果、CPU10は、解析対象が帰属する分類ノード、すなわち、解析対象としての蛋白質と構造特徴および/または機能特徴が類似する蛋白質(または蛋白質群)を出力する。   As described above, the CPU 10 applies the structural feature data to be analyzed to the global model of the upper node, and further sequentially applies it to the local model of the lower node. As a result, the CPU 10 outputs a classification node to which the analysis target belongs, that is, a protein (or protein group) having a similar structural feature and / or functional feature to the protein to be analyzed.

実施形態では、分類ノードへの帰属の解析結果を0または1のバイナリ値で表現する例を示した(図19参照)。その他の実施形態では、分類ノードへの帰属の解析結果をスコア値で表現してもよい。スコア値で表現する場合、例えば解析対象が帰属する最下位の分類ノードのスコア値だけではなく、解析対象が帰属する上位分類ノードから下位分類ノードまでの全て(または一部)の分類ノードでのスコア値を反映させた情報を出力してもよい。例えば、解析結果として、帰属する全ての分類ノードでのスコア値の平均値を表示したり、全ての分類ノードでのスコア値を乗じた値を表示することもできる。全ての分類ノードでのスコア値を乗じた値とは、例えば上位分類ノードでのスコア値「0.8」、下位分類ノードでのスコア値「0.7」の場合には、解析対象がその下位分類ノードに帰属するスコア値として「0.56」(=0.8×0.7)を表示する。スコア値で表現する場合、CPU10は、所定の閾値(例えば0.5)以上のレコード(分類ノード、または該当ツリー)を抽出して出力することもできる。   In the embodiment, an example in which an analysis result of attribution to a classification node is expressed by a binary value of 0 or 1 is shown (see FIG. 19). In other embodiments, the analysis result of the attribution to the classification node may be expressed by a score value. When expressing with a score value, for example, not only the score value of the lowest classification node to which the analysis object belongs, but also all (or a part) of classification nodes from the upper classification node to the lower classification node to which the analysis object belongs. Information reflecting the score value may be output. For example, as an analysis result, an average value of score values at all belonging classification nodes can be displayed, or a value obtained by multiplying score values at all classification nodes can be displayed. The value obtained by multiplying the score values at all the classification nodes is, for example, the score value “0.8” at the higher classification node and the score value “0.7” at the lower classification node, the analysis target is “0.56” (= 0.8 × 0.7) is displayed as the score value belonging to the lower classification node. In the case of expressing with a score value, the CPU 10 can also extract and output a record (classification node or corresponding tree) having a predetermined threshold value (for example, 0.5) or more.

図3は、ステップ211の処理によって出力される解析結果の画面構成の一例を示す。図3の内容は、上記「1−2.インターフェイス」の項目で説明した。図3に例示するように、分類ノードの解析結果は、解析対象が帰属すると予測された最下層の分類ノードだけでなく、その分類ノードを含む上位の分類ノードも併せたうえでツリー構造として表示する。したがって、装置のユーザは、解析対象がどの分類ノードに帰属するかという解析結果を、ツリー構造全体(または一部)の中での位置づけとして把握することができる。例えば、ある枝では帰属する最下位の分類ノードが体系的分類データベース900の最下層から3番目であり、別の枝では帰属する最下位の分類ノードが最下層から2番目という相違がある場合等には、ツリー構造の表示によってそれら複数の分類ノードの階層の違い等を容易に把握することできる。その他の実施形態として、CPU10は、上述のスコア値をそれら複数の分類ノードに割り当てて表示することができる(図示せず)。   FIG. 3 shows an example of the screen configuration of the analysis result output by the processing in step 211. The contents of FIG. 3 have been described in the above item “1-2. Interface”. As illustrated in FIG. 3, the analysis result of the classification node is displayed as a tree structure in addition to not only the lowest classification node to which the analysis target is predicted but also the higher classification node including the classification node. To do. Therefore, the user of the apparatus can grasp the analysis result indicating to which classification node the analysis target belongs as a position in the entire tree structure (or a part). For example, there is a difference that the lowest class node belonging to a certain branch is the third lowest from the lowest layer of the systematic classification database 900 and the lowest class node belonging to the other branch is the second lowest from the lowest. Therefore, it is possible to easily grasp the difference in the hierarchy of the plurality of classification nodes by displaying the tree structure. As another embodiment, the CPU 10 can assign the above score values to the plurality of classification nodes and display them (not shown).

5−2.第2実施形態
第1実施形態では、解析対象としての蛋白質と構造特徴および/または機能特徴が類似する蛋白質(または蛋白質群)を出力する例、およびその出力方法を説明した。CPU10は、構造特徴および/または機能特徴が類似する蛋白質(または蛋白質群)の情報に基づいて、その蛋白質(または蛋白質群)と相互作用する化合物の情報を出力することができる。以下の説明では、そのような相互作用情報を出力する例を第2実施形態として説明する。
5-2. Second Embodiment In the first embodiment, an example of outputting a protein (or a protein group) having similar structural characteristics and / or functional characteristics to a protein to be analyzed and an output method thereof have been described. The CPU 10 can output information on a compound that interacts with the protein (or protein group) based on information on a protein (or protein group) having similar structural characteristics and / or functional characteristics. In the following description, an example in which such interaction information is output will be described as a second embodiment.

図21は、相互作用解析装置500のCPU10が実行する、第2実施形態としての相互作用解析処理プログラムのフローチャートである。第2実施形態と第1実施形態とは、図20のステップS211の処理までが共通する。   FIG. 21 is a flowchart of the interaction analysis processing program as the second embodiment, which is executed by the CPU 10 of the interaction analysis apparatus 500. The second embodiment and the first embodiment are common to the processing up to step S211 in FIG.

CPU10は、図20のステップS211の処理の後、解析対象が帰属する各階層の分類ノードの情報を解析し、「分類ノード解析結果」としてメモリ12等に記録する(ステップS301)。分類ノードの情報の解析には、例えば上述したスコア値の割り当て、または閾値による分類ノードの抽出等も含まれる。CPU10は、分類ノード解析結果に基づいて、解析対象が帰属すると判定された枝の最下層に相当する分類ノードに帰属する蛋白質のIDを「候補ID」としてメモリ12等に記録する(S303)。具体的には、CPU10は、図18に例示する体系的分類データベース900を参照し、分類ノード解析結果に含まれる「ノード番号」に対応する「蛋白質ID」を「候補ID」として取得する。CPU10は、蛋白質データベース600、相互作用データベース800、化合物データベース700のそれぞれを参照することにより、「候補ID」によって特定される蛋白質と相互作用する化合物の情報を「相互作用候補情報」としてメモリ12等に記録する(S305)。例えば候補IDが「P001」であった場合、CPU10は、相互作用データベース800(図17参照)に基づいて「P001」と相互作用する化合物「C005」を取得し、化合物データベース700(図16参照)に基づいてその「C005」に関する情報を「相互作用候補情報」として取得する。CPU10は、相互作用候補情報をディスプレイ20に出力して処理を終了する(S307)。   After the process of step S211 in FIG. 20, the CPU 10 analyzes the information of the classification node of each hierarchy to which the analysis target belongs, and records it as “classification node analysis result” in the memory 12 or the like (step S301). The analysis of classification node information includes, for example, the above-described assignment of score values, or extraction of classification nodes based on threshold values. Based on the classification node analysis result, the CPU 10 records the ID of the protein belonging to the classification node corresponding to the lowest layer of the branch to which the analysis target belongs as “candidate ID” in the memory 12 or the like (S303). Specifically, the CPU 10 refers to the systematic classification database 900 illustrated in FIG. 18 and acquires “protein ID” corresponding to “node number” included in the classification node analysis result as “candidate ID”. The CPU 10 refers to each of the protein database 600, the interaction database 800, and the compound database 700, so that information on the compound that interacts with the protein specified by the “candidate ID” is stored as “interaction candidate information” in the memory 12 and the like. (S305). For example, when the candidate ID is “P001”, the CPU 10 acquires the compound “C005” that interacts with “P001” based on the interaction database 800 (see FIG. 17), and the compound database 700 (see FIG. 16). Based on the information, information on “C005” is acquired as “interaction candidate information”. CPU10 outputs interaction candidate information to the display 20, and complete | finishes a process (S307).

図22Aおよび図22Bは、第2実施形態によって出力される画面表示例である。図22Aは、解析対象として化合物の情報が入力された場合に、その化合物と相互作用すると予測される蛋白質の情報が表示された画面例である。図22Bは、解析対象として蛋白質の情報が入力された場合に、その化合物と相互作用すると予測される化合物の情報が表示された画面例である。   22A and 22B are screen display examples output by the second embodiment. FIG. 22A is an example of a screen on which information on a protein that is predicted to interact with a compound when the information on the compound is input as an analysis target is displayed. FIG. 22B is an example of a screen on which information on a compound predicted to interact with the compound when protein information is input as an analysis target is displayed.

第2実施形態では、CPU10は、図20のステップS211の出力処理(出力例として図3参照)に加えて、図21のステップS307の出力処理(出力例として22参照)を実行する。その他の実施形態として、図20のステップS211の出力処理を省略することができる。また、第2実施形態による解析結果の出力として、上述した図3に例示するツリー構造と対応づけた相互作用候補情報の表示を採用することができる。具体的には、図3に例示するツリー構造の分類ノード付近に、その分類ノードに帰属する蛋白質(または化合物)に相互作用する化合物(または蛋白質)を併せて表示する。   In the second embodiment, the CPU 10 executes the output process (see 22 as an output example) in step S307 in FIG. 21 in addition to the output process (see FIG. 3 as an output example) in step S211 in FIG. As another embodiment, the output process in step S211 in FIG. 20 can be omitted. In addition, as the output of the analysis result according to the second embodiment, it is possible to employ display of interaction candidate information associated with the tree structure illustrated in FIG. 3 described above. Specifically, a compound (or protein) that interacts with a protein (or compound) belonging to the classification node is also displayed near the classification node in the tree structure illustrated in FIG.

6.その他の実施形態
6−1.システム構成
実施形態では、本発明のシステムまたは方法の実施形態として、相互作用解析装置500を例示した。本発明の方法は、スタンドアローン型の通常のアプリケーションソフトウェアとして使用することもできる。その他の実施形態として、以下の例が挙げられる。
6). Other Embodiments 6-1. System Configuration In the embodiment, the interaction analysis apparatus 500 is illustrated as an embodiment of the system or method of the present invention. The method of the present invention can also be used as a stand-alone normal application software. Other embodiments include the following examples.

(1)クライアント・サーバ型
本発明のシステムまたは方法の実施形態として、相互作用解析装置500と同様の処理を実行するサーバ装置と、解析対象に関するデータを送信する処理および解析結果を受信する処理(図20のステップS201、S211参照)を実行するクライアントコンピュータとの組み合わせ(クライアント・サーバ型)を採用してもよい。クライアント・サーバ型として、例えばローカルエリアネットワーク(LAN)によって接続したシステム、ASP(Application Service Provider)サービスによるシステムが含まれる。
(1) Client / Server Type As an embodiment of the system or method of the present invention, a server device that executes processing similar to that of the interaction analysis device 500, processing for transmitting data related to an analysis target, and processing for receiving analysis results ( A combination (client / server type) with a client computer that executes steps S201 and S211 in FIG. 20 may be employed. Examples of the client / server type include a system connected by a local area network (LAN) and a system using an ASP (Application Service Provider) service.

(2)モジュール型
本発明のシステムまたは方法を、アミノ酸配列解析ソフトウェア、化学構造解析ソフトウェアに機能をアドオンするモジュールとして採用することもできる。その他、本発明のシステムまたは方法を、蛋白質データベース(例えば、PDB、FAMSBASE)、化学構造式データベース(例えば、ISISBase(商標)やAccord for Excel(商標))に機能をアドオンするモジュールとして適用することもできる。
(2) Module type The system or method of the present invention can also be employed as a module for adding functions to amino acid sequence analysis software and chemical structure analysis software. In addition, the system or method of the present invention may be applied as a module for adding a function to a protein database (for example, PDB, FAMSBASE) or a chemical structural formula database (for example, ISISBase (trademark) or Accel for Excel (trademark)). it can.

実施形態では、本発明のシステムまたは方法の実施形態として、相互作用解析装置500を例示した。その他の実施形態として、Personal Digital Assistant(PDA)等のその他の機器を利用してもよい。   In the embodiment, the interaction analysis apparatus 500 is illustrated as an embodiment of the system or method of the present invention. As other embodiments, other devices such as a Personal Digital Assistant (PDA) may be used.

6−2.プログラム実行方法
本実施形態では、CPU10の動作のためのプログラムをハードディスク22に記憶させているが、このプログラムは、プログラムが記憶されたCD−ROMから読み出してハードディスク等にインストールすればよい。また、CD−ROM以外に、DVD−ROM、フレキシブルディスク(FD)、ICカード等のプログラムをコンピュータ可読の記録媒体からインストールするようにしてもよい。さらに、通信回線を用いてプログラムをダウンロードさせることもできる。また、CD−ROMからプログラムをインストールすることにより、CD−ROMに記憶させたプログラムを間接的にコンピュータに実行させるようにするのではなく、CD−ROMに記憶させたプログラムを直接的に実行するようにしてもよい。
6-2. Program Execution Method In this embodiment, a program for operating the CPU 10 is stored in the hard disk 22, but this program may be read from a CD-ROM storing the program and installed in the hard disk or the like. In addition to the CD-ROM, programs such as a DVD-ROM, a flexible disk (FD), and an IC card may be installed from a computer-readable recording medium. Further, the program can be downloaded using a communication line. Also, by installing the program from the CD-ROM, the program stored in the CD-ROM is not directly executed by the computer, but the program stored in the CD-ROM is directly executed. You may do it.

なお、コンピュータによって、実行可能なプログラムとしては、そのままインストールするだけで直接実行可能なものはもちろん、一旦他の形態等に変換が必要なもの(例えば、データ圧縮されているものを解凍する等)、さらには、他のモジュール部分と組合して実行可能なものも含む。   Note that programs that can be executed by a computer are not only those that can be directly executed by simply installing them, but also those that need to be converted to other forms once (for example, those that have been compressed). In addition, those that can be executed in combination with other module parts are also included.

上記各実施形態では、図12の各機能をCPUおよびプログラムによって実現することとしているが、各機能の一部または全部をハードウェアロジック(論理回路)によって構成してもよい。   In each of the above embodiments, each function of FIG. 12 is realized by a CPU and a program, but a part or all of each function may be configured by hardware logic (logic circuit).

以上、本発明の概要および本発明の好適な実施形態を説明したが、各用語は、限定のために用いたのではなく説明のために用いたのであって、本発明に関連する技術分野の当業者は、本発明の説明の範囲内でのシステム、装置、及び方法のその他の変形を認め実行することができる。したがって、そのような変形は、本発明の範囲内に入るものとみなされる。   The summary of the present invention and the preferred embodiments of the present invention have been described above. However, the terms are used for explanation rather than for limitation, and are used in the technical field related to the present invention. Those skilled in the art can recognize and implement other variations of the systems, devices, and methods within the scope of the present description. Accordingly, such variations are considered to fall within the scope of the present invention.

任意の蛋白質(群)に対するTarget Libraryデザイン、任意の蛋白質群に対するマルチまたは選択的ドラッグデザイン、任意の化合物(群)に対するリバースプロテオミクス支援、任意の化合物(群)に対する毒性および/または副作用予測、任意の蛋白質および化合物間の相互作用予測、各種ネットワークモデル(疾患、副作用、毒性等)に対する入力情報の提供に有用である。一連の操作は自動化させることができ、データベースの拡充に伴い(市販DB、自社薬理評価結果、リバースプロテオミクス情報等)、随時モデルは更新され精本データベースの質および予測の精度の向上が測られる。一方、DNAチップ解析やプロテオーム研究およびそれらの情報を統合したネットワークモデル等による疾患と生体内因子との関係情報と組み合わせることにより、化合物と疾患との関係付けにまで発展させることを指向する。
Target Library design for any protein (s), multi- or selective drug design for any protein (s), reverse proteomic support for any compound (s), toxicity and / or side effect prediction for any compound (s), any It is useful for predicting interactions between proteins and compounds and providing input information for various network models (diseases, side effects, toxicity, etc.). A series of operations can be automated, and as the database is expanded (commercial DB, in-house pharmacological evaluation results, reverse proteomics information, etc.), the model is updated from time to time to improve the quality of the fine copy database and the accuracy of prediction. On the other hand, by combining with information on the relationship between diseases and in vivo factors, such as DNA chip analysis, proteome research, and network models that integrate such information, we aim to develop the relationship between compounds and diseases.

Claims (14)

蛋白質のアミノ酸配列情報、機能および/または構造の類似性により体系的に分類された蛋白質のアミノ酸配列情報、化合物の構造情報および蛋白質と化合物の相互作用情報が相互に関連づけられているデータに基づき、任意の蛋白質と化合物間の相互作用を予測する方法。   Based on protein amino acid sequence information, protein amino acid sequence information systematically classified by function and / or structural similarity, compound structure information, and data that correlates protein and compound interaction information, A method for predicting the interaction between any protein and compound. 任意の蛋白質と任意の化合物間の相互作用を予測する方法において、
(a)該蛋白質および、該蛋白質と機能および/または構造的に類似した蛋白質群に対して相互作用する化合物群を、任意の化合物群に対して識別し得る構造活性相関モデルと、
(b)該蛋白質および、該蛋白質と機能および/または構造的に類似した蛋白質群に対して相互作用する化合物群の中から、該蛋白質に相互作用する化合物群を識別し得る構造活性相関モデルとを組み合わせて予測する方法。
In a method for predicting the interaction between any protein and any compound,
(A) a structure-activity relationship model capable of discriminating, with respect to an arbitrary compound group, a compound group that interacts with the protein and a protein group that is functionally and / or structurally similar to the protein;
(B) a structure-activity relationship model capable of discriminating a group of compounds interacting with the protein from a group of compounds interacting with the protein and a protein group that is functionally and / or structurally similar to the protein; A method of predicting by combining.
任意の蛋白質と任意の化合物間の相互作用を予測する方法において、アミノ酸配列情報の機能および/または構造の類似性による体系的な分類に基づき、
(a)該蛋白質が属する最上位の分類項目に属する蛋白質群に対して相互作用する化合物群を、任意の化合物群に対して識別し得る構造活性相関モデルと、
(b)該蛋白質が属する最上位の分類項目より下位の各分類項目において、該蛋白質が属する分類項目に属する蛋白質群に対して相互作用する化合物群を、該蛋白質と共通の親分類項目を有する子分類項目に属する蛋白質群に対して相互作用する化合物群に対して識別し得る構造活性モデルとを組み合わせて予測する方法。
In a method for predicting the interaction between an arbitrary protein and an arbitrary compound, based on systematic classification according to the function and / or structural similarity of amino acid sequence information,
(A) a structure-activity relationship model that can identify a compound group that interacts with a protein group belonging to the highest classification item to which the protein belongs to any compound group;
(B) a compound group that interacts with a protein group belonging to the classification item to which the protein belongs in each classification item lower than the highest classification item to which the protein belongs has a common parent classification item with the protein A method of predicting by combining with a structure activity model that can be identified for a compound group that interacts with a protein group belonging to a child classification item.
請求項1〜3に記載された方法をコンピュータに実行させることを特徴とするコンピュータ読み取り可能なプログラム。   A computer-readable program for causing a computer to execute the method according to claim 1. 蛋白質のアミノ酸配列情報、機能および/または構造の類似性により体系的に分類された蛋白質のアミノ酸配列情報、化合物の構造情報および蛋白質と化合物の相互作用情報が相互に関連づけられているデータに基づき、任意の蛋白質と化合物間の相互作用を予測するシステム。    Based on protein amino acid sequence information, protein amino acid sequence information systematically classified by function and / or structural similarity, compound structure information, and data that correlates protein and compound interaction information, A system that predicts the interaction between any protein and compound. 任意の蛋白質と任意の化合物間の相互作用を予測するシステムにおいて、
(a)該蛋白質および、該蛋白質と機能および/または構造的に類似した蛋白質群に対して相互作用する化合物群を、任意の化合物群に対して識別し得る構造活性相関モデルと、
(b)該蛋白質および、該蛋白質と機能および/または構造的に類似した蛋白質群に対して相互作用する化合物群の中から、該蛋白質に相互作用する化合物群を識別し得る構造活性相関モデルとを組み合わせて予測するシステム。
In a system that predicts the interaction between any protein and any compound,
(A) a structure-activity relationship model capable of discriminating, with respect to an arbitrary compound group, a compound group that interacts with the protein and a protein group that is functionally and / or structurally similar to the protein;
(B) a structure-activity relationship model capable of discriminating a group of compounds interacting with the protein from a group of compounds interacting with the protein and a protein group that is functionally and / or structurally similar to the protein; System that predicts by combining.
任意の蛋白質と任意の化合物間の相互作用を予測するシステムにおいて、アミノ酸配列情報の機能および/または構造の類似性による体系的な分類に基づき、
(a)該蛋白質が属する最上位の分類項目に属する蛋白質群に対して相互作用する化合物群を、任意の化合物群に対して識別し得る構造活性相関モデルと、
(b)該蛋白質が属する最上位の分類項目より下位の各分類項目において、該蛋白質が属する分類項目に属する蛋白質群に対して相互作用する化合物群を、該蛋白質と共通の親分類項目を有する子分類項目に属する蛋白質群に対して相互作用する化合物群に対して識別し得る構造活性モデルとを組み合わせて予測するシステム。
In a system for predicting the interaction between any protein and any compound, based on systematic classification by amino acid sequence information function and / or structural similarity,
(A) a structure-activity relationship model that can identify a compound group that interacts with a protein group belonging to the highest classification item to which the protein belongs to any compound group;
(B) a compound group that interacts with a protein group belonging to the classification item to which the protein belongs in each classification item lower than the highest classification item to which the protein belongs has a common parent classification item with the protein A system that predicts in combination with a structure activity model that can identify a group of compounds that interact with a group of proteins belonging to a child category.
機能および/または構造が類似する蛋白質を予測する予測システムであって、
前記予測システムは、
(a)蛋白質の機能特徴および/または構造特徴の分類を示す第1分類に属する第1分類蛋白質の情報と、当該第1分類に属さない非第1分類蛋白質の情報とを記録する第1記録手段、
(b)前記第1記録手段に記録される第1分類蛋白質の中から選択される、前記第1分類よりも小概念である機能特徴および/または構造特徴の分類を示す第2分類に属する第2分類蛋白質の情報と、前記第1分類に属するが当該第2分類に属さない非第2分類蛋白質とを記録する第2記録手段、
(c)予測対象蛋白質の機能特徴および/または構造特徴を示す予測対象情報を取得する取得手段、
(d)前記取得手段が取得した予測対象情報と前記第1記録手段に記録された情報とに基づいて、前記非第1分類蛋白質との比較における、前記予測対象蛋白質と前記第1分類蛋白質との類似性を解析する第1解析手段、
(e)前記第1解析手段によって前記予測対象蛋白質が前記第1分類蛋白質に類似すると解析された場合には、さらに、前記予測対象情報と前記第2記録手段に記録された情報とに基づいて、前記非第2分類蛋白質との比較における、前記予測対象蛋白質と前記第2分類蛋白質との類似性を解析する第2解析手段、
(f)前記第1解析手段および第2解析手段による解析結果に基づいて、前記予測対象蛋白質と機能特徴および/または構造特徴が類似する蛋白質の情報を出力する出力手段、
を備えた予測システム。
A prediction system for predicting proteins of similar function and / or structure,
The prediction system is
(A) a first record for recording information on a first class protein belonging to the first class indicating a classification of functional and / or structural features of the protein and information on a non-first class protein not belonging to the first class means,
(B) a second class belonging to a second class indicating a class of functional features and / or structural features which are selected from the first class proteins recorded in the first recording means and which are sub-concepts of the first class. Second recording means for recording information on two-class protein and non-second-class protein belonging to the first class but not belonging to the second class;
(C) acquisition means for acquiring prediction target information indicating the functional characteristics and / or structural characteristics of the prediction target protein;
(D) Based on the prediction target information acquired by the acquisition means and the information recorded in the first recording means, the prediction target protein and the first classification protein in the comparison with the non-first classification protein A first analysis means for analyzing the similarity of
(E) When it is analyzed by the first analysis means that the protein to be predicted is similar to the first classification protein, further, based on the information to be predicted and information recorded in the second recording means A second analysis means for analyzing the similarity between the protein to be predicted and the second classification protein in comparison with the non-second classification protein;
(F) an output means for outputting information on a protein having a functional feature and / or a structural feature similar to those of the prediction target protein, based on the analysis results by the first analysis means and the second analysis means;
Prediction system with
前記予測システムの前記(a)第1記録手段に記録される蛋白質の情報および/または(b)第2記録手段に記録される蛋白質の情報は、当該蛋白質と相互作用する化合物の情報と対応づけられており、
前記予測システムは、さらに、
(g)前記蛋白質と相互作用する化合物の情報と、前記(d)第1解析手段および/または(e)第2解析手段によって解析された前記予測対象蛋白質に類似する蛋白質の情報とに基づいて、当該予測対象蛋白質と相互作用すると予測される化合物の情報を解析する相互作用情報解析手段、
を備えており、
前記(f)出力手段は、
前記予測対象蛋白質と機能特徴および/または構造特徴が類似する蛋白質の情報、および/または前記相互作用情報解析手段によって解析された化合物の情報を出力する、
請求項8の予測システム。
The (a) protein information recorded in the first recording means and / or (b) the protein information recorded in the second recording means of the prediction system is associated with the information of the compound that interacts with the protein. And
The prediction system further includes:
(G) Based on information on a compound that interacts with the protein and information on a protein similar to the protein to be predicted analyzed by (d) the first analysis means and / or (e) the second analysis means. , An interaction information analysis means for analyzing information of a compound predicted to interact with the protein to be predicted,
With
The (f) output means includes:
Outputting information on a protein having functional characteristics and / or structural characteristics similar to the protein to be predicted, and / or information on a compound analyzed by the interaction information analysis means,
The prediction system of claim 8.
前記(f)出力手段は、
前記第2解析手段による解析結果としての前記蛋白質および/または当該蛋白質と相互作用する化合物の情報に加えて、当該第2分類よりも大概念である、前記第1解析手段による解析結果としての前記蛋白質および/または当該蛋白質と相互作用する化合物の情報を併せて出力する、
請求項8または9の予測システム。
The (f) output means includes:
In addition to the information on the protein and / or the compound that interacts with the protein as the analysis result by the second analysis means, the concept as the analysis result by the first analysis means, which is a larger concept than the second classification. Outputs information on protein and / or compound that interacts with the protein.
The prediction system according to claim 8 or 9.
機能および/または構造が類似する蛋白質を予測する予測システムであって、
前記予測システムは、
(a)蛋白質の機能特徴および/または構造特徴の分類を示す第1分類に属する第1分類蛋白質の情報と、当該第1分類に属さない非第1分類蛋白質の情報とを記録する第1記録装置、
(b)前記第1記憶装置に記録される第1分類蛋白質の中から選択される、前記第1分類よりも小概念である機能特徴および/または構造特徴の分類を示す第2分類に属する第2分類蛋白質の情報と、前記第1分類に属するが当該第2分類に属さない非第2分類蛋白質とを記録する第2記録装置、
を備え、
前記予測システムのCentral Processing Unit(CPU)は、
(c)予測対象蛋白質の機能特徴および/または構造特徴を示す予測対象情報を取得し、
(d)前記取得した予測対象情報と前記第1記録装置に記録された情報とに基づいて、前記非第1分類蛋白質との比較における、前記予測対象蛋白質と前記第1分類蛋白質との類似性を解析し、
(e)前記予測対象蛋白質が前記第1分類蛋白質に類似すると解析された場合には、さらに、前記予測対象情報と前記第2記録装置に記録された情報とに基づいて、前記非第2分類蛋白質との比較における、前記予測対象蛋白質と前記第2分類蛋白質との類似性を解析し、
(f)前記解析結果に基づいて、前記予測対象蛋白質と機能特徴および/または構造特徴が類似する蛋白質の情報を表示装置に出力すること、
を特徴とする予測システム。
A prediction system for predicting proteins of similar function and / or structure,
The prediction system is
(A) a first record for recording information on a first class protein belonging to the first class indicating a classification of functional and / or structural features of the protein and information on a non-first class protein not belonging to the first class apparatus,
(B) a second class belonging to a second class indicating a class of functional features and / or structural features selected from the first class proteins recorded in the first storage device and having a concept smaller than the first class. A second recording device for recording information on two-class protein and non-second-class protein belonging to the first class but not the second class;
With
The central processing unit (CPU) of the prediction system is
(C) obtaining prediction target information indicating the functional characteristics and / or structural characteristics of the prediction target protein;
(D) Similarity between the prediction target protein and the first classification protein in comparison with the non-first classification protein based on the acquired prediction target information and the information recorded in the first recording device Analyze
(E) When it is analyzed that the protein to be predicted is similar to the protein of the first classification, the non-second classification is further performed based on the information to be predicted and information recorded in the second recording device. Analyzing the similarity between the protein to be predicted and the second class protein in comparison with the protein;
(F) based on the analysis result, outputting information about a protein having a functional characteristic and / or a structural characteristic similar to the prediction target protein to a display device;
A prediction system characterized by
コンピュータを、機能および/または構造が類似する蛋白質を予測する予測システムとして機能させるための、コンピュータ読取可能なプログラムであって、
前記プログラムは、前記コンピュータを以下の、
(a)蛋白質の機能特徴および/または構造特徴の分類を示す第1分類に属する第1分類蛋白質の情報と、当該第1分類に属さない非第1分類蛋白質の情報とを記録する第1記録手段、
(b)前記第1記録手段に記録される第1分類蛋白質の中から選択される、前記第1分類よりも小概念である機能特徴および/または構造特徴の分類を示す第2分類に属する第2分類蛋白質の情報と、前記第1分類に属するが当該第2分類に属さない非第2分類蛋白質とを記録する第2記録手段、
(c)予測対象蛋白質の機能特徴および/または構造特徴を示す予測対象情報を取得する取得手段、
(d)前記取得手段が取得した予測対象情報と前記第1記録手段に記録された情報とに基づいて、前記非第1分類蛋白質との比較における、前記予測対象蛋白質と前記第1分類蛋白質との類似性を解析する第1解析手段、
(e)前記第1解析手段によって前記予測対象蛋白質が前記第1分類蛋白質に類似すると解析された場合には、さらに、前記予測対象情報と前記第2記録手段に記録された情報とに基づいて、前記非第2分類蛋白質との比較における、前記予測対象蛋白質と前記第2分類蛋白質との類似性を解析する第2解析手段、
(f)前記第1解析手段および第2解析手段による解析結果に基づいて、前記予測対象蛋白質と機能特徴および/または構造特徴が類似する蛋白質の情報を出力する出力手段、
を備えた予測システムとして機能させるためのプログラム。
A computer-readable program for causing a computer to function as a prediction system for predicting a protein having a similar function and / or structure,
The program causes the computer to
(A) a first record for recording information on a first class protein belonging to the first class indicating a classification of functional and / or structural features of the protein and information on a non-first class protein not belonging to the first class means,
(B) a second class belonging to a second class indicating a class of functional features and / or structural features which are selected from the first class proteins recorded in the first recording means and which are sub-concepts of the first class. Second recording means for recording information on two-class protein and non-second-class protein belonging to the first class but not belonging to the second class;
(C) acquisition means for acquiring prediction target information indicating the functional characteristics and / or structural characteristics of the prediction target protein;
(D) Based on the prediction target information acquired by the acquisition means and the information recorded in the first recording means, the prediction target protein and the first classification protein in the comparison with the non-first classification protein A first analysis means for analyzing the similarity of
(E) When it is analyzed by the first analysis means that the protein to be predicted is similar to the first classification protein, further, based on the information to be predicted and information recorded in the second recording means A second analysis means for analyzing the similarity between the protein to be predicted and the second classification protein in comparison with the non-second classification protein;
(F) an output means for outputting information on a protein having a functional feature and / or a structural feature similar to those of the prediction target protein, based on the analysis results by the first analysis means and the second analysis means;
Program to function as a prediction system with
機能および/または構造が類似する蛋白質(または化合物)を予測する予測システムであって、
前記予測システムは、
(a)蛋白質(または化合物)の機能特徴および/または構造特徴の分類を示す第1分類に属する第1分類蛋白質(または第1分類化合物)の情報と、当該第1分類に属さない非第1分類蛋白質(または非第1分類化合物)の情報とを記録する第1記録手段、
(b)前記第1記録手段に記録される第1分類蛋白質(または第1分類化合物)の中から選択される、前記第1分類よりも小概念である機能特徴および/または構造特徴の分類を示す第2分類に属する第2分類蛋白質(または第2分類化合物)の情報と、前記第1分類に属するが当該第2分類に属さない非第2分類蛋白質(または非第2分類化合物)とを記録する第2記録手段、
(c)予測対象蛋白質(または予測対象化合物)の機能特徴および/または構造特徴を示す予測対象情報を取得する取得手段、
(d)前記取得手段が取得した予測対象情報と前記第1記録手段に記録された情報とに基づいて、前記非第1分類蛋白質(または非第1分類化合物)との比較における、前記予測対象蛋白質(または予測対象化合物)と前記第1分類蛋白質(または第1分類化合物)との類似性を解析する第1解析手段、
(e)前記第1解析手段によって前記予測対象蛋白質(または予測対象化合物)が前記第1分類蛋白質(または第1分類化合物)に類似すると解析された場合には、さらに、前記予測対象情報と前記第2記録手段に記録された情報とに基づいて、前記非第2分類蛋白質(または非第2分類化合物)との比較における、前記予測対象蛋白質(または予測対象化合物)と前記第2分類蛋白質(または第2分類化合物)との類似性を解析する第2解析手段、
(f)前記第1解析手段および第2解析手段による解析結果に基づいて、前記予測対象蛋白質(または予測対象化合物)と機能特徴および/または構造特徴が類似する蛋白質(または化合物)の情報を出力する出力手段、
を備えた予測システム。
A prediction system that predicts proteins (or compounds) that are similar in function and / or structure,
The prediction system is
(A) Information on the first class protein (or first class compound) belonging to the first class indicating the classification of the functional characteristics and / or structural characteristics of the protein (or compound), and the non-first that does not belong to the first class First recording means for recording information on classified proteins (or non-first classified compounds);
(B) a functional feature and / or structural feature classification selected from the first classification proteins (or first classification compounds) recorded in the first recording means and having a concept smaller than the first classification; Information of a second class protein (or second class compound) belonging to the second class shown, and a non-second class protein (or non-second class compound) belonging to the first class but not belonging to the second class Second recording means for recording,
(C) an acquisition means for acquiring prediction target information indicating a functional characteristic and / or a structural characteristic of a prediction target protein (or prediction target compound);
(D) The prediction target in comparison with the non-first classification protein (or non-first classification compound) based on the prediction target information acquired by the acquisition means and the information recorded in the first recording means First analysis means for analyzing the similarity between a protein (or a prediction target compound) and the first class protein (or first class compound);
(E) When the first analysis means analyzes that the prediction target protein (or prediction target compound) is similar to the first classification protein (or first classification compound), the prediction target information and the Based on the information recorded in the second recording means, in the comparison with the non-second classification protein (or non-second classification compound), the prediction target protein (or prediction target compound) and the second classification protein ( Or a second analysis means for analyzing the similarity with the second classification compound),
(F) Based on the analysis results by the first analysis means and the second analysis means, information on a protein (or compound) having a functional characteristic and / or a structural characteristic similar to the prediction target protein (or prediction target compound) is output. Output means,
Prediction system with
機能および/または構造が類似する蛋白質を予測する予測方法であって、
前記予測方法は、
(a)蛋白質の機能特徴および/または構造特徴の分類を示す第1分類に属する第1分類蛋白質の情報と、当該第1分類に属さない非第1分類蛋白質の情報とを第1記録手段に記録し、
(b)前記第1記録手段に記録される第1分類蛋白質の中から選択される、前記第1分類よりも小概念である機能特徴および/または構造特徴の分類を示す第2分類に属する第2分類蛋白質の情報と、前記第1分類に属するが当該第2分類に属さない非第2分類蛋白質とを第2記録手段に記録し、
(c)予測対象蛋白質の機能特徴および/または構造特徴を示す予測対象情報を取得し、
(d)前記取得手段が取得した予測対象情報と前記第1記録手段に記録された情報とに基づいて、前記非第1分類蛋白質との比較における、前記予測対象蛋白質と前記第1分類蛋白質との類似性を解析し、
(e)前記予測対象蛋白質と前記第1分類蛋白質との類似性の解析によって前記予測対象蛋白質が前記第1分類蛋白質に類似すると解析された場合には、さらに、前記予測対象情報と前記第2記録手段に記録された情報とに基づいて、前記非第2分類蛋白質との比較における、前記予測対象蛋白質と前記第2分類蛋白質との類似性を解析し、
(f)前記解析結果に基づいて、前記予測対象蛋白質と機能特徴および/または構造特徴が類似する蛋白質の情報を出力する、
予測方法。

A prediction method for predicting proteins having similar functions and / or structures,
The prediction method is:
(A) Information on the first class protein belonging to the first class indicating the classification of the functional characteristics and / or structure characteristics of the protein and information on the non-first class protein not belonging to the first class are used as the first recording means. Record,
(B) a second class belonging to a second class indicating a class of functional features and / or structural features which are selected from the first class proteins recorded in the first recording means and which are sub-concepts of the first class. Record the information on the second class protein and the non-second class protein belonging to the first class but not belonging to the second class in the second recording means;
(C) obtaining prediction target information indicating the functional characteristics and / or structural characteristics of the prediction target protein;
(D) Based on the prediction target information acquired by the acquisition means and the information recorded in the first recording means, the prediction target protein and the first classification protein in the comparison with the non-first classification protein Analyze the similarity of
(E) When it is analyzed that the prediction target protein is similar to the first classification protein by analyzing the similarity between the prediction target protein and the first classification protein, the prediction target information and the second classification protein Based on the information recorded in the recording means, the similarity between the protein to be predicted and the second classification protein in the comparison with the non-second classification protein is analyzed,
(F) Based on the analysis result, information on a protein having functional characteristics and / or structural characteristics similar to those of the prediction target protein is output.
Prediction method.

JP2005516985A 2003-12-26 2004-12-24 System for predicting interaction between compound and protein, system for predicting similar protein or compound, and method thereof Pending JPWO2005069188A1 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2003435659 2003-12-26
JP2003435659 2003-12-26
PCT/JP2004/019404 WO2005069188A1 (en) 2003-12-26 2004-12-24 Compound-protein interaction estimating system

Publications (1)

Publication Number Publication Date
JPWO2005069188A1 true JPWO2005069188A1 (en) 2007-07-26

Family

ID=34791758

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005516985A Pending JPWO2005069188A1 (en) 2003-12-26 2004-12-24 System for predicting interaction between compound and protein, system for predicting similar protein or compound, and method thereof

Country Status (2)

Country Link
JP (1) JPWO2005069188A1 (en)
WO (1) WO2005069188A1 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007105794A1 (en) * 2006-03-15 2007-09-20 Nec Corporation Molecular structure prediction system, method, and program
JP5448447B2 (en) * 2006-05-26 2014-03-19 国立大学法人京都大学 Predict protein-compound interactions and rational design of compound libraries based on chemical genome information
JP5990862B2 (en) * 2012-10-01 2016-09-14 国立研究開発法人科学技術振興機構 Approval prediction device, approval prediction method, and program
CN107977548B (en) * 2017-12-05 2020-04-07 东软集团股份有限公司 Method, device, medium, and electronic device for predicting protein-protein interaction
CN110070909B (en) * 2019-03-21 2022-12-09 中南大学 Deep learning-based multi-feature fusion protein function prediction method

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU1502802A (en) * 2000-10-17 2002-04-29 Applied Research Systems Method of operating a computer system to perform a discrete substructural analysis
JP2003203076A (en) * 2001-12-28 2003-07-18 Celestar Lexico-Sciences Inc Knowledge searching device and method, program and recording medium

Also Published As

Publication number Publication date
WO2005069188A1 (en) 2005-07-28

Similar Documents

Publication Publication Date Title
Muzio et al. Biological network analysis with deep learning
Heumos et al. Best practices for single-cell analysis across modalities
Boulesteix et al. Overview of random forest methodology and practical guidance with emphasis on computational biology and bioinformatics
JP5448447B2 (en) Predict protein-compound interactions and rational design of compound libraries based on chemical genome information
Aittokallio et al. Graph-based methods for analysing networks in cell biology
Ehrlich et al. Maximum common subgraph isomorphism algorithms and their applications in molecular science: a review
Lin et al. Clustering methods in protein-protein interaction network
JP2006323846A (en) Method using network for identifying significant molecule by using high-throughput data analysis
Alakwaa et al. Construction of gene regulatory networks using biclustering and bayesian networks
Wahid et al. Feature selection and classification for gene expression data using novel correlation based overlapping score method via Chou’s 5-steps rule
Hernandez et al. Protein complex prediction via dense subgraphs and false positive analysis
Chen et al. How will bioinformatics impact signal processing research?
R Andersson et al. Quantitative chemogenomics: machine-learning models of protein-ligand interaction
Harbola et al. Bioinformatics and biological data mining
JPWO2005069188A1 (en) System for predicting interaction between compound and protein, system for predicting similar protein or compound, and method thereof
Ihmels et al. Challenges and prospects in the analysis of large-scale gene expression data
De Moor et al. Bioinformatics: Organisms from Venus, technology from Jupiter, algorithms from Mars
Pasquier et al. Mining gene expression data using domain knowledge
Kamal et al. Big DNA datasets analysis under push down automata
Kamal et al. Performance evaluation comparison for detecting DNA structural break through big data analysis.
Hibbs Advanced Bioinformatics Tools and Strategies
Hu Analysis Strategy of Protein–Protein Interaction Networks
KR101709846B1 (en) Method and system for construction of compound network database and drug virtual screening
Sabetian et al. Computer aided analysis of disease linked protein networks
Majhi et al. Artificial Intelligence in Bioinformatics