WO2012093869A2 - Method for predicting location of protein within cell and molecular function of protein for each condition - Google Patents

Method for predicting location of protein within cell and molecular function of protein for each condition Download PDF

Info

Publication number
WO2012093869A2
WO2012093869A2 PCT/KR2012/000118 KR2012000118W WO2012093869A2 WO 2012093869 A2 WO2012093869 A2 WO 2012093869A2 KR 2012000118 W KR2012000118 W KR 2012000118W WO 2012093869 A2 WO2012093869 A2 WO 2012093869A2
Authority
WO
WIPO (PCT)
Prior art keywords
protein
static
predicting
location
feature
Prior art date
Application number
PCT/KR2012/000118
Other languages
French (fr)
Korean (ko)
Other versions
WO2012093869A3 (en
Inventor
이기영
Original Assignee
아주대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020110001976A external-priority patent/KR101310419B1/en
Priority claimed from KR1020110001977A external-priority patent/KR101255437B1/en
Priority claimed from KR1020110001975A external-priority patent/KR101255443B1/en
Application filed by 아주대학교산학협력단 filed Critical 아주대학교산학협력단
Publication of WO2012093869A2 publication Critical patent/WO2012093869A2/en
Publication of WO2012093869A3 publication Critical patent/WO2012093869A3/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Definitions

  • the adhesion score is preferably calculated by any one or more of the similarity of the expression level (expression level) and the similarity of the expression profile pattern between the target protein (or gene) and the neighboring protein (or gene).
  • the static characteristics are selected from the group consisting of sequence information, chemical information, motif information and function information of a single protein. It is desirable to include any one or more pieces of information.
  • step (e) it is preferable to include the step of determining the main neighboring protein by the adhesion score.
  • the static protein interaction information preferably includes related interaction information at the protein level or gene level.
  • the position of the target protein may be predicted at a specific time and external stimulus condition using the position-feature model generated in S140 and the protein feature generated in S170 (S180). As shown in C of FIG. 2, the position of the target protein is preferably output as a degree of probability existing at a specific position.
  • FIG. 10 shows a location map for each time and condition for YDL060W / TSR1 according to the third embodiment of the present invention and a result of verification thereof.
  • NO nucleolus
  • NU nucleus
  • CY cytoplasm

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Analytical Chemistry (AREA)
  • Physiology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

The present invention provides a method for predicting the location of a target protein in a cell under predetermined conditions by inputting static characteristics of an individual protein or gene, protein interaction information with a neighboring protein, an expression profile of a protein or a gene, and the like. By employing the method of the present invention, the location of a target protein in a cell can be effectively predicted under specific conditions by inputting an already known target protein and predetermined conditions, and reversely, conditions such as disease stages can be ascertained through the location of the target protein within a cell. In addition, provided is a method for predicting a biological process or molecular function of a protein for each condition by inputting the biological process or molecular function of the target protein using the method of the present invention.

Description

조건별 단백질의 세포 내 위치 및 분자 기능을 예측하기 위한 방법Methods for Predicting Intracellular Location and Molecular Function of Conditional Proteins
본 발명의 기술분야는 바이오인포매틱스(bioinformatics)이다. The technical field of the present invention is bioinformatics.
단백질은 다양한 외부 스트레스(external stresses), 질병 발전 단계(disease developmental stages) 및/또는 세포 분화 단계(cell differentiation stages)와 같은 조건에 따라 상이한 기능(function)을 갖는다. 이러한 생채내외 조건들(endogenous or exogenous conditions)은 단백질의 기능에 영향을 미쳐서 게놈 레벨(genomic level) 및/또는 단백질 레벨(proteomic level)의 제어 메커니즘(regulatory mechanism)을 이끈다. 이에, 이들을 규명하기 위한 많은 노력이 이루어지고 있다. Proteins have different functions depending on conditions such as various external stresses, disease developmental stages, and / or cell differentiation stages. These endogenous or exogenous conditions affect the function of the protein, leading to a regulating mechanism of genomic and / or proteomic levels. Accordingly, many efforts have been made to identify them.
이러한 노력의 성공적인 예 중 하나는 유전자 온톨로지(Gene Ontology, GO) 프로젝트이다. GO는 명확하게 한정되는 양호한 구조적 용어로서 3개의 구분 가능한 세트를 제공한다. 그러나 현재의 GO는 어떠한 조건(condition)과도 관련되어 있지 않다.One successful example of this effort is the Gene Ontology (GO) project. GO provides three distinct sets of good structural terms that are clearly defined. But the current GO is not related to any condition.
세포 구획(cellular compartment)에서 단백질의 세포 내 위치(subcellular location) 및 그 변화(translocation)에 관한 정보는 세포 기능 및 단백질을 이해하기 위한 중요한 정보이다. Information about the subcellular location and translocation of proteins in the cellular compartment is important information for understanding cellular functions and proteins.
그러나, 기존의 실험적 접근 방법(experimental approaches)으로서는 소수의 단백질 위치만이 파악 가능하였으며, 대부분의 방법들은 조건에 따른 단백질 위치가 아닌 조건과 무관한 일반적인 위치(unconditional location)만을 예측하는데 불과하였다.However, existing experimental approaches (experimental approaches) were able to identify only a few protein positions, most methods only predicted the unconditional location, not the condition-specific protein position.
단백질 위치 예측(protein location prediction)은 대상 단백질의 기본적인 정보를 이용하여 세포 내 위치를 알고 있는 다른 단백질과의 비교 분석으로 이루어질 수 있다. 이러한 위치 예측 방법은 공지된 단백질 서열이나 구조적 특징에 기초할 수 있다. 그러나 이러한 기존의 방법들 역시 정확도가 부족하고, 다수의 정보를 양호하게 활용하지 못하고, 더욱 중요한 것은 조건별로 단백질의 위치 정보를 예측하는 것이 구현되지 못한 실정이다.Protein location prediction may be performed by comparative analysis with other proteins whose cell location is known using basic information of the target protein. Such location prediction methods may be based on known protein sequences or structural features. However, these existing methods also lack accuracy, do not utilize a lot of information well, and more importantly, it is not implemented to predict the location information of the protein by conditions.
이에 본 발명에서는, 특정 조건별로 단백질의 위치 정보를 효과적으로 예측할 수 있는 방법을 제안하고자 한다. Accordingly, the present invention is to propose a method that can effectively predict the location information of the protein for each specific condition.
즉, 공지된 정보를 입력함으로써 단백질 위치 예측에 필요한 특정 조건에 따른 동적인 단백질 상호작용 네트워크를 생성하고, 상기 네트워크에 위치를 알고자 하는 대상 단백질 및 이웃의 정보를 입력함으로써 그 조건에서의 대상 단백질의 세포 내 위치를 예측해서 출력할 수 있는 효과적인 조건별 위치 예측 방법을 제안하고자 한다.That is, by inputting known information, a dynamic protein interaction network is generated according to a specific condition required for protein location prediction, and the target protein in the condition is input by inputting information of the target protein and neighbors to know the location in the network. The purpose of this paper is to propose an efficient condition prediction method for predicting and outputting a cell's location.
또한, 본 발명에서는, 단일 발현 프로파일이라도 특정 조건에서 단백질의 위치 정보를 효과적으로 예측할 수 있는 방법을 제안하고자 한다. In addition, the present invention is to propose a method that can effectively predict the positional information of the protein under a specific condition even in a single expression profile.
즉, 세포 분화와 같이 발현 프로파일 샘플이 하나인 경우에도, 공지된 정보를 입력함으로써 동적 네트워크를 생성하고, 상기 네트워크에 위치를 알고자 하는 대상 단백질 및 이웃의 정보를 입력함으로써 그 조건에서의 대상 단백질의 세포 내 위치를 예측해서 출력할 수 있는 효과적인 조건별 위치 예측 방법을 제안하고자 한다.That is, even when there is only one expression profile sample, such as cell differentiation, a dynamic network is generated by inputting known information, and a target protein under such conditions by inputting information of a target protein and neighbors to be located in the network. The purpose of this paper is to propose an efficient condition prediction method for predicting and outputting a cell's location.
또한, 본 발명에서는, 특정 시간 및 외부자극 조건별로 단백질의 위치 정보를 포함한 동적인 기능 정보를 효과적으로 예측할 수 있는 방법을 제안하고자 한다. In addition, the present invention is to propose a method that can effectively predict the dynamic functional information including the position information of the protein for each specific time and external stimulation conditions.
즉, 공지된 정보를 입력함으로써 단백질 위치 예측에 필요한 특정 외부자극 조건에 따른 동적인 상호작용 네트워크를 생성하고, 상기 네트워크에 위치를 알고자 하는 대상 단백질 및 이웃의 정보를 입력함으로써 특정 시간 및 외부자극 조건에서의 대상 단백질의 세포 내 위치를 예측해서 출력할 수 있는 효과적인 시간 및 외부자극 조건별 위치 정보를 포함한 동적인 기능 정보 예측 방법을 제안하고자 한다.That is, by inputting known information, a dynamic interaction network is generated according to a specific external stimulus condition necessary for protein location prediction, and a specific time and external stimulus are input by inputting information of a target protein and a neighbor to know the location in the network. The purpose of this study is to propose a method for predicting dynamic functional information including effective time and position information of external stimulus conditions that can predict and output the location of a target protein in a cell.
또한, 본 발명에서는, 세포내 위치 정보뿐만 아니라 비슷한 방법으로 단백질의 다른 기능 정보 (예를 들어, molecular functions 및 biological processes) 정보를 효과적으로 예측할 수 있는 방법을 제안하고자 한다. In addition, the present invention is to propose a method that can effectively predict other functional information (eg, molecular functions and biological processes) information of the protein in a similar manner as well as intracellular location information.
상기와 같은 과제를 해결하기 위해, 본 발명의 제 1 실시예는 (a) 대상 단백질의 정적 특성(static characteristics)이 입력되어 정적 피쳐(static feature)가 생성되는 단계; (b) 정적 단백질 상호작용(static protein-protein interaction) 정보가 입력되어 정적 네트워크(static network)가 생성되는 단계; (c) 상기 대상 단백질의 이웃 단백질(neighborhood protein)의 정적 특성이 상기 정적 네트워크에 인가되어 네트워크 피쳐(network feature)가 생성되는 단계; (d) 상기 정적 피쳐 및 상기 네트워크 피쳐를 이용하여 위치-피쳐 모델(location-feature model)이 생성되는 단계; (e) 특정 조건에서의 발현 프로파일(expression profile)을 이용하여 밀착성 점수(coherence score)가 연산되는 단계; (f) 상기 밀착성 점수가 상기 정적 네트워크에 가중치(weight)로서 부여되어 동적 네트워크(dynamic network)가 생성되는 단계; (g) 상기 동적 네트워크에 상기 대상 단백질의 정적 특성 및 위치 정보가 인가되어 특정 조건에서의 단백질 피쳐(protein feature)가 생성되는 단계; 및 (h) 상기 단백질 피쳐와 상기 위치-피쳐 모델을 이용하여 특정 조건에서의 상기 대상 단백질의 위치가 결정되는 단계를 포함하는 것을 특징으로 하는, 조건별 단백질의 세포 내 위치를 예측하기 위한 방법을 제공한다. In order to solve the above problems, the first embodiment of the present invention comprises the steps of (a) the static characteristics of the target protein (static characteristics) is input to generate a static feature (static feature); (b) generating static networks by inputting static protein-protein interaction information; (c) applying a static property of a neighbor protein of the target protein to the static network to generate a network feature; (d) generating a location-feature model using the static feature and the network feature; (e) calculating a coherence score using an expression profile under specific conditions; (f) the adhesion score is assigned to the static network as a weight to create a dynamic network; (g) applying the static characteristics and location information of the target protein to the dynamic network to generate a protein feature under a specific condition; And (h) determining the location of the target protein under specific conditions using the protein feature and the location-feature model. to provide.
또한, (i) 다수의 조건에서 상기 (a) 내지 (h)단계를 반복하여 조건의 변동에 따라 세포 내 위치가 변동되는 단백질(translocational protein)을 결정하는 단계를 더 포함하는 것이 바람직하다.In addition, (i) repeating the steps (a) to (h) in a plurality of conditions, it is preferable to further include the step of determining a protein (translocational protein) in the position changes in accordance with the change of conditions.
또한, 상기 (e)단계는, 상기 밀착성 점수에 의해 주요 이웃 단백질을 결정하는 단계를 포함하는 것이 바람직하다.In addition, the step (e), it is preferable to include the step of determining the main neighboring protein by the adhesion score.
또한, 상기 (h)단계는, 상기 대상 단백질의 위치는, 특정 위치에 존재할 가능성 수준(possibility degree)으로서 출력되는 단계를 더 포함하는 것이 바람직하다.In addition, the step (h), it is preferable that the position of the target protein further comprises the step of outputting as a degree (possibility degree) to exist at a specific position.
또한, 상기 밀착성 점수는 상기 대상 단백질(또는 유전자)과 상기 이웃 단백질(또는 유전자) 사이의 발현 프로파일 패턴의 유사성 및 발현 수준(expression level)의 유사성 중 어느 하나 이상에 의해 연산되는 것이 바람직하다.In addition, the adhesion score is preferably calculated by any one or more of the similarity of the expression level (expression level) and the similarity of the expression profile pattern between the target protein (or gene) and the neighboring protein (or gene).
또한, 상기 (a)단계에서, 상기 정적 특성은 단일 단백질의 염기서열 정보(sequence information), 화학 정보(chemistry information), 모티프 정보(motif information) 및 기능 정보(function information)로 이루어진 그룹으로부터 선택되는 어느 하나 이상의 정보를 포함하는 것이 바람직하다.In addition, in the step (a), the static characteristics are selected from the group consisting of sequence information, chemical information, motif information and function information of a single protein. It is desirable to include any one or more pieces of information.
또한, 상기 (b)단계에서, 상기 정적 단백질 상호작용 정보는 단백질 수준 또는 유전자 수준에서의 관련된 상호작용 정보를 포함하는 것이 바람직하다.In addition, in the step (b), the static protein interaction information preferably includes related interaction information at the protein level or gene level.
또한, 상기 (c)단계에서, 상기 대상 단백질의 상기 이웃 단백질은 상기 정적 특성 및 상기 정적 단백질 상호작용 정보에 의해 결정되는 것이 바람직하다.In addition, in step (c), the neighboring protein of the target protein is preferably determined by the static properties and the static protein interaction information.
또한, 상기 (d)단계는, 상기 정적 피쳐 및 상기 네트워크 피쳐 중 주요 피쳐가 DCkNN 분류기(Divide-and-Conquer k Nearest Neighbor method classifier)를 이용하여 특정 위치 정보마다 선택되는 단계를 포함하는 것이 바람직하다.In addition, the step (d), it is preferable that the main feature of the static feature and the network feature comprises the step of selecting for each specific location information using a Divide-and-Conquer k Nearest Neighbor method classifier (DCkNN). .
또한, 상기 조건은 질병의 등급인 것을 바람직하며, 특히 암 등급(cancer grade)에 따른 것이 보다 바람직하다.In addition, the condition is preferably a grade of the disease, and more particularly according to the cancer grade.
상기와 같은 과제를 해결하기 위해, 본 발명의 제 2 실시예는 (a) 대상 단백질의 정적 특성(static characteristics)이 입력되어 정적 피쳐(static feature)가 생성되는 단계; (b) 상기 정적 피쳐를 이용하여 위치-피쳐 모델(location-feature model)이 생성되는 단계; (c) 소정의 조건에서의 발현 수준(expression level)을 이용하여 밀착성 점수(coherence score)가 연산되는 단계; (d) 상기 밀착성 점수가 상기 정적 피쳐에 가중치(weight)로서 부여되어 동적 네트워크(dynamic network)가 생성되는 단계; (e) 상기 동적 네트워크에 상기 대상 단백질의 정적 특성 및 위치 정보가 인가되어 상기 소정의 조건에서의 단백질 피쳐(protein feature)가 생성되는 단계; 및 (f) 상기 단백질 피쳐와 상기 위치-피쳐 모델을 이용하여 상기 소정의 조건에서의 상기 대상 단백질의 위치가 결정되는 단계를 포함하며, 상기 조건은 세포 분화에 따른 조건인 것을 특징으로 하는, 세포 분화에 따른 조건별 단백질의 세포 내 위치를 예측하기 위한 방법을 제공한다. In order to solve the above problems, the second embodiment of the present invention comprises the steps of: (a) the static characteristics of the target protein (static characteristics) are input to generate a static feature; (b) generating a location-feature model using the static feature; (c) a coherence score is calculated using expression levels under certain conditions; (d) the adhesion score is assigned to the static feature as a weight to create a dynamic network; (e) applying the static characteristics and location information of the target protein to the dynamic network to generate a protein feature under the predetermined condition; And (f) determining the location of the target protein under the predetermined condition using the protein feature and the location-feature model, wherein the condition is a condition according to cell differentiation. It provides a method for predicting the intracellular location of the conditional protein according to differentiation.
또한, 다수의 조건에서 상기 (a) 내지 (g)단계를 반복하여 세포의 분화에 따른 조건의 변동에 따라 세포 내 위치가 변동되는 단백질(translocational protein)을 결정하는 단계를 더 포함하는 것이 바람직하다.In addition, it is preferable to further include the step (a) to (g) under a plurality of conditions to determine a protein (translocational protein) in which the position in the cell is changed according to the change of the conditions according to the differentiation of the cell. .
또한, 상기 (c)단계는, 상기 밀착성 점수에 의해 주요 이웃 단백질을 결정하는 단계를 포함하는 것이 바람직하다.In addition, the step (c), it is preferable to include the step of determining the main neighboring protein by the adhesion score.
또한, 상기 (f)단계는, 상기 대상 단백질의 위치는, 소정의 위치에 존재할 가능성 수준(possibility degree)으로서 출력되는 단계를 더 포함하는 것이 바람직하다.In addition, the step (f), the location of the target protein, preferably further comprises the step of outputting as a degree (possibility degree) to exist at a predetermined position.
또한, 상기 밀착성 점수는 상기 대상 단백질(또는 유전자)과 상기 이웃 단백질(또는 유전자) 사이의 발현 패턴 또는 발현 수준의 유사성에 의해 연산되는 것이 바람직하다.In addition, the adhesion score is preferably calculated by the similarity of the expression pattern or expression level between the target protein (or gene) and the neighboring protein (or gene).
또한, 상기 (a)단계에서, 상기 정적 특성은 단일 단백질의 염기서열 정보(sequence information), 화학 정보(chemistry information), 모티프 정보(motif information) 및 기능 정보(function information)로 이루어진 그룹으로부터 선택되는 어느 하나 이상의 정보를 포함하는 것이 바람직하다.In addition, in the step (a), the static characteristics are selected from the group consisting of sequence information, chemical information, motif information and function information of a single protein. It is desirable to include any one or more pieces of information.
또한, 상기 (b)단계는, 상기 정적 피쳐 중 주요 피쳐가 DCkNN 분류기(Divide-and-Conquer k Nearest Neighbor method classifier)를 이용하여 세포 내 위치마다 선택되는 단계를 포함하는 것이 바람직하다.In addition, the step (b), it is preferable that the main feature of the static feature comprises a step of selecting each location within the cell using a DCkNN classifier (Divide-and-Conquer k Nearest Neighbor method classifier).
또한, 상기 조건은 신경줄기세포(HBI.F3) 조건 및 희소돌기아교세포(F3.Olig2) 조건 중 어느 하나 이상을 포함하는 것이 바람직하다.In addition, the above conditions preferably include any one or more of neural stem cell (HBI.F3) conditions and oligodendrocyte (F3.Olig2) conditions.
상기와 같은 과제를 해결하기 위해, 본 발명의 제 3 실시예는 (a) 대상 단백질의 정적 특성(static characteristics)이 입력되어 정적 피쳐(static feature)가 생성되는 단계; (b) 정적 단백질 상호작용(static protein-protein interaction) 정보가 입력되어 정적 네트워크(static network)가 생성되는 단계; (c) 상기 대상 단백질의 이웃 단백질(neighborhood protein)의 정적 특성이 상기 정적 네트워크에 인가되어 네트워크 피쳐(network feature)가 생성되는 단계; (d) 상기 정적 피쳐 및 상기 네트워크 피쳐를 이용하여 위치-피쳐 모델(location-feature model)이 생성되는 단계; (e) 특정 외부자극 조건에서의 시간별 발현 프로파일(expression profile)을 이용하여 밀착성 점수(coherence score)가 연산되는 단계; (f) 상기 밀착성 점수가 상기 정적 네트워크에 가중치(weight)로서 부여되어 동적 네트워크(dynamic network)가 생성되는 단계; (g) 상기 동적 네트워크에 상기 대상 단백질의 정적 특성 및 위치 정보가 인가되어 특정 외부자극 조건에서의 단백질 피쳐(protein feature)가 생성되는 단계; 및 (h) 상기 단백질 피쳐와 상기 위치-피쳐 모델을 이용하여 특정 시간 및 외부자극 조건에서의 상기 대상 단백질의 위치가 결정되는 단계를 포함하며, 상기 발현 프로파일은 마이크로어레이(microarray)의 타임-시리즈(time-series)로 표현되는 결과값인 것을 특징으로 하는, 시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법을 제공한다. In order to solve the above problems, the third embodiment of the present invention comprises the steps of (a) the static characteristics of the target protein (static characteristics) is input to generate a static feature (static feature); (b) generating static networks by inputting static protein-protein interaction information; (c) applying a static property of a neighbor protein of the target protein to the static network to generate a network feature; (d) generating a location-feature model using the static feature and the network feature; (e) a coherence score is calculated using an hourly expression profile under specific external stimulation conditions; (f) the adhesion score is assigned to the static network as a weight to create a dynamic network; (g) generating a protein feature under a specific external stimulus condition by applying the static characteristics and location information of the target protein to the dynamic network; And (h) determining the location of the target protein at specific time and external stimulus conditions using the protein feature and the location-feature model, wherein the expression profile is a time-series of microarrays. It provides a method for predicting the intracellular location of the protein according to the time and external stimulation conditions, characterized in that the result expressed in (time-series).
또한, (i) 다수의 시간 및 외부자극 조건에서 상기 (a) 내지 (h)단계를 반복하여 시간 및 외부자극 조건의 변동에 따라 세포 내 위치가 변동되는 단백질(translocational protein)을 결정하는 단계를 더 포함하는 것이 바람직하다.In addition, (i) repeating the steps (a) to (h) in a plurality of times and external stimulation conditions to determine a protein (translocational protein) in which the position in the cell is changed according to the change of time and external stimulation conditions It is preferable to further include.
또한, 상기 (e)단계는, 상기 밀착성 점수에 의해 주요 이웃 단백질을 결정하는 단계를 포함하는 것이 바람직하다.In addition, the step (e), it is preferable to include the step of determining the main neighboring protein by the adhesion score.
또한, 상기 (h)단계는, 상기 대상 단백질의 위치는, 소정의 위치에 존재할 가능성 수준(possibility degree)으로서 출력되는 단계를 더 포함하는 것이 바람직하다.In addition, the step (h), it is preferable that the position of the target protein further comprises the step of outputting as a degree of probability (possibility degree) to exist at a predetermined position.
또한, 상기 밀착성 점수는 상기 대상 단백질(또는 유전자)과 상기 이웃 단백질(또는 유전자) 사이의 발현 프로파일 패턴의 유사성 및 발현 수준(expression level)의 유사성 중 어느 하나 이상에 의해 연산되는 것이 바람직하다.In addition, the adhesion score is preferably calculated by any one or more of the similarity of the expression level (expression level) and the similarity of the expression profile pattern between the target protein (or gene) and the neighboring protein (or gene).
또한, 상기 (a)단계에서, 상기 정적 특성은 단일 단백질의 염기서열 정보(sequence information), 화학 정보(chemistry information), 모티프 정보(motif information) 및 기능 정보(function information)로 이루어진 그룹으로부터 선택되는 어느 하나 이상의 정보를 포함하는 것이 바람직하다.In addition, in the step (a), the static characteristics are selected from the group consisting of sequence information, chemical information, motif information and function information of a single protein. It is desirable to include any one or more pieces of information.
또한, 상기 (a)단계에서, 상기 정적 특성은 단일 단백질의 염기서열 정보(sequence information), 화학 정보(chemistry information), 모티프 정보(motif information) 및 기능 정보(function information)로 이루어진 그룹으로부터 선택되는 어느 하나 이상의 정보를 포함하는 것이 바람직하다.In addition, in the step (a), the static characteristics are selected from the group consisting of sequence information, chemical information, motif information and function information of a single protein. It is desirable to include any one or more pieces of information.
또한, 상기 (b)단계에서, 상기 정적 단백질 상호작용 정보는 단백질 수준 또는 유전자 수준에서의 관련된 상호작용 정보를 포함하는 것이 바람직하다.In addition, in the step (b), the static protein interaction information preferably includes related interaction information at the protein level or gene level.
또한, 상기 (c)단계에서, 상기 대상 단백질의 상기 이웃 단백질은 상기 정적 특성 및 상기 정적 단백질 상호작용 정보에 의해 결정되는 것이 바람직하다.In addition, in step (c), the neighboring protein of the target protein is preferably determined by the static properties and the static protein interaction information.
또한, 상기 (d)단계는, 상기 정적 피쳐 및 상기 네트워크 피쳐 중 주요 피쳐가 DCkNN 분류기(Divide-and-Conquer k Nearest Neighbor method classifier)를 이용하여 세포 내 위치마다 선택되는 단계를 포함하는 것이 바람직하다.In addition, the step (d), it is preferable that the main feature of the static feature and the network feature includes the step of selecting for each position in the cell using a Divide-and-Conquer k Nearest Neighbor method classifier (DCkNN). .
또한, 상기 외부자극 조건으로서 외부에서 가해지는 어떠한 조건도 사용 가능하며, 예를 들어 DTT(dithiothrietol) 조건과 MMS(methyl methanesulfonate) 조건 중 어느 하나 이상을 사용할 수 있다.In addition, any conditions applied externally may be used as the external stimulation conditions, and for example, any one or more of DTT (dithiothrietol) conditions and MMS (methyl methanesulfonate) conditions may be used.
또한, 본 발명에 의한 방법을 사용함으로써, 상기 대상 단백질의 생물학적 작용(biological process) 또는 분자 기능(molecular function)을 입력으로 사용하여, 단백질의 조건별 생물학적 작용 또는 분자 기능을 예측하는 단계를 더 포함할 수 있다.In addition, by using the method according to the present invention, using the biological process (molecular function) or molecular function (molecular function) of the target protein, further comprising the step of predicting the biological or molecular function according to the condition of the protein can do.
본 발명에 의해, 대상 단백질의 정보, 단백질의 상호작용 정보 및 특정 조건에서의 단백질 또는 유전자의 발현 정보를 입력함으로써 특정 조건에서 대상 단백질의 위치를 효과적으로 예측할 수 있다. 본 발명에 의한 방법을 활용함으로써 단백질의 특정 조건에서 모든 단백질에 거쳐서(proteome-wide) 그리고 어떠한 조건에서도(condition-wide) 대상 단백질의 위치를 효과적으로 예측할 수 있다. 도 4에 도시되며 후술한 바와 같이 그 예측의 정확도는 매우 높다.According to the present invention, it is possible to effectively predict the position of the target protein under specific conditions by inputting the information of the target protein, the interaction information of the protein, and the expression information of the protein or gene under specific conditions. By utilizing the method according to the invention it is possible to effectively predict the position of the target protein across all proteins (proteome-wide) and under any conditions (condition-wide) under specific conditions of the protein. As shown in FIG. 4 and described below, the accuracy of the prediction is very high.
또한, 대상 단백질의 정보 및 위치를 입력함으로써 특정 조건을 효과적으로 예측할 수도 있다. 예를 들어 암 등급에 따라 네트워크가 설정된 경우 대상 단백질의 정보와 위치를 입력함으로써 정상 조건(Normal)인지 또는 낮은 암 등급(Low)인지 또는 높은 암 등급(High)인지 확인할 수 있다.In addition, specific conditions can be effectively predicted by inputting the information and the location of the target protein. For example, when a network is set up according to a cancer grade, information about a target protein and a location may be input to determine whether it is normal, low, or high cancer.
또한, 본 발명에 의해, 특정 조건에서의 발현 프로파일의 수가 하나이더라도 대상 단백질의 정보와 특정 조건에서의 단백질 또는 유전자의 발현 정보를 입력함으로써 특정 조건에서 대상 단백질의 위치를 효과적으로 예측할 수 있다. 본 발명에 의한 방법을 활용함으로써 세포의 분화에 따른 단백질의 특정 조건에서 대상 단백질의 위치를 효과적으로 예측할 수 있다. 도 7에 도시되며 후술한 바와 같이 그 예측의 정확도는 매우 높다.In addition, according to the present invention, even if the number of expression profiles under a specific condition is one, it is possible to effectively predict the position of the target protein under specific conditions by inputting information of the target protein and expression information of the protein or gene under the specific conditions. By utilizing the method of the present invention, it is possible to effectively predict the position of the target protein under specific conditions of the protein according to the differentiation of cells. As shown in FIG. 7 and described below, the accuracy of the prediction is very high.
또한, 본 발명에 의한 방법을 활용함으로써 단백질의 특정 외부자극 조건에서 모든 단백질에 거쳐서(proteome-wide) 그리고 어떠한 시간과 외부자극 조건에서도(time and condition-wide) 대상 단백질의 위치를 효과적으로 예측할 수 있다. 도 9 내지 도 11에 도시되며 후술한 바와 같이 그 예측의 정확도는 매우 높다.In addition, by utilizing the method according to the present invention, it is possible to effectively predict the location of the target protein across all proteins under certain external stimulus conditions of the protein and at any time and condition-wide. . 9 to 11 and as described below, the accuracy of the prediction is very high.
시간 및 외부자극 조건에 따른 예측이 가능하기에 당연하게도 정상 조건(normal condition)에서의 위치 예측이 가능하다. 이를 통하여 기존에 알려지지 않았거나 또는 기존에 잘못 알려졌던 정상 조건에서의 단백질의 위치 예측 및 검증이 효과적으로 이루어질 수 있다. Prediction according to time and external stimulus conditions is possible, of course, it is possible to predict the position under normal conditions (normal conditions). Through this, it is possible to effectively predict and verify the location of the protein under normal conditions that are not known or are known in the past.
뿐만 아니라, 대상 단백질의 생물학적 작용(biological process) 또는 분자 기능(molecular function)을 입력으로 사용하면, 단백질의 다양한 조건별 생물학적 작용 또는 분자 기능을 정확히 예측할 수 있다.In addition, by using the biological process (molecular function) or molecular function (molecular function) of the target protein as input, it is possible to accurately predict the biological or molecular function of the various conditions of the protein.
도 1 및 도 2는 본 발명의 제 1 실시예에 따른 방법을 수행하기 위한 순서도 및 참고도이다.1 and 2 are a flowchart and a reference diagram for performing a method according to the first embodiment of the present invention.
도 3은 밀착성 점수에 따른 이웃 단백질 및 그 위치를 설명하기 위한 도면이다.3 is a view for explaining the neighboring protein and its position according to the adhesion score.
도 4는 특정 단백질의 조건에 따라 예측된 위치 정보를 예측하여 표시하고, 이를 검증한 결과를 도시한다.4 shows the result of predicting and displaying the predicted location information according to the condition of a specific protein.
도 5 및 도 6는 본 발명의 제 2 실시예에 따른 방법을 수행하기 위한 순서도 및 참고도이다.5 and 6 are a flowchart and a reference diagram for performing a method according to a second embodiment of the present invention.
도 7은 대상 단백질의 조건에 따라 예측된 위치 정보를 예측하여 표시하고, 이를 검증한 결과를 도시한다.7 shows the result of predicting and displaying the predicted location information according to the condition of the target protein.
도 8은 본 발명의 제 3 실시예에 따른 방법을 수행하기 위한 순서도 및 참고도이다.8 is a flowchart and a reference diagram for performing a method according to a third embodiment of the present invention.
도 9 내지 도 11는 효모 단백질을 사용하여 검증한 결과로서, 시간 및 외부자극 조건별로 단백질의 세포 내 위치를 예측한 결과와 이를 검증한 결과를 도시한다.9 to 11 illustrate the results obtained by using the yeast protein and predicting the intracellular location of the protein according to time and external stimulation conditions and the results of verifying the same.
본 발명에서 정보들은 전산 처리가 가능한 제어부(미도시)에 입력장치(미도시)를 통해서 입력되며 출력장치(미도시)를 통해서 출력된다. 제어부는 정보의 전산 처리가 가능한 어떠한 기기여도 무방하며, 입력장치는 키보드 또는 마우스와 같이 제어부에 정보를 입력할 수 있는 어떠한 기기여도 무방하며, 출력장치는 모니터 또는 프린터와 같이 사용자에게 결과물을 시각적으로 보여줄 수 있는 어떠한 기기여도 무방하다.In the present invention, the information is input through a input device (not shown) to a control unit (not shown) capable of computer processing and output through an output device (not shown). The control unit may be any device capable of computing information, and the input device may be any device capable of inputting information to the control unit such as a keyboard or a mouse, and the output device may visually display the result to the user such as a monitor or a printer. It can be any device that can be shown.
이하에서 단백질의 "위치"는, 단백질의 세포 내의 위치(subcellular localization)를 의미한다. 예를 들어, 단백질의 위치는 액틴(Actin, AT), 세포피질(Cell Cortex, CC), 중심체(Centrosome, CT), 사이토졸(Cytosol, CY), 소포체(Endoplasmic Reticulum, ER), 골지체(Golgi Apparatus, GL), 리소좀(Lysosome, LS), 미토콘드리아(Mitochondrion, MT), 핵소체(Nucleolus, NO), 핵(Nucleus, NU), 페록시솜(Peroxisome, PX), 세포막(Plasma Membrane, PM), 액포 (Vacuole, VU) 중 어느 하나일 수 있다. (도 4 참조)Hereinafter, "position" of a protein means subcellular localization of the protein. For example, the protein is located in Actin (AT), Cell Cortex (CC), Centrosome (CT), Cytosol (CY), Endoplasmic Reticulum (ER), Golgi (Golgi) Apparatus, GL), Lysosome (LS), Mitochondrion (MT), Nucleolus (NO), Nucleus (Nucleus, NU), Peroxysome (PX), Plasma Membrane (PM), It may be any one of vacuole (VU). (See Figure 4)
이하에서 "이웃 단백질(neighborhood protein)"은 특정 조건에서 대상 단백질과 동일한 세포 내 위치에 위치하면서 서로 밀접하고 관련되어 있을 것으로 예측되는 단백질을 의미한다. 조건에 따라 또는 대상 단백질에 따라 변한다. 또한, 특정 조건에서 하나의 대상 단백질의 이웃 단백질은 다수일 수 있으며 각각의 이웃하는 정도 또는 밀착성 정도는 상이할 수 있다. 이에, 후술할 바와 같이 위치 예측은 가능성 정도로서 표현되는 것이 바람직하다(도 3 및 도 4 참조).Hereinafter, "neighborhood protein" refers to a protein that is expected to be closely related to each other and located at the same intracellular location as the protein of interest under specific conditions. It depends on the condition or the protein of interest. In addition, under certain conditions, one neighboring protein of a target protein may be plural and each neighboring degree or adhesion degree may be different. Thus, as will be described later, the position prediction is preferably expressed as a degree of likelihood (see FIGS. 3 and 4).
제 1 실시예: 조건별 단백질의 세포 내 위치를 예측하기 위한 방법Example 1 Method for Predicting Intracellular Location of Conditional Proteins
도 1 및 도 2를 참고하여 본 발명의 제 1 실시예에 따른 조건별 단백질의 세포 내 위치를 예측하기 위한 방법을 설명한다. 1 and 2 will be described a method for predicting the intracellular location of the protein according to the condition according to the first embodiment of the present invention.
본 발명의 제 1 실시예에 따라 특정 조건에서의 대상 단백질 위치를 예측하기 위해 기존에 공지된 많은 데이터들이 사용된다. In accordance with the first embodiment of the present invention a large number of previously known data are used to predict the target protein position under specific conditions.
먼저, 대상 단백질(single protein)의 정적 특성(static characteristics)을 제어부에 입력하여 정적 피쳐(static feature)를 생성한다(S110). 입력되는 정적 특성은 염기서열 정보(sequence information), 화학 정보(chemistry information), 모티프 정보(motif information) 및 기능 정보(function information) 등일 수 있다. 상기 정보들의 내용은 종래기술인바 상세한 설명은 생략한다.First, static characteristics of a single protein are input to a controller to generate a static feature (S110). The input static property may be sequence information, chemical information, motif information, function information, and the like. The content of the information is a prior art, detailed description thereof will be omitted.
다음, 대상 단백질과 관련있는 정적 단백질 상호작용(static protein-protein interaction) 정보를 제어부에 입력하여 정적 네트워크(static network)를 생성한다(S120).Next, static protein-protein interaction information related to the target protein is input to the controller to generate a static network (S120).
다음, 대상 단백질과 관련있는 이웃 단백질(neighborhood protein)의 정적 특성을 S120 단계에서 생성된 정적 네트워크에 인가하여 네트워크 피쳐(network feature)를 생성한다(S130). 이웃 단백질은 공지된 정적 특성 및 정적 단백질 상호작용 정보(static protein-protein interactions) 등을 이용하여 결정할 수 있다. 또한, 이와 동시에 이웃 단백질의 세포 내 위치를 알 수 있는 경우 그 위치 정보가 함께 입력될 수 있다. Next, a network feature is generated by applying a static property of a neighbor protein related to the target protein to the static network generated in step S120 (S130). Neighbor proteins can be determined using known static properties, static protein-protein interactions, and the like. At the same time, when the position of the neighboring protein in the cell can be known, the position information can be input together.
정적 피쳐와 네트워크 피쳐가 도 2의 A 상단에 도시된다.Static and network features are shown at the top of A of FIG. 2.
다음, 각각의 세포 내 위치별로 좋은 피쳐를 선택함으로써 위치-피쳐 모델(location-feature model)을 생성한다(S140). 전술한 13개의 세포 내 위치마다 피쳐를 선택할 수 있으며, 이 때에 피쳐의 선택은 좋은 피쳐를 자동으로 선택하여 주는 DCkNN 분류기를 이용할 수 있다. DCkNN 분류기 및 이를 이용하는 방법은 종래기술인바 상세한 설명은 생략한다. DCkNN 분류기를 통하여 최적의 피쳐 및 그 조합이 선택될 수 있다. 위치-피쳐 모델이 도 2의 A의 하단에 도시된다. 선택된 피쳐가 검은색으로 표기되었다. Next, a location-feature model is generated by selecting a good feature for each intracellular location (S140). A feature can be selected for each of the 13 intracellular locations described above, where the selection of features can utilize a DCkNN classifier that automatically selects a good feature. The DCkNN classifier and the method using the same are known in the art, and thus a detailed description thereof will be omitted. The optimal feature and its combination can be selected through the DCkNN classifier. The location-feature model is shown at the bottom of A in FIG. 2. The selected feature is marked in black.
다음, 특정 조건에서의 발현 프로파일(expression profile)을 이용하여 밀착성 점수(coherence score)를 연산하고(S150), 이를 S120에서 생성된 정적 네트워크의 각 단백질-단백질 상호작용에 가중치(weight)로서 부여함으로 동적 네트워크(dynamic network)를 생성한다(S160). 가중치가 부여된 동적 네트워크(weighted dynamic network)가 도 2의 B에 도시된다.Next, a coherence score is calculated using an expression profile under specific conditions (S150), and this is assigned to each protein-protein interaction of the static network generated in S120 as a weight. A dynamic network is generated (S160). A weighted dynamic network is shown in B of FIG. 2.
밀착성 점수는 대상 단백질(또는 유전자)과 이웃 단백질(또는 유전자) 사이의 발현 프로파일 패턴의 유사성 및 발현 수준(expression level)의 유사성 중 어느 하나 이상에 의해 연산된다. The adhesion score is calculated by one or more of the similarity of expression profile patterns and similarity of expression levels between the protein of interest (or genes) and neighboring proteins (or genes).
보다 구체적으로 밀착성 점수를 연산하는 다양한 방법이 존재하나, 일 실시 예에서 하기와 같은 수식을 사용할 수 있다.More specifically, there are various methods of calculating the adhesion score, but in one embodiment, the following equation may be used.
수학식 1
Figure PCTKR2012000118-appb-M000001
Equation 1
Figure PCTKR2012000118-appb-M000001
여기에서, Φ(a, b)는 a, b의 밀착성 점수, a는 대상 단백질, b는 이웃 단백질, ρ(a, b)는 a, b의 발현 수준의 피어슨 상관 계수, med(a)는 a의 발현 수준의 중앙값(median), med(b)는 b의 발현 수준의 중앙값(median), MEDIAN은 a, b를 위해 사용된 유전자(gene)의 발현 수준의 중앙값(median), Ψ(x)는 x의 p-value이다. 상기와 같은 수식에 의해 밀착성 점수는 양수의 값을 갖게 되며, 가까울수록 큰 값을 갖는다.Here, Φ (a, b) is the adhesion score of a, b, a is the target protein, b is the neighboring protein, ρ (a, b) is the Pearson correlation coefficient of the expression level of a, b, med (a) is median of the expression level of a, med (b) is the median of the expression level of b, MEDIAN is the median of the genes used for a, b, Ψ (x ) Is the p-value of x. According to the above equation, the adhesive score has a positive value, and the closer it is, the larger the value.
밀착성 점수에 의해 주요 이웃 단백질을 결정할 수 있다. 도 3에 도시된 실시예에서 정상 조건(Normal)에서는 AP1G1 및 COG2 단백질이 KIF13A와 가장 관련된 주요 이웃 단백질로 결정되며, 낮은 암 등급(Low)과 높은 암 등급(High)에서는 ATF7IP 단백질이 가장 관련된 주요 이웃 단백질로 결정됨을 도시한다. 굵기가 굵을수록 밀착성 점수의 값이 큰 것을 의미한다.The adhesion score can determine the major neighboring proteins. In the example shown in Fig. 3, AP1G1 and COG2 proteins are determined to be the most important neighboring proteins related to KIF13A under normal conditions, and ATF7IP protein is most related to low and high cancer grades at low and high cancer grades. It is determined by neighboring proteins. The thicker the thickness, the larger the value of the adhesive score.
다음, S160에서 생성된 동적 네트워크에 대상 단백질의 정적 특성과 위치 정보를 인가하여 특정 조건의 단백질 피쳐(protein feature)를 생성한다(S170). Next, by applying the static properties and location information of the target protein to the dynamic network generated in S160 to generate a protein feature (protein feature) of a specific condition (S170).
다음, S140에서 생성된 위치-피쳐 모델과 S170에서 생성된 단백질 피쳐를 이용하여 특정 조건에서 대상 단백질의 위치를 예측할 수 있다(S180). 도 2의 C에 도시되는 바와 같이 대상 단백질의 위치는 특정 위치에 존재할 가능성 수준(possibility degree)으로서 출력되는 것이 바람직하다.Next, the position-feature model generated in S140 and the protein feature generated in S170 may be used to predict the position of the target protein under specific conditions (S180). As shown in C of FIG. 2, the position of the target protein is preferably output as a degree of probability existing at a specific position.
또한, 상기의 과정을 반복함으로써, 비교 가능한 조건에서의 단백질의 위치 정보를 비교할 수 있는 조건별 위치맵(conditional location map, CLM)을 생성할 수 있으며, 이를 통해 조건이 변함에 따라 위치가 변경되는 단백질(translocational protein)을 결정할 수 있다. In addition, by repeating the above process, it is possible to generate a conditional location map (CLM) that can compare the location information of the protein in a comparable condition, through which the location is changed as the condition changes Translocational proteins can be determined.
도 2의 C의 좌측에 CLM이 도시되며, 여기에 도시된 바와 같이 정상 조건(Normal)과 낮은 암 등급(Low) 및 높은 암 등급(High)에서 위치가 변경되는 경우 조건이 변함에 따라 위치가 변경되는 단백질로 결정된다.CLM is shown on the left side of FIG. 2C, and as shown here, the position is changed as the condition is changed when the position is changed at normal condition, low cancer level, and high cancer level (High). Determined by the protein being altered.
이와 같이 본 발명의 제 1 실시예에 따른 방법은 모든 단백질에 대하여 예측 가능하며(proteome-wide) 모든 조건에 대하여 예측 가능한(condition-wide) 방법이다. As described above, the method according to the first exemplary embodiment of the present invention is proteome-wide and condition-wide for all conditions.
이러한 조건은 어떠한 질병의 등급일 수도 있으며, 보다 특정적으로 암의 등급(cancer grade) 내지 단계(stage)일 수 있다. 도 2의 B, 도 3 및 도 4에서 정상 조건(normal), 낮은 암 등급(low), 높은 암 등급(high)으로 도시된다.Such conditions may be of any disease grade, and more specifically, from cancer grade to stage. In FIG. 2B, FIG. 3 and FIG. 4, normal conditions, low cancer low, high cancer high are shown.
도 3은 KIF13A 단백질의 위치를 확인하는 실시 예를 설명한다. Figure 3 describes an embodiment for confirming the location of the KIF13A protein.
전술한 바와 같은 방법으로, 정상 조건(Normal)에서는 골지체(GL)에 위치하는 AP1G1 및 COG2 단백질이 가장 관련된 이웃 단백질로 결정되었다. 낮은 암 등급(Low)과 높은 암 등급(High)에서는 핵(NU)에 위치하는 ATF7IP 단백질이 가장 관련된 이웃 단백질로 결정되었다.In the same manner as described above, under normal conditions, AP1G1 and COG2 proteins located in the Golgi apparatus (GL) were determined as the most related neighboring proteins. At low and high cancer grades, ATF7IP protein located in the nucleus (NU) was determined to be the most relevant neighboring protein.
이렇게 이웃 단백질이 결정되면, 제어부는 해당 위치를 대상 단백질의 특정 조건에서의 위치로 연산한다(S800).When the neighboring protein is determined in this way, the control unit calculates the corresponding position as a position under specific conditions of the target protein (S800).
도 4는 KIF13A 단백질의 위치를 확인하는 실시 예를 설명한다. 도 4의 "A"는 도 3을 참고하여 결정된 이웃 단백질의 위치를 확인하여 가능성 정도로서 도시되는 KIF13A 단백질의 예측된 조건별 위치 정보를 도시화한 것이다. 정상 조건에서 골지체(GL)에 위치할 가능성이 가장 높으며, 낮은 암 등급(Low) 및 높은 암 등급(High)에서는 핵(NU)에 위치할 가능성이 가장 높다.Figure 4 describes an embodiment for confirming the location of the KIF13A protein. "A" of FIG. 4 shows the predicted conditional positional information of the KIF13A protein, which is shown as a degree of probability by identifying the position of the neighboring protein determined with reference to FIG. It is most likely to be located in the Golgi (GL) under normal conditions, and most likely in the nucleus (NU) at low and high cancer grades.
이를 검증한 결과가 도 4의 "B" 내지 "G"에 도시된다. "B"에서의 노란색 및 "E"와 "G"에서의 시안색(E, G)은 위치 마커(location marker)가 KIF13A 단백질이 오버랩된 것을 나타낸다. 따라서 해당 위치에 KIF13A 단백질이 실재로 위치함이 확인되었으며("O" 표시), "C", "D", "F"에서는 KIF13A 단백질이 실재로 위치하지 않음이 확인되어("X" 표시), 본 발명의 제 1 실시예에 따른 예측 결과가 맞다는 것을 도시한다.The result of verifying this is shown in "B" to "G" of FIG. Yellow in "B" and cyan (E, G) in "E" and "G" indicate that the location marker overlaps the KIF13A protein. Therefore, it was confirmed that the KIF13A protein was actually located at the corresponding position (marked with "O"), and that the KIF13A protein was not actually located at the "C", "D", and "F" (marked with "X"). , Shows that the prediction result according to the first embodiment of the present invention is correct.
제 2 실시예: 세포 분화에 따른 조건별 단백질의 세포 내 위치를 예측하기 위한 방법Example 2 Method for Predicting Intracellular Location of Conditional Proteins According to Cell Differentiation
도 5 및 도 6를 참고하여 본 발명의 제 2 실시예에 따른 방법을 설명한다. A method according to a second embodiment of the present invention will be described with reference to FIGS. 5 and 6.
제 1 실시예와 유사하게, 본 발명의 제 2 실시예에 따라 특정 조건에서의 대상 단백질 위치를 예측하기 위해 기존에 공지된 많은 데이터들이 사용된다. Similar to the first embodiment, many previously known data are used to predict the target protein location under specific conditions in accordance with the second embodiment of the present invention.
먼저, 제 1 실시예와 유사하게 대상 단백질(single protein)의 정적 특성(static characteristics)을 제어부에 입력하여 정적 피쳐(static feature)를 생성한다(S110). 입력되는 정적 특성은 염기서열 정보(sequence information), 화학 정보(chemistry information), 모티프 정보(motif information) 및 기능 정보(function information) 등일 수 있다. First, similarly to the first embodiment, the static characteristics of a single protein are input to the controller to generate a static feature (S110). The input static property may be sequence information, chemical information, motif information, function information, and the like.
다음, 각각의 세포 내 위치별로 좋은 피쳐를 선택함으로써 위치-피쳐 모델(location-feature model)을 생성한다(S140). 전술한 13개의 세포 내 위치마다 피쳐를 선택할 수 있으며, 이 때에 피쳐의 선택은 좋은 피쳐를 자동으로 선택하여 주는 DCkNN 분류기를 이용할 수 있다. DCkNN 분류기 및 이를 이용하는 방법은 종래기술인바 상세한 설명은 생략한다. DCkNN 분류기를 통하여 최적의 피쳐 및 그 조합이 선택될 수 있다.Next, a location-feature model is generated by selecting a good feature for each intracellular location (S140). A feature can be selected for each of the 13 intracellular locations described above, where the selection of features can utilize a DCkNN classifier that automatically selects a good feature. The DCkNN classifier and the method using the same are known in the art, and thus a detailed description thereof will be omitted. The optimal feature and its combination can be selected through the DCkNN classifier.
다음, 특정 조건에서의 발현 수준(expression level)을 이용하여 밀착성 점수(coherence score)를 연산하고(S150), 이를 가중치(weight)로서 부여함으로 동적 네트워크(dynamic network)를 생성한다(S160). 가중치가 부여된 동적 네트워크(weighted dynamic network)가 도 6의 A에 도시된다.Next, a coherence score is calculated using an expression level in a specific condition (S150), and a dynamic network is generated by assigning it as a weight (S160). A weighted dynamic network is shown in A of FIG. 6.
전술한 바와 같이, 본 발명의 제 2 실시예는 특정 조건에서 프로파일로의 수와 상관없이 단밸직의 위치를 예측하기 위한 방법에 관한 것이다. 만약, 단일 발현 프로파일인 경우, 밀착성 점수는 대상 단백질(또는 유전자)과 이웃 단백질(또는 유전자) 사이의 발현 수준의 유사성에 의해 연산된다.As mentioned above, a second embodiment of the present invention is directed to a method for predicting the position of a short vertical regardless of the number into profiles under certain conditions. If it is a single expression profile, the adhesion score is calculated by the similarity of the expression levels between the target protein (or gene) and the neighboring protein (or gene).
보다 구체적으로 밀착성 점수를 연산하는 다양한 방법이 존재하나, 일 실시 예에서 하기와 같은 수식을 사용할 수 있다.More specifically, there are various methods of calculating the adhesion score, but in one embodiment, the following equation may be used.
수학식 2
Figure PCTKR2012000118-appb-M000002
Equation 2
Figure PCTKR2012000118-appb-M000002
여기에서, Φ(a, b)는 a, b의 밀착성 점수, a는 대상 단백질, b는 이웃 단백질, ρ(a, b)는 a, b의 발현 수준의 피어슨 상관 계수, Ψ(x)는 x의 p-value, a에 관한 값인 Xi와 b에 관한 값인 Yi는 입력값으로부터 모든 상호작용 단백질 쌍의 상관 정도의 확률 분포(probability distribution)의 영역값이다. ρ(a, b)는 -1 내지 1의 범위를 갖는다. 또한, n은 시료의 개수이며, Sx는 x의 공분산이며, γx는 x의 상대적 발현 수준을 의미한다.Where Φ (a, b) is the adhesion score of a, b, a is the target protein, b is the neighboring protein, ρ (a, b) is the Pearson correlation coefficient of the expression level of a, b, Ψ (x) is The value of x i for p-value and a of x and Y i for b are the range values of the probability distribution of the degree of correlation of all interacting protein pairs from the input. ρ (a, b) has a range of -1 to 1. In addition, n is the number of samples, S x is the covariance of x , and γ x means the relative expression level of x.
밀착성 점수에 의해 주요 이웃 단백질을 결정할 수 있다. The adhesion score can determine the major neighboring proteins.
도 6의 A에 도시된 실시예는, 세포 분화 단계의 세포선(cell line)에서 마이크로어레이를 통해 도출된 값을 활용한 결과로서, 신경줄기세포(HBI.F3) 및 희소돌기아교세포(F3.Olig2)를 조건으로 이용한 결과이다. 도시된 바와 같이, F3.Olig2 조건에서는 SFRP2의 주요 이웃 단백질로서 ITGA5가 결정되었다. 굵기가 굵을수록 밀착성 점수의 값이 큰 것을 의미한다.6A is a result of utilizing the values derived through microarrays in the cell line of the cell differentiation step, and the neural stem cells (HBI.F3) and oligodendrocytes (F3. Olig2) was used as a condition. As shown, ITGA5 was determined as the major neighboring protein of SFRP2 under F3.Olig2 conditions. The thicker the thickness, the larger the value of the adhesive score.
다음, S160에서 생성된 동적 네트워크에 대상 단백질의 정적 특성과 위치 정보를 인가하여 특정 조건의 단백질 피쳐(protein feature)를 생성한다(S170). Next, by applying the static properties and location information of the target protein to the dynamic network generated in S160 to generate a protein feature (protein feature) of a specific condition (S170).
다음, S140에서 생성된 위치-피쳐 모델과 S170에서 생성된 단백질 피쳐를 이용하여 특정 조건에서 대상 단백질의 위치를 예측할 수 있다(S180). 도 6의 B에 도시되는 바와 같이 대상 단백질의 위치는 특정 위치에 존재할 가능성 수준(possibility degree)으로서 출력되는 것이 바람직하다.Next, the position-feature model generated in S140 and the protein feature generated in S170 may be used to predict the position of the target protein under specific conditions (S180). As shown in B of FIG. 6, the position of the target protein is preferably output as a degree of probability existing at a specific position.
이와 같이 본 발명의 제 2 실시예에 따른 방법은 세포 분화와 같이 발현 프로파일의 수가 하나인 경우에도 모든 단백질에 대하여 예측 가능하며(proteome-wide) 모든 조건에 대하여 예측 가능한(condition-wide) 방법이다. As described above, the method according to the second embodiment of the present invention is proteome-wide and condition-wide for all conditions even when the number of expression profiles such as cell differentiation is one. .
도 7의 A, B, C, D는 각각 MYC, STAT3, SOX10, REV3L의 조건별 위치맵 및 검증 결과를 도시한다. 조건별 위치맵에서 도시된 2개의 조건(위치맵의 x축)에서 좌측은 HBI.F3 조건을 의미하며 우측은 F3.Olig2 조건을 의미한다. A, B, C, and D of FIG. 7 show conditional location maps and verification results of MYC, STAT3, SOX10, and REV3L, respectively. In the two conditions (x-axis of the location map) shown in the conditional location map, the left side represents the HBI.F3 condition and the right side represents the F3.Olig2 condition.
도 7의 A에 도시된 바와 같이, 본 발명의 제 2 실시예에 의한 방법에 따라 MYC는 HB1.F3 조건과 F3.Olig2 조건에서 모두 핵(NU)에 높은 확률로서 위치할 것이 예측되었다. anti-MYC가 녹색으로 도시되고, 핵 마커가 청색으로 도시되는데, 오버랩 결과 세 번째 이미지와 같이 나타나기에, 본 발명의 제 2 실시예에 의한 예측이 옳았음을 확인하였다. As shown in FIG. 7A, according to the method according to the second embodiment of the present invention, it was predicted that MYC would be located in the nucleus NU with high probability under both HB1.F3 and F3.Olig2 conditions. The anti-MYC is shown in green and the nuclear marker is shown in blue, and the overlap result is shown as the third image, confirming that the prediction by the second embodiment of the present invention was correct.
도 7의 B에 도시된 바와 같이, 본 발명의 제 2 실시예에 의한 방법에 따라 STAT3는 HB1.F3 조건과 F3.Olig2 조건에서 모두 핵(NU)에 위치할 것이 예측되었다. anti-STAT3가 녹색으로 도시되고, 핵 마커가 청색으로 도시되는데, 오버랩 결과 도시된 바와 같이 나타나기에, 본 발명의 제 2 실시예에 의한 예측이 옳았음을 확인하였다. As shown in FIG. 7B, according to the method according to the second embodiment of the present invention, it was predicted that STAT3 would be located in the nucleus NU under both HB1.F3 and F3.Olig2 conditions. The anti-STAT3 is shown in green and the nuclear marker is shown in blue, as shown by the overlap result, confirming that the prediction by the second embodiment of the present invention was correct.
도 7의 C에 도시된 바와 같이, 본 발명의 제 2 실시예에 의한 방법에 따라 SOX10은 HB1.F3 조건과 F3.Olig2 조건에서 모두 핵(NU)에 위치할 것이 예측되었다. anti-SOX10이 녹색으로 도시되고, 핵 마커가 청색으로 도시되고, 세포막 마커가 적색으로 도시되는데, 오버랩 결과 도시된 바와 같이 나타나기에, 본 발명의 제 2 실시예에 의한 예측이 옳았음을 확인하였다. As shown in FIG. 7C, according to the method according to the second embodiment of the present invention, SOX10 was predicted to be located in the nucleus NU under both HB1.F3 and F3.Olig2 conditions. The anti-SOX10 is shown in green, the nuclear marker is shown in blue, and the cell membrane marker is shown in red, as shown by the overlap result, confirming that the prediction by the second embodiment of the present invention was correct.
도 7의 D에 도시된 바와 같이, 본 발명의 제 2 실시예에 의한 방법에 따라 REV3L은 HB1.F3 조건에서 핵(NU)에 위치하나 F3.Olig2 조건에서는 소포체(ER)에만 위치할 것이 예측되었다. 즉, 핵(NU)에서 소포체(ER)로 전위(translocation)할 것이 예측되었다. 각각의 위치에서 오버랩 결과 도시된 바와 같이 나타나기에, 본 발명의 제 2 실시예에 의한 예측이 옳았음을 확인하였다. As shown in FIG. 7D, according to the method according to the second embodiment of the present invention, REV3L is located in the nucleus NU under HB1.F3 conditions but only in the endoplasmic reticulum ER under F3.Olig2 conditions. It became. In other words, it was predicted to translocation from the nucleus NU to the endoplasmic reticulum ER. The overlap results at each position are shown as shown, confirming that the prediction according to the second embodiment of the present invention was correct.
제 3 실시예: 시간 및 외부자극 조건에 따른 단백질의 세포 내 위치 정보를 포함한 동적 기능을 예측하기 위한 방법Example 3 Method for Predicting Dynamic Function Including Cellular Location Information of Proteins over Time and External Stimulation Conditions
도 2 및 도 8을 참고하여 본 발명의 제 3 실시예에 따른 방법을 설명한다. A method according to a third embodiment of the present invention will be described with reference to FIGS. 2 and 8.
S110 내지 S140 단계는 제 1 실시예에 따른 방법과 유사하게 적용된다.Steps S110 to S140 are applied similarly to the method according to the first embodiment.
다음, 특정 외부자극 조건에서의 발현 프로파일(expression profile)을 이용하여 밀착성 점수(coherence score)를 연산하고(S150), 이를 S120에서 생성된 정적 네트워크의 각 단백질-단백질 상호작용에 가중치(weight)로서 부여함으로 동적 네트워크(dynamic network)를 생성한다(S160). 가중치가 부여된 동적 네트워크(weighted dynamic network)가 도 2의 B에 도시된다. Next, a coherence score is calculated using an expression profile under specific external stimulus conditions (S150), which is weighted to each protein-protein interaction of the static network generated at S120. By assigning, a dynamic network is generated (S160). A weighted dynamic network is shown in B of FIG. 2.
밀착성 점수는 대상 단백질(또는 유전자)과 이웃 단백질(또는 유전자) 사이의 발현 프로파일 패턴의 유사성 및 발현 수준(expression level)의 유사성 중 어느 하나 이상에 의해 연산된다. The adhesion score is calculated by one or more of the similarity of expression profile patterns and similarity of expression levels between the protein of interest (or genes) and neighboring proteins (or genes).
여기에서, 입력되는 발현 프로파일로 및 발현 수준으로서 마이크로어레이(microarray) 결과값이 이용된다. 마이크로어레이 결과값은 시간을 변수로 갖는 타임-시리즈(time-series)로서 표현되기에, 가중치인 밀착성 점수 및 이에 따른 동적 네트워크는 시간을 변수로 갖는다. Here, microarray results are used as the input expression profile and as the expression level. The microarray result is expressed as a time-series with time as a variable, so that the weight of the adhesiveness score and hence the dynamic network has time as a variable.
보다 구체적으로 밀착성 점수를 연산하는 다양한 방법이 존재하나, 일 실시 예로서 전술한 수학식 1의 수식이 사용될 수 있다.More specifically, there are various methods of calculating the adhesion score, but as an example, the above-described formula of Equation 1 may be used.
밀착성 점수에 의해 주요 이웃 단백질을 결정할 수 있다. 도 2의 B 하단에 도시된 실시예는, 정상 조건(Normal)에서는 대상 단백질(중앙의 백색원)의 주요 이웃 단백질로 소포체(ER)에 위치한 단백질(사각형)이 주요 이웃 단백질로 결정되었으며 낮은 암 등급(Low)과 높은 암 등급(High)에서는 핵소체(NU)에 위치한 단백질(녹색원)이 주요 이웃 단백질로 결정되었음을 도시한다. 굵기가 굵을수록 밀착성 점수의 값이 큰 것을 의미한다.The adhesion score can determine the major neighboring proteins. In the example shown in the lower part of B of FIG. 2, in normal condition, the protein (square) located in the ER as the main neighboring protein of the target protein (the central white circle) has been determined as the main neighboring protein and the low cancer. Low and high cancer levels show that the protein (green circle) located in the nucleolus (NU) has been determined to be the major neighboring protein. The thicker the thickness, the larger the value of the adhesive score.
다음, S160에서 생성된 동적 네트워크에 대상 단백질의 정적 특성과 위치 정보를 인가하여 특정 외부자극 조건의 단백질 피쳐(protein feature)를 생성한다(S170). 동적 네트워크가 시간을 변수로 갖기에, 단백질 피쳐 역시 시간을 변수로 갖는다. Next, the static characteristics and location information of the target protein is applied to the dynamic network generated in S160 to generate a protein feature of a specific external stimulus condition (S170). Because dynamic networks have time as a variable, protein features also have time as a variable.
다음, S140에서 생성된 위치-피쳐 모델과 S170에서 생성된 단백질 피쳐를 이용하여 특정 시간 및 외부자극 조건에서 대상 단백질의 위치를 예측할 수 있다(S180). 도 2의 C에 도시되는 바와 같이 대상 단백질의 위치는 특정 위치에 존재할 가능성 수준(possibility degree)으로서 출력되는 것이 바람직하다.Next, the position of the target protein may be predicted at a specific time and external stimulus condition using the position-feature model generated in S140 and the protein feature generated in S170 (S180). As shown in C of FIG. 2, the position of the target protein is preferably output as a degree of probability existing at a specific position.
또한, 상기의 과정을 반복함으로써, 비교 가능한 시간 및 외부자극 조건에서 단백질의 위치 정보를 비교할 수 있는 시간 및 조건별 위치맵을 생성할 수 있다. 이를 통해 시간 및 외부자극 조건이 변함에 따라 위치가 변경되는 단백질(translocational protein)을 결정할 수 있다. In addition, by repeating the above process, it is possible to generate a location map for each time and condition that can compare the location information of the protein in the comparable time and external stimulation conditions. Through this, it is possible to determine a translocational protein whose position changes as time and external stimulus conditions change.
이와 같이 본 발명의 제 3 실시예에 따른 방법은 모든 단백질에 대하여 예측 가능하며(proteome-wide) 모든 시간 및 외부자극 조건에 대하여 예측 가능한(time and condition-wide) 방법이다.As such, the method according to the third embodiment of the present invention is proteome-wide and time and condition-wide for all time and external stimulus conditions.
또한, 이러한 방법을 활용함으로써 생물학적 작용(biological process) 또는 분자 기능(molecular function) 등을 예측할 수 있음은 물론이다.In addition, it is possible to predict the biological process (molecular function) and the like by utilizing this method.
도 9은 S140 단계에서 생성되는 위치-피쳐 모델의 실시예이다. 기능 카테고리 각각의 타입에서 적어도 하나의 공지된 기능을 갖는 효모 단백질(yeast protein)로부터의 실험으로서, 9개의 종류의 단일 단백질 정적 피쳐를 사용하였으며, 20개의 종류의 네트워크 피쳐를 사용한 결과이다. 전술한 바와 같이 DCkNN 분류기를 이용하여 최적의 피쳐를 선택하였으며, 선택된 피쳐가 검은색으로 표기되었다.9 is an embodiment of a position-feature model generated in step S140. As an experiment from yeast proteins having at least one known function in each type of function category, nine types of single protein static features were used, and the result was the use of 20 types of network features. As described above, the optimal feature was selected using the DCkNN classifier, and the selected feature was marked in black.
도 10는, 도 9에서 전술한 효모 단백질을 이용하여 본 발명의 제 3 실시예에 따른 방법을 검증한 결과를 도시하며, 특히 시간과 무관하게 동일한 위치할 것으로 예측된 경우를 도시하였다. 또한, 이러한 결과는 기존에 알려져 있지 않은 위치를 포함한 정보를 밝혀 내거나, 잘못 알려진 정보를 수정할 수 있음을 나타낸다.FIG. 10 shows the results of verifying the method according to the third embodiment of the present invention using the yeast protein described above in FIG. 9, and particularly shows the case where it is predicted to be the same regardless of time. In addition, these results reveal that it is possible to uncover information that includes previously unknown locations or to correct erroneously known information.
특히 시간과 무관하게 동일한 위치할 것으로 예측된 경우를 상단에 도시하고, 시간에 따라 위치가 변경될 것으로 예측된 경우를 하단에 도시하였다. In particular, the case where it is predicted to be the same position irrespective of time is shown at the top, and the case where the position is predicted to change with time is shown at the bottom.
도 11의 상단의 우측에 본 발명의 제 3 실시예에 따른 YBL072C/RPS8A에 대한 시간 및 조건별 위치맵이 도시된다. 정상 조건(normal)과 대비되도록 DTT(dithiothrietol) 조건과 MMS(methyl methanesulfonate) 조건을 사용하였다. 본 발명의 제 3 실시예에 따른 예측 결과, 정상 조건, DTT 조건 및 MMS 조건에서 모두 YBL072C/RPS8A가 사이토졸(cytosol)에 위치할 것으로 예측되었다. On the right side of the top of FIG. 11, a time and conditional location map for YBL072C / RPS8A according to the third embodiment of the present invention is shown. Dithiothrietol (DTT) and methyl methanesulfonate (MMS) conditions were used to contrast with normal conditions. As a result of the prediction according to the third embodiment of the present invention, it was predicted that YBL072C / RPS8A would be located in the cytosol under normal conditions, DTT conditions and MMS conditions.
도 11의 상단의 좌측은 검증 결과를 도시한다. DTT 조건으로서, 2.5mM 농도의 DTT를 추가하여 2시간 후 세포를 관찰하고 시간별 발현 프로파일의 결과값을 사용하였으며, MMS 조건 역시 이와 동일하였다. 정상 조건의 결과가 "before"로 도시된다. 실험 결과, 도시된 바와 같이 정상 조건, DTT 조건 및 MMS 조건에서 모두 YBL072C/RPS8A가 사이토졸에 위치함을 확인하였다. The upper left side of FIG. 11 shows the verification result. As the DTT condition, the cells were observed after 2 hours by adding 2.5 mM DTT and the results of the hourly expression profiles were used, and the MMS conditions were the same. The result of the normal condition is shown as "before". As a result, it was confirmed that YBL072C / RPS8A is located in the cytosol under normal conditions, DTT conditions and MMS conditions as shown.
도 11의 좌하단에 본 발명의 제 3 실시예에 따른 YJL146W/IDS2에 대한 시간 및 조건별 위치맵과 그 검증 결과가 도시된다. 정상 조건에서는 세포질(CY)에 위치할 확률이 높고 핵(NU)에 위치할 확률이 낮았으나, MMS 조건에서 시간에 따라 세포질(CY)에 의치할 확률이 점차 낮아지고 핵(NU)에 위치할 확률이 점차 증가할 것으로 예측되었다. 다수의 실험 결과를 오버랩(overlap)하여 이를 검증한 결과, 본 발명의 제 3 실시예에 의한 예측이 옳았음을 확인하였다. FIG. 11 shows a location map for each time and condition for the YJL146W / IDS2 according to the third embodiment of the present invention, and a verification result thereof. Under normal conditions, the probability of being located in the cytoplasm (CY) was high and the probability of being located in the nucleus (NU) was low.However, in the MMS condition, the probability of being placed in the cytoplasm (CY) gradually decreases with time, The probability is expected to increase gradually. As a result of overlapping and verifying a plurality of experimental results, it was confirmed that the prediction according to the third embodiment of the present invention was correct.
도 10의 중하단에 본 발명의 제 3 실시예에 따른 YNL278W/CAF120에 대한 시간 및 조건별 위치맵과 그 검증 결과가 도시된다. 정상 조건에서는 출아목(bud neck, BN)을 포함하는 다양한 위치에 위치하다가, MMS 조건에서 시간에 따라 세포질(CY)에 위치할 확률이 점차 높아지고 다른 위치에 위치할 확률은 점차 낮아질 것으로 예측되었다. 이를 검증한 결과, 본 발명의 제 3 실시예에 의한 예측이 옳았음을 확인하였다. In FIG. 10, the location map for each time and condition for the YNL278W / CAF120 according to the third embodiment of the present invention and the verification result thereof are shown. In normal conditions, it is expected to be located in various positions including bud neck (BN), and the probability of being located in the cytoplasm (CY) will increase gradually over time in MMS conditions, and will be gradually decreased in other positions. As a result of this, it was confirmed that the prediction according to the third embodiment of the present invention was correct.
또한, 본 발명의 제 3 실시예에 따른 YIL090W/ICE2에 대한 시간 및 조건별 위치맵과 그 검증 결과가 도시된다. 정상 조건에서는 소포체(ER)에 위치할 확률이 높았으나 DTT 조건에서 시간에 따라 점차 낮아질 것으로 예측되었다. 유사하게 이를 검증한 결과, 본 발명의 제 3 실시예에 의한 예측이 옳았음을 확인하였다.In addition, the positional map for each time and condition for YIL090W / ICE2 according to the third embodiment of the present invention and the verification result thereof are shown. Under normal conditions, it was highly likely to be located in the ER, but it was expected to decrease gradually with time in the DTT condition. Similarly, the verification result confirmed that the prediction according to the third embodiment of the present invention was correct.
도 10의 우하단에 본 발명의 제 3 실시예에 따른 YDL060W/TSR1에 대한 시간 및 조건별 위치맵과 그 검증 결과가 도시된다. 정상 조건에서는 핵소체(NO)와 핵(NU)에 위치할 확률이 낮고 세포질(CY)에 위치할 확률이 매우 높았으나 MMS 조건에서 시간에 따라 특히 핵소체(NO)에 위치할 확률은 점차 높아지고 세포질(CY)에 위치할 확률은 점차 낮아질 것으로 예측되었다. 유사하게 이를 검증한 결과, 본 발명의 제 3 실시예에 의한 예측이 옳았음을 확인하였다.FIG. 10 shows a location map for each time and condition for YDL060W / TSR1 according to the third embodiment of the present invention and a result of verification thereof. Under normal conditions, the probability of being located in the nucleolus (NO) and the nucleus (NU) was very high, and the probability of being located in the cytoplasm (CY) was very high. The probability of being located at CY) is expected to decrease gradually. Similarly, the verification result confirmed that the prediction according to the third embodiment of the present invention was correct.
본 발명의 제 3 실시예에 의한 방법을 사용함으로써, 시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측할 수 있음은 물론이며, 정상 조건(general/normal condition)에서의 위치 예측 및 검증에 있어서도 높은 성능을 갖고 있음을 확인할 수 있었다.By using the method according to the third embodiment of the present invention, it is possible not only to predict the intracellular location of proteins by time and external stimulus conditions, but also to predict and verify the position under normal / normal conditions. It was confirmed that it has a performance.
본 발명의 제 3 실시예에 의한 방법을 그대로 사용하고, 공지된 정상 조건의 유전자 발현 프로파일을 이용함으로써, 정상 조건의 위치맵을 생성하였다. GO로부터 확보할 수 있는 33개의 BPs, 22개의 MFs 및 22개의 위치를 활용하여 이를 검증하였다. 본 발명의 제 3 실시예에 의한 방법을 사용함으로써, 도 11의 좌상단에 도시되는 바와 같이 종래 0.90(BPs), 0.93(위치), 및 0.94(MFs)에서 0.96(BPs), 0.98(위치) 및 0.98(MFs)로 그 성능이 증가하였음을 확인할 수 있다. 이는 가중치가 적용되지 않은 종래의 방법에 비하여 가중치가 적용되는 본 발명의 제 3 실시예에 의한 방법이 보다 효과적임을 의미한다.By using the method according to the third embodiment of the present invention as it is and using a known normal gene expression profile, a location map of the normal condition was generated. This was validated using 33 BPs, 22 MFs and 22 locations from GO. By using the method according to the third embodiment of the present invention, the conventional 0.90 (BPs), 0.93 (position), and 0.94 (MFs) to 0.96 (BPs), 0.98 (position) and It can be seen that the performance is increased to 0.98 (MFs). This means that the method according to the third embodiment of the present invention to which the weight is applied is more effective than the conventional method to which the weight is not applied.
도 11의 우상단에 도시된 바와 같이, 본 발명의 제 3 실시예에 의한 방법을 활용함으로써 모든 게놈에 거쳐(genome-wide) 미지의 정상 조건(위치) 예측이 가능하다. 효모 단백질에서, 종래에는 5,776개의 효모 단백질에 대한 상호작용 등의 정보가 공지되나 예를 들어 1,867개의 효모 단백질은 정확한 위치 예측이 불가능하였다. 그러나, 본 발명의 제 3 실시예을 활용함으로써 정상 조건의 미지의 위치 또한 예측 가능함을 확인하였다.As shown in the upper right of Fig. 11, by using the method according to the third embodiment of the present invention, it is possible to predict unknown steady-state (location) across all genomes. In yeast proteins, information such as the interaction with 5,776 yeast proteins is conventionally known, but for example, 1,867 yeast proteins have not been able to accurately predict position. However, by using the third embodiment of the present invention it was confirmed that the unknown position of the normal condition is also predictable.
이와 같이 본 발명의 제 3 실시예에 의한 방법은 정상 조건에서도 높은 성능을 갖기에, 도 10의 좌하단에 도시된 바와 같이 종래 이루어지지 않았거나(un-identified) 또는 잘못 이루어졌던(mis-identified) 정상 조건에서의 결과를 수정할 수 있다. As described above, the method according to the third embodiment of the present invention has high performance even under normal conditions, and thus is un-identified or mis-identified as shown in the lower left of FIG. 10. ) You can correct the results under normal conditions.
예를 들어, 종래에 YLR074C/BUD20은 핵(NU)과 소포체(ER)에 위치하는 것으로 보고되었으나, 본 발명의 제 3 실시예에 따른 방법에 의하면 핵(NU)에 위치할 확률이 높았으며 소포체(ER)에 위치할 확률은 0에 가까운 것으로 예측되었다. 검증 결과, 도 10의 좌하단의 아래에 도시되는 바와 같이 소포체(ER)에서는 발견되지 않았다. For example, although YLR074C / BUD20 has been reported to be located in the nucleus NU and the endoplasmic reticulum ER, the method according to the third embodiment of the present invention has a high probability of being located in the nucleus NU. The probability of being at (ER) was predicted to be close to zero. As a result of the verification, it was not found in the endoplasmic reticulum (ER) as shown below the lower left end of FIG.
다른 예를 들어, 종래에 YPL012W/RRP12는 핵(NU)과 세포질(CY)에 위치하는 것으로 보고되었나, 본 발명의 제 3 실시예에 따른 방법에 의하면 핵(NU), 세포질(CY)보다는 핵소체(NO)에 위치할 확률이 높은 것으로 예측되었다(NO: 0.8, NU: 0.6, CY: 0.6). 검증 결과, 도 10의 우하단에 도시되는 바와 같이 핵소체 상에 위치한 것으로 나타나고 핵과 세포질에는 단지 약하게 펴지는데 불과함을 확인하였다.In another example, YPL012W / RRP12 has been reported to be located in the nucleus (NU) and cytoplasm (CY), but according to the third embodiment of the present invention, the nucleolus rather than the nucleus (NU) and cytoplasm (CY) It was predicted that the probability of being located at (NO) was high (NO: 0.8, NU: 0.6, CY: 0.6). As a result of the verification, it appears to be located on the nucleolus as shown in the lower right of Figure 10 and confirmed that it is only weakly spread in the nucleus and cytoplasm.
상기에서는 본 발명의 바람직한 실시 예들을 참조하여 설명하였지만, 당업계에서 통상의 지식을 가진 자라면 이하의 특허 청구범위에 기재된 본 발명의 사상 및 영역을 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.Although the above has been described with reference to preferred embodiments of the present invention, those skilled in the art may variously modify and modify the present invention without departing from the spirit and scope of the present invention as set forth in the claims below. It will be appreciated that it can be changed.

Claims (36)

  1. (a) 대상 단백질의 정적 특성(static characteristics)이 입력되어 정적 피쳐(static feature)가 생성되는 단계;(a) inputting static characteristics of a target protein to generate a static feature;
    (b) 정적 단백질 상호작용(static protein-protein interaction) 정보가 입력되어 정적 네트워크(static network)가 생성되는 단계; (b) generating static networks by inputting static protein-protein interaction information;
    (c) 상기 대상 단백질의 이웃 단백질(neighborhood protein)의 정적 특성이 상기 정적 네트워크에 인가되어 네트워크 피쳐(network feature)가 생성되는 단계; (c) applying a static property of a neighbor protein of the target protein to the static network to generate a network feature;
    (d) 상기 정적 피쳐 및 상기 네트워크 피쳐를 이용하여 위치-피쳐 모델(location-feature model)이 생성되는 단계; (d) generating a location-feature model using the static feature and the network feature;
    (e) 소정의 조건에서의 발현 프로파일(expression profile)을 이용하여 밀착성 점수(coherence score)가 연산되는 단계; (e) calculating a coherence score using an expression profile under certain conditions;
    (f) 상기 밀착성 점수가 상기 정적 네트워크에 가중치(weight)로서 부여되어 동적 네트워크(dynamic network)가 생성되는 단계; (f) the adhesion score is assigned to the static network as a weight to create a dynamic network;
    (g) 상기 동적 네트워크에 상기 대상 단백질의 정적 특성 및 위치 정보가 인가되어 상기 소정의 조건에서의 단백질 피쳐(protein feature)가 생성되는 단계; 및(g) applying the static properties and location information of the target protein to the dynamic network to generate a protein feature under the predetermined condition; And
    (h) 상기 단백질 피쳐와 상기 위치-피쳐 모델을 이용하여 상기 소정의 조건에서의 상기 대상 단백질의 위치가 결정되는 단계를 포함하는 것을 특징으로 하는, (h) determining the location of the target protein under the predetermined condition by using the protein feature and the location-feature model.
    조건별 단백질의 세포 내 위치를 예측하기 위한 방법.Method for predicting intracellular location of conditional proteins.
  2. 제 1 항에 있어서, The method of claim 1,
    (i) 다수의 조건에서 상기 (a) 내지 (h)단계를 반복하여 조건의 변동에 따라 세포 내 위치가 변동되는 단백질(translocational protein)을 결정하는 단계(i) repeating the steps (a) to (h) in a plurality of conditions to determine a translocational protein whose position in the cell is changed according to the change of conditions
    를 더 포함하는 것을 특징으로 하는, Characterized in that it further comprises,
    조건별 단백질의 세포 내 위치를 예측하기 위한 방법.Method for predicting intracellular location of conditional proteins.
  3. 제 1 항 또는 제 2 항에 있어서,The method according to claim 1 or 2,
    상기 (e)단계는, 상기 밀착성 점수에 의해 주요 이웃 단백질을 결정하는 단계를 포함하는 것을 특징으로 하는, Step (e), characterized in that it comprises the step of determining the main neighboring protein by the adhesion score,
    조건별 단백질의 세포 내 위치를 예측하기 위한 방법.Method for predicting intracellular location of conditional proteins.
  4. 제 1 항 또는 제 2 항에 있어서,The method according to claim 1 or 2,
    상기 (h)단계는, 상기 대상 단백질의 위치는, 소정의 위치에 존재할 가능성 수준(possibility degree)으로서 출력되는 단계를 더 포함하는 것을 특징으로 하는, Wherein (h), the position of the target protein, characterized in that further comprising the step of outputting as a degree (possibility degree) to exist at a predetermined position,
    조건별 단백질의 세포 내 위치를 예측하기 위한 방법.Method for predicting intracellular location of conditional proteins.
  5. 제 1 항 또는 제 2 항에 있어서,The method according to claim 1 or 2,
    상기 밀착성 점수는 상기 대상 단백질과 상기 이웃 단백질 사이의 발현 프로파일 패턴의 유사성 및 발현 수준(expression level)의 유사성 중 어느 하나 이상에 의해 연산되는 것을 특징으로 하는, The adhesion score is calculated by any one or more of the similarity of the expression profile pattern and the expression level (expression level) between the target protein and the neighboring protein,
    조건별 단백질의 세포 내 위치를 예측하기 위한 방법.Method for predicting intracellular location of conditional proteins.
  6. 제 1 항 또는 제 2 항에 있어서,The method according to claim 1 or 2,
    상기 밀착성 점수는 상기 대상 단백질의 유전자와 상기 이웃 단백질의 유전자 사이의 발현 프로파일 패턴의 유사성 및 발현 수준의 유사성 중 어느 하나 이상에 의해 연산되는 것을 특징으로 하는, The adhesion score is calculated by any one or more of the similarity of the expression profile pattern and the expression level between the gene of the target protein and the gene of the neighboring protein,
    조건별 단백질의 세포 내 위치를 예측하기 위한 방법.Method for predicting intracellular location of conditional proteins.
  7. 제 5 항에 있어서, The method of claim 5,
    상기 밀착성 점수는 하기의 수식에 의해 연산되며, The adhesion score is calculated by the following formula,
    Figure PCTKR2012000118-appb-I000001
    Figure PCTKR2012000118-appb-I000001
    a는 상기 대상 단백질, a is the target protein,
    b는 상기 이웃 단백질, b is the neighboring protein,
    Φ(a, b)는 a, b의 밀착성 점수, Φ (a, b) is the adhesion score of a, b,
    ρ(a, b)는 a, b의 발현 수준의 피어슨 상관 계수(Pearson correlation coefficient), ρ (a, b) is the Pearson correlation coefficient of the expression level of a, b,
    med(a)는 a의 발현 수준의 중앙값(median), med (a) is the median of the expression levels of a,
    med(b)는 b의 발현 수준의 중앙값(median), med (b) is the median of the expression levels of b,
    MEDIAN은 a, b를 위해 사용된 유전자(gene)의 발현 수준의 중앙값(median), MEDIAN is the median of the expression levels of the genes used for a, b,
    Ψ(x)는 x의 p-value인 것을 특징으로 하는, Ψ (x) is a p-value of x,
    조건별 단백질의 세포 내 위치를 예측하기 위한 방법.Method for predicting intracellular location of conditional proteins.
  8. 제 1 항 또는 제 2 항에 있어서,The method according to claim 1 or 2,
    상기 (a)단계에서, 상기 정적 특성은 단일 단백질의 염기서열 정보(sequence information), 화학 정보(chemistry information), 모티프 정보(motif information) 및 기능 정보(function information)로 이루어진 그룹으로부터 선택되는 어느 하나 이상의 정보를 포함하는 것을 특징으로 하는, In the step (a), the static property is any one selected from the group consisting of sequence information, chemistry information, motif information and function information of a single protein It is characterized by including the above information,
    조건별 단백질의 세포 내 위치를 예측하기 위한 방법.Method for predicting intracellular location of conditional proteins.
  9. 제 1 항 또는 제 2 항에 있어서,The method according to claim 1 or 2,
    상기 (b)단계에서, 상기 정적 단백질 상호작용 정보는 단백질 수준 또는 유전자 수준에서의 관련된 상호작용 정보를 포함하는 것을 특징으로 하는,In the step (b), the static protein interaction information, characterized in that it comprises the relevant interaction information at the protein level or gene level,
    조건별 단백질의 세포 내 위치를 예측하기 위한 방법.Method for predicting intracellular location of conditional proteins.
  10. 제 1 항 또는 제 2 항에 있어서, The method according to claim 1 or 2,
    상기 (c)단계에서, 상기 대상 단백질의 상기 이웃 단백질은 상기 정적 특성 및 상기 정적 단백질 상호작용 정보에 의해 결정되는 것을 특징으로 하는, In the step (c), the neighboring protein of the target protein is characterized in that determined by the static properties and the static protein interaction information,
    조건별 단백질의 세포 내 위치를 예측하기 위한 방법.Method for predicting intracellular location of conditional proteins.
  11. 제 1 항 또는 제 2 항에 있어서, The method according to claim 1 or 2,
    상기 (d)단계는, 상기 정적 피쳐 및 상기 네트워크 피쳐 중 주요 피쳐가 DCkNN 분류기(Divide-and-Conquer k Nearest Neighbor method classifier)를 이용하여 세포 내 위치마다 선택되는 단계를 포함하는 것을 특징으로 하는, The step (d) is characterized in that the main feature of the static feature and the network feature is selected for each position within the cell using a DCkNN classifier (Divide-and-Conquer k Nearest Neighbor method classifier),
    조건별 단백질의 세포 내 위치를 예측하기 위한 방법.Method for predicting intracellular location of conditional proteins.
  12. 제 1 항 또는 제 2 항에 있어서, The method according to claim 1 or 2,
    상기 조건은 질병의 등급인 것을 특징으로 하는, The condition is characterized in that the grade of the disease,
    조건별 단백질의 세포 내 위치를 예측하기 위한 방법.Method for predicting intracellular location of conditional proteins.
  13. 제 12 항에 있어서, The method of claim 12,
    상기 조건은 암 등급(cancer grade)에 따른 것임을 특징으로 하는, The condition is characterized in that according to the cancer grade (cancer grade),
    조건별 단백질 상호작용 네트워크를 생성하기 위한 방법.A method for generating a conditional protein interaction network.
  14. (a) 대상 단백질의 정적 특성(static characteristics)이 입력되어 정적 피쳐(static feature)가 생성되는 단계;(a) inputting static characteristics of a target protein to generate a static feature;
    (b) 상기 정적 피쳐를 이용하여 위치-피쳐 모델(location-feature model)이 생성되는 단계; (b) generating a location-feature model using the static feature;
    (c) 소정의 조건에서의 발현 수준(expression level)을 이용하여 밀착성 점수(coherence score)가 연산되는 단계; (c) a coherence score is calculated using expression levels under certain conditions;
    (d) 상기 밀착성 점수가 상기 정적 피쳐에 가중치(weight)로서 부여되어 동적 네트워크(dynamic network)가 생성되는 단계; (d) the adhesion score is assigned to the static feature as a weight to create a dynamic network;
    (e) 상기 동적 네트워크에 상기 대상 단백질의 정적 특성 및 위치 정보가 인가되어 상기 소정의 조건에서의 단백질 피쳐(protein feature)가 생성되는 단계; 및(e) applying the static characteristics and location information of the target protein to the dynamic network to generate a protein feature under the predetermined condition; And
    (f) 상기 단백질 피쳐와 상기 위치-피쳐 모델을 이용하여 상기 소정의 조건에서의 상기 대상 단백질의 위치가 결정되는 단계를 포함하며, (f) determining the location of the target protein under the predetermined condition using the protein feature and the location-feature model,
    상기 조건은 세포 분화에 따른 조건인 것을 특징으로 하는, The condition is characterized in that the conditions according to the cell differentiation,
    세포 분화에 따른 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.A method for predicting the intracellular location of a conditional protein according to cell differentiation.
  15. 제 14 항에 있어서, The method of claim 14,
    (g) 다수의 조건에서 상기 (a) 내지 (f)단계를 반복하여 세포의 분화에 따른 조건의 변동에 따라 세포 내 위치가 변동되는 단백질(translocational protein)을 결정하는 단계(g) repeating steps (a) to (f) under a plurality of conditions to determine a protein (translocational protein) in which the position in the cell is changed in accordance with the change of conditions according to the differentiation of cells
    를 더 포함하는 것을 특징으로 하는, Characterized in that it further comprises,
    세포 분화에 따른 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.A method for predicting the intracellular location of a conditional protein according to cell differentiation.
  16. 제 14 항 또는 제 15 항에 있어서,The method according to claim 14 or 15,
    상기 (b)단계는, 상기 밀착성 점수에 의해 주요 이웃 단백질을 결정하는 단계를 포함하는 것을 특징으로 하는, Step (b), characterized in that it comprises the step of determining the main neighboring protein by the adhesion score,
    세포 분화에 따른 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.A method for predicting the intracellular location of a conditional protein according to cell differentiation.
  17. 제 14 항 또는 제 15 항에 있어서,The method according to claim 14 or 15,
    상기 (f)단계는, 상기 대상 단백질의 위치는, 소정의 위치에 존재할 가능성 수준(possibility degree)으로서 출력되는 단계를 더 포함하는 것을 특징으로 하는, The step (f) further comprises the step of outputting the position of the target protein as a degree of probability (possibility degree) that exists at a predetermined position.
    세포 분화에 따른 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.A method for predicting the intracellular location of a conditional protein according to cell differentiation.
  18. 제 14 항 또는 제 15 항에 있어서,The method according to claim 14 or 15,
    상기 밀착성 점수는 상기 대상 단백질과 상기 이웃 단백질 사이의 발현 수준의 유사성에 의해 연산되는 것을 특징으로 하는, The adhesion score is calculated by the similarity of the expression level between the target protein and the neighboring protein,
    세포 분화에 따른 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.A method for predicting the intracellular location of a conditional protein according to cell differentiation.
  19. 제 14 항 또는 제 15 항에 있어서,The method according to claim 14 or 15,
    상기 밀착성 점수는 상기 대상 단백질의 유전자와 상기 이웃 단백질의 유전자 사이의 발현 수준의 유사성에 의해 연산되는 것을 특징으로 하는, The adhesion score is calculated by the similarity of the expression level between the gene of the target protein and the gene of the neighboring protein,
    세포 분화에 따른 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.A method for predicting the intracellular location of a conditional protein according to cell differentiation.
  20. 제 14 항 또는 제 15 항에 있어서,The method according to claim 14 or 15,
    상기 밀착성 점수는 하기의 수식에 의해 연산되며, The adhesion score is calculated by the following formula,
    Figure PCTKR2012000118-appb-I000002
    Figure PCTKR2012000118-appb-I000002
    a는 상기 대상 단백질, a is the target protein,
    b는 상기 이웃 단백질, b is the neighboring protein,
    Φ(a, b)는 a, b의 밀착성 점수, Φ (a, b) is the adhesion score of a, b,
    ρ(a, b)는 a, b의 발현 수준의 피어슨 상관 계수(Pearson correlation coefficient), ρ (a, b) is the Pearson correlation coefficient of the expression level of a, b,
    Ψ(x)는 x의 p-value, Ψ (x) is the p-value of x,
    a에 관한 값인 Xi와 b에 관한 값인 Yi는 입력값으로부터 모든 상호작용 단백질 쌍의 상관 정도의 확률 분포(probability distribution)의 영역값,The values of a for X i and the values for b for Y i are the range of the probability distribution of the degree of correlation of all interacting protein pairs from the input,
    n은 시료의 개수, n is the number of samples,
    Sx는 x의 공분산,S x is the covariance of x,
    γx는 x의 상대적 발현 수준인 것을 특징으로 하는, γ x is the relative expression level of x,
    세포 분화에 따른 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.A method for predicting the intracellular location of a conditional protein according to cell differentiation.
  21. 제 14 항 또는 제 15 항에 있어서,The method according to claim 14 or 15,
    상기 (a)단계에서, 상기 정적 특성은 단일 단백질의 염기서열 정보(sequence information), 화학 정보(chemistry information), 모티프 정보(motif information) 및 기능 정보(function information)로 이루어진 그룹으로부터 선택되는 어느 하나 이상의 정보를 포함하는 것을 특징으로 하는, In the step (a), the static property is any one selected from the group consisting of sequence information, chemistry information, motif information and function information of a single protein It is characterized by including the above information,
    세포 분화에 따른 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.A method for predicting the intracellular location of a conditional protein according to cell differentiation.
  22. 제 14 항 또는 제 15 항에 있어서, The method according to claim 14 or 15,
    상기 (b)단계는, 상기 정적 피쳐 중 주요 피쳐가 DCkNN 분류기(Divide-and-Conquer k Nearest Neighbor method classifier)를 이용하여 세포 내 위치마다 선택되는 단계를 포함하는 것을 특징으로 하는, Step (b) is characterized in that the main feature of the static feature is selected for each position in the cell using a DCkNN classifier (Divide-and-Conquer k Nearest Neighbor method classifier),
    세포 분화에 따른 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.A method for predicting the intracellular location of a conditional protein according to cell differentiation.
  23. 제 14 항 또는 제 15 항에 있어서,The method according to claim 14 or 15,
    상기 조건은 신경줄기세포(HBI.F3) 조건 및 희소돌기아교세포(F3.Olig2) 조건 중 어느 하나 이상을 포함하는 것을 특징으로 하는, The condition is characterized in that it comprises any one or more of neural stem cells (HBI.F3) conditions and oligodendrocytes (F3.Olig2) conditions,
    세포 분화에 따른 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.A method for predicting the intracellular location of a conditional protein according to cell differentiation.
  24. (a) 대상 단백질의 정적 특성(static characteristics)이 입력되어 정적 피쳐(static feature)가 생성되는 단계;(a) inputting static characteristics of a target protein to generate a static feature;
    (b) 정적 단백질 상호작용(static protein-protein interaction) 정보가 입력되어 정적 네트워크(static network)가 생성되는 단계; (b) generating static networks by inputting static protein-protein interaction information;
    (c) 상기 대상 단백질의 이웃 단백질(neighborhood protein)의 정적 특성이 상기 정적 네트워크에 인가되어 네트워크 피쳐(network feature)가 생성되는 단계; (c) applying a static property of a neighbor protein of the target protein to the static network to generate a network feature;
    (d) 상기 정적 피쳐 및 상기 네트워크 피쳐를 이용하여 위치-피쳐 모델(location-feature model)이 생성되는 단계; (d) generating a location-feature model using the static feature and the network feature;
    (e) 소정의 외부자극 조건(stressful condition)에서의 시간별 발현 프로파일(expression profile)을 이용하여 밀착성 점수(coherence score)가 연산되는 단계; (e) calculating a coherence score using an expression profile over time in a predetermined stressful condition;
    (f) 상기 밀착성 점수가 상기 정적 네트워크에 가중치(weight)로서 부여되어 동적 네트워크(dynamic network)가 생성되는 단계; (f) the adhesion score is assigned to the static network as a weight to create a dynamic network;
    (g) 상기 동적 네트워크에 상기 대상 단백질의 정적 특성 및 위치 정보가 인가되어 상기 소정의 외부자극 조건에서의 단백질 피쳐(protein feature)가 생성되는 단계; 및(g) applying the static characteristics and location information of the target protein to the dynamic network to generate a protein feature under the predetermined external stimulus condition; And
    (h) 상기 단백질 피쳐와 상기 위치-피쳐 모델을 이용하여 소정의 시간 및 상기 소정의 외부자극 조건에서의 상기 대상 단백질의 위치가 결정되는 단계를 포함하며,(h) determining the location of the target protein at a predetermined time and at the predetermined external stimulus condition using the protein feature and the location-feature model,
    상기 발현 프로파일은 마이크로어레이(microarray)의 타임-시리즈(time-series)로 표현되는 결과값인 것을 특징으로 하는, The expression profile is characterized in that the result expressed in a time-series of the microarray (microarray),
    시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.Method for predicting intracellular location of proteins by time and external stimulus conditions.
  25. 제 24 항에 있어서, The method of claim 24,
    (i) 다수의 시간 및 외부자극 조건에서 상기 (a) 내지 (h)단계를 반복하여 시간 및 외부자극 조건의 변동에 따라 세포 내 위치가 변동되는 단백질(translocational protein)을 결정하는 단계(i) repeating steps (a) to (h) in a plurality of time and external stimulation conditions to determine a protein (translocational protein) in which the position in the cell is changed according to the change of time and external stimulation conditions
    를 더 포함하는 것을 특징으로 하는, Characterized in that it further comprises,
    시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.Method for predicting intracellular location of proteins by time and external stimulus conditions.
  26. 제 24 항 또는 제 25 항에 있어서,The method of claim 24 or 25,
    상기 (e)단계는, 상기 밀착성 점수에 의해 주요 이웃 단백질을 결정하는 단계를 포함하는 것을 특징으로 하는, Step (e), characterized in that it comprises the step of determining the main neighboring protein by the adhesion score,
    시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.Method for predicting intracellular location of proteins by time and external stimulus conditions.
  27. 제 24 항 또는 제 25 항에 있어서,The method of claim 24 or 25,
    상기 (h)단계는, 상기 대상 단백질의 위치는, 소정의 위치에 존재할 가능성 수준(possibility degree)으로서 출력되는 단계를 더 포함하는 것을 특징으로 하는, Wherein (h), the position of the target protein, characterized in that further comprising the step of outputting as a degree (possibility degree) to exist at a predetermined position,
    시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.Method for predicting intracellular location of proteins by time and external stimulus conditions.
  28. 제 24 항 또는 제 25 항에 있어서,The method of claim 24 or 25,
    상기 밀착성 점수는 상기 대상 단백질과 상기 이웃 단백질 사이의 발현 프로파일 패턴의 유사성 및 발현 수준(expression level)의 유사성 중 어느 하나 이상에 의해 연산되는 것을 특징으로 하는, The adhesion score is calculated by any one or more of the similarity of the expression profile pattern and the expression level (expression level) between the target protein and the neighboring protein,
    시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.Method for predicting intracellular location of proteins by time and external stimulus conditions.
  29. 제 24 항 또는 제 25 항에 있어서,The method of claim 24 or 25,
    상기 밀착성 점수는 상기 대상 단백질의 유전자와 상기 이웃 단백질의 유전자 사이의 발현 프로파일 패턴의 유사성 및 발현 수준의 유사성 중 어느 하나 이상에 의해 연산되는 것을 특징으로 하는, The adhesion score is calculated by any one or more of the similarity of the expression profile pattern and the expression level between the gene of the target protein and the gene of the neighboring protein,
    시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.Method for predicting intracellular location of proteins by time and external stimulus conditions.
  30. 제 27 항에 있어서, The method of claim 27,
    상기 밀착성 점수는 하기의 수식에 의해 연산되며, The adhesion score is calculated by the following formula,
    Figure PCTKR2012000118-appb-I000003
    Figure PCTKR2012000118-appb-I000003
    a는 상기 대상 단백질, a is the target protein,
    b는 상기 이웃 단백질, b is the neighboring protein,
    Φ(a, b)는 a, b의 밀착성 점수, Φ (a, b) is the adhesion score of a, b,
    ρ(a, b)는 a, b의 발현 수준의 피어슨 상관 계수(Pearson correlation coefficient), ρ (a, b) is the Pearson correlation coefficient of the expression level of a, b,
    med(a)는 a의 발현 수준의 중앙값(median), med (a) is the median of the expression levels of a,
    med(b)는 b의 발현 수준의 중앙값(median), med (b) is the median of the expression levels of b,
    MEDIAN은 a, b를 위해 사용된 유전자(gene)의 발현 수준의 중앙값(median), MEDIAN is the median of the expression levels of the genes used for a, b,
    Ψ(x)는 x의 p-value인 것을 특징으로 하는, Ψ (x) is a p-value of x,
    시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.Method for predicting intracellular location of proteins by time and external stimulus conditions.
  31. 제 24 항 또는 제 25 항에 있어서,The method of claim 24 or 25,
    상기 (a)단계에서, 상기 정적 특성은 단일 단백질의 염기서열 정보(sequence information), 화학 정보(chemistry information), 모티프 정보(motif information) 및 기능 정보(function information)로 이루어진 그룹으로부터 선택되는 어느 하나 이상의 정보를 포함하는 것을 특징으로 하는, In the step (a), the static property is any one selected from the group consisting of sequence information, chemistry information, motif information and function information of a single protein It is characterized by including the above information,
    시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.Method for predicting intracellular location of proteins by time and external stimulus conditions.
  32. 제 24 항 또는 제 25 항에 있어서,The method of claim 24 or 25,
    상기 (b)단계에서, 상기 정적 단백질 상호작용 정보는 단백질 수준 또는 유전자 수준에서의 관련된 상호작용 정보를 포함하는 것을 특징으로 하는,In the step (b), the static protein interaction information, characterized in that it comprises the relevant interaction information at the protein level or gene level,
    시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.Method for predicting intracellular location of proteins by time and external stimulus conditions.
  33. 제 24 항 또는 제 25 항에 있어서,The method of claim 24 or 25,
    상기 (c)단계에서, 상기 대상 단백질의 상기 이웃 단백질은 상기 정적 특성 및 상기 정적 단백질 상호작용 정보에 의해 결정되는 것을 특징으로 하는, In the step (c), the neighboring protein of the target protein is characterized in that determined by the static properties and the static protein interaction information,
    시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.Method for predicting intracellular location of proteins by time and external stimulus conditions.
  34. 제 24 항 또는 제 25 항에 있어서,The method of claim 24 or 25,
    상기 (d)단계는, 상기 정적 피쳐 및 상기 네트워크 피쳐 중 주요 피쳐가 DCkNN 분류기(Divide-and-Conquer k Nearest Neighbor method classifier)를 이용하여 세포 내 위치마다 선택되는 단계를 포함하는 것을 특징으로 하는, The step (d) is characterized in that the main feature of the static feature and the network feature is selected for each position within the cell using a DCkNN classifier (Divide-and-Conquer k Nearest Neighbor method classifier),
    시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.Method for predicting intracellular location of proteins by time and external stimulus conditions.
  35. 제 24 항 또는 제 25 항에 있어서,The method of claim 24 or 25,
    상기 외부자극 조건은, DTT(dithiothrietol) 조건 또는 MMS(methyl methanesulfonate) 조건 중 어느 하나 이상인 것을 특징으로 하는,The external stimulation conditions, characterized in that any one or more of DTT (dithiothrietol) conditions or MMS (methyl methanesulfonate) conditions,
    시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.Method for predicting intracellular location of proteins by time and external stimulus conditions.
  36. 제 24 항 또는 제 25 항에 따른 상기 대상 단백질의 위치에 따라,Depending on the location of the target protein according to claim 24,
    상기 대상 단백질의 생물학적 작용(biological process) 또는 분자 기능(molecular function) 중 어느 하나 이상을 예측하는 것을 특징으로 하는, Characterized in predicting any one or more of the biological process (molecular function) or molecular function (molecular function) of the target protein,
    시간 및 외부자극 조건별 단백질의 생물학적 작용 또는 분자 기능을 예측하기 위한 방법.A method for predicting the biological or molecular function of a protein by time and external stimulus conditions.
PCT/KR2012/000118 2011-01-07 2012-01-05 Method for predicting location of protein within cell and molecular function of protein for each condition WO2012093869A2 (en)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR10-2011-0001975 2011-01-07
KR10-2011-0001976 2011-01-07
KR1020110001976A KR101310419B1 (en) 2011-01-07 2011-01-07 Method for predicting cell differentiation―stage dependent condition―specific subcellular localization of protein
KR1020110001977A KR101255437B1 (en) 2011-01-07 2011-01-07 Method for predicting dynamic protein function including subcellular localization of protein under stressful conditions
KR10-2011-0001977 2011-01-07
KR1020110001975A KR101255443B1 (en) 2011-01-07 2011-01-07 Method for predicting condition―specific subcellular localization of protein

Publications (2)

Publication Number Publication Date
WO2012093869A2 true WO2012093869A2 (en) 2012-07-12
WO2012093869A3 WO2012093869A3 (en) 2012-11-29

Family

ID=46457858

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2012/000118 WO2012093869A2 (en) 2011-01-07 2012-01-05 Method for predicting location of protein within cell and molecular function of protein for each condition

Country Status (1)

Country Link
WO (1) WO2012093869A2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080019857A (en) * 2006-08-29 2008-03-05 한국과학기술원 Apparatus for prediction of tertiary structure from the protein amino acid sequences and prediction method thereof
KR20100118644A (en) * 2009-04-29 2010-11-08 충북대학교 산학협력단 Prediction method for diseasomal proteins from disease network

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080019857A (en) * 2006-08-29 2008-03-05 한국과학기술원 Apparatus for prediction of tertiary structure from the protein amino acid sequences and prediction method thereof
KR20100118644A (en) * 2009-04-29 2010-11-08 충북대학교 산학협력단 Prediction method for diseasomal proteins from disease network

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KI YOUNG LEE ET AL.: 'Protein networks markedly improve prediction of subcellular location in multiple eukaryotic species' NUCLEIC ACIDS RESEARCH vol. 36, no. 20, November 2008, *
KIYOUNG LEE ET AL.: 'Mapping plant interactomes using literature curated and predicted protein-protein interaction data sets' THE PLANT CELL vol. 22, April 2010, pages 997 - 1005 *

Also Published As

Publication number Publication date
WO2012093869A3 (en) 2012-11-29

Similar Documents

Publication Publication Date Title
WO2020204586A1 (en) Drug repositioning candidate recommendation system, and computer program stored in medium in order to execute each function of system
WO2019235828A1 (en) Two-face disease diagnosis system and method thereof
WO2018097635A1 (en) Method for excavating new drug candidate targeting nonstructure-structure transition site and apparatus for excavating new drug candidate
WO2021107676A1 (en) Artificial intelligence-based chromosomal abnormality detection method
WO2020045848A1 (en) System and method for diagnosing disease using neural network performing segmentation
WO2021125744A1 (en) Method and system for providing interpretation information on pathomics data
WO2020032559A2 (en) System and method for disease diagnosis using neural network
WO2017014469A1 (en) Disease risk prediction method, and device for performing same
WO2022124725A1 (en) Method, device, and computer program for predicting interaction between compound and protein
WO2022059886A1 (en) System for predicting pathogenicity of genetic mutation by using machine learning
WO2020022733A1 (en) Whole genome sequencing-based chromosomal abnormality detection method and use thereof
WO2017086675A1 (en) Apparatus for diagnosing metabolic abnormalities and method therefor
WO2022124724A1 (en) Machine-learning-based prognosis prediction method and device therefor
WO2015126058A1 (en) Method for predicting prognosis of cancer
WO2018084503A1 (en) Verification method using keyboard and mouse input behavior pattern of user, and recording medium recorded with program for implementing method
WO2021132920A1 (en) Tailored gene chip for genetic test and fabrication method therefor
Chen et al. Evaluation of two public genome references for chinese hamster ovary cells in the context of rna‐seq based gene expression analysis
WO2012093869A2 (en) Method for predicting location of protein within cell and molecular function of protein for each condition
WO2022097844A1 (en) Method for predicting survival prognosis of pancreatic cancer patients by using gene copy number variation information
WO2015053480A1 (en) System and method for analyzing biological samples
WO2017191871A1 (en) Method and device for determining reliability of variation detection marker
WO2020032560A2 (en) Diagnosis result generation system and method
WO2023090709A1 (en) Apparatus and method for analyzing cells by using state information of chromosome structure
Tan et al. Cell type-specific prediction of 3D chromatin architecture
WO2019235827A1 (en) Disease diagnosis system for supporting dual class, and method therefor

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12732460

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12732460

Country of ref document: EP

Kind code of ref document: A2