KR101255437B1 - Method for predicting dynamic protein function including subcellular localization of protein under stressful conditions - Google Patents

Method for predicting dynamic protein function including subcellular localization of protein under stressful conditions Download PDF

Info

Publication number
KR101255437B1
KR101255437B1 KR1020110001977A KR20110001977A KR101255437B1 KR 101255437 B1 KR101255437 B1 KR 101255437B1 KR 1020110001977 A KR1020110001977 A KR 1020110001977A KR 20110001977 A KR20110001977 A KR 20110001977A KR 101255437 B1 KR101255437 B1 KR 101255437B1
Authority
KR
South Korea
Prior art keywords
protein
time
conditions
static
proteins
Prior art date
Application number
KR1020110001977A
Other languages
Korean (ko)
Other versions
KR20120080483A (en
Inventor
이기영
Original Assignee
아주대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아주대학교산학협력단 filed Critical 아주대학교산학협력단
Priority to KR1020110001977A priority Critical patent/KR101255437B1/en
Priority to PCT/KR2012/000118 priority patent/WO2012093869A2/en
Publication of KR20120080483A publication Critical patent/KR20120080483A/en
Application granted granted Critical
Publication of KR101255437B1 publication Critical patent/KR101255437B1/en

Links

Images

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

본 발명은 개별 단백질 또는 유전자의 정적 특성, 이웃 단백질과의 단백질 상호작용 정보, 단백질 또는 유전자의 발현 프로파일 등을 입력함으로써 소정의 시간 및 외부자극 조건에서 대상 단백질의 세포 내 위치 정보를 포함한 동적인 기능 정보를 예측할 수 있는 방법을 제공한다.
본 발명에 의한 방법을 이용함으로써 기존에 공지된 대상 단백질과 소정의 시간 및 외부자극 조건을 입력함으로써 특정 시간 및 외부자극 조건에서 대상 단백질의 세포 내 위치 정보를 포함한 동적인 기능 정보를 효과적으로 예측할 수 있다.
The present invention provides a dynamic function including intracellular location information of a target protein at predetermined time and external stimulus conditions by inputting static characteristics of individual proteins or genes, protein interaction information with neighboring proteins, expression profiles of proteins or genes, and the like. It provides a way to predict information.
By using the method according to the present invention, it is possible to effectively predict dynamic functional information including the intracellular location information of the target protein at a specific time and external stimulus conditions by inputting a known protein and a predetermined time and external stimulus conditions. .

Description

시간 및 외부자극 조건에 따른 단백질의 세포 내 위치 정보를 포함한 동적 기능을 예측하기 위한 방법{Method for predicting dynamic protein function including subcellular localization of protein under stressful conditions}Method for predicting dynamic protein function including subcellular localization of protein under stressful conditions}

본 발명의 기술분야는 바이오인포매틱스(bioinformatics)이다. 보다 구체적으로, 본 발명은 개별 단백질 또는 유전자의 정적 특성, 이웃 단백질과의 단백질 상호작용 정보, 시간에 따른 단백질 또는 유전자의 발현 프로파일 등을 입력함으로써 소정의 외부자극 조건과 시간에서 대상 단백질의 세포 내에서의 위치 정보를 포함한 동적인 기능 정보를 예측할 수 있는 방법에 관한 것이다.
The technical field of the present invention is bioinformatics. More specifically, the present invention provides a method for injecting a target protein in a cell at a predetermined external stimulus condition and time by inputting static characteristics of an individual protein or gene, information on protein interaction with a neighboring protein, and expression profile of the protein or gene over time. The present invention relates to a method for predicting dynamic function information including location information in.

단백질은 다양한 외부 스트레스(external stresses), 질병 발전 단계(disease developmental stages) 및/또는 세포 분화 단계(cell differentiation stages)와 같은 조건에 따라 상이한 기능(function)을 갖는다. 이러한 생채내외 조건들(endogenous or exogenous conditions)은 단백질의 기능에 영향을 미쳐서 게놈 레벨(genomic level) 및/또는 단백질 레벨(proteomic level)의 제어 메커니즘(regulatory mechanism)을 이끈다. 이에, 이들을 규명하기 위한 많은 노력이 이루어지고 있다.Proteins have different functions depending on conditions such as various external stresses, disease developmental stages, and / or cell differentiation stages. These endogenous or exogenous conditions affect the function of the protein, leading to a regulating mechanism of genomic and / or proteomic levels. Accordingly, many efforts have been made to identify them.

이러한 노력의 성공적인 예 중 하나는 유전자 온톨로지(Gene Ontology, GO) 프로젝트이다. GO는 명확하게 한정되는 양호한 구조적 용어로서 3개의 구분 가능한 세트를 제공한다. 그러나 현재의 GO는 어떠한 조건(condition)과도 관련되어 있지 않다.One successful example of this effort is the Gene Ontology (GO) project. GO provides three distinct sets of good structural terms that are clearly defined. But the current GO is not related to any condition.

세포 구획(cellular compartment)에서 단백질의 세포 내 위치(subcellular location) 및 그 변화(translocation)에 관한 정보는 세포 기능 및 단백질을 이해하기 위한 중요한 정보이다. Information about the subcellular location and translocation of proteins in the cellular compartment is important information for understanding cellular functions and proteins.

그러나, 기존의 실험적 접근 방법(experimental approaches)으로서는 소수의 단백질 위치만이 파악 가능하였으며, 대부분의 방법들은 조건에 따른 단백질 위치가 아닌 조건과 무관한 일반적인 위치(unconditional location)만을 예측하는데 불과하였다.However, existing experimental approaches (experimental approaches) were able to identify only a few protein positions, most methods only predicted the unconditional location, not the condition-specific protein position.

단백질 위치 예측(protein location prediction)은 대상 단백질의 기본적인 정보를 이용하여 세포 내 위치를 알고 있는 다른 단백질과의 비교 분석으로 이루어질 수 있다. 이러한 위치 예측 방법은 공지된 단백질 서열이나 구조적 특징에 기초할 수 있다. 그러나 이러한 기존의 방법들 역시 정확도가 부족하고, 다수의 정보를 양호하게 활용하지 못하고, 더욱 중요한 것은 조건별로 단백질의 위치 정보를 예측하는 것이 구현되지 못한 실정이다.
Protein location prediction may be performed by comparative analysis with other proteins whose cell location is known using basic information of the target protein. Such location prediction methods may be based on known protein sequences or structural features. However, these existing methods also lack accuracy, do not utilize a lot of information well, and more importantly, it is not implemented to predict the location information of the protein by conditions.

이에 본 발명에서는, 특정 시간 및 외부자극 조건별로 단백질의 위치 정보를 포함한 동적인 기능 정보를 효과적으로 예측할 수 있는 방법을 제안하고자 한다. Accordingly, the present invention is to propose a method for effectively predicting dynamic function information including location information of proteins at specific time and external stimulation conditions.

즉, 공지된 정보를 입력함으로써 단백질 위치 예측에 필요한 특정 외부자극 조건에 따른 동적인 상호작용 네트워크를 생성하고, 상기 네트워크에 위치를 알고자 하는 대상 단백질 및 이웃의 정보를 입력함으로써 특정 시간 및 외부자극 조건에서의 대상 단백질의 세포 내 위치를 예측해서 출력할 수 있는 효과적인 시간 및 외부자극 조건별 위치 정보를 포함한 동적인 기능 정보 예측 방법을 제안하고자 한다.
That is, by inputting known information, a dynamic interaction network is generated according to a specific external stimulus condition necessary for protein location prediction, and a specific time and external stimulus are input by inputting information of a target protein and a neighbor to know the location in the network. The purpose of this study is to propose a method for predicting dynamic functional information including effective time and position information of external stimulus conditions that can predict and output the location of a target protein in a cell.

상기와 같은 과제를 해결하기 위해, 본 발명은 (a) 대상 단백질의 정적 특성(static characteristics)이 입력되어 정적 피쳐(static feature)가 생성되는 단계; (b) 정적 단백질 상호작용(static protein-protein interaction) 정보가 입력되어 정적 네트워크(static network)가 생성되는 단계; (c) 상기 대상 단백질의 이웃 단백질(neighborhood protein)의 정적 특성이 상기 정적 네트워크에 인가되어 네트워크 피쳐(network feature)가 생성되는 단계; (d) 상기 정적 피쳐 및 상기 네트워크 피쳐를 이용하여 위치-피쳐 모델(location-feature model)이 생성되는 단계; (e) 특정 외부자극 조건에서의 시간별 발현 프로파일(expression profile)을 이용하여 밀착성 점수(coherence score)가 연산되는 단계; (f) 상기 밀착성 점수가 상기 정적 네트워크에 가중치(weight)로서 부여되어 동적 네트워크(dynamic network)가 생성되는 단계; (g) 상기 동적 네트워크에 상기 대상 단백질의 정적 특성 및 위치 정보가 인가되어 특정 외부자극 조건에서의 단백질 피쳐(protein feature)가 생성되는 단계; 및 (h) 상기 단백질 피쳐와 상기 위치-피쳐 모델을 이용하여 특정 시간 및 외부자극 조건에서의 상기 대상 단백질의 위치가 결정되는 단계를 포함하며, 상기 발현 프로파일은 마이크로어레이(microarray)의 타임-시리즈(time-series)로 표현되는 결과값인 것을 특징으로 하는, 시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법을 제공한다. In order to solve the above problems, the present invention comprises the steps of (a) the static characteristics of the target protein (static characteristics) is input to generate a static feature (static feature); (b) generating static networks by inputting static protein-protein interaction information; (c) applying a static property of a neighbor protein of the target protein to the static network to generate a network feature; (d) generating a location-feature model using the static feature and the network feature; (e) a coherence score is calculated using an hourly expression profile under specific external stimulation conditions; (f) the adhesion score is assigned to the static network as a weight to create a dynamic network; (g) generating a protein feature under a specific external stimulus condition by applying the static characteristics and location information of the target protein to the dynamic network; And (h) determining the location of the target protein at specific time and external stimulus conditions using the protein feature and the location-feature model, wherein the expression profile is a time-series of microarrays. It provides a method for predicting the intracellular location of the protein according to the time and external stimulation conditions, characterized in that the result expressed in (time-series).

또한, (i) 다수의 시간 및 외부자극 조건에서 상기 (a) 내지 (h)단계를 반복하여 시간 및 외부자극 조건의 변동에 따라 세포 내 위치가 변동되는 단백질(translocational protein)을 결정하는 단계를 더 포함하는 것이 바람직하다.In addition, (i) repeating the steps (a) to (h) in a plurality of times and external stimulation conditions to determine a protein (translocational protein) in which the position in the cell is changed according to the change of time and external stimulation conditions It is preferable to further include.

또한, 상기 (e)단계는, 상기 밀착성 점수에 의해 주요 이웃 단백질을 결정하는 단계를 포함하는 것이 바람직하다.In addition, the step (e), it is preferable to include the step of determining the main neighboring protein by the adhesion score.

또한, 상기 (h)단계는, 상기 대상 단백질의 위치는, 소정의 위치에 존재할 가능성 수준(possibility degree)으로서 출력되는 단계를 더 포함하는 것이 바람직하다.In addition, the step (h), it is preferable that the position of the target protein further comprises the step of outputting as a degree of probability (possibility degree) to exist at a predetermined position.

또한, 상기 밀착성 점수는 상기 대상 단백질(또는 유전자)과 상기 이웃 단백질(또는 유전자) 사이의 발현 프로파일 패턴의 유사성 및 발현 수준(expression level)의 유사성 중 어느 하나 이상에 의해 연산되는 것이 바람직하다.In addition, the adhesion score is preferably calculated by any one or more of the similarity of the expression level (expression level) and the similarity of the expression profile pattern between the target protein (or gene) and the neighboring protein (or gene).

또한, 상기 (a)단계에서, 상기 정적 특성은 단일 단백질의 염기서열 정보(sequence information), 화학 정보(chemistry information), 모티프 정보(motif information) 및 기능 정보(function information)로 이루어진 그룹으로부터 선택되는 어느 하나 이상의 정보를 포함하는 것이 바람직하다.In addition, in the step (a), the static characteristics are selected from the group consisting of sequence information, chemical information, motif information and function information of a single protein. It is desirable to include any one or more pieces of information.

또한, 상기 (a)단계에서, 상기 정적 특성은 단일 단백질의 염기서열 정보(sequence information), 화학 정보(chemistry information), 모티프 정보(motif information) 및 기능 정보(function information)로 이루어진 그룹으로부터 선택되는 어느 하나 이상의 정보를 포함하는 것이 바람직하다.In addition, in the step (a), the static characteristics are selected from the group consisting of sequence information, chemical information, motif information and function information of a single protein. It is desirable to include any one or more pieces of information.

또한, 상기 (b)단계에서, 상기 정적 단백질 상호작용 정보는 단백질 수준 또는 유전자 수준에서의 관련된 상호작용 정보를 포함하는 것이 바람직하다.In addition, in the step (b), the static protein interaction information preferably includes related interaction information at the protein level or gene level.

또한, 상기 (c)단계에서, 상기 대상 단백질의 상기 이웃 단백질은 상기 정적 특성 및 상기 정적 단백질 상호작용 정보에 의해 결정되는 것이 바람직하다.In addition, in step (c), the neighboring protein of the target protein is preferably determined by the static properties and the static protein interaction information.

또한, 상기 (d)단계는, DCkNN 분류기(Divide-and-Conquer k Nearest Neighbor method classifier)를 이용하여 상기 정적 피쳐 및 상기 네트워크 피쳐 중에서 상기 위치-피쳐 모델을 위한 피쳐가 선택되는 단계를 포함하는 것이 바람직하다.Also, the step (d) may include selecting a feature for the location-feature model from the static feature and the network feature using a DCkNN classifier (Divide-and-Conquer k Nearest Neighbor method classifier). desirable.

또한, 상기 외부자극 조건으로서 외부에서 가해지는 어떠한 조건도 사용 가능하며, 예를 들어 DTT(dithiothrietol) 조건과 MMS(methyl methanesulfonate) 조건 중 어느 하나 이상을 사용할 수 있다.In addition, any conditions applied externally may be used as the external stimulation conditions, and for example, any one or more of DTT (dithiothrietol) conditions and MMS (methyl methanesulfonate) conditions may be used.

또한, 본 발명에 의한 방법을 사용함으로써, 상기 대상 단백질의 생물학적 작용(biological process) 또는 분자 기능(molecular function) 중 어느 하나 이상을 예측하는 단계를 더 포함할 수 있다.
In addition, by using the method of the present invention, the method may further include predicting any one or more of a biological process or a molecular function of the target protein.

본 발명에 의해, 대상 단백질의 정보, 단백질의 상호작용 정보 및 특정 외부자극 조건 에서의 단백질 또는 유전자의 발현 정보를 입력함으로써 특정 시간 및 외부자극 조건에서 대상 단백질의 위치 정보를 포함한 동적인 기능(function) 정보를 효과적으로 예측할 수 있다. 예측되는 정보로서, 동적인 생물학적 작용(dynamic biological process) 또는 동적인 분자 기능(dynamic molecular function) 등을 들 수 있다.According to the present invention, a dynamic function including position information of a target protein at a specific time and an external stimulus condition by inputting information of a target protein, protein interaction information, and expression of a protein or gene under specific external stimulus conditions Information can be predicted effectively. As predicted information, a dynamic biological process or a dynamic molecular function may be mentioned.

또한, 본 발명에 의한 방법을 활용함으로써 단백질의 특정 외부자극 조건에서 모든 단백질에 거쳐서(proteome-wide) 그리고 어떠한 시간과 외부자극 조건에서도(time and condition-wide) 대상 단백질의 위치를 효과적으로 예측할 수 있다. 도 3 내지 도 5에 도시되며 후술한 바와 같이 그 예측의 정확도는 매우 높다.In addition, by utilizing the method according to the present invention, it is possible to effectively predict the location of the target protein across all proteins under certain external stimulus conditions of the protein and at any time and condition-wide. . 3 to 5 and as described below, the accuracy of the prediction is very high.

시간 및 외부자극 조건에 따른 예측이 가능하기에 당연하게도 정상 조건(normal condition)에서의 위치 예측이 가능하다. 이를 통하여 기존에 알려지지 않았거나 또는 기존에 잘못 알려졌던 정상 조건에서의 단백질의 위치 예측 및 검증이 효과적으로 이루어질 수 있다.
Prediction according to time and external stimulus conditions is possible, of course, it is possible to predict the position under normal conditions (normal conditions). Through this, it is possible to effectively predict and verify the location of the protein under normal conditions that are not known or are known in the past.

도 1 및 도 2는 본 발명에 따른 방법을 수행하기 위한 순서도 및 참고도이다.
도 3 내지 도 5는 효모 단백질을 사용하여 검증한 결과로서, 시간 및 외부자극 조건별로 단백질의 세포 내 위치를 예측한 결과와 이를 검증한 결과를 도시한다.
1 and 2 are a flow chart and a reference diagram for carrying out the method according to the invention.
3 to 5 illustrate the results obtained by using the yeast protein and predicting the intracellular location of the protein according to time and external stimulation conditions and the results of verifying the same.

본 발명에서 정보들은 전산 처리가 가능한 제어부(미도시)에 입력장치(미도시)를 통해서 입력되며 출력장치(미도시)를 통해서 출력된다. 제어부는 정보의 전산 처리가 가능한 어떠한 기기여도 무방하며, 입력장치는 키보드 또는 마우스와 같이 제어부에 정보를 입력할 수 있는 어떠한 기기여도 무방하며, 출력장치는 모니터 또는 프린터와 같이 사용자에게 결과물을 시각적으로 보여줄 수 있는 어떠한 기기여도 무방하다.
In the present invention, the information is input through a input device (not shown) to a control unit (not shown) capable of computer processing and output through an output device (not shown). The control unit may be any device capable of computing information, and the input device may be any device capable of inputting information to the control unit such as a keyboard or a mouse. It can be any device that can be shown.

이하에서 단백질의 "위치"는, 단백질의 세포 내의 위치(subcellular localization)를 의미한다. 예를 들어, 단백질의 위치는 액틴(Actin, AT), 세포피질(Cell Cortex, CC), 중심체(Centrosome, CT), 사이토졸(Cytosol, CY), 소포체(Endoplasmic Reticulum, ER), 골지체(Golgi Apparatus, GL), 리소좀(Lysosome, LS), 미토콘드리아(Mitochondrion, MT), 핵소체(Nucleolus, NO), 핵(Nucleus, NU), 페록시솜(Peroxisome, PX), 세포막(Plasma Membrane, PM), 액포 (Vacuole, VU) 중 어느 하나일 수 있다.Hereinafter, "position" of a protein means subcellular localization of the protein. For example, the protein is located in Actin (AT), Cell Cortex (CC), Centrosome (CT), Cytosol (CY), Endoplasmic Reticulum (ER), Golgi (Golgi) Apparatus (GL), Lysosome (LS), Mitochondrion (MT), Nucleolus (NO), Nucleus (Nucleus, NU), Peroxysome (PX), Plasma Membrane (PM), It may be any one of vacuole (VU).

이하에서 "이웃 단백질(neighborhood protein)"은 특정 외부자극 조건에서 대상 단백질과 동일한 세포 내 위치에 위치하면서 서로 밀접하고 관련되어 있을 것으로 예측되는 단백질을 의미한다. 시간 및 외부자극 조건에 따라 또는 대상 단백질에 따라 변한다. 또한, 특정 시간 및 외부자극 조건에서 하나의 대상 단백질의 이웃 단백질은 다수일 수 있으며 각각의 이웃하는 정도 또는 밀착성 정도는 상이할 수 있다. 이에, 후술할 바와 같이 위치 예측은 가능성 정도로서 표현되는 것이 바람직하다(도 3 내지 도 5 참조).
Hereinafter, "neighborhood protein" refers to a protein that is expected to be closely related to each other and located at the same intracellular location as the protein of interest under specific external stimulation conditions. It depends on time and external stimulus conditions or on the protein of interest. In addition, at certain time and external stimulus conditions, the neighboring protein of one target protein may be plural and each neighboring degree or adhesion degree may be different. Therefore, as will be described later, the position prediction is preferably expressed as a degree of likelihood (see FIGS. 3 to 5).

도 1 및 도 2를 참고하여 본 발명에 따른 방법을 설명한다. The method according to the invention will be described with reference to FIGS. 1 and 2.

본 발명에 따라 특정 시간 및 특정 외부자극 조건에서의 대상 단백질 위치를 예측하기 위해 기존에 공지된 많은 데이터들이 사용된다. Many known data are used in accordance with the present invention to predict target protein locations at specific times and at specific external stimulus conditions.

먼저, 단일 단백질(single protein)의 정적 특성(static characteristics)을 제어부에 입력하여 정적 피쳐(static feature)를 생성한다(S110). 입력되는 정적 특성은 염기서열 정보(sequence information), 화학 정보(chemistry information), 모티프 정보(motif information) 및 기능 정보(function information) 등일 수 있다. 상기 정보들의 내용은 종래기술인바 상세한 설명은 생략한다.First, static characteristics of a single protein are input to a controller to generate a static feature (S110). The input static property may be sequence information, chemical information, motif information, function information, and the like. The content of the information is a prior art, detailed description thereof will be omitted.

다음, 대상 단백질과 관련있는 정적 단백질 상호작용(static protein-protein interaction) 정보를 제어부에 입력하여 정적 네트워크(static network)를 생성한다(S120).Next, static protein-protein interaction information related to the target protein is input to the controller to generate a static network (S120).

다음, 대상 단백질과 관련있는 이웃 단백질(neighborhood protein)의 정적 특성을 S120 단계에서 생성된 정적 네트워크에 인가하여 네트워크 피쳐(network feature)를 생성한다(S130). 이웃 단백질은 공지된 정적 특성 및 정적 단백질 상호작용 정보(static protein-protein interactions) 등을 이용하여 결정할 수 있다. 또한, 이와 동시에 이웃 단백질의 세포 내 위치를 알 수 있는 경우 그 위치 정보가 함께 입력될 수 있다. Next, a network feature is generated by applying a static property of a neighbor protein related to the target protein to the static network generated in step S120 (S130). Neighbor proteins can be determined using known static properties, static protein-protein interactions, and the like. At the same time, when the position of the neighboring protein in the cell can be known, the position information can be input together.

정적 피쳐와 네트워크 피쳐가 도 2의 A 상단에 도시된다.Static and network features are shown at the top of A of FIG. 2.

다음, 각각의 세포 내 위치별로 좋은 피쳐를 선택함으로써 위치-피쳐 모델(location-feature model)을 생성한다(S140). 전술한 13개의 세포 내 위치마다 피쳐를 선택할 수 있으며, 이 때에 피쳐의 선택은 좋은 피쳐를 자동으로 선택하여 주는 DCkNN 분류기를 이용할 수 있다. DCkNN 분류기 및 이를 이용하는 방법은 종래기술인바 상세한 설명은 생략한다. DCkNN 분류기를 통하여 최적의 피쳐 및 그 조합이 선택될 수 있다. 위치-피쳐 모델이 도 2의 A의 하단에 도시된다. 선택된 피쳐가 검은색으로 표기되었다. Next, a location-feature model is generated by selecting a good feature for each intracellular location (S140). A feature can be selected for each of the 13 intracellular locations described above, where the selection of features can utilize a DCkNN classifier that automatically selects a good feature. The DCkNN classifier and the method using the same are known in the art, and thus detailed description thereof will be omitted. The optimal feature and its combination can be selected through the DCkNN classifier. The location-feature model is shown at the bottom of A in FIG. 2. The selected feature is marked in black.

다음, 특정 외부자극 조건에서의 발현 프로파일(expression profile)을 이용하여 밀착성 점수(coherence score)를 연산하고(S150), 이를 S120에서 생성된 정적 네트워크의 각 단백질-단백질 상호작용에 가중치(weight)로서 부여함으로 동적 네트워크(dynamic network)를 생성한다(S160). 가중치가 부여된 동적 네트워크(weighted dynamic network)가 도 2의 B에 도시된다. Next, a coherence score is calculated using an expression profile under specific external stimulus conditions (S150), which is weighted to each protein-protein interaction of the static network generated at S120. By assigning, a dynamic network is generated (S160). A weighted dynamic network is shown in B of FIG. 2.

밀착성 점수는 대상 단백질(또는 유전자)과 이웃 단백질(또는 유전자) 사이의 발현 프로파일 패턴의 유사성 및 발현 수준(expression level)의 유사성 중 어느 하나 이상에 의해 연산된다. The adhesion score is calculated by one or more of the similarity of expression profile patterns and similarity of expression levels between the protein of interest (or genes) and neighboring proteins (or genes).

여기에서, 입력되는 발현 프로파일로 및 발현 수준으로서 마이크로어레이(microarray) 결과값이 이용된다. 마이크로어레이 결과값은 시간을 변수로 갖는 타임-시리즈(time-series)로서 표현되기에, 가중치인 밀착성 점수 및 이에 따른 동적 네트워크는 시간을 변수로 갖는다. Here, microarray results are used as the input expression profile and as the expression level. The microarray result is expressed as a time-series with time as a variable, so that the weight of the adhesiveness score and hence the dynamic network has time as a variable.

보다 구체적으로 밀착성 점수를 연산하는 다양한 방법이 존재하나, 일 실시 예에서 하기와 같은 수식을 사용할 수 있다.
More specifically, there are various methods of calculating the adhesion score, but in one embodiment, the following equation may be used.

Figure 112011001532164-pat00001
Figure 112011001532164-pat00001

여기에서, Φ(a, b)는 a, b의 밀착성 점수, a는 대상 단백질, b는 이웃 단백질, ρ(a, b)는 a, b의 발현 수준의 피어슨 상관 계수, med(a)는 a의 발현 수준의 중앙값(median), med(b)는 b의 발현 수준의 중앙값(median), MEDIAN은 a, b를 위해 사용된 유전자(gene)의 발현 수준의 중앙값(median), Ψ(x)는 x의 유의확률(p-value)이다. 상기와 같은 수식에 의해 밀착성 점수는 양수의 값을 갖게 되며, 가까울수록 큰 값을 갖는다. 전술한 바와 같이, 밀착성 점수인 Φ(a, b)는 시간을 변수로 갖는 값이다. Here, Φ (a, b) is the adhesion score of a, b, a is the target protein, b is the neighboring protein, ρ (a, b) is the Pearson correlation coefficient of the expression level of a, b, med (a) is median of the expression level of a, med (b) is the median of the expression level of b, MEDIAN is the median of the genes used for a, b, Ψ (x Is the p-value of x. According to the above equation, the adhesive score has a positive value, and the closer it is, the larger the value. As described above, the adhesiveness score Φ (a, b) is a value having time as a variable.

밀착성 점수에 의해 주요 이웃 단백질을 결정할 수 있다. 도 2의 B 하단에 도시된 실시예는, 정상 조건(Normal)에서는 대상 단백질(중앙의 백색원)의 주요 이웃 단백질로 소포체(ER)에 위치한 단백질(사각형)이 주요 이웃 단백질로 결정되었으며 낮은 암 등급(Low)과 높은 암 등급(High)에서는 핵소체(NU)에 위치한 단백질(녹색원)이 주요 이웃 단백질로 결정되었음을 도시한다. 굵기가 굵을수록 밀착성 점수의 값이 큰 것을 의미한다.The adhesion score can determine the major neighboring proteins. In the example shown in the lower part of B of FIG. 2, in normal condition, the protein (square) located in the ER as the main neighboring protein of the target protein (the central white circle) has been determined as the main neighboring protein and the low cancer. Low and high cancer levels show that the protein (green circle) located in the nucleolus (NU) has been determined to be the major neighboring protein. The thicker the thickness, the larger the value of the adhesive score.

다음, S160에서 생성된 동적 네트워크에 대상 단백질의 정적 특성과 위치 정보를 인가하여 특정 외부자극 조건의 단백질 피쳐(protein feature)를 생성한다(S170). 동적 네트워크가 시간을 변수로 갖기에, 단백질 피쳐 역시 시간을 변수로 갖는다. Next, the static characteristics and location information of the target protein is applied to the dynamic network generated in S160 to generate a protein feature of a specific external stimulus condition (S170). Because dynamic networks have time as a variable, protein features also have time as a variable.

다음, S140에서 생성된 위치-피쳐 모델과 S170에서 생성된 단백질 피쳐를 이용하여 특정 시간 및 외부자극 조건에서 대상 단백질의 위치를 예측할 수 있다(S180). 도 2의 C에 도시되는 바와 같이 대상 단백질의 위치는 특정 위치에 존재할 가능성 수준(possibility degree)으로서 출력되는 것이 바람직하다.
Next, the position of the target protein may be predicted at a specific time and external stimulus condition using the position-feature model generated in S140 and the protein feature generated in S170 (S180). As shown in C of FIG. 2, the position of the target protein is preferably output as a degree of probability existing at a specific position.

또한, 상기의 과정을 반복함으로써, 비교 가능한 시간 및 외부자극 조건에서 단백질의 위치 정보를 비교할 수 있는 시간 및 조건별 위치맵을 생성할 수 있다. 이를 통해 시간 및 외부자극 조건이 변함에 따라 위치가 변경되는 단백질(translocational protein)을 결정할 수 있다.
In addition, by repeating the above process, it is possible to generate a location map for each time and condition that can compare the location information of the protein in the comparable time and external stimulation conditions. Through this, it is possible to determine a translocational protein whose position changes as time and external stimulus conditions change.

이와 같이 본 발명에 따른 방법은 모든 단백질에 대하여 예측 가능하며(proteome-wide) 모든 시간 및 외부자극 조건에 대하여 예측 가능한(time and condition-wide) 방법이다.As such, the method according to the invention is proteome-wide and time and condition-wide for all time and external stimulus conditions.

또한, 이러한 방법을 활용함으로써 생물학적 작용(biological process) 또는 분자 기능(molecular function) 등을 예측할 수 있음은 물론이다.
In addition, it is possible to predict the biological process (molecular function) and the like by utilizing this method.

도 3은 S140 단계에서 생성되는 위치-피쳐 모델의 실시예이다. 기능 카테고리 각각의 타입에서 적어도 하나의 공지된 기능을 갖는 효모 단백질(yeast protein)로부터의 실험으로서, 9개의 종류의 단일 단백질 정적 피쳐를 사용하였으며, 20개의 종류의 네트워크 피쳐를 사용한 결과이다. 전술한 바와 같이 DCkNN 분류기를 이용하여 최적의 피쳐를 선택하였으며, 선택된 피쳐가 검은색으로 표기되었다.
3 is an embodiment of a position-feature model generated in step S140. As an experiment from yeast proteins having at least one known function in each type of function category, nine types of single protein static features were used, and the result was the use of 20 types of network features. As described above, the optimal feature was selected using the DCkNN classifier, and the selected feature was marked in black.

도 4는, 도 3에서 전술한 효모 단백질을 이용하여 본 발명에 따른 방법을 검증한 결과를 도시하며, 특히 시간과 무관하게 동일한 위치할 것으로 예측된 경우를 도시하였다. 또한, 이러한 결과는 기존에 알려져 있지 않은 위치를 포함한 정보를 밝혀 내거나, 잘못 알려진 정보를 수정할 수 있음을 나타낸다.
Figure 4 shows the results of verifying the method according to the invention using the yeast protein described above in Figure 3, in particular showing the case where it is expected to be the same regardless of time. In addition, these results reveal that it is possible to uncover information that includes previously unknown locations or to correct erroneously known information.

특히 시간과 무관하게 동일한 위치할 것으로 예측된 경우를 상단에 도시하고, 시간에 따라 위치가 변경될 것으로 예측된 경우를 하단에 도시하였다. In particular, the case where it is predicted to be the same position irrespective of time is shown at the top, and the case where the position is predicted to change with time is shown at the bottom.

도 5의 상단의 우측에 본 발명에 따른 YBL072C/RPS8A에 대한 시간 및 조건별 위치맵이 도시된다. 정상 조건(normal)과 대비되도록 DTT(dithiothrietol) 조건과 MMS(methyl methanesulfonate) 조건을 사용하였다. 본 발명에 따른 예측 결과, 정상 조건, DTT 조건 및 MMS 조건에서 모두 YBL072C/RPS8A가 사이토졸(cytosol)에 위치할 것으로 예측되었다. On the right side of the upper part of FIG. 5, a time and conditional location map for YBL072C / RPS8A according to the present invention is shown. Dithiothrietol (DTT) and methyl methanesulfonate (MMS) conditions were used to contrast with normal conditions. As a result of the prediction according to the present invention, it was predicted that YBL072C / RPS8A would be located in the cytosol under normal conditions, DTT conditions and MMS conditions.

도 5의 상단의 좌측은 검증 결과를 도시한다. DTT 조건으로서, 2.5mM 농도의 DTT를 추가하여 2시간 후 세포를 관찰하고 시간별 발현 프로파일의 결과값을 사용하였으며, MMS 조건 역시 이와 동일하였다. 정상 조건의 결과가 "before"로 도시된다. 실험 결과, 도시된 바와 같이 정상 조건, DTT 조건 및 MMS 조건에서 모두 YBL072C/RPS8A가 사이토졸에 위치함을 확인하였다. The left side of the upper part of FIG. 5 shows the verification result. As the DTT condition, the cells were observed after 2 hours by adding 2.5 mM DTT and the results of the hourly expression profiles were used, and the MMS conditions were the same. The result of the normal condition is shown as "before". As a result, it was confirmed that YBL072C / RPS8A is located in the cytosol under normal conditions, DTT conditions and MMS conditions as shown.

도 5의 좌하단에 본 발명에 따른 YJL146W/IDS2에 대한 시간 및 조건별 위치맵과 그 검증 결과가 도시된다. 정상 조건에서는 세포질(CY)에 위치할 확률이 높고 핵(NU)에 위치할 확률이 낮았으나, MMS 조건에서 시간에 따라 세포질(CY)에 의치할 확률이 점차 낮아지고 핵(NU)에 위치할 확률이 점차 증가할 것으로 예측되었다. 다수의 실험 결과를 오버랩(overlap)하여 이를 검증한 결과, 본 발명에 의한 예측이 옳았음을 확인하였다. In the lower left of Figure 5 is a position map for each time and condition for the YJL146W / IDS2 according to the present invention and the verification results thereof are shown. Under normal conditions, the probability of being located in the cytoplasm (CY) was high and the probability of being located in the nucleus (NU) was low.However, in the MMS condition, the probability of being placed in the cytoplasm (CY) gradually decreases with time, and will be located in the nucleus (NU). The probability is expected to increase gradually. As a result of overlapping and verifying a plurality of experimental results, it was confirmed that the prediction according to the present invention was correct.

도 4의 중하단에 본 발명에 따른 YNL278W/CAF120에 대한 시간 및 조건별 위치맵과 그 검증 결과가 도시된다. 정상 조건에서는 출아목(bud neck, BN)을 포함하는 다양한 위치에 위치하다가, MMS 조건에서 시간에 따라 세포질(CY)에 위치할 확률이 점차 높아지고 다른 위치에 위치할 확률은 점차 낮아질 것으로 예측되었다. 이를 검증한 결과, 본 발명에 의한 예측이 옳았음을 확인하였다. In the middle of the lower portion of Figure 4 is a position map for each time and condition for the YNL278W / CAF120 according to the present invention and its verification results are shown. In normal conditions, it is expected to be located in various positions including bud neck (BN), and the probability of being located in the cytoplasm (CY) will increase gradually over time in MMS conditions, and will be gradually decreased in other positions. As a result of this, it was confirmed that the prediction according to the present invention was correct.

또한, 본 발명에 따른 YIL090W/ICE2에 대한 시간 및 조건별 위치맵과 그 검증 결과가 도시된다. 정상 조건에서는 소포체(ER)에 위치할 확률이 높았으나 DTT 조건에서 시간에 따라 점차 낮아질 것으로 예측되었다. 유사하게 이를 검증한 결과, 본 발명에 의한 예측이 옳았음을 확인하였다.In addition, the positional map for each time and condition for YIL090W / ICE2 according to the present invention and the verification result thereof are shown. Under normal conditions, it was highly likely to be located in the ER, but it was expected to decrease gradually with time in the DTT condition. Similarly, this result confirmed that the prediction according to the present invention was correct.

도 4의 우하단에 본 발명에 따른 YDL060W/TSR1에 대한 시간 및 조건별 위치맵과 그 검증 결과가 도시된다. 정상 조건에서는 핵소체(NO)와 핵(NU)에 위치할 확률이 낮고 세포질(CY)에 위치할 확률이 매우 높았으나 MMS 조건에서 시간에 따라 특히 핵소체(NO)에 위치할 확률은 점차 높아지고 세포질(CY)에 위치할 확률은 점차 낮아질 것으로 예측되었다. 유사하게 이를 검증한 결과, 본 발명에 의한 예측이 옳았음을 확인하였다.
4 shows a location map for each time and condition for YDL060W / TSR1 according to the present invention, and a verification result thereof. Under normal conditions, the probability of being located in the nucleolus (NO) and the nucleus (NU) was very low, and the probability of being located in the cytoplasm (CY) was very high. The probability of being located at CY) is expected to decrease gradually. Similarly, this result confirmed that the prediction according to the present invention was correct.

본 발명에 의한 방법을 사용함으로써, 시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측할 수 있음은 물론이며, 정상 조건(general/normal condition)에서의 위치 예측 및 검증에 있어서도 높은 성능을 갖고 있음을 확인할 수 있었다.By using the method according to the present invention, it is possible not only to predict the intracellular location of proteins by time and external stimulus conditions, but also to have high performance in the position prediction and verification under normal / normal conditions. I could confirm it.

본 발명에 의한 방법을 그대로 사용하고, 공지된 정상 조건의 유전자 발현 프로파일을 이용함으로써, 정상 조건의 위치맵을 생성하였다. GO로부터 확보할 수 있는 33개의 BPs, 22개의 MFs 및 22개의 위치를 활용하여 이를 검증하였다. 본 발명에 의한 방법을 사용함으로써, 도 5의 좌상단에 도시되는 바와 같이 종래 0.90(BPs), 0.93(위치), 및 0.94(MFs)에서 0.96(BPs), 0.98(위치) 및 0.98(MFs)로 그 성능이 증가하였음을 확인할 수 있다. 이는 가중치가 적용되지 않은 종래의 방법에 비하여 가중치가 적용되는 본 발명에 의한 방법이 보다 효과적임을 의미한다.By using the method according to the present invention as it is and using a known normal gene expression profile, a location map of the normal condition was generated. This was validated using 33 BPs, 22 MFs and 22 locations from GO. By using the method according to the present invention, the conventional 0.90 (BPs), 0.93 (position), and 0.94 (MFs) to 0.96 (BPs), 0.98 (position) and 0.98 (MFs) as shown in the upper left of FIG. It can be seen that the performance is increased. This means that the method according to the present invention to which the weight is applied is more effective than the conventional method to which the weight is not applied.

도 5의 우상단에 도시된 바와 같이, 본 발명에 의한 방법을 활용함으로써 모든 게놈에 거쳐(genome-wide) 미지의 정상 조건(위치) 예측이 가능하다. 효모 단백질에서, 종래에는 5,776개의 효모 단백질에 대한 상호작용 등의 정보가 공지되나 예를 들어 1,867개의 효모 단백질은 정확한 위치 예측이 불가능하였다. 그러나, 본 발명을 활용함으로써 정상 조건의 미지의 위치 또한 예측 가능함을 확인하였다.As shown in the upper right of Fig. 5, by utilizing the method of the present invention, it is possible to predict unknown steady conditions (locations) across all genomes. In yeast proteins, information such as the interaction with 5,776 yeast proteins is conventionally known, but for example, 1,867 yeast proteins have not been able to accurately predict position. However, by utilizing the present invention, it was confirmed that unknown positions under normal conditions were also predictable.

이와 같이 본 발명에 의한 방법은 정상 조건에서도 높은 성능을 갖기에, 도 4의 좌하단에 도시된 바와 같이 종래 이루어지지 않았거나(un-identified) 또는 잘못 이루어졌던(mis-identified) 정상 조건에서의 결과를 수정할 수 있다. As described above, the method according to the present invention has high performance even under normal conditions, and thus, under normal conditions that have not been previously (un-identified) or mis-identified as shown in the lower left of FIG. 4. You can modify the result.

예를 들어, 종래에 YLR074C/BUD20은 핵(NU)과 소포체(ER)에 위치하는 것으로 보고되었으나, 본 발명에 따른 방법에 의하면 핵(NU)에 위치할 확률이 높았으며 소포체(ER)에 위치할 확률은 0에 가까운 것으로 예측되었다. 검증 결과, 도 4의 좌하단의 아래에 도시되는 바와 같이 소포체(ER)에서는 발견되지 않았다. For example, although YLR074C / BUD20 has been reported to be located in the nucleus (NU) and the endoplasmic reticulum (ER), the method according to the present invention has a high probability of being located in the nucleus (NU) and is located in the endoplasmic reticulum (ER). The probability to do was predicted to be close to zero. As a result of the verification, it was not found in the endoplasmic reticulum (ER) as shown below the lower left end of FIG.

다른 예를 들어, 종래에 YPL012W/RRP12는 핵(NU)과 세포질(CY)에 위치하는 것으로 보고되었나, 본 발명에 따른 방법에 의하면 핵(NU), 세포질(CY)보다는 핵소체(NO)에 위치할 확률이 높은 것으로 예측되었다(NO: 0.8, NU: 0.6, CY: 0.6). 검증 결과, 도 4의 우하단에 도시되는 바와 같이 핵소체 상에 위치한 것으로 나타나고 핵과 세포질에는 단지 약하게 펴지는데 불과함을 확인하였다.
In another example, YPL012W / RRP12 has been reported to be located in the nucleus (NU) and cytoplasm (CY), but according to the method according to the present invention is located in the nucleolus (NO) rather than the nucleus (NU), cytoplasm (CY) The probability of doing so was predicted to be high (NO: 0.8, NU: 0.6, CY: 0.6). As a result of the verification, it appears to be located on the nucleolus as shown in the lower right of Figure 4 and confirmed that it is only weakly spread in the nucleus and cytoplasm.

상기에서는 본 발명의 바람직한 실시 예를 참조하여 설명하였지만, 당업계에서 통상의 지식을 가진 자라면 이하의 특허 청구범위에 기재된 본 발명의 사상 및 영역을 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.It will be apparent to those skilled in the art that various modifications and variations can be made in the present invention without departing from the spirit or scope of the invention as defined in the appended claims. It will be understood that the present invention can be changed.

Claims (13)

(a) 대상 단백질의 정적 특성(static characteristics)이 입력되어 정적 피쳐(static feature)가 생성되는 단계;
(b) 정적 단백질 상호작용(static protein-protein interaction) 정보가 입력되어 정적 네트워크(static network)가 생성되는 단계;
(c) 상기 대상 단백질의 이웃 단백질(neighborhood protein)의 정적 특성이 상기 정적 네트워크에 인가되어 네트워크 피쳐(network feature)가 생성되는 단계;
(d) 상기 정적 피쳐 및 상기 네트워크 피쳐를 이용하여 위치-피쳐 모델(location-feature model)이 생성되는 단계;
(e) 소정의 외부자극 조건(stressful condition)에서의 시간별 발현 프로파일(expression profile)을 이용하여 밀착성 점수(coherence score)가 연산되는 단계;
(f) 상기 밀착성 점수가 상기 정적 네트워크에 가중치(weight)로서 부여되어 동적 네트워크(dynamic network)가 생성되는 단계;
(g) 상기 동적 네트워크에 상기 대상 단백질의 정적 특성 및 위치 정보가 인가되어 상기 소정의 외부자극 조건에서의 단백질 피쳐(protein feature)가 생성되는 단계; 및
(h) 상기 단백질 피쳐와 상기 위치-피쳐 모델을 이용하여 소정의 시간 및 상기 소정의 외부자극 조건에서의 상기 대상 단백질의 위치가 결정되는 단계를 포함하며,
상기 발현 프로파일은 마이크로어레이(microarray)의 타임-시리즈(time-series)로 표현되는 결과값인 것을 특징으로 하는,
시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.
(a) inputting static characteristics of a target protein to generate a static feature;
(b) generating static networks by inputting static protein-protein interaction information;
(c) applying a static property of a neighbor protein of the target protein to the static network to generate a network feature;
(d) generating a location-feature model using the static feature and the network feature;
(e) calculating a coherence score using an expression profile over time in a predetermined stressful condition;
(f) the adhesion score is assigned to the static network as a weight to create a dynamic network;
(g) applying the static properties and location information of the target protein to the dynamic network to generate a protein feature under the predetermined external stimulus condition; And
(h) determining the location of the target protein at a predetermined time and at the predetermined external stimulus condition using the protein feature and the location-feature model,
The expression profile is characterized in that the result expressed in a time-series of the microarray (microarray),
Method for predicting intracellular location of proteins by time and external stimulus conditions.
제 1 항에 있어서,
(i) 다수의 시간 및 외부자극 조건에서 상기 (a) 내지 (h)단계를 반복하여 시간 및 외부자극 조건의 변동에 따라 세포 내 위치가 변동되는 단백질(translocational protein)을 결정하는 단계
를 더 포함하는 것을 특징으로 하는,
시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.
The method of claim 1,
(i) repeating the steps (a) to (h) in a plurality of time and external stimulation conditions to determine a protein (translocational protein) in which the position within the cell changes according to the change of time and external stimulation conditions
Characterized in that it further comprises,
Method for predicting intracellular location of proteins by time and external stimulus conditions.
제 1 항 또는 제 2 항에 있어서,
상기 (e)단계는, 상기 밀착성 점수에 의해 주요 이웃 단백질을 결정하는 단계를 포함하는 것을 특징으로 하는,
시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.
3. The method according to claim 1 or 2,
Step (e), characterized in that it comprises the step of determining the main neighboring protein by the adhesion score,
Method for predicting intracellular location of proteins by time and external stimulus conditions.
제 1 항 또는 제 2 항에 있어서,
상기 (h)단계는, 상기 대상 단백질의 위치는, 소정의 위치에 존재할 가능성 수준(possibility degree)으로서 출력되는 단계를 더 포함하는 것을 특징으로 하는,
시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.
3. The method according to claim 1 or 2,
Wherein (h), the position of the target protein, characterized in that further comprising the step of outputting as a degree (possibility degree) to exist at a predetermined position,
Method for predicting intracellular location of proteins by time and external stimulus conditions.
제 1 항 또는 제 2 항에 있어서,
상기 밀착성 점수는 상기 대상 단백질과 상기 이웃 단백질 사이의 발현 프로파일 패턴의 유사성 및 발현 수준(expression level)의 유사성 중 어느 하나 이상에 의해 연산되는 것을 특징으로 하는,
시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.
3. The method according to claim 1 or 2,
The adhesion score is calculated by any one or more of the similarity of the expression profile pattern and the expression level (expression level) between the target protein and the neighboring protein,
Method for predicting intracellular location of proteins by time and external stimulus conditions.
제 1 항 또는 제 2 항에 있어서,
상기 밀착성 점수는 상기 대상 단백질의 유전자와 상기 이웃 단백질의 유전자 사이의 발현 프로파일 패턴의 유사성 및 발현 수준의 유사성 중 어느 하나 이상에 의해 연산되는 것을 특징으로 하는,
시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.
3. The method according to claim 1 or 2,
The adhesion score is calculated by any one or more of the similarity of the expression profile pattern and the expression level between the gene of the target protein and the gene of the neighboring protein,
Method for predicting intracellular location of proteins by time and external stimulus conditions.
제 4 항에 있어서,
상기 밀착성 점수는 하기의 수식에 의해 연산되며,
Figure 112012089557438-pat00002

a는 상기 대상 단백질,
b는 상기 이웃 단백질,
Φ(a, b)는 a, b의 밀착성 점수,
ρ(a, b)는 a, b의 발현 수준의 피어슨 상관 계수(Pearson correlation coefficient),
med(a)는 a의 발현 수준의 중앙값(median),
med(b)는 b의 발현 수준의 중앙값(median),
MEDIAN은 a, b를 위해 사용된 유전자(gene)의 발현 수준의 중앙값(median),
Ψ(x)는 x의 유의확률(p-value)인 것을 특징으로 하는,
시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.
The method of claim 4, wherein
The adhesion score is calculated by the following formula,
Figure 112012089557438-pat00002

a is the target protein,
b is the neighboring protein,
Φ (a, b) is the adhesion score of a, b,
ρ (a, b) is the Pearson correlation coefficient of the expression level of a, b,
med (a) is the median of the expression levels of a,
med (b) is the median of the expression levels of b,
MEDIAN is the median of the expression levels of the genes used for a, b,
Ψ (x) is a significant probability (p-value) of x,
Method for predicting intracellular location of proteins by time and external stimulus conditions.
제 1 항 또는 제 2 항에 있어서,
상기 (a)단계에서, 상기 정적 특성은 단일 단백질의 염기서열 정보(sequence information), 화학 정보(chemistry information), 모티프 정보(motif information) 및 기능 정보(function information)로 이루어진 그룹으로부터 선택되는 어느 하나 이상의 정보를 포함하는 것을 특징으로 하는,
시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.
3. The method according to claim 1 or 2,
In the step (a), the static property is any one selected from the group consisting of sequence information, chemistry information, motif information (function information) and function information (function information) of a single protein It is characterized by including the above information,
Method for predicting intracellular location of proteins by time and external stimulus conditions.
제 1 항 또는 제 2 항에 있어서,
상기 (b)단계에서, 상기 정적 단백질 상호작용 정보는 단백질 수준 또는 유전자 수준에서의 관련된 상호작용 정보를 포함하는 것을 특징으로 하는,
시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.
3. The method according to claim 1 or 2,
In the step (b), the static protein interaction information, characterized in that it comprises the relevant interaction information at the protein level or gene level,
Method for predicting intracellular location of proteins by time and external stimulus conditions.
제 1 항 또는 제 2 항에 있어서,
상기 (c)단계에서, 상기 대상 단백질의 상기 이웃 단백질은 상기 정적 특성 및 상기 정적 단백질 상호작용 정보에 의해 결정되는 것을 특징으로 하는,
시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.
3. The method according to claim 1 or 2,
In the step (c), the neighboring protein of the target protein is characterized in that determined by the static properties and the static protein interaction information,
Method for predicting intracellular location of proteins by time and external stimulus conditions.
제 1 항 또는 제 2 항에 있어서,
상기 (d)단계는, DCkNN 분류기(Divide-and-Conquer k Nearest Neighbor method classifier)를 이용하여 상기 정적 피쳐 및 상기 네트워크 피쳐 중에서 상기 위치-피쳐 모델을 위한 피쳐가 선택되는 단계를 포함하는 것을 특징으로 하는,
시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.
3. The method according to claim 1 or 2,
Step (d) may include selecting a feature for the location-feature model from the static feature and the network feature using a DCkNN classifier (Divide-and-Conquer k Nearest Neighbor method classifier). doing,
Method for predicting intracellular location of proteins by time and external stimulus conditions.
제 1 항 또는 제 2 항에 있어서,
상기 외부자극 조건은, DTT(dithiothrietol) 조건 또는 MMS(methyl methanesulfonate) 조건 중 어느 하나 이상인 것을 특징으로 하는,
시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.
3. The method according to claim 1 or 2,
The external stimulation conditions, characterized in that any one or more of DTT (dithiothrietol) conditions or MMS (methyl methanesulfonate) conditions,
Method for predicting intracellular location of proteins by time and external stimulus conditions.
제 1 항 또는 제 2 항에 따른 시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법에 의하여 예측된 상기 대상 단백질의 위치에 따라,
상기 대상 단백질의 생물학적 작용(biological process) 또는 분자 기능(molecular function) 중 어느 하나 이상을 예측하는 것을 특징으로 하는,
시간 및 외부자극 조건별 단백질의 세포 내 위치를 예측하기 위한 방법.
According to the position of the target protein predicted by the method for predicting the intracellular position of the protein according to the time and external stimulation conditions according to claim 1,
Characterized in predicting any one or more of the biological process (molecular function) or molecular function (molecular function) of the target protein,
Method for predicting intracellular location of proteins by time and external stimulus conditions.
KR1020110001977A 2011-01-07 2011-01-07 Method for predicting dynamic protein function including subcellular localization of protein under stressful conditions KR101255437B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020110001977A KR101255437B1 (en) 2011-01-07 2011-01-07 Method for predicting dynamic protein function including subcellular localization of protein under stressful conditions
PCT/KR2012/000118 WO2012093869A2 (en) 2011-01-07 2012-01-05 Method for predicting location of protein within cell and molecular function of protein for each condition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110001977A KR101255437B1 (en) 2011-01-07 2011-01-07 Method for predicting dynamic protein function including subcellular localization of protein under stressful conditions

Publications (2)

Publication Number Publication Date
KR20120080483A KR20120080483A (en) 2012-07-17
KR101255437B1 true KR101255437B1 (en) 2013-04-17

Family

ID=46713085

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110001977A KR101255437B1 (en) 2011-01-07 2011-01-07 Method for predicting dynamic protein function including subcellular localization of protein under stressful conditions

Country Status (1)

Country Link
KR (1) KR101255437B1 (en)

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Kiyoung Lee at al., 'Mapping plant interactomes using literature curated and predicted protein-protein interaction data sets', The Plant Cell, Vol.22, April 2010 *

Also Published As

Publication number Publication date
KR20120080483A (en) 2012-07-17

Similar Documents

Publication Publication Date Title
Zou et al. Supersecondary structure prediction using Chou's pseudo amino acid composition
Hosur et al. iWRAP: an interface threading approach with application to prediction of cancer-related protein–protein interactions
Margulies et al. Approaches to comparative sequence analysis: towards a functional view of vertebrate genomes
KR101606160B1 (en) Interaction prediction device, interaction prediction method, and program
Lucas et al. Latent factor analysis to discover pathway-associated putative segmental aneuploidies in human cancers
Quackenbush Section 7: Bioinformatics: Computational Approaches to Analysis of DNA Microarray Data
Negroni et al. Assessing the applicability of template-based protein docking in the twilight zone
Keleş Mixture modeling for genome-wide localization of transcription factors
Sinha et al. Protein docking by the interface structure similarity: how much structure is needed?
Kozakov et al. Discrimination of near‐native structures in protein–protein docking by testing the stability of local minima
Sheridan et al. Evfold. org: Evolutionary couplings and protein 3d structure prediction
Ochoa et al. Beyond the E-value: stratified statistics for protein domain prediction
Lu et al. Handbook of statistical bioinformatics
Laimighofer et al. Unbiased prediction and feature selection in high-dimensional survival regression
US20200286581A1 (en) Systems and methods for modeling a protein parameter for understanding protein interactions and generating an energy map
JP6932080B2 (en) Methods and systems for generating non-coding-coding gene co-expression networks
Eichner et al. TFpredict and SABINE: sequence-based prediction of structural and functional characteristics of transcription factors
Lehtinen et al. Gene function prediction from functional association networks using kernel partial least squares regression
Falgarone et al. TAPASS: Tool for annotation of protein amyloidogenicity in the context of other structural states
Datta et al. Detection of cooperatively bound transcription factor pairs using ChIP-seq peak intensities and expectation maximization
Koenig et al. Highly specific prediction of phosphorylation sites in proteins
Lin et al. CHOmics: A web-based tool for multi-omics data analysis and interactive visualization in CHO cell lines
Feng et al. Recognition of long-range enhancer-promoter interactions by adding genomic signatures of segmented regulatory regions
Kauffman et al. Computational tools for protein–DNA interactions
KR101255437B1 (en) Method for predicting dynamic protein function including subcellular localization of protein under stressful conditions

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160325

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170327

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180411

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190403

Year of fee payment: 7