KR20170114504A - Method for determining pathway-specificity of protein domains, and its appication for identifying disease genes - Google Patents

Method for determining pathway-specificity of protein domains, and its appication for identifying disease genes Download PDF

Info

Publication number
KR20170114504A
KR20170114504A KR1020160041518A KR20160041518A KR20170114504A KR 20170114504 A KR20170114504 A KR 20170114504A KR 1020160041518 A KR1020160041518 A KR 1020160041518A KR 20160041518 A KR20160041518 A KR 20160041518A KR 20170114504 A KR20170114504 A KR 20170114504A
Authority
KR
South Korea
Prior art keywords
domain
protein
pathway
equation
score
Prior art date
Application number
KR1020160041518A
Other languages
Korean (ko)
Other versions
KR101853916B1 (en
Inventor
이인석
심정은
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020160041518A priority Critical patent/KR101853916B1/en
Publication of KR20170114504A publication Critical patent/KR20170114504A/en
Application granted granted Critical
Publication of KR101853916B1 publication Critical patent/KR101853916B1/en

Links

Images

Classifications

    • G06F19/18
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • G06F19/12

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

본 발명은 네트워크 기반의 단백질 도메인의 생물경로 특이성 판단 방법에 관한 것으로, (a) 가중치 상호정보량(Weighted Mutual Information; WMI) 측정법에 기반하여 단백질 상호간 도메인 프로파일의 유사성을 분석하는 단계; (b) 상기 단백질 도메인 프로파일의 유사성에 기반하여 단백질 상호간의 공동-생물경로 네트워크(co-pathway network)를 구축하는 단계; 및 (c) 단백질 도메인 및 생물경로 간의 연관성을 평가하는 단계;를 포함하는 단백질 도메인의 생물경로 특이성 판단 방법이 제공된다.The present invention relates to a method for determining biological pathway specificity of a network-based protein domain, comprising the steps of: (a) analyzing the similarity of a protein inter-domain profile based on weighted mutual information (WMI) measurement; (b) constructing a mutual co-pathway network of proteins based on the similarity of the protein domain profile; And (c) assessing the association between the protein domain and the biological pathway.

Description

단백질 도메인의 생물경로 특이성 판단 방법, 및 이를 이용한 질병 유전자 발굴 방법{METHOD FOR DETERMINING PATHWAY-SPECIFICITY OF PROTEIN DOMAINS, AND ITS APPICATION FOR IDENTIFYING DISEASE GENES}FIELD OF THE INVENTION [0001] The present invention relates to a method for determining a biological pathway specificity of a protein domain and a disease gene discovery method using the same,

본 발명은 네트워크 기반의 단백질 도메인의 생물-경로 특이성 판단 방법 및 이를 이용한 질병 유전자 발굴 방법에 관한 것이다.The present invention relates to a method for determining the bio-pathway specificity of a network-based protein domain and a method for discovering a disease gene using the same.

단백질의 도메인은 단백질의 구조적, 진화적, 기능적 단위이고, 생물경로(biological pathway) 연관성에 대한 정보를 제공한다.Protein domains are structural, evolutionary, and functional units of proteins and provide information about biological pathway associations.

그러나, 다수의 단백질 도메인은 다양한 세포 과정 중의 생물경로에 관여하고 있으므로, 단백질 도메인의 생물경로에 대한 어노테이션(annotation)은 아직 미완성의 과제로 남아있다. However, since many protein domains are involved in biological pathways in various cellular processes, annotation to the biological pathways of the protein domains remains an incomplete task.

예컨대, 익상 나선 대 나선연결구조 DNA 연결 도메인(winged helix-turn-helix DNA-binding domain)은 다수의 생물경로와 연관된 DNA-결합 단백질에서 발견된다. For example, the winged helix-turn-helix DNA-binding domain is found in DNA-binding proteins associated with multiple biological pathways.

따라서, 단백질 도메인의 기능적, 구조적 특성에도 불구하고, 단백질 도메인의 특정 생물경로에 대한 연관성을 보장할 수 없다. Thus, in spite of the functional and structural characteristics of the protein domain, the association of the protein domain to a particular biological pathway can not be guaranteed.

그러나, 일부 단백질 도메인은 특정 생물경로와 높은 특이성(specificity)을 보유할 수 있다. 또한, 단백질의 도메인이 특정 생물경로와 특이성이 높다면, 생물경로 어노테이션(annotation)은 더욱 정확하고 용이해질 수 있다. 결국, 인간의 대다수 질병이 특정 생물경로와 연관되어 있는 점을 고려하면, 특정 경로와 연관된 단백질 도메인의 식별은 질병의 연구를 촉진할 수 있다.However, some protein domains may have specific biological pathways and high specificity. Furthermore, if the domain of the protein is highly specific to a particular biological pathway, biological pathway annotation can be more accurate and easier. In conclusion, given the fact that most human diseases are associated with specific biological pathways, the identification of protein domains associated with specific pathways can facilitate the study of disease.

최근, 전장유전체 연관분석(Genome Wide Association Study)은 대용량의 단일염기다형성(SNP) 분석을 통해 질병의 발생과 관련된 원인 유전자변이를 발굴하는 기법이다. Recently, the Genome Wide Association Study is a technique for identifying causal gene mutations related to the occurrence of diseases through analysis of large-scale single nucleotide polymorphism (SNP) analysis.

그러나, 전장유전체 연관분석(Genome Wide Association Study; GWAS)은 제한된 샘플수 및 집단 구조(Population structure) 등 완벽하게 통제되지 못한 조건들로 인해 통계력이 불충분하며 관측된 유전적 변이들의 대부분은 질병과 유전적 연관성이 인정되지 않는다.However, the Genome Wide Association Study (GWAS) has insufficient statistical power due to the uncontrolled conditions such as limited sample numbers and population structure, and most of the observed genetic variations are related to disease Genetic linkage is not recognized.

본 발명자들은 단백질도메인이 생물경로의 작동에 중요하다면, 생물경로에 관여하는 유전자가 동일한 도메인을 공유할 가능성이 높다고 가정하였다. The present inventors have assumed that if the protein domain is important for the operation of the biological pathway, the genes involved in the biological pathway are likely to share the same domain.

또한, 본 발명자들은 도메인-공유 패턴이 공동-경로 연관성을 식별할 수 있는지 시험하였으며, 이를 통해 네트워크-기반의 스코어링 기법인 도메인 정보량 점수(DOMICS)를 개발하였고 이 점수를 이용하여 선별된 생물경로-특이적 도메인(Pathway-Specific Domain)을 선별하였다.In addition, the present inventors have tested whether the domain-sharing pattern can identify co-path associations, thereby developing a domain-based scoring technique (DOMICS), which is a network-based scoring technique, Specific domains (Pathway-Specific Domains) were selected.

마지막으로, 본 발명자들은 생물경로-특이적 도메인을 통하여 전장유전체 연관분석 결과의 통계력을 향상시켜 질병 연관 유전자를 선별하는 방법을 개발하였다.Finally, the inventors have developed a method for screening disease-associated genes by enhancing the statistical power of the results of the analysis of the full-length genome association through biological pathway-specific domains.

본 발명은 전술한 종래기술의 문제점을 해결하기 위하여 위한 것으로, 본 발명의 목적은 기능적 네트워크를 통해 단백질도메인의 기능을 유추하고, 단백질 도메인 및 생물경로 간 특이성을 분석하는 방법을 제공하는 것이다.It is an object of the present invention to provide a method for inferring a function of a protein domain through a functional network and analyzing specificity between a protein domain and a biological pathway.

본 발명의 일 측면에 따르면, (a) 가중치 상호정보량(Weighted Mutual Information; WMI) 측정법에 기반하여 단백질 상호간 도메인 프로파일의 유사성을 분석하는 단계; (b) 상기 단백질 도메인 프로파일의 유사성에 기반하여 단백질 상호간의, 공동-생물경로 네트워크(co-pathway network)를 구축하는 단계; 및 (c) 단백질 도메인 및 생물경로 간의 연관성을 평가하는 단계;를 포함하는 단백질 도메인의 생물경로 특이성 판단 방법이 제공된다. According to an aspect of the present invention, there is provided a method of analyzing the similarity of a protein inter-domain profile based on (a) weighted mutual information (WMI) measurement method; (b) constructing a mutual co-pathway network of proteins based on the similarity of the protein domain profile; And (c) assessing the association between the protein domain and the biological pathway.

일 실시예에 있어서, 상기 (a) 단계에서 상기 가중치 상호정보량 측정법은 기존의 상호 정보량 측정법에 도메인의 희귀성에 따라 정의된 수식1에 의해 산출된 가중치를 각 단백질 도메인에 부여할 수 있다. In one embodiment, in the step (a), the weight mutual information measurement method may assign a weight calculated by Equation (1) defined according to the rarity of a domain to each protein domain in a conventional mutual information measurement method.

[수식1][Equation 1]

Figure pat00001
Figure pat00001

일 실시예에 있어서, 상기 (c) 단계는 베이시안 통계(Bayesian statistics)에 기반하여 상기 분류된 단백질 및 생물경로 간의 연관성을 평가하는 단계; 및 상기 단백질-생물경로 연관성 및 상기 도메인 프로파일을 이용하여 도메인 및 생물경로 간의 연관성을 평가하는 단계; 및 상기 도메인의 생물경로 정보량을 측정하는 단계를 포함할 수 있다. In one embodiment, the step (c) comprises: evaluating a correlation between the classified protein and a biological pathway based on Bayesian statistics; And assessing the association between the domain and the biological pathway using the protein-biological pathway association and the domain profile; And measuring the amount of biological pathway information of the domain.

일 실시예에 있어서, 상기 (c) 단계에서 상기 분류된 단백질 및 생물경로 간의 연관성은 하기 수식 5 내지 7에 따라 단백질-생물경로 연관 점수(Protein-Pathway Association Score; PPA score)를 확률 점수로 변환하여 산출할 수 있다. In one embodiment, the correlation between the classified protein and the bio-pathway in the step (c) may be determined by converting a Protein-Pathway Association Score (PPA score) into a probability score according to the following expressions Can be calculated.

[수식 5][Equation 5]

Figure pat00002
Figure pat00002

[수식 6][Equation 6]

Figure pat00003
Figure pat00003

[수식 7][Equation 7]

Figure pat00004
Figure pat00004

일 실시예에 있어서, 상기 (c) 단계에서 상기 도메인 및 생물경로 간의 연관성은 하기 수식 9에 따른 도메인-생물경로 연관 점수(Domain-Pathway Association score; DPA score)로 산출할 수 있다. In one embodiment, the association between the domain and the biological pathway in step (c) may be calculated as a Domain-Pathway Association score (DPA score) according to Equation (9).

[수식 9][Equation 9]

Figure pat00005
Figure pat00005

일 실시예에 있어서, 상기 (c) 단계에서 상기 도메인의 생물경로 정보량은 하기 수식 10에 따라 도메인 정보량 점수(Domain Information Content Score; DOMICS)로 산출할 수 있다. In one embodiment, in step (c), the biological path information amount of the domain can be calculated by a Domain Information Content Score (DOMICS) according to Equation (10).

[수식 10][Equation 10]

Figure pat00006
Figure pat00006

일 실시예에 있어서, 상기 산출된 도메인 정보량 점수에 따라 생물경로-특이적 도메인(Pathway-Specific Domain; PSD)을 선별할 수 있다. In one embodiment, a pathway-specific domain (PSD) may be selected according to the calculated domain information amount score.

일 실시예에 있어서, 상기 생물경로-특이적 도메인(PSD) 선별 결과를 전장유전체 연관분석(Genome Wide Association Study; GWAS) 결과에 적용하여 질병 연관 유전자를 선별할 수 있다. In one embodiment, the disease-associated genes can be screened by applying the results of the biological pathway-specific domain (PSD) screening to Genome Wide Association Study (GWAS) results.

본 발명의 일 측면에 따른 단백질 도메인의 생물경로 특이성 판단 방법은 단백질 도메인 및 생물경로간의 연관성을 분석하고 이를 정량화할 수 있으므로, 질병 연관 유전자 발굴을 위한 유의적인 데이터를 효과적으로 제공할 수 있다. The method for determining the biological pathway specificity of the protein domain according to one aspect of the present invention can analyze and quantify the relationship between the protein domain and the biological pathway, thereby effectively providing meaningful data for discovering a disease-associated gene.

본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.It should be understood that the effects of the present invention are not limited to the above effects and include all effects that can be deduced from the detailed description of the present invention or the configuration of the invention described in the claims.

도 1은 도메인 기반의 공동-생물경로 네트워크를 이용한 도메인 정보량 점수(Domain Information Content Score; DOMICS)를 산출하는 방법을 도식화한 것이다. (A) 불값(Boolean value)으로 배열한 도메인 프로파일에서 가중치 상호 정보량(WMI)를 이용하여 도메인 프로파일의 유사성을 분석하고, 공동-생물경로 네트워크를 구축하는 방법을 도식화한 것이다. (B) 단백질-생물경로 연관점수(Protein-Pathway Association Score; PPA score)를 산출하는 방법을 도식화한 것이다. (C) 도메인-생물경로 연관점수(Domain-Pathway Association Score; DPA score)를 산출하는 방법을 도식화한 것이다. (D) 도메인 정보량 점수(DOMICS)값을 최종적으로 산출하는 방법을 도식화한 것이다.
도 2는 생물경로 내 단백질 상호 작용을 저해하는 변이를 통해 생물경로-특이적 도메인 및 유전성 질병간의 연관성을 규명한 것이다. (A) 5,253개의 InterPro 도메인 및 407개의 GOBP 생물경로 사이에 총 49,636개의 도메인-생물경로 연관성을 분석(DOMICS)하였다. (B) PSD 및 NSD 사이의 중립적 또는 질병-연관 변이체에 의해 정규화된 변이율(NVR)을 비교한 것이다. (C) 단백질 상호 작용을 부분적 또는 전체적으로 소멸시키는 변이체에 대한 PSD 및 NSD의 정규화된 변이율(NVR)을 비교한 것이다. (D) 유사한 사이즈의 단백질 구조적 상호 작용 네트워크(hSIN)의 연결 도메인(IFD)에 있어서 상이한 범위의 도메인 상호 작용 연결에 따른 PSD 및 NSD의 비율을 비교한 것이다. (E) 변이 결과 및 도메인 상호 작용 숫자 사이의 연관성 모델을 도식화한 것이다.
도 3은 질병 연관 PSD를 이용하여 적정 GWAS 수준의 후보군 유전자에 대한 우선 순위를 결정한 것이다. (A) 전장유전체 연관분석(GWAS) 및 도메인 정보에 기반하여 관상동맥질환(CAD) 및 정신분열증(SCZ) 연관 유전자의 우선 순위를 결정하는 방법을 요약한 것이다. (B) SZdatabase 어노테이션에 기반하여 GWAS ∩ PSD 세트, PSD only 세트, GWAS only 세트의 CAD 유전자 예측 정확도를 분석한 것이다. (C) (B) SZdatabase 어노테이션에 기반하여 GWAS ∩ PSD 세트, PSD only 세트, GWAS only 세트의 SCZ 유전자 예측 정확도를 분석한 것이다.
도 4는 제브라피시에서 기능상실 표현형 분석을 통해 관상동맥질환(CAD) 유전자 예측을 검증한 것이다. (A) Tg(flk1:EGFP) 제브라피시 배아에서 CAD 후보군 유전자의 모폴리노 주입에 따른 심장의 형태이상(morphological abnormality)을 관찰한 것이다. (B) 모폴리노가 주입된 Tg(flk1:EGFP) 제브라피시 배아에서 심장의 비대칭 표현형을 정량한 것이다. (C) 모폴리노가 주입된 Tg(flk1:EGFP) 제브라피시 배아에서 혈관의 결함을 정량한 것이다.
FIG. 1 is a diagram illustrating a method of calculating a domain information content score (DOMICS) using a domain-based co-biotic path network. (A) A method of analyzing the similarity of a domain profile using a weighted mutual information amount (WMI) in a domain profile arranged with a Boolean value and constructing a co-biotic path network. (B) Protein-Pathway Association Score (PPA score). (C) a method of calculating a Domain-Pathway Association Score (DPA score). (D) a method of finally calculating the domain information amount score (DOMICS) value.
Figure 2 illustrates the association between biological pathway-specific domains and inherited diseases through mutations that inhibit protein interactions in the biological pathway. (A) A total of 49,636 domain-biological pathways were analyzed (DOMICS) between 5,253 InterPro domains and 407 GOBP biological pathways. (B) normalized variability (NVR) by neutral or disease-associated variants between PSD and NSD. (C) normalized variability (NVR) of PSD and NSD for mutants that partially or totally abolish protein interactions. (D) comparing the ratio of PSD and NSD according to different domain interaction links in the connecting domain (IFD) of a similar size protein structural interaction network (hSIN). (E) a relationship model between the mutation result and the domain interaction number.
Figure 3 shows the priorities of the candidate GWAS level genes using disease-associated PSDs. (A) summarizes methods for prioritizing coronary artery disease (CAD) and schizophrenia (SCZ) associated genes based on global field genome association analysis (GWAS) and domain information. (B) Based on SZdatabase annotation, we analyzed the accuracy of CAD gene prediction of GWAS ∩ PSD set, PSD only set, and GWAS only set. (C) (B) Based on SZdatabase annotation, we analyzed the accuracy of SCZ gene prediction of GWAS ∩ PSD set, PSD only set, and GWAS only set.
FIG. 4 is a graph showing the prediction of coronary artery disease (CAD) gene expression through analysis of a loss-of-function phenotype in zebrafish. (A) Tg ( flk1 : EGFP) Observation of morphological abnormality of the heart following morpholinoin injection of CAD candidate gene in zebrafish embryo. (B) Asymmetric phenotypes of hearts in Tg ( flk1 : EGFP) zebrafish embryos implanted with morpholino . (C) Morphine defects in morpholinoin injected Tg ( flk1 : EGFP) zebrafish embryos.

이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시 예로 한정되는 것은 아니다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, the present invention will be described with reference to the accompanying drawings. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In order to clearly illustrate the present invention, parts not related to the description are omitted, and similar parts are denoted by like reference characters throughout the specification.

어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비할 수 있다는 것을 의미한다.When an element is referred to as "comprising ", it means that it can include other elements, not excluding other elements unless specifically stated otherwise.

달리 정의되지 않는 한, 분자 생물학, 미생물학, 단백질 정제, 단백질 공학, 및 DNA 서열 분석 및 당업자의 능력 범위 안에서 재조합 DNA 분야에서 흔히 사용되는 통상적인 기술에 의해 수행될 수 있다. 상기 기술들은 당업자에게 알려져 있고, 많은 표준화된 교재 및 참고저서에 기술되어 있다.Unless otherwise defined, can be performed by molecular biology, microbiology, protein purification, protein engineering, and DNA sequencing and routine techniques commonly used in the art of recombinant DNA within the skill of those skilled in the art. These techniques are known to those skilled in the art and are described in many standardized textbooks and references.

본 명세서에 달리 정의되어 있지 않으면, 사용된 모든 기술 및 과학 용어는 당업계에 통상의 기술자가 통상적으로 이해하는 바와 같은 의미를 가진다. Unless otherwise defined herein, all technical and scientific terms used herein have the same meaning as commonly understood by one of ordinary skill in the art.

본 명세서에 포함되는 용어를 포함하는 다양한 과학적 사전이 잘 알려져 있고, 당업계에서 이용가능하다. 본 명세서에 설명된 것과 유사 또는 등가인 임의의 방법 및 물질이 본원의 실행 또는 시험에 사용되는 것으로 발견되나, 몇몇 방법 및 물질이 설명되어 있다. 당업자가 사용하는 맥락에 따라, 다양하게 사용될 수 있기 때문에, 특정 방법학, 프로토콜 및 시약으로 본 발명이 제한되는 것은 아니다. Various scientific dictionaries, including the terms contained herein, are well known and available in the art. Although any methods and materials similar or equivalent to those described herein are found to be used in the practice or testing of the present application, some methods and materials have been described. It is not intended that the invention be limited to the particular methodology, protocols, and reagents, as they may be used in various ways in accordance with the context in which those skilled in the art use them.

본 명세서에서 사용되는 바와 같이, 단수형은 문맥이 명확하게 달리 지시하지 않으면 복수의 대상을 포함한다. 또한, 달리 지시된 바가 없으면, 핵산은 각각 왼쪽에서 오른쪽, 5'에서 3' 방향으로 씌여지고, 아미노산 서열은 왼쪽에서 오른쪽, 아미노에서 카르복실 방향으로 씌여진다. As used herein, the singular forms include plural objects unless the context clearly dictates otherwise. Also, unless otherwise indicated, nucleic acids are written from left to right, 5 'to 3', amino acid sequences from left to right, amino to carboxyl.

이하 본 발명을 더욱 상세히 설명한다. Hereinafter, the present invention will be described in more detail.

본 발명의 일 측면에 따르면, (a) 가중치 상호정보량(Weighted Mutual Information; WMI) 측정법에 기반하여 단백질 상호간 도메인 프로파일의 유사성을 분석하는 단계; (b) 상기 단백질 도메인 프로파일의 유사성에 기반하여 단백질 상호간의 공동-생물경로 네트워크(co-pathway network)를 구축하는 단계; 및 (c) 단백질 도메인 및 생물경로 간의 연관성을 평가하는 단계;를 포함하는 단백질 도메인의 생물경로 특이성 판단 방법이 제공된다. According to an aspect of the present invention, there is provided a method of analyzing the similarity of a protein inter-domain profile based on (a) weighted mutual information (WMI) measurement method; (b) constructing a mutual co-pathway network of proteins based on the similarity of the protein domain profile; And (c) assessing the association between the protein domain and the biological pathway.

상기 (a) 단계에서 가중치 상호정보량(Weighted Mutual Information; WMI) 측정법에 기반하여 단백질 상호간 도메인 프로파일의 유사성을 분석할 수 있고, 상기 단백질 도메인 프로파일 정보는 상용화된 데이터베이스에서 수집할 수 있다. In step (a), the similarity of the protein inter-domain profile can be analyzed based on the weighted mutual information (WMI) measurement method, and the protein domain profile information can be collected from a commercially available database.

상기 상용화된 데이터베이스는 적어도 하나의 도메인에 대한 적어도 하나의 서열 정보를 저장하는 데이터베이스로서, InterPro, PROSITE, Pfam, SMART, 또는 PRINTS일 수 있다. 상기 데이터베이스는 상이한 방법을 통해 도메인을 정의할 수 있으며, 특정 서열이 어느 도메인에 속하는지 관련 정보를 제공할 수 있으면 족하다. The commercialized database is a database storing at least one sequence information for at least one domain, and may be InterPro, PROSITE, Pfam, SMART, or PRINTS. The database can define the domain through different methods, and it is sufficient if it can provide information related to which domain a specific sequence belongs to.

구체적으로, 상기 InterPro는 여러 데이터베이스로부터 도메인에 관한 정보를 수집한 것으로 다수의 도메인 정보를 포함한다. 상기 PROSITE는 정규 표현식(regular expression)을 이용하여 기능부(functional site)를 정의한다. 상기 Pfam은 HMM(Hidden Markov model)을 이용하여 도메인을 정의하고, 이를 바탕으로 도메인을 예측하여 확률값을 수치화한다. 상기 SMART(A Simple Modular Architecture Research Tool)는 다중 서열 정렬(Multiple Sequence Alignment, MSA)을 이용한 확률 도표(probability profile)를 사용하여 도메인을 정의한다. 상기 PRINTS는 다중 서열 정렬만을 이용하여 도메인을 정의한다.Specifically, the InterPro is a collection of domain-related information from various databases and includes a plurality of domain information. The PROSITE defines a functional site using regular expressions. The Pfam defines a domain using a HMM (Hidden Markov model), and predicts the domain based on the defined domain to digitize the probability value. The SMART (A Simple Modular Architecture Research Tool) defines a domain using a probability profile using Multiple Sequence Alignment (MSA). The PRINTS defines the domain using only multiple sequence alignments.

도 1은 도메인 기반의 공동-생물경로 네트워크를 이용한 도메인 정보량 점수(Domain Information Content Score; DOMICS)를 산출하는 방법을 도식화한 것이다. FIG. 1 is a diagram illustrating a method of calculating a domain information content score (DOMICS) using a domain-based co-biotic path network.

1을 참조하면, 상기 도메인 프로파일은 상용화된 데이터베이스인 InterPro에 등록된 도메인의 정보를 기초로, 도메인의 존재 또는 부존재를 의미하는 불값(Boolean value)의 배열로서 정의될 수 있다. Degree 1, the domain profile may be defined as an array of Boolean values indicating presence or absence of a domain based on information of domains registered in InterPro, which is a commercially available database.

상기 불값은 단백질에서 특정 도메인의 존재 유무를 0 또는 1의 숫자 값으로 표시할 수 있으며, 상기 수집된 도메인 프로파일은 유사성 판단을 위한 데이터로서 활용될 수 있다. The false value may indicate the presence or absence of a specific domain in a protein by a numerical value of 0 or 1, and the collected domain profile may be utilized as data for judging similarity.

상기 (a) 단계에서 가중치 상호정보량(Weighted Mutual Information; WMI) 측정법에 기반하여 단백질 상호간 도메인 프로파일의 유사성을 분석할 수 있고, 상기 (b) 단계에서 상기 단백질 도메인 프로파일의 유사성에 기반하여 단백질 상호간의 공동-생물경로 네트워크(co-pathway network)를 구축할 수 있다. The similarity of the protein inter-domain profile can be analyzed on the basis of the weighted mutual information (WMI) measurement method in the step (a), and in the step (b) A co-pathway network can be constructed.

상기 도메인 프로파일은 유사한 도메인 프로파일을 공유하는 단백질에 관한 정보를 제공할 수 있고, 도메인의 유사성은 상호정보량(mutual information, MI) 스코어로 산출될 수 있다. 상기 상호정보량(MI)는 선험적 모델이 요구되지 않고, 다양한 응용에 있어서 높은 정확성을 제공할 수 있다. The domain profile may provide information about a protein that shares a similar domain profile, and domain similarity may be calculated as a mutual information (MI) score. The mutual information amount MI does not require a priori model and can provide high accuracy in various applications.

다만, 개별적인 도메인 전반에 걸친 정보의 양은 다양하므로, 더욱 유용한 도메인 발생 패턴을 하기 위해 도메인의 희귀성에 따라 정의된 수식1에 의해 산출된 가중치를 각 단백질 도메인에 부여할 수 있다(도 1A).However, since the amount of information over individual domains varies, weights can be assigned to each protein domain by the formula 1 defined according to the rarity of the domain in order to obtain a more useful domain generation pattern (FIG. 1A).

[수식1] [Equation 1]

Figure pat00007
Figure pat00007

상기 c kj 은 단백질 k가 도메인 j를 포함할 때 1, 그렇지 않으면 0의 값을 갖는다.remind c kj has a value of 1 when protein k contains domain j, and 0 otherwise.

본 발명자들은 일반적으로 널리 존재하는 도메인이 다양한 생물학적 기능에 관여하는 반면, 희귀한 도메인은 특이적인 생물학적 반응에 관여할 것으로 가정하고 도메인의 희귀성에 가중치를 부여하는 가중치 상호정보량(WMI) 측정법을 개발하였다. The present inventors have developed a method of measuring the weighted mutual information (WMI) that assigns a weight to the rarity of a domain, while assuming that a generally prevalent domain is involved in various biological functions, while a rare domain is involved in a specific biological response .

상기 가중치 상호정보량(Weighted Mutual Information; WMI)은 하기 수식 2에 의해 산출될 수 있다. The weighted mutual information (WMI) can be calculated by the following equation (2).

[수식 2][Equation 2]

Figure pat00008
Figure pat00008

H ω (X) 및 H ω (Y)는 단백질 X 및 단백질 Y의 가중 엔트로피이고, H ω (X, Y)는 단백질 X 및 Y의 가중 조인트 엔트로피이다. H ω ( X ) and H ω ( Y ) are the weighted entropy of protein X and protein Y, and H ω ( X, Y ) is the weighted joint entropy of proteins X and Y.

이 때, 상기 H ω (X), H ω (Y), 및 H ω (X, Y)는 하기 수식 3 및 4에 의해 정의될 수 있다. At this time, the H ? ( X ), H ? ( Y ), and H ? ( X, Y ) can be defined by the following equations (3) and (4).

[수식 3][Equation 3]

Figure pat00009
Figure pat00009

[수식 4][Equation 4]

Figure pat00010
Figure pat00010

단백질 상호간 도메인 프로파일의 유사성은 상기 가중치 상호정보량에 의해 분석될 수 있고, 상기 도메인 프로파일의 유사성에 기반하여 공동-생물경로 네트워크(co-pathway network)를 구축할 수 있다. The similarity of the protein inter-domain profile can be analyzed by the weighted mutual information amount, and a co-pathway network can be constructed based on the similarity of the domain profile.

상기 분류된 유사-단백질 군은 특정 생물경로와 관련된 서브-네트워크를 형성할 수 있고, 상기 동일한 서브-네트워크 내의 단백질은 상호간 연결될 수 있고, 타 서브-네트워크에 속한 단백질과 연결되어 네트워크를 형성할 수도 있다(도 1A).The classified pseudo-protein group may form a sub-network related to a specific biological pathway, and the proteins in the same sub-network may be connected to each other and connected to proteins belonging to other sub-networks to form a network (Fig. IA).

한편, (c) 단계에서 단백질 도메인 및 생물경로 간의 연관성을 평가할 수 있다. On the other hand, in step (c), the relationship between the protein domain and the biological pathway can be evaluated.

구체적으로 상기 (c) 단계는 베이시안 통계(Bayesian statistics)에 기반하여 상기 분류된 단백질 및 생물경로 간의 연관성을 평가하는 단계; 및 상기 단백질-생물경로 연관성 및 상기 도메인 프로파일을 이용하여 도메인 및 생물경로 간의 연관성을 평가하는 단계; 및 상기 도메인의 생물경로 정보량을 측정하는 단계를 포함할 수 있다. Specifically, the step (c) includes the steps of: evaluating a correlation between the classified protein and the biological pathway based on Bayesian statistics; And assessing the association between the domain and the biological pathway using the protein-biological pathway association and the domain profile; And measuring the amount of biological pathway information of the domain.

도메인 프로파일의 유사성에 의해 구축된 서브-네트워크는 특정 생물경로와 특이적으로 연관될 수 있으며, 상기 단백질 간의 기능적 연관성은 로그 우도 점수(Log Likelihood Score; LLS)에 의해 산출될 수 있다. The sub-network constructed by the similarity of the domain profile can be specifically associated with a specific biological pathway, and the functional relationship between the proteins can be calculated by a log likelihood score (LLS).

상기 단백질 및 생물경로 간의 연관성은 하기 수식 5내지 7에 따른 단백질-생물경로 연관 점수(Protein-Pathway Association Score; PPA score)를 확률 점수로 변환하여 산출할 수 있다. The relationship between the protein and the biological pathway can be calculated by converting the Protein-Pathway Association Score (PPA score) according to Equations 5 to 7 into a probability score.

[수식 5][Equation 5]

Figure pat00011
Figure pat00011

상기 P(L|E) 및 P(L|E)는 주어진 실험자료 또는 계산자료(E) 내에서 관찰할 수 있는 양성(L) 및 음성(L) 골드 스탠다드 경로 유전자 연결(link)의 빈도수를 의미한다. 반면, 상기 P(L) 및 P(L)는 사전의 예상값, 예컨대, 모든 양성 및 음성 골드 스탠다드 경로 유전자 쌍에 대한 전체 빈도수를 의미한다. P (L | E) and P (L | E) are the frequencies of positive (L) and negative (L) gold standard pathway gene links that can be observed in a given experimental or computed data (E) it means. On the other hand, P (L) and P (L) refer to the expected value of the dictionary, for example, the total frequency for all positive and negative Gold standard path gene pairs.

상기 골드 스탠다드 경로 연결은 동일한 유전자 온톨로지 생물학적 과정(GOBP, Gene Ontology-Biological Process) 용어에서 어노테이션된 단백질 간 페어링(pairing)에 의해 생성될 수 있다. The gold standard pathway may be generated by pairing annotated proteins in the same term of Gene Ontology-Biological Process (GOBP).

상기 온톨로지는 특정한 영역을 표현하는 데이터 모델로서, 특정한 도메인에 속하는 개념 및 개념 사이의 관계를 기술하는 정형(Formal) 어휘의 집합으로 정의될 수 있다. 예컨대, '종목과목강문계'로 분류되는 생물과 생물 사이의 종의 관계, 영어 단어 사이의 관계를 정형 어휘로 기술하면 각각 온톨로지로 정의될 수 있다. The ontology can be defined as a set of formal vocabularies describing the concepts and concepts of concepts belonging to a specific domain as a data model representing a specific domain. For example, if the relationship between the species between the creature and the organism classified in the "item class" is described as a formal vocabulary, it can be defined as an ontology.

상기 유전자 온톨로지는 유전자 온톨로지 컨소시엄(Gene Ontology Consortium)에서 제공하는 생물학 용어 또는 어휘를 분류해 놓은 체계를 의미한다. The gene ontology refers to a system that classifies biological terms or vocabularies provided by the Gene Ontology Consortium.

상기 골드 스탠다드 경로 연결은 공동-경로 네트워크(co-pathway network)를 구축함에 있어 가이드라인(guidelines)을 제공하는 정보로서, 상기 구축된 공동-경로 네트워크에 의해 생성된 신규 연결이 상기 골드 스탠다드 경로 연결과 중첩될수록 상기 네트워크가 성공적으로 구축된 것으로 평가할 수 있다. The Gold Standard Path Connection is information providing guidelines for establishing a co-pathway network, wherein a new connection created by the established co-path network is connected to the Gold Standard Path Connection It can be estimated that the network has been successfully established.

상기 로그 우도 점수는 멱함수분포를 따르는 확률 점수로 변환될 수 있다. 상기 멱함수분포의 p값은 하기 수식 6에 의해 산출될 수 있다. The log-likelihood score can be converted to a probability score that follows the power-function distribution. The p value of the power function distribution can be calculated by the following equation (6).

[수식 6][Equation 6]

Figure pat00012
Figure pat00012

상기 α는 경사의 기울기를 결정하는 형상 모수(shape parameter)이다. 상기 α가 증가할수록 상기 멱함수분포의 p값은 기하급수적으로 증가할 수 있다. Is a shape parameter determining the slope of the slope. As the? Increases, the p value of the power function distribution may increase exponentially.

특정 단백질 i에 있어서, 상기 단백질-생물경로 연관 점수(PPA score)는 상기 멱함수분포에 의해 변환된 값을 이용하여 하기 수식 7에 따라 산출될 수 있다(도 1B). For a specific protein i , the protein-biological pathway score (PPA score) can be calculated according to Equation (7) using the value converted by the power function distribution (FIG. 1B).

[수식 7] [Equation 7]

Figure pat00013
Figure pat00013

상기 Smin(f)는 특정 생물경로 f에 대한 최소 S i (f)값이고, 상기 α(f)는 하기 수식 7에 의해 산출될 수 있다. The S min ( f ) Is the minimum S i ( f ) value for a particular biological path f, and the α ( f ) can be calculated by:

[수식 8][Equation 8]

Figure pat00014
Figure pat00014

이 때, 상기 Si(f)는 상기 로그 우도 점수(LLS)의 합계에 의해 산출될 수 있다. 상기 로그 우도 점수(LLS)의 합계는 네트워크 내의 유전자 i에 연결된 모든 단백질 상호간 로그 우도 점수의 총합을 의미한다. At this time, the S i ( f ) can be calculated by adding the log likelihood score (LLS). The sum of the log-likelihood ratios (LLS) means the sum of all protein inter-log likelihood scores linked to gene i in the network.

한편, 상기 단백질-생물경로 연관 점수(PPA score) 및 도메인 프로파일을 이용하여 도메인 및 생물경로 간의 연관성을 평가할 수 있다. Meanwhile, the relationship between the domain and the biological pathway can be evaluated using the protein-biological pathway association score (PPA score) and the domain profile.

상기 도메인 및 생물경로 간의 연관성은 도메인-생물경로 연관 점수(Domain-Pathway Association score; DPA score)로 산출될 수 있다(도 1C). The association between the domain and the biological pathway can be calculated by a domain-pathway association score (DPA score) (FIG. 1C).

특정 도메인 j 에 있어서, 상기 도메인-생물경로 연관 점수(DPA score)는 하기 수식 9에 따라 산출될 수 있다. For a particular domain j , the domain-bioprosthesis association score (DPA score) may be calculated according to:

[수식 9][Equation 9]

Figure pat00015
Figure pat00015

이 때, 상기 K는 도메인 j를 포함하는 단백질 세트를 의미하고, 도메인 프로파일 행렬에서 ciji번째 단백질 및 j번째 도메인 셀을 의미한다.In this case, K denotes a set of proteins including domain j , and c ij in the domain profile matrix denotes an i- th protein and a j- th domain cell.

또한, 상기 도메인-생물경로 연관 점수(DPA score)를 이용하여 도메인 정보량 점수(Domain Information Content Score; DOMICS)를 산출할 수 있다.In addition, the domain information content score (DOMICS) can be calculated using the domain-biological pathway association score (DPA score).

상기 도메인 정보량 점수(DOMICS)는 하기 수식 10에 따라 산출될 수 있다. The domain information amount score (DOMICS) can be calculated according to the following equation (10).

[수식 10][Equation 10]

Figure pat00016
Figure pat00016

상기 DPAj(f)는 도메인 dj의 특정 생물경로 f에 대한 연관 점수를 의미하고, 상기 GCj는 경로 전체에 걸친 도메인의 지니 계수를 의미한다. The DPA j (f) means the association score for the specific biological path f of the domain d j , and GC j means the Gini coefficient of the domain over the entire path.

상기 지니 계수(Gini Coefficient)는 하기 수식 11에 따라 산출될 수 있다. The Gini coefficient can be calculated according to Equation (11).

[수식 11][Equation 11]

Figure pat00017
Figure pat00017

상기 지니 계수는 특정 도메인의 DPA 점수가 생물경로 전체에 걸쳐 동일할 때 최대가 되고, 단일 경로에 대해서만 DPA 점수가 부여될 때 최소(zero)가 될 수 있다. The Gini coefficient is maximized when the DPA score of a particular domain is the same throughout the biological path, and may be zero when the DPA score is given only for a single path.

상기 산출된 도메인 정보량 점수에 따라 생물경로-특이적 도메인(Pathway-Specific Domain; PSD)을 선별할 수 있다. A pathway-specific domain (PSD) can be selected according to the calculated domain information amount score.

상기 도메인은 상기 도메인 정보량 점수(DOMICS)에 의해 산출된 생물경로 특이성에 따라, 생물경로-특이적 도메인(Pathway-Specific Domain; PSD) 및 생물경로-비특이적 도메인(Non-Specific Domain; NSD)로 분류될 수 있다. The domain is classified into a pathway-specific domain (PSD) and a biological pathway-non-specific domain (NSD) according to the biological pathway specificity calculated by the domain information amount score (DOMICS). .

상기 도메인 정보량 점수의 임계값은 소정의 기준에 따라 설정될 수 있으며, 상기 임계값을 초과하는 도메인을 생물경로-특이적 도메인으로 설정할 수 있다. The threshold value of the domain information amount score may be set according to a predetermined criterion, and a domain exceeding the threshold value may be set as a bio-path-specific domain.

상기 생물경로-특이적 도메인은 상대적으로 도메인 정보량 점수가 높으므로, 생물경로-비특이적 도메인과 비교하여 질병 연관성이 높은 것으로 추정될 수 있다.Since the biological pathway-specific domain has a relatively high score of domain information amount, it can be estimated that the disease-relatedness is higher than that of the biological pathway-non-specific domain.

본 발명의 다른 측면에 따르면, 상기 생물경로-특이적 도메인(PSD) 선별 결과를 이용하여 질병 연관 유전자를 선별하는 방법이 제공된다. According to another aspect of the present invention, there is provided a method for screening disease-associated genes using the biological pathway-specific domain (PSD) screening results.

대다수의 질병 유전자는 생물경로와 연관되므로, 생물경로 특이성이 높은 생물경로-특이적 도메인(PSD)의 정량적 수준은 특정 유전자 및 질병 간 상관 관계를 예측하기 위한 정보로서 사용될 수 있다. 즉, 특정 유전자가 다수의 PSD를 포함할 때, 상기 특정 유전자는 질병 연관 유전자로서 추정될 수 있다. Since the vast majority of disease genes are associated with biological pathways, quantitative levels of biological pathway-specific domains (PSDs) with high biological pathway specificity can be used as information to predict specific gene and disease-to-disease correlations. That is, when a specific gene contains a plurality of PSDs, the specific gene can be deduced as a disease-associated gene.

또한, 상기 선별 방법은 전장유전체 연관분석(Genome Wide Association Study; GWAS) 결과를 이용할 수 있다.In addition, the selection method can utilize a Genome Wide Association Study (GWAS) result.

상기 전장유전체 연관분석(GWAS)은 대용량의 단일염기다형성(SNP) 분석을 통해 질병을 조절하는 원인 유전자 변이를 발굴할 수 있으나, 제한된 샘플수 및 집단구조(population structure)로 인하여 정교하게 통제되지 않아 통계력이 미흡하다. The full-length genome association assay (GWAS) can detect causative gene mutations that regulate disease through large-scale single nucleotide polymorphism (SNP) analysis, but is not finely controlled due to limited sample numbers and population structure The statistical power is insufficient.

따라서, 상기 전장유전체 연관분석에 의해 발굴된 유전자는 질병과 유전적 연관성이 없거나 미약할 수 있으나, 상기 생물경로-특이적 도메인(PSD)에 대한 정보를 결합하여 예측의 정확도가 개선될 수 있다. Thus, the genes discovered by the full-length genome association assay may have little or no genetic linkage to disease, but accuracy of prediction can be improved by combining information on the bio-pathway-specific domain (PSD).

즉, 본 발명의 일 실시예에 따른 생물경로 특이성 판단 방법은 전장유전체 연관분석 방법과 비교하여 질병 연관 유전자 발굴 방식이 상이하므로, 상기 GWAS 분석결과 및 생물경로-특이적 도메인(PSD)에 대한 정보는 상호 보완적으로 질병-연관 유전자에 대한 예측 정보를 제공할 수 있다. That is, since the method for determining biological pathway specificity according to an embodiment of the present invention is different from the method for finding a disease-associated gene as compared with the full-field genome association analysis method, information on the GWAS analysis result and biological pathway-specific domain (PSD) Can provide complementary predictive information on disease-associated genes.

이하 실시예를 통해, 본 발명을 더욱 상술하나 하기 실시예에 의해 본 발명이 제한되지 아니함은 자명하다.The present invention will be further described with reference to the following examples, but it should be apparent that the present invention is not limited by the following examples.

실시예Example 1 : 도메인 프로파일의 생성 1: Create Domain Profile

본 발명자들은 BioMart search tool을 이용하여 InterPro database(v38)에서 인간 단백질의 도메인 발생 정보를 수집(download)하였다. 상기 도메인 발생 정보를 기초로 특정 도메인의 존재 유무를 0 또는 1의 숫자 값으로 표시하는 불값(Boolean value)의 배열로서 도메인 프로파일을 생성하였다. The inventors used the BioMart search tool to download domain generation information of human proteins in the InterPro database (v38). A domain profile is generated as an array of Boolean values indicating the presence or absence of a specific domain as a numeric value of 0 or 1 based on the domain occurrence information.

총 8,362개의 InterPro 도메인을 이용하여 17,013개의 인간 단백질을 암호화하는 유전자에 대한 도메인 프로파일을 생성하였다. A total of 8,362 InterPro domains were used to generate a domain profile for a gene encoding 17,013 human proteins.

실시예Example 2 :  2 : DOMICS의DOMICS 산출 Calculation

공동-생물경로 네트워크(co-pathway network)를 구축하고 DOMICS를 산출하고자 가중치 상호정보량(Weighted Mutual Information)에 기반하여 생성된 도메인 프로파일의 유사성을 분석하였다. In order to construct a co-pathway network and calculate DOMICS, we analyzed the similarity of domain profiles generated based on weighted mutual information.

GOBP 생물경로와 연관된 인간 InterPro 도메인의 DOMICS를 계산하였으며, 산출된 DOMICS 값에 따라 내림차순으로 도메인-생물경로 연관성을 분류하였다. The DOMICS of the human InterPro domain associated with the GOBP pathway was calculated and the domain-biological pathway associations were sorted in descending order according to the calculated DOMICS values.

본 발명자들은 InterPro2GO 어노테이션에서 수집된 InterPro 도메인 및 GOBP 생물경로간 골드 스탠다드 페어링을 도메인-생물경로 연결의 기준으로 삼았다. The present inventors used the gold standard pairing between the InterPro domain and the GOBP bioassay collected from the InterPro2GO annotation as a reference for the domain-biological pathway connection.

5,253개의 InterPro 도메인 및 407개의 GOBP 생물경로 사이에 총 49,636개의 도메인-생물경로 연관성을 분석하였다. A total of 49,636 domain-bio-path associations were analyzed between 5,253 InterPro domains and 407 GOBP biological pathways.

DOMICS에 의해 산출된 도메인의 생물경로 특이성에 기반하여, 인간의 InterPro 도메인을 생물경로-특이적 도메인(Pathway-Specific Domain; PSD) 및 생물경로-비특이적 도메인(Non-Specific Domain; NSD)로 분류하였다. Based on the biological pathway specificity of the domain produced by DOMICS, the human InterPro domain is classified as a Pathway-Specific Domain (PSD) and a Biological Pathway-Non-Specific Domain (NSD) .

InterPro2GO 어노테이션을 사용하여 도메인-생물경로 페어링(pair)의 골드 스탠다드 데이터세트를 수집하였으며, 이는 수동의 큐레이션(manual curation)에 의해 InterPro 도메인 및 GOBP 용어 사이의 연관성을 매핑(mapping) 하였다. The InterPro2GO annotation was used to collect a Gold Standard dataset of domain-biospecific pairings, which mapped the association between the InterPro domain and GOBP terms by manual curation.

양의 골드 스탠다드 세트는 2,286개의 인간 InterPro 도메인 및 374개의 GOBP 용어로 구성된 2,535개의 도메인-생물경로 페어링을 포함하였다. The positive Gold Standard set included 2,535 domain-biospecific pairings consisting of 2,286 human InterPro domains and 374 GOBP terms.

또한, 음의 골드 스탠다드 세트는 2,286 InterPro 도메인 및 374개의 GOBP 용어 사이의 852,461개의 페어링, 즉, 나머지의 모든 페어링을 포함하였다. The negative Gold Standard set also included 852,461 pairings between the 2,286 InterPro domains and 374 GOBP terms, ie, all remaining pairings.

상기 양의 골드 스탠다드 세트 및 DOMICS 값을 기준으로 내림차순된 각 1,000개의 도메인-생물경로 페어링 그룹간의 로그 우도 점수와 중첩성을 측정하였다. Log likelihood scores and overlap between each of the 1,000 domain-biospecific pairing groups descended by the positive Gold Standard set and the DOMICS value were measured.

DOMICS 임계수준 0.056을 기준으로 도메인-생물경로 페어링을 PSD 및 NSD로 분류하였으며, 4,506개의 PSD를 포함하는 16,000개의 도메인-생물경로 페어링을 생성하였다(도 2A).Based on DOMICS threshold level 0.056, domain-biospecific pairing was categorized as PSD and NSD and generated 16,000 domain-biospecific pairings containing 4,506 PSDs (FIG. 2A).

상기 임계수준을 초과하는 1,000개의 도메인-생물경로 페어링은 양의 로그 가능성 수치를 나타내었으며, 골드 스탠다드 데이터와 비교하여 현저히 중첩되었다 (p ≤ 0.01). 나머지 3,856개의 InterPro 도메인은 NSD로 분류되었다. Thousands of domain-biospecific pairings above the threshold level represented positive logarithmic values and were significantly overlapped (p ≤ 0.01) compared to Gold Standard data. The remaining 3,856 InterPro domains were classified as NSD.

DOMICS 값은 동일한 GOBP 생물경로에 관여할 가능성과 강한 양의 상관 관계를 나타내었다. The value of DOMICS showed a strong positive correlation with the possibility of participating in the same GOBP pathway.

실시예Example 3 :  3: PSDPSD  And NSD에서From NSD 질병과 연관된 변이의 빈도 분석 Analysis of frequency of mutations associated with disease

본 발명자들은 독립적인 소스로부터 수집된 병원성 생식세포 계열의 변이체를 이용하여 PSD 및 NSD와 질병-연관 변이체 간의 빈도를 비교하였다. We compared the frequency of PSD and NSD with disease-associated variants using pathogenic germ line variants collected from independent sources.

상기 변이체는 i) GWASdb 유래의 SNP, ii) OMIM 질병 유전자 변이, iii) ClinVar 데이터베이스 유래의 변이체에서 수집되었다. These variants were collected from i) SNPs from GWASdb, ii) OMIM disease gene mutations, and iii) Variants from the ClinVar database.

GWASdb에서 유래한 GWAS 형질과 연관된 SNP를 약 1,610개 수집하였으며(p < 1e-7), dbSNP 빌드 142, 게놈어셈블리, GRCh37/hg19에 매핑하였다. 상기 방법에 의해 질병과 연관된 26,342개의 SNP가 분류되었다. Approximately 1,610 SNPs associated with the GWAS trait derived from GWASdb were collected (p <1e-7) and mapped to dbSNP build 142, genome assembly, GRCh37 / hg19. By this method, 26,342 SNPs associated with the disease were classified.

상기 SNP 중 오직 966개(3.6% 이하) 가 단백질을 암호화하는 영역에 위치하였으며, 569개의 SNP가 InterPro 도메인 영역에 위치하였다. Of the SNPs, only 966 (3.6% or less) were located in the region encoding the protein, and 569 SNPs were located in the InterPro domain region.

암의 생식세포 계열의 변이체를 분석하고자, GWASdb 암 연구와 연관된 51개의 생식세포 계열 변이체를 수집하고, TCGA의 유방암 환자에서 유래한 20,945개의 신체 변형체(somatic variant)를 수집하였다. In order to analyze the germline mutants of cancer, 51 germline mutants associated with the GWASdb cancer study were collected and 20,945 somatic variants from TCGA breast cancer patients were collected.

또한, SwissVar(http://swissvar.expasy.org)에서 유래한 OMIM 질병 유전자 및 dbSNP(http://www.ncbi.nlm.nih.gov/snp)에서 각각 1,779개 및 10,778 개의 변이체를 각각 수집하고, 11,024개의 OMIM 질병-연관 변이체의 OMIMVar 세트를 생성하였다. Also, 1,779 and 10,778 variants were collected from the OMIM disease gene and dbSNP (http://www.ncbi.nlm.nih.gov/snp) derived from SwissVar (http://swissvar.expasy.org) respectively And generated an OMIMVar set of 11,024 OMIM disease-associated variants.

이를 통해 단백질-도메인 영역에 위치한 9,050개의 변이체를 발견하였다. ClinVar는 인간 변이체 및 표현형 사이의 상관 관계에 관한 데이터를 포함하는 주요한 공공의 아카이브이다. 본 발명자들은 ClinVar에서 13,465개의 병원성 SNP를 수집하고, 단백질 도메인 영역에 위치하는 10,680개의 변이체를 발견하였다.This led to the discovery of 9,050 variants located in the protein-domain region. ClinVar is a major public archive containing data on correlations between human variants and phenotypes. We collected 13,465 pathogenic SNPs in ClinVar and found 10,680 variants located in the protein domain region.

Polyphen-2의 HumVar 중성 트레이닝 세트에서 유래한 중립적 효과(neutral effect)를 가질 것으로 예상되는 변이체를 이용하여 널 모델(null model)을 구축하였다. A null model was constructed using mutants expected to have a neutral effect derived from the HumVar neutral training set of Polyphen-2.

HumVar 중성 트레이닝 세트는 질병 관련 어노테이션을 포함하지 않는 공통의 인간 nsSNP로 구성되고(대립유전자형빈도[MAF] > 1%), 이는 유해하지 않은 변이체로 고려된다. The HumVar Neutral Training Set consists of a common human nsSNP that does not contain disease-related annotations (allele frequency [MAF]> 1%), which is considered a noxious mutant.

PSD 및 NSD 사이의 중립적 또는 질병-연관 변이체의 빈도를 비교하고자, 전체 게놈 영역에서 각 도메인에 대한 변이체의 총수, 즉 변이율(variation rate; VR)을 하기 수식에 따라 산출하였다. To compare the frequency of neutral or disease-associated variants between PSD and NSD, the total number of variants for each domain, the variation rate (VR), was calculated according to the following equation in the entire genome region.

Figure pat00018
Figure pat00018

배경 변이율(background variation rate; BVR)은 하기 수식에 따라 산출하였다.Background variation rate (BVR) was calculated according to the following formula.

Figure pat00019
Figure pat00019

시험된 변이체 세트에 대한 변이율(VR)은 배경 변이율(BVR)에 의해 정규화되었으며, 정규화된 변이율(VR/BVR)이 산출되었다. The variability (VR) for the mutant set tested was normalized by the background variability (BVR) and the normalized variability (VR / BVR) was calculated.

실시예Example 4 : 상이한 숫자의 도메인 상호 작용을 포함하는 도메인 군의  4: a group of domains containing different numbers of domain interactions PSDPSD 및 NSD의 비율 분석 And ratio analysis of NSD

종래 구조적 수준의 인간 단백질 구조적 상호 작용 네트워크(human structural interaction network; hSIN)에서 590개의 연결 도메인(interfacing domain; IFD) 및 135,166개의 도메인-도메인 상호 작용이 개시된 바 있다(Nat Biotechnol 30, 159-164 (2012), Wang et al.)590 interfacing domains (IFD) and 135,166 domain-domain interactions have been disclosed in the human structural structural human tissue structural interaction network (hSIN) (Nat Biotechnol 30, 159-164 2012), Wang et al.)

590개의 연결 도메인은 345개의 PSD 및 245개의 NSD로 분류되었고, PSD는 NSD의 1.4배에 이르렀다(도 2B).590 connection domains were classified as 345 PSDs and 245 NSDs, and PSDs reached 1.4 times the NSD (FIG. 2B).

본 발명자들은 상이한 숫자의 도메인 상호 작용을 포함하는 몇몇의 연결 도메인에 있어서 PSD및 NSD의 비율을 하기 수식에 따라 측정하였다. We have determined the ratio of PSD and NSD to some of the connecting domains comprising different numbers of domain interactions according to the following formula:

Figure pat00020
Figure pat00020

연결 도메인(IFD)에 있어서 NSD는 PSD과 비교하여 더 많은 단일 상호 작용 또는 121개 이상의 상호 작용을 하였으나, PSD는 NSD와 비교하여 더 많은 적정 수(2 내지 120개)의 상호 작용을 하였다(도 2D).In the linkage domain (IFD), NSDs had more single interactions or more than 121 interactions compared to PSDs, but PSDs had a higher number of interactions (2 to 120 interactions) compared to NSDs 2D).

본 발명자들은 연결 도메인(IFD) 사이에 적정 수의 상호 작용을 하는 더 높은 빈도의 PSD를 규명하고자, IFD의 변이 효과(mutational effect) 및 상호 작용 연결성 간의 관계 모델을 제안하였다(도 2E).The present inventors have proposed a relationship model between the mutational effect of IFD and interactivity connectivity (Fig. 2E) in order to identify a higher frequency of PSD with an appropriate number of interactions between the connecting domains (IFDs).

연결성이 낮은 연결 도메인의 변이는 일부 단백질의 상호 작용을 방해하므로 병원성이 발현되지 않고, 변이들은 환자에서 발견되지 않을 수 있다. Variations in the less connective domain interfere with the interactions of some proteins, so pathogenicity is not expressed and mutations may not be found in patients.

그러나, 변이가 중추-연결 도메인(hub-interfacing domain)에 발생한다면 다양한 생물경로와 연관된 많은 단백질의 상호 작용이 저해되므로 계통 전반에 걸친 부전이 야기될 수 있다. 이 경우, 변이는 모집단에서 발견되지 않는 치명적인 표현형을 야기할 수 있다. However, if mutations occur in the hub-interfacing domain, many protein-related interactions with various biological pathways are inhibited, leading to systemic failure. In this case, the mutation can result in a fatal phenotype that is not found in the population.

반면, 적정 수의 상호 작용을 하는 연결 도메인의 변이는 생물경로 사이즈의 범위에 대응하여 생물경로 내의 단백질 상호 작용을 저해할 수 있다. On the other hand, mutations in the connecting domain that have the appropriate number of interactions can inhibit protein interactions in the biological pathway in response to a range of biological path sizes.

대다수의 질병 유전자는 생물경로와 연관되므로, 상기 변이는 질병-연관 생물경로를 파손시켜 환자에서 발견될 수 있다. Since the vast majority of disease genes are associated with biological pathways, such mutations can be found in patients by destroying disease-related biological pathways.

따라서, 적정수의 도메인 상호 작용을 하는 도메인에서 PSD가 빈번하게 관찰될 때, 상기 PSD는 생물경로 내의 단백질 상호 작용을 저해하는 변이에 의해 야기되는 유전성 질병과 밀접하게 관련된다. Thus, when a PSD is frequently observed in a domain that has a reasonable number of domain interactions, the PSD is closely related to a genetic disease caused by a mutation that inhibits protein interactions in the biological pathway.

실험예Experimental Example 4 :  4 : PSDPSD 기반의 유전자 후보군 우선순위 결정 Prioritization of gene candidates based on

본 발명자들은 PSD가 유전성 변이와 밀접하게 연관될 수 있는 점을 고려할 때, PSD가 질병 유전자의 동정에 유용하게 활용될 수 있을 것으로 예상하였다. The present inventors have anticipated that PSD can be usefully used for the identification of disease genes, considering that PSD can be closely related to genetic variation.

예컨대, 전장유전체 연관분석(GWAS)은 일반적으로 각 질병의 표현형과 백 만개 이상의 SNP 의 연관성을 분석할 수 있으나, 매우 엄중한 유의적 임계수준(p ≤ 10e-7) 때문에 단지 몇몇의 후보군만을 동정할 수 있다. For example, full-length genome-wide association analysis (GWAS) is generally able to analyze the association of more than one million SNPs with each disease phenotype, but only a few candidates are identified due to a very significant significant threshold level (p ≤ 10e-7) can do.

그러나, GWAS는 통상적으로 임계수준 이하의 적정값(예컨대, 10e-3 ≤ p < 10e-7)에서 많은 수의 후보군을 검출할 수 있다. However, the GWAS can typically detect a large number of candidate groups at an appropriate value below the threshold level (e.g., 10e-3? P <10e-7).

적정 GWAS 수준의 더 많은 후보군 유전자는 샘플 사이즈를 증가시켜 메타분석(meta-analyse)에 의해 활용될 수 있으나, 실행을 위한 과도한 비용이 소요될 수 있다. More candidate genes at the appropriate GWAS level can be exploited by meta-analysis by increasing the sample size, but this can be costly to implement.

본 발명자들은 질병-연관 특징이 적정 GWAS 수준의 유전자에서 실제 질병 유전자 및 비-질병 유전자의 구분을 가능하게 할 것으로 가정하였다. The present inventors have assumed that disease-related features will enable discrimination between actual disease genes and non-disease genes in appropriate GWAS level genes.

따라서, 질병-연관 PSD가 상용화된 두 개의 GWAS 데이터 세트(CARDIoGRAM 및 PGC)에서 질병 유전자를 동정할 수 있는지 시험하였다(도 3A). 상기 CARDIoGRAM는 관상동맥질환(coronary artery disease; CAD)에 대한 연구 데이터를 포함하고, PGC(Psychiatric Genomic Consortium)는 정신분열증(schizophrenia; SCZ)에 대한 연구 데이터를 포함한다. Thus, it was tested whether disease-associated PSDs were able to identify disease genes in two GWAS data sets (CARDIoGRAM and PGC) that were commercialized (Figure 3A). The CARDIoGRAM contains research data on coronary artery disease (CAD), and the Psychiatric Genomic Consortium (PGC) contains research data on schizophrenia (SCZ).

적정 GWAS 수준의 후보군 유전자(1e-3 ≤ p < 1e-7)가 질병-연관 PSD에 의해 성공적으로 우선순위가 결정될 수 있는지 시험하였다. We tested whether candidate genes at the appropriate GWAS level (1e-3? P <1e-7) could be successfully prioritized by disease-associated PSDs.

CARDIoGRAM 컨소시엄은 22,233 개의 사례 및 64,762 개의 대조군을 포함하는 HapMap 2에 귀속된 유럽인의 22개의 GWAS 샘플을 사용하여 메타분석을 수행하였다. PGC는 다단식의 정신분열증 GWAS을 포함하고, 36,989 개의 사례 및 113,075 개의 대조군을 포함한다. The CARDIoGRAM consortium performed meta-analysis using 22 European GWAS samples attributed to HapMap 2, which included 22,233 cases and 64,762 controls. PGC includes multistep schizophrenia GWAS, and includes 36,989 cases and 113,075 controls.

상기 GWAS에서 3,188개(2,420,360개 중에서) 및 54,688개(9,444,230개 중에서)의 적정 GWAS 수준 SNP가 CAD 및 SCZ와 각각 연관되었다. The appropriate GWAS level SNPs of 3,188 (out of 2,420,360) and 54,688 (out of 9,444,230) in the GWAS were associated with CAD and SCZ, respectively.

또한, 각각의 SNP를 상기 유전자의 10 kb 이내(다운스트림 또는 업스트림)에 위치하는 유전자에 할당하였다. CAD 및 SCZ에 있어서, 3,188개의 SNP가 204개의 유전자에 할당되었고, 54,688개의 SNP가 1,044개의 유전자에 각각 할당되었다. Each SNP was also assigned to a gene located within 10 kb (downstream or upstream) of the gene. In CAD and SCZ, 3,188 SNPs were assigned to 204 genes, and 54,688 SNPs were assigned to 1,044 genes, respectively.

한편, CAD 및 SCZ와 연관된 PDS를 확인하고자, 피셔의 정확도 테스트(p < 0.01) 를 통해 CAD 또는 SCZ와 연관된 GOBP 생물경로를 동정하고, GOBP 용어 및 각각의 질병 사이의 중첩 정도를 확인하였다. CAD 또는 SCZ 연관 유전자는 OMIM 및DO 데이터베이스에서 수집하였다. 212개의 CAD 질병-연관 유전자가 수집되었고, 233개의 SCZ 질병-연관 유전자는 233개가 수집되었다. Meanwhile, in order to identify the PDS associated with CAD and SCZ, the GOBP biological pathway associated with CAD or SCZ was identified through Fisher's accuracy test (p <0.01), and the degree of overlap between the GOBP terminology and each disease was confirmed. CAD or SCZ associated genes were collected from the OMIM and DO databases. 212 CAD disease-associated genes were collected and 233 SCZ disease-associated genes were collected.

이어서, 상기 유전자들은 상기 질병과 관련된 PSD의 숫자에 의해 우선순위가 결정되었다. 본 발명자들 CAD 또는 SCZ와 연관된 PSD를 동정하였다. PSD-생물경로 연관성은 질병-연관 유전자 및 생물경로-연관 유전자 사이의 중첩에 기반하여 PSD-질병 연관성으로 변환되었다.The genes were then prioritized by the number of PSDs associated with the disease. We have identified a PSD associated with our CAD or SCZ. PSD-biospecific associations were converted to PSD-disease associations based on overlapping between disease-associated genes and bio-pathway-associated genes.

이 때, 적어도 5개 이상의 유전자를 포함하는 GOBP 생물경로를 고려하였다. 생물경로, CAD 또는 SCZ 간의 연관성, 및 PSD-생물경로 연관성을 조합하여, 97개의 CAD-연관 GOBP 경로를 경유하여 2,664개의 PSD 및 CAD를 연결하였고(Table S2, S3), 61개의 SCZ-연관 GOBP 경로를 경유하여 2,517개의 PSD 및 SCZ 를 연결하였다.At this time, the GOBP pathway containing at least 5 genes was considered. 2,664 PSDs and CADs were connected (Table S2, S3) via 97 CAD-related GOBP pathways in combination with biological pathways, associations between CAD or SCZ, and PSD-biopathology associations (Table S2, S3) Through the path, 2,517 PSD and SCZ were connected.

CAD 또는 SCZ 연관 PSD의 숫자를 근거로 적정 GWAS 수준의 후보군 유전자에 우선 순위를 부여하였다. CAD 및 SCZ에 있어서 적어도 하나의 질병-연관 PSD를 포함하는 202 개 및 934개의 후보군 유전자가 동정되었다.Based on the number of CAD or SCZ associated PSDs, the candidate genes at the appropriate GWAS level were given priority. 202 and 934 candidate genes including at least one disease-associated PSD in CAD and SCZ were identified.

한편, 상기 유전자 중에서 3개 이상의 질병과 연관된 PSD를 선별하였으며(GWAS ∩ PSD 세트), CAD에 있어서 38개의 유전자, SCZ에 있어서 157개의 유전자가 선별되었다.On the other hand, among the above genes, PSDs associated with three or more diseases were selected (GWAS ∩ PSD set), 38 genes in CAD, and 157 genes in SCZ were selected.

또한, 적정 GWAS 수준(GWAS 세트)만을 고려하거나, 질병-연관 PSD(PSD 세트)만을 고려하여 동정된 후보군 유전자를 각각 선별하였다.In addition, only the appropriate GWAS level (GWAS set) or only the disease-associated PSD (PSD set) was selected.

상기 유전자 세트의 검증을 위해, 질병-특이적 데이터베이스(CADgene V2.0 및 SZdatabase) 유래의 CAD 및 SCZ에 포함된 604개, 937개의 유전자를 각각 수집하였다. 보수적으로 검증하기 위해 생물경로의 연관성을 찾는데 사용된 CAD 및 SCZ 유전자를 제외하였고, 466개의 CAD 유전자 및 767개의 SCZ 유전자가 최종 검증 세트로 선별되었다.For verification of the gene set, 604, 937 genes contained in CAD and SCZ derived from a disease-specific database (CADgene V2.0 and SZdatabase), respectively, were collected. Excluding the CAD and SCZ genes used to correlate biological pathways for conservative validation, 466 CAD genes and 767 SCZ genes were selected as final validation sets.

GWAS 수준 또는 PSD 수준에 따른 예측을 비교하고자, 적정 GWAS 수준의 유전자들의 p-값에 기반한 예측을 포함하는 세트(GWAS 세트)와 적정 GWAS 수준 및 낮은 GWAS 수준의 유전자들의 질병-연관 PSD 숫자에 기반한 세트(PSD 세트)를 구축하였다.In order to compare predictions according to GWAS level or PSD level, a set (GWAS set) containing predictions based on p-values of genes at appropriate GWAS levels and a disease-associated PSD number of genes at appropriate GWAS level and low GWAS level Set (PSD set).

GWAS 세트 및 PSD 세트를 비교한 결과, PSD 세트에서 약 30% 이상 많은 CAD 유전자가 관찰되었고(도 3B), 상기 결과는 SCZ에서 더 부각되었다(도 3C).Comparing the GWAS set and the PSD set, more than 30% more CAD genes were observed in the PSD set (Fig. 3B) and the results were more pronounced in the SCZ (Fig. 3C).

또한, CAD 및 SCZ에 있어서 GWAS 및 PSD를 조합했을 때 예측 정확도는 현저히 증가하였으므로, 상기 결과는 GWAS 및 PSD가 상호 보완적으로 질병 예측 정보를 제공할 수 있음을 시사한다. In addition, since the prediction accuracy is significantly increased when the combination of GWAS and PSD is combined in CAD and SCZ, the above results suggest that GWAS and PSD can complement each other to provide disease prediction information.

실시예Example 5 :  5: 제브라피시(zebrafish)의Zebrafish 후보군 유전자에 대한 실험적 검증 Experimental verification of candidate gene

본 발명자들은 제브라피시에 대한 모폴리노-기반의 기능상실 표현형 분석(morpholino-based loss-of-function phenotype analysis)을 통해 GWAS ∩ PSD 세트의 예측을 실험적으로 검증하였다. We have experimentally verified the prediction of GWAS ∩ PSD sets through morpholino-based loss-of-function phenotype analysis of zebrafish.

인간 질병 유전자의 대다수가 제브라피시 오솔로그(ortholog)를 가지고 있음에도 불구하고, 정신질환(psychiatric disease)과 같은 몇몇 질병의 표현형은 제브라피시에서 즉시 발견되지 않는다. 따라서, 관상동맥질환(CAD) 유전자를 대상으로 예측 시험을 수행하였다. Despite the fact that the vast majority of human disease genes have zebrafish orthologs, some phenotypic phenotypes, such as psychiatric disease, are not immediately found in zebrafish. Therefore, predictive tests were performed on coronary artery disease (CAD) genes.

GWAS ∩ PSD 세트에서 38개의 인간 CAD 후보군 유전자에 대한 23개의 제브라피시 오솔로그를 발견하였다. 이미 CAD와 연관성이 알려지거나 GWAS에 의해 상위에 랭크된 유전자를 제외한 후, 4개의 시험가능한 후보군 유전자(tram1 , apod , cypna1, slc22a2)를 선별하였다. In the GWAS ∩ PSD set, we found 23 zebrafish osologs for 38 human CAD candidate genes. Four candidate candidate genes ( tram1 , apod , cypna1, and slc22a2 ) were selected after the association with CAD was known or the genes ranked high by GWAS were excluded.

CAD에 있어서 제브라피시 모델은 아직 확립되지 않았다. 그러나, 본 발명자들은 제브라피시의 심장 또는 혈관 발생과 관련된 유전자의 인간 오솔로그(207개)가 OMIM 또는 DO 어노테이션(p < 1.29e-4, 피셔의 정확도 테스트), 또는 CADgeneDB(p < 7.46e-3, 피셔의 정확도 테스트)에 의해 CAD 유전자와 현저히 연관되며, 생물경로 수준에서 CAD 및 심장/혈관 발생이 밀접하게 관련되어 있음을 확인하였다. The zebrafish model in CAD has not yet been established. However, the present inventors have found that the human orthologs (207) of the genes involved in the development of heart or blood vessels of zebrafish are OMIM or DO annotations (p <1.29e-4, Fisher's accuracy test) or CADgeneDB (p < 3, Fisher's accuracy test), and confirmed that CAD and cardiovascular events are closely related at the biological pathway level.

즉, 제브라피시의 배아 발달 과정에서 비정상적인 심장 및 혈관의 표현형에 기반하여 CAD 유전자를 확인하였다. In other words, CAD genes were identified based on abnormal cardiac and vascular phenotypes during embryonic development of zebrafish.

심장 및 혈관의 표현형에 기반한 CAD 유전자 규명 가능성을 확인하고자, CAD와 연관된 atp2a2b를 양성 대조군으로 사용하였다. To confirm the possibility of CAD gene identification based on cardiac and vascular phenotype, atp2a2b associated with CAD was used as a positive control.

시험유전자의 모폴리노를 배아에 미세 주입한 후, 형광 입체 현미경을 사용하여 심장 및 혈관의 표현형을 조사하였다(도 4A). The morpholino of the test gene was microinjected into the embryo and the expression of the heart and blood vessels was examined using a fluorescence stereomicroscope (Fig. 4A).

이 때, 모폴리노가 주입된 대다수의 배아에 있어서, CAD-연관 atp2a2b 뿐만 아니라 4개의 후보군 중 3개의 후보군 유전자(tram1 , cypna1 , slc22a2)에서 심장 또는 혈관의 표현형은 비정상적이었으며, 상기 결과는 상기 후보군 유전자 및 CAD의 연관성을 강력하게 시사한다(도 4B, 4C).At this time, in the majority of embryos implanted with morpholino , the phenotype of the heart or blood vessel was abnormal in not only the CAD-associated atp2a2b but also the three candidate genes ( tram1 , cypna1 , slc22a2 ) among the four candidate groups , Strongly suggests the association of genes and CAD (Figs. 4B and 4C).

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.It will be understood by those skilled in the art that the foregoing description of the present invention is for illustrative purposes only and that those of ordinary skill in the art can readily understand that various changes and modifications may be made without departing from the spirit or essential characteristics of the present invention. will be. It is therefore to be understood that the above-described embodiments are illustrative in all aspects and not restrictive. For example, each component described as a single entity may be distributed and implemented, and components described as being distributed may also be implemented in a combined form.

본 발명의 범위는 후술하는 특허청구범위에 의해 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is defined by the appended claims, and all changes or modifications derived from the meaning and scope of the claims and their equivalents should be construed as being included within the scope of the present invention.

Claims (8)

(a) 가중치 상호정보량(Weighted Mutual Information; WMI) 측정법에 기반하여 단백질 상호간 도메인 프로파일의 유사성을 분석하는 단계;
(b) 상기 단백질 도메인 프로파일의 유사성에 기반하여 단백질 상호간의 공동-생물경로 네트워크(co-pathway network)를 구축하는 단계; 및
(c) 단백질 도메인 및 생물경로 간의 연관성을 평가하는 단계;를 포함하는 단백질 도메인의 생물경로 특이성 판단 방법.
(a) analyzing the similarity of a protein inter-domain profile based on weighted mutual information (WMI) measurement;
(b) constructing a mutual co-pathway network of proteins based on the similarity of the protein domain profile; And
(c) assessing the association between the protein domain and the biological pathway.
제1항에 있어서,
상기 (a) 단계에서 상기 가중치 상호정보량 측정법은 기존의 상호 정보량 측정법에 도메인의 희귀성에 따라 정의된 수식1에 의해 산출된 가중치를 각 단백질 도메인에 부여하는 판단 방법.
[수식1]
Figure pat00021
The method according to claim 1,
In the step (a), the weight mutual information amount measurement method assigns a weight value calculated by Equation (1) defined according to the rareness of a domain to each protein domain in a conventional mutual information measurement method.
[Equation 1]
Figure pat00021
제1항에 있어서,
상기 (c) 단계는 베이시안 통계(Bayesian statistics)에 기반하여 상기 분류된 단백질 및 생물경로 간의 연관성을 평가하는 단계;
상기 단백질-생물경로 연관성 및 상기 도메인 프로파일을 이용하여 도메인 및 생물경로 간의 연관성을 평가하는 단계; 및
상기 도메인의 생물경로 정보량을 측정하는 단계를 포함하는 판단 방법.
The method according to claim 1,
(C) evaluating a correlation between the classified protein and the biological pathway based on Bayesian statistics;
Evaluating the association between the domain and the biological pathway using the protein-biological pathway association and the domain profile; And
And measuring the amount of biological pathway information of the domain.
제3항에 있어서,
상기 (c) 단계에서 상기 분류된 단백질 및 생물경로 간의 연관성은 하기 수식 5 내지 7에 따라 단백질-생물경로 연관 점수(Protein-Pathway Association Score; PPA score)를 확률 점수로 변환하여 산출하는 판단 방법.
[수식 5]
Figure pat00022

[수식 6]
Figure pat00023

[수식 7]
Figure pat00024
The method of claim 3,
In the step (c), a correlation between the classified protein and the biological pathway is calculated by converting a Protein-Pathway Association Score (PPA score) into a probability score according to Equations 5 to 7 below.
[Equation 5]
Figure pat00022

[Equation 6]
Figure pat00023

[Equation 7]
Figure pat00024
제3항에 있어서,
상기 (c) 단계에서 상기 도메인 및 생물경로 간의 연관성은 하기 수식 9 에 따른 도메인-생물경로 연관 점수(Domain-Pathway Association score; DPA score)로 산출하는 판단 방법.
[수식 9]
Figure pat00025
The method of claim 3,
In the step (c), the association between the domain and the biological pathway is calculated as a Domain-Pathway Association score (DPA score) according to Equation (9).
[Equation 9]
Figure pat00025
제3항에 있어서,
상기 (c) 단계에서 상기 도메인의 생물경로 정보량을 하기 수식 10에 따라 도메인 정보량 점수(Domain Information Content Score; DOMICS)로 산출하는 판단 방법.
[수식 10]
Figure pat00026
The method of claim 3,
Wherein in step (c), the biological path information amount of the domain is calculated by a Domain Information Content Score (DOMICS) according to Equation (10).
[Equation 10]
Figure pat00026
제6항에 있어서,
상기 산출된 도메인 정보량 점수에 따라 생물경로-특이적 도메인(Pathway-Specific Domain; PSD)을 선별하는 판단 방법.
The method according to claim 6,
And determining a pathway-specific domain (PSD) according to the calculated domain information amount score.
제7항에 있어서,
상기 생물경로-특이적 도메인(PSD) 선별 결과를 전장유전체 연관분석(Genome Wide Association Study; GWAS)결과에 적용하여 질병 연관 유전자를 선별하는 판단 방법.
8. The method of claim 7,
A method for selecting a disease-associated gene by applying the result of the biological pathway-specific domain (PSD) screening to a Genome Wide Association Study (GWAS) result.
KR1020160041518A 2016-04-05 2016-04-05 Method for determining pathway-specificity of protein domains, and its appication for identifying disease genes KR101853916B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160041518A KR101853916B1 (en) 2016-04-05 2016-04-05 Method for determining pathway-specificity of protein domains, and its appication for identifying disease genes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160041518A KR101853916B1 (en) 2016-04-05 2016-04-05 Method for determining pathway-specificity of protein domains, and its appication for identifying disease genes

Publications (2)

Publication Number Publication Date
KR20170114504A true KR20170114504A (en) 2017-10-16
KR101853916B1 KR101853916B1 (en) 2018-06-20

Family

ID=60295731

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160041518A KR101853916B1 (en) 2016-04-05 2016-04-05 Method for determining pathway-specificity of protein domains, and its appication for identifying disease genes

Country Status (1)

Country Link
KR (1) KR101853916B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019093695A1 (en) * 2017-11-13 2019-05-16 한양대학교 산학협력단 Method for analyzing sample data on basis of genome module network

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS641469A (en) * 1987-06-23 1989-01-05 Mitsubishi Electric Corp Hydromagnetic actuator
US20060069512A1 (en) * 1999-04-15 2006-03-30 Andrey Rzhetsky Gene discovery through comparisons of networks of structural and functional relationships among known genes and proteins
KR20110035716A (en) * 2009-09-30 2011-04-06 이화여자대학교 산학협력단 The method for searching signaling pathway of protein using gene ontology and the system thereof, and the method for evaluating signaling pathway of protein
KR20120089034A (en) * 2011-02-01 2012-08-09 충북대학교 산학협력단 Method for Identifying Cancer Related Protein Domains
KR20150092780A (en) * 2014-02-05 2015-08-17 연세대학교 산학협력단 Improvement method of gene network using domain-specific phylogenetic profiles similarity
KR101568399B1 (en) * 2014-12-05 2015-11-12 연세대학교 산학협력단 Systems for Predicting Complex Traits associated genes in plants using a Arabidopsis gene network
KR20160009474A (en) * 2014-07-16 2016-01-26 한국과학기술원 Device for selecting candidate of drug peptide and method for selecting candidate of drug peptide using the same

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS641469A (en) * 1987-06-23 1989-01-05 Mitsubishi Electric Corp Hydromagnetic actuator
US20060069512A1 (en) * 1999-04-15 2006-03-30 Andrey Rzhetsky Gene discovery through comparisons of networks of structural and functional relationships among known genes and proteins
KR20110035716A (en) * 2009-09-30 2011-04-06 이화여자대학교 산학협력단 The method for searching signaling pathway of protein using gene ontology and the system thereof, and the method for evaluating signaling pathway of protein
KR20120089034A (en) * 2011-02-01 2012-08-09 충북대학교 산학협력단 Method for Identifying Cancer Related Protein Domains
KR20150092780A (en) * 2014-02-05 2015-08-17 연세대학교 산학협력단 Improvement method of gene network using domain-specific phylogenetic profiles similarity
KR20160009474A (en) * 2014-07-16 2016-01-26 한국과학기술원 Device for selecting candidate of drug peptide and method for selecting candidate of drug peptide using the same
KR101568399B1 (en) * 2014-12-05 2015-11-12 연세대학교 산학협력단 Systems for Predicting Complex Traits associated genes in plants using a Arabidopsis gene network

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Bioinformatics 32(18):2824-2830 (2016.05.20.) *
FEBS Letters, 583:1703-1712 (2009) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019093695A1 (en) * 2017-11-13 2019-05-16 한양대학교 산학협력단 Method for analyzing sample data on basis of genome module network

Also Published As

Publication number Publication date
KR101853916B1 (en) 2018-06-20

Similar Documents

Publication Publication Date Title
Yousefi et al. DNA methylation-based predictors of health: applications and statistical considerations
Schaid et al. From genome-wide associations to candidate causal variants by statistical fine-mapping
Schrider et al. Supervised machine learning reveals introgressed loci in the genomes of Drosophila simulans and D. sechellia
Lage Protein–protein interactions and genetic diseases: the interactome
Jagadeesh et al. S-CAP extends pathogenicity prediction to genetic variants that affect RNA splicing
Hohenlohe et al. Population genomic analysis of model and nonmodel organisms using sequenced RAD tags
CN109310332A (en) Method for analyzing numerical data
Paris et al. Sex bias and maternal contribution to gene expression divergence in Drosophila blastoderm embryos
CN115997255A (en) Molecular techniques for predicting bacterial phenotypic traits from genome
Hopkins et al. Phenotypic screening models for rapid diagnosis of genetic variants and discovery of personalized therapeutics
Hitti‐Malin et al. Using single molecule Molecular Inversion Probes as a cost‐effective, high‐throughput sequencing approach to target all genes and loci associated with macular diseases
Tomofuji et al. Reconstruction of the personal information from human genome reads in gut metagenome sequencing data
DeGiorgio et al. A spatially aware likelihood test to detect sweeps from haplotype distributions
Flassig et al. An effective framework for reconstructing gene regulatory networks from genetical genomics data
Kopp et al. Moving from capstones toward cornerstones: successes and challenges in applying systems biology to identify mechanisms of autism spectrum disorders
Soneson et al. Bias, robustness and scalability in differential expression analysis of single-cell RNA-Seq data
Martínez-Redondo et al. Illuminating the functional landscape of the dark proteome across the Animal Tree of Life through natural language processing models
KR101853916B1 (en) Method for determining pathway-specificity of protein domains, and its appication for identifying disease genes
Amariuta et al. In silico integration of thousands of epigenetic datasets into 707 cell type regulatory annotations improves the trans-ethnic portability of polygenic risk scores
Barrie et al. Elevated genetic risk for multiple sclerosis originated in Steppe Pastoralist populations
Widmayer et al. Evaluating the power and limitations of genome-wide association mapping in C. elegans
Chong et al. SeqControl: process control for DNA sequencing
Liu et al. Brain transcriptional regulatory architecture and schizophrenia etiology converge between East Asian and European ancestral populations
Mahlich et al. Low diversity of human variation despite mostly mild functional impact of de novo variants
Jagadeesh et al. S-CAP extends clinical-grade pathogenicity prediction to genetic variants that affect RNA splicing

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant