KR101636995B1 - 도메인 특이적인 계통발생학적 프로파일 유사성을 이용한 유전자 네트워크의 개선 방법 - Google Patents

도메인 특이적인 계통발생학적 프로파일 유사성을 이용한 유전자 네트워크의 개선 방법 Download PDF

Info

Publication number
KR101636995B1
KR101636995B1 KR1020140012940A KR20140012940A KR101636995B1 KR 101636995 B1 KR101636995 B1 KR 101636995B1 KR 1020140012940 A KR1020140012940 A KR 1020140012940A KR 20140012940 A KR20140012940 A KR 20140012940A KR 101636995 B1 KR101636995 B1 KR 101636995B1
Authority
KR
South Korea
Prior art keywords
gene
domain
ftp
genome
org
Prior art date
Application number
KR1020140012940A
Other languages
English (en)
Other versions
KR20150092780A (ko
Inventor
이인석
신준하
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020140012940A priority Critical patent/KR101636995B1/ko
Publication of KR20150092780A publication Critical patent/KR20150092780A/ko
Application granted granted Critical
Publication of KR101636995B1 publication Critical patent/KR101636995B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 도메인-특이적 PPS를 이용한 유전자 네트워크의 개선 방법에 관한 것이다. 본 발명에 따른 방법에 의해 신호전달 경로에서 상호의존적인 두 유전자에 대한 도메인 특이적인 PPS를 측정할 수 있다. 본 발명에 따른 유전자에 대한 도메인 특이적 PPS를 이용하여 유전자의 생명체 내 신호전달 경로를 효과적으로 재구축할 수 있다. 또한, 본 발명의 도메인 특이적 PPS에 기반한 유전자 네트워크를 병합하여 공통-유전되는 유전자들에 대한 계통발생학적 프로파일 사이의 유사성을 정확하게 측정할 수 있으며 상기 구축된 유전자 네트워크를 이용하여 인간의 질병에 관련된 유전자를 예측할 수 있다.

Description

도메인 특이적인 계통발생학적 프로파일 유사성을 이용한 유전자 네트워크의 개선 방법{Improvement method of gene network using domain-specific phylogenetic profiles similarity}
본 발명은 신호전달 경로에서 상호의존적인 유전자 쌍에 대한 도메인-특이적인 계통발생학적 프로파일 유사성(Phylogenetic Profiles Similarity, PPS)를 측정하는 방법에 관한 것이다. 또한, 본 발명은 도메인-특이적 PPS를 이용한 생명체 내의 유전자 네트워크 구축방법의 개선, 상기 구축된 유전자 네트워크의 병합을 통한 유전자 네트워크 활용성의 확장에 관한 것이다.
유전체들 간의 진화적 상관관계를 설명하는 계통발생학적 프로파일은 생명체 내 경로의 재구축에 사용할 수 있는 정보를 제공한다. 계통발생학적 프로파일의 유사성(PPS, Phylogenetic Profile Similarity)은 복잡한 진화적 패턴, 즉 종 형성 및 종 분화 과정 중에 경로 유전자의 공통 유전 현상을 활용하는 장점이 있어서 유전자들 간의 기능적 연관성에 의존하는 다른 형태의 유전체 정보에 대해서보다 오랫동안 폭 넓게 연구되어 왔다(논문 1). 하지만, 기존의 방법은 인간을 포함하는 고등 진핵생물체 내의 경로를 재구축함에 있어서 PPS의 유용성을 입증하지 못하고 있다. 고등생물체 내에서 PPS 기반 경로의 유용성을 제한하는 문제점에 대한 해결은 서열분석이 완료된 유전체 정보가 크게 증가함에 따라 유전체 정보가 PPS 기반한 접근방법을 필요로 하기 때문에 더 중요한 과제가 되고 있다.
한편, 생명체 내 경로 연관성에 관하여 PPS 기반 추론에 대한 기본적인 관점은 경로 내 상호의존적인 유전자들 사이의 기능적 제한이 종 분화 과정에서 함께 추가되거나 함께 손실된다는 점을 확인하는 것이다. 또한, 참조 유전체들 사이의 상동기관의 유사한 패턴을 가진 2가지 유전자가 있다면, 두 유전자는 기능을 수행하기 위해 협력해야 하고 공동 유전되어야 할 필요성이 있다. 생명체의 계통발생에 대한 트리 구조는 크게 3가지 도메인(고세균, 원핵생물, 진핵생물)으로 나뉘어지고, 오랫동안 독립적으로 진화해 왔지만, 계통발생학적 구조에 대한 이해를 통한 도메인 특이적 정보를 이용한 생명체 내 경로 분석은 해결되지 않은 상태이다.
본 발명자들은 상기 3가지 도메인 각각에서 모듈화된 진화에 기반한 경로 연관성을 추론하는 PPS 방식에 대한 새로운 접근 방법을 제시하여 도메인 특이적 연관 세트를 단일 유전자 네트워크로 통합하였고, 통합된 네트워크는 원핵생물부터 인간을 포함하는 고등 진핵생물에 이르는 다양한 생명체 내의 경로에 대한 확인 방법을 크게 향상시켜 본 발명을 완성하였다.
논문 1: Nat Biotechnol, 2000, 18, 609-613. 논문 2: Nat Biotechnol, 2003, 21, 1055-1062 논문 3: Anim Cells Syst, 2013, 17, 75-79. 논문 4: Genome Biol, 2008, 9 Suppl 1, S4. 논문 5: Nat Genet, 2008, 40, 181-188. 논문 6: Science, 2004, 306, 1555-1558. 논문 7: Nat Genet, 2000, 25, 25-29 논문 8: Nucleic Acids Res, 2012, 40, D742-753 논문 9: PLoS One, 2007, 2, e988
이와 같이, 본 발명의 목적은 유전체 내 신호전달경로에서 상호의존적으로 작용하는 유전자 쌍에 대한 도메인 특이적인 계통발생학적 프로파일 유사성을 측정하는 방법을 제공하는 것이다.
본 발명의 목적은 서열분석이 완료된 고세균 유전체, 원핵생물 유전체 및 진핵생물 유전체를 포함하는 유전체군으로부터 선택된 참조 유전체들 간의 프로파일의 다양성에서 유래된 2가지 주성분을 나타내고, 최소 100 종의 고세균에 대한 유전체, 원핵생물 유전체는 최소 1200개 종의 원핵생물에 대한 유전체 및 최소 300종의 진핵생물에 대한 유전체의 서열정보를 사용하는 PCA 이중플롯 분석을 실시하여 참조 유전체의 온전한 온톨로지에 기반한 참조 유전체의 군집이 3 가지 도메인으로 분리되지 않는 경우 도메인 특이적인 공통-유전 패턴이 있는 것으로 판단하는 방법을 제공하는 것이다.
본 발명의 목적은 서열분석이 완료된 100개 이상의 진핵생물 유전체 또는 800개 이상의 원핵생물 유전체에 의해 구축된 도메인 특이적 PPS를 사용하고 단일 도메인 내 유전자의 기능적 연결을 측정하여 인간 유전자 네트워크를 예측하는 방법을 제공하는 것이다.
본 발명의 목적은 도메인 특이적 PPS에 의해 구축된 인간 유전자 네트워크를 이용한 인간 질병에 관련된 유전자의 예측 방법을 제공하는 것이다.
상기 본 발명의 목적을 달성하기 위해, 본 발명은 일 구체예에서. 1) 3가지 도메인 고세균, 원핵생물 또는 진핵생물에 속하는 다양한 종의 유전체를 포함하는 참조 유전체에 대한 서열 정보를 상용화된 데이터베이스로부터 수집하고, 2) 상기 참조 유전체 중 하나의 참조 유전체 내 상호의존적으로 작용하는 유전자 쌍 A 및 B를 선별하며, 3) 상기 선별된 유전자 쌍 A 및 B에 대하여 H(A)는 각 참조 유전체 내 유전자 A의 확률분포 p(a)에 대한 주변 엔트로피이고, H(B)는 각 참조 유전체 내 유전자 B의 확률분포 p(b)에 대한 주변 엔트로피이며, H(A,B)는 유전자 A 및 B의 결합 확률 분포에 대한 고유 엔트로피인 것을 특징으로 하는 하기 [수식 1] 내지 [수식 3]에 의해 정보 이론을 기반으로 하는 상호간 정보 수치(MI,Mutual Inoformation)를 측정하여,
Figure 112014011249455-pat00001
[수식 1]
Figure 112014011249455-pat00002
[수식 2]
Figure 112014011249455-pat00003
[수식 3]
상기에서 측정된 상호간 정보(MI) 수치에 의해 유전자 A 및 유전자 B에 대한 도메인 특이적인 계통발생학적 프로파일의 유사성(PPS)을 측정하는 방법을 제공한다. 상기 구체예에서, 원핵생물 유전체에 대한 정보는 국립센터(NCBI, ftp://ftp.ncbi.nlm.nih.gov/genomes) 및 유럽 생물정보학 기관-유럽 핵산 기록보관소(EBI-ENA, ftp :// ftp . ebi . ac . uk / pub / software / ensembl / eg - dumps / blast -11)에서만 수득하고, 상기 진핵생물 유전체에 대한 정보는 NCBI, EBI-ENA 및 ENSEMBL (ftp://ftp.ensembl.org/pub/release-65/fasta), the Broad Institute Database (BI, http://www.broadinstitute.org/scientific-community/data), the Department of Energy Joint Genome Institute (DOE-JGI, ftp://ftp.jgi-psf.org/pub/JGI_data), the J. Craig Venter Institute (JCVI, ftp://ftp.jcvi.org/pub/data/Eukaryotic_Project), the Beijing Genomics Institute (BGI, ftp://ftp.genomics.org.cn/pub), the Consensus CDS Project (CCDS), Gёnolevures, Genoscope (http://www.genoscope.cns.fr/spip/Genoscope-s-Resources.html), the Saccharomyces Genome Database (SGD), Wormbase, Flybase, The Arabidopsis Information Resource (TAIR), the Rice Genome Annotation Project, the Genome Database for Rosaceae (GDR, http://www.rosaceae.org/), VectorBase (https://www.vectorbase.org/downloads), the Bioinformatics & Evolutionary Genomics Lab in Ghent University (http://bioinformatics.psb.ugent.be/genomes/), SUPERFAMILY (http://supfam2.cs.bris.ac.uk/SUPERFAMILY/cgi-bin/index.html), Tokyo University (http://merolae.biol.s.u-tokyo.ac.jp/download/)를 포함하는 데이터베이스 군으로부터 선택한 어느 하나의 데이터베이스로부터 획득하는 것을 특징으로 하는 방법을 제공한다.
본 발명은 일 구체예에서, 서열분석이 완료된 고세균 유전체, 원핵생물 유전체 및 진핵생물 유전체를 포함하는 유전체군으로부터 선택된 참조 유전체들 간의 프로파일의 다양성에서 유래된 2가지 주성분을 나타내는 PCA 이중플롯 분석을 실시하여 참조 유전체의 온전한 온톨로지에 기반한 참조 유전체의 군집이 3 가지 도메인으로 분리되지 않는 경우 도메인 특이적인 공통-유전 패턴이 있는 것으로 판단하는 방법을 제공한다. 상기 구체예에서, 상기 PCA 이중플롯 분석은 최소 100 종의 고세균에 대한 유전체, 원핵생물 유전체는 최소 1200개 종의 원핵생물에 대한 유전체 및 최소 300종의 진핵생물에 대한 유전체의 서열정보를 사용하여 실시하는 것을 특징으로 하는 방법을 제공한다.
본 발명은 일 구체예에서, 서열분석이 완료된 진핵생물 유전체 또는 원핵생물 유전체에 의해 구축된 도메인 특이적 PPS를 사용하여 인간 유전자 네트워크를 예측하는 방법을 제공한다. 상기 구체예에서, 상기 예측은 단일 도메인 내 유전자의 기능적 연결에 의해 실시되는 것을 특징으로 하는 방법을 제공한다. 상기 구체예에서, 상기 진핵생물 유전체는 100개 이상이고, 상기 원핵생물 유전체는 800개 이상인 것을 특징으로 하는 방법을 제공한다.
본 발명은 일 구체예에서, 도메인 특이적 PPS에 의해 구축된 인간 유전자 네트워크를 이용한 인간 질병에 관련된 유전자의 예측 방법을 제공한다. 상기 구체예에서, 상기 예측은 질병 관련 유전자에 대한 특징적인 커브를 조절하는 수용체의 면적을 측정하여 실시하는 것을 특징으로 하는 예측 방법을 제공한다. 상기 구체예에서, 상기 질병은 질병 온톨로지에 의해 표지된 24가지인 것을 특징으로 하는 예측 방법을 제공한다.
본 발명에서 "온톨로지"란 특정한 영역을 표현하는 데이터 모델로, 특정한 영역(Domain)에 속하는 개념과, 개념 사이의 관계를 기술하는 정형(Formal) 어휘의 집합으로 정의된다. 예를 들어 '종목과목강문계'로 분류되는 생물과 생물 사이의 종의 관계, 영어 단어 사이의 관계 같은 것을 정형 어휘로 기술하면 각각 온톨로지라고 할 수 있다.
본 발명에서 "유전자 온톨로지"란 유전자 온톨로지 컨소시엄(Gene Ontology Consortium)에서 제공하는 생물학 용어 또는 어휘를 분류해 놓은 체계를 의미한다.
본 발명에서 "모듈"이란 이미 알고 있는 특성을 갖는 기능 단위를 의미한다.
본 발명에서 "주성분분석(PCA, Principle Component Analysis)"이란 통계 데이터를 분석하는 하나의 수법으로서 어떤 개체를 설명하는데 P종의 데이터가 있다고 할 경우, 이 P종을 가장 적은 종류(특성)로 정리하는 방법을 의미한다.
본 발명에 따른 방법에 의해 상호의존적인 두 유전자에 대한 도메인 특이적인 PPS를 측정할 수 있다. 본 발명에 따른 유전자에 대한 도메인 특이적 PPS를 이용하여 유전자의 생명체 내 신호전달 경로를 효과적으로 재구축할 수 있다. 또한, 본 발명의 도메인 특이적 PPS에 기반한 유전자 네트워크를 병합하여 공통-유전되는 유전자들에 대한 계통발생학적 프로파일 사이의 유사성을 정확하게 측정할 수 있으며 상기 구축된 유전자 네트워크를 이용하여 인간의 질병에 관련된 유전자를 예측할 수 있다.
도 1은 3 가지 도메인에 대한 4 가지 유전자 쌍의 특징적인 공통-유전 패턴을 나타낸 것이다.
도 2는 도메인-특이적 PPS 군집을 보여주는 4 가지 종(대장균 Escherichia coli, 효모 Saccharomyces cerevisiae, 애기장대 Arabidopsis thaliana 및 인간 Homo sapiens)에 대한 주성분분석(PCA) 및 이중 플롯 결과를 도식화한 것이다.
도 3은 온톨로지 프로파일에 기반한 참조 유전체의 군집이 3 가지 도메인으로 분리되는 것을 나타낸 것이다.
도 4는 본 발명에 따라 병합된 도메인 특이적 연관성을 사용하여 4 가지 종의 유전자 네트워크에 대한 분석 결과를 나타낸 것이다.
도 5는 도메인 내에서 발생하는 공통-유전에 의해 확인된 기능적 연관성에 의해 획득되는 유전자 네트워크를 도식적으로 나타낸 것이다.
도 6은 PPS에 기반한 유전자 네트워크와 고효율 효모 투-하이브리드(Y2H) 및 흡착 분리에 이은 질량 분광분석(AP/MS)을 이용한 단백질-단백질 상호작용(PPI) 네트워크를 비교하고(6a), PPS 기반으로 병합된 네트워크 및 2 가지 고효율 PPI 네트워크가 높은 상보성을 나타냄을 보여주는 것이다(6b).
도 7은 PPS에 기반한 유전자 네트워크 및 2 가지 고효율의 PPI 네트워크(Y2H 및 AP/MS)를 이용하여 질병 온톨로지를 기반으로 인간 질병을 예측한 결과를 나타낸 것이다.
도 8은 본 발명에 따라 구축된 PPS에 기반한 네트워크에서 유전체 수가 증가함에 따른 유전자 네트워크 연관성을 분석한 결과이다.
이하, 본 발명의 구성요소와 기술적 특징을 다음의 실시예들을 통해 보다 더 구체적으로 설명하고자 한다. 그러나 하기 실시예들은 본 발명의 내용을 예시하는 것일 뿐 발명의 범위가 실시예에 의해 한정되는 것은 아니다.
상호의존적인 유전자 쌍의 도메인 특이적 공통-유전.
1.1 유전자 쌍에 대한 도메인 특이적 계통발생학적 프로파일( Phylogenetic profiling) 구축.
유전자 쌍에 대한 계통발생학적 프로파일 작성에는 참조 유전체가 필요하며, 참조 유전체에 대한 정보는 완전하게 분석된(콘틱 형태 또는 스캐폴드 형태가 아님) 단백질 서열을 제공하는 다양한 공용 데이터베이스로부터 획득하였다. 하나의 생명체 서열에 대한 정보가 하나 이상의 데이터베이스로부터 제공될 경우에는, 대표성에 근거하여 하나의 정보만을 선택하였다. 원핵생물 유전체에 대한 서열정보는 생물기술 정보에 대한 국립센터(NCBI, ftp :// ftp . ncbi . nlm . nih . gov / genomes) 및 유럽 생물정보학 기관-유럽 핵산 기록보관소(EBI-ENA, ftp://ftp.ebi.ac.uk/pub/software/ensembl/eg-dumps/blast-11)에서만 수득하였다. 진핵생물의 서열은 NCBI, EBI-ENA 및 ENSEMBL (ftp://ftp.ensembl.org/pub/release-65/fasta), the Broad Institute Database (BI, http://www.broadinstitute.org/scientific-community/data), the Department of Energy Joint Genome Institute (DOE-JGI, ftp://ftp.jgi-psf.org/pub/JGI_data), the J. Craig Venter Institute (JCVI, ftp://ftp.jcvi.org/pub/data/Eukaryotic_Project), the Beijing Genomics Institute(BGI, ftp://ftp.genomics.org.cn/pub), the Consensus CDS Project (CCDS), Gёnolevures, Genoscope (http://www.genoscope.cns.fr/spip/Genoscope-s-Resources.html), the Saccharomyces Genome Database (SGD), Wormbase, Flybase, The Arabidopsis Information Resource (TAIR), the Rice Genome Annotation Project, the Genome Database for Rosaceae (GDR, http://www.rosaceae.org/), VectorBase (https://www.vectorbase.org/downloads), the Bioinformatics & Evolutionary Genomics Lab in Ghent University (http://bioinformatics.psb.ugent.be/genomes/), SUPERFAMILY http://supfam2.cs.bris.ac.uk/SUPERFAMILY/cgi-bin/index.html),Tokyo University http://merolae.biol.s.u-tokyo.ac.jp/download/)를 포함하는 다양한 데이터베이스로부터 수득하였다. 본 발명은 2011년 11월에 획득한 2144개 종의 유전체에 대한 서열 정보를 사용하였다.
1.2 도메인 특이적인 PPS 구축.
두 유전자 간의 계통발생학적 프로파일 유사성(PPS, Phylogenetic Profile Similarity)은 정보 이론을 기반으로 하는 상호간 정보(MI, mutual information) 수치에 의해 측정하였다. 이러한 측정 방법은 선형 관계의 변수들 및 비선형 관계의 변수들 모두에 대하여 적용할 수 있다. 두 유전자에 대한 두 가지 계통발생학적 프로파일 간의 MI 수치는 하기의 [수식 1] 내지 [수식 3]에 따라 계산하였다.
Figure 112014011249455-pat00004
[수식 1]
Figure 112014011249455-pat00005
[수식 2]
Figure 112014011249455-pat00006
[수식 3]
상기 [수식 1] 내지 [수식 3]에서, H(A)는 각 참조 유전체 내 유전자 A의 확률분포 p(a)에 대한 주변 엔트로피이고 H(A,B)는 유전자 A 및 B의 결합 확률 분포에 대한 고유 엔트로피이며, 동등한 숫자의 일정 프로파일 수치가 정해진 분산에 기반하는 구분 변수들을 사용하여 확률을 계산하였다.
1.3 유전자 쌍의 도메인 특이적인 공통-유전.
하나의 도메인에 속한 생명체 내 신호전달 경로의 유전자들은 다른 기능적 제한성을 보유하고 있으며, 이에 의해 특징적인 공동-유전 패턴을 가지고 있다. 본 발명에서 공통-기능 유전자 쌍은 계통발생학적 프로파일 유사성(PPS)에 대한 4 가지의 특징적인 패턴을 보여주었다. 두 가지 유전자가 공통-유전되는 방식은 i) 모든 도메인 내에서(유전자 A 및 유전자 B), ii) 고세균 내에서만(유전자 C 및 유전자 D), iii) 원핵생물체 내에서만(유전자 E 및 유전자 F), 또는 iv) 진핵생물체 내에서만(유전자 G 및 유전자 H)의 4가지로 나뉘어진다. PPS를 모든 도메인에 적용할 경우에는 오직 유전자 A 및 유전자 B만이 공통 기능적인 유전자 쌍으로 확인될 것이다. 하지만, PPS 적용을 단일 도메인으로 제한한다면 4가지 형태의 공통-기능적 유전자 쌍이 모두 확인될 것이다(도 1).
2144 개의 서열분석이 완료된 유전체(고세균에 속하는 122가지 종의 유전체, 원핵생물에 속하는 1626가지 종의 유전체, 진핵생물에 속하는 396가지 종의 유전체)를 이용하여 주성분 분석(PCA, Principle Component Analysis) 및 이중플롯(biplot) 도식화를 실시하여 상기의 도메인 특이적인 공통-유전 패턴을 검증하였다. PCA 이중플롯 결과는 참조 유전체들 사이의 프로파일 내 다양성으로부터 유래된 가장 주요한 2가지 구성요소를 나타내었다. 참조 유전체로 사용한 4가지 종(대장균 Escherichia coli, 효모 Saccharomyces cerevisiae, 애기장대 Arabidopsis thaliana 및 인간 Homo sapiens)에 대하여 도시화된 플롯은 각 도메인으로부터 유래된 유전체 군집을 나타내고 있다(도 2). 도 2에서 점은 확인되지 않은 유전자를 나타내고, 벡터들 사이의 각도는 참조 유전체들 간의 대략적 상관관계를 나타낸다. 참조 유전체의 완전한 온톨로지 프로파일에 기반한 참조 유전체의 군집은 참조 유전체를 세 가지 도메인으로 분류하지 못하였다(도면 3). 따라서, 각 도메인 군집 내 유전체들은 도메인 특이적 공통-유전 패턴에서 유래된 주성분의 관점에서만 유사할 것으로 예측된다.
1.4 도메인 특이적인 공통 유전에 의한 기능적 연관성.
선행문헌[논문 2]에 기재된 방법을 일부 수정하여 모든 도메인 내 PPS 및 모든 참조 유전체들 사이의 PPS를 기반으로 한 도메인-특이적인 공통-유전 패턴의 기능적 연관성을 추론하고, 로그 가능성 수치(LLS, Log Likelihood Score)를 사용하여, 도메인-특이적인 공통-유전 패턴에 의한 하나의 유전체 내 경로를 재구축하였다. 하기의 [수식 4]에 따라 계산할 수 있는 로그 가능성 수치(LLS, 논문 6)를 이용하여 통일된 계산 계획에 따라 불균일한 자료를 비교 및 병합하였다.
Figure 112014011249455-pat00007
[수식 4]
상기 [수식 4]에서, P(L|E) 및 P(~L|E)는 주어진 실험자료 또는 계산자료(E) 내에서 관찰할 수 있는 양성(L) 및 음성(~L) 골드 스탠다드 경로 연관성의 빈도수를 나타낸다. 반면, P(L) 및 P(~L)는 사전의 예상값(예를 들어, 모든 양성 및 음성 골드 스탠다드 경로 유전자 쌍에 대한 전체 빈도수)을 나타낸다. 동일한 유전자 온톨로지[논문 7] 생물학적 과정(GO-BP, Gene Ontology-Biological Process) 용어, 4 가지 종(대장균 Escherichia coli, 효모 Saccharomyces cerevisiae, 애기장대 Arabidopsis thaliana 및 인간 Homo sapiens)에 대해 동일한 유전자 온톨로지 생물학적 공정(GO-BP, Gene Ontology-Biological Process) 또는 대사경로데이터베이스(MetaCyc; 논문 8의 1페이지 내지 3페이지)에 의해 표지된 유전자 쌍을 결정하는 골드 스탠다드 경로 연관성[논문 9의 2페이지]에 의해 네트워크 연관성을 측정하였다. 상기 [수식 4]에 의해 측정된 로그 가능성 수치(LLS)를 이용하여 모든 연관성이 공통-유전 패턴에 의해 뒷받침되는 것을 특징으로 하는 공통-기능적 유전자 네트워크를 구축하였다. 4 가지 종에 대한 도메인-특이적 PPS에 의해 구축된 공통-기능적 유전자 네트워크를 병합한 결과에서, 공통-유전에 의해 확인되는 대부분의 기능적 연관성은 모든 유전체 내에서보다는 단일 도메인 내에서 발생하였다(도 4).
도메인 특이적인 PPS 에 의한 유전자 네트워크.
2.1 네트워크의 구축, 병합 및 검증.
3가지 도메인 특이적인 PPS로부터 유래된 공통-기능적 연관성은 높은 상보성을 지니고 있으므로, 이러한 도메인 특이적 연관성의 병합은 참조 유전체로 사용한 4가지 종(대장균 Escherichia coli, 효모 Saccharomyces cerevisiae, 애기장대 Arabidopsis thaliana 및 인간 Homo sapiens)에 대한 우수한 유전자 네트워크를 나타내었다(도 5). 예를 들어, 도메인-특이적 PPS 연관성에 의해 형성된 인간 및 애기장대에 대한 공통-기능적 유전자 네트워크는 3가지 도메인을 포함하는 단일 프로파일을 사용하여 만든 유전자 네트워크에 비해 3배 내지 4배 많은 수의 유전체(2500 내지 3500 유전자) 범위를 커버하였다.
한편, 도메인-특이적 PPS에 기반한 유전자 네트워크는 가중합(WS, Weighted sum) 방법[논문 5]에 의해 병합하였다.
Figure 112014011249455-pat00008
[수식 5]
상기 [수식 5]에서, L 0 는 각각의 링크에 대한 모든 LLS 값 중에서 최고의 LLS 값을 나타내고, D는 네트워크 간 상호관계의 정도를 나타내는 자유 상수를 나타내며, T는 병합될 모든 네트워크에 대한 LLS의 역치를 나타내며, i는 각각의 링크에 대한 LLS 숫자를 높은 수에서 낮은 수로 정렬하여 얻어지는 등급 색인(rank index)이다. 자유상수인 D 및 T에 대한 값은 벤치마크에 대한 모든 실시를 최대화하도록 선택되었다. 도메인 특이적-PPS를 기반으로 병합된 인간 유전자 네트워크는 고효율의 효모 투-하이브리드(Y2H)를 사용하여 제작된 단백질-단백질 상호작용(PPI, Protein-Protein Interaction) 네트워크에 의한 인간 유전자 네트워크 및 흡착 정제와 질량 분광 분석법(AP/MS)에 의한 인간 유전자 네트워크와 유사하였다(도면 6a). 흥미롭게도, PPS 기반으로 병합된 네트워크 및 2가지 고효율의 PPI 네트워크는 높은 상보성을 나타내었는데(도면 6b), 이는 이러한 병합에 의해 네트워크를 더 확장할 수 있음을 제시하였다.
2.2 유전자 네트워크의 활용.
특정 질병과 관련된 유전자들은 기능적으로 연결되어 있으므로, 유전자 네트워크를 이용하여 질병과 관련된 유전자를 예측할 수 있다(논문 3 참조). 여러 가지 네트워크 기반 예측 알고리즘 중의 하나인 Gaussian smoothing method(논문 4의 3~5 페이지 및 10페이지) 및 본 발명에 따른 유전자 네트워크를 사용하여 인간 질병 관련 유전자를 예측하였다. 네트워크 연결성을 기반으로 개선된 인간 질병 관련 유전자에 대한 특징적인 커브를 조절하는 수용체의 면적을 이용하여 인간 질병과 관련된 유전자에 대한 예측력을 측정하였다. 도메인 특이적 PPS에 기반한 인간 유전자 네트워크는 높은 정확성(AUC,Area Under the roc Curve>0.7)을 가진 질병 온톨로지에 의해 표지된 24가지 인간 질병을 성공적으로 예측하였다. 반면, 2가지 고효율 단백질 상호작용 네트워크(Y2H 및 AP/MS)는 각각 2가지 질환 또는 3가지 질환만을 예측하였다(도 7). 이러한 결과들은 인간 질병 연구에서의 PPS 정보의 실용적인 활용을 나타내는 것이다.
2.3 유전자 네트워크에 대한 시뮬레이션.
DNA 서열분석 기술이 발전함에 따라 가까운 미래에 만 가지 이상 생명체의 유전체에 대한 서열분석이 완료될 것으로 예측되고 있다. PPS 기반 경로 상에서 서열분석된 유전체 수의 증가에 따른 효과를 측정하고, 각 도메인에 대한 유전체 수를 증가시키는 네 가지 다른 유전체 세트를 사용한 시뮬레이션을 실시하였다. 우선, 고세균에 대한 122가지 종의 유전체, 원핵생물에 대한 1626가지 종의 유전체 및 진핵생물에 대한 396가지 종의 유전체에 대하여 서열분석이 완료된 유전체를 무작위로 선별하였다. 유전체 선별 후에, 15, 30, 60 및 122 가지 고세균 유전체; 200, 400, 800 및 1626 가지 원핵생물 유전체; 50, 100, 200 및 396 가지 진핵생물 유전체를 사용하여 도메인-특이적 PPS 네트워크를 구축하였다. 각각의 도메인에 대하여 모든 사용 가능한 유전체를 이용한 네트워크의 예외를 적용하여, 3가지 부표본 유전체 세트를 각각의 크기에 맞게 제조하였다. 무작위 링크에 비해 최소한 3배 이상 높은 가능성을 갖춘 공동-기능성 링크에 의해 적절한 네트워크를 결정하였다. 효과적인 경로 구축은 암호화된 유전체 범위 및 전체 네트워크 링크의 수 내에서 적절한 네트워크의 수에 의해 측정되었다. 상기 네트워크에 대하여, 분석된 유전체 수의 증가에 비례하여 유전자의 수 및 링크의 수가 증가하였다(도 8). 이러한 경로구축 효과의 증가추세는 세 가지 도메인에 대하여 모두 검증하였고, 아직까지 이러한 경로구축 효과가 최대치에 도달한 증거는 보이지 않았으므로 향후 사용가능한 유전체가 증가할수록 경로구축의 효과는 계속 증가할 것으로 예상되었다. 도메인 특이적 PPS 기반 인간 유전자 네트워크는 100개의 진핵생물 유전체 또는 800개 이상의 원핵생물 유전체에 대한 정보를 사용하여 분석한 후에 예측 가능한 것으로 확인되었는데, 이러한 유전체의 수는 최근에야 사용 가능하게 되었다. 충분한 수의 서열분석된 유전체 및 도메인 특이적 PPS를 사용하여 차세대 서열분석 시대의 다양한 생명체 내 유전자의 신호전달 경로를 재구축할 수 있다.
지금까지 예시적인 실시예를 참조하여 본 발명을 기술하였으나, 본 발명이 속하는 기술 분야의 당업자는 본 발명의 범주를 벗어나지 않고서도 다양한 변화를 실시할 수 있으며 그의 요소들을 등가물로 대체할 수 있음을 알 수 있을 것이다. 또한, 본 발명의 본질적인 범주를 벗어나지 않고서도 많은 변형을 실시하여 특정 상황 및 재료를 본 발명의 교시내용에 채용할 수 있다. 따라서, 본 발명이 본 발명을 실시하는데 계획된 최상의 양식으로서 개시된 특정 실시예로 국한되는 것이 아니며, 본 발명이 첨부된 특허청구의 범위에 속하는 모든 실시예를 포함하는 것으로 해석되어야 한다.

Claims (9)

  1. 컴퓨터에 의해 수행되는, 유전자 네트워크를 구축하는 방법으로서,
    i) 3가지 도메인 고세균, 원핵생물 또는 진핵생물에 속하는 다양한 종의 유전체를 포함하는 참조 유전체에 대한 서열 정보를 상용화된 데이터베이스로부터 수집하고;
    ii) 상기 도메인의 각 동일 도메인 내에서, 상기 참조 유전체 중 하나의 참조 유전체 내에서 상호작용하는 유전자 쌍 A 및 B를 선별하며;
    iii) 상기 선별된 유전자 쌍 A 및 B에 대하여 하기 [수식 1] 내지 [수식 3]에 의해 정보 이론을 기반으로 하는 상호간 정보 수치(MI)를 계산하여 유전자 A 및 유전자 B에 대한 도메인 특이적인 계통발생학적 프로파일의 유사성(PPS)을 측정하는 단계로서, 하기 [수식 1] 내지 [수식 3]에서 H(A)는 각 참조 유전체 내 유전자 A의 확률분포 p(a)에 대한 주변 엔트로피이고, H(B)는 각 참조 유전체 내 유전자 B의 확률분포 p(b)에 대한 주변 엔트로피이며, H(A,B)는 유전자 A 및 B의 결합 확률 분포에 대한 고유 엔트로피인, 단계;
    Figure 112016018223973-pat00020
    [수식 1]
    Figure 112016018223973-pat00021
    [수식 2]
    Figure 112016018223973-pat00022
    [수식 3]
    iv) 하기 [수식 4]에 의해 계산된 로그 가능성 수치(LLS, Log Likelyhood Score)를 사용하여 도메인 특이적 공통 유전 패턴에 의한 하나의 유전체 내 경로를 재구축하는 단계로서, 하기 [수식 4]에서 P(L|E) 및 P(~L|E)는 주어진 실험자료 또는 계산자료(E) 내에서 관찰할 수 있는 양성(L) 및 음성(~L) 골드 스탠다드 경로 연관성의 빈도수이고, P(L) 및 P(~L)는 사전의 예상값인, 단계; 및
    Figure 112016018223973-pat00023
    [수식 4]
    v) 상기 측정된 도메인 특이적인 계통발생학적 프로파일을 하기 [수식 5]에 의해 가중합하는 단계로서, 하기 [수식 5]에서 L0는 각각의 링크에 대한 모든 LLS 값 중에서 최고의 LLS 값을 나타내고, D는 네트워크 간 상호관계의 정도를 나타내는 자유 상수를 나타내며, T는 병합될 모든 네트워크에 대한 LLS의 역치를 나타내며, i는 각각의 링크에 대한 LLS 숫자를 높은 수에서 낮은 수로 정렬하여 얻어지는 등급 색인(rank index)인, 단계;
    Figure 112016018223973-pat00024
    [수식 5]
    를 포함하는, 유전자 네트워크를 구축하는 방법.
  2. 제 1항에 있어서,
    상기 원핵생물 유전체에 대한 정보는 국립센터(NCBI, ftp://ftp.ncbi.nlm.nih.gov/genomes) 및 유럽 생물정보학 기관-유럽 핵산 기록보관소(EBI-ENA, ftp://ftp.ebi.ac.uk/pub/software/ensembl/eg-dumps/blast-11)에서만 수득하고, 상기 진핵생물 유전체에 대한 정보는 NCBI, EBI-ENA 및 ENSEMBL (ftp://ftp.ensembl.org/pub/release-65/fasta), the Broad Institute Database (BI, http://www.broadinstitute.org/scientific-community/data), the Department of Energy Joint Genome Institute (DOE-JGI, ftp://ftp.jgi-psf.org/pub/JGI_data), the J. Craig Venter Institute (JCVI, ftp://ftp.jcvi.org/pub/data/Eukaryotic_Project), the Beijing Genomics Institute (BGI, ftp://ftp.genomics.org.cn/pub), the Consensus CDS Project (CCDS), Gёnolevures, Genoscope (http://www.genoscope.cns.fr/spip/Genoscope-s-Resources.html), the Saccharomyces Genome Database (SGD), Wormbase, Flybase, The Arabidopsis Information Resource (TAIR), the Rice Genome Annotation Project, the Genome Database for Rosaceae (GDR, http://www.rosaceae.org/), VectorBase (https://www.vectorbase.org/downloads), the Bioinformatics & Evolutionary Genomics Lab in Ghent University (http://bioinformatics.psb.ugent.be/genomes/), SUPERFAMILY (http://supfam2.cs.bris.ac.uk/SUPERFAMILY/cgi-bin/index.html), 및 Tokyo University (http://merolae.biol.s.u-tokyo.ac.jp/download/)를 포함하는 데이터베이스 군으로부터 선택한 어느 하나의 데이터베이스로부터 획득하는 것을 특징으로 하는, 유전자 네트워크를 구축하는 방법.
  3. 삭제
  4. 삭제
  5. 진핵생물 유전체 또는 원핵생물 유전체에 대해 제 1항에 따라 측정한 도메인 특이적 PPS를 사용하여 인간 유전자 네트워크를 예측하는 방법.
  6. 제 5항에 있어서,
    상기 예측은 단일 도메인 내 유전자의 기능적 연결을 분석하는 것에 의해 수행하는 것을 특징으로 하는, 인간 유전자 네트워크를 예측하는 방법.
  7. 제 5항 또는 제 6항에 있어서,
    상기의 진핵생물 유전체는 100개 이상이고, 원핵생물 유전체는 800개 이상인 것을 특징으로 하는. 인간 유전자 네트워크를 예측하는 방법.
  8. 제 1항의 방법에 의해 구축된 유전자 네트워크를 이용하여 인간 질병에 관련된 유전자를 예측하는 방법.
  9. 제 8항에 있어서,
    상기 예측은 가우시안 스무딩법에 의해 이루어지는, 인간 질병에 관련된 유전자를 예측하는 방법.
KR1020140012940A 2014-02-05 2014-02-05 도메인 특이적인 계통발생학적 프로파일 유사성을 이용한 유전자 네트워크의 개선 방법 KR101636995B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140012940A KR101636995B1 (ko) 2014-02-05 2014-02-05 도메인 특이적인 계통발생학적 프로파일 유사성을 이용한 유전자 네트워크의 개선 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140012940A KR101636995B1 (ko) 2014-02-05 2014-02-05 도메인 특이적인 계통발생학적 프로파일 유사성을 이용한 유전자 네트워크의 개선 방법

Publications (2)

Publication Number Publication Date
KR20150092780A KR20150092780A (ko) 2015-08-17
KR101636995B1 true KR101636995B1 (ko) 2016-07-21

Family

ID=54056937

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140012940A KR101636995B1 (ko) 2014-02-05 2014-02-05 도메인 특이적인 계통발생학적 프로파일 유사성을 이용한 유전자 네트워크의 개선 방법

Country Status (1)

Country Link
KR (1) KR101636995B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101853916B1 (ko) * 2016-04-05 2018-06-20 연세대학교 산학협력단 단백질 도메인의 생물경로 특이성 판단 방법, 및 이를 이용한 질병 유전자 발굴 방법
CN113889180B (zh) * 2021-09-30 2024-05-24 山东大学 一种基于动态网络熵的生物标记物识别方法与系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004099404A2 (en) 2003-05-09 2004-11-18 European Molecular Biology Laboratory Bioinformatic method for predicting functional equivalence between biological sequences
JP2008539737A (ja) 2005-05-13 2008-11-20 ユニヴェルシテ リブル ドゥ ブリュッセル 遺伝子に基づくアルゴリズム的ガン予後
JP2012514783A (ja) 2009-01-06 2012-06-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 進化クラスタ化アルゴリズム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004099404A2 (en) 2003-05-09 2004-11-18 European Molecular Biology Laboratory Bioinformatic method for predicting functional equivalence between biological sequences
JP2008539737A (ja) 2005-05-13 2008-11-20 ユニヴェルシテ リブル ドゥ ブリュッセル 遺伝子に基づくアルゴリズム的ガン予後
JP2012514783A (ja) 2009-01-06 2012-06-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 進化クラスタ化アルゴリズム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Jothi, R., et al., BMC Bioinformatics, Vol.8:173, doi:10.1186/1471-2105-8-173, (2007. 5. 23.)*

Also Published As

Publication number Publication date
KR20150092780A (ko) 2015-08-17

Similar Documents

Publication Publication Date Title
Sefid Dashti et al. A practical guide to filtering and prioritizing genetic variants
Cariou et al. Is RAD‐seq suitable for phylogenetic inference? An in silico assessment and optimization
Blaby et al. The Chlamydomonas genome project: a decade on
He et al. A biophysical model for analysis of transcription factor interaction and binding site arrangement from genome-wide binding data
Mizianty et al. Covering complete proteomes with X-ray structures: a current snapshot
Ochoa et al. Practical aspects of protein co-evolution
Ahmed et al. Prediction of polyadenylation signals in human DNA sequences using nucleotide frequencies
Chen et al. Cascaded bidirectional recurrent neural networks for protein secondary structure prediction
Lee et al. MaizeNet: a co‐functional network for network‐assisted systems genetics in Zea mays
Velásquez-Zapata et al. Next-generation yeast-two-hybrid analysis with Y2H-SCORES identifies novel interactors of the MLA immune receptor
Lo et al. On the design of clone-based haplotyping
Cheng et al. Prediction of protein secondary structure by mining structural fragment database
Qiu et al. Predicting protein lysine methylation sites by incorporating single-residue structural features into Chou's pseudo components
Ma et al. Predicting drug-target affinity by learning protein knowledge from biological networks
KR101636995B1 (ko) 도메인 특이적인 계통발생학적 프로파일 유사성을 이용한 유전자 네트워크의 개선 방법
Roslan et al. Utilizing shared interacting domain patterns and Gene Ontology information to improve protein–protein interaction prediction
Wang et al. Gigantic genomes provide empirical tests of transposable element dynamics models
Wang et al. Enhancer-FRL: Improved and robust identification of enhancers and their activities using feature representation learning
Liu et al. Pre-training of graph neural network for modeling effects of mutations on protein-protein binding affinity
Saraswathi et al. Fast learning optimized prediction methodology (FLOPRED) for protein secondary structure prediction
Shatnawi et al. Protein inter-domain linker prediction using Random Forest and amino acid physiochemical properties
Iakovidou et al. Multiway spectral clustering link prediction in protein-protein interaction networks
Onokpasa et al. RNA secondary structures: from ab initio prediction to better compression, and back
Park et al. Construction of functional interaction networks through consensus localization predictions of the human proteome
Elbashir et al. Predicting beta-turns in proteins using support vector machines with fractional polynomials

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20190722

Year of fee payment: 4