KR20110066380A - 히든 마코브 모델을 이용한 식물 저항성 유전자 동정 및 분류를 위한 시스템 및 방법 - Google Patents

히든 마코브 모델을 이용한 식물 저항성 유전자 동정 및 분류를 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20110066380A
KR20110066380A KR1020090123006A KR20090123006A KR20110066380A KR 20110066380 A KR20110066380 A KR 20110066380A KR 1020090123006 A KR1020090123006 A KR 1020090123006A KR 20090123006 A KR20090123006 A KR 20090123006A KR 20110066380 A KR20110066380 A KR 20110066380A
Authority
KR
South Korea
Prior art keywords
sequence
domain
gene
resistance gene
resistance
Prior art date
Application number
KR1020090123006A
Other languages
English (en)
Other versions
KR101140780B1 (ko
Inventor
허철구
김정은
이봉우
이승원
홍지만
Original Assignee
한국생명공학연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국생명공학연구원 filed Critical 한국생명공학연구원
Priority to KR1020090123006A priority Critical patent/KR101140780B1/ko
Priority to PCT/KR2010/000333 priority patent/WO2011071209A1/ko
Priority to US13/515,006 priority patent/US20120271558A1/en
Publication of KR20110066380A publication Critical patent/KR20110066380A/ko
Application granted granted Critical
Publication of KR101140780B1 publication Critical patent/KR101140780B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Peptides Or Proteins (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 단백질이나 DNA 서열로부터 식물의 저항성 유전자를 빠르고 정확하게 동정 및 분류하기 위한 시스템 및 방법에 관한 것이다.
본 발명은 히든 마코브 모델 (Hidden Marcov Model)을 사용하여 식물의 저항성 유전자 (resistance gene)를 동정 및 분류하기 위하여 저항성 유전자를 암호화하고 있는 도메인 (domain)의 단백질 서열을 이용하여 만든 프로파일 메트릭스 (profile matrix)와 이 프로파일 메트릭스를 이용하여 저항성 유전자의 도메인을 동정하고 도메인의 조합에 따른 저항성 유전자를 분류하기 위한 시스템을 고안하였다.
본 발명은 상기 프로파일 메트릭스와 프로그램을 이용하여 뉴클레오타이드 염기 서열 또는 단백질 서열이 밝혀진 식물의 저항성 유전자를 효과적으로 동정 및 분류할 수 있다.
저항성 유전자, 히든 마코브 모델, 프로파일 메트릭스, 도메인

Description

히든 마코브 모델을 이용한 식물 저항성 유전자 동정 및 분류를 위한 시스템 및 방법{System and method for identifying and classifying the resistance gene in plant using the hidden markov model}
본 발명은 히든 마코브 모델을 이용하여 식물의 저항성 유전자를 암호화하고 있는 도메인을 찾기 위한 스코아링 메트릭스를 구축하고, 이 메트릭스를 기반으로 저항성 유전자의 도메인을 동정 및 분류를 위한 방법과 상기 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록 매체에 관한 것이다.
식물은 외부 환경으로부터 박테리아, 곰팡이, 선충과 같은 병원균으로부터 다양한 형태의 공격을 받는다. 식물은 이러한 외부 환경으로부터의 공격에 저항하기 위하여 식물 자체의 면역 시스템을 가지고 방어 기작을 유도한다. 식물의 방어기작은 저항성 유전자 (resistance gene)의 외래 분자를 인식하는 유전자로부터 신호전달을 개시 받음으로써 이루어진다. 저항성 유전자는 병원균으로부터 식물 세포내로 전달되는 이펙터 단백질 (effector protein)이나 리포폴리사크라이드 (lipopolysaccride), 펩티도클리칸 (peptidoglycan), 당단백질 (glycoprotein)과 같은 병원균 관련 분자 패턴 (PAMP : pathogen associated molecular pattern)을 감지하여 면역 시스템을 가동하기 위한 신호를 개시함으로써 과민성 반응 (hypersensitive response)을 유도하는 역할을 한다 (Gohre, V. and S. Robatzek, 2008, Breaking the Barriers : Microbial Effector Molecules Subvert Plant Immunity.Annu Rev Phytopathol).
식물의 저항성 유전자는 몇 개의 보존된 기능적 도메인 (functional domain) 셋으로 구성되어 있으며, 이러한 기능적 도메인의 조합에 따라 크게 5가지로 분류된다 (Dangl, J.L. and J.D. Jones, 2001, Plant pathogens and integrated defenceresponses to infection . Nature. 411(6839): p. 826-33). 가장 큰 분류 항목은 뉴클레오타이드 바인딩 사이트(nucleotide binding site, NBS)와 류이신 리치 리핏 (leucine rich repeat, LRR) 도메인을 암호화하고 있는 NBS-LRR 그룹이다. 이 그룹의 경우 아미노 말단에 toll interleukine-1 like receptor (TIR) 도메인이 있는지 coiled-coil (CC) 이나 leucine-zipper (LZ) 도메인이 있는지에 따라 TIR-NBS-LRR (TNL) 그룹과 CC-NBS-LRR (CNL) 그룹으로 나눌 수 있다. 또한 세포막에 존재하는 저항성 유전자의 경우 세포 외부 영역에 류이신 리치 리핏 (leucine rich repeat) 도메인을 암호화하고 있고 세포막 통과 도메인인 트랜스멤브레인 (transmembrane, TM) 도메인을 암호화하고 있다. 이 그룹에 속하는 저항성 유전자의 경우 세포질 영역에 카이네이즈 (kinase) 도메인을 암호화하고 있는지의 여부에 따라 류이신 리치 리핏 리셉터 카이네이즈 (leucine rich repeat- receptor kianse (LRR-RK)) 그룹과 류이신 리치 리핏 리셉터 프로테인 (leucine rich repeat receptor protein (LRR-RP))로 나눌 수 있다. 마지막 분류는 세포질에서 카이네이 즈 도메인을 암호화하고 있는 단백질로 트랜스멤브레인 (transmembrane, TM) 도메인을 가지고 있지 않다.
서열 생산 기술의 발달로 상업적으로 유용한 식물 자원에 대한 가공되지 않은 서열이 대량으로 제공됨에 비해 식물의 저항성 유전자를 빠르고 정확하게 동정 및 분류할 수 있는 방법은 체계적으로 확립되지 않은 상황이다. 기존의 저항성 유전자를 동정하기 위한 방법은 컴퓨터 기술을 이용하여 대량의 데이터베이스에 대해 블라스트 (BLAST)와 같은 프로그램을 이용한 유사성 검색 (similarity search)을 통하여 동정하는 방법과 잘 알려진 보존적 서열을 기반으로 프라이머 (primer)를 만들어 실험적으로 동정하는 방법이 많이 이용되어 왔다.
유사성 검색의 경우 상대적으로 유사성이 낮은 단백질이나 지역적 유사성 (local similarity)이 높은 단백질에 대해서도 비교 대상의 저항성 유전자와 동일한 후보군으로 분류되기 때문에 정확도가 떨어지는 단점이 있다.
보존적 서열을 기반으로 만든 프라이머를 이용한 저항성 유전자를 동정하는 방법은 실험 대상 식물과 근연 관계가 먼 종의 보존된 영역의 서열을 기반으로 프라이머를 제작할 경우 프라이머가 제대로 작동되지 않아서 유전자를 잘 동정할 수 없을 뿐만 아니라, 다양한 경우의 수를 고려해야 하기 때문에 실험적, 시간적 비용이 많이 소요되는 단점이 있다.
이러한 단점을 보완하고자 본 발명에서는 저항성 유전자를 암호화하고 있는 도메인의 보존적 단백질 서열을 이용해 히든 마코브 모델을 이용한 프로파일 메트릭스를 구축하고, 이렇게 구축된 프로파일 메트릭스를 기반으로 저항성 유전자를 암호화하고 있는 도메인을 동정하는 방법, 동정된 도메인의 조합에 의해 저항성 유전자로 분류하는 방법을 고안하였다.
본 발명은 상기와 같은 요구에 의해 도출된 것으로서, 대량의 뉴클레오타이드 또는 단백질 서열로부터 이전 연구에서 알려졌거나 알려지지 않은 식물의 저항성 유전자를 효과적으로 동정하기 위한 시스템 및 방법을 개발하고자 한다.
본 발명에서는 저항성 유전자를 암호화하고 있는 도메인을 효과적으로 동정하기 위하여, 히든 마코브 모델을 기반으로 각 저항성 유전자를 암호화하고 있는 도메인의 프로파일 메트릭스 (scoring matrix)를 구축하고, 이 프로파일 메트릭스를 기반으로 저항성 유전자의 도메인을 찾을 수 있는 프로그램을 개발하였다. 또한 저항성 유전자의 도메인의 조합에 의하여 식물 저항성 유전자를 5 그룹으로 동정했을 뿐만 아니라, 저항성 유전자의 일부 도메인만을 암호화하고 있는 유전자 역시 도메인의 조합에 의해 분류함으로써 총 12개의 세부 그룹으로 저항성 유전자를 분류할 수 있도록 개발하였다.
상기 과제를 해결하기 위해, 본 발명은 저항성 유전자의 기능적 도메인에 해당하는 단백질 서열을 이용하여 히든 마코브 모델 (Hidden Markov Model)을 이용하여 구축한 프로파일 메트릭스를 이용한 저항성 유전자의 도메인을 동정하고, 저항성 유전자 도메인의 조합을 이용하여 저항성 유전자를 분류하기 위한 알고리즘을 포함한 시스템 및 방법을 제공한다.
또한, 본 발명은 상기 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램 을 기록한 기록매체를 제공한다.
대량의 식물 서열로부터 이전에 알려지지 않은 저항성 유전자 후보군을 빠르고 효율적으로 동정할 수 있다. 공개용 데이터베이스로부터 대량의 서열을 다운로드 받아 이전에 알려지지 않은 저항성 유전자를 동정할 수 있다. 전체 도메인을 암호화하고 있는 저항성 유전자뿐만 아니라 일부 도메인만 암호화하고 있는 유전자도 찾을 수 있기 때문에 대량의 서열로부터 저항성 유전자의 후보군을 찾는데 도움을 줄 수 있다.
본 발명의 목적을 달성하기 위하여, 본 발명은
저항성 유전자를 동정 및 분류하기 위한 단백질이나 뉴클레오타이드 서열을 입력할 수 있는 입력부;
입력된 서열로부터 프로파일 메트릭스(profile matrix)를 이용하여 저항성 유전자를 암호화하는 각 도메인을 동정하고, 저항성 유전자를 분류하는 처리부;
처리부의 알고리즘에 의해 동정 및 분류된 저항성 유전자를 저장하는 데이터베이스;
데이터베이스에 저장된 결과로부터 데이터를 이용하여 저항성 유전자의 상세 정보를 보여주는 출력부;
저항성 유전자를 암호화하는 도메인을 찾기 위한 단백질이나 뉴클레오타이드 서열을 입력할 수 있는 입력부;
저항성 유전자의 히든 마크브 모델을 이용하여 도메인을 동정할 수 있는 처리부;
동정된 도메인을 보여주는 출력부;
기존의 공개용 데이터베이스의 단백질 및 UniGene 서열로부터 저항성 유전자를 동정하고, 분류하여 만든 데이터베이스로부터 검색하기 위한 검색부; 및
검색된 유전자로부터 동정된 저항성 유전자의 유전자 구조, 유사 유전자 검색 결과, 유사 유전자와의 트리 및 서열 정렬 결과를 보여주는 출력부;
를 포함하는 식물의 대량의 단백질 또는 뉴클레오타이드 서열을 가공하여 저항성 유전자 관련 도메인을 동정하고, 그 도메인의 조합으로부터 저항성 유전자를 분류하는 시스템을 제공한다.
본 발명의 일 구현예에 따른 시스템에서, 상기 프로파일 메트릭스는 하기 단계에 의해 구축될 수 있다:
a) 저항성 유전자의 기능성 도메인에 해당하는 서열을 찾기 위하여 공개용 데이터베이스에서 식물 전체의 서열을 다운로드 받는 단계;
b) 상기 다운로드 받은 서열로부터 도메인 명 검색, 기술항 검색, 키워드 검색을 통하여 프로파일 메트릭스를 구성하기 위한 학습군 (training set)에 해당하는 저항성 유전자 후보군을 정하는 단계;
c) 상기 후보군 중 단편 서열만 있는 유전자, 예측된 서열을 가진 유전자는 제거하고 실험적 근거가 있는 서열들을 기반으로 저항성 유전자의 단백질 서열을 수집하는 단계;
d) 상기 서열을 기반으로 pfam과 MEME (Multiple Em for Motif Elicitation) 프로그램을 통해 저항성 유전자를 암호화하는 도메인을 동정하는 단계;
e) 각 프로그램 결과로부터 도메인 영역에 해당하는 단백질 서열을 파싱(parsing)하여 clustalW 프로그램을 이용하여 서열 정열 (sequence alignment)을 수행하는 단계;
f) 각 도메인의 서열 정렬 결과에서 기존의 밝혀진 도메인 특징들과 매뉴얼로 비교하여 보존된 서열이 잘 정렬되었는지 검증하고 HMMER 프로그램을 이용하여 검증된 도메인에 대한 프로파일 메트릭스를 구축하는 단계.
본 발명의 일 구현예에 따른 시스템에서, 상기 a) 단계의 공개용 데이터베이스는 UniProt 일 수 있으나, 이에 제한되지 않는다.
본 발명의 일 구현예에 따른 시스템에서, 상기 d) 단계의 저항성 유전자를 암호화하는 도메인은 NBS(nucleotide binding site), LZ(leucine zipper), LRR(leucine rich repeat), TIR (toll interleuine-1 receptor) 또는 카이네이즈(kinase) 일 수 있으나, 이에 제한되지 않는다.
본 발명의 일 구현예에 따른 시스템에서, 상기 알고리즘은 각 메트릭스의 적정 경계 값을 이용하여 도메인을 동정하고 동정된 도메인의 조합을 이용하여 저항성 유전자를 분류하는 알고리즘일 수 있다.
본 발명은 또한,
a) 입력창으로부터 단백질 또는 뉴클레오타이드 염기 서열을 쿼리(query)로 입력하는 단계;
b) 입력받은 서열이 뉴클레오타이드 염기 서열일 경우 6 리딩 프레임으로 번역 (translation) 하고, 그 중 가장 긴 ORF를 정의하는 단계;
c) 입력된 단백질 서열 또는 번역한 단백질 서열로부터 프로파일 메트릭스를 이용하여 저항성 유전자의 도메인을 동정하는 단계;
d) 상기 동정된 도메인의 조합을 이용해서 저항성 유전자군으로 분류하는 단계;
e) 상기 분류된 저항성 유전자를 BLAST 알고리즘을 이용하여 상용 데이터베이스 상에서 저항성 유전자로 밝혀진 유전자와 비교하는 단계; 및
f) 상기 비교 결과 유사성이 있는 저항성 유전자군과의 서열 정렬 (multiple sequence alignment) 및 neighbor joining(NJ) 알고리즘을 이용한 계통수(phylogenetic tree) 분석 단계;
를 포함하는 식물의 저항성 유전자 관련 도메인을 동정하고, 동정된 저항성 유전자를 분류하는 방법을 제공한다.
본 발명의 일 구현예에 따른 방법에서, 상기 c) 단계의 프로파일 메트릭스는 하기 단계에 의해 구축될 수 있다:
저항성 유전자의 기능성 도메인에 해당하는 서열을 찾기 위하여 공개용 데이터베이스에서 식물 전체의 서열을 다운로드 받는 단계;
상기 다운로드 받은 서열로부터 도메인 명 검색, 기술항 검색, 키워드 검색을 통하여 프로파일 메트릭스를 구성하기 위한 학습군 (training set)에 해당하는 저항성 유전자 후보군을 정하는 단계;
상기 후보군 중 단편 서열만 있는 유전자, 예측된 서열을 가진 유전자는 제거하고 실험적 근거가 있는 서열들을 기반으로 저항성 유전자의 단백질 서열을 수집하는 단계;
상기 서열을 기반으로 pfam과 MEME (Multiple Em for Motif Elicitation) 프로그램을 통해 저항성 유전자를 암호화하는 도메인을 동정하는 단계;
각 프로그램 결과로부터 도메인 영역에 해당하는 단백질 서열을 파싱(parsing)하여 clustalW 프로그램을 이용하여 서열 정열 (sequence alignment)을 수행하는 단계;
각 도메인의 서열 정렬 결과에서 기존의 밝혀진 도메인 특징들과 매뉴얼로 비교하여 보존된 서열이 잘 정렬되었는지 검증하고 HMMER 프로그램을 이용하여 검증된 도메인에 대한 프로파일 메트릭스를 구축하는 단계.
본 발명의 일 구현예에 따른 방법에서, 상기 공개용 데이터베이스는 UniProt 일 수 있으나, 이에 제한되지 않는다.
본 발명의 일 구현예에 따른 방법에서, 상기 저항성 유전자를 암호화하는 도메인은 NBS(nucleotide binding site), LZ(leucine zipper), LRR(leucine rich repeat), TIR (toll interleuine-1 receptor) 또는 카이네이즈(kinase) 일 수 있으나, 이에 제한되지 않는다.
본 발명은 또한, 상기 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체를 제공한다.
이하, 본 발명을 상세히 설명한다.
본 발명의 일 구현예에 따른 시스템에서, 상기 처리부 알고리즘은 입력된 단백질 또는 뉴클레오타이드 염기 서열로부터 도메인을 동정하기 위해서는 다음과 같은 방법으로 프로파일 메트릭스를 구축할 수 있다.
저항성 유전자의 기능성 도메인에 해당하는 서열을 찾기 위하여 공개용 데이터베이스인 UniProt에서 식물 전체의 서열을 다운드로 받았다. UniProt flatfile으로부터 도메인 명 검색 (도 2-1), 기술항 검색 (도 2-2), 키워드 검색 (도 2-3)을 통하여 프로파일 메트릭스를 구성하기 위한 학습군 (training set)에 해당하는 저항성 유전자 후보군을 정하였다. 그 중 단편 서열만 있는 유전자, 예측된 서열을 가진 유전자는 제거하고 실험적 근거가 있는 서열들을 기반으로 저항성 유전자의 단백질 서열을 모았다. 이 서열을 기반으로 pfam과 MEME (Multiple Em for Motif Elicitation) 프로그램을 통해 5 가지의 저항성 유전자를 암호화하는 도메인인 nucleotide binding site(NBS), leucine zipper (LZ), leucine rich repeat (LRR), TIR (toll interleuine-1 receptor) 및 kinase 를 동정하였다. 각 프로그램 결과로부터 도메인 영역에 해당하는 단백질 서열을 파싱(parsing)하여 clustalW (ver. 2.0.9) 프로그램을 이용하여 서열 정열 (sequence alignment)을 수행하였다. 각 도메인의 서열 정렬 결과에서 기존의 밝혀진 도메인 특징들과 매뉴얼로 비교하여 보존된 서열이 잘 정렬되었는지 검증하고 HMMER (ver. 2.3.2) 프로그램을 이용하여 검증된 도메인에 대한 프로파일 메트릭스를 구축하였다.
저항성 유전자 관련 도메인의 프로파일 메트릭스를 구축하기 위한 예에서 각 도메인의 특징을 볼 수 있다. 예에서는 NBS 도메인의 프로파일 메트릭스를 구축하는 방법을 제시하며 다른 4개의 도메인도 유사한 과정을 거쳐 프로파일 메트릭스가 구축되었다. NBS 도메인은 아미노산 말단 영역에 TIR 도메인을 가지는 그룹과 CC나 LZ를 가지는 그룹 사이에 서열이 확연한 차이를 보이는 것으로 보고되었다.
본 발명에서 사용한 서열에서도 동일한 현상이 나타나는지 검증하기 위해 TNL 그룹에 속하는 NBS 단백질 서열을 가진 그룹을 NBS_TIR, CNL 그룹에 속하는 NBS 단백질 서열을 가진 그룹을 NBS_CC라고 명하고, 이 그룹을 섞어 계통 분석을 한 결과 TNL 그룹의 NBS 도메인과 CNL 그룹의 NBS 도메인은 계통 트리 상에서 완전히 서로 다른 그룹으로 분류됨을 알 수 있었다 (도 3).
단백질 서열상에서 이러한 차이를 확인하고자 서열 정렬 결과를 매뉴얼로 비교한 결과 기존의 논문상에서 활성 모티프 (active motif)로 표시된 영역에서 보존된 서열의 차이가 있음을 알 수 있었다 (도 4).
기존 연구에서 NBS 모티프는 P-loop, RNBS-A, kinase-2 (Kin-2), RNBS-B, RNBS-C GLPL, RNBS-D의 7개의 활성 도메인이 있다고 보고되었다. 서열 정렬 결과에서 보존된 활성 모티프를 기준으로 정리하여 보존 정도를 비교하였다 (도 4). 그 결과 P-loop 도메인은 NBS_TIR 그룹의 서열에서 NBS_CC 그룹의 서열보다 더 넓은 범위에서 잘 보존되어 있음을 알 수 있다. kinase2 (Kin-2) 모티프의 마지막 아미노산의 경우 NBS_TIR 그룹에서는 아스파라틱산 (aspartic acid, D)가 보존되어 있는 반면 NBS_CC 그룹에서는 트립토판 (tryptophan)이 보존되어 있다. RNBS-A, RNBS-C, RNBS-D 모티프는 서열 및 길이 면에서 두 그룹 사이의 차이가 많이 있으 며, RNBS-C, RNBS-D 도메인의 경우 NBS_CC 그룹에서 보존된 정도가 더 높은 것으로 보인다. 이러한 차이 때문에 NBS_TIR 그룹과 NBS_CC 그룹의 NBS 도메인은 계통 분석 상에서 서로 독립적으로 그룹을 이루는 것으로 추정할 수 있으며, 두 그룹의 프로파일 메트릭스를 각각 구축할 경우 NBS 도메인의 예측률을 높일뿐만 아니라 두 도메인을 구별할 수 있을 것으로 기대할 수 있다.
위의 사실을 기반으로, NBS_TIR과 NBS_CC 프로파일 메트릭스를 독립적으로 구축하고, 두 개의 NBS 프로파일 메트릭스가 실제 서로 다른 그룹에서 속한 단백질 서열로부터 해당 그룹을 구별하여 동정할 수 있는지 확인하기 위하여 UniProt에서 CNL과 TNL을 암호화하고 있는 서열과 아미노 그룹이 밝혀지지 않은 NBS-LRR (NL) 그룹을 암호화하고 있는 일부 서열을 받아 hmmpfam 프로그램을 이용하여 NBS 도메인 프로파일 메트릭스를 이용하여 분석하여 기댓값을 비교하였다 (도 5).
NBS 도메인의 아미노 그룹이 coiled-coil인 서열로부터 만든 NBS 도메인 프로파일 메트릭스를 이용하여 hmmpfam을 수행한 결과 나온 기댓값 (expect value)은 파랑색으로, 아미노 그룹이 TNL인 서열로부터 만든 NBS 도메인의 프로파일 메트릭스를 이용하여 hmmpfam을 수행한 결과 나온 기댓값은 분홍색으로 표시하였다. 그 결과, CNL 단백질 서열은 NBS_CC 프로파일 메트릭스에서, TNL 단백질 서열은 NBS_TIR 프로파일 메트릭스에서 더 높은 점수를 가지고 있음을 알 수 있었고, NBS의 단편서열을 입력할 경우에도 두 도메인의 점수차가 확연하기 때문에 두 메트릭스를 이용하여 NBS 도메인의 분류가 가능한 것으로 판단되었다 (도 5).
각 저항성 유전자를 암호화하는 도메인들은 NBS 도메인의 프로파일 메트릭스 를 구성하는 방법과 동일한 방법으로 구성하였다 (도 6). 서열 정렬, 정렬된 서열의 매뉴얼 확인, 히든 마코브 모델을 이용한 프로파일 메트릭스 구성, 반복적 실험에 의한 각 도메인의 길이와 유사성을 고려한 최저 기준값 설정 과정을 통하여 프로파일 메트릭스를 구축하고, 검색을 위한 최저 기준값을 설정하였다.
본 발명의 일 구현예에 따른 시스템에 있어서, 상기 저항성 유전자를 암호화하는 도메인에 관한 프로파일 메트릭스와 프로파일 메트릭스를 이용하여 각 도메인을 동정하는데 적용되는 최저 기준값은 입력부로부터 처리된 단백질 서열로부터 유의성 있는 저항성 유전자 암호화 도메인을 동정하기 위한 알고리즘일 수 있다.
프로파일 메트릭스를 이용하여 저항성 유전자를 동정하고 분류하는 과정은 단백질 서열을 기반으로 예측된다. 따라서, 이러한 분석이 가능하게 하기 위하여 뉴클레오타이드 염기서열을 기반으로 분석할 경우 6 리딩 프레임으로 번역하고, 그 결과 가장 긴 단백질 서열을 암호화하고 있는 리딩 프레임을 선택하여 저항성 유전자 분석 과정을 수행한다. hmmpfam 프로그램을 이용하여 상기의 방법으로 만들어진 프로파일 메트릭스를 이용하여 저항성 유전자 관련 도메인을 동정하고, 저항성 유전자를 분류하기 위하여 반복 실험을 통하여 정한 각 도메인의 최저 기준값 (threshold)을 적용하여 최종적으로 저항성 유전자를 암호화하는 도메인 여부를 결정한다. 이러한 방법으로 동정된 저항성 유전자 도메인의 조합은 저항성 유전자가 어느 그룹에 속하는지를 분류하기 위해 사용된다 (도 7).
본 발명의 일 구현예에 따른 시스템에 있어서, 상기 저항성 유전자를 암호화하는 도메인을 동정하는 알고리즘은 입력부로부터 처리된 뉴클레오타이드 염기서열 로부터 단백질 서열로 번역하여 프로파일 메트릭스와 해당 도메인의 최저 기준값을 적용하여 유의성 있는 저항성 유전자를 암호화 도메인을 동정하기 위한 알고리즘일 수 있다.
본 발명의 일 구현예에 따른 시스템의 저항성 유전자를 분류하는 알고리즘에서 NBS 도메인은 NBS_TIR과 NBS_CC 메트릭스를 이용하여 hmmpfam 수행 결과에서 나오는 기댓값 (expect value)이 높은 것을 취함으로써 NBS 도메인이 NBS_TIR 그룹인지 NBS_CC인지가 구별할 수 있다. 이렇게 동정된 유전자에서 최저 기준값 이상의 기댓값을 가지는 카르복실 그룹의 LRR 도메인이 동정되고, 아미노 그룹에 TIR이 동정될 경우 TNL 그룹에, coiled-coil (CC) 도메인이나 leucine zipper (LZ) 도메인이 동정될 경우 CNL 그룹으로 분류된다.
NBS 도메인이 동정 되었으나 카르복실 그룹의 LRR이 동정되지 않을 경우는 아미노 그룹에 TIR이 동정될 경우 TN 그룹에, coiled-coil 도메인이나 LZ 도메인이 동정될 경우 CN으로 분류된다. 동정된 NBS 도메인과 동일 유전자 상에 LRR 도메인만 포함하는 경우 NLTIR과 NLCC로 분류되며, 저항성 유전자를 암호화하는 다른 도메인이 포함하지 않는 경우 NTIR과 NCC 로 분류된다. 이 네 가지 그룹에서 각 유전자가 아미노 그룹이 TIR에 속하는지 CC나 LZ에 속하는지는 NBS 프로파일 메트릭스를 통과한 기댓값에 의해 결정된다.
위의 과정에서 coiled-coil 도메인은 COILS (버전 2.2) 프로그램을 이용하여 예측한다. 또한 세포막에 존재하는 저항성 유전자 리셉터를 동정하기 위하여, TMHMM (버전 2.0c) 프로그램을 이용하여 세포막에 위치할 것으로 예측되는 트랜스멤브레인 (transmembrane, TM) 구조를 동정한다. TM 구조가 동정되는 경우 카르복실 그룹 (carboxyl group)에 최저 기준값 이상의 기댓값을 가지는 카이네이즈 (kinase) 도메인이 있는지 없는지에 따라서 LRR-RK와 LRR-RP 그룹으로 분류된다. TM 구조를 가지지 않는 최저 기준값 이상의 기댓값을 가지는 카이네이즈 (kinase) 도메인이 발견될 경우 pto-kinase로 분류된다.
위의 과정에 속하는 저항성 유전자의 조합은 식물의 대표적인 5 분류에 속하는 저항성 유전자이다. 본 시스템에서는 대표적인 5 분류군뿐만 아니라, 일부 저항성 유전자에 포함되지 않지만 유사한 구조를 가지는 단백질이 저항성 유전자와 결합 또는 관련하여 면역반응을 유도하는 사실이 밝혀짐에 따라 본 발명에서는 유사한 구조를 가지는 조합을 이용하여 총 12 그룹 (TNL, pto-like kinase, LRR-RP, LRR-RK, NLcc, Tx, NLtir, CNL, Ntir, TN, CN, Ncc)으로 저항성 유전자군을 분류하였다. 예를 들면, NBS나 LRR 구조를 가지는 도메인이 동정되지 않은 상태에서 최저 기준값 이상의 기댓값을 가지는 TIR 도메인은 Tx로 분류될 수 있다.
본 발명의 UniGene 검색부에 해당하는 데이터는 공개용 데이터베이스인 NCBI의 UniGene 데이터베이스로부터 서열 및 라이브러리(library) 정보를 다운로드 받아 가공하여 만들었다. UniGene 데이터를 출력시에는 단백질의 출력부와 함께 UniGene에 포함되어 있는 EST (expressed sequence tag)의 라이브러리 분포를 이용하여 Audic's test를 이용한 조직 특이성을 검증하였다. Audic's test는 식 1에 의해 조직 특이성을 계산하는 알고리즘 일 수 있다.
Figure 112009076573348-PAT00001
(식 1)
(식 중 y와 x는 각각 특정 유전자에 속하는 EST의 라이브러리가 특정 조직과 특정 조직을 제외한 다른 모든 조직에 포함되는 개수를 의미하며, N2와 N1은 전체 EST가 특정 조직에서 얼마나 분포하는지를 나타내는 값으로 각각 특정 조직과 특정 조직을 제외한 다른 조직에 포함되는 EST 개수를 의미한다.)
본 발명은 또한, 본 발명의 식물의 저항성 유전자를 동정하고 분류하는 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체를 제공한다. 구체적으로, 단백질 또는 뉴클레오타이드 염기서열을 이용하여 식물의 저항성 유전자의 도메인을 동정, 저항성 유전자를 분류하기 위한 방법을 수행하기 위하여 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체를 제공한다.
컴퓨터로 판독할 수 있는 기록매체란 컴퓨터에 의해 직접 판독되고 엑세스될 수 있는 임의의 기록매체를 말한다. 이러한 기록매체로서는 플로피 디스크, 하드 디스크, 자기 테이프 등의 자기기록매체, CD-ROM, CD-R, CD, RW, DVD-ROM, DVD-RAM, DVD-RW 등의 광학기록매체, RAM이나 ROM 등의 전기 기록매체 및 이들 범주의 혼합물(예: MO 등의 자기/광학기록매체)을 들 수 있지만, 이들에 한정되는 것이 아니다.
상기한 기록매체에 기록 또는 입력시키기 위한 기기 또는 기록매체 중의 정보를 판독하기 위한 기기 또는 장치의 선택은 기록매체의 종류와 엑세스 방법에 근거한다. 또한 여러 가지 데이터 프로세서 프로그램, 소프트웨어, 컴퍼레이터 및 포 맷이 본 발명의 방법을 수행하기 위한 프로그램을 당해 매체에 기록시키기 위해 사용된다. 당해 정보는 예를 들면, 시판하는 소프트웨어로 포맷된 바이너리 파일(binary file), 텍스트 파일 또는 ASCII 파일의 형태로 나타낼 수 있다.
첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 보다 상세히 설명하기로 한다.
도 1은 식물의 저항성 유전자의 도메인을 동정하고 저항성 유전자를 분류하는 시스템의 개략도를 나타낸다.
본 발명의 시스템은 앞서 기술한 입력부; 처리부; 데이터베이스; 출력부; 검색부를 포함한다.
상기 입력부는 단백질이나 뉴클레오타이드 염기 서열을 입력하는 기능을 수행한다. 도 8은 입력부 화면을 나타낸다. 입력 양식에 필수요소인 단백질, 뉴클레오타이드 염기 타입과 파스타 형식 (fasta format)의 단백질 또는 뉴클레오타이드 서열을 입력한다.
상기 처리부는 입력된 서열정보로부터 프로파일 메트릭스를 이용하여 저항성 유전자 도메인을 동정하고 저항성 유전자를 분류하여 데이터베이스에 저장하는 기능을 한다.
상기 데이터베이스는 저항성 유전자 코딩 도메인을 동정하고 저항성 유전자를 분류하기 위한 알고리즘을 이용하여 상기 처리부에서의 분석 과정에서 도출된 데이터를 저장한다. 도메인 데이터베이스는 저항성 유전자를 암호화하는 도메인의 예측된 결과를 저장하고, 저항성 유전자 분류 데이터베이스는 저항성 유전자 분류 알고리즘을 통한 분류 정보 및 단백질 및 뉴클레오타이드 염기 서열을 저장하고 있다. UniProt BLAST 와 RefSeq BLAST 데이터베이스는 저항성 유전자로 분류된 유전자와 UniProt 및 NCBI와 같은 공개용 데이터베이스로부터 파생된 저항성 유전자 단백질과의 유사성이 있는 유전자군과 유사성 정도에 대한 결과를 저장하고 있다.
상기 출력부는 처리부에서 가공되어 데이터베이스에 저장된 정보를 웹상에 출력하는 기능을 한다. 도 9는 상기 처리부에서 처리된 결과를 시스템 상에서 보여주는 전체 그림이다. 출력부는 단백질 서열을 이용하여 예측한 결과 (도 9-1)와 UniGene의 뉴클레오타이드 염기 서열을 이용하여 예측 한 결과 (도 9-2)를 다르게 표시한다. 단백질 서열의 출력부는 HMM 결과, 서열정보, 유전자 구조 및 유사 단백질군, 블라스트 결과, 관련 레퍼런스, 트리 및 서열 정렬 결과로 7개의 세부 항목으로 나눌 수 있다.
도 10은 단백질 서열을 이용하여 구축한 저항성 유전자의 세부 항목에 대한 결과 예이다. HMM 결과는 hmmpfam을 이용하여 상기 알고리즘에서 구축한 프로파일 메트릭스를 이용해 저항성 유전자 도메인을 동정한 결과를 보여준다. 표 상에서는 저항성 유전자의 도메인과 단백질 서열상에서 도메인의 위치, 메트릭스 상에서의 위치를 각 도메인 별로 보여주며, View Info 항목에서는 실제 pfam 결과를 보여준다. 서열 정보 항목에서는 저항성 유전자로 분류된 단백질의 아미노산 서열을 보여준다. 유전자 구조 및 유사 단백질 군에서는 도메인 동정 결과를 이용하여 저항성 유전자의 도메인 구조를 도식화하여 보여주고, 블라스트 알고리즘을 이용하여 UniProt이나 NCBI와 같은 상용 데이터베이스에 있는 단백질과 유사성 검색을 한 결 과 유사성이 있는 단백질의 상대적인 위치를 보여준다. 블라스트 결과는 위의 저항성 유전자와 유사성이 있는 단백질에 대하여 유사성이 있는 위치 및 유사성 정도를 표로 도식화한 것이다. 관련 레퍼런스는 데이터베이스 상에서 저항성 유전자와 유사성이 있는 단백질의 실험 결과를 발표한 저널에 대한 정보를 포함하고 있으며, 각 저널을 PubMed 웹상으로 링크하여 쉽게 정보를 얻을 수 있도록 하였다.
트리는 쿼리 (query) 서열과 유사성이 있는 서열 간의 연관 관계를 보여주는 것으로 Neighbor-Joining(NJ) 알고리즘을 이용하여 구축하였다. 서열 정렬 결과는 입력부에서 받은 쿼리 서열과 유사성이 있는 서열 간의 유사한 영역을 표시하기 위하여 clustalW를 이용하여 multiple sequence alignment(MSA)를 수행한 결과이다.
도 11은 뉴클레오타이드 염기서열을 이용해 저항성 유전자를 예측 및 분류한 결과에 대한 출력부로 단백질을 이용한 예측 결과의 출력부와 다른 부분에 대해 요약하였다. UniGene은 뉴클레오타이드 염기 서열을 기반으로 6 리딩 프레임으로 번역하여 가장 긴 오픈 리딩 프레임 (ORF: open reading frame)을 가지는 단백질 서열을 기반으로 예측하였기 때문에, 서열 정보에서 입력으로 넣은 뉴클레오타이드 염기 서열과 가장 긴 ORF에 해당하는 단백질 서열을 같이 보여준다 (도 11-1). 그리고, UniGene의 라이브러리 정보가 있을 경우 라이브러리 상의 조직 정보를 이용하여 조직 특이성을 통계적으로 계산한 결과 값을 보여준다 (도 11-2). 이 두 가지 정보 이외의 상세정보는 단백질 서열로 예측한 저항성 유전자의 출력부와 동일하다.
도 12는 상기 검색부에 해당하는 시스템으로 본 시스템에서 구현한 알고리즘 을 이용하여 공개용 데이터베이스에서 제공하는 서열정보를 이용하여 저항성 유전자군으로 분류하여 데이터베이스 상에 저장하고, 분류된 결과를 상기 구축된 데이터베이스를 검색하는 기능을 한다. 검색 방법에서 Genomic Data의 경우 지놈 서열 결정이 끝나고, 예측된 단백질 서열이 공개된 5종의 식물(Arabidopsis, Rice, Medicaro, Corn, Grape)에 대해 분석하였다. Genomic Data의 하단에 표시된 각 종명을 클릭하면, 상단에 각 분류에 따른 저항성 유전자의 개수가 표시되고, 하단에 특정 분류군의 유전자 id들이 표시된다 (도 12-1). 저항성 유전자의 상세 정보를 얻기 위해서는 유전자의 id를 클릭함으로써 데이터베이스에 접근 및 상세 정보를 표시할 수 있다. 유전자 id를 클릭시 id에 해당하는 단백질의 유전자 정보를 상기 출력부에서와 동일한 형식으로 출력하여 볼 수 있다. UniGene의 경우 클릭시 NCBI에서 제공하는 32 종의 저항성 유전자 정보가 표시되고, 종명 또는 각 종의 저항성 유전자의 개수를 나타내는 그래프를 클릭 시 특정 종의 분류 군 및 해당 분류군의 저항성 유전자 개수가 표시된다 (도 12-2).
상기 알고리즘에서 기술한 프로파일 메트릭스를 이용한 저항성 유전자의 도메인을 동정하기 위한 입력부는 도 8의 입력부와 동일하다. 프로파일 메트릭스는 다섯 가지 도메인 (LRR, LZ, NBS, Pkinase, TIR)에 대해 구축되어 있으며, 도메인 명을 클릭하고 서열을 입력하면, 단백질의 경우 선택한 프로파일 메트릭스를 검색하여 출력하고, 뉴클레오타이드 염기서열의 경우 6 리딩 프레임으로 번역한 결과 중 가장 긴 ORF의 단백질 서열로 가공하여 프로파일 메트릭스를 검색하여 출력한다. 도 13은 Pkinase 도메인의 프로파일 메트릭스 검색 결과를 보여준다.
이와 같이, 본 발명이 속하는 기술 분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
도 1은 식물의 저항성 유전자를 동정하고 분류하는 시스템의 개략도를 나타낸다.
도 2은 UniProt 플랫 파일에서 저항성 유전자를 파싱하기 위해 사용한 검색 요소들의 의사코드 (pseudo-code)를 나타낸다.
도 3은 아미노 말단에 TIR 도메인을 가진 NBS 도메인과 TIR 도메인을 가지지 않은 NBS 도메인의 서열을 이용하여 계통 분석을 한 결과이다. 오른쪽 붉은색 막대에 해당하는 트리는 TIR 도메인을 가진 NBS 도메인을 암호화하는 유전자들이고, 푸른색 막대에 해당하는 트리는 TIR 도메인을 가지지 않은 NBS 도메인을 암호화하는 유전자들이 그룹핑되어 있다.
도 4는 TNL 그룹과 CNL 그룹의 NBS 도메인 정렬 결과를 이용하여 활성 모티프의 이름과 서열정렬 결과를 비교할 수 있도록 모식화한 것이다.
도 5는 CNL, TNL, NL 그룹에 속하는 단백질 서열을 두 개의 NBS 도메인 프로파일 메트릭스를 이용하여 검색한 결과의 점수를 그래프화한 것이다. 파랑색 선과 분홍색 선은 각각 NBS_CC와 NBS_TIR 프로파일 메트릭스를 이용하여 hmmpfam을 수행한 결과 나온 기댓값을 나타낸다. Y 축은 기댓값을 나타내며, X 축은 입력 서열의 저항성 유전자 분류군을 나타낸다.
도 6은 저항성 유전자를 암호화하는 도메인의 프로파일 메트릭스를 구성하는 일련의 과정을 모식화한 것이다.
도 7은 저항성 유전자 도메인의 조합에 따라 저항성 유전자를 분류하는 과정 을 모식화한 것이다. 마름모 모양은 도메인명을 나타낸 것이다. 붉은색 마름모는 프로파일 메트릭스에 의해 동정된 도메인이고 녹색은 COILS 프로그램에 의해 동정된 coiled-coil 도메인, 보라색은 TMHMM에 의해 동정된 TM 도메인을 나타낸다. 붉은 색 선은 다섯 개의 주 저항성 유전자 그룹을 나타내고, 푸른색 선은 저항성 유전자와 결합 또는 연관되어 식물 면역 신호전달에 관여하는 것으로 알려진 유전자와 동일한 구조를 가진 유전자 그룹이다. 검정색 선은 아직 기능이 밝혀지지 않았지만, 예전에 저항성 유전자였을 가능성이 있거나 앞으로 저항성 유전자로 진화할 가능성이 있는 저항성 유전자군이다.
도 8은 저항성 유전자의 동정 및 분류를 위한 서열을 입력받기 위한 입력부이다.
도 9는 Genomic Data와 UniGene 출력부의 전체 화면을 나타낸다. 1) Genomic Data, 2) UniGene
도 10은 출력부에서 나타내는 7가지 세부 항목들을 캡쳐한 부분이다. 각 세부 항목은 1) HMM 결과, 2) 서열정보, 3) 유전자 구조 및 유사 단백질군, 4) 블라스트 결과, 5) 관련 레퍼런스, 6)트리 및 7)서열 정렬을 나타낸다.
도 11은 UniGene 데이터를 이용하여 예측한 저항성 유전자의 출력부의 상세 정보의 일부를 나타낸다. 1) 서열정보, 2) 조직특이성 정보
도 12는 검색부의 결과로 1) Genomic Data에서 Medicago truncatula 종의 저항성 유전자의 분류군에 따른 분포와 CNL 분류군에 속하는 단백질의 ID를 표시하며, 2) UniGene 결과로서 32종의 식물체의 저항성 유전자의 분포와 세부 항목으로 써 Arabidopsis 식물체의 저항성 유전자 분류 및 분포를 나타낸다.
도 13은 프로파일 메트릭스를 이용하여 저항성 유전자의 도메인을 동정하는 실시 예를 나타낸다.

Claims (10)

  1. 저항성 유전자를 동정 및 분류하기 위한 단백질이나 뉴클레오타이드 서열을 입력할 수 있는 입력부;
    입력된 서열로부터 프로파일 메트릭스(profile matrix)를 이용하여 저항성 유전자를 암호화하는 각 도메인을 동정하고, 저항성 유전자를 분류하는 처리부;
    처리부의 알고리즘에 의해 동정 및 분류된 저항성 유전자를 저장하는 데이터베이스;
    데이터베이스에 저장된 결과로부터 데이터를 이용하여 저항성 유전자의 상세 정보를 보여주는 출력부;
    저항성 유전자를 암호화하는 도메인을 찾기 위한 단백질이나 뉴클레오타이드 서열을 입력할 수 있는 입력부;
    저항성 유전자의 히든 마크브 모델을 이용하여 도메인을 동정할 수 있는 처리부;
    동정된 도메인을 보여주는 출력부;
    기존의 공개용 데이터베이스의 단백질 및 UniGene 서열로부터 저항성 유전자를 동정하고, 분류하여 만든 데이터베이스로부터 검색하기 위한 검색부; 및
    검색된 유전자로부터 동정된 저항성 유전자의 유전자 구조, 유사 유전자 검색 결과, 유사 유전자와의 트리 및 서열 정렬 결과를 보여주는 출력부;
    를 포함하는 식물의 대량의 단백질 또는 뉴클레오타이드 서열을 가공하여 저 항성 유전자 관련 도메인을 동정하고, 그 도메인의 조합으로부터 저항성 유전자를 분류하는 시스템.
  2. 제1항에 있어서, 상기 프로파일 메트릭스는 하기 단계에 의해 구축되는 것을 특징으로 하는 시스템:
    a) 저항성 유전자의 기능성 도메인에 해당하는 서열을 찾기 위하여 공개용 데이터베이스에서 식물 전체의 서열을 다운로드 받는 단계;
    b) 상기 다운로드 받은 서열로부터 도메인 명 검색, 기술항 검색, 키워드 검색을 통하여 프로파일 메트릭스를 구성하기 위한 학습군 (training set)에 해당하는 저항성 유전자 후보군을 정하는 단계;
    c) 상기 후보군 중 단편 서열만 있는 유전자, 예측된 서열을 가진 유전자는 제거하고 실험적 근거가 있는 서열들을 기반으로 저항성 유전자의 단백질 서열을 수집하는 단계;
    d) 상기 서열을 기반으로 pfam과 MEME (Multiple Em for Motif Elicitation) 프로그램을 통해 저항성 유전자를 암호화하는 도메인을 동정하는 단계;
    e) 각 프로그램 결과로부터 도메인 영역에 해당하는 단백질 서열을 파싱(parsing)하여 clustalW 프로그램을 이용하여 서열 정열 (sequence alignment)을 수행하는 단계;
    f) 각 도메인의 서열 정렬 결과에서 기존의 밝혀진 도메인 특징들과 매뉴얼로 비교하여 보존된 서열이 잘 정렬되었는지 검증하고 HMMER 프로그램을 이용하여 검증된 도메인에 대한 프로파일 메트릭스를 구축하는 단계.
  3. 제2항에 있어서, 상기 a) 단계의 공개용 데이터베이스는 UniProt 인 것을 특징으로 하는 시스템.
  4. 제2항에 있어서, 상기 d) 단계의 저항성 유전자를 암호화하는 도메인은 NBS(nucleotide binding site), LZ(leucine zipper), LRR(leucine rich repeat), TIR (toll interleuine-1 receptor) 또는 카이네이즈(kinase) 인 것을 특징으로 하는 시스템.
  5. 제1항에 있어서, 상기 알고리즘은 각 메트릭스의 적정 경계 값을 이용하여 도메인을 동정하고 동정된 도메인의 조합을 이용하여 저항성 유전자를 분류하는 알고리즘인 것을 특징으로 하는 시스템.
  6. a) 입력창으로부터 단백질 또는 뉴클레오타이드 염기 서열을 쿼리(query)로 입력하는 단계;
    b) 입력받은 서열이 뉴클레오타이드 염기 서열일 경우 6 리딩 프레임으로 번역 (translation) 하고, 그 중 가장 긴 ORF를 정의하는 단계;
    c) 입력된 단백질 서열 또는 번역한 단백질 서열로부터 프로파일 메트릭스를 이용하여 저항성 유전자의 도메인을 동정하는 단계;
    d) 상기 동정된 도메인의 조합을 이용해서 저항성 유전자군으로 분류하는 단계;
    e) 상기 분류된 저항성 유전자를 BLAST 알고리즘을 이용하여 상용 데이터베이스 상에서 저항성 유전자로 밝혀진 유전자와 비교하는 단계; 및
    f) 상기 비교 결과 유사성이 있는 저항성 유전자군과의 서열 정렬 (multiple sequence alignment) 및 neighbor joining(NJ) 알고리즘을 이용한 계통수(phylogenetic tree) 분석 단계;
    를 포함하는 식물의 저항성 유전자 관련 도메인을 동정하고, 동정된 저항성 유전자를 분류하는 방법.
  7. 제6항에 있어서, 상기 c) 단계의 프로파일 메트릭스는 하기 단계에 의해 구축되는 것을 특징으로 하는 방법:
    저항성 유전자의 기능성 도메인에 해당하는 서열을 찾기 위하여 공개용 데이터베이스에서 식물 전체의 서열을 다운로드 받는 단계;
    상기 다운로드 받은 서열로부터 도메인 명 검색, 기술항 검색, 키워드 검색을 통하여 프로파일 메트릭스를 구성하기 위한 학습군 (training set)에 해당하는 저항성 유전자 후보군을 정하는 단계;
    상기 후보군 중 단편 서열만 있는 유전자, 예측된 서열을 가진 유전자는 제거하고 실험적 근거가 있는 서열들을 기반으로 저항성 유전자의 단백질 서열을 수집하는 단계;
    상기 서열을 기반으로 pfam과 MEME (Multiple Em for Motif Elicitation) 프로그램을 통해 저항성 유전자를 암호화하는 도메인을 동정하는 단계;
    각 프로그램 결과로부터 도메인 영역에 해당하는 단백질 서열을 파싱(parsing)하여 clustalW 프로그램을 이용하여 서열 정열 (sequence alignment)을 수행하는 단계;
    각 도메인의 서열 정렬 결과에서 기존의 밝혀진 도메인 특징들과 매뉴얼로 비교하여 보존된 서열이 잘 정렬되었는지 검증하고 HMMER 프로그램을 이용하여 검증된 도메인에 대한 프로파일 메트릭스를 구축하는 단계.
  8. 제7항에 있어서, 상기 공개용 데이터베이스는 UniProt 인 것을 특징으로 하는 방법.
  9. 제7항에 있어서, 상기 저항성 유전자를 암호화하는 도메인은 NBS(nucleotide binding site), LZ(leucine zipper), LRR(leucine rich repeat), TIR (toll interleuine-1 receptor) 또는 카이네이즈(kinase) 인 것을 특징으로 하는 방법.
  10. 제6항 내지 제9항 중 어느 한 항의 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체.
KR1020090123006A 2009-12-11 2009-12-11 히든 마코브 모델을 이용한 식물 저항성 유전자 동정 및 분류를 위한 시스템 및 방법 KR101140780B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020090123006A KR101140780B1 (ko) 2009-12-11 2009-12-11 히든 마코브 모델을 이용한 식물 저항성 유전자 동정 및 분류를 위한 시스템 및 방법
PCT/KR2010/000333 WO2011071209A1 (ko) 2009-12-11 2010-01-19 히든 마코브 모델을 이용한 식물 저항성 유전자 동정 및 분류를 위한 시스템 및 방법
US13/515,006 US20120271558A1 (en) 2009-12-11 2010-01-19 System and method for identifying and classifying resistance genes of plant using hidden marcov model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090123006A KR101140780B1 (ko) 2009-12-11 2009-12-11 히든 마코브 모델을 이용한 식물 저항성 유전자 동정 및 분류를 위한 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20110066380A true KR20110066380A (ko) 2011-06-17
KR101140780B1 KR101140780B1 (ko) 2012-05-03

Family

ID=44145741

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090123006A KR101140780B1 (ko) 2009-12-11 2009-12-11 히든 마코브 모델을 이용한 식물 저항성 유전자 동정 및 분류를 위한 시스템 및 방법

Country Status (3)

Country Link
US (1) US20120271558A1 (ko)
KR (1) KR101140780B1 (ko)
WO (1) WO2011071209A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101289403B1 (ko) * 2011-04-27 2013-07-29 한국생명공학연구원 십자화과 식물 유전자의 진화 및 기능 연구를 위한 발현 유전체 비교분석 시스템 구축 방법
CN114550827A (zh) * 2022-01-14 2022-05-27 山东师范大学 一种基因序列比对方法及系统

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10020300B2 (en) 2014-12-18 2018-07-10 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9859394B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9857328B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Chemically-sensitive field effect transistors, systems and methods for manufacturing and using the same
US10006910B2 (en) 2014-12-18 2018-06-26 Agilome, Inc. Chemically-sensitive field effect transistors, systems, and methods for manufacturing and using the same
US9618474B2 (en) 2014-12-18 2017-04-11 Edico Genome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
WO2016100049A1 (en) 2014-12-18 2016-06-23 Edico Genome Corporation Chemically-sensitive field effect transistor
WO2017011779A1 (en) * 2015-07-16 2017-01-19 Dnastar, Inc. Protein structure prediction system
WO2017201081A1 (en) 2016-05-16 2017-11-23 Agilome, Inc. Graphene fet devices, systems, and methods of using the same for sequencing nucleic acids
CN108491692B (zh) * 2018-03-09 2023-07-21 中国科学院生态环境研究中心 一种构建抗生素抗性基因数据库的方法
CN113470751B (zh) * 2021-06-30 2024-09-20 南方科技大学 一种蛋白纳米孔氨基酸序列的筛选方法、蛋白纳米孔及其应用
CN113628687A (zh) * 2021-08-13 2021-11-09 南京大学 一种植物成对nlr抗性基因数据库的构建方法及其多物种成对nlr基因数据库

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU5614100A (en) 1999-06-17 2001-01-09 Dna Plant Technology Corporation Methods to design and identify new plant resistance genes

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101289403B1 (ko) * 2011-04-27 2013-07-29 한국생명공학연구원 십자화과 식물 유전자의 진화 및 기능 연구를 위한 발현 유전체 비교분석 시스템 구축 방법
CN114550827A (zh) * 2022-01-14 2022-05-27 山东师范大学 一种基因序列比对方法及系统
CN114550827B (zh) * 2022-01-14 2022-11-22 山东师范大学 一种基因序列比对方法及系统

Also Published As

Publication number Publication date
WO2011071209A1 (ko) 2011-06-16
US20120271558A1 (en) 2012-10-25
KR101140780B1 (ko) 2012-05-03

Similar Documents

Publication Publication Date Title
KR101140780B1 (ko) 히든 마코브 모델을 이용한 식물 저항성 유전자 동정 및 분류를 위한 시스템 및 방법
Nayfach et al. CheckV assesses the quality and completeness of metagenome-assembled viral genomes
Betancur-R et al. Phylogenomic incongruence, hypothesis testing, and taxonomic sampling: The monophyly of characiform fishes
Merkel et al. Detecting short tandem repeats from genome data: opening the software black box
Zhang et al. Conflicting signal in transcriptomic markers leads to a poorly resolved backbone phylogeny of chalcidoid wasps
Aono et al. Machine learning approaches reveal genomic regions associated with sugarcane brown rust resistance
Han et al. A BAC-based physical map of the apple genome
Dylus et al. Inference of phylogenetic trees directly from raw sequencing reads using Read2Tree
Zaharias et al. Data, time and money: evaluating the best compromise for inferring molecular phylogenies of non-model animal taxa
Lyons et al. Current status and impending progress for cassava structural genomics
Nabi et al. High-throughput RNA sequencing of mosaic infected and non-infected apple (Malus× domestica Borkh.) cultivars: From detection to the reconstruction of whole genome of viruses and viroid
Gauthier et al. DiscoSnp-RAD: de novo detection of small variants for RAD-Seq population genomics
Parslow et al. Molecular diversity and species delimitation in the family Gasteruptiidae (Hymenoptera: Evanioidea)
Jin et al. Haplotype-resolved genomes of wild octoploid progenitors illuminate genomic diversifications from wild relatives to cultivated strawberry
Meher et al. ASRpro: A machine‐learning computational model for identifying proteins associated with multiple abiotic stress in plants
Pratas et al. Metagenomic composition analysis of sedimentary ancient DNA from the Isle of Wight
Luo et al. Genome biology and evolution of mating-type loci in four cereal rust fungi
Waman et al. CATH 2024: CATH-AlphaFlow Doubles the Number of Structures in CATH and Reveals Nearly 200 New Folds
van Bemmelen van der Plaat et al. Reliable genomic strategies for species classification of plant genetic resources
Alemu The role and application of bioinformatics in plant disease management
CN116825182A (zh) 一种基于基因组ORFs筛选细菌耐药特征的方法及应用
Boyes et al. The genome sequence of the peppered moth, Biston betularia Linnaeus, 1758
Cvrčková A plant biologists’ guide to phylogenetic analysis of biological macromolecule sequences
KR102030055B1 (ko) 바이러스별 특이적 단백질 서열 추출 방법
Zhou et al. Twelve Platinum-Standard reference genomes sequences (PSRefSeq) that complete the full range of genetic diversity of asian rice

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150421

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160406

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170802

Year of fee payment: 18