KR20090077506A - 다양한 종으로부터 올소로그(Ortholog)를 탐지하는방법 - Google Patents

다양한 종으로부터 올소로그(Ortholog)를 탐지하는방법 Download PDF

Info

Publication number
KR20090077506A
KR20090077506A KR1020080003499A KR20080003499A KR20090077506A KR 20090077506 A KR20090077506 A KR 20090077506A KR 1020080003499 A KR1020080003499 A KR 1020080003499A KR 20080003499 A KR20080003499 A KR 20080003499A KR 20090077506 A KR20090077506 A KR 20090077506A
Authority
KR
South Korea
Prior art keywords
pairs
ortholog
allolog
pair
cluster
Prior art date
Application number
KR1020080003499A
Other languages
English (en)
Inventor
류근호
김선신
이범주
정용재
Original Assignee
충북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 충북대학교 산학협력단 filed Critical 충북대학교 산학협력단
Priority to KR1020080003499A priority Critical patent/KR20090077506A/ko
Publication of KR20090077506A publication Critical patent/KR20090077506A/ko

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • Immunology (AREA)
  • Physics & Mathematics (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Microbiology (AREA)
  • Cell Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

유전체 주석달기와 유전체 진화에 대한 연구를 위해서 여러 종의 유전체로부터 올소로그 클러스터를 자동적으로 구축하는 방법이 개시된다. 본 발명은 서열화가 완성된 임의의 유전체들로부터 모든 가능한 올소로그쌍을 생성하고, 생성된 올소로그쌍을 순환방식(Recursive)으로 검색하여 스코어매트릭스를 만들고 나서, 형성된 스코어매트릭스로부터 올소로그클러스터를 생성한다.

Description

다양한 종으로부터 올소로그(Ortholog)를 탐지하는 방법{A method for clustering orthologs from multiple genomes}
본 발명은 유전체의 서열이 완전히 알려진 다양한 종으로부터 올소로그(Ortholog)를 탐지하는 방법에 관한 것으로, 특히 유전체 주석달기와 유전체 진화에 대한 연구를 위해서 여러 종의 유전체로부터 올소로그 클러스터를 자동적으로 구축하는 방법에 관한 것이다.
일반적으로, 생명체는 종분화(speciation)와 복제(duplication)을 통하여 진화한다. 이 진화과정에서 유전체를 구성하는 각 유전자가 본래의 기능을 그대로 유지하면, 이들 유전자를 올소로그라고 한다. 올소로그(Ortholog)는 같은 조상으로부터 본래의 기능을 간직한 채 종 분화를 통하여 진화한 유전자를 말한다. 올소로그(Ortholog)는 임의의 한 종에서 어떤 기능을 가진 유전자(gene)에 대해서 다른 종에서도 동일한 기능을 가지는 것인데, 예를 들어 사람에게서 A1이라는 유전자가 시력과 관련 있는 기능을 하는 경우, 동일한 기능을 하는 유전자 A2가 돼지에게서도 존재할 때, 이들 두 유전자 A1과 A2를 올소로그(ortholog)라고 한다.
또한 각 유전자가 복제을 한 뒤에 종분화를 한 경우에는 중복된 유전자는 본 래의 기능과 다른 기능을 하게 되는데, 이들 유전자를 패럴로그(paralog)라고 한다. 즉, 패럴로그(paralog)는 유전자 복제를 한 후 종분화를 통하여 서로 다른 기능을 가지게 진화한 유전자를 말하는 것이다.
이런 가설로부터 단백질서열 상동성에 기반하여 동일한 기능을 할 것으로 예측되는 유전자(올소로그)를 클러스터링하는 방법들에 관한 연구가 진행되어 왔다. 이들 연구는 이미 기능이 알려진 단백질(또는 유전자)로부터 아직 기능이 알려지지 않은 단백질의 기능을 예측하는데 활용된다. 따라서 보다 정확하고 더 많은 새로운 서열의 기능을 예측하기 위한 방법의 개발을 필요로 한다.
종래의 올소로그를 클러스터링하는 방법들은 보다 정확하고 빠르게 올소로그를 군집화하기 위해 한계값(thresholding)을 사용함으로 인하여, 많은 양의 올소로그를 탐지하지 못하는 문제점을 가지고 있다. 또는 한계값을 사용하지 않는 방법들은 많은 양의 올소로그를 탐지할 수는 있으나, 필요한 정확도를 유지하기 위해 분석 및 수작업을 함으로써 많은 노력과 시간을 필요로 한다.
즉, COG(Clusters of Orthologous Group)는 상호최대 BLAST히트를 기반으로 분석을 통하여 올소로그 클러스터를 구축하였지만, 어떤 특정한 클러스터에는 한 종으로부터 유래한 패럴로그가 많이 포함되어있다.
올소로그 클러스터의 질은 유전체사이의 BLAST 알고리즘의 상호 최대 hit에 의존한다. 이 BLAST 알고리즘은 매우 빠르고 효율적이므로 대부분의 사람들이 사용하고 있지만, 진화적 거리가 먼 종 사이에서는 최적의 결과를 생성하기 어렵다. 왜냐하면 진화적거리가 먼 유전체는 단백질 서열의 유사도가 매우 낮기 때문이다.
이와 같은 이유로 인하여, 올소로그 클러스터에서는 거짓 긍정(false Positive)을 줄이기 위해 종종 한계값 (thresholding, 사용자가 임의로 지정한 부분까지만 올소로그 클러스터로 만드는 값)이 사용된다. 그러나, 한계값의 사용은 많은 수의 참-긍정(True Positive)인 올소로그를 제거하게 되는 문제점이 있었다.
본 발명은 상기와 같은 문제점을 해소하기 위하여 발명된 것으로, BLAST 임계값을 사용하지 않고 팽창인자를 조정함으로써, 올소로그군집의 크기가 변하여 생성된다. 따라서 기존의 방법보다 팽창인자의 값에 따라 약 50%보다 더 많은 올소로그를 생성하거나 더 정확한 올소로그를 탐지하는 방법을 제공하는 데 그 목적이 있다.
이와 같은 목적을 수행하기 위한 본 발명은, 유전자지도가 완전히 밝혀진 임의의 종 n개를 선정하여, 이들간의 모든 가능한 유전체 쌍들 사이에서 BLAST 최대 히트(hit)를 만족하는 올소로그 단백질쌍을 추출하는 올소로그쌍 생성단계(S101);
상기 올소로그쌍 생성단계(S101)에서 생산한 올소로그쌍이 저장되어 있는 테이블에서 유전자 ID를 순환방식으로 검색하여, 일치하는 ID를 가진 올소로그쌍(유전자쌍)은 모두 하나의 그룹으로 형성함으로써, 상기 올소로그쌍들 사이의 서열 유사도 정도를 나타내는 매트릭스를 형성하는 올소로그쌍 검색 및 스코어매트릭스단계(S102); 및
상기 올소로그쌍 검색 및 스코어매트릭스단계(S102)에서 형성된 매트릭스(202)에 팽창인자(Inflation Factor)를 조절하여 생성되는 클러스터의 크기와 수를 결정함으로써 초기의 클러스터를 더 세분하여 목표로 하는 올소로그클러스터를 생산하는 올소로그클러스터 생산단계(S103)를 포함한다.
다양한 종으로부터 BLAST 한계값을 사용하지 않고 자동적으로 올소로그(Ortholog)를 탐지함으로써, 시간과 노력을 절약할 뿐 아니라 종래의 방법보다 더 많은 올소로그를 생산하고 더 정확한 클러스터를 구성할 수 있는 효과가 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 실시예를 상세히 설명하면 다음과 같다.
도 1은 본 발명에 따른 올소로그를 탐지하는 방법을 보여주기 위한 블록도이고, 도 2 는 본 발명에 적용되는 그래프와 스코어 매트릭스를 나타낸 도면이며, 도 3 는 본 발명에 따른 올소로그 탐지방법의 결과를 보여주기 위한 도면이다.
본 발명에 따른 다양한 종으로부터 올소로그(Ortholog)를 탐지하는 방법은 도1에서 보는 바와 같이, 선정한 유전체로부터 모든 가능한 유전체쌍으로부터 올소로그단백질쌍을 생성하는 올소로그쌍 생성단계(S101); 생성된 올소로그쌍으로부터 스코어매트릭스를 구성하는 올소로그쌍 검색 및 스코어매트릭스형성단계(S102); 및 생성된 스코어매트릭스로부터 올소로그클러스터를 생성하는 올소로그클러스터 생산단계(S103)로 구성된다.
올소로그쌍 생성단계(S101)는 유전자지도가 완전히 밝혀진 임의의 종 n개를 선정하여, 이들간의 모든 가능한 유전체 쌍들, 즉 n(n-1)/2개, 사이에서 BLAST 최대 히트(hit)를 만족하는 올소로그 단백질쌍(또는 유전자쌍)을 추출한다. 이때 각 유전체는 FASTA 포멧으로 되어 있는 단백질 서열들이다. 두 유전체를 구성하는 각각의 단백질 사이의 서열유사성 비교를 통하여, 이들 단백질 사이의 상호 최대 히트(hit)를 만족하는 단백질쌍을 올소로그쌍이라고 정의한다. 이런 올소로그쌍을 두 유전체사이의 올소로그 그룹으로 정의하여 테이블에 저장한다.
올소로그쌍 검색 및 스코어매트릭스단계(S102)는 올소로그쌍 생성단계(101)에서 생산한 올소로그쌍이 저장되어 있는 테이블에서 유전자 ID를 순환방식으로 검색하여, 일치하는 ID를 가진 올소로그쌍(유전자쌍)은 모두 하나의 그룹으로 형성된다.
즉, 올소로그쌍이 저장되어 있는 테이블에서 유전자 ID를 순환방식(Recursive)으로 검색하여, 일치하는 ID를 가진 올소로그쌍(유전자쌍)은 모두 하나의 그룹으로 지정하면, 도 2의 그래프(201)와 같은 올소로그 그룹으로 만들어지고 매트릭스(202)로 표현하게 된다. 여기서 매트릭스에 표현된 스코어는 유전자쌍(올소로그쌍)들 사이의 서열 유사도 정도를 나타낸다. 이때 종래의 방법들은 유전자 자신에 대한 자체스코어는 무시하여 매트릭스의 대각선을 0으로 처리하여 계산한다. 이와는 달리 매트릭스(202)의 대각선상의 스코어((201)에서 자신의 스코어를 화살표로 다시 한번 되돌아가서 자체 스코어를 계산하는 것과 같은 표현)를 매트릭스에 추가하여 계산함으로써, 보다 정확한 올소로그 그룹의 생산이 가능하다.
올소로그클러스터 생산단계(S103)는 매트릭스(202)에 MCL(Markov CLuster) 알고리즘을 적용하여 이 초기의 클러스터(즉 초기그룹)를 더 세분하여 목표로 하는 올소로그클러스터를 생산한다. 이때 팽창인자(Inflation Factor)를 조절하여 생성되는 클러스터의 크기와 수를 결정한다.
도 3은 매트릭스(202)에 MCL알고리즘을 적용하였을 때, 팽창인자에 따라 생성되는 클러스터의 실시 예를 나타낸다. 즉, OPC10은 팽창인자가 1.0일 때 생성된 올소로그그룹을 나타낸다. 여기서는 팽창인자를 1.0에서부터 2.0까지 0.1씩 증가시키면서 생성된 올소로그그룹의 결과를 나타내고 있다. OPC10그룹은 팽창인자가 1.0일 때 if10oc1이라는 하나의 클러스터만 생성되었고 팽창인자가 1.4일 때는 if14oc1과 if14oc2라는 두개의 클러스터를 포함하는 OPC14그룹이 생성되었다. 또한 팽창인자가 1.8일 때는 OPC18그룹이 세 개의 if18oc1, if18oc2, 및 if18oc3라는 클러스터를 포함하는 결과를 생산하였다. 이 경우 일반적으로 팽창인자를 증가시키면 더 정확한 올소로그클러스터를 생산하는 반면 올소로그쌍을 포함하는 클러스터에서 올소로그의 수는 줄어든다. 사용자가 원하는 올소로그클러스터를 생성하기 위해 적당한 팽창인자를 선정할 수 있다.
이상에서 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하였으나, 본 발명은 이에 한정되는 것이 아니며 본 발명의 기술적 사상의 범위내에서 당업자에 의해 그 개량이나 변형이 가능하다.
도 1은 본 발명에 따른 올소로그를 탐지하는 방법을 보여주기 위한 블록도이다.
도 2 는 본 발명에 적용되는 그래프와 스코어 매트릭스를 나타낸 도면이다.
도 3 는 본 발명에 따른 올소로그 탐지방법의 결과를 보여주기 위한 도면이다.

Claims (1)

  1. 유전자지도가 완전히 밝혀진 임의의 종 n개를 선정하여, 이들간의 모든 가능한 유전체 쌍들 사이에서 BLAST 최대 히트(hit)를 만족하는 올소로그 단백질쌍을 추출하는 올소로그쌍 생성단계(S101);
    상기 올소로그쌍 생성단계(S101)에서 생산한 올소로그쌍이 저장되어 있는 테이블에서 유전자 ID를 순환방식으로 검색하여, 일치하는 ID를 가진 올소로그쌍(유전자쌍)은 모두 하나의 그룹으로 형성함으로써, 상기 올소로그쌍들 사이의 서열 유사도 정도를 나타내는 매트릭스를 형성하는 올소로그쌍 검색 및 스코어매트릭스단계(S102); 및
    상기 올소로그쌍 검색 및 스코어매트릭스단계(S102)에서 형성된 매트릭스(202)에 팽창인자(Inflation Factor)를 조절하여 생성되는 클러스터의 크기와 수를 결정함으로써 초기의 클러스터를 더 세분하여 목표로 하는 올소로그클러스터를 생산하는 올소로그클러스터 생산단계(S103)를 포함하는 다양한 종으로부터 올소로그(Ortholog)를 탐지하는 방법.
KR1020080003499A 2008-01-11 2008-01-11 다양한 종으로부터 올소로그(Ortholog)를 탐지하는방법 KR20090077506A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080003499A KR20090077506A (ko) 2008-01-11 2008-01-11 다양한 종으로부터 올소로그(Ortholog)를 탐지하는방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080003499A KR20090077506A (ko) 2008-01-11 2008-01-11 다양한 종으로부터 올소로그(Ortholog)를 탐지하는방법

Publications (1)

Publication Number Publication Date
KR20090077506A true KR20090077506A (ko) 2009-07-15

Family

ID=41336000

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080003499A KR20090077506A (ko) 2008-01-11 2008-01-11 다양한 종으로부터 올소로그(Ortholog)를 탐지하는방법

Country Status (1)

Country Link
KR (1) KR20090077506A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3301592A1 (en) 2009-08-21 2018-04-04 Samsung Electronics Co., Ltd. Shared data transmitting method, server, and system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3301592A1 (en) 2009-08-21 2018-04-04 Samsung Electronics Co., Ltd. Shared data transmitting method, server, and system

Similar Documents

Publication Publication Date Title
Sato et al. RNA secondary structural alignment with conditional random fields
CA2424031C (en) System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map
US9128923B2 (en) Orthographical variant detection apparatus and orthographical variant detection method
Li et al. The computational approaches of lncRNA identification based on coding potential: status quo and challenges
Wei et al. A novel splice site prediction method using support vector machine
CN107403075A (zh) 比对方法、装置及系统
Malde et al. Fast sequence clustering using a suffix array algorithm
Liang et al. iPromoter-ET: Identifying promoters and their strength by extremely randomized trees-based feature selection
Rani et al. Cluster analysis method for multiple sequence alignment
CN114822694A (zh) 基于CatBoost算法的长非编码RNA识别方法
CN113823356B (zh) 一种甲基化位点识别方法及装置
Oğul et al. A discriminative method for remote homology detection based on n-peptide compositions with reduced amino acid alphabets
WO2020115580A1 (en) System and method for promoter prediction in human genome
Khandelwal et al. Extraction of sequence-based features for prediction of methylation sites in protein sequences
Dotan et al. Effect of tokenization on transformers for biological sequences
Paul et al. Identification of weak motifs in multiple biological sequences using genetic algorithm
US20070124081A1 (en) Biological information processing apparatus, biological information processing method and biological information processing program
KR20090077506A (ko) 다양한 종으로부터 올소로그(Ortholog)를 탐지하는방법
Song et al. SProtP: a web server to recognize those short-lived proteins based on sequence-derived features in human cells
Chen et al. Emerging Patterns and Classification Algorithms for DNA Sequence.
CN109243529B (zh) 基于局部敏感哈希的水平转移基因识别方法
Dai A New method of LncRNA classification based on ensemble learning
Sun et al. A new method for splice site prediction based on the sequence patterns of splicing signals and regulatory elements
CN109637589B (zh) 基于频繁模式和机器学习双推荐制的核定位信号预测方法
Amin et al. i6mA-CNN: a convolution based computational approach towards identification of DNA N 6-Methyladenine sites in rice genome

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application