KR100897523B1

KR100897523B1 - 유전자 상동성 정보를 이용한 유전자 리스트의 생체패스웨이 할당 장치 및 그 방법

Info

Publication number: KR100897523B1
Application number: KR1020070046719A
Authority: KR
Inventors: 김보라; 정호열; 김민호; 정명근; 박수준; 박선희
Original assignee: 한국전자통신연구원
Priority date: 2006-12-05
Filing date: 2007-05-14
Publication date: 2009-05-15
Anticipated expiration: 2027-05-14
Also published as: KR20080052193A

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야

본 발명은, 유전자 상동성 정보를 이용한 유전자 리스트의 생체 패스웨이 할당 장치 및 그 방법에 관한 것임.

2. 발명이 해결하려고 하는 기술적 과제

본 발명은, 대상 종의 유전자 리스트 중에서 비교 종과 상동성(HomoloGene) 정보를 갖는 유전자들, 또는 비교 종에는 존재하지 않고 대상 종에만 존재하는 유전자들을 선별한 후, 상기 유전자들과 GO(Gene Ontology) 및 KEGG(Kyoto Encyclopedia of Genes and Genomes) 용어 사이의 통계적인 유의성을 갖는 용어를 검출하여, 유전자 리스트들이 참여하고 있는 생체 패스웨이로 할당하기 위한, 유전자 상동성 정보를 이용한 유전자 리스트의 생체 패스웨이 할당 장치 및 그 방법을 제공하는데 그 목적이 있음.

3. 발명의 해결방법의 요지

본 발명은, 유전자 상동성 정보를 이용한 유전자 리스트의 생체 패스웨이 할당 장치에 있어서, 대상 종의 유전자 리스트 중에서 비교 종과 상동성(HomoloGene)을 갖는 유전자들 또는 상기 비교 종에는 포함되어 있지 않은 유전자들을 선별하여 상동성 및 유일성 유전자 리스트를 생성하기 위한 상동성 및 유일성 유전자 리스트 생성수단; 상기 상동성 및 유일성 유전자 리스트 생성수단에서 생성한 상동성 및 유일성 유전자 리스트에 GO(Gene Ontology) 용어 및 KEGG(Kyoto Encyclopedia of Genes and Genomes) 용어를 각각 할당하기 위한 용어 할당수단; 상기 용어 할당수단을 통해 해당 GO 용어 및 KEGG 용어를 할당한 상동성 및 유일성 유전자 리스트에서 GO 용어 및 KEGG 용어별로 초 기하 분포(hyper-geometric distribution) 유의 확률을 계산하기 위한 통계적 유의 확률 계산수단; 및 상기 초 기하 분포 유의 확률이 계산된 상동성 및 유일성 유전자 리스트 별로 최소의 초 기하 분포 유의 확률값을 갖는 GO 용어 및 KEGG 용어를 선별하여 해당 유전자 리스트의 생체 패스웨이로 할당하기 위한 생체 패스웨이 할당수단을 포함함.

4. 발명의 중요한 용도

본 발명은 유전자 칩 분석 등에 이용됨.

유전자 칩, 상동성(HomoloGene), 유일성, GO 용어, KEGG 용어, 통계적 유의 확률, 생체 패스웨이

Description

유전자 상동성 정보를 이용한 유전자 리스트의 생체 패스웨이 할당 장치 및 그 방법{Apparatus and method for giving an organism pathway name using Gene Homologue information}

도 1 은 본 발명에 따른 유전자 상동성 정보를 이용한 유전자 리스트의 생체 패스웨이 할당 장치에 대한 일실시예 구성도,

도 2 는 본 발명에 따른 유전자 상동성 정보를 이용한 유전자 리스트의 생체 패스웨이 할당 방법에 대한 일실시예 흐름도이다.

* 도면의 주요 부분에 대한 부호의 설명

110 : 상동성 및 유일성 유전자 리스트 생성부

120 : 용어 할당부

130 : 통계적 유의 확률 계산부

140 : 생체 패스웨이 할당부

본 발명은 유전자 상동성 정보를 이용한 유전자 리스트의 생체 패스웨이 할당 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 대상 종의 유전자 리스트 중에서 비교 종과 상동성(HomoloGene) 정보를 갖는 유전자들, 또는 비교 종에는 존재하지 않고 대상 종에만 존재하는 유전자들을 선별한 후, 상기 유전자들과 GO(Gene Ontology) 및 KEGG(Kyoto Encyclopedia of Genes and Genomes) 용어 사이의 통계적인 유의성을 갖는 용어를 검출하여, 유전자 리스트들이 참여하고 있는 생체 패스웨이로 할당하기 위한, 유전자 상동성 정보를 이용한 유전자 리스트의 생체 패스웨이 할당 장치 및 그 방법에 관한 것이다.

인간 유전체 프로젝트(Human Genome Project)가 완성되고 생물 정보가 모두 공개됨에 따라 DNA(DeoxyriboNucleic Acid)라는 하위 레벨에서의 생물 분석이 가능해졌고, 이로 인하여 현재의 생물학 연구는 대량의 데이터를 효율적으로 분석할 수 있는 DNA 칩을 이용한 생물학적 기능 유추 방법에 관심이 집중되고 있다.

일반적으로, DNA 칩을 이용한 생물학적 기능 유추 방법은, 각 유전자를 대표하는 수천에서 수만 개의 DNA 조각들이 집적되어 있는 DNA 칩 위에 실험 대상 종의 조직 세포에서 샘플링한 mRNA(messenger RiboNucleic Acid)들을 뿌린 후, 그 반응 정도에 따라 실험 대상의 유전자에 대한 기능을 추론하는 기술을 말한다.

이러한, DNA 칩의 응용 분야는 매우 광범위하다. 예를 들어, 유전자의 발현 해석의 기본 데이터를 얻을 수 있고, DNA 칩이 알려진 모든 염기 서열을 포함하는 경우 알려지지 않은 대상 유전자 서열의 결손 및 염기의 변화를 매우 빨리 확인할 수 있으며, 이를 통해 유전자 간의 연관성（linkage analysis) 또한 확인할 수 있다.

또한, 이와 비슷하게 돌연변이 및 SNP(Single Nuclotide Polymorphism)도 매우 빠른 시간 내에 확인할 수 있고, 특정 질병 하에서만 발현하는 유전자를 칩에 심어놓은 후 실험 대상의 유전자를 뿌려서 질병의 원인을 진단하는 데에도 사용할 수 있으며, 이를 통해 질병에 걸렸는지를 하위 단계에서 미리 진단하여 예방할 수 있으며, 나아가 신약을 개발하는 데에도 유용하게 쓰일 수 있다. 아울러, 법의학적으로나 친자 확인 등과 같은 사회적 이슈에서도 다양하게 이용될 수 있다.

이를 위해서는 DNA 칩 데이터를 제대로 분석해야 한다. 이에 앞서, 일단 칩에 집적된 DNA 조각（표지, probe)이 해당 유전자를 유일하게 대표할 수 있어야 한다. 왜냐하면, 이 표지의 형광물질의 발광 정도의 농도를 직접적으로 이 표지가 나타내는 유전자의 농도로 여기기 때문이다.

또한, 칩을 만드는 방법에 따라 실험 결과값인 표지의 농도 값들에 대한 다양한 정규화 (normalization) 방법이 존재한다.

예를 들어, 하나의 슬라이드를 사용한 데이터 값들은 적색 형광 농도 대비 녹색 형광 농도의 비율 수치를 이용하거나 적색 형광 농도값의 로그값과 녹색 형광 농도값의 로그값을 합하여 2로 나눈 값을 이용한다. 슬라이드 내에서의 정규화 방법은 슬라이드 내에서 적색 형광 농도와 녹색 형광 농도의 균형을 맞추기 위해 행한다. 즉, 적색과 녹색 형광의 로그비율 값의 분포의 중심을 ‘0’으로 맞춘다. 또한, 짝 슬라이드(염색 교환 방법, dye swap)의 경우 두 슬라이드에서 얻은 로그비 의 평균값을 이용해 분포를 정규화한다.

이렇게 정규화하여 얻은 칩 실험 데이터 수치 값들을 가지고 실험 조건에 따라 비슷한 변화 양상을 보이는 유전자 집합을 묶는 작업을 클러스터링(군집화)이라 한다. 이는 생물학적으로 유전자의 기능을 연구할 때 사용되는 기본 방법이다. 이러한 클러스터링 방법은 계층적 군집화 분석 방법, SOM(Self Organizing Map), K 평균 군집화 분석 방법, 'CAST', 'CLICK' 등 주로 유사도를 정의한 후에 이것으로 최적화된 군집을 찾는다.

이때, 특정 군집화 방법이 모든 칩 데이터를 군집화하는 과정에서 가장 좋은 방법은 아니며, 여러 가지 방법을 적용시켜 보고, 현재 보고 있는 데이터의 특성에 가장 잘 맞는 군집화 과정을 사용하는 것이 좋다. 그러나 시간이 지남에 따라 특정 군집화 방법의 정확도와 신뢰도가 높아지고 있으며, 기준이 되는 방법이 점차 개발되고 있다.

이제, 이렇게 군집화된 유전자 리스트들을 가지고 할 수 있는 일은, 해당 군집 유전자 리스트들이 어떤 기능을 하는지 의미를 파악하는 일이다. 이를 위해 실험을 통해 직접/간접적으로 확인하거나, 컴퓨터 계산으로 예측한 유전자 기능에 대한 데이터베이스들을 이용한다.

이때, 데이터베이스는 웹에서 모든 데이터를 제공받을 수 있도록 공개되어 있는 GO(Gene Ontology), KEGG(Kyoto Encyclopedia of Genes and Genomes) 등의 데이터베이스가 있다. GO는 GO 용어 간에 부모-자식의 관계가 설정되어 있으며, 전체적으로는 DAG 구조로 되어 있다.

또한, GO는 세 개의 카테고리로 분류되는데, 구성(Component) 카테고리는 세포 내의 구성과 관련된 용어들을 포함하며, 기능(Function) 카테고리는 분자 단위의 기능과 관련된 용어들을 포함하고, 마지막으로 프로세스(Process) 카테고리는 생체 내의 과정, 패스웨이와 관련된 용어들을 포함한다.

GO(Gene Ontology)를 이용하여 유전자 리스트의 기능을 분석하는 방법은, 주로 한 군집으로 묶인 유전자 리스트들과 관련된 GO 용어들 사이의 유사도를 측정하여 가장 중심이 되는 용어를 선별하는 방식으로 유전자 리스트들의 공통된 기능을 뽑아내거나, SVM(Support Vector Machine) 등과 같이 알려지지 않은 유전자와 GO 용어를 연결하는 방식을 이용한다.

군집화된 유전자 리스트들의 기능 파악 시, 기능이 알려진 유전자들이 생체 내에서 특정 생체 프로세스(생체 패스웨이)에 참여하는 리스트들일 경우 그 프로세스를 이 유전자 리스트들의 이름으로 칭한다.

그러나 실제 칩 데이터를 분석하여 군집화하였을 경우에는 한 클러스터로 묶인 유전자들이 모두 같은 프로세스에 속하는지 아닌지 알 수가 없으며, GO 용어 또한 모든 연관된 용어들을 검색해야만 해당 클러스터의 기능을 파악할 수 있는 문제점이 있다.

한편, 유전자 리스트의 기능을 예측할 때 사용할 수 있는 KEGG 데이터베이스가 있다. 이 데이터베이스는 패스웨이 데이터베이스로서 여러 종에 대한 대부분의 패스웨이 정보를 가지고 있으며, KEGG와 유전자의 매핑 데이터를 '교토대 생물정보학 센터 사이트'로부터 얼마든지 제공받을 수 있다.

따라서 군집화된 유전자들의 대표 기능을 뽑는데 GO 정보만 사용하면 GO에 없지만 KEGG에는 있는 생체 패스웨이 용어와 관련된 정보는 사용하지 못하는 문제점이 있다.

이를 증명하기 위해 KEGG 패스웨이 이름과 GO의 생체 프로세스(Biological Process)를 비교하였다. 총 281개의 KEGG 패스웨이 이름을 기준으로 데이터를 작성하였다.

즉, 281개의 KEGG 용어와 GO의 'Biological Process' 카테고리의 용어를 비교한 결과, 281개 중 67개만이 동일한 용어였으며, 47개는 GO 용어 두세 개를 합해야 관련이 있었으며, 167개는 GO에는 존재하지 않고 KEGG에만 존재하였다. 이에 대한 일부 결과를 하기의 [표 1]에 도시하였다.

결국, GO 용어만 가지고 유전자 군집 리스트의 대표 기능을 추론하는 것은 그 결과의 신빙성을 떨어뜨리며, 유전자들의 기능과 관련된 정보의 부족이라는 문제점을 야기한다.

본 발명은 상기 문제점을 해결하기 위하여 제안된 것으로, 대상 종의 유전자 리스트 중에서 비교 종과 상동성(HomoloGene) 정보를 갖는 유전자들, 또는 비교 종에는 존재하지 않고 대상 종에만 존재하는 유전자들을 선별한 후, 상기 유전자들과 GO(Gene Ontology) 및 KEGG(Kyoto Encyclopedia of Genes and Genomes) 용어 사이의 통계적인 유의성을 갖는 용어를 검출하여, 유전자 리스트들이 참여하고 있는 생체 패스웨이로 할당하기 위한, 유전자 상동성 정보를 이용한 유전자 리스트의 생체 패스웨이 할당 장치 및 그 방법을 제공하는데 그 목적이 있다.

본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

상기 목적을 달성하기 위한 본 발명의 장치는, 유전자 상동성 정보를 이용한 유전자 리스트의 생체 패스웨이 할당 장치에 있어서, 대상 종의 유전자 리스트 중에서 비교 종과 상동성(HomoloGene)을 갖는 유전자들 또는 상기 비교 종에는 포함되어 있지 않은 유전자들을 선별하여 상동성 및 유일성 유전자 리스트를 생성하기 위한 상동성 및 유일성 유전자 리스트 생성수단; 상기 상동성 및 유일성 유전자 리스트 생성수단에서 생성한 상동성 및 유일성 유전자 리스트에 GO(Gene Ontology) 용어 및 KEGG(Kyoto Encyclopedia of Genes and Genomes) 용어를 각각 할당하기 위한 용어 할당수단; 상기 용어 할당수단을 통해 해당 GO 용어 및 KEGG 용어를 할당한 상동성 및 유일성 유전자 리스트에서 GO 용어 및 KEGG 용어별로 초 기하 분포(hyper-geometric distribution) 유의 확률을 계산하기 위한 통계적 유의 확률 계산수단; 및 상기 초 기하 분포 유의 확률이 계산된 상동성 및 유일성 유전자 리스트 별로 최소의 초 기하 분포 유의 확률값을 갖는 GO 용어 및 KEGG 용어를 선별하여 해당 유전자 리스트의 생체 패스웨이로 할당하기 위한 생체 패스웨이 할당수단을 포함한다.

한편, 본 발명의 방법은, 유전자 상동성 정보를 이용한 유전자 리스트의 생체 패스웨이 할당 방법에 있어서, 대상 종의 유전자 리스트 중에서 비교 종과 상동성(HomoloGene)을 갖는 유전자들을 선별하거나, 비교 종에는 포함되어 있지 않은 유전자들을 선별하여 유전자 리스트를 생성하는 유전자 리스트 생성단계; 상기 생성한 유전자 리스트에 GO(Gene Ontology) 용어 및 KEGG(Kyoto Encyclopedia of Genes and Genomes) 용어를 각각 할당하는 단계; 상기 해당 GO 용어 및 KEGG 용어가 할당된 유전자 리스트에서 GO 용어 및 KEGG 용어별로 초 기하 분포(hyper-geometric distribution) 유의 확률을 계산하는 통계적 유의 확률 계산단계; 및 상기 초 기하 분포 유의 확률이 계산된 상동성 및 유일성 유전자 리스트별로 최소의 초 기하 분포 유의 확률값을 갖는 GO 용어 및 KEGG 용어를 선별하여 해당 유전자 리스트의 생체 패스웨이로 할당하는 단계를 포함한다.

또한, 본 발명은 유전자 칩 분석에 있어서, 입력받은 유전자 군집 리스트에 대하여 유전자 상동성(HomoloGene) 정보를 활용하여 새로운 유전자 리스트를 생성하고, 생성된 각 유전자 리스트에 대하여 GO(Gene Ontology), KEGG(Kyoto Encyclopedia of Genes and Genomes) 데이터를 이용하여 생체 패스웨이 이름을 부여한다.

또한, 본 발명은 여러 종간에서 상동성을 갖는 유전자들만을 가지고 유전자 리스트의 기능을 해석할 경우, 모든 종에서 공통으로 사용되는 호흡과 같은 기능을 하는 유전자 리스트의 기능은 비슷한 결과를 나타내지만, 특정 종에서만 이용되는 생체 프로세스의 경우 및 다른 종과 상동성을 갖지 않는 유전자 리스트의 기능을 해석할 경우는 서로 다른 결과를 나타낸다.

이때, 종간에 상동성을 갖는 유전자에 대한 데이터는 NCBI(National Center for Biotechnology Information) 사이트에 공개된 'HomoloGene'이라는 데이터베이스로부터 얼마든지 제공받을 수 있다. 여기서, 'HomoloGene'은 'sequencing'이 완성된 진핵 세포 유전체들의 유전자들 사이의 상동성을 자동적으로 탐지하는 시스템을 말한다.

다른 종과의 상동성 여부를 유전자 군집 리스트의 기능 분석에 적용함으로써, 생체의 핵심 기능을 담당하는 기능인지의 여부를 추론할 수 있고, 또한 특정 종에서만 활성화되는 생체 패스웨이를 알아볼 수 있다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.

도 1 은 본 발명에 따른 유전자 상동성 정보를 이용한 유전자 리스트의 생체 패스웨이 할당 장치에 대한 일실시예 구성도이다.

도 1에 도시된 바와 같이, 본 발명에 따른 유전자 상동성 정보를 이용한 유전자 리스트의 생체 패스웨이 할당 장치는, 대상 종(species)의 유전자 리스트 중에서 사용자로부터 선택된 종(이하, 비교 종)과 상동성(HomoloGene)을 갖는 유전자들 또는 상기 비교 종에는 포함되어 있지 않은 유전자들을 선별하여 상동성 및 유일성 유전자 리스트를 생성하기 위한 상동성 및 유일성 유전자 리스트 생성부(110), 상기 상동성 및 유일성 유전자 리스트 생성부(110)에서 생성한 상동성 및 유일성 유전자 리스트에 GO(Gene Ontology) 용어 및 KEGG(Kyoto Encyclopedia of Genes and Genomes) 용어를 각각 할당하기 위한 용어 할당부(120), 상기 용어 할당부(120)를 통해 해당 GO 용어 및 KEGG 용어를 할당한 상동성 및 유일성 유전자 리스트에서 GO 용어 및 KEGG 용어별로 초 기하 분포(hyper-geometric distribution) 유의 확률을 계산하기 위한 통계적 유의 확률 계산부(130), 및 상기 통계적 유의 확률 계산부(130)에서 초 기하 분포 유의 확률이 계산된 상동성 및 유일성 유전자 리스트별로 최소의 초 기하 분포 유의 확률값을 갖는 GO 용어 및 KEGG 용어를 선별하여 해당 유전자 리스트의 생체 패스웨이로 할당하기 위한 생체 패스웨이 할당부(140)를 포함한다.

또한, 상기 상동성 및 유일성 유전자 리스트 생성부(110)는 하기의 [표 2]와 같이 18개의 종에 대해, 하기의 [표 3]과 같은 상동성(HomoloGene) 데이터를 이용한다. 여기서, 유일성은 비교 종에는 존재하지 않고 대상 종에만 존재하는 유전자들 즉, 비교종에는 포함되어 있지 않은 유전자들을 의미한다.

또한, 상기 용어 할당부(120)는 [표 1]과 같은 데이터를 이용하여 GO 용어와 KEGG 용어를 각각 할당한다.

또한, 상기 통계적 유의 확률 계산부(130)는 각 유전자 리스트에서 유전자와 GO 용어 및 KEGG 용어별로 하기의 [수학식 1]과 같은 초 기하 분포(hyper-geometric distribution) 함수를 이용하여 통계적으로 의미를 갖는 확률을 계산한다.

이러한 [수학식 1]은 확률(p)을 초 기하 분포를 이용하여 제공함으로써, 유전자 군집 리스트(클러스터)의 생물학적 특징의 유의미성을 통계학적인 관점에서 평가할 수 있도록 한다. 대표 GO 용어 및 KEGG 용어가 우연히 뽑힐 확률인 p 값이 작을수록 GO 용어 및 KEGG 용어가 우연히 나온 것이 아니라는 것을 의미한다.

여기서, G는 주어진 종 내에서 전체 유전자의 개수, C는 주어진 GO 용어 및 KEGG 용어를 주석정보로 가지는 유전자 개수, n은 클러스터 내 유전자의 개수, 그리고 k는 클러스터 내에서 주어진 GO 용어 및 KEGG 용어를 주석정보로 가지는 유전자의 개수를 의미한다.

결국, [수학식 1]의 의미는 n개의 유전자로 이루어진 클러스터 내에서 주어진 GO 용어 또는 KEGG 용어를 주석으로 가지는 유전자의 개수가 k개 이상인 경우의 확률을 나타낸다. 확률이 작을수록 우연히 k개의 유전자가 해당 GO 용어 또는 KEGG 용어를 가지기 어렵다는 뜻이다. 즉, 클러스터를 대표하는 GO 용어 또는 KEGG 용어의 확률(p) 값이 작을수록 통계적으로 의미가 있다.

또한, 상기 생체 패스웨이 할당부(140)는 상기 통계적 유의 확률 계산부(130)에서 초 기하 분포 유의 확률이 계산된 상동성 및 유일성 유전자 리스트별로 모든 유전자와 모든 GO, KEGG 용어 사이에 계산된 유의 확률들 중에서 최소값을 갖는 GO 용어 및 KEGG 용어를 해당 유전자 리스트의 생체 패스웨이 용어로 할당한다. 즉, 생체 패스웨이 할당부(140)는 상동성 유전자 리스트와 유일성 유전자 리스트 별로 생체 패스 웨이 용어를 할당한다.

먼저, 대상 종의 입력받은 유전자 리스트 중에서 비교 종과 상동성을 갖는 유전자 리스트와, 상기 비교 종에는 포함되어 있지 않은 유전자 리스트를 생성한다(201). 즉, 상동성 유전자 리스트와 유일성 유전자 리스트 다시 말해, 상동성 및 유일성 유전자 리스트를 생성한다.

이후, 상기 생성한 상동성 및 유일성 유전자 리스트에 GO(Gene Ontology) 용어 및 KEGG(Kyoto Encyclopedia of Genes and Genomes) 용어를 각각 할당한다(202).

이후, 상기 해당 GO 용어 및 KEGG 용어가 할당된 상동성 및 유일성 유전자 리스트에서 GO 용어 및 KEGG 용어별로 초 기하 분포(hyper-geometric distribution) 유의 확률을 계산한다(203).

이후, 상기 초 기하 분포 유의 확률이 계산된 상동성 및 유일성 유전자 리스트별로 최소의 초 기하 분포 유의 확률값을 갖는 GO 용어 및 KEGG 용어를 선별하여 해당 유전자 리스트의 생체 패스웨이로 할당한다(204).

이하, 몇 가지 예를 들어 본 발명의 효과를 입증한 결과를 살펴보기로 한다.

"Eran Segal et al., Module networks: identifying regulatory modules and condition-specific regulators from gene expression data, Nature Genetics, 2003년. 34호 166-176 페이지" 논문에서 이스트(Saccharomyces cerevisiae)를 대상으로 총 2,355개의 유전자를 가지고 군집화 과정을 거쳐 50 개의 모듈을 생성하였다. 이 중에서 몇 개의 모듈에 대한 분석을 수행하였다.

첫 번째 예로, 갈락토오스 대사 모듈(galactose metabolism module)은 Gal4에 의해 조절받는 유전자와 Gal4 조절인자로 구성된 유전자들 4개로 이루어진 유전자 리스트로서, 최소 유의 확률값을 갖는 GO 용어와 KEGG 용어가 모두 'galactose metabolism' 이다.

이를 확인하기 위해, 먼저 상동성 및 유일성 유전자 리스트 생성부(110)를 통해 해당 종(이스트)과 생쥐 및 인간 모두에서 상동성을 갖는 유전자 리스트를 생성한 결과 1 개였다.

이후, 용어 할당부(120)를 통해 GO 용어 및 KEGG 용어를 할당한 후 통계적 유의 확률 계산부(130)를 통해 확률값을 계산한 결과, 최소 유의 확률값을 갖는 GO 용어는 'galactose metabolism'이고, KEGG 용어는 'nucleotide sugars metabolism'으로, 실제 KEGG 용어와 달랐다.

하지만, 생쥐와 인간에는 없고 오직 이스트에만 있는 나머지 유전자 3개로 계산했을 경우, 최소 유의 확률값을 갖는 GO 용어와 KEGG 용어가 모두 'galactose metabolism'으로 실제와 동일하였다.

결국, 갈락토오스 대사 모듈은 이스트에서 대표적으로 잘 사용되는 생체 프로세스이므로, 이스트 종만이 갖고 있는 유전자 리스트들로 상기 과정을 계산하였을 때, 모듈의 이름에 더 적합하게 나왔음을 알 수 있다.

두 번째 예로, 호흡 모듈(respiration module)은 총 55개의 유전자 중 39개의 호흡 관련 단백질을 코딩하는 유전자들과 6개의 글루코즈 대사 조절 인자 등으로 구성된 유전자 리스트로서, 최소 유의 확률값을 갖는 GO 용어는 'mitochondrial electron transport'이고, 최소 유의 확률값을 갖는 KEGG 용어는 'oxidative phosphorylation'이다.

실험결과, 해당 종(이스트)과 생쥐와 인간 모두에서 상동성을 갖는 유전자 리스트는 3 개였고, 이것으로 상기 과정을 거쳐 최소 유의 확률값을 갖는 GO 용어는 'mitochondrial electron transport' 이고, KEGG 용어는 'oxidative phosphorylation'로 실제와 동일함을 알 수 있었다.

또한, 생쥐와 인간에는 없고 오직 이스트에만 있는 나머지 유전자 52개로 계산하였을 경우에도 모두 동일하게 나왔다. 이는 모든 종에서 공통으로 잘 사용되는 모듈이기 때문에 상동성이 있는 유전자리스트로 계산한 경우나, 상동성이 없는 유전자리스트로 계산한 경우나, 최소 유의 확률값을 갖는 GO, KEGG 용어가 동일하게 나옴을 알 수 있었다.

세 번째 예로, 질소 분해 억제 모듈(nitrogen catabolite repression module)은 이스트(yeast)가 질소원(nitrogen source)을 가장 잘 사용하는 process와 관련된 유전자 29개로 구성되어 있는 유전자 리스트로서, 최소 유의 확률값을 갖는 GO 용어는 'allantoin catabolism'이고, 최소 유의 확률값을 갖는 KEGG 용어는 'sulfur metabolism'이다.

사람이 지은 모듈 이름과는 다르지만, 'allantoin catabolism'과 'sulfur metabolism' 모두 질소를 이용한 대사과정이므로 어느 정도 힌트를 준다고 할 수 있다.

실험결과, 해당 종(이스트)과 생쥐와 인간 모두에서 상동성을 갖는 유전자 리스트는 3 개였고, 이것으로 상기 과정을 거쳐 최소 유의 확률값을 갖는 GO 용어는 'clathrin catabolism'이었으며, KEGG 용어는 'purine metabolism'으로 실제와 다른 결과가 나왔다.

그러나 생쥐와 인간에는 없고 오직 이스트에만 있는 나머지 유전자 26개로 계산하였을 경우, 최소 유의 확률값을 갖는 GO 용어는 'allantoin catabolism', KEGG 용어는 'sulfur metabolism'으로 실제와 동일하였다.

네 번째 예로, 에너지, 삼투, cAMP 신호전달 모듈(energy, osmolarity and cAMP signaling module)은 'cAMP'에 의존적인 단백질 인산화 촉매 효소의 촉매적 서브유닛인 'Tpk1'에 의해 조절되는 64개의 유전자로 구성되어 있다. 최소 유의 확률값을 갖는 GO 용어는 'TCA cycle'이고, 최소 유의 확률값을 갖는 KEGG 용어 또한 'TCA cycle'이다.

실험결과, 해당 종(이스트)과 생쥐와 인간 모두에서 상동성을 갖는 유전자 리스트는 46 개였고, 이것으로 상기 과정을 거쳐 최소 유의 확률값을 갖는 GO 용어 역시 'TCA cycle'이고, KEGG 용어 또한 모든 유전자의 경우와 마찬가지로 'TCA cycle'이었다.

그러나 생쥐와 인간에는 없고 오직 이스트에만 있는 나머지 유전자 18개로 계산하였을 경우에는 최소 유의 확률값을 갖는 GO 용어는 'response to stress'이었고, 최소 유의 확률값을 갖는 KEGG 용어는 'starch and sucrose metabolism'으로 다르게 나왔다.

이는 'energy', 'cAMP', 'signaling'과 관련된 유전자들이 보통은 'TCA cycle'이 대표적으로 사용되는 생체 프로세스인데 반해, 이스트의 경우에는 스트레스에 반응하거나 전분과 자당의 대사에 이용되는 생체 프로세스에서 대표적으로 이용되기 때문이다.

상기 예를 통해, 대상 종의 유전자 리스트 중에서 비교 종과 상동성(HomoloGene)을 갖는 유전자 수와 상기 비교 종에는 포함되어 있지 않은 유전자 수를 비교하여 그 수가 많은 쪽의 유전자 리스트를 이용하는 것이 보다 정확한 결과를 도출해 낼 수 있음을 알 수 있다.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

상기와 같은 본 발명은, 대상 종의 유전자 리스트 중에서 비교 종과 상동성(HomoloGene) 정보를 갖는 유전자들, 또는 비교 종에는 존재하지 않고 대상 종에만 존재하는 유전자들을 선별한 후, 상기 유전자들과 GO(Gene Ontology) 및 KEGG(Kyoto Encyclopedia of Genes and Genomes) 용어 사이의 통계적인 유의성을 갖는 용어를 검출하여, 유전자 리스트들이 참여하고 있는 생체 패스웨이로 할당함으로써, 보다 정확한 생체 패스웨이를 할당할 수 있는 효과가 있다.

또한, 본 발명은 칩 실험 데이터의 군집화 결과로 나온 유전자 군집 리스트의 생체 패스웨이명을 자동으로 부여함으로써, 칩 분석자가 군집의 기능을 쉽게 판단할 수 있도록 하는 효과가 있다.

또한, 본 발명은 비교 종과의 상동성을 갖거나 혹은 대상 종에서만 나타나는 유전자를 선별한 리스트에 적용함으로써, 생물학적으로 모든 종에서 공통적으로 중요한 기능을 담당하거나 혹은 해당 종에서만 특별히 활성되는 패스웨이를 찾아볼 수 있도록 하는 효과가 있다.

또한, 본 발명은 메커니즘 명이 밝혀지지 않는 유전자들의 경우에도 GO, KEGG 용어가 할당된 같은 군집에 묶인 다른 유전자들에 의해서 생체내의 패스웨이를 할당할 수 있는 효과가 있다.

Claims

유전자 상동성 정보를 이용한 유전자 리스트의 생체 패스웨이 할당 장치에 있어서,

대상 종의 유전자 리스트 중에서 비교 종과 상동성(HomoloGene)을 갖는 유전자들 또는 상기 비교 종에는 포함되어 있지 않은 유전자들을 선별하여 상동성 및 유일성 유전자 리스트를 생성하기 위한 상동성 및 유일성 유전자 리스트 생성수단;

상기 상동성 및 유일성 유전자 리스트 생성수단에서 생성한 상동성 및 유일성 유전자 리스트에 GO(Gene Ontology) 용어 및 KEGG(Kyoto Encyclopedia of Genes and Genomes) 용어를 각각 할당하기 위한 용어 할당수단;

상기 용어 할당수단을 통해 해당 GO 용어 및 KEGG 용어를 할당한 상동성 및 유일성 유전자 리스트에서 GO 용어 및 KEGG 용어별로 초 기하 분포(hyper-geometric distribution) 유의 확률을 계산하기 위한 통계적 유의 확률 계산수단; 및

상기 통계적 유의 확률 계산수단에 의해 상기 초 기하 분포 유의 확률이 계산된 상동성 및 유일성 유전자 리스트별로 최소의 초 기하 분포 유의 확률값을 갖는 GO 용어 및 KEGG 용어를 선별하여 해당 유전자 리스트의 생체 패스웨이로 할당하기 위한 생체 패스웨이 할당수단

을 포함하는 유전자 상동성 정보를 이용한 유전자 리스트의 생체 패스웨이 할당 장치.
제 1 항에 있어서,

상기 상동성 및 유일성 유전자 리스트 생성수단은,

18개의 종에 대한 상동성(HomoloGene) 데이터를 이용하여 상동성 유전자 리스트 또는 유일성 유전자 리스트를 생성하는 것을 특징으로 하는 유전자 상동성 정보를 이용한 유전자 리스트의 생체 패스웨이 할당 장치.
제 1 항 또는 제 2 항에 있어서,

상기 통계적 유의 확률 계산수단은,

하기의 [수학식 A]를 통해 n개의 유전자로 이루어진 클러스터 내에서 주어진 GO 용어 및 KEGG 용어를 주석으로 가지는 유전자의 개수가 k개 이상인 경우의 확률(p)을 계산하는 것을 특징으로 하는 유전자 상동성 정보를 이용한 유전자 리스트의 생체 패스웨이 할당 장치.

[수학식 A]

여기서, G는 주어진 종 내에서 전체 유전자의 개수, C는 주어진 GO 용어 및 KEGG 용어를 주석정보로 가지는 유전자 개수, n은 클러스터 내 유전자의 개수, 그리고 k는 클러스터 내에서 주어진 GO 용어 및 KEGG 용어를 주석정보로 가지는 유전자의 개수를 의미한다.
유전자 상동성 정보를 이용한 유전자 리스트의 생체 패스웨이 할당 방법에 있어서,

대상 종의 유전자 리스트 중에서 비교 종과 상동성(HomoloGene)을 갖는 유전자들을 선별하거나, 비교 종에는 포함되어 있지 않은 유전자들을 선별하여 유전자 리스트를 생성하는 유전자 리스트 생성단계;

상기 생성한 유전자 리스트에 GO(Gene Ontology) 용어 및 KEGG(Kyoto Encyclopedia of Genes and Genomes) 용어를 각각 할당하는 단계;

상기 GO 용어 및 KEGG 용어가 할당된 유전자 리스트에서 GO 용어 및 KEGG 용어별로 초 기하 분포(hyper-geometric distribution) 유의 확률을 계산하는 통계적 유의 확률 계산단계; 및

상기 초 기하 분포 유의 확률이 계산된 상동성 및 유일성 유전자 리스트 별로 최소의 초 기하 분포 유의 확률값을 갖는 GO 용어 및 KEGG 용어를 선별하여 해당 유전자 리스트의 생체 패스웨이로 할당하는 단계

를 포함하는 유전자 상동성 정보를 이용한 유전자 리스트의 생체 패스웨이 할당 방법.
제 4 항에 있어서,

상기 유전자 리스트 생성단계는,

18개의 종에 대한 상동성(HomoloGene) 데이터를 이용하여 유전자 리스트를 생성하는 것을 특징으로 하는 유전자 상동성 정보를 이용한 유전자 리스트의 생체 패스웨이 할당 방법.
제 4 항 또는 제 5 항에 있어서,

상기 통계적 유의 확률 계산단계는,

하기의 [수학식 B]를 통해 n개의 유전자로 이루어진 클러스터 내에서 주어진 GO 용어 및 KEGG 용어를 주석으로 가지는 유전자의 개수가 k개 이상인 경우의 확률(p)을 계산하는 것을 특징으로 하는 유전자 상동성 정보를 이용한 유전자 리스트의 생체 패스웨이 할당 방법.

[수학식 B]

여기서, G는 주어진 종 내에서 전체 유전자의 개수, C는 주어진 GO 용어 및 KEGG 용어를 주석정보로 가지는 유전자 개수, n은 클러스터 내 유전자의 개수, 그리고 k는 클러스터 내에서 주어진 GO 용어 및 KEGG 용어를 주석정보로 가지는 유전자의 개수를 의미한다.