KR20030071225A

KR20030071225A - 유전자 어휘 분류체계를 이용하여 디엔에이 칩을 분석하기위한 시스템 및 그 방법

Info

Publication number: KR20030071225A
Application number: KR1020020010826A
Authority: KR
Inventors: 김양석; 허정욱; 이성근
Original assignee: 주식회사 이즈텍
Priority date: 2002-02-28
Filing date: 2002-02-28
Publication date: 2003-09-03
Also published as: AU2003212669A1; KR100431620B1; WO2003072701A1

Abstract

본 발명은 유전자 어휘 분류체계(Gene Ontology; GO)의 계층 구조(hierarchical structure) 모델링을 통해 DNA 칩 또는 마이크로어레이 실험의 유전자 발현 양상(gene expression pattern)을 생물학적으로 분석하기 위한 시스템 및 그 분석 방법에 관한 것이다. 본 발명에 따른 GO를 이용한 DNA 칩 분석 시스템은 DNA 칩 실험 결과의 통계적 클러스터링(clustering) 결과를 입력받아, 각 클러스터에 속하는 유전자들에 GO 식별자(identifier)를 할당하는 수단; GO 코드 파일을 이용하여 유전자마다 할당된 GO 식별자를 각각 GO 코드로 변환하는 수단; GO 코드에 대해 유사거리 알고리즘에 따른 소정의 과정을 선택하고, 필요한 변수를 지정하여 최적 교차점을 추출하는 수단; 추출된 각각의 최적 교차점에 대해 그 생물학적 의미를 추출하는 수단; 및 유전자마다 각각 추출된 최적 교차점 및 GO 코드를 디스플레이하기 위한 시각화 수단을 포함하여 이루어진다. 본 발명에 따르면, GO 계층 구조의 모델링을 통해 DNA 칩 실험의 유전자 발현 양상에 대해 체계적으로 자동화된 생물학적 분석을 수행할 수 있다.

Description

유전자 어휘 분류체계를 이용하여 디엔에이 칩을 분석하기 위한 시스템 및 그 방법 {A SYSTEM FOR ANALYZING DNA-CHIPS USING GENE ONTOLOGY, AND A METHOD THEREOF}

본 발명은 유전자 어휘 분류체계를 이용하여 DNA 칩을 분석하기 위한 시스템 및 그 방법에 관한 것으로서, 보다 구체적으로, 유전자 어휘 분류체계(Gene Ontology; 이하 'GO'라 한다) 계층 구조(hierarchical structure)의 모델링을 통해 DNA 칩 또는 마이크로어레이(Microarray) 실험의 유전자 발현 양상(gene expression pattern)을 생물학적으로 분석하기 위한 시스템 및 그 분석 방법에 관한 것이다.

1954년 와트슨 및 크릭(Watson and Crick)에 의하여 DNA의 이중 나선 구조가 밝혀진 이래 제한 효소의 발견, 혼성화(hybridization) 기법, PCR (Polymerase chain reaction) 등의 발전은 생명 현상의 분자 수준에서의 이해에 크게 기여하였다. 그러나 복잡한 조절 기능을 갖는 생명 현상을 단편적으로 이해하는 것이 아니라 인간 지놈 프로젝트(Human Genomic Project; HGP)와 같이 전체적 이해를 할 수 있는 실험의 필요성이 대두됨에 따라, 염기서열의 기능을 이해하기 위한 과정이 수행되는 가운데 DNA Chip이 개발되었다. 이러한 HGP와 DNA Chip의 결과를 효율적으로 활용하기 위하여 생물정보학(Bioinformatics)과 기능체 유전학(Functional Genomics)의 연구도 활발하게 진행되고 있다.

바이오 칩은 크게 마이크로어레이 및 마이크로플루이딕스(microfluidics) 칩으로 구분되며, 여기서 마이크로어레이는 수천개 혹은 수만개 이상의 DNA나 단백질 등을 일정 간격으로 배열하여 붙이고, 분석 대상 물질을 처리하여 그 결합 양상을 분석할 수 있는 칩을 말하며, 전술한 DNA 칩 및 단백질 칩 딩이 있으며, 현재까지는 DNA 칩이 가장 널리 사용되고 있는 바이오 칩이라고 볼 수 있다. 또한, 마이크로플루이딕스 칩은 미량의 분석 대상 물질을 흘려보내면서 칩에 집적되어 있는 생물 분자 혹은 센서와 반응하는 양상을 분석할 수 있다.

이러한 DNA 칩은 유리판, 니트로셀룰로스 막(nitrocellulose membrane) 혹은 실리콘 위에 타겟 DNA 또는 cDNA나 올리고뉴클레오티드(oligonucleotide)를 붙인 것이다. 다시 말하면, 이러한 DNA 칩은 작은 면적의 고체 표면에 염기서열이 알려진 cDNA 혹은 올리고뉴클레오티드 탐침(probe)을 정해진 위치에 미세 집적(micro-array)시킨 것을 말한다.

이러한 DNA 칩은 형광물질 혹은 방사선 동위 원소로 표식된 탐침과 혼성화시켜 유전자의 발현 정도, 돌연 변이의 확인, 단일 뉴클레오티드 다형성(single nucleotide polymorphism; SNP), 질병의 진단, 고처리 스크리닝(high-throughput screening; HTS) 등에 사용할 수 있다. 이러한 DNA 칩에 분석하고자 하는 시료 DNA 단편을 결합시키면, DNA 칩에 부착되어 있는 탐침과 시료 DNA 단편상의 염기서열의 상보적 정도에 따라 혼성화 상태를 이루게 되는데, 광학적인 방법 혹은 방사능 화학적 방법 등을 통해 이를 관찰 해석함으로써, 시료 DNA의 염기 서열을 측정할 수 있다. 이러한 DNA 칩을 이용하면 많은 수의 유전자의 발현 정보를 간편하고 신속하게 알 수 있으며, 현재 신약 개발 및 의료 진단용으로 개발 사용되고 있다.

DNA 칩 결과의 분석에는 통계적인 방법과 생물학적인 방법이 병행되고 있다. 이미지 분석을 통하여 나타난 각 유전자들의 발현 정도를 통계적인 방법을 이용하여 공통적인 발현 양상을 보이는 것들을 클러스터링(clustering)을 통하여 묶어 낸다. 여기서 실제 각 유전자의 알려진 기능을 이용하여 해당 클러스터(cluster)에 일반적인 의미를 부여함과 동시에 해당 클러스터의 신뢰도를 생물학적으로 확인하게 된다.

기존의 생물학적 확인 과정은 논문이나 기존의 생물학 정보 데이터베이스 등에서 유전자의 기능을 추출하여 비교하는 방법을 이용한다. 이때 사용되는 데이터베이스들은 NCBI(National Center for Biotechnology Information)의 기본적인 DNA 정보, MIPS(Munich information center for protein sequences) 혹은 CGAP(Cancer genome anatomy project) 등의 기능별 분류(functional category) 정보, 또는 Swiss-Prot의 단백질 정보들을 이용한다. 하지만, 현재까지는 연구자의 수작업을 통해서 많이 이루어지고 있으며, 생물학 용어의 다양성 등으로 인하여 체계적이고 자동화된 분석을 수행하기 어려웠다는 문제점이 있다.

또한, 기존 생물학 정보 데이터베이스의 경우, 단백질의 정보원으로 많이 사용되는 Swiss-Prot은 핵심 단어(keyword)를 이용하여 단백질들의 기능을 잘 분류하였으나, 이들 핵심 단어들 사이에는 정형화된 상관 관계 혹은 상하 관계(hierarchy)가 존재하지 않으며, 이 때문에 DNA 칩의 생물학적 분석에서 자동화에 장애 요인으로 작용한다. 또한, CGAP(Cancer Genome Anatomy Project) 등의특화된 분야별의 그룹 정보들은 해당 분야에서만 적용되는 한계점을 지니며, 또한 그 그룹 자체가 너무 넓은 의미의 기능을 다루게 되므로, 세부적인 기능적 측면에서는 한계점을 지니게 된다는 문제점이 있다.

이에 따른 대안으로서, GO 컨소시엄(Gene Ontology Consortium)에서 제공하는 GO 용어를 이용하는 것이다. 여기서 어휘 분류체계(Ontology)란 간략하게 말하면 생물학 용어 또는 어휘를 분류해 놓은 체계를 말한다. 유전자 어휘 분류체계 컨소시엄은 생물학 용어들의 통합을 목적으로 세워졌으며, 모든 생물 종들에서 유전자의 기능을 설명하는데 있어서 사용되는 공통적으로 사용될 수 있는 통합된 용어들을 제공하며, 현재 일만여개의 용어로 구성되어 있다. 결국, GO는 유전자(Gene) 혹은 유전자에 함축된 키워드들이 각 개체가 되어 그것들 사이의 관계를 연구하는 것을 의미하며, 생물정보학(bioinformatics)에 적용하게 된다.

이러한 GO 용어의 특이점은 각 용어들 사이에 상하 관계의 트리 구조를 가지며, 전체 용어들을 3가지의 큰 범주(category)로 구분된다는 점이다. 즉, 세개의 큰 범주를 가지고 약 10,000개 정도의 용어들이 마치 트리 구조처럼 상하 관계(hierarchy)를 가지고 구성이 되어 있다. 이것을 이용하여 DNA 칩의 분석시 생물학적 의미를 찾기 위한 것으로, GO는 유전자의 기능을 크게 ⅰ) 분자의 기능(molecular function), ⅱ) 생물학적 작용(biological process), 및 ⅲ) 세포 성분(cellular component)의 범주로 나누고, 각각의 범주에 계층적인 통제 어휘(controlled vocabulary)를 확립하였다. 이들 범주는 서로 배타적인 것이 아니며, 한 개의 유전자를 묘사하기 위한 특징들을 나누는 범주이다.

전술한 문제점을 해결하기 위한 본 발명의 목적은 GO 계층 구조의 모델링을 통해 DNA 칩 실험의 유전자 발현 양상에 대해 체계적으로 생물학적 분석을 수행할 수 있도록 유전자 어휘 분류체계를 이용하여 DNA 칩을 분석하기 위한 시스템 및 분석 방법을 제공하기 위한 것이다.

또한, 본 발명의 다른 목적은 GO 용어와 트리 구조를 이용하여 DNA 칩의 실험 결과의 통계적인 클러스터링(clustering)을 통해 생성되는 클러스터(cluster)에 속하는 유전자들의 가장 공통적이며 이상적인 유전자의 기능을 추출하는 방법을 제공하기 위한 것이다.

도 1은 본 발명에 따른 유전자 어휘 분류체계(Gene Ontology)를 이용한 DNA 칩 분석 시스템의 구성도이다.

도 2는 본 발명에 따른 GO 트리 구조의 일례를 도시하는 도면이다.

도 3은 본 발명에 따라 텍스트 구조의 GO 트리를 변형한 일례를 예시하는 도면이다.

도 4는 본 발명에 따라 추출된 GO 코드의 변환 예를 보여주는 도면이다.

도 5는 본 발명에 따른 GO를 이용하여 최적 교차점을 찾는 원리를 개략적으로 설명하기 위한 도면이다.

도 6은 본 발명에 따른 유사거리를 측정하는 원리를 설명하기 위한 도면이다.

도 7은 본 발명에 따른 GO를 이용하여 DNA 칩을 분석하는 방법의 동작 흐름도이다.

상기한 목적을 달성하기 위한 수단으로서, 본 발명에 따른 유전자 어휘 분류체계를 이용하여 DNA 칩을 분석하기 위한 시스템은 a) 상기 DNA 칩실험 결과의 통계적 클러스터링 결과를 입력받아, 각 클러스터에 속하는 유전자들에 GO 식별자를 할당하는 수단; b) GO 코드 파일을 이용하여 상기 유전자에 할당된 GO 식별자를 각각 GO 코드로 변환하는 수단; c) 상기 GO 코드에 대해 유사거리 알고리즘에 따른 소정의 과정을 선택하여 필요한 변수를 지정하여 최적 교차점을 추출하는 수단; 및 d) 상기 추출된 각각의 최적 교차점에 대해 그 생물학적 의미를 추출하는 수단을포함하여 이루어지며, e) 유전자마다 각각 추출된 최적 교차점, 상기 GO 코드, 및 생물학적 의미를 디스플레이하기 위한 시각화 수단을 추가로 포함할 수 있다.

또한, 상기 시각화 수단은 상기 유전자별 GO 코드, 최적 교차점 및 생물학적 의미의 요약 정보를 테이블 형태로 디스플레이 하거나, 또는 트리 구조 형태의 그래픽 결과를 디스플레이 하는 것을 특징으로 한다.

또한, 상기 최적화 교차점은 GO 트리 구조의 각 레벨별로 적절한 가중치(weight)를 부여하는 것을 특징으로 한다.

또한, 상기 유사거리는, 유사거리를Pd(v1,v2), 여기서 v1 및 v2는 노드라고 할 때, 두 노드 v1, v2가 형성하는 최적 교차점(optimal branch)의 코드가 가지는 레벨의 가중치(weight)이며, v1과 v2가 동일한 경우에는 Pd값은 0으로 정의되고;

또한, 주어진 클러스터의 코드들의 조합을 G라고 할 때, 최대 유사거리(max_pd)와 평균 유사거리(aver_pd)를 이용하여 각각의 최적 교차점을 구해지는데, 이때 G={ v1, v2, v3, v4, , vn} 에서 max_pd와 aver_pd는,

max_pd(G) = max { pd(v_i, v_j) } (단, 1≤i ≤j ≤n)

aver_pd(G) = (집합 G의 모든 pd(v_i, v_j)의 합) /_nC₂

= 2 × (집합 G의 모든 pd(v_i, v_j)의 합) / n(n-1)

로 정의되며, 가능한 코드들의 조합중에서 가장 낮은 점수의 max_pd와 aver_pd를 최종적으로 선택하는 것을 특징으로 한다.

또한, 상기 최대 유사거리(max_pd)는 클러스터를 개략적으로 평가하는데 사용되며, 최적 교차점이 보다 높은 상위의 단계에 위치할수록, 해당 클러스터는 소속 유전자들의 일반적인 공통성을 해치는 부적당(bad)한 클러스터를 포함하고 있을 확률이 높다는 것을 의미하는 것을 특징으로 한다.

또한, 상기 평균 유사거리(aver_pd)는 주어진 클러스터 내에서 GO 코드들이 얼마나 잘 응집되어 있는지, 그리고 얼마나 비슷한 코드들이 얼마나 빈번히 관찰되는지를 나타내는 것을 특징으로 한다.

또한, 상기 최적 교차점 추출 수단의 소정의 과정은 ⅰ) 기본 과정, ⅱ) N-단계 선택 과정, 및 ⅲ) 백분율 선택 과정으로 이루어지며, 상기 최적 교차점 추출 수단은 상기 과정중 적절한 과정 및 필요한 변수들을 지정하여 최적 교차점을 추출하는 것을 특징으로 한다. 여기서, 상기 기본 과정은 GO 트리 구조상의 모든 노드들에 대하여 최대 유사거리(max_pd) 및 평균 유사거리(aver_pd)를 이용하여 계산하며, 상기 기본 과정의 결과는 주어진 클러스터의 대략적인 생물학적 의미를 보여주며, 상기 N-단계 선택 과정은 상기 최적 교차점의 각 단계를 미리 지정하여 계산하며, 특정 단계에서의 최적 교차점의 형성을 관찰하고, 하위 단계에서의 생물학적 의미를 유추하고, 상기 백분율 선택 과정은 상기 최적 교차점에 속하는 유전자의 비율을 미리 지정함으로써 사용자가 원하는 비율로 구성되는 모든 유전자 조합을 나타내는 것을 특징으로 한다. 상기 N-단계 선택 과정에서는 최상의 코드 조합 외에도 그 다음 순위의 그룹을 나타내어, 하나의 유전자가 두 개 이상의 기능에 관여할 수도 있는 다양성을 모두 포함할 수 있다.

또한, 본 발명에 따른 유전자 어휘 분류체계를 이용하여 DNA 칩을 분석하기 위한 분석 방법은, a) DNA 칩 실험 결과의 통계적 클러스터링 결과를 각 클러스터에 속하는 유전자들에 GO 식별자를 할당하는 단계; b) GO 코드 파일을 이용하여 상기 유전자마다 할당된 GO 식별자를 각각 GO 코드로 변환하는 단계; c) 상기 GO 코드에 대해 유사거리 알고리즘에 따른 소정의 과정을 선택하여 필요한 변수를 지정하여 최적 교차점을 추출하는 단계; 및 c) 상기 추출된 각각의 최적 교차점에 대해 그 생물학적 의미를 추출하는 단계를 포함하여 이루어지며, e) 유전자마다 각각 추출된 최적 교차점 및 상기 GO 코드를 디스플레이 하는 단계를 추가로 포함할 수 있다.

또한, 상기 최적 교차점 추출 단계에서 소정의 과정은 ⅰ) 기본 과정, ⅱ) N-단계 선택 과정, 및 ⅲ) 백분율 선택 과정으로 이루어지며, 상기 과정중 적절한 과정 및 필요한 변수들을 지정하여 최적 교차점을 추출하는 것을 특징으로 한다.

이하 첨부된 도면을 참조하여 본 발명에 따른 GO를 이용하여 DNA 칩을 분석하기 위한 시스템과 그 방법의 바람직한 실시예를 설명한다.

도 1은 본 발명에 따른 GO를 이용한 DNA 칩 분석 시스템의 구성도로서, 상기 DNA 칩 실험 결과의 통계적 클러스터링 결과를 입력하는 입력부(110); GO 식별자 인덱스 파일(120)을 이용하여, 상기 입력된 클러스터링 결과에 대해 각 클러스터에 속하는 유전자마다 GO 식별자를 할당하는 GO 식별자 할당부(130); GO 코드 파일을 이용하여 상기 유전자에 할당된 GO 식별자를 각각 GO 코드로 변환하는 GO식별자/GO 코드 변환부(140); 상기 GO 코드에 대해 유사거리 알고리즘(210)에 따른 소정의 과정을 선택하여 필요한 변수를 지정하여 최적 교차점을 추출하는 최적 교차점 추출부(220); 및 상기 추출된 각각의 최적 교차점에 대해 그 생물학적 의미를 추출하는 생물학적 의미 추출부(230)를 포함하여 이루어진다. 또한, 상기 유전자마다 각각 추출된 최적 교차점, 상기 GO 코드, 및 생물학적 의미를 디스플레이하기 위한 디스플레이(310)를 추가로 포함할 수 있다.

본 발명은 GO 용어와 트리 구조를 이용하여 DNA 칩의 실험결과의 통계적인 클러스터링을 통해 생성되는 클러스터에 속하는 유전자들의 가장 공통적이며 이상적인 유전자의 기능을 추출하게 된다.

이를 위해, 각각의 유전자에 대하여 정확한 GO 용어를 할당하고, 트리 구조형태의 GO hierarchy의 구조를 효율적으로 이용하여 최적 교차점을 추출하며, 그리고 최적 교차점 추출 결과를 효율적으로 디스플레이 하게 된다.

도 2는 본 발명에 따른 GO 구조의 일례를 도시하는 도면으로서, 최상위 레벨은 GO 계층, 두 번째 계층은 전술한 분자의 기능(molecular function), 생물학적 작용(biological process), 및 세포 성분(cellular component) 계층에 해당하며, 레벨 3, 4 및 5의 하위 레벨로 각각 트리가 형성되는 것을 도시하고 있다. 도 3은 본 발명에 따라 텍스트 구조의 GO 트리를 변형한 일례를 예시하는 도면으로서, 실질적으로, GO는 트리 구조가 아니고 회로가 없는 유향 그래프(acyclic diagraph)라는 수학적 그래프 형태를 띠게 되며, 본 발명에서 사용하는 유사 알고리즘을 통해GO 구조를 GO 트리 구조로 바꾸게 된다. 도 3은 이러한 텍스트 구조의 GO 트리를 약간 변형한 일례를 나타낸다. 또한, 도 4는 본 발명에 따라 추출된 GO 코드의 변환 예를 보여주는 도면으로서, 상기 GO 코드 변환부(140)에 의해 변환된 결과를 출력하는 것을 예시하고 있다.

먼저, 최적 교차점(optimal branch)이란 트리 구조상에서 가장 많은 수의 유전자들을 아래에 포함하는 노드(node)들 중에 가장 하위에 위치한 노드(node)를 말하며, 그 하위에 포함되는 유전자들의 각각의 기능을 모두 대표할 수 있는 광의의 용어(term)가 된다. 이 원리를 이용하여 주어진 클러스터에 속하는 유전자들을 먼저 GO 트리 구조상에 할당을 한 후 유사거리(pseudo-distance)라는 특화된 알고리즘을 이용하여 최적 교차점을 찾고, 이를 디스플레이 해준다.

각 유전자별로 정확한 GO 용어를 할당하는 것은, 여러 생물학 데이터베이스의 텍스트 마이닝을 통하여, 유전자별 GO 용어를 할당하게 된다. UniGene, LocusLink, Swiss-Prot, MGI 등의 DNA 혹은 단백질 수준에서의 정보를 직접적인 식별자(ID) 비교와 서열 유사성 검색 방법을 병행하여 사용하며, GO 컨소시엄에서 각 데이터베이스별로 제공되는 유전자 식별자(ID) 변환 파일들을 이용하여 각 유전자별 GO 용어를 할당한다.

여기서, UniGene은 NCBI는 NCBI(National Center for Biotechnology Information)에서 제공하는 DNA 수준에서의 유전자 정보 제공하고, LocusLink는 NCBI의 대표 서열 프로젝트(Reference Sequence Project)로 결과로 각 유전자별 기능 및 대표성을 가지는 서열 정보를 제공하며, Swiss-Prot은 스위스 생물정보학 연구소(Swiss Institute of Bioinformatic)에서 단백질 수준의 정보 제공하며, 그리고 MGI는 쥐(mouse)의 유전체 정보를 제공한다.

본 발명에서는 GO 트리 구조를 효율적으로 이용하여 최적 교차점(optimal branch)을 구하고 그것을 이용하여 주어진 클러스터를 대표할 수 있는 GO 용어를 찾게 된다. 이를 해결하기 위하여 먼저 GO 트리 구조상의 각 노드(node)들을 코드화하였다. 이 코드들은 도 4에 예시된 바와 같이 15개의 숫자 조합으로 구성되었으며, 각각의 숫자는 상위 루트까지의 단계별 위치 정보를 나타낸다. 또한, 각 노드별로 유일한 코드들이 부여됨에 따라서, 동일한 용어(term)들이 트리 구조상에서 여러 곳에 위치하게 되는 경우라도 각각 구분된다.

이들 GO 코드들을 이용하여 최적 교차점을 찾는 방법으로 GO 트리 구조의 각 레벨별로 적절한 비중(weight), 및 유사거리(pseudo-distance)라는 개념을 새롭게 정의된다. 도 6은 본 발명에 따른 유사거리를 측정하는 원리를 설명하기 위한 도면으로서, 유사거리(Pd)는 다음과 같이 정의된다.

Pd(v1,v2)는 두 노드 v1, v2가 형성하는 최적 교차점(optimal branch)의 코드가 가지는 레벨의 가중치(weight)이며, v1과 v2가 동일한 경우에는 Pd값은 0으로 정의된다. 즉,

pd(v1,v2) = v1 및 v2 사이의 최적 교차점 코드의 가중치(단 v1≠v2인 경우)

pd(v1,v2) = 0 (v1 = v2인 경우)

를 가지는 조합을 최종적으로 선택한다.

다음에, 주어진 클러스터(cluster)의 코드들의 조합을 G라고 할 때, 최대 유사거리인 Pd(max_Pd)와 평균 유사거리인 Pd(aver_Pd)를 이용하여 각각의 최적 교차점을 구한다.

G={ v1, v2, v3, v4, , vn} 에서 max_Pd와 aver_Pd는 아래와 같이 정의되며, 가능한 코드들의 조합중에서 가장 낮은 점수의 max_pd와 aver_pd는 다음과 같다.

max_Pd(G) = max { pd(v_i, v_j) } with 1≤i≤ j ≤n

aver_Pd(G) = (sum of all pd(v_i, v_j) in set G) /_nC₂

= 2 * (sum of all pd(v_i,v_j) in set G) / n(n-1)

여기서, max_pd는 클러스터를 개략적으로 평가하는 사용될 수 있는 척도이다. 만약 최적 교차점이 보다 높은 상위의 단계에 위치할수록, 해당 클러스터는 소속 유전자들의 일반적인 공통성을 해치는 부적당(bad)한 클러스터를 포함하고 있을 가능성이 높게 된다.

상기 Aver_pd는 주어진 클러스터 내에서 GO 코드들이 얼마나 잘 응집되어 있는지 그리고 얼마나 비슷한 코드들이 얼마나 빈번히 관찰되는지를 나타낼 수 있다.

한편, 실제 유사거리 개념을 적용하는데 있어서 크게 기본 과정(BasicProcess), N-단계 선택 과정(N-level selective process), 백분율 선택 과정( Percentage selective process)이라는 세 가지 방법이 있다.

상기 기본 과정은 GO 트리 구조상의 모든 노드들에 대하여 max_pd 및 aver_pd를 이용하여 계산한다. 이 기본 과정의 결과는 주어진 클러스터의 대략적인 생물학적 의미를 보여주는 기능을 한다.

또한, 상기 N-단계 선택 과정 및 백분율 선택 과정은 사용자가 일정 제한점을 지정할 수 있는 것이다. 여기서 N-단계 선택 과정은 최적 교차점의 단계를 미리 지정하여 계산하는 것으로, 특정 단계에서의 최적 교차점의 형성을 쉽게 관찰할 수 있으며, 기본과정에서는 알기 힘든 하위 단계에서의 생물학적 의미를 쉽게 유추해 볼 수 있도록 해준다. 특히, N-단계 선택 과정에서는 최상의 코드 조합 이외에도 그 다음 순위의 그룹을 나타낼 수 있다. 이것은 하나의 유전자가 두 개 이상의 기능에 관여할 수도 있는 다양성을 모두 포함할 수 있도록 해준다.

또한, 백분율 선택 과정은 최적 교차점에 속하는 유전자의 비율을 미리 지정함으로써 사용자가 원하는 비율로 구성되는 모든 유전자 조합을 찾아 볼 수 있으며, N-level 선택 과정과 마찬가지로 유전자의 기능적 다양성을 최대한 나타낼 수 있다.

도 7은 본 발명에 따른 GO를 이용하여 DNA 칩을 분석하는 방법의 동작 흐름도로서, DNA 칩을 분석하기 위한 방법에 있어서, 상기 DNA 칩 실험 결과의 통계적 클러스터링(clustering) 결과를 입력받아(S10), 각 클러스터에 속하는 유전자마다 Gene Ontology(GO) 식별자(identifier)를 할당하는 단계(S20); GO 코드 파일을 이용하여 상기 유전자마다 할당된 GO 식별자를 각각 GO 코드로 변환하는 단계(S30); 상기 GO 코드에 대해 유사거리 알고리즘(S40)에 따른 기본 과정(S41), N-단계 선택 과정(S42), 및 백분율 선택 과정(S43) 중에서 소정의 과정을 선택하고 필요한 변수를 지정하여 최적 교차점을 추출하는 단계(S50); 상기 추출된 각각의 최적 교차점에 대해 그 생물학적 의미를 추출하는 단계(S60); 및 유전자마다 각각 추출된 최적 교차점 및 상기 GO 코드를 디스플레이 하는 단계(S70)로 이루어진다.

도 1 및 도 7을 참조하여, 본 발명에 따라 GO 구조를 이용한 DNA 칩의 유전자 발현 양상의 생물학적 분석의 전체적인 구성은 크게 세 가지 부분(100, 200, 300)으로 구성되며, 그 세부적인 동작은 도 7을 참조하여 설명한다.

먼저, 유전자 발현 양상의 통계적 클러스터링을 통한 결과에서 각 클러스터에 속하는 유전자별로 GO 식별자 및 코드를 할당하는 과정을 수행하게 된다.

구체적으로, 클러스터링 결과를 입력(S10)하면, 각 유전자별로 GO ID를 여러 데이터베이스의 마이닝(mining)을 통한 미리 GO ID들을 할당해 놓은 파일을 이용하여, 클러스터내의 유전자들에 GO 식별자를 할당하게 된다(S20). 다음에, GO 트리 구조 전체를 코드화 시켜놓은 GO 코드 파일을 이용하여, 클러스터별 유전자 내에 할당된 GO ID들을 GO 코드로 변환하게 된다(S30).

다음에 유사 알고리즘을 이용하여, 기본 과정(S41), N-단계 선택 과정(S42), 및 백분율 선택 과정(S43) 중 적절한 과정을 선택하고(S40), 필요한 변수를 지정하게 된다. 이후, 각 과정별 Pd를 이용하여 최적 교차점을 추출하며(S50), 이에 따른 생물학적 의미를 각각 추출하게 된다.

다음에, 각 클러스터별 유전자마다 추출된 최적 교차점 및 GO 코드를 디스플레이 하게 되는데, 테이블 형태의 각 유전자별 GO 코드 및 최적 교차점 및 상기 생물학적 의미의 요약 정보, 또는 트리 구조 형태의 그래픽 결과를 디스플레이 할 수 있다.

한편, 상기 유사 알고리즘은 다른 바이오 칩인 단백질 칩에도 동일하게 적용될 수 있으며, 도 1 및 도 7과 DNA 칩 대신에 단백질 칩을 분석하게 되고, 그리고 동일한 방식으로 유사거리 알고리즘을 사용하여 유전자 대신 단백질에 대해서도 마찬가지로 적용할 수 있다.

본 발명을 상기 실시예에 의해 구체적으로 설명하였지만, 본 발명은 이에 의해 제한되는 것은 아니고, 당업자의 통상적인 지식의 범위 내에서 그 변형이나 개량이 가능하다.

본 발명에 따르면, GO 계층 구조의 모델링을 통해 DNA 칩 실험의 유전자 발현 양상에 대해 체계적으로 자동화된 생물학적 분석을 수행할 수 있고, 또한 GO 용어와 트리 구조를 이용하여 DNA 칩의 실험 결과의 통계적인 클러스터링을 통해 생성되는 클러스터에 속하는 유전자들의 가장 공통적이며 이상적인 유전자의 기능을 추출할 수 있다.

Claims

DNA 칩을 분석하기 위한 시스템에 있어서,

a) 상기 DNA 칩 실험 결과의 통계적 클러스터링(clustering) 결과를 입력받아, 각 클러스터에 속하는 유전자들마다 Gene Ontology(GO) 식별자(identifier)를 할당하는 수단;

b) GO 코드 파일을 이용하여 상기 유전자에 할당된 GO 식별자를 각각 GO 코드로 변환하는 수단;

c) 상기 GO 코드에 대해 유사거리 알고리즘에 따른 소정의 과정을 선택하여 필요한 변수를 지정하여 최적 교차점을 추출하는 수단; 및

d) 상기 추출된 각각의 최적 교차점에 대해 그 생물학적 의미를 추출하는 수단

을 포함하는 유전자 어휘 분류체계(GO)를 이용한 DNA 칩 분석 시스템.
제1항에 있어서,

e) 상기 유전자마다 각각 추출된 최적 교차점, 상기 GO 코드, 및 생물학적 의미를 디스플레이하기 위한 시각화 수단을 추가로 포함하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 시스템.
제2항에 있어서,

상기 시각화 수단은 상기 유전자별 GO 코드, 최적 교차점 및 생물학적 의미의 요약 정보를 테이블 형태로 디스플레이 하거나, 또는 트리 구조 형태의 그래픽 결과를 디스플레이 하는 것을 특징으로 하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 시스템.
제1항에 있어서,

상기 최적화 교차점은 GO 트리 구조의 각 레벨별로 적절한 가중치(weight)를 부여하는 것을 특징으로 하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 시스템.
제1항에 있어서,

상기 유사거리는,

유사거리를Pd(v1,v2), 여기서 v1 및 v2는 노드라고 할 때, 두 노드 v1, v2가 형성하는 최적 교차점(optimal branch)의 코드가 가지는 레벨의 가중치(weight)이며, v1과 v2가 동일한 경우에는 Pd값은 0으로 정의되고;

또한, 주어진 클러스터의 코드들의 조합을 G라고 할 때, 최대 유사거리(max_pd)와 평균 유사거리(aver_pd)를 이용하여 각각의 최적 교차점을 구해지는데, 이때 G={ v1, v2, v3, v4, , vn} 에서 max_pd와 aver_pd는,

max_pd(G) = max { pd(v_i, v_j) } (단, 1≤i ≤j ≤n)

aver_pd(G) = (집합 G의 모든 pd(v_i, v_j)의 합) /_nC₂

= 2 × (집합 G의 모든 pd(v_i, v_j)의 합) / n(n-1)

로 정의되며, 가능한 코드들의 조합중에서 가장 낮은 점수의 max_pd와 aver_pd를 최종적으로 선택하는 것을 특징으로 하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 시스템.
제5항에 있어서,

상기 최대 유사거리(max_pd)는 클러스터를 개략적으로 평가하는데 사용되며, 최적 교차점이 보다 높은 상위의 단계에 위치할수록, 해당 클러스터는 소속 유전자들의 일반적인 공통성을 해치는 부적당(bad)한 클러스터를 포함하고 있을 확률이 높다는 것을 의미하는 것을 특징으로 하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 시스템.
제5항에 있어서,

상기 평균 유사거리(aver_pd)는 주어진 클러스터 내에서 GO 코드들이 얼마나잘 응집되어 있는지, 그리고 얼마나 비슷한 코드들이 얼마나 빈번히 관찰되는지를 나타내는 것을 특징으로 하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 시스템.
제1항에 있어서,

상기 최적 교차점 추출 수단의 소정의 과정은 ⅰ) 기본 과정, ⅱ) N-단계 선택 과정, 및 ⅲ) 백분율 선택 과정으로 이루어지며, 상기 최적 교차점 추출 수단은 상기 과정중 적절한 과정 및 필요한 변수들을 지정하여 최적 교차점을 추출하는 것을 특징으로 하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 시스템.
제8항에 있어서,

상기 기본 과정은 GO 트리 구조상의 모든 노드들에 대하여 최대 유사거리(max_pd) 및 평균 유사거리(aver_pd)를 이용하여 계산하며, 상기 기본 과정의 결과는 주어진 클러스터의 대략적인 생물학적 의미를 보여주는 것을 특징으로 하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 시스템.
제8항에 있어서,

상기 N-단계 선택 과정은 상기 최적 교차점의 각 단계를 미리 지정하여 계산하며, 특정 단계에서의 최적 교차점의 형성을 관찰하고, 하위 단계에서의 생물학적 의미를 유추하는 것을 특징으로 하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 시스템.
제10항에 있어서,

상기 N-단계 선택 과정에서는 최상의 코드 조합 외에도 그 다음 순위의 그룹을 나타내어, 하나의 유전자가 두 개 이상의 기능에 관여할 수도 있는 다양성을 모두 포함하도록 하는 것을 특징으로 하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 시스템.
제8항에 있어서,

상기 백분율 선택 과정은 상기 최적 교차점에 속하는 유전자의 비율을 미리 지정함으로써 사용자가 원하는 비율로 구성되는 모든 유전자 조합을 나타내는 것을 특징으로 하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 시스템.
DNA 칩을 분석하기 위한 방법에 있어서,

a) 상기 DNA 칩 실험 결과의 통계적 클러스터링 결과를 각 클러스터마다 GO식별자를 할당하는 단계;

b) GO 코드 파일을 이용하여 상기 유전자마다 할당된 GO 식별자를 각각 GO 코드로 변환하는 단계;

b) 상기 GO 코드에 대해 유사거리 알고리즘에 따른 소정의 과정을 선택하여 필요한 변수를 지정하여 최적 교차점을 추출하는 단계; 및

d) 상기 추출된 각각의 최적 교차점에 대해 그 생물학적 의미를 추출하는 단계

를 포함하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 방법.
제13항에 있어서,

e) 상기 유전자마다 각각 추출된 최적 교차점 및 상기 GO 코드를 디스플레이하는 단계를 추가로 포함하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 방법.
제13항에 있어서,

상기 유사거리는,

유사거리를Pd(v1,v2), 여기서 v1 및 v2는 노드라고 할 때, 두 노드 v1, v2가 형성하는 최적 교차점(optimal branch)의 코드가 가지는 레벨의 가중치(weight)이며, v1과 v2가 동일한 경우에는 Pd값은 0으로 정의되고;

또한, 주어진 클러스터의 코드들의 조합을 G라고 할 때, 최대 유사거리(max_pd)와 평균 유사거리(aver_pd)를 이용하여 각각의 최적 교차점을 구해지는데, 이때 G={ v1, v2, v3, v4, , vn} 에서 max_pd와 aver_pd는,

max_pd(G) = max { pd(v_i, v_j) } (단, 1≤i ≤j ≤n)

aver_pd(G) = (집합 G의 모든 pd(v_i, v_j)의 합) /_nC₂

= 2 × (집합 G의 모든 pd(v_i, v_j)의 합) / n(n-1)

로 정의되며, 가능한 코드들의 조합중에서 가장 낮은 점수의 max_pd와 aver_pd를 최종적으로 선택하는 것을 특징으로 하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 방법.
제15항에 있어서,

상기 최대 유사거리(max_pd)는 클러스터를 개략적으로 평가하는데 사용되며, 최적 교차점이 보다 높은 상위의 단계에 위치할수록, 해당 클러스터는 소속 유전자들의 일반적인 공통성을 해치는 부적당(bad)한 클러스터를 포함하고 있을 확률이 높다는 것을 의미하는 것을 특징으로 하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 방법.
제15항에 있어서,

상기 평균 유사거리(aver_pd)는 주어진 클러스터 내에서 GO 코드들이 얼마나 잘 응집되어 있는지, 그리고 얼마나 비슷한 코드들이 얼마나 빈번히 관찰되는지를 나타내는 것을 특징으로 하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 방법
제13항에 있어서,

상기 최적 교차점 추출 단계의 소정의 과정은 ⅰ) 기본 과정, ⅱ) N-단계 선택 과정, 및 ⅲ) 백분율 선택 과정으로 이루어지며, 상기 과정중 적절한 과정 및 필요한 변수들을 지정하여 최적 교차점을 추출하는 것을 특징으로 하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 방법.