KR100650203B1

KR100650203B1 - 유전체 서열 분석 및 데이터 관리 시스템 및 그 방법

Info

Publication number: KR100650203B1
Application number: KR1020020078715A
Authority: KR
Inventors: 인용호; 이근우; 이기용; 전지훈; 채수진
Original assignee: 주식회사 씨티앤디
Priority date: 2002-12-11
Filing date: 2002-12-11
Publication date: 2006-11-27
Also published as: KR20040051748A

Abstract

본 발명은 미생물 유전체 서열을 분석하고 분석 결과를 데이터베이스로 구축하는 일련의 과정을 자동으로 실행하는 유전체 서열 분석 및 데이터 관리 시스템 및 그 방법에 관한 것으로, 상기 시스템은 실험에 의해 얻어진 유전체 서열분석결과가 저장되는 제 1 데이터베이스; 검증된 다량의 유전자 서열 관련 데이터가 저장된 제 2 데이터베이스; 사용자로부터 사용자 정보, 유전체 서열 정보, 및 검색 단서 중 어느 하나를 받아들이는 인터페이스; 상기 유전체 서열 정보 및 상기 제 2 데이터베이스에 저장되어 있는 데이터를 근거로 하여 해당 유전체에 대한 유전체 서열 분석을 수행하는 서열 분석부; 상기 검색 단서에 응답해서 상기 제 1 데이터베이스에 저장되어 있는 데이터에 대한 검색을 수행하고, 검색 결과에 대한 상세 정보를 상기 제 2 데이터베이스로부터 추출하는 유전자 검색부; 및 상기 사용자 정보에 응답해서 상기 제 1 데이터베이스에 대한 사용자 접근 권한을 제한하고, 상기 유전체 서열 정보, 상기 서열분석결과 및 상기 검색 결과에 응답해서, 상기 제 1 데이터베이스 및 상기 제 2 데이터베이스의 데이터 입출력을 관리하는 데이터 관리부를 포함한다.

Description

유전체 서열 분석 및 데이터 관리 시스템 및 그 방법{Apparatus and method for performing genome sequence analysis and data management}

도 1은 본 발명의 바람직한 실시예에 따른 유전체 서열 분석 및 데이터관리 시스템의 전체 구성을 보여주는 블록도이다.

도 2는 도 1에 도시된 유전체 서열 분석 및 데이터관리 시스템에서 수행되는 기능을 개략적으로 보여주는 도면이다.

도 3은 도 2에 도시된 서열 입력 기능을 수행하기 위한 서열 입력 초기 화면을 보여주는 도면이다.

도 4는 도 2에 도시된 유전체 서열 분석 기능이 수행되고 있는 상태를 보여주는 도면이다.

도 5는 도 2에 도시된 유전자 예측 기능의 수행 결과 얻어진 유전자 위치 정보 및 그에 해당되는 각각의 기능을 보여주는 도면이다.

도 6 내지 도 8은 도 2에 도시된 유사성 검색 기능의 수행 과정 및 그 결과를 보여주는 도면이다.

도 9는 도 2에 도시된 도메인 검색 기능의 수행 결과를 보여주는 도면이다.

도 10 내지 도 12는 도 2에 도시된 기능별 검색 기능, 경로별 검색 기능, 및 키워드 검색 기능에 의해 얻어진 검색 결과를 각각 보여주는 도면이다.

도 13 및 도 14는 도 2에 도시된 데이터 관리 기능을 수행하기 위해 필요로 하는, 각 데이터베이스별 사용자 권한의 구성 예를 보여주는 도면이다.

도 15는 도 1에 도시된 레퍼런스 서열 데이터베이스 및 서열분석결과 데이터베이스에 저장되는 정보 및 상기 정보들간의 관계를 보여주는 도면이다.

도 16은 도 1에 도시된 서열 분석부에서 수행되는 서열 분석 방법을 보여주는 흐름도이다.

도 17은 도 1에 도시된 유전자 검색부에서 수행되는 유전자 검색 방법을 보여주는 흐름도이다.

< 도면의 주요 부분에 대한 부호의 설명 >

10 : 클라이언트 20 : 서버

21 : 레퍼런스 서열 DB 22 : 서열분석결과 DB

23 : 서열 입력부 24 : 서열 분석부

25 : 유전자 검색부 26 : 인터페이스

27 : 데이터 관리부 28 : 사용자 관리부

본 발명은 유전체 분석 시스템에 관한 것으로, 미생물 유전체 서열을 분석하고 분석 결과를 데이터베이스로 구축하는 일련의 과정을 자동으로 실행하는 시스템 및 방법에 관한 것이다.

유전체(Genome)는 유전자(Gene)와 옴(Ome ; 전체)의 합성어로서, 생물체 내의 모든 유전자의 총체를 일컫는다. 일반적으로, 원핵 생물의 세포는 복잡한 구조의 유전자를 가지고 있는 반면, 진핵 생물은 다세포 생물에 비해 비교적 단순한 구조의 유전자를 가지고 있다. 따라서, 진핵 생물에 대해서는 지금까지 많은 연구가 수행되어 왔고, 그것의 유전자를 예측하거나 기능을 확인하기가 비교적 용이하였다.

기능 유전체학(또는, 유전체 기능 분석학 ; functional genomics)은 유전체 내에서 유전자들의 위치 및 기능(function)을 확인하고, 경로(pathway)를 규명하는 것을 말한다. 현재 수행되고 있는 기능 유전체학 연구는 크게 두 가지 기술로 구분될 수 있다. 첫 번째 기술은, 유전체 내에서 유전자의 위치를 확인하는 기술이다. 앞에서 기술한 바와 같이 원핵 생물의 경우 유전자의 구조가 비교적 간단하고, 이미 오래 전부터 이에 대한 연구가 수행되어왔기 때문에, 원핵 생물 유전자를 예측하는 프로그램은 현재 많이 개발되어 있다. 그 중에서도 Glimmer(Gene Locator and Interpolated Markov Modeler) 2.02는, 은닉 마코프 모델(Hidden Markov model)을 이용하여 원핵 생물의 유전자를 가장 정확히 예측하는 것으로 알려져 있다. 두 번째 기술은, 확인된 유전자의 기능 및 경로를 분석하는 기술이다. 현재 유전자의 기능을 확인하는 방법으로는 유사성 검색을 통한 방법이 이용되고 있으며, 블러스트(BLAST) 검색을 통한 방법이 가장 널리 이용되고 있다. 이 방법은 비교 대상이 되는 서열(sequence)과 레퍼런스 데이터 베이스간의 유사성 검색을 통하여 기존에 연구되어진 서열과 대상 서열간의 유사성을 밝히는 방법으로서, 두 서열간의 유사성 검색을 매우 효율적으로 실행하고 있으며, 비교의 대상이 되는 데이터베이스를 바꿔가며 대량으로 비교를 수행할 수 있다.

그러나, 이와 같은 유전자 예측 및 서열 유사성 검색 프로그램과, 데이터 분석에 사용되는 데이터베이스들은 서로 분리되어 제공되고 있기 때문에, 유전자 예측, 기능 분석, 경로 확인, 데이터의 저장 및 검색 기능이 각각 개별적으로 수행될 수밖에 없는 한계가 있다. 따라서, 미생물 서열분석의 자동화와 사용자의 이용에 어려움이 있다.

본 발명이 이루고자 하는 기술적 과제는, 기존에 제공되고 있는 미생물 유전자 예측 및 서열 유사성 검색 프로그램과, 기존의 데이터베이스를 통합하여, 유전자 예측에 소요되는 시간과, 서열 유사성 검색을 통한 기능 및 경로 분석에 소요되는 시간을 효율적으로 줄일 수 있는 유전체 서열 분석 및 데이터베이스 관리시스템과, 그 방법을 제공하는데 있다.

본 발명이 이루고자 하는 다른 기술적 과제는, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 있다.

상기의 과제를 이루기 위하여 본 발명에 의한 유전체 서열 분석 및 데이터 관리 시스템은, 실험에 의해 얻어진 유전체 서열분석결과가 저장되는 제 1 데이터베이스; 검증된 다량의 유전자 서열 관련 데이터가 저장된 제 2 데이터베이스; 사 용자로부터 사용자 정보, 유전체 서열 정보, 및 검색 단서 중 어느 하나를 받아들이는 인터페이스; 상기 유전체 서열 정보 및 상기 제 2 데이터베이스에 저장되어 있는 데이터를 근거로 하여 해당 유전체에 대한 유전체 서열 분석을 수행하는 서열 분석부; 상기 검색 단서에 응답해서 상기 제 1 데이터베이스에 저장되어 있는 데이터에 대한 검색을 수행하고, 검색 결과에 대한 상세 정보를 상기 제 2 데이터베이스로부터 추출하는 유전자 검색부; 및 상기 사용자 정보에 응답해서 상기 제 1 데이터베이스에 대한 사용자 접근 권한을 제한하고, 상기 유전체 서열 정보, 상기 서열분석결과 및 상기 검색 결과에 응답해서, 상기 제 1 데이터베이스 및 상기 제 2 데이터베이스의 데이터 입출력을 관리하는 데이터 관리부를 포함하는 것을 특징으로 한다.

상기의 과제를 이루기 위하여 본 발명에 의한 유전체 서열 분석 및 데이터 관리 방법은, (a) 사용자로부터 사용자 정보, 유전체 서열 정보, 및 검색 단서 중 어느 하나를 받아들이는 단계; (b) 상기 유전체 서열 정보 및 검증된 다량의 유전자 서열 관련 데이터가 저장되어 있는 제 2 데이터베이스의 데이터를 근거로 하여 해당 유전체에 대한 유전체 서열 분석을 수행하는 단계; (c) 상기 사용자 정보에 응답해서, 실험에 의해 얻어진 유전체 서열분석결과가 저장되는 제 1 데이터베이스에 대한 사용자 접근 권한을 판별하고, 해당 사용자가 상기 제 1 데이터베이스에 접근 가능한 경우 상기 서열분석결과를 제 1 데이터베이스에 저장하는 단계; 및 (d) 상기 검색 단서에 응답해서 상기 제 1 데이터베이스에 저장되어 있는 데이터에 대한 검색을 수행하고, 상기 검색 결과에 대한 상세 정보를 상기 제 2 데이터베이 스로부터 추출하는 단계를 포함하는 것을 특징으로 한다.

상기의 과제를 이루기 위하여 본 발명에 의한 유전체 서열 분석 방법은, (a) 사용자로부터 유전체 서열 정보를 받아들이는 단계; (b) 상기 유전체 서열 정보로부터 유전자 부분을 예측하는 단계; (c) 검증된 다량의 유전자 서열 관련 데이터가 저장되어 있는 제 1 데이터베이스로부터 상기 유전자 부분으로 예측된 부분과 서열이 유사한 유전자들을 검색하는 단계; (d) 상기 제 1 데이터베이스로부터 상기 유전자에 대한 도메인 검색을 수행하는 단계; (e) 상기 (c) 및 (d) 단계에서 수행된 검색 결과, 상기 유전자가 일정 수준 이상의 유사성이 있는 경우, 상기 제 1 데이터베이스로부터 상기 유전자에 대한 상세 정보를 추출하는 단계; 및 (f) 상기 (e) 단계에서 추출된 결과를 유전체 분석 결과로서 제 2 데이터베이스에 저장하는 단계를 포함하는 것을 특징으로 한다.

상기의 과제를 이루기 위하여 본 발명에 의한 유전자 검색 방법은, (a) 사용자에 의해서 기능별, 경로별, 또는 키워드 검색 중 어느 하나의 검색 방식이 선택되는 단계; (b) 상기 (a) 단계에서 기능별 검색이 선택된 경우, 실험에 의해 얻어진 유전체 서열분석결과가 저장된 제 1 데이터베이스로부터, 복수 개의 기능 카테고리들 중 임의의 기능 카테고리에 대한 유전자 검색이 수행되는 단계; (c) 상기 (a) 단계에서 경로별 검색이 선택된 경우, 상기 제 1 데이터베이스로부터, 복수 개의 경로 카테고리들 중 임의의 경로 카테고리에 대한 유전자 검색이 수행되는 단계; (d) 상기 (a) 단계에서 키워드 검색이 선택된 경우, 상기 제 1 데이터베이스로부터, 사용자로부터 입력된 상기 키워드에 대한 유전자 검색이 수행되는 단계; (e) 상기 (b), (c) 및 (d) 단계에서 수행된 상기 검색 결과를 디스플레이 하는 단계; 및 (f) 상기 (e) 단계에서 디스플레이 되는 검색 결과 중 임의의 유전자가 선택되는 경우, 검증된 다량의 유전자 서열 관련 데이터가 저장된 제 2 데이터베이스로부터 상기 유전자에 대한 상세 정보가 검색되어 디스플레이 되는 단계를 포함하는 것을 특징으로 한다.

이하에서, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.

도 1은 본 발명의 바람직한 실시예에 따른 유전체 서열 분석 및 데이터관리 시스템(100)의 전체 구성을 보여주는 블록도이다. 도 1을 참조하면, 본 발명에 따른 유전체 서열 분석 및 데이터관리 시스템(100)은, 네트워크(1)에 연결된 적어도 하나 이상의 클라이언트(10)와, 네트워크(1)를 통해 클라이언트(10)에게 유전체 서열 분석 서비스 및 데이터 관리 서비스를 제공하는 유전체 서열 분석 및 데이터관리 서버(20)를 포함한다.

서버(20)는 레퍼런스 서열 데이터베이스(21), 서열분석결과 데이터베이스(22), 서열 입력부(23), 서열 분석부(24), 유전자 검색부(25), 인터페이스(26), 및 데이터관리부(27)를 포함한다.

레퍼런스 서열 데이터베이스(21)는, 검증된 다량의 유전자 서열 관련 데이터가 저장된 유전자 서열 데이터베이스로서, 유전자 서열 정보, 유전자 기능(function) 관련 정보, 유전자 경로(pathway) 관련 정보, 도메인(domain) 관련 정보, 등 유전자와 관련된 다양한 정보들이 저장된다. 그리고, 서열분석결과 데이 터베이스(22)는, 실험에 의해 얻어진 유전체 서열분석결과가 저장되는 데이터베이스이다. 이 같은 서열분석결과 데이터베이스(22)는 분석 대상 등에 따라서, 각기 다른 이름으로 저장된 복수 개의 데이터베이스가 구성될 수 있다.

인터페이스(26)는 클라이언트(10)로부터 사용자 정보와 유전체 서열 정보를 받아들여 이를 각 요구 블록들에게 전달하고, 유전체 서열 분석 및 데이터 관리 서버(20)에서 수행된 유전체 서열분석결과 및 유전자 검색 결과를 해당 클라이언트(10)에게 전달한다.

서열 입력부(23)는 사용자가 인터페이스(26)를 통해 유전체 서열 정보를 입력하게 되면, 상기 유전체 서열 정보를 일정한 형식(fasta 형식)으로 변환하여 서열 분석부(24)로 전달한다. 그리고, 상기 유전체 서열 정보를 데이터 관리부(27)에 등록함으로써, 사용자가 원하는 이름으로 서열분석결과 데이터베이스(22)가 생성되도록 한다.

서열 분석부(24)는 Glimmer 2.02와 EMBOSS(European Molecular Biology Open Software Suite) 프로그램을 이용하여 서열 입력부(23)로부터 입력된 유전체 내의 유전자 부분을 예측하고, 유전자로 예측된 부분에 대해 유사성 검색을 수행하여 해당 유전자의 기능 및 경로를 분석한다. 그리고, 유사성 검색 종료 후에는 HMMER(hidden Markov model software)을 이용하여 유전자 부분 중 도메인에 해당되는 부분을 검색하게 된다. 이러한 일련의 분석과정이 끝나면 분석결과는 서열분석결과 데이터베이스(22)에 자동으로 저장되어, 사용자가 원하는 유전자를 검색할 수 있도록 한다.

유전자 검색부(25)는, 사용자로부터 기능별, 경로별, 키워드별 검색 단서를 받아들여 서열분석결과 데이터베이스(22)에 저장되어 있는 데이터에 대해 기능별, 경로별, 또는 키워드별 검색을 수행한다. 예를 들어, 사용자로부터 소정의 검색 단서가 입력되면, 유전자 검색부(25)는 상기 검색 단서에 응답해서 서열분석결과 데이터베이스(22)로부터 소정의 유전자 데이터를 검색하고, 검색된 유전자에 대해 레퍼런스 서열 데이터베이스(21)로부터 상세 정보를 추출해 낸다.

데이터 관리부(27)에는 사용자 관리부(28)가 구비되어 있어, 인터페이스(26)를 통해 입력되는 사용자 정보에 응답해서 서열분석결과 데이터베이스(22)에 대한 사용자 접근 권한을 제한한다. 그리고, 서열분석부(24)로부터 입력되는 유전자 서열분석결과 및 유전자 검색부(25)로부터 입력되는 검색 결과에 응답해서, 레퍼런스 서열 데이터베이스(21) 및 서열분석결과 데이터베이스(22)의 데이터 입출력을 관리한다.

이와 같은 구성을 가지는 상기 시스템(100)은, 클라이언트/서버 방식의 시스템이기 때문에 클라이언트(10) 부분에서 수행되는 프로그램에 서버(20)관련 정보를 입력해야만 클라이언트/서버간의 통신이 원활하게 이루어지게 된다. 이를 위해 클라이언트(10)측에서 입력해야 하는 기본적인 서버(20)측 정보로는 서버 IP 주소(internet protocol address)와 포트 번호 등이 있다.

도 2는 도 1에 도시된 유전체 서열 분석 및 데이터관리 시스템(100)에서 수행되는 기능을 개략적으로 보여주는 도면이다. 도 1 및 도 2를 참조하면, 본 발명에 따른 유전체 서열 분석 및 데이터 관리 시스템(100)에서 수행되는 유전체 서열 분석 및 데이터 관리 기능(200)은, 크게 서열 입력 기능(230), 유전체 서열 분석 기능(240), 유전자 검색 기능(250), 및 데이터 관리 기능(270)으로 구분된다.

서열 입력부(23)에서 수행되는 서열 입력 기능(230)은, 사용자가 인터페이스(26)를 통해 유전체 서열 정보를 입력하게 되면, 상기 유전체 서열 정보를 소정의 형식으로 변환하고, 이를 각 요구 블록에게 제공하는 기능을 제공한다.

도 3은 도 2에 도시된 서열 입력 기능(230)을 수행하기 위한 서열 입력 초기 화면을 보여주는 도면이다. 도 3을 참조하면, 사용자는 유전체 서열 분석 및 데이터관리 시스템(100)에서 분석하고자 하는 유전체 서열 정보를 입력하기 위해, 우선 상기 서버(20)에 구비되어 있는 복수 개의 서열분석결과 데이터베이스들 중 어느 하나를 선택하고, 분석될 유전체 서열 데이터를 입력하게 된다. 이와 같이 입력되는 유전체 서열 정보에 의해서 유전체 서열 분석 기능(240) 및 유전자 검색 기능(250)이 수행된다.

다시 도 1 및 도 2를 참조하면, 서열 분석부(24)에서 수행되는 유전체 서열 분석 기능(240)은, 유전자 예측 기능(242), 유사성 검색 기능(244), 및 도메인 검색 기능(246)으로 세분화된다. 서열 분석부(24)에서 수행되는 유전체 서열 분석 기능에 대한 상세 내용은 다음과 같다.

도 4는 도 2에 도시된 유전체 서열 분석 기능(240)이 수행되고 있는 상태를 보여주는 도면이다. 도 4를 참조하면, 사용자가 서열분석결과 데이터베이스 이름과 유전체 서열 데이터를 입력시킨 후 실행 단추를 누르게 되면, 유전체 서열분석에 대한 모든 과정(즉, 유전자 예측, 유사성 검색, 및 도메인 검색)이 서버(20)에서 자동으로 수행된다. 이 경우, 사용자가 클라이언트측 프로그램을 종료시키게 되면, 서버(20)에서는 이에 상관없이 유전체 서열 분석을 계속 수행한다. 그리고, 사용자가 다시 클라이언트 프로그램을 실행시키게 되면 도 4와 같은 현재의 서열 분석 진행상태를 클라이언트(10)측에 표시하여 준다.

도 5는 도 2에 도시된 유전자 예측 기능(242)의 수행 결과 얻어진 유전자 위치 정보 및 그에 해당되는 각각의 기능을 보여주는 도면이다. 도 2 및 도 5를 참조하면, 유전자 예측 기능(242)은 서열 입력부(23)로부터 입력된 유전체 서열 중 유전자 부분을 예측하는 기능으로서, Glimmer 2.02(2421) 및 EMBOSS(2422) 등과 같은 유전자 예측 프로그램을 통해 수행된다. 그리고, 예측 결과로서 도 5와 같이 유전자의 위치 정보 등을 발생한다. 각각의 유전자는 각 유전자별로 유전체 내에서 특정 위치에 존재하게 되는데, 이 때 유전자가 위치하는 정보는 유전자의 서열을 분석하는 데 중요한 단서가 된다. 여기서, 그래프 길이는 각 유전자의 길이를 나타내며, 위/아래는 유전자의 방향성을 나타내고, 각 그래프의 컬러는 유전자의 기능을 각각 나타낸다. 각 컬러별 유전자의 기능은 도 5의 우측에 표시되어 있다. 사용자는 원하는 서열의 위치를 입력하거나 해당 페이지를 입력하여 이동할 수 있으며, 그 외에도 줌 인, 줌 아웃 기능을 이용하여 화면을 확대시키거나 축소시킬 수 있다.

도 6 내지 도 8은 도 2에 도시된 유사성 검색 기능(244)의 수행 과정 및 그 결과를 보여주는 도면이다. 도 2와, 도 6 내지 도 8을 참조하면, 유사성 검색 기능(244)은 도 2에 도시된 바와 같이 레퍼런스 서열 데이터베이스(21)와 연계되어 유전자 서열의 유사성을 검색하는 기능으로서, 블러스트 검색과 같이 독립된 형태로 그 기능을 수행할 수 있도록 독립된 인터페이스를 가진다.

블러스트 검색은 도 6에 도시된 바와 같이, 선택된 옵션에 따라 다음과 같은 검색을 수행한다. 먼저, BLASTn 검색은 염기 서열간의 비교를 수행하는 기능이고, BLASTp 검색은 단백질 서열간에 비교를 수행하는 기능이고, BLASTx 검색은 입력한 염기서열을 6개의 프레임(frame)으로 변환하여 이를 단백질 서열 데이터베이스(21)와 비교하는 기능이다. 그리고, tBLASTn 검색은 염기 서열 데이터베이스를 6 프레임으로 변환하여 이를 입력된 단백질 서열과 비교하는 기능이고, tBLASTx 검색은 입력된 염기 서열과 염기서열 데이터베이스를 모두 6 프레임으로 변환하여 비교하는 기능이다.

사용자는 도 6의 화면에서 직접 서열을 입력하거나 일정한 형식(예를 들면, fasta 형식)의 서열 파일을 찾아 입력하고, 적당한 매개 변수를 선택한 후 실행 단추를 실행시키게 되면, 입력된 서열 데이터에 대한 유사성 검색이 수행되고 도 7과 같은 결과화면이 출력된다.

도 7을 참조하면, 블러스트 검색 결과는 HSP의 순서, 즉 부분 적인 유사성이 높은 순서대로 디스플레이 됨을 알 수 있다. 하지만, 부분적인 유사성은 서열의 길이에 관한 값이 보정이 되지 않기 때문에, 일반적으로 기대치(expect value)가 좀 더 중요한 값으로 고려되기도 한다.

이 때, 사용자가 그래픽한 결과 화면을 원할 경우, 도 7에 도시된 그래픽 결과(Graphical result) 단추를 누르게 되면, 사용자가 검색 결과를 이해하기 쉽도록 도 8과 같은 화면이 출력된다.

도 9는 도 2에 도시된 도메인 검색 기능(246)의 수행 결과를 보여주는 도면이다. 도 2 및 도 9를 참조하면, 도메인 검색 기능(246)은 유전자 내 도메인을 검색하는 기능으로서, HMMER 프로그램을 사용하여 수행된다. HMMER 프로그램은 은닉 마코프 모델(Hidden Markov models)을 적용한 수학적 방법을 기초로 개발된 프로그램으로서, 모든 염기 서열을 인지한 후 비교 가능한 염기 서열을 찾아내는 기능을 수행한다. 이는, 블러스트 검색과 마찬가지로 레퍼런스 서열 데이터베이스(21)를 이용하여 검색을 수행하지만, 하나의 모델 염기 서열(model sequence)을 사용해 유사성을 검색하는 블러스트 검색 방식과는 그 검색 방식에서 차별되는 특징을 가진다.

다시 도 1 및 도 2를 참조하면, 유전자 검색부(25)에서 수행되는 유전자 검색 기능(250)은, 기능별 검색 기능(252), 경로별 검색 기능(254), 및 키워드 검색 기능(256)으로 세분화된다. 이 중 기능별 검색 기능(252)은 기능 카테고리별로 미리 18개의 그룹을 분류하여 그룹별 검색을 수행하고, 경로별 검색 기능(254)은 경로 카테고리별로 미리 51개의 그룹을 분류하여 그룹별 검색을 수행한다. 그리고, 키워드 검색 기능(256)은, 사용자로부터 입력된 키워드에 해당되는 데이터를 검색하는 기능을 수행한다.

도 10 내지 도 12는 도 2에 도시된 기능별 검색 기능(252), 경로별 검색 기능(254), 및 키워드 검색 기능(256)에 의해 얻어진 검색 결과를 각각 보여주는 도면이다. 도 10 내지 도 12를 참조하면, 사용자에 의해 지정된 검색 방법에 따라 각 기 다른 방식으로 검색이 수행됨을 알 수 있다. 도면에 도시되어 있는 바와 같이, 사용자가 검색 화면에서 검색 방법과, 기능 카테고리, 경로 카테고리, 또는 키워드를 지정하게 되면, 선택된 서열분석결과 데이터베이스 내 유전자 중에서 해당 기능 카테고리 또는 해당 경로 카테고리에 속하는 유전자에 대한 간략한 정보를 나타내는 리스트 정보가 표시된다. 이 경우, 사용자가 화면에 표시된 유전자 리스트 중 임의의 유전자를 클릭하게 되면 유전자 이름, 유전자 위치, 유전자 길이, 유전자 기능, 관련 경로, 도메인 정보 등과 같은 유전자 관련 정보가 레퍼런스 서열 데이터베이스(21)로부터 검색되어 디스플레이 된다.

다시 도 1 및 도 2를 참조하면, 데이터 관리부(27)에 의해 수행되는 데이터 관리 기능(270)은, 레퍼런스 서열 데이터베이스 관리 기능(210), 유전체 서열분석결과 관리 기능(220), 및 사용자 관리 기능(280)으로 세분화된다.

도 13 및 도 14는 도 2에 도시된 데이터 관리 기능(270)을 수행하기 위해 필요로 하는, 각 데이터베이스별 사용자 권한의 구성 예를 보여주는 도면이다.

도 13에는 각각의 사용자 이름과, 사용자에 따라 이용 가능한 서열분석결과 데이터베이스(22)의 이름이 명시되어 있다. 데이터 관리부(27)는 사용자에 따라서 각각의 서열분석결과 데이터베이스(22)에 대한 사용자의 데이터베이스 접근 권한을 제한할 수 있다. 이 같은 기능을 통해 관리자는 사용자간의 보안을 유지할 수 있게 된다. 이 같은 기능을 사용자 관리 기능(280)이라 한다.

도 14에는 각각의 서열분석결과 데이터베이스(22)의 이름과, 서열분석결과 데이터베이스(22)를 삭제할 수 있는 권한이 있는 사용자의 이름이 명시되어 있다. 데이터 관리부(27)는 서열분석결과 데이터베이스(22)를 삭제할 수 있는 권한이 주어져 있는 사용자에 의해서 더 이상 필요하지 않은 서열분석결과 데이터베이스(22)를 삭제함으로서 서버의 하드용량에 걸리는 부하를 줄일 수 있다. 또한, 데이터 관리부(27)는 유전자 검색시 서열분석결과 데이터베이스(22)를 구성하는 각각의 테이블을 레퍼런스 서열 데이터베이스(21)에 연결함으로써, 상기 데이터베이스들(21, 22)에 대한 데이터 입출력을 제어한다. 이와 같은 기능을 레퍼런스 서열 데이터베이스 관리 기능(210) 및 유전체 서열분석결과 관리 기능(220)이라 한다.

이 때, 서열분석결과 데이터베이스(22)에는 레퍼런스 서열 데이터베이스(21)로부터 추출된 유전자의 상세 정보 자체가 저장되는 대신, 해당 데이터가 저장되어 있는 레퍼런스 서열 데이터베이스(21)의 엔트리 정보가 저장된다. 이와 같이 구성되는 서열분석결과 데이터베이스(22) 및 레퍼런스 서열 데이터베이스(21)의 데이터 모델은 다음과 같다.

도 15는 도 1에 도시된 레퍼런스 서열 데이터베이스(21) 및 서열분석결과 데이터베이스(22)에 저장되는 정보 및 상기 정보들간의 관계를 보여주는 도면으로서, 각 블록들에 연결된 화살표의 방향은 자신이 참조하는 데이터가 존재하는 테이블을 의미한다.

도 15를 참조하면, 레퍼런스 서열 데이터베이스(21)는 COG 기능 테이블(Clusters of Orthologous Groups of proteins (COGs) function table ; 212), COG 경로 테이블(214), KEGG(Kyoto Encyclopedia of Genes and Genomes) 정보 테이블(216), 및 SwissPfam 정보 테이블(218)을 포함한다. 각 테이블(212-218) 에 저장되는 데이터는, 레퍼런스 서열 데이터베이스(21)에 저장되어 있는 검증된 다량의 데이터들을 각 카테고리별로 구분한 것으로서, 여기에는 유전자 이름, 개체의 종, 유전자의 기능, 유전자 경로, 키워드 정보 등이 포함된다.

이 중 COG 기능 정보 테이블(212)에는 각 유전자에 대한 기능 정보가 저장되는데, 이 기능 정보를 근거로 하여 각 유전자의 기능이 예측된다. COG 경로 정보 테이블(214)에는 각 유전자에 대한 경로 정보가 저장되어 있어, 유전자와 관련된 경로를 예측하는 데 사용된다. 그리고, KEGG 정보 테이블(216)에는 유전자 이름, 개체의 종, KEGG 경로 정보 등이 저장되고, SwissPfam 정보 테이블(218)에는 유전자 이름, 도메인 이름, Pfam 데이터베이스 접근 번호(accession number), 위치 정보 등이 저장된다.

서열분석결과 데이터베이스(22)는, 유사성 검색 결과 테이블(222)과 도메인 검색 결과 테이블(224)을 포함한다. 유사성 검색 결과 테이블(222)은 레퍼런스 서열 데이터베이스(21)의 COG 기능 정보 테이블(212)과 COG 경로 정보 테이블(214)에 연결되어, 각 유전자의 기능과 경로를 분석하는데 사용된다. 도메인 검색 결과 테이블(224)은 레퍼런스 서열 데이터베이스(21)의 KEGG 정보 테이블(216) 및 SwissPfam 정보 테이블(218)과 연결되어, SwissPfam 정보 테이블(218)로부터 유전자 이름, 도메인 이름, Pfam 데이터베이스 접근 번호, 위치 정보 등과 같은 도메인 정보를 제공받는다.

데이터 관리부(27)에는 사용자 정보 테이블(282)이 구비되어 있어, 사용자 각각에 대한 정보를 관리하는데 이용된다. 사용자 정보 테이블(282)에는 사용자 식 별자, 암호, 사용자 이름, 데이터베이스에 대한 사용자 접근 권한 등의 정보가 포함된다.

도 15를 참조하여, 데이터 관리부(27)에 의해 수행되는 레퍼런스 서열 데이터베이스 관리 기능(210), 유전체 서열분석결과 데이터베이스 관리 기능(220), 및 사용자 관리 기능(280)을 살펴보면 다음과 같다.

먼저, 인터페이스(26)를 통해 사용자 정보가 입력되면, 데이터 관리부(27)는 사용자 정보 테이블(282)에 저장되어 있는 사용자 정보를 근거로 하여 데이터베이스(21, 22)에 대한 데이터 접근을 허가할 것인지 여부를 판별한다. 판별 결과, 해당 사용자가 데이터베이스(21, 22)에 접근 가능한 경우, 서열분석부(24)로부터 입력된 유전체 서열분석결과를 서열분석결과 데이터베이스(22)에 저장한다.

한편, 사용자가 인터페이스(26)를 통해 유전체 서열을 입력하게 되면, 서열 입력부(23)는 상기 유전체 서열을 소정의 형식으로 변환하여 서열 분석부(24)로 전달한다. 서열 분석부(24)는 유전자 예측을 수행하여 유전자 위치 정보와 유전자 이미지 정보를 발생한다. 그리고, 유전자 예측에 의해 발생된 유전자 위치 정보를 근거로 하여 유사성 검색과, 도메인 검색이 차례로 수행된다. 그리고, 서열 분석부(24)로부터 발생된 도메인 검색 결과와, 유사성 검색 결과는 각각 데이터 관리부(27)로 입력되고, 데이터 관리부(27)는 도메인 검색 결과와 유사성 검색 결과를 서열분석결과 데이터베이스(22)의 도메인 검색 결과 테이블(224)과 유사성 검색 결과 테이블(222)에 각각 저장한다. 이 때, 서열분석결과 데이터베이스(22)의 유사성 검색 결과 테이블(222)은, 레퍼런스 서열 데이터베이스(21)의 COG 기능 정보 테 이블(212) 및 COG 경로 정보 테이블(214)에 연결되어, 각 유전자의 기능과 경로를 분석하는데 사용된다. 그리고, 도메인 검색 결과 테이블(224)은 레퍼런스 서열 데이터베이스(21)의 KEGG 정보 테이블(216) 및 SwissPfam 정보 테이블(218)과 연결되어, SwissPfam 정보 테이블(218)로부터 유전자 이름, 도메인 이름, Pfam 데이터베이스 접근 번호, 위치 정보 등과 같은 도메인 정보를 제공받게 된다.

도 16은 도 1에 도시된 서열 분석부(24)에서 수행되는 서열 분석 방법을 보여주는 흐름도이다. 도 16을 참조하면, 서열 분석부(24)는 먼저 사용자로부터 유전체 서열을 입력받고(2410 단계), 유전체 서열 중 유전자 부분을 예측한다(2420 단계).

이어서, 유전자로 예측된 부분의 기능과 경로를 분석하기 위해, 블러스트 검색과 같은 유사성 검색이 수행된다(2440 단계). 유사성 검색 결과, 검색된 유전자의 서열이 일정 수준 이상의 유사성이 있는 것으로 판단되면, 서열분석결과 데이터베이스(22)의 유사성 검색결과 테이블(222)은 레퍼런스 서열 데이터베이스(21)의 COG 기능 정보 테이블(212)과 COG 경로 정보 테이블(214)에 연결되어, 유전자의 기능과 경로를 확인하다(2480 단계). 그리고, 확인된 유전자의 기능 및 경로 정보를 서열분석결과 데이터베이스(22)에 저장함으로써, 서열분석결과 데이터베이스(22)를 구축하게 된다(2490 단계).

한편, 2420 단계에서 유전자 부분으로 예측된 부분은, 유사성 검색이 수행되는 동안 도메인 검색이 수행되고(2460 단계), 도메인 검색결과가 일정 수준 이상의 유사성이 있는 것으로 판단되면, 서열분석결과 데이터베이스(22)의 도메인 검색결 과 테이블(224)은 레퍼런스 서열 데이터베이스(21)의 KEGG 정보 테이블(216) 및 SwissPfam 정보 테이블(218)에 연결되어, 각 유전자 내에 속하는 도메인의 이름, Pfam 데이터베이스 접근 번호, 및 위치 정보 등을 확인한다(2480 단계). 그리고, 확인된 유전자의 기능 및 경로 정보를 서열분석결과 데이터베이스(22)에 저장함으로써, 서열분석결과 데이터베이스(22)를 구축하게 된다(2490 단계).

이와 같은 방법에 의해 구축된 서열분석결과 데이터베이스(22)는, 유전자 검색부(25)에 의해 수행되는 기능 검색, 경로 검색, 및 키워드 검색을 통해서 사용자가 원하는 정보를 분석하여 제공할 수 있게 된다.

도 17은 도 1에 도시된 유전자 검색부(25)에서 수행되는 유전자 검색 방법을 보여주는 흐름도이다. 도 17을 참조하면, 먼저 사용자에 의해 기능 검색, 경로 검색과 키워드 검색 중 어느 하나의 검색 방법이 선택된다(2510 단계).

2510 단계에서 기능 검색이 선택된 경우, 먼저 18개의 항목으로 분류되어진 기능 카테고리들 중 어느 하나가 선택된다(2522 단계). 이어서, 서열분석결과 데이터베이스(22)에 저장되어진 유전자 중 선택된 기능 그룹에 속하는 유전자가 검색되고(2524 단계), 검색 결과가 디스플레이 된다(2570 단계). 사용자는 2570 단계에서 디스플레이 되는 검색결과를 이용하여 각 유전자에 대한 상세 정보를 획득할 수 있게 된다(2580 단계). 예를 들어, 서열분석결과 데이터베이스(22)에 저장되어진 유전자 중 선택된 기능 그룹에 속하는 유전자가 디스플레이 되는 경우, 사용자가 해당 유전자를 클릭하게 되면, 상기 유전자에 대한 상세 정보가 레퍼런스 서열 데이터베이스(21)로부터 검색되어 디스플레이 된다.

2510 단계에서 경로 검색이 선택된 경우, 먼저 51개의 항목으로 분류되어진 경로 카테고리들 중 어느 하나가 선택된다(2542 단계). 이어서, 서열분석결과 데이터베이스(22)에 저장되어진 유전자 중 선택된 경로 그룹에 속하는 유전자가 검색되고(2544 단계), 검색 결과가 디스플레이 된다(2570 단계). 이 때, 사용자는 2570 단계에서 디스플레이 되는 검색결과에서 임의의 유전자를 선택함으로써, 레퍼런스 서열 데이터베이스(21)로부터 상기 유전자에 대한 상세 정보를 획득할 수 있게 된다(2580 단계).

2510 단계에서 키워드 검색이 선택된 경우, 먼저 사용자로부터 검색할 유전자에 대한 키워드가 입력된다(2562 단계). 그리고, 입력된 키워드에 해당하는 유전자가 서열분석결과 데이터베이스(22)로부터 검색된 후(2564 단계), 검색된 결과가 디스플레이 된다(2570 단계). 이어서, 사용자는 2570 단계에서 디스플레이 되는 검색결과를 이용하여 각 유전자에 대한 상세 정보를 얻게 된다(2580 단계).

앞에서 설명한 바와 같이, 본 발명에 따른 유전체 서열 분석 및 데이터 관리 시스템은, 기능 검색, 경로 검색 및 키워드 검색을 제공함으로써, 사용자가 원하는 유전자의 상세 정보를 제공하게 된다.

이상에서, 본 발명의 실시예로서 임의의 레퍼런스 서열 데이터베이스를 사용한 유전체 서열 분석을 통해 서열분석결과 데이터베이스를 구축하고, 두 데이터베이스의 검색 및 분석 기능을 통합한 유전체 서열 분석 및 데이터 관리 시스템에 대해 구체적으로 예시되었으나, 그밖에도 다양한 종류의 유전체에 대한 데이터베이스들이 본 발명에 적용될 수 있고, 클라이언트/서버 환경은 물론, 웹 환경이나 로컬 환경에서도 본 발명을 적용할 수 있다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로 저장되고 실행될 수 있다.

이상에 설명한 바와 같이, 본 발명에 의한 유전체 서열 분석 및 데이터 관리 시스템에 의하면, 각각 떨어져 존재하는 유전체 서열 분석 프로그램, 서열분석결과 데이터베이스, 및 레퍼런스 서열 데이터베이스가 하나로 통합되어 유전체 서열의 분석, 분석 결과의 저장, 저장된 데이터의 검색 기능을 효율적으로 수행할 수 있다. 따라서 클라이언트/서버 환경 하에서 유전체 서열 분석과, 분석 결과에 대한 데이터 관리를 용이하게 수행할 수 있다.

Claims

실험에 의해 얻어진 유전체 서열분석결과가 저장되는 제 1 데이터베이스;

검증된 다량의 유전자 서열 관련 데이터가 저장된 제 2 데이터베이스;

사용자로부터 사용자 정보, 유전체 서열 정보, 및 검색 단서 중 어느 하나를 받아들이는 인터페이스;

상기 유전체 서열 정보 및 상기 제 2 데이터베이스에 저장되어 있는 데이터를 근거로 하여 해당 유전체에 대한 유전체 서열 분석을 수행하는 서열 분석부;

상기 검색 단서에 응답해서 상기 제 1 데이터베이스에 저장되어 있는 데이터에 대한 검색을 수행하고, 검색 결과에 대한 상세 정보를 상기 제 2 데이터베이스로부터 추출하는 유전자 검색부; 및

상기 사용자 정보에 응답해서 상기 제 1 데이터베이스에 대한 사용자 접근 권한을 제한하고, 상기 유전체 서열 정보, 상기 서열분석결과 및 상기 검색 결과에 응답해서, 상기 제 1 데이터베이스 및 상기 제 2 데이터베이스의 데이터 입출력을 관리하는 데이터 관리부를 포함하는 것을 특징으로 하는 유전체 서열 분석 및 데이터 관리 시스템.
제 1 항에 있어서,

상기 인터페이스는 네트워크를 통해 연결된 적어도 하나 이상의 클라이언트로부터 상기 사용자 정보, 상기 유전체 서열 정보 및 상기 검색 단서 중 어느 하나를 받아들여, 상기 데이터 관리부, 상기 서열 분석부 및 상기 유전자 검색부 중 어느 하나에게 전달하고, 상기 서열분석 결과 및 상기 검색 결과를 상기 네트워크를 통해 상기 클라이언트에게 전달하는 것을 특징으로 하는 유전체 서열 분석 및 데이터 관리 시스템.
삭제
삭제
삭제
삭제
제 1 항에 있어서,

상기 데이터 관리부는, 사용자 식별자, 암호, 사용자 이름, 및 상기 제 1 데이터베이스에 대한 사용자 접근 권한 정보가 포함된 사용자 정보 테이블을 구비하는 것을 특징으로 하는 유전체 서열 분석 및 데이터 관리 시스템.
제 7 항에 있어서,

상기 데이터 관리부는, 상기 사용자 정보 테이블에 저장되어 있는 정보를 근거로 하여, 각각의 사용자에 대해 상기 제 1 데이터베이스에 대한 데이터 접근 및 데이터베이스 삭제 권한을 관리하는 것을 특징으로 하는 유전체 서열 분석 및 데이터 관리 시스템.
제 7 항에 있어서,

상기 데이터 관리부는, 해당 사용자가 상기 제 1 데이터베이스에 접근 가능한 경우 상기 유전체 서열 분석 결과를 상기 제 1 데이터베이스에 저장하고, 상기 제 1 데이터베이스에 저장되어 있는 데이터에 대한 상세 검색을 수행하기 위해 상기 제 1 데이터베이스를 상기 제 2 데이터베이스에 연결시키는 것을 특징으로 하는 유전체 서열 분석 및 데이터 관리 시스템.
제 9 항에 있어서,

상기 제 1 데이터베이스는 상기 제 2 데이터베이스로부터 추출된 상기 유전자의 상세 정보 자체를 저장하는 대신, 해당 데이터가 저장되어 있는 상기 제 2 데이터베이스의 엔트리 정보를 저장하는 것을 특징으로 하는 유전체 서열 분석 및 데이터 관리 시스템.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제