KR100513266B1

KR100513266B1 - 클라이언트/서버 기반 ｅｓｔ 서열 분석 시스템 및 방법

Info

Publication number: KR100513266B1
Application number: KR20030001600A
Authority: KR
Inventors: 인용호; 김형용; 노미라; 채수진
Original assignee: 주식회사 씨티앤디
Priority date: 2003-01-10
Filing date: 2003-01-10
Publication date: 2005-10-06
Anticipated expiration: 2023-01-10
Also published as: KR20040064763A

Abstract

본 발명은 생물학연구 방법 중 하나인 EST(Expressed Sequence Tag) 서열 결정법에 의해 얻어진 서열 및 서열 분석 정보를 저장, 분석 및 검색 할 수 있는 EST 분석 시스템 및 그 방법에 관한 것으로, 상기 EST 분석 시스템은, 사용자로부터 실험에 의해 산출된 EST(Expressed Sequence Tag) 서열 데이터를 받아들이는 입출력 관리자; 상기 EST 서열 데이터를 소정의 포맷으로 변환하여 제 1 데이터베이스에 저장하는 서열 입력부; 상기 제 1 데이터베이스에 저장된 상기 EST 서열 데이터와, 검증된 다량의 유전자 및 단백질 서열 데이터가 저장된 제 2 데이터베이스에 저장된 서열 데이터간의 유사성 검색 및 단백질 도메인 검색을 수행하고, 상기 검색 결과를 상기 제 1 데이터베이스에 저장하는 주석 분석부; 및 사용자로부터 입력된 검색 단서에 응답해서 상기 제 1 데이터베이스에 저장되어 있는 데이터에 대한 검색을 수행하는 분석결과 검색부를 포함한다.

Description

클라이언트/서버 기반 ＥＳＴ 서열 분석 시스템 및 방법{Client/server based workbench system and method for expressed sequence tag analysis}

본 발명은 유전체 분석 시스템에 관한 것으로, 특히 생물학연구 방법 중 하나인 EST(Expressed Sequence Tag) 서열 결정법에 의해 얻어진 서열 및 서열 분석 정보를 저장, 분석 및 검색 할 수 있는 시스템 및 그 방법에 관한 것이다.

EST는 Expressed Sequence Tag의 약자로서, 생명체 내에서 기능을 하기 위해 원본 유전체(genome) 서열에서 mRNA(messenger RNA)로 발현되는 유전자의 조각을 일컫는다. 일반적으로, 원핵 생물의 유전체는 인트론(intron)과 엑손(exon)이 따로 구분되지 않고 유전체 서열이 바로 mRNA로 전사되어 단백질이 형성된다. 이에 반해 진핵 생물의 각 세포는 같은 유전체와 각기 다른 양상의 프로테옴을 가진다. 즉, 진핵 생물은 유전체 서열로부터 시간과 공간적으로 서로 다른 RNA 전사가 이루어진 후 인트론이 잘려나가는 등의 전사 후 변형을 거친 후 변형된 mRNA가 생성된다. 이 같은 mRNA는 역전사 기법을 사용하여 cDNA(complementary DNA) 라이브러리 형태로 대량으로 실험적으로 뽑아낼 수 있으며, 그 cDNA 서열의 단편을 EST 라고 한다. 따라서, 진핵 생물의 EST들을 연구하는 것은, 유전체 전체를 연구하는 것에 비해 기능을 하는 유전자를 밝혀내는 데 효과적인 실험 기법이라 할 수 있다.

이와 같은 방법으로 양산되는 EST들은 실험자에 의해 저장되고 분석된다. 이 때, 분석되는 대상은 그 양이 상당히 많기 때문에 효과적인 EST 연구 결과물의 분석을 위해서는 연구 결과물에 대한 데이터베이스(database ; DB)화와 함께, 상기 데이터베이스와 기존의 서열 데이터간의 통합된 검색이 요구된다. 그러나, 기존의 서열 정보들은 생물의 종별, 조직별로 서로 다른 곳에서 분리되어 제공되고 있으며, 이들을 분석하는 도구들 역시 분석 목적에 따라 서로 다른 사이트(site)들에서 분리되어, 개발 및 유지되고 있다. 이와 같이, EST 데이터의 저장, 분석 및 검색 기능이 서로 다른 환경 하에서 개별적으로 동작되므로, 사용에 어려움이 있다.

본 발명이 이루고자 하는 기술적 과제는, 각각 떨어져 존재하고 있는 유전자 서열 데이터베이스와 서열 분석 도구들을 효율적으로 통합한 클라이언트/서버 기반 EST 분석 시스템을 제공하는데 있다.

본 발명이 이루고자 하는 또 하나의 기술적 과제는, 서열 ID 검색, 키워드 검색 및, 기능 카테고리 키워드 검색을 통해 얻은 서열 검색 결과 데이터로부터 유사성이 있는 후보 유전자 및 단백질 도메인 정보를 추출해 내고, 추출된 데이터를 이용하여 EST 서열의 기능을 유추할 수 있는 클라이언트/서버 기반 EST 분석 시스템을 제공하는데 있다.

본 발명이 이루고자 하는 또 하나의 기술적 과제는, 대량 데이터 분석의 결과를 효과적으로 볼 수 있는 전체 결과 보기 기능인 히트 리스트 및 히스토리 맵을 통해 대량 데이터 검증을 편리하게 하고, 대량 분석의 프로세스를 확인할 수 있는 시스템을 제공하는데 있다.

본 발명이 이루고자 하는 또 하나의 기술적 과제는, 대량 데이터 관리를 사용자 프로젝트와 데이터베이스, 사용자 별로 할 수 있도록 프로젝트 관리, 데이터베이스 관리, 사용자 관리, 패스워드 관리로 이루어진 데이터 관리 시스템을 제공하는데 있다.

본 발명이 이루고자 하는 다른 기술적 과제는, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 있다.

상기의 과제를 이루기 위하여 본 발명에 의한 EST 분석 시스템은, 사용자로부터 실험에 의해 산출된 EST(Expressed Sequence Tag) 서열 데이터를 받아들이는 입출력 관리자; 상기 EST 서열 데이터를 소정의 포맷으로 변환하여 제 1 데이터베이스에 저장하는 서열 입력부; 상기 제 1 데이터베이스에 저장된 상기 EST 서열 데이터와, 검증된 다량의 유전자 및 단백질 서열 데이터가 저장된 제 2 데이터베이스에 저장된 서열 데이터간의 유사성 검색 및 단백질 도메인 검색을 수행하고, 상기 검색 결과를 상기 제 1 데이터베이스에 저장하는 주석 분석부; 및 사용자로부터 입력된 검색 단서에 응답해서 상기 제 1 데이터베이스에 저장되어 있는 데이터에 대한 검색을 수행하는 분석결과 검색부를 포함하는 것을 특징으로 한다.

상기의 과제를 이루기 위하여 본 발명에 의한 EST 서열 분석 방법은, (a) 사용자로부터 실험에 의해 산출된 EST(Expressed Sequence Tag) 서열 데이터를 받아들이는 단계; (b) 상기 EST 서열 데이터를 소정의 포맷으로 변환하여 제 1 데이터베이스에 저장하는 단계; (c) 상기 제 1 데이터베이스에 저장된 상기 EST 서열 데이터와, 검증된 다량의 유전자 및 단백질 서열 데이터가 저장된 제 2 데이터베이스에 저장된 데이터간의 유사성 검색 및 단백질 도메인 검색을 수행하고, 상기 검색 결과를 상기 제 1 데이터베이스에 저장하는 단계; 및 (d) 사용자로부터 입력된 검색 단서에 응답해서 상기 제 1 데이터베이스에 저장되어 있는 데이터에 대한 검색을 수행하는 단계를 포함하는 것을 특징으로 한다.

상기의 과제를 이루기 위하여 본 발명에 의한 EST 서열 분석 및 데이터베이스 구축 방법은, (a) 사용자로부터 실험에 의해 산출된 EST(Expressed Sequence Tag) 서열 데이터를 받아들여 제 1 데이터베이스를 구축하는 단계; (b) 상기 제 1 데이터베이스에 저장된 상기 EST 서열 데이터와, 검증된 다량의 유전자 및 단백질 서열 데이터가 저장된 제 2 데이터베이스에 저장된 데이터간의 유사성 검색 및 상기 EST 서열에 대한 단백질 도메인 검색을 수행하는 단계; (c) 상기 (b) 단계에서 수행된 상기 서열 유사성 검색 결과와 상기 단백질 도메인 검색 결과를 근거로 하여 상기 EST 서열이 상기 제 2 데이터베이스에 저장되어 있는 임의의 EST 서열과 동정되었는지 여부를 판별하는 단계; (d) 상기 EST 서열이 동정된 경우, 상기 EST 서열에 대응되는 상기 제 2 데이터베이스의 유전자 내용 중 필요 정보를 분석하고, 상기 분석 결과를 상기 제 1 데이터베이스에 저장하는 단계; 및 (e) 상기 (a) 단계 및 상기 (b) 단계의 수행 여부를 상기 제 1 데이터베이스의 히스토리 테이블에 저장하는 단계를 포함하는 것을 특징으로 한다.

상기의 과제를 이루기 위하여 본 발명에 의한 EST 서열 검색 방법은, (a) 사용자로부터 입력된 검색 단서에 응답해서 EST 서열 분석 결과가 저장된 제 1 데이터베이스에 대해 ID 검색 및 키워드별 검색 중 어느 하나를 수행하고, 검색된 상기 EST 서열 데이터에 대응되는 유전자 정보 및 단백질 도메인 정보를 추출하는 단계; (b) Remarkable Hit 검색 및 기능 카테고리 키워드 검색 중 어느 하나를 고급 검색 방식으로 선택하는 단계; (c) 상기 (b) 단계에서 상기 고급 검색 방식으로 상기 Remarkable Hit 검색이 선택된 경우, 상기 (a) 단계에서 추출된 상기 결과 중에서 최상위 결과들을 추출하여 보여주는 단계; 및 (d) 상기 (b) 단계에서 상기 고급 검색 기능으로 상기 기능 카테고리 키워드 검색이 선택된 경우, 상기 (a) 단계에서 추출된 상기 결과가 속하는 카테고리에 대해 기능별 검색을 수행하고, 상기 검색 결과를 보여주는 단계를 포함하는 것을 특징으로 한다.

이하에서, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.

도 1은 본 발명의 바람직한 실시예에 따른 클라이언트/서버 기반 EST 분석 시스템의 블록도이다. 도 1을 참조하면, 본 발명에 따른 EST 분석 시스템은, 네트워크(10)에 연결된 적어도 하나 이상의 클라이언트(100)와, EST 분석 서비스를 제공하는 EST 분석 서버(200)로 구성된다. EST 분석 서버(200)는 EST 분석부(210), EST 서열 및 분석결과 데이터베이스(220), 및 레퍼런스 데이터베이스(230)를 포함한다.

먼저, EST 서열 및 분석결과 데이터베이스(220)는 실험에 의해 산출된 EST 서열 데이터와, 서열 유사성 검색 결과 및 단백질 도메인 검색 결과를 저장하기 위한 데이터베이스로서, 실험에 의해 산출된 EST 서열 데이터를 저장하는 EST 서열 데이터베이스(221), 각각의 EST 서열 데이터에 대한 서열 유사성 검색 결과 및 단백질 도메인 검색 결과가 저장되는 주석 데이터베이스(222), 및 프로젝트 관리, 사용자 관리 및 데이터베이스 관리에 필요한 정보가 저장되는 관리 데이터베이스(223)로 구성된다.

레퍼런스 데이터베이스(230)는, 검증된 다량의 유전자 및 단백질 서열이 저장된 유전자 서열 데이터베이스로서, 레퍼런스 데이터베이스(230)는 크게 BLAST(Basic Local Alignment Search Tool) 검색용 데이터베이스(231)와, 도메인 검색용 데이터베이스(232)로 구분된다.

이 중 BLAST 검색용 데이터베이스(231)는 일정 형태(예를 들면, formatDB 형태)로 구성된 데이터베이스로서, 유전자 서열 정보와 유전자의 기능에 관한 정보를 가지는 UniGene, StackDB, RefSeq, TIGR 데이터베이스 등이 사용될 수 있으며, 입력 서열의 종에 맞는 BLAST 검색용 데이터베이스의 추가가 가능하다.

그리고, 도메인 검색용 데이터베이스(232)는 단백질의 각 도메인에 관한 정보가 저장된 데이터베이스로서, PROSITE(Database of protein families and domains) 데이터베이스(233), PRINTS(Protein Motif Fingerprint) 데이터베이스(234) 및 PFAM(Protein families)/SMART(Simple Modular Architecture Research Tool) 데이터베이스(235)로 구성된다. 여기서, PROSITE 데이터베이스(233)는, SIB(Swiss Institute of Bioinformatics)의 ExPASy WWW server에서 제공하는 단백질 데이터베이스이다. 이는 기존의 Swiss-Prot 데이터베이스에 있는 단백질 서열들로부터 생물학적으로 의미가 있는 패턴(pattern)들을 찾아내 패턴 별로 모아 만든 데이터베이스로서, 새로운 단백질 서열의 기능을 예상하는 데 사용된다. PRINTS 데이터베이스(234)는 OWL 단백질 데이터베이스에서 나온 'fingerprint' multiple alignment(순서가 있는 block들)에 대한 데이터베이스이며, PFAM/SMART 데이터베이스(235)는, Swiss-Prot/TrEMBL의 단백질 데이터베이스를 기반으로 만든 families, module 데이터베이스이며, seed alignment로 부터 얻어낸 HMM(hidden Markov model) PSSMs을 이용하여 새로운 단백질 서열을 정렬하고 기능을 확인하는 데 사용한다. 이 들 데이터베이스들(233, 234, 235)의 차이점은 데이터를 표현하는 양식, 즉 일반적인 텍스트(text) 패턴, 다중 배열(multiple alignment), 프로파일(profile), 또는 은닉 마코프 모델(hidden Markov models ; HMM) 등에서 나타난다.

EST 분석부(210)는, 입출력 관리자(240), 서열 입력부(250), 서열 주석 분석부(260), 단백질 주석 분석부(270), 및 분석결과 검색부(280)로 구성된다. EST 분석부(210)는, 입출력 관리자(240)로부터 입력된 EST 서열 데이터에 대해서 유사성 검색(즉, BLAST 검색) 및 단백질 도메인 검색을 수행하고, 상기 검색 결과를 근거로 하여 입출력 관리자(240)로부터 입력된 EST 서열 데이터가 동정되었는지 여부를 판별한다. 판별 결과, 해당 EST 서열 데이터가 동정된 경우, 검색에 의해 얻어진 유사 유전자의 정보를 분석(parsing)하고, 이를 EST 서열 및 분석결과 데이터베이스(220)에 저장한다. 그리고, 분석결과 검색부(280)를 통해 EST 서열 및 분석결과 데이터베이스(220)에 저장된 데이터를 검색한다. 이와 같은 동작을 수행하는 EST 분석부(210)의 상세 구성 및 동작은 다음과 같다.

먼저, 입출력 관리자(240)는 EST 분석부(210)가 EST 분석 동작을 수행할 수 있도록 클라이언트(100)로부터 EST 서열 데이터를 받아들이고, EST 분석부(210)에서 수행된 EST 서열 분석 결과 과정을 상기 클라이언트(100)에게 출력한다. 그리고, EST 서열 분석 결과에 대한 검색에 필요한 검색 단서 등을 받아들이고, 검색 단서에 따른 EST 서열 분석 결과를 상기 클라이언트(100)에게 출력한다.

입출력 관리자(240)를 통해 입력되는 EST 서열 데이터의 형식은 ABI(Application Binary Interface) 파일 형식과 FASTA 파일 형식을 지원한다. 이 중 FASTA 파일 형식은 생물정보분석 프로그램들의 입력 양식 중 가장 일반적으로 사용되는 파일 형식으로, 특정 서열(sequence)의 이름(또는 설명)과 서열 자체의 내용을 나타내는 데 사용된다.

서열 입력부(250)는 입출력 관리자(240)를 통해 입력되는 ABI 파일(251)을 읽어들여 서열로 변환하고, 변환된 서열 또는 FASTA 서열(252)을 소정의 데이터 형식으로 변환하여 EST 서열 데이터베이스(221)에 저장한다. 그리고, EST 서열들의 중복성을 확인하고, 연결 가능한 EST 서열들을 PHRAP 프로그램을 이용하여 클러스터링한다. 이 외에도, 서열 입력부(250)는 입출력 관리자(240)를 통해 입력되는 프로젝트 관리 정보 및 사용자 관리 정보를 상기 관리 데이터베이스에 저장한다.

서열 주석 분석부(260)는 EST 서열 데이터베이스(221)에 저장되어 있는 서열 정보(Seq)를 받아들이고, 상기 EST 서열에 대해 BLASTn과 BLASTx과 같은 유사성 검색을 수행한다.

여기서, BLASTn 검색은 염기 서열간의 비교를 수행하는 BLAST 검색 기능이고, BLASTx 검색은 입력한 염기서열을 6개의 프레임(frame)으로 변환하여 이를 레퍼런스 데이터베이스(230)와 비교하는 BLAST 검색 기능이다. 서열 주석 분석부(260)는 상기와 같은 유사성 검색을 수행하여, 해당 EST 서열이 기존에 밝혀진 레퍼런스 데이터베이스(230)의 어떤 유전자 서열과 유사한지를 규명하고, 그 결과(gene)를 주석 데이터베이스(222)에 저장한다.

단백질 주석 분석부(270)는 EST 서열 데이터베이스(221)에 저장되어 있는 서열 정보(Seq)를 받아들이고, 레퍼런스 데이터베이스(230)에 포함된 도메인 검색 데이터베이스(232)를 이용하여 상기 EST 서열에 대한 단백질 도메인 정규식 검색(PROSITE), 단백질 도메인 핑거프린트 패턴 검색(PRINTS), 및 단백질 프로파일 검색(PFAN/SMART)을 수행한다. 그리고, 해당 EST 서열에 대한 도메인 검색 결과(domain)를 주석 데이터베이스(222)에 저장한다.

이 때, EST 서열 및 분석결과 데이터베이스(220)는 데이터베이스 구축시 레퍼런스 데이터베이스(230)에 저장되어 있는 데이터 자체를 가져와서 저장하지 않고, 검색 결과를 분석하여 필요 정보만(예를 들면, 엔트리 번호, 유전자 제목, E-value(Expect value), 스코어(score) 등)을 추출하여 저장한다. 따라서, 데이터 저장 및 검색이 효율적으로 이루어지게 된다. 이와 같이 구성되는 EST 서열 및 분석결과 데이터베이스(220)의 데이터 모델은 도 2 및 도 3을 참조하여 상세히 설명될 것이다.

분석 결과 검색부(280)는 입출력 관리자(240)로부터 입력된 검색 단서에 응답해서, 상기 검색 단서에 대응되는 EST 데이터를 EST 서열 및 분석결과 데이터베이스(220)에서 검색하고, 검색된 데이터를 입출력 관리자(240)를 통해 클라이언트(100) 측으로 전달한다.

이와 같이, EST 분석 서버(200)의 EST 분석부(210)는 EST 분석 및 검색 질의에 대한 처리를 수행하고, 클라이언트(100)는 EST 분석 서버(200)에서 수행되는 EST 분석 진행 상황을 모니터링함과 동시에, 검색 결과의 전체 및 상세 부분을 네트워크(10)를 통해 제공받을 수 있게 된다. 이 때, 사용자는 대량의 EST 서열을 시스템에 입력한 후 필요한 검색을 GUI(Graphic User Interface)를 통해서 편리하고 간단하게 수행할 수 있을 뿐만 아니라, 검색 결과를 분석하기 쉽도록 그래픽을 이용한 화면으로 볼 수 있다.

앞에서 설명한 바와 같이, 본 발명에 따른 EST 분석 시스템은 필요한 검색 대상 데이터베이스(즉, EST 서열 및 분석결과 데이터베이스(220))와 분석도구(즉, 레퍼런스 데이터베이스(230))를 서버(200)에 두고 GUI를 통해 클라이언트(100)에서 필요한 데이터베이스에 대한 검색을 선택적으로 실시한다. 그리고, 검색 결과는 관계형 데이터베이스(Relational Database ; RDB)화하여 서버에 저장하고, 분석시 이를 이용한다. 그리고, 관계된 모든 데이터를 지역화(localization)하여 연구 결과에 대한 보안을 강화한다. 이 경우, EST 분석에 필요한 데이터베이스와 검색 도구가 서버(200) 한 곳에만 설치되므로, 모든 분석은 서버(200) 내에서 이루어지게 되어 클라이언트(100)의 부담은 줄어들게 된다.

도 2 및 도 3은 도 1에 도시된 EST 서열 및 분석결과 데이터베이스(220)에 저장되는 정보 및 상기 정보들간의 관계를 보여주는 블록도이다. 도 2에는 EST 서열 데이터베이스(221) 및 주석 데이터베이스(222)에 대한 상세 구성이 도시되어 있고, 도 3에는 관리 데이터베이스(223)에 대한 상세 구성이 각각 도시되어 있다.

먼저 도 2를 참조하면, 실험에 의해 생성된 EST 서열 정보가 저장되는 EST 서열 데이터베이스(221)에는 ABI 서열 관리 정보 테이블(2211, 이하 ABI 테이블이라 칭함)과, 서열 클론 관리 정보 테이블(2212, 이하 CLONE 테이블이라 칭함)이 포함된다. ABI 테이블(2211)은, 서열 결정 실험에 의해 생성되는 원본 EST서열을 관리하는 ABI 서열 관련 정보가 저장되고, CLONE 테이블(2212)에는 서열을 어셈블리(assembly)한 후 콘티그(Contig)과 콘티그를 구성하는 리드(Reads)들과 싱글렛(Singlet)이 분리되어 저장된다. 콘티그는 중복된 EST와 연결 가능한 EST 리드들로 이루어진 어셈블리 후 결과 서열이다. ABI 테이블(2211)에 저장되는 정보는 아래의 [표 1]과 같다.

컬럼명	타입명	길이	Nulls
ABI_ID	VARCHAR	40	NO
SEQ_LEN	INT	10	YES
SEQ	TEXT		YES
CONTIG_NO	VARCHAR	20	YES
START_POS	INT	10	YES
END_POS	INT	10	YES
TRIM	ENUM		YES
TRIMPOS	VARCHAR	12	YES

[표 1]을 참조하면, ABI 테이블(2211)에는 ABI 클론(clone) 번호(ABI_ID), 서열 길이(SEQ_LEN), 서열(SEQ), 콘티그 번호(CONTIG_NO), 콘티그를 구성하는 Reads의 시작 위치(START_POS), 콘티그를 구성하는 Reads의 끝 위치(END_POS), 서열 특성(Quality)이 낮은 부위를 잘라 냈는지의 여부(TRIM), 및 서열상의 TRIM 위치(TRIMPOS) 정보가 포함된다. 아래 [표 2]는 CLONE 테이블(2212)에 저장되는 정보를 나타낸다.

컬럼명	타입명	길이	Nulls
NAME	VARCHAR	20	YES
LIBRARY	VARCHAR	50	YES
DB_LINK	VARCHAR	10	YES
ORGANISM	VARCHAR	50	YES
SEQ_LEN	INT	10	YES
SEQ	TEXT		YES
ID	VARCHAR	40	NO
KNOWN	SET		YES
REF_ID	VARCHAR	20	YES
PATTERN	ENUM		YES
PRINTS	ENUM		YES
TRIMPOS	VARCHAR	12	YES
CONTIG	ENUM		YES
TRANS1	TEXT		YES
TRANS2	TEXT		YES
TRANS3	TEXT		YES
TRANS4	TEXT		YES
TRANS5	TEXT		YES
TRANS6	TEXT		YES
ESTSCAN	TEXT		YES
ABI_ID	VARCHAR	40	YES
RPSBLAST	ENUM		YES

[표 2]를 참조하면, CLONE 테이블(2212)에는 EST 서열의 이름(NAME), EST의 소스 cDNA 라이브러리 정보(LIBRARY), 외부 연결 데이터베이스 리스트(DB_LINK), EST 서열의 생물 종(ORGANISM), 서열 길이(SEQ_LEN), 서열(SEQ), 서열의 고유 ID(ID), BLAST 검색시 적중된 데이터(HIT)가 존재하는 검색 데이터베이스의 명칭 리스트(KNOWN), 서열관련 문헌의 고유번호(REF_ID), PROSITE 검색 결과 유무(PATTERN), PRINTS 검색 결과 유무(PRINTS), TRIM 위치(TRIMPOS), CONTIG 여부(CONTIG), 제 1 프레임(frame 1)으로 번역(translation)된 아미노산 서열(TRANS1), 제2 프레임(frame 2)으로 번역된 아미노산 서열(TRANS2), 제 3 프레임(frame 3)으로 번역된 아미노산 서열(TRANS3), 제 4 프레임(frame 4)으로 번역된 아미노산 서열(TRANS4), 제 5 프레임(frame 5)으로 번역된 아미노산 서열(TRANS5), 제 6 프레임(frame 6)으로 번역된 아미노산 서열(TRANS6), EST Scan에 의해 얻어지는 아미노산 서열(ESTSCAN), ABI 테이블(2211)과의 연결 정보를 제공하는 해당 EST CLONE의 ABI 번호(ABI_ID), RPS-BLAST(Reversed Position Specific Blast) 검색 결과의 유무(RPS-BLAST)와 같은 정보를 포함한다. 여기서, RPS-BLAST는 BLAST 검색의 한 종류로서, 단백질 프로파일(profile) 정보를 이용해서 단백질 도메인 부분을 검색하는 프로그램이다.

그리고, EST 서열 데이터에 대한 서열 유사성 검색 결과 및 단백질 도메인 검색 결과가 저장되는 주석 데이터베이스(222)에는, BLAST 관리 정보 테이블(2221, 이하 HIT_BLAST 테이블이라 칭함), 서열 정렬(alignment) 관리 정보 테이블(2222, 이하 ALIGN 테이블이라 칭함), PROSITE 관리 정보 테이블(2223, 이하 PROSITE 테이블이라 칭함), PRINTS 관리 정보 테이블(2226, 이하 PRINT 테이블이라 칭함), 및 레퍼런스 관리 정보 테이블(2227, 이하 REFERENCE 테이블이라 칭함)이 포함된다.

HIT_BLAST 테이블(2221)에는 사용자에 의해 지정된 E-value 이하의 BLAST 검색 결과(즉, 유사성 있는 EST 서열 데이터)가 저장된다. ALIGN 테이블(2222)에는 각각의 BLAST 검색 결과에 대한 개별 HSP(high-scoring segment pair) 정보와, 서열 정렬 결과가 저장된다. 여기서, 서열 정렬은 상동성(Homology)의 가능성과 유사성(similarity)의 정도를 평가하기 위해 최대의 동일성(identity)을 만들 수 있도록 두 개 이상의 서열을 일직선이 되게 정렬하여 하나의 서열로 만들어 가는 과정을 의미한다.

PROSITE 테이블(2223)에는 패턴 관리 정보 테이블(2224, 이하 PATTERN 테이블이라 칭함) 및 MOTIF 관리 정보 테이블(2225, 이하 MOTIF 테이블이라 칭함)이 포함되어, 단백질 도메인 정규식 검색 결과를 저장한다. 이 중 PATTERN 테이블(2224)에는 정규식 검색 결과 얻어진 패턴 정보가 저장되고, MOTIF 테이블(2225)에는 정규식 검색 결과 얻어진 모티프(motif site) 정보가 저장된다. PRINT 테이블(2226)에는 단백질 도메인 핑거프린트 결과가 저장된다. 그리고, REFERENCE 테이블(2227)에는 CLONE 테이블(2212)에 저장된 데이터가 저장되어 있는 레퍼런스 데이터베이스의 관리 정보가 저장된다. HIT_BLAST 테이블(2221)에 저장되는 정보는 아래의 [표 3]과 같다.

컬럼명	타입명	길이	Nulls
ACC_ID	VARCHAR	50	NO
DESCRIPTION	TEXT		YES
ALIGN_NUM	INT	10	YES
DBNAME	VARCHAR	20	YES
PROGRAM	VARCHAR	10	YES
CLONE_ID	VARCHAR	40	NO
GI	VARCHAR	250	YES
GB	VARCHAR	250	YES
EMB	VARCHAR	250	YES
DBJ	VARCHAR	250	YES
PIR	VARCHAR	250	YES
PRF	VARCHAR	250	YES
SP	VARCHAR	250	YES
PDB	VARCHAR	250	YES
PAT	VARCHAR	250	YES
BBS	VARCHAR	250	YES
GNL	VARCHAR	250	YES
REF	VARCHAR	250	YES
LCL	VARCHAR	250	YES
TISSUE	VARCHAR	15	YES
ORGANISM	VARCHAR	50	YES
EVALUE	DOUBLE		YES
HITRPS	MEDIUMBLOB		YES

[표 3]을 참조하면, HIT_BLAST 테이블(2221)에는 BLAST HIT의 고유 번호(ACC_ID), BLAST HIT의 제목(DESCRIPTION), HSP의 개수(ALIGN_NUM), BLAST 검색에 사용된 데이터베이스의 이름(DBNAME), BLAST 검색 프로그램의 종류(PROGRAM), EST 서열 ID(CLONE_ID), BLAST HIT과 연관된 GB(GenBank)의 서열 고유 번호(GI ; GenBank Identifier), GB의 서열 접근 번호(GB ; GenBank accession number), 유럽 서열 데이터베이스(European Molecular Biology Laboratory ; EMBL)의 고유 번호(EMB), 일본 서열 데이터베이스(DNA Data Bank of Japan ; DDBJ)의 고유번호(DBJ), PIR(Protein Information Resource)의 고유번호(PIR), PRF(Protein Research Foundation)의 이름, SWISS-PROT의 고유 번호(SP), PDB(Brookhaven Protein Data Bank)의 고유 번호(PDB), 서열의 PAT(Patent) 번호(PAT), BBS(GenInfo Backbone)의 고유번호(BBS), GNL(General database)의 고유 번호(GNL), 문헌 고유 번호(REF), LCL(Local Sequence)의 고유 번호(LCL), 조직 이름(TISSUE), 생물종 명(ORGANISM), BLAST HIT 의 E-value 값(EVALUE), RPS-BLAST(Reversed Position Specific BLAST) 검색 결과 얻어진 정렬 정보(HITRPS)가 포함된다. [표 4]는 ALIGN 테이블(2222)에 저장되는 데이터를 나타낸다.

컬럼명	타입명	길이	Nulls
SUBJECT_LEN	INT	10	YES
EVALUE	DOUBLE		YES
SCORE	FLOAT		YES
QUERY_START	INT	10	YES
SUBJECT_START	INT	10	YES
FRAME	ENUM		NO
IDENTITY	INT	5	YES
POSITIVE	INT	5	YES
NGAP	INT	5	YES
QUE	BLOB		YES
MAT	BLOB		YES
SBJ	BLOB		YES
HSP	INT		YES
ACC_ID	VARCHAR	50	YES
ALIGN_ID	VARCHAR	60	NO
STRAND	VARCHAR	20	YES

[표 4]를 참조하면, ALIGN 테이블(2222)에는 BLAST HSP의 길이(SUBJECT_LEN), HSP ALIGNMENT의 E-value 값(EVALUE), HSP ALIGNMENT의 SCORE 값(SCORE), 쿼리(QUERY)의 시작 위치(QUERY_START), HSP ALIGNMENT의 시작 위치(SUBJECT_START), BLASTx 검색 결과의 frame 값(FRAME), HSP의 IDENTITY 개수(IDENTITY), HSP의 POSITIVE 개수(POSITIVE), HSP의 gap 개수(NGAP), HSP의 ALIGNMENT된 부분의 Query 서열(QUE), HSP의 ALIGNMENT MATCH 내용(MAT), HSP의 ALIGNMENT된 부분의 SUBJECT 서열(SBJ), HSP 길이(HSP), BLAST HIT 고유번호(ACC_ID), BLAST ALIGNMENT 고유번호(ALIGN_ID), BLASTN 결과의 ALIGNMENT STRAND(STRAND)가 포함된다. [표 5]는 단백질 도메인 정규식 검색 결과 얻어진 패턴 정보를 저장하는 PATTERN 테이블(2224)에 저장되는 데이터를 나타낸다.

컬럼명	타입명	길이	Nulls
PATTERN_ID	VARCHAR	60	NO
NAME	VARCHAR	50	YES
DESCRIPTION	TEXT		YES
MATCH_NO	INT	5	YES
SEQ_LEN	INT	10	YES
CLONE_ID	VARCHAR	40	NO
FULL	MEDIUMTEXT		YES

[표 5]를 참조하면, PATTERN 테이블(2224)에는 정규식 패턴의 고유번호(PATTERN), PROSITE 이름(NAME), PROSITE 상세 설명(DESCRIPTION), PROSITE 패턴에 포함된 모티프 개수(MATCH_NO), 검색한 단백질 서열 길이(SEQ_LEN), EST 서열 고유 번호(CLONE_ID), 및 검색한 단백질이 가지는 PROSITE 패턴 전체의 상세 설명(FULL)이 포함된다. [표 6]은 정규식 검색 결과 하나에 포함된 복수 개의 모티프 정보를 저장하는 MOTIF 테이블(2225)에 저장되는 데이터를 나타낸다.

컬럼명	타입명	길이	Nulls
MOTIF_ID	VARCHAR	70	NO
START_MATCH	INT	10	YES
END_MATCH	INT	10	YES
MOTIF_LEN	INT	10	YES
MOTIF_CON	TINYTEXT		YES
PATTERN_ID	VARCHAR	60	NO

[표 6]을 참조하면, MOTIF 테이블(2225)에는 모티프 고유 번호(MOTIF_ID), 모티프 시작 위치(START_MATCH), 모티프 끝 위치(END_MATCH), 모티프 길이(MOTIF_LEN), 모티프 내용(MOTIF_CON), 및 정규식 패턴의 고유번호(PATTERN_ID)가 저장된다. [표 7]은 단백질 도메인 핑거프린트 결과가 저장되는 PRINTS 테이블(2226)에 저장되는 데이터를 나타낸다.

컬럼명	타입명	길이	Nulls
PRINT_ID	VARCHAR	60	NO
PRINT_ACC	VARCHAR	10	YES
PRINT_NAME	VARCHAR	50	YES
PRINT_DESC	VARCHAR	250	YES
FULL	MEDIUMTEXT		YES
CLONE_ID	VARCHAR	40	NO

[표 7]을 참조하면, PRINTS 테이블(2226)에는 단백질 도메인 핑거프린트 고유번호(PRINT_ID), 핑거프린트 접근 번호(PRINT_ACC), 핑거프린트 이름(PRINT_NAME), 핑거프린트 클래스별 상세 설명(PRINT_DESC), 핑거프린트 전체의 상세 설명(FULL), 및 EST 서열 고유 번호(CLONE_ID)가 저장된다.

이 외에도, REFERENCE 테이블(2227)에는 EST 서열 데이터베이스(221), 주석 데이터베이스(222), 및 관리 데이터베이스(223)와 연결되는 레퍼런스 데이터베이스(230) 관련 데이터(예를 들면, 서열관련 문헌의 고유번호(REF_ID), 유전자 제목(TITLE) 등)가 저장된다.

도 3을 참조하면, 관리 데이터베이스(223)에는 프로젝트 관리 정보 테이블(2231, 이하 PROJECT 테이블이라 칭함), 사용자 관리 정보 테이블(2232, 이하 USER 테이블이라 칭함), 및 히스토리 관리 정보 테이블(2233, 이하 HISTORY 테이블이라 칭함)이 포함된다. PROJECT 테이블(2231)에는 프로젝트 관리 정보가 저장되고, USER 테이블(2232)에는 프로젝트 이름(PROJECTNAME)이 저장되고, 각 프로젝트별 사용자 정보와 히스토리 정보가 USER 테이블(2232)과 HISTORY 테이블(2233)에 각각 저장된다. USER 테이블(2232)에는 사용자 아이디(USERID), 각 사용자별 패스워드(PASSWD), 프로젝트 이름(PROJECTNAME), 및 데이터베이스 접근 허용 정보(PERMISSION)가 저장된다. 그리고, HISTORY 테이블(2233)에는 사용자가 생성한 데이터베이스의 이름(DBNAME), 프로젝트 이름(PROJECTNAME), 데이터 입력 여부(DBINPUT), BLAST 검색 여부(BLAST), 번역 여부(TRANSLATION), PROSITE 검색 여부(PROSITE), PRINTS 검색 여부(PRINTS), RPS-BLAST 검색 여부(RPSBLAST), 기능 카테고리 파일 생성 여부(CATEGORY), 및 Remarkable hit 파일 생성 여부(REMARK)가 저장된다. 이와 같이, 본 발명에 따른 EST 분석 서버(200)는, 프로젝트 별 관리와, 프로젝트 내 연구자별 관리를 별도의 데이터베이스를 구성하여 관리하게 된다.

도 4는 도 1에 도시된 EST 서열 분석 서버(200)에서 수행되는 EST 서열 분석 프로그램을 수행하는 클라이언트 인터페이스상의 메뉴, 및 그 하위 메뉴를 보여주는 도면이다. 도 4를 참조하면, 본 발명에 따른 EST 서열 분석 서버(200)에서 수행되는 기능은 크게 서열/단백질 주석 분석 기능, 검색 기능, 전체 결과 보기 기능 및 데이터 관리 기능으로 구분된다.

주석 분석 기능을 수행하기 위해서는, 먼저 EST 서열 데이터가 저장될 EST 서열 데이터베이스(221)를 생성하고, 서열 결정법에 의해 얻어진 서열 데이터를 입력하게 된다. 주석 분석 기능의 수행에 대한 상세 내용은 다음과 같다.

도 5는 도 4에 도시된 데이터베이스 생성 메뉴가 선택되었을 때 실행되는 데이터베이스 생성 화면을 보여주는 도면이고, 도 6은 도 4에 도시된 데이터 입력 메뉴가 선택되었을 때 실행되는 데이터 입력 화면이다. 도 5를 참조하면, 데이터베이스 생성 화면에서 사용자가 원하는 이름을 입력하게 되면, 사용자가 지정한 이름을 가지는 EST 서열 데이터베이스(221)가 생성된다. EST 서열 데이터베이스(221)가 생성되면, 사용자는 도 6에 도시된 바와 같이, 이미 생성되어 있는 복수 개의 EST 서열 데이터베이스들 중 데이터가 입력될 데이터베이스를 선택하고, 선택된 데이터베이스에 ABI 파일 또는 FASTA 파일을 입력하게 된다. 사용자로부터 ABI 파일 또는 FASTA 파일 입력되면, EST 분석부(210)에 구비된 서열 입력부(250)는 해당 파일을 소정의 형식으로 변환하고, 이를 EST 서열 데이터베이스(221)에 저장한다.

다시 도 4를 참조하면, 본 발명에 따른 EST 서열 분석 서버(200)는 EST 서열 데이터베이스(221)에 저장된 서열을 하나씩 차례로 가져와서 서열 유사성(BLAST) 검색 및 번역을 수행하고, 단백질 도메인 정규식 검색(PROSITE), 단백질 도메인 핑거프린트 검색(PRINTS), 및 단백질 도메인 프로파일 검색(RPS-BLAST)을 수행한다. 이 같은 EST 서열 분석 및 단백질 도메인 분석은 분석 모듈별로 구성되어 사용자가 원하는 분석을 선별적으로 수행할 수 있도록 한다. 이에 대한 상세 내용은 다음과 같다.

도 7은 도 4에 도시된 BLAST 검색 메뉴가 선택되었을 때 실행되는 BLAST 검색 화면을 보여주는 도면이고, 도 8 및 도 9는 도 7에 의해 수행된 BLAST 검색 결과와, 그것의 정렬(alignment) 결과를 각각 보여주는 도면이다. 도 7 내지 도 9를 참조하면, 사용자가 도 7의 화면에서 검색에 사용될 EST 서열 데이터베이스(221), BLAST 검색 데이터베이스의 종류 및 E-value를 선택하게 되면, EST 서열 분석 서버(200)는 BLAST 데이터베이스(231)를 이용한 BLAST 검색을 수행하여, 도 8 및 도 9와 같은 BLAST 검색 결과를 얻게 된다. 여기서, 도 8은 E-value가 높은 순서대로 정렬된 검색 결과로서, 매칭된 곳을 그래픽을 이용해 보여준다. 이 때, 사용자가 임의의 데이터를 클릭하게되면, 해당 데이터에 대한 상세 정보가 검색되어 도 9와 같이 보여지게 된다.

도 10은 도 4에 도시된 번역(TRANSLATION) 메뉴가 선택되었을 때 수행되는 번역 결과를 보여주는 도면이다. 사용자가 입력한 서열 데이터는 도 10과 같이 소정의 형식으로 번역되고, 번역된 각각의 데이터는 아래와 같은 단백질 도메인 검색에 의해 그 특성이 분석된다.

도 11 및 도 12는 도 4에 도시된 PROSITE 메뉴가 선택되었을 때 수행되는 PROSITE 검색의 결과 및 그것의 상세 정보를 보여주는 도면이고, 도 13은 도 4에 도시된 PRINTS 메뉴가 선택되었을 때 수행되는 PRINTS 검색의 결과를 보여주는 도면이다. 도 11을 참조하면, 도 4에서 PROSITE 메뉴가 선택되는 경우, 유사성 있는 유전자로 판명된 데이터에 대한 단백질 도메인 정규식 검색이 수행되어, 도 11과 같은 결과를 얻게 된다. PROSITE 검색 결과는 EST 서열의 번역 프레임별로 표시될 수도 있고, 도메인 매치 부위를 그래픽 형식으로 보여줄 수도 있다. 그 결과, PROSITE 검색을 통해 새로운 단백질 서열의 기능을 예상할 수 있게 된다. 이어서, 도 4에서 PRINTS 메뉴가 선택되는 경우, 유사성 있는 유전자로 판명된 데이터에 대한 단백질 도메인 핑거프린트 검색이 수행되어, 도 13과 같이 번역 프레임에 대한 PRINTS 검색 결과를 클래스(class)별로 나열하여 보여주게 된다. 이 때, 사용자가 검색 결과 얻어진 임의의 데이터를 클릭하게 되면, 해당 데이터에 대한 상세 정보가 검색되어 보여주게 된다.

도 14는 도 4에 도시된 RPS-BLAST 메뉴가 선택되었을 때 수행되는 RPS-BLAST 검색 화면을 보여주는 도면이고, 도 15 및 도 16은 도 14에 의해 수행된 RPS-BLAST 검색 결과 및 그것의 정렬(alignment) 결과를 각각 보여주는 도면이다. RPS-BLAST 검색 결과는 EST 서열의 번역 프레임별로 보여주게 되는데, 이와 같은 RPS-BLAST 검색에 의해서 단백질 도메인 프로파일이 검색될 수 있게 된다.

이상과 같은 EST 서열에 대한 서열 유사성 검색과 단백질 도메인 검색이 모두 수행되고 나면, EST 분석 서버(200)는 임의의 EST 서열에 대한 서열 유사성 검색 결과와 단백질 도메인 검색 결과를 근거로 하여, 상기 EST 서열이 레퍼런스 데이터베이스(230)의 어느 EST 서열에 동정되었는지를 판별한다. 판별 결과, EST 서열이 동정되었으면, 상기 EST 서열에 대응되는 레퍼런스 데이터베이스(230)의 유전자 내용 중 필요 정보를 분석하고, 이를 EST 서열 및 분석결과 데이터베이스(220)의 주석 데이터베이스(222)에 저장한다. 이상과 같이 도 4에 도시된 EST 분석 서버(200)에서 수행되는 주석 분석 기능을 정리하면 다음과 같다.

도 17은 본 발명의 바람직한 실시예에 따른 EST 서열 분석 및 주석 데이터베이스(222)의 구축 방법을 보여주는 흐름도이다. 도 17을 참조하면, 본 발명에 따른 EST 서열 분석 및 주석 데이터베이스(222)의 구축은 크게 서열 유사성 검색과 단백질 도메인 검색에 의해 이루어진다.

서열 유사성 검색을 통해 주석 데이터베이스(222)를 구축하기 위해서는, 먼저 EST 서열 데이터베이스(221)를 생성한 후 서열 결정법에 의해 얻어진 서열 데이터를 입력함으로써 EST 서열 데이터베이스(221)를 구축한다(2500 단계). 이어서, EST 서열 데이터베이스(221)에 저장되어 있는 서열을 하나씩 차례로 가져온 후, 레퍼런스 데이터베이스(230)를 이용하여 서열 유사성 검색(BLAST)을 수행한다(2600단계). 그리고, 임의의 유전자 서열에 대한 서열 유사성 검색 결과를 근거로 하여 상기 EST 서열이 레퍼런스 데이터베이스(230)에 저장되어 있는 유전자 서열과 동정되었는지 여부를 판별한다(2900단계). 2900 단계에서의 판별 결과, 상기 EST 서열이 레퍼런스 데이터베이스(230)에 저장되어 있는 유전자 서열과 동정되었으면, 상기 EST 서열과 동정된 서열 유사성 검색 결과를 분석한 후(3100 단계), 분석 결과를 주석 데이터베이스(222)에 저장한다.

그리고, 단백질 도메인 검색을 통해 주석 데이터베이스(222)를 구축하기 위해서는, 먼저 EST 서열 데이터베이스(221)에 저장되어 있는 서열들이 번역되고 나면, 번역 결과를 EST 서열 데이터베이스(221)에 저장한다(2700 단계). 2700 단계에서 번역이 수행되고 나면 단백질 도메인 검색이 수행되는데(2710 단계), 단백질 도메인 검색은 크게 단백질 도메인 정규식 검색(PROSITE, 2720 단계), 단백질 도메인 핑거프린트 검색(PRINTS, 2730 단계), 및 단백질 도메인 프로파일 검색(RPS-BLAST, 2740 단계)으로 구성된다.

2710 단계에서 단백질 도메인 검색이 수행되고 나면, 수행된 단백질 도메인 검색 결과를 근거로 하여 해당 EST 서열이 레퍼런스 데이터베이스(230)에 저장되어 있는 단백질 도메인 서열과 동정되었는지 여부가 판별된다(3000 단계). 3000 단계에서의 판별 결과, EST 서열이 동정되었으면, 상기 EST 서열과 동정된 단백질 도메인 서열 검색 결과를 분석하고(3100 단계), 그 결과를 주석 데이터베이스(222)에 저장한다(3300 단계).

이와 같은 방법에 의해 구축된 EST 서열 데이터베이스(221) 및 주석 데이터베이스(222)는, EST 서열 데이터의 검색시 그 정보를 이용해 사용자에게 보여주며 상세 정보를 위한 웹 링크를 제공하는 특징을 가진다. 이들 데이터베이스(221, 222)를 이용한 검색은 다음과 같다.

도 4를 다시 참조하면, 본 발명에 따른 EST 분석 클라이언트(100)는 EST 분석 서버(200)에서 제공하는 EST 서열 및 분석결과 데이터베이스(220)에 대한 다각적인 검색을 수행하기 위해 ID 검색 메뉴, 키워드 검색 메뉴, 기능 카테고리 키워드 검색 메뉴, 및 Remarkable Hit 검색 메뉴를 구비한다.

도 18 내지 도 23은 도 4에 도시된 검색 메뉴별로 수행되는 EST 서열 데이터베이스(221) 및 주석 데이터베이스(222)에 대한 검색 화면 및 검색 결과를 보여주는 도면이다. 먼저, 도 18 및 도 19에는 도 4에 도시된 ID 검색 메뉴 하부 메뉴인 주석 데이터 검색 메뉴가 선택되었을 때 실행되는 주석 데이터 검색 화면 및 그것의 검색 결과가 각각 도시되어 있다. 도 18에서 사용자가 검색될 데이터베이스를 선택하고, 검색하고자 하는 EST서열의 ID를 입력하게 되면, 도 19에 도시된 바와 같이 서열 유사성 검색 결과를 포함한, 보다 상세한 서열 정보가 검색되어 보여지게 된다.

도 20 및 도 21은 도 4에 도시된 키워드 검색 메뉴가 선택되었을 때 실행되는 키워드 검색 화면 및 그것의 검색 결과를 보여주는 도면이다. 도 20에서 사용자가 검색될 데이터베이스를 선택하고, 유전자 제목 등과 같은 키워드와 E-value를 입력하게 되면, 도 21에 도시된 바와 같이 해당 EST서열 ID를 중심으로 유사성 있는 유전자들의 고유 ID와 유전자 제목 등이 검색되어 보여지게 된다. 이 때, 유전자의 고유 ID를 클릭하게 되면, 해당 유전자에 대한 서열 정보를 볼 수 있게 된다.

도 22 및 도 23은 도 4에 도시된 기능 카테고리 키워드 검색 메뉴가 선택되었을 때 실행되는 기능 카테고리 키워드 검색 화면 및 그것의 검색 결과를 보여주는 도면이다. 도 22에서 사용자가 검색될 데이터베이스를 선택한 후 검색을 수행하게 되면, 도 23에 도시된 바와 같이 각각의 기능 카테고리별로 유전자가 검색되어 보여지게 된다. 이 같은 기능 카테고리 키워드 검색은 고급 검색 기능 중 하나로서, 상기 유전자가 속한 카테고리를 기능별로 검색하여 기능별 유전자 정보를 추출한다.

도 24는 도 4에 도시된 Remarkable Hit 검색 메뉴가 선택되었을 때 실행되는 Remarkable Hit 검색 화면을 보여주는 도면이다. 도 25를 참조하면, Remarkable Hit 검색 기능은 검색된 결과 중 최상위의 결과만을 검색하여 보여주는 기능으로서, 도 4에 도시된 기능 카테고리 키워드 검색과 함께 고급 검색 기능에 속한다.

앞에서 설명한 바와 같이, 본 발명에 따른 EST 분석 서버(200)는 사용자가 선택한 검색 방법에 따라서 다양한 방식으로 분석 데이터 검색을 수행하며, EST 분석 클라이언트(100)는 다양한 방법으로 수행된 검색 결과를 화면상에 보여주게 된다. 이를 위해 본 발명에 따른 EST 분석 클라이언트(100)는 히트 리스트(Hit List) 보기, 및 히스토리 맵(History Map) 보기와 같은 다양한 전체 결과 보기 메뉴를 제공한다.

도 25는 도 4에 도시된 히트 리스트 검색 메뉴가 선택되었을 때 실행되는 히트 리스트 화면을 보여주는 도면이다. 도 25를 참조하면, EST에 대한 검색 결과는, 표 형태의 히트 리스트로 구성되어 보여지게 된다. 여기서, 히트 리스트의 가로축은 레퍼런스 데이터베이스의 종류를 나타내고, 히트 리스트의 세로축은 EST 서열 ID를 각각 나타낸다. 그리고, 각 검색 결과는 검색을 수행한 데이터베이스의 히트 유무에 따라 체크 표시로 나타낸다.

도 26은 도 4에 도시된 히스토리 맵 메뉴가 선택되었을 때 실행되는 히스토리 맵 화면을 보여주는 도면이다. 도 26을 참조하면, 히스토리 맵 기능은 모든 분석 과정을 하나의 맵으로 나타내고, 분석이 완료된 과정을 차별화 하여 보여주는 기능으로서, 사용자가 입력한 서열 데이터베이스별로 전체 EST 서열에 대한 분석 진행 상태가 표시되며, 검색이 완료된 것은 화면에 표시되는 색을 달리하여(예를 들면, 파란색) 표현된다. 이는 각각의 분석 작업이 완료된 후 관리 데이터베이스(223)의 히스토리 테이블에 저장된 수행 정보를 이용해서 생성된 도면으로, 사용자는 이 기능을 통해서 이미 수행된 EST 분석 상태를 확인하고, 분석의 계속 여부를 판단 할 수 있게 된다. 이상과 같은 본 발명에 따른 EST 분석 서버(200)의 검색 기능 및 결과 보기 기능을 정리하면 다음과 같다.

도 27은 본 발명의 바람직한 실시예에 따른 서열 검색 방법을 보여주는 흐름도이다. 도 27을 참조하면, 본 발명에 따른 서열 검색 방법은 먼저 검색 방법을 선택한다(2810 단계). 2810 단계에 의해 구분되는 서열 검색 방법은 크게 일반 검색과, 고급 검색으로 구분된다. 일반 검색은 다시 ID 검색과 키워드 검색으로 구분되고, 고급 검색은 Remarkable Hit 검색과 기능 카테고리 키워드 검색으로 구분된다.

예를 들어, 2810 단계에서 검색 방법으로 ID 또는 키워드 검색이 선택된 경우, 먼저 사용자로부터 검색에 사용될 유전자 ID 또는 키워드 검색어가 입력된다(2820 단계). 그리고, 2820 단계에서 입력된 검색어에 응답해서 EST 서열 데이터베이스(221) 및 주석 데이터베이스(222)로부터 EST 서열 및 주석 데이터가 검색되고(2830 단계), 검색된 EST 서열 데이터에 대응되는 유전자에 대한 상세 정보 및 단백질 도메인 정보가 추출된다(2840 단계). 이와 같은 과정에 의해 추출된 정보는 클라이언트(100)측에 검색 결과로서 보여지게 된다.(2880 단계)

그리고, 2810 단계에서 검색 방법으로 고급 검색이 선택된 경우, 고급 검색은 다시 Remarkable Hit 검색과 기능 카테고리 키워드 검색으로 구분된다(2850 단계). 2850 단계에서 Remarkable Hit 검색 기능이 선택되면, 주석 데이터베이스(222)로부터 최상위의 검색 결과들을 추출해서 Remarkable Hit 파일을 생성한다(2860 단계). 2860 단계에서 생성된 Remarkable Hit 파일은 클라이언트(100)측에 고급 검색 결과로서 보여지게 된다(2880 단계). 그리고, 2850 단계에서 기능 카테고리 키워드 검색이 선택되면, 주석 데이터베이스(222)로부터 각 기능별 카테고리에 대한 검색을 수행하게 된다(2870 단계). 2870 단계에서 검색된 자료는 클라이언트(100)측에 고급 검색 결과로서 보여지게 된다(2880 단계).

앞에서 설명한 바와 같이, 본 발명에 따른 EST서열 분석 시스템(200)은 생물 종별, 조직별 레퍼런스 유전자 데이터베이스를 사용한 EST 서열 유사성 검색, 단백질 도메인 정규식 검색, 도메인 핑거프린트 검색, 및 도메인 프로파일 검색을 통해서 EST 서열 및 분석결과 데이터베이스를 구축하고, 구축된 EST 서열 및 분석결과 데이터베이스에 대한 다각적인 검색을 통해서 유사성 있는 유전자의 상세 정보를 추출할 수 있고 도메인 관련 유전자 기능을 예측할 수 있다.

이상에서, 본 발명의 실시예로서 유전자 서열 정보와 유전자의 기능에 관한 정보를 가지는 UniGene, StackDB, RefSeq, TIGR 데이터베이스를 통한 EST 서열 분석 및 검색이 가능한 클라이언트/서버 기반 EST 서열 분석 시스템에 대해 구체적으로 예시되었으나, 그밖에도 다양한 레퍼런스 유전자 및 단백질 도메인 데이터베이스들이 본 발명에 적용될 수 있으며, 웹 상에서는 물론 온라인 및 오프라인 상에서도 본 발명이 적용될 수 있다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로 저장되고 실행될 수 있다.

이상에 설명한 바와 같이, 본 발명에 따른 클라이언트/서버 기반 EST 분석 시스템에 의하면, 대량으로 양산되는 EST 서열 결과물에 대한 데이터베이스화와 기존의 데이터베이스의 정보 비교, 및 검색 결과의 저장과 검색 기능이 효율적으로 통합될 수 있다. 따라서, 실험 EST 데이터의 데이터베이스화와 EST 서열 검색 결과의 분석이 통합된 분석 솔루션들에 의해 용이하게 수행될 수 있으며, 통합된 결과를 하나의 인터페이스를 통해 종합적으로 추출해 비교 분석 할 수 있다.

도 1은 본 발명의 바람직한 실시예에 따른 클라이언트/서버 기반 EST 분석 시스템의 블록도이다.

도 2 및 도 3은 도 1에 도시된 EST 서열 및 분석 결과 데이터베이스에 저장되는 정보 및 상기 정보들간의 관계를 보여주는 블록도이다.

도 4는 도 1에 도시된 EST 서열 분석 서버에서 수행되는 EST 서열 분석 프로그램을 수행하는 클라이언트 인터페이스상의 메뉴, 및 그 하위 메뉴를 보여주는 도면이다.

도 5는 도 4에 도시된 데이터베이스 생성 메뉴가 선택되었을 때 실행되는 데이터베이스 생성 화면을 보여주는 도면이다.

도 6은 도 4에 도시된 데이터 입력 메뉴가 선택되었을 때 실행되는 데이터 입력 화면이다.

도 7은 도 4에 도시된 BLAST 검색 메뉴가 선택되었을 때 실행되는 BLAST 검색 화면을 보여주는 도면이다.

도 8 및 도 9는 도 7에 의해 수행된 BLAST 검색 결과와, 그 것의 정렬(alignment) 결과를 각각 보여주는 도면이다.

도 10은 도 4에 도시된 번역(TRANSLATION) 메뉴가 선택되었을 때 수행되는 번역 결과를 보여주는 도면이다.

도 11 및 도 12는 도 4에 도시된 PROSITE 메뉴가 선택되었을 때 수행되는 PROSITE 검색의 결과 및 그것의 상세 정보를 보여주는 도면이다.

도 13은 도 4에 도시된 PRINTS 메뉴가 선택되었을 때 수행되는 PRINTS 검색의 결과를 보여주는 도면이다.

도 14는 도 4에 도시된 RPS-BLAST 메뉴가 선택되었을 때 수행되는 RPS-BLAST 검색 화면을 보여주는 도면이다.

도 15 및 도 16은 도 14에 의해 수행된 RPS-BLAST 검색 결과 및 그 것의 정렬(alignment) 결과를 보여주는 도면이다.

도 17은 본 발명의 바람직한 실시예에 따른 EST 서열 분석 및 주석 데이터베이스 구축 방법을 보여주는 흐름도이다.

도 18 및 도 19는 도 4에 도시된 ID 검색 메뉴 하부 메뉴인 주석 데이터 검색 메뉴가 선택되었을 때 실행되는 주석 데이터 검색 화면 및 그것의 검색 결과를 각각 보여주는 도면이다.

도 20 및 도 21은 도 4에 도시된 키워드 검색 메뉴가 선택되었을 때 실행되는 키워드 검색 화면 및 그것의 검색 결과를 보여주는 도면이다.

도 22 및 도 23은 도 4에 도시된 기능 카테고리 키워드 검색 메뉴가 선택되었을 때 실행되는 기능 카테고리 키워드 검색 화면 및 그것의 검색 결과를 보여주는 도면이다.

도 24는 도 4에 도시된 히트 리스트 검색 메뉴가 선택되었을 때 실행되는 히트 리스트 화면을 보여주는 도면이다.

도 25는 도 4에 도시된 Remarkable Hit 검색 메뉴가 선택되었을 때 실행되는 Remarkable Hit 검색 화면을 보여주는 도면이다.

도 26은 도 4에 도시된 히스토리 맵 메뉴가 선택되었을 때 실행되는 히스토리 맵 화면을 보여주는 도면이다.

도 27은 본 발명의 바람직한 실시예에 따른 서열 검색 방법을 보여주는 흐름도이다.

Claims

네트워크를 통해 연결된 적어도 하나 이상의 클라이언트로부터 프로젝트 및 사용자 관리 정보, 실험에 의해 산출된 EST(Expressed Sequence Tag) 서열 데이터 및 검색 단서를 받아들이고, 하기 분석결과 검색부에서 수행된 검색 결과를 상기 네트워크를 통해 상기 클라이언트에게 제공하는 입출력 관리자;

사용자로부터 입력된 상기 EST 서열 데이터를 저장하기 위한 EST 서열 데이터베이스, 하기 주석 분석부에서 수행된 유사성 검색 및 도메인 검색결과를 저장하기 위한 주석 데이터베이스 및 EST 분석과 관련된 상기 프로젝트 관리 정보 및 상기 사용자 관리 정보를 저장하기 위한 관리 데이터베이스를 포함하는 제 1 데이터베이스;

서열 유사성 검색을 수행하기 위한 BLAST 데이터베이스 및 상기 단백질 도메인 검색을 수행하기 위한 도메인 검색 데이터베이스를 포함하는 검증된 다량의 유전자 및 단백질 서열 데이터가 저장된 제 2 데이터베이스;

상기 입출력 관리자를 통해 받아들인 EST 서열 데이터를 소정의 포맷으로 변환하여 제 1 데이터베이스에 저장하는 서열 입력부;

상기 제 2 데이터베이스의 BLAST 데이터베이스를 이용하여 상기 제 1 데이터베이스에 저장된 EST 서열 데이터에 대한 BLAST 검색을 수행하여 상기 EST 서열이 상기 BLAST 데이터베이스에 저장되어있는 어느 유전자 서열과 유사한지를 규명하고 규명된 상기 결과를 상기 주석 데이터베이스에 저장하는 제 1 주석 분석부 및 상기 제 2 데이터베이스의 도메인 검색 데이터베이스를 이용하여 상기 제 1 데이터베이스에 저장된 EST 서열 데이터에 대한 단백질 검색을 수행하고 상기 검색 결과를 상기 주석 데이터베이스에 저장하는 제 2 주석 분석부를 포함하는 주석 분석부; 및

사용자로부터 입력된 검색 단서에 응답해서 상기 제 1 데이터베이스에 저장되어 있는 데이터에 대한 검색을 수행하는 분석결과 검색부를 포함하는 것을 특징으로 하는 EST 서열 분석 시스템.
삭제
삭제
삭제
제 1 항에 있어서, 상기 제 2 데이터베이스의 도메인 검색 데이터베이스는

상기 EST 서열에 대한 단백질 도메인 정규식 검색을 수행하기 위한 제 1 도메인 검색 데이터베이스;

상기 EST 서열에 대한 단백질 도메인 핑거프린트 패턴 검색을 수행하기 위한 제 2 도메인 검색 데이터베이스; 및

상기 EST 서열에 대한 단백질 프로파일 검색을 수행하기 위한 제 3 도메인 검색 데이터베이스를 포함하는 것을 특징으로 하는 EST 서열 분석 시스템.
제 1 항에 있어서,

상기 입출력 관리자를 통해 입력되는 상기 EST 서열 데이터는, ABI 형식의 파일 및 FASTA 형식의 서열 파일을 포함하는 것을 특징으로 하는 EST 서열 분석 시스템.
제 6 항에 있어서,

상기 서열 입력부는, 상기 ABI 파일을 읽어들여 서열로 변환하고, 변환된 상기 서열 또는 상기 FASTA 서열을 소정의 데이터 형식으로 변환하여 상기 EST 서열 데이터베이스에 저장하고, 상기 프로젝트 관리 정보 및 상기 사용자 관리 정보를 상기 관리 데이터베이스에 저장하는 것을 특징으로 하는 EST 서열 분석 시스템.
삭제
제 1 항에 있어서,

상기 분석결과 검색부는, 사용자로부터 입력되는 상기 검색 단서에 응답해서, ID 검색과 키워드 검색을 포함하는 일반검색, 및 기능 카테고리 키워드 검색과 상기 일반 검색 결과에서 최상위 결과를 추출하는 Remarkable Hit 검색을 포함하는 고급 검색 중 어느 하나를 수행하고, 상기 검색 결과를 히트 리스트 형태 및 전체 EST 서열에 대한 분석 진행 상태를 나타내는히스토리 맵 형태 중 어느 하나로 표시하는 것을 특징으로 하는 EST 서열 분석 시스템.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제