KR20120053623A

KR20120053623A - 군집 및 백본 데이터베이스 기반 바이오 메디컬 통합 정보 검색 방법 및 시스템

Info

Publication number: KR20120053623A
Application number: KR1020100114837A
Authority: KR
Inventors: 정종선
Original assignee: (주)신테카바이오
Priority date: 2010-11-18
Filing date: 2010-11-18
Publication date: 2012-05-29

Abstract

본 발명은 사용자가 입력한 유전자, 화합물 및 다형성 데이터에 대한 유전학적 정보 및 이들과 유사성을 갖는 정보를 검색하여 사용자에게 제공하는 시스템 및 방법에 관한 것으로, 본 발명은 사용자로부터 검색 대상 데이터(Query)를 입력받아 검색을 수행하는 검색엔진과; 유전자 정보를 저장하는 유전자 데이터베이스를 포함하여 구성되고: 상기 유전자 데이터베이스는, 알려진 유전자와 이들의 밝혀진 특성을 저장하는 유전자 백본 DB와; 상기 유전자 백본 DB에 포함된 각 유전자들 간의 연관성을 저장하는 유전자 군집 DB를 포함하여 구성되며: 상기 유전자 백본 DB 또는 상기 유전자 군집 DB는, 구분 인자로 구분된 형태의 데이터(RVR 파일)로 저장되고; 상기 구분 인자의 기록위치를 저장한 인덱스 파일(RAT 파일)을 포함하여 구성되며: 상기 검색엔진은, 상기 검색 대상 데이터를 상기 유전자 백본 DB에서 검색하고, 상기 유전자 군집 DB에서 상기 검색 대상 데이터와 관련된 연관 유전자를 검색하여 검색된 결과를 사용자에게 전송하는 바이오메디컬 정보제공 시스템을 포함한다. 이와 같은 본 발명에 의하면, 바이오메디컬 정보 검색에 있어, 검색속도가 향상되고, 유사성 있는 관련 정보를 함께 제공할 수 있는 장점이 있다.

Description

군집 및 백본 데이터베이스 기반 바이오 메디컬 통합 정보 검색 방법 및 시스템{CLUSTER AND BACKBONE DB-BASED ONE-STOP SERVICE SYSTEM AND METHOD FOR BIOMEDICAL INFORMATION RETRIEVAL}

본 발명은 사용자가 입력한 유전자, 화합물, 다형성 정보, 유전자 상호작용 정보 및 단백질 시그널 네트워크 데이터에 대한 유전학적 정보 및 이들과 유사성을 갖는 정보를 검색하여 사용자에게 통합정보를 제공하는 시스템 및 방법에 관한 것이다.

본원 발명의 출원인은 특허등록 2009-0880531호에서, 대규모 데이터에 대하여 상기 데이터에 포함된 특정 검색 데이터로의 접근시간을 감소시키기 위하여, 데이터를 RVR 파일 및 RAT 파일 형태로 변환하여 저장하고, 저장된 데이터를 검색하는 방법에 대하여 특허등록을 받은 바 있다.

본 발명은 특허등록 2009-0880531호에서 개시한 RVR/RAT 파일로 저장된 기준 데이터를 이용하여 확인대상 데이터가 입력되는 경우, 이에 대한 정보를 검색하여 이를 사용자에게 제공하는 시스템에 관한 것이다.

지금까지 알려진 유전자 정보(질병관련 유전자 포함)를 데이터베이스화 하는 경우, 그 개수는 약 42,000,000 개에 달하고, 화합물 정보를 데이터베이스화 하는 경우, 그 개수는 약 28,000,000 개에 달하며, 다형성 정보를 데이터베이스화 하는 경우 그 개수는 약 23,000,000 개에 달한다.

여기서 상기 다형성 정보라 함은, SNP(Single Nucleotide Polymorphism)를 말하는 것으로, 다른 말로 '개체간 단일염기변이, 단일유전자변이, 단일염기다형성' 등으로 일컬어진다.

SNP는 세포핵 속의 염색체가 갖고 있는 30억개의 염기 서열 중 개인의 편차를 나타내는 한 개 또는 수십 개의 염기변이를 말하고, 여러 사람들의 DNA 염기순서를 비교하며 수백 염기 서열을 읽으면 흔히 다른 염기가 같은 위치에서 발견되는데 이러한 다형성을 SNP이라고 한다.

사람마다 머리색깔, 피부, 키, 눈색깔 등이 다르고 같은 약을 사용해도 사람마다 반응이 제각각 다르게 나타나는 것도 모두 SNP 때문이고, 한국인이 서양인에 비해 위암과 간암에 잘 걸리는 것도 이러한 차이에서 기인한다.

SNP가 단백질을 만드는 부분에 있을 경우 엉뚱한 단백질을 만들어 치명적 질병을 일으킬 수 있다. 혈우병 역시 단 하나의 염기변이로 일어난다.

하지만 모든 SNP가 질병을 일으키는 것은 아니다. 대부분(100만개 SNP 중 약 95%)은 유전적 근접성을 알려주는 지표 역할을 한다. 즉 가계가 가까우면 유전적으로 비슷하고 이에 따라 질병의 발병유형도 비슷하다는 것이다.

때문에 SNP의 패턴을 분석하면 어떤 유전적 형질일 때 어떤 병이 많은지, 같은 병이라도 한국인과 미국인은 발병 원인이 왜 다른지, 이에 따라 효과적인 약물이 무엇인지를 판단하는 근거가 된다.

따라서 SNP연구는 맞춤 의약, 신약 개발에까지 연결된다. 개인의 다양한 생리작용과 체질의 변화, 발병 가능성을 조기에 진단·예측할 수 있으며 환자에 따라 맞는 약을 진단, 처방할 수 있다.

또한, 유전자의 산물인 단백질들 간에 상호작용 할 것으로 예상되는 신규 유전자 리스트를 가지고 유전자 기능을 위한 시그널링 네트워크를 형성하는 연구는 많은 실험 연구 비용이 들어간다. 그러나, 본 특허에서 제시하는 방법인 종간에 다른 유전자들에는 기능적으로 혹은 단백질 아미노산 유사성에 기인한 도메인 상동성이 존재한다. 그리고, 이러한 도메인 상동성 정보(예, PFAM DB)를 활용하면 신규 단백질들의 기능, 시그널링 네트워크 및 상호작용을 예측하는데 활용할 수 있다.

종래 바이오메디컬 검색 시스템은, 전술한 바와 같이 데이터의 방대함으로 인하여, 검색 시간이 과도하게 소요되는 문제점이 있었다.

또한, 검색 대상 데이터가 입력되는 경우, 상기 검색 대상 데이터에 대한 정보만을 제공해주므로, 검색 대상 데이터와 다른 정보와의 관련성을 파악할 수 없는 문제점이 있었다.

본 발명은 상기와 같은 종래의 문제점을 해결하기 위하여 안출된 것으로, 검색 대상 데이터에 대한 정보와 이와 관련된 유관 데이터를 함께 검색하여 제공하도록 하는 바이오 메디컬 정보 제공 시스템 및 방법을 제공하는 것이다.

상기한 바와 같은 목적을 달성하기 위한 본 발명의 특징에 따르면, 본 발명은 사용자로부터 검색 대상 데이터(Query)를 입력받아 검색을 수행하는 검색엔진과; 유전자 정보를 저장하는 유전자 데이터베이스를 포함하여 구성되고: 상기 유전자 데이터베이스는, 알려진 유전자와 이들의 밝혀진 특성을 저장하는 유전자 백본 DB와; 상기 유전자 백본 DB에 포함된 각 유전자들 간의 연관성을 저장하는 유전자 군집 DB를 포함하여 구성되며: 상기 유전자 백본 DB 또는 상기 유전자 군집 DB는, 구분 인자로 구분된 형태의 데이터(RVR 파일)로 저장되고; 상기 구분 인자의 기록위치를 저장한 인덱스 파일(RAT 파일)을 포함하여 구성되며: 상기 검색엔진은, 상기 검색 대상 데이터를 상기 유전자 백본 DB에서 검색하고, 상기 유전자 군집 DB에서 상기 검색 대상 데이터와 관련된 연관 유전자를 검색하여 검색된 결과를 사용자에게 전송하는 바이오메디컬 정보제공 시스템을 포함한다.

이때, 상기 유전자 군집 DB는 상기 유전자 백본 DB에 포함된 각 유전자들의 연관성에 대한 링크 구조로 구성될 수도 있다.

한편, 본 발명은 사용자로부터 검색 대상 데이터(Query)를 입력받아 검색을 수행하는 검색엔진과; 화합물 정보를 저장하는 화합물 데이터베이스를 포함하여 구성되고: 상기 화합물 데이터베이스는, 알려진 화합물과 이들의 밝혀진 특성을 저장하는 화합물 백본 DB와; 상기 화합물 백본 DB에 포함된 각 화합물들 간의 연관성을 저장하는 화합물 군집 DB를 포함하여 구성되며: 상기 화합물 백본 DB 또는 상기 화합물 군집 DB는, 구분 인자로 구분된 형태의 데이터(RVR 파일)로 저장되고; 상기 구분 인자의 기록위치를 저장한 인덱스 파일(RAT 파일)을 포함하여 구성되며: 상기 검색엔진은, 상기 검색 대상 데이터를 상기 화합물 백본 DB에서 검색하고, 상기 화합물 군집 DB에서 상기 검색 대상 데이터와 관련된 연관 화합물을 검색하여 검색된 결과를 사용자에게 전송하는 바이오메디컬 정보제공 시스템을 포함한다.

이때, 상기 연관성은, 화합물의 구조 또는 생리적 작용을 포함할 수도 있다.

그리고 상기 화합물 군집 DB는 상기 화합물 백본 DB에 포함된 각 화합물들의 연관성에 대한 링크 구조로 구성될 수도 있다.

또한, 본 발명은 사용자로부터 검색 대상 데이터(Query)를 입력받아 검색을 수행하는 검색엔진과; 염기서열 및 다형성 정보가 다형성 데이터베이스를 포함하여 구성되고: 상기 다형성 데이터베이스는, 특정 종의 염기서열 구조를 저장하는 염기서열 기본 DB와, 상기 염기서열 중 특정 집단 내에서 유전되는 염기서열 블록(연관블록, Linkage disequilibrium)에 대한 정보를 저장하는 연관블록 DB; 그리고 특정 염기 변형에 대한 질병 및 /유전 형질과 관련된 정보가 저장되는 형질정보 DB를 포함하여 구성되고: 상기 검색엔진은, 상기 검색 대상 데이터를 상기 기본 염기서열 DB와 비교하여 상기 검색대상 데이터의 위치를 판단하고; 상기 검색대상 데이터의 위치가 연관블록을 포함하고 있으면, 상기 연관블록을 통해 상기 검색 대상 데이터의 개체가 포함된 집단을 판단하여, 상기 집단의 유전학적 형질정보를 사용자에게 전송하는 바이오메디컬 정보제공 시스템을 포함한다.

여기서, 상기 염기서열 기본 DB, 연관블록 DB 또는 형질정보 DB 중어느 하나 이상은, 구분 인자로 구분된 형태의 데이터(RVR 파일)로 저장되고; 상기 구분 인자의 기록위치를 저장한 인덱스 파일(RAT 파일)을 포함하여 구성될 수도 있다.

그리고 상기 검색엔진은, 상기 검색 대상 데이터 염기서열을 설정된 검색단위로 분할하고; 상기 분할된 각각의 검색 대상 데이터를 기준 염기서열과 비교하여, 상기 분할된 검색대상 데이터가 포함된 상기 기준파일의 구분 인자를 검출하며; 상기 각 검색 대상 데이터에 공통되어 포함된 대응 식별자를 판별하여 상기 검색 대상 데이터의 위치를 판단할 수도 있다.

또한, 본 발명은 사용자로부터 검색 대상 데이터(Query)를 입력받아 검색을 수행하는 검색엔진과; 유전자 리스트 및 관련 유전자의 도메인 정보 데이터베이스(예, PFAM DB)를 포함하여 구성되고: 상기 도메인 정보 데이터베이스는, 특정 종의 유전자 백본 DB에 리크 형식으로 연관성을 형성하며, 상기 도메인 중 서로 다른 종 내에서 존재하는 도메인에 대한 정보를 저장하는 도메인 상동성 군집 DB; 그리고 도메인들 간의 상호작에 대한 정보가 저장되는 상호작용 및 시그널링 네트워크 DB를 포함하여 구성되고: 상기 검색엔진은, 상기 검색 대상 데이터를 상기 도메인 DB와 비교하여 상기 검색대상 데이터의 도메인을 가장 많이 포함하는 상호작용 및 시그널링 네트워크DB를 검색하고; 상기 검색대상 데이터의 레코드 간의 상호작용 정보를 포함하고 있으면, 상기 유전자 도메인 DB을 통해 상기 검색 대상 데이터의 개체가 포함된 상호작용을 판단하여, 상기 신규 유전자들의 상호작용 및 시그널링 네트워크를 사용자에게 전송하는 바이오 메디컬 정보제공 시스템을 포함한다.

한편, 본 발명은 (A) 사용자 단말기로부터 검색을 위한 검색 대상 데이터를 입력받는 단계와; (B) 상기 검색 대상 데이터가 유전자 정보인 경우, 검색엔진이 유전자 백본 DB를 통해 상기 검색 대상 데이터에 대한 정보를 검색하는 단계와; (C) 유전자 군집 DB를 검색하여, 상기 검색 대상 데이터와 연관된 유전자들을 검출하는 단계와; (D) 상기 검출된 연관 유전자에 대한 정보를 검색하는 단계; 그리고 (E) 상기 검색된 검색 대상 데이터의 정보, 상기 연관 유전자 및 상기 연관유전자의 정보를 사용자에게 전송하는 단계를 포함하여 수행되는 하는 바이오 메디컬 정보 검색 방법을 포함한다.

이때, 상기 (B) 단계는, (B1) 상기 검색 대상 데이터를 상기 유전자 백본 DB의 RAT 파일에서 검색하는 단계와; (B2) 검색된 검색 대상 데이터에 대한 내용이 기록된 RVR 파일의 기록위치를 검출하여, 상기 검출된 기록위치로부터 해당 검색 대상 데이터에 대한 정보를 독출하는 단계를 포함하여 수행될 수도 있다.

그리고 본 발명은 (a) 사용자 단말기로부터 검색을 위한 검색 대상 데이터를 입력받는 단계와; (b) 상기 검색 대상 데이터가 화합물 정보인 경우, 검색엔진이 화합물 백본 DB를 통해 상기 검색 대상 데이터에 대한 정보를 검색하는 단계와; (c) 상기 군집 DB를 검색하여, 상기 검색 대상 데이터과 연관된 화합물들을 검출하는 단계와; (d) 상기 검출된 연관 화합물에 대한 정보를 검색하는 단계; 그리고 (e) 상기 검색된 검색 대상 데이터의 정보, 상기 연관 화합물 및 상기 연관 화합물의 정보를 사용자에게 전송하는 단계를 포함하여 수행되는 바이오 메디컬 정보 검색 방법을 포함한다.

여기서, 상기 (b) 단계는, (b1) 상기 검색 대상 데이터를 상기 화합물 백본 DB의 RAT 파일에서 검색하는 단계와; (b2) 검색된 검색 대상 데이터에 대한 내용이 기록된 RVR 파일의 기록위치를 검출하여, 상기 검출된 기록위치로부터 해당 검색 대상 데이터에 대한 정보를 독출하는 단계를 포함하여 수행될 수도 있다.

한편, 본 발명은 (Ⅰ) 사용자 단말기로부터 검색을 위한 검색 대상 데이터를 입력받는 단계와; (Ⅱ) 상기 검색 대상 데이터가 염기서열 데이터인 경우, 검색엔진이 염기서열 기본 DB를 통해 상기 검색 대상 데이터의 위치정보를 산출하는 단계와; (Ⅲ) 상기 검색엔진이 형질정보 DB를 검색하여, 상기 검색 대상 데이터에 대한 다형성 정보를 검색하는 단계와; (Ⅳ) 연관블록 DB를 검색하여 상기 검색 대상 데이터의 위치가 연관 블록에 해당하는지 여부를 판별하는 단계와; (Ⅴ) 상기 검색 대상 데이터가 연관 블록에 해당하는 경우, 해당 연관 블록을 갖는 특정 집단을 판별하는 단계와; (Ⅵ) 상기 특정 집단의 유전성 다형성 정보를 검색하는 단계; 그리고 (Ⅶ) 상기 검색 대상 데이터에 대한 다형성 정보 및 상기 검색 대상 데이터가 속하는 상기 특정 집단의 유전성 다형성 정보를 사용자에게 전송하는 단계를 포함하여 수행되는 바이오 메디컬 정보 검색 방법을 포함한다.

이때, 상기 염기서열 기본 DB에는 기준 염기서열이 구분 인자로 구분된 형태(RVR 파일)로 저장되고, 상기 구분 인자의 기록위치를 저장한 인덱스 파일(RAT 파일)을 포함하여 구성되며: 상기 제(Ⅱ)단계는, (Ⅱ1) 상기 검색 대상 데이터 염기서열을 설정된 검색단위로 분할하는 단계와; (Ⅱ2) 상기 분할된 각각의 검색 대상 데이터를 기준 염기서열과 비교하여, 상기 분할된 검색대상 데이터가 포함된 상기 기준파일의 구분인자를 검출하는 단계; 그리고 (Ⅱ3) 상기 각 검색 대상 데이터에 공통되어 포함된 대응 식별자를 판별하여 상기 검색 대상 데이터의 위치를 판단하는 단계를 포함하여 수행될 수도 있다.

한편, 본 발명은 사용자로부터 검색 대상 데이터(Query)를 입력받아 검색을 수행하는 검색엔진과; 알려진 유전자와 이들의 밝혀진 특성을 저장하는 유전자 백본 DB를 포함하여 구성되는 유전자 데이터베이스와; 알려진 화합물과 이들의 밝혀진 특성을 저장하는 화합물 백본 DB를 포함하여 구성되는 화합물 데이터베이스와; 특정 염기 변형에 대한 질병 및 /유전 형질과 관련된 정보가 저장되는 형질정보 DB를 포함하여 구성되는 다형성 데이터베이스; 그리고 유전자, 화합물 및 다형성 간의 연관관계를 저장하는 컨버전스 DB를 포함하여 구성되고: 상기 컨버전스 DB는 상기 유전자 백본 DB에 포함된 각 유전자와 이와 관련된 상기 화합물 백본 DB에 포함된 각 화합물의 연관관계가 저장된 유전자/화합물 관련 DB와; 상기 유전자 백본 DB에 포함된 각 유전자와 이와 관련된 상기 형질 정보 DB에 포함된 각 염기서열의 연관관계가 저장된 유전자/다형성 관련 DB; 그리고 상기 화합물 백본 DB에 포함된 각 화합물과 이와 관련된 상기 형질정보 DB에 포함된 각 염기서열의 연관관계가 저장된 화합물/다형성 관련 DB를 포함하여 구성되며: 상기 검색엔진은, 검색 대상 데이터를 상기 컨버전스 DB를 통해 검색하여, 상기 검색대상 데이터와 관련된 관련 유전자, 화합물 또는 다형성 정보를 추출하고, 상기 추출된 상기 유전자, 화합물 또는 다형성 정보에 관한 정보를 상기 유전자 데이터베이스, 화합물 데이터 베이스 또는 다형성 데이터 베이스에서 검색하여 사용자에게 제공하는 군집 및 백본 데이터베이스 기반 바이오 메디컬 통합 정보 검색 시스템을 포함하여 구성된다.

이때, 상기 검색엔진은, 상기 검색 대상 데이터의 종류에 따라 유전자 데이터베이스, 화합물 데이터베이스 또는 다형성 데이터베이스를 검색하여, 상기 검색 대상 데이터에 대한 정보를 추출하여 사용자에게 제공할 수도 있다.

그리고 상기 유전자/화합물 DB, 상기 유전자/다형성 DB 및 상기 화합물/다형성 관련 DB 중 어느 하나 이상은, 구분 인자로 구분된 형태의 데이터(RVR 파일)로 저장되고; 상기 구분 인자의 기록위치를 저장한 인덱스 파일(RAT 파일)을 포함하여 구성될 수도 있다.

위에서 살핀 바와 같은 본 발명에 의한 바이오 메디컬 정보 제공 시스템 및 방법에서는 다음과 같은 효과를 기대할 수 있다.

즉, 유전자 검색에 있어, 검색 대상 유전자에 대한 검색속도가 향상되고, 다른 종에서의 동일 유전자에 대한 정보와 같은 유사 유전자에 대한 정보를 제공할 수 있는 장점이 있다.

또한, 본 발명은 화합물 검색에 있어, 검색 대상 화합물에 대한 검색속도가 향상되고, 유사 구조를 갖는 화합물에 대한 정보를 제공할 수 있는 장점이 있다.

그리고 본 발명은 다형성 정보 검색에 있어, 검색 대상 DNA에 대한 검색속도가 향상되고, 해당 DNA에 대한 다형성 정보가 없는(Unknown) 경우에도, 해당 DNA를 통해 동일군을 판별하여 동일군 내의 유전형질에 대한 데이터를 제공할 수 있는 장점이 있다.

또한, 본 발명은 단백질 상호작용 및 시그널링 네트워크 검색에 있어, 검색 대상 단백질에 대한 검색속도가 향상되고, 해당 단백질 상호작용에 대한 상호작용 및 기능 네트워크 정보가 없는(Unknown) 경우에도, 해당 단백질 상호작용 및 기능 네트워크를 형성하는 도메인 군집 데이터(예, PFAM)를 통해 유사 한 도메인들이 갖는 상호작용 및 네트워크 정보를 제공할 수 있는 장점이 있다.

도 1은 본 발명에 의한 바이오 메디컬 정보 제공 시스템의 구체적인 실시예의 구성을 도시한 블록도.
도 2는 본 발명에 의한 유전자 군집 DB의 일 예를 단순화 및 가시화하여 도시한 예시도.
도 3은 본 발명에 의한 화합물 군집 DB의 일 예를 단순화 및 가시화하여 도시한 예시도.
도 4는 본 발명에 의한 연관 블록 DB의 일 예를 단순화 및 가시화 하여 도시한 예시도.
도 5는 본 발명에 의한 바이오 메디컬 정보 제공 방법의 구체적인 실시예를 도시한 흐름도.
도 6은 본 발명에 의한 염기서열 기준데이터의 일 예를 도시한 예시도.
도 7은 본 발명에 의한 Query 염기서열의 일 예를 도시한 예시도.
도 8은 본 발명에 의한 Query 염기서열이 분할된 일 예를 도시한 예시도.
도 9는 본 발명에 의한 염기서열 검색결과 파일의 일 예를 도시한 예시도.
도 10은 본 발명에 의한 유전자 정보, 화합물 정보 및 다형성 정보의 연관 관계를 도시한 예시도.
도 11은 본 발명에 의한 바이오 메디컬 정보 제공 시스템의 다른 실시예의 구성을 도시한 블록도.
도 12는 본 발명에 적용되는 상호작용 정보 및 유전자 시그널링 네트워크의 일예를 도시한 예시도.
도 13은 본 발명에 적용되는 단백질 도메인의 일 예를 도시한 예시도.

이하에서는 상기한 바와 같은 본 발명에 의한 바이오 메디컬 정보 제공 시스템 및 방법의 구체적인 실시예를 첨부된 도면을 참고하여 상세하게 설명한다.

도 1은 본 발명에 의한 바이오 메디컬 정보 제공 시스템의 구체적인 실시예의 구성을 도시한 블록도이다.

이에 도시된 바와 같이, 본 발명에 의한 바이오메디컬 정보제공 시스템(100)은, 사용자로부터 검색 대상 데이터(이하 'Query'라 함)를 입력받아 검색을 수행하는 검색엔진(110)과, 유전자 정보를 저장하는 유전자 데이터베이스(120)와, 화합물 정보를 저장하는 화합물 데이터베이스(130)와, 염기서열 및 다형성 정보에 관한 블록(LD, Linkage disequilibrium) 정보가 저장되는 다형성 데이터베이스(140)를 포함하여 구성된다.

상기 검색엔진(110)은, 상기 유전자 데이터베이스(120), 화합물 데이터베이스(130) 및 다형성 데이터베이스(140)에 저장된 데이터를 사용자가 입력한 Query에 따라 검색하는 부분으로, 이하 각 데이터베이스의 구조를 설명한 후, 본 발명의 구동 방법을 설명함에 있어 상세히 설명하기로 한다.

먼저, 상기 유전자 데이터베이스(120)를 살펴보면, 상기 유전자 데이터베이스(120)는 도 1에 도시한 바와 같이, 유전자 백본 DB(122)(Data base)와 유전자 군집 DB(124)를 포함하여 구성된다.

상기 유전자 백본 DB(122)는 현재까지 알려진 유전자와 이들의 밝혀진 특성을 저장하는 부분이다.

한편, 현재 알려진 유전자의 개수는 약 42,000,000 개에 달하고, 지속적으로 수많은 유전자가 발견되고 있는바, 이들 방대한 양의 데이터에 대한 검색속도를 고려하여 상기 유전자 백본 DB(122)는 구분 인자로 구분된 데이터(RVR 파일)로 저장되고, 이들 각 구분 인자의 기록위치를 저장한 인덱스 파일(RAT 파일)을 포함하여 구성되는 것이 바람직하다.

여기서 RVR 파일이란 원본 데이터를 설정된 구분 단위로 구분하여 변환된 파일 형식을 말하고, RAT 파일이라 함은 상기 RVR 파일의 레코딩 단위의 위치 및 관계를 기록한 파일을 말하는 것으로 상기 RVR 파일 및 RAT 파일의 구조 및 특성에 대하여는, 본 출원인의 선 특허등록 2009-0880531호의 공개공보에 개시된 바 있으므로, 이에 대하여 본 명세서에서 상세히 설명하지는 않도록 한다.

다음으로 상기 유전자 군집 DB(124)는 유전자 백본 DB(122)에 포함된 각 유전자들 간의 연관성을 저장하는 부분이다.

상기 유전자 군집 DB(124)는 상기 유전자 백본 DB(122)에 포함된 각 유전자에 대하여, 연관된 유전자를 정리하여 저장할 수도 있으나, 이와 같은 경우 유전자 군집 DB(124)의 데이터 량이 과도하게 방대해지므로, 바람직하게는 각 유전자에 대한 관련도에 대한 링크 구조로 저장되는 것이 바람직하다.

예를 들어, 도 2에 도시된 바와 같이, 각 유전자들이 연관도에 따라 서로 링크된 구조로 연결된다. 이때, 상기 연관도의 구체적인 내용을 살펴보면, 동일 유전자의 각기 종에서 명칭/유전자 구조의 유사성/연관 형질의 연관성 등일 수 있다.

즉, 어떤 특정 유전자가 인간에게는 NBS37-1 로 표현되고, 이와 동일한 유전자가 돼지에게는 RPS2 로 표현된다고 가정할 때, 이들 유전자 간에는 특별한 연관성이 있다고 설정된다.

실제로, 특정 유전자가 특정 종에서 특정 질병과 관련된 유전 형질을 발현하는 경우, 동일 유전자가 다른 종에서도 또 다른 어떤 질병과 관련된 유전 형질을 나타내는데 관여하는 경우가 많다.

따라서, 본 발명에 의한 바이오메디컬 정보제공 시스템(100)을 이용하여 미지의 특정 유전자를 검색하여 이와 관련된 다른 유전자의 특성을 살필 수 있어, 미지의 유전자 특성을 연구하는데 큰 기본 지식이 될 수 있다.

다음으로, 화합물 데이터베이스(130)를 살펴보면, 상기 화합물 데이터베이스(130)는 도 1에 도시한 바와 같이, 화합물 백본 DB(132)와 화합물 군집 DB(134)를 포함하여 구성된다.

상기 화합물 백본 DB(132)는 현재까지 알려진 화합물과 이들의 밝혀진 특성을 저장하는 부분이다.

한편, 현재 알려진 화합물의 개수는 약 28,000,000 개에 달하고, 지속적으로 수많은 화합물이 발견 또는 만들어지고 있는바, 이들 방대한 양의 데이터에 대한 검색속도를 고려하여 상기 화합물 백본 DB(132) 역시 RVR 파일 및 RAT 파일로 구성되는 것이 바람직하다.

그리고 상기 화합물 군집 DB(134)는 화합물 백본 DB(132)에 포함된 각 화합물 간의 연관성을 저장하는 부분이다.

상기 화합물 군집 DB(134)는 상기 화합물 백본 DB(132)에 포함된 각 유전자에 대하여, 연관된 화합물을 정리하여 저장할 수도 있고, 각 유전자에 대한 관련도에 대한 링크 구조로 저장될 수도 있다.

상기 화합물 군집 DB(134)는 각 화합물들이 연관도에 따라 정리되어 저장되는데, 이때, 상기 연관도는 화합물의 특성상 화합물 구조/화학적 특성(약리효과) 등일 수 있다.

예를 들어, 도 3에 도시된 바와 같이, 각 화합물의 구조적 유사성에 따라 각 군(1군:유사성 90%이상, 2군 : 유사성 80%~90% 등...)으로 나누어 정리될 수 있다.

실제로, 특정 화합물과 구조적을 유사한 화합물인 경우, 동일 또는 유사한 화학적 특성(약리효과)를 나타내는 경우가 많고, 따라서, 본 발명에 의한 미지의 특정 화합물을 검색하여 이와 관련된 다른 화합물의 특성을 살피면, 미지의 화합물 특성을 연구하는데 큰 기본 지식이 될 수 있다.

한편, 상기 다형성 데이터베이스(140)는 특정 종(이하, 인간을 예로 들어 설명한다)의 염기서열 구조를 저장하는 염기서열 기본 DB(142)와, 상기 염기서열 중 특정 집단 내에서 유전되는 연관블록(LD : Linkage disequilibrium)에 대한 정보를 저장하는 연관블록 DB(144) 그리고 특정 염기 변형에 대한 질병/유전과 관련된 정보가 저장되는 형질정보 DB(146)를 포함하여 구성된다.

상기 염기서열 기본 DB(142)는 사용자로부터 Query가 부분 염기서열로 입력된 경우, 상기 Query가 인간 전체 염기서열 구조 중 어느 부분에 해당하는지를 검색하기 위한 기준 염기서열을 저장하는 부분이다.

또한, 상기 연관블록 DB(144)는 전체 유전자 중 특정 집단에게 유전되는 염기서열 블록(이하 '연관블록'이라 함)에 대한 정보가 저장되는 부분이다.

다형성 정보(SNP: single nucleotide polymorphism)는 DNA의 염기 서열 중에 한 염기의 변형에 의하여 대략 인구 중에 4%이상이 변이를 가지면 그 위치의 염기를 다형성정보(SNP)라고 부르고, 어떤 다형성정보는 단백질의 아미노산의 돌연변이(mutation)을 유발한다.

특히, 이러한 다형성정보는 인종에 따라 유사한 특성을 갖고, 이러한 연관블록에서의 다형성 정보는 동일 집단에 유전(inheritance)되는 경향을 가진다.

따라서, 상기 연관블록 DB(144)는 도 4에 도시된 바와 같이, 전체 염기서열 구조 중에서, 특정 집단에게 유전되는 연관블록에 대한 정보가 각각의 특정 집단(예를 들면 인종/성별 등)에 대하여 정리되어 저장된다.

한편, 형질정보 DB(146)에는 특정 염기 변형에 대한 질병/유전과 관련된 정보가 저장된다,

따라서, 입력된 Query에 해당하는 염기서열의 위치를 파악하고, 상기 Query의 위치가 연관블록을 포함하고 있으면, 이를 통해 Query의 인종/성별 등의 집단 속성을 파악할 수 있다.

이에 의해, 본 발명에 의한 시스템(100)은 입력된 Query에 포함되지 않은 동일 집단에 유전적인 변이정보를 제공할 수 있다.

이하에서는 본 발명에 의한 바이오메디컬 정보제공 방법을 첨부된 도면을 참조하여 상세히 설명하기로 한다.

도 5는 본 발명에 의한 바이오 메디컬 정보 검색 방법의 구체적인 실시예를 도시한 흐름도이다.

이에 도시된 바와 같이, 본 발명에 의한 바이오 메디컬 정보 검색은 사용자 단말기(200)로부터 검색을 위한 Query를 입력받는다(S100).

사용자로부터 Query가 입력되면, 상기 Query가 유전자 정보인지, 화합물 정보인지 또는 염기서열 데이터인지 판단한다(S120).

이후, 상기 제120단계의 판단결과 상기 Query가 유전자 정보인 경우, 검색엔진(110)은 유전자 백본 DB(122)를 통해 상기 Query 유전자를 에 대한 정보를 검색한다(S210).

이때, 검색방법은 상기 Query 유전자를 상기 유전자 백본 DB(122)의 RAT 파일에서 검색하고, 검색된 Query 유전자에 대한 내용이 기록된 RVR 파일의 기록위치를 검출하여, 상기 검출된 기록위치로부터 해당 Query 유전자에 대한 정보를 획득한다.

한편, 상기 Query 유전자에 대한 정보를 검색한 이후에는, 유전자 군집 DB(124)를 검색하여, 상기 Query 유전자와 연관된 유전자들을 검출한다. 그리고 상기 검출된 연관 유전자에 대한 정보를 검색한다(S220).

전술한 바와 같은 검색 과정이 종료되면, 검색된 Query 유전자의 정보 및 연관 유전자와 이의 정보를 사용자에게 전송하여 제공한다(S230).

한편, 상기 제120단계의 판단결과 상기 Query가 화합물 정보인 경우, 검색엔진(110)은 화합물 백본 DB(132)를 통해 상기 Query 화합물에 대한 정보를 검색한다(S310).

이때, 검색방법은 상기 Query 유전자를 검색하는 방법과 동일하게, 상기 화합물 백본 DB(132)의 RAT 파일에서 상기 Query 화합물을 검색하고, 검색된 Query 화합물 대한 내용이 기록된 RVR 파일의 기록위치를 검출하여, 상기 검출된 기록위치로부터 해당 Query 화합물에 대한 정보를 획득한다.

한편, 상기 Query 화합물에 대한 정보를 검색한 이후에는, 화합물 군집 DB(134)를 검색하여, 상기 Query 화합물과 연관된 화합물들을 검출한다. 그리고 상기 검출된 연관 화합물에 대한 정보를 검색한다(S320).

전술한 바와 같은 검색 과정이 종료되면, 검색된 Query 화합물의 정보 및 연관 화합물과 이의 정보를 사용자에게 전송하여 제공한다(S330).

또한, 상기 제120단계의 판단결과 상기 Query가 염기서열 데이터인 경우, 검색엔진(110)은 염기서열 기본 DB(142)를 통해 상기 Query의 위치정보를 산출한다(S410).

예를 들어, 기준 염기서열이 도 6에 도시된 바와 같고, 도 7에 도시된 바와 같은 염기서열이 Query로 입력된 경우를 살펴보기로 한다.

이 경우 상기 기준 염기서열은 구분단위(ID…)로 구분되어 RVR 파일 형태로 저장됨을 알 수 있다.

이때, 상기 기준 염기서열이 인간의 염기서열이라고 가정하면, 전체 유전자 염기서열의 개수는 약 32억 개가 된다.

그리고, 입력된 Query가 도 7에 도시된 바와 같은 12개의 염기서열이라고 가정한다(물론, 실제로는 많은 수의 염기서열이 포함된 Query가 입력될 것이나, 설명의 편의상 위와 같이 가정하기로 한다).

이때, 상기 Query 염기서열은 도 8에 도시한 바와 같이, 설정된 검색단위로 구분되어 분할된다.

여기서 분할 방법은 제1번째 염기서열로부터 제4번째 염기서열, 제2번째 염기서열로부터 제5번째 염기서열, 제3번째 염기서열로부터 제7번째 염기서열, … , 제9번째 염기서열로부터 제12번째 염기서열로 각각 시작점을 이동하면서 중첩되게 구분되어 형성된다.

이후, 상기 분할된 각각의 Query 염기서열을 기준 염기서열과 비교하여, 상기 Q1, Q2, ... 염기서열이 포함된 상기 기준파일의 대응 식별자를 도 9와 같이 정리한다.

그리고 상기 정리된 결과로부터 Query 염기서열이 전체 염기서열 중 어느 부분에 위치하는지를 알 수 있다.

예를 들어, 도 9에 도시된 바와 같은 결과를 갖는 경우, 검색결과에서 상기 각 Query에 공통되어 포함된 대응 식별자는 ID5 이고, 따라서, 상기 Query 염기서열은 인간의 전체 염기서열 중 ID5에 해당함을 알 수 있다.

전술한 바와 같이 상기 Query의 위치를 산출한 이후에는 연관블록 DB(144)를 검색하여 상기 산출된 Query가 연관 블록에 해당하는지 여부를 판별한다(S420).

즉, 제410단계를 통해 Query의 위치를 산출하면, 전체 염기서열 중 해당하는 위치를 찾고, 이 부분이 연관 블록에 해당하는지 여부를 판별하게 된다.

이후, 상기 검색엔진(110)은 형질정보 DB(146)를 검색하여, 상기 Query 염기서열에 알려진 다형성 정보가 있는지 여부를 검색한다(S430).

또한, 상기 Query 염기서열이 연관 블록에 해당하는 경우, 이에 해당하는 특정 집단을 판별하고, 이들 집단의 동일 유전되는 경향의 다형성 정보를 산출한다(S440, S450).

그리고 상기 검출된 상기 Query 염기서열 자체에 대한 다형성 정보 및 상기 Query 염기서열이 속하는 동일집단의 다형성 정보를 정리하여 사용자에게 제공한다(S460).

따라서, 본 발명에 의하면, 입력된 Query 염기서열이 다형성 정보를 직접적으로 포함하고 있지 않은 경우라도, 상기 Query 염기서열의 개체의 집단을 판단하여 이들 집단의 공통된 다형성 정보를 제공할 수 있다.

한편, 본 발명의 다른 실시예에서는 상기 유전자 군집 DB(124), 화합물 군집 DB(134) 및 형질정보 DB(146)의 링크구조의 확장을 통해, 유전자와 관련된 화합물정보, 화합물과 관련된 다형성정보 등을 제공할 수도 있다.

즉, 유전자와 화합물 그리고 다형성 정보 간에는 일정 연관성이 있다. 예를 들어 특정 유전자를 발현하는 다형성 정보(염기서열)이라든지, 특정 유전자에 의해 발현된 질병을 치료하기 위한 화합물 등이 예가 될 수 있다.

따라서, 상기 유전자 군집 DB(124), 화합물 군집 DB(134) 및 형질정보 DB(146)의 링크구조를 도 10과 같이 확장하는 경우, 검색결과를 산출함에 있어, 유전자와 화합물, 유전자와 다형성, 화합물과 다형성의 관련 정보를 함께 제공할 수 있다.

이하에서는 전술한 바와 같은 본 발명의 다른 실시예에 대하여 첨부된 도면을 참조하여 구체적으로 살펴본다.

도 11에 도시된 바와 같이, 본 발명의 다른 실시예는 본 발명의 구체적인 실시예에 의한 바이오 메디컬 검색시스템의 구성에 컨버전스 DB(150)를 더 포함하여 구성된다.

상기 컨버전스 DB(150)는 유전자, 화합물 및 다형성 간의 연관관계를 저장하는 부분으로, 유전자/화합물 관련 DB(152), 유전자/다형성 관련 DB(154) 및 화합물/다형성 관련 DB(156)를 포함하여 구성된다.

상기 유전자/화합물 관련 DB(152)는, 상기 유전자 백본 DB(122)에 포함된 각 유전자와 이와 관련된 상기 화합물 백본 DB(132)에 포함된 각 화합물의 연관관계가 저장된 데이터 베이스이다.

한편, 상기 유전자/다형성 관련 DB(154)는 상기 유전자 백본 DB(122)에 포함된 각 유전자와 이와 관련된 상기 형질 정보 DB(146)에 포함된 각 염기서열의 연관관계가 저장된 데이터 베이스이다.

그리고, 상기 화합물/다형성 관련 DB(156)는 상기 화합물 백본 DB(132)에 포함된 각 화합물과 이와 관련된 상기 형질정보 DB(146)에 포함된 각 염기서열의 연관관계가 저장된 데이터 베이스이다.

이와 같이 구성되는 본 발명의 다른 실시예에서, 상기 검색엔진(110)은 사용자로부터 Query가 입력된 경우, 상기 입력된 Query를 상기 컨버전스 DB(150)를 통해 검색하여, 상기 Query와 관련된 관련 유전자, 화합물 또는 다형성 정보를 검색한다.

그리고 상기 검색된 유전자, 화합물 또는 다형성 정보에 관한 정보를 상기 유전자 데이터베이스(120), 화합물 데이터 베이스(130) 또는 다형성 데이터 베이스(140)에서 검색하여 사용자에게 제공한다.

예를 들어, 사용자에 의해 특정 유전자가 Query로 입력된 경우를 가정한다.

이 경우 상기 검색 엔진(110)은 상기 유전자를 유전자 백본 DB(122)에서 검색하여 상기 유전자에 대한 정보를 추출하고, 상기 유전자 군집 DB(124)를 통해 연관 유전자를 검색하여 상기 연관 유전자들에 대한 정보를 상기 유전자 백본 DB(122)를 통해 추출한다.

또한, 상기 유전자를 상기 컨버전스 DB(150)의 상기 유전자/화합물 DB(152) 및 상기 유전자/다형성 DB(154)를 검색하여 상기 유전자와 관련된 화합물 및 다형성 정보(염기서열)를 검색한 이후, 상기 화합물 백본 DB(132) 및 형질정보 DB(146)를 통해 상기 관련 화합물 및 다형성 정보에 관한 데이터를 추출한다.

그리고, 상기 추출된 상기 유전자 정보, 상기 연관 유전자 정보, 상기 관련 화합물 정보 및 상기 관련 다형성 정보를 사용자에게 제공한다.

따라서, 이와 같은 검색 시스템을 통해 사용자에게 특정 Query에 대한 정보 뿐만 아니라 이와 관련된 다양한 정보를 한번에 제공해줄 수 있게 된다.

본 발명의 권리는 위에서 설명된 실시예에 한정되지 않고 청구범위에 기재된 바에 의해 정의되며, 본 발명의 분야에서 통상의 지식을 가진 자가 청구범위에 기재된 권리범위 내에서 다양한 변형과 개작을 할 수 있다는 것은 자명하다.

예를 들어, 상기 입력 Query는 전술한 바와 같이, 유전자/화합물/염기서열 뿐만아니라 상호작용 정보 또는 유전자 시그널링 네트워크 정보 일 수 있다.

이때, 상기 상호작용 정보란, 유전자와 화합물, 유전자와 특정 염기서열, 화합물과 특정 염기서열 간의 특정 상호작용을 의미하는 것으로, 예를 들면 '변이 발생 유전자와 발현 억제 화합물'과 같은 것이다.

이 경우, 데이터 베이스에는 각 상호작용에 대한 유전자-화합물-다형성 정보가 정리된 데이터가 포함되며, 상기 검색엔진은 해당 상호작용의 유전자-화합물-다형성 정보를 검색하여, 각 백본 DB(또는 형질정보 DB)로부터 해당 유전자/화합물/다형성 정보를 추출하여 사용자에게 제공한다.

한편, 상기 유전자 시그널링 네트워크 정보란, 유전자 간의 시그널링 패스웨이 과정에서의 상호 관련 작용에 대한 정보를 말한다.

상기 상호작용 정보 및 유전자 시그널링 네트워크 정보는 도 12에 도시된 예와 같다.

따라서, 유전자 간에 시그널링 네트워크가 있을 것으로 예상되는 신규 유전자 리스트를 가지고 서로 다른 유전자들에 존재하는 기능이 유사한 도메인 정보(예, PFAM DB)를 활용하여 신규 단백질들 사이에 존재할 수 있는 시그널링 네트워크를 검색할 수 있다.

여기서, 도메인 정보란 유전자가 발현된 단백질 내에서 특정 기능을 수행하는 단위체를 말하는 것으로, 도 13에 도시된 바와 같이, 유사한 단백질 도메인이 (kinase)이 서로 다른 종의 유전자에 포함된 것을 알 수 있다.

본 발명은 사용자가 입력한 유전자, 화합물 및 다형성 데이터에 대한 유전학적 정보 및 이들과 유사성을 갖는 정보를 검색하여 사용자에게 제공하는 시스템 및 방법에 관한 것으로, 본 발명에 의하면, 바이오메디컬 정보 검색에 있어, 검색속도가 향상되고, 유사성 있는 관련 정보를 함께 제공할 수 있는 장점이 있다.

100 : 바이오메디컬 정보제공 시스템 110 : 검색엔진
120 : 유전자 데이터베이스 122 : 유전자 백본 DB
124 : 유전자 군집 DB 130 : 화합물 데이터베이스
132 : 화합물 백본 DB 134 : 화합물 군집 DB
140 : 다형성 데이터베이스 142 : 염기서열 기본 DB
144 : 연관블록 DB 146 : 형질정보 DB
150 : 컨버전스 DB 152 : 유전자/화합물 관련 DB
154 : 유전자/다형성 관련 DB 156 : 화합물/다형성 관련 DB
200 : 사용자 단말기

Claims

사용자로부터 검색 대상 데이터(Query)를 입력받아 검색을 수행하는 검색엔진과;
유전자 정보를 저장하는 유전자 데이터베이스를 포함하여 구성되고:
상기 유전자 데이터베이스는,
알려진 유전자와 이들의 밝혀진 특성을 저장하는 유전자 백본 DB와;
상기 유전자 백본 DB에 포함된 각 유전자들 간의 연관성을 저장하는 유전자 군집 DB를 포함하여 구성되며:
상기 검색엔진은,
상기 검색 대상 데이터를 상기 유전자 백본 DB에서 검색하고,
상기 유전자 군집 DB에서 상기 검색 대상 데이터와 관련된 연관 유전자를 검색하여 검색된 결과를 사용자에게 전송함을 특징으로 하는 군집 및 백본 데이터베이스 기반 바이오 메디컬 통합 정보 검색 시스템.