KR101188886B1

KR101188886B1 - 유전 정보 관리 시스템 및 방법

Info

Publication number: KR101188886B1
Application number: KR20100103538A
Authority: KR
Inventors: 박민서; 김우연
Original assignee: 삼성에스디에스 주식회사
Priority date: 2010-10-22
Filing date: 2010-10-22
Publication date: 2012-10-09
Also published as: US20120102041A1; EP2444914A2; EP2444914A3; JP5175381B2; JP2012094141A; KR20120042058A; CN102456101A; US9098490B2; CN102456101B

Abstract

본 발명은 방대한 양의 리드 데이터 및 리드 데이터로부터 얻어진 유전 정보를 효율적으로 관리하는 시스템 및 방법에 관한 것이다. 본 발명에 따른 유전 정보 관리 시스템은, 상기 리드 데이터를 읽어서 테이블 내장 인덱스의 형태로 변환하는 파싱부와, 상기 테이블 내장 인덱스를, 유전 정보에 관한 기본 항목을 포함하는 마스터 테이블과, 유전 정보에 관한 부가 항목을 포함하는 슬레이브 테이블로 분류하여 관리하는 테이블 관리부와, 상기 마스터 테이블 및/또는 상기 슬레이브 테이블의 내용을 검색하여 출력하는 검색부로 이루어진다.

Description

유전 정보 관리 시스템 및 방법{System and method for managing genetic information}

본 발명은 바이오 인포메틱스(Bioinformatics) 기술에 관한 것으로, 보다 상세하게는, 방대한 양의 리드 데이터 및 리드 데이터로부터 얻어진 유전 정보를 효율적으로 관리하는 시스템 및 방법에 관한 것이다.

최근 들어 바이오 산업분야에서 유전체 산업 분야가 확산되고 있다. 대표적인 사례로는 "Genome Quest", "Knome", "Complete Genomics" 등의 글로벌 회사들이 NGS(Next Generation Sequencing)라 불리는 DNA 시퀀싱 기법을 상용화하여 서비스하고 있으며, 최근 국내에서 "테라젠"과 같은 회사도 같은 방법의 서비스를 시작한 바 있다. 이러한 기술들은 NGS를 통해 추출된 데이터를 디스플레이 하고자 하는 유전체 분야, 유전체 분석 서비스를 하는 바이오 산업 분야, 유전체 연구분야에서 데이터 제공을 위한 유전체 연구분야, 진단 및 치료에 있어 유전체 데이터를 활용하는 의학분야 등 다양한 분야에서 활용될 수 있는 잠재력을 지니고 있다.

그런데, 이러한 NGS를 통한 DNS 시퀀싱 기법을 통하여 얻어지는 데이터는 인간의 경우 하나의 샘플당 약 35억 건에 이르기 때문에 얻어진 데이터의 효율적인 분석, 검색 및 디스플레이를 위한, 데이터베이스 구축 및 데이터 처리 기술(즉, 유전 정보 관리 기법)의 개발 또한 매우 중요하다고 볼 수 있다.

현재까지 알려진 유전 정보 관리 기법으로는, SAM(Sequence Alignment/Map) tools, Gbrowse(Generic Genome Browser), IGV(Integrative Genomics Viewer) 등이 있다.

SAM tools는 "Bioinformatics"라는 학술지에 2009년도에 발표된 바 있는데, NGS 방법을 통해 산출된 리드 데이터를 효과적으로 저장하기 위한 방법을 제안하고 있다. 이에 따르면, SAM과 BAM(Binary Alignment/Map)이라는 형식의 파일 포맷이 제안되었는데, 이를 통하여 전체 데이터 사이즈를 줄임과 동시에 데이터를 빠른 시간에 추출해 낼 수 있는 방안까지 제시하고 있다.

SAM 파일 포맷은 '@'이라는 문자로 헤더부분을 나타내고 있으며 실제 데이터는 TAB으로 구분하여 다음의 표 1과 같이 총 11개의 필수 칼럼을 가지고 있다.

상기 SAM 포맷은 이진 포맷인 BAM 포맷으로 전환될 수 있다. 이것은 데이터로부터 정보를 빠른 시간 내에 추출하고 데이터 공간을 줄이기 위한 방안이다. 실제로 데이터에 접근하기 위해서는 특별히 고안된 samtools 라는 프로그램을 사용해야 한다.

한편, 세계의 많은 연구기관에서 활용하고 있는 유전정보 브라우저로서는 GBrowse가 있다. GBrowse 자체는 mysql이라는 데이터베이스를 기반으로 하며, 동시에 파일 기반의 데이터도 관리가 가능하다. 그러나, 리드 데이터를 데이터 베이스에 저장/관리하지 못하고 있다. 더불어, 일반적인 유전정보와 달리, NGS 데이터에 대해서는 워낙 대용량 데이터이기 때문에 기존의 방식이 그대로 적용될 수는 없다. 따라서, 2009년에 NGS데이터를 보여주기 위한 시도가 있었으며 그 결과로 현재 리드 데이터가 디스플레이 가능하도록 수정된 바 있다.

마지막으로, 유전 정보를 로컬컴퓨터에서 디스플레이 하기 위한 용도로 개발된 브라우저로서, IGV가 알려져 있다. 이것은 NGS 데이터뿐 아니라 마이크로 어레이 등의 실험 데이터를 같이 포함시킬 수 있도록 설계되어 있다. NGS 데이터의 경우에는 SAM 혹은 BAM 파일 형식 데이터를 인풋으로 받을 수 있다. 사용자는 이 툴을 직접 자신의 컴퓨터에 설치하고, 필요한 파일을 획득한 후 상기 파일을 툴로 임포트(import)하여 구동되는 방식이다.

그러나, 이와 같이 현재까지 알려진 종래의 기술들에서는 다음과 같은 몇 가지 문제점을 발견할 수 있다.

첫째, 종래의 기술들에서 사용하는 데이터에서는, 원하는 부분만의 변경이 거의 불가능하다. 내용을 변경하기 위해서는 데이터 전체를 다시 생성해야 하기 때문에, 데이터 자체를 SAM 형식으로 만들고 이를 다시 이진 형태인 BAM 파일로 변환하여야 한다. 즉, 데이터를 변경하기 위해서는 전체 파일을 재 생성해야 한다.

둘째, 종래의 기술들에서는 자료의 생성이나 추가 삭제 등의 기능에서 전체 자료의 중복성을 판단하기가 어렵다. 하나의 자료 변경 시 전체 자료에서의 중복성을 확인하기 위해서는 전체 자료를 검증해봐야 하는 문제점이 발생된다. 또한 전체 자료에서 필요한 자료의 도출 시에도 중복을 일일이 검증해봐야 하는 어려움이 있다.

셋째, 종래의 기술들은 다수의 사용자들을 대상으로 서비스하는 형태가 아니다. 그렇기 때문에 다수의 사용자가 같은 데이터에 접근시에 이를 통제하거나 필요한 규칙을 적용할 수 없다. 이것을 위해서는 이 기능을 담당하는 별도의 프로그램을 구축하여 상기 데이터들을 커버할 수 있어야 한다.

넷째, 종래의 기술들로는 자료의 무결성 처리가 어렵다. 자료의 무결성은 인가되지 않는 사용자와 인가되지 않은 방식에 의해 자료가 수정 또는 삭제되는 것을 방지하는 것을 말한다. 이를 위해서는 자료 하나 하나를 시스템상의 계정과 연계하거나 혹은 이러한 자료 자체를 관리하는 별도의 툴을 개발해야 하는 번거로움이 있다. 생명체의 유전정보는 그 보안이 매우 중요시 되며, 특히 인간의 유전정보라면 개인의 주민등록번호 이상으로 강화된 보안이 요구된다. 따라서, 무결성 처리의 어려움은 분명한 문제점으로 지적될 수 있다.

마지막으로, 종래의 기술들에 따르면, 자료가 다양한 요인에 의해 손상될 경우 이를 복구할 수 있는 기능이 없다. 그렇기 때문에 이와 관련한 또 다른 기능을 직접 구현하거나 별도의 프로그램을 가동하여야 한다. 산업적인 측면에서 자료의 무결성과 더불어 이러한 자료의 안정성은 매우 큰 부분을 차지하고 있다고 볼 수 있다.

본 발명은 상기와 같은 문제점을 고려하여 안출된 것으로, NGS의 리드 데이터와 같은 대용량의 유전 정보의 신속하고, 안정된 처리를 위한 데이터 베이스 설계를 제공하는 것을 목적으로 한다. 특히, 이러한 데이터 베이스가 유전자 브라우저에서 데이터를 디스플레이 할 때 효과적으로 응용될 수 있도록 하는 것을 목적으로 한다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 달성하기 위한, 본 발명의 일 실시예에 따른, 유전자 분석 장치로부터 얻어지는 리드 데이터를 처리하여 리드 데이터와 그것으로부터 얻어지는 유전 정보에 관한 데이터베이스를 구축하고 사용자의 명령에 따라 상기 데이터베이스 검색 결과를 출력하는 유전 정보 관리 시스템은, 상기 리드 데이터를 읽어서 테이블 내장 인덱스의 형태로 변환하는 파싱부; 상기 테이블 내장 인덱스를, 유전 정보에 관한 기본 항목을 포함하는 마스터 테이블과, 유전 정보에 관한 부가 항목을 포함하는 슬레이브 테이블로 분류하여 관리하는 테이블 관리부; 및 사용자의 요청에 따라 상기 마스터 테이블 및/또는 상기 슬레이브 테이블의 내용을 검색하여 출력하는 검색부를 포함한다.

본 발명의 다른 실시예에 따른 유전 정보 관리 시스템은, 상기 리드 데이터를 읽어서 테이블 내장 인덱스의 형태로 변환하는 파싱부; 및 사용자의 요청과 관련된 주요 키(primary key)를 기준으로 상기 테이블 내장 인덱스의 내용을 검색하는 검색부를 포함하되, 상기 주요 키는 아스키 코드의 적어도 일부를 사용하여 구성된다.

상기 기술적 과제를 달성하기 위한, 본 발명의 일 실시예에 따른, 유전자 분석 장치로부터 얻어지는 리드 데이터를 처리하여 유전 정보에 관한 데이터베이스를 구축하고 사용자의 명령에 따라 상기 데이터베이스 검색 결과를 출력하는 유전 정보 관리 방법은, 상기 리드 데이터를 읽어서 테이블 내장 인덱스의 형태로 변환하는 단계; 상기 테이블 내장 인덱스를, 유전 정보에 관한 기본 항목을 포함하는 마스터 테이블과, 유전 정보에 관한 부가 항목을 포함하는 슬레이브 테이블로 분류하여 관리하는 단계; 및 사용자의 요청에 따라 상기 마스터 테이블 및/또는 상기 슬레이브 테이블의 내용을 검색하여 출력하는 단계를 포함한다.

본 발명에 따르면, NGS의 리드 데이터와 같은 대용량의 유전 정보의 처리 성능이 개선될 수 있다. 특히, 대용량의 유전 정보에 대하여 테이블 내장 인덱스를 응용하였기 때문에, 저장 공간 및 데이터 처리 속도를 향상시킬 수 있으며, 테이블 분리 기능을 통해 소요 시간을 감축시킬 수 있다. 뿐만 아니라 아스키 코드를 이용한 식별자를 사용함으로써 데이터 검색 및 테이블 결합 시간을 감소시킬 수 있다.

따라서, 유전체 서열을 시퀀싱한 후 유전자 브라우저를 통해 그 결과를 보여주는 유전체 분석 서비스나, 다양한 샘플에서 DNA를 추출하고 그 데이터를 분석하는 연구 분야나, 의료를 위한 진단 및 치료의 목적뿐만 아니라, 이외의 목적으로 대용량 데이터를 처리해야 되는 경우 등에 광범위하게 활용될 수 있다.

도 1은 본 발명의 일 실시예에 따른 유전 정보 관리 시스템을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 유전자 분석 장치를 도시한 블록도이다.
도 3a는 인덱스와 테이블이 분리된 일반 테이블 구조를 보여주는 도면이다.
도 3b는 도 3a와 대비되는 테이블 내장 인덱스의 예를 보여주는 도면이다.
도 4는 마스터 테이블에 저장되는 기본 항목과 슬레이브 테이블에 저장되는 부가 항목의 예를 보여주는 도면이다.
도 5는 5 바이트의 아스키 문자로 73억 개를 구별할 수 있는 식별자를 생성할 수 있음을 보여주는 도면.

유전 정보를 디스플레이 하는 브라우저의 개발에 있어서, NGS 기법으로 추출된 리드 데이터의 효과적인 저장 방법이 요구된다. 인간을 대상으로 한 경우 하나의 샘플(인간의 genome)을 NGS 방법으로 DNA 시퀀싱을 수행하게 되면 대략 800GB가 넘는 리드 데이터가 생성된다. 이러한 방대한 데이터를 브라우저상에서 실시간으로 디스플레이할 필요가 있는데, 이 경우 방대한 데이터량의 효율적인 처리가 관건이 된다. 이를 해결하고자 본 발명에서는 데이터베이스 기반으로 리드 데이터 및 그로부터 얻어진 유전 정보를 저장/검색하기 위한 방법을 제시하고자 한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

도 1은 본 발명의 일 실시예에 따른 유전 정보 관리 시스템(100)을 도시한 블록도이다. 유전 정보 관리 시스템(100)은 파싱부(110), 테이블 관리부(120), 검색부(140) 및 사용자 인터페이스(150)를 포함하여 구성될 수 있다. 도 1의 실시예에서는, 유전자 분석 장치(50)가 유전 정보 관리 시스템(100)의 외부에 별도로 구비된 것으로 하여 설명하지만, 유전자 분석 장치(50)가 유전 정보 관리 시스템(100) 내에 포함되더라도 본 발명의 사상을 벗어나지 않음은 물론이다.

유전 정보 관리 시스템(100)은 유전자 분석 장치(50)로부터 얻어지는 리드 데이터(read data)를 처리하여 유전 정보에 관한 데이터베이스를 구축하고 사용자의 명령에 따라 상기 데이터베이스 검색 결과를 출력한다.

유전자 분석 장치(50)는 도 2에 도시된 바와 같이, 유전자 샘플로부터 유전 정보 관리 시스템(100)에 제공할 리드 데이터를 제공한다. 유전자 분석 장치(50)는 유전자 시퀀서(51), 매핑부(52), 페어링부(53) 및 머징부(54)를 포함하여 구성될 수 있다.

먼저, 유전자 시퀀서(51)는 유전자 샘플로부터 텍스트 산출물을 생성한다. 이러한 텍스트 산출물로는 리드 서열 데이터, 리드 퀄리티 데이터 등이 포함될 수 있다. 유전자 시퀀서(51)는 예를 들면, 분석하려는 유전자를 플로우 셀(flow cell)에 존재하는 비드(bead)에 부착하고, 플로우 셀에 화학물질(형광 물질 등)을 처리하여 염기(A, T, G, C)에 따라 색상이 변화하게 한 후, 광학 현미경을 통해 비드의 색상을 촬영하는 방식으로 상기 텍스트 산출물을 생성할 수 있다.

매핑부(52)는 상기 텍스트 산출물을 레퍼런스 유전체(reference genome)에 매핑한다. 상기 레퍼런스 유전체는 이미 공개된 유전체 시퀀스로서, 인간의 유전체의 경우에는 NCBI에 공개된 자료를 사용할 수 있다.

페어링부(53)는 서로 쌍을 이루는 리드 데이터를 서로 연결한다. 마지막으로, 머징부(54)는 산출된 페어링 데이터를 샘플별로 하나의 파일로 병합한다. 한 개의 샘플은 정확성을 위해 여러 번 실험을 거치게 되는데, 머징부(54)는 이와 같이 여러 번 실험으로 생긴 데이터를 병합하는 과정을 수행하는 것이다. 이러한 머징 과정은 필요에 따라 생략될 수도 있다. 이상의 과정들을 통하여 유전자 분석 장치의 출력 데이터(유전 정보 관리 시스템(100)에 제공될 리드 데이터)가 얻어진다.

다시 도 1을 참조하면, 파싱부(110)는 유전자 분석 장치(50)로부터 제공된 리드 데이터를 읽어서, 데이터베이스를 기반으로 한, 테이블 내장 인덱스 형태로 변환한다. 상기 테이블 내장 인덱스는 오라클 데이터 베이스에서는 IOT(Index-Organized Table), mssql과 sybase에서는 Clustered Index, 그리고 mysql에서는 Innodb로 각각 표현될 수 있다.

본 발명은 이와 같이, 종래의 파일 기반 시스템 대신에 데이터베이스 기반의 시스템을 이용한다. 데이터베이스 기반의 시스템은 파일 기반 시스템에 비하여, 자료의 구조 변경, 자료 중복의 회피, 동시성 제어의 용이성, 무결성 처리의 용이성, 회복 처리의 용이성 등 다양한 장점을 지닌다. 유전자 브라우저는 많은 유전체 정보를 디스플레이하는 브라우저이므로, 자료의 중복이 일어나서는 아니되며, 동시성 제어와 자료구조 변경이 수시로 발생된다. 또한, 유전 정보는 고유한 정보인 동시에 보안이 중요하므로 무결성 처리가 쉬운 데이터베이스 기반의 시스템이 보다 적합하다. 또한, 유전자 브라우저는 대량의 데이터 작업이 사용자의 요청에 따라서 추가로 생성될 가능성이 존재하며, 이에 따라 자료 구조가 변경될 수 있다. 따라서, 이러한 관점에서도 자료 구조 변경이 가능한 데이터베이스 기반의 시스템이 보다 효과적이다.

본 발명은 이러한 데이터베이스 기반의 시스템의 도입과 함께, 데이터베이스를 구축에 있어서 통상의 테이블 대신에, 테이블 내장 인덱스를 사용고자 한다.

리드 데이터를 테이블로 구성하면, 일반적으로 열(column)의 수는 작고, 행(row)의 수(인간을 샘플로 하는 경우 35억개)는 매우 큰 특성을 갖는다. 다음의 표 2는 통상의 유전체 브라우저에 사용되는 리드 데이터를 일반적인 테이블로 표시한 것이다. 여기서 괄호 내의 숫자는 바이트 수이다.

주요 키 (5)	아이디 (10)	염색체 번호 (2)	시작 위치 (10)	사이즈 (2)	유형 (10)	모드 (2)	퀄리티 (100)	서열 (100)	차이 (100)
↓
↓
35억 개의 행

이러한 데이터의 특성을 고려하여 본 발명에서는 테이블 내장 인덱스를 제안한다. 테이블 내장 인덱스는 일반적인 테이블에서의 단점인, 인덱스를 통하여 레코드를 억세스할 때 테이블을 읽는 두 번의 과정을 거치는 프로세스를 보완한다.

도 3a는 인덱스와 테이블이 분리된 일반 테이블 구조의 예를, 도 3b는 도 3a와 대비되는 테이블 내장 인덱스의 예를 보여준다. 도 3a의 일반 테이블의 경우에는, 주요 키(primary key)를 이용하여 인덱스를 탐색해서 ROWID를 얻은 다음에 다시 ROWID를 이용해서 테이블을 읽는다. 따라서, 키 칼럼의 주요 키가 인덱스와 테이블에 중복 저장되기 때문에 디스크 낭비를 초래하고 검색 시간을 지연시킨다.

이에 비하여, 도 3b의 테이블 내장 인덱스의 경우, 주요 키를 중복하여 저장할 필요가 없다. 특히, 기록되는 행의 수가 클수록 보다 효과적이다. 인간 유전체의 경우 리드 데이터는 최대 60억건(30X 기준)을 상회하는 데이터 수가 존재한다. 따라서, 행의 수가 매우 크고 따라서 기록될 주요 키의 수도 그만큼 커진다. 따라서, 특히 유전체 데이터의 경우에는 주요 키를 통해 두 번 검색하고 중복저장 공간을 가지는 일반 테이블 구조는 유전자 브라우저의 성능을 심각하게 저하시키게 된다. 따라서, 인덱스 내에 데이터 테이블을 포함시킨 구조, 즉 테이블 내장 인덱스를 사용할 필요성이 높아진다. 이러한 상기 테이블 내장 인덱스의 예로는, 오라클 데이터 베이스의 IOT(Index-Organized Table), mssql과 sybase의 Clustered Index, mysql의 Innodb 등이 있다.

다시, 도 1을 참조하면, 테이블 관리부(120)는, 파싱부(110)에서 얻어진 상기 테이블 내장 인덱스를, 유전 정보에 관한 기본 항목을 포함하는 마스터 테이블과, 유전 정보에 관한 부가 항목을 포함하는 슬레이브 테이블로 분류하여 관리한다.

저장공간을 줄이고, 효율적인 인덱스로 성능을 개선시킬 수 있는 테이블 내장 인덱스에도 단점이 있다. 테이블 내장 인덱스에서 한 열(column)의 크기가 너무 크거나 열의 수가 너무 많으면 효율성이 급격히 저하된다. 따라서, 현재 유전 정보 중에서, 퀄리티 데이터처럼 바이트 수가 큰 데이터는 별도로 분류할 필요가 있다. 또한 퀄리티 데이터는 메인 브라우저 페이지에서는 생략될 수 있는 정보, 즉 상세 브라우저 페이지에서만 보여주어도 충분한 데이터에 속한다.

마스터 테이블에 저장되는 기본 항목과 슬레이브 테이블에 저장되는 부가 항목의 예는 다음의 도 4에 도시된 바와 같다. 상기 부가 항목은 상대적으로 데이터의 크기가 크거나, 메인 브라우저에서는 생략되어도 좋은 데이터 항목을 의미한다. 상기 마스터 테이블 및 상기 슬레이브 테이블은 동일한 주요 키(primary key)를 각각 포함하는데, 상기 주요 키를 기준으로 상기 마스터 테이블 및 상기 슬레이브 테이블의 검색 및 결합이 이루어질 수 있다.

다시 도 1을 참조하면, 사용자 인터페이스(150)는 사용자의 요청을 수신하여 검색부(140)에 전달하고, 검색부(140)에서 처리된 결과를 사용자에게 표시한다. 사용자 인터페이스는 예를 들어, 유전체 브라우저로 구현될 수 있지만, 이에 한하는 것은 아니다.

검색부(140)는 사용자의 요청에 따라 상기 마스터 테이블 및/또는 상기 슬레이브 테이블의 내용을 검색하여 출력한다. 상기 검색부(140)는 상기 사용자의 요청이 줌아웃(ZoomOut) 명령이면, 상기 주요 키에 해당하는 상기 마스터 테이블의 내용을 출력하고, 상기 사용자의 요청이 줌인(ZoomIn) 명령이면, 상기 주요 키에 해당하는 상기 마스터 테이블과 상기 주요 키에 해당하는 상기 슬레이브 테이블을 결합한 내용을 출력한다.

유전체 브라우저(사용자 인터페이스(150)에 포함됨)에서는, 데이터 검색 범위의 구간에 따라서 정렬될 데이터의 양이 다르다. 따라서, 구간에 따라 다른 테이블 설정을 하면 효과적일 수 있다. 유전체 브라우저는 통상 줌인(Zoom In) 및 줌아웃(Zoom Out) 기능을 가진다. 예를 들어, 유전체 브라우저에서 줌인은 유전 정보를 자세히 볼 수 있도록, 보여 주는 영역을 100KB(kilo base)로 한정한다. 따라서, 많은 리드 데이터의 유전 정보가 표시되지는 않지만, 한 리드 데이터에 대해 보다 상세한 정보, 즉 마스터 테이블 및 슬레이브 테이블이 결합된 결과를 보여준다.

한편, 줌아웃에 의해서는 통상 보여 주는 영역이 10MB(mega base)이기 때문에, 상대적으로 많은 리드 데이터의 유전 정보가 디스플레이 된다. 따라서 이 경우에는 기본 항목을 표시하기 위하여 마스터 테이블만을 참조하여도 충분하다.

만약, 이와 같은 유전 정보가 마스터 테이블/슬레이브 테이블의 구조를 갖지 않는다면, 사용자가 줌인 및 줌아웃 기능을 수시로 사용하는 경우에도, 하나로 된 테이블을 참조하게 되는데, 이러한 하나의 테이블은 전술한 바와 같이 큰 바이트의 항목들을 다수 포함함으로 인하여 테이블 내장 인덱스의 효율이 떨어지게 될 것이다.

한편, 이와 같이 마스터 테이블 및 슬레이브 테이블을 결합하기 위하여 발생되는 비효율도 고려하여야 할 것이다. 그러나, 마스터 테이블 및 슬레이브 테이블을 테이블 내장 인덱스로 구현함으로 인하여, 검색 시간이 단축된다는 점, 보다 작은 범위의 처리(ex. 100KB)를 전제로 하므로 많은 행을 고려할 필요가 없다는 점 등으로 인하여 이러한 결합 과정으로 인하여 큰 비효율은 발생하지 않는다.

전술한 바와 같이, 마스터 테이블 및 슬레이브 테이블을 포함하는 이중화된 테이블 구성에 있어서는, 두 테이블의 검색 및 결합을 위한 공통적인 키(주요 키)가 요구된다. 하지만 리드 데이터 자체가 하나의 샘플당 약 35억 건에 이르기 때문에 하나의 주요 키에 1바이트만 추가되어도 약 3.5기가 바이트가 추가되는 결과를 초래한다. 그렇기 때문에 이를 해결하고자 35억 건이 넘는 데이터를 짧은 키로 담을 수 있는 방안이 요구된다.

이에, 본 발명에서는 상기 공통된 주요 키를 아스키 코드의 적어도 일부를 사용하여 구성하는 것을 제안한다. 예를 들어, 아스키 코드 중 33에서 126에 해당하는 아스키 문자를 조합하여 주요 키를 표현할 수 있다. 다음의 표 3은 아스키 코드 및 이에 대응되는 10진수 값을 보여준다.

이러한 아스키 코드 중에서 33 내지 126은 일반적인 문자이고, 이를 제외한 34개의 아스키 코드는 제어 문자이다. 따라서, 아스키 코드 중 33에서 126에 해당하는 아스키 문자를 조합하여 주요 키를 표현할 수 있는 것이다.

다음의 도 5와 같이, 상기 범위의 아스키 코드를 총 5 바이트로 주요 키를 표시한다면, 단 5 바이트만으로 73억 개를 구별할 수 있는 식별자를 생성할 수 있는 것이다. 이와 같이, 적은 바이트 수로 가능한 한 많은 식별자를 표시하는 것은, 단지 마스터 테이블과 슬레이브 테이블을 포함하는 이중화된 테이블 구성에서만 요구되는 것은 아니다. 예를 들어, 도 1에서 파싱부(110)에서 얻어진 테이블 내장 인덱스의 형태만으로 된 단일의 테이블을 검색부(140)에 의하여 검색하는 실시예에서도 테이블에 포함된 마스터 키의 크기를 줄이는 데에 유용하게 사용될 수 있다.

지금까지 도 1의 각 구성요소는 소프트웨어(software) 또는, FPGA(field-programmable gate array)나 ASIC(application-specific integrated circuit)과 같은 하드웨어(hardware)를 의미할 수 있다. 그렇지만 상기 구성요소들은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 어드레싱(addressing)할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 상기 구성요소들 안에서 제공되는 기능은 더 세분화된 구성요소에 의하여 구현될 수 있으며, 복수의 구성요소들을 합하여 특정한 기능을 수행하는 하나의 구성요소로 구현할 수도 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야 한다.

50: 유전자 분석 장치 100: 유전 정보 관리 시스템
110: 파싱부 120: 테이블 관리부
140: 검색부 150: 사용자 인터페이스

Claims

유전자 분석 장치로부터 얻어지는 리드 데이터를 처리하여 유전 정보에 관한 데이터베이스를 구축하고 사용자의 명령에 따라 상기 데이터베이스 검색 결과를 출력하는 유전 정보 관리 시스템으로서,
상기 리드 데이터를 읽어서 테이블 내장 인덱스의 형태로 변환하는 파싱부;
상기 테이블 내장 인덱스를, 유전 정보에 관한 기본 항목 및 주요 키(primary key)를 포함하는 마스터 테이블과, 유전 정보에 관한 부가 항목 및 상기 주요 키를 포함하는 슬레이브 테이블로 분류하여 관리하는 테이블 관리부; 및
상기 사용자 요청과 관련된 상기 주요 키를 기준으로 상기 마스터 테이블 또는 상기 슬레이브 테이블의 내용을 검색하여 출력하는 검색부
를 포함하고,
상기 검색부는, 상기 사용자의 요청이 줌아웃(ZoomOut) 명령이면 상기 주요 키에 해당하는 상기 마스터 테이블의 내용을 출력하고, 상기 사용자의 요청이 줌인(ZoomIn) 명령이면 상기 주요 키에 해당하는 상기 마스터 테이블과 상기 주요 키에 해당하는 상기 슬레이브 테이블을 결합한 내용을 출력하는 유전 정보 관리 시스템.
제1항에 있어서, 상기 테이블 내장 인덱스는
IOT(Index-Organized Table), Clustered Index 또는 Innodb인 유전 정보 관리 시스템.
제1항에 있어서,
상기 기본 항목은 유전 정보의 아이디, 염색체의 번호, 시작 위치, 유형 및 모드를 포함하고,
상기 부가 항목은 유전 정보의 퀄리티, 서열 및 차이를 포함하는 유전 정보 관리 시스템.
삭제
삭제
제1항에 있어서, 상기 주요 키는
아스키 코드의 적어도 일부를 사용하여 구성되는 유전 정보 관리 시스템.
제6항에 있어서, 상기 아스키 코드의 적어도 일부는
코드 33 내지 126 범위의 아스키 코드를 포함하는 유전 정보 관리 시스템.
제7항에 있어서, 상기 주요 키는
상기 범위의 아스키 코드를 조합한 5바이트로 표시되는 유전 정보 관리 시스템.
유전자 분석 장치로부터 얻어지는 리드 데이터를 처리하여 유전 정보에 관한 데이터베이스를 구축하고 사용자의 명령에 따라 상기 데이터베이스 검색 결과를 출력하는 유전 정보 관리 시스템으로서,
상기 리드 데이터를 읽어서 테이블 내장 인덱스의 형태로 변환하는 파싱부; 및
사용자의 요청과 관련된 주요 키(primary key)를 기준으로 상기 테이블 내장 인덱스의 내용을 검색하는 검색부를 포함하되,
상기 주요 키는 상기 리드 데이터를 구별하기 위한 식별자로서, 아스키 코드의 적어도 일부를 사용하여 구성되는 유전 정보 관리 시스템.
제9항에 있어서, 상기 아스키 코드의 적어도 일부는
코드 33 내지 126 범위의 아스키 코드를 포함하는 유전 정보 관리 시스템.
제10항에 있어서, 상기 주요 키는
상기 범위의 아스키 코드를 조합한 5바이트로 표시되는 유전 정보 관리 시스템.
삭제
유전자 분석 장치로부터 얻어지는 리드 데이터를 처리하여 유전 정보에 관한 데이터베이스를 구축하고 사용자의 명령에 따라 상기 데이터베이스 검색 결과를 출력하는 유전 정보 관리 방법으로서,
상기 리드 데이터로부터 판독하는 단계;
상기 리드 데이터로부터 유전 정보에 관한 기본 항목 및 주요 키(primary key)를 포함하는 마스터 테이블을 생성하는 단계;
상기 리드 데이터로부터 유전 정보에 관한 부가 항목 및 상기 주요 키를 포함하는 슬레이브 테이블을 생성하는 단계; 및
상기 사용자 요청과 관련된 상기 주요 키를 기준으로 상기 마스터 테이블 또는 상기 슬레이브 테이블의 내용을 검색하여 출력하되, 상기 사용자의 요청이 줌아웃(ZoomOut) 명령이면 상기 주요 키에 해당하는 상기 마스터 테이블의 내용을 출력하고, 상기 사용자의 요청이 줌인(ZoomIn) 명령이면 상기 주요 키에 해당하는 상기 마스터 테이블과 상기 주요 키에 해당하는 상기 슬레이브 테이블을 결합한 내용을 출력하는 단계
를 포함하고,
상기 마스터 테이블 및 상기 슬레이브 테이블은 테이블 내장 인덱스의 형태로 구성되는 유전 정보 관리 방법.
제13항에 있어서, 상기 테이블 내장 인덱스는
IOT(Index-Organized Table), Clustered Index 또는 Innodb인 유전 정보 관리 방법.
제13항에 있어서,
상기 기본 항목은 유전 정보의 아이디, 염색체의 번호, 시작 위치, 유형 및 모드를 포함하고,
상기 부가 항목은 유전 정보의 퀄리티, 서열 및 차이를 포함하는 유전 정보 관리 방법.
삭제
삭제
제13항에 있어서, 상기 주요 키는
아스키 코드의 적어도 일부를 사용하여 구성되는 유전 정보 관리 방법.
제18항에 있어서, 상기 아스키 코드의 적어도 일부는
코드 33 내지 126 범위의 아스키 코드를 포함하는 유전 정보 관리 방법.
제19항에 있어서, 상기 주요 키는
상기 범위의 아스키 코드를 조합한 5바이트로 표시되는 유전 정보 관리 방법.