KR101188886B1 - 유전 정보 관리 시스템 및 방법 - Google Patents

유전 정보 관리 시스템 및 방법 Download PDF

Info

Publication number
KR101188886B1
KR101188886B1 KR20100103538A KR20100103538A KR101188886B1 KR 101188886 B1 KR101188886 B1 KR 101188886B1 KR 20100103538 A KR20100103538 A KR 20100103538A KR 20100103538 A KR20100103538 A KR 20100103538A KR 101188886 B1 KR101188886 B1 KR 101188886B1
Authority
KR
South Korea
Prior art keywords
genetic information
index
primary key
information management
read data
Prior art date
Application number
KR20100103538A
Other languages
English (en)
Other versions
KR20120042058A (ko
Inventor
박민서
김우연
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR20100103538A priority Critical patent/KR101188886B1/ko
Priority to EP11185942.7A priority patent/EP2444914A3/en
Priority to US13/278,791 priority patent/US9098490B2/en
Priority to JP2011231857A priority patent/JP5175381B2/ja
Priority to CN201110329432.3A priority patent/CN102456101B/zh
Publication of KR20120042058A publication Critical patent/KR20120042058A/ko
Application granted granted Critical
Publication of KR101188886B1 publication Critical patent/KR101188886B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2423Interactive query statement specification based on a database schema
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Abstract

본 발명은 방대한 양의 리드 데이터 및 리드 데이터로부터 얻어진 유전 정보를 효율적으로 관리하는 시스템 및 방법에 관한 것이다. 본 발명에 따른 유전 정보 관리 시스템은, 상기 리드 데이터를 읽어서 테이블 내장 인덱스의 형태로 변환하는 파싱부와, 상기 테이블 내장 인덱스를, 유전 정보에 관한 기본 항목을 포함하는 마스터 테이블과, 유전 정보에 관한 부가 항목을 포함하는 슬레이브 테이블로 분류하여 관리하는 테이블 관리부와, 상기 마스터 테이블 및/또는 상기 슬레이브 테이블의 내용을 검색하여 출력하는 검색부로 이루어진다.

Description

유전 정보 관리 시스템 및 방법{System and method for managing genetic information}
본 발명은 바이오 인포메틱스(Bioinformatics) 기술에 관한 것으로, 보다 상세하게는, 방대한 양의 리드 데이터 및 리드 데이터로부터 얻어진 유전 정보를 효율적으로 관리하는 시스템 및 방법에 관한 것이다.
최근 들어 바이오 산업분야에서 유전체 산업 분야가 확산되고 있다. 대표적인 사례로는 "Genome Quest", "Knome", "Complete Genomics" 등의 글로벌 회사들이 NGS(Next Generation Sequencing)라 불리는 DNA 시퀀싱 기법을 상용화하여 서비스하고 있으며, 최근 국내에서 "테라젠"과 같은 회사도 같은 방법의 서비스를 시작한 바 있다. 이러한 기술들은 NGS를 통해 추출된 데이터를 디스플레이 하고자 하는 유전체 분야, 유전체 분석 서비스를 하는 바이오 산업 분야, 유전체 연구분야에서 데이터 제공을 위한 유전체 연구분야, 진단 및 치료에 있어 유전체 데이터를 활용하는 의학분야 등 다양한 분야에서 활용될 수 있는 잠재력을 지니고 있다.
그런데, 이러한 NGS를 통한 DNS 시퀀싱 기법을 통하여 얻어지는 데이터는 인간의 경우 하나의 샘플당 약 35억 건에 이르기 때문에 얻어진 데이터의 효율적인 분석, 검색 및 디스플레이를 위한, 데이터베이스 구축 및 데이터 처리 기술(즉, 유전 정보 관리 기법)의 개발 또한 매우 중요하다고 볼 수 있다.
현재까지 알려진 유전 정보 관리 기법으로는, SAM(Sequence Alignment/Map) tools, Gbrowse(Generic Genome Browser), IGV(Integrative Genomics Viewer) 등이 있다.
SAM tools는 "Bioinformatics"라는 학술지에 2009년도에 발표된 바 있는데, NGS 방법을 통해 산출된 리드 데이터를 효과적으로 저장하기 위한 방법을 제안하고 있다. 이에 따르면, SAM과 BAM(Binary Alignment/Map)이라는 형식의 파일 포맷이 제안되었는데, 이를 통하여 전체 데이터 사이즈를 줄임과 동시에 데이터를 빠른 시간에 추출해 낼 수 있는 방안까지 제시하고 있다.
SAM 파일 포맷은 '@'이라는 문자로 헤더부분을 나타내고 있으며 실제 데이터는 TAB으로 구분하여 다음의 표 1과 같이 총 11개의 필수 칼럼을 가지고 있다.
Figure 112010068477737-pat00001
상기 SAM 포맷은 이진 포맷인 BAM 포맷으로 전환될 수 있다. 이것은 데이터로부터 정보를 빠른 시간 내에 추출하고 데이터 공간을 줄이기 위한 방안이다. 실제로 데이터에 접근하기 위해서는 특별히 고안된 samtools 라는 프로그램을 사용해야 한다.
한편, 세계의 많은 연구기관에서 활용하고 있는 유전정보 브라우저로서는 GBrowse가 있다. GBrowse 자체는 mysql이라는 데이터베이스를 기반으로 하며, 동시에 파일 기반의 데이터도 관리가 가능하다. 그러나, 리드 데이터를 데이터 베이스에 저장/관리하지 못하고 있다. 더불어, 일반적인 유전정보와 달리, NGS 데이터에 대해서는 워낙 대용량 데이터이기 때문에 기존의 방식이 그대로 적용될 수는 없다. 따라서, 2009년에 NGS데이터를 보여주기 위한 시도가 있었으며 그 결과로 현재 리드 데이터가 디스플레이 가능하도록 수정된 바 있다.
마지막으로, 유전 정보를 로컬컴퓨터에서 디스플레이 하기 위한 용도로 개발된 브라우저로서, IGV가 알려져 있다. 이것은 NGS 데이터뿐 아니라 마이크로 어레이 등의 실험 데이터를 같이 포함시킬 수 있도록 설계되어 있다. NGS 데이터의 경우에는 SAM 혹은 BAM 파일 형식 데이터를 인풋으로 받을 수 있다. 사용자는 이 툴을 직접 자신의 컴퓨터에 설치하고, 필요한 파일을 획득한 후 상기 파일을 툴로 임포트(import)하여 구동되는 방식이다.
그러나, 이와 같이 현재까지 알려진 종래의 기술들에서는 다음과 같은 몇 가지 문제점을 발견할 수 있다.
첫째, 종래의 기술들에서 사용하는 데이터에서는, 원하는 부분만의 변경이 거의 불가능하다. 내용을 변경하기 위해서는 데이터 전체를 다시 생성해야 하기 때문에, 데이터 자체를 SAM 형식으로 만들고 이를 다시 이진 형태인 BAM 파일로 변환하여야 한다. 즉, 데이터를 변경하기 위해서는 전체 파일을 재 생성해야 한다.
둘째, 종래의 기술들에서는 자료의 생성이나 추가 삭제 등의 기능에서 전체 자료의 중복성을 판단하기가 어렵다. 하나의 자료 변경 시 전체 자료에서의 중복성을 확인하기 위해서는 전체 자료를 검증해봐야 하는 문제점이 발생된다. 또한 전체 자료에서 필요한 자료의 도출 시에도 중복을 일일이 검증해봐야 하는 어려움이 있다.
셋째, 종래의 기술들은 다수의 사용자들을 대상으로 서비스하는 형태가 아니다. 그렇기 때문에 다수의 사용자가 같은 데이터에 접근시에 이를 통제하거나 필요한 규칙을 적용할 수 없다. 이것을 위해서는 이 기능을 담당하는 별도의 프로그램을 구축하여 상기 데이터들을 커버할 수 있어야 한다.
넷째, 종래의 기술들로는 자료의 무결성 처리가 어렵다. 자료의 무결성은 인가되지 않는 사용자와 인가되지 않은 방식에 의해 자료가 수정 또는 삭제되는 것을 방지하는 것을 말한다. 이를 위해서는 자료 하나 하나를 시스템상의 계정과 연계하거나 혹은 이러한 자료 자체를 관리하는 별도의 툴을 개발해야 하는 번거로움이 있다. 생명체의 유전정보는 그 보안이 매우 중요시 되며, 특히 인간의 유전정보라면 개인의 주민등록번호 이상으로 강화된 보안이 요구된다. 따라서, 무결성 처리의 어려움은 분명한 문제점으로 지적될 수 있다.
마지막으로, 종래의 기술들에 따르면, 자료가 다양한 요인에 의해 손상될 경우 이를 복구할 수 있는 기능이 없다. 그렇기 때문에 이와 관련한 또 다른 기능을 직접 구현하거나 별도의 프로그램을 가동하여야 한다. 산업적인 측면에서 자료의 무결성과 더불어 이러한 자료의 안정성은 매우 큰 부분을 차지하고 있다고 볼 수 있다.
본 발명은 상기와 같은 문제점을 고려하여 안출된 것으로, NGS의 리드 데이터와 같은 대용량의 유전 정보의 신속하고, 안정된 처리를 위한 데이터 베이스 설계를 제공하는 것을 목적으로 한다. 특히, 이러한 데이터 베이스가 유전자 브라우저에서 데이터를 디스플레이 할 때 효과적으로 응용될 수 있도록 하는 것을 목적으로 한다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 달성하기 위한, 본 발명의 일 실시예에 따른, 유전자 분석 장치로부터 얻어지는 리드 데이터를 처리하여 리드 데이터와 그것으로부터 얻어지는 유전 정보에 관한 데이터베이스를 구축하고 사용자의 명령에 따라 상기 데이터베이스 검색 결과를 출력하는 유전 정보 관리 시스템은, 상기 리드 데이터를 읽어서 테이블 내장 인덱스의 형태로 변환하는 파싱부; 상기 테이블 내장 인덱스를, 유전 정보에 관한 기본 항목을 포함하는 마스터 테이블과, 유전 정보에 관한 부가 항목을 포함하는 슬레이브 테이블로 분류하여 관리하는 테이블 관리부; 및 사용자의 요청에 따라 상기 마스터 테이블 및/또는 상기 슬레이브 테이블의 내용을 검색하여 출력하는 검색부를 포함한다.
본 발명의 다른 실시예에 따른 유전 정보 관리 시스템은, 상기 리드 데이터를 읽어서 테이블 내장 인덱스의 형태로 변환하는 파싱부; 및 사용자의 요청과 관련된 주요 키(primary key)를 기준으로 상기 테이블 내장 인덱스의 내용을 검색하는 검색부를 포함하되, 상기 주요 키는 아스키 코드의 적어도 일부를 사용하여 구성된다.
상기 기술적 과제를 달성하기 위한, 본 발명의 일 실시예에 따른, 유전자 분석 장치로부터 얻어지는 리드 데이터를 처리하여 유전 정보에 관한 데이터베이스를 구축하고 사용자의 명령에 따라 상기 데이터베이스 검색 결과를 출력하는 유전 정보 관리 방법은, 상기 리드 데이터를 읽어서 테이블 내장 인덱스의 형태로 변환하는 단계; 상기 테이블 내장 인덱스를, 유전 정보에 관한 기본 항목을 포함하는 마스터 테이블과, 유전 정보에 관한 부가 항목을 포함하는 슬레이브 테이블로 분류하여 관리하는 단계; 및 사용자의 요청에 따라 상기 마스터 테이블 및/또는 상기 슬레이브 테이블의 내용을 검색하여 출력하는 단계를 포함한다.
본 발명에 따르면, NGS의 리드 데이터와 같은 대용량의 유전 정보의 처리 성능이 개선될 수 있다. 특히, 대용량의 유전 정보에 대하여 테이블 내장 인덱스를 응용하였기 때문에, 저장 공간 및 데이터 처리 속도를 향상시킬 수 있으며, 테이블 분리 기능을 통해 소요 시간을 감축시킬 수 있다. 뿐만 아니라 아스키 코드를 이용한 식별자를 사용함으로써 데이터 검색 및 테이블 결합 시간을 감소시킬 수 있다.
따라서, 유전체 서열을 시퀀싱한 후 유전자 브라우저를 통해 그 결과를 보여주는 유전체 분석 서비스나, 다양한 샘플에서 DNA를 추출하고 그 데이터를 분석하는 연구 분야나, 의료를 위한 진단 및 치료의 목적뿐만 아니라, 이외의 목적으로 대용량 데이터를 처리해야 되는 경우 등에 광범위하게 활용될 수 있다.
도 1은 본 발명의 일 실시예에 따른 유전 정보 관리 시스템을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 유전자 분석 장치를 도시한 블록도이다.
도 3a는 인덱스와 테이블이 분리된 일반 테이블 구조를 보여주는 도면이다.
도 3b는 도 3a와 대비되는 테이블 내장 인덱스의 예를 보여주는 도면이다.
도 4는 마스터 테이블에 저장되는 기본 항목과 슬레이브 테이블에 저장되는 부가 항목의 예를 보여주는 도면이다.
도 5는 5 바이트의 아스키 문자로 73억 개를 구별할 수 있는 식별자를 생성할 수 있음을 보여주는 도면.
유전 정보를 디스플레이 하는 브라우저의 개발에 있어서, NGS 기법으로 추출된 리드 데이터의 효과적인 저장 방법이 요구된다. 인간을 대상으로 한 경우 하나의 샘플(인간의 genome)을 NGS 방법으로 DNA 시퀀싱을 수행하게 되면 대략 800GB가 넘는 리드 데이터가 생성된다. 이러한 방대한 데이터를 브라우저상에서 실시간으로 디스플레이할 필요가 있는데, 이 경우 방대한 데이터량의 효율적인 처리가 관건이 된다. 이를 해결하고자 본 발명에서는 데이터베이스 기반으로 리드 데이터 및 그로부터 얻어진 유전 정보를 저장/검색하기 위한 방법을 제시하고자 한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
도 1은 본 발명의 일 실시예에 따른 유전 정보 관리 시스템(100)을 도시한 블록도이다. 유전 정보 관리 시스템(100)은 파싱부(110), 테이블 관리부(120), 검색부(140) 및 사용자 인터페이스(150)를 포함하여 구성될 수 있다. 도 1의 실시예에서는, 유전자 분석 장치(50)가 유전 정보 관리 시스템(100)의 외부에 별도로 구비된 것으로 하여 설명하지만, 유전자 분석 장치(50)가 유전 정보 관리 시스템(100) 내에 포함되더라도 본 발명의 사상을 벗어나지 않음은 물론이다.
유전 정보 관리 시스템(100)은 유전자 분석 장치(50)로부터 얻어지는 리드 데이터(read data)를 처리하여 유전 정보에 관한 데이터베이스를 구축하고 사용자의 명령에 따라 상기 데이터베이스 검색 결과를 출력한다.
유전자 분석 장치(50)는 도 2에 도시된 바와 같이, 유전자 샘플로부터 유전 정보 관리 시스템(100)에 제공할 리드 데이터를 제공한다. 유전자 분석 장치(50)는 유전자 시퀀서(51), 매핑부(52), 페어링부(53) 및 머징부(54)를 포함하여 구성될 수 있다.
먼저, 유전자 시퀀서(51)는 유전자 샘플로부터 텍스트 산출물을 생성한다. 이러한 텍스트 산출물로는 리드 서열 데이터, 리드 퀄리티 데이터 등이 포함될 수 있다. 유전자 시퀀서(51)는 예를 들면, 분석하려는 유전자를 플로우 셀(flow cell)에 존재하는 비드(bead)에 부착하고, 플로우 셀에 화학물질(형광 물질 등)을 처리하여 염기(A, T, G, C)에 따라 색상이 변화하게 한 후, 광학 현미경을 통해 비드의 색상을 촬영하는 방식으로 상기 텍스트 산출물을 생성할 수 있다.
매핑부(52)는 상기 텍스트 산출물을 레퍼런스 유전체(reference genome)에 매핑한다. 상기 레퍼런스 유전체는 이미 공개된 유전체 시퀀스로서, 인간의 유전체의 경우에는 NCBI에 공개된 자료를 사용할 수 있다.
페어링부(53)는 서로 쌍을 이루는 리드 데이터를 서로 연결한다. 마지막으로, 머징부(54)는 산출된 페어링 데이터를 샘플별로 하나의 파일로 병합한다. 한 개의 샘플은 정확성을 위해 여러 번 실험을 거치게 되는데, 머징부(54)는 이와 같이 여러 번 실험으로 생긴 데이터를 병합하는 과정을 수행하는 것이다. 이러한 머징 과정은 필요에 따라 생략될 수도 있다. 이상의 과정들을 통하여 유전자 분석 장치의 출력 데이터(유전 정보 관리 시스템(100)에 제공될 리드 데이터)가 얻어진다.
다시 도 1을 참조하면, 파싱부(110)는 유전자 분석 장치(50)로부터 제공된 리드 데이터를 읽어서, 데이터베이스를 기반으로 한, 테이블 내장 인덱스 형태로 변환한다. 상기 테이블 내장 인덱스는 오라클 데이터 베이스에서는 IOT(Index-Organized Table), mssql과 sybase에서는 Clustered Index, 그리고 mysql에서는 Innodb로 각각 표현될 수 있다.
본 발명은 이와 같이, 종래의 파일 기반 시스템 대신에 데이터베이스 기반의 시스템을 이용한다. 데이터베이스 기반의 시스템은 파일 기반 시스템에 비하여, 자료의 구조 변경, 자료 중복의 회피, 동시성 제어의 용이성, 무결성 처리의 용이성, 회복 처리의 용이성 등 다양한 장점을 지닌다. 유전자 브라우저는 많은 유전체 정보를 디스플레이하는 브라우저이므로, 자료의 중복이 일어나서는 아니되며, 동시성 제어와 자료구조 변경이 수시로 발생된다. 또한, 유전 정보는 고유한 정보인 동시에 보안이 중요하므로 무결성 처리가 쉬운 데이터베이스 기반의 시스템이 보다 적합하다. 또한, 유전자 브라우저는 대량의 데이터 작업이 사용자의 요청에 따라서 추가로 생성될 가능성이 존재하며, 이에 따라 자료 구조가 변경될 수 있다. 따라서, 이러한 관점에서도 자료 구조 변경이 가능한 데이터베이스 기반의 시스템이 보다 효과적이다.
본 발명은 이러한 데이터베이스 기반의 시스템의 도입과 함께, 데이터베이스를 구축에 있어서 통상의 테이블 대신에, 테이블 내장 인덱스를 사용고자 한다.
리드 데이터를 테이블로 구성하면, 일반적으로 열(column)의 수는 작고, 행(row)의 수(인간을 샘플로 하는 경우 35억개)는 매우 큰 특성을 갖는다. 다음의 표 2는 통상의 유전체 브라우저에 사용되는 리드 데이터를 일반적인 테이블로 표시한 것이다. 여기서 괄호 내의 숫자는 바이트 수이다.
주요 키
(5)
아이디
(10)
염색체 번호
(2)
시작 위치
(10)
사이즈
(2)
유형
(10)
모드
(2)
퀄리티 (100) 서열
(100)
차이
(100)
                 
                 
 35억 개의 행                  
이러한 데이터의 특성을 고려하여 본 발명에서는 테이블 내장 인덱스를 제안한다. 테이블 내장 인덱스는 일반적인 테이블에서의 단점인, 인덱스를 통하여 레코드를 억세스할 때 테이블을 읽는 두 번의 과정을 거치는 프로세스를 보완한다.
도 3a는 인덱스와 테이블이 분리된 일반 테이블 구조의 예를, 도 3b는 도 3a와 대비되는 테이블 내장 인덱스의 예를 보여준다. 도 3a의 일반 테이블의 경우에는, 주요 키(primary key)를 이용하여 인덱스를 탐색해서 ROWID를 얻은 다음에 다시 ROWID를 이용해서 테이블을 읽는다. 따라서, 키 칼럼의 주요 키가 인덱스와 테이블에 중복 저장되기 때문에 디스크 낭비를 초래하고 검색 시간을 지연시킨다.
이에 비하여, 도 3b의 테이블 내장 인덱스의 경우, 주요 키를 중복하여 저장할 필요가 없다. 특히, 기록되는 행의 수가 클수록 보다 효과적이다. 인간 유전체의 경우 리드 데이터는 최대 60억건(30X 기준)을 상회하는 데이터 수가 존재한다. 따라서, 행의 수가 매우 크고 따라서 기록될 주요 키의 수도 그만큼 커진다. 따라서, 특히 유전체 데이터의 경우에는 주요 키를 통해 두 번 검색하고 중복저장 공간을 가지는 일반 테이블 구조는 유전자 브라우저의 성능을 심각하게 저하시키게 된다. 따라서, 인덱스 내에 데이터 테이블을 포함시킨 구조, 즉 테이블 내장 인덱스를 사용할 필요성이 높아진다. 이러한 상기 테이블 내장 인덱스의 예로는, 오라클 데이터 베이스의 IOT(Index-Organized Table), mssql과 sybase의 Clustered Index, mysql의 Innodb 등이 있다.
다시, 도 1을 참조하면, 테이블 관리부(120)는, 파싱부(110)에서 얻어진 상기 테이블 내장 인덱스를, 유전 정보에 관한 기본 항목을 포함하는 마스터 테이블과, 유전 정보에 관한 부가 항목을 포함하는 슬레이브 테이블로 분류하여 관리한다.
저장공간을 줄이고, 효율적인 인덱스로 성능을 개선시킬 수 있는 테이블 내장 인덱스에도 단점이 있다. 테이블 내장 인덱스에서 한 열(column)의 크기가 너무 크거나 열의 수가 너무 많으면 효율성이 급격히 저하된다. 따라서, 현재 유전 정보 중에서, 퀄리티 데이터처럼 바이트 수가 큰 데이터는 별도로 분류할 필요가 있다. 또한 퀄리티 데이터는 메인 브라우저 페이지에서는 생략될 수 있는 정보, 즉 상세 브라우저 페이지에서만 보여주어도 충분한 데이터에 속한다.
마스터 테이블에 저장되는 기본 항목과 슬레이브 테이블에 저장되는 부가 항목의 예는 다음의 도 4에 도시된 바와 같다. 상기 부가 항목은 상대적으로 데이터의 크기가 크거나, 메인 브라우저에서는 생략되어도 좋은 데이터 항목을 의미한다. 상기 마스터 테이블 및 상기 슬레이브 테이블은 동일한 주요 키(primary key)를 각각 포함하는데, 상기 주요 키를 기준으로 상기 마스터 테이블 및 상기 슬레이브 테이블의 검색 및 결합이 이루어질 수 있다.
다시 도 1을 참조하면, 사용자 인터페이스(150)는 사용자의 요청을 수신하여 검색부(140)에 전달하고, 검색부(140)에서 처리된 결과를 사용자에게 표시한다. 사용자 인터페이스는 예를 들어, 유전체 브라우저로 구현될 수 있지만, 이에 한하는 것은 아니다.
검색부(140)는 사용자의 요청에 따라 상기 마스터 테이블 및/또는 상기 슬레이브 테이블의 내용을 검색하여 출력한다. 상기 검색부(140)는 상기 사용자의 요청이 줌아웃(ZoomOut) 명령이면, 상기 주요 키에 해당하는 상기 마스터 테이블의 내용을 출력하고, 상기 사용자의 요청이 줌인(ZoomIn) 명령이면, 상기 주요 키에 해당하는 상기 마스터 테이블과 상기 주요 키에 해당하는 상기 슬레이브 테이블을 결합한 내용을 출력한다.
유전체 브라우저(사용자 인터페이스(150)에 포함됨)에서는, 데이터 검색 범위의 구간에 따라서 정렬될 데이터의 양이 다르다. 따라서, 구간에 따라 다른 테이블 설정을 하면 효과적일 수 있다. 유전체 브라우저는 통상 줌인(Zoom In) 및 줌아웃(Zoom Out) 기능을 가진다. 예를 들어, 유전체 브라우저에서 줌인은 유전 정보를 자세히 볼 수 있도록, 보여 주는 영역을 100KB(kilo base)로 한정한다. 따라서, 많은 리드 데이터의 유전 정보가 표시되지는 않지만, 한 리드 데이터에 대해 보다 상세한 정보, 즉 마스터 테이블 및 슬레이브 테이블이 결합된 결과를 보여준다.
한편, 줌아웃에 의해서는 통상 보여 주는 영역이 10MB(mega base)이기 때문에, 상대적으로 많은 리드 데이터의 유전 정보가 디스플레이 된다. 따라서 이 경우에는 기본 항목을 표시하기 위하여 마스터 테이블만을 참조하여도 충분하다.
만약, 이와 같은 유전 정보가 마스터 테이블/슬레이브 테이블의 구조를 갖지 않는다면, 사용자가 줌인 및 줌아웃 기능을 수시로 사용하는 경우에도, 하나로 된 테이블을 참조하게 되는데, 이러한 하나의 테이블은 전술한 바와 같이 큰 바이트의 항목들을 다수 포함함으로 인하여 테이블 내장 인덱스의 효율이 떨어지게 될 것이다.
한편, 이와 같이 마스터 테이블 및 슬레이브 테이블을 결합하기 위하여 발생되는 비효율도 고려하여야 할 것이다. 그러나, 마스터 테이블 및 슬레이브 테이블을 테이블 내장 인덱스로 구현함으로 인하여, 검색 시간이 단축된다는 점, 보다 작은 범위의 처리(ex. 100KB)를 전제로 하므로 많은 행을 고려할 필요가 없다는 점 등으로 인하여 이러한 결합 과정으로 인하여 큰 비효율은 발생하지 않는다.
전술한 바와 같이, 마스터 테이블 및 슬레이브 테이블을 포함하는 이중화된 테이블 구성에 있어서는, 두 테이블의 검색 및 결합을 위한 공통적인 키(주요 키)가 요구된다. 하지만 리드 데이터 자체가 하나의 샘플당 약 35억 건에 이르기 때문에 하나의 주요 키에 1바이트만 추가되어도 약 3.5기가 바이트가 추가되는 결과를 초래한다. 그렇기 때문에 이를 해결하고자 35억 건이 넘는 데이터를 짧은 키로 담을 수 있는 방안이 요구된다.
이에, 본 발명에서는 상기 공통된 주요 키를 아스키 코드의 적어도 일부를 사용하여 구성하는 것을 제안한다. 예를 들어, 아스키 코드 중 33에서 126에 해당하는 아스키 문자를 조합하여 주요 키를 표현할 수 있다. 다음의 표 3은 아스키 코드 및 이에 대응되는 10진수 값을 보여준다.
Figure 112010068477737-pat00002
이러한 아스키 코드 중에서 33 내지 126은 일반적인 문자이고, 이를 제외한 34개의 아스키 코드는 제어 문자이다. 따라서, 아스키 코드 중 33에서 126에 해당하는 아스키 문자를 조합하여 주요 키를 표현할 수 있는 것이다.
다음의 도 5와 같이, 상기 범위의 아스키 코드를 총 5 바이트로 주요 키를 표시한다면, 단 5 바이트만으로 73억 개를 구별할 수 있는 식별자를 생성할 수 있는 것이다. 이와 같이, 적은 바이트 수로 가능한 한 많은 식별자를 표시하는 것은, 단지 마스터 테이블과 슬레이브 테이블을 포함하는 이중화된 테이블 구성에서만 요구되는 것은 아니다. 예를 들어, 도 1에서 파싱부(110)에서 얻어진 테이블 내장 인덱스의 형태만으로 된 단일의 테이블을 검색부(140)에 의하여 검색하는 실시예에서도 테이블에 포함된 마스터 키의 크기를 줄이는 데에 유용하게 사용될 수 있다.
지금까지 도 1의 각 구성요소는 소프트웨어(software) 또는, FPGA(field-programmable gate array)나 ASIC(application-specific integrated circuit)과 같은 하드웨어(hardware)를 의미할 수 있다. 그렇지만 상기 구성요소들은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 어드레싱(addressing)할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 상기 구성요소들 안에서 제공되는 기능은 더 세분화된 구성요소에 의하여 구현될 수 있으며, 복수의 구성요소들을 합하여 특정한 기능을 수행하는 하나의 구성요소로 구현할 수도 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야 한다.
50: 유전자 분석 장치 100: 유전 정보 관리 시스템
110: 파싱부 120: 테이블 관리부
140: 검색부 150: 사용자 인터페이스

Claims (20)

  1. 유전자 분석 장치로부터 얻어지는 리드 데이터를 처리하여 유전 정보에 관한 데이터베이스를 구축하고 사용자의 명령에 따라 상기 데이터베이스 검색 결과를 출력하는 유전 정보 관리 시스템으로서,
    상기 리드 데이터를 읽어서 테이블 내장 인덱스의 형태로 변환하는 파싱부;
    상기 테이블 내장 인덱스를, 유전 정보에 관한 기본 항목 및 주요 키(primary key)를 포함하는 마스터 테이블과, 유전 정보에 관한 부가 항목 및 상기 주요 키를 포함하는 슬레이브 테이블로 분류하여 관리하는 테이블 관리부; 및
    상기 사용자 요청과 관련된 상기 주요 키를 기준으로 상기 마스터 테이블 또는 상기 슬레이브 테이블의 내용을 검색하여 출력하는 검색부
    를 포함하고,
    상기 검색부는, 상기 사용자의 요청이 줌아웃(ZoomOut) 명령이면 상기 주요 키에 해당하는 상기 마스터 테이블의 내용을 출력하고, 상기 사용자의 요청이 줌인(ZoomIn) 명령이면 상기 주요 키에 해당하는 상기 마스터 테이블과 상기 주요 키에 해당하는 상기 슬레이브 테이블을 결합한 내용을 출력하는 유전 정보 관리 시스템.
  2. 제1항에 있어서, 상기 테이블 내장 인덱스는
    IOT(Index-Organized Table), Clustered Index 또는 Innodb인 유전 정보 관리 시스템.
  3. 제1항에 있어서,
    상기 기본 항목은 유전 정보의 아이디, 염색체의 번호, 시작 위치, 유형 및 모드를 포함하고,
    상기 부가 항목은 유전 정보의 퀄리티, 서열 및 차이를 포함하는 유전 정보 관리 시스템.
  4. 삭제
  5. 삭제
  6. 제1항에 있어서, 상기 주요 키는
    아스키 코드의 적어도 일부를 사용하여 구성되는 유전 정보 관리 시스템.
  7. 제6항에 있어서, 상기 아스키 코드의 적어도 일부는
    코드 33 내지 126 범위의 아스키 코드를 포함하는 유전 정보 관리 시스템.
  8. 제7항에 있어서, 상기 주요 키는
    상기 범위의 아스키 코드를 조합한 5바이트로 표시되는 유전 정보 관리 시스템.
  9. 유전자 분석 장치로부터 얻어지는 리드 데이터를 처리하여 유전 정보에 관한 데이터베이스를 구축하고 사용자의 명령에 따라 상기 데이터베이스 검색 결과를 출력하는 유전 정보 관리 시스템으로서,
    상기 리드 데이터를 읽어서 테이블 내장 인덱스의 형태로 변환하는 파싱부; 및
    사용자의 요청과 관련된 주요 키(primary key)를 기준으로 상기 테이블 내장 인덱스의 내용을 검색하는 검색부를 포함하되,
    상기 주요 키는 상기 리드 데이터를 구별하기 위한 식별자로서, 아스키 코드의 적어도 일부를 사용하여 구성되는 유전 정보 관리 시스템.
  10. 제9항에 있어서, 상기 아스키 코드의 적어도 일부는
    코드 33 내지 126 범위의 아스키 코드를 포함하는 유전 정보 관리 시스템.
  11. 제10항에 있어서, 상기 주요 키는
    상기 범위의 아스키 코드를 조합한 5바이트로 표시되는 유전 정보 관리 시스템.
  12. 삭제
  13. 유전자 분석 장치로부터 얻어지는 리드 데이터를 처리하여 유전 정보에 관한 데이터베이스를 구축하고 사용자의 명령에 따라 상기 데이터베이스 검색 결과를 출력하는 유전 정보 관리 방법으로서,
    상기 리드 데이터로부터 판독하는 단계;
    상기 리드 데이터로부터 유전 정보에 관한 기본 항목 및 주요 키(primary key)를 포함하는 마스터 테이블을 생성하는 단계;
    상기 리드 데이터로부터 유전 정보에 관한 부가 항목 및 상기 주요 키를 포함하는 슬레이브 테이블을 생성하는 단계; 및
    상기 사용자 요청과 관련된 상기 주요 키를 기준으로 상기 마스터 테이블 또는 상기 슬레이브 테이블의 내용을 검색하여 출력하되, 상기 사용자의 요청이 줌아웃(ZoomOut) 명령이면 상기 주요 키에 해당하는 상기 마스터 테이블의 내용을 출력하고, 상기 사용자의 요청이 줌인(ZoomIn) 명령이면 상기 주요 키에 해당하는 상기 마스터 테이블과 상기 주요 키에 해당하는 상기 슬레이브 테이블을 결합한 내용을 출력하는 단계
    를 포함하고,
    상기 마스터 테이블 및 상기 슬레이브 테이블은 테이블 내장 인덱스의 형태로 구성되는 유전 정보 관리 방법.
  14. 제13항에 있어서, 상기 테이블 내장 인덱스는
    IOT(Index-Organized Table), Clustered Index 또는 Innodb인 유전 정보 관리 방법.
  15. 제13항에 있어서,
    상기 기본 항목은 유전 정보의 아이디, 염색체의 번호, 시작 위치, 유형 및 모드를 포함하고,
    상기 부가 항목은 유전 정보의 퀄리티, 서열 및 차이를 포함하는 유전 정보 관리 방법.
  16. 삭제
  17. 삭제
  18. 제13항에 있어서, 상기 주요 키는
    아스키 코드의 적어도 일부를 사용하여 구성되는 유전 정보 관리 방법.
  19. 제18항에 있어서, 상기 아스키 코드의 적어도 일부는
    코드 33 내지 126 범위의 아스키 코드를 포함하는 유전 정보 관리 방법.
  20. 제19항에 있어서, 상기 주요 키는
    상기 범위의 아스키 코드를 조합한 5바이트로 표시되는 유전 정보 관리 방법.
KR20100103538A 2010-10-22 2010-10-22 유전 정보 관리 시스템 및 방법 KR101188886B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR20100103538A KR101188886B1 (ko) 2010-10-22 2010-10-22 유전 정보 관리 시스템 및 방법
EP11185942.7A EP2444914A3 (en) 2010-10-22 2011-10-20 Genetic information management system and method
US13/278,791 US9098490B2 (en) 2010-10-22 2011-10-21 Genetic information management system and method
JP2011231857A JP5175381B2 (ja) 2010-10-22 2011-10-21 遺伝情報管理システムおよび遺伝情報管理方法
CN201110329432.3A CN102456101B (zh) 2010-10-22 2011-10-24 遗传信息管理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20100103538A KR101188886B1 (ko) 2010-10-22 2010-10-22 유전 정보 관리 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20120042058A KR20120042058A (ko) 2012-05-03
KR101188886B1 true KR101188886B1 (ko) 2012-10-09

Family

ID=44993487

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20100103538A KR101188886B1 (ko) 2010-10-22 2010-10-22 유전 정보 관리 시스템 및 방법

Country Status (5)

Country Link
US (1) US9098490B2 (ko)
EP (1) EP2444914A3 (ko)
JP (1) JP5175381B2 (ko)
KR (1) KR101188886B1 (ko)
CN (1) CN102456101B (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10528531B2 (en) 2012-12-03 2020-01-07 Kt Corporation Method for verifying biodata, and apparatus therefor
RU2817560C1 (ru) * 2020-04-07 2024-04-16 Иллюмина, Инк. Аппаратно-ускоренное генерирование k-мерного графа

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9773091B2 (en) 2011-10-31 2017-09-26 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
CA2858686C (en) 2011-12-08 2018-10-02 Five3 Genomics, Llc Distributed system providing dynamic indexing and visualization of genomic data
US9600625B2 (en) 2012-04-23 2017-03-21 Bina Technologies, Inc. Systems and methods for processing nucleic acid sequence data
AU2013262476A1 (en) 2012-05-18 2014-12-04 Georgetown University Populating and searching a drug informatics database
US9678948B2 (en) 2012-06-26 2017-06-13 International Business Machines Corporation Real-time message sentiment awareness
US9104656B2 (en) * 2012-07-03 2015-08-11 International Business Machines Corporation Using lexical analysis and parsing in genome research
US9460083B2 (en) 2012-12-27 2016-10-04 International Business Machines Corporation Interactive dashboard based on real-time sentiment analysis for synchronous communication
US9690775B2 (en) 2012-12-27 2017-06-27 International Business Machines Corporation Real-time sentiment analysis for synchronous communication
US8937564B2 (en) 2013-01-10 2015-01-20 Infinidat Ltd. System, method and non-transitory computer readable medium for compressing genetic information
US20140236897A1 (en) * 2013-01-10 2014-08-21 Jacob Brodio System, method and non-transitory computer readable medium for compressing genetic information
US10847251B2 (en) 2013-01-17 2020-11-24 Illumina, Inc. Genomic infrastructure for on-site or cloud-based DNA and RNA processing and analysis
US10068054B2 (en) 2013-01-17 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US9792405B2 (en) 2013-01-17 2017-10-17 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US9679104B2 (en) 2013-01-17 2017-06-13 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10691775B2 (en) 2013-01-17 2020-06-23 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US11342048B2 (en) 2013-03-15 2022-05-24 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
US9418203B2 (en) 2013-03-15 2016-08-16 Cypher Genomics, Inc. Systems and methods for genomic variant annotation
CA2942811A1 (en) 2013-03-15 2014-09-25 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
US9594777B1 (en) * 2013-08-15 2017-03-14 Pivotal Software, Inc. In-database single-nucleotide genetic variant analysis
US10006910B2 (en) 2014-12-18 2018-06-26 Agilome, Inc. Chemically-sensitive field effect transistors, systems, and methods for manufacturing and using the same
US9859394B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
WO2016100049A1 (en) 2014-12-18 2016-06-23 Edico Genome Corporation Chemically-sensitive field effect transistor
US10020300B2 (en) 2014-12-18 2018-07-10 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9618474B2 (en) 2014-12-18 2017-04-11 Edico Genome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9857328B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Chemically-sensitive field effect transistors, systems and methods for manufacturing and using the same
WO2016154154A2 (en) 2015-03-23 2016-09-29 Edico Genome Corporation Method and system for genomic visualization
US10419020B2 (en) 2015-06-18 2019-09-17 International Business Machines Corporation Increasing storage capacity and data transfer speed in genome data backup
WO2017004589A1 (en) * 2015-07-02 2017-01-05 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
WO2017029249A1 (en) 2015-08-17 2017-02-23 Koninklijke Philips N.V. Multi-level architecture of pattern recognition in biological data
US20170270245A1 (en) 2016-01-11 2017-09-21 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing
US10068183B1 (en) 2017-02-23 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on a quantum processing platform
WO2017201081A1 (en) 2016-05-16 2017-11-23 Agilome, Inc. Graphene fet devices, systems, and methods of using the same for sequencing nucleic acids
US10522241B2 (en) 2016-09-08 2019-12-31 International Business Machines Corporation Accelerating genomic data parsing on field programmable gate arrays
ES2922420T3 (es) * 2016-10-11 2022-09-14 Genomsys Sa Estructuras de datos eficientes para la representación de información bioinformática
US20180314842A1 (en) * 2017-04-27 2018-11-01 Awakens, Inc. Computing system with genomic information access mechanism and method of operation thereof
RU2659025C1 (ru) * 2017-06-14 2018-06-26 Общество с ограниченной ответственностью "ЛЭНДИГРАД" Способы кодирования и декодирования информации

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050082051A (ko) 2004-02-17 2005-08-22 삼성전자주식회사 서열 색인 방법 및 그 시스템

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6266378A (ja) * 1985-09-19 1987-03-25 Mitsubishi Electric Corp 文書デ−タ処理装置
US5204663A (en) * 1990-05-21 1993-04-20 Applied Systems Institute, Inc. Smart card access control system
US6519583B1 (en) * 1997-05-15 2003-02-11 Incyte Pharmaceuticals, Inc. Graphical viewer for biomolecular sequence data
US6317750B1 (en) * 1998-10-26 2001-11-13 Hyperion Solutions Corporation Method and apparatus for accessing multidimensional data
US6941317B1 (en) 1999-09-14 2005-09-06 Eragen Biosciences, Inc. Graphical user interface for display and analysis of biological sequence data
US6484179B1 (en) * 1999-10-25 2002-11-19 Oracle Corporation Storing multidimensional data in a relational database management system
US6795821B2 (en) * 2001-07-17 2004-09-21 Trendium, Inc. Database systems, methods and computer program products including primary key and super key indexes for use with partitioned tables
US7529685B2 (en) * 2001-08-28 2009-05-05 Md Datacor, Inc. System, method, and apparatus for storing, retrieving, and integrating clinical, diagnostic, genomic, and therapeutic data
KR100453517B1 (ko) 2002-05-31 2004-10-20 주식회사 이노티브 인터넷을 통한 대용량 고품질 디지털 이미지의 실시간서비스 방법
US7634498B2 (en) * 2003-10-24 2009-12-15 Microsoft Corporation Indexing XML datatype content system and method
US7925555B2 (en) * 2003-11-05 2011-04-12 Wells Fargo Bank N.A. Master system of record
JP4433289B2 (ja) * 2004-04-27 2010-03-17 日鉄日立システムエンジニアリング株式会社 ゲノム情報表示システム
EP1782371A4 (en) * 2004-06-22 2009-12-02 Coras Inc SYSTEMS AND METHODS FOR SOFTWARE BASED ON COMMERCIAL CONCEPTS
US20060074735A1 (en) * 2004-10-01 2006-04-06 Microsoft Corporation Ink-enabled workflow authoring
US20080077570A1 (en) * 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
JP2006244189A (ja) * 2005-03-04 2006-09-14 Hitachi Software Eng Co Ltd 遺伝情報検索プログラム
US7734619B2 (en) * 2005-05-27 2010-06-08 International Business Machines Corporation Method of presenting lineage diagrams representing query plans
CN101449204A (zh) * 2005-09-07 2009-06-03 实况活动媒体公司 用于图像捕获的空中支撑结构和方法
CN100343852C (zh) * 2005-09-27 2007-10-17 南方医科大学 一种与特定功能相关的基因信息检索系统及用于该系统的检索词数据库的构建方法
US7472140B2 (en) * 2005-12-20 2008-12-30 Oracle International Corporation Label-aware index for efficient queries in a versioning system
KR100737359B1 (ko) * 2006-10-04 2007-07-10 (주)이글로벌시스템 암호화된 컬럼의 인덱스 구축방법
CN101780070B (zh) 2009-01-16 2012-08-22 广州康臣药物研究有限公司 一种治疗糖尿病肾病的药物组合物及其制备方法
US9704129B2 (en) * 2009-08-31 2017-07-11 Thomson Reuters Global Resources Method and system for integrated professional continuing education related services

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050082051A (ko) 2004-02-17 2005-08-22 삼성전자주식회사 서열 색인 방법 및 그 시스템

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
국내논문발표자료1
국외기술정보
국외논문발표자료

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10528531B2 (en) 2012-12-03 2020-01-07 Kt Corporation Method for verifying biodata, and apparatus therefor
RU2817560C1 (ru) * 2020-04-07 2024-04-16 Иллюмина, Инк. Аппаратно-ускоренное генерирование k-мерного графа

Also Published As

Publication number Publication date
US20120102041A1 (en) 2012-04-26
EP2444914A2 (en) 2012-04-25
EP2444914A3 (en) 2016-01-27
JP5175381B2 (ja) 2013-04-03
JP2012094141A (ja) 2012-05-17
KR20120042058A (ko) 2012-05-03
CN102456101A (zh) 2012-05-16
US9098490B2 (en) 2015-08-04
CN102456101B (zh) 2015-07-08

Similar Documents

Publication Publication Date Title
KR101188886B1 (ko) 유전 정보 관리 시스템 및 방법
Cox et al. Large-scale compression of genomic sequence databases with the Burrows–Wheeler transform
US10289714B2 (en) Compression of serialized B-tree data
CN103377278B (zh) 识别要压缩的数据块中的表边界检测的方法与系统
Janin et al. BEETL-fastq: a searchable compressed archive for DNA reads
KR20110129628A (ko) Dna 서열 검색 방법 및 장치
CN102012896B (zh) 一种实现文件内容批量修改的方法和装置
Frühwirt et al. InnoDB database forensics: Enhanced reconstruction of data manipulation queries from redo logs
CN113901006A (zh) 大规模基因测序数据存储与查询系统
WO2003042780A3 (en) System and method for storage and analysis of gene expression data
CN105843554B (zh) 基于对象存储的数据迁移的方法及其系统
Hilgert et al. Extending The Sleuth Kit and its underlying model for pooled storage file system forensic analysis
Bonizzoni et al. LSG: an external-memory tool to compute string graphs for next-generation sequencing data assembly
US20200278980A1 (en) Database processing apparatus, group map file generating method, and recording medium
CN111045994A (zh) 一种基于kv数据库的文件分类检索方法及系统
US20200004592A1 (en) Hybridized storage optimization for genomic workloads
Lee et al. Automated redaction of private and personal data in collections
KR101160289B1 (ko) 파티션 테이블을 이용한 염기서열 데이터 관리 시스템 및 방법
JP2023551641A (ja) データ検索のためのリストベースのデータ保存
Zhang et al. Gazelle: transcript abundance query against large-scale RNA-seq experiments
Zhu et al. JACKIE: Fast Enumeration of Genome-Wide Single-and Multicopy CRISPR Target Sites and Their Off-Target Numbers
KR20050054377A (ko) 유전자 온톨로지를 이용한 단백질 상호작용 네트워크 검색시스템 및 방법
JP5595957B2 (ja) アクセスログ処理システム及び方法及びプログラム、アクセスログ格納検索装置
Fu et al. LCTD: A lossless compression tool of FASTQ file based on transformation of original file distribution
Alhussein et al. Forensics filesystem with cluster-level identifiers for efficient data recovery

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150629

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160701

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee