KR20190017738A - 생물학적 데이터 관리를 위한 시스템 및 방법 - Google Patents

생물학적 데이터 관리를 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20190017738A
KR20190017738A KR1020187032359A KR20187032359A KR20190017738A KR 20190017738 A KR20190017738 A KR 20190017738A KR 1020187032359 A KR1020187032359 A KR 1020187032359A KR 20187032359 A KR20187032359 A KR 20187032359A KR 20190017738 A KR20190017738 A KR 20190017738A
Authority
KR
South Korea
Prior art keywords
data
base
storing
sequence
bits
Prior art date
Application number
KR1020187032359A
Other languages
English (en)
Inventor
마소우드 바키리
쿠르트 크리스토퍼슨
마크 올드함
Original Assignee
퀀텀 바이오시스템즈 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀀텀 바이오시스템즈 가부시키가이샤 filed Critical 퀀텀 바이오시스템즈 가부시키가이샤
Publication of KR20190017738A publication Critical patent/KR20190017738A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work or social welfare, e.g. community support activities or counselling services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/40Encryption of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Mathematical Physics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Computational Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Operations Research (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Child & Adolescent Psychology (AREA)

Abstract

생물학적 데이터 관리를 위한 시스템 및 방법은 데이터의 대안적 해석을 보존할 수 있으며, 멀티-레벨 암호화 및 개인정보 관리를 구현할 수 있다. 생물학적 데이터 관리를 위한 시스템 및 방법은 셀-레벨 아키텍쳐, 뱅크-및-블록-레벨 아키텍쳐, 및/또는 다중-계층 아키텍쳐를 포함할 수 있다. 생물학적 데이터 관리를 위한 시스템 및 방법은 정의, 규칙, 및 지시를 포함할 수 있고/있거나, 2차원 또는 3차원 데이터 구조를 이용할 수 있다.

Description

생물학적 데이터 관리를 위한 시스템 및 방법
교차-참조
본 출원은 전체내용이 참조로서 본원에 포함되는 2016년 4월 11일에 출원된 미국 가특허 출원 번호 62/321,103호에 대한 우선권을 주장한다.
우리의 유전 정보의 이해를 증가시키고, 이러한 정보를 관리하는 방법에 관한 도전을 제기하기 위해 새로운 연구가 지속되고 있다. 보다 높은 수준의 해상도를 갖는 유전 맵의 더욱 완전한 이해는 건강관리 및 다른 분야에서 가치 있는 결과를 발생시킬 수 있다.
예로서, 유전 데옥시리보핵산(DNA) 데이터를 관리하는데 있어서의 난제 중 하나는 시간이 지남에 따라 변하지 않고, 아직 단백질을 코딩하는 것으로 보이지 않는 코드의 고도로 보존된 영역이 존재한다는 점이다. 그러나, 연구는 이들이 유전자 발현 조절, 대안적 스플라이싱, 및 원위 인핸서에서 중요한 역할을 할 수 있음을 나타낸다. 따라서, 유전 서열의 더욱 빈번하게 사용되는 영역에 대한 신속한 액세스를 유지하면서 드물게 이용되는 영역을 저장하는 효율적인 방식이 바람직하다.
데이터의 대안적 해석을 수용할 수 있고, 이에 다양한 장치에 의해 측정되는 낮은-수준의 데이터에 액세스할 수 있는 데이터 관리 방식에 대한 필요가 본원에서 인식된다. 또한, 더 큰 융통성 및 더 큰 완전성을 갖는 유전 데이터를 감지하고, 저장하고, 관리할 필요성 뿐만 아니라 오류 시나리오를 처리하면서 상이한 수준에서 이들 데이터 세트를 융통성 있고 효율적으로 생성시키고, 추가하고, 유지하고, 질의할 필요성이 본원에서 인식된다.
미가공 데이터를 판독하고 해석하고, 유전 데이터를 저장하고 해석하고, 데이터의 개인정보 및 기밀성 유지를 포함하는 유전 데이터를 효율적이고 안전하게 관리하기 위한 시스템 및 방법이 본원에 제공된다.
일부 시스템 및 방법은 정의 및 규칙을 제공할 수 있고, 건강관리, 식품 안전성, 및/또는 다른 병원체 취급 상황과 관련된 문제에 대한 적절한 지시를 발행할 수 있다. 정보 처리 환경에서 다중-계층 네트워크 아키텍쳐가 이용될 수 있다.
생물학적 데이터 해석의 과제 및 유형에 의해 요구되는 바에 따라 병렬성이 이용될 수 있다. 정보는 처음에는 반-구조화된 데이터의 분산형 기억장치에 저장될 수 있어, 필요에 따라 정보를 검색하고, 감소시키고, 정보를 구조화, 컬럼형, 또는 관계형 데이터베이스로 재구성시킬 수 있다.
시스템 및 방법은 정보가 저장소에 저장되고, 휴지시에는 암호화될 수 있도록 상이한 질의를 동시에 단계화하고 수행할 수 있다. 정보는 안전하고 융통성 있는 방식으로 분산된 시스템을 가로질러, 저장소 사이로, 서버 사이로, 또는 서버와 클라이언트 사이로 전송될 수 있다.
시스템 및 방법은 데이터의 크기 또는 데이터의 단위와 하나 이상의 저장 장치의 단위 저장 블록 또는 뱅크의 크기 사이의 관계에 따라 하나 이상의 저장 장치에 생물학적 데이터를 저장할 수 있다.
시스템 및 방법은 사용자, 역할, 애플리케이션, 프로세스, 또는 위치 기반일 수 있는 액세스 제어를 지원할 수 있다.
시스템 및 방법은 메모리 셀 수준, 메모리 블록 수준, 메모리 뱅크 수준, 또는 또 다른 메모리 파티션 수준에서 하나 이상의 메모리 장치에 유전 데이터(예를 들어, 폴리뉴클레오티드 데이터)를 맵핑하고 저장하는 것에 관한 것일 수 있다.
본 발명의 개시의 일 양태는 (a) 염기 데이터를 발생시키도록 구성된 시퀀싱 장치를 포함하는 최종-사용자 모듈; (b) 최종-사용자 모듈과 네트워크 통신하는 로컬 저장소로서, (i) 염기 데이터를 수신하고, (ii) 염기 데이터를 서열 데이터로 전환시키고, (iii) 서열 데이터를 기초로 하여 축약 데이터를 생성시키고, (iv) 축약 데이터를 기존 약어의 데이터베이스와 비교하도록 프로그램되거나 구성된, 로컬 저장소; 및 (c) 로컬 저장소와 네트워크 통신하는 중앙 서버로서, 기존 약어의 데이터베이스를 업데이트하도록 구성된, 중앙 서버를 포함하는, 생물학적 데이터 관리 시스템을 제공한다.
일부 구현예에서, 로컬 저장소는 약어를 플래깅(flagging)시키고, 플래깅된 약어를 중앙 서버에 전달하도록 추가로 프로그램되거나 구성된다. 일부 구현예에서, 중앙 서버는 플래깅된 약어를 수신하고, 플래깅된 약어에 대해 추가 분석을 수행하도록 추가로 프로그램되거나 구성된다. 일부 구현예에서, 중앙 서버는 지시를 생성하고, 플래깅된 약어의 분석시 지시를 로컬 저장소로 전달하도록 추가로 프로그램되거나 구성된다. 일부 구현예에서, 약어는 분산(variance), 해시(hash), 또는 체크섬(checksum)이다.
본 발명의 개시의 또 다른 양태는 (a) 생물학적 데이터를 저장하기에 적합한 저장 장치 크기를 확인하기 위해 생물학적 데이터의 크기를 결정하는 단계; (b) 저장 장치 크기와 양립되는 블록 크기를 갖는 메모리 장치 내의 메모리 위치를 확인하는 단계; 및 (c) 생물학적 데이터를 메모리 장치의 메모리 위치에 소거 가능한 블록에 저장하는 단계를 포함하는 생물학적 데이터를 저장하기 위한 방법을 제공한다.
일부 구현예에서, 각각의 소거 가능한 블록은 생물학적 데이터를 저장하기 위한 섹션 및 생물학적 데이터와 관련된 메타데이터를 저장하기 위한 섹션을 포함한다. 일부 구현예에서, 메타데이터를 저장하기 위한 섹션은 더 긴 수명을 포함한다. 일부 구현예에서, 메타데이터를 저장하기 위한 섹션은 서열 데이터를 저장하기 위한 섹션의 제어기와 상이한 제어기를 포함한다. 일부 구현예에서, 메타데이터를 저장하기 위한 섹션은 서열 데이터를 저장하기 위한 섹션보다 더 빈번히 액세스하도록 구성된다.
본 발명의 개시의 또 다른 양태는 (a) 드문 액세스를 위한 생물학적 데이터를 저장하도록 구성된 제1 메모리 장치; 및 (b) 제1 메모리 장치와 통신하고, 빈번한 액세스를 위한 생물학적 데이터를 저장하도록 구성된, 블록 크기를 갖는 제2 메모리 장치로서, 제2 메모리 장치가 제1 메모리 장치보다 신속하고, 블록 크기가 생물학적 데이터의 크기에 따라 생물학적 데이터를 저장하도록 선택되는, 제2 메모리 장치를 포함하는, 생물학적 데이터 관리 시스템을 제공한다.
일부 구현예에서, 생물학적 데이터는 n-mer 서열이고, 블록 크기는 n-mer의 단량체를 저장하는데 필요한 비트 수의 n배이다. 일부 구현예에서, 생물학적 데이터는 n-mer 서열이고, 블록 크기는 n-mer의 단량체를 저장하는데 필요한 비트 수의 적어도 n배이다. 일부 구현예에서, 제2 메모리 장치는 플래시 메모리 장치를 포함한다. 일부 구현예에서, 제2 메모리 장치는 플래시 메모리 소거 블록인 블록을 포함한다.
본 발명의 개시의 또 다른 양태는 멀티-레벨 셀(multi-level cell; MLC) 메모리 장치 내에 서열 염기 데이터를 저장하기 위한 방법을 제공하며, MLC 메모리 장치는 메모리 셀을 포함하고, 메모리 셀 각각은 2개의 비트를 저장하도록 구성되고, 상기 방법은 메모리 셀에서 (a) 제1 유형의 염기를 표현하기 위해 2개의 비트를 00으로 설정하는 단계; (b) 제2 유형의 염기를 표현하기 위해 2개의 비트를 01로 설정하는 단계; (c) 제3 유형의 염기를 표현하기 위해 2개의 비트를 10으로 설정하는 단계; 또는 (d) 제4 유형의 염기를 표현하기 위해 2개의 비트를 11로 설정하는 단계를 포함한다.
일부 구현예에서, 서열 염기 데이터는 하나 이상의 폴리뉴클레오티드를 나타내고, 폴리뉴클레오티드 각각은 하나 이상의 염기를 포함하고, 하나 이상의 염기 각각은 적어도 4개의 가능한 염기 중 하나이다. 일부 구현예에서, 폴리뉴클레오티드는 DNA 또는 RNA이다.
본 발명의 개시의 또 다른 양태는 메모리 장치에 생물학적 데이터를 저장하기 위한 방법을 제공하며, 메모리 장치는 블록을 포함하고, 블록 각각은 블록 크기를 포함하며, 상기 방법은 (a) 생물학적 데이터의 크기를 결정하는 단계; (b) 블록의 적어도 서브셋의 블록 크기를 결정하는 단계; (c) 블록 크기를 기초로 하여 생물학적 데이터를 압축하여 압축된 생물학적 데이터를 생성하는 단계; 및 (d) 블록의 적어도 서브셋에 생물학적 데이터를 저장하는 단계를 포함한다.
제19항의 방법에서, 메모리 장치는 플래시 메모리 장치를 포함하고, 블록 크기는 소거 블록 크기이다.
일부 구현예에서, 블록 크기는 압축된 생물학적 데이터의 크기보다 크거나 이와 같다. 일부 구현예에서, 소거 블록은 생물학적 데이터 및 생물학적 데이터의 메타데이터를 저장한다.
본 발명의 개시의 또 다른 양태는 메모리 장치에 서열 염기 데이터를 저장하기 위한 방법을 제공하며, 메모리 장치는 메모리 셀을 포함하고, 메모리 셀 각각은 적어도 3개의 비트를 저장하도록 구성되며, 상기 방법은 메모리 셀에서 (a) 제1 유형의 염기를 표현하기 위해 적어도 3개의 비트 중 3개를 000으로 설정하는 단계; (b) 제2 유형의 염기를 표현하기 위해 적어도 3개의 비트 중 3개를 001로 설정하는 단계; (c) 제3 유형의 염기를 표현하기 위해 적어도 3개의 비트 중 3개를 010으로 설정하는 단계; (d) 제4 유형의 염기를 표현하기 위해 적어도 3개의 비트 중 3개를 011로 설정하는 단계; (e) 제5 유형의 염기를 표현하기 위해 적어도 3개의 비트 중 3개를 100으로 설정하는 단계; (f) 제6 유형의 염기를 표현하기 위해 적어도 3개의 비트 중 3개를 101로 설정하는 단계; (g) 제7 유형의 염기를 표현하기 위해 적어도 3개의 비트 중 3개를 110으로 설정하는 단계; 및 (h) 제8 유형의 염기를 표현하기 위해 적어도 3개의 비트 중 3개를 111로 설정하는 단계를 포함한다.
일부 구현예에서, 서열 염기 데이터는 하나 이상의 폴리뉴클레오티드이고, 폴리뉴클레오티드 각각은 하나 이상의 염기를 포함하고, 하나 이상의 염기 각각은 4개의 상이한 고유 염기 중 하나, 메틸화 염기, 산화 염기, 또는 무염기 위치이다. 일부 구현예에서, 폴리뉴클레오티드는 DNA 또는 RNA이다. 일부 구현예에서, 메모리 장치는 플래시 메모리, 상-변화 메모리, 또는 저항 메모리를 포함한다.
본 발명의 개시의 또 다른 양태는 메모리 장치에 서열 염기 데이터를 저장하기 위한 방법을 제공하며, 서열 염기 데이터는 측정된 복수의 염기의 각각을 나타내는 2개의 가능성 있는 염기를 포함하고, 메모리 장치는 메모리 셀을 포함하고, 메모리 셀 각각은 복수의 비트를 저장하도록 구성되며, 상기 방법은 복수의 비트 중 제1 비트에 서열 염기 데이터의 가장 가능성 있는 염기를 저장하는 단계; 복수의 비트 중 제2 비트에 서열 염기 데이터의 두번째로 가장 가능성 있는 염기를 저장하는 단계; 및 복수의 비트 나머지에 가장 가능성 있는 염기 및 두번째로 가장 가능성 있는 염기의 상대 확률을 저장하는 단계를 포함한다.
일부 구현예에서, 상기 방법은 메모리 셀의 제1 셀을 이용하여 가장 가능성 있는 염기를 확인하는 단계; 메모리 셀의 제2 셀을 이용하여 두번째로 가장 가능성 있는 염기를 확인하는 단계; 및 메모리 셀의 하나 이상의 다른 셀을 이용하여 상대 확률을 저장하는 단계를 추가로 포함한다. 일부 구현예에서, 상기 방법은 메모리 셀의 제3 셀에 두번째로 가장 가능성 있는 염기의 확률을 저장하는 단계를 추가로 포함한다.
본 발명의 개시의 또 다른 양태는 적어도 3개의 비트를 저장하도록 각각 구성된 메모리 셀을 포함하는 메모리 장치에 서열 염기 데이터를 저장하기 위한 방법을 제공하며, 상기 방법은 메모리 셀에서 (a) 제1 유형의 염기를 표현하기 위해 적어도 3개의 비트 중 3개의 비트를 포함하는 제1 비트 표시를 제공하는 단계; (b) 제2 유형의 염기를 표현하기 위해 적어도 3개의 비트 중 3개의 비트를 포함하는 제2 비트 표시를 제공하는 단계; (c) 제3 유형의 염기를 표현하기 위해 적어도 3개의 비트 중 3개의 비트를 포함하는 제3 비트 표시를 제공하는 단계; (d) 제4 유형의 염기를 표현하기 위해 적어도 3개의 비트 중 3개의 비트를 포함하는 제4 비트 표시를 제공하는 단계; (e) 메틸화된 염기를 표현하기 위해 적어도 3개의 비트 중 3개의 비트를 포함하는 제5 비트 표시를 제공하는 단계; (f) 산화된 염기를 표현하기 위해 적어도 3개의 비트 중 3개의 비트를 포함하는 제6 비트 표시를 제공하는 단계; 및 (g) 무염기 부위를 표현하기 위해 적어도 3개의 비트 중 3개의 비트를 포함하는 제7 비트 표시를 제공하는 단계를 포함한다.
일부 구현예에서, 메모리 장치는 플래시 메모리, 상-변화 메모리, 또는 저항 메모리를 포함한다.
본 발명의 개시의 또 다른 양태는 생물학적 서열 데이터를 암호화하기 위한 방법을 제공하며, 상기 방법은 (a) 생물학적 서열 데이터에서 정상적인 분산의 변화를 확인하는 단계; 및 (b) 생물학적 서열 데이터로 제2 수준의 분산을 도입시키는 단계로서, 생물학적 서열 데이터가 정상 수준의 분산과 관련하여 구별할 수 없도록 제2 수준의 분산이 정상 수준의 분산과 동등한 단계를 포함한다.
일부 구현예에서, 상기 방법은 암호화 방법을 이용하여 도입된 수준의 분산을 전달하는 단계를 추가로 포함한다.
본 발명의 개시의 또 다른 양태는 대상체의 생물학적 서열 데이터를 암호화하기 위한 방법을 제공하며, 상기 방법은 (a) 제1 암호화 방식을 이용하여 대상체와 관련된 정보를 암호화하는 단계; 및 (b) 제2 암호화 방식을 이용하여 생물학적 서열 데이터를 암호화하는 단계로서, 제2 암호화 방식이 제1 암호화 방식과 상이한 단계를 포함한다.
일부 구현예에서, 제2 암호화 방식은 제1 암호화 방식보다 덜 광범위한 암호화를 포함한다. 일부 구현예에서, 제2 암호화 방식은 채핑(chaffing) 및 위노잉(winnowing)을 포함한다. 일부 구현예에서, 제1 암호화 방식은 공개 키 기반구조를 이용하고, 제2 암호화 방식은 공개 키 기반구조를 이용한다. 일부 구현예에서, 제1 암호화 방식은 제1 공개 키 기반구조를 이용하고, 제2 암호화 방식은 제1 공개 키 기반구조와 상이한 제2 공개 키 기반구조를 이용한다.
본 발명의 개시의 또 다른 양태는 서열 염기 데이터를 저장하기 위한 방법을 제공하며, 상기 방법은 컴퓨터 메모리에 2차원 표 구조를 제공하는 단계로서, 2차원 표 구조가 잠재적 염기를 나타내는 정보를 저장하도록 구성되는 단계; 2차원 표 구조의 1차원에 서열 염기 데이터의 가장 가능성 있는 측정된 염기를 나타내는 정보를 저장하는 단계; 2차원 표 구조의 2차원에 서열 염기 데이터의 다른 잠재적 염기를 나타내는 정보를 저장하는 단계; 및 2차원 표 구조에서 1차원 및 2차원의 교차에 해당하는 확률을 저장하는 단계를 포함한다.
일부 구현예에서, 잠재적 염기는 4개의 가능한 염기 각각 및 메틸화 염기, 산화 염기 및 무염기 부위 중 적어도 하나의 세트를 포함한다. 일부 구현예에서, 상기 방법은 컴퓨터 메모리에 제2의 2차원 표 구조를 제공하는 단계로서, 제2의 2차원 표 구조가 잠재적 염기를 나타내는 정보를 저장하도록 구성되는 단계; 및 제2의 2차원 표 구조에 서열 염기 데이터의 가장 가능성 있는 측정된 염기 및 서열 염기 데이터의 두번째로 가장 가능성 있는 측정된 염기를 저장하는 단계를 추가로 포함한다.
본 발명의 개시의 또 다른 양태는 생물학적 데이터를 관리하기 위한 방법을 제공하며, 상기 방법은 (i) 센서로부터 미가공의 측정된 생물학적 데이터를 수신하고, (ii) 미가공의 측정된 생물학적 데이터로부터 가공된 생물학적 데이터를 생성하도록 프로그램되거나 구성된 애플리케이션 서버를 제공하는 단계; 애플리케이션 서버에서 로컬 저장소로부터 가공된 생물학적 데이터와 관련된 정의 및 규칙을 수신하는 단계; 및 애플리케이션 서버에 의해 가공된 생물학적 데이터와 관련된 정의 및 규칙을 기초로 한 지시를 발행하는 단계를 포함한다.
일부 구현예에서, 가공된 생물학적 데이터는 관련 정의 및 규칙이 로컬 저장소에서 발견되지 않는 가공된 생물학적 데이터의 일부를 포함하고, 상기 방법은 가공된 생물학적 데이터의 적어도 일부를 로컬 저장소로 전송하는 단계를 추가로 포함한다. 일부 구현예에서, 상기 방법은 로컬 저장소로부터 중앙 서버로 가공된 생물학적 데이터의 적어도 일부를 전송하는 단계를 추가로 포함한다. 일부 구현예에서, 상기 방법은 중앙 서버로부터 로컬 저장소로 지시를 전송하는 단계를 추가로 포함한다. 일부 구현예에서, 상기 방법은 중앙 서버로부터 로컬 저장소로 새로운 정의 및 규칙을 전송하는 단계를 추가로 포함한다.
본 발명의 개시의 또 다른 양태는 서열 염기 데이터를 저장하기 위한 방법을 제공하며, 상기 방법은 염기 위치에 대해, 저장 장치의 제1 위치에 서열 염기 데이터의 가장 가능성 있는 염기를 나타내는 정보를 저장하는 단계, 및 저장 장치의 제2 위치에 가장 가능성 있는 염기의 발생 횟수의 확률을 저장하는 단계를 포함한다.
본 발명의 개시의 또 다른 양태는 적어도 4개의 가능한 염기를 포함하는 서열 염기 데이터를 저장하기 위한 방법을 제공하며, 상기 방법은 (a) 컴퓨터 메모리에 3차원 표 구조를 제공하는 단계로서, 3차원 표 구조가 서열 염기 데이터를 저장하도록 구성되고, (i) 3차원 표 구조의 1차원이 유전 서열 염기 데이터의 가장 가능성 있는 측정된 염기를 나타내는 정보를 저장하고; (ii) 3차원 표 구조의 2차원이 유전 서열 염기 데이터의 잠재적 염기를 나타내는 정보를 저장하고; (iii) 3차원 표 구조의 3차원이 서열 염기 데이터의 적어도 4개의 가능한 염기 각각에 대한 염기 카운트 확률을 나타내는 정보를 저장하는, 단계; (b) 3차원 표 구조에 1차원, 2차원, 및 3차원의 교차에 해당하는 확률을 저장하는 단계를 포함한다.
본 발명의 개시의 또 다른 양태는 대상체와 관련된 생물학적 데이터를 보호하기 위한 방법을 제공하며, 상기 방법은 제1 암호화 방식을 이용하여 대상체의 개인 식별 정보를 암호화하는 단계; 제2 암호화 방식을 이용하여 대상체의 표현형을 암호화하는 단계; 제3 암호화 방식을 이용하여 생물학적 데이터를 암호화하는 단계로서, 제2 암호화 방식 또는 제3 암호화 방식이 제1 암호화 방식과 상이한, 단계; 및 컴퓨터 메모리에 암호화된 개인 식별 정보, 암호화된 표현형, 및 암호화된 생물학적 데이터를 저장하는 단계를 포함한다.
일부 구현예에서, i) 제2 암호화 방식은 제1 암호화 방식과 상이하고, (ii) 제3 암호화 방식은 제1 암호화 방식과 상이하고, (iii) 제3 암호화 방식은 제2 암호화 방식과 상이하다. 일부 구현예에서, 상기 방법은 대상체의 유전자 발현 데이터를 저장하는 단계를 추가로 포함한다. 일부 구현예에서, 상기 방법은 대상체의 지리 데이터를 저장하는 단계를 추가로 포함한다.
본 발명의 개시의 또 다른 양태는 대상체의 유전 데이터를 저장하기 위한 방법을 제공하며, 상기 방법은 제1 수준의 액세스 제한으로 제1 저장 세그먼트에 대상체의 개인 식별 정보를 저장하는 단계; 제2 수준의 액세스 제한으로 제2 저장 세그먼트에 대상체의 표현형 데이터를 저장하는 단계; 및 제3 수준의 액세스 제한으로 제3 저장 세그먼트에 대상체의 유전 데이터를 저장하는 단계를 포함한다.
일부 구현예에서, 제2 수준의 액세스 제한 또는 제3 수준의 액세스 제한은 제1 수준의 액세스 제한과 상이하다. 일부 구현예에서, (i) 제2 수준의 액세스 제한은 제1 수준의 액세스 제한과 상이하고, (ii) 제3 수준의 액세스 제한은 제1 수준의 액세스 제한과 상이하고, (iii) 제3 수준의 액세스 제한은 제2 수준의 액세스 제한과 상이하다.
본 발명의 개시의 추가 양태 및 장점은 하기 상세한 설명으로부터 당업자에게 용이하게 명백할 것이며, 본 발명의 개시의 단지 예시적 구현예가 제시되고 기재된다. 이해되는 바와 같이, 본 발명의 개시는 다른 구현예 및 상이한 구현예가 가능하며, 이의 여러 세부사항은 모두 본 발명의 개시로부터 벗어남이 없이 다양한 명백한 관점에서 변형이 가능하다. 따라서, 도면 및 설명은 본질적으로 예시적인 것으로 간주되어야 하며, 제한적이지는 않다.
참조로서의 포함
본 명세서에 언급된 모든 간행물, 특허, 및 특허 출원은 각각의 개별적 간행물, 특허, 또는 특허 출원이 구체적으로 및 개별적으로 참조로서 포함되도록 지시된 것과 동일한 정도로 참조로서 본원에 포함된다.
본 발명의 신규한 특징은 첨부된 청구항에서 상세하게 기재된다. 본 발명의 특징 및 장점의 더 나은 이해는 본 발명의 원리가 이용되는 예시적인 구현예를 기재하는 하기 상세한 설명, 및 하기의 첨부된 도면(본원에서 또한 "도" 및 "FIG")을 참조로 하여 획득될 것이다:
[도 1] 도 1은 센서의 컨덕턴스(conductance)-시간 프로파일의 예를 예시한다.
[도 2] 도 2는 생물학적 데이터 관리 시스템의 개략도의 예를 예시한다.
[도 3] 도 3은 생물학적 데이터 관리를 위한 분산형 네트워크의 다이어그램의 예를 예시한다.
[도 4] 도 4는 중앙 서버가 중앙 위치에 있는 생물학적 데이터 관리 시스템의 개략도의 예를 예시한다.
[도 5] 도 5는 애플리케이션 서버에 의해 실행될 수 있는 프로세스를 예시하는 흐름도의 예를 예시한다.
[도 6] 도 6은 로컬 저장소에 의해 실행될 수 있는 프로세스를 예시하는 흐름도의 예를 예시한다.
[도 7] 도 7은 센서에 의한 21-mer 판독을 위한 염기 확률 행렬의 예를 예시한다.
[도 8] 도 8은 판독을 위해 유지되는 데이터의 추가 차원의 예를 예시한다.
[도 9] 도 9는 다양한 샘플 식별자의 예를 예시한다.
[도 10] 도 10은 신택스(syntax)의 3개의 예를 예시한다.
[도 11] 도 11은 이행 신택스(transitional syntax)의 예를 예시한다.
[도 12] 도 12는 애플리케이션 서버 입력의 예를 예시한다.
[도 13] 도 13은 애플리케이션 서버 출력의 예를 예시한다.
[도 14] 도 14는 분산형 파일 시스템의 예를 예시한다.
[도 15] 도 15는 분할된 액세스 제어를 위한 아키텍쳐의 예를 예시한다.
[도 16a] 도 16a, 16b, 16c, 및 16d는 계층화된 저장 액세스 방식의 예를 예시한다.
[도 16b] 도 16a, 16b, 16c, 및 16d는 계층화된 저장 액세스 방식의 예를 예시한다.
[도 16c] 도 16a, 16b, 16c, 및 16d는 계층화된 저장 액세스 방식의 예를 예시한다.
[도 16d] 도 16a, 16b, 16c, 및 16d는 계층화된 저장 액세스 방식의 예를 예시한다.
[도 17] 도 17은 생물학적 데이터를 관리하도록 프로그램되거나 달리 구성된 컴퓨터 시스템의 예를 예시한다.
본 발명의 다양한 구현예가 본원에 제시되고 기재되었으나, 상기 구현예는 단지 예로서 제공되는 것이 당업자에게 명백할 것이다. 본 발명을 벗어남이 없이 당업자에 의해 다수의 변형, 변화, 및 대체가 발생할 수 있다. 본원에 기재된 본 발명의 구현예에 대한 다양한 대안이 이용될 수 있음이 이해되어야 한다.
본원에서 사용되는 용어 "대상체"는 일반적으로 동물, 예를 들어, 포유동물 종(예를 들어, 인간) 또는 조류(예를 들어, 새) 종, 또는 다른 유기체, 예를 들어 식물을 나타낸다. 대상체는 척추동물, 포유동물, 마우스, 영장류, 유인원, 또는 인간일 수 있다. 동물은 농장 동물, 스포츠 동물, 또는 애완 동물을 포함할 수 있으나, 이에 제한되지는 않는다. 대상체는 건강한 개체, 질병 또는 질병에 대한 소인을 갖거나 가질 것으로 의심되는 개체, 또는 요법을 필요로 하거나 요법을 필요로 할 것으로 의심되는 개체일 수 있다. 대상체는 환자일 수 있다.
본원에서 사용되는 용어 "유전체"는 일반적으로 유기체의 유전 정보 전체를 나타낸다. 유전체는 데옥시리보핵산(DNA) 또는 리보핵산(RNA)로 인코딩될 수 있다. 유전체는 단백질을 코딩하는 코딩 영역 또는 비-코딩 영역을 포함할 수 있다. 유전체는 유기체의 임의의 염색체 또는 모든 염색체의 서열을 포함할 수 있다. 예를 들어, 인간 유전체는 전체 46개의 염색체를 갖는다. 이들 염색체 모두의 서열은 집합적으로 인간 유전체를 구성할 수 있다.
본원에서 사용되는 용어 "유전적 변형"은 일반적으로 대상체의 핵산 샘플 또는 유전체에서의 변경, 변형, 또는 다형태를 나타낸다. 상기 변경, 변형, 또는 다형태는 대상체 또는 다른 개체의 참조 유전체일 수 있는 참조 유전체와 관련될 수 있다. 다형태는 단일 뉴클레오티드 다형태(SNP)를 포함할 수 있다. 일부 예에서, 하나 이상의 다형태는 하나 이상의 단일 뉴클레오티드 변형(SNV), 삽입 또는 결실(indels), 반복, 작은 삽입, 작은 결실, 작은 반복, 구조적 변형 접합, 가변 길이 탠덤 반복, 및/또는 측접 서열을 포함한다. 유전적 변형은 카피수 변형(CNV), 변위(transversion), 또는 다른 유형의 재배열을 포함할 수 있다. 유전체 변경은 염기 변화, 삽입 또는 결실(indel), 치환, 반복, 카피수 변형, 또는 변위를 포함할 수 있다.
본원에서 사용되는 용어 "폴리뉴클레오티드"는 일반적으로 하나 이상의 핵산 서브유닛을 포함하는 분자를 나타낸다. 폴리뉴클레오티드는 아데노신(A), 시토신(C), 구아닌(G), 티민(T), 및 우라실(U), 또는 이들의 변형으로부터 선택되는 하나 이상의 서브유닛을 포함할 수 있다. 뉴클레오티드는 A, C, G, T, U, 또는 이들의 변형을 포함할 수 있다. 뉴클레오티드는 핵산 가닥으로 통합될 수 있는 임의의 서브유닛을 포함할 수 있다. 상기 서브유닛은 A, C, G, T, U, 또는 하나 이상의 상보적 A, C, G, T, 또는 U에 특이적이거나, 퓨린(예를 들어, A, G, 또는 이들의 변형) 또는 피리미딘(예를 들어, C, T, 또는 U, 또는 이들의 변형)에 상보적인 임의의 다른 서브유닛을 포함할 수 있다. 서브유닛은 개별적 핵산 염기 또는 염기의 그룹(예를 들어, AA, TA, AT, GC, CG, CT, TC, GT, TG, AC, CA, 또는 이들의 우라실-대응물)이 분해되는 것을 가능하게 할 수 있다. 일부 예에서, 폴리뉴클레오티드는 데옥시리보핵산(DNA), 리보핵산(RNA), 또는 이들의 유도체를 포함할 수 있다. 폴리뉴클레오티드는 단일 가닥 또는 이중 가닥일 수 있다.
본원에 기재된 시스템 및 방법은 유전 데이터 관리에 관한 것일 수 있다. 유전 데이터 관리는 네트워크 아키텍쳐, 보고, 정의 및 규칙, 지시 및 동작, 저장 장치 및 저장 관리, 개인정보, 암호화, 또는 압축을 포함할 수 있다.
다양한 유형의 센서가 상이한 유전 특성을 측정하기 위해 사용될 수 있다. 일부 센서는 상이한 수준의 해상도를 기록하고 보고할 수 있다. 일부 센서는 고유의 염기 서열을 제공할 수 있다. 일부 경우에, 센서는 메틸화, 아미노화/탈아미노화, 산화, 및/또는 DNA 및 RNA 내의 임의의 다른 변형 및 무염기(AP) 부위와 같은 화학적 변형을 검출할 수 있다.
센서는 광 신호, 전기 신호, 또는 이들의 조합과 같은 다양한 유형의 신호를 검출하도록 구성될 수 있다. 광 신호는 형광, 발광, 화학발광, 생물발광, 백열광, 레이저, 발광 다이오드(LED), 가시 광선, 적외선 복사, 근적외선 복사, 또는 이들의 조합을 포함할 수 있다. 전기 신호는 전류, 전압, 차동 임피던스, 터널링 전류, 저항, 커패시턴스, 컨덕턴스, 또는 이들의 조합을 포함할 수 있다. 유전 검출을 위한 일부 해결책은 고유의 분자를 이들을 검출하도록 변경시킬 수 있다. 일부 검출 방법, 예를 들어, 중합효소 연쇄 반응(PCR)은 본래의 유전 중합체의 많은 카피가 생성될 수 있는 증폭에 의존할 수 있다.
증폭 과정은 차례로 결과를 부정확하게 만들 수 있는 명백한 돌연변이 오류를 도입시킬 수 있다. 다른 오류 소스, 예를 들어, 전자 노이즈, 위상 오류, 스펙트럼 디콘볼루션 오류, 유체 확산 오류, 정량 오류, 판독시의 위치, 서열 컨텍스트, 공간 및 스펙트럼 광 크로스-토크(cross-talk)가 또한 존재할 수 있으며, 이는 다양한 센서 또는 검출기를 신호 품질, 오류 유형, 측정 정확도, 또는 감지되거나 측정된 데이터의 대체 해석과 관련하여 상이하게 만든다.
이들 상이한 유형의 유전 데이터를 관리하는데 있어서, 데이터의 소스, 이들이 측정되는 방법, 및 측정을 위해 사용되는 센서, 검출 시스템, 하드웨어, 소모품, 화학 방법, 및 소프트웨어 버전에 대한 정보를 관리하는 것이 중요할 수 있다. 각각의 데이터 세트는 다양한 상황에 대해 설명될 필요가 있을 수 있는 특징적인 오류 및 불확실성을 포함할 수 있다.
유전 데이터를 관리하는데 있어서 또 다른 문제는 데이터 저장을 관리하는 것일 수 있다. 상이한 저장 기술 및 장치가 이용될 수 있다. 다양한 유형의 특정 저장 매체가 사용될 수 있으며, 이는 유전 데이터의 특성, 품질, 또는 양과 관련하여 지정될 수 있다. 다양한 유형의 유전 데이터, 예를 들어, DNA 또는 RNA 서열이 멀티-셀 저장 장치에 저장될 수 있다. 메모리 블록은 유전 데이터의 특징과 관련하여 다양한 방식으로 사용될 수 있다. 예를 들어, 메모리 블록의 크기와 메모리 블록에 저장되는 데이터의 유형 및 크기 사이에는 상관관계가 존재할 수 있다.
데이터 수집
하나 이상의 생물학적 센서는 분자 사슬의 미가공 데이터를 검출할 수 있다. 각각의 미가공 데이터 판독은 판독의 고유의 포맷화된 기록으로 전환될 수 있다. 예를 들어, 센서가 전기 컨덕턴스를 감지하고 측정하는 경우, 센서는 도 1에 제시된 바와 같이 사슬이 센서를 통과함에 따라 시간 경과에 따른 컨덕턴스의 시계열을 생성시킬 수 있다.
컨덕턴스 미가공 데이터는 이후 데옥시리보핵산(DNA) 또는 리보핵산(RNA)의 경우 뉴클레오티드 염기 데이터 또는 기록으로 해석될 수 있다.
센서로부터의 미가공 데이터는 애플리케이션 서버로 전달될 수 있다. 데이터는 센서 유형에 의존할 수 있고, 전기 특성, 예를 들어, 컨덕턴스, 커패시턴스, 전류(예를 들어, 터널링 전류), 전압, 저항, 또는 이들의 임의의 조합으로부터 유래될 수 있다. 데이터는, 예를 들어, 형광 라벨 태깅 또는 서브유닛(예를 들어, 핵산 염기)의 변형에 의한 형광(예를 들어, 화학형광) 또는 흡광도로부터 유래된 광 데이터와 같은 광 데이터를 포함할 수 있다.
센서로부터 애플리케이션 서버로의 데이터의 전송은 와이어리스 피델리티(wireless fidelity; Wi-Fi), 블루투쓰, 또는 근거리 통신(NFC)과 같은 무선 프로토콜을 통해 센서와 통합된 무선 모듈을 이용하여 수행될 수 있다. 데이터의 전송은 범용 직렬 버스(USB)와 같은 유선 연결을 이용하여 수행될 수 있다.
애플리케이션 서버는 데스크톱 컴퓨터, 랩톱 컴퓨터, 또는 이동 장치, 예를 들어, 이동 전화(예를 들어, iPhone 또는 Android 전화) 또는 태블릿(예를 들어, iPad 또는 Android 태블릿)을 포함할 수 있다.
애플리케이션 서버는 미가공 신호 데이터를 수신하고, 특정 염기-호출 루틴을 이용하여 염기 데이터를 생성하는 명령어 세트를 가질 수 있다. 이들 루틴은 본원의 다른 곳에 기재된 바와 같이 센서 또는 다른 전역 지시의 기능 및 특징을 기초로 하여 애플리케이션 서버에 프로그래밍 및 업데이트될 수 있다.
예를 들어, 신호 측정을 향상시키거나, 하드웨어 또는 펌웨어를 변경하기 위해 센서 제조업체로부터 센서 업데이트를 수신하거나 푸쉬 알람될 수 있다.
도 2에 제시된 바와 같이, 애플리케이션 서버, 또는 중앙 서버(201)는 애플리케이션 서버 또는 중앙 서버가 로컬 저장소(202)로부터 수신하는 정의 및 규칙의 전용 데이터베이스를 포함하거나 이에 액세스할 수 있다. 정의 및 규칙은 필요에 따라 업데이트될 수 있다. 정의 및 규칙은 다양한 상황 및 작동을 확인할 수 있다. 예를 들어, 로컬 센서에 의해 검출될 수 있는 병원체 서명 또는 서열 또는 특정 병원체와 관련된 임의의 다른 데이터가 존재할 수 있다. 이와 같이, 정의 및 규칙은 맞춤화될 수 있고, 동적일 수 있다. 애플리케이션 서버(201)는 애플리케이션 서버에 의해 해석되거나 결론내려질 수 없는 데이터에 대한 리소스로서 기능할 수 있는 로컬 마스터(205)와 통신할 수 있다. 로컬 마스터(205)는 동일 장비에 머무를 수 있으나, 로컬 마스터에 대한 신속한 액세스로 제한된 기능을 제공할 수 있는 로컬 슬레이브(206)와 통신할 수 있다. 로컬 저장소(202)는 측정 장치일 수 있는 엔드 노드 1(203) 및 엔드 노드 2(204)와 통신할 수 있다.
애플리케이션 서버가 측정을 수행함에 따라, 이는 이의 결과를 액세스할 수 있는 정의 및 규칙과 비교할 수 있으며, 이에 따라 이후에 지시를 제시할 수 있다.
특정 상황에 대해 정의 또는 규칙이 이용 가능하지 않은 경우, 애플리케이션 서버는 상기 상황을 이의 로컬 저장소(202)와 통신할 수 있다.
로컬 저장소는 도 3에 제시된 바와 같이 하나 이상의 애플리케이션 서버와 네트워크로 연결된 서버를 포함할 수 있다. 로컬 저장소(301)는 더 큰 데이터베이스 및 더 많은 정의 및 규칙, 또는 더 많은 업데이트된 것들을 포함할 수 있거나, 이에 액세스할 수 있다.
예를 들어, 로컬 저장소는 중앙 서버(302)와 네트워크 연결될 수 있다. 중앙 서버는 다수의 로컬 저장소(302)와 네트워크 연결될 수 있으며, 이는 차례로 로컬 애플리케이션 서버(303)와 네트워크 연결될 수 있다.
도 4에 예시된 바와 같이, 중앙 서버는 국가 연구실 또는 보건 기구 시설과 같은 중앙 위치에 위치될 수 있다.
중앙 서버의 역할은 다수의 로컬 저장소에 대한 지시와 함께 정의 및 규칙을 전달하거나 업데이트하거나, 이들로부터 보고를 수신하는 것을 포함할 수 있다.
특정 기계의 시점에 따라 여러 시나리오가 있을 수 있다. 일부 예에서, 도 5에 제시된 바와 같은 하나 이상의 작업이 애플리케이션 서버와 관련하여 수행될 수 있다:
센서는 폴리뉴클레오티드 측정으로부터의 신호를 측정하고(501);
센서는 신호 데이터를 애플리케이션 서버에 전달하고(502);
애플리케이션 서버는 신호 데이터를 수신하고, 염기 데이터를 생성하고(503);
애플리케이션 서버는 염기 데이터를 기초로 하여 서열 데이터를 확인하고(504);
애플리케이션 서버는 로컬 저장소로부터 수신된 정의 및 규칙에 관한 서열 데이터를 분석하고(505);
애플리케이션 서버는 분석을 기초로 하여 사용자에게 메시지를 제공하고(506);
애플리케이션 서버는 필요한 경우 서열 데이터를 로컬 저장소로 전달한다(507).
도 6은 애플리케이션 서버가 서열 데이터를 로컬 저장소로 전달하는 경우에 도 5에 기재된 작업의 세트에 상응할 수 있는 로컬 저장소에 의해 수행되는 가능한 작업을 예시한다:
로컬 저장소는 애플리케이션 서버로부터 염기 데이터를 수신하고(601);
로컬 저장소는 정의 및 규칙을 검사하고(602);
로컬 저장소는 염기 데이터와 관련된 비정상을 중앙 서버에 전달하고(603);
로컬 저장소는 중앙 서버로부터 전역 및 지역 업데이트를 수신하고(604);
로컬 저장소는 정의 및 규칙을 업데이트하고(605);
로컬 저장소는 애플리케이션 서버와 새로운 정의 및 규칙을 통신하고(606);
중앙 서버는 로컬 저장소에 지시를 전달하고;
로컬 저장소는 애플리케이션 서버에 지시를 전달한다.
애플리케이션 서버는 로컬 저장소와 직접 또는 네트워크 통신할 수 있다. 로컬 저장소는 로컬 저장소가 중앙 서버로부터 수신한 업데이트를 애플리케이션 서버에 주기적으로 전송할 수 있다.
중앙 서버는 중앙 연구소 또는 보건 센터에 위치될 수 있으며, 로컬 저장소에 의해 전달된 서열 데이터를 분석할 수 있다. 중앙 서버는 서열의 데이터베이스에 액세스할 수 있다.
실시예 : 병원체
서열의 데이터베이스는 병원체 서열의 데이터베이스를 포함할 수 있다. 중앙 서버는 더 신속한 메모리 및 통신 파이프라인을 이용하여 보고된 최근의 병원체 서열에 더 신속하게 액세스할 수 있다.
로컬 저장소가 새로운 병원체 또는 유해한 공지된 병원체의 가능성과 관련될 수 있는 정보를 수신하는 경우, 로컬 저장소는 전용 데이터베이스의 수신된 서열과 관련될 수 있는 중앙 서버에 의해 제공되는 정의 및 규칙을 찾을 수 있다. 수신된 서열 데이터와 특정 정의 및 규칙을 갖는 전용 데이터베이스 내의 서열의 비교를 기초로 하여, 로컬 저장소는 이에 따라 적절한 옵션을 취할 수 있다. 예를 들어, 로컬 저장소는 특정 규칙을 찾은 후, 특정 지시를 애플리케이션 서버에 전달할 수 있다.
대안적으로, 로컬 저장소의 정의 및 규칙이 특정 세트의 기준을 충족하는 경우, 이는 수신된 서열을 중앙 서버에 전달할 수 있다.
중앙 서버는 최근 및/또는 더 오래된 브레이크아웃(breakout)의 포괄적 중앙 데이터베이스와 같은 더 큰 데이터베이스에 액세스할 수 있다. 중앙 서버는 중앙 서버가 복수의 로컬 저장소로부터 무엇을 수집하는지를 기초로 하여 중앙 데이터베이스를 지속적으로 업데이트할 수 있다.
중앙 서버는 중앙 연구소 또는 보건 센터에 의해 액세스될 수 있고, 여기서 보건 또는 안전 전문가는 액세스하고, 특정한 소정의 임계값을 갖는 사건에 대해 경고를 받는다.
중앙 서버를 운영하는 기관은 다양한 결정을 내릴 수 있다. 이들 결정은 자동 또는 반-자동 결정을 포함할 수 있다. 예를 들어, 중앙 연구소가 특정 서열이 위험하지 않다고 결정하는 경우, 중앙 연구소는 상기 예를 무시하는 결정을 로컬 저장소로 전달할 수 있다. 대안적으로, 보다 심각한 상황의 표시가 있는 경우, 중앙 서버는 상기 예 전용의 지시에 플래깅된 서열을 추가할 수 있고, 상기 지시를 메모리에서 더 신속한 액세스할 수 있도록 유지시킬 수 있다. 동일하거나 유사한 패턴으로 중앙 연구소에 보고된 일부 이후의 예는 동일 지시를 수신할 수 있다. 지시는 약물, 검역, 휴식 등에 관한 결정을 포함할 수 있다.
중앙 연구소가 상황을 처리하고 분류한 경우, 중앙 연구소는 이후 상황과 관련된 정의 및 규칙을 확립할 수 있다. 이들 정의 및 규칙 및 지시는 이후 관련 로컬 저장소로 전달될 수 있다. 예를 들어, 지리적 창궐으로 결론내려지는 경우, 중앙 서버는 경고와 함께 상기 지역 근방의 다른 지역을 더하면서 상기 지역과 관련된 최종 사용자 및 애플리케이션 서버와 연결된 임의의 또는 모든 로컬 저장소를 업데이트할 수 있다.
식품 안전성과 관련하여, 상이한 위치의 복수의 센서는 다양한 유형의 식품으로부터의 서열을 측정할 수 있다. 이들 위치의 센서는 서열을 측정하고, 병원체 후보를 검색할 수 있다. 각각의 센서는 애플리케이션 서버와 통신할 수 있다. 센서는 서열로부터의 신호를 측정할 수 있고, 미가공 데이터를 애플리케이션 서버에 전송할 수 있다.
애플리케이션 서버는 한 세트의 정의 및 규칙을 포함할 수 있다. 애플리케이션 서버가 센서로부터 미가공 데이터를 수신하는 경우, 애플리케이션 서버는 미가공 데이터로부터 염기 판독 및 염기 판독으로부터 서열 콘티그(contig)를 생성시키기 위해 프로그램을 실행할 수 있다. 서열 콘티그가 생성된 후, 애플리케이션 서버는 염기 데이터 또는 서열 데이터와 미리 확립된 정의 및 규칙을 비교하는 프로그램을 실행할 수 있다. 이들 정의는 애플리케이션 서버가 액세스하는 데이터베이스에 존재할 수 있다. 정의는 전용 서버에 원격으로 저장될 수 있다. 특히 중요하거나 중대한 것으로 지정된 정의의 서브셋이 존재할 수 있다. 예를 들어, 최근 또는 현재의 병원체 정보의 세트가 존재할 수 있다. 이들 특히 중요하거나 중대한 데이터는 애플리케이션 서버가 용이하게 액세스할 수 있는 더 신속한 액세스 메모리 또는 저장소에 저장될 수 있다. 일부 상황에서, 애플리케이션 서버는 특정 패턴에 대해 검색하도록 지시 또는 규칙에 의해 지시될 수 있다. 예를 들어, 이러한 특이적 패턴은 현재의 창궐 또는 유사한 유형의 식품(예를 들어, 농산물)에 병원체를 나타낼 수 있는 다른 센서로부터의 보고와 관련될 수 있다.
애플리케이션 서버는 로컬 저장소와 네트워크 통신될 수 있다. 로컬 저장소는 다수의 애플리케이션 서버에 정의 및 규칙을 제공할 수 있고, 애플리케이션 서버에 지시를 제공할 수 있다. 따라서, 로컬 저장소는 애플리케이션 서버에 주기적으로 업데이트를 전송할 수 있다.
애플리케이션 서버가 특정 경우에 대한 적절한 정의 및 규칙을 찾지 못하는 경우, 애플리케이션 서버는 서열 데이터 또는 다른 생물학적 데이터를 로컬 저장소로 전송할 수 있다. 이후, 로컬 저장소는 정의 또는 규칙에 액세스할 수 있는 광범위한 데이터베이스를 검색할 수 있다. 이러한 데이터베이스는 하나 이상의 로컬 저장소 사이에서 공유될 수 있다. 데이터베이스는, 예를 들어, 공지된 병원체의 더 큰 수집물을 가질 수 있거나, 일정 기간 동안 관찰되지 않은 과거의 창궐과 관련된 일부 병원체를 가질 수 있다. 대안적으로, 상기 병원체는 센서 위치 부근에서 관찰되지 않을 수 있으나, 로컬 저장소는 병원체를 기록하는 데이터베이스에 액세스할 수 있고, 이에 따라 이들을 인지할 수 있다.
특정 경우에, 로컬 저장소는 다수의 옵션 중 임의의 옵션을 취할 수 있다. 예를 들어, 로컬 저장소는 병원체와 관련된 정의 및 규칙을 찾을 수 있고, 이를 특정 지시와 함께 애플리케이션 서버에 전달할 수 있다. 대안적으로, 로컬 저장소는 데이터를 중앙 서버에 전달할 수 있다.
로컬 저장소는 중앙 서버로부터 수신하는 자체 정의 및 규칙을 가질 수 있다. 중앙 서버는 다수의 로컬 저장소와 네트워크 통신할 수 있다. 따라서, 중앙 서버는 정기적으로 로컬 저장소에서 정의 및 규칙을 업데이트할 수 있다.
로컬 저장소가 특정 경우에 대해 임의의 정의 및 규칙을 찾을 수 없는 경우, 로컬 저장소는 데이터를 중앙 서버에 전달하도록 선택할 수 있다. 규칙은 로컬 저장소가 특수한 경우를 나타낼 수 있는 임의의 염기 데이터, 서열 데이터, 또는 생물학적 데이터를 보고하도록 요구할 수 있다.
중앙 저장소는 연구자 또는 보건 전문가를 포함하는 중앙 연구소에 위치하거나, 여기서 사용되거나, 이에 의해 사용될 수 있다. 예를 들어, 국가 또는 국제 보건 센터가 중앙 저장소를 통제하에 둘 수 있다. 특별한 경우가 검출되어, 센서로부터 중앙 서버로 전달되는 경우, 중앙 서버는 상황을 처리하는 대규모 세트의 정의 및 규칙에 엑세스할 수 있다. 선택적으로, 특정한 소정의 임계값에 도달하거나 사용자의 재량에 따라, 연구자 또는 보건 전문가는 상황의 심각함을 결정하기 위해 상황을 평가할 수 있다.
단일 샘플은 수백만 개의 서열 정보의 판독을 나타내는 복수의 기가바이트의 미가공 아날로그 컨덕턴스 정보를 생성할 수 있다. 초기 해석 프로세스는 이들 아날로그 판독을 소비할 수 있으며, 분자가 분자 센서를 통과하지 않거나 오염물질이 신뢰할 수 없거나 유효하지 않은 결과를 초래하는 경우 백그라운드 노이즈를 필터링할 수 있다. 해석 프로세스는 데이터를 해석하고, 염기 서열 문자열로 전환시킬 수 있다. 각각의 염기 결정은 하나 이상의 데이터 차원과 연관될 수 있다. 예를 들어, 차원 또는 벡터는 도 7에 제시된 바와 같이 판독하는 염기에 대한 확률 등급을 나타낼 수 있다.
도 7은 무염기(AP) 부위 또는 5개의 가능한 염기 중 하나를 감지할 수 있는 센서에 의한 21-mer 판독에 대한 염기 확률 행렬을 제시한다. 결정된 염기 서열(310)은 판독의 각각의 위치에서 가장 높은 확률의 염기를 나타낼 수 있다. 무염기 부위 또는 염기의 가능성은 다음을 포함할 수 있다:
A = 아데닌
B = 무염기 부위
C = 시토신
G = 구아닌
T = 티민
U = 우라실
각각의 열은 서열 내의 각각의 위치에서 특정 뉴클레오티드 염기의 확률을 제시한다. 센서 엔드 노드 또는 애플리케이션 서버는 각각의 위치에서 각각의 가능한 염기에 대한 확률을 해석할 수 있다. 예를 들어, 이러한 계산은 16번째 염기 위치에서 가장 가능성 있는 염기로서 시토신(C)을 제시한다.
도 8은 데이터의 부가적인 차원이 판독 동안 유지될 수 있는 방법을 예시한다. 이러한 예시에서, 변형 표는 각각의 염기 위치에서 염기가 메틸화되거나, 산화되거나, 아실화되는 경우를 제시한다. 이러한 예에서, 제3 및 제4 염기는 메틸화된 5'-C-포스페이트-G-3' (CpG) 쌍을 포함한다. 시토신(C)은 또한 산화된 것으로 생각된다. 연관된 염기 확률 표는 결정된 염기 서열을 제시한다. 거리 표, 또는 이행 위치 표는 동종중합체의 결정된 길이를 제공하는 새로운 염기로의 이행 사이의 거리를 염기의 수로 함유한다. 이러한 예는 아데닌(A)으로의 이행 전에 약 2개의 티민(T) 염기의 실행을 제시한다. 이는 또한 서열에서 나중에 구아닌(G)으로의 이행 전에 2개의 아데닌(A) 염기를 제시한다. 판독을 위한 데이터의 차원을 저장하는 것은 서열 또는 하위서열 내의 동일-유형 염기의 수에 관한 고유한 불확실성을 갖는 센서 유형을 처리할 수 있다.
다른 차원은 전체 길이 및 판독의 시작으로부터의 거리로서 염기 위치를 포함할 수 있다. 일부 시퀀싱 기술은 올리고뉴클레오티드(올리고)의 한 말단에서 시작하고, 합성(SBS)에 의해 시퀀싱을 수행한다. 상기 프로세스는 각각의 라운드 후에(예를 들어, 한번에 하나씩) 염기 통합을 찾는 것을 포함할 수 있다. 이와 같이, 염기가 통합될 때마다 위상 오류를 발생할 가능성이 있다. 예를 들어, 클론 집단이 있는 경우, 염기의 통합은 집단에 걸쳐 균일하지 않을 수 있다. 특정 일원은 하나 초과의 염기를 포함할 수 있는 반면, 다른 일원은 염기를 포함하지 않을 수 있다. 이와 같이, 신뢰도는 서열 판독 동안에 더 감소할 수 있다. 4차원은 분석되는 서열의 프라이머 절단 말단으로부터의 염기의 수로서의 거리, 염기쌍 말단, 또는 염기 이행을 포함할 수 있다.
미가공 데이터 판독은 추가 분석 동안 유지될 수 있다. 예를 들어, 중합체 크리프(creep), 광독성, 센서에 영향을 미치는 오염물질의 존재, 또는 나노 게이트웨이의 첨단에 대한 원자 구조 변화를 검출함으로써 민감도를 향상시키는 것을 원할 수 있다. 염기 호출에서의 불확실성은 사용된 센서의 제조 및 모델에 특이적일 수 있다.
예를 들어, 해석 프로세스 제어기는 각각의 필터링된 컨덕턴스 기록을 단일 해석 작업자 프로세스 또는 스레드(thread)에 전달할 수 있다. 공유되지 않은 데이터가 있을 수 있으므로 각각의 미가공 판독은 로킹(locking)에 대한 우려 없이 해석될 수 있다. 해석의 다운스트림 프로세스는 해석이 허용 가능한 정도의 확실성을 갖는 완성 상태에 도달할 때까지 증가하는 해석된 샘플 데이터 세트에 대해 수회 실행할 수 있으므로 동기화가 불필요할 수 있다.
또한, 시스템은 서열을 감지하기 위한 다양한 기술을 이용하기 위해 다양한 공급업체로부터의 센서를 포함할 수 있다. 일부 경우에, 미가공 정보가 이용 가능하지 않을 수 있다. 대신, 확률 및 유도된 오류가 사용된 기술에 대해 특이적인 샘플로부터 판독이 이용 가능할 수 있다. 각각의 기술은 강점 및 약점을 가질 수 있으며, 다양한 수준의 민감도를 가질 수 있다. 각각의 기술은 DNA 또는 RNA 서열 판독의 다양한 측면 또는 차원에 대한 다양한 해상도를 가질 수 있다. 일부 기술은 한 염기로부터 다음 염기로의 이행에 대해 매우 민감할 수 있으나, 특정 관심 염기에는 덜 민감할 수 있다. 이러한 경우, 염기 판독에 대한 추가 분석을 수행하는 것이 바람직할 수 있다.
일부 기술은 염기 결정에 특히 우수할 수 있으나, 염기 이동 또는 이행 결정에서 덜 강력할 수 있다. 이러한 상황은 특정 염기를 볼 확률은 높을 수 있으나, 염기의 수 및 이들이 반복되는 경우에 대해서는 덜한 확실성을 제공한다. 또 다른 기술은 추가 오류 모델로 올리고를 따라 각각의 염기를 판독(예를 들어, 한번에 하나씩)할 수 있어, 시작 마커로부터 멀어질수록, 덜 확실한 염기가 감지된다.
그러므로, 다양한 구현예는 비-휘발성의 메모리에 저장되는 경우 파일 및 기록에 대한 다양한 스타일 및 포맷의 서열 염기 데이터를 해석하는 것을 지원한다. 예를 들어, eXtensible Markup Language(XML) 또는 JavaScript Object Notation(JSON) 파일의 샘플로부터 데이터는 분산형 파일 시스템에 저장될 수 있다.
파일은 사슬 내의 각각의 뉴클레오티드에 대한 단일 염기 값으로서 저장된 판독을 포함할 수 있다. 판독은 확률 값으로 저장될 수 있다. 대안적으로, 판독은 각각의 뉴클레오티드 위치에서 각각의 가능한 염기에 대한 완전한 확률 행렬로 저장될 수 있다. 가능한 신택스는 판독 기록 내에 저장된 것에 대한 메타데이터 신택스를 기재하기 위한 하나 이상의 속성을 이용하는 것을 포함할 수 있다.
샘플을 수집하는 것과 관련된 다양한 요인을 기초로 하여 다양한 구현예가 해석되고 작업할 수 있는 반-구조화된 판독 포맷의 다양한 예가 존재한다. 상기 요인의 예는 샘플 제조, 센서의 제작 및/또는 모델, 또는 데이터의 분석을 포함할 수 있다. 샘플 파일은 하나 이상의 염기 판독을 갖는 독특한 샘플 식별자를 포함하는 간단하고 기본적인 스키마(schema)를 포함할 수 있다.
도 9는 서열 판독, 염기 포맷 판독, 및 신택스의 예를 제시한다. 파트 A는 결정된 염기 서열을 포함하는 판독을 제시한다. 파트 B는 각각의 염기에 대한 확률 데이터를 포함하는 동일 염기 포맷 판독의 예를 제시한다. 이러한 두번째 예에 대한 신택스는 단일 염기를 기재하는 각각의 용어를 포함한다. 예를 들어, 용어 "C67.74"는 세번째 염기를 67% 이상의 확률로 시토신(C)으로 기재한다.
파트 C에 제시된 세번째 예는 단일 염기 위치를 기재하는 각각의 용어를 갖는 동일 염기 포맷 판독을 제시한다. 이러한 예에서, 각각의 용어는 염기, 확률, 및 임의의 변형을 기재한다. 예를 들어, 용어 "Cf67.74"는 세번째 염기를 67% 확률로 시토신(C)으로 기재한다. 변형은 염기 뒤에 소문자를 추가하여 각각의 용어에 기록될 수 있다. 이러한 예에서, 후속 소문자의 결여는 염기가 메틸화되거나, 산화되거나, 아실화되지 않은 것을 나타낸다. 소문자 "a" 내지 "h"는 변형 표의 비트 마스크(bit mask)를 유지하기 위해 숫자 1 내지 8로 변환될 수 있다. 메틸화는 최상위 비트(MSB) (4)이고, 산화는 (2)이고, 아실화는 최하위 비트(LSB) (1)이다. 그러므로, "f"에 의해 변형된 시토신(C) 염기는 시토신이 메틸화되고 산화된 것을 제시한다.
본원에 기재된 시스템 및 방법에 따르면, 2차 및 3차의 가능한 염기 값, 이들 염기에 대한 임의의 변형, 및 데이터의 임의의 다른 센서-기록된 차원을 유지시키는 것이 가능하다. 도 10은 (A) 6개의 추적된 염기 또는 AP 부위 가능성 각각; (B) 가장 높은 2개의 가장 가능성 있는 염기 또는 AP 부위 가능성; 또는 (C) 확률이 특정한 소정의 임계값을 초과하는 경우 염기 위치 확률의 어레이의 유지 단독을 저장하기 위한 신택스의 3개의 예를 나타낸다. 파트 A에 제시된 첫번째 예에서, 파일은 6개 염기 각각에 대한 확률 및 67% 이상의 가장 높은 확률을 갖는 시토신(C) 및 2% 이하의 가장 낮은 확률을 갖는 무염기 부위로서 판독 내의 세번째 염기 위치에 대한 확률 값을 저장한다. 2개의 가장 높은 가능성 있는 염기 값만 유지되는 경우, 이러한 염기 위치는 파트 B에 제시된 바와 같이 약 14%의 확률로 일차 시토신(C) 염기 및 대안적으로 티민(T) 염기로 볼 수 있다.
확률이 소정의 임계값을 초과하는 경우만 확률을 저장하는 것은 파트 C에 제시된 바와 같이 길이/값 신택스로 달성될 수 있다. 15%의 임계치를 초과하는 2개의 염기 가능성을 갖는 염기 위치는 용어 "2C64.46"의 첫번째 문자로 리드 번호 "2"를 발생시킬 수 있으며, 이는 또한 상기 염기 위치에 대해 유지된 염기의 어레이의 길이를 제공한다. 시토신(C)은 64%로 가장 높은 확률이며, 구아닌이 또한 15%로 임계값을 초과한다.
도 11에 제시된 바와 같은 염기 이행 사이의 거리 치수를 기록하는 센서에 대한 이행 신택스가 또한 이용될 수 있다.
애플리케이션 서버는 샘플로부터 수백만 개의 판독을 수집할 수 있다. 이는 이후 판독의 분석으로부터 데이터인 더 긴 정렬된 서열, 또는 콘티그를 확인할 수 있다. 추가 평가를 위해, 애플리케이션 서버는 참조에 대한 염기 판독의 정렬을 수행할 수 있다. 대안적으로, 판독은 여러 다른 판독과 그룹화될 수 있으며, 새로운 어셈블리에서 사용될 수 있다. 애플리케이션 서버는 반-구조화된 포맷의 판독에 저장된 정보의 서브셋만 받아들이는 다른 프로세스를 호출할 수 있도록 확장 가능할 수 있다. 예를 들어, 정렬 프로세스에 대한 인터페이스는 판독에 대해 FASTA 포맷화 신택스 또는 FASTQ 포맷화 신택스를 받아들일 수 있다. 이러한 상황에서, 판독은 정렬 프로세스에 의해 이해되는 포맷으로 전환될 수 있다.
예를 들어, FASTQ 포맷으로 전환되는 경우 도 12에 기재된 예시적 판독은 하기 4개의 라인과 유사하게 보일 수 있다:
@10032QB:11578:1.1:20151221:09:42:37
ATCGTCGAGBAGTTACAAGCT
+10032QB:11578:1.1:20151221:09:42:37
'*&*'+%+)&(%'(&&)&&&(
염기 및 상응하는 Phread 품질 스코어가 전송될 수 있다. 판독은 해석될 수 있고, 콘티그는 정렬 프로세스의 컨센서스 알고리즘으로부터 반환될 수 있다. 샘플은 수백만 개의 판독을 함유할 수 있다. 판독은 참조 서열에 대해 정렬되거나, 새로이 어셈블리될 수 있다. 상이한 신택스로의 염기 판독의 상기 전환은 염기 판독의 일부 컨텍스트 또는 해상도를 손실할 수 있다. 도 13에 제시된 예에서, 표시된 센서는 판독을 콘티그로 정렬시키는 프로그램에 의해 전송되고 반환된 염기 서열 및 확률 또는 품질 스코어에 더하여 이행 거리 및 화학 변형을 포착할 수 있다. 애플리케이션 서버는 정렬을 취할 수 있으며, 컨센서스가 결정되는 경우, 일부 손실된 컨텍스트 또는 해상도를 다시 서열 컨티그에 재적용하여, 콘티그는 판독과 유사한 반-구조화 신택스로 저장된다. 예를 들어, 화학 변형을 함유하는 염기 판독으로부터 유래된 컨티그에 대해, 애플리케이션 서버는 판독을 시퀀싱하는데 사용되지 않은 임의의 변형을 재적용할 수 있다.
애플리케이션 서버는 로컬 저장소로부터 수신된 정의 및 규칙과 관련하여 서열 컨티그 데이터를 분석할 수 있다. 네트워크에 연결되고, 서열 데이터 획득에 대해 관리하고 작용하도록 협력하는 엔드 노드, 서버, 및/또는 저장소를 갖는 장비가 배포될 수 있다. 일 양태에서, 애플리케이션 서버는 유전 서열 정보를 발견하고 이에 작용하는 규칙을 고효율로 포함할 수 있다. 서열 발견은 병원체를 찾도록 지시될 수 있다. 다른 경우에, 특정 유전자 발현에 대한 콘티그를 발견하는 것을 원할 수 있다. 다양한 구현예는 미생물학자와 같은 사람이 병원체 또는 유전자에 대한 서열 정의의 데이터베이스를 관리하는 것을 가능하게 한다. 규칙 정의는 특정 지시 또는 지시의 세트에 지정되거나, 이와 연관될 수 있다.
중앙 제어 및 규칙 관리 모듈은 이들 규칙을 프로세스할 수 있다. 일부 경우에, 이들은 규칙을 전환시키거나, 이를 추가로 변형시켜, 특정 다운스트림 서버 및 노드에 대해 실행되도록 할 수 있다. 많은 규칙이 스스로 배포될 것이다.
예를 들어, 규칙은 미국 국립생물공학 정보센터(NCBI) 준수 BioSample로 샘플 정보를 묶고, 부서장에게 알리기 위해 간단한 서열, 매칭 방법, 가중치, 하나 이상의 회귀 조정, 또는 지시를 포함할 수 있다.
이러한 예에서 시스템의 인스턴스화(instantiation)는 기본 센서, 로컬 노드, 및/또는 로컬 서버를 포함할 수 있다. 규칙은 수행하는 특정 장비에 대해 조정될 수 있다. 애플리케이션 서버는 각각의 개별적 판독 또는 콘티그로부터 서열을 발견하려고 시도할 수 있다. 규칙의 발견 부분은 사용되는 센서의 제작 또는 모델을 기초로 하여 서열을 더욱 효과적으로 발견하기 위해 더 높은 수준의 규칙을 변형시킴으로써 더 잘 제공될 수 있다. 높은 수준의 규칙은 사용되는 시퀀싱 장비의 유형을 기초로 하여 소정의 수보다 적은 분산을 갖는 콘티그에 서열을 정렬시키는 것일 수 있다. 일부 경우에, 전역 방법 및 평가가 이용될 수 있는 반면, 다른 시퀀싱 장비의 경우, 로컬 방법 및 평가가 적용될 수 있다. 대안적으로, 예를 들어, 사용된 센서가 Roche 454인 경우, 서열 대 콘티그 맵핑은 플로우그램(flowgram)을 기초로 하여 임계값 분산 수준을 가질 수 있다.
일 구현예에서, 규칙은 배포될 수 있고, 전용 애플리케이션 서버와의 협력을 포함할 수 있다. 이는 최종 시퀀싱 장비의 전반적인 성능에 악영향을 미치지 않으면서 더 적은 잘못된 결과를 갖는 더 정확한 결과를 가능하게 한다. 예를 들어, 장비는 식품 샘플을 시험하는 복수의 센서 노드를 가질 수 있다:
이들 판독 신호는 염기 판독 및 이후 콘티그로의 해석을 위해 애플리케이션 서버에 전송된다.
이러한 초기 애플리케이션 서버는 병원체 서명의 어레이에 대한 각각의 염기 판독에 대해 간단한 낮은 처리 비용 서열 정렬 알고리즘으로 규칙을 실행한다.
다수의 근접 매치 또는 스코어에 대한 임계값이 하나 이상의 병원체에 대해 충족되는 경우, 지시는 다음을 포함할 수 있다:
센서에서 샘플링을 연장하고/하거나;
전체 샘플을 묶어, 이를 센서 측정의 보다 엄격한 해석을 위해 전용 병원체 시험 애플리케이션 서버에 전송한다.
병원체 시험 애플리케이션 서버는 이후 이의 결과를 기초로 하여 자체 지시를 적용할 수 있다.
이러한 구현예는 정보가 네트워크를 통해 전송되는 경우 및 정보가 저장소에 저장되는 경우 둘 모두 정보가 보호되는 것을 보장할 수 있다.
전송 중인 데이터에 대해, 보안 소켓 계층(secure socket layer; SSL) 또는 전송 계층 보안(transport layer security; TLS)과 같은 암호화 체계가 적용될 수 있다. 데이터는 센서에서 생성될 수 있다. 이들 엔드 노드 센서는 미가공 데이터를 염기 판독으로 분석하는 로컬 애플리케이션 서버에 대한 연결을 지원할 수 있다. 애플리케이션 서버는 염기 판독을 콘티그 또는 서열로 추가로 분석할 수 있다. 대안적으로, 애플리케이션 서버는 다른 애플리케이션 서버에 판독을 전달하여 염기 판독 및 서열을 생성할 수 있다. 센서와 애플리케이션 서버 사이, 협력 애플리케이션 서버 사이, 애플리케이션 서버와 저장소 사이, 및 애플리케이션 서버와 서비스 사이의 통신은 보안 소켓 계층(SSL) 또는 전송 계층 보안(TLS) 연결을 지원할 수 있다. 이는 염기 판독 및 서열과 명칭 또는 지리적 위치와 같은 다른 메타데이터를 연결시키고, 규칙 및 지시를 적용하는 서버를 포함할 수 있다.
휴지 중인(예를 들어, 전송 중이 아닌) 데이터에 대해, 데이터를 보호하기 위해 다양한 메커니즘이 이용될 수 있다. 데이터는 복수의 위치에 저장될 수 있다. 샘플 데이터는 파일 시스템에 저장될 수 있다. 각각의 샘플은 반-구조화 데이터 파일을 포함할 수 있다. 프로세스는 샘플 파일의 마샬링(marshalling), 언마샬링(unmarshalling), 및/또는 제거를 수행할 수 있다.
유도된 콘티그 또는 서열 데이터는 복수의 반-구조화 파일과 유사한 방식으로 저장될 수 있다. 콘티그 데이터는 분산형 파일 시스템에 유지될 수 있는데, 이는 콘티그 데이터가 큰 데이터 세트를 포함할 수 있고, 가설을 시험하기 위해 지속적으로 마이닝(mining)되고 분석될 수 있고, 높은 병렬성으로 액세스를 지원할 수 있는 저장소를 필요로 할 수 있기 때문이다. 샘플 파일과 마찬가지로, 프로세스는 콘티그 파일의 마샬링, 언마샬링, 및/또는 제거를 수행할 수 있다. 이들 파일은 익명화될 수 있다. 암호화 및 압축 메커니즘은 액세스의 더 낮은 중앙 처리 장치(CPU) 비용 및 판독에서의 더 높은 처리량을 위해 조정될 수 있다.
서열이 저장소에 저장되는 경우, 식별자만이 콘티그와 연관될 수 있다. 이들은 샘플에 해당하는 대상, 위치, 접촉 정보, 또는 연구와 관련하여 비-식별화될 수 있다. 신원 데이터는 서열과 별도의 저장소에 저장될 수 있다. 마찬가지로, 샘플로부터의 염기 판독은 독특한 식별자와만 연관될 수 있다. 미가공 데이터가 유지되는 경우, 이것도 단지 식별자와 연관될 수 있다. 신원 데이터는 별도의 데이터베이스에 위치될 수 있다. 신원 데이터는 관계형 데이터베이스에 유지될 수 있다. 액세스 제어가 가능한 경우 샘플 및 콘티그의 쌍을 재-식별하기 위한 연계를 가능하게 하기 위해 샘플-신원 및 콘티그-신원 참조 표가 유지될 수 있다. 익명화된 샘플에는 상이한 세트의 액세스 제어가 적용될 수 있다. 신원 데이터 및 서열 데이터 둘 모두는 휴지 중에 암호화될 수 있다.
샘플 데이터, 콘티그, 및 서열은 비교적 정적인 데이터 세트를 나타낼 수 있다. 저장소에 추가시, 이들은 거의 업데이트되지 않을 수 있다. 이들은 페타바이트(예를 들어, 수백만 기가바이트) 만큼 많은 데이터를 나타낼 수 있다. 이러한 극도로 큰 데이터 세트의 분석 처리는 MapReduce 또는 Spark와 같은 프로세스를 통해 작업 트랜잭션 또는 컬럼형 데이터베이스로 액세스되고 감소될 수 있는 보호된 반-구조화 데이터 세트를 저장하는 분산형 파일 시스템의 사용을 통해 가능해질 수 있다.
예를 들어, 도 14는 정보가 샘플(1401), 콘티그(1402), 및 작업 데이터(1403)에 대해 각각 하나인 3개의 별개의 저장 시스템에 보유되는 분산형 파일 시스템의 예를 예시한다. 미가공 샘플 데이터(1401)는 샘플에 관한 단순 또는 기본 메타데이터와 함께 분자 판독으로 구성된 반-구조화 포맷으로 해석되고 전환될 수 있다. 기본 메타데이터는 샘플 식별자를 포함할 수 있다. 샘플과 관련된 모든 다른 메타데이터는 작업 정보로 간주될 수 있다. 작업 정보는 샘플 식별자에 대한 참조와 함께 데이터베이스에 별도로 저장될 수 있다. 일단 처리되면, 샘플 데이터는 유지되거나 유지되지 않을 수 있다. 샘플 데이터가 장기간 동안 유지되고, 다른 목적을 위해 사용되거나 액세스되는 경우, 이는 분산형 파일 저장소(1404)에 저장될 수 있다. 대안적으로, 샘플 데이터가 장기간 동안 유지되나 다른 목적을 위해 일반적으로 액세스되고 사용되지 않는 경우, 이는 보관될 수 있다.
샘플 데이터는 추가로 해석되거나, 정렬되거나, 콘티그 또는 서열의 세트로 어셈블리될 수 있다. 이들 콘티그는 할당된 콘티그 식별자와 함께 XML 또는 JSON과 같은 반-구조화 포맷으로 분산형 파일 시스템(1404)에 저장될 수 있다. 샘플 데이터와 유사한 방식으로, 콘티그에 관한 다른 메타데이터는 작업 정보일 수 있고, 콘티그 식별자에 대한 참조와 함께 데이터베이스에 별도로 저장될 수 있다.
콘티그는 또한 작업 데이터를 가질 수 있다. 작업 데이터는 판독 및 유도된 콘티그 이외에 포착되고 사용되는 추가 데이터를 포함할 수 있다. 이는 정보를 포착하는 것과 관련된 프로세스와 관련된 정보, 예를 들어, 사용되는 장비의 제작, 모델, 또는 일련 번호; 샘플 제조 정보; 소스 정보; 샘플이 획득된 위치; 및 보호된 건강 정보, 예를 들어, 환자의 이름 및 접촉 정보를 포함할 수 있다.
이들 샘플 데이터 및 콘티그 데이터 파일은 용량을 증가시키기 위해 압축될 수 있으며, 그렇게 함으로써 파일을 판독시 계산 비용이 발생한다는 것을 이해해야 한다. 이들 파일은 암호화될 수 있다. 이들 파일 내의 정보가 익명일 수 있으므로, 일 실시예는 고-성능(예를 들어, 보안) 해독 대응물을 이용하는 암호화 알고리즘을 사용한다. 하드웨어 암호화 가속기는 암호화 및 해독 비용을 최소화하기 위해 사용될 수 있다.
작업 데이터는 샘플 및 콘티그를 재식별하거나 작업하기 위해 저장된 추가 정보를 포함할 수 있다. 작업 데이터는 또한 신원, 서열, 및 표현형 사이의 연관성이 있는 표현형 스키마를 포함할 수 있다(1405). 작업 데이터는 또한 암호화될 수 있다. 그러나, 성능은 사용하는 알고리즘을 결정할 때 중요한 요인일 수 있는 반면, 보안은 작업 데이터에 중요한 요인일 수 있다. 추가로, 기록-수준 액세스와 같은 미세 보안 및 액세스가 작업 데이터에 대해 구현될 수 있다.
샘플 저장장치 및 콘티그/서열 분산형 저장장치는 대칭 키를 이용하여 반-구조화 파일을 암호화할 수 있다. 파일을 마샬링 및 언마샬링하는 것을 담당하는 애플리케이션 서버는 보안 지갑(secure wallet) 내의 파일에 대한 암호 목록을 유지할 수 있다. 또한, 애플리케이션 서버 프로세스가 실행 중인 호스트는 Intel Advanced Encryption Standard - New Instructions(AES-NI)와 같은 가속기를 포함할 수 있다.
구현예의 이점 중 하나는 저장소가 익명의 환경에서 장기간에 걸쳐 저장할 수 있는 생물정보학 정보의 대규모 수집물에 액세스하고 마이닝하는데 필요한 도구를 유지하고 제공하도록 저장소가 모델링될 수 있다는 점이다. 익명의 콘티그 및 선택적으로 초기 샘플 데이터는 유지될 수 있으며, 유전학의 이해를 향상시키는데 있어서 연구자가 안전하게 이용 가능할 수 있다.
일부 구현예에서, 의사는 관련된 작업 정보에 연결된 유전 콘티그를 모두 포함하는 환자 의료 기록에 액세스할 수 있다. 이러한 예에서, 의사는 특정 콘티그 및 서열 세트에 대한 퍼포먼트 액세스(performant access) 및 콘티그 및 서열에 연결된 작업 데이터에 대한 보안 액세스의 2개의 상이한 유형의 액세스를 제공하는 애플리케이션 내에 있다.
실시예 1: 연구
연구 상황에서, 다양한 제조업체의 복수의 센서로부터의 샘플의 미가공 데이터는 애플리케이션 서버로 전송된다. 애플리케이션 서버는 미가공 데이터를 해석하고, 미가공 데이터 내의 판독의 일부 또는 전부의 염기 서열을 결정한다. 이후, 애플리케이션 서버는 정렬 분석 자체를 수행하거나, 판독을 호출하는 외부 정렬 분석 서버 도구에 의해 이해되는 신택스로 형식화시킨다. 결과로서 생성된 콘티그는 외부 서버로부터 애플리케이션 서버로 반환된다.
일부 경우에, 애플리케이션 서버는 샘플 판독으로부터의 정보를 콘티그로 다시 재적용한다. 재구성된 콘티그는 식별자로 태깅되고, 콘티그 저장소로 전송되며, 여기서 이들은 애플리케이션 서버의 분산형 파일 시스템 내에 반-구조화 파일로 저장된다. 콘티그와 관련된 소스, 신원, 위치, 및/또는 주소와 같은 추가 정보가 저장소의 작업 데이터베이스에 삽입된다.
추가 메타 정보는 분류(taxonomy)와 같은 반-구조화 파일에 통합되어, 분산형 파일 시스템 내에서의 효율적인 저장을 가능하게 하거나, 추출 동안 데이터를 감소시킬 수 있다. 콘티그의 저장소는 시간이 지남에 따라 성장한다.
한 연구자는 특정 유전 서명과 하나 이상의 표현형의 일부 발현의 원인 또는 확률 사이의 관계에 대해 가설을 세웠다. 콘티그 저장소는 마이닝된다. 특정 서명 및 이의 관련 식별자는 독립적인 변수로 추출되고, 연구자의 이론을 시험하기 위해 데이터베이스에 로딩된다.
서명은 이후 외부 소스로부터 획득된 표현형에 맵핑될 수 있다.
유용한 것으로 입증된 가설은 유전자 발현 및 표현형에 대한 유전자 서명 연관의 별도 데이터베이스(1406) 내의 애플리케이션 서버로 저장되고 통합될 수 있다.
반-구조화 파일은 데이터베이스와 마찬가지로 암호화된다. 액세스는 샘플 및 콘티그 식별자의 수준으로 제어된다.
샘플 및 콘티그 정보는 상이한 수준의 보안으로 작업 정보 없이 검색될 수 있다. 예를 들어, 연구자는 시스템의 모든 콘티그에 액세스할 수 있으나, 관련 작업 정보를 갖는 임의의 콘티그에는 액세스할 수 없다.
액세스 제어는 추상화되며, 그룹 및 역할 보안과 같은 개념을 지원할 수 있다. 추상 제어를 이용한 미세 보안은 시간이 지남에 따라 효과적인 보안 및 개인정보 유지를 제공한다. 예로서, 의료 그룹의 직원은 의료 그룹의 환자 일원의 일부 또는 전부에 대한 생물정보학 정보를 저장하는 구현예에 액세스할 수 있다. 시간이 지남에 따라, 특정 환자를 담당하는 의사가 바뀔 수 있다. 의사는 이들이 현재 담당하는 환자의 생물정보학 정보만 액세스할 수 있다.
액세스는 강력한 공개/사적 키 관리 시스템을 통해 부여되며, 부인방지(nonrepudiation)에 대한 지원을 제공한다.
관리 프로그램은 시스템의 노드와 사용자를 관리할 수 있다. 관리 프로그램은 키를 발급하고, 인증서 폐기 목록을 유지하기 위한 인증 기관 서비스를 포함할 수 있다. 엔드 노드 센서, 애플리케이션 서버, 및 분산형 파일 시스템 관리자에서 실행되는 프로세스는 정보에 대해 작동하는 것을 가능하게 하는 공개/사적 키 쌍을 갖는다. 사용자는 또한 키 쌍을 생성하였다. 사용자는 복수의 상이한 컴퓨터, 태블릿, 또는 다른 전산 장치로부터의 인증을 지원하기 위해 자신의 계정과 연관된 다수의 키 쌍을 가질 수 있다.
역할 또는 그룹의 개념이 지원된다. 저장된 데이터에 대한 액세스는 역할에 의해 제어되는 반면, 현재 활성 사용자는 하나 이상의 역할에 속할 수 있다.
이러한 아키텍쳐 및 휴지 상태의 데이터에 대한 액세스 제어의 추상화는 데이터 기록의 수명 동안 일부 또는 전부의 서열 정보가 보안되고 권한이 부여된 존재에게만 이용 가능해지는 것을 보장하는 추가 이점을 갖는다. 도 15는 세그먼트화된 액세스 제어를 예시하는 예시적 아키텍쳐를 제시한다.
액세스 제어는, 예를 들어, 개별 샘플 수준으로 미세화될 수 있다. 각각의 샘플은 독특한 식별자로 태깅될 수 있다.
본질적으로 중요하지 않은 작업에 대해, 저수준 시퀀서 또는 생물학적 센서가 사용될 수 있다. 저수준 시퀀서 또는 생물학적 센서는 대형 영구 저장 장치가 필요하지 않을 수 있다. 상기 장치의 예는 측정 또는 데이터 획득 모듈을 포함할 수 있다. 상기 장치는 시스템 기능을 처리하기 위한 측정 하드웨어, 프로세서, 및/또는 시스템 메모리를 가질 수 있다. 이들 구성요소 각각은 자체 기능을 처리하기 위한 자체 버퍼 메모리를 가질 수 있다.
저수준 시퀀서는 이의 미가공 데이터를 애플리케이션 서버, 로컬 저장소, 또는 로컬 서버와 같은 고수준 장치로 연계하기 위한 통신 링크를 필요로 할 수 있다.
통신 링크는 블루투쓰 또는 근거리 통신(NFC)과 같은 근거리 통신 프로토콜, 또는 Wi-Fi와 같은 무선 프로토콜을 포함할 수 있다. 통신 링크는 케이블로 연결된(즉, 유선) 통신 장비, 예를 들어, USB를 포함할 수 있다. 일부 경우에, 통신 링크는 위성 또는 셀룰러 통신 모듈을 포함할 수 있다.
저수준 시퀀서는 상기 언급된 기능 중 일부를 수행하기 위해 모바일 스마트폰과 같은 모바일 장치에서 작동할 수 있는 애플리케이션 서버에 통합될 수 있다. 예를 들어, 저수준 시퀀서는 측정 하드웨어를 포함할 수 있으며, 로컬 메모리, 프로세서, 및 통신 링크로서 모바일 장치 기능 및 애플리케이션을 이용할 수 있다.
대안적으로, 중간-수준 시퀀서가 더 중요한 환경에서 사용될 수 있다. 상기 중요한 상황의 예는 초기 진단이 필요한 환자 모니터링 및 현장 진단(point-of-care) 적용을 포함할 수 있다.
중간-수준 시퀀서는 폴리뉴클레오티드의 더욱 정확한 측정을 수행할 수 있다. 정확성은 서열의 신뢰할 만한 정확한 판단을 위해 필요한 것에 따라 설정될 수 있다.
중간-수준 시퀀서는 메모리 장치 및 통신 구성요소를 사용할 수 있다. 그러므로, 중간-수준 시퀀서는 시스템 기능을 처리하기 위한 측정 하드웨어, 프로세서, 및 시스템 메모리를 갖는 측정 및 데이터 획득 모듈을 포함할 수 있다. 이들 구성요소 각각은 자체 기능을 처리하기 위한 자체 버퍼 메보리를 포함할 수 있다.
추가 메모리 장치는 데이터 비트를 저장할 수 있는 플래시 메모리(예를 들어, 멀티-레벨 셀 플래시 메모리)를 포함할 수 있다. 중간-수준 시퀀서의 데이터는 염기 데이터일 수 있고, 이러한 경우 멀티-레벨 셀 플래시 메모리는 데이터를 로컬로 저장하기에 적합할 수 있다. 예를 들어, 높은 대역폭 또는 처리량 목적을 위해 유선 연결이 바람직할 수 있는 많은 양의 데이터가 존재하는 경우에 데이터를 전송하기 위해 USB 포트와 같은 포트가 사용될 수 있다.
일 구현예에서, 플래시 메모리와 같은 멀티-레벨 셀 장치가 유전 서열 데이터를 저장하고 액세스하는 비교적 신속한 방식으로 사용된다. 플래시 메모리 저장 장치에서, 많은 수의 셀이 전하를 유지할 수 있는 플로팅 게이트 전계 효과 트랜지스터(FET)를 기초로 하여 데이터를 저장하기 위해 사용될 수 있다. 셀은 각각의 FET의 플로팅 게이트를 충전함으로써 개별적으로 프로그램될 수 있다.
이러한 구현예의 한 장점은 플래시 메모리 셀이 블록 소거 작업을 통해 블록에서 소거될 수 있고, 이에 의해 단일 작업으로 복수의 플로팅 게이트 모두의 모든 전하를 소거한다는 사실에 기인한다.
이러한 구현예는 또한 개별 셀들이 소거-어드레스 가능하지 않다는 특징을 가질 수 있다. 그러나, 이러한 구현예에서, 플래시 메모리의 소거 가능한 블록은 염기 서열, 뉴클레오티드, 또는 달리 연속적인 유전 데이터와 관련된 유전 데이터를 저장하는데 사용된다. 이러한 소거 가능한 블록을 대체할 필요가 있는 경우, 사용자는 통상적으로 소거 가능한 블록의 일부가 아니라 소거 가능한 블록 내의 데이터 전부를 한번에 소거하는 것을 원할 수 있다. 따라서, 이러한 구현예는 유전 데이터 저장을 위한 비용 대 속도를 최적화시키는 유연성을 가능하게 할 수 있다.
플래시 메모리 저장 장치에서, 셀은 다수의 프로그램 및 소거 사이클 후에 실패하기 시작할 수 있으며, 그 시점 후에 판독 또는 기록이 실패할 수 있다. 이러한 사실은 유전 데이터 저장에 유리하게 사용될 수 있다. 플래시 메모리의 소거 주기의 수는 제한될 수 있으므로, 데이터는 일부 다른 사용 시나리오보다 긴 시간 동안 안전하게 유지될 수 있다.
소거 블록 크기와 서열 또는 다른 유전 데이터 크기 사이의 특정한 상관관계가 있을 수 있다. 이는 전체 서열과 관련된 데이터의 온전성을 보장할 수 있다.
특정 예로서, 128 킬로 염기쌍(kbp)으로 구성된 염기의 서열은 128 셀의 소거 블록에 저장된다:
CTT…GAG (128k 염기)
= = = . . . = = = (128k 셀 소거 블록)
고유한 DNA 및 RNA 염기에 대해, 2비트 멀티-레벨 셀(MLC)이 각 염기에 전용될 수 있다. 예를 들어, DNA를 수반하는 경우에 대해, 다음을 사용한다:
A(00) C(01) G(10) T(11)
여기서, 제1 및 제2 비트 둘 모두는 염기가 A인 경우에 오프(off)가 되고, 제2 비트는 염기가 C인 경우에 온(on)이 되고, 제1 비트는 염기가 G인 경우에 온이 되고, 최종적으로 제1 및 제2 비트 둘 모두는 염기가 T인 경우에 온이 되는 것을 의미한다. 유사한 방식이 RNA에 대해 사용될 수 있다.
각각의 소거 블록은 다수의 서열을 저장하도록 설계되거나 구성될 수 있다. 대안적으로, 더 큰 서열은 유사하거나 동일한 특성 및 수명 주기를 갖는 특정 수의 소거 블록에 저장될 수 있다.
상이한 크기의 소거 블록은 상이한 크기의 서열에 사용될 수 있다. 예를 들어, 더 작은 소거 블록 크기의 플래시 메모리 장치는 올리고 데이터 또는 하이브리드화 데이터를 저장하는데 사용될 수 있는 반면, 더 큰 소거 블록 크기의 플래시 메모리 장치는 유전자 및 돌연변이 또는 참조 유전자를 저장하는데 사용될 수 있다. 더 큰 블록 크기의 플래시 메모리 장치는 유전체 데이터를 저장하는데 사용될 수 있다.
더 신속한 액세스를 위해 플래시 메모리를 이용하는 장점은 수명 주기 문제로 인해 손상될 수 있다. 플래시 메모리 내용의 카피는 액세스가 느리지만 더 긴 수명 주기를 갖는 저장 서버에 미러링될 수 있다. 이후, 각각의 블록 크기 내의 데이터의 온전성을 조사하기 위해 시험이 고안될 수 있다. 때때로, 각각의 블록 내의 데이터는 서버 내의 미러 데이터에 대해 시험될 수 있다. 플래시 메모리가 블록 데이터를 소거하는 경우 성능저하의 임의의 징후를 나타내는 경우, 플래시 메모리 장치의 블록이 사용 중지될 수 있다.
이러한 구현예는 적어도 더 긴 수명 주기 저장 장치가, 예를 들어, 클라우드 내의 원격 하드 디스크 장치(HDD) 저장 서버일 수 있으므로 유리할 수 있다.
추가 예에서, 플래시 메모리 저장 장치의 소거 블록은 서열 데이터와 일부 메타데이터를 저장하기 위해 사용될 수 있다:
CTT…GAG (96k 염기) - 메타데이터 (64k 비트 = 32 k 셀 MLC)
= = = . . . = = = (128k 셀 소거 블록)
메타데이터의 예는 환자의 이름, 환자와 관련된 다른 정보, 또는 서열 자체와 같은 서열의 기원과 관련된 임의의 정보를 포함할 수 있다.
생물학적 데이터의 약자는, 예를 들어, 압축 또는 생물학적 데이터를 이용하여 저장 장치 아키텍쳐와 관련하여 데이터의 크기를 최적화할 수 있다. 압축된 데이터의 크기는 더 나은 저장 장치 호환성을 위해 미세 조정될 수 있다.
해시(hash) 표는 다양한 생물학적 데이터로 제조될 수 있다. 각각의 해시는 하나의 카테고리 또는 장르에 해당할 수 있다. 예를 들어, 병원체 데이터 증식의 경우, 각각의 병원체에 대한 해시를 만들고, 해시 표를 이용할 수 있다. 새로운 샘플이 측정될 때마다, 새로운 샘플의 해시를 수행하는 것은 해시 표 내의 일치를 용이하게 찾을 수 있다. 이는 병원체에 대한 정보를 획득하는 신속하고 효율적인 방식이다.
멀티-레벨 셀(MLC) 저장 셀은 2개의 비트를 저장할 수 있다. 2개의 비트는 폴리뉴클레오티드의 염기에 대한 정보를 저장하기 위해 사용될 수 있다. 예를 들어, DNA 염기에 대해, 하기 비트 구성이 사용될 수 있다:
00 A
01 C
10 G
11 T
이러한 방식으로, 모든 고유한 4개의 염기가 단일 메모리 셀을 이용하여 표현될 수 있다. 이러한 접근법은 데이터의 온전성을 보장하는데 유리할 수 있다.
또 다른 예에서, MLC 저장 셀은 3개의 비트를 저장할 수 있다. 3개의 비트는 메틸화 또는 산화 상태를 나타내는 추가 정보를 갖는 폴리뉴클레오티드의 염기에 대한 정보를 저장하는데 사용될 수 있다. 예를 들어, DNA 염기에 대해, 하기 비트 구성이 사용될 수 있다:
000 고유한 A
001 고유한 C
010 고유한 G
011 고유한 T
100 산화된 A
101 메틸화된 C
110 무염기
111 다른 정보
이러한 방식으로, 플래시 메모리 및 상 변화 메모리와 같은 멀티-셀 메모리 장치가 사용될 수 있다.
다중 셀이 있는 블록을 갖는 저장 장치에서 데이터 성능 저하의 경우, 경고를 제공하거나, 새로고침 주기에 의하거나, 저장 서버, 예를 들어, HDD, 또는 클라우드 저장 서버로의 데이터의 자동 또는 강제 덤핑에 의해 데이터의 손실이 회피될 수 있다.
플래시 메모리 장치 내의 소거 블록은 액세스 및 저장 관리의 용이성을 위해 사용될 수 있다. 소거 블록의 모든 데이터가 생물학적 단위, 예를 들어, DNA 또는 RNA 서열에 해당하는 경우, 메모리 액세스는 절약될 수 있고, 데이터는 더욱 온전성을 가질 수 있다. 이는 많은 서열 영역 또는 유전 데이터가 액세스될 수 있고, 짧은 시간에 작동될 수 있는 대규모 작업에서 전력 최적화를 발생시킬 수 있다.
데이터 온전성은 유전자 또는 콘티그와 같은 특정 유전 단위와 관련된 모든 데이터를 특정 단위 또는 메모리 단위로 유지시킴으로써 상기 구현예를 통해 보존될 수 있다. 또한, 처리, 최적화, 및 발생되는 열 감소와 같은 다른 이점이 달성될 수 있다. 데이터 관리, 데이터 압축, 메모리 액세스, 온도 제어, 및 데이터 온전성은 국소적이거나 전역적이건 간에 생물학적 데이터 관리의 전체 생태계에 긍정적인 순수한 효과를 미칠 수 있을 것으로 예견된다.
플래시 메모리 소거 블록과 같은 메모리 블록은 유전 데이터의 크기와 양립되도록 선택될 수 있다. 이를 위해, 맞춤화된 압축 및 분산 분석이 수행되어 유전 데이터의 압축 크기를 메모리 블록 또는 메모리 뱅크의 크기에 더욱 최적화시킬 수 있다. 최적화는 데이터 손실 및 데이터 보존 측면에서 수행될 수 있다. 예를 들어, 블록 크기 또는 뱅크 크기와 같은 메모리 단위 크기가 생물학적 단위 데이터의 크기보다 큰 경우, 메모리 공간의 나머지는 생물학적 단위 데이터에 대한 추가 정보를 저장하는데 사용될 수 있다. 예를 들어, 플래시 메모리 내의 소거 블록은 유전자 정보를 저장하는데 사용될 수 있는 반면, 유전자 발현과 같은 유전자에 대한 추가 정보는 블록의 나머지 공간에 저장될 수 있다.
생물학적 데이터에 대한 액세스는 도 16a에 제시된 바와 같이 계층형 저장 액세스 방식을 통해 관리될 수 있다. 애플리케이션은 로컬 저장소 또는 중앙 서버에 있을 수 있다. 제1 계층 액세스는 신속한 메모리를 이용하여 달성될 수 있다. 중요한 경우, 랜덤 액세스 메모리(RAM)(1601)가 빈번히 액세스되는 것을 필요로 하는 특정 데이터에 액세스하는데 사용될 수 있다. 덜 중요한 시스템에서, 신속한 메모리는 로컬 HDD 또는 클라우드-기반 저장 유닛 내에 있거나 이와 인접한 플래시 메모리(1602)를 포함할 수 있다.
특정 생물학적 데이터를 유지하는 결정은 적중-또는-비적중(hit-or-miss) 아키텍쳐를 기초로 할 수 있다. 특정 수의 적중이 등록되는 경우, 프로세서는 생물학적 데이터에 액세스할 수 있고, 이를 더 신속한 메모리로 확대(예를 들어, 생물학적 데이터를 카피하거나 이동시킴에 의함)시킬 수 있다. 예를 들어, 병원체의 사례 보고 검출시, 로컬 저장소 또는 중앙 서버는 병원체의 카피를 로컬 메모리로 가져오기로 결정할 수 있다. 또한, 중요할 수 있는 생물학적 데이터 단위의 특정 영역을 확인시, 특정 영역의 카피는 더 신속한 메모리에서 유지될 수 있고, 데이터 단위 나머지는 더 느린 메모리, 예를 들어, HDD, 클라우드, 또는 동등물(1603)에 더 낮은 수준으로 유지될 수 있다. 도 16b, 16c, 및 도 16d는 저장 아키텍쳐의 추가 예를 제공한다. 도 16b는 프로세서가 RAM, 플래시 메모리, 및/또는 HDD 또는 동등물과 통신하도록 구성될 수 있는 초고속 데이터 액세스 및 의사 결정을 제공하기에 적합한 아키텍쳐의 예를 제시한다. 도 16c는 프로세서가 플래시 메모리 및/또는 HDD 또는 등가물과 통신하도록 구성될 수 있는 고속 유전 액세스 및 의사 결정을 제공하기에 적합한 아키텍쳐의 예를 제시한다. 도 16d는 프로세서가 HDD 또는 동등물과 통신하도록 구성될 수 있는 유전 파일보관을 제공하기에 적합한 아키텍쳐의 예를 제시한다.
실시예 2: 개인정보 암호화
마이클 스미스(Michael Smith)라는 이름의 가상의 사람 및 그와 관련된 16-mer 서열에 대한 유전 서열 데이터에 적용된 암호화 기술의 예가 제공된다. 16-mer는 상기 사람과 관련된 더 큰 서열, 유전자, 또는 유전체의 일부일 수 있다.
마이클 스미스 - … t t g c g a t g t c t a a t g g … (대상 서열)
이러한 예에서, 이름 "마이클 스미스"는 예시의 목적을 위해 24-비트 암호를 이용하여 암호화된다. 암호화된 이름 및 해당 신택스는 다음과 같이 표현된다:
Encrfn ("마이클 스미스", 암호1) =
EnCt2568e6c561c2b3a78926b5dbb3adea5ba827c065e568e6c561c2b3a78926b5dbbJIGwNtmg0ACHd+Q9e1ZHTMJV2DqVe3XSDb77IwEmS
이러한 접근법은 암호가 안전한 한 이름의 개인정보를 보장할 수 있다. 이러한 유형의 암호화 및 이후의 해독 및 암호 보호는 잠재적으로 전산 집약적이고 고비용이다. 이러한 예에서, 소수의 바이트를 포함할 수 있는 사람의 이름은 광범위한 암호화가 사용되는 경우에 수백 바이트만큼 증가할 수 있음이 인지될 수 있다.
서열의 개인정보를 보장하기 위해, 다음을 함유하는 참조 서열이 존재한다고 가정될 수 있다:
t t g c g a a g t c t a a t g g … (참조 서열)
굵고 밑줄이 그어진 염기는 집단에서 유일하게 변화된 염기인 것으로 가정된다.
이후, 마이클 스미스로부터 가져온 본래 서열이 다음을 함유하는 것으로 가정될 수 있다:
… t t g c g a t g t c t a a t g g … (대상 서열)
이러한 구현예에 따르면, 이러한 서열은 다음과 같이 저장된다:
… t t g c g a a* g t c t a a t g g … (대상 서열 표현)
여기서, *는 0 내지 3의 숫자일 수 있고, 이에 의해 다음을 발생시킨다:
a0 = a
a1 = c
a2 = g
a3 = t
마이클 스미스의 경우, 이러한 숫자는 3이 되어, "a"를 "t"로 이동시킨다.
이러한 예는 서열 … t t g c g a a(0123) g t c t a a t g g …이 2-비트 문자(이 경우, (0,1,2,3))를 소비하여 전체 집단을 표현할 수 있음을 제시한다.
이러한 구현예에 따르면, 서열의 나머지는 전체 집단에 대해 동일하므로, 서열의 완전한 개인정보는 2-비트 키를 소비하여 달성될 수 있다.
이러한 예에서, 올리고 또는 콘티그의 일부는 단지 하나의 염기가 참조 올리고 또는 콘티그에 비해 가변적인 경우에 제시된다.
이러한 예에서, 이러한 서열을 암호화하기 위해, 참조 서열은, 예를 들어, 다음과 같이 암호화 방식에 따라 하나의 염기를 1-3개의 장소로 이동시킬 수 있는 플러스 2-비트 코드(123)를 가정한다:
a c(1) g(2) t(3)
암호화된 가변적 염기가 "g"인 경우, 예를 들어, 암호화 코드의 이동 함수는 다음을 제공할 수 있다:
a(2) c(3) g t(1)
이러한 구현예의 범위로부터 벗어남이 없이 유사한 방식이 사용될 수 있다.
컴퓨터 제어 시스템
본 발명의 개시는 본 발명의 개시의 방법을 구현하도록 프로그램된 컴퓨터 제어 시스템을 제공한다. 도 17은 생물학적 데이터를 관리하도록 프로그램되거나 달리 구성된 컴퓨터 시스템(1701)을 제시한다. 컴퓨터 시스템(1701)은, 예를 들어, 생물학적 데이터의 수집, 저장, 암호화, 정의 및 규칙과 관련한 서버 사이, 서버와 저장소 사이의 통신, 및 관리 정의 및 규칙과 같은 본 발명의 개시의 데이터 관리의 다양한 양상을 조절할 수 있다. 컴퓨터 시스템(1701)은 사용자의 전자 장치 또는 전자 장치와 관련하여 원격 위치된 컴퓨터 시스템일 수 있다. 전자 장치는 모바일 전자 장치일 수 있다.
컴퓨터 시스템(1701)은 단일 코어 또는 다중 코어 프로세서, 또는 병렬 처리를 위한 복수의 프로세서일 수 있는 중앙 처리 장치(CPU, 본원에서 또한 "프로세서" 및 "컴퓨터 프로세서")(1705)를 포함한다. 컴퓨터 시스템(1701)은 또한 메모리 또는 메모리 위치(1710)(예를 들어, 랜덤-액세스 메모리, 읽기-전용 메모리, 플래시 메모리), 전자 저장 장치(1715)(예를 들어, 하드 디스크), 하나 이상의 다른 시스템과 통신하기 위한 통신 인터페이스(1720)(예를 들어, 네트워크 어댑터), 및 주변 장치(1725), 예를 들어, 캐시, 기타 메모리, 데이터 저장 및/또는 전자 디스플레이 어댑터를 포함한다. 메모리(1710), 저장 장치(1715), 인터페이스(1720) 및 주변 장치(1725)는 마더보드와 같은 통신 버스(실선)를 통해 CPU(1705)와 통신한다. 저장 장치(1715)는 데이터를 저장하기 위한 데이터 저장 장치(또는 데이터 저장소)일 수 있다. 컴퓨터 시스템(1701)은 통신 인터페이스(1720)의 도움으로 컴퓨터 네트워크("네트워크")(1730)에 작동 가능하게 연결될 수 있다. 네트워크(1730)는 인터넷, 인터넷 및/또는 엑스트라넷, 또는 인터넷과 통신하는 인트라넷 및/또는 엑스트라넷일 수 있다. 네트워크(1730)는 일부 경우에 원거리통신 및/또는 데이터 네트워크이다. 네트워크(1730)는 클라우드 컴퓨팅과 같은 분산 컴퓨팅을 가능하게 할 수 있는 하나 이상의 컴퓨터 서버를 포함할 수 있다. 일부 경우에 컴퓨터 시스템(1701)의 도움으로 네트워크(1730)는 피어-투-피어 네트워크를 구현할 수 있으며, 이는 컴퓨터 시스템(1701)에 결합된 장치가 클라이언트 또는 서버로 거동하는 것을 가능하게 할 수 있다.
CPU(1705)는 프로그램 또는 소프트웨어로 구현될 수 있는 일련의 기계-판독 가능한 명령어를 실행할 수 있다. 명령어는 메모리(1710)와 같은 메모리 위치에 저장될 수 있다. 명령어는 CPU(1705)에 지시될 수 있으며, 이는 이후에 본 발명의 개시의 방법을 구현하도록 CPU(1705)를 프로그램하거나 달리 구성할 수 있다. CPU(1705)에 의해 수행되는 작업의 예는 페치(fetch), 디코드(decode), 실행 및 라이트백(writeback)을 포함할 수 있다.
CPU(1705)는 집적 회로와 같은 회로의 일부일 수 있다. 시스템(1701)의 하나 이상의 다른 구성요소가 회로에 포함될 수 있다. 일부 경우에, 회로는 주문형 집적 회로(ASIC)이다.
저장 장치(1715)는 드라이버, 라이브러리 및 저장된 프로그램과 같은 파일을 저장할 수 있다. 저장 장치(1715)는, 예를 들어, 사용자 선호도 및 사용자 프로그램과 같은 사용자 데이터를 저장할 수 있다. 컴퓨터 시스템(1701)은 일부 경우에 인트라넷 또는 인터넷을 통해 컴퓨터 시스템(1701)과 통신하는 원격 서버에 위치하는 것과 같이 컴퓨터 시스템(1701)의 외부에 있는 하나 이상의 추가 데이터 저장 장치를 포함할 수 있다.
컴퓨터 시스템(1701)은 네트워크(1730)를 통해 하나 이상의 원격 컴퓨터 시스템과 통신할 수 있다. 예를 들어, 컴퓨터 시스템(1701)은 사용자(예를 들어, 연구소 또는 병원)의 원격 컴퓨터 시스템과 통신할 수 있다. 원격 컴퓨터 시스템의 예는 개인 컴퓨터(예를 들어, 휴대용 PC), 슬레이트 또는 태블릿 PC(예를 들어, Apple(등록 상표) iPad, Samsung(등록 상표) Galaxy Tab), 전화기, 스마트폰(예를 들어, Apple(등록 상표) iPhone, Android-지원 장치, Blackberry(등록 상표)), 또는 개인 디저털 보조장치를 포함한다. 사용자는 네트워크(1730)를 통해 컴퓨터 시스템(1701)에 액세스할 수 있다.
본원에 기재된 바와 같은 방법은, 예를 들어, 메모리(1710) 또는 전자 저장 장치(1715)와 같은 컴퓨터 시스템(1701)의 전자 저장 위치에 저장된 기계(예를 들어, 컴퓨터 프로세서) 실행 가능한 코드에 의해 구현될 수 있다. 기계 실행 가능하거나 기계 판독 가능한 코드는 소프트웨어의 형태로 제공될 수 있다. 사용 동안, 코드는 프로세서(1705)에 의해 실행될 수 있다. 일부 경우에, 코드는 저장 장치(1715)로부터 검색될 수 있고, 프로세서(1705)에 의한 액세스 준비를 위해 메모리(1710)에 저장될 수 있다. 일부 상황에서, 전자 저장 장치(1715)는 배제될 수 있고, 기계-실행 가능한 명령어는 메모리(1710)에 저장된다.
코드는 사전 컴파일링되고, 코드를 실행하도록 적합화된 프로세서를 갖는 기계와 함께 사용하도록 구성될 수 있거나, 실행 시간 동안 컴파일링될 수 있다. 코드는 사전 컴파일링 또는 애즈-컴파일링(as-compiling) 방식으로 코드를 실행하는 것을 가능하게 하도록 선택될 수 있는 프로그래밍 언어로 제공될 수 있다.
컴퓨터 시스템(1701)과 같은 본원에 제공된 시스템 및 방법의 양태는 프로그래밍으로 구현될 수 있다. 상기 기술의 다양한 양태는 통상적으로 기계 판독 가능한 매체의 유형으로 수행되거나 구현되는 기계(또는 프로세서) 실행 가능한 코드 및/또는 관련 데이터의 형태인 "제품" 또는 "제조 물품"으로 생각될 수 있다. 기계-실행 가능한 코드는 메모리(예를 들어, 읽기-전용 메모리, 랜덤-액세스 메모리, 플래시 메모리) 또는 하드디스크와 같은 전자 저장 장치에 저장될 수 있다. "저장" 유형 매체는 소프트웨어 프로그래밍을 위해 언제든지 비-일시적인 저장을 제공할 수 있는 컴퓨터, 프로세서 등, 또는 이의 관련 모듈의 유형 메모리 일부 또는 전부, 예를 들어, 다양한 반도체 메모리, 태이프 드라이브, 디스크 드라이브 등을 포함할 수 있다. 소프트웨어의 전체 또는 일부는 때때로 인터넷 또는 다양한 다른 원격통신 네트워크를 통해 통신할 수 있다. 예를 들어, 상기 통신은 한 컴퓨터 또는 프로세서로부터 또 다른 컴퓨터 또는 프로세서로, 예를 들어, 관리 서버 또는 호스트 컴퓨터로부터 애플리케이션 서버의 컴퓨터 플랫폼으로 소프트웨어의 로딩을 가능하게 할 수 있다. 따라서, 소프트웨어 요소를 가질 수 있는 또 다른 유형의 매체는 유선 및 광학 육상 통신선 네트워크 및 다양한 에어-링크(air-link)를 통해 로컬 장치 사이의 물리적 인터페이스에 걸쳐 사용되는 것과 같은 광, 전기 및 전자기파를 포함한다. 유선 또는 무선 링크, 광 링크 등과 같은 상기 파를 운반하는 물리적 요소는 또한 소프트웨어를 갖는 매체로 간주될 수 있다. 비-일시적인 유형 "저장" 매체로 제한되지 않는 한, 본원에서 사용되는 컴퓨터 또는 기계 "판독 가능한 매체"와 같은 용어는 실행을 위해 프로세서에 명령어를 제공하는데 참여하는 임의의 매체를 나타낸다.
그러므로, 컴퓨터-실행 가능한 코드와 같은 기계 판독 가능한 매체는 유형 저장 매체, 반송파 매체 또는 물리적 전송 매체를 포함하나 이에 제한되지는 않는 많은 형태를 취할 수 있다. 비-휘발성 저장 매체는, 예를 들어, 도면에 제시된 바와 같은 데이터베이스 등을 구현하는데 사용될 수 있는 것과 같은 임의의 컴퓨터(들) 등의 저장 장치 중 임의의 저장 장치와 같은 광학 또는 자기 디스크를 포함한다. 휘발성 저장 매체는 상기 컴퓨터 플랫폼의 메인 메모리와 같은 동적 메모리를 포함한다. 유형 전송 매체는 동축 케이블; 컴퓨터 시스템 내의 버스를 포함하는 와이어를 포함하는 구리 와이어 및 광섬유를 포함한다. 반송파 전송 매체는 전기 또는 전자기 신호, 또는 무선 주파수(RF) 및 적외선(IR) 데이터 통신 동안 생성되는 것과 같은 음파 또는 광파의 형태를 취할 수 있다. 따라서, 컴퓨터-판독 가능한 매체의 일반적인 형태는, 예를 들어, 플로피 디스크, 플렉시블 디스크, 하드디스크, 자기 테이프, 임의의 다른 자기 매체, CD-ROM, DVD 또는 DVD-ROM, 임의의 다른 광학 매체, 펀치 카드 종이 테이프, 구멍의 패턴을 갖는 임의의 다른 물리적 저장 매체, RAM, ROM, PROM 및 EPROM, FLASH-EPROM, 임의의 다른 메모리 칩 또는 카트리지, 데이터 또는 명령어를 전송하는 반송파, 상기 반송파를 전송하는 케이블 또는 링크, 또는 컴퓨터가 프로그래밍 코드 및/또는 데이터를 판독할 수 있는 임의의 다른 매체를 포함한다. 이들 형태의 컴퓨터 판독 가능한 매체 중 많은 것이 실행을 위해 프로세서에 하나 이상의 명령어의 하나 이상의 서열을 전달하는 것과 관련될 수 있다.
컴퓨터 시스템(1701)은, 예를 들어, 염기 서열 문자열, 또는 다양한 신택스 내의 판독, 서열 정렬을 포함하는, 예를 들어, 유전 데이터를 제공하기 위한 사용자 인터페이스(UI)(1740)를 포함하는 전자 디스플레이(1735)를 포함하거나, 이와 통신할 수 있다. UI의 예는 그래픽 사용자 인터페이스(GUI) 및 웹-기반 사용자 인터페이스를 포함하나, 이에 제한되지는 않는다.
본 발명의 개시의 방법 및 시스템은 하나 이상의 알고리즘에 의해 구현될 수 있다. 알고리즘은 중앙 처리 장치(1705)에 의한 실행시 소프트웨어에 의해 구현될 수 있다. 알고리즘은, 예를 들어, 데이터를 암호화하고, 유전 판독을 전환시키고, 서열 데이터, 작업 데이터, 메타데이터, 샘플 데이터, 콘티그 데이터를 포함하나 이에 제한되지는 않는 다양한 데이터를 분석하고, 해석하고, 정렬시키고, 어셈블리할 수 있다.
본 발명의 바람직한 구현예가 본원에 제시되고 기재되었으나, 상기 구현예는 단지 예로서 제공된다는 것이 당업자에게 명백할 것이다. 본 발명은 명세서 내에 제공된 특정 예로 제한되는 것으로 의도되지는 않는다. 본 발명은 상기 언급된 명세서를 참조로 하여 기재되었으나, 본원의 구현예의 설명 및 예시는 제한적인 의미로 해석되는 것을 의미하지는 않는다. 본 발명을 벗어남이 없이 당업자에 의해 다양한 변형, 변화 및 대체가 이제 이루어질 것이다. 또한, 본 발명의 모든 양태는 다양한 조건 및 변수에 따라 본원에 기재된 특정 묘사, 구성 또는 상대 비율로 제한되지 않는 것이 이해될 것이다. 본원에 기재된 본 발명의 구현예에 대한 다양한 대안이 본 발명을 실시하는데 이용될 수 있음이 이해되어야 한다. 따라서, 본 발명은 또한 임의의 상기 대안, 변형, 변화 또는 동등물을 포함할 것으로 고려된다. 하기 청구범위는 본 발명의 범위를 정의하고, 이들 청구범위 및 이의 등가물의 범위 내의 방법 및 구조가 이에 의해 포함되는 것으로 의도된다.

Claims (55)

  1. (a) 염기 데이터를 발생시키도록 구성된 시퀀싱 장치를 포함하는 최종-사용자 모듈;
    (b) 최종-사용자 모듈과 네트워크 통신하는 로컬 저장소로서, (i) 염기 데이터를 수신하고, (ii) 염기 데이터를 서열 데이터로 전환시키고, (iii) 서열 데이터를 기초로 하여 축약 데이터를 생성시키고, (iv) 축약 데이터를 기존 약어의 데이터베이스와 비교하도록 프로그램되거나 구성된, 로컬 저장소; 및
    (c) 로컬 저장소와 네트워크 통신하는 중앙 서버로서, 기존 약어의 데이터베이스를 업데이트하도록 구성된, 중앙 서버를 포함하는,
    생물학적 데이터 관리 시스템.
  2. 제1항에 있어서, 로컬 저장소가 약어를 플래깅(flagging)시키고, 플래깅된 약어를 중앙 서버에 전달하도록 추가로 프로그램되거나 구성된 생물학적 관리 시스템.
  3. 제2항에 있어서, 중앙 서버가 플래깅된 약어를 수신하고, 플래깅된 약어에 대해 추가 분석을 수행하도록 추가로 프로그램되거나 구성된 생물학적 데이터 관리 시스템.
  4. 제3항에 있어서, 중앙 서버가 지시를 생성하고, 플래깅된 약어의 분석시 지시를 로컬 저장소로 전달하도록 추가로 프로그램되거나 구성된 생물학적 데이터 관리 시스템.
  5. 제1항에 있어서, 약어가 분산(variance), 해시(hash), 또는 체크섬(checksum)인 생물학적 데이터 관리 시스템.
  6. (d) 생물학적 데이터를 저장하기에 적합한 저장 장치 크기를 확인하기 위해 생물학적 데이터의 크기를 결정하는 단계;
    (e) 저장 장치 크기와 양립되는 블록 크기를 갖는 메모리 장치 내의 메모리 위치를 확인하는 단계; 및
    (f) 생물학적 데이터를 메모리 장치의 메모리 위치에 소거 가능한 블록에 저장하는 단계를 포함하는,
    생물학적 데이터를 저장하기 위한 방법.
  7. 제6항에 있어서, 각각의 소거 가능한 블록이 생물학적 데이터를 저장하기 위한 섹션 및 생물학적 데이터와 관련된 메타데이터를 저장하기 위한 섹션을 포함하는 방법.
  8. 제7항에 있어서, 메타데이터를 저장하기 위한 섹션이 더 긴 수명을 포함하는 방법.
  9. 제7항에 있어서, 메타데이터를 저장하기 위한 섹션이 서열 데이터를 저장하기 위한 섹션의 제어기와 상이한 제어기를 포함하는 방법.
  10. 제7항에 있어서, 메타데이터를 저장하기 위한 섹션이 서열 데이터를 저장하기 위한 섹션보다 더 빈번히 액세스하도록 구성되는 방법.
  11. (g) 드문 액세스를 위한 생물학적 데이터를 저장하도록 구성된 제1 메모리 장치; 및
    (h) 제1 메모리 장치와 통신하고, 빈번한 액세스를 위한 생물학적 데이터를 저장하도록 구성된, 블록 크기를 갖는 제2 메모리 장치로서, 제2 메모리 장치가 제1 메모리 장치보다 신속하고, 블록 크기가 생물학적 데이터의 크기에 따라 생물학적 데이터를 저장하도록 선택되는, 제2 메모리 장치를 포함하는,
    생물학적 데이터 관리 시스템.
  12. 제11항에 있어서, 생물학적 데이터가 n-mer 서열이고, 블록 크기가 n-mer의 단량체를 저장하는데 필요한 비트 수의 n배인 생물학적 데이터 관리 시스템.
  13. 제11항에 있어서, 생물학적 데이터가 n-mer 서열이고, 블록 크기가 n-mer의 단량체를 저장하는데 필요한 비트 수의 적어도 n배인 생물학적 데이터 관리 시스템.
  14. 제11항에 있어서, 제2 메모리 장치가 플래시 메모리 장치를 포함하는 생물학적 데이터 관리 시스템.
  15. 제14항에 있어서, 제2 메모리 장치가 플래시 메모리 소거 블록인 블록을 포함하는 생물학적 데이터 관리 시스템.
  16. 멀티-레벨 셀(multi-level cell; MLC) 메모리 장치 내에 서열 염기 데이터를 저장하기 위한 방법으로서, MLC 메모리 장치가 메모리 셀을 포함하고, 메모리 셀 각각이 2개의 비트를 저장하도록 구성되며,
    메모리 셀에서,
    (i) 제1 유형의 염기를 표현하기 위해 2개의 비트를 00으로 설정하는 단계;
    (j) 제2 유형의 염기를 표현하기 위해 2개의 비트를 01로 설정하는 단계;
    (k) 제3 유형의 염기를 표현하기 위해 2개의 비트를 10으로 설정하는 단계; 또는
    (l) 제4 유형의 염기를 표현하기 위해 2개의 비트를 11로 설정하는 단계를 포함하는, 방법.
  17. 제16항에 있어서, 서열 염기 데이터가 하나 이상의 폴리뉴클레오티드이고, 폴리뉴클레오티드 각각이 하나 이상의 염기를 포함하고, 하나 이상의 염기 각각이 적어도 4개의 가능한 염기 중 하나인 방법.
  18. 제17항에 있어서, 폴리뉴클레오티드가 DNA 또는 RNA인 방법.
  19. 메모리 장치에 생물학적 데이터를 저장하기 위한 방법으로서, 메모리 장치가 블록을 포함하고, 블록 각각이 블록 크기를 포함하며,
    (m) 생물학적 데이터의 크기를 결정하는 단계;
    (n) 블록의 적어도 서브셋의 블록 크기를 결정하는 단계;
    (o) 블록 크기를 기초로 하여 생물학적 데이터를 압축하여 압축된 생물학적 데이터를 생성하는 단계; 및
    (p) 블록의 적어도 서브셋에 생물학적 데이터를 저장하는 단계를 포함하는, 방법.
  20. 제19항에 있어서, 메모리 장치가 플래시 메모리 장치를 포함하고, 블록 크기가 소거 블록 크기인 방법.
  21. 제19항에 있어서, 블록 크기가 압축된 생물학적 데이터의 크기보다 크거나 이와 같은 방법.
  22. 제20항에 있어서, 소거 블록이 생물학적 데이터 및 생물학적 데이터의 메타데이터를 저장하는 방법.
  23. 메모리 장치에 서열 염기 데이터를 저장하기 위한 방법으로서, 메모리 장치가 메모리 셀을 포함하고, 메모리 셀 각각이 적어도 3개의 비트를 저장하도록 구성되며,
    메모리 셀에서,
    (q) 제1 유형의 염기를 표현하기 위해 적어도 3개의 비트 중 3개를 000으로 설정하는 단계;
    (r) 제2 유형의 염기를 표현하기 위해 적어도 3개의 비트 중 3개를 001로 설정하는 단계;
    (s) 제3 유형의 염기를 표현하기 위해 적어도 3개의 비트 중 3개를 010으로 설정하는 단계;
    (t) 제4 유형의 염기를 표현하기 위해 적어도 3개의 비트 중 3개를 011로 설정하는 단계;
    (u) 제5 유형의 염기를 표현하기 위해 적어도 3개의 비트 중 3개를 100으로 설정하는 단계;
    (v) 제6 유형의 염기를 표현하기 위해 적어도 3개의 비트 중 3개를 101로 설정하는 단계;
    (w) 제7 유형의 염기를 표현하기 위해 적어도 3개의 비트 중 3개를 110으로 설정하는 단계; 및
    (x) 제8 유형의 염기를 표현하기 위해 적어도 3개의 비트 중 3개를 111로 설정하는 단계를 포함하는, 방법.
  24. 제23항에 있어서, 서열 염기 데이터가 하나 이상의 폴리뉴클레오티드이고, 폴리뉴클레오티드 각각이 하나 이상의 염기를 포함하고, 하나 이상의 염기 각각이 4개의 상이한 고유 염기 중 하나, 메틸화 염기, 산화 염기, 또는 무염기 위치인 방법.
  25. 제24항에 있어서, 폴리뉴클레오티드가 DNA 또는 RNA인 방법.
  26. 제23항에 있어서, 메모리 장치가 플래시 메모리, 상-변화 메모리, 또는 저항 메모리를 포함하는 방법.
  27. 메모리 장치에 서열 염기 데이터를 저장하기 위한 방법으로서, 서열 염기 데이터가 측정된 복수의 염기의 각각을 나타내는 2개의 가능성 있는 염기를 포함하고, 메모리 장치가 메모리 셀을 포함하고, 메모리 셀 각각이 복수의 비트를 저장하도록 구성되며,
    복수의 비트 중 제1 비트에 서열 염기 데이터의 가장 가능성 있는 염기를 저장하는 단계;
    복수의 비트 중 제2 비트에 서열 염기 데이터의 두번째로 가장 가능성 있는 염기를 저장하는 단계; 및
    복수의 비트 나머지에 가장 가능성 있는 염기 및 두번째로 가장 가능성 있는 염기의 상대 확률을 저장하는 단계를 포함하는, 방법.
  28. 제27항에 있어서,
    메모리 셀의 제1 셀을 이용하여 가장 가능성 있는 염기를 확인하는 단계;
    메모리 셀의 제2 셀을 이용하여 두번째로 가장 가능성 있는 염기를 확인하는 단계; 및
    메모리 셀의 하나 이상의 다른 셀을 이용하여 상대 확률을 저장하는 단계를 추가로 포함하는 방법.
  29. 제27항에 있어서, 메모리 셀의 제3 셀에 두번째로 가장 가능성 있는 염기의 확률을 저장하는 단계를 추가로 포함하는 방법.
  30. 적어도 3개의 비트를 저장하도록 각각 구성된 메모리 셀을 포함하는 메모리 장치에 서열 염기 데이터를 저장하기 위한 방법으로서,
    메모리 셀에서,
    (y) 제1 유형의 염기를 표현하기 위해 적어도 3개의 비트 중 3개의 비트를 포함하는 제1 비트 표시를 제공하는 단계;
    (z) 제2 유형의 염기를 표현하기 위해 적어도 3개의 비트 중 3개의 비트를 포함하는 제2 비트 표시를 제공하는 단계;
    (aa) 제3 유형의 염기를 표현하기 위해 적어도 3개의 비트 중 3개의 비트를 포함하는 제3 비트 표시를 제공하는 단계;
    (bb) 제4 유형의 염기를 표현하기 위해 적어도 3개의 비트 중 3개의 비트를 포함하는 제4 비트 표시를 제공하는 단계;
    (cc) 메틸화된 염기를 표현하기 위해 적어도 3개의 비트 중 3개의 비트를 포함하는 제5 비트 표시를 제공하는 단계;
    (dd) 산화된 염기를 표현하기 위해 적어도 3개의 비트 중 3개의 비트를 포함하는 제6 비트 표시를 제공하는 단계; 및
    (ee) 무염기 부위를 표현하기 위해 적어도 3개의 비트 중 3개의 비트를 포함하는 제7 비트 표시를 제공하는 단계를 포함하는, 방법.
  31. 제29항에 있어서, 메모리 장치가 플래시 메모리, 상-변화 메모리, 또는 저항 메모리를 포함하는 방법.
  32. 생물학적 서열 데이터를 암호화하기 위한 방법으로서,
    (ff) 생물학적 서열 데이터에서 정상적인 수준의 분산을 확인하는 단계; 및
    (gg) 생물학적 서열 데이터로 제2 수준의 분산을 도입시키는 단계로서, 생물학적 서열 데이터가 정상 수준의 분산과 관련하여 구별될 수 없도록 제2 수준의 분산이 정상 수준의 분산과 동등한 단계를 포함하는, 방법.
  33. 제32항에 있어서, 암호화 방법을 이용하여 도입된 수준의 분산을 전달하는 단계를 추가로 포함하는 방법.
  34. 대상체의 생물학적 서열 데이터를 암호화하기 위한 방법으로서,
    (hh) 제1 암호화 방식을 이용하여 대상체와 관련된 정보를 암호화하는 단계; 및
    (ii) 제2 암호화 방식을 이용하여 생물학적 서열 데이터를 암호화하는 단계로서, 제2 암호화 방식이 제1 암호화 방식과 상이한 단계를 포함하는, 방법.
  35. 제34항에 있어서, 제2 암호화 방식이 제1 암호화 방식보다 덜 광범위한 암호화를 포함하는 방법.
  36. 제35항에 있어서, 제2 암호화 방식이 채핑(chaffing) 및 위노잉(winnowing)을 포함하는 방법.
  37. 제35항에 있어서, 제1 암호화 방식이 공개 키 기반구조를 이용하고, 제2 암호화 방식이 공개 키 기반구조를 이용하는 방법.
  38. 제35항에 있어서, 제1 암호화 방식이 제1 공개 키 기반구조를 이용하고, 제2 암호화 방식이 제1 공개 키 기반구조와 상이한 제2 공개 키 기반구조를 이용하는 방법.
  39. 서열 염기 데이터를 저장하기 위한 방법으로서,
    컴퓨터 메모리에 2차원 표 구조를 제공하는 단계로서, 2차원 표 구조가 잠재적 염기를 나타내는 정보를 저장하도록 구성되는 단계;
    2차원 표 구조의 1차원에 서열 염기 데이터의 가장 가능성 있는 측정된 염기를 나타내는 정보를 저장하는 단계;
    2차원 표 구조의 2차원에 서열 염기 데이터의 다른 잠재적 염기를 나타내는 정보를 저장하는 단계; 및
    2차원 표 구조에서 1차원 및 2차원의 교차에 해당하는 확률을 저장하는 단계를 포함하는 방법.
  40. 제39항에 있어서, 잠재적 염기가 4개의 가능한 염기 각각 및 메틸화 염기, 산화 염기 및 무염기 부위 중 적어도 하나의 세트를 포함하는 방법.
  41. 제39항에 있어서, 컴퓨터 메모리에 제2의 2차원 표 구조를 제공하는 단계로서, 제2의 2차원 표 구조가 잠재적 염기를 나타내는 정보를 저장하도록 구성되는 단계; 및 제2의 2차원 표 구조에 서열 염기 데이터의 가장 가능성 있는 측정된 염기 및 서열 염기 데이터의 두번째로 가장 가능성 있는 측정된 염기를 저장하는 단계를 추가로 포함하는 방법.
  42. 생물학적 데이터를 관리하기 위한 방법으로서,
    (i) 센서로부터 미가공의 측정된 생물학적 데이터를 수신하고, (ii) 미가공의 측정된 생물학적 데이터로부터 가공된 생물학적 데이터를 생성하도록 프로그램되거나 구성된 애플리케이션 서버를 제공하는 단계;
    애플리케이션 서버에서 로컬 저장소로부터 가공된 생물학적 데이터와 관련된 정의 및 규칙을 수신하는 단계; 및
    애플리케이션 서버에 의해 가공된 생물학적 데이터와 관련된 정의 및 규칙을 기초로 한 지시를 발행하는 단계를 포함하는, 방법.
  43. 제42항에 있어서, 가공된 생물학적 데이터가 관련 정의 및 규칙이 로컬 저장소에서 발견되지 않는 가공된 생물학적 데이터의 일부를 포함하고, 상기 방법이 가공된 생물학적 데이터의 적어도 일부를 로컬 저장소로 전송하는 단계를 추가로 포함하는, 방법.
  44. 제43항에 있어서, 로컬 저장소로부터 중앙 서버로 가공된 생물학적 데이터의 적어도 일부를 전송하는 단계를 추가로 포함하는 방법.
  45. 제44항에 있어서, 중앙 서버로부터 로컬 저장소로 지시를 전송하는 단계를 추가로 포함하는 방법.
  46. 제45항에 있어서, 중앙 서버로부터 로컬 저장소로 새로운 정의 및 규칙을 전송하는 단계를 추가로 포함하는 방법.
  47. 서열 염기 데이터를 저장하기 위한 방법으로서, 염기 위치에 대해, 저장 장치의 제1 위치에 서열 염기 데이터의 가장 가능성 있는 염기를 나타내는 정보를 저장하는 단계, 및 저장 장치의 제2 위치에 가장 가능성 있는 염기의 발생 횟수의 확률을 저장하는 단계를 포함하는 방법.
  48. 적어도 4개의 가능한 염기를 포함하는 서열 염기 데이터를 저장하기 위한 방법으로서,
    (jj) 컴퓨터 메모리에 3차원 표 구조를 제공하는 단계로서, 3차원 표 구조가 서열 염기 데이터를 저장하도록 구성되고, (i) 3차원 표 구조의 1차원이 유전 서열 염기 데이터의 가장 가능성 있는 측정된 염기를 나타내는 정보를 저장하고; (ii) 3차원 표 구조의 2차원이 유전 서열 염기 데이터의 잠재적 염기를 나타내는 정보를 저장하고; (iii) 3차원 표 구조의 3차원이 서열 염기 데이터의 적어도 4개의 가능한 염기 각각에 대한 염기 카운트 확률을 나타내는 정보를 저장하는, 단계;
    (kk) 3차원 표 구조에 1차원, 2차원, 및 3차원의 교차에 해당하는 확률을 저장하는 단계를 포함하는, 방법.
  49. 대상체와 관련된 생물학적 데이터를 보호하기 위한 방법으로서,
    제1 암호화 방식을 이용하여 대상체의 개인 식별 정보를 암호화하는 단계;
    제2 암호화 방식을 이용하여 대상체의 표현형을 암호화하는 단계;
    제3 암호화 방식을 이용하여 생물학적 데이터를 암호화하는 단계로서, 제2 암호화 방식 또는 제3 암호화 방식이 제1 암호화 방식과 상이한, 단계; 및
    컴퓨터 메모리에 암호화된 개인 식별 정보, 암호화된 표현형, 및 암호화된 생물학적 데이터를 저장하는 단계를 포함하는, 방법.
  50. 제49항에 있어서, (i) 제2 암호화 방식이 제1 암호화 방식과 상이하고, (ii) 제3 암호화 방식이 제1 암호화 방식과 상이하고, (iii) 제3 암호화 방식이 제2 암호화 방식과 상이한 방법.
  51. 제49항에 있어서, 대상체의 유전자 발현 데이터를 저장하는 단계를 추가로 포함하는 방법.
  52. 제50항에 있어서, 대상체의 지리 데이터를 저장하는 단계를 추가로 포함하는 방법.
  53. 대상체의 유전 데이터를 저장하기 위한 방법으로서,
    제1 수준의 액세스 제한으로 제1 저장 세그먼트에 대상체의 개인 식별 정보를 저장하는 단계;
    제2 수준의 액세스 제한으로 제2 저장 세그먼트에 대상체의 표현형 데이터를 저장하는 단계; 및
    제3 수준의 액세스 제한으로 제3 저장 세그먼트에 대상체의 유전 데이터를 저장하는 단계를 포함하는, 방법.
  54. 제53항에 있어서, 제2 수준의 액세스 제한 또는 제3 수준의 액세스 제한이 제1 수준의 액세스 제한과 상이한 방법.
  55. 제54항에 있어서, (i) 제2 수준의 액세스 제한이 제1 수준의 액세스 제한과 상이하고, (ii) 제3 수준의 액세스 제한이 제1 수준의 액세스 제한과 상이하고, (iii) 제3 수준의 액세스 제한이 제2 수준의 액세스 제한과 상이한 방법.
KR1020187032359A 2016-04-11 2017-04-11 생물학적 데이터 관리를 위한 시스템 및 방법 KR20190017738A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662321103P 2016-04-11 2016-04-11
US62/321,103 2016-04-11
PCT/JP2017/014847 WO2017179581A1 (en) 2016-04-11 2017-04-11 Systems and methods for biological data management

Publications (1)

Publication Number Publication Date
KR20190017738A true KR20190017738A (ko) 2019-02-20

Family

ID=60041640

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187032359A KR20190017738A (ko) 2016-04-11 2017-04-11 생물학적 데이터 관리를 위한 시스템 및 방법

Country Status (7)

Country Link
US (1) US20190304571A1 (ko)
EP (1) EP3443531A4 (ko)
JP (1) JP2019517056A (ko)
KR (1) KR20190017738A (ko)
CN (1) CN109937426A (ko)
CA (1) CA3020669A1 (ko)
WO (1) WO2017179581A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011108540A1 (ja) 2010-03-03 2011-09-09 国立大学法人大阪大学 ヌクレオチドを識別する方法および装置、ならびにポリヌクレオチドのヌクレオチド配列を決定する方法および装置
CA2929929A1 (en) 2013-09-18 2015-03-26 Quantum Biosystems Inc. Biomolecule sequencing devices, systems and methods
JP2015077652A (ja) 2013-10-16 2015-04-23 クオンタムバイオシステムズ株式会社 ナノギャップ電極およびその製造方法
US10438811B1 (en) 2014-04-15 2019-10-08 Quantum Biosystems Inc. Methods for forming nano-gap electrodes for use in nanosensors
WO2015170782A1 (en) 2014-05-08 2015-11-12 Osaka University Devices, systems and methods for linearization of polymers
GB2554883A (en) * 2016-10-11 2018-04-18 Petagene Ltd System and method for storing and accessing data
US20190318118A1 (en) * 2018-04-16 2019-10-17 International Business Machines Corporation Secure encrypted document retrieval
CN114996763B (zh) * 2022-07-28 2022-11-15 北京锘崴信息科技有限公司 基于可信执行环境的隐私数据安全分析方法及装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6437640A (en) * 1987-08-03 1989-02-08 Mitsubishi Electric Corp Control system for cache memory
JPH04289938A (ja) * 1991-03-18 1992-10-14 Nippon Telegr & Teleph Corp <Ntt> キャッシュメモリ制御方式
JPH10283230A (ja) * 1997-03-31 1998-10-23 Nec Corp ファイルデータ格納装置およびプログラムを記録した機械読み取り可能な記録媒体
JP4259902B2 (ja) * 2003-04-01 2009-04-30 日立オムロンターミナルソリューションズ株式会社 情報読み取り装置、情報読み取り装置用プログラム
JP3825465B2 (ja) * 2004-03-31 2006-09-27 松下電器産業株式会社 メモリカード及びメモリカードシステム
WO2006052242A1 (en) * 2004-11-08 2006-05-18 Seirad, Inc. Methods and systems for compressing and comparing genomic data
US8055979B2 (en) * 2006-01-20 2011-11-08 Marvell World Trade Ltd. Flash memory with coding and signal processing
JP2008146538A (ja) * 2006-12-13 2008-06-26 Intec Web & Genome Informatics Corp マイクロrna検出装置、方法およびプログラム
CN101497924A (zh) * 2008-01-30 2009-08-05 中国农业大学 一种基于间隙谱的生物序列分析方法
WO2011054936A1 (en) * 2009-11-06 2011-05-12 The Chinese University Of Hong Kong Size-based genomic analysis
US20110238482A1 (en) * 2010-03-29 2011-09-29 Carney John S Digital Profile System of Personal Attributes, Tendencies, Recommended Actions, and Historical Events with Privacy Preserving Controls
JP2012118709A (ja) * 2010-11-30 2012-06-21 Brother Ind Ltd 配信システム、ストレージ容量決定プログラム、及びストレージ容量決定方法
CN102915594A (zh) * 2011-08-04 2013-02-06 深圳市凯智汇科技有限公司 基于人体生物信息码的银行卡安全系统及其操作方法
EP2634716A1 (en) * 2012-02-28 2013-09-04 Koninklijke Philips Electronics N.V. Tamper-proof genetic sequence processing
JP6054790B2 (ja) * 2013-03-28 2016-12-27 三菱スペース・ソフトウエア株式会社 遺伝子情報記憶装置、遺伝子情報検索装置、遺伝子情報記憶プログラム、遺伝子情報検索プログラム、遺伝子情報記憶方法、遺伝子情報検索方法及び遺伝子情報検索システム
CN103559427B (zh) * 2013-11-12 2017-10-31 高扬 一种用数字标识生物序列和推断物种亲缘关系的方法
KR20170019335A (ko) * 2014-02-26 2017-02-21 난토믹스, 엘엘씨 보안 모바일 게놈 브라우징 디바이스들 및 이에 대한 방법들
WO2015134664A1 (en) * 2014-03-04 2015-09-11 Bigdatabio, Llc Methods and systems for biological sequence alignment
CN105447844A (zh) * 2014-08-15 2016-03-30 大连达硕信息技术有限公司 一种复杂多变量数据的特征选择新方法

Also Published As

Publication number Publication date
US20190304571A1 (en) 2019-10-03
CN109937426A (zh) 2019-06-25
JP2019517056A (ja) 2019-06-20
EP3443531A1 (en) 2019-02-20
WO2017179581A1 (en) 2017-10-19
EP3443531A4 (en) 2020-07-22
CA3020669A1 (en) 2017-10-19

Similar Documents

Publication Publication Date Title
KR20190017738A (ko) 생물학적 데이터 관리를 위한 시스템 및 방법
Quince et al. STRONG: metagenomics strain resolution on assembly graphs
KR102562419B1 (ko) 심층 신경망에 기반한 변이체 분류자
Garber et al. Computational methods for transcriptome annotation and quantification using RNA-seq
Richardson et al. Statistical methods in integrative genomics
CN106068330B (zh) 将已知等位基因用于读数映射中的系统和方法
ES2899879T3 (es) Identificación y medición de poblaciones relativas de microorganismos con secuenciación directa de ADN
US20210089581A1 (en) Systems and methods for genetic analysis
JP2018533143A (ja) ゲノム分析のためのシステムおよび方法
Wang et al. Vertebrate gene predictions and the problem of large genes
Alser et al. From molecules to genomic variations: Accelerating genome analysis via intelligent algorithms and architectures
Gürsoy et al. Data sanitization to reduce private information leakage from functional genomics
Leggett et al. Reference-free SNP detection: dealing with the data deluge
US10896743B2 (en) Secure communication of nucleic acid sequence information through a network
US20200395095A1 (en) Method and system for generating and comparing genotypes
O'brien et al. Using genome-wide expression profiling to define gene networks relevant to the study of complex traits: from RNA integrity to network topology
Marini et al. AMR-meta: ak-mer and metafeature approach to classify antimicrobial resistance from high-throughput short-read metagenomics data
Bruno et al. e-DNA meta-barcoding: from NGS raw data to taxonomic profiling
Vaz et al. TypOn: the microbial typing ontology
Bennett et al. SeqWho: reliable, rapid determination of sequence file identity using k-mer frequencies in Random Forest classifiers
Emani et al. PLIGHT: a tool to assess privacy risk by inferring identifying characteristics from sparse, noisy genotypes
CA3101527A1 (en) Methods for fingerprinting of biological samples
US20220293221A1 (en) Data structure for genomic information
Gürsoy et al. Sensitive information leakage from functional genomics data: Theoretical quantifications & practical file formats for privacy preservation
Poo et al. UASIS: universal automatic SNP identification system