KR20200132921A - 핵산-기반 데이터를 저장하기 위한 화학적 방법들 - Google Patents

핵산-기반 데이터를 저장하기 위한 화학적 방법들 Download PDF

Info

Publication number
KR20200132921A
KR20200132921A KR1020207029262A KR20207029262A KR20200132921A KR 20200132921 A KR20200132921 A KR 20200132921A KR 1020207029262 A KR1020207029262 A KR 1020207029262A KR 20207029262 A KR20207029262 A KR 20207029262A KR 20200132921 A KR20200132921 A KR 20200132921A
Authority
KR
South Korea
Prior art keywords
nucleic acid
identifiers
identifier
components
individual
Prior art date
Application number
KR1020207029262A
Other languages
English (en)
Inventor
데빈 리크
밀레나 라조바
사라 플리킨저
나타니엘 로퀫
나타니엘 로??
현준 박
스와프닐 피. 바티아
Original Assignee
카탈로그 테크놀로지스, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 카탈로그 테크놀로지스, 인크. filed Critical 카탈로그 테크놀로지스, 인크.
Publication of KR20200132921A publication Critical patent/KR20200132921A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C13/00Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00
    • G11C13/0002Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00 using resistive RAM [RRAM] elements
    • G11C13/0009RRAM elements whose operation depends upon chemical change
    • G11C13/0014RRAM elements whose operation depends upon chemical change comprising cells based on organic memory material
    • G11C13/0019RRAM elements whose operation depends upon chemical change comprising cells based on organic memory material comprising bio-molecules
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/123DNA computing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C13/00Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00
    • G11C13/02Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00 using elements whose operation depends upon chemical change
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01JCHEMICAL OR PHYSICAL PROCESSES, e.g. CATALYSIS OR COLLOID CHEMISTRY; THEIR RELEVANT APPARATUS
    • B01J2219/00Chemical, physical or physico-chemical processes in general; Their relevant apparatus
    • B01J2219/00274Sequential or parallel reactions; Apparatus and devices for combinatorial chemistry or for making arrays; Chemical library technology
    • B01J2219/00718Type of compounds synthesised
    • B01J2219/0072Organic compounds
    • B01J2219/00722Nucleotides

Abstract

본 발명은 해당 비트-스트림에서 각 비트 위치를 고유 핵산 서열로 특정하는 단계 및 해당 고유 핵산 서열의 존재 또는 부재하에서 해당 풀 내 그 위치에서 비트 값을 특정하는 단계를 포함하는, 풀 내부에서 고유 핵산 서열들의 존재 또는 부재하에서 비트-값 정보를 인코드함으로써 핵산 (예컨대, 데옥시리보핵산) 분자들에서 디지털 정보를 인코드하는 방법 및 시스템을 개시한다. 또한 조합 게놈 전략 (예를 들어, 다수의 핵산 서열들의 어셈블리 또는 핵산 서열의 효소 기반 편집)을 사용하여 고유한 핵산 서열을 생성하는 화학적 방법이 개시된다.

Description

핵산-기반 데이터를 저장하기 화학적 방법들
상호 참조
본 출원은 2018년 3월 16일 출원된 미국 가특허 출원 제 62/644,323호를 우선권으로 주장하며, 이는 그 전문이 본원에 참조로 포함된다.
배경
핵산 디지털 데이터 저장은 정보를 인코드하여 장기간 저장하는 안정적인 접근방식으로, 자기 테이프 또는 하드 드라이브 저장 시스템 보다 고 밀도로 데이터를 저장한다. 또한 춥고 건조한 상태에서 보관된 핵산 분자에 저장된 디지털 데이터는 60,000년 또는 그 이상만큼 오래 검색 가능하다.
핵산 분자에 저장된 디지털 데이터에 액세스하기 위해 핵산 분자가 시퀀싱 될 수 있다. 따라서 핵산 디지털 데이터 저장은 자주 액세스하지 않지만 장기간 저장하거나 보관해야 할 많은 정보를 보유 할 수 있는 데이터를 저장하는데 이상적인 방법 일 수 있다.
현재의 방법은 디지털 정보 (예를 들어, 이진 코드)를 염기단위 핵산 서열들로 인코드하는 것에 의존하므로, 염기 대 염기의 관계는 디지털 정보 (예를 들어, 이진 코드)로 직접 변환된다. 디지털 방식으로 인코드된 정보의 바이트 스트림 또는 바이트로 판독될 수 있는 염기 별 염기 서열들에 저장된 디지털 데이터의 시퀀싱은 데노보 염기 별 핵산 합성 비용이 비싸게 발생할 수 있으므로 오류가 발생하기 쉽고 인코딩 비용이 많이 들 수 있다. 핵산 디지털 데이터 저장을 수행하는 새로운 방법에 대한 기회는 데이터 인코드 및 검색에 있어, 상업적으로 실시하기에 비용이 더 적게 들고 보다 용이한 접근 방식들을 제공할 수 있다.
요약
염기단위 합성 없이, 풀 내부에서 고유 핵산 서열들의 존재 또는 부재하에서 비트-값 정보를 인코드함으로써 핵산 (예컨대, 데옥시리보핵산, DNA) 분자들에서 디지털 정보를 인코드하는 방법 및 시스템은 해당 비트-스트림에서 각 비트 위치를 고유 핵산 서열로 특정하는 단계 및 해당 고유 핵산 서열의 존재 또는 부재하에서 해당 풀 내 그 위치에서 비트 값을 특정하는 단계를 포함한다. 그러나, 보다 일반적으로, 비트 스트림에서 고유 비트들을 특정하는 단계는 핵산 서열들의 고유 서브세트에 의한다. 또한 염기단위 합성없이 조합 게놈 전략 (예를 들어, 다수의 핵산 서열들의 어셈블리 또는 핵산 서열의 효소 기반 편집)을 사용하여 고유한 핵산 서열을 생성하는 방법이 개시된다.
한 양상에서, 본 발명은 다음 단계를 포함하는, 정보의 핵산 서열로의 기재 방법을 제공한다: (a) 정보를 표현하기 위한 기호들의 문자열을 생성하는 단계; (b) 복수의 구성요소들을 구성하는 단계, 이 때 상기 복수의 구성요소들의 각 개별 구성요소는 핵산 서열을 포함하고; (c) 상기 복수의 구성요소들의 개별 구성요소의 적어도 하나의 점착성 말단을 생성하는 단계; (d) 상기 복수의 구성요소들의 둘 이상의 구성요소들을 상기 둘 이상의 구성요소들의 개별 구성요소의 적어도 하나의 점착성 말단을 통해 함께 화학적으로 결합함으로써, 복수의 식별자를 생성하는 단계, 이 때 상기 복수의 식별자들의 각 식별자는 둘 이상의 구성요소들을 포함하고, 이 때 상기 복수의 식별자들의 개별 식별자는 기호들의 문자열의 개별 기호에 해당하며; 그리고 (e) 적어도 상기 복수의 식별자들의 서브세트를 포함하는 식별자 라이브러리를 선택적으로 포획 또는 증폭하는 단계.
일부 구체예들에서, 상기 기호들의 문자열의 각 기호는 하나 이상의 가능한 기호 값들 중 하나이다. 일부 구체예들에서, 상기 기호들의 문자열의 각 기호는 두 개의 가능한 기호 값들 중 하나이다. 일부 구체예들에서, 기호들의 문자열의 각 위치에서의 하나의 기호 값은 식별자 라이브러리 내 별개 식별자가 없음을 나타낼 수 있다. 일부 구체예들에서, 상기 2개의 가능한 기호 값들은 0 및 1의 비트값이고, 이 때 기호들의 문자열에서 비트값이 0인 개별 기호는 식별자 라이브러리 내 별개 식별자가 없음을 나타낼 수 있으며, 기호들의 문자열에서 비트값이 1인 개별 기호는 식별자 라이브러리 내 별개 식별자가 있음을 나타낼 수 있고, 또는 그 역일 수 있다. 일부 구체예들에서, (d)는 둘 이상의 레이어들의 둘 이상의 구성요소들을 화학적으로 결합하는 것을 포함하며, 이 때 둘 이상의 레이어들의 각 레이어는 별개 세트의 구성요소들을 포함한다. 일부 구체예들에서, 상기 식별자 라이브러리로부터의 개별 식별자는 둘 이상의 레이어들의 각 레이어로부터의 하나의 구성요소를 포함한다. 일부 구체예들에서, 둘 이상의 구성요소들은 고정된 순서로 어셈블리된다. 일부 구체예들에서, 둘 이상의 구성요소들은 임의의 순서로 어셈블리된다. 일부 구체예들에서, 둘 이상의 구성요소들은 둘 이상의 레이어들의 상이한 레이어들로부터의 2개 구성요소들 사이에 배치된 하나 이상의 파티션 구성요소들과 어셈블리된다. 일부 구체예들에서, 상기 개별 식별자는 둘 이상의 레이어들의 서브세트의 각 레이어로부터의 하나의 구성요소를 포함한다. 일부 구체예들에서, 상기 개별 식별자는 둘 이상의 레이어들 각각의 적어도 하나의 구성요소를 포함한다. 일부 구체예들에서, (c)는 엔도뉴클레아제를 사용하여 상기 복수의 구성요소들의 개별 구성요소의 적어도 하나의 점착성 말단을 생성하는 것을 포함한다. 일부 구체예들에서, 적어도 하나의 점착성 말단은 개별 구성요소의 5' 말단에 존재한다. 일부 구체예들에서, 적어도 하나의 점착성 말단은 개별 구성요소의 3' 말단에 존재한다. 일부 구체예들에서, (c)는 상기 개별 구성요소의 2개 점착성 말단들을 생성하는 것을 포함한다. 일부 구체예들에서, 적어도 하나의 점착성 말단은 적어도 1개 뉴클레오티드 길이이다. 일부 구체예들에서, 적어도 하나의 점착성 말단은 6개 뉴클레오티드 길이이다. 일부 구체예들에서, 적어도 하나의 점착성 말단은 표 4 또는 표 5에 열거된 서열들로 구성된 군으로부터 선택되는 핵산 서열을 포함한다. 일부 구체예들에서, 상기 복수의 핵산 서열들은 상기 정보의 메타데이터를 저장하거나 이러한 정보를 은폐한다. 일부 구체예들에서, 둘 이상의 식별자 라이브러리가 조합되며 이 때 둘 이상의 식별자 라이브러리의 각 식별자 라이브러리는 별개 바코드로 태그된다. 일부 구체예들에서, 상기 식별자 라이브러리의 각 개별 식별자는 별개 바코드를 포함하거나 상기 식별자 라이브러리의 서브세트 식별자들은 별개 바코드를 포함한다. 일부 구체예들에서, 상기 복수의 식별자들, 또는 상기 식별자들을 포함하는 상기 복수의 구성요소들은 판독, 기록, 액세스, 복사 및 삭제 작업의 용이성을 위해 선택된다. 일부 구체예들에서, 화학적 결합 단계는 리가아제를 포함하는 시약을 사용하여 상기 복수의 구성요소들 중 둘 이상의 구성요소들을 함께 연결시키는 것을 포함한다. 일부 구체예들에서, 리가아제는 T4 리가아제, T7 리가아제, T3 리가아제, 또는 대장균 리가아제이다. 일부 구체예들에서, 상기 시약은 첨가제를 추가로 포함한다. 일부 구체예들에서, 상기 첨가제는 리가아제의 효율을 증가시킨다. 일부 구체예들에서, 상기 첨가제는 폴리에틸렌 글리콜 (PEG)을 포함한다. 일부 구체예들에서, PEG는 PEG400, PEG6000, PEG8000 또는 이의 임의의 조합이다. 일부 구체예들에서, PEG 분자의 최종 농도는 적어도 약 1% 부피당 중량(w/v)이다. 일부 구체예들에서, 연결의 반응 시간은 적어도 1분이다. 일부 구체예들에서, 연결은 섭씨 30도 또는 그 이상에서 일어난다. 일부 구체예들에서, 상기 연결의 반응 효율은 적어도 약 20%이다. 일부 구체예들에서, 상기 방법은 EDTA 또는 구아니딘 티오시아네이트를 함유하는 완충액을 사용하여 리가아제를 비활성화하는 것을 추가로 포함한다. 일부 구체예들에서, 리가아제의 최종 농도는 적어도 약 5 CEU/μL이다. 일부 구체예들에서, 상기 시약은 글리세롤 분자를 추가로 포함한다. 일부 구체예들에서, (d)에서의 화학적 결합은 중첩-연장 중합효소 연쇄 반응 (PCR)을 사용하는 것을 포함한다. 일부 구체예들에서, 개별 구성요소는 데옥시리보핵산 (DNA) 또는 리보핵산이다. 일부 구체예들에서, 개별 구성요소는 재수화되어있다. 일부 구체예들에서, 개별 구성요소는 탈수된 구성요소로부터 재수화된다. 일부 구체예들에서, 상기 방법은 적어도 상기 복수의 식별자들의 서브세트의 각 개별 식별자를 탈수화시킴으로써 상기 식별자 라이브러리를 탈수시키는 단계를 추가로 포함한다. 일부 구체예들에서, 적어도 상기 복수의 식별자들의 서브세트의 각 개별 식별자는 탈수된다. 일부 구체예들에서, 상기 방법은 적어도 상기 복수의 식별자들의 서브세트의 각 개별 식별자를 탈수시키는 단계를 추가로 포함한다. 일부 구체예들에서, 상기 방법은 식별자 분해를 방지하기 위해 식별자 라이브러리에 보존 첨가제를 첨가하는 단계를 추가로 포함한다. 일부 구체예들에서, 상기 복수의 식별자들은 PCR로 복제된다. 일부 구체예들에서, PCR은 적어도 10회 주기를 가진다. 일부 구체예들에서, 상기 복수의 식별자들은 마이크로리터 당 10 나노그램의 농도까지 PCR로 증폭된다. 일부 구체예들에서, PCR은 유액 PCR이다. 일부 구체예들에서, 상기 복수의 식별자들은 선형 증폭으로 복제된다. 일부 구체예들에서, PCR 후, 선형 증폭을 사용하여 보다 많은 상기 복수의 식별자들의 사본을 생성한다. 일부 구체예들에서, 상기 복수의 식별자들의 서브세트는 하나 이상의 PCR 반응들로 액세스된다. 일부 구체예들에서, 상기 복수의 식별자들의 서브세트는 하나 이상의 친화성 태그된 프로브들로 액세스된다. 일부 구체예들에서, 상기 복수의 식별자들의 서브세트의 식별자들은 공통으로 한 세트의 구성요소들을 가진다. 일부 구체예들에서, 식별자들은 겔 전기 영동에 의해 정제된다. 일부 구체예들에서, 식별자들은 친화성 태그된 프로브에 의해 정제된다. 일부 구체예들에서, 식별자들은 PCR을 사용하여 증폭된다. 일부 구체예들에서, 식별자들은 티민-티민 다이뉴클레오티드 또는 시토신-시토신 다이뉴클레오티드를 피하도록 설계된다.
또 다른 양상에서, 본 발명은 다음 단계를 포함하는, 정보의 핵산 서열로의 기재 방법을 제공한다: 정보를 표현하기 위한 기호들의 문자열을 생성하는 단계; 복수의 구성요소들을 구성하는 단계, 이 때 상기 복수의 구성요소들의 각 개별 구성요소는 핵산 서열을 포함하고; 상기 복수의 구성요소들의 개별 구성요소의 적어도 하나의 점착성 말단을 생성하는 단계, 이 때 상기 적어도 하나의 점착성 말단은 적어도 6개 뉴클레오티드 길이이고; 상기 복수의 구성요소들의 둘 이상의 구성요소들을 상기 둘 이상의 구성요소들의 개별 구성요소의 적어도 하나의 점착성 말단을 통해 함께 화학적으로 결합함으로써, 복수의 식별자를 생성하는 단계, 이 때 상기 복수의 식별자들의 각 식별자는 둘 이상의 구성요소들을 포함하고, 이 때 상기 복수의 식별자들의 개별 식별자는 기호들의 문자열의 개별 기호에 해당하며; 그리고 적어도 상기 복수의 식별자들의 서브세트를 포함하는 식별자 라이브러리를 선택적으로 포획 또는 증폭하는 단계.
일부 구체예들에서, 적어도 하나의 점착성 말단은 개별 구성요소의 3' 말단에 존재한다. 일부 구체예들에서, 상기 결합 단계는 상기 복수의 구성요소들 중 적어도 15개 이상의 구성요소들을 연결시키는 것을 포함한다. 일부 구체예들에서, 적어도 하나의 점착성 말단은 표 4 또는 표 5에 열거된 서열들로 구성된 군으로부터 선택되는 핵산 서열을 포함한다.
또 다른 양상에서, 다음 단계를 포함하는, 정보의 핵산 서열로의 기재 방법이을 제공한다: (a) 정보를 표현하기 위한 기호들의 문자열을 생성하는 단계; (b) 복수의 점착성-말단 구성요소들을 구성하는 단계, 이 때 상기 복수의 구성요소들의 각 개별 구성요소는 핵산 서열 및 적어도 하나의 점착성 말단을 포함하고; (c) 상기 복수의 구성요소들의 둘 이상의 구성요소들을 상기 둘 이상의 구성요소들의 개별 구성요소의 적어도 하나의 점착성 말단을 통해 함께 화학적으로 결합함으로써, 복수의 식별자를 생성하는 단계, 이 때 상기 복수의 식별자들의 각 식별자는 둘 이상의 구성요소들을 포함하고, 이 때 상기 복수의 식별자들의 개별 식별자는 기호들의 문자열의 개별 기호에 해당하며; 그리고 (d) 적어도 상기 복수의 식별자들의 서브세트를 포함하는 식별자 라이브러리를 선택적으로 포획 또는 증폭하는 단계. 일부 구체예들에서, (b)는 각 개별 구성요소가 적어도 하나의 점착성 말단을 가지도록 각 개별 구성요소를 구성하기 위해 2개의 올리고뉴클레오티드들을 어닐링하는 것을 포함한다.
한 양상에서, 본 발명은 다음 단계를 포함하는, 정보를 핵산 서열(들)에 기록하는 방법을 제공한다: (a) 상기 정보를 기호들의 문자열로 번역하는 단계; (b) 상기 기호들의 문자열을 복수의 식별자들에 맵핑하는 단계, 이 때 상기 복수의 식별자들의 개별 식별자는 핵산 서열을 포함하고, 상기 복수의 식별자들의 개별 식별자는 기호들의 문자열의 개별 기호에 해당하며; 그리고 (c) 적어도 상기 복수의 식별자들의 서브세트를 포함하는 식별자 라이브러리를 구성하는 단계.
일부 구체예들에서, 상기 기호들의 문자열의 각 기호는 두 개의 가능한 기호 값들 중 하나이다. 일부 구체예들에서, 기호들의 문자열의 각 위치에서의 하나의 기호 값은 식별자 라이브러리 내 별개 식별자가 없음을 나타낼 수 있다. 일부 구체예들에서, 상기 2개의 가능한 기호 값들은 0 및 1의 비트값이고, 이 때 기호들의 문자열에서 비트값이 0인 개별 기호는 식별자 라이브러리 내 별개 식별자가 없음을 나타낼 수 있으며, 기호들의 문자열에서 비트값이 1인 개별 기호는 식별자 라이브러리 내 별개 식별자가 있음을 나타낼 수 있고, 그리고 그 역일 수 있다. 일부 구체예들에서, 상기 기호들의 문자열의 각 기호는 하나 이상의 가능한 기호 값들 중 하나이다. 일부 구체예들에서, 식별자 라이브러리에서 개별 식별자의 존재는 이진 문자열의 제 1 기호값에 대응하고 개별 식별자의 부재는 이진 문자열의 제 2 기호값에 대응한다. 일부 구체예들에서, 제 1 기호값은 비트값이 1이고 제 2 기호값은 비트값이 0이다. 일부 구체예들에서, 제 1 기호값은 비트값이 0이고 제 2 기호값은 비트값이 1이다.
일부 구체예들에서, 식별자 라이브러리에서 개별 식별자를 구성하는 단계는 하나 이상의 레이어들로부터의 하나 이상의 구성요소를 어셈블리하는 것을 포함하고 이 때 상기 하나 이상의 레이어들의 각 레이어는 별개 세트의 구성요소들을 포함한다. 일부 구체예들에서, 상기 식별자 라이브러리로부터의 개별 식별자는 하나 이상의 레이어들의 각 레이어로부터의 하나의 구성요소를 포함한다. 일부 구체예들에서, 하나 이상의 구성요소들은 고정된 순서로 어셈블리된다. 일부 구체예들에서, 하나 이상의 구성요소들은 무작위 순서로 어셈블리된다. 일부 구체예들에서, 하나 이상의 구성요소들은 하나 이상의 레이어들의 상이한 레이어들로부터의 2개 구성요소들 사이에 배치된 하나 이상의 파티션 구성요소들과 어셈블리된다. 일부 구체예들에서, 상기 개별 식별자는 하나 이상의 레이어들의 서브세트의 각 레이어로부터의 하나의 구성요소를 포함한다. 일부 구체예들에서, 상기 개별 식별자는 하나 이상의 레이어들 각각의 적어도 하나의 구성요소를 포함한다. 일부 구체예들에서, 하나 이상의 구성요소들은 중첩-연장 중합효소 연쇄 반응 (PCR), 중합효소 순환 어셈블리, 점착성 말단 연결, 바이오브릭스 어셈블리, 골든 게이트 어셈블리, 깁슨 어셈블리, 재조합효소 어셈블리, 리가아제 순환 반응, 또는 템플릿 지시된 연결을 사용하여 어셈블리된다.
일부 구체예들에서, 식별자 라이브러리에서 개별 식별자를 구성하는 단계는 핵산 편집 효소를 모체 식별자에 적용함으로써 모체 식별자에 적어도 하나의 구성요소를 삭제, 대체 또는 삽입하는 것을 포함한다. 일부 구체예들에서, 모체 식별자는 뉴클레아제 특이적 표적 부위, 재조합효소 인식 부위, 또는 별개 스페이서 서열에 연접한 복수의 구성요소들을 포함한다. 일부 구체예들에서, 핵산 편집 효소들은 CRISPR-Cas, TALENs, 징크 핑거 뉴클레아제, 재조합효소, 및 이의 기능적 변이체들로 구성된 그룹에서 선택된다.
일부 구체예들에서, 식별자 라이브러리는 복수의 핵산 서열들을 포함한다. 일부 구체예들에서, 상기 복수의 핵산 서열들은 상기 정보의 메타데이터를 저장하거나 및/또는 이러한 정보를 은폐한다. 일부 구체예에서, 메타데이터는 정보의 소스, 의도한 정보 수신자, 정보의 원본 형식, 정보를 인코드하는 데 사용되는 도구 및 방법, 정보를 식별자 라이브러리에 기록한 날짜 및 시간, 정보에 대한 수정 및/또는 기타 정보에 대한 참고에 해당하는 2차 정보를 포함한다.
일부 구체예들에서, 하나 이상의 식별자 라이브러리가 조합되며 이 때 하나 이상의 식별자 라이브러리의 각 식별자 라이브러리는 별개 바코드로 태그된다. 일부 구체예들에서, 식별자 라이브러리의 각 개별 식별자는 별개 바코드를 포함한다. 일부 구체예들에서, 상기 복수의 식별자들은 판독, 기록, 액세스, 복사 및 삭제 작업의 용이성을 위해 선택된다. 일부 구체예들에서, 상기 복수의 식별자들은 기록 오류, 돌연변이, 분해, 및 판독 오류를 최분해하기 위해 선택된다.
또 다른 양상에서, 본 발명은 다음을 포함하는, 핵산 서열(들)에서 인코드된 정보를 복제하는 방법을 제공한다: (a) 기호들의 문자열을 인코드하는 식별자 라이브러리를 제공하는 단계, 이 때 식별자 라이브러리는 복수의 식별자들을 포함하고, 이 때 상기 복수의 식별자들의 개별 식별자는 하나 이상의 구성요소들을 포함하고, 이 때 하나 이상의 구성요소들의 개별 구성요소는 핵산 서열을 포함하고, 그리고 상기 복수의 식별자들의 개별 식별자는 기호들의 문자열의 개별 기호에 해당하고; 및 (b) 식별자 라이브러리의 하나 이상의 사본들을 구성하는 단계.
일부 구체예들에서, 상기 복수의 식별자들은 하나 이상의 프라이머 결합 부위들을 포함한다. 일부 구체예들에서, 식별자 라이브러리는 중합효소 연쇄 반응 (PCR)과 같은 핵산 증폭을 사용하여 복사된다 (화학적 방법 섹션 D 참조). 일부 구체예들에서, PCR은 통상적인 PCR 또는 선형 PCR이고, 여기서 식별자 라이브러리의 사본의 수는 각각의 PCR주기에 따라 각각 2배 또는 선형적으로 증가한다. 일부 구체예들에서, 식별자 라이브러리의 개별 식별자는 PCR 이전에 원형 벡터에 연결되며 이 때 원형 벡터는 개별 식별자의 각 말단에 상관된 바코드를 포함하여 PCR 중에 의도하지 않은 DNA 교차 이벤트가 발생하는 경우, 잘못 형성된 분자가 시퀀싱에서 감지된다. 일부 구체예들에서, PCR은 등온이다. 일부 구체예들에서, PCR은 롤링 서클 증폭법의 한 형태이다. 일부 구체예들에서, PCR은 유액 PCR (ePCR)이다.
일부 구체예들에서, 식별자 라이브러리는 복수의 핵산 서열들을 포함한다. 일부 구체예들에서, 상기 복수의 핵산 서열들은 복제된다. 일부 구체예들에서, 하나 이상의 식별자 라이브러리가 복제에 앞서 조합되며 이 때 하나 이상의 식별자 라이브러리의 각 라이브러리는 별개 바코드를 포함한다.
또 다른 양상에서, 본 발명은 다음을 포함하는, 핵산 서열(들)에서 인코드된 정보를 액세스하는 방법을 제공한다: (a) 기호들의 문자열을 인코드하는 식별자 라이브러리를 제공하는 단계, 이 때 식별자 라이브러리는 복수의 식별자들을 포함하고, 이 때 상기 복수의 식별자들의 개별 식별자는 하나 이상의 구성요소들을 포함하고, 이 때 하나 이상의 구성요소들의 개별 구성요소는 핵산 서열을 포함하고, 그리고 상기 복수의 식별자들의 개별 식별자는 기호들의 문자열의 개별 기호에 해당하고; 및 (b) 식별자 라이브러리로부터의 복수의 식별자들의 표적된 서브세트를 추출하는 단계.
일부 구체예들에서, 복수의 프로브는 식별자 라이브러리와 조합된다. 일부 구체예들에서, 상기 복수의 프로브는 식별자 라이브러리로부터의 복수의 식별자들의 표적된 서브세트와 상보성을 공유한다. 일부 구체예들에서, 상기 복수의 프로브는 식별자 라이브러리로부터의 복수의 식별자들의 표적된 서브세트와 혼성화된다. 일부 구체예들에서, 복수의 프로브는 하나 이상의 친화성 태그를 포함하고, 이 때 하나 이상의 친화성 태그는 핵산 포획으로 지칭될 수 있는 프로세스에서 친화성 비드 또는 친화성 컬럼에 의해 포획된다 (핵산 포획에 대한 화학적 방법 섹션 F 참조).
일부 구체예들에서, 식별자 라이브러리는 복수의 프로브의 하나 이상의 서브세트와 순차적으로 조합되고, 이 때 식별자 라이브러리의 일부는 복수의 프로브의 하나 이상의 서브세트에 결합한다. 일부 구체예들에서, 상기 복수의 프로브의 하나 이상의 서브세트에 결합한 식별자 라이브러리의 일부는 식별자 라이브러리의 복수의 프로프의 또 다른 서브세트가 추가되기 전에 제거된다. 이러한 핵산 포획 구체예들에서, 포획된 핵산들은 보존되는 대신 식별자 풀에서 제거될 수 있다.
일부 구체예들에서, 상기 복수의 식별자들의 개별 식별자는 하나 이상의 공통 프라이머 결합 영역, 하나 이상의 가변 프라이머 결합 영역, 또는 이들의 임의의 조합을 포함한다. 일부 구체예들에서, 식별자 라이브러리는 하나 이상의 공통 프라이머 결합 영역 또는 하나 이상의 가변 프라이머 결합 영역에 결합하는 프라이머와 조합된다. 일부 구체예들에서, 하나 이상의 가변 프라이머 결합 영역에 결합하는 프라이머는 식별자 라이브러리의 표적된 서브세트를 선택적으로 증폭하는데 사용된다 (화학적 방법 섹션 D 참조).
일부 구체예들에서, 식별자들의 일부는 선택적 뉴클레아제 절단에 의해 식별자 라이브러리로부터 제거된다. 일부 구체예들에서, 식별자 라이브러리는 Cas9 및 가이드 프로브와 조합되고, 여기서 가이드 프로브는 식별자 라이브러리로부터 특정 식별자를 제거하도록 Cas9를 유도한다. 일부 구체예들에서, 개별 식별자들은 단일 가닥이고 식별자 라이브러리는 단일 가닥 특이적 엔도뉴클레아제(들)와 조합된다. 일부 구체예들에서, 식별자 라이브러리는 단일 가닥 특이적 엔도뉴클레아제 (들)의 첨가 이전에 분해로부터 표적 개별 식별자를 보호하는 개별 식별자들의 상보적 세트와 혼합된다. 일부 구체예들에서, 선택적 뉴클레아제 절단에 의해 절단되지 않은 개별 식별자들은 크기-선택적 크로마토그래피에 의해 분리된다 (핵산 크기 선별에 대한 화학적 방법 섹션 E 참조). 일부 구체예들에서, 선택적 뉴클레아제 절단에 의해 절단되지 않은 개별 식별자들은 증폭되고, 여기서 선택적 뉴클레아제 절단에 의해 절단되는 개별 식별자들은 증폭되지 않는다 (핵산 증폭에 대한 화학적 방법 섹션 D 참조). 일부 구체예들에서, 선택적 뉴클레아제 절단에 의해 절단되지 않은 개별 식별자들은 포획되고, 여기서 선택적 뉴클레아제 절단에 의해 절단되는 개별 식별자들은 포획되지 않는다 (핵산 포획에 대한 화학적 방법 섹션 F 참조). 일부 구체예들에서, 식별자 라이브러리는 복수의 핵산 서열을 포함하고, 여기서 복수의 핵산 서열은 식별자 라이브러리에 있는 복수의 식별자의 표적화된 서브세트로 추출된다.
또 다른 양상에서, 본 발명은 다음을 포함하는, 핵산 서열(들)에서 인코드된 정보를 판독하는 방법을 제공한다: (a) 복수의 식별자들을 포함하는 식별자 라이브러리를 제공하는 단계, 이 때 상기 복수의 식별자들의 개별 식별자는 하나 이상의 구성요소들을 포함하고, 하나 이상의 구성요소들의 개별 구성요소는 핵산 서열을 포함하고; (b) 식별자 라이브러리에 있는 복수의 식별자들을 식별하는 단계; (c) (b)에서 식별된 복수의 식별자들로부터 복수의 기호들을 생성하는 단계, 이 때 복수의 기호들의 개별 기호는 복수의 식별자들의 개별 식별자에 해당하고; 및 (d) 상기 복수의 기호들로부터 정보를 컴파일하는 단계.
일부 구체예들에서, 상기 기호들의 문자열의 각 기호는 두 개의 가능한 기호 값들 중 하나이다. 일부 구체예들에서, 기호들의 문자열의 각 위치에서의 하나의 기호 값은 식별자 라이브러리 내 별개 식별자가 없음을 나타낼 수 있다. 일부 구체예들에서, 상기 2개의 가능한 기호 값들은 0 및 1의 비트값이고, 이 때 기호들의 문자열에서 비트값이 0인 개별 기호는 식별자 라이브러리 내 별개 식별자가 없음을 나타낼 수 있으며, 기호들의 문자열에서 비트값이 1인 개별 기호는 식별자 라이브러리 내 별개 식별자가 있음을 나타낼 수 있고, 그리고 그 역일 수 있다. 일부 구체예들에서, 식별자 라이브러리에서 개별 식별자의 존재는 이진 문자열의 제 1 기호값에 대응하고 식별자 라이브러리에서 개별 식별자의 부재는 이진 문자열의 제 2 기호값에 대응한다. 일부 구체예들에서, 제 1 기호값은 비트값이 1이고 제 2 기호값은 비트값이 0이다. 일부 구체예들에서, 제 1 기호값은 비트값이 0이고 제 2 기호값은 비트값이 1이다.
일부 구체예들에서, 상기 복수의 식별자들을 식별하는 단계는 식별자 라이브러리에서 복수의 식별자들을 시퀀싱하는 단계를 포함한다. 일부 구체예들에서, 시퀀싱은 디지털 중합효소 연쇄 반응 (PCR), 정량적 PCR, 마이크로어레이, 합성에 의한 시퀀싱, 또는 대규모 병렬 시퀀싱을 포함한다. 일부 구체예들에서, 식별자 라이브러리는 복수의 핵산 서열들을 포함한다. 일부 구체예들에서, 상기 복수의 핵산 서열들은 상기 정보의 메타데이터를 저장하거나 및/또는 이러한 정보를 은폐한다. 일부 구체예들에서, 하나 이상의 식별자 라이브러리가 조합되며 이 때 하나 이상의 식별자 라이브러리의 각 식별자 라이브러리는 별개 바코드를 포함한다. 일부 구체예들에서, 바코드는 정보의 메타데이터를 저장한다.
또 다른 양상에서, 본 발명은 다음을 포함하는, 핵산-기반 컴퓨터 데이터 저장 방법을 제공한다; (a) 컴퓨터 데이터를 수신하는 단계, (b) 컴퓨터 데이터를 인코드하는 핵산 서열들을 포함하는 핵산 분자들을 합성하는 단계, 이 때 컴퓨터 데이터는 각 핵산 분자들의 서열이 아닌 합성된 핵산 분자들의 적어도 서브세트에 인코드되고, 및 (c) 핵산 서열들을 갖는 핵산 분자를 저장하는 단계.
일부 구체예들에서, 적어도 상기 핵산 분자들의 서브세트는 함께 그룹화된다. 일부 구체예들에서, 상기 방법은 핵산 분자(들)를 시퀀싱하여 핵산 서열(들)을 결정하는 단계를 추가로 포함하고, 이에 의해 컴퓨터 데이터를 검색한다. 일부 구체예들에서, (b)는 약 1 일 미만인 시기에 수행된다. 일부 구체예들에서, (b)는 적어도 약 90%의 정확도로 수행된다.
또 다른 양상에서, 본 발명은 다음 포함하는, 핵산 기반 컴퓨터 데이터 저장 방법을 제공한다: (a) 컴퓨터 데이터를 수신하는 단계, (b) 컴퓨터 데이터를 인코드하는 적어도 하나의 핵산 서열을 포함하는 핵산 분자를 합성하는 단계, 이 때 핵산 분자는 염기단위 핵산 합성의 부재하에 합성되고, (c) 적어도 하나의 핵산 서열을 포함하는 핵산 분자를 저장하는 단계.
일부 구체예들에서, 상기 방법은 핵산 분자를 시퀀싱하여 핵산 서열을 결정하는 단계를 추가로 포함하고, 이에 의해 컴퓨터 데이터를 검색한다. 일부 구체예들에서, (b)는 약 1 일 미만인 시기에 수행된다. 일부 구체예들에서, (b)는 적어도 약 90%의 정확도로 수행된다.
또 다른 양상에서, 본 발명은 다음을 포함하는, 핵산들을 사용하여 이진 서열 데이터를 인코드하는 시스템을 제공한다: 식별자 라이브러리를 구성하도록 구성된 장치, 이 때 식별자 라이브러리는 복수의 식별자들을 포함하고, 이 때 복수의 식별자들의 개별 식별자는 하나 이상의 구성요소들을 포함하고, 그리고 하나 이상의 구성요소들의 개별 구성요소는 핵산 서열이며; 그리고 상기 장치에 작동적으로 연결된 하나 이상의 컴퓨터 프로세서들, 이 때 하나 이상의 컴퓨터 프로세서들은 개별적으로 또는 집합적으로 (i) 정보를 기호들의 문자열로 변환하고, (ii) 기호들의 문자열을 복수의 식별자들에 맵핑하고, 이 때 복수의 식별자들의 개별 식별자는 기호들의 문자열의 개별 기호에 대응하며, 그리고 (iii) 복수의 식별자들을 포함하는 식별자 라이브러리를 구성하도록 프로그램된다.
일부 구체예들에서, 상기 장치는 복수의 파티션들을 포함하고 이 때 식별자 라이브러리는 하나 이상의 복수의 파티션들에서 생성된다. 일부 구체예들에서, 상기 복수의 파티션들은 웰을 포함한다. 일부 구체예들에서, 식별자 라이브러리에서 개별 식별자를 구성하는 단계는 하나 이상의 레이어들로부터의 하나 이상의 구성요소를 어셈블리하는 것을 포함하고 이 때 상기 하나 이상의 레이어들의 각 레이어는 별개 세트의 구성요소들을 포함한다. 일부 구체예들에서, 하나 이상의 레이어들의 각 레이어는 상기 장치의 다른 부분에 저장되고, 상기 장치는 하나 이상의 레이어로부터의 하나 이상의 구성요소를 조합하도록 구성된다. 일부 구체예들에서, 식별자 라이브러리는 복수의 핵산 서열들을 포함한다. 일부 구체예들에서, 하나 이상의 식별자 라이브러리는 상기 장치의 단일 영역에서 조합되고 이 때 하나 이상의 식별자 라이브러리의 각 식별자 라이브러리는 별개 바코드를 포함한다.
또 다른 양상에서, 본 발명은 다음을 포함하는, 핵산 서열(들)에서 인코드된 정보를 판독하는 시스템을 제공한다: 복수의 식별자들을 포함하는 식별자 라이브러리를 저장하는 데이터염기, 이 때 상기 복수의 식별자들의 개별 식별자는 하나 이상의 구성요소들을 포함하고, 하나 이상의 구성요소들의 개별 구성요소는 핵산 서열을 포함하고; 및 (b) 식별자 라이브러리에 있는 복수의 식별자들을 식별하는 단계; (c) (b)에서 식별된 복수의 식별자들로부터 복수의 기호들을 생성하는 단계, 이 때 복수의 기호들의 개별 기호는 복수의 식별자들의 개별 식별자에 해당하고; 및 (d) 상기 복수의 기호들로부터 정보를 컴파일하는 단계.
일부 구체예들에서, 상기 시스템은 복수의 파티션들을 추가로 포함한다. 일부 구체예들에서, 상기 파티션들은 웰이다. 일부 구체예들에서, 복수의 파티션들 중 주어진 파티션은 하나 이상의 식별자 라이브러리를 포함하고 하나 이상의 식별자 라이브러리의 각 식별자 라이브러리는 별개 바코드를 포함한다. 일부 구체예들에서, 상기 시스템은 식별자 라이브러리에서 복수의 식별자들을 식별하도록 구성된 감지 유닛을 추가로 포함한다.
본 발명의 또 다른 양상들 및 이점들은 아래 상세한 설명으로부터 해당 분야의 숙련된 기술자들에게 용이하게 자명해질 것이며, 상세한 설명에는 본 발명의 예시적인 구체예들만이 제시되고 설명되어 있다. 알 수 있는 바와 같이, 본 발명은 그 외 상이한 구체예들 또한 가능하며, 이의 몇 가지 세부사항은 다양한 명백한 관점들에서 변형될 수 있으며, 이들 모두 본 발명에서 벗어나지 않는다. 따라서, 도면 및 상세한 설명은 본질적으로 제한적인 것이 아니라 예시적인 것으로 간주된다.
참고문헌으로 포함
본 명세서에 언급된 모든 간행물 및 특허 출원은 각각의 개별 간행물 또는 특허 출원이 구체적으로 및 개별적으로 참조로 포함되도록 지시된 것과 동일한 정도로 본 명세서에 참조 문헌으로 인용된다. 참고문헌으로 포함된 간행물 그리고 특허 또는 특허 출원이 본 명세서에 포함된 내용과 모순되는 경우, 본 명세서의 내용이 우선하거나 및/또는 이러한 임의의 모순되는 자료에 선행하는 것으로 한다.
도면의 간단한 설명
본 발명의 새로운 특징들은 첨부된 청구범위에 구체적으로 제시된다. 본 발명의 특징 및 이점들은 본 발명의 원리를 이용하는 예시적 구체예들을 제시하는 하기 상세한 설명 그리고 다음과 같은 첨부도면 (본원에서 또한 “도면” 및 “도”)을 참고하여 보다 잘 이해될 것이다:
도 1은 핵산 서열에 저장된 디지털 정보를 인코드, 기록, 액세스, 판독 및 디코드하기위한 프로세스의 개요를 개략적으로 예시한다;
도 2A 도 2B는 객체들 또는 식별자들 (예컨대, 핵산 분자들)을 사용하여 “어드레스의 데이터”로 지칭되는 디지털 데이터를 인코딩하는 예시적인 방법을 개략적으로 도시한다; 도 2A는 랭크 객체 (또는 어드레스 객체)를 바이트-값 객체 (또는 데이터 객체)와 조합하여 식별자를 생성하는 것을 도시한다; 도 2B는 랭크 객체들 및 바이트-값 객체들 자체가 다른 객체들의 조합 연결들인 어드레스의 데이터 방법에 관한 구체예를 도시한다;
도 3A 도 3B는 객체들 또는 식별자들 (예컨대, 핵산 서열들)을 사용하여 디지털 정보를 인코드하는 예시 방법을 개략적으로 도시한다; 도 3A는 랭크 객체를 식별자로 사용하여 디지털 정보를 인코드하는 것을 도시한다; 도 3B는 어드레스 객체들 자체가 다른 객체들의 조합 연결들인 상기 인코딩 방법의 구체예를 도시한다;
도 4는 가능한 식별자의 조합 공간 (C, x축)과 주어진 크기의 정보 (등고선)를 저장하기 위해 구성 될 수 있는 평균 식별자 수 (k, y축) 간의 관계에 대한 로그 공간에서의 등고선 플롯을 보여준다;
도 5는 정보를 핵산 서열 (예를 들어, 데옥시리보핵산)에 기록하는 방법의 개요를 개략적으로 도시한다;
도 6A 도 6B는 별개 구성요소들 (예컨대, 핵산 서열들)을 조합적으로 어셈블리함으로써 식별자들 (예컨대, 핵산 분자들)을 구성하기 위한, “프로덕트 방식 (the product scheme)”으로서 지칭되는 한 방법의 예를 도시한다; 도 6A는 프로덕트 방식을 사용하여 구성된 식별자들의 구조를 도시한다; 도 6B는 프로덕트 방식을 사용하여 구성될 수 있는 식별자들의 조합 공간에 관한 한 예를 도시한다;
도 7은 중첩 연장 중합효소 연쇄 반응을 사용하여 구성요소들 (예컨대, 핵산 서열들)로부터 식별자들 (예컨대, 핵산 분자들)을 구성하는 것을 개략적으로 도시한다;
도 8은 점착성 말단 연결을 사용하여 구성요소들 (예컨대, 핵산 서열들)로부터 식별자들 (예컨대, 핵산 분자들)을 구성하는 것을 개략적으로 도시한다;
도 9는 재조합효소 어셈블리를 사용하여 구성요소들 (예컨대, 핵산 서열들)로부터 식별자들 (예컨대, 핵산 분자들)을 구성하는 것을 개략적으로 도시한다;
도 10A 도 10B는 템플릿 지시된 연결을 나타낸다; 도 10A는 템플릿 지시된 연결을 사용하여 구성요소들 (예컨대, 핵산 서열들)로부터 식별자들 (예컨대, 핵산 분자들)을 구성하는 것을 개략적으로 도시한다; 도 10B는 하나의 풀링된 템플릿 지시된 연결 반응에서 6개의 핵산 서열들 (예컨대, 구성요소들)로부터 각각 조합적으로 어셈블리된 256개의 별개 핵산 서열들의 복제수 (풍부함)의 히스토그램을 보여준다;
도 11A, 도 11B, 도 11C, 도 11D, 도 11E, 도 11F, 도 11G은 순열배치된 구성요소들 (예컨대, 핵산 서열들)을 사용하여 식별자들 (예컨대, 핵산 분자들)을 구성하기 위한, “순열 방식”으로 지칭되는, 한 방법의 예를 개략적으로 도시한다; 도 11A는 순열 방식을 사용하여 구성된 식별자들의 구조를 도시한다; 도 11B는 순열 방식을 사용하여 구성될 수 있는 식별자들의 조합 공간에 관한 한 예를 도시한다; 도 11C는 템플릿 지시된 연결을 사용한 순열 방식의 예시적인 구현예를 보여준다; 도 11D도 11C의 구현예를 변형시켜 순열배치된 그리고 반복된 구성요소들을 가지는 식별자들을 구성할 수 있는 방법에 관한 예를 보여준다; 도 11E도 11D의 예시적 구현예가 핵산 크기 선별으로 제거될 수 있는 원치않는 부산물을 생성할 수 있는 방법을 보여준다; 도 11F는 템플릿 지시된 연결 및 크기 선별을 사용하여 순열배치된 그리고 반복된 구성요소들로 식별자들을 구성하는 방법의 또 다른 예를 보여준다; 도 11G는 크기 선별이 원치않는 부산물들로부터 특정 식별자를 분리하지 못할 수 있는 경우의 예를 보여준다;
도 12A, 도 12B, 도 12C, 및 도 12D는 보다 큰 수, M개의 가능한 구성요소들 중에서 임의의 수, K개의 어셈블리된 구성요소들 (예컨대, 핵산 서열들)로 식별자들 (예컨대, 핵산 분자들)을 구성하는, “MchooseK” 방식으로 지칭되는 방법의 한 예를 개략적으로 도시한다; 도 12A는 MchooseK 방식을 사용하여 구성된 식별자들의 구조를 도시한다; 도 12B는 MchooseK 방식을 사용하여 구성될 수 있는 식별자들의 조합 공간에 관한 한 예를 도시한다; 도 12C는 템플릿 지시된 연결을 사용한 MchooseK 방식의 예시적인 구현예를 보여준다; 도 12D도 12C의 예시적 구현예가 핵산 크기 선별으로 제거될 수 있는 원치않는 부산물을 생성할 수 있는 방법을 보여준다;
도 13A 도 13B는 파티션된 구성요소들로 식별자들을 구성하기 위한 “파티션 방식”으로 지칭되는 방법의 한 예를 개략적으로 도시한다; 도 13A는 파티션 방식을 사용하여 구성될 수 있는 식별자들의 조합 공간에 관한 한 예를 보여준다; 도 13B는 템플릿 지시된 연결을 사용하는 파티션 방식의 예시적인 구현예를 보여준다;
도 14A 도 14B는 수많은 가능한 구성요소들로부터 구성요소들의 임의의 문자열로 이루어진 식별자들을 구성하기 위한, “비제약형 문자열” (또는 USS) 방식으로 지칭되는 방법의 한 예를 개략적으로 도시한다; 도 14A는 USS 방식을 사용하여 구성될 수 있는 식별자들의 조합 공간에 관한 한 예를 보여준다; 도 14B는 템플릿 지시된 연결을 사용하는 USS 방식의 예시적인 구현예를 보여준다;
도 15A 도 15B는 모체 식별자로부터 구성요소들을 제거함으로써 식별자들을 구성하기 위한 “구성요소 제거”로 지칭되는 방법의 한 예를 개략적으로 도시한다; 도 15A는 구성요소 제거 방식을 사용하여 구성될 수 있는 식별자들의 조합 공간에 관한 한 예를 보여준다; 도 15B는 이중 가닥 표적된 절단 및 복구를 사용하는 구성요소 제거 방식의 예시적 구현예를 보여준다;
도 16은 재조합효소를 모체 식별자에 적용함으로써 추가 식별자가 구성 될 수 있는 재조합효소 인식 부위를 갖는 모체 식별자를 개략적으로 도시한다;
도 17A, 도 17B, 도 17C는 보다 많은 수의 식별자들로부터 많은 특정 식별자들을 액세스함으로써 핵산 서열에 저장된 정보의 일부에 액세스하기 위한 예시적 방법들의 개요를 개략적으로 도시한다; 도 17A는 특정 구성요소를 내포하는 식별자들에 액세스하기 위해 중합효소 연쇄 반응, 친화성 태그된 프로브, 및 분해 표적화 프로브를 사용하는 예시적 방법들을 보여준다; 도 17B는 다수의 특정 구성요소들을 내포하는 식별자들에 액세스하기 위해 중합효소 연쇄 반응을 사용하여 'OR' 또는 'AND' 연산을 수행하는 예시적 방법들을 보여준다; 도 17C는 다수의 특정 구성요소들을 내포하는 식별자들에 액세스하기 위해 친화성 태그를 사용하여 'OR' 또는 'AND' 연산을 수행하는 예시적 방법들을 보여준다;
도 18A 도 18B는 핵산 분자들에 인코드된 데이터를 인코드, 기록, 및 판독하는 예를 보여준다; 도 18A는 5,856 비트의 데이터를 인코드, 기록 및 판독하는 예를 도시한다; 도 18b는 62,824 비트의 데이터를 인코드, 기록 및 판독하는 예를 도시한다; 및
도 19는 본원에 제공된 방법들을 수행하도록 프로그램된 또는 다른 방식으로 구성된 컴퓨터 시스템을 보여준다.
도 20은 이중-가닥 구성요소들의 단일 모체 세트로부터 임의의 2개 선택된 이중-가닥 구성요소들의 어셈블리의 예시 방식을 보여준다.
도 21은 2개의 올리고, X 및 Y로부터 만들어진 가능한 점착성-말단 구성요소 구조들을 보여준다.
도 22는 15-피스의, 점착성-말단 DNA 구성요소 연결들로부터 얻은 qPCR 프로덕트들의 예시적 겔 전기영동 이미지를 보여준다.
도 23A는 2, 2.5, 3, 및 1440 분 동안 연결된 15-피스, 6-염기 5' 오버행 DNA 구성요소 세트들의 연결 효율에 관한 예시적 데이터를 보여준다.
도 23B는 2, 2.5, 3, 및 1440 분 동안 연결된 15-피스, 6-염기 3' DNA 구성요소 세트들의 연결 효율에 관한 예시적 데이터를 보여준다.
도 23C는 qPCR 프로덕트들의 예시적 겔 전기영동 이미지를 보여준다.
도 24A는 오버행 길이로 그룹화된 DNA 구성요소 쌍들의 연결 효율을 제시하는 예시적 데이터를 보여준다.
도 24B는 오버행 길이로 그룹화된 DNA 구성요소 쌍들의 연결 효율을 제시하는 예시적 데이터를 보여준다.
도 25A는 GC 함량으로 그룹화된 DNA 구성요소 쌍들의 연결 효율을 제시하는 예시적 데이터를 보여준다.
도 25B는 GC 함량으로 그룹화된 DNA 구성요소 쌍들의 연결 효율을 제시하는 예시적 데이터를 보여준다.
도 26는 다양한 온도에서 T4 리가아제와 함께 연결된 4 점착성-말단 (6-염기, 3' 오버행을 가짐) DNA 구성요소들로부터 얻은 예시적 데이터를 보여준다.
도 27은 다양한 온도에서 T4 리가아제와 함께 연결된 4 점착성-말단 (6-염기, 3' 오버행을 가짐) DNA 구성요소들로부터 얻은 예시적 데이터를 보여준다.
도 28A는 T7 DNA 리가아제의 연결 효율에 관한 예시적 데이터를, T4 DNA 리가아제와 비교하여 보여준다.
도 28B는 T3 DNA 리가아제의 연결 효율에 관한 예시적 데이터를, T4 DNA 리가아제와 비교하여 보여준다.
도 29는 다양한 농도에서 대장균 DNA 리가아제의 연결 효율에 대한 예시적 데이터를 보여준다.
도 30A는 다양한 온도에서 T7 DNA 리가아제와 함께 연결된 4 점착성-말단 (6-염기, 3' 오버행을 가짐) DNA 구성요소들로부터 얻은 예시적 데이터를 보여준다.
도 30B는 다양한 온도에서 T3 DNA 리가아제와 함께 연결된 4 점착성-말단 (6-염기, 3' 오버행을 가짐) DNA 구성요소들로부터 얻은 예시적 데이터를 보여준다.
도 31A는연결 효율에 대한 PEG8000의 효과의 예시적인 데이터를 보여준다.
도 31B는연결 효율에 대한 PEG6000의 효과의 예시적인 데이터를 보여준다.
도 31C는연결 효율에 대한 PEG400의 효과의 예시적인 데이터를 보여준다.
도 32는 PEG400 또는 PEG6000의 존재하에서 함께 연결된 4개의 점착성-말단 (10-염기, 3' 오버행을 가짐) DNA 구성요소들의 연결로부터 얻은 예시적 데이터를 보여준다.
도 33은 리가아제에 대한 완충액 QG 또는 EDTA의 효과에 관한 예시적 qPCR 데이터를 보여준다.
도 34 Q5, Phusion, 및 Taq DNA 중합효소를 사용한 복제의 선형성에 관한 예시적인 데이터를 보여준다.
도 35는 4일 동안 실온에서 저장된 상이한 DNA 샘플들의 예시적 겔 이미지를 보여준다.
도 36은 실온에서 반복적으로 건조되고 재수화된 DNA에 관한 예시적 데이터를 보여준다.
도 37은 구성된 점착성 말단 서열들의 한 예시적 방식을 보여준다.
도 38A는 표 4에 열거된 오버행 서열들의 상이한 쌍들의 연결로부터 얻은 예시적 데이터 를 보여준다.
도 38B는 표 5에 열거된 오버행 서열들의 상이한 쌍들의 연결로부터 얻은 예시적 데이터 를 보여준다.
도 39는 표 4 및 표 5에 열거된 오버행들의 각 세트로부터의 15개 오버행들의 2백만개 서브세트들로부터 얻은 페널티 점수를 보여준다.
도 40표 7의 최종 열로부터의 오버행들을 사용한 16개 DNA 구성요소들의 연결 효율에 관한 예시적 데이터를 보여준다.
도 41A는 (컴퓨터 인코딩 후) 인코드된 메세지의 341x351 참조 맵을 보여준다.
도 41B는 시퀀싱에 의해 결정된 식별자 라이브러리에 존재하는 서열의 풍부도에 관한 히트 맵 (341x351)을 보여준다.
도 42도 41A-B에 도시된 바와 같이 전체 인코딩, 기록, 시퀀싱, 및 디코딩 프로세스를 중복 실행하여 얻은 예시적 데이터를 보여준다.
도 43A는 시퀀싱에 의해 결정된 식별자 라이브러리에 존재하는 풍부한 서열의 히트 맵 (341x351)을 보여준다. 상기 데이터는 도 41A-B로부터의 메시지를 내포하는 원본 식별자 라이브러리의 다수의 복제본을 생성하여 얻었다.
도 43B는 원본 식별자 라이브러리와 복제된 식별자 라이브러리에서의 식별자 복제수들 사이의 상관관계를 보여준다.
도 43C는 원본 식별자 라이브러리와 복제된 식별자 라이브러리에서의 식별자 복제수들의 분포를 보여준다.
도 44A는 시퀀싱에 의해 결정된 액세스된 식별자 라이브러리에 존재하는 서열들의 풍부함에 관한 히트 맵 (341x351)을 보여준다. 상기 데이터는 도 41A-B로부터의 원본 메시지를 내포하는 식별자 라이브러리의 일부를 액세스하여 얻었다.
도 44B는 원본 라이브러리와 액세스된 식별자 라이브러리에서의 식별자 복제수들 사이의 상관관계를 보여준다.
도 44C는 원본 식별자 라이브러리와 액세스된 식별자 라이브러리에서의 식별자 복제수들의 분포를 보여준다.
도 45A는 시퀀싱에 의해 결정된 2x 액세스된 식별자 라이브러리에 존재하는 서열들의 풍부함에 관한 히트 맵 (341x351)을 보여준다. 데이터는 도 44A-C로부터 액세스된 식별자 라이브러리의 하위-부분을 추가로 액세스하여 얻었다.
도 45B는 원본 라이브러리와 2x 액세스된 식별자 라이브러리에서의 식별자 복제수들 사이의 상관관계를 보여준다.
도 45C는 원본 식별자 라이브러리와 2x 액세스된 식별자 라이브러리에서의 식별자 복제수들의 분포를 보여준다.
도 46A는 시퀀싱에 의해 결정된 저장된 식별자 라이브러리에 존재하는 풍부한 서열의 히트 맵 (341x351)을 보여준다. 데이터는 도 41A-B로부터 메시지를 제시하는 원본 식별자 라이브러리를 100 oC에서 4일 동안 저장한 후 얻었다.
도 46B는 원본 식별자 라이브러리와 복제된 식별자 라이브러리에서의 식별자 복제수들 사이의 상관관계를 보여준다.
도 46C는 원본 식별자 라이브러리와 복제된 식별자 라이브러리에서의 식별자 복제수들의 분포를 보여준다.
도 47A는 75.1 oC에서 8일 동안 배양된 DNA 샘플들에 대한 예시적 데이터를 보여준다.
도 47B는 84.4oC에서 8일 동안 배양된 DNA 샘플들에 대한 예시적 데이터를 보여준다.
도 47C는 90.2oC에서 8일 동안 배양된 DNA 샘플들에 대한 예시적 데이터를 보여준다.
도 47D는 95.0oC에서 8일 동안 배양된 DNA 샘플들에 대한 예시적 데이터를 보여준다.
도 48은 다양한 양 (부피 당 퍼센트 부피로)의 글리세롤과 함께 연결된 4개 점착성-말단 (6-염기, 3' 오버행을 가짐) DNA 구성요소들의 연결로부터 얻은 예시적 데이터를 보여준다.
상세한 설명
본 발명의 다양한 구체예들을 본 출원에 나타내고 설명하였으나, 해당 분야의 숙련된 기술자들에게 이러한 구체예들이 단지 예로서 제공되는 것임은 자명할 것이다. 본 발명의 범위에서 벗어나지 않는 수많은 변형들, 변화들, 및 치환들이 해당 분야의 숙련된 기술자들에 의해 이루어질 수 있다. 본 출원에 기재된 본 발명의 구체예들에 대한 다양한 대체예들이 사용될 수 있음을 이해하여야 한다.
본 명세서에서 사용되는 용어 “기호”는 일반적으로 디지털 정보 단위의 표현을 지칭한다. 디지털 정보는 기호들의 문자열로 분할되거나 번역 될 수 있다. 한 예에서 기호는 비트이고 비트는 '0' 또는 '1'의 값을 가질 수 있다.
본원에서 사용되는 용어 “별개” 또는 “고유한”은 일반적으로 그룹의 다른 객체와 구별가능한 객체를 지칭한다. 예를 들어, 별개 또는 고유한 핵산 서열은 임의의 다른 핵산 서열과 동일한 서열을 갖지 않는 핵산 서열 일 수 있다. 별개 또는 고유한 핵산 분자는 임의의 다른 핵산 분자와 동일한 서열을 가지지 않을 수 있다. 별개 또는 고유한 핵산 서열 또는 분자는 또 다른 핵산 서열 또는 분자와 유사성 영역들을 공유 할 수 있다.
본원에서 사용되는 용어 “구성요소”는 일반적으로 핵산 서열을 지칭한다. 구성요소는 별개 핵산 서열 일 수 있다. 구성요소는 하나 이상의 다른 구성요소들과 연쇄되거나 어셈블리되어 다른 핵산 서열 또는 분자들을 생성 할 수 있다.
본원에서 사용되는 용어 “레이어”은 일반적으로 구성요소들의 그룹 또는 풀을 지칭한다. 각 레이어는 별개 구성요소들의 세트를 포함할 수 있으며, 그리하여 한 레이어의 구성요소들은 또 다른 레이어의 구성요소들과 상이하다. 하나 이상의 레이어들로부터의 구성요소들은 어셈블리되어 하나 이상의 식별자들을 생성할 수 있다.
본원에서 사용되는 용어 “식별자”는, 일반적으로 보다 큰 비트-문자열 내부에서 비트-문자열의 위치 및 값을 나타내는 핵산 분자 또는 핵산 서열을 지칭한다. 보다 일반적으로, 식별자는 기호 문자열에서 기호를 나타내거나 해당 기호에 대응하는 모든 객체를 지칭할 수 있다. 일부 구체예들에서, 식별자들은 하나 또는 다수의 연결된 구성요소들을 포함 할 수 있다.
본원에서 사용된 용어 “조합 공간”은 일반적으로 객체들, 가령, 구성요소들의 시작 세트로부터 생성될 수 있는 모든 가능한 별개 식별자들의 세트, 그리고 이들 객체들을 변형하여 식별자들을 형성하는 방법에 관한 허용가능한 규칙들의 세트를 지칭한다. 구성요소들을 어셈블리 또는 연결하여 만들어진 식별자들의 조합 공간의 크기는 구성요소들의 레이어들의 수, 각 레이어에서 구성요소들의 수, 및 식별자들을 생성하는데 사용되는 특정 어셈블리 방법에 따라 달라질 수 있다.
본원에서 사용되는 용어 “식별자 랭크”는 일반적으로 한 세트에서 식별자들의 순서를 정의하는 관계를 지칭한다.
본원에서 사용되는 용어 “식별자 라이브러리”는 일반적으로 디지털 정보를 나타내는 기호 문자열에서 기호들에 대응하는 식별자들의 집합을 지칭한다. 일부 구체예들에서, 식별자 라이브러리에서 주어진 식별자의 부재는 특정 위치에서의 기호값을 표시할 수 있다. 하나 이상의 식별자 라이브러리는 식별자들의 풀, 그룹, 또는 세트로 조합될 수 있다. 각 식별자 라이브러리는 식별자 라이브러리를 식별하는 고유한 바코드를 포함할 수 있다.
본원에서 사용되는 용어 “핵산”은 일반적으로 데옥시리보핵산 (DNA), 리보핵산 (RNA), 또는 이의 변이체를 지칭한다. 핵산은 아데노신 (A), 시토신 (C), 구아닌 (G), 티민 (T) 및 우라실 (U) 또는 이의 변이체에서 선택된 하나 이상의 서브유닛을 포함 할 수 있다. 뉴클레오티드는 A, C, G, T, 또는 U, 또는 이의 변이체를 포함할 수 있다. 뉴클레오티드는 성장하는 핵산 가닥에 통합될 수 있는 임의의 서브유닛을 포함할 수 있다. 이러한 서브유닛은 A, C, G, T, 또는 U, 또는, 하나 이상의 상보적인 A, C, G, T, 또는 U에 특이적일 수 있거나 퓨린 (즉, A 또는 G, 또는 이의 변이체) 또는 피리미딘 (즉, C, T, 또는 U, 또는 이의 변이체)에 상보적일 수 있는 임의의 다른 서브유닛 일 수 있다. 일부 예들에서, 핵산은 단일-가닥 또는 이중 가닥일 수 있고, 일부 사례에서, 핵산은 원형이다.
본원에서 사용되는 용어 “핵산 분자” 또는 “핵산 서열”은 일반적으로 다양한 길이를 가질 수 있는 중합체 형태의 뉴클레오티드 또는 폴리뉴클레오티드, 데옥시리보뉴클레오티드 (DNA) 또는 리보뉴클레오티드 (RNA) 또는 이의 유사체를 지칭한다. 용어 “핵산 서열”은 폴리뉴클레오티드의 알파벳 표현을 지칭 할 수 있으며; 대안으로, 이 용어는 물리적 폴리뉴클레오티드 자체에 사용될 수 있다. 이 알파벳 표현은 중앙 처리 장치가 있는 컴퓨터의 데이터염기에 입력 될 수 있으며 핵산 서열 또는 핵산 분자를 기호 또는 비트에 맵핑하여 디지털 정보를 인코딩하는데 사용될 수 있다. 핵산 서열 또는 올리고뉴클레오티드는 하나 이상의 비-표준 뉴클레오티드(들), 뉴클레오티드 유사체(들) 및/또는 변형된 뉴클레오티드들을 포함할 수 있다.
본원에서 사용되는 “올리고뉴클레오티드”는, 일반적으로 단일-가닥 핵산 서열을 지칭하며, 전형적으로 4가지 뉴클레오티드 염기들: 아데닌 (A); 시토신 (C); 구아닌 (G), 및 티민 (T) 또는 폴리뉴클레오티드가 RNA인 경우 우라실 (U)의 특정 순서로 구성된다.
변형된 뉴클레오티드의 예들에는, 다이아미노퓨린, 5-플루오로우라실, 5-브로모우라실, 5-클로로우라실, 5-아이오도우라실, 하이포잔틴, 잔틴, 4-아세틸시토신, 5-(카르복시하이드록실메틸)우라실, 5-카르복시메틸아미노메틸-2-티오우리딘, 5-카르복시메틸아미노메틸우라실, 다이하이드로우라실, 베타-D-갈락토실쿠에오신, 이노신, N6-아이소펜텐일아데닌, 1-메틸구아닌, 1-메틸이노신, 2,2-다이메틸구아닌, 2-메틸아데닌, 2-메틸구아닌, 3-메틸시토신, 5-메틸시토신, N6-아데닌, 7-메틸구아닌, 5-메틸아미노메틸우라실, 5-메톡시아미노메틸-2-티오우라실, 베타-D-만노실쿠에오신, 5'-메톡시카르복시메틸우라실, 5-메톡시우라실, 2-메틸티오-D46-아이소펜텐일아데닌, 우라실-5-옥시아세틱 애시드 (v), 위부톡소신, 수도우라실, 쿠에오신, 2-티오시토신, 5-메틸-2-티오우라실, 2-티오우라실, 4-티오우라실, 5-메틸우라실, 우라실-5-옥시아세틱 애시드 메틸에스터, 우라실-5-옥시아세틱 애시드 (v), 5-메틸-2-티오우라실, 3-(3-아미노-3-N-2-카르복시프로필)우라실, (acp3)w, 2,6-다이아미노퓨린 등이 포함되나, 이에 제한되는 것은 아니다. 핵산 분자들은 또한 염기 모이어티 (예컨대, 통상적으로 상보적 뉴클레오티드와 수소 결합을 형성할 수 있는 하나 이상의 원자들 및/또는 전형적으로 상보적 뉴클레오티드와 수소 결합을 형성할 수 없는 하나 이상의 원자들), 당 모이어티 또는 포스페이트 골격에서 변형될 수도 있다. 핵산 분자는 또한 아민-변형된 그룹, 가령, 아미노알릴-dUTP (aa-dUTP) 및 아미노헥실아크릴아미드-dCTP (aha-dCTP)을 내포하여, 아민 반응성 모이어티, 가령, N-하이드록시 숙신이미드 에스터 (NHS)의 공유 부착을 가능하게 할 수 있다.
본원에서 사용된 용어 “프라이머”는, 일반적으로 중합효소 연쇄 반응 (PCR)과 같은 핵산 합성을 위한 출발점 역할을 하는 핵산 가닥을 지칭한다. 예를 들어, DNA 샘플을 복제하는 동안 복제를 촉매하는 효소는 DNA 샘플에 부착된 프라이머의 3'-말단에서 복제를 시작하여 반대 가닥을 복제한다. 프라이머 설계에 관한 세부사항을 비롯하여, PCR에 관한 보다 많은 정보는 화학적 방법 섹션 D를 참고하라.
본원에서 사용된 용어 “중합효소” 또는 “폴리머라제 효소”는 일반적으로 중합효소 반응을 촉매 할 수 있는 임의의 효소를 지칭한다. 중합효소의 예들에는, 제한 없이, 핵산 중합효소가 포함된다. 중합효소는 자연 발생이거나 또는 합성일 수 있다. 예시적인 중합효소는 Φ중합효소 또는 이의 유도체이다. 일부 경우에, 중합효소와 함께 또는 중합효소 대신에 전사효소 또는 리가아제 (즉, 결합의 형성을 촉매하는 효소)가 사용되어, 새로운 핵산 서열들을 구성한다. 중합효소의 예에는 DNA 중합효소, RNA 중합효소, 열안정 중합효소, 야생형 중합효소, 변형 중합효소, 대장균 DNA 중합효소 I, T7 DNA 중합효소, 박테리오파지 T4 DNA 중합효소 Φ(phi29) DNA 중합효소, Taq 중합효소, Tth 중합효소, Tli 중합효소, Pfu 중합효소 Pwo 중합효소, VENT 중합효소, DEEPVENT 중합효소, Ex-Taq 중합효소, LA-Taw 중합효소, Sso 중합효소 Poc 중합효소, Pab 중합효소, Mth 중합효소 ES4 중합효소, Tru 중합효소, Tac 중합효소, Tne 중합효소, Tma 중합효소, Tca 중합효소, Tih 중합효소, Tfi 중합효소, 백금 Taq 중합효소, Tbr 중합효소, Tfl 중합효소, Pfutubo 중합효소, Pyrobest 중합효소, KOD 중합효소, Bst 중합효소, Sac 중합효소, 3' -> 5' 엑소뉴클레아제 활성을 가지는 클레노브 절편 중합효소, 및 이의 변이체, 변형된 프로덕트 및 유도체가 포함된다. PCR과 함께 사용될 수 있는 추가 중합효소 및 중합효소 특성이 PCR에 영향을 미칠 수 있는 방법에 관한 세부내용에 관하여 화학적 방법 섹션 D를 참고하라.
이진 코드 형태의 디지털 정보, 가령, 컴퓨터 데이터는 기호들의 서열 또는 문자열을 포함할 수 있다. 이진 코드는 예를 들어, 비트로 지칭되는 2개의 이진 기호 (일반적으로 0 및 1)을 갖는 이진 숫자 시스템을 사용하여 텍스트 또는 컴퓨터 프로세서 명령어를 인코딩하거나 나타낼 수 있다. 디지털 정보는 비-이진 기호의 서열을 포함 할 수 있는 비-이진 코드의 형태로 표현 될 수 있다. 각 인코드된 기호는 고유한 비트 문자열 (또는 “바이트”)에 다시 할당 될 수 있으며 고유한 비트 문자열 또는 바이트는 바이트 문자열 또는 바이트 스트림으로 정렬 될 수 있다. 주어진 비트에 대한 비트값은 2개 기호들 중 하나 (예컨대, 0 또는 1) 일 수 있다. N 비트의 문자열을 포함할 수 있는 바이트는, 총 2N개의 고유한 바이트값을 가질 수 있다. 예를 들어, 8비트를 포함하는 바이트는 총 28개 또는 256개의 가능한 고유한 바이트 값을 생성 할 수 있으며 256 바이트 각각은 바이트로 인코딩 될 수 있는 256개의 가능한 별개 기호, 문자 또는 명령어 중 하나에 대응할 수 있다. 원시 데이터 (예컨대, 텍스트 파일 및 컴퓨터 명령어)는 바이트 문자열 또는 바이트 스트림으로 표현될 수 있다. 원시데이터를 포함하는 Zip 파일 또는 압축 데이터 파일 또한 바이트 스트림으로 저장될 수 있는데, 이들 파일은 압축된 형태의 바이트 스트림으로 저장된 다음 컴퓨터에서 판독되기 전에 원시 데이터로 다시 압축이 풀릴 수 있다.
본 발명의 방법 및 시스템들은 컴퓨터 데이터 또는 정보를 복수의 식별자로 인코딩하는데 사용될 수 있으며, 이들 각각은 원본 정보의 하나 이상의 비트를 나타낼 수 있다. 일부 예들에서, 본 발명의 방법 및 시스템은 각각이 2비트의 원본 정보를 나타내는 식별자를 사용하여 데이터 또는 정보를 인코딩한다.
디지털 정보를 핵산으로 인코딩하는 기존의 방법들은 핵산의 염기단위 합성에 의존하여 비용과 시간이 많이 소요될 수 있다. 대체 방법은 디지털 정보를 인코딩하기 위한 염기 별 핵산 합성에 대한 의존도를 줄여 디지털 정보 저장의 효율을 개선하고, 디지털 정보 저장의 상업적 실행가능성을 개선하고, 모든 새로운 정보 저장 요청에 대하여 별개 핵산 서열의 데노보 합성을 제거 할 수 있다.
새로운 방법들은 염기단위 또는 데-노보 핵산 합성 (예컨대, 포스포라미다이트 합성)에 의존하는 대신 구성요소들의 조합 배열들을 포함하는, 복수의 식별자들 또는 핵산 서열들로 디지털 정보 (예컨대, 이진 코드)를 인코드할 수 있다. 이와 같이, 새로운 전략은 정보 저장의 첫 번째 요청에 대해 별개 핵산 서열 (또는 구성요소)의 첫 번째 세트를 생성 할 수 있으며, 그 후 후속 정보 저장 요청에 대해 동일한 핵산 서열 (또는 구성요소)을 재사용 할 수 있다. 이러한 접근 방식은 정보-대-DNA 인코딩 및 기록 프로세스에서 핵산 서열의 데노보 합성의 역할을 줄임으로써 DNA 기반 정보 저장 비용을 크게 줄일 수 있다. 더욱이, 각 염기를 각 신장 핵산에 주기적으로 전달할 수 있는, 포스포라미다이트 화학- 또는 무-템플릿 중합효소 기반 핵산 신장과 같은 염기 별 합성의 실시와 달리, 구성요소들로부터의 식별자 구성을 사용한 새로운 정보-대-DNA 기록 방법들은 주기적 핵산 신장을 반드시 사용할 필요는 없는 고도의 병렬화가능한 프로세스이다. 그러므로, 새로운 방법들은 기존 방법들에 비해 디지털 정보를 DNA에 기록하는 속도를 증가시킬 수 있다.
정보를 인코딩하여 핵산 서열(들)에 기록하는 방법
한 양상에서, 본 발명은 정보를 핵산 서열로 인코딩하는 방법을 제공한다. 정보를 핵산 서열로 인코딩하는 방법은 (a) 정보를 기호들의 문자열로 번역하는 단계, (b) 기호들의 문자열을 복수의 식별자들에 맵핑하는 단계, 및 (c) 적어도 상기 복수의 식별자들의 서브세트를 포함하는 식별자 라이브러리를 구성하는 단계를 포함할 수 있다. 상기 복수의 식별자들의 개별 식별자는 하나 이상의 구성요소들을 포함할 수 있다. 상기 하나 이상의 구성요소들의 개별 구성요소는 핵산 서열을 포함할 수 있다. 기호 문자열에서 각 위치의 각 기호는 별개 식별자에 대응할 수 있다. 개별 식별자는 기호 문자열에서 개별 위치의 개별 기호에 대응할 수 있다. 더욱이, 기호 문자열에서 각 위치의 하나의 기호는 식별자 없음에 해당할 수 있다. 예를 들어, '0'과 '1'의 이진 기호 (예컨대, 비트)의 문자열에서 '0'이 나올 때마다 식별자 없음에 해당 할 수 있다.
또 다른 양상에서, 본 발명은 핵산 기반 컴퓨터 데이터 저장 방법을 제공한다. 핵산 기반 컴퓨터 데이터 저장 방법은 (a) 컴퓨터 데이터를 수신하는 단계, (b) 컴퓨터 데이터를 인코딩하는 핵산 서열을 포함하는 핵산 분자를 합성하는 단계, 및 (c) 핵산 서열을 갖는 핵산 분자를 저장하는 단계를 포함 할 수 있다. 컴퓨터 데이터는 적어도 합성된 핵산 분자들의 서브세트에 인코드될 수 있으며 핵산 분자들 각각의 서열에는 인코드되지 않을 수 있다.
또 다른 양상에서, 본 발명은 핵산 서열에 정보를 기록하고 저장하는 방법을 제공한다. 이 방법은 (a) 정보를 나타내는 가상 식별자 라이브러리를 수신하거나 인코딩하는 단계, (b) 식별자 라이브러리를 물리적으로 구성하는 단계, 및 (c) 하나 이상의 다른 위치에 식별자 라이브러리의 하나 이상의 물리적 사본을 저장하는 단계를 포함 할 수 있다. 식별자 라이브러리의 개별 식별자는 하나 이상의 구성요소들을 포함 할 수 있다. 상기 하나 이상의 구성요소들의 개별 구성요소는 핵산 서열을 포함할 수 있다.
또 다른 양상에서, 본 발명은 핵산 기반 컴퓨터 데이터 저장 방법을 제공한다. 핵산 기반 컴퓨터 데이터 저장 방법은 (a) 컴퓨터 데이터를 수신하는 단계, (b) 컴퓨터 데이터를 인코딩하는 적어도 하나의 핵산 서열을 포함하는 핵산 분자를 합성하는 단계, 및 (c) 적어도 하나의 핵산 서열을 포함하는 핵산 분자를 저장하는 단계를 포함 할 수 있다. 핵산 분자를 합성하는 단계는 염기단위 핵산 합성이 없을 수 있다.
또 다른 양상에서, 본 발명은 핵산 서열에 정보를 기록하고 저장하는 방법을 제공한다. 핵산 서열에 정보를 기록하고 저장하는 방법은 (a) 정보를 나타내는 가상 식별자 라이브러리를 수신하거나 인코딩하는 단계, (b) 식별자 라이브러리를 물리적으로 구성하는 단계, 및 (c) 하나 이상의 다른 위치에 식별자 라이브러리의 하나 이상의 물리적 사본을 저장하는 단계를 포함 할 수 있다. 식별자 라이브러리의 개별 식별자는 하나 이상의 구성요소들을 포함 할 수 있다. 상기 하나 이상의 구성요소들의 개별 구성요소는 핵산 서열을 포함할 수 있다.
도 1은 정보를 핵산 서열로 인코딩하고, 정보를 핵산 서열에 기록하고, 핵산 서열에 기록된 정보를 판독하고, 판독된 정보를 디코딩하는 개요 프로세스를 도시한다. 디지털 정보 또는 데이터는 하나 이상의 기호 문자열로 변환 될 수 있다. 한 예에서, 기호는 비트이고 각 비트는 '0' 또는 '1'의 값을 가질 수 있다. 각 기호는 해당 기호를 나타내는 객체 (예컨대, 식별자)에 맵핑되거나 인코드될 수 있다. 각 기호는 별개 식별자로 표현될 수 있다. 별개 식별자는 구성요소들로 이루어진 핵산 분자 일 수 있다. 구성요소들은 핵산 서열일 수 있다. 디지털 정보는 정보에 해당하는 식별자 라이브러리를 생성함으로써 핵산 서열에 기록 될 수 있다. 식별자 라이브러리는 디지털 정보의 각 기호에 해당하는 식별자들을 물리적으로 구성함으로써 물리적으로 생성 될 수 있다. 디지털 정보의 전부 또는 일부는 한 번에 액세스 될 수 있다. 한 예에서, 식별자들의 서브세트는 식별자 라이브러리로부터 액세스된다. 식별자들의 서브세트는 식별자들을 시퀀싱 및 식별함으로써 판독될 수 있다. 식별된 식별자들은 그 해당 기호와 연관되어 디지털 데이터를 디코딩할 수 있다.
도 1의 접근 방식을 사용하여 정보를 인코딩하고 판독하는 방법은, 예를 들어, 비트 스트림을 수신하는 단계 및 비트 스트림의 각 1 비트 (비트값이 '1'인 비트)를 식별자 랭크 또는 핵산 인덱스를 사용하여 별개 핵산 식별자에 맵핑하는 단계를 포함 할 수 있다. 핵산 샘플 풀, 또는 식별자 라이브러리를 구성하는 단계는, 1의 비트값에 해당하는 식별자들의 사본들을 포함한다 (그리고 0의 비트값인 식별자들은 제외한다). 상기 샘플을 판독하는 단계는 분자 생물학 방법들 (예컨대, 시퀀싱, 혼성화, PCR, 등)을 사용하여, 식별자 라이브러리에 표현되는 식별자들을 결정하고, 결정된 식별자들에 해당하는 비트에 '1'의 비트값을 그리고 나머지에 '0'의 비트값을 할당하고 (각 식별자가 대응하는 원래 비트-스트림에서 상기 비트들을 식별하기 위해 다시 식별자 랭크를 참조함), 그리하여 원래 인코드된 비트 스트림으로 정보를 디코딩하는 것을 포함할 수 있다.
N개의 별개 비트들의 문자열을 인코딩하는 것은 동일한 수의 고유한 핵산 서열들을 가능한 식별자들로 사용할 수 있다. 정보 인코딩에 대한 이러한 접근방식은 저장할 각각의 새로운 정보 항목 (N개 비트들의 문자열)에 대한 식별자들 (예컨대, 핵산 분자)의 데노보 합성을 사용할 수 있다. 다른 예들에서, 저장할 각각의 새로운 정보 항목에 대한 식별자들 (N 이하의 수)을 새로이 합성하는 비용은 1회 데노보 합성 및 모든 가능한 식별자들의 후속 유지관리에 의해 감소될 수 있어서, 새로운 정보 항목들을 인코드하는 것은 사전-합성된 (또는 사전-제작된) 식별자들을 기계적으로 선택하고 이와 함께 혼합하여 식별자 라이브러리를 형성하는 단계를 포함할 수 있다. 다른 예에서, (1) 저장할 각각의 새로운 정보 항목에 대한 최대 N 식별자들의 데노보 합성 또는 (2) 저장할 각각의 새로운 정보 항목에 대한 N개의 가능한 식별자들을 유지하고 선택하는 것, 또는 이의 임의의 조합에 대한 비용은 모두, 많은 (N 미만, 그리고 일부 예에서 N보다 훨씬 미만) 핵산 서열들을 합성 및 유지한 다음, 이들 서열들을 효소 반응을 통해 변형하여, 저장할 각각의 새로운 정보 항목에 대해 최대 N개의 식별자들을 생성함으로써 감소될 수 있다.
식별자들은 판독, 기록, 액세스, 복사 및 삭제 작업의 용이함을 위해 합리적으로 설계되고 선택될 수 있다. 식별자들은 기록 오류, 돌연변이, 분해, 및 판독 오류를 최분해하기 위해 설계되고 선택될 수 있다. 합성 핵산 라이브러리 (가령, 식별자 라이브러리)를 포함하는 DNA 서열들의 합리적 설계에 대하여 화학적 방법 섹션 H를 참고하라.
도 2A 2B는 객체들 또는 식별자들 (예컨대, 핵산 분자들)의 디지털 데이터를 인코딩하는, “어드레스의 데이터”로 지칭되는 예시적 방법을 개략적으로 도시한다. 도 2A는 비트 스트림을 식별자 라이브러리로 인코딩하는 것을 예시하며, 여기서 개별 식별자는 식별자 랭크를 특정하는 단일 구성요소를 바이트 값을 특정하는 단일 구성요소와 연결하거나 어셈블리함으로써 구성된다. 일반적으로, 어드레스의 데이터 방법은 다음 2개 객체들을 포함함으로써 모듈식으로 정보를 인코드하는 식별자들을 사용한다: 하나의 객체는 “바이트-값 객체” (또는 “데이터 객체”)로 바이트-값을 식별하고 또 하나의 객체는 “랭크 객체” (또는 “어드레스 객체”)로 식별자 랭크 (또는 원래 비트-스트림에서 해당 바이트의 상대적 위치)를 식별한다. 도 2B는 각각의 랭크 객체가 구성요소 세트로부터 조합적으로 구성 될 수 있고 각 바이트-값 객체가 구성요소 세트로부터 조합적으로 구성 될 수 있는 어드레스의 데이터 방법의 한 예를 도시한다. 이러한 랭크 및 바이트-값 객체의 조합 구성은 객체가 단일 구성요소들만으로 만들어진 경우보다 더 많은 정보가 식별자에 기록 될 수 있게 한다 (예컨대, 도 2A).
도 3A 3B는 객체들 또는 식별자들 (예컨대, 핵산 서열들)의 디지털 정보를 인코드하는 또 다른 예시 방법을 개략적으로 도시한다. 도 3A는 비트 스트림을 식별자 라이브러리로 인코딩하는 것을 도시하는데, 여기서 식별자들은 식별자 랭크를 지정하는 단일 구성요소들로부터 구성된다. 특정 랭크 (또는 어드레스)에 식별자가 존재하면 '1'의 비트값이 지정되고 특정 랭크 (또는 어드레스)에 식별자가 없으면 '0'의 비트값이 지정된다. 이러한 인코딩 유형은 랭크 (원래 비트 스트림에서 비트의 상대적 위치)만을 인코드하는 식별자들을 사용할 수 있으며 식별자 라이브러리에서 이들 식별자들의 존재 또는 부재를 사용하여 각각 '1' 또는 '0'의 비트값을 인코드할 수 있다. 정보를 판독하고 디코딩하는 것은 식별자 라이브러리에 존재하는 식별자를 식별하는 것, '1'의 비트 값을 해당 랭크에 할당하고 다른 랭크에 '0'의 비트 값을 할당하는 것을 포함 할 수 있다. 3B는 각각의 가능한 조합 구성이 랭크를 지정하도록 각 식별자가 구성요소 세트들로부터 조합적으로 구성 될 수 있는 예시적인 인코딩 방법을 도시한다. 이러한 조합 구성은 식별자가 단일 구성요소들만으로 만들어진 경우보다 더 많은 정보가 식별자에 기록 될 수 있게 한다 (예컨대, 도 3A). 예를 들어, 구성요소 세트는 5개의 별개 구성요소들을 포함할 수 있다. 5개의 별개 구성요소들을 어셈블리하여 10개의 별개 식별자들을 생성할 수 있으며, 각각은 5개 중 2개 구성요소들을 포함한다. 10개의 별개 식별자들은 각각 비트 스트림에서 비트의 위치에 해당하는 랭크 (또는 어드레스)를 가질 수 있다. 식별자 라이브러리는 길이 10의 비트 스트림 내부에 비트값 '1'의 위치에 해당하는 10개의 가능한 식별자들의 서브세트들을 포함할 수 있으며, '0'의 비트값의 위치들에 해당하는 10개의 가능한 식별자들의 서브세트를 제외할 수 있다.
도 4는 가능한 식별자의 조합 공간 (C, x축)과 도 3A 및 3B에 도시된 인코딩 방법을 사용하여 주어진 원본 비트 크기의 정보 (D, 등고선)를 저장하기 위해 물리적으로 구성될 평균 식별자 수 (k, y축) 간의 관계에 대한 로그 공간에서의 등고선 플롯을 보여준다. 이 플롯은 크기 D의 원본 정보가 비트수 k가 '1'의 비트 값을 가지는 C 비트의 문자열 (CD보다 클 수 있음)로 재코딩된다고 가정한다. 또한, 상기 플롯은 재코딩된 비트 문자열에 대해 정보-대-핵산 인코딩이 수행되고 비트 값이 '1'인 위치에 대한 식별자는 구성되고 비트 값이 '0'인 위치에 대한 식별자는 구성되지 않는다고 가정한다. 상기 가정에 따라, 가능한 식별자들의 조합 공간은 재코딩된 비트 문자열 내 모든 위치를 식별하기 위한 크기 C를 가지며, 크기 D의 비트 문자열을 인코드하는데 사용되는 식별자들의 수는 그러므로 D = log 2 (Cchoosek)가 되는데, 이 때 CchoosekC의 가능성들로부터 순서가 정해지지 않은 k개의 결과를 선택하는 방법의 수에 관한 수학식일 수 있다. 그러므로, 가능한 식별자들의 조합 공간이 주어진 정보 항목의 크기 (비트 단위) 이상으로 증가함에 따라, 물리적으로 구성되는 식별자들의 감소된 수가 주어진 정보를 저장하는데 사용될 수 있다.
도 5는 정보를 핵산 서열에 기록하는 방법의 개요를 보여준다. 정보를 기록하기에 앞서, 정보는 기호들의 문자열로 변환되거나 복수의 식별자들로 인코드될 수 있다. 정보 기록은 가능한 식별자들을 만들기 위한 반응들을 셋업하는 것을 포함할 수 있다. 반응은 입력물을 하나의 구획에 부착(depositing) 시킴에 의해 셋업될 수 있다. 입력물은 핵산, 구성요소들, 템플릿, 효소, 또는 화학적 시약들을 포함할 수 있다. 상기 파티션은 웰, 튜브, 표면에서의 위치, 미세유체 장치, 또는 유액 내 액적일 수 있다. 다수의 반응들이 다수의 파티션들에서 설정될 수 있다. 반응들은 프로그램된 온도 배양 또는 주기(cycling)을 통해 식별자들을 제조하기 위해 진행될 수 있다. 반응들은 선택적으로 또는 어디에서나 제거 (예컨대, 삭제)될 수 있다. 반응들은 또한 하나의 풀에서 식별자들을 수집하기 위해 선택적으로 또는 어디에서나 중단, 통합 및 정제될 수도 있다. 다수의 식별자 라이브러리로부터 얻은 식별자들은 동일한 풀에 수집될 수 있다. 개별 식별자는 자신이 속하는 식별자 라이브러리를 식별하는 바코드 또는 태그를 포함할 수 있다. 대안적으로, 또는 이에 더하여, 바코드는 인코드되는 정보에 관한 메타데이터를 포함할 수 있다. 또한 보충 핵산 또는 식별자들이 식별자 라이브러리와 함께 식별자 풀에 포함될 수도 있다. 보충 핵산 또는 식별자들은 인코드되는 정보에 대한 메타데이터를 포함하거나 인코드되는 정보를 난독화 또는 은폐하는 기능을 할 수 있다.
식별자 랭크 (예컨대, 핵산 인덱스)는 식별자들의 순서를 결정하는 방법 또는 키를 포함할 수 있다. 이 방법은 모든 식별자들과 이들의 해당 랭크가 있는 조회 표를 포함할 수 있다. 이 방법은 또한 식별자를 구성하는 모든 구성요소들의 랭크 및 이러한 구성 요소의 조합을 포함하는 임의의 식별자의 순서를 결정하는 기능을 갖는 조회 표를 포함 할 수 있다. 이러한 방법은 사전식 순서로 지칭될 수 있으며 이는 사전에 있는 단어들이 알파벳 순서로 정렬되는 방식과 유사할 수 있다. 어드레스의 데이터 인코딩 방법에서, (식별자의 랭크 객체에 의해 인코드되는) 식별자 랭크는 (식별자의 바이트-값 객체에 의해 인코드되는) 비트 스트림 내부에서의 바이트 위치를 결정하는데 사용될 수 있다. 대안적 방법에서, 해당 식별자에 대한 (전체 식별자 그 자체에 의해 인코드되는) 식별자 랭크를 사용하여 비트 스트림 내부에서 '1'의 비트값의 위치를 결정할 수 있다.
키는 샘플 내 고유한 식별자 (예컨대, 핵산 분자) 서브세트들에 별개 바이트들을 할당할 수 있다. 예를 들어, 간단한 형태에서 키는 비트의 위치를 지정하는 고유한 핵산 서열에 각 비트를 바이트로 할당 할 수 있으며, 샘플 내에서 해당 핵산 서열의 존재 또는 부재는 각각 1 또는 0의 비트값을 지정할 수 있다. 핵산 샘플로부터 인코드된 정보를 판독하는 것은 시퀀싱, 혼성화, 또는 PCR을 비롯한 임의의 수의 분자 생물학 기술들을 포함할 수 있다. 일부 구체예들에서, 인코드된 데이터세트를 판독하는 것은 각 핵산 샘플로부터 얻은 데이터세트의 일부를 재구성하는 것 또는 전체 인코드된 데이터세트를 재구성하는 것을 포함할 수 있다. 상기 서열이 판독될 수 있는 경우, 핵산 인덱스는 고유한 핵산 서열의 존재 또는 부재와 함께 사용될 수 있으며 핵산 샘플은 비트 스트림 (예컨대, 비트의 각 문자열, 바이트, 바이트들, 또는 바이트들의 문자열)으로 디코딩 될 수 있다.
식별자들은 구성요소 핵산 서열들을 조합적으로 어셈블리함으로써 구성될 수 있다. 예를 들면, 정보는 정의된 분자들의 그룹 (예컨대, 조합 공간)으로부터 핵산 분자들의 세트 (예컨대, 식별자들)를 취함으로써 인코드될 수 있다. 정의된 분자 그룹의 각각의 가능한 식별자는 레이어들로 분할될 수 있는 사전제작된 구성요소 세트로부터 얻은 핵산 서열들 (예컨대, 구성요소들)의 어셈블리일 수 있다. 각 개별 식별자는 모든 레이어로부터의 하나의 구성요소를 고정된 순서로 연결하여 구성될 수 있다. 예를 들면, M개 레이어들이 존재하고 각 레이어가 n개의 구성요소들을 가질 수 있는 경우, 최대 C = n M 개의 고유한 식별자들이 구성될 수 있고 최대 2 C 개의 상이한 정보 항목, 또는 C개 비트가 인코드되어 저장될 수 있다. 예를 들면, 메가비트 정보의 저장은 1 x 106개의 별개 식별자들 또는 크기 C = 1 x 106의 조합 공간을 사용할 수 있다. 이러한 예에서 식별자들은 상이한 방식으로 구성된 다양한 구성요소들로부터 어셈블리될 수 있다. 어셈블리는 M = 2개의 사전제작된 레이어들로부터 만들어질 수 있으며, 각각은 n = 1 x 103개의 구성요소들을 내포한다. 대안적으로, 어셈블리는 M = 3개의 레이어들로부터 만들어질 수 있으며, 각각은 n = 1 x 102개의 구성요소들을 내포한다. 이러한 예에서 알 수 있듯이, 더 많은 수의 레이어들을 사용하여 동일한 양의 정보를 인코딩하면 전체 구성요소들의 수가 더 작아질 수 있다. 더 적은 수의 전체 구성요소를 사용하면 기록 비용 양상에서 유리할 수 있다.
한 예에서, 2개 세트의 고유한 핵산 서열들 또는 레이어들, X 및 Y로 시작할 수 있으며, 각각은 각각 x y 구성요소들 (예컨대, 핵산 서열들)을 가진다. X의 각 핵산 서열은 Y의 각 핵산 서열에 어셈블될 수 있다. 두 세트에서 유지되는 총 핵산 서열 수는 xy의 합계 일 수 있지만, 생성될 수 있는 총 핵산 분자 수, 그러므로 생성 될 수 있는 가능한 식별자들의 수는 xy의 곱일 수 있다. X로부터의 서열들이 임의의 순서로 Y의 서열들에 어셈블될 수 있다면 훨씬 더 많은 핵산 서열들 (예컨대, 식별자들)이 생성될 수 있다. 예를 들어, 생성된 핵산 서열들 (예컨대, 식별자들)의 수는 어셈블리 순서가 프로그래밍 가능한 경우 xy의 곱의 두 배일 수 있다. 생성 될 수 있는 모든 가능한 이러한 핵산 서열의 세트는 XY로 지칭 될 수 있다. XY에서 고유한 핵산 서열들의 어셈블된 단위들의 순서는 별개 5' 및 3' 말단들, 및 제한 분해가 있는 핵산들을 사용하여 조절될 수 있으며, 연결, 중합효소 연쇄 반응 (PCR), 및 시퀀싱은 해당 서열들의 별개 5' 및 3' 말단들에 대해 일어날 수 있다. 이러한 접근 방식은 N개의 별개 비트들을 인코드하는데 사용되는 전체 핵산 서열들 (예컨대, 구성요소들)의 수를, 이들의 어셈블리 산물의 조합 및 순서들에 있어서의 정보를 인코딩함으로써 감소시킬 수 있다. 예를 들면, 100비트의 정보를 인코딩하기 위하여, 10개의 별개 핵산 분자 (예컨대, 구성요소)의 2개 레이어를 고정된 순서로 어셈블리하여, 10*10개 또는 100개의 별개 핵산 분자들 (예컨대, 식별자들)을 생성할 수 있으며, 또는 5개의 별개 핵산 분자들 (예컨대, 구성요소들)의 1개 레이어 및 10개의 별개 핵산 분자들 (예컨대, 구성요소들)의 또 다른 레이어를 임의의 순서로 어셈블리하여 100개의 별개 핵산 분자들 (예컨대, 식별자들)을 생성할 수 있다.
각 레이어 내 핵산 서열들 (예컨대, 구성요소들)은 중앙에 고유한 (또는 별개) 서열, 또는 바코드, 한 쪽 말단에 공통 혼성화 영역, 그리고 또 다른 한 쪽 말단에 또 다른 공통 혼성화 영역을 포함할 수 있다. 바코드는 레이어 내부의 모든 서열을 고유하게 식별하기에 충분한 수의 뉴클레오티드를 내포할 수 있다. 예를 들면, 바코드 내 각 염기 위치에 대해 전형적으로 4개의 가능한 뉴클레오티드들이 존재한다. 그러므로, 3개의 염기 바코드는 43 = 64개 핵산 서열들을 고유하게 식별할 수 있다. 상기 바코드들은 무작위 생성되도록 설계될 수 있다. 대안적으로, 바코드는 식별자들의 구성 화학 또는 시퀀싱에 문제를 일으킬 수 있는 서열들을 피하도록 설계될 수 있다. 또한, 바코드들은 각각이 다른 바코드들로부터 최소 해밍 거리를 가질 수 있도록 설계 될 수 있으며, 이에 따라 기본 해상도 변화 또는 판독 오류가 바코드의 적절한 식별을 방해 할 수 있는 가능성이 줄어든다. DNA 서열들의 합리적 설계에 관하여 화학적 방법 섹션 H를 참고하라.
핵산 서열 (예컨대, 구성요소)의 한쪽 말단 상의 혼성화 영역은 각 레이어에서 상이할 수 있으나, 혼성화 영역은 하나의 레이어 내부에서 각 구성원에 대해 동일할 수 있다. 인접한 레이어들은, 그 구성요소들 상에 서로 상호작용할 수 있게 하는 상보적 혼성화 영역들을 가지는 레이어들이다. 예를 들면, 레이어 X의 임의의 구성요소는 상보적 혼성화 영역들을 가질 수 있기 때문에 레이어 Y의 임의의 구성요소에 부착될 수 있다. 반대쪽 말단 상의 혼성화 영역은 첫번째 말단 상의 혼성화 영역과 동일한 목적으로 기능할 수 있다. 예를 들면, 레이어 Y의 임의의 구성요소는 한쪽 말단 상에서 레이어 X의 임의의 구성요소에 그리고 반대쪽 말단 상에서 레이어 Z의 임의의 구성요소에 부착될 수 있다.
도 6A 6B는 각 레이어의 별개 구성요소 (예컨대, 핵산 서열)를 고정된 순서로 조합적으로 어셈블리함으로써 식별자들 (예컨대, 핵산 분자들)을 구성하는, “프로덕트 방식”으로 지칭되는 한 예시적 방법을 도시한다. 도 6A는 프로덕트 방식을 사용하여 구성된 식별자들의 구조를 도시한다. 식별자는 각 레이어의 단일 구성요소를 고정된 순서로 조합하여 구성될 수 있다. 각각 N개 구성요소들이 있는 M개 레이어들의 경우, N M 개의 가능한 식별자들이 존재한다. 도 6B는 프로덕트 방식을 사용하여 구성될 수 있는 식별자들의 조합 공간에 관한 한 예를 도시한다. 한 예에서, 조합 공간은 각각 3개의 별개 구성요소들을 포함하는 3개 레이어들로부터 생성될 수 있다. 상기 구성요소들은 각 레이어의 하나의 구성요소가 고정된 순서로 조합될 수 있도록 조합될 수 있다. 이러한 조합 방법을 위한 전체 조합 공간은 27개의 가능한 식별자들을 포함할 수 있다.
도 7-10은 프로덕트 방식을 수행하는 화학적 방법들을 도시한다 (도 6 참고). 둘 이상의 별개 구성요소들을 고정된 순서로 어셈블리하는 임의의 다른 방법들과 함께, 도 7-10에 도시된 방법들을 사용하여, 예를 들면, 식별자 라이브러리에 임의의 하나 이상의 식별자들을 생성할 수 있다. 식별자들은 본원에 개시된 방법들 또는 시스템들이 실시되는 동안 임의의 시점에서 도 7-10에 기재된 실시 방법들 중 어느 하나를 사용하여 구성될 수 있다. 일부 예들에서, 디지털 정보가 인코드되거나 기록되기 전에 가능한 식별자들의 조합 공간의 전부 또는 일부가 구성될 수 있으며, 이후 기록 프로세스는 기존 세트로부터의 식별자들 (정보를 인코딩함)을 기계적으로 선택하고 풀링하는 것을 포함할 수 있다. 다른 예들에서, 식별자들은 데이터 인코딩 또는 기록 프로세스의 하나 이상의 단계가 발생한 후에 구성 될 수 있다 (즉, 정보가 기록 될 때).
효소 반응들은 상이한 레이어들 또는 세트들의 구성요소들을 어셈블리하기 위해 사용될 수 있다. 각 레이어의 구성요소들 (예컨대, 핵산 서열들)은 인접합 레이어들의 구성요소들에 대한 특이적 혼성화 또는 부착 영역들을 가지기 때문에 어셈블리는 원 포트 반응으로 발생할 수 있다. 예를 들면, 레이어 X의 핵산 서열 (예컨대, 구성요소) X1, 레이어 Y의 핵산 서열 Y1, 및 레이어 Z의 핵산 서열 Z1은 어셈블리된 핵산 분자 (예컨대, 식별자) X1Y1Z1을 형성할 수 있다. 또한, 다수의 핵산 분자들 (예컨대, 식별자들)은 각 레이어로부터의 다수의 핵산 서열들을 포함함으로써 하나의 반응에서 어셈블리될 수 있다. 예를 들면, 앞선 예의 원 포트 반응에서 Y1 및 Y2 모두를 포함하면 2개의 어셈블리 산물 (예컨대, 식별자들), X1Y1Z1 및 X1Y2Z1이 생성될 수 있다. 이러한 반응 다중화는 물리적으로 구성되는 복수의 식별자들에 대한 기록 시간을 가속화하기 위해 사용될 수 있다. 어셈블리 효율과 관련된 DNA 서열의 합리적인 설계에 대한 자세한 내용은 화학적 방법 섹션 H를 참조하라. 핵산 서열의 어셈블리는 약 1일, 12시간, 10시간, 9시간, 8시간, 7시간, 6시간, 5시간, 4시간, 3시간, 2시간 또는 1시간 미만의 시기에 수행 될 수 있다. 인코드된 데이터의 정확도는 적어도 약 90%, 95%, 96%, 97%, 98%, 99%, 또는 그 이상이거나 대략 이와 동일할 수 있다.
식별자들은 도 7에 도시된 바와 같이 중첩 연장 중합효소 연쇄 반응 (OEPCR)을 사용하여 프로덕트 방식에 따라 구성될 수 있다. 각 레이어의 각 구성요소는 해당 서열 말단에 공통 혼성화 영역이 있는 이중-가닥 또는 단일-가닥 (도면에 도시) 핵산 서열을 포함할 수 있는데, 이러한 공통 혼성화 영역은 인접한 레이어의 구성요소들의 서열 말단에 있는 공통 혼성화 영역에 상동성 및/또는 상보성일 수 있다. 개별 식별자는 구성요소들 X1 - XA를 포함하는 레이어 X (또는 레이어 1)의 하나의 구성요소 (예컨대, 고유한 서열), Y1 - YA를 포함하는 레이어 Y (또는 레이어 2)의 제 2 구성요소 (예컨대, 고유한 서열) 및 Z1 - ZB.를 포함하는 레이어 Z (또는 레이어 3)의 제 3 구성요소 (예컨대, 고유한 서열)을 연결하여 구성될 수 있다. 레이어 X의 구성요소들은 레이어 Y의 구성요소들에서의 3' 말단과 상보성을 공유하는 3' 말단을 가질 수 있다. 그러므로 레이어 X 및 Y로부터의 단일-가닥 구성요소들은 3' 말단에서 함께 어닐링될 수 있으며 PCR을 사용하여 확장되어 이중-가닥 핵산 분자를 생성할 수 있다. 생성된 이중 가닥 핵산 분자는 용융되어 레이어 Z의 구성요소의 3' 말단과 상보성을 공유하는 3' 말단을 생성 할 수 있다. 레이어 Z의 구성요소는 생성된 핵산 분자와 어닐링 될 수 있으며, 확장되어 고정된 순서로 레이어 X, Y 및 Z로부터의 단일 구성요소로 구성된 고유 식별자를 생성할 수 있다. OEPCR에 관한 화학적 방법들 섹션 A를 참고하라. DNA 크기 선별 (예컨대, 겔 추출 이용, 화학적 방법 섹션 E 참고) 또는 최외각 레이어들에 연접한 프라이머들을 이용한 중합효소 연쇄 반응 (PCR) (화학적 방법 섹션 D 참고)을 실시하여, 완전히 어셈블리된 식별자 프로덕트를 해당 반응에서 형성될 수 있는 기타 부산물들로부터 분리할 수 있다. 상기 2개의 최외각 레이어들 각각에 대해 하나씩, 2개의 프로브를 이용한 순차적 핵산 포획 또한 실시하여, 완전히 어셈블리된 식별자 프로덕트를 해당 반응에서 형성될 수 있는 기타 부산물들로부터 분리할 수 있다 (화학적 방법 섹션 F 참고).
식별자들은 도 8에 도시된 바와 같이, 점착성 말단 연결을 사용하는 프로덕트 방식에 따라 어셈블리될 수 있다. 단일-가닥 3' 오버행을 갖는 이중 가닥 구성요소들 (예컨대, 이중 가닥 DNA (dsDNA))를 각각 포함하는 3개의 레이어를 사용하여 별개 식별자들을 어셈블리할 수 있다. 예를 들면, 식별자들은 구성요소들 X1 - XA를 포함하는 레이어 X (또는 레이어 1)로부터의 하나의 구성요소, Y1 - YB를 포함하는 레이어 Y (또는 레이어 2)로부터의 제 2 구성요소 및 Z1 - ZC를 포함하는 레이어 Z (또는 레이어 3)로부터의 제 3 구성요소를 포함한다. 레이어 X의 구성요소들을 레이어 Y의 구성요소들과 결합하기 위해, 레이어 X의 구성요소들은 도 8에서 a로 표지된 공통 3' 오버행을 포함할 수 있으며, 레이어 Y의 구성요소들은 공통의, 상보적 3' 오버행, a*을 포함할 수 있다. 레이어 Y의 구성요소들을 레이어 Z의 구성요소들과 결합하기 위해, 레이어 Y의 구성요소들은 도 8에서 b로 표지된 공통 3' 오버행을 포함할 수 있으며, 레이어 Z의 구성요소들은 공통의, 상보적 3' 오버행, b*를 포함할 수 있다. 레이어 X 구성요소들의 3' 오버행은 레이어 Y 구성요소들의 3' 말단에 상보적일 수 있으며 레이어 Y 구성요소들의 다른 3' 오버행은 레이어 Z 구성요소들의 3' 말단에 상보적일 수 있어, 구성요소들은 혼성화하여 연결될 수 있다. 이와 같이, 레이어 X의 구성요소들은 레이어 X 또는 레이어 Z의 다른 구성요소들과 혼성화할 수 없으며, 유사하게 레이어 Y의 구성요소들은 레이어 Y의 다른 구성요소들과 혼성화할 수 없다. 또한, 레이어 Y의 단일 구성요소는 레이어 X의 단일 구성요소 및 레이어 Z의 단일 구성요소에 연결하여, 완전한 식별자가 형성되게 할 수 있다. 점착성 말단 연결에 관하여 화학적 방법 섹션 B를 참고하라. DNA 크기 선별 (예컨대, 겔 추출 이용, 화학적 방법 섹션 E 참고) 또는 최외각 레이어들에 연접한 프라이머들을 이용한 중합효소 연쇄 반응 (PCR) (화학적 방법 섹션 D 참고)을 실시하여, 식별자 프로덕트를 해당 반응에서 형성될 수 있는 기타 부산물들로부터 분리할 수 있다. 상기 2개의 최외각 레이어들 각각에 대해 하나씩, 2개의 프로브를 이용한 순차적 핵산 포획 또한 실시하여, 식별자 프로덕트를 해당 반응에서 형성될 수 있는 기타 부산물들로부터 분리할 수 있다 (화학적 방법 섹션 F 참고).
점착성 말단 연결을 위해 점착성 말단들은 각 레이어의 구성요소들을 제한 엔도뉴클레아제로 처리함으로써 생성될 수 있다 (제한 효소 반응들에 관한 더 많은 정보는 화학적 방법 섹션 C 참고). 일부 구체예들에서, 다수 레이어들의 구성요소들은 하나의 “모체” 구성요소들의 세트로부터 생성될 수 있다. 예를 들어, 한 구체예에서 단일 모체 세트의 이중-가닥 구성요소들은 각 말단에 상보적 제한 부위들 (예컨대, BamHI 및 BglII에 대한 제한 부위들)을 가질 수 있다. 어셈블리를 위해 임의의 2개 구성요소들을 선택하고 하나 또는 다른 하나의 상보적 제한 효소 (예를 들어, BglII 또는 BamHI)로 개별적으로 분해하여 함께 연결 될 수 있는 상보적인 점착성 말단을 생성하여 불활성 잔흔 (inert scar)을 생성 할 수 있다. 프로덕트 핵산 서열은 각 말단에 상보적인 제한 부위 (예를 들어, 5' 말단의 BamHI 및 3' 말단의 BglII)를 포함 할 수 있고, 동일한 과정에 따라 상기 모체 세트의 또 다른 성분에 추가로 연결 될 수 있다. 이러한 과정은 무한하게 순환할 수 있다 (도 20). 상기 모체가 N 구성요소들을 포함하는 경우, 각 주기는 N개 구성요소들의 추가 레이어를 프로덕트 방식에 추가하는 것과 동일할 수 있다.
연결을 사용하여, 세트 X (예컨대, dsDNA의 세트 1)의 요소들 및 세트 Y (예컨대, dsDNA의 세트 2)의 요소들을 포함하는 핵산들의 서열을 구성하는 방법은 이중 가닥 서열들로 된 둘 이상의 풀들 (예컨대, dsDNA의 세트 1 및 dsDNA의 세트 2)을 수득 또는 구성하는 단계들을 포함할 수 있으며, 이 때 제 1 세트 (예컨대, dsDNA의 세트 1)는 점착성 말단 (예컨대, a )를 포함하고 제 2 세트 (예컨대, dsDNA의 세트 2)는 상기 제 1 세트의 점착성 말단에 상보적인 점착성 말단 (예컨대, a*)를 포함한다. 제 1 세트 (예컨대, dsDNA의 세트 1)로부터의 임의의 DNA 및 제 2 세트 (예컨대, dsDNA의 세트 2)로부터의 임의의 DNA 서브세트는 조합 및 어셈블리된 다음, 함께 연결되어, 제 1 세트의 요소 및 제 2 세트의 요소를 가지는 단일 이중 가닥 DNA를 형성할 수 있다.
도 9에 도시된 바와 같이, 식별자들은 부위 특이적 재조합을 사용하는 프로덕트 방식에 따라 어셈블리 될 수 있다. 식별자들은 상이한 3개 레이어들의 구성요소들을 어셈블리함으로써 구성될 수 있다. 레이어 X (또는 레이어 1)의 구성요소들은 분자의 한 쪽에 attBx 재조합효소 부위가 있는 이중-가닥 분자를 포함할 수 있고, 레이어 Y (또는 레이어 2)의 구성요소들은 한 쪽에 attPx 재조합효소 부위를 그리고 다른 한 쪽에 attBy 재조합효소 부위를 가지는 이중-가닥 분자들을 포함할 수 있으며, 레이어 Z (또는 레이어 3)의 구성요소들은 분자의 한 쪽에 attPy 재조합효소 부위를 포함할 수 있다. 아래첨자로 표시되는, 하나의 쌍 내부의 attB 및 attP 부위들은 그 상응하는 재조합효소의 존재시 재조합가능하다. 레이어 X의 한 구성요소가 레이어 Y의 한 구성요소와 결합하고, 레이어 Y의 한 구성요소가 Z 레이어의 한 구성요소와 결합되도록 각 레이어의 한 구성요소를 결합 할 수 있다. 하나 이상의 재조합효소를 적용하면 구성요소들을 재조합하여 정렬된 구성요소들을 포함하는 이중-가닥 식별자를 생성할 수 있다. DNA 크기 선별 (예를 들어, 겔 추출 이용) 또는 최외각 레이어들에 연접한 프라이머들을 이용한 PCR을 실시하여, 식별자 프로덕트를 해당 반응에서 형성될 수 있는 기타 부산물들로부터 분리할 수 있다. 일반적으로 여러 개의 직교 attB 및 attP 쌍이 사용될 수 있으며, 각 쌍은 추가 레이어의 구성요소를 어셈블리하는데 사용될 수 있다. 대형-세린 계열의 재조합효소의 경우, 재조합효소 당 최대 6개의 직교 attB 및 attP 쌍이 생성 될 수 있으며 다중 직교 재조합효소 또한 생성 될 수 있다. 예를 들어, 12개의 직교 attB 및 attP 쌍, BxbI 및 PhiC31과 같은 2개의 대형 세린 재조합효소 각각의 6개의 직교 쌍을 사용하여 13개의 레이어를 어셈블리할 수 있다. attB 및 attP 쌍의 직교성은 한 쌍의 attB 부위가 다른 쌍의 attP 부위와 반응하지 않도록 한다. 이를 통해 여러 레이어들의 구성요소들을 고정된 순서로 어셈블리할 수 있다. 재조합효소-매개 재조합 반응은 실시되는 재조합효소 시스템에 따라 가역적이거나 비가역적일 수 있다. 예를 들어, 대형 세린 재조합효소 계열은 고 에너지 보조인자없이 비가역적 재조합 반응을 촉매하는 반면, 티로신 재조합효소 계열은 가역적 반응을 촉매한다.
도 10A에 도시된 바와 같이, 식별자들은 템플릿 지시된 연결 (TDL)을 사용하여 프로덕트 방식에 따라 구성될 수 있다. 템플릿 지시된 연결은 “템플릿” 또는 “스테이플”이라 지칭되는 단일-가닥 핵산 서열들을 이용하여, 식별자들을 형성하는 구성요소들의 정렬된 연결을 용이하게 한다. 상기 템플릿은 동시에 인접 레이어들의 구성요소들에 혼성화하고, 리가아제가 이들을 연결시키는 동안 이들을 서로에 대해 인접하도록 (5' 말단에 대해 3' 말단) 유지시킨다. 도 10A의 예에서, 단일-가닥 구성요소들의 3개 레이어 또는 세트가 조합된다. 서열 a*에 상보적인, 3' 말단에서 공통 서열 a를 공유하는, 구성요소들의 제 1 레이어 (예컨대, 레이어 X 또는 레이어 1); 서열 b* c*에 상보적인, 각각 5' 및 3' 말단에서 공통 서열 bc를 공유하는, 구성요소들의 제 2 레이어 (예컨대, 레이어 Y 또는 레이어 2); 서열 d*에 상보적일 수 있는, 5' 말단에서 공통 서열 d를 공유하는, 구성요소들의 제 3 레이어 (예컨대, 레이어 Z 또는 레이어 3) 및 서열 a*b* (5' -> 3')를 포함하는 제 1 스테이플 및 서열 c*d* ('5 -> 3')를 포함하는 제 2 스테이플을 가지는 2개 템플릿 또는 “스테이플”의 세트. 본 예에서, 각 레이어로부터의 하나 이상의 구성요소들이 선택되고 반응하여 스테이플과 혼합될 수 있으며, 이는 상보적 어닐링에 의해, 각 레이어의 하나의 구성요소를 정해진 순서로 연결시켜 식별자를 형성하는 것을 용이하게 할 수 있다. TDL에 관하여 화학적 방법 섹션 B를 참고하라. DNA 크기 선별 (예컨대, 겔 추출 이용, 화학적 방법 섹션 E 참고) 또는 최외각 레이어들에 연접한 프라이머들을 이용한 중합효소 연쇄 반응 (PCR) (화학적 방법 섹션 D 참고)을 실시하여, 식별자 프로덕트를 해당 반응에서 형성될 수 있는 기타 부산물들로부터 분리할 수 있다. 상기 2개의 최외각 레이어들 각각에 대해 하나씩, 2개의 프로브를 이용한 순차적 핵산 포획 또한 실시하여, 식별자 프로덕트를 해당 반응에서 형성될 수 있는 기타 부산물들로부터 분리할 수 있다 (화학적 방법 섹션 F 참고).
도 10B는 각각 6-레이어 TDL과 어셈블리 되었던 256개 별개 핵산 서열들의 복제수 (풍부도)에 관한 히스토그램을 보여준다. 에지 레이어들 (첫 번째 및 마지막 레이어들) 각각은 하나의 구성요소를 가지며, 내부 레이어들 (나머지 4개 레이어들) 각각은 4개의 구성요소들을 가졌다. 각 에지 레이어 구성요소는 10개 염기 혼성화 영역을 포함하는 27개 염기였다. 각 내부 레이어 구성요소는 5' 말단에서 10개 염기 공통 혼성화 영역, 10개 염기 가변 (바코드) 영역, 및 3' 말단에서 10개 염기 공통 혼성화 영역을 포함하는 30개 염기였다. 3개 템플릿 가닥 각각은 20개 염기 길이였다. 256개 별개 서열들 모두는 모든 구성요소들 및 템플릿, T4 폴리뉴클레오티드 키나제 (구성요소 인산화용), 및 T4 리가아제, ATP, 및 다른 적절한 반응 시약들을 포함하는 하나의 반응을 사용하여 다중 방식으로 어셈블리되었다. 상기 반응을 37도에서 30분 동안 배양한 다음 실온에서 1시간 동안 배양했다. 시퀀싱 어댑터들을 PCR에 의한 반응 프로덕트에 추가하고, 이러한 프로덕트를 Illumina MiSeq 기기로 시퀀싱하였다. 총 192910개의 어셈블리된 서열 리드들 중 각각의 별개 어셈블리된 서열의 상대 복제수를 표시한다. 이 방법의 다른 구체예는 이중 가닥 구성요소들을 사용할 수 있으며, 여기서 이러한 구성요소들은 초기에 용융되어, 스테이플에 어닐링 할 수 있는 단일 가닥 형태들을 형성한다. 이 방법 (즉, TDL)의 다른 구체예들 또는 유도체들을 사용하여 프로덕트 방식에서 달성될 수 있는 것보다 더 복잡한 식별자들의 조합 공간을 구성할 수 있다.
식별자들은 골든 게이트 어셈블리, 깁슨 어셈블리 및 리가아제 순환 반응 어셈블리를 비롯한 다양한 다른 화학적 실시방법들을 사용하여 프로덕트 방식에 따라 구성될 수 있다.
도 11A 11B는 순열배치된 구성요소들 (예컨대, 핵산 서열들)을 사용하여 식별자들 (예컨대, 핵산 분자들)을 구성하기 위한 “순열 방식”으로 지칭되는, 한 방법의 예를 개략적으로 도시한다. 도 11A는 순열 방식을 사용하여 구성된 식별자들의 구조를 도시한다. 식별자는 각 레이어의 단일 구성요소를 프로그램가능한 순서로 조합하여 구성될 수 있다. 도 11B는 순열 방식을 사용하여 구성될 수 있는 식별자들의 조합 공간에 관한 한 예를 도시한다. 한 예에서, 크기 6의 조합 공간은 각각 1개의 별개 구성요소를 포함하는 3개 레이어들로부터 생성될 수 있다. 구성요소들은 임의의 순서로 연쇄될 수 있다. 일반적으로, 각 N개 구성요소들이 있는 M개 레이어의 경우, 순열 방식은 총 N M M! 개의 식별자들의 조합 공간을 가능하게 한다.
도 11C는 템플릿 지시된 연결 (TDL, 화학적 방법 섹션 B 참고)을 사용한 순열 방식의 예시적인 구현예를 도시한다. 여러 레이어들의 구성요소들은 고정된 왼쪽 말단과 오른쪽 말단의 구성요소들 사이에서 어셈블리되며, 이는 에지 스캐폴드로 지칭된다. 이러한 에지 스캐폴드는 해당 조합 공간 내 모든 식별자들에 대해 동일하므로 해당 구현을 위한 반응 마스터 믹스의 일부로 추가 될 수 있다. 해당 반응에서 서로 다른 레이어의 구성요소들이 식별자에 통합되는 순서가 해당 반응을 위해 선택된 템플릿에 따라 달라지도록 2개 레이어 또는 스캐폴드들 간의 가능한 연결에 대한 템플릿 또는 스테이플이 존재한다. M 레이어에 대하여 가능한 순열을 가능하도록 하기 위해, 모든 가능한 연결 (스캐폴드와의 연결 포함)에 대해 M 2 +2M개의 별개의 선택가능한 스테이플이 존재할 수 있다. M개의 이들 템플릿 (회색 음영)은 레이어들과 그 자체 사이의 연결을 형성하며 본원에 기재된 순열 어셈블리를 목적으로 제외될 수 있다. 그러나 이들의 포함은, 도 11D-G에 도시된 바와 같이 반복 구성요소들을 포함하는 식별자들을 가지는 보다 큰 조합 공간을 가능하게 할 수 있다. DNA 크기 선별 (예컨대, 겔 추출 이용, 화학적 방법 섹션 E 참고) 또는 최외각 레이어들에 연접한 프라이머들을 이용한 중합효소 연쇄 반응 (PCR) (화학적 방법 섹션 D 참고)을 실시하여, 식별자 프로덕트를 해당 반응에서 형성될 수 있는 기타 부산물들로부터 분리할 수 있다. 상기 2개의 최외각 레이어들 각각에 대해 하나씩, 2개의 프로브를 이용한 순차적 핵산 포획 또한 실시하여, 식별자 프로덕트를 해당 반응에서 형성될 수 있는 기타 부산물들로부터 분리할 수 있다 (화학적 방법 섹션 F 참고).
도 11D-G는 반복 구성요소들을 가지는 특정 식별자들의 예시들을 포함하도록 순열 방식이 확장될 수 있는 방법에 관한 예시적 방법을 도시한다. 도 11D도 11C의 구현예를 사용하여 순열배치된 그리고 반복된 구성요소들을 가지는 식별자들을 구성할 수 있는 방법에 관한 예를 보여준다. 예를 들어, 식별자는 2개의 별개 구성요소들로부터 어셈블리된 총 3개의 구성요소들을 포함 할 수 있다. 이 예에서, 한 레이어의 한 구성요소는 식별자에서 여러번 존재할 수 있다. 동일한 구성요소의 인접한 연결들은 동일한 구성요소의 3' 말단 및 5' 말단 모두에 대한 인접 상보적 혼성화 영역들을 가지는 스테이플, 가령, 도면에서 a*b* (5' -> 3') 스테이플을 사용함으로써 구현될 수 있다. 일반적으로, M개 레이어들의 경우, 이러한 M개의 스테이플이 존재한다. 도 11E에 도시된 바와 같이, 반복 구성요소들을 이러한 구현예로 통합하여, 에지 스캐폴드들 사이에 어셈블리되는 1개 이상의 길이 (즉, 1, 2, 3, 4개, 또는 그 이상의 구성요소들을 포함)의 핵산 서열을 생성할 수 있다. 도 11E 도 11D의 구현예가 식별자 이외에, 에지 스캐폴드들 사이에 어셈블리되는 비-표적화 핵산 서열들을 생성할 수 있는 방법을 보여준다. 적절한 식별자는 에지에서 동일한 프라이머 결합 부위를 공유하기 때문에 PCR로 비-표적화 핵산 서열로부터 분리 할 수 없다. 그러나, 이러한 예에서, 각각의 어셈블리된 핵산 서열이 고유한 길이를 가지도록 설계될 수 있으므로 (예컨대, 모든 구성요소들이 동일한 길이를 가지는 경우), DNA 크기 선별 (예컨대, 겔 추출을 통한)을 실시하여, 비-표적화 서열들로부터 표적된 식별자들 (예컨대, 위에서부터 두번째 서열)을 분리할 수 있다. 크기 선별에 관해 화학적 방법 섹션 E를 참고하라. 도 11F는 반복된 구성요소들로 식별자를 구성하는 것이 동일한 반응에서 별개 길이의 동일한 에지 서열들을 가지는 다수의 핵산 서열들을 생성할 수 있는 또 다른 예를 보여준다. 이 방법에서, 한 레이어의 구성요소들을 다른 레이어들의 구성요소들과 교번 패턴으로 어셈블리하는 템플릿이 사용될 수 있다. 도 11E에 도시된 방법에서와 같이, 크기 선별을 사용하여 설계된 길이의 식별자들을 선별할 수 있다. 도 11G는 반복 구성요소들로 식별자를 구성하는 것이 동일한 에지 서열들, 그리고 일부 핵산 서열의 경우 (예컨대, 위에서부터 세 번째 및 네 번째 그리고 아래에서부터 여섯번째 및 일곱번째), 동일한 길이의 다수의 핵산 서열들을 생성할 수 있는 예를 보여준다. 이 예에서, PCR 및 DNA 크기 선별이 실시되더라도, 둘 중 하나는 구성하고 다른 하나는 또한 구성하지 않는 것이 불가능할 수 있기 때문에 동일한 길이를 공유하는 핵산 서열들은 개별 식별자들인 둘 모두로부터 제외될 수 있다.
도 12A - 12D는 보다 큰 수, M개의 가능한 구성요소들 중에서 임의의 수, K의 어셈블리된 구성요소들 (예컨대, 핵산 서열들)로 식별자들 (예컨대, 핵산 분자들)을 구성하는, “MchooseK” 방식으로 지칭되는 방법의 한 예를 개략적으로 도시한다. 도 12A는 MchooseK 방식을 사용하여 구성된 식별자들의 구조를 도시한다. 이 방법을 사용하여 식별자들은 모든 레이어들 중 임의의 서브세트 내 각 레이어로부터의 하나의 구성요소를 (예컨대, M개의 가능한 레이어들 중에서 k 레이어의 구성요소를 선택함) 어셈블리함으로서 구성된다. 도 12B는 MchooseK 방식을 사용하여 구성될 수 있는 식별자들의 조합 공간에 관한 한 예를 도시한다. 이 어셈블리 방식에서, 조합 공간은 M 레이어들, 각 레이어 당 N 구성요소들, 및 K 구성요소들의 식별자 길이에 대해 N K MchooseK개의 가능한 식별자들을 포함할 수 있다. 한 예에서, 각각 하나의 구성요소를 포함하는 5개의 레이어가 있는 경우, 각각 2개의 구성요소를 포함하는 최대 10개의 별개 식별자들이 어셈블리 될 수 있다.
이러한 MchooseK 방식은 도 12C에 도시된 템플릿 지시된 연결 (화학적 방법 섹션 B 참고)을 사용하여 실시될 수 있다. 순열 방식에 대한 TDL 실시에서와 같이 (도 11C), 본 예시의 구성요소들은 반응 마스터 믹스에 포함되거나 포함되지 않을 수 있는 에지 스캐폴드들 사이에서 어셈블리된다. 구성요소들은 M개 레이어들로, 예를 들어, 2 내지 M의 예정된 랭크로 M = 4개 레이어들로 분할될 수 있으며, 여기서 왼쪽 에지 스캐폴드는 랭크 1 일 수 있고 오른쪽 에지 스캐폴드는 랭크 M+1 일 수 있다. 템플릿들은 임의의 2개 구성요소들의 3' -> 5' 연결을 위해 보다 낮은 랭크 내지 보다 높은 랭크의 핵산 서열들을 각각 포함한다. ((M+1) 2 +M+1)/2개의 이러한 템플릿이 존재한다. 별개 레이어들의 임의의 K 구성요소들의 개별 식별자는 상기 K개 구성요소들을 에지 스캐폴드와 함께 이들의 랭크 순서로 함께 결합시키기 위해 사용되는 상응하는 K+1 스테이플과 조합함으로써 구성될 수 있다. 이러한 반응 설정은 에지 스캐폴드들 사이에 표적 식별자에 상응하는 핵산 서열을 행성할 수 있다. 대안적으로, 모든 템플릿을 포함하는 반응 혼합물은 표적 식별자를 어셈블리하기 위해 선택된 구성요소들과 조합 될 수 있다. 이 대안적인 방법은 도 12D에 예시된 바와 같이 동일한 에지 서열을 갖지만 별개 길이의 (모든 구성요소 길이가 동일한 경우) 다양한 핵산 서열을 생성 할 수 있다. 이러한 표적 식별자 (아래)는 부산물 핵산 서열들로부터 크기 별로 분리될 수 있다. 핵산 크기-선별에 관하여 화학적 방법 섹션 E를 참고하라.
도 13A 13B는 파티션된 구성요소들로 식별자들을 구성하기 위한 “파티션 방식”으로 지칭되는 방법의 한 예를 개략적으로 도시한다. 도 13A는 파티션 방식을 사용하여 구성될 수 있는 식별자들의 조합 공간에 관한 한 예를 보여준다. 개별 식별자는 서로 다른 레이어들의 2개 구성요소들 사이에 임의의 파티션 (구체적으로 분류된 구성요소)을 선택적으로 배치하여 각 레이어의 하나의 구성요소를 고정된 순서로 어셈블리하여 구성 할 수 있다. 예를 들면, 구성요소들의 한 세트는 하나의 파티션 구성요소 및 각각 하나의 구성요소를 내포하는 4개 레이어들로 구성될 수 있다. 각 레이어의 구성요소는 고정된 순서로 조합 될 수 있으며 단일 파티션 구성요소는 레이어들 사이의 다양한 위치에서 어셈블리 될 수 있다. 이러한 조합 공간의 식별자는 8개의 가능한 식별자의 조합 공간을 만들기 위해 파티션 구성요소를 포함하지 않을 수 있으며, 제 1 레이어와 제 2 레이어의 구성요소들 사이의 파티션 구성요소, 제 2 레이어와 제 3 레이어의 구성요소들 사이의 파티션 등을 포함 할 수 있다. 일반적으로, 각각 N개의 구성요소들, 및 p개의 파티션 구성요소들이 있는 M 레이어들의 경우, N K (p+1) M-1 개의 가능한 식별자들이 구성될 수 있다. 이러한 방법은 다양한 길이의 식별자들을 생성할 수 있다.
도 13B는 템플릿 지시된 연결을 사용하는 파티션 방식의 예시적인 구현예를 보여준다 (화학적 방법 섹션 B 참고). 템플릿들은 M개 레이어들 각각의 하나의 구성요소를 고정된 순서로 함께 연결시키기 위한 핵산 서열들을 포함한다. 각 파티션 구성요소에 있어서, 임의의 2개 인접한 레이어들의 구성요소들 사이에서 파티션 구성요소를 연결시킬 수 있는 추가 템플릿 쌍들이 존재한다. 한 쌍에서 하나의 템플릿 (예를 들면, 서열 g*b* (5' -> 3')을 보유)은 레이어 1의 3' 말단 (서열 b 보유)를 파티션 구성요소의 5' 말단 (서열 g 보유)에 연결할 수 있게 하고 해당 쌍에서 제 2 템플릿 (예를 들면, 서열 c*h* (5' -> 3') 보유)은 해당 파티션 구성요소의 3' 말단 (서열 h 보유)를 레이어 2의 5' 말단 (서열 c 보유)에 연결할 수 있게 하는 한 쌍의 템플릿이 그 예이다. 인접한 레이어들의 2개 구성요소들 사이에 파티션을 삽입하려면, 해당 레이어들을 함께 연결시키기 위한 표준 템플릿은 반응에서 제외 될 수 있으며 해당 위치에서 파티션을 연결시키기 위한 한 쌍의 템플릿은 반응에서 선택 될 수 있다. 현재 예에서, 레이어 1과 레이어 2 사이의 파티션 구성요소를 표적하는 것은 템플릿 c*b* (5' -> 3') 보다는 템플릿 c*h* (5' -> 3') 및 g*b* (5' -> 3')의 쌍을 사용하여 반응을 선택할 수 있다. 구성요소들은 반응 혼합물에 포함될 수 있는 에지 스캐폴드 사이에 어셈블리될 수 있다 (각각 제 1 및 제 M 레이어들에 연결시키기 위한 해당 템플릿과 함께). 일반적으로, M 레이어들 및 p 파티션 구성요소들에 대한 이러한 방법에서 전체 약 M-1+2*p*(M-1)개의 선택가능한 템플릿이 사용될 수 있다. 이러한 파티션 방식의 실시는 동일한 에지 서열을 가지지만 별개 길이의 다양한 핵산 서열들을 한 반응에서 생성할 수 있다. 표적 식별자는 부산물 핵산 서열들로부터 DNA 크기 선별로 분리될 수 있다. 구체적으로, 정확히 M레이어 구성요소들을 갖는 정확히 하나의 핵산 서열 프로덕트가 존재할 수 있다. 상기 레이어 구성요소들이 파티션 구성요소들에 비해 충분히 크게 설계되는 경우, 범용 크기 선별 영역을 정의할 수 있는데, 이 영역에 의해 식별자 (및 비-표적된 부산물들 없음)는 식별자 내부에 구성요소들의 특정한 구획화와 관계없이 선택될 수 있고, 따라서, 동일 크기 선별 단계에서 여러 반응들로부터 다수의 구획화된 식별자들을 분리할 수 있게 된다. 핵산 크기-선별에 관하여 화학적 방법 섹션 E를 참고하라.
도 14A 14B는 수많은 가능한 구성요소들로부터 구성요소들의 임의의 문자열로 이루어진 식별자들을 구성하기 위한, “비제약형 문자열 방식” 또는 “USS”로 지칭되는 방법의 한 예를 개략적으로 도시한다. 도 14A는 비제약형 문자열 방식을 사용하여 구성될 수 있는 3-구성요소 (또는 4-스캐폴드) 길이 식별자들의 조합 공간의 한 예를 보여준다. 비제약형 문자열 방식은 하나 이상의 레이어들로부터 취한 하나 이상의 별개 구성요소들을 사용하여 길이 K의 구성요소들의 개별 식별자를 구성하며, 이 때 각각의 별개 구성요소는 해당 식별자에서 K개 구성요소 위치들 중 어느 하나에서 나타날 수 있다 (반복 허용). 예를 들면, 각각 하나의 구성요소를 포함하는 2개 레이어들에 대해, 8개의 가능한 3-구성요소 길이 식별자들이 존재한다. 일반적으로, 각각 하나의 구성요소를 가지는 M개 레이어들의 경우, 길이 K 구성요소들의 MK개 가능한 식별자들이 존재한다. 도 14B는 템플릿 지시된 연결을 사용하는 비제약형 문자열 방식의 예시적인 구현예를 보여준다 (화학적 방법 섹션 B 참고). 이 방법에서, K+1개 단일-가닥 및 정렬된 스캐폴드 DNA 구성요소들 (2개의 에지 스캐폴드 및 K-1개 내부 스캐폴드 포함)이 반응 혼합물에 존재한다. 개별 식별자는 인접한 스캐폴드들의 모든 쌍 사이에 연결된 단일 구성요소를 포함한다. 예를 들면, K개의 모든 인접한 스캐폴드 연결부들이 구성요소에 의해 점유될 때까지 구성요소가 스캐폴드 A와 B 사이를 연결시키고, 구성요소가 스캐폴드 C와 D 사이를 연결시키는 등이다. 한 반응에서, 상이한 레이어들로부터 선택된 구성요소들은 이들이 적절한 스캐폴드에 어셈블리되도록 지시하는 선택된 스테이플 쌍들과 함께 스캐폴드에 도입된다. 예를 들어, 스테이플 a*L* (5' -> 3') 및 A*b* (5' -> 3')의 쌍은 5' 말단 영역 'a' 및 3' 말단 영역 'b'가 있는 레이어 1 구성요소가 L과 A 스캐폴드 사이에서 연결되도록 지시한다. 일반적으로, M개 레이어들 및 K+1개 스캐폴드를 사용하면, 2*M*K개의 선택가능한 스테이플을 사용하여 길이 K의 USS 식별자를 구성할 수 있다. 구성요소를 5' 말단의 스캐폴드에 연결하는 스테이플은 동일한 구성요소를 3' 말단의 스캐폴드에 연결하는 스테이플로부터 분해되기 때문에, 해당 반응에서 표적 식별자와 동일한, 그러나 K개 미만의 구성요소들 (K+1개 미만의 스캐폴드) 또는 K개 이상의 구성요소들 (K+1개 이상의 스캐폴드)을 가지는 에지 스캐폴드를 가지는 핵산 부산물이 형성될 수 있다. 모든 구성요소들의 길이가 동일하도록 설계되고 모든 스캐폴드의 길이가 동일하도록 설계되는 경우, 표적된 식별자는 정확히 K개의 구성요소들 (K+1개의 스캐폴드)로 형성될 수 있으므로, DNA 크기 선별과 같은 기술을 통해 선별가능할 수 있다. 핵산 크기 선별에 관하여 화학적 방법 섹션 E를 참고하라. 각 레이어 당 하나의 구성요소가 존재할 수 있는 비제약형 문자열 방식에 관한 특정 구체예들에서, 해당 구성요소는 (1) 식별 바코드, (2) 스캐폴드에 대한 5' 말단의 스테이플-매개 연결을 위한 혼성화 영역, 및 (3) 스캐폴드에 대한 3' 말단의 스테이플-매개 연결을 위한 혼성화 영역의 3가지 역할 모두를 수행하는 별개 단일 핵산 서열만을 포함할 수 있다.
도 14B에 도시된 내부 스캐폴드들은 한 구성요소에 대한 이러한 스캐폴드의 스테이플-매개 5' 연결 및 또 다른 (반드시 별개인 것은 아님) 구성요소에 대한 이러한 스캐폴드의 스테이플-매개 3' 연결 모두에 대해 이들이 동일한 혼성화 서열을 사용하도록 설계될 수 있다. 그러므로 도 14B에서 도시된 1-스캐폴드, 2-스테이플 적레이어 혼성화 사건은 해당 스캐폴드와 각 스테이플 사이에서 발생하여, 5' 구성요소 연결 및 3' 구성요소 연결 모두를 가능하게 하는 통계적 전후 혼성화 사건을 나타낸다. 비제약형 문자열 방식에 관한 다른 구체예들에서, 해당 스캐폴드는 2개의 연쇄 혼성화 영역 - 스테이플-매개 3' 연결을 위한 별개 3' 혼성화 영역 및 스테이플-매개 5' 연결을 위한 별개 5' 혼성화 영역을 사용하여 설계될 수 있다.
도 15A 15B는 모체 식별자로부터 핵산 서열들 (또는 구성용소들)을 제거함으로써 식별자들을 구성하기 위한 “구성요소 제거 방식”으로 지칭되는 방법의 한 예를 개략적으로 도시한다. 도 15A는 구성요소 제거 방식을 사용하여 구성될 수 있는 가능한 식별자들의 조합 공간에 관한 한 예를 보여준다. 이 예에서, 모체 식별자는 여러 구성요소들을 포함할 수 있다. 모체 식별자는 약 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50개 이상의 구성요소를 포함 할 수 있다. 개별 식별자는 N 개의 가능한 구성요소에서 임의의 수의 구성요소를 선택적으로 제거시켜, 2 N 크기의 “전체” 조합 공간을 생성하거나 또는 N개의 가능한 구성요소들로부터 고정된 수의 K개 구성요소들을 제거시켜, NchooseK 크기의 “NchooseK” 조합 공간을 생성함으로써 구성될 수 있다. 3개 구성요소들을 가지는 모체 식별자에 관한 한 예에서, 전체 조합 공간은 8일 수 있고 3choose2 조합 공간은 3일 수 있다.
도 15B는 이중 가닥 표적된 절단 및 복구(DSTCR)를 사용하는 구성요소 제거 방식의 예시적 구현예를 보여준다. 모체 서열은 뉴클레아제-특이적 표적 부위 (길이가 4개 이하의 염기 일 수 있음)가 연접한 구성요소들을 포함하는 단일 가닥 DNA 기질 일 수 있으며, 모체는 표적 부위에 상응하는 하나 이상의 이중-가닥-특이적 뉴클레아제와 함께 배양 될 수 있다. 개별 구성요소는, 모체의 구성요소 DNA (및 연접 뉴클레아제 부위들)에 결합하여, 양쪽 말단 모두에서 뉴클레아제들에 의해 절단될 수 있는 안정한 이중 가닥 서열을 모체에서 형성하는 상보적 단일-가닥 DNA (또는 절단 템플릿)에 의한 제거를 위해 표적될 수 있다. 또 다른 단일-가닥 DNA (또는 복구 템플릿)는 이렇게 생성된 모체의 분해된 말단들 (그 사이에 구성요소 서열이 존재했던)에 혼성화하여, 이들을 직접적으로 또는 대체 서열에 의해 가교하여 함께 연결시키고, 그리하여 모체에서의 연결된 서열들은 활성 뉴클레아제-표적 부위들을 더 이상 내포하지 않는다. 우리는 이 방법을 “이중 가닥 표적 절단” (DSTC)이라 지칭한다. 크기 선별을 사용하여 특정 수의 구성요소들이 제거된 식별자들을 선별할 수 있다. 핵산 크기-선별에 관하여 화학적 방법 섹션 E를 참고하라.
대안적으로, 또는 추가로, 상기 모체 식별자는 스페이서 서열들에 의해 분리된 구성요소들을 포함하는 이중 또는 단일-가닥 핵산 기질일 수 있으며, 그 결과 어떠한 2개의 구성요소들도 동일한 서열에 연접되지 않는다. 상기 모체 식별자는 Cas9 뉴클레아제와 함께 배양될 수 있다. 개별 구성요소는 해당 구성요소의 에지들에 결합하여 그 연접 부위들에서 Cas9-매개 절단을 가능하게 하는 가이드 리보핵산들 (절단 템플릿)을 이용한 제거를 위해 표적될 수 있다. 단일-가닥 핵산 (복구 템플릿)은 이렇게 생성된 모체 식별자의 말단들 (그 말단들 사이에 구성요소 서열이 존재했던)에 혼성화하여, 이들을 함께 연결시킬 수 있다. 연결은 직접적으로 또는 해당 말단들을 대체 서열과 가교시킴으로써 수행될 수 있으며, 그 결과 모체상의 연결된 서열들은 더 이상 Cas9에 의해 표적될 수 있는 스페이서 서열을 내포하지 않는다. 우리는 이 방법을 “서열 특이적 표적 절단 및 복구” 또는 “SSTCR”로 지칭한다.
식별자들은 DSTCR 유도체를 사용하여 구성요소들을 모체 식별자에 삽입함으로써 구성될 수 있다. 모체 식별자는 각각 별개 핵산 서열 내부에 내장되는 뉴클레아제-특이적 표적 부위들 (4 이하 염기 길이일 수 있음)을 포함하는 단일-가닥 핵산 기질일 수 있다. 모체 식별자는 해당 표적 부위들에 상응하는 하나 이상의 이중-가닥-특이적 뉴클레아제와 함께 배양될 수 있다. 모체 식별자에서의 개별 표적 부위는 모체 식별자 상의 표적 부위 및 별개의 주변의 핵산 서열에 결합하여, 이중 가닥 부위를 형성하는 상보적 단일-가닥 핵산 (절단 템플릿)에 의한 구성요소 삽입을 위해 표적될 수 있다. 이러한 이중-가닥 부위는 뉴클레아제에 의해 절단될 수 있다. 또 다른 단일-가닥 핵산 (복구 템플릿)은 이렇게 생성된 모체 식별자의 분해된 말단들에 혼성화하여, 이들을 구성요소 서열에 의해 가교하여 함께 연결시킬 수 있으며, 그리하여 모체에서의 연결된 서열들은 활성 뉴클레아제-표적 부위들을 더 이상 내포하지 않는다. 대안적으로 SSTCR의 유도체를 사용하여 구성요소들을 모체 식별자에 삽입할 수 있다. 모체 식별자는 이중 또는 단일-가닥 핵산일 수 있고 모체는 Cas9 뉴클레아제와 함께 배양될 수 있다. 모체 식별자 상의 별개 부위는 가이드 RNA (절단 템플릿)에 의한 절단을 위해 표적될 수 있다. 단일-가닥 핵산 (복구 템플릿)은 모체 식별자의 분해된 말단들에 혼성화하여, 이들을 구성요소 서열에 의해 가교하여 함께 연결시킬 수 있으며, 그리하여 모체 식별자에서의 연결된 서열들은 활성 뉴클레아제-표적 부위들을 더 이상 내포하지 않는다. 크기 선별을 사용하여 특정 수의 구성요소들이 삽입된 식별자들을 선별할 수 있다.
도 16은 재조합효소 인식 부위들이 있는 모체 식별자를 개략적으로 도시한다. 상이한 패턴들의 인식 부위들은 상이한 재조합효소에 의해 인식될 수 있다. 해당 세트의 재조합효소에 대한 모든 인식 부위들은 재조합효소가 적용되는 경우 이들 사이의 핵산들이 절제될 수 있도록 배열된다. 도 16에 도시된 핵산 가닥은 적용되는 재조합효소의 서브세트에 따라 25=32개의 상이한 서열들을 채택할 수 있다. 일부 구체예들에서, 도 16에 도시된 바와 같이, DNA 분절들을 절제, 이동, 역전 및 전치시켜 상이한 핵산 분자들을 생성하기 위해 재조합효소를 사용하여 고유한 분자들을 생성할 수 있다. 일반적으로, N개의 재조합효소를 사용하여 모체로부터 2N개의 가능한 식별자들을 만들 수 있다. 일부 구체예들에서, 상이한 재조합효소로부터의 다수의 직교 인식 부위 쌍들은, 하나의 재조합효소의 적용이 하류 재조합효소가 적용될 때 발생하는 재조합 사건의 유형에 영향을 주도록 하는 중첩 방식으로 모체 식별자에 배열될 수 있으며 (Roquet et al., Synthetic recombinase-based state machines in living cells, Science 353 (6297): aad8559 (2016), 이 문헌은 본원에 전체가 참고문헌으로 포함됨). 이러한 시스템은 N개 재조합효소의 모든 정렬, N!에 대해 상이한 식별자를 구성할 수 있다. 재조합효소는 Flp 및 Cre와 같은 티로신 계열 또는 PhiC31, BxbI, TP901 또는 A118과 같은 대형 세린 재조합효소 계열 일 수 있다. 대형 세린 재조합효소 계열의 재조합효소 사용은 이들이 비가역적 재조합을 촉진시켜 다른 재조합효소 보다 효율적으로 식별자들을 생성할 수 있기 때문에 유익할 수 있다.
일부 예들에서, 단일 핵산 서열은 수많은 재조합효소를 다른 순서로 적용함으로써 많은 별개 핵산 서열들이 되도록 프로그램될 수 있다. 대형 세린 재조합효소 계열에 대하여 재조합효소의 수, M이 7 이하일 때, M개의 재조합효소를 이의 상이한 서브세트 그리고 순서로 적용함으로써 약 ~e1M!개의 별개 핵산 서열들이 생성될 수 있다. 재조합효소의 수, M이 7보다 클 수있는 경우, 생성될 수 있는 서열의 수는 대략 3.9M에 달한다, 예컨대, 전문이 본원에 참고로 포함되어 있는 Roquet et al., Synthetic recombinase-based state machines in living cells, Science 353 (6297): aad8559 (2016)를 참고하라. 하나의 공통 서열로부터 상이한 DNA 서열을 생성하는 또 다른 방법은 CRISPR-Cas, TALENS 및 징크 핑거 뉴클레아제와 같은 표적 핵산 편집 효소를 포함 할 수 있다. 재조합효소, 표적된 편집 효소들 등에 의해 생성된 서열은 임의의 기존의 방법들, 예를 들어, 본원의 임의의 도면 및 명세서에 개시된 방법과 함께 사용될 수 있다.
인코드될 정보의 비트-스트림이 임의의 단일 핵산 분자에 의해 인코드될 수 있는 것 보다 큰 경우, 해당 정보는 핵산 서열 바코드로 분할되어 인덱싱될 수 있다. 더욱이, N개의 핵산 분자들의 세트로부터 크기 k의 핵산 분자들의 서브세트를 선택하여 log2(Nchoosek) 비트의 정보를 생성할 수 있다. 크기 k의 서브세트 내부의 핵산 분자들에 바코드를 어셈블리하여, 훨씬 더 긴 비트 스트림들을 인코드 할 수 있다. 예를 들면, M개의 바코드를 사용하여 M*log2(Nchoosek) 비트의 정보를 생성할 수 있다. 하나의 세트에서 사용가능한 핵산 분자의 수, N과 사용가능한 바코드의 수, M이 주어지면, 크기 k = k 0 인 서브세트들을 선택하여 한 피스의 정보를 인코드하는 풀 내 분자들의 총 수를 최분해할 수 있다. 디지털 정보를 인코딩하는 방법은 비트 스트림을 분할하는 단계 및 개별 요소들을 인코딩하는 단계를 포함 할 수 있다. 예를 들면, 6 비트를 포함하는 비트 스트림은 각 구성요소가 2 비트를 포함하는 3개 구성요소들로 분할될 수 있다. 각각의 2 비트 구성요소는 바코드화되어 정보 카세트를 형성할 수 있으며, 함께 그룹화되거나 모아져서, 정보 카세트의 하이퍼-풀을 형성할 수 있다.
바코드는 인코드할 디지털 정보의 양이 하나의 풀 단독에 적합할 수 있는 양을 초과할 경우 정보 인덱싱을 용이하게 할 수 있다. 보다 긴 문자열 비트 및/또는 다수의 바이트들을 포함하는 정보는 도 3에 개시된 접근법들을 계레이어화함으로써, 예를 들면, 핵산 인덱스를 사용하여 인코드되는 고유한 핵산 서열들을 보유한 태그를 포함시킴으로써 인코드될 수 있다. 정보 카세트 또는 식별자 라이브러리는 주어진 서열에 대응되는 비트 스트림의 구성요소 또는 구성요소들을 나타내는 바코드 또는 태그 이외에 위치 및 비트-값 정보를 제공하는 고유한 핵산 서열을 포함하는 질소 염기 또는 핵산 서열들을 포함할 수 있다. 정보 카세트는 바코드 또는 태그 뿐만 아니라 하나 이상의 고유한 핵산 서열들을 포함할 수 있다. 정보 카세트의 바코드 또는 태그는 정보 카세트 및 정보 카세트에 포함된 모든 서열들에 대한 참조를 제공 할 수 있다. 예를 들면, 정보 카세트 상의 태그 또는 바코드는 고유한 서열의 비트 스트림 또는 비트 스트림의 비트 구성요소의 어느 부분이 무엇에 대한 정보 (예컨대, 무엇에 대한 비트 값 및 비트 위치 정보)를 인코드하는지를 나타낼 수 있다.
바코드를 사용하면 가능한 식별자들의 조합 공간 크기보다 더 많은 비트 정보를 풀에 인코딩 할 수 있다. 예를 들어, 10 비트 서열은 2개의 바이트 세트로 분리 될 수 있으며, 각 바이트는 5비트를 포함한다. 각 바이트는 5개의 가능한 별개 식별자들의 세트에 맵핑될 수 있다. 처음에는, 각 바이트에 대해 생성된 식별자들이 동일할 수 있지만, 이들은 별도의 풀에 보관될 수 있거나 또는 그렇지 않으면 정보를 판독하는 사람이 특정 핵산 서열이 속하는 바이트를 식별하지 못할 수 있다. 그러나 각 식별자는 인코드된 정보가 적용되는 바이트에 상응하는 라벨로 바코드화 또는 태그될 수 있으며 (예컨대, 바코드 1은 핵산 풀 내 서열들에 부착되어 첫번째 5 비트를 제공할 수 있고 바코드 2는 핵산 풀 내 서열들에 부착되어 두번째 5 비트를 제공할 수 있으며), 이어서 상기 2 바이트에 상응하는 식별자들은 하나의 풀 (예컨대, “하이퍼-풀” 또는 하나 이상의 식별자 라이브러리)로 조합될 수 있다. 하나 이상의 조합된 식별자 라이브러리의 각 식별자 라이브러리는 주어진 식별자 라이브러리에 속하는 주어진 식별자를 식별하는 별개 바코드를 포함할 수 있다. 식별자 라이브러리의 각 식별자에 바코드를 추가하는 방법은 주어진 바코드 (예컨대, 바코드 1)를 주어진 핵산 샘플 풀에 (예컨대, 바코드 1을 핵산 샘플 풀 1에 그리고 바코드 2를 핵산 샘플 풀 2에) 부착할 수 있게 하는 PCR, Gibson, 연결, 또는 임의의 그 외 접근법을 사용하는 것을 포함할 수 있다. 하이퍼 풀의 샘플은 시퀀싱 방법으로 판독할 수 있으며 시퀀싱 정보는 바코드 또는 태그를 사용하여 구문 분석 할 수 있다. M개 바코드 및 N개의 가능한 식별자들의 세트 (조합 공간)를 가지는 식별자 라이브러리 및 바코드를 사용하는 방법은 M과 N의 곱과 동등한 길이를 가지는 비트 스트림을 인코드할 수 있다.
일부 구체예들에서, 식별자 라이브러리는 웰의 어레이에 저장될 수 있다. 웰의 어레이는 n 개의 열과 q 개의 행을 갖는 것으로 정의 될 수 있으며 각 웰은 하이퍼-풀에 2개 이상의 식별자 라이브러리를 포함 할 수 있다. 각 웰에 인코드된 정보는 각 웰에 포함된 정보 보다 큰 크기 n x q 의 하나의 큰 연속 항목을 구성 할 수 있다. 분취량은 웰 어레이의 웰 중 하나 이상에서 취해질 수 있으며 인코딩은 시퀀싱, 혼성화 또는 PCR을 사용하여 판독 될 수 있다.
핵산 샘플 풀 또는 하이퍼-풀을 내포하는 핵산 샘플 풀, 하이퍼-풀, 식별자 라이브러리, 식별자 라이브러리 그룹 또는 웰은 정보의 비트에 해당하는 고유한 핵산 분자 (예컨대, 식별자) 및 복수의 보충 핵산 서열을 포함 할 수 있다. 보충 핵산 서열은 인코드된 데이터에 해당하지 않을 수 있다 (예를 들어, 비트 값에 해당하지 않음). 보충 핵산 샘플은 샘플 풀에 저장된 정보를 마스킹하거나 암호화 할 수 있다. 보충 핵산 서열은 생물학적 공급원으로부터 유래되거나 합성적으로 생성될 수 있다. 생물학적 공급원에서 유도된 보충 핵산 서열에는 무작위로 단편화된 핵산 서열 또는 합리적으로 단편화된 서열이 포함될 수 있다. 생물학적으로 유도된 보충 핵산은 특히 합성으로 인코드된 정보 (예컨대, 식별자의 조합 공간)가 자연 유전 정보 (예컨대, 단편화된 게놈)와 유사하도록 만들어진 경우, 자연 유전 정보를 합성으로 인코드된 정보와 함께 제공함으로써 데이터 포함 핵산을 샘플 풀 내에 숨기거나 난독화 (obscure)시킬 수 있다. 한 예에서, 식별자는 생물학적 출처로부터 유도되고 보충 핵산은 생물학적 출처로부터 유도된다. 샘플 풀에는 여러 세트의 식별자 및 보충 핵산 서열이 포함될 수 있다. 식별자 및 보충 핵산 서열의 각 세트는 다른 유기체로부터 유도 될 수 있다. 한 예에서, 식별자는 하나 이상의 유기체로부터 유도되고 보충 핵산 서열은 단일의 상이한 유기체로부터 유도된다. 보충 핵산 서열은 또한 하나 이상의 유기체로부터 유도 될 수 있고 식별자는 보충 핵산이 유도된 유기체와 상이한 단일 유기체로부터 유도 될 수 있다. 식별자 및 보충 핵산 서열 모두는 다수의 상이한 유기체로부터 유도 될 수 있다. 보충 핵산 서열과 식별자를 구별하기 위한 키를 사용할 수 있다.
보충 핵산 서열은 기록된 정보에 대한 메타데이터를 저장할 수 있다. 메타데이터는 원본 정보의 출처 및/또는 원본 정보의 의도된 수신자를 결정 및/또는 승인하기 위한 추가 정보를 포함 할 수 있다. 메타데이터는 원본 정보의 형식, 원본 정보를 인코딩하고 기록하는데 사용되는 도구 및 방법, 원본 정보를 식별자에 기록한 날짜 및 시간에 대한 추가 정보를 포함 할 수 있다. 메타데이터는 원본 정보의 형식, 원본 정보를 인코딩하고 기록하는데 사용되는 도구 및 방법, 원본 정보를 핵산 서열에 기록한 날짜 및 시간에 대한 또 다른 정보를 포함 할 수 있다. 메타데이터는 정보를 핵산 서열에 기록한 후 원본 정보에 대해 이루어진 변형에 대한 추가 정보를 포함 할 수 있다. 메타데이터는 원본 정보에 대한 주석 또는 외부 정보에 대한 하나 이상의 참조를 포함 할 수 있다. 대안으로 또는 추가적으로, 메타데이터는 식별자에 부착된 하나 이상의 바코드 또는 태그에 저장 될 수 있다.
식별자 풀의 식별자들은 길이가 서로 같거나 비슷하거나 상이할 수 있다. 보충 핵산 서열은 식별자의 길이보다 작거나, 실질적으로 같거나, 더 긴 길이를 가질 수 있다. 보충 핵산 서열들은 해당 식별자들의 평균 길이의 1 염기 이내, 2 염기 이내, 3 염기 이내, 4 염기 이내, 5 염기 이내, 6 염기 이내, 7 염기 이내, 8 염기 이내, 9 염기 이내, 10 염기 이내 또는 그 이상의 염기 이내의 평균 길이를 가질 수 있다. 한 예에서, 보충 핵산 서열들은 식별자들과 동일하거나 실질적으로 동일한 길이이다. 보충 핵산 서열의 농도는 식별자들 라이브러리에서 식별자들의 농도 보다 작거나, 실직절으로 같거나, 더 길 수 있다. 보충 핵산들의 농도는 식별자들의 농도 보다 약 1%, 10%, 20%, 40%, 60%, 80%, 100,%, 125%, 150%, 175%, 200%, 1000%, 1x104%, 1 x105%, 1 x106%, 1 x107%, 1 x108% 또는 그 미만보다 작거나 같을 수 있다. 보충 핵산들의 농도는 식별자들의 농도 보다 약 1%, 10%, 20%, 40%, 60%, 80%, 100,%, 125%, 150%, 175%, 200%, 1000%, 1 x104%, 1 x105%, 1 x106%, 1 x107%, 1 x108% 또는 그 이상보다 크거나 같을 수 있다. 보다 큰 농도는 데이터를 난독화 또는 은닉함에 유익할 수 있다. 한 예에서, 보충 핵산 서열의 농도는 식별자 풀에서 식별자의 농도보다 실질적으로 더 크다 (예컨대, 1 x108% 이상).
핵산 서열에 저장된 데이터를 복사하고 액세스하는 방법
또 다른 양상에서, 본 발명은 핵산 서열(들)에 인코드된 정보를 복사 (또는 복제)하는 방법을 제공한다. 핵산 서열(들)에 인코드된 정보를 복사하는 방법은 (a) 식별자 라이브러리를 제공하는 단계 및 (b) 하나 이상의 식별자 라이브러리 사본을 구성하는 단계를 포함할 수 있다. 식별자 라이브러리는 더 큰 조합 공간으로부터의 복수의 식별자의 서브세트를 포함 할 수 있다. 상기 복수의 식별자들의 각 개별 식별자들은 기호 문자열의 개별 기호에 상응할 수 있다. 식별자는 하나 이상의 구성요소들을 포함할 수 있다. 구성요소는 핵산 서열을 포함할 수 있다.
또 다른 양상에서, 본 발명은 핵산 서열(들)에 인코드된 정보를 액세스하는 방법을 제공한다. 핵산 서열에 인코드된 정보에 액세스하는 방법은 (a) 식별자 라이브러리를 제공하는 단계, (b) 식별자 라이브러리에서 식별자 라이브러리에 존재하는 식별자의 일부 또는 서브세트를 추출하는 단계를 포함 할 수 있다. 식별자 라이브러리는 더 큰 조합 공간으로부터의 복수의 식별자의 서브세트를 포함 할 수 있다. 상기 복수의 식별자들의 각 개별 식별자들은 기호 문자열의 개별 기호에 상응할 수 있다. 식별자는 하나 이상의 구성요소들을 포함할 수 있다. 구성요소는 핵산 서열을 포함할 수 있다.
정보는 본원의 다른 부분에 기재된 바와 같이 하나 이상의 식별자 라이브러리에 기록될 수 있다. 식별자들은 본원의 다른 부분에 기재된 임의의 방법을 사용하여 구성될 수 있다. 저장된 데이터는 식별자 라이브러리 또는 하나 이상의 식별자 라이브러리에서 개별 식별자의 사본을 생성하여 복사 할 수 있다. 식별자들의 일부를 복사할 수 있고 또는 전체 라이브러리를 복사할 수 있다. 복사는 식별자 라이브러리에서 식별자들을 증폭시켜 실시될 수 있다. 하나 이상의 식별자 라이브러리가 조합될 때, 단일 식별자 라이브러리 또는 다수의 식별자 라이브러리가 복사될 수 있다. 식별자 라이브러리가 보충 핵산 서열을 포함하는 경우, 보충 핵산 서열들은 복사되거나 되지 않을 수 있다.
식별자 라이브러리의 식별자들은 하나 이상의 공통 프라이머 결합 부위들을 포함하도록 구성될 수 있다. 하나 이상의 결합 부위는 각 식별자의 에지에 위치하거나 각 식별자 전체에 걸쳐 얽혀있을 수 있다. 프라이머 결합 부위는 식별자 라이브러리 특이적 프라이머 쌍 또는 범용 프라이머 쌍이 식별자에 결합하여 증폭하게 할 수 있다. 식별자 라이브러리 내의 모든 식별자 또는 하나 이상의 식별자 라이브러리 내의 모든 식별자는 여러 PCR 주기에 의해 여러번 복제 될 수 있다. 기존의 PCR을 사용하여 식별자를 복사 할 수 있으며 식별자는 각 PCR주기에 따라 지수적으로 복제 될 수 있다. 식별자의 사본 수는 각 PCR 주기에 따라 기하 급수적으로 증가 할 수 있다. 선형 PCR을 사용하여 식별자를 복사 할 수 있으며 식별자는 각 PCR주기에 따라 선형적으로 복제 될 수 있다. 식별자 사본수는 각 PCR주기에 따라 선형적으로 증가 할 수 있다. 식별자들은 PCR 증폭 전에 원형 벡터에 연결될 수 있다. 원형 벡터는 식별자 삽입 부위의 각 끝에 바코드를 포함 할 수 있다. 식별자를 증폭하기 위한 PCR 프라이머는 바코드화된 에지가 증폭 생성물에 식별자와 함께 포함되도록 설계되어 벡터에 프라이밍될 수 있다. 증폭하는 동안, 식별자 간의 재조합으로 인해, 각 에지에 관련없는 바코드를 포함하는 식별자가 복사 될 수 있다. 관련없는 바코드들은 식별자들을 판독할 때 검출가능할 수 있다. 관련없는 바코드들을 내포하는 식별자들은 거짓 양성으로 간주될 수 있으며 정보 디코딩 프로세스 중에 무시될 수 있다. 화학적 방법 섹션 D를 참고하라.
정보의 각 비트를 고유한 핵산 분자에 할당하여 정보를 인코딩 할 수 있다. 예를 들어, 각각 2개의 핵산 서열을 포함하는 3개의 샘플 세트 (X, Y 및 Z)는 다음과 같이 8개의 고유한 핵산 분자로 어셈블리되어 8 비트의 데이터를 인코딩 할 수 있다:
N1 = X1Y1Z1
N2 = X1Y1Z2
N3 = X1Y2Z1
N4 = X1Y2Z2
N5 = X2Y1Z1
N6 = X2Y1Z2
N7 = X2Y2Z1
N8 = X2Y2Z2
그 다음 문자열의 각 비트는 상응하는 핵산 분자에 할당될 수 있다 (예컨대, N1은 첫 번째 비트를 지정할 수 있고, N2는 두 번째 비트를 지정할 수 있으며, N3은 세 번째 비트를 지정할 수 있는 등). 전체 비트 문자열은 핵산 분자들의 조합에 할당될 수 있으며, 여기서 '1'의 비트값에 상응하는 핵산 분자들은 상기 조합 또는 풀에 포함된다. 예를 들어, UTF-8 코딩에서 문자 'K'는 4개의 핵산 분자 (예컨대, 상기 예에서, X1Y1Z2, X2Y1Z1, X2Y2Z1 및 X2Y2Z2)의 존재에 의해 인코딩 될 수 있는 8-비트 문자열 코드 01001011로 표시 될 수 있다.
상기 정보는 시퀀싱 또는 혼성화 분석을 통해 액세스 될 수 있다. 예를 들어, 프라이머 또는 프로브는 핵산 서열의 공통 영역 또는 바코드화 영역에 결합하도록 설계 될 수 있다. 이것은 핵산 분자의 모든 영역의 증폭을 가능하게 할 수 있다. 이어서 증폭 생성물을 시퀀싱하거나 혼성화 분석하여 증폭 생성물을 판독 할 수 있다. 문자 'K'를 인코딩하는 상기 예에서, 데이터의 처음 절반이 관심 대상인 경우, X1 핵산 서열의 바코드 영역에 특이적인 프라이머와 Z 세트의 공통 영역에 결합하는 프라이머를 사용하여 핵산 분자를 증폭할 수 있다. 이는 0100를 인코드 할 수 있는 서열 Y1Z2를 반환할 수 있다. 상기 데이터의 하위문자열은 또한 Y1 핵산 서열의 바코드 영역에 결합하는 프라이머 및 Z 세트의 공통 서열에 결합하는 프라이머로 핵산 분자를 추가로 증폭함으로써 액세스 될 수 있다. 이는 하위문자열 01을 인코드하는 Z2 핵산 서열을 반환할 수 있다. 대안적으로, 데이터는 시퀀싱없이 특정 핵산 서열의 존재 또는 부재를 확인하여 액세스 될 수 있다. 예를 들어, Y2 바코드에 특이적인 프라이머를 사용한 증폭은 Y2 바코드에 대한 증폭 산물을 생성 할 수 있지만 Y1 바코드에 대한 것은 생성하지 않을 수 있다. Y2 증폭 생성물의 존재는 '1'의 비트 값을 신호할 수 있다. 대안적으로, Y2 증폭 생성물의 부재는 '0'의 비트값을 신호할 수 있다.
PCR 기반 방법을 사용하여 식별자 또는 핵산 샘플 풀의 데이터에 액세스하고 이를 복사 할 수 있다. 풀 또는 하이퍼-풀의 식별자에 연접한 공통 프라이머 결합 부위를 사용하여 정보를 포함하는 핵산들을 쉽게 복사 할 수 있다. 대안적으로, 등온 증폭과 같은 다른 핵산 증폭 접근법을 사용하여 샘플 풀 또는 하이퍼 풀 (예컨대, 식별자 라이브러리)에서 데이터를 쉽게 복사 할 수도 있다. 핵산 증폭에 관하여 화학적 방법 섹션 D를 참고하라. 샘플이 하이퍼-풀을 포함하는 경우, 특정한 정보 서브세트 (예컨대, 특정 바코드에 관한 모든 핵산들)는 식별자의 한 에지에서 정방향으로 특정 바코드에 결합하는 프라이머를, 해당 식별자의 반대쪽 에지에서 역 방향으로 공통 서열에 결합하는 또 다른 프라이머와 함께 사용하여 액세스 및 검색될 수 있다. 이러한 프로세스를 여러번 반복하여, 식별자들의 하위-풀들로부터 (예를 들면, 둘 이상의 특정 바코드를 가지는 모든 핵산) 하위-풀들에 액세스할 수 있다. 예를 들면, 먼저 하나의 에지에서 특정 바코드에 결합하는 프라이머로, 그리고 이후 상기 에지에서 제거된 특정 바코드 1에 결합하는 특정 프라이머로 한번 더, 이어서 상기 에지에서 제거된 바코드 2에 결합하는 특정 프라이머로 한번 더 중첩 PCR 하는 등에 의한다. 다양한 판독 방법들; 예를 들면, 마이크로어레이 (또는 모든 종류의 형광 혼성화), 디지털 PCR, 정량적 PCR (qPCR)을 사용하여 인코드된 핵산으로부터 정보를 가져올 수 있으며, 다양한 시퀀싱 플랫폼을 추가로 사용하여 인코드된 서열들 그리고 디지털 방식으로 인코드된 데이터를 확장하여 이를 판독할 수 있다.
핵산 분자들 (예컨대, 식별자들)에 저장된 정보에 액세스하는 것은 식별자 라이브러리 또는 식별자 풀로부터의 비 표적 식별자의 일부를 선택적으로 제거하거나, 또는 예를 들어, 여러 식별자 라이브러리의 풀로부터 식별자 라이브러리의 모든 식별자를 선택적으로 제거하여 수행 할 수 있다. 데이터 액세스는 식별자 라이브러리 또는 식별자들의 풀에서 표적된 식별자를 선택적으로 포획하여 수행 할 수도 있다. 표적된 식별자들은 더 큰 정보 항목 내의 관심 데이터에 상응할 수 있다. 식별자들의 풀은 보충 핵산 분자들을 포함할 수 있다. 보충 핵산 분자는 인코드된 정보에 대한 메타데이터를 포함하거나 해당 정보에 상응하는 식별자를 암호화하거나 마스킹하는데 사용될 수 있다. 보충 핵산 분자는 표적된 식별자에 접근하는 동안 추출되거나 추출되지 않을 수 있다. 도 17A - 17C는 보다 많은 수의 식별자들로부터 많은 특정 식별자들을 액세스함으로써 핵산 서열에 저장된 정보의 일부에 액세스하기 위한 예시적 방법들의 개요를 개략적으로 도시한다. 도 17A는 특정 구성요소를 내포하는 식별자들에 액세스하기 위해 중합효소 연쇄 반응, 친화성 태그된 프로브, 및 분해 표적화 프로브를 사용하는 예시적 방법들을 보여준다. PCR-기반 액세스의 경우, 식별자들의 풀 (예컨대, 식별자 라이브러리)은 각 말단에 공통 서열, 각 말단에 가변 서열, 또는 각 말단에 공통 서열 또는 가변 서열 중 하나를 가지는 식별자들을 포함할 수 있다. 공통 서열 또는 가변 서열은 프라이머 결합 부위 일 수 있다. 하나 이상의 프라이머는 식별자 에지의 공통 또는 가변 영역에 결합 할 수 있다. 프라이머가 결합된 식별자들은 PCR로 증폭 될 수 있다. 증폭된 식별자들은 증폭되지 않은 식별자들 보다 훨씬 많을 수 있다. 판독하는 동안, 증폭된 식별자들이 식별될 수 있다. 식별자 라이브러리의 식별자는 해당 라이브러리와 별개인 그 말단들 중 하나 또는 모두에 해당 라이브러리와 별개인 서열들을 포함할 수 있으므로, 단일 라이브러리를 하나 이상의 식별자 라이브러리의 풀 또는 그룹으로부터 선택적으로 액세스 되게 할 수 있다.
친화성-태그 기반 액세스의 경우, 핵산 포획으로 지칭될 수 있는 프로세스에서 풀 내 식별자를 구성하는 구성요소들은 하나 이상의 프로브와 상보성을 공유 할 수 있다. 하나 이상의 프로브는 액세스될 식별자에 결합하거나 혼성화 할 수 있다. 프로브는 친화성 태그를 포함 할 수 있다. 친화성 태그는 비드에 결합하여 비드, 적어도 하나의 프로브 및 적어도 하나의 식별자를 포함하는 복합체를 생성 할 수 있다. 비드는 자성 일 수 있으며, 자석과 함께 비드는 액세스될 식별자를 수집하고 분리 할 수 있다. 판독에 앞서 변성 조건하에서 비드들로부터 식별자들을 제거할 수 있다. 대안으로 또는 추가로, 비드는 비-표적 식별자를 수집하고 이들을 풀의 잔부로부터 분리하며, 이는 세척되어 별도의 용기에 넣어 판독할 수 있다. 친화성 태그는 컬럼에 결합할 수 있다. 액세스될 식별자는 포획을 위해 컬럼에 결합 될 수 있다. 컬럼-결합된 식별자들은 후속적으로 판독에 앞서 컬럼으로부터 용리되거나 변성될 수 있다. 대안적으로, 비 표적 식별자들은 컬럼에 선택적으로 표적될 수 있고 표적 식별자들은 컬럼을 통해 유동할 수 있다. 표적 식별자들에 액세스하는 것은 하나 이상의 프로브를 식별자들의 풀에 동시에 적용하는 것 또는 하나 이상의 프로브를 식별자들의 풀에 순차적으로 적용하는 것을 포함할 수 있다. 핵산 포획에 관하여 화학적 방법 섹션 F를 참고하라.
분해 기반 액세스의 경우, 풀 내 식별자들을 구성하는 구성요소들은 하나 이상의 분해-표적화 프로브와 상보성을 공유할 수 있다. 프로브는 식별자들 상의 별개 구성요소들과 결합 또는 혼성화할 수 있다. 프로브는 엔도뉴클레아제와 같은 분해 효소의 표적이 될 수 있다. 한 예에서, 하나 이상의 식별자 라이브러리가 조합 될 수 있다. 프로브 세트는 식별자 라이브러리 중 하나와 혼성화할 수 있다. 프로브 세트는 RNA를 포함 할 수 있고 RNA는 Cas9 효소를 가이드 할 수 있다. Cas9 효소는 하나 이상의 식별자 라이브러리에 도입 될 수 있다. 프로브와 혼성화된 식별자는 Cas9 효소에 의해 분해 될 수 있다. 액세스될 식별자들은 분해 효소에 의해 분해되지 않을 수 있다. 또 다른 예에서, 식별자는 단일-가닥 일 수 있고 식별자 라이브러리는 액세스되지 않을 식별자를 선택적으로 분해하는 단일-가닥 특이적 엔도뉴클레아제(들), 가령, S1 뉴클레아제와 조합 될 수 있다. 액세스될 식별자들은. 단일-가닥 특이적 엔도뉴클레아제(들)에 의한 분해로부터 이들을 보호하기 위해, 상보적인 식별자 세트와 혼성화될 수 있다. 액세스 될 식별자는 크기 선별, 가령, 크기 선별 크로마토 그래피 (예를 들어, 아가로스 겔 전기영동)에 의해 분해 생성물물로부터 분리 될 수 있다. 대안적으로 또는 추가로, 분해되지 않은 식별자는 분해 생성물이 증폭되지 않도록 선택적으로 증폭 될 수 있다 (예컨대, PCR 사용). 분해되지 않은 식별자는 분해되지 않은 식별자의 각 말단에 혼성화하므로 분해되거나 절단된 식별자들의 각 말단에는 혼성화하지 않는 프라이머를 사용하여 증폭 될 수 있다.
도 17B는 다수의 구성요소들을 내포하는 식별자들에 액세스하기 위해 중합효소 연쇄 반응을 사용하여 'OR' 또는 'AND' 연산을 수행하는 예시적 방법들을 보여준다. 예에서, 2개의 정방향 프라이머가 왼쪽 말단 상의 별개의 식별자 세트들에 결합하는 경우, 이러한 식별자 세트들의 연합에 대한 'OR' 증폭은 다중 PCR 반응에서 2개의 정방향 프라이머들 그리고 오른쪽 말단 상의 모든 식별자들에 결합하는 역방향 프라이머와 함께 사용하여 실시될 수 있다. 또 다른 예에서, 하나의 정방향 프라이머가 왼쪽 말단 상의 식별자 세트에 결합하고 하나의 역방향 프라이머가 오른쪽 말단 상의 식별자 세트에 결합하는 경우, 2개 식별자 세트의 교차점에 대한 'AND' 증폭은 PCR 반응의 프라이머 쌍으로 정방향 프라이머와 역방향 프라이머를 함께 사용하여 실시될 수 있다. 이 프로세스는 임의의 수의 공통 구성 요소를 갖는 식별자 서브-풀에 액세스하기 위해 순차적인 방식 (예컨대, 중첩 PCR)으로 반복 될 수 있다.
식별자 라이브러리에 대한 PCR 기반 액세스를 반복 할 때마다 프라이머가 각 에지에서 더 안쪽으로 반복적으로 구성요소에 결합하도록 설계되었으므로 식별자가 더 짧아 질 수 있다. 예를 들어, 식별자 라이브러리는 ABCDEFG 형태의 식별자를 포함 할 수 있으며, 여기서 A, B, C, D, E, F 및 G는 레이어다. 특정 성분, 예를 들어, 레이어 A 및 G에서 각각 A1 및 G1에 결합하는 프라이머로 증폭시 식별자 라이브러리의 증폭된 부분은 A1-B-C-D-E-F-G1 형태를 취할 수 있다. 특정 구성요소들, 예를 들어, 레이어 B 및 F에서 각각 B1 및 F1에 결합하는 프라이머로 추가 증폭시, 식별자 라이브러리의 증폭된 부분은 B1-C-D-E-F1의 형태를 취할 수 있으며, 이 때 이러한 보다 짧은 증폭된 서열들은 레이어 A의 위치에서 구성요소 A1 그리고 레이어 G의 위치에서 구성요소 G1을 추가로 포함하는 완전 식별자들에 상응하는 것으로 간주할 수 있다.
도 17C는 다수의 구성요소들을 내포하는 식별자들에 액세스하기 위해 친화성 태그를 사용하여 'OR' 또는 'AND' 연산을 수행하는 예시적 방법들을 보여준다. 한 예에서, 친화성 프로브 'P1'이 구성요소 'C1'을 가진 모든 식별자들을 포획하고 또 다른 친화성 프로브 'P2'가 구성요소 'C2'를 가진 모든 식별자들을 포획하는 경우, C1 또는 C2를 가진 모든 식별자들의 세트는 P1 및 P2를 동시에 사용하여 포획될 수 있다 ('OR' 연산에 해당). 동일한 구성 요소 및 프로브를 사용하는 또 다른 예에서 C1 및 C2를 가지는 모든 식별자들의 세트는 P1 및 P2를 순차적으로 사용하여 포획될 수 있다 ('AND' 연산에 해당).
핵산 서열에 저장된 정보의 판독 방법
또 다른 양상에서, 본 발명은 핵산 서열(들)에 인코드된 정보를 판독하는 방법을 제공한다. 핵산 서열에 인코드된 정보를 판독하는 방법은 (a) 식별자 라이브러리를 제공하는 단계, (b) 식별자 라이브러리에 존재하는 식별자들을 식별하는 단계, (c) 식별자 라이브러리에 존재하는 식별자들로부터 기호 문자열을 생성하는 단계, 및 (d) 기호 문자열로부터 정보를 컴파일하는 단계를 포함할 수 있다. 식별자 라이브러리는 조합 공간으로부터의 복수의 식별자의 서브세트를 포함 할 수 있다. 상기 식별자들의 서브세트의 각 개별 식별자들은 기호 문자열의 개별 기호에 상응할 수 있다. 식별자는 하나 이상의 구성요소들을 포함할 수 있다. 구성요소는 핵산 서열을 포함할 수 있다.
정보는 본원의 다른 부분에 기재된 바와 같이 하나 이상의 식별자 라이브러리에 기록될 수 있다. 식별자들은 본원의 다른 부분에 기재된 임의의 방법을 사용하여 구성될 수 있다. 저장된 데이터는 본원의 다른 부분에 기재된 방법을 사용하여 복사 및 액세스될 수 있다.
식별자는 인코딩 된 기호의 위치, 인코딩 된 기호의 값, 또는 인코딩 된 기호의 위치와 값 모두에 관한 정보를 포함 할 수 있다. 식별자는 인코딩된 기호의 위치와 관련된 정보를 포함 할 수 있으며 식별자 라이브러리에서 식별자의 존재 또는 부재는 이러한 기호값을 나타낼 수 있다. 식별자 라이브러리 내 식별자의 존재는 이진 문자열의 첫 번째 기호 값 (예컨대, 첫 번째 비트 값)을 나타낼 수 있으며 식별자 라이브러리 내 식별자의 부재는 이진 문자열에서 두 번째 기호 값 (예컨대, 두 번째 비트 값)을 나타낼 수 있다. 이진 시스템에서 식별자 라이브러리 내 식별자 유무에 따라 비트 값을 지정하면 어셈블리된 식별자 수를 줄일 수 있으므로 기록 시간을 줄일 수 있다. 일 예에서, 식별자의 존재는 맵핑 된 위치에서 비트 값 '1'을 나타낼 수 있고, 식별자의 부재는 맵핑 된 위치에서 비트 값 '0'을 나타낼 수 있다.
한 피스의 정보에 대한 기호 (예를 들어, 비트 값)를 생성하는 단계는 기호 (예를 들어, 비트)가 맵핑되거나 인코딩 될 수 있는 식별자의 존재 또는 부재를 식별하는 것을 포함 할 수 있다. 식별자의 존재 또는 부재를 결정하는 것은 해당 식별자를 시퀀싱하는 것 또는 혼성화 어레이를 사용하여 식별자의 존재를 검출하는 것을 포함 할 수 있다. 한 예에서, 인코딩 된 서열의 디코딩 및 판독은 시퀀싱 플랫폼을 사용하여 수행 될 수 있다. 시퀀싱 플랫폼의 예는 2014년 8월 21일에 출원된 미국 특허 출원 제 14/465,685, 2013년 5월 2일에 출원된 미국 특허 출원 제 13/886,234 및 2009년 3월 9일에 출원된 미국 특허 출원 제 12/400,593이며, 이들 각각은 전문이 본원에 참고문헌으로 포함된다.
한 예에서, 핵산 인코딩 된 데이터를 디코딩하는 것은 핵산 가닥의 염기단위 시퀀싱, 가령, Illumina®시퀀싱에 의해, 또는 특정 핵산 서열의 존재 또는 부재를 나타내는 시퀀싱 기술, 가령, 모세관 전기 영동에 의한 단편화 분석을 사용하여 실시 될 수 있다. 시퀀싱은 가역적 종결자의 사용을 이용할 수 있다. 시퀀싱은 천연 또는 비-천연 (예를 들어, 조작된) 뉴클레오티드 또는 뉴클레오티드 유사체의 사용을 이용할 수 있다. 대안적으로 또는 추가적으로, 핵산 서열을 디코딩하는 것은 광학적, 전기화학적 또는 화학적 신호를 생성하는 임의의 방법을 비롯한 (그러나 이에 제한되는 것은 아님) 다양한 분석 기술을 사용하여 수행 될 수 있다. 중합 효소 연쇄 반응 (PCR), 디지털 PCR, Sanger 시퀀싱, 고 처리량 시퀀싱, 합성단위 시퀀싱, 단일 분자 시퀀싱, 연결단위 시퀀싱, RNA-Seq (Illumina), 차세대 시퀀싱, 디지털 유전자 발현 (Helicos), Clonal Single MicroArray (Solexa), 샷건 시퀀싱, Maxim-Gilbert 시퀀싱 또는 대규모 병렬 시퀀싱을 비롯한 (그러나 이에 제한되는 것은 아님) 다양한 시퀀싱 접근법들이 사용될 수 있다.
다양한 판독 방법을 사용하여 인코드된 핵산에서 정보를 가져올 수 있다. 한 예에서, 마이크로어레이 (또는 모든 종류의 형광 혼성화), 디지털 PCR, 정량적 PCR (qPCR), 및 다양한 시퀀싱 플랫폼을 추가로 사용하여, 인코드된 서열들 그리고 디지털 방식으로 인코드된 데이터를 확장하여 이를 판독할 수 있다.
식별자 라이브러리는 정보에 대한 메타데이터를 제공하거나 정보를 암호화 또는 마스킹하거나 메타데이터를 제공하고 정보를 마스킹하는 보충 핵산 서열을 추가로 포함 할 수 있다. 보충 핵산은 식별자의 식별과 동시에 식별 될 수 있다. 대안적으로, 보충 핵산은 식별자를 확인하기 전 또는 후에 확인 될 수 있다. 한 예에서, 보충 핵산은 인코드된 정보를 판독하는 동안 식별되지 않는다. 보충 핵산 서열은 식별자들과 구별할 수 없을 수 있다. 식별자들을 보충 핵산 분자들과 구별하기 위한 식별자 인덱스 또는 키를 사용할 수 있다.
데이터 인코딩 및 디코딩의 효율은 더 적은 수의 핵산 분자를 사용할 수 있도록 입력 비트 문자열을 재코딩함으로써 증가 될 수 있다. 예를 들면, 인코딩 방법을 사용하여 3개의 핵산 분자들 (예컨대, 식별자들)에 맵핑될 수 있는 '111' 하위문자열들이 많이 발생하는 입력 문자열이 수신되는 경우, 이는 핵산 분자들의 널 세트에 맵핑될 수 있는 '000' 하위문자열에 기록될 수 있다. '000'의 대체 입력 하위문자열 또한 '111'로 재코딩 될 수 있다. 이러한 기록 방법은 데이터세트에서 'l'들의 수가 감소될 수 있기 때문에 데이터를 인코드하는데 사용되는 핵산 분자들의 총량을 줄일 수 있다. 이 예에서, 새로운 맵핑 명령어를 특정하는 코드북을 수용하기 위해 데이터세트의 전체 크기를 증가시킬 수 있다. 인코딩 및 디코딩 효율을 높이는 다른 방법은 입력 문자열을 재코딩하여 가변 길이를 감소시키는 것이다. 예를 들어 '111'은 '00'으로 재코딩되어 데이터세트의 크기를 감축시키고 데이터세트에서 '1'의 수를 줄일 수 있다.
핵산 인코드된 데이터를 디코딩하는 속도 및 효율은 검출의 용이성을 위해 식별자를 구체적으로 설계함으로써 제어 (예를 들어, 증가) 될 수 있다. 예를 들어, 검출의 용이성을 위해 설계된 핵산 서열 (예를 들어, 식별자)은 광학적, 전기화학적, 화학적 또는 물리적 특성에 기초하여 호출 및 검출하기 더 쉬운 대부분의 뉴클레오티드를 포함하는 핵산 서열들을 포함 할 수 있다. 조작된 핵산 서열들은 단일 또는 이중 가닥 일 수 있다. 조작된 핵산 서열은 핵산 서열의 검출가능한 특성을 개선하는 합성 또는 비천연 뉴클레오티드를 포함 할 수 있다. 조작된 핵산 서열은 모든 천연 뉴클레오티드, 모든 합성 또는 비천연 뉴클레오티드, 또는 천연, 합성 및 비천연 뉴클레오티드의 조합을 포함 할 수 있다. 합성 뉴클레오티드는 펩티드 핵산, 잠금 핵산, 글리콜 핵산 및 트레오스 핵산과 같은 뉴클레오티드 유사체를 포함 할 수 있다. 비 천연 뉴클레오티드는 3-메톡시-2-나프틸기를 내포하는 인공 뉴클레오시드인 dNaM 및 6-메틸아이소퀴놀린-1-싸이온-2-일 기를 내포하는 인공 뉴클레오사이드인 d5SICS를 포함 할 수 있다. 조작된 핵산 서열들은 단일 강화된 특성, 가령, 강화된 광학 특성을 위해 설계될 수 있으며, 또는 이러한 설계된 핵산 서열들은 다수의 강화된 특성, 가령, 강화된 광학 및 전기화학적 특성 또는 강화된 광학 및 화학적 특성을 가지도록 설계 될 수 있다. DNA 설계에 대하여 화학적 방법 섹션 H를 참고하라.
조작된 핵산 서열들은 핵산 서열의 광학적, 전기화학적, 화학적 또는 물리적 특성을 개선하지 않는 반응성의 천연, 합성 및 비 천연 뉴클레오티드를 포함 할 수 있다. 핵산 서열들의 반응성 구성요소들은 해당 핵산 서열에 개선된 특성들을 부여하는 화학적 모이어티의 부가를 가능하게 할 수 있다. 각각의 핵산 서열은 단일 화학 모이어티를 포함하거나 다수의 화학 모이어티를 포함 할 수 있다. 예시적인 화학적 모이어티에는 형광 모이어티, 화학 발광 모이어티, 산성 또는 염기성 모이어티, 소수성 또는 친수성 모이어티, 및 핵산 서열의 산화 상태 또는 반응성을 변경하는 모이어티를 포함 할 수 있지만 이에 제한되는 것은 아니다.
시퀀싱 플랫폼은 핵산 서열로 인코드된 정보를 디코딩하고 판독하기 위해 특별히 설계 될 수 있다. 시퀀싱 플랫폼은 단일 또는 이중 가닥 핵산 분자의 시퀀싱 전용 일 수 있다. 시퀀싱 플랫폼은 개별 염기들을 판독함으로써 (예컨대, 염기단위 시퀀싱) 또는 해당 핵산 분자 (예컨대, 식별자) 내부에 통합된 전체 핵산 서열 (예컨대, 구성요소)의 존재 또는 부재를 검출함으로써 핵산 인코드된 데이터를 디코드할 수 있다. 시퀀싱 플랫폼은 무차별 시약의 사용, 증가된 판독 길이 및 검출가능한 화학적 모이어티의 부가에 의한 특정 핵산 서열의 검출을 포함 할 수 있다. 시퀀싱하는 동안 보다 많은 무차별 시약들의 사용은, 염기를 보다 빠르게 호출 할 수 있게 되고 이는 차례로 시퀀싱 시간을 감소시킬 수 있게 되어, 판독 효율을 증가시킬 수 있다. 증가된 판독 길이의 사용은 인코드된 보다 긴 핵산 서열이 1회 판독 당 디코딩되도록 할 수 있다. 검출 가능한 화학적 모이어티 태그의 추가는 화학적 모이어티의 존재 또는 부재에 의해 핵산 서열의 존재 또는 부재의 검출을 가능하게 할 수 있다. 예를 들면, 정보의 비트를 인코드하는 각 핵산 서열은 고유한 광학적, 전기화학적 또는 화학적 신호를 생성하는 화학적 모이어티로 태그 될 수 있다. 고유한 광학, 전기화학 또는 화학적 신호의 존재 또는 부재는 '0' 또는 '1' 비트 값을 나타낼 수 있다. 핵산 서열은 단일 화학적 모이어티 또는 다수의 화학적 모이어티들을 포함 할 수 있다. 화학적 모이어티는 데이터를 인코딩하는 핵산 서열을 사용하기 전에 핵산 서열에 추가 될 수 있다. 대안적으로 또는 추가적으로, 화학적 모이어티는 데이터를 인코딩 한 후 데이터를 디코딩하기 전에 핵산 서열에 추가 될 수 있다. 화학적 모이어티 태그는 핵산 서열에 직접 추가 될 수 있거나 핵산 서열은 합성 또는 비천연 뉴클레오티드 앵커를 포함 할 수 있고 화학적 모이어티 태그는 해당 앵커에 추가 될 수 있다.
인코딩 및 디코딩 오류를 최분해 또는 검출하기 위하여 고유한 코드를 적용할 수 있다. 인코딩 및 디코딩 오류는 거짓 음성 (예컨대, 무작위 샘플링에 포함되지 않은 핵산 분자 또는 식별자)에서 발생할 수 있다. 오류 감지 코드의 한 예는 체크섬 (checksum) 서열일 수 있으며, 이는 식별자 라이브러리에 포함되는, 가능한 식별자들의 한 연속 세트에서 식별자들의 수를 계산한다. 식별자 라이브러리를 판독하는 동안, 상기 체크섬은 해당하는 식별자들의 연속 세트로부터 얼마나 많은 식별자들이 검색될 것으로 예상되는지를 나타낼 수 있으며, 식별자들은 예상수가 충족될 때까지 판독을 위해 계속 샘플링될 수 있다. 일부 구체예들에서, 체크섬 서열은 R 식별자들의 모든 연속 세트에 포함될 수 있으며, 이 때 R은 크기가 1, 2, 5, 10, 50, 100, 200, 500, 또는 1000과 동일하거나 이보다 크거나, 또는 1000, 500, 200, 100, 50, 10, 5, 또는 2 보다 작다. R 값이 작을수록 오류 감지가 더 좋다. 일부 구체예에서, 체크섬은 보충 핵산 서열들 일 수 있다. 예를 들어, 7개의 핵산 서열 (예를 들어, 구성요소)을 포함하는 세트는 2개 그룹, 프로덕트 방식으로 식별자들을 구성하기 위한 핵산 서열들 (레이어 X에 구성요소들 X1-X3 및 레이어 Y에 Y1-Y3), 및 보충 체크섬을 위한 핵산 서열들 (X4-X7 및 Y4-Y7)로 나뉠 수 있다. 체크섬 서열 X4-X7은 레이어 X의 0, 1, 2, 또는 3개 서열들이 레이어 Y의 각 구성원과 어셈블리되는지 여부를 나타낼 수 있다. 대안적으로, 체크섬 서열 Y4-Y7은 레이어 Y의 0, 1, 2, 또는 3개 서열들이 레이어 X의 각 구성원과 어셈블리되는지 여부를 나타낼 수 있다. 본 예에서, 식별자들 {X1Y1, X1Y3, X2Y1, X2Y2, X2Y3}을 가지는 원본 식별자 라이브러리가 보충되어, 다음과 같은 풀 (pool)이 되는 체크섬을 포함할 수 있다: {X1Y1, X1Y3, X2Y1, X2Y2, X2Y3, X1Y6, X2Y7, X3Y4, X6Y1, X5Y2, X6Y3}. 체크섬 서열들은 또한 오류 수정에도 사용될 수 있다. 예를 들면, 상기 데이터세트에서 X1Y1의 부재 그리고 X1Y6 및 X6Y1의 존재는 X1Y1 핵산 분자가 데이터 세트에서 누락되어 있음을 추론 할 수 있다. 체크섬 서열은 식별자 라이브러리의 샘플링 또는 액세스된 식별자 라이브러리 부분에서 식별자가 누락되었는지 여부를 나타낼 수 있다. 체크섬 서열이 누락된 경우, 액세스 방법, 가령, PCR 또는 친화성 태그된 프로브 혼성화는 이를 증폭 및/또는 분리할 수 있다. 일부 구체예에서, 체크섬은 보충 핵산 서열이 아닐 수 있다. 이들 체크섬들은 해당 정보에 직접 코딩되어, 식별자들에 의해 나타내어질 수 있다.
데이터 인코딩 및 디코딩의 노이즈는, 식별자들을 회문식으로 구성함으로써, 예를 들어, 프로덕트 방식에서 단일 구성요소들 보다는 회문식 구성요소 쌍들을 사용함으로써, 감소될 수 있다. 이어서 상이한 레이어로부터의 구성요소들의 쌍들은 서로에 회문 방식으로 (예컨대, 구성요소 X 및 Y에 대해 XY 대신 YXY) 어셈블리될 수 있다. 이러한 회문식 방법은 더 많은 수의 레이어들로 확장 될 수 있으며 (예를 들어, XYZ 대신 ZYXYZ) 식별자 간의 잘못된 교차 반응을 검출 할 수 있다.
과량의 (예컨대, 과잉) 보충 핵산 서열들을 식별자들에 추가하면 인코드된 식별자를 시퀀싱이 복구하는 것을 방지 할 수 있다. 정보를 디코딩하기 전에, 보충 핵산 서열들로부터 식별자들이 풍부해질 수 있다. 예를 들어, 식별자는 식별자 말단들에 특이적인 프라이머를 사용하는 핵산 증폭 반응에 의해 풍부해질 수 있다. 대안적으로 또는 추가적으로, 특이적 프라이머를 사용하여 시퀀싱 (예를 들어, 합성에 의한 시퀀싱)함으로써 샘플 풀을 풍부하게 하지 않고 정보를 디코딩 할 수 있다. 상기 두 디코딩 방법 모두에서, 디코딩 키가 없거나 식별자의 구성에 대해 알지 못하는 상태에서 정보를 풍부하게 하거나 디코딩하는 것은 어려울 수 있다. 선호도 태그 기반 프로브를 사용하는 것과 같은 대안적인 액세스 방법이 사용될 수도 있다.
이진 서열 데이터를 인코딩하는 시스템
디지털 정보를 핵산 (예컨대, DNA)으로 인코딩하는 시스템은 파일 및 데이터 (예컨대, 원시 데이터, 압축된 zip 파일, 정수 데이터 및 기타 형태의 데이터)를 바이트로 변환하고 이러한 바이트를 핵산, 일반적으로 DNA의 세그먼트 또는 서열 또는 이들의 조합으로 인코딩하기 위한 시스템, 방법 및 장치를 포함 할 수 있다.
한 양상에서, 본 발명은 핵산을 사용하여 이원 서열 데이터를 인코딩하기 위한 시스템을 제공한다. 핵산을 사용하여 이진 서열 데이터를 인코딩하기 위한 시스템은 장치 및 하나 이상의 컴퓨터 프로세서를 포함 할 수 있다. 장치는 식별자 라이브러리를 구성하도록 구성 될 수 있다. 하나 이상의 컴퓨터 프로세서는 (i) 정보를 기호 문자열로 변환하고, (ii) 기호 문자열을 복수의 식별자에 맵핑하고, (iii) 복수의 식별자의 적어도 하나의 서브 세트를 포함하는 식별자 라이브러리를 구성하도록 개별적으로 또는 집합적으로 프로그래밍 될 수 있다. 상기 복수의 식별자들의 개별 식별자들은 상기 기호 문자열의 개별 기호에 상응할 수 있다. 상기 복수의 식별자들의 개별 식별자는 하나 이상의 구성요소들을 포함할 수 있다. 상기 하나 이상의 구성요소들의 개별 구성요소는 핵산 서열을 포함할 수 있다.
또 다른 양상에서, 본 발명은 핵산을 사용하여 이원 서열 데이터를 판독하기 위한 시스템을 제공한다. 핵산을 사용하여 이진 서열 데이터를 판독하기 위한 시스템은 데이터염기 및 하나 이상의 컴퓨터 프로세서를 포함 할 수 있다. 데이터염기는 정보를 인코딩하는 식별자 라이브러리를 저장할 수 있다. 하나 이상의 컴퓨터 프로세서들은 (i) 식별자 라이브러리에서 식별자를 식별하고, (ii) (i)에서 식별된 식별자로부터 복수의 기호를 생성하고, 그리고 (iii) 상기 복수의 기호들로부터 정보를 컴파일하도록 개별적으로 또는 집합적으로 프로그램될 수 있다. 식별자 라이브러리는 복수의 식별자의 서브세트를 포함 할 수 있다. 상기 복수의 식별자들의 각 개별 식별자들은 기호 문자열의 개별 기호에 상응할 수 있다. 식별자는 하나 이상의 구성요소들을 포함할 수 있다. 구성요소는 핵산 서열을 포함할 수 있다.
디지털 데이터를 인코드하는 시스템을 사용하는 방법들에 관한 비-제한적 구체예들은 바이트 스트림 형태로 디지털 정보를 수신하는 단계를 포함할 수 있다. 바이트 스트림을 개별 바이트로 파싱(parsing)하고, 핵산 인덱스 (또는 식별자 랭크)를 사용하여 바이트 내 비트 위치를 맵핑하고, 1의 비트 값 또는 0의 비트 값에 해당하는 서열을 식별자로 인코딩한다. 디지털 데이터를 검색하는 단계들은 하나 이상의 비트에 맵핑하는 핵산 (예컨대, 식별자들)의 서열들을 포함하는 핵산 샘플 또는 핵산 풀을 시퀀싱하는 단계, 식별자 랭크를 참조하여 해당 식별자가 핵산 풀에 존재하는지 여부를 확인하는 단계, 및 각 서열에 대한 위치 및 비트값 정보를 디지털 정보의 서열을 포함하는 바이트로 디코딩하는 단계를 포함할 수 있다.
인코드되고 핵산 분자들에 기록된 정보를 인코딩, 기록, 복사, 액세스, 판독 및 디코딩하는 시스템은 단일 통합 유닛 일 수 있거나 전술한 작업 중 하나 이상을 실행하도록 구성된 다중 유닛 일 수 있다. 정보를 인코딩하고 핵산 분자들 (예컨대, 식별자들)에 기록하는 시스템은 장치 및 하나 이상의 컴퓨터 프로세서들을 포함할 수 있다. 하나 이상의 컴퓨터 프로세서는 상기 정보를 기호 문자열 (예를 들어, 비트 문자열)로 파싱하도록 프로그램 될 수 있다. 컴퓨터 프로세서는 식별자 랭크를 생성할 수 있다. 컴퓨터 프로세서는 기호를 둘 이상의 범주로 분류 할 수 있다. 하나의 범주는 식별자 라이브러리에서 대응하는 식별자의 존재로 표현될 기호들을 포함 할 수 있고, 다른 하나의 범주는 식별자 라이브러리에서 대응하는 식별자의 부재로 표현될 기호들을 포함 할 수 있다. 컴퓨터 프로세서는 식별자 라이브러리 내의 식별자의 존재에 대해 표현될 기호에 대응하는 식별자를 어셈블리하도록 장치에 지시 할 수 있다.
장치는 복수의 영역, 섹션 또는 파티션을 포함 할 수 있다. 식별자를 어셈블리하기 위한 시약 및 구성요소들은 상기 장치의 하나 이상의 영역, 섹션 또는 파티션에 저장 될 수 있다. 레이어들은 장치 섹션의 별도 영역에 저장 될 수 있다. 하나의 레이어는 하나 이상의 고유한 구성요소들을 포함할 수 있다. 한 레이어 내 구성요소는 또 다른 레이어 내 구성요소들로부터 고유할 수 있다. 상기 영역 또는 섹션은 용기를 포함 할 수 있고 파티션은 웰을 포함 할 수 있다. 각 레이어는 별도의 용기 또는 파티션에 저장 될 수 있다. 각 시약 또는 핵산 서열은 별도의 용기 또는 파티션에 저장 될 수 있다. 대안적으로 또는 추가로, 시약을 조합하여 식별자 구성을 위한 마스터 믹스를 형성 할 수 있다. 상기 장치는 시약, 구성요소, 및 템플릿을 장치의 한 섹션으로부터 전달하여 또 다른 섹션에서 조합되게 할 수 있다. 상기 장치는 어셈블리 반응을 완료하기 위한 조건을 제공 할 수 있다. 예를 들어, 장치는 가열, 교반 및 반응 진행 검출을 제공 할 수 있다. 구성된 식별자들은 바코드, 공통 서열, 가변 서열 또는 태그를 식별자의 하나 이상의 말단에 추가하기 위한 하나 이상의 후속 반응을 거치도록 지시 될 수 있다. 이후 상기 식별자들은 식별자 라이브러리를 생성하는 영역 또는 파티션으로 지시될 수 있다. 하나 이상의 식별자 라이브러리가 상기 장치의 각 영역, 섹션 또는 개별 파티션에 저장 될 수 있다. 상기 장치는 압력, 진공 또는 흡입을 사용하여 유체 (예컨대, 시약, 구성요소, 템플릿)를 전달할 수 있다.
식별자 라이브러리는 장치에 저장되거나 별도의 데이터염기로 이동될 수 있다. 데이터염기는 하나 이상의 식별자 라이브러리를 포함 할 수 있다. 데이터염기는 식별자 라이브러리의 장기 저장을 위한 조건 (예컨대, 식별자 분해를 감소시키는 조건)을 제공 할 수 있다. 식별자 라이브러리는 분말, 액체 또는 고체 형태로 저장 될 수 있다. 보다 안정적인 저장을 위해 식별자 수용액을 동결건조시킬 수 있다 (동결건조에 관한 보다 자세한 정보는 화학적 방법 섹션 G 참고). 데이터염기는 자외선 차단, 온도 감소 (예컨대, 냉장 또는 냉동), 분해성 화학물질 및 효소로부터 보호를 제공 할 수 있다. 데이터염기로 전송되기 전에 식별자 라이브러리를 동결건조 또는 동결시킬 수 있다. 식별자 라이브러리는 뉴클레아제를 비활성화하기 위한 에틸렌디아민테트라아세트산 (EDTA) 및/또는 핵산 분자의 안정성을 유지하기 위한 완충액을 포함 할 수 있다.
데이터염기는 정보를 식별자에 기록하거나, 정보를 복사하거나, 정보에 액세스하거나, 정보를 판독하는 장치에 연결되거나 포함되거나 또는 분리 될 수 있다. 식별자 라이브러리의 일부는 복사, 액세스 또는 판독 전에 데이터염기에서 제거 될 수 있다. 데이터염기에서 정보를 복사하는 장치는 정보를 기록하는 장치와 같거나 다를 수 있다. 정보를 복사하는 장치는 장치에서 식별자 라이브러리의 알리코트를 추출하고 해당 알리코트를 시약 및 구성성분과 조합하여 식별자 라이브러리의 일부 또는 전체를 증폭 할 수 있다. 장치는 증폭 반응의 온도, 압력 및 교반을 제어 할 수 있다. 장치는 파티션을 포함 할 수 있으며 식별자 라이브러리를 포함하는 파티션에서 하나 이상의 증폭 반응이 발생할 수 있다. 장치는 한 번에 둘 이상의 식별자 풀을 복사 할 수 있다.
복사된 식별자는 복사 장치에서 액세스 장치로 전송 될 수 있다. 액세스 장치는 복사 장치와 동일한 장치 일 수 있다. 액세스 장치는 별도의 영역, 섹션 또는 파티션을 포함 할 수 있다. 액세스 장치에는 친화성 태그에 결합된 식별자를 분리하기 위한 하나 이상의 컬럼, 비드 저장소 또는 자성 영역이 있을 수 있다 (핵산 포획에 관하여 화학적 방법 섹션 F 참고). 대안적으로 또는 추가적으로, 액세스 장치는 하나 이상의 크기 선별 유닛을 가질 수 있다. 크기 선별 유닛에는 아가로스 겔 전기영동 또는 핵산 분자 크기를 선별하기 위한 다른 방법이 포함될 수 있다 (핵산 크기 선별에 대한 자세한 내용은 화학적 방법 섹션 E 참조). 복사 및 추출은 장치의 동일한 영역 또는 장치의 상이한 영역들에서 수행될 수 있습니다 (핵산 증폭에 대한 화학적 방법 섹션 D 참조).
액세스된 데이터는 동일한 장치에서 판독되거나 또는 액세스된 데이터는 또 다른 장치로 전송 될 수 있다. 판독 장치는 식별자를 검출하고 식별하는 검출 유닛을 포함 할 수 있다. 검출 유닛은 시퀀서, 혼성화 어레이 또는 식별자의 존재 또는 부재를 식별하기 위한 다른 유닛의 일부일 수 있다. 시퀀싱 플랫폼은 핵산 서열로 인코드된 정보를 디코딩하고 판독하기 위해 특별히 설계 될 수 있다. 시퀀싱 플랫폼은 단일 또는 이중 가닥 핵산 분자의 시퀀싱 전용 일 수 있다. 시퀀싱 플랫폼은 개별 염기들을 판독함으로써 (예컨대, 염기단위 시퀀싱) 또는 해당 핵산 분자 (예컨대, 식별자) 내부에 통합된 전체 핵산 서열 (예컨대, 구성요소)의 존재 또는 부재를 검출함으로써 핵산 인코드된 데이터를 디코드할 수 있다. 대안적으로, 시퀀싱 플랫폼은 Illumina®Sequencing 또는 모세관 전기영동에 의한 단편화 분석과 같은 시스템 일 수 있다. 대안적으로 또는 추가적으로, 핵산 서열을 디코딩하는 것은 광학적, 전기화학적 또는 화학적 신호를 생성하는 임의의 방법을 비롯한 (그러나 이에 제한되는 것은 아님), 상기 장치에 의해 수행되는 다양한 분석 기술을 사용하여 수행 될 수 있다.
핵산 분자의 정보 저장은 장기 정보 저장, 민감한 정보 저장 및 의료 정보 저장을 비롯한 (그러나 이에 제한되는 것은 아님) 다양한 응용 분야를 가질 수 있다. 한 예에서, 개인의 의료 정보 (예컨대, 병력 및 의료 기록)는 핵산 분자에 저장되어 환자에게 휴대 될 수 있다. 정보는 신체 외부 (예컨대, 웨어러블 디바이스) 또는 신체 내부 (예컨대, 피하 캡슐)에 저장 될 수 있다. 환자가 진료실이나 병원에 입원 할 때 이러한 장치나 캡슐에서 샘플을 채취 할 수 있으며 핵산 시퀀서를 사용하여 정보를 디코딩 할 수 있다. 의료 기록의 핵산 분자 내 개인 저장은 컴퓨터 및 클라우드 기반 저장 시스템에 대한 대안을 제공할 수 있다. 의료 기록의 핵산 분자 내 개인 저장은 의료 기록이 해킹되는 사례 또는 발생을 감소시킬 수 있다. 의료 기록의 캡슐 기반 저장에 사용되는 핵산 분자는 인간 게놈 서열에서 유래될 수 있다. 인간 게놈 서열의 사용은 캡슐 파손 및 누출시 핵산 서열의 면역원성을 감소시킬 수 있다.
컴퓨터 시스템
본 발명은 본 발명의 방법들을 실시하도록 프로그?C된 컴퓨트 시스템을 제공한다. 도 19는 디지털 정보를 핵산 서열에 인코딩하고 및/또는 핵산 서열로부터 유래된 정보를 판독 (예를 들어, 디코딩)하도록 프로그래밍되거나 다른 방법으로 구성된 컴퓨터 시스템 (1901)을 도시한다. 컴퓨터 시스템 (1901)은 본 발명의 인코딩 및 디코딩 절차에 관한 다양한 양상들, 가령, 예를 들어, 인코드된 비트 스트림 또는 바이트 스트림으로부터 주어진 비트 또는 바이트에 대한 비트-값 및 비트 위치 정보를 조절할 수 있다.
컴퓨터 시스템 (1901)은 단일 코어 또는 멀티 코어 프로세서 일 수있는 중앙 처리 장치 (CPU, 또한 본원에서 “프로세서” 및 “컴퓨터 프로세서”) (1905), 또는 병렬 처리를 위한 복수의 프로세서를 포함한다. 컴퓨터 시스템 (1901)은 또한 메모리 또는 메모리 위치 (1910) (예컨대, 랜덤 액세스 메모리, 판독 전용 메모리, 플래시 메모리), 전자 저장 장치 (1915) (예컨대, 하드 디스크), 하나 이상의 다른 시스템들과의 통신을 위한 통신 인터페이스 (1920) (예컨대, 네트워크 어댑터), 및 주변 장치 (1925), 가령, 캐시, 다른 메모리, 데이터 저장 및/또는 전자 디스플레이 어댑터를 포함한다. 메모리 (1910), 저장 유닛 (1915), 인터페이스 (1920) 및 주변 장치 (1925)는 마더 보드와 같은 통신 버스 (실선)를 통해 CPU (1905)와 통신한다. 저장 유닛 (1915)은 데이터를 저장하기 위한 데이터 저장 유닛 (또는 데이터 저장소) 일 수 있다. 컴퓨터 시스템 (1901)은 통신 인터페이스 (1920)의 도움으로 컴퓨터 네트워크 (“네트워크”) (1930)에 작동가능하게 연결될 수 있다. 네트워크 (1930)는 인터넷, 인터넷 및/또는 엑스트라 넷, 또는 인터넷과 통신 중인 인트라넷 및/또는 엑스트라넷 일 수 있다. 네트워크 (1930)는 일부 경우에 통신 및 / 또는 데이터 네트워크이다. 네트워크 (1930)는 클라우드 컴퓨팅과 같은 분산 컴퓨팅을 가능하게 할 수 있는 하나 이상의 컴퓨터 서버를 포함 할 수 있다. 네트워크 (1930)는 일부 경우에 컴퓨터 시스템 (1901)의 도움을 받아 피어-투-피어 네트워크를 구현할 수 있는데, 이것은 컴퓨터 시스템 (1901)에 연결된 장치가 클라이언트 또는 서버로 동작하도록 할 수 있다.
CPU (1905)는 프로그램 또는 소프트웨어로 구현 될 수 있는 일련의 기계 판독 가능 명령어를 실행할 수 있다. 명령어는 메모리 위치, 가령, 메모리 (1910)에 저장 될 수 있다. 명령어는 CPU (1905)에 지시될 수 있으며, 이들은 본 발명의 방법들을 실시하기 위해 후속적으로 CPU (1905)를 프로그램하거나 다른 방식으로 구성할 수 있다. CPU (1905)에 의해 수행되는 동작의 예는 패치, 디코드, 실행 및 라이트백 (writeback)을 포함 할 수 있다.
CPU (1905)는 회로의 일부, 가령, 집적 회로 일 수 있다. 시스템 (1901)의 하나 이상의 다른 구성요소가 이 회로에 포함될 수 있다. 경우에 따라, 회로는 주문형 집적 회로 (ASIC)이다.
저장 유닛 (1915)은 파일, 가령, 드라이버, 라이브러리 및 저장된 프로그램을 저장할 수 있다. 저장 유닛 (1915)은 사용자 데이터, 예를 들어, 사용자 선호도 및 사용자 프로그램을 저장할 수있다. 일부 경우에 컴퓨터 시스템 (1901)은 인트라넷 또는 인터넷을 통해 컴퓨터 시스템 (1901)과 통신하는 원격 서버에 위치하는 것과 같이 컴퓨터 시스템 (1901) 외부에 있는 하나 이상의 추가 데이터 저장 유닛을 포함 할 수 있다.
컴퓨터 시스템 (1901)은 네트워크 (1930)를 통해 하나 이상의 원격 컴퓨터 시스템과 통신 할 수 있다. 예를 들어, 컴퓨터 시스템 (1901)은 사용자 또는 다른 장치들의 컴퓨터 시스템 및 또는 핵산들의 서열에서 인코드 또는 디코드되는 데이터를 분석하는 과정에서 사용자에 의해 사용될 수 있는 기기 (예컨대, 시퀀서 또는 핵산 서열에서 질소 염기의 순서를 화학적으로 결정하기위한 다른 시스템)과 통신할 수 있다. 원격 컴퓨터 시스템의 예로는 개인용 컴퓨터 (예컨대, 휴대용 PC), 슬레이트 또는 태블릿 PC (예컨대, Apple®iPad, Samsung® Galaxy Tab), 전화기, 스마트폰 (예컨대, Apple®iPhone, Android 지원 장치, Blackberry®) 또는 개인용 정보 단말기를 들 수 있다. 사용자는 네트워크 (1930)를 통해 컴퓨터 시스템 (1901)에 액세스 할 수 있다.
본원에 설명된 방법은, 컴퓨터 시스템 (1901)의 전자 저장 위치, 가령, 예를 들어, 메모리 (1910) 또는 전자 저장 유닛 (1915)에 저장된 기계 (예를 들어, 컴퓨터 프로세서) 실행가능 코드에 의해 구현 될 수 있다. 기계 실행가능 코드 또는 기계 판독가능 코드는 소프트웨어 형태로 제공 될 수 있다. 사용 중에 이러한 코드는 프로세서 (1905)에 의해 실행될 수 있다. 일부 경우에, 코드는 저장 유닛 (1915)으로부터 검색되고 프로세서 (1905)에 의한 액세스 준비를 위해 메모리 (1910)에 저장 될 수 있다. 일부 경우에서, 전자 저장 유닛 (1915)은 배제 될 수 있고, 기계 실행가능 명령은 메모리 (1910)에 저장된다.
코드는 코드를 실행하도록 조정된 프로세서가 있는 기계와 함께 사용하도록 사전 컴파일 및 구성 될 수 있으며, 또는 런타임 중에 컴파일 될 수도 있다. 코드는 사전 컴파일 또는 컴파일된 방식으로 코드를 실행할 수 있도록 선택될 수 있는 프로그래밍 언어로 제공 될 수 있다.
본원에 제공된 시스템 및 방법의 양상들, 가령, 컴퓨터 시스템 (1901)은 프로그래밍으로 구현 될 수 있다. 기술의 다양한 양상들은 일반적으로 기계 (또는 프로세서) 실행가능 코드 및/또는 기계 판독 가능 매체 유형에 포함되거나 내장되는 관련 데이터 형태의 “제품” 또는 “제조품목”으로 간주 될 수 있다. 기계 실행가능 코드는 메모리 (예컨대, 읽기 전용 메모리, 랜덤 액세스 메모리, 플래시 메모리) 또는 하드 디스크와 같은 전자 저장 장치에 저장 될 수 있다. “저장” 유형 매체는, 컴퓨터, 프로세서 등의 유형 메모리 중 일부 또는 전부, 또는 이와 관련된 모듈들, 가령, 소프트웨어 프로그래밍을 위해 언제든지 비-일시적 저장을 제공 할 수 있는, 다양한 반도체 메모리, 테이프 드라이브, 디스크 드라이브 등을 포함 할 수 있다. 소프트웨어의 전부 또는 일부는 때때로 인터넷 또는 다양한 기타 통신 네트워크를 통해 통신 될 수 있다. 예를 들어, 이러한 통신은 하나의 컴퓨터 또는 프로세서에서 다른 컴퓨터로, 예를 들어, 관리 서버 또는 호스트 컴퓨터에서 애플리케이션 서버의 컴퓨터 플랫폼으로 소프트웨어를 로드하도록 할 수 있다. 따라서 소프트웨어 요소들이 탑재될 수있는 또 다른 유형의 매체는 유선 및 광 유선 네트워크를 통해 그리고 다양한 무선 링크를 통해 로컬 장치 간의 물리적 인터페이스를 통해 사용되는 것과 같은 광, 전기 및 전자기파를 포함한다. 유선 또는 무선 링크, 광 링크 등과 같이 이러한 파동을 전달하는 물리적 요소도 소프트웨어를 탑재한 매체로 간주 될 수 있다. 본 명세서에서 사용되는, 컴퓨터 또는 기계 “판독가능 매체”와 같은 용어는, 비 일시적인 유형의 “저장” 매체에 제한되지 않는 한, 실행을 위해 프로세서에 명령을 제공하는데 참여하는 임의의 매체를 지칭한다.
따라서, 컴퓨터 실행 코드와 같은 기계 판독가능 매체는 유형 저장 매체, 반송파 매체 또는 물리적 전송 매체를 비롯한 (그러나 이에 제한되지 않음) 많은 형태를 취할 수 있다. 비 휘발성 저장 매체는 예를 들어, 도면에 도시된 데이터염기 등을 구현하는데 사용될 수 있는 임의의 컴퓨터(들) 등 내의 임의의 저장 장치와 같은 광학 또는 자기 디스크를 포함한다. 휘발성 저장 매체는 이러한 컴퓨터 플랫폼의 메인 메모리와 같은 동적 메모리를 포함한다. 유형의 전송 매체에는 동축 케이블; 컴퓨터 시스템 내 버스를 구성하는 와이어들을 비롯한 구리 와이어 및 광섬유가 포함된다. 반송파 전송 매체는 전기 또는 전자기 신호, 또는 무선 주파수 (RF) 및 적외선 (IR) 데이터 통신 중에 생성되는 것과 같은 음향 또는 광파의 형태를 취할 수 있다. 따라서 컴퓨터 판독 가능 매체의 일반적인 형태에는 예를 들어 다음이 포함된다: 플로피 디스크, 플렉서블 디스크, 하드 디스크, 자기 테이프, 기타 자기 매체, CD-ROM, DVD 또는 DVD-ROM, 기타 광학 매체, 펀치 카드 용지 테이프, 구멍 패턴이 있는 기타 물리적 저장 매체, RAM, ROM, PROM 및 EPROM, FLASH-EPROM, 기타 메모리 칩 또는 카트리지, 데이터 또는 명령어를 전송하는 반송파, 이러한 반송파를 전송하는 케이블 또는 링크, 또는 컴퓨터가 프로그래밍 코드 및/또는 데이터를 판독할 수 있는 기타 매체. 이러한 형태의 컴퓨터 판독가능 매체 중 다수는 실행을 위해 하나 이상의 명령의 하나 이상의 시퀀스를 프로세서에 전달하는 것과 관련 될 수 있다.
컴퓨터 시스템 (1901)은, 예를 들어, 서핵산, 원시 데이터, 파일 및 압축되거나 또는 압축해제된 zip 파일을 인코딩 또는 디코딩하여 DNA 저장 데이터로 인코딩하거나 디코딩하는 기계 또는 컴퓨터 시스템에 의해 인코드되거나 이에 의해 판독되는, 크로마토그래프, 서열 및 비트, 바이트, 또는 비트 스트림을 비롯한 서열 출력 데이터를 제공하기 위한, 사용자 인터페이스 (UI) (1940)를 포함하는 전자 디스플레이 (1935)를 포함하거나 그와 통신 할 수 있다. UI의 예에는 그래픽 사용자 인터페이스 (GUI) 및 웹 기반 사용자 인터페이스가 제한없이 포함된다.
본 발명의 방법 및 시스템은 하나 이상의 알고리즘에 의해 구현 될 수 있다. 알고리즘은 중앙 처리 장치 (1905)에 의해 실행될 때 소프트웨어에 의해 구현 될 수 있다. 예를 들어, 알고리즘은 디지털 정보를 인코딩하기 전에 원시 데이터 또는 zip 파일 압축된 데이터로부터 디지털 정보를 코딩하는 맞춤형 방법을 결정하기 위해 DNA 인덱스 및 원시 데이터 또는 zip 파일 압축된 또는 압축해제된 데이터와 함께 사용될 수 있다.
화학적 방법 섹션
중첩 연장 PCR (OEPCR) 어셈블리
OEPCR에서, 구성요소들은 중합효소와 dNTP (dATP, dTTP, dCTP, dGTP 또는 이의 변이체 또는 유사체를 포함하는 데옥시뉴클레오티드 트리포스페이트)를 포함하는 반응에서 어셈블리된다. 구성요소들은 단일 가닥 또는 이중 가닥 핵산 일 수 있다. 서로 인접하여 어셈블리 될 구성요소들은 상보적 3' 말단, 상보적 5' 말단, 또는 한 구성요소의 5' 말단과 인접한 구성요소의 3' 말단 사이의 상동성을 가질 수 있다. “혼성화 영역”이라고 하는 이러한 말단 영역은 OEPCR 동안 구성요소들 사이의 혼성화된 접합의 형성을 촉진하기 위한 것으로, 여기서 하나의 입력 구성요소 (또는 이의 보체)의 3' 말단은 의도한 인접 구성요소 (또는 그 보체)의 3' 말단에 혼성화된다. 이후 어셈블리된 이중 가닥 생성물은 중합효소 연장에 의해 형성된다. 이후 이러한 생성물은 후속 혼성화 및 확장을 통해 더 많은 구성요소들로 어셈블리 될 수 있다. 도 7은 3개의 핵산을 어셈블리하기 위한 OEPCR의 예시적인 개략도를 도시한다.
일부 구체예에서, OEPCR은 용융 온도, 어닐링 온도 및 연장 온도의 3가지 온도 사이의 순환을 포함 할 수 있다. 용융 온도는 이중 가닥 핵산을 단일 가닥 핵산으로 전환하고 구성요소 내부 또는 구성요소들 사이에 2차 구조 또는 혼성화의 형성을 제거하기 위한 것이다. 일반적으로 용융 온도는 높다, 예를 들어, 섭씨 95도 이상이다. 일부 구체예에서 용융 온도는 적어도 섭씨 96, 97, 98, 99, 100, 101, 102, 103, 104 또는 105도 일 수 있다. 다른 구체예에서 용융 온도는 섭씨 95, 94, 93, 92, 91 또는 90도 이하일 수 있다. 용융 온도가 높을수록 핵산 및 이차 구조의 해리가 개선될 것이나, 핵산 또는 중합효소의 분해와 같은 부작용이 발생할 수도 있다. 용융 온도는 적어도 1, 2, 3, 4, 5 초 또는 그 이상, 가령, 30 초, 1 분, 2 분 또는 3 분 동안 반응에 적용될 수 있다.
어닐링 온도는 의도한 인접 구성요소들 (또는 그 보체)의 상보성 3' 말단들 사이에서 혼성화 형성을 촉진하기 위한 것이다. 일부 구체예에서, 어닐링 온도는 의도된 혼성화 핵산 형성의 계산 용융 온도와 일치 할 수 있다. 다른 구체예에서, 어닐링 온도는 상기 용융 온도의 섭씨 10도 이내 또는 그 이상일 수 있다. 일부 실시예에서, 어닐링 온도는 적어도 섭씨 25, 30, 50, 55, 60, 65 또는 70도 일 수 있다. 용융 온도는 구성요소들 사이의 의도된 혼성화 영역 서열에 따라 달라질 수 있다. 더 긴 혼성화 영역은 더 높은 용융 온도를 가지며, 구아닌 또는 사이토신 뉴클레오티드의 퍼센트 함량이 더 높은 혼성화 영역은 더 높은 용융 온도를 가질 수 있다. 따라서 OEPCR 반응이 특정 어닐링 온도에서 최적으로 어셈블리되도록 구성요소들을 설계 할 수 있다. 어닐링 온도는 적어도 1, 5, 10, 15, 20, 25 또는 30초 이상 동안 반응에 적용될 수 있다.
연장 온도는 하나 이상의 중합효소 효소들에 의해 촉매되는 혼성화된 3' 말단의 핵산 사슬 연장을 개시하고 촉진하기 위한 것이다. 일부 구체예에서, 연장 온도는 중합 효소가 핵산 결합 강도, 신장 속도, 신장 안정성 또는 충실도 양상에서 최적으로 기능하는 온도로 설정 될 수 있다. 일부 구체예에서, 연장 온도는 적어도 섭씨 30, 40, 50, 60 또는 70도 또는 그 이상일 수 있다. 어닐링 온도는 적어도 1, 5, 10, 15, 20, 25, 30, 40, 50, 또는 60초 또는 그 이상 동안 반응에 적용될 수 있다. 권장 연장 시간은 예상 신장의 킬로염기 당 약 15 내지 45 초이다.
OEPCR의 일부 실시예에서, 어닐링 온도 및 연장 온도는 동일 할 수 있다. 따라서 3-단계 온도 주기 대신 2-단계 온도 주기를 사용할 수 있다. 조합된 어닐링 및 연장 온도의 예에는 섭씨 60, 65, 또는 72도가 포함된다.
일부 구체예에서, OEPCR은 하나의 온도 주기로 수행 될 수 있다. 이러한 구체예는 단지 2개의 구성요소의 의도된 어셈블리를 포함 할 수 있다. 다른 구체예에서, OEPCR은 다중 온도 주기로 수행 될 수 있다. OEPCR에서 임의의 주어진 핵산은 한 주기에서 최대 하나의 다른 핵산에 대해서만 어셈블리될 수 있다. 이는 어셈블리 (또는 연장 또는 신장)이 핵산의 3' 말단에서만 발생할 수 있고 각 핵산은 하나의 3' 말단만 가질 수 있기 때문이다. 따라서 다수의 구성요소를 어셈블리하려면 다수의 온도 주기가 필요할 수 있다. 예를 들어, 4개의 구성요소들을 어셈블리하는데 3회의 온도 주기가 포함될 수 있다. 6개의 구성요소들을 어셈블리하는데 5개의 온도 주기가 포함될 수 있다. 10개의 구성요소들을 어셈블리하는데 9개의 온도 주기가 포함될 수 있다. 일부 구체예들에서, 최소로 필요한 것 보다 더 많은 온도 주기를 사용하면 어셈블리 효율이 증가 할 수 있다. 예를 들어 4개의 온도 주기를 사용하여 2개의 구성요소들을 어셈블리하면 하나의 온도 주기만을 사용하는 것보다 더 많은 생성물 산출할 수 있다. 이는 구성요소들의 혼성화 및 신장이 각 주기에서 구성요소들의 총 수 중 일 분획에서 발생하는 통계적 사건이기 때문이다. 따라서 어셈블리된 구성요소들의 전체 분획은 주기가 증가함에 따라 증가할 수 있다.
온도 주기 고려사항 이외에도, OEPCR에서 핵산 서열의 설계는 서로의 어셈블리 효율에 영향을 미칠 수 있다. 긴 혼성화 영역을 갖는 핵산들은 짧은 혼성화 영역을 가지는 핵산에 비해 주어진 어닐링 온도에서 보다 효율적으로 혼성화 할 수 있다. 이는 더 긴 혼성화 생성물이 더 많은 수의 안정된 염기쌍을 포함하고, 따라서 더 짧은 혼성화 생성물보다 전체적으로 더 안정적인 혼성화 생성물 일 수 있기 때문이다. 혼성화 영역들은 적어도 1, 2, 3 4, 5, 6, 7, 8, 9, 10, 또는 그 이상의 염기 길이를 가질 수 있다.
구아닌 또는 시토신 함량이 높은 혼성화 영역은 구아닌 또는 시토신 함량이 낮은 혼성화 영역보다 주어진 온도에서 더 효율적으로 혼성화 할 수 있다. 이는 아데닌이 티민과 염기쌍을 형성하는 것 보다 구아닌이 시토신과 보다 안정한 염기쌍을 형성하기 때문이다. 혼성화 영역은 0% 내지 100% 사이의 모든 구아닌 또는 시토신 함량 (GC 함량으로도 공지됨)을 가질 수 있다.
혼성화 영역 길이 및 GC 함량 외에도 OEPCR의 효율에 영향을 미칠 수 있는 핵산 서열 설계의 더 많은 양상들이 있다. 예를 들어, 구성요소 내에서 원하지 않는 이차 구조의 형성은 의도된 인접 구성 요소와 혼성화 생성물을 형성하는 능력을 방해 할 수 있다. 이러한 2차 구조에는 헤어핀 루프가 포함될 수 있다. 핵산에 대한 가능한 2차 구조의 유형 및 안정성 (예를 들어, 용융 온도)은 서열을 기반으로 예측할 수 있다. 설계 공간 검색 알고리즘을 사용하여 효율적인 OEPCR을 위한 적절한 길이 및 GC 함량 기준을 충족하는 핵산 서열을 결정하는 동시에, 잠재적으로 억제성인 2차 구조를 가진 서열을 피할 수 있다. 설계 공간 검색 알고리즘에는 유전 알고리즘, 휴리스틱 검색 알고리즘, tabu 검색과 같은 메타-휴리스틱 검색 전략, 분기한정법 검색 알고리즘, 동적 프로그래밍 기반 알고리즘, 제한된 조합 최적화 알고리즘, 기울기 하강법 기반 알고리즘, 무작위 검색 알고리즘, 또는 이들의 조합이 포함될 수 있다.
마찬가지로, 동종이량체 (동일한 서열의 핵산 분자와 혼성화하는 핵산 분자) 및 원치 않는 이종이량체 (그들의 의도된 어셈블리 파트너를 제외한 다른 핵산 서열과 혼성화하는 핵산 서열)의 형성은 OEPCR을 방해 할 수 있다. 핵산 내의 2차 구조와 유사하게, 동종이량체 및 이종이량체의 형성은 계산 방법 및 설계 공간 검색 알고리즘을 사용하여 핵산 설계 중에 예측되고 설명 될 수 있다.
더 긴 핵산 서열 또는 더 높은 GC 함량은 OEPCR을 사용하여 원치 않는 2차 구조, 동종이량체 및 이종이량체의 형성을 증가시킬 수 있다. 따라서, 일부 구체예에서, 더 짧은 핵산 서열 또는 더 낮은 GC 함량의 사용은 더 높은 어셈블리 효율로 이어질 수 있다. 이러한 설계 원칙은 보다 효율적인 어셈블리를 위해 긴 혼성화 영역 또는 높은 GC 함량을 사용하는 설계 전략을 방해 할 수 있다. 이와 같이, 일부 구체예들에서, OEPCR은 낮은 GC 함량을 가진 짧은 비-혼성화 영역이 아니라 높은 GC 함량을 가진 긴 혼성화 영역을 사용하여 최적화될 수 있다. 핵산의 전장는 적어도 10, 20, 30, 40, 50, 60, 70, 80, 90 또는 100 염기 또는 그 이상 일 수 있다. 일부 구체예에서, 핵산의 혼성화 영역에 대해 어셈블리 효율이 최적화되는 최적 길이 및 최적 GC 함량이 있을 수 있다.
OEPCR 반응에서 많은 수의 별개의 핵산은 예상 어셈블리 효율을 방해 할 수 있다. 이는 별개의 핵산 서열의 수가 더 많을 수록, 특히, 이종이량체의 형태의 바람직하지 않은 분자 상호 작용에 대한 더 높은 확률을 생성 할 수 있기 때문이다. 따라서 많은 수의 구성 요소를 어셈블리하는 OEPCR의 일부 구체예에서, 핵산 서열 제약은 효율적인 어셈블리를 위해 더욱 엄격해질 수 있다.
예상되는 최종 어셈블리 생성물을 증폭시키기 위한 프라이머가 OEPCR 반응에 포함될 수 있다. OEPCR 반응은 단지 구성 성분들간에 더 많은 어셈블리를 생성함에 의해서만이 아니라, 기존 PCR 방식으로 완전 어셈블리된 생성물을 기하급수적으로 증폭시킴으로써 어셈블리된 생성물의 수율을 개선하기 위해 더 많은 온도 주기로 수행 될 수 있다 (화학적 방법 섹션 D 참조).
어셈블리 효율을 향상시키기 위해 첨가제가 OEPCR 반응에 포함될 수 있다. 베타인, 디메틸 설폭사이드 (DMSO), 비이온성 세제, 포름아미드, 마그네슘, 소 혈청 알부민 (BSA) 또는 이들의 조합의 첨가가 그 예이다. 첨가제 함량 (부피당 중량)은 적어도 0%, 1%, 5%, 10%, 20% 또는 그 이상일 수 있다.
OEPCR에는 다양한 중합 효소가 사용될 수 있다. 중합 효소는 자연적으로 발생하거나 합성 될 수 있다. 예시적인 중합효소는 Φ중합효소 또는 이의 유도체이다. 일부 경우에, 중합효소와 함께 또는 중합효소 대신에 전사효소 또는 리가아제 (즉, 결합의 형성을 촉매하는 효소)가 사용되어, 새로운 핵산 서열들을 구성한다. 중합효소의 예에는 DNA 중합효소, RNA 중합효소, 열안정 중합효소, 야생형 중합효소, 변형 중합효소, 대장균 DNA 중합효소 I, T7 DNA 중합효소, 박테리오파지 T4 DNA 중합효소 Φ(phi29) DNA 중합효소, Taq 중합효소, Tth 중합효소, Tli 중합효소, Pfu 중합효소 Pwo 중합효소, VENT 중합효소, DEEPVENT 중합효소, Ex-Taq 중합효소, LA-Taw 중합효소, Sso 중합효소 Poc 중합효소, Pab 중합효소, Mth 중합효소 ES4 중합효소, Tru 중합효소, Tac 중합효소, Tne 중합효소, Tma 중합효소, Tca 중합효소, Tih 중합효소, Tfi 중합효소, 백금 Taq 중합효소, Tbr 중합효소, Phusion 중합효소, KAPA 중합효소, Q5 중합효소, Tfl 중합효소, Pfutubo 중합효소, Pyrobest 중합효소, KOD 중합효소, Bst 중합효소, Sac 중합효소, 3' -> 5' 엑소뉴클레아제 활성을 가지는 클레노브 절편 중합효소, 및 이의 변이체, 변형된 프로덕트 및 유도체가 포함된다. 서로 다른 중합효소는 서로 다른 온도에서 안정적이고 최적으로 기능할 수 있다. 더욱이, 서로 다른 중합 효소는 서로 다른 특성을 가진다. 예를 들어, Phusion 중합 효소와 같은 일부 중합 효소는 3' -> 5' 엑소뉴클레아제 활성을 나타낼 수 있으며, 이는 핵산 연장 동안 더 높은 충실도에 기여할 수 있다. 일부 중합효소는 신장 중에 리딩 서열들을 대체할 수 있는 반면, 다른 중합효소들은 리딩 서열들을 손상시키거나 신장을 중단시킬 수 있다. Taq와 같은 일부 중합효소는 핵산 서열들의 3' 말단에 아데닌 염기를 포함한다. 이 과정을 A-테일링이라고하며, 아데닌 염기의 첨가가 의도된 인접한 구성요소등 사이의 설계된 3' 상보성을 방해 할 수 있으므로 OEPCR을 억제 할 수 있다.
OEPCR은 중합효소 순환 어셈블리 (또는 PCA)라고도 지칭한다.
연결 어셈블리
연결 어셈블리에서, 하나 이상의 리가아제 효소 및 추가 보조인자를 포함하는 반응에서 별도의 핵산들이 어셈블리된다. 보조인자에는 아데노신 트리-포스페이트 (ATP), 디티오트레이톨 (DTT), 또는 마그네슘 이온 (Mg2+)이 포함될 수 있다. 연결 동안, 한 핵산 가닥의 3'-말단은 다른 핵산 가닥의 5' 말단에 공유적으로 연결되어 어셈블리된 핵산을 형성한다. 연결 반응의 구성요소들은 평활-말단 이중 가닥 DNA (dsDNA), 단일-가닥 DNA (ssDNA), 또는 부분적 혼성화 단일-가닥 DNA 일 수 있다. 핵산들의 말단들을 함께 모으는 전략들은 리가아제 효소에 대한 생존가능한 기질의 빈도를 증가시키므로, 리가아제 반응들의 효율을 개선하기 위해 사용될 수 있다. 평활-말단 dsDNA 분자들은 리가아제 효소들이 작용할 수 있는 소수성 스택을 형성하는 경향이 있으나, 핵산들을 함께 모으는 보다 성공적인 전략은 핵산들을 어셈블리시키고자 하는 구성요소들의 오버행들에 대해 상보성을 가지는 5' 또는 3' 단일-가닥 오버행들을 가진 핵산 구성요소들을 사용하는 것이 될 수 있다. 후자의 경우, 염기-염기 혼성화로 인해 보다 안정적인 핵산 이중나선이 형성 될 수 있다.
이중 가닥 핵산이 한쪽 말단에 오버행 가닥을 가지는 경우, 동일한 말단 상의 다른 가닥은 “공동”으로 지칭될 수 있다. 공동 및 오버행은 함께 “돌출-말단”으로도 공지되어 있는 “점착성 말단”를 형성한다. 점착성 말단은 3' 오버행 및 5' 공동, 또는 5' 오버행 및 3' 공동이 될 수 있다. 2개의 의도한 인접한 구성요소들 사이의 점착성 말단은 양 점착성 말단의 오버행이 혼성화하도록 상보성을 가지도록 설계 될 수 있으며, 그리하여 각각의 오버행은 다른 구성요소상의 공동의 시작부분에 직접 인접하게 끝나게 된다. 이것은 리가아제의 작용에 의해 “씰링 (seal)” (포스포디에스테르 결합을 통해 공유적으로 연결됨) 될 수 있는 “닉(nick)” (이중 가닥 DNA 파손)을 형성한다. 도 8은 3 개의 핵산을 어셈블리하기위한 점착성 말단 연결의 예시적인 개략도이다. 한 가닥 또는 다른 가닥 또는 두 가닥 모두의 닉이 씰링 될 수 있다. 열역학적으로 점착성 말단을 형성하는 분자의 상단 및 하단 가닥은 결합 및 해리 상태 사이에서 이동할 수 있으므로 점착성 말단은 일시적인 형성 일 수 있다. 그러나, 일단 두 구성요소들 사이의 점착성 말단 이중나선 중 한 가닥을 따라 닉이 씰링되면, 반대쪽 가닥의 구성원들이 해리된다 하더라도 해당 공유 연결은 유지된다. 이어서 이러한 연결된 가닥은 반대쪽 가닥의 의도한 인접 구성원들이 결합할 수 있는 템플릿이 되어, 다시 한 번 씰링될 수 있는 닉을 형성할 수 있다.
점착성 말단들은 dsDNA를 하나 이상의 엔도뉴클레아제로 분해함으로써 생성될 수 있다. 엔도뉴클레아제 (제한 효소라고도 지칭될 수 있음)는 dsDNA 분자의 한쪽 또는 양쪽 말단에 있는 특정 부위 (제한 부위라고도 함)를 표적하여, 엇갈린 절단 (때때로 분해로도 지칭됨)을 생성하므로 점착성 말단을 남길 수 있다. 제한 분해에 대하여 화학적 방법 섹션 C를 참고하라. 이러한 분해는 회문식 오버행 (그 자체의 역 상보체인 서열을 가진 오버행)을 남길 수 있다. 이런 경우, 동일한 엔도뉴클레아제로 분해된 2개의 구성요소들은 리가아제가 어셈블리할 수 있는 상보적 점착성 말단들을 형성할 수 있다. 분해와 연결은 엔도뉴클레아제와 리가아제가 호환되는 경우 동일한 반응에서 함께 발생할 수 있다. 반응은 균일한 온도, 가령, 섭씨 4, 10, 16, 25 또는 37도에서 발생할 수 있다. 또는 반응은 여러 온도들 사이, 가령, 섭씨 16도 내지 섭씨 37도 사이에서 순환할 수 있다. 여러 온도들 사이의 순환은 분해 및 연결이 해당 주기의 상이한 부분들 동안 각각 그 최적 온도에서 각각 진행되게 할 수 있다.
별도의 반응에서 분해 및 연결을 수행하는 것이 유용 할 수 있다. 원하는 리가아제와 원하는 엔도뉴클레아제가 서로 다른 조건에서 최적으로 기능하는 경우가 그 예이다. 또는 연결된 생성물이 엔도뉴클레아제에 대한 새로운 제한 부위를 형성하는 경우가 그 예이다. 이러한 경우, 제한 분해 다음 연결을 별도로 수행하는 것이 더 좋을 수 있으며, 아마도 연결 전에 제한 효소를 제거하는 것이 더욱 유익할 수 있다. 핵산은 페놀-클로로포름 추출, 에탄올 침전, 자성 비드 포획 및 / 또는 실리카 막 흡착, 세척 및 용리를 통해 효소로부터 분리 될 수 있다. 여러 엔도뉴클레아제가 동일한 반응에 사용될 수 있지만, 엔도뉴클레아제가 서로 간섭하지 않고 유사한 반응 조건에서 기능하도록 주의해야 한다. 두 개의 엔도뉴클레아제를 사용하여 dsDNA 구성요소의 양쪽 말단에 직교 (비-상보적) 점착성 말단을 만들 수 있다.
엔도뉴클레아제 분해는 5' 말단이 인산화된 점착성 말단을 남길 수 있다. 리가아제 인산화된 5' 말단에서만 기능 할 수 있으며 인산화되지 않은 5'말단에서는 기능하지 않는다. 따라서 분해와 연결 사이에 중간 5' 인산화 단계가 필요하지 않을 수 있다. 점착성 말단에 회문식 오버행이 있는 분해된 dsDNA 구성요소는 자가 연결될 수 있다. 자가-연결을 방지하기 위해, 연결 전에 상기 dsDNA 구성요소를 탈인산화하는 것이 유익 할 수 있다.
다중 엔도뉴클레아제는 서로 다른 제한 부위를 표적할 수 있지만 호환가능한 오버행 (서로의 역 상보체인 오버행)을 남긴다. 이러한 2개의 엔도뉴클레아제로 생성된 점착성 말단들의 연결 생성물은 연결 부위에서 어느 하나의 엔도뉴클레아제에 대한 제한 부위를 내포하지 않는 어셈블리된 생성물을 생성할 수 있다. 이러한 엔도뉴클레아제는, 반복적인 분해-연결주기를 수행하여 단 2개의 엔도뉴클레아제를 사용하여 여러 구성요소를 프로그래밍 가능하게 어셈블리 할 수 있는, 어셈블리 방법들, 가령, 바이오브릭스 어셈블리의 기초를 형성한다. 도 20은 호환가능한 오버행을 갖는 엔도뉴클레아제 BamHI 및 BglII를 사용하는 분해-연결 주기의 한 예를 도시한다.
일부 구체예들에서, `점착성 말단을 생성하기 위해 사용되는 엔도뉴클레아제는 유형 IIS 제한 효소 일 수 있다. 이러한 효소는 제한 부위로부터 특정 방향으로 고정된 수의 염기를 절단하므로 생성되는 오버행의 서열을 맞춤화 할 수 있다. 오버행 서열들은 회문식일 필요는 없다. 동일한 유형의 IIS 제한 효소를 사용하여 동일한 반응 또는 여러 반응에서 여러 개의 서로 다른 점착성 말단들을 생성할 수 있다. 또한, 하나 또는 여러 유형의 IIS 제한 효소를 사용하여 동일한 반응 또는 여러 반응에서 호환가능한 오버행을 가진 구성요소들을 생성할 수 있다. 유형 IIS 제한 효소에 의해 생성된 두 점착성 말단들 사이의 연결 부위는 새로운 제한 부위를 형성하지 않도록 설계 될 수 있다. 또한, 유형 IIS 제한 효소 부위는, 제한 효소가 점착성 말단을 가진 구성요소를 생성하는 경우, 자신의 제한 부위를 절단하도록 dsDNA 상에 배치될 수 있다. 따라서 유형 IIS 제한 효소로부터 생성된 여러 구성요소들 간의 연결 생성물은 제한 부위를 내포하지 않을 수 있다.
유형 IIS 제한 효소는 리가아제와 함께 반응에서 혼합되어 구성요소 분해와 연결을 함께 수행 할 수 있다. 반응 온도는 최적의 분해 및 연결을 촉진하기 위해 둘 이상의 값 사이에서 순환 될 수 있다. 예를 들어, 분해는 섭씨 37도에서 최적으로 수행 될 수 있고 연결은 섭씨 16도에서 최적으로 수행 될 수 있다. 보다 일반적으로, 반응은 섭씨 0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60 또는 65 이상의 온도 값 사이를 순환 할 수 있다. 분해 및 연결 조합반응을 사용하여 적어도 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개의 구성요소들, 또는 그 이상을 어셈블리할 수 있다. 유형 IIS 제한 효소를 활용하여 점착성 말단을 생성하는 어셈블리 반응의 예로는 Golden Gate 어셈블리 (Golden Gate 클로닝이라고도 함) 또는 모듈식 클로닝 (MoClo라고도 함)이 포함된다.
연결에 관한 일부 구체예들에서, 엑소뉴클레아제를 사용하여 점착성 말단들을 가진 구성요소들을 생성할 수 있다. 3' 엑소뉴클레아제를 사용하여, dsDNA로부터 3' 말단을 다시 분해하여, 5' 오버행을 생성할 수 있다. 유사하게, 5' 엑소뉴클레아제를 사용하여, dsDNA로부터 5' 말단을 다시 분해하여, 3' 오버행을 생성할 수 있다. 서로 다른 엑소 뉴 클레아 제는 서로 다른 특성을 가질 수 있다. 예를 들어, 엑소 뉴 클레아 제는 ssDNA에 작용하는지 여부, 인산화 또는 비-인산화 5' 말단에 작용하는지 여부, 닉에서 시작할 수 있는지 여부, 5' 공동, 3' 공동, 5'오버행 또는 3' 오버행에서 활동을 시작할 수 있는지 여부에 따라 뉴 클레아 제 활성의 방향이 다를 수 있다 (5' -> 3' 또는 3' -> 5'). 다양한 유형의 엑소 뉴 클레아 제에는 람다 엑소 뉴 클레아 제, RecJf, 엑소 뉴 클레아 제 III, 엑소 뉴 클레아 제 I, 엑소 뉴 클레아 제 T, 엑소 뉴 클레아 제 V, 엑소 뉴 클레아 제 VIII, 엑소 뉴 클레아 제 VII, 뉴 클레아 제 BAL_31, T5 엑소 뉴 클레아 제 및 T7 엑소 뉴 클레아 제가 포함된다.
엑소 뉴 클레아 제는 여러 구성요소들을 어셈블리하기 위해 리가아제와 함께 반응에 사용될 수 있다. 반응은 고정 된 온도 또는 여러 온도 사이의 주기에서 발생할 수 있으며, 각각은 리가 아제 또는 엑소 뉴 클레아 제 각각에 이상적이다. 중합효소는 리가 아제 및 5'->3' 엑소뉴클레아제와의 어셈블리 반응에 포함될 수 있다. 이러한 반응의 구성요소들은 서로에 대해 인접하게 어셈블리하고자 하는 구성요소들이 그 에지들에서 상동성 서열들을 공유하도록 설계될 수 있다. 예를 들면, 구성요소 Y와 어셈블리될 구성요소 X는 5'-z-3' 형태의 3' 에지 서열을 가질 수 있고, 구성요소 Y는 5'-z-3' 형태의 5' 에지 서열을 가질 수 있으며, 여기서 z는 임의의 핵산 서열이다. 이러한 형태의 상동성 에지 서열들은 '깁슨 중첩'으로 지칭될 수 있다. 5' 엑소뉴클레아제가 깁슨 중첩이 있는 dsDNA 구성요소들의 5' 말단을 다시 분해할 때, 이는 서로에 혼성화하는 호환가능한 3' 오버행들을 생성한다. 그 다음, 혼성화된 3' 말단은 중합효소의 작용에 의해 템플릿 구성요소의 말단으로, 또는 하나의 구성요소의 연장된 3' 오버행이 인접한 구성요소의 5' 공동과 만나는 지점까지 연장됨으로써, 닉을 형성할 수 있으며, 이러한 닉은 리가아제에 의해 씰링될 수 있다. 중합효소, 리가 아제 및 엑소 뉴 클레아 제가 함께 사용되는 이러한 어셈블리 반응을 종종 “깁슨 어셈블리”라 한다. 깁슨 어셈블리는 T5 엑소뉴클레아제, Phusion 중합효소, 및 Taq 리가아제를 사용하여, 섭씨 50도에서 반응을 배양함으로써 실시될 수 있다. 상기 예에서, 호열성 리가아제인, Taq를 사용하면, 해당 반응에서 3가지 유형의 효소들 모두에 적합한 온도인 섭씨 50도에서 반응을 진행시킬 수 있다.
용어 “깁슨 어셈블리”는 일반적으로 중합효소, 리가아제, 및 엑소뉴클레아제가 관여하는 임의의 어셈블리 반응을 지칭할 수 있다. 깁슨 어셈블리를 사용하여 적어도 2, 3, 4, 5, 6, 7, 8, 9, 10, 또는 그 이상의 구성요소들을 어셈블리할 수 있다. 깁슨 어셈블리는 1단계의 등온 반응으로, 또는 하나 이상의 온도 배양을 이용하는 다단계 반응으로 발생할 수 있다. 예를 들어, 깁슨 어셈블리는 적어도 30, 40, 50, 60 또는 70도, 또는 그 미만의 온도에서 발생할 수 있다. 깁슨 어셈블리의 배양 시간은 적어도 1, 5, 10, 20, 40, 또는 80분 일 수 있다.
깁슨 어셈블리는 의도한 인접 구성요소들 사이의 깁슨 중첩이 특정 길이이고 서열 특징, 가령, 헤어핀, 동종이량체 또는 원치않는 이종이량체와 같은 바람직하지 않은 혼성화 이벤트를 피하게 하는 서열을 가질 때 최적으로 발생할 수 있다. 일반적으로 최소 20개 염기의 깁슨 중첩이 권장된다. 그러나 깁슨 중첩은 적어도 1, 2, 3, 5, 10, 20, 30, 40, 50, 60, 100개, 또는 그 이상의 염기 길이일 수 있다. 깁슨 중첩의 GC 함량은 0% 내지 100% 일 수 있다.
깁슨 어셈블리는 일반적으로 5' 엑소 뉴 클레아 제를 이용하여 설명되지만, 반응은 3' 엑소 뉴 클레아 제로도 발생할 수 있다. 3' 엑소뉴클레아제가 dsDNA 구성요소들의 3' 말단을 다시 분해할 때, 중합효소는 3' 말단을 연장시킴으로써 그 작용을 방해한다. 이러한 동적인 과정은 2개 구성요소들 (깁슨 중첩을 공유)의 (엑소뉴클레아제에 의해 생성된) 5' 오버행이 혼성화하여 중합효소가 하나의 구성요소의 3' 말단을 그 인접한 구성요소의 5' 말단에 닿을 때까지 충분히 멀리 확장시켜, 리가아제에 의해 씰링될 수 있는 닉을 남길 수 있을 때까지 지속될 수 있다.
연결의 일부 구체예들에서, 점착성 말단들이 있는 구성요소들은, 효소적 합성과는 반대로, 완전한 상보성을 공유하지 않는 2개의 단일-가닥 핵산, 또는 올리고를 함께 혼합함으로써, 합성적으로 생성될 수 있다. 예를 들면, 2개의 올리고, 올리고 X 및 올리고 Y는, 하나 또는 두 개 올리고 모두의 전체를 구성하는 보다 큰 문자열의 하위문자열을 형성하는 상보적 염기들의 연속 문자열을 따라서만 완전히 혼성화하도록 설계될 수 있다. 이러한 염기들의 상보적 문자열을 “인덱스 영역”이라 지칭한다. 인덱스 영역이 올리고 X의 전체 및 올리고 Y의 5' 말단만을 차지하는 경우, 이러한 올리고들은 함께 한 쪽에 평활 말단을 그리고 다른 쪽에 점착성 말단을 가지며 올리고 Y로부터의 3' 오버행이 있는 구성요소를 형성한다 (도 21A). 인덱스 영역이 올리고 X의 전체 및 올리고 Y의 3' 말단만을 차지하는 경우, 이러한 올리고들은 함께 한 쪽에 평활 말단 그리고 다른 쪽에 점착성 말단을 가지며 올리고 Y로부터의 5' 오버행이 있는 구성요소를 형성한다 (도 21B). 인덱스 영역이 올리고 X의 전체를 차지하고 올리고 Y의 어느 말단도 차지하지 않는 경우 (인덱스 영역이 올리고 Y의 중앙 내부에 포함되어 있음을 의미함), 이러한 올리고들은 함께 한 쪽에 올리고 Y로부터의 3' 오버행을 가지고 다른 한 쪽에 올리고 Y로부터의 5' 오버행을 가지는 점착성 말단이 있는 구성요소를 형성한다 (도 21C). 인덱스 영역이 올리고 X의 5' 말단만 그리고 올리고 Y의 5' 말단만을 차지하는 경우, 이러한 올리고들은 함께 한 쪽에 올리고 Y로부터의 3' 오버행을 그리고 다른 한 쪽에 올리고 X로부터의 3' 오버행을 가지는 점착성 말단을 가지는 구성요소를 형성한다 (도 21D). 인덱스 영역이 올리고 X의 3' 말단만 그리고 올리고 Y의 3' 말단만을 차지하는 경우, 이러한 올리고들은 함께 한 쪽에 올리고 Y로부터의 5' 오버행을 그리고 다른 한 쪽에 올리고 X로부터의 5' 오버행을 가지는 점착성 말단을 가지는 구성요소를 형성한다 (도 21E). 전술한 예에서, 오버행의 서열들은 인덱스 영역 외부의 올리고 서열에 의해 정의된다. 이들 오버행 서열들은 이를 따라서 구성요소들이 연결을 위해 혼성화하는 영역이기 때문에 혼성화 영역으로 지칭될 수 있다.
점착성 말단 연결에서 인덱스 영역 및 혼성화 영역(들)은 구성요소들의 적절한 어셈블리를 용이하게 하도록 설계될 수 있다. 오버행이 긴 구성요소들은 주어진 어닐링 온도에서 오버행이 짧은 구성요소들에 비해 서로 보다 효율적으로 혼성화할 수 있다. 오버행들은 적어도 1, 2, 3 4, 5, 6, 7, 8, 9, 10, 15, 20, 30개, 또는 그 이상의 염기 길이를 가질 수 있다.
구아닌 또는 시토신 함량이 높은 오버행이 있는 구성요소는 구아닌 또는 시토신 함량이 낮은 오버행이 있는 구성요소보다 주어진 온도에서 상보적 구성요소에 더 효율적으로 혼성화 할 수 있다. 이는 아데닌이 티민과 염기쌍을 형성하는 것 보다 구아닌이 시토신과 보다 안정한 염기쌍을 형성하기 때문이다. 오버행들은 0% 내지 100% 사이의 모든 구아닌 또는 시토신 함량 (GC 함량으로도 공지됨)을 가질 수 있다.
오버행 서열들과 마찬가지로 올리고의 인덱스 영역의 GC 함량과 길이도 연결 효율에 영향을 미칠 수 있다. 이는 각 구성요소의 상단 및 하단 가닥이 안정적으로 결합되면 점착성 말단 구성요소들이 더 효율적으로 어셈블리 될 수 있기 때문이다. 따라서 더 높은 GC 함량, 더 긴 서열 및 더 높은 용융 온도를 촉진하는 기타 기능을 가지는 인덱스 영역이 설계 될 수 있다. 그러나, 인덱스 영역과 오버행 서열 모두에 있어서, 연결 어셈블리의 효율에 영향을 미칠 수 있는 보다 많은 올리고 설계 양상들이 존재한다. 예를 들어, 구성요소 내에서 원하지 않는 이차 구조의 형성은 의도된 인접 구성 요소와 어셈블리된 생성물을 형성하는 능력을 방해 할 수 있다. 이는 인덱스 영역, 오버행 서열 또는 둘 모두에서의 2차 구조로 인해 발생할 수 있다. 이러한 2차 구조에는 헤어핀 루프가 포함될 수 있다. 올리고에 대한 가능한 2차 구조의 유형 및 안정성 (예를 들어, 용융 온도)은 서열을 기반으로 예측할 수 있다. 설계 공간 검색 알고리즘을 사용하여 효과적인 구성요소들의 형성을 위한 적절한 길이 및 GC 함량 기준을 충족하는 올리고 서열을 결정하는 동시에, 잠재적으로 억제성인 2차 구조를 가진 서열을 피할 수 있다. 설계 공간 검색 알고리즘에는 유전 알고리즘, 휴리스틱 검색 알고리즘, tabu 검색과 같은 메타-휴리스틱 검색 전략, 분기한정법 검색 알고리즘, 동적 프로그래밍 기반 알고리즘, 제한된 조합 최적화 알고리즘, 기울기 하강법 기반 알고리즘, 무작위 검색 알고리즘, 또는 이들의 조합이 포함될 수 있다.
마찬가지로, 동종이량체 (동일한 서열의 올리고와 혼성화하는 올리고) 및 원치 않는 이종이량체 (그들의 의도된 어셈블리 파트너를 제외한 다른 올리고와 혼성화하는 올리고)의 형성은 연결을 방해 할 수 있다. 구성요소 내의 2차 구조와 유사하게, 동종이량체 및 이종이량체의 형성은 계산 방법 및 설계 공간 검색 알고리즘을 사용하여 올리고 설계 중에 예측되고 설명 될 수 있다.
더 긴 올리고 서열들 또는 더 높은 GC 함량은 연결 반응 내에서 원치 않는 2차 구조, 동종이량체 및 이종이량체의 형성을 증가시킬 수 있다. 따라서, 일부 구체예에서, 더 짧은 올리고 또는 더 낮은 GC 함량의 사용은 더 높은 어셈블리 효율로 이어질 수 있다. 이러한 설계 원칙은 보다 효율적인 어셈블리를 위해 긴 올리고 또는 높은 GC 함량을 사용하는 설계 전략을 방해 할 수 있다. 따라서 연결 어셈블리 효율이 최적화되도록 각 구성요소를 구성하는 올리고에 대한 최적의 길이와 최적의 GC 함량이 있을 수 있다. 연결에서 사용되는 올리고의 전장는 적어도 10, 20, 30, 40, 50, 60, 70, 80, 90 또는 100 염기 또는 그 이상 일 수 있다. 연결에 사용되는 올리고의 전체 GC 함량은 0% 내지 100% 사이일 수 있다.
점착성 말단 연결 이외에도, 연결은 또한 스테이플 (또는 템플릿 또는 브릿지) 가닥들을 사용하여 단일-가닥 핵산들 사이에서 발생할 수 있다. 이 방법은 스테이플 가닥 연결 (SSL), 템플릿 지시된 연결 (TDL), 또는 브릿지 가닥 연결로 지칭될 수 있다. 3개의 핵산을 어셈블리하기 위한 TDL의 예시적인 개략도에 관한 도 10A를 참고하라. TDL에서 2개의 단일-가닥 핵산은 템플릿에 인접하게 혼성화되어 리가아제에 의해 씰링될 수 있는 닉을 형성한다. 점착성 말단 연결에 대하여 동일한 핵산 설계 고려사항들이 TDL에도 적용된다. 템플릿과 의도한 상보적 핵산 서열 간의 더 강한 혼성화는 연결 효율을 증가시킬 수 있다. 따라서 템플릿의 각 면에서 혼성화 안정성 (또는 용융 온도)을 개선하는 서열 특징은 연결 효율을 개선 할 수 있다. 이러한 특징들에는 보다 긴 서열 길이 및 보다 높은 GC 함량이 포함될 수 있다. 템플릿을 포함하여, TDL에서 핵산의 길이는 적어도 10, 20, 30, 40, 50, 60, 70, 80, 90 또는 100 염기 또는 그 이상 일 수 있다. 템플릿을 포함한 핵산들의 GC 함량은, 0% 내지 100% 사이일 수 있다.
TDL에서, 점착성 말단 연결에 있어서와 마찬가지로, 서열 공간 검색 알고리즘을 이용한 핵산 구조-예측 소프트웨어를 사용하여 원치않는 2차 구조를 피하는 템플릿 서열들 및 구성요소를 설계하기 위해 주의를 기울일 수 있다. TDL에서 구성요소들은 이중 가닥 대신 단일 가닥 일 수 있기 때문에, 노출된 염기들로 인하여 (점착성 말단 연결에 비해) 원하지 않는 2차 구조가 더 많이 발생할 수 있다.
TDL은 또한 평활-말단 dsDNA 구성요소들을 사용하여 실시될 수도 있다. 이러한 반응들에서, 스테이플 가닥이 2개 단일-가닥 핵산들을 적절하게 가교시키기 위해, 상기 스테이플은 먼저 단일 가닥 보체를 전부 대체하거나 부분적으로 대체해야 할 수 있다. dsDNA 구성요소와의 TDL 반응을 용이하게 하기 위해 dsDNA는 처음에 고온에서 배양하여 용융될 수 있다. 그 후 반응은 냉각되어 스테이플 가닥이 적절한 핵산 보체에 어닐링되게 할 수 있다. 이러한 과정은 dsDNA 구성요소들에 비해 상대적으로 높은 농도의 템플릿을 사용하여 훨씬 더 효율적으로 이루어질 수 있으므로, 템플릿이 결합에 적절한 전장 ssDNA 보체들을 능가하게 만들 수 있다. 두 개의 ssDNA 가닥이 템플릿과 리가아제에 의해 어셈블리되면, 그 어셈블리된 핵산은 반대의 전장 ssDNA 보체에 대한 템플릿이 될 수 있다. 따라서 TDL과 평활-말단 dsDNA의 연결은 여러 주기의 용융 (고온에서 배양) 및 어닐링 (저온에서 배양)을 통해 개선 될 수 있다. 이 과정은 리가아제 순환 반응, 또는 LCR로 지칭될 수 있다. 적절한 용융 및 어닐링 온도는 핵산 서열에 따라 다르다. 용융 및 어닐링 온도는 적어도 섭씨 4, 10, 20, 20, 30, 40, 50, 60, 70, 80, 90, 또는 100도 일 수 있다. 온도 주기의 수는 적어도 1, 5, 10, 15, 20, 15, 30회 또는 그 이상일 수 있다.
모든 연결은 고정 온도 반응으로 또는 다중 온도 반응으로 수행 될 수 있다. 연결 온도는 적어도 섭씨 0, 4, 10, 20, 20, 30, 40, 50, 또는 60도 또는 그 이상일 수 있다. 리가아제 활성을 위한 최적 온도는 리가아제 유형에 따라 다를 수 있다. 더욱이, 구성요소들이 반응에서 결합하거나 혼성화하는 속도는 핵산 서열에 따라 다를 수 있다. 더 높은 배양 온도는 더 빠른 확산을 촉진하여 구성요소들이 일시적으로 결합하거나 혼성화하는 빈도를 증가시킬 수 있다. 그러나 증가된 온도는 또한 염기쌍 결합을 방해 할 수 있으므로 결합되거나 혼성화된 구성요소 이중나선의 안정성을 감소시킬 수 있다. 연결을 위한 최적 온도는 어셈블리할 핵산의 수, 해당 핵산의 서열, 리가아제 유형 및 반응 첨가제와 같은 기타 요인에 따라 달라질 수 있다. 예를 들면, 4-염기 상보적 오버행이 있는 2개의 점착성 말단 구성요소들은 T4 리가아제로 섭씨 25도에서 보다 섭씨 4도에서 T4 리가아제로 더 빠르게 어셈블리될 수 있다. 그러나 25-염기 상보적 오버행이 있는 2개의 점착성 말단 구성요소들은 T4 리가아제로 섭씨 4도에서 보다 T4 리가아제로 섭씨 25도에서 더 빠르게 어셈블리될 수 있으며, 아마도 모든 온도에서 4-염기 오버행을 이용한 연결보다 더 빠를 것이다. 연결의 일부 구체예들에서, 리가아제 첨가 전에 어닐링을 위해 구성요소들을 가열하고 서서히 냉각시키는 것이 유익할 수 있다.
연결을 사용하여 적어도 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20개, 또는 그 이상의 핵산들을 어셈블리할 수 있다. 연결 배양 시간은 최대 30초, 1분, 2분, 5분, 10분, 20분, 30분, 1시간 또는 그 이상일 수 있다. 보다 긴 배양 시간은 연결 효율을 개선할 수 있다.
연결은 5' 인산화 말단들을 가진 핵산들을 필요로 할 수 있다. 5' 인산화된 말단이 없는 핵산 구성요소들은 폴리뉴클레오티드 키나제, 가령, T4 폴리뉴클레오티드 키나제 (또는 T4 PNK)와의 반응에서 인산화될 수 있다. ATP, 마그네슘 이온 또는 DTT와 같은 다른 보조 인자가 반응에 존재할 수 있다. 폴리뉴클레오티드 키나제 반응은 섭씨 37도에서 30분 동안 발생할 수 있다. 폴리뉴클레오티드 키나제 반응 온도는 적어도 섭씨 0, 4, 10, 20, 20, 30, 40, 50, 또는 60도 일 수 있다. 폴리뉴클레오티드 키나제 반응 배양 시간은 최대 1분, 5분, 10분, 20분, 30분, 60분 또는 그 이상일 수 있다. 대안적으로, 핵산 구성요소들은 변형된 5' 인산화로 합성적으로 (효소적으로와 반대) 설계되어 제조될 수 있다. 5' 말단에서 어셈블리되는 핵산들만이 인산화를 필요로 할 수 있다. 예를 들면, TDL에서 템플릿들은 어셈블리하고자 하는 것이 아닌 경우 인산화되지 않을 수 있다.
연결 효율을 향상시키기 위해 첨가제가 연결 반응에 포함될 수 있다. 예를 들어, 디메틸 설폭사이드 (DMSO), 폴리에틸렌 글리콜 (PEG), 1,2-프로판디올 (1,2-Prd), 글리세롤, Tween-20 또는 이의 조합의 첨가가 그 예이다. PEG6000은 특히 효과적인 연결 증강제 일 수 있다. PEG6000은 크라우딩제 (crowding agent) 작용을 하여 연결 효율을 높일 수 있다. 예를 들어, PEG6000은 리가아제 반응 용액에서 공간을 차지하는 응집된 결절들을 형성하여 리가아제와 구성요소들을 더 가깝게 만들 수 있다. 첨가제 함량 (부피당 중량)은 적어도 0%, 1%, 5%, 10%, 20% 또는 그 이상일 수 있다.
연결에는 다양한 리가아제가 사용될 수 있다. 리가아제는 자연적으로 발생하거나 합성 될 수 있다. 리가아제의 예에는 T4 DNA 리가아제, T7 DNA 리가아제, T3 DNA 리가아제, Taq DNA 리가아제, 9oNTM DNA 리가아제, 대장균 DNA 리가아제, 및 SplintR DNA 리가아제가 포함된다. 서로 다른 리가아제들은 서로 다른 온도에서 안정적이고 최적으로 기능할 수 있다. 예를 들어, Taq DNA 리가아제는 열안정성이며 T4 DNA 리가아제는 그렇지 않다. 더욱이, 서로 다른 리가아제는 서로 다른 특성을 가진다. 예를 들면, T4 DNA 리가아제는 평활-말단 dsDNA를 연결시킬 수 있는 반면 T7 DNA 리가아제는 연결시킬 수 없다.
연결을 사용하여 핵산들의 라이브러리에 시퀀싱 어댑터를 부착할 수 있다. 예를 들어, 연결은 핵산 라이브러리의 각 구성원의 말단에서 공통의 점착성 말단 또는 스테이플을 사용하여 수행 될 수 있다. 핵산의 한 쪽 말단에서의 점착성 말단 또는 스테이플이 다른 쪽 말단의 것과 별개인 경우, 시퀀싱 어댑터는 비대칭으로 연결될 수 있다. 예를 들어, 순방향 시퀀싱 어댑터는 핵산 라이브러리 구성원의 한쪽 말단에 연결될 수 있고 역방향 시퀀싱 어댑터는 핵산 라이브러리 구성원의 다른 쪽 말단에 연결될 수 있다. 대안적으로, 평활-말단 연결은 어댑터를 평활-말단 이중-가닥 핵산들의 라이브러리에 부착하기 위해 사용될 수 있다. 포크 어댑터를 사용하여 각 말단에 동등한 평활-말단 또는 점착성 말단들 (가령, A-꼬리)이 있는 핵산 라이브러리에 어댑터들을 비대칭으로 부착할 수 있다.
연결은 열 비활성화 (예를 들어, 섭씨 65도에서 적어도 20분 동안 배양), 변성제 첨가 또는 EDTA와 같은 킬레이터의 첨가에 의해 억제 될 수 있다.
제한 분해
제한 분해는 제한 엔도뉴클레아제 (또는 제한 효소)가 핵산 상의 동족체 제한 부위를 인식하고 이어서 상기 제한 부위를 포함하는 핵산을 절단 (또는 분해)하는 반응이다. 유형 I, 유형 II, 유형 III 또는 유형 IV 제한 효소를 제한 분해에 사용할 수 있다. 유형 II 제한 효소는 핵산 분해에 가장 효율적인 제한 효소 일 수 있다. 유형 II 제한 효소는 회문식 제한 부위를 인식하고 인식 부위 내의 핵산을 절단 할 수 있다. 상기 제한 효소 (및 그 제한 부위)의 예에는 AatII (GACGTC), AfeI (AGCGCT), ApaI (GGGCCC), DpnI (GATC), EcoRI (GAATTC), NgeI (GCTAGC) 등이 포함된다. DpnI 및 AfeI와 같은 일부 제한 효소는 중앙에서 제한 부위를 절단하여 평활-말단 dsDNA 생성물을 남길 수 있다. EcoRI 및 AatII와 같은 다른 제한 효소는 제한 부위를 중심에서 벗어나게 절단하므로, 점착성 말단 (또는 엇갈린 말단)가 있는 dsDNA 생성물을 남긴다. 일부 제한 효소는 불연속 제한 부위를 표적할 수 있다. 예를 들어, 제한 효소 AlwNI는 제한 부위 CAGNNNCTG를 인식하며, 여기서 N은 A, T, C 또는 G 일 수 있다. 제한 부위는 적어도 2, 4, 6, 8, 10개 또는 그 이상의 염기 길이 일 수 있다.
일부 유형 II 제한 효소는 제한 부위 외부에서 핵산을 절단한다. 이들 효소들은 유형 IIS 또는 유형 IIG 제한 효소로 하위분류 될 수 있다. 상기 효소는 비-회문식 제한 부위를 인식 할 수 있다. 상기 제한 효소의 예에는 GAAAC를 인식하여 보다 하류에서 엇갈린 절단 2 (동일 가닥) 및 6 (반대 가닥) 염기들을 생성하는 BbsI가 포함된다. 또다른 예에는 GGTCTC를 인식하여 보다 하류에서 엇갈린 절단 1 (동일 가닥) 및 5 (반대 가닥) 염기들을 생성하는 BsaI가 포함된다. 상기 제한 효소는 골든 게이트 어셈블리 또는 모듈 클로닝 (MoClo)에 사용될 수 있다. BcgI (유형 IIG 제한 효소)와 같은 일부 제한 효소들은 인식 부위의 양쪽 말단에 엇갈린 절단을 생성 할 수 있다. 제한 효소들은 그 인식 부위들로부터 적어도 1, 5, 10, 15, 20개, 또는 그 이상의 염기만큼 떨어진 핵산을 절단할 수 있다. 상기 제한 효소는 인식 부위 외부에서 엇갈린 절단을 생성 할 수 있기 때문에 생성된 핵산 오버행의 서열은 임의로 설계 될 수 있다. 이는 인식 부위 내에서 엇갈린 절단을 생성하는 제한 효소와 반대이며, 이 때 생성된 핵산 오버행의 서열은 제한 부위의 서열에 결합된다. 제한 분해에 의해 생성된 핵산 오버행은 적어도 1, 2, 3, 4, 5, 6, 7, 8개 또는 그 이상의 염기 길이 일 수 있다. 제한 효소가 핵산을 절단 할 때, 생성되는 5' 말단들은 인산염을 내포한다.
제한 분해 반응에는 하나 이상의 핵산 서열이 포함될 수 있다. 마찬가지로, 제한 분해 반응에서 하나 이상의 제한 효소를 함께 사용할 수 있다. 제한 분해물은 칼륨 이온, 마그네슘 이온, 나트륨 이온, BSA, S-아데노실-L-메티오닌 (SAM) 또는 이들의 조합을 비롯한 첨가제 및 보조인자들을 포함 할 수 있다. 제한 분해 반응은 섭씨 37도에서 1시간 동안 배양 될 수 있다. 제한 분해 반응들은 섭씨 0, 10, 20, 30, 40, 50 또는 60도 이상의 온도에서 배양 될 수 있다. 최적의 분해 온도는 효소에 따라 달라질 수 있다. 제한 분해 반응은 최대 1, 10, 30, 60, 90, 120분 또는 그 이상 동안 배양 될 수 있다. 더 긴 배양 시간은 분해를 증가시킬 수 있다.
핵산 증폭
핵산 증폭은 중합효소 연쇄 반응 또는 PCR로 실행될 수 있다. PCR에서 핵산의 시작 풀 (템플릿 풀 또는 템플릿이라 지칭됨)은 중합효소, 프라이머 (짧은 핵산 프로브), 뉴클레오티드 삼인산 (가령, dATP, dTTP, dCTP, dGTP 및 이의 유사체 또는 변이체) 및 추가 보조인자 및 첨가제, 가령, 베타인, DMSO 및 마그네슘 이온과 조합될 수 있다. 템플릿은 단일 가닥 또는 이중 가닥 핵산 일 수 있다. 프라이머는 템플릿 풀에서 표적 서열에 상보적이고 이에 혼성화하도록 합성적으로 구축된 짧은 핵산 서열일 수 있다. 일반적으로 PCR 반응에는 두 개의 프라이머가 존재하는데, 하나는 표적 템플릿의 상단 가닥 상의 프라이머 결합 부위를 보완하기 위한 것이고, 또 다른 하나는 제 1 결합 부위 하류의 표적 템플릿의 하단 가닥 상의 프라이머 결합 부위를 보완하기 위한 것이다. 이들 프라이머가 표적에 결합하는 5' -> 3' 방향은 이들 사이의 핵산 서열을 성공적으로 복제하고 지수적으로 증폭시키기 위해 서로 마주해야 한다. “PCR”은 전형적으로 특히 상기 형태의 반응을 지칭 할 수 있지만, 임의의 핵산 증폭 반응을 지칭하기 위해 보다 일반적으로 사용될 수도 있다.
일부 구체예에서, PCR은 용융 온도, 어닐링 온도 및 연장 온도의 3가지 온도 사이의 순환을 포함 할 수 있다. 용융 온도는 이중 가닥 핵산을 단일 가닥 핵산으로 전환하고 2차 구조의 형성을 제거하기 위한 것이다. 일반적으로 용융 온도는 높다, 예를 들어, 섭씨 95도 이상이다. 일부 구체예에서 용융 온도는 적어도 섭씨 96, 97, 98, 99, 100, 101, 102, 103, 104 또는 105도 일 수 있다. 다른 구체예에서 용융 온도는 섭씨 95, 94, 93, 92, 91 또는 90도 이하일 수 있다. 용융 온도가 높을수록 핵산 및 이차 구조의 해리가 개선될 것이나, 핵산 또는 중합효소의 분해와 같은 부작용이 발생할 수도 있다. 용융 온도는 적어도 1, 2, 3, 4, 5 초 또는 그 이상, 가령, 30 초, 1 분, 2 분 또는 3 분 동안 반응에 적용될 수 있다. 복잡하거나 긴 템플릿을 사용하는 PCR에는 더 긴 초기 용융 온도 단계가 권장 될 수 있다.
어닐링 온도는 프라이머와 표적 템플릿 간의 혼성화 형성을 촉진하기 위한 것이다. 일부 구체예에서, 어닐링 온도는 프라이머의 계산 용융 온도와 일치 할 수 있다. 다른 구체예에서, 어닐링 온도는 상기 용융 온도의 섭씨 10도 이내 또는 그 이상일 수 있다. 일부 실시예에서, 어닐링 온도는 적어도 섭씨 25, 30, 50, 55, 60, 65 또는 70도 일 수 있다. 용융 온도는 프라이머 서열에 따라 달라질 수 있다. 더 긴 프라이머은 더 높은 용융 온도를 가질 수 있으며, 구아닌 또는 사이토신 뉴클레오티드의 퍼센트 함량이 더 높은 프라이머는 더 높은 용융 온도를 가질 수 있다. 따라서 프라이머가 특정 어닐링 온도에서 최적으로 어셈블리되도록 설계 할 수 있다. 어닐링 온도는 적어도 1, 5, 10, 15, 20, 25 또는 30초 이상 동안 반응에 적용될 수 있다. 어닐링 확보에 도움을 주기 위해, 프라이머 농도는 높거나 포화량 일 수 있다. 프라이머 농도는 500 나노몰 (nM) 일 수 있다. 프라이머 농도는 최대 1nM, 10nM, 100nM, 1000nM 또는 그 이상일 수 있다.
연장 온도는 하나 이상의 중합효소 효소들에 의해 촉매되는 프라이머의 3' 말단 핵산 사슬 연장을 개시하고 촉진하기 위한 것이다. 일부 구체예에서, 연장 온도는 중합 효소가 핵산 결합 강도, 신장 속도, 신장 안정성 또는 충실도 양상에서 최적으로 기능하는 온도로 설정 될 수 있다. 일부 구체예에서, 연장 온도는 적어도 섭씨 30, 40, 50, 60 또는 70도 또는 그 이상일 수 있다. 어닐링 온도는 적어도 1, 5, 10, 15, 20, 25, 30, 40, 50, 또는 60초 또는 그 이상 동안 반응에 적용될 수 있다. 권장 연장 시간은 예상 신장의 킬로염기 당 대략 15 내지 45 초이다.
PCR의 일부 실시예에서, 어닐링 온도 및 연장 온도는 동일 할 수 있다. 따라서 3-단계 온도 주기 대신 2-단계 온도 주기를 사용할 수 있다. 조합된 어닐링 및 연장 온도의 예에는 섭씨 60, 65, 또는 72도가 포함된다.
일부 구체예에서, PCR은 하나의 온도 주기로 수행 될 수 있다. 이러한 구체예는 표적된 단일 가닥 템플릿 핵산을 이중 가닥 핵산으로 바꾸는 것을 포함 할 수 있다. 다른 구체예에서, PCR은 다중 온도 주기로 수행 될 수 있다. PCR이 효율적이면 표적 핵산 분자의 수가 각 주기마다 두 배가 되어 원본 템플릿 풀로부터의 표적된 핵산 템플릿의 수가 지수적으로 증가 할 것으로 예상된다. PCR의 효율은 달라질 수 있다. 따라서 각 주기에서 복제되는 표적 핵산의 실제 퍼센트는 100% 보다 많거나 작을 수 있다. 각 PCR 주기는 돌연변이 및 재조합 핵산과 같은 바람직하지 않은 인공물을 도입시킬 수 있다. 이러한 잠재적인 손상을 줄이기 위해 높은 충실도와 높은 처리성을 가진 중합효소를 사용할 수 있다. 또한 제한된 수의 PCR 주기를 사용할 수 있다. PCR은 최대 1, 5, 10, 15, 20, 25, 30, 35, 40, 45 또는 그 이상의 주기를 포함 할 수 있다.
일부 구체예들에서, 다수의 별개 표적 핵산 서열들은 하나의 PCR에서 함께 증폭될 수 있다. 각 표적 서열에 공통 프라이머 결합 부위가 있는 경우 모든 핵산 서열은 동일한 프라이머 세트로 증폭 될 수 있다. 대안적으로, PCR은 각각 별개의 핵산을 표적하는 다중 프라이머를 포함 할 수 있다. 상기 PCR은 다중 PCR로 지칭 될 수 있다. PCR은 최대 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개 또는 그 이상의 별개의 프라이머를 포함 할 수 있다. 여러 개의 별개 핵산 표적이 있는 PCR에서 각 PCR 주기는 표적된 핵산의 상대적 분포를 변화시킬 수 있다. 예를 들어 균등 분포는 치우치도록 또는 균일하지 않게 분포하도록 만들 수 있다. 이러한 잠재적인 손상을 줄이기 위해, 최적의 중합효소 (예컨대, 고 충실도 및 서열 견고성 보유) 및 최적의 PCR 조건을 사용할 수 있다. 어닐링 및 연장 온도와 시간과 같은 인자들을 최적화 할 수 있다. 또한 제한된 수의 PCR 주기를 사용할 수 있다.
PCR의 일부 구체예에서, 템플릿에서 표적화된 프라이머 결합 부위에 대하여 염기 불일치가 있는 프라이머를 사용하여 표적 서열을 돌연변이 시킬 수 있다. PCR의 일부 구체예에에서, 5' 말단에 여분의 서열 (오버행으로 공지됨)을 가진 프라이머를 사용하여 서열을 표적 핵산에 부착 할 수 있다. 예를 들어, 5' 말단에 시퀀싱 어댑터를 포함하는 프라이머를 사용하여 시퀀싱을 위한 핵산 라이브러리를 준비 및/또는 증폭 시킬 수 있다. 시퀀싱 어댑터를 표적하는 프라이머를 사용하여 특정 시퀀싱 기술들을 위해 충분하게 농축되도록 핵산 라이브러리를 증폭시킬 수 있다.
일부 구체예에서, 선형-PCR (또는 비대칭-PCR)이 사용되며, 여기서 프라이머는 템플릿의 한 가닥만을 (두 가닥 모두가 아님) 표적한다. 선형-PCR에서는 각 주기에서 복제된 핵산은 프라이머에 상보적이지 않으므로 프라이머는 이에 결합하지 않는다. 따라서 프라이머는 각 주기마다 원래 표적 템플릿만을 복제하므로, 선형 (지수적과 반대) 증폭이 된다. 선형-PCR의 증폭은 기존 (지수적) PCR만큼 빠르지는 않지만 최대 수율은 더 클 수 있다. 이론적으로, 선형-PCR의 프라이머 농도는 기존 PCR에서와 같이 주기를 증가시키고 수율을 증가시키는 제한 요인이 되지 않을 수 있다. 선형-후-지수형-PCR (또는 LATE-PCR)는 특히 높은 수율을 제공할 수 있는 변형된 형태의 선형-PCR이다.
핵산 증폭의 일부 구체예에서, 용융, 어닐링 및 연장 과정은 단일 온도에서 발생할 수 있다. 이러한 PCR은 등온 PCR로 지칭될 수 있다. 등온 PCR은 프라이머 결합을 위해 서로 완전히 상보적인 핵산 가닥을 해리하거나 대체하는 온도-독립적 방법들을 활용할 수 있다. 전략에는 루프-매개 등온 증폭, 가닥 변위 증폭, 헬리카제-의존성 증폭 및 닉킹 효소 증폭 반응이 포함된다. 등온 핵산 증폭은 최대 섭씨 20, 30, 40, 50, 60 또는 70도 또는 그 이상의 온도에서 발생할 수 있다.
일부 구체예에서, PCR은 샘플 내 핵산의 양을 정량화하기 위한 형광 프로브 또는 염료를 추가로 포함 할 수 있다. 예를 들어, 염료는 이중 가닥 핵산으로 보간 될 수 있다. 상기 염료의 예는 SYBR Green이다. 형광 프로브는 또한 형광 유닛에 부착된 핵산 서열 일 수 있다. 형광 단위는 표적 핵산에 대한 프로브의 혼성화 및 연장 중합효소 유닛으로부터의 후속 변형시 방출 될 수 있다. 상기 프로브의 예는 Taqman 프로브를 포함한다. 이러한 프로브를 PCR 및 광학 측정 도구 (여기 및 검출용)와 함께 사용하여 샘플의 핵산 농도를 정량할 수 있다. 이 과정은 정량적 PCR (qPCR) 또는 실시간 PCR (rtPCR)이라 지칭될 수 있다.
일부 구체예에서, PCR은 다중 템플릿 분자들의 풀에서 보다는 단일 분자 템플릿 (단일-분자 PCR로 지칭 될 수 있는 과정에서)에서 수행 될 수 있다. 예를 들어, 유액-PCR (ePCR)을 사용하여 오일 유액 내부의 물 방울들 내부에 단일 핵산 분자들을 캡슐화 할 수 있다. 물방울은 또한 PCR 시약을 포함 할 수 있으며, 물방울은 PCR에 필요한 온도 순환이 가능한 온도-제어된 환경에서 보관 될 수 있다. 이러한 방식의, 다수의 자기 (self)-포함 PCR 반응들이 고 처리량으로 동시에 발생할 수 있다. 오일 유액의 안정성은 계면활성제로 개선될 수 있다. 물방울의 움직임은 미세유체 채널을 통과하는 압력을 이용하여 제어 될 수 있다. 미세유체 장치는 액적 생성, 액적 분할, 액적 병합, 액적으로의 재료 주입 및 액적 배양에 사용될 수 있다. 오일 유액에서 물방울 크기는 적어도 1 피코리터 (pL), 10pL, 100pL, 1 나노리터 (nL), 10nL, 100nL, 또는 그 이상일 수 있다.
일부 구체예들에서, 단일-분자 PCR은 하나의 고체상 기질에서 수행될 수 있다. 예로는 Illumina 고체상 증폭 방법 또는 그 변형이 있다. 템플릿 풀은 고체상 기질에 노출 될 수 있으며, 여기서 고체상 기질은 특정한 공간 해상도에서 템플릿을 고정시킬 수 있다. 이어서 브리지 증폭이 각 템플릿의 공간상의 이웃 내부에서 발생하고, 이로써, 기질에서 고 처리량 방식으로 단일 분자를 증폭시킬 수 있다.
고-처리량, 단일-분자 PCR은 서로 간섭 할 수 있는 별개 핵산들의 풀을 증폭하는데 유용 할 수 있다. 예를 들어, 여러 개의 별개의 핵산들이 공통 서열 영역을 공유하는 경우, 이러한 공통 영역을 따라 핵산들 사이의 재조합이 PCR 반응 중에 발생할 수 있으며, 그 결과 새로운 재조합 핵산이 생성된다. 단일-분자 PCR은 별개의 핵산 서열들을 서로 구획화하여 이들이 상호작용하지 않을 수 있으므로 잠재적인 증폭 오류를 방지할 것이다. 단일-분자 PCR은 시퀀싱을 위한 핵산을 준비함에 특히 유용 할 수 있다. 단일-분자 PCR 매트는 또한 템플릿 풀 내부의 많은 표적들의 절대 정량에 유용할 수 있다. 예를 들어, 디지털 PCR (또는 dPCR)은 별개의 단일-분자 PCR 증폭 신호의 빈도를 사용하여 샘플 내 시작 핵산 분자의 수를 추정한다.
PCR의 일부 구체예들에서, 핵산들의 그룹은 모든 핵산에 공통인 프라이머 결합 부위에 대한 프라이머를 사용하여 비-차별적으로 증폭 될 수 있다. 풀 내 모든 핵산들에 연접한 프라이머 결합 부위들을 위한 프라이머들이 그 예이다. 합성 핵산 라이브러리는 일반적인 증폭을 위한 이러한 공통 부위들을 이용하여 생성되거나 어셈블리 될 수 있다. 그러나, 일부 구체예들에서, PCR을 사용하여 하나의 풀의 핵산들의 표적 서브세트를 선택적으로 증폭시킬 수 있다. 핵산들의 상기 표적된 서브세트에서만 나타나는 프라이머 결합 부위들이 있는 프라이머들을 사용함에 의한 것이 그 예이다. 합성 핵산 라이브러리는 보다 일반적인 라이브러리로부터의 하위-라이브러리를 선택적으로 증폭하기 위해 잠재적인 관심 하위-라이브러리에 속하는 핵산들이 모두 그 에지에서 공통 프라이머 결합 부위를 공유하도록 (해당 하위-라이브러리 내부에서 공통이지만 다른 하위-라이브러리와는 구별됨) 생성 또는 어셈블리 될 수 있다. 일부 구체예들에서, PCR은 핵산 어셈블리 반응들 (가령, 연결 또는 OEPCR)와 조합되어, 부분적으로 어셈블리된 또는 잘못 어셈블리된 (또는 의도하지 않은 또는 바람직하지 않은) 이중-생성물 (bi-products)로부터 완전히 어셈블리된 또는 잠재적으로 완전히 어셈블리된 핵산들을 선택적으로 증폭시킬 수 있다. 예를 들어, 어셈블리는, 완전히 어셈블리된 핵산 생성물만이 증폭에 필요한 2개의 프라이머 결합 부위들을 내포하도록, 각 에지 서열 상에 프라이머 결합 부위를 가지는 핵산을 어셈블리하는 것을 포함할 수 있다. 상기 예에서, 부분적으로 어셈블리된 생성물은 프라이머 결합 부위들을 가지는 에지 서열들을 전혀 내포하지 않거나 하나만 내포할 수 있으므로, 증폭되어서는 안된다. 마찬가지로 잘못 어셈블리된 (또는 의도하지 않은 또는 바람직하지 않은) 생성물은 에지 서열들을 전혀 내포하지 않거나 하나만을 내포할 수 있거나, 또는 잘못된 배향의 또는 잘못된 염기양으로 분리된 두 개 에지 서열들 모두를 내포할 수 있다. 그러므로 상기 잘못-어셈블리된 생성물은 증폭되지 않거나 또는 증폭하여 잘못된 길이의 생성물을 생성하여야 한다. 후자의 경우, 잘못된 길이의 잘못-어셈블리된 증폭 생성물은 핵산 크기 선별법 (화학적 방법 섹션 E 참고), 가령, 아가로즈 겔에서 DNA 전기영동 후 겔 추출하여 올바른 길이의 완전히 어셈블리된 증폭 생성물과 분리될 수 있다.
핵산 증폭의 효율을 개선하기 위해 PCR에 첨가제가 포함될 수 있다. 베타인, 디메틸 설폭사이드 (DMSO), 비이온성 세제, 포름아미드, 마그네슘, 소 혈청 알부민 (BSA) 또는 이들의 조합의 첨가가 그 예이다. 첨가제 함량 (부피당 중량)은 적어도 0%, 1%, 5%, 10%, 20% 또는 그 이상일 수 있다.
PCR에는 다양한 중합 효소가 사용될 수 있다. 중합 효소는 자연적으로 발생하거나 합성 될 수 있다. 예시적인 중합효소는 Φ중합효소 또는 이의 유도체이다. 일부 경우에, 중합효소와 함께 또는 중합효소 대신에 전사효소 또는 리가아제 (즉, 결합의 형성을 촉매하는 효소)가 사용되어, 새로운 핵산 서열들을 구성한다. 중합효소의 예에는 DNA 중합효소, RNA 중합효소, 열안정 중합효소, 야생형 중합효소, 변형 중합효소, 대장균 DNA 중합효소 I, T7 DNA 중합효소, 박테리오파지 T4 DNA 중합효소 Φ(phi29) DNA 중합효소, Taq 중합효소, Tth 중합효소, Tli 중합효소, Pfu 중합효소 Pwo 중합효소, VENT 중합효소, DEEPVENT 중합효소, Ex-Taq 중합효소, LA-Taw 중합효소, Sso 중합효소 Poc 중합효소, Pab 중합효소, Mth 중합효소 ES4 중합효소, Tru 중합효소, Tac 중합효소, Tne 중합효소, Tma 중합효소, Tca 중합효소, Tih 중합효소, Tfi 중합효소, 백금 Taq 중합효소, Tbr 중합효소, Phusion 중합효소, KAPA 중합효소, Q5 중합효소, Tfl 중합효소, Pfutubo 중합효소, Pyrobest 중합효소, KOD 중합효소, Bst 중합효소, Sac 중합효소, 3' -> 5' 엑소뉴클레아제 활성을 가지는 클레노브 절편 중합효소, 및 이의 변이체, 변형된 프로덕트 및 유도체가 포함된다. 서로 다른 중합효소는 서로 다른 온도에서 안정적이고 최적으로 기능할 수 있다. 더욱이, 서로 다른 중합 효소는 서로 다른 특성을 가진다. 예를 들어, Phusion 중합 효소와 같은 일부 중합 효소는 3' -> 5' 엑소뉴클레아제 활성을 나타낼 수 있으며, 이는 핵산 연장 동안 더 높은 충실도에 기여할 수 있다. 일부 중합효소는 신장 중에 리딩 서열들을 대체할 수 있는 반면, 다른 중합효소들은 리딩 서열들을 손상시키거나 신장을 중단시킬 수 있다. Taq와 같은 일부 중합효소는 핵산 서열들의 3' 말단에 아데닌 염기를 포함한다. 추가적으로, 일부 중합효소가 그 외의 것들 보다 높은 충실도 및 처리성을 가질 수 있으며 PCR 적용, 가령, 시퀀싱 제재에 보다 적합할 수 있는데, 이 때 증폭된 핵산 수율이 최소 돌연변이를 가지는 것이 중요하고 별개 핵산들의 분포가 증폭 전반에 걸쳐 균일한 분포를 유지하는 것이 중요하다.
크기 선별
특정 크기의 핵산은 크기 선별 기술을 사용하여 샘플로부터 선별될 수 있다. 일부 구체예들에서, 크기-선별은 겔 전기영동 또는 크로마토그래피를 사용하여 수행 될 수 있다. 핵산의 액체 샘플은 고정상 또는 겔 (또는 매트릭스)의 한 말단에 부하 될 수 있다. 겔의 음의 말단이 핵산 샘플이 부하되는 말단이 되고 겔의 양의 말단이 반대편의 말단이 되도록 겔을 가로질러 전압차이를 걸 수 있다. 핵산은 음으로 하전된 인산염 골격을 가지고 있기 때문에 겔을 가로질러 양의 말단으로 이동할 것이다. 핵산의 크기는 겔을 통한 이의 상대적 이동 속도를 결정한다. 따라서 다양한 크기의 핵산들이 이동함에 따라 이들은 겔에서 분리될 것이다. 전압차는 100V 또는 120V 일 수 있다. 전압차는 최대 50V, 100V, 150V, 200V, 250V, 또는 그 이상일 수 있다. 전압차가 클수록 핵산 이동 속도와 크기 분해능이 증가 할 수 있다. 그러나 더 큰 전압차는 핵산이나 겔을 손상시킬 수도 있다. 더 큰 크기의 핵산을 분리하려면 더 큰 전압차가 권장 될 수 있다. 일바적인 이동 시간은 15분 내지 60분 일 수 있다. 이동 시간은 최대 10분, 30분, 60분, 90분, 120분, 또는 그 이상일 수 있다. 더 높은 전압과 유사하게 더 긴 이동 시간은 더 우수한 핵산 분해능으로 이어질 수 있지만 핵산 손상을 증가시킬 수 있다. 더 큰 크기의 핵산을 분리하려면 더 긴 이동 시간이 권장 될 수 있다. 예를 들어, 120V의 전압차 및 30분의 이동 시간은 250-염기의 핵산으로부터 200-염기의 핵산을 분리함에 충분할 수 있다.
겔 또는 매트릭스의 특성은 크기-선별 과정에 영향을 미칠 수 있다. 겔은 일반적으로 전도성 완충액, 가령, TAE (트리스-아세테이트-EDTA) 또는 TBE (트리스-보레이트-EDTA)에 분산된 아가로스 또는 폴리아크릴아미드와 같은 중합체 물질을 포함한다. 겔에서 물질 (예컨대, 아가로스 또는 아크릴아미드)의 함량 (부피당 중량)은 최대 .5%, 1%, 2%, 3%, 5%, 10%, 15%, 20%, 25%, 또는 그 이상 일 수 있다. 함량이 높을수록 이동 속도가 감소할 수 있다. 보다 작은 핵산을 분리하려면 보다 높은 함량이 바람직할 수 있다. 이중 가닥 DNA (dsDNA)를 분리하기에 아가로스 겔이 더 좋을 수 있다. 단일 가닥 DNA (ssDNA)를 분리하기에 폴리아크릴아미드 겔이 더 좋을 수 있다. 바람직한 겔 조성은 핵산 유형 및 크기, 첨가제 (예컨대, 염료, 염색, 변성화 용액 또는 로딩 완충액)의 호환성 및 예상 하류 적용 (예컨대, 겔 추출 후 연결, PCR 또는 시퀀싱)에 따라 다를 수 있다. 아가로스 겔이 폴리아크릴아미드 겔보다 겔 추출에 더 간단 할 수 있다. TBE 만큼 좋은 전도체는 아니지만 TAE 또한, 추출 과정에서 붕산염 (효소 억제제) 운반이 하류 효소 반응을 억제 할 수 있기 때문에 겔 추출에 더 좋을 수 있다.
겔은 SDS (소듐 도데실 설페이트) 또는 요소와 같은 변성화 용액을 추가로 포함 할 수 있다. 예를 들어, SDS를 사용하여 단백질을 변성시키거나 잠재적으로 결합된 단백질에서 핵산을 분리할 수 있다. 요소를 사용하여 DNA의 2차 구조를 변성시킬 수 있다. 예를 들어, 요소는 dsDNA를 ssDNA로 전환시킬 수 있으며, 또는 요소는 폴딩된 ssDNA (예를 들어 헤어핀)를 폴딩되지 않은 ssDNA로 전환시킬 수 있다. 요소-폴리아크릴아미드 겔 (TBE를 추가로 포함)을 사용하여, ssDNA를 정확하게 분리할 수 있다.
샘플들을 서로 다른 형태의 겔들에 포함시킬 수 있다. 일부 구체예들에서, 겔은 샘플을 수동으로 로딩 할 수 있는 웰을 포함 할 수 있다. 하나의 겔에는 다수의 핵산 샘플들을 실험하기 위한 다수의 웰들이 있을 수 있다. 다른 구체예에서, 겔은 핵산 샘플 (들)을 자동으로 로딩하는 미세유체 채널에 부착 될 수 있다. 각 겔은 여러 미세유체 채널의 하류에 있을 수 있거나 겔 자체가 각각 별도의 미세유체 채널을 차지할 수 있다. 겔의 크기는 핵산 검출 (또는 시각화)의 감도에 영향을 미칠 수 있다. 예를 들어, 미세유체 채널 내부 (가령, 바이오분석장치 또는 테이프스테이션 내부)의 겔 또는 얇은 겔은 핵산 검출의 감도를 개선시킬 수 있다. 핵산 검출 단계는 정확한 크기의 핵산 단편을 선별 및 추출하는데 중요 할 수 있다.
핵산 크기 참고를 위해 래더(ladder)를 겔에 로딩할 수 있다. 래더는 핵산 샘플을 비교할 수 있는 다양한 크기의 마커들을 내포할 수 있다. 래더마다 크기 범위와 분해능이 다를 수 있다. 예를 들어, 50개 염기 래더에는 50, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550 및 600개 염기의 마커들이 있을 수 있다. 상기 래더는 50 내지 600개 염기의 크기 범위에 속하는 핵산들을 검출 및 선별함에 유용할 수 있다. 래더는 또한 샘플 내 서로 다른 크기의 핵산들의 농도를 추적하기 위한 표준으로 사용될 수도 있다.
겔 전기영동 (또는 크로마토그래피) 과정을 용이하게 하기 위한 로딩 완충액과 핵산 샘플 및 래더들을 혼합할 수 있다. 로딩 완충액은 핵산의 이동을 추적하는데 도움이 되는 염료와 마커를 포함할 수 있다. 로딩 완충액은 핵산 샘플들이 샘플 로딩 웰들의 바닥에 확실히 가라앉도록 하기 위해 (러닝 완충액에 잠길 수 있음) 러닝 완충액 (예컨대, TAE 또는 TBE) 보다 밀도가 높은 시약 (가령, 글리세롤)을 추가로 포함할 수 있다. 로딩 완충액은 SDS 또는 요소와 같은 변성제를 추가로 포함 할 수 있다. 로딩 완충액은 핵산의 안정성을 개선하기 위한 시약을 추가로 포함 할 수 있다. 예를 들어, 로딩 완충액은 뉴클레아제로부터 핵산을 보호하기 위해 EDTA를 포함 할 수 있다.
일부 구체예들에서, 겔은 핵산에 결합하여 상이한 크기의 핵산을 광학적으로 검출하는데 사용될 수 있는 발색제 (stain)를 포함 할 수 있다. 발색제는 dsDNA, ssDNA 또는 둘 모두에 대해 특이적일 수 있다. 상이한 발색제는 상이한 겔 물질들과 호환가능할 수 있다. 일부 발색제는 시각화를 위해 광원 (또는 전자기파)으로부터의 여기가 필요할 수 있다. 광원은 UV (자외선) 또는 청색광 일 수 있다. 일부 구체예에서, 발색제는 전기영동 전에 겔에 첨가 될 수 있다. 다른 구체예에서, 발색제는 전기영동 후에 겔에 첨가 될 수 있다. 발색제의 예에는 에티듐 브로마이드 (EtBr), SYBR Safe, SYBR Gold, 은 발색제, 또는 메틸렌 블루가 포함된다. 예를 들어, 특정 크기의 dsDNA를 시각화하는 확실한 방법은 SYBR Safe 또는 EtBr 발색제와 함께 아가로스 TAE 겔을 사용하는 것일 수 있다. 예를 들어, 특정 크기의 ssDNA를 시각화하는 확실한 방법은 메틸렌 블루 또는 은 발색제와 함께 요소-폴리아크릴아미드 TBE 겔을 사용하는 것일 수 있다.
일부 구체예에서, 겔을 통한 핵산의 이동은 전기영동 외의 다른 방법에 의해 이루어질 수 있다. 예를 들어, 중력, 원심분리, 진공 또는 압력을 사용하여 겔을 통해 핵산을 구동시켜 크기에 따라 분리할 수 있다.
특정 크기의 핵산은 칼날이나 면도기를 사용하여 겔로부터 추출하여 핵산을 포함하는 겔 밴드를 절제 할 수 있다. 적절한 광학 검출 기술과 DNA 래더를 사용하여 절제가 특정 밴드에서 정확하게 발생하도록 그리고 절제가 서로 다른 바람직하지 않은 크기 밴드에 속할 수있는 핵산을 성공적으로 배제하도록 할 수 있다. 겔 밴드를 완충액과 함께 배양하여 용해시켜 핵산을 완충액으로 방출시킬 수 있다. 열 또는 물리적 교반은 용해를 가속화시킬 수 있다. 대안적으로, 겔 밴드는 겔 용해를 할 필요없이 DNA가 완충 용액으로 확산될 수 있을만큼 충분히 오래 완충액에서 배양 될 수 있다. 이어서 완충액은 예를 들어, 흡인 또는 원심 분리에 의해 남아있는 고체상 겔로부터 분리 될 수 있다. 이후 핵산은 표준 정제 또는 완충액 교환 기술, 가령, 페놀-클로로포름 추출, 에탄올 침전, 자성 비드 포획 및/또는 실리카 막 흡착을 사용하고, 세척 및 용리하여 상기 용액으로부터 정제될 수 있다. 핵산은 또한 이 단계에서 농축 될 수 있다.
겔 절제에 대한 대안으로, 특정 크기의 핵산들을 겔에서 흘러내리도록 하여 겔로부터 분리할 수 있다. 이동 핵산들은 겔에 포매되어 있거나 겔 말단에 있는 용기 (또는 웰)를 통해 통과할 수 있다. 특정 크기의 핵산 그룹이 용기에 들어갈 때 샘플이 용기에서 수집되도록 이동 과정의 시간을 정하거나 이를 광학적으로 모니터링 할 수 있다. 수집은, 예를 들어, 흡인에 의해 발생할 수 있다. 이후 핵산은 표준 정제 또는 완충액 교환 기술, 가령, 페놀-클로로포름 추출, 에탄올 침전, 자성 비드 포획 및/또는 실리카 막 흡착을 사용하고, 세척 및 용리하여 수집된 용액으로부터 정제될 수 있다. 핵산은 또한 이 단계에서 농축 될 수 있다.
다른 핵산 크기 선별 방법들에는 질량-분광법 또는 막-기반 여과가 포함될 수 있다. 막 기반 여과의 일부 구체예에서, 핵산은 dsDNA, ssDNA 또는 둘 모두에 우선적으로 결합 할 수 있는 막 (예를 들어, 실리카 막)을 통과한다. 막은 적어도 특정 크기의 핵산을 우선적으로 포획하도록 설계 될 수 있다. 예를 들어, 막은 20, 30, 40, 50, 70, 90개 미만, 또는 그 이상 보다 작은 염기들의 핵산을 여과하도록 설계될 수 있다. 상기 막 기반의, 크기-선별 기술들은 겔 전기영동 또는 크로마토그래피만큼 엄격하지 않을 수 있다.
핵산 포획
친화성-태그된 핵산은 핵산 포획을 위한 서열 특이적 프로브로 사용될 수 있다. 프로브는 핵산 풀 내의 표적 서열에 상보적이도록 설계 될 수 있다. 그 후, 프로브는 핵산 풀과 함께 배양되고 그 표적에 혼성화 될 수 있다. 배양 온도는 혼성화를 촉진하기 위해 프로브의 용융 온도 보다 낮을 수 있다. 배양 온도는 프로브의 용융 온도 보다 최대 섭씨 5도, 10도, 15도, 20도, 25도 또는 그 이상 낮을 수 있다. 혼성화된 표적은 친화성 태그에 특이적으로 결합하는 고체상 기질에 포획될 수 있다. 고체상 기질은 막, 웰, 컬럼 또는 비드 일 수 있다. 여러 차례의 세척은 표적에서 모든 비-혼성화 핵산을 제거 할 수 있다. 세척은 세척 중에 표적 서열의 안정적인 고정을 촉진하기 위해 프로브의 용융 온도 미만의 온도에서 발생할 수 있다. 세척 온도는 프로브의 용융 온도 보다 최대 섭씨 5도, 10도, 15도, 20도, 25도 또는 그 이상 낮을 수 있다. 최종 용리 단계는 고체상 기질, 뿐만 아니라 친화성-태그된 프로브로부터 핵산 표적을 회수 할 수 있다. 용리 단계는 핵산 표적의 용리 완충액으로의 방출을 촉진하기 위해 프로브의 용융 온도보다 높은 온도에서 발생할 수 있다. 용리 온도는 프로브의 용융 온도 보다 최대 섭씨 5도, 10도, 15도, 20도, 25도 또는 그 이상 높을 수 있다.
일부 구체예들에서, 비오틴은 고체상 기질상에서 스트렙타비딘에 의해 고정되는 친화성 태그로서 사용될 수 있다. 핵산 포획 프로브로 사용하기 위한 비오티닐화 올리고를 설계하고 제조 할 수 있다. 올리고는 5' 또는 3' 말단에서 비오티닐화될 수 있다. 그들은 또한 티민 잔류물에서 내부적으로 비오티닐화 될 수 있다. 올리고에서 증가된 비오틴은 스트렙타비딘 기질 상에서 보다 강력한 포획을 가져올 수 있다. 올리고의 3' 말단에 있는 비오틴은 PCR 동안 올리고가 연장하는 것을 차단할 수 있다. 비오틴 태그는 표준 비오틴의 변이체 일 수 있다. 예를 들어, 비오틴 변이체는 비오틴-TEG (트리에틸렌 글리콜), 이중 비오틴, PC 비오틴, 데스티오비오틴-TEG 및 비오틴 아지드 일 수 있다. 이중 비오틴은 비오틴-스트렙타비딘 친화성을 증가시킬 수 있다. 비오틴 -TEG는 비오틴 그룹을 TEG 링커에 의해 분리된 핵산에 부착시킨다. 이것은 비오틴이 핵산 프로브의 기능, 예를 들어, 표적에 대한 혼성화를 방해하는 것을 방지 할 수 있다. 핵산 비오틴 링커 또한 프로브에 부착 될 수 있다. 핵산 링커는 표적에 혼성화시키고자 하지 않은 핵산 서열을 포함 할 수 있다.
비오티닐화된 핵산 프로브는 표적에 얼마나 잘 혼성화 할 수 있는지를 고려하여 설계 될 수 있다. 더 높은 설계 용융 온도를 가진 핵산 프로브는 표적에 더 강하게 혼성화 할 수 있다. 더 긴 핵산 프로브와 더 높은 GC 함량을 가진 프로브는 용융 온도 증가로 인해 더 강하게 혼성화 할 수 있다. 핵산 프로브는 적어도 5, 10, 15, 20, 30, 40, 50 또는 100개 염기 또는 그 이상의 길이를 가질 수 있다. 핵산 프로브의 GC 함량은 0 내지 100% 일 수 있다. 프로브의 용융 온도가 스트렙타비딘 기질의 온도 허용오차를 초과하지 않도록 주의해야 할 수 있다. 핵산 프로브는 오프-타겟 핵산이 있는 헤어핀, 동종이량체 및 이종이량체와 같은 억제성 이차 구조를 방지하도록 설계 될 수 있다. 프로브 용융 온도와 오프-타겟 결합 사이에 상호보완이 있을 수 있다. 용융 온도가 높고 오프-타겟 결합이 낮은 최적의 프로브 길이 및 GC 함량이 있을 수 있다. 합성 핵산 라이브러리는 핵산이 효율적인 프로브 결합 부위를 포함하도록 설계 될 수 있다.
고체상 스트렙타비딘 기질은 자성 비드 일 수 있다. 자성 비드는 자성 스트립 또는 플레이트를 사용하여 고정될 수 있다. 자성 스트립 또는 플레이트는 자성 비드를 용기에 고정시키기 위해 용기와 접촉 될 수 있다. 반대로, 자성 스트립 또는 플레이트를 용기로부터 제거하여 용기 벽으로부터 용액으로 자성 비드를 방출시킬 수 있다. 상이한 비드 성질들은 그 적용에 영향을 미칠 수 있다. 비드는 다양한 크기를 가질 수 있다. 예를 들어 비드는 직경이 1 내지 3 마이크로미터 (um) 일 수 있다. 비드는 최대 1, 2, 3, 4, 5, 10, 15, 20, 또는 그 이상 마이크로미터의 직경을 가질 수 있다. 비드 표면은 소수성 또는 친수성 일 수 있다. 비드는 차단 단백질, 예를 들어, BSA로 코팅 될 수 있다. 사용 전, 비드를 첨가제, 가령, 차단 용액으로 세척 또는 전처리하여, 비드가 핵산에 비-특이적으로 결합하는 것을 방지할 수 있다.
비오티닐화 프로브는 핵산 샘플 풀과 함께 배양하기 전에 자성 스트렙타비딘 비드에 결합 될 수 있다. 이 과정을 직접 포획이라 지칭할 수 있다. 대안적으로, 비오티닐화된 프로브는 자성 스트렙타비딘 비드를 첨가하기 전에 핵산 샘플 풀과 함께 배양 될 수 있다. 이 과정을 간접 포획이라 지칭할 수 있다. 간접 포획 방법은 목표 수율을 향상시킬 수 있다. 더 짧은 핵산 프로브는 자성 비드에 결합하는데 더 짧은 시간을 필요로 할 수 있다.
핵산 샘플과 핵산 프로브의 최적 배양은 프로브의 용융 온도보다 섭씨 1 내지 10도 이상 낮은 온도에서 발생할 수 있다. 배양 온도는 최대 섭씨 5, 10, 20, 30, 40, 50, 60, 70 , 80도, 또는 그 이상 일 수 있다. 권장 배양 시간은 1시간 일 수 있다. 배양 시간은 최대 1, 5, 10, 20, 30, 60, 90, 120분 또는 그 이상일 수 있다. 더 긴 배양 시간은 더 나은 포획 효율로 이어질 수 있다. 비오틴-스트렙타비딘 결합을 가능하게 하기 위해 스트렙타비딘 비드를 첨가 한 후 추가 10분의 배양이 발생할 수 있다. 이러한 추가 시간은 최대 1, 5, 10, 20, 30, 60, 90, 120분 또는 그 이상일 수 있다. 배양은 첨가제, 가령, 나트륨 이온이 있는 완충액에서 발생할 수 있다.
핵산 풀이 단일-가닥 핵산 (이중-가닥과 반대)인 경우 표적에 대한 프로브의 혼성화가 개선 될 수 있다. dsDNA 풀에서 ssDNA 풀을 준비하는 것은 풀에 있는 모든 핵산 서열의 에지에 일반적으로 결합하는 하나의 프라이머로 선형-PCR을 수행하는 것을 수반 할 수 있다. 핵산 풀이 합성적으로 생성되거나 어셈블리되는 경우, 이러한 공통 프라이머 결합 부위가 합성 설계에 포함될 수 있다. 선형-PCR의 생성물은 ssDNA일 것이다 . 선형-PCR 주기가 많아질수록 핵산 포획을 위한 시작 ssDNA 템플릿이 더 많이 생성 될 수 있다. PCR에 관하여 화학적 방법 섹션 D를 참고하라.
핵산 프로브가 표적에 혼성화되고 자성 스트렙타비딘 비드에 결합 된 후, 비드는 자석에 의해 고정 될 수 있으며 몇 차례 세척될 수 있다. 3 내지 5회의 세척으로 충분히 비-표적 핵산을 제거할 수 있지만, 그 이상 또는 그 미만 회수의 세척이 사용될 수 있다. 각 증가분의 세척은 비-표적 핵산들을 추가로 감소시킬 수 있으나, 이는 또한 표적 핵산들의 수율을 감소시킬 수도 있다. 세척 단계 동안 프로브에 대한 표적 핵산의 적절한 혼성화를 촉진하기 위해, 낮은 배양 온도가 사용될 수 있다. 섭씨 60, 50, 40, 30, 20, 10, 또는 5도 또는 그 미만만큼 낮은 온도가 사용될 수 있다. 세척 완충액은 나트륨 이온이 있는 Tris 완충 용액을 포함 할 수 있다.
자성 비드-결합 프로브로부터 혼성화된 표적의 최적 용리는 프로브의 용융 온도와 동일하거나 그 이상의 온도에서 발생할 수 있다. 온도가 높을 수록 표적의 프로브로의 해리가 촉진될 것이다. 용리 온도는 최대 섭씨 30, 40, 50, 60, 70, 80, 또는 90도, 또는 그 이상일 수 있다. 용리 배양 시간은 최대 1, 2, 5, 10, 30, 60분 또는 그 이상 일 수 있다. 일반적인 배양 시간은 약 5분일 수 있지만 더 긴 배양 시간은 수율을 향상시킬 수 있다. 용리 완충액은 물 또는 EDTA와 같은 첨가제가 포함된 트리스-완충 용액 일 수 있다.
적어도 하나 이상의 별개 부위들의 세트를 내포하는 표적 서열들의 핵산 포획은 이들 부위들 각각에 대한 다수의 별개 프로브들을 사용하여 한 반응에서 수행될 수 있다. 별개 부위들의 세트의 모든 구성원을 내포하는 표적 서열들의 핵산 포획은 일련의 포획 반응들로 수행될 수 있는데, 각 별개 부위에 대한 하나의 반응은 해당 특정 부위에 대한 프로브를 사용한다. 일련의 포획 반응 후 표적 수율은 낮을 수 있지만 포획된 표적은 이후 PCR로 증폭 될 수 있다. 핵산 라이브러리가 합성적으로 설계되는 경우, 이 때 표적들은 PCR을 위한 공통 프라이머 결합 부위들을 가지도록 설계될 수 있다.
합성 핵산 라이브러리는 일반적인 핵산 포획을 위한 공통 프로브 결합 부위들을 사용하여 생성되거나 어셈블리될 수 있다. 이러한 공통 부위를 사용하여, 어셈블리 반응에서 완전히 어셈블리되거나 잠재적으로 완전히 어셈블리된 핵산을 선택적으로 포획하고 부분적으로 어셈블리되거나 잘못 어셈블리된 (또는 의도하지 않거나 바람직하지 않은) 이중-생성물을 여과하는 데 사용될 수 있다. 예를 들어, 완전히 어셈블리된 핵산 생성물만이 각 프로브를 사용하여 일련의 2개 포획 반응들을 통과하는데 필요한 2개의 프로브 결합 부위들을 내포하도록, 해당 어셈블리는 각 에지 서열에 프로브 결합 부위를 가지는 핵산을 어셈블리하는 것을 포함할 수 있다. 상기 예에서, 부분적으로 어셈블리된 생성물은 프로브 부위를 포함하지 않거나 하나만 포함 할 수 있으므로 궁극적으로 포획되어서는 안된다. 마찬가지로 잘못-어셈블리된 (또는 의도하지 않았거나 바람직하지 않은) 생성물은 에지 서열들 중 어느 것도 포함하지 않거나 하나만 포함 할 수 있다. 따라서 잘못-어셈블리된 생성물은 궁극적으로 포획되지 않을 수 있다. 엄격성을 증가시키기 위하여, 어셈블리의 각 구성요소에 공통 프로브 결합 부위들이 포함될 수 있다. 각 구성요소에 대한 프로브를 사용하는 후속되는 일련의 핵산 포획 반응은 어셈블리 반응의 임의의 이중-생성물로부터 완전히 어셈블리된 생성물 (각 구성요소를 포함)만을 분리 할 수 있다. 후속 PCR은 표적 농축을 개선할 수 있으며, 후속 크기-선별은 표적 엄격성을 개선할 수 있다.
일부 구체예에서, 핵산 포획은 풀로부터 표적된 핵산 서브세트를 선택적으로 포획하기 위해 사용될 수 있다. 핵산들의 상기 표적된 서브세트에서만 나타나는 결합 부위들이 있는 프로브들을 사용함에 의한 것이 그 예이다. 합성 핵산 라이브러리는 보다 일반적인 라이브러리로부터의 하위-라이브러리를 선택적으로 포획하기 위해 잠재적인 관심 하위-라이브러리에 속하는 핵산들이 모두 공통 프로브 결합 부위를 공유하도록 (해당 하위-라이브러리 내부에서 공통이지만 다른 하위-라이브러리와는 구별됨) 생성 또는 어셈블리 될 수 있다.
동결건조
동결건조는 탈수 과정이다. 핵산 및 효소들 모두 동결건조 될 수 있다. 동결건조된 물질은 더 긴 수명을 가질 수 있다. 화학적 안정화제와 같은 첨가제를 사용하여, 동결건조 과정을 통한 기능성 생성물 (예컨대, 활성 효소들)을 유지시킬 수 있다. 수크로스 및 트레할로스와 같은 이당류가 화학적 안정화제로 사용될 수 있다.
DNA 설계
합성 라이브러리 (예컨대, 식별자 라이브러리)를 제작하기 위한 핵산들 (예컨대, 구성요소들)의 서열들은 합성, 시퀀싱, 및 어셈블리 복잡성이 없도록 설계될 수 있다. 또한, 이들은 합성 라이브러리 구축 비용을 줄이고 합성 라이브러리가 저장될 수 있는 수명을 개선하도록 설계될 수 있다.
핵산들은 합성하기 어려울 수 있는 긴 문자열들의 동종중합체 (또는 반복된 염기 서열들)가 없도록 설계될 수 있다. 핵산은 길이가 2, 3, 4, 5, 6, 7 또는 그 이상 보다 큰 동종중합체가 없도록 설계될 수 있다. 또한, 핵산은 합성 과정을 억제할 수 있는 헤어핀 루프와 같은 2차 구조가 형성되지 않도록 설계 될 수 있다. 예를 들면, 예측 소프트웨어를 사용하여 안정적인 2차 구조를 형성하지 않는 핵산 서열을 생성 할 수 있다. 합성 라이브러리 구축을 위한 핵산은 짧아지도록 설계 할 수 있다. 보다 긴 핵산은 합성하기 더 어렵고 비용이 많이 들 수 있다. 더 긴 핵산은 합성 중에 돌연변이 가능성이 더 높을 수 있다. 핵산 (예컨대, 구성요소들)은 최대 5, 10, 15, 20, 25, 30, 40, 50, 60개 또는 그 이상의 염기 일 수 있다.
어셈블리 반응에서 구성요소들이 되는 핵산은 어셈블리 반응을 촉진하도록 설계 될 수 있다. OEPCR 및 연결-기반 어셈블리 반응에 대한 핵산 서열 고려사항에 대한 보다 많은 정보는, 각각 부록 A 및 B를 참고하라. 효율적인 어셈블리 반응은 일반적으로 인접 구성요소들 간의 혼성화를 포함한다. 서열들은 잠재적인 오프-타겟 혼성화를 피하면서 이러한 온-타겟 혼성화 발생을 촉진하도록 설계 될 수 있다. 잠금 핵산 (LNA)과 같은 핵산 염기 변형을 사용하여 온-타겟 혼성화를 강화할 수 있다. 이러한 변형된 핵산은 예를 들어, 스테이플 가닥 연결의 스테이플 또는 점착성-가닥 연결의 점착성 말단으로 사용될 수 있다. 합성 핵산 라이브러리 (또는 식별자 라이브러리)를 구축하는데 사용할 수 있는 다른 변형된 염기에는 2,6-다이아미노퓨린, 5-브로모 dU, 데옥시우리딘, 전환형 dT (inverted), 전환형 디데옥시-T, 디데옥시-C, 5-메틸 dC, 데옥시이노신, Super T, Super G, 또는 5-니트로인돌이 포함된다. 핵산은 하나 또는 여러 개의 동일하거나 상이한 변형된 염기를 포함 할 수 있다. 상기 변형된 염기 중 일부는 더 높은 용융 온도를 갖는 천연 염기 유사체 (예를 들면, 5-메틸 dC 및 2,6-디아미노퓨린)이므로 어셈블리 반응에서 특이적 혼성화 발생을 촉진함에 유용 할 수 있다. 상기 변형된 염기 중 일부는 모든 천연 염기에 결합 할 수 있는 범용 염기 (예를 들면, 5-니트로인돌)이므로, 바람직한 결합 부위 내에 가변 서열을 가질 수 있는 핵산과의 혼성화를 촉진함에 유용 할 수 있다. 어셈블리 반응에서 유익한 역할 이외에도, 이들 변형된 염기는 핵산 풀 내에서 프라이머와 프로브의 표적 핵산에 대한 특이적 결합을 촉진 할 수 있기 때문에 프라이머 (예컨대, PCR의 경우) 및 프로브 (예컨대, 핵산 포획의 경우)에서 유용할 수 있다. 핵산 증폭 (또는 PCR) 및 핵산 포획과 관련된 더 많은 핵산 설계 고려사항은 각각 화학적 방법 섹션 D 및 F를 참조하라.
시퀀싱이 용이하도록 핵산들을 설계할 수 있다. 예를 들어, 핵산은 2차 구조, 단일중합체의 스트레치, 반복적인 서열 및 GC 함량이 너무 높거나 낮은 서열과 같은 전형적인 시퀀싱 문제를 방지하도록 설계 될 수 있다. 특정 시퀀서 또는 시퀀싱 방법들은 오류가 발생하기 쉬울 수 있다. 합성 라이브러리 (예컨대, 식별자 라이브러리)를 구성하는 핵산 서열 (또는 구성요소들)은 서로 특정 해밍거리를 가지도록 설계 될 수 있다. 이러한 방식으로 염기 분리 오류가 시퀀싱에서 높은 비율로 발생하더라도 오류를 포함하는 서열들의 스트레치는 여전히 가장 가능성이 높은 핵산 (또는 구성요소)에 다시 맵핑 될 수 있다. 핵산 서열은 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15개 또는 그 이상의 염기 돌연변이의 해밍 거리를 가지도록 설계 될 수 있다. 해밍 거리로부터의 대체 거리 측정법을 사용하여, 설계된 핵산들 사이의 최소 필수 거리를 정의 할 수도 있다.
일부 시퀀싱 방법 및 기기는 어댑터 서열 또는 프라이머 결합 부위와 같은 특정 서열을 포함하기 위한 입력 핵산이 필요할 수 있다. 이들 서열은 “방법-특이적 서열”로 지칭될 수 있다. 상기 시퀀싱 기기 및 방법들에 대한 전형적인 준비 워크플로우는 방법-특이적 서열들을 핵산 라이브러리에 어셈블리하는 것을 포함할 수 있다. 그러나 합성 핵산 라이브러리 (예컨대, 식별자 라이브러리)가 특정 기기 또는 방법으로 시퀀싱 될 것이라는 것이 미리 알려진 경우, 이러한 방법-특이적 서열은 라이브러리 (예컨대, 식별자 라이브러리)를 구성하는 핵산 (예컨대, 구성요소들)으로 설계 될 수 있다. 예를 들어, 시퀀싱 어댑터는 합성 핵산 라이브러리의 구성원이 개별 핵산 구성요소로부터 자체적으로 어셈블리 될 때와 동일한 반응 단계에서 합성 핵산 라이브러리의 구성원에 어셈블리 될 수 있다.
핵산은 DNA 손상을 촉진 할 수 있는 서열이 없도록 설계 될 수 있다. 예를 들어, 부위-특이적 뉴클레아제들을 위한 부위들을 내포하는 서열들을 없게 할 수 있다. 또 다른 예로서, UVB (자외선-B) 광은 인접한 티민이 피리미딘 이량체를 형성하도록 할 수 있으며, 이는 이후 시퀀싱 및 PCR을 억제 할 수 있다. 따라서 합성 핵산 라이브러리를 UVB에 노출된 환경에 보관하려는 경우 인접한 티민 (즉, TT) 또는 인접한 시토신 (즉, CC)이 없도록 핵산 서열을 설계하는 것이 유용 할 수 있다.
화학적 방법 섹션에 포함된 모든 정보는 전술한 기술, 방법, 프로토콜, 시스템 및 과정들을 뒷받침하고 가능하게 하기 위한 것이다.
실시예
실시예 1 : DNA 분자에서 단일 시(poem)의 인코딩, 기록 및 판독.
인코드될 데이터는 시를 포함하는 텍스트파일이다. 데이터는 피펫을 이용하여 수동으로 인코드되어 96개 구성요소들로 된 2개 레이어의 DNA 구성요소들을 함께 혼합하고, 중첩 연장 PCR로 실시된 프로덕트 방식을 사용하여 식별자를 구성한다. 제 1 레이어, X는, 총 96개의 DNA 구성요소들을 포함한다. 제 2 레이어, Y 또한 총 96개 구성요소들을 포함한다. DNA를 기록하기 전에, 데이터는 이진법으로 맵핑된 다음, 균일 가중치 형식으로 재코딩되는데, 이러한 형식에서 원본 데이터의 61 비트의 모든 연속 (인접한 분리) 문자열은 정확히 17 비트-값이 1인 96 비트 문자열로 변환된다. 이러한 균일 가중치 형식은 자연 오류 점검 품질을 가질 수 있다. 다음으로 데이터는 96 X 96 테이블로 해시되어, 참조 맵을 형성한다.
도 18A의 중간 패널은 시를 복수의 식별자들로 인코딩하는 96 X 96 테이블의 2차원 참조 맵을 보여준다. 어두운 점들은 '1' 비트 값에 해당하고 흰색 점들은 '0' 비트 값에 해당한다. 데이터는 96개 구성요소의 2개 레이어들을 사용하여 식별자들로 인코드된다. 테이블의 각 X 값과 Y 값에 하나의 구성요소가 할당되고 이러한 X 및 Y 구성요소는 '1' 값을 가지는 각 (X, Y) 좌표에 대해 중첩 연장 PCR을 사용하여 식별자로 어셈블리된다. 각각의 가능한 (X,Y) 어셈블리의 존재 또는 부재를 결정하기 위해 식별자 라이브러리를 시퀀싱함으로써 데이터를 다시 판독하였다 (예컨대, 디코드되었다).
도 18A의 오른쪽 패널은 시퀀싱에 의해 결정된 식별자 라이브러리에 존재하는 서열의 풍부도에 관한 2차원 열지도를 보여준다. 각 픽셀은 해당 X 및 Y 구성요소를 포함하는 분자를 나타내며 해당 픽셀의 회색조 강도는 다른 분자와 비교하여 해당 분자의 상대적인 풍부도를 나타낸다. 식별자들은 각 행에서 가장 풍부한 상위 17개 (X, Y) 어셈블리들로 간주된다 (균일 가중치 인코딩은 96 비트의 각 연속 문자열이 정확히 17개의 '1' 값을 가질 수 있으므로, 17개의 해당 식별자를 가질 수 있도록 하기 때문이다).
실시예 2 : 62824 비트 텍스트파일 인코딩.
인코딩될 데이터는 총 62824 비트의 3개 시로 구성된 텍스트파일이다. 데이터는 Labcyte Echo®액체 처리장치를 사용하여 인코드되어 384개 구성요소들로 된 2개 레이어의 DNA 구성요소들을 함께 혼합하고, 중첩 연장 PCR로 실시된 프로덕트 방식을 사용하여 식별자를 구성한다. 제 1 레이어, X는, 총 384개의 DNA 구성요소들을 포함한다. 제 2 레이어, Y 또한 총 384개 구성요소들을 포함한다. DNA를 기록하기 전에 데이터는 이진법으로 맵핑된 다음 가중치 ('1'의 비트 값 수)를 줄이고 체크섬을 포함하도록 재코딩된다. 체크섬은 192 비트 데이터의 모든 연속 문자열에 대한 체크섬에 해당하는 식별자가 존재하도록 설정된다. 재코딩된 데이터의 가중치는 약 10,100이며 이는 구성될 식별자들의 수에 해당한다. 다음으로 데이터는 384 X 384 테이블로 해시되어, 참조 맵을 형성할 수 있다.
도 18B의 중간 패널은 텍스트파일을 복수의 식별자들로 인코딩하는 384 X 384 테이블의 2차원 참조 맵을 보여준다. 각 좌표 (X, Y)는 위치 X + (Y-1)*192에서의 데이터 비트에 해당한다. 검은색 점들은 비트 값 '1'에 해당하고 백색 점들은 비트 값 '0'에 해당한다. 도면의 오른쪽에 있는 검은 색 점은 체크섬이고 도면 상단에 있는 검은 색 점의 패턴은 코드북 (예컨대, 데이터 디코딩을 위한 사전)이다. 테이블의 각 X 값과 Y 값에 하나의 구성요소가 할당될 수 있으며 이러한 X 및 Y 구성요소는 '1' 값을 가지는 각 (X, Y) 좌표에 대해 중첩 연장 PCR을 사용하여 식별자로 어셈블리된다. 각각의 가능한 (X,Y) 어셈블리의 존재 또는 부재를 결정하기 위해 식별자 라이브러리를 시퀀싱함으로써 데이터를 다시 판독하였다 (예컨대, 디코드되었다).
도 18B의 오른쪽 패널은 시퀀싱에 의해 결정된 식별자 라이브러리에 존재하는 서열의 풍부도에 관한 2차원 열지도를 보여준다. 각 픽셀은 해당 X 및 Y 구성요소를 포함하는 분자를 나타내며 해당 픽셀의 회색조 강도는 다른 분자와 비교하여 해당 분자의 상대적인 풍부도를 나타낸다. 식별자는 각 행에서 상위 S개의 가장 풍부한 (X, Y) 어셈블리로 간주되며, 여기서 각 행의 S는 체크섬 값일 수 있다.
실시예 3 : 15-피스, 점착성 말단 연결에서 5' 대 3' 오버행 및 4-염기 대 6-염기 오버행의 비교
표 1은 다음과 같이 라벨된 4가지 상이한 15-DNA 구성요소들의 세트에 대해 측정된 연결 효율을 나타낸다: 6/24/6 3', 6/24/6 5', 4/24/4 3', 및 4/24/4 5'. 라벨에서 처음 3개 숫자들, X/Y/Z는 한 쪽 말단에 X-염기 오버행이 있고, 중앙에 Y-염기 이중나선 (또는 바코드)가 있으며, 다른 쪽 말단에 Z-염기 오버행이 있는 세트의 각 DNA 구성요소들의 형태를 나타낸다. 각 라벨의 마지막 숫자 (아포스트로피 앞)는 해당 세트의 오버행이 5'인지 3'인지를 나타낸다. 연결은 0.067 mM의 각 DNA 구성요소, 5 CEU/mL의 T4 리가아제 (CEU = 돌출 말단 유닛), 7.5% w/v PEG6000, 20% v/v 글리세롤, 및 표준 T4 리가아제 완충부를 사용하여 37oC에서 수행되었다. 연결 시간은 2.5분 이었다. 효율은 전장 대조 (FLC)에 상대적으로 qPCR로 측정하였으며, 이는 각 가능한 세트에 있어서 완전히 연결된 생성물을 나타낸다.
표 1. 측정된 연결 효율
Figure pct00001
도 22는 각 4개의 상이한 실험적 연결 반응들 중 하나로부터의 qPCR 생성물에 관한 겔 전기영동 이미지를, 약 450개 염기 길이를 갖는 각각의 FLC와 함께 나타낸다. 이러한 결과는 표 1과 함께, 6-염기 오버행이 4-염기 오버행보다 전장 생성물의 연결 효율 및 특이성을 높였음을 나타낸다. 5' 오버행 대 3' 오버행의 사용과 관련하여 효율에 있어서의 명확한 패턴은 관찰되지 않는다.
도 23A23B는 2, 2.5, 3, 및 1440분 동안 연결된 6/24/6 3' (도 23B) 및 6/24/6 5' (도 23A) DNA 구성요소 세트들의 연결 효율에 관한 데이터를 나타낸다. 도 23A23B는 각 세트에서 qPCR로 측정된 연결 효율을 FLC와 비교하여 보여준다. 도 22는 qPCR 생성물에 관한 겔 전기영동 이미지를, 약 450개 염기 길이를 갖는 그 FLC와 함께 보여준다. 결과는 또한 3 '오버행 세트가 5' 오버행 세트보다 더 높은 특이성을 가질 수 있음을 나타낸다.
실시예 4 : 점착성 말단 연결 효율에 대한 오버행 길이, 오버행 용융 온도, 및 오버행 GC 함량의 영향 테스트
표 2는 서로 다른 길이의 오버행 (짧음 = 6-염기, 중간 = 8-염기 및 긴 = 10-염기), 서로 다른 GC 함량 (저, 중 및 고) 및 서로 다른 용융 온도 (Tm)를 갖도록 설계된 9개의 서로 다른 점착성 말단 (3' 오버행 보유) DNA 구성요소 쌍들의 특성을 나타낸다. 오버행 자체는 예상 섭씨 용융 온도와 함께 테이블의 셀들에 제공된다. 각 DNA 구성요소 쌍에 대하여 연결은 0.067 mM의 각 DNA 구성요소, 5 CEU/mL의 T4 리가아제, 7.5% w/v PEG6000, 20% v/v 글리세롤, 및 표준 T4 리가아제 완충부를 사용하여 37oC에서 수행되었다. 연결은 2.5 분 및 60 분에 수행되었다. 효율은 전장 대조 (FLC)에 상대적으로 qPCR을 사용하여 측정하였으며, 이는 각 쌍에 대한 완전히 연결된 생성물을 나타낸다.
표 2. 서로 다른 점착성-말단 (3' 오버행 보유) DNA 구성요소 쌍들의 특성
Figure pct00002
도 24A24B는 오버행 길이별로 그룹화된 이들 DNA 구성요소 쌍들에 대한 연결 효율을 나타낸다. 도 24A는 2.5분 연결 효율을 나타내고 24B는 2.5 분과 60 분 시점 간 효율들의 비율을 보여준다. 결과는 짧은 오버행을 사용할 때 연결 비율이 더 높을 수 있음을 나타낸다.
도 25A25B는 GC 함량별로 그룹화된 이들 DNA 구성요소 쌍들에 대한 연결 효율을 나타낸다. 도 25A는 2.5분 연결 효율을 나타내고 25B는 2.5 분과 60 분 시점 간 효율 비율을 보여준다. 결과는 서로 다른 GC 함량 (또는 용융 온도)의 오버행의 경우 연결 비율에 큰 차이가 없을 수 있으나, GC 함량 (또는 용융 온도)이 더 높은 오버행을 사용할 경우 연결 비율이 약간 더 높을 수 있음을 나타낸다. 용융 온도는 GC 함량과 관련된다.
실시예 5 : 연결 효율에 대한 온도의 영향 테스트
도 26는 다양한 온도에서 T4 리가아제와 함께 연결된 4 점착성-말단 (6-염기, 3' 오버행을 가짐) DNA 구성요소들로부터 얻은 데이터를 나타낸다. 연결은 0.25 mM의 각 DNA 구성요소, 5 CEU/mL 또는 20 CEU/mL의 T4 리가아제, 7.5% w/v PEG6000, 20% v/v 글리세롤, 및 표준 T4 리가아제 완충부를 사용하여 37oC에서 수행되었다. 연결 시간은 2.5분 이었다. 효율은 전장 대조 (FLC)에 상대적으로 qPCR을 사용하여 측정하였으며, 이는 완전히 연결된 생성물을 나타낸다. 결과는 더 높은 온도와 더 높은 리가아제 농도가 T4 리가아제를 이용한 연결 효율을 증가시킬 수 있음을 나타낸다.
도 27은 다양한 온도에서 T4 리가아제와 함께 연결된 4 점착성-말단 (6-염기, 3' 오버행을 가짐) DNA 구성요소들로부터 얻은 데이터를 나타낸다. 연결은 0.125 mM의 각 DNA 구성요소, 5 CEU/mL의 T4 리가아제 (20 mL에서, 그리하여 총 100 CEU), 7.5% w/v PEG6000, 20% v/v 글리세롤, 및 표준 T4 리가아제 완충부를 사용하여 37oC에서 수행되었다. 연결 시간은 2.5분 이었다. 효율은 전장 대조 (FLC)에 상대적으로 qPCR을 사용하여 측정하였으며, 이는 완전히 연결된 생성물을 나타낸다. 결과는 더 높은 온도와 더 높은 리가아제 농도가 T4 리가아제를 이용한 연결 효율을 증가시킬 수 있음을 나타낸다. 결과는 도 26에서 관찰된 것과 유사한 경향을 나타낸다.
실시예 6 : 연결 효율에 대한 리가아제 유형의 영향 테스트
도 28A 및 28B는 T7 (도 28A) 및 T3 (도 28B) DNA 리가아제의 연결 효율에 대한 데이터를 T4 DNA 리가아제와 비교하여 나타낸다. 연결은 0.125 mM의 각 DNA 구성요소를 사용하여 25 oC에서 4개 점착성-말단 (6-염기, 3' 오버행 보유) DNA 구성요소들에 대해 수행되었다. 연결 시간은 2.5분 이었다. 효율은 전장 대조 (FLC)에 상대적으로 qPCR을 사용하여 측정하였으며, 이는 완전히 연결된 생성물을 나타낸다. 리가아제 농도는 10 내지 100 CEU/mL에서 변화하였다. 각 플롯 내에서, 효율들을 5 CEU/mL의 T4 DNA 리가아제로 실시된 동일한 연결과 비교하였다. 결과는 약 100 CEU/uL 농도의 T3 리가아제가 실온 연결에 최적인 리가아제일 수 있음을 나타낸다.
도 29는 다양한 농도에서 대장균 DNA 리가아제의 연결 효율에 대한 데이터를 나타낸다. 연결은 0.125 mM의 각 DNA 구성요소를 사용하여 25 oC에서 4개 점착성-말단 (6-염기, 3' 오버행 보유) DNA 구성요소들에 대해 수행되었다. 연결 시간은 2.5분 이었다. 효율은 전장 대조 (FLC)에 상대적으로 qPCR을 사용하여 측정하였으며, 이는 완전히 연결된 생성물을 나타낸다. 리가아제 농도는 1 내지 100 CEU/mL에서 변화하였다.
표 3은 4가지 서로 다른 유형의 리가아제에 대한 평균 연결 효율 측정치를 나타낸다. 연결은 0.268 mM의 각 DNA 구성요소를 사용하여 25 oC에서 15개 점착성-말단 (6-염기, 3' 오버행 보유) DNA 구성요소들에 대해 수행되었다. 연결 시간은 2.5분 이었다. 효율은 전장 대조 (FLC)에 상대적으로 qPCR을 사용하여 측정하였으며, 이는 완전히 연결된 생성물을 나타낸다. T4는 20 CEU/mL였으며, T3 및 T7은 각각 150 CEU/mL이었다.
표 3. 평균 연결 효율 측정치
Figure pct00003
도 30A 30B는 다양한 온도에서 T7 DNA 리가아제 (도 30A) 또는 T3 DNA 리가아제 (도 30B)와 함께 연결된 4 점착성-말단 (6-염기, 3' 오버행을 가짐) DNA 구성요소들로부터 얻은 예시적 데이터를 보여준다. 연결은 0.125 mM의 각 DNA 구성요소 및 150 CEU/mL T7 또는 T3 DNA 리가아제를 이용하여 수행되었다. 연결 시간은 2.5분 이었다. 효율은 전장 대조 (FLC)에 상대적으로 qPCR을 사용하여 측정하였으며, 이는 완전히 연결된 생성물을 나타낸다. 결과는 T3 및 T7이 20 oC와 40 oC 사이에서 효율성을 소실할 수 있으며, T3는 보다 빨리 떨어지지만 보다 낮은 온도 (예컨대, 15 내지 20 oC)에서 효율이 더 높음을 나타낸다. 이것은 보다 높은 온도 배양 (예컨대, 37 oC)에서, T4 DNA 리가아제 (예컨대, 도 26도 27 참고)가 T3 및 T7 DNA 리가아제 보다 더 우수하게 수행할 수 있음을 나타낸다.
실시예 7 : 연결 효율에 대한 폴리에틸렌글리콜 (PEG)의 영향 테스트
도 31A-C는 다양한 양 (부피 당 퍼센트 중량)의 PEG8000 (도 31A), PEG6000 (도 31B), 및 PEG400 (도 31C)을 사용하여 함께 연결된 4개 점착성-말단 (10-염기, 3' 오버행 보유) DNA 구성요소들의 연결로부터 얻은 데이터를 나타낸다. 연결은 0.125 mM의 각 DNA 구성요소 및 5 CEU/mL T4 리가아제를 사용하여 25 oC에서 수행되었다. 연결 시간은 2.5분 이었다. 효율은 전장 대조 (FLC)에 상대적으로 qPCR을 사용하여 측정하였으며, 이는 완전히 연결된 생성물을 나타낸다. 결과는 연결에 최대 특정 양의 PEG를 첨가하면 효율성이 향상 될 수 있지만 특정 양 이상에서는 효율성이 억제된다는 것을 나타낸다. 효율을 향상시키기 위해 연결 반응에 첨가 될 수 있는 PEG의 양은 PEG의 분자량에 따라 달라진다.
도 32는 낮은 부피당 중량 농도의 PEG400 또는 PEG6000의 존재하에 함께 연결된 4가지 점착성 말단 (10-염기, 3' 오버행 보유) DNA 구성요소들의 연결로부터 얻은 데이터를 나타낸다. 연결은 0.125 mM의 각 DNA 구성요소, 5 CEU/mL T4 DNA 리가아제, 20% v/v 글리세롤, 및 표준 T4 리가아제 완충액 잔부를 사용하여 37 oC에서 수행되었다. 연결 시간은 2.5분 이었다. 효율은 전장 대조 (FLC)에 상대적으로 qPCR을 사용하여 측정하였으며, 이는 완전히 연결된 생성물을 나타낸다. 결과는 이러한 조건에서 PEG6000을 첨가하는 것이 동량(중량 기준)의 PEG400을 첨가하는 것보다 연결 효율을 더 향상 될 수 있음을 나타낸다.
실시예 8 : 연결 비활성화 방법 비교
도 33은 리가아제를 비활성화시키기 위해 완충액 QG 또는 EDTA를 사용하는 것에 대한 데이터를 나타낸다. 4개 점착성-말단 DNA 구성요소들에서 연결을 수행하였다. 완충액 QG는 Qiagen에서 제조한 완충액 QG 또는 유사한 성분을 갖는 완충액 (예컨대, 5.5 M 구아니딘 티오시아네이트 (GuSCN), 20mM Tris HCl pH 6.6)을 지칭한다. 대조군에서, T4 리가아제를 수평축에 제시된 주어진 부피로 실온에서 표준 완충액 조건하에서 사용하였다. 실험군에서, T4 리가아제 반응 혼합물은 DNA 구성요소들에 첨가되어 주어진 부피의 반응을 만들기에 앞서 제시된 첨가제로 처리되었다. 연결 시간은 2.5분 이었다. 세로축은 각 연결의 전장 생성물에 대한 qPCR에서 얻은 Ct 결과를 보여준다. Ct는 농도에 대한 Log 베이스-2 스케일을 나타낸다. 결과는 EDTA 또는 완충액 QG를 사용하면 리가아제를 비활성화 할 수 있음을 나타낸다. EDTA 및 완충 QG 비활성화 리가아제를 사용한 연결 그룹에 대한 결과는 리가아제 없음 그룹의 결과와 유사하다.
실시예 9 : DNA 복제 연구
도 34는 Q5, Phusion, 및 Taq DNA 중합효소를 사용한 복제의 선형성에 관한 데이터를 나타낸다. 가로축은 이론상 표적 DNA 농도 (ng/mL)를 나타내고 세로축은 qPCR을 사용하여 측정된 표적 DNA 농도 (ng/mL)를 표준과 비교하여 나타낸다. 측정은 상이한 주기의 PCR 반응에서 이루어졌다. 전체 대각선의 점들은 완전한 선형성 (이론)을 나타낸다. 다른 점들은 서로 다른 리가아제들로부터의 실험 데이터 점들을 나타낸다. 결과는 표준 PCR 반응들 (리가아제 무관)이 최대 10 ng/mL 또는 그 이상의 표적에서 선형일 수 있음을 나타낸다. 본 실시예에서, 사용된 표적 DNA는 ~450 염기였다.
실시예 10: 다양한 DNA 건조 방법 연구
도 35는 4일 동안 실온에서 저장된 DNA 샘플들에 대한 데이터를 나타낸다. 약 450 염기 길이의 DNA를 포함하는 다양한 양의 DNA 샘플 (50 ng, 500 ng 및 5000 ng)이 저장되었다. DNA 샘플들을 상이한 조건에서 저장하였다: 습윤 또는 건조, 및 보존첨가제 존재 또는 부재 (예컨대, BM은 생물안정화 물질을 나타낸다). 결과를 4일 동안 얼린 물에 저장한 약 450 염기 길이의 DNA를 포함하는 동일한 DNA 샘플과 비교하였다. 결과는 최소한의 DNA 분해가 실온에서 발생할 수 있으며 BM (생물안정화 물질)과 같은 보존 첨가제의 사용이 분해 감소에 기여할 수 있음을 나타낸다. 건조 과정은 DNA 보존 첨가제 없이 DNA를 분해시킬 수 있다.
도 36은 실온에서 반복적으로 건조되고 재수화된 DNA에 관한 데이터를 나타낸다. 보존 첨가제 (예컨대, BM은 생물안정화 물질을 나타냄) 존재 및 부재시 DNA에 대한 결과를 나타낸다. 결과는 보존 첨가제 존재 또는 부재시 상당량의 DNA 손실 없이 DNA 샘플들을 3-4회 건조/재수화 할 수 있음을 나타낸다.
실시예 11 : 연결을 위한 6 염기 오버행 설계 및 테스트
표 4는 32개의 컴퓨터 설계된 3' 오버행들의 세트를 나타낸다. 오버행 (및 이의 역 보체)은 6 염기 길이를 가지고, 3 염기 이상의 동종중합체가 없고, 서로 간에 3 염기 미만의 해밍 거리가 없고, 서로 간에 3 염기 이상의 균등한 하위문자열이 없고, 그리고 오버행의 한 쪽 에지 상의 하위문자열들에 대해 서로 2 염기 이상의 균등한 하위문자열이 없도록 설계되었다.
표 4. 32개의 컴퓨터 설계된 3' 오버행들의 세트
Figure pct00004
Figure pct00005
표 5는 32개의 컴퓨터 설계된 3' 오버행들의 또 다른 세트를 나타낸다. 이러한 6-염기 오버행 (및 이의 역 보체) 세트는 표 4의 오버행들보다 전체적으로 보다 덜 엄격하게 제약되도록 설계되었으나, 표 4의 오버행들과 동일한 제약사항을 충족시키는 16개 오버행들의 서브세트를 포함하도록 설계되었다. 2개의 볼드체 서열들은 조합 실험에 대한 대조로서 서로 역 보체가 되도록 설계되었다.
표 5. 32개의 컴퓨터 설계된 3' 오버행들의 세트
Figure pct00006
Figure pct00007
각 오버행에 대한 점착성-말단 DNA 서열과 표 4표 5의 역 보체를 구성하였다. 각 표의 각 오버행 (및 역 보체)에 대한 각 서열은 동일한 근위 이중나선 영역을 가졌으나 그 원위 말단에서 별개의 3-염기 5' 오버행으로 고유하게 바코드 처리되었다. 구성된 점착성 말단 서열들의 방식에 대하여 도 37을 참고하라. 전체적으로, 역 보체들을 사용하여, 각 표에 있어서 64개 서열들을 구성하였다. 이들 서열들을 등몰 농도로 모으고 표준 리가아제 완충액에서 37 oC에서 T4 리가아제로 연결하였다. 연결은 EDTA로 퀀칭하기 전 2.5분 동안 수행되었다. 연결된 서열들을 겔 추출을 통해 정제한 다음 5' 말단을 Klenow 중합효소를 사용하여 채우고 dA-테일링하였다. 이어서 시퀀싱 어댑터를 생성물들의 말단에 연결시키고, 증폭하고 정제하여 Illumina iSeq에서의 시퀀싱을 위해 준비하였다. 가능한 각 연결된 생성물의 상대 복제수는 가능한 각 바코드 조합에 대한 서열 리드수를 계수하여 추정되었다. 각 오버행 세트에 대해 총 64x(64+1)/2 = 2080개의 가능한 생성물들이 존재하였으며 (표 4표 5), 그 중 64개는 각각 그 올바른 역 보체 파트너들에 연결된 오버행에 해당한다.
도 38표 4 (도 38A) 및 표 5 (도 38B)의 오버행 서열들의 세트의 연결로부터 얻은 데이터를 나타낸다. 각 히트맵에서 각 픽셀은 해당 픽셀의 행 및 열을 나타내는 오버행들에 의해 형성된 연결 생성물에 해당한다. 해당 픽셀의 회색스케일 (또는 “열”)은 연결 생성물의 상대적인 양을 나타낸다 (로그 기반-2 스케일). 각 행과 열은 표 4 (도 38A) 또는 표 5 (도 38B)의 오버행 1-32, 그리고 이들 오버행의 역 보체에 해당한다. 결과는 각 오버행이 역 보체와 가장 강력하게 연결되지만 연결에서 여러 비특이적 생성물이 형성 될 수도 있음을 시사한다.
이 데이터를 사용하여 32개 오버행들의 각 세트로부터 오버행들의 서브세트에 대한 페널티 점수를 계산하였다. 오버행들의 서브세트에 있어서, 데이터 세트의 서브세트에서 각 가능한 오버행에 대해 형성된 오프-타겟 생성물의 상대량 (올바른 생성물의 양과 비교)을 추가하여 페널티 점수를 계산하였다.
도 39표 4표 5의 오버행들의 각 세트로부터의 15개 오버행들의 2M개 서브세트들로부터 얻은 페널티 점수를 나타낸다. 페널티 점수를 사용하여 16개 구성요소 연결에 사용될 15개 오버행의 고효율, 고 특이성 세트를 예측할 수 있다. 패널티 점수가 가장 낮은 상위 후보를 찾을 수 있다. X 오버행들의 서브세트들에 대해 유사한 분석을 수행하여 X+1 오버행들을 함께 연결시키기 위한 상위 오버행 후보들을 찾을 수 있다. 이러한 분석을 기반으로, 표 6은 16개 DNA 구성요소들을 함께 연결시키기 위한, 15개 오버행들(표 4의 세트로부터 가져옴)의 추정상의 고-효율, 고-특이성의 추정 서브세트를 나타낸다. 마찬가지로, 표 7은 16개의 DNA 구성요소들을 함께 연결시키기 위한 15개 오버행들 (표 5의 세트에서 가져옴)의 추정 서브세트를 나타낸다.
표 6. 15개 오버행의 고-효율, 고-특이성 추정 서브세트
Figure pct00008
표 7. 15개 오버행의 추정 서브세트
Figure pct00009
도 40은 프린트헤드 외부로의 분배에 최적화될 수 있는 연결 혼합물의 특정 제형을 사용한, 16개 DNA 구성요소들의 연결 효율성에 관한 데이터를 나타낸다. 상기 혼합물에는 글리세롤 형태의 습윤제, 오렌지 G 형태의 염료 및 니파시드 (Nipacide) 형태의 살생물제가 포함되어 있다. 2가지 리가아제 농도 - 0.1 Weiss 단위/mL 및 0.2 Weiss 단위/mL로 연결을 수행하였다. 또한, .0625 mM의 각 DNA 구성요소, 22.5% v/v 글리세롤, 3.1% w/v PEG6000, 1.25% w/v 오렌지 G 염료, 0.1% w/v 니파시드, 및 잔부의 표준 T4 리가아제 완충액을 이용하여 37 oC에서 연결을 수행하였다. 연결 시간은 2.5분 이었다. 효율은 전장 대조 (FLC)에 상대적으로 qPCR을 사용하여 측정하였으며, 이는 완전히 연결된 생성물을 나타낸다.
실시예 12 : 60 kb 디지털 정보로의 인코딩, 복제, 및 이로부터의 액세스
길이 68,800 비트 (오류 보호 후 73,440 비트)의 디지털화된 오디오 클립 (“메시지”)은 8개-레이어 프로덕트 방식에서 372개 DNA 구성요소들의 구성요소 라이브러리를 사용하여 인코딩되었다 (프로덕트 방식 개요는 도 16B 참조). 3개 구성요소들로 된 7개 레이어 (“기본 레이어”) 및 351개 구성요소들로 된 1개 레이어 (“다중 레이어”)이 존재하여, 767637개의 가능한 식별자들이 존재하였으나, 인코드된 메시지는 조합 공간으로부터의 119353개 식별자들만을 사용하였다. Labcyte Echo 555 액세스 시스템에서 기록을 수행하였다. 이 과정을 2회 반복하였다. DNA 구성요소들은 구성된 올리고들을 이중화하여 컴퓨터 설계 및 제작되었다.
기록 과정은 다음과 같이 4단계로 진행되었다: (1) 컴퓨터 인코딩, (2) DNA 구성요소 병치 (collocation), (3) 연결, 및 (4) 통합 (consolidation). (1) 컴퓨터 인코딩 동안, 오류 수정 메시지가 길이 13 및 가중치 3의 연속 코드워드로 인코드되었다. 그러므로 코드워드는 사전순으로 정렬된 13개의 식별자들로 나타내어졌으며, 이들 중 3개는 존재하도록 의도한 것이고 (“실제 식별자”), 다른 10개는 존재하지 않도록 의도한 것이다 (“거짓 식별자”). 총 9181 개의 코드워드가 존재하였다. (2) DNA 병치 단계에서, 372개 DNA 구성요소들을 Labcyte Echo 555를 사용하여 (384웰 플레이트 중) 341개 반응 웰들에서 함께 혼합하였다. 각 반응은 27개의 연속 코드워드 (총 81개의 실제 식별자)를 생성하고자 한 것이었으며, 한 반응의 경우만 예외로 1개의 코드워드 (총 3개의 실제 식별자)만을 생성하고자 하였다. 반응들은 각 기본 레이어들로부터의 1개 DNA 구성요소 그리고 다중 레이어로부터의 다수의 구성요소들 (각 코드워드당 3개)을 내포하도록 설정되었다. 추가적으로, 완전히 형성된 식별자들의 각 말단에 연결시키기 위한 시퀀싱 어댑터를 반응 웰에 첨가하였다. (3) 연결 단계에서, 4uL의 T4 리가아제 반응 혼합물 (5 CEU/mL의 T4 리가아제, 및 7.5% PEG6000 함유)을 각 반응 웰에 첨가하고 37 oC에서 1 시간 동안 배양하였다. 농도는 각 반응이 각 레이어의 대략 4nM의 응집체 DNA 구성요소들을 포함하도록 설정되었다. 후속하여, (4) 통합에서, 대략 50 nL의 모든 반응물을 EDTA 용액이 있는 하나의 용기에 통합시켜 리가아제 활성을 비활성화시켰다. 통합된 식별자 풀 (식별자 라이브러리)를 PCR을 사용하여 증폭시키고 겔 정제하여 시퀀싱을 위한 전장 식별자를 추출하였다.
도 41A-B는 메시지를 인코드하는 식별자 라이브러리를 시퀀싱하여 복구된 데이터를 나타낸다. 도 41A는 (컴퓨터 인코딩 후) 인코드된 메세지의 341x351 참조 맵을 보여준다. 어두운 점들은 '1' 비트 값에 해당하고 흰색 점들은 '0' 비트 값에 해당한다. 데이터는 '1' 비트 값의 위치에 해당하는 식별자들을 구성함으로써 DNA에 기록된다 (식별자가 사전적 순서를 갖기 때문에 가능함). 도 41B는 시퀀싱에 의해 결정된 식별자 라이브러리에 존재하는 서열의 풍부도에 관한 히트 맵 (341x351)을 보여준다. 각 픽셀은 식별자를 나타내고 해당 픽셀의 회색스케일 강도는 해당 행의 다른 식별자와 비교하여 해당 식별자의 상대 풍부도를 나타낸다. 각 행의 식별자들은 동일한 반응에서 구성된다. 최대 회색스케일 (어두움) 강도는 각 행의 식별자에 대한 평균 복제수로 설정된다. 식별자들은, 이들이 (해당 맵의 행들을 따라) 13개 식별자들로 된 연속 문자열에서 상위 3개의 가장 풍부한 식별자들에 속하는 경우, 실제 식별자 ('1'의 비트 값을 나타내는 식별자)로 해석될 수 있다. 다른 모든 것들은 거짓 식별자 ('0'의 비트 값을 나타내는 식별자)로 해석된다. 이러한 디코딩 처리 단계를 데이터에 적용하면 식별자 오류 (코드워드 내에서, 거짓 식별자가 실제 식별자보다 많은 리드수를 가지는 경우) 및 식별자 삭제 (상위 3개의 가장 풍부한 식별자들이 구별될 수 없는 경우)가 발생하지 않는다. 따라서 디코드된 메시지는 인코드된 메시지와 정확히 일치한다 (도 41A). 도 42는 전체 인코딩, 기록, 시퀀싱, 및 디코딩 프로세스를 중복 실행하여 얻은 데이터를 나타낸다. 또다시, 메시지는 오류나 삭제없이 성공적으로 기록되고 판독되었다.
도 43A-C는 (도 41A-B로부터의) 메시지를 내포하는 원본 식별자 라이브러리의 다수의 복제본을 생성하여 얻은 데이터를 나타낸다. 라이브러리를 1000x 희석한 다음 어댑터 서열들의 외부 에지들에 결합되는 프라이머 (라이브러리 내 모든 서열들에 공통) 및 Phusion 중합효소를 사용하여 10회 주기 PCR하여 증폭시켰다. 10회-주기 PCR은 라이브러리를 다시 원래 농도로 ~1024x 증폭시켰다. 도 43A는 시퀀싱에 의해 결정된 식별자 라이브러리에 존재하는 풍부한 서열의 히트 맵 (341x351)을 보여준다. 각 픽셀은 식별자를 나타내고 해당 픽셀의 회색스케일 강도는 해당 행의 다른 식별자와 비교하여 해당 식별자의 상대 풍부도를 나타낸다. 최대 회색스케일 (어두움) 강도는 각 행의 식별자에 대한 평균 복제수로 설정된다. 식별자들은, 이들이 (해당 맵의 행들을 따라) 13개 식별자들로 된 연속 문자열에서 상위 3개의 가장 풍부한 식별자들에 속하는 경우, '1'의 비트 값을 나타내는 것으로 해석될 수 있다. 다른 모든 것들은 '0'의 비트 값을 나타내는 것으로 해석된다. 이 디코딩 처리 단계를 데이터에 적용하면 식별자 오류가 발생하지 않는다. 작은 시퀀싱 샘플 크기로 설명될 수 있는, 식별자 삭제가 하나 존재하였다 (표 8 참조). 이는 모든 거짓 식별자들이 제로 리드를 가졌던 코드워드 였으나, 실제 식별자들 중 하나 또한 제로 리드를 가졌다. 도 43B는 원본 식별자 라이브러리와 복제된 식별자 라이브러리에서의 식별자 복제수들 사이의 상관관계를 보여주며, 43C는 원본 식별자 라이브러리와 복제된 식별자 라이브러리에서의 식별자 복제수들의 분포를 보여준다. 결과는 식별자 라이브러리 복제 중에 편향이 거의 또는 전혀 발생하지 않을 수 있음을 나타낸다.
도 44A-C는 (도 41A-B로부터의) 원본 메시지를 내포하는 식별자 라이브러리의 일부를 액세스하여 얻은 데이터를 나타낸다. 액세스 방법은 도 17B.에서 설명한 바와 같은 'AND' 연산이었다. 식별자 라이브러리를 ~32000x배 희석한 다음, 각 에지 레이어의 특정 DNA 구성요소에 결합된 프라이머를 사용한 PCR을 사용하여 증폭시켜, 상기 라이브러리의 대략 1/9에 액세스하였다 (각 레이어가 3개의 가능한 구성요소들을 가졌기 때문). PCR은 Phusion 중합효소로 15주기 동안 수행되었다. 시퀀싱 어댑터를 생성된 하위-라이브러리의 말단에 연결시키고, 이를 Illumina iSeq에서 시퀀싱하였다. 도 44A는 시퀀싱에 의해 결정된 액세스된 식별자 라이브러리에 존재하는 서열들의 풍부도의 히트 맵 (341x351)을 보여준다. 각 픽셀은 식별자를 나타내고 해당 픽셀의 회색스케일 강도는 해당 행의 다른 식별자와 비교하여 해당 식별자의 상대 풍부도를 나타낸다. 최대 회색스케일 (어두움) 강도는 각 행의 식별자에 대한 평균 복제수로 설정된다. 식별자들은, 이들이 (해당 맵의 행들을 따라) 13개 식별자들로 된 연속 문자열에서 상위 3개의 가장 풍부한 식별자들에 속하는 경우, '1'의 비트 값을 나타내는 것으로 해석될 수 있다. 다른 모든 것들은 '0'의 비트 값을 나타내는 것으로 해석된다. 이러한 디코딩 처리 단계를 데이터에 적용하면 식별자 오류 및 식별자 삭제가 발생하지 않으므로, 인코드된 메시지에 정확히 일치하는 데이터세트가 생성된다 (도 41A). 도 44B는 원본 라이브러리와 액세스된 식별자 라이브러리에서의 식별자 복제수들 사이의 상관관계를 보여주며, 44C는 원본 식별자 라이브러리 대 액세스된 식별자 라이브러리에서 식별자 복제수의 분포를 보여준다. 결과는 식별자 라이브러리 액세스 중에 편향이 거의 또는 전혀 발생하지 않을 수 있음을 나타낸다.
도 45A-C는 데이터는 (도 44A-C로부터) 액세스된 식별자 라이브러리의 하위-부분을 추가로 액세스하여 얻은 데이터를 나타낸다. 원본 식별자 라이브러리로부터의 액세스 방법은 2개의 네스트된 'AND' 연산이었다 (이 때 각 'AND'는 도 17B에 기재된 바와 같음). 원본 식별자 라이브러리를 ~32000x배 희석한 다음, 각 에지 레이어의 특정 DNA 구성요소에 결합된 프라이머를 사용한 PCR을 사용하여 증폭시켜, 상기 라이브러리의 대략 1/9에 액세스하였다 (각 레이어가 3개의 가능한 구성요소들을 가졌기 때문). 생성된 액세스된 식별자 라이브러리를 다시 ~32000x 희석한 다음, 각 에지로부터 제거된 레이어에서 특정 DNA 구성요소들에 결합된 프라이머를 사용한 PCR을 사용하여 증폭시켰으므로, 액세스된 라이브러리의 대략 1/9 (각 레이어가 3개의 가능한 구성요소들을 가졌기 때문), 또는 상기 원본 라이브러리 전체의 대략 1/81 (1/9 중 1/9)을 액세스하였다. 우리는 이렇게 생성된 하위-라이브러리를 “2x 액세스된” 식별자 라이브러리로 지칭한다. PCR은 Phusion 중합효소로 15주기 동안 수행되었다. 시퀀싱 어댑터를 생성된 하위-라이브러리의 말단에 연결시키고, 이를 Illumina iSeq에서 시퀀싱하였다. 도 45A는 시퀀싱에 의해 결정된 2x 액세스된 식별자 라이브러리에 존재하는 서열들의 풍부함에 관한 히트 맵 (341x351)을 보여준다. 각 픽셀은 식별자를 나타내고 해당 픽셀의 회색스케일 강도는 해당 행의 다른 식별자와 비교하여 해당 식별자의 상대 풍부도를 나타낸다. 최대 회색스케일 (어두움) 강도는 각 행의 식별자에 대한 평균 복제수로 설정된다. 식별자들은, 이들이 (해당 맵의 행들을 따라) 13개 식별자들로 된 연속 문자열에서 상위 3개의 가장 풍부한 식별자들에 속하는 경우, '1'의 비트 값을 나타내는 것으로 해석될 수 있다. 다른 모든 것들은 '0'의 비트 값을 나타내는 것으로 해석된다. 이러한 디코딩 처리 단계를 데이터에 적용하면 식별자 오류 및 식별자 삭제가 발생하지 않으므로, 인코드된 메시지에 정확히 일치하는 데이터세트가 생성된다 (도 41A). 도 45B는 원본 라이브러리 대 2x 액세스된 식별자 라이브러리에서의 식별자 복제수들 사이의 상관관계를 보여주며, 45C는 원본 식별자 라이브러리 대 2x액세스된 식별자 라이브러리에서 식별자 복제수의 분포를 보여준다. 결과는 식별자 액세스 방법들 중에 편향이 거의 또는 전혀 발생하지 않을 수 있음을 나타낸다.
도 46A-C는 해당 메시지를 나타내는 원본 식별자 라이브러리 (도 41로부터)를 100 oC에서 4일 동안 저장한 후 데이터를 나타낸다. 원본 식별자 라이브러리는 보존 첨가제 (생물안정화 물질)를 사용하여 건조되었고 100 oC에서 4일 동안 열 순환기에 두었다. 도 46A는 시퀀싱에 의해 결정된 저장된 식별자 라이브러리에 존재하는 서열들의 풍부도의 히트 맵 (341x351)을 보여준다. 각 픽셀은 식별자를 나타내고 해당 픽셀의 회색스케일 강도는 해당 행의 다른 식별자와 비교하여 해당 식별자의 상대 풍부도를 나타낸다. 최대 회색스케일 (어두움) 강도는 각 행의 식별자에 대한 평균 복제수로 설정된다. 식별자들은, 이들이 (해당 맵의 행들을 따라) 13개 식별자들로 된 연속 문자열에서 상위 3개의 가장 풍부한 식별자들에 속하는 경우, '1'의 비트 값을 나타내는 것으로 해석될 수 있다. 다른 모든 것들은 '0'의 비트 값을 나타내는 것으로 해석된다. 이러한 디코딩 처리 단계를 데이터에 적용하면 식별자 오류 및 식별자 삭제가 발생하지 않으므로, 인코드된 메시지에 정확히 일치하는 맵이 생성된다 (도 41A). 도 46B는 원본 식별자 라이브러리와 복제된 식별자 라이브러리에서의 식별자 복제수들 사이의 상관관계를 보여주며, 46C는 원본 식별자 라이브러리와 복제된 식별자 라이브러리에서의 식별자 복제수들의 분포를 보여준다. 결과는 장기간 식별자 라이브러리를 과도하게 가열하는 동안 편향이 거의 또는 전혀 발생하지 않을 수 있음을 나타낸다. 또한, 이중 가닥 DNA 정량 (Qubit 형광측정 정량 이용)은 원본 식별자 라이브러리 (36.4 ng/mL)와 저장된 식별자 라이브러리 (41.2 ng/mL) 간에 유사한 값을 산출하였는데, 이는 배양하는 동안 DNA 손실이 거의 내지 전혀 없었을 수 있음을 나타낸다.
표 8은 메시지 및 메시지의 액세스된 부분을 나타내는 식별자 라이브러리를 기록 및 판독한 것으로부터 얻은 통계를 나타낸다 (도 41-46). 각 라이브러리에 대해, 우리는 '0'의 비트 값을 나타내는 식별자들 (거짓 식별자들)의 총 리드 수, '1'의 비트 값을 나타내는 식별자들 (실제 식별자들)의 총 리드 수, 시퀀싱되었던 거짓 식별자들의 분율 (“식별자 오류율”), 총 코드워드 수, 코드워드 삭제 수, 및 코드워드 오류 수를 기록하였다. 긱 코드워드에서 식별자들의 분포는 다항 분포로 모델링되었으며, 여기서 각 거짓 식별자들은 동일하게 분포하고 각 실제 식별자들은 동일하게 분포하며, 거짓 식별자 판독 (샘플링) 확률은 식별자 오류율과 동일하였다. 각 라이브러리에 제시된 코드워드 수, 및 각 코드워드로부터 얻은 식별자들의 리드 수를 각 코드워드에 대한 샘플 크기로 사용하여, 우리는 상기 모델을 사용하여 예상된 코드워드 삭제 및 코드워드 오류 수를 계산하였다. 보다 큰 샘플 크기에서 코드워드 삭제 또는 코드워드 오류 확률을 컴퓨터 계산하는 것이 어렵기 때문에, 40 리드수 보다 큰 샘플 크기는 40으로 제한되었다. 그러므로 예상 값 (expectation value)은 상한으로 간주되어야 한다. 결과는 복제된 라이브러리 (도 43A, 도 43B, 및 도 43C)에서 삭제된 코드워드가 고유한 샘플링 노이즈로 인해 예상되었을 수 있었음을 나타낸다.
표 8. 식별자 라이브러리 기록 및 리드에서 얻은 통계
Figure pct00010
실시예 13 : DNA 안정성 연구
도 47A-D는 4가지 다른 온도에서 8일 동안 배양된 DNA 샘플에 대한 데이터를 제공한다. 대략 250ng의 ~450개 염기 DNA (표적)의 다수 샘플들 각각을 보존 첨가제 (BM은 생물안정화 물질을 나타냄)로 건조시키고 75.1 oC (도 47A), 84.4 oC (도 47B), 90.2 oC (도 47C), 또는 95.0 oC (도 47D)에서 8일 동안 가열하였다. 8일 동안 서로 다른 시점에서, 샘플들을 제거하고 8일 종료시에 최종 측정때까지 실온에서 보관하였다. 최종 측정시, 각 샘플에서 표적 DNA의 상대량을 qPCR로 정량하였다. 정량 값은 가열되지 않았던 시점 0의 샘플들에 대해 정규화된다. 결과는 고온에서 장기간 배양하더라도 최소한의 DNA 분해가 발생할 수 있음을 나타낸다.
실시예 14 : 연결에 대한 글리세롤의 영향 연구
도 48은 다양한 양 (부피 당 퍼센트 부피로)의 글리세롤과 함께 연결된 4개 점착성-말단 (6-염기, 3' 오버행을 가짐) DNA 구성요소들의 연결로부터 얻은 데이터를 나타낸다. 연결은 0.125 mM의 각 DNA 구성요소 및 5 CEU/mL T4 리가아제 (총 100 CEU)를 사용하여 25 oC에서 수행되었다. 연결 시간은 2.5분 이었다. 효율은 전장 대조 (FLC)에 상대적으로 qPCR을 사용하여 측정하였으며, 이는 완전히 연결된 생성물을 나타낸다. 결과는 20% 이상의 글리세롤을 추가하는 것은 연결에 영향을 주지 않을 수 있으나, 40% 이상을 첨가하는 것은 억제 가능할 수 있음을 나타낸다.
본 발명의 바람직한 구체예들을 본 출원에 나타내고 설명하였으나, 해당 분야의 숙련된 기술자들에게 이러한 구체예들이 단지 예로서 제공되는 것임은 자명할 것이다. 본 발명을 명세서에 제공된 특정 실시예에 제한하고자 하는 것이 아니다. 본 발명을 전술한 구체예를 참고하여 설명하였으나, 이러한 구체예들의 설명 및 실시예는 제한의 의미로 해석되어야 함을 의미하는 것은 아니다. 본 발명에서 벗어나지 않고 수많은 변형들, 변화들, 및 치환들이 해당 분야의 숙련된 기술자들에 의해 이루어질 것이다. 또한, 본 발명의 모든 양상들은 본 명세서에 제시된 특정 묘사, 구조, 또는 상대적 비율 세트에 제한되는 것이 아니며 다양한 조건 및 변수에 따라 달라짐을 이해하여야 한다. 본 발명을 실시함에 있어 본 명세서에 기재된 발명의 구체예들에 대한 다양한 대체예들이 사용될 수 있음을 이해하여야 한다. 그러므로 본 발명은 또한 이러한 대안, 수정, 변형 또는 등가물을 포함하는 것으로 간주된다. 하기 청구범위는 본 발명의 범위를 정의하며 이러한 청구범위에 속하는 방법들 및 구성들 및 이들의 균등예들은 청구범위에 의해 뒷받침되는 것으로 본다.

Claims (63)

  1. 다음 단계를 포함하는, 정보를 핵산 서열에 기록하는 방법:
    (a) 상기 정보를 표현하는 기호들의 문자열을 생성하는 단계;
    (b) 복수의 구성요소들을 구성하는 단계, 이 때 상기 복수의 구성요소들의 각 개별 구성요소는 핵산 서열을 포함하고;
    (c) 상기 복수의 구성요소들의 개별 구성요소의 적어도 하나의 점착성 말단을 생성하는 단계;
    (d) 상기 복수의 구성요소들의 둘 이상의 구성요소들을 상기 둘 이상의 구성요소들의 개별 구성요소의 적어도 하나의 점착성 말단을 통해 함께 화학적으로 결합함으로써, 복수의 식별자를 생성하는 단계, 이 때 상기 복수의 식별자들의 각 식별자는 둘 이상의 구성요소들을 포함하고, 이 때 상기 복수의 식별자들의 개별 식별자는 기호들의 문자열의 개별 기호에 해당하며; 그리고
    (e) 적어도 상기 복수의 식별자들의 서브세트를 포함하는 식별자 라이브러리를 선택적으로 포획 또는 증폭하는 단계.
  2. 청구항 1에 있어서, 상기 기호들의 문자열의 각 기호는 하나 이상의 가능한 기호 값들 중 하나임을 특징으로 하는, 방법.
  3. 청구항 1 또는 2에 있어서, 상기 기호들의 문자열에서 각 기호는 두 개의 가능한 기호 값들 중 하나임을 특징으로 하는, 방법.
  4. 청구항 1-3 중 어느 한 항에 있어서, 기호들의 문자열의 각 위치에서의 하나의 기호 값은 식별자 라이브러리 내 별개 (distinct) 식별자가 없음을 나타낼 수 있음을 특징으로 하는, 방법.
  5. 청구항 3에 있어서, 상기 2개의 가능한 기호 값들은 0 및 1의 비트값이고, 이 때 기호들의 문자열에서 비트값이 0인 개별 기호는 식별자 라이브러리 내 별개 식별자가 없음을 나타낼 수 있으며, 기호들의 문자열에서 비트값이 1인 개별 기호는 식별자 라이브러리 내 별개 식별자가 있음을 나타낼 수 있고, 또는 그 역일 수 있음을 특징으로 하는, 방법.
  6. 청구항 1에 있어서, (d)는 둘 이상의 레이어들의 둘 이상의 구성요소들을 화학적으로 결합하는 것을 포함하며, 이 때 둘 이상의 레이어들의 각 레이어는 별개 세트의 구성요소들을 포함함을 특징으로 하는, 방법.
  7. 청구항 6에 있어서, 상기 식별자 라이브러리로부터의 개별 식별자는 둘 이상의 레이어들의 각 레이어로부터의 하나의 구성요소를 포함함을 특징으로 하는, 방법.
  8. 청구항 7에 있어서, 상기 둘 이상의 구성요소들은 고정된 순서로 어셈블리됨을 특징으로 하는, 방법.
  9. 청구항 7에 있어서, 상기 둘 이상의 구성요소들은 임의의 순서로 어셈블리됨을 특징으로 하는, 방법.
  10. 청구항 7에 있어서, 상기 둘 이상의 구성요소들은 상기 둘 이상의 레이어들의 상이한 레이어들로부터의 2개 구성요소들 사이에 배치된 하나 이상의 파티션 구성요소들과 어셈블리됨을 특징으로 하는, 방법.
  11. 청구항 6에 있어서, 상기 개별 식별자는 상기 둘 이상의 레이어들의 서브세트의 각 레이어로부터의 하나의 구성요소를 포함함을 특징으로 하는, 방법.
  12. 청구항 6에 있어서, 상기 개별 식별자는 상기 둘 이상의 레이어들 각각으로부터의 적어도 하나의 구성요소를 포함함을 특징으로 하는, 방법.
  13. 청구항 1-12 중 어느 한 항에 있어서, (c)는 (i) 엔도뉴클레아제를 사용하여 상기 복수의 구성요소들의 상기 개별 구성요소의 상기 적어도 하나의 점착성 말단을 생성하는 것을 포함함을 특징으로 하는, 방법.
  14. 청구항 1-13 중 어느 한 항에 있어서, 상기 적어도 하나의 점착성 말단은 상기 개별 구성요소의 5' 말단에 존재함을 특징으로 하는, 방법.
  15. 청구항 1-13 중 어느 한 항에 있어서, 상기 적어도 하나의 점착성 말단은 상기 개별 구성요소의 3' 말단에 존재함을 특징으로 하는, 방법.
  16. 청구항 1-15 중 어느 한 항에 있어서, (c)는 상기 개별 구성요소의 2개의 점착성 말단을 생성하는 것을 포함함을 특징으로 하는, 방법.
  17. 청구항 1-16 중 어느 한 항에 있어서, 상기 적어도 하나의 점착성 말단은 적어도 하나의 뉴클레오티드 길이임을 특징으로 하는, 방법.
  18. 청구항 1-17 중 어느 한 항에 있어서, 상기 적어도 하나의 점착성 말단은 6개 뉴클레오티드 길이임을 특징으로 하는, 방법.
  19. 청구항 1-18 중 어느 한 항에 있어서, 상기 적어도 하나의 점착성 말단은 표 4 또는 표 5에 열거된 서열들로 구성된 군으로부터 선택되는 핵산 서열을 포함함을 특징으로 하는, 방법.
  20. 청구항 1-19 중 어느 한 항에 있어서, 상기 복수의 핵산 서열들은 상기 정보의 메타데이터를 저장하거나 상기 정보를 은폐함을 특징으로 하는, 방법.
  21. 청구항 1-20 중 어느 한 항에 있어서, 둘 이상의 식별자 라이브러리가 조합되며 이 때 상기 둘 이상의 식별자 라이브러리의 각 식별자 라이브러리는 다른 바코드로 태그됨을 특징으로 하는, 방법.
  22. 청구항 1-21 중 어느 한 항에 있어서, 상기 식별자 라이브러리의 각 개별 식별자는 별개의 바코드를 포함함을 특징으로 하는, 방법.
  23. 청구항 1-22 중 어느 한 항에 있어서, 상기 복수의 식별자들, 또는 상기 식별자들을 포함하는 상기 복수의 구성요소들은 판독, 기록, 액세스, 복사 및 삭제 작업의 용이성을 위해 선택됨을 특징으로 하는, 방법.
  24. 청구항 1-23 중 어느 한 항에 있어서, 화학적 결합 단계는 리가아제를 포함하는 시약을 사용하여 상기 복수의 구성요소들 중 둘 이상의 구성요소들을 함께 연결시키는 것을 포함함을 특징으로 하는, 방법.
  25. 청구항 23에 있어서, 상기 리가아제는 T4 리가아제, T7 리가아제, T3 리가아제, 또는 대장균 리가아제임을 특징으로 하는, 방법.
  26. 청구항 24 또는 25에 있어서, 상기 시약은 첨가제를 추가로 포함함을 특징으로 하는, 방법.
  27. 청구항 24-26 중 어느 한 항에 있어서, 상기 첨가제는 상기 리가아제의 효율을 증가시킴을 특징으로 하는, 방법.
  28. 청구항 26 또는 27에 있어서, 상기 첨가제는 폴리에틸렌 글리콜 (PEG)을 포함함을 특징으로 하는, 방법.
  29. 청구항 28에 있어서, 상기 PEG는 PEG400, PEG6000, PEG8000 또는 이의 임의의 조합임을 특징으로 하는, 방법.
  30. 청구항 28 또는 29에 있어서, 상기 PEG 분자의 최종 농도는 적어도 약 1% 부피당 중량(w/v)임을 특징으로 하는, 방법.
  31. 청구항 24-30 중 어느 한 항에 있어서, 상기 연결의 반응 시간은 적어도 1분임을 특징으로 하는, 방법.
  32. 청구항 24-30 중 어느 한 항에 있어서, 상기 연결 온도는 섭씨 30도 이상임을 특징으로 하는, 방법.
  33. 청구항 24-31 중 어느 한 항에 있어서, 상기 연결의 반응 효율은 적어도 약 20%임을 특징으로 하는, 방법.
  34. 청구항 24-33 중 어느 한 항에 있어서, EDTA 또는 구아니딘 티오시아네이트를 함유하는 완충액을 사용하여 상기 리가아제를 비활성화하는 것을 추가로 포함함을 특징으로 하는, 방법.
  35. 청구항 24-34 중 어느 한 항에 있어서, 상기 리가아제의 최종 농도는 적어도 약 5 CEU/μL임을 특징으로 하는, 방법.
  36. 청구항 24-35 중 어느 한 항에 있어서, 상기 시약은 글리세롤 분자를 추가로 포함함을 특징으로 하는, 방법.
  37. 청구항 1-23 중 어느 한 항에 있어서, (d)에서 화학적 결합은 중첩-연장 중합효소 연쇄 반응 (PCR)을 사용하는 것을 포함함을 특징으로 하는, 방법.
  38. 청구항 1-37 중 어느 한 항에 있어서, 상기 개별 구성요소는 데옥시리보핵산 (DNA) 또는 리보핵산임을 특징으로 하는, 방법.
  39. 청구항 1-38 중 어느 한 항에 있어서, 상기 개별 구성요소는 재수화되었음을 특징으로 하는, 방법.
  40. 청구항 1-39 중 어느 한 항에 있어서, 상기 개별 구성요소는 탈수된 구성요소로부터 재수화됨을 특징으로 하는, 방법.
  41. 청구항 1-40 중 어느 한 항에 있어서, 상기 방법은 적어도 상기 복수의 식별자들의 서브세트의 각 개별 식별자를 탈수화시킴으로써 상기 식별자 라이브러리를 탈수시키는 단계를 추가로 포함함을 특징으로 하는, 방법.
  42. 청구항 1-41 중 어느 한 항에 있어서, 상기 복수의 식별자들의 적어도 상기 서브세트의 각 개별 식별자는 탈수됨을 특징으로 하는, 방법.
  43. 청구항 41 또는 42에 있어서, 상기 복수의 식별자들의 적어도 상기 서브세트의 각 개별 식별자를 재수화시키는 단계를 추가로 포함함을 특징으로 하는, 방법.
  44. 청구항 1-40 중 어느 한 항에 있어서, 식별자 분해를 방지하기 위해 식별자 라이브러리에 보존 첨가제를 첨가하는 단계를 추가로 포함함을 특징으로 하는, 방법.
  45. 청구항 1-40 중 어느 한 항에 있어서, 상기 복수의 식별자들은 PCR로 복제됨을 특징으로 하는, 방법.
  46. 청구항 45에 있어서, 상기 PCR은 적어도 10회 주기를 가짐을 특징으로 하는, 방법.
  47. 청구항 45에 있어서, 상기 복수의 식별자들은 마이크로리터 당 10 나노그램의 농도까지 PCR로 증폭됨을 특징으로 하는, 방법.
  48. 청구항 45-47 중 어느 한 항에 있어서, 상기 PCR은 유액 PCR임을 특징으로 하는, 방법.
  49. 청구항 1-40 중 어느 한 항에 있어서, 상기 복수의 식별자들은 선형 증폭으로 복제됨을 특징으로 하는, 방법.
  50. 청구항 45-47 중 어느 한 항에 있어서, PCR 후, 선형 증폭을 사용하여 상기 복수의 식별자들의 보다 많은 사본을 생성함을 특징으로 하는, 방법.
  51. 청구항 1-50 중 어느 한 항에 있어서, 상기 복수의 식별자들의 서브세트는 하나 이상의 PCR 반응들로 액세스됨을 특징으로 하는, 방법.
  52. 청구항 1-50 중 어느 한 항에 있어서, 상기 복수의 식별자들의 서브세트는 하나 이상의 친화성 태그된 프로브들로 액세스됨을 특징으로 하는, 방법.
  53. 청구항 51 또는 52에 있어서, 상기 복수의 식별자들의 상기 서브세트의 식별자들은 공통으로 한 세트의 구성요소들을 가짐을 특징으로 하는, 방법.
  54. 청구항 1-52 중 어느 한 항에 있어서, 상기 식별자들은 겔 전기영동에 의해 정제됨을 특징으로 하는, 방법.
  55. 청구항 1-52 중 어느 한 항에 있어서, 상기 식별자들은 친화성 태그된 프로브에 의해 정제됨을 특징으로 하는, 방법.
  56. 청구항 1-52 중 어느 한 항에 있어서, 상기 식별자들은 PCR을 사용하여 증폭됨을 특징으로 하는, 방법.
  57. 청구항 1-56 중 어느 한 항에 있어서, 상기 식별자들은 티민-티민 다이뉴클레오티드 또는 시토신-시토신 다이뉴클레오티드를 피하도록 설계됨을 특징으로 하는, 방법.
  58. 다음 단계를 포함하는, 정보를 핵산 서열에 기록하는 방법:
    (a) 상기 정보를 표현하는 기호들의 문자열을 생성하는 단계;
    (b) 복수의 구성요소들을 구성하는 단계, 이 때 상기 복수의 구성요소들의 각 개별 구성요소는 핵산 서열을 포함하고;
    (c) 상기 복수의 구성요소들의 상기 개별 구성요소의 적어도 하나의 점착성 말단을 생성하는 단계, 이 때 상기 적어도 하나의 점착성 말단은 적어도 6개 뉴클레오티드 길이이고;
    (d) 상기 복수의 구성요소들의 둘 이상의 구성요소들을 상기 둘 이상의 구성요소들의 상기 개별 구성요소의 적어도 하나의 점착성 말단을 통해 함께 화학적으로 결합함으로써, 복수의 식별자를 생성하는 단계, 이 때 상기 복수의 식별자들의 각 식별자는 둘 이상의 구성요소들을 포함하고, 이 때 상기 복수의 식별자들의 개별 식별자는 상기 기호들의 문자열의 개별 기호에 해당하며; 그리고
    (e) 적어도 상기 복수의 식별자들의 서브세트를 포함하는 식별자 라이브러리를 선택적으로 포획 또는 증폭하는 단계.
  59. 청구항 58에 있어서, 상기 적어도 하나의 점착성 말단은 상기 개별 구성요소의 3' 말단에 존재함을 특징으로 하는, 방법.
  60. 청구항 58 또는 59에 있어서, 상기 결합 단계는 상기 복수의 구성요소들 중 적어도 15개 이상의 구성요소들을 결합시키는 것을 포함함을 특징으로 하는, 방법.
  61. 청구항 58-60 중 어느 한 항에 있어서, 상기 적어도 하나의 점착성 말단은 표 4 또는 표 5에 열거된 서열들로 구성된 군으로부터 선택되는 핵산 서열을 포함함을 특징으로 하는, 방법.
  62. 다음 단계를 포함하는, 정보를 핵산 서열에 기록하는 방법:
    (a) 상기 정보를 표현하는 기호들의 문자열을 생성하는 단계;
    (b) 복수의 점착성 말단 구성요소들을 구성하는 단계, 이 때 상기 복수의 구성요소들의 각 개별 구성요소는 핵산 서열 및 적어도 하나의 점착성 말단을 포함하고;
    (c) 상기 복수의 구성요소들의 둘 이상의 구성요소들을 상기 둘 이상의 구성요소들의 개별 구성요소의 적어도 하나의 점착성 말단을 통해 함께 화학적으로 결합함으로써, 복수의 식별자를 생성하는 단계, 이 때 상기 복수의 식별자들의 각 식별자는 둘 이상의 구성요소들을 포함하고, 이 때 상기 복수의 식별자들의 개별 식별자는 기호들의 문자열의 개별 기호에 해당하며; 그리고
    (d) 적어도 상기 복수의 식별자들의 서브세트를 포함하는 식별자 라이브러리를 선택적으로 포획 또는 증폭하는 단계.
  63. 청구항 62에 있어서, (b)는 각 개별 구성요소가 적어도 하나의 점착성 말단을 가지도록 각 개별 구성요소를 구성하기 위해 2개의 올리고뉴클레오티드들을 어닐링하는 것을 포함함을 특징으로 하는, 방법.
KR1020207029262A 2018-03-16 2019-03-15 핵산-기반 데이터를 저장하기 위한 화학적 방법들 KR20200132921A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862644323P 2018-03-16 2018-03-16
US62/644,323 2018-03-16
PCT/US2019/022596 WO2019178551A1 (en) 2018-03-16 2019-03-15 Chemical methods for nucleic acid-based data storage

Publications (1)

Publication Number Publication Date
KR20200132921A true KR20200132921A (ko) 2020-11-25

Family

ID=67906928

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207029262A KR20200132921A (ko) 2018-03-16 2019-03-15 핵산-기반 데이터를 저장하기 위한 화학적 방법들

Country Status (7)

Country Link
US (3) US11286479B2 (ko)
EP (1) EP3766077A4 (ko)
JP (2) JP7364604B2 (ko)
KR (1) KR20200132921A (ko)
AU (1) AU2019236289A1 (ko)
CA (1) CA3094077A1 (ko)
WO (1) WO2019178551A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10650312B2 (en) 2016-11-16 2020-05-12 Catalog Technologies, Inc. Nucleic acid-based data storage
KR102534408B1 (ko) 2016-11-16 2023-05-18 카탈로그 테크놀로지스, 인크. 핵산-기반 데이터 저장
KR20200132921A (ko) 2018-03-16 2020-11-25 카탈로그 테크놀로지스, 인크. 핵산-기반 데이터를 저장하기 위한 화학적 방법들
KR20210029147A (ko) 2018-05-16 2021-03-15 카탈로그 테크놀로지스, 인크. 핵산-기반 데이터를 저장하기 위한 조성물 및 방법
WO2020227718A1 (en) 2019-05-09 2020-11-12 Catalog Technologies, Inc. Data structures and operations for searching, computing, and indexing in dna-based data storage
US11535842B2 (en) 2019-10-11 2022-12-27 Catalog Technologies, Inc. Nucleic acid security and authentication
CN111243679B (zh) * 2020-01-15 2023-03-31 重庆邮电大学 微生物群落物种多样性数据的存储检索方法
WO2021231493A1 (en) * 2020-05-11 2021-11-18 Catalog Technologies, Inc. Programs and functions in dna-based data storage
CN114507904B (zh) * 2022-04-19 2022-07-12 北京迅识科技有限公司 一种制备二代测序文库的方法

Family Cites Families (137)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050032048A1 (en) 1988-05-03 2005-02-10 Oxford Gene Technology Limited Analyzing polynucleotide sequences
JP2001518086A (ja) 1997-03-20 2001-10-09 ユニバーシティ オブ ワシントン バイオポリマー合成のための溶媒、溶媒微小液滴、および使用方法
US6419883B1 (en) 1998-01-16 2002-07-16 University Of Washington Chemical synthesis using solvent microdroplets
EP3034626A1 (en) 1997-04-01 2016-06-22 Illumina Cambridge Limited Method of nucleic acid sequencing
US6537747B1 (en) 1998-02-03 2003-03-25 Lucent Technologies Inc. Data transmission using DNA oligomers
US6187537B1 (en) 1998-04-27 2001-02-13 Donald E. Zinn, Jr. Process and apparatus for forming a dry DNA transfer film, a transfer film product formed thereby and an analyzing process using the same
US6458583B1 (en) 1998-09-09 2002-10-01 Agilent Technologies, Inc. Method and apparatus for making nucleic acid arrays
US6309828B1 (en) 1998-11-18 2001-10-30 Agilent Technologies, Inc. Method and apparatus for fabricating replicate arrays of nucleic acid molecules
US6221653B1 (en) 1999-04-27 2001-04-24 Agilent Technologies, Inc. Method of performing array-based hybridization assays using thermal inkjet deposition of sample fluids
US7501245B2 (en) 1999-06-28 2009-03-10 Helicos Biosciences Corp. Methods and apparatuses for analyzing polynucleotide sequences
US6446642B1 (en) 1999-11-22 2002-09-10 Agilent Technologies, Inc. Method and apparatus to clean an inkjet reagent deposition device
CN100404692C (zh) 2001-05-11 2008-07-23 松下电器产业株式会社 生物分子基底,使用它的检验和诊断方法及装置
WO2003025123A2 (en) 2001-08-28 2003-03-27 Mount Sinai School Of Medecine Dna: a medium for long-term information storage specification
WO2003027991A1 (en) 2001-09-25 2003-04-03 Kabushiki Kaisha Dnaform Printed materials comprising a support having an oligomer and/or a polymer applied thereon, a method for preparing the same and a method for delivering and/or storing the same
US7361310B1 (en) 2001-11-30 2008-04-22 Northwestern University Direct write nanolithographic deposition of nucleic acids from nanoscopic tips
US20030116630A1 (en) 2001-12-21 2003-06-26 Kba-Giori S.A. Encrypted biometric encoded security documents
US6773888B2 (en) 2002-04-08 2004-08-10 Affymetrix, Inc. Photoactivatable silane compounds and methods for their synthesis and use
US7306316B2 (en) 2002-05-29 2007-12-11 Arizona Board Of Regents Nanoscale ink-jet printing
US20040043390A1 (en) * 2002-07-18 2004-03-04 Asat Ag Applied Science & Technology Use of nucleotide sequences as carrier of cultural information
US8071168B2 (en) 2002-08-26 2011-12-06 Nanoink, Inc. Micrometric direct-write methods for patterning conductive material and applications to flat panel display repair
US7491422B2 (en) 2002-10-21 2009-02-17 Nanoink, Inc. Direct-write nanolithography method of transporting ink with an elastomeric polymer coated nanoscopic tip to form a structure having internal hollows on a substrate
DE10308931A1 (de) 2003-02-28 2004-09-23 Apibio Sas System und Verfahren zur Synthese von Polymeren
US6943417B2 (en) 2003-05-01 2005-09-13 Clemson University DNA-based memory device and method of reading and writing same
JP2005080523A (ja) 2003-09-05 2005-03-31 Sony Corp 生体遺伝子に導入するdna、遺伝子導入ベクター、細胞、生体遺伝子への情報導入方法、情報処理装置および方法、記録媒体、並びにプログラム
KR101239466B1 (ko) 2003-10-14 2013-03-07 베르선 코포레이션 분자 분해를 위한 방법 및 장치
WO2005042716A2 (en) 2003-10-31 2005-05-12 President And Fellows Of Harvard College Nucleic acid binding oligonucleotides
DE102005012567B4 (de) 2005-03-04 2008-09-04 Identif Gmbh Markierungslösung, deren Verwendung und Verfahren zu ihrer Herstellung
US7600840B2 (en) 2005-08-12 2009-10-13 Samsung Electronics Co., Ltd. Device for printing droplet or ink on substrate or paper
WO2007042966A2 (en) 2005-10-07 2007-04-19 Koninklijke Philips Electronics N.V. Inkjet device and method for the controlled positioning of droplets of a substance onto a substrate
CN101277759A (zh) 2005-10-07 2008-10-01 皇家飞利浦电子股份有限公司 用于将物质的液滴受控地放置在基板上的喷墨设备,用于受控地放置物质的液滴的方法以及喷墨设备的使用
EP1782886A1 (en) 2005-11-02 2007-05-09 Sony Deutschland GmbH A method of patterning molecules on a substrate using a micro-contact printing process
US20080309701A1 (en) 2005-11-28 2008-12-18 Koninklijke Philips Electronics, N.V. Ink Jet Device for Releasing Controllably a Plurality of Substances Onto a Substrate, Method of Discrimination Between a Plurality of Substances and Use of an Ink Jet Device
CN101341030A (zh) 2005-12-22 2009-01-07 皇家飞利浦电子股份有限公司 用于将物质放置到基板上的喷墨设备,用于将物质放置到基板上的方法以及喷墨设备的使用
US20090033690A1 (en) 2006-01-12 2009-02-05 Koninklijke Philips Electronics N.V. Ink jet device and method for releasing a plurality of substances onto a substrate
JP2009538123A (ja) * 2006-04-19 2009-11-05 アプライド バイオシステムズ, エルエルシー ゲル非含有ビーズベースの配列決定のための試薬、方法およびライブラリー
WO2008035272A2 (en) 2006-09-21 2008-03-27 Koninklijke Philips Electronics N.V. Ink-jet device and method for producing a biological assay substrate using a printing head and means for accelerated motion
EP2084532A1 (en) 2006-10-30 2009-08-05 Koninklijke Philips Electronics N.V. Porous biological assay substrate and method and device for producing such substrate
WO2008141048A1 (en) 2007-05-09 2008-11-20 Nanoink, Inc. Compact nanofabrication apparatus
CA2690823A1 (en) 2007-06-20 2008-12-24 Northwestern University Matrix assisted ink transport
US9061494B2 (en) 2007-07-19 2015-06-23 The Board Of Trustees Of The University Of Illinois High resolution electrohydrodynamic jet printing for manufacturing systems
US8452725B2 (en) 2008-09-03 2013-05-28 Hamid Hatami-Hanza System and method of ontological subject mapping for knowledge processing applications
US9684678B2 (en) 2007-07-26 2017-06-20 Hamid Hatami-Hanza Methods and system for investigation of compositions of ontological subjects
CZ301799B6 (cs) 2007-07-30 2010-06-23 Kencl@Lukáš Zpusob úpravy datové informace v systému
JP2010536555A (ja) 2007-08-20 2010-12-02 ムーア ウォリス ノース アメリカ、 インコーポレーテッド 基材への物質塗布を制御する装置及びその方法
DE102007057802B3 (de) 2007-11-30 2009-06-10 Geneart Ag Steganographische Einbettung von Informationen in kodierenden Genen
JP5171346B2 (ja) 2008-03-28 2013-03-27 株式会社日立ハイテクノロジーズ 文字列検索システム及び方法
BRPI0918426A2 (pt) 2008-09-10 2018-02-14 Datalase Ltd códigos multi-coloridos
US9062218B2 (en) 2008-09-11 2015-06-23 Nagahama Bio-Laboratory Incorporated DNA-containing ink composition
US8769689B2 (en) 2009-04-24 2014-07-01 Hb Gary, Inc. Digital DNA sequence
US8806127B2 (en) 2009-10-26 2014-08-12 Genisyss Llc Data storage device with integrated DNA storage media
US20110269119A1 (en) * 2009-10-30 2011-11-03 Synthetic Genomics, Inc. Encoding text into nucleic acid sequences
US8735327B2 (en) 2010-01-07 2014-05-27 Jeansee, Llc Combinatorial DNA taggants and methods of preparation and use thereof
WO2011150168A1 (en) 2010-05-28 2011-12-01 Gen9, Inc. Methods and devices for in situ nucleic acid synthesis
US20110312654A1 (en) 2010-06-17 2011-12-22 Geneasys Pty Ptd Apparatus for loading oligonucleotide spotting devices and spotting oligonucleotide probes
US9114399B2 (en) 2010-08-31 2015-08-25 Canon U.S. Life Sciences, Inc. System and method for serial processing of multiple nucleic acid assays
CA2815076C (en) 2010-10-22 2021-01-12 Cold Spring Harbor Laboratory Varietal counting of nucleic acids for obtaining genomic copy number information
US10024796B2 (en) 2010-10-29 2018-07-17 President And Fellows Of Harvard College Nucleic acid nanostructure barcode probes
US20120329561A1 (en) 2010-12-09 2012-12-27 Genomic Arts, LLC System and methods for generating avatars and art
LT2705157T (lt) * 2011-05-06 2017-03-10 New England Biolabs, Inc. Ligavimo pagerinimas
KR101345337B1 (ko) 2011-06-13 2013-12-30 한국생명공학연구원 원자간력 현미경(afm)을 이용한 딥-펜 나노리소그래피에서의 단일 또는 다중팁을 이용한 나노포지셔닝 기판 제조장치 및 제조방법
CN103328973B (zh) 2011-07-20 2015-04-01 加利福尼亚大学董事会 双孔装置
JP2015523626A (ja) 2012-05-09 2015-08-13 エーピーディーエヌ (ビー.ブイ.アイ.) インコーポレイテッド デジタル表現およびその認証を用いる物理的暗号化タガントの検証
JP2015529864A (ja) 2012-06-01 2015-10-08 ヨーロピアン モレキュラー バイオロジー ラボラトリーEuropean Molecular Biology Laboratory Dnaでのデジタル情報の高容量記憶
CN108875312A (zh) 2012-07-19 2018-11-23 哈佛大学校长及研究员协会 利用核酸存储信息的方法
US9266370B2 (en) 2012-10-10 2016-02-23 Apdn (B.V.I) Inc. DNA marking of previously undistinguished items for traceability
US8937564B2 (en) 2013-01-10 2015-01-20 Infinidat Ltd. System, method and non-transitory computer readable medium for compressing genetic information
AU2014212152B2 (en) * 2013-02-01 2020-02-06 The Regents Of The University Of California Methods for genome assembly and haplotype phasing
EP2953524B1 (en) 2013-02-06 2018-08-01 Freenome Holdings Inc. Systems and methods for early disease detection and real-time disease monitoring
KR102245192B1 (ko) 2013-05-06 2021-04-29 온테라 인크. 나노포어를 이용한 표적 검출
US9904734B2 (en) 2013-10-07 2018-02-27 Apdn (B.V.I.) Inc. Multimode image and spectral reader
WO2015144858A1 (en) 2014-03-28 2015-10-01 Thomson Licensing Methods for storing and reading digital data on a set of dna strands
US10020826B2 (en) 2014-04-02 2018-07-10 International Business Machines Corporation Generating molecular encoding information for data storage
US20150312212A1 (en) 2014-04-24 2015-10-29 David Holmes Holistic embodiment of dna and ipv6
EP2958238A1 (en) 2014-06-17 2015-12-23 Thomson Licensing Method and apparatus for encoding information units in code word sequences avoiding reverse complementarity
KR101788673B1 (ko) 2014-06-24 2017-11-15 싸이퍼롬, 인코퍼레이티드 핵산염기서열 보안 방법, 장치 및 이를 저장한 기록매체
US20170218228A1 (en) 2014-07-30 2017-08-03 Tufts University Three Dimensional Printing of Bio-Ink Compositions
WO2016015701A1 (de) 2014-07-31 2016-02-04 Schebo Biotech Ag Vorrichtung zur bioanalytik, deren herstellung und verfahren zum nachweis von bioanalyten mittels der vorrichtung
EP2983297A1 (en) 2014-08-08 2016-02-10 Thomson Licensing Code generation method, code generating apparatus and computer readable storage medium
KR101990223B1 (ko) 2014-09-03 2019-06-17 난트헬쓰, 인코포레이티드 합성 게놈 변형-기반의 보안 트랜잭션 디바이스들, 시스템들 및 방법들
SG11201703138RA (en) 2014-10-18 2017-05-30 Girik Malik A biomolecule based data storage system
CA2965380A1 (en) * 2014-10-22 2016-04-28 The Governors Of The University Of Alberta Genetic encoding of chemical post-translational modification for phage-displayed libraries
US20170363953A1 (en) 2014-11-03 2017-12-21 Universität Osnabrück Device for carrying out a capillary nanoprinting method, a method for carrying out capillary nanoprinting using the device, products obtained according to the method and use of the device
EP3221341B1 (en) 2014-11-20 2020-07-29 Cytonics Corporation Therapeutic variant alpha-2-macroglobulin compositions
US11164661B2 (en) * 2015-04-10 2021-11-02 University Of Washington Integrated system for nucleic acid-based storage and retrieval of digital data using keys
US10385387B2 (en) * 2015-04-20 2019-08-20 Pacific Biosciences Of California, Inc. Methods for selectively amplifying and tagging nucleic acids
WO2016182814A2 (en) 2015-05-08 2016-11-17 Illumina, Inc. Cationic polymers and method of surface application
US10423341B1 (en) 2015-06-12 2019-09-24 Bahram Ghaffarzadeh Kermani Accurate and efficient DNA-based storage of electronic data
US9898579B2 (en) 2015-06-16 2018-02-20 Microsoft Technology Licensing, Llc Relational DNA operations
CN108026557A (zh) 2015-07-13 2018-05-11 哈佛学院董事及会员团体 使用核酸用于可检索信息储存的方法
US11512347B2 (en) 2015-09-22 2022-11-29 Twist Bioscience Corporation Flexible substrates for nucleic acid synthesis
US20170093851A1 (en) 2015-09-30 2017-03-30 Aetna Inc. Biometric authentication system
WO2017082978A1 (en) 2015-11-13 2017-05-18 SoluDot LLC Method for high throughput dispensing of biological samples
US10566077B1 (en) 2015-11-19 2020-02-18 The Board Of Trustees Of The University Of Illinois Re-writable DNA-based digital storage with random access
US10047235B2 (en) 2015-12-08 2018-08-14 Xerox Corporation Encoding liquid ink with a device specific biomarker
WO2017106777A1 (en) * 2015-12-16 2017-06-22 Fluidigm Corporation High-level multiplex amplification
US10640822B2 (en) 2016-02-29 2020-05-05 Iridia, Inc. Systems and methods for writing, reading, and controlling data stored in a polymer
WO2017151195A1 (en) 2016-02-29 2017-09-08 The Penn State Research Foundation Nucleic acid molecular diagnosis
US10438662B2 (en) 2016-02-29 2019-10-08 Iridia, Inc. Methods, compositions, and devices for information storage
US10883140B2 (en) 2016-04-21 2021-01-05 President And Fellows Of Harvard College Method and system of nanopore-based information encoding
US11514331B2 (en) 2016-04-27 2022-11-29 Massachusetts Institute Of Technology Sequence-controlled polymer random access memory storage
KR20230047506A (ko) 2016-05-02 2023-04-07 엔코디아, 인코포레이티드 암호화 핵산을 사용한 거대분자 분석
US10839295B2 (en) 2016-05-04 2020-11-17 Bgi Shenzhen Method for using DNA to store text information, decoding method therefor and application thereof
EP3478852B1 (en) 2016-07-01 2020-08-12 Microsoft Technology Licensing, LLC Storage through iterative dna editing
JP2019521713A (ja) 2016-07-22 2019-08-08 ヌクレオトレイス プロプライアタリー リミティド 核酸配列の増幅方法
WO2018017131A1 (en) 2016-07-22 2018-01-25 Hewlett-Packard Development Company, L.P. Method of preparing test samples
EP3509848A4 (en) 2016-09-08 2020-06-03 Thomas Villwock METHODS AND SYSTEMS FOR AUTHENTICATING GOODS USING ANALYTE-ENCODED SECURITY FLUIDS
WO2018057526A2 (en) 2016-09-21 2018-03-29 Twist Bioscience Corporation Nucleic acid based data storage
US10370246B1 (en) 2016-10-20 2019-08-06 The Board Of Trustees Of The University Of Illinois Portable and low-error DNA-based data storage
US10838939B2 (en) 2016-10-28 2020-11-17 Integrated Dna Technologies, Inc. DNA data storage using reusable nucleic acids
KR102534408B1 (ko) 2016-11-16 2023-05-18 카탈로그 테크놀로지스, 인크. 핵산-기반 데이터 저장
US10650312B2 (en) * 2016-11-16 2020-05-12 Catalog Technologies, Inc. Nucleic acid-based data storage
US10853244B2 (en) 2016-12-07 2020-12-01 Sandisk Technologies Llc Randomly writable memory device and method of operating thereof
US10984029B2 (en) 2016-12-15 2021-04-20 Sap Se Multi-level directory tree with fixed superblock and block sizes for select operations on bit vectors
US10417208B2 (en) 2016-12-15 2019-09-17 Sap Se Constant range minimum query
CA3052062A1 (en) 2017-01-10 2018-07-19 Roswell Biotechnologies, Inc. Methods and systems for dna data storage
US10787699B2 (en) 2017-02-08 2020-09-29 Microsoft Technology Licensing, Llc Generating pluralities of primer and payload designs for retrieval of stored nucleotides
WO2018148458A1 (en) 2017-02-08 2018-08-16 Essenlix Corp. Digital assay
US10793897B2 (en) 2017-02-08 2020-10-06 Microsoft Technology Licensing, Llc Primer and payload design for retrieval of stored polynucleotides
WO2018148257A1 (en) 2017-02-13 2018-08-16 Thomson Licensing Apparatus, method and system for digital information storage in deoxyribonucleic acid (dna)
CN110892485B (zh) 2017-02-22 2024-03-22 特韦斯特生物科学公司 基于核酸的数据存储
US10774379B2 (en) 2017-03-15 2020-09-15 Microsoft Technology Licensing, Llc Random access of data encoded by polynucleotides
US11341459B2 (en) 2017-05-16 2022-05-24 Artentika (Pty) Ltd Digital data minutiae processing for the analysis of cultural artefacts
US11612873B2 (en) 2017-05-31 2023-03-28 Molecular Assemblies, Inc. Homopolymer encoded nucleic acid memory
US10742233B2 (en) 2017-07-11 2020-08-11 Erlich Lab Llc Efficient encoding of data for storage in polymers such as DNA
WO2019046768A1 (en) 2017-08-31 2019-03-07 William Marsh Rice University SYMBOLIC SEQUENCING OF DNA AND RNA BY SEQUENCE CODING
EP3682449A1 (en) 2017-10-27 2020-07-22 ETH Zurich Encoding and decoding information in synthetic dna with cryptographic keys generated based on polymorphic features of nucleic acids
WO2019094928A1 (en) * 2017-11-10 2019-05-16 Massachusetts Institute Of Technology Microbial production of pure single stranded nucleic acids
KR20200106067A (ko) 2018-01-04 2020-09-10 트위스트 바이오사이언스 코포레이션 Dna 기반 디지털 정보 저장
AU2019233918A1 (en) * 2018-03-15 2020-10-15 Twinstrand Biosciences, Inc. Methods and reagents for enrichment of nucleic acid material for sequencing applications and other nucleic acid material interrogations
KR20200132921A (ko) 2018-03-16 2020-11-25 카탈로그 테크놀로지스, 인크. 핵산-기반 데이터를 저장하기 위한 화학적 방법들
KR102138864B1 (ko) 2018-04-11 2020-07-28 경희대학교 산학협력단 Dna 디지털 데이터 저장 장치 및 저장 방법, 그리고 디코딩 방법
KR20210029147A (ko) 2018-05-16 2021-03-15 카탈로그 테크놀로지스, 인크. 핵산-기반 데이터를 저장하기 위한 조성물 및 방법
KR20210031429A (ko) 2018-05-16 2021-03-19 카탈로그 테크놀로지스, 인크. Dna 데이터 저장을 위한 프린터 피니셔 시스템
CA3108400A1 (en) 2018-08-03 2020-02-06 Catolog Technologies, Inc. Systems and methods for storing and reading nucleic acid-based data with error protection
GB201821155D0 (en) 2018-12-21 2019-02-06 Oxford Nanopore Tech Ltd Method
US10956806B2 (en) 2019-06-10 2021-03-23 International Business Machines Corporation Efficient assembly of oligonucleotides for nucleic acid based data storage
US10917109B1 (en) 2020-03-06 2021-02-09 Centre National De La Recherche Scientifique Methods for storing digital data as, and for transforming digital data into, synthetic DNA

Also Published As

Publication number Publication date
CA3094077A1 (en) 2019-09-19
JP7364604B2 (ja) 2023-10-18
US11286479B2 (en) 2022-03-29
EP3766077A4 (en) 2021-12-08
US20210079382A1 (en) 2021-03-18
AU2019236289A1 (en) 2020-10-08
JP2021518164A (ja) 2021-08-02
JP2024012305A (ja) 2024-01-30
EP3766077A1 (en) 2021-01-20
US20240026347A1 (en) 2024-01-25
US20230026655A1 (en) 2023-01-26
WO2019178551A1 (en) 2019-09-19

Similar Documents

Publication Publication Date Title
US11379729B2 (en) Nucleic acid-based data storage
US20230376787A1 (en) Nucleic acid-based data storage
JP7364604B2 (ja) 核酸ベースのデータ記憶のための化学的方法
US11227219B2 (en) Compositions and methods for nucleic acid-based data storage
US20230308275A1 (en) Nucleic acid storage for blockchain and non-fungible tokens
KR20230074153A (ko) 온도 제어 유체 반응 시스템
KR20230160898A (ko) 고정 소수점 숫자 표현 및 계산 회로
WO2023177864A1 (en) Combinatorial enumeration and search for nucleic acid-based data storage
WO2023168085A1 (en) Dna microarrays and component level sequencing for nucleic acid-based data storage and processing

Legal Events

Date Code Title Description
A201 Request for examination