KR20230074153A - 온도 제어 유체 반응 시스템 - Google Patents

온도 제어 유체 반응 시스템 Download PDF

Info

Publication number
KR20230074153A
KR20230074153A KR1020237010197A KR20237010197A KR20230074153A KR 20230074153 A KR20230074153 A KR 20230074153A KR 1020237010197 A KR1020237010197 A KR 1020237010197A KR 20237010197 A KR20237010197 A KR 20237010197A KR 20230074153 A KR20230074153 A KR 20230074153A
Authority
KR
South Korea
Prior art keywords
nucleic acid
identifier
channel
pad
identifiers
Prior art date
Application number
KR1020237010197A
Other languages
English (en)
Inventor
나다니엘 로케
션 밈
Original Assignee
카탈로그 테크놀로지스, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 카탈로그 테크놀로지스, 인크. filed Critical 카탈로그 테크놀로지스, 인크.
Publication of KR20230074153A publication Critical patent/KR20230074153A/ko

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L3/00Containers or dishes for laboratory use, e.g. laboratory glassware; Droppers
    • B01L3/50Containers for the purpose of retaining a material to be analysed, e.g. test tubes
    • B01L3/502Containers for the purpose of retaining a material to be analysed, e.g. test tubes with fluid transport, e.g. in multi-compartment structures
    • B01L3/5027Containers for the purpose of retaining a material to be analysed, e.g. test tubes with fluid transport, e.g. in multi-compartment structures by integrated microfluidic structures, i.e. dimensions of channels and chambers are such that surface tension forces are important, e.g. lab-on-a-chip
    • B01L3/502769Containers for the purpose of retaining a material to be analysed, e.g. test tubes with fluid transport, e.g. in multi-compartment structures by integrated microfluidic structures, i.e. dimensions of channels and chambers are such that surface tension forces are important, e.g. lab-on-a-chip characterised by multiphase flow arrangements
    • B01L3/502784Containers for the purpose of retaining a material to be analysed, e.g. test tubes with fluid transport, e.g. in multi-compartment structures by integrated microfluidic structures, i.e. dimensions of channels and chambers are such that surface tension forces are important, e.g. lab-on-a-chip characterised by multiphase flow arrangements specially adapted for droplet or plug flow, e.g. digital microfluidics
    • B01L3/502792Containers for the purpose of retaining a material to be analysed, e.g. test tubes with fluid transport, e.g. in multi-compartment structures by integrated microfluidic structures, i.e. dimensions of channels and chambers are such that surface tension forces are important, e.g. lab-on-a-chip characterised by multiphase flow arrangements specially adapted for droplet or plug flow, e.g. digital microfluidics for moving individual droplets on a plate, e.g. by locally altering surface tension
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L7/00Heating or cooling apparatus; Heat insulating devices
    • B01L7/52Heating or cooling apparatus; Heat insulating devices with provision for submitting samples to a predetermined sequence of different temperatures, e.g. for treating nucleic acid samples
    • B01L7/525Heating or cooling apparatus; Heat insulating devices with provision for submitting samples to a predetermined sequence of different temperatures, e.g. for treating nucleic acid samples with physical movement of samples between temperature zones
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2200/00Solutions for specific problems relating to chemical or physical laboratory apparatus
    • B01L2200/02Adapting objects or devices to another
    • B01L2200/026Fluid interfacing between devices or objects, e.g. connectors, inlet details
    • B01L2200/027Fluid interfacing between devices or objects, e.g. connectors, inlet details for microfluidic devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2200/00Solutions for specific problems relating to chemical or physical laboratory apparatus
    • B01L2200/06Fluid handling related problems
    • B01L2200/0647Handling flowable solids, e.g. microscopic beads, cells, particles
    • B01L2200/0668Trapping microscopic beads
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2200/00Solutions for specific problems relating to chemical or physical laboratory apparatus
    • B01L2200/06Fluid handling related problems
    • B01L2200/0673Handling of plugs of fluid surrounded by immiscible fluid
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2300/00Additional constructional details
    • B01L2300/06Auxiliary integrated devices, integrated components
    • B01L2300/0627Sensor or part of a sensor is integrated
    • B01L2300/0645Electrodes
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2300/00Additional constructional details
    • B01L2300/16Surface properties and coatings
    • B01L2300/161Control and use of surface tension forces, e.g. hydrophobic, hydrophilic
    • B01L2300/165Specific details about hydrophobic, oleophobic surfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2300/00Additional constructional details
    • B01L2300/18Means for temperature control
    • B01L2300/1805Conductive heating, heat from thermostatted solids is conducted to receptacles, e.g. heating plates, blocks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2300/00Additional constructional details
    • B01L2300/18Means for temperature control
    • B01L2300/1805Conductive heating, heat from thermostatted solids is conducted to receptacles, e.g. heating plates, blocks
    • B01L2300/1816Conductive heating, heat from thermostatted solids is conducted to receptacles, e.g. heating plates, blocks using induction heating
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2300/00Additional constructional details
    • B01L2300/18Means for temperature control
    • B01L2300/1805Conductive heating, heat from thermostatted solids is conducted to receptacles, e.g. heating plates, blocks
    • B01L2300/1822Conductive heating, heat from thermostatted solids is conducted to receptacles, e.g. heating plates, blocks using Peltier elements
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2300/00Additional constructional details
    • B01L2300/18Means for temperature control
    • B01L2300/1805Conductive heating, heat from thermostatted solids is conducted to receptacles, e.g. heating plates, blocks
    • B01L2300/1827Conductive heating, heat from thermostatted solids is conducted to receptacles, e.g. heating plates, blocks using resistive heater
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2400/00Moving or stopping fluids
    • B01L2400/04Moving fluids with specific forces or mechanical means
    • B01L2400/0403Moving fluids with specific forces or mechanical means specific forces
    • B01L2400/0415Moving fluids with specific forces or mechanical means specific forces electrical forces, e.g. electrokinetic
    • B01L2400/0427Electrowetting
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2400/00Moving or stopping fluids
    • B01L2400/04Moving fluids with specific forces or mechanical means
    • B01L2400/0403Moving fluids with specific forces or mechanical means specific forces
    • B01L2400/043Moving fluids with specific forces or mechanical means specific forces magnetic forces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2400/00Moving or stopping fluids
    • B01L2400/04Moving fluids with specific forces or mechanical means
    • B01L2400/0475Moving fluids with specific forces or mechanical means specific mechanical means and fluid pressure
    • B01L2400/0487Moving fluids with specific forces or mechanical means specific mechanical means and fluid pressure fluid pressure, pneumatics
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2400/00Moving or stopping fluids
    • B01L2400/04Moving fluids with specific forces or mechanical means
    • B01L2400/0475Moving fluids with specific forces or mechanical means specific mechanical means and fluid pressure
    • B01L2400/0487Moving fluids with specific forces or mechanical means specific mechanical means and fluid pressure fluid pressure, pneumatics
    • B01L2400/049Moving fluids with specific forces or mechanical means specific mechanical means and fluid pressure fluid pressure, pneumatics vacuum

Landscapes

  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Clinical Laboratory Science (AREA)
  • Dispersion Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Hematology (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Physical Or Chemical Processes And Apparatus (AREA)
  • Control Of Temperature (AREA)

Abstract

본 발명은 소스 저장소, 소스 저장소와 유체 연통하는 입력 채널 및 메인 채널을 포함하는 화학 반응을 실행하기 위한 방법 및 시스템을 개시한다. 입력 채널은 소스 저장소에서 메인 채널로 반응 부피를 분배하도록 구성된다. 메인 채널은 전기습윤을 통해 복수의 액적로서 반응 부피를 전달하도록 구성된 메인 채널의 내부 표면 상의 복수의 패드를 포함한다. 상기 시스템은 메인 채널에서 풀로 복수의 액적을 수용하도록 구성된 목적지 저장소를 포함한다.

Description

온도 제어 유체 반응 시스템
본 출원은 2020년 9월 22일에 출원된 미국 임시특허출원 제 63/081,666호의 이익 및 우선권을 주장하며, 이 출원의 전체 내용은 참조로 여기에 포함된다.
PCR(Polymerase Chain Reaction)과 같이 여러 단계의 온도를 필요로 하는 화학 반응은 비효율적인 열 전달로 인해 대규모로 수행하기 어렵다. PCR의 경우 반응은 일반적으로 1밀리리터 미만의 부피(일반적으로 250마이크로리터)를 담는 작고 특수화된 튜브(PCR 튜브)에서 수행된다. 종래의 PCR 수행 시스템은 온도 조절 시스템에 연결된 열전도 챔버를 이용하여 PCR 튜브를 가열 및 냉각하도록 구성된 열순환기(thermocycler)이다. 대용량 반응에서 PCR을 수행하기 위해 사용자는 대용량 반응을 여러 PCR 튜브로 분할하고 처리량이 많은 열순환기를 사용하여 동시에 PCR을 수행할 수 있다.
일반적으로 이러한 고처리량 열순환기는 여러 튜브를 위한 여러 챔버를 가지고 있으며 최대 약 10ml(mL)의 총 부피(모든 PCR 튜브에 대해 합산됨)를 처리할 수 있다. 이것은 96개의 챔버가 있고 각 챔버가 100마이크로리터(uL)의 반응 부피로 튜브의 온도를 동적으로 제어하도록 구성된 시스템을 가정한다. 각 튜브에 더 많은 양을 로드할 수 있지만 열 전달 효율이 감소하여 반응에 악영향을 미친다. 따라서 이 기존 시스템은 반응의 총 부피가 클수록 더 많은 튜브를 수용하기 위해 시스템이 더 병렬화되어야 하기 때문에 잘 확장되지 않는다. 이 시스템을 사용하여 1리터 이상의 반응 부피로 확장하는 것은 수만 개의 챔버가 있는 매우 큰 장비가 필요하기 때문에 비실용적이다.
열순환기는 반응이 일어나는 챔버의 온도를 동적으로 제어하는 반면, 다른 시스템은 서로 다른 온도로 설정된 챔버 또는 위치 사이에서 반응을 이동하는 데 의존한다. 이러한 시스템의 일 실시예는 챔버로서 수조를 사용하고 반응 부피를 유지하기 위한 대형 튜브 또는 용기를 사용한다. 그런 다음 큰 반응은 서로 다른 온도의 수조 간에 전달된다. 예를 들어, PCR의 경우 한 수조는 이중 가닥 DNA를 녹이기 위해 섭씨 95도(ºC)로 고정하고, 한 수조는 프라이머 어닐링을 위해 55ºC로 고정하며, 다른 수조는 중합 효소로 프라이머를 연장하기 위해 72ºC로 고정할 수 있다. 반응 부피는 이러한 수조에서 여러 번 순환될 수 있다. 이러한 시스템은 물리적으로 큰 반응 부피를 수용할 수 있지만 여전히 반응 부피가 증가함에 따라 열 전달 효율이 감소한다고 가정한다. 이러한 시스템은 확장이 잘 되지 않으며 최대 1리터의 용량에 대해서도 비실용적이다.
이러한 형태의 대체 시스템은 미세유체를 활용한다. 이러한 시스템에서 반응 부피는 좁은 미세유체 채널을 통해 펌프에 의해 구동된다. 채널은 서로 다른 온도로 고정된 위치를 통과하므로 PCR이 가능하다. 반응 부피는 연속 유체로서 미세유체 채널을 통해 이동할 수 있거나, 에멀젼으로서 미세유체 채널을 통해 이동하는 다수의 수성 액적으로 캡슐화될 수 있다. 그러나, 그러한 시스템은 채널을 가로지르는 불균일한 흐름으로 인해 어려움을 겪을 수 있으며, 그에 따라 반응 부피의 부정확하거나 일관되지 않은 온도 제어를 초래할 수 있다.
핵산 디지털 데이터 스토리지는 데이터를 자기 테이프나 하드 드라이브 스토리지 시스템보다 높은 밀도로 저장하여 장기간 정보를 암호화하고 저장하기 위한 안정적인 접근 방식이다. 또한 차갑고 건조한 조건에서 저장된 핵산 분자에 저장된 디지털 데이터는 60,000년 이상 후에 검색할 수 있다.
핵산 분자에 저장된 디지털 데이터에 액세스하기 위해 핵산 분자를 시퀀싱할 수 있다. 이와 같이 핵산 디지털 데이터 스토리지는 자주 액세스하지 않지만 대량의 정보를 장기간 저장하거나 보관할 수 있는 데이터를 저장하는 이상적인 방법일 수 있다.
현재의 방법은 디지털 정보(예를 들어, 이진 코드)를 염기별 핵산 서열로 인코딩하는 것에 의존하여, 서열의 염기 대 염기 관계가 디지털 정보(예를 들어, 이진 코드)로 직접 변환되도록 한다. 디지털 방식으로 인코딩된 정보의 비트스트림 또는 바이트로 읽을 수 있는 염기별 서열에 저장된 디지털 데이터의 시퀀싱은 오류가 발생하기 쉽고 인코딩하는 데 비용이 많이 들 수 있다. 핵산 디지털 데이터 저장을 수행하는 새로운 방법에 대한 기회는 비용이 적게 들고 상업적으로 구현하기 쉬운 데이터 인코딩 및 검색을 위한 접근 방식을 제공할 수 있다.
본 명세서에 기술된 기술은 예를 들어 여러 온도 단계를 사용하는 시스템의 정밀도나 정확성를 유지하면서 중합효소 연쇄 반응을 대량으로 확장하는 등 화학 반응을 실행하는 시스템 및 방법을 제공할 수 있다. 상기 시스템의 유용한 응용 분야은 대규모 PCR이다. 이러한 대규모 PCR은 대량의 특정 DNA 서열을 제조하는 데 사용될 수 있다. 또한 대규모 PCR은 대규모 DNA 서열 라이브러리를 증폭하는 데 사용할 수 있다. 이는 파지 디스플레이와 같은 스크리닝에 사용되는 DNA 변이체 라이브러리에 유용할 수 있다. 또 다른 용도는 시퀀싱을 위한 대규모 유전 DNA 라이브러리의 증폭 및 준비를 위한 것일 수 있다. 일부 실시예에서, 본 명세서에 기술된 바와 같은 시스템은 디지털 정보를 인코딩하는 DNA의 대형 라이브러리의 증폭 및 준비를 위해 사용될 수 있다.
한 양태에서, 화학 반응을 실행하기 위한 시스템은 소스 저장소, 소스 저장소와 유체 소통하는 입력 채널 및 메인 채널을 포함한다. 입력 채널은 소스 저장소에서 메인 채널로 반응 부피를 분배하도록 구성된다. 메인 채널은 전기습윤을 통해 복수의 액적로서 반응 부피를 전달하도록 구성된 메인 채널의 내부 표면 상의 복수의 패드를 포함한다. 이 시스템은 메인 채널에서 풀로 복수의 액적을 수용하도록 구성된 목적지 저장소를 포함한다.
일부 실시예에서, 복수의 패드의 각각의 패드는 전극, 유전 물질 및 소수성 표면을 포함한다.
일부 실시예에서, 복수의 패드는 내부 표면 상의 어레이로서 배열되고, 어레이는 어레이의 패드 열을 따라 복수의 액적 중 개별 액적을 전달하도록 구성되며, 여기서 어레이는 복수의 패드 열 및 각각을 포함한다. 패드 열은 메인 채널의 길이를 따라 확장된다. 일부 실시예에서, 복수의 패드 열은 다수의 액적을 병렬로 전달하도록 구성된다. 일부 실시예에서, 시스템은 메인 채널의 내부 표면 위의 높이 h에 위치된 커버 플레이트를 포함하고, 높이 h는 메인 채널을 1차원으로 한정한다.
일부 실시예에서, 메인 채널의 높이 h, 메인 채널의 폭 w, 메인 채널을 통과하는 복수의 액적의 액적 속도 v 및 복수의 액적은 h*w*v*o와 같은 시스템의 유효 유속이 목표 시간에 메인 채널을 통해 소스 저장소의 초기 반응 부피를 이동시키기에 충분하도록 구성된다.
일부 실시예에서, 초기 반응 부피는 약 1리터 이상이고 목표 시간은 약 2시간 이하이다. 일부 구현들에서, 액적 속도 v는 액적 속도가 x*f와 동일하도록 패드 길이 x 및 패드 스위칭 주파수 f에 의해 결정된다.
일부 실시예에서, 복수의 패드는 목표 온도로 설정된 패드 행을 포함한다. 일부 실시예에서 어레이는 여러 대상 온도로 설정된 여러 패드 행을 포함한다. 일부 실시예에서, 각각의 패드 열은 액적이 어레이의 개별 패드 열을 따라 운반될 때 다중 목표 온도에 노출되도록 다중 목표 온도로 설정된 다중 패드 행의 각 패드 행으로부터의 패드를 포함한다.
일부 실시예에서, 어레이는 메인 채널의 길이를 따라 주기적인 온도 패턴을 갖는 패드 행의 패턴을 포함한다. 일부 실시예에서, 패턴은 온도 사이클을 정의하고 어레이는 패턴의 복수의 인스턴스를 포함한다.
일부 실시예에서, 반응 부피는 중합효소 연쇄 반응(PCR) 제형이고, 개별 사이클의 다중 목표 온도는 이중 가닥 DNA를 녹이고, 프라이머를 어닐링하고, 프라이머를 연장하기 위해 구성된다.
일부 실시예에서, 패드 스위칭 주파수 및 온도 사이클의 개별 온도에 대한 패드 행의 수는 개별 액적이 개별 온도에서 목표 기간을 보내도록 설정된다.
일부 실시예에서, 메인 채널의 길이는 패턴 길이에 패턴의 인스턴스 수를 곱한 것만큼 적어도 길다.
일부 실시예에서, 복수의 패드 중 패드는 효소와 접합된다. 일부 실시예에서, 복수의 패드 중 하나의 패드는 효소를 캡쳐하도록 구성된다.
일부 실시예에서, 복수의 액적의 각각의 액적은 자기 비드를 포함하고; 효소는 자기 비드에 부착되고, 패드는 효소가 부착된 자기 비드를 캡쳐하도록 구성된 전자석을 포함한다. 일부 실시예에서, 효소는 폴리머라제이다.
일부 실시예에서, 시스템은 공급원 저장소에서 입력 채널을 통해 메인 채널로 복수의 액적을 운반하도록 구성된 입력 펌프를 포함한다. 일부 실시예에서, 시스템은 주 채널에서 목적지 저장소로 액적을 흡인하도록 구성된 출력 펌프를 포함한다. 일부 실시예에서, 입력 펌프 및 출력 펌프 중 적어도 하나는 다이어프램 펌프, 압력 펌프 또는 연동 펌프 중 하나이다.
일부 실시예에서 소스 저장소는 가압된다. 일부 실시예에서 목적지 저장소는 감압된다. 일부 실시예에서, 목적지 저장소는 반응을 억제하도록 구성된 시약을 추가로 포함한다. 일부 실시예에서 시약은 EDTA이다.
일부 실시예에서 메인 채널은 공기를 포함한다. 일부 실시예에서 기본 채널에는 오일이 포함된다. 일부 실시예에서 반응 부피는 디지털 정보를 인코딩하는 DNA 분자 라이브러리를 포함한다. 일부 실시예에서, 반응 볼륨은 게놈 DNA 라이브러리를 포함한다. 일부 실시예에서, 반응 부피는 스크리닝을 위한 DNA 변이체 라이브러리를 포함한다.
일부 실시예에서, 목적지 저장소는 풀의 적어도 일부를 용기 내로 또는 기판 상으로 분배하도록 구성된 분배기를 포함한다.
일부 실시예에서, 시스템은 메인 채널 및 목적지 저장소와 유체 연통하는 출력 채널을 포함하고, 출력 채널은 메인 채널에서 목적지 저장소로 복수의 액적을 운반하도록 구성된다.
한 양태에서, 디바이스는 전술한 구현 중 임의의 것의 메인 채널을 포함한다.
한 양태에서, 화학 반응을 실행하기 위한 장치는 바닥 표면, 바닥 표면에 배열된 복수의 패드, 바닥 표면의 제 1 단부에 있는 입구, 제 1 단부에 대향하는 바닥 표면의 제 2 단부에 있는 출구; 및 바닥 표면 위의 채널 높이에 위치된 커버를 포함한다. 바닥 표면과 커버는 채널 높이로 특징지어지는 채널을 정의한다.
일부 실시예에서, 복수의 패드의 각각의 패드는 전극, 유전 물질 및 소수성 표면을 포함한다. 일부 실시예에서, 각 패드는 바닥 표면과 커버 사이에 전기장을 생성하도록 구성된다.
일부 구현들에서, 복수의 패드들은 바닥 표면 상에 어레이로서 배열되고, 어레이는 복수의 패드 행들 및 복수의 패드 열들을 포함한다. 일부 실시예에서, 각 패드 열은 각 패드 행과 교차하고 그 반대도 마찬가지이므로 각 패드 열은 각 패드 행의 패드를 포함하고 그 반대도 마찬가지이다.
일부 실시예에서 각 패드 행은 목표 온도에 있다. 일부 실시예에서, 어레이는 다수의 패드 행 세트를 포함하고, 각각의 세트는 목표 온도에 있고 하나 이상의 패드 행을 포함한다. 일부 실시예에서, 어레이는 온도 사이클의 패턴을 포함하고, 각각의 온도 사이클은 복수의 세트를 포함하고, 온도 사이클에서 복수의 세트의 각각의 세트는 상이한 목표 온도를 갖는다.
일부 실시예에서, 채널은 복수의 액적으로서 집합 반응 부피를 포함한다. 일부 실시예에서, 복수의 패드는 입구에서 출구로 액적을 전달하도록 배열되며, 입구에서 출구로의 방향은 채널 높이에 직각이다.
일부 실시예에서, 응집 반응 부피는 디지털 정보를 인코딩하는 DNA 분자 라이브러리, 게놈 DNA 분자 라이브러리, 스크리닝을 위한 DNA 변이체 라이브러리, 또는 RNA 라이브러리 중 하나 이상을 포함한다.
일부 실시예에서, 채널 높이 h, 채널의 폭 w, 채널을 통과하는 복수의 액적의 액적 속도 v, 및 복수의 액적이 차지하는 채널의 평균 부분 부피°중 적어도 하나는 h*w*v*o와 같은 장치의 유효 유속이 목표 시간 내에 채널을 통해 입구에서 출구로 총 반응 부피를 이동시키기에 충분하도록 구성된다.
일부 실시예에서, 복수의 패드 중 패드는 효소와 접합된다. 일부 실시예에서, 복수의 패드 중 하나의 패드는 효소를 캡쳐하도록 구성된다.
일부 실시예에서, 패드는 효소가 부착된 자기 비드를 캡쳐하도록 구성된 전자석을 포함한다. 일부 실시예에서, 효소는 폴리머라제이다.
일부 실시예에서, 장치는 각각의 소스 저장소 및 채널의 입구와 유체 연통하는 입력 채널을 통해 소스 저장소로부터 채널로 초기 반응 부피를 전달하도록 구성된 입력 펌프를 포함한다.
일부 실시예에서, 장치는 채널의 출구 및 목적지 저장소 각각과 유체 연통하는 출력 채널을 통해 유체 또는 입자를 채널에서 목적지 저장소로 전달하도록 구성된 출력 펌프를 포함한다. 일부 실시예에서, 입력 펌프 및 출력 펌프 중 적어도 하나는 다이어프램 펌프, 압력 펌프 또는 연동 펌프 중 하나이다. 일부 실시예에서 채널은 바닥 표면과 커버 사이에 공기를 포함한다. 일부 실시예에서 채널은 바닥 표면과 커버 사이에 오일을 포함한다.
또한, 풀 내의 독특한 핵산 서열의 존재 또는 부재에서 비트 값 정보를 인코딩함으로써, 염기별 합성 없이 핵산(예를 들어, 데옥시리보핵산, DNA) 분자 내의 디지털 정보를 인코딩하는 방법 및 시스템이 개시된다. 고유 핵산 서열로 비트스트림의 각 비트 위치를 지정하고 풀에서 해당 고유 핵산 서열의 존재 또는 부재에 의해 해당 위치에서 비트 값을 지정하는 것을 포함한다. 그러나 보다 일반적으로 개시된 것은 핵산 서열의 고유한 서브세트에 의해 바이트 스트림에서 고유한 바이트를 지정하는 것이다. 조합 게놈 전략(예: 다중 핵산 서열의 조립 또는 핵산 서열의 효소 기반 편집)을 사용하여 염기간 합성 없이 고유한 핵산 서열을 생성하는 방법도 개시되어 있다.
본 발명의 추가적인 측면 및 이점은 본 발명의 예시적인 실시예만이 도시되고 설명되는 다음의 상세한 설명으로부터 당업자에게 쉽게 명백해질 것이다. 이해되는 바와 같이, 본 발명은 다른 실시예 및 상이한 실시예가 가능하며, 그 몇몇 세부사항은 모두 본 발명에서 벗어나지 않고 다양한 명백한 양태에서 수정될 수 있다. 따라서 도면과 설명은 본질적으로 예시적인 것으로 간주되어야 하며 제한적인 것으로 간주되어서는 안 된다.
참조에 의한 편입
본 명세서에 언급된 모든 간행물, 특허 및 특허 출원은 각각의 개별 간행물, 특허 또는 특허 출원이 구체적이고 개별적으로 참고로 포함되는 것으로 표시된 것과 동일한 정도로 본 명세서에 참조로 포함된다. 참조로 포함된 간행물 및 특허 또는 특허 출원이 명세서에 포함된 개시 내용과 모순되는 범위 내에서, 명세서는 이러한 모순되는 자료를 대체 및/또는 우선한다.
본 발명의 신규한 특징은 특히 첨부된 청구범위에 기재되어 있다. 본 발명의 특징 및 장점에 대한 더 나은 이해는 본 발명의 원리가 활용되는 예시적인 실시예를 설명하는 다음의 상세한 설명 및 첨부 도면(또한 "도면" 및 "도")을 참조함으로써 얻어질 것이다.
도 1A 및 도 1B는 치수는 다르지만 동일한 단면적의 채널의 두 가지 예를 개략적으로 도시한다. 채널의 단면은 채널을 통과하는 흐름이 페이지 내부 또는 외부로 이동하는 것으로 해석될 수 있도록 도시되어 있다. 단면에는 높이와 너비 치수가 포함된다. 열은 화살표로 표시된 대로 폭을 따라 채널로 전달된다. 도 1A의 채널은 도 1B에 비해 폭(열원이 있는 곳)을 따라 더 많은 표면을 가지고 있기 때문에, 더 효율적인 열 전달을 경험한다.
도 2A 및 도 2B는 PCR과 같은 대규모 화학 반응을 수행하기 위한 시스템을 개략적으로 도시한 도면이다. 도 2A는 시스템의 측면도를 도시하고, 도 2B는 도 2A로부터의 메인 채널의 조감도를 도시한다. 반응 부피는 소스 저장소(1)에서 시작된다. 부피는 입력 채널(2)을 통해 이동하여 주 채널(3)에 액적 형태로 침착된다. 주 채널은 도 2A에 표시된 대로 높이(h)와 폭(W) 및 길이(L)를 가지며, 도 2B에 표시된 대로 길이(L)를 가진다. 액적은 화살표로 표시된 대로 길이를 따라 패드에서 패드로 메인 채널에서 이동한다. 패드는 전기 습윤을 사용하여 액적의 프로그래밍 가능한 이동을 용이하게 한다. 폭을 따라 여러 줄의 패드를 서로 다른 온도로 구성하여 액적이 주 채널의 길이를 따라 이동할 때 여러 온도 단계에 노출되도록 할 수 있다. 주 채널의 끝에서, 액적은 출력 채널(4)에 의해 목적지 저장소(5)로 흡인된다.
도 3은 2단계 PCR을 수행하도록 설계된 도 2의 메인 채널의 구성을 예시한다. 액적은 화살표 방향으로 주 채널을 따라 이동한다. 음영 처리된 패드 행은 이중 가닥 DNA를 녹이기에 적절한 온도로 구성된다. 음영 처리되지 않은 행은 프라이머 어닐링 및 연장에 적합한 온도로 구성된다. 이 예에서는 전체 용융-어닐-연장 사이클이 8열의 패드 패턴으로 구성되었다. 상기 패턴은 여러 사이클 동안 주 채널을 따라 반복될 수 있다.
도 4A, 도 4B, 및 도 4C는 패드 상의 액적에서 PCR을 수행하기 위한 중합 효소 효소를 구성하기 위한 상이한 전략을 예시한다. 도 4A는 중합효소가 액적 용액의 일부인 예를 보여준다. 이 경우 중합효소는 액적이 패드를 떠날 때 액적과 함께 이동한다. 도 4B는 중합효소가 패드 표면에 테더링된 예를 보여준다. 이 경우 중합효소는 액적이 패드를 떠날 때 액적과 함께 움직이지 않는다. 중합효소는 패드 위로 이동하는 모든 액적에서 활성화된다. 도 4C는 중합효소가 비드에 테더링되어 있고 패드 표면에 대한 비드의 선호도를 켜거(ON)나 끌(OFF) 수 있는 예를 보여준다. 선호도가 꺼져 있으면 중합효소가 액적 용액에 자유롭게 용해되고, 선호도가 켜져 있으면 중합효소가 패드 표면에 고정되어 액적이 패드 밖으로 이동할 때 함께 이동하지 않는다. 상기 구성에서 중합효소는 액적 용액에서 프로그래밍 가능한 방출 및 캡쳐가 가능한다.
도 5는 핵산 서열에 저장된 디지털 정보를 인코딩, 기록, 액세스, 판독 및 디코딩하는 프로세스의 개요를 개략적으로 도시한 도면이다;
도 6A 및 도 6B는 객체 또는 식별자(예를 들어, 핵산 분자)를 사용하여 "주소 데이터"로 지칭되는 디지털 데이터를 인코딩하는 예시적인 방법을 개략적으로 도시한다; 도 6A는 식별자를 생성하기 위해 순위 객체(또는 주소 객체)를 바이트-값 객체(또는 데이터 객체)와 결합하는 것을 도시한다; 도 6B는 순위 객체 및 바이트-값 객체가 다른 객체의 조합적인 결합인 주소 데이터 방법의 실시예를 도시한 다; 도 6C는 순위 객체 및 바이트-값 객체가 그 자체로 서로 결합된 것을 나타낸 다;
도 7A 및 도 7B는 객체 또는 식별자(예를 들어, 핵산 서열)를 사용하여 디지털 정보를 인코딩하는 예시적인 방법을 개략적으로 도시한다; 도 7A는 순위 객체를 식별자로 사용하여 디지털 정보를 인코딩하는 방법을 도시하고; 도 7B는 주소 객체들이 그 자체가 다른 객체들의 조합적 결합인 인코딩 방법의 실시예를 도시하며; 도 7C는 순위 객체들이 다른 객체들의 조합적 결합인 인코딩 방법의 실시예를 도시한다;
도 8은 로그 공간에서, 가능한 식별자들의 조합 공간(C, X축)과 주어진 크기의 정보를 저장하기 위해 구성될 수 있는 식별자들의 평균 수(k, Y축) 사이의 관계에 대한 등고선 플롯을 나타낸다(등고선);
도 9는 핵산 서열(예컨대, 데옥시리보핵산)에 정보를 기록하는 방법의 개요를 개략적으로 도시한다.
도 10A 및 도 10B는 상이한 구성 요소들(예컨대, 핵산 서열)을 조합적으로 조립하여 식별자(예컨대, 핵산 분자)를 구성하는 "제품 체계"라고 하는 예시적인 방법을 예시하고, 도 10A는 제품 체계를 사용하여 구성되는 식별자의 구조를 예시하고, 도 10B는 제품 체계를 사용하여 구성될 수 있는 식별자의 조합 공간의 예를 예시한다;
도 11은 구성 요소(예컨대, 핵산 서열)으로부터 식별자(예컨대, 핵산 분자)를 구성하기 위한 중첩 확장 중합효소 연쇄 반응의 사용을 개략적으로 도시한다;
도 12는 구성 요소(예컨대, 핵산 서열)으로부터 식별자(예컨대, 핵산 분자)를 구성하기 위한 점착성 말단 리결합의 사용을 개략적으로 도시한다;
도 13은 구성 요소(예컨대, 핵산 서열)으로부터 식별자(예컨대, 핵산 분자)를 구성하기 위한 재조합 효소 조립의 사용을 개략적으로 도시한다;
도 14A 및 도 14B는 템플릿 지시 결합을 예시하고, 도 14A는 구성 요소(예컨대, 핵산 서열)으로부터 식별자(예컨대, 핵산 분자)를 구성하기 위한 템플릿 지시 결합의 사용을 개략적으로 예시한다; [0055] 도 14A는 템플릿 지시 결합을 개략적으로 예시하고, 도 14B는 템플릿 지시 결합을 예시한다, 핵산 서열); 도 14B는 하나의 풀링된 템플릿 지시 결합 반응에서 6개의 핵산 서열(예를 들어, 구성 요소)로부터 각각 조합적으로 조립된 256개의 서로 다른 핵산 서열의 사본 수(풍부도)의 히스토그램을 나타낸다;
도 15A, 도 15B, 도 15C, 도 15D, 도 15E, 도 15F 및 도 15G는 순열된 구성 요소(예를 들어, 핵산 서열)로 식별자(예를 들어, 핵산 분자)를 구성하기 위한 "순열 체계"으로 지칭되는 예시적인 방법을 개략적으로 도시한다; 도 15A는 순열 체계를 사용하여 구성된 식별자의 아키텍처를 나타낸다; 도 15B는 순열 체계를 사용하여 구성될 수 있는 식별자의 조합 공간의 예를 도시한다; 도 15C는 템플릿 지시 결합을 갖는 순열 체계의 구현 예시를 도시한다; 도 15D는 순열 및 반복 구성 요소를 갖는 식별자를 구성하기 위해 도 15C의 구현을 어떻게 수정할 수 있는지를 보여주는 예시이다; 도 15E는 도 15D의 구현 예가 핵산 크기 선택에 의해 제거될 수 있는 원치 않는 부산물을 초래할 수 있는 방법을 보여준다; 도 15F는 템플릿 지시 결합 및 크기 선택을 사용하여 순열 및 반복 구성 요소로 식별자를 구성하는 방법의 또 다른 예를 보여준다; 도 15G는 크기 선택이 원치 않는 부산물로부터 특정 식별자를 분리하지 못할 수 있는 경우를 보여주는 예이다;
도 16A, 도 16B, 도 16C 및 도 16D는 [0057] 가능한 구성 요소의 더 큰 수, M 중에서 임의의 수, K의 조립된 구성 요소(예를 들어, 핵산 서열)로 식별자(예를 들어, 핵산 분자)를 구성하는 "MchooseK" 체계로 지칭되는 예시적인 방법을 개략적으로 도시한 도면이다; 도 16A는 MchooseK 체계를 사용하여 구성된 식별자의 아키텍처를 보여준다; 도 16B는 MchooseK 체계를 사용하여 구성될 수 있는 식별자의 조합 공간의 예를 나타낸다; 도 16C는 템플릿 지향 결합을 사용하는 MchooseK 체계의 구현 예시를 보여준다; 도 16D는 도 16C의 예시 구현이 핵산 크기 선택으로 제거될 수 있는 원치 않는 부산물을 초래할 수 있는 방법을 보여준다;
도 17A 및 도 17B는 분할된 구성 요소를 갖는 식별자를 구성하기 위한 "분할 체계"로 지칭되는 예시적인 방법을 개략적으로 도시한다; 도 17A는 분할 체계를 사용하여 구성될 수 있는 식별자의 조합 공간의 예를 도시한다; 도 17B는 템플릿 지시결합을 사용하는 분할 체계의 예시적인 구현을 도시한다;
도 18A 및 도 18B는, 다수의 가능한 구성 요소들로부터 임의의 구성 요소들의 스트링로 구성된 식별자를 구성하기 위한 "제약되지 않은 스트링"(또는 USS) 체계로 지칭되는 예시적인 방법을 개략적으로 도시한다; 도 18A는 USS 체계를 사용하여 구성될 수 있는 식별자의 조합 공간의 예를 도시한다; 도 18B는 템플릿 지시 결합을 사용하는 USS 체계의 예시적인 구현을 도시한다;
도 19A 및 도 19B는 모 식별자로부터 구성 요소를 제거하여 식별자를 구성하기 위한 "구성 요소 삭제"라는 예시적인 방법을 개략적으로 도시한다; 도 19A는 구성 요소 삭제 체계를 사용하여 구성될 수 있는 식별자의 조합 공간의 예를 도시한 다; 도 19B는 이중 가닥 타겟 절단 및 복구를 사용하는 구성 요소 삭제 체계의 구현 예시를 도시다;
도 20은 재조합 효소 인식 부위를 갖는 모 식별자를 개략적으로 도시한 도면으로서, 모 식별자에 재조합 효소를 적용하여 추가 식별자를 구성할 수 있다;
도 21A, 도 21B 및 도 21C는 다수의 식별자로부터 다수의 특정 식별자에 액세스함으로써 핵산 서열에 저장된 정보의 일부에 액세스하기 위한 예시적인 방법의 개요를 개략적으로 도시한다. 도 21A는 특정 구성 요소를 포함하는 식별자에 접근하기 위해 폴리머라제 연쇄 반응, 선호도 태그 프로브 및 분해 타겟화 프로브를 사용하기 위한 예시적인 방법을 보여준다. 도 21B는 다중 특정 구성 요소를 포함하는 식별자에 접근하기 위해 'OR' 또는 'AND' 연산을 수행하기 위해 중합효소 연쇄 반응을 사용하는 예시적인 방법을 보여준다. 도 21C는 다수의 지정된 구성 요소를 포함하는 식별자에 액세스하기 위해 'OR' 또는 'AND' 연산을 수행하기 위해 선호도 태그를 사용하는 예시적인 방법을 도시한다.
도 22A 및 도 22B는 핵산 분자에 인코딩된 데이터를 인코딩, 기록 및 읽기의 예를 도시한다. 도 22A는 5,856비트의 데이터를 인코딩하고, 기록하고, 읽는 예를 나타낸다. 도 22B는 62,824비트의 데이터를 인코딩하고, 기록하고, 읽는 예를 보여준다; 및
도 23은 본 문서에 제공된 방법을 구현하도록 프로그래밍되거나 구성된 컴퓨터 시스템을 도시한다.
도 24는 이중 가닥 구성 요소의 단일 모체 세트로부터 임의의 2개의 선택된 이중 가닥 구성 요소의 예시적인 조립 방식을 보여준다.
도 25는 2개의 올리고, X 및 Y로 만들어진 가능한 접착 말단 구성 요소 구조를 보여준다.
도 26은 15-조각, 점착성 말단 DNA 구성 요소 결합로부터의 qPCR 생성물의 예시적인 겔 전기영동 이미지를 보여준다.
도 27A는 2분, 2.5분, 3분 및 1440분 동안 결합된 15-피스, 6-염기 5' 오버행 DNA 구성 요소 세트의 결합 효율에 대한 예시적인 데이터를 보여준다.
도 27B는 2분, 2.5분, 3분 및 1440분 동안 결합된 15-피스, 6-염기 3' DNA 구성 요소 세트의 결합 효율에 대한 예시적인 데이터를 보여준다.
도 27C는 qPCR 생성물의 예시적인 겔 전기영동 이미지를 보여준다.
도 28A는 오버행 길이에 의해 그룹화된 DNA 구성 요소 쌍에 대한 결합 효율을 나타내는 예시적인 데이터를 보여준다.
도 28B는 오버행 길이에 의해 그룹화된 DNA 구성 요소 쌍에 대한 결합 효율을 나타내는 예시적인 데이터를 보여준다.
도 29A는 GC 함량에 의해 그룹화된 DNA 구성 요소 쌍에 대한 결합 효율을 나타내는 예시적인 데이터를 보여준다.
도 29b는 GC 함량에 의해 그룹화된 DNA 구성 요소 쌍에 대한 결합 효율을 나타내는 예시적인 데이터를 보여준다.
도 30은 다양한 온도에서 T4 리가제로 함께 결합된 4개의 점착성 말단(6-염기, 3' 오버행 포함) DNA 구성 요소의 결합로부터의 예시적인 데이터를 보여준다.
도 31은 다양한 온도에서 T4 리가제로 함께 결합된 4개의 점착성 말단(6-염기, 3' 오버행 포함) DNA 구성 요소의 결합로부터의 예시적인 데이터를 보여준다.
도 32A는 T4 DNA 리가아제와 비교하여 T7 DNA 리가아제의 결합 효율에 대한 예시적인 데이터를 보여준다.
도 32b는 T4 DNA 리가아제와 비교하여 T3 DNA 리가아제의 결합 효율에 대한 예시적인 데이터를 보여준다.
도 33은 다양한 농도에서 이. 콜라이 DNA 리가제의 결합 효율에 대한 예시적인 데이터를 보여준다.
도 34A는 다양한 온도에서 T7 DNA 리가아제와 함께 결합된 4개의 점착성 말단(6-염기, 3' 오버행 포함) DNA 구성 요소의 결합로부터의 예시적인 데이터를 보여준다.
도 34B는 다양한 온도에서 T3 DNA 리가아제와 함께 결합된 4개의 점착성 말단(6-염기, 3' 오버행 포함) DNA 구성 요소의 결합로부터의 예시적인 데이터를 보여준다.
도 35A는 결합 효율에 대한 PEG8000의 효과의 예시적인 데이터를 보여준다.
도 35B는 결합 효율에 대한 PEG6000의 효과의 예시적인 데이터를 보여준다.
도 35C는 결합 효율에 대한 PEG400 효과의 예시적인 데이터를 보여준다.
도 36은 PEG400 또는 PEG6000의 존재 하에 함께 결합된 4개의 점착성 말단(10-염기, 3' 오버행 포함) DNA 구성 요소의 결합로부터의 예시적인 데이터를 보여준다.
도 37은 리가제에 대한 버퍼 QG 또는 EDTA의 효과의 예시적인 qPCR 데이터를 보여준다.
도 38은 Q5, Phusion 및 Taq DNA 중합효소를 사용한 복제의 선형성에 대한 예시적인 데이터를 보여준다.
도 39는 실온에서 4일 동안 저장된 상이한 DNA 샘플의 예시적인 겔 이미지를 보여준다.
도 40은 실온에서 반복적으로 건조 및 재수화되는 DNA에 대한 예시적인 데이터를 보여준다.
도 41은 구축된 점착성 말단 서열의 예시적인 체계를 보여준다.
도 42A는 표 4에 열거된 오버행 서열의 상이한 쌍의 결합로부터의 예시적인 데이터를 보여준다.
도 42B는 표 5에 열거된 오버행 서열의 상이한 쌍의 결합로부터의 예시적인 데이터를 보여준다.
도 43은 표 4 및 표 5에 나열된 오버행의 각 세트로부터의 15개의 오버행의 2백만 서브세트로부터의 패널티 점수를 보여준다.
도 44는 표 7의 마지막 행으로부터의 오버행을 사용하여 16개 DNA 구성 요소의 결합 효율에 대한 예시적인 데이터를 보여준다.
도 45A는 인코딩된 메시지의 341x351 참조 맵(연산 인코딩 후)을 도시한다.
도 45B는 시퀀싱에 의해 결정된 식별자 라이브러리에 존재하는 풍부한 서열의 열 맵(341x351)을 보여준다.
도 46은 도 41A-B에 도시된 바와 같은 전체 인코딩, 기록, 시퀀싱 및 디코딩 프로세스의 중복 실행으로부터의 예시적인 데이터를 보여준다.
도 47A는 시퀀싱에 의해 결정된 바와 같이, 복제된 식별자 라이브러리에 존재하는 서열의 풍부함의 히트 맵(341x351)을 나타낸다. 데이터는 도 45A-B의 메시지를 포함하는 원본 식별자 라이브러리의 복수의 사본을 생성함으로써 얻어졌다.
도 47B는 원본 식별자 라이브러리 대 복제된 식별자 라이브러리의 식별자 사본 번호 사이의 상관 관계를 도시한다.
도 47C는 원본 식별자 라이브러리 대 복제된 식별자 라이브러리에서 식별자 사본 수의 분포를 보여준다.
도 48A는 시퀀싱에 의해 결정된 액세스된 식별자 라이브러리에 존재하는 풍부한 서열의 열 맵(341x351)를 도시한다. 데이터는 도 45A-B로부터의 원본 메시지를 포함하는 식별자 라이브러리의 일부에 액세스함으로써 얻어졌다.
도 48B는 원래 라이브러리의 식별자 사본 번호 대 액세스된 식별자 라이브러리 사이의 상관관계를 보여준다.
도 48C는 원래 식별자 라이브러리 대 액세스된 식별자 라이브러리에서 식별자 사본 수의 분포를 보여준다.
도 49A는 시퀀싱에 의해 결정된 바와 같이 2x 액세스된 식별자 라이브러리에 존재하는 풍부함의 히트 맵(341x351)을 보여준다. 데이터는 도 48A-C로부터 액세스된 식별자 라이브러리의 하위 부분에 추가로 액세스함으로써 획득되었다.
도 49B는 원래 라이브러리의 식별자 사본 수 대 2x 액세스된 식별자 라이브러리 사이의 상관관계를 보여준다.
도 49C는 원래 식별자 라이브러리 대 2x 액세스된 식별자 라이브러리에서 식별자 사본 수의 분포를 보여준다.
도 50A는 시퀀싱에 의해 결정된 바와 같이, 저장된 식별자 라이브러리에 존재하는 서열의 풍부도에 대한 히트 맵(341x351)을 나타낸다. 데이터는 도 45A-B의 메시지를 나타내는 원래의 식별자 라이브러리를 100°C에서 4일 동안 저장한 후 얻은 것이다.
도 50B는 원본 식별자 라이브러리 대 복제된 식별자 라이브러리의 식별자 사본 번호 사이의 상관 관계를 도시한다.
도 50C는 원본 식별자 라이브러리 대 복제된 식별자 라이브러리에서 식별자 사본 수의 분포를 보여준다.
도 51A는 75.1 ℃ 에서 8일 동안 배양된 DNA 샘플에 대한 예시적인 데이터를 보여준다.
도 51B는 84.4℃에서 8일간 배양된 DNA 샘플에 대한 예시적인 데이터를 나타낸다.
도 51C는 90.2℃에서 8일간 배양된 DNA 샘플에 대한 예시적인 데이터를 나타낸다.
도 51D는 95.0℃에서 8일간 배양된 DNA 샘플에 대한 예시적인 데이터를 나타낸다.
도 52는 글리세롤의 다양한 양(부피당 부피 퍼센트 기준)과 함께 결합된 4개의 점착성 말단(6염기, 3' 오버행 포함) DNA 구성 요소의 결합에 대한 예시적인 데이터를 나타낸다.
본 발명의 다양한 실시예가 여기에서 도시되고 설명되었지만, 이러한 실시예는 단지 예로서 제공된다는 것이 당업자에게 명백할 것이다. 본 발명에서 벗어남이 없이 당업자에게는 다양한 변형, 변경 및 대체가 발생할 수 있다. 본 명세서에 기술된 본 발명의 실시예에 대한 다양한 대안이 채용될 수 있음을 이해해야 한다.
본 명세서에서 "기호"라는 용어는 일반적으로 디지털 정보의 단위를 나타내는 것을 의미한다. 디지털 정보는 일련의 기호로 분할되거나 변환될 수 있다. 예를 들어, 기호는 비트일 수 있고 비트는 '0' 또는 '1'의 값을 가질 수 있다.
본 명세서에서 사용되는 "구별된" 또는 "유일한"이라는 용어는 일반적으로 그룹 내의 다른 객체들과 구별될 수 있는 객체를 지칭한다. 예를 들어, 별개의 또는 고유한 핵산 서열은 임의의 다른 핵산 서열과 동일한 서열을 갖지 않는 핵산 서열일 수 있다. 별개의 또는 고유한 핵산 분자는 다른 핵산 분자와 동일한 서열을 가질 수 없다. 구별되거나 고유한 핵산 서열 또는 분자는 다른 핵산 서열 또는 분자와 유사한 영역을 공유할 수 있다.
본 명세서에서 사용되는 용어 "구성 요소"는 일반적으로 핵산 서열을 의미한다. 구성 요소는 별개의 핵산 서열일 수 있다. 구성 요소는 다른 핵산 서열 또는 분자를 생성하기 위해 하나 이상의 다른 구성 요소와 연결되거나 조립될 수 있다.
본 명세서에서 사용되는 "계층"이라는 용어는 일반적으로 구성 요소의 그룹 또는 풀을 의미한다. 각각의 층은 하나의 층의 구성 요소가 다른 층의 구성 요소와 상이하도록 별개의 구성 요소 세트를 포함할 수 있다. 하나 이상의 레이어에서 구성 요소를 조립하여 하나 이상의 식별자를 생성할 수 있다.
본 명세서에서 사용되는 용어 "식별자"는 일반적으로 더 큰 비트열 내에서 비트열의 위치 및 값을 나타내는 핵산 분자 또는 핵산 서열을 지칭한다. 보다 일반적으로, 식별자는 일련의 기호에서 기호를 나타내거나 해당 기호에 해당하는 모든 객체를 가리킬 수 있다. 일부 실시예에서, 식별자는 하나 또는 다수의 연결된 구성 요소를 포함할 수 있다.
본 명세서에서 사용되는 "조합 공간"이라는 용어는 일반적으로 구성 요소와 같은 객체의 시작 세트로부터 생성될 수 있는 모든 가능한 구별 식별자 세트 및 식별자를 형성하기 위해 이러한 객체를 수정하는 방법에 대한 허용 가능한 규칙 세트를 의미한다. 구성 요소를 조립하거나 연결하여 만든 식별자의 조합 공간의 크기는 구성 요소의 레이어 수, 각 레이어의 구성 요소 수 및 식별자를 생성하는 데 사용되는 특정 조립 방법에 따라 달라질 수 있다.
본 명세서에서 사용되는 "식별자 순위"라는 용어는 일반적으로 세트에서 식별자의 순서를 정의하는 관계를 의미한다.
본 명세서에서 사용되는 "식별자 라이브러리"라는 용어는 일반적으로 디지털 정보를 나타내는 기호 스트링의 기호에 해당하는 식별자 모음을 의미한다. 일부 실시예에서, 식별자 라이브러리에 주어진 식별자의 부재는 특정 위치에서 기호 값을 나타낼 수 있다. 하나 이상의 식별자 라이브러리를 풀, 그룹 또는 식별자 세트로 결합할 수 있다. 각 식별자 라이브러리에는 식별자 라이브러리를 식별하는 고유 바코드가 포함될 수 있다.
본 명세서에서 사용되는 "핵산"이라는 용어는 일반적으로 데옥시리보핵산(DNA), 리보핵산(RNA) 또는 이의 변형을 지칭한다. 핵산은 아데노신(A), 시토신(C), 구아닌(G), 티민(T) 및 우라실(U) 또는 이들의 변이체 중에서 선택된 하나 이상의 서브유닛을 포함할 수 있다. 뉴클레오타이드는 A, C, G, T 또는 U 또는 이들의 변이체를 포함할 수 있다. 뉴클레오타이드는 성장하는 핵산 가닥에 통합될 수 있는 임의의 서브유닛을 포함할 수 있다. 이러한 서브유닛은 A, C, G, T, 또는 U, 또는 상보적인 A, C, G, T, 또는 U 중 하나에 특이적이거나 퓨린(즉, A 또는 G 또는 이의 변이체) 또는 피리미딘(즉, C, T, 또는 U 또는 이의 변이체)에 상보적인 임의의 다른 서브유닛일 수 있다. 일부 예에서, 핵산은 단일 가닥 또는 이중 가닥일 수 있으며, 일부 경우 핵산은 원형일 수 있다.
본 명세서에서 사용되는 용어 "핵산 분자" 또는 "핵산 서열"은 일반적으로 데옥시리보뉴클레오티드(DNA) 또는 리보뉴클레오티드(RNA) 또는 이들의 유사체와 같은 다양한 길이를 가질 수 있는 중합체 형태의 뉴클레오티드 또는 폴리뉴클레오티드를 지칭한다. "핵산 서열"이라는 용어는 폴리뉴클레오티드의 알파벳 표시를 의미할 수 있다. 대안적으로, 용어는 물리적 폴리뉴클레오티드 자체에 적용될 수 있다. 이러한 알파벳 표현은 중앙 처리 장치가 있는 컴퓨터의 데이터베이스에 입력될 수 있으며 핵산 서열 또는 핵산 분자를 디지털 정보를 인코딩하는 기호 또는 비트에 매핑하는 데 사용할 수 있다. 핵산 서열 또는 올리고뉴클레오티드는 하나 이상의 비표준 뉴클레오티드(들), 뉴클레오티드 유사체(들) 및/또는 변형된 뉴클레오티드를 포함할 수 있다.
본 명세서에서 사용되는 "올리고뉴클레오티드"는 일반적으로 단일 가닥 핵산 서열을 지칭하며, 전형적으로 4개의 뉴클레오티드 염기의 특정 서열로 구성된다: 아데닌(A); 시토신(C); 폴리뉴클레오타이드가 RNA인 경우 구아닌(G) 및 티민(T) 또는 우라실(U).
변형된 뉴클레오티드의 예는 디아미노푸린, 5-플루오르우라실, 5-브로무라실, 5-클로우라실, 5-리오우라실, 하이폭산틴, 잔틴, 4-아세틸시토신, 5-(카르복시하이드록실메틸)우라실, 5-카복시메틸아미노메틸-2-티오우리딘, 5-카복시메틸아미노메틸우라실, 디하이드루라실, 베타-D-갈락토실케오신, 이노신, N6-소펜테닐아데닌, 1-메틸구아닌, 1-메틸이노신, 2,2-디메틸구아닌, 2-메틸아데닌, 2-메틸구아닌, 3-메틸시토신, 5-메틸시토신, N6-아데닌, 7-메틸구아닌, 5-메틸아미노메틸유라실, 5-메톡시아미노메틸-2-티오우라실, 베타-D-만노실케오신, 5'-메톡시카복시메틸우라실, 5-메톡시우라실, 2-메틸티오-D46-이소펜테닐아데닌, 우라실-5-옥시아세트산(v), 와이부톡소신, 슈도우라실, 큐오신, 2-티오사이토신, 5-메틸-2-티오우라실, 2-티오우라실, 4-티오우라실, 5-메틸우라실, 우라실-5-옥시아세트산 메틸에스테르, 우라실-5-옥시아세트산(V), 5-메틸-2-티오우라실, 3-(3- 아미노-3-N-2-카복시프로필)우라실,(acp3)w, 2,6-디아미노퓨린 등을 포함하나 이에 제한되지 않는다. 핵산 분자는 또한 염기 모이어티(예를 들어, 상보적 뉴클레오티드와 수소 결합을 형성하는 데 일반적으로 이용 가능한 하나 이상의 원자 및/또는 일반적으로 수소 결합을 형성할 수 없는 하나 이상의 원자)에서 변형될 수 있다. 상보적인 뉴클레오티드 포함), 당 부분 또는 인산염 백본. 핵산 분자는 또한 아미노알릴-dUTP(aa-dUTP) 및 아미노헥실아크릴아미드-dCTP(aha-dCTP)와 같은 아민 변형 그룹을 포함하여 N-하이드록시 숙신이미드 에스테르(NHS)와 같은 아민 반응성 모이어티의 공유 부착을 허용할 수 있다.
본 명세서에서 사용되는 용어 "프라이머"는 일반적으로 PCR(polymerase chain reaction)과 같은 핵산 합성의 출발점 역할을 하는 핵산 가닥을 의미한다. 예를 들어, DNA 샘플을 복제하는 동안 복제를 촉매하는 효소는 DNA 샘플에 부착된 프라이머의 3' 말단에서 복제를 시작하고 반대 가닥을 복사한다. 프라이머 디자인에 대한 세부 사항을 포함하여 PCR에 대한 자세한 내용은 화학적 방법 섹션 D를 참조하라.
본 명세서에서 사용되는 용어 "중합효소" 또는 "중합효소 효소"는 일반적으로 중합효소 반응을 촉매할 수 있는 임의의 효소를 의미한다. 중합효소의 예는 핵산 중합효소를 포함하나 이에 제한되지 않는다. 중합효소는 자연적으로 발생하거나 합성될 수 있다. 중합효소의 예는 Φ29 중합효소 또는 이의 유도체이다. 어떤 경우에는 전사효소 또는 리가아제(즉, 결합 형성을 촉매하는 효소)가 중합효소와 함께 또는 중합효소의 대안으로 사용되어 새로운 핵산 서열을 구성한다. 중합효소의 예로는 DNA 중합효소, RNA 중합효소, 열안정성 중합효소, 야생형 중합효소, 변형된 중합효소, 대장균 DNA 중합효소 I, T7 DNA 중합효소, 박테리오파지 T4 DNA 중합효소 Φ29(phi29) DNA 중합효소, Taq 중합효소, Tth 중합효소, Tli 중합효소, Pfu 중합효소 Pwo 중합효소, VENT 중합효소, DEEPVENT 중합효소, Ex-Taq 중합효소, LA-Taw 중합효소, Sso 중합효소 Poc 중합효소, Pab 중합효소, Mth 중합효소 ES4 중합효소, Tru 중합효소, Tac 중합효소, Tne 중합효소, Tma 중합효소, Tca 중합효소, Tih 중합효소, Tfi 중합효소, Platinum Taq 중합효소, Tbr 중합효소, Tfl 중합효소, Pfutubo 중합효소, Pyrobest 중합효소, KOD 중합효소, Bst 중합효소, Sac 중합효소, 3'에서 5' 엑소뉴클레아제 활성을 갖는 Klenow 단편 중합효소, 및 변종, 수정된 제품 및 그 파생물이 있다. PCR과 함께 사용할 수 있는 추가 중합효소 및 중합효소 특성이 PCR에 미치는 영향에 대한 자세한 내용은 화학적 방법 섹션 D를 참조하라.
용어 "약" 및 "대략"은 상기 용어 뒤에 오는 값의 플러스 또는 마이너스 20% 이내를 의미하는 것으로 이해되어야 한다.
기술, 예를 들어 전기습윤을 활용하여 채널을 통해, 예를 들어 도 1A 및 1B에 도시된 바와 같은 채널을 통해 많은 양의 반응 부피를 이동시키는 시스템이 본 명세서에서 설명된다. 일부 실시예에서 예시 채널은 약 2:1에서 15:1 사이의 폭 대 높이 비율을 가질 수 있다. 일부 실시예에서, 예시 채널은 약 4:1 내지 15:1 사이의 폭 대 높이 비율을 가질 수 있다. 일부 실시예에서, 예시 채널은 약 8:1 내지 15:1 사이의 폭 대 높이 비율을 가질 수 있다. 일부 실시예에서, 예시 채널은 약 2:1 내지 4:1 사이의 폭 대 높이 비율을 가질 수 있다. 유체 펌프와 달리 전기 습윤은 패드 또는 분리된 표면에 전압을 적용하여 정확하고 균일한 유체 이동을 쉽게 가능하게 한다. 패드는 전극, 유전체 및 소수성 표면을 포함할 수 있다. 패드는 패드의 하나 이상의 전기적 특성을 제어하기 위해 제어 시스템에 연결(예를 들어, 전기적으로 연결)될 수 있다. 전기습윤은 인가된 전기장으로 표면의 습윤 특성(예를 들어, 소수성)의 조작을 수반할 수 있다. 습윤 특성을 조작함으로써 액체, 고체 및 제 3의 유체(예: 기체 또는 비혼화성 액체)의 교차점에서 액체 접촉각이 형성된다. 전기습윤은 액적을 형성하고, 액적을 퍼뜨리고, 액적의 모양을 변경하고, 형상 모드 진동을 유도하고, 액적을 분할하고, 표면을 가로질러 액적을 이동하고, 액적을 병합하고 혼합하기 위해 액체 및/또는 액적에 적용될 수 있다.
도 2A 및 도 2B는 소스 저장소, 입력 채널, 메인 채널, 출력 채널 및 대상 저장소를 포함하는 시스템의 예를 도시한다. 도 2A는 시스템의 선형 작업 흐름을 도시한다. 반응 부피는 소스 저장소의 입력 채널을 통해 끌어와 액적 형태로 메인 채널에 분배된다. 액적은 본 명세서에 기술된 바와 같이 패드의 트랙을 따라 메인 채널을 통한 전기습윤을 사용하여 이동된다. 액적은 출력 채널을 통해 주 채널에서 제거되어 대상 저장소로 전송된다.
일부 실시예에서, 반응 볼륨은 입력에서 메인 채널의 패드로 분배된다. 액체는 패드에 축적되어 액적을 형성하고 전기 습윤에 의해 메인 채널을 따라 다른 패드로 이동한다. 이를 통해 새로운 물액적이 그 자리에 형성되고 프로세스가 계속된다. 각 액적은 입력 채널을 통한 디스펜싱 공정과 메인 채널의 전기습윤의 결합된 작용에 의해 형성된다.
도 2B는 메인 채널의 하향식 도면을 도시한다. 메인 채널의 패드는 너비와 길이가 있는 트랙 또는 어레이를 형성한다. 메인 채널의 길이에 따른 패드 라인을 패드 열 또는 "패드 열"이라고 하고, 메인 채널의 폭에 따른 패드 라인을 패드 열 또는 "패드 열"이라고 한다. 예시적인 패드는 전극, 유전체 재료 및 소수성 표면을 포함할 수 있다. 패드는 도 2B에 도시된 바와 같이 정사각형일 수 있다. 또는 직사각형, 삼각형 또는 기타 모양과 같은 다른 모양일 수 있다. 패드는 액적의 형성과 이동을 용이하게 한다. 액적은 예를 들어 프로세서 및 메모리를 포함하는 제어 시스템을 사용하여 예를 들어 프로그래밍 가능한 방식으로 패드에 놓이고 패드에서 패드로 이동할 수 있다. 일부 실시예에서, 시스템은 여러 액적의 움직임을 동시에 조율할 수 있거나 구성하도록 구성된다. 도 2A 및 2B의 예에서, 메인 채널은 액적의 행이 다수의 병렬 패드 열을 따라 동시에 이동할 수 있도록 패드 열을 따라 입력 채널에서 출력 채널로 액적을 이동시키도록 구성된다. 메인 채널 및 패드 어레이는 소프트 리소그래피를 사용하여 폴리디메틸실록산(PDMS)에 형성될 수 있다. 예시적인 구현에서, PDMS 구조는 소수성 유전층으로 코팅된 유리 기판에 부착될 수 있다.
일부 실시예에서, 시스템은 감광성 전극을 포함하는 하나 이상의 패드를 포함한다. 일부 실시예에서, 시스템은 액적이 패드와 커버판 사이에서 흐르도록 각각의 패드 위에 위치된 복수의 투명 전극을 포함하는 커버판을 포함한다. 감광성 전극과 투명 전극은 모두 전력 공급 장치, 예를 들어 교류(AC) 전원 공급 장치에 연결된다. 감광성 전극은(선택적으로) 빛에 노출되어 전기적 연결을 생성하여 국부적인 전기장을 형성할 수 있다. 일부 실시예에서, 하나 이상의 광 "점"이 하나 이상의 감광성 전극으로 향하여 전기 연결을 생성하여 국부적인 전기장을 형성할 수 있다. 다양한 패턴의 빛이 전극/패드 배열에 투사되어 메인 채널 내에서 전기장을 형성할 수 있다. 예를 들어, 디지털 광 프로세서 칩과 하나 이상의 광학 장치를 사용하여 다수의 패드에서 제어된 방식으로 동시에 빛을 투사할 수 있다. 각 액적 내 핵산의 존재로 인해 전하(예: 음전하)를 갖는 액적은 유전영동에 의해 메인 채널을 가로질러 이동될 수 있으며, 액적은 이동하는 전기장을 따라 이동하게 된다. 일부 실시예에서, 실시간 비디오 피드백 제어 장치를 사용하여 복수의 액적을 동시에 이동하고 정밀한 이동 및 제어를 보장할 수 있다.
일부 실시예에서, 메인 채널에는 전기 습윤을 용이하게 하는 커버 플레이트가 있을 수 있다. 메인 채널의 높이는 패드 트랙과 커버 플레이트 사이의 거리입니다. 채널의 높이는 전기 습윤 및 액적에 대한 효율적인 열 전달을 가능하게 하도록 구성될 수 있다. 채널의 높이는 0.1mm에서 10mm 사이일 수 있다. 채널의 높이는 0.5mm에서 5mm 사이일 수 있다. 구현 예시에서는 1mm 높이가 효율적인 열 전달과 전기 습윤 모두에 적합하다. 높이, 폭, 액적 속도는 특정 유량 용량을 지원하도록 구성할 수 있다. 예를 들어 높이가 1mm, 폭이 100mm, 액적 속도가 2mm/s인 경우 시스템의 유량 용량은 1*100*2 = 200mm3/s가 된다. 1mm3 = 1uL로 환산하면 이 수치는 유량 용량은 200uL/s에 해당한다. 메인 채널의 모든 부피가 반응 액적에 의해 채워진 경우 메인 채널을 통과하는 반응 부피의 유량으로 "유속 용량"을 정의할 수 있다. 그러나 실제로 물액적은 서로 떨어져 있어야 하기 때문에 주 채널의 전체 부피를 차지하지 않는다. 물액적이 차지하는 메인 채널의 평균 부분 부피로 "점유"를 정의할 수 있다. 점유를 프로그래밍할 수 있다. 유속 용량이 200 uL/s이고 점유율이 0.5인 경우 유효 유속은 0.5*200 = 100 uL/s이다. 따라서 이 예에서 소스 저장소의 초기 반응 부피가 1L인 경우 시스템은 주 채널을 통해 전체 부피를 실행하는 데 약 10K초 또는 약 2.8시간이 걸린다. 이 기간은 총 볼륨에 따라 선형적으로 확장된다. 따라서 초기 반응 부피 10L는 약 100K초 또는 28시간이 소요된다. 지속 시간은 폭 또는 액적 속도를 증가시켜 줄일 수 있으며, 각각은 지속 시간과 반비례 관계가 있다. 위의 예에서 너비를 200mm로 두 배로 늘리고 속도를 10mm/s로 5배 높이면 초기 반응 부피 10L의 지속 시간이 100K초가 아닌 10K초로 줄어든다. 따라서, 시스템의 유효 유속은 본 명세서에 기술된 다수의 실제 적용을 위한 합리적인 목표 시간 내에 초기 반응 부피, 심지어 큰 반응 부피를 처리하도록 쉽게 구성될 수 있다.
일부 실시예에서, 액적 속도는 패드의 길이 및 스위칭 주파수에 의해 제어될 수 있다. 스위칭 주파수는 액적이 한 패드에서 인접한 패드로 전달될 수 있는 속도이다. 예를 들어, 시스템의 스위칭 주파수가 1Hz(1pad/s)이고 각 패드의 길이가 10mm인 경우 액적 속도는 10mm/s가 된다. 일부 실시예에서 시스템은 0.01Hz와 100Hz 사이의 스위칭 주파수를 가질 수 있다. 일부 실시예에서 시스템은 0.1Hz와 10Hz 사이의 스위칭 주파수를 가질 수 있다. 일부 실시예에서 시스템은 0.5Hz와 5Hz 사이의 스위칭 주파수를 가질 수 있다.
일부 실시예에서, 커버 플레이트 또는 패드 자체의 온도를 제어하여 메인 채널의 다른 부분(예: 하나 이상의 패드 행)이 서로 다른 온도를 갖도록 구성할 수 있다. 예를 들어, 서로 다른 패드 행을 서로 다른 온도로 설정하여 액적이 메인 채널의 길이를 따라 이동함에 따라 일정 시간 동안 서로 다른 온도에 노출되도록 할 수 있다. 이러한 시간은 스위칭 주파수와 특정 온도로 설정된 연속 패드 행의 직렬 수를 통해 제어할 수 있다. 예를 들어, PCR에는 일반적으로 5초와 같이 짧은 시간 동안 고온(예: 95ºC)에서 발생하는 용융 단계가 있다. 한 가지 예로 스위칭 주파수가 0.2/s(0.2Hz)인 경우, 패드 한 줄을 95ºC로 설정하여 메인 채널에서 이 5초 온도 단계를 달성할 수 있다. 또는 스위칭 주파수가 0.4 /s(0.4Hz)인 경우 5초 단계에는 95ºC에서 두 줄의 패드가 연속적으로 필요하다. PCR 반응의 후속 온도 단계는 프라이머 어닐링을 위해 구성될 수 있다. 예를 들어, 0.2 /초의 스위칭 주파수를 가정하면 두 개의 연속 패드 행을 60°C로 설정하여 10초 동안 반응을 60°C에 노출해야 할 수 있다. 중합효소로 프라이머를 연장하려면 후속 온도 단계가 필요할 수 있다. 이는 메인 채널에서도 구성할 수 있다. 예를 들어, 확장 단계에 30초 동안 72°C가 필요하고 스위칭 속도가 0.2/s인 경우, 메인 채널에서 6개의 연속 행을 72°C로 설정하여 이를 달성할 수 있다. 일부 PCR 공식에서는 어닐링과 연장을 단일 온도 단계로 수행할 수 있다. 온도 사이클링은 서로 다른 온도에서 패드 행의 반복 패턴을 설정하여 수행할 수 있다. 메인 채널의 일부에서 온도를 설정하기 위해 하나 이상의 가열 또는 냉각 메커니즘을 사용할 수 있다. 예를 들어, 인덕션 플레이트, 열 다이오드, 펠티에 장치 또는 기타 적합한 열 교환기 중 어느 것이라도 하나 이상의 패드 행에 인접하여 배치되어 하나 이상의 패드 행을 목표 온도로 가열 또는 냉각할 수 있다. 일부 실시예에서, 하나 이상의 가열/냉각 채널은 하나 이상의 패드 행을 따라 배치될 수 있고, 하나 이상의 패드 행을 단열, 가열 또는 냉각하도록 구성된 유체를 흐르도록 구성될 수 있다.
도 3은 2단계 PCR에 대한 예시적인 구성을 도시한다. 이 예에서 PCR 사이클은 8개의 패드 행으로 달성된다. 하나의 패드 행은 용융 온도로 유지되고 그 다음에는 어닐링 및 확장 온도로 유지되는 7개의 패드 행이 이어진다. 그런 다음 8패드 패턴을 여러 주기 동안 반복할 수 있다. 예를 들어, 이 예에서 10주기 PCR 구현은 기본 채널에서 총 80개의 패드 행에 대해 8패드 패턴을 10번 반복하여 수행할 수 있다. 따라서 메인 채널의 길이는 PCR 반응의 주기 수를 제어하는 데 사용할 수 있다. 다른 예로서, 반응 사이클이 예를 들어 5개의 패드 행을 요구한다면, 20개의 PCR 사이클을 위해 100개의 패드 행이 필요하다. 추가 패드 행은 메인 채널의 시작 또는 끝에 통합될 수 있다. 예를 들어, PCR을 사용하면 추가 패드 행이 필요한 첫 번째 주기에서 연장된 용융 단계가 있을 수 있다. 마찬가지로, 추가 패드 행을 필요로 하는 마지막 사이클의 끝에 연장된 확장 단계가 있을 수 있다.
전기습윤에 대한 최신 기술에서는 패드 크기를 줄이고 스위칭 주파수를 높이는 것이 어렵다. 적절하게, 여기에 설명된 시스템은 최신 기술에 비해 작은 패드 크기 또는 높은 스위칭 주파수에 의존하지 않는다. 예를 들어, 메인 채널은 높이 1mm, 폭 80개, 길이 120개 패드로 구성된 3mm x 3mm 패드로 구축할 수 있다. 이 시스템의 2단계 PCR 사이클에는 2-20 또는 20-40 패드 행이 포함될 수 있다. 이 시스템의 2단계 PCR 사이클 예시에는(최소) 12개의 패드 행(예: 용융용 패드 행 2개와 어닐링 및 연장을 위한 패드 행 10개)이 포함될 수 있다. 구현 예시에서 스위칭 주파수는 0.5Hz로, 사이클당 4초의 용융 단계와 24초의 어닐링 및 확장 단계를 구현할 수 있다. 1mm의 메인 채널 높이, 3mm x 3mm의 패드 크기, 0.5Hz의 스위칭 주파수, 1.5mm/s의 액적 속도는 현재의 최신 전기 습윤 기술을 통해 쉽게 달성할 수 있다. 구현 예에서 시스템의 메인 채널은 가로 약 240mm, 세로 약 360mm로 표준 벤치탑에 설치할 수 있을 정도로 작다. 그러나 이 예시 시스템은 1L 이상의 전례 없는 규모의 반응량에 대해 10주기의 PCR을 수행하는 데 사용할 수 있다. 예를 들어, 50%의 점유율에서 유효 유속은 180uL/s이며, 1L PCR 반응의 경우 약 1.5시간이 소요된다.
일부 실시예에서, 소스 저장소 및 표준 저장소는 큰 병 또는 용기, 예를 들어 1ml, 5ml, 10ml 또는 그 이상의 부피를 가진 용기일 수 있다. 예시적인 구현에서, 소스 저장소는 적어도 하나의 입력 채널을 사용하여 메인 채널로 액적의 제어된 증착을 위해 가압될 수 있다. 목적지 저장소는 적어도 하나의 출력 채널을 사용하여 주 채널로부터 액적의 제어된 흡입을 위해 감압될 수 있다. 대안적으로, 하나 이상의 입력 및 출력 채널을 통한 메인 채널로의 증착 및 흡인은 연동 펌프 또는 다이어프램 펌프와 같은 다른 펌프 메커니즘에 의해 제어될 수 있다. 일부 실시예에서, 시스템은 패드 열당 하나의 입력 채널 및 마찬가지로 패드 열당 하나의 출력 채널을 포함할 수 있다. 일부 실시예에서, 시스템은 다중 패드 열에 대한 하나의 입력 채널을 포함할 수 있다. 하나의 입력 채널은 이동되거나 여러 패드 열로 분할되는 액적을 증착할 수 있다. 일부 실시예에서 하나의 출력 채널은 여러 패드 열에서 액적을 집계할 수 있다. 일 실시예에서, 메인 채널은 공기로 채워질 수 있다. 일부 실시예에서, 메인 채널은 안정적인 액적 형성을 제공하는 오일 또는 다른 액체 물질로 채워질 수 있다.
일부 실시예에서, 전체 반응 제형이 혼합되어 소스 저장소에 로딩될 수 있다. 예를 들어, PCR에서 중합효소, dNTP, 반응 완충액 및 주형 DNA의 조합이 소스 저장소에 로드될 수 있다. 일부 실시예에서, 메인 채널은 특정 반응 요소의 활성화를 가능하게 하도록 구성될 수 있다. 예를 들어, PCR 반응 볼륨은 핫 스타트 폴리머라제를 사용하여 소스 저장소에 로드될 수 있으며 메인 채널의 첫 번째 일련의 패드 행은 폴리머라제를 활성화하기 위해 반응 액적을 가열하도록 구성될 수 있다. 일부 실시예에서, 메인 채널은 반응 구성 요소를 포함하도록 구성될 수 있다. 예를 들어, 폴리머라제와 같은 효소가 각 패드의 표면에 결합될 수 있다. 대안적으로, 효소는 전자기적 메커니즘을 사용하여 패드의 표면에 캡쳐되고 방출될 수 있는 자기 비드에 결합될 수 있다. 예를 들어, 비드 결합 효소는 액적으로 방출될 수 있으며 액적이 패드에서 멀어지기 전에 캡쳐될 수 있다. 예를 들어, 주 채널의 끝에 있는 하나 이상의 캡처 패드 열은 액적이 대상 챔버로 전달되기 전에 모든 비드 및/또는 효소가 캡처되도록 보장하기 위해 사용될 수 있다. 패드에 효소를 유지하는 이러한 메커니즘은 효소 사용량을 줄일 수 있다. 예를 들어, 효소가 반응 부피로 용해될 때 액적이 대상 저장소에 들어갈 때마다 소비된다. 그러나 효소가 패드에 남아 있으면 여러 반응 액적에 재사용할 수 있다. 따라서 반응 액적에 효소를 배치하는 것보다 패드에 효소를 유지하는 것이 더 저렴할 수 있다. 또한, 패드에 효소를 유지하는 것은 여러 온도 단계뿐만 아니라 예를 들어 여러 패드 행이 다른 효소를 유지하는 경우 여러 효소 단계를 포함하는 메인 채널에서 반응을 실행하는 방법을 제공할 수 있다. 예를 들어, 일련의 패드 열에 제한 엔도뉴클레아제 효소를 보유함으로써 핵산 단편화를 위해 제한 분해 단계를 수행할 수 있다. 결합 단계(예를 들어, 점착성 말단 결합 또는 블런트 말단 결합)는 일련의 패드 열에 리가제 효소를 유지함으로써 타겟 핵산에 바코드 핵산을 추가하거나 타겟 핵산을 조합하기 위해 수행될 수 있다. 일부 실시예에서, 패드의 어레이는 특정 효소를 특정 패드 행에 보유하고 각 행에서 온도를 설정함으로써 임의의 지정된 순서로 임의의 수의 PCR, 결합 및 제한 단계를 수행하도록 구성된다.
도 4는 PCR을 위해 폴리머라제를 패드에 보유하는 상이한 방법을 예시한다. 대상 저장소는 EDTA 또는 염과 같은 반응 억제를 위한 추가 구성 요소를 포함할 수 있다. 도 4A는 폴리머라제가 액적 용액의 일부인 예를 예시한다. 이 경우 폴리머라제는 패드를 떠날 때 액적과 함께 움직인다. 도 4b는 중합효소가 패드의 표면에 묶여 있는 예를 예시한다. 이 경우, 폴리머라제는 패드를 떠날 때 액적과 함께 움직이지 않다. 중합효소는 패드 위로 이동하는 모든 액적에서 활성화된다. 도 4C는 중합효소가 비드에 묶여 있고 패드 표면에 대한 비드의 선호도가 ON 또는 OFF로 토글될 수 있는 예를 예시한다. 선호도가 오프(OFF)되면 중합효소는 액적 용액에 자유롭게 용해되고, 선호도가 켜지면 중합효소는 패드 표면에 캡쳐되어 패드에서 떨어질 때 액적과 함께 움직이지 않는다. 이 구성에서 중합효소는 프로그래밍 가능하게 방출되고 액적 용액에서 캡처될 수 있다.
여기에 설명된 시스템은 여러 온도 단계의 정밀도 또는 정확도를 희생하지 않고 대용량 스케일링 반응을 제공할 수 있다. 이 시스템의 유용한 응용 분야은 대규모 PCR이다. 이러한 대규모 PCR은 대량의 특정 DNA 서열을 제조하는 데 사용될 수 있다. 또한 대규모 PCR은 대규모 DNA 서열 라이브러리를 증폭하는 데 사용할 수 있다. 이는 파지 디스플레이와 같은 스크리닝에 사용되는 DNA 변이체 라이브러리에 유용할 수 있다. 또 다른 용도는 시퀀싱을 위한 대규모 유전 DNA 라이브러리의 증폭 및 준비를 위한 것일 수 있다. 일부 실시예에서, 본 명세서에 기술된 바와 같은 시스템은 디지털 정보를 인코딩하는 DNA의 대형 라이브러리의 증폭 및 준비를 위해 사용될 수 있다. 이러한 데이터 인코딩 라이브러리는 염기별 합성 또는 대규모 DNA 조립과 같은 다양한 방법으로 생산할 수 있다. 일부 실시예에서, 그러한 라이브러리는 상업적으로 관련된 양의 정보를 인코딩하고 저장하기 위해(적어도) 수십억 개의 고유한 DNA 서열을 포함할 수 있다. 본원에 기술된 바와 같은 시스템은 전통적인 PCR 시스템에 의해 쉽게 처리될 수 있는 것 이상의 규모로 이러한 라이브러리를 제공하고 처리할 수 있다. 따라서, 본 명세서에 기술된 시스템은 DNA에 대규모 데이터 저장 시스템을 성공적으로 배치하는 데 필수적일 수 있다. 또한, 여기에 제공된 시스템 및 방법은 추가로 증폭될 수 있는 상보적 DNA(cDNA)의 라이브러리를 생성하기 위해 RNA 라이브러리에서 역전사 효소를 사용하는 대규모 역전사 PCR(RT-PCR)에 사용될 수 있다. RNA에 상응하는 유전자 발현을 측정하기 위해 분석하였다. 여기에 제공된 시스템 및 방법의 또 다른 용도는 DNA 결합 염료 및 형광 표지된 서열 특이적 프라이머 또는 프로브를 사용하여 실시간 PCR(qPCR)을 위한 것이다. 이 구현에서 형광 검출 모듈은 증폭이 발생할 때 각 액적의 형광 신호를 모니터링하는 데 사용할 수 있다. 측정된 형광은 앰플리콘의 총량에 비례하며 각 액적의 형광 변화를 시간 경과에 따라 모니터링하여 각 증폭 주기에서 생성된 앰플리콘의 양을 계산할 수 있다.
이러한 라이브러리를 설계하고 생성하기 위한 적합한 시스템 및 방법은 2017년 12월 21일 출원된 "핵산 기반 데이터 스토리지"라는 제목의 미국 특허 번호 10,650,312(DNA의 인코딩 디지털 정보를 설명함); 2019년 5월 16일에 제출되고 미국 공개 번호 2019/0362814로 공개된 "핵산 기반 데이터 스토리지를 위한 시스템"이라는 제목의 미국 출원 번호 16/461,774(DNA 기반 데이터 저장을 위한 인코딩 체계를 설명함); 2019년 5월 16일에 출원되고 미국 공개 번호 2019/0351673으로 공개된 "DNA에 데이터를 저장하는 프린터-피니셔 시스템"이라는 제목의 미국 출원 번호 16/414,752(인코딩된 DNA의 조립을 위한 프린터-피니셔 시스템을 설명함); 미국 출원 번호: 16/414,758 "핵산 기반 데이터 스토리지를 위한 조성물 및 방법, 2019년 5월 16일에 출원되고 미국 공개 번호 2020/0193301로 공개됨(DNA 기반 데이터 저장을 위한 고급 조립 방법 설명); "오류 방지 기능을 갖춘 핵산 기반 데이터를 저장하고 읽기 위한 시스템 및 방법"이라는 제목의 미국 출원 번호 16/532,077, 2019년 8월 5일에 출원되고 미국 공개 번호 2020/0185057로 공개됨(데이터 구조 및 오류 보호 및 수정 설명) DNA 인코딩); 2020년 5월 11일 출원된 "DNA 기반 데이터 스토리지에서 검색, 계산, 인덱싱을 위한 데이터 구조와 오퍼레이션"이라는 제목의 미국 출원 번호 16/872,129(액세스, 순위 및 검색을 위한 데이터 구조 및 작업 설명); 및 2020년 9월 4일에 출원된 "핵산 기반 데이터 스토리지를 위한 화학적 방법"이라는 제목의 미국 출원 번호 17/012,909(암호화된 DNA 조립을 위한 화학적 방법을 설명함), 이들 각각은 그 전문이 본원에 참조로 포함된다.
이진 코드 형태의 컴퓨터 데이터와 같은 디지털 정보는 기호의 서열 또는 스트링을 포함할 수 있다. 이진 코드는 예를 들어 비트라고 하는 두 개의 이진 기호(일반적으로 0과 1)를 갖는 이진수 시스템을 사용하여 텍스트 또는 컴퓨터 프로세서 명령을 인코딩하거나 나타낼 수 있다. 디지털 정보는 이진이 아닌 기호 서열를 포함할 수 있는 이진이 아닌 코드의 형태로 표현될 수 있다. 각 인코딩된 기호는 고유한 비트 스트링(또는 "바이트")에 재할당될 수 있으며 고유한 비트 스트링 또는 바이트는 바이트 또는 바이트 스트림의 스트링로 정렬될 수 있다. 주어진 비트에 대한 비트 값은 두 기호(예: 0 또는 1) 중 하나일 수 있다. N 비트의 스트링을 구성할 수 있는 바이트는 총 2 N의 고유한 바이트 값을 가질 수 있다. 예를 들어, 8비트로 구성된 바이트는 총 2 8 또는 256개의 가능한 고유 바이트 값을 생성할 수 있으며, 256바이트 각각은 바이트로 인코딩할 수 있는 256개의 가능한 고유 기호, 문자 또는 명령 중 하나에 해당할 수 있다. 원시 데이터(예: 텍스트 파일 및 컴퓨터 명령)는 바이트 스트링 또는 바이트 스트림으로 나타낼 수 있다. Zip 파일 또는 원시 데이터를 포함하는 압축 데이터 파일도 바이트 스트림에 저장할 수 있다. 이러한 파일은 압축된 형식의 바이트 스트림으로 저장한 다음 컴퓨터에서 읽기 전에 원시 데이터로 압축을 풀 수 있다.
본 발명의 방법 및 시스템은 컴퓨터 데이터 또는 정보를 복수의 식별자로 인코딩하는 데 사용될 수 있으며, 각각은 원본 정보의 하나 이상의 비트를 나타낼 수 있다. 일부 예에서, 본 발명의 방법 및 시스템은 원래 정보의 2비트를 각각 나타내는 식별자를 사용하여 데이터 또는 정보를 인코딩한다.
디지털 정보를 핵산으로 인코딩하는 이전 방법은 비용과 시간이 많이 소요될 수 있는 핵산의 염기별 합성에 의존했다. 대체 방법은 효율성을 개선하고, 디지털 정보를 인코딩하기 위한 염기별 핵산 합성에 대한 의존도를 줄임으로써 디지털 정보 저장의 상업적 실행 가능성을 개선하고, 모든 새로운 정보 저장 요청에 대해 별개의 핵산 서열의 데노보 합성을 제거할 수 있다.
새로운 방법은 염기별 또는 데노보(de-novo) 핵산 합성(예: 포스포르아미다이트 합성)에 의존하는 대신 구성 요소의 조합 배열을 포함하는 복수의 식별자 또는 핵산 서열에서 디지털 정보(예: 이진 코드)를 인코딩할 수 있다. 이와 같이, 새로운 전략은 정보 저장의 첫 번째 요청에 대해 별개의 핵산 서열(또는 구성 요소)의 첫 번째 세트를 생성할 수 있으며, 이후 후속 정보 저장 요청에 대해 동일한 핵산 서열(또는 구성 요소) 을 재사용할 수 있다. 이러한 접근 방식은 정보-DNA 인코딩 및 기록 프로세스에서 핵산 서열의 데노보 합성 역할을 줄임으로써 DNA 기반 정보 저장 비용을 크게 줄일 수 있다. 또한 각 염기를 각 신장 핵산에 주기적으로 전달할 수 있는 포스포르아미다이트 화학 또는 주형 없는 폴리머라제 기반 핵산 신장과 같은 염기별 합성 구현과 달리 정보를 DNA로 보내는 새로운 방법 구성 요소에서 식별자 구성을 사용하여 작성하는 것은 주기적 핵산 신장을 반드시 사용하지 않는 매우 병렬화 가능한 프로세스이다. 따라서 새로운 방법은 이전 방법에 비해 DNA에 디지털 정보를 기록하는 속도를 높일 수 있다.
핵산 서열(들)에 정보를 암호화하고 기록하는 방법
한 양태에서, 본 발명은 정보를 핵산 서열로 인코딩하는 방법을 제공한다. 정보를 핵산 서열로 인코딩하는 방법은(a) 정보를 일련의 기호로 번역하는 단계,(b) 일련의 기호를 복수의 식별자에 매핑하는 단계, 및(c) 복수의 식별자 중 적어도 하나의 서브세트를 포함하는 식별자 라이브러리를 구성하는 단계를 포함할 수 있다. 복수의 식별자 중 개별 식별자는 하나 이상의 구성 요소를 포함할 수 있다. 하나 이상의 구성 요소의 개별 구성 요소는 핵산 서열을 포함할 수 있다. 기호 스트링의 각 위치에 있는 각 기호는 고유한 식별자에 해당할 수 있다. 개별 식별자는 기호 열의 개별 위치에 있는 개별 기호에 대응할 수 있다. 또한, 기호 스트링의 각 위치에 있는 하나의 기호는 식별자의 부재에 해당할 수 있다. 예를 들어, '0'과 '1'의 이진 기호(예: 비트)의 스트링에서 각 '0'은 식별자의 부재에 해당할 수 있다.
또 다른 양태에서, 본 발명은 핵산 기반 컴퓨터 데이터 저장을 위한 방법을 제공한다. 핵산 기반 컴퓨터 데이터 저장 방법은(a) 컴퓨터 데이터를 수신하는 단계,(b) 컴퓨터 데이터를 인코딩하는 핵산 서열을 포함하는 핵산 분자를 합성하는 단계, 및(c) 핵산 서열을 갖는 핵산 분자를 저장하는 단계를 포함할 수 있다. 컴퓨터 데이터는 각각의 핵산 분자의 서열이 아니라 합성된 핵산 분자의 적어도 서브세트에 암호화될 수 있다.
또 다른 양태에서, 본 발명은 핵산 서열에 정보를 기록하고 저장하는 방법을 제공한다. 이 방법은(a) 정보를 나타내는 가상 식별자 라이브러리를 수신하거나 인코딩하는 단계,(b) 식별자 라이브러리를 물리적으로 구성하는 단계, 및(c) 식별자 라이브러리의 하나 이상의 물리적 사본을 하나 이상의 개별 위치에 저장하는 단계를 포함할 수 있다. 식별자 라이브러리의 개별 식별자는 하나 이상의 구성 요소를 포함할 수 있다. 하나 이상의 구성 요소의 개별 구성 요소는 핵산 서열을 포함할 수 있다.
또 다른 양태에서, 본 발명은 핵산 기반 컴퓨터 데이터 저장을 위한 방법을 제공한다. 핵산 기반 컴퓨터 데이터 저장 방법은(a) 컴퓨터 데이터를 수신하는 단계,(b) 컴퓨터 데이터를 인코딩하는 적어도 하나의 핵산 서열을 포함하는 핵산 분자를 합성하는 단계, 및(c) 다음을 포함하는 핵산 분자를 저장하는 단계를 포함할 수 있다. 적어도 하나의 핵산 서열. 핵산 분자를 합성하는 것은 염기별 핵산 합성이 없을 수도 있다.
또 다른 양태에서, 본 발명은 핵산 서열에 정보를 기록하고 저장하는 방법을 제공한다. 핵산 서열에 정보를 기록하고 저장하는 방법은(a) 정보를 나타내는 가상 식별자 라이브러리를 수신하거나 인코딩하는 단계,(b) 식별자 라이브러리를 물리적으로 구성하는 단계, 및(c) 식별자의 하나 이상의 물리적 사본을 저장하는 단계를 포함할 수 있다. 하나 이상의 별도 위치에 있는 라이브러리. 식별자 라이브러리의 개별 식별자는 하나 이상의 구성 요소를 포함할 수 있다. 하나 이상의 구성 요소의 개별 구성 요소는 핵산 서열을 포함할 수 있다.
도 5는 정보를 핵산 서열로 인코딩하고, 핵산 서열에 정보를 기록하고, 핵산 서열에 기록된 정보를 판독하고, 판독된 정보를 해독하기 위한 개요 프로세스를 예시한다. 디지털 정보 또는 데이터는 하나 이상의 기호 스트링로 변환될 수 있다. 예에서, 기호는 비트이고 각 비트는 '0' 또는 '1'의 값을 가질 수 있다. 각 기호는 해당 기호를 나타내는 개체(예: 식별자)에 매핑되거나 인코딩될 수 있다. 각 기호는 고유한 식별자로 표시될 수 있다. 별개의 식별자는 구성 요소로 구성된 핵산 분자일 수 있다. 구성 요소는 핵산 서열일 수 있다. 디지털 정보는 정보에 해당하는 식별자 라이브러리를 생성하여 핵산 서열에 기록될 수 있다. 식별자 라이브러리는 디지털 정보의 각 기호에 해당하는 식별자를 물리적으로 구성하여 물리적으로 생성할 수 있다. 디지털 정보의 전부 또는 일부를 한 번에 액세스할 수 있다. 예에서 식별자의 서브세트는 식별자 라이브러리에서 액세스된다. 식별자의 서브세트는 식별자를 시퀀싱하고 식별하여 읽을 수 있다. 식별된 식별자는 디지털 데이터를 디코딩하기 위해 해당 기호와 연관될 수 있다.
도 5의 접근법을 사용하여 정보를 인코딩하고 판독하는 방법은 예를 들어, 도 5는 비트 스트림을 수신하고 식별자 랭크 또는 핵산 인덱스를 사용하여 비트 스트림의 각 1비트(비트 값이 '1'인 비트)를 별개의 핵산 식별자에 매핑하는 것을 포함할 수 있다. 비트 값 1에 해당(비트 값 0에 대한 식별자 제외)하는 식별자의 사본을 포함하는 핵산 샘플 풀 또는 식별자 라이브러리를 구성 한다. 샘플을 판독하는 것은 분자 생물학 방법(예: 시퀀싱, 혼성화, PCR 등)을 사용하고, 어떤 식별자가 식별자 라이브러리에 표시되는지 결정하고, 이러한 식별자에 해당하는 비트에 '1'의 비트 값을 할당하고 비트 값을 할당하는 것을 포함할 수 있다. 다른 곳에서 '0'의 값(각 식별자가 해당하는 원래 비트스트림의 비트를 식별하기 위해 식별자 순위를 다시 참조), 따라서 정보를 원래 인코딩된 비트스트림으로 디코딩한다.
N 개의 개별 비트 스트링을 인코딩하는 것은 가능한 식별자로서 동일한 수의 고유 핵산 서열을 사용할 수 있다. 정보 인코딩에 대한 이러한 접근법은 저장하기 위한 각각의 새로운 정보 항목(N 비트의 스트링)에 대한 식별자(예를 들어, 핵산 분자)의 데노보 합성을 사용할 수 있다. 다른 경우에, 저장할 각각의 새로운 정보 항목에 대한 식별자(N 이하의 수)를 새로 합성하는 비용은 일회성 데노보 합성 및 모든 가능한 식별자의 후속 유지 관리에 의해 감소될 수 있다. 새로운 정보 항목을 인코딩하는 것은 사전 합성된(또는 사전 제작된) 식별자를 함께 기계적으로 선택하고 혼합하여 식별자 라이브러리를 형성하는 것을 포함할 수 있다. 다른 경우,(1) 저장할 각각의 새로운 정보 항목에 대해 최대 N개의 식별자를 새로 합성하는 비용 또는(2) 저장할 각각의 새로운 정보 항목에 대해 N개의 가능한 식별자를 유지 및 선택하는 비용 또는 이들의 조합은 핵산 서열의 수(N 미만, 일부 경우 N 미만)를 합성하고 유지한 다음 효소 반응을 통해 이러한 서열을 변형하여 저장을 위한 각각의 새로운 정보 항목에 대해 최대 N 식별자를 생성함으로써 감소될 수 있다.
식별자는 읽기, 기록, 액세스, 복사 및 삭제 작업이 용이하도록 합리적으로 설계되고 선택될 수 있다. 식별자는 기록 오류, 변형, 저하 및 읽기 오류를 최소화하도록 설계되고 선택될 수 있다. 합성 핵산 라이브러리(예: 식별자 라이브러리)를 구성하는 DNA 서열의 합리적 설계에 대해서는 화학적 방법 섹션 H를 참조하시오.
도 6A 및 6B는 객체 또는 식별자(예를 들어, 핵산 분자)에서 디지털 데이터를 인코딩하는 "주소 데이터"로 지칭되는 예시적인 방법을 개략적으로 도시한다. 도 6A는 비트 스트림을 식별자 라이브러리로 인코딩하는 것을 도시하며, 개별 식별자는 바이트-값을 지정하는 단일 구성 요소와 식별자 랭크를 지정하는 단일 구성 요소를 연결 또는 조립함으로써 구성된다. 일반적으로 주소의 데이터 방법은 두 개의 객체, 즉 바이트 값을 식별하는 "바이트 값 객체"(또는 "데이터 객체")라는 두 객체를 구성하여 모듈 방식으로 정보를 인코딩하는 식별자를 사용하고 다른 객체인 "랭크 개체"(또는 "주소 개체")는 식별자 순위(또는 원래 비트스트림에서 바이트의 상대적 위치)를 식별한다. 도 6B는 각각의 랭크 객체가 구성 요소 세트로부터 조합적으로 구성될 수 있고 각각의 바이트-값 객체가 구성 요소 세트로부터 조합적으로 구성될 수 있는 주소에서의 데이터 방법의 예를 도시한다. 랭크 및 바이트-값 객체의 그러한 조합 구성은 객체가 단일 구성 요소만으로 만들어진 경우(예를 들어, 도 6A) 보다 더 많은 정보가 식별자에 기록될 수 있게 한다.
도 7A 및 도 7B는 객체 또는 식별자(예컨대, 핵산 서열)에 디지털 정보를 인코딩하는 또 다른 예시적인 방법을 개략적으로 설명한다. 도 7A는 식별자 순위를 지정하는 단일 구성 요소로부터 식별자가 구성되는 식별자 라이브러리로 비트 스트림을 인코딩하는 것을 예시한다. 특정 순위(또는 주소)에 식별자가 있으면 비트 값 '1'을 지정하고, 특정 순위(또는 주소)에 식별자가 없으면 비트 값 '0'을 지정한다. 이러한 유형의 인코딩은 순위(원래 비트 스트림에서 비트의 상대적 위치)만 인코딩하는 식별자를 사용하고 식별자 라이브러리에서 해당 식별자의 존재 유무를 사용하여 각각 '1' 또는 '0'의 비트값을 인코딩할 수 있다. 정보를 읽고 디코딩하는 작업에는 식별자 라이브러리에 있는 식별자를 식별하고, 해당 랭크에 '1'의 비트값을 할당하고, 다른 곳에는 '0'의 비트값을 할당하는 작업이 포함될 수 있다. 도 7B는 각 식별자가 구성 요소의 집합으로부터 조합적으로 구성될 수 있고, 가능한 각 조합 구성이 순위를 지정하는 인코딩 방법의 예를 보여준다. 이러한 조합적 구성은 단일 구성 요소만으로 식별자를 만들 때보다 더 많은 정보를 식별자에 기록할 수 있다(예: 도 7A). 예를 들어, 구성 요소 세트는 5개의 서로 다른 구성 요소로 구성될 수 있다. 5개의 개별 구성 요소를 조합하여 각각 5개의 구성 요소 중 2개로 구성된 10개의 개별 식별자를 생성할 수 있다. 10개의 별개의 식별자는 각각 비트 스트림에서 비트의 위치에 해당하는 순위(또는 주소)를 가질 수 있다. 식별자 라이브러리는 길이 10의 비트 스트림 내에서 비트 값 '1'의 위치에 해당하는 10개의 가능한 식별자의 서브세트를 포함할 수 있고, 길이 10의 비트 스트림 내에서 비트 값 '0'의 위치에 해당하는 10개의 가능한 식별자의 서브세트를 제외할 수 있다.
도 8은 도 8A와 8B에 표시된 인코딩 방법을 사용하여 주어진 원본 크기의 정보를 비트(D, 등고선)로 저장하기 위해 가능한 식별자의 조합 공간(C, x축)과 물리적으로 구성해야 하는 평균 식별자 수(k, y축) 사이의 관계를 로그 공간에서 윤곽선으로 나타낸 것이다. 이 도표는 크기 D의 원본 정보가 비트 수 k의 비트 값이 '1'인 C 비트 문자열(여기서 C는 D보다 클 수 있음)로 다시 인코딩된다고 가정한다. 또한 이 도표에서는 재코딩된 비트 문자열에 대해 정보-핵산 인코딩이 수행되고 비트 값이 '1'인 위치에 대한 식별자는 구성되고 비트 값이 '0'인 위치에 대한 식별자는 구성되지 않는다고 가정한다. 이러한 가정에 따라 가능한 식별자의 조합 공간은 재코딩된 비트 문자열의 모든 위치를 식별할 수 있는 크기 C를 가지며, 크기 D의 비트 문자열을 인코딩하는 데 사용되는 식별자의 수는 D = log2(Cchoose), 여기서 Cchoose은 C의 가능성에서 정렬되지 않은 결과값을 선택하는 방법의 수를 나타내는 수학 공식이 될 수 있다. 따라서 가능한 식별자의 조합 공간이 주어진 정보 항목의 크기(비트 단위)를 초과하여 증가함에 따라 물리적으로 구성된 식별자의 수가 감소하여 주어진 정보를 저장하는 데 사용될 수 있다.
도 9는 핵산 서열에 정보를 기록하기 위한 개요 방법을 보여준다. 정보를 기록하기 전에 정보는 일련의 기호로 번역되고 복수의 식별자로 인코딩될 수 있다. 정보 작성에는 가능한 식별자를 생성하기 위한 반응 설정이 포함될 수 있다. 입력을 구획에 저장하여 반응을 설정할 수 있다. 입력은 핵산, 구성 요소, 주형, 효소 또는 화학 시약을 포함할 수 있다. 구획은 웰, 튜브, 표면 상의 위치, 미세유체 장치의 챔버 또는 에멀젼 내의 액적일 수 있다. 여러 구획에서 여러 반응을 설정할 수 있다. 반응은 프로그래밍된 온도 인큐베이션 또는 순환을 통해 식별자를 생성하기 위해 진행될 수 있다. 반응은 선택적으로 또는 편재적으로 제거(예: 삭제)될 수 있다. 또한 반응은 하나의 풀에서 식별자를 수집하기 위해 선택적으로 또는 유비쿼터스로 중단, 통합 및 정제될 수 있다. 여러 식별자 라이브러리의 식별자를 동일한 풀에서 수집할 수 있다. 개별 식별자에는 자신이 속한 식별자 라이브러리를 식별하기 위한 바코드 또는 태그가 포함될 수 있다. 대안으로 또는 추가로 바코드는 인코딩된 정보에 대한 메타데이터를 포함할 수 있다. 보충 핵산 또는 식별자는 또한 식별자 라이브러리와 함께 식별자 풀에 포함될 수 있다. 추가 핵산 또는 식별자는 인코딩된 정보에 대한 메타데이터를 포함하거나 인코딩된 정보를 난독화하거나 숨기는 역할을 할 수 있다.
식별자 순위(예를 들어, 핵산 인덱스)는 식별자의 순서를 결정하기 위한 방법 또는 키를 포함할 수 있다. 이 방법은 모든 식별자와 해당 순위가 있는 조회 테이블을 포함할 수 있다. 방법은 또한 식별자를 구성하는 모든 구성 요소의 순위를 갖는 룩업 테이블 및 이들 구성 요소의 조합을 포함하는 임의의 식별자의 순서를 결정하기 위한 기능을 포함할 수 있다. 이러한 방법은 사전순 정렬이라고 할 수 있으며 사전의 단어가 알파벳순으로 정렬되는 방식과 유사할 수 있다. 데이터 주소 인코딩 방법에서, 식별자 랭크(식별자의 랭크 객체에 의해 인코딩됨)는 비트 스트림 내에서 바이트(식별자의 바이트-값 객체에 의해 인코딩됨)의 위치를 결정하는 데 사용될 수 있다. 다른 방법에서, 현재 식별자에 대한 식별자 순위(전체 식별자 자체에 의해 인코딩됨)는 비트 스트림 내에서 '1'의 비트 값 위치를 결정하는 데 사용될 수 있다.
키는 샘플 내의 식별자(예: 핵산 분자)의 고유한 서브세트에 고유한 바이트를 할당할 수 있다. 예를 들어 간단한 형태로 키는 비트의 위치를 지정하는 고유한 핵산 서열에 바이트의 각 비트를 할당할 수 있으며 샘플 내 해당 핵산 서열의 존재 또는 부재는 비트를 지정할 수 있다. 값은 각각 1 또는 0이다. 핵산 샘플 에서 암호화된 정보를 읽는 것은 시퀀싱, 혼성화 또는 PCR을 포함하는 많은 분자 생물학 기술을 포함할 수 있다. 일부 실시예에서, 인코딩된 데이터세트를 판독하는 것은 데이터세트의 일부를 재구성하거나 각각의 핵산 샘플로부터 전체 인코딩된 데이터세트를 재구성하는 것을 포함할 수 있다. 서열을 읽을 수 있는 경우 고유한 핵산 서열의 유무와 함께 핵산 인덱스를 사용할 수 있으며, 핵산 샘플을 비트 스트림(예: 각 비트 문자열, 바이트, 바이트 또는 바이트 문자열)으로 디코딩할 수 있다.
식별자는 구성 요소 핵산 서열을 조합적으로 조립하여 구성할 수 있다. 예를 들어, 정보는 정의된 분자 그룹(예: 조합 공간)에서 핵산 분자(예: 식별자) 세트를 취함으로써 인코딩될 수 있다. 정의된 분자 그룹의 각각의 가능한 식별자는 층으로 분할될 수 있는 조립식 구성 요소 세트의 핵산 서열(예: 구성 요소)의 어셈블리일 수 있다. 각 개별 식별자는 고정된 순서로 모든 계층에서 하나의 구성 요소를 연결하여 구성할 수 있다. 예를 들어, M 개의 레이어가 있고 각 레이어가 n개의 구성 요소를 가질 수 있는 경우 최대 C = n M 고유 식별자를 구성할 수 있으며 최대 2C 서로 다른 정보 항목 또는 C 비트가 인코딩되어 저장될 수 있다. 예를 들어, 메가비트의 정보 저장은 1 x 10 6 개의 고유 식별자 또는 C = 1 x 10 6 크기의 조합 공간을 사용할 수 있다. 이 예의 식별자는 서로 다른 방식으로 구성된 다양한 구성 요소에서 어셈블될 수 있다. 조립품은 각각 n = 1 x 10 3 구성 요소를 포함하는 M = 2개의 조립식 레이어로 만들 수 있다. 대안적으로 각각 n = 1 x 102개의 구성 요소를 포함하는 M = 3개의 레이어로 어셈블리를 만들 수도 있다. 이 예시에서 볼 수 있듯이, 더 많은 수의 레이어를 사용하여 동일한 양의 정보를 인코딩하면 총 구성 요소 수를 줄일 수 있다. 총 구성 요소 수를 적게 사용하면 작성 비용 양태에서 유리할 수 있다.
예에서, 각각 x 및 y 구성 요소(예: 핵산 서열)를 갖는 고유한 핵산 서열 또는 층, X 및 Y의 두 세트로 시작할 수 있다. X의 각 핵산 서열은 Y의 각 핵산 서열로 조립될 수 있다. 두 세트에서 유지되는 핵산 서열의 총 수는 x 와 y의 합일 수 있지만 핵산 분자의 총 수는 생성될 수 있는 식별자는 x 와 y의 곱일 수 있다. X의 서열이 임의의 순서로 Y의 서열에 조립될 수 있다면 더 많은 핵산 서열(예: 식별자)이 생성될 수 있다. 예를 들어, 조립 순서가 프로그래밍 가능한 경우 생성된 핵산 서열(예: 식별자)의 수는 x 와 y의 곱의 두 배가 될 수 있다. 생성될 수 있는 모든 가능한 핵산 서열 세트는 XY로 지칭될 수 있다. XY에서 고유한 핵산 서열의 조립 단위 순서는 5' 및 3' 말단이 뚜렷한 핵산을 사용하여 제어할 수 있으며, 서열의 뚜렷한 5' 및 3' 말단과 관련하여 제한 분해, 연결, 중합 효소 연쇄 반응(PCR) 및 시퀀싱이 발생할 수 있다. 이러한 접근 방식은 어셈블리 제품의 조합 및 순서로 정보를 인코딩함으로써 N 개의 개별 비트를 인코딩하는 데 사용되는 핵산 서열(예: 구성 요소)의 총 수를 줄일 수 있다. 예를 들어, 100 비트의 정보를 인코딩하기 위해 10개의 별개의 핵산 분자(예: 구성 요소)의 두 레이어가 고정된 순서로 조립되어 10*10 또는 100개의 별개의 핵산 분자(예: 식별자) 또는 한 레이어를 생성할 수 있다. 5개의 별개의 핵산 분자(예: 구성 요소) 및 10개의 별개의 핵산 분자(예: 구성 요소)의 또 다른 층은 100개의 별개의 핵산 분자(예: 식별자)를 생성하기 위해 임의의 순서로 조립될 수 있다.
각 레이어 내의 핵산 서열(예를 들어, 구성 요소)은 중간에 독특한(또는 별개의) 서열 또는 바코드, 한쪽 말단에 공통 혼성화 영역, 다른 말단에 또 다른 공통 혼성화 영역을 포함할 수 있다. 바코드는 레이어 내의 모든 서열을 고유하게 식별하기에 충분한 수의 뉴클레오티드를 포함할 수 있다. 예를 들어, 일반적으로 바코드 내의 각 염기 위치에 대해 가능한 뉴클레오티드가 4개 있다. 따라서 3개의 기본 바코드는 4 3 = 64개의 핵산 서열을 고유하게 식별할 수 있다. 바코드는 무작위로 생성되도록 설계될 수 있다. 대안적으로 바코드는 식별자 또는 시퀀싱의 구성 화학에 대한 복잡성을 생성할 수 있는 서열를 피하도록 설계될 수 있다. 또한 바코드는 각각이 다른 바코드로부터 최소 해밍 거리를 가맵록 설계될 수 있으므로 기본 해상도 돌연변이 또는 판독 오류가 바코드의 적절한 식별을 방해할 가능성을 줄일 수 있다. DNA 서열의 합리적 설계에 대해서는 화학적 방법 섹션 H를 참조하시오.
핵산 서열(예를 들어, 구성 요소)의 일단의 혼성화 영역은 각 레이어마다 상이할 수 있지만, 혼성화 영역은 레이어 내의 각 구성원에 대해 동일할 수 있다. 인접한 레이어는 서로 상호 작용할 수 있도록 구성 요소에 상보적인 혼성화 영역이 있는 층이다. 예를 들어, X층의 모든 구성 요소는 상보적인 혼성화 영역을 가질 수 있기 때문에 Y층의 모든 구성 요소에 부착될 수 있다. 대향 말단의 혼성화 영역은 제 1 말단의 혼성화 영역과 동일한 목적을 수행할 수 있다. 예를 들어 레이어 Y의 모든 구성 요소는 한쪽 끝에서 레이어 X의 모든 구성 요소에 연결되고 반대쪽 끝에서 레이어 Z의 모든 구성 요소에 연결될 수 있다.
도 10A 및 10B는 고정된 순서로 각 레이어로부터 별개의 구성 요소(예를 들어, 핵산 서열)를 조합적으로 조립함으로써 식별자(예를 들어, 핵산 분자)를 구성하기 위한 "생성 계획"으로 지칭되는 예시적인 방법을 도시한다. 도 10A는 제품 방식을 사용하여 구성된 식별자의 아키텍처를 도시한다. 식별자는 각 계층의 단일 구성 요소를 고정된 순서로 결합하여 구성할 수 있다. 각각 N개의 컴포넌트가 있는 M개의 레이어의 경우, 가능한 식별자는 NM개이다. 도 10B는 제품 체계를 사용하여 구성될 수 있는 식별자의 조합 공간의 예를 도시한다. 예에서, 조합 공간은 각각 3개의 별개의 구성 요소를 포함하는 3개의 층으로부터 생성될 수 있다. 구성 요소들은 각각의 레이어로부터 하나의 구성 요소가 고정된 순서로 결합될 수 있도록 결합될 수 있다. 이 조립 방법에 대한 전체 조합 공간은 27개의 가능한 식별자를 포함할 수 있다.
도 11-14는 생성물 계획을 구현하기 위한 화학적 방법을 예시한다(도 6 참조). 도 11-14에 도시된 방법은 예를 들어, 식별자 라이브러리에서 임의의 하나 이상의 식별자를 생성하기 위해 고정된 순서로 2개 이상의 별개의 구성 요소를 조립하기 위한 임의의 다른 방법과 함께 11-14에 도시된 바와 같이 사용될 수 있다. 식별자는 여기에 개시된 방법 또는 시스템 동안 언제든지 도 11-14에 기술된 임의의 구현 방법을 사용하여 구성될 수 있다. 어떤 경우에는 가능한 식별자의 조합 공간의 전부 또는 일부가 디지털 정보가 인코딩되거나 기록되기 전에 구성될 수 있으며, 그런 다음 기록 프로세스에는 이미 존재하는 집합에서 식별자(정보를 인코딩하는)를 기계적으로 선택하고 풀링하는 작업이 포함될 수 있다. 다른 경우에, 식별자는 데이터 인코딩 또는 기록 프로세스의 하나 이상의 단계가 발생한 후(즉, 정보가 기록될 때) 구성될 수 있다.
효소 반응을 사용하여 여러 레이어 또는 세트의 구성 요소를 조립할 수 있다. 조립은 각 레이어의 구성 요소(예: 핵산 서열)이 인접한 레이어의 구성 요소에 대한 특정 혼성화 또는 부착 영역을 갖기 때문에 원 포트 반응에서 발생할 수 있다. 예를 들어, 레이어 X로부터의 핵산 서열(예를 들어, 구성 요소) X1, 레이어 Y로부터의 핵산 서열 Y1 및 레이어 Z로부터의 핵산 서열 Z1은 조립된 핵산 분자(예를 들어, 식별자) X1Y1Z1을 형성할 수 있다. 추가로, 다중 핵산 분자(예: 식별자)는 각 레이어의 다중 핵산 서열을 포함함으로써 하나의 반응으로 조립될 수 있다. 예를 들어 이전 예의 원 포트 반응에 Y1과 Y2를 모두 포함하면 두 개의 조립된 제품(예: 식별자), X1Y1Z1 및 X1Y2Z1이 생성될 수 있다. 이러한 반응 다중화는 물리적으로 구성된 복수의 식별자에 대한 기록 시간을 단축하기 위해 사용될 수 있다. 어셈블리 효율성과 관련된 DNA 서열의 합리적인 디자인에 대한 자세한 내용은 화학적 방법 섹션 H를 참조하시오. 핵산 서열의 조립은 약 1일, 12시간, 10시간, 9시간, 8시간, 7시간, 6시간, 5시간, 4시간, 3시간, 2시간 또는 1시간 이하인 기간 내에 수행될 수 있다. 인코딩된 데이터의 정확도는 적어도 약 90%, 95%, 96%, 97%, 98%, 99% 이상일 수 있다.
식별자는 도 11에 예시된 바와 같이 중첩 확장 중합효소 연쇄 반응(OEPCR)을 사용하는 제품 계획에 따라 구성될 수 있다. 각 레이어의 각 구성 요소는 인접한 레이어의 구성 요소의 서열 말단에 있는 공통 혼성화 영역과 상동 및/또는 상보적일 수 있는 서열 말단의 공통 혼성화 영역을 갖는 이중 가닥 또는 단일 가닥(도시됨)의 핵산 서열을 포함할 수 있다. 개별 식별자는 X1 - XA로 구성된 레이어 X(또는 레이어 1)의 한 구성 요소(예: 고유 서열), Y1 - YA로 구성된 레이어 Y(또는 레이어 2)의 두 번째 구성 요소(예: 고유 서열), Z1 - ZB로 구성된 레이어 Z(또는 레이어 3)의 세 번째 구성 요소(예: 고유 서열)를 연결하여 구성할 수 있다. 레이어 X로부터의 구성 요소는 레이어 Y로부터의 구성 요소 상의 3' 말단과 상보성을 공유하는 3' 말단을 가질 수 있다. 따라서 레이어 X 및 Y로부터의 단일 가닥 구성 요소는 3' 말단에서 함께 어닐링될 수 있고 PCR을 사용하여 연장될 수 있다 이중 가닥 핵산 분자를 생성한다. 생성된 이중 가닥 핵산 분자는 용융되어 레이어 Z로부터의 구성 요소의 3' 말단과 상보성을 공유하는 3' 말단을 생성할 수 있다. 레이어 Z로부터의 구성 요소는 생성된 핵산 분자와 어닐링될 수 있고, 고정된 순서로 레이어 X, Y 및 Z의 단일 구성 요소를 포함하는 고유 식별자를 생성하도록 확장되었다. OEPCR에 대한 화학적 방법 섹션 A를 참조하시오. 반응에서 형성될 수 있는 다른 부산물로부터 완전히 조립된 식별자 산물을 분리하기 위해 DNA 크기 선택(예: 겔 추출, 화학적 방법 섹션 E 참조) 또는 가장 바깥쪽 층에 프라이머를 배치한 중합효소연쇄반응(PCR)(화학적 방법 섹션 D 참조)을 구현할 수 있다. 반응에서 형성될 수 있는 다른 부산물로부터 완전히 조립된 식별자 산물을 분리하기 위해 가장 바깥쪽 두 층에 각각 하나씩 두 개의 프로브를 사용한 순차적 핵산 캡쳐도 구현할 수 있다(화학적 방법 섹션 F 참조).
식별자는 도 12에 도시된 바와 같이, 점착성 말단 결합을 사용하여 제품 방식에 따라 조립될 수 있다. 각각 단일 가닥 3' 돌출부를 갖는 이중 가닥 구성 요소(예를 들어, 이중 가닥 DNA(dsDNA))을 포함하는 3개의 층을 사용하여 상이한 식별자를 조립할 수 있다. 예를 들어, X1 - XA 구성 요소로 구성된 X 레이어(또는 레이어 1)의 한 구성 요소, Y1 - YB 구성 요소로 구성된 Y 레이어(또는 레이어 2)의 두 번째 구성 요소, Z1 - ZC 구성 요소로 구성된 Z 레이어(또는 레이어 3)의 세 번째 구성 요소로 구성된 식별자를 예로 들 수 있다. 레이어 X의 구성 요소와 레이어 Y의 구성 요소를 결합하기 위해 레이어 X의 구성 요소는 그림 12에서 a로 표시된 공통 3' 오버행으로 구성될 수 있으며, 레이어 Y의 구성 요소는 공통의 보완적인 3' 오버행인 a*로 구성될 수 있다. 레이어 Y의 구성 요소를 레이어 Z의 구성 요소와 결합하기 위해 레이어 Y의 요소는 그림 12에 b로 표시된 공통 3' 오버행으로 구성될 수 있으며 레이어 Z의 요소는 공통의 상보적인 3' 오버행인 b*로 구성될 수 있다. 레이어 X 구성 요소의 3' 오버행은 레이어 Y 구성 요소의 3' 단부에 대해 상보적일 수 있고, 레이어 Y 구성 요소의 다른 3' 오버행은 레이어 Z 구성 요소의 3' 단부에 대해 상보적일 수 있어 구성 요소가 하이브리드화 및 결합될 수 있다. 따라서 레이어 X의 구성 요소는 레이어 X 또는 레이어 Z의 다른 구성 요소와 혼성화할 수 없으며, 마찬가지로 레이어 Y의 구성 요소도 레이어 Y의 다른 요소와 혼성화할 수 없다. 또한 레이어 Y의 단일 구성 요소는 레이어 X의 단일 구성 요소 및 레이어 Z의 단일 구성 요소에 결합하여 완전한 식별자를 형성할 수 있다. 스티키 엔드 연결에 대해서는 화학적 방법 섹션 B를 참조하시오. 반응에서 형성될 수 있는 다른 부산물로부터 식별자 생성물을 분리하기 위해 DNA 크기 선택(예: 겔 추출, 화학적 방법 섹션 E 참조) 또는 가장 바깥쪽 층에 프라이머를 배치한 중합효소 연쇄반응(PCR, 화학적 방법 섹션 D 참조)을 구현할 수 있다. 반응에서 형성될 수 있는 다른 부산물로부터 식별 제품을 분리하기 위해 가장 바깥쪽 두 층에 각각 하나씩 두 개의 프로브를 사용한 순차적 핵산 캡쳐도 구현할 수 있다(화학적 방법 섹션 F 참조).
점착성 말단 결합을 위한 점착성 말단은 각 레이어의 구성 요소를 제한 엔도뉴클레아제로 처리하여 생성할 수 있다(제한 효소 반응에 대한 자세한 내용은 화학적 방법 섹션 C 참조). 일부 실시예에서, 다중 계층의 구성 요소는 구성 요소의 하나의 "부모" 세트로부터 생성될 수 있다. 예를 들어, 이중 가닥 구성 요소의 단일 모 세트가 각 말단에 상보적인 제한 부위(예: BamHI 및 BglII에 대한 제한 부위)를 가질 수 있는 구현예이다. 임의의 2개의 구성 요소는 조립을 위해 선택될 수 있고, 하나 또는 다른 상보적 제한 효소(예를 들어, BglII 또는 BamHI)로 개별적으로 소화되어 함께 결합될 수 있는 상보적 끈적한 말단을 생성하여 비활성 흉터를 생성할 수 있다. 생성물 핵산 서열은 각각의 말단에 상보적 제한 부위를 포함할 수 있고(예를 들어, 5' 말단에 BamHI 및 3' 말단에 BglII), 동일한 프로세스에 따라 모 세트로부터 다른 구성 요소에 추가로 결합될 수 있다. 이 프로세스는 무한정 순환할 수 있다(도 24). 부모가 N개의 구성 요소로 구성된 경우 각 주기는 N개의 구성 요소로 구성된 추가 계층을 제품 구성표에 추가하는 것과 동일할 수 있다.
핵산 서열을 구축하기 위해 결합을 이용하는 방법은 2개 이상의 풀을 얻거나 구축하는 단계를 포함할 수 있다.(예를 들어, dsDNA의 세트 1 및 dsDNA의 세트 2) 이중 가닥 서열의 제 1 세트(예를 들어, dsDNA의 세트 1)는 접착 말단(예를 들어, a) 및 제 2 세트(예를 들어, dsDNA의 세트 2)를 포함한다. 첫 번째 세트의 접착 말단에 상보적인 접착 말단(예를 들어, a*)을 포함한다. 첫 번째 세트의 모든 DNA(예: dsDNA 1세트)와 두 번째 세트의 모든 DNA 서브세트(예: dsDNA 2세트)을 결합하고 조립한 다음 서로 연결하여 첫 번째 세트의 요소와 두 번째 세트의 요소를 가진 단일 이중 가닥 DNA를 형성할 수 있다.
식별자는 도 13에 예시된 바와 같이 부위 특이적 재조합을 사용하여 제품 체계에 따라 조립될 수 있다. 식별자는 세 가지 다른 계층의 구성 요소를 조립하여 구성할 수 있다. X층(또는 층 1)의 구성 요소는 분자의 한쪽에 attBx 재조합 효소 부위가 있는 이중 가닥 분자로 구성될 수 있고, Y층(또는 층 2)의 구성 요소는 분자의 한쪽에 attPx 재조합 효소 부위가 있고 다른 쪽에 attBy 재조합 효소 부위가 있는 이중 가닥 분자로 구성될 수 있으며, Z층(또는 층 3)의 구성 요소는 분자의 한쪽에 attPy 재조합 효소 부위가 있는 이중 가닥 분자로 구성될 수 있다. 첨자로 표시된 바와 같이 한 쌍 내의 attB 및 attP 부위는 해당 재조합 효소의 존재 하에서 재조합할 수 있다. 각 층의 한 구성 요소가 결합되어 X 층의 한 구성 요소가 Y 층의 한 구성 요소과 결합하고, Y 층의 한 구성 요소가 Z 층의 한 구성 요소과 결합할 수 있다. 하나 이상의 재조합 효소를 적용하면 구성 요소를 재결합하여 정렬된 구성 요소으로 구성된 이중 가닥 식별자를 생성할 수 있다. 반응에서 형성될 수 있는 다른 부산물로부터 식별자 산물을 분리하기 위해 DNA 크기 선택(예: 겔 추출) 또는 가장 바깥쪽 층에 프라이머가 있는 PCR을 구현할 수 있다. 일반적으로 여러 개의 직교하는 attB 및 attP 쌍을 사용할 수 있으며, 각 쌍을 사용하여 추가 층에서 구성 요소를 조립할 수 있다. 대형 세린 계열의 재조합 효소의 경우, 재조합 효소당 최대 6개의 직교 attB 및 attP 쌍이 생성될 수 있으며, 다중 직교 재조합 효소도 구현될 수 있다. 예를 들어, 두 개의 대형 세린 재조합 효소(예: BxbI 및 PhiC31)에서 각각 6개의 직교 쌍인 12개의 직교 attB 및 attP 쌍을 사용하여 13개의 레이어를 조립할 수 있다. attB와 attP 쌍의 직교성은 한 쌍의 attB 부위가 다른 쌍의 attP 부위와 반응하지 않도록 보장한다. 이를 통해 서로 다른 층의 구성 요소를 고정된 순서로 조립할 수 있다. 재조합효소 매개 재조합 반응은 구현된 재조합효소 시스템에 따라 가역적이거나 비가역적일 수 있다. 예를 들어, 대형 세린 재조합 효소 계열은 고에너지 보조 인자 없이 비가역적 재조합 반응을 촉매하는 반면, 티로신 재조합 효소 계열은 가역적 반응을 촉매한다.
식별자는 도 14A에 도시된 바와 같이 주형 지향 결합(TDL)을 사용하는 제품 계획에 따라 구성될 수 있다. 주형 지정 결합은 "주형" 또는 "스테이플"이라고 하는 단일 가닥 핵산 서열을 사용하여 구성 요소의 정렬된 결합을 용이하게 하여 식별자를 형성한다. 템플릿은 인접 레이어의 구성 요소에 동시에 혼성화하고 리가제가 이들을 결합하는 동안 서로 인접하게 유지한다(3' 말단 대 5' 말단). 도 14A의 예에서, 세 개의 레이어 또는 단일 가닥 구성 요소 세트가 결합된다. 3' 말단에 공통 서열 a를 공유하는 구성 요소의 첫 번째 레이어(예: 레이어 X 또는 레이어 1), 서열 a*와 상보적인, 5' 및 3' 말단에 각각 공통 서열 b 및 c를 공유하는 구성 요소의 두 번째 레이어(예: 레이어 Y 또는 레이어 2), 서열 b* 및 c*와 상보적인, 3' 말단에 공통 서열 d를 공유하는 구성 요소의 세 번째 레이어(예:, 5' 말단에서 공통 서열 d를 공유하는 세 번째 구성 요소(예: 레이어 Z 또는 레이어 3), 이는 서열 d*와 상보적일 수 있으며, 첫 번째 스테이플은 서열 a*b*(5' ~ 3')를 포함하고 두 번째 스테이플은 서열 c*d*('5 ~ 3')를 포함하는 2개의 템플릿 또는 "스테이플" 집합이다. 이 예에서, 각 층으로부터 하나 이상의 구성 요소가 선택되어 스테이플과의 반응에 혼합될 수 있으며, 상보 어닐링에 의해 각 층으로부터 하나의 구성 요소가 정의된 순서로 결합되어 식별자를 형성할 수 있다. TDL에 대한 화학적 방법 섹션 B를 참조하시오. 반응에서 형성될 수 있는 다른 부산물로부터 식별자 생성물을 분리하기 위해 DNA 크기 선택(예: 겔 추출, 화학적 방법 섹션 E 참조) 또는 가장 바깥쪽 층에 프라이머를 배치한 중합효소연쇄반응(PCR, 화학적 방법 섹션 D 참조)을 구현할 수 있다. 반응에서 형성될 수 있는 다른 부산물로부터 식별 제품을 분리하기 위해 가장 바깥쪽 두 층에 각각 하나씩 두 개의 프로브를 사용한 순차적 핵산 캡쳐도 구현할 수 있다(화학적 방법 섹션 F 참조).
도 14B는 각각 6-레이어 TDL로 조립된 256개의 별개의 핵산 서열의 사본 수(풍부함)의 히스토그램을 보여준다. 가장자리 레이어(첫 번째 및 마지막 레이어)에는 각각 하나의 구성 요소가 있고 각 내부 레이어(나머지 4개의 4개 레이어)에는 4개의 구성 요소가 있다. 각각의 에지 레이어 구성 요소는 10개의 염기 혼성화 영역을 포함하는 28개의 염기였다. 각각의 내부 레이어 구성 요소는 5' 말단 상의 10 염기 공통 혼성화 영역, 10 염기 가변(바코드) 영역 및 3' 말단 상의 10 염기 공통 혼성화 영역을 포함하는 30 염기였다. 3개의 주형 가닥 각각은 길이가 20 염기였다. 모든 256개의 서로 다른 서열은 모든 구성 요소와 주형, T4 폴리뉴클레오티드 키나제(구성 요소 인산화용), T4 리가제, ATP 및 기타 적절한 반응 시약을 포함하는 하나의 반응으로 멀티플렉스 방식으로 조립되었다. 반응물을 37도에서 30분 동안 인큐베이션한 다음 실온에서 1시간 동안 인큐베이션하였다. 시퀀싱 어댑터를 PCR로 반응 생성물에 추가하고 생성물을 Illumina MiSeq 기기로 시퀀싱했다. 총 192910개의 조립된 서열 리드 중 각 별개의 조립된 서열의 상대 사본 수가 표시된다. 이 방법의 다른 실시예는 이중 가닥 구성 요소를 사용할 수 있으며, 여기서 구성 요소는 초기에 용융되어 스테이플에 어닐링할 수 있는 단일 가닥 버전을 형성한다. 이 방법의 다른 실시예 또는 파생물(즉, TDL)은 제품 체계에서 달성될 수 있는 것보다 더 복잡한 식별자의 조합 공간을 구성하는 데 사용될 수 있다.
식별자는 골든 게이트 어셈블리, 깁슨 어셈블리 및 리가제 순환 반응 어셈블리를 비롯한 다양한 기타 화학적 구현을 사용하여 제품 계획에 따라 구성될 수 있다.
도 15A 및 15B는 순열된 구성 요소(예를 들어, 핵산 서열)로 식별자(예를 들어, 핵산 분자)를 구성하기 위한 "순열 체계"으로 지칭되는 예시적인 방법을 개략적으로 도시한다. 도 15A는 순열 체계를 사용하여 구성된 식별자의 아키텍처를 도시한다. 식별자는 프로그래밍 가능한 순서로 각 계층의 단일 구성 요소를 결합하여 구성할 수 있다. 도 15B는 순열 체계를 사용하여 구성될 수 있는 식별자의 조합 공간의 예를 도시한다. 예에서, 크기 6의 조합 공간은 각각 하나의 별개의 구성 요소를 포함하는 3개의 층으로부터 생성될 수 있다. 구성 요소는 임의의 순서로 연결될 수 있다. 일반적으로 M개의 레이어에 각각 N개의 컴포넌트가 있는 경우 순열 체계는 총 식별자의 조합 공간인 NMM! 을 가능하게 한다.
도 15C는 주형 지향 결합(TDL, 화학적 방법 섹션 B 참조)을 사용한 순열 계획의 예시적인 구현을 예시한다. 여러 레이어의 구성 요소는 가장자리 스캐폴드라고 하는 고정된 왼쪽 말단과 오른쪽 말단 구성 요소 사이에 조립된다. 이러한 가장자리 스캐폴드는 조합 공간의 모든 식별자에 대해 동일하므로 구현을 위한 반응 마스터 믹스의 일부로 추가될 수 있다. 템플릿 또는 스테이플은 서로 다른 레이어의 구성 요소가 반응에서 식별자에 통합되는 순서가 반응을 위해 선택된 템플릿에 따라 달라맵록 임의의 두 레이어 또는 스캐폴드 사이의 가능한 접합을 위해 존재한다. M 레이어에 대한 층의 임의의 가능한 순열을 가능하게 하기 위해, 모든 가능한 접합(스캐폴드와의 접합 포함)에 대해 M 2 +2M 별개의 선택 가능한 스테이플이 있을 수 있다. 이들 템플릿 중 M 개(회색 음영)는 레이어와 그 자체 사이의 접합부를 형성하고 여기에 설명된 순열 어셈블리의 목적을 위해 제외될 수 있다. 그러나 이들을 포함하면 도 15D-G에 설명된 것처럼 반복 구성 요소으로 구성된 식별자를 사용하여 더 큰 조합 공간을 확보할 수 있다. 반응에서 형성될 수 있는 다른 부산물로부터 식별자 생성물을 분리하기 위해 DNA 크기 선택(예: 겔 추출, 화학적 방법 섹션 E 참조) 또는 가장 바깥쪽 층에 프라이머를 배치한 중합효소연쇄반응(PCR, 화학적 방법 섹션 D 참조)을 구현할 수 있다. 반응에서 형성될 수 있는 다른 부산물로부터 식별 제품을 분리하기 위해 가장 바깥쪽 두 층에 각각 하나씩 두 개의 프로브를 사용한 순차적 핵산 캡쳐도 구현할 수 있다(화학적 방법 섹션 F 참조).
도 15D-G는 순열 체계가 반복된 구성 요소를 갖는 특정 인스턴스의 식별자를 포함하도록 확장될 수 있는 방법의 예시적인 방법을 도시한다. 도 15D는 도 15C의 구현 양식을 사용하여 순열 및 반복 구성 요소를 갖는 식별자를 구성하는 방법의 예를 도시한다. 예를 들어, 식별자는 두 개의 서로 다른 컴포넌트로부터 조립된 총 3개의 컴포넌트로 구성될 수 있다. 이 예시에서는 한 레이어의 구성 요소가 식별자에 여러 번 존재할 수 있다. 동일한 구성 요소의 인접한 연결은 도면의 a*b*(5' ~ 3') 스테이플과 같이 동일한 구성 요소의 3' 말단과 5' 말단 모두에 대해 인접한 상보적 혼성화 영역을 갖는 스테이플을 사용하여 달성할 수 있다. 일반적으로 M 레이어의 경우 이러한 스테이플이 M 개 있다. 이러한 구현으로 반복되는 구성 요소를 통합하면, 도 15E에 도시된 바와 같이, 에지 스캐폴드 사이에 조립되는 하나 이상의 길이(즉, 하나, 둘, 셋, 넷 또는 그 이상의 구성 요소로 구성된)의 핵산 서열을 생성할 수 있다. 도 15E는 도 15D의 예시적인 구현이 어떻게 식별자 외에 에지 스캐폴드 사이에 조립되는 비타겟 핵산 서열을 초래할 수 있는지를 보여준다. 적절한 식별자는 에지에서 동일한 프라이머 결합 부위를 공유하기 때문에 PCR을 사용하여 비타겟 핵산 서열로부터 분리할 수 없다. 그러나 이 예에서는 조립된 각 핵산 서열이 고유한 길이를 갖도록 설계될 수 있으므로(예: 모든 구성 요소가 동일한 길이를 갖는 경우) 비타겟 서열에서 타겟 식별자(예: 상단에서 두 번째 서열)를 분리하기 위해 DNA 크기 선택(예: 겔 추출 사용)을 구현할 수 있다. 도 15F는 반복된 구성 요소로 식별자를 구성하는 것이 동일한 반응에서 가장자리 서열은 동일하지만 길이가 다른 다중 핵산 서열을 생성할 수 있는 또 다른 예를 도시한다. 이 방법에서는 한 레이어의 구성 요소와 다른 레이어의 구성 요소를 번갈아 패턴으로 조립하는 템플릿을 사용할 수 있다. 도 15E 에 도시된 방법과 같이, 크기 선택은 설계된 길이의 식별자를 선택하기 위해 사용될 수 있다. 도 15G는 반복되는 구성 요소로 식별자를 구성하는 것이 동일한 에지 서열 및 일부 핵산 서열(예를 들어, 상단에서 세 번째 및 네 번째, 상단에서 여섯 번째 및 일곱 번째)에 대해 동일한 길이를 갖는 다중 핵산 서열을 생성할 수 있는 예를 도시한다. 이 예에서 동일한 길이를 공유하는 핵산 서열은 PCR 및 DNA 크기 선택이 구현되더라도 다른 하나를 구성하지 않고 하나를 구성하는 것이 불가능할 수 있으므로 둘 다 개별 식별자가 되는 것에서 제외될 수 있다.
도 16A - 16D는, "MchooseK 체계"로 지칭되는, 가능한 구성 요소의 더 큰 수(M) 중에서 임의의 수(K)의 조립된 구성 요소(예를 들어, 핵산 서열)로 식별자(예를 들어, 핵산 분자)를 구성하는 예시적인 방법을 개략적으로 설명한다. 도 16A는 MchooseK 체계를 사용하여 구성된 식별자의 아키텍처를 예시한다. 이 방법을 사용하면 식별자는 모든 레이어의 서브세트에서 각 레이어의 구성 요소 하나를 조립하여 구성된다(예: 가능한 M 레이어 중 k 레이어에서 구성 요소 선택). 도 16B는 MchooseK 체계를 사용하여 구성될 수 있는 식별자의 조합 공간의 예를 보여준다. 이 조립 체계에서 조합 공간은 M개의 레이어에 대해 가능한 식별자, 레이어당 N개의 컴포넌트 및 K개의 컴포넌트의 식별자 길이를 포함할 수 있다. 예를 들어, 각각 하나의 컴포넌트로 구성된 5개의 레이어가 있는 경우, 각각 2개의 컴포넌트로 구성된 최대 10개의 고유 식별자를 조립할 수 있다.
MchooseK 체계는 도 16C에 도시된 바와 같이 주형 지정 결합을 사용하여 구현될 수 있다(화학적 방법 섹션 B 참조). 순열 체계(도 15C)에 대한 TDL 구현과 마찬가지로, 이 예의 구성 요소는 반응 마스터 믹스에 포함되거나 포함되지 않을 수 있는 에지 스캐폴드 사이에 조립된다. 구성 요소는 M개의 레이어로 나눌 수 있으며, 예를 들어 왼쪽 에지 스캐폴드는 랭크 1이고 오른쪽 에지 스캐폴드는 랭크 M+1일 수 있는 사전 정의된 2에서 M까지의 랭크가 있는 M = 4개의 레이어로 나눌 수 있다. 템플릿은 각각 낮은 랭크에서 높은 랭크를 가진 두 구성 요소의 3'~5' 결합을 위한 핵산 서열로 구성된다. 이러한 템플릿은((M+1)2+M+1)/2 개가 있다. 서로 다른 층에 있는 K 구성 요소의 개별 식별자는 결합 반응에서 선택된 구성 요소를 K 구성 요소를 에지 스캐폴드와 함께 순위 순서대로 결합하는 데 사용되는 해당 K+1 스테이플과 결합하여 구성할 수 있다. 이러한 반응 설정은 에지 스캐폴드 사이의 타겟 식별자에 대응하는 핵산 서열을 생성할 수 있다. 또는, 모든 템플릿을 포함하는 반응 혼합물을 선택된 구성 요소와 결합하여 타겟 식별자를 조립할 수 있다. 이 대체 방법은 도 16D에 도시된 바와 같이, 에지 서열은 동일하지만 길이가 다른 다양한 핵산 서열을 생성할 수 있다(모든 구성 요소 길이가 동일한 경우). 타겟 식별자(하단)는 부산물 핵산 서열에서 크기에 따라 분리될 수 있다. 핵산 크기 선택에 대해서는 화학적 방법 섹션 E를 참조하시오.
도 17A 및 17B는 분할된 구성 요소로 식별자를 구성하기 위한 "분할 체계"으로 지칭되는 예시적인 방법을 개략적으로 도시한다. 도 17A는 분할 체계를 사용하여 구성될 수 있는 식별자의 조합 공간의 예를 도시한다. 개별 식별자는 서로 다른 계층의 두 구성 요소 사이에 파티션(특별히 분류된 구성 요소)을 선택적으로 배치하여 고정된 순서로 각 계층에서 하나의 구성 요소를 조립하여 구성할 수 있다. 예를 들어, 구성 요소 세트는 하나의 파티션 구성 요소와 각각 하나의 구성 요소를 포함하는 4개의 계층으로 구성될 수 있다. 각 계층의 구성 요소는 고정된 순서로 결합될 수 있으며 단일 파티션 구성 요소는 계층 사이의 다양한 위치에서 조립될 수 있다. 이 조합 공간의 식별자는 파티션 구성 요소를 포함하지 않을 수 있으며, 첫 번째와 두 번째 레이어의 구성 요소 사이의 파티션 구성 요소, 두 번째와 세 번째 레이어의 구성 요소 사이의 파티션 등을 포함하여 8개의 가능한 식별자의 조합 공간을 만듭니다. 일반적으로 각각 N개의 컴포넌트가 있는 M개의 레이어와 p개의 파티션 컴포넌트가 있는 경우, 구성할 수 있는 식별자의 수는 NK(p+1)M-1개이다. 이 방법은 다양한 길이의 식별자를 생성할 수 있다.
도 17B는 주형 지정 결합을 사용하는 분할 체계의 예시적인 구현을 보여준다(화학적 방법 섹션 B 참조). 주형은 각각의 M 층으로부터 하나의 구성 요소를 고정된 순서로 결합시키기 위한 핵산 서열을 포함한다. 각 파티션 구성 요소에 대해 파티션 구성 요소가 인접한 두 레이어의 구성 요소 사이에 연결할 수 있도록 하는 추가 템플릿 쌍이 있다. 예를 들어 한 쌍의 하나의 템플릿(서열 g*b*(예: 5'에서 3'))이 레이어 1의 3' 말단(서열 b 포함)이 5' 말단에 결합되도록 하는 템플릿 쌍 파티션 구성 요소(서열 g 포함)의 쌍의 두 번째 주형(서열 c*h*(5'에서 3') 포함)이 파티션 구성 요소(서열 h 포함)의 3' 말단을 가능하게 한다. 레이어 2의 5' 말단에 연결한다(서열 c 포함). 인접한 레이어의 임의의 두 구성 요소 사이에 칸막이를 삽입하기 위해, 이들 층을 함께 결합하기 위한 표준 주형은 반응에서 제외될 수 있고 그 위치에서 칸막이를 결합하기 위한 한 쌍의 주형이 반응에서 선택될 수 있다. 현재 예에서 계층 1과 계층 2 사이의 분할 구성 요소를 대상으로 하는 것은 템플릿 쌍 c*h*(5'에서 3') 및 g*b*(5'에서 3')를 사용하여 오히려 반응을 선택할 수 있다. 템플릿 c*b*(5'에서 3'으로)보다. 구성 요소는 반응 혼합물에(각각 첫 번째 및 M번째 레이어 에 연결하기 위한 해당 템플릿과 함께) 포함될 수 있는 가장자리 스캐폴드 사이에 조립될 수 있다.
일반적으로 이 방법에서는 M 레이어와 p 파티션 구성 요소에 대해 총 약 M-1+2*p*(M-1) 개의 선택 가능한 템플릿을 사용할 수 있다. 이러한 파티션 체계의 구현은 동일한 에지 서열이지만 길이가 다른 반응에서 다양한 핵산 서열을 생성할 수 있다. 타겟 식별자는 DNA 크기 선택에 의해 부산물 핵산 서열로부터 분리될 수 있다. 특히, 정확히 M개의 레이어 구성 요소를 가진 핵산 서열 생성물이 정확히 하나만 있을 수 있다. 레이어 구성 요소가 파티션 구성 요소에 비해 충분히 크게 설계된 경우, 식별자 내 구성 요소의 특정 파티셔닝에 관계없이 식별자(및 비타겟 부산물)가 선택될 수 있는 범용 크기 선택 영역을 정의하여 동일한 크기 선택 단계에서 여러 반응에서 분할된 여러 식별자가 분리될 수 있도록 할 수 있다. 핵산 크기 선택에 대해서는 화학적 방법 섹션 E를 참조하시오.
도 18A 및 18B는 다수의 가능한 구성 요소로부터 구성 요소의 임의의 스트링로 구성된 식별자를 구성하기 위한 "비제약 스트링 체계" 또는 "USS"라고 하는 예시적인 방법을 개략적으로 도시한다. 도 18A는 비제약 스트링 체계를 사용하여 구성될 수 있는 3-구성 요소(또는 4-스캐폴드) 길이 식별자의 조합 공간의 예를 보여준다. 비제약 스트링 체계는 하나 이상의 레이어에서 각각 가져온 하나 이상의 고유 구성 요소를 사용하여 길이 K 구성 요소의 개별 식별자를 구성한다. 여기서 각 고유 구성 요소는 식별자의 K 구성 요소 위치 중 하나에 나타날 수 있다(반복 가능). 예를 들어, 각각 하나의 구성 요소를 포함하는 두 개의 레이어에 대해 8개의 가능한 3개 구성 요소 길이 식별자가 있다. 일반적으로, 각각 하나의 구성 요소를 가진 M개의 레이어에는 길이 K 구성 요소의 MK 가능한 식별자가 있다. 도 18B는 템플릿 지시 결합을 사용한 비제약적 스트링 체계의 구현 예시를 보여준다(화학적 방법 섹션 B 참조). 이 방법에서는 K+1 단일 가닥 및 정렬된 스캐폴드 DNA 구성 요소(두 개의 가장자리 스캐폴드 및 K-1 내부 스캐폴드 포함)이 반응 혼합물에 존재한다. 개별 식별자는 인접한 모든 쌍의 스캐폴드 사이에 결합된 단일 구성 요소로 구성된다. 예를 들어, 스캐폴드 A와 B 사이에 결합된 구성 요소, 스캐폴드 C와 D 사이에 결합된 구성 요소, 인접한 모든 K 개의 스캐폴드 접합부가 하나의 구성 요소에 의해 점유될 때까지 이러한 방식으로 구성 요소가 결합된다. 반응에서 서로 다른 레이어에서 선택된 구성 요소는 선택된 스테이플 쌍과 함께 적절한 스캐폴드에 조립되도록 지시하는 스캐폴드에 도입된다. 예를 들어, 스테이플 a*L*(5' ~ 3') 및 A*b*(5' ~ 3') 쌍은 5' 말단 영역 'a'와 3' 말단 영역 'b'를 가진 레이어 1 구성 요소가 L과 A 스캐폴드 사이에 결합하도록 지시한다. 일반적으로 M개의 레이어와 K+1개의 스캐폴드가 있는 경우, 2*M*K의 선택 가능한 스테이플을 사용하여 길이 K의 모든 USS 식별자를 구성할 수 있다. 구성 요소를 5' 말단의 스캐폴드에 연결하는 스테이플은 동일한 구성 요소를 3' 말단의 스캐폴드에 연결하는 스테이플과 분리되어 있기 때문에, 핵산 부산물은 타겟 식별자와 동일한 가장자리 스캐폴드와의 반응에서 형성될 수 있지만, K보다 적은 구성 요소(K+1 스캐폴드 미만) 또는 K보다 많은 구성 요소(K+1 스캐폴드 이상)를 가질 수 있다. 타겟 식별자는 정확히 K개의 구성 요소(K+1 스캐폴드)로 형성될 수 있으므로 모든 구성 요소의 길이가 같고 모든 스캐폴드의 길이가 같도록 설계된 경우 DNA 크기 선택과 같은 기술을 통해 선택할 수 있다. 핵산 크기 선택에 대해서는 화학적 방법 섹션 E를 참조하십시오. 층당 하나의 구성 요소가 있을 수 있는 비제약적 스트링 방식의 특정 실시예에서, 해당 구성 요소는(1) 식별 바코드,(2) 5' 말단과 스캐폴드의 스테이플 매개 결합을 위한 혼성화 영역,(3) 3' 말단과 스캐폴드의 스테이플 매개 결합을 위한 혼성화 영역의 3가지 역할을 모두 수행하는 단일 고유 핵산 서열로만 이루어질 수 있다.
도 18B에 도시된 내부 스캐폴드는 구성 요소에 대한 스캐폴드의 스테이플 매개 5' 결합과 다른(반드시 구별될 필요는 없는) 구성 요소에 대한 스캐폴드의 스테이플 매개 3' 결합 모두에 대해 동일한 혼성화 서열을 사용하도록 설계될 수 있다. 따라서, 도 18B에 도시된 하나의 스캐폴드, 2개의 스테이플 스택 혼성화 이벤트는 스캐폴드와 각 스테이플 사이에서 발생하는 통계적 전후 혼성화 이벤트를 나타내며, 따라서 5' 구성 요소 결합과 3' 구성 요소 결합을 모두 가능하게 한다. 비제약적 스트링 체계의 다른 실시예에서, 스캐폴드는 스테이플 매개 3' 결합을 위한 별개의 3' 혼성화 영역과 스테이플 매개 5' 결합을 위한 별개의 5' 혼성화 영역의 두 개의 연결된 혼성화 영역으로 설계될 수 있다.
도 19A 및 19B는 모 식별자로부터 핵산 서열(또는 구성 요소)을 삭제하여 식별자를 구성하는 "구성 요소 삭제 체계"라고 하는 예시적인 방법을 개략적으로 설명한다. 도 19A는 구성 요소 삭제 체계를 사용하여 구성할 수 있는 가능한 식별자의 조합 공간의 예를 보여준다. 상기 예에서 부모 식별자는 여러 구성 요소로 구성될 수 있다. 상위 식별자는 약 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50개 이상의 구성 요소를 포함할 수 있다. 개별 식별자는 N 개의 가능한 구성 요소에서 임의의 수의 구성 요소를 선택적으로 삭제하여 크기 2N의 "전체" 조합 공간을 만들거나, N 개의 가능한 구성 요소에서 고정된 수의 K 개의 구성 요소를 삭제하여 크기 N초이스K의 "N초이스K" 조합 공간을 만드는 방식으로 구성할 수 있다. 구성 요소가 3개인 상위 식별자가 있는 예제에서 전체 조합 공간은 8이고 3초이스2 조합 공간은 3이 될 수 있다.
도 19B는 이중 가닥 타겟 절단 및 수선(DSTCR)을 사용하는 구성 요소 결실 계획의 예시적인 구현을 보여준다. 모 서열은 뉴클레아제 특이적 타겟 부위(길이가 4염기 이하일 수 있음)가 측면에 있는 구성 요소를 포함하는 단일 가닥 DNA 기질일 수 있으며, 모체는 타겟 부위에 대응하는 하나 이상의 이중 가닥 특이적 뉴클레아제와 함께 배양될 수 있다. 개별 구성 요소는 모체의 구성 요소 DNA(및 측면 뉴클레아제 부위)와 결합하는 상보적인 단일 가닥 DNA(또는 절단 템플릿)를 사용하여 삭제를 타겟으로 삼을 수 있으며, 따라서 뉴클레아제에 의해 양쪽 말단에서 절단될 수 있는 모체에 안정한 이중 가닥 서열을 형성할 수 있다. 또 다른 단일 가닥 DNA(또는 복구 템플릿)가 모체의 분리된 말단(구성 서열이 있던 사이)에 혼성화되어 직접 또는 대체 서열에 의해 가교되어 모체의 결합된 서열에 더 이상 활성 뉴클레아제 타겟 부위가 포함되지 않도록 결합을 위해 함께 모이게 된다. 이 방법을 "이중 가닥 타겟 절단"(DSTC)이라고 한다. 크기 선택은 특정 수의 삭제된 구성 요소가 있는 식별자를 선택하는 데 사용할 수 있다. 핵산 크기 선택에 대해서는 화학적 방법 섹션 E를 참조하시오.
대안적으로, 또는 이에 더하여, 모 식별자는 스페이서 서열에 의해 분리된 구성 요소를 포함하는 이중 또는 단일 가닥 핵산 기질일 수 있으므로 두 구성 요소가 동일한 서열 옆에 있지 않다. 부모 식별자는 Cas9 뉴클레아제와 함께 배양될 수 있다. 개별 구성 요소는 구성 요소의 가장자리에 결합하고 측면 사이트에서 Cas9 매개 절단을 가능하게 하는 가이드 리보핵산(절단 주형)을 사용하여 삭제 대상이 될 수 있다. 단일 가닥 핵산(복구 주형)은 부모 식별자의 분리된 말단(예: 구성 요소 서열이 있었던 말단 사이)에 혼성화하여 결합을 위해 함께 가져올 수 있다. 결합은 직접적으로 또는 대체 서열로 말단을 브릿징함으로써 수행될 수 있으며, 부모 상의 결합된 서열은 더 이상 Cas9에 의해 타겟화될 수 있는 스페이서 서열을 포함하지 않는다. 이 방법은 "서열 특이적 타겟 절단 및 수리" 또는 "SSTCR"이라고 한다.
식별자는 DSTCR의 파생물을 사용하여 구성 요소를 부모 식별자에 삽입하여 구성할 수 있다. 모 식별자는 뉴클레아 제 특이적 타겟 부위(4개 이하의 염기 길이일 수 있음)를 포함하는 단일 가닥 핵산 기질일 수 있으며, 각각은 별개의 핵산 서열 내에 내장되어 있다. 모 식별자는 타겟 부위에 해당하는 하나 이상의 이중 가닥 특이적 뉴클레아제와 함께 배양될 수 있다. 부모 식별자의 개별 타겟 부위는 타겟 부위와 부모 식별자의 별개의 주변 핵산 서열에 결합하는 상보적인 단일 가닥 핵산(절단 주형)으로 구성 요소 삽입을 위해 타겟화될 수 있으므로 이중 가닥 부위를 형성한다. 이중 가닥 부위는 뉴클레아제에 의해 절단될 수 있다. 또 다른 단일 가닥 핵산(복구 주형)은 부모 식별자의 분리된 말단 부분에 혼성화할 수 있으며 구성 요소 서열에 의해 연결된 결합을 위해 이들을 함께 가져와 부모의 결합된 서열이 더 이상 활성 뉴클레아제 타겟 부위를 포함하지 않도록 한다.. 또는 SSTCR의 파생물을 사용하여 구성 요소를 부모 식별자에 삽입할 수 있다. 부모 식별자는 이중 또는 단일 가닥 핵산일 수 있으며 부모는 Cas9 뉴클레아제와 함께 배양될 수 있다. 부모 식별자의 별개의 부위는 가이드 RNA(절단 주형)로 절단 대상이 될 수 있다. 단일 가닥 핵산(복구 주형)은 부모 식별자의 분리된 말단에 혼성화할 수 있으며 부모 식별자의 결합된 서열이 더 이상 활성 뉴클레아제 타겟 부위를 포함하지 않도록 구성 요소 서열에 의해 연결되는 연결을 위해 이들을 함께 가져올 수 있다. 크기 선택은 특정 수의 구성 요소 삽입이 있는 식별자를 선택하는 데 사용할 수 있다.
도 20은 재조합 효소 인식 부위를 갖는 모 식별자를 개략적으로 도시한 도면이다. 상이한 패턴의 인식 부위는 상이한 재조합효소에 의해 인식될 수 있다. 주어진 재조합 효소 세트에 대한 모든 인식 부위는 재조합 효소가 적용될 경우 그 사이의 핵산이 절제될 수 있도록 배열되어 있다. 도 20에 도시된 핵산 가닥은 적용되는 재조합 효소의 서브세트에 따라 25=32개의 서로 다른 서열을 채택할 수 있다. 일부 실시예에서, 도 20에 도시된 바와 같이, 재조합 효소를 사용하여 DNA의 세그먼트를 절제, 이동, 반전 및 전치하여 다른 핵산 분자를 생성함으로써 고유한 분자를 생성할 수 있다. 일반적으로, N 개의 재조합 효소를 사용하면 모체로부터 2N 개의 가능한 식별자가 만들어질 수 있다. 일부 실시예에서, 서로 다른 재조합 효소로부터의 여러 직교 쌍의 인식 부위는 하나의 재조합 효소의 적용이 다운스트림 재조합 효소가 적용될 때 발생하는 재조합 이벤트의 유형에 영향을 미치도록 부모 식별자에 중첩된 방식으로 배열될 수 있다(Roquet 외, 살아있는 세포의 합성 재조합 효소 기반 상태 기계, Science 353(6297): aad8559(2016) 참조, 여기에 참조로 완전히 통합되어 있음). 이러한 시스템은 N개의 재조합효소 순서마다 다른 식별자를 구성할 수 있다(N!). 재조합효소는 Flp 및 Cre와 같은 티로신 계열 또는 PhiC31, BxbI, TP901 또는 A118과 같은 대형 세린 재조합효소 계열에 속할 수 있다. 대형 세린 재조합 효소 계열의 재조합 효소를 사용하면 비가역적 재조합을 촉진하여 다른 재조합 효소보다 식별자를 더 효율적으로 생성할 수 있으므로 유리할 수 있다.
일부 경우에, 단일 핵산 서열은 다수의 재조합 효소를 별개의 순서로 적용하여 다수의 별개의 핵산 서열이 되도록 프로그래밍할 수 있다. 대형 세린 재조합 효소 계열의 경우 재조합 효소 M의 수가 7보다 작거나 같을 수 있는 경우, 서로 다른 서브세트과 순서로 M 개의 재조합 효소를 적용하여 약 ~e1M! 개의 별개의 핵산 서열을 생성할 수 있다. 재조합효소(M)의 수가 7보다 클 수 있는 경우, 생성할 수 있는 서열의 수는 대략 390만 개에 달할 수 있다(예: Roquet 외, 살아있는 세포의 합성 재조합효소 기반 상태 기계, Science 353(6297): aad8559(2016), 본 문서에 전적으로 참조용으로 통합되어 있음). 하나의 공통 염기서열에서 다른 DNA 염기서열을 생성하는 추가적인 방법으로는 CRISPR-Cas, TALENS 및 징크 핑거 뉴클레아제와 같은 타겟 핵산 편집 효소가 포함될 수 있다. 재조합 효소, 타겟 편집 효소 등에 의해 생성된 서열은 본 출원의 어느 도면 및 개시에 개시된 방법과 같이 종래의 방법과 함께 사용될 수 있다.
인코딩할 정보의 비트 스트림이 단일 핵산 분자로 인코딩할 수 있는 것보다 크면 정보를 분할하여 핵산 서열 바코드로 인덱싱할 수 있다. 또한 크기 k의 모든 서브세트 N 세트의 핵산 분자 핵산 분자는 log2(Nchoosek) 비트의 정보를 생성하도록 선택될 수 있다. 바코드는 더 긴 비트 스트림을 인코딩하기 위해 크기 k의 서브세트 내의 핵산 분자에 조립될 수 있다. 예를 들어, M 바코드는 M *log 2(N은 k를 선택) 비트의 정보를 생성하는 데 사용될 수 있다. 세트에서 사용 가능한 핵산 분자의 수 N 과 사용 가능한 바코드의 수 M이 주어지면 크기 k의 서브세트 = k0 정보를 인코딩하기 위해 풀의 총 분자 수를 최소화하도록 선택할 수 있다. 디지털 정보를 인코딩하는 방법은 비트 스트림을 분해하고 개별 요소를 인코딩하는 단계를 포함할 수 있다. 예를 들어, 6비트를 포함하는 비트 스트림은 각 구성 요소가 2비트를 포함하는 3개의 구성 요소로 분할될 수 있다. 각각의 2비트 구성 요소는 정보 카세트를 형성하기 위해 바코드를 찍을 수 있고 함께 그룹화되거나 풀링되어 정보 카세트의 하이퍼풀을 형성할 수 있다.
바코드는 인코딩할 디지털 정보의 양이 하나의 풀에만 들어갈 수 있는 양을 초과하는 경우 정보 인덱싱을 용이하게 할 수 있다. 더 긴 비트 문자열 및/또는 복수의 바이트를 포함하는 정보는, 예를 들어, 핵산 인덱스를 사용하여 인코딩된 고유한 핵산 서열을 갖는 태그를 포함함으로써, 도 7에 개시된 접근법을 계층화하여 인코딩될 수 있다. 정보 카세트 또는 식별자 라이브러리는 주어진 서열이 대응하는 비트 스트림의 구성 요소를 나타내는 바코드 또는 태그 외에 위치 및 비트 값 정보를 제공하는 고유한 핵산 서열을 포함하는 질소 염기 또는 핵산 서열을 포함할 수 있다. 정보 카세트는 하나 이상의 고유한 핵산 서열과 바코드 또는 태그로 구성될 수 있다. 정보 카세트의 바코드 또는 태그는 정보 카세트 및 정보 카세트에 포함된 모든 서열에 대한 참조를 제공할 수 있다. 예를 들어, 정보 카세트의 태그 또는 바코드는 고유 서열이 정보를 인코딩하는 비트 스트림 또는 비트 스팀의 비트 구성 요소의 어느 부분(예: 비트 값 및 비트 위치 정보)을 나타낼 수 있다.
바코드를 사용하면 가능한 식별자의 조합 공간 크기보다 비트 단위의 더 많은 정보를 풀에 인코딩할 수 있다. 예를 들어, 10비트 서열는 두 개의 바이트 집합으로 분리될 수 있으며 각 바이트는 5비트로 구성된다. 각 바이트는 5개의 가능한 고유 식별자 세트에 매핑될 수 있다. 초기에 각 바이트에 대해 생성된 식별자는 동일할 수 있지만 별도의 풀에 보관되거나 정보를 읽는 사람이 특정 핵산 서열이 속한 바이트를 알 수 없을 수 있다. 그러나 각각의 식별자는 인코딩된 정보가 적용되는 바이트에 해당하는 레이블로 바코드를 붙이거나 태그를 붙일 수 있다(예: 바코드 1은 처음 5비트를 제공하기 위해 핵산 풀의 서열에 부착될 수 있고 바코드 2는 두 번째 5비트를 제공하기 위해 핵산 풀의 서열), 두 바이트에 해당하는 식별자는 하나의 풀(예: "하이퍼 풀" 또는 하나 이상의 식별자 라이브러리)로 결합될 수 있다. 하나 이상의 결합된 식별자 라이브러리의 각 식별자 라이브러리는 주어진 식별자가 주어진 식별자 라이브러리에 속하는 것으로 식별하는 별개의 바코드를 포함할 수 있다. 바코드를 식별자 라이브러리의 각각의 식별자에 추가하는 방법은 PCR, Gibson, 결합, 또는 주어진 바코드(예: 바코드 1)가 주어진 핵산 샘플 풀(예: 바코드 1)에 부착할 수 있게 하는 임의의 다른 접근법을 사용하는 것을 포함할 수 있다. 핵산 샘플 풀 1 에, 바코드 2는 핵산 샘플 풀 2에). 하이퍼 풀의 샘플은 시퀀싱 방법으로 읽을 수 있으며 시퀀싱 정보는 바코드 또는 태그를 사용하여 구문 분석할 수 있다. M 바코드 세트와 N 가능한 식별자(조합 공간)가 있는 식별자 라이브러리 및 바코드를 사용하는 방법은 M과 N의 곱과 동일한 길이의 비트 스트림을 인코딩할 수 있다.
일부 실시예에서 식별자 라이브러리는 웰 어레이에 저장될 수 있다. 웰의 어레이는 n 개의 열과 q 개의 행을 갖는 것으로 정의될 수 있고 각각의 웰은 하이퍼 풀에서 2개 이상의 식별자 라이브러리를 포함할 수 있다. 각각의 웰에 인코딩된 정보는 각각의 웰에 포함된 정보보다 큰 크기 nxq의 하나의 큰 연속 정보 항목을 구성할 수 있다. 웰 어레이에 있는 하나 이상의 웰로부터 분취량을 취할 수 있고 시퀀싱, 혼성화 또는 PCR을 사용하여 인코딩을 판독할 수 있다.
핵산 샘플 풀, 하이퍼 풀, 식별자 라이브러리, 식별자 라이브러리 그룹 또는 핵산 샘플 풀 또는 하이퍼 풀을 포함하는 웰은 정보 비트에 해당하는 고유한 핵산 분자(예: 식별자) 및 복수의 보충 핵산 서열. 보충 핵산 서열은 인코딩된 데이터에 해당하지 않을 수 있다(예: 비트 값에 해당하지 않음). 추가 핵산 샘플은 샘플 풀에 저장된 정보를 마스킹하거나 암호화할 수 있다. 보충 핵산 서열은 생물학적 공급원에서 유래되거나 합성적으로 생성될 수 있다. 생물학적 공급원으로부터 유래된 보충 핵산 서열은 무작위로 단편화된 핵산 서열 또는 합리적으로 단편화된 서열을 포함할 수 있다. 생물학적으로 파생된 보충 핵산은 특히 합성적으로 인코딩된 정보(예: 식별자의 조합 공간)가 자연 유전 정보와 유사한다(예: 조각난 게놈). 예에서, 식별자는 생물학적 공급원에서 파생되고 보충 핵산은 생물학적 공급원에서 파생된다. 샘플 풀에는 여러 세트의 식별자와 추가 핵산 서열이 포함될 수 있다. 식별자 및 추가 핵산 서열의 각 세트는 서로 다른 유기체에서 유래할 수 있다. 예에서, 식별자는 하나 이상의 유기체에서 파생되고 보충 핵산 서열은 단일의 다른 유기체에서 파생된다. 보충 핵산 서열은 또한 하나 이상의 유기체로부터 유래될 수 있고 식별자는 보충 핵산이 유래된 유기체와 상이한 단일 유기체로부터 유래될 수 있다. 식별자와 추가 핵산 서열은 모두 여러 다른 유기체에서 유래할 수 있다. 식별자를 보충 핵산 서열과 구별하기 위해 키를 사용할 수 있다.
보충 핵산 서열은 기록된 정보에 대한 메타데이터를 저장할 수 있다. 메타데이터는 원래 정보의 소스 및/또는 원래 정보의 의도된 수신자를 결정 및/또는 승인하기 위한 추가 정보를 포함할 수 있다. 메타데이터는 원본 정보의 형식, 원본 정보를 인코딩하고 기록하는 데 사용되는 도구 및 방법, 원본 정보를 식별자에 기록한 날짜 및 시간에 대한 추가 정보를 포함할 수 있다. 메타데이터는 원본 정보의 형식, 원본 정보를 인코딩하고 기록하는 데 사용되는 도구 및 방법, 원본 정보를 핵산 서열에 기록하는 날짜 및 시간에 대한 추가 정보를 포함할 수 있다. 메타데이터는 정보를 핵산 서열에 기록한 후 원래 정보에 적용된 수정에 대한 추가 정보를 포함할 수 있다. 메타데이터는 원본 정보에 대한 주석 또는 외부 정보에 대한 하나 이상의 참조를 포함할 수 있다. 대안적으로 또는 추가로, 메타데이터는 식별자에 부착된 하나 이상의 바코드 또는 태그에 저장될 수 있다.
식별자 풀의 식별자는 서로 길이가 동일하거나 유사하거나 다를 수 있다. 보충 핵산 서열은 식별자의 길이보다 작거나, 실질적으로 같거나, 더 긴 길이를 가질 수 있다. 보충 핵산 서열은 1염기 이내, 2염기 이내, 3염기 이내, 4염기 이내, 5염기 이내, 6염기 이내, 7염기 이내, 8염기 이내, 9염기 이내, 10염기 이내의 평균 길이를 가질 수 있다. 기준, 또는 식별자의 평균 길이의 더 많은 기준 내에서. 예에서, 보충 핵산 서열은 식별자와 길이가 동일하거나 실질적으로 동일한다. 보충 핵산 서열의 농도는 식별자 라이브러리의 식별자 농도보다 낮거나, 실질적으로 같거나, 높을 수 있다. 보충 핵산의 농도는 식별자의 농도보다 약 1%, 10%, 20%, 40%, 60%, 80%, 100%, %, 125%, 150%, 175%, 200%, 1000%, 1x104%, 1x105%, 1x106%, 1x107%, 1x108% 또는 그 이하일 수 있다. 보충 핵산의 농도는 식별자의 농도보다 약 1%, 10%, 20%, 40%, 60%, 80%, 100%, %, 125%, 150%, 175%, 200%, 1000%, 1x104%, 1x105%, 1x106%, 1x107%, 1x108% 또는 그 이상일 수 있다. 농도가 높을수록 난독화 또는 데이터 은닉에 유리할 수 있다. 예를 들어, 보충 핵산 서열의 농도는 식별자 풀의 식별자 농도보다 훨씬 더 높다(예: 1 x108 % 더 높음).
핵산 서열에 저장된 데이터를 복사하고 액세스하는 방법
또 다른 양태에서, 본 발명은 핵산 서열(들)에 인코딩된 정보를 복사(또는 복제)하는 방법을 제공한다. 핵산 서열(들)에 인코딩된 정보를 복사하는 방법은(a) 식별자 라이브러리를 제공하는 단계 및(b) 식별자 라이브러리의 하나 이상의 복사본을 구축하는 단계를 포함할 수 있다. 식별자 라이브러리는 더 큰 조합 공간으로부터의 복수의 식별자의 서브세트를 포함할 수 있다. 복수의 식별자의 각각의 개별 식별자는 일련의 기호에서 개별 기호에 대응할 수 있다. 식별자는 하나 이상의 구성 요소를 포함할 수 있다. 구성 요소는 핵산 서열을 포함할 수 있다.
또 다른 양태에서, 본 발명은 핵산 서열에 인코딩된 정보에 접근하기 위한 방법을 제공한다. 핵산 서열에 인코딩된 정보에 액세스하기 위한 방법은(a) 식별자 라이브러리를 제공하는 단계, 및(b) 식별자 라이브러리로부터 식별자 라이브러리에 존재하는 식별자의 일부 또는 서브세트를 추출하는 단계를 포함할 수 있다. 식별자 라이브러리는 더 큰 조합 공간으로부터의 복수의 식별자의 서브세트를 포함할 수 있다. 복수의 식별자의 각각의 개별 식별자는 일련의 기호에서 개별 기호에 대응할 수 있다. 식별자는 하나 이상의 구성 요소를 포함할 수 있다. 구성 요소는 핵산 서열을 포함할 수 있다.
정보는 본 문서의 다른 곳에서 설명한 대로 하나 이상의 식별자 라이브러리에 기록될 수 있다. 식별자는 본 문서의 다른 곳에서 설명한 방법을 사용하여 구성할 수 있다. 저장된 데이터는 식별자 라이브러리 또는 하나 이상의 식별자 라이브러리에서 개별 식별자의 복사본을 생성하여 복사할 수 있다. 식별자의 일부를 복사하거나 전체 라이브러리를 복사할 수 있다. 복사는 식별자 라이브러리의 식별자를 증폭하여 수행할 수 있다. 하나 이상의 식별자 라이브러리가 결합되면 단일 식별자 라이브러리 또는 여러 식별자 라이브러리가 복사될 수 있다. 식별자 라이브러리가 보충 핵산 서열을 포함하는 경우, 보충 핵산 서열은 복사되거나 복사되지 않을 수 있다.
식별자 라이브러리의 식별자는 하나 이상의 공통 프라이머 결합 부위를 포함하도록 구성될 수 있다. 하나 이상의 바인딩 사이트는 각 식별자의 가장자리에 위치하거나 각 식별자 전체에 걸쳐 엮일 수 있다. 프라이머 결합 부위는 식별자 라이브러리 특이적 프라이머 쌍 또는 범용 프라이머 쌍이 식별자에 결합하고 증폭하도록 허용할 수 있다. 식별자 라이브러리 내의 모든 식별자 또는 하나 이상의 식별자 라이브러리 내의 모든 식별자는 여러 PCR 사이클에 의해 여러 번 복제될 수 있다. 기존의 PCR은 식별자를 복사하는 데 사용될 수 있으며 식별자는 각 PCR 사이클에서 기하급수적으로 복제될 수 있다. 식별자의 복사본 수는 각 PCR 주기에 따라 기하급수적으로 증가할 수 있다. 선형 PCR은 식별자를 복사하는 데 사용될 수 있으며 식별자는 각 PCR 사이클에서 선형으로 복제될 수 있다. 식별자 사본의 수는 각 PCR 주기에 따라 선형적으로 증가할 수 있다. 식별자는 PCR 증폭 전에 원형 벡터에 결합될 수 있다. 원형 벡터는 식별자 삽입 부위의 각 말단에 바코드를 포함할 수 있다. 식별자를 증폭하기 위한 PCR 프라이머는 바코딩된 에지가 증폭 산물에 식별자와 함께 포함되도록 벡터를 프라이밍하도록 설계될 수 있다. 증폭하는 동안 식별자 간의 재조합으로 인해 각 가장자리에 상관 관계가 없는 바코드를 포함하는 복사된 식별자가 생성될 수 있다. 상관관계가 없는 바코드는 식별자를 읽을 때 감지할 수 있다. 상관관계가 없는 바코드를 포함하는 식별자는 잘못된 긍정으로 간주될 수 있으며 정보 디코딩 프로세스 중에 무시될 수 있다. 화학적 방법 섹션 D를 참조하시오.
정보는 각 정보 비트를 고유한 핵산 분자에 할당하여 인코딩할 수 있다. 예를 들어, 각각 2개의 핵산 서열을 포함하는 3개의 샘플 세트(X, Y 및 Z)는 8개의 고유한 핵산 분자로 조립되고 8비트의 데이터를 인코딩할 수 있다.
N1 = X1Y1Z1
N2 = X1Y1Z2
N3 = X1Y2Z1
N4 = X1Y2Z2
N5 = X2Y1Z1
N6 = X2Y1Z2
N7 = X2Y2Z1
N8 = X2Y2Z2
그런 다음 스트링의 각 비트는 해당 핵산 분자에 할당될 수 있다(예를 들어, N1은 첫 번째 비트를 지정할 수 있고, N2는 두 번째 비트를 지정할 수 있으며, N3은 세 번째 비트를 지정할 수 있는 등). 전체 비트 스트링은 '1'의 비트 값에 해당하는 핵산 분자가 조합 또는 풀에 포함된 핵산 분자의 조합에 할당될 수 있다. 예를 들어, UTF-8 코딩에서 문자 'K'는 8비트 문자열 코드 01001011로 표시될 수 있으며, 이는 4개의 핵산 분자의 존재로 인코딩될 수 있다(예: 위 예시에서는 X1Y1Z2, X2Y1Z1, X2Y2Z1 및 X2Y2Z2).
정보는 시퀀싱 또는 혼성화 분석을 통해 액세스할 수 있다. 예를 들어, 프라이머 또는 프로브는 핵산 서열의 공통 영역 또는 바코딩된 영역에 결합하도록 설계될 수 있다. 이것은 핵산 분자의 모든 영역의 증폭을 가능하게 할 수 있다. 그런 다음 증폭 산물은 증폭 산물을 시퀀싱하거나 혼성화 분석으로 판독할 수 있다. 문자 'K'를 암호화하는 위의 예에서 데이터의 전반부가 관심 있는 경우 X1 핵산 서열의 바코드 영역에 특이적인 프라이머와 Z 세트의 공통 영역에 결합하는 프라이머를 사용할 수 있다. 핵산 분자를 증폭한다. 이것은 0100을 인코딩할 수 있는 서열 Y1Z2를 반환할 수 있다. 해당 데이터의 하위 스트링은 Y1 핵산 서열의 바코드 영역에 결합하는 프라이머와 Z 세트의 공통 서열. 이것은 하위 스트링 01을 인코딩하는 Z2 핵산 서열을 반환할 수 있다. 또는 시퀀싱 없이 특정 핵산 서열의 존재 또는 부재를 확인하여 데이터에 액세스할 수 있다. 예를 들어, Y2 바코드에 특정한 프라이머를 사용한 증폭은 Y2 바코드에 대한 증폭 산물을 생성할 수 있지만 Y1 바코드에 대한 증폭 산물은 생성하지 않을 수 있다. Y2 증폭 생성물의 존재는 '1'의 비트 값을 시그널링할 수 있다. 대안적으로, Y2 증폭 생성물의 부재는 '0'의 비트 값을 시그널링할 수 있다.
PCR 기반 방법은 식별자 또는 핵산 샘플 풀에서 데이터에 액세스하고 복사하는 데 사용할 수 있다. 풀 또는 하이퍼 풀에서 식별자 옆에 있는 공통 프라이머 결합 사이트를 사용하여 정보를 포함하는 핵산을 쉽게 복사할 수 있다. 또는, 등온 증폭과 같은 다른 핵산 증폭 접근법을 사용하여 샘플 풀 또는 하이퍼 풀(예: 식별자 라이브러리)에서 데이터를 쉽게 복사할 수 있다. 핵산 증폭에 대해서는 화학적 방법 섹션 D를 참조하시오. 샘플이 하이퍼 풀로 구성된 경우, 식별자의 한쪽 가장자리에 정방향으로 특정 바코드에 결합하는 프라이머와 식별자의 반대쪽 가장자리에 역방향으로 공통 서열에 결합하는 다른 프라이머를 사용하여 특정 정보 서브세트(예: 특정 바코드와 관련된 모든 핵산)에 액세스하고 검색할 수 있다. 이 프로세스는 식별자의 하위 풀에서 하위 풀에 액세스하기 위해 여러 번 반복될 수 있다(예: 두 개 이상의 특정 바코드가 있는 모든 핵산). 예를 들어, Nested PCR을 사용하여 먼저 한쪽 가장자리의 특정 바코드에 결합하는 프라이머를 사용한 다음 다시 해당 가장자리에서 제거된 특정 바코드에 결합하는 특정 프라이머를 사용한 다음 다시 결합하는 특정 프라이머를 사용한다. 상기 가장자리에서 제거된 바코드 2개 등등. 다양한 판독 방법을 사용하여 암호화된 핵산 에서 정보를 가져올 수 있다. 예를 들어 마이크로어레이(또는 모든 종류의 형광 혼성화), 디지털 PCR, 정량적 PCR(qPCR) 및 다양한 시퀀싱 플랫폼을 추가로 사용하여 인코딩된 서열를 판독하고 디지털 방식으로 인코딩된 데이터를 확장할 수 있다.
핵산 분자(예: 식별자)에 저장된 정보에 액세스하는 것은 식별자 라이브러리 또는 식별자 풀에서 비타겟 식별자의 일부를 선택적으로 제거하거나, 예를 들어 풀에서 식별자 라이브러리의 모든 식별자를 선택적으로 제거하여 수행할 수 있다. 여러 식별자 라이브러리의 식별자 라이브러리 또는 식별자 풀에서 대상 식별자를 선택적으로 캡처하여 데이터에 액세스할 수도 있다. 대상 식별자는 더 큰 정보 항목 내의 관심 데이터에 해당할 수 있다. 식별자 풀은 보충 핵산 분자를 포함할 수 있다. 추가 핵산 분자는 인코딩된 정보에 대한 메타데이터를 포함할 수 있거나 정보에 해당하는 식별자를 암호화하거나 마스킹하는 데 사용될 수 있다. 추가 핵산 분자는 타겟 식별자에 액세스하는 동안 추출되거나 추출되지 않을 수 있다. 도 도 21a 내지 21c는 다수의 식별자로부터 다수의 특정 식별자에 액세스함으로써 핵산 서열에 저장된 정보의 일부에 액세스하기 위한 예시적인 방법의 개요를 개략적으로 도시한다. 도 21A는 중합효소 연쇄 반응, 선호도 태그 프로브 및 분해 타겟화 프로브를 사용하여 특정 구성 요소를 포함하는 식별자에 액세스하기 위한 예시적인 방법을 도시한다. PCR 기반 액세스의 경우, 식별자 풀(예: 식별자 라이브러리)은 각 말단에 공통 서열, 각 말단에 가변 서열, 또는 각 말단에 공통 서열 또는 가변 서열 중 하나를 갖는 식별자를 포함할 수 있다. 공통 서열 또는 가변 서열은 프라이머 결합 부위일 수 있다. 하나 이상의 프라이머가 식별자 가장자리의 공통 또는 가변 영역에 결합할 수 있다. 프라이머가 결합된 식별자는 PCR에 의해 증폭될 수 있다. 증폭된 식별자는 증폭되지 않은 식별자보다 훨씬 더 많을 수 있다. 판독하는 동안 증폭된 식별자를 식별할 수 있다. 식별자 라이브러리의 식별자는 해당 라이브러리와 구별되는 한쪽 또는 양쪽 말단의 서열를 포함할 수 있으므로 단일 라이브러리가 하나 이상의 식별자 라이브러리 풀 또는 그룹에서 선택적으로 액세스될 수 있다.
선호도 태그 기반 액세스의 경우 핵산 캡처라고 할 수 있는 프로세스에서 풀의 식별자를 구성하는 구성 요소는 하나 이상의 프로브와 상보성을 공유할 수 있다. 하나 이상의 프로브는 액세스할 식별자에 결합하거나 혼성화할 수 있다. 프로브는 선호도 태그를 포함할 수 있다. 선호도 태그는 비드에 결합하여 비드, 적어도 하나의 프로브 및 적어도 하나의 식별자를 포함하는 복합체를 생성할 수 있다. 비드는 자기적일 수 있으며 자석과 함께 비드는 액세스할 식별자를 수집하고 격리할 수 있다. 식별자는 읽기 전에 변성 조건에서 비드에서 제거할 수 있다. 대안으로 또는 추가로, 비드는 비타겟 식별자를 수집하고 별도의 용기로 세척되어 읽을 수 있는 풀의 나머지 부분에서 분리할 수 있다. 선호도 태그는 열에 바인딩될 수 있다. 액세스할 식별자는 캡처를 위해 열에 바인딩될 수 있다. 컬럼 바운드 식별자는 이후에 읽기 전에 컬럼에서 용출되거나 변성될 수 있다. 대안적으로, 대상이 아닌 식별자는 열을 선택적으로 대상으로 할 수 있는 반면 대상 식별자는 열을 통해 흐를 수 있다. 타겟 식별자에 액세스하는 것은 하나 이상의 프로브를 식별자 풀에 동시에 적용하거나 하나 이상의 프로브를 식별자 풀에 순차적으로 적용하는 것을 포함할 수 있다. 핵산 캡처에 대한 화학적 방법 섹션 F를 참조하시오.
성능 저하 기반 액세스의 경우 풀에서 식별자를 구성하는 구성 요소는 하나 이상의 성능 저하 대상 프로브와 상보성을 공유할 수 있다. 프로브는 식별자의 개별 구성 요소에 결합하거나 혼성화할 수 있다. 프로브는 엔도뉴클레아제와 같은 분해 효소의 타겟이 될 수 있다. 예에서, 하나 이상의 식별자 라이브러리가 결합될 수 있다. 프로브 세트는 식별자 라이브러리 중 하나와 혼성화할 수 있다. 프로브 세트는 RNA를 포함할 수 있고 RNA는 Cas9 효소를 안내할 수 있다. Cas9 효소는 하나 이상의 식별자 라이브러리에 도입될 수 있다. 프로브와 혼성화된 식별자는 Cas9 효소에 의해 분해될 수 있다. 액세스할 식별자는 분해 효소에 의해 분해되지 않을 수 있다. 또 다른 예에서, 식별자는 단일 가닥일 수 있고 식별자 라이브러리는 접근되지 않는 식별자를 선택적으로 분해하는 S1 뉴클레아제와 같은 단일 가닥 특정 엔도뉴클레아제(들)와 조합될 수 있다. 액세스할 식별자는 단일 가닥 특정 엔도뉴클레아제(들)에 의한 분해로부터 식별자를 보호하기 위해 상보적인 식별자 세트와 혼성화될 수 있다. 액세스할 식별자는 크기 선택 크로마토그래피(예: 아가로스 겔 전기영동)와 같은 크기 선택에 의해 분해 산물에서 분리될 수 있다. 대안적으로 또는 추가적으로, 분해되지 않은 식별자는 분해 산물이 증폭되지 않도록 선택적으로 증폭될 수 있다(예: PCR 사용). 분해되지 않은 식별자는 분해되지 않은 식별자의 각 말단에 혼성화하므로 분해되거나 절단된 식별자의 각 말단에 혼성화되지 않는 프라이머를 사용하여 증폭될 수 있다.
도 21B는 다중 구성 요소를 함유하는 식별자에 접근하기 위해 'OR' 또는 'AND' 연산을 수행하기 위해 중합효소 연쇄 반응을 사용하는 예시적인 방법을 보여준다. 예를 들어, 2개의 정방향 프라이머가 왼쪽 말단에 있는 별개의 식별자 세트에 결합하는 경우, 이러한 식별자 세트의 합집합의 'OR' 증폭은 2개의 정방향 프라이머를 역방향 다중 PCR 반응에서 함께 사용하여 달성될 수 있다. 오른쪽 말단에 있는 모든 식별자를 바인딩하는 프라이머. 또 다른 예에서, 하나의 정방향 프라이머가 왼쪽 말단에 있는 일련의 식별자에 결합하고 하나의 역방향 프라이머가 오른쪽 말단에 있는 일련의 식별자에 결합하는 경우, 이 두 식별자 세트의 교차점의 'AND' 증폭은 다음과 같이 달성될 수 있다. PCR 반응에서 정방향 프라이머와 역방향 프라이머를 프라이머 쌍으로 함께 사용한다. 이 프로세스는 임의 개수의 공통 구성 요소를 갖는 식별자 하위 풀에 액세스하기 위해 순차적 방식(예: 중첩된 PCR)으로 반복될 수 있다.
식별자 라이브러리에 대한 PCR 기반 액세스가 반복될 때마다 프라이머가 반복적으로 각 가장자리에서 더 안쪽으로 구성 요소를 결합하도록 설계되었기 때문에 식별자가 더 짧아질 수 있다. 예를 들어, 식별자 라이브러리는 ABCDEFG 형식의 식별자를 포함할 수 있으며, 여기서 A, B, C, D, E, F 및 G는 계층이다. 특정 구성 요소, 예를 들어 레이어 A 및 G 각각의 A1 및 G1에 결합하는 프라이머로 증폭시, 식별자 라이브러리의 증폭된 부분은 A1-BCDEFG1의 형태를 취할 수 있다. 특정 구성 요소, 예를 들어 레이어 B 및 F 각각의 B1 및 F1에 결합하는 프라이머로 추가 증폭 시, 식별자 라이브러리의 증폭된 부분은 B1 -CDEF1의 형태를 취할 수 있으며, 여기에서 다음과 같이 가정할 수 있다. 더 짧은 증폭 서열는 레이어 A의 위치에 구성 요소 A1 및 레이어 G의 위치에 구성 요소 G1을 추가로 포함하는 전체 식별자에 해당한다.
도 21C는 선호도 태그를 사용하여 여러 구성 요소를 포함하는 식별자에 액세스하기 위해 'OR' 또는 'AND' 연산을 수행하는 방법의 예를 보여준다. 예를 들어, 선호도 프로브 'P1'이 구성 요소 'C1'을 갖는 모든 식별자를 캡처하고 다른 선호도 프로브 'P2'가 구성 요소 'C2'를 갖는 모든 식별자를 캡처하는 경우, P1과 P2를 동시에 사용하여 C1 또는 C2를 갖는 모든 식별자 집합을 캡처할 수 있다('OR' 연산에 대응). 동일한 구성 요소와 프로브가 있는 또 다른 예에서는 P1과 P2를 순차적으로 사용하여('AND' 연산에 해당) C1 및 C2가 포함된 모든 식별자 집합을 캡처할 수 있다.
핵산 서열에 저장된 정보를 읽는 방법
[00215] 또 다른 양태에서, 본 발명은 핵산 서열에 인코딩된 정보를 판독하는 방법을 제공한다. 핵산 서열에 인코딩된 정보를 판독하는 방법은(a) 식별자 라이브러리를 제공하는 단계,(b) 식별자 라이브러리에 존재하는 식별자를 식별하는 단계,(c) 식별자 라이브러리에 존재하는 식별자로부터 일련의 기호를 생성하는 단계, 및(d) 기호 스트링에서 정보를 컴파일한다. 식별자 라이브러리는 조합 공간으로부터의 복수의 식별자의 서브세트를 포함할 수 있다. 식별자의 서브세트의 각각의 개별 식별자는 일련의 기호에 있는 개별 기호에 대응할 수 있다. 식별자는 하나 이상의 구성 요소를 포함할 수 있다. 구성 요소는 핵산 서열을 포함할 수 있다.
정보는 본 문서의 다른 곳에서 설명한 대로 하나 이상의 식별자 라이브러리에 기록될 수 있다. 식별자는 본 문서의 다른 곳에서 설명한 방법을 사용하여 구성할 수 있다. 저장된 데이터는 여기의 다른 곳에서 설명된 방법을 사용하여 복사 및 액세스할 수 있다.
식별자는 인코딩된 기호의 위치, 인코딩된 기호의 값, 또는 인코딩된 기호의 위치 및 값 모두에 관한 정보를 포함할 수 있다. 식별자는 인코딩된 기호의 위치와 관련된 정보를 포함할 수 있으며 식별자 라이브러리에 식별자가 있는지 여부는 기호의 값을 나타낼 수 있다. 식별자 라이브러리에 식별자가 있다는 것은 이진 스트링에서 첫 번째 기호 값(예를 들어, 첫 번째 비트 값)을 나타낼 수 있고 식별자 라이브러리에 식별자가 없다는 것은 두 번째 기호 값(예를 들어, 두 번째 비트 값)을 나타낼 수 있다. 이진 스트링. 이진 시스템에서 식별자 라이브러리에 있는 식별자의 존재 여부에 따라 비트 값을 지정하면 조합된 식별자의 수를 줄일 수 있으므로 기록 시간이 단축된다. 일 예에서, 식별자의 존재는 매핑된 위치에서 '1'의 비트 값을 나타낼 수 있고, 식별자의 부재는 매핑된 위치에서 '0'의 비트 값을 나타낼 수 있다.
정보 조각에 대한 기호(예를 들어, 비트 값)을 생성하는 것은 기호(예를 들어, 비트)이 매핑되거나 인코딩될 수 있는 식별자의 존재 또는 부재를 식별하는 것을 포함할 수 있다. 식별자의 존재 또는 부재를 결정하는 것은 존재하는 식별자를 시퀀싱하거나 혼성화 어레이를 사용하여 식별자의 존재를 검출하는 것을 포함할 수 있다. 예에서, 인코딩된 서열를 디코딩하고 판독하는 것은 시퀀싱 플랫폼을 사용하여 수행될 수 있다. 시퀀싱 플랫폼의 예는 2014년 8월 21일 출원된 미국 특허 출원 제14/465,685호, 2013년 5월 2일 출원된 미국 특허 출원 제13/886,234호 및 2009년 3월 9일 출원된 미국 특허 출원 제12/400,593호에 기재되어 있으며, 각 출원은 본 문서에 참조로 완전히 통합되어 있다.
예에서, 핵산 인코딩 데이터를 해독하는 것은 Illumina® 시퀀싱과 같은 핵산 가닥의 염기별 시퀀싱에 의해 또는 특정 핵산 서열의 존재 또는 부재를 나타내는 시퀀싱 기술을 활용함으로써 달성될 수 있다. 모세관 전기영동에 의한 단편화 분석. 시퀀싱은 가역적 터미네이터를 사용할 수 있다. 시퀀싱은 천연 또는 비천연(예: 조작된) 뉴클레오티드 또는 뉴클레오티드 유사체의 사용을 사용할 수 있다. 대안적으로 또는 이에 더하여, 핵산 서열의 해독은 광학적, 전기화학적 또는 화학적 신호를 생성하는 임의의 방법을 포함하지만 이에 제한되지 않는 다양한 분석 기술을 사용하여 수행될 수 있다. 다양한 시퀀싱 접근법이 중합효소 연쇄 반응(PCR), 디지털 PCR, 생어 시퀀싱, 고처리량 시퀀싱, 합성 시퀀싱, 단일 분자 시퀀싱, 연결 시퀀싱, RNA-Seq(Illumina), 차세대 시퀀싱, 디지털 유전자 발현(Helicos), 클론 단일 마이크로어레이(Solexa), 샷건 시퀀싱, 맥심-길버트 시퀀싱 또는 대규모 병렬 시퀀싱 등을 포함하되 이에 국한되지 않는 사용될 수 있다,
다양한 판독 방법을 사용하여 암호화된 핵산 에서 정보를 가져올 수 있다. 예에서, 마이크로어레이(또는 임의의 종류의 형광 혼성화), 디지털 PCR, 정량적 PCR(qPCR) 및 다양한 시퀀싱 플랫폼을 추가로 사용하여 인코딩된 서열을 판독하고 디지털 방식으로 인코딩된 데이터를 읽을 수 있다.
식별자 라이브러리는 정보에 대한 메타데이터를 제공하거나, 정보를 암호화 또는 마스킹하거나, 또는 메타데이터를 제공하고 정보를 마스킹하는 보충 핵산 서열을 추가로 포함할 수 있다. 보충 핵산은 식별자의 식별과 동시에 식별될 수 있다. 대안적으로, 보충 핵산은 식별자를 식별하기 전 또는 후에 식별할 수 있다. 예에서, 보충 핵산은 인코딩된 정보를 읽는 동안 식별되지 않다. 보충 핵산 서열은 식별자와 구별할 수 없다. 식별자 인덱스 또는 키를 사용하여 보충 핵산 분자를 식별자와 구별할 수 있다.
더 적은 수의 핵산 분자를 사용할 수 있도록 입력 비트 스트링을 다시 코딩하여 데이터를 인코딩 및 디코딩하는 효율성을 높일 수 있다. 예를 들어, 인코딩 방법을 사용하여 3개의 핵산 분자(예: 식별자)에 매핑할 수 있는 '111' 하위 스트링이 많이 발생하는 입력 스트링이 수신된 경우 매핑할 수 있는 '000' 하위 스트링로 기록될 수 있다. 핵산 분자의 null 세트에. '000'의 대체 입력 하위 스트링도 '111'로 기록될 수 있다. 이 코딩 방법은 데이터세트에서 'l'의 수가 감소할 수 있기 때문에 데이터를 인코딩하는 데 사용되는 핵산 분자의 총량을 줄일 수 있다. 이 예에서는 새 매핑 지침을 지정하는 코드북을 수용하기 위해 데이터 세트의 전체 크기를 늘릴 수 있다. 인코딩 및 디코딩 효율을 높이기 위한 대안적인 방법은 가변 길이를 줄이기 위해 입력 스트링을 다시 코딩하는 것일 수 있다. 예를 들어 '111'은 데이터세트의 크기를 축소하고 데이터세트의 '1' 수를 줄일 수 있는 '00'으로 다시 코딩될 수 있다.
핵산 인코딩된 데이터를 디코딩하는 속도 및 효율성은 검출 용이성을 위해 식별자를 구체적으로 설계함으로써 제어(예를 들어, 증가)될 수 있다. 예를 들어, 검출이 용이하도록 설계된 핵산 서열(예를 들어, 식별자)은 광학적, 전기화학적, 화학적 또는 물리적 특성에 기초하여 호출하고 검출하기 더 쉬운 대부분의 뉴클레오티드를 포함하는 핵산 서열을 포함할 수 있다. 조작된 핵산 서열은 단일 또는 이중 가닥일 수 있다. 조작된 핵산 서열은 핵산 서열의 검출 가능한 특성을 향상시키는 합성 또는 비천연 뉴클레오티드를 포함할 수 있다. 조작된 핵산 서열은 모든 천연 뉴클레오티드, 모든 합성 또는 비천연 뉴클레오티드, 또는 천연, 합성 및 비천연 뉴클레오티드의 조합을 포함할 수 있다. 합성 뉴클레오티드는 펩티드 핵산, 잠긴 핵산, 글리콜 핵산 및 트레오스 핵산과 같은 뉴클레오티드 유사체를 포함할 수 있다. 비천연 뉴클레오티드는 3-메톡시-2-나프틸 그룹을 함유하는 인공 뉴클레오사이드인 dNaM 및 6-메틸이소퀴놀린-1-티온-2-일 그룹을 함유하는 인공 뉴클레오사이드인 d5SICS를 포함할 수 있다. 조작된 핵산 서열은 향상된 광학 특성과 같은 단일 향상된 특성을 위해 설계될 수 있거나, 설계된 핵산 서열은 향상된 광학 및 전기화학적 특성 또는 향상된 광학 및 화학적 특성과 같은 다중 향상된 특성으로 설계될 수 있다. DNA 설계에 대한 화학적 방법 섹션 H를 참조하시오.
조작된 핵산 서열은 핵산 서열의 광학적, 전기화학적, 화학적 또는 물리적 특성을 개선하지 않는 반응성 천연, 합성 및 비천연 뉴클레오티드를 포함할 수 있다. 핵산 서열의 반응성 구성 요소는 핵산 서열에 개선된 특성을 부여하는 화학적 모이어티의 추가를 가능하게 할 수 있다. 각각의 핵산 서열은 단일 화학적 부분을 포함할 수 있거나 다수의 화학적 부분을 포함할 수 있다. 예시적인 화학적 잔기는 형광성 잔기, 화학발광성 잔기, 산성 또는 염기성 잔기, 소수성 또는 친수성 잔기, 및 핵산 서열의 산화 상태 또는 반응성을 변경하는 잔기를 포함할 수 있지만, 이에 제한되지 않는다.
시퀀싱 플랫폼은 핵산 서열로 인코딩된 정보를 디코딩하고 판독하기 위해 특별히 설계될 수 있다. 시퀀싱 플랫폼은 단일 또는 이중 가닥 핵산 분자의 시퀀싱 전용일 수 있다. 시퀀싱 플랫폼은 개별 염기를 판독(예: 염기별 시퀀싱)하거나 핵산 분자(예: 식별자). 시퀀싱 플랫폼은 난잡한 시약의 사용, 판독 길이의 증가, 검출 가능한 화학적 부분의 추가에 의한 특정 핵산 서열의 검출을 포함할 수 있다. 시퀀싱 중에 더 많은 난잡한 시약을 사용하면 더 빠른 기본 호출을 가능하게 하여 판독 효율성을 높일 수 있으며 결과적으로 시퀀싱 시간을 줄일 수 있다. 증가된 판독 길이의 사용은 판독당 해독될 인코딩된 핵산의 더 긴 서열을 가능하게 할 수 있다. 검출 가능한 화학적 부분 태그의 추가는 화학적 부분의 존재 또는 부재에 의해 핵산 서열의 존재 또는 부재의 검출을 가능하게 할 수 있다. 예를 들어, 약간의 정보를 암호화하는 각각의 핵산 서열은 고유한 광학적, 전기화학적 또는 화학적 신호를 생성하는 화학적 부분으로 태그될 수 있다. 그 고유한 광학적, 전기화학적 또는 화학적 신호의 존재 또는 부재는 '0' 또는 '1' 비트 값을 나타낼 수 있다. 핵산 서열은 단일 화학적 부분 또는 다중 화학적 부분을 포함할 수 있다. 화학적 모이어티는 데이터를 인코딩하기 위해 핵산 서열을 사용하기 전에 핵산 서열에 부가될 수 있다. 대안적으로 또는 추가로, 화학적 모이어티는 데이터를 인코딩한 후, 그러나 데이터를 디코딩하기 전에 핵산 서열에 추가될 수 있다. 화학적 부분 태그는 핵산 서열에 직접 부가될 수 있거나 핵산 서열은 합성 또는 비천연 뉴클레오티드 앵커를 포함할 수 있고 화학적 부분 태그는 그 앵커에 부가될 수 있다.
인코딩 및 디코딩 오류를 최소화하거나 감지하기 위해 고유 코드를 적용할 수 있다. 잘못된 음성(예: 무작위 샘플링에 포함되지 않은 핵산 분자 또는 식별자)에서 인코딩 및 디코딩 오류가 발생할 수 있다. 오류 검출 코드의 예는 식별자 라이브러리에 포함된 가능한 식별자의 연속 세트에서 식별자의 수를 세는 체크섬 서열일 수 있다. 식별자 라이브러리를 읽는 동안 체크섬은 인접한 식별자 집합에서 검색할 것으로 예상되는 식별자의 수를 나타낼 수 있으며, 식별자는 예상된 숫자가 충족될 때까지 읽기를 위해 계속 샘플링될 수 있다. 일부 실시예에서, 체크섬 서열는 R 식별자의 모든 연속 세트에 대해 포함될 수 있으며, 여기서 R은 크기가 같거나 1, 2, 5, 10, 50, 100, 200, 500 또는 1000보다 크거나 1000보다 작을 수 있다. 500, 200, 100, 50, 10, 5 또는 2. R 값이 작을수록 오류 감지가 더 좋다. 일부 실시예에서, 체크섬은 보충 핵산 서열일 수 있다. 예를 들어, 7개의 핵산 서열(예를 들어, 구성 요소)을 포함하는 세트는 2개의 그룹, 생성물 체계를 갖는 식별자를 구성하기 위한 핵산 서열(레이어 X의 구성 요소 X1-X3 및 레이어 Y의 구성 요소 Y1-Y3), 및 보충 체크섬(X4-X7 및 Y4-Y7)에 대한 핵산 서열. 체크섬 서열 X4-X7은 레이어 X의 서열가 0, 1, 2 또는 3개인지 여부를 나타낼 수 있다. 레이어 Y의 각 구성원은 레이어 X의 각 구성원과 조립된다. 이 예에서 식별자가 {X1Y1, X1Y3, X2Y1, X2Y2, X2Y3}인 원래 식별자 라이브러리는 다음 풀이 되는 체크섬을 포함하도록 보완될 수 있다. {X1Y1, X1Y3, X2Y1, X2Y2, X2Y3, X1Y6, X2Y7, X3Y4, X6Y1, X5Y2, X6Y3}. 체크섬 서열는 오류 수정에도 사용할 수 있다. 예를 들어, 위의 데이터 세트에 X1Y1이 없고 X1Y6 및 X6Y1이 있으면 데이터 세트에서 X1Y1 핵산 분자가 누락되었음을 추론할 수 있다. 체크섬 서열는 식별자 라이브러리의 샘플링 또는 식별자 라이브러리의 액세스된 부분에서 식별자가 누락되었는지 여부를 나타낼 수 있다. 누락된 체크섬 서열의 경우 PCR 또는 선호도 태그 프로브 혼성화와 같은 액세스 방법이 이를 증폭 및/또는 분리할 수 있다. 일부 실시예에서, 체크섬은 보충 핵산 서열이 아닐 수 있다. 체크섬은 식별자로 표시되도록 정보에 직접 코딩될 수 있다.
데이터 인코딩 및 디코딩의 노이즈는 식별자를 회문식으로 구성함으로써 감소될 수 있다. 예를 들어 제품 체계에서 단일 구성 요소가 아닌 구성 요소의 회문 쌍을 사용한다. 그런 다음 서로 다른 레이어의 구성 요소 쌍이 회문 방식으로 서로 어셈블될 수 있다(예: 구성 요소 X 및 Y에 대해 XY 대신 YXY). 이 팰린드롬 방법은 더 많은 수의 레이어(예: XYZ 대신 ZYXYZ)로 확장될 수 있으며 식별자 간의 잘못된 교차 반응을 감지할 수 있다.
보충 핵산 서열을 식별자에 과량(예: 막대한 과량)으로 추가하면 시퀀싱이 인코딩된 식별자를 복구하는 것을 방지할 수 있다. 정보를 해독하기 전에 식별자는 보충 핵산 서열에서 풍부해질 수 있다. 예를 들어, 식별자는 식별자 말단에 특이적인 프라이머를 사용하는 핵산 증폭 반응에 의해 강화될 수 있다. 대안적으로 또는 추가로, 정보는 특정 프라이머를 사용하는 시퀀싱(예: 합성에 의한 시퀀싱)에 의해 샘플 풀을 강화하지 않고 해독될 수 있다. 두 가지 디코딩 방법 모두에서 디코딩 키가 없거나 식별자 구성에 대한 정보 없이 정보를 강화하거나 디코딩하는 것이 어려울 수 있다. 선호도 태그 기반 프로브를 사용하는 것과 같은 대체 액세스 방법을 사용할 수도 있다.
이진 서열 데이터 인코딩 시스템
디지털 정보를 핵산(예: DNA)으로 인코딩하기 위한 시스템은 파일 및 데이터(예: 원시 데이터, 압축된 zip 파일, 정수 데이터 및 기타 형태의 데이터)를 바이트로 변환하고 데이터를 인코딩하기 위한 시스템, 방법 및 장치를 포함할 수 있다. 바이트를 핵산의 세그먼트 또는 서열, 일반적으로 DNA 또는 이들의 조합으로 변환한다.
한 양태에서, 본 발명은 핵산을 사용하여 이진 서열 데이터를 인코딩하기 위한 시스템을 제공한다. 핵산을 사용하여 이진 서열 데이터를 인코딩하기 위한 시스템은 장치 및 하나 이상의 컴퓨터 프로세서를 포함할 수 있다. 장치는 식별자 라이브러리를 구성하도록 구성될 수 있다. 하나 이상의 컴퓨터 프로세서는(i) 정보를 일련의 기호로 변환하고,(ii) 기호 스트링을 복수의 식별자에 매핑하고,(iii) 적어도 복수의 식별자의 서브세트. 복수의 식별자 중 개별 식별자는 기호열의 개별 기호에 대응할 수 있다. 복수의 식별자 중 개별 식별자는 하나 이상의 구성 요소를 포함할 수 있다. 하나 이상의 구성 요소의 개별 구성 요소는 핵산 서열을 포함할 수 있다.
또 다른 양태에서, 본 발명은 핵산을 사용하여 이진 서열 데이터를 판독하기 위한 시스템을 제공한다. 핵산을 사용하여 이진 서열 데이터를 판독하기 위한 시스템은 데이터베이스 및 하나 이상의 컴퓨터 프로세서를 포함할 수 있다. 데이터베이스는 정보를 인코딩하는 식별자 라이브러리를 저장할 수 있다. 하나 이상의 컴퓨터 프로세서는(i) 식별자 라이브러리에서 식별자를 식별하고,(ii)(i)에서 식별된 식별자로부터 복수의 기호를 생성하고,(iii) 복수의 심볼로부터 정보를 컴파일하도록 개별적으로 또는 집합적으로 프로그래밍될 수 있다. 식별자 라이브러리는 복수의 식별자의 부분 집합을 포함할 수 있다. 복수의 식별자의 각각의 개별 식별자는 일련의 기호에서 개별 기호에 대응할 수 있다. 식별자는 하나 이상의 구성 요소를 포함할 수 있다. 구성 요소는 핵산 서열을 포함할 수 있다.
디지털 데이터를 인코딩하기 위해 시스템을 사용하는 방법의 비제한적 실시예는 바이트 스트림의 형태로 디지털 정보를 수신하는 단계를 포함할 수 있다. 바이트 스트림을 개별 바이트로 구문 분석하고, 핵산 인덱스(또는 식별자 순위)를 사용하여 바이트 내의 비트 위치를 매핑하고, 비트 값 1 또는 비트 값 0에 해당하는 서열를 식별자로 인코딩한다. 디지털 데이터를 검색하기 위한 단계는 하나 이상의 비트에 매핑되는 핵산(예: 식별자)의 서열를 포함하는 핵산 샘플 또는 핵산 풀의 시퀀싱, n 식별자 순위를 참조하여 식별자가 핵산 에 존재하는지 확인하는 단계를 포함할 수 있다. 각 서열에 대한 위치 및 비트 값 정보를 디지털 정보 서열를 포함하는 바이트로 풀링하고 디코딩한다.
핵산 분자에 인코딩 및 기록된 정보를 인코딩, 기록, 복사, 액세스, 읽기 및 디코딩하기 위한 시스템은 단일 통합 단위일 수도 있고 전술한 작업 중 하나 이상을 실행하도록 구성된 여러 단위일 수도 있다. 핵산 분자(예: 식별자)에 정보를 인코딩하고 기록하기 위한 시스템은 장치 및 하나 이상의 컴퓨터 프로세서를 포함할 수 있다. 하나 이상의 컴퓨터 프로세서는 정보를 기호 스트링(예를 들어, 비트 스트링)로 파싱하도록 프로그래밍될 수 있다. 컴퓨터 프로세서는 식별자 순위를 생성할 수 있다. 컴퓨터 프로세서는 기호를 둘 이상의 범주로 분류할 수 있다. 하나의 카테고리는 식별자 라이브러리에 해당 식별자가 있음을 나타내는 기호를 포함할 수 있고, 다른 카테고리는 식별자 라이브러리에 해당 식별자가 없음을 나타내는 기호를 포함할 수 있다. 컴퓨터 프로세서는 식별자 라이브러리에 있는 식별자의 존재에 대해 표현될 기호에 대응하는 식별자를 조립하도록 장치에 지시할 수 있다.
장치는 복수의 영역, 섹션 또는 파티션을 포함할 수 있다. 식별자를 조립하기 위한 시약 및 구성 요소는 장치의 하나 이상의 영역, 섹션 또는 파티션에 보관할 수 있다. 레이어는 장치 섹션의 별도 영역에 저장될 수 있다. 레이어는 하나 이상의 고유한 구성 요소를 포함할 수 있다. 한 계층의 구성 요소는 다른 계층의 구성 요소와 고유할 수 있다. 영역 또는 섹션은 용기를 포함할 수 있고 파티션은 웰을 포함할 수 있다. 각 레이어은 별도의 용기 또는 칸막이에 보관할 수 있다. 각 시약 또는 핵산 서열은 별도의 용기 또는 파티션에 보관할 수 있다. 대안적으로 또는 추가로 시약을 결합하여 식별자 구성을 위한 마스터 믹스를 형성할 수 있다. 장치는 장치의 한 섹션에서 시약, 구성 요소 및 템플릿을 전송하여 다른 섹션에서 결합할 수 있다. 장치는 조립 반응을 완료하기 위한 조건을 제공할 수 있다. 예를 들어, 장치는 가열, 교반 및 반응 진행 감지를 제공할 수 있다. 구성된 식별자는 식별자의 하나 이상의 말단에 바코드, 공통 서열, 가변 서열 또는 태그를 추가하기 위해 하나 이상의 후속 반응을 겪도록 지시될 수 있다. 그런 다음 식별자는 식별자 라이브러리를 생성하기 위해 영역 또는 파티션으로 향할 수 있다. 하나 이상의 식별자 라이브러리는 장치의 각 영역, 섹션 또는 개별 파티션에 저장될 수 있다. 장치는 압력, 진공 또는 흡입을 사용하여 유체(예: 시약, 구성 요소, 템플릿)를 전달할 수 있다.
식별자 라이브러리는 장치에 저장되거나 별도의 데이터베이스로 이동할 수 있다. 데이터베이스는 하나 이상의 식별자 라이브러리를 포함할 수 있다. 데이터베이스는 식별자 라이브러리의 장기 저장을 위한 조건(예: 식별자의 열화를 줄이기 위한 조건)을 제공할 수 있다. 식별자 라이브러리는 분말, 액체 또는 고체 형태로 저장될 수 있다. 보다 안정적인 보관을 위해 식별자의 수용액을 동결건조할 수 있다(동결건조에 대한 자세한 내용은 화학적 방법 섹션 G 참조). 데이터베이스는 자외선 차단, 온도 감소(예: 냉장 또는 냉동), 분해 화학 물질 및 효소로부터의 보호를 제공할 수 있다. 데이터베이스로 전송되기 전에 식별자 라이브러리는 동결 건조되거나 동결될 수 있다. 식별자 라이브러리는 뉴클레아제를 비활성화하기 위한 에틸렌디아민테트라아세트산(EDTA) 및/또는 핵산 분자의 안정성을 유지하기 위한 버퍼를 포함할 수 있다.
데이터베이스는 정보를 식별자에 기록하고, 정보를 복사하고, 정보에 액세스하거나, 정보를 읽는 장치에 결합, 포함 또는 분리될 수 있다. 식별자 라이브러리의 일부는 복사, 액세스 또는 읽기 전에 데이터베이스에서 제거될 수 있다. 데이터베이스에서 정보를 복사하는 장치는 정보를 기록하는 장치와 동일하거나 다를 수 있다. 정보를 복사하는 장치는 장치에서 식별자 라이브러리의 부분 표본을 추출하고 해당 부분 표본을 시약 및 구성 요소과 결합하여 식별자 라이브러리의 일부 또는 전체를 증폭할 수 있다. 장치는 증폭 반응의 온도, 압력 및 교반을 제어할 수 있다. 장치는 파티션을 포함할 수 있고 하나 이상의 증폭 반응이 식별자 라이브러리를 포함하는 파티션에서 발생할 수 있다. 장치는 한 번에 둘 이상의 식별자 풀을 복사할 수 있다.
복사된 식별자는 복사 장치에서 액세스 장치로 전송될 수 있다. 접근 장치는 복제 장치와 동일한 장치일 수 있다. 액세스 장치는 별도의 영역, 섹션 또는 파티션을 포함할 수 있다. 액세스 장치는 선호도 태그에 결합된 식별자를 분리하기 위한 하나 이상의 컬럼, 비드 저장소 또는 자기 영역을 가질 수 있다(핵산 캡처에 대한 화학적 방법 섹션 F 참조). 대안적으로, 또는 이에 추가하여, 액세스 디바이스는 하나 이상의 크기 선택 유닛을 가질 수 있다. 크기 선택 장치에는 아가로스 겔 전기영동 또는 핵산 분자의 크기 선택을 위한 기타 방법이 포함될 수 있다(핵산 크기 선택에 대한 자세한 내용은 화학적 방법 섹션 E 참조). 복사 및 추출은 장치의 동일한 영역 또는 장치의 다른 영역에서 수행될 수 있다(핵산 증폭에 대한 화학적 방법 섹션 D 참조).
액세스한 데이터는 동일한 디바이스에서 읽을 수도 있고, 액세스한 데이터를 다른 디바이스로 전송할 수도 있다. 판독 장치는 식별자를 검출하고 식별하기 위한 검출 유닛을 포함할 수 있다. 검출 유닛은 시퀀서, 혼성화 어레이, 또는 식별자의 존재 또는 부재를 식별하기 위한 다른 유닛의 일부일 수 있다. 시퀀싱 플랫폼은 핵산 서열로 인코딩된 정보를 디코딩하고 판독하기 위해 특별히 설계될 수 있다. 시퀀싱 플랫폼은 단일 또는 이중 가닥 핵산 분자의 시퀀싱 전용일 수 있다. 시퀀싱 플랫폼은 개별 염기를 판독(예: 염기별 시퀀싱)하거나 핵산 분자(예: 식별자). 또는 시퀀싱 플랫폼은 Illumina® 시퀀싱 또는 모세관 전기영동에 의한 단편화 분석과 같은 시스템일 수 있다. 대안적으로 또는 추가적으로, 핵산 서열의 해독은 광학, 전기화학적 또는 화학적 신호를 생성하는 임의의 방법을 포함하지만 이에 제한되지 않는 장치에 의해 구현되는 다양한 분석 기술을 사용하여 수행될 수 있다.
핵산 분자의 정보 저장은 장기 정보 저장, 민감한 정보 저장 및 의료 정보 저장을 포함하지만 이에 국한되지 않는 다양한 응용 분야을 가질 수 있다. 예를 들어, 개인의 의료 정보(예: 의료 기록 및 기록)는 핵산 분자에 저장되어 개인에게 전달될 수 있다. 정보는 신체 외부(예: 웨어러블 장치) 또는 신체 내부(예: 피하 캡슐)에 저장될 수 있다. 환자를 진료소나 병원에 데려왔을 때 장치나 캡슐에서 샘플을 채취하고 핵산 시퀀서를 사용하여 정보를 해독할 수 있다. 핵산 분자에 있는 의료 기록의 개인 저장은 컴퓨터 및 클라우드 기반 저장 시스템에 대한 대안을 제공할 수 있다. 핵산 분자에 의료 기록을 개인적으로 보관하면 의료 기록이 해킹되는 사례 또는 확산을 줄일 수 있다. 의료 기록의 캡슐 기반 저장에 사용되는 핵산 분자는 인간 게놈 서열에서 파생될 수 있다. 인간 게놈 서열의 사용은 캡슐 실패 및 누출의 경우 핵산 서열의 면역원성을 감소시킬 수 있다.
컴퓨터 시스템
본 발명은 본 발명의 방법을 구현하도록 프로그램된 컴퓨터 시스템을 제공한다. 도 23은 디지털 정보를 핵산 서열로 인코딩하고 및/또는 핵산 서열로부터 유도된 정보를 판독(예를 들어, 디코딩)하도록 프로그래밍되거나 그렇지 않으면 구성된 컴퓨터 시스템(1901) 을 보여준다. 컴퓨터 시스템(1901)은 예를 들어 인코딩된 비트스트림 또는 바이트 스트림으로부터 주어진 비트 또는 바이트에 대한 비트 위치 정보 및 비트 값과 같은 본 발명의 인코딩 및 디코딩 절차의 다양한 측면을 조절할 수 있다.
컴퓨터 시스템(1901)은 단일 코어 또는 다중 코어 프로세서, 또는 병렬 처리를 위한 복수의 프로세서일 수 있는 중앙 처리 유닛(CPU, 또한 본원에서 "프로세서" 및 "컴퓨터 프로세서"라고도 함)(1905)을 포함한다. 컴퓨터 시스템(1901)은 또한 메모리 또는 메모리 위치(1910)(예를 들어, 랜덤 액세스 메모리, 읽기 전용 메모리, 플래시 메모리), 전자 저장 유닛(1915)(예를 들어, 하드 디스크), 하나 이상의 다른 시스템과 통신하기 위한 통신 인터페이스(1920)(예를 들어, 네트워크 어댑터) 및 캐시, 다른 메모리, 데이터 저장 및/또는 전자 디스플레이 어댑터와 같은 주변 장치(1925)를 포함할 수 있다. 메모리(1910), 저장 유닛(1915), 인터페이스(1920) 및 주변 장치(1925)는 마더보드와 같은 통신 버스(실선)를 통해 CPU(1905)와 통신한다. 저장 유닛(1915)은 데이터를 저장하기 위한 데이터 저장 유닛(또는 데이터 저장소)일 수 있다. 컴퓨터 시스템(1901)은 통신 인터페이스(1920)의 도움으로 컴퓨터 네트워크("네트워크")(1930)에 작동적으로 결합될 수 있다. 네트워크(1930)는 인터넷, 인터넷 및/또는 엑스트라넷, 또는 인터넷과 통신 중인 인트라넷 및/또는 엑스트라넷일 수 있다. 네트워크(1930)는 어떤 경우에는 통신 및/또는 데이터 네트워크일 수 있다. 네트워크(1930)는 클라우드 컴퓨팅과 같은 분산 컴퓨팅을 가능하게 할 수 있는 하나 이상의 컴퓨터 서버를 포함할 수 있다. 네트워크(1930)는, 일부 경우, 컴퓨터 시스템(1901)의 도움으로, 피어-투-피어 네트워크를 구현할 수 있으며, 이는 컴퓨터 시스템(1901)에 결합된 디바이스가 클라이언트 또는 서버로 동작할 수 있도록 할 수 있다.
CPU(1905)는 프로그램 또는 소프트웨어로 구현될 수 있는 일련의 기계 판독 가능 명령을 실행할 수 있다. 명령어는 메모리(1910) 와 같은 메모리 위치에 저장될 수 있다. 명령은 CPU(1905)로 전달될 수 있으며, CPU(1905)는 본 발명의 방법을 구현하기 위해 CPU(1905)를 후속적으로 프로그래밍하거나 구성할 수 있다. CPU(1905) 에 의해 수행되는 동작의 예는 인출, 디코딩, 실행 및 저장을 포함할 수 있다.
CPU(1905)는 집적 회로와 같은 회로의 일부일 수 있다. 시스템(1901)의 하나 이상의 다른 구성 요소가 회로에 포함될 수 있다. 경우에 따라 회로는 주문형 집적 회로(ASIC)이다.
저장 유닛(1915)은 드라이버, 라이브러리, 저장된 프로그램 등의 파일을 저장할 수 있다. 저장 유닛(1915)은 사용자 데이터, 예를 들어, 사용자 선호도 및 사용자 프로그램을 저장할 수 있다. 일부 경우에 컴퓨터 시스템(1901)은 인트라넷 또는 인터넷을 통해 컴퓨터 시스템(1901)과 통신하는 원격 서버에 위치하는 것과 같이 컴퓨터 시스템(1901) 외부에 있는 하나 이상의 추가 데이터 저장 장치를 포함할 수 있다.
컴퓨터 시스템(1901)은 네트워크(1930)를 통해 하나 이상의 원격 컴퓨터 시스템과 통신할 수 있다. 예를 들어, 컴퓨터 시스템(1901)은 사용자의 원격 컴퓨터 시스템 또는 다른 장치 및/또는 핵산 서열에서 인코딩 또는 디코딩된 데이터를 분석하는 과정에서 사용자가 사용할 수 있는 기계(예: 시퀀서)와 통신할 수 있다. 또는 핵산 서열에서 질소 함유 염기의 순서를 화학적으로 결정하기 위한 다른 시스템). 원격 컴퓨터 시스템의 예에는 개인용 컴퓨터(예: 휴대용 PC), 슬레이트 또는 태블릿 PC(예: Apple® iPad, Samsung® Galaxy Tab), 전화기, 스마트폰(예: Apple® iPhone, Android 지원 장치, Blackberry®) 또는 개인용 디지털 비서가 포함된다. 사용자는 네트워크(1930)를 통해 컴퓨터 시스템(1901) 에 액세스할 수 있다.
본 명세서에 기술된 바와 같은 방법은 컴퓨터 시스템(1901)의 전자 저장 위치, 예를 들어, 메모리(1910) 또는 전자 저장 유닛(1915)에 저장된 기계(예컨대, 컴퓨터 프로세서) 실행 코드를 통해 구현될 수 있다. 기계 실행 코드 또는 기계 판독 가능 코드는 소프트웨어의 형태로 제공될 수 있다. 사용 중에, 코드는 프로세서(1905)에 의해 실행될 수 있다. 경우에 따라, 코드는 저장 유닛(1915)으로부터 검색되어 프로세서(1905)에 의해 준비된 액세스를 위해 메모리(1910)에 저장될 수 있다. 일부 상황에서는, 전자 저장 유닛(1915)이 배제될 수 있고, 기계 실행 명령이 메모리(1910)에 저장될 수 있다.
코드는 코드를 실행하도록 조정된 프로세서가 있는 기계와 함께 사용하기 위해 사전 컴파일 및 구성될 수 있거나 런타임 중에 컴파일될 수 있다. 코드는 사전 컴파일된 방식 또는 컴파일된 방식으로 코드를 실행할 수 있도록 선택할 수 있는 프로그래밍 언어로 제공될 수 있다.
컴퓨터 시스템(1901)과 같이 본원에 제공된 시스템 및 방법의 측면은 프로그래밍으로 구체화될 수 있다. 기술의 다양한 양태는 일반적으로 기계(또는 프로세서) 실행 가능 코드 및/또는 기계 판독 가능 매체 유형에 포함되거나 구현되는 관련 데이터의 형태인 "제품" 또는 "제조품"으로 간주될 수 있다. 기계 실행 코드는 메모리(예: 읽기 전용 메모리, 랜덤 액세스 메모리, 플래시 메모리) 또는 하드 디스크와 같은 전자 저장 장치에 저장될 수 있다. "스토리지" 유형의 미디어는 비일시적 스토리지를 제공할 수 있는 다양한 반도체 메모리, 테이프 드라이브, 디스크 드라이브 등과 같은 컴퓨터, 프로세서 등의 유형 메모리 또는 관련 모듈의 일부 또는 전부를 포함할 수 있다. 소프트웨어 프로그래밍을 위해 언제든지. 때때로 소프트웨어의 전체 또는 일부는 인터넷이나 기타 다양한 통신 네트워크를 통해 전달될 수 있다. 예를 들어 이러한 통신은 하나의 컴퓨터 또는 프로세서에서 다른 컴퓨터 또는 프로세서로, 예를 들어 관리 서버 또는 호스트 컴퓨터에서 응용 분야 서버의 컴퓨터 플랫폼으로 소프트웨어를 로드할 수 있다. 따라서 소프트웨어 요소를 포함할 수 있는 다른 유형의 매체에는 유선 및 광 유선 네트워크를 통해 그리고 다양한 공중 링크를 통해 로컬 장치 사이의 물리적 인터페이스를 통해 사용되는 것과 같은 광학, 전기 및 전자기파가 포함된다. 유선 또는 무선 링크, 광학 링크 등과 같이 이러한 파동을 전달하는 물리적 요소도 소프트웨어를 포함하는 매체로 간주될 수 있다. 여기에 사용된 바와 같이, 일시적이지 않은 유형의 "저장" 매체로 제한되지 않는 한, 컴퓨터 또는 기계 "판독 가능 매체"와 같은 용어는 실행을 위해 프로세서에 명령을 제공하는 데 참여하는 모든 매체를 의미한다.
따라서 컴퓨터 실행 가능 코드와 같은 기계 판독 가능 매체는 유형의 저장 매체, 반송파 매체 또는 물리적 전송 매체를 포함하지만 이에 제한되지 않는 다양한 형태를 취할 수 있다. 비휘발성 저장 매체는 예를 들어 도면에 도시된 데이터베이스 등을 구현하는 데 사용될 수 있는 임의의 컴퓨터 등에 있는 임의의 저장 장치와 같은 광학 또는 자기 디스크를 포함한다. 휘발성 저장매체는 이러한 컴퓨터 플랫폼의 메인 메모리와 같은 동적 메모리를 포함한다. 유형의 전송 매체에는 동축 케이블이 포함된다. 컴퓨터 시스템 내의 버스를 구성하는 전선을 포함한 구리선 및 광섬유. 반송파 전송 매체는 전기 또는 전자기 신호, 또는 무선 주파수(RF) 및 적외선(IR) 데이터 통신 중에 생성되는 것과 같은 음향 또는 광파의 형태를 취할 수 있다. 따라서 일반적인 형태의 컴퓨터 판독 가능 매체에는 플로피 디스크, 플렉시블 디스크, 하드 디스크, 자기 테이프, 기타 자기 매체, CD-ROM, DVD 또는 DVD-ROM, 기타 광학 매체, 펀치 카드 용지 테이프, 구멍 패턴이 있는 기타 물리적 저장 매체, RAM, ROM, PROM 및 EPROM, FLASH-EPROM, 기타 메모리 칩 또는 카트리지, 데이터 또는 지침을 전송하는 반송파, 이러한 반송파를 전송하는 케이블 또는 링크 웨이브 또는 컴퓨터가 프로그래밍 코드 및/또는 데이터를 읽을 수 있는 기타 매체등이 포함된다. 이러한 형태의 컴퓨터 판독 가능 매체 중 다수는 실행을 위해 하나 이상의 명령의 하나 이상의 서열를 프로세서로 전달하는 데 관여할 수 있다.
컴퓨터 시스템(1901)은 예를 들어 크로마토그래프를 포함하는 서열 출력 데이터를 제공하기 위한 사용자 인터페이스(UI)를 포함하는 전자 디스플레이(1935), 서열, 뿐만 아니라 또는 핵산, 원시 데이터, 파일 및 압축 또는 압축 해제된 zip 파일을 인코딩하거나 디코딩하여 DNA에 저장된 데이터로 인코딩하거나 디코딩하는 기계 또는 컴퓨터 시스템에서 읽는다. UI의 예에는 그래픽 사용자 인터페이스(GUI) 및 웹 기반 사용자 인터페이스가 포함되며 이에 국한되지 않는다.
본 발명의 방법 및 시스템은 하나 이상의 알고리즘을 통해 구현될 수 있다. 알고리즘은 중앙 처리 장치(1905) 에 의해 실행될 때 소프트웨어를 통해 구현될 수 있다. 예를 들어, 알고리즘은 디지털 정보를 인코딩하기 전에 원시 데이터 또는 zip 파일 압축 데이터로부터 디지털 정보를 코딩하기 위한 맞춤형 방법을 결정하기 위해 DNA 인덱스 및 원시 데이터 또는 zip 파일 압축 또는 압축 해제 데이터와 함께 사용될 수 있다.
화학적 방법 섹션
A. 오버랩 확장 PCR(OEPCR) 어셈블리
OEPCR에서 구성 요소는 폴리머라제 및 dNTP(dATP, dTTP, dCTP, dGTP 또는 이의 변이체 또는 유사체를 포함하는 데옥시뉴클레오티드 트리 포스페이트)를 포함하는 반응으로 조립된다. 구성 요소는 단일 가닥 또는 이중 가닥 핵산일 수 있다. 서로 인접하게 조립될 구성 요소는 상보적인 3' 말단, 상보적인 5' 말단 또는 한 구성 요소의 5' 말단과 인접한 구성 요소의 3' 말단 사이에 상동성을 가질 수 있다. "하이브리드화 영역"이라고 하는 이러한 말단 영역은 OEPCR 동안 구성 요소 사이의 하이브리드 접합부의 형성을 용이하게 하기 위한 것이며, 여기서 하나의 입력 구성 요소(또는 이의 보체)의 3' 말단은 의도된 3' 말단에 하이브리드화된다. 인접 구성 요소(또는 그 보완 요소). 조립된 이중 가닥 제품은 폴리머라제 확장에 의해 형성된다. 이 제품은 후속 혼성화 및 확장을 통해 더 많은 구성 요소로 조립될 수 있다. 도 11은 3개의 핵산을 조합하기 위한 OEPCR의 도식의 예를 도시한다.
일부 실시예에서, OEPCR은 3개의 온도: 용융 온도, 어닐링 온도 및 확장 온도 사이의 순환을 포함할 수 있다. 용융 온도는 이중 가닥 핵산을 단일 가닥 핵산으로 전환할 뿐만 아니라 구성 요소 내 또는 구성 요소 간의 2차 구조 또는 혼성화 형성을 제거하기 위한 것이다. 일반적으로 용융 온도는 예를 들어 섭씨 95도 이상으로 높다. 일부 실시예에서 용융 온도는 적어도 96, 97, 98, 99, 100, 101, 102, 103, 104, 또는 105℃일 수 있다. 다른 실시예에서 용융 온도는 최대 95, 94, 93, 92, 91, 또는 90℃일 수 있다. 용융 온도가 높을수록 핵산 및 이차 구조의 해리가 향상되지만 핵산 또는 중합 효소의 분해와 같은 부작용이 발생할 수도 있다. 용융 온도는 적어도 1, 2, 3, 4, 5초 또는 그 이상, 예컨대 30초, 1분, 2분 또는 3분 동안 반응에 적용될 수 있다.
어닐링 온도는 의도된 인접 구성 요소(또는 이들의 상보물)의 상보적인 3' 말단 사이의 혼성화 형성을 용이하게 하기 위한 것이다. 일부 실시예에서, 어닐링 온도는 의도된 혼성화 핵산 형성의 계산된 용융 온도와 일치할 수 있다. 다른 실시예에서, 어닐링 온도는 상기 용융 온도의 섭씨 10도 이상 이내일 수 있다. 일부 실시예에서, 어닐링 온도는 적어도 섭씨 25, 30, 50, 55, 60, 65 또는 70도일 수 있다. 용융 온도는 구성 요소 사이의 의도된 혼성화 영역의 순서에 따라 달라질 수 있다. 더 긴 혼성화 영역은 더 높은 녹는점을 가지며 구아닌 또는 시토신 뉴클레오티드 함량이 더 높은 혼성화 영역은 더 높은 녹는점을 가질 수 있다. 따라서 특정 어닐링 온도에서 최적으로 조립되도록 의도된 OEPCR 반응용 구성 요소를 설계하는 것이 가능할 수 있다. 어닐링 온도는 적어도 1, 5, 10, 15, 20, 25 또는 30초 이상 동안 반응에 적용될 수 있다.
연장 온도는 하나 이상의 폴리머라제 효소에 의해 촉매되는 혼성화된 3' 말단의 핵산 사슬 신장을 개시하고 용이하게 하기 위한 것이다. 일부 실시예에서, 연장 온도는 핵산 결합 강도, 신장 속도, 신장 안정성 또는 충실도 양태에서 중합효소가 최적으로 기능하는 온도로 설정될 수 있다. 일부 실시예에서, 확장 온도는 적어도 섭씨 30, 40, 50, 60, 또는 70도 이상일 수 있다. 어닐링 온도는 적어도 1, 5, 10, 15, 20, 25, 30, 40, 50 또는 60초 이상 동안 반응에 적용될 수 있다. 권장 연장 시간은 예상 신장의 킬로베이스당 약 15~45초이다.
OEPCR의 일부 실시예에서, 어닐링 온도 및 확장 온도는 동일할 수 있다. 따라서 3단계 온도 사이클 대신 2단계 온도 사이클을 사용할 수 있다. 결합된 어닐링 및 확장 온도의 예는 섭씨 60, 65 또는 72도를 포함한다.
일부 실시예에서, OEPCR은 하나의 온도 사이클로 수행될 수 있다. 이러한 실시예는 단지 2개의 구성 요소의 의도된 조립을 포함할 수 있다. 다른 실시예에서, OEPCR은 다중 온도 사이클로 수행될 수 있다. OEPCR에서 주어진 핵산은 한 주기에서 기껏해야 하나의 다른 핵산에만 조립될 수 있다. 이는 어셈블리(또는 확장 또는 신장)가 핵산의 3' 말단에서만 발생할 수 있고 각 핵산은 하나의 3' 말단만 가질 수 있기 때문이다. 따라서 여러 부품을 조립하려면 여러 온도 주기가 필요할 수 있다. 예를 들어, 4개의 구성 요소를 조립하려면 3개의 온도 주기가 포함될 수 있다. 6개의 부품을 조립하려면 5번의 온도 주기가 필요할 수 있다. 10개의 부품을 조립하려면 9번의 온도 주기가 필요할 수 있다. 일부 실시예에서, 요구되는 최소값보다 더 많은 온도 사이클을 사용하는 것은 조립 효율을 증가시킬 수 있다. 예를 들어 4개의 온도 주기를 사용하여 2개의 부품을 조립하면 1개의 온도 주기만 사용하는 것보다 더 많은 제품을 생산할 수 있다. 이는 구성 요소의 혼성화 및 신장이 각 주기에서 전체 구성 요소 수의 일부로 발생하는 통계적 이벤트이기 때문이다. 따라서 조립된 부품의 전체 비율은 주기가 증가함에 따라 증가할 수 있다.
온도 순환 고려 사항 외에도 OEPCR의 핵산 서열 설계는 서로에 대한 조립 효율에 영향을 미칠 수 있다. 혼성화 영역이 긴 핵산은 혼성화 영역이 짧은 핵산에 비해 주어진 어닐링 온도에서 더 효율적으로 혼성화할 수 있다. 이것은 더 긴 혼성화 생성물이 더 많은 수의 안정한 염기쌍을 포함하고 따라서 더 짧은 혼성화 생성물보다 전체 혼성화 생성물이 더 안정할 수 있기 때문이다. 혼성화 영역은 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 또는 그 이상의 염기의 길이를 가질 수 있다.
구아닌 또는 시토신 함량이 높은 혼성화 영역은 구아닌 또는 시토신 함량이 낮은 혼성화 영역보다 주어진 온도에서 더 효율적으로 혼성화할 수 있다. 이것은 아데닌이 티민과 하는 것보다 구아닌이 시토신과 더 안정적인 염기쌍을 형성하기 때문이다. 혼성화 영역은 0%에서 100% 사이의 구아닌 또는 시토신 함량(GC 함량으로도 알려짐)을 가질 수 있다.
혼성화 영역 길이 및 GC 함량 외에도 OEPCR의 효율성에 영향을 미칠 수 있는 핵산 서열 설계의 더 많은 측면이 있다. 예를 들어, 구성 요소 내의 바람직하지 않은 2차 구조의 형성은 의도된 인접 구성 요소과 혼성화 제품을 형성하는 능력을 방해할 수 있다. 이러한 2차 구조는 헤어핀 루프를 포함할 수 있다. 핵산에 대한 가능한 2차 구조의 유형 및 안정성(예: 만나는 온도)은 서열을 기반으로 예측할 수 있다. 설계 공간 검색 알고리즘을 사용하여 잠재적으로 억제성 이차 구조가 있는 서열을 피하면서 효율적인 OEPCR을 위한 적절한 길이 및 GC 함량 기준을 충족하는 핵산 서열을 결정할 수 있다. 설계 공간 검색 알고리즘에는 유전자 알고리즘, 휴리스틱 검색 알고리즘, 금기 검색과 같은 메타 휴리스틱 검색 전략, 분기 및 범위 검색 알고리즘, 동적 프로그래밍 기반 알고리즘, 제약 조합 최적화 알고리즘, 경사 하강법 기반 알고리즘, 무작위 검색 알고리즘, 또는 이들의 조합이 포함될 수 있다.
마찬가지로, 동종이량체(동일한 서열의 핵산 분자와 혼성화하는 핵산 분자) 및 원하지 않는 이종이량체(의도된 조립 파트너 이외의 다른 핵산 서열과 혼성화하는 핵산 서열)의 형성은 OEPCR을 방해할 수 있다. 핵산 내의 2차 구조와 유사하게 동종이량체 및 이종이량체의 형성은 계산 방법 및 설계 공간 검색 알고리즘을 사용하여 핵산 설계 중에 예측되고 설명될 수 있다.
더 긴 핵산 서열 또는 더 높은 GC 함량은 OEPCR에서 원치 않는 2차 구조, 동종이량체 및 이종이량체의 형성을 증가시킬 수 있다. 따라서, 일부 실시예에서, 더 짧은 핵산 서열의 사용 또는 더 낮은 GC 함량은 더 높은 조립 효율을 초래할 수 있다. 이러한 설계 원칙은 보다 효율적인 조립을 위해 긴 혼성화 영역 또는 높은 GC 함량을 사용하는 설계 전략을 상쇄할 수 있다. 이와 같이, 일부 실시예에서, OEPCR은 높은 GC 함량을 갖는 긴 혼성화 영역을 사용하지만 낮은 GC 함량을 갖는 짧은 비혼성화 영역을 사용함으로써 최적화될 수 있다. 핵산의 전체 길이는 적어도 10, 20, 30, 40, 50, 60, 70, 80, 90 또는 100개의 염기 또는 그 이상일 수 있다. 일부 실시예에서, 조립 효율이 최적화되는 핵산의 혼성화 영역에 대한 최적의 길이 및 최적의 GC 함량이 있을 수 있다.
OEPCR 반응에서 더 많은 수의 별개의 핵산이 예상되는 조립 효율을 방해할 수 있다. 이것은 더 많은 수의 별개의 핵산 서열이 바람직하지 않은 분자 상호작용, 특히 이종이량체의 형태로 더 높은 가능성을 생성할 수 있기 때문이다. 따라서 많은 수의 구성 요소를 조립하는 OEPCR의 일부 실시예에서 핵산 서열 제한은 효율적인 조립을 위해 더욱 엄격해질 수 있다.
예상되는 최종 조립 제품을 증폭하기 위한 프라이머가 OEPCR 반응에 포함될 수 있다. 그런 다음 OEPCR 반응은 구성 요소 사이에 더 많은 어셈블리를 생성할 뿐만 아니라 기존 PCR 방식으로 전체 조립된 제품을 기하급수적으로 증폭함으로써 조립된 제품의 수율을 개선하기 위해 더 많은 온도 주기로 수행될 수 있다(화학적 방법 섹션 D 참조).
조립 효율을 향상시키기 위해 첨가제가 OEPCR 반응에 포함될 수 있다. 예를 들어, 베타인, DMSO(Dimethyl sulfoxide), 비이온성 세제, 포름아미드, 마그네슘, BSA(Bovine Serum Albumin) 또는 이들의 조합의 첨가. 첨가제 함량(부피당 중량)은 적어도 0%, 1%, 5%, 10%, 20% 또는 그 이상이 될 수 있다.
OEPCR에는 다양한 중합효소가 사용될 수 있다. 중합효소는 자연적으로 발생하거나 합성될 수 있다. 중합효소의 예는 Φ29 중합효소 또는 이의 유도체이다. 어떤 경우에는 전사효소 또는 리가아제(즉, 결합 형성을 촉매하는 효소)가 중합효소와 함께 또는 중합효소의 대안으로 사용되어 새로운 핵산 서열을 구성한다. 중합효소의 예로는 DNA 중합효소, RNA 중합효소, 열안정성 중합효소, 야생형 중합효소, 변형된 중합효소, 대장균 DNA 중합효소 I, T7 DNA 중합효소, 박테리오파지 T4 DNA 중합효소 Φ29(phi29) DNA 중합효소, Taq 중합효소, Tth 중합효소, Tli 중합효소, Pfu 중합효소 Pwo 중합효소, VENT 중합효소, DEEPVENT 중합효소, Ex-Taq 중합효소, LA-Taw 중합효소, Sso 중합효소 Poc 중합효소, Pab 중합효소, Mth 중합효소 ES4 중합효소, Tru 중합효소, Tac 중합효소, Tne 중합효소, Tma 중합효소, Tca 중합효소, Tih 중합효소, Tfi 중합효소, Platinum Taq 중합효소, Tbr 중합효소, Phusion 중합효소, KAPA 중합효소, Q5 중합효소, Tfl 중합효소, Pfutubo 중합효소, Pyrobest 중합효소, KOD 중합효소, Bst 중합효소, Sac 중합효소, Klenow 단편 중합효소 3'에서 5' 엑소뉴클레아제 활성, 및 이의 변이체, 변형된 생성물 및 유도체가 있다. 다른 중합효소는 다른 온도에서 안정적이고 최적으로 기능할 수 있다. 또한, 서로 다른 중합효소는 서로 다른 특성을 가지고 있다. 예를 들어, Phusion 중합효소와 같은 일부 중합효소는 3'에서 5' 엑소뉴클레아제 활성을 나타낼 수 있으며, 이는 핵산 신장 동안 더 높은 충실도에 기여할 수 있다. 일부 중합효소는 신장 동안 선행 서열을 대체할 수 있는 반면, 다른 중합효소는 이들을 분해하거나 신장을 중단할 수 있다. Taq과 같은 일부 중합효소는 핵산 서열의 3' 말단에 아데닌 염기를 통합한다. 이 과정을 A-tailing이라고 하며 Adenine 염기를 추가하면 의도된 인접 구성 요소 간에 설계된 3' 상보성을 방해할 수 있으므로 OEPCR을 억제할 수 있다.
OEPCR은 중합효소 순환 어셈블리(또는 PCA)라고도 한다.
B. 결합 어셈블리
결합 어셈블리에서 별도의 핵산은 하나 이상의 리가제 효소 및 추가 보조 인자를 포함하는 반응으로 어셈블리된다. 보조 인자에는 ATP(Adenosine Tri-Phosphate), DTT(Dithiothreitol) 또는 마그네슘 이온(Mg2+)이 포함될 수 있다. 결합 동안, 한 핵산 가닥의 3'-말단은 다른 핵산 가닥의 5' 말단에 공유 결합되어 조립된 핵산을 형성한다. 결합 반응의 구성 요소는 blunt-ended double stranded DNA(dsDNA), single stranded DNA(ssDNA) 또는 부분적으로 혼성화된 single-stranded DNA일 수 있다. 핵산의 말단을 함께 가져오는 전략은 리가제 효소에 대한 생존 가능한 기질의 빈도를 증가시키므로 리가제 반응의 효율을 개선하는 데 사용될 수 있다. 말단이 뭉툭한 dsDNA 분자는 리가제 효소가 작용할 수 있는 소수성 스택을 형성하는 경향이 있지만, 핵산을 함께 모으는 더 성공적인 전략은 조립하려는 구성 요소의 돌출부와 상보성을 갖는 5' 또는 3' 단일 가닥 돌출부가 있는 핵산 구성 요소를 사용하는 것이다. 후자의 경우, 염기-염기 혼성화로 인해 보다 안정적인 핵산 이중체가 형성될 수 있다.
이중 가닥 핵산이 한쪽 말단에 오버행 가닥을 가질 때, 같은 말단의 다른 가닥은 "공동"으로 언급될 수 있다. 캐비티와 오버행은 함께 "점착 말단"이라고도 하는 "점착성 말단"을 형성한다. 접착 말단은 3' 오버행과 5' 캐비티이거나 5' 오버행과 3' 캐비티일 수 있다. 2개의 의도된 인접 구성 요소 사이의 접착 말단은 각 오버행이 다른 구성 요소의 캐비티 시작 부분에 바로 인접하여 끝나도록 두 접착 말단의 오버행이 혼성화하도록 상보성을 갖도록 설계될 수 있다. 이것은 리가제의 작용에 의해 "봉인"(포스포디에스테르 결합을 통해 공유적으로 연결됨)될 수 있는 "닉"(이중 가닥 DNA 파손)을 형성한다. 그림을 참조하십시오. 3개의 핵산을 조립하기 위한 점착성 말단 결합의 예시적인 개략도에 대해 도 12. 한 가닥의 닉이나 다른 가닥 또는 둘 다 밀봉할 수 있다. 열역학적으로 접착 말단을 형성하는 분자의 상단 및 하단 가닥은 결합된 상태와 분리된 상태 사이를 이동할 수 있으므로 접착 말단은 일시적인 형성일 수 있다. 그러나 일단 두 구성 요소 사이의 점착성 말단 듀플렉스의 한 가닥을 따라 닉이 봉인되면 반대 가닥의 구성원이 분리되더라도 공유 결합은 유지된다. 그러면 연결된 가닥은 반대편 가닥의 의도된 인접 구성원이 결합할 수 있는 템플릿이 될 수 있으며 다시 한 번 밀봉될 수 있는 닉을 형성할 수 있다.
점착성 말단은 하나 이상의 엔도뉴클레아제로 dsDNA를 소화하여 생성될 수 있다. 엔도뉴클레아제(제한 효소라고 지칭될 수 있는)는 dsDNA 분자의 한쪽 또는 양쪽 말단의 특정 부위(제한 부위라고 지칭될 수 있는)를 타겟으로 하고, 엇갈린 절단(때로는 소화라고 지칭되는)을 생성하여 점착성 말단을 남길 수 있다. 제한 다이제스트에 대한 화학적 방법 섹션 C를 참조하시오. 다이제스트는 팰린드롬 오버행(자체의 역 보완인 서열가 있는 오버행)를 남길 수 있다. 그렇다면 동일한 엔도뉴클레아제로 분해된 두 구성 요소가 리가아제로 조립될 수 있는 보완적인 끈적한 말단을 형성할 수 있다. 소화와 연결은 endonuclease와 ligase가 호환되는 경우 동일한 반응에서 함께 발생할 수 있다. 반응은 섭씨 4도, 10도, 16도, 25도 또는 37도와 같은 균일한 온도에서 일어날 수 있다. 또는 반응은 섭씨 16도에서 37도 사이와 같은 여러 온도 사이에서 순환할 수 있다. 여러 온도 사이를 순환하면 분해와 결합이 순환의 서로 다른 부분 동안 각각의 최적 온도에서 진행되도록 할 수 있다.
별도의 반응에서 소화 및 결합을 수행하는 것이 유리할 수 있다. 예를 들어, 원하는 리가아제와 원하는 엔도뉴클레아제가 서로 다른 조건에서 최적으로 기능하는 경우이다. 또는 예를 들어 결합된 제품이 엔도뉴클레아제에 대한 새로운 제한 부위를 형성하는 경우이다. 이러한 경우에는 제한 분해를 수행한 다음 결합을 별도로 수행하는 것이 더 나을 수 있으며 결합 전에 제한 효소를 제거하는 것이 더 유익할 수 있다. 핵산은 페놀-클로로포름 추출, 에탄올 침전, 자기 비드 캡쳐 및/또는 실리카 막 흡착, 세척 및 용출을 통해 효소로부터 분리될 수 있다. 여러 개의 엔도뉴클레아제가 동일한 반응에 사용될 수 있지만 엔도뉴클레아제가 서로 간섭하지 않고 유사한 반응 조건에서 기능하도록 주의를 기울여야 한다. 2개의 엔도뉴클레아제를 사용하여 dsDNA 구성 요소의 양쪽 말단에 직교(비상보적) 점착성 말단을 만들 수 있다.
엔도뉴클레아제 소화는 인산화된 5' 말단과 함께 점착성 말단을 남길 수 있다. 리가제는 인산화된 5' 말단에서만 기능할 수 있으며 인산화되지 않은 5' 말단에서는 기능하지 않는다. 따라서 소화와 결합 사이에 중간 5' 인산화 단계가 필요하지 않을 수 있다. 점착성 말단에 회문 오버행이 있는 소화된 dsDNA 구성 요소는 자부피으로 결합될 수 있다. 자가 결합을 방지하기 위해 결합 전에 상기 dsDNA 구성 요소를 탈인산화하는 것이 유익할 수 있다.
다중 엔도뉴클레아제는 서로 다른 제한 부위를 타겟으로 할 수 있지만 호환 가능한 오버행(서로 역보완인 오버행)을 남긴다. 이러한 2개의 엔도뉴클레아제로 생성된 점착성 말단의 결합 생성물은 결합 부위에서 엔도뉴클레아제에 대한 제한 부위를 포함하지 않는 조립된 생성물을 초래할 수 있다. 이러한 엔도뉴클레아제는 바이오브릭 조립과 같은 조립 방법의 기초를 형성하며, 이는 반복적인 분해-결합 주기를 수행함으로써 단 두 개의 엔도뉴클레아제를 사용하여 프로그래밍 방식으로 여러 구성 요소를 조립할 수 있다. 도 24는 적합한 오버행을 갖는 엔도뉴클레아제 BamHI 및 BglII를 사용하는 분해-결합 사이클의 예를 예시한다.
일부 실시예에서, 점착성 말단을 생성하기 위해 사용되는 엔도뉴클레아제는 유형 IIS 제한 효소일 수 있다. 이러한 효소는 특정 방향으로 제한 부위에서 고정된 수의 염기를 절단하므로 이들이 생성하는 오버행의 순서는 맞춤화될 수 있다. 오버행 서열는 회문일 필요가 없다. 동일한 유형의 IIS 제한 효소를 사용하여 동일한 반응 또는 여러 반응에서 여러 개의 서로 다른 접착 말단을 생성할 수 있다. 또한, 동일한 반응 또는 다중 반응에서 적합한 오버행을 갖는 구성 요소를 생성하기 위해 하나 또는 다중 유형의 IIS 제한 효소가 사용될 수 있다. 유형 IIS 제한 효소에 의해 생성된 2개의 점착성 말단 사이의 결합 부위는 새로운 제한 부위를 형성하지 않도록 설계될 수 있다. 또한, 유형 IIS 제한 효소 부위는 제한 효소가 점착성 말단을 가진 구성 요소를 생성할 때 자신의 제한 부위를 절단하도록 dsDNA에 배치될 수 있다. 따라서 유형 IIS 제한 효소에서 생성된 여러 구성 요소 간의 연결 제품에는 제한 사이트가 포함되지 않을 수 있다.
유형 IIS 제한 효소는 리가제와 함께 반응에서 혼합되어 구성 요소 소화 및 결합을 함께 수행할 수 있다. 반응 온도는 최적의 소화 및 결합을 촉진하기 위해 둘 이상의 값 사이에서 순환될 수 있다. 예를 들어, 소화는 섭씨 37도에서 최적으로 수행될 수 있고 결합은 섭씨 16도에서 최적으로 수행될 수 있다. 보다 일반적으로, 반응은 적어도 섭씨 0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60 또는 65도 이상의 온도 값 사이에서 순환할 수 있다. 결합된 소화 및 결합 반응은 적어도 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 또는 20개 이상의 구성 요소. 유형 IIS 제한 효소를 활용하여 점착성 말단을 생성하는 조립 반응의 예로는 Golden Gate Assembly(Golden Gate Cloning이라고도 함) 또는 Modular Cloning(MoClo라고도 함)이 있다.
결합의 일부 실시예에서, 엑소뉴클레아제는 점착성 말단을 갖는 구성 요소를 생성하기 위해 사용될 수 있다. 3' 엑소뉴클레아제는 dsDNA에서 3' 말단을 씹어서 5' 오버행을 생성하는 데 사용될 수 있다. 마찬가지로, 5' 엑소뉴클레아제를 사용하여 dsDNA의 5' 말단을 씹어서 3' 오버행을 생성할 수 있다. 상이한 엑소뉴클레아제는 상이한 특성을 가질 수 있다. 예를 들어, 엑소뉴클레아제는 뉴클레아제 활성 방향(5'에서 3' 또는 3'에서 5'), ssDNA에 작용하는지 여부, 인산화된 또는 비인산화된 5' 말단에 작용하는지 여부에 따라 다를 수 있다. 그들이 닉에서 시작할 수 있는지 또는 그들이 5' 캐비티, 3' 캐비티, 5' 오버행 또는 3' 오버행에서 활동을 시작할 수 있는지 여부가 아니다. 상이한 유형의 엑소뉴클레아제는 람다 엑소뉴클레아제, RecJf, 엑소뉴클레아제 III, 엑소뉴클레아제 I, 엑소뉴클레아제 T, 엑소뉴클레아제 V, 엑소뉴클레아제 VIII, 엑소뉴클레아제 VII, 뉴클레아제 BAL_31, T5 엑소뉴클레아제 및 T7 엑소뉴클레아제를 포함한다.
엑소뉴클레아제는 리가제와 함께 반응에 사용되어 여러 구성 요소를 조립할 수 있다. 반응은 고정된 온도에서 발생하거나, 각각 리가제 또는 엑소뉴클레아제에 이상적인 여러 온도 사이의 사이클에서 발생할 수 있다. 중합효소는 리가제 및 5'-to-3' 엑소뉴클레아제와의 조립 반응에 포함될 수 있다. 이러한 반응의 구성 요소는 서로 인접하여 조립하려는 구성 요소가 가장자리에서 상동 서열을 공유하도록 설계될 수 있다. 예를 들어, 구성 요소 Y와 조립될 구성 요소 X는 5'-z-3' 형태의 3' 에지 서열을 가질 수 있고, 구성 요소 Y는 5'-z-3' 형태의 5' 에지 서열을 가질 수 있다(여기서 z는 임의의 핵산 서열이다). 이러한 형태의 상동 에지 서열을 '깁슨 오버랩'이라고 할 수 있다. 5' 엑소뉴클레아제가 깁슨 오버랩이 있는 dsDNA 구성 요소의 5' 말단을 씹으면 서로 혼성화되는 호환 가능한 3' 돌출부가 생성된다. 그런 다음 중합효소의 작용에 의해 하이브리드화된 3' 말단이 템플릿 구성 요소의 끝까지 또는 한 구성 요소의 확장된 3' 돌출부가 인접한 구성 요소의 5' 캐비티와 만나는 지점까지 연장되어 리가제에 의해 밀봉될 수 있는 닉을 형성할 수 있다. 중합효소, 리가제 및 엑소뉴클레아제가 함께 사용되는 이러한 조립 반응을 종종 "깁슨 조립"이라고 한다. 깁슨 어셈블리는 T5 엑소뉴클레아제, 퓨전 중합효소 및 Taq 리가제를 사용하고 섭씨 50도에서 반응을 배양하여 수행될 수 있다. 이 경우, 호열성 리가제인 Taq를 사용하면 반응에 사용되는 세 가지 유형의 효소 모두에 적합한 온도인 섭씨 50도에서 반응을 진행할 수 있다.
"깁슨 어셈블리"이라는 용어는 일반적으로 폴리머라제, 리가제 및 엑소뉴클레아제를 포함하는 조립 반응을 의미할 수 있다. Gibson 어셈블리는 최소 2, 3, 4, 5, 6, 7, 8, 9, 10개 이상의 부품을 조립하는 데 사용할 수 있다. Gibson 어셈블리는 1단계 등온 반응 또는 하나 이상의 온도 배양을 통한 다단계 반응으로 발생할 수 있다. 예를 들어, Gibson 어셈블리는 적어도 30, 40, 50, 60 또는 70도 이하의 온도에서 발생할 수 있다. Gibson 어셈블리의 배양 시간은 최소 1, 5, 10, 20, 40 또는 80분일 수 있다.
Gibson 어셈블리 반응은 의도된 인접 구성 요소 사이의 Gibson 중첩이 특정 길이이고 헤어핀, 동종이량체 또는 원치 않는 이종이량체와 같은 바람직하지 않은 혼성화 이벤트를 피하는 서열과 같은 서열 특징을 가질 때 최적으로 발생할 수 있다. 일반적으로 최소 20 베이스의 깁슨 오버랩이 권장된다. 그러나 Gibson 오버랩은 적어도 1, 2, 3, 5, 10, 20, 30, 40, 50, 60, 100 또는 그 이상의 염기 길이일 수 있다. 깁슨 오버랩의 GC 함량은 0%에서 100% 사이일 수 있다.
Gibson 어셈블리는 일반적으로 5' 엑소뉴클레아제로 설명되지만 반응은 3' 엑소뉴클레아제로도 발생할 수 있다. 3' 엑소뉴클레아제가 dsDNA 구성 요소의 3' 말단을 씹을 때 중합효소는 3' 말단을 확장하여 작용을 방해한다. 이 동적 프로세스는 두 구성 요소(깁슨 오버랩을 공유함)의 5' 오버행(엑소뉴클레아제에 의해 생성됨)이 혼성화되고 폴리머라제가 인접 구성 요소의 5' 말단을 만날 수 있을 만큼 충분히 멀리 한 구성 요소의 3' 말단을 확장할 때까지 계속될 수 있다., 따라서 리가아제에 의해 봉인될 수 있는 닉을 남깁니다.
결합의 일부 실시예에서, 점착성 말단을 갖는 구성 요소는 완전한 상보성을 공유하지 않는 두 개의 단일 가닥 핵산 또는 올리고를 함께 혼합하여 효소가 아닌 합성적으로 생성될 수 있다. 예를 들어, 올리고 X와 올리고 Y라는 두 개의 올리고는 둘 중 하나 또는 두 개의 올리고 전체를 구성하는 더 큰 염기의 하위 문자열을 형성하는 연속적인 상보성 염기 문자열을 따라서만 완전히 혼성화되도록 설계될 수 있다. 이 상보적인 염기 문자열을 "인덱스 영역"이라고 한다. 인덱스 영역이 올리고 X의 전체와 올리고 Y의 5' 말단만을 차지하는 경우, 올리고는 함께 한쪽 끝이 뭉툭하고 다른 쪽 끝이 점착성 구성 요소를 형성하며 올리고 Y에서 3' 돌출된 구성 요소를 형성한다(도 25A). 인덱스 영역이 올리고 X의 전체와 올리고 Y의 3' 말단만을 차지하는 경우, 올리고는 함께 한쪽 끝이 뭉툭하고 다른 쪽 끝이 점착성 구성 요소를 형성하며 올리고 Y로부터 5' 돌출된 구성 요소를 형성한다(도 25B). 인덱스 영역이 올리고 X의 전체와 올리고 Y의 양쪽 끝을 차지하지 않는 경우(인덱스 영역이 올리고 Y의 중앙에 내장되어 있음을 의미), 올리고는 함께 한 쪽은 올리고 Y로부터 3' 돌출된 점착성 끝을 가진 구성 요소를 형성하고 다른 쪽은 올리고 Y로부터 5' 돌출된 끈적한 끝을 가진 구성 요소를 형성한다(도 25C). 인덱스 영역이 올리고 X의 5' 말단과 올리고 Y의 5' 말단만을 차지하는 경우, 올리고는 함께 한쪽은 올리고 Y로부터 3' 돌출된 점착성 말단을 가진 구성 요소를 형성하고 다른 쪽은 올리고 X로부터 3' 돌출된 말단을 가진 구성 요소를 형성한다(도 25D). 인덱스 영역이 올리고 X의 3' 말단과 올리고 Y의 3' 말단만을 차지하는 경우, 올리고는 함께 한쪽은 올리고 Y로부터 5' 돌출된 점착성 말단을 가진 구성 요소를 형성하고 다른 쪽은 올리고 X로부터 5' 돌출된 말단을 가진 구성 요소를 형성한다(도 25E). 앞서 언급한 예들에서, 오버행의 서열은 인덱스 영역 외부의 올리고 서열에 의해 정의된다. 이러한 오버행 서열은 구성 요소가 결합을 위해 혼성화되는 영역이기 때문에 혼성화 영역이라고 할 수 있다.
점착성-말단 결합에서 올리고의 인덱스 영역 및 혼성화 영역(들)은 구성 요소의 적절한 조립을 용이하게 하도록 설계될 수 있다. 오버행이 긴 구성 요소는 오버행이 짧은 구성 요소에 비해 주어진 어닐링 온도에서 서로 더 효율적으로 혼성화할 수 있다. 오버행은 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 30, 또는 그 이상의 염기 길이를 가질 수 있다.
높은 구아닌 또는 시스토신 함량을 포함하는 오버행이 있는 구성 요소는 낮은 구아닌 또는 시토신 함량을 포함하는 오버행이 있는 구성 요소보다 주어진 온도에서 보완적인 구성 요소에 더 효율적으로 혼성화할 수 있다. 이것은 아데닌이 티민과 하는 것보다 구아닌이 시토신과 더 안정적인 염기쌍을 형성하기 때문이다. 오버행은 0%에서 100% 사이의 구아닌 또는 시토신 함량(GC 함량이라고도 함)을 가질 수 있다.
오버행 서열와 마찬가지로 GC 함량과 올리고 인덱스 영역의 길이도 결합 효율에 영향을 미칠 수 있다. 각 구성 요소의 상단 및 하단 가닥이 안정적으로 결합되면 끈끈이 구성 요소가 보다 효율적으로 조립될 수 있기 때문이다. 따라서 인덱스 영역은 더 높은 GC 함량, 더 긴 서열 및 더 높은 용융 온도를 촉진하는 기타 기능으로 설계될 수 있다. 그러나, 결합 어셈블리의 효율성에 영향을 미칠 수 있는 인덱스 영역 및 오버행 서열 모두에 대한 올리고 디자인의 더 많은 측면이 있다. 예를 들어, 구성 요소 내에서 원하지 않는 2차 구조의 형성은 의도된 인접 구성 요소와 조립된 제품을 형성하는 능력을 방해할 수 있다. 이는 인덱스 영역, 오버행 서열 또는 둘 다의 2차 구조로 인해 발생할 수 있다. 이러한 2차 구조는 헤어핀 루프를 포함할 수 있다. 올리고에 대한 가능한 2차 구조의 유형 및 안정성(예: 만나는 온도)은 서열를 기반으로 예측할 수 있다. 설계 공간 검색 알고리즘을 사용하여 잠재적으로 억제성 이차 구조가 있는 서열을 피하면서 유효 구성 요소 형성을 위한 적절한 길이 및 GC 함량 기준을 충족하는 올리고 서열을 결정할 수 있다. 설계 공간 검색 알고리즘에는 유전자 알고리즘, 휴리스틱 검색 알고리즘, 금기 검색과 같은 메타 휴리스틱 검색 전략, 분기 및 범위 검색 알고리즘, 동적 프로그래밍 기반 알고리즘, 제약 조합 최적화 알고리즘, 경사 하강법 기반 알고리즘, 무작위 검색 알고리즘, 또는 이들의 조합이 포함될 수 있다.
마찬가지로, 동종이량체(동일한 서열의 올리고와 혼성화하는 올리고) 및 원치 않는 이종이량체(의도된 어셈블리 파트너 이외의 다른 올리고와 혼성화하는 올리고)의 형성은 결합을 방해할 수 있다. 구성 요소 내의 2차 구조와 유사하게 동종이량체 및 이종이량체의 형성은 계산 방법 및 설계 공간 검색 알고리즘을 사용하여 올리고 설계 중에 예측되고 설명될 수 있다.
더 긴 올리고 서열 또는 더 높은 GC 함량은 결합 반응 내에서 원치 않는 2차 구조, 동종이량체 및 이종이량체의 형성을 증가시킬 수 있다. 따라서, 일부 실시예에서, 더 짧은 올리고 또는 더 낮은 GC 함량의 사용은 더 높은 조립 효율로 이어질 수 있다. 이러한 설계 원칙은 보다 효율적인 조립을 위해 긴 올리고 또는 높은 GC 함량을 사용하는 설계 전략에 대응할 수 있다. 이와 같이 결합 조립 효율이 최적화되도록 각 구성 요소를 구성하는 올리고에 대한 최적의 길이 및 최적의 GC 함량이 존재할 수 있다. 결합에 사용되는 올리고의 전체 길이는 적어도 10, 20, 30, 40, 50, 60, 70, 80, 90 또는 100 염기 이상일 수 있다. 결합에 사용되는 올리고의 전체 GC 함량은 0%에서 100% 사이일 수 있다.
점착성 말단 결합 외에도 스테이플(또는 주형 또는 다리) 가닥을 사용하여 단일 가닥 핵산 간에 결합이 발생할 수도 있다. 이 방법은 SSL(staple strand ligation), TDL(template direct ligation) 또는 bridge strand ligation으로 불릴 수 있다. 그림을 참조하십시오. 3개의 핵산을 조립하기 위한 TDL의 도식의 예에 대한 도 14A. TDL에서 두 개의 단일 가닥 핵산은 주형에 인접하게 혼성화하여 리가아제에 의해 밀봉될 수 있는 닉을 형성한다. 점착성 말단 결합에 대한 동일한 핵산 설계 고려 사항이 TDL에도 적용된다. 주형과 의도한 상보적 핵산 서열 사이의 더 강한 혼성화는 결합 효율을 증가시킬 수 있다. 따라서 템플릿의 각 양태에서 혼성화 안정성(또는 용융 온도)을 개선하는 서열 특징은 결합 효율을 개선할 수 있다. 이러한 기능에는 더 긴 서열 길이와 더 높은 GC 콘텐츠가 포함될 수 있다. 주형을 포함하여 TDL의 핵산 길이는 적어도 5, 10, 20, 30, 40, 50, 60, 70, 80, 90 또는 100 염기 또는 그 이상일 수 있다. 주형을 포함한 핵산의 GC 함량은 0%에서 100% 사이일 수 있다.
TDL에서는 점착성 말단 결합과 마찬가지로 서열 공간 검색 알고리즘과 함께 핵산 구조 예측 소프트웨어를 사용하여 원하지 않는 2차 구조를 피하는 구성 요소 및 템플릿 서열를 설계하는 데 주의를 기울일 수 있다. TDL의 구성 요소는 이중 가닥 대신 단일 가닥일 수 있으므로 노출된 염기로 인해 원하지 않는 2차 구조(점착성 말단 결합과 비교하여)의 발생률이 더 높을 수 있다.
TDL은 뭉툭한 말단의 dsDNA 구성 요소로 수행할 수도 있다. 그러한 반응에서 스테이플 가닥이 2개의 단일 가닥 핵산을 적절하게 연결하기 위해서는 스테이플이 먼저 전체 단일 가닥 보체를 대체하거나 부분적으로 대체해야 할 수 있다. dsDNA 구성 요소와의 TDL 반응을 촉진하기 위해 dsDNA는 초기에 고온에서 인큐베이션하여 녹일 수 있다. 그런 다음 반응이 냉각되어 스테이플 가닥이 적절한 핵산 보체에 어닐링되도록 할 수 있다. 이 프로세스는 dsDNA 구성 요소에 비해 상대적으로 높은 농도의 템플릿을 사용하여 훨씬 더 효율적일 수 있으므로 템플릿이 결합을 위한 적절한 전체 길이 ssDNA 보완물을 능가할 수 있다. 두 개의 ssDNA 가닥이 주형과 리가제에 의해 조립되면 조립된 핵산은 반대 전체 길이 ssDNA 보완물의 주형이 될 수 있다. 따라서 TDL과 blunt-ended dsDNA의 결합은 용융(고온에서 배양) 및 어닐링(저온에서 배양)의 여러 라운드를 통해 개선될 수 있다. 이 과정을 Ligase Cyling Reaction 또는 LCR이라고 한다. 적절한 용융 및 어닐링 온도는 핵산 서열에 따라 다릅니다. 용융 및 어닐링 온도는 섭씨 4, 10, 20, 20, 30, 40, 50, 60, 70, 80, 90 또는 100도 이상일 수 있다. 온도 사이클의 수는 적어도 1, 5, 10, 15, 20, 15, 30, 또는 그 이상이 될 수 있다.
모든 연결은 고정 온도 반응 또는 다중 온도 반응에서 수행될 수 있다. 결합 온도는 섭씨 0, 4, 10, 20, 20, 30, 40, 50 또는 60도 이상일 수 있다. ligase 활성을 위한 최적의 온도는 ligase의 종류에 따라 다를 수 있다. 또한 반응에서 구성 요소가 인접하거나 혼성화하는 속도는 핵산 서열에 따라 다를 수 있다. 더 높은 배양 온도는 더 빠른 확산을 촉진할 수 있으므로 구성 요소가 일시적으로 인접하거나 혼성화되는 빈도를 증가시킨다. 그러나 증가된 온도는 또한 염기쌍 결합을 방해할 수 있으며 따라서 인접하거나 혼성화된 구성 요소 듀플렉스의 안정성을 감소시킨다. 결합을 위한 최적의 온도는 조립할 핵산의 수, 핵산의 서열, 리가제의 유형 및 반응 첨가제와 같은 기타 요인에 따라 달라질 수 있다. 예를 들어, 4-염기 상보적 오버행이 있는 2개의 점착성 말단 구성 요소는 T4 리가제로 섭씨 25도에서보다 T4 리가제로 4도에서 더 빨리 조립될 수 있다. 그러나 25-염기 상보적 오버행이 있는 2개의 점착성 말단 구성 요소는 T4 리가아제를 사용하는 섭씨 4도에서보다 T4 리가아제를 사용하는 25℃에서 더 빠르게 조립할 수 있으며 모든 온도에서 4-염기 오버행을 사용하는 결합보다 더 빠를 수 있다. 결합의 일부 실시예에서, 리가아제 첨가 전에 어닐링을 위해 구성 요소를 가열하고 천천히 냉각시키는 것이 유익할 수 있다.
결합은 적어도 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20개 이상의 핵산을 조립하는 데 사용될 수 있다. 결합 배양 시간은 최대 30초, 1분, 2분, 5분, 10분, 20분, 30분, 1시간 또는 그 이상이 될 수 있다. 잠복기 시간이 길수록 결합 효율이 향상될 수 있다.
결합은 5' 인산화 말단을 가진 핵산을 필요로 할 수 있다. 5' 인산화 말단이 없는 핵산 구성 요소는 T4 폴리뉴클레오티드 키나아제(또는 T4 PNK)와 같은 폴리뉴클레오티드 키나아제와의 반응에서 인산화될 수 있다. ATP, 마그네슘 이온 또는 DTT와 같은 다른 보조 인자가 반응에 존재할 수 있다. 폴리뉴클레오티드 키나아제 반응은 섭씨 37도에서 30분 동안 발생할 수 있다. 폴리뉴클레오티드 키나아제 반응 온도는 섭씨 4, 10, 20, 20, 30, 40, 50 또는 60도 이상일 수 있다. 폴리뉴클레오티드 키나아제 반응 배양 시간은 최대 1분, 5분, 10분, 20분, 30분, 60분 또는 그 이상일 수 있다. 대안적으로, 핵산 구성 요소는 변형된 5' 인산화로 합성적으로(효소적으로 반대) 설계되고 제조될 수 있다. 5' 말단에서 조립되는 핵산만이 인산화를 필요로 할 수 있다. 예를 들어, TDL의 템플릿은 조립할 의도가 없기 때문에 인산화되지 않을 수 있다.
결합 효율을 개선하기 위해 결합 반응에 첨가제를 포함할 수 있다. 예를 들어, 디메틸 설폭사이드(DMSO), 폴리에틸렌 글리콜(PEG), 1,2-프로판디올(1,2-Prd), 글리세롤, 트윈-20 또는 이들의 조합을 첨가할 수 있다. PEG6000은 특히 효과적인 결찰 강화제일 수 있다. PEG6000은 크라우딩 에이전트로서 작용하여 결찰 효율을 높일 수 있다. 예를 들어, PEG6000은 리가제 반응 용액에서 공간을 차지하는 응집된 결절을 형성하여 리가제와 성분을 더 가깝게 가져올 수 있다. 첨가제 함량(부피당 중량)은 최소 0%, 1%, 5%, 10%, 20% 또는 그 이상일 수 있다.
결합을 위해 다양한 리가제가 사용될 수 있다. 리가제는 자연적으로 발생하거나 합성될 수 있다. 리가제의 예는 T4 DNA 리가제, T7 DNA 리가제, T3 DNA 리가제, Taq DNA 리가제, 9o N TM DNA 리가제, 대장균 DNA 리가제 및 SplintR DNA 리가제를 포함한다. 서로 다른 리가아제는 서로 다른 온도에서 안정적이고 최적으로 기능할 수 있다. 예를 들어, Taq DNA Ligase는 내열성이고 T4 DNA Ligase는 그렇지 않다. 또한, 서로 다른 리가아제는 서로 다른 특성을 가지고 있다. 예를 들어, T4 DNA Ligase는 blunt-ended dsDNA를 연결할 수 있지만 T7 DNA Ligase는 그렇지 않을 수 있다.
결합은 시퀀싱 어댑터를 핵산 라이브러리에 부착하는 데 사용될 수 있다. 예를 들어, 결합은 핵산 라이브러리의 각 구성원의 말단에 있는 일반적인 접착 말단 또는 스테이플로 수행될 수 있다. 핵산의 한 쪽 말단에 있는 점착성 말단이나 스테이플이 다른 쪽 말단과 구별되는 경우 시퀀싱 어댑터는 비대칭적으로 결합될 수 있다. 예를 들어, 정방향 시퀀싱 어댑터는 핵산 라이브러리 구성원의 한쪽 말단에 결합될 수 있고 역방향 시퀀싱 어댑터는 핵산 라이브러리 구성원의 다른 말단에 결합될 수 있다. 또는 평활 말단 결합을 사용하여 평활 말단 이중 가닥 핵산 라이브러리에 어댑터를 부착할 수 있다. 포크 어댑터는 비대칭적으로 어댑터를 각 말단(예: A-테일)에서 동일한 무딘 말단 또는 점착성 말단이 있는 핵산 라이브러리에 부착하는 데 사용할 수 있다.
결합은 열 불활성화(예를 들어, 적어도 20분 동안 65℃에서 인큐베이션), 변성제의 첨가, 또는 EDTA와 같은 킬레이트제의 첨가에 의해 억제될 수 있다.
C. 제한 다이제스트
제한 분해는 제한 엔도뉴클레아제(또는 제한 효소)가 핵산의 동족 제한 부위를 인식하고 이어서 상기 제한 부위를 포함하는 핵산을 절단(또는 분해)하는 반응이다. 유형 I, 유형 II, 유형 III 또는 유형 IV 제한 효소가 제한 분해에 사용될 수 있다. 유형 II 제한 효소는 핵산 분해에 가장 효율적인 제한 효소일 수 있다. 유형 II 제한 효소는 회문 제한 부위를 인식하고 인식 부위 내에서 핵산을 절단할 수 있다. 상기 제한 효소(및 이들의 제한 부위)의 예는 AatII(GACGTC), AfeI(AGCGCT), ApaI(GGGCCC), DpnI(GATC), EcoRI(GAATTC), NgeI(GCTAGC) 등을 포함한다. DpnI 및 AfeI와 같은 일부 제한 효소는 중앙에서 제한 부위를 절단하여 blunt-ended dsDNA 생성물을 남길 수 있다. EcoRI 및 AatII와 같은 다른 제한 효소는 제한 부위를 중심에서 벗어나서 dsDNA 산물에 점착성 말단(또는 엇갈린 말단)을 남긴다. 일부 제한 효소는 불연속 제한 부위를 타겟으로 삼을 수 있다. 예를 들어, 제한 효소 AlwNI는 제한 사이트 CAGNNNCTG를 인식하며, 여기서 N은 A, T, C 또는 G일 수 있다. 제한 사이트는 적어도 2, 4, 6, 8, 10 또는 그 이상의 염기 길이일 수 있다.
일부 유형 II 제한 효소는 제한 부위 외부의 핵산을 절단한다. 효소는 유형 IIS 또는 유형 IIG 제한 효소로 하위 분류될 수 있다. 상기 효소는 회문이 아닌 제한 부위를 인식할 수 있다. 상기 제한 효소의 예는 GAAAC를 인식하고 더 하류에서 시차 절단 2(동일 가닥) 및 6(반대 가닥) 염기를 생성하는 BbsI를 포함한다. 또 다른 예는 GGTCTC를 인식하고 더 하류에서 엇갈린 절단 1(동일 가닥) 및 5(반대 가닥) 염기를 생성하는 BsaI를 포함한다. 상기 제한 효소는 골든 게이트 어셈블리 또는 모듈 클로닝(MoClo)에 사용될 수 있다. BcgI(유형 IIG 제한 효소)와 같은 일부 제한 효소는 인식 부위의 양쪽 말단에서 지그재그 절단을 생성할 수 있다. 제한 효소는 핵산을 인식 부위에서 적어도 1, 5, 10, 15, 20개 또는 그 이상의 염기를 절단할 수 있다. 상기 제한 효소는 그들의 인식 부위 외부에서 엇갈린 절단을 생성할 수 있기 때문에, 생성된 핵산 오버행의 서열은 임의로 설계될 수 있다. 이는 인식 부위 내에서 엇갈린 절단을 생성하는 제한 효소와 반대이며, 여기에서 생성된 핵산 오버행의 서열이 제한 부위의 서열에 결합된다. 제한 분해에 의해 생성된 핵산 오버행은 적어도 1, 2, 3, 4, 5, 6, 7, 8 또는 그 이상의 염기 길이일 수 있다. 제한 효소가 핵산을 절단할 때 생성되는 5' 말단에는 인산염이 포함된다.
하나 이상의 핵산 서열이 제한 소화 반응에 포함될 수 있다. 유사하게, 하나 이상의 제한 효소가 제한 분해 반응에서 함께 사용될 수 있다. 제한 다이제스트는 칼륨 이온, 마그네슘 이온, 나트륨 이온, BSA, S-아데노실-L-메티오닌(SAM) 또는 이들의 조합을 포함하는 첨가제 및 보조인자를 포함할 수 있다. 제한 다이제스트 반응은 섭씨 37도에서 1시간 동안 배양될 수 있다. 제한 소화 반응은 섭씨 0, 10, 20, 30, 40, 50 또는 60도 이상의 온도에서 배양될 수 있다. 최적의 다이제스트 온도는 효소에 따라 달라질 수 있다. 제한 다이제스트 반응은 최대 1, 10, 30, 60, 90, 120분 또는 그 이상 동안 배양될 수 있다. 배양 시간이 길어지면 소화가 증가할 수 있다.
D. 핵산 증폭
핵산 증폭은 중합효소 연쇄 반응 또는 PCR로 실행할 수 있다. PCR에서 핵산의 시작 풀(주형 풀 또는 주형이라고 함)은 중합효소, 프라이머(짧은 핵산 프로브), 뉴클레오티드 트리 포스페이트(예: dATP, dTTP, dCTP, dGTP 및 유사체 또는 변형), 베타인, DMSO 및 마그네슘 이온과 같은 추가 보조인자 및 첨가제. 주형은 단일 가닥 또는 이중 가닥 핵산일 수 있다. 프라이머는 주형 풀의 타겟 서열을 보완하고 하이브리드화하기 위해 합성적으로 제작된 짧은 핵산 서열일 수 있다. 일반적으로 PCR 반응에는 두 개의 프라이머가 있다. 하나는 타겟 주형의 상단 가닥에 있는 프라이머 결합 부위를 보완하고 다른 하나는 첫 번째 결합 부위 하류의 타겟 주형 하단 가닥에 있는 프라이머 결합 부위를 보완한다. 이들 프라이머가 타겟에 결합하는 5'-to-3' 방향은 그들 사이의 핵산 서열을 성공적으로 복제하고 기하급수적으로 증폭시키기 위해 서로 마주해야 한다. "PCR"은 전형적으로 구체적으로 상기 형태의 반응을 지칭할 수 있지만, 임의의 핵산 증폭 반응을 지칭하기 위해 더 일반적으로 사용될 수도 있다.
일부 실시예에서 PCR은 3개의 온도: 용융 온도, 어닐링 온도 및 확장 온도 사이의 순환을 포함할 수 있다. 용융 온도는 이중 가닥 핵산을 단일 가닥 핵산으로 전환하고 혼성화 생성물 및 2차 구조의 형성을 제거하기 위한 것이다. 일반적으로 용융 온도는 예를 들어 섭씨 95도 이상으로 높다. 일부 실시예에서 용융 온도는 적어도 96, 97, 98, 99, 100, 101, 102, 103, 104, 또는 105℃일 수 있다. 다른 실시예에서 용융 온도는 최대 95, 94, 93, 92, 91, 또는 90℃일 수 있다. 용융 온도가 높을수록 핵산 및 이차 구조의 해리가 향상되지만 핵산 또는 중합 효소의 분해와 같은 부작용이 발생할 수도 있다. 용융 온도는 적어도 1, 2, 3, 4, 5초 또는 그 이상, 예컨대 30초, 1분, 2분 또는 3분 동안 반응에 적용될 수 있다. 복잡하거나 긴 템플릿을 사용하는 PCR의 경우 더 긴 초기 녹는 온도 단계가 권장될 수 있다.
어닐링 온도는 프라이머와 타겟 주형 간의 혼성화 형성을 용이하게 하기 위한 것이다. 일부 실시예에서, 어닐링 온도는 프라이머의 계산된 용융 온도와 일치할 수 있다. 다른 실시예에서, 어닐링 온도는 상기 용융 온도의 섭씨 10도 이상 이내일 수 있다. 일부 실시예에서, 어닐링 온도는 적어도 섭씨 25, 30, 50, 55, 60, 65 또는 70도일 수 있다. 녹는 온도는 프라이머의 순서에 따라 달라질 수 있다. 더 긴 프라이머는 더 높은 용융 온도를 가질 수 있으며 구아닌 또는 시스토신 뉴클레오티드 함량이 더 높은 프라이머는 더 높은 용융 온도를 가질 수 있다. 따라서 특정 어닐링 온도에서 최적으로 조립되도록 의도된 프라이머를 설계하는 것이 가능할 수 있다. 어닐링 온도는 적어도 1, 5, 10, 15, 20, 25 또는 30초 이상 동안 반응에 적용될 수 있다. 어닐링을 보장하기 위해 프라이머 농도는 높거나 포화 상태일 수 있다. 프라이머 농도는 500나노몰(nM)일 수 있다. 프라이머 농도는 최대 1nM, 10nM, 100nM, 1000nM 또는 그 이상이 될 수 있다.
연장 온도는 하나 이상의 폴리머라제 효소에 의해 촉매되는 프라이머의 3' 말단 핵산 사슬 연장을 개시하고 용이하게 하기 위한 것이다. 일부 실시예에서, 연장 온도는 핵산 결합 강도, 신장 속도, 신장 안정성 또는 충실도 양태에서 중합효소가 최적으로 기능하는 온도로 설정될 수 있다. 일부 실시예에서, 확장 온도는 적어도 섭씨 30, 40, 50, 60, 또는 70도 이상일 수 있다. 어닐링 온도는 적어도 1, 5, 10, 15, 20, 25, 30, 40, 50 또는 60초 이상 동안 반응에 적용될 수 있다. 권장 연장 시간은 예상 신장의 킬로베이스당 약 15~45초이다.
PCR의 일부 실시예에서, 어닐링 온도 및 확장 온도는 동일할 수 있다. 따라서 3단계 온도 사이클 대신 2단계 온도 사이클을 사용할 수 있다. 결합된 어닐링 및 확장 온도의 예는 섭씨 60, 65 또는 72도를 포함한다.
일부 실시예에서, PCR은 하나의 온도 사이클로 수행될 수 있다. 이러한 실시예는 타겟화된 단일 가닥 주형 핵산을 이중 가닥 핵산으로 바꾸는 것을 포함할 수 있다. 다른 실시예에서, PCR은 다중 온도 사이클로 수행될 수 있다. PCR이 효율적이면 타겟 핵산 분자의 수가 주기마다 두 배가 되어 원래 템플릿 풀에서 타겟 핵산 주형의 수가 기하급수적으로 증가할 것으로 예상된다. PCR의 효율성은 다를 수 있다. 따라서 각 라운드에서 복제되는 타겟 핵산의 실제 백분율은 100%보다 크거나 작을 수 있다. 각 PCR 사이클은 돌연변이 및 재조합 핵산과 같은 바람직하지 않은 아티팩트를 도입할 수 있다. 이러한 잠재적인 손상을 줄이기 위해 고충실도와 높은 진행성을 가진 중합효소를 사용할 수 있다. 또한 제한된 수의 PCR 주기를 사용할 수 있다. PCR은 최대 1, 5, 10, 15, 20, 25, 30, 35, 40, 45 또는 그 이상의 사이클을 포함할 수 있다.
일부 실시예에서, 다수의 별개의 타겟 핵산 서열은 하나의 PCR에서 함께 증폭될 수 있다. 각 타겟 서열에 공통 프라이머 결합 부위가 있는 경우 모든 핵산 서열은 동일한 프라이머 세트로 증폭될 수 있다. 대안적으로, PCR은 각각 별개의 핵산을 타겟으로 하는 다중 프라이머를 포함할 수 있다. 상기 PCR은 다중 PCR로 지칭될 수 있다. PCR은 최대 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개 또는 그 이상의 개별 프라이머를 포함할 수 있다. 여러 개의 다른 핵산 타겟이 있는 PCR에서 각 PCR 주기는 타겟 핵산의 상대적 분포를 변경할 수 있다. 예를 들어 균일한 분포가 왜곡되거나 균일하지 않게 분포될 수 있다. 이러한 잠재적인 손상을 줄이기 위해 최적의 폴리머라제(예: 높은 충실도 및 서열 견고성) 및 최적의 PCR 조건을 사용할 수 있다. 어닐링 및 확장 온도 및 시간과 같은 요소가 최적화될 수 있다. 또한 제한된 수의 PCR 주기를 사용할 수 있다.
PCR의 일부 실시예에서, 주형의 타겟화된 프라이머 결합 부위와 염기 불일치가 있는 프라이머를 사용하여 타겟 서열을 돌연변이시킬 수 있다. PCR의 일부 실시예에서, 5' 말단에 여분의 서열(오버행로 알려짐)이 있는 프라이머를 사용하여 타겟 핵산에 서열을 부착할 수 있다. 예를 들어, 5' 말단에 시퀀싱 어댑터를 포함하는 프라이머는 시퀀싱을 위한 핵산 라이브러리를 준비 및/또는 증폭하는 데 사용될 수 있다. 시퀀싱 어댑터를 대상으로 하는 프라이머는 특정 시퀀싱 기술에 대한 충분한 농축으로 핵산 라이브러리를 증폭하는 데 사용될 수 있다.
일부 실시예에서, 선형-PCR(또는 비대칭-PCR)이 사용되며, 여기서 프라이머는 주형의 한 가닥(두 가닥 모두 아님)만을 타겟으로 한다. 선형 PCR에서 각 주기에서 복제된 핵산은 프라이머에 보완되지 않으므로 프라이머가 결합하지 않다. 따라서 프라이머는 각 주기마다 원래의 타겟 주형만 복제하므로 선형(지수와는 반대로) 증폭된다. 선형 PCR의 증폭은 기존(지수) PCR만큼 빠르지 않을 수 있지만 최대 수율은 더 클 수 있다. 이론적으로 선형 PCR에서 프라이머 농도는 기존 PCR에서와 같이 증가된 주기와 증가된 수율로 인해 제한 요인이 되지 않을 수 있다. Linear-After-The-Exponential-PCR(또는 LATE-PCR)은 특히 높은 수율이 가능한 linear-PCR의 수정된 버전이다.
핵산 증폭의 일부 실시예에서, 용융, 어닐링 및 신장 과정은 단일 온도에서 일어날 수 있다. 이러한 PCR은 등온 PCR로 지칭될 수 있다. 등온 PCR은 프라이머 결합을 위해 완전히 보완된 핵산 가닥을 서로 분리하거나 대체하는 온도 독립적인 방법을 활용할 수 있다. 전략에는 루프 매개 등온 증폭, 가닥 변위 증폭, 헬리카제 의존 증폭 및 닉킹 효소 증폭 반응이 포함된다. 등온 핵산 증폭은 최대 섭씨 20, 30, 40, 50, 60 또는 70도 이상의 온도에서 발생할 수 있다.
일부 실시예에서, PCR은 샘플 내 핵산의 양을 정량화하기 위해 형광 프로브 또는 염료를 추가로 포함할 수 있다. 예를 들어, 염료는 이중 가닥 핵산으로 보간될 수 있다. 상기 염료의 예는 SYBR Green이다. 형광 프로브는 또한 형광 단위에 부착된 핵산 서열일 수 있다. 형광 단위는 타겟 핵산에 대한 프로브의 혼성화 및 확장 폴리머라제 단위로부터 후속 변형 시 방출될 수 있다. 상기 프로브의 예는 Taqman 프로브를 포함한다. 이러한 프로브는 샘플의 핵산 농도를 정량화하기 위해 PCR 및 광학 측정 도구(여기 및 검출용)와 함께 사용될 수 있다. 이 과정을 정량적 PCR(qPCR) 또는 실시간 PCR(rtPCR)이라고 한다.
일부 실시예에서, PCR은 다중 주형 분자의 풀이 아닌 단일 분자 주형(단일 분자 PCR로 지칭될 수 있는 과정에서)에서 수행될 수 있다. 예를 들어, 에멀젼-PCR(ePCR)은 오일 에멀젼 내의 물액적 내에 단일 핵산 분자를 캡슐화하는 데 사용될 수 있다. 물액적은 또한 PCR 시약을 포함할 수 있으며, 물액적은 PCR을 위해 필요한 온도 순환이 가능한 온도 제어 환경에 보관될 수 있다. 이러한 방식으로 여러 자체 포함 PCR 반응이 높은 처리량에서 동시에 발생할 수 있다. 오일 에멀젼의 안정성은 계면활성제로 개선될 수 있다. 액적의 움직임은 미세 유체 채널을 통해 압력으로 제어할 수 있다. 미세유체 장치는 액적 생성, 액적 분할, 액적 병합, 물질 도입 액적 주입 및 액적 배양에 사용될 수 있다. 오일 에멀젼의 물액적 크기는 적어도 1피코리터(pL), 10pL, 100pL, 1나노리터(nL), 10nL, 100nL 또는 그 이상일 수 있다.
일부 실시예에서, 단일 분자 PCR은 고상 기질에서 수행될 수 있다. 예에는 Illumina 고상 증폭 방법 또는 그 변형이 포함된다. 주형 풀은 고상 기질에 노출될 수 있으며, 고상 기질은 특정 공간 분해능에서 주형을 고정화할 수 있다. 브리지 증폭은 각 템플릿의 공간 이웃 내에서 발생하여 기판에서 높은 처리량 방식으로 단일 분자를 증폭할 수 있다.
높은 처리량, 단일 분자 PCR은 서로 간섭할 수 있는 별개의 핵산 풀을 증폭하는 데 유용할 수 있다. 예를 들어, 여러 개의 별개의 핵산이 공통 서열 영역을 공유하는 경우, 이 공통 영역을 따라 핵산 간의 재조합이 PCR 반응 중에 발생할 수 있으며, 그 결과 새로운 재조합 핵산이 생성될 수 있다. 단일 분자 PCR은 상호작용하지 않도록 서로 별개의 핵산 서열을 구획화하므로 이러한 잠재적인 증폭 오류를 방지한다. 단일 분자 PCR은 시퀀싱을 위한 핵산을 준비하는 데 특히 유용할 수 있다. 단일 분자 PCR 매트는 템플릿 풀 내 다수의 타겟에 대한 절대 정량 분석에도 유용한다. 예를 들어, 디지털 PCR(또는 dPCR)은 별개의 단일 분자 PCR 증폭 신호의 빈도를 사용하여 샘플에서 시작 핵산 분자의 수를 추정한다.
PCR의 일부 실시예에서, 핵산 그룹은 모든 핵산에 공통적인 프라이머 결합 부위에 대한 프라이머를 사용하여 비차별적으로 증폭될 수 있다. 예를 들어, 풀의 모든 핵산 측면에 있는 프라이머 결합 부위에 대한 프라이머이다. 합성 핵산 라이브러리는 일반적인 증폭을 위해 이러한 공통 사이트로 생성되거나 조립될 수 있다. 그러나, 일부 실시예에서, PCR은 풀로부터 핵산의 타겟 서브세트를 선택적으로 증폭하기 위해 사용될 수 있다. 예를 들어, 상기 타겟화된 핵산 서브세트에만 나타나는 프라이머 결합 부위가 있는 프라이머를 사용한다. 합성 핵산 라이브러리는 잠재적인 관심 하위 라이브러리에 속하는 핵산이 모두 선택적인 증폭을 위해 가장자리에서 공통 프라이머 결합 사이트(하위 라이브러리 내에서 공통적이지만 다른 하위 라이브러리와 구별됨)를 공유하도록 생성되거나 조립될 수 있다. 보다 일반적인 라이브러리의 하위 라이브러리. 일부 실시예에서, 부분적으로 조립되거나 잘못 조립된(또는 의도하지 않거나 바람직하지 않은) 이중 생성물로부터 완전히 조립되거나 잠재적으로 완전히 조립된 핵산을 선택적으로 증폭하기 위해 PCR은 핵산 조립 반응(예: 결합 또는 OEPCR)과 조합될 수 있다. 예를 들어, 어셈블리는 완전히 조립된 핵산 제품만이 증폭을 위해 필요한 두 개의 프라이머 결합 부위를 포함하도록 각 에지 서열에 프라이머 결합 부위가 있는 핵산을 조립하는 것을 포함할 수 있다. 상기 예에서, 부분적으로 조립된 제품은 프라이머 결합 부위가 있는 에지 서열 중 어느 것도 포함하지 않거나 하나만 포함할 수 있으므로 증폭되어서는 안 된다. 마찬가지로 잘못 조립된(또는 의도하지 않았거나 바람직하지 않은) 제품은 가장자리 서열 중 하나만 포함하거나 둘 다 포함할 수 있다. 따라서 상기 잘못 조립된 제품은 증폭되거나 잘못된 길이의 제품을 생성하도록 증폭되어서는 안 된다. 후자의 경우, 잘못된 길이로 증폭된 잘못 조립된 제품은 아가로스 겔에서 DNA 전기영동 후 겔 추출과 같은 핵산 크기 선택 방법(화학적 방법 섹션 E 참조)을 사용하여 올바른 길이로 증폭된 완전 조립된 제품과 분리할 수 있다.
핵산 증폭 효율을 높이기 위해 PCR에 첨가제가 포함될 수 있다. 예를 들어, 베타인, DMSO(Dimethyl sulfoxide), 비이온성 세제, 포름아미드, 마그네슘, BSA(Bovine Serum Albumin) 또는 이들의 조합의 첨가. 첨가제 함량(부피당 중량)은 적어도 0%, 1%, 5%, 10%, 20% 또는 그 이상이 될 수 있다.
다양한 중합효소가 PCR에 사용될 수 있다. 중합효소는 자연적으로 발생하거나 합성될 수 있다. 중합효소의 예는 Φ29 중합효소 또는 이의 유도체이다. 어떤 경우에는 전사효소 또는 리가아제(즉, 결합 형성을 촉매하는 효소)가 중합효소와 함께 또는 중합효소의 대안으로 사용되어 새로운 핵산 서열을 구성한다. 중합효소의 예로는 DNA 중합효소, RNA 중합효소, 열안정성 중합효소, 야생형 중합효소, 변형된 중합효소, 대장균 DNA 중합효소 I, T7 DNA 중합효소, 박테리오파지 T4 DNA 중합효소 Φ29(phi29) DNA 중합효소, Taq 중합효소, Tth 중합효소, Tli 중합효소, Pfu 중합효소 Pwo 중합효소, VENT 중합효소, DEEPVENT 중합효소, Ex-Taq 중합효소, LA-Taw 중합효소, Sso 중합효소 Poc 중합효소, Pab 중합효소, Mth 중합효소 ES4 중합효소, Tru 중합효소, Tac 중합효소, Tne 중합효소, Tma 중합효소, Tca 중합효소, Tih 중합효소, Tfi 중합효소, Platinum Taq 중합효소, Tbr 중합효소, Phusion 중합효소, KAPA 중합효소, Q5 중합효소, Tfl 중합효소, Pfutubo 중합효소, Pyrobest 중합효소, KOD 중합효소, Bst 중합효소, Sac 중합효소, Klenow 단편 중합효소 3'에서 5' 엑소뉴클레아제 활성, 및 이의 변이체, 변형된 생성물 및 유도체가 있다. 다른 중합효소는 다른 온도에서 안정적이고 최적으로 기능할 수 있다. 또한, 서로 다른 중합효소는 서로 다른 특성을 가지고 있다. 예를 들어, Phusion 중합효소와 같은 일부 중합효소는 3'에서 5' 엑소뉴클레아제 활성을 나타낼 수 있으며, 이는 핵산 신장 동안 더 높은 충실도에 기여할 수 있다. 일부 중합효소는 신장 동안 선행 서열을 대체할 수 있는 반면, 다른 중합효소는 이들을 분해하거나 신장을 중단할 수 있다. Taq과 같은 일부 중합효소는 핵산 서열의 3' 말단에 아데닌 염기를 통합한다. 또한 일부 중합효소는 다른 중합효소보다 충실도와 공정성이 더 높을 수 있으며 증폭된 핵산 수율이 최소한의 돌연변이를 갖는 것이 중요하고 증폭 전반에 걸쳐 고유한 핵산의 분포가 균일한 분포를 유지하는 것이 중요한 시퀀싱 준비와 같은 PCR 애플리케이션에 더 적합할 수 있다.
E. 사이즈 선택
특정 크기의 핵산은 크기 선택 기술을 사용하여 샘플에서 선택할 수 있다. 일부 실시예에서, 크기-선택은 겔 전기영동 또는 크로마토그래피를 사용하여 수행될 수 있다. 핵산의 액체 샘플은 고정상 또는 겔(또는 매트릭스)의 한 말단에 로드될 수 있다. 겔의 음극 단자가 핵산 샘플이 로딩되는 단자이고 겔의 양극 단자가 반대쪽 단자가 되도록 전압 차이가 겔에 걸쳐 배치될 수 있다. 핵산은 음전하를 띤 인산염 백본을 가지고 있기 때문에 겔을 가로질러 양극 말단으로 이동한다. 핵산의 크기는 겔을 통한 상대적인 이동 속도를 결정한다. 따라서 크기가 다른 핵산은 이동하면서 겔에서 분해된다. 전압 차이는 100V 또는 120V일 수 있다. 전압 차이는 최대 50V, 100V, 150V, 200V, 250V 또는 그 이상이 될 수 있다. 전압 차이가 클수록 핵산 이동 속도와 크기 분해능이 증가할 수 있다. 그러나 더 큰 전압 차이는 핵산이나 겔을 손상시킬 수도 있다. 더 큰 크기의 핵산을 분석하려면 더 큰 전압 차이가 권장될 수 있다. 일반적인 마이그레이션 시간은 15분에서 60분 사이일 수 있다. 마이그레이션 시간은 최대 10분, 30분, 60분, 90분, 120분 또는 그 이상이 될 수 있다. 더 높은 전압과 유사하게 더 긴 이동 시간은 더 나은 핵산 분해능으로 이어질 수 있지만 증가된 핵산 손상으로 이어질 수 있다. 더 큰 크기의 핵산을 분석하려면 더 긴 마이그레이션 시간이 권장될 수 있다. 예를 들어, 120V의 전압 차와 30분의 이동 시간은 250-염기 핵산에서 200-염기 핵산을 분리하는 데 충분할 수 있다.
겔 또는 매트릭스의 특성은 크기 선택 과정에 영향을 미칠 수 있다. 겔은 일반적으로 TAE(Tris-acetate-EDTA) 또는 TBE(Tris-borate-EDTA)와 같은 전도성 완충액에 분산된 아가로스 또는 폴리아크릴아미드와 같은 고분자 물질을 포함한다. 겔 내 물질(예: 아가로스 또는 아크릴아미드)의 함량(부피당 중량)은 최대 0.5%, 1%, 2%, 3%, 5%, 10%, 15%, 20%, 25%, 또는 그 이상일 수 있다. 콘텐츠가 많을수록 마이그레이션 속도가 느려질 수 있다. 더 작은 핵산을 분해하려면 더 높은 함량이 바람직할 수 있다. 아가로스 겔은 이중 가닥 DNA(dsDNA)를 분석하는 데 더 좋을 수 있다. 폴리아크릴아미드 겔은 단일 가닥 DNA(ssDNA)를 분석하는 데 더 좋을 수 있다. 바람직한 겔 조성은 핵산 유형 및 크기, 첨가제의 호환성(예: 염료, 염색제, 변성 용액 또는 로딩 버퍼) 및 예상되는 다운스트림 적용(예: 겔 추출 후 결합, PCR 또는 시퀀싱). Agarose 겔은 polyacrylamide 겔보다 겔 추출이 더 간단할 수 있다. TAE는 TBE만큼 좋은 전도체는 아니지만 추출 공정에서 붕산염(효소 억제제) 이월이 하류 효소 반응을 억제할 수 있기 때문에 겔 추출에 더 좋을 수도 있다.
겔은 SDS(나트륨 도데실 설페이트) 또는 우레아와 같은 변성 용액을 추가로 포함할 수 있다. SDS는 예를 들어 단백질을 변성시키거나 잠재적으로 결합된 단백질로부터 핵산을 분리하는 데 사용될 수 있다. 우레아는 DNA의 2차 구조를 변성시키는 데 사용될 수 있다. 예를 들어 요소는 dsDNA를 ssDNA로 변환하거나 요소가 접힌 ssDNA(예: 머리핀)를 접히지 않은 ssDNA로 변환할 수 있다. 우레아-폴리아크릴아미드 겔(TBE를 추가로 포함)은 ssDNA를 정확하게 분해하는 데 사용될 수 있다.
샘플은 다양한 형식의 겔에 통합될 수 있다. 일부 실시 예에서 겔은 샘플을 수동으로 로드할 수 있는 웰을 포함할 수 있다. 하나의 겔에는 여러 핵산 샘플을 실행하기 위한 여러 개의 웰이 있을 수 있다. 다른 실시예에서, 겔은 핵산 샘플(들)을 자동으로 로딩하는 미세유체 채널에 부착될 수 있다. 각 겔은 여러 미세유체 채널의 하류에 있거나 겔 자체가 각각 별도의 미세유체 채널을 차지할 수 있다. 겔의 치수는 핵산 검출(또는 시각화)의 민감도에 영향을 미칠 수 있다. 예를 들어, 얇은 겔 또는 미세유체 채널 내부의 겔(예: 바이오분석기 또는 테이프스테이션)은 핵산 검출 감도를 향상시킬 수 있다. 핵산 검출 단계는 올바른 크기의 핵산 단편을 선택하고 추출하는 데 중요할 수 있다.
[00320] 핵산 크기 참조를 위해 래더를 겔에 로드할 수 있다. 래더는 핵산 샘플을 비교할 수 있는 다른 크기의 마커를 포함할 수 있다. 사다리마다 크기 범위와 해상도가 다를 수 있다. 예를 들어, 50 베이스 사다리는 50, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550 및 600 베이스에 마커를 가질 수 있다. 상기 사다리는 50개 및 600개 염기의 크기 범위 내의 핵산을 검출하고 선택하는 데 유용할 수 있다. 사다리는 또한 샘플에서 다양한 크기의 핵산 농도를 추정하기 위한 표준으로 사용될 수 있다.
[00321] 겔 전기영동(또는 크로마토그래피) 프로세스를 용이하게 하기 위해 핵산 시료 및 사다리를 로딩 버퍼와 혼합할 수 있다. 로딩 버퍼에는 핵산의 이동을 추적하는 데 도움이 되는 염료와 마커가 포함될 수 있다. 로딩 버퍼는 핵산 샘플이 샘플 로딩 웰(런닝 버퍼에 잠길 수 있음)의 바닥으로 가라앉도록 하기 위해 런닝 버퍼(예: TAE 또는 TBE)보다 밀도가 더 높은 시약(예: 글리세롤)을 추가로 포함할 수 있다.). 로딩 버퍼는 SDS 또는 우레아와 같은 변성제를 추가로 포함할 수 있다. 로딩 버퍼는 핵산의 안정성을 향상시키기 위한 시약을 더 포함할 수 있다. 예를 들어, 로딩 버퍼는 뉴클레아제로부터 핵산을 보호하기 위해 EDTA를 포함할 수 있다.
[00322] 일부 실시예에서, 겔은 핵산에 결합하고 상이한 크기의 핵산을 광학적으로 검출하기 위해 사용될 수 있는 착색제를 포함할 수 있다. 얼룩은 dsDNA, ssDNA 또는 둘 다에 대해 특이적일 수 있다. 다른 얼룩은 다른 겔 물질과 호환될 수 있다. 일부 얼룩은 시각화하기 위해 광원(또는 전자파)의 여기가 필요할 수 있다. 광원은 UV(자외선) 또는 청색광일 수 있다. 일부 실시예에서, 얼룩은 전기영동 전에 겔에 추가될 수 있다. 다른 실시예에서, 얼룩은 전기영동 후 겔에 첨가될 수 있다. 얼룩의 예로는 EtBr(Ethidium Bromide), SYBR Safe, SYBR Gold, 은색 얼룩 또는 메틸렌 블루가 있다. 예를 들어 특정 크기의 dsDNA를 시각화하기 위한 신뢰할 수 있는 방법은 SYBR Safe 또는 EtBr 염색과 함께 아가로스 TAE 겔을 사용하는 것일 수 있다. 예를 들어 특정 크기의 ssDNA를 시각화하기 위한 신뢰할 수 있는 방법은 메틸렌 블루 또는 실버 얼룩이 있는 요소-폴리아크릴아미드 TBE 겔을 사용하는 것일 수 있다.
일부 실시예에서, 겔을 통한 핵산의 이동은 전기영동 이외의 다른 방법에 의해 추진될 수 있다. 예를 들어, 중력, 원심분리, 진공 또는 압력을 사용하여 겔을 통해 핵산을 구동하여 크기에 따라 분리할 수 있다.
특정 크기의 핵산은 블레이드 또는 면도기를 사용하여 핵산을 포함하는 겔 밴드를 절제하여 겔에서 추출할 수 있다. 적절한 광학 검출 기술 및 DNA 사다리를 사용하여 절제가 특정 밴드에서 정확하게 발생하고 절제가 다른 바람직하지 않은 크기 밴드에 속할 수 있는 핵산을 성공적으로 제외하는지 확인할 수 있다. 겔 밴드는 완충액과 함께 배양되어 용해되어 핵산이 완충 용액으로 방출될 수 있다. 열 또는 물리적 교반은 용해 속도를 높일 수 있다. 대안적으로, 겔 밴드는 겔 용해를 필요로 하지 않고 DNA가 완충액으로 확산될 수 있도록 충분히 오랫동안 완충액에서 인큐베이션될 수 있다. 그런 다음 버퍼는 예를 들어 흡인 또는 원심 분리에 의해 나머지 고상 겔에서 분리될 수 있다. 그런 다음 핵산은 페놀-클로로포름 추출, 에탄올 침전, 자기 비드 캡쳐 및/또는 실리카 막 흡착, 세척 및 용출과 같은 표준 정제 또는 완충액 교환 기술을 사용하여 용액으로부터 정제될 수 있다. 핵산도 이 단계에서 농축될 수 있다.
겔 절제의 대안으로 특정 크기의 핵산을 겔에서 흘러내리게 하여 겔에서 분리할 수 있다. 이동하는 핵산은 겔에 묻혀 있거나 겔 말단에 있는 분지(또는 우물)를 통과할 수 있다. 특정 크기의 핵산 그룹이 대야에 들어갈 때 샘플이 대야에서 수집되도록 이동 프로세스는 시간이 지정되거나 광학적으로 모니터링될 수 있다. 수집은 예를 들어 흡인에 의해 발생할 수 있다. 그런 다음 핵산은 페놀-클로로포름 추출, 에탄올 침전, 자기 비드 캡쳐 및/또는 실리카 막 흡착, 세척 및 용출과 같은 표준 정제 또는 완충액 교환 기술을 사용하여 수집된 용액으로부터 정제될 수 있다. 핵산도 이 단계에서 농축될 수 있다.
핵산 크기 선택을 위한 다른 방법에는 질량 분석법 또는 막 기반 여과가 포함될 수 있다. 막 기반 여과의 일부 실시예에서, 핵산은 dsDNA, ssDNA 또는 둘 모두에 우선적으로 결합할 수 있는 막(예를 들어, 실리카 막)을 통과한다. 막은 적어도 특정 크기의 핵산을 우선적으로 캡쳐하도록 설계될 수 있다. 예를 들어, 멤브레인은 20, 30, 40, 50, 70, 90개 또는 그 이상의 염기로 구성된 핵산을 걸러내도록 설계될 수 있다. 상기 멤브레인 기반의 크기 선택 기술은 겔 전기영동 또는 크로마토그래피만큼 엄격하지 않을 수 있다.
F. 핵산 캡쳐
선호도 태그 핵산은 핵산 캡쳐를 위한 서열 특이적 프로브로 사용될 수 있다. 프로브는 핵산 풀 내에서 타겟 서열을 보완하도록 설계될 수 있다. 이어서, 프로브는 핵산 풀과 함께 인큐베이션되고 그의 타겟에 혼성화될 수 있다. 인큐베이션 온도는 혼성화를 용이하게 하기 위해 프로브의 용융 온도 미만일 수 있다. 인큐베이션 온도는 프로브의 용융 온도보다 섭씨 5, 10, 15, 20, 25도 이상 낮을 수 있다. 혼성화된 타겟은 선호도 태그에 특이적으로 결합하는 고상 기질에 캡쳐될 수 있다. 고상 기질은 막, 웰, 컬럼 또는 비드일 수 있다. 여러 번 세척하면 타겟에서 혼성화되지 않은 모든 핵산이 제거될 수 있다. 세척은 세척 중에 타겟 서열의 안정적인 고정화를 용이하게 하기 위해 프로브의 용융 온도 미만의 온도에서 일어날 수 있다. 세척 온도는 프로브의 용융 온도보다 섭씨 5, 10, 15, 20, 25도 또는 그 이상 낮을 수 있다. 최종 용출 단계는 고상-기질뿐만 아니라 선호도 태그가 부착된 프로브로부터 핵산 타겟을 회수할 수 있다. 용출 단계는 용출 완충액으로 핵산 타겟의 방출을 용이하게 하기 위해 프로브의 용융 온도보다 높은 온도에서 일어날 수 있다. 용리 온도는 프로브의 용융 온도보다 섭씨 5, 10, 15, 20, 25도 이상 높을 수 있다.
일부 실시예에서, 비오틴은 고상 기판 상에 스트렙타비딘에 의해 고정되는 선호도 태그로서 사용될 수 있다. 핵산 캡쳐 프로브로 사용하기 위한 비오티닐화된 올리고는 설계 및 제조될 수 있다. 올리고는 5' 또는 3' 말단에서 비오티닐화될 수 있다. 그들은 또한 티민 잔기에서 내부적으로 비오티닐화될 수 있다. 올리고의 증가된 비오틴은 스트렙타비딘 기질에서 더 강력한 캡쳐으로 이어질 수 있다. 올리고의 3' 말단에 있는 비오틴은 PCR 중에 올리고가 확장되는 것을 차단할 수 있다. 비오틴 태그는 표준 비오틴의 변형일 수 있다. 예를 들어, 비오틴 변이체는 비오틴-TEG(triethylene glycol), 이중 비오틴, PC 비오틴, DesthioBiotin-TEG, 비오틴 아지드일 수 있다. 이중 비오틴은 비오틴-스트렙타비딘 선호도를 증가시킬 수 있다. Biotin-TEG는 TEG 링커에 의해 분리된 핵산에 비오틴 그룹을 부착한다. 이는 비오틴이 핵산 프로브의 기능, 예를 들어 타겟에 대한 혼성화를 방해하는 것을 방지할 수 있다. 핵산 비오틴 링커도 프로브에 부착될 수 있다. 핵산 링커는 타겟에 혼성화하도록 의도되지 않은 핵산 서열을 포함할 수 있다.
비오티닐화된 핵산 프로브는 타겟에 얼마나 잘 혼성화될 수 있는지를 고려하여 설계될 수 있다. 더 높게 설계된 녹는점을 가진 핵산 프로브는 타겟에 더 강하게 혼성화할 수 있다. 더 긴 핵산 프로브와 더 높은 GC 함량을 가진 프로브는 용융 온도 증가로 인해 더 강하게 혼성화할 수 있다. 핵산 프로브는 적어도 5, 10, 15, 20, 30, 40, 50, 또는 100개의 염기 또는 그 이상의 길이를 가질 수 있다. 핵산 프로브는 0에서 100% 사이의 GC 함량을 가질 수 있다. 프로브의 녹는 온도가 streptavidin 기질의 온도 허용 오차를 초과하지 않도록 주의를 기울여야 한다. 핵산 프로브는 비타겟 핵산을 갖는 헤어핀, 동종이량체 및 이종이량체와 같은 억제 2차 구조를 피하도록 설계될 수 있다. 프로브 녹는 온도와 비타겟 결합 사이에는 트레이드오프가 있을 수 있다. 용융 온도가 높고 off-target binding이 낮은 최적의 프로브 길이와 GC 함량이 있을 수 있다. 합성 핵산 라이브러리는 핵산이 효율적인 프로브 결합 부위를 포함하도록 설계될 수 있다.
고상 스트렙타비딘 기질은 자성 비드일 수 있다. 마그네틱 비드는 마그네틱 스트립이나 플레이트를 사용하여 고정할 수 있다. 자기 스트립 또는 플레이트는 자기 비드를 용기에 고정시키기 위해 용기와 접촉하게 될 수 있다. 반대로, 마그네틱 스트립 또는 플레이트는 컨테이너 벽에서 마그네틱 비드를 용액으로 방출하기 위해 컨테이너에서 제거될 수 있다. 다른 비드 속성은 적용에 영향을 줄 수 있다. 구슬은 다양한 크기를 가질 수 있다. 예를 들어 비드의 직경은 1~3마이크로미터(um)일 수 있다. 비드는 최대 1, 2, 3, 4, 5, 10, 15, 20 또는 그 이상의 마이크로미터의 직경을 가질 수 있다. 비드 표면은 소수성 또는 친수성일 수 있다. 비드는 예를 들어 BSA와 같은 차단 단백질로 코팅될 수 있다. 비드를 사용하기 전에 비드가 비특이적으로 핵산에 결합하는 것을 방지하기 위해 차단 용액과 같은 첨가제로 비드를 세척하거나 전처리할 수 있다.
비오틴화 프로브는 핵산 샘플 풀과 배양하기 전에 자성 스트렙타비딘 비드에 결합될 수 있다. 이 과정을 직접 캡처라고 할 수 있다. 대안적으로, 비오티닐화 프로브는 자성 스트렙타비딘 비드를 첨가하기 전에 핵산 샘플 풀과 함께 배양될 수 있다. 이 프로세스를 간접 캡처라고 할 수 있다. 간접 캡처 방법은 목표 수율을 향상시킬 수 있다. 더 짧은 핵산 프로브는 자기 비드에 결합하는 데 더 짧은 시간이 필요할 수 있다.
핵산 샘플과 함께 핵산 프로브의 최적 인큐베이션은 섭씨 1 내지 10도 또는 프로브의 융점보다 낮은 온도에서 일어날 수 있다. 인큐베이션 온도는 섭씨 5, 10, 20, 30, 40, 50, 60, 70, 80 또는 그 이상일 수 있다. 권장 배양 시간은 1시간일 수 있다. 인큐베이션 시간은 최대 1, 5, 10, 20, 30, 60, 90, 120분 또는 그 이상이 될 수 있다. 더 긴 배양 시간은 더 나은 캡쳐 효율로 이어질 수 있다. 비오틴-스트렙타비딘 커플링을 허용하기 위해 스트렙타비딘 비드를 첨가한 후 추가로 10분간 배양할 수 있다. 이 추가 시간은 최대 1, 5, 10, 20, 30, 60, 90, 120분 또는 그 이상이 될 수 있다. 배양은 나트륨 이온과 같은 첨가제가 있는 완충 용액에서 발생할 수 있다.
핵산 풀이 단일 가닥 핵산(이중 가닥과 반대)이면 프로브와 타겟의 혼성화가 향상될 수 있다. dsDNA 풀에서 ssDNA 풀을 준비하는 것은 풀에 있는 모든 핵산 서열의 가장자리에 일반적으로 결합하는 하나의 프라이머로 선형 PCR을 수행하는 것을 수반할 수 있다. 핵산 풀이 합성적으로 생성되거나 조립되는 경우 이 공통 프라이머 결합 부위가 합성 설계에 포함될 수 있다. 선형 PCR의 산물은 ssDNA가 된다. 핵산 캡처를 위한 더 많은 시작 ssDNA 템플릿은 선형 PCR의 더 많은 주기로 생성될 수 있다. PCR의 화학적 방법 섹션 D를 참조하시오.
핵산 프로브가 타겟에 혼성화되고 자성 스트렙타비딘 비드에 결합된 후, 비드는 자석에 의해 고정될 수 있으며 여러 라운드의 세척이 발생할 수 있다. 비타겟 핵산을 제거하는 데 3~5회 세척하면 충분할 수 있지만 더 많거나 적은 라운드의 세척이 사용될 수 있다. 각 증분 세척은 비타겟 핵산을 추가로 감소시킬 수 있지만 타겟 핵산의 수율도 감소시킬 수 있다. 세척 단계 동안 프로브에 타겟 핵산의 적절한 혼성화를 용이하게 하기 위해 낮은 배양 온도가 사용될 수 있다. 섭씨 60, 50, 40, 30, 20, 10 또는 5도 이하의 낮은 온도를 사용할 수 있다. 세척 완충액은 나트륨 이온을 갖는 트리스 완충 용액을 포함할 수 있다.
자기 비드 결합 프로브로부터 혼성화된 타겟의 최적의 용출은 프로브의 녹는 온도와 같거나 그 이상의 온도에서 일어날 수 있다. 더 높은 온도는 탐침에 대한 대상의 분리를 용이하게 한다. 용리 온도는 섭씨 30, 40, 50, 60, 70, 80 또는 90도 이하일 수 있다. 용출 인큐베이션 시간은 최대 1, 2, 5, 10, 30, 60분 또는 그 이상일 수 있다. 일반적인 인큐베이션 시간은 약 5분이지만 인큐베이션 시간이 길어지면 수율이 향상될 수 있다. 용출 버퍼는 물 또는 EDTA와 같은 첨가제가 포함된 트리스 완충 용액일 수 있다.
별개의 부위 세트 중 적어도 하나 이상을 포함하는 타겟 서열의 핵산 캡쳐는 이들 부위 각각에 대해 다수의 별개의 프로브를 사용한 하나의 반응에서 수행될 수 있다. 별개의 부위 세트의 모든 구성원을 포함하는 타겟 서열의 핵산 캡쳐는 특정 부위에 대한 프로브를 사용하여 각각의 별개의 부위에 대한 하나의 반응인 일련의 캡쳐 반응에서 수행될 수 있다. 일련의 캡쳐 반응 후 타겟 수율은 낮을 수 있지만 캡쳐된 타겟은 이후에 PCR로 증폭될 수 있다. 핵산 라이브러리가 합성적으로 설계된 경우 타겟은 PCR을 위한 공통 프라이머 결합 부위로 설계될 수 있다.
합성 핵산 라이브러리는 일반적인 핵산 캡쳐를 위한 공통 프로브 결합 부위로 생성되거나 조립될 수 있다. 이러한 공통 부위는 조립 반응으로부터 완전히 조립되거나 잠재적으로 완전히 조립된 핵산을 선택적으로 캡처하여 부분적으로 조립되거나 잘못 조립된(또는 의도하지 않거나 바람직하지 않은) 부산물을 걸러내는 데 사용될 수 있다. 예를 들어, 어셈블리는 완전히 조립된 핵산 제품만이 각 프로브를 사용하여 일련의 두 개의 캡쳐 반응을 통과하는 데 필요한 필수 두 개의 프로브 결합 부위를 포함하도록 각 에지 서열에 프로브 결합 부위가 있는 핵산을 조립하는 것을 포함할 수 있다. 상기 예에서, 부분적으로 조립된 제품은 탐침 부위를 포함하지 않거나 하나만 포함할 수 있으므로 궁극적으로 캡쳐되지 않아야 한다. 마찬가지로 잘못 조립된(또는 의도하지 않았거나 바람직하지 않은) 제품에는 가장자리 서열가 없거나 하나만 포함될 수 있다. 따라서 상기 오조립된 제품은 최종적으로 포착되지 않을 수 있다. 엄격성을 높이기 위해 어셈블리의 각 구성 요소에 공통 프로브 바인딩 사이트가 포함될 수 있다. 각 구성 요소에 대한 프로브를 사용하는 후속 일련의 핵산 캡쳐 반응은 조립 반응의 모든 부산물에서 완전히 조립된 제품(각 구성 요소 포함)만 분리할 수 있다. 후속 PCR은 대상 농축을 향상시킬 수 있으며 후속 크기 선택은 대상 엄격성을 향상시킬 수 있다.
일부 실시예에서, 핵산 캡쳐는 풀로부터 핵산의 타겟 서브세트를 선택적으로 캡쳐하기 위해 사용될 수 있다. 예를 들어, 상기 타겟 핵산 서브세트에만 나타나는 결합 부위가 있는 프로브를 사용한다. 합성 핵산 라이브러리는 관심 있는 잠재적 하위 라이브러리에 속하는 핵산이 모두 공통 프로브 결합 부위(하위 라이브러리 내에서는 공통적이지만 다른 하위 라이브러리와는 구별됨)를 공유하도록 생성 또는 조립하여 보다 일반적인 라이브러리에서 하위 라이브러리를 선택적으로 캡처할 수 있다.
G. 동결건조
동결건조는 탈수 과정이다. 핵산과 효소 모두 동결건조될 수 있다. 동결건조된 물질은 더 긴 수명을 가질 수 있다. 화학적 안정제와 같은 첨가제는 동결건조 공정을 통해 기능성 제품(예: 활성 효소)을 유지하는 데 사용될 수 있다. 수크로즈 및 트레할로스와 같은 이당류는 화학적 안정제로 사용될 수 있다.
H. DNA 디자인
합성 라이브러리(예: 식별자 라이브러리)를 구축하기 위한 핵산의 서열(예: 구성 요소)은 합성, 시퀀싱 및 어셈블리 합병증을 피하도록 설계될 수 있다. 더욱이, 그들은 합성 라이브러리를 구축하는 비용을 줄이고 합성 라이브러리가 저장될 수 있는 수명을 개선하도록 설계될 수 있다.
핵산은 합성하기 어려울 수 있는 단일 중합체(또는 반복되는 염기 서열)의 긴 스트링을 피하도록 설계될 수 있다. 핵산은 길이가 2, 3, 4, 5, 6, 7 또는 그 이상을 초과하는 단일중합체를 피하도록 설계될 수 있다. 또한, 핵산은 합성 과정을 방해할 수 있는 헤어핀 루프와 같은 2차 구조의 형성을 방지하도록 설계될 수 있다. 예를 들어, 안정적인 2차 구조를 형성하지 않는 핵산 서열을 생성하기 위해 예측 소프트웨어를 사용할 수 있다. 합성 라이브러리 구축을 위한 핵산은 짧게 설계될 수 있다. 더 긴 핵산은 합성하기가 더 어렵고 비용이 많이 들 수 있다. 더 긴 핵산은 또한 합성 중에 돌연변이의 가능성이 더 높을 수 있다. 핵산(예: 구성 요소)은 최대 5, 10, 15, 20, 25, 30, 40, 50, 60개 또는 그 이상의 염기일 수 있다.
조립 반응에서 구성 요소가 되는 핵산은 조립 반응을 촉진하도록 설계될 수 있다. OEPCR 및 결합 기반 조립 반응 각각에 대한 핵산 서열 고려 사항에 대한 자세한 내용은 부록 A 및 B를 참조하십시오. 효율적인 조립 반응은 일반적으로 인접한 구성 요소 간의 혼성화를 포함한다. 서열은 잠재적인 비타겟 혼성화를 피하면서 이러한 타겟 혼성화 이벤트를 촉진하도록 설계될 수 있다. 고정 핵산(LNA)과 같은 핵산 염기 변형을 사용하여 타겟 혼성화를 강화할 수 있다. 이러한 변형된 핵산은 예를 들어 스테이플 가닥 결합에서 스테이플로서 또는 점착성 가닥 결합에서 점착성 말단으로 사용될 수 있다. 합성 핵산 라이브러리(또는 식별자 라이브러리)를 구축하는 데 사용할 수 있는 기타 변형된 염기에는 2,6-Diaminopurine, 5-Bromo dU, deoxyUridine, inverted dT, inverted diDeoxy-T, Dideoxy-C, 5-Methyl dC, deoxylnosine, 슈퍼 T, 슈퍼 G, 또는 5-니트로인돌이 포함된다. 핵산은 하나 또는 여러 개의 동일하거나 다른 변형된 염기를 포함할 수 있다. 상기 변형된 염기 중 일부는 더 높은 용융 온도를 갖고 따라서 조립 반응에서 특정 혼성화 사건을 촉진하는 데 유용할 수 있는 천연 염기 유사체(예를 들어, 5-메틸 dC 및 2,6-디아미노퓨린)이다. 상기 변형된 염기 중 일부는 모든 천연 염기에 결합할 수 있는 범용 염기(예를 들어, 5-니트로인돌)이며, 따라서 원하는 결합 부위 내에 가변 서열을 가질 수 있는 핵산과의 혼성화를 촉진하는 데 유용할 수 있다. 조립 반응에서의 유익한 역할 외에도, 이러한 변형된 염기는 프라이머(예: PCR용) 및 프로브(예: 핵산 캡쳐용)에서 유용할 수 있다. 핵산 풀 내에서. 핵산 증폭(또는 PCR) 및 핵산 캡쳐에 대한 자세한 핵산 설계 고려 사항은 화학적 방법 섹션 D 및 F를 참조하시오.
핵산은 시퀀싱을 용이하게 하도록 설계될 수 있다. 예를 들어, 핵산은 2차 구조, 동종중합체의 스트레치, 반복 서열, GC 함량이 너무 높거나 낮은 서열과 같은 전형적인 시퀀싱 합병증을 피하도록 설계될 수 있다. 특정 시퀀서 또는 시퀀싱 방법은 오류가 발생하기 쉬울 수 있다. 합성 라이브러리(예: 식별자 라이브러리)를 구성하는 핵산 서열(또는 구성 요소)은 서로 특정 해밍 거리로 설계될 수 있다. 이렇게 하면 시퀀싱에서 염기 해상도 오류가 높은 비율로 발생하는 경우에도 오류가 포함된 서열의 범위가 가장 가능성이 높은 핵산(또는 구성 요소)에 다시 매핑될 수 있다. 핵산 서열은 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15개 또는 그 이상의 염기 돌연변이의 해밍 거리로 설계될 수 있다. 해밍 거리로부터의 대안적인 거리 메트릭은 또한 설계된 핵산 사이의 최소 필수 거리를 정의하는 데 사용될 수 있다.
일부 시퀀싱 방법 및 기기는 어댑터 서열 또는 프라이머 결합 부위와 같은 특정 서열를 포함하기 위해 입력 핵산을 요구할 수 있다. 이들 서열은 "방법-특정 서열"로 지칭될 수 있다. 상기 시퀀싱 기기 및 방법에 대한 일반적인 준비 워크플로는 방법별 서열을 핵산 라이브러리에 조립하는 것을 포함할 수 있다. 그러나 합성 핵산 라이브러리(예: 식별자 라이브러리)가 특정 기기 또는 방법으로 시퀀싱될 것이라는 것이 미리 알려진 경우, 이러한 방법별 서열는 다음과 같은 핵산(예: 구성 요소)으로 설계될 수 있다. 라이브러리(예: 식별자 라이브러리)를 포함한다. 예를 들어, 시퀀싱 어댑터는 합성 핵산 라이브러리의 구성원 자체가 개별 핵산 구성 요소으로부터 조립될 때와 동일한 반응 단계에서 합성 핵산 라이브러리의 구성원 상에 조립될 수 있다.
DNA 손상을 촉진할 수 있는 서열을 피하도록 핵산을 설계할 수 있다. 예를 들어, 부위 특이적 뉴클레아제 부위를 포함하는 서열은 피할 수 있다. 또 다른 예로서, UVB(자외선-B) 빛은 인접한 티민이 시퀀싱 및 PCR을 억제할 수 있는 피리미딘 이량체를 형성하게 할 수 있다. 따라서 합성 핵산 라이브러리를 UVB에 노출된 환경에 저장하려는 경우 인접한 티민(즉, TT) 또는 인접한 시토신(즉, CC)을 피하도록 핵산 서열을 설계하는 것이 유리할 수 있다.
화학적 방법 섹션에 포함된 모든 정보는 앞서 언급한 기술, 방법, 프로토콜, 시스템 및 프로세스를 지원하고 활성화하기 위한 것이다.
예시
예 1 : DNA 분자에서 단일 시를 인코딩, 기록 및 읽기.
인코딩할 데이터는 시가 포함된 텍스트 파일이다. 데이터는 중첩 확장 PCR로 구현된 제품 계획을 사용하여 식별자를 구성하기 위해 96개 구성 요소의 두 레이어에서 DNA 구성 요소를 혼합하기 위해 피펫으로 수동으로 인코딩된다. 첫 번째 층인 X는 총 96개의 DNA 구성 요소로 구성된다. 두 번째 레이어 Y도 총 96개의 구성 요소로 구성된다. DNA를 작성하기 전에 데이터는 이진법으로 매핑된 다음 원본 데이터의 61비트 스트링이 정확히 17비트 값인 96비트 스트링로 변환되는 균일한 가중치 형식으로 다시 코딩된다.. 이 균일 가중치 형식은 자연스러운 오류 검사 특성을 가질 수 있다. 그런 다음 데이터는 96 x 96 테이블로 해시되어 참조 맵을 형성한다.
도 22A의 중간 패널. 는 시를 복수의 식별자로 인코딩하는 96×96 테이블의 2차원 참조 맵을 보여준다. 어두운 점은 '1' 비트 값에 해당하고 흰색 점은 '0' 비트 값에 해당한다. 데이터는 96개 구성 요소의 두 계층을 사용하여 식별자로 인코딩된다. 테이블의 각 X 값과 Y 값에는 구성 요소가 할당되고 X 및 Y 구성 요소는 값이 '1'인 각(X,Y) 좌표에 대해 중첩 확장 PCR을 사용하여 식별자로 조립된다. 각 가능한(X,Y) 어셈블리의 존재 또는 부재를 결정하기 위해 식별자 라이브러리를 시퀀싱함으로써 데이터를 다시 읽었다(예: 디코딩됨).
도 22A는 시퀀싱에 의해 결정된 바와 같이 식별자 라이브러리에 존재하는 풍부한 서열의 2차원 열 맵를 보여준다. 각 픽셀은 해당 X 및 Y 구성 요소를 포함하는 분자를 나타내며 해당 픽셀의 그레이스케일 강도는 다른 분자와 비교하여 해당 분자의 상대적 존재비를 나타낸다. 식별자는 각 행에서 가장 풍부한 상위 17개(X, Y) 어셈블리로 간주된다(균일한 가중치 인코딩은 96비트의 각 연속 스트링이 정확히 17개의 '1' 값을 가질 수 있으므로 17개의 해당 식별자를 가질 수 있음을 보장함).
예 2 : 62824비트 텍스트 파일을 인코딩한다.
인코딩할 데이터는 총 62824비트의 세 편의 시로 구성된 텍스트 파일이다. 데이터는 Labcyte Echo® Liquid Handler를 사용하여 인코딩되어 중첩 확장 PCR로 구현된 제품 계획을 사용하여 식별자를 구성하기 위해 384개 구성 요소의 두 레이어에서 DNA 구성 요소를 함께 혼합한다. 첫 번째 층인 X는 총 384개의 DNA 구성 요소로 구성된다. 두 번째 레이어 Y도 총 384개의 구성 요소로 구성된다. DNA를 작성하기 전에 데이터를 바이너리로 매핑한 다음 다시 코딩하여 가중치('1'의 비트 값 수)를 줄이고 체크섬을 포함한다. 체크섬은 192비트 데이터의 모든 연속 스트링에 대한 체크섬에 해당하는 식별자가 있도록 설정된다. 다시 코딩된 데이터는 약 10,100개의 가중치를 가지며, 이는 구성할 식별자의 수에 해당한다. 그런 다음 데이터를 384 x 384 테이블로 해시하여 참조 맵을 형성할 수 있다.
도 22B의 중간 패널은 텍스트 파일을 복수의 식별자로 인코딩하는 384×384 테이블의 2차원 참조 맵을 보여준다. 각 좌표(X,Y)는 위치 X +(Y-1)*192의 데이터 비트에 해당한다. 검은 점은 비트 값 '1'에 해당하고 흰색 점은 비트 값 '0'에 해당한다. 도 오른쪽의 검은색 점은 체크섬이고 도 위쪽의 검은색 점의 패턴은 코드북(예: 데이터를 디코딩하기 위한 사전)이다. 테이블의 각 X 값과 Y 값은 구성 요소로 지정될 수 있으며 X 및 Y 구성 요소는 각각의(X, Y) 좌표에 대해 중첩 확장 PCR을 사용하여 '1' 값으로 식별자로 조합된다. 각각의 가능한(X, Y) 어셈블리의 존재 또는 부재를 결정하기 위해 식별자 라이브러리를 시퀀싱함으로써 데이터를 다시 판독(예를 들어, 디코딩)하였다.
도 22B는 시퀀싱에 의해 결정된 식별자 라이브러리에 존재하는 풍부한 서열의 2차원 열 맵를 보여준다. 각 픽셀은 해당 X 및 Y 구성 요소를 포함하는 분자를 나타내며 해당 픽셀의 그레이스케일 강도는 다른 분자와 비교하여 해당 분자의 상대적 존재비를 나타낸다. 식별자는 각 행에서 상위 S개의 가장 풍부한(X, Y) 어셈블리로 간주되며 각 행의 S는 체크섬 값일 수 있다.
예 3 : 15-피스 점착성-말단 결합에서 5' 대 3' 오버행 및 4-염기 대 6-염기 오버행의 비교
표 1은 다음과 같이 표시된 4가지 15-DNA 구성 요소 세트의 측정된 연결 효율을 보여준다: 6/24/6 3', 6/24/6 5', 4/24/4 3', 및 4/24/4 5'. 라벨의 처음 3개의 숫자 X/Y/Z는 한쪽 끝에 X-염기 돌출부, 가운데에 Y염기 이중(또는 바코드) 영역, 다른 쪽 끝에 Z염기 돌출부가 있는 세트 내 각 DNA 구성 요소의 형태를 나타낸다. 각 라벨의 마지막 숫자(아포스트로피 앞)는 세트의 오버행이 5' 또는 3'인지 여부를 나타낸다. 각 DNA 성분 0.067 ?M, T4 리가제 5 CEU/μL(CEU = 응집성 엔드 유닛), 7.5% w/v PEG6000, 20% v/v 글리세롤 및 표준 T4 리가제 버퍼 부품을 사용하여 37°C에서 리깅을 수행했다. 결합 시간은 2.5분이었다. 효율은 각 가능한 세트에 대해 완전히 결합된 제품을 나타내는 전체 길이 대조군(FLC)과 비교하여 qPCR로 측정했다.
결합 효율 측정
15구성 요소 세트 평균 결합 효율 샌다드 편차
6/24/6 5' 0.2471% 0.0750%
6/24/6 5' 0.7237% 0.1059%
6/24/6 5' 0.0275% 0.0047%
6/24/6 3' 0.2221% 0.0470%
6/24/6 3' 0.0490% 0.0068%
6/24/6 3' 0.0398% 0.0077%
4/24/4 5' 0.0008% 0.0001%
4/24/4 5' 0.0008% 0.0002%
4/24/4 5' 0.0003% 0.0000%
4/24/4 3' 0.0014% 0.0003%
4/24/4 3' 0.0047% 0.0005%
4/24/4 3' 0.0008% 0.0002%
도 26은 약 450개의 염기 길이를 갖는 각각의 FLC와 함께 4개의 상이한 실험 결합 반응 각각으로부터의 qPCR 생성물의 겔 전기영동 이미지를 나타낸다. 표 1 과 함께, 결과는 6-염기 오버행이 4-염기 오버행보다 전체 길이 생성물의 결합 효율 및 특이성이 더 높다는 것을 나타낸다. 5' 오버행 대 3' 오버행의 사용과 관련하여 효율성의 명백한 패턴이 관찰되지 않는다.
도 27A 및 27B는 2, 2.5, 3 및 1440분 동안 결합된 6/24/6 3'(도 27B) 및 6/24/6 5'(도 27A) DNA 구성 요소 세트의 결합 효율에 대한 데이터를 제시한다. 도 도 27A 및 27B는 각각의 세트에 대한 FLC에 대한 qPCR에 의해 측정된 결합 효율을 나타낸다. 도 27C는 약 450개의 염기 길이를 갖는 FLC와 함께 qPCR 생성물의 겔 전기영동 이미지를 보여준다. 결과는 또한 3' 오버행 세트가 5' 오버행 세트보다 더 높은 특이성을 가질 수 있음을 나타낸다.
예 4 : 오버행 길이, 오버행 용융 온도 및 오버행 GC 함량이 점착성 말단 결합 효율에 미치는 영향 테스트
표 2는 서로 다른 길이의 돌출부(짧은 = 6염기, 중간 = 8염기, 긴 = 10염기), 서로 다른 GC 함량(낮음, 중간, 높음), 서로 다른 용융 온도(Tm)를 갖도록 설계된 9개의 서로 다른 점착성 끝단(3' 오버행 포함) DNA 성분 쌍의 특성을 나타낸다. 오버행 자체는 표의 셀에 예상 용융 온도(섭씨)와 함께 표시되어 있다. 각 DNA 성분 쌍에 대해 37°C에서 0.067 ?M, 5 CEU/μL의 T4 리가제, 7.5% w/v PEG6000, 20% v/v 글리세롤, 표준 T4 리가제 버퍼 파트를 사용하여 리깅을 수행했다. 결합은 2.5분과 60분에 수행되었다. 효율은 각 쌍에 대해 완전히 결합된 제품을 나타내는 전체 길이 대조군과 비교하여 qPCR을 사용하여 측정했다.
서로 다른 접착 말단(3' 오버행 포함) DNA 구성 요소 쌍의 특성
짧은길이(6) 중간길이MedLength (8) HighLength (10)
LowGC 쌍 1Tm= -4.3, CAAGAA 쌍 4
Tm= 8.4, TAGATAAG
쌍 7
Tm = 21.4, TAGTATAAGA
MedGC 쌍 2Tm= 9.0, CCTCGA 쌍 5
Tm= 20.8, CCAATACC
쌍 8
Tm = 37.4, GAGAGAGGTC
HighGC 쌍 3Tm=20.7, GCCCCC 쌍 6
Tm= 37.4, CGAACGCC
쌍 9
Tm= 51.2, CGCCACCCAC
도 28A 및 28B는 오버행 길이에 의해 그룹화된 이들 DNA 구성 요소 쌍에 대한 결합 효율을 나타낸다. 도 28A는 2.5분 결합 효율을 나타내고, 도 28A는 결합 효율을 나타낸다. 도 28b는 2.5분과 60분 시점 사이의 효율 비율을 보여준다. 결과는 더 짧은 오버행이 사용될 때 연결 비율이 더 높을 수 있음을 나타낸다.
도 29A 및 29B는 GC 함량에 의해 그룹화된 이들 DNA 구성 요소 쌍에 대한 결합 효율을 나타낸다. 도 29A는 2.5분 결합 효율을 나타내고, 도 29A는 결합 효율을 나타낸다. 도 29b는 2.5분과 6 0분 시점 사이의 효율 비율을 보여준다. 결과는 서로 다른 GC 함량(또는 용융 온도)의 오버행에 대한 결합 속도에 큰 차이가 없을 수 있지만 더 높은 GC 함량(또는 용융 온도)을 가진 오버행이 사용될 때 약간 더 높은 결합 속도가 있을 수 있음을 나타낸다. 용융 온도는 GC 함량과 관련이 있다.
예 5 : 결합 효율에 대한 온도의 영향 시험
도 30은 다양한 온도에서 T4 리가제와 함께 결합된 4개의 점착성 말단(6염기, 3' 돌출부 포함) DNA 성분의 결합 데이터를 보여준다. 리결합은 각 DNA 성분 0.25 μM, T4 리가제 5 CEU/μL 또는 20 CEU/μL, 7.5% w/v PEG6000, 20% v/v 글리세롤, 표준 T4 리가제 버퍼 파트를 사용하여 수행했다. 결합 시간은 2.5분이었다. 효율은 완전히 결합된 제품을 나타내는 전체 길이 대조군과 비교하여 qPCR을 사용하여 측정했다. 결과는 더 높은 온도와 더 높은 리가제 농도가 T4 리가제와의 결합 효율을 높일 수 있음을 나타낸다.
도 31은 다양한 온도에서 T4 리가아제와 함께 결합된 4개의 점착성 말단(6-염기, 3' 오버행 포함) DNA 구성 요소의 결합로부터의 데이터를 제시한다. 각각의 DNA 구성 요소 0.125M, 5 CEU/μL T4 리가아제(20μL, 즉 총 100CEU), 7.5% w/v PEG6000, 20% v/v 글리세롤 및 표준 T4 리가아제 완충액 부분을 사용하여 결합을 수행했다. 결합 시간은 2.5분이었다. 완전 결합된 생성물을 나타내는 전체 길이 대조군과 비교하여 qPCR을 사용하여 효율을 측정하였다. 결과는 더 높은 온도와 더 높은 리가제 농도가 T4 리가제와의 결합 효율을 증가시킬 수 있음을 나타낸다. 결과는 도 30에서 관찰된 것과 유사한 경향을 나타낸다.
예 6 : 결합 효율에 대한 리가제 유형의 효과 시험
도 32A와 32B는 T4 DNA 리가제와 비교한 T7(그림 32A) 및 T3(그림 32B) DNA 리가제의 연결 효율에 대한 데이터를 제시한다. 결합은 25°C에서 4개의 점착성 말단(6염기, 3' 돌출부 포함) DNA 성분에 대해 각 DNA 성분 0.125μM 로 수행되었다. 연결 시간은 2.5분이었다. 효율은 완전히 결합된 제품을 나타내는 전체 길이 대조군과 비교하여 qPCR을 사용하여 측정했다. 리가제 농도는 10~100 CEU/μL 사이로 다양했다. 각 플롯 내에서 효율성은 5 CEU/μL에서 T4 DNA 리가제로 수행한 동일한 연결과 비교된다. 결과는 약 100 CEU/uL 농도의 T3 리가제가 실온 결합에 최적의 리가제일 수 있음을 나타낸다.
도 33은 다양한 농도에서의 대장균 DNA 리가제 연결 효율에 대한 데이터를 보여준다. 4개의 끈적끈적한 말단(6염기, 3' 돌출부 포함) DNA 성분에 대해 25°C에서 각 DNA 성분이 0.125μM 인 상태에서 결합을 수행했다. 연결 시간은 2.5분이었다. 효율은 완전히 결합된 제품을 나타내는 전체 길이 대조군과 비교하여 qPCR을 사용하여 측정했다. 리가제 농도는 1에서 100 CEU/μL 사이로 다양했다.
표 3은 4가지 유형의 리가제에 대한 평균 연결 효율 측정값을 보여준다. 15개의 점착성 말단(6염기, 3' 돌출부 포함) DNA 성분에 대해 각 0.268μM의 DNA 성분으로 25°C에서 결합을 수행했다. 연결 시간은 2.5분이었다. 효율은 완전히 결합된 제품을 나타내는 전체 길이 대조군과 비교하여 qPCR을 사용하여 측정했다. T4는 20 CEU/μL, T3와 T7은 각각 150 CEU/μL이었다.
평균 결합 효율 측정
결합 효율 StDev
T4 0.039% 0.004%
T4+7.5% PEG600 0.298% 0.012%
T7 0.419% 0.043%
T3 0.804% 0.237%
도 34A 및 34B는 다양한 온도에서 T7 DNA 리가제(그림 34A) 또는 T3 DNA 리가제(그림 34B)와 함께 결합된 4개의 점착성 말단(6염기, 3' 돌출부 포함) DNA 성분의 결합 데이터를 나타낸다. 결합은 각 DNA 성분 0.125μM 및 150 CEU/μL T7 또는 T3 DNA 리가제를 사용하여 수행되었다. 연결 시간은 2.5분이었다. 효율은 완전히 결합된 제품을 나타내는 전체 길이 대조군과 비교하여 qPCR을 사용하여 측정했다. 결과에 따르면 T3와 T7은 20°C에서 40°C 사이에서 효율이 떨어질 수 있으며, T3는 더 빨리 떨어지지만 낮은 온도(예: 15~20°C)에서는 효율이 더 높다. 이는 더 높은 온도 배양(예: 37°C)에서 T4 DNA 리가제(예: 도 30 및 도 31 참조)가 T3 및 T7 DNA 리가제보다 더 잘 작동할 수 있음을 나타낸다.
예 7 : 결합 효율에 대한 폴리에틸렌글리콜(PEG)의 효과 시험
도 35A-C는 다양한 양(부피당 중량 퍼센트 기준)의 PEG8000(도 35A), PEG6000(도 35B) 및 PEG400(도 35C)과 함께 결합된 4개의 점착성 말단(10 염기, 3' 오버행 포함) DNA 성분의 결합 데이터를 나타낸다. 각 DNA 성분 0.125 ?M 및 25°C에서 5 CEU/μL T4 리가제를 사용하여 리깅을 수행했다. 연결 시간은 2.5분이었다. 효율은 완전히 결합된 제품을 나타내는 전체 길이 대조군과 비교하여 qPCR을 사용하여 측정했다. 결과에 따르면 특정 양까지 PEG를 추가하면 효율이 향상될 수 있지만 특정 양을 초과하면 효율이 억제되는 것으로 나타났다. 효율성을 개선하기 위해 결합 반응에 첨가할 수 있는 PEG의 양은 PEG의 분자량에 따라 달라진다.
도 36은 낮은 부피당 중량 농도에서 PEG400 또는 PEG6000의 존재 하에 함께 결합된 4개의 점착성 말단(10-염기, 3' 오버행 포함) DNA 구성 요소의 결합로부터의 데이터를 나타낸다. 결합은 각 DNA 구성 요소 0.125M, 5 CEU/μL T4 DNA 리가아제, 20% v/v 글리세롤 및 표준 T4 리가아제 완충액 부분으로 37 ℃ 에서 수행되었다. 결합 시간은 2.5분이었다. 완전 결합된 생성물을 나타내는 전체 길이 대조군과 비교하여 qPCR을 사용하여 효율을 측정하였다. 결과는 이러한 조건 하에서 PEG6000을 추가하는 것이 PEG400의 등가량(중량 기준)을 추가하는 것보다 결합 효율을 더 향상시킬 수 있음을 나타낸다.
예 8 : 결합 비활성화 방법의 비교
도 37은 리가제를 불활성화하기 위해 버퍼 QG 또는 EDTA를 사용하는 데이터를 제시한다. 결합은 4개의 점착성 말단 DNA 구성 요소에 대해 수행되었다. 완충액 QG는 Qiagen에서 제조한 완충액 QG 또는 유사한 구성 요소를 갖는 완충액(예를 들어, 5.5M 구아니딘 티오시아네이트(GuSCN), 20mM Tris HCl pH 6.6)을 의미한다. 대조군에서는 T4 리가아제를 가로축에 표시된 주어진 부피로 실온에서 표준 완충액 조건 하에 사용하였다. 실험군에서, T4 리가아제 반응 믹스는 주어진 부피의 반응을 만들기 위해 DNA 구성 요소에 첨가되기 전에 표시된 첨가제로 처리되었다. 결합 시간은 2.5분이었다. 세로축은 각 연결의 전체 길이 제품에 대한 qPCR에서 얻은 Ct 결과를 나타낸다. Ct는 농도에 대한 Log base-2 척도를 나타낸다. 결과는 EDTA 또는 버퍼 QG를 사용하면 리가아제를 비활성화할 수 있음을 나타낸다. EDTA 및 버퍼 QG 비활성화 리가아제를 포함하는 결합 그룹의 결과는 리가아제가 없는 그룹의 결과와 유사하게 보인다.
실시예 9 : DNA 복제 연구
도 38은 Q5, Phusion 및 Taq DNA 중합효소를 사용한 복제의 선형성에 대한 데이터를 제시한다. 가로축은 이론적 목표 DNA 농도(ng/μL)를 나타내고 세로축은 표준에 대한 qPCR을 사용하여 측정된 목표 DNA 농도(ng/L)를 나타낸다. PCR 반응의 다른 주기에서 측정을 수행했다. 전체 대각선의 점은 완전한 선형성(이론적)을 나타낸다. 다른 점은 다른 리가제의 실험 데이터 포인트를 나타낸다. 결과는 표준 PCR 반응(리가아제에 관계없이)이 타겟의 10ng/L 이상까지 선형일 수 있음을 나타낸다. 상기 예에서 사용된 타겟 DNA는 ~450개의 염기였다.
예 10 : DNA 건조를 위한 다양한 방법에 대한 연구
도 39는 실온에서 4일 동안 저장된 DNA 샘플에 대한 데이터를 제시한다. 약 450염기 길이의 DNA를 포함하는 다양한 양의 DNA 샘플을 보관했다(50ng, 500ng 및 5000ng). DNA 샘플은 서로 다른 조건에서 보관되었다: 습식 또는 건조, 보존 첨가제 유무(예: BM은 생체 안정화 물질을 나타냄). 결과는 4일 동안 냉동된 물에 저장된 약 450 염기 길이의 DNA를 포함하는 동일한 DNA 샘플과 비교되었다. 결과는 최소한의 DNA 분해가 실온에서 일어날 수 있고 BM(생체 안정화 물질)과 같은 보존 첨가제의 사용이 감소된 분해에 기여할 수 있음을 나타낸다. 건조 과정은 DNA 보존 첨가제 없이도 DNA 분해로 이어질 수 있다.
도 40은 실온에서 반복적으로 건조 및 재수화되는 DNA에 대한 데이터를 제시한다. 보존 첨가제가 있거나 없는 DNA에 대한 결과가 표시된다(예: BM은 생체 안정화 물질을 나타냄). 결과는 보존 첨가제를 사용하거나 사용하지 않고 DNA 샘플을 3-4회 건조/재수화하면 상당한 양의 DNA 손실 없이 달성될 수 있음을 나타낸다.
예 11 : 결합을 위한 6개 베이스 오버행 설계 및 테스트
표 4는 계산적으로 설계된 3' 오버행 32개의 세트를 나타낸다. 오버행(및 이들의 반대 보완물)은 6개 염기의 길이, 3개 이상의 단일 중합체, 서로 사이에 3개 미만의 해밍 거리, 서로 사이에 3개 이상의 등가 부분 스트링을 갖도록 설계되었다. 오버행의 양쪽 가장자리에 있는 하위 스트링에 대해 서로 2개 이상의 염기로 구성된 동등한 하위 스트링이 없다.
계산적으로 설계된 3' 오버행 32개 세트
ID 순서
1 GAGAAC
2 TCTATC
3 CCATCT
4 TTTACT
5 TGTGTA
6 ACCCAC
7 CCTTTG
8 TCGTGC
9 CTCGCC
10 GCCTAA
11 AGGGTC
12 CAGCGT
13 CTACAT
14 GTCATG
15 CGTCGC
16 GAATAT
17 ATTTGA
18 AAACTA
19 TGCCGG
20 TGACCC
21 CTGATA
22 AGCAGC
23 GGAATT
24 GGTTAC
25 CTTGGG
26 TGGAGT
27 ATCCTT
28 CGGCAA
29 TCCGTT
30 CACTCG
31 TAAGAA
32 CGCTGT
표 5는 계산적으로 설계된 3' 오버행 32개의 또 다른 세트를 나타낸다. 이 6-염기 오버행 세트(및 이들의 역 보완물)는 표 4의 것보다 전반적으로 덜 엄격하게 제한되도록 설계되었지만, 표 4의 것과 동등한 제약 조건을 충족하는 16개 오버행의 서브세트를 포함하도록 설계되었다. 굵게 표시된 2개의 서열은 조합 실험을 위한 대조군으로서 서로의 역보완이 되도록 설계되었다.
계산적으로 설계된 3' 오버행 32개 세트
ID 순서
1 CGTTAC
2 GTCTCG
3 GTTGAC
4 ACTGAG
5 TACCAC
6 CATCCA
7 CCTTCA
8 TCTACG
9 TCGAAA
10 TGTTCC
11 GCATAG
12 CCAAAG
13 CGAGAC
14 CAATCG
15 CAAGAC
16 GTTAGG
17 TAGGCC
18 TTAGCT
19 TCATTC
20 AGGCGG
21 TTGCTT
22 GAGTTT
23 TCCTGT
24 TAAGTG
25 CGCCAT
26 ATCGGC
27 TGCACT
28 GCGACC
29 GGGAAT
30 AATAGC
31 AACTCT
32 GATCAG
표 4 및 표 5 에서 각각의 오버행 및 이들의 역 상보체에 대한 점착성-말단 DNA 서열을 구성하였다. 각 테이블의 각 오버행(및 역보체)에 대한 각 서열는 동일한 근위 듀플렉스 영역을 갖지만 별개의 3-염기 5' 오버행으로 원위 말단에 고유하게 바코드가 지정되었다. 구성된 점착성 말단 서열의 도식에 대해서는 도 41을 참조하시오. 총 역보완을 사용하여 각 테이블에 대해 64개의 서열가 구성되었다. 이들 서열을 등몰 농도로 풀링하고 표준 리가제 완충액에서 37 ℃ 에서 T4 리가제로 결합시켰다. 결합은 EDTA로 켄칭되기 전에 2.5분 동안 수행되었다. 결합된 서열을 겔 추출을 통해 정제한 다음 5' 말단을 채우고 Klenow Polymerase를 사용하여 dA-테일링했다. 이어서 시퀀싱 어댑터를 제품의 말단에 결합하고 증폭 및 정제하여 Illumina iSeq에서 시퀀싱을 준비했다. 각각의 가능한 결합된 제품의 상대적 사본 수는 바코드의 가능한 각 조합에 대한 서열 판독 수를 세어 추론했다. 오버행의 각 세트에 대해 총 64x(64+1)/2 = 2080개의 가능한 제품이 있었고(표 4 및 표 5), 그 중 64개는 각각 올바른 역보완 파트너에 결합된 오버행에 해당한다.
도 42는 표 4(도 42A) 및 표 5(도 42B)의 오버행 서열 세트의 결합로부터의 데이터를 나타낸다. 각 히트맵의 각 픽셀은 해당 픽셀의 행과 열을 나타내는 오버행에 의해 형성된 결합 제품에 해당한다. 픽셀의 그레이스케일(또는 "열")은 해당 결합 제품의 상대적인 양을 나타낸다(log base-2 scale). 각각의 행과 열은 표 4(도 42a) 또는 표 5(도 42b) 로부터 오버행 1-32에 대응하고, 그런 다음 이들 오버행의 역 보완물에 대응한다. 결과는 각 오버행이 그 반대 보완물과 가장 강력하게 결합되지만 결합에서 여러 개의 비특이적 제품이 형성될 수도 있음을 시사한다.
이들 데이터는 32개 오버행의 각 세트에서 오버행 서브세트에 대한 페널티 점수를 계산하는 데 사용되었다. 오버행의 서브세트에 대해 데이터 세트의 서브세트(정확한 제품의 양과 비교)에서 각 가능한 오버행에 대해 형성된 비타겟 제품의 상대적인 양을 추가하여 페널티 점수를 계산했다.
도 43은 표 4 및 표 5의 각 오버행 세트로부터의 15개 오버행의 2M 서브세트로부터의 페널티 점수를 나타낸다. 페널티 점수는 16개 구성 요소 결합에 사용될 15개 오버행의 고효율, 고특이성 세트를 예측하는 데 사용될 수 있다. 패널티 점수가 가장 낮은 상위 후보자를 찾을 수 있다. X+1 오버행을 함께 연결하기 위한 상위 오버행 후보를 찾기 위해 X 오버행의 서브세트로 유사한 분석을 수행할 수 있다. 이 분석에 기초하여, 표 6은 16개의 DNA 구성 요소를 함께 결합하기 위한 15개의 오버행(표 4의 세트에서 취함)의 추정되는 고효율, 고특이성 서브세트를 제시한다. 마찬가지로, 표 7은 16개의 DNA 구성 요소를 함께 결합하기 위한 15개의 오버행(표 5의 세트에서 취함)의 추정 서브세트를 제시한다.
추정되는 고효율, 고특이성 서브세트 15개 오버행
페널티 점수 표 4의 오버행 ID
0.51 [3, 5, 7, 8, 9, 11, 13, 14, 17, 21, 23, 24, 25, 28, 30]
0.52 [3, 4, 7, 11, 12, 13, 17, 21, 23, 24, 25, 26, 28, 30, 32]
0.54 [3, 4, 7, 11, 12, 13, 14, 15, 23, 24, 25, 26, 28, 30, 32]
0.58 [6, 7, 8, 9, 11, 12, 14, 17, 18, 20, 21, 23, 25, 28, 30]
15개 오버행의 추정 서브세트
페널티 점수 표 5의 오버행 ID
0.42 [1, 4, 6, 15, 17, 19, 20, 21, 22, 24, 25, 26, 28, 30, 32]
0.43 [4, 6, 8, 15, 17, 19, 20, 21, 22, 23, 24, 25, 27, 30, 32]
0.44 [4, 5, 6, 15, 16, 17, 20, 21, 22, 24, 25, 27, 28, 30, 32]
0.45 [4, 5, 6, 7, 8, 15, 17, 19, 20, 21, 24, 25, 27, 30, 32]
2.1 [1, 2, 3, 4, 5, 7, 8, 9, 10, 11, 12, 14, 15, 16, 17]
도 44는 표 7의 마지막(음영 처리된) 행의 돌출부 및 프린트헤드에서 디스펜싱하기 위해 최적화될 수 있는 특정 제형의 결합 혼합물을 사용하여 16개 DNA 성분의 결합 효율에 대한 데이터를 나타낸다. 이 혼합물에는 글리세롤 형태의 보습제, 오렌지 G 형태의 염료, 니파사이드 형태의 살균제가 포함되어 있다. 리가제 농도는 0.1 와이즈 유닛/?L 및 0.2 와이즈 유닛/μL으로 수행되었다. 또한 37°C에서 각 DNA 성분 0.0625μM, 22.5% v/v 글리세롤, 3.1% w/v PEG6000, 1.25% w/v 오렌지 G 염료, 0.1% w/v 니파사이드, 표준 T4 리가제 완충액을 사용하여 리결합을 수행했다. 결합 시간은 2.5분이었다. 효율은 완전히 결합된 제품을 나타내는 전체 길이 대조군과 비교하여 qPCR을 사용하여 측정했다.
예 12 : 60kb의 디지털 정보에 대한 인코딩, 복제 및 액세스
길이 68,800비트(오류 보호 후 73,440비트)의 디지털화된 오디오 클립("메시지")은 8층 제품 체계(제품 체계 개요는 도 20B 참조)에서 372개의 DNA 성분으로 구성된 성분 라이브러리를 사용하여 인코딩되었다. 3개의 구성 요소로 이루어진 7개 레이어("베이스 레이어")와 351개의 구성 요소로 이루어진 1개 레이어("멀티플렉스 레이어")가 있었으므로 가능한 식별자는 767637개였지만 인코딩된 메시지에는 조합 공간에서 119353개의 식별자만 사용되었다. 이 기록은 Labcyte Echo 555 액세스 시스템에서 수행되었다. 이 과정은 두 번 반복되었다. DNA 구성 요소는 컴퓨터로 설계되었으며 제조된 올리고를 이중화하여 구성되었다.
기록 과정은: (1) 전산 인코딩, (2) DNA 성분 배열, (3) 연결, 그리고 (4) 통합의 4단계로 이루어졌다. (1) 컴퓨터 인코딩 단계에서 오류 정정 메시지는 길이 13, 무게 3의 연속적인 코드워드로 인코딩되었다. 따라서 코드워드는 사전 순으로 정렬된 13개의 식별자로 표현되었으며, 이 중 3개는 존재하도록 의도된 식별자("참 식별자")이고 나머지 10개는 존재하지 않도록 의도된 식별자("거짓 식별자")였다. 총 9181개의 코드워드가 있었다. (2) DNA 코디네이션에서 372개의 DNA 성분은 Labcyte Echo 555를 사용하여 341개의 반응 웰(384웰 플레이트)에서 함께 혼합되었습니다. 각 반응은 27개의 연속적인 코드워드(총 81개의 실제 식별자)를 생성하도록 설계되었으며, 단 하나의 코드워드(총 3개의 실제 식별자)만 생성하도록 설계된 하나의 반응을 제외했다. 반응은 각 염기층에서 하나의 DNA 성분과 멀티플렉스 층에서 여러 성분(각 코드워드당 3개)을 포함하도록 설정되었다. 또한, 완전히 형성된 식별자의 각 끝에 연결하기 위한 시퀀싱 어댑터를 반응 웰에 추가했다. (3) 결합에서, 4uL의 T4 리가제 반응 혼합물(5 CEU/μL의 T4 리가제 및 7.5% PEG6000 함유)을 각 반응 웰에 첨가하고 37°C에서 1시간 동안 배양했다. 농도는 각 반응에 각 층의 총 DNA 성분이 약 4nM 함유되도록 설정되었다. 그 후, (4)의 통합에서는 리가제 활성을 비활성화하기 위해 모든 반응의 약 50 nL를 EDTA 용액과 함께 하나의 용기에 통합했다. 통합된 식별자 풀(식별자 라이브러리)을 PCR을 사용하여 증폭하고 겔 정제하여 시퀀싱을 위한 전체 길이 식별자를 추출했다.
도 45A-B는 메시지를 인코딩하는 식별자 라이브러리의 시퀀싱에서 복구된 데이터를 제공한다. 도 45A는(계산 인코딩 후) 인코딩된 메시지의 341x351 참조 맵을 보여준다. 어두운 점은 '1' 비트 값에 해당하고 흰색 점은 '0' 비트 값에 해당한다. 데이터는 '1' 비트 값의 위치에 해당하는 식별자를 구성하여 DNA에 기록된다(식별자에는 사전식 순서가 있기 때문에 가능함). 도 45B는 시퀀싱에 의해 결정된 식별자 라이브러리에 존재하는 풍부한 서열의 히트 맵(341x351)을 보여준다. 각 픽셀은 식별자를 나타내고 해당 픽셀의 그레이스케일 강도는 행의 다른 식별자와 비교하여 해당 식별자의 상대적 풍부함을 나타낸다. 각 행의 식별자는 동일한 반응으로 구성된다. 최대 그레이스케일(어두운) 강도는 각 행의 식별자에 대한 평균 복사 수로 설정된다. 식별자는 13개 식별자의 연속 스트링(맵 행을 따라)에서 상위 3개의 가장 풍부한 식별자 내에 있는 경우 실제 식별자('1'의 비트 값을 나타내는 식별자)로 해석될 수 있다. 다른 모든 것은 잘못된 식별자('0'의 비트 값을 나타내는 식별자)로 해석된다. 이 디코딩 처리 단계를 데이터에 적용하면 식별자 오류(코드워드 내에서 거짓 식별자가 실제 식별자보다 더 많은 읽기가 있는 이벤트)와 식별자 삭제(상위 3개의 가장 풍부한 식별자를 구별할 수 없는 이벤트)가 발생하지 않다. 따라서 디코딩된 메시지는 인코딩된 메시지와 정확히 일치한다(도 45A). 도 46은 전체 인코딩, 기록, 시퀀싱 및 디코딩 프로세스의 중복 실행에서 얻은 데이터를 나타낸다. 이번에도 오류나 삭제 없이 메시지를 성공적으로 기록하고 읽었다.
도 47A-C는(도 45A-B 로부터의) 메시지를 포함하는 원래 식별자 라이브러리의 다수의 사본을 생성하는 것으로부터의 데이터를 나타낸다. 라이브러리를 1000x로 희석한 다음 어댑터 서열(라이브러리의 모든 서열에 공통됨)의 외부 가장자리에 결합된 Phusion 폴리머라제 및 프라이머를 사용하여 10주기의 PCR로 증폭했다. 10주기 PCR은 라이브러리를 ~1024배 증폭하여 원래 농도로 되돌렸다. 도 47A는 시퀀싱에 의해 결정된 바와 같이 복제된 식별자 라이브러리에 존재하는 풍부한 서열의 열 맵(341x351)를 보여준다. 각 픽셀은 식별자를 나타내고 해당 픽셀의 그레이스케일 강도는 행의 다른 식별자와 비교하여 해당 식별자의 상대적 풍부함을 나타낸다. 최대 그레이스케일(어두운) 강도는 각 행의 식별자에 대한 평균 복사 수로 설정된다. 식별자는 13개 식별자의 연속 스트링(맵의 행을 따라)에서 상위 3개의 가장 풍부한 식별자 내에 있는 경우 '1'의 비트 값을 나타내는 것으로 해석될 수 있다. 다른 모든 것은 '0'의 비트 값을 나타내는 것으로 해석된다. 이 디코딩 처리 단계를 데이터에 적용하면 식별자 오류가 0이 된다. 작은 시퀀싱 샘플 크기로 설명될 수 있는 하나의 식별자 삭제가 있었다(표 8 참조). 모든 거짓 식별자의 읽기 횟수가 0인 코드워드였지만 실제 식별자 중 하나의 읽기 횟수도 0이었다. 도 47B는 원본 식별자 라이브러리 대 복제된 식별자 라이브러리의 식별자 사본 수 사이의 상관 관계를 도시한다. 도 47C는 원본 식별자 라이브러리 대 복제된 식별자 라이브러리에서 식별자 사본 수의 분포를 보여준다. 결과는 식별자 라이브러리 복제 중에 편향이 거의 또는 전혀 발생하지 않을 수 있음을 나타낸다.
도 48A-C는(도 45A-B 로부터의) 원본 메시지를 포함하는 식별자 라이브러리의 일부에 액세스하는 것으로부터의 데이터를 나타낸다. 접근 방식은 도 4에서 설명한 'AND' 연산이었다. 21B. 식별자 라이브러리를 ~32000x로 희석한 다음 각 가장자리 레이어의 특정 DNA 구성 요소에 결합하는 프라이머로 PCR을 사용하여 증폭하여 라이브러리의 약 1/9에 액세스한다(각 레이어에 가능한 구성 요소가 3개 있으므로). PCR은 Phusion 중합효소로 15주기 동안 수행하였다. 시퀀싱 어댑터를 생성된 하위 라이브러리의 말단에 결합하고 Illumina iSeq에서 시퀀싱했다. 도 48A는 시퀀싱에 의해 결정된 액세스된 식별자 라이브러리에 존재하는 풍부한 서열의 열 맵(341x351)를 도시한다. 각 픽셀은 식별자를 나타내고 해당 픽셀의 그레이스케일 강도는 행의 다른 식별자와 비교하여 해당 식별자의 상대적 풍부함을 나타낸다. 최대 그레이스케일(어두운) 강도는 각 행의 식별자에 대한 평균 복사 수로 설정된다. 식별자는 13개 식별자의 연속 스트링(맵의 행을 따라)에서 상위 3개의 가장 풍부한 식별자 내에 있는 경우 '1'의 비트 값을 나타내는 것으로 해석될 수 있다. 다른 모든 것은 '0'의 비트 값을 나타내는 것으로 해석된다. 이 디코딩 처리 단계를 데이터에 적용하면 식별자 오류가 0이고 식별자가 삭제되지 않으므로 인코딩된 메시지와 정확히 일치하는 데이터세트가 생성된다(도 45A). 도 48B는 원래 라이브러리의 식별자 사본 수 대 액세스된 식별자 라이브러리 사이의 상관관계를 나타내고, 도 48C는 원래 식별자 라이브러리 대 액세스된 식별자 라이브러리에서 식별자 사본 수의 분포를 보여준다. 결과는 식별자 라이브러리 액세스 중에 편향이 거의 또는 전혀 발생하지 않을 수 있음을 나타낸다.
도 49A-C는 액세스된 식별자 라이브러리의 하위 부분(도 49A-C 로부터)에 대한 추가 액세스로부터의 데이터를 나타낸다. 원래 식별자 라이브러리로부터의 액세스 방법은 2개의 중첩된 'AND' 연산이었다(여기서 각각의 'AND'는 도 21B에 설명된 바와 같음). 원래 식별자 라이브러리를 ~32000x로 희석한 다음 각 가장자리 레이어의 특정 DNA 구성 요소에 결합하는 프라이머로 PCR을 사용하여 증폭하여 라이브러리의 약 1/9에 액세스한다(각 레이어에 가능한 구성 요소가 3개 있으므로). 생성된 액세스된 식별자 라이브러리는 다시 약 32000x로 희석된 다음 각 가장자리에서 제거된 레이어의 특정 DNA 구성 요소에 결합하는 프라이머로 PCR을 사용하여 증폭되어 액세스된 라이브러리의 약 1/9에 액세스한다(각 레이어에는 3개의 가능한 구성 요소가 있으므로), 또는 약 1/81 원본 라이브러리 전체의(1/9의 1/9). 결과 하위 라이브러리를 "2x 액세스" 식별자 라이브러리라고 한다. PCR은 Phusion 중합효소로 15주기 동안 수행하였다. 시퀀싱 어댑터를 생성된 하위 라이브러리의 말단에 결합하고 Illumina iSeq에서 시퀀싱했다. 도 49A는 시퀀싱에 의해 결정된 바와 같이 2x 액세스된 식별자 라이브러리에 존재하는 풍부함의 히트 맵(341x351)을 보여준다. 각 픽셀은 식별자를 나타내고 해당 픽셀의 그레이스케일 강도는 행의 다른 식별자와 비교하여 해당 식별자의 상대적 풍부함을 나타낸다. 최대 그레이스케일(어두운) 강도는 각 행의 식별자에 대한 평균 복사 수로 설정된다. 식별자는 13개 식별자의 연속 스트링(맵의 행을 따라)에서 상위 3개의 가장 풍부한 식별자 내에 있는 경우 '1'의 비트 값을 나타내는 것으로 해석될 수 있다. 다른 모든 것은 '0'의 비트 값을 나타내는 것으로 해석된다. 이 디코딩 처리 단계를 데이터에 적용하면 식별자 오류가 0이고 식별자가 삭제되지 않으므로 인코딩된 메시지와 정확히 일치하는 데이터세트가 생성된다(도 45A). 도 49B는 원본 라이브러리의 식별자 사본 수 대 2x 액세스된 식별자 라이브러리 사이의 상관 관계를 도시한다. 도 49C는 원래 식별자 라이브러리 대 2x 액세스된 식별자 라이브러리에서 식별자 사본 수의 분포를 보여준다. 결과는 중첩된 식별자 액세스 방법 중에 편향이 거의 또는 전혀 발생하지 않을 수 있음을 나타낸다.
도 50A-C는 4일 동안 100℃에서 메시지(도 45로부터)를 나타내는 원래 식별자 라이브러리를 저장한 후로부터의 데이터를 나타낸다. 원래 식별자 라이브러리는 보존 첨가제(생체안정화 물질)로 건조되었고 100°C로 유지된 열순환기에서 4일 동안 보관되었다. 도 50A는 시퀀싱에 의해 결정된 저장된 식별자 라이브러리에 존재하는 풍부한 서열의 열 맵(341x351)를 보여준다. 각 픽셀은 식별자를 나타내고 해당 픽셀의 그레이스케일 강도는 행의 다른 식별자와 비교하여 해당 식별자의 상대적 풍부함을 나타낸다. 최대 그레이스케일(어두운) 강도는 각 행의 식별자에 대한 평균 복사 수로 설정된다. 식별자는 13개 식별자의 연속 스트링(맵의 행을 따라)에서 상위 3개의 가장 풍부한 식별자 내에 있는 경우 '1'의 비트 값을 나타내는 것으로 해석될 수 있다. 다른 모든 것은 '0'의 비트 값을 나타내는 것으로 해석된다. 이 디코딩 처리 단계를 데이터에 적용하면 식별자 오류가 0이고 식별자가 삭제되지 않으므로 인코딩된 메시지와 정확히 일치하는 맵이 생성된다(도 45A). 도 50B는 원본 식별자 라이브러리 대 복제된 식별자 라이브러리의 식별자 사본 수 사이의 상관 관계를 도시한다. 도 50C는 원본 식별자 라이브러리 대 복제된 식별자 라이브러리에서 식별자 사본 수의 분포를 보여준다. 결과는 오랜 시간 동안 식별자 라이브러리의 극단적인 가열 중에 바이어스가 거의 또는 전혀 발생하지 않을 수 있음을 나타낸다. 또한 이중 가닥 DNA 정량(Qubit 형광 정량 사용)은 원래 식별자 라이브러리(36.4 ng/mL)와 저장된 식별자 라이브러리(41.2 ng/mL) 간에 유사한 값을 산출하여 배양 중 DNA 손실이 거의 또는 전혀 없었을 수 있음을 나타낸다.
표 8은 메시지 및 메시지의 액세스된 부분(도 45-50 으로부터)을 나타내는 식별자 라이브러리를 기록하고 읽는 것으로부터의 통계를 나타낸다. 각 라이브러리에 대해 '0'(거짓 식별자)의 비트 값을 나타내는 식별자의 총 읽기 수, '1'(참 식별자)의 비트 값을 나타내는 식별자의 총 읽기 수, 거짓의 비율을 보고한다. 시퀀싱된 식별자("식별자 오류율"), 총 코드워드 수, 코드워드 삭제 횟수 및 코드워드 오류 수. 각 코드워드의 식별자 분포는 거짓 식별자가 각각 동일하게 분포되고 참 식별자가 각각 동일하게 분포되는 다항 분포로 모델링되었으며, 거짓 식별자를 읽을(샘플링) 확률은 식별자 오류율과 동일하다. 각 라이브러리에 표시된 코드워드의 수와 각 코드워드의 샘플 크기로 각 코드워드에서 읽은 식별자의 수를 사용하여 코드워드 삭제 및 코드워드 오류의 예상 수를 계산하는 모델을 사용했다. 큰 샘플 크기에서 코드워드 삭제 또는 코드워드 오류의 확률을 계산하는 계산상의 난해성으로 인해 40회 읽기보다 큰 샘플 크기는 40으로 제한되었다. 따라서 기대값은 상한으로 간주되어야 한다. 결과는 복제된 라이브러리(도 47A, 도 47B 및 도 47C)에서 소거된 코드워드가 고유한 샘플링 노이즈로 인해 예상되었을 수 있음을 나타낸다.
식별자 라이브러리 기록 및 읽기 통계
식별자 라이브러리 오리지널 반복 복제 액세스 2x 액세스 저장
도면 도 41 도 42 도 43 도 44 도 45 도 46
진정한 식별자 읽기 1879590 1815322 641682 104474 94301 4327130
거짓 식별자 읽기 3494 940 1117 221 205 8588
식별자 오류율 0.00186 0.00052 0.00174 0.00211 0.00217 0.00198
총 코드워드 9181 9181 9181 1323 162 9181
코드워드 삭제 0 0 1 0 0 0
코드워드 오류 0 0 0 0 0 0
예상된 고드워드 오류수(상한) 0.00812 0.02793 1.19021 0.09196 0.00014 0.00788
예상된 코드워드 오류수(상한) 0.00031 0.00099 0.03322 0.00318 0.00001 0.00030
예 13 : DNA의 안정성 연구
도 51A-D는 4개의 다른 온도에서 8일간 배양된 DNA 샘플에 대한 데이터를 나타낸다. 약 250ng의 ~450 염기 DNA(표적)의 여러 샘플을 각각 보존 첨가제(BM은 생체 안정화 물질을 나타냄)로 건조시키고 75.1 oC(도 51A), 84.4°C(도 51B), 90.2 °C(도 51C) 또는 95.0°C(도 51D)에서 8일 동안 가열하였다. 8일 동안 다른 시점에 샘플을 제거하고 8일이 끝날 때 최종 측정할 때까지 실온에서 보관했다. 최종 측정 시, 각 샘플에서 표적 DNA의 상대적인 양을 qPCR로 정량화했다. 정량 값은 가열하지 않은 제로 시점의 샘플로 정규화된다. 결과는 고온에서 장시간 배양하더라도 최소한의 DNA 분해가 일어날 수 있음을 나타낸다.
예 14 : 결합에 대한 글리세롤의 효과 연구
도 52는 글리세롤의 다양한 양(부피-당 부피 백분율)과 함께 결합된 4개의 점착성 말단(6-염기, 3' 오버행 포함) DNA 구성 요소의 결합로부터의 데이터를 나타낸다. 결합은 0.125 M 각 DNA 구성 요소 및 5 CEU/ μL T4 리가아제(전체적으로 100 CEU)로 25°C 에서 수행되었다. 결합 시간은 2.5분이었다. ?완전 결합된 생성물을 나타내는 전체 길이 대조군과 비교하여 qPCR을 사용하여 효율을 측정하였다. 결과는 최대 20% 이상의 글리세롤을 추가하면 결합에 영향을 미치지 않을 수 있지만 40% 이상을 추가하면 억제될 수 있음을 나타낸다.
한 양태에서, 본 발명은 핵산 서열에 정보를 기록하는 방법을 제공하며: (a) 정보를 나타내는 기호의 문자열을 생성하는 단계; (b) 복수의 구성 요소를 구성하는 단계, 여기서 복수의 구성 요소의 각 개별 구성 요소는 핵산 서열을 포함하는 단계; (c) 복수의 구성 요소의 개별 구성 요소의 적어도 하나의 스티키 엔드를 생성하는 단계; 및 (d) 복수의 구성 요소의 개별 구성 요소의 적어도 하나의 스티키 엔드를 생성하는 단계; (d) 복수의 구성 요소의 개별 구성 요소의 적어도 하나의 스티키 엔드를 통해 복수의 구성 요소의 둘 이상의 구성 요소를 화학적으로 연결하여 복수의 식별자를 생성하는 단계, 여기서 복수의 식별자의 각 식별자는 둘 이상의 구성 요소를 포함하고, 복수의 식별자의 개별 식별자는 기호 문자열의 개별 기호에 대응하는 단계; 및 (e) 복수의 식별자의 적어도 서브셋을 포함하는 식별자 라이브러리를 선택적으로 캡처 또는 증폭하는 단계를 포함한다.
일부 실시예에서, 기호 스트링의 각 기호는 하나 이상의 가능한 기호 값 중 하나이다. 일부 실시예에서, 기호 스트링의 각 기호는 2개의 가능한 기호 값 중 하나이다. 일부 실시예에서, 기호 스트링의 각각의 위치에 있는 하나의 기호 값은 식별자 라이브러리에서 별개의 식별자의 부재에 의해 표현될 수 있다. 일부 실시예에서, 2개의 가능한 기호 값은 0 및 1의 비트 값이고, 기호 스트링에서 0의 비트 값을 갖는 개별 기호는 식별자 라이브러리에서 별개의 식별자의 부재로 표현될 수 있다. 여기서, 기호 스트링에서 1의 비트-값을 갖는 개별 기호는 식별자 라이브러리 내의 별개의 식별자의 존재에 의해 표현될 수 있고, 그 반대도 가능하다. 일부 실시예에서,(d)는 2개 이상의 층으로부터 2개 이상의 구성 요소를 화학적으로 연결하는 것을 포함하고, 여기서 2개 이상의 레이어의 각 레이어는 별개의 구성 요소 세트를 포함한다. 일부 실시예에서, 식별자 라이브러리로부터의 개별 식별자는 2개 이상의 레이어의 각 레이어으로부터의 하나의 구성 요소를 포함한다. 일부 실시예에서, 2개 이상의 구성 요소는 고정된 순서로 조립된다. 일부 실시예에서, 2개 이상의 구성 요소는 임의의 순서로 조립된다. 일부 실시예에서, 2개 이상의 구성 요소는 2개 이상의 층의 상이한 층으로부터의 2개의 구성 요소 사이에 배치된 하나 이상의 분할 구성 요소와 조립된다. 일부 실시예에서, 개별 식별자는 2개 이상의 층의 서브세트의 각 레이어으로부터의 하나의 구성 요소를 포함한다. 일부 실시예에서, 개별 식별자는 2개 이상의 레이어 각각으로부터의 적어도 하나의 구성 요소를 포함한다. 일부 실시예에서,(c)는 엔도뉴클레아제를 사용하여 복수의 구성 요소 중 개별 구성 요소의 적어도 하나의 점착성 말단을 생성하는 것을 포함한다. 일부 실시예에서, 적어도 하나의 접착성 말단은 개별 구성 요소의 5' 말단에 있다. 일부 실시예에서, 적어도 하나의 접착성 말단은 개별 구성 요소의 3' 말단에 있다. 일부 실시예에서,(c)는 개별 구성 요소의 2개의 접착 말단을 생성하는 것을 포함한다. 일부 실시예에서, 적어도 하나의 접착 말단은 길이가 적어도 하나의 뉴클레오티드이다. 일부 실시예에서, 적어도 하나의 접착 말단은 길이가 6개의 뉴클레오티드이다. 일부 실시예에서, 적어도 하나의 접착 말단은 표 4 또는 표 5에 열거된 서열로 이루어진 그룹으로부터 선택된 핵산 서열을 포함한다. 일부 실시예에서, 복수의 핵산 서열은 정보의 메타데이터를 저장하거나 정보. 일부 실시예에서, 2개 이상의 식별자 라이브러리가 조합되고, 여기서 2개 이상의 식별자 라이브러리의 각 식별자 라이브러리는 별개의 바코드로 태깅된다. 일부 실시예에서, 식별자 라이브러리의 각각의 개별 식별자는 별개의 바코드를 포함하거나 식별자 라이브러리의 서브세트 식별자는 별개의 바코드를 포함한다. 일부 실시예에서, 복수의 식별자, 또는 식별자를 포함하는 복수의 구성 요소는 읽기, 기록, 액세스, 복사 및 삭제 작업의 용이성을 위해 선택된다. 일부 실시예에서, 화학적 연결은 리가제를 포함하는 시약을 사용하여 복수의 구성 요소 중 둘 이상의 구성 요소를 함께 연결하는 것을 포함한다. 일부 실시예에서, 리가아제는 T4 리가아제, T7 리가아제, T3 리가아제 또는 이. 콜라이 리가아제이다. 일부 실시예에서, 시약은 첨가제를 더 포함한다. 일부 실시예에서, 첨가제는 리가아제의 효율을 증가시킨다. 일부 실시예에서, 첨가제는 폴리에틸렌 글리콜(PEG)을 포함한다. 일부 실시예에서, PEG는 PEG400, PEG6000, PEG8000 또는 이들의 임의의 조합이다. 일부 실시예에서, PEG 분자의 최종 농도는 적어도 약 1% 중량/부피(w/v)이다. 일부 실시예에서, 결합의 반응 시간은 적어도 1분이다. 일부 실시예에서, 결합은 섭씨 30도 이상이다. 일부 실시예에서, 결합의 반응 효율은 적어도 약 20%이다. 일부 실시예에서, 방법은 EDTA 또는 구아니딘 티오시아네이트를 함유하는 완충액을 사용하여 리가제를 불활성화시키는 것을 추가로 포함한다. 일부 실시예에서, 리가아제의 최종 농도는 적어도 약 5 CEU/μL이다. 일부 실시예에서, 시약은 글리세롤 분자를 더 포함한다. 일부 실시예에서, (d)에서의 화학적 연결은 중첩-신장 중합효소 연쇄 반응(PCR)을 사용하는 것을 포함한다. 일부 실시예에서, 개별 구성 요소는 데옥시리보핵산(DNA) 또는 리보핵산이다. 일부 실시예에서, 개별 구성 요소는 재수화되었다. 일부 실시예에서, 개별 구성 요소는 탈수된 구성 요소으로부터 재수화된다. 일부 실시예에서, 방법은 적어도 복수의 식별자의 서브세트의 각각의 개별 식별자를 탈수함으로써 식별자 라이브러리를 탈수시키는 단계를 더 포함한다. 일부 실시예에서, 복수의 식별자의 적어도 서브세트의 각각의 개별 식별자는 무수화된다. 일부 실시예에서, 방법은 복수의 식별자의 적어도 서브세트의 각각의 개별 식별자를 재수화하는 단계를 추가로 포함한다. 일부 실시예에서, 상기 방법은 식별자 열화를 방지하기 위해 식별자 라이브러리에 보존 첨가제를 추가하는 단계를 더 포함한다. 일부 실시예에서, 복수의 식별자는 PCR로 복사된다. 일부 실시예에서, PCR은 적어도 10주기를 갖는다. 일부 실시예에서, 복수의 식별자는 마이크로리터당 최대 10나노그램의 농도까지 PCR로 증폭된다. 일부 실시예에서, PCR은 에멀젼 PCR이다. 일부 실시예에서, 복수의 식별자는 선형 증폭으로 복사된다. 일부 실시예에서, PCR 후, 복수의 식별자의 더 많은 사본를 생성하기 위해 선형 증폭이 사용된다. 일부 실시예에서, 복수의 식별자의 서브세트는 하나 이상의 PCR 반응으로 접근된다. 일부 실시예에서, 복수의 식별자의 서브세트는 하나 이상의 선호도 태그 프로브로 액세스된다. 일부 실시예에서, 복수의 식별자의 서브세트의 식별자는 공통의 구성 요소 세트를 갖는다. 일부 실시예에서, 식별자는 겔 전기영동에 의해 정제된다. 일부 실시예에서, 식별자는 선호도 태깅된 프로브에 의해 정제된다. 일부 실시예에서, 식별자는 PCR을 사용하여 증폭된다. 일부 실시예에서, 식별자는 티민-티민 디뉴클레오티드 또는 시토신-시토신 디뉴클레오티드를 피하도록 설계된다.
또 다른 양태에서, 본 발명은 정보를 나타내는 일련의 기호를 생성하는 단계; 복수의 구성 요소를 구축하는 단계, 여기서 복수의 구성 요소의 각각의 개별 구성 요소는 핵산 서열을 포함하고; 복수의 구성 요소 중 개별 구성 요소의 적어도 하나의 접착 말단을 생성하는 단계, 여기서 적어도 하나의 접착 말단은 길이가 적어도 6개의 뉴클레오티드임; 2개 이상의 구성 요소 중 개별 구성 요소의 적어도 하나의 접착 말단을 통해 복수의 구성 요소 중 2개 이상의 구성 요소를 함께 화학적으로 연결하여 복수의 식별자를 생성하고, 여기서 복수의 식별자의 각각의 식별자는 2개 이상의 구성 요소를 포함함, 여기서 복수의 식별자 중 개별 식별자는 기호열의 개별 기호에 대응하고; 및 적어도 복수의 식별자의 서브세트를 포함하는 식별자 라이브러리를 선택적으로 캡처하거나 증폭하는 단계를 포함한다.
일부 실시예에서, 적어도 하나의 접착성 말단은 개별 구성 요소의 3' 말단에 있다. 일부 실시예에서, 연결은 복수의 구성 요소 중 적어도 15개 이상의 구성 요소를 연결하는 것을 포함한다. 일부 실시예에서, 적어도 하나의 접착 말단은 표 4 또는 표 5에 열거된 서열로 이루어진 그룹으로부터 선택되는 핵산 서열을 포함한다.
또 다른 양태에서, 본 발명은 핵산 서열에 정보를 기록하는 방법으로: (a) 정보를 나타내는 기호의 문자열을 생성하는 단계; (b) 복수의 스티키 엔드 성분을 구성하는 단계, 여기서 복수의 성분의 각 개별 성분은 핵산 서열 및 적어도 하나의 스티키 엔드를 포함한다; (c) 복수의 구성 요소의 개별 구성 요소의 적어도 하나의 스티키 엔드를 통해 복수의 구성 요소의 둘 이상의 구성 요소를 화학적으로 연결하여 복수의 식별자를 생성하는 단계, 여기서 복수의 식별자의 각 식별자는 둘 이상의 구성 요소를 포함하고, 복수의 식별자의 개별 식별자는 기호 문자열의 개별 기호에 대응하는 단계; 및 (d) 복수의 식별자의 적어도 서브셋을 포함하는 식별자 라이브러리를 선택적으로 캡처 또는 증폭하는 단계를 포함한다. 일부 실시예에서, (b)는 2개의 올리고뉴클레오티드를 어닐링하여 각각의 개별 구성 요소를 구성함으로써 각각의 개별 구성 요소가 적어도 하나의 스티키 말단을 갖도록 하는 것을 포함한다.
한 양태에서, 본 발명은 (a) 정보를 일련의 기호로 번역하는 단계; (b) 기호의 스트링을 복수의 식별자에 매핑하는 단계, 여기서 복수의 식별자 중 개별 식별자는 하나 이상의 구성 요소를 포함하고, 하나 이상의 구성 요소의 개별 구성 요소는 핵산 서열을 포함하고, 개별 식별자는 복수의 식별자 중 하나는 기호열의 개별 기호에 대응하고; 및 (c) 적어도 복수의 식별자의 서브세트를 포함하는 식별자 라이브러리를 구축하는 단계를 포함한다.
일부 실시예에서, 상기 기호 스트링의 각 기호는 2개의 가능한 기호 값 중 하나이다. 일부 실시예에서, 상기 기호 스트링의 각 위치에 있는 하나의 기호 값은 식별자 라이브러리에 별개의 식별자가 없는 것으로 표현될 수 있다. 일부 실시예에서, 상기 2개의 가능한 기호 값은 0 및 1의 비트 값이고, 상기 기호 스트링에서 상기 비트 값 0을 갖는 상기 개별 기호는 상기 식별자 라이브러리에서 별개의 식별자의 부재로 표현될 수 있다. 여기서 상기 기호 스트링에서 상기 비트 값이 1인 상기 개별 기호는 상기 식별자 라이브러리에서 상기 구별되는 식별자의 존재에 의해 표현될 수 있고, 그 반대도 가능하다. 일부 실시예에서, 기호 스트링의 각 기호는 하나 이상의 가능한 기호 값 중 하나이다. 일부 실시예에서, 식별자 라이브러리에 있는 개별 식별자의 존재는 이진 스트링의 첫 번째 기호 값에 해당하고 개별 식별자의 부재는 이진 스트링의 두 번째 기호 값에 해당한다. 일부 실시예에서, 제 1 기호 값은 1의 비트 값이고 제 2 기호 값은 0의 비트 값이다. 일부 실시예에서, 제 1 기호 값은 0의 비트 값이고 제 2 기호 값은 1의 비트 값이다.
일부 실시예에서, 식별자 라이브러리에서 개별 식별자를 구성하는 것은 하나 이상의 층으로부터 하나 이상의 구성 요소를 조립하는 것을 포함하며, 여기서 하나 이상의 층의 각 층은 별개의 구성 요소의 집합을 포함한다. 일부 실시예에서, 식별자 라이브러리의 개별 식별자는 하나 이상의 레이어의 각 레이어에서 하나의 구성 요소를 포함한다. 일부 실시예에서, 하나 이상의 구성 요소는 고정된 순서로 조립된다. 일부 실시예에서, 하나 이상의 구성 요소는 임의의 순서로 조립된다. 일부 실시예에서, 하나 이상의 구성 요소는 하나 이상의 층의 상이한 층으로부터의 두 구성 요소 사이에 배치된 하나 이상의 파티셔닝 구성 요소로 조립된다. 일부 실시예에서, 개별 식별자는 하나 이상의 레이어의 서브세트의 각 레이어로부터 하나의 컴포넌트를 포함한다. 일부 실시예에서, 개별 식별자는 하나 이상의 레이어 각각으로부터 적어도 하나의 컴포넌트를 포함한다. 일부 실시예에서, 하나 이상의 구성 요소는 중첩-연장 중합효소 연쇄 반응(PCR), 중합효소 순환 어셈블리, 스티키 엔드 리결합, 바이오브릭 어셈블리, 골든 게이트 어셈블리, 깁슨 어셈블리, 재조합 효소 어셈블리, 리가제 순환 반응 또는 템플릿 지시 리결합을 사용하여 조립된다.
일부 실시예에서, 식별자 라이브러리에서 개별 식별자를 구성하는 것은 핵산 편집 효소를 모 식별자에 적용함으로써 모 식별자에서 적어도 하나의 구성 요소를 삭제, 대체 또는 삽입하는 것을 포함한다. 일부 실시예에서, 모 식별자는 뉴클레아제 특이적 타겟 부위, 재조합효소 인식 부위 또는 별개의 스페이서 서열 옆에 있는 복수의 구성 요소를 포함한다. 일부 실시예에서, 핵산 편집 효소는 CRISPR-Cas, TALEN, 징크 핑거 뉴클레아제, 레콤비나제 및 이들의 기능적 변이체로 이루어진 그룹으로부터 선택된다.
일부 실시예에서, 식별자 라이브러리는 복수의 핵산 서열을 포함한다. 일부 실시예에서, 복수의 핵산 서열은 정보의 메타데이터를 저장하고 및/또는 정보를 은폐한다. 일부 실시예에서, 메타데이터는 정보의 소스, 정보의 의도된 수신자, 정보의 원래 포맷, 정보를 인코딩하는 데 사용되는 기기 및 방법, 식별자 라이브러리에 정보를 기록한 날짜 및 시간, 정보에 대한 수정 및/또는 다른 정보에 대한 참조에 대응하는 보조 정보를 포함한다.
일부 실시예에서, 하나 이상의 식별자 라이브러리가 조합되고 여기서 하나 이상의 식별자 라이브러리의 각각의 식별자 라이브러리는 별개의 바코드로 태깅된다. 일부 실시예에서, 식별자 라이브러리의 각각의 개별 식별자는 별개의 바코드를 포함한다. 일부 실시예에서, 복수의 식별자는 읽기, 기록, 액세스, 복사 및 삭제 작업의 용이성을 위해 선택된다. 일부 실시예에서, 복수의 식별자는 기록 오류, 돌연변이, 열화 및 판독 오류를 최소화하도록 선택된다.
다른 양태에서, 본 개시는 핵산 서열로 인코딩된 정보를 복사하는 방법을 제공하며: (a) 기호의 문자열을 인코딩하는 식별자 라이브러리를 제공하는 단계, 여기서 식별자 라이브러리는 복수의 식별자를 포함하고, 복수의 식별자 중 개별 식별자는 하나 이상의 구성 요소를 포함하고, 하나 이상의 구성 요소의 개별 구성 요소는 핵산 서열을 포함하고, 복수의 식별자 중 개별 식별자는 기호의 문자열의 개별 기호에 대응하는 단계; 및 (b) 식별자 라이브러리의 하나 이상의 사본을 생성하는 단계를 포함한다.
일부 실시예에서, 복수의 식별자는 하나 이상의 프라이머 결합 부위를 포함한다. 일부 실시예에서, 식별자 라이브러리는 PCR(polymerase chain reaction)과 같은 핵산 증폭을 사용하여 복사된다(화학적 방법 섹션 D 참조). 일부 실시예에서, PCR은 통상적인 PCR 또는 선형 PCR이고 여기서 식별자 라이브러리의 사본 수는 각각의 PCR 사이클에 따라 각각 두 배가 되거나 선형적으로 증가한다. 일부 실시예에서, 식별자 라이브러리의 개별 식별자는 PCR 전에 원형 벡터에 결합되며, 여기서 원형 벡터는 개별 식별자의 각 말단에 상관 바코드를 포함하여, 임의의 의도하지 않은 DNA 교차 이벤트가 PCR 동안 발생하는 경우, 생성된 잘못된 분자는 시퀀싱에서 감지할 수 있다. 일부 실시예에서, PCR은 등온이다. 일부 실시예에서, PCR은 롤링 서클 증폭의 한 형태이다. 일부 실시예에서, PCR은 에멀젼 PCR(ePCR)이다.
일부 실시예에서, 식별자 라이브러리는 복수의 핵산 서열을 포함한다. 일부 실시예에서, 복수의 핵산 서열은 복사된다. 일부 실시예에서, 하나 이상의 식별자 라이브러리는 복사 전에 조합되고 여기서 하나 이상의 식별자 라이브러리의 각각의 라이브러리는 별개의 바코드를 포함한다.
다른 양태에서, 본 발명은 핵산 서열로 인코딩된 정보에 액세스하는 방법을 제공하며: (a) 기호의 문자열을 인코딩하는 식별자 라이브러리를 제공하는 단계, 여기서 식별자 라이브러리는 복수의 식별자를 포함하고, 복수의 식별자 중 개별 식별자는 하나 이상의 구성 요소를 포함하고, 하나 이상의 구성 요소의 개별 구성 요소는 핵산 서열을 포함하고, 복수의 식별자의 개별 식별자는 기호의 문자열의 개별 기호에 대응하는 단계; 및 (b) 식별자 라이브러리로부터 복수의 식별자의 목표 서브세트를 추출하는 단계를 포함한다.
일부 실시예에서, 복수의 프로브는 식별자 라이브러리와 결합된다. 일부 실시예에서, 복수의 프로브는 식별자 라이브러리로부터 복수의 식별자의 표적화된 서브세트와 상보성을 공유한다. 일부 실시예에서, 복수의 프로브는 식별자 라이브러리에서 복수의 식별자의 목표 서브세트를 하이브리드화한다. 일부 실시예에서, 복수의 프로브는 하나 이상의 선호도 태그를 포함하고, 하나 이상의 선호도 태그는 핵산 캡쳐가라고 지칭될 수 있는 공정에서 선호도 비드 또는 선호도 컬럼에 의해 캡쳐된다(핵산 캡쳐에 대한 화학적 방법 섹션 F 참조).
일부 실시예에서, 식별자 라이브러리는 복수의 프로브의 하나 이상의 서브세트와 순차적으로 조합되고 여기서 식별자 라이브러리의 일부는 복수의 프로브의 하나 이상의 서브세트에 결합한다. 일부 실시예에서, 복수의 프로브의 하나 이상의 서브세트에 결합하는 식별자 라이브러리의 일부는 복수의 프로브의 또 다른 서브세트를 식별자 라이브러리에 추가하기 전에 제거된다. 핵산 캡처의 이러한 실시예에서, 캡처된 핵산은 보존되는 대신 식별자 풀에서 제거될 수 있다.
일부 실시예에서, 복수의 식별자 중 개별 식별자는 하나 이상의 공통 프라이머 결합 영역, 하나 이상의 가변 프라이머 결합 영역, 또는 이들의 임의의 조합을 포함한다. 일부 실시예에서, 식별자 라이브러리는 하나 이상의 공통 프라이머 결합 영역 또는 하나 이상의 가변 프라이머 결합 영역에 결합하는 프라이머와 결합된다. 일부 실시예에서, 하나 이상의 가변 프라이머 결합 영역에 결합하는 프라이머는 식별자 라이브러리의 타겟 서브셋을 선택적으로 증폭하는 데 사용된다(화학적 방법 섹션 D 참조).
일부 실시예에서, 식별자의 일부는 선택적 뉴클레아제 절단에 의해 식별자 라이브러리로부터 제거된다. 일부 실시예에서, 식별자 라이브러리는 Cas9 및 가이드 프로브와 조합되고 가이드 프로브는 Cas9를 가이드하여 식별자 라이브러리로부터 특정 식별자를 제거한다. 일부 실시예에서, 개별 식별자는 단일 가닥이고 여기서 식별자 라이브러리는 단일 가닥 특이적 엔도뉴클레아제(들)와 조합된다. 일부 실시예에서, 식별자 라이브러리는 단일 가닥 특이적 엔도뉴클레아제(들)의 첨가 이전에 분해로부터 타겟 개별 식별자를 보호하는 개별 식별자의 상보적인 세트와 혼합된다. 일부 실시예에서, 선택적 뉴클레아제 절단에 의해 절단되지 않은 개별 식별자는 크기 선택적 크로마토그래피에 의해 분리된다(핵산 크기 선택에 대한 화학적 방법 섹션 E 참조). 일부 실시예에서, 선택적 뉴클레아제 절단에 의해 절단되지 않은 개별 식별자는 증폭되고 선택적 뉴클레아제 절단에 의해 절단된 개별 식별자는 증폭되지 않는다(핵산 증폭에 대한 화학적 방법 섹션 D 참조). 일부 실시예에서, 선택적 뉴클레아제 절단에 의해 절단되지 않은 개별 식별자는 캡쳐되고 선택적 뉴클레아제 절단에 의해 절단된 개별 식별자는 캡쳐되지 않는다(핵산 캡쳐에 대한 화학적 방법 섹션 F 참조). 일부 실시예에서, 식별자 라이브러리는 복수의 핵산 서열을 포함하고 여기서 복수의 핵산 서열은 식별자 라이브러리에서 복수의 식별자의 타겟화된 서브세트와 함께 추출된다.
또 다른 양태에서, 본 발명은(a) 복수의 식별자를 포함하는 식별자 라이브러리를 제공하는 단계를 포함하는, 핵산 서열(들)에 인코딩된 정보를 판독하는 방법을 제공하며, 여기서 복수의 식별자 중 개별 식별자는 하나 이상의 하나 이상의 구성 요소의 개별 구성 요소는 핵산 서열을 포함하는 구성 요소;(b) 식별자 라이브러리에서 복수의 식별자를 식별하는 단계;(c) 상기(b)에서 식별된 복수의 식별자로부터 복수의 기호를 생성하는 단계 - 상기 복수의 기호 중 개별 기호는 상기 복수의 식별자의 개별 식별자에 대응함 -; 및(d) 복수의 기호로부터 정보를 컴파일하는 단계를 포함한다.
일부 실시예에서, 상기 기호 스트링의 각 기호는 2개의 가능한 기호 값 중 하나이다. 일부 실시예에서, 상기 기호 스트링의 각 위치에 있는 하나의 기호 값은 식별자 라이브러리에 별개의 식별자가 없는 것으로 표현될 수 있다. 일부 실시예에서, 상기 2개의 가능한 기호 값은 0 및 1의 비트 값이고, 상기 기호 스트링에서 상기 비트 값 0을 갖는 상기 개별 기호는 상기 식별자 라이브러리에서 별개의 식별자의 부재로 표현될 수 있다. 여기서 상기 기호 스트링에서 상기 비트 값이 1인 상기 개별 기호는 상기 식별자 라이브러리에서 상기 구별되는 식별자의 존재에 의해 표현될 수 있고, 그 반대도 가능하다. 일부 실시예에서, 식별자 라이브러리의 개별 식별자의 존재는 이진 스트링의 첫 번째 기호 값에 해당하고 식별자 라이브러리의 개별 식별자의 부재는 이진 스트링의 두 번째 기호 값에 해당한다. 일부 실시예에서, 제 1 기호 값은 1의 비트 값이고 제 2 기호 값은 0의 비트 값이다. 일부 실시예에서, 제 1 기호 값은 0의 비트 값이고 제 2 기호 값은 1의 비트 값이다.
일부 실시예에서, 복수의 식별자를 식별하는 것은 식별자 라이브러리에서 복수의 식별자를 시퀀싱하는 것을 포함한다. 일부 실시예에서, 시퀀싱은 디지털 폴리머라제 연쇄 반응(PCR), 정량적 PCR, 마이크로어레이, 합성에 의한 시퀀싱, 또는 대규모 병렬 시퀀싱을 포함한다. 일부 실시예에서, 식별자 라이브러리는 복수의 핵산 서열을 포함한다. 일부 실시예에서, 복수의 핵산 서열은 정보의 메타데이터를 저장하고 및/또는 정보를 숨긴다. 일부 실시예에서, 하나 이상의 식별자 라이브러리가 조합되고 여기서 하나 이상의 식별자 라이브러리 내의 각각의 식별자 라이브러리는 별개의 바코드를 포함한다. 일부 실시예에서, 바코드는 정보의 메타데이터를 저장한다.
다른 양태에서, 본 발명은 핵산 기반 컴퓨터 데이터 저장 방법을 제공하며: (a) 컴퓨터 데이터를 수신하는 단계, (b) 컴퓨터 데이터를 인코딩하는 핵산 서열을 포함하는 핵산 분자를 합성하는 단계, 여기서 컴퓨터 데이터는 각 핵산 분자의 서열이 아닌 합성된 핵산 분자의 적어도 일부 집합으로 인코딩되는 단계 및 (c) 핵산 서열을 갖는 핵산 분자들을 저장하는 단계를 포함한다.
일부 실시예에서, 적어도 핵산 분자의 서브세트는 함께 그룹화된다. 일부 실시예에서, 방법은 핵산 서열(들)을 결정하기 위해 핵산 분자(들)를 시퀀싱함으로써 컴퓨터 데이터를 검색하는 단계를 추가로 포함한다. 일부 실시예에서, (b)는 약 1일 미만인 기간에 수행된다. 일부 실시예에서, (b)는 적어도 약 90%의 정확도로 수행된다.
또 다른 양태에서, 본 발명은 핵산 기반 컴퓨터 데이터 저장 방법을 제공하며: (a) 컴퓨터 데이터를 수신하고, (b) 컴퓨터 데이터를 암호화하는 적어도 하나의 핵산 서열을 포함하는 핵산 분자를 합성하고, 상기 핵산 분자를 합성하는 것은 염기별 핵산 합성이 없는 상태에서 이루어지며, (c) 상기 적어도 하나의 핵산 서열을 포함하는 핵산 분자를 저장하는 것을 포함한다.
일부 실시예에서, 방법은 핵산 분자를 시퀀싱하여 핵산 서열을 결정함으로써 컴퓨터 데이터를 검색하는 단계를 추가로 포함한다. 일부 실시예에서, (b)는 약 1일 미만인 기간에 수행된다. 일부 실시예에서, (b)는 적어도 약 90%의 정확도로 수행된다.
또 다른 양태에서, 본 발명은 식별자 라이브러리를 구성하도록 구성된 장치를 포함하는, 핵산을 사용하여 이진 서열 데이터를 인코딩하기 위한 시스템을 제공하고, 여기서 식별자 라이브러리는 복수의 식별자를 포함하고, 여기서 복수의 식별자 중 개별 식별자는 다음을 포함한다. 하나 이상의 구성 요소, 그리고 여기서 하나 이상의 구성 요소의 개별 구성 요소는 핵산 서열이며; 및 장치에 작동 가능하게 연결된 하나 이상의 컴퓨터 프로세서를 포함하며, 여기서 하나 이상의 컴퓨터 프로세서는 (i) 정보를 일련의 기호로 번역하는 단계, (ii) 기호의 스트링을 복수의 식별자에 매핑하도록 개별적으로 또는 집합적으로 프로그래밍되는 단계, 여기서, 복수의 식별자의 개별 식별자는 기호열의 개별 기호에 대응하고, (iii) 복수의 식별자를 포함하는 식별자 라이브러리를 구성하는 단계를 포함한다.
일부 실시예에서, 장치는 복수의 파티션을 포함하고 식별자 라이브러리는 복수의 파티션 중 하나 이상에서 생성된다. 일부 실시예에서, 복수의 구획은 웰을 포함한다. 일부 실시예에서, 식별자 라이브러리에서 개별 식별자를 구성하는 것은 하나 이상의 층으로부터 하나 이상의 구성 요소를 조립하는 것을 포함하고 여기서 하나 이상의 레이어의 각 레이어는 별개의 구성 요소 세트를 포함한다. 일부 실시예에서, 하나 이상의 레이어의 각 레이어는 장치의 개별 부분에 저장되고 장치는 하나 이상의 층으로부터의 하나 이상의 구성 요소를 결합하도록 구성된다. 일부 실시예에서, 식별자 라이브러리는 복수의 핵산 서열을 포함한다. 일부 실시예에서, 하나 이상의 식별자 라이브러리는 장치의 단일 영역에 결합되고 여기서 하나 이상의 식별자 라이브러리의 각각의 식별자 라이브러리는 별개의 바코드를 포함한다.
또 다른 양태에서, 본 발명은 핵산 서열로 인코딩된 정보를 판독하기 위한 시스템을 제공하며: 복수의 식별자를 포함하는 식별자 라이브러리를 저장하는 데이터베이스, 여기서, 복수의 식별자 중 개별 식별자는 하나 이상의 구성 요소를 포함하며, 하나 이상의 구성 요소의 개별 구성 요소는 핵산 서열을 포함하고; 및 데이터베이스에 동작적으로 결합된 하나 이상의 컴퓨터 프로세서; 및 하나 이상의 컴퓨터 프로세서는, (i) 식별자 라이브러리에서 복수의 식별자를 식별하고, (ii) (i)에서 식별된 복수의 식별자로부터 복수의 기호를 생성하고, 복수의 기호 중 개별 기호가 복수의 식별자의 개별 식별자에 대응하도록 개별적으로 또는 집합적으로 프로그래밍되고, (iii) 복수의 기호로부터 정보를 컴파일하는 것을 특징으로 한다.
일부 실시예에서, 시스템은 복수의 파티션을 더 포함한다. 일부 실시예에서, 파티션은 웰이다. 일부 실시예에서, 복수의 구획 중 주어진 구획은 하나 이상의 식별자 라이브러리를 포함하고 여기서 하나 이상의 식별자 라이브러리의 각각의 식별자 라이브러리는 별개의 바코드를 포함한다. 일부 실시예에서, 시스템은 식별자 라이브러리에서 복수의 식별자를 식별하도록 구성된 검출 유닛을 더 포함한다.
본 발명의 바람직한 실시예가 여기에서 도시되고 설명되었지만, 이러한 실시예는 단지 예로서 제공된다는 것이 당업자에게 명백할 것이다. 본 발명이 명세서 내에 제공된 특정 예에 의해 제한되는 것으로 의도되지 않는다. 본 발명은 전술한 명세서를 참조하여 설명되었지만, 본 명세서의 실시예의 설명 및 예시는 제한적인 의미로 해석되는 것을 의미하지 않는다. 이제 본 발명을 벗어나지 않고 당업자에게 수많은 변형, 변경 및 대체가 일어날 것이다. 또한, 본 발명의 모든 측면은 다양한 조건 및 변수에 의존하는 본 명세서에 제시된 특정 묘사, 구성 또는 상대적인 비율에 제한되지 않는다는 것을 이해해야 한다. 본 명세서에 기술된 본 발명의 실시예에 대한 다양한 대안이 본 발명을 실시하는데 사용될 수 있음을 이해해야 한다. 따라서 본 발명은 그러한 대안, 수정, 변경 또는 등가물도 포함하는 것으로 생각된다. 다음 청구범위는 본 발명의 범위를 정의하고 이들 청구범위 및 그 등가물 범위 내의 방법 및 구조를 포함하도록 의도된다.

Claims (54)

  1. 화학 반응을 실행하기 위한 시스템에 있어서,
    소스 저장소;
    소스 저장소 및 메인 채널과 유체 연통하는 입력 채널로서, 소스 저장소로부터의 반응 부피를 메인 채널로 분배하도록 구성되고, 메인 채널은 메인 채널의 내부 표면에 복수의 패드를 포함하는 입력 채널 전기습윤을 통해 반응 부피를 복수의 액적으로 전달하도록 구성되고; 및
    메인 채널로부터 풀로 복수의 액적을 수용하도록 구성된 목적지 저장소를 포함하는 것을 특징으로 하는 시스템.
  2. 제 1항에 있어서, 상기 복수의 패드의 각각의 패드는 전극, 유전체 및 소수성 표면을 포함하는 것을 특징으로 하는 시스템.
  3. 제 1항 또는 제 2항에 있어서, 복수의 패드는 내부 표면 상에 어레이로서 배열되고, 어레이는 어레이의 패드 열을 따라 복수의 액적의 개별 액적을 전달하도록 구성되고, 어레이는 복수의 패드 열 및 각각의 패드 열은 메인 채널의 길이를 따라 연장되는 것을 특징으로 하는 시스템.
  4. 제 3항에 있어서, 상기 복수의 패드 열은 다수의 액적을 병렬로 운반하도록 구성되는 것을 특징으로 하는 시스템.
  5. 제 3항 또는 제 4항에 있어서, 메인 채널의 내부 표면 위의 높이(h)에 위치된 커버 플레이트를 더 포함하고, 높이(h)는 메인 채널을 1차원으로 한정하는 것을 특징으로 하는 시스템.
  6. 제 5항에 있어서, 상기 주 채널의 높이 h, 상기 주 채널의 폭 w, 상기 주 채널을 통과하는 복수의 액적의 액적 속도 v, 및 상기 복수의 액적이 점유하는 상기 주 채널의 평균 분수 부피 o 중 적어도 하나는, 시스템의 유효 유량(h*w*v*o)이 목표 시간 내에 소스 저장소의 초기 반응 부피를 주 채널을 통해 이동시키기에 충분하도록 구성되는 것을 특징으로 하는 시스템.
  7. 제 6항에 있어서, 초기 반응 부피는 약 1리터 이상이고 목표 시간은 약 2시간 이하인 것을 특징으로 하는 시스템.
  8. 제 6항 또는 제 7항에 있어서, 액적 속도(v)는 패드 길이(x) 및 패드 스위칭 주파수(f)에 의해 결정되어 액적 속도가 x*f와 동일하도록 하는 것을 특징으로 하는 시스템.
  9. 제 3항 내지 제 8항 중 어느 한 항에 있어서, 상기 복수의 패드는 목표 온도로 설정된 패드 행을 포함하는 것을 특징으로 하는 시스템.
  10. 제 9항에 있어서, 상기 어레이는 복수의 목표 온도로 설정된 복수의 패드 행을 포함하고, 상기 각 패드 열은 복수의 목표 온도로 설정된 복수의 패드 행의 각 패드 열로부터의 패드를 포함하여, 액적이 상기 어레이의 개별 패드 열을 따라 전달될 때 복수의 목표 온도에 노출되도록 하는 것을 특징으로 하는 시스템.
  11. 제 10항에 있어서, 어레이는 메인 채널의 길이를 따라 주기적인 온도 패턴을 갖는 패드 행의 패턴을 포함하는 것을 특징으로 하는 시스템.
  12. 제 11항에 있어서, 패턴은 온도 사이클을 정의하고, 어레이는 패턴의 복수의 인스턴스를 포함하는 것을 특징으로 하는 시스템.
  13. 제 11항 또는 제 12항에 있어서, 반응 부피는 중합효소 연쇄 반응(PCR) 제형이고, 개별 사이클의 다중 목표 온도는 이중 가닥 DNA를 녹이고, 프라이머를 어닐링하고, 프라이머를 확장하기 위해 구성되는 것을 특징으로 하는 시스템.
  14. 제 12항 또는 제 13항에 있어서, 온도 사이클의 개별 온도에 대한 패드 스위칭 주파수 및 패드 행의 수는 개별 액적이 개별 온도에서 목표 기간을 보내도록 설정되는 것을 특징으로 하는 시스템.
  15. 제 12항 내지 제 14항 중 어느 한 항에 있어서, 메인 채널의 길이는 적어도 패턴 길이에 패턴의 인스턴스 수를 곱한 만큼 긴 것을 특징으로 하는 시스템.
  16. 제 1항 내지 제 15항 중 어느 한 항에 있어서, 복수의 패드 중 하나의 패드가 효소와 접합되는 것을 특징으로 하는 시스템.
  17. 제 1항 내지 제 15항 중 어느 한 항에 있어서, 복수의 패드 중 하나의 패드가 효소를 캡쳐하도록 구성된 것을 특징으로 하는 시스템.
  18. 제 17항에 있어서, 복수의 액적의 각각의 액적은 자기 비드를 함유하고, 효소는 자기 비드에 부착되고, 패드는 효소가 부착된 자기 비드를 캡쳐하도록 구성된 전자석을 포함하는 것을 특징으로 하는 시스템.
  19. 제 16항 내지 제 18항 중 어느 한 항에 있어서, 효소가 중합효소인 것을 특징으로 하는 시스템.
  20. 제 1항 내지 제 19항 중 어느 한 항에 있어서, 공급원 저장소로부터 입력 채널을 통해 메인 채널로 복수의 액적을 운반하도록 구성된 입력 펌프를 추가로 포함하는 것을 특징으로 하는 시스템.
  21. 제 1항 내지 제 20항 중 어느 한 항에 있어서, 주 채널로부터 목적지 저장소로 액적을 흡인하도록 구성된 출력 펌프를 추가로 포함하는 것을 특징으로 하는 시스템.
  22. 제 20항 내지 제 21항 중 어느 한 항에 있어서, 입력 펌프 및 출력 펌프 중 적어도 하나는 다이어프램 펌프, 압력 펌프 또는 연동 펌프 중 하나인 것을 특징으로 하는 시스템.
  23. 제 1항 내지 제 22항 중 어느 한 항에 있어서, 소스 저장소는 가압되는 것을 특징으로 하는 시스템.
  24. 제 1항 내지 제 23항 중 어느 한 항에 있어서, 목적지 저장소는 감압되는 것을 특징으로 하는 시스템.
  25. 제 1항 내지 제 24항 중 어느 한 항에 있어서, 목적지 저장소는 반응을 억제하도록 구성된 시약을 추가로 포함하는 것을 특징으로 하는 시스템.
  26. 제 25항에 있어서, 시약이 EDTA인 것을 특징으로 하는 시스템.
  27. 제 1항 내지 제 26항 중 어느 한 항에 있어서, 메인 채널은 공기를 포함하는 것을 특징으로 하는 시스템.
  28. 제 1항 내지 제 26항 중 어느 한 항에 있어서, 메인 채널은 오일을 포함하는 것을 특징으로 하는 시스템.
  29. 제 1항 내지 제 28항 중 어느 한 항에 있어서, 상기 반응 부피는 디지털 정보를 인코딩하는 DNA 분자 라이브러리를 포함하는 것을 특징으로 하는 시스템.
  30. 제 1항 내지 제 28항 중 어느 한 항에 있어서, 반응 부피가 게놈 DNA의 라이브러리를 포함하는 것을 특징으로 하는 시스템.
  31. 제 1항 내지 제 28항 중 어느 한 항에 있어서, 반응 부피가 스크리닝을 위한 DNA 변이체 라이브러리를 포함하는 것을 특징으로 하는 시스템.
  32. 제 1항 내지 제 31항 중 어느 한 항에 있어서, 목적지 저장소는 풀의 적어도 일부를 용기 내로 또는 기판 상에 분배하도록 구성된 분배기를 포함하는 것을 특징으로 하는 시스템.
  33. 제 1항 내지 제 32항 중 어느 한 항에 있어서, 메인 채널 및 목적지 저장소와 유체 연통하는 출력 채널을 추가로 포함하고, 출력 채널은 메인 채널로부터 목적지 저장소로 복수의 액적을 운반하도록 구성되는 것을 특징으로 하는 시스템.
  34. 제 1항 내지 제 33항 중 어느 한 항의 메인 채널을 포함하는 것을 특징으로 하는 시스템.
  35. 화학 반응을 실행하기 위한 장치에 있어서,
    바닥 표면;
    상기 바닥 표면에 배열된 복수의 패드;
    바닥 표면의 제 1 단부에 있는 유입구;
    상기 바닥 표면의 상기 제 1 단부 반대편의 제 2 단부에 있는 배출구; 및
    바닥 표면 위의 채널 높이에 위치한 커버를 포함하고,
    바닥 표면 및 커버는 채널 높이에 의해 특징지어지는 채널을 정의하는 것을 특징으로 하는 장치.
  36. 제 35항에 있어서, 상기 복수의 패드의 각각의 패드는 전극, 유전 물질 및 소수성 표면을 포함하는 것을 특징으로 하는 장치.
  37. 제 36항에 있어서, 각각의 패드는 바닥 표면과 커버 사이에 전기장을 생성하도록 구성되는 것을 특징으로 하는 장치.
  38. 제 35항 내지 제 37항 중 어느 한 항에 있어서, 상기 복수의 패드는 바닥면에 어레이로 배열되고, 상기 어레이는 복수의 패드 행과 복수의 패드 열을 포함하며, 각 패드 열은 각 패드 행과 교차하고, 각 패드 열은 각 패드 행의 패드를 포함하며, 그 반대의 경우도 마찬가지인 것을 특징으로 하는 장치.
  39. 제 38항에 있어서, 각 패드 행은 목표 온도에 있는 것을 특징으로 하는 장치.
  40. 제 38항에 있어서, 어레이는 다수의 패드 행 세트를 포함하고, 각각의 세트는 목표 온도에 있고 하나 이상의 패드 행을 포함하는 것을 특징으로 하는 장치.
  41. 제 40항에 있어서, 어레이는 온도 사이클의 패턴을 포함하고, 각각의 온도 사이클은 복수의 세트를 포함하고, 온도 사이클에서 복수의 세트의 각각의 세트는 상이한 목표 온도를 갖는 것을 특징으로 하는 장치.
  42. 제 35항 내지 제 38항 중 어느 한 항에 있어서, 채널이 복수의 액적으로서 집합 반응 부피를 함유하는 것을 특징으로 하는 장치.
  43. 제 39항에 있어서, 복수의 패드는 유입구로부터 유출구로 액적을 운반하도록 배열되고, 유입구에서 유출구로의 방향은 채널 높이에 직각인 것을 특징으로 하는 장치.
  44. 제 42항 또는 제 43항에 있어서, 응집 반응 부피는 디지털 정보를 암호화하는 DNA 분자의 라이브러리, 게놈 DNA 분자의 라이브러리, 스크리닝을 위한 DNA 변이체의 라이브러리, 또는 RNA의 라이브러리 중 하나 이상을 포함하는 것을 특징으로 하는 장치.
  45. 제 39항 또는 제 40항에 있어서, 상기 채널 높이 h, 상기 채널의 폭 w, 상기 채널을 통과하는 복수의 액적의 액적 속도 v, 및 상기 복수의 액적이 점유하는 상기 채널의 평균 분수 부피 o 중 적어도 하나는, 상기 장치의 유효 유량(h*w*v*o)이 목표 시간 내에 상기 채널을 통해 총 반응 부피를 입구에서 출구까지 이동시키기에 충분하도록 구성되는 것을 특징으로 하는 장치.
  46. 제 35항 내지 제 45항 중 어느 한 항에 있어서, 복수의 패드 중 하나의 패드가 효소와 접합된 것을 특징으로 하는 장치.
  47. 제 35항 내지 제 45항 중 어느 한 항에 있어서, 복수의 패드 중 하나의 패드가 효소를 캡쳐하도록 구성된 것을 특징으로 하는 장치.
  48. 제 47항에 있어서, 패드는 효소가 부착된 자기 비드를 캡쳐하도록 구성된 전자석을 포함하는 것을 특징으로 하는 장치.
  49. 제 46항 내지 제 48항 중 어느 한 항에 있어서, 효소가 중합효소인 것을 특징으로 하는 장치.
  50. 제 35항 내지 제 49항 중 어느 한 항에 있어서, 각각의 소스 저장소 및 채널의 입구와 유체 연통하는 입력 채널을 통해 소스 저장소로부터 채널로 초기 반응 부피를 전달하도록 구성된 입력 펌프를 추가로 포함하는 것을 특징으로 하는 장치.
  51. 제 35항 내지 제 50항 중 어느 한 항에 있어서, 채널의 각각의 출구 및 목적지 저장소와 유체 연통하는 출력 채널을 통해 유체 또는 입자를 채널로부터 목적지 저장소로 운반하도록 구성된 출력 펌프를 추가로 포함하는 것을 특징으로 하는 장치.
  52. 제 50항 또는 제 51항에 있어서, 입력 펌프 및 출력 펌프 중 적어도 하나는 다이어프램 펌프, 압력 펌프 또는 연동 펌프 중 하나인 것을 특징으로 하는 장치.
  53. 제 1항 내지 제 26항 중 어느 한 항에 있어서, 채널은 바닥 표면과 커버 사이에 공기를 포함하는 것을 특징으로 하는 시스템.
  54. 제 1항 내지 제 26항 중 어느 한 항에 있어서, 채널은 바닥 표면과 커버 사이에 오일을 포함하는 것을 특징으로 하는 시스템.
KR1020237010197A 2020-09-22 2021-09-21 온도 제어 유체 반응 시스템 KR20230074153A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063081666P 2020-09-22 2020-09-22
US63/081,666 2020-09-22
PCT/US2021/051301 WO2022066637A1 (en) 2020-09-22 2021-09-21 Temperature-controlled fluidic reactions system

Publications (1)

Publication Number Publication Date
KR20230074153A true KR20230074153A (ko) 2023-05-26

Family

ID=78135196

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237010197A KR20230074153A (ko) 2020-09-22 2021-09-21 온도 제어 유체 반응 시스템

Country Status (6)

Country Link
EP (1) EP4217112A1 (ko)
JP (1) JP2023546330A (ko)
KR (1) KR20230074153A (ko)
AU (1) AU2021347675A1 (ko)
CA (1) CA3195364A1 (ko)
WO (1) WO2022066637A1 (ko)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7439014B2 (en) * 2006-04-18 2008-10-21 Advanced Liquid Logic, Inc. Droplet-based surface modification and washing
EP2776165A2 (en) * 2011-11-07 2014-09-17 Illumina, Inc. Integrated sequencing apparatuses and methods of use
KR20230074828A (ko) * 2016-11-16 2023-05-31 카탈로그 테크놀로지스, 인크. 핵산-기반 데이터 저장
US10650312B2 (en) 2016-11-16 2020-05-12 Catalog Technologies, Inc. Nucleic acid-based data storage
AU2019270160A1 (en) 2018-05-16 2020-12-03 Catalog Technologies, Inc. Printer-finisher system for data storage in DNA
WO2019222561A1 (en) 2018-05-16 2019-11-21 Catalog Technologies, Inc. Compositions and methods for nucleic acid-based data storage
CA3108400A1 (en) 2018-08-03 2020-02-06 Catolog Technologies, Inc. Systems and methods for storing and reading nucleic acid-based data with error protection

Also Published As

Publication number Publication date
WO2022066637A1 (en) 2022-03-31
EP4217112A1 (en) 2023-08-02
JP2023546330A (ja) 2023-11-02
CA3195364A1 (en) 2022-03-31
AU2021347675A1 (en) 2023-04-20

Similar Documents

Publication Publication Date Title
US11379729B2 (en) Nucleic acid-based data storage
US20230376787A1 (en) Nucleic acid-based data storage
JP7364604B2 (ja) 核酸ベースのデータ記憶のための化学的方法
US11227219B2 (en) Compositions and methods for nucleic acid-based data storage
KR20230074153A (ko) 온도 제어 유체 반응 시스템
WO2023168085A1 (en) Dna microarrays and component level sequencing for nucleic acid-based data storage and processing
WO2023177864A1 (en) Combinatorial enumeration and search for nucleic acid-based data storage