KR20180116377A - 게놈 어셈블리를 위한 페이징된 판독 세트의 생성 및 반수체형 페이징 - Google Patents

게놈 어셈블리를 위한 페이징된 판독 세트의 생성 및 반수체형 페이징 Download PDF

Info

Publication number
KR20180116377A
KR20180116377A KR1020187027586A KR20187027586A KR20180116377A KR 20180116377 A KR20180116377 A KR 20180116377A KR 1020187027586 A KR1020187027586 A KR 1020187027586A KR 20187027586 A KR20187027586 A KR 20187027586A KR 20180116377 A KR20180116377 A KR 20180116377A
Authority
KR
South Korea
Prior art keywords
nucleic acid
segment
sequence
molecule
dna
Prior art date
Application number
KR1020187027586A
Other languages
English (en)
Inventor
리차드 이 주니어 그린
다니엘 에스 로크사
폴 하틀리
마르코 블란쳇
Original Assignee
더브테일 제노믹스 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 더브테일 제노믹스 엘엘씨 filed Critical 더브테일 제노믹스 엘엘씨
Publication of KR20180116377A publication Critical patent/KR20180116377A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/06Libraries containing nucleotides or polynucleotides, or derivatives thereof
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/06Libraries containing nucleotides or polynucleotides, or derivatives thereof
    • C40B40/08Libraries containing RNA or DNA which encodes proteins, e.g. gene libraries
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/5308Immunoassay; Biospecific binding assay; Materials therefor for analytes not provided for elsewhere, e.g. nucleic acids, uric acid, worms, mites
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2522/00Reaction characterised by the use of non-enzymatic proteins
    • C12Q2522/10Nucleic acid binding proteins
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2533/00Reactions characterised by the enzymatic reaction principle used
    • C12Q2533/10Reactions characterised by the enzymatic reaction principle used the purpose being to increase the length of an oligonucleotide strand
    • C12Q2533/107Probe or oligonucleotide ligation

Abstract

개개의 분자 페이즈 또는 물리적 연결 정보를 보존하는 방식으로 핵산 분자의 세그먼트화 및 재배열을 통해 게놈 서열 데이터와 같은 서열 데이터의 정확한 페이징을 용이하게 하는 방법, 조성물 및 시스템이 본원에서 개시된다. 이것은 적어도 하나 초과의 세그먼트에 걸친 세그먼트 서열 정보를 회복시키기 위해, 그의 포스포디에스테르 골격과 독립적으로 분자를 결합하고, 분자를 절단하고, 라이게이팅하고, 긴 판독물 서열결정 기술을 통해 분자를 서열결정함으로써 다양하게 수행된다.

Description

게놈 어셈블리를 위한 페이징된 판독 세트의 생성 및 반수체형 페이징
상호 참조
본원은 그 전문이 본원에 참고로 명백하게 포함된, 2016년 2월 23일 출원된 미국 특허 가출원 제62/298,906호의 이익을 주장하고, 본원은 또한 그 전문이 본원에 참고로 명백하게 포함된, 2016년 2월 23일 출원된 미국 특허 가출원 제62/298,966호의 이익을 주장하고, 본원은 또한 그 전문이 본원에 참고로 명백하게 포함된, 2016년 3월 9일 출원된 미국 특허 가출원 제62/305,957호의 이익을 주장한다.
이배체 또는 다배수체 게놈을 갖는 것 또는 실질적인 양의 반복적인 또는 동일한 서열을 포함하는 것과 같은 복잡한 DNA 샘플의 반수체형 페이즈(phase) 정보를 결정하는 것은 이론적으로 및 실제적으로 어려운 상태이다. 어려움은 판독(read) 정보의 표준 어셈블리가 페이즈 정보를 유전자좌의 대립유전자에 할당하기에는 불충분하도록 고도의 반복적인 영역에 의해 또는 동일한 서열의 긴 스트레치(stretch)에 의해 분리되는 관심 유전자좌에 의해 발생한다.
염색체와 같은 세그먼트가 재배열된 핵산 분자의 생성 및 서열결정, 예컨대 긴 판독물 서열결정을 통한 핵산 서열 데이터의 정확한 페이징과 관련된 방법, 조성물 및 시스템이 본원에 개시된다.
제1 DNA 분자로부터 긴 거리 페이즈 정보를 생성하는 방법이 본원에서 개시되고, 이 방법은 a) 제1 세그먼트 및 제2 세그먼트를 갖는 제1 DNA 분자를 제공하는 단계로서, 상기 제1 세그먼트 및 제2 세그먼트가 제1 DNA 분자 상에서 인접하지 않는 것인 단계; b) 제1 세그먼트 및 제2 세그먼트가 제1 DNA 분자의 공통 포스포디에스테르 골격과 독립적으로 DNA 결합 모이어티(moiety)에 결합되도록 제1 DNA 분자를 DNA 결합 모이어티에 접촉시키는 단계; c) 제1 세그먼트 및 제2 세그먼트가 공통 포스포디에스테르 골격에 의해 연결되지 않도록 제1 DNA 분자를 절단하는 단계; d) 제1 세그먼트를 포스포디에스테르 결합을 통해 제2 세그먼트에 부착시켜 재어셈블된 제1 DNA 분자를 형성하는 단계; 및 e) 단일 서열결정 판독에서 제1 세그먼트와 제2 세그먼트 사이의 접합부를 포함하는 재어셈블된 제1 DNA 분자의 적어도 4 kb의 연속적인 서열을 서열결정하는 단계를 포함하고; 상기 제1 세그먼트 서열 및 제2 세그먼트 서열은 제1 DNA 분자로부터의 긴 거리 페이즈 정보를 나타낸다. 일부 측면에서, DNA 결합 모이어티는 DNA 결합 단백질과 같은 다수의 DNA 결합 분자를 포함한다. 일부 측면에서, DNA 결합 단백질의 집단은 광범위하게 핵산, 뉴클레오솜, 또는 일부 경우에, 보다 구체적으로 히스톤을 포함한다. 일부 측면에서, 제1 DNA 분자를 다수의 DNA 결합 모이어티에 접촉시키는 단계는 DNA 결합 나노입자의 집단에 접촉시키는 단계를 포함한다. 종종, 제1 DNA 분자는 제1 DNA 분자 상에서 제1 세그먼트 또는 제2 세그먼트에 인접하지 않는 제3 세그먼트를 갖고, 여기서 (b)에서의 접촉은 제3 세그먼트가 제1 DNA 분자의 공통 포스포디에스테르 골격과 독립적으로 DNA 결합 모이어티에 결합되도록 수행되고, (c)에서의 절단은 제3 세그먼트가 공통 포스포디에스테르 골격에 의해 제1 세그먼트 및 제2 세그먼트에 연결되지 않도록 수행되고, 부착은 제3 세그먼트를 포스포디에스테르 결합을 통해 제2 세그먼트에 부착시켜 재어셈블된 제1 DNA 분자를 형성하는 것을 포함하고, (e)에서 서열결정된 연속적인 서열은 단일 서열결정 판독에서 제2 세그먼트와 제3 세그먼트 사이에 접합부를 포함한다. 상기 방법은 종종 제1 DNA 분자를 포름알데히드와 같은 가교결합제에 접촉시키는 단계를 포함한다. 일부 측면에서, DNA 결합 모이어티는 다수의 DNA 결합 모이어티를 포함하는 표면에 결합된다. 일부 측면에서, DNA 결합 모이어티는 비드를 포함하는 고체 프레임워크에 결합된다. 일부 측면에서, 제1 DNA 분자를 절단하는 것은 제한 엔도뉴클레아제, 예컨대 비특이적 엔도뉴클레아제, 태그 부가(tagmentation) 효소 또는 트랜스포사제에 대한 접촉을 포함한다. 일부 측면에서, 제1 DNA 분자를 절단하는 단계는 제1 분자를 전단하는 단계를 포함한다. 선택적으로, 상기 방법은 적어도 하나의 노출된 말단부에 태그를 부가하는 단계를 포함한다. 예시적인 태그는 표지된 염기, 메틸화된 염기, 비오티닐화된 염기, 우리딘, 또는 임의의 다른 비표준(noncanonical) 염기를 포함한다. 일부 측면에서, 태그는 평활 말단의 노출된 말단부를 생성한다. 일부 측면에서, 상기 방법은 적어도 하나의 염기를 제1 세그먼트 점착성(sticky) 말단부의 오목(recessed) 가닥에 부가하는 것을 포함한다. 일부 측면에서, 상기 방법은 제1 세그먼트 점착성 말단부에 어닐링하는 오버행(overhang)을 포함하는 링커 올리고를 부가하는 것을 포함한다. 일부 측면에서, 링커 올리고는 제1 세그먼트 점착성 말단부에 어닐링하는 오버행 및 제2 세그먼트 점착성 말단부에 어닐링하는 오버행을 포함한다. 일부 측면에서, 링커 올리고는 2개의 5' 포스페이트 모이어티를 포함하지 않는다. 일부 측면에서, 부착은 라이게이팅을 포함한다. 일부 측면에서, 부착은 DNA 단일 가닥 닉(nick) 복구를 포함한다. 일부 측면에서, 제1 세그먼트 및 제2 세그먼트는 제1 DNA 분자를 절단하기 전에 제1 DNA 분자 상에서 적어도 10 kb만큼 분리되어 있다. 일부 측면에서, 제1 세그먼트 및 제2 세그먼트는 제1 DNA 분자를 절단하기 전에 제1 DNA 분자 상에서 적어도 15 kb만큼 분리되어 있다. 일부 측면에서, 제1 세그먼트 및 제2 세그먼트는 제1 DNA 분자를 절단하기 전에 제1 DNA 분자 상에서 적어도 30 kb만큼 분리되어 있다. 일부 측면에서, 제1 세그먼트 및 제2 세그먼트는 제1 DNA 분자를 절단하기 전에 제1 DNA 분자 상에서 적어도 50 kb만큼 분리되어 있다. 일부 측면에서, 제1 세그먼트 및 제2 세그먼트는 제1 DNA 분자를 절단하기 전에 제1 DNA 분자 상에서 적어도 100 kb만큼 분리되어 있다. 일부 측면에서, 서열결정은 단일 분자 긴 판독물 서열결정을 포함한다. 일부 측면에서, 긴 판독물 서열결정은 적어도 5 kb의 판독을 포함한다. 일부 측면에서, 긴 판독물 서열결정은 적어도 10 kb의 판독을 포함한다. 일부 측면에서, 제1 재어셈블된 DNA 분자는 제1 DNA 분자의 한 말단부에서 5' 말단부를 3' 말단부에 연결하는 헤어핀 모이어티를 포함한다. 일부 측면에서, 상기 방법은 제1 DNA 분자의 제2 재어셈블된 버전을 서열결정하는 단계를 포함한다. 일부 측면에서, 제1 세그먼트 및 제2 세그먼트는 각각 적어도 500 bp이다. 일부 측면에서, 제1 세그먼트, 제2 세그먼트 및 제3 세그먼트는 각각 적어도 500 bp이다.
게놈 어셈블리의 방법이 본원에서 개시되고, 상기 방법은 a) 구조에 복합체화된 제1 DNA 분자를 수득하는 단계; b) 제1 DNA 분자를 절단하여 제1 노출 말단부 및 제2 노출 말단부를 형성하는 단계로서, 제1 노출 말단부 및 제2 노출 말단부는 상기 절단 전에 분자 상에서 인접하지 않는 것인 단계; c) 제1 DNA 분자를 절단하여 제3 노출 말단부 및 제4 노출 말단부를 형성하고, 제3 노출 말단부 및 제4 노출 말단부는 상기 절단 전에 분자 상에서 인접하지 않는 것인 단계; d) 상기 제1 노출 말단부 및 상기 제2 노출 말단부를 부착하여 제1 접합부를 형성하는 단계; e) 상기 제3 노출 말단부 및 상기 제4 노출 말단부를 부착하여 제2 접합부를 형성하는 단계; f) 단일 서열결정 판독에서 상기 제1 접합부 및 상기 제2 접합부에 걸쳐 서열결정하는 단계; g) 상기 제1 접합부의 제1 측면 상의 서열을 상기 다수의 콘티그(contig)의 제1 콘티그에 매핑하는 단계; h) 상기 제1 접합부의 제2 측면 상의 서열을 상기 다수의 콘티그의 제2 콘티그에 매핑하는 단계; i) 상기 제2 접합부의 제1 측면 상의 서열을 상기 다수의 콘티그의 제2 콘티그에 매핑하는 단계; j) 상기 제2 접합부의 제2 측면 상의 서열을 상기 다수의 콘티그의 제3 콘티그에 매핑하는 단계; 및 k) 상기 제1 콘티그, 상기 제2 콘티그 및 상기 제3 콘티그를 게놈 어셈블리의 공통 페이즈에 할당하는 단계를 포함한다. 일부 측면에서, 상기 다수의 콘티그는 샷건(shotgun) 서열 데이터로부터 생성된다. 일부 측면에서, 상기 다수의 콘티그는 단일 분자 긴 판독물 데이터로부터 생성된다. 일부 측면에서, 상기 단일 분자 긴 판독물 데이터는 상기 다수의 콘티그를 포함한다. 일부 측면에서, 상기 다수의 콘티그는 상기 제1 접합부 및 상기 제2 접합부에 걸친 서열결정을 통해 동시에 얻어진다. 일부 측면에서, 상기 마커 올리고에 걸친 서열결정은 적어도 10 kb의 서열결정을 포함한다. 일부 측면에서, 상기 구조는 재구성된 염색질을 형성하기 위해 제1 DNA 분자에 결합된 DNA 결합 모이어티의 집단을 포함한다. 일부 측면에서, 상기 재구성된 염색질은 가교결합제에 접촉된다. 일부 측면에서, 상기 가교결합제는 포름알데히드를 포함한다. 일부 측면에서, 상기 DNA 결합 모이어티의 집단은 히스톤을 포함한다. 일부 측면에서, 상기 DNA 결합 모이어티의 집단은 나노입자를 포함한다. 일부 측면에서, 상기 구조는 천연 염색질을 포함한다. 일부 측면에서, 제1 노출 말단부 및 제2 노출 말단부는 제1 DNA 분자를 절단하기 전에 제1 DNA 분자 상에서 적어도 10 kb만큼 분리되어 있다. 일부 측면에서, 제1 노출 말단부 및 제2 노출 말단부는 제1 DNA 분자를 절단하기 전에 제1 DNA 분자 상에서 적어도 15 kb만큼 분리되어 있다. 일부 측면에서, 제1 노출 말단부 및 제2 노출 말단부는 제1 DNA 분자를 절단하기 전에 제1 DNA 분자 상에서 적어도 30 kb만큼 분리되어 있다. 일부 측면에서, 제1 노출 말단부 및 제2 노출 말단부는 제1 DNA 분자를 절단하기 전에 제1 DNA 분자 상에서 적어도 50 kb만큼 분리되어 있다. 일부 측면에서, 제1 노출 말단부 및 제2 노출 말단부는 제1 DNA 분자를 절단하기 전에 제1 DNA 분자 상에서 적어도 100 kb만큼 분리되어 있다. 일부 측면에서, 상기 방법은 제1 DNA 분자의 제2 카피를 서열결정하는 단계를 포함한다.
a) 제1 세그먼트; b) 제2 세그먼트; 및 c) 제3 세그먼트를 포함하는 적어도 5 kb의 재배열된 핵산 분자가 본원에서 개시되고; 상기 제1 세그먼트 및 상기 제2 세그먼트는 제1 접합부에서 연결되고; 상기 제2 세그먼트 및 상기 제3 세그먼트는 제2 접합부에서 연결되고; 상기 제1 세그먼트, 상기 제2 세그먼트 및 상기 제3 세그먼트는 비재배열된 핵산 분자에서 적어도 10 kb만큼 분리된 페이즈로 존재하고, 상기 재배열된 핵산 분자의 적어도 70%가 상기 공통적인 비재배열된 핵산 분자에 매핑된다. 일부 측면에서, 제1 세그먼트, 제2 세그먼트 및 제3 세그먼트는 게놈의 공통적인 핵산 분자로부터의 별개의 게놈 핵산 서열을 포함한다. 일부 측면에서, 제1 세그먼트, 제2 세그먼트 및 제3 세그먼트는 재배열된 핵산에서 재배열된 순서로 게놈의 공통적인 분자 내에 존재한다. 일부 측면에서, 상기 핵산 분자의 길이는 적어도 30 kb이다. 일부 측면에서, 상기 핵산은 이중 가닥 말단 단부에 헤어핀 루프를 포함하여, 분자는 30 kb 역위(inverted) 반복체를 포함하는 단일 가닥을 포함한다. 일부 측면에서, 상기 핵산은 이중 가닥 원형 분자이다. 일부 측면에서, 상기 재배열된 핵산 분자의 적어도 80%는 상기 공통적인 비재배열된 핵산 분자에 매핑된다. 일부 측면에서, 상기 재배열된 핵산 분자의 적어도 85%는 상기 공통적인 비재배열된 핵산 분자에 매핑된다. 일부 측면에서, 상기 재배열된 핵산 분자의 적어도 90%는 상기 공통적인 비재배열된 핵산 분자에 매핑된다. 일부 측면에서, 상기 재배열된 핵산 분자의 적어도 95%는 상기 공통적인 비재배열된 핵산 분자에 매핑된다. 일부 측면에서, 상기 재배열된 핵산 분자의 적어도 99%는 상기 공통적인 비재배열된 핵산 분자에 매핑된다. 일부 측면에서, 상기 재배열된 핵산 분자의 세그먼트의 적어도 80%는 상기 공통적인 비재배열된 핵산 분자에 매핑된다. 일부 측면에서, 상기 재배열된 핵산 분자의 세그먼트의 적어도 85%는 상기 공통적인 비재배열된 핵산 분자에 매핑된다. 일부 측면에서, 상기 재배열된 핵산 분자의 세그먼트의 적어도 90%는 상기 공통적인 비재배열된 핵산 분자에 매핑된다. 일부 측면에서, 상기 재배열된 핵산 분자의 세그먼트의 적어도 95%는 상기 공통적인 비재배열된 핵산 분자에 매핑된다. 일부 측면에서, 상기 재배열된 핵산 분자의 세그먼트의 적어도 99%는 상기 공통적인 비재배열된 핵산 분자에 매핑된다. 일부 측면에서, 재배열된 핵산은 본원에서 개시되는 임의의 방법의 단계에 의해 생성된다.
샘플 핵산 분자의 페이징된 서열을 생성하는 방법이 본원에서 개시되고, 상기 방법은 a) 샘플 핵산 분자로부터 본원에서 개시되는 제1 재배열된 핵산 분자를 생성하는 단계; b) 샘플 핵산 분자로부터 본원에서 개시되는 제2 재배열된 핵산 분자를 생성하는 단계; 및 c) 제1 재배열된 핵산 분자 및 제2 재배열된 핵산 분자를 서열결정하는 단계를 포함하고, 여기서 제1 재배열된 핵산 분자 및 제2 재배열된 핵산 분자는 독립적으로 생성된다.
샘플 핵산 분자의 페이징된 서열을 생성하는 방법이 본원에서 개시되고, 상기 방법은 a) 샘플 핵산 분자로부터 본원에서 개시되는 제1 재배열된 핵산 분자를 서열결정하는 단계; b) 샘플 핵산 분자로부터 본원에서 개시되는 제2 재배열된 핵산 분자를 서열결정하는 단계로서, 제1 재배열된 핵산 분자 및 제2 재배열된 핵산 분자가 독립적으로 생성되는 것인 단계; 및 c) 어셈블된 서열이 샘플 핵산 분자의 비재배열된 페이징된 서열이 되도록, 본원에서 개시되는 제1 재배열된 핵산 분자 및 본원에서 개시되는 제2 재배열된 핵산 분자의 서열을 어셈블하는 단계를 포함한다. 일부 측면에서, 제1 재배열된 핵산 분자를 서열결정하는 단계는 적어도 1 kb의 서열 판독을 생성하는 단계를 포함한다. 일부 측면에서, 제1 재배열된 핵산 분자를 서열결정하는 단계는 적어도 2 kb의 서열 판독을 생성하는 단계를 포함한다. 일부 측면에서, 제1 재배열된 핵산 분자를 서열결정하는 단계는 적어도 5 kb의 서열 판독을 생성하는 단계를 포함한다. 일부 측면에서, 상기 방법은 상기 제1 재배열된 분자의 적어도 70%를 단일 게놈 분자의 공통 페이즈에 할당하는 단계를 포함한다. 일부 측면에서, 상기 방법은 상기 제2 재배열된 분자의 적어도 70%를 단일 게놈 분자의 공통 페이즈에 할당하는 단계를 포함한다. 일부 측면에서, 상기 방법은 상기 제1 재배열된 분자의 적어도 80%를 단일 게놈 분자의 공통 페이즈에 할당하는 단계를 포함한다. 일부 측면에서, 상기 방법은 상기 제2 재배열된 분자의 적어도 80%를 단일 게놈 분자의 공통 페이즈에 할당하는 단계를 포함한다. 일부 측면에서, 상기 방법은 상기 제1 재배열된 분자의 적어도 90%를 단일 게놈 분자의 공통 페이즈에 할당하는 단계를 포함한다. 일부 측면에서, 상기 방법은 상기 제2 재배열된 분자의 적어도 90%를 단일 게놈 분자의 공통 페이즈에 할당하는 단계를 포함한다. 일부 측면에서, 상기 방법은 상기 제1 재배열된 분자의 적어도 95%를 단일 게놈 분자의 공통 페이즈에 할당하는 단계를 포함한다. 일부 측면에서, 상기 방법은 상기 제2 재배열된 분자의 적어도 95%를 단일 게놈 분자의 공통 페이즈에 할당하는 단계를 포함한다.
긴 판독물 서열 데이터를 페이징하는 방법이 본원에서 개시되고, 상기 방법은 a) 본원에서 개시되는 임의의 핵산 샘플로부터 서열 데이터를 얻는 단계; b) 본원에서 개시되는 임의의 재배열된 핵산으로부터 긴 판독물 서열 데이터를 얻는 단계; c) 재배열된 핵산으로부터의 긴 판독물 서열 데이터를 핵산 샘플로부터의 서열 데이터에 매핑하는 단계; 및 d) 재배열된 핵산으로부터의 긴 판독물 서열 데이터에 매핑된 핵산 샘플로부터의 서열 데이터를 공통 페이즈에 할당하는 단계를 포함한다.
DNA 서열결정 기술에 의해 핵산 샘플로부터 생성된 핵산 데이터세트에 페이즈 정보를 제공하는 방법이 본원에서 개시되고, 상기 방법은 a) DNA 서열결정 기술의 판독 길이보다 더 긴 거리만큼 분리되어 있는 제1 세그먼트 및 제2 세그먼트를 갖는 핵산 샘플의 핵산을 수득하는 단계; b) 제1 세그먼트 및 제2 세그먼트가 DNA 서열결정 기술의 판독 길이보다 더 짧은 거리만큼 분리되도록 핵산을 셔플링하는 단계; c) 제1 세그먼트 및 제2 세그먼트가 DNA 서열결정 기술의 단일 판독으로 나타나도록 DNA 서열결정 기술을 사용하여 셔플링된 핵산을 서열결정하는 단계; 및 d) 제1 세그먼트 서열을 포함하는 데이터세트의 서열 판독 및 제2 세그먼트 서열을 포함하는 데이터세트의 서열 판독을 공통 페이즈에 할당하는 단계를 포함한다. 일부 측면에서, DNA 서열결정 기술은 적어도 10 kb의 판독 길이를 갖는 판독물을 생성한다. 일부 측면에서, 셔플링은 본원에서 개시되는 임의의 방법의 단계를 수행하는 것을 포함한다. 일부 측면에서, 제1 세그먼트 및 제2 세그먼트는 세그먼트 말단부를 마킹하는 링커 올리고에 의해 분리된다.
본원에서 개시되는 다수의 분자로부터 얻은 서열 정보를 포함하는 핵산 서열 데이터베이스가 본원에서 개시되고, 여기서 그의 세그먼트의 70% 미만이 공통 스캐폴드에 매핑되는 분자에 상응하는 서열 정보는 적어도 하나의 분석으로부터 배제된다.
본원에서 개시되는 다수의 분자로부터 얻은 서열 정보를 포함하는 핵산 서열 데이터베이스가 본원에서 개시되고, 여기서 그의 서열의 70% 미만이 공통 스캐폴드에 매핑되는 분자에 상응하는 서열 정보는 적어도 하나의 분석으로부터 배제된다.
긴 판독물 서열 데이터를 페이징하는 방법이 본원에서 개시되고, 상기 방법은 a) 본원에서 개시되는 임의의 핵산 샘플로부터 서열 데이터를 얻는 단계; b) 본원에서 개시되는 임의의 재배열된 핵산의 재배열된 핵산으로부터 긴 판독물 서열 데이터를 얻는 단계; c) 재배열된 핵산의 제1 세그먼트, 제2 세그먼트 및 제3 세그먼트를 핵산 샘플로부터의 서열 데이터에 매핑하는 단계; 및 d) 적어도 2개의 세그먼트가 공통 스캐폴드에 매핑되는 경우, 상기 세그먼트의 서열 변이를 공통 페이즈에 할당하는 단계를 포함한다. 일부 측면에서, 제1 세그먼트는 핵산 샘플로부터의 서열 데이터에 대한 단일 뉴클레오티드 다형성을 포함한다. 일부 측면에서, 제1 세그먼트는 핵산 샘플로부터의 서열 데이터에 대한 삽입을 포함한다. 일부 측면에서, 제1 세그먼트는 핵산 샘플로부터의 서열 데이터에 대한 결실을 포함한다. 일부 측면에서, 상기 방법은 제1 공통 스캐폴드에 매핑되는 제1 세트의 세그멘트를 제1 공통 스캐폴드의 공통 페이즈에 할당하는 단계, 및 제2 공통 스캐폴드에 매핑되는 제2 세트의 세그멘트를 제2 공통 스캐폴드의 공통 페이즈에 할당하는 단계를 포함한다.
핵산 샘플의 핵산 서열 라이브러리가 본원에서 개시되고, 상기 핵산 서열 라이브러리는 평균 판독 길이를 갖는 핵산 서열 판독물의 집단을 포함하고, 상기 판독물 중 적어도 하나는 제1 핵산 세그먼트의 적어도 500개의 염기 및 제2 핵산 세그먼트의 적어도 500개의 염기를 포함하고, 상기 제1 핵산 세그먼트 및 상기 제2 핵산 세그먼트는 상기 핵산 샘플의 공통 분자 상의 상기 평균 판독 길이보다 더 긴 거리만큼 분리되어 있는 페이즈로 발견된다. 일부 측면에서, 상기 제1 핵산 세그먼트 및 상기 제2 핵산 세그먼트는 10 kb보다 더 긴 거리만큼 분리되어 있는 페이즈에서 발견된다. 일부 측면에서, 상기 제1 핵산 세그먼트 및 상기 제2 핵산 세그먼트는 20 kb보다 더 긴 거리만큼 분리되어 있는 페이즈에서 발견된다. 일부 측면에서, 상기 제1 핵산 세그먼트 및 상기 제2 핵산 세그먼트는 50 kb보다 더 긴 거리만큼 분리되어 있는 페이즈에서 발견된다. 일부 측면에서, 상기 제1 핵산 세그먼트 및 상기 제2 핵산 세그먼트는 100 kb보다 더 긴 거리만큼 분리되어 있는 페이즈에서 발견된다. 일부 측면에서, 상기 판독물 중 적어도 하나는 적어도 1 kb의 제1 핵산 세그먼트를 포함한다. 일부 측면에서, 상기 판독물 중 적어도 하나는 적어도 5 kb의 제1 핵산 세그먼트를 포함한다. 일부 측면에서, 상기 판독물 중 적어도 하나는 적어도 10 kb의 제1 핵산 세그먼트를 포함한다. 일부 측면에서, 상기 판독물 중 적어도 하나는 적어도 20 kb의 제1 핵산 세그먼트를 포함한다. 일부 측면에서, 상기 판독물 중 적어도 하나는 적어도 50 kb의 제1 핵산 세그먼트를 포함한다. 일부 측면에서, 핵산 서열 라이브러리는 상기 핵산 샘플의 적어도 80%를 구성한다. 일부 측면에서, 핵산 서열 라이브러리는 상기 핵산 샘플의 적어도 85%를 구성한다. 일부 측면에서, 핵산 서열 라이브러리는 상기 핵산 샘플의 적어도 90%를 구성한다. 일부 측면에서, 핵산 서열 라이브러리는 상기 핵산 샘플의 적어도 95%를 구성한다. 일부 측면에서, 핵산 서열 라이브러리는 상기 핵산 샘플의 적어도 99%를 구성한다. 일부 측면에서, 핵산 서열 라이브러리는 상기 핵산 샘플의 적어도 99.9%를 구성한다.
핵산 샘플의 핵산 서열 라이브러리가 본원에서 개시되고, 상기 핵산 서열 라이브러리는 적어도 약 1 kb의 평균 길이를 갖는 핵산 서열 판독물의 집단을 포함하고, 상기 판독물은 핵산 샘플의 2개의 별개의 같은 페이즈의(in phase) 영역으로부터의 적어도 300개 염기의 서열을 독립적으로 포함하고, 상기 2개의 별개의 같은 페이즈의 영역은 핵산 샘플에서 10 kb 초과의 거리만큼 분리되어 있다. 일부 측면에서, 상기 판독물은 핵산 샘플의 2개의 별개의 같은 페이즈의 영역으로부터의 적어도 500개 염기의 서열을 독립적으로 포함한다. 일부 측면에서, 상기 판독물은 핵산 샘플의 2개의 별개의 같은 페이즈의 영역으로부터의 적어도 1 kb의 서열을 독립적으로 포함한다. 일부 측면에서, 상기 판독물은 핵산 샘플의 2개의 별개의 같은 페이즈의 영역으로부터의 적어도 2 kb의 서열을 독립적으로 포함한다. 일부 측면에서, 상기 판독물은 핵산 샘플의 2개의 별개의 같은 페이즈의 영역으로부터의 적어도 5 kb의 서열을 독립적으로 포함한다. 일부 측면에서, 상기 판독물은 핵산 샘플의 2개의 별개의 같은 페이즈의 영역으로부터의 적어도 10 kb의 서열을 독립적으로 포함한다. 일부 측면에서, 상기 2개의 별개의 같은 페이즈의 영역은 핵산 샘플에서 20 kb 초과의 거리만큼 분리되어 있다. 일부 측면에서, 상기 2개의 별개의 같은 페이즈의 영역은 핵산 샘플에서 30 kb 초과의 거리만큼 분리되어 있다. 일부 측면에서, 상기 2개의 별개의 같은 페이즈의 영역은 판독물의 적어도 1%에서 핵산 샘플에서 50 kb 초과의 거리만큼 분리되어 있다. 일부 측면에서, 상기 2개의 별개의 같은 페이즈의 영역은 판독물의 적어도 1%에서 핵산 샘플에서 100 kb 초과의 거리만큼 분리되어 있다. 일부 측면에서, 핵산 서열 라이브러리는 상기 핵산 샘플의 적어도 80%를 구성한다. 일부 측면에서, 핵산 서열 라이브러리는 상기 핵산 샘플의 적어도 85%를 구성한다. 일부 측면에서, 핵산 서열 라이브러리는 상기 핵산 샘플의 적어도 90%를 구성한다. 일부 측면에서, 핵산 서열 라이브러리는 상기 핵산 샘플의 적어도 95%를 구성한다. 일부 측면에서, 핵산 서열 라이브러리는 상기 핵산 샘플의 적어도 99%를 구성한다. 일부 측면에서, 핵산 서열 라이브러리는 상기 핵산 샘플의 적어도 99.9%를 구성한다.
핵산 샘플로부터 생성된 핵산 라이브러리가 본원에서 개시되고, 여기서 핵산 샘플의 적어도 80%의 핵산 서열이 핵산 라이브러리에 표시되고, 핵산 샘플의 같은 페이즈의 세그먼트의 적어도 하나의 멀리 위치하는 쌍이 단일 서열 판독으로 판독되도록; 상기 라이브러리를 서열결정하는 단계가 핵산 샘플의 적어도 80%에 걸친 콘티그 정보, 및 상기 핵산 샘플의 페이징된 서열을 생성하기 위해 상기 콘티그 정보를 순서대로 정렬하고 배향시키기에 충분한 페이즈 정보를 동시에 생성하도록 핵산 샘플의 같은 페이즈의 서열 세그먼트가 재배열된다. 일부 측면에서, 핵산 샘플의 적어도 90%의 핵산 서열이 핵산 라이브러리에 표시된다. 일부 측면에서, 핵산 샘플의 적어도 95%의 핵산 서열이 핵산 라이브러리에 표시된다. 일부 측면에서, 핵산 샘플의 적어도 99%의 핵산 서열이 핵산 라이브러리에 표시된다. 일부 측면에서, 핵산 샘플의 상기 80%의 핵산 서열은 100,000개 이하의 라이브러리 성분으로부터 수득된다. 일부 측면에서, 핵산 샘플의 상기 80%의 핵산 서열은 10,000개 이하의 라이브러리 성분으로부터 수득된다. 일부 측면에서, 핵산 샘플의 상기 80%의 핵산 서열은 1,000개 이하의 라이브러리 성분으로부터 수득된다. 일부 측면에서, 핵산 샘플의 상기 80%의 핵산 서열은 500개 이하의 라이브러리 성분으로부터 수득된다. 일부 측면에서, 샘플은 게놈 샘플이다. 일부 측면에서, 샘플은 진핵생물의 게놈 샘플이다. 일부 측면에서, 샘플은 식물 게놈 샘플이다. 일부 측면에서, 샘플은 동물 게놈 샘플이다. 일부 측면에서, 샘플은 포유동물 게놈 샘플이다. 일부 측면에서, 샘플은 단세포 진핵생물 게놈 샘플이다. 일부 측면에서, 샘플은 인간 게놈 샘플이다. 일부 측면에서, 핵산 라이브러리는 페이즈 정보를 보존하기 위해 바코드화(barcoding)되지 않는다. 일부 측면에서, 상기 라이브러리의 판독은 제1 영역으로부터의 적어도 1 kb의 서열, 및 제1 영역과 같은 페이즈로 존재하고 샘플에서 제1 영역으로부터 50 kb 초과의 거리만큼 분리되어 있는 제2 영역으로부터의 적어도 100개 염기의 서열을 포함한다.
서열결정 장치에서 서열결정하기 위한 핵산 분자를 구성하는 방법이 본원에서 개시되고, 여기서 핵산 분자는 적어도 100 kb의 서열을 포함하고, 상기 적어도 100 kb의 서열은 서열결정 장치의 판독 길이보다 더 긴 길이만큼 분리되어 있는 제1 세그먼트 및 제2 세그먼트를 포함하고, 상기 방법은 제1 세그먼트 및 제2 세그먼트가 서열결정 장치의 판독 길이보다 더 짧은 길이만큼 분리되도록 핵산 분자의 제2 세그먼트에 대한 제1 세그먼트의 상대적인 위치를 변경하는 단계를 포함하고, 여기서 제1 세그먼트 및 제2 세그먼트에 대한 페이즈 정보는 유지되고; 10% 이하의 핵산 분자가 결실된다. 일부 측면에서, 상기 방법은 제1 세그먼트 및 제2 세그먼트의 적어도 일부에 걸친 판독을 생성하는 단계를 포함한다. 일부 측면에서, 상기 방법은 제1 세그먼트 및 제2 세그먼트를 핵산 분자의 서열의 공통 페이즈에 할당하는 단계를 포함한다. 일부 측면에서, 5% 이하의 핵산 분자가 결실된다. 일부 측면에서, 1% 이하의 핵산 분자가 결실된다. 일부 측면에서, 제1 세그먼트 및 제2 세그먼트는 구성 전에 핵산 분자에서 적어도 10 kb만큼 분리되어 있다. 일부 측면에서, 제1 세그먼트 및 제2 세그먼트는 구성 전에 핵산 분자에서 적어도 50 kb만큼 분리되어 있다. 일부 측면에서, 제1 세그먼트 및 제2 세그먼트는 상기 구성 후에 접합 마커에 의해 분리된다. 일부 측면에서, 상기 방법은 핵산의 말단부에 스템 루프를 부착시킴으로써, 분자를 단일 가닥으로 전환하는 단계를 포함한다. 일부 측면에서, 상기 방법은 핵산 분자를 고리화하는 단계를 포함한다. 일부 측면에서, 상기 방법은 핵산 분자를 DNA 폴리머라제에 부착시키는 단계를 포함한다. 일부 측면에서, 상기 방법은 제1 세그먼트 및 제2 세그먼트가 포스포디에스테르 골격과는 독립적으로 함께 유지되도록 핵산 분자를 결합시키는 단계; 적어도 2개의 위치에서 제1 세그먼트와 제2 세그먼트 사이에서 포스포디에스테르 골격을 절단하는 단계; 및 제1 세그먼트와 제2 세그먼트가 서열결정 장치의 판독 길이보다 더 짧은 길이만큼 분리되도록 제1 세그먼트를 제2 세그먼트에 재부착시키는 단계를 포함한다. 일부 측면에서, 상기 절단 및 상기 재부착은 상기 핵산 분자로부터 서열 정보의 손실을 유발하지 않는다.
제1 핵산 분자로부터의 긴 거리 페이즈 정보를 생성하는 방법이 본원에서 개시되고, 상기 방법은 a) 제1 세그멘트, 제2 세그멘트 및 제3 세그멘트를 갖는 제1 핵산 분자를 포함하는 샘플을 제공하는 단계로서, 여기서 제1 세그멘트, 제2 세그멘트 및 제3 세그멘트 중 어느 것도 제1 핵산 분자 상에서 인접하지 않고, 제1 핵산 분자는 제1 세그먼트, 제2 세그먼트 및 제3 세그먼트가 제1 핵산 분자의 공통 포스포디에스테르 골격과 무관하게 프레임워크에 결합하도록 프레임워크에 접촉되는 것인 단계; b) 제1 세그먼트, 제2 세그먼트 및 제3 세그먼트가 공통 포스포디에스테르 골격에 의해 연결되지 않도록 제1 핵산 분자를 절단하는 단계; c) 제1 세그먼트를 제2 세그먼트에 연결하고 제2 세그먼트를 제3 세그먼트에 연결하는 단계; 및 d) 제1 세그먼트, 제2 세그먼트 및 제3 세그먼트를 포함하는 제1 핵산 분자의 제1 부분을 서열결정함으로써, 제1 세그먼트 서열 정보, 제2 세그먼트 서열 정보 및 제3 세그먼트 서열 정보를 생성하는 단계로서, 여기서 제1 세그먼트 서열 정보, 제2 세그먼트 서열 정보 및 제3 세그먼트 서열 정보는 제1 핵산 분자에 대한 긴 거리 페이즈 정보를 제공하는 것인 단계를 포함한다. 일부 측면에서, 프레임워크는 재구성된 염색질을 포함한다. 일부 측면에서, 프레임워크는 천연 염색질을 포함한다. 일부 측면에서, 절단은 제한 효소를 사용하여 수행된다. 일부 측면에서, 절단은 단편화효소(fragmentase)를 사용하여 수행된다. 일부 측면에서, 상기 방법은 서열결정 전에, 최대 2개의 세그먼트를 포함하는 제1 핵산 분자의 제2 부분을 샘플로부터 제거하는 단계를 추가로 포함한다. 일부 측면에서, 상기 방법은 제1 세그먼트 서열 정보, 제2 세그먼트 서열 정보 및 제3 세그먼트 서열 정보를 사용하여 제1 핵산 분자의 서열을 어셈블하는 단계를 추가로 포함한다.
핵산 분자의 서열결정 방법이 본원에서 개시되고, 이 방법은 a) 공통 포스포디에스테르 골격을 공유하는 제1 세그먼트, 제2 세그먼트 및 제3 세그먼트를 포함하는 제1 핵산 분자를 수득하는 단계로서, 상기 제1 세그먼트, 제2 세그먼트, 및 제3 세그먼트 중 어느 것도 상기 제1 핵산 분자 상에 인접하지 않는 것인 단계; b) 상기 제1 세그먼트, 제2 세그먼트 및 제3 세그먼트가 그들의 공통 포스포디에스테르 골격과 독립적으로 회합되도록 상기 핵산 분자를 분할하는 단계; c) 제1 세그먼트, 제2 세그먼트 및 제3 세그먼트를 연결하는 연속적인 포스포디에스테르 골격이 존재하지 않도록, 상기 핵산 분자를 절단하여 단편을 생성하는 단계; d) 상기 제1 세그먼트, 제2 세그먼트 및 제3 세그먼트가 공통 포스포디에스테르 골격을 공유하는 재배열된 핵산 분자 상에서 연속하도록 상기 단편을 라이게이팅하는 단계; 및 e) 상기 재배열된 핵산 분자의 적어도 5,000개 염기가 단일 판독으로 서열결정되도록 상기 재배열된 핵산 분자의 적어도 일부를 서열결정하는 단계를 포함한다. 일부 측면에서, 분할 단계는 상기 핵산 분자를 결합 모이어티에 접촉시켜, 상기 제1 세그먼트, 제2 세그먼트 및 제3 세그먼트가 그들의 공통 포스포디에스테르 골격과 독립적으로 공통적인 복합체에 결합되도록 하는 단계를 포함한다. 일부 측면에서, 핵산 분자를 다수의 DNA 결합 분자에 접촉시키는 단계는 DNA 결합 단백질의 집단에 접촉시키는 단계를 포함한다. 일부 측면에서, DNA 결합 단백질의 집단은 핵 단백질을 포함한다. 일부 측면에서, DNA 결합 단백질의 집단은 뉴클레오솜을 포함한다. 일부 측면에서, DNA 결합 단백질의 집단은 히스톤을 포함한다. 일부 측면에서, 핵산 분자를 다수의 DNA 결합 모이어티에 접촉시키는 단계는 DNA 결합 나노입자의 집단에 접촉시키는 단계를 포함한다. 일부 측면에서, 핵산 분자를 절단하는 단계는 제한 엔도뉴클레아제에 접촉시키는 단계를 포함한다. 일부 측면에서, 핵산 분자를 절단하는 것은 비특이적 엔도뉴클레아제에 접촉시키는 단계를 포함한다. 일부 측면에서, 핵산 분자를 절단하는 단계는 태그 부가 효소에 접촉시키는 단계를 포함한다. 일부 측면에서, 핵산 분자를 절단하는 단계는 트랜스포사제에 접촉시키는 단계를 포함한다. 일부 측면에서, 핵산 분자를 절단하는 단계는 제1 분자를 전단하는 단계를 포함한다. 일부 측면에서, 분할은 샘플의 다른 핵산 분자로부터 상기 핵산 분자를 분리하는 단계를 포함한다. 일부 측면에서, 분할은 상기 핵산 샘플을 희석하는 단계를 포함한다. 일부 측면에서, 분할은 상기 핵산 분자를 에멀젼의 미세액적(microdroplet) 내에 분배하는 단계를 포함한다.
유기체의 게놈의 게놈 페이즈 정보를 나타내는 핵산 분자가 본원에서 개시되고, 상기 핵산 분자는 단일 게놈 분자에 매핑되는 적어도 20 kb의 핵산 서열 정보를 포함하고, 상기 서열 정보는 게놈 분자 내의 그의 위치에 대해 재배열된 세그먼트를 포함하고, 상기 유기체의 게놈에 특유하게 매핑되는 서열 정보의 적어도 70%는 단일 게놈 분자에 매핑된다. 일부 측면에서, 핵산 분자는 적어도 20개의 세그먼트를 포함한다. 일부 측면에서, 상기 세그멘트는 상기 유기체의 게놈에서 인접하지 않는다.
적어도 20 kb의 적어도 100개의 핵산 분자 성분을 포함하는 핵산 라이브러리가 본원에서 개시되고, 여기서 성분은 유기체의 게놈의 재배열된 세그먼트를 포함하고; 라이브러리 성분으로부터의 특유하게 매핑되는 세그먼트의 적어도 70%는 공통적인 게놈 분자에 매핑되고; 성분은 핵산 결합 모이어티에 결합되지 않는다.
적어도 20 kb의 적어도 100개의 핵산 분자 성분에 상응하는 서열을 포함하는 핵산 데이터세트가 본원에서 개시되고, 여기서 성분은 유기체의 게놈의 적어도 5개의 재배열된 세그먼트를 포함하고, 상기 재배열된 세그멘트의 70% 미만이 공통 스캐폴드에 매핑되는 성분은 하류 분석으로부터 배제된다.
적어도 20 kb의 적어도 100개의 핵산 분자 성분에 상응하는 서열을 포함하는 핵산 데이터세트가 본원에서 개시되고, 여기서 성분은 유기체의 게놈의 적어도 5개의 재배열된 세그먼트를 포함하고, 상기 서열의 70% 미만이 공통 스캐폴드에 특유하게 매핑되는 성분은 하류 분석으로부터 배제된다.
본 개시내용의 신규한 특징은 첨부된 청구 범위에서, 및 본원의 요약 및 상세한 설명에서 상세하게 제시된다. 본 개시내용의 특징 및 이점은 본 개시내용의 원리가 이용되는 예시적인 실시양태를 제시하는 다음의 상세한 설명 및 첨부 도면을 참고로 하여 보다 잘 이해될 것이다.
도 1은 모든 다른 자유 말단부와의 혼성화에 적합한 단일 가닥 오버행을 갖는 많은 자유 말단부를 갖는 소화된 재구성된 염색질 응집체를 도시한 것이다.
도 2는 단일 염기가 채워져서 각각의 단일 가닥 오버행을 재어닐링 및 재라이게이션에 적합하지 않게 만든, 도 1의 소화된 재구성된 염색질 응집체를 도시한 것이다.
도 3은 재구성된 응집체의 변형된 자유 말단부에 적합한 펑츄에이션(punctuation) 올리고뉴클레오티드와 라이게이션된, 도 2의 부분적으로 채워진 소화된 재구성된 염색질 응집체를 도시한 것이다.
도 4는 도 3의 라이게이션 산물, 이어서 DNA 결합 단백질로부터의 방출에 의해 생성된 펑츄에이션된 DNA 분자를 도시한 것이다. 각각의 게놈 세그먼트는 그의 알려진 서열에 의해 확인할 수 있는 펑츄에이션 올리고뉴클레오티드에 의해 묘사된다. 게놈 세그먼트는 모두 재구성된 출발 염색질 응집체에서 투입 분자의 일부 영역을 나타낸다. 따라서, 이 세트에서의 판독은 반수체형 페이징되고, 어셈블리 또는 반수체형 페이즈 재구축을 위해 사용될 수 있다.
도 5는 시카고(Chicago) 쌍의 콘카테머(concatemer) 생성을 도시한 것이다. 상부 패널에서, 시카고 판독 쌍은 소화된 재구성된 염색질 응집체의 비오티닐화된 말단부를 함께 라이게이션함으로써 생성된다(비오티닐화되고 라이게이션 후 절단되는 경우, 도 1의 말단부와 같이). 이들 분자는 스트렙타비딘 코팅된 비드에 포획된다. 이어서, 증폭 어댑터가 첨가된다. 모든 분자는 스트렙타비딘-비드 상청액으로부터 벌크(bulk) 증폭되고 수집된다. 마지막으로, 이들 분자는 긴 판독물 서열결정 기술을 사용하여 판독될 수 있는 긴 분자를 생성하기 위해 함께 벌크 라이게이션된다. 삽입된(embedded) 판독 쌍은 증폭 어댑터를 통해 확인할 수 있다.
도 6은 펑츄에이션된 분자, 예컨대 도 4에 도시된 분자 또는 도 5에서 생성된 긴 분자의 바코드화를 도시한 것이다. 먼저, 바코드 및 펑츄에이션 올리고뉴클레오티드에 대한 역상보체(reverse complement)로 이루어진 바코드화된 올리고뉴클레오티드의 전달을 수행한다. 이어서, 이러한 바코드화된 올리고뉴클레오티드는 생성물이 바코드, 펑츄에이션 서열 및 일부 게놈 서열을 포함하도록 연장된다.
도 7은 라이게이션 단계 전('BF) 및 라이게이션 단계 후('AF')의 두 샘플의 겔 전기영동 분석을 도시한 것으로서, 긴 재배열된 분자를 형성하기 위한 성공적인 라이게이션을 보여준다.
도 8은 재배열된 게놈 라이브러리로부터 얻어진 데이터를 도시한 것이다.
도 9a는 10 kb 빈(bin)으로 분리된 판독물에 의해 걸쳐진 거리의 빈도 분포를 도시한 것이다.
도 9b는 1 kb 빈으로 분리된 판독물에 의해 걸쳐진 거리의 빈도 분포를 도시한 것이다.
도 10은 본 발명의 실행을 위한 컴퓨터 시스템을 도시한 것이다.
긴 판독물 또는 짧은 판독 서열결정 기술을 사용하여 게놈 어셈블리 및 반수체형 페이징을 포함하는 적용을 위한, 페이징되는 판독 세트를 포함하는 판독 세트를 생성하는 방법이 본원에서 개시된다. 핵산 분자는 결합되고(예를 들어, 염색질 구조에서), 내부 말단부를 노출시키기 위해 절단되고, 다른 노출된 말단부에 접합부에 재부착되고, 결합이 해제되고, 서열결정될 수 있다. 이 기술은 다중 서열 세그먼트를 포함하는 핵산 분자를 생산할 수 있다. 핵산 분자 내의 다수의 서열 세그먼트는 그들의 천연 또는 출발 위치 및 배향과 관련하여 재배열되는 동안 보존된 페이즈 정보를 가질 수 있다. 접합부의 어느 한쪽에 있는 서열 세그먼트는 샘플 핵산 분자의 동일한 페이즈로부터 유래된 것으로 자신있게 간주될 수 있다.
고분자량 DNA를 포함하는 핵산 분자는 적어도 하나의 핵산 결합 모이어티에 결합되거나 고정될 수 있다. 예를 들어, 시험관 내 염색질 응집체로 어셈블되고 포름알데히드 처리로 고정된 DNA가 본원의 방법에 적합하다. 핵산 결합 또는 고정 방법은 시험관 내 또는 재구성된 염색질 어셈블리, 천연 염색질, DNA 결합 단백질 응집체, 나노입자, DNA 결합 비드 또는 DNA 결합 물질을 사용하여 코팅된 비드, 중합체, 합성 DNA 결합 분자 또는 다른 고체 또는 실질적으로 고체인 친화성 분자를 포함하고, 이로 제한되지 않는다. 일부 경우에, 비드는 고상의 가역적 고정(SPRI: solid phase reversible immobilization) 비드(예를 들어, Beckman-Coulter Agencourt AMPure XP 비드와 같은 음 하전된 카르복실기를 갖는 비드)이다.
본원에서 설명되는 것과 같은 핵산 결합 모이어티에 결합된 핵산은 서열결정 장치에서 판독 거리보다 더 긴 거리(예를 들어, 10 kb, 50 kb, 100 kb 또는 그 초과)만큼 핵산 분자 상에서 분리된 제1 세그먼트 및 제2 세그먼트를 갖는 핵산 분자가 그의 공통 포스포디에스테르 결합과는 독립적으로 함께 결합되도록 유지될 수 있다. 상기 결합된 핵산 분자의 절단시, 제1 세그먼트 및 제2 세그먼트의 노출된 말단부는 서로 라이게이션될 수 있다. 일부 경우에, 핵산 분자는 고체 표면 상의 결합된 핵산 분자 사이에 거의 또는 전혀 중첩되지 않는 농도로 결합되고, 따라서 절단된 분자의 노출된 내부 말단부는 절단 전에 공통적인 핵산 공급원 상에 같은 페이즈로 존재하는 다른 세그먼트으로부터의 노출된 말단부에만 재라이게이션되거나 재부착될 가능성이 있다. 따라서, DNA 분자는 절단될 수 있고, 절단된 노출된 내부 말단부는 페이즈 정보의 손실 없이, 예를 들어 무작위로 재라이게이션될 수 있다.
결합된 핵산 분자는 임의의 수의 효소적 및 비효소적 방법 중 하나를 통해 내부 말단부를 노출하기 위해 절단될 수 있다. 예를 들어, 핵산 분자는 단일 가닥 오버행을 생성하는 제한 엔도뉴클레아제와 같은 제한 효소를 사용하여 소화될 수 있다. 예를 들어, 다른 제한 엔도뉴클레아제가 고려되지만, MboI 소화가 상기 목적에 적합하다. 제한 엔도뉴클레아제의 목록은 예를 들어 대부분의 분자 생물학 제품 카탈로그에서 볼 수 있다. 핵산 절단을 위한 다른 비제한적인 기술은 트랜스포사제, 태그 부가 효소 복합체, 토포이소머라제, 비특이적 엔도뉴클레아제, DNA 복구 효소, RNA 유도(guided) 뉴클레아제, 단편화효소 또는 다른 효소를 사용하는 것을 포함한다. 예를 들어, 트랜스포사제는 트랜스포사제 전달 올리고뉴클레오티드 서열의 부착에 의해 표시되는 핵산에서 서열 독립적인 파단을 생성하기 위해, 연결되지 않은 좌측 및 우측 경계와 조합하여 사용될 수 있다. 또한, 절단을 생성하기 위해 기계적 수단(예를 들어, 초음파 처리, 전단), 열적 수단(예를 들어, 온도 변화) 또는 전자기적 수단(예를 들어, UV 조사와 같은 방사선 조사)을 비롯한 물리적 수단을 사용할 수 있다.
이 단계에서 핵산의 고정은 초기 분자에 대한 페이즈 정보가 보존되도록, 절단된 핵산 분자 단편을 물리적으로 근접하게 유지할 수 있다. 하나의 핵산 결합 모이어티로부터 유래된 예시적인 생성되는 염색질 응집체가 도 1에 개략적으로 도시된다. 예를 들어 염색질 응집체에 대한 고정의 이점은 포스포디에스테르 골격의 절단시에 그의 페이즈 정보가 손실되지 않도록, 공통적인 핵산 분자의 분리된 영역이 그의 포스포디에스테르 골격과 독립적으로 유지될 수 있다는 것이다. 이러한 이점은 또한 절단 전에 핵산 분자가 부착되는 대체 스캐폴드를 통해 제시된다.
선택적으로, 단일 가닥의 "점착성" 말단부 오버행은 재어닐링 및 재라이게이션을 방지하도록 변형된다. 예를 들어, 점착성 말단부는 하나의 뉴클레오티드 및 폴리머라제를 첨가함으로써 부분적으로 채워진다(도 2). 이러한 방식으로, 전체 단일 가닥 말단부를 채울 수는 없지만, 이전에 상보성인 말단부와의 재라이게이션을 방지하도록 말단부가 변형된다. 5' GATC 5-프라임 오버행을 생성하는 MboI 소화의 예에서, 구아노신 뉴클레오티드 트리포스페이트만 부가된다. 이것은 단지 제1 상보성인 염기("C")의 "G" 채우기이고, 5' GAT 오버행을 생성한다. 이 단계는 자유로운 점착성 말단부를 서로 재라이게이션하기에는 부적합하게 만들지만, 하류 적용을 위해 점착성 말단부를 보존한다. 대안으로, 평활 말단부는 오버행을 완전히 채우기, 평활 말단부 생성 효소를 사용한 제한 소화, 단일 가닥 DNA 엑소뉴클레아제의 처리 또는 비특이적인 절단을 통해 생성된다. 일부 경우에, DNA 분자의 노출된 내부 말단부에 평활 또는 점착성 말단부를 갖는 어댑터 말단부를 부착시키기 위해 트랜스포사제를 사용한다.
선택적으로, "펑츄에이션 올리고뉴클레오티드"가 도입된다(도 3). 상기 펑츄에이션 올리고뉴클레오티드는 절단/재라이게이션 부위를 표시한다. 일부 펑츄에이션 올리고뉴클레오티드는 노출된 핵산 샘플 내부 말단부 상에 생성된 부분적으로 채워진 오버행에 적합한 단일 가닥 오버행을 양 말단부 상에 갖는다. 펑츄에이션 올리고뉴클레오티드의 예가 아래에 제시된다. 일부 경우에, 단일 가닥 오버행을 갖는 이중 가닥 올리고뉴클레오티드는 예를 들어 그의 5' 말단부에서 5' 포스페이트 제거에 의해 변형되어, 라이게이션 동안 콘카테머를 형성할 수 없다. 대안으로, 평활 펑츄에이션 올리고뉴클레오티드가 사용되거나, 또는 절단 부위는 별개의 펑츄에이션 올리고뉴클레오티드를 사용하여 표시되지 않는다. 트랜스포사제가 사용되는 것과 같은 일부 시스템에서, 펑츄에이션은 트랜스포좀 경계 서열의 추가, 이어서 경계 서열의 서로에 대한 또는 펑츄에이션 올리고에 대한 라이게이션을 통해 이루어진다. 예시적인 펑츄에이션 올리고가 아래에 제시된다. 그러나, 서열, 길이, 오버행 존재 또는 서열, 또는 5' 탈인산화와 같은 변형에서 상이한 대체 펑츄에이션 올리고는 본원의 개시내용에 적합하다.
5' ATCACGCGC 3'
3' TGCGCGCTA 5'
일부 경우에, 펑츄에이션 올리고뉴클레오티드의 이중 가닥 영역이 변할 것이다. 펑츄에이션 올리고뉴클레오티드의 관련 특징은 핵산 샘플에 대한 라이게이션을 가능하게 하지만, 선택적으로 자가 라이게이션 또는 콘카테머 형성을 배제한 변형된 오버행의 서열이다. 펑츄에이션 올리고뉴클레오티드는 표적 핵산 분자에서 발생하지 않거나 발생할 가능성이 낮은 서열을 포함하여, 하류 서열 반응에서 쉽게 확인되는 것이 종종 바람직하다. 펑츄에이션 올리고는 선택적으로, 예를 들어 알려진 바코드 서열로 또는 무작위로 생성된 특유한 식별자 서열로 바코드화된다. 특유한 식별자 서열은 핵산 분자 또는 샘플에서 다중 접합부가 동일한 특유한 식별자로 바코드화될 가능성이 매우 낮도록 설계될 수 있다.
절단된 말단부는 예를 들어 리가제 또는 유사한 효소를 사용하여 직접 또는 올리고(예를 들어, 펑츄에이션 올리고)를 통해 서로 부착될 수 있다. 고정된 고분자량 핵산 분자의 자유로운 단일 가닥 말단부가 직접 또는 펑츄에이션 올리고뉴클레오티드에 라이게이션되도록 라이게이션을 진행할 수 있다(도 3). 펑츄에이션 올리고뉴클레오티드는 이용될 경우 2개의 라이게이션 가능한 말단부를 가질 수 있기 때문에,이 라이게이션은 고분자량 핵산 분자의 영역을 함께 효과적으로 연결할 수 있다. 펑츄에이션 없이 2개의 노출된 말단부를 직접 연결하는 방법처럼 2개의 노출된 말단부 사이에 펑츄에이션 서열 또는 분자를 부착시키는 대체 방법을 사용할 수도 있다.
이어서, 핵산은 핵산 결합 모이어티로부터 방출될 수 있다. 시험관 내 염색질 응집체의 경우, 이것은 가교결합을 역전시키거나, 단백질 성분을 소화하거나, 또는 가교결합 및 소화 단백질 성분을 역전시킴으로써 달성될 수 있다. 많은 대안이 또한 고려되지만, 적합한 방법은 프로테이나제 K로 복합체를 처리하는 것이다. 다른 결합 기술의 경우, 링커 분자의 절단 또는 기질의 분해와 같은 적합한 방법이 사용될 수 있다.
상기 기술로부터 생성된 핵산 분자는 다양한 관련 특징을 가질 수 있다. 핵산 분자 내의 서열 세그먼트는 그의 천연 또는 출발 위치 및 배향에 대해 재배열될 수 있지만, 페이즈 정보는 보존된다. 따라서, 접합부의 측면에 있는 서열 세그먼트는 공통적인 샘플 분자의 공통 페이즈에 자신있게 할당될 수 있다. 따라서, 분자 상에서 서로 멀리 떨어져 있는 세그멘트는 상기 기술에 의해 각각의 세그멘트의 일부 또는 전체가 단일 분자 서열결정 장치의 단일 실행에서 서열결정되어 최종 페이즈 할당이 가능하도록 함께 또는 근접하게 위치할 수 있다. 대안으로, 일부 경우에, 원래 인접한 세그먼트가 생성되는 핵산에서 서로 분리될 수 있다. 일부 경우에, 핵산 분자는 적어도 약 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 99.9%, 99.99%, 99.999% 또는 100%의 재라이게이션이 절단 전에 공통적인 핵산 공급원 상에 같은 페이즈로 존재한 세그먼트 사이에 위치하도록 재라이게이션될 수 있다.
생성되는 분자의 또 다른 관련 특징은 일부 경우에 대부분의 또는 모든 원래의 분자 서열이, 최종 펑츄에이션된 또는 재배열된 분자에서 아마도 재배열되지만 보존된다는 것이다. 예를 들어, 일부 경우에 생성되는 분자 또는 분자들을 생성할 때 원래 분자의 1%, 2%, 3%, 4%, 5%, 10%, 15% 또는 20% 이하가 손실된다. 따라서, 페이즈 결정자로서 유용할 뿐만 아니라, 생성된 분자는 원래 분자 서열의 상당 부분을 보유하여, 생성되는 분자는 서열 정보, 예컨대 새로운(de novo) 서열결정에 유용한 콘티그 정보의 생성 또는 이전에 생성된 콘티그 정보의 독립적인 검증을 동시에 수행하기 위해 선택적으로 사용된다.
일부 생성되는 분자의 라이브러리의 또 다른 특징은 절단 접합부가 생성되는 분자 집단의 다수의 구성원에 공통적이지 않다는 것이다. 즉, 동일한 출발 핵산 분자의 상이한 카피는 상이한 패턴의 접합부 및 재배열로 끝날 수 있다. 무작위 절단 접합부는 비특이적인 절단 분자를 사용하거나 또는 제한 엔도뉴클레아제 선택 또는 소화 파라미터의 변형을 통해 생성될 수 있다.
분자 특이적 절단 부위를 갖는 결과는 일부 경우에 펑츄에이션 올리고뉴클레오티드가 과정으로부터 선택적으로 배제되어, 악영향을 미치지 않으면서 '펑츄에이션 분자'의 재셔플링 및 재라이게이션을 수행한다는 것이다. 3개 이상의 재셔플링된 분자의 세그먼트를 정렬함으로써, 절단 부위가 라이브러리의 대다수의 다른 구성원의 부재에 의해 쉽게 확인되는 것을 관찰할 수 있다. 즉, 3개 이상의 재셔플링된 분자가 국부적으로 정렬되는 경우, 세그먼트는 모든 분자에 공통적인 것으로 밝혀질 수 있지만, 세그먼트의 가장자리(edge)는 분자 사이에 다를 수 있다. 세그먼트 국소 서열 유사성이 끝나는 부분을 주목함으로써, '비펑츄에이션된' 재배열된 핵산 분자에서 절단 접합부를 매핑할 수 있다.
생성된 핵산 분자(예를 들어, 도 4 참조)는 예를 들어 긴 판독물 서열결정기에서 서열결정될 수 있다. 생성되는 서열 판독물은 원래의 투입 분자로부터의 핵산 서열과, 사용될 경우 펑츄에이션 올리고 서열이 번갈아 존재하는 세그먼트를 함유한다. 이들 판독물은 펑츄에이션 올리고뉴클레오티드 서열을 사용하여 각각의 판독물로부터 서열 데이터를 분리하기 위해 컴퓨터에 의해 처리되거나, 접합부를 확인하기 위해 다른 방식으로 처리될 수 있다. 각각의 판독물 내의 서열 세그먼트는 단일 투입 고분자량 DNA 분자의 세그먼트일 수 있다. 원래의 핵산 분자는 게놈 서열 또는 그의 일부분, 예컨대 염색체를 포함할 수 있다. 세그먼트 판독물 세트는 원래의 핵산 분자에서는 불연속적이지만, 긴 범위의 반수체형 페이징된 데이터를 나타낼 수 있다. 이 데이터는 새로운 게놈 어셈블리 및 투입 게놈 내의 이형접합성 위치를 페이징하기 위해 사용될 수 있다. 접합부 사이의 서열은 공급원 핵산 샘플에서 인접한 핵산 서열을 나타내는 반면, 접합부를 가로지른 서열은 핵산 샘플에서 같은 페이즈로 존재하지만 인접 세그먼트로부터 배열된 스캐폴드에서 멀리 떨어질 수 있는 핵산 세그먼트를 나타낸다.
접합부는 다양한 방법에 의해 확인될 수 있다. 펑츄에이션 올리고를 사용할 경우, 접합부는 펑츄에이션 올리고 서열을 함유하는 판독물에서 확인될 수 있다. 대안으로, 접합부는 핵산 분자에 대한 제2 서열 공급원(및 바람직하게는 제3 서열 공급원), 예컨대 이전에 생성된 콘티그 서열 데이터세트 또는 독립적으로 유도된 접합부를 갖는 제2의 독립적으로 생성된 DNA 사슬 분자와 비교함으로써 확인될 수 있다. 예를 들어 서열이 정렬될 때 특정 위치에 대한 정렬의 품질 또는 신뢰도는 한 세그먼트가 끝나고 또 다른 세그먼트가 시작되는 위치를 나타낼 수 있다. 제한 효소가 절단을 생성하기 위해 사용되는 경우, 제한 효소 인식 부위를 포함하는 서열은 잠재적으로 접합부를 포함하는지 평가될 수 있다. 예를 들어 핵산이 지지체에 결합되어있는 동안, 일부 제한 효소 인식 부위가 효소에 의해 물리적으로 접근 가능하지 않을 수 있기 때문에, 모든 제한 효소 인식 부위가 접합부를 포함할 수 있는 것은 아님을 유의한다. 통계 정보는 또한 접합부를 확인하기 위해 사용할 수 있고, 예를 들어 접합부 사이의 길이 세그먼트는 특정 평균값이거나 특정 분포를 따르는 것으로 예측될 수 있다.
본원에서의 조작의 이점은 단일 판독물, 예컨대 긴 판독물에서 서열결정에 적합한 거리에서 단일 핵산 분자에 포함되도록 분자의 인접하지 않은 영역을 근접하게 배치하면서 분자 페이즈 정보를 보존할 수 있다는 것이다. 따라서, 하나의 긴 판독물 작동의 거리(예를 들어, 10 kb, 15 kb, 20 kb, 30 kb, 50 kb, 100 kb 또는 그 초과)보다 더 먼 거리만큼 출발 샘플에서 분리된 영역은 긴 범위의 서열결정 반응의 단일 판독에 의해 커버되는 거리 내에 있도록 국소적으로 근접하여 위치한다. 따라서, 원래의 샘플에서 단일 판독을 위한 서열결정 기술의 범위를 초과하는 거리만큼 분리된 영역은 페이즈 보존되고 재배열된 분자에서 단일 반응으로 판독된다.
생성되는 재배열된 분자는 서열결정될 수 있고, 그의 서열 정보는 독립적으로 또는 동시에 생성된 서열 판독물 또는 콘티그 정보에, 또는 알려진 참조 게놈 서열(예를 들어, 인간 게놈의 공지된 서열)에 매핑될 수 있다. 생성되는 재배열된 분자 판독물에 인접한 세그먼트는 같은 페이즈로 존재하는 것으로 추정된다. 따라서, 이들 세그먼트가 이질적인(disparate) 콘티그 또는 긴 범위의 서열 판독물에 매핑되는 경우, 판독물은 서열 어셈블리에서 공통적인 분자의 공통 페이즈에 할당된다.
대안으로, 다수의 독립적으로 생성된 재배열된 분자가 동시에 서열결정되는 경우, 접합부에 의해 분리되지 않은 서열은 샘플 자체에서 연속적이며, 예를 들어 새로운 서열결정뿐만 아니라 페이즈 결정에도 유용한 핵산의 스트레치를 나타내는 것으로 추정되면서, 접합부에 의해 분리된 세그먼트 서열은 같은 페이즈로 존재하는 것으로 추정되도록 상기 분자로부터 단독으로 선택적으로 생성된다. 그러나, 부가적으로 또는 대안으로서, 동시에 서열결정된 다수의 독립적으로 생성된 재배열된 분자는 독립적으로 생성된 스캐폴드 또는 콘티그 정보와 계속 비교될 수 있다.
본원에서 제시되는 방법 및 조성물은 세그먼트가 인접하거나 하나의 판독에 의해 커버되기에 충분히 근접한 재배열되거나 종종 '펑츄에이션된' 분자 내에 인접하지 않은 세그먼트를 제공하면서, 특히 서열결정 기술에서 판독물의 길이(10 kb, 20 kb, 50 kb, 100 kb, 500 kb 또는 그 초과)보다 더 긴 길이만큼 분리된 분자 세그먼트에 대해 긴 범위의 페이즈 정보를 보존할 수 있다.
일부 예에서, 생성되는 재배열된 분자는 서열결정을 위한 천연 분자와 조합된다. 천연 분자는 사용되는 경우, 펑츄에이션 서열의 결여에 의해 정보를 바탕으로 인식되고 활용될 수 있다. 천연 분자는 짧거나 긴 판독 기술을 사용하여 서열결정되고, 그의 어셈블리는 재배열된 분자 또는 라이브러리의 서열결정을 통해 생성된 페이즈 정보 및 세그먼트 서열 정보에 의해 안내된다.
핵산 추출
본원에서 개시내용에 따라 사용하기 적합한 핵산의 추출 및 정제 방법은 관련 기술 분야에 잘 알려져 있다. 예를 들어, 핵산은 페놀, 페놀/클로로포름/이소아밀 알콜, 또는 TRIzol 및 TriReagent를 포함한 유사한 제제를 사용한 유기 추출에 의해 정제된다. 추출 기술의 다른 비제한적인 예는 다음을 포함한다: (1) 자동화된 핵산 추출기, 예를 들어 어플라이드 바이오시스템즈(Applied Biosystems, 미국 캘리포니아주 포스터 시티 소재)로부터 입수할 수 있는 모델 341 DNA 추출기를 사용하거나 사용하지 않으면서, 예를 들어 페놀/클로로포름 유기 시약(Ausubel et al., 1993)을 사용한 유기 추출, 이어서 에탄올 침전; (2) 고정상 흡착 방법(미국 특허 제5,234,809호; Walsh et al., 1991); 및 (3) 염 유도 핵산 침전 방법(Miller et al., (1988), 이러한 침전 방법은 전형적으로 "염석(salting-out)" 방법으로 언급됨). 핵산 단리 및/또는 정제의 또 다른 예는 핵산이 특이적으로 또는 비특이적으로 결합된 자성 입자의 사용, 이어서 자석을 사용한 비드의 단리 및 비드로부터 핵산의 세척 및 용리를 포함한다(예를 들어, 미국 특허 제5,705,628호 참조). 일부 실시양태에서, 상기 단리 방법 전에, 샘플로부터 원하지 않는 단백질의 제거를 돕는 효소 소화 단계, 예를 들어 프로테이나제 K 또는 다른 유사한 프로테아제를 사용한 소화가 선행될 수 있다. 예를 들어, 미국 특허 제7,001,724호를 참조한다. 원하는 경우, RNase 억제제를 용해 버퍼에 첨가할 수 있다. 특정 세포 또는 샘플 유형의 경우, 단백질 변성/소화 단계를 프로토콜에 추가하는 것이 바람직할 수 있다. 정제 방법은 DNA, RNA 또는 둘 모두를 단리하기 위해 진행될 수 있다. DNA 및 RNA 둘 모두가 추출 절차 동안 또는 추출 절차 후에 함께 단리될 때, 추가의 단계를 이용하여 하나 또는 둘 모두를 개별적으로 정제할 수 있다. 예를 들어 크기, 서열, 또는 다른 물리적 또는 화학적 특징에 의한 정제에 의해 추출된 핵산의 하위 분획이 또한 생성될 수 있다. 초기 핵산 단리 단계에 추가하여, 핵산의 정제는 과량의 또는 원하지 않는 시약, 반응물 또는 생성물을 제거하는 것과 같이, 본 개시내용의 방법의 임의의 단계 후에 수행될 수 있다.
핵산 주형 분자는 예를 들어 2003년 10월 9일자로 공개된 미국 특허 출원 공개 US2002/0190663 A1에 기재된 바와 같이 수득할 수 있다. 일반적으로, 핵산은 그 전부가 본원에 참고로 포함된 문헌 [Maniatis, et al., Molecular Cloning: A Laboratory Manual, Cold Spring Harbor, N.Y., pp. 280-281 (1982)]에 기재된 바와 같은 다양한 기술에 의해 생물학적 샘플로부터 추출된다. 일부 경우에, 핵산은 생물학적 샘플로부터 먼저 추출된 후, 시험관 내에서 가교결합될 수 있다. 일부 경우에, 천연 결합 단백질(예를 들어, 히스톤)을 핵산으로부터 추가로 제거할 수 있다. 일부 실시양태에서, 본 개시내용은 예를 들어 조직, 세포 배양물, 체액, 동물 조직, 식물, 박테리아, 진균 또는 바이러스로부터 단리된 DNA를 포함하는 임의의 고분자량 이중 가닥 DNA에 용이하게 적용된다.
일부 실시양태에서, 핵산 주형 분자(예를 들어, DNA 또는 RNA)는 단백질, 지질 및 비주형 핵산과 같은 다양한 다른 성분을 함유하는 생물학적 샘플로부터 단리된다. 핵산 주형 분자는 동물, 식물, 박테리아, 진균 또는 임의의 다른 세포 유기체 또는 바이러스로부터 수득된 임의의 세포 물질로부터 수득될 수 있거나, 인공적으로 합성될 수 있다. 본 개시내용에서 사용하기 위한 생물학적 샘플은 바이러스 입자 또는 제제를 포함한다. 핵산 주형 분자는 유기체로부터 직접 또는 유기체로부터 얻은 생물학적 샘플, 예를 들어 혈액, 소변, 뇌척수액, 정액, 타액, 객담, 대변 및 조직으로부터 얻을 수 있다. 임의의 조직 또는 체액 시료는 본 개시내용의 핵산의 공급원일 수 있다. 핵산 주형 분자는 또한 배양된 세포, 예컨대 1차 세포 배양물 또는 세포주로부터 단리될 수 있다. 그로부터 주형 핵산이 수득되는 세포 또는 조직은 바이러스 또는 다른 세포내 병원체로 감염될 수 있다. 또한, 샘플은 생물학적 시료, cDNA 라이브러리, 바이러스 또는 게놈 DNA에서 추출된 총 RNA일 수 있다. 또한, 샘플은 비세포 기원으로부터 단리된 DNA, 예를 들어 냉동기로부터 증폭/단리된 DNA를 포함할 수 있다.
고분자량 DNA를 포함하는 핵산 분자는 핵산 결합 모이어티에 결합되거나 고정될 수 있다. 예를 들어, 시험관 내 염색질 응집체로 어셈블되고 포름알데히드 처리로 고정된 DNA는 본원의 방법에 적합하다. 핵산 결합 또는 고정 방법은 시험관 내 또는 재구성된 염색질 어셈블리, 천연 염색질, DNA 결합 단백질 응집체, 나노입자, DNA 결합 비드 또는 DNA 결합 물질을 사용하여 코팅된 비드, 중합체, 합성 DNA 결합 분자 또는 다른 고체 또는 실질적으로 고체인 친화성 분자를 포함하고, 이로 제한되지 않는다. 일부 경우에, 비드는 고상의 가역적 고정(SPRI) 비드(예를 들어, Beckman-Coulter Agencourt AMPure XP 비드와 같은 음 하전된 카르복실기를 갖는 비드)이다.
핵산, 예컨대 본원에서 설명되는 것과 같은 핵산 결합 모이어티에 결합된 핵산은 서열결정 장치에서 판독 거리보다 더 긴 거리(예를 들어, 10 kb, 50 kb, 100 kb 또는 그 초과)만큼 핵산 분자 상에서 분리된 제1 세그먼트 및 제2 세그먼트를 갖는 핵산 분자가 그의 공통 포스포디에스테르 결합과는 독립적으로 함께 결합되도록 유지될 수 있다. 상기 결합된 핵산 분자의 절단시, 제1 세그먼트 및 제2 세그먼트의 노출된 말단부는 서로 라이게이션될 수 있다. 일부 경우에, 핵산 분자는 고체 표면 상의 결합된 핵산 분자 사이에 거의 또는 전혀 중첩되지 않는 농도로 결합되고, 따라서 절단된 분자의 노출된 내부 말단부는 절단 전에 공통적인 핵산 공급원 상에 같은 페이즈로 존재하는 다른 세그먼트으로부터의 노출된 말단부에만 재라이게이션되거나 재부착될 가능성이 있다. 따라서, DNA 분자는 절단될 수 있고, 절단된 노출된 내부 말단부는 페이즈 정보의 손실 없이, 예를 들어 무작위로 재라이게이션될 수 있다. 일부 경우에, 핵산 분자는 적어도 약 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 99.9%, 99.99%, 99.999% 또는 100%의 재라이게이션이 절단 전에 공통적인 핵산 공급원 상에 같은 페이즈로 존재한 세그먼트 사이에 위치하도록 재라이게이션될 수 있다.
일부 경우에, 표면 상의 결합된 핵산의 표면 밀도는 결합에 이용 가능한 표면적의 양을 통해 제어된다. 예를 들어, 핵산 결합에 사용되는 비드의 크기 선택은 핵산 사이의 거리 또는 결합된 핵산의 평균 표면 밀도에 영향을 주거나 제어할 수 있다. 큰 비드 표면은 결합된 핵산 사이의 거리를 더 멀게 할 수 있다. 이것은 핵산 또는 핵산 복합체 사이의 분자간 라이게이션 사건의 비율을 감소시킬 수 있다. 사용되는 비드의 직경은 약 100 나노 미터(nm), 200 nm, 300 nm, 400 nm, 500 nm, 600 nm, 700 nm, 800 nm, 900 nm, 1 마이크로미터(㎛), 1.1 ㎛, 1.2 ㎛, 1.3 ㎛, 1.4 ㎛, 1.5 ㎛, 1.6 ㎛, 1.7 ㎛, 1.8 ㎛, 1.9 ㎛, 2 ㎛, 3 ㎛, 4 ㎛, 5 ㎛, 6 ㎛, 7 ㎛, 8 ㎛, 9 ㎛, 10 ㎛, 11 ㎛, 12 ㎛, 13 ㎛, 14 ㎛, 15 ㎛, 16 ㎛, 17 ㎛, 18 ㎛, 19 ㎛, 20 ㎛, 21 ㎛, 22 ㎛, 23 ㎛, 24 ㎛, 25 ㎛, 26 ㎛, 27 ㎛, 28 ㎛, 29 ㎛, 30 ㎛, 31 ㎛, 32 ㎛, 33 ㎛, 34 ㎛, 35 ㎛, 36 ㎛, 37 ㎛, 38 ㎛, 39 ㎛, 40 ㎛, 41 ㎛, 42 ㎛, 43 ㎛, 44 ㎛, 45 ㎛, 46 ㎛, 47 ㎛, 48 ㎛, 49 ㎛, 50 ㎛, 55 ㎛, 60 ㎛, 65 ㎛, 70 ㎛, 75 ㎛, 80 ㎛, 85 ㎛, 90 ㎛, 95 ㎛, 100 ㎛, 200 ㎛, 300 ㎛, 400 ㎛, 500 ㎛, 600 ㎛, 700 ㎛, 800 ㎛, 900 ㎛, 또는 1 밀리미터(mm)일 수 있다. 사용되는 비드의 직경은 적어도 약 100 나노미터(nm), 200 nm, 300 nm, 400 nm, 500 nm, 600 nm, 700 nm, 800 nm, 900 nm, 1 마이크로미터(㎛), 1.1 ㎛, 1.2 ㎛, 1.3 ㎛, 1.4 ㎛, 1.5 ㎛, 1.6 ㎛, 1.7 ㎛, 1.8 ㎛, 1.9 ㎛, 2 ㎛, 3 ㎛, 4 ㎛, 5 ㎛, 6 ㎛, 7 ㎛, 8 ㎛, 9 ㎛, 10 ㎛, 11 ㎛, 12 ㎛, 13 ㎛, 14 ㎛, 15 ㎛, 16 ㎛, 17 ㎛, 18 ㎛, 19 ㎛, 20 ㎛, 21 ㎛, 22 ㎛, 23 ㎛, 24 ㎛, 25 ㎛, 26 ㎛, 27 ㎛, 28 ㎛, 29 ㎛, 30 ㎛, 31 ㎛, 32 ㎛, 33 ㎛, 34 ㎛, 35 ㎛, 36 ㎛, 37 ㎛, 38 ㎛, 39 ㎛, 40 ㎛, 41 ㎛, 42 ㎛, 43 ㎛, 44 ㎛, 45 ㎛, 46 ㎛, 47 ㎛, 48 ㎛, 49 ㎛, 50 ㎛, 55 ㎛, 60 ㎛, 65 ㎛, 70 ㎛, 75 ㎛, 80 ㎛, 85 ㎛, 90 ㎛, 95 ㎛, 100 ㎛, 200 ㎛, 300 ㎛, 400 ㎛, 500 ㎛, 600 ㎛, 700 ㎛, 800 ㎛, 900 ㎛, 또는 1 밀리미터(mm)일 수 있다. 사용되는 비드의 직경은 최대 약 100 나노미터(nm), 200 nm, 300 nm, 400 nm, 500 nm, 600 nm, 700 nm, 800 nm, 900 nm, 1 마이크로미터(㎛), 1.1 ㎛, 1.2 ㎛, 1.3 ㎛, 1.4 ㎛, 1.5 ㎛, 1.6 ㎛, 1.7 ㎛, 1.8 ㎛, 1.9 ㎛, 2 ㎛, 3 ㎛, 4 ㎛, 5 ㎛, 6 ㎛, 7 ㎛, 8 ㎛, 9 ㎛, 10 ㎛, 11 ㎛, 12 ㎛, 13 ㎛, 14 ㎛, 15 ㎛, 16 ㎛, 17 ㎛, 18 ㎛, 19 ㎛, 20 ㎛, 21 ㎛, 22 ㎛, 23 ㎛, 24 ㎛, 25 ㎛, 26 ㎛, 27 ㎛, 28 ㎛, 29 ㎛, 30 ㎛, 31 ㎛, 32 ㎛, 33 ㎛, 34 ㎛, 35 ㎛, 36 ㎛, 37 ㎛, 38 ㎛, 39 ㎛, 40 ㎛, 41 ㎛, 42 ㎛, 43 ㎛, 44 ㎛, 45 ㎛, 46 ㎛, 47 ㎛, 48 ㎛, 49 ㎛, 50 ㎛, 55 ㎛, 60 ㎛, 65 ㎛, 70 ㎛, 75 ㎛, 80 ㎛, 85 ㎛, 90 ㎛, 95 ㎛, 100 ㎛, 200 ㎛, 300 ㎛, 400 ㎛, 500 ㎛, 600 ㎛, 700 ㎛, 800 ㎛, 900 ㎛, 또는 1 밀리미터(mm)일 수 있다.
핵산 결합 모이어티 복합체 형성
핵산은 핵산 분자의 절단 후에 페이즈 정보를 보존하기 위해 핵산 결합 모이어티에 결합될 수 있다. 많은 핵산 결합 모이어티는 본원의 개시 내용에 적합한 스캐폴드를 형성한다. 본원의 개시내용에 적합한 일부 모이어티는 페이즈 정보가 핵산 분자의 절단 및 재라이게이션시 손실되지 않도록 여러 지점에서 핵산에 결합한다.
일부 경우에, 핵산 결합 모이어티는 염색질을 형성하는 히스톤과 같은 단백질의 카테고리이거나 이 카테고리를 포함한다. 염색질은 재구성된 염색질 또는 천연 염색질일 수 있다. 일부 경우에, 핵산 결합 모이어티는 마이크로어레이, 슬라이드, 칩, 마이크로웰, 컬럼, 튜브, 입자 또는 비드와 같은 고체 지지체 상에 분포된다. 일부 예에서, 고체 지지체는 스트렙타비딘 및/또는 아비딘으로 코팅된다. 다른 예에서, 고체 지지체는 항체로 코팅된다. 또한, 고체 지지체는 추가로 또는 대안으로 유리, 금속, 세라믹 또는 중합체 물질을 포함할 수 있다. 일부 실시양태에서, 고체 지지체는 핵산 마이크로어레이(예를 들어, DNA 마이크로어레이)이다. 다른 실시양태에서, 고체 지지체는 상자성 비드일 수 있다.
일부 경우에, DNA 샘플은 다수의 회합 분자에 가교결합된다. 다양한 경우에, 회합 분자는 아미노산을 포함한다. 많은 경우에, 회합 분자는 펩티드 또는 단백질을 포함한다. 추가의 경우에, 회합 분자는 히스톤을 포함한다. 다른 경우에, 회합 분자는 나노입자를 포함한다. 일부 경우에, 나노입자는 백금계 나노입자이다. 다른 경우에, 나노입자는 DNA 인터컬레이터(intercalator) 또는 그의 임의의 유도체이다. 추가의 경우에, 나노입자는 비스인터컬레이터 또는 그의 임의의 유도체이다. 특정 경우에, 회합 분자는 제1 DNA 분자와 상이한 공급원에서 유래된다. 가교결합은 본원에서 개시되는 프로토콜의 일부로서 수행될 수 있거나, 또는 이전에 수행될 수 있다. 예를 들어, 이전에 고정된 샘플(예를 들어, 포르말린 고정된 파라핀 포매된(FFPE: formalin-fixed paraffin-embedded)) 샘플은 본 개시내용의 기술을 사용하여 처리하고 분석할 수 있다.
구조체를 형성하는 핵산 결합 모이어티의 예는 재구성된 염색질이다. 재구성된 염색질은 다양한 특징을 통해 세포/유기체 내에서 형성된 염색질과 구별된다. 먼저, 재구성된 염색질은 일부 경우에 단리된 네이키드(naked) DNA에서 생성된다. 많은 샘플에서, 네이키드 DNA 샘플의 수집은 체액 수집, 구강 또는 직장 내에서의 면봉에 의한 샘플 채취, 상피 샘플 채취 등과 같은 다양한 비침습적 방법 및 침습적 방법 중 임의의 하나를 사용하여 수행된다. 이러한 방법은 일반적으로 천연 염색질의 단리보다 더 쉽고, 더 신속하며, 더 저렴하다.
둘째로, 염색질 재구성은 게놈 어셈블리 및 반수체형 페이징을 위한 인공물을 생성하는 염색체간 및 다른 긴 범위의 상호작용의 형성을 실질적으로 감소시킨다. 일부 경우에, 샘플은 본 개시내용의 방법 및 조성물에 따라 약 30, 29, 28, 27, 26, 25, 24, 23, 22, 21, 20, 19, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1, 0.5, 0.4, 0.3, 0.2, 0.1, 0.01, 0.001% 또는 그 미만보다 작은 염색체간 또는 분자간 가교결합을 갖는다. 일부 예에서, 샘플은 약 30% 미만의 염색체간 또는 분자간 가교결합을 갖는다. 일부 예에서, 샘플은 약 25% 미만의 염색체간 또는 분자간 가교결합을 갖는다. 일부 예에서, 샘플은 약 20% 미만의 염색체간 또는 분자간 가교결합을 갖는다. 일부 예에서, 샘플은 약 15% 미만의 염색체간 또는 분자간 가교결합을 갖는다. 일부 예에서, 샘플은 약 10% 미만의 염색체간 또는 분자간 가교결합을 갖는다. 일부 예에서, 샘플은 약 5% 미만의 염색체간 또는 분자간 가교결합을 갖는다. 일부 예에서, 샘플은 약 3% 미만의 염색체간 또는 분자간 가교결합을 가질 수 있다. 추가의 예에서, 샘플은 약 1% 미만의 염색체간 또는 분자간 가교결합을 가질 수 있다. 염색체간 상호작용은 같은 페이즈로 존재하지 않는 분자 세그먼트 사이의 상호작용을 나타내기 때문에, 그의 감소 또는 제거는 본 개시내용의 일부 목적, 즉 페이징된 단계적 핵산 정보의 효율적이고 신속한 어셈블리에 유리하다.
셋째로, 가교결합할 수 있는 부위의 빈도, 및 따라서 폴리뉴클레오티드 내의 분자내 가교결합의 빈도가 조절 가능하다. 예를 들어, 히스톤에 대한 DNA의 비율은 뉴클레오솜 밀도가 원하는 값으로 조절될 수 있도록 다양할 수 있다. 일부 경우에, 뉴클레오솜 밀도는 생리학적 수준 미만으로 감소한다. 따라서, 가교결합의 분포는 긴 범위의 상호작용에 유리하도록 변경될 수 있다. 일부 실시양태에서, 가변 가교결합 밀도를 갖는 하위 샘플은 짧은 범위 및 긴 범위의 회합 둘 모두를 포함하도록 준비될 수 있다.
예를 들어, 가교결합 조건은 적어도 약 1%, 약 2%, 약 3%, 약 4%, 약 5%, 약 6%, 약 7%, 약 8%, 약 9%, 약 10%, 약 11%, 약 12%, 약 13%, 약 14%, 약 15%, 약 16%, 약 17%, 약 18%, 약 19%, 약 20%, 약 25%, 약 30%, 약 40%, 약 45%, 약 50%, 약 60%, 약 70%, 약 80%, 약 90%, 약 95% 또는 약 100%의 가교결합이 샘플 DNA 분자 상에서 적어도 약 50 kb, 약 60 kb, 약 70 kb, 약 80 kb, 약 90 kb, 약 100 kb, 약 110 kb, 약 120 kb, 약 130 kb, 약 140 kb, 약 150 kb, 약 160 kb, 약 180 kb, 약 200 kb, 약 250 kb, 약 300 kb, 약 350 kb, 약 400 kb, 약 450 kb 또는 약 500 kb 떨어져 존재하는 DNA 세그먼트를 연결할 수 있도록 조정될 수 있다.
재구성된 염색질과 같은 핵산 결합 모이어티 스캐폴드의 중요한 이점은 그의 포스포디에스테르 결합과는 독립적으로 그의 구성 핵산의 물리적 연결 정보를 보존한다는 것이다. 따라서, 안정성을 유지하기 위해 선택적으로 가교결합된 재구성된 염색질에 의해 함께 유지되는 핵산은 내부 표지에서 발생할 수 있는 것처럼 그의 포스포디에스테르 결합이 파괴된 경우에도 그의 근접성을 유지할 것이다. 재구성된 염색질 때문에, 단편은 절단된 경우에도 근접성을 유지하고, 따라서 내부 표지 과정 동안 페이즈 또는 물리적 연결 정보가 보존될 것이다. 따라서, 노출된 말단부가 재라이게이션될 때, 이들은 공통적인 분자의 공통 페이즈로부터 유도된 세그먼트에 라이게이션될 것이다.
재구성된 염색질 어셈블리
핵산 분자의 절단 및 재배열 동안 페이즈 정보의 보존을 위한 핵산 결합 모이어티 상에서의 핵산의 어셈블리는 일부 경우에 핵산 샘플 상에 재구성된 염색질의 어셈블리를 통해 달성된다. 본원에서 사용되는 재구성된 염색질은 천연 염색질 성분의 핵산 상에서의 어셈블리 내지 핵산의 비생물학적 입자에 대한 결합에 이르기까지 범위하게 사용된다.
재구성된 염색질을 전통적인 의미로 언급할 때, 코어 히스톤 및 DNA의 뉴클레오솜으로의 어셈블리는 샤페론(chaperone) 단백질 및 관련 어셈블리 인자에 의해 매개된다. 거의 모든 요소가 코어 히스톤 결합 단백질이다. 뉴클레오솜 어셈블리 단백질-1(NAP-1)과 같은 히스톤 샤페론의 일부는 히스톤 H3 및 H4에 대한 결합을 선호한다. 또한, 새로 합성된 히스톤은 아세틸화된 후, 염색질로 어셈블된 후 탈아세틸화되는 것으로 관찰되었다. 히스톤 아세틸화 또는 탈아세틸화를 매개하는 인자는 염색질 어셈블리 과정에서 중요한 역할을 수행한다.
일반적으로, 염색질을 재구성하거나 어셈블리하기 위한 2개의 시험관 내 방법이 개발되었지만, 이들 방법의 변형도 고려된다. 한 세트의 방법은 ATP 독립적인 어셈블리를 포함하는 반면, 제2 세트의 방법은 ATP 의존적이다.
염색질을 재구성하기 위한 ATP 독립적 방법은 DNA 및 코어 히스톤 + 히스톤 샤페론으로서 작용하는 NAP-1과 같은 단백질 또는 염을 포함한다. 이 방법은 세포의 천연 코어 뉴클레오솜 입자를 정확하게 모방하지 않는 DNA 상의 히스톤의 무작위 배치를 초래한다. 이들 입자는 규칙적으로 질서잡힌(ordered), 연장된 뉴클레오솜 어레이가 아니고 사용된 DNA 서열이 대체로 250 bp보다 길지 않기 때문에, 모노뉴클레오솜으로 언급된다(Kundu, T. K. et al., Mol. Cell 6: 551-561, 2000). 보다 긴 길이의 DNA 서열 상에 질서잡힌 뉴클레오솜의 연장된 어레이를 생성하기 위해서, 염색질을 ATP 의존적 과정을 통해 어셈블해야 한다.
천연 염색질에서 볼 수 있는 것과 유사한 주기적인 뉴클레오솜 어레이의 ATP 의존적 어셈블리는 DNA 서열, 코어 히스톤 입자, 샤페론 단백질 및 ATP 이용 염색질 어셈블리 인자를 필요로 한다. ACF(ATP 이용 염색질 어셈블리 및 리모델링 인자) 또는 RSF(리모델링 및 스페이싱 인자)는 시험관 내에서 연장된 질서잡힌 뉴클레오솜 어레이를 염색질로 생성하기 위해 사용되는 두 가지의 광범위하게 연구된 어셈블리 인자이다([Fyodorov, D.V., and Kadonaga, J.T. Method Enzymol. 371: 499-515, 2003]; [Kundu, T. K. et al. Mol. Cell 6: 551-561, 2000]).
예를 들어 재구성된 염색질을 구성하기 위해 히스톤에 의존하지 않는 방법과 같은 대안적인 어셈블리 방법이 또한 고려된다. 임의의 DNA 결합 모이어티가 핵산에 첨가되어, 광범위하게 정의된 재구성된 염색질의 일부 유형을 형성할 수 있다.
일부 실시양태에서, 비천연 염색질 유사체가 고려된다. 핵산 결합을 용이하게 하기 위해 양 하전 코팅된 외부 표면 또는 핵산에 대한 가교결합을 위해 활성화될 수 있는 표면을 갖는 나노입자, 또는 핵산 결합을 용이하게 하기 위해 양 하전 코팅된 외부 표면 및 핵산에 대한 가교결합을 위해 활성화될 수 있는 표면을 모두 갖는 나노입자와 같은 나노입자가 본원에서 고려된다. 일부 실시양태에서, 나노입자는 규소를 포함한다.
일부 경우에, 본원에서 개시되는 방법은 나노입자와 회합되는 DNA와 함께 사용된다. 일부 경우에, 나노입자는 양 하전된다. 예를 들어, 나노입자는 아민기 및/또는 아민 함유 분자로 코팅된다. DNA 및 나노입자는 응집하고 응축되어, 천연 또는 재구성된 염색질과 유사하다. 추가로, 나노입자 결합된 DNA는 생물학적 뉴클레오솜(즉, 염색질)의 질서잡힌 어레이를 모방하는 방식으로 응집하도록 유도된다. 나노입자 기반 방법은 비용이 저렴하고, 어셈블리가 빠르며, 재구성된 염색질을 사용하는 것보다 더 나은 회수율을 제공하고/하거나, DNA 투입 요건을 줄일 수 있다.
용액 내의 나노입자의 농도, DNA에 대한 나노입자의 비율 및 사용된 나노입자의 크기를 비롯한, 응축의 정도 및 형태에 영향을 미치는 다수의 인자가 변경될 수 있다. 일부 경우에, 나노입자는 1 ng/mL, 2 ng/mL, 3 ng/mL, 4 ng/mL, 5 ng/mL, 6 ng/mL, 7 ng/mL, 8 ng/mL, 9 ng/mL, 10 ng/mL, 15 ng/mL, 20 ng/mL, 25 ng/mL, 30 ng/mL, 40 ng/mL, 50 ng/mL, 60 ng/mL, 70 ng/mL, 80 ng/mL, 90 ng/mL, 100 ng/mL, 120 ng/mL, 140 ng/mL, 160 ng/mL, 180 ng/mL, 200 ng/mL, 250 ng/mL, 300 ng/mL, 400 ng/mL, 500 ng/mL, 600 ng/mL, 700 ng/mL, 800 ng/mL, 900 ng/mL, 1 ㎍/mL, 2 ㎍/mL, 3 ㎍/mL, 4 ㎍/mL, 5 ㎍/mL, 6 ㎍/mL, 7 ㎍/mL, 8 ㎍/mL, 9 ㎍/mL, 10 ㎍/mL, 15 ㎍/mL, 20 ㎍/mL, 25 ㎍/mL, 30 ㎍/mL, 40 ㎍/mL, 50 ㎍/mL, 60 ㎍/mL, 70 ㎍/mL, 80 ㎍/mL, 90 ㎍/mL, 100 ㎍/mL, 120 ㎍/mL, 140 ㎍/mL, 160 ㎍/mL, 180 ㎍/mL, 200 ㎍/mL, 250 ㎍/mL, 300 ㎍/mL, 400 ㎍/mL, 500 ㎍/mL, 600 ㎍/mL, 700 ㎍/mL, 800 ㎍/mL, 900 ㎍/mL, 1 mg/mL, 2 mg/mL, 3 mg/mL, 4 mg/mL, 5 mg/mL, 6 mg/mL, 7 mg/mL, 8 mg/mL, 9 mg/mL, 10 mg/mL, 15 mg/mL, 20 mg/mL, 25 mg/mL, 30 mg/mL, 40 mg/mL, 50 mg/mL, 60 mg/mL, 70 mg/mL, 80 mg/mL, 90 mg/mL, 또는 100 mg/mL 초과의 농도로 DNA에 첨가된다. 일부 경우에, 나노입자는 약 1 ng/mL, 2 ng/mL, 3 ng/mL, 4 ng/mL, 5 ng/mL, 6 ng/mL, 7 ng/mL, 8 ng/mL, 9 ng/mL, 10 ng/mL, 15 ng/mL, 20 ng/mL, 25 ng/mL, 30 ng/mL, 40 ng/mL, 50 ng/mL, 60 ng/mL, 70 ng/mL, 80 ng/mL, 90 ng/mL, 100 ng/mL, 120 ng/mL, 140 ng/mL, 160 ng/mL, 180 ng/mL, 200 ng/mL, 250 ng/mL, 300 ng/mL, 400 ng/mL, 500 ng/mL, 600 ng/mL, 700 ng/mL, 800 ng/mL, 900 ng/mL, 1 ㎍/mL, 2 ㎍/mL, 3 ㎍/mL, 4 ㎍/mL, 5 ㎍/mL, 6 ㎍/mL, 7 ㎍/mL, 8 ㎍/mL, 9 ㎍/mL, 10 ㎍/mL, 15 ㎍/mL, 20 ㎍/mL, 25 ㎍/mL, 30 ㎍/mL, 40 ㎍/mL, 50 ㎍/mL, 60 ㎍/mL, 70 ㎍/mL, 80 ㎍/mL, 90 ㎍/mL, 100 ㎍/mL, 120 ㎍/mL, 140 ㎍/mL, 160 ㎍/mL, 180 ㎍/mL, 200 ㎍/mL, 250 ㎍/mL, 300 ㎍/mL, 400 ㎍/mL, 500 ㎍/mL, 600 ㎍/mL, 700 ㎍/mL, 800 ㎍/mL, 900 ㎍/mL, 1 mg/mL, 2 mg/mL, 3 mg/mL, 4 mg/mL, 5 mg/mL, 6 mg/mL, 7 mg/mL, 8 mg/mL, 9 mg/mL, 10 mg/mL, 15 mg/mL, 20 mg/mL, 25 mg/mL, 30 mg/mL, 40 mg/mL, 50 mg/mL, 60 mg/mL, 70 mg/mL, 80 mg/mL, 90 mg/mL, 또는 100 mg/mL 미만의 농도로 DNA에 첨가된다. 일부 경우에, 나노입자는 약 1:10000, 1:5000, 1:2000, 1:1000, 1:500, 1:200, 1:100, 1:50, 1:20, 1:10, 1:5, 1:2, 1:1, 2:1, 5:1, 10:1, 20:1, 50:1, 100:1, 200:1, 500:1, 1000:1, 2000:1, 5000:1, 또는 10000:1 초과의 중량 대 중량(w/w) 비율로 DNA에 첨가된다. 일부 경우에, 나노입자는 약 1:10000, 1:5000, 1:2000, 1:1000, 1:500, 1:200, 1:100, 1:50, 1:20, 1:10, 1:5, 1:2, 1:1, 2:1, 5:1, 10:1, 20:1, 50:1, 100:1, 200:1, 500:1, 1000:1, 2000:1, 5000:1, 또는 10000:1 미만의 중량 대 중량(w/w) 비율로 DNA에 첨가된다. 일부 경우에, 나노입자의 직경은 약 1 nm 1 nm, 2 nm, 3 nm, 4 nm, 5 nm, 6 nm, 7 nm, 8 nm, 9 nm, 10 nm, 15 nm, 20 nm, 25 nm, 30 nm, 40 nm, 50 nm, 60 nm, 70 nm, 80 nm, 90 nm, 100 nm, 120 nm, 140 nm, 160 nm, 180 nm, 200 nm, 250 nm, 300 nm, 400 nm, 500 nm, 600 nm, 700 nm, 800 nm, 900 nm, 1 μm, 2 μm, 3 μm, 4 μm, 5 μm, 6 μm, 7 μm, 8 μm, 9 μm, 10 μm, 15 μm, 20 μm, 25 μm, 30 μm, 40 μm, 50 μm, 60 μm, 70 μm, 80 μm, 90 μm, 또는 100 μm 초과이다. 일부 몇몇 경우에, 나노입자의 직경은 약 1 nm 1 nm, 2 nm, 3 nm, 4 nm, 5 nm, 6 nm, 7 nm, 8 nm, 9 nm, 10 nm, 15 nm, 20 nm, 25 nm, 30 nm, 40 nm, 50 nm, 60 nm, 70 nm, 80 nm, 90 nm, 100 nm, 120 nm, 140 nm, 160 nm, 180 nm, 200 nm, 250 nm, 300 nm, 400 nm, 500 nm, 600 nm, 700 nm, 800 nm, 900 nm, 1 μm, 2 μm, 3 μm, 4 μm, 5 μm, 6 μm, 7 μm, 8 μm, 9 μm, 10 μm, 15 μm, 20 μm, 25 μm, 30 μm, 40 μm, 50 μm, 60 μm, 70 μm, 80 μm, 90 μm, 또는 100 μm 미만이다.
또한, 나노입자는 자기장의 인가에 의해(상자성 나노입자의 경우) 또는 공유 부착에 의해(예를 들어, 폴리-라이신 코팅 물질에 가교결합시킴으로써) 고체 기재(예를 들어, 비드, 슬라이드 또는 튜브 벽)에 고정될 수 있다. 나노입자의 고정은 라이게이션 효율을 개선하여, 바람직하지 않은 생성물(노이즈)에 비해 원하는 생성물(신호)의 수를 증가시킬 수 있다.
재구성된 염색질은 포름알데히드와 같은 가교결합제와 선택적으로 접촉되어, DNA-염색질 복합체를 더욱 안정화시킨다.
핵산 절단
내부 이중 가닥 말단부를 노출시키기 위해 결합된 핵산을 처리할 수 있다. 절단은 제한 엔도뉴클레아제와 같은 제한 효소로 수행될 수 있다. 대안적인 절단 방법이 또한 본원의 개시내용에 적합하다. 예를 들어, 트랜스포사제는 트랜스포사제 전달 올리고핵산 분자의 부착에 의해 표시되는, 핵산에서 서열 독립적인 파단을 생성하기 위해 연결되지 않은 좌측 및 우측 경계의 올리고핵산 분자와 조합하여 선택적으로 사용된다. 올리고핵산 분자는 일부 경우에 펑츄에이션 적합 오버행을 포함하도록 또는 올리고핵산 분자가 서로 라이게이션되어 펑츄에이션 분자로서 기능하도록 서로에 대해 적합하도록 합성될 수 있다. 이러한 유형의 대안적인 방법의 이점은 절단이 서열 독립적이고, 따라서 두 핵산 분자의 서열이 국부적으로는 동일하더라도, 핵산의 한 카피에서 또 다른 카피에 이르기까지 서열이 상이할 가능성이 보다 높다는 것이다.
일부 경우에, 노출된 핵산 말단부는 예를 들어 제한 엔도뉴클레아제 접촉에 의해 생성되는 점착성 말단부인 것이 바람직하다. 일부 경우에, 제한 엔도뉴클레아제를 사용하여 예측 가능한 오버행을 절단한 다음, DNA 단편 상의 예측 가능한 오버행에 상보성인 오버행을 포함하는 핵산 말단부(예컨대, 펑츄에이션 올리고뉴클레오티드)를 사용하여 라이게이션한다. 일부 실시양태에서, 제한 엔도뉴클레아제에 의해 생성된 오버행의 5' 및/또는 3' 말단부는 부분적으로 채워진다. 일부 경우에, 오버행은 단일 뉴클레오티드로 채워진다.
일부 예에서, 오버행을 갖는 DNA 단편은 라이게이션 반응에서와 같이 상보성 오버행을 갖는 펑츄에이션 올리고뉴클레오티드, 올리고뉴클레오티드, 어댑터 올리고뉴클레오티드 또는 폴리뉴클레오티드와 같은 하나 이상의 핵산에 연결될 수 있다. 예를 들어, 단일 아데닌은 주형 독립적인 폴리머라제를 사용하여 말단부 복구된 DNA 단편의 3' 말단부에 부가된 후, 3' 말단부에 티민을 각각 갖는 하나 이상의 펑츄에이션 올리고뉴클레오티드에 라이게이션된다. 일부 실시양태에서, 올리고뉴클레오티드 또는 폴리뉴클레오티드와 같은 핵산은 3' 말단부가 하나 이상의 뉴클레오티드에 의해 연장된 후 5' 인산화에 의해 변형된 평활 말단부 이중 가닥 DNA 분자에 연결된다. 일부 경우에, 3' 말단부의 연장은 마그네슘을 함유하는 적합한 버퍼 내에서 하나 이상의 dNTP의 존재 하에 폴리머라제, 예컨대 클레나우 폴리머라제 또는 본원에서 제공되는 임의의 적합한 폴리머라제를 사용하여, 또는 말단 데옥시뉴클레오티드 트랜스퍼라제의 사용에 의해 수행된다. 일부 실시양태에서, 평활 말단부를 갖는 표적 폴리뉴클레오티드는 평활 말단부를 포함하는 하나 이상의 어댑터에 연결된다. DNA 단편 분자의 5' 말단부의 인산화는 예를 들어 ATP 및 마그네슘을 함유하는 적합한 버퍼 내에서 T4 폴리뉴클레오티드 키나제를 사용하여 수행될 수 있다. 단편화된 DNA 분자는 5' 말단부 또는 3' 말단부를 탈인산화하기 위해, 예를 들어 포스파타제와 같은 관련 기술 분야에 공지된 효소를 사용하여 선택적으로 처리될 수 있다.
펑츄에이션 올리고뉴클레오티드
일부 경우에, 펑츄에이션 올리고뉴클레오티드는 노출된 절단 말단부를 연결하기 위해 이용될 수 있다. 펑츄에이션 올리고뉴클레오티드는 페이즈 보존 재배열을 겪는 샘플 분자의 2개의 절단된 내부 말단부를 가교시키기 위해 표적 폴리뉴클레오티드에 연결될 수 있는 임의의 올리고뉴클레오티드를 포함한다. 펑츄에이션 올리고뉴클레오티드는 DNA, RNA, 뉴클레오티드 유사체, 비표준 뉴클레오티드, 표지된 뉴클레오티드, 변형된 뉴클레오티드 또는 이들의 조합을 포함할 수 있다. 많은 예에서, 이중 가닥 펑츄에이션 올리고뉴클레오티드는 서로 혼성화된 2개의 별개의 올리고뉴클레오티드("올리고뉴클레오티드 이중체(duplex)"로도 언급됨)를 포함하고, 혼성화는 하나 이상의 평활 말단부, 하나 이상의 3' 오버행, 하나 이상의 5' 오버행, 미스매치 및/또는 비페어링된 뉴클레오티드에 기인한 하나 이상의 돌출부(bulge), 또는 이들의 임의의 조합을 생성할 수 있다. 일부 예에서, 상이한 펑츄에이션 올리고뉴클레오티드는 순차적인 반응으로 또는 동시에 표적 폴리뉴클레오티드에 연결된다. 예를 들어, 제1 및 제2 펑츄에이션 올리고뉴클레오티드는 동일한 반응에 첨가될 수 있다. 대안으로, 펑츄에이션 올리고 집단은 일부 경우에 균일하다.
펑츄에이션 올리고뉴클레오티드는 표적 폴리뉴클레오티드와 조합하기 전에 조작될 수 있다. 예를 들어, 말단 포스페이트는 제거될 수 있다. 이러한 변형은 샘플 분자의 절단된 내부 말단부에 대해서가 아니라, 서로에 대한 펑츄에이션 올리고의 존재를 배제한다.
펑츄에이션 올리고뉴클레오티드는 하나 이상의 증폭 프라이머 어닐링 서열 또는 그의 상보체, 하나 이상의 서열결정 프라이머 어닐링 서열 또는 그의 상보체, 하나 이상의 바코드 서열, 다수의 상이한 펑츄에이션 올리고뉴클레오티드 또는 상이한 펑츄에이션 올리고뉴클레오티드의 하위 세트 사이에서 공유되는 하나 이상의 공통적인 서열, 하나 이상의 제한 효소 인식 부위, 하나 이상의 표적 폴리뉴클레오티드 오버행에 상보성인 하나 이상의 오버행, 하나 이상의 프로브 결합 부위, 하나 이상의 무작위의 또는 거의 무작위의 서열, 및 이들의 조합물을 포함하고 이로 제한되지 않는 하나 이상의 다양한 서열 요소를 포함한다. 일부 예에서, 2개 이상의 서열 요소는 서로 인접하지 않거나(예를 들어, 하나 이상의 뉴클레오티드에 의해 분리됨), 서로 인접하거나, 부분적으로 중첩되거나, 또는 완전히 중첩된다. 예를 들어, 증폭 프라이머 어닐링 서열은 또한 서열결정 프라이머 어닐링 서열로서 작용한다. 특정 예에서, 서열 요소는 3' 말단부에 또는 그 근처에 또는 5' 말단부에 또는 그 근처에 또는 펑츄에이션 올리고뉴클레오티드의 내부에 위치한다.
대안적인 실시양태에서, 펑츄에이션 올리고는 서열결정 반응에서 차지하는 서열 정보의 양을 최소화하기 위해 이중 가닥 분자의 완전성을 유지하기 위해 염기의 최소 상보체를 포함하거나, 또는 펑츄에이션 올리고는 라이게이션을 위한 최적 수의 염기를 포함하거나, 또는 펑츄에이션 올리고 길이는 임의로 결정된다.
일부 실시양태에서, 펑츄에이션 올리고뉴클레오티드는 하나 이상의 표적 폴리뉴클레오티드에 상보성인 5' 오버행, 3' 오버행 또는 둘 모두를 포함한다. 특정 예에서, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15개 또는 그 초과의 뉴클레오티드 길이를 포함하고 이로 제한되지 않는 길이의 하나 이상의 뉴클레오티드이다. 예를 들어, 상보성 오버행은 약 1, 2, 3, 4, 5 또는 6개 뉴클레오티드 길이이다. 일부 실시양태에서, 펑츄에이션 올리고뉴클레오티드 오버행은 제한 엔도뉴클레아제 소화 또는 다른 DNA 절단 방법에 의해 생성된 표적 폴리뉴클레오티드 오버행에 상보성이다.
펑츄에이션 올리고뉴클레오티드는 적어도 이 올리고뉴클레오티드가 포함하는 하나 이상의 서열 요소를 수용하기에 충분한 임의의 적합한 길이를 가질 수 있다. 일부 실시양태에서, 펑츄에이션 올리고뉴클레오티드의 길이는 약 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 90, 100, 200개 또는 그 초과의 뉴클레오티드, 또는 대략 이보다 작은, 또는 대략 이보다 큰 길이이다. 일부 예에서, 펑츄에이션 올리고뉴클레오티드의 길이는 5 내지 15개 뉴클레오티드이다. 추가의 예에서, 펑츄에이션 올리고뉴클레오티드의 길이는 약 20 내지 약 40개 뉴클레오티드이다.
바람직하게는, 펑츄에이션 올리고뉴클레오티드는 이들이 다량체를 형성하기 위해 서로 라이게이션되지 않도록, 예를 들어 5' 포스페이트 절제(송아지 알칼리성 포스파타제 처리를 통해, 또는 상기 모이어티의 부재 하에서 새로운 합성에 의해)에 의해 변형된다. 3' OH(히드록실) 모이어티는 절단된 핵산 상의 5' 포스페이트에 라이게이션되어 제1 또는 제2 핵산 세그먼트에 대한 라이게이션을 지지할 수 있다.
어댑터 올리고뉴클레오티드
어댑터는 표적 폴리뉴클레오티드에 연결될 수 있는 서열을 갖는 임의의 올리고뉴클레오티드를 포함한다. 다양한 예에서, 어댑터 올리고뉴클레오티드는 DNA, RNA, 뉴클레오티드 유사체, 비표준 뉴클레오티드, 표지된 뉴클레오티드, 변형된 뉴클레오티드 또는 이들의 조합을 포함한다. 일부 예에서, 어댑터 올리고뉴클레오티드는 단일 가닥, 이중 가닥 또는 부분 이중체이다. 일반적으로, 부분 이중체 어댑터 올리고뉴클레오티드는 하나 이상의 단일 가닥 영역 및 하나 이상의 이중 가닥 영역을 포함한다. 이중 가닥 어댑터 올리고뉴클레오티드는 서로 혼성화된 2개의 별개의 올리고뉴클레오티드("올리고뉴클레오티드 이중체"로도 언급됨)를 포함하고, 혼성화는 하나 이상의 평활 말단부, 하나 이상의 3' 오버행, 하나 이상의 5' 오버행, 미스매치 및/또는 비페어링된 뉴클레오티드에 기인한 하나 이상의 돌출부, 또는 이들의 임의의 조합을 생성할 수 있다. 일부 실시양태에서, 단일 가닥 어댑터 올리고뉴클레오티드는 서로 혼성화할 수 있는 2개 이상의 서열을 포함한다. 이러한 2개의 혼성화 가능 서열이 단일 가닥 어댑터에 포함되는 경우, 혼성화는 헤어핀 구조(헤어핀 어댑터)를 생성한다. 어댑터 올리고뉴클레오티드의 2개의 혼성화 영역이 비혼성화된 영역에 의해 서로 분리될 때, "버블" 구조가 생성된다. 버블 구조를 포함하는 어댑터 올리고뉴클레오티드는 내부 혼성화를 포함하는 단일 어댑터 올리고뉴클레오티드로 이루어지거나, 서로 혼성화된 2개 이상의 어댑터 올리고뉴클레오티드를 포함한다. 어댑터 올리고뉴클레오티드에서 2개의 혼성화 가능 서열 사이와 같은 내부 서열 혼성화는 일부 경우에, 단일 가닥 어댑터 올리고뉴클레오티드에서 이중 가닥 구조를 생성한다. 일부 예에서, 상이한 종류의 어댑터 올리고뉴클레오티드, 예컨대 헤어핀 어댑터 및 이중 가닥 어댑터, 또는 상이한 서열의 어댑터가 조합되어 사용된다. 특정 경우에, 헤어핀 어댑터의 혼성화 가능 서열은 올리고뉴클레오티드의 하나 또는 둘 모두의 말단부를 포함한다. 말단부의 어느 것도 혼성화 가능 서열에 포함되지 않을 때, 두 말단부는 "자유" 또는 "오버행"이다. 단지 하나의 말단부만이 어댑터의 또 다른 서열에 혼성화될 수 있을 때, 다른 말단부는 3' 오버행 또는 5' 오버행과 같은 오버행을 형성한다. 5' 말단 뉴클레오티드와 3' 말단 뉴클레오티드가 상보성이고 서로 혼성화되도록 5' 말단 뉴클레오티드와 3' 말단 뉴클레오티드 둘 모두가 혼성화 가능 서열에 포함될 경우, 말단부는 "평활"로 언급된다. 일부 경우에, 상이한 어댑터 올리고뉴클레오티드가 순차적인 반응으로 또는 동시에 표적 폴리뉴클레오티드에 연결된다. 예를 들어, 제1 및 제2 어댑터 올리고뉴클레오티드는 동일한 반응에 첨가된다. 일부 예에서, 어댑터 올리고뉴클레오티드는 표적 폴리뉴클레오티드와 조합되기 전에 조작된다. 예를 들어, 말단 포스페이트는 첨가되거나 제거될 수 있다.
어댑터 올리고뉴클레오티드는 하나 이상의 증폭 서열 어닐링 서열 또는 그의 상보체, 하나 이상의 서열결정 프라이머 어닐링 서열 또는 그의 상보체, 하나 이상의 바코드 서열, 다수의 상이한 어댑터 또는 상이한 어댑터의 하위 세트 사이에서 공유되는 하나 이상의 공통적인 서열, 하나 이상의 제한 효소 인식 부위, 하나 이상의 표적 폴리뉴클레오티드 오버행에 상보성인 하나 이상의 오버행, 하나 이상의 프로브 결합 부위(예를 들어, 서열결정 플랫폼, 예컨대 Illumina, Inc.에 의해 개발된 것과 같은 거대한 병렬 서열결정을 위한 유동 셀에 부착하기 위한), 하나 이상의 무작위 또는 거의 무작위의 서열(예를 들어, 하나 이상의 위치에 2개 이상의 상이한 뉴클레오티드의 세트로부터 무작위로 선택된 하나 이상의 뉴클레오티드(각각의 상이한 뉴클레오티드는 무작위 서열을 포함하는 어댑터의 풀에서 제시되는 하나 이상의 위치에서 선택됨)), 및 이들의 조합물을 포함하고 이로 제한되지 않는 하나 이상의 다양한 서열 요소를 포함한다. 많은 예에서, 2개 이상의 서열 요소는 서로 인접하지 않거나(예를 들어, 하나 이상의 뉴클레오티드에 의해 분리됨), 서로 인접하거나, 부분적으로 중첩되거나, 또는 완전히 중첩될 수 있다. 예를 들어, 증폭 프라이머 어닐링 서열은 또한 서열결정 프라이머 어닐링 서열로서 작용한다. 서열 요소는 3' 말단부에 또는 그 근처에 또는 5' 말단부에 또는 그 근처에 또는 어댑터 올리고뉴클레오티드의 내부에 위치한다. 어댑터 올리고뉴클레오티드가 헤어핀과 같은 2차 구조를 형성할 수 있는 경우, 서열 요소는 2차 구조의 외부에 부분적으로 또는 완전히, 2차 구조의 내부에 부분적으로 또는 완전히, 또는 2차 구조에 참여하는 서열 사이에 위치할 수 있다. 예를 들어, 어댑터 올리고뉴클레오티드가 헤어핀 구조를 포함하는 경우, 서열 요소는 혼성화 가능한 서열 사이의 서열("루프") 내를 포함하여, 혼성화 가능 서열("스템")의 내부 또는 외부에 부분적으로 또는 완전히 위치할 수 있다. 일부 실시양태에서, 상이한 바코드 서열을 갖는 다수의 제1 어댑터 올리고뉴클레오티드에서 제1 어댑터 올리고뉴클레오티드는 다수의 모든 제1 어댑터 올리고뉴클레오티드에서 공통적인 서열 요소를 포함한다. 일부 실시예에서, 모든 제2 어댑터 올리고뉴클레오티드는 제1 어댑터 올리고뉴클레오티드에 의해 공유되는 공통적인 서열 요소와는 상이한 모든 제2 어댑터 올리고뉴클레오티드에 공통적인 서열 요소를 포함한다. 서열 요소의 차이는 예를 들어 하나 이상의 뉴클레오티드의 서열 길이, 결실 또는 삽입의 변화 또는 하나 이상의 뉴클레오티드 위치에서의 뉴클레오티드 조성의 변화(예컨대, 염기 변화 또는 염기 변형)로 인해 상이한 어댑터의 적어도 일부가 완전히 정렬되지는 않도록 하는 임의의 차이일 수 있다. 일부 실시양태에서, 어댑터 올리고뉴클레오티드는 하나 이상의 표적 폴리뉴클레오티드에 상보성인 5' 오버행, 3' 오버행 또는 둘 모두를 포함한다. 상보성인 오버행은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15개 또는 그 초과의 뉴클레오티드 길이를 포함하고 이로 제한되지 않는 하나 이상의 뉴클레오티드 길이일 수 있다. 예를 들어, 상보성 오버행은 약 1, 2, 3, 4, 5 또는 6개 뉴클레오티드 길이일 수 있다. 상보성 오버행은 고정된 서열을 포함할 수 있다. 상보성 오버행은 추가로 또는 대안으로 하나 이상의 뉴클레오티드가 하나 이상의 위치에서 2개 이상의 상이한 뉴클레오티드의 세트로부터 무작위로 선택되도록 하나 이상의 뉴클레오티드의 무작위 서열을 포함할 수 있고, 여기서 각각의 상이한 뉴클레오티드는 무작위 서열을 포함하는 상보성 오버행을 갖는 어댑터 올리고뉴클레오티드의 풀에서 제시되는 하나 이상의 위치에서 선택된다. 일부 실시양태에서, 어댑터 올리고뉴클레오티드 오버행은 제한 엔도뉴클레아제 소화에 의해 생성되는 표적 폴리뉴클레오티드 오버행에 상보성이다. 일부 실시양태에서, 어댑터 올리고뉴클레오티드 오버행은 아데닌 또는 티민으로 이루어진다.
어댑터 올리고뉴클레오티드는 적어도 이들이 포함하는 하나 이상의 서열 요소를 수용하기에 충분한 길이를 가질 수 있다. 일부 실시양태에서, 어댑터 올리고뉴클레오티드의 길이는 약 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 90, 100, 200개 또는 그 초과의 뉴클레오티드이거나, 이 길이보다 더 짧거나, 또는 이 길이보다 더 길다. 일부 예에서, 어댑터 올리고뉴클레오티드 길이는 5 내지 15개 뉴클레오티드이다. 추가의 예에서, 어댑터 올리고뉴클레오티드 길이는 약 20 내지 약 40개 뉴클레오티드이다.
바람직하게는, 어댑터 올리고뉴클레오티드는 이들이 다량체를 형성하기 위해 서로 라이게이션되지 않도록, 예를 들어 5' 포스페이트 절제(송아지 알칼리성 포스파타제 처리를 통해, 또는 상기 모이어티의 부재 하에서 새로운 합성에 의해)에 의해 변형된다. 3' OH(히드록실) 모이어티는 절단된 핵산 상의 5' 포스페이트에 라이게이션되어 제1 또는 제2 핵산 세그먼트에 대한 라이게이션을 지지할 수 있다.
핵산 샘플의 페이즈 정보의 결정
핵산 샘플의 페이즈 정보를 결정하기 위해, 먼저, 예를 들어 본원에서 논의되는 추출 방법에 의해 핵산을 획득한다. 많은 경우에, 핵산은 핵산 분자의 절단 후에 페이즈 정보를 보존하기 위해 고체 표면에 부착된다. 바람직하게는, 다른 적합한 고체 표면은 핵산 결합 단백질 응집체, 나노입자, 핵산 결합 비드 또는 핵산 결합 물질을 사용하여 코팅된 비드, 중합체, 합성 핵산 결합 분자 또는 다른 고체 또는 실질적으로 고체인 친화성 분자를 포함하지만, 핵산 분자는 재구성된 염색질을 생성하기 위해 핵산 결합 단백질과 시험관 내에서 어셈블된다. 핵산 샘플은 또한 천연 염색질의 경우와 같이, 이미 고체 표면에 부착되어 얻어질 수 있다. 천연 염색질은 이미 고정된 상태로, 예컨대 포르말린 고정된 파라핀 포매된(FFPE) 또는 유사하게 보존된 샘플의 형태로 얻을 수 있다.
핵산 결합 모이어티에 대한 부착 후에, 결합된 핵산 분자는 절단될 수 있다. 절단은 임의의 수의 효소적 및 비효소적 방법을 포함하는, 임의의 적합한 핵산 절단 엔티티(entity)를 사용하여 수행된다. 바람직하게는, DNA 절단은 제한 엔도뉴클레아제, 단편화효소 또는 트랜스포사제를 사용하여 수행된다. 대안으로 또는 추가로, 핵산 절단은 다른 제한 효소, 토포이소머라제, 비특이적 엔도뉴클레아제, 핵산 복구 효소, RNA 유도 뉴클레아제 또는 다른 효소를 사용하여 달성된다. 또한, 절단을 생성하기 위해 기계적 수단(예를 들어, 초음파 처리, 전단), 열적 수단(예를 들어, 온도 변화) 또는 전자기적 수단(예를 들어, UV 조사와 같은 방사선 조사)을 비롯한 물리적 수단을 사용할 수 있다. 핵산 절단은 사용되는 절단 방법에 따라 '점착성' 오버행 또는 평활 말단부를 갖는 자유로운 핵산 말단부를 생성한다. 점착성 오버행 말단부가 생성되는 경우, 점착성 말단부는 재라이게이션을 방지하기 위해 선택적으로 부분적으로 채워진다. 대안으로, 평활 말단부를 생성하기 위해 오버행은 완전히 채워진다.
많은 경우에, 오버행 말단부는 선택적으로 표지된 dNTP로 부분적으로 또는 완전히 채워진다. 이러한 경우, dNTP는 비오티닐화되거나, 황산화되거나, 형광단에 부착되거나, 탈인산화되거나 또는 임의의 다른 수의 뉴클레오티드 변형을 포함할 수 있다. 뉴클레오티드 변형은 또한 후성적(epigenetic) 변형, 예컨대 메틸화(예를 들어, 5-mC, 5-hmC, 5-fC, 5-caC, 4-mC, 6-mA, 8-oxoG, 8-oxoA)를 포함할 수 있다. 표지 또는 변형은 서열결정 동안 검출 가능한 것, 예컨대 나노포어(nanopore) 서열결정에 의해 검출 가능한 후성적 변형으로부터 선택될 수 있고; 이러한 방식으로 라이게이션 접합부의 위치를 서열결정 동안 검출할 수 있다. 이러한 표지 또는 변형은 또한 결합 또는 농축을 위해 표적화될 수 있고, 예를 들어, 메틸-시토신을 표적화하는 항체는 메틸-시토신으로 채워진 평활 말단부를 포획, 표적화, 결합 또는 표지하기 위해 사용될 수 있다. 비천연 뉴클레오티드, 비표준 또는 변형된 뉴클레오티드 및 핵산 유사체는 또한 평활 말단부의 채워진 위치를 표지하기 위해 사용될 수 있다. 비표준 또는 변형된 뉴클레오티드는 슈도우리딘(Ψ), 디히드로우리딘(D), 이노신(I), 7-메틸구아노신(m7G), 잔틴, 히포잔틴, 퓨린, 2,6-디아미노퓨린, 및 6,8-디아미노퓨린을 포함할 수 있다. 핵산 유사체는 펩티드 핵산(PNA), 모르폴리노 및 잠금 핵산(LNA: locked nucleic acid), 글리콜 핵산(GNA) 및 트레오스 핵산(TNA)을 포함할 수 있다. 일부 경우에, 오버행은 비표지된 dNTP, 예컨대 비오틴이 없는 dNTP로 채워진다. 트랜스포사제에 의한 절단과 같은 일부 경우에, 채우기를 필요로 하지 않는 평활 말단부가 생성된다. 이러한 자유로운 평활 말단부는 트랜스포사제가 2개의 연결되지 않은 펑츄에이션 올리고뉴클레오티드를 삽입할 때 생성된다. 그러나, 펑츄에이션 올리고뉴클레오티드는 원하는 바와 같은 점착성 또는 평활 말단부를 갖도록 합성된다. 히스톤과 같은 샘플 핵산과 회합된 단백질도 변형될 수 있다. 예를 들어, 히스톤은 아세틸화(예를 들어, 라이신 잔기에서의) 및/또는 메틸화(예를 들어, 라이신 및 아르기닌 잔기에서의)될 수 있다.
다음으로, 절단된 핵산 분자가 여전히 고체 표면에 결합되어 있는 동안, 자유로운 핵산 말단부는 함께 연결된다. 일부 경우에, 자유 말단부 사이의 또는 올리고뉴클레오티드와 같은 별개의 엔티티와의 라이게이션을 통해 연결이 이루어진다. 일부 경우에, 올리고뉴클레오티드는 펑츄에이션 올리고뉴클레오티드이다. 그러한 경우, 펑츄에이션 분자 말단부는 절단된 핵산 분자의 자유 말단부에 적합할 수 있다. 많은 경우에, 펑츄에이션 분자는 올리고뉴클레오티드의 콘카테머화를 방지하기 위해 탈인산화된다. 대부분의 경우, 펑츄에이션 분자는 각각의 말단부에서 절단된 핵산 분자의 자유로운 핵산 말단부에 라이게이션된다. 많은 경우에, 상기 라이게이션 단계는 출발 핵산 분자에서 원래 서로 인접하지 않은 2개의 자유 말단부가 이제 페어링된 말단부에서 연결되도록 절단된 핵산 분자의 재배열을 유도한다.
절단된 핵산 분자의 자유 말단부의 연결 후, 재배열된 핵산 샘플은 임의의 수의 표준 효소적 및 비효소적 방법을 사용하여 핵산 결합 모이어티로부터 방출된다. 예를 들어, 시험관 내에서 재구성된 염색질의 경우, 재배열된 핵산 분자는 핵산 결합 단백질의 변성 또는 분해에 의해 방출된다. 다른 예들에서, 가교결합은 역전된다. 또 다른 예에서, 친화성 상호작용은 역전되거나 차단된다. 방출된 핵산 분자는 투입 핵산 분자와 비교하여 재배열된다. 펑츄에이션 분자가 사용되는 경우, 생성되는 재배열된 분자는 재배열된 핵산 분자 전체에 흩어져 있는 펑츄에이션 올리고뉴클레오티드로 인해 펑츄에이션된 분자로 불린다. 이들 경우에, 펑츄에이션의 측면에 인접하는 핵산 세그먼트는 페어링된 말단부를 구성한다.
본원에서 개시되는 방법의 절단 및 연결 단계 동안, 핵산 분자가 이들 과정 전체에 걸쳐 고체 표면에 결합되기 때문에 페이즈 정보가 유지된다. 이를 통해, 단일 뉴클레오티드 다형성(SNP)과 같은 다른 마커의 정보에 의존하지 않으면서 페이즈 정보를 분석할 수 있다. 본원에서 개시되는 방법 및 조성물을 사용하여, 일부 경우에, 핵산 분자 내의 2개의 핵산 세그먼트는 이들이 원래의 핵산 분자 상에 존재하는 것보다 더 근접하도록 재배열된다. 많은 예에서, 출발 핵산 샘플에서 2개의 핵산 세그먼트의 원래의 분리 거리는 표준 서열결정 기술의 평균 판독 길이보다 더 길다. 예를 들어, 투입 핵산 샘플 내의 2개의 핵산 세그먼트 사이의 출발 분리 거리는 10 kb, 12.5 kb, 15 kb, 17.5 kb, 20 kb, 25 kb, 30 kb, 35 kb, 40 kb, 45 kb, 50 kb, 60 kb, 70 kb, 80 kb, 90 kb, 100 kb, 125 kb, 150 kb, 200 kb, 300 kb, 400 kb, 500 kb, 600 kb, 700 kb, 800 kb, 900 kb, 1 Mb 또는 그 초과이다. 바람직한 예에서, 2개의 재배열된 DNA 세그먼트 사이의 분리 거리는 표준 서열결정 기술의 평균 판독 길이보다 더 짧다. 예를 들어, 재배열된 DNA 분자 내에서 2개의 재배열된 DNA 세그먼트를 분리하는 거리는 약 50 kb, 40 kb, 30 kb, 25 kb, 20 kb, 17 kb, 15 kb, 14 kb, 13 kb, 12 kb, 11 kb, 10 kb, 9 kb, 8 kb, 7 kb, 6 kb, 5 kb 또는 그 미만보다 더 짧다. 바람직한 경우, 분리 거리는 긴 판독물 서열결정 기기의 평균 판독 길이보다 더 짧다. 이러한 경우에, 재배열된 DNA 샘플이 핵산 결합 모이어티로부터 방출되고 서열결정될 때, 페이즈 정보가 결정되고, 새로운 서열 스캐폴드를 생성하기에 충분한 서열 정보가 생성된다.
재배열된 핵산 분자의 바코드화
일부 예에서, 본원에서 설명되는 방출된 재배열된 핵산 분자는 서열결정 전에 추가로 처리된다. 예를 들어, 재배열된 핵산 분자 내에 포함된 핵산 세그먼트는 바코드화될 수 있다. 바코드화를 사용하면 서열 판독물을 쉽게 분류할 수 있다. 예를 들어, 바코드를 사용하여 동일한 재배열된 핵산 분자로부터 유래된 서열을 확인할 수 있다. 또한, 바코드는 개별 접합부를 특유하게 확인하기 위해 사용될 수도 있다. 예를 들어, 각각의 접합부는 접합부를 특유하게 확인할 수 있는 특유한(예를 들어, 무작위로 생성된) 바코드로 표시될 수 있다. 동일한 재배열된 핵산 분자로부터 유래 한 서열을 확인하기 위한 제1 바코드 및 개별 접합부를 특유하게 확인하는 제2 바코드와 같은 다수의 바코드가 함께 사용될 수 있다.
바코드화는 다수의 기술을 통해 달성될 수 있다. 일부 경우에, 바코드는 펑츄에이션 올리고 내의 서열로서 포함될 수 있다. 다른 경우에, 방출된 재배열된 핵산 분자는 적어도 2개의 세그먼트를 포함하는 올리고뉴클레오티드에 접촉될 수 있고, 여기서 하나의 세그먼트는 바코드를 함유하고, 제2 세그먼트는 펑츄에이션 서열에 상보성인 서열을 함유한다. 펑츄에이션 서열에 대한 어닐링 후에, 바코드화된 올리고뉴클레오티드는 동일한 펑츄에이션된 핵산 분자로부터 바코드화된 분자를 생성하기 위해 폴리머라제로 연장된다. 펑츄에이션된 핵산 분자는 페이즈 정보가 보존되는 투입 핵산 분자의 재배열된 버전이기 때문에, 생성된 바코드화된 분자는 또한 동일한 투입 핵산 분자로부터 유래한다. 이러한 바코드화된 분자는 바코드 서열, 펑츄에이션 상보성 서열 및 게놈 서열을 포함한다.
펑츄에이션 서열을 갖거나 갖지 않으면서 재배열된 핵산 분자에 대해, 분자는 다른 수단에 의해 바코드화될 수 있다. 예를 들어, 재배열된 핵산 분자는 재배열된 핵산 분자로부터의 서열을 통합하기 위해 연장될 수 있는 바코드화된 올리고뉴클레오티드에 접촉될 수 있다. 바코드는 펑츄에이션 서열, 제한 효소 인식 부위, 관심 부위(예를 들어, 관심 게놈 영역) 또는 무작위 부위(예를 들어, 바코드 올리고뉴클레오티드 상의 무작위 n-mer 서열을 통해)에 혼성화될 수 있다. 재배열된 핵산 분자는 다수의 재배열된 핵산 분자가 동일한 바코드 서열을 갖지 않도록 샘플 내의 다른 재배열된 핵산 분자로부터 적절한 농도 및/또는 분리(예를 들어, 공간적 또는 시간적 분리)를 사용하여 바코드에 접촉될 수 있다. 예를 들어, 재배열된 핵산 분자를 포함하는 용액은 단지 하나의 재배열된 핵산 분자만이 제시된 바코드 서열을 갖는 바코드 또는 바코드의 군에 접촉되는 농도로 희석될 수 있다. 바코드는 자유 용액 내의, 유체 구획(fluidic partition)(예를 들어, 소적 또는 웰) 내의 또는 어레이(예를 들어, 특정 어레이 스폿) 상의 재배열된 핵산 분자와 접촉할 수 있다.
바코드화된 핵산 분자(예를 들어, 연장 산물)는 예를 들어 짧은 판독 서열결정 기기 상에서 서열결정될 수 있고, 페이즈 정보는 동일한 바코드를 갖는 서열 판독물을 공통 페이즈로 분류함으로써 결정된다. 대안으로, 서열결정 전에, 바코드화된 산물은 예를 들어 긴 판독물 서열결정 기술을 사용하여 서열결정된 긴 분자를 생성하기 위해, 예를 들어 벌크 라이게이션을 통해 함께 연결될 수 있다. 이 경우에, 삽입된 판독 쌍은 증폭 어댑터 및 펑츄에이션 서열을 통해 확인할 수 있다. 추가의 페이즈 정보는 판독 쌍의 바코드 서열로부터 얻어진다.
페어링된 말단부로부터 페이즈 정보의 결정
페어링된 말단부로부터 페이즈 정보를 결정하기 위한 방법 및 조성물이 본원에 추가로 제공된다. 페어링된 말단부는 개시된 임의의 방법 또는 제공된 실시예에서 추가로 설명되는 방법에 의해 생성될 수 있다. 예를 들어, 후속적으로 절단되는 고체 표면에 결합된 핵산 분자의 경우, 자유 말단부의 재라이게이션 후에, 재라이게이션된 핵산 세그먼트는 예를 들어 제한 소화에 의해 고상 부착 핵산 분자로부터 방출된다. 이 방출은 다수의 페어링된 말단부를 생성한다. 일부 경우에는, 페어링된 말단부는 증폭 어댑터에 라이게이션되고, 증폭되고, 짧은 범위 기술로 서열결정된다. 이러한 경우, 다수의 상이한 핵산 결합 모이어티 결합된 핵산 분자로부터의 페어링된 말단부는 서열결정된 샘플 내에 존재한다. 그러나, 페어링된 말단부 접합부의 어느 쪽에 대해서도, 접합부 인접 서열이 공통적인 분자의 공통 페이즈로부터 유도된다고 자신있게 결론지을 수 있다. 페어링된 말단부가 펑츄에이션 올리고뉴클레오티드와 연결되는 경우, 서열결정 판독에서 페어링된 말단부 접합부는 펑츄에이션 올리고뉴클레오티드 서열에 의해 확인된다. 다른 경우에, 페어링된 말단부는 사용된 변형된 뉴클레오티드의 서열에 기초하여 확인될 수 있는 변형된 뉴클레오티드에 의해 연결되었다.
대안으로, 페어링된 말단부의 방출 후에, 자유로운 페어링된 말단부를 증폭 어댑터에 라이게이션하고 증폭할 수 있다. 이러한 경우에, 다수의 페어링된 말단부는 이어서 긴 판독물 서열결정 기술을 사용하여 판독되는 긴 분자를 생성하기 위해 함께 벌크 라이게이션된다. 다른 예에서, 방출된 페어링된 말단부는 중간의 증폭 단계 없이 서로 벌크 라이게이션된다. 두 경우 모두, 삽입된 판독 쌍은 펑츄에이션 서열 또는 변형된 뉴클레오티드와 같은 연결 서열에 인접한 천연 DNA 서열을 통해 확인 가능하다. 연결된(concatenated) 페어링된 말단부는 긴 서열 장치에서 판독되고, 다수의 접합부에 대한 순서 정보가 얻어진다. 페어링된 말단부는 다수의 상이한 핵산 결합 모이어티 결합된 DNA 분자로부터 유래되었기 때문에, 2개의 개개의 페어링된 말단부에 걸치는 서열, 예컨대 증폭 어댑터 서열의 측면에 인접하는 서열은 다수의 상이한 DNA 분자에 매핑되는 것으로 밝혀졌다. 그러나, 페어링된 말단부 접합부의 어느 쪽에 대해서도, 접합부 인접 서열은 공통적인 분자의 공통 페이즈로부터 유래된다고 자신있게 결론지을 수 있다. 예를 들어, 펑츄에이션 분자로부터 유래되는 페어링된 말단부의 경우, 펑츄에이션 서열의 측면에 인접하는 서열은 공통적인 DNA 분자에 자신있게 할당된다. 바람직한 경우에, 개개의 페어링된 말단부가 본원에서 개시되는 방법 및 조성물을 사용하여 연결되기 때문에, 다수의 페어링된 말단부를 단일 판독으로 서열결정할 수 있다.
서열결정 방법
본원에서 개시되는 방법 및 조성물은 투입 DNA 샘플과 비교하여 재배열된 세그먼트를 포함하는 긴 DNA 분자를 생성하기 위해 사용될 수 있다. 이들 분자는 임의의 수의 서열결정 기술을 사용하는 서열이다. 바람직하게는, 긴 분자는 표준 긴 판독물 서열결정 기술을 사용하여 서열결정된다. 부가적으로 또는 대안으로, 생성된 긴 분자는 짧은 판독 서열결정 기술에 적합하게 만들기 위해 본원에서 개시되는 바와 같이 변형될 수 있다.
예시적인 긴 판독물 서열결정 기술은 나노포어 서열결정 기술 및 다른 긴 판독물 서열결정 기술, 예컨대 퍼시픽 바이오사이언시스 단일 분자 실시간(SMRT: Pacific Biosciences Single Molecule Real Time) 서열결정을 포함하고 이로 제한되지 않는다. 나노포어 서열결정 기술은 옥스포드 나노포어(Oxford Nanopore) 서열결정 기술(예를 들어, GridION, MinION) 및 제니아(Genia) 서열결정 기술을 포함하고 이로 제한되지 않는다.
서열 판독 길이는 적어도 약 100 bp, 200 bp, 300 bp, 400 bp, 500 bp, 600 bp, 700 bp, 800 bp, 900 bp, 1 kb, 2 kb, 3 kb, 4 kb, 5 kb, 6 kb, 7 kb, 8 kb, 9 kb, 10 kb, 20 kb, 30 kb, 40 kb, 50 kb, 60 kb, 70 kb, 80 kb, 90 kb, 100 kb, 200 kb, 300 kb, 400 kb, 500 kb, 600 kb, 700 kb, 800 kb, 900 kb, 1 Mb, 2 Mb, 3 Mb, 4 Mb, 5 Mb, 6 Mb, 7 Mb, 8 Mb, 9 Mb, 또는 10 Mb일 수 있다. 서열 판독 길이는 약 100 bp, 200 bp, 300 bp, 400 bp, 500 bp, 600 bp, 700 bp, 800 bp, 900 bp, 1 kb, 2 kb, 3 kb, 4 kb, 5 kb, 6 kb, 7 kb, 8 kb, 9 kb, 10 kb, 20 kb, 30 kb, 40 kb, 50 kb, 60 kb, 70 kb, 80 kb, 90 kb, 100 kb, 200 kb, 300 kb, 400 kb, 500 kb, 600 kb, 700 kb, 800 kb, 900 kb, 1 Mb, 2 Mb, 3 Mb, 4 Mb, 5 Mb, 6 Mb, 7 Mb, 8 Mb, 9 Mb, 또는 10 Mb일 수 있다. 일부 경우에, 서열 판독 길이는 적어도 약 5 kb이다. 일부 경우에, 서열 판독 길이는 약 5 kb이다.
일부 예에서, 본원에서 개시되는 방법 및 조성물을 사용하여 생성된 긴 재배열된 DNA 분자는 한 말단부에서 서열결정 어댑터에 라이게이션된다. 바람직한 예에서, 서열결정 어댑터는 헤어핀 어댑터이고, 이것은 역위 반복체를 갖는 자가 어닐링하는 단일 가닥 분자를 생성한다. 이러한 경우에, 분자는 서열결정 효소를 통해 공급되고, 역위 반복체의 각각의 측면의 전장 서열이 얻어진다. 대부분의 경우에, 생성되는 서열 판독은 DNA 분자의 2x의 커버리지, 예컨대 각각 페이즈 정보를 전달하는 다수의 재배열된 세그먼트를 보유하는 펑츄에이션된 DNA 분자에 대응한다. 바람직한 예에서, 핵산 샘플의 새로운 지지체를 독립적으로 생성하기 위해 충분한 서열이 생성된다.
대안으로, 본원에서 개시되는 방법 및 조성물을 사용하여 생성된 긴 재배열된 DNA 분자는 절단되어 원하는 길이의 이중 가닥 분자의 집단을 형성한다. 이러한 경우, 이들 분자는 각각의 말단부에서 단일 가닥 어댑터에 라이게이션된다. 그 결과, 두 말단부에서 헤어핀 루프가 형성된 이중 가닥 DNA 주형이 생성된다. 원형 분자는 연속 서열결정 기술에 의해 서열결정된다. 긴 이중 가닥 세그먼트를 함유하는 분자의 연속적인 긴 판독물 서열결정은 각각의 분자를 연속적으로 1회 판독한다. 짧은 이중 가닥 세그먼트를 함유하는 분자의 연속적인 서열결정은 분자의 다수의 판독을 유도하고, 이것은 분자의 컨센서스 서열을 확인하기 위해 단독으로 또는 연속적인 긴 판독 서열 정보와 함께 사용된다. 대부분의 경우에, 펑츄에이션 올리고뉴클레오티드로 표시된 게놈 세그먼트 경계가 확인되고, 펑츄에이션 경계에 인접한 서열은 같은 페이즈로 존재한다고 결론지어진다. 바람직한 경우, 핵산 샘플의 새로운 지지체를 독립적으로 생성하기 위해 충분한 서열이 생성된다.
일부 경우에, 재배열된 핵산 분자는 길이에 기초한 서열결정을 위해 선택된다. 길이 기반 선택은 단지 몇 개의 재배열된 세그먼트만을 함유하는 보다 짧은 재배열된 핵산 분자는 서열결정되지 않거나 보다 적은 수로 서열결정되도록, 보다 많은 재배열된 세그먼트를 함유하는 재배열된 핵산 분자를 선택하기 위해 사용될 수 있다. 보다 많은 재배열된 세그먼트를 함유하는 재배열된 핵산 분자는 보다 적은 재배열된 세그먼트를 함유하는 분자보다 더 많은 페이징 정보를 제공할 수 있다. 재배열된 핵산 분자는 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개 또는 그 초과의 재배열된 세그먼트를 함유하는 분자에 대해 선택될 수 있다. 예를 들어, 재배열된 핵산 분자는 적어도 100 bp, 200 bp, 300 bp, 400 bp, 500 bp, 600 bp, 700 bp, 800 bp, 900 bp, 1 kb, 2 kb, 3 kb, 4 kb, 5 kb, 6 kb, 7 kb, 8 kb, 9 kb, 10 kb, 20 kb, 30 kb, 40 kb, 50 kb, 60 kb, 70 kb, 80 kb, 90 kb, 100 kb, 200 kb, 300 kb, 400 kb, 500 kb, 600 kb, 700 kb, 800 kb, 900 kb, 1 Mb, 2 Mb, 3 Mb, 4 Mb, 5 Mb, 6 Mb, 7 Mb, 8 Mb, 9 Mb, 10 Mb 또는 그 초과의 길이에 대해 선택될 수 있다. 길이 기반 선택은 선택된 길이 미만의 길이를 갖는 재배열된 핵산 분자를 100% 제외하는 확고한 배제일 수 있다. 대안으로, 길이 기반 선택은 선택된 길이 미만의 길이를 갖는 재배열된 핵산 분자를 적어도 99.999%, 99.99%, 99.9%, 99%, 98%, 97%, 96%, 95%, 94%, 93%, 92%, 91%, 90%, 85%, 80%, 75%, 70%, 65%, 60%, 55%, 50%, 45%, 40%, 35%, 30%, 25%, 20%, 15%, 10%, 5%, 4%, 3%, 2%, 또는 1% 제거하는 보다 긴 분자의 농축일 수 있다. 핵산의 길이 선택은 전기영동(예를 들어, 겔 또는 모세관), 여과, 비드 결합(예를 들어, SPRI 비드 크기 선택) 및 유동 기반 방법을 포함하고 이로 제한되지 않는 다양한 기술에 의해 수행될 수 있다.
페이징된 서열 어셈블리
본원에서 설명되는 방법 및 조성물을 사용하여 생성된 서열결정 데이터는 바람직한 실시양태에서 페이징된 새로운 서열 어셈블리를 생성하기 위해 사용된다.
일부 예에서, 다수의 재배열된(및 선택적으로 펑츄에이션된) DNA 분자는 본원에서 개시되는 바와 같이 생성되고, 이어서 긴 판독물 서열결정 기술을 사용하여 서열결정된다. 다수의 재배열된(및 선택적으로 펑츄에이션된) DNA 분자로부터의 서열을 비교하고, 많은 경우에 제1 재배열된(및 선택적으로 펑츄에이션된) 분자는 그의 성분 세그먼트에 대한 페이즈 정보를 결정하기 위해 사용되는 반면, 제2(및 추가의) 재배열된(및 선택적으로 펑츄에이션된) DNA 분자의 비재배열된(및 선택적으로 펑츄에이션된) 영역에 대한 비교는 제1 펑츄에이션된 분자의 세그먼트의 순서를 정하기 위해 사용된다. 이 과정을 서로 반복하면, 각각의 다수의 재배열된 분자에서 대부분의 세그먼트에 대해 페이즈 및 순서 정보가 결정된다. 바람직한 경우, 생성되는 어셈블된 서열은 재배열 전의 투입 DNA 분자의 페이징된 서열이고, 핵산 샘플의 새로운 페이징된 어셈블리를 나타낸다.
대안으로, 본원에서 개시되는 방법 및 조성물을 사용하여 생성된 재배열된 DNA 분자는 긴 판독물 서열결정 기술을 사용하여 서열결정되고, 이와 동시에 투입 DNA는 표준 짧은 판독물 샷건 서열결정 기술을 사용하여 서열결정된다. 이러한 경우, 샘플로부터의 샷건 서열은 재배열된 DNA 분자로부터 생성된 긴 판독 데이터에 매핑되고/되거나, 재배열된 분자로부터의 페이징된 게놈 서열 판독물은 동시에 생성된 짧은 판독 서열결정으로부터 얻어진 서열결정 데이터에 매핑된다. 일부 경우에, 일부의 짧은 판독물은 긴 판독에 의해 생성된 서열에 매핑된다. 이 경우에, 상기 중첩은 짧은 서열 판독이 재배열된 DNA 분자의 긴 서열 판독물로부터 생성된 게놈 서열과 동일한 페이즈에 할당되도록 한다.
페이징된 서열 어셈블리를 생성하는 것과 무관한 정보는 폐기될 수 있다. 한 예에서, 본원에서 논의된 바와 같이 재배열된 DNA 분자가 생성되고 서열결정된다. 재배열된 DNA 분자는 염색체 A에 매핑되는 세그먼트 및 염색체 B에 매핑되는 세그먼트를 포함하는 것으로 밝혀졌다. 일부 경우에, 염색체 B에 매핑되는 세그먼트에 대한 서열 판독 정보는 폐기되거나 사용되지 않을 수 있으며, 염색체 A에 매핑되는 세그먼트만이 페이징된 서열 정보를 생성하기 위해 사용된다. 다른 경우에는, 염색체 A에 매핑되는 세그먼트에 대한 서열 판독 정보는 염색체 A에 대한 페이징된 서열 정보를 생성하기 위해 사용될 수 있는 반면, 염색체 B에 매핑되는 세그먼트에 대한 서열 판독 정보는 염색체 B에 대한 페이징된 서열 정보를 생성하기 위해 사용될 수 있지만, 염색체 A 세그먼트와 염색체 B 세그먼트 사이의 접합부(들)에 대한 정보는 사용되지 않거나 폐기된다.
샘플은 염색체간 근접성 또는 접합부 정보를 감소시키거나 제거하도록 조작될 수 있다. 예를 들어, 세포 샘플은 본원에서 설명되는 바와 같이 재배열 및 서열결정 전에 유사분열 단계에서 동결될 수 있고, 이에 의해 세포 내의 염색체의 통상적인 3 차원 구조를 파괴할 수 있다. 이것은 염색체간 라이게이션을 감소시키거나 제거할 수 있다. 또 다른 예에서, 히스톤의 번역 후 변형은 분석 전에 제거될 수 있다.
핵산 서열 라이브러리
또한, 핵산 서열 라이브러리를 생성하기 위한 방법 및 조성물이 본원에 개시된다. 재배열된 분자를 서열결정하고, 서열 판독이 분석된다. 제시된 판독에 대해, 서열 세그먼트를 관찰하고, 다수의 재배열된 세그먼트로 분석할 수 있다. 펑츄에이션 올리고가 사용되면, 펑츄에이션 요소에 의해 국소적으로 방해받지 않는 서열 세그먼트가 관찰될 수 있다. 서열 세그먼트의 서열 정보는 같은 페이즈로 존재하는 것로 추정되고, 국소적으로 정확한 순서로 정렬하고 배향된다. 접합부의 어느 한 측면상의 세그먼트는 통상적인 샘플 핵산 분자 상에서 서로 같은 페이즈로 존재하는 것으로 추정되지만, 재배열된 핵산 분자 상에서 서로 정확한 순서로 정렬되고 배향될 필요는 없다. 재배열의 이점은 서로 멀리 떨어진 위치에 있는 세그멘트가 종종 근접하게 되어, 샘플 분자에서 이들이 서열 페이징이 어려운 동일한 거리의 먼 거리로 분리되어 있는 경우에도 이들이 공통적인 판독으로 판독되고, 공통 페이즈에 자신있게 할당된다는 것이다. 또 다른 이점은 페이즈 정보 이외에, 일부 경우에 새로운 서열 어셈블리를 수행하기에 충분한 콘티그 정보가 일부 경우에 결정되도록, 세그먼트 서열 자체가 원래의 샘플 서열의 대부분, 실질적으로 전부 또는 전부를 포함한다는 것이다. 이 새로운 서열은 신규한 스캐폴드 또는 콘티그 세트를 생성하거나, 이전에 또는 독립적으로 생성된 콘티그 또는 스캐폴드 서열 세트를 증가시키기 위해 선택적으로 사용된다.
서열결정 라이브러리에서와 같은 재정렬된 분자는 적어도 2, 3, 4, 5, 6, 7, 8, 9, 10개 또는 그 초과의 세그먼트를 포함할 수 있고, 여기서 세그먼트는 원래의 투입 핵산 분자(예를 들어, 투입 게놈 DNA) 상의 다른 세그먼트에 인접하지 않는다. 일부 경우에, 제시된 재배열된 분자 상의 적어도 약 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 96%, 97%, 98%, 99%, 99.9%, 99.99%, 99.999%, 또는 100%의 세그먼트가 공통 스캐폴드에 매핑된다. 일부 경우에, 재배열된 분자의 집단, 예컨대 서열결정 라이브러리에 대해 평균적으로, 제시된 재배열된 분자 상의 적어도 약 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 96%, 97%, 98%, 99%, 99.9%, 99.99%, 99.999%, 또는 100%의 세그먼트가 공통 스캐폴드에 매핑된다.
세그먼트의 길이는 약 100 bp, 200 bp, 300 bp, 400 bp, 500 bp, 600 bp, 700 bp, 800 bp, 900 bp, 1 kb, 1.1 kb, 1.2 kb, 1.3 kb, 1.4 kb, 1.5 kb, 2.0 kb, 2.5 kb, 3.0 kb, 3.5 kb, 4.0 kb, 4.5 kb, 5.0 kb, 5.5 kb, 6.0 kb, 6.5 kb, 7.0 kb, 7.5 kb, 8.0 kb, 8.5 kb, 9.0 kb, 9.5 kb, 10.0 kb 또는 그 초과일 수 있다. 세그먼트의 길이는 적어도 약 100 bp, 200 bp, 300 bp, 400 bp, 500 bp, 600 bp, 700 bp, 800 bp, 900 bp, 1 kb, 1.1 kb, 1.2 kb, 1.3 kb, 1.4 kb, 1.5 kb, 2.0 kb, 2.5 kb, 3.0 kb, 3.5 kb, 4.0 kb, 4.5 kb, 5.0 kb, 5.5 kb, 6.0 kb, 6.5 kb, 7.0 kb, 7.5 kb, 8.0 kb, 8.5 kb, 9.0 kb, 9.5 kb, 10.0 kb 또는 그 초과일 수 있다. 세그먼트의 길이는 최대 약 100 bp, 200 bp, 300 bp, 400 bp, 500 bp, 600 bp, 700 bp, 800 bp, 900 bp, 1 kb, 1.1 kb, 1.2 kb, 1.3 kb, 1.4 kb, 1.5 kb, 2.0 kb, 2.5 kb, 3.0 kb, 3.5 kb, 4.0 kb, 4.5 kb, 5.0 kb, 5.5 kb, 6.0 kb, 6.5 kb, 7.0 kb, 7.5 kb, 8.0 kb, 8.5 kb, 9.0 kb, 9.5 kb, 10.0 kb 또는 그 초과일 수 있다.
재배열된 분자는 적어도 약 100 bp, 200 bp, 300 bp, 400 bp, 500 bp, 600 bp, 700 bp, 800 bp, 900 bp, 1 kb, 1.1 kb, 1.2 kb, 1.3 kb, 1.4 kb, 1.5 kb, 2.0 kb, 2.5 kb, 3.0 kb, 3.5 kb, 4.0 kb, 4.5 kb, 5.0 kb, 5.5 kb, 6.0 kb, 6.5 kb, 7.0 kb, 7.5 kb, 8.0 kb, 8.5 kb, 9.0 kb, 9.5 kb, 10.0 kb 또는 그 초과의 길이를 갖는 적어도 2, 3, 4, 5, 6, 7, 8, 9, 10개 또는 그 초과의 세그먼트를 가질 수 있다. 일부 경우에, 재배열된 분자는 길이가 적어도 500 bp인 적어도 3개의 세그먼트를 갖는다. 일부 경우에, 재배열된 분자는 길이가 적어도 500 bp인 적어도 4개의 세그먼트를 갖는다. 일부 경우에, 재배열된 분자는 길이가 적어도 500 bp인 적어도 5개의 세그먼트를 갖는다. 일부 경우에, 재배열된 분자는 길이가 적어도 500 bp인 적어도 6개의 세그먼트를 갖는다.
재배열된 분자는 재배열된 분자 내의 모든 세그먼트에 걸쳐 합산될 때, 하나의 원래의 핵산 분자로부터의(예를 들어, 하나의 염색체로부터의) 적어도 100 bp, 200 bp, 300 bp, 400 bp, 500 bp, 600 bp, 700 bp, 800 bp, 900 bp, 1 kb, 1.1 kb, 1.2 kb, 1.3 kb, 1.4 kb, 1.5 kb, 2.0 kb, 2.5 kb, 3.0 kb, 3.5 kb, 4.0 kb, 4.5 kb, 5.0 kb, 5.5 kb, 6.0 kb, 6.5 kb, 7.0 kb, 7.5 kb, 8.0 kb, 8.5 kb, 9.0 kb, 9.5 kb, 10.0 kb를 포함할 수 있다. 일부 경우에, 재배열된 분자는 재배열된 분자 내의 모든 세그먼트에 걸쳐 합산될 때, 하나의 원래의 핵산 분자로부터의(예를 들어, 하나의 염색체로부터의) 적어도 1000 bp를 포함한다. 일부 경우에, 재배열된 분자는 재배열된 분자 내의 모든 세그먼트에 걸쳐 합산될 때, 하나의 원래의 핵산 분자로부터의(예를 들어, 하나의 염색체로부터의) 적어도 2000 bp를 포함한다. 일부 경우에, 재배열된 분자는 재배열된 분자 내의 모든 세그먼트에 걸쳐 합산될 때, 하나의 원래의 핵산 분자로부터의(예를 들어, 하나의 염색체로부터의) 적어도 3000 bp를 포함한다. 일부 경우에, 재배열된 분자는 재배열된 분자 내의 모든 세그먼트에 걸쳐 합산될 때, 하나의 원래의 핵산 분자로부터의(예를 들어, 하나의 염색체로부터의) 적어도 4000 bp를 포함한다. 일부 경우에, 재배열된 분자는 재배열된 분자 내의 모든 세그먼트에 걸쳐 합산될 때, 하나의 원래의 핵산 분자로부터의(예를 들어, 하나의 염색체로부터의) 적어도 5000 bp를 포함한다.
일부 경우에, 매핑은 강화된 특유한 매핑을 통해 수행될 수 있다. 일부 경우에, 약 50%, 45%, 40%, 35%, 30%, 25%, 20%, 15%, 10%, 5%, 4%, 3%, 2%, 1%, 0.1%, 0.01% 또는 0.001%의 세그먼트가 불명확하게 매핑된다(예를 들어, 여러 위치에 매핑된다).
서열결정 라이브러리는 적어도 약 10, 100, 1000, 10,000, 100,000, 1백만, 1백10만, 1백20만, 1백30만, 1백40만, 1백50만, 1백60만, 1백70만, 1백80만, 1백90만, 2백만, 3백만, 4백만, 5백만, 6백만, 7백만, 8백만, 9백만, 천만, 2천만, 3천만, 4천만, 5천만, 6천만, 7천만, 8천만, 9천만, 1억, 2억, 3억, 4억, 5억, 6억, 7억, 8억, 9억, 10억, 20억, 30억, 40억, 50억, 60억, 70억, 80억, 90억, 100억, 1천억, 2천억, 3천억, 4천억, 5천억, 6천억, 7천억, 8천억, 9천억, 1조 개의 재배열된 분자를 포함할 수 있다.
서열결정 라이브러리 내의 재배열된 분자는 서열결정을 위해 필요한 어댑터, 표지, 또는 다른 성분, 예컨대 특정 인식 서열, 혼성화 서열, 헤어핀(예를 들어, SMRTbell), 태그(예를 들어, NanoTag), 표지, 염료, 또는 바코드를 포함할 수 있다.
일부 경우에, 다수의 재배열된 DNA 분자는 본원에서 개시되는 바와 같이 생성되고, 이어서 긴 판독물 서열결정 기술을 사용하여 서열결정된다. 각각의 재배열된 분자는 서열결정되고, 서열 판독이 분석된다. 바람직한 예에서, 서열 판독 길이는 서열 반응에 대해 평균적으로 적어도 약 5 kb 또는 적어도 약 10 kb 이다. 다른 예에서, 서열 판독 길이는 평균적으로 적어도 약 5 kb, 6 kb, 7 kb, 8 kb, 9 kb, 10 kb, 11 kb, 12 kb, 13 kb, 14 kb, 15 kb, 16 kb, 17 kb, 18 kb, 19 kb, 20 kb, 21 kb, 22 kb, 25 kb, 30 kb, 35 kb, 40 kb, 또는 그 초과이다. 바람직한 예에서, 적어도 500개 염기의 제1 세그먼트 및 500개 염기의 제2 세그먼트를 포함하는 서열 판독물이 확인되고, 여기서 제1 및 제2 세그먼트는 원래의 샘플 투입 핵산 상에 인접하지 않은다. 세그먼트는 펑츄에이션 올리고 서열에 의해 연결될 수 있다. 다른 예에서, 서열 판독물은 적어도 약 100개 염기, 200개 염기, 300개 염기, 400개 염기, 500개 염기, 600개 염기, 700개 염기, 800개 염기, 900개 염기, 1000개 염기 또는 그 초과의 제1 DNA 세그먼트 및 적어도 약 100개 염기, 200개 염기, 300개 염기, 400개 염기, 500개 염기, 600개 염기, 700개 염기, 800개 염기, 900개 염기, 1000개 염기 또는 그 초과의 제2 DNA 세그먼트를 포함한다. 일부 예에서, 제1 및 제2 세그먼트 서열은 스캐폴드 게놈에 매핑되고, 적어도 100 kb만큼 분리된 콘티그에 매핑되는 것으로 밝혀졌다. 다른 예에서, 분리 거리는 적어도 약 8 kb, 9 kb, 10 kb, 12.5 kb, 15 kb, 17.5 kb, 20 kb, 25 kb, 30 kb, 35 kb, 40 kb, 45 kb, 50 kb, 60 kb, 70 kb, 80 kb, 90 kb, 100 kb, 125 kb, 150 kb, 200 kb, 300 kb, 400 kb, 500 kb, 600 kb, 700 kb, 800 kb, 900 kb, 1Mb 또는 그 초과이다. 대부분의 경우, 제1 콘티그 및 제2 콘티그는 그의 페이즈가 스캐폴드에서 결정되지 않는 하나의 이형접합성 위치를 각각 포함한다. 바람직한 예에서, 제1 콘티그의 이형접합성 위치는 긴 판독물의 제1 세그먼트에 의해 걸쳐지고, 제2 콘티그의 이형접합성 위치는 긴 판독물의 제2 세그먼트에 의해 걸쳐진다. 이 경우, 각각의 판독물은 각각 그의 콘티그의 각각의 이형접합성 영역에 걸쳐있고, 판독 세그먼트의 서열은 제1 콘티그의 제1 대립 유전자 및 제2 콘티그의 제1 대립 유전자가 같은 페이즈로 존재함을 나타낸다. 제1 및 제2 핵산 세그먼트로부터의 서열이 하나의 긴 서열 판독에서 검출되는 경우, 제1 및 제2 핵산 세그먼트는 투입 DNA 샘플에서 동일한 DNA 분자에 포함되는 것으로 결정된다. 이러한 바람직한 실시양태에서, 본원에서 개시되는 방법 및 조성물에 의해 생성된 핵산 서열 라이브러리는 게놈 스캐폴드 상에 서로 멀리 떨어져 위치하는 콘티그에 대한 페이즈 정보를 제공한다.
대안으로, 다수의 페어링된 말단부 분자는 본원에서 설명되는 바와 같이 생성되고, 이어서 긴 판독물 서열결정 기술을 사용하여 서열결정된다. 일부 경우에, 라이브러리의 평균 판독 길이는 약 1 kb로 결정된다. 다른 경우에, 라이브러리의 평균 판독 길이는 약 100 bp, 200 bp, 300 bp, 400 bp, 500 bp, 600 bp, 700 bp, 800 bp, 900 bp, 1 kb, 1.1 kb, 1.2 kb, 1.3 kb, 1.4 kb, 1.5 kb, 2.0 kb, 2.5 kb, 3.0 kb, 3.5 kb, 4.0 kb, 4.5 kb, 5.0 kb, 5.5 kb, 6.0 kb, 6.5 kb, 7.0 kb, 7.5 kb, 8.0 kb, 8.5 kb, 9.0 kb, 9.5 kb, 10.0 kb 또는 그 초과이다. 많은 예에서, 페어링된 말단부 분자는 투입 DNA 샘플 내에서 같은 페이즈로 존재하고 10 kb 이초과의 거리만큼 분리된 제1 DNA 세그먼트 및 제2 DNA 세그먼트를 포함한다. 일부 예에서, 그러한 2개의 DNA 세그먼트 사이의 분리 거리는 약 5 kb, 6 kb, 7 kb, 8 kb, 9 kb, 10 kb, 11 kb, 12 kb, 13 kb, 14 kb, 15 kb, 20 kb, 23 kb, 25 kb, 30 kb, 32 kb, 35 kb, 40 kb, 50 kb, 60 kb, 75 kb, 100 kb, 200 kb, 300 kb, 400 kb, 500 kb, 750 kb, 1 Mb 또는 그 초과보다 크다. 대부분의 경우, 서열 판독물은 페어링된 말단부 분자로부터 생성되며, 이들 중 일부는 제1 핵산 세그먼트로부터의 적어도 300개 염기의 서열 및 제2 핵산 세그먼트로부터의 적어도 300개 염기의 서열을 포함한다. 다른 예에서, 서열 판독물은 제1 DNA 세그먼트의 적어도 약 50개 염기, 100개 염기, 150개 염기, 200개 염기, 250개 염기, 300개 염기, 350개 염기, 400개 염기, 450개 염기, 500개 염기, 550개 염기, 600개 염기, 650개 염기, 700개 염기, 750개 염기, 800개 염기 또는 그 초과의 염기 및 제2 DNA 세그먼트의 적어도 약 50개 염기, 100개 염기, 150개 염기, 200개 염기, 250개 염기, 300개 염기, 350개 염기, 400개 염기, 450개 염기, 500개 염기, 550개 염기, 600개 염기, 650개 염기, 700개 염기, 750개 염기, 800개 염기 또는 그 초과의 염기를 포함한다. 제1 및 제2 핵산 세그먼트로부터의 서열이 단일 서열 판독에서 검출되는 경우, 제1 및 제2 핵산 세그먼트는 투입 DNA 샘플에서 동일한 DNA 분자에 같은 페이즈로 존재하는 것으로 결정될 수 있다. 이러한 경우에, 생성된 서열 라이브러리는 그를 서열결정하기 위해 사용된 서열결정 기술의 판독 길이를 초과하는 거리만큼 핵산 샘플에서 분리된 DNA 세그먼트에 대한 페이즈 정보를 제시한다.
대안으로, 다수의 서열 판독물은 본원에서 개시되는 바와 같이 재배열된 DNA 핵산 서열 라이브러리로부터 생성된다. 일부 경우에, 라이브러리는 세그먼트 접합부의 어느 한 측면 상의 세그먼트가 단일 분자 상에서 같은 페이즈로 존재하는 것으로 결정되도록, 본원에서 개시되고 아래에서 제공되는 실시예에 기재된 바와 같이 페이즈 정보를 전달한다. 일부 예에서, 생성된 서열 판독물은 투입 DNA 샘플의 적어도 80%의 핵산 서열을 나타낸다. 다른 예에서, 생성된 서열 판독물은 투입 DNA 샘플의 적어도 약 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 100%의 핵산 서열을 나타낸다. 바람직한 예에서, 서열 판독물은 투입 DNA 샘플의 적어도 80%에 걸치는 새로운 콘티그 정보를 생성하기 위해 사용된다. 다른 예에서, 서열 판독물은 투입 DNA 샘플의 적어도 약 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 100%에 걸치는 새로운 콘티그 정보를 생성하기 위해 사용된다. 대부분의 경우, 서열 판독물은 페이즈 정보를 결정하기 위해 사용되며, 이것은 후속적으로 투입 DNA 샘플의 페이징된 서열 어셈블리를 생성하기 위해 콘티그를 서로에 대해 순서대로 정렬하고 배향시키기 위해 선택적으로 사용된다. 바람직한 실시양태에서, 재배열된 DNA 분자로부터 생성된 핵산 서열 라이브러리는 페이즈 정보를 전달하고, 바람직하게는 새로운 서열 어셈블리가 동시에 생성되도록 전체 핵산 서열의 실질적인 부분을 포함하는 서열 정보를 포함한다.
재배열된 분자의 라이브러리의 서열결정은 적어도 약 1X, 2X, 3X, 4X, 5X, 6X, 7X, 8X, 9X, 10, 11X, 12X, 13X, 14X, 15X, 16X, 17X, 18X, 19X, 20X, 21X, 22X, 23X, 24X, 25X, 26X, 27X, 28X, 29X, 30X, 31X, 32X, 33X, 34X, 35X, 336X, 37X, 38X, 39X, 40X, 41X, 42X, 43X, 44X, 45X, 46X, 47X, 48X, 49X, 50X, 55X, 60X, 65X, 70X, 75X, 80X, 85X, 90X, 95X, 100X 또는 그 초과의 서열결정 커버리지를 달성하기 위해 수행될 수 있다.
보존된 DNA 분자 페이징
또한, 바람직한 실시양태에서, 거의 모든 투입 핵산 분자를 포함하는 핵산 서열을 페이징하고 새로이 어셈블하기 위한 방법 및 조성물이 본원에서 개시된다.
본 개시내용의 기술은 단일 뉴클레오티드 다형성(SNP), 삽입 또는 결실(INDEL) 및 구조적 변이체(SV)를 포함하고 이로 제한되지 않는 다양한 마커를 페이징하기 위해 사용될 수 있다. 예를 들어, 재배열된 DNA 분자 상에 2개 이상의 세그먼트가 함께 존재하는 것은 세그먼트의 서열이 같은 페이즈로 존재함을 추정하기 위해 사용될 수 있다. 이를 통해, 이전에 알려진 마커의 페이징에 의존하지 않으면서 페이징을 수행할 수 있다. 일부 경우에, SNP가 페이징된다. 일부 경우에는, INDEL이 페이징된다. 일부 경우에, SV가 페이징된다. 페이징은 하나 이상의 마커를 참조하여 확인할 수 있다. 일부 경우에, 페이징은 SNP를 참조하여 확인된다. 일부 경우에, 페이징은 SNP를 참조하지 않으면서 확인된다. 일부 경우에는, 페이징은 INDEL를 참조하여 확인된다. 일부 경우에, 페이징은 INDEL을 참조하지 않으면서 확인된다. 일부 경우에, 페이징은 SV를 참조하여 확인된다. 일부 경우에, 페이징은 SV를 참조하지 않으면서 확인된다. 일부 예에서, 고분자량(HMW) 핵산 샘플은 관련 기술 분야에 공지된 표준 방법을 사용하여 추출된다. 대부분의 경우, 이들 HMW 핵산 샘플은 길이가 적어도 100 kb인 적어도 일부의 핵산 분자를 포함한다. 하나 이상의 100 kb 핵산 분자는 표준 서열결정 기술의 평균 판독 길이보다 더 긴 거리만큼 분리된 제1 핵산 세그먼트 및 제2 핵산 세그먼트를 포함한다. 다른 예에서, 핵산 샘플은 길이가 적어도 약 30 kb, 40 kb, 50 kb, 60 kb, 70 kb, 80 kb, 90 kb, 100 kb, 110 kb, 120 kb, 130 kb, 140 kb, 150 kb 또는 그 초과인 적어도 일부의 핵산 분자를 포함하고, 그 중 하나 이상은 본원에서 설명되는 것과 같은 표준 서열결정 기술의 평균 판독 길이보다 더 긴 거리만큼 분리된 제1 핵산 세그먼트 및 제2 핵산 세그먼트를 적어도 포함한다.
페이즈 정보가 상기 예인지를 결정하기 위해, 제1 및 제2 핵산 세그먼트는 단일 서열결정 판독 내에서 검출될 필요가 있다. 따라서, 제1 및 제2 핵산 세그먼트의 상대적인 위치는 제1 및 제2 DNA 세그먼트가 표준 서열결정 기술의 평균 판독 길이보다 더 짧은 거리로 분리되도록 변경되어야 한다. 원하는 페이즈 정보를 생성하기 위해, 상기 재배열은 페이즈 정보를 손실시키지 않아야 한다. 바람직한 예에서, 상기 재배열은 본원에서 개시되는 방법 및 조성물에 의해 및 아래에서 제시되는 실시예에서 설명되는 바와 같이 달성된다. 바람직한 예에서, 페이즈 유지 재배열 동안, 출발 핵산 분자의 10% 이하가 결실된다. 즉, 제1 세그먼트 및 제2 세그먼트는 단순히 개재 서열을 결실시킴으로써 근접되지 않는다. 오히려, 세그먼트는 대부분의 개재 서열을 결실시키지 않으면서 서로에 대해 재배열된다. 다른 예에서, 출발 핵산 분자의 약 2%, 5%, 7%, 10%, 12%, 13%, 14%, 15%, 20%, 23%, 25%, 30%, 35%, 40%, 50%, 55%, 60%, 70%, 80%, 90% 또는 95%가 결실된다. 바람직한 예에서, 거의 모든 투입 핵산 분자가 보존되기 때문에, 서열결정 후에 생성된 서열 판독은 거의 모든 투입 핵산 분자가 서열결정되고, 어셈블되고, 페이징되도록 새롭게 생성된 콘티그를 어셈블하고, 순서대로 정렬하고, 배향시키기 위해 사용된다.
응용 분야
본 개시내용의 기술은 새로운 서열 어셈블리(페이징된 서열 어셈블리 포함)의 생성, 스캐폴드에 대한 판독물의 매핑(페이징 정보 이용 포함), 페이징 정보의 결정 및 구조적 변이체의 확인을 포함하고 이로 제한되지 않는 다양한 유전학 및 게놈학 응용을 위해 사용될 수 있다.
본원에서 개시되는 기술은 비제한적인 예로서 법의학, 농업, 환경 연구, 재생 가능 에너지, 전염병학 또는 질병 발생 반응 및 종 보존을 포함하는 많은 분야에서 유용하다.
본 개시내용의 기술은 암과 같은 질병 상태를 진단하기 위해 사용될 수 있다. 본 개시내용의 기술은 임상적으로 중요한 영역의 페이징, 구조적 변이체의 분석, 위유전자(pseudogene)(예를 들어, STRC)의 분석, 암에서 약물화 가능한(drugable) 구조적 변이체에 대한 표적화된 패널 및 기타 용도에 사용될 수 있다. 예를 들어, 선상으로 멀리 떨어져 존재하거나 또는 별개의 염색체 상에 존재하는 게놈의 영역 사이에 과도한 근접 라이게이션 사건의 발생은 암과 같은 질병을 나타낼 수 있다.
이환되었거나 또는 이환된 것으로 의심되는 조직으로부터의 천연 염색질은 본 개시내용의 기술을 사용하여 분석될 수 있다. 상기 조직 샘플 내의 게놈의 3차원 구조는 예를 들어 조직 부피 내의 상이한 위치로부터의 여러 샘플을 분석함으로써 분석할 수 있다.
새로운 게놈 어셈블리와 같은 일부 경우에, 생물학적 또는 병리학적 신호는 이들 데이터로부터 제거될 수 있다. 예를 들어, 세포는 근접 라이게이션 전에 3차원 구조를 고정시키는 고정제를 첨가하기 전에, 유사 분열을 정지시키거나 이질염색질(heterochromatin) 또는 게놈 구조의 다른 국소적 특성을 파괴하는 시약으로 처리될 수 있다. 그러한 경우, 생성되는 데이터는 진단 유용성이 결여될 수 있지만, 게놈 어셈블리에 최대한 유용할 수 있다.
본원에서 개시되는 바와 같이 생성된 분자 및 라이브러리는 서열 정보를 이배체 유기체의 게놈 어셈블리에서 원래의 특정 분자 또는 원래의 자매 염색분체(sister chromatid)에 할당하기 위해 수행되는 것과 같이, 게놈 어셈블리 및 콘티그 또는 다른 서열 정보 페이징에 관련된 응용 분야와 같은 다수의 응용 분야에서 사용된다.
분자를 서열결정하고, 연속적인 세그먼트를 공통적인 콘티그 또는 스캐폴드의 연속적인 염기에 대한 매핑으로 확인한다. 세그먼트 사이의 접합부는 염기가 공통적인 콘티그 또는 스캐폴드의 연속적인 염기에 대한 매핑을 중단하는 영역으로서 확인된다. 일부 경우에, 게놈의 여러 영역에 매핑되는 핵산 서열(예컨대, 반복 서열)은 폐기된다. 대안적으로, 특히 반복 서열의 한쪽 또는 양쪽 말단부가 공통 스캐폴드에 매핑되고 반복 서열의 말단부에서 특유하게 매핑되는 서열에 대한 서열 위치 사이의 차이가 스캐폴드에 포함되는 반복 영역과 일치하면, 반복 영역은 그의 인접한 특유한 서열이 있는 공통적인 세그먼트에 할당된다.
바람직한 실시양태에서, 본원에서 개시되는 분자 또는 라이브러리 성분의 인접 세그먼트는 게놈의 공통 분자의 공통 페이즈에 할당된다. 즉, 그에 대해 세그먼트가 매핑된 콘티그는 공통 페이즈에 할당되고, 하나 또는 두 세그먼트에 의해 표시되는 단일 뉴클레오티드 다형성, 삽입, 결실, 염기전환(transversion), 전좌(translocation) 또는 다른 핵산 특징은 공통 분자에 할당된다.
종종, 라이브러리의 단일 분자 상에서의 세그먼트의 공존은, 하나 또는 두 세그먼트에 의해 표시되는 단일 뉴클레오티드 다형성, 삽입, 결실, 염기전환, 전좌 또는 다른 핵산 특징이 공통 분자에 할당됨을 나타내기 위해, 모든 또는 대부분의 세그먼트는 공통 스캐폴드 또는 콘티그에 매핑된다. 일부 경우에, 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 99% 초과의 세그먼트, 또는 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 99% 초과의 세그먼트 서열이 공통 스캐폴드에 매핑된다.
일부 경우에, 물리적 연결 또는 페이즈 정보를 반영하도록 세그먼트 라이게이션 가능성을 보장하거나 증가시키기 위해, 또는 라이게이션된 세그먼트가 원래의 공통적인 물리적 분자로부터 발생하도록 하기 위해 분자 생성을 풍부하게 하는 것이 유리하다. 많은 방법들이 이 목표를 달성한다.
본원에서 논의되는 바와 같이, 일부 경우에, 라이브러리는 염색질 또는 다른 핵산 결합 모이어티가 어셈블된 단리된 핵산 분자의 절단 및 재라이게이션을 통해 생성된다. 분자를 단리함으로써, 예를 들어, 핵산 결합 단백질 또는 다른 천연 염색질 성분으로부터 분자를 분리함으로써, 개별 분자를 서로 분리시킬 수 있다. 별개의 세그먼트가 공통 포스포디에스테르 골격과는 독립적으로 함께 유지되도록 단리된 핵산 분자를 결합시킴으로써, 절단된 세그먼트가 2개의 세그먼트에 공통적인 원래의 분자로부터 유래된 제2 세그먼트에 다시 연결될 가능성이 있도록, 절단 및 재라이게이션 과정 동안 원래의 분자의 세그먼트에 공통 페이즈 정보가 보존된다. 이 빈도는 예를 들어 염색질 어셈블리 전에 분자를 희석하거나, 별개의 분자로부터의 세그먼트가 라이게이션될 가능성이 있는 밀도보다 낮은 밀도로 공통 표면 상의 별개의 위치에 핵산 분자를 부착시킴으로써와 같은 임의의 수의 방법을 통해 증가한다. 소화 및 어셈블리를 위해 분자를 고정하기 위해 비드, 예컨대 SPRI 비드를 사용할 때, 표면적이 더 큰 비드를 선택하거나, 결합에 사용할 수 있는 총 전체 표면적을 증가시키기 위해 더 많은 비드를 추가하는 것은 일부 경우에 분자간 라이게이션 사건의 가능성을 감소시킨다.
대안으로, 일부 경우에 세포를 고정제를 사용하여 처리될 때 발생하는 것과 같은, 천연 염색질에 의해 결합되는 핵산 분자 사이의 분자간 상호작용을 감소시키는 단계가 수행된다. 그러한 단계의 예는 분자간 상호작용이 최소화될 수 있도록 그의 세포 주기의 특정 지점에서 세포를 능동적으로 표적화하는 단계를 포함한다. 이것은 염색체가 분자간 라이게이션 사건을 유도할 수 있는 하위 핵(sub-nuclear) 구조로 어셈블될 가능성이 낮을 때, 그의 핵산에 선택적으로 접근할 수 있도록 유사분열에서 세포를 동결 또는 고정함으로써 수행된다. 대안으로 또는 조합하여, 히스톤의 번역 후 변형을 제거하기 위해, 3차원 매핑 정보를 제거하고 이와 동시에, 서열결정/페이징 정보를 위한 라이브러리 생성에서 한 분자로부터의 세그먼트가 서로 라이게이션할 가능성을 개선하기 위해 세포, 핵 또는 세포로부터 단리된 염색질이 처리된다.
재배열된 라이브러리 형성에서 분자간 라이게이션 사건을 감소시키는 생화학적 또는 '습식-랩(wet-lab)' 방법 이외에도, 컴퓨터를 이용한(computational) 방법이 또한 페이즈 결정에 대한 분자간 라이게이션 사건의 영향을 감소시키기 위해 이용 가능하다. 예를 들어, 일부 경우에, 개별 분자는 라이게이션된 재배열된 분자에서 특유하게 매핑되는 세그먼트의 매핑 분포를 평가함으로써 스크리닝된다. 역치 수준을 초과하는 수준으로 가능한 별개의 분자에 매핑되는 세그먼트를 포함하는 분자는 제외된다. 즉, 일부 경우에 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95% 또는 최대 99% 또는 그 초과의 비율 미만으로 공통적인 스캐폴드에 특유하게 매핑되는 세그먼트를 포함하는 분자에 대한 서열 정보는 추가의 분석에서 제외된다. 예시적인 경우에, 상기 역치는 70% 또는 약 70%, 또는 80% 또는 약 80%, 또는 90% 또는 약 90%이다. 이들 경우에, 제1 공통 스캐폴드 이외의 다른 곳에 매핑되는 일정 비율의 세그먼트를 포함하는 분자의 서열은 분석에서 제외된다.
유사하게, 일부 경우에, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95% 또는 최대 99% 또는 그 초과의 비율 미만으로 공통적인 스캐폴드에 매핑되는 특유하게 매핑되는 서열을 포함하는 분자에 대한 서열 정보는 추가의 분석에서 제외된다. 예시적인 경우에, 상기 역치는 70% 또는 약 70%, 또는 80% 또는 약 80%, 또는 90% 또는 약 90%이다. 이들 경우에, 제1 공통 스캐폴드 이외의 다른 곳에 매핑되는 일정 비율의 특유하게 매핑되는 서열을 포함하는 분자의 서열은 분석에서 제외된다.
대안으로 또는 조합하여, 하나 초과의 스캐폴드에 특유하게 매핑되는 세그먼트를 포함하는 분자의 서열은 SNP 데이터, 삽입 데이터, 결실 데이터, 역위 데이터 또는 서열결정된 세그먼트에서 포착될 수 있는 다른 게놈 재배열 정보를 상실하지 않으면서 페이즈 결정에 대한 영향을 최소화하도록 추가로 처리된다. 예를 들어, 2개의 스캐폴드에(주로 또는 독점적으로) 특유하게 매핑되는 세그먼트를 포함하는 분자 서열의 경우, 제1 스캐폴드에 매핑되는 세그먼트는 그 스캐폴드의 공통 페이즈에 할당되고, 제2 스캐폴드에 매핑되는 세그먼트는 제2 스캐폴드의 공통 페이즈에 할당된다. 즉, 제1 공통 스캐폴드에 매핑되는 세그먼트는 그 스캐폴드 상의 공통 페이즈에 할당되는 반면, 제2 공통 스캐폴드에 매핑되는 세그먼트는 제2 스캐폴드에 대한 공통 페이즈 정보를 제공하는 것으로 결정되지만, 제1 스캐폴드에 패핑되는(예컨대, 특유하게 매핑되는) 세그먼트는 제2 스캐폴드에 패핑되는 세그먼트에 대한 페이즈 정보에 관해 유익한 것으로 결정되지 않는다.
대안으로, 일부 경우에, 제1 스캐폴드에 특유하게 매핑되는 세그먼트의 제1 집단 및 제2 스캐폴드에 특유하게 매핑되는 세그먼트의 제2 집단을 포함하는 다수의 독립적인 분자 서열이 얻어진다. 이 경우에, 제1 스캐폴드 및 제2 스캐폴드가 예를 들어 분석 중인 샘플 게놈에서 전좌로 인해 핵산 샘플에서 사실상 같은 페이즈로 존재한다고 임의로 추정된다.
이러한 방법은 재배열된 라이브러리 및 재배열된 라이브러리의 서열 데이터가 그로부터 유래하는 기초를 이루는 분자의 페이즈에 대해 유익한 것으로 보이는 분자 서열에 대한 선택적인 농축을 허용한다.
일부 경우에, 서열 정보 및 페이즈 정보를 얻기 위해 라이브러리 생성 및 서열 분석을 조합하여 사용한다. 이 경우의 일부에서, 라이게이션 접합부는 예를 들어 긴 판독물 서열결정 기술에 적합하고 이 기술의 판독에서 쉽게 확인되는 변형된 뉴클레오티드 염기를 사용하여 표지된다. 그 예가 본원에서 제공된다.
이러한 접합부 마커를 사용하여, 세그먼트 서열과 독립적으로 높은 신뢰도로 세그먼트 접합부를 확인할 수 있다. 따라서, 라이브러리 구조에서의 서열 재배열은 샘플에서 발생하는 '재배열 사건'과 쉽게 구분되고, 샘플 핵산 서열 또는 구조를 반영한다. 그러한 사건은 예를 들어 삽입, 결실, 역위, 염기전환 또는 전좌를 포함한다. 상기 사건이 변형된 핵산과 같은 접합부 마커에 의해 태그 부가되지 않을 때, 세그먼트에서 상기 사건을 관찰하면, 이것은 사건이 기초를 이루는 샘플 서열을 반영하고 있음을 나타낸다.
대안으로 또는 조합하여, 분자 구조에 대한 어느 정도의 신뢰를 제공하기 위해 라이브러리 커버리지의 정도에 의존할 수 있다. 즉, 다수의 독립적으로 생성된 라이브러리 성분을 서열결정할 때, 공통적인 재배열 프로파일을 공유하는 다수의 독립적으로 생성된 세그먼트를 발견할 수 있다. 이러한 프로파일이 다수의 독립적으로 유도된 라이브러리 성분에서 공통적인 '재배열 사건'을 포함하면, 이들이 나타내는 '재배열 사건'은 라이브러리 생성 과정의 산물이 아니라 기초를 이루는 샘플 서열을 반영한다고 추정할 수 있다.
매우 다양한 라이브러리 성분은 본원의 개시내용에 부합한다. 라이브러리 성분은 바람직하게는 서열결정 기술이 라이브러리를 서열결정하는 데 가장 효율적으로 사용되도록, 널리 사용되는 긴 판독물 서열결정 기술의 단일 판독보다 평균적으로 더 길다. 그러나 이것은 절대적인 요구 사항은 아니며, 긴 범위의 서열결정 실행의 길이보다 더 작은 성분을 포함하거나 주로 이 성분을 포함하거나 또는 이 성분으로 이루어지는 라이브러리는 본원의 개시내용에 부합한다.
본원에서 개시되는 라이브러리는 라이브러리에서 제시되는 전체 샘플에서 그의 비율, 평균 또는 중간 재배열된 분자 크기, 세그먼트 크기, 및 분자당 세그먼트의 수에서 상이할 수 있다. 많은 실시양태에서, 라이브러리는 하나의 긴 판독물이 라이브러리의 분자 성분의 3개의 세그먼트 중 적어도 일부에 걸쳐 있도록 구성된다. 많은 실시양태에서, 라이브러리는 같은 페이즈로 존재하지만 게놈 샘플 전체에 걸쳐 분산된 세그먼트가, 공통 분자의 공통 페이즈에 대한 그의 할당을 용이하게 하기 위해 하나의 긴 범위의 서열 판독물에 인접하거나 그렇지 않으면 포함되도록 재구성되도록 구성된다.
컴퓨터 시스템 및 그의 작동의 개선
본원에서 설명되는 방법은 일부 경우에, 예를 들어 메모리(1010), 또는 전자 저장 장치(115)와 같은 서버(1001)의 전자 저장 위치에 저장된 기계(또는 컴퓨터 프로세서) 실행 가능 코드(또는 소프트웨어)에 의해 실행된다. 사용 동안, 코드는 프로세서(1005)에 의해 실행될 수 있다. 일부 경우에, 코드는 저장 장치(1015)으로부터 검색되고, 프로세서(1005)에 의한 액세스 준비를 위해 메모리(1010) 상에 저장될 수 있다. 일부 상황에서, 전자 저장 장치(115)는 배제될 수 있고, 기계 실행 가능 명령어가 메모리(1010)에 저장된다. 대안으로, 코드는 제2 컴퓨터 시스템(1040) 상에서 실행될 수 있다.
서버(1001)와 같은 본원에서 제공되는 시스템 및 방법의 측면은 프로그래밍으로 구체화될 수 있다. 기술의 다양한 측면은 전형적으로 기계 판독 가능 매체(machine readable medium)의 형태로 수행되거나 구현되는 기계(또는 프로세서) 실행 가능 코드 및/또는 관련 데이터의 형태인 "제품" 또는 "제조품"으로 생각될 수 있다. 기계 실행 가능 코드는 메모리(예를 들어, 판독 전용 메모리, 무작위 액세스 메모리, 플래시 메모리) 또는 하드 디스크와 같은 전자 저장 장치에 저장될 수 있다. "저장" 유형의 매체는 컴퓨터, 프로세서 등의 임의의 또는 모든 유형의 메모리 또는 이들의 관련 모듈, 예컨대 다양한 반도체 메모리, 테이프 드라이브, 디스크 드라이브 등을 포함할 수 있고, 이는 소프트웨어 프로그래밍을 위해 언제든지 비일시적인 저장을 제공할 수 있다. 소프트웨어의 전부 또는 일부는 때때로 인터넷 또는 다양한 다른 원격 통신 네트워크를 통해 전달될 수 있다. 예를 들어, 이러한 전달을 통해, 하나의 컴퓨터 또는 프로세서로부터 다른 컴퓨터 또는 프로세서로, 예를 들어 관리 서버 또는 호스트 컴퓨터로부터 응용 프로그램 서버의 컴퓨터 플랫폼으로 소프트웨어를 로딩할 수 있다. 따라서, 소프트웨어 요소를 보유할 수 있는 또 다른 유형의 매체는 유선 및 광 지상통신(optical landline) 네트워크 및 다양한 무선 링크를 통해 로컬 장치 사이의 물리적 인터페이스에 걸쳐 사용되는 것과 같은 광파, 전기파 및 전자기파를 포함한다. 유선 또는 무선 등, 광 링크 등과 같은 상기 파를 운반하는 물리적 요소가 또한 소프트웨어를 탑재한 매체로 간주될 수 있다. 본원에서 사용되는 바와 같이, 비일시적 유형 "저장" 매체에 한정되지 않는 한, 컴퓨터 또는 기계 "판독 가능 매체"와 같은 용어는 실행을 위해 프로세서에 명령어를 제공하는데 참여하는 임의의 매체를 지칭할 수 있다.
따라서, 컴퓨터 실행 가능 코드와 같은 기계 판독 가능 매체는 유형의 저장 매체, 반송파(carrier wave) 매체 또는 물리적 전송 매체를 포함하고 이로 제한되지 않는 많은 형태를 취할 수 있다. 비휘발성 저장 매체는 예를 들어 임의의 컴퓨터(들) 등의 임의의 저장 장치와 같은 광 또는 자기 디스크를 포함할 수 있고, 이는 시스템을 실행하는데 사용될 수 있다. 유형의 전송 매체는 동축 케이블, 구리선 및 광섬유(컴퓨터 시스템 내의 버스(bus)를 포함하는 와이어 포함)를 포함할 수 있다. 반송파 전송 매체는 전기 또는 전자기 신호, 또는 음파 또는 광파, 예컨대 무선 주파수(RF) 및 적외선(IR) 데이터 통신 동안 생성되는 것의 형태를 취할 수 있다. 따라서, 컴퓨터 판독 가능 매체의 일반적인 형태는 예를 들어 다음을 포함한다: 플로피 디스크, 가요성 디스크, 경질 디스크, 자기 테이프, 임의의 다른 자기 매체, CD-ROM, DVD, DVD-ROM, 임의의 다른 광 매체, 펀치 카드, 종이 테이프, 구멍 패턴을 갖는 임의의 다른 물리적 저장 매체, RAM, ROM, PROM 및 EPROM, FLASH-EPROM, 임의의 다른 메모리 칩 또는 카트리지, 데이터 또는 명령어를 전송하는 반송파, 상기 반송파를 전송하는 케이블 또는 링크, 또는 그로부터 컴퓨터가 프로그래밍 코드 및/또는 데이터를 판독할 수 있는 임의의 다른 매체. 이러한 형태의 많은 컴퓨터 판독 가능 매체는 실행을 위해 하나 이상의 명령어의 하나 이상의 시퀀스를 프로세서에 전달하는 것과 관련될 수 있다.
컴퓨터 시스템은 예를 들어 샘플 수집, 샘플 처리, 서열 생성 및 서열 분석을 포함하는, 본원에서 설명되는 방법의 하나 이상의 단계를 수행하기 위해 사용될 수 있다.
클라이언트-서버(client-server) 및/또는 관계형 데이터베이스 아키텍쳐(relational database architecture)는 본원에서 설명되는 임의의 방법에 사용될 수 있다. 일반적으로 클라이언트-서버 아키텍쳐는 네트워크 상의 각각의 컴퓨터 또는 프로세스가 클라이언트 또는 서버인 네트워크 아키텍쳐이다. 서버 컴퓨터는 디스크 드라이브(파일 서버), 프린터(인쇄 서버) 또는 네트워크 트래픽(네트워크 서버) 관리 전용의 강력한 컴퓨터일 수 있다. 클라이언트 컴퓨터는 PC(개인용 컴퓨터) 또는 사용자가 응용 프로그램을 실행하는 워크스테이션뿐만 아니라, 본원에서 개시되는 예시적인 출력 장치를 포함할 수 있다. 클라이언트 컴퓨터는 파일, 장치 및 심지어 처리 능력과 같은 리소스를 서버 컴퓨터에 의존할 수 있다. 서버 컴퓨터는 모든 데이터베이스 기능을 처리한다. 클라이언트 컴퓨터는 프런트-엔드(front-end) 데이터 관리를 처리하고 사용자로부터 데이터 입력을 수신하는 소프트웨어를 가질 수 있다.
연산을 수행한 후, 프로세서는 연산에 따른 것과 같은 출력을, 예를 들어 입력 장치 또는 저장 장치에, 동일하거나 상이한 컴퓨터 시스템의 또 다른 저장 장치에, 또는 출력 장치에 다시 제공할 수 있다. 프로세서로부터의 출력은 데이터 디스플레이, 예를 들어, 디스플레이 스크린(예를 들어, 모니터 또는 디지털 장치 상의 스크린), 인쇄, 데이터 신호(예를 들어, 패킷), 그래픽 사용자 인터페이스(예를 들어, 웹페이지), 알람(예를 들어, 깜박이는 빛 또는 소리) 또는 이들의 임의의 조합에 의해 제시될 수 있다. 한 실시양태에서, 출력은 네트워크(예를 들어, 무선 네트워크)를 통해 출력 장치로 전달된다. 출력 장치는 사용자가 데이터 처리 컴퓨터 시스템으로부터 출력을 수신하는 데 사용될 수 있다. 출력이 사용자에 의해 수신된 후, 사용자는 행동 지침을 결정할 수 있거나, 사용자가 의료 인력일 때 의학적 치료와 같은 행동 지침을 수행할 수 있다. 일부 실시양태에서, 출력 장치는 투입 장치와 동일한 장치이다. 예시적인 출력 장치는 전화기, 무선 전화기, 이동 전화기, PDA, 플래시 메모리 드라이브, 광원, 소리 발생기, 팩스기, 컴퓨터, 컴퓨터 모니터, 프린터, 아이팟(iPod) 및 웹페이지를 포함하고 이로 제한되지 않는다. 사용자 스테이션은 서버에 의해 처리된 정보를 출력하기 위해 프린터 또는 디스플레이 모니터와 연결될 수 있다. 상기 디스플레이, 출력 장치 및 사용자 스테이션은 대상에게 또는 그의 간병인에게 경고를 제공하기 위해 사용될 수 있다.
본 개시내용와 관련된 데이터는 수신기에 의한 수신 및/또는 검토를 위해 네트워크 또는 연결을 통해 전송될 수 있다. 수신자는 보고서와 관련된 대상, 또는 그의 간병인, 예를 들어 건강 관리 제공자, 관리자, 다른 의료 전문가 또는 다른 보호자; 유전자형 분석을 수행 및/또는 지시한 개인 또는 단체; 유전 상담사일 수 있고, 이로 제한되지 않는다. 또한, 수신자는 상기 보고서를 저장하는 로컬 또는 원격 시스템(예를 들어, 서버 또는 "클라우드 컴퓨팅(cloud computing)" 아키텍쳐의 다른 시스템)일 수도 있다. 한 실시양태에서, 컴퓨터 판독 가능 매체는 생물학적 샘플의 분석 결과의 전송에 적합한 매체를 포함한다.
본원에서 개시되는 데이터세트 및 서열 라이브러리는 이형접합성 이배체 진핵생물 게놈의 서열결정을 통해 얻어진 것과 같은 핵산 서열 정보의 컴퓨터 기반 페이즈 할당과 일치한다. 그러한 데이터를 분석하는 컴퓨터는 스캐폴드에 판독을 할당할 수 있고, 일부 경우에 샘플 게놈에 대한 전체 '종단간(end-to-end)' 염색체 지도를 포함하는 지도를 생성할 수 있다. 그러나, 상기 이형접합성 서열이 서열결정 기술의 판독 길이보다 긴 경우, 대부분의 방법은 이형접합성 서열을 공통 페이즈에 할당할 수 없다. 따라서, 이형접합성 유전자좌는 대부분의 컴퓨터 기반 게놈 어셈블리 방법을 사용하여 공통 페이즈에 정확하게 매핑되지 않는다.
본원에서 개시되는 방법, 데이터베이스 및 시스템은 심지어 이형접합성 유전자좌가 하나의 긴 판독에 의해 생성된 서열 거리를 초과하는 거리로 분리되는 경우에도, 공통 페이즈에 대한 이형접합성 서열 정보의 할당을 허용한다. 따라서, 본원에서 개시되는 방법, 데이터베이스 및 시스템은 게놈 서열결정 및 게놈 서열 어셈블리와 관련된 컴퓨터 시스템의 성능 향상을 제공한다. 예를 들어, 본 개시내용의 기술은 계산 속도를 개선함으로써, 연산 시간 또는 연산 부담을 감소시킬 수 있다. 또한, 이러한 기술을 사용하면, 일시적인 메모리 및 비일시적인 데이터 저장 요건을 포함하는 메모리 요건을 감소시킬 수 있다. 일부 경우에, 본 개시내용의 기술은 이전에 연산 불가능한 계산의 연산을 가능하게 할 수 있다.
상세한 설명은 다음 번호의 실시양태를 참조로 하여 추가로 보충된다. 1. 제1 DNA 분자로부터 긴 거리 페이즈 정보를 생성하는 방법으로서, a) 제1 세그먼트 및 제2 세그먼트를 갖는 제1 DNA 분자를 제공하는 단계로서, 상기 제1 세그먼트 및 제2 세그먼트가 제1 DNA 분자 상에서 인접하지 않는 것인 단계; b) 제1 세그먼트 및 제2 세그먼트가 제1 DNA 분자의 공통 포스포디에스테르 골격과 독립적으로 DNA 결합 모이어티에 결합되도록 제1 DNA 분자를 DNA 결합 모이어티에 접촉시키는 단계; c) 제1 세그먼트 및 제2 세그먼트가 공통 포스포디에스테르 골격에 의해 연결되지 않도록 제1 DNA 분자를 절단하는 단계; d) 제1 세그먼트를 포스포디에스테르 결합을 통해 제2 세그먼트에 부착시켜 재어셈블된 제1 DNA 분자를 형성하는 단계; 및 e) 단일 서열결정 판독에서 제1 세그먼트와 제2 세그먼트 사이의 접합부를 포함하는 재어셈블된 제1 DNA 분자의 적어도 4 kb의 연속적인 서열을 서열결정하는 단계를 포함하고; 상기 제1 세그먼트 서열 및 제2 세그먼트 서열은 제1 DNA 분자로부터의 긴 거리 페이즈 정보를 나타내는 것인 방법. 2. 제1 실시양태에 있어서, DNA 결합 모이어티가 다수의 DNA 결합 분자를 포함하는 것인 방법. 3. 제1 또는 제2 실시양태에 있어서, 제1 DNA 분자를 다수의 DNA 결합 분자에 접촉시키는 단계가 DNA 결합 단백질의 집단에 접촉시키는 것을 포함하는 것인 방법. 4. 제1 내지 제3 실시양태 중 어느 한 실시양태에 있어서, DNA 결합 단백질의 집단이 핵 단백질을 포함하는 것인 방법. 5. 제1 내지 제4 실시양태 중 어느 한 실시양태에 있어서, DNA 결합 단백질의 집단이 뉴클레오솜을 포함하는 것인 방법. 6. 제1 내지 제5 실시양태 중 어느 한 실시양태에 있어서, DNA 결합 단백질의 집단이 히스톤을 포함하는 것인 방법. 7. 제1 내지 제6 실시양태 중 어느 한 실시양태에 있어서, 제1 DNA 분자를 다수의 DNA 결합 모이어티에 접촉시키는 단계가 DNA 결합 나노입자의 집단에 접촉시키는 것을 포함하는 것인 방법. 8. 제1 내지 제7 실시양태 중 어느 한 실시양태에 있어서, 제1 DNA 분자가 제1 DNA 분자 상에서 제1 세그먼트 또는 제2 세그먼트에 인접하지 않는 제3 세그먼트를 갖고, 여기서 (b)에서의 접촉은 제3 세그먼트가 제1 DNA 분자의 공통 포스포디에스테르 골격과 독립적으로 DNA 결합 모이어티에 결합되도록 수행되고, (c)에서의 절단은 제3 세그먼트가 공통 포스포디에스테르 골격에 의해 제1 세그먼트 및 제2 세그먼트에 연결되지 않도록 수행되고, 부착은 제3 세그먼트를 포스포디에스테르 결합을 통해 제2 세그먼트에 부착시켜 재어셈블된 제1 DNA 분자를 형성하는 것을 포함하고, (e)에서 서열결정된 연속적인 서열은 단일 서열결정 판독에서 제2 세그먼트와 제3 세그먼트 사이에 접합부를 포함하는 것인 방법. 9. 제1 내지 제8 실시양태 중 어느 한 실시양태에 있어서, 제1 DNA 분자를 가교결합제에 접촉시키는 단계를 포함하는 방법. 10. 제1 내지 제9 실시양태 중 어느 한 실시양태에 있어서, 제1 DNA 분자를 가교결합제에 접촉시키는 단계를 포함하는 방법. 11. 제1 내지 제10 실시양태 중 어느 한 실시양태에 있어서, 가교결합제가 포름알데히드인 방법. 12. 제1 내지 제11 실시양태 중 어느 한 실시양태에 있어서, 가교결합제가 포름알데히드인 방법. 13. 제1 내지 제12 실시양태 중 어느 한 실시양태에 있어서, DNA 결합 모이어티가 다수의 DNA 결합 모이어티를 포함하는 표면에 결합되는 것인 방법. 14. 제1 내지 제13 실시양태 중 어느 한 실시양태에 있어서, DNA 결합 모이어티가 비드를 포함하는 고체 프레임워크에 결합되는 것인 방법. 15. 제1 내지 제14 실시양태 중 어느 한 실시양태에 있어서, 제1 DNA 분자를 절단하는 단계가 제한 엔도뉴클레아제에 접촉시키는 것을 포함하는 것인 방법. 16. 제1 내지 제15 실시양태 중 어느 한 실시양태에 있어서, 제1 DNA 분자를 절단하는 단계가 비특이적 엔도뉴클레아제에 접촉시키는 것을 포함하는 것인 방법. 17. 제1 내지 제16 실시양태 중 어느 한 실시양태에 있어서, 제1 DNA 분자를 절단하는 단계가 태그 부가 효소에 접촉시키는 것을 포함하는 것인 방법. 18. 제1 내지 제17 실시양태 중 어느 한 실시양태에 있어서, 제1 DNA 분자를 절단하는 단계가 트랜스포사제에 접촉시키는 것을 포함하는 것인 방법. 19. 제1 내지 제18 실시양태 중 어느 한 실시양태에 있어서, 제1 DNA 분자를 절단하는 단계가 제1 분자를 전단하는 것을 포함하는 것인 방법. 20. 제1 내지 제19 실시양태 중 어느 한 실시양태에 있어서, 적어도 하나의 노출된 말단부에 태그를 부가하는 단계를 포함하는 것인 방법. 21. 제1 내지 제20 실시양태 중 어느 한 실시양태에 있어서, 태그가 표지된 염기를 포함하는 것인 방법. 22. 제1 내지 제21 실시양태 중 어느 한 실시양태에 있어서, 태그가 메틸화된 염기를 포함하는 것인 방법. 23. 제1 내지 제22 실시양태 중 어느 한 실시양태에 있어서, 태그가 비오티닐화된 염기를 포함하는 것인 방법. 24. 제1 내지 제23 실시양태 중 어느 한 실시양태에 있어서, 태그가 우리딘을 포함하는 것인 방법. 25. 제1 내지 제24 실시양태 중 어느 한 실시양태에 있어서, 태그가 비표준 염기를 포함하는 것인 방법. 26. 제1 내지 제25 실시양태 중 어느 한 실시양태에 있어서, 태그가 평활 말단의 노출된 말단부를 생성하는 것인 방법. 27. 제1 내지 제26 실시양태 중 어느 한 실시양태에 있어서, 적어도 하나의 염기를 제1 세그먼트 점착성 말단부의 오목 가닥에 부가하는 단계를 포함하는 방법. 28. 제1 내지 제27 실시양태 중 어느 한 실시양태에 있어서, 제1 세그먼트 점착성 말단부에 어닐링하는 오버행을 포함하는 링커 올리고를 부가하는 단계를 포함하는 방법. 29. 제1 내지 제28 실시양태 중 어느 한 실시양태에 있어서, 링커 올리고가 제1 세그먼트 점착성 말단부에 어닐링하는 오버행 및 제2 세그먼트 점착성 말단부에 어닐링하는 오버행을 포함하는 것인 방법. 30. 제1 내지 제29 실시양태 중 어느 한 실시양태에 있어서, 링커 올리고가 2개의 5' 포스페이트 모이어티를 포함하지 않는 것인 방법. 31. 제1 내지 제30 실시양태 중 어느 한 실시양태에 있어서, 부착이 라이게이션을 포함하는 것인 방법. 32. 제1 내지 제31 실시양태 중 어느 한 실시양태에 있어서, 부착이 DNA 단일 가닥 닉 복구를 포함하는 것인 방법. 33. 제1 내지 제32 실시양태 중 어느 한 실시양태에 있어서, 제1 세그먼트 및 제2 세그먼트가 제1 DNA 분자를 절단하기 전에 제1 DNA 분자 상에서 적어도 10 kb만큼 분리되어 있는 것인 방법. 34. 제1 내지 제33 실시양태 중 어느 한 실시양태에 있어서, 제1 세그먼트 및 제2 세그먼트가 제1 DNA 분자를 절단하기 전에 제1 DNA 분자 상에서 적어도 15 kb만큼 분리되어 있는 것인 방법. 35. 제1 내지 제34 실시양태 중 어느 한 실시양태에 있어서, 제1 세그먼트 및 제2 세그먼트가 제1 DNA 분자를 절단하기 전에 제1 DNA 분자 상에서 적어도 30 kb만큼 분리되어 있는 것인 방법. 36. 제1 내지 제35 실시양태 중 어느 한 실시양태에 있어서, 제1 세그먼트 및 제2 세그먼트가 제1 DNA 분자를 절단하기 전에 제1 DNA 분자 상에서 적어도 50 kb만큼 분리되어 있는 것인 방법. 37. 제1 내지 제36 실시양태 중 어느 한 실시양태에 있어서, 제1 세그먼트 및 제2 세그먼트가 제1 DNA 분자를 절단하기 전에 제1 DNA 분자 상에서 적어도 100 kb만큼 분리되어 있는 것인 방법. 38. 제1 내지 제37 실시양태 중 어느 한 실시양태에 있어서, 서열결정이 단일 분자 긴 판독물 서열결정을 포함하는 것인 방법. 39. 제1 내지 제38 실시양태 중 어느 한 실시양태에 있어서, 긴 판독물 서열결정이 적어도 5 kb의 판독을 포함하는 것인 방법. 40. 제1 내지 제39 실시양태 중 어느 한 실시양태에 있어서, 긴 판독물 서열결정이 적어도 10 kb의 판독을 포함하는 것인 방법. 41. 제1 내지 제40 실시양태에 있어서, 제1 재어셈블된 DNA 분자가 제1 DNA 분자의 한 말단부에서 5' 말단부 및 3' 말단부를 연결하는 헤어핀 모이어티를 포함하는 것인 방법. 42. 제1 내지 제41 실시양태 중 어느 한 실시양태에 있어서, 제1 DNA 분자의 제2 재어셈블된 버전을 서열결정하는 단계를 포함하는 방법. 43. 제1 내지 제42 실시양태 중 어느 한 실시양태에 있어서, 제1 세그먼트 및 제2 세그먼트가 각각 적어도 500 bp인 방법. 44. 제1 내지 제43 실시양태 중 어느 한 실시양태에 있어서, 제1 세그먼트, 제2 세그먼트 및 제3 세그먼트가 각각 적어도 500 bp인 방법. 45. 게놈 어셈블리의 방법으로서, a) 구조에 복합체화된 제1 DNA 분자를 수득하는 단계; b) 제1 DNA 분자를 절단하여 제1 노출 말단부 및 제2 노출 말단부를 형성하는 단계로서, 제1 노출 말단부 및 제2 노출 말단부는 상기 절단 전에 분자 상에서 인접하지 않는 것인 단계; c) 제1 DNA 분자를 절단하여 제3 노출 말단부 및 제4 노출 말단부를 형성하고, 제3 노출 말단부 및 제4 노출 말단부는 상기 절단 전에 분자 상에서 인접하지 않는 것인 단계; d) 상기 제1 노출 말단부 및 상기 제2 노출 말단부를 부착하여 제1 접합부를 형성하는 단계; e) 상기 제3 노출 말단부 및 상기 제4 노출 말단부를 부착하여 제2 접합부를 형성하는 단계; f) 단일 서열결정 판독에서 상기 제1 접합부 및 상기 제2 접합부에 걸쳐 서열결정하는 단계; g) 상기 제1 접합부의 제1 측면 상의 서열을 상기 다수의 콘티그의 제1 콘티그에 매핑하는 단계; h) 상기 제1 접합부의 제2 측면 상의 서열을 상기 다수의 콘티그의 제2 콘티그에 매핑하는 단계; i) 상기 제2 접합부의 제1 측면 상의 서열을 상기 다수의 콘티그의 제2 콘티그에 매핑하는 단계; j) 상기 제2 접합부의 제2 측면 상의 서열을 상기 다수의 콘티그의 제3 콘티그에 매핑하는 단계; 및 k) 상기 제1 콘티그, 상기 제2 콘티그 및 상기 제3 콘티그를 게놈 어셈블리의 공통 페이즈에 할당하는 단계를 포함하는 것인 방법. 46. 제45 실시양태에 있어서, 상기 다수의 콘티그가 샷건 서열 데이터로부터 생성되는 것인 방법. 47. 제45 또는 제46 실시양태에 있어서, 상기 다수의 콘티그가 단일 분자 긴 판독물 데이터로부터 생성되는 것인 방법. 48. 제45 내지 제47 실시양태 중 어느 한 실시양태에 있어서, 상기 단일 분자 긴 판독물 데이터가 상기 다수의 콘티그를 포함하는 것인 방법. 49. 제45 내지 제48 실시양태 중 어느 한 실시양태에 있어서, 상기 다수의 콘티그가 상기 제1 접합부 및 상기 제2 접합부에 걸친 서열결정을 통해 동시에 얻어지는 것인 방법. 50. 제45 내지 제49 실시양태 중 어느 한 실시양태에 있어서, 상기 마커 올리고에 걸친 서열결정이 적어도 10 kb의 서열결정을 포함하는 것인 방법. 51. 제45 내지 제50 실시양태 중 어느 한 실시양태에 있어서, 상기 구조가 재구성된 염색질을 형성하기 위해 제1 DNA 분자에 결합된 DNA 결합 모이어티의 집단을 포함하는 것인 방법. 52. 제45 내지 제51 실시양태 중 어느 한 실시양태에 있어서, 상기 재구성된 염색질이 가교결합제에 접촉되는 것인 방법. 53. 제45 내지 제52 실시양태 중 어느 한 실시양태에 있어서, 상기 가교결합제가 포름알데히드를 포함하는 것인 방법. 54. 제45 내지 제53 실시양태 중 어느 한 실시양태에 있어서, 상기 DNA 결합 모이어티의 집단이 히스톤을 포함하는 것인 방법. 55. 제45 내지 제54 실시양태 중 어느 한 실시양태에 있어서, 상기 DNA 결합 모이어티의 집단이 나노입자를 포함하는 것인 방법. 56. 제45 내지 제55 실시양태 중 어느 한 실시양태에 있어서, 상기 구조가 천연 염색질을 포함하는 것인 방법. 57. 제45 내지 제56 실시양태 중 어느 한 실시양태에 있어서, 제1 노출 말단부 및 제2 노출 말단부가 제1 DNA 분자를 절단하기 전에 제1 DNA 분자 상에서 적어도 10 kb만큼 분리되어 있는 것인 방법. 58. 제45 내지 제57 실시양태 중 어느 한 실시양태에 있어서, 제1 노출 말단부 및 제2 노출 말단부가 제1 DNA 분자를 절단하기 전에 제1 DNA 분자 상에서 적어도 15 kb만큼 분리되어 있는 것인 방법. 59. 제45 내지 제58 실시양태 중 어느 한 실시양태에 있어서, 제1 노출 말단부 및 제2 노출 말단부가 제1 DNA 분자를 절단하기 전에 제1 DNA 분자 상에서 적어도 30 kb만큼 분리되어 있는 것인 방법. 60. 제45 내지 제59 실시양태 중 어느 한 실시양태에 있어서, 제1 노출 말단부 및 제2 노출 말단부가 제1 DNA 분자를 절단하기 전에 제1 DNA 분자 상에서 적어도 50 kb만큼 분리되어 있는 것인 방법. 61. 제45 내지 제60 실시양태 중 어느 한 실시양태에 있어서, 제1 노출 말단부 및 제2 노출 말단부가 제1 DNA 분자를 절단하기 전에 제1 DNA 분자 상에서 적어도 100 kb만큼 분리되어 있는 것인 방법. 62. 제45 내지 제61 실시양태 중 어느 한 실시양태에 있어서, 제1 DNA 분자의 제2 카피를 서열결정하는 단계를 포함하는 방법. 63. 적어도 5 kb의 재배열된 핵산 분자로서, a) 제1 세그먼트; b) 제2 세그먼트; 및 c) 제3 세그먼트를 포함하고; d) 상기 제1 세그먼트 및 상기 제2 세그먼트는 제1 접합부에서 연결되고; e) 상기 제2 세그먼트 및 상기 제3 세그먼트는 제2 접합부에서 연결되고; 상기 제1 세그먼트, 상기 제2 세그먼트 및 상기 제3 세그먼트는 비재배열된 핵산 분자에서 적어도 10 kb만큼 분리된 페이즈로 존재하고, 상기 재배열된 핵산 분자의 적어도 70%가 상기 공통적인 비재배열된 핵산 분자에 매핑되는 것인 재배열된 핵산 분자. 64. 제63 실시양태에 있어서, 제1 세그먼트, 제2 세그먼트 및 제3 세그먼트가 게놈의 공통적인 핵산 분자로부터의 별개의 게놈 핵산 서열을 포함하는 것인 재배열된 핵산 분자. 65. 제63 또는 제64 실시양태에 있어서, 제1 세그먼트, 제2 세그먼트 및 제3 세그먼트가 재배열된 핵산에서 재배열된 순서로 게놈의 공통적인 분자 내에 존재하는 것인 핵산 분자. 66. 제63 내지 제65 실시양태 중 어느 한 실시양태에 있어서, 상기 핵산 분자의 길이가 적어도 30 kb인 재배열된 핵산 분자. 67. 제63 내지 제66 실시양태 중 어느 한 실시양태에 있어서, 상기 핵산이 이중 가닥 말단 단부에 헤어핀 루프를 포함하여, 분자가 30 kb 역위 반복체를 포함하는 단일 가닥을 포함하는 것인 재배열된 핵산 분자. 68. 제63 내지 제67 실시양태 중 어느 한 실시양태에 있어서, 상기 핵산이 이중 가닥 원형 분자인 재배열된 핵산 분자. 69. 제63 내지 제68 실시양태 중 어느 한 실시양태에 있어서, 상기 재배열된 핵산 분자의 적어도 80%가 상기 공통적인 비재배열된 핵산 분자에 매핑되는 것인 재배열된 핵산 분자. 70. 제63 내지 제69 실시양태 중 어느 한 실시양태에 있어서, 상기 재배열된 핵산 분자의 적어도 85%가 상기 공통적인 비재배열된 핵산 분자에 매핑되는 것인 재배열된 핵산 분자. 71. 제63 내지 제70 실시양태 중 어느 한 실시양태에 있어서, 상기 재배열된 핵산 분자의 적어도 90%가 상기 공통적인 비재배열된 핵산 분자에 매핑되는 것인 재배열된 핵산 분자. 72. 제63 내지 제71 실시양태 중 어느 한 실시양태에 있어서, 상기 재배열된 핵산 분자의 적어도 95%가 상기 공통적인 비재배열된 핵산 분자에 매핑되는 것인 재배열된 핵산 분자. 73. 제63 내지 제72 실시양태 중 어느 한 실시양태에 있어서, 상기 재배열된 핵산 분자의 적어도 99%가 상기 공통적인 비재배열된 핵산 분자에 매핑되는 것인 재배열된 핵산 분자. 74. 제63 내지 제73 실시양태 중 어느 한 실시양태에 있어서, 상기 재배열된 핵산 분자의 세그먼트의 적어도 80%가 상기 공통적인 비재배열된 핵산 분자에 매핑되는 것인 재배열된 핵산 분자. 75. 제63 내지 제74 실시양태 중 어느 한 실시양태에 있어서, 상기 재배열된 핵산 분자의 세그먼트의 적어도 85%가 상기 공통적인 비재배열된 핵산 분자에 매핑되는 것인 재배열된 핵산 분자. 76. 제63 내지 제75 실시양태 중 어느 한 실시양태에 있어서, 상기 재배열된 핵산 분자의 세그먼트의 적어도 90%가 상기 공통적인 비재배열된 핵산 분자에 매핑되는 것인 재배열된 핵산 분자. 77. 제63 내지 제76 실시양태 중 어느 한 실시양태에 있어서, 상기 재배열된 핵산 분자의 세그먼트의 적어도 95%가 상기 공통적인 비재배열된 핵산 분자에 매핑되는 것인 재배열된 핵산 분자. 78. 제63 내지 제77 실시양태 중 어느 한 실시양태에 있어서, 상기 재배열된 핵산 분자의 세그먼트의 적어도 99%가 상기 공통적인 비재배열된 핵산 분자에 매핑되는 것인 재배열된 핵산 분자. 79. 제63 내지 제78 실시양태 중 어느 한 실시양태에 있어서, 재배열된 핵산이 제1 내지 제62 실시양태 중 하나 이상의 방법의 단계에 의해 생성되는 것인 재배열된 핵산 분자. 80. 샘플 핵산 분자의 페이징된 서열을 생성하는 방법으로서, a) 샘플 핵산 분자로부터 제63 내지 제78 실시양태 중 어느 한 실시양태의 제1 재배열된 핵산 분자를 생성하는 단계; b) 샘플 핵산 분자로부터 제63 내지 제78 실시양태 중 어느 한 실시양태의 제2 재배열된 핵산 분자를 생성하는 단계; 및 c) 제1 재배열된 핵산 분자 및 제2 재배열된 핵산 분자를 서열결정하는 단계를 포함하고, 여기서 제1 재배열된 핵산 분자 및 제2 재배열된 핵산 분자는 독립적으로 생성되는 것인 방법. 81. 샘플 핵산 분자의 페이징된 서열을 생성하는 방법으로서, a) 샘플 핵산 분자로부터 제63 내지 제78 실시양태 중 어느 한 실시양태의 제1 재배열된 핵산 분자를 서열결정하는 단계; b) 샘플 핵산 분자로부터 제63 내지 제78 실시양태 중 어느 한 실시양태의 제2 재배열된 핵산 분자를 서열결정하는 단계로서, 제1 재배열된 핵산 분자 및 제2 재배열된 핵산 분자가 독립적으로 생성되는 것인 단계; 및 c) 어셈블된 서열이 샘플 핵산 분자의 비재배열된 페이징된 서열이 되도록, 제63 내지 제78 실시양태 중 어느 한 실시양태의 제1 재배열된 핵산 분자 및 제63 내지 제78 실시양태 중 어느 한 실시양태의 제2 재배열된 핵산 분자의 서열을 어셈블하는 단계를 포함하는 것인 방법. 82. 제80 또는 제81 실시양태에 있어서, 제1 재배열된 핵산 분자를 서열결정하는 단계가 적어도 1 kb의 서열 판독을 생성하는 것을 포함하는 것인 방법. 83. 제80 내지 제82 실시양태 중 어느 한 실시양태에 있어서, 제1 재배열된 핵산 분자를 서열결정하는 단계가 적어도 2 kb의 서열 판독을 생성하는 것을 포함하는 것인 방법. 84. 제80 내지 제83 실시양태 중 어느 한 실시양태에 있어서, 제1 재배열된 핵산 분자를 서열결정하는 단계가 적어도 5 kb의 서열 판독을 생성하는 것을 포함하는 것인 방법. 85. 제80 내지 제84 실시양태 중 어느 한 실시양태에 있어서, 상기 제1 재배열된 분자의 적어도 70%를 단일 게놈 분자의 공통 페이즈에 할당하는 단계를 포함하는 방법. 86. 제80 내지 제85 실시양태 중 어느 한 실시양태에 있어서, 상기 제2 재배열된 분자의 적어도 70%를 단일 게놈 분자의 공통 페이즈에 할당하는 단계를 포함하는 방법. 87. 제80 내지 제86 실시양태 중 어느 한 실시양태에 있어서, 상기 제1 재배열된 분자의 적어도 80%를 단일 게놈 분자의 공통 페이즈에 할당하는 단계를 포함하는 방법. 88. 제80 내지 제87 실시양태 중 어느 한 실시양태에 있어서, 상기 제2 재배열된 분자의 적어도 80%를 단일 게놈 분자의 공통 페이즈에 할당하는 단계를 포함하는 방법. 89. 제80 내지 제88 실시양태 중 어느 한 실시양태에 있어서, 상기 제1 재배열된 분자의 적어도 90%를 단일 게놈 분자의 공통 페이즈에 할당하는 단계를 포함하는 방법. 90. 제80 내지 제89 실시양태 중 어느 한 실시양태에 있어서, 상기 제2 재배열된 분자의 적어도 90%를 단일 게놈 분자의 공통 페이즈에 할당하는 단계를 포함하는 방법. 91. 제80 내지 제90 실시양태 중 어느 한 실시양태에 있어서, 상기 제1 재배열된 분자의 적어도 95%를 단일 게놈 분자의 공통 페이즈에 할당하는 단계를 포함하는 방법. 92. 제80 내지 제91 실시양태 중 어느 한 실시양태에 있어서, 상기 제2 재배열된 분자의 적어도 95%를 단일 게놈 분자의 공통 페이즈에 할당하는 단계를 포함하는 방법. 93. 긴 판독물 서열 데이터를 페이징하는 방법으로서, a) 제63 내지 제78 실시양태 중 어느 한 실시양태의 핵산 샘플로부터 서열 데이터를 얻는 단계; b) 제63 내지 제78 실시양태 중 어느 한 실시양태의 재배열된 핵산으로부터 긴 판독물 서열 데이터를 얻는 단계; c) 제63 내지 제78 실시양태 중 어느 한 실시양태의 재배열된 핵산으로부터의 긴 판독물 서열 데이터를 핵산 샘플로부터의 서열 데이터에 매핑하는 단계; 및 d) 제63 내지 제78 실시양태 중 어느 한 실시양태의 재배열된 핵산으로부터의 긴 판독물 서열 데이터에 매핑된 핵산 샘플로부터의 서열 데이터를 공통 페이즈에 할당하는 단계를 포함하는 것인 방법. 94. DNA 서열결정 기술에 의해 핵산 샘플로부터 생성된 핵산 데이터세트에 페이즈 정보를 제공하는 방법으로서, a) DNA 서열결정 기술의 판독 길이보다 더 긴 거리만큼 분리되어 있는 제1 세그먼트 및 제2 세그먼트를 갖는 상기 핵산 샘플의 핵산을 수득하는 단계; b) 제1 세그먼트 및 제2 세그먼트가 DNA 서열결정 기술의 판독 길이보다 더 짧은 거리만큼 분리되도록 핵산을 셔플링하는 단계; c) 제1 세그먼트 및 제2 세그먼트가 DNA 서열결정 기술의 단일 판독으로 나타나도록 DNA 서열결정 기술을 사용하여 셔플링된 핵산을 서열결정하는 단계; 및 d) 제1 세그먼트 서열을 포함하는 데이터세트의 서열 판독 및 제2 세그먼트 서열을 포함하는 데이터세트의 서열 판독을 공통 페이즈에 할당하는 단계를 포함하는 것인 방법. 95. 제94 실시양태에 있어서, DNA 서열결정 기술이 적어도 10 kb의 판독 길이를 갖는 판독물을 생성하는 것인 방법. 96. 제94 또는 제95 실시양태에 있어서, 셔플링이 제1 내지 제62 실시양태 중 어느 한 실시양태의 단계를 수행하는 것을 포함하는 것인 방법. 97. 제94 내지 제96 실시양태에 있어서, 제1 세그먼트 및 제2 세그먼트가 세그먼트 말단부를 표시하는 링커 올리고에 의해 분리되는 것인 방법. 98. 제63 내지 제78 실시양태 중 어느 한 실시양태의 다수의 분자로부터 얻은 서열 정보를 포함하는 핵산 서열 데이터베이스로서, 그의 세그먼트의 70% 미만이 공통 스캐폴드에 매핑되는 분자에 상응하는 서열 정보는 적어도 하나의 분석으로부터 배제되는 것인 핵산 서열 데이터베이스. 99. 제63 내지 제78 실시양태 중 어느 한 실시양태의 다수의 분자로부터 얻은 서열 정보를 포함하는 핵산 서열 데이터베이스로서, 그의 서열의 70% 미만이 공통 스캐폴드에 매핑되는 분자에 상응하는 서열 정보는 적어도 하나의 분석으로부터 배제되는 것인 핵산 서열 데이터베이스. 100. 긴 판독물 서열 데이터를 페이징하는 방법으로서, a) 제63 내지 제78 실시양태 중 어느 한 실시양태의 핵산 샘플로부터 서열 데이터를 얻는 단계; b) 제63 내지 제78 실시양태 중 어느 한 실시양태의 재배열된 핵산으로부터 긴 판독물 서열 데이터를 얻는 단계; c) 제63 내지 제78 실시양태 중 어느 한 실시양태의 재배열된 핵산의 제1 세그먼트, 제2 세그먼트 및 제3 세그먼트를 핵산 샘플로부터의 서열 데이터에 매핑하는 단계; 및 d) 적어도 2개의 세그먼트가 공통 스캐폴드에 매핑되는 경우, 상기 세그먼트의 서열 변이를 공통 페이즈에 할당하는 단계를 포함하는 것인 방법. 101. 제100 실시양태에 있어서, 제1 세그먼트가 핵산 샘플로부터의 서열 데이터에 대한 단일 뉴클레오티드 다형성을 포함하는 것인 방법. 102. 제100 또는 제101 실시양태에 있어서, 제1 세그먼트가 핵산 샘플로부터의 서열 데이터에 대한 삽입을 포함하는 것인 방법. 103. 제100 내지 제102 실시양태 중 어느 한 실시양태에 있어서, 제1 세그먼트가 핵산 샘플로부터의 서열 데이터에 대한 결실을 포함하는 것인 방법. 104. 제100 내지 제103 실시양태 중 어느 한 실시양태에 있어서, 제1 공통 스캐폴드에 매핑되는 제1 세트의 세그멘트를 제1 공통 스캐폴드의 공통 페이즈에 할당하는 단계, 및 제2 공통 스캐폴드에 매핑되는 제2 세트의 세그멘트를 제2 공통 스캐폴드의 공통 페이즈에 할당하는 단계를 포함하는 방법. 105. 핵산 샘플의 핵산 서열 라이브러리로서, 평균 판독 길이를 갖는 핵산 서열 판독물의 집단을 포함하고, 상기 판독물 중 적어도 하나는 제1 핵산 세그먼트의 적어도 500개의 염기 및 제2 핵산 세그먼트의 적어도 500개의 염기를 포함하고, 상기 제1 핵산 세그먼트 및 상기 제2 핵산 세그먼트는 상기 핵산 샘플의 공통 분자 상의 상기 평균 판독 길이보다 더 긴 거리만큼 분리되어 있는 페이즈로 발견되는 것인 핵산 서열 라이브러리. 106. 제105 실시양태에 있어서, 상기 제1 핵산 세그먼트 및 상기 제2 핵산 세그먼트가 10 kb보다 더 긴 거리만큼 분리되어 있는 페이즈로 발견되는 것인 핵산 서열 라이브러리. 107. 제105 또는 제106 실시양태에 있어서, 상기 제1 핵산 세그먼트 및 상기 제2 핵산 세그먼트가 20 kb보다 더 긴 거리만큼 분리되어 있는 페이즈로 발견되는 것인 핵산 서열 라이브러리. 108. 제105 내지 제107 실시양태 중 어느 한 실시양태에 있어서, 상기 제1 핵산 세그먼트 및 상기 제2 핵산 세그먼트가 50 kb보다 더 긴 거리만큼 분리되어 있는 페이즈로 발견되는 것인 핵산 서열 라이브러리. 109. 제105 내지 제108 실시양태 중 어느 한 실시양태에 있어서, 상기 제1 핵산 세그먼트 및 상기 제2 핵산 세그먼트가 100 kb보다 더 긴 거리만큼 분리되어 있는 페이즈로 발견되는 것인 핵산 서열 라이브러리. 110. 제105 내지 제109 실시양태 중 어느 한 실시양태에 있어서, 상기 판독물 중 적어도 하나가 적어도 1 kb의 제1 핵산 세그먼트를 포함하는 것인 핵산 서열 라이브러리. 111. 제105 내지 제110 실시양태 중 어느 한 실시양태에 있어서, 상기 판독물 중 적어도 하나가 적어도 5 kb의 제1 핵산 세그먼트를 포함하는 것인 핵산 서열 라이브러리. 112. 제105 내지 제111 실시양태 중 어느 한 실시양태에 있어서, 상기 판독물 중 적어도 하나가 적어도 10 kb의 제1 핵산 세그먼트를 포함하는 것인 핵산 서열 라이브러리. 113. 제105 내지 제112 실시양태 중 어느 한 실시양태에 있어서, 상기 판독물 중 적어도 하나가 적어도 20 kb의 제1 핵산 세그먼트를 포함하는 것인 핵산 서열 라이브러리. 114. 제105 내지 제113 실시양태 중 어느 한 실시양태에 있어서, 상기 판독물 중 적어도 하나가 적어도 50 kb의 제1 핵산 세그먼트를 포함하는 것인 핵산 서열 라이브러리. 115. 제105 내지 제114 실시양태 중 어느 한 실시양태에 있어서, 핵산 서열 라이브러리가 상기 핵산 샘플의 적어도 80%를 구성하는 것인 핵산 서열 라이브러리. 116. 제105 내지 제115 실시양태 중 어느 한 실시양태에 있어서, 핵산 서열 라이브러리가 상기 핵산 샘플의 적어도 85%를 구성하는 것인 핵산 서열 라이브러리. 117. 제105 내지 제116 실시양태 중 어느 한 실시양태에 있어서, 핵산 서열 라이브러리가 상기 핵산 샘플의 적어도 90%를 구성하는 것인 핵산 서열 라이브러리. 118. 제105 내지 제117 실시양태 중 어느 한 실시양태에 있어서, 핵산 서열 라이브러리가 상기 핵산 샘플의 적어도 95%를 구성하는 것인 핵산 서열 라이브러리. 119. 제105 내지 제118 실시양태 중 어느 한 실시양태에 있어서, 핵산 서열 라이브러리가 상기 핵산 샘플의 적어도 99%를 구성하는 것인 핵산 서열 라이브러리. 120. 제105 내지 제119 실시양태 중 어느 한 실시양태에 있어서, 핵산 서열 라이브러리가 상기 핵산 샘플의 적어도 99.9%를 구성하는 것인 핵산 서열 라이브러리. 121. 핵산 샘플의 핵산 서열 라이브러리로서, 적어도 약 1 kb의 평균 길이를 갖는 핵산 서열 판독물의 집단을 포함하고, 상기 판독물은 핵산 샘플의 2개의 별개의 같은 페이즈의 영역으로부터의 적어도 300개 염기의 서열을 독립적으로 포함하고, 상기 2개의 별개의 같은 페이즈의 영역은 핵산 샘플에서 10 kb 초과의 거리만큼 분리되어 있는 것인 핵산 서열 라이브러리. 122. 제121 실시양태에 있어서, 상기 판독물이 핵산 샘플의 2개의 별개의 같은 페이즈의 영역으로부터의 적어도 500개 염기의 서열을 독립적으로 포함하는 것인 핵산 서열 라이브러리. 123. 제121 또는 제122 실시양태에 있어서, 상기 판독물이 핵산 샘플의 2개의 별개의 같은 페이즈의 영역으로부터의 적어도 1 kb의 서열을 독립적으로 포함하는 것인 핵산 서열 라이브러리. 124. 제121 내지 제123 실시양태 중 어느 한 실시양태에 있어서, 상기 판독물이 핵산 샘플의 2개의 별개의 같은 페이즈의 영역으로부터의 적어도 2 kb의 서열을 독립적으로 포함하는 것인 핵산 서열 라이브러리. 125. 제121 내지 제124 실시양태 중 어느 한 실시양태에 있어서, 상기 판독물이 핵산 샘플의 2개의 별개의 같은 페이즈의 영역으로부터의 적어도 5 kb의 서열을 독립적으로 포함하는 것인 핵산 서열 라이브러리. 126. 제121 내지 제125 실시양태 중 어느 한 실시양태에 있어서, 상기 판독물이 핵산 샘플의 2개의 별개의 같은 페이즈의 영역으로부터의 적어도 10 kb의 서열을 독립적으로 포함하는 것인 핵산 서열 라이브러리. 127. 제121 내지 제126 실시양태 중 어느 한 실시양태에 있어서, 상기 2개의 별개의 같은 페이즈의 영역이 핵산 샘플에서 20 kb 초과의 거리만큼 분리되어 있는 것인 핵산 서열 라이브러리. 128. 제121 내지 제127 실시양태 중 어느 한 실시양태에 있어서, 상기 2개의 별개의 같은 페이즈의 영역이 핵산 샘플에서 30 kb 초과의 거리만큼 분리되어 있는 것인 핵산 서열 라이브러리. 129. 제121 내지 제128 실시양태 중 어느 한 실시양태에 있어서, 상기 2개의 별개의 같은 페이즈의 영역이 판독물의 적어도 1%에서 핵산 샘플에서 50 kb 초과의 거리만큼 분리되어 있는 것인 핵산 서열 라이브러리. 130. 제121 내지 제129 실시양태 중 어느 한 실시양태에 있어서, 상기 2개의 별개의 같은 페이즈의 영역이 판독물의 적어도 1%에서 핵산 샘플에서 100 kb 초과의 거리만큼 분리되어 있는 것인 핵산 서열 라이브러리. 131. 제121 내지 제130 실시양태 중 어느 한 실시양태에 있어서, 핵산 서열 라이브러리가 상기 핵산 샘플의 적어도 80%를 구성하는 것인 핵산 서열 라이브러리. 132. 제121 내지 제131 실시양태 중 어느 한 실시양태에 있어서, 핵산 서열 라이브러리가 상기 핵산 샘플의 적어도 85%를 구성하는 것인 핵산 서열 라이브러리. 133. 제121 내지 제132 실시양태 중 어느 한 실시양태에 있어서, 핵산 서열 라이브러리가 상기 핵산 샘플의 적어도 90%를 구성하는 것인 핵산 서열 라이브러리. 134. 제121 내지 제133 실시양태 중 어느 한 실시양태에 있어서, 핵산 서열 라이브러리가 상기 핵산 샘플의 적어도 95%를 구성하는 것인 핵산 서열 라이브러리. 135. 제121 내지 제134 실시양태 중 어느 한 실시양태에 있어서, 핵산 서열 라이브러리가 상기 핵산 샘플의 적어도 99%를 구성하는 것인 핵산 서열 라이브러리. 136. 제121 내지 제135 실시양태 중 어느 한 실시양태에 있어서, 핵산 서열 라이브러리가 상기 핵산 샘플의 적어도 99.9%를 구성하는 것인 핵산 서열 라이브러리. 137. 핵산 샘플로부터 생성된 핵산 라이브러리로서, 핵산 샘플의 적어도 80%의 핵산 서열이 핵산 라이브러리에 표시되고; 핵산 샘플의 같은 페이즈의 세그먼트의 적어도 하나의 멀리 위치하는 쌍이 단일 서열 판독으로 판독되도록; 상기 라이브러리를 서열결정하는 단계가 핵산 샘플의 적어도 80%에 걸친 콘티그 정보, 및 상기 핵산 샘플의 페이징된 서열을 생성하기 위해 상기 콘티그 정보를 순서대로 정렬하고 배향시키기에 충분한 페이즈 정보를 동시에 생성하도록 핵산 샘플의 같은 페이즈의 서열 세그먼트가 재배열되는 것인 핵산 라이브러리. 138. 제137 실시양태에 있어서, 핵산 샘플의 적어도 90%의 핵산 서열이 핵산 라이브러리에 표시되는 것인 핵산 라이브러리. 139. 제137 또는 제138 실시양태에 있어서, 핵산 샘플의 적어도 95%의 핵산 서열이 핵산 라이브러리에 표시되는 것인 핵산 라이브러리. 140. 제137 내지 제139 실시양태 중 어느 한 실시양태에 있어서, 핵산 샘플의 적어도 99%의 핵산 서열이 핵산 라이브러리에 표시되는 것인 핵산 라이브러리. 141. 제137 내지 제140 실시양태 중 어느 한 실시양태에 있어서, 핵산 샘플의 상기 80%의 핵산 서열이 100,000개 이하의 라이브러리 성분으로부터 수득되는 것인 핵산 라이브러리. 142. 제137 내지 제141 실시양태 중 어느 한 실시양태에 있어서, 핵산 샘플의 상기 80%의 핵산 서열이 10,000개 이하의 라이브러리 성분으로부터 수득되는 것인 핵산 라이브러리. 143. 제137 내지 제142 실시양태 중 어느 한 실시양태에 있어서, 핵산 샘플의 상기 80%의 핵산 서열이 1,000개 이하의 라이브러리 성분으로부터 수득되는 것인 핵산 라이브러리. 144. 제137 내지 제143 실시양태 중 어느 한 실시양태에 있어서, 핵산 샘플의 상기 80%의 핵산 서열이 500개 이하의 라이브러리 성분으로부터 수득되는 것인 핵산 라이브러리. 145. 제137 내지 제144 실시양태 중 어느 한 실시양태에 있어서, 샘플이 게놈 샘플인 핵산 라이브러리. 146. 제137 내지 제145 실시양태 중 어느 한 실시양태에 있어서, 샘플이 진핵생물 게놈 샘플인 핵산 라이브러리. 147. 제137 내지 제146 실시양태 중 어느 한 실시양태에 있어서, 샘플이 식물 게놈 샘플인 핵산 라이브러리. 148. 제137 내지 제147 실시양태 중 어느 한 실시양태에 있어서, 샘플이 동물 게놈 샘플인 핵산 라이브러리. 149. 제137 내지 제148 실시양태 중 어느 한 실시양태에 있어서, 샘플이 포유동물 게놈 샘플인 핵산 라이브러리. 150. 제137 내지 제149 실시양태 중 어느 한 실시양태에 있어서, 샘플이 단세포 진핵생물 게놈 샘플인 핵산 라이브러리. 151. 제137 내지 제150 실시양태 중 어느 한 실시양태에 있어서, 샘플이 인간 게놈 샘플인 핵산 라이브러리. 152. 제137 내지 제151 실시양태 중 어느 한 실시양태에 있어서, 핵산 라이브러리가 페이즈 정보를 보존하기 위해 바코드화되지 않는 것인 핵산 라이브러리. 153. 제137 내지 제152 실시양태 중 어느 한 실시양태에 있어서, 상기 라이브러리의 판독이 제1 영역으로부터의 적어도 1 kb의 서열, 및 제1 영역과 같은 페이즈로 존재하고 샘플에서 제1 영역으로부터 50 kb 초과의 거리만큼 분리되어 있는 제2 영역으로부터의 적어도 100개 염기의 서열을 포함하는 것인 핵산 라이브러리. 154. 서열결정 장치에서 서열결정하기 위한 핵산 분자를 구성하는 방법으로서, 여기서 핵산 분자는 적어도 100 kb의 서열을 포함하고, 상기 적어도 100 kb의 서열은 서열결정 장치의 판독 길이보다 더 긴 길이만큼 분리되어 있는 제1 세그먼트 및 제2 세그먼트를 포함하고, 상기 방법은 제1 세그먼트 및 제2 세그먼트가 서열결정 장치의 판독 길이보다 더 짧은 길이만큼 분리되도록 핵산 분자의 제2 세그먼트에 대한 제1 세그먼트의 상대적인 위치를 변경하는 단계를 포함하고, 여기서 제1 세그먼트 및 제2 세그먼트에 대한 페이즈 정보는 유지되고; 10% 이하의 핵산 분자가 결실되는 것인 방법. 155. 제154 실시양태에 있어서, 제1 세그먼트 및 제2 세그먼트의 적어도 일부에 걸친 판독을 생성하는 단계를 포함하는 방법. 156. 제154 또는 제155 실시양태에 있어서, 제1 세그먼트 및 제2 세그먼트를 핵산 분자의 서열의 공통 페이즈에 할당하는 단계를 포함하는 방법. 157. 제154 내지 제156 실시양태 중 어느 한 실시양태에 있어서, 5% 이하의 핵산 분자가 결실되는 것인 방법. 158. 제154 내지 제157 실시양태 중 어느 한 실시양태에 있어서, 1% 이하의 핵산 분자가 결실되는 것인 방법. 159. 제154 내지 제158 실시양태 중 어느 한 실시양태에 있어서, 제1 세그먼트 및 제2 세그먼트가 구성 전에 핵산 분자에서 적어도 10 kb만큼 분리되어 있는 것인 방법. 160. 제154 내지 제159 실시양태 중 어느 한 실시양태에 있어서, 제1 세그먼트 및 제2 세그먼트가 구성 전에 핵산 분자에서 적어도 50 kb만큼 분리되어 있는 것인 방법. 161. 제154 내지 제160 실시양태 중 어느 한 실시양태에 있어서, 제1 세그먼트 및 제2 세그먼트가 상기 구성 후에 접합부 마커에 의해 분리되는 것인 방법. 162. 제154 내지 제161 실시양태 중 어느 한 실시양태에 있어서, 핵산의 말단부에 스템 루프를 부착시킴으로써, 분자를 단일 가닥으로 전환하는 단계를 포함하는 방법. 163. 제154 내지 제162 실시양태 중 어느 한 실시양태에 있어서, 핵산 분자를 고리화하는 단계를 포함하는 방법. 164. 제154 내지 제163 실시양태 중 어느 한 실시양태에 있어서, 핵산 분자를 DNA 폴리머라제에 부착시키는 단계를 포함하는 방법. 165. 제154 내지 제164 실시양태 중 어느 한 실시양태에 있어서, 제1 세그먼트 및 제2 세그먼트가 포스포디에스테르 골격과는 독립적으로 함께 유지되도록 핵산 분자를 결합시키는 단계; 적어도 2개의 위치에서 제1 세그먼트와 제2 세그먼트 사이에서 포스포디에스테르 골격을 절단하는 단계; 및 제1 세그먼트와 제2 세그먼트가 서열결정 장치의 판독 길이보다 더 짧은 길이만큼 분리되도록 제1 세그먼트를 제2 세그먼트에 재부착시키는 단계를 포함하는 방법. 166. 제154 내지 제165 실시양태 중 어느 한 실시양태에 있어서, 상기 절단 및 상기 재부착이 상기 핵산 분자로부터 서열 정보의 손실을 유발하지 않는 것인 방법. 167. 제1 핵산 분자로부터의 긴 거리 페이즈 정보를 생성하는 방법으로서, a) 제1 세그멘트, 제2 세그멘트 및 제3 세그멘트를 갖는 제1 핵산 분자를 포함하는 샘플을 제공하는 단계로서, 여기서 제1 세그멘트, 제2 세그멘트 및 제3 세그멘트 중 어느 것도 제1 핵산 분자 상에서 인접하지 않고, 제1 핵산 분자는 제1 세그먼트, 제2 세그먼트 및 제3 세그먼트가 제1 핵산 분자의 공통 포스포디에스테르 골격과 무관하게 프레임워크에 결합하도록 프레임워크에 접촉되는 것인 단계; b) 제1 세그먼트, 제2 세그먼트 및 제3 세그먼트가 공통 포스포디에스테르 골격에 의해 연결되지 않도록 제1 핵산 분자를 절단하는 단계; c) 제1 세그먼트를 제2 세그먼트에 연결하고 제2 세그먼트를 제3 세그먼트에 연결하는 단계; 및 d) 제1 세그먼트, 제2 세그먼트 및 제3 세그먼트를 포함하는 제1 핵산 분자의 제1 부분을 서열결정함으로써, 제1 세그먼트 서열 정보, 제2 세그먼트 서열 정보 및 제3 세그먼트 서열 정보를 생성하는 단계로서, 여기서 제1 세그먼트 서열 정보, 제2 세그먼트 서열 정보 및 제3 세그먼트 서열 정보는 제1 핵산 분자에 대한 긴 거리 페이즈 정보를 제공하는 것인 단계를 포함하는 방법. 168. 제167 실시양태에 있어서, 프레임워크가 재구성된 염색질을 포함하는 것인 방법. 169. 제167 또는 제168 실시양태에 있어서, 프레임워크가 천연 염색질을 포함하는 것인 방법. 170. 제167 내지 제169 실시양태 중 어느 한 실시양태에 있어서, 절단이 제한 효소로 수행되는 것인 방법. 171. 제167 내지 제170 실시양태 중 어느 한 실시양태에 있어서, 절단이 단편화효소를 사용하여 수행되는 것인 방법. 172. 제167 내지 제171 실시양태 중 어느 한 실시양태에 있어서, 서열결정 전에, 최대 2개의 세그먼트를 포함하는 제1 핵산 분자의 제2 부분을 샘플로부터 제거하는 단계를 추가로 포함하는 방법. 173. 제167 내지 제172 실시양태 중 어느 한 실시양태에 있어서, 제1 세그먼트 서열 정보, 제2 세그먼트 서열 정보 및 제3 세그먼트 서열 정보를 사용하여 제1 핵산 분자의 서열을 어셈블하는 단계를 포함하는 방법. 174. 핵산 분자의 서열결정 방법으로서, 공통 포스포디에스테르 골격을 공유하는 제1 세그먼트, 제2 세그먼트 및 제3 세그먼트를 포함하는 제1 핵산 분자를 수득하는 단계로서, 상기 제1 세그먼트, 제2 세그먼트, 및 제3 세그먼트 중 어느 것도 상기 제1 핵산 분자 상에 인접하지 않는 것인 단계; 상기 제1 세그먼트, 제2 세그먼트 및 제3 세그먼트가 그들의 공통 포스포디에스테르 골격과 독립적으로 회합되도록 상기 핵산 분자를 분할하는 단계; 제1 세그먼트, 제2 세그먼트 및 제3 세그먼트를 연결하는 연속적인 포스포디에스테르 골격이 존재하지 않도록, 상기 핵산 분자를 절단하여 단편을 생성하는 단계; 상기 제1 세그먼트, 제2 세그먼트 및 제3 세그먼트가 공통 포스포디에스테르 골격을 공유하는 재배열된 핵산 분자 상에서 연속하도록 상기 단편을 라이게이팅하는 단계; 및 상기 재배열된 핵산 분자의 적어도 5,000개 염기가 단일 판독으로 서열결정되도록 상기 재배열된 핵산 분자의 적어도 일부를 서열결정하는 단계를 포함하는 방법. 175. 제174 실시양태에 있어서, 분할 단계가 상기 핵산 분자를 결합 모이어티에 접촉시켜, 상기 제1 세그먼트, 제2 세그먼트 및 제3 세그먼트가 그들의 공통 포스포디에스테르 골격과 독립적으로 공통적인 복합체에 결합되도록 하는 것을 포함하는 것인 방법. 176. 제174 또는 제175 실시양태에 있어서, 핵산 분자를 다수의 DNA 결합 분자에 접촉시키는 단계가 DNA 결합 단백질의 집단에 접촉시키는 것을 포함하는 것인 방법. 177. 제174 내지 제176 실시양태 중 어느 한 실시양태에 있어서, DNA 결합 단백질의 집단이 핵 단백질을 포함하는 것인 방법. 178. 제174 내지 제177 실시양태 중 어느 한 실시양태에 있어서, DNA 결합 단백질의 집단이 뉴클레오솜을 포함하는 것인 방법. 179. 제174 내지 제178 실시양태 중 어느 한 실시양태에 있어서, DNA 결합 단백질의 집단이 히스톤을 포함하는 것인 방법. 180. 제174 내지 제179 실시양태 중 어느 한 실시양태에 있어서, 핵산 분자를 다수의 DNA 결합 모이어티에 접촉시키는 단계가 DNA 결합 나노입자의 집단에 접촉시키는 것을 포함하는 것인 방법. 181. 제174 내지 제180 실시양태 중 어느 한 실시양태에 있어서, 핵산 분자를 절단하는 단계가 제한 엔도뉴클레아제에 접촉시키는 것을 포함하는 것인 방법. 182. 제174 내지 제181 실시양태 중 어느 한 실시양태에 있어서, 핵산 분자를 절단하는 단계가 비특이적 엔도뉴클레아제에 접촉시키는 것을 포함하는 것인 방법. 183. 제174 내지 제182 실시양태 중 어느 한 실시양태에 있어서, 핵산 분자를 절단하는 단계가 태그 부가 효소에 접촉시키는 것을 포함하는 것인 방법. 184. 제174 내지 제183 실시양태 중 어느 한 실시양태에 있어서, 핵산 분자를 절단하는 단계가 트랜스포사제에 접촉시키는 것을 포함하는 것인 방법. 185. 제174 내지 제184 실시양태 중 어느 한 실시양태에 있어서, 핵산 분자를 절단하는 단계가 제1 분자를 전단하는 것을 포함하는 것인 방법. 186. 제174 내지 제185 실시양태 중 어느 한 실시양태에 있어서, 분할 단계가 샘플의 다른 핵산 분자로부터 상기 핵산 분자를 분리하는 것을 포함하는 것인 방법. 187. 제174 내지 제186 실시양태 중 어느 한 실시양태에 있어서, 분할 단계가 상기 핵산 샘플을 희석하는 것을 포함하는 것인 방법. 188. 제174 내지 제187 실시양태 중 어느 한 실시양태에 있어서, 분할 단계가 상기 핵산 분자를 에멀젼의 미세액적 내에 분배하는 것을 포함하는 것인 방법. 189. 유기체의 게놈의 게놈 페이즈 정보를 나타내는 핵산 분자로서, 단일 게놈 분자에 매핑되는 적어도 20 kb의 핵산 서열 정보를 포함하고, 상기 서열 정보는 게놈 분자 내의 그의 위치에 대해 재배열된 세그먼트를 포함하고, 상기 유기체의 게놈에 특유하게 매핑되는 서열 정보의 적어도 70%는 단일 게놈 분자에 매핑되는 것인 핵산 분자. 190. 제189 실시양태에 있어서, 핵산 분자가 적어도 20개의 세그먼트를 포함하는 것인 핵산 분자. 191. 제189 또는 제190 실시양태에 있어서, 상기 세그먼트가 상기 유기체의 게놈에서 인접하지 않은 것인 핵산 분자. 192. 적어도 20 kb의 적어도 100개의 핵산 분자 성분을 포함하는 핵산 라이브러리로서, 여기서 성분은 유기체의 게놈의 재배열된 세그먼트를 포함하고; 라이브러리 성분으로부터의 특유하게 매핑되는 세그먼트의 적어도 70%는 공통적인 게놈 분자에 매핑되고; 성분은 핵산 결합 모이어티에 결합되지 않는 것인 핵산 라이브러리. 193. 적어도 20 kb의 적어도 100개의 핵산 분자 성분에 상응하는 서열을 포함하는 핵산 데이터세트로서, 여기서 성분은 유기체의 게놈의 적어도 5개의 재배열된 세그먼트를 포함하고, 상기 재배열된 세그멘트의 70% 미만이 공통 스캐폴드에 매핑되는 성분은 하류 분석으로부터 배제되는 것인 핵산 데이터세트. 194. 적어도 20 kb의 적어도 100개의 핵산 분자 성분에 상응하는 서열을 포함하는 핵산 데이터세트로서, 여기서 성분은 유기체의 게놈의 적어도 5개의 재배열된 세그먼트를 포함하고, 상기 서열의 70% 미만이 공통 스캐폴드에 특유하게 매핑되는 성분은 하류 분석으로부터 배제되는 것인 핵산 데이터세트.
도면을 참조하면, 본원에서 논의되는 특정 실시양태의 도면을 볼 수 있다. 도 1에서, 펑츄에이션되고 재배열된 페이즈 보존 핵산 분자를 구축하는 과정에서의 중간체가 관찰된다. 단일 핵산 분자는 재구성된 염색질 복합체와 같은 핵산 결합 모이어티에 결합되고, 복합체를 가교결합시키기 위해 포름알데히드에 접촉된다. 상기 복합체는 집합적으로 재구성된 염색질로 언급되는, 핵산 결합 성분과 클러스터를 형성하는 단일 핵산 출발 분자를 포함하고, 이에 의해 핵산 분자의 내부 루프만이 클러스터로부터 돌출한다. 돌출 루프는 제한 엔도뉴클레아제 MboI를 사용하여 절단되어 도 1에 도시된 바와 같이 점착성 말단부를 생성한다.
대안적인 실시양태에서, 핵산 분자는 비드 또는 표면, 예컨대 SPRI 코팅된 또는 다른 핵산 결합제 코팅된 비드에 결합된다. 핵산 샘플은 비드당 오직 1개의 핵산 분자만 결합되도록 하는 또는 결합된 핵산이 절단 후에 교차 라이게이션할 가능성이 없도록 하는 조건 하에서 결합된다. 또한, 절단은 대안으로 또 다른 제한 엔도뉴클레아제, 트랜스포사제, 태그 부가 효소, 비특이적 엔도뉴클레아제, 토포이소머라제 또는 엔도뉴클레아제 활성을 갖는 다른 작용제를 사용하여 수행된다.
도 2에서, 도 1의 절단된 핵산 복합체가 오버행의 단일 위치를 채우기 위해 핵산 폴리머라제 및 dGTP의 단일 집단을 사용하여 처리됨을 볼 수 있다. 채우기 단계는 후속 단계에서 복합체의 점착성 말단부가 교차 어닐링 및 라이게이션하는 것을 방지한다. 일부 경우에, 이 단계는 제외되고, 복합체는 펑츄에이션 올리고 없이 교차 라이게이션될 수 있다. 대안으로, 평활 말단부가 생성되거나, 제한 엔도뉴클레아제가 아니라 트랜스포사제의 작용을 통해 태그 부가 어댑터가 부가된다.
도 3은 복합체의 노출된 말단부에 펑츄에이션 올리고의 어닐링 및 라이게이션 후의 도 1 및 도 2의 복합체를 보여준다. 펑츄에이션 올리고는 핵산 염기 서열보다는 얇은 실선으로 표시된다. 펑츄에이션 올리고는 예를 들어 5' 포스페이트 기의 제거에 의해 콘카테머화를 방지하도록 임의로 변형된다. 펑츄에이션 올리고는 선택적으로 도 2에서 변형된 바와 같은 자유 점착성 말단부에 적합하도록 설계된다. 다른 실시양태에서, 절단된 핵산 말단부는 개재하는 펑츄에이션 올리고 없이 서로 직접 라이게이션될 수 있다.
도 4는 프로테이나제 K를 사용한 처리를 통해 가교결합의 역전 및 재구성된 염색질로부터의 방출 후의 방출된 펑츄에이션된 핵산 분자를 도시한 것이다. 최종 생성된 펑츄에이션된 핵산은 펑츄에이션 올리고(401)에 의해 분리된 세그먼트(400)을 포함한다. 상기 세그먼트는 원래의 핵산 분자의 페이즈 정보를 보존하지만, 시작 분자에 대해 무작위 순서로 정렬되고 배향된다. 원래의 핵산 분자의 실질적으로 모든 서열은 펑츄에이션된 분자 내에 존재하고, 따라서 펑츄에이션된 분자의 서열결정은 새로운 콘티그를 생성하기에 충분한 서열 정보를 생성한다.
긴 판독물 서열결정 장치를 사용하여 펑츄에이션된 핵산을 서열결정할 때, 페이즈 정보뿐만 아니라 국부적인 순서 및 배향이 유도된 비절단 세그먼트에 상응하는 서열의 스트레치가 관찰된다. 또한, 펑츄에이션 올리고 서열에 걸친 긴 서열 판독물의 영역이 관찰된다. 펑츄에이션 올리고의 어느 한쪽에 있는 상기 서열 세그먼트는 서로 같은 페이즈로 존재(펑츄에이션된 분자 상의 다른 세그먼트와 같은 페이즈로 존재)하지만, 정확한 순서 및 방향으로 있지는 않을 것이다. 재배열 과정의 이점은 샘플 분자에서 서로 멀리 떨어져 있는 세그먼트들이 근접함으로써, 이들이 단일 판독물에 걸쳐진다는 것이다. 또 다른 이점은 새로운 콘티그 정보가 동시에 생성되도록, 원래의 샘플 분자의 서열 정보가 대체로 보존된다는 것이다.
도 5는 본 개시내용의 다른 실시양태를 나타낸다. 한 쌍으로 연결된 서열이 같은 페이즈로 존재함을 각각 나타내는 일련의 짧은 페어링된 말단부(500)는 어댑터 태그 부착(501)(예를 들어, 증폭 어댑터로)되고, 라이게이션되어 연결된 페어링된 말단부 다량체(502)를 형성한다. 개개의 쌍, 또는 이들이 특유하게 매핑되는 콘티그는 공통 페이즈에 자신있게 할당된다. 증폭 어댑터의 양측에 있는 판독 쌍 유닛은 콘카테머 어셈블리에서 추가 조치가 취해지지 않는 한, 서로 특정 순서, 배향 또는 페이즈 관계를 갖는다고 추정되지 않는다.
도 5의 연결된 분자의 이점은 다수의 페어링된 말단부 판독물이, 훨씬 더 많은 수의 짧은 판독물보다 더 적은 수의 또는 하나의 긴 판독물 반응으로 서열결정되는 단일 분자로 어셈블된다는 것이다. 그러나, 개별적인 페어링된 말단부의 세그먼트 길이가 더 짧기 때문에, 출발 샘플의 전반적인 서열은 연결된 분자에서 보존될 것 같지 않으며, 이것은 새로운 서열결정을 복잡하게 만든다.
도 6은 펑츄에이션된 핵산 분자(600)가 짧은 판독물 서열결정을 위한 주형을 생성하기 위해 사용되는 대안적인 시나리오를 보여준다. 펑츄에이션된 핵산 분자는 펑츄에이션 서열에 어닐링하고 빈 특이적 올리고뉴클레오티드 바코드(602)를 포함하는 프라이머(601)의 집단에 접촉된다. 이어서, 프라이머는 예를 들어 펑츄에이션된 핵산 분자에 상보성인 서열(603)을 도입하기 위해 연장될 수 있다. 이 방법을 통해, 페이즈 정보가 바코드 정보에서 유도된다. 그 이점은 짧은 판독물 서열결정이 용이하다는 것이다.
도 7은 라이게이션 단계 전('BF) 및 라이게이션 단계 후('AF')의 두 샘플의 겔 전기영동 분석을 보여준다. 가장 왼쪽의 레인에는 상부에서 하부로 48500, 15000, 7000, 4000, 3000, 2500, 2000, 1500, 1200, 900, 600, 400, 250 및 100 bp의 크기를 갖는 DNA 사다리가 있다. 왼쪽으로부터 두 번째와 세 번째 레인에는 각각 라이게이션 전과 후의 샘플 1이 존재한다. 왼쪽으로부터 네 번째 및 다섯 번째 레인에는 각각 라이게이션 전과 후의 샘플 2가 존재한다. 샘플 1 및 샘플 2 라이게이션된 레인은 둘 모두 7000-48500 bp 범위인 DNA의 어두운 밴드를 보여주고, 이것은 예비 라이게이션 레인의 밴드보다 훨씬 더 크다. 샘플 1은 마이크로리터당 약 7 나노그램 DNA(ng/㎕)를 포함하고 총 약 200 ng의 DNA를 포함하고, 샘플 2는 약 115 ng/㎕의 DNA를 포함하고 총 약 3.4 ㎍의 DNA를 포함한다.
도 8은 샘플의 서열결정 정보에 대한 대표적인 정보를 보여준다. 1,000,000개 초과의 원형 컨센서스 서열(CSS: circular consensus sequence) 판독물이 생성되고, 300,000개의 매핑되지 않은 판독물(25%)이 존재한다. 1,500,000개의 매핑된 세그먼트(-q 1) 및 1,350,000개의 매핑된 세그먼트(-q 20)가 존재한다. 1개의 매핑된 세그먼트가 있는 판독물의 경우, n=500,000; 2개의 매핑된 세그먼트가 있는 판독물의 경우, n=175,000; 3개의 매핑된 세그먼트가 있는 판독물의 경우, n=75,000; 4개의 매핑된 세그먼트가 있는 판독물의 경우, n=30,000; 5개의 매핑된 세그먼트가 있는 판독물의 경우, n=15,000; 6개의 매핑된 세그먼트가 있는 판독물의 경우, n=7,000이다. 표 1은 매핑 세그먼트의 최대수 X를 갖는 판독물에서의 클론 커버리지를 보여준다.
도 9a 및 도 9b는 10 kb 빈(도 9a) 및 1 kb 빈(도 9b)으로, 샘플에 대해 X개의 매핑된 세그먼트를 갖는 판독물에 의해 걸쳐진 거리의 빈도 분포를 보여준다. y축은 PacBio CCS 판독물의 수를 나타낸다(축선의 아래에서 위로: 1, 10, 100, 1000, 10000). x축은 판독물에 의해 걸쳐진 거리를 보여준다(축선의 왼쪽에서 오른쪽으로: 도 9a: 0, 200000, 400000, 600000, 800000, 1000000; 도 9b: 0, 20000, 40000, 60000, 80000, 100000). 빈도 분포는 1개의 매핑된 세그먼트(901, 911), 2개의 매핑된 세그먼트(902, 912), 3개의 매핑된 세그먼트(903, 913), 4개의 매핑된 세그먼트(904, 914) 및 5개의 매핑된 세그먼트(905, 915)를 갖는 판독물에 대해 제시된다.
도 10은 본원에서 설명되는 방법을 실행하도록 구성된 예시적인 컴퓨터 시스템(1000)을 도시한 것이다. 시스템(1000)은 본원에서 설명되는 예시적인 방법을 실행하도록 프로그램된 중앙 컴퓨터 서버(1001)를 포함한다. 서버(1001)는 단일 코어 프로세서, 멀티 코어 프로세서, 또는 병렬 처리를 위한 다수의 프로세서일 수 있는 중앙 처리 장치(CPU, 또한 "프로세서")(1005)를 포함한다. 서버(1001)는 또한 메모리(1010)(예를 들어, 무작위 액세스 메모리, 판독 전용 메모리, 플래시 메모리); 전자 저장 장치(1015)(예를 들어, 하드 디스크); 하나 이상의 다른 시스템과 통신하기 위한 통신 인터페이스(1020)(예를 들어, 네트워크 어댑터); 및 캐시, 다른 메모리, 데이터 저장 장치 및/또는 전자 디스플레이 어댑터를 포함할 수 있는 주변 장치(1025)를 포함한다. 메모리(1010), 저장 장치(1015), 인터페이스(1020) 및 주변 장치(1025)는 마더보드와 같은 통신 버스(실선)를 통해 프로세서(1005)와 연결된다. 저장 장치(1015)는 데이터를 저장하기 위한 데이터 저장 장치일 수 있다. 서버(1001)는 통신 인터페이스(1020)의 도움으로 컴퓨터 네트워크("네트워크")(1030)에 동작 가능하게 연결된다. 네트워크(1030)는 인터넷, 인트라넷 및/또는 엑스트라넷, 인터넷과 연결된 인트라넷 및/또는 엑스트라넷, 원격 통신 또는 데이터 네트워크일 수 있다. 일부 경우에, 서버(1001)의 도움으로 네트워크(1030)는 피어 투 피어(peer-to-peer) 네트워크를 실행할 수 있고, 이는 서버(1001)에 연결된 장치가 클라이언트 또는 서버로서 작동할 수 있게 한다.
저장 장치(1015)는 대상 리포트 및/또는 보호자와의 통신 내용과 같은 파일, 서열결정 데이터, 개인에 관한 데이터, 또는 본 발명과 관련된 데이터의 임의의 측면을 저장할 수 있다.
서버는 네트워크(1030)를 통해 하나 이상의 원격 컴퓨터 시스템과 통신할 수 있다. 하나 이상의 원격 컴퓨터 시스템은 예를 들어 개인용 컴퓨터, 랩톱, 태블릿, 전화기, 스마트 폰, 또는 개인 휴대 정보 단말기(PDA)일 수 있다.
일부 상황에서, 시스템(1000)은 단일 서버(1001)를 포함한다. 다른 상황에서, 시스템은 인트라넷, 엑스트라넷 및/또는 인터넷을 통해 서로 연결된 다수의 서버를 포함한다.
서버(1001)는 측정 데이터, 예를 들어 다형성, 돌연변이, 병력, 가족력, 인구통계학적 데이터 및/또는 잠재적으로 관련된 다른 정보와 같은 대상으로부터의 환자 정보를 저장하도록 구성될 수 있다. 상기 정보는 저장 장치(1015) 또는 서버(1001)에 저장될 수 있고, 상기 데이터는 네트워크를 통해 전송될 수 있다.
본원에서 사용되는 바와 같이, 핵산 세그먼트는 같은 페이즈로 존재할 때 '근접한' 위치에 있으며, 적어도 부분적으로는 단일 판독물에 포함될 수 있다.
실시예
실시예 1. 일부 긴 판독물 서열결정 방법은 이배체 DNA 샘플에서 일부 돌연변이를 페이징할 수 없다.
특정 인간 질환의 치료는 기능적 유전자 산물의 존재에 의존한다. 이 유전자 산물의 존재 하에서, 치료용 분자는 대사되어 효과적인 대사산물을 생성한다. 유전자 산물이 없을 때, 치료용 분자는 축적되고, 환자에게 유해하다.
환자 게놈은 샷건 서열결정되고, 2개의 점 돌연변이가 치료 효능에 필요한 유전자 산물을 코딩하는 유전자좌에 매핑되는 것으로 결정된다. 2개의 점 돌연변이는 어셈블된 샷건 스캐폴드에서 30 kb만큼 분리되어 있다. 2개의 점 돌연변이에 대한 페이즈 정보는 이용할 수 없고, 따라서 의사는 환자가 야생형 대립유전자 및 이중 돌연변이체 대립유전자를 보유하고 있는지, 또는 대안으로 환자가 2개의 단일 돌연변이체 무반응(null) 대립유전자를, 즉 유전자좌의 5' 말단부에 하나 및 유전자좌의 3' 말단부에 하나를 독립적으로 보유하는지의 여부를 결정할 수 없다.
환자로부터 DNA를 추출하고, 샘플을 긴 판독물 서열결정 기기 상에서 서열결정한다. 하나의 긴 판독물의 한계는 평균적으로 10-15 kb이다. 판독은 환자가 제1 돌연변이와 제2 돌연변이 둘 모두에 대해 이형접합성임을 확인한다. 그러나, 환자의 게놈의 돌연변이가 30 kb만큼 분리되어 있음을 고려하면, 생성된 서열 정보를 사용하여 페이즈 정보를 얻을 수 없다. 따라서, 의사는 환자가 야생형 대립유전자 및 이중 돌연변이체 무반응 대립유전자를 보유하고 따라서 치료용 분자를 사용한 치료에 적합한지, 또는 환자가 2개의 단일 돌연변이체 무반응 대립유전자를 보유하고 따라서 치료용 분자를 대사할 수 없는지 여부를 결정할 수 없다. 환자는 치료를 거부당하고, 그 병태로 계속 고통받는다.
본 실시예는 샷건 판독과 조합하여 사용되는 긴 범위의 서열결정 방법이 특히 돌연변이가 동형접합성 DNA의 긴 스트레치에 의해 분리될 때 돌연변이를 정확하게 페이징하지 않음을 보여준다. 또한, 본 실시예는 페이즈 정보를 게놈 서열에 정확하게 할당하지 않으면 환자의 건강이 영향을 받는다는 것을 보여준다.
실시예 2. 이배체 DNA 샘플에서 돌연변이의 성공적인 페이징
실시예 1의 환자로부터의 DNA는 본원에서 개시되는 방법을 사용한 페이즈 분석에 적용된다.
DNA를 실시예 1에 기재된 환자로부터 추출한다. 서열 세그먼트의 상대적인 위치가 재배열되면서 페이즈 정보가 보존되도록, 펑츄에이션된 삽입 셔플링된 분자의 라이브러리를 생성한다.
추출된 DNA를 시험관 내에서 재구성된 염색질 내로 어셈블한다. 재구성된 염색질은 제한 효소 MboI으로 절단된다. 생성되는 점착성 말단부는 제한 효소에 의해 생성된 오버행의 재라이게이션을 방지하기 위해 단일 염기로 부분적으로 채워진다. 소화된 DNA 샘플의 부분적으로 채워진 오버행에 적합한 5' 및 3' 말단부를 갖는 펑츄에이션 올리고뉴클레오티드는 DNA 리가제와 함께 DNA 샘플에 첨가된다. 펑츄에이션 올리고뉴클레오티드는 올리고뉴클레오티드의 콘카테머화를 피하기 위해 5' 포스페이트 기를 함유하지 않는다. 이 라이게이션 단계는 원래 서로 인접하지 않은 말단부가 라이게이션 후에 서로 인접하기 때문에 DNA 세그먼트의 재구성을 초래한다. DNA 분자는 상기 과정 동안 가교결합된 재구성된 염색질 스캐폴드에 결합되기 때문에, 페이즈 정보가 유지된다.
충분한 서열 정보는 완전한 게놈 정보가 페이즈 결정과 독립적으로 샷건 서열 단계를 사용하지 않으면서 얻어지도록 결정된다. 환자는 관심 유전자에서 제1 및 제2 무반응 돌연변이에 대해 이형접합성인 것으로 결정된다.
또한, 2개의 돌연변이를 함유하는 제1 및 제2 DNA 세그먼트가 페이즈 정보의 손실없이 재배열되어 15 kb 미만의 서열이 그들을 분리시키는 라이브러리 분자가 관찰된다. 재배열된 영역에 걸친 판독이 생성되고, 이것은 제1 및 제2 무반응 돌연변이를 포함하는 것으로 밝혀졌다. 재배열된 DNA 샘플의 제1 및 제2 DNA 세그먼트는 15 kb 미만이기 때문에, 2개의 돌연변이는 단일 서열결정 판독에서 모두 검출할 수 있고, 이에 의해 페이징 정보를 얻을 수 있다. 이 페이징 정보는 환자가 이중 돌연변이체 대립유전자를 보유하고 있는지를 결정하는 데 사용된다. 상이한 접합점을 갖고 또한 유전자좌의 제1 및 제2 이형접합성 영역에 걸치는 제1 및 제2 세그먼트도 갖는 제2 판독이 관찰된다. 재배열된 분자의 제1 영역 및 제2 영역은 둘 모두가 야생형 서열을 코딩하는 것이 관찰된다.
페이즈 보존 재배열을 포함하는 추가의 분자의 서열이 결정된다. 추가의 분자는 서로에 대해 상이한 위치에 펑츄에이션 삽입을 갖는 것으로 밝혀졌다. 재배열된 분자에는 단일 무반응 돌연변이 및 단일 야생형 대립유전자가 존재하지 않는다. 대신에, 두 이형접합성 부위에 걸치는 모든 서열 판독물은 두 유전자좌 모두에 야생형 대립유전자를 포함하거나, 두 유전자좌에 무반응 돌연변이를 포함한다.
환자 게놈은 이중 돌연변이체 무반응 대립유전자 및 야생형 대립유전자를 포함하는 것으로 결정된다. 치료는 효과적일 것으로 결론지었다. 환자에게 치료용 분자를 투여하고, 환자의 상태는 치료용 분자의 유익한 활성을 통해 완화된다.
본 실시예는 본원에서 개시되는 방법 및 조성물이 단일 주형 라이브러리로부터의 새로운 서열 생성 및 페이징을 동시에 허용함을 보여준다. 별도의 샷건 서열결정 라이브러리 및 페이즈 결정 라이브러리가 필요하지 않기 때문에, 서열결정 비용을 크게 절감할 수 있다.
본 실시예는 또한 비록 분자가 대체로 동일하고, 이형접합성 위치가 사용된 서열결정 기술에서 판독물 길이의 2배보다 더 큰 동일한 영역에 의해 분리되더라도, 본원에서 개시되는 방법 및 조성물을 사용하여 분자를 정확하게 다량으로 페이징할 수 있음을 보여준다.
실시예 3. 일부 긴 판독물 서열결정 방법은 트랜스포사제가 풍부한 작물 DNA 샘플의 페이징에서 성공적이지 못한다.
옥수수 게놈의 약 90%가 트랜스포존과 같은 전이 요소로 추정된다. 일부 트랜스포존의 반복적인 특성 때문에, 대립유전자의 페이징은 어렵다. 개선된 수확량 및 개선된 영양소 함량을 갖는 옥수수 식물주를 생산하기 위해, 옥수수 이중 돌연변이체 식물주가 요구된다. 두 돌연변이 모두 우성이고 염색체의 반대 말단부에서 발견된다. 고수확량의 옥수수 식물주는 높은 카로테노이드 수준의 옥수수 식물주에 교배되어 이형접합성 식물주를 생성하고, 이종접합성 식물주는 이어서 자기 교배하여 분리 자손체를 생성한다.
자손체 중 일부는 개선된 수확량 및 증가된 영양소 함량을 나타내는 것으로 관찰된다. 이 프로젝트의 다음 단계는 고수확량 및 높은 영양소 함량의 식물주 중 하나를 역병 저항성(blight resistance)을 나타내는 식물주와 교배시키는 것이다. 역병 저항성 돌연변이는 고수확량 돌연변이 또는 개선된 영양소 함량 돌연변이와 동일한 DNA 분자에 포함되어있는 경우 효능을 상실하는 것으로 알려져 있다. 하류 서열결정 및 표현형 결정 실험의 시간 및 비용을 최소화하기 위해, 역병 저항성 식물주를 동일한 DNA 분자 상에 고수확량 및 높은 영양소 함량의 돌연변이를 포함하는 모(parent) 식물주와 교배시키는 것이 바람직한다.
초기 교배로부터 유도된 2개의 모 계통은 근동질유전자 계통(near-isogenic line)이며, 이들 게놈의 변이가 최소화되도록 교배된다. 그 결과, 페이즈 결정을 용이하게 하기 위해 이용 가능한 마커가 거의 발견되지 않는다. 어떤 모종이 동일한 DNA 분자 상에 같은 페이즈로 존재하는 수확량 및 영양소 돌연변이를 포함하는지 결정하기 위한 서열결정을 위해 수천 개의 생성되는 모종으로부터 DNA를 추출한다. 수확량 유전자 및 카로테노이드 유전자는 반복적이고 고도로 보전된 전이 요소로 분리되어 있고 이들 돌연변이를 제외하고는 거의 변이가 없기 때문에, 짧은 판독물 서열결정 기기는 페이징 정보를 제공할 수 없다. 수확량 유전자 돌연변이 및 카로테노이드 유전자 돌연변이가 염색체의 반대 말단부에서 발견되기 때문에, 긴 판독물 서열결정 기술에 의한 하나의 긴 판독물에서 두 돌연변이를 검출할 수 없다. 따라서, 수천 개의 모종 중 임의의 모종이 고수확량 돌연변이 및 높은 영양소 돌연변이의 원하는 조합을 단일 염색체 상에서 같은 페이즈로 보유하고 있는지 여부는 알려지지 않은 상태이다. 프로젝트는 예산 내에서 유지될 수 없는 것으로 결정되고, 따라서 프로젝트는 취소된다.
실시예 4. 트랜스포사제가 풍부한 작물 DNA 샘플의 성공적인 페이징
실시예 3의 옥수수 모종으로부터의 DNA 샘플을 추출 및 변형시켜 세그먼트 셔플링된 페이즈 보존 서열결정 라이브러리를 생성한다. 생성되는 재배열된 DNA 분자는 긴 판독물 서열결정 기기에서 서열결정된다. 하나 이상의 펑츄에이션 올리고뉴클레오티드에 의해 분리된 수확량 돌연변이 유전자좌 및 영양소 돌연변이 유전자좌에 걸치는 단일 서열 판독물이 수득된다. 2개의 유익한 돌연변이가 단일 분자 상에 같은 페이즈로 존재하는 것을 나타내는 판독이 일부의 모종 샘플에서 관찰된다. 확인된 같은 페이즈로 존재하는 고수확량 및 개선된 영양소 함량의 식물주 중의 하나가 선택되고, 개발 도상국에서 많이 필요한 영양소 증가를 가져올 강력한 옥수수 식물주를 생산하기 위해 역병 저항성 식물주와 교배된다.
본 실시예는 본원에서 개시되는 방법 및 조성물이 다수의 반복 요소를 갖는 복합 게놈에 대한 페이즈 정보를 결정하기 위해 어떻게 사용되는지를 설명한다. 이 기술은 관련 작물 종의 게놈과 같은 복잡한 게놈에서도 정확하고 신속한 페이즈 결정을 가능하게 한다.
실시예 5. 구별할 수 없는 페이즈를 갖는 돌연변이 보유 핵산
이배체 유기체는 유전 물질의 각각의 염색체의 2개의 카피를 함유한다. 적어도 30 kb의 동일한 서열에 의해 분리된 2개의 돌연변이가 이배체 게놈의 단일 염색체 상에 존재한다. DNA 샘플은 평균 판독 길이가 15 kb인 긴 판독물 서열결정 기기에서 서열결정된다. 2개의 돌연변이가 동일하거나 상이한 핵산 분자에 포함되어 있는지를 결정하는 것은 불가능하다.
실시예 6. 핵산 샘플의 페이즈 정보의 결정
DNA는 실시예 5의 유기체로부터 추출된다. DNA는 시험관 내에서 DNA 결합 단백질과 어셈블되어 재구성된 염색질을 생성한다. 재구성된 염색질은 재라이게이션을 방지하기 위해 부분적으로 채워지는 점착성 말단부를 만들기 위해 절단된다. 부분적으로 채워진 점착성 말단부에 적합한 말단부를 갖는 펑츄에이션 올리고뉴클레오티드를 DNA 리가제와 함께 염색질 샘플에 첨가한다. 일부 경우에, 펑츄에이션 올리고뉴클레오티드는 올리고뉴클레오티드의 콘카테머화를 피하기 위해 탈인산화된다. 재라이게이션된 염색질 샘플의 DNA 세그먼트는 출발 DNA 샘플과 비교하여 재배열되지만, 페이즈 정보는 분자가 펑츄에이션 과정을 통해 염색질 단백질에 결합되기 때문에 유지된다. 일부 경우에, 게놈 내의 2개의 돌연변이는 이들이 15 kb 미만으로 떨어져 존재하도록 재배열된다. 이 경우, 분리 거리는 긴 판독물 서열결정 기기의 평균 판독 길이보다 짧다. 재배열된 DNA 샘플이 염색질 단백질로부터 방출되어 서열결정될 때, 페이즈 정보가 결정되고, 새로운 서열 스캐폴드를 생성하기에 충분한 서열 정보가 생성된다.
실시예 7. 핵산 샘플-평활 라이게이션의 페이즈 정보 결정
실시예 5의 유기체로부터 DNA를 추출하고, 시험관 내에서 DNA 결합 단백질과 재어셈블하여 재구성된 염색질을 생성한다. DNA는 절단되어 평활 말단부를 생성한다. 평활 말단부를 갖는 펑츄에이션 올리고뉴클레오티드는 절단된 DNA 샘플의 평활 말단부에 라이게이션된다. 펑츄에이션 올리고뉴클레오티드는 올리고뉴클레오티드의 콘카테머화를 피하기 위해 탈인산화된다. 재배열된 DNA 샘플은 염색질 단백질로부터 방출되고, 실시예 6에서와 같이 서열결정된다. 재배열된 DNA 샘플이 염색질 단백질로부터 방출되어 서열결정될 때, 페이즈 정보가 결정되고, 새로운 서열 스캐폴드를 생성하기에 충분한 서열 정보가 생성된다.
실시예 8. 펑츄에이션 분자-짧은 판독물의 바코드화
펑츄에이션 올리고뉴클레오티드를 포함하는 DNA 샘플을 실시예 6-7 중 어느 하나에 기재된 바와 같이 생성한다. DNA 결합 단백질로부터 방출된 후, 펑츄에이션된 DNA 분자로 지칭되는 자유로운 DNA 샘플을 적어도 2개의 세그먼트를 포함하는 올리고뉴클레오티드에 접촉시킨다. 한 세그먼트는 바코드를 포함하고, 제2 세그먼트는 펑츄에이션 서열에 상보성인 서열을 포함한다. 펑츄에이션 서열에 어닐링한 후, 바코드화된 올리고뉴클레오티드는 동일한 DNA 분자로부터 바코드화된 분자를 생성하기 위해 폴리머라제로 연장된다. 이러한 바코드화된 분자는 바코드 서열, 펑츄에이션 상보성 서열 및 게놈 서열을 포함한다. 연장 생성물은 짧은 판독물 서열결정 기기에서 서열결정되고, 페이즈 정보는 동일한 바코드를 갖는 서열 판독물을 공통 페이즈로 분류함으로써 결정된다.
실시예 9. 펑츄에이션 분자-긴 판독물의 바코드화
DNA 샘플을 실시예 8에서와 같이 추출하고, 펑츄에이션하고, 바코드화한다. 연장 후, 바코드화된 생성물을 함께 벌크 라이게이션하여, 긴 판독물 서열결정 기술을 사용하여 판독되는 긴 분자를 생성한다. 삽입된 판독 쌍은 증폭 어댑터 및 펑츄에이션 서열을 통해 확인할 수 있다. 추가의 페이즈 정보는 판독 쌍의 바코드 서열로부터 얻어진다.
실시예 10. 트랜스포존 펑츄에이션을 갖는 페이즈 정보의 결정
실시예 5의 DNA 샘플을 추출하고, 시험관 내에서 DNA 결합 단백질과 재어셈블하여 재구성된 염색질을 생성한다. 2개의 연결되지 않은 펑츄에이션 올리고뉴클레오티드에 결합된 트랜스포사제를 DNA 샘플에 첨가한다. 트랜스포사제는 노출된 DNA 세그먼트를 절단하고, 2개의 펑츄에이션 올리고뉴클레오티드를 DNA에 삽입한다. 주어진 트랜스포사제에서 펑츄에이션 올리고뉴클레오티드는 연결되지 않기 때문에, 삽입은 2개의 자유로운 DNA 말단부를 생성하며, 각각의 말단부는 2개의 펑츄에이션 올리고뉴클레오티드 중 하나에 의해 종결되고, 페이즈 정보를 보존하기 위해 재구성된 염색질에 각각 연결된다. 평활 DNA 말단부를 함께 라이게이션하기 위해 DNA 리가제를 샘플에 첨가하고, 이에 의해 DNA 세그먼트의 재배열이 발생하지만, DNA 분자가 이 과정 전체에 걸쳐서 염색질 단백질에 결합되어 있기 때문에 페이즈 정보는 유지된다. 재배열된 DNA 샘플은 염색질 단백질로부터 방출되고, 페이즈 정보를 결정하기 위해 실시예 6에서와 같이 서열결정된다.
실시예 11. 트랜스포존 펑츄에이션 -짧은 판독물을 갖는 페이즈 정보의 결정
DNA 샘플을 추출하고, 시험관 내에서 재구성된 염색질로 재어셈블하고, 실시예 10에 기재된 바와 같이 트랜스포사제로 펑츄에이션한다. 평활 말단부의 재라이게이션 후, 재라이게이션된 DNA 세그먼트를 제한 소화에 의해 단백질-DNA 복합체로부터 방출시키고, 이에 의해 다수의 페어링된 말단부가 형성되고, 이것은 후속적으로 증폭 어댑터에 라이게이션된다. 증폭 후, 페어링된 말단부는 숏 리치(short reach) 기술로 서열결정된다. 펑츄에이션된 접합부의 어느 한쪽에 대해 펑츄에이션 인접 서열은 공통 분자의 공통 페이즈로부터 유래된다고 자신있게 결론내릴 수 있다.
실시예 12. 트랜스포존 펑츄에이션 -긴 판독물을 갖는 페이즈 정보의 결정
DNA 샘플을 추출하고, 시험관 내에서 재구성된 염색질로 재어셈블하고, 실시예 10에 기재된 바와 같이 트랜스포사제로 펑츄에이션한다. 평활 말단부의 재라이게이션 후, 재라이게이션된 DNA 세그먼트를 제한 소화에 의해 단백질-DNA 복합체로부터 방출시키고, 이에 의해 다수의 페어링된 말단부가 형성되고, 이것은 후속적으로 증폭 어댑터에 라이게이션된다. 증폭 후, 다수의 페어링된 말단부는 함께 벌크 라이게이션되어, 긴 판독물 서열결정 기술을 사용하여 판독되는 긴 분자를 생성한다. 삽입된 판독 쌍은 트랜스포사제 펑츄에이션 서열에 인접한 천연 DNA 서열을 통해 확인 가능하다. 연결된 펑츄에이션된 접합부는 긴 서열 기기에서 판독되고, 다수의 접합부에 대한 순서 정보가 얻어진다. 접합부는 다수의 상이한 염색체에 매핑되는 것으로 밝혀졌다. 그러나, 펑츄에이션된 접합부의 어느 한쪽에 대해 펑츄에이션 인접 서열은 공통 분자의 공통 페이즈로부터 유래된다고 자신있게 결론내릴 수 있다.
실시예 13. 시카고 쌍의 콘카테머 생성
DNA 샘플을 추출하고, 시험관 내에서 DNA 결합 단백질과 어셈블하여 재구성된 염색질을 생성한다. DNA는 절단되어 점착성 말단부를 생성한다. 점착성 말단부는 비오티닐화된 뉴클레오티드로 채워진 후, 시카고 쌍으로 불리는 DNA 세그먼트 쌍을 생성하기 위해 채워진 말단부의 평활 라이게이션이 이어진다. 이러한 재셔플링된 핵산은 염색질 단백질로부터 방출되어 절단되고, 스트렙타비딘 결합 라이게이션 접합부가 단리된다. 증폭 어댑터가 시카고 쌍의 자유 말단부에 부가된다. 증폭 후, 시카고 쌍은 긴 판독물 서열 기술을 사용하여 판독되는 긴 분자를 생성하기 위해 함께 벌크 라이게이션된다. 삽입된 판독 쌍은 증폭 어댑터를 통해 확인 가능하다. 또한, 비오티닐화된 염기를 도입하기 위해 사용된 '채우기 과정'에서 생성된 서열 반복체는 같은 페이즈로 존재하는 서열을 연결하는 접합부를 확인하기 위해 사용된다.
라이게이션된 콘카테머는 긴 판독물 서열결정 장치의 단일 판독에서 서열결정된다. 개별 접합부가 연결되어 있기 때문에, 다수의 접합부를 단일 판독에서 서열결정할 수 있다.
실시예 14. 헤어핀 DNA 분자의 페이징
실시예 6, 7, 9, 10 또는 12 중 어느 하나에서 생성된 긴, 펑츄에이션된 DNA 분자는 한쪽 말단부에서 헤어핀 어댑터에 라이게이션되어, 역위 반복체를 보유하는 자가 어닐링하는 단일 가닥 분자를 생성한다. 분자는 서열결정 효소를 통해 공급되고, 역위 반복체의 각각의 측면의 전장 서열이 얻어진다. 생성되는 서열 판독은 각각 페이즈 정보를 전달하는 다수의 재배열된 세그먼트를 보유하는 펑츄에이션된 DNA 분자의 2x의 커버리지에 대응한다. 핵산 샘플의 새로운 지지체를 독립적으로 생성하기 위해 충분한 서열이 생성된다.
실시예 15. 원형화된 DNA 분자의 페이징
실시예 6, 7, 9, 10 또는 12 중 어느 하나에서 생성된 길고 긴, 펑츄에이션된 DNA 분자는 절단되어 요구되는 길이의 이중 가닥 분자의 집단을 형성한다. 이들 분자는 각각의 말단부에서 단일 가닥 어댑터에 라이게이션된다. 그 결과, 양 말단부에서 헤어핀 루프가 형성된 이중 가닥 DNA 주형이 생성된다. 원형 분자는 연속적인 서열결정 기술에 의해 서열결정된다. 긴 이중 가닥 세그먼트를 함유하는 분자의 연속적인 긴 판독물 서열결정은 각각의 분자의 하나의 연속적인 판독을 실시한다. 짧은 이중 가닥 세그먼트를 함유하는 분자의 연속적인 서열결정은 분자의 다수의 판독을 실시하고, 이들 판독은 단독으로 또는 연속적인 긴 판독물 서열 정보와 함께 분자의 컨센서스 서열을 확인하기 위해 사용된다. 펑츄에이션 올리고로 표시된 게놈 세그먼트 경계가 확인되고, 펑츄에이션 경계에 인접한 서열은 같은 페이즈로 존재한다고 결론지어진다. 핵산 샘플의 새로운 지지체를 독립적으로 생성하기 위해 충분한 서열이 생성된다.
실시예 16. 다수의 펑츄에이션된 DNA 분자를 사용한 페이징된 서열 어셈블리
실시예 6, 7, 9, 10 또는 12 중 어느 하나에서 설명된 바와 같이 다수의 펑츄에이션된 DNA 분자가 생성된 후, 긴 판독물 서열결정 기술을 사용하여 서열결정된다. 다수의 펑츄에이션된 DNA 분자로부터의 서열을 비교한다. 다수의 분자 중 2개의 분자는 공통적인 서열을 공유하지만, 독립적으로 유도되고, 상이한 펑츄에이션 올리고를 갖는 것으로 관찰된다. 제1 분자에 제시된 펑츄에이션 올리고에 대해, 서열은 펑츄에이션 올리고의 각 측면 상의 서열 세그먼트가 공통 분자 상에 같은 페이즈로 존재한다고 결론지어진다. 그러나, 같은 페이즈로 존재하는 세그먼트의 상대적인 위치는 명확하지 않다.
제1 펑츄에이션된 DNA 분자의 한 세그먼트는 제2 펑츄에이션 DNA 분자의 서열과 비교된다. 제1 분자의 펑츄에이션 올리고 부근의 세그먼트 말단부는 제2 펑츄에이션된 DNA 분자의 세그먼트의 내부에 매핑된다는 것이 밝혀졌다. 제1 펑츄에이션된 DNA 분자의 펑츄에이션 올리고를 넘어 정렬되는 제2 펑츄에이션된 올리고의 세그먼트의 서열은 제1 펑츄에이션 DNA 분자에 매핑되고, 먼 위치의 세그먼트가 확인된다. 제2 DNA 분자 세그먼트를 가이드로 사용하여, 제1 펑츄에이션된 DNA 분자의 2개의 세그먼트가 원래의 핵산 샘플에서 서로 인접하여 위치한다고 결정된다.
즉, 제1 펑츄에이션된 분자는 그의 구성 세그먼트에 대한 페이즈 정보를 결정하기 위해 사용되는 반면, 제2(및 추가의) 펑츄에이션된 DNA 분자의 비펑츄에이션된 영역에 대한 비교는 제1 펑츄에이션된 분자의 세그먼트를 순서대로 정렬하기 위해 사용된다. 이 과정을 상호 반복하면, 각각의 다수의 펑츄에이션 올리고에서 대부분의 세그먼트에 대해 페이즈 및 순서 정보가 결정된다.
생성되는 어셈블된 서열은 재배열 전의 투입 DNA 분자의 페이징된 서열이고, 핵산 샘플의 새로운 페이징된 어셈블리를 나타낸다.
실시예 17. 긴 판독물 서열 데이터를 사용한 짧은 판독물 서열결정 데이터의 페이징
펑츄에이션된 DNA 분자는 실시예 6, 7, 9, 10 또는 12 중 어느 하나에서 설명된 바와 같이 생성된 후, 긴 판독물 서열결정 기술을 사용하여 서열결정된다. 이와 동시에, 투입 DNA는 표준 짧은 판독물 샷건 서열결정 기술을 사용하여 서열결정된다. 샘플로부터의 샷건 서열은 재배열된 DNA 분자로부터 생성된 긴 판독 데이터에 매핑되다. 펑츄에이션된 분자로부터의 페이징된 게놈 서열 판독물은 동시에 생성된 짧은 판독물 서열결정으로부터 얻어진 서열결정 데이터에 매핑된다. 일부의 짧은 판독물은 긴 판독에 의해 생성된 서열에 매핑된다. 상기 중첩은 짧은 서열 판독물이 펑츄에이션된 DNA 분자의 긴 서열 판독물로부터 생성된 게놈 서열과 동일한 페이즈에 할당되도록 한다.
실시예 18. 핵산 서열 라이브러리 - 긴 판독물
다수의 펑츄에이션된 DNA 분자는 실시예 6, 7, 9, 10 또는 12 중 어느 하나에서 설명된 바와 같이 생성된 후, 긴 판독물 서열결정 기술을 사용하여 서열결정된다. 각각의 펑츄에이션된 분자는 서열결정되고, 서열 판독물이 분석된다. 서열은 서열 반응에 대해 평균 10 kb가 판독된다. 펑츄에이션 올리고 서열에 의해 연결된, 적어도 500개 염기의 제1 세그먼트 및 500개 염기의 제2 세그먼트를 포함하는 서열 판독물이 확인된다. 제1 및 제2 세그먼트 서열은 스캐폴드 게놈에 매핑되고, 적어도 100 kb만큼 분리된 콘티그에 매핑되는 것으로 밝혀졌다.
제1 콘티그 및 제2 콘티그는 각각 하나의 이형접합성 위치를 포함하고, 그의 페이즈는 스캐폴드에서 결정되지 않는다. 제1 콘티그의 이형접합성 위치는 긴 판독물의 제1 세그먼트에 의해 걸쳐지고, 제2 콘티그의 이형접합성 위치는 긴 판독물의 제2 세그먼트의 500개 염기에 의해 걸쳐진다.
판독물은 각각 그의 콘티그 각각의 이형접합성 영역에 걸쳐진다. 판독 세그먼트의 서열은 제1 콘티그의 제1 대립 유전자 및 제2 콘티그의 제1 대립 유전자가 같은 페이즈로 존재함을 나타낸다. 제1 및 제2 핵산 세그먼트로부터의 서열은 하나의 긴 서열 판독물에서 검출되기 때문에, 제1 및 제2 핵산 세그먼트가 투입 DNA 샘플에서 동일한 DNA 분자에 포함되는 것으로 결정된다.
본 실시예는 펑츄에이션 분자로부터의 긴 판독물이 게놈 스캐폴드 상에서 서로 멀리 떨어져 위치하는 콘티그에 대한 페이즈 정보를 제공한다는 것을 보여준다. 또한, 본 실시예는 펑츄에이션 올리고에 인접한 각각의 세그먼트의 크기가 정확한 매핑을 용이하게 할 수 있을 정도로 충분히 크고 이형접합성 위치가 걸쳐질 가능성을 증가시키기 때문에, 높은 신뢰도로 매핑이 수행되었음을 보여준다.
실시예 19. 핵산 서열 라이브러리 - 짧은 판독물
다수의 페어링된 말단부 분자는 실시예 8 또는 11에서 설명된 바와 같이 생성된 후, 긴 판독물 서열결정 기술을 사용하여 서열결정된다. 라이브러리에 대한 평균 판독 길이는 1 kb로 결정된다. 페어링된 말단부 분자는 투입 DNA 샘플 내에서 같은 페이즈로 존재하고 10 kb보다 긴 거리만큼 분리되어 있는 제1 DNA 세그먼트 및 제2 DNA 세그먼트를 포함한다. 서열 판독물은 페어링된 말단부 분자로부터 생성되고, 이들 중 일부는 제1 핵산 단편으로부터의 적어도 300개 염기의 서열 및 제2 핵산 세그먼트로부터의 적어도 300개 염기의 서열을 포함한다. 제1 및 제2 핵산 세그먼트로부터의 서열은 하나의 서열 판독에서 검출되기 때문에, 제1 및 제2 핵산 세그먼트는 투입 DNA 샘플에서 동일한 DNA 분자 상에 같은 페이즈로 존재한다고 결정된다.
본 실시예는 본원에서 교시된 바와 같이 재배열된 펑츄에이션된 분자를 사용하여, 핵산 샘플에서 서열결정하기 위해 사용된 서열결정 기술의 판독 길이보다 더 긴 거리만큼 분리되어 있는 DNA 세그먼트에 대한 페이즈 정보를 생성하는 서열 라이브러리를 생성할 수 있음을 보여준다.
실시예 20. 핵산 서열 라이브러리 - 페이징된 DNA의 동시 어셈블리
다수의 서열 판독물이 펑츄에이션된 DNA 라이브러리로부터 생성된다. 라이브러리는 실시예 18 또는 19에 설명된 바와 같은 페이즈 정보를 전달하여, 펑츄에이션 사건의 양쪽에 있는 세그먼트는 단일 분자에서 같은 페이즈로 존재한다고 결정된다. 또한, 생성된 서열 판독물은 투입 DNA 샘플의 핵산 서열의 적어도 80%를 나타낸다. 서열 판독물은 투입 DNA 샘플의 적어도 80%에 걸치는 새로운 콘티그 정보를 생성하기 위해 사용된다. 추가로, 서열 판독물은 페이즈 정보를 결정하기 위해 사용되고, 이어서 투입 DNA 샘플의 페이징된 서열 어셈블리를 생성하도록 서로에 대해 콘티그를 순서대로 정렬하고 배향시키기 위해 사용된다.
본 실시예는 펑츄에이션된 DNA 분자가 페이즈 정보를 전달하고 또한 일부 경우에는 전체 핵산 서열의 실질적인 부분을 포함하는 서열 정보를 포함하여 새로운 서열 어셈블리가 동시에 생성된다는 것을 보여준다.
실시예 21. DNA 분자 페이징
길이가 적어도 100 kb인 적어도 일부의 DNA 분자를 포함하는 고분자량(HMW) DNA 샘플이 추출된다. 100 kb DNA 분자 중 하나는 표준 서열결정 기술의 평균 판독 길이보다 더 긴 거리만큼 분리된 제1 핵산 세그먼트 및 제2 핵산 세그먼트를 포함한다. 핵산 샘플은 이배체이지만, 큰 서열 동일성 영역을 포함하여 페이즈 결정을 복잡하게 만든다.
확실한 페이즈 결정을 위해, 제1 및 제2 DNA 세그먼트는 단일 서열결정 판독 내에서 검출될 필요가 있다. 따라서, 제1 및 제2 DNA 세그먼트의 상대적인 위치는 표준 서열결정 기술의 평균 판독 길이보다 더 짧은 거리만큼 분리되도록 변경되어야한다. 이 재정렬은 페이즈 정보 손실을 야기하지 않아야 한다. 이러한 재배열은 본원에서 개시되는 방법에 의해 및 실시예 6, 7 또는 10 중 어느 하나에 설명된 방법에 의해 달성된다. 페이즈 유지 재배열 동안, 출발 HMW DNA 분자의 10% 이하가 결실된다. 즉, 제1 세그먼트 및 제2 세그먼트는 단지 개재 서열을 결실시킴으로써 근접하게 되지 않는다. 오히려, 세그먼트는 대부분의 개재 서열을 결실시키지 않으면서 서로에 대해 재배열된다. 거의 모든 투입 DNA 분자가 보존되기 때문에, 서열결정 후에, 생성된 서열 판독물은 거의 모든 투입 DNA 분자가 서열결정되고, 어셈블되고, 페이징되도록 새로이 생성된 콘티그를 어셈블하고, 순서대로 정렬하고, 배향시키기 위해 사용된다.
실시예 22. 포유동물 세포 배양물의 분석
포유동물 세포 배양물 샘플을 본원에서 설명되는 기술을 사용하여 분석한다. 간단히 설명하면, 포유동물 세포의 세포 배양물을 성장시킨다. 세포를 가교결합시키고, 가교결합을 중지시키고, 세포 펠렛을 -20℃에서 보관한다. 세포를 균질화하고, 핵을 용해 버퍼에서 회수한다. 균질액 중의 핵을 SPRI 비드에 결합시키고, DpnII 제한 효소를 사용하여 소화시킨다. 말단부는 바이오틴-11-dCTP 없이 채우고, 평활 말단부는 라이게이션된다. 가교결합이 역전되어 DNA가 회수되고 세척되고 서열결정을 위해 준비된다. 서열결정은 퍼시픽 바이오사이언시스 SMRT 긴 판독물 서열결정으로 수행된다. 일부 경우에, DNA는 서열결정 전에 길이가 적어도 약 6 kb인 분자에 대해 크기가 선택될 수 있다.
라이게이션이 적절하게 일어나는지를 보장하기 위해 2개의 샘플을 시험한다. 도 7은 별개의 샘플에서의 성공적인 라이게이션을 나타내는 결과를 보여준다. 라이게이션이 실질적으로 더 높은 분자량의 핵산으로의 전환을 유도한 각각의 샘플을 관찰할 수 있다.
도 8에서, 상기 라이브러리 생성 과정의 결과가 제시된다. 1,000,000개가 넘는 원형 컨센서스 서열(CSS) 판독 중에서, 단지 300,000개만 매핑되지 않는다. 1,500,000개의 매핑된 세그먼트(-q 1) 및 1,350,000개의 매핑된 세그먼트(-q 20)가 존재한다. 1개의 매핑된 세그먼트가 있는 판독물의 경우, n=500,000; 2개의 매핑된 세그먼트가 있는 판독물의 경우, n=175,000; 3개의 매핑된 세그먼트가 있는 판독물의 경우, n=75,000; 4개의 매핑된 세그먼트가 있는 판독물의 경우, n=30,000; 5개의 매핑된 세그먼트가 있는 판독물의 경우, n=15,000; 6개의 매핑된 세그먼트가 있는 판독물의 경우, n=7,000이다. 이것은 세그먼트가 쉽게 확인되고, 라이브러리 생성 프로토콜이 다수의 재배열된 세그먼트에 걸친 판독물을 생성함을 보여준다.
표 1은 나타낸 수의 매핑 세그먼트를 갖는 판독물로부터의 클론 커버리지를 보여준다. 표에 나타낸 바와 같이, 라이브러리 생성 프로토콜은 2개 이상의 매핑 세그먼트를 갖는 클론의 수에 의해 표시되는 바와 같은 가치있는 페이징 정보를 생성하면서, 전체 세그먼트 서열에서 실질적인 전체 게놈 커버리지를 제시한다. 많은 게놈이 반복 서열을 가지고 있기 때문에, 특유하게 매핑된 세그먼트의 수는 재배열된 라이브러리 구성 분자 내의 세그먼트의 총수를 과소평가한 것이다.
<표 1> 매핑 세그먼트의 최대수 X를 갖는 판독물로부터의 대략적인 클론 커버리지
Figure pct00001
도 9a-9b에서, 10 kb 빈(도 9a) 및 1 kb 빈(도 9b)으로 분류된, 샘플에 대한 X개의 매핑된 세그먼트를 갖는 판독물에 의해 걸쳐진 거리의 빈도 분포가 제시된다. 이 도면의 데이터는 본원에서 개시되는 바와 같은 라이브러리 생성 프로토콜이 게놈 서열 정보(종종 다형성을 포함함) 및 페이즈 정보를 모두 제공하도록 인식 가능한 접합부에 라이게이션된 다수의 특유하게 매핑된 세그먼트를 갖는 판독물을 생성하고, 따라서 이들 다형성이, 서열 판독 길이보다 더 긴 거리에서 샘플 게놈에서 발생하고 이형접합성의 마커를 갖지 않는 서열에 의해 분리되는 경우에도 서로에 대해 페이징될 수 있다는 결론을 재확인한다.

Claims (44)

  1. 제1 DNA 분자로부터 긴 거리 페이즈(phase) 정보를 생성하는 방법으로서,
    a) 제1 세그먼트 및 제2 세그먼트를 갖는 제1 DNA 분자를 제공하는 단계로서, 상기 제1 세그먼트 및 제2 세그먼트가 제1 DNA 분자 상에서 인접하지 않는 것인 단계;
    b) 제1 세그먼트 및 제2 세그먼트가 제1 DNA 분자의 공통 포스포디에스테르 골격과 독립적으로 DNA 결합 모이어티에 결합되도록 제1 DNA 분자를 DNA 결합 모이어티에 접촉시키는 단계;
    c) 제1 세그먼트 및 제2 세그먼트가 공통 포스포디에스테르 골격에 의해 연결되지 않도록 제1 DNA 분자를 절단하는 단계;
    d) 제1 세그먼트를 포스포디에스테르 결합을 통해 제2 세그먼트에 부착시켜 재어셈블된 제1 DNA 분자를 형성하는 단계; 및
    e) 단일 서열결정 판독에서 제1 세그먼트와 제2 세그먼트 사이의 접합부를 포함하는 재어셈블된 제1 DNA 분자의 적어도 4 kb의 연속적인 서열을 서열결정하는 단계
    를 포함하고;
    상기 제1 세그먼트 서열 및 제2 세그먼트 서열은 제1 DNA 분자로부터의 긴 거리 페이즈 정보를 나타내는 것인, 제1 DNA 분자로부터 긴 거리 페이즈 정보를 생성하는 방법.
  2. 제1항에 있어서, DNA 결합 모이어티는 다수의 DNA 결합 분자를 포함하는 것인 방법.
  3. 제2항에 있어서, 제1 DNA 분자를 다수의 DNA 결합 분자에 접촉시키는 단계는 DNA 결합 단백질의 집단에 접촉시키는 것을 포함하는 것인 방법.
  4. 제3항에 있어서, DNA 결합 단백질의 집단은 핵 단백질을 포함하는 것인 방법.
  5. 제3항에 있어서, DNA 결합 단백질의 집단은 뉴클레오솜을 포함하는 것인 방법.
  6. 제3항에 있어서, DNA 결합 단백질의 집단은 히스톤을 포함하는 것인 방법.
  7. 제2항에 있어서, 제1 DNA 분자를 다수의 DNA 결합 모이어티에 접촉시키는 단계는 DNA 결합 나노입자의 집단에 접촉시키는 것을 포함하는 것인 방법.
  8. 제1항에 있어서, 제1 DNA 분자는 제1 DNA 분자 상에서 제1 세그먼트 또는 제2 세그먼트에 인접하지 않는 제3 세그먼트를 갖고,
    여기서 (b)에서의 접촉은 제3 세그먼트가 제1 DNA 분자의 공통 포스포디에스테르 골격과 독립적으로 DNA 결합 모이어티에 결합되도록 수행되고,
    (c)에서의 절단은 제3 세그먼트가 공통 포스포디에스테르 골격에 의해 제1 세그먼트 및 제2 세그먼트에 연결되지 않도록 수행되고,
    부착은 제3 세그먼트를 포스포디에스테르 결합을 통해 제2 세그먼트에 부착시켜 재어셈블된 제1 DNA 분자를 형성하는 것을 포함하고,
    (e)에서 서열결정된 연속적인 서열은 단일 서열결정 판독에서 제2 세그먼트와 제3 세그먼트 사이에 접합부를 포함하는 것인 방법.
  9. 제1항에 있어서, 제1 DNA 분자를 가교결합제에 접촉시키는 단계를 포함하는 방법.
  10. 제1항 내지 제7항 중 어느 한 항에 있어서, 제1 DNA 분자를 가교결합제에 접촉시키는 단계를 포함하는 방법.
  11. 제9항에 있어서, 가교결합제는 포름알데히드인 방법.
  12. 제10항에 있어서, 가교결합제는 포름알데히드인 방법.
  13. 제1항에 있어서, DNA 결합 모이어티는 다수의 DNA 결합 모이어티를 포함하는 표면에 결합되는 것인 방법.
  14. 제1항에 있어서, DNA 결합 모이어티는 비드를 포함하는 고체 프레임워크에 결합되는 것인 방법.
  15. 제1항에 있어서, 제1 DNA 분자를 절단하는 단계는 제한 엔도뉴클레아제에 접촉시키는 것을 포함하는 것인 방법.
  16. 제1항에 있어서, 제1 DNA 분자를 절단하는 단계는 비특이적 엔도뉴클레아제에 접촉시키는 것을 포함하는 것인 방법.
  17. 제1항에 있어서, 제1 DNA 분자를 절단하는 단계는 태그 부가 효소에 접촉시키는 것을 포함하는 것인 방법.
  18. 제1항에 있어서, 제1 DNA 분자를 절단하는 단계는 트랜스포사제에 접촉시키는 것을 포함하는 것인 방법.
  19. 제1항에 있어서, 제1 DNA 분자를 절단하는 단계는 제1 분자를 전단하는 것을 포함하는 것인 방법.
  20. 제1항에 있어서, 적어도 하나의 노출된 말단부에 태그를 부가하는 단계를 포함하는 방법.
  21. 제20항에 있어서, 태그는 표지된 염기를 포함하는 것인 방법.
  22. 제20항에 있어서, 태그는 메틸화된 염기를 포함하는 것인 방법.
  23. 제20항에 있어서, 태그는 비오티닐화된 염기를 포함하는 것인 방법.
  24. 제20항에 있어서, 태그는 우리딘을 포함하는 것인 방법.
  25. 제20항에 있어서, 태그는 비표준 염기를 포함하는 것인 방법.
  26. 제20항에 있어서, 태그는 평활 말단의 노출된 말단부를 생성하는 것인 방법.
  27. 제1항에 있어서, 적어도 하나의 염기를 제1 세그먼트 점착성 말단부의 오목(recessed) 가닥에 부가하는 단계를 포함하는 방법.
  28. 제1항 내지 제20항 중 어느 한 항에 있어서, 제1 세그먼트 점착성 말단부에 어닐링하는 오버행을 포함하는 링커 올리고를 부가하는 단계를 포함하는 방법.
  29. 제1항 내지 제20항 중 어느 한 항에 있어서, 링커 올리고는 제1 세그먼트 점착성 말단부에 어닐링하는 오버행 및 제2 세그먼트 점착성 말단부에 어닐링하는 오버행을 포함하는 것인 방법.
  30. 제1항 내지 제29항 중 어느 한 항에 있어서, 링커 올리고는 2개의 5' 포스페이트 모이어티를 포함하지 않는 것인 방법.
  31. 제1항에 있어서, 부착 단계는 라이게이션을 포함하는 것인 방법.
  32. 제1항에 있어서, 부착 단계는 DNA 단일 가닥 닉(nick) 복구를 포함하는 것인 방법.
  33. 제1항에 있어서, 제1 세그먼트 및 제2 세그먼트는 제1 DNA 분자를 절단하기 전에 제1 DNA 분자 상에서 적어도 10 kb만큼 분리되어 있는 것인 방법.
  34. 제1항에 있어서, 제1 세그먼트 및 제2 세그먼트는 제1 DNA 분자를 절단하기 전에 제1 DNA 분자 상에서 적어도 15 kb만큼 분리되어 있는 것인 방법.
  35. 제1항에 있어서, 제1 세그먼트 및 제2 세그먼트는 제1 DNA 분자를 절단하기 전에 제1 DNA 분자 상에서 적어도 30 kb만큼 분리되어 있는 것인 방법.
  36. 제1항에 있어서, 제1 세그먼트 및 제2 세그먼트는 제1 DNA 분자를 절단하기 전에 제1 DNA 분자 상에서 적어도 50 kb만큼 분리되어 있는 것인 방법.
  37. 제1항에 있어서, 제1 세그먼트 및 제2 세그먼트는 제1 DNA 분자를 절단하기 전에 제1 DNA 분자 상에서 적어도 100 kb만큼 분리되어 있는 것인 방법.
  38. 제1항에 있어서, 서열결정은 단일 분자 긴 판독물 서열결정을 포함하는 것인 방법.
  39. 제38항에 있어서, 긴 판독물 서열결정은 적어도 5 kb의 판독을 포함하는 것인 방법.
  40. 제38항에 있어서, 긴 판독물 서열결정은 적어도 10 kb의 판독을 포함하는 것인 방법.
  41. 제1항에 있어서, 제1 재어셈블된 DNA 분자는 제1 DNA 분자의 한 말단부에서 5' 말단부를 3' 말단부에 연결하는 헤어핀 모이어티를 포함하는 것인 방법.
  42. 제1항에 있어서, 제1 DNA 분자의 제2 재어셈블된 버전을 서열결정하는 단계를 포함하는 방법.
  43. 제1항에 있어서, 제1 세그먼트 및 제2 세그먼트는 각각 적어도 500 bp인 방법.
  44. 제2항에 있어서, 제1 세그먼트, 제2 세그먼트 및 제3 세그먼트는 각각 적어도 500 bp인 방법.
KR1020187027586A 2016-02-23 2017-02-23 게놈 어셈블리를 위한 페이징된 판독 세트의 생성 및 반수체형 페이징 KR20180116377A (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201662298906P 2016-02-23 2016-02-23
US201662298966P 2016-02-23 2016-02-23
US62/298,966 2016-02-23
US62/298,906 2016-02-23
US201662305957P 2016-03-09 2016-03-09
US62/305,957 2016-03-09
PCT/US2017/019099 WO2017147279A1 (en) 2016-02-23 2017-02-23 Generation of phased read-sets for genome assembly and haplotype phasing

Publications (1)

Publication Number Publication Date
KR20180116377A true KR20180116377A (ko) 2018-10-24

Family

ID=59685567

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187027586A KR20180116377A (ko) 2016-02-23 2017-02-23 게놈 어셈블리를 위한 페이징된 판독 세트의 생성 및 반수체형 페이징

Country Status (10)

Country Link
US (2) US10975417B2 (ko)
EP (1) EP3420108A4 (ko)
JP (2) JP7441003B2 (ko)
KR (1) KR20180116377A (ko)
CN (1) CN109072298B (ko)
AU (1) AU2017223600B2 (ko)
CA (1) CA3014911A1 (ko)
IL (1) IL261180B (ko)
SG (1) SG11201807117WA (ko)
WO (1) WO2017147279A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021523133A (ja) * 2018-05-08 2021-09-02 ザ・ユニバーシティ・オブ・シカゴThe University Of Chicago ケトキサール誘導体に関連する組成物および方法
CA3124482A1 (en) * 2018-12-21 2020-06-25 Epicypher, Inc. Dna-barcoded nucleosomes for chromatin mapping assays
JP2023513314A (ja) 2020-02-13 2023-03-30 ザイマージェン インコーポレイテッド メタゲノムライブラリーおよび天然物発見プラットフォーム

Family Cites Families (167)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1007228A (en) 1911-03-03 1911-10-31 William R Munden Door-hanger.
NL154598B (nl) 1970-11-10 1977-09-15 Organon Nv Werkwijze voor het aantonen en bepalen van laagmoleculire verbindingen en van eiwitten die deze verbindingen specifiek kunnen binden, alsmede testverpakking.
US3817837A (en) 1971-05-14 1974-06-18 Syva Corp Enzyme amplification assay
US3939350A (en) 1974-04-29 1976-02-17 Board Of Trustees Of The Leland Stanford Junior University Fluorescent immunoassay employing total reflection for activation
US3996345A (en) 1974-08-12 1976-12-07 Syva Company Fluorescence quenching with immunological pairs in immunoassays
US4277437A (en) 1978-04-05 1981-07-07 Syva Company Kit for carrying out chemically induced fluorescence immunoassay
US4275149A (en) 1978-11-24 1981-06-23 Syva Company Macromolecular environment control in specific receptor assays
US4366241A (en) 1980-08-07 1982-12-28 Syva Company Concentrating zone method in heterogeneous immunoassays
US5242794A (en) 1984-12-13 1993-09-07 Applied Biosystems, Inc. Detection of specific sequences in nucleic acids
US4988617A (en) 1988-03-25 1991-01-29 California Institute Of Technology Method of detecting a nucleotide change in nucleic acids
US5681726A (en) * 1988-09-19 1997-10-28 Stratagene Method of double stranded DNA synthesis
US5234809A (en) 1989-03-23 1993-08-10 Akzo N.V. Process for isolating nucleic acid
US5143854A (en) 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
US5494810A (en) 1990-05-03 1996-02-27 Cornell Research Foundation, Inc. Thermostable ligase-mediated DNA amplifications system for the detection of genetic disease
EP0562025B1 (en) 1990-12-06 2001-02-07 Affymetrix, Inc. (a Delaware Corporation) Compounds and their use in a binary synthesis strategy
US5994056A (en) 1991-05-02 1999-11-30 Roche Molecular Systems, Inc. Homogeneous methods for nucleic acid amplification and detection
DE69233331T3 (de) 1991-11-22 2007-08-30 Affymetrix, Inc., Santa Clara Kombinatorische Strategien zur Polymersynthese
US6033854A (en) 1991-12-16 2000-03-07 Biotronics Corporation Quantitative PCR using blocking oligonucleotides
US5348853A (en) 1991-12-16 1994-09-20 Biotronics Corporation Method for reducing non-specific priming in DNA amplification
US5567583A (en) 1991-12-16 1996-10-22 Biotronics Corporation Methods for reducing non-specific priming in DNA detection
DE69433010T2 (de) 1993-04-12 2004-06-09 Northwestern University, Evanston Verfahren zur darstellung von oligonukleotiden
US5837832A (en) 1993-06-25 1998-11-17 Affymetrix, Inc. Arrays of nucleic acid probes on biological chips
JPH09507121A (ja) 1993-10-26 1997-07-22 アフィマックス テクノロジーズ ナームロゼ ベノートスハップ 生物学的チップ上の核酸プローブアレー
US6110709A (en) 1994-03-18 2000-08-29 The General Hospital Corporation Cleaved amplified modified polymorphic sequence detection methods
US5571639A (en) 1994-05-24 1996-11-05 Affymax Technologies N.V. Computer-aided engineering system for design of sequence arrays and lithographic masks
US5705628A (en) 1994-09-20 1998-01-06 Whitehead Institute For Biomedical Research DNA purification and isolation using magnetic particles
US5795716A (en) 1994-10-21 1998-08-18 Chee; Mark S. Computer-aided visualization and analysis system for sequence evaluation
US5599695A (en) 1995-02-27 1997-02-04 Affymetrix, Inc. Printing molecular library arrays using deprotection agents solely in the vapor phase
US5780613A (en) 1995-08-01 1998-07-14 Northwestern University Covalent lock for self-assembled oligonucleotide constructs
EP0937159A4 (en) 1996-02-08 2004-10-20 Affymetrix Inc SPECIATION OF MICROORGANISMS FROM MICROPLATES AND CHARACTERIZATION OF THE PHENOTYPES THEREOF
US5786146A (en) 1996-06-03 1998-07-28 The Johns Hopkins University School Of Medicine Method of detection of methylated nucleic acid using agents which modify unmethylated cytosine and distinguishing modified methylated and non-methylated nucleic acids
ATE428801T1 (de) 1996-06-04 2009-05-15 Univ Utah Res Found Überwachung der hybridisierung während pcr
US6117635A (en) 1996-07-16 2000-09-12 Intergen Company Nucleic acid amplification oligonucleotides with molecular energy transfer labels and methods based thereon
US6582921B2 (en) * 1996-07-29 2003-06-24 Nanosphere, Inc. Nanoparticles having oligonucleotides attached thereto and uses thereof
US6449562B1 (en) 1996-10-10 2002-09-10 Luminex Corporation Multiplexed analysis of clinical specimens apparatus and method
WO1998041651A1 (en) 1997-03-18 1998-09-24 Hsc Research & Development Limited Partnership Method for preparing chromatin
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
IL135851A (en) 1997-10-28 2004-03-28 Univ California Method for determining the base indentity at specific sites on a dna strand
US5989823A (en) 1998-09-18 1999-11-23 Nexstar Pharmaceuticals, Inc. Homogeneous detection of a target through nucleic acid ligand-ligand beacon interaction
GB9812768D0 (en) 1998-06-13 1998-08-12 Zeneca Ltd Methods
US6787308B2 (en) 1998-07-30 2004-09-07 Solexa Ltd. Arrayed biomolecules and their use in sequencing
US20030022207A1 (en) 1998-10-16 2003-01-30 Solexa, Ltd. Arrayed polynucleotides and their use in genome analysis
US20040106110A1 (en) 1998-07-30 2004-06-03 Solexa, Ltd. Preparation of polynucleotide arrays
AU5779399A (en) 1998-08-21 2000-03-27 Naxcor Assays using crosslinkable immobilized nucleic acids
WO2000032823A1 (en) 1998-12-02 2000-06-08 Phylos, Inc. Dna-protein fusions and uses thereof
US8367322B2 (en) 1999-01-06 2013-02-05 Cornell Research Foundation, Inc. Accelerating identification of single nucleotide polymorphisms and alignment of clones in genomic sequencing
US6994969B1 (en) 1999-04-30 2006-02-07 Methexis Genomics, N.V. Diagnostic sequencing by a combination of specific cleavage and mass spectrometry
US7056661B2 (en) 1999-05-19 2006-06-06 Cornell Research Foundation, Inc. Method for sequencing nucleic acid molecules
US6225109B1 (en) 1999-05-27 2001-05-01 Orchid Biosciences, Inc. Genetic analysis device
US7211390B2 (en) 1999-09-16 2007-05-01 454 Life Sciences Corporation Method of sequencing a nucleic acid
US7244559B2 (en) 1999-09-16 2007-07-17 454 Life Sciences Corporation Method of sequencing a nucleic acid
EP1218543A2 (en) 1999-09-29 2002-07-03 Solexa Ltd. Polynucleotide sequencing
US6582938B1 (en) 2001-05-11 2003-06-24 Affymetrix, Inc. Amplification of nucleic acids
GB0002389D0 (en) 2000-02-02 2000-03-22 Solexa Ltd Molecular arrays
US6291187B1 (en) * 2000-05-12 2001-09-18 Molecular Staging, Inc. Poly-primed amplification of nucleic acid sequences
US6448717B1 (en) 2000-07-17 2002-09-10 Micron Technology, Inc. Method and apparatuses for providing uniform electron beams from field emission displays
WO2002027029A2 (en) 2000-09-27 2002-04-04 Lynx Therapeutics, Inc. Method for determining relative abundance of nucleic acid sequences
US7001724B1 (en) 2000-11-28 2006-02-21 Applera Corporation Compositions, methods, and kits for isolating nucleic acids using surfactants and proteases
DE10120797B4 (de) 2001-04-27 2005-12-22 Genovoxx Gmbh Verfahren zur Analyse von Nukleinsäureketten
AU2002367838A1 (en) 2001-05-11 2003-11-11 Stamatoyannopoulos, John A DNA microarrays comprising active chromatin elements and comprehensive profiling therewith
GB0114853D0 (en) 2001-06-18 2001-08-08 Medical Res Council Happier Mapping
AU2002337030A1 (en) 2001-08-29 2003-03-18 Genovoxx Gmbh Method for analyzing nucleic acid sequences and gene expression
US20050227231A1 (en) 2001-10-04 2005-10-13 Dimitri Tcherkassov Device for sequencing nucleic acid molecules
DE10149786B4 (de) 2001-10-09 2013-04-25 Dmitry Cherkasov Oberfläche für Untersuchungen aus Populationen von Einzelmolekülen
US6902921B2 (en) 2001-10-30 2005-06-07 454 Corporation Sulfurylase-luciferase fusion proteins and thermostable sulfurylase
US20050124022A1 (en) 2001-10-30 2005-06-09 Maithreyan Srinivasan Novel sulfurylase-luciferase fusion proteins and thermostable sulfurylase
AU2002360344A1 (en) 2001-11-09 2003-05-26 Monogram Biosciences, Inc. Detection of nucleic acid sequences by cleavage and separation of tag-containing structures
JP2005519306A (ja) 2002-03-08 2005-06-30 ザ・バブラハム・インスティテュート 標的分子と関係するエレメントの標識化及び回収
US20030228627A1 (en) 2002-03-22 2003-12-11 Emerson Beverly M. Assay for p53 function in cells
DE10214395A1 (de) 2002-03-30 2003-10-23 Dmitri Tcherkassov Verfahren zur Analyse von Einzelnukleotidpolymorphismen
KR101038137B1 (ko) 2002-06-28 2011-05-31 프리메라디엑스, 인크. 서열 차이를 감지하는 방법
US7563600B2 (en) 2002-09-12 2009-07-21 Combimatrix Corporation Microarray synthesis and assembly of gene-length polynucleotides
US7414117B2 (en) 2002-12-26 2008-08-19 Ngk Insulators, Ltd. Nucleotide derivative and DNA microarray
ES2338654T5 (es) 2003-01-29 2017-12-11 454 Life Sciences Corporation Amplificación de ácidos nucleicos en emulsión de perlas
US20040197779A1 (en) 2003-04-03 2004-10-07 Apffel James Alexander Methods for analyzing mixtures of proteins
US8741577B2 (en) 2003-04-07 2014-06-03 Bio-Rad Laboratories Inc. Surface immobilised multilayer structure of vesicles
FI20030778A0 (fi) 2003-05-22 2003-05-22 Licentia Oy Taudin määrittäminen tai ennustaminen
US20070111204A1 (en) 2003-06-27 2007-05-17 Kathleen Delgrosso Methods for detecting nucleic acid variations
PT1639122E (pt) 2003-07-02 2009-04-09 Dsm Ip Assets Bv Sistema de teste aperfeiçoado para determinar a presença de um antibiótico num fluido
GB0316075D0 (en) 2003-07-09 2003-08-13 Molecular Sensing Plc Protease detection assay
DE10356837A1 (de) 2003-12-05 2005-06-30 Dmitry Cherkasov Modifizierte Nukleotide und Nukleoside
EP1725572B1 (de) 2003-11-05 2017-05-31 AGCT GmbH Makromolekulare nukleotidverbindungen und methoden zu deren anwendung
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
DE102004009704A1 (de) 2004-02-27 2005-09-15 Dmitry Cherkasov Makromolekulare Nukleotidverbindungen und Methoden zu deren Anwendung
AU2005218507A1 (en) 2004-02-28 2005-09-15 Chang-Ning J. Wang Nucleic acid complexes
DE102004025695A1 (de) 2004-05-26 2006-02-23 Dmitry Cherkasov Verfahren und Oberfläche zur parallelen Sequenzierung von Nukleinsäureketten
DE102004025745A1 (de) 2004-05-26 2005-12-15 Cherkasov, Dmitry Oberfläche für die Analysen an einzelnen Molekülen
DE102004025744A1 (de) 2004-05-26 2005-12-29 Dmitry Cherkasov Oberfläche für die Analysen an einzelnen Nukleinsäuremolekülen
DE102004025694A1 (de) 2004-05-26 2006-02-23 Dmitry Cherkasov Verfahren und Oberfläche zu hochparallelen Analysen von Nukleinsäureketten
DE102004025746A1 (de) 2004-05-26 2005-12-15 Dmitry Cherkasov Verfahren, Oberfläche und Substrate zur hochparallelen Sequenzierung von Nukleinsäureketten
DE102004025696A1 (de) 2004-05-26 2006-02-23 Dmitry Cherkasov Verfahren, Oberfläche und Substrate zu hochparallelen Analysen von Nukleinsäureketten
GB0413688D0 (en) * 2004-06-18 2004-07-21 Novartis Forschungsstiftung Analysis of methylated nucleic acid
US20060024711A1 (en) 2004-07-02 2006-02-02 Helicos Biosciences Corporation Methods for nucleic acid amplification and sequence determination
US7361468B2 (en) 2004-07-02 2008-04-22 Affymetrix, Inc. Methods for genotyping polymorphisms in humans
US7276720B2 (en) 2004-07-19 2007-10-02 Helicos Biosciences Corporation Apparatus and methods for analyzing samples
US20060012793A1 (en) 2004-07-19 2006-01-19 Helicos Biosciences Corporation Apparatus and methods for analyzing samples
US20060024678A1 (en) 2004-07-28 2006-02-02 Helicos Biosciences Corporation Use of single-stranded nucleic acid binding proteins in sequencing
GB0422730D0 (en) 2004-10-13 2004-11-17 Lingvitae As Method
US9035035B2 (en) 2004-11-05 2015-05-19 Genovoxx Gmbh Macromolecular nucleotide compounds and methods for using the same
US7425415B2 (en) 2005-04-06 2008-09-16 City Of Hope Method for detecting methylated CpG islands
JP2006301289A (ja) 2005-04-20 2006-11-02 Tokyo Ohka Kogyo Co Ltd ネガ型レジスト組成物およびレジストパターン形成方法
US20090233291A1 (en) 2005-06-06 2009-09-17 454 Life Sciences Corporation Paired end sequencing
JP5331476B2 (ja) 2005-06-15 2013-10-30 カリダ・ジェノミックス・インコーポレイテッド 遺伝子解析および化学解析用の単分子アレイ
SI1899488T1 (sl) 2005-07-04 2016-05-31 Erasmus University Medical Center Faculty of Medicine Dept. of Cell Biology and Genetics Potrditveni test na čipu zajetih kromosomov (4c)
JPWO2007074747A1 (ja) 2005-12-26 2009-06-04 株式会社クラレ 細胞培養用材料
US20070172839A1 (en) 2006-01-24 2007-07-26 Smith Douglas R Asymmetrical adapters and methods of use thereof
GB0603251D0 (en) 2006-02-17 2006-03-29 Isis Innovation DNA conformation
US8071296B2 (en) 2006-03-13 2011-12-06 Agency For Science, Technology And Research Nucleic acid interaction analysis
WO2007136874A2 (en) 2006-05-18 2007-11-29 President And Fellows Of Harvard College Genomic library construction
CA2661640A1 (en) 2006-08-24 2008-02-28 University Of Massachusetts Medical School Mapping of genomic interactions
MX2009003687A (es) 2006-10-04 2009-08-25 Brookhaven Science Ass Llc Conjuntos de nanoparticulas guiados por adn.
US8278112B2 (en) 2006-12-21 2012-10-02 The Regents Of The University Of California Site-specific installation of methyl-lysine analogues into recombinant histones
PT2121977T (pt) 2007-01-11 2017-08-18 Erasmus Univ Medical Center Captura da conformação cromossómica circular (4c)
US20100093986A1 (en) 2007-02-02 2010-04-15 Zwick Michael E Methods of direct genomic selection using high density oligonucleotide microarrays
RU2009146054A (ru) 2007-05-14 2011-06-20 Инсайт Дженетикс, Инк. (Us) Способы скрининга нуклеиновых кислот для выявления одиночных нуклеотидных вариаций
WO2009052214A2 (en) 2007-10-15 2009-04-23 Complete Genomics, Inc. Sequence analysis using decorated nucleic acids
EP2053132A1 (en) 2007-10-23 2009-04-29 Roche Diagnostics GmbH Enrichment and sequence analysis of geomic regions
US8592150B2 (en) 2007-12-05 2013-11-26 Complete Genomics, Inc. Methods and compositions for long fragment read sequencing
US8263367B2 (en) 2008-01-25 2012-09-11 Agency For Science, Technology And Research Nucleic acid interaction analysis
US20090269771A1 (en) 2008-04-24 2009-10-29 Life Technologies Corporation Method of sequencing and mapping target nucleic acids
US20090298064A1 (en) 2008-05-29 2009-12-03 Serafim Batzoglou Genomic Sequencing
GB0810051D0 (en) 2008-06-02 2008-07-09 Oxford Biodynamics Ltd Method of diagnosis
US8076070B2 (en) 2008-08-06 2011-12-13 University Of Southern California Genome-wide chromosome conformation capture
US9434985B2 (en) 2008-09-25 2016-09-06 University Of Massachusetts Methods of identifying interactions between genomic loci
CN102292454B (zh) 2008-11-18 2014-11-26 博纳基因技术有限公司 多核苷酸作图和测序
WO2010091060A1 (en) 2009-02-03 2010-08-12 New England Biolabs, Inc. Generation of random double strand breaks in dna using enzymes
US9524369B2 (en) 2009-06-15 2016-12-20 Complete Genomics, Inc. Processing and analysis of complex nucleic acid sequence data
CN102858995B (zh) 2009-09-10 2016-10-26 森特瑞隆技术控股公司 靶向测序方法
WO2011056872A2 (en) 2009-11-03 2011-05-12 Gen9, Inc. Methods and microfluidic devices for the manipulation of droplets in high fidelity polynucleotide assembly
US8841075B1 (en) 2010-04-13 2014-09-23 Cleveland State University Homologous pairing capture assay and related methods and applications
US20110287947A1 (en) 2010-05-18 2011-11-24 University Of Southern California Tethered Conformation Capture
CN103180459B (zh) 2010-07-09 2016-10-19 赛尔冉迪思股份有限公司 3-d目的基因组区域的测序策略
WO2012047726A1 (en) 2010-09-29 2012-04-12 The Broad Institute, Inc. Methods for chromatin immuno-precipitations
EP3447155A1 (en) 2010-09-30 2019-02-27 Raindance Technologies, Inc. Sandwich assays in droplets
US20120197533A1 (en) 2010-10-11 2012-08-02 Complete Genomics, Inc. Identifying rearrangements in a sequenced genome
EP3461914A1 (en) 2010-10-22 2019-04-03 Cold Spring Harbor Laboratory Varietal counting of nucleic acids for obtaining genomic copy number information
KR101173257B1 (ko) 2010-10-27 2012-08-10 삼성에스디에스 주식회사 하플로타입 페이징 방법 및 장치
DK2652155T3 (en) 2010-12-16 2017-02-13 Gigagen Inc Methods for Massive Parallel Analysis of Nucleic Acids in Single Cells
EP2668294B1 (en) 2011-01-28 2021-04-07 The Broad Institute, Inc. Paired end bead amplification and high throughput sequencing
AU2012212148B8 (en) 2011-02-02 2017-07-06 University Of Washington Through Its Center For Commercialization Massively parallel contiguity mapping
WO2012150317A1 (en) 2011-05-05 2012-11-08 Institut National De La Sante Et De La Recherche Medicale (Inserm) Linear dna amplification
CN107368705B (zh) 2011-04-14 2021-07-13 完整基因有限公司 分析生物体的基因组dna的方法和计算机系统
EP2710146A2 (en) 2011-05-18 2014-03-26 Life Technologies Corporation Chromosome conformation analysis
SG10201605049QA (en) 2011-05-20 2016-07-28 Fluidigm Corp Nucleic acid encoding reactions
WO2012177774A2 (en) 2011-06-21 2012-12-27 Life Technologies Corporation Systems and methods for hybrid assembly of nucleic acid sequences
WO2013078470A2 (en) 2011-11-22 2013-05-30 MOTIF, Active Multiplex isolation of protein-associated nucleic acids
CN104603286B (zh) 2012-04-24 2020-07-31 Gen9股份有限公司 在体外克隆中分选核酸和多重制备物的方法
KR101974577B1 (ko) 2012-05-21 2019-05-02 삼성전자주식회사 나노입자 제작용 주형 및 이를 이용한 나노입자의 제조 방법
IL236633B (en) 2012-07-13 2022-07-01 X Chem Inc DNA-encoded libraries containing a conjugate containing conjugated oligonucleotide links
EP2898096B1 (en) 2012-09-21 2024-02-14 The Broad Institute, Inc. Methods for labeling of rnas
CN105121661B (zh) * 2013-02-01 2018-06-08 加利福尼亚大学董事会 用于基因组组装及单体型定相的方法
US9411930B2 (en) 2013-02-01 2016-08-09 The Regents Of The University Of California Methods for genome assembly and haplotype phasing
US11618923B2 (en) 2013-03-15 2023-04-04 The Broad Institute, Inc. Methods of determining multiple interactions between nucleic acids in a cell
CN111705116A (zh) 2013-07-19 2020-09-25 路德维格癌症研究有限公司 全基因组且靶向的单体型重构
EP3540074A1 (en) * 2013-12-11 2019-09-18 The Regents of the University of California Method of tagging internal regions of nucleic acid molecules
CN105531408B (zh) 2014-02-13 2019-09-10 生物辐射实验室股份有限公司 染色体构象划分产物捕获
US10526641B2 (en) * 2014-08-01 2020-01-07 Dovetail Genomics, Llc Tagging nucleic acids for sequence assembly
US20170283860A1 (en) 2014-09-16 2017-10-05 The Board Of Trustees Of The Leland Stanford Junio University Methods and compositions for the removal of aldehyde adducts and crosslinks from biomolecules
US11873480B2 (en) 2014-10-17 2024-01-16 Illumina Cambridge Limited Contiguity preserving transposition
NZ734854A (en) 2015-02-17 2022-11-25 Dovetail Genomics Llc Nucleic acid sequence assembly
WO2016154540A1 (en) * 2015-03-26 2016-09-29 Dovetail Genomics Llc Physical linkage preservation in dna storage
WO2016164313A1 (en) 2015-04-06 2016-10-13 The Regents Of The University Of California Methods and compositions for long-range haplotype phasing
CA2988673A1 (en) 2015-06-24 2016-12-29 Oxford Biodynamics Limited Epigenetic chromosome interactions
WO2017007847A1 (en) * 2015-07-07 2017-01-12 The Regents Of The University Of California Method for detecting protein-specific glycosylation
WO2017031370A1 (en) 2015-08-18 2017-02-23 The Broad Institute, Inc. Methods and compositions for altering function and structure of chromatin loops and/or domains
SG11201803289VA (en) * 2015-10-19 2018-05-30 Dovetail Genomics Llc Methods for genome assembly, haplotype phasing, and target independent nucleic acid detection
DK3455356T3 (da) * 2016-05-13 2021-11-01 Dovetail Genomics Llc Genfinding af langtrækkende bindingsinformation fra konserverede prøver

Also Published As

Publication number Publication date
CN109072298A (zh) 2018-12-21
SG11201807117WA (en) 2018-09-27
WO2017147279A1 (en) 2017-08-31
AU2017223600B2 (en) 2023-08-03
EP3420108A1 (en) 2019-01-02
JP2022068171A (ja) 2022-05-09
CN109072298B (zh) 2022-04-08
JP7441003B2 (ja) 2024-02-29
AU2017223600A1 (en) 2018-09-27
IL261180A (en) 2018-10-31
EP3420108A4 (en) 2019-11-06
US20220064701A1 (en) 2022-03-03
IL261180B (en) 2021-09-30
US10975417B2 (en) 2021-04-13
CA3014911A1 (en) 2017-08-31
US20190241933A1 (en) 2019-08-08
JP2019506871A (ja) 2019-03-14

Similar Documents

Publication Publication Date Title
CN105189308B (zh) 长dna片段的多重标记
RU2709655C2 (ru) Транспозиция с сохранением сцепления генов
US10947579B2 (en) Recovering long-range linkage information from preserved samples
US20220064701A1 (en) Generation of phased read-sets for genome assembly and haplotype phasing
CN114174530A (zh) 用于分析核酸的方法和组合物
US20160215331A1 (en) Flexible and scalable genotyping-by-sequencing methods for population studies
JP2022505050A (ja) プーリングを介した多数の試料の効率的な遺伝子型決定のための方法および試薬
WO2016154540A1 (en) Physical linkage preservation in dna storage
US20220073977A1 (en) Methods and materials for assessing nucleic acids
US20210155972A1 (en) Targeted rare allele crispr enrichment
CA3203900A1 (en) Methods and compositions for sequencing library preparation
WO2023220142A1 (en) Methods and compositions for sequencing library preparation

Legal Events

Date Code Title Description
E902 Notification of reason for refusal