KR20220123246A - 핵산 서열 분석 방법 - Google Patents

핵산 서열 분석 방법 Download PDF

Info

Publication number
KR20220123246A
KR20220123246A KR1020227025485A KR20227025485A KR20220123246A KR 20220123246 A KR20220123246 A KR 20220123246A KR 1020227025485 A KR1020227025485 A KR 1020227025485A KR 20227025485 A KR20227025485 A KR 20227025485A KR 20220123246 A KR20220123246 A KR 20220123246A
Authority
KR
South Korea
Prior art keywords
sequence
nucleic acid
read
reverse
length
Prior art date
Application number
KR1020227025485A
Other languages
English (en)
Inventor
카세이 로버트 허트
Original Assignee
인비보스크라이브, 아이엔씨.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인비보스크라이브, 아이엔씨. filed Critical 인비보스크라이브, 아이엔씨.
Publication of KR20220123246A publication Critical patent/KR20220123246A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6881Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for tissue or cell typing, e.g. human leukocyte antigen [HLA] probes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/10Nucleotidyl transfering
    • C12Q2521/107RNA dependent DNA polymerase,(i.e. reverse transcriptase)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/191Modifications characterised by incorporating an adaptor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2565/00Nucleic acid analysis characterised by mode or means of detection
    • C12Q2565/50Detection characterised by immobilisation to a surface
    • C12Q2565/543Detection characterised by immobilisation to a surface characterised by the use of two or more capture oligonucleotide primers in concert, e.g. bridge amplification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Immunology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Cell Biology (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 개시내용은 고처리량 양방향 시퀀싱을 이용하여 관심 있는 핵산 샘플의 뉴클레오타이드 리드(read) 서열을 분석하는 방법을 제공한다. 본 개시내용의 방법은 양방향 시퀀싱이 서열 리드의 3' 말단에서 중첩 서열의 상보적 하이브리드화를 통해 페어링되기에 충분한 리드 길이를 갖지 않은 정방향 리드와 역방향 리드를 생성하는 경우에도 작동하도록 디자인되어 있다. 본 개시내용은 하나 이상의 표적 뉴클레오타이드 서열의 발현에 대해 관심 있는 핵산 샘플을 스크리닝하기 위해 비-중첩 서열 리드로부터 분석용 핵산 서열 결과를 준비하는 방법을 구현하는 컴퓨터 구현 방법, 컴퓨터 판독 가능한 저장 매체 및 디바이스도 제공한다.

Description

핵산 서열 분석 방법
관련 출원의 교차참조
본원은 2019년 12월 24일에 출원된 미국 가출원 제62/953,270호로부터 우선권 이익을 주장하고, 이 가출원의 전체 내용은 본원에 참고로 포함된다.
발명의 분야
본 발명은 일반적으로 관심 있는 핵산 샘플의 뉴클레오타이드 서열을 분석하는 방법, 보다 구체적으로 고처리량 양방향 시퀀싱을 이용하여 관심 있는 핵산 샘플의 뉴클레오타이드 서열을 분석하는 방법에 관한 것이다. 본 발명의 방법은 양방향 시퀀싱이 서열 리드(read)의 3' 말단에서 중첩 서열의 상보적 하이브리드화를 통해 페어링되기에 충분한 리드 길이를 갖지 않은 정방향 리드와 역방향 리드를 생성하는 경우에도, 서열 리드의 3' 말단이 제거되고 공국재화된 정방향 서열 리드와 역방향 서열 리드의 5' 말단의 정의된 부분이 모든 연결된 리드에 공통된 핵산 링커를 통해 연결된다면, 시퀀싱 결과의 정확한 정렬 및 분석이 용이해질 수 있다는 확인에 기반한다. 본 발명의 방법의 개발은 세포(예컨대, 신생물성 병태) 또는 미생물의 클론 집단의 존재를 특징으로 하는 병태의 진단, 이러한 병태의 진행의 모니터링, 대상체가 관해 상태로부터 질환 상태로 재발할 가능성의 예측, 기존 치료 약물 및/또는 새로운 치료제의 효능의 평가 또는 면역 감시를 포함하나 이들로 제한되지 않는 다양한 적용에 유용하다.
서열목록의 참조에 의한 포함
3 KB의 38093WO.P41235PCUS.SeqListing.txt로서 명명되었고 2020년 12월 16일에 생성되었고 EFS-Web을 통해 미국 특허상표청에 제출된 ASCII 텍스트 파일의 서열목록은 본원에 참고로 포함된다.
본 명세서에서 임의의 선행 간행물(또는 이로부터 유래한 정보) 또는 알려진 임의의 사항의 언급은 그 선행 간행물(또는 이로부터 유래한 정보) 또는 알려진 사항이 본 명세서에 의해 시도되는 분야에서 통상의 일반 지식의 일부를 형성함을 인정하거나, 승인하거나 어떠한 형태로든 암시하는 것이 아니고 이처럼 해석되어서도 안 된다.
본 명세서에서 저자에 의해 언급된 간행물의 참고문헌 세부사항은 설명 마지막 부분에 알파벳순으로 모아져 있다.
클론은 일반적으로 공통 전구체 세포로부터 유래한 세포의 집단으로서 이해된다. 대상체에서 세포 또는 유기체의 클론 집단의 존재의 진단 및/또는 검출은 일반적으로 비교적 문제가 많은 절차를 구성하였다. 구체적으로, 클론 집단은 세포 또는 유기체의 더 큰 집단 내에서 단지 소수 구성요소를 구성할 수 있다. 예를 들어, 포유동물 유기체의 관점에서, 세포의 클론 집단의 검출이 요구되는 더 일반적인 상황 중 하나는 암과 같은 신생물의 진단 및/또는 검출의 관점에서 발생한다. 그러나, 하나 이상의 클론 집단의 검출은 골수이형성증 또는 진성 적혈구증가증과 같은 병태의 진단뿐만 아니라, 감염, 자가면역 질환, 알레르기 또는 이식과 관련하여 면역 시스템에 의해 생성된 항원 유래 클론의 검출에서도 중요할 수 있다.
클론의 구성원이 분자 마커, 예컨대, 변경된 DNA 서열을 특징으로 하는 경우, 검출 문제는 상이한 서열을 가진 분자의 더 큰 집단 내에서 모두 동일한 분자 서열을 가진 분자의 집단을 검출하는 문제로 해석될 수 있다. 달성될 수 있는 마커 분자의 검출 수준은 검출 방법의 민감성 및 특이성에 의해 크게 좌우되나, 거의 항상 분자의 더 큰 집단 내의 표적 분자의 비율이 작아질 때, 더 큰 집단으로부터의 신호 노이즈는 표적 분자로부터의 신호를 검출하는 것을 어렵게 만든다.
매우 특이적이기는 하지만 검출의 관점에서 고유 복잡성을 제시하는 특정 부류의 분자 마커는 유전 재조합 사건으로부터 비롯된 분자 마커이다. 체세포에서 유전 물질의 재조합은 처음에 분리되어 있던 2개 이상의 게놈 영역을 함께 모으는 단계를 수반한다. 이것은 무작위 과정으로서 일어날 수 있으나, 정상 림프계 세포에서 발달 과정의 일부로서도 일어난다.
암의 경우, 재조합은 단순할 수 있거나 복잡할 수 있다. 단순 재조합은 2개의 관련 없는 유전자 또는 영역이 병치되는 재조합으로서 간주될 수 있다. 복잡한 재조합은 2개 초과의 유전자 또는 유전자 분절이 재조합되는 재조합으로서 간주될 수 있다. 복잡한 재조합의 고전적인 예는 림프계 세포의 정상 발달 동안 일어나고 V, D 및 J 유전자 분절의 재조합을 수반하는, 면역글로불린 및 T 세포 수용체 가변 유전자의 재배열이다. 이 유전자 분절들에 대한 유전자좌는 생식세포계통에서 넓게 분리되어 있으나, 림프계 발달 동안 재조합은 V, D 및 J 유전자 분절, 또는 V 및 J 유전자 분절의 병치를 야기하고, 이때 이 유전자 분절들 사이의 연접부는 뉴클레오타이드의 작은 삽입 및 결실 영역(N1 및 N2 영역)을 특징으로 한다. 이 과정은 각각의 정상 림프구가 재배열되는 유전자 및 재배열의 성질 둘 다에 따라 완전한 VDJ 재배열, 또는 VJ 또는 DJ 재배열일 수 있는 고유 V(D)J 재배열을 갖게 되도록 무작위로 일어난다. 림프계 암, 예컨대, 급성 림프모구성 백혈병, 만성 림프구성 백혈병, 림프종 또는 골수종이 단일 정상 세포의 신생물성 변화의 결과로서 발생하기 때문에, 모든 암 세포들은 적어도 처음에는 파운더(founder) 세포에 원래 존재하는 연접 V(D)J 재배열을 가질 것이다. 서브클론은 신생물성 집단의 확장 동안 발생할 수 있으며, 추가 V(D)J 재배열이 이들에서 일어날 수 있다.
재조합으로부터 생성되고 암 클론 또는 서브클론에 존재하는 고유 DNA 서열은 치료에 대한 반응을 모니터링하고 요법을 결정하는 데 사용될 수 있는 고유 유전 마커를 제공한다. 클론의 모니터링은 PCR, 유세포분석 또는 차세대 시퀀싱을 포함하는 다양한 기법들에 의해 수행될 수 있고, 이 기법들 각각은 다양한 강점과 약점을 제공한다.
PCR은 표적 DNA, 특히 낮은 출발 카피 수로 존재하는 DNA를 기하급수적으로 증폭하는 능력으로 인해 DNA 분석에 혁명을 일으켰지만, 전통적인 시퀀싱 방법, 예컨대, 생거(Sanger) 시퀀싱은 여전히 느렸다. 이것은 PCR에 의해 증폭된 환자 DNA의 대규모 서열 기반 분석을 사실상 불가능하게 만들었다. 차세대 시퀀싱의 출현은 DNA 시퀀싱에 대한 고처리량 접근법을 제공함으로써 시퀀싱 기반 분석에 혁명을 일으켰다. 이것은 전통적인 시퀀싱과 관련된 처리 시간과 비용이 감소되고 핵산 시퀀싱이 대규모로 이용될 수 있게 되었음을 의미하였다. 고체상 가교 증폭 기반 콜로니 생성에 대한 PCR의 진화와 커플링될 때, 핵산 시퀀싱 분석에 의해 제공된, 유의미하게 더 정교하고 유익하며 훨씬 더 정확한 정보를 통상적으로 이용할 수 있게 되었다.
개발된 광범위한 DNA 라이브러리 증폭 방법 및 차세대 시퀀싱 방법 둘 다가 존재한다. 예를 들어, 더 일반적인 PCR 기반 증폭 방법들 중 세 가지는 에멀젼 PCR, 롤링 서클 증폭 및 고체상 증폭이다.
에멀젼 PCR 방법에서, 먼저 DNA 라이브러리가 생성된다. 단일 가닥 DNA 단편은 어댑터 또는 링커에 의해 비드 표면에 부착되고, 하나의 비드는 DNA 라이브러리의 단일 DNA 단편에 부착된다. 비드의 표면은 DNA 단편에 결합하는 어댑터에 상보적인 서열을 가진 올리고뉴클레오타이드 프로브를 함유한다. 그 다음, 비드는 물-오일 에멀젼 액적 내로 구획화된다. 수성 물-오일 에멀젼에서, 하나의 비드를 포획하는 각각의 액적은 단일 DNA 주형의 증폭된 카피를 생성하는 PCR 마이크로반응기이다.
격자 롤링 서클 나노볼(Gridded Rolling Circle Nanoball)은 용액에서 롤링 서클 증폭으로 단일 DNA 분자의 집단을 증폭한 후, 고정될 DNA보다 더 작은 크기의 스팟의 격자 상에 포획하는 것을 기술한다.
DNA 콜로니 생성(가교 증폭)은 유동 셀의 슬라이드에 고밀도로 공유부착된 정방향 프라이머와 역방향 프라이머를 사용한다. 지지체 상에서 주형에 대한 프라이머의 비는 증폭된 클러스터의 표면 밀도를 정의한다. 유동 셀은 중합효소 기반 연장을 위한 시약에 노출되고, 라이게이션된 단편의 자유/원위 말단이 표면 상의 상보적 올리고뉴클레오타이드에 "가교"될 때 프라이밍이 일어난다. 반복된 변성 및 연장은 유동 셀 표면 전체에 걸쳐 수백만 개의 분리된 위치에서 DNA 단편의 국재화된 증폭을 야기한다. 고체상 증폭은 1억 내지 2억 개의 공간적으로 분리된 주형 클러스터를 생성함으로써, 범용 시퀀싱 프라이머가 하이브리드화되는 자유 말단을 제공하여, 시퀀싱 반응을 시작한다.
차세대 시퀀싱 접근법의 관점에서, 잘 알려진 4가지 기술은 피로시퀀싱, 가역적 터미네이터(terminator) 화학반응에 의한 시퀀싱, 리가제(ligase) 효소에 의해 매개되는 라이게이션에 의한 시퀀싱 및 인결합된(phospholinked) 형광 뉴클레오타이드 시퀀싱을 포함한다.
피로시퀀싱은 일련의 효소 반응을 이용하여 무기 피로포스페이트의 방출을 가시광선으로 비례적으로 전환시킴으로써 이러한 방출을 측정하는 비-전기영동적 생체발광 방법이다. 변형된 뉴클레오타이드를 사용하여 DNA 합성을 종결하는 다른 시퀀싱 접근법과 달리, 피로시퀀싱 방법은 제한 양으로 dNTP를 1회 첨가하여 DNA 중합효소를 조작한다. 상보적 dNTP가 혼입될 때, DNA 중합효소는 프라이머를 연장하고 일시 중지한다. DNA 합성은 분배 주기에서 다음 상보적 dNTP의 첨가 후 다시 시작된다. 광 피크의 순서와 강도는 기저 DNA 서열을 보여주는 유동도로서 기록된다.
가역적 터미네이터 화학반응에 의한 시퀀싱은 뉴클레오타이드 혼입, 형광 영상화 및 절단을 포함하는 순환식 방법에서 가역적 터미네이터에 결합된 dNTP를 사용한다. 형광 표지된 터미네이터는 각각의 dNTP가 첨가된 후 다음 염기의 혼입을 허용하도록 절단될 때 영상화된다. 이 뉴클레오타이드는 각각의 혼입이 고유 사건이도록 화학적으로 차단된다. 영상화 단계는 각각의 염기 혼입 단계를 뒤따르고, 그 후 차단 기는 DNA 중합효소에 의한 다음 혼입을 위해 각각의 가닥을 준비하도록 화학적으로 제거된다. 이 일련의 단계들은 사용자 정의된 기기 설정에 의해 결정된 특정 수의 주기 동안 계속된다. 3' 차단 기는 처음에는 효소적 또는 화학적 역전으로서 생각되었다. 이 방법은 솔렉사(Solexa) 및 일루미나(Illumina) 기계의 기반이었다. 가역적 터미네이터 화학반응에 의한 시퀀싱은 예컨대, 일루미나/솔렉사에 의해 이용된 4색 주기, 또는 예컨대, 헬리코스 바이오사이언시스(Helicos BioSciences)에 의해 이용된 1색 주기로서 수행될 수 있다. 헬리코스 바이오사이언시스는 억제제로서 작용하는 두 번째 뉴클레오사이드 유사체를 가진 차단되지 않은 터미네이터인 "가상 터미네이터"를 사용한다. 이 터미네이터는 DNA 합성이 단일 염기 추가 후 종결되도록 기를 종결시키거나 억제하는 적절한 변형을 혼입한다. 가역적 터미네이터 시퀀싱은 양방향(페어링된 말단) 시퀀싱 또는 단일 리드 시퀀싱으로서 디자인될 수 있다.
리가제 효소에 의해 매개되는 라이게이션에 의한 시퀀싱은 중합효소에 의해 수행되는 것이 아니라 DNA 리가제 및 1 염기 코딩 프로브 또는 2 염기 코딩 프로브에 의해 수행되는 서열 연장 반응을 이용한다. 형광 표지된 프로브는 그의 가장 단순한 형태에서 프라이밍된 주형에 인접한 그의 상보적 서열에 하이브리드화한다. 그 다음, DNA 리가제를 첨가하여 염료 표지된 프로브를 프라이머에 연결한다. 라이게이션되지 않은 프로브를 씻어낸 후, 형광 영상화를 수행하여 라이게이션된 프로브의 정체를 확인한다. 절단 가능한 프로브를 사용하여 형광 염료를 제거하고 후속 라이게이션 주기를 위해 5'-PO4 기를 재생함으로써(연쇄 라이게이션), 또는 제거하고 새로운 프라이머를 주형에 하이브리드화함으로써(비연쇄 라이게이션), 주기를 반복할 수 있다.
인결합된 형광 뉴클레오타이드 시퀀싱은 DNA 합성 동안 염료 표지된 뉴클레오타이드의 연속적인 혼입을 영상화하는 단계를 포함하는 실시간 시퀀싱 방법이다. 단일 DNA 중합효소 분자는 인결합된 뉴클레오타이드가 성장하는 프라이머 가닥 내로 혼입되는 동안 서열 정보를 수득할 수 있는 개별 제로 모드 도파관 검출기의 바닥 표면에 부착된다. 예를 들어, 퍼시픽 바이오사이언시스(Pacific Biosciences)는 인결합된 뉴클레오타이드를 더 잘 혼입하고 닫힌 원형 주형의 재시퀀싱을 가능하게 하는 고유 DNA 중합효소를 사용한다.
이 기술들은 하기 표 1에 요약된 플랫폼들과 같은 다양한 상업적 플랫폼들로 이용될 수 있다.
Figure pct00001
표적 DNA의 고체상 가교 증폭과 뒤따르는 가역적 염료 터미네이터 양방향 시퀀싱의 조합은 고처리량 증폭 및 시퀀싱을 달성하는 특히 효율적인 수단인 것으로 입증되었다. 그러나, 양방향 시퀀싱 유용성의 한계 중 하나는 수행될 수 있는 최대 주기 수이고, 이 최대 주기 수는 생성될 수 있는 최대 서열 리드 길이를 제한한다. 예를 들어, 일루미나 HiSeq 기기는 2x250 염기 양방향 리드를 생성할 수 있는 반면, MiSeq 기기는 2x300 염기 양방향 리드를 생성할 수 있다. NextSeq 및 NovaSeq 기기는 둘 다 2x150 염기 양방향 리드를 생성한다. 염색체 또는 게놈의 다른 긴 구획과 같은 긴 DNA 표적의 경우, 그럼에도 불구하고 상대적으로 짧은 리드들의 생성이 유용한데, 이는 이 리드들이 그들의 3' 말단에서 중첩 서열의 상보성에 기반하여 페어링됨으로써("테이핑된(taped)" 또는 "스티칭된(stitched)"으로서 지칭됨), 이중 가닥 DNA 서열 구획을 생성할 수 있기 때문이다. 그 다음, 이 테이핑된 서열들 각각은 게놈 서열의 더 긴 스트레치를 어셈블링하기 위해 다른 테이핑된 리드와 서열 중첩에 기반하여 더 정렬될 수 있다. 이 정렬은 종종 기준 서열과 비교됨으로써 수행된다. 이와 관련하여, 서열 리드들이 중첩되지 않는 경우, 이 리드들을 정렬하기 위한 기준 서열의 사용은 기준 서열에 비해 리드를 분석하는 수단을 제공할 수 있다. 그러나, 분석이 수행될 수 있는 서열 리드가 부재하는 경우, 비-중첩 리드들은 이들이 모든 정보와 관련하여 개별 독립형 시퀀싱 결과로서 제공할 수 있다는 점 이외에 현재 거의 유용성이 없다.
재배열된 면역글로불린(본원에서 "Ig"로서 지칭됨) 또는 T 세포 수용체(본원에서 "TCR"로서 지칭됨) 분자와 같은 일부 관심 있는 DNA 표적 영역과 관련하여, 각각의 개별 앰플리콘이 관심 있는 생물학적 샘플 내의 클론 서열 집단의 한 구성원을 대표하는지, 아니면 대안적으로 잔류 또는 반복 클론 서열을 대표하는지를 확인하기 위해 분석되는 경우, 일반적으로 양방향 서열 리드는 리드의 3' 말단들이 중첩되고 이들의 상보성에 기반하여 테이핑될 수 있도록 충분한 정방향 및 역방향 리드 길이를 제공함으로써, 전체 표적 서열 영역, 예컨대, T 또는 B 세포의 재배열된 VJ 유전자 분절, 또는 돌연변이, 염색체 전위 부위, DNA 중단점, 또는 역위 또는 삽입결실 부위를 잠재적으로 포함하는 범위의 게놈 DNA를 제공할 필요가 있다. 이 뉴클레오타이드 특징을 검출하기 위해 증폭될 필요가 있는 DNA 영역이 선택된 기기의 화학반응에 의해 시퀀싱될 수 있는 길이보다 더 긴 경우, 이러한 주형의 5' 및 3' 말단으로부터 생성된 양방향 정방향 및 역방향 리드는 중첩되기에 충분한 길이를 갖지 않을 가능성이 높으므로, 함께 테이핑될 수 없다. 따라서, 현재 이용 가능한 고처리량 기기 및 방법은 특정 서열을 스크리닝하거나 관심 있는 DNA 집단의 다양성을 조사하는 상황에서 수행될 수 있는 시퀀싱 분석의 유형과 범위를 제한한다.
본 발명에 이르기까지의 작업에서, 양방향 시퀀싱 화학반응이 중첩 정방향 및 역방향 리드를 생성하기에 불충분한 경우에도, 출발 생물학적 샘플로부터 주형 DNA 라이브러리를 생성함으로써 하나 이상의 표적 뉴클레오타이드 서열의 발현에 대해 관심 있는 DNA 샘플을 스크리닝할 수 있다는 것을 예기치 않게 확인하였고, 이때 각각의 개별 주형 DNA 분자의 길이와 관계없이, 표적 뉴클레오타이드 서열이 주형 DNA의 5' 및 3' 말단, 구체적으로 사용을 위해 선택된 양방향 서열 리드 길이의 약 80%에 상응하는 5' 또는 3' 말단 뉴클레오타이드 스트레치 이내에 국재화되도록 주형을 디자인하였다. 따라서, 양방향 시퀀싱 단계는 표적 뉴클레오타이드 서열이 리드 길이 이내에 속하는 것으로 알려진 영역에 국재화되기 때문에 이러한 표적 뉴클레오타이드 서열을 효과적으로 시퀀싱할 것이다. 이 서열 리드들은 정방향 리드와 역방향 리드가 중첩되기에 충분한 리드 길이를 포함하지 않을 것이지만, 이들이 개별 주형 DNA 분자의 클러스터 증폭을 통해 고체상에서 스스로 생성된 앰플리콘으로부터 생성된 경우, 리드의 공간적 공국재화는 가능한 양방향 서열 리드 쌍을 식별하는 수단을 제공한다.
그러나, 양방향 시퀀싱 리드가 3' 방향으로 진행함에 따라 시퀀싱 오류의 가능성이 증가하기 때문에, 현재 이용 가능한 분석 수단을 이용하여 이 리드를 신뢰 가능하게 정렬하고 분석할 수 없는데, 이는 이 수단이 무작위 시퀀싱 오류와 SNP 또는 점 돌연변이의 존재를 구별하는 데 도움이 되는, 페어링된 리드의 중첩 3' 말단의 하이브리드화에 의존하기 때문이다. 추가로, 리드들 사이의 최종 서열 길이의 가변성이 발생할 것이라는 사실로 인해(모든 앰플리콘이 반드시 선택된 기기에 대한 최대 이론상 리드 길이까지 시퀀싱되지는 않을 것임), 이 리드들의 실제 서열이 생성된 서열 길이 전체에 걸쳐 동일함에도 불구하고, 이 리드들은 단순히 상이한 리드 길이로 인해 별개의 상이한 서열로서 통상적으로 오분류될 것임을 예기치 않게 확인하였다. 따라서, 서열 리드의 3' 말단에서 자연적으로 발생하는 시퀀싱 오류의 조합은, 상이한 길이를 가진다는 점을 제외하고 동일한 리드의 오분류와 함께 시험 결과의 상당한 왜곡을 초래할 것이다.
전통적인 중첩 양방향 시퀀싱 리드가 생성되는 경우, 전술된 문제점들 둘 다가 완화된다. 정방향 리드와 역방향 리드가 중첩되고 중첩 서열의 상보성에 기반하여 하이브리드화됨으로써, 이중 가닥 분자를 생성할 수 있고, 3' 시퀀싱 오류가 정확한 상보적 뉴클레오타이드를 발현하는 상보적 페어링된 말단 리드에 의해 (고유 서열로서 분류되기 보다는 오히려) 용이하게 식별되고 버려지기 때문에, 서열 길이의 변동 문제는 무의미해진다. 따라서, 중첩 서열 리드의 생성이 없는 경우, 원래 형태의 비-중첩 리드의 분석은 임상 환경에서 매우 문제가 되는 것으로 입증될 수 있는 상당한 오류 결과를 생성하는 것으로 확인되었다.
본 발명의 관점에서, 본원에 기재된 특정 주형 디자인 이외에, 정방향 및 역방향 서열 리드가 절단되어, 남아 있는 리드가 사용을 위해 선택된 최대 양방향 서열 리드 길이의 약 80% 이상인 정도까지 3' 서열 리드를 제거하고, 절단되고 공국재화된 정방향 및 역방향 양방향 리드를 각각 상기 역방향 및 정방향 리드에 상보적인 서열과 연결하여, 모든 페어링된 공국재화된 리드에 공통된 선형 링커 서열을 통해 선형 분자를 형성하는 경우, 놀랍게도 생성된 "테이핑된" 서열 리드는 다른 리드와 정렬되고/되거나 분석될 때 관심 있는 DNA 샘플에서 표적 뉴클레오타이드 서열의 존재, 성질 및/또는 다양성과 관련하여 매우 정확한 결과를 생성할 것임을 확인하였다. 또한, 면역글로불린 및 TCR 유전자 재배열과 관련하여, 2개 이상의 클러스터로부터 유래한 5' 리드와 3' 리드가 동일한 경우에도, 이 리드들이 2개의 상이한 주형 분자로부터 생성되었을 가능성이 남아 있고, 이때 표적 서열이 이 분자들 사이에 동일할지라도, 개재(증폭되지 않는) 서열은 상이하였다. 이 상황에서, 이 리드들은 공통 클론으로부터 유래한 것으로서 분류될 것이다. 그러나, 재배열된 VDJ 유전자 분절과 관련하여, 이 시퀀싱 비정상의 발생률은 사실상 시험 결과의 민감성 또는 특이성에 부정적인 영향을 미치지 않음이 현재 밝혀져 있다. 표적 서열이 주형 분자의 5' 및 3' 말단에 국재화되도록 주형 DNA 라이브러리를 디자인하고 생성함으로써, 주형 DNA 라이브러리 단편이, 선택된 양방향 시퀀싱 기기가 전체 길이를 시퀀싱할 수 있는 크기를 갖도록 보장해야 할 필요 없이 고처리량 차세대 시퀀싱을 수행할 수 있다. 따라서, 이 개발은 적합한 기기의 선택이 관심 있는 DNA 주형의 길이에 비해 주어진 기기의 최대 리드 길이에 의해 더 이상 제한될 필요가 없을 정도로 현재 차세대 양방향 시퀀싱 화학반응 및 기기의 적용을 상당히 확장하였다. 표적 서열이 전술된 5' 및 3' 말단 DNA 영역 내에서 발현될 수 있는 한, 앰플리콘 클러스터가 생성되고 시퀀싱될 DNA 주형의 전체 길이는 무관하게 되고 더 이상 한계가 아니다. 추가로, 본 방법은 또한 개별 리드와 정렬되는 기준 서열과 비교하면서 이 단계를 수행할 필요 없이 비-중첩 서열 리드를 페어링하고 분석할 수 있게 하였다.
본 명세서 및 뒤따르는 청구범위 전체에 걸쳐, 문맥이 달리 요구하지 않는 한, 용어 "포함한다" 및 어미변화, 예컨대, "포함하고" 및 "포함하는"은 언급된 정수 또는 단계, 또는 정수 또는 단계의 군의 포함을 내포하나, 임의의 다른 정수 또는 단계, 또는 정수 또는 단계의 군을 배제하지 않는 것으로 이해될 것이다.
본 발명의 범위는 단지 예시 목적으로 본원에 기재된 특정 실시양태에 의해 제한되어서는 안 된다. 기능적으로 동등한 생성물, 조성물 및 방법은 본원에 기재된 바와 같이 분명히 본 발명의 범위 내에 있다.
본원에서 사용된 바와 같이, 용어 "로부터 유래한"은 특정 정수 또는 정수의 군이 특정된 종으로부터 유래하였으나, 반드시 특정된 공급원으로부터 직접 수득되지는 않았음을 표시하는 것으로 해석되어야 한다. 또한, 본원에서 사용된 바와 같이, 문맥이 달리 명시하지 않은 한, 단수 형태는 복수 지시대상을 포함한다.
본 명세서는 본원에서 참고문헌 다음에 제시된 프로그램 PatentIn 버전 3.1을 이용함으로써 준비된 뉴클레오타이드 서열 정보를 함유한다. 각각의 뉴클레오타이드 서열은 숫자 표시자 <210>에 이은 서열 식별자(예를 들어, <210>1, <210>2 등)에 의해 서열목록에서 식별된다. 각각의 뉴클레오타이드 서열의 길이, 서열의 유형(DNA 등) 및 공급원 유기체는 각각 숫자 표시자 필드 <211>, <212> 및 <213>으로 제공된 정보에 의해 표시된다. 본 명세서에서 언급된 뉴클레오타이드 서열은 표시자 서열번호에 이은 서열 식별자(예를 들어, 서열번호 1, 서열번호 2 등)에 의해 식별된다. 본 명세서에서 언급된 서열 식별자는 서열목록에서 숫자 표시자 필드 <400>에 이은 서열 식별자(예를 들어, <400>1, <400>2 등)로 제공된 정보와 상관관계를 가진다. 즉, 본 명세서에 상세히 기재된 서열번호 1은 서열목록에서 <400>1로서 표시된 서열과 상관관계를 가진다.
본 발명의 한 측면은 하나 이상의 표적 뉴클레오타이드 서열의 발현에 대해 관심 있는 핵산 샘플을 스크리닝하는 방법에 관한 것으로, 상기 방법은
(i) 상기 핵산 샘플로부터 유래한 개별 주형 DNA 분자의 라이브러리를 고체 지지체 상에서 공간적으로 단리하는 단계로서, 표적 뉴클레오타이드 서열이 상기 주형의 5' 및/또는 3' 말단에서 연속(contiguous) 뉴클레오타이드 영역에 국재화되도록 주형 DNA 분자가 생성되는 것인 단계;
(ii) 상기 공간적으로 단리된 주형 DNA 분자를 증폭하여 앰플리콘의 클러스터를 생성하는 단계로서, 각각의 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되는 것인 단계;
(iii) 하나 이상의 클러스터의 하나 이상의 앰플리콘을 양방향으로 시퀀싱하는 단계로서, 상기 앰플리콘의 정방향 및 역방향 서열 리드가 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는 것인 단계;
(iv) 단계 (iii)에 따라 시퀀싱된 하나 이상의 클러스터에 대해 정방향 및 역방향 서열 리드를 식별하고,
(a) 정방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 역방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 정방향 리드의 말단 5' 연속 핵산 서열의 부분, 및/또는
(b) 역방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 정방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 역방향 리드의 말단 5' 연속 핵산 서열의 부분
을 포함하는 핵산 서열 결과를 생성하는 단계로서,
(1) 상기 부분이, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75% 이상이고, (2) 역방향 리드 연속 서열의 상기 부분이, 분석되는 모든 역방향 리드에 대해 동일하고, (3) 정방향 리드 연속 서열의 상기 부분이, 분석되는 모든 정방향 리드에 대해 동일하나, 역방향 리드 부분과 동일할 수 있거나 상이할 수 있고, (4) 링커 서열이 (a)의 모든 핵산 서열 결과에 대해 동일하고 링커 서열이 (b)의 모든 핵산 서열 결과에 대해 동일한 것인 단계; 및
(v) 서열 결과를 분석하는 단계
를 포함한다.
또 다른 측면에서, 하나 이상의 표적 DNA 서열의 발현에 대해 관심 있는 DNA 샘플을 스크리닝하는 방법을 제공하는 것으로, 상기 방법은
(i) 상기 DNA 샘플로부터 유래한 개별 주형 DNA 분자의 라이브러리를 고체 지지체 상에서 공간적으로 단리하는 단계로서, 표적 DNA 서열이 상기 주형의 5' 및/또는 3' 말단에서 연속 뉴클레오타이드 영역에 국재화되도록 주형 DNA 분자가 생성되는 것인 단계;
(ii) 상기 공간적으로 단리된 주형 DNA 분자를 증폭하여 앰플리콘의 클러스터를 생성하는 단계로서, 각각의 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되는 것인 단계;
(iii) 하나 이상의 클러스터의 하나 이상의 앰플리콘을 양방향으로 시퀀싱하는 단계로서, 상기 앰플리콘의 정방향 및 역방향 서열 리드가 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는 것인 단계;
(iv) 단계 (iii)에 따라 시퀀싱된 하나 이상의 클러스터에 대해 정방향 및 역방향 서열 리드를 식별하고,
(a) 정방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 역방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 정방향 리드의 말단 5' 연속 핵산 서열의 부분, 및/또는
(b) 역방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 정방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 역방향 리드의 말단 5' 연속 핵산 서열의 부분
을 포함하는 핵산 서열 결과를 생성하는 단계로서,
(1) 상기 부분이, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75% 이상이고, (2) 역방향 리드 연속 서열의 상기 부분이, 분석되는 모든 역방향 리드에 대해 동일하고, (3) 정방향 리드 연속 서열의 상기 부분이, 분석되는 모든 정방향 리드에 대해 동일하나, 역방향 리드 부분과 동일할 수 있거나 상이할 수 있고, (4) 링커 서열이 (a)의 모든 핵산 서열 결과에 대해 동일하고 링커 서열이 (b)의 모든 핵산 서열 결과에 대해 동일한 것인 단계; 및
(v) 서열 결과를 분석하는 단계
를 포함한다.
또 다른 측면에서, 하나 이상의 재배열된 V, D 또는 J 유전자 분절의 발현에 대해 B 및/또는 T 세포 DNA를 포함하는 DNA 샘플을 스크리닝하는 방법을 제공하는 것으로, 상기 방법은
(i) 상기 DNA 샘플로부터 유래한 개별 주형 DNA 분자의 라이브러리를 고체 지지체 상에서 공간적으로 단리하는 단계로서, 상기 재배열된 V, D 또는 J 유전자 분절이 상기 주형의 5' 및/또는 3' 말단에서 연속 뉴클레오타이드 영역에 국재화되도록 주형 DNA 분자가 생성되는 것인 단계;
(ii) 상기 공간적으로 단리된 주형 DNA 분자를 증폭하여 앰플리콘의 클러스터를 생성하는 단계로서, 각각의 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되는 것인 단계;
(iii) 하나 이상의 클러스터의 하나 이상의 앰플리콘을 양방향으로 시퀀싱하는 단계로서, 상기 앰플리콘의 정방향 및 역방향 서열 리드가 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는 것인 단계;
(iv) 단계 (iii)에 따라 시퀀싱된 하나 이상의 클러스터에 대해 정방향 및 역방향 서열 리드를 식별하고,
(a) 정방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 역방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 정방향 리드의 말단 5' 연속 핵산 서열의 부분, 및/또는
(b) 역방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 정방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 역방향 리드의 말단 5' 연속 핵산 서열의 부분
을 포함하는 핵산 서열 결과를 생성하는 단계로서,
(1) 상기 부분이, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75% 이상이고, (2) 역방향 리드 연속 서열의 상기 부분이, 분석되는 모든 역방향 리드에 대해 동일하고, (3) 정방향 리드 연속 서열의 상기 부분이, 분석되는 모든 정방향 리드에 대해 동일하나, 역방향 리드 부분과 동일할 수 있거나 상이할 수 있고, (4) 링커 서열이 모든 핵산 서열 결과에 대해 동일한 것인 단계; 및
(v) 서열 결과를 분석하는 단계
를 포함한다.
또 다른 실시양태에서, 단계 (i)의 상기 연속 뉴클레오타이드 영역은 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 약 80%에 상응한다.
또 다른 실시양태에서, V(D)J 재배열과 관련하여, 상기 표적 뉴클레오타이드 서열은 IgH, TCRβ 또는 TCRδ의 DJ 또는 VDJ 재배열이다. 또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 Igκ, Igλ, TCRα 또는 TCRγ의 VJ 재배열이다. 또 다른 실시양태에서, 상기 재배열은 카파 결실 요소 재배열이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 V 유전자 분절 영역, 예컨대, 과돌연변이가 일어나기 쉬운 영역 및/또는 CDR3의 부분을 코딩하는 J 유전자 분절 영역이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 V 리더 서열, 체세포 과돌연변이에 취약한 V 영역, IgH FR1, IgH FR2 또는 IgH FR3의 전부 또는 일부를 코딩하는 유전자 분절 영역이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 BCL1/JH 전위 또는 BCL2/JH t(14:18)이다.
추가 측면에서, 하나 이상의 표적 DNA 서열의 발현에 대해 관심 있는 DNA 샘플을 스크리닝하는 방법을 제공하는 것으로, 상기 방법은
(i) 상기 DNA 샘플로부터 유래한 개별 주형 DNA 분자의 라이브러리를 유리 표면 상에서 공간적으로 단리하는 단계로서, 표적 DNA 서열이 상기 주형의 5' 및/또는 3' 말단에서 연속 뉴클레오타이드 영역에 국재화되도록 주형 DNA 분자가 생성되고, 상기 연속 뉴클레오타이드 영역이 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 약 80%에 상응하는 것인 단계;
(ii) 상기 공간적으로 단리된 주형 DNA 분자를 증폭하여 앰플리콘의 클러스터를 생성하는 단계로서, 각각의 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되는 것인 단계;
(iii) 하나 이상의 클러스터의 하나 이상의 앰플리콘을 양방향으로 시퀀싱하는 단계로서, 상기 앰플리콘의 정방향 및 역방향 서열 리드가 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는 것인 단계;
(iv) 단계 (iii)에 따라 시퀀싱된 하나 이상의 클러스터에 대해 정방향 및 역방향 서열 리드를 식별하고,
(a) 정방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 역방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 정방향 리드의 말단 5' 연속 핵산 서열의 부분, 및/또는
(b) 역방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 정방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 역방향 리드의 말단 5' 연속 핵산 서열의 부분
을 포함하는 핵산 서열 결과를 생성하는 단계로서,
(1) 상기 부분이, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75% 이상이고, (2) 역방향 리드 연속 서열의 상기 부분이, 분석되는 모든 역방향 리드에 대해 동일하고, (3) 정방향 리드 연속 서열의 상기 부분이, 분석되는 모든 정방향 리드에 대해 동일하나, 역방향 리드 부분과 동일할 수 있거나 상이할 수 있고, (4) 링커 서열이 (a)의 모든 핵산 서열 결과에 대해 동일하고 링커 서열이 (b)의 모든 핵산 서열 결과에 대해 동일한 것인 단계; 및
(v) 서열 결과를 분석하는 단계
를 포함한다.
바람직하게는, 상기 유리 표면은 유리 슬라이드 또는 유동 셀이다.
또 다른 측면에서, 하나 이상의 표적 DNA 서열의 발현에 대해 관심 있는 DNA 샘플을 스크리닝하는 방법을 제공하는 것으로, 상기 방법은
(i) 상기 DNA 샘플로부터 유래한 개별 주형 DNA 분자의 라이브러리를 유리 표면 상에서 공간적으로 단리하는 단계로서, 표적 DNA 서열이 상기 주형의 5' 및/또는 3' 말단에서 연속 뉴클레오타이드 영역에 국재화되도록 주형 DNA 분자가 생성되고, 상기 연속 뉴클레오타이드 영역이 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 약 80%에 상응하고, 상기 연속 뉴클레오타이드 영역의 말단이 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 및 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 핵산 서열을 발현하는 것인 단계;
(ii) 상기 공간적으로 단리된 주형 DNA 분자를 증폭하여 앰플리콘의 클러스터를 생성하는 단계로서, 각각의 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되는 것인 단계;
(iii) 하나 이상의 클러스터의 하나 이상의 앰플리콘을 양방향으로 시퀀싱하는 단계로서, 상기 앰플리콘의 정방향 및 역방향 서열 리드가 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는 것인 단계;
(iv) 단계 (iii)에 따라 시퀀싱된 하나 이상의 클러스터에 대해 정방향 및 역방향 서열 리드를 식별하고,
(a) 정방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 역방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 정방향 리드의 말단 5' 연속 핵산 서열의 부분, 및/또는
(b) 역방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 정방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 역방향 리드의 말단 5' 연속 핵산 서열의 부분
을 포함하는 핵산 서열 결과를 생성하는 단계로서,
(1) 상기 부분이, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75% 이상이고, (2) 역방향 리드 연속 서열의 상기 부분이, 분석되는 모든 역방향 리드에 대해 동일하고, (3) 정방향 리드 연속 서열의 상기 부분이, 분석되는 모든 정방향 리드에 대해 동일하나, 역방향 리드 부분과 동일할 수 있거나 상이할 수 있고, (4) 링커 서열이 (a)의 모든 핵산 서열 결과에 대해 동일하고 링커 서열이 (b)의 모든 핵산 서열 결과에 대해 동일한 것인 단계; 및
(v) 서열 결과를 분석하는 단계
를 포함한다.
또 다른 추가 측면에서, 하나 이상의 표적 DNA 서열의 발현에 대해 관심 있는 DNA 샘플을 스크리닝하는 방법을 제공하는 것으로, 상기 방법은
(i) 상기 DNA 샘플로부터 유래한 개별 주형 DNA 분자의 라이브러리를 유리 표면 상에서 공간적으로 단리하는 단계로서, 표적 DNA 서열이 상기 주형의 5' 및/또는 3' 말단에서 연속 뉴클레오타이드 영역에 국재화되도록 주형 DNA 분자가 생성되고, 상기 연속 뉴클레오타이드 영역이 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83%에 상응하고, 상기 연속 뉴클레오타이드 영역의 말단이 어댑터, 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 및 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 핵산 서열을 발현하는 것인 단계;
(ii) 상기 공간적으로 단리된 주형 DNA 분자를 증폭하여 앰플리콘의 클러스터를 생성하는 단계로서, 각각의 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되는 것인 단계;
(iii) 하나 이상의 클러스터의 하나 이상의 앰플리콘을 양방향으로 시퀀싱하는 단계로서, 상기 앰플리콘의 정방향 및 역방향 서열 리드가 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는 것인 단계;
(iv) 단계 (iii)에 따라 시퀀싱된 하나 이상의 클러스터에 대해 정방향 및 역방향 서열 리드를 식별하고,
(a) 정방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 역방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 정방향 리드의 말단 5' 연속 핵산 서열의 부분, 및/또는
(b) 역방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 정방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 역방향 리드의 말단 5' 연속 핵산 서열의 부분
을 포함하는 핵산 서열 결과를 생성하는 단계로서,
(1) 상기 부분이, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83% 이상이고, (2) 역방향 리드 연속 서열의 상기 부분이, 분석되는 모든 역방향 리드에 대해 동일하고, (3) 정방향 리드 연속 서열의 상기 부분이, 분석되는 모든 정방향 리드에 대해 동일하나, 역방향 리드 부분과 동일할 수 있거나 상이할 수 있고, (4) 링커 서열이 (a)의 모든 핵산 서열 결과에 대해 동일하고 링커 서열이 (b)의 모든 핵산 서열 결과에 대해 동일한 것인 단계; 및
(v) 서열 결과를 분석하는 단계
를 포함한다.
한 실시양태에서, 상기 표적 DNA 서열은 상기 주형의 5' 및/또는 3' 말단에서 120개의 연속 뉴클레오타이드에 국재화되나, 이때 상기 연속 뉴클레오타이드 영역의 최대 20개 뉴클레오타이드 말단은 어댑터, 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 뉴클레오타이드 서열을 발현한다.
또 다른 실시양태에서, 상기 표적 DNA 서열은 상기 주형의 5' 및/또는 3' 말단에서 125개의 연속 뉴클레오타이드에 국재화되나, 이때 상기 연속 뉴클레오타이드 영역의 최대 30개 뉴클레오타이드 말단은 어댑터, 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 뉴클레오타이드 서열을 발현한다.
추가 측면에서, 하나 이상의 표적 DNA 서열의 발현에 대해 관심 있는 DNA 샘플을 스크리닝하는 방법을 제공하는 것으로서, 상기 방법은
(i) 상기 DNA 샘플로부터 유래한 개별 주형 DNA 분자의 라이브러리를 유리 표면 상에서 공간적으로 단리하는 단계로서, 표적 DNA 서열이 상기 주형의 5' 및/또는 3' 말단에서 연속 뉴클레오타이드 영역에 국재화되도록 주형 DNA 분자가 생성되고, 상기 연속 뉴클레오타이드 영역의 말단이 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 및 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 핵산 서열을 발현하는 것인 단계;
(ii) 상기 공간적으로 단리된 주형 DNA 분자를 가교 증폭으로 증폭하여 앰플리콘의 클러스터를 생성하는 단계로서, 각각의 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되는 것인 단계;
(iii) 하나 이상의 클러스터의 하나 이상의 앰플리콘을 양방향으로 시퀀싱하는 단계로서, 상기 앰플리콘의 정방향 및 역방향 서열 리드가 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는 것인 단계;
(iv) 단계 (iii)에 따라 시퀀싱된 하나 이상의 클러스터에 대해 정방향 및 역방향 서열 리드를 식별하고,
(a) 정방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 역방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 정방향 리드의 말단 5' 연속 핵산 서열의 부분, 및/또는
(b) 역방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 정방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 역방향 리드의 말단 5' 연속 핵산 서열의 부분
을 포함하는 핵산 서열 결과를 생성하는 단계로서,
(1) 상기 부분이, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75% 이상이고, (2) 역방향 리드 연속 서열의 상기 부분이, 분석되는 모든 역방향 리드에 대해 동일하고, (3) 정방향 리드 연속 서열의 상기 부분이, 분석되는 모든 정방향 리드에 대해 동일하나, 역방향 리드 부분과 동일할 수 있거나 상이할 수 있고, (4) 링커 서열이 (a)의 모든 핵산 서열 결과에 대해 동일하고 링커 서열이 (b)의 모든 핵산 서열 결과에 대해 동일한 것인 단계; 및
(v) 서열 결과를 분석하는 단계
를 포함한다.
또 다른 측면에서, 하나 이상의 표적 DNA 서열의 발현에 대해 관심 있는 DNA 샘플을 스크리닝하는 방법을 제공하는 것으로서, 상기 방법은
(i) 상기 DNA 샘플로부터 유래한 개별 주형 DNA 분자의 라이브러리를 유리 표면 상에서 공간적으로 단리하는 단계로서, 표적 DNA 서열이 상기 주형의 5' 및/또는 3' 말단에서 연속 뉴클레오타이드 영역에 국재화되도록 주형 DNA 분자가 생성되고, 상기 연속 뉴클레오타이드 영역의 말단이 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 및 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 핵산 서열을 발현하는 것인 단계;
(ii) 상기 공간적으로 단리된 주형 DNA 분자를 가교 증폭으로 증폭하여 앰플리콘의 클러스터를 생성하는 단계로서, 각각의 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되는 것인 단계;
(iii) 하나 이상의 클러스터의 하나 이상의 앰플리콘을 양방향으로 시퀀싱하는 단계로서, 상기 앰플리콘의 정방향 및 역방향 서열 리드가 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않고 상기 양방향 시퀀싱이 가역적으로 종결된 표지된 뉴클레오타이드를 사용한 합성에 의한 시퀀싱인 단계;
(iv) 단계 (iii)에 따라 시퀀싱된 하나 이상의 클러스터에 대해 정방향 및 역방향 서열 리드를 식별하고,
(a) 정방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 역방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 정방향 리드의 말단 5' 연속 핵산 서열의 부분, 및/또는
(b) 역방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 정방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 역방향 리드의 말단 5' 연속 핵산 서열의 부분
을 포함하는 핵산 서열 결과를 생성하는 단계로서,
(1) 상기 부분이, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75% 이상이고, (b) 역방향 리드 연속 서열의 상기 부분이, 분석되는 모든 역방향 리드에 대해 동일하고, (c) 정방향 리드 연속 서열의 상기 부분이, 분석되는 모든 정방향 리드에 대해 동일하나, 역방향 리드 부분과 동일할 수 있거나 상이할 수 있고, (d) 링커 서열이 (a)의 모든 핵산 서열 결과에 대해 동일하고 링커 서열이 (b)의 모든 핵산 서열 결과에 대해 동일한 것인 단계; 및
(v) 서열 결과를 분석하는 단계
를 포함한다.
상기 측면에 따라, 한 실시양태에서 상기 유리 표면은 유리 슬라이드 또는 유동 셀이다.
또 다른 실시양태에서, 단계 (i)의 상기 연속 뉴클레오타이드 영역은 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 약 80%에 상응한다.
또 다른 실시양태에서, 상기 관심 있는 핵산 샘플은 B 및/또는 T 세포 DNA를 포함하고, 상기 하나 이상의 표적 뉴클레오타이드 서열은 하나 이상의 재배열된 V, D 또는 J 유전자 분절이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 IgH, TCRβ 또는 TCRδ의 DJ 또는 VDJ 재배열, 또는 Igκ, Igλ, TCRα 또는 TCRγ의 VJ 재배열이다. 또 다른 실시양태에서, 상기 재배열은 카파 결실 요소 재배열이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 V 유전자 분절 영역, 예컨대, 과돌연변이가 일어나기 쉬운 영역 및/또는 CDR3의 부분을 코딩하는 J 유전자 분절 영역이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 V 리더 서열, 체세포 과돌연변이에 취약한 V 영역, IgH FR1, IgH FR2 또는 IgH FR3의 전부 또는 일부를 코딩하는 유전자 분절 영역이다.
추가 실시양태에서, 상기 연속 뉴클레오타이드 영역은 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83%에 상응하고, 상기 정방향 및 역방향 리드 부분은 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83% 이상이다.
또 다른 실시양태에서, 상기 표적 DNA 서열은 상기 주형의 5' 및/또는 3' 말단에서 120개의 연속 뉴클레오타이드에 국재화되지만, 이때 상기 연속 뉴클레오타이드 영역의 20개 뉴클레오타이드 말단은 어댑터, 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 뉴클레오타이드 서열을 발현한다.
또 다른 실시양태에서, 상기 표적 DNA 서열은 상기 주형의 5' 및/또는 3' 말단에서 125개의 연속 뉴클레오타이드에 국재화되지만, 이때 상기 연속 뉴클레오타이드 영역의 최대 30개 뉴클레오타이드 말단은 어댑터, 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 뉴클레오타이드 서열을 발현한다.
또 다른 추가 실시양태에서, 상기 링커는 길이가 5개 내지 30개 뉴클레오타이드, 바람직하게는 5개 내지 25개, 보다 바람직하게는 5개 내지 20개 뉴클레오타이드이다. 또 다른 실시양태에서, 상기 링커의 길이는 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개 또는 16개 뉴클레오타이드이다.
또 다른 추가 실시양태에서, 상기 분석은 단계 (iv)에서 생성된 핵산 서열 결과를 정렬하는 단계 및 관심 있는 표적 핵산 서열의 발현을 확인하는 단계를 포함한다.
관련 측면에서, 하나 이상의 표적 뉴클레오타이드 서열의 발현을 특징으로 하는 환자의 병태를 진단하거나, 모니터링하거나 스크리닝하는 방법을 제공하는 것으로, 상기 방법은
(i) 핵산 샘플로부터 유래한 개별 주형 DNA 분자의 라이브러리를 고체 지지체 상에서 공간적으로 단리하는 단계로서, 표적 뉴클레오타이드 서열이 상기 주형의 5' 및/또는 3' 말단에서 연속 뉴클레오타이드 영역에 국재화되도록 주형 DNA 분자가 생성되는 것인 단계;
(ii) 상기 공간적으로 단리된 주형 DNA 분자를 증폭하여 앰플리콘의 클러스터를 생성하는 단계로서, 각각의 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되는 것인 단계;
(iii) 하나 이상의 클러스터의 하나 이상의 앰플리콘을 양방향으로 시퀀싱하는 단계로서, 상기 앰플리콘의 정방향 및 역방향 서열 리드가 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는 것인 단계;
(iv) 단계 (iii)에 따라 시퀀싱된 하나 이상의 클러스터에 대해 정방향 및 역방향 서열 리드를 식별하고,
(a) 정방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 역방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 정방향 리드의 말단 5' 연속 핵산 서열의 부분, 및/또는
(b) 역방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 정방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 역방향 리드의 말단 5' 연속 핵산 서열의 부분
을 포함하는 핵산 서열 결과를 생성하는 단계로서,
(1) 상기 부분이, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75% 이상이고, (2) 역방향 리드 연속 서열의 상기 부분이, 분석되는 모든 역방향 리드에 대해 동일하고, (3) 정방향 리드 연속 서열의 상기 부분이, 분석되는 모든 정방향 리드에 대해 동일하나, 역방향 리드 부분과 동일할 수 있거나 상이할 수 있고, (4) 링커 서열이 (a)의 모든 핵산 서열 결과에 대해 동일하고 링커 서열이 (b)의 모든 핵산 서열 결과에 대해 동일한 것인 단계; 및
(v) 서열 결과를 분석하는 단계
를 포함한다.
한 실시양태에서, 상기 병태는 세포 또는 미생물의 클론 집단을 특징으로 한다.
또 다른 실시양태에서, 상기 클론 세포는 클론 림프계 세포의 집단이다.
또 다른 실시양태에서, 상기 병태는 면역 세포에 의해 발현된 하나 이상의 표적 뉴클레오타이드 서열을 특징으로 한다.
또 다른 실시양태에서, 단계 (i)의 상기 연속 뉴클레오타이드 영역은 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 약 80%에 상응한다.
또 다른 실시양태에서, 상기 병태는 하나 이상의 재배열된 V, D 또는 J 유전자 분절 서열 특징의 발현을 특징으로 한다.
또 다른 실시양태에서, 상기 관심 있는 DNA 샘플은 B 및/또는 T 세포 DNA를 포함하고 상기 하나 이상의 표적 뉴클레오타이드 서열은 하나 이상의 재배열된 V, D 또는 J 유전자 분절이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 IgH, TCRβ 또는 TCRδ의 DJ 또는 VDJ 재배열, 또는 Igκ, Igλ, TCRα 또는 TCRγ의 VJ 재배열이다. 또 다른 실시양태에서, 상기 재배열은 카파 결실 요소 재배열이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 V 유전자 분절 영역, 예컨대, 과돌연변이가 일어나기 쉬운 영역 및/또는 CDR3의 부분을 코딩하는 J 유전자 분절 영역이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 V 리더 서열, 체세포 과돌연변이에 취약한 V 영역, IgH FR1, IgH FR2 또는 IgH FR3의 전부 또는 일부를 코딩하는 유전자 분절 영역이다.
추가 실시양태에서, 상기 연속 뉴클레오타이드 영역은 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83%에 상응하고, 상기 정방향 및 역방향 리드 부분은 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83% 이상이다.
또 다른 실시양태에서, 상기 표적 DNA 서열은 상기 주형의 5' 및/또는 3' 말단에서 120개의 연속 뉴클레오타이드에 국재화되나, 이때 상기 연속 뉴클레오타이드 영역의 20개 뉴클레오타이드 말단은 어댑터, 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 뉴클레오타이드 서열을 발현한다.
또 다른 실시양태에서, 상기 표적 DNA 서열은 상기 주형의 5' 및/또는 3' 말단에서 125개의 연속 뉴클레오타이드에 국재화되나, 이때 상기 연속 뉴클레오타이드 영역의 최대 30개 뉴클레오타이드 말단은 어댑터, 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 뉴클레오타이드 서열을 발현한다.
또 다른 실시양태에서, 상기 링커는 길이가 5개 내지 25개 뉴클레오타이드이다. 또 다른 실시양태에서, 상기 링커는 길이가 5개 내지 20개 뉴클레오타이드이다. 추가 실시양태에서, 상기 링커의 길이는 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개 또는 16개 뉴클레오타이드, 가장 바람직하게는 9개, 10개, 11개 또는 12개 뉴클레오타이드이다.
또 다른 실시양태에서, 상기 분석은 단계 (iv)에서 생성된 핵산 서열 결과를 정렬하는 단계 및 관심 있는 표적 핵산 서열의 발현을 확인하는 단계를 포함한다.
또 다른 실시양태에서, 하나 이상의 재배열된 V, D 또는 J 유전자 분절 서열 특징의 발현을 특징으로 하는 상기 병태는 감염, 이식, 자가면역, 면역결핍, 알레르기, 신생물, 또는 T 또는 B 세포 클론 확장을 특징으로 하는 임의의 다른 병태이다.
상기 방법은 진단, 예후, 분류, 질환 위험의 예측, 질환 재발의 검출, 면역 감시, 또는 예방 또는 치료 효능의 모니터링에 유용하다.
림프계 신생물과 관련하여 분석에 적합한 질환 상태는 급성 림프모구성 백혈병, 급성 림프구성 백혈병, 급성 골수성 백혈병, 급성 전골수구성 백혈병, 만성 림프구성 백혈병, 만성 골수성 백혈병, 골수증식성 신생물, 예컨대, 골수종, 전신 비만세포증, 림프종 및 털세포 백혈병을 포함한다.
한 특정 측면에서, 본 발명의 방법은 림프계 신생물과 관련하여 최소 잔류 질환을 검출하는 데 이용된다.
또 다른 실시양태에서, 클론 림프계 확장을 특징으로 하는 비-신생물성 질환은 감염, 알레르기, 자가면역, 이식 거부, 면역요법, 진성 적혈구증가증, 골수이형성증 및 백혈구증가증, 예컨대, 림프구성 백혈구증가증을 포함한다.
본 개시내용의 또 다른 측면은 비-중첩 서열 리드로부터 분석용 핵산 서열 결과를 준비하기 위한 컴퓨터 구현 방법에 관한 것이다. 상기 방법은 앰플리콘 클러스터의 서열 리드로부터 정방향 서열 리드 및 역방향 서열 리드를 식별하는 단계로서, 상기 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되고, 각각의 서열 리드가, 선택된 양방향 시퀀싱 기술에 의해 생성되고, 정방향 서열 리드와 역방향 서열 리드가 중첩되지 않으며 임의의 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는 것인 단계; 및 제1 핵산 링커 서열을 통해 각각의 정방향 서열 리드가 역방향 서열 리드에 연결되고 각각의 역방향 서열 리드가 정방향 서열 리드에 연결되도록, 정방향 서열 리드를 역방향 서열 리드와 연결하여 복수의 제1 핵산 서열 결과를 생성하는 단계로서, 각각의 연결이 정방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 3' 말단과 역방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 역상보체 사이에 제1 핵산 링커 서열을 연쇄시켜, 정방향 서열 리드의 부분, 제1 핵산 링커 서열 및 역방향 서열 리드의 부분의 역상보체를 이 순서대로 포함하는 제1 핵산 서열 결과를 생성함으로써 달성되는 것인 단계를 포함하고; 이때 (1) 정방향 서열 리드의 부분의 길이는, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고, 역방향 서열 리드의 부분의 길이는, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고; (2) 역방향 서열 리드의 부분의 길이는 분석되는 모든 역방향 서열 리드에 대해 동일하고; (3) 정방향 서열 리드의 부분의 길이는 분석되는 모든 정방향 서열 리드에 대해 동일하지만, 역방향 서열 리드의 부분의 길이와 동일할 수 있거나 상이할 수 있고, (4) 제1 핵산 링커 서열은 모든 제1 핵산 서열 결과에 대해 동일하다.
일부 실시양태에서, 컴퓨터 구현 방법은 제2 핵산 링커 서열을 통해 각각의 정방향 서열 리드가 역방향 서열 리드에 연결되고 각각의 역방향 서열 리드가 정방향 서열 리드에 연결되도록 정방향 서열 리드를 역방향 서열 리드와 연결하여 복수의 제2 핵산 서열 결과를 생성하는 단계로서, 각각의 연결이 역방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 3' 말단과 정방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 역상보체 사이에 제2 핵산 링커 서열을 연쇄시켜, 역방향 서열 리드의 부분, 제2 핵산 링커 서열 및 정방향 서열 리드의 부분의 역상보체를 이 순서대로 포함하는 제2 핵산 서열 결과를 생성함으로써 달성되는 것인 단계를 추가로 포함하고; 이때 (1) 정방향 서열 리드의 부분의 길이는, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고, 역방향 서열 리드의 부분의 길이는, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고; (2) 제2 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이는 모든 역방향 서열 리드에 대해 동일하고 제1 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이와 동일하고; (3) 제2 핵산 링커에 연쇄되는 정방향 서열 리드의 부분의 길이는 모든 정방향 서열 리드에 대해 동일하고 제1 핵산 링커에 연쇄되는 정방향 서열 리드의 부분의 길이와 동일하나, 제2 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이와 동일할 수 있거나 상이할 수 있고; 제2 핵산 링커 서열은 모든 제2 핵산 서열 결과에 대해 동일하다.
본 개시내용의 또 다른 측면은
앰플리콘 클러스터의 서열 리드로부터 정방향 서열 리드 및 역방향 서열 리드를 식별하는 단계로서, 상기 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되고, 각각의 서열 리드가, 선택된 양방향 시퀀싱 기술에 의해 생성되고, 정방향 서열 리드와 역방향 서열 리드가 중첩되지 않으며 임의의 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는 것인 단계; 및
제1 핵산 링커 서열을 통해 각각의 정방향 서열 리드가 역방향 서열 리드에 연결되고 각각의 역방향 서열 리드가 정방향 서열 리드에 연결되도록 정방향 서열 리드를 역방향 서열 리드와 연결하여 복수의 제1 핵산 서열 결과를 생성하는 단계로서, 각각의 연결이 정방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 3' 말단과 역방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 역상보체 사이에 제1 핵산 링커 서열을 연쇄시켜, 정방향 서열 리드의 부분, 제1 핵산 링커 서열 및 역방향 서열 리드의 부분의 역상보체를 이 순서대로 포함하는 제1 핵산 서열 결과를 생성함으로써 달성되는 것인 단계
를 통해 디바이스가 비-중첩 서열 리드로부터 분석용 핵산 서열 결과를 준비하는 방법을 구현하도록 디바이스의 처리 요소에 의해 실행될 수 있는 프로그램 명령어가 구체화되어 있는 비-일시적 컴퓨터 판독 가능한 저장 매체에 관한 것으로, 이때 (1) 정방향 서열 리드의 부분의 길이는, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고, 역방향 서열 리드의 부분의 길이는, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고; (2) 역방향 서열 리드의 부분의 길이는 분석되는 모든 역방향 서열 리드에 대해 동일하고; (3) 정방향 서열 리드의 부분의 길이는 분석되는 모든 정방향 서열 리드에 대해 동일하지만, 역방향 서열 리드의 부분의 길이와 동일할 수 있거나 상이할 수 있고, (4) 제1 핵산 링커 서열은 모든 제1 핵산 서열 결과에 대해 동일하다.
일부 실시양태에서, 비-일시적 컴퓨터 판독 가능한 저장 매체는 제2 핵산 링커 서열을 통해 각각의 정방향 서열 리드가 역방향 서열 리드에 연결되고 각각의 역방향 서열 리드가 정방향 서열 리드에 연결되도록 정방향 서열 리드를 역방향 서열 리드와 연결하여 복수의 제2 핵산 서열 결과를 생성하는 것을 추가로 포함하고, 이때 각각의 연결은 역방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 3' 말단과 정방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 역상보체 사이에 제2 핵산 링커 서열을 연쇄시켜, 역방향 서열 리드의 부분, 제2 핵산 링커 서열 및 정방향 서열 리드의 부분의 역상보체를 이 순서대로 포함하는 제2 핵산 서열 결과를 생성함으로써 달성되고; 이때 (1) 정방향 서열 리드의 부분의 길이는, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고, 역방향 서열 리드의 부분의 길이는, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고; (2) 제2 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이는 모든 역방향 서열 리드에 대해 동일하고 제1 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이와 동일하고; (3) 제2 핵산 링커에 연쇄되는 정방향 서열 리드의 부분의 길이는 모든 정방향 서열 리드에 대해 동일하고 제1 핵산 링커에 연쇄되는 정방향 서열 리드의 부분의 길이와 동일하나, 제2 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이와 동일할 수 있거나 상이할 수 있고; (4) 제2 핵산 링커 서열은 모든 제2 핵산 서열 결과에 대해 동일하다.
본 개시내용의 또 다른 측면은 비-중첩 서열 리드로부터 분석용 핵산 서열 결과를 준비하는 디바이스에 관한 것이다. 상기 디바이스는 앰플리콘 클러스터의 서열 리드로부터 정방향 서열 리드 및 역방향 서열 리드를 식별하는 단계로서, 상기 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되고, 각각의 서열 리드가, 선택된 양방향 시퀀싱 기술에 의해 생성되고, 정방향 서열 리드와 역방향 서열 리드가 중첩되지 않으며 임의의 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는 것인 단계; 및 제1 핵산 링커 서열을 통해 각각의 정방향 서열 리드가 역방향 서열 리드에 연결되고 각각의 역방향 서열 리드가 정방향 서열 리드에 연결되도록, 정방향 서열 리드를 역방향 서열 리드와 연결하여 복수의 제1 핵산 서열 결과를 생성하는 단계로서, 각각의 연결이 정방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 3' 말단과 역방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 역상보체 사이에 제1 핵산 링커 서열을 연쇄시켜, 정방향 서열 리드의 부분, 제1 핵산 링커 서열 및 역방향 서열 리드의 부분의 역상보체를 이 순서대로 포함하는 제1 핵산 서열 결과를 생성함으로써 달성되는 것인 단계를 수행하도록 구성된 하드웨어 프로세서를 포함하고; 이때 (1) 정방향 서열 리드의 부분의 길이는, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고, 역방향 서열 리드의 부분의 길이는, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고; (2) 역방향 서열 리드의 부분의 길이는 분석되는 모든 역방향 서열 리드에 대해 동일하고; (3) 정방향 서열 리드의 부분의 길이는 분석되는 모든 정방향 서열 리드에 대해 동일하지만, 역방향 서열 리드의 부분의 길이와 동일할 수 있거나 상이할 수 있고, (4) 제1 핵산 링커 서열은 모든 제1 핵산 서열 결과에 대해 동일하다.
일부 실시양태에서, 하드웨어 프로세서는 제2 핵산 링커 서열을 통해 각각의 정방향 서열 리드가 역방향 서열 리드에 연결되고 각각의 역방향 서열 리드가 정방향 서열 리드에 연결되도록 정방향 서열 리드를 역방향 서열 리드와 연결하여 복수의 제2 핵산 서열 결과를 생성하도록 추가로 구성되고, 이때 각각의 연결은 역방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 3' 말단과 정방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 역상보체 사이에 제2 핵산 링커 서열을 연쇄시켜, 역방향 서열 리드의 부분, 제2 핵산 링커 서열 및 정방향 서열 리드의 부분의 역상보체를 이 순서대로 포함하는 제2 핵산 서열 결과를 생성함으로써 달성되고; 이때 (1) 정방향 서열 리드의 부분의 길이는, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고, 역방향 서열 리드의 부분의 길이는, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고; (2) 제2 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이는 모든 역방향 서열 리드에 대해 동일하고 제1 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이와 동일하고; (3) 제2 핵산 링커에 연쇄되는 정방향 서열 리드의 부분의 길이는 모든 정방향 서열 리드에 대해 동일하고 제1 핵산 링커에 연쇄되는 정방향 서열 리드의 부분의 길이와 동일하나, 제2 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이와 동일할 수 있거나 상이할 수 있고; (4) 제2 핵산 링커 서열은 모든 제2 핵산 서열 결과에 대해 동일하다.
일부 실시양태에서, 제1 핵산 링커 서열 및 제2 핵산 링커 서열은 길이가 적어도 11개 뉴클레오타이드이다.
일부 실시양태에서, 정방향 서열 리드의 부분의 길이는 역방향 서열 리드의 부분의 길이와 동일하다.
일부 실시양태에서, 정방향 서열 리드의 부분은 정방향 서열 리드의 5' 말단의 특정된 수의 연속 뉴클레오타이드를 포함하고, 역방향 서열 리드의 부분은 역방향 서열 리드의 5' 말단의 특정된 수의 연속 뉴클레오타이드를 포함한다. 일부 실시양태에서, 특정된 수의 연속 뉴클레오타이드는 약 80개의 뉴클레오타이드 내지 약 180개의 뉴클레오타이드를 포함한다.
일부 실시양태에서, 정방향 서열 리드 및 역방향 서열 리드는 DNA 서열 리드이다. 일부 실시양태에서, 앰플리콘의 클러스터는 B 및/또는 T 세포 DNA로부터 증폭된다.
일부 실시양태에서, 앰플리콘의 클러스터는 적어도 하나의 재배열된 V, D 또는 J 유전자 분절을 포함한다.
도 1. 본 개시내용의 측면에 따른 시스템의 블록도. CPU: 중앙 처리 유닛("프로세서").
도 2. 비-중첩 서열 리드로부터 분석용 핵산 서열 결과를 준비하는 한 실시양태의 순서도.
도 3. 비-중첩 서열 리드로부터 분석용 핵산 서열 결과를 준비하는 한 실시양태의 순서도.
본 발명은 부분적으로, 비-중첩 양방향 시퀀싱 리드를 사용하여 하나 이상의 표적 뉴클레오타이드 서열을 스크리닝하는 수단의 개발에 기반한다. 구체적으로, 고체 플랫폼에 고정된 단일 주형 DNA로부터 생성되므로 클론성을 가진 앰플리콘 클러스터에 대한 양방향 서열 리드 결과의 공국재화를 통해, 이 리드들의 시퀀싱 정보를 공통 주형 DNA로부터 유래한 것으로서 식별할 수 있다. 현재까지의 방법은 양방향 서열 리드로부터 전체 주형 DNA 서열을 어셈블링할 수 있게 하는 중첩 정방향 및 역방향 리드 서열들에 의존하였거나, 서로에 대한 이들의 방향 및 위치를 확인하기 위해 리드와 정렬되는 기준 서열의 사용에 의존하였다. 이것은 시퀀싱 오류가 서열 리드의 3' 말단을 향해 더 자주 발생하는 것으로 알려져 있지만, 페어링된 리드의 중첩되는 상보적 서열들이 나중에 확실히 제거될 수 있는 (돌연변이와 상반된) 단일 염기 오류의 존재를 한 가닥 상에서 식별할 수 있게 하였고 테이핑된 리드의 정렬 및 분석이 상대적 정확도로 용이하게 일어날 수 있게 하였다는 이점도 제공하였다. 그러나, 양방향 서열 리드들이 중첩되지 않는 경우, 중첩되는 상보적 3' 서열에 의한 이들의 페어링 및 어셈블리는 불가능하다. 더욱이 여전히, 양방향 서열 리드가 개별적으로 분석되어야 하지만, 리드의 3' 말단에서 발생하였을 수 있고 단일 리드가 오류를 나타내지 않는 비교 리드에 비해 상이한(예를 들어, 돌연변이된) 서열로서 분류되게 할 임의의 시퀀싱 오류라는 문제점과 별개로, 이 리드들의 실제 서열이 동일하더라도, 상이한 서열 리드 길이의 단순한 생성은 이 리드들이 상이한 서열로서 부정확하게 분류되게 함으로써, 관심 있는 DNA 샘플에 대한 시퀀싱 결과를 왜곡시킬 것이다.
그러나, 정방향 리드 및 역방향 리드의 모든 서열 리드들이 동일한 길이를 갖도록 서열 리드를 변경하여 3' 양방향 서열 리드 말단을 충분히 절단하는 경우, 이 예상외의 현상은 바로잡아진다는 것을 예기치 않게 확인하였다. 더욱이, 정방향 리드 및 역방향 리드를 이 방식으로 조절한 후, 각각 역방향 리드 및 정방향 리드에 상보적인 서열의 5' 말단에 부착되는 핵산 링커를 사용하여, 고체 지지체 상의 단일 앰플리콘 클러스터에 공국재화되는 것으로서 확인된 정방향 리드 및 역방향 리드의 3' 말단을 연결하여 선형 서열 리드를 생성하고 상기 링커가 주어진 생물학적 샘플에 대한 모든 어셈블링된 리드에 대해 동일한 경우, 어셈블링된 서열 결과의 정확한 정렬 및 비교 분석을 달성할 수 있다. 표적 뉴클레오타이드 서열이 주형의 5' 및 3' 말단에 위치하므로, 전체 주형이 완전히 시퀀싱되지 않더라도 선택된 양방향 시퀀싱 기술에 의해 시퀀싱되도록 초기 DNA 주형 라이브러리를 디자인함으로써, 잠재적으로 상당히 멀리 위치하는 표적 뉴클레오타이드 서열, 예컨대, 면역글로불린 또는 TCR 유전자에서 재배열되는 VDJ 유전자 분절을 분석하는 수단을 제공한다. 더 이상 기기의 다른 기능적 특징보다는 오히려 기기가 생성하는 리드 길이를 기반으로 시퀀싱 기기를 선택하는 것으로 제한되지 않으므로, 중첩 양방향 서열 리드가 생성될 수 있을 정도로 주형 분자가 충분히 짧도록 주형 DNA 라이브러리를 디자인해야 필요가 없음으로써, 비로소 고처리량 차세대 서열 분석을 위한 더 넓은 적용이 가능해졌다.
따라서, 본 발명의 한 측면은 하나 이상의 표적 뉴클레오타이드 서열의 발현에 대해 관심 있는 핵산 샘플을 스크리닝하는 방법에 관한 것으로, 상기 방법은
(i) 상기 핵산 샘플로부터 유래한 개별 주형 DNA 분자의 라이브러리를 고체 지지체 상에서 공간적으로 단리하는 단계로서, 표적 뉴클레오타이드 서열이 상기 주형의 5' 및/또는 3' 말단에서 연속 뉴클레오타이드 영역에 국재화되도록 주형 DNA 분자가 생성되는 것인 단계;
(ii) 상기 공간적으로 단리된 주형 DNA 분자를 증폭하여 앰플리콘의 클러스터를 생성하는 단계로서, 각각의 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되는 것인 단계;
(iii) 하나 이상의 클러스터의 하나 이상의 앰플리콘을 양방향으로 시퀀싱하는 단계로서, 상기 앰플리콘의 정방향 및 역방향 서열 리드가 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는 것인 단계;
(iv) 단계 (iii)에 따라 시퀀싱된 하나 이상의 클러스터에 대해 정방향 및 역방향 서열 리드를 식별하고,
(a) 정방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 역방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 정방향 리드의 말단 5' 연속 핵산 서열의 부분, 및/또는
(b) 역방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 정방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 역방향 리드의 말단 5' 연속 핵산 서열의 부분
을 포함하는 핵산 서열 결과를 생성하는 단계로서,
(1) 상기 부분이, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75% 이상이고, (2) 역방향 리드 연속 서열의 상기 부분이, 분석되는 모든 역방향 리드에 대해 동일하고, (3) 정방향 리드 연속 서열의 상기 부분이, 분석되는 모든 정방향 리드에 대해 동일하나, 역방향 리드 부분과 동일할 수 있거나 상이할 수 있고, (4) 링커 서열이 (a)의 모든 핵산 서열 결과에 대해 동일하고 링커 서열이 (b)의 모든 핵산 서열 결과에 대해 동일한 것인 단계; 및
(v) 서열 결과를 분석하는 단계
를 포함한다.
한 실시양태에서, 상기 비-연속 서열 리드는 정방향 및 역방향 리드를 페어링하기 위해 기준 서열과 비교되어 분석되지 않는다.
"핵산" 또는 "뉴클레오타이드" 또는 "염기" 또는 "핵염기"의 언급은 데옥시리보핵산 또는 뉴클레오타이드 및 리보핵산 또는 뉴클레오타이드 또는 퓨린 또는 피리미딘 염기, 또는 이들의 유도체 또는 유사체 둘 다의 언급으로서 이해되어야 한다. 이와 관련하여, 이것은 특히 DNA(cDNA 또는 게놈 DNA), RNA 또는 mRNA를 포함하는 리보뉴클레오타이드 및/또는 데옥시리보뉴클레오타이드의 포스페이트 에스테르를 포괄하는 것으로 이해되어야 한다. 본 발명의 핵산 분자는 천연 생성(예컨대, 생물학적 샘플로부터 유래함), 재조합 제조 또는 합성 제조를 비롯한 임의의 기원의 핵산 분자일 수 있다. 뉴클레오타이드는 이노신과 같은 비-표준 뉴클레오타이드일 수도 있다.
"유도체"의 언급은 천연, 합성 또는 재조합 공급원으로부터의 상기 핵산 분자의 단편, 일부, 부분, 상동체 및 모방체의 언급을 포함하는 것으로 이해되어야 한다. "기능적 유도체"는 퓨린 또는 피리미딘 염기, 뉴클레오타이드 또는 핵산 분자의 기능적 활성 중 어느 하나 이상을 나타내는 유도체로서 이해되어야 한다. 상기 뉴클레오타이드 또는 핵산 서열의 유도체는 다른 단백질성 또는 비-단백질성 분자에 융합된 뉴클레오타이드 또는 핵산 분자의 특정 영역을 가진 단편을 포함한다. 뉴클레오타이드 또는 핵산 분자의 바이오티닐화는 본원에서 정의된 "기능적 유도체"의 예이다. 핵산 분자의 유도체는 단일 또는 다수의 뉴클레오타이드 치환, 결실 및/또는 추가로부터 유도될 수 있다. 용어 "기능적 유도체"는 또한 뉴클레오타이드 또는 핵산 서열의 기능적 활성 중 어느 하나 이상을 나타내는 뉴클레오타이드 또는 핵산, 예를 들어, 천연 생성물 스크리닝 후 수득된 생성물을 포괄하는 것으로 이해되어야 한다.
본원에서 고려되는 "유사체"는 뉴클레오타이드 또는 핵산 분자의 변형, 예컨대, 그의 화학적 구성 또는 전체 입체구조의 변형 또는 임의의 다른 유형의 비-천연 생성 뉴클레오타이드를 포함하나, 이들로 제한되지 않는다. 예를 들어, 이것은 뉴클레오타이드 또는 핵산 분자가 예컨대, 골격 형성 또는 상보적 염기쌍 하이브리드화 수준에서 다른 뉴클레오타이드 또는 핵산 분자와 상호작용하는 방식의 변형을 포함한다. 본 발명을 어느 한 이론 또는 작용 방식으로 제한하지 않고, 핵산은 3개의 부분, 즉 포스페이트 골격, 오탄당, 리보스 또는 데옥시리보스 및 4개의 염기 중 1개의 염기로 구성된다. 유사체는 변경된 이들 중 임의의 하나를 가질 수 있다. 전형적으로, 유사체 염기는 무엇보다도 상이한 염기 페어링 및 염기 적층 성질을 부여한다. 예는 모든 4개의 정규 염기와 페어링할 수 있는 범용 염기, 및 쇄의 성질에 영향을 미치는 포스페이트-당 골격 유사체, 예컨대, PNA를 포함한다. 핵산 유사체는 제노(xeno) 핵산으로서도 지칭된다. 비-천연 생성 핵산은 펩타이드 핵산(PNA), 모르폴리노 및 잠금 핵산(LNA)뿐만 아니라, 글리콜 핵산(GNA) 및 트레오스 핵산(TNA)도 포함한다. 이들 각각은 분자의 골격의 변경에 의해 천연 생성 DNA 또는 RNA와 구별된다.
관심 있는 핵산 샘플 및/또는 표적 뉴클레오타이드 서열은 DNA 또는 RNA, 또는 이의 유도체 또는 유사체일 수 있다. 상기 핵산 샘플은 게놈 DNA, mRNA 전사체로부터 생성된 cDNA, 핵산 증폭에 의해 생성된 DNA, 합성 DNA 또는 재조합적으로 생성된 DNA의 형태를 취할 수 있다. 대상 핵산 샘플이 RNA인 경우, 예컨대, RT-PCR을 이용하여 먼저 RNA를 DNA로 역전사할 필요가 있을 것임을 인식할 것이다. 대상 RNA는 mRNA, 1차 RNA 전사체, 리보좀 RNA, 전달 RNA, 마이크로 RNA 등과 같은 임의의 형태의 RNA일 수 있다. 바람직하게는, 상기 핵산 샘플 및 상기 표적 뉴클레오타이드 서열은 DNA이다.
이 실시양태에 따라, 하나 이상의 표적 DNA 서열의 발현에 대해 관심 있는 DNA 샘플을 스크리닝하는 방법을 제공하는 것으로, 상기 방법은
(i) 상기 DNA 샘플로부터 유래한 개별 주형 DNA 분자의 라이브러리를 고체 지지체 상에서 공간적으로 단리하는 단계로서, 표적 DNA 서열이 상기 주형의 5' 및/또는 3' 말단에서 연속 뉴클레오타이드 영역에 국재화되도록 주형 DNA 분자가 생성되는 것인 단계;
(ii) 상기 공간적으로 단리된 주형 DNA 분자를 증폭하여 앰플리콘의 클러스터를 생성하는 단계로서, 각각의 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되는 것인 단계;
(iii) 하나 이상의 클러스터의 하나 이상의 앰플리콘을 양방향으로 시퀀싱하는 단계로서, 상기 앰플리콘의 정방향 및 역방향 서열 리드가 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는 것인 단계;
(iv) 단계 (iii)에 따라 시퀀싱된 하나 이상의 클러스터에 대해 정방향 및 역방향 서열 리드를 식별하고,
(a) 정방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 역방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 정방향 리드의 말단 5' 연속 핵산 서열의 부분, 및/또는
(b) 역방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 정방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 역방향 리드의 말단 5' 연속 핵산 서열의 부분
을 포함하는 핵산 서열 결과를 생성하는 단계로서,
(1) 상기 부분이, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75% 이상이고, (2) 역방향 리드 연속 서열의 상기 부분이, 분석되는 모든 역방향 리드에 대해 동일하고, (3) 정방향 리드 연속 서열의 상기 부분이, 분석되는 모든 정방향 리드에 대해 동일하나, 역방향 리드 부분과 동일할 수 있거나 상이할 수 있고, (4) 링커 서열이 (a)의 모든 핵산 서열 결과에 대해 동일하고 링커 서열이 (b)의 모든 핵산 서열 결과에 대해 동일한 것인 단계; 및
(v) 서열 결과를 분석하는 단계
를 포함한다.
한 실시양태에서, 단계 (i)의 상기 연속 뉴클레오타이드 영역은 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 약 80%에 상응한다.
"표적 뉴클레오타이드 서열"의 언급은 분석하고자 하는 임의의 DNA 또는 RNA 서열의 언급으로서 이해되어야 한다. 이것은 유전자, 유전자의 부분, 예컨대, 유전자 분절 또는 유전자 영역, 또는 유전자간 영역일 수 있다. 이를 위해, "유전자"의 언급은 전체 길이 단백질 또는 단백질 단편일 수 있는 단백질 생성물을 코딩하는 DNA 분자의 언급으로서 이해되어야 한다. 염색체 DNA의 관점에서, 유전자는 인트론 및 엑손 영역 둘 다를 포함할 것이다. 그러나, 표적 뉴클레오타이드 서열이 벡터 DNA 또는 역전사된 mRNA인 경우처럼 핵산 샘플이 cDNA인 경우, 인트론 영역이 존재하지 않을 수 있다. 그럼에도 불구하고 이러한 DNA는 5' 또는 3' 비번역 영역을 포함할 수 있다. 따라서, 본원에서 "유전자"의 언급은 예를 들어, 게놈 DNA 및 cDNA를 포함하는, 단백질 또는 단백질 단편을 코딩하는 임의의 형태의 DNA를 포괄하는 것으로 이해되어야 한다. 대상 표적 뉴클레오타이드 서열은 임의의 특정 유전자와 연관되어 있는 것으로 알려져 있지 않은 게놈 DNA의 비-코딩 부분(예컨대, 통상적으로 "정크" DNA 영역으로서 지칭됨)에 상응할 수도 있다. 이것은 게놈 DNA의 두 영역들 사이 또는 게놈 DNA 영역과 외래 DNA 영역, 예컨대, 바이러스 또는 도입된 서열 사이의 재조합에 의해 생성된 게놈 DNA의 임의의 영역에 상응할 수 있다. 이것은 또한 SNP, 염색체 전위, 삽입, 결실 또는 중단점, 예컨대, 염색체 중단점을 포함할 수 있는 영역에 상응할 수도 있다. 표적 서열은 부분적으로 또는 전체적으로 합성 또는 재조합에 의해 생성된 핵산 분자의 영역에 상응할 수도 있다. 대상 표적 서열은 중합효소 연쇄 반응(PCR)을 포함하는 임의의 핵산 증폭 방법에 의해 미리 증폭된(즉, 증폭 방법에 의해 생성된) DNA 영역일 수도 있다.
본 발명의 방법은 상기 하나 이상의 표적 뉴클레오타이드 서열의 "발현"에 대해 스크리닝하도록 디자인된다. "발현"은 상기 서열이 시험 중인 핵산 샘플에 존재함을 의미한다. 대상 서열은 전사 및/또는 번역을 겪는 핵산 서열에 상응할 수 있거나 상응하지 않을 수 있음을 이해해야 한다.
본 발명의 방법이 "하나 이상의" 관심 있는 표적 뉴클레오타이드 서열에 대해 스크리닝하도록 디자인될 수 있다는 것은 하나 또는 하나 초과의 상이한 표적 서열에 대해 스크리닝할 수 있음을 의미하는 것으로 이해되어야 한다. 상이한 표적 서열의 예는 SNP, 점 돌연변이, 과돌연변이, DNA 삽입, DNA 결실, 염색체 중단점, 특정 유전자 분절, 특정 영역, 유전자의 부분 또는 구획, 유전자간 영역 등을 포함한다. 이 표적 서열들 중 하나의 서열에 대해 스크리닝할 수 있거나, 단일 분석의 경우 이 표적 서열들 중 하나 초과의 서열에 대해 스크리닝할 수 있다. 이 표적 서열들은 샘플의 핵산에서 별개의 상이한 위치에 위치할 수 있거나 핵산 가닥을 따라 순차적으로 위치할 수 있다. 돌연변이가 유전자 분절 내에서 발견되고 돌연변이 및 유전자 분절 그 자체 둘 다가 관심 있는 표적 서열인 경우처럼, 이들은 핵산 가닥을 따라 동일한 위치에 존재할 수도 있음을 이해해야 한다. 한 실시양태에서, 상기 관심 있는 핵산 샘플은 B 및/또는 T 세포 DNA를 포함하고, 상기 하나 이상의 표적 뉴클레오타이드 서열은 하나 이상의 재배열된 V, D 또는 J 유전자 분절이다.
이 실시양태에 따라, 하나 이상의 재배열된 V, D 또는 J 유전자 분절의 발현에 대해 B 및/또는 T 세포 DNA를 포함하는 DNA 샘플을 스크리닝하는 방법을 제공하는 것으로, 상기 방법은
(i) 상기 DNA 샘플로부터 유래한 개별 주형 DNA 분자의 라이브러리를 고체 지지체 상에서 공간적으로 단리하는 단계로서, 상기 재배열된 V, D 또는 J 유전자 분절이 상기 주형의 5' 및/또는 3' 말단에서 연속 뉴클레오타이드 영역에 국재화되도록 주형 DNA 분자가 생성되는 것인 단계;
(ii) 상기 공간적으로 단리된 주형 DNA 분자를 증폭하여 앰플리콘의 클러스터를 생성하는 단계로서, 각각의 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되는 것인 단계;
(iii) 하나 이상의 클러스터의 하나 이상의 앰플리콘을 양방향으로 시퀀싱하는 단계로서, 상기 앰플리콘의 정방향 및 역방향 서열 리드가 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는 것인 단계;
(iv) 단계 (iii)에 따라 시퀀싱된 하나 이상의 클러스터에 대해 정방향 및 역방향 서열 리드를 식별하고,
(a) 정방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 역방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 정방향 리드의 말단 5' 연속 핵산 서열의 부분, 및/또는
(b) 역방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 정방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 역방향 리드의 말단 5' 연속 핵산 서열의 부분
을 포함하는 핵산 서열 결과를 생성하는 단계로서,
(1) 상기 부분이, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75% 이상이고, (2) 역방향 리드 연속 서열의 상기 부분이, 분석되는 모든 역방향 리드에 대해 동일하고, (3) 정방향 리드 연속 서열의 상기 부분이, 분석되는 모든 정방향 리드에 대해 동일하나, 역방향 리드 부분과 동일할 수 있거나 상이할 수 있고, (4) 링커 서열이 (a)의 모든 핵산 서열 결과에 대해 동일하고 링커 서열이 (b)의 모든 핵산 서열 결과에 대해 동일한 것인 단계; 및
(v) 서열 결과를 분석하는 단계
를 포함한다.
"B 및/또는 T 세포 DNA"의 언급은 면역글로불린 또는 TCR 가변 영역 유전자 분절의 적어도 하나의 생식세포계통 세트를 재배열한 임의의 림프계 세포로부터 유래한 DNA의 언급임을 이해해야 한다. 재배열될 수 있는 면역글로불린 가변 영역 코딩 게놈 DNA는 중쇄 또는 κ 또는 λ 경쇄와 관련된 가변 영역을 포함하는 반면, 재배열될 수 있는 TCR 쇄 가변 영역 코딩 게놈 DNA는 α, β, γ 및 δ 쇄를 포함한다. 이와 관련하여, 세포가 적어도 하나의 면역글로불린 또는 TCR 유전자 분절 영역의 가변 영역 코딩 DNA를 재배열하였다면, 세포는 "림프계 세포"의 범위 내에 속하는 것으로 이해되어야 한다. 세포는 재배열된 DNA를 전사하고 번역할 필요가 없다. 이와 관련하여, "림프계 세포"는 TCR 또는 면역글로불린 가변 영역 유전자 분절을 재배열하였으나 아직 재배열된 쇄를 발현하지 않거나(예컨대, TCR- 흉선세포) 그의 TCR 또는 면역글로불린 가변 영역 유전자 분절의 두 쇄를 아직 재배열하지 않은 미성숙 T 및 B 세포를 그의 범위 내에 포함하나, 결코 이들로 제한되지 않는다. 이 정의는 적어도 일부 TCR 또는 면역글로불린 가변 영역 재배열을 겪었으나, 성숙 T 세포 또는 B 세포와 전통적으로 관련된 모든 표현형적 또는 기능적 특징을 나타내지 않을 수 있는 림프계 유사 세포로 더 확장된다.
한 실시양태에서 대상 재배열은 완전한 재배열, 예컨대, 적어도 하나의 가변 영역 유전자 영역의 완전한 재배열이지만, 또 다른 실시양태에서 대상 재배열은 부분적 재배열이라는 것도 이해해야 한다. 예를 들어, DJ 재조합 사건만을 겪은 B 세포는 부분적 재배열만을 겪은 세포이다. DJ 재조합 분절이 V 분절과 더 재조합될 때까지 완전한 재배열이 달성되지 않을 것이다. 따라서, 본 발명의 방법은 TCR 또는 면역글로불린 쇄의 부분적 또는 완전한 가변 영역 재배열을 스크리닝하도록 디자인될 수 있다.
본 발명을 어느 한 이론 또는 작용 방식으로 제한하지 않고, 적응 면역 시스템을 가진 유기체에서의 V(D)J 재조합은 면역 세포가 빠르게 다양화하여 새로운 병원체를 인식하고 적응하도록 돕는 일종의 부위 특이적 유전 재조합의 예이다. 각각의 림프계 세포는 대략 1016개의 상이한 가변 영역 구조물이라는 총 항원 다양성을 생성하기 위해 재배열된 특정 유전자 분절에 따라 그의 생식세포계통 가변 영역 유전자 분절(V 및 J, D 및 J, 또는 V, D 및 J 분절)의 체세포 재조합을 겪는다. T 세포 또는 B 세포와 같은 임의의 주어진 림프계 세포에서, TCR 또는 면역글로불린 분자를 포함하는 2개 이상의 쇄, 특히, TCR의 α, β, γ 또는 δ 쇄 및/또는 면역글로불린 분자의 중쇄 및 경쇄의 재배열로 인해 적어도 2개의 상이한 가변 영역 유전자 분절 재배열이 일어날 가능성이 높다. 임의의 주어진 면역글로불린 또는 TCR 유전자의 VJ, DJ 또는 VDJ 분절의 재배열 이외에, 뉴클레오타이드는 분절 사이의 연접부에서 무작위로 제거되고/되거나 삽입된다. 이것은 엄청난 다양성의 생성으로 이어진다.
이 유전자 분절들에 대한 유전자좌는 생식세포계통에서 넓게 분리되어 있으나, 림프계 발달 동안 재조합은 V, (D) 및 J 유전자의 병치를 야기하고, 이때 이 유전자들 사이의 연접부는 뉴클레오타이드의 삽입 및 결실의 작은 영역을 특징으로 한다. 이 과정은 각각의 정상 림프구가 고유 V(D)J 재배열을 보유하도록 무작위로 일어난다. 급성 림프모구성 백혈병, 만성 림프구성 백혈병, 림프종 또는 골수종과 같은 림프계 암은 단일 정상 세포의 신생물성 변화의 결과로서 발생하기 때문에, 모든 암 세포들은 적어도 처음에는 파운더 세포에 원래 존재하는 연접 V(D)J 재배열을 가질 것이다. 서브클론은 신생물성 집단의 확장 동안 발생할 수 있으며 추가 V(D)J 재배열이 이들에서 일어날 수 있다.
"유전자 분절"의 언급은 면역글로불린 및 T 세포 수용체 유전자의 V, D 및 J 영역의 언급으로서 이해되어야 한다. V, D 및 J 유전자 분절은 패밀리로 클러스터링된다. 예를 들어, κ 면역글로불린 경쇄의 경우 52개의 상이한 기능적 V 유전자 분절 및 5개의 J 유전자 분절이 있다. 면역글로불린 중쇄의 경우, 55개의 기능적 V 유전자 분절, 23개의 기능적 D 유전자 분절 및 6개의 J 유전자 분절이 있다. 면역글로불린 및 T 세포 수용체 V, D 및 J 유전자 분절 패밀리 전체에 걸쳐, 다수의 개별 유전자 분절들이 있으므로, 영향을 받을 수 있는 V(D)J 재배열의 고유 조합의 관점에서 엄청난 다양성이 가능해진다. 명료성을 위해, 재배열된 면역글로불린 또는 T 세포 수용체 [V(D)J] 가변 핵산 영역은 본원에서 재배열된 "유전자"로서 지칭될 것이고, 개별 V, D 또는 J 핵산 영역은 "유전자 분절"로서 지칭될 것이다. 따라서, 용어 "유전자 분절"은 오로지 유전자 분절의 언급이 아니다. 오히려, Ig 및 TCR 유전자 재배열과 관련하여, 이것은 이 유전자 분절들이 패밀리로 클러스터링되어 있는 유전자 그 자체의 언급이다. "재배열된" 면역글로불린 또는 T 세포 수용체 가변 영역 유전자는 본원에서 하나의 V 분절, 하나의 J 분절 및 하나의 D 분절(D 분절이 관심 있는 특정 재배열된 가변 유전자 내로 혼입되는 경우) 중 둘 이상이 함께 스플라이싱되어 단일 재배열된 "유전자"를 형성하는 유전자로서 이해되어야 한다. 실제로, 이 재배열된 "유전자"는 사실상 함께 스플라이싱된 하나의 V 유전자 분절, 하나의 J 유전자 분절 및 하나의 D 유전자 분절을 포함하는 게놈 DNA의 스트레치이다. 따라서, 이것은 실제로 함께 스플라이싱된 2개 또는 3개의 상이한 V, D 또는 J 유전자(본원에서 유전자 분절로서 지칭됨)로 구성되기 때문에 종종 "유전자 영역"으로서도 지칭된다. 따라서, 재배열된 면역글로불린 또는 T 세포 수용체 유전자의 개별 "유전자 분절"은 개별 V, D 및 J 유전자로서 정의된다. 이 유전자들은 IMGT 데이터베이스에 상세히 논의되어 있다. 용어 "유전자"는 재배열된 면역글로불린 또는 T 세포 수용체 가변 유전자를 지칭하기 위해 본원에서 사용될 것이다. 용어 "유전자 분절"은 V, D 및 J 분절을 지칭하기 위해 본원에서 사용될 것이다. 그러나, 면역글로불린 및 T 세포 수용체 재배열의 관점에서 용어 "유전자"/"유전자 분절"의 사용에 있어서 상당한 불일치가 있음을 유의해야 한다. 예를 들어, IMGT는 개별 V, D 및 J "유전자"를 지칭하는 반면, 일부 과학 간행물은 이들을 "유전자 분절"로서 지칭한다. 일부 자료는 재배열된 가변 면역글로불린 또는 T 세포 수용체를 "유전자 영역"으로서 지칭하는 반면, 다른 자료는 이를 "유전자"로서 지칭한다. 본 명세서에서 사용되는 명명법은 앞서 정의된 바와 같다.
여전히 본 발명을 어느 한 이론 또는 작용 방식으로 제한하지 않고, 유전 재조합 사건의 성질은 재조합된 유전자들 또는 유전자 분절들(본원에서 정의된 바와 같음) 사이의 연접부가 "N 영역"을 형성하는 무작위 뉴클레오타이드의 결실 및 삽입을 특징으로 할 수 있도록 하는 것이다. 이 N 영역도 유일무이하므로 때때로 그 자체가 표적 서열 분석과 관련하여 유용한 표적이다. 따라서, 일반적으로 V(D)J 재배열은 조합 다양성을 제공하는 반면, N 뉴클레오타이드 또는 팔린드로믹(P) 뉴클레오타이드의 추가는 연접 다양성을 제공하는 것으로 이해된다.
또한, V(D)J 재배열과 관련하여, 번역되는 단백질 분자의 2차 구조는 이 2차 구조 특징을 코딩하는 DNA 서열 영역이 V(D)J 재배열 내에 있음을 고려하더라도 그 자체가 종종 분석의 대상이 되는 고유 특징을 그 자체가 포함한다는 것을 이해해야 한다. 예를 들어, IgH(면역글로불린 중쇄), 또는 TCRβ 또는 TCRδ 쇄의 번역된 가변 영역은 통상적으로 상보성 결정 영역(CDR) 1, 2 및 3으로서 지칭되는 3개의 루프형 초가변 영역의 형태를 취한다. 이 CDR 영역들은 4개의 프레임워크 영역(FR) 1, 2, 3 및 4에 의해 플랭킹된다. 본 발명을 어느 한 이론 또는 작용 방식으로 제한하지 않고, V 유전자 분절은 CDR1, CDR2, 리더 서열, FR1, FR2 및 FR3을 코딩하는 것으로 이해된다. CDR3 영역은 V 유전자 분절의 일부, D 유전자 분절의 전부 및 J 유전자 분절의 일부에 의해 코딩된다. J 유전자 분절의 나머지 부분은 일반적으로 FR4를 코딩한다.
따라서, 한 실시양태에서, V(D)J 재배열과 관련하여, 상기 표적 뉴클레오타이드 서열은 IgH, TCRβ 또는 TCRδ의 DJ 또는 VDJ 재배열이다. 또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 Igκ, Igλ, TCRα 또는 TCRγ의 VJ 재배열이다. 또 다른 실시양태에서, 상기 재배열은 카파 결실 요소 재배열이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 V 유전자 분절 영역, 예컨대, 과돌연변이가 일어나기 쉬운 영역 및/또는 CDR3의 부분을 코딩하는 J 유전자 분절 영역이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 V 리더 서열의 전부 또는 일부를 코딩하는 유전자 분절 영역, 체세포 과돌연변이에 취약한 V 영역, IgH FR1, IgH FR2 또는 IgH FR3이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 BCL1/JH 또는 BCL2/JH t(14:18) 전위이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 FLT3 또는 TP53 유전자와 관련된 내부 직렬(tandem) 중복 또는 다른 돌연변이이다.
표적 뉴클레오타이드 서열의 성질과 관련하여, 본 발명의 방법은 특정 뉴클레오타이드 서열, 예컨대, 특정 V, D 또는 J 유전자 분절 서열의 존재에 대한 스크리닝, 또는 표적 뉴클레오타이드 서열 영역의 DNA 분자에 의해 발현되는 서열의 다양성을 확인하기 위한 이러한 영역의 스크리닝을 용이하게 한다. 이 예에서, 표적 뉴클레오타이드 서열은 특정 V, D 또는 J 유전자 분절보다는 오히려 V, D 또는 J 유전자 분절 패밀리일 것이므로, 관심 있는 DNA 샘플에 의해 발현되는, 그 패밀리 내의 유전자 분절의 성질 및 다양성을 확인할 수 있게 한다.
본 발명의 방법은 개별 주형 서열의 클러스터 증폭에 이은 양방향 시퀀싱의 이용에 기반한 전통적인 고체상 차세대 시퀀싱 기술의 상당한 개선을 제공한다. 본 발명을 어느 한 이론 또는 작용 방식으로 제한하지 않고, 이 유형의 기술의 한 실시양태에서, 분석용 DNA 주형 라이브러리의 제조 후, 어댑터 서열을 통해 이 주형을 고체 지지체에 고정시킨다. 일단 부착되면, 클러스터 생성이 시작될 수 있다. 목적은 주형 DNA의 수백 개의 동일한 가닥을 생성하는 것이다. 일부는 정방향 가닥에 상응할 것이고 다른 일부는 상보적 역방향 가닥에 상응할 것이다. 그 다음, 가교 증폭을 통해 클러스터를 생성한다. 중합효소는 DNA 가닥을 따라 이동하여, 이의 상보적 가닥을 생성한다. 원래 가닥은 씻겨 나가고, 역방향 가닥만 남는다. 역방향 가닥의 상단에는 또 다른 어댑터 서열이 있다. DNA 가닥은 굽어지고 이 어댑터 서열에 상보적인 고정된 올리고뉴클레오타이드에 부착된다. 그 후, 중합효소는 역방향 가닥에 부착되고, (원래 가닥과 동일한) 이의 상보적 가닥이 생성된다. 이제 이중 가닥 DNA는 각각의 가닥이 앰플리콘의 각각의 말단에 존재하는 어댑터에 상보적인 다른 비점유 고정된 올리고뉴클레오타이드 서열에 개별적으로 부착될 수 있도록 변성된다. 이 가교 증폭은 고체 지지체(종종 "유동 셀"로서 지칭됨)에 걸쳐 개별 주형에 상응하는 수천 개의 클러스터를 동시에 생성하도록 진행된다. 따라서, 증폭은 각각의 클러스터가 단일 출발 주형 DNA로부터 생성되기 때문에 개별 클러스터와 관련하여 클론성을 가진다.
클론 증폭 후, 역방향 가닥은 유동 셀로부터 씻겨 나가고 정방향 가닥만이 남는다. 그 다음, 가역적으로 종결된 형광 표지된 올리고뉴클레오타이드를 사용한 합성에 의한 시퀀싱이 시작된다. 프라이머는 정방향 가닥에 부착되고, 중합효소는 형광 태그가 부착된 뉴클레오타이드를 DNA 가닥에 추가한다. 라운드당 1개의 염기만이 추가된다. 모든 뉴클레오타이드에 존재하는 가역적 터미네이터는 한 라운드에서 다회 추가를 방지한다. 4개의 염기 각각은 고유 방출을 생성하고, 각각의 라운드 후, 이용된 기기는 방출된 형광을 기반으로 어떤 염기가 추가되었는지를 기록한다. 일단 정방향 DNA 가닥이 판독되고 서열 리드가 씻겨 나가면, 역방향 가닥은 가교 증폭의 또 다른 라운드를 통해 생성된다. 그 다음, 정방향 가닥은 씻겨 나가고, 합성에 의한 시퀀싱 과정은 역방향 가닥에 대해 반복된다. 이 방식으로, 양방향 시퀀싱이 달성된다.
본 발명은 선택된 양방향 서열 리드 길이보다 더 긴 DNA 주형의 비-중첩 양방향 서열 리드를 생성하고 정확하게 페어링하고 어셈블링하는 수단을 디자인함으로써 이 방법을 개선한다. 이것은 부분적으로, 핵산 샘플로부터 유래한 주형 DNA 분자의 라이브러리의 고유 디자인에 의해 달성된다. 이와 관련하여 "주형" DNA 분자의 언급은 고체 지지체에 고정된("공간적으로 단리된") 후 증폭되어 클론 앰플리콘의 클러스터를 생성하는 DNA 분자의 언급으로서 이해되어야 한다. 즉, 이 분자는 표적 핵산 영역 및 이후에 더 상세히 기재된 임의의 추가 핵산 또는 비-핵산 영역(예컨대, 핵산 어댑터 서열, 시퀀싱 프라이머 하이브리드화 영역, 인덱스 영역, 고유 분자 식별자 등) 둘 다를 포함한다. 이와 관련하여, 클러스터 증폭 및 시퀀싱을 거치는 주형 DNA 분자는 단일 가닥 분자이지만, 고체 지지체에 고정될 때 DNA 주형은 단일 가닥 형태일 수 있거나 분자 복합체, 예컨대, 이중 가닥 DNA 분자 또는 비-핵산 성분과의 복합체의 일부를 형성할 수 있음을 이해해야 한다. 예를 들어, 고정하기 전에 주형 집단을 농후화하는 것이 바람직할 수 있고, 이것은 비드 또는 화학적 화합물(예를 들어, 바이오틴)을 관심 있는 특정 주형 DNA 분자에 커플링하여, 고정 전에 그의 단리 및 이에 의한 농후화를 가능하게 함으로써 달성될 수 있다. 그러나, 이중 가닥 또는 다른 분자 복합체가 고정되는 경우, 숙련된 자는 고정된 주형 DNA만이 증폭되도록 클러스터 증폭 전에 복합체가 단일 가닥 상태로 만들어져야 할 것임을 인식할 것이다. 이와 관련하여, 주형 DNA가 증폭을 방해하지 않을 비-핵산 분자, 예컨대, 바이오틴에 커플링되는 경우, 이 비-핵산 분자는 반드시 절단될 필요가 없을 것으로 예상된다. 따라서, "주형" DNA 분자의 언급은 실제로 증폭을 겪을 DNA 분자의 언급으로서 의도된다. 주형 DNA의 "라이브러리"는 초기에 고체 지지체에 적용되고 고정된 (단일 가닥, 이중 가닥 또는 일부 다른 복합체 형태)의 주형 DNA 분자의 집단을 의미한다. 주형 DNA는 전술된 바와 같이 천연 또는 비-천연 생성 뉴클레오타이드로 구성될 수 있음을 이해해야 한다.
고체 지지체에 적용된 주형 DNA 분자는 관심 있는 핵산 샘플로부터 "유래한"다. "로부터 유래한"은 샘플의 DNA가 고체 지지체에 적용되기 전에 단순히 단편화되는 경우에 발생하는 것처럼 주형 DNA가 샘플로부터 직접 단리되거나, 관심 있는 DNA 샘플로부터 생성된 증폭 생성물의 형태를 취함을 의미한다. 이와 관련하여, 임의의 적합한 방법을 이용하여 주형 DNA 라이브러리를 제조할 수 있다. 라이브러리는 예컨대, 엔도뉴클레아제, 특히 제한 효소, 엑소뉴클레아제, 엑소-엔도뉴클레아제 또는 임의의 다른 부위 지정 DNA 절단 수단의 사용에 의한 관심 있는 핵산 샘플의 단편화에 의해 생성될 수 있다. 표적 뉴클레오타이드 서열의 성질과 위치에 따라, 이 방법은 라이브러리를 생성하기에 충분할 수 있다. 대안적으로, 표적 뉴클레오타이드 서열의 농후화를 용이하게 하기 위해, 관심 있는 뉴클레오타이드 서열을 특이적으로 표적화하고 증폭할 프라이머, 예를 들어, 특정 면역글로불린 또는 TCR 유전자 분절 재배열을 증폭하도록 유도된 프라이머, SNP를 발생시켰을 수 있는 유전자 영역을 증폭하는 프라이머, 또는 특정 삽입결실, 중단점, 또는 다른 염색체 전위 또는 돌연변이를 가로질러 증폭하는 프라이머를 사용하여 관심 있는 샘플을 증폭하도록 선택할 수 있다. 주형 DNA 분자는 임의의 적합한 길이, 예를 들어, 250개 내지 1000개, 250개 내지 900개, 300개 내지 700개 또는 300개 내지 600개 뉴클레오타이드 길이를 가질 수 있다. 당분야에서 숙련된 자는 주형 DNA가 고체상 증폭 및 시퀀싱을 용이하게 할 어댑터 영역 등도 포함할 수 있기 때문에, 표적 핵산 영역에 상응하는 주형 DNA 분자의 부분이 일반적으로 주형 DNA의 길이보다 더 작을 것임을 인식할 것이다. 이와 관련하여, 이들 추가 비-표적 영역은 주형 DNA 분자의 각각의 말단에서 15개 내지 75개의 뉴클레오타이드, 바람직하게는 20개 내지 40개, 보다 바람직하게는 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개 또는 30개 뉴클레오타이드 길이를 포함할 수 있다.
주형 DNA 분자가 단편화된 DNA의 형태를 취하는지 아니면 관심 있는 DNA 샘플의 전부 또는 일부로부터 증폭되는지와 관계없이, 상기 주형 DNA는 본 발명과 관련하여 사용되는 고처리량 증폭 및 시퀀싱 플랫폼 기술의 효능을 용이하게 하는 데 필요하거나 바람직한 추가 핵산 또는 비-핵산 성분을 도입하기 위해 더 변형될 수도 있다. 이러한 추가 서열은 예를 들어, 주어진 핵산 주형 서열의 증폭 생성물이 확인될 수 있도록 제한 효소 부위 또는 특정 핵산 태그를 포함한다. 다른 바람직한 서열은 폴드-백(fold-back) DNA 서열(단일 가닥이 될 때 헤어핀 루프 또는 다른 2차 구조를 형성함), 단백질/DNA 상호작용을 유도하는 '제어' DNA 서열, 예를 들어, 핵산 중합효소에 의해 인식되는 프로모터 DNA 서열 또는 DNA 결합 단백질에 의해 인식되는 오퍼레이터 DNA 서열을 포함한다. 또 다른 예에서, 주형 DNA가 고체 지지체에 고정될 수 있게 하기 위해, 주형 DNA를 고체 지지체에 부착시키는 수단이 주형 DNA에 커플링될 필요가 있다. 이와 관련하여, 본원에서 사용된 바와 같이 "주형 DNA를 고체 지지체에 부착시키는 수단"은 화학적으로 변형 가능한 작용기를 포함하는 임의의 화학적 또는 비-화학적 부착 방법을 지칭한다. "부착"은 비가역적 수동 흡착, 또는 분자 사이의 친화성(예를 들어, 바이오티닐화된 분자에 의한 아비딘 코팅 표면 상에의 고정) 또는 하이브리드화(예컨대, 짧은 상보적 핵산 단편들 사이의 하이브리드화)를 통한 부착을 포함하는 공유 또는 비-공유 부착에 의한 고체 지지체 상에의 주형 DNA의 고정을 의미한다. 부착은 DNA 변성 조건 하에 물 또는 수성 완충제를 사용한 세척에 의해 제거될 수 없을 정도로 충분한 강도를 가져야 한다. 본원에서 사용된 바와 같이 "화학적으로 변형 가능한 작용기"는 예를 들어, 포스페이트 기, 카르복실산 또는 알데하이드 모이어티, 티올 또는 아미노 기와 같은 기를 지칭한다. 이를 위해, "고체 지지체"의 언급은 핵산이 공유부착될 수 있는 임의의 고체 표면, 예를 들어, 라텍스 비드, 덱스트란 비드, 폴리스티렌, 폴리프로필렌 표면, 폴리아크릴아미드 겔, 금 표면, 유리 표면 및 실리콘 웨이퍼의 언급으로서 이해되어야 한다. 적합한 고체 지지체를 선택하고 주형 DNA를 부착시키는 수단은 당분야에서 숙련된 자에게 잘 알려져 있을 것이다. 한 실시양태에서, 상기 고체 지지체는 2차원 위치가 확인될 수 있는 고체 매트릭스이다. 또 다른 실시양태에서, 상기 고체 지지체는 유리 표면(예컨대, 유리 슬라이드 또는 유동 셀)이고 주형을 유리 표면에 고정하는 상기 수단은 핵산 앵커이다.
이 실시양태에 따라, 하나 이상의 표적 DNA 서열의 발현에 대해 관심 있는 DNA 샘플을 스크리닝하는 방법을 제공하는 것으로, 상기 방법은
(i) 상기 DNA 샘플로부터 유래한 개별 주형 DNA 분자의 라이브러리를 유리 표면 상에서 공간적으로 단리하는 단계로서, 표적 DNA 서열이 상기 주형의 5' 및/또는 3' 말단에서 연속 뉴클레오타이드 영역에 국재화되도록 주형 DNA 분자가 생성되는 것인 단계;
(ii) 상기 공간적으로 단리된 주형 DNA 분자를 증폭하여 앰플리콘의 클러스터를 생성하는 단계로서, 각각의 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되는 것인 단계;
(iii) 하나 이상의 클러스터의 하나 이상의 앰플리콘을 양방향으로 시퀀싱하는 단계로서, 상기 앰플리콘의 정방향 및 역방향 서열 리드가 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는 것인 단계;
(iv) 단계 (iii)에 따라 시퀀싱된 하나 이상의 클러스터에 대해 정방향 및 역방향 서열 리드를 식별하고,
(a) 정방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 역방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 정방향 리드의 말단 5' 연속 핵산 서열의 부분, 및/또는
(b) 역방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 정방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 역방향 리드의 말단 5' 연속 핵산 서열의 부분
을 포함하는 핵산 서열 결과를 생성하는 단계로서,
(1) 상기 부분이, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75% 이상이고, (2) 역방향 리드 연속 서열의 상기 부분이, 분석되는 모든 역방향 리드에 대해 동일하고, (3) 정방향 리드 연속 서열의 상기 부분이, 분석되는 모든 정방향 리드에 대해 동일하나, 역방향 리드 부분과 동일할 수 있거나 상이할 수 있고, (4) 링커 서열이 (a)의 모든 핵산 서열 결과에 대해 동일하고 링커 서열이 (b)의 모든 핵산 서열 결과에 대해 동일한 것인 단계; 및
(v) 서열 결과를 분석하는 단계
를 포함한다.
바람직하게는, 상기 유리 표면은 유리 슬라이드 또는 유동 셀이다.
또 다른 실시양태에서, 상기 관심 있는 핵산 샘플은 B 및/또는 T 세포 DNA를 포함하고, 상기 하나 이상의 표적 뉴클레오타이드 서열은 하나 이상의 재배열된 V, D 또는 J 유전자 분절이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 IgH, TCRβ 또는 TCRδ의 DJ 또는 VDJ 재배열, 또는 Igκ, Igλ, TCRα 또는 TCRγ의 VJ 재배열이다. 또 다른 실시양태에서, 상기 재배열은 카파 결실 요소 재배열이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 V 유전자 분절 영역, 예컨대, 과돌연변이가 일어나기 쉬운 영역 및/또는 CDR3의 부분을 코딩하는 J 유전자 분절 영역이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 V 리더 서열의 전부 또는 일부를 코딩하는 유전자 분절 영역, 체세포 과돌연변이에 취약한 V 영역, IgH FR1, IgH FR2 또는 IgH FR3이다.
핵산 고정 시스템의 전형적인 예는 주형 DNA 분자의 말단 5' 및/또는 3' 말단에 부착된 짧은 선형 핵산 서열(본원에서 "핵산 어댑터"로서 지칭됨)이다. 앵커는 고체 지지체에 공유결합된 상보적 핵산 서열의 형태를 취한다. 일단 주형 DNA가 고체 지지체에 적용되면, 공유결합된 핵산 앵커에 상보적인 임의의 핵산 어댑터 서열은 두 서열의 하이브리드화를 야기함으로써, 주형 DNA를 고체 지지체에 고정시킬 것이다. 이와 관련하여, 주형 DNA에 부착된 5' 핵산 어댑터 서열은 상응하는 앵커 서열과 동일한 서열을 발현하도록 디자인될 수 있으므로, 5' 어댑터에 대한 상보적 서열만이 앵커에 하이브리드화될 것인 반면, 3' 핵산 어댑터 서열은 그의 상응하는 앵커에 상보적이다. 이 방식으로, 주형 DNA 서열의 전체 길이가 클러스터 증폭을 겪기 때문에, DNA 주형의 3' 말단에 있는 어댑터 서열과 상응하는 앵커의 하이브리드화, DNA 주형으로부터 생성된 앰플리콘의 증폭이 꾸준히 용이해짐으로써, 가교 증폭 및 클러스터 형성이 지속적으로 일어날 수 있게 된다. 숙련된 자에 의해 인식될 바와 같이, 이것은 예를 들어, 일루미나 MiSeq, HiSeq, NovaSeq 및 NextSeq 기기가 작동하는 원리이다.
따라서, 고체 지지체 상에서 개별 주형 DNA 분자를 "공간적으로 단리"하는 것의 언급은 주형의 클러스터 증폭을 가능하게 하기 위해 이 분자를 고체 지지체에 고정시키는 것의 언급으로서 이해되어야 한다. 이를 위해, 고체 지지체에 적용된 분자의 농도는 고체 지지체를 가로지른 이 분자의 분포 및 고정이 각각의 고정된 주형 DNA 분자에 근접한 충분한 비점유 앵커 분자를 남길 정도이어서, 어느 한 클론 클러스터의 앰플리콘이 또 다른 클러스터와 실질적으로 병합되지 않으면서 국재화된 클론 클러스터 증폭이 일어날 수 있음으로써, 공국재화 데이터를 기반으로 높은 정확도로 단일 주형으로부터의 양방향 시퀀싱 데이터를 페어링할 수 있다면, 상기 주형 분자는 "공간적으로" 단리되어 있다. 즉, 단일 클러스터의 앰플리콘은 고체 지지체 상의 분리된 영역 내에서 유지되고 클러스터 밀도는 데이터가 공간적으로 할당될 수 있도록 최적화된다. 이와 관련하여, 사용을 위해 선택된 기기에 대한 최적 클러스터 밀도를 결정하는 것은 당업자의 기술 내에 있다. 당분야에서 숙련된 자에 의해 인식될 바와 같이, 각각의 클러스터는 각각의 초기 주형 DNA 분자에 대한 정방향 가닥 및 상보적 역방향 가닥 둘 다를 포함할 수 있다.
주형 DNA를 고체 지지체에 고정하는 것을 용이하게 하기 위해 주형 DNA 분자 내에 혼입될 수 있는 어댑터 분자에 이외에, 주형 DNA 분자는 임상 또는 연구 환경에서 유용한 추가 특징, 예컨대, 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위, 인덱스 시퀀싱 프라이머 하이브리드화 부위 등을 혼입하도록 변형될 수도 있다. 예를 들어, 앞서 기재된 바와 같이 관심 있는 표적 뉴클레오타이드 서열을 주형의 5' 및 3' 말단에 국재화시키는 것 이외에, 주형이 (a) 표적 뉴클레오타이드 서열 영역에 인접하고 (b) 어댑터와 함께, 주형 DNA 분자의 5' 및 3' 말단 중 하나 또는 둘 다의 말단에 위치하는 추가 핵산 서열 영역을 혼입하도록 변형되도록 주형 DNA 분자를 디자인할 수 있다. 따라서, 이 추가 핵산 서열 영역은 어댑터 서열, 다수의 상이한 핵산 샘플들이 동시에 분석될 수 있게 하기 위한 역다중화(demultiplexing) 인덱스(통상적으로 바코드로서도 지칭됨), 개별 앰플리콘의 식별을 가능하게 하는 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 및 인덱스 시퀀싱 프라이머 하이브리드화 부위 중 하나 이상을 발현한다. 주형 DNA의 5' 말단에서 혼입되도록 선택된 특징의 조합은 3' 말단에서 혼입되는 특징과 동일할 필요는 없다. 예를 들어, 역다중화 인덱스는 주형 DNA 가닥의 한 말단에서만 혼입될 수 있다. 최적 실험 디자인을 용이하게 하기 위해 이러한 추가 특징을 주형 DNA 내로 디자인하는 것은 당업자의 기술 내에 있다. 이러한 추가 핵산 성분을 혼입하는 수단은 잘 알려져 있으며, 주형 DNA 분자의 5' 및/또는 3' 말단에서 이 특징을 포함하는 핵산 단편의 블런트 말단 라이게이션을 포함한다. 대안적으로, 주형 라이브러리가 예를 들어, PCR로 관심 있는 샘플의 DNA를 증폭함으로써 제조되는 경우, 증폭 프라이머가 그의 5' 말단에서 이 추가 특징을 포함하도록 디자인할 수 있다. 이 방식으로, 관심 있는 표적 뉴클레오타이드 서열을 증폭하도록 디자인된 프라이머는 이 추가 핵산 서열을 동시에 혼입함으로써, 단일 증폭 단계에서 라이브러리를 생성하도록 디자인될 수 있다. 또 다른 대안에서, 2-단계 증폭 절차를 이용하여 라이브러리를 제조하도록 선택할 수 있고, 이때 제1 라운드 증폭에서 표적 뉴클레오타이드 서열을 발현하는 주형 DNA 앰플리콘을 생성하도록 유도된 프라이머를 사용한 후, 제1 라운드로부터 생성된 모든 앰플리콘들에 대해 유도된 프라이머(예를 들어, 컨센서스 프라이머)를 사용하는데, 이 프라이머는 앞서 논의된 인덱스 등과 같은 외인성 DNA의 혼입을 달성한다.
한 실시양태에서, 상기 주형 DNA 분자는 말단 5' 및/또는 3' 위치에서 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 및 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 핵산 서열을 추가로 발현한다.
이 실시양태에 따라, 하나 이상의 표적 DNA 서열의 발현에 대해 관심 있는 DNA 샘플을 스크리닝하는 방법을 제공하는 것으로, 상기 방법은
(i) 상기 DNA 샘플로부터 유래한 개별 주형 DNA 분자의 라이브러리를 유리 표면 상에서 공간적으로 단리하는 단계로서, 표적 DNA 서열이 상기 주형의 5' 및/또는 3' 말단에서 연속 뉴클레오타이드 영역에 국재화되도록 주형 DNA 분자가 생성되고, 상기 연속 뉴클레오타이드 영역의 말단이 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 및 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 핵산 서열을 발현하는 것인 단계;
(ii) 상기 공간적으로 단리된 주형 DNA 분자를 증폭하여 앰플리콘의 클러스터를 생성하는 단계로서, 각각의 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되는 것인 단계;
(iii) 하나 이상의 클러스터의 하나 이상의 앰플리콘을 양방향으로 시퀀싱하는 단계로서, 상기 앰플리콘의 정방향 및 역방향 서열 리드가 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는 것인 단계;
(iv) 단계 (iii)에 따라 시퀀싱된 하나 이상의 클러스터에 대해 정방향 및 역방향 서열 리드를 식별하고,
(a) 정방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 역방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 정방향 리드의 말단 5' 연속 핵산 서열의 부분, 및/또는
(b) 역방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 정방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 역방향 리드의 말단 5' 연속 핵산 서열의 부분
을 포함하는 핵산 서열 결과를 생성하는 단계로서,
(1) 상기 부분이, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75% 이상이고, (2) 역방향 리드 연속 서열의 상기 부분이, 분석되는 모든 역방향 리드에 대해 동일하고, (3) 정방향 리드 연속 서열의 상기 부분이, 분석되는 모든 정방향 리드에 대해 동일하나, 역방향 리드 부분과 동일할 수 있거나 상이할 수 있고, (4) 링커 서열이 (a)의 모든 핵산 서열 결과에 대해 동일하고 링커 서열이 (b)의 모든 핵산 서열 결과에 대해 동일한 것인 단계; 및
(v) 서열 결과를 분석하는 단계
를 포함한다.
바람직하게는, 상기 유리 표면은 유리 슬라이드 또는 유동 셀이다.
또 다른 실시양태에서, 상기 관심 있는 핵산 샘플은 B 및/또는 T 세포 DNA를 포함하고 상기 하나 이상의 표적 뉴클레오타이드 서열은 하나 이상의 재배열된 V, D 또는 J 유전자 분절이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 IgH, TCRβ 또는 TCRδ의 DJ 또는 VDJ 재배열, 또는 Igκ, Igλ, TCRα 또는 TCRγ의 VJ 재배열이다. 또 다른 실시양태에서, 상기 재배열은 카파 결실 요소 재배열이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 V 유전자 분절 영역, 예컨대, 과돌연변이가 일어나기 쉬운 영역 및/또는 CDR3의 부분을 코딩하는 J 유전자 분절 영역이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 V 리더 서열의 전부 또는 일부를 코딩하는 유전자 분절 영역, 체세포 과돌연변이에 취약한 V 영역, IgH FR1, IgH FR2 또는 IgH FR3이다.
앞서 상술된 바와 같이, 본 발명은 주형 DNA가 양방향 시퀀싱 화학반응에 의해 판독될 수 있는 것보다 더 긴 경우에도 고처리량 양방향 시퀀싱의 통상적인 이용을 용이하게 하였다. 그러나, 이 개발은 부분적으로, 표적 뉴클레오타이드 서열이 주형의 5' 및/또는 3' 말단에서 연속 뉴클레오타이드 영역 내에 위치하도록 주형 DNA 분자의 디자인에 기반한다. 보다 구체적으로, 표적 서열은 사용을 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 약 80%에 상응하는 5' 및/또는 3' 말단 뉴클레오타이드의 스트레치 내에 위치해야 한다. 이와 관련하여, "양방향 시퀀싱"(통상적으로 페어링된 말단 시퀀싱으로서도 지칭됨)의 언급은 그의 5' 및 3' 말단 둘 다로부터 주형 DNA 분자에 관한 서열 정보를 수득하는 것의 언급으로서 이해되어야 한다. 실제로, 이것은 고체 지지체 상에서의 클러스터 형성에 의해 증폭된 주형 DNA의 시퀀싱에 의해 달성된다. 그의 3' 말단으로부터 표적 가닥("주형 가닥" 또는 "주형 앰플리콘"으로서도 알려짐)에 상보적인 가닥의 시퀀싱은 "역방향 리드"를 생성한다. 이 리드의 서열은 표적 가닥에 상보적이다. 이 상보적 가닥의 3' 말단으로부터 표적 가닥에 대한 상보체의 시퀀싱은 "정방향 리드"를 생성한다. 이 리드의 서열은 주형 가닥에 상응한다. 따라서, 상기 두 리드는 주형 가닥 및 이의 상보적 가닥의 100개 정도(이용되는 시퀀싱 화학반응에 의해 좌우됨)의 최외각 3' 뉴클레오타이드의 역상보체이다.
주형 가닥이 조합된 정방향 및 역방향 양방향 서열 리드 길이보다 더 짧은 경우, 정방향 리드와 역방향 리드는 중첩될 것이고 중첩된 영역에서 상보성을 나타낼 것이다. 이 리드를 기반으로, 주형 가닥과 이의 상보체의 전체 길이 서열을 유추할 수 있다. 그러나, 주형 가닥의 중심 영역이 리드들 중 어느 것에 의해서도 시퀀싱되지 않았을 것이기 때문에 주형 가닥이 양방향 정방향 및 역방향 리드의 조합된 리드 길이보다 더 긴 경우, 이것은 불가능하다. 본원에서 논의된 바와 같이, 본 발명의 방법은 이의 적용이 주형의 길이와 관계없이 임의의 주형 DNA 분자(따라서, 이의 주형 가닥 앰플리콘)로 확장될 수 있도록 고처리량 양방향 시퀀싱을 수행하는 개선된 수단을 제공하였다.
본 발명의 샘플은 표적 뉴클레오타이드 서열을 발현하는 가닥 및 관심 있는 표적 뉴클레오타이드 서열의 반대 가닥 둘 다를 포함한다. DNA는 함께 하이브리드화하여 분자를 형성하는 2개의 상보적 DNA 가닥을 포함한다. 관심 있는 대상인 표적 뉴클레오타이드 서열은 본 발명과 관련하여 "정방향 가닥"(또한 "주형 가닥" 또는 "표적 가닥")으로서 정의되는 반면, 상보적 가닥은 "역방향 가닥"으로서 지칭된다. 숙련된 자는 DNA 이중 나선의 2개의 가닥이 종종 "센스" 가닥, "코딩" 가닥, "양성(+)" 가닥, "상단" 가닥 또는 "상부" 가닥으로서도 지칭된다는 것을 인식할 것이다. 이 후자 세 가지 용어는 관심 있는 DNA 영역이 단백질 발현 생성물을 생성하지 않는 경우 더 일반적으로 사용된다. 상응하는 상보적 가닥은 종종 "안티센스" 가닥, "비-코딩" 가닥, "음성(-)" 가닥, "하단" 가닥 또는 "하부" 가닥으로서 지칭된다. 이것은 염색체 유전자좌와 관련하여 상단/+/상부 가닥에 상보적이고 그의 천연 상태에서 상단 가닥에 하이브리드화하여 특징적인 이중 나선 구조를 형성하는 가닥을 의미하는 것으로 이해되어야 한다. 당분야에서 숙련된 자에 의해 인식될 바와 같이, 이 명명법은 단백질을 코딩하지 않는(따라서 센스 또는 코딩 가닥에서 발견되는 것으로서 정확히 기재되지 않는) 많은 유전자 영역들이 있는 것으로 확인되었기 때문에 점진적으로 덜 정확해졌고, 추가로, 이 유전자들은 숙련된 자가 이 가닥들을 정의하는 방법에 따라 +/상부 가닥 또는 -/하부 가닥에서 발견될 수 있다. 단백질을 코딩하는 유전자조차도 전통적으로 -/바닥/안티센스 가닥으로서 간주되었던 가닥에서 발견되는 것으로 현재 알려져 있다. 따라서, 특정 염색체 위치를 언급하지 않고 이 용어만을 언급함으로써, 또는 주석이 달린 인간 게놈 데이터베이스에서 사용된 특정 +/- 가닥 명명법을 언급함으로써 가닥을 식별하고 정의하는 것은 부정확할 수 있다. 이와 관련하여, 본 발명에 있어서, "정방향 가닥"의 언급은 이것이 두 가닥 중 어느 것이든 관심 있는 뉴클레오타이드 서열을 포함하는 DNA 가닥의 언급인 반면, "역방향 가닥"은 상보적 가닥의 언급이다. 따라서, 표적 가닥은 염색체 이중 나선에서 유전자의 위치에 따라 원래 DNA 생물학적 샘플의 +/-(상단/하단, 상부/하부) 가닥에 상응할 수 있다. "정방향 가닥" 및 "역방향 가닥"은 전술된 "정방향 리드" 및 "역방향 리드"의 정의와 구별되어야 한다.
앞서 상술된 바와 같이, 핵산 샘플로부터 유래한 DNA 주형은 하나 이상의 관심 있는 표적 뉴클레오타이드 서열이 주형의 5' 및/또는 3' 말단에 국재화되도록 디자인된다. 이와 관련하여, DNA 주형의 "말단"의 언급은 주형 가닥을 따라 3' 방향으로 최외각 말단 5' 뉴클레오타이드로부터 연속적으로 이어지고 주형 가닥을 따라 5' 방향으로 최외각 말단 3' 뉴클레오타이드로부터 이어지는 핵산 서열 영역의 언급이다. 보다 구체적으로, 표적 뉴클레오타이드 서열은 사용을 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 또는 역방향 리드 길이의 약 80%에 해당하는 연속 수의 뉴클레오타이드에 대해 각각 3' 및 5' 방향으로 말단 5' 및/또는 3' 뉴클레오타이드로부터 이어지는 연속 뉴클레오타이드 스트레치 내에 위치한다. "정방향 및 역방향 리드 길이"의 언급은 두 리드의 조합된 길이가 아니라 단일 리드의 리드 길이의 언급으로서 이해되어야 한다. 예를 들어, 일루미나 NovaSeq 6000 기기는 정방향 리드에 대해 150개의 뉴클레오타이드 및 역방향 리드에 대해 150개의 뉴클레오타이드의 양방향 시퀀싱 리드 길이에 해당하는 300회의 최대 주기 실행을 가능하게 할 것이고, 이 중 80%는 리드당 105개의 뉴클레오타이드이다. 따라서, "최대 리드 길이"의 언급은 선택된 기기 또는 화학반응이 최적 조건 하에 달성할 수 있는 정방향 리드 또는 역방향 리드에 대한 최대 리드 길이(예를 들어, NovaSeq 6000의 경우 150)의 언급이고, 숙련된 자는 이 정보를 널리 통상적으로 이용할 수 있다. 이와 관련하여, 단일 시퀀싱 실행에서 생성된 모든 리드들이 반드시 최대 가능한 리드 길이의 생성을 야기하지는 않을 것임을 이해해야 한다. 또한, 고처리량 양방향 시퀀싱 단계에서 생성된 수백만 개의 정방향 리드와 수백만 개의 역방향 리드의 비교 길이는 동등하지 않을 것이다. 서열 리드 길이 사이의 가변성은 일반적으로 관찰된다. 즉, 정방향 리드 길이는 역방향 리드 길이와 마찬가지로 5%까지 서로 상이할 수 있다. 앞서 상술된 바와 같이, 모두 동일한 주형 분자로부터 유래하므로 동일한 서열을 발현하는 일련의 페어링되지 않은 정방향 또는 페어링되지 않은 역방향 리드를 정렬할 때, 현재 이용 가능한 정렬 소프트웨어와 알고리즘은 때때로 이 서열들을 단순히 약간 상이한 길이를 가진 리드의 생성으로 인해 상이한 서열로서 분류할 것임을 예기치 않게 확인하였다. 최소 잔류 질환, 클론 진화, 또는 소수 클론의 존재 또는 출현에 대해 스크리닝하는 임상 적용의 관점에서, 이러한 분석 오류는 결과의 특이성 및/또는 민감성에 부정적인 영향을 미칠 수 있다.
앞서 상술된 바와 같이, 표적 뉴클레오타이드 서열은 길이가 최대 정방향 및 역방향 양방향 리드 길이의 약 80%에 상응하는 말단 5' 및/또는 3' 연속 뉴클레오타이드 스트레치 내에 위치한다. 한 실시양태에서, 상기 최대 리드 길이 퍼센트는 70% 내지 85%, 또 다른 실시양태에서 75% 내지 85%, 또 다른 실시양태에서 75% 내지 80%이다. 또 다른 실시양태에서, 상기 최대 리드 길이 퍼센트는 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83%이다. 표적 뉴클레오타이드 서열이 정의된 연속 뉴클레오타이드 영역에 "국재화"된다 함은 표적 서열이 그 영역 내에 위치하지만 반드시 그 영역의 전체 길이에 걸쳐 위치할 필요는 없음을 의미하는 것으로 이해되어야 한다. 즉, 표적 서열을 발현하지 않는 서열의 스트레치가 정의된 영역 내에 있을 수 있다. 이것은 표적 뉴클레오타이드 서열이 작은 경우 더 잘 발생할 것이다. 2개의 표적 뉴클레오타이드 서열들이 있을 수 있는 경우, 예를 들어, 특정 V 유전자 분절의 부분이 주형의 5' 말단에 위치하고 CDR3 영역의 일부 또는 전부가 주형의 3' 말단에 위치하는 경우 일어날 수 있는 것처럼, 이들은 주형의 5' 및 3' 말단에 멀리 떨어져 위치할 수 있다. 관심 있는 하나의 표적 뉴클레오타이드 서열만이 있는 경우, 주형의 5' 또는 3' 말단이 표적 뉴클레오타이드 서열을 발현하지 않을 것임을 이해해야 한다. 단일 정의된 5' 또는 3' 영역 내에 위치하는 하나 초과의 표적 뉴클레오타이드 서열이 있을 수 있다는 것도 이해해야 한다. 예를 들어, V 유전자 분절 특이적 서열, 및 추가로 그 특이적 V 유전자 분절 서열 내에서의 체세포 과돌연변이의 발생 둘 다에 대해 스크리닝할 수 있다. 이 경우, 분석의 대상인 2개의 표적 뉴클레오타이드 서열들이 있고, 이들은 둘 다 주형 DNA의 말단에서 정의된 연속 뉴클레오타이드 영역 내에 위치한다.
이 실시양태에 따라, 하나 이상의 표적 DNA 서열의 발현에 대해 관심 있는 DNA 샘플을 스크리닝하는 방법을 제공하는 것으로, 상기 방법은
(i) 상기 DNA 샘플로부터 유래한 개별 주형 DNA 분자의 라이브러리를 유리 표면 상에서 공간적으로 단리하는 단계로서, 표적 DNA 서열이 상기 주형의 5' 및/또는 3' 말단에서 연속 뉴클레오타이드 영역에 국재화되도록 주형 DNA 분자가 생성되고, 상기 연속 뉴클레오타이드 영역이 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83%에 상응하고, 상기 연속 뉴클레오타이드 영역의 말단이 어댑터, 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 및 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 핵산 서열을 발현하는 것인 단계;
(ii) 상기 공간적으로 단리된 주형 DNA 분자를 증폭하여 앰플리콘의 클러스터를 생성하는 단계로서, 각각의 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되는 것인 단계;
(iii) 하나 이상의 클러스터의 하나 이상의 앰플리콘을 양방향으로 시퀀싱하는 단계로서, 상기 앰플리콘의 정방향 및 역방향 서열 리드가 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는 것인 단계;
(iv) 단계 (iii)에 따라 시퀀싱된 하나 이상의 클러스터에 대해 정방향 및 역방향 서열 리드를 식별하고,
(a) 정방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 역방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 정방향 리드의 말단 5' 연속 핵산 서열의 부분, 및/또는
(b) 역방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 정방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 역방향 리드의 말단 5' 연속 핵산 서열의 부분
을 포함하는 핵산 서열 결과를 생성하는 단계로서,
(1) 상기 부분이, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83% 이상이고, (2) 역방향 리드 연속 서열의 상기 부분이, 분석되는 모든 역방향 리드에 대해 동일하고, (3) 정방향 리드 연속 서열의 상기 부분이, 분석되는 모든 정방향 리드에 대해 동일하나, 역방향 리드 부분과 동일할 수 있거나 상이할 수 있고, (4) 링커 서열이 (a)의 모든 핵산 서열 결과에 대해 동일하고 링커 서열이 (b)의 모든 핵산 서열 결과에 대해 동일한 것인 단계; 및
(v) 서열 결과를 분석하는 단계
를 포함한다.
상세히 전술된 바와 같이, 표적 뉴클레오타이드 서열은 선택된 양방향 시퀀싱 기술의 최대 이론상 리드 길이의 약 80%에 상응하는 주형 DNA의 정의된 5' 또는 3' 말단 연속 뉴클레오타이드 영역 내에 위치해야 한다. 주형의 이 영역의 언급은 이 영역이 표적 뉴클레오타이드 서열의 발현에 기능적으로 이용될 수 있는지 여부와 관계없이 정의된 영역의 언급임을 이해해야 한다. 따라서, 표적 서열이 실제로 위치할 수 있는 연속 뉴클레오타이드 영역은 최대 리드 길이의 등가물보다 작을 수 있다. 예를 들어, 주형 DNA가 어댑터, 인덱스, 바코드, 프라이머 하이브리드화 부위 등과 같은 추가 핵산 특징(본원에서 "어댑터 영역"으로서 지칭됨)을 포함하도록 디자인되었을 수 있는 경우, 말단 뉴클레오타이드의 이 스트레치의 전부 또는 일부는 어댑터 영역 내에서의 시퀀싱 프라이머 하이브리드화 부위의 위치에 따라 표적 서열에 의해 이용될 수 없게 되는데, 이는 이 추가 어댑터 영역이 반드시 양방향 서열 리드의 일부를 형성하기 때문이다. 구체적으로, 프라이머 하이브리드화 부위의 5'에 위치하는 어댑터 서열의 구획이 아니라 시퀀싱 프라이머 하이브리드화 부위의 3'에 위치하는 어댑터 영역 서열의 구획이 서열 리드의 일부를 형성할 것이다. 숙련된 자는 이러한 비-표적 핵산 특징이 예를 들어, 말단 5' 및 3' 위치에 위치하는 10개 내지 30개의 뉴클레오타이드의 연속 뉴클레오타이드 길이를 포함할 수 있음을 생각할 수 있다는 것을 인식할 것이다. 양방향 서열 리드가 2x100개 내지 2x150개의 뉴클레오타이드인 경우, 표적 서열에 의해 이용될 수 없는 10개 내지 30개 뉴클레오타이드의 영역은 선택된 서열 리드 길이가 2x200개 내지 2x300개 뉴클레오타이드인 경우보다 표적 서열 리드 길이를 최대화하는 데 사용될 수 없는 리드 길이의 더 큰 비율에 상응한다. 그러나, 숙련된 자가 인식할 바와 같이, 양방향 리드 길이는 사용을 위해 특정 기기 또는 화학반응을 선택함에 있어서 유일한 고려사항이 아니다. 예를 들어, 일루미나 MiSeq 기기는, 2x300개 뉴클레오타이드의 양방향 리드 길이를 제공하지만, 2x150의 리드 길이만을 제공하는 NovaSeq 기기보다 한 자릿수 이상 더 적은 리드 깊이를 제공한다. 예를 들어, 이 방법을 MRD 분석에 적용하고자 하는 경우, 서열 깊이는 중요한 요인이 된다. 따라서, 중첩 양방향 리드가 생성될 수 있는지 여부와 관계없이 사용을 위해 임의의 고처리량 양방향 시퀀싱 기기 및 화학반응을 선택하는 능력은 이 부류의 기술의 적용 범위를 유의미하게 넓혔다.
한 실시양태에서, 하나 이상의 표적 DNA 서열의 발현에 대해 관심 있는 DNA 샘플을 스크리닝하는 방법을 제공하는 것으로, 상기 방법은
(i) 상기 DNA 샘플로부터 유래한 개별 주형 DNA 분자의 라이브러리를 유리 표면 상에서 공간적으로 단리하는 단계로서, 표적 DNA 서열이 상기 주형의 5' 및/또는 3' 말단에서 120개의 연속 뉴클레오타이드에 국재화되도록 주형 DNA 분자가 생성되나, 상기 연속 뉴클레오타이드 영역의 20개 뉴클레오타이드 말단이 어댑터, 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 핵산 서열을 발현하는 것인 단계;
(ii) 상기 공간적으로 단리된 주형 DNA 분자를 증폭하여 앰플리콘의 클러스터를 생성하는 단계로서, 각각의 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되는 것인 단계;
(iii) 150개 뉴클레오타이드의 최대 정방향 리드 길이 및 150개 뉴클레오타이드의 최대 역방향 길이를 생성하는 시퀀싱 화학반응을 이용하여 하나 이상의 클러스터의 하나 이상의 앰플리콘을 양방향으로 시퀀싱하는 단계;
(iv) 단계 (iii)에 따라 시퀀싱된 하나 이상의 클러스터에 대해 정방향 및 역방향 서열 리드를 식별하고,
(a) 정방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 역방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 정방향 리드의 말단 5' 연속 핵산 서열의 부분, 및/또는
(b) 역방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 정방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 역방향 리드의 말단 5' 연속 핵산 서열의 부분
을 포함하는 핵산 서열 결과를 생성하는 단계로서, 상기 부분이 정방향 및 역방항 리드 길이 각각의 120개 뉴클레오타이드이고 링커 서열이 (a)의 모든 핵산 서열 결과에 대해 동일하고 링커 서열이 (b)의 모든 핵산 서열 결과에 대해 동일한 것인 단계; 및
(v) 서열 결과를 분석하는 단계
를 포함한다.
또 다른 실시양태에서, 상기 표적 DNA 서열은 상기 주형의 5' 및/또는 3' 말단에서 125개의 연속 뉴클레오타이드에 국재화되지만, 이때 상기 연속 뉴클레오타이드 영역의 최대 30개 뉴클레오타이드 말단은 어댑터, 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 뉴클레오타이드 서열을 발현한다.
하나 이상의 표적 뉴클레오타이드 서열이 상기 정의된 바와 같이 주형의 5' 및/또는 3' 말단에 국재화되어 있는 경우 DNA 주형을 생성하는 것은 당업자의 기술 내에 있음을 인식할 것이다. DNA 주형의 전체 길이는 이제 거의 중요하지 않기 때문에, 숙련된 자는 표적 서열을 확인한 후 정확한 위치에서 이 서열을 DNA 주형 내로 혼입하는 방법을 결정하기만 하면 된다. 관심 있는 표적 서열이 오로지 하나인 경우, 예를 들어, 적절한 제한 효소를 사용하여 생물학적 샘플의 DNA를 표적 서열에 가까운 위치에서 간단히 절단한 다음, 임의의 필요한 어댑터 영역을 단편에 라이게이션하거나 비-하이브리드화 꼬리 영역으로서 프라이머의 말단에서 어댑터 영역 서열을 포함함으로써 어댑터 영역을 증폭 생성물 내로 혼입하는 컨센서스 프라이머를 사용하여 단편을 증폭하여 주형 라이브러리를 생성함으로써 주형을 생성할 수 있다. 대안적으로, 프라이머를 사용하여 DNA 샘플의 증폭을 수행할 수 있고, 이때 정방향 또는 역방향 프라이머는 표적 서열을 플랭킹함으로써, 그의 증폭을 가능하게 하는 반면, 다른 프라이머는 DNA의 임의의 적합한 영역에 결합하여 PCR이 진행될 수 있게 한다. 이 프라이머들은 비-하이브리드화 영역으로서 프라이머의 말단에서 어댑터 영역 서열을 포함함으로써, 단일 단계에서 어댑터 영역을 증폭 생성물 내로 혼입하거나, 제1 라운드 증폭 생성물에 대해 유도된 컨센서스 프라이머를 사용하여 어댑터 영역을 도입하는 제2 라운드 증폭을 수행할 수 있다. 하나 초과의 표적 서열을 분석하고자 하는 경우, 숙련된 자는 업스트림 표적 뉴클레오타이드 서열의 5' 말단 및 다운스트림 표적 뉴클레오타이드 서열의 3' 말단을 플랭킹하는 증폭 프라이머를 디자인할 수 있다. 분석을 위해 선택된 표적 뉴클레오타이드 서열이 상기 정의된 바와 같이 말단 5' 및 3' 영역에 국재화될 수 있는 한, 개재 서열의 길이는 관련이 없다. 하나 이상의 표적 뉴클레오타이드 서열을 플랭킹하고 증폭할 프라이머의 디자인은 통상적이고 간단한 절차이다. 숙련된 자는 표적 서열들의 서로 상대적인 위치 및 관심 있는 프라이머의 방향에 따라, 표적 뉴클레오타이드 서열이 시작되거나 끝나는 위치에 가능한 한 가깝게 표적 서열을 플랭킹하도록 증폭 프라이머를 위치시킴으로써, DNA 주형의 정의된 5' 및/또는 3' 말단에 국재화되어 시퀀싱될 수 있는 표적 뉴클레오타이드 서열의 길이를 최대화할 수 있음을 인식할 것이다. 이와 관련하여, 표적 서열 그 자체 내에서 하이브리드화하여, 증폭된 표적 서열 뉴클레오타이드 서열의 일부를 형성하도록 프라이머를 디자인할 수 있고, 이 경우 프라이머 서열의 길이는 시퀀싱되는 5' 및/또는 3' DNA 주형 영역의 일부를 형성할 것이다. 프라이머가 표적 영역 외부에서 하이브리드화하는 경우, 프라이머 서열이 부위 지정 방식으로 앰플리콘으로부터 절단될 수 있게 하는 절단 부위가 3' 말단에 있는 프라이머 서열을 디자인하도록 선택할 수 있다. 이 예들 중 임의의 예에서, 어댑터 영역은 전술된 바와 같이 1 또는 2 단계 절차에서 도입될 수 있다. 또 다른 예에서, 표적 뉴클레오타이드 서열을 발현하는 DNA 영역을 벡터 내로 스플라이싱하고 숙주 세포 복제를 통해 상기 벡터를 증폭하는 것과 같은 비-PCR 기반 방법을 이용하여 주형 DNA를 생성하고자 할 수 있다. 이 방식으로 생성된 DNA 주형은 고체 지지체에의 그의 부착을 용이하게 하기 전에 벡터로부터의 절제를 요구할 것이다.
앞서 상술된 바와 같이, 본 발명의 방법은 주형 DNA가 시퀀싱 화학반응의 조합된 리드 길이보다 더 길기 때문에 중첩 양방향 리드를 수득할 수 없는 경우에도 고처리량 양방향 시퀀싱을 핵산 샘플의 스크리닝에 적용하는 수단에 관한 것이다. 이것은 부분적으로, 증폭이 앰플리콘의 클러스터를 생성하는 임의의 적합한 방법에 의해 수행될 수 있도록 고체 지지체 상에서 개별 주형 DNA 분자를 공간적으로 단리함으로써 달성된다. 이와 관련하여 "앰플리콘"의 언급은 주형 DNA 및/또는 이의 상보적 서열의 증폭된 카피의 언급이다. 따라서, "클러스터"의 언급은 클론 표적 서열 및 클론 상보적 서열의 콜로니가 단일 주형 DNA 주위에서 생성되도록 주형 DNA 근처에서 생성되고 고정된 앰플리콘의 콜로니의 언급으로서 의도된다. 클러스터 DNA를 수행하는 방법은 숙련된 자에게 잘 알려져 있고 통상적인 절차의 문제로서 수행될 수 있다. 이러한 클러스터 증폭을 달성하는 예시적인 방법은 가교 증폭이다. 이 방법에서, 5' 말단 및 3' 말단 둘 다에서 어댑터 서열을 포함하는 주형 DNA가 적절한 밀도로 고체 지지체에 고정되면, 각각의 콜로니가 원래 고정된 주형 DNA 및 이의 상보적 서열의 여러 카피를 포함하도록 고정된 주형 DNA에 대해 적절한 수의 증폭 주기를 수행함으로써 핵산 클러스터를 생성할 수 있다. 증폭의 한 주기는 하이브리드화, 연장 및 변성 단계로 구성되고, 이 단계들은 일반적으로 당분야에서 PCR용으로 잘 알려진 시약 및 조건을 이용함으로써 수행된다. 전형적인 증폭 반응은 뉴클레오사이드 트리포스페이트 분자 또는 임의의 다른 뉴클레오타이드 전구체, 예를 들어, 변형된 뉴클레오사이드 트리포스페이트 분자의 공급과 함께, 고체 지지체 및 부착된 주형 DNA를, 핵산 중합효소의 존재 하에 프라이머 하이브리드화 및 연장을 유도하는 조건에 노출시키는 단계를 포함한다. 프라이머는 주형 DNA에 상보적인 뉴클레오타이드의 추가에 의해 연장될 것이다. 본 발명에서 사용될 수 있는 핵산 중합효소의 예는 DNA 중합효소(Klenow 단편, T4 DNA 중합효소), 다양한 열안정성 세균들로부터의 열안정성 DNA 중합효소(예컨대, Taq, VENT, Pfu, Tfl DNA 중합효소), 및 이들의 유전적으로 변형된 유도체(TaqGold, VENTexo, Pfu exo)이다. RNA 중합효소와 역전사효소의 조합을 사용하여 DNA 콜로니의 증폭을 생성할 수도 있다. 바람직하게는, 사용된 뉴클레오사이드 트리포스페이트 분자는 데옥시리보뉴클레오타이드 트리포스페이트, 예를 들어, dATP, dTTP, dCTP, dGTP이다. 뉴클레오사이드 트리포스페이트 분자는 천연 또는 비-천연 생성 뉴클레오사이드 트리포스페이트 분자일 수 있다.
하이브리드화 및 연장 단계 후, 2개의 고정된 핵산이 존재할 것이고, 이때 첫 번째는 주형 가닥이고 두 번째는 이에 상보적인 핵산 가닥이다. 그 후, 이 핵산 분자들 둘 다가 가교의 형성 및 앰플리콘의 비-고정된 말단과 이의 상보적 고정된 앵커의 하이브리드화를 통해 추가 라운드의 증폭을 시작할 수 있다. 이러한 추가 라운드의 증폭은 주형 가닥 및 이의 상보적 서열의 많은 고정된 클론 카피를 포함하는 핵산 클러스터를 생성할 것이다. 주형 DNA의 초기 고정은 주형 DNA가 가교만을 형성할 수 있고 주형 DNA의 길이 이내의 거리에 위치한 어댑터 앵커에 하이브리드화할 수 있다는 것을 의미한다. 따라서, 클러스터의 경계는 초기 주형 DNA가 고정된 비교적 국소 영역으로 제한된다. 분명히, 일단 주형 가닥 및 이의 상보체의 더 많은 카피가 추가 라운드의 증폭을 수행함으로써 합성되면, 형성된 클러스터의 경계는 초기 주형 DNA가 고정된 비교적 국소 영역으로 여전히 제한되지만, 생성되는 클러스터는 더 연장될 수 있을 것이다. 대상 증폭은 정성적으로 또는 정량적으로 수행될 수 있다.
한 실시양태에서, 상기 증폭은 가교 증폭이다.
이 실시양태에 따라, 하나 이상의 표적 DNA 서열의 발현에 대해 관심 있는 DNA 샘플을 스크리닝하는 방법을 제공하는 것으로, 상기 방법은
(i) 상기 DNA 샘플로부터 유래한 개별 주형 DNA 분자의 라이브러리를 유리 표면 상에서 공간적으로 단리하는 단계로서, 표적 DNA 서열이 상기 주형의 5' 및/또는 3' 말단에서 연속 뉴클레오타이드 영역에 국재화되도록 주형 DNA 분자가 생성되고, 상기 연속 뉴클레오타이드 영역의 말단이 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 및 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 핵산 서열을 발현하는 것인 단계;
(ii) 상기 공간적으로 단리된 주형 DNA 분자를 가교 증폭으로 증폭하여 앰플리콘의 클러스터를 생성하는 단계로서, 각각의 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되는 것인 단계;
(iii) 하나 이상의 클러스터의 하나 이상의 앰플리콘을 양방향으로 시퀀싱하는 단계로서, 상기 앰플리콘의 정방향 및 역방향 서열 리드가 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는 것인 단계;
(iv) 단계 (iii)에 따라 시퀀싱된 하나 이상의 클러스터에 대해 정방향 및 역방향 서열 리드를 식별하고,
(a) 정방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 역방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 정방향 리드의 말단 5' 연속 핵산 서열의 부분, 및/또는
(b) 역방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 정방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 역방향 리드의 말단 5' 연속 핵산 서열의 부분
을 포함하는 핵산 서열 결과를 생성하는 단계로서,
(1) 상기 부분이, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75% 이상이고, (2) 역방향 리드 연속 서열의 상기 부분이, 분석되는 모든 역방향 리드에 대해 동일하고, (3) 정방향 리드 연속 서열의 상기 부분이, 분석되는 모든 정방향 리드에 대해 동일하나, 역방향 리드 부분과 동일할 수 있거나 상이할 수 있고, (4) 링커 서열이 (a)의 모든 핵산 서열 결과에 대해 동일하고, 링커 서열이 (b)의 모든 핵산 서열 결과에 대해 동일한 것인 단계; 및
(v) 서열 결과를 분석하는 단계
를 포함한다.
바람직하게는, 상기 유리 표면은 유리 슬라이드 또는 유동 셀이다.
또 다른 실시양태에서, 상기 관심 있는 핵산 샘플은 B 및/또는 T 세포 DNA를 포함하고, 상기 하나 이상의 표적 뉴클레오타이드 서열은 하나 이상의 재배열된 V, D 또는 J 유전자 분절이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 IgH, TCRβ 또는 TCRδ의 DJ 또는 VDJ 재배열, 또는 Igκ, Igλ, TCRα 또는 TCRγ의 VJ 재배열이다. 또 다른 실시양태에서, 상기 재배열은 카파 결실 요소 재배열이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 V 유전자 분절 영역, 예컨대, 과돌연변이가 일어나기 쉬운 영역 및/또는 CDR3의 부분을 코딩하는 J 유전자 분절 영역이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 V 리더 서열의 전부 또는 일부를 코딩하는 유전자 분절 영역, 체세포 과돌연변이에 취약한 V 영역, IgH FR1, IgH FR2 또는 IgH FR3이다.
또 다른 실시양태에서, 단계 (i)의 상기 연속 뉴클레오타이드 영역은 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 약 80%에 상응한다.
추가 실시양태에서, 상기 연속 뉴클레오타이드 영역은 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83%에 상응하고, 상기 정방향 및 역방향 리드 부분은 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83% 이상이다.
또 다른 실시양태에서, 상기 표적 DNA 서열은 상기 주형의 5' 및/또는 3' 말단에서 120개의 연속 뉴클레오타이드에 국재화되지만, 이때 상기 연속 뉴클레오타이드 영역의 20개 뉴클레오타이드 말단은 어댑터, 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 뉴클레오타이드 서열을 발현한다.
또 다른 실시양태에서, 상기 표적 DNA 서열은 상기 주형의 5' 및/또는 3' 말단에서 125개의 연속 뉴클레오타이드에 국재화되지만, 이때 상기 연속 뉴클레오타이드 영역의 최대 30개 뉴클레오타이드 말단은 어댑터, 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 뉴클레오타이드 서열을 발현한다.
클러스터 형성 후, 하나 이상의 클러스터의 하나 이상의 앰플리콘의 양방향 시퀀싱을 수행한다. 그러나, 대다수의 상황에서 모든 클러스터 및 클러스터 내의 모든 앰플리콘의 병렬식 양방향 시퀀싱이 수행될 것으로 예상된다. 핵산의 양방향 시퀀싱을 위한 임의의 고처리량 방법이 본 발명의 방법에서 사용될 수 있다. 한 예에서, 가역적으로 종결된 표지된 뉴클레오타이드를 사용한 합성에 의한 시퀀싱이 적용된다. 앞서 상술된 바와 같이, 본 발명을 어느 한 이론 또는 작용 방식으로 제한하지 않고, 가역적으로 종결된 표지된 뉴클레오타이드를 사용하는 양방향 시퀀싱의 한 실시양태에서, 클론 증폭 후 역방향 가닥이 고체 지지체로부터 씻겨 나가, 정방향(주형) 가닥만을 남긴다. 그 다음, 시퀀싱이 시작된다. 프라이머는 정방향 가닥에 부착되고 중합효소는 형광 태그가 부착된 뉴클레오타이드를 DNA 가닥에 추가한다. 라운드당 하나의 염기만이 추가된다. 모든 뉴클레오타이드에 존재하는 가역적 터미네이터는 한 라운드에서 다회 추가를 방지한다. 4개의 염기 각각은 고유 방출을 생성하고, 각각의 라운드 후, 이용된 기기는 방출된 형광을 기반으로 어떤 염기가 추가되었는지를 기록한다. 일단 정방향 DNA 가닥이 판독되고 서열 리드가 씻겨 나가면, 역방향 가닥은 가교 증폭의 또 다른 라운드를 통해 생성된다. 그 다음, 정방향 가닥은 씻겨 나가고, 합성에 의한 시퀀싱 과정은 역방향 가닥에 대해 반복된다. 이 방식으로, 양방향 시퀀싱이 달성된다.
한 실시양태에서, 상기 방법은 가역적으로 종결된 표지된 뉴클레오타이드를 사용한 합성에 의한 시퀀싱이다.
이 실시양태에 따라, 하나 이상의 표적 DNA 서열의 발현에 대해 관심 있는 DNA 샘플을 스크리닝하는 방법을 제공하는 것으로, 상기 방법은
(i) 상기 DNA 샘플로부터 유래한 개별 주형 DNA 분자의 라이브러리를 유리 표면 상에서 공간적으로 단리하는 단계로서, 표적 DNA 서열이 상기 주형의 5' 및/또는 3' 말단에서 연속 뉴클레오타이드 영역에 국재화되도록 주형 DNA 분자가 생성되고, 상기 연속 뉴클레오타이드 영역의 말단이 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 및 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 핵산 서열을 발현하는 것인 단계;
(ii) 상기 공간적으로 단리된 주형 DNA 분자를 가교 증폭으로 증폭하여 앰플리콘의 클러스터를 생성하는 단계로서, 각각의 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되는 것인 단계;
(iii) 하나 이상의 클러스터의 하나 이상의 앰플리콘을 양방향으로 시퀀싱하는 단계로서, 상기 앰플리콘의 정방향 및 역방향 서열 리드가 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않고, 상기 양방향 시퀀싱이 가역적으로 종결된 표지된 뉴클레오타이드를 이용한 합성에 의한 시퀀싱인 단계;
(iv) 단계 (iii)에 따라 시퀀싱된 하나 이상의 클러스터에 대해 정방향 및 역방향 서열 리드를 식별하고,
(a) 정방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 역방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 정방향 리드의 말단 5' 연속 핵산 서열의 부분, 및/또는
(b) 역방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 정방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 역방향 리드의 말단 5' 연속 핵산 서열의 부분
을 포함하는 핵산 서열 결과를 생성하는 단계로서,
(1) 상기 부분이, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75% 이상이고, (2) 역방향 리드 연속 서열의 상기 부분이, 분석되는 모든 역방향 리드에 대해 동일하고, (3) 정방향 리드 연속 서열의 상기 부분이, 분석되는 모든 정방향 리드에 대해 동일하나, 역방향 리드 부분과 동일할 수 있거나 상이할 수 있고, (4) 링커 서열이 (a)의 모든 핵산 서열 결과에 대해 동일하고, 링커 서열이 (b)의 모든 핵산 서열 결과에 대해 동일한 것인 단계; 및
(v) 서열 결과를 분석하는 단계
를 포함한다.
바람직하게는, 상기 유리 표면은 유리 슬라이드 또는 유동 셀이다.
또 다른 실시양태에서, 상기 관심 있는 핵산 샘플은 B 및/또는 T 세포 DNA를 포함하고, 상기 하나 이상의 표적 뉴클레오타이드 서열은 하나 이상의 재배열된 V, D 또는 J 유전자 분절이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 IgH, TCRβ 또는 TCRδ의 DJ 또는 VDJ 재배열, 또는 Igκ, Igλ, TCRα 또는 TCRγ의 VJ 재배열이다. 또 다른 실시양태에서, 상기 재배열은 카파 결실 요소 재배열이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 V 유전자 분절 영역, 예컨대, 과돌연변이가 일어나기 쉬운 영역 및/또는 CDR3의 부분을 코딩하는 J 유전자 분절 영역이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 V 리더 서열의 전부 또는 일부를 코딩하는 유전자 분절 영역, 체세포 과돌연변이에 취약한 V 영역, IgH FR1, IgH FR2 또는 IgH FR3이다.
또 다른 실시양태에서, 단계 (i)의 상기 연속 뉴클레오타이드 영역은 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 약 80%에 상응한다.
추가 실시양태에서, 상기 연속 뉴클레오타이드 영역은 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83%에 상응하고, 상기 정방향 및 역방향 리드 부분은 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83% 이상이다.
또 다른 실시양태에서, 상기 표적 DNA 서열은 상기 주형의 5' 및/또는 3' 말단에서 120개의 연속 뉴클레오타이드에 국재화되지만, 이때 상기 연속 뉴클레오타이드 영역의 20개 뉴클레오타이드 말단은 어댑터, 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 뉴클레오타이드 서열을 발현한다.
또 다른 실시양태에서, 상기 표적 DNA 서열은 상기 주형의 5' 및/또는 3' 말단에서 125개의 연속 뉴클레오타이드에 국재화되지만, 이때 상기 연속 뉴클레오타이드 영역의 최대 30개 뉴클레오타이드 말단은 어댑터, 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 뉴클레오타이드 서열을 발현한다.
앞서 상술된 바와 같이, 본 발명의 방법은 정확하고 재현 가능한 결과를 제공하는 비-중첩 양방향 서열 리드를 분석하는 수단의 개발에 기반한다. 이 개발은 부분적으로, 정방향 또는 역방향 리드의 하나 이상의 클러스터가 동일한 주형 서열로부터 유래하므로, 동일한 서열 리드 결과를 발현할지라도, 리드의 서열의 대부분이 이 리드들 사이에 동일할 것이라는 사실에도 불구하고, 현재의 분석 소프트웨어가 리드 길이의 임의의 차이만으로도 이 리드들을 상이한 리드로서 분류할 것이라는 예상외의 확인에 기반한다. 시퀀싱 오류가 시퀀싱 리드의 3' 말단 쪽으로 갈수록 더 빈번해진다는 추가된 문제는 결과 분석을 더 복잡하게 만든다. 양방향 서열 리드들이 중첩되는 상보적 3' 말단을 포함하는 경우, 리드들이 정렬 및 추가 분석 전에 함께 테이핑되기 때문에 개별 리드 길이의 문제는 무의미해진다. 시퀀싱 비정상을 발현하는 가닥에 상보적인 가닥으로부터의 정보가 임의의 이러한 서열 차이가 실제인지 여부를 확인하는 데 도움이 되기 때문에 시퀀싱 오류 문제도 완화된다. 이것은 중첩되는 상보적 가닥 리드가 사용될 수 없는 리드를 분석할 때에는 불가능하다. 이러한 이유로 고처리량 양방향 시퀀싱과 관련된 현재 교시는 항상 주형 DNA의 길이가 사용되도록 제안된 기기의 리드 길이와 호환되도록 주형 DNA를 디자인해야 한다는 것이다. 또한, 숙련된 자가 알 수 있는 바와 같이, 양방향 시퀀싱 기기가 이론상 최대 서열 리드 길이를 제공하지만, 수득된 실제 리드는 반드시 그 리드 길이를 정확하게 반영하지는 않을 것이고 수득된 실제 리드 길이는 리드 사이에 5% 정도만큼 많이 다를 수 있다.
본 방법에 따라, 정방향 및 역방향 리드는 시퀀싱된 클러스터 중 하나 이상에 대해 식별된다. "식별된"은 단일 클러스터에 공국재화된 정방향 및 역방향 리드에 대한 서열 정보가 확인됨을 의미한다. 이와 관련하여, 다중화된 고처리량 스크리닝이 수행된 경우, 숙련된 자는 모든 클러스터가 아닌 일부 클러스터에 대한 정방향 및 역방향 리드 서열 정보를 먼저 식별하도록 선택할 수 있다. 예를 들어, 다수의 환자 샘플들을 분석하기 위해 다중화된 반응이 수행된 경우 결과를 역다중화하도록 선택할 수 있고, 처음에는 한 환자에 대한 정보를 분석하고 다른 환자에 대해서는 분석하지 않을 수 있다. 이 역다중화 단계는 환자 특이적 인덱스 또는 바코드의 사용을 통해 수행된다. 대안적으로, 그 자체가 인덱스 또는 당업자에게 잘 알려진 다른 적합한 수단을 통해 구별될 수 있도록 디자인되었을 수 있는 상이한 프라이머 쌍을 사용하기 위해 하나 초과의 표적 서열이 스크리닝된 경우, 이 표적 뉴클레오타이드 서열들 중 하나만을 먼저 분석하도록 선택할 수 있다. 한 실시양태에서, 양방향 시퀀싱 정보가 생성된 모든 클러스터가 분석된다. 이와 관련하여, 이하에 더 상세히 기재된 바와 같이, 서열 리드의 분석 및 서열 결과의 생성과 분석은 임의의 편리한 방식으로 수행될 수 있다. 예를 들어, 서열 데이터를 수동으로 검토할 수 있거나, 적절한 알고리즘을 사용하여 단계 (iv)에 기재된 분석 단계들 중 하나 이상의 분석 단계를 효과적으로 자동화할 수 있다. 대안적으로, 방법과 알고리즘의 조합을 사용하여 단계 (iv)에 기재된 단계를 수행할 수 있다. 서열 결과의 생성을 포함하는 이 분석은 인 실리코(in silico)에서 가장 편리하게 수행될 것임을 이해해야 한다.
앞서 상술된 바와 같이, 본 방법에 따라 클러스터 증폭 및 양방향 시퀀싱을 거친 개별 주형 DNA 분자에 대한 정방향 리드 및 역방향 리드는 이 리드들이 고체 지제체 상의 단일 클러스터의 위치에 공국재화되는 것에 기반하여 식별될 수 있다. 그러나, 이 리드들은 이들의 3' 말단에서 중첩되는 상보적 서열 영역을 나타내지 않을 것이다. 일단 이 "페어링된" 리드들이 식별되면, 핵산 서열 결과가 생성될 수 있다. "서열 결과"는 정방향 리드 및 역방향 리드로부터 어셈블링된 후, 최종 분석 단계, 예컨대, 관심 있는 DNA 샘플의 클론성 또는 다양성을 평가하기 위한 각각의 클러스터의 서열 결과의 정렬, 서열을 추가로 분류하기 위한(예를 들어, 주형 DNA가 유전자 패밀리 또는 컨센서스 프라이머를 사용함으로써 증폭된 경우, V, D 또는 J 유전자 분절의 구체적인 정체를 확인하기 위한) 서열 결과와 기준 서열의 정렬, 과돌연변이, 삽입결실, DNA 중단점, SNP 등의 발생과 성질의 확인, 클론 진화의 평가 또는 새로운 클론 출현의 확인에 적합한 형태로 존재하는 서열을 의미한다. 또 다른 예에서, MRD 모니터링과 관련하여 환자 특이적 서열을 식별하고자 할 수 있는데, 이는 이것이 질환의 재출현을 표시할 수 있기 때문이다. 서열 결과는 시퀀싱 프라이머 하이브리드화 부위의 위치에 따라 5' 및 3' 어댑터 영역의 부분을 포함할 수 있음을 이해해야 한다. 이와 관련하여, 숙련된 자는 서열 결과가 개재 링커 영역과 함께 관심 있는 DNA 샘플에 상응하는 서열만을 포함하도록 이 추가 서열을 절단하도록 선택할 수 있다. 그러나, 숙련된 자는 이것이 불필요하고 서열 결과가 식별 가능하기 때문에 그의 5' 및 3' 말단에서 이 추가 서열을 유지할 것이라고 결정할 수도 있다.
상기 핵산 서열 결과는 어댑터 영역에 상응하는 임의의 말단 뉴클레오타이드를 포함할 수 있거나 포함하지 않을 수 있는, 정방향 리드 및 역방향 리드의 5' 연속 핵산 서열의 부분을 일반적으로 인 실리코에서 어셈블링함으로써 생성된다. "부분"의 언급은 정방향 및 역방향 리드 서열 길이의 일부(반드시 전부는 아님)의 언급으로서 이해되어야 하지만, 더 짧은 리드의 경우 전체 서열을 사용할 수 있다. 활용될 대상 부분은 숙련된 자에 의해 결정될 것이나, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드의 약 80% 이상일 것이고, 선택된 부분은 주어진 관심 있는 DNA 샘플에 대해 분석되는 모든 정방향 리드 및 모든 역방향 리드에 대해 동일할 것이다. "선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이"의 언급은 앞서 상술된 의미와 동일한 의미를 갖는 것으로 이해되어야 한다. 이 파라미터들 내에서 부분을 선택함으로써, 이것이 관심 있는 표적 서열 정보의 관점에서 특이성을 달성하고 서열 오류를 함유할 증가된 가능성을 나타내는 3' 서열 데이터의 충분한 제거의 관점에서 서열 정확성을 달성하기에 충분한 표적 뉴클레오타이드 서열 데이터를 제공함으로써, 관심 있는 DNA 샘플에 대한 민감한 스크리닝 결과 및 특이적 스크리닝 결과 둘 다를 가능하게 함을 확인하였다. DNA 샘플의 스크리닝을 위해 사용될 부분의 결정의 관점에서, 이것은 본원에서 제공된 교시에 비추어 고려될 때 결정하는 당업자의 기술 내에 있을 것이다. 다중화된 어세이가 다수의 환자들 및/또는 다수의 상이한 조직들로부터의 샘플을 사용함으로써 수행되고/되거나 상이한 표적 서열들에 관한 것인 경우, 예를 들어, 숙련된 자는 결과의 범주들 사이에 상이한 부분 길이를 결정할 수 있다. 그러나, 단일 DNA 샘플 공급원과 관련하여, 부분은 모든 정방향 서열 리드에 대해 동일하고 모든 역방향 서열 리드에 대해 동일할 것이다. 이와 관련하여, 정방향 리드와 함께 사용하기 위해 선택된 부분 길이는 역방향 리드를 위해 선택된 부분 길이와 동일할 필요가 없다. 정방향 및 역방향 부분의 핵산 길이가 모든 정방향 리드 부분과 모든 역방향 리드 부분 사이에 동일하도록 보장함으로써, 오로지 하나의 서열이 다른 서열보다 더 길다는 사실로 인해 클론 서열이 상이한 서열로서 잠재적으로 오분류되는 예기치 않은 사건을 피한다.
상기 정방향 및 역방향 리드 부분은 핵산 링커를 통해 정방향 리드의 3' 말단을 역방향 리드 유래의 서열 정보에 연결함으로써 서열 리드 결과를 생성하도록 어셈블링된다. 이와 관련하여, 숙련된 자는 정방향 및 역방향 리드의 서열이 각각 주형/정방향 가닥의 5' 말단 및 상보적/역방향 가닥의 5' 말단의 서열에 상응한다는 것을 인식할 것이다. 따라서, 이 리드들이 하이브리드화된 서열의 전체 길이를 따라 연장되는 경우, 두 리드들은 상보적일 것이다. 따라서, 주형 DNA의 5' 및 3' 말단, 및 주형 가닥에 상보적인 가닥의 5' 및 3' 말단을 테이핑하는 것에 관한 본 발명과 관련하여, 인 실리코에서 쉽고 빠르게 달성될 수 있는 정방향 및 역방향 리드 서열 각각에 대한 상보적 서열을 확인하고 정방향 리드 서열을 역방향 리드 서열의 상보체에 테이핑할 필요가 있다. 유사하게, 정방향 리드 서열의 상보체는 역방향 리드 서열에 테이핑된다. 그 다음, 이것은 5' 및 3' 말단 서열뿐이더라도 주형 서열 결과, 및 주형 가닥에 상보적인 가닥에 대한 상응하는 서열 결과를 생성할 것이다.
"핵산 링커"의 언급은 정방향 및 역방향 리드 부분의 3' 말단, 및 정방향 및 역방향 리드 부분에 상보적인 서열의 5' 말단에 부착되어, 단일 선형 연속 핵산 서열을 형성하는 핵산 서열, 바람직하게는 선형 서열의 언급으로서 이해되어야 하고, 이때 정방향 리드 서열의 3' 말단은 역방향 리드 서열에 상보적인 서열에 연결되고 역방향 리드 서열의 3' 말단은 정방향 리드 서열의 상보체에 연결된다. 링커의 뉴클레오타이드는 임의의 천연 또는 비-천연 생성 뉴클레오타이드일 수 있지만, 본 발명의 이 측면이 인 실리코에서 수행되는 경우, 어셈블링된 서열 결과의 뉴클레오타이드들의 실제 화학 구조는 이 뉴클레오타이드들에 관한 인 실리코 기능적 정보보다 덜 중요하므로, 이들은 이들의 상응하는 물리적 형태로 기능하는 것처럼, 예컨대, 정확한 상보적 염기 페어링이 의미 있는 경우 정확한 상보적 염기 페어링을 나타내는 것처럼 해석되고 분석된다. "천연 및 비-천연" 생성 뉴클레오타이드의 언급은 앞서 제공된 의미와 동일한 의미를 가져야 한다. 한 실시양태에서, 상기 핵산 링커는 Nx이고, 이때 N은 천연 또는 비-천연 뉴클레오타이드를 나타내고 x는 링커에서 연속 뉴클레오타이드의 수를 나타낸다. 링커 서열 그 자체의 성질 면에서, 이것은 무작위 서열일 수 있고, 무작위로 생성된 서열이 사용되더라도, 클론으로부터 유래하므로 동일한 어셈블링된 정방향 및 역방향 리드 쌍을 위해 사용되는 링커 서열의 차이가 이 서열들로 하여금 링커 서열 변이로 인해 상이한 서열로서 분류되게 할 것이기 때문에, 상기 무작위로 생성된 서열은 모든 서열 결과에 대해 동일해야 한다. 이것은 또한 예컨대, 면역 수용체 다양성과 관련하여 단일 DNA 샘플의 서열 결과 사이의 비교가 무의미할 것임을 의미할 것이다. 바람직하게는, 대상 서열이 인 실리코에서 연쇄되는 경우, 상기 N 뉴클레오타이드는 단순히 N으로서 표기되므로, 천연 생성 뉴클레오타이드인 A, T, G 및 C와 상이하고 구별될 수 있다. 링커 서열의 길이는 숙련된 자에 의해 결정되는 임의의 적합한 길이일 수 있다. 이와 관련하여, 단지 1개 또는 2개의 N으로 이루어진 뉴클레오타이드 "링커"가 링커로서 해석되기보다는 오히려 무작위 뉴클레오타이드 삽입물로서 해석됨으로써, 서열을 오정렬할 수 있기 때문에, 링커의 뉴클레오타이드 수가 너무 적어서는 안 됨을 확인하였다. 한 실시양태에서, 상기 링커는 길이가 5개 내지 30개 뉴클레오타이드, 바람직하게는 5개 내지 25개, 더욱 바람직하게는 5개 내지 20개 뉴클레오타이드이다. 또 다른 실시양태에서, 상기 링커의 길이는 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개 또는 16개 뉴클레오타이드이다.
이 실시양태에 따라, 하나 이상의 표적 DNA 서열의 발현에 대해 관심 있는 DNA 샘플을 스크리닝하는 방법을 제공하는 것으로, 상기 방법은
(i) 상기 DNA 샘플로부터 유래한 개별 주형 DNA 분자의 라이브러리를 유리 표면 상에서 공간적으로 단리하는 단계로서, 표적 DNA 서열이 상기 주형의 5' 및/또는 3' 말단에서 연속 뉴클레오타이드 영역에 국재화되도록 주형 DNA 분자가 생성되고, 상기 연속 뉴클레오타이드 영역의 말단이 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 및 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 핵산 서열을 발현하는 것인 단계;
(ii) 상기 공간적으로 단리된 주형 DNA 분자를 가교 증폭으로 증폭하여 앰플리콘의 클러스터를 생성하는 단계로서, 각각의 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되는 것인 단계;
(iii) 하나 이상의 클러스터의 하나 이상의 앰플리콘을 양방향으로 시퀀싱하는 단계로서, 상기 앰플리콘의 정방향 및 역방향 서열 리드가 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않고, 상기 양방향 시퀀싱이 가역적으로 종결된 표지된 뉴클레오타이드를 사용한 합성에 의한 시퀀싱인 단계;
(iv) 단계 (iii)에 따라 시퀀싱된 하나 이상의 클러스터에 대해 정방향 및 역방향 서열 리드를 식별하고,
(a) 정방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 역방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 정방향 리드의 말단 5' 연속 핵산 서열의 부분, 및/또는
(b) 역방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 정방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 역방향 리드의 말단 5' 연속 핵산 서열의 부분
을 포함하는 핵산 서열 결과를 생성하는 단계로서,
(1) 상기 부분이, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75% 이상이고, (2) 역방향 리드 연속 서열의 상기 부분이, 분석되는 모든 역방향 리드에 대해 동일하고, (3) 정방향 리드 연속 서열의 상기 부분이, 분석되는 모든 정방향 리드에 대해 동일하나, 역방향 리드 부분과 동일할 수 있거나 상이할 수 있고, (4) 링커 서열이 5개 내지 30개 뉴클레오타이드 길이를 갖고 (a)의 모든 핵산 서열 결과에 대해 동일하고, 링커 서열이 (b)의 모든 핵산 서열 결과에 대해 동일한 것인 단계; 및
(v) 서열 결과를 분석하는 단계
를 포함한다.
바람직하게는, 상기 유리 표면은 유리 슬라이드 또는 유동 셀이다.
또 다른 실시양태에서, 상기 관심 있는 핵산 샘플은 B 및/또는 T 세포 DNA를 포함하고, 상기 하나 이상의 표적 뉴클레오타이드 서열은 하나 이상의 재배열된 V, D 또는 J 유전자 분절이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 IgH, TCRβ 또는 TCRδ의 DJ 또는 VDJ 재배열, 또는 Igκ, Igλ, TCRα 또는 TCRγ의 VJ 재배열이다. 또 다른 실시양태에서, 상기 재배열은 카파 결실 요소 재배열이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 V 유전자 분절 영역, 예컨대, 과돌연변이가 일어나기 쉬운 영역 및/또는 CDR3의 부분을 코딩하는 J 유전자 분절 영역이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 V 리더 서열의 전부 또는 일부를 코딩하는 유전자 분절 영역, 체세포 과돌연변이에 취약한 V 영역, IgH FR1, IgH FR2 또는 IgH FR3이다.
또 다른 실시양태에서, 단계 (i)의 상기 연속 뉴클레오타이드 영역은 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 약 80%에 상응한다.
추가 실시양태에서, 상기 연속 뉴클레오타이드 영역은 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83%에 상응하고, 상기 정방향 및 역방향 리드 부분은 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83% 이상이다.
또 다른 실시양태에서, 상기 표적 DNA 서열은 상기 주형의 5' 및/또는 3' 말단에서 120개의 연속 뉴클레오타이드에 국재화되지만, 이때 상기 연속 뉴클레오타이드 영역의 20개 뉴클레오타이드 말단은 어댑터, 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 뉴클레오타이드 서열을 발현한다.
또 다른 실시양태에서, 상기 표적 DNA 서열은 상기 주형의 5' 및/또는 3' 말단에서 125개의 연속 뉴클레오타이드에 국재화되지만, 이때 상기 연속 뉴클레오타이드 영역의 최대 30개 뉴클레오타이드 말단은 어댑터, 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 뉴클레오타이드 서열을 발현한다.
또 다른 실시양태에서, 상기 링커는 길이가 5개 내지 25개 뉴클레오타이드이다. 또 다른 실시양태에서, 상기 링커는 길이가 5개 내지 20개 뉴클레오타이드이다. 추가 실시양태에서, 상기 링커의 길이는 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개 또는 16개 뉴클레오타이드, 가장 바람직하게는 9개, 10개, 11개 또는 12개 뉴클레오타이드이다.
일단 서열 결과가 어셈블링되면, 어셈블링된 서열을 분석할 수 있다. 수행되는 분석의 유형은 숙련된 자에 의해 결정될 것이고 찾고자 하는 정보의 성질에 의해 좌우될 것이다. 예를 들어, 특정 돌연변이 또는 다른 서열 특징, 예컨대, 특정 V(D)J 면역글로불린 또는 TCR 재배열의 존재 여부를 확인하기 위해 이 결과를 조사할 수 있다. 이것은 진단 또는 MRD 목적에 유용할 수 있거나 치료의 상대적 효과를 확인하는 데 유용할 수 있다. 일부 질환들은 특정 돌연변이(예를 들어, Flt3 또는 NPM1), 과돌연변이, 삽입결실, 유전자 중단점(예를 들어, BCR-ABL) 등의 존재에 의해 확인된다. 대안적으로, 종래 알려진 표적 서열의 존재에 대한 스크리닝보다는 오히려 관심 있는 유전자 영역의 서열의 다양성을 조사하고자 할 수 있고, 그 후 이 서열 정보를 사용하여 질환의 진행 및/또는 진화를 추적할 수 있다. 예를 들어, 단일 백혈구의 신생물성 형질전환으로부터 비롯된 백혈구 신생물은 신생물성 세포의 고유 V, D 및/또는 J 재배열의 식별에 기반한 식별 및 추적에 적합하다. 이것은 최소 잔류 질환을 평가하는 데 특히 유용할 수 있다. 면역 세포 레퍼토리의 엄청난 다양성으로 인해, 사실상 모든 백혈구는 고유 면역글로불린 또는 TCR 재배열을 나타낸다. 신생물성 집단에서 재배열된 특정 유전자 분절들 중 하나 이상을 식별함으로써 특정 세포를 추적할 수 있다. 본 발명의 적용의 관점에서, 생물학적 샘플의 DNA를 스크리닝하여 IgH VJ 재배열과 같은 특정 재배열의 다양성을 평가할 수도 있다. 혈액 또는 골수 샘플로부터의 모든 재배열된 IgH VJ 서열들을 스크리닝하는 경우, 서열 결과의 정렬은 IgH VJ 유전자 분절 재배열의 다양성의 정성적 또는 정량적 판독을 제공할 것이다. 이것은 면역요법, 감염, 이식, 자가면역, 알레르기, 면역결핍, 또는 T 또는 B 세포 클론 확장이 (바람직하든 아니면 바람직하지 않든) 면역 활성의 지표로서 일어났는지를 평가하는 데 있어서 가치가 있을 임의의 다른 상황의 상태 또는 진행을 확인하기 위해 면역 시스템을 조사하는 데 매우 유용할 수 있다. (예를 들어, 병원체 또는 자가항원에 대한 급성 면역 반응으로 인한) 클론 집단의 확장을 표시하는 클론이 존재하는 경우, IgH VJ 유전자좌에서의 재배열의 불균질한 배경 어레이에 비해 단일 특이적 재배열에 상응하는 서열 리드 수의 증가는 분명할 것이다. 이 클론의 존재의 식별은 특정 유전자 분절 재배열이 식별될 수 있게 하고 그 클론이 추적될 수 있게 한다. 이것은 자가면역과 관련하여 특히 중요할 수 있다. 다수의 클론들이 확장되는 경우, 이것은 광범위한 면역 반응, 예컨대, 감염, 이식 또는 알레르기와 관련된 다수의 항원들에 대한 반응을 표시할 수 있다.
본원에서 수행된 서열 분석의 관점에서, 단일 클러스터에 대한 다수의 동일한 서열 결과를 정렬하고 동일한 서열을 단일 서열 결과로 병합한다. 클러스터 내의 동일하지 않은 서열들은 이들이 동일한 클러스터의 다른 앰플리콘의 서열과 상이한 경우 시퀀싱 오류를 함유할 가능성이 있다는 점에 근거하여 버려진다. DNA 이중체 결과를 생성하기 위해 상보적 서열들을 페어링할 수 있다. 그 다음, 클러스터들 사이에 단일 또는 이중 가닥 서열을 정렬한다. 한 예에서, 상이한 클러스터의 서열들 사이의 2개 또는 3개 뉴클레오타이드 차이인 허용오차는 이 서열들이 관심 있는 출발 DNA 샘플에 존재하는 클론 집단으로부터 유래한 것으로 분류될 수 있는 역치이다. 그 후, 예를 들어, 클론 확장의 증거가 존재하는지 또는 특정 서열(예컨대, MRD 평가와 관련된 것)이 존재하는지를 확인하기 위해 상대적 또는 실제 비율(증폭이 정량적으로 수행되었는지 여부에 달려 있음)을 평가한다.
이 실시양태에 따라, 상기 분석은 단계 (iv)에서 생성된 핵산 서열 결과를 정렬하는 단계 및 관심 있는 표적 핵산 서열의 발현을 확인하는 단계를 포함한다.
따라서, 본 방법은 하나 이상의 표적 뉴클레오타이드 서열의 발현을 특징으로 할 수 있는 환경 또는 임의의 질환 또는 비-질환 상태에서 진단, 예후, 분류, 질환 위험의 예측, 질환 재발의 검출, 면역 감시, 또는 예방 또는 치료 효능의 모니터링에 이용될 수 있다. 추가로, 이 방법은 특정 표적 DNA 및 RNA 영역의 서열 분석 또는 특정 표적 DNA 및 RNA 서열의 존재에 대한 스크리닝이 필요한 임의의 다른 환경, 예컨대, 연구 및 개발의 환경에 적용된다. 예를 들어, 본 발명은 과학자 및 생명공학 산업이 유전체학, 약물유전체학, 약물 발견, 식품 특징규명 및 유전형분석 분야에서 해결하고자 하는 현재 요구 및 새로운 요구에 대한 해법을 제공한다.
본 발명은 비제한된 예로서 림프계 신생물을 사용하여, 포유동물(예를 들어, 인간)이 신생물을 갖는지 여부, 또는 포유동물로부터 채취된 생물학적 샘플이 신생물성 세포 또는 신생물성 세포로부터 유래한 DNA를 함유하는지 여부를 확인하거나, 포유동물이 신생물을 발생시킬 위험 또는 가능성을 추정하거나, 항암 치료의 효능을 모니터링하거나, 암을 가진 포유동물에서 적절한 치료를 선택하는 방법을 제공한다. 이러한 방법은 림프계 신생물이 고유 V(D)J 재배열을 발현하는 세포의 클론 확장을 특징으로 한다는 확인에 기반한다.
본 발명의 방법은 신생물을 가진 것으로 알려져 있거나 의심되는 개체를 평가하는 데 이용될 수 있거나, 반드시 신생물을 가진 것으로 의심되지는 않는 개체에서 통상적인 임상시험으로서 이용될 수 있다. 또한, 본 방법은 치료 과정의 효능을 평가하는 데 이용될 수 있다. 예를 들어, 항암 치료의 효능은 림프계 암을 가진 포유동물에서 시간 경과에 따라 DNA 메틸화를 모니터링함으로써 평가될 수 있다. 예를 들어, 치료 후 포유동물로부터 채취된 생물학적 샘플에서 특정 표적 뉴클레오타이드 서열을 특징으로 하는 클론 집단의 감소 또는 부재는 효과적인 치료를 표시한다.
따라서, 본 발명의 방법은 전술된 바와 같이 림프계 신생물 또는 임의의 다른 적용과 관련하여 일회성 시험 또는 개체의 지속적인 모니터로서 유용하다. 이 상황에서, 표적 서열에 대한 스크리닝은 개체의 상태, 예를 들어, 그의 면역 시스템의 상태의 귀중한 지표이다.
따라서, 또 다른 측면에서, 하나 이상의 표적 뉴클레오타이드 서열의 발현을 특징으로 하는 환자의 병태에 대해 진단하거나, 모니터링하거나 스크리닝하는 방법을 제공하는 것으로, 상기 방법은
(i) 핵산 샘플로부터 유래한 개별 주형 DNA 분자의 라이브러리를 고체 지지체 상에서 공간적으로 단리하는 단계로서, 표적 뉴클레오타이드 서열이 상기 주형의 5' 및/또는 3' 말단에서 연속 뉴클레오타이드 영역에 국재화되도록 주형 DNA 분자가 생성되는 것인 단계;
(ii) 상기 공간적으로 단리된 주형 DNA 분자를 증폭하여 앰플리콘의 클러스터를 생성하는 단계로서, 각각의 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되는 것인 단계;
(iii) 하나 이상의 클러스터의 하나 이상의 앰플리콘을 양방향으로 시퀀싱하는 단계로서, 상기 앰플리콘의 정방향 및 역방향 서열 리드가 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는 것인 단계;
(iv) 단계 (iii)에 따라 시퀀싱된 하나 이상의 클러스터에 대해 정방향 및 역방향 서열 리드를 식별하고,
(a) 정방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 역방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 정방향 리드의 말단 5' 연속 핵산 서열의 부분, 및/또는
(b) 역방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 정방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 역방향 리드의 말단 5' 연속 핵산 서열의 부분
을 포함하는 핵산 서열 결과를 생성하는 단계로서,
(1) 상기 부분이, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75% 이상이고, (2) 역방향 리드 연속 서열의 상기 부분이, 분석되는 모든 역방향 리드에 대해 동일하고, (3) 정방향 리드 연속 서열의 상기 부분이, 분석되는 모든 정방향 리드에 대해 동일하나, 역방향 리드 부분과 동일할 수 있거나 상이할 수 있고, (4) 링커 서열이 (a)의 모든 핵산 서열 결과에 대해 동일하고, 링커 서열이 (b)의 모든 핵산 서열 결과에 대해 동일한 것인 단계; 및
(v) 서열 결과를 분석하는 단계
를 포함한다.
"핵산 샘플"의 언급은 식물, 동물 또는 미생물과 같은 임의의 유기체, 또는 세포 물질, 혈액, 점액, 대변, 소변, 조직 생검 표본, 또는 동물의 체내에 도입된 후 제거된 유체(예를 들어, 폐 세척 후 폐로부터 추출된 식염수 용액 또는 관장 세척으로부터 회수된 용액)와 같은, 그러나 이들로 제한되지 않는, 임의의 재조합, 합성 또는 인공 공급원, 미생물(예를 들어, 세균, 바이러스, 기생충), 조직 배양 또는 재조합 DNA 공정으로부터 유래한 임의의 DNA 샘플의 언급으로서 이해되어야 한다. 본 발명의 방법에 따라 시험되는 생물학적 샘플은 직접 시험될 수 있거나 시험 전에 일부 형태의 처리를 요구할 수 있다. 예를 들어, 생검 샘플은 시험 전에 균질화를 요구할 수 있다. 추가로, 생물학적 샘플이 액체 형태로 존재하지 않는 경우, 샘플을 이동시키기 위해 완충제와 같은 시약의 추가를 필요로 할 수 있다.
표적 DNA가 샘플에 존재하는 경우, 샘플을 직접 시험할 수 있거나, 샘플에 존재하는 핵산 물질의 전부 또는 일부를 시험 전에 단리할 수 있다. 예를 들어, 살아있는 바이러스의 불활성화를 시험하거나 겔 상에서 실행하기 전에 표적 핵산 분자를 전처리하는 것은 본 발명의 범위 내에 있다. 샘플을 즉시 채취할 수 있거나 시험 전에 (예를 들어, 냉동을 통해) 저장하거나 시험 전에 (예컨대, 배양을 거쳐) 처리할 수 있다는 것도 이해해야 한다. 세포주 또는 세포 배양물을 생성하기 위해 샘플에 대해 시험관내 배양 또는 조작(예컨대, 불멸화 또는 재조합)을 수행할 수도 있다.
어떤 유형의 샘플이 본원에 개시된 방법에 따른 시험에 가장 적합한지를 선택하는 것은 상황의 성질, 예컨대, 모니터링되는 병태의 성질에 의해 좌우될 것이다. 예를 들어, 바람직한 실시양태에서, 신생물성 병태가 분석 대상이다. 신생물성 병태가 림프계 백혈병인 경우, 혈액 샘플, 림프액 샘플 또는 골수 흡인물이 적합한 시험 샘플을 제공할 것이다. 신생물성 병태가 림프종인 경우, 림프절 생검 또는 혈액 또는 골수 샘플은 시험에 적합한 조직 공급원을 제공할 것이다. 신생물성 세포의 기원을 모니터링하고 있는지, 또는 기원 점으로부터의 신생물의 전이 또는 다른 형태의 퍼짐의 존재를 모니터링해야 하는지에 대한 고려도 요구될 것이다. 이와 관련하여, 어느 한 포유동물로부터 다수의 상이한 샘플들을 채취하고 시험하는 것이 바람직할 수 있다. 또 다른 예에서, 감염의 경우, 세포 증식 및 미생물 클론 증식, 예컨대, 바이러스 증식 중 어느 하나 또는 둘 다에 대해 시험할 수 있다. 임의의 주어진 검출 시나리오에 적절한 샘플을 선택하는 것은 당분야에서 통상의 기술을 가진 자의 기술 내에 속할 것이다.
용어 "포유동물"은 본원에서 사용되는 경우 인간, 영장류, 가축 동물(예를 들어, 말, 소, 양, 돼지, 당나귀), 실험용 시험 동물(예를 들어, 마우스, 래트, 토끼, 기니 피그), 반려동물(예를 들어, 개, 고양이) 및 포획 야생 동물(예를 들어, 캥거루, 사슴, 여우)을 포함한다. 바람직하게는, 포유동물은 인간 또는 실험실 시험 동물이다. 훨씬 더 바람직하게는, 포유동물은 인간이다.
시험되는 핵산 샘플은 무세포 DNA, 예컨대, 일부 질환 상태와 관련하여 순환계에서 발견되는 무세포 DNA일 수 있거나 세포로부터 유래할 수 있다.
"세포 또는 세포들"의 언급은 임의의 종으로부터의 모든 형태의 세포들 및 이들의 돌연변이체 또는 변이체의 언급으로서 이해되어야 한다. 한 실시양태에서, 본 발명의 방법이 부분적 또는 전체 면역글로불린 또는 TCR 재배열을 겪었을 수 있는 임의의 유형의 세포에 대해 수행될 수 있지만, 세포는 림프계 세포이다. 본 발명을 어느 한 이론 또는 작용 방식으로 제한하지 않고, 세포는 유기체를 구성할 수 있거나(단세포 유기체의 경우), 개별 세포가 특정 기능을 위해 다소 전문화(분화)될 수 있는 다세포 유기체의 서브유닛일 수 있다. 모든 살아있는 유기체는 하나 이상의 세포로 구성된다. 대상 세포는 동계, 동종 또는 이종 환경에서 시험의 대상인 생물학적 샘플의 일부를 형성할 수 있다. 동계 환경은 클론 세포 집단과, 그 클론 집단이 존재하는 생물학적 샘플이 동일한 MHC 유전형을 공유함을 의미한다. 이것은 예를 들어, 개체에서의 신생물의 존재에 대해 스크리닝하는 경우일 가능성이 가장 높을 것이다. "동종" 환경은 대상 클론 집단이 실제로 생물학적 샘플이 채취된 개체의 MHC와 상이한 MHC를 발현하는 경우이다. 이것은 예를 들어, 이식편 대 숙주 질환과 같은 병태와 관련하여 이식된 공여자 세포 집단(예컨대, 면역적격 골수 이식)의 증식에 대해 스크리닝하는 경우에 발생할 수 있다. "이종" 환경은 대상 클론 세포가 생물학적 샘플의 기원이 되는 대상체의 종과 완전히 상이한 종의 세포인 경우이다. 이것은 예를 들어, 잠재적인 신생물성 공여자 집단이 이종 이식으로부터 유래한 경우에 발생할 수 있다.
대상 세포의 "변이체"는 변이체의 기원이 되는 세포의 형태학적 또는 표현형적 특징 또는 기능적 활성의 전부가 아닌 일부를 나타내는 세포를 포함하나, 이들로 제한되지 않는다. "돌연변이체"는 천연적 또는 비-천연적으로 변형된 세포, 예컨대, 유전적으로 변형된 세포를 포함하나, 이들로 제한되지 않는다.
한 실시양태에서, 상기 병태는 세포 또는 미생물의 클론 집단을 특징으로 한다.
"클론"은 세포 또는 미생물의 대상 집단이 공통 세포 기원으로부터 유래하였음을 의미한다. 예를 들어, 신생물성 세포의 집단은 특정 분화 단계에서 형질전환된 단일 세포로부터 유래한다. 이와 관련하여, 유전적으로 상이한 신생물성 세포 집단을 생성하기 위해 추가 게놈 재배열 또는 돌연변이를 겪는 신생물성 세포도 세포의 상이한 클론 집단이기는 하지만 세포의 "클론" 집단이다. 또 다른 예에서, 급성 또는 만성 감염 또는 면역 자극에 대한 반응으로 증식하는 T 또는 B 림프구도 여기서 제공된 정의 내에서 세포의 "클론" 집단이다. 또 다른 예에서, 세포의 클론 집단은 더 큰 미생물 집단 내에서 발생한 약물 내성 클론과 같은 클론 미생물 집단 또는 바이러스 클론이다. 바람직하게는, 세포의 대상 클론 집단은 세포의 신생물성 집단 또는 클론 면역 세포 집단이다.
한 실시양태에서, 상기 클론 세포는 클론 림프계 세포의 집단이다.
"림프계 세포"의 언급은 면역글로불린 또는 TCR 가변 영역 유전자 분절의 적어도 하나의 생식세포계열 세트를 재배열한 임의의 세포의 언급임을 이해해야 한다. 재배열될 수 있는 면역글로불린 가변 영역 코딩 게놈 DNA는 중쇄 또는 κ 또는 λ 경쇄와 관련된 가변 영역을 포함하는 반면, 재배열될 수 있는 TCR 쇄 가변 영역 코딩 게놈 DNA는 α, β, γ 및 δ 쇄를 포함한다. 이와 관련하여, 세포가 적어도 하나의 면역글로불린 또는 TCR 유전자 분절 영역의 가변 영역 코딩 DNA를 재배열하였다면, 세포는 "림프계 세포"의 정의 내에 속하는 것으로 이해되어야 한다. 세포가 재배열된 DNA를 전사하고 번역하는 것도 불필요하다. 이와 관련하여, "림프계 세포"는 TCR 또는 면역글로불린 가변 영역 유전자 분절을 재배열하였으나 아직 재배열된 쇄를 발현하지 않거나(예컨대, TCR- 흉선세포) 그의 TCR 또는 면역글로불린 가변 영역 유전자 분절의 두 쇄를 아직 재배열하지 않은 미성숙 T 세포 및 B 세포를 그의 범위 내에 포함하나, 결코 이들로 제한되지 않는다. 이 정의는 적어도 일부 TCR 또는 면역글로불린 가변 영역 재배열을 겪은 림프계 유사 세포로 더 확장되나, 이 세포는 성숙 T 세포 또는 B 세포와 전통적으로 관련된 모든 표현형적 또는 기능적 특징을 나타내지 않을 수 있다. 따라서, 하나의 가변 영역 유전자 영역의 적어도 일부의 재배열이 일어났다면, 본 발명의 방법은 발달의 임의의 분화 단계에 있는 림프계 세포, 활성화된 림프계 세포 또는 비-림프계/림프계 유사 세포를 포함하나 이들로 제한되지 않는 세포의 신생물을 모니터링하는 데 이용될 수 있다. 이 방법은 특정 항원에 대한 반응으로 일어나는 클론 확장을 모니터링하는 데 이용될 수도 있다.
또 다른 실시양태에서, 상기 병태는 면역 세포에 의해 발현되는 하나 이상의 표적 뉴클레오타이드 서열을 특징으로 한다. 또 다른 실시양태에서, 상기 병태는 하나 이상의 재배열된 V, D 또는 J 유전자 분절 서열 특징의 발현을 특징으로 한다.
이 실시양태에 따라, 하나 이상의 재배열된 V, D 또는 J 유전자 분절 서열 특징의 발현을 특징으로 하는 환자의 병태에 대해 진단하거나, 모니터링하거나 스크리닝하는 방법을 제공하는 것으로, 상기 방법은
(i) B 및 T 세포 DNA를 포함하는 DNA 샘플로부터 유래한 개별 주형 DNA 분자의 라이브러리를 고체 지지체 상에서 공간적으로 단리하는 단계로서, 상기 재배열된 V, D 또는 J 유전자 분절이 상기 주형의 5' 및/또는 3' 말단에서 연속 뉴클레오타이드 영역에 국재화되도록 주형 DNA 분자가 생성되는 것인 단계;
(ii) 상기 공간적으로 단리된 주형 DNA 분자를 증폭하여 앰플리콘의 클러스터를 생성하는 단계로서, 각각의 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되는 것인 단계;
(iii) 하나 이상의 클러스터의 하나 이상의 앰플리콘을 양방향으로 시퀀싱하는 단계로서, 상기 앰플리콘의 정방향 및 역방향 서열 리드가 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는 것인 단계;
(iv) 단계 (iii)에 따라 시퀀싱된 하나 이상의 클러스터에 대해 정방향 및 역방향 서열 리드를 식별하고,
(a) 정방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 역방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 정방향 리드의 말단 5' 연속 핵산 서열의 부분, 및/또는
(b) 역방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 정방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 역방향 리드의 말단 5' 연속 핵산 서열의 부분
을 포함하는 핵산 서열 결과를 생성하는 단계로서,
(1) 상기 부분이, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75% 이상이고, (2) 역방향 리드 연속 서열의 상기 부분이, 분석되는 모든 역방향 리드에 대해 동일하고, (3) 정방향 리드 연속 서열의 상기 부분이, 분석되는 모든 정방향 리드에 대해 동일하나, 역방향 리드 부분과 동일할 수 있거나 상이할 수 있고, (4) 링커 서열이 (a)의 모든 핵산 서열 결과에 대해 동일하고, 링커 서열이 (b)의 모든 핵산 서열 결과에 대해 동일한 것인 단계; 및
(v) 서열 결과를 분석하는 단계
를 포함한다.
또 다른 실시양태에서, 상기 관심 있는 DNA 샘플은 B 및/또는 T 세포 DNA를 포함하고, 상기 하나 이상의 표적 뉴클레오타이드 서열은 하나 이상의 재배열된 V, D 또는 J 유전자 분절이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 IgH, TCRβ 또는 TCRδ의 DJ 또는 VDJ 재배열, 또는 Igκ, Igλ, TCRα 또는 TCRγ의 VJ 재배열이다. 또 다른 실시양태에서, 상기 재배열은 카파 결실 요소 재배열이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 V 유전자 분절 영역, 예컨대, 과돌연변이가 일어나기 쉬운 영역 및/또는 CDR3의 부분을 코딩하는 J 유전자 분절 영역이다.
또 다른 실시양태에서, 상기 표적 뉴클레오타이드 서열은 V 리더 서열의 전부 또는 일부를 코딩하는 유전자 분절 영역, 체세포 과돌연변이에 취약한 V 영역, IgH FR1, IgH FR2 또는 IgH FR3이다.
또 다른 실시양태에서, 단계 (i)의 상기 연속 뉴클레오타이드 영역은 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 약 80%에 상응한다.
추가 실시양태에서, 상기 연속 뉴클레오타이드 영역은 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83%에 상응하고, 상기 정방향 및 역방향 리드 부분은 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83% 이상이다.
또 다른 실시양태에서, 상기 표적 DNA 서열은 상기 주형의 5' 및/또는 3' 말단에서 120개의 연속 뉴클레오타이드에 국재화되지만, 이때 상기 연속 뉴클레오타이드 영역의 20개 뉴클레오타이드 말단은 어댑터, 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 뉴클레오타이드 서열을 발현한다.
또 다른 실시양태에서, 상기 표적 DNA 서열은 상기 주형의 5' 및/또는 3' 말단에서 125개의 연속 뉴클레오타이드에 국재화되지만, 이때 상기 연속 뉴클레오타이드 영역의 최대 30개 뉴클레오타이드 말단은 어댑터, 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 뉴클레오타이드 서열을 발현한다.
또 다른 실시양태에서, 상기 링커는 길이가 5개 내지 25개 뉴클레오타이드이다. 또 다른 실시양태에서, 상기 링커는 길이가 5개 내지 20개 뉴클레오타이드이다. 추가 실시양태에서, 상기 링커의 길이는 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개 또는 16개 뉴클레오타이드, 가장 바람직하게는 9개, 10개, 11개 또는 12개 뉴클레오타이드이다.
이 실시양태에 따라, 상기 분석은 단계 (iv)에서 생성된 핵산 서열 결과를 정렬하는 단계 및 관심 있는 표적 핵산 서열의 발현을 확인하는 단계를 포함한다.
또 다른 실시양태에서, 하나 이상의 재배열된 V, D 또는 J 유전자 분절 서열 특징의 발현을 특징으로 하는 상기 병태는 감염, 이식, 자가면역, 면역결핍, 신생물, 또는 T 또는 B 세포 클론 확장을 특징으로 하는 임의의 다른 병태이다.
상기 방법은 진단, 예후, 분류, 질환 위험의 예측, 질환 재발의 검출, 면역 감시, 또는 예방 또는 치료 효능의 모니터링에 유용하다.
본 발명의 이 측면과 관련하여, "모니터링"의 언급은 상기 집단의 존재의 초기 진단 후 세포의 대상 클론 집단의 존재 또는 수준에 대해 대상체를 시험하는 것을 언급하는 것으로서 이해되어야 한다. "모니터링"은 격리된 일회성 시험, 또는 수일, 수주, 수개월 또는 수년에 걸친 일련의 시험 둘 다를 수행하는 것의 언급을 포함한다. 시험은 적합한 치료에 대한 결정에 도달하는 데 도움을 주기 위해 또는 새로운 형태의 치료를 시험하기 위해 관해중인 포유동물이 재발할 가능성의 예측, 최소 잔류 질환에 대한 스크리닝, 치료 프로토콜의 효과의 모니터링, 관해중인 환자 상태의 확인, 치료법의 적용 전 또는 후 병태의 진행의 모니터링을 포함하나 이들로 제한되지 않는 임의의 수의 이유로 수행될 수 있다. 따라서, 본 발명의 방법은 임상 수단 및 연구 수단 둘 다로서 유용하다.
"신생물성 세포"의 언급은 비정상적인 "생장"을 나타내는 세포의 언급으로서 이해되어야 한다. 용어 "생장"은 그의 가장 넓은 의미로 이해되어야 하며 증식의 언급을 포함한다. 이와 관련하여, 비정상적인 세포 생장의 예는 세포의 제어되지 않은 증식이다. 림프계 세포의 제어되지 않은 증식은 고형 종양 또는 단일 세포 현탁액(예를 들어, 백혈병 환자의 혈액에서 관찰됨)의 형태를 취하는 세포 집단을 유발할 수 있다. 신생물성 세포는 양성 세포 또는 악성 세포일 수 있다. 바람직한 실시양태에서, 신생물성 세포는 악성 세포이다. 이와 관련하여, "신생물성 병태"의 언급은 대상 포유동물에서의 신생물성 세포의 존재의 언급이다. "신생물성 림프계 병태"가 백혈병, 림프종 및 골수종에서 발생하는 것과 같은 비정상적으로 많은 수의 신생물성 세포의 존재의 언급을 특징으로 하는 질환 상태의 언급을 포함하지만, 이 어구는 포유동물에서 발견되는 신생물성 세포의 수가 통상적으로 명백한 질환 상태로부터 관해 상태로의 포유동물의 변동 또는 그 반대의 변동을 구분하는 것으로서 간주되는 역치 아래로 떨어지는 상황의 언급을 포함한다는 것도 이해되어야 한다(관해 동안 존재하는 세포 수는 종종 "최소 잔류 질환"으로서 지칭된다). 또한, 포유동물에 존재하는 신생물성 세포의 수가 본 발명의 도래 전에 이용된 스크리닝 방법에 의해 검출될 수 있는 역치 아래로 떨어지는 경우에도, 포유동물은 "신생물성 병태"를 나타내는 것으로서 간주된다.
이 실시양태와 관련하여 분석에 적합한 질환 상태는 임의의 림프계 신생물, 예컨대, 급성 림프모구성 백혈병, 급성 림프구성 백혈병, 급성 골수성 백혈병, 급성 전골수구성 백혈병, 만성 림프구성 백혈병, 만성 골수성 백혈병, 골수증식성 신생물, 예컨대, 골수종, 전신 비만세포증, 림프종 및 털세포 백혈병을 포함한다.
한 특정 실시양태에서, 본 발명의 방법은 림프계 신생물과 관련하여 최소 잔류 질환을 검출하는 데 이용된다.
또 다른 실시양태에서, 클론 림프계 확장을 특징으로 하는 비-신생물성 질환은 감염, 알레르기, 자가면역, 이식 거부, 면역요법, 진성 적혈구증가증, 골수이형성증 및 백혈구증가증, 예컨대, 림프구성 백혈구증가증을 포함한다.
모든 선행 측면에 따라, 한 실시양태에서, 상기 유리 표면은 유리 슬라이드 또는 유동 셀이다.
또 다른 실시양태에서, 상기 연속 뉴클레오타이드 영역의 말단은 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 및 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 핵산 서열을 발현한다.
또 다른 실시양태에서, 상기 증폭은 가교 증폭이다.
추가 실시양태에서, 상기 연속 뉴클레오타이드 영역은 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83%에 상응하고, 상기 정방향 및 역방향 리드 부분은 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83% 이상이다.
또 다른 실시양태에서, 상기 표적 DNA 서열은 상기 주형의 5' 및/또는 3' 말단에서 120개의 연속 뉴클레오타이드에 국재화되나, 이때 상기 연속 뉴클레오타이드 영역의 20개 뉴클레오타이드 말단은 어댑터, 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 뉴클레오타이드 서열을 발현한다.
또 다른 실시양태에서, 상기 표적 DNA 서열은 상기 주형의 5' 및/또는 3' 말단에서 125개의 연속 뉴클레오타이드에 국재화되나, 이때 상기 연속 뉴클레오타이드 영역의 최대 30개 뉴클레오타이드 말단은 어댑터, 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 뉴클레오타이드 서열을 발현한다.
컴퓨터 구현 방법, 컴퓨터 판독 가능한 저장 매체 및 디바이스
본 개시내용의 일부 측면은 하나 이상의 표적 뉴클레오타이드 서열의 발현에 대해 관심 있는 핵산 샘플을 스크리닝하기 위해 비-중첩 서열 리드로부터 분석용 핵산 서열 결과를 준비하는 방법을 실시하는 컴퓨터 구현 방법, 및 컴퓨터 판독 가능한 저장 매체와 디바이스에 관한 것이다.
본원에 기재된 컴퓨터 구현 방법, 및 컴퓨터 판독 가능한 저장 매체와 디바이스는 기준 서열을 사용하지 않으면서 비-중첩 서열 리드를 분석할 수 있게 함으로써 선행 기술 방법에 비해 이점을 제공한다. 상기 방법은 공국재화된 비-중첩 리드 서열로부터 정방향 및 역방향 서열 리드를 식별하는 단계, 식별된 정방향 및 역방향 서열 리드를 트리밍하는(trimming) 단계(즉, 정방향 서열 리드의 5' 부분으로부터 소정의 길이를 취하고 역방향 서열 리드의 5' 부분으로부터 소정의 길이를 취하는 단계), 및 이어서 소정의 수의 N(N은 임의의 뉴클레오타이드(예를 들어, A, G, T 또는 C 중 어느 하나)를 지칭함)을 포함하는 핵산 링커로 이들을 테이핑하는 단계(한 세트의 서열 리드(정방향 또는 역방향)를 일정하게 유지하고 다른 세트의 역상보체를 취함)를 포함한다. 일부 실시양태에서, 본원에 기재된 컴퓨터 구현 방법, 및 컴퓨터 판독 가능한 저장 매체와 디바이스는 수백만 내지 수십억 개의 서열 리드를 처리한다. 일부 실시양태에서, 본원에 기재된 컴퓨터 구현 방법, 및 컴퓨터 판독 가능한 저장 매체와 디바이스는 적어도 1백만, 5백만, 1천만, 2천만, 3천만, 4천만, 5천만, 1억, 2억 5천만, 5억, 10억, 50억 또는 100억 개 이상의 서열 리드를 처리한다.
본원에서 사용된 용어 "메모리"는 프로그램 메모리 및 작업 메모리를 포함한다. 프로그램 메모리는 하나 이상의 프로그램 또는 소프트웨어 모듈을 가질 수 있다. 작업 메모리는 본원에 기재된 기능을 실행함에 있어서 CPU에 의해 사용되는 데이터 또는 정보를 저장한다.
용어 "프로세서"는 단일 코어 프로세서, 다중 코어 프로세서, 단일 디바이스에 위치한 다수의 프로세서, 또는 서로 유선 또는 무선 통신하고 디바이스의 네트워크, 인터넷 또는 클라우드에 걸쳐 분포된 다수의 프로세서를 포함할 수 있다. 따라서, 본원에서 사용된 바와 같이, "프로세서"에 의해 수행되거나 수행되도록 구성된 기능, 특징 또는 명령어는 단일 코어 프로세서에 의한 기능, 특징 또는 명령어의 수행을 포함할 수 있거나, 집합적으로 또는 협력적으로 다중 코어 프로세서의 다중 코어에 의한 기능, 특징 또는 명령어의 수행을 포함할 수 있거나, 집합적으로 또는 협력적으로 다수의 프로세서에 의한 기능, 특징 또는 명령어의 수행을 포함할 수 있고, 이때 각각의 프로세서 또는 코어는 모든 기능, 특징 또는 명령어를 개별적으로 수행하는 데 요구되지 않는다. 프로세서는 CPU(중앙 처리 유닛)일 수 있다. 프로세서는 GPU(그래픽 처리 유닛)와 같은 다른 유형의 프로세서를 포함할 수 있다. 본 개시내용의 다른 측면에서, 프로그램 메모리에 프로그래밍된 명령어를 실행하는 CPU 대신에 또는 이에 더하여, 프로세서는 ASIC(응용 특이적 집적 회로), 아날로그 회로 또는 다른 기능적 로직, 예컨대, FPGA(필드 프로그래밍 가능한 게이트 어레이), PAL(상 교류 라인) 또는 PLA(프로그래밍 가능한 로직 어레이)일 수 있다.
CPU는 본원에 기재된 기능을 수행하기 위해 프로그램 메모리에 저장된 프로그램(본원에서 모듈 또는 명령어로서도 기재됨)을 실행하도록 구성된다. 메모리는 RAM(랜덤 액세스 메모리), ROM(판독 전용 메모리) 및 영구 저장소일 수 있으나, 이들로 제한되지 않는다. 메모리는 정보, 예를 들어, 제한 없이, 데이터, 프로그램, 명령어, 프로그램 코드 및/또는 다른 적합한 정보를 일시적으로 및/또는 영구적으로 저장할 수 있는 하드웨어의 임의의 조각이다.
본 개시내용의 다양한 측면은 컴퓨터, 프로세서 및/또는 기계에서 실행될 때 컴퓨터 또는 기계가 방법의 단계를 수행하게 만드는, 컴퓨터 또는 기계에 의해 이용될 수 있거나 판독될 수 있는 매체 또는 매체의 군에 구체화되거나 저장된 프로그램, 소프트웨어 또는 컴퓨터 명령어로서 구체화될 수 있다. 본 개시내용에 기재된 다양한 기능들 및 방법들을 수행하기 위해 기계에 의해 실행될 수 있는 명령어의 프로그램을 유형적으로 구체화하는 기계, 예를 들어, 컴퓨터 판독 가능한 매체에 의해 판독될 수 있는 프로그램 저장 디바이스도 제공된다.
일부 실시양태에서, 본 개시내용은 CPU, 디스플레이, 네트워크 인터페이스, 사용자 인터페이스, 메모리, 프로그램 메모리 및 작업 메모리를 포함하는 시스템을 포함하고(도 1), 이때 시스템은 본 개시내용의 방법 또는 공정에 관한 프로그램, 소프트웨어 또는 컴퓨터 명령어를 실행하도록 프로그래밍된다. 예시적 및 비제한적 실시양태가 도 2 및 도 3에 제시되어 있다.
컴퓨터 구현 방법
본 개시내용의 한 측면은 앰플리콘의 클러스터로부터의 비-중첩 서열 리드로부터 분석용 핵산 서열 결과를 준비하는 컴퓨터 구현 방법에 관한 것이다.
일부 실시양태에서, 컴퓨터 구현 방법은 앰플리콘의 클러스터의 서열 리드로부터 정방향 서열 리드 및 역방향 서열 리드를 식별하는 단계를 포함한다. 일부 실시양태에서, 정방향 및 역방향 서열 리드는 DNA 서열 리드이다.
일부 실시양태에서, 앰플리콘의 클러스터는 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되고, 각각의 서열 리드는 선택된 양방향 시퀀싱 기술에 의해 생성된다. 일부 실시양태에서, 양방향 시퀀싱 기술은 표 1에 나열된 기술로부터 선택된다. 일부 실시양태에서, 정방향 서열 리드와 역방향 서열 리드는 중첩되지 않고 임의의 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는다.
일부 실시양태에서, 앰플리콘의 클러스터는 B 및/또는 T 세포 DNA로부터 증폭된다. 일부 실시양태에서, 앰플리콘의 클러스터는 적어도 하나의 재배열된 V, D 또는 J 유전자 분절을 포함한다. 일부 실시양태에서, 앰플리콘의 클러스터는 IgH, TCRβ 또는 TCRδ의 DJ 또는 VDJ 재배열, 또는 Igκ, Igλ, TCRα 또는 TCRγ의 VJ 재배열을 포함한다. 특정 실시양태에서, VJ 재배열은 카파 결실 요소 재배열이다. 일부 실시양태에서, 앰플리콘의 클러스터는 V 유전자 분절 영역, 예컨대, 과돌연변이가 일어나기 쉬운 영역 및/또는 CDR3의 부분을 코딩하는 J 유전자 분절 영역을 포함한다. 일부 실시양태에서, 앰플리콘의 클러스터는 V 리더 서열의 전부 또는 일부를 코딩하는 유전자 분절 영역, 체세포 과돌연변이에 취약한 V 영역, IgH FR1, IgH FR2 또는 IgH FR3을 포함한다.
일부 실시양태에서, 컴퓨터 구현 방법은 제1 핵산 링커 서열을 통해 각각의 정방향 서열 리드가 역방향 서열 리드에 연결되고 각각의 역방향 서열 리드가 정방향 서열 리드에 연결되도록 정방향 서열 리드를 역방향 서열 리드와 연결하여 복수의 제1 핵산 서열 결과를 생성하는 단계를 포함한다.
일부 실시양태에서, 각각의 연결은 정방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 3' 말단과 역방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 역상보체 사이에 제1 핵산 링커 서열을 연쇄시켜, 정방향 서열 리드의 부분, 제1 핵산 링커 서열 및 역방향 서열 리드의 부분의 역상보체를 이 순서대로 포함하는 제1 핵산 서열 결과를 생성함으로써 달성된다.
일부 실시양태에서, 식별은 정방향 서열 리드 및 역방향 서열 리드에서 발견되는 하나 이상의 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위에 의해 달성되고, 이때 정방향 서열 리드에서 발견되는 하나 이상의 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위는 역방향 서열 리드에서 발견되는 하나 이상의 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위와 상이하다.
일부 실시양태에서, 컴퓨터 구현 방법은 제2 핵산 링커 서열을 통해 각각의 정방향 서열 리드가 역방향 서열 리드에 연결되고 각각의 역방향 서열 리드가 정방향 서열 리드에 연결되도록 정방향 서열 리드를 역방향 서열 리드와 연결하여 복수의 제2 핵산 서열 결과를 생성하는 단계를 추가로 포함하고, 이때 각각의 연결은 역방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 3' 말단과 정방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 역상보체 사이에 제2 핵산 링커 서열을 연쇄시켜, 역방향 서열 리드의 부분, 제2 핵산 링커 서열 및 정방향 서열 리드의 부분의 역상보체를 이 순서대로 포함하는 제2 핵산 서열 결과를 생성함으로써 달성되고; (1) 정방향 서열 리드의 부분의 길이는 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고, 역방향 서열 리드의 부분의 길이는 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고; (2) 제2 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이는 모든 역방향 서열 리드에 대해 동일하고 제1 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이와 동일하고; (3) 제2 핵산 링커에 연쇄되는 정방향 서열 리드의 부분의 길이는 모든 정방향 서열 리드에 대해 동일하고 제1 핵산 링커에 연쇄되는 정방향 서열 리드의 부분의 길이와 동일하나, 제2 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이와 동일할 수 있거나 상이할 수 있고; (4) 제2 핵산 링커 서열은 모든 제2 핵산 서열 결과에 대해 동일하다.
일부 실시양태에서, 정방향 서열 리드의 부분의 길이는 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 약 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83% 이상이고, 역방향 서열 리드의 부분의 길이는 선택한 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 약 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83% 이상이다. 일부 실시양태에서, 역방향 서열 리드의 부분의 길이는 분석되는 모든 역방향 서열 리드에 대해 동일하다. 일부 실시양태에서, 정방향 서열 리드의 부분의 길이는 분석되는 모든 정방향 서열 리드에 대해 동일하나, 역방향 서열 리드의 부분의 길이와 동일할 수 있거나 상이할 수 있다. 일부 실시양태에서, 정방향 서열 리드의 부분의 길이는 역방향 서열 리드의 부분의 길이와 동일하다.
일부 실시양태에서, 정방향 서열 리드의 부분은 정방향 서열 리드의 5' 말단의 특정된 수의 연속 뉴클레오타이드를 포함하고, 역방향 서열 리드의 부분은 역방향 서열 리드의 5' 말단의 특정된 수의 연속 뉴클레오타이드를 포함한다. 일부 실시양태에서, 특정된 수의 연속 뉴클레오타이드는 약 80개의 뉴클레오타이드 내지 약 180개의 뉴클레오타이드를 포함한다. 본 개시내용에서 사용된 바와 같이, 용어 "약"은 주어진 값의 ±10%를 의미한다. 일부 실시양태에서, 특정된 수의 연속 뉴클레오타이드는 약 80개, 약 90개, 약 100개, 약 110개, 약 120개, 약 130개, 약 140개, 약 150개, 약 160개, 약 170개 또는 약 180개의 뉴클레오타이드를 포함한다.
일부 실시양태에서, 제1 핵산 링커 서열은 모든 제1 핵산 서열 결과에 대해 동일하다. 일부 실시양태에서, 제1 핵산 링커 서열은 길이가 5개 내지 30개 뉴클레오타이드, 5개 내지 25개 뉴클레오타이드 또는 5개 내지 20개 뉴클레오타이드이다. 일부 실시양태에서, 제1 핵산 링커 서열의 길이는 적어도 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개 또는 16개 뉴클레오타이드이다.
일부 실시양태에서, 제1 핵산 링커 서열 및 제2 핵산 링커 서열은 길이가 적어도 11개 뉴클레오타이드이다. 일부 실시양태에서, 제1 핵산 링커 서열 및 제2 핵산 링커 서열은 길이가 5개 내지 30개 뉴클레오타이드, 5개 내지 25개 뉴클레오타이드 또는 5개 내지 20개 뉴클레오타이드이다. 일부 실시양태에서, 제1 핵산 링커 서열의 길이는 적어도 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개 또는 16개 뉴클레오타이드이다. 일부 실시양태에서, 제2 핵산 링커 서열의 길이는 적어도 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개 또는 16개 뉴클레오타이드이다.
컴퓨터 판독 가능한 저장 매체
본 개시내용의 한 측면은 디바이스가 앰플리콘의 클러스터로부터의 비-중첩 서열 리드로부터 분석용 핵산 서열 결과를 준비하는 방법을 구현하도록 디바이스의 처리 요소에 의해 실행될 수 있는 프로그램 명령어가 구체화되어 있는 비-일시적 컴퓨터 판독 가능한 저장 매체에 관한 것이다.
일부 실시양태에서, 비-일시적 컴퓨터 판독 가능한 저장 매체는 앰플리콘의 클러스터의 서열 리드로부터 정방향 서열 리드 및 역방향 서열 리드를 식별하는 명령어를 포함한다. 일부 실시양태에서, 정방향 및 역방향 서열 리드는 DNA 서열 리드이다.
일부 실시양태에서, 앰플리콘의 클러스터는 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되고, 각각의 서열 리드는 선택된 양방향 시퀀싱 기술에 의해 생성된다. 일부 실시양태에서, 양방향 시퀀싱 기술은 표 1에 나열된 기술로부터 선택된다. 일부 실시양태에서, 정방향 서열 리드 및 역방향 서열 리드는 중첩되지 않고 임의의 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는다.
일부 실시양태에서, 앰플리콘의 클러스터는 B 및/또는 T 세포 DNA로부터 증폭된다. 일부 실시양태에서, 앰플리콘의 클러스터는 적어도 하나의 재배열된 V, D 또는 J 유전자 분절을 포함한다. 일부 실시양태에서, 앰플리콘의 클러스터는 IgH, TCRβ 또는 TCRδ의 DJ 또는 VDJ 재배열, 또는 Igκ, Igλ, TCRα 또는 TCRγ의 VJ 재배열을 포함한다. 특정 실시양태에서, VJ 재배열은 카파 결실 요소 재배열이다. 일부 실시양태에서, 앰플리콘의 클러스터는 V 유전자 분절 영역, 예컨대, 과돌연변이가 일어나기 쉬운 영역 및/또는 CDR3의 부분을 코딩하는 J 유전자 분절 영역을 포함한다. 일부 실시양태에서, 앰플리콘의 클러스터는 V 리더 서열의 전부 또는 일부를 코딩하는 유전자 분절 영역, 체세포 과돌연변이에 취약한 V 영역, IgH FR1, IgH FR2 또는 IgH FR3을 포함한다.
일부 실시양태에서, 비-일시적 컴퓨터 판독 가능한 저장 매체는 제1 핵산 링커 서열을 통해 각각의 정방향 서열 리드가 역방향 서열 리드에 연결되고 각각의 역방향 서열 리드가 정방향 서열 리드에 연결되도록 정방향 서열 리드를 역방향 서열 리드와 연결하여 복수의 제1 핵산 서열 결과를 생성하는 명령어를 포함한다.
일부 실시양태에서, 각각의 연결은 정방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 3' 말단과 역방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 역상보체 사이에 제1 핵산 링커 서열을 연쇄시켜, 정방향 서열 리드의 부분, 제1 핵산 링커 서열 및 역방향 서열 리드의 부분의 역상보체를 이 순서대로 포함하는 제1 핵산 서열 결과를 생성함으로써 달성된다.
일부 실시양태에서, 비-일시적 컴퓨터 판독 가능한 저장 매체는 제2 핵산 링커 서열을 통해 각각의 정방향 서열 리드가 역방향 서열 리드에 연결되고 각각의 역방향 서열 리드가 정방향 서열 리드에 연결되도록 정방향 서열 리드를 역방향 서열 리드와 연결하여 복수의 제2 핵산 서열 결과를 생성하는 명령어를 추가로 포함하고, 이때 각각의 연결은 역방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 3' 말단과 정방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 역상보체 사이에 제2 핵산 링커 서열을 연쇄시켜, 역방향 서열 리드의 부분, 제2 핵산 링커 서열 및 정방향 서열 리드의 부분의 역상보체를 이 순서대로 포함하는 제2 핵산 서열 결과를 생성함으로써 달성되고; (1) 정방향 서열 리드의 부분의 길이는 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고, 역방향 서열 리드의 부분의 길이는 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고; (2) 제2 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이는 모든 역방향 서열 리드에 대해 동일하고 제1 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이와 동일하고; (3) 제2 핵산 링커에 연쇄되는 정방향 서열 리드의 부분의 길이는 모든 정방향 서열 리드에 대해 동일하고 제1 핵산 링커에 연쇄되는 정방향 서열 리드의 부분의 길이와 동일하나, 제2 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이와 동일할 수 있거나 상이할 수 있고; (4) 제2 핵산 링커 서열은 모든 제2 핵산 서열 결과에 대해 동일하다.
일부 실시양태에서, 식별은 정방향 서열 리드 및 역방향 서열 리드에서 발견되는 하나 이상의 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위에 의해 달성되고, 이때 정방향 서열 리드에서 발견되는 하나 이상의 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위는 역방향 서열 리드에서 발견되는 하나 이상의 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위와 상이하다.
일부 실시양태에서, 식별은 정방향 서열 리드 및 역방향 서열 리드에서 발견되는 하나 이상의 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위에 의해 달성되고, 이때 정방향 서열 리드에서 발견되는 하나 이상의 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위는 역방향 서열 리드에서 발견되는 하나 이상의 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위와 상이하다.
일부 실시양태에서, 정방향 서열 리드의 부분의 길이는 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 약 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83% 이상이고, 역방향 서열 리드의 부분의 길이는 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 약 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83% 이상이다. 일부 실시양태에서, 역방향 서열 리드의 부분의 길이는 분석되는 모든 역방향 서열 리드에 대해 동일하다. 일부 실시양태에서, 정방향 서열 리드의 부분의 길이는 분석되는 모든 정방향 서열 리드에 대해 동일하나, 역방향 서열 리드의 부분의 길이와 동일할 수 있거나 상이할 수 있다. 일부 실시양태에서, 정방향 서열 리드의 부분의 길이는 역방향 서열 리드의 부분의 길이와 동일하다.
일부 실시양태에서, 정방향 서열 리드의 부분은 정방향 서열 리드의 5' 말단의 특정된 수의 연속 뉴클레오타이드를 포함하고, 역방향 서열 리드의 부분은 역방향 서열 리드의 5' 말단의 특정된 수의 연속 뉴클레오타이드를 포함한다. 일부 실시양태에서, 특정된 수의 연속 뉴클레오타이드는 약 80개의 뉴클레오타이드 내지 약 180개의 뉴클레오타이드를 포함한다. 본 개시내용에서 사용된 바와 같이, 용어 "약"은 주어진 값의 ±10%를 의미한다. 일부 실시양태에서, 특정된 수의 연속 뉴클레오타이드는 약 80개, 약 90개, 약 100개, 약 110개, 약 120개, 약 130개, 약 140개, 약 150개, 약 160개, 약 170개 또는 약 180개의 뉴클레오타이드를 포함한다.
일부 실시양태에서, 제1 핵산 링커 서열은 모든 제1 핵산 서열 결과에 대해 동일하다. 일부 실시양태에서, 제1 핵산 링커 서열은 길이가 5개 내지 30개 뉴클레오타이드, 5개 내지 25개 뉴클레오타이드 또는 5개 내지 20개 뉴클레오타이드이다. 일부 실시양태에서, 제1 핵산 링커 서열의 길이는 적어도 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개 또는 16개 뉴클레오타이드이다.
일부 실시양태에서, 제1 핵산 링커 서열 및 제2 핵산 링커 서열은 길이가 적어도 11개 뉴클레오타이드이다. 일부 실시양태에서, 제1 핵산 링커 서열 및 제2 핵산 링커 서열은 길이가 5개 내지 30개 뉴클레오타이드, 5개 내지 25개 뉴클레오타이드 또는 5개 내지 20개 뉴클레오타이드이다. 일부 실시양태에서, 제1 핵산 링커 서열의 길이는 적어도 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개 또는 16개 뉴클레오타이드이다. 일부 실시양태에서, 제2 핵산 링커 서열의 길이는 적어도 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개 또는 16개 뉴클레오타이드이다.
디바이스
본 개시내용의 또 다른 측면은 비-중첩 서열 리드로부터 분석용 핵산 서열 결과를 준비하는 디바이스에 관한 것이다. 상기 디바이스는 앰플리콘의 클러스터의 서열 리드로부터 정방향 서열 리드 및 역방향 서열 리드를 식별하도록 구성된 하드웨어 프로세서를 포함한다.
일부 실시양태에서, 하드웨어 프로세서는 앰플리콘의 클러스터의 서열 리드로부터 정방향 서열 리드 및 역방향 서열 리드를 식별하도록 구성된다. 일부 실시양태에서, 정방향 및 역방향 서열 리드는 DNA 서열 리드이다.
일부 실시양태에서, 상기 하드웨어 프로세서는 제1 핵산 링커 서열을 통해 각각의 정방향 서열 리드가 역방향 서열 리드에 연결되고 각각의 역방향 서열 리드가 정방향 서열 리드에 연결되도록 정방향 서열 리드를 역방향 서열 리드와 연결하여 복수의 제1 핵산 서열 결과를 생성하도록 구성된다.
일부 실시양태에서, 각각의 연결은 정방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 3' 말단과 역방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 역상보체 사이에 제1 핵산 링커 서열을 연쇄시켜, 정방향 서열 리드의 부분, 제1 핵산 링커 서열 및 역방향 서열 리드의 부분의 역상보체를 이 순서대로 포함하는 제1 핵산 서열 결과를 생성함으로써 달성된다.
일부 실시양태에서, 앰플리콘의 클러스터는 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되고, 각각의 서열 리드는 선택된 양방향 시퀀싱 기술에 의해 생성된다. 일부 실시양태에서, 양방향 시퀀싱 기술은 표 1에 나열된 기술로부터 선택된다. 일부 실시양태에서, 정방향 서열 리드 및 역방향 서열 리드는 중첩되지 않고 임의의 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는다.
일부 실시양태에서, 앰플리콘의 클러스터는 B 및/또는 T 세포 DNA로부터 증폭된다. 일부 실시양태에서, 앰플리콘의 클러스터는 적어도 하나의 재배열된 V, D 또는 J 유전자 분절을 포함한다. 일부 실시양태에서, 앰플리콘의 클러스터는 IgH, TCRβ 또는 TCRδ의 DJ 또는 VDJ 재배열, 또는 Igκ, Igλ, TCRα 또는 TCRγ의 VJ 재배열을 포함한다. 특정 실시양태에서, VJ 재배열은 카파 결실 요소 재배열이다. 일부 실시양태에서, 앰플리콘의 클러스터는 V 유전자 분절 영역, 예컨대, 과돌연변이가 일어나기 쉬운 영역 및/또는 CDR3의 부분을 코딩하는 J 유전자 분절 영역을 포함한다. 일부 실시양태에서, 앰플리콘의 클러스터는 V 리더 서열의 전부 또는 일부를 코딩하는 유전자 분절 영역, 체세포 과돌연변이에 취약한 V 영역, IgH FR1, IgH FR2 또는 IgH FR3을 포함한다.
일부 실시양태에서, 비-일시적 컴퓨터 판독 가능한 저장 매체는 제2 핵산 링커 서열을 통해 각각의 정방향 서열 리드가 역방향 서열 리드에 연결되고 각각의 역방향 서열 리드가 정방향 서열 리드에 연결되도록 정방향 서열 리드를 역방향 서열 리드와 연결하여 복수의 제2 핵산 서열 결과를 생성하는 명령어를 추가로 포함하고, 이때 각각의 연결은 역방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 3' 말단과 정방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 역상보체 사이에 제2 핵산 링커 서열을 연쇄시켜, 역방향 서열 리드의 부분, 제2 핵산 링커 서열 및 정방향 서열 리드의 부분의 역상보체를 이 순서대로 포함하는 제2 핵산 서열 결과를 생성함으로써 달성되고; (1) 정방향 서열 리드의 부분의 길이는 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고, 역방향 서열 리드의 부분의 길이는 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고; (2) 제2 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이는 모든 역방향 서열 리드에 대해 동일하고 제1 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이와 동일하고; (3) 제2 핵산 링커에 연쇄되는 정방향 서열 리드의 부분의 길이는 모든 정방향 서열 리드에 대해 동일하고 제1 핵산 링커에 연쇄되는 정방향 서열 리드의 부분의 길이와 동일하나, 제2 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이와 동일할 수 있거나 상이할 수 있고; (4) 제2 핵산 링커 서열은 모든 제2 핵산 서열 결과에 대해 동일하다.
일부 실시양태에서, 정방향 서열 리드의 부분의 길이는 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 약 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83% 이상이고, 역방향 서열 리드의 부분의 길이는 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 약 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83% 이상이다. 일부 실시양태에서, 역방향 서열 리드의 부분의 길이는 분석되는 모든 역방향 서열 리드에 대해 동일하다. 일부 실시양태에서, 정방향 서열 리드의 부분의 길이는 분석되는 모든 정방향 서열 리드에 대해 동일하나, 역방향 서열 리드의 부분의 길이와 동일할 수 있거나 상이할 수 있다. 일부 실시양태에서, 정방향 서열 리드의 부분의 길이는 역방향 서열 리드의 부분의 길이와 동일하다.
일부 실시양태에서, 정방향 서열 리드의 부분은 정방향 서열 리드의 5' 말단의 특정된 수의 연속 뉴클레오타이드를 포함하고, 역방향 서열 리드의 부분은 역방향 서열 리드의 5' 말단의 특정된 수의 연속 뉴클레오타이드를 포함한다. 일부 실시양태에서, 특정된 수의 연속 뉴클레오타이드는 약 80개의 뉴클레오타이드 내지 약 180개의 뉴클레오타이드를 포함한다. 본 개시내용에서 사용된 바와 같이, 용어 "약"은 주어진 값의 ±10%를 의미한다. 일부 실시양태에서, 특정된 수의 연속 뉴클레오타이드는 약 80개, 약 90개, 약 100개, 약 110개, 약 120개, 약 130개, 약 140개, 약 150개, 약 160개, 약 170개 또는 약 180개의 뉴클레오타이드를 포함한다.
일부 실시양태에서, 제1 핵산 링커 서열은 모든 제1 핵산 서열 결과에 대해 동일하다. 일부 실시양태에서, 제1 핵산 링커 서열은 길이가 5개 내지 30개 뉴클레오타이드, 5개 내지 25개 뉴클레오타이드 또는 5개 내지 20개 뉴클레오타이드이다. 일부 실시양태에서, 제1 핵산 링커 서열의 길이는 적어도 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개 또는 16개 뉴클레오타이드이다.
일부 실시양태에서, 제1 핵산 링커 서열 및 제2 핵산 링커 서열은 길이가 적어도 11개 뉴클레오타이드이다. 일부 실시양태에서, 제1 핵산 링커 서열 및 제2 핵산 링커 서열은 길이가 5개 내지 30개 뉴클레오타이드, 5개 내지 25개 뉴클레오타이드 또는 5개 내지 20개 뉴클레오타이드이다. 일부 실시양태에서, 제1 핵산 링커 서열의 길이는 적어도 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개 또는 16개 뉴클레오타이드이다. 일부 실시양태에서, 제2 핵산 링커 서열의 길이는 적어도 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개 또는 16개 뉴클레오타이드이다.
본 발명의 추가 특징은 하기 비제한적 실시예에 더 완전하게 기재되어 있다.
실시예 1
방법
페어링된 말단 시퀀싱은 B 세포 또는 T 세포 클론성을 분석하는 표준 수단이다. 시퀀싱 길이가 충분할 때, 한 쌍의 두 리드 사이의 중첩을 이용하여 전체 재배열을 시퀀싱할 수 있다. 이 "완전한" 시퀀싱은 임의의 추가 포맷팅 단계 없이 직접 분석할 수 있게 한다. (예를 들어, 플랫폼 한계 또는 어세이 디자인의 이유로) 시퀀싱 길이가 불충분한 경우, "완전한" 시퀀싱 시나리오에 이용된 분석은 오류가 발생하기 쉬워진다. 클론성 평가를 목적으로 비-중첩 시퀀싱 데이터를 분석하는 방법이 본원에 기재되어 있다.
"완전한" 시퀀싱(페어링된 리드가 서로 중첩되고 앰플리콘의 전체 서열이 식별될 수 있는 경우)을 위한 분석 방법은 중첩을 식별하고 리드 1(R1)의 고유 비-중첩 서열에 이어, 리드 1과 리드 2(R1과 R2) 사이의 중첩 서열을 포함하고 리드 2(R2)의 고유 비-중첩 서열로 끝나는 연쇄된 서열을 생성하는 것으로 시작된다. 시퀀싱 플랫폼/어세이가 중첩 서열의 생성을 뒷받침하지 않을 때, 하기 변형은 다운스트림 분석이 일어나게 할 수 있다.
단순 테이핑 : 가장 간단한 방법은 리드 쌍(R1 및 R2)을 이들 사이의 고유 서열과 함께 "테이핑"하는 것이다. 다운스트림 분석이 기준과의 정렬을 포함하기 때문에, 이 정렬 단계와 관련될 수 없는 서열을 사용하는 것이 중요하다. 11 "N"의 서열(11-Nmer)이 선택되는데, 이는 이러한 서열이 일반적으로 표준 정렬 알고리즘 관행에 의해 정렬되지 않을 것이기 때문이다("N"은 알려지지 않은 뉴클레오타이드로서 간주되기 때문에 이를 정렬하고자 시도하지 않음). 첫째, R2 리드는 R1에 대한 센스 방향으로 존재하도록 역상보된다(rcR2). 그 다음, 11-Nmer는 R1의 말단에 연쇄된다. 마지막으로, R2 리드는 R1+11-Nmer 서열의 말단에 연쇄되어, R1+11-Nmer+rcR2 리드를 생성한다. 이 연쇄된 리드는 비로소 다운스트림 분석용으로 준비된 상태이다.
스마트 테이핑 : "스마트 테이핑"은 11-Nmer에 연쇄하기 전에 리드 쌍을 변형시킨다는 점을 제외하고 단순 테이핑 방법과 유사하다. R1 및 R2 리드는 어떤 유전자 특이적 프라이머가 이 리드들을 증폭하였는지에 의해 먼저 식별되고, 이것은 서열의 처음 20개 내지 25개의 뉴클레오타이드를 살펴보고 이를 알려진 프라이머 서열과 일치시킴으로써 간단해진다. 프라이머 서열의 말단(즉, 앵커 점)부터 추가 100개의 뉴클레오타이드가 남겨지고 나머지 서열이 제거되어(R1 및 R2 리드 둘 다에 대해), "트리밍된" R1 및 R2 리드가 생성된다. 이 시점에서, 트리밍된 리드를 단순 테이핑 방법과 동일한 방식으로 처리한다: 트리밍된 R2를 역상보하고, 11-Nmer를 트리밍된 R1에 연쇄시키고, 트리밍된 rcR2를 트리밍된 R1+11-Nmer에 연쇄시킨다. 이 연쇄된 트리밍된 리드는 비로소 다운스트림 분석용으로 준비된 상태이다.
다운스트림 분석 : 요약하건대, 얼마나 많은 카피가 데이터세트에 존재하는지에 대해 주석을 달기 위해 동일한 리드들을 이들의 헤더에 부착된 카운터로 단일 항목으로 축소한다. 축소된 리드를 기준과 정렬하고 가장 우수한 정렬을 기반으로 V-유전자 및 J-유전자를 할당하고, 각각의 리드의 총 카운트 및 상대 빈도에 대한 정량적 정보를 출력한다.
실시예 2
MISEQ 페어링된 말단 시퀀싱
데이터세트 : 편도선 배경 DNA로 희석시킨 10% 인공 세포주 DNA로 구성된 MiSeq 시퀀싱 실행(2x251 주기)을 테이핑 방법 효율의 입증에 이용하였다. 2x251 주기 실행은 선택된 표적의 "완전한" 시퀀싱 분석(LymphoTrack IGH FR1 어세이)을 허용하지만, R1 및 R2 페어링된 파일 내에 함유된 모든 리드의 마지막 100개 뉴클레오타이드를 제거함으로써, 이 실행 내에 함유된 데이터를 절단하여 2x151 주기를 모방하였다. 2x251 주기 데이터는 "대조군" 데이터세트로서 지칭될 것인 반면, 절단된 2.151 주기 데이터는 "테이프 시험" 데이터세트로서 지칭될 것이다.
추가로, 100% 세포주 DNA로 구성된 Nextseq 시퀀싱 실행(2x151 주기)을 테이핑 방법 효율의 실제 사용 사례의 입증에 사용하였다.
결과
완전한 시퀀싱을 이용한 MiSeq 대조군 데이터세트 결과 : 다운스트림 분석을 수행하기 전에 페어링된 리드를 중첩시키는 단계로 구성된 "완전한" 분석을 이용하여 대조군 데이터세트를 분석하였다. 결과는 표 2에 함유되어 있다.
Figure pct00002
이것은 "완전한" 시퀀싱 플랫폼/어세이를 이용할 때 이 10% 인공 데이터세트에 대해 예상된 결과이고, 이때 V3-J4 재배열은 거의 10% 빈도(여기서 9.45%)로 발견된다.
단순 테이핑을 이용한 MiSeq 테이프 시험 데이터세트 결과 : R1 리드와 R2 리드 사이에 11-Nmer 서열을 추가하는 단계로 구성된 "단순 테이프" 분석을 이용하여 MiSeq 테이프 시험 데이터세트를 분석하였다. 결과는 표 3에 함유되어 있다.
Figure pct00003
결과는 단순 테이핑 방법에 의해 10% 클론 서열이 상이한 길이의 많은 서열들로 분할된다는 것을 보여준다. 이에 대한 이유는 테이핑 단계 동안 11-Nmer를 배치할 위치의 선택으로부터 비롯된 것으로 보인다. 이들 상위 5개의 리드들에 대한 11-Nmer의 업스트림 및 다운스트림 영역의 정렬은 다음과 같고, 이때 대시기호는 리드에 존재하지 않는 서열의 정렬에서 갭을 표시한다. 리드 순위 2 및 5는 단일 갭을 가진 반면, 리드 순위 3은 4개 뉴클레오타이드의 갭을 가진다.
Figure pct00004
단순 테이핑 단계 동안, 11-Nmer는 R1 리드의 말단에 직접 연쇄된다. 테이핑 영역의 더 자세한 조사는 R1 리드의 말단이 동일한 서열인 것으로 간주되는 리드들에 대해 동일한 위치에서 일관되게 종결되지 않음을 보여준다. 이 현상은 특히 리드의 서열이 더 이상 동일하지 않고 다운스트림 분석 동안 축소되지 않기 때문에 상위 리드 신호를 감소시키는 데 있어서 분명히 부정적인 결과를 가진다.
스마트 테이핑을 이용한 MiSeq 테이프 시험 데이터세트 결과 : 그 다음, 프라이머 부위로부터 100개 이상의 뉴클레오타이드만큼 떨어진 R1 및 R2 리드로부터 서열을 트리밍하는 스마트 테이핑 방법을 이용하여 MiSeq 테이프 시험 데이터세트를 분석하였다. 결과는 표 4에서 확인된다.
Figure pct00005
결과는 앵커 점을 사용하여 리드의 "퍼지" 말단을 트리밍함으로써 서열 길이를 감소시키는 것이 완전한 시퀀싱 접근법에 의해 측정될 때 예측된 비를 회복시킬 수 있음을 보여준다.
실시예 3
NEXTSEQ 페어링된 말단 시퀀싱
단순 테이핑을 이용한 NextSeq 테이프 시험 데이터세트 결과 : R1 리드와 R2 리드 사이에 11-Nmer 서열을 추가하는 단계로 구성된 "단순 테이프" 분석을 이용하여 NextSeq 테이프 시험 데이터세트를 분석하였다. 결과는 표 5에 함유되어 있다.
Figure pct00006
결과는 단순 테이핑 방법에 의해 100% 클론 서열이 상이한 길이의 많은 서열들로 분할된다는 것을 보여준다. 이에 대한 이유는 테이핑 단계 동안 11-Nmer를 배치할 위치의 선택으로부터 비롯된 듯하다. 이들 상위 5개의 리드들에 대한 11-Nmer의 업스트림 및 다운스트림 영역의 정렬은 다음과 같고, 이때 대시기호는 리드에 존재하지 않는 서열의 정렬에서 갭을 표시한다. 리드 순위 1은 단일 갭을 갖고, 순위 2 및 5는 삼중 갭을 갖고, 순위 3은 갭을 갖지 않고, 순위 4는 이중 갭을 가진다.
Figure pct00007
단순 테이핑 단계 동안, 11-Nmer는 R1 리드의 말단 및 rcR2의 시작 부분에 직접 연쇄된다. 테이핑 영역의 더 자세히 조사는 rcR2 리드의 시작 부분(R2 리드의 말단이기도 함)이 동일한 서열인 것으로 간주되는 리드들에 대해 동일한 위치에서 일관되게 시작되지 않음을 보여준다. 이 현상은 특히 리드의 서열이 더 이상 동일하지 않고 다운스트림 분석 동안 축소되지 않기 때문에 상위 리드 신호를 감소시키는 데 있어서 분명히 부정적인 결과를 가진다.
스마트 테이핑을 이용한 NextSeq 테이프 시험 데이터세트 결과 : 이어서, 프라이머 부위로부터 100개 이상의 뉴클레오타이드만큼 떨어진 R1 및 R2 리드로부터 서열을 트리밍하는 스마트 테이핑 방법을 이용하여 NextSeq 테이프 시험 데이터세트를 분석하였다. 결과는 표 6에서 확인된다.
Figure pct00008
결과는 앵커 점을 사용하여 리드의 "퍼지" 말단을 트리밍함으로써 서열 길이를 감소시키는 것이 포착되는 신호를 크게 개선할 수 있음을 보여준다.
당분야에서 숙련된 자는 본원에 기재된 발명이 구체적으로 기재된 변경 및 변형 이외의 변경 및 변형을 받을 수 있음을 인식할 것이다. 본 발명은 모든 이러한 변경 및 변형을 포함하는 것으로 이해되어야 한다. 본 발명은 개별적으로 또는 집합적으로 본 명세서에서 언급되거나 표시된 모든 단계들, 특징들, 조성물들 및 화합물들, 및 상기 단계들 또는 특징들 중 임의의 2개 이상의 단계들 및 특징들의 임의의 모든 조합도 포함한다.
SEQUENCE LISTING <110> Invivoscribe Technologies, Inc. <120> A METHOD OF NUCLEIC ACID SEQUENCE ANALYSIS <130> 38093 WO <160> 10 <170> PatentIn version 3.5 <210> 1 <211> 37 <212> DNA <213> Artificial Sequence <220> <223> Oligonucleotide <220> <221> misc_feature <222> (16)..(26) <223> n is a, c, g, or t <400> 1 gctatgcgga ctctgnnnnn nnnnnngcca agaactc 37 <210> 2 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Oligonucleotide <220> <221> misc_feature <222> (15)..(25) <223> n is a, c, g, or t <400> 2 gctatgcgga ctctnnnnnn nnnnngccaa gaactc 36 <210> 3 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Oligonucleotide <220> <221> misc_feature <222> (12)..(22) <223> n is a, c, g, or t <400> 3 gctatgcgga cnnnnnnnnn nngccaagaa ctc 33 <210> 4 <211> 37 <212> DNA <213> Artificial Sequence <220> <223> Oligonucleotide <220> <221> misc_feature <222> (16)..(26) <223> n is a, c, g, or t <400> 4 gctatgcgga ctctgnnnnn nnnnnngcca agaactc 37 <210> 5 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Oligonucleotide <220> <221> misc_feature <222> (15)..(25) <223> n is a, c, g, or t <400> 5 gctatgcgga ctctnnnnnn nnnnngccaa gaactc 36 <210> 6 <211> 32 <212> DNA <213> Artificial Sequence <220> <223> Oligonucleotide <220> <221> misc_feature <222> (11)..(23) <223> n is a, c, g, or t <400> 6 gattgggatg nnnnnnnnnn nnnccaggtg gt 32 <210> 7 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> Oligonucleotide <220> <221> misc_feature <222> (11)..(23) <223> n is a, c, g, or t <400> 7 gattgggatg nnnnnnnnnn nnnaggtggt 30 <210> 8 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Oligonucleotide <220> <221> misc_feature <222> (11)..(23) <223> n is a, c, g, or t <400> 8 gattgggatg nnnnnnnnnn nnnaccaggt ggt 33 <210> 9 <211> 31 <212> DNA <213> Artificial Sequence <220> <223> Oligonucleotide <220> <221> misc_feature <222> (11)..(23) <223> n is a, c, g, or t <400> 9 gattgggatg nnnnnnnnnn nnncaggtgg t 31 <210> 10 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> Oligonucleotide <220> <221> misc_feature <222> (11)..(23) <223> n is a, c, g, or t <400> 10 gattgggatg nnnnnnnnnn nnnaggtggt 30

Claims (59)

  1. 하나 이상의 표적 뉴클레오타이드 서열의 발현에 대해 관심 있는 핵산 샘플을 스크리닝하는 방법으로서,
    (i) 상기 핵산 샘플로부터 유래한 개별 주형 DNA 분자의 라이브러리를 고체 지지체 상에서 공간적으로 단리하는 단계로서, 표적 뉴클레오타이드 서열이 상기 주형의 5' 및/또는 3' 말단에서 연속(contiguous) 뉴클레오타이드 영역에 국재화되도록 주형 DNA 분자가 생성되는 것인 단계;
    (ii) 상기 공간적으로 단리된 주형 DNA 분자를 증폭하여 앰플리콘의 클러스터를 생성하는 단계로서, 각각의 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되는 것인 단계;
    (iii) 하나 이상의 클러스터의 하나 이상의 앰플리콘을 양방향으로 시퀀싱하는 단계로서, 상기 앰플리콘의 정방향 및 역방향 서열 리드가 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는 것인 단계;
    (iv) 단계 (iii)에 따라 시퀀싱된 하나 이상의 클러스터에 대해 정방향 및 역방향 서열 리드를 식별하고,
    (a) 정방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 역방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 정방향 리드의 말단 5' 연속 핵산 서열의 부분, 및/또는
    (b) 역방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 정방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 역방향 리드의 말단 5' 연속 핵산 서열의 부분
    을 포함하는 핵산 서열 결과를 생성하는 단계로서,
    (1) 상기 부분이, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75% 이상이고, (2) 역방향 리드 연속 서열의 상기 부분이, 분석되는 모든 역방향 리드에 대해 동일하고, (3) 정방향 리드 연속 서열의 상기 부분이, 분석되는 모든 정방향 리드에 대해 동일하나, 역방향 리드 부분과 동일할 수 있거나 상이할 수 있고, (4) 링커 서열이 (a)의 모든 핵산 서열 결과에 대해 동일하고 링커 서열이 (b)의 모든 핵산 서열 결과에 대해 동일한 것인 단계; 및
    (v) 서열 결과를 분석하는 단계
    를 포함하는, 하나 이상의 표적 뉴클레오타이드 서열의 발현에 대해 관심 있는 핵산 샘플을 스크리닝하는 방법.
  2. 하나 이상의 표적 뉴클레오타이드 서열의 발현을 특징으로 하는 환자의 병태를 진단하거나, 모니터링하거나 스크리닝하는 방법으로서,
    (i) 핵산 샘플로부터 유래한 개별 주형 DNA 분자의 라이브러리를 고체 지지체 상에서 공간적으로 단리하는 단계로서, 표적 뉴클레오타이드 서열이 상기 주형의 5' 및/또는 3' 말단에서 연속 뉴클레오타이드 영역에 국재화되도록 주형 DNA 분자가 생성되는 것인 단계;
    (ii) 상기 공간적으로 단리된 주형 DNA 분자를 증폭하여 앰플리콘의 클러스터를 생성하는 단계로서, 각각의 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되는 것인 단계;
    (iii) 하나 이상의 클러스터의 하나 이상의 앰플리콘을 양방향으로 시퀀싱하는 단계로서, 상기 앰플리콘의 정방향 및 역방향 서열 리드가 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는 것인 단계;
    (iv) 단계 (iii)에 따라 시퀀싱된 하나 이상의 클러스터에 대해 정방향 및 역방향 서열 리드를 식별하고,
    (a) 정방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 역방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 정방향 리드의 말단 5' 연속 핵산 서열의 부분, 및/또는
    (b) 역방향 리드의 말단 5' 연속 핵산 서열의 부분으로서, 그의 3' 말단에서 핵산 링커 서열의 말단 중 하나에 연결되어 있고 링커 서열이 그의 다른 말단에서 정방향 리드의 말단 5' 연속 핵산 서열의 부분에 상보적인 서열에 연결되어 있는 역방향 리드의 말단 5' 연속 핵산 서열의 부분
    을 포함하는 핵산 서열 결과를 생성하는 단계로서,
    (1) 상기 부분이, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75% 이상이고, (2) 역방향 리드 연속 서열의 상기 부분이, 분석되는 모든 역방향 리드에 대해 동일하고, (3) 정방향 리드 연속 서열의 상기 부분이, 분석되는 모든 정방향 리드에 대해 동일하나, 역방향 리드 부분과 동일할 수 있거나 상이할 수 있고, (4) 링커 서열이 (a)의 모든 핵산 서열 결과에 대해 동일하고 링커 서열이 (b)의 모든 핵산 서열 결과에 대해 동일한 것인 단계; 및
    (v) 서열 결과를 분석하는 단계
    를 포함하는, 하나 이상의 표적 뉴클레오타이드 서열의 발현을 특징으로 하는 환자의 병태를 진단하거나, 모니터링하거나 스크리닝하는 방법.
  3. 제1항 또는 제2항에 있어서, 상기 핵산 영역은 DNA인 방법.
  4. 제2항에 있어서, 상기 관심 있는 핵산 샘플은 B 및/또는 T 세포 DNA를 포함하고, 상기 하나 이상의 표적 뉴클레오타이드 서열은 하나 이상의 재배열된 V, D 또는 J 유전자 분절인 방법.
  5. 제3항에 있어서, 상기 표적 뉴클레오타이드 서열은 IgH, TCRβ 또는 TCRδ의 DJ 또는 VDJ 재배열이거나, 카파 결실 요소 재배열인 방법.
  6. 제3항에 있어서, 상기 표적 뉴클레오타이드 서열은 Igκ, Igλ, TCRα 또는 TCRγ의 VJ 재배열인 방법.
  7. 제3항에 있어서, 상기 표적 뉴클레오타이드 서열은 V 유전자 분절 영역, 예컨대, 과돌연변이가 일어나기 쉬운 영역 및/또는 CDR3의 부분을 코딩하는 J 유전자 분절 영역인 방법.
  8. 제3항에 있어서, 상기 표적 뉴클레오타이드 서열은 V 리더 서열의 전부 또는 일부를 코딩하는 유전자 분절 영역, 체세포 과돌연변이에 취약한 V 영역, IgH FR1, IgH FR2 또는 IgH FR3인 방법.
  9. 제3항에 있어서, 상기 표적 뉴클레오타이드 서열은 BCL1/JH 또는 BCL2/JH 전위, 또는 FLT3 또는 TP53 유전자와 관련된 내부 직렬 중복 또는 다른 돌연변이인 방법.
  10. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 고체 지지체는 유리 표면인 방법.
  11. 제10항에 있어서, 상기 유리 표면은 유리 슬라이드 또는 유동 셀인 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 상기 주형 DNA 분자는 말단 5' 및/또는 3' 위치에서 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 및 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 핵산 서열을 발현하는 것인 방법.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서, 단계 (i)의 상기 연속 뉴클레오타이드 영역은 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 약 80%에 상응하는 것인 방법.
  14. 제1항 내지 제13항 중 어느 한 항에 있어서, 상기 연속 뉴클레오타이드 영역은 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83%에 상응하고, 상기 정방향 및 역방향 리드 부분은 단계 (iii)에서 사용하기 위해 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 정방향 및 역방향 리드 길이의 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82% 또는 83% 이상인 방법.
  15. 제14항에 있어서, 상기 표적 DNA 서열은 상기 주형의 5' 및/또는 3' 말단에서 120개의 연속 뉴클레오타이드에 국재화되나, 상기 연속 뉴클레오타이드 영역의 20개 뉴클레오타이드 말단은 어댑터, 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 뉴클레오타이드 서열을 발현하는 것인 방법.
  16. 제14항에 있어서, 상기 표적 DNA 서열은 상기 주형의 5' 및/또는 3' 말단에서 125개의 연속 뉴클레오타이드에 국재화되나, 상기 연속 뉴클레오타이드 영역의 최대 30개 뉴클레오타이드 말단은 어댑터, 인덱스, 바코드, 고유 분자 식별자, 시퀀싱 프라이머 하이브리드화 부위 또는 인덱스 시퀀싱 프라이머 하이브리드화 부위에 상응하는 하나 이상의 뉴클레오타이드 서열을 발현하는 것인 방법.
  17. 제1항 내지 제15항 중 어느 한 항에 있어서, 상기 증폭은 가교 증폭인 방법.
  18. 제1항 내지 제16항 중 어느 한 항에 있어서, 가역적으로 종결된 표지된 뉴클레오타이드를 사용한 합성에 의한 시퀀싱인 방법.
  19. 제1항 내지 제18항 중 어느 한 항에 있어서, 상기 핵산 링커는 길이가 5개 내지 30개 뉴클레오타이드, 바람직하게는 5개 내지 25개, 보다 바람직하게는 5개 내지 20개 뉴클레오타이드인 방법.
  20. 제19항에 있어서, 상기 링커는 길이가 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개 또는 16개 뉴클레오타이드인 방법.
  21. 제1항 내지 제20항 중 어느 한 항에 있어서, 상기 분석은 단계 (iv)에서 생성된 핵산 서열 결과를 정렬하는 단계, 및 관심 있는 표적 핵산 서열의 발현을 확인하는 단계를 포함하는 것인 방법.
  22. 제2항에 있어서, 상기 병태는 세포 또는 미생물의 클론 집단을 특징으로 하는 것인 방법.
  23. 제22항에 있어서, 상기 클론 세포는 클론 림프계 세포의 집단인 방법.
  24. 제2항에 있어서, 상기 병태는 면역 세포에 의해 발현되는 하나 이상의 표적 뉴클레오타이드 서열을 특징으로 하는 것인 방법.
  25. 제24항에 있어서, 상기 표적 뉴클레오타이드 서열은 하나 이상의 재배열된 V, D 또는 J 유전자 분절 서열 특징인 방법.
  26. 제25항에 있어서, 하나 이상의 재배열된 V, D 또는 J 유전자 분절 서열 특징의 발현을 특징으로 하는 상기 병태는 감염, 이식, 자가면역, 면역결핍, 알레르기, 신생물, 또는 T 또는 B 세포 클론 확장을 특징으로 하는 임의의 다른 병태인 방법.
  27. 제26항에 있어서, 상기 신생물은 림프계 또는 골수성 신생물인 방법.
  28. 제27항에 있어서, 상기 림프계 또는 골수성 신생물은 급성 림프모구성 백혈병, 급성 림프구성 백혈병, 급성 골수성 백혈병, 급성 전골수구성 백혈병, 만성 림프구성 백혈병, 만성 골수성 백혈병, 골수증식성 신생물, 예컨대, 골수종, 전신 비만세포증, 림프종 및 털세포 백혈병인 방법.
  29. 제27항 또는 제28항에 있어서, 최소 잔류 질환을 검출하는 데 이용되는 방법.
  30. 제26항에 있어서, 상기 병태가 이식 거부, 면역요법, 진성 적혈구증가증, 골수이형성증 및 백혈구증가증인 방법.
  31. 제30항에 있어서, 상기 백혈구증가증이 림프구성 백혈구증가증인 방법.
  32. 제2항에 있어서, 진단, 예후, 질환 위험의 예측, 질환 재발의 검출, 면역 감시, 또는 예방 또는 치료 효능의 모니터링에 적용되는 방법.
  33. 비-중첩 서열 리드로부터 분석용 핵산 서열 결과를 준비하기 위한 컴퓨터 구현 방법으로서,
    앰플리콘의 클러스터의 서열 리드로부터 정방향 서열 리드 및 역방향 서열 리드를 식별하는 단계로서, 상기 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되고, 각각의 서열 리드가, 선택된 양방향 시퀀싱 기술에 의해 생성되고, 정방향 서열 리드와 역방향 서열 리드가 중첩되지 않으며 임의의 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는 것인 단계; 및
    제1 핵산 링커 서열을 통해 각각의 정방향 서열 리드가 역방향 서열 리드에 연결되고 각각의 역방향 서열 리드가 정방향 서열 리드에 연결되도록 정방향 서열 리드를 역방향 서열 리드와 연결하여 복수의 제1 핵산 서열 결과를 생성하는 단계
    를 포함하고, 각각의 연결이
    정방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 3' 말단과 역방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 역상보체 사이에 제1 핵산 링커 서열을 연쇄시켜, 정방향 서열 리드의 부분, 제1 핵산 링커 서열 및 역방향 서열 리드의 부분의 역상보체를 이 순서대로 포함하는 제1 핵산 서열 결과를 생성함으로써 달성되고;
    (1) 정방향 서열 리드의 부분의 길이가, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고, 역방향 서열 리드의 부분의 길이가, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고; (2) 역방향 서열 리드의 부분의 길이가, 분석되는 모든 역방향 서열 리드에 대해 동일하고; (3) 정방향 서열 리드의 부분의 길이가, 분석되는 모든 정방향 서열 리드에 대해 동일하지만, 역방향 서열 리드의 부분의 길이와 동일할 수 있거나 상이할 수 있고, (4) 제1 핵산 링커 서열이 모든 제1 핵산 서열 결과에 대해 동일한 것인, 비-중첩 서열 리드로부터 분석용 핵산 서열 결과를 준비하기 위한 컴퓨터 구현 방법.
  34. 제33항에 있어서, 제2 핵산 링커 서열을 통해 각각의 정방향 서열 리드가 역방향 서열 리드에 연결되고 각각의 역방향 서열 리드가 정방향 서열 리드에 연결되도록 정방향 서열 리드를 역방향 서열 리드와 연결하여 복수의 제2 핵산 서열 결과를 생성하는 단계를 추가로 포함하고, 각각의 연결이
    역방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 3' 말단과 정방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 역상보체 사이에 제2 핵산 링커 서열을 연쇄시켜, 역방향 서열 리드의 부분, 제2 핵산 링커 서열 및 정방향 서열 리드의 부분의 역상보체를 이 순서대로 포함하는 제2 핵산 서열 결과를 생성함으로써 달성되고;
    (1) 정방향 서열 리드의 부분의 길이가, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고, 역방향 서열 리드의 부분의 길이가, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고; (2) 제2 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이가 모든 역방향 서열 리드에 대해 동일하고 제1 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이와 동일하고; (3) 제2 핵산 링커에 연쇄되는 정방향 서열 리드의 부분의 길이가 모든 정방향 서열 리드에 대해 동일하고 제1 핵산 링커에 연쇄되는 정방향 서열 리드의 부분의 길이와 동일하나, 제2 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이와 동일할 수 있거나 상이할 수 있고; (4) 제2 핵산 링커 서열이 모든 제2 핵산 서열 결과에 대해 동일한 것인 컴퓨터 구현 방법.
  35. 제34항에 있어서, 제1 핵산 링커 서열 및 제2 핵산 링커 서열은 길이가 적어도 11개 뉴클레오타이드인 컴퓨터 구현 방법.
  36. 제33항에 있어서, 정방향 서열 리드의 부분의 길이는 역방향 서열 리드의 부분의 길이와 동일한 것인 컴퓨터 구현 방법.
  37. 제33항에 있어서, 정방향 서열 리드의 부분은 정방향 서열 리드의 5' 말단의 특정된 수의 연속 뉴클레오타이드를 포함하고, 역방향 서열 리드의 부분은 역방향 서열 리드의 5' 말단의 특정된 수의 연속 뉴클레오타이드를 포함하는 것인 컴퓨터 구현 방법.
  38. 제37항에 있어서, 특정된 수의 연속 뉴클레오타이드는 약 80개의 뉴클레오타이드 내지 약 180개의 뉴클레오타이드를 포함하는 것인 컴퓨터 구현 방법.
  39. 제33항 내지 제38항 중 어느 한 항에 있어서, 정방향 및 역방향 서열 리드는 DNA 서열 리드인 컴퓨터 구현 방법.
  40. 제33항 내지 제39항 중 어느 한 항에 있어서, 앰플리콘의 클러스터는 B 및/또는 T 세포 DNA로부터 증폭되는 것인 컴퓨터 구현 방법.
  41. 제40항에 있어서, 앰플리콘의 클러스터는 적어도 하나의 재배열된 V, D 또는 J 유전자 분절을 포함하는 것인 컴퓨터 구현 방법.
  42. 앰플리콘의 클러스터의 서열 리드로부터 정방향 서열 리드 및 역방향 서열 리드를 식별하는 단계로서, 상기 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되고, 각각의 서열 리드가, 선택된 양방향 시퀀싱 기술에 의해 생성되고, 정방향 서열 리드와 역방향 서열 리드가 중첩되지 않으며 임의의 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는 것인 단계; 및
    제1 핵산 링커 서열을 통해 각각의 정방향 서열 리드가 역방향 서열 리드에 연결되고 각각의 역방향 서열 리드가 정방향 서열 리드에 연결되도록 정방향 서열 리드를 역방향 서열 리드와 연결하여 복수의 제1 핵산 서열 결과를 생성하는 단계
    를 통해 디바이스가 비-중첩 서열 리드로부터 분석용 핵산 서열 결과를 준비하는 방법을 구현하도록 디바이스의 처리 요소에 의해 실행될 수 있는 프로그램 명령어가 구체화되어 있는 비-일시적 컴퓨터 판독 가능한 저장 매체로서, 각각의 연결이
    정방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 3' 말단과 역방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 역상보체 사이에 제1 핵산 링커 서열을 연쇄시켜, 정방향 서열 리드의 부분, 제1 핵산 링커 서열 및 역방향 서열 리드의 부분의 역상보체를 이 순서대로 포함하는 제1 핵산 서열 결과를 생성함으로써 달성되고;
    (1) 정방향 서열 리드의 부분의 길이가, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고, 역방향 서열 리드의 부분의 길이가, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고; (2) 역방향 서열 리드의 부분의 길이가, 분석되는 모든 역방향 서열 리드에 대해 동일하고; (3) 정방향 서열 리드의 부분의 길이가, 분석되는 모든 정방향 서열 리드에 대해 동일하지만, 역방향 서열 리드의 부분의 길이와 동일할 수 있거나 상이할 수 있고, (4) 제1 핵산 링커 서열이 모든 제1 핵산 서열 결과에 대해 동일한 것인 비-일시적 컴퓨터 판독 가능한 저장 매체.
  43. 제42항에 있어서, 제2 핵산 링커 서열을 통해 각각의 정방향 서열 리드가 역방향 서열 리드에 연결되고 각각의 역방향 서열 리드가 정방향 서열 리드에 연결되도록 정방향 서열 리드를 역방향 서열 리드와 연결하여 복수의 제2 핵산 서열 결과를 생성하는 단계를 추가로 포함하고, 각각의 연결이
    역방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 3' 말단과 정방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 역상보체 사이에 제2 핵산 링커 서열을 연쇄시켜, 역방향 서열 리드의 부분, 제2 핵산 링커 서열 및 정방향 서열 리드의 부분의 역상보체를 이 순서대로 포함하는 제2 핵산 서열 결과를 생성함으로써 달성되고;
    (1) 정방향 서열 리드의 부분의 길이가, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고, 역방향 서열 리드의 부분의 길이가, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고; (2) 제2 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이가 모든 역방향 서열 리드에 대해 동일하고 제1 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이와 동일하고; (3) 제2 핵산 링커에 연쇄되는 정방향 서열 리드의 부분의 길이가 모든 정방향 서열 리드에 대해 동일하고 제1 핵산 링커에 연쇄되는 정방향 서열 리드의 부분의 길이와 동일하나, 제2 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이와 동일할 수 있거나 상이할 수 있고; (4) 제2 핵산 링커 서열이 모든 제2 핵산 서열 결과에 대해 동일한 것인 비-일시적 컴퓨터 판독 가능한 저장 매체.
  44. 제42항에 있어서, 제1 핵산 링커 서열 및 제2 핵산 링커 서열은 길이가 적어도 11개 뉴클레오타이드인 비-일시적 컴퓨터 판독 가능한 저장 매체.
  45. 제42항에 있어서, 정방향 서열 리드의 부분의 길이는 역방향 서열 리드의 부분의 길이와 동일한 것인 비-일시적 컴퓨터 판독 가능한 저장 매체.
  46. 제42항에 있어서, 정방향 서열 리드의 부분은 정방향 서열 리드의 5' 말단의 특정된 수의 연속 뉴클레오타이드를 포함하고, 역방향 서열 리드의 부분은 역방향 서열 리드의 5' 말단의 특정된 수의 연속 뉴클레오타이드를 포함하는 것인 비-일시적 컴퓨터 판독 가능한 저장 매체.
  47. 제46항에 있어서, 특정된 수의 연속 뉴클레오타이드는 약 80개의 뉴클레오타이드 내지 약 180개의 뉴클레오타이드를 포함하는 것인 비-일시적 컴퓨터 판독 가능한 저장 매체.
  48. 제42항 내지 제47항 중 어느 한 항에 있어서, 정방향 및 역방향 서열 리드는 DNA 서열 리드인 비-일시적 컴퓨터 판독 가능한 저장 매체.
  49. 제42항 내지 제48항 중 어느 한 항에 있어서, 앰플리콘의 클러스터는 B 및/또는 T 세포 DNA로부터 증폭되는 것인 비-일시적 컴퓨터 판독 가능한 저장 매체.
  50. 제49항에 있어서, 앰플리콘의 클러스터는 적어도 하나의 재배열된 V, D 또는 J 유전자 분절을 포함하는 것인 비-일시적 컴퓨터 판독 가능한 저장 매체.
  51. 앰플리콘의 클러스터의 서열 리드로부터 정방향 서열 리드 및 역방향 서열 리드를 식별하는 단계로서, 상기 클러스터가 개별 공간적으로 단리된 주형 DNA 분자로부터 생성되고, 각각의 서열 리드가, 선택된 양방향 시퀀싱 기술에 의해 생성되고, 정방향 서열 리드와 역방향 서열 리드가 중첩되지 않고 임의의 앰플리콘의 전체 길이에 걸쳐 연속 리드를 제공하지 않는 것인 단계; 및
    제1 핵산 링커 서열을 통해 각각의 정방향 서열 리드가 역방향 서열 리드에 연결되고 각각의 역방향 서열 리드가 정방향 서열 리드에 연결되도록 정방향 서열 리드를 역방향 서열 리드와 연결하여 복수의 제1 핵산 서열 결과를 생성하는 단계
    를 수행하도록 구성된 하드웨어 프로세서를 포함하는, 비-중첩 서열 리드로부터 분석용 핵산 서열 결과를 준비하기 위한 디바이스로서, 각각의 연결이
    정방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 3' 말단과 역방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 역상보체 사이에 제1 핵산 링커 서열을 연쇄시켜, 정방향 서열 리드의 부분, 제1 핵산 링커 서열 및 역방향 서열 리드의 부분의 역상보체를 이 순서대로 포함하는 제1 핵산 서열 결과를 생성함으로써 달성되고;
    (1) 정방향 서열 리드의 부분의 길이가, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고, 역방향 서열 리드의 부분의 길이가, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고; (2) 역방향 서열 리드의 부분의 길이가, 분석되는 모든 역방향 서열 리드에 대해 동일하고; (3) 정방향 서열 리드의 부분의 길이가, 분석되는 모든 정방향 서열 리드에 대해 동일하지만, 역방향 서열 리드의 부분의 길이와 동일할 수 있거나 상이할 수 있고, (4) 제1 핵산 링커 서열이 모든 제1 핵산 서열 결과에 대해 동일한 것인 디바이스.
  52. 제51항에 있어서, 하드웨어 프로세서는, 제2 핵산 링커 서열을 통해 각각의 정방향 서열 리드가 역방향 서열 리드에 연결되고 각각의 역방향 서열 리드가 정방향 서열 리드에 연결되도록 정방향 서열 리드를 역방향 서열 리드와 연결하여 복수의 제2 핵산 서열 결과를 생성하도록 추가로 구성되고, 각각의 연결은
    역방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 3' 말단과 정방향 서열 리드의 말단 5' 연속 핵산 서열의 부분의 역상보체 사이에 제2 핵산 링커 서열을 연쇄시켜, 역방향 서열 리드의 부분, 제2 핵산 링커 서열 및 정방향 서열 리드의 부분의 역상보체를 이 순서대로 포함하는 제2 핵산 서열 결과를 생성함으로써 달성되고;
    (1) 정방향 서열 리드의 부분의 길이는, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고, 역방향 서열 리드의 부분의 길이는, 선택된 양방향 시퀀싱 기술에 의해 전달될 수 있는 최대 리드 길이의 75% 이상이고; (2) 제2 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이는 모든 역방향 서열 리드에 대해 동일하고 제1 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이와 동일하고; (3) 제2 핵산 링커에 연쇄되는 정방향 서열 리드의 부분의 길이는 모든 정방향 서열 리드에 대해 동일하고 제1 핵산 링커에 연쇄되는 정방향 서열 리드의 부분의 길이와 동일하나, 제2 핵산 링커에 연쇄되는 역방향 서열 리드의 부분의 길이와 동일할 수 있거나 상이할 수 있고; (4) 제2 핵산 링커 서열은 모든 제2 핵산 서열 결과에 대해 동일한 것인 디바이스.
  53. 제52항에 있어서, 제1 핵산 링커 서열 및 제2 핵산 링커 서열은 길이가 적어도 11개 뉴클레오타이드인 디바이스.
  54. 제51항에 있어서, 정방향 서열 리드의 부분의 길이는 역방향 서열 리드의 부분의 길이와 동일한 것인 디바이스.
  55. 제51항에 있어서, 정방향 서열 리드의 부분은 정방향 서열 리드의 5' 말단의 특정된 수의 연속 뉴클레오타이드를 포함하고, 역방향 서열 리드의 부분은 역방향 서열 리드의 5' 말단의 특정된 수의 연속 뉴클레오타이드를 포함하는 것인 디바이스.
  56. 제55항에 있어서, 특정된 수의 연속 뉴클레오타이드는 약 80개의 뉴클레오타이드 내지 약 180개의 뉴클레오타이드를 포함하는 것인 디바이스.
  57. 제51항 내지 제56항 중 어느 한 항에 있어서, 정방향 및 역방향 서열 리드는 DNA 서열 리드인 디바이스.
  58. 제51항 내지 제57항 중 어느 한 항에 있어서, 앰플리콘의 클러스터는 B 및/또는 T 세포 DNA로부터 증폭되는 것인 디바이스.
  59. 제58항에 있어서, 앰플리콘의 클러스터는 적어도 하나의 재배열된 V, D 또는 J 유전자 분절을 포함하는 것인 디바이스.
KR1020227025485A 2019-12-24 2020-12-23 핵산 서열 분석 방법 KR20220123246A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962953270P 2019-12-24 2019-12-24
US62/953,270 2019-12-24
PCT/US2020/066804 WO2021133891A1 (en) 2019-12-24 2020-12-23 A method of nucleic acid sequence analysis

Publications (1)

Publication Number Publication Date
KR20220123246A true KR20220123246A (ko) 2022-09-06

Family

ID=74191975

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227025485A KR20220123246A (ko) 2019-12-24 2020-12-23 핵산 서열 분석 방법

Country Status (8)

Country Link
US (1) US20230055466A1 (ko)
EP (1) EP4081663A1 (ko)
JP (1) JP2023508991A (ko)
KR (1) KR20220123246A (ko)
CN (1) CN115667545A (ko)
AU (1) AU2020415445A1 (ko)
CA (1) CA3162999A1 (ko)
WO (1) WO2021133891A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117133357A (zh) * 2022-05-18 2023-11-28 京东方科技集团股份有限公司 Igk基因重排的检测方法、装置、电子设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013090390A2 (en) * 2011-12-13 2013-06-20 Sequenta, Inc. Method of measuring immune activation
EP3844760A1 (en) * 2018-08-31 2021-07-07 Guardant Health, Inc. Genetic variant detection based on merged and unmerged reads

Also Published As

Publication number Publication date
AU2020415445A1 (en) 2022-08-18
CN115667545A (zh) 2023-01-31
WO2021133891A1 (en) 2021-07-01
EP4081663A1 (en) 2022-11-02
JP2023508991A (ja) 2023-03-06
CA3162999A1 (en) 2021-07-01
US20230055466A1 (en) 2023-02-23

Similar Documents

Publication Publication Date Title
US20220220531A1 (en) Reagents And Methods For The Analysis of Linked Nucleic Acids
EP1633884B1 (en) Identification of clonal cells by repeats in (eg.) t-cell receptor v/d/j genes
EP3611262B1 (en) Methods of sequencing the immune repertoire
KR20180020137A (ko) 고유 분자 색인(umi)을 갖는 용장성 판독을 사용하는 서열분석된 dna 단편의 오류 억제
US20150154352A1 (en) System and Methods for Genetic Analysis of Mixed Cell Populations
EP3990657A2 (en) Reagents and methods for the analysis of microparticles
US20210254136A1 (en) Methods for the Analysis of Circulating Microparticles
WO2017193044A1 (en) Noninvasive prenatal diagnostic
JP2016520326A (ja) マルチプレックス配列決定のための分子バーコード化
US20220002802A1 (en) Compositions and methods for immune repertoire sequencing
US20220073983A1 (en) Compositions and methods for immune repertoire sequencing
KR20220123246A (ko) 핵산 서열 분석 방법
JP2022544578A (ja) T細胞レパトアを決定するための標的ハイブリッドキャプチャー法
US20240352518A1 (en) Methods for simultaneous mutation detection and methylation analysis
EP4448787A1 (en) Genotyping of targeted loci with single-cell chromatin accessibility