TW201842189A - 用於資料庫建立及序列分析之組合物及方法 - Google Patents

用於資料庫建立及序列分析之組合物及方法 Download PDF

Info

Publication number
TW201842189A
TW201842189A TW107113306A TW107113306A TW201842189A TW 201842189 A TW201842189 A TW 201842189A TW 107113306 A TW107113306 A TW 107113306A TW 107113306 A TW107113306 A TW 107113306A TW 201842189 A TW201842189 A TW 201842189A
Authority
TW
Taiwan
Prior art keywords
sequence
stranded
linker
dna
database
Prior art date
Application number
TW107113306A
Other languages
English (en)
Other versions
TWI797118B (zh
Inventor
傑佛瑞 A 高爾
亞薩爾瓦 戈爾
劉蕊
Original Assignee
美商鵾遠基因公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商鵾遠基因公司 filed Critical 美商鵾遠基因公司
Publication of TW201842189A publication Critical patent/TW201842189A/zh
Application granted granted Critical
Publication of TWI797118B publication Critical patent/TWI797118B/zh

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1093General methods of preparing gene libraries, not provided for in other subgroups
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/06Libraries containing nucleotides or polynucleotides, or derivatives thereof
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B50/00Methods of creating libraries, e.g. combinatorial synthesis
    • C40B50/14Solid phase synthesis, i.e. wherein one or more library building blocks are bound to a solid support during library creation; Particular methods of cleavage from the solid support
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/50Other enzymatic activities
    • C12Q2521/501Ligase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/191Modifications characterised by incorporating an adaptor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Microbiology (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Immunology (AREA)
  • Plant Pathology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Structural Engineering (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Sampling And Sample Adjustment (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)
  • Polyurethanes Or Polyureas (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本發明係關於用於建立聚核苷酸資料庫及/或聚核苷酸定序之方法。亦揭示相關套組及裝置。

Description

用於資料庫建立及序列分析之組合物及方法
本發明係關於用於例如藉由聚核苷酸定序進行遺傳及基因體分析之組合物、套組、裝置及方法。在特定態樣中,本發明提供用於建立資料庫之組合物、套組及方法,其在定序期間具有提高之連接效率及轉化率。在某些實施例中,本文中之組合物、套組及方法適用於分析聚核苷酸片段,諸如個體體內之循環聚核苷酸片段,包括循環腫瘤DNA。
在以下論述中,出於背景及介紹性的目的描述特定物品及方法。本文含有的任何內容不視為對先前技術之「承認」。申請人明確地保留以下權利:在適當時依據適用法定條款證明本文中所引用之物品及方法並不構成先前技術。 儘管過去數年中在資料庫建立中有數個改進,用於次世代定序之資料庫建立方法仍然低效,引起諸多原始分子在各種步驟期間損失。雙股連接效率仍然較低,約20-30%之分子正常連接。此外,在純化及雜交捕獲步驟期間諸多分子損失,使得最終轉化率接近10-20%。當檢查低對偶基因比例變異體,例如在循環腫瘤DNA (ctDNA)所見之彼等時靈敏度仍然較低。當指定低對偶基因比例突變體時此限制準確度,此係由於當觀察具有低對偶基因比例之資料庫時低效率將引起靈敏度損失。 需要改進之分析技術以解決以上技術問題。本發明解決此及其他相關需要。
本發明內容並不意欲用於限制所主張之主題之範疇。所主張之主題之其他特徵、細節、效用及優勢將自實施方式,包括附圖及所附申請專利範圍中所揭示之彼等態樣而顯而易見。 在一個實施例中,本文提供一種方法,其包含將一組連接子連接至單股聚核苷酸之資料庫。在一個態樣中,連接由單股DNA (ssDNA)連接酶催化。在另一態樣中,每一單股聚核苷酸在5'端阻斷以避免在5'端處之連接。在又一態樣中,每一連接子包含指定與連接子連接之單股聚核苷酸的唯一分子標識符(UMI)序列。在一個其他態樣中,每一連接子在3'端阻斷以避免在3'端處之連接。在一個態樣中,連接子之5'端藉由ssDNA連接酶連接至單股聚核苷酸之3'端,形成線性連接產物。在前述實施例中之任一者中,可獲得線性單股連接產物之資料庫。 在另一實施例中,提供一種方法,其包含將一組連接子連接至單股聚核苷酸之資料庫,且在該方法中,連接由單股DNA (ssDNA)連接酶催化,每一單股聚核苷酸在5'端處阻斷以避免在5'端處之連接,每一連接子包含指定與連接子連接之單股聚核苷酸的唯一分子標識符(UMI)序列,每一連接子在3'端處阻斷以避免在3'端處之連接,且連接子之5'端藉由ssDNA連接酶連接至單股聚核苷酸之3'端,形成線性連接產物,藉此獲得線性單股連接產物之資料庫。 在前述實施例中之任一者中,該方法可進一步包含在連接步驟之前,自樣本獲得單股聚核苷酸之資料庫的步驟。在一個態樣中,獲得步驟包含使來自樣本之雙股聚核苷酸變性。 在前述實施例中之任一者中,樣本可為生物樣本。在一些實施例中,生物樣本不經任何處理自個體直接獲得。在一些實施例中,生物樣本中之聚核苷酸尚未經過亞硫酸氫鹽轉化。在其他實施例中,生物樣本中之聚核苷酸已經過部分或完全亞硫酸氫鹽轉化。在某些態樣中,生物樣本來自患有或疑似患有疾病或病狀(諸如癌症或贅瘤)之個體。 在前述實施例中之任一者中,單股聚核苷酸可以來自包含循環腫瘤DNA (ctDNA)之樣本,諸如血液、血清、血漿或體液樣本或其任何組合。 在前述實施例中之任一者中,單股聚核苷酸之長度可為約20個核酸殘基至約400個核酸殘基,例如長度為約80、約100、約120、約140、約160、約180、約200、約220或約240個核酸殘基。 在前述實施例中之任一者中,ssDNA連接酶可為棲熱菌屬(Thermus )噬菌體RNA連接酶,諸如噬菌體TS2126 RNA連接酶(例如CircLigase™及CircLigase II™)或古細菌(archaebacterium) RNA連接酶,諸如熱自養甲烷桿菌(Methanobacterium thermoautotrophicum ) RNA連接酶1。在其他態樣中,ssDNA連接酶為RNA連接酶,諸如T4 RNA連接酶,例如T4 RNA連接酶I (例如New England Biosciences M0204S)、T4 RNA連接酶2 (例如New England Biosciences M0239S)、截短型T4 RNA連接酶2 (例如New England Biosciences M0242S)、T4 RNA連接酶2截短型KQ (例如M0373S)或T4 RNA連接酶2截短型K227Q (例如New England Biosciences M0351S)。在前述實施例中之任一者中,套組亦可包含熱穩定5' App DNA/RNA連接酶(例如New England Biosciences M0319S)或T4 DNA連接酶(例如New England Biosciences M0202S)。 在前述實施例中之任一者中,每一單股聚核苷酸之阻斷可包含脫磷酸以避免在其5'端處之連接。 在前述實施例中之任一者中,每一連接子之阻斷可包含碳間隔基、ddCTP、ddATP、ddTTP、ddGTP、己二醇、三甘醇及/或六甘醇以避免連接在其3'端處。 在前述實施例中之任一者中,每一連接子可在5'端處包含二核苷酸序列,諸如GA (5'至3')、GG (5'至3')、AA (5'至3')或AG (5'至3'),對於UMI序列其為5'。 在前述實施例中之任一者中,每一連接子中之UMI序列之長度可為6個核酸殘基至約15個核酸殘基,例如UMI序列為12聚體。 在前述實施例中之任一者中,連接反應可以在聚集劑(crowding agent)存在下進行。在一個態樣中,聚集劑包含聚乙二醇(PEG),諸如PEG 4000或PEG 6000、聚葡萄糖及/或聚蔗糖(Ficoll)。 在前述實施例中之任一者中,方法可進一步包含將線性單股連接產物之資料庫轉化成線性雙股連接產物之資料庫。在一個態樣中,轉化使用各自包含與連接子反向互補及/或可與連接子雜交之序列的一個引子或一組引子。 在前述實施例中之任一者中,方法可進一步包含擴增及/或純化線性雙股連接產物之資料庫。在一個態樣中,該純化法係以珠粒為主。在另一態樣中,該純化法基於大小選擇,例如純化步驟選擇性純化長度為約50個核苷酸至約1000個核苷酸的聚核苷酸,例如移除長度為約40個核苷酸之連接子(及約40 bp之引子二聚體及/或引子-連接子雙螺旋)。在另一態樣中,該純化法不包含使用特異性結合對(諸如生物素/抗生蛋白鏈菌素),其中之一者附接於線性雙股連接產物且另一者附接於固體擔體(諸如珠粒)。在一個態樣中,該純化法係以管柱為主,例如藉由使用dsDNA或ssDNA純化管柱,諸如來自Zymo或Qiagen之彼等。 在前述實施例中之任一者中,本文中之方法可進一步包含例如藉由聚合酶鏈反應(PCR)擴增線性雙股連接產物之資料庫,獲得包含目標序列之序列資訊的線性雙股連接產物之擴增資料庫。在一個態樣中,該方法包含使用一個引子或一組引子,其各自包含與連接子反向互補及/或可與連接子雜交之序列。在另一態樣中,該方法進一步包含使用可與目標序列(例如EGFR基因序列)雜交之引子。 在前述實施例中之任一者中,本文中之方法可包含例如藉由聚合酶鏈反應(PCR),使用各自包含與連接子反向互補及/或可與連接子雜交之序列的一個引子或一組引子、可與目標序列(例如EGFR基因序列)雜交之引子來擴增線性雙股連接產物之資料庫,藉此獲得包含目標序列之序列資訊之線性雙股連接產物的擴增資料庫。 在前述實施例中之任一者中,目標特異性引子可包含選自由以下組成之群之任何一或多條序列:SEQ ID NO:4-1529或其互補或實質上互補序列。 在前述實施例中之任一者中,可使用複數個引子,其各自包含對目標序列具有特異性之序列且引子具有相同或不同目標序列。在一個態樣中,複數個引子包含SEQ ID NO:4-1529之任一或多個,例如約10、20、50、100、150、200、250、300、400、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500個或所有1529個,或其互補或實質上互補序列或其數值範圍或子範圍。 在前述實施例中之任一者中,目標序列之序列資訊可包含突變、單核苷酸多形現象(SNP)、複本數變化(CNV)或表觀遺傳改變。在一個態樣中,突變包含點突變、插入、缺失、反轉、截短、融合、擴增或其任何組合。 在前述實施例中之任一者中,線性雙股連接產物之擴增資料庫可為除完全基因體資料庫外之資料庫,例如半目標基因體資料庫。 在前述實施例中之任一者中,方法可進一步包含純化線性雙股連接產物之擴增資料庫。在一個態樣中,該純化法係以珠粒為主。在另一態樣中,該純化法基於大小選擇,例如純化步驟選擇性純化長度大於約150個核苷酸之聚核苷酸。在另一態樣中,該純化法不包含使用特異性結合對(諸如生物素/抗生蛋白鏈菌素),其中之一者附接於線性雙股連接產物且另一者附接於固體擔體(諸如珠粒)。在一個態樣中,該純化法係以管柱為主,例如藉由使用dsDNA或ssDNA純化管柱,諸如來自Zymo或Qiagen之彼等。 在前述實施例中之任一者中,方法可進一步包含對線性雙股連接產物之純化擴增資料庫進行定序。在一個態樣中,定序步驟包含將定序連接子及/或樣本特異性條碼與每一線性雙股連接產物附接。在一個特定態樣中,使用聚合酶鏈反應(PCR)進行附接步驟。 在前述實施例中之任一者中,定序之轉化率(資料庫中可產生測序片段之單股聚核苷酸的百分比)可以為至少約40%、至少約50%、至少約60%、至少約70%、至少約80%或至少約90%。 在前述實施例中之任一者中,方法可用於個體內之疾病或病況之診斷及/或預後、預測個體對治療之反應、識別用於疾病/病況或治療之藥物遺傳標記及/或篩查群體之遺傳資訊。在一個態樣中,疾病或病況為癌症或贅瘤,且治療為癌症或贅瘤治療。 在另一態樣中,本文揭示一種線性單股連接產物之資料庫,其係藉由前述實施例中之任一者之方法產生。 在又一態樣中,本文揭示一種線性雙股連接產物之資料庫,其係藉由前述實施例中之任一者之方法產生。 在再一態樣中,本文揭示一種線性雙股連接產物之擴增資料庫,其係藉由前述實施例中之任一者之方法產生。 在一個其他態樣中,本文揭示一種定序資料庫,其係藉由前述實施例中之任一者之方法產生。 在本文另一態樣中揭示一種用於建立連接產物之資料庫的套組。在一個實施例中,套組包含單股DNA (ssDNA)連接酶。在另一態樣中,套組包含複數個連接子。在特定態樣中,每一連接子在3'端處阻斷以避免連接而連接子之5'端可用於與單股聚核苷酸連接以形成線性單股連接產物。在其他特定態樣中,每一連接子包含指定單股聚核苷酸之唯一分子標識符(UMI)序列。 在前述實施例中之任一者中,用於建立連接產物之資料庫的套組可包含ssDNA連接酶及複數個連接子,且每一連接子在3'端處阻斷以避免連接而連接子之5'端可用於與單股聚核苷酸連接以形成線性單股連接產物,且每一連接子包含指定單股聚核苷酸之UMI序列。 在前述實施例中之任一者中,套組可進一步包含用於使來自樣本之雙股聚核苷酸變性以獲得單股聚核苷酸之變性劑。 在前述實施例中之任一者中,套組可包含棲熱菌屬噬菌體RNA連接酶,諸如噬菌體TS2126 RNA連接酶(例如CircLigase™及CircLigase II™)或古細菌RNA連接酶,諸如熱自養甲烷桿菌RNA連接酶1。在前述實施例中之任一者中,套組可包含RNA連接酶,諸如T4 RNA連接酶,例如T4 RNA連接酶I (例如New England Biosciences M0204S)、T4 RNA連接酶2 (例如New England Biosciences M0239S)、截短型T4 RNA連接酶2 (例如New England Biosciences M0242S)、T4 RNA連接酶2截短型KQ (例如M0373S)或T4 RNA連接酶2截短型K227Q (例如New England Biosciences M0351S)。在前述實施例中之任一者中,套組亦可包含熱穩定5' App DNA/RNA連接酶(例如New England Biosciences M0319S)或T4 DNA連接酶(例如New England Biosciences M0202S)。 在前述實施例中之任一者中,套組可進一步包含用於移除單股聚核苷酸之5'磷酸基團之脫磷酸劑。在前述實施例中之任一者中,每一連接子之阻斷可包含碳間隔基、ddCTP、ddATP、ddTTP、ddGTP、己二醇、三甘醇及/或六甘醇以避免連接在其3'端處。在套組之前述實施例中之任一者中,每一連接子可包含在5'端處之二核苷酸序列,諸如GA (5'至3')、GG (5'至3')、AA (5'至3')或AG (5'至3')。在前述實施例中之任一者中,每一連接子中之UMI序列之長度可為約6個核酸殘基至約15個核酸殘基,例如UMI序列為12聚體。 在前述實施例中之任一者中,套組可進一步包含用於連接反應之聚集劑。在一個態樣中,聚集劑包含聚乙二醇(PEG),諸如PEG 4000或PEG 6000、聚葡萄糖及/或聚蔗糖。 在前述實施例中之任一者中,套組可進一步包含各自包含與連接子反向互補及/或可與連接子雜交之序列的一個引子或一組引子,以便將單股聚核苷酸轉化成雙股聚核苷酸。 在前述實施例中之任一者中,套組可進一步包含用於移除引子二聚體及/或引子-連接子雙螺旋之試劑。 在前述實施例中之任一者中,套組可進一步包含含有對目標序列(例如EGFR基因序列)具有特異性之序列的引子,以便獲得包含目標序列之序列資訊之擴增線性雙股連接產物。在前述實施例中之任一者中,目標特異性引子可包含選自由以下組成之群之任何一或多條序列:SEQ ID NO:4-1529或其互補或實質上互補序列。 在前述實施例中之任一者中,套組可包含複數個引子,其各自包含對目標序列具有特異性之序列,其中引子具有相同或不同之目標序列。在一個態樣中,複數個引子包含SEQ ID NO:4-1529之任一或多個,例如約10、20、50、100、150、200、250、300、400、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500個或所有1529個,或其互補或實質上互補序列或其數值範圍或子範圍。 在前述實施例中之任一者中,套組可進一步包含定序連接子及/或樣本特異性條碼,以便對擴增線性雙股連接產物進行定序。 在前述實施例中之任一者中,套組可進一步包含用於每一組分及/或使用組分之說明書的獨立小瓶。在一個態樣中,說明書包含自包含循環腫瘤DNA (ctDNA)之樣本,諸如血液、血清、血漿或體液樣本或其任何組合獲得單股聚核苷酸。 本文亦揭示一種包含AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTG (SEQ ID NO:1)或其一部分(例如包含約18個核苷酸殘基至22個核苷酸殘基的部分)之聚核苷酸。 在一個態樣中,本文揭示一種包含N 1 ...Ni AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTG或其一部分之聚核苷酸,其中N 1 至N i 為任何核酸殘基(例如A、T、C或G)且i 為約4與約25之間的整數。 在另一態樣中,本文揭示一種包含GANNNNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTG (SEQ ID NO:2)或其一部分(例如包含約32個核苷酸殘基至36個核苷酸殘基的部分)之聚核苷酸,其中N為任何核酸殘基,例如A、T、C或G。 在一個態樣中,本文揭示一種包含CACTCTTTCCCTACACGACGC (SEQ ID NO:3)或其一部分(例如包含約12個核苷酸殘基至20個核苷酸殘基的部分)之聚核苷酸。 在一個其他態樣中,本文揭示包含選自由以下組成之群之任何一或多條序列:SEQ ID NO:4-1529。在一個態樣中,本文揭示引子組,其包含SEQ ID NO:4-1529之任一或多個,例如約10、20、50、100、150、200、250、300、400、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500個或所有1529個,或其互補或實質上互補序列或其數值範圍或子範圍。在一個態樣中,本文揭示引子組,其包含SEQ ID NO:4-1529之任一或多個,例如約10、20、50、100、150、200、250、300、400、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500個或所有1529個,或其互補或實質上互補序列或其數值範圍或子範圍,及包含CACTCTTTCCCTACACGACGC (SEQ ID NO:3)或其一部分之引子。在一個其他態樣中,本文揭示套組,其包含SEQ ID NO:4-1529之任一或多個,例如約10、20、50、100、150、200、250、300、400、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500個或所有1529個,或其互補或實質上互補序列或其數值範圍或子範圍,及包含CACTCTTTCCCTACACGACGC (SEQ ID NO:3)或其一部分之引子及/或包含AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTG (SEQ ID NO:1)或其一部分之聚核苷酸。
本申請案主張2017年4月19日申請之美國臨時申請案第62/487,423號及2018年4月13日申請之美國臨時申請案第62/657,544號之優先權,出於所有目的兩申請案之內容以全文引用之方式併入本文中。在一些態樣中,本發明係關於2017年4月19日申請之美國臨時申請案第62/487,422號,出於所有目的其內容以全文引用之方式併入本文中。 在以下描述中闡述眾多特定細節以便提供對本發明之透徹理解。出於實例之目的提供此等細節,且可根據申請專利範圍在不存在此等特定細節中之一些或全部的情況下實踐所主張的主題。應理解,在不脫離所主張之主題之範疇的情況下,可使用其他實施例,且可進行結構改變。應理解個別實施例中之一或多者中所描述之各種特徵及功能在其適用性方面不限於描述其之具體實施例。其可替代地獨自或以某一組合應用於本發明之其他實施例中之一或多者,無論是否描述此類實施例,且無論此類特徵是否呈現為所描述之實施例的一部分。出於清晰之目的,技術領域中已知關於所主張之主題之技術材料尚未詳細地描述,因此並非不必要地遮蔽所主張之主題。 本申請案中所提及的所有公開案,包括專利文件、科學論文及資料庫,出於所有目的均以全文引用之方式併入本文中,其引用之程度如同各個別公開案以引用之方式個別地併入一般。本文中等出版物或文件之引用不意欲承認其中之任一者為相關先前技術,其亦絕不承認此等出版物或文件之內含物或日期。 除非如此指定,否則所有標題係出於讀者便利性目的,且不應用於限制標題後跟隨之文本的意義。 除非另有指示,否則所提供之實施例的實踐將使用有機化學、聚合物技術、分子生物學(包括重組技術)、細胞生物學、生物化學及定序技術之習知技術及描述,其在實踐此項技術者之技能內。該等習知技術包括多肽及蛋白質合成及修飾、聚核苷酸合成及修飾、聚合物陣列合成、聚核苷酸之雜交及連接、雜交之偵測及核苷酸定序。參照本文中之實例可具有適合之技術的特定說明。然而,當然亦可使用其他等效習知程序。該等習知技術及描述可見於標準實驗室手冊,諸如Green等人編,Genome Analysis: A Laboratory Manual Series (第I-IV卷) (1999);Weiner, Gabriel, Stephens編,Genetic Variation: A Laboratory Manual (2007);Dieffenbach, Dveksler編,PCR Primer: A Laboratory Manual (2003);Bowtell及Sambrook,DNA Microarrays: A Molecular Cloning Manual (2003);Mount,Bioinformatics: Sequence and Genome Analysis (2004);Sambrook及Russell,Condensed Protocols from Molecular Cloning: A Laboratory Manual (2006);及Sambrook及Russell,Molecular Cloning: A Laboratory Manual (2002) (全部來自Cold Spring Harbor Laboratory Press);Ausubel等人編,Current Protocols in Molecular Biology (1987);T. Brown編,Essential Molecular Biology (1991), IRL Press;Goeddel編,Gene Expression Technology (1991), Academic Press;A. Bothwell等人編,Methods for Cloning and Analysis of Eukaryotic Genes (1990), Bartlett Publ.;M. Kriegler,Gene Transfer and Expression (1990), Stockton Press;R. Wu等人編,Recombinant DNA Methodology (1989), Academic Press;M. McPherson等人,PCR: A Practical Approach (1991), Oxford University Press之IRL Press;Stryer,Biochemistry (第4版) (1995), W. H. Freeman, New York N.Y.;Gait,Oligonucleotide Synthesis: A Practical Approach (2002) , IRL Press, London;Nelson及Cox,Lehninger, Principles of Biochemistry (2000)第3版, W. H. Freeman Pub., New York, N.Y.;Berg等人,Biochemistry (2002)第5版, W. H. Freeman Pub., New York, N.Y.,出於所有目的其皆以全文引用之方式併入本文。A. 定義 除非另外定義,否則本文中所用之所有技術及科學術語均具有與本發明所屬領域之一般熟習此項技術者通常所理解相同之含義。若此章節中所闡述之定義與以引用方式併入本文中之專利、申請案、公開申請案及其他公開案中所闡述之定義相反或者不一致,則以此章節中所闡述之定義,而非以引用方式併入本文中的定義為準。 如本文所用,「一(a/an)」意謂「至少一個/種」或「一或多個/種」。除非上下文另外明確規定,否則如本文所用之單數形式「一」及「該」包括複數個參考物。 在本發明通篇,所主張之主題的各種態樣均以範圍形式呈現。應瞭解,範圍形式之描述僅為了方便及簡潔起見,且不應解釋為對所主張之主題之不靈活限制。因此,範圍之描述應視為已特定揭示所有可能之子範圍以及該範圍內之個別數值。舉例而言,在提供值範圍的情況下,應瞭解該範圍之上限與下限之間的每個中間值及該所述範圍內的任何其他所述值或中間值均涵蓋於所主張的主題內。此等較小範圍之上限及下限可獨立地包括於較小範圍內且亦涵蓋於所主張之主題內,在所陳述範圍內受到任何特定排他性限制。在所陳述之範圍包括一個或兩個限制之情況下,排除彼等所包括之限制中之任一者或兩者的範圍亦包括於所主張之主題中。不管範圍之寬度如何,此均適用。 本文中,對「約」一個值或參數之提及包括(及描述)針對該值或參數本身之變化。舉例而言,提及「約X」之描述包括「X」之描述。此外,在任何編號系列之前使用「約」包括「約」該系列中所敍述編號中之各者。舉例而言,提及「約X、Y或Z」之描述意欲描述「約X、約Y或約Z」。 除非上下文另外明確指示,否則如本文所用之術語「平均」係指平均值或中值,或用於估算平均值或中值之任何值。 如本文所用之「個體」係指生物體或生物體之部分或組分,可向其投與或施加所提供組合物、方法、套組、裝置及系統。舉例而言,個體可為哺乳動物或哺乳動物之細胞、組織、器官或部分。如本文所用,「哺乳動物」係指哺乳動物綱之物種中之任一者,較佳人類(包括人類、人類個體或人類患者)。哺乳動物包括但不限於農畜、運動型動物、寵物、靈長類動物、馬、犬、貓及嚙齒動物(諸如小鼠及大鼠)。 如本文所用,術語「樣本」係指可含有需要對其分析之目標分子的任何東西,包括生物樣本。如本文所用,「生物樣本」可以指自活的或病毒(或朊病毒)來源或其他大分子及生物分子來源獲得之任何樣本,且包含個體之任何細胞類型或組織,自其中可以獲得核酸、蛋白及/或其他大分子。生物樣本可為直接獲自生物來源的樣本或經處理之樣本。舉例而言,經擴增之分離之核酸構成生物樣本。生物樣本包括但不限於體液,諸如血液、血漿、血清、腦脊髓液、滑液、尿液、汗液、精液、糞便、痰、淚液、黏液、羊膜液或類似者、積液、骨髓樣本、腹水、骨盆洗液、胸膜液、脊髓液、淋巴、眼液、鼻抽取物、喉或生殖器拭子、消化組織之或糞便提取物及來自動物及植物之組織及器官樣本及自其得到之經處理的樣本。 術語「聚核苷酸」、「寡核苷酸」、「核酸」及「核酸分子」在本文中互換地使用,指代任何長度之核苷酸的聚合形式,且包含核糖核苷酸、去氧核糖核苷酸及其類似物或混合物。該等術語包括三股、雙股及單股去氧核糖核酸(「DNA」)以及三股、雙股及單股核糖核酸(「RNA」)。其亦包括聚核苷酸例如藉由烷基化及/或藉由封端修飾及未經修飾之形式。更具體而言,術語「聚核苷酸」、「寡核苷酸」、「核酸」及「核酸分子」包括聚去氧核糖核苷酸(含有2-去氧-D-核糖)、聚核糖核苷酸(含有D-核糖),包括tRNA、rRNA、hRNA及mRNA,無論是否拼接,任何其他類型的聚核苷酸(其為嘌呤或嘧啶鹼之N-或C-醣苷)及其他含有非核酸主鏈之聚合物,例如聚醯胺(例如胜肽核酸(「PNA」))及聚嗎啉(可以Neugene自Anti-Virals, Inc., Corvallis, OR購得)聚合物,及其他合成序列特異性核酸聚合物,其限制條件為該等聚合物在組態中含有允許鹼基配對及鹼基堆疊之核鹼基,諸如在DNA及RNA中所發現。因此,此等術語包括例如3'去氧-2',5'-DNA、寡去氧核苷酸N3'至P5'胺基磷酸酯、2'-O-烷基取代RNA、DNA與RNA之間或PNA與DNA或RNA之間的雜交,且亦包括已知類型之修飾,例如標記、烷基化、「封端」、用類似物對核苷酸中之一或多者進行取代,核苷酸間修飾,諸如具有不帶電之鍵聯(例如膦酸甲酯、磷酸三酯、胺基磷酸酯、胺基甲酸酯等)、具有負電之鍵聯(例如硫代磷酸酯、二硫代磷酸酯等)及具有正電之鍵聯(例如胺基烷基胺基磷酸酯、胺基烷基磷酸三酯)之彼等,含有側接部分,諸如蛋白質(包括酶(例如核酸酶)、毒素、抗體、信號肽、聚-L-離胺酸等)之彼等,具有嵌入劑(例如吖啶、補骨脂素等)之彼等,含有螯合物(例如,金屬、放射性金屬、硼、氧化性金屬等之螯合物)之彼等,含有烷基化劑之彼等,具有經修飾之鍵聯(例如α變旋異構核酸等)之彼等以及未經修飾形式之聚核苷酸或寡核苷酸。核酸一般而言將含有磷酸二酯鍵,儘管在一些情況下可包括具有替代的主鏈(諸如胺基磷酸酯、二硫代磷酸酯或甲基亞磷醯胺鍵聯)之核酸類似物;或肽核酸主鏈及鍵聯。其他類似核酸包括具有雙環結構之彼等,包括鎖核酸、陽性主鏈、非離性主鏈及非核糖主鏈。可進行核糖-磷酸鹽主鏈之修飾以提高分子穩定性;舉例而言,在一些環境中PNA:DNA雜交可展現較高穩定性。術語「聚核苷酸」、「寡核苷酸」、「核酸」及「核酸分子」可包含任何適合之長度,諸如至少5、6、7 、8、9、10、20、30、40、50、100、200、300、400、500、1,000個或更多個核苷酸。 應理解,如本文所用,術語「核苷」及「核苷酸」包括不僅含有已知嘌呤及嘧啶鹼而且含有已經修飾之雜環鹼基的彼等部分。該等修飾包括甲基化嘌呤或嘧啶、醯基化嘌呤或嘧啶或其他雜環。經修飾之核苷或核苷酸亦可包括糖部分上之修飾,例如其中一或多個羥基經鹵素、脂族基團取代或官能化為醚、胺或類似者。術語「核苷酸單元」意欲涵蓋核苷及核苷酸。 術語「互補」及「實質上互補」包括雜交或鹼基配對或在核苷酸或核酸之間(例如在雙股DNA分子之兩股之間或在寡核苷酸引子與單股核酸之引子結合位點之間)形成雙螺旋。一般而言,互補核苷酸為A與T(或A與U)或C與G。當一股核苷酸(最佳經排列及比較且具有適當核苷酸插入或缺失)與另一股之至少約80%,通常至少約90%至約95%及甚至約98%至約100%配對時,兩個單股RNA或DNA分子稱為實質上互補。在一個態樣中,核苷酸之兩條互補序列可在對置之核苷酸之間的錯配較佳小於25%、更佳小於15%、甚至更佳小於5%、最佳無錯配之情況下雜交。較佳兩個分子將在高嚴格度條件下雜交。 如本文所用,對於參考序列,反向互補序列為該參考序列反向順序之互補序列。舉例而言,對於5'-ATCG-3',互補序列為3'-TAGC-5',且反向互補序列為5'-CGAT-3'。 如本文所用之「雜交」可指代兩個單股聚核苷酸非共價結合以形成穩定雙股聚核苷酸之過程。在一個態樣中,所得雙股聚核苷酸可為「雜交體」或「雙螺旋」。「雜交條件」典型地包括大致小於1 M,通常小於約500 mM且可小於約200 mM之鹽濃度。「雜交緩衝劑」包括緩衝鹽溶液,諸如5% SSPE,或此項技術中已知之其他此類緩衝劑。雜交溫度可低至5℃,但典型地高於22℃,且更典型地高於約30℃,且典型地超過37℃。雜交通常在嚴格條件,亦即,在其下序列將與其目標序列雜交但將不與其他非互補序列雜交之條件下進行。 嚴格條件與序列相關,且隨環境不同而不同。舉例而言,與短片段相比,較長片段可能需要較高雜交溫度以用於特異性雜交。因為其他因素可影響雜交之嚴格度,包括鹼組合物及互補股之長度、存在有機溶劑及鹼基錯配程度,所以參數之組合比任一個單獨的參數之絕對量測值重要。一般而言嚴格條件選擇為在確定的離子強度及pH下比特異性序列之T m 低約5℃。熔化溫度T m 可為雙股核酸分子之群體變為一半分離成單鏈時之溫度。數個用於計算核酸之T m 的等式在此項技術中已熟知。如由標準參考文獻指示,當核酸在1 M NaCl水溶液中時,T m 值之簡單估計可藉由等式T m =81.5 + 0.41 (% G + C)計算(見例如Anderson及Young, Quantitative Filter Hybridization, 在Nucleic Acid Hybridization (1985)中)。其他參考文獻(例如Allawi及SantaLucia, Jr.,Biochemistry , 36:10581-94 (1997))包括對T m 計算考慮結構及環境以及序列特徵之替代性計算方法。 一般而言,雜交之穩定性係離子濃度及溫度之函數。通常,雜交反應在較低嚴格度條件下進行,隨後為嚴格度變化但較高之洗滌。例示性嚴格條件包括在約7.0至約8.3之pH及至少25℃之溫度下至少0.01 M至不大於1 M鈉離子濃度(或其他鹽)之鹽濃度。舉例而言,5×SSPE(在7.4之pH下750 mM NaCl、50 mM磷酸鈉、5 mM EDTA)及約30℃之溫度的條件適合於對偶基因特異性雜交,但適合之溫度取決於雜交區域之長度及/或GC含量。在一個態樣中,在確定錯配百分比中「雜交嚴格度」可為如下:1)高嚴格度:0.1×SSPE、0.1% SDS、65℃;2)中等嚴格度:0.2×SSPE、0.1% SDS、50℃(亦稱為適中嚴格度);及3)低嚴格度:1.0×SSPE、0.1% SDS、50℃。應理解等效嚴格度可以使用替代性緩衝劑、鹽及溫度實現。舉例而言,中度嚴格的雜交可以指允許諸如探針之核酸分子與互補核酸分子結合之條件。雜交核酸分子一般具有至少60%一致性,包括例如至少70%、75%、80%、85%、90%或95%一致性中之任一者。中度嚴格條件可為等效於在42℃下在50%甲醯胺、5×Denhardt氏溶液、5×SSPE、0.2% SDS中雜交,隨後在42℃下在0.2×SSPE、0.2% SDS中洗滌之條件。高嚴格度條件可例如藉由在42℃下在50%甲醯胺、5×Denhardt氏溶液、5×SSPE、0.2% SDS中雜交,隨後在65℃下在0.1×SSPE及0.1% SDS中洗滌來提供。低嚴格度雜交可以指等效於在22℃下在10%甲醯胺、5×Denhardt氏溶液、6×SSPE、0.2% SDS中雜交,隨後在37℃下在1×SSPE、0.2% SDS中洗滌之條件。Denhardt氏溶液含有1%聚蔗糖、1%聚乙烯吡咯啶酮及1%牛血清白蛋白(BSA)。20×SSPE(氯化鈉、磷酸鈉、EDTA)含有3 M氯化鈉、0.2 M磷酸鈉及0.025 M EDTA。其他適合之適中嚴格度及高嚴格度雜交緩衝劑及條件已為熟習此項技術者所熟知且描述於例如Sambrook等人, Molecular Cloning:A Laboratory Manual, 第2版, Cold Spring Harbor Press, Plainview, N.Y. (1989);及Ausubel等人, Short Protocols in Molecular Biology, 第4版, John Wiley & Sons (1999)中。 替代性地,當RNA或DNA股將在選擇性雜交條件下與其補體雜交時,存在實質性互補。典型地,當存在在至少14至25個核苷酸的段上至少約65%互補,較佳至少約75%,更佳至少約90%互補時,選擇性雜交將出現。參見M. Kanehisa,Nucleic Acids Res . 12:203 (1984)。 本文所使用之「引子」可為天然或合成之寡核苷酸,其能夠在與聚核苷酸模板形成雙螺旋後充當引發核酸合成之點且自其3'端沿模板延伸使得形成延伸之雙螺旋。由模板聚核苷酸之序列確定在延伸過程期間添加之核苷酸序列。引子通常由聚合酶例如DNA聚合酶延伸。 「連接」可以指在模板驅動反應中在兩個或兩個以上核酸(例如,寡核苷酸及/或聚核苷酸)的末端之間形成共價鍵或鍵聯。鍵或鍵聯之性質可廣泛地改變且連接可以酶促進行。如本文所用,連接通常酶促進行以形成在一個寡核苷酸之5'碳端核苷酸與另一核苷酸之3'碳之間的磷酸二酯鍵聯。 如本文所用之「擴增」一般係指產生所需序列之多個複本的方法。「多個複本」意謂至少2個複本。「複本」不一定意謂與模板序列互補或一致之完美序列。舉例而言,複本可包括核苷酸類似物,諸如脫氧肌苷、有意序列改變(諸如經由包含與模板可雜交但不互補之序列之引子引入的序列改變),及/或在擴增期間發生之序列誤差。 「序列測定」及類似者包括測定涉及核酸之核苷酸基底序列的資訊。該資訊可包括標識或測定核酸之部分以及全部序列資訊。可測定具有不同統計可靠性或可信度之序列資訊。在一個態樣中,術語包括在核酸中測定複數個連續核苷酸之標識及次序。 術語「定序」、「高通量定序」或「次世代定序」包括使用以本質上並行的方式(亦即其中DNA模板不是每次一個而是在整體過程中製備以用於定序,且其中多個序列較佳並行地讀出)測定多個(典型地數千至數十億)核酸序列之方法,或替代地使用自身可以並行化之超高通量連續過程的序列測定。該等方法包括但不限於焦磷酸根定序法(例如由454 Life Sciences, Inc., Branford, CT商業化);藉由連接之定序(例如由Life Technologies, Inc., Carlsbad, CA在SOLiD™技術中商業化);藉由使用經修飾之核苷酸之合成的定序(諸如由Illumina, Inc., San Diego, CA在TruSeq™及HiSeq™技術中商業化;Helicos Biosciences Corporation, Cambridge, MA之HeliScope™;及Pacific Biosciences of California, Inc., Menlo Park, CA之PacBio RS,藉由離子偵測技術之定序(諸如Ion Torrent™技術,Life Technologies, Carlsbad, CA);DNA奈米球之定序(Complete Genomics, Inc., Mountain View, CA);基於奈米孔之定序技術(例如由Oxford Nanopore Technologies, LTD, Oxford, UK所開發)及如高度並行化定序方法。 「SNP」或「單核苷酸多形現象」可包括在個體之間的遺傳學變化;例如,在生物體之DNA中可變之單個含氮鹼基位置。SNP見於整個基因體上;個體之間許多遺傳學變化歸因於SNP基因座處之變化,且此遺傳學變化通常引起個體之間的表現型變化。用於本發明之SNP及其相應對偶基因可以源於任何數目的來源,諸如公開資料庫(U.C. Santa Cruz Human Genome Browser Gateway (genome.ucsc.edu/cgi-bin/hgGateway))或dbSNP網站(ncbi.nlm.nih gov/SNP/)或可以實驗方式確定,如描述於美國專利第6,969,589號;及題為「人類基因體多形現象(Human Genomic Polymorphisms)」之美國公開案第2006/0188875號中。儘管SNP之使用描述於在本文中展示之一些實施例中,應理解亦可使用其他雙對偶或多對偶基因遺傳標記。雙對偶基因遺傳標記係一個具有兩個形式多形現象或對偶基因之遺傳標記。如上所述,對於與性狀相關聯之雙對偶基因遺傳標記,相比於對照組在案例組之遺傳組合物中較充足之對偶基因稱為「關聯對偶基因」,且其他對偶基因可稱為「非關聯對偶基因」。因此,對於與給定性狀(例如疾病或藥物反應)相關聯之每一雙對偶基因多形現象而言,存在相對應之關聯對偶基因。可藉由在本文中展示之方法使用的其他雙對偶基因多形現象包括但不限於多核苷酸變化、插入、缺失及易位。 應進一步理解,在本文中提及DNA可包括基因體DNA、粒線體DNA、游離型DNA及/或諸如擴增子之DNA之衍生物、RNA轉錄物、cDNA、DNA類似物等。在關聯研究中所篩查之多型基因座性可以處於二倍體或單倍體狀態且理想地將來自整個基因體上之位點。定序技術可用於SNP定序,可以採用諸如BeadArray平台(GOLDENGATETM 檢驗) (Illumina, Inc., San Diego, CA) (參見Fan等人,Cold Spring Symp. Quant. Biol. , 68:69-78 (2003))。 在一些實施例中,術語「甲基化狀態」或「甲基化狀況」係指在DNA序列內一個或多個CpG二核苷酸處存在或不存在5-甲基胞嘧啶(「5-mC」或「5-mCyt」)。在DNA序列內一或多個特定CpG甲基化位點(各自具有兩條CpG二核苷酸序列)處之甲基化狀態包括「未甲基化」、「完全甲基化」及「半甲基化」。術語「半甲基化(hemi-methylation或hemimethylation)」係指雙股DNA之甲基化狀態,其中只有其一股經甲基化。術語「高甲基化」係指相對於正常對照DNA樣本內之對應CpG二核苷酸處所發現之5-mCyt的量,與DNA測試樣本之DNA序列內之一或複數個CpG二核苷酸處之5-mCyt之存在增加對應的平均甲基化狀態。術語「低甲基化」係指相對於正常對照DNA樣本內之對應CpG二核苷酸處所發現之5-mCyt的量,與測試DNA樣本之DNA序列內之一或複數個CpG二核苷酸處之5-mCyt之存在減少對應的平均甲基化狀態。 「多重分析」或「多重檢驗」在本文中可以指檢驗或其他分析方法,其中可以藉由使用多於一種標記同時測定多個目標(例如多核酸序列)之存在及/或含量,標記其中各者具有至少一種不同的偵測特性,例如螢光特性(例如激發波長、發射波長、發射強度、FWHM(半高全寬峰高)或螢光壽命)或唯一核酸或蛋白質序列特性。 如本文所用,「疾病或病症」係指在生物體中由例如感染或遺傳缺陷引起且特徵為可鑑別之症狀的病理狀況。B. 藉由資料庫建立及聚核苷酸定序之聚核苷酸片段分析的概述。 在一個態樣中,本發明方法之目標(或模板)聚核苷酸係片段化聚核苷酸,例如在約100個殘基至約1000個殘基範圍內,且在一些實施例中,在約150個殘基至約400個殘基範圍內。 目標或模板DNA可包括常規基因體DNA、染色體DNA、染色體外的DNA (諸如粒線體DNA)或其片段。在其他實施例中,目標或模板DNA係經處理之DNA,例如已進行酶消化、交聯、化學或物理剪切、亞硫酸氫鹽轉化及/或降解之一者。 亞硫酸氫鹽轉化係使用亞硫酸氫鹽來測定DNA甲基化模式之方法。DNA甲基化係涉及將甲基添加至胞嘧啶或腺嘌呤DNA核苷酸之生物化學過程。DNA甲基化穩定地改變細胞中之基因表現,因為細胞自胚胎幹細胞分裂且分化成特定組織。在亞硫酸氫鹽轉化中,目標核酸首先用將未甲基化之胞嘧啶特異性地轉化成尿嘧啶而不影響甲基化胞嘧啶之亞硫酸氫鹽試劑處理。亞硫酸氫鹽轉化之一個結果係原始目標之雙股構形歸因於序列互補性損失而斷裂。在樣本製備及分析或診斷測試期間目標序列以兩條獨立單股DNA形式存在。目標核酸序列亦在極低濃度下頻繁存在。歸因於循環腫瘤DNA(亦稱為「不含細胞之腫瘤DNA」或「ctDNA」)在循環中通常的低濃度及極低變異體對偶基因比例,此係對其尤其重要之考量。 在一些實施例中,本文揭示之所關注的核酸分子為不含細胞之DNA,諸如不含細胞之胎兒DNA (亦稱為「cfDNA」)或ctDNA。cfDNA在體內(諸如在懷孕母親之血液中)循環且代表胎兒基因體,而ctDNA在體內(諸如在癌症患者之血液中)循環且一般預先片段化。在其他實施例中,本文揭示之所關注的核酸分子為古老及/或受損DNA,例如因在諸如在福馬林固定之樣本或部分消化樣本的損害性條件下儲存所致。 在癌細胞死亡時,其將DNA釋放至血流中。稱為循環腫瘤DNA(ctDNA)之此DNA高度片段化,平均長度為約150個鹼基對。一旦移除白血球,則ctDNA一般包含極小比例之剩餘血漿DNA,例如ctDNA可構成小於約10%之血漿DNA。一般而言,此百比例小於約1%,例如小於約0.5%或小於約0.01%。此外,血漿DNA之總量一般極低,例如在每毫升血漿約10 ng。 ctDNA中之變異體可以使用各種方法檢查,包括次世代定序。歸因於ctDNA與血漿DNA之低比率,因PCR及定序誤差難以以高可信度指定變異體。唯一分子標識符(UMI)一般用於標記原始分子以使得任何發現之變異體可與共同序列相比。此係將真與偽陽性分離之有效方式。若變異體與共同序列匹配,則其為真陽性。否則,將其自分析移除。此外,需要將高百分比原始分子變為定序資料庫以使靈敏度保持較高,亦即變異體未因丟棄而遺漏。因此,在資料庫建立期間連接效率極重要。 在一個態樣中,本文提供極大提高連接效率同時仍靶向基因體之選擇區的技術。在一個實施例中,待藉由定序偵測之聚核苷酸(諸如ctDNA)首先經脫磷酸以移除5'磷酸根從而避免ctDNA與自身連接。隨後使ctDNA變性以使所有DNA為單股。單股DNA連接酶Circligase™用於將連接子與ctDNA之3'端連接。在一個態樣中,連接子在5'端上含有2個特定鹼基以使連接效率最佳化,之後為UMI。在一個態樣中,連接子之3'端含有碳間隔基以避免連接子之自連接。在另一態樣中,使用諸如PEG 4000之聚集劑使連接反應進一步最佳化。在一個態樣中,在連接之後,使用與連接子反向互補之引子使分子成為雙股。此允許在無藉由標準純化移除之可用DNA情況下高效去除過量未連接連接子。 在一個態樣中,隨後使用半靶向PCR擴增DNA。一個引子與連接子反向互補,而其他(例如引子庫中之一個引子)黏著至基因體之特定靶向區域。特異性引子設計成使引子-二聚體相互作用及偏離目標之黏著減至最少。在一個態樣中,歸因於小的DNA大小,目標特異性引子進一步經優化以非常接近於特定變異體附著。在另一清除之後,PCR添加全長定序連接子及條碼。最終資料庫隨後例如在Illumina機器上定序。 在一個態樣中,儘管具有約30,000 bp之相對較小目標區,半靶向PCR造成原始分子集合富集>約40,000倍。在一個態樣中,本發明方法之整體轉化率為至少60%,意指當與標準資料庫建立及雜交捕獲相比時,至少約3倍以上之原始分子轉化為可定序材料。在其他實施例中,整體轉化率在約60%與約70%之間、在約70%與約80%之間、在約80%與約90%之間或超過90%。在一個態樣中,本發明方法由此能夠在極低突變型對偶基因比例(例如低達0.01%)下精確指定遺傳或基因體變異體,諸如SNV、插入與缺失(indel)、CNV及融合。在其他態樣中,遺傳或基因體變異體之對偶基因比例為約0.05%、約0.1%、約0.5%、約1%或約2%。 以下章節更詳細地描述本發明方法之某些步驟。C. 單股聚核苷酸資料庫及其建立方法。 用於例如ctDNA之次世代定序的資料庫建立一般由數個步驟組成,包括端修復、A-加尾及與連接子分子之雙股連接。此等經連接分子接著可使用雜交捕獲法,在某些基因體區域濃化1000-2000倍。儘管過去數年中在資料庫建立中有數個改進,但該等方法仍然低效,引起諸多原始分子在各種步驟期間損失。雙股連接效率仍然較低,約20-30%之分子正常連接。此外,在純化及雜交捕獲步驟期間損失諸多分子,使得最終轉化率接近10-20%。當檢查出現在ctDNA中之低對偶基因比例變異體時,靈敏度仍然較低。當指定低對偶基因比例突變體時即會限制準確度,此係由於當觀察到資料庫中之對偶基因比例低時,低效率將引起靈敏度損失。 此外,諸如ctDNA之某些聚核苷酸之小的大小妨礙使用基於標籤化之資料庫建立。舉例而言,首先標記(例如用生物素)聚核苷酸以產生靶向資料庫,且隨後藉由捕獲標記(例如由抗生蛋白鏈菌素)濃化聚核苷酸。以此方式,可以使所關注區之資料庫濃化約1,000 - 2,000倍。最後,進行PCR以擴增及定位用於定序之分子。然而,基於PCR之方法已證明難以將UMI添加至原始分子且引起高錯誤率。 在一個態樣中,本文中所描述之組合物、套組及方法解決以上問題。在一些實施例中,該等組合物、套組及方法適用於對核酸分子定序,包括但不限於各種資料庫之建立、各種擴增反應(諸如藉由PCR及/或引子延伸)、所建立資料庫的純化、及對測序片段之分析。 在某些態樣中,可以例如自含有諸如片段DNA之片段化聚核苷酸的樣本製備定序資料庫。在一個態樣中,所獲得之樣本為天然存在之樣本,例如直接來自個體,諸如組織液或體液,包括但不限於血液、血漿、血清、腦脊髓液、滑液、尿液、汗液、精液、痰液淚液、黏液或羊膜液。在其他態樣中,可以藉由形成DNA片段(例如藉由剪切DNA)且將本文中之連接子附接於DNA片段來製備定序資料庫。在特定實施例中,片段化聚核苷酸及連接子為單股。 片段(例如ctDNA或由使更長DNA股片段化所形成之片段)有時稱作「插入物」,隨著其可以鄰接於諸如本文所揭示之單股連接子的連接子「插入」或連接。亦可對RNA分子定序,例如藉由反向轉錄RNA分子以形成附接於連接子之DNA分子。 在一個態樣中,提供包含將一組連接子與單股聚核苷酸之資料庫連接的方法,且在該方法中,連接由單股DNA (ssDNA)連接酶催化。如本文所用,連接酶能夠在不存在互補序列之情況下連接ssDNA之端。舉例而言,CircLigase™ ssDNA連接酶及CircLigase™ II ssDNA連接酶均為熱穩定連接酶,其典型地用於催化具有5'-磷酸鹽及3'-羥基之ssDNA模板的分子內連接(亦即環化)。與將在互補DNA序列上彼此鄰接黏著之DNA端連接的T4 DNA連接酶及Ampligase® DNA連接酶相比,ssDNA連接酶將ssDNA之端在不存在互補序列之情況下連接。該酶因此適用於由線性ssDNA製備環狀ssDNA分子。環狀ssDNA分子可以作為滾環複製或滾環轉錄之受質使用。除其在ssDNA上之活性之外,CircLigase酶亦具有在連接具有3'-羥基核糖核苷酸及5'-磷酸化核糖核苷酸或去氧核糖核苷酸之單股核酸中之活性。 可在本發明中使用CircLigase™ ssDNA連接酶或CircLigase™ II ssDNA。兩種酶之差異在於與CircLigase I比CircLigase II腺苷酸化遠少且為了最佳活性需要ATP。CircLigase I在ATP存在下使ssDNA重新環化。CircLigase II幾乎100%腺苷酸化,因此其不需要將ATP添加至反應緩衝液。CircLigase II作為化學計量反應工作,其中酶使在酶活性位點中腺苷酸化之寡核苷酸的5'端結合,且隨後連接寡核苷酸且停止。由於反應不含ATP,因此CircLigase II以酶:寡核苷酸1:1之配置工作。一旦環化完成,則環狀ssDNA自活性位點釋放且反應停止。亦可使用其他適合之ssDNA連接酶。舉例而言,可以使用熱穩定5' App DNA/RNA連接酶(例如New England Biosciences M0319S)或T4 DNA連接酶(例如New England Biosciences M0202S)或T4 RNA連接酶,例如T4 RNA連接酶I(例如New England Biosciences M0204S)、T4 RNA連接酶2(例如New England Biosciences M0239S)、截短型T4 RNA連接酶2(例如New England Biosciences M0242S)、T4 RNA連接酶2截短型KQ(例如M0373S)或T4 RNA連接酶2截短型K227Q(例如New England Biosciences M0351S)。 在一個態樣中,每一單股聚核苷酸在5'端處阻斷以避免在5'端處之連接,每一連接子包含指定與連接子連接之單股聚核苷酸的唯一分子標識符(UMI)序列,每一連接子在3'端處阻斷以避免在3'端處之連接,且連接子之5'端藉由ssDNA連接酶連接至單股聚核苷酸之3'端,形成線性連接產物,藉此獲得線性單股連接產物之資料庫。單股DNA不依賴模板之環化描述於WO2010/094040 A1中,其揭示內容全文併入本文中。然而,WO2010/094040 A1僅揭示單股聚核苷酸之分子內連接(例如環化)。 因此,本發明方法以非習知方式使用諸如CircLigase或CircLigase II之ssDNA連接酶。本發明連接方法旨在在單股目標聚核苷酸與連接子分子之間產生線性連接產物而非環化。在一個態樣中,本發明使用ssDNA連接酶以進行例如用於將連接子與單股聚核苷酸連接之分子內連接。在一個態樣中,為了如此進行,單股聚核苷酸在5'端處阻斷以避免環化。以此方式,避免ssDNA之3'端與其自身5'端之分子內連接以及在相同資料庫內一個ssDNA之3'端與另一ssDNA之5'端的分子間連接。因此,在一個態樣中,避免在連接反應期間單股聚核苷酸之環化及線性串聯體(含有單股聚核苷酸及/或連接子)之形成。如 1 中所示,每一單股聚核苷酸之阻斷可包含在其5'端處脫磷酸以避免在該末端處之連接。 在另一態樣中,每一連接子在3'端處阻斷以避免在3'端處之連接。以此方式,避免連接子之3'端與其自身5'端之分子內連接以及一個連接子分子之3'端與另一連接子分子之5'端的分子間連接。每一連接子之阻斷可包含碳間隔基、ddCTP、ddATP、ddTTP、ddGTP、己二醇、三甘醇(TEG)及/或六甘醇以避免連接在其3’端處。因此,在一個態樣中,在連接反應期間避免單股連接子之環化及線性串聯體(含有單股聚核苷酸及/或連接子)之形成。 連接子可以任何合適組合包含一或多個間隔基之一或多個複本。舉例而言,Gansauge及Meyer揭示一種包含C3Spacer及經生物素標記之TEG間隔基之十個複本的連接子。Gansauge及Meyer (2013), 「Single-stranded DNA library preparation for the sequencing of ancient or damaged DNA」,Nature Protocols , 8(4):737-48,其以全文引用之方式併入本文中。然而,此參考文獻需要緊接地在連接之後經由生物素-抗生蛋白鏈菌素交互作用捕獲連接ssDNA。此步驟可導致在資料庫中ssDNA分子之顯著損失。儘管參考文獻隨後將捕獲之ssDNA轉化成dsDNA但仍然在珠粒上捕獲ssDNA。 如 1 中所示,本發明不需要緊接地在連接之後捕獲連接ssDNA。實際上當連接ssDNA轉化為dsDNA時,其仍然在連接反應體積中。 在一個態樣中,在資料庫中ssDNA之連接效率高,例如在樣本中至少約40%、至少約50%、至少約60%、至少約70%、至少約80%、至少約85%、至少約90%、至少約95%或至少約99%單股聚核苷酸與連接子連接。在特定實施例中,連接效率為約80%。在此極大提高之連接效率下,本發明所主張之方法仍然能夠靶向基因體之選擇區,如下文所解釋。 在一個態樣中,連接子具有以下結構:/5'磷/N1 N2 ...N i -UMI-M1 M2 ...M j -阻斷劑,其中「5'磷」代表5'磷酸基團、「N1 N2 ...N i 」代表UMI序列之序列5'、「M1 M2 ...M j 」代表UMI序列之序列3'且「阻斷劑」指示阻斷連接子之3'端以避免與其連接。ij 皆為整數,其中i 可為1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或大於30;且j 可為5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、 22、23、24、25、26、27、28、29、30、31 、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或大於50。 在特定實施例中,i 可為2。在一些實施例中,N1 N2 ...N i 之5'端處的二核苷酸序列N1 N2 可為GA (5'至3')、GG (5'至3')、AA (5'至3')或AG (5'至3')以便提高連接效率。 在一個態樣中,在後續步驟中M1 M2 ...M j 序列之部分或全部用於設計用作將連接單股聚核苷酸轉化為雙股聚核苷酸之引子的反向互補序列及/或半靶向PCR擴增所選擇之目標序列(引子對之其他引子為目標特異性引子)。在一個態樣中,M1 M2 ...M j 序列包含AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTG (SEQ ID NO:1)或其包含約18個核苷酸殘基至22個核苷酸殘基的部分。 在另一態樣中,一或多個阻斷劑基團在5'至3'方向上任何合適組合及順序之一或多個複本中,「阻斷劑」包含碳間隔基、ddCTP、ddATP、ddTTP、ddGTP、己二醇、三甘醇(TEG)及/或六甘醇。 在一個態樣中,UMI之使用便於測定、選擇及/或分離目標序列之無誤差測序片段,且可在高準確度及高通量下選擇測序片段。該等經驗證之經驗證之讀取適用於需要序列保真度之任何技術,包括構建已知序列之較大分子、多形現象及/或突變篩查、大規模平行定序及在方法中排除偏差之定量方法。 在一個態樣中,唯一分子標識符與包含單股目標聚核苷酸及連接子之連接建構物相關且對其唯一地標識。換言之,具有相同序列之兩條單股目標聚核苷酸可以與兩種在其UMI序列處不同的不同連接子連接;所得連接產物不同且每一連接產物(而非具有相同序列之目標聚核苷酸)由UMI唯一地標識。在另一態樣中,當單股連接產物轉化為雙股聚核苷酸且擴增時,即使可用極高保真度聚合酶,在重複複製期間亦可引入擴增誤差。因此,尤其在大型資料庫之建立中,即使低誤差率亦可具有顯著影響。儘管大規模平行定序在成本及通量中具有優勢,但讀取之準確度可能受擴增及/或偵測技術之限制影響。 藉由使用UMI,本發明方法能夠確認無誤差擴增產物及/或測序片段,且將具有技術誤差之彼等自分析排除。具有相同UMI之擴增產物及/或測序片段可確認為相關(同源(identical by descent)),且因此具有相同UMI之分子間的序列差異可標識為技術誤差而非序列中之真實差異(例如在野生型序列與癌症相關突變體序列之間的序列差異)。換言之由於每一單股連接產物由其UMI唯一可鑑別,因此若未引入技術誤差,則其所有後代(由擴增及/或定序所致)應具有相同目標序列。然而,若在擴增及/或定序期間諸如單核苷酸插入之誤差引入至目標序列中,則一些同源(例如共有相同UMI)之擴增產物及/或測序片段將具有插入而其他將不具有。取決於在擴增及/或定序過程期間誤差何時產生,具有插入之產物與不具有插入物之彼等的精確比將改變。一般而言,當使用極高保真度聚合酶時,無誤差之產物將為大部分。在另一態樣中,因為可確定擴增產物及/或測序片段同源,所以可使用來自多個分子之資料確定共同序列,藉此實現高通量定序之高準確度。 在一個態樣中,UMI為簡併核酸序列,且UMI中之核苷酸的數目設計為使得由UMI序列表示之可能及實際序列的數目大於在初始資料庫中之目標單股目標聚核苷酸的總數目。在一個態樣中,可以使用藉由在每一位置處所有四種鹼基之混合物合成隨機產生之序列的簡併集合提供UMI序列相異性(或對每一單一UMI序列而言「唯一性」)。替代性地,可以合成相異但預定義之序列集且將其與初始單股聚核苷酸資料庫連接。UMI集合之相異性需要足以使得非同源分子不按此誤認。在一個態樣中,「唯一」分子標識符不必絕對地唯一,且可在不同目標單股聚核苷酸上使用,只要其明顯不同且不會誤認為同源分子即可。可由核苷酸之隨機組合產生之大量數目的UMI序列提供每一個別連接產物可唯一地標識之高機率。舉例而言,若UMI包含在每一位置處用A、C、G及T之混合物合成之12聚體,則存在412 種可能序列。若UMI包含在每一位置處用A、C、G及T之混合物合成之20聚體,則存在420 (約1012 )種可能序列。使用該等隨機標識符提供具有可分別區別於彼此之單股目標聚核苷酸的大型資料庫。 在特定態樣中,UMI為5聚體、6聚體、7聚體、8聚體、9聚體、10聚體、11聚體、12聚體、13聚體、14聚體、15聚體、16聚體、17聚體、18聚體、19聚體、20聚體、21聚體、22聚體、23聚體、24聚體、25聚體或甚至更長之簡併序列。在一個態樣中,連接子具有以下結構:/5'磷/ GANNNNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTG/3SpC3/,其中「NNNNNNNNNNNN」代表12聚體UMI序列,且「3SpC3」代表3'碳間隔基。序列GANNNNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTG為SEQ ID NO:2。 可藉由添加縮合劑(諸如鈷六胺)及生源多元胺(諸如亞精胺)或藉由使用亦增加酶之有效濃度的聚集劑(諸如聚乙二醇(PEG))人工增加DNA之濃度。在一個態樣中,諸如鈷六胺之添加劑可產生排他性的分子間反應,得到線性連接產物而非環狀產物。因此,在單股目標聚核苷酸之5'端與單股連接子之3'端可能未完全阻斷以避免連接之情況下,諸如鈷六胺之添加劑可用於促進分子間反應且進一步避免單股目標聚核苷酸及/或連接子之環化。 在一些實施例中,在相同連接反應中可使用多於一種組態之連接子。舉例而言,可使用以下兩種組態之連接子: 組態第1號:/5'磷/N1 N2 ...N i -UMI1 -M1 M2 ...M j -阻斷劑1 ,及 組態第2號:/5'磷/P1 P2 ...P k -UMI2 -Q1 Q2 ...Q l -阻斷劑2 。 N1 N2 ...N i 與P1 P2 ...P k 可以相同或不同,UMI1 與UMI2 可以相同或不同,M1 M2 ...M j 與Q1 Q2 ...Ql 可以相同或不同且阻斷劑1 與阻斷劑2 可以相同或不同。在一個實施例中,UMI1 與UMI2 不同(例如UMI1 為12聚體簡併序列而UMI2 為13聚體簡併序列),而連接子之其他特徵相同。在另一實施例中,N1 N2 ...N i 與P1 P2 ...P k 不同(例如,一者為AG而另一者為GA),而連接子之其他特徵相同。在又一實施例中,M1 M2 ...M j 與Q1 Q2 ...Q l 不同,而連接子之其他特徵相同。在再一實施例中,阻斷劑1 與阻斷劑2 不同,而連接子在其他特徵相同。 在連接反應之後,在無對純化(例如將連接產物與過量未連接連接子分子分離)之任何需求的情況下可使單股連接產物立即經過轉化成為雙股連接產物。此外,不需要在固體擔體上捕獲單股目標聚核苷酸及連接子兩者(例如藉由生物素-抗生蛋白鏈菌素介導結合至珠粒)以便將連接產物隨後轉化成雙股聚核苷酸及/或進行擴增步驟。因此,本發明方法避免及/或降低DNA樣本(諸如ctDNA)中由單股連接產物之純化或分離所致的突變體之已較小之對偶基因比例的損失。實際上,在一個態樣中,單股連接產物保持在導向經過引子延伸之溶液中。D. 單股聚核苷酸資料庫向雙股聚核苷酸資料庫之轉化。 在如 1 中所示之一態樣中,在建立含有單股連接產物之資料庫之後,方法可進一步包含將線性單股連接產物之資料庫轉化成線性雙股連接產物之資料庫。在一個態樣中,轉化使用各自包含與連接子反向互補及/或可與連接子雜交之序列的一個引子或一組引子。 對於具有以下結構之連接子:/5'磷/N1 N2 ...N i -UMI-M1 M2 ...M j -阻斷劑,引子可包含與M1 M2 ...M j 反向互補及/或可與其雜交之序列。在此實例中,當引子與具有結構ssDNA-N1 N2 ...N i -UMI-M1 M2 ...M j -阻斷劑之連接產物雜交時,引子延伸反應可將ssDNA-N1 N2 ...N i -UMI(及視情況M1 M2 ...M j 序列之全部或一部分)轉化成雙股聚核苷酸。在一個具體實例中,反向互補引子包含SEQ ID NO:3中所列舉之序列:CACTCTTTCCCTACACGACGC (5'至3')。 在一些實施例中,引子可以不與M1 M2 ...M j 或其一部分完全反向互補;但是,引子可在嚴格條件下與M1 M2 ...M j (及因此與連接子連接之ssDNA)雜交。 在前述實施例中之任一者中,方法可進一步包含擴增及/或純化線性雙股連接產物之資料庫。在一個態樣中,雙股連接產物經純化及大小選擇以移除未結合連接子分子及/或未結合引子及/或形成於連接子與其反向互補引子之間的複合體。可以使用任何適合之方法以移除一般比所需雙股連接產物短的此等片段。舉例而言,使用來自Qiagen之PCR純化管柱可以幫助自樣本消除較小片段且將經柱純化之樣本在2%認證之低範圍超瓊脂糖凝膠上電泳可幫助選擇所需片段大小。包括AMPure方法之以珠粒為主之DNA純化亦有助於移除較小片段。在一些實施例中,所需雙股連接產物之大小為約100 bps至約600 bps,諸如約100 bps至約400 bps、約150 bps至約200 bps、約200 bps至約250 bps及約250 bps至約300 bps。在一個實施例中,例如藉由溶離懸浮於Tri-EDTA緩衝液之珠粒純化及收集dsDNA (>150 bps且<400 bps)。 在一個態樣中,該純化法係以珠粒為主。在另一態樣中,該純化法基於大小選擇,例如純化步驟選擇性純化長度為約50個核苷酸至約1000個核苷酸的聚核苷酸,例如移除長度為約40個核苷酸之連接子(及約40 bp之引子二聚體及/或引子-連接子雙螺旋)。在一個態樣中,該純化法係以管柱為主,例如藉由使用dsDNA或ssDNA純化管柱,諸如來自Zymo或Qiagen之彼等。 在另一態樣中,該純化法不包含使用特異性結合對(諸如生物素/抗生蛋白鏈菌素),其中之一者附接於線性雙股連接產物且另一者附接於固體擔體(諸如珠粒)。 在前述實施例中之任一者中,本文中之方法可進一步包含例如藉由聚合酶鏈反應(PCR)擴增線性雙股連接產物之資料庫,獲得包含目標序列之序列資訊的線性雙股連接產物之擴增資料庫。此擴增可為不偏擴增,例如藉由將通用連接子對與雙股連接產物之端連接,且用通用引子對擴增所有經標記之雙股連接產物。在其他實施例中,進行半靶向擴增代替不偏擴增或除了不偏擴增外還進行半靶向擴增。可在不偏擴增之前或之後進行半靶向擴增。E. 雙股聚核苷酸資料庫之半靶向擴增。 在一個態樣中,如 1 中所示,雙股連接產物資料庫之半靶向擴增包含使用包含與連接子反向互補及/或可與其雜交之序列的引子及可與目標序列(例如EGFR基因序列)雜交之引子或可與該目標序列或多個目標序列雜交之引子。 對於具有以下結構之連接子:/5'磷/N1 N2 ...N i -UMI-M1 M2 ...M j -阻斷劑,引子可包含與M1 M2 ...M j 反向互補及/或可與其雜交之序列。以此方式,當引子與dsDNA之一股雜交且目標特異性引子與dsDNA之另一股雜交時,PCR產物將含有目標序列以及N1 N2 ...N i -UMI序列(及視情況M1 M2 ...M j 序列之全部或一部分)。在一個具體實例中,反向互補引子包含SEQ ID NO:3中所列舉之序列:CACTCTTTCCCTACACGACGC (5'至3')。 在一個態樣中,可使用複數個目標特異性引子,其各自包含對相同或不同目標序列具有特異性之序列。換言之,引子可具有相同或不同目標序列。在一些實施例中,目標特異性引子庫包含約5、約10、約25、約50、約100、約150、約200、約250、約300、約400、約500、約600、約700、約800、約900、約1000個或超過約1000個不同引子,諸如約104 、約105 、約106 個或更多個引子。在其他實施例中,庫包含約20至約60、約60至約100、約100至約140、約140至約180、約180至約220、約220至約260、約260至約300、約300至約350或約350至約400個的不同引子。在一個態樣中,目標特異性引子庫與一個常用反向互補引子連同使用,其中該常用反向互補引子與庫中每一單獨目標特異性引子形成引子對來以半靶向方式擴增引子之間的目標序列。因此,在此態樣中,半靶向擴增不是全部基因體擴增。 由於在一個態樣中ctDNA隨機片段化,因此目標特異性引子之引子位置可能係重要的。舉例而言,若引子附著跨越斷裂點,則其可引起較低轉化率。較大目標特異性引子庫及/或對相同目標序列使用多個部分重疊之引子可解決問題。 在一個態樣中,目標序列之序列資訊可包含突變、單核苷酸多形現象(SNP)、複本數變化(CNV)或表觀遺傳改變。在一個態樣中,突變包含點突變、插入、缺失、反轉、截短、融合、擴增或其任何組合。 在一些實施例中,線性雙股連接產物之擴增資料庫可為除完全基因體資料庫外之資料庫,例如半靶向基因體資料庫。 在一些實施例中,方法可進一步包含純化線性雙股連接產物之擴增資料庫。可以使用任何適合之方法以移除包括引子二聚體之較小片段。舉例而言,使用來自Qiagen之PCR純化管柱可以幫助自樣本消除較小片段且將經柱純化之樣本在2%認證之低範圍超瓊脂糖凝膠上電泳可幫助選擇所需片段大小。包括AMPure方法之以珠粒為主之DNA純化亦有助於移除較小片段。在一些實施例中,擴增產物之大小為約100 bps至約600 bps,諸如約100 bps至約400 bps、約150 bps至約200 bps、約200 bps至約250 bps及約250 bps至約300 bps。在一個實施例中,例如藉由溶離懸浮於Tri-EDTA緩衝液之珠粒純化及收集dsDNA (>150 bps且<400 bps)。 在一個態樣中,該純化法係以珠粒為主。在另一態樣中,該純化法基於大小選擇,例如純化步驟選擇性純化長度大於約150個核苷酸之聚核苷酸。在另一態樣中,該純化法不包含使用特異性結合對(諸如生物素/抗生蛋白鏈菌素),其中之一者附接於線性雙股連接產物且另一者附接於固體擔體(諸如珠粒)。在一個態樣中,該純化法係以管柱為主,例如藉由使用dsDNA或ssDNA純化管柱,諸如來自Zymo或Qiagen之彼等。F. 序列資料庫之建立及對測序片段之分析。 在一個態樣中,方法進一步包含對線性雙股連接產物之純化擴增資料庫進行定序。在一個態樣中,定序步驟包含將定序連接子及/或樣本特異性條碼與每一線性雙股連接產物附接。在一個特定態樣中,使用聚合酶鏈反應(PCR)進行附接步驟。 2 展示包含用於定序之目標分子之建構物之例示性組態。對於Illumina定序,此等建構物在各端上具有流槽結合位點P5及P7,其允許資料庫片段附接於流槽表面。在流槽表面上單股資料庫片段之P5及P7區域黏著於其互補寡核苷酸。流槽寡核苷酸充當引子且合成與資料庫片段互補之股。隨後,沖洗掉原始股,在取向混合物中留下與流槽表面共價鍵結之片段複本。隨後由橋式擴增產生每一片段之複本,產生團簇。隨後,P5區域裂解,引起團簇僅含有由P7區域附接之片段。此確保所有複本在相同方向上定序。定序引子黏著於片段之P5端,且藉由合成過程開始定序。當樣本帶條碼時進行索引讀取。當時讀取1完成時,移除來自讀取1之所有物體且添加索引引子,其黏著於片段之P7端且對條碼定序。隨後,自模板剝離所有物體,其藉由如在中讀取1中之橋式擴增形成團簇。 此留下在取向混合物中與流槽表面共價鍵結之片段複本。此次,剪切P7而非P5,得到僅含有由P5區域附接之片段的團簇。此確保所有複本在相同方向(與讀取1反向)上定序。定序引子黏著於P7區域且對模板之另一端定序。 次世代定序平台,諸如MiSeq (Illumina Inc., San Diego, CA)可用於高度多重檢驗讀取。各種統計工具,諸如比例測試、基於錯誤發現率之多重比較校正(參見Benjamini及Hochberg, 1995,Journal of the Royal Statistical Society Series B (Methodological) 57, 289-300)及用於多重測試之Bonferroni校正可用於分析檢驗結果。此外,經開發用於對來自RNA-Seq資料差異性表現分析之方法可用於在分析中減少每一目標序列之差異及增加整體動力。參見Smyth, 2004, Stat. Appl. Genet. Mol. Biol. 3, Article 3。 總體而言,在一些實施例中,本發明方法之轉化率為至少約40%、至少約50%、至少約60%、至少約70%、至少約80%、至少約90%或至少約95%。在一個態樣中,轉化率為在初始資料庫中產生測序片段之靶向單股聚核苷酸的百分比。 在前述實施例中之任一者中,方法可用於個體內之疾病或病況之診斷及/或預後、預測個體對治療之反應、識別用於疾病/病況或治療之藥物遺傳標記及/或篩查群體之遺傳資訊。在一個態樣中,疾病或病況為癌症或贅瘤,且治療為癌症或贅瘤治療。 相比於癌症相關生物標記,突變型DNA分子提供獨特優點因為其如此特異性。儘管在單獨正常細胞中突變以低比率(約10 9 至10 10 突變/bp/代)出現,該等突變代表在特定技術方法之偵測極限數量級以下之總正常DNA的此種微小比例。數個研究已展示突變型DNA可在CRC患者之糞便、尿液及血液中偵測到(Osborn及Ahlquist, Stool screening for colorectal cancer: molecular approaches,Gastroenterology 2005;128:192-206)。 基於本文中之定序結果,可作出患者中之循環腫瘤DNA的偵測,且可作出癌症之診斷及關於腫瘤復發之預測。基於預測,可作出治療及監測決策。舉例而言,指示未來復發之循環腫瘤DNA可引起額外或更積極的療法以及額外或更精密的成像及監測。循環DNA係指與腫瘤異位之DNA。 可為ctDNA對包括血液及糞便之樣本監測。血液樣本可以例如血液之一部分,諸如血清或血漿。類似地可以部分分離糞便以將DNA自其他組分純化。腫瘤樣本用於鑑別在腫瘤中可用作在體內其他部位中之腫瘤標記的體細胞突變基因。因此,作為一實例,可以藉由此項技術中已知之任何標準方法鑑別腫瘤中之特定體細胞突變。典型方法包括使用對偶基因特異性探針、對偶基因特異性擴增、引子延伸等之腫瘤DNA之直接定序。一旦鑑別出體細胞突變,則其可在身體之其他腔隙使用以區分來源於腫瘤之DNA與來源於其他身體細胞之DNA。藉由確定體細胞突變在相同患者之身體正常組織中不出現而確認。可以此方式診斷及/或監測之腫瘤的類型實際上不受限制。可以使用使細胞及/或DNA流出至血液或糞便或其他體液中之任何腫瘤。該等腫瘤包括除了結腸直腸腫瘤之外乳、肺、腎臟、肝臟、胰腺、胃、大腦、頭部及頸部、淋巴管、卵巢、子宮、骨、血液等之腫瘤。 在一個態樣中,本文所揭示之方法可用於建立用於定序及/或確定目標序列之一或多個區域之表觀遺傳狀況/狀態的資料庫。DNA甲基化首先為發現之表觀遺傳標記。後生學為對由除基礎DNA序列改變之外的機制所造成之基因表現改變或細胞表現型的研究。甲基化主要涉及將甲基添加至二核苷酸CpG之胞嘧啶殘基的碳-5位且與轉錄活性之壓製或抑制相關。 亞硫酸氫鹽轉化為使用亞硫酸氫鹽試劑以處理DNA以測定其甲基化模式。用亞硫酸氫鹽處理DNA將胞嘧啶殘基轉化成尿嘧啶但留下5-甲基胞嘧啶殘基不受影響。因此,亞硫酸氫鹽處理在DNA序列中引入取決於單獨胞嘧啶殘基之甲基化狀況的特定變化。可以在經改變之序列上進行各種分析以獲取此資訊,例如以便區分由亞硫酸氫鹽轉化引起之單核苷酸多形現象(SNP)。皆以引用之方式併入本文中之美國專利第7,620,386號、美國專利第9,365,902號及美國專利申請公開案2006/0134643舉例說明關於偵測歸因於亞硫酸氫鹽轉化而改變之序列一般熟習此項技術者已知之方法。可使用任何適合之技術、步驟或試劑進行亞硫酸氫鹽轉化。在一些實施例中,亞硫酸氫鹽轉化可使用以下套組及套組中提供之步驟中之任一者進行:EpiMark亞硫酸氫鹽轉化套組,New England Biosciences, E3318S;EZ DNA甲基化套組,Zymo Research, D5001;MethylCode亞硫酸氫鹽轉化套組,Thermo Fisher Scientific, MECOV50;EZ DNA甲基化金套組,Zymo Research, D5005;EZ DNA甲基化直接套組, Zymo Research, D5020;EZ DNA甲基化快速套組,Zymo Research, D5030T;EpiJET亞硫酸氫鹽轉化套組,Thermo Fisher Scientific, K1461;或EpiTect亞硫酸氫鹽套組,Qiagen, 59104。 如上文所論述,亞硫酸氫鹽轉化之一個結果為原始目標之雙股構形歸因於序列互補性之損失而斷裂。對於建立雙股資料庫之傳統方法而言此可引起問題,而在一態樣中本發明方法獨特地適合於由亞硫酸氫鹽轉化樣本建立單股資料庫用於定序分析。 在另一態樣中,本發明方法可與用於確定甲基化狀態/狀況之方法組合使用,確定甲基化狀態/狀況之方法例如描述於2017年4月19日申請之題為「用於偵測基因體差異及DNA甲基化狀況之組成物及方法(Compositions and Methods for Detection of Genomic Variance and DNA Methylation Status)」之美國臨時申請案第62/487,422號(代理人案號737993000100)中,出於所有目的其以全文引用之方式併入本文中。在一個實施例中,在脫磷酸及/或變性步驟之前使樣本與對甲基化敏感之限制酶(MSRE)接觸,且隨後藉由如本文所揭示由連接建立單股資料庫分析甲基化概況。G. 用於資料庫建立及 / 或定序之套組。 在本文另一態樣中揭示一種用於建立連接產物之資料庫的套組。在一個實施例中,套組包含單股DNA (ssDNA)連接酶。在另一態樣中,套組包含複數個連接子。在特定態樣中,每一連接子在3'端處阻斷以避免連接而連接子之5'端可用於與單股聚核苷酸連接以形成線性單股連接產物。在其他特定態樣中,每一連接子包含指定單股聚核苷酸之唯一分子標識符(UMI)序列。 在一個態樣中,用於建立連接產物之資料庫的套組可包含ssDNA連接酶及複數個連接子,且每一連接子在3'端處阻斷以避免連接而連接子之5'端可用於與單股聚核苷酸連接以形成線性單股連接產物,且每一連接子包含指定單股聚核苷酸之UMI序列。 在另一態樣中,套組可進一步包含用於使來自樣本之雙股聚核苷酸變性以獲得單股聚核苷酸之變性劑。 在再一態樣中,套組可包含棲熱菌屬噬菌體RNA連接酶,諸如噬菌體TS2126 RNA連接酶(例如CircLigase™及CircLigase II™)或古細菌RNA連接酶,諸如熱自養甲烷桿菌RNA連接酶1。在前述實施例中之任一者中,套組可包含RNA連接酶,諸如T4 RNA連接酶,例如T4 RNA連接酶2、截短型T4 RNA連接酶2、T4 RNA連接酶2截短型KQ或T4 RNA連接酶2截短型K227Q。套組亦可包含其他適合之ssDNA連接酶,例如T4 RNA連接酶I、熱穩定5' App DNA/RNA連接酶、T4 RNA連接酶2、截短型T4 RNA連接酶2,例如截短型T4 RNA連接酶2、T4 RNA連接酶2截短型K227Q、T4 RNA連接酶2截短型KQ或T4 DNA連接酶。 在一個態樣中,套組可進一步包含用於連接反應之聚集劑。在一個態樣中,聚集劑包含聚乙二醇(PEG),諸如PEG 4000或PEG 6000、聚葡萄糖及/或聚蔗糖。 在另一態樣中,套組可進一步包含各自包含與連接子反向互補及/或可與連接子雜交之序列的引子或一組引子,以便將單股聚核苷酸轉換成雙股聚核苷酸。 在一個態樣中,套組可進一步包含用於移除引子二聚體及/或引子-連接子雙螺旋之試劑。 在另一態樣中,套組可進一步包含含有對目標序列(例如EGFR基因序列)具有特異性之序列的引子,以便獲得包含目標序列之序列資訊之擴增線性雙股連接產物。在另一態樣中,套組可進一步包含定序連接子及/或樣本特異性條碼,以便對擴增線性雙股連接產物進行定序。 亦提供基於上文所描述之套組組分的診斷套組,且其可用於診斷個體內之疾病或病況,例如癌症。在另一態樣中,套組可用於預測個體對藥物、療法、治療或其組合之反應。此類測試套組可包括個體不需健保提供者之輔助可以使用以獲得例如ctDNA之樣本的裝置及說明書。 亦提供用於以上描述或提出之應用中的套組及製品。此類套組可包含至少一種對疾病或病況之標記基因分型具有特異性之試劑,且可進一步包括用於進行本文所述之方法之說明書。 在一些實施例中,本文提供包含引子及引子對之組合物及套組,其允許聚核苷酸或其任何特定部分之特異性擴增,及出於定性或定量偵測之目的選擇性或特異性地與核酸分子或其任何部分雜交之探針。可用可偵測標記標記探針,諸如放射性同位素、螢光化合物、生物發光化合物、化學發光化合物、金屬螯合劑或酶。此類探針及引子可用以偵測樣本中聚核苷酸之存在,且作為用於偵測表現由聚核苷酸編碼之蛋白質之細胞的構件。熟習此項技術者將理解,可以基於本文所提供之序列製備許多不同引子及探針且使用其有效地擴增、選殖及/或確定聚核苷酸(諸如基因體DNA、mtDNA及其片段)之存在及/或含量。 在一些實施例中,套組可另外包含用於偵測多肽存在之試劑。此類試劑可為抗體或其他特異性結合於多肽之結合分子。在一些實施例中,此類抗體或結合分子可能能夠由於多形現象區分多肽之結構變異,且因此可用於基因分型。抗體或結合分子可用可偵測標記標記,諸如放射性同位素、螢光化合物、生物發光化合物、化學發光化合物、金屬螯合劑或酶。其他用於進行結合檢定之試劑可包括於套組中,諸如ELISA。 在一些實施例中,套組包含用於對至少兩個、至少三個、至少五個、至少十個或更多個標記基因分型之試劑。標記可為聚核苷酸標記(諸如癌症相關突變或SNP)或多肽標記(諸如過度表現或翻譯後修飾,包括蛋白質之超或次磷酸化)或其任何組合。在一些實施例中,套組可進一步包含表面或基板(諸如微陣列),用於捕獲用於偵測所擴增核酸之探針。 套組可進一步包含經分區之載體構件,以緊密限制容納一或多個容器構件,諸如小瓶、管及其類似物,容器構件中之每一者包含用於該方法之獨立元件中的一者。舉例而言,容器工具中之一者可包含作為可偵測標記或可為可偵測標記之探針。此類探針可為對生物標記具有特異性之聚核苷酸。套組亦可具有含有用於擴增目標核酸序列之核苷酸的容器及/或包含結合至報導分子之報告子構件(諸如酶素性、螢光或放射性同位素標籤)的容器。 套組典型地包含上文所描述之容器及一或多個其他容器,其包含根據商業及使用者觀點所需之材料,包括緩衝劑、稀釋劑、過濾器、針、注射器及具有使用說明書之封裝插入物。容器上可存在標籤以指示組合物係用於特定療法或非治療性應用,且亦可指示用於活體內或活體外用途(諸如上文所述之彼等)之說明。 套組可進一步包含一組用於製備組織或細胞或體液樣本及自樣本製備核酸(諸如ctDNA)之說明書及材料。H. 其他例示性實施例 在前述實施例中之任一者中,ssDNA連接酶可為棲熱菌屬噬菌體RNA連接酶,諸如噬菌體TS2126 RNA連接酶(例如CircLigase™及CircLigase II™)或古細菌RNA連接酶,諸如熱自養甲烷桿菌RNA連接酶1。在其他態樣中,ssDNA連接酶為RNA連接酶,諸如T4 RNA連接酶,例如T4 RNA連接酶I (例如New England Biosciences M0204S)、T4 RNA連接酶2 (例如New England Biosciences M0239S)、截短型T4 RNA連接酶2 (例如New England Biosciences M0242S)、T4 RNA連接酶2截短型KQ (例如M0373S)或T4 RNA連接酶2截短型K227Q (例如New England Biosciences M0351S)。在前述實施例中之任一者中,ssDNA連接酶亦可為熱穩定5' App DNA/RNA連接酶(例如New England Biosciences M0319S)或T4 DNA連接酶(例如New England Biosciences M0202S)。 在一些實施例中,本發明方法包含使用單股DNA (ssDNA)連接酶將一組連接子與單股聚核苷酸之資料庫連接。可使用任何適合之ssDNA連接酶,包括本文所揭示者。連接子可以任何適合之含量或濃度使用,例如約1 μM至約100 μM,諸如約1 μM、10 μM、20 μM、30 μM、40 μM、50 μM、60 μM、70 μM、80 μM、90 μM或100 μM或其任何子範圍。連接子可包含任何適合之序列或鹼基或以任何適合之序列或鹼基開始。舉例而言,連接子序列可以所有鹼基之2 bp組合開始。 在一些實施例中,可以在聚集劑存在下進行連接反應。在一個態樣中,聚集劑包含聚乙二醇(PEG),諸如PEG 4000、PEG 6000或PEG 8000、聚葡萄糖及/或聚蔗糖。可以任何適合之含量或濃度使用聚集劑,例如PEG。舉例而言,可以約0% (w/v)至約25% (w/v),例如約0% (w/v)、1% (w/v)、2% (w/v)、3% (w/v)、4%(w/v)、5% (w/v)、6% (w/v)、7%(w/v)、8% (w/v)、9%(w/v)、10% (w/v)、11%(w/v)、12% (w/v)、13%(w/v)、14% (w/v)、15% (w/v)、16% (w/v)、17% (w/v)、18% (w/v)、19% (w/v)、20% (w/v)、21% (w/v)、22% (w/v)、23% (w/v)、24% (w/v)或25% (w/v)或其任何子範圍之含量或濃度使用聚集劑,例如PEG。 在一些實施例中,連接反應可進行任何適合之時間長度。舉例而言,連接反應可進行約2至約16小時,例如約2小時、3小時、4小時、5個小時、6小時、7小時、8小時、9小時、10小時、11小時、12小時、13小時、14小時、15小時或16小時或其任何子範圍。 在一些實施例中,在連接反應中可以使用任何適合之體積的ssDNA連接酶。舉例而言,在連接反應中ssDNA連接酶可以約0.5 μl至約2 μl,例如以約0.5 μl、0.6 μl、0.7 μl、0.8 μl、0.9 μl、1 μl、1.1 μl、1.2 μl、1.3 μl、1.4 μl、1.5 μl、1.6 μl、1.7 μl、1.8 μl、1.9 μl或2 μl或其任何子範圍之體積使用。 在一些實施例中,連接反應可在連接增強劑(例如甜菜鹼)存在下進行。連接增強劑(例如甜菜鹼)可以任何適合之體積,例如約0 μl至約1 μl,例如以約0 μl、0.1 μl、0.2 μl、0.3 μl、0.4 μl、0.5 μl、0.6 μl、0.7 μl、0.8 μl、0.9 μl 、1 μl或其任何子範圍使用。 在一些實施例中,連接反應可使用T4 RNA連接酶I (例如來自New England Biosciences之T4 RNA連接酶I M0204S)在以下例示性反應混合物(20 μl)中進行:1×反應緩衝液(50 mM Tris-HCl、pH 7.5、10 mM MgCl2 1 mM DTT)、25% (wt/vol) PEG 8000、1 mM六胺氯化鈷(視情況選用)、1 μl (10單位) T4 RNA連接酶及1 mM ATP。可將反應在25℃下培育16小時。可藉由添加40 μl之10 mM Tris-HCl pH 8.0、2.5 mM EDTA停止反應。 在一些實施例中,連接反應可使用熱穩定5' App DNA/RNA連接酶(例如來自New England Biosciences之熱穩定5' App DNA/RNA連接酶M0319S)在以下例示性反應混合物(20 μl)中進行:ssDNA/RNA受質20 pmol (1 pmol/ul)、5' App DNA寡核苷酸40 pmol (2 pmol/µl)、10×NEBuffer 1 (2 µl)、50 mM MnCl2 (僅用於ssDNA連接) (2 µl)、熱穩定5' App DNA/RNA連接酶(2 µl (40 pmol))及不含核酸酶之水(至20 µl)。可將反應在65℃下培育1小時。可藉由在90℃下加熱3分鐘停止反應。 在一些實施例中,連接反應可使用T4 RNA連接酶2 (例如來自New England Biosciences之T4 RNA連接酶2 M0239S)在以下例示性反應混合物(20 μl)中進行:T4 RNA連接酶緩衝液(2 µl)、酶(1 µl)、PEG (10 µl)、DNA (1 µl)、連接子(2 µl)及水(4 µl)。可將反應在25℃下培育16小時。可藉由在65℃下加熱20分鐘停止反應。 在一些實施例中,連接反應可使用截短型T4 RNA連接酶2 (例如來自New England Biosciences之截短型T4 RNA連接酶2 M0242S)在以下例示性反應混合物(20 μl)中進行:T4 RNA連接酶緩衝液(2 µl)、酶(1 µl)、PEG (10 µl)、DNA (1 µl)、連接子(2 µl)及水(4 µl)。可將反應在25℃下培育16小時。可藉由在65℃下加熱20分鐘停止反應。 在一些實施例中,連接反應可使用T4 RNA連接酶2截短型K227Q (例如來自New England Biosciences之T4 RNA連接酶2截短型K227Q M0351S)在以下例示性反應混合物(20 μl)中進行:T4 RNA連接酶緩衝液(2 µl)、酶(1 µl)、PEG (10 µl)、DNA (1 µl)、腺苷酸化連接子(0.72 µl)及水(5.28 µl)。可將反應在25℃下培育16小時。可藉由在65℃下加熱20分鐘停止反應。 在一些實施例中,連接反應可使用T4 RNA連接酶2截短型KQ (例如來自New England Biosciences之T4 RNA連接酶2截短型KQ M0373S)在以下例示性反應混合物(20 μl)中進行:T4 RNA連接酶緩衝液(2 µl)、酶(1 µl)、PEG (10 µl)、DNA (1 µl)、腺苷酸化連接子(0.72 µl)及水(5.28 µl)。可將反應在25℃下培育16小時。可藉由在65℃下加熱20分鐘停止反應。 在一些實施例中,連接反應可使用T4 DNA連接酶(例如來自New England Biosciences之T4 DNA連接酶M0202S)在以下例示性反應混合物(20 μl)中進行:T4 RNA連接酶緩衝液(2 µl)、酶(1 µl)、PEG (10 µl)、DNA (1 µl)、腺苷酸化連接子(0.72 µl)及水(5.28 µl)。可將反應在16℃下培育16小時。可藉由在65℃下加熱10分鐘停止反應。 可使用任何適合之酶進行第二股合成步驟。舉例而言,可使用Bst聚合酶(例如New England Biosciences, M0275S)或克列諾(Klenow)片段(3'->5'外切酶(exo-)) (例如New England Biosciences, M0212S)進行第二股合成步驟。 在一些實施例中,第二股合成步驟可使用Bst聚合酶(例如New England Biosciences, M0275S)在以下例示性反應混合物(10 μl)中進行:水(1.5 μl)、引子(0.5 μl)、dNTP (1 μl)、耐熱聚合酶(ThermoPol)反應緩衝液(5 μl)及Bst (2 μl)。可將反應在62℃下培育2分鐘且在65℃下培育30分鐘。在反應之後,可進一步純化雙股DNA分子。 在一些實施例中,第二股合成步驟可使用克列諾片段(3'->5'外切酶) (例如New England Biosciences, M0212S)在以下例示性反應混合物(10 μl)中進行:水(0.5 μl)、引子(0.5 μl)、dNTP (1 μl)、NEB緩衝液(2 μl)及外切酶(3 μl)。可將反應在37℃下培育5分鐘且在75℃下培育20分鐘。在反應之後,可進一步純化雙股DNA分子。 在第二股合成之後,但在第一或半靶向PCR之前,可純化雙股DNA。可使用任何適合之技術或步驟純化雙股DNA。舉例而言,可使用以下套組中之任一者純化雙股DNA:Zymo清潔及濃縮器,Zymo research, D4103;Qiaquick, Qiagen, 28104;Zymo ssDNA純化套組,Zymo Research, D7010;Zymo寡核苷酸純化套組,Zymo Research, D4060;及AmpureXP珠粒,Beckman Coulter, A63882:1.2×-4×珠粒比。 可使用任何適合之酶或反應條件進行第一或半靶向PCR。舉例而言,聚核苷酸或DNA股可在約52℃至約72℃範圍內之溫度下黏著,例如在約52℃、53℃、54℃、55℃、56℃、57℃、58℃、59℃、60℃、61℃、62℃、63℃、64℃、65℃、66℃、67℃、68℃、69℃、70℃、71℃或72℃或其任何子範圍下。第一或半靶向PCR可進行任何適合之循環輪數。舉例而言,第一或半靶向PCR可進行10-40次循環,例如10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31 、32、33、34、35、36、37、38、39或40次循環。可使用任何適合之濃度的引子庫。舉例而言,引子庫可以在約5 nM至約200 nM範圍內之濃度使用,例如在約5 nM、6 nM、7 nM、8 nM、9 nM、10 nM、20 nM、30 nM、40 nM、50 nM、60 nM、70 nM、80 nM、90 nM、100 nM、110 nM、120 nM、130 nM、140 nM、150 nM、160 nM、170 nM、180 nM、190 nM或200 nM或其任何子範圍。 可使用任何適合之溫度循環條件進行第一或半靶向PCR。舉例而言,第一或半靶向PCR可使用以下循環條件中之任一者進行:95℃ 3分鐘、(95℃ 15秒、62℃ 30秒、72℃ 90秒)×3或×5;或(95℃ 15秒、72℃ 90秒)×23或×21、72℃ 1分鐘、4℃永久。 在一些實施例中,第一或半靶向PCR可使用KAPA SYBR FAST (例如KAPA biosciences, KK4600)在以下例示性反應混合物(50 μl)中進行:DNA (2 μl)、KAPASYBR (25 μl)、引子庫(各26 nM) (10 μl)、Aprimer (100 μM) (0.4 μl)及水(12.6 μl)。第一或半靶向PCR可使用以下循環條件中之任一者進行:95℃ 30秒、(95℃ 10秒、50℃-56℃ 45秒、72℃ 35秒)×40。 在一些實施例中,第一或半靶向PCR可使用KAPA HiFi (例如KAPA biosciences, KK2601)在以下例示性反應混合物(50 μl)中進行:DNA (15 μl)、KAPAHiFi (25 μl)、引子庫(各26 nM) (10 μl)及Aprimer (100 μM) (0.4 μl)。第一或半靶向PCR可使用以下循環條件中之任一者進行:95℃ 3分鐘、(98℃ 20秒、53℃-54℃ 15秒、72℃ 35秒)×15、72℃ 2分鐘、4℃永久。 可使用任何適合之技術、步驟或試劑進行亞硫酸氫鹽轉化。在一些實施例中,亞硫酸氫鹽轉化可使用以下套組及套組中提供之步驟中之任一者進行:EpiMark亞硫酸氫鹽轉化套組,New England Biosciences, E3318S;EZ DNA甲基化套組,Zymo Research, D5001;MethylCode亞硫酸氫鹽轉化套組,Thermo Fisher Scientific, MECOV50;EZ DNA甲基化金套組,Zymo Research, D5005;EZ DNA甲基化直接套組, Zymo Research, D5020;EZ DNA甲基化快速套組,Zymo Research, D5030T;EpiJET亞硫酸氫鹽轉化套組,Thermo Fisher Scientific, K1461;或EpiTect亞硫酸氫鹽套組,Qiagen, 59104。 在一些實施例中,可使用實例4中所說明的步驟製備DNA分子,包括用於建立單股聚核苷酸、將單股聚核苷酸資料庫轉化成雙股聚核苷酸資料庫、雙股聚核苷酸資料庫之半靶向擴增及建立序列資料庫的步驟。可使用任何適合之方法或步驟對此類DNA分子進一步分析甲基化狀況。I. 實例。 實例 1 在此實例中,模板(例如待定序之聚核苷酸)為小於約200 bp長度之短DNA片段。此等DNA片段可包括自血漿提取之DNA、經酶處理(例如藉由片段化酶)之基因體DNA或物理剪切DNA。物理剪切DNA可經端修復。在特定態樣中,模板具有3'羥基用於連接。 典型地,例如在37℃下在100 mM MOPS (pH 7.5)、20 mM KCl、10 mM MgCl2 、2 mM DTT及5 mM MnCl2 中使用1 U FastAP熱敏鹼性磷酸酶(Thermo Scientific)10分鐘使10-30 ng適當製備之模板DNA脫磷酸。隨後例如在95℃下持續2分鐘及置於冰上1分鐘使DNA變性。 單股連接子由IDT與5'磷酸基團及3'碳間隔基合成。5'端含有GA,其之後為12聚體唯一分子標識符(UMI)序列。典型單股連接子具有以下序列:/5磷/GANNNNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGGGAAAGA GTG/3SpC3/ (「5磷」代表5'磷酸基團,「NNNNNNNNNNNN」代表12聚體UMI序列且「3SpC3」代表3'碳間隔基)。 隨後使用脫磷酸單股DNA作為模板進行連接反應。連接反應中使用以下最終濃度:50 mM MOPS (pH 7.5)、10 mM KCl、5 mM MgCl2 、1 mM DTT及2.5 mM MnCl2 、50% PEG 4000、0.5 µM連接子、125 µM ATP及200 U Epicentre Circligase™。將反應在60℃下培育2小時、在80℃下培育10分鐘、在85℃下培育2分鐘且保持在4℃下。 隨後藉由將先前反應體積添加至以下中使DNA成為雙股:10 mM Tris-HCl (pH 8.3)、50 mM KCl、1.5 mM MgCl2 、1.25 U Taq DNA聚合酶(NEB)、1 µM反向互補引子(與連接子反向互補之引子)及200 µM dNTP混合物。將反應在95℃下培育30秒、在62℃下培育2分鐘、在68℃下培育10分鐘且保持在4℃下。典型反向互補引子包含SEQ ID NO:3中所列舉之序列:CACTCTTTCCCTACACGACGC (5'至3')。以下為連接子與反向互補引子之間的匹配:隨後使用1.6 (珠粒比)×AmPure®XP珠粒純化反應物。添加且培育珠粒10分鐘。隨後將混合物轉移至磁體5分鐘。隨後移出上澄液。用150 µL 80%乙醇每次洗滌珠粒30秒,洗滌2次。隨後移除所有殘餘乙醇且將珠粒在室溫下乾燥3分鐘離開磁體。將15 µl低TE緩衝液(Thermo Fisher)添加至珠粒中且培育2分鐘。隨後使珠粒返回至磁體1分鐘。移出上澄液且將其儲存用於下一反應。在一個態樣中,在純化過程中珠粒比引起大小選擇性,且可選擇去除短於約100 bp之分子的珠粒比(諸如1.6×)。 一組PCR引子設計成將引子-引子相互作用及偏離目標之黏著減至最少。引子進一步經優化,以便附著在非常接近特定變異體。一旦經設計,則由IDT合成引子。將引子以相同體積比混合至引子庫。用以下試劑進行半靶向PCR反應:來自先前反應之所有純化DNA、1×KAPA 2G多重混合試劑(multiplex master mix)、66 nM來自集合庫之每一引子、及800 nM反向互補引子。反應經過以下熱循環程序:95℃ 3分鐘、(95℃ 15秒、72℃ 90秒)×20、72℃ 1分鐘及保持在4℃下。 隨後使用1.6 (珠粒比)×AmPure®XP珠粒純化反應物。添加且培育珠粒10分鐘。隨後將混合物轉移至磁體5分鐘。隨後移出上澄液。用150 µL 80%乙醇每次洗滌珠粒30秒,洗滌2次。隨後移除所有殘餘乙醇且將珠粒在室溫下乾燥3分鐘離開磁體。將20 µl低TE緩衝液(Thermo Fisher)添加至珠粒中且培育2分鐘。隨後使珠粒送回磁體1分鐘。移出上澄液且將其儲存用於下一反應。可選擇珠粒比(諸如1.6×),去除短於約100 bp之分子,包括游離連接子分子、游離引子分子及/或連接子/引子二聚體。 隨後完成另一PCR反應以添加全長定序連接子及樣本特異性條碼。PCR反應含有以下:來自先前反應之2 µL純化DNA、1×NEB ultra Q5 II混合試劑(master mix)、400 nM通用引子及400 nM條碼特異性引子。反應經過以下熱循環程序:95℃ 3分鐘、(98℃ 10秒、65℃ 75秒)×10、65℃ 2分鐘及保持在4℃下。 隨後使用0.8 (珠粒比)×AmPure®XP珠粒純化反應物。添加且培育珠粒10分鐘。隨後將混合物轉移至磁體5分鐘。隨後移出上澄液。用150 µL 80%乙醇每次洗滌珠粒30秒,洗滌2次。隨後移除所有殘餘乙醇且將珠粒在室溫下乾燥3分鐘離開磁體。將25 µl低TE緩衝液(Thermo Fisher)添加至珠粒中且培育2分鐘。隨後使珠粒送回磁體1分鐘。移出上澄液且準備定序。可選擇珠粒比(諸如0.8×),去除短於約200 bp之大部分分子。實例 2 在此實例中,使用10 ng及20 ng進料測試具有已知變異體之基因體DNA (gDNA)樣本及血漿樣本。gDNA樣本含有單一核苷酸變異(SNV,可與「單一核苷酸變化」SNC互換使用)、插入與缺失(indel)、CNV及融合。每一變異體在各種對偶基因比例下指定:5%、1%、0.5%及0.1%。對每一突變類型量測在每一對偶基因比例下之靈敏度及特異性。在此所使用之引子庫示於表1中。可以對於整個庫以相同體積比或不同體積比使用每一目標特異性引子。舉例而言,對於具有體積比2之引子,該引子以具有比1之引子的2×體積添加。 1 在一個態樣中,本發明方法可實現在特定基因座處提高之靈敏度。在下表2中,本發明方法與習知雜交體捕獲方法進行比較。本發明方法藉由雜交體捕獲指定數個基因座丟失,其直接與本發明方法提高之轉化率相關。 2 與標準資料庫中分別約25%之連接效率及10%轉化率相比,實現約80%之極高連接效率,得到約60%之轉化率。本方法之例示性轉化率示於表3中。 3 6 中所示,分佈顯示本發明方法與雜交體捕獲相比轉化率上升顯著較高。 在此實例中,習知雜交捕獲方法可實現約47%轉化率,而本發明方法實現約88%之高得多的轉化率。此顯著較高轉化率連同在單個反應中在跨越數百基因座之多重分析的能力使得本發明方法對聚核苷酸之高通量及高準確度定序及分析而言係理想的,尤其對於具有極低對偶基因比例之樣本,諸如攜載癌症相關SNP及/或突變之ctDNA。 此外,與標準資料庫約2000×之增濃因子相比,對於極小目標區域(約30,000個鹼基)在目標上之比率高達70%引起>40,000×之增濃因子。提高之效率引起更高靈敏度,允許在諸多變異體中準確指定降至0.1%。SNV、插入與缺失、CNV及融合精確指定。此外,步驟極穩健,失敗率為0%。實例 3 在此實例中,描述一種用於由經提取之血漿DNA建立資料庫之方法,例如用於檢查循環腫瘤DNA之單一核苷酸變化(SNC)、插入與缺失、複本數變化(CNV)及融合。作為在此實例中之原則,提取出之血漿DNA(例如來自人類)經脫磷酸及變性。單股DNA連接將通用連接子添加至每一分子之3'端。隨後使用位點特異性引子及與連接子反向互補之引子使DNA進行半靶向PCR。利用第二PCR以將全長連接子及條碼添加至每一分子製得資料庫。 此實例中所用之設備、材料及用品包括:Veriti熱循環儀、96孔磁體、96孔冰塊、渦旋器、盤微型離心機、半側緣(semi-skirted) 96孔PCR盤、盤密封件、吸量管及滴管尖端。 此實例中所用之試劑及介質包括:不含核酸酶之水(Ambion/Thermo:AM9939)、低TE緩衝液(Thermo fisher:12090015)、Circligase套組(Epicenter:CL4115K)、FastAP (Thermo Fisher:EF0651)、50% PEG 4000 (Sigma:95904-250g-F.在10 mL不含核酸酶之水中稀釋5 g/Thermo:AM9939)、10 µM N12連接子(IDT)、Taq聚合酶(NEB:M0273S)、dNTP混合物(NEB:N0447L)、標準Taq緩衝液(NEB:M0273S)、Ampure XP珠粒(Agincourt/Beckman Coulter:A63881)、100 uM反向互補引子(IDT)、引子混合物(IDT)、KAPA 2G多重(KAPA:KK5802)、NEBNext超Q5 II (NEB:M0544L)及10 µM NEBNext多重寡核苷酸(IDT)。步驟 脫磷酸: 1. 製造以下混合試劑(master mix): 2.將混合試劑及DNA添加至96孔盤。 3. 將盤密封以將其短暫渦旋及離心。 4. 進行以下程序:37℃ 10分鐘、95℃ 2分鐘。 5. 緊接地在之後,將盤置放於96孔冰塊上持續1分鐘,隨後移出盤以立即繼續以下連接。連接: 1. 製造以下混合試劑(master mix): 2. 將18 µl混合試劑直接添加至脫磷酸之產物。 3. 將盤密封以將其短暫渦旋及離心。 4. 進行以下程序:60℃ 2小時、80℃ 10分鐘、85℃ 2分鐘、4℃保持。 5. 立即繼續進行以下第二股合成。第二股合成 1. 製造以下混合試劑(master mix): 2. 將10 µl混合試劑直接添加至連接產物。 3. 將盤密封以將其短暫渦旋及離心。 4. 進行以下程序:95℃ 30秒、62℃ 2分鐘、68℃ 10分鐘、4℃保持。 5. 立即繼續進行以下AmPure® XP珠粒清除。AmPure®XP 珠粒清除 1. 將AmPure®珠粒渦旋直至溶液均質。 2. 將80 µl珠粒添加至來自第二股合成之產物,且上下移液以使珠粒均質化。 3. 在室溫下培育10分鐘。 4. 將盤轉移至磁體且在磁體上培育5分鐘或直至所有珠粒向磁體移動。 5. 移出所有上澄液。 6. 添加150 µL 80% EtOH且培育30 s。 7. 移出上澄液。 8. 重複步驟6-7。 9. 確保移除所有殘餘乙醇且將盤自磁體移出且在室溫下培育3分鐘。 10.添加16 µl低TE緩衝液且上下移液以使珠粒均質化。 11.在室溫下培育2分鐘。 12.將盤轉移至磁體且在磁體上培育1分鐘或直至所有珠粒向磁體移動。 13.移出15 µl上澄液且將其置於清潔盤中。 14.繼續進行以下第1 PCR或在-20℃下儲存。 1 PCR 1. 製造以下混合試劑(master mix): 2. 將35 µl混合試劑添加至15 µl純化DNA。 3. 將盤密封以將其短暫渦旋及離心。 4. 進行以下程序:95℃ 3分鐘、(95℃ 15秒、72℃ 90秒)×20、72℃ 1分鐘、4℃保持。 5. 立即繼續進行以下AmPure® XP珠粒清除。AmPure®XP 珠粒清除 1. 將AmPure® XP珠粒渦旋直至溶液均質。 2. 將80 µl珠粒添加至來自第二股合成之產物,且上下移液以使珠粒均質化。 3. 在室溫下培育10分鐘。 4. 將盤轉移至磁體且在磁體上培育5分鐘或直至所有珠粒向磁體移動。 5. 移出所有上澄液。 6. 添加150 µL 80% EtOH且培育30 s。 7. 移出上澄液。 8. 重複步驟6-7。 9. 確保移除所有殘餘EtOH且將盤自磁體移出且在室溫下培育3分鐘。 10.添加20 µl低TE緩衝液且上下移液以使珠粒均質化。 11.在室溫下培育2分鐘。 12.將盤轉移至磁體且在磁體上培育1分鐘或直至所有珠粒向磁體移動。 13.移出19 µl上澄液且將其置於清潔盤中。 14.繼續進行以下第2 PCR或在-20℃下儲存。 2 PCR 1. 製造以下混合試劑(master mix),且注意索引引子及DNA分開地添加,且其餘的DNA在-20℃下儲存。 2.在新盤中,添加46 µL混合試劑、2 µL索引引子及2 µL DNA。 3. 將盤密封以將其短暫渦旋及離心。 4. 進行以下程序:95℃ 3分鐘、(98℃ 10秒、65℃ 75秒)×10、65℃ 2分鐘、4℃保持。 5. 立即繼續進行以下珠粒清除。AmPure®XP 珠粒清除 1. 將AmPure®珠粒渦旋直至溶液均質。 2. 將40 µl珠粒添加至來自第二股合成之產物,且上下移液以使珠粒均質化。 3. 在室溫下培育10分鐘。 4. 將盤轉移至磁體且在磁體上培育5分鐘或直至所有珠粒向磁體移動。 5. 移出所有上澄液。 6. 添加150 µL 80% EtOH且培育30 s。 7. 移出上澄液。 8. 重複步驟6-7。 9. 確保移除所有殘餘EtOH且將盤自磁體移出且在室溫下培育3分鐘。 10.添加25 µl低TE緩衝液且上下移液以使珠粒均質化。 11.在室溫下培育2分鐘。 12.將盤轉移至磁體且在磁體上培育1分鐘或直至所有珠粒向磁體移動。 13.移出24 µl上澄液且置於清潔盤中以在-20℃下儲存。LabChip QC 對於 LabChip HS 套組 1. 自4℃平衡至RT移除LabChip及試劑(10分鐘)。 2. 必要時製備新凝膠染料溶液。 3. 抽吸活性芯片孔中之各者且用分子級H2 O沖洗兩次。 4. 藉由在梯管中將12 µL梯溶液與108 µL H2 O混合製備LabChip梯。 5. 在緩衝管中準備750 µl H2 O。 6. 使用反向移液技術以製備LabChip。 7. 在BioRad Hardshell或Thermo Fisher Armadillo 96孔盤中,在19 µL水中稀釋1 µL資料庫。 8. 運行LabChip。qPCR 定量 1. 若需要,則藉由將30 µl Illumina正向及反向引子添加至Kapa SYBR Fast qPCR MM - 5 mL (KK4601)之新瓶中製備qPCR混合試劑(master mix)。 2. 製備所有資料庫之1:10,000稀釋。 3. 在BioRad Hard-Shell盤或Thermo Fisher Armadillo盤中,製備以下反應物且留下至少12個空孔。 4. 在相同96孔盤中,製備6個qPCR標準品之複製品。 5. 編輯盤檔案以反映盤佈局及標準品濃度。 6. 在BioRad C1000熱循環器中進行以下程序:95℃ 5分鐘>(95℃ 30秒>60℃ 45秒>成像步驟)×35。 7. 將qPCR資料以excel工作表形式導出。 8. 將起始濃度乘以(452/300)以對在Kapa標準品與資料庫之間的偏差進行調節。 9. 將來自步驟8之濃度乘以10以對稀釋因數進行調節且將pM轉換成nM。定序 (NextSeq) 1. 藉由置於冷水中使300個循環NextSeq試劑盒解凍且自4℃平衡至室溫移除流槽。 2. 以1:1之莫耳比合併待定序之資料庫。 3. 使用變性及稀釋方法以將資料庫稀釋至2.2 pM之最終濃度及>1300 µL之最終體積。 4. 裝載1300 µL至NextSeq試劑盒之孔10中。 5. 排空NextSeq廢棄物容器其裝載新流槽及緩衝盒。 6. 在孔10中裝載含有資料庫之NextSeq試劑盒,且如下展示設置NextSeq之讀取長度。 7. 定序。
1 展示根據本發明之一個態樣用於建立單股聚核苷酸資料庫及使用資料庫進行定序分析之步驟。 2 展示根據本發明之一個態樣包含用於定序之目標分子之建構物。 3 展示預期對偶基因比例與使用本文所揭示之方法觀測到之對偶基因比例之間的線性相關度,表明該方法具有較大再現性。 4 使用本文所揭示之方法比較在錯誤更正之前及之後多變異體之對偶基因比例。 5 比較本文所揭示之方法之效能參數及用於資料庫建構及定序之習知雜交捕獲方法。 6 比較本文所揭示之方法(TitanSeq)與習知雜交捕獲方法之轉化率。 7 展示額外的例示性引子或引子庫。

Claims (59)

  1. 一種方法,其包含將一組連接子連接至單股聚核苷酸之資料庫,其中: 該連接由單股DNA (ssDNA)連接酶催化; 每一單股聚核苷酸在5'端處阻斷以避免連接在5'端處; 每一連接子包含指定與該連接子連接之該單股聚核苷酸的唯一分子標識符(UMI)序列,且在3'端處阻斷以避免連接在3'端處;及 藉由該ssDNA連接酶將該連接子之5'端與該單股聚核苷酸之3'端連接,以形成線性連接產物, 藉此獲得線性單股連接產物之資料庫。
  2. 如請求項1之方法,其進一步包含在該連接步驟之前,自樣本獲得該單股聚核苷酸之資料庫的步驟。
  3. 如請求項2之方法,其中該獲得步驟包含使來自該樣本之雙股聚核苷酸變性。
  4. 如請求項2或3之方法,其中該樣本為生物樣本,視情況其中:(1)該生物樣本不經任何處理直接自個體獲得;(2)該生物樣本中之聚核苷酸尚未經過亞硫酸氫鹽轉化;或(3)該生物樣本中之聚核苷酸已經過部分或完全亞硫酸氫鹽轉化。
  5. 如請求項4之方法,其中該生物樣本來自患有或疑似患有疾病或病狀之個體,該疾病或病狀諸如癌症或贅瘤。
  6. 如請求項5之方法,其中該生物樣本為包含循環腫瘤DNA (ctDNA)之樣本,諸如血液、血清、血漿或體液樣本或其任何組合。
  7. 如請求項1至6中任一項之方法,其中該單股聚核苷酸之長度在約20個核酸殘基與約400個核酸殘基之間。
  8. 如請求項1至7中任一項之方法,其中該ssDNA連接酶為棲熱菌屬(Thermus )噬菌體RNA連接酶,諸如噬菌體TS2126 RNA連接酶(例如CircLigase™與CircLigase II™);古細菌(archaebacterium)RNA連接酶,諸如熱自養甲烷桿菌(Methanobacterium thermoautotrophicum )RNA連接酶1、T4 RNA連接酶I、熱穩定5' App DNA/RNA連接酶、T4 RNA連接酶2、截短型T4 RNA連接酶2,例如截短型T4 RNA連接酶2、T4 RNA連接酶2截短型K227Q、T4 RNA連接酶2截短型KQ或T4 DNA連接酶。
  9. 如請求項1至8中任一項之方法,其中每一單股聚核苷酸之阻斷包含脫磷酸,以避免其連接在5'端處。
  10. 如請求項1至9中任一項之方法,其中每一連接子之阻斷包含碳間隔基、ddCTP、ddATP、ddTTP、ddGTP、己二醇、三甘醇及/或六甘醇,以避免其連接在3'端處。
  11. 如請求項1至10中任一項之方法,其中每一連接子包含在5'端處之二核苷酸序列,諸如GA (5'至3')、GG (5'至3')、AA (5'至3')或AG (5'至3'),其係UMI序列之5'。
  12. 如請求項1至11中任一項之方法,其中在每一連接子中該UMI序列之長度在約6個核酸殘基與約15個核酸殘基之間,例如該UMI序列為12聚體。
  13. 如請求項1至12中任一項之方法,其中該連接反應係在聚集劑存在下進行。
  14. 如請求項13之方法,其中該聚集劑包含聚乙二醇(PEG),諸如PEG 4000或PEG 6000、聚葡萄糖及/或聚蔗糖(Ficoll)。
  15. 如請求項1至14中任一項之方法,其進一步包含將線性單股連接產物之資料庫轉化成線性雙股連接產物之資料庫。
  16. 如請求項15之方法,其中該轉化使用各自包含與該連接子反向互補及/或可與該連接子雜交之序列的一個引子或一組引子。
  17. 如請求項15或16之方法,其進一步包含擴增及/或純化線性雙股連接產物之資料庫。
  18. 如請求項17之方法,其中該純化法選擇性純化長度在約50個核苷酸至約1000個核苷酸之間的聚核苷酸,該純化法視情況以珠粒或管柱為主,且該純化法不包含使用特異性結合對(諸如生物素/抗生蛋白鏈菌素),該特異性結合對中之一者附接於該線性雙股連接產物且另一者附接於固體擔體(諸如珠粒)。
  19. 如請求項15至18中任一項之方法,其進一步包含例如藉由聚合酶鏈反應(PCR)擴增線性雙股連接產物之資料庫,其係使用: 一組各自包含與該連接子反向互補及/或可與該連接子雜交之序列的引子;及 可與目標序列(例如EGFR基因序列)雜交之引子,該引子視情況包含選自由以下組成之群的序列:SEQ ID NO:4-1529、或其互補或實質上互補序列、或其數值範圍或子範圍, 藉此獲得包含目標序列之序列資訊之線性雙股連接產物的擴增資料庫。
  20. 如請求項19之方法,其中使用複數個引子,其各自包含對該目標序列具有特異性之序列,其中該等引子具有相同或不同目標序列,且視情況其中該複數個引子包含SEQ ID NO:4-1529或其互補或實質上互補序列或其數值範圍或子範圍中之任一或多者。
  21. 如請求項19或20之方法,其中該目標序列之序列資訊包含突變、單核苷酸多形現象(SNP)、複本數變化(CNV)或表觀遺傳改變。
  22. 如請求項21之方法,其中該突變包含點突變、插入、缺失、插入與缺失(indel)、反轉、截短、融合、易位、擴增或其任何組合。
  23. 如請求項19至22中任一項之方法,其中線性雙股連接產物之擴增資料庫不為完全基因體資料庫。
  24. 如請求項19至23中任一項之方法,其進一步包含純化線性雙股連接產物之擴增資料庫。
  25. 如請求項24之方法,其中該純化法係以珠粒為主且選擇性純化長度大於約150個核苷酸之聚核苷酸,且該純化法不包含使用特異性結合對(諸如生物素/抗生蛋白鏈菌素),該特異性結合對中之一者附接於該線性雙股連接產物且另一者附接於固體擔體(諸如珠粒)。
  26. 如請求項24或25之方法,其進一步包含對該線性雙股連接產物之純化擴增資料庫定序。
  27. 如請求項26之方法,其中該定序步驟包含將定序連接子及/或樣本特異性條碼附接於每一線性雙股連接產物。
  28. 如請求項27之方法,其中該附接步驟係使用聚合酶鏈反應(PCR)進行。
  29. 如請求項26之方法,其中該定序之轉化率(資料庫中可產生測序片段之單股聚核苷酸之百分比)為至少約40%、至少約50%、至少約60%、至少約70%、至少約80%或至少約90%。
  30. 如請求項26至29中任一項之方法,其用於個體內疾病或病況之診斷及/或預後、預測個體對治療之反應、識別用於疾病/病況或治療之藥物遺傳標記、及/或篩查群體之遺傳資訊。
  31. 如請求項30之方法,其中該疾病或病況為癌症或贅瘤,且該治療為癌症或贅瘤治療。
  32. 一種線性單股連接產物之資料庫,其係藉由如請求項1至14中任一項之方法產生。
  33. 一種線性雙股連接產物之資料庫,其係藉由如請求項15至18中任一項之方法產生。
  34. 一種線性雙股連接產物之擴增資料庫,其係藉由如請求項19至25中任一項之方法產生。
  35. 一種定序資料庫,其係藉由如請求項26至31中任一項之方法產生。
  36. 一種建立連接產物之資料庫的套組,其包含: 單股DNA (ssDNA)連接酶; 複數個連接子,其中每一連接子在3'端處阻斷以避免連接,而該連接子之5'端可用於與單股聚核苷酸連接以形成線性單股連接產物,且每一連接子包含指定該單股聚核苷酸之唯一分子標識符(UMI)序列。
  37. 如請求項36之套組,其進一步包含用於使來自樣本之雙股聚核苷酸變性以獲得該單股聚核苷酸之變性劑。
  38. 如請求項36或37之套組,其中該ssDNA連接酶為棲熱菌屬噬菌體RNA連接酶,諸如噬菌體TS2126 RNA連接酶(例如CircLigase™與CircLigase II™);古細菌RNA連接酶,諸如熱自養甲烷桿菌RNA連接酶1、T4 RNA連接酶I、熱穩定5' App DNA/RNA連接酶、T4 RNA連接酶2、截短型T4 RNA連接酶2,例如截短型T4 RNA連接酶2、T4 RNA連接酶2截短型K227Q、T4 RNA連接酶2截短型KQ或T4 DNA連接酶。
  39. 如請求項36至38中任一項之套組,其進一步包含脫磷酸劑,以用於將5'磷酸基團自該單股聚核苷酸移除。
  40. 如請求項36至39中任一項之套組,其中每一連接子包含碳間隔基、ddCTP、ddATP、ddTTP、ddGTP、己二醇、三甘醇及/或六甘醇以避免連接在其3'端處。
  41. 如請求項36至40中任一項之套組,其中每一連接子包含在其5'端處之二核苷酸序列,諸如GA (5'至3')、GG (5'至3')、AA (5'至3')或AG (5'至3')。
  42. 如請求項36至41中任一項之套組,其中每一連接子中之UMI序列之長度在約6個核酸殘基至約15個核酸殘基之間,例如該UMI序列為12聚體。
  43. 如請求項36至42中任一項之套組,其進一步包含用於連接反應之聚集劑。
  44. 如請求項13之套組,其中該聚集劑包含聚乙二醇(PEG),諸如PEG 4000或PEG 6000、聚葡萄糖及/或聚蔗糖。
  45. 如請求項36至44中任一項之套組,其進一步包含各自包含與該連接子反向互補及/或可與該連接子雜交之序列的一個引子或一組引子,以便將該單股聚核苷酸轉換成雙股聚核苷酸。
  46. 如請求項45之套組,其進一步包含移除引子二聚體之試劑。
  47. 如請求項45或46之套組,其進一步包含含有對目標序列(例如EGFR基因序列)具有特異性之序列的引子,以便獲得包含該目標序列之序列資訊之擴增線性雙股連接產物,該引子視情況包含選自由以下組成之群的序列:SEQ ID NO:4-1529,或其互補或實質上互補序列、或其數值範圍或子範圍。
  48. 如請求項47之套組,其包含複數個引子,該複數個引子各自包含對該目標序列具有特異性之序列,其中該等引子具有相同或不同目標序列,且視情況其中該複數個引子包含SEQ ID NO:4-1529或其互補或實質上互補序列或其數值範圍或子範圍中之任一或多者。
  49. 如請求項47或48之套組,其進一步包含定序連接子及/或樣本特異性條碼,以便對該擴增線性雙股連接產物進行定序。
  50. 如請求項36至49中任一項之套組,其進一步包含用於每一組分之獨立小瓶及/或用於使用該等組分之說明書。
  51. 如請求項50之套組,其中該套組進一步包含用於自個體獲得包含循環腫瘤DNA (ctDNA)之樣本之說明書,及/或用於自該樣本,諸如血液、血清、血漿或體液樣本或其任何組合獲得單股聚核苷酸之說明書。
  52. 一種聚核苷酸,其包含AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTG (SEQ ID NO:1)或其一部分,例如包含約18個核苷酸殘基至22個核苷酸殘基之部分。
  53. 如請求項52之聚核苷酸,其包含N 1 …N i AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTG或其一部分,其中N 1 至N i 為任何核酸殘基,例如A、T、C或G,且i 為約4與約25之間的整數。
  54. 如請求項52或53之聚核苷酸,其包含GANNNNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTG (SEQ ID NO:2)或其一部分,例如包含約32個核苷酸殘基至36個核苷酸殘基之部分,其中N為任何核酸殘基,例如A、T、C或G。
  55. 一種聚核苷酸,其包含CACTCTTTCCCTACACGACGC (SEQ ID NO:3)或其一部分,例如包含約12個核苷酸殘基至20個核苷酸殘基之部分。
  56. 一種引子,其包含選自由以下組成之群的任一或多個序列:SEQ ID NO:4-1529,或其數值範圍或子範圍。
  57. 一種引子組,其包含SEQ ID NO:4-1529中之任一或多個,例如SEQ ID NO:4-1529中之約10、20、50、100、150、200、250或300、400、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500個或所有1529個,或其互補或實質上互補序列、或其數值範圍或子範圍。
  58. 一種引子組,其包含SEQ ID NO:4-1529中之任一或多個,例如SEQ ID NO:4-1529中之約10、20、50、100、150、200、250或300、400、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500個或所有1529個,或其互補或實質上互補序列或其數值範圍或子範圍,及包含CACTCTTTCCCTACACGACGC (SEQ ID NO:3)或其一部分之引子。
  59. 一種套組,其包含SEQ ID NO:4-1529中之任一或多個,例如SEQ ID NO:4-1529中之約10、20、50、100、150、200、250或300、400、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500個或所有1529個,或其互補或實質上互補序列或其數值範圍或子範圍,及包含CACTCTTTCCCTACACGACGC (SEQ ID NO:3)或其一部分之引子,及/或包含AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTG (SEQ ID NO:1)或其一部分之聚核苷酸。
TW107113306A 2017-04-19 2018-04-19 用於資料庫建立及序列分析之組合物及方法 TWI797118B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201762487423P 2017-04-19 2017-04-19
US62/487,423 2017-04-19
US201862657544P 2018-04-13 2018-04-13
US62/657,544 2018-04-13

Publications (2)

Publication Number Publication Date
TW201842189A true TW201842189A (zh) 2018-12-01
TWI797118B TWI797118B (zh) 2023-04-01

Family

ID=63856830

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107113306A TWI797118B (zh) 2017-04-19 2018-04-19 用於資料庫建立及序列分析之組合物及方法

Country Status (10)

Country Link
US (1) US11965157B2 (zh)
EP (1) EP3612641A4 (zh)
JP (1) JP7220200B2 (zh)
KR (1) KR102601593B1 (zh)
CN (1) CN110770354B (zh)
AU (1) AU2018256387A1 (zh)
CA (1) CA3060555A1 (zh)
SG (2) SG11201909618TA (zh)
TW (1) TWI797118B (zh)
WO (1) WO2018195217A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110964782A (zh) * 2019-12-09 2020-04-07 上海鹍远健康科技有限公司 单链核酸连接效率检测方法

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210164048A1 (en) * 2018-08-07 2021-06-03 Singlera Genomics, Inc. A non-invasive prenatal test with accurate fetal fraction measurement
CA3111887A1 (en) 2018-09-27 2020-04-02 Grail, Inc. Methylation markers and targeted methylation probe panel
CN112080555A (zh) * 2019-06-14 2020-12-15 上海鹍远健康科技有限公司 Dna甲基化检测试剂盒及检测方法
CN111321208B (zh) * 2020-02-14 2023-10-03 上海厦维医学检验实验室有限公司 一种基于高通量测序的建库方法
CA3145539A1 (en) * 2020-02-26 2021-09-02 Illumina, Inc. Kits for genotyping
CN111979583B (zh) * 2020-09-10 2023-09-12 杭州求臻医学检验实验室有限公司 一种单链核酸分子高通量测序文库的构建方法及其应用
CN114250298A (zh) * 2020-09-23 2022-03-29 中国医学科学院北京协和医院 胰腺导管腺癌的dna甲基化标志物及其应用
WO2022181858A1 (ko) * 2021-02-26 2022-09-01 지니너스 주식회사 분자 바코딩 효율을 향상시키기 위한 조성물 및 이의 용도
KR20220122095A (ko) 2021-02-26 2022-09-02 지니너스 주식회사 분자 바코딩 효율을 향상시키기 위한 조성물 및 이의 용도
CN117255857A (zh) * 2022-04-18 2023-12-19 京东方科技集团股份有限公司 接头、接头连接试剂及试剂盒和文库构建方法
WO2024015869A2 (en) * 2022-07-12 2024-01-18 University Of Washington Systems and methods for variant detection in cells

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2382780T3 (es) 2003-10-21 2012-06-13 Orion Genomics, Llc Procedimientos para la determinación cuantitativa de la densidad de metilación en un locus de ADN
ATE547537T1 (de) 2005-04-15 2012-03-15 Epigenomics Ag Verfahren zur bestimmung der dna-methylierung in blut- oder urinproben
JP5341506B2 (ja) 2005-04-15 2013-11-13 エピゲノミクス アーゲー 細胞増殖性疾患分析のための方法および核酸
US7582405B2 (en) 2005-10-26 2009-09-01 Hewlett-Packard Development Company, L.P. Image recording media and image layers
GB0522310D0 (en) * 2005-11-01 2005-12-07 Solexa Ltd Methods of preparing libraries of template polynucleotides
US7901882B2 (en) 2006-03-31 2011-03-08 Affymetrix, Inc. Analysis of methylation using nucleic acid arrays
US20080261217A1 (en) 2006-10-17 2008-10-23 Melnikov Anatoliy A Methylation Profile of Cancer
US20130065233A1 (en) 2010-03-03 2013-03-14 Zymo Research Corporation Detection of dna methylation
EP2670893B1 (en) 2011-02-02 2018-06-27 Exact Sciences Development Company, LLC Digital sequence analysis of dna methylation
CN108048573A (zh) 2011-07-08 2018-05-18 表观基因组股份有限公司 用于确定癌症对象之预后的方法和核酸
DK3594366T3 (da) 2012-05-11 2021-09-13 Clinical Genomics Pty Ltd Diagnostisk genmarkørpanel
US20150011396A1 (en) * 2012-07-09 2015-01-08 Benjamin G. Schroeder Methods for creating directional bisulfite-converted nucleic acid libraries for next generation sequencing
EP2872648B1 (en) 2012-07-13 2019-09-04 Sequenom, Inc. Processes and compositions for methylation-based enrichment of fetal nucleic acid from a maternal sample useful for non-invasive prenatal diagnoses
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2014122654A2 (en) 2013-02-07 2014-08-14 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Hybrid nanopores and uses thereof for detection of analytes
EP2959016A4 (en) * 2013-02-21 2016-10-12 Toma Biosciences Inc METHOD, COMPOSITIONS AND NUCLEIC ACID ANALYSIS KITS
US10011862B2 (en) 2013-03-14 2018-07-03 Cornell University Method for relative quantification of changes in DNA methylation, using combined nuclease, ligation, and polymerase reactions
US11078539B2 (en) 2014-03-31 2021-08-03 Mayo Foundation For Medical Education And Research Detecting colorectal neoplasm
IL280521B (en) 2014-06-04 2022-07-01 Quest Diagnostics Invest Inc Suspended markers for colon and rectal cancer
WO2015184498A2 (en) 2014-06-05 2015-12-10 Clinical Genomics Pty Ltd Method for methylation analysis
US10480021B2 (en) 2014-06-23 2019-11-19 Yale University Methods for closed chromatin mapping and DNA methylation analysis for single cells
EP3175000B1 (en) 2014-07-30 2020-07-29 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CN112126675B (zh) 2015-01-12 2022-09-09 10X基因组学有限公司 用于制备核酸测序文库的方法和系统以及用其制备的文库
US9984201B2 (en) 2015-01-18 2018-05-29 Youhealth Biotech, Limited Method and system for determining cancer status
WO2016172442A1 (en) 2015-04-23 2016-10-27 Quest Diagnostics Investments Incorporated Mlh1 methylation assay
US20170101674A1 (en) 2015-08-21 2017-04-13 Toma Biosciences, Inc. Methods, compositions, and kits for nucleic acid analysis
GB201515557D0 (en) * 2015-09-02 2015-10-14 14M Genomics Ltd Method of sequencing
DK3168309T3 (da) 2015-11-10 2020-06-22 Eurofins Lifecodexx Gmbh Detektion af føtale kromosomale aneuploidier under anvendelse af dna-regioner med forskellig metylering mellem fosteret og det gravide hunkøn
KR102006803B1 (ko) 2016-10-06 2019-08-05 (주)지노믹트리 메틸화 dna 다중 검출방법
US20200048697A1 (en) 2017-04-19 2020-02-13 Singlera Genomics, Inc. Compositions and methods for detection of genomic variance and DNA methylation status

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110964782A (zh) * 2019-12-09 2020-04-07 上海鹍远健康科技有限公司 单链核酸连接效率检测方法

Also Published As

Publication number Publication date
US20200123538A1 (en) 2020-04-23
CA3060555A1 (en) 2018-10-25
TWI797118B (zh) 2023-04-01
AU2018256387A1 (en) 2019-10-31
CN110770354A (zh) 2020-02-07
JP7220200B2 (ja) 2023-02-09
WO2018195217A1 (en) 2018-10-25
EP3612641A1 (en) 2020-02-26
KR20190140961A (ko) 2019-12-20
SG11201909618TA (en) 2019-11-28
CN110770354B (zh) 2024-03-19
EP3612641A4 (en) 2021-01-20
JP2020517298A (ja) 2020-06-18
SG10202111266VA (en) 2021-11-29
US11965157B2 (en) 2024-04-23
KR102601593B1 (ko) 2023-11-13

Similar Documents

Publication Publication Date Title
TWI797118B (zh) 用於資料庫建立及序列分析之組合物及方法
US20200048697A1 (en) Compositions and methods for detection of genomic variance and DNA methylation status
CN112601823A (zh) 用于形成连接产物的方法和组合物
CN117778527A (zh) 用于识别核酸分子的组合物和方法
TW202012638A (zh) 用於癌症及贅瘤之評估的組合物及方法
MX2013003349A (es) Captura directa, amplificacion y secuenciacion de objetivo adn usando cebadores inmovilizados.
CA3055817A1 (en) Methods of amplifying dna to maintain methylation status
AU2018252018A1 (en) Methods of attaching adapters to sample nucleic acids
US20240026440A1 (en) Methods of labelling nucleic acids
KR20230083269A (ko) 핵산 분석을 위한 조성물 및 방법
US20170175182A1 (en) Transposase-mediated barcoding of fragmented dna
CN110869515A (zh) 用于基因组重排检测的测序方法
US20230112730A1 (en) Compositions and methods for oncology precision assays
EP4172357B1 (en) Methods and compositions for analyzing nucleic acid
WO2023225515A1 (en) Compositions and methods for oncology assays
WO2023287876A1 (en) Efficient duplex sequencing using high fidelity next generation sequencing reads