WO2017024784A1

WO2017024784A1 - 一种血浆中游离的目标dna低频突变富集测序方法

Info

Publication number: WO2017024784A1
Application number: PCT/CN2016/074058
Authority: WO
Inventors: 吕小星; 易鑫; 赵美茹; 管彦芳; 刘涛; 杨玲
Original assignee: 北京吉因加科技有限公司
Priority date: 2015-08-10
Filing date: 2016-02-18
Publication date: 2017-02-16
Also published as: US20180371453A1; CN105063208B; HK1216184A1; CN105063208A; US11001837B2

Abstract

本发明提供了一种血浆中游离的目标DNA低频突变富集测序方法，包括血浆DNA提取与文库构建、通用文库TT COLD PCR扩增富集、探针富集捕获、捕获产物PCR及上机测序、正反双链纠错低频信息分析。

Description

一种血浆中游离的目标DNA低频突变富集测序方法

技术领域

本发明属于生物信息学高通量测序技术领域，具体涉及一种血浆中游离的目标DNA低频突变富集测序方法。

背景技术

近年来肿瘤患者血液中游离ctDNA(Cell-free Circulating Tumor DNA)的基因检测诊断已成为研究热点，研究显示血液中循环肿瘤DNA有可能成为一种新的肿瘤早期诊断，预后判断以及精确医疗的标志物。检测血液中循环游离DNA中的肿瘤标志物具有区别于传统组织肿瘤标志物的检测方式，具有无创、随时监控和早期筛查等优势，并且对循环游离DNA的取样检测避免了当前分子诊断需要采集癌组织作为标本来源的困难，是一种很有潜力的肿瘤标志物。然而在循环血中除了肿瘤游离DNA，也存在正常组织游离DNA，且因个体差异，肿瘤发生发展时期，治疗时期等原因，循环DNA的总量不定，且往往较癌组织相应频率低得多，尤其早期阶段的癌症血浆ctDNA的丰度甚至在0.01％水平，因此在血浆ctDNA的临床应用中，低频突变的精确检测是目前亟待解决的问题。

为高效实现对血浆ctDNA低频突变的精确检测以及应用潜能的充分发掘，富集扩增技术与高灵敏的检测技术的有力结合是必须的，然而目前相关技术如preMiDTM,CAPP-Seq，Duplex Sequencing等只能一定程度实现低频变异的检出，其相关实际应用或多或少仍存在一定局限性。preMiDTM融合突变偏向性扩增ARMS、荧光定量PCR和高分辨熔解曲线分析HRM 3种技术于一体，实现对非细胞体系的血浆微量突变检测，但是其检测灵敏度只能达到1％左右，而且只针对一些热点变异进行基因分析；CAPP-Seq的技术原理是将高通量测序技术与目标区域捕获技术结合起来应用于血浆ctDNA，对样本进行靶向捕获后再进行深度测序，基于相关数据过滤处理，不仅可以获得更多基因变异信息，而且可以得到0.2％以上，98％的高特异低频变异结果,但其距离基于血浆ctDNA的早期筛查，仍具有不小的差距。Duplex Sequencing基于UID(unique identifier)标签进行正反双链纠错，几乎可以矫正所有类型的测序错误，其检测到的突变频率可以达到10^-7，但是该技术存在一个巨大的限制性，其需要相对常规测序更高的测序通量，而且针对血浆ctDNA的高通量测序以解决0.01％左右的稀有突变检测，巨大的样品需求也是一个挑战。

发明内容

本发明提供一种血浆中游离的目标DNA低频突变富集测序方法以克服现有技术的不足。

本发明提供的一种血浆中游离的目标DNA低频突变富集测序方法，包括以下步骤：

(1)血浆目标DNA的提取与文库构建；

(2)通用文库TT-COLD PCR扩增富集；

(3)探针富集捕获、杂交捕获产物的扩增与上机测序；

(4)正反双链纠错低频信息分析。

本发明方法的流程图见图1。

其中，步骤(1)所述的血浆来自人类外周血，文库构建方法按照3步酶促反应，即末端修复，加“A”和文库接头连接。

文库接头使用的引物为：

接头第一链：TACACTCTTTCCCTACACGACGCTCTTCCGATCT，

接头第二链：GATCGGAAGAGCACACGTCTGAACTCCAGTCAC。

本发明方法中，步骤(2)通用文库TT-COLD PCR扩增富集包括以下步骤：1)确定文库的Tm值；

2)绕过每个插入片段存在的特异Tc值，基于1对通用引物，在1个系列的循环条件下，对文库中所有片段上的各种突变类型进行富集；设定Tc min≈TM-2.5，之后Tc以0.5℃逐步递增，在每个Tc条件下分别进行FULL COLD PCR。

进一步地，文库Tm值通过以下方法来确定，对血浆目标DNA的文库采用一对引物使用荧光定量PCR，根据溶解曲线分析获得文库Tm值；所述引物的序列为：

上游引物：

AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT，

下游引物：

CAAGCAGAAGACGGCATACGAGATxxxxxxxxGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT，其中xxxxxxxx为index标签。

上述步骤2)中，所述1对通用引物为通用文库TT-COLD PCR引物，其核苷酸序列为：

上游引物：AATGATACGGCGACCACCGAGATCTACACTCTTTCC

CTACACGACGCTCTTCCGATCT，

下游引物：

上述步骤2)中，所述1个系列循环条件为：

本发明方法中，步骤(3)所述探针富集捕获是将扩增后的文库质控合格后，采用富集探针芯片进行杂交捕获，并对杂交捕获产物进行PCR扩增，然后进行上机测序；

富集探针芯片的设计方法为：基于目的基因的用途确定芯片捕获区间，参考目标DNA所属的数据库，在一定碱基范围内，确定至少1个最重要的热点变异位点，同时针对该位点存在的多种突变类型，以几种主要类型作为参考，基于相应的发生频率作为其在该位点总探针覆盖水平所占的比例；针对热点变异，将基于人基因组参考序列hg19设计的探针替换为基于突变碱基设计的探针，其他位点探针不变，同时热点变异探针总覆盖度与其他区域正常探针覆盖度的差异比例不少于3：1，从而实现捕获时对热点变异的富集。

本发明方法中，步骤(4)正反双链纠错低频信息分析(RealSeq Pipeline)具体方法为：

1)基于测序结果，截取成对测序序列中的测序序列一的前12bp碱基和测序序列二的前12bp碱基作为标签，且根据字母序排列以较小的标签在前连接成24bp的一条索引，同时根据标签的排列组合方式，选定正链和反链

2)对索引进行外部排序，以达到将同一个DNA模板的所有测序重复测序序列聚集到一起的目的；

3)对聚集起来的拥有相同索引的测序序列进行中心聚类，根据其序列之间的汉明距离，将每个有相同索引的大簇聚集成若干个小簇，每个小簇中任意两对成对测序序列的汉明距离不超过10，以达到区分开拥有相同索引却来自不同DNA模板的测序序列的目的；

4)对步骤3)中获得的同一个DNA模板的重复簇进行筛选，若正链和反链的测序序列数都达到2对以上，则进行后续分析；

5)对满足4)中条件的簇进行纠错，并产生一对无错的新测序序列.对于DNA模板的每一个测序碱基，若某种碱基型在正链的测序序列中的一致率达到80％，且在反链测序序列中的一致率也达到80％，则记新测序序列的这个碱基为此碱基型，否则记为N，这样便得到了代表原始DNA模板序列的新测序序列；

6)将新测序序列用bwa mem算法重新比对到基因组上，筛除比对质量小于30的测序序列；

7)根据6)中得到的测序序列进行统计，得到捕获区域内每个位点的碱基型分布，统计目标区域覆盖大小、平均测序深度，正反链互配率，低频突变率；

8)Call SNV/InDel/SV/CNV：根据患者样品与对照样品信息的比对，用mutect流程call somatic SNV变异；用gatk流程call somatic InDel变异；用contra.py流程call CNV；用somVar流程call SV；

所使用的筛选参数为：对照位点变异率≤2％；纠错后变异测序序列条数≥2；突变预测p值≤0.05；

9)变异注释：注释变异的功能、变异测序序列支持数、变异频率、氨基酸变异及已有变异数据库中的该变异的情况。

进一步地，上述步骤1)中，基于插入片段两端的序列碱基作为标签，所述插入片段是文库中与接头引物相连接的DNA片段，经双末端测序，每个片段将形成一对成对测序序列；将成对测序序列的测序序列1的前12bp碱基和测序序列2的前12bp碱基作为标签，字母序排列以较小的标签在前连接成24bp的一条索引，并且以这24bp作为成对测序序列的索引，测序序列1的标签在前就标记成正链；测序序列2的标签在前就标记为反链。

本发明提供了一种血浆中游离的目标DNA低频突变富集测序试剂盒，其含有富集探针芯片，所述芯片上探针是将基于人基因组参考序列hg19设计的探针替换为基于突变碱基设计的探针，其他位点探针不变，且热点变异探针总覆盖度与其他区域正常探针覆盖度的差异至少为3:1；

基于目标DNA突变碱基设计探针的原则为：基于目的基因的用途确定芯片捕获区间，参考目标DNA所属的数据库，在一定碱基范围内，确定至少1个最重要的热点变异位点，同时针对该位点存在的多种突变类型，以几种主要类型作为参考，基于相应的发生频率作为其在该位点总探针覆盖水平所占的比例。

本发明提供了一种血浆中ctDNA低频突变富集测序系统，包括如下操作单元：

(1)血浆ctDNA的提取与文库构建单元；

(2)通用文库TT-COLD PCR扩增富集单元；

(3)探针富集捕获单元、杂交捕获产物的扩增单元与上机测序单元；

(4)正反双链纠错低频信息分析单元。

其中，操作单元(1)血浆ctDNA的提取与文库构建具体操作为：抽取早期患者外周血5-10mL，常温或4℃存于EDTA抗凝管中，在4-6小时内对外周血进行分离，得到血浆和白细胞，白细胞提取的DNA之后将作为对照用于体细胞突变的检出；血浆cfDNA/ctDNA的提取与定量；按照常规建库方法进行3步酶促反应：末端修复，加“A”和文库接头连接。

操作单元(2)通用文库TT-COLD PCR扩增富集的具体操作为：

基于相同的仪器和试剂，对正常人血浆连接文库采用通用文库引物使用荧光定量PCR，从溶解曲线分析，获得文库的TM值；

绕过每个插入片段存在的特异Tc值，基于1对通用引物，在1个系列的循环条件下，对文库中所有片段上的各种突变类型进行富集。该方法具体为由经验公式给出Tc min≈TM-2.5，之后Tc以0.5℃逐步递增，在每个Tc条件下分别进行FULL COLD PCR。PCR反应程序设置，程序设置如下：

操作单元(2)的通用文库TT-COLD PCR扩增富集单元基于通用引物对所有类型变异实现第一级突变富集扩增；通用引物的核苷酸序列为：

上游引物：AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT，

下游引物：CAAGCAGAAGACGGCATACGAGATxxxxxxxxGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT，其中xxxxxxxx为index标签。

本发明提供的一种血浆中ctDNA低频突变富集测序系统中，操作单元(3)的探针富集捕获单元是针对热点变异进行第二次富集捕获，操作单元(3)的探针富集捕获是采用自行设计的肿瘤富集探针芯片实现的，之后进行杂交捕获产物的扩增与上机测序。所述肿瘤富集探针芯片的设计方法为：

1)基于TCGA、ICGC、COSMIC等数据库和相关文献参考，参考常规芯片捕获探针设计原则，确定芯片捕获区间；

2)在捕获区间内，参考TCGA、COSMIC等相关数据库，在每200bp范围内，确定1个最重要的热点变异位点(SNV>3)；同时针对该位点存在的多种突变类型，以几种主要类型作为参考，基于其相应的发生频率作为其在该位点总探针覆盖水平上所占的比例；

3)芯片设计时，针对相关热点变异，将基于人基因组参考序列hg19设计的探针替换为基于突变碱基设计的探针，其他位点探针不变，且热点变异探针总覆盖度与其他区域正常探针覆盖度的差异至少为3:1，从而实现捕获时对热点变异的富集。

本发明提供的一种血浆中ctDNA低频突变富集测序系统中，操作单元(4)的正反双链纠错低频信息(RealSeq Pipeline)分析单元是通过以下步骤完成的：

1)将成对测序序列的测序序列1的前12bp碱基和测序序列2的前12bp碱基作为标签，字母序排列以较小的标签在前连接成24bp的一条索引，并且以这24bp作为成对测序序列的索引，测序序列1的标签在前就标记成正链；测序序列2的标签在前就标记为反链。

2)对索引进行外部排序，以达到将同一个DNA模板的复制聚集到一起的目的；

4)对步骤3)中获得的同一个DNA模板的复制簇进行筛选，若正链和反链的测序序列数都达到2对以上，则进行后续分析；

7)根据6)中得到的测序序列进行统计，得到捕获区域内每个位点的碱基型分布，统计目标区域覆盖大小、平均测序深度，正反链互配率，低频突变率等；

本发明的血浆中目标DNA低频突变富集测序方法或本发明提供的血浆中ctDNA低频突变富集测序系统在制备疾病早期筛查试剂盒中的应用属于本发明的保护范围。

所述的疾病为肿瘤。

本发明的血浆中目标DNA低频突变富集测序方法或本发明提供的血浆中ctDNA低频突变富集测序系统在制备疾病术后监控试剂盒中的应用。

所述的疾病为肿瘤。

本发明的血浆中目标DNA低频突变富集测序方法或本发明提供的血浆中ctDNA低频突变富集测序系统在制备疾病用药指导试剂盒中的应用。

所述的疾病为肿瘤。

本发明还提供了一种针对肺癌、结直肠癌、胃癌、乳腺癌、肾癌、胰腺癌、卵巢癌、子宫内膜癌、甲状腺癌、宫颈癌、食管癌以及肝癌的早期筛查芯片，命名为ONCOcare—ZS，该芯片包括了常见高发癌症的相关Driver Gene、高频突变基因、癌症相关12条信号通路中重要基因，共计228个基因，680Kb，总共5220个热点变异，该芯片含有的探针所对应的基因分别为：

在本发明的一个实施例中，通过本发明前述的血浆中目标DNA低频突变富集测序方法利用上述芯片可以实现对肿瘤(肺癌、结直肠癌、胃癌、乳腺癌、肾癌、胰腺癌、卵巢癌、子宫内膜癌、甲状腺癌、宫颈癌、食管癌以及肝癌等)的早期筛查，筛查结果准确，灵敏度高，可以对0.01％低频变异具有高特异性检测。

本发明还提供了肿瘤个体化用药指导探针芯片——ONCOcare-Drug，该芯片包括了：12种常见癌症高频基因，癌症12条信号通路中重要基因，常见靶药及化疗药物基因等，共计559个基因，850KB，总共2400个热点靶药变异。该芯片所含探针对应的基因如下：

在本发明的一个实施例中，通过本发明前述的血浆中目标DNA低频突变富集测序方法利用上述芯片可以实现对12种常见肿瘤(肺癌、结直肠癌、胃癌、乳腺癌、肾癌、胰腺癌、卵巢癌、子宫内膜癌、甲状腺癌、宫颈癌、食管癌以及肝癌等)的个体化指导用药，且疗效确切。

本发明还提供了肿瘤(肺癌、结直肠癌、胃癌、乳腺癌、肾癌、胰腺癌、卵巢癌、子宫内膜癌、甲状腺癌、宫颈癌、食管癌以及肝癌等)术后监控芯片——ONCOcare—JK，该芯片包括了常见高发癌症的相关Driver Gene、高频突变基因、癌症相关12条信号通路中重要基因等，共计508个基因，500Kb，总共4800个热点变异。该芯片含有的探针所对应的基因分别如下：

在本发明的一个实施例中，通过本发明前述的血浆中目标DNA低频突变富集测序方法利用上述芯片可以实现对12种常见肿瘤(肺癌、结直肠癌、胃癌、乳腺癌、肾癌、胰腺癌、卵巢癌、子宫内膜癌、甲状腺癌、宫颈癌、食管癌以及肝癌等)的术后监控，对于评估患者术后是否存在复发风险实现精确监控。

本发明提供的一种血浆中目标DNA的低频突变富集测序方法(ER-seq，Enrich&Rare mutation Sequencing)，是将通用文库TT-COLD PCR，探针富集捕获以及独特的正反链纠错信息分析技术(RealSeq Pipeline)3种技术相融合，实现高效，简便，实用的血浆ctDNA低频变异精确检测，相对于其他血浆检测技术，本发明具有以下优异效果：(1)高灵敏度：ER-seq采用独有的通用文库TT-COLD PCR，探针富集捕获技术可以分别实现对所有突变类型以及热点变异进行不同程度的富集，从而可以仅仅只需要5-10mL外周血样本，并能够高效的对0.01％的稀有突变进行检测；(2)高特异性：基于突变富集以及低频正反链纠错分析策略，可以更有效的实现低频变异的精确检测，其特异性平均在98％以上；(3)高通量性：结合高通量测序技术(NGS)的目标区域捕获测序，不仅可以对相关感兴趣的基因，一次性扫描，获取更全面的受检者信息，以得出更准确的相关预测，而且能够在很短的时间内同时进行多例样本检测，从而压缩成本，有利于临床的推广；(4)多维度应用性：该方法能够充分发掘血浆ctDNA的应用潜能，可以为多种相关肿瘤(肺癌、结直肠癌、胃癌、乳腺癌、肾癌、胰腺癌、卵巢癌、子宫内膜癌、甲状腺癌、宫颈癌、食管癌以及肝癌等)的早期筛查，术后监控以及精准医疗奠定坚实的基础，从而有力的推动临床肿瘤事业的发展。

附图说明

图1为本发明方法的流程图。

图2为正常人血浆连接文库的Tm值。

具体实施方式

以下实施例进一步说明本发明的内容，但不应理解为对本发明的限制。在不背离本发明精神和实质的情况下，对本发明方法、步骤或条件所作的修改或替换，均属于本发明的范围。

若未特别指明，实施例中所用的化学试剂均为常规市售试剂，实施例中所用的技术手段为本领域技术人员所熟知的常规手段。本发明实施例中采用的测序装置为Illumina HiSeq2500，本发明测序步骤中，不限于该测序装置。

本发明实施例中，基因名称均采用NCBI-Gene里的官方命名(Official Symbol)。本发明所述的同义突变：指由于某个碱基的改变使代表某种氨基酸的密码子突变为其他密码子，但是仍然编码同一个氨基酸。所述的错义突变：编码某种氨基酸的密码子经碱基替换以后，变成编码另一种氨基酸的密码子，从而使多肽链的氨基酸种类和序列发生改变。某些错义突变能使多肽链丧失原有功能，许多蛋白质的异常就是由错义突变引起的。所述的终止密码子获得突变：也被称为无义突变，指由于某个碱基的改变使代表某种氨基酸的密码子突变为终止密码子，从而使肽链合成提前终止。本发明所述的终止密码子丧失突变：指由于某个碱基的改变使终止密码子突变未其他密码子，从而使肽链合成无法正常终止。

实施例1血浆中目标DNA低频突变富集测序方法(ER-seq方法)

(1)血浆目标DNA的提取与文库构建；所述的血浆来自人类外周血，文库构建方法按照3步酶促反应，即末端修复，加“A”和文库接头连接。文库接头使用的引物为：

接头第一链：TACACTCTTTCCCTACACGACGCTCTTCCGATCT，

接头第二链：GATCGGAAGAGCACACGTCTGAACTCCAGTCAC。

(2)通用文库TT-COLD PCR扩增富集；包括以下步骤：

1)确定文库的Tm值；文库Tm值通过以下方法来确定，对血浆目标DNA的文库采用一对引物使用荧光定量PCR，根据溶解曲线分析获得文库Tm值；所述引物的序列为：

上游引物：AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT，

所述1对通用引物为通用文库TT-COLD PCR引物，其核苷酸序列为：上游引物：AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT，下游引物：CAAGCAGAAGACGGCATACGAGATxxxxxxxxGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT，其中xxxxxxxx为index标签。

所述1个系列循环条件为：

(3)探针富集捕获、杂交捕获产物的扩增与上机测序；探针富集捕获是将扩增后的文库质控合格后，采用富集探针芯片进行杂交捕获，并对杂交捕获产物进行PCR扩增，然后进行上机测序；

(4)正反双链纠错低频信息分析(RealSeq Pipeline)具体方法为：

1)基于插入片段两端的序列碱基作为标签，所述插入片段是文库中与接头引物相连接的DNA片段，经双末端测序，每个片段形成一对成对测序序列；将成对测序序列的测序序列1的前12bp碱基和测序序列2的前12bp碱基作为标签，字母序排列以较小的标签在前连接成24bp的一条索引，并且以这24bp作为成对测序序列的索引，测序序列1的标签在前就标记成正链；测序序列2的标签在前就标记为反链；

实施例2血浆中ctDNA低频突变富集测序方法的建立

1、血浆ctDNA的提取与文库构建：

(1)抽取受检者外周血1-2管(5mL/管)于EDTA抗凝管中，轻柔上下颠倒(防止细胞破裂)，6-8次充分混匀，在采血当天4-6小时内进行以下处理；在4℃条件下1600g离心10分钟，离心后将上清(血浆)分装到多个1.5mL/2mL离心管中，在吸取过程中不能吸到中间层白细胞；在4℃条件下16000g离心10分钟，去除残余细胞，将上清(血浆)转移到新的1.5mL/2mL离心管中，不能吸到管底白细胞，即得到分离后所需血浆；血浆样本处理完后，分离得到的血浆及剩余血细胞均保存到-80℃冰箱中，避免反复冻融。

(2)血浆cfDNA/ctDNA的提取与定量：取分离出的血浆约2-3ml，按照QIAamp Circulating Nucleic Acid Kit(Qiagen)提取试剂说明书，进行血浆cfDNA的提取。Qubit(Invitrogen，the Quant-iT ^TM dsDNA HS Assay Kit)定量所提取的DNA，总量约为30～50ng。

(3)样品文库的制备：血浆中提取的cfDNA，之后按照KAPA LTP Library Preparation Kit建库说明书，进行3步酶促反应。

3.1末端修复

充分混合，20℃孵育30min。

之后，加入Agencourt AMPure XP reagent 120μL，进行磁珠纯化，最后回溶42μL ddH₂O，带磁珠进行下一步反应。

3.2加A

总体积

充分混合，30℃孵育30min

之后加入PEG/NaCl SPRI溶液90μL，充分混合，进行磁珠纯化，最后回溶(35-接头)μL ddH₂O，带磁珠进行下一步反应。

3.3接头连接

充分混合，16℃孵育16小时。

接头引物见表1中的接头第一、二链。之后分别加入PEG/NaCl SPRI溶液50μL 2次，进行2次磁珠纯化，最后回溶25μL ddH₂O。

2、通用文库TT-COLD PCR：

1)基于相同的仪器和试剂，对正常人血浆连接文库采用通用文库引物使用荧光定量PCR，反应试剂包括：KAPA HiFi HotStart ReadyMix以及SYBR染料。从溶解曲线分析，获得文库的Tm值(DNA解链温度)，如图2所示；所述通用文库引物见表1。

表1引物序列信息

注：xxxxxxxx:index标签

2)通用文库TT COLD PCR：反应体系为：

充分混合。

绕过每个插入片段存在的特异Tc值，基于表1中的1对通用文库引物，在1个系列的循环条件下，对文库中所有片段上的各种突变类型进行富集。该方法具体为由经验公式给出Tc min≈TM-2.5，之后Tc以0.5℃逐步递增，在每个Tc条件下分别进行FULL COLD PCR。PCR反应程序设置，见表2。

表2

3、探针富集捕获与上机测序：

1)肿瘤富集探针芯片设计：

基于TCGA、ICGC、COSMIC等数据库和相关文献参考，参考常规芯片捕获探针设计原则，确定芯片捕获区间；

在捕获区间内，参考TCGA、COSMIC等相关数据库，在每200BP范围内，确定1个最重要的热点变异位点(SNV>3)；同时针对该位点存在的多种突变类型，以几种主要类型作为参考，基于其相应的发生频率作为其在该位点总探针覆盖水平上所占的比例；

芯片设计时，针对相关热点变异，将原先基于REF设计的探针全部替换为基于突变碱基进行设计，其他探针不变，同时热点变异探针总覆盖度与其他区域正常探针覆盖度的差异至少为3：1，从而实现捕获时对热点变异的富集。

2)扩增后文库质控并进行富集探针捕获，之后进行杂交捕获产物的扩增与上机测序。

扩增后文库质控合格后并采用上述肿瘤富集探针芯片，参照芯片制造商(Roche)提供的说明书进行杂交捕获。最后洗脱回溶21μL ddH₂O带杂交洗脱磁珠。

杂交捕获产物的扩增体系：

PCR反应条件：初始变性98℃45sec；变性98℃15sec，退火65℃30sec，延伸72℃30sec，共10个循环；72℃延伸60sec，4℃保存。

FellowCell Primer 1、Primer 2为Hiseq上机测试平台自带的引物，以用于将捕获后的DNA模板进行扩增，得到足够产量满足上机要求。

先除去上一步磁珠，然后重新加入Agencourt AMPure XP reagent50μL，进行磁珠纯化，最后回溶25μL ddH2O，进行QC及上机。采用Illumina HiSeq2500PE101+8+101程序进行上机测序，测序实验操作按照制造商提供的操作说明书(参见Illumina/Solexa官方公布cBot)进行上机测序操作。

4、正反双链纠错低频信息分析(RealSeq Pipeline方法)：

实施例3肿瘤早期筛查

1、芯片设计基于富集探针芯片设计原则，完成肿瘤(肺癌、结直肠癌、胃癌、乳腺癌、肾癌、胰腺癌、卵巢癌、子宫内膜癌、甲状腺癌、宫颈癌、食管癌以及肝癌等)早期筛查芯片——ONCOcare—ZS，该芯片包括了常见高发癌症的相关Driver Gene、高频突变基因、癌症相关12条信号通路中重要基因，共计227个基因，680Kb,总共5220个热点变异。基因列表详见表3。

表3ONCOcare—ZS早筛芯片基因列表

2、测序结果分析

对1例肺部小结节患者按照实施例1记载的方法测序分析，其中，探针富集捕获步骤采用本实施例的芯片ONCOcare—ZS，测序数据统计结果如下表4所示：

表4测序结果

注释：正反链互配率：基于3条测序序列以上正反链均有的簇/3条测序序列上总的簇的比值，以评估可用数据中正反链互配情况；有效数据利用率：基于至少满足2+/2-簇的测序序列纠错后的个数与总测序测序序列数的比值；低频纠错深度：基于有效数据纠错后，对目标区域碱基的平均覆盖情况。

结果分析：在患者血浆中检测到了TP53p.[Val272Leu]和EGFR p.[Leu861Arg]2个Driver mutation变异，预示着患者具有较高的癌症风险率。后续临床病理确认为：患者为浸润性腺癌T1aN0M0，ⅠA。此外相应组织与血浆常规高通量测序分析以及血浆数字PCR验证结果显示：

表5

实施例4肿瘤个体化用药指导

1、芯片设计

基于富集探针芯片设计原则，完成肿瘤个体化用药指导探针——ONCOcare-Drug，该芯片包括了：12种常见癌症高频基因，癌症12条信号通路中重要基因，常见靶药及化疗药物基因等，共计559个基因，850KB，总共2400个热点靶药变异。基因列表详见表6

表6ONCOcare-Drug个体化用药指导芯片基因列表

2、测序结果分析

对1例晚期结直肠患者按照实施例1记载的方法进行分析，其中，探针富集捕获步骤采用本实施例的芯片ONCOcare—Drug，测序数据统计结果如下表7所示：

表7

结果分析：总共检出6个Exon区非同义突变且均与组织变异一致.变异详情见表8：

表8

化疗位点详情见表9：

表9

基因名称	RS号	检测碱基	基因名称	RS号	检测碱基
XPC	rs2228001	GT	MTHFR	rs1801133	AA
TP53	rs1042522	CC	CBR3	rs1056892	GG
XRCC1	rs25487	CC	MTHFR	rs1801133	AA
GSTP1	rs1695	AG	ATIC	rs4673993	TT
ERCC1	rs11615	GG	MTRR	rs1801394	AA
ERCC1	rs3212986	CC	TP53	rs1042522	CC
MTHFR	rs1801133	AA	DPYD	rs3918290	CC
SOD2	rs4880	AA	DPYD	rs67376798	TT
GSTP1	rs1695	AG	TPMT	rs1800460	CC
MTHFR	rs1801133	AA	TPMT	rs1800462	CC
MTHFR	rs1801131	TT	TPMT	rs1800584	CC
GSTP1	rs1695	AG	UGT1A1	rs8175347	7TA/7TA
UMPS	rs1801019	GG

药物预测：结合上述检测结果依据靶药化疗解读数据库，以下结论仅供临床医生制定治疗方案时参考：

表10靶向药物用药提示

表11化疗药物用药提示

实施例5十二种常见癌症术后监控

1、芯片设计

基于富集探针芯片设计原则，完成肿瘤(肺癌、结直肠癌、胃癌、乳腺癌、肾癌、胰腺癌、卵巢癌、子宫内膜癌、甲状腺癌、宫颈癌、食管癌以及肝癌等)术后监控芯片——ONCOcare—JK，该芯片包括了常见高发癌症的相关Driver Gene、高频突变基因、癌症相关12条信号通路中重要基因等，共计508个基因，500Kb，共4800个热点变异。基因列表见表12。

表12ONCOcare—JK术后监控芯片基因列表

ABL1	CBLB	DOT1L	FGF7	IGF2	MSH2	PIK3CB	SDHB	TRAF7
ABL2	CBR1	DUSP6	FGFR1	IKBKB	MSH3	PIK3CG	SDHC	TSC1
ACVR1B	CCND1	EDNRA	FGFR2	IKBKE	MSH4	PIK3R1	SDHD	TSC2
ACVR2A	CCND2	EGFR	FGFR3	IKZF1	MSH5	PIK3R2	SEMA3A	TSHR
AJUBA	CCND3	EGR3	FGFR4	IL7R	MSH6	PLK1	SEMA3E	TSHZ2
AKT1	CCNE1	EIF4A2	FLCN	INHBA	MSR1	PML	SETBP1	TSHZ3
AKT2	CD79A	ELAC2	FLT1	IRF4	MTOR	PMS1	SETD2	TUBA1A
AKT3	CD79B	ELF3	FLT3	IRS2	MUC1	PMS2	SF1	TUBB
ALK	CDC25C	EML4	FLT4	ITGB2	MUTYH	PNRC1	SF3B1	TUBD1
ANGPT1	CDC42	EP300	FNTA	JAK1	MYC	POLQ	SH2B3	TUBE1
ANGPT2	CDC73	EPHA2	FOXA1	JAK2	MYCL1	PPP2R1A	SIN3A	TUBG1
APC	CDH1	EPHA3	FOXA2	JAK3	MYCN	PRDM1	SLAMF7	TYR
AR	CDK12	EPHA5	FOXL2	JUN	NAV3	PRKCA	SLC4A1	VEGFA
ARAF	CDK2	EPHB1	FPGS	KDR	NBN	PRKCB	SLIT2	VEGFB
ARFRP1	CDK4	EPHB2	FUBP1	KEAP1	NCOA1	PRKCG	SMAD2	VEZF1
ARID1A	CDK6	EPHB6	FYN	KIF1B	NCOA2	PRKDC	SMAD3	VHL
ARID1B	CDK8	EPPK1	GAB2	KIF5B	NCOR1	PRSS8	SMAD4	WISP3

ASXL1	CDKN1A	ERBB2	GATA1	KIT	NEK11	PSMB1	SMARCA1	WT1
ATM	CDKN1B	ERBB3	GATA2	KLF4	NF1	PSMB2	SMC1A	WWP1
ATR	CDKN2A	ERBB4	GATA3	KLHL6	NF2	PSMB5	SMC3	XIAP
ATRX	CDKN2B	ERCC2	GID4	KRAS	NOTCH1	PTCH1	SMO	XPA
AURKA	CDKN2C	ERCC3	GNA11	LCK	NOTCH2	PTCH2	SOCS1	XPC
AURKB	CDX2	ERG	GNA13	LIMK1	NOTCH3	PTEN	SOX2	XPO1
AXIN1	CEBPA	ESR1	GNAQ	LRRK2	NOTCH4	PTP4A3	SOX9	XRCC3
AXIN2	CFLAR	ETV1	GNAS	MALAT1	NPM1	PTPN11	SPEN	YES1
AXL	CHD1	ETV6	GNRHR	MAP2K1	NR3C1	PTPRD	SPRY4	ZNF217
BACH1	CHD2	EWSR1	GPR124	MAP2K2	NRAS	RAC1	SRC	ZRSR2
BAK1	CHD4	EXT1	GRIN2A	MAP2K4	NSD1	RAC2	SRD5A2
BAP1	CHEK1	EXT2	GRM3	MAP3K1	NTRK1	RAD21	SRSF2
BARD1	CHEK2	EZH2	GSK3B	MAP3K13	NTRK2	RAD50	SSTR2
BCL2	CHUK	FAM46C	H3F3A	MAPK1	NTRK3	RAD51	STAG2
BCL2A1	CIC	FANCA	H3F3C	MAPK3	NUP93	RAF1	STAT4
BCL2L1	CRBN	FANCC	HCK	MAPK8	PAK3	RARA	STAT5B
BCL2L2	CREBBP	FANCD2	HDAC1	MAX	PAK7	RARB	STK11
BCL6	CRIPAK	FANCE	HDAC2	MC1R	PALB2	RARG	SUFU
BCOR	CRKL	FANCF	HDAC3	MCL1	PARP1	RB1	SUZ12
BCORL1	CRLF2	FANCG	HDAC4	MDM2	PARP2	REL	SYK
BCR	CTCF	FANCI	HDAC6	MDM4	PARP3	RET	TAF1
BLM	CTLA4	FANCL	HDAC8	MED12	PARP4	RHEB	TBX3
BMPR1A	CTNNA1	FANCM	HGF	MEF2B	PCM1	RNF43	TEK
BRAF	CTNNB1	FAT3	HIF1A	MEN1	PDGFRA	ROBO1	TERT
BRCA1	CUL4A	FBXW7	HNF1A	MET	PDGFRB	ROBO2	TET2
BRCA2	CUL4B	FCGR2A	HRAS	MITF	PDK1	ROS1	TFG

BRIP1	CYLD	FCGR2B	HRH2	MLH1	PHF6	RPA1	TGFBR2
BTG1	DAXX	FCGR2C	IDH1	MLH3	PIGF	RPL5	TIPARP
BTK	DDR1	FCGR3A	IDH2	MLL	PIK3C2A	RPS14	TLR4
CARD11	DDR2	FCGR3B	IFNAR1	MLL2	PIK3C2B	RXRA	TOP1
CASP8	DIS3	FGF3	IFNAR2	MLL3	PIK3C2G	RXRB	TOP2A
CBFB	DNMT1	FGF4	IGF1	MLL4	PIK3C3	RXRG	TOP2B
CBL	DNMT3A	FGF6	IGF1R	MS4A1	PIK3CA	SDHAF2	TP53

2、测序结果分析

对1例肺腺癌术后3个月患者按照实施例1的步骤进行分析，其中，探针富集捕获步骤采用本实施例的芯片ONCOcare—JK，测序数据统计结果如下表13所示：

表13

结果分析：总共检出5个Exon区非同义突变统计变异详情见表14：

表14

总共检出19个变异，其中5个Exon区非同义突变统计，相对正常人基线，检出变异较高。此外组织中存在的NOTCH1p.N685T；PDGFRA p.M745I，术后血浆中存在且仍然较高，预示着患者术后可能存在较高的复发风险。临床随访跟踪：患者疾病有进展，此外血浆常规高通量测序分析以及血浆数字PCR验证结果见表15。

表15

工业实用性

本发明提供的一种血浆中游离的目标DNA低频突变富集测序方法，能够对5-10mL外周血样本的血浆DNA实现低频精确检测，操作简便，实用性强，具有高灵敏度可以对0.01％低频变异具有高特异性检测；具有高特异性，可以更有效的实现低频变异的精确检测，其特异性平均在98％以上；具有高通量性，不仅可以对相关感兴趣的基因，一次性扫描，获取更全面的受检者信息，以得出更准确的相关预测，而且能够在很短的时间内同时进行多例样本检测，从而压缩成本，有利于临床的推广；还具有多维度应用性，能够充分发掘血浆ctDNA的应用潜能，可以为多种相关肿瘤的早期筛查、术后监控以及精准医疗奠定坚实的基础，从而有力的推动临床肿瘤诊断事业的发展。

Claims

一种血浆中游离的目标DNA低频突变富集测序方法，包括以下步骤：

(1)血浆中游离的目标DNA的提取与文库构建；

(2)通用文库TT-COLD PCR扩增富集；

(3)探针富集捕获、杂交捕获产物的扩增与上机测序；

(4)正反双链纠错低频信息分析。
根据权利要求1所述的方法，其特征在于，步骤(1)所述的血浆来自人类外周血，文库构建方法按照3步酶促反应，即末端修复，加“A”和文库接头连接。
根据权利要求1所述的方法，其特征在于，步骤(2)通用文库TT-COLD PCR扩增富集包括以下步骤：

1)确定文库的Tm值；

2)绕过每个插入片段存在的特异Tc值，基于1对通用引物，在1个系列的循环条件下，对文库中所有片段上的各种突变类型进行富集；设定Tc min≈TM-2.5，之后Tc以0.5℃逐步递增，在每个Tc条件下分别进行FULL COLD PCR。
根据权利要求3所述的方法，其特征在于，步骤1)文库的Tm值通过以下方法来确定，对正常人血浆中游离的目标DNA连接文库采用1对引物使用荧光定量PCR，根据溶解曲线分析获得文库Tm值；所述1对引物的核苷酸序列为：

上游引物：

AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT，

下游引物：

CAAGCAGAAGACGGCATACGAGATxxxxxxxxGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT，其中xxxxxxxx为index标签。
根据权利要求3所述的方法，其特征在于，步骤2)所述的1对通用引物为通用文库TT-COLD PCR引物，其核苷酸序列为：

上游引物：

AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT，

下游引物：

CAAGCAGAAGACGGCATACGAGATxxxxxxxxGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT，其中xxxxxxxx为index标签。
根据权利要求3所述的方法，其特征在于，所述1个系列循环条件为：
根据权利要求1-6任一所述的方法，其特征在于，步骤(3)所述探针富集捕获是将扩增后的文库质控合格后，采用富集探针芯片进行杂交捕获，并对杂交捕获产物进行PCR扩增，然后进行上机测序；

富集探针芯片的设计方法为：基于目的基因的用途确定芯片捕获区间，参考目标DNA所属的数据库，在一定碱基范围内，确定至少1个最重要的热点变异位点，同时针对该位点存在的多种突变类型，以几种主要类型作为参考，基于相应的发生频率作为其在该位点总探针覆盖水平所占的比例；针对热点变异，将基于人基因组参考序列hg19设计的探针替换为基于突变碱基设计的探针，其他位点探针不变，同时热点变异探针总覆盖度与其他区域正常探针覆盖度的差异比例不少于3：1，从而实现捕获时对热点变异的富集。
根据权利要求1-6任一所述的方法，其特征在于，步骤(4)正反双链纠错低频信息分析，具体方法为：

1)基于测序结果，截取成对测序序列中的测序序列1的前12bp碱基和测序序列2的前12bp碱基作为标签，且根据字母序排列以较小的标签在前连接成24bp的一条索引，同时根据标签的排列组合方式，选定正链和反链；

2)对索引进行外部排序，以达到将同一个DNA模板的所有测序序列聚集到一起的目的；

3)对聚集起来的拥有相同索引的测序序列进行中心聚类，根据其序列之间的汉明距离，将每个有相同索引的大簇聚集成若干个小簇，每个小簇中任意两对成对测序序列的汉明距离不超过10，以达到区分开拥有相同索引却来自不同DNA模板的测序序列的目的；

4)对步骤3)中获得的同一个DNA模板的重复簇进行筛选，若正链和反链的测序序列数都达到2对以上，则进行后续分析；

5)对满足4)中条件的簇进行纠错，并产生一对无错的新测序序列.对于DNA模板的每一个测序碱基，若某种碱基型在正链的测序序列中的一致率达到80％，且在反链测序序列中的一致率也达到80％，则记新测序序列的这个碱基为此碱基型，否则记为N，这样便得到了代表原始DNA模板序列的新测序序列；

6)将新测序序列用bwa mem算法重新比对到基因组上，筛除比对质量小于30的测序序列；

7)根据6)中得到的测序序列进行统计，得到捕获区域内每个位点的碱基型分布，统计目标区域覆盖大小、平均测序深度，正反链互配率，低频突变率；

8)Call SNV/InDel/SV/CNV：根据患者样品与对照样品信息的比对，用mutect流程call somatic SNV变异；用gatk流程call somatic InDel变异；用contra.py流程call CNV；用somVar流程call SV；

所使用的筛选参数为：对照位点变异率≤2％；纠错后变异测序序列条数≥2；突变预测p值≤0.05；

9)变异注释：注释变异的功能、变异测序序列支持数、变异频率、氨基酸变异及已有变异数据库中的该变异的情况。
根据权利要求8所述的方法，其特征在于，步骤1)中，基于插入片段两端的序列碱基作为标签，经双末端测序，每个片段将形成一对成对测序序列；将成对测序序列的测序序列1的前12bp碱基和测序序列2的前12bp碱基作为标签，字母序排列以较小的标签在前连接成24bp的一条索引，并且以这24bp作为成对测序序列的索引，测序序列1的标签在前就标记成正链；测序序列2的标签在前就标记为反链。
一种血浆中游离的目标DNA低频突变富集测序试剂盒，其特征在于，含有富集探针芯片，芯片上探针是将基于人基因组参考序列hg19设计的探针替换为基于突变碱基设计的探针，其他位点探针不变，且热点变异探针总覆盖度与其他区域正常探针覆盖度的差异至少为3:1；

基于目标DNA突变碱基设计探针的方法为：根据目的基因的用途确定芯片捕获区间，参考目标DNA所属的数据库，在一定碱基范围内，确定至少1个最重要的热点变异位点，同时针对该位点存在的多种突变类型，以几种主要类型作为参考，基于相应的发生频率作为其在该位点总探针覆盖水平所占的比例。
一种血浆中ctDNA低频突变富集测序的系统，包括：

(1)血浆中ctDNA文库构建单元；

(2)通用文库TT-COLD PCR扩增富集单元；

(3)探针富集捕获单元、杂交捕获产物的扩增与上机测序单元；

(4)正反双链纠错低频信息分析单元。
如权利要求11所述的系统，其特征在于，单元(2)的通用文库TT-COLD PCR扩增富集单元是基于通用引物对所有类型变异实现第一级突变富集扩增；所述通用引物的核苷酸序列为：

上游引物：

AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT，

下游引物：

CAAGCAGAAGACGGCATACGAGATxxxxxxxxGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT，其中xxxxxxxx为index标签。
如权利要求11所述的系统，其特征在于，单元(3)的探针富集捕获单元是针对热点变异通过富集探针芯片实现第二次富集捕获，所述富集探针芯片上探针是将原先基于人基因组参考序列hg19设计的探针替换为基于突变碱基设计的探针，其他位点探针不变，且热点变异探针总覆盖度与其他区域正常探针覆盖度的差异至少为3:1；

基于ctDNA突变碱基设计探针的原则为：基于TCGA、ICGC、COSMIC数据库确定芯片捕获区间，参考TCGA、ICGC、COSMIC数据库，在每200bp碱基范围内，确定至少1个最重要的热点变异位点，同时针对该位点存在的多种突变类型，以几种主要类型作为参考，基于相应的发生频率作为其在该位点总探针覆盖水平所占的比例。
如权利要求11-13任一所述的系统，其特征在于，单元(4)的正反双链纠错低频信息分析单元是：

1)基于插入片段两端的序列碱基作为标签，所述插入片段是文库中与接头引物相连接的DNA片段,经双末端测序，每个片段将形成一对成对测序序列；将成对测序序列的测序序列1的前12bp碱基和测序序列2的前12bp碱基作为标签，字母序排列以较小的标签在前连接成24bp的一条索引，并且以这24bp作为成对测序序列的索引，测序序列1的标签在前就标记成正链；测序序列2的标签在前就标记为反链；

2)对索引进行外部排序，以达到将同一个DNA模板的所有测序序列聚集到一起的目的；

3)对聚集起来的拥有相同索引的测序序列进行中心聚类，根据其序列之间的汉明距离，将每个有相同索引的大簇聚集成若干个小簇，每个小簇中任意两对成对测序序列的汉明距离不超过10，以达到区分开拥有相同索引却来自不同DNA模板的测序序列的目的；

4)对步骤3)中获得的同一个DNA模板的重复簇进行筛选，若正链和反链的测序序列数都达到2对以上，则进行后续分析；

5)对满足4)中条件的簇进行纠错，并产生一对无错的新测序序列.对于DNA模板的每一个测序碱基，若某种碱基型在正链的测序序列中的一致率达到80％，且在反链测序序列中的一致率也达到80％，则记新测序序列的这个碱基为此碱基型，否则记为N，这样便得到了代表原始DNA模板序列的新测序序列；

6)将新测序序列用bwa mem算法重新比对到基因组上，筛除比对质量小于30的测序序列；

7)根据6)中得到的测序序列进行统计，得到捕获区域内每个位点的碱基型分布，统计目标区域覆盖大小、平均测序深度，正反链互配率，低频突变率；

8)Call SNV/InDel/SV/CNV：根据患者样品与对照样品信息的比对，用mutect流程call somatic SNV变异；用gatk流程call somatic InDel变异；用contra.py流程call CNV；用somVar流程call SV；

所使用的筛选参数为：对照位点变异率≤2％；纠错后变异测序序列条数≥2；突变预测p值≤0.05；

9)变异注释：注释变异的功能、变异测序序列支持数、变异频率、氨基酸变异及已有变异数据库中的该变异的情况。
权利要求1-9任一所述的方法或权利要求11-14任一所述的系统在制备疾病早期筛查试剂盒中的应用。
如权利要求15所述的应用，其特征在于，所述的疾病为肿瘤。
权利要求1-9任一所述的方法或权利要求11-14任一所述的系统在制备疾病术后监控试剂盒中的应用。
权利要求1-9任一所述的方法或权利要求11-14任一所述的系统在制备疾病用药指导试剂盒中的应用。