WO2023130670A1

WO2023130670A1 - 基于游离dna的基因组癌变信息检测系统和检测方法

Info

Publication number: WO2023130670A1
Application number: PCT/CN2022/098450
Authority: WO
Inventors: 李宇龙; 洪媛媛; 韩天澄; 吕芳; 杨顺莉; 聂佩瑶; 张琦; 陈维之
Original assignee: 无锡臻和生物科技有限公司; 臻和(北京)生物科技有限公司
Priority date: 2022-01-07
Filing date: 2022-06-13
Publication date: 2023-07-13
Also published as: CN114045345B; CN114045345A; US20240060137A1

Abstract

一种基于游离DNA并且尤其是血浆游离DNA的基因组癌变信息检测系统以及检测方法，所述系统包括文库构建装置，通过利用酶使待测样品中游离DNA中的5-甲基胞嘧啶(5-mC)转化为5-甲酰胞嘧啶(5-fC)和5-羧基胞嘧啶(5-caC)，非甲基化胞嘧啶(C)转化为尿嘧啶(U)，测序装置，和信息分析装置，该信息分析装置可分析基因组的甲基化密度、片段长度分布、片段5'末端基序和/或染色体稳定性。

Description

基于游离DNA的基因组癌变信息检测系统和检测方法

技术领域

本发明涉及基因组癌变信息检测领域，尤其涉及一种基于游离DNA的基因组癌变信息检测系统和检测方法。

背景技术

癌症的早筛、早诊可以为及时治疗提供可能，从而降低癌症的死亡率。传统的肿瘤诊断技术主要为影像学检查，例如胃镜、结肠镜检查，作为侵入性检测手段可能会对患者造成创伤，且检测灵敏度受限于肿瘤发展阶段，只能发现直径1cm以上的肿瘤病灶，发现时基本到了中晚期。病理学组织活检是癌症诊断的金标准，但检取样困难，且由于肿瘤的异质性往往难以做到取样完全，不利于诊断分型，又容易导致并发症。液体活检技术，特别是基于检测血浆中的游离DNA(cell-free DNA，cfDNA)中肿瘤来源的游离肿瘤DNA(circulating tumor DNA,ctDNA)的生物标志物信号的检测技术，近年来作为一种非侵入性肿瘤检测手段被广泛应用于肿瘤诊断、病情追踪、复发监测等。相比较于传统影像学方法，液体活检技术对于早期肿瘤有更高的检测灵敏度，且可以实现对多癌种的同时检测，具有作为一种针对普通人群的常规癌症筛查手段的潜力。

ctDNA来源于坏死的、凋亡的、循环中的肿瘤细胞以及肿瘤细胞分泌的外排体，携带着肿瘤细胞的遗传和表观遗传特征。DNA甲基化是真核细胞中的重要表观修饰方式，即在DNA甲基化转移酶(DNA methyltransferases,DNMTs)的作用下使CpG岛的胞嘧啶(cytosine)转变为5’-甲基胞嘧啶(5-mC)。DNA甲基化状态的改变是肿瘤发生、发展过程中的标志性事件之一，在肿瘤早期便在基因组广泛发生。人类基因启动子区的CpG岛在癌症中常发生高甲基化现象，可能会沉默某些抑癌基因的表达；同时癌症基因组常呈现大范围的去甲基化状态，可能会导致重复序列区域的激活或者染色体重排。

通过检测血浆cfDNA甲基化状态的改变可以灵敏的检测微弱的ctDNA信号。人类基因组大于3G，出于测序成本的考虑，目标区域捕获测序是目前最常用的甲基化检测手段，但是其性能受限于对癌种特异性目标区域的筛选，需要前期对癌症和匹配的癌旁组织进行高深度全基因组甲基化测序分析来选择差异甲基化位点。因而，该技术路径的一大瓶颈为各癌种高质量组织样本的获得，且差异甲基化位点的筛选和验证过程较为繁琐。

除了甲基化状态的改变，癌症病人的cfDNA的片段化特征，包括全基因组各区域不同长度的片段的比例、片段末端序列等，也呈现出与健康人的差异，近年来作为另一种灵敏的ctDNA的表观遗传生物标志物被广泛开发用于多个癌种的检测(“片段组学”)。此外，拷贝数变异(copy number variation，CNV)是各种癌症中常见的遗传特征改变，也被广泛应用于对ctDNA信号的检测。

传统的甲基化测序技术利用重亚硫酸盐将非甲基化的胞嘧啶(C)脱氨转变成尿嘧啶(U)，该反应的高温和高pH环境会引起DNA分子的严重降解，从而丢失原始的DNA片段特征。

发明内容

仍然需要开发针对基于游离DNA构建的单个测序文库能够同时分析包括甲基化、片段化特征、拷贝数变异等特征，能够更准确、更灵敏、更廉价、更简便地检测基因组癌变信息的系统和方法，同时用于多种癌症的早期、灵敏、准确筛查。

本发明是基于发明人的下列发现而完成的：发明人首次发现，通过对血浆cfDNA(cell-free DNA)进行酶法处理，使其中的5-甲基胞嘧啶(5-mC)转化为5-甲酰胞嘧啶(5-fC)和5-羧基胞嘧啶(5-caC)，非甲基化胞嘧啶(C)转化为尿嘧啶(U)，可获得测序文库，同时用于全基因组的甲基化、片段化(例如从片段长度系数分析和末端基序(motif)分析两个维度)、染色体不稳定性分析(拷贝数变异)，同时对多种癌症进行早期、灵敏、准确的筛查。

本发明提供了一种低成本的能对血浆cfDNA同时进行全基因组甲基化、片段化以及拷贝数变异分析的文库构建方法及分析模型进行癌症的液体活检筛查，该方法适用于低起始量cfDNA，无需进行目标区域捕获从而简化技术流程。进一步地，本发明可以可选地通过对上述各维度癌症特征的整合分析进一步提高癌症筛查的检测灵敏度和准确性。

一方面，本文提供了一种基于游离DNA(cell free DNA，cfDNA的基因组癌变信息检测系统，包括：

文库构建装置，通过利用酶使待测样品中游离DNA(例如血浆中的游离DNA)中的5-甲基胞嘧啶(5-mC)转化为5-甲酰胞嘧啶(5-fC)和5-羧基胞嘧啶(5-caC)，非甲基化胞嘧啶(C)转化为尿嘧啶(U)，用于构建文库；

测序装置，用于对所构建的文库进行测序；

信息分析装置，其包括以下一个或多个模块：

甲基化分析模块，用于分析游离DNA的甲基化信息，

片段长度系数分析模块，用于分析游离DNA的片段化信息，

末端基序分析模块，用于分析游离DNA的片段化信息，

染色体不稳定性分析模块，用于分析染色体的拷贝数变异信息。

在一些实施方案中，所述信息分析装置还包括整合分类模块，用于将所述甲基化分析模块、片段长度系数分析模块、末端基序分析模块和/或染色体不稳定性分析模块所获得的信息进行整合。

在一些实施方案中，所述甲基化分析模块是MD-KNN分析模块，通过非重叠滑窗方法将人参考基因组化分为区间(即bin，例如1Mb大小)，计算每个区间的所有CpG位点中甲基化位点的比例，即甲基化密度MD(methylation density)值，通过KNN(K-Nearest Neighbor，K临近法)模型计算癌变可能性的预测值K。

在一些具体实施方案中，所述片段长度系数分析模块是FSI-SVM分析模块，通过非重叠滑窗方法将人参考基因组化分为区间(例如5Mb大小)，计算每个区间的短片段(例如101-167bp)和长片段(例如170-250bp)数目的比例，得到每个样本的片段长度系数FSI(fragment size index)值，通过SVM(support vector machine，支持向量机)模型计算癌变可能性的预测值F。

在一些实施方案中，所述末端基序分析模块是Motif-SVM分析模块，计算样本的片段的5’末端4-mer基序序列的占比，通过SVM模型计算癌变可能性的预测值S。

在一些实施方案中，所述染色体不稳定性分析模块是CIN-PAscore分析模块，计算样本的所有半臂染色体的拷贝数，通过整合与健康人基线(baseline)样本的对应染色体拷贝数变化最大的五条半臂染色体的z-score，计算PAscore(plasma aneuploidy score)。

在一些实施方案中，所述整合分类模块是SVM-整合分类模块，将上述预测值K、F、S和PAscore使用线性SVM模型进行整合，得到最终的单一癌变可能性的预测值Z。

在一些具体的实施方案中，所述系统中的所述文库构建装置包括：

血浆游离DNA提取模块，用于从血浆样品提取其中的游离DNA；

酶反应模块，使用酶使游离DNA中的5-甲基胞嘧啶(5-mC)转化为5-甲酰胞嘧啶(5-fC)和5-羧基胞嘧啶(5-caC)，非甲基化胞嘧啶(C)转化为尿嘧啶(U)；

PCR反应模块，利用PCR对酶反应后的游离DNA进行扩增。

在一些具体的实施方案中，所述使用的酶是TET2酶和APOBEC酶。

在一些具体的实施方案中，所述测序装置选自Illumina Novaseq 6000、Illumina Nextseq500、MGI DNBSEQ-T7或者MGI SEQ-2000。

在一些具体的实施方案中，所述MD-KNN分析模块中的MD值通过以下公式计算：

MD _n,i＝Total_mC _n,i/Total_C _n,i

其中MD _n,i为样本n的第i个bin的MD值，Total_mC _i为第i个bin内的所有甲基化C的总数，Total_C _n,i为第i个bin内的所有C的总数。

在一些具体的实施方案中，所述FSI-SVM分析模块中的FSI值通过以下公式计算：

FSI _n,i＝Total_S _n,i/Total_L _n,i

其中FSI _n,i为样本n的第i个bin的FSI值，Total_S _n,i为第i个bin内的短片段数量，Total_L _n,i为第i个bin内的长片段数量。

在一些具体的实施方案中，所述motif-SVM分析模块中的基序占比通过以下公式计算：

其中Fraction _n,i为样本n的第i种4-mer基序的占比，M _i为第i种4-mer基序的数量。

在一些具体的实施方案中，所述CIN-PAscore分析模块中的PAscore通过以下公式计算：

Z _n,i＝(ARM _n,i-MEAN_baseline _i)/SD_baseline _i

其中，Z _n,i为样本n的半臂染色体i相对于基线样本的z-score，ARM _n,i为样本n的半臂染色体i的读段(reads)数，MEAN_baseline _i为基线样本的半臂染色体i的读段数的平均值，SD_baseline _i为基线样本的半臂染色体i的读段数的标准差；

取待测样本n的z-score绝对值最大的5个半臂染色体的z-score及基线样本对应的半臂染色体的z-score进行后续分析

其中，logP _n为样本n的5个半臂染色体的z-score在自由度为3的t分布中的P值的对数和的负值；

PAscore _n＝|logP _n-MEAN_baseline _logP|/SD_baseline _logP

其中PAscore _n为样本n的PAscore，MEAN_baseline _logP为基线样本的logP平均值，SD_baseline _logP为基线样本的logP的标准差。

在一些具体的实施方案中，其中所述信息分析装置包括数据预处理模块，将测序装置获得的下机FASTQ数据转换为各模块可使用的Bam文件，并建立索引。例如，进行比对、去重、排序标记、筛选并建立索引。

第二方面，本文还提供了基于游离DNA的基因组癌变信息检测方法，其通过使用以上第一方面所述的系统进行。

所述基于游离DNA的基因组癌变信息检测方法包括：

文库构建，通过利用酶使待测样品中游离DNA(例如血浆中的游离DNA)中的5-甲基胞嘧啶(5-mC)转化为5-甲酰胞嘧啶(5-fC)和5-羧基胞嘧啶(5-caC)，非甲基化胞嘧啶(C)转化为尿嘧啶(U)，用于构建文库；

全基因组测序，对所构建的文库进行测序；

测序信息分析，其包括以下一个或多个分析步骤：

甲基化分析，用于分析游离DNA的甲基化信息，

片段长度系数分析，用于分析游离DNA的片段化信息，

末端基序分析，用于分析游离DNA的片段化信息，

染色体不稳定性分析，用于分析染色体的拷贝数变异信息。

在一些具体的实施方案中，测序信息分析还包括整合分类步骤，用于将所述甲基化分析、片段长度系数分析、末端基序分析和/或染色体不稳定性分析所获得的信息进行整合。

在一些具体的实施方案中，所述甲基化分析包括通过非重叠滑窗方法将人参考基因组化分为区间(例如1Mb大小)，计算每个区间的所有CpG位点中甲基化位点的比例，即甲基化密度MD值，通过KNN模型计算癌变可能性的预测值K，简称为MD-KNN分析。

在一些具体的实施方案中，所述片段长度系数分析包括通过非重叠滑窗方法将人参考基因组化分为区间(例如5Mb大小)，计算每个区间的短片段(例如101-167bp)和长片段(例如170-250bp)数目的比例，得到每个样本的片段长度系数FSI值，通过SVM模型计算癌变可能性的预测值F，即FSI-SVM分析。

在一些具体的实施方案中，所述末端基序分析包括计算样本的片段的5’末端4-mer基序序列的占比，通过SVM模型计算癌变可能性的预测值S，即Motif-SVM分析。

在一些具体的实施方案中，所述染色体不稳定性分析包括计算样本的所有半臂染色体的拷贝数，通过整合与健康人基线样本的对应染色体拷贝数变化最大的五条半臂染色体的z-score，计算PAscore值，即CIN-PAscore分析。

在一些具体的实施方案中，所述SVM-整合分类包括将上述预测值K、F、S和PAscore使用线性SVM模型进行整合，得到最终的单一癌变可能性的预测值Z，即SVM-整合分类。

在一些具体的实施方案中，所述文库构建包括：

从血浆样品提取其中的游离DNA(cfDNA)；

酶反应步骤，使用酶使游离DNA中的5-甲基胞嘧啶(5-mC)转化为5-甲酰胞嘧啶(5-fC)和5-羧基胞嘧啶(5-caC)，非甲基化胞嘧啶(C)转化为尿嘧啶(U)；和

PCR扩增，利用PCR对酶反应后的游离DNA进行扩增。

在一些具体的实施方案中，所述酶是TET2酶和APOBEC酶。

在一些具体的实施方案中，所述测序使用以下进行：Illumina Novaseq 6000、Illumina Nextseq500、MGI DNBSEQ-T7或者MGI SEQ-2000。

MD _n,i＝Total_mC _n,i/Total_C _n,i

FSI _n,i＝Total_S _n,i/Total_L _n,i

Z _n,i＝(ARM _n,i-MEAN_baseline _i)/SD_baseline _i

其中，Z _n,i为样本n的半臂染色体i相对于基线样本的z-score，ARM _n,i为样本n的半臂染色体i的读段数，MEAN_baseline _i为基线样本的半臂染色体i的读段数的平均值，SD_baseline _i为基线样本的半臂染色体i的读段数的标准差；

取待测样本n的z-score绝对值最大的5个半臂染色体的z-score及基线样本对应的半臂染色体的z-score进行以下分析

PAscore _n＝|logP _n-MEAN_baseline _logP|/SD_baseline _logP

在一些具体的实施方案中，其中所述信息分析还进一步包括数据预处理，将测序装置获得的下机FASTQ数据转换为各模块可使用的Bam文件，并建立索引。

附图说明

图1.本发明基于cfDNA的低深度全基因组测序和癌变信息检测流程示意图。

图2.本发明通过全基因组甲基化密度(MD)的KNN模型(MD-KNN分析模块)进行独立验证集中多个癌种预测的ROC曲线。

图3.本发明通过全基因组片段长度系数(FSI)的SVM模型(FSI-SVM分析模块)进行独立验证集中多个癌种预测的ROC曲线。

图4.本发明通过片段末端特征基序占比的SVM模型(Motif-SVM分析模块)进行独立验证集中多个癌种预测的ROC曲线。

图5.本发明利用PAscore衡量半臂染色体不稳定性(CIN-PAscore分析模块)进行独立验证集中多个癌种预测的ROC曲线。

图6.本发明最终整合分类模块进行独立验证集中多个癌种预测的ROC曲线。

具体实施方式

如图1所示，本发明包括低深度全甲基化组的测序文库构建和测序，对测序数据进行多维度特征提取以及使用机器学习构建预测模型。

1.cfDNA全甲基化组测序文库制备及测序

原理：

本发明使用了TET2酶和APOBEC酶实现对非甲基化胞嘧啶(C)转化为尿嘧啶(U)。具体的，首先利用TET2酶催化5-甲基胞嘧啶(5-mC)转化为5-羟甲基胞嘧啶(5-hmC)，并进一步氧化为5-甲酰胞嘧啶(5-fC)和5-羧基胞嘧啶(5-caC)，从而保护5-mC和5-hmC在后续的APOBEC脱氨反应中不被作用。APOBEC酶将非甲基化胞嘧啶(C)脱氨转化为尿嘧啶(U)，并在随后的文库扩增PCR反应中替换为胸腺嘧啶(T)。相比较传统的bisulfite化学反应，酶法转化的反应条件温和，可以最大程度的保护DNA分子的完整性，因而可以用于cfDNA片段特征的分析，并可以用于低起始量DNA的文库构建。

方案：

1)从4mL健康人或癌症患者的血清中提取cfDNA，对5ng到30ng的cfDNA使用基于TET2和APOBEC的酶法转化，制备测序文库。

2)对文库进行低深度(～20G上机数据量)的2x 100PE测序。

2.甲基化密度(methylation density,MD)分析

原理：

肿瘤发生发展过程中的甲基化状态会在基因组发生大范围的异常，本发明通过比较待测样本与健康人基线在基因组各区域的甲基化水平的相似性，可以简单灵敏的判断血浆甲基化水平是否正常，进而推测是否含有ctDNA信号。分析过程中可以使用机器学习算法进行建模，进一步提升检测灵敏度。

方案：

1)将人参考基因组按照滑窗方式划分为1Mb大小的区间，对每个样本，分别计算各区间的所有CpG位点中甲基化位点的比例，即甲基化密度(MD值)。

2)利用健康人基线和训练集中的各癌种样本的甲基化密度训练K最邻近法(K-Nearest Neighbor，KNN)模型，利用KNN模型对测试集中的待测样本进行健康人或癌症患者的分类预测。

3.片段长度系数(fragment size index，FSI)分析

原理：

肿瘤细胞来源的cfDNA的片段长度相比非肿瘤细胞具有更大的异质性。片段长度系数FSI，即整个基因组各区域的cfDNA的短片段数和长片段数的比例图谱，在健康人群中高度一致，但在癌症患者中某些区域会发生变化，可能反应了癌症相关的染色质结构或其他基因组特征的异常。本发明通过比较待测样本与健康人基线的cfDNA片段长度系数，可以简单灵敏的识别是否存在肿瘤来源的ctDNA。通过机器学习算法进行特征识别，可以进一步提高检测灵敏度。

方案：

1)将人参考基因组按照滑窗方式划分为5Mb大小的区间，对每个样本，分别计算各区间的短片段数目和长片段数目的比例，得到每个样本的片段长度系数。

2)利用健康人基线和训练集中的各癌种样本的片段长度系数训练机器学习模型，选取最优模型SVM(support vector machine)对测试集中的待测样本进行健康人或癌症患者的分类预测。

4.片段5’末端基序分析

原理：

血浆cfDNA片段末端的4-mer基序序列特征具有偏好性，可能和DNA内切酶例如DNASE1L3的序列识别特性有关。癌症病人的相关DNA内切酶可能存在异常表达，从而导致癌症病人血浆的cfDNA末端序列特征发生改变，例如CCCA的比例在多个癌种中显著降低。本发明通过选取256种可能的4-mer基序中占比最高的125种基序序列，使用机器学习模型训练识别出癌症患者的血浆末端基序特征对待测样本进行判断。

方案：

1)计算每个样本的cfDNA片段5’末端的256种可能的4-mer基序序列的占比。选择健康人基线中占比最高的125种基序。

2)利用健康人基线和训练集中的各癌种样本的末端基序频率特征训练机器学习模型，选取最优模型SVM对测试集中的待测样本进行健康人或癌症患者的分类预测。

5.染色体不稳定性(chromosome instability，CIN)分析

原理：

拷贝数变异是癌细胞最常见的遗传特征变化之一，是发生癌症基因组不稳定的普遍机制。大部分实体瘤的特征包含染色体不稳定，表现为整个染色体或部分染色体的拷贝数变化。本发明通过计算半臂水平的染色体拷贝数并与健康人基线进行统计学分析，可以直接识别肿瘤来源的染色体变异，提供一种高特异性的液体活检方法。

方案：

1)计算每个半臂染色体的读段数。

2)对待测样本的每个半臂读段数与基线样本进行比较并计算z-score，选取z-score绝对值最大的五条染色体半臂，将每个z-score转化为p-value并整合得到该样本的PAscore(plasma aneuploidy score)以衡量该样本的染色体拷贝数异常程度。

6.整合(Ensemble)模型分类器(SVM-整合分类模块)的构建

原理：

对每个样本的WMS数据进行上述四个维度的分析，可以基于不同生物学机理全面衡量待测样本是否具有肿瘤信号。利用整合模型整合各维度特征的预测结果构建基于多组学分析的分类器，可以进一步提升模型的敏感度和特异性。

方案：

利用健康人基线和训练集中的各癌种样本的上述四个维度的预测值训练机器学习模型，选取最优模型(linear SVM)作为最终的整合分类器，计算最终的单一癌变可能性的预测值。

除前述优点以外，本发明与现有技术相比，还具有其他许多优点。

例如，本发明通过检测血浆低深度全基因组甲基化图谱识别异常甲基化信号，相对于常用的目标区域捕获测序方法，无需预先利用癌组织或公共数据库进行癌症差异甲基化位点的筛选及后续的血浆cfDNA验证，从而大大简化了甲基化检测的实验和数据分析流程，节约了检测成本。

例如，本发明利用反应条件温和的酶转法进行甲基化测序，相较于重亚硫酸盐转化的方法可以最大程度的减少对DNA分子的损伤。一方面，此方法适用于低起始量cfDNA建库，仅需要10mL血液所提取的cfDNA便可成功建库；另一方面，此方法可保留cfDNA分子的原始片段特征，从而实现对同一份cfDNA文库进行甲基化、片段组学、CNV等多维度特征的整合分析，提高检测的灵敏度和特异性。

再例如，本发明通过直接比较待测样本与健康人基线在全基因组范围的遗传和表观遗传特征的相似性，无需针对各癌种分别进行差异位点的筛选，可以实现同时对多个癌种的检测。

实施例

下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解，下面的实施例仅仅用于说明本发明，而不应视为限定发明的范围。实施例中未注明具体技术或条件的，按照本领域的文献所描述的技术或条件或者按照产品、仪器说明书进行。所有试剂或仪器未注明生产商者，均可以市购。

临床队列样本信息：

本试验回顾性地选取了497例无癌症史的健康人血浆以及795例不同分期的多癌种癌症患者的血浆，并随机分组为训练集和验证集。患者的癌症种类包括了乳腺癌、结直肠癌、食管癌、胃癌、肝癌、肺癌、胰腺癌。训练集包括了352例健康人及559例癌症患者(45例乳腺癌，105例结直肠癌，44例食管癌，79例胃癌，79例肝癌，110例肺癌，83例胰腺癌，14例其他)，其中34.5％为早期(I或II期)。验证集包括145例健康人和236例癌症患者(21例乳腺癌，45例结直肠癌，18例食管癌，35例胃癌，34例肝癌，47例肺癌，36例胰腺癌)，其中31.8％为早期(I或II期)。

一、实验流程：

1.血浆cfDNA提取

1.1每位受试者10mL全血存放在康为EDTA采血管中，通过在4℃以1600g转速离心10min使血浆、血细胞分层。将上层血浆转移至新离心管，再次以12000rpm转速4℃离心15min取上清以去除细胞碎屑。得到约4mL血浆，-80℃冻存备用。

1.2血浆样本融化后，每1mL样本中加入15μL Proteinase K(20mg/mL，thermoscientific cat#EO0492)和50μL SDS(20％)。血浆量不足4mL，用PBS补足。

1.3翻转混匀，60℃孵育20min，然后冰浴5min。

1.4使用MagMAX Cell-Free DNA Isolation试剂盒(thermoscientific cat# A29319)提取cfDNA。

1.5使用Bioanalyzer 2100(Agilent Technologies)检测cfDNA的提取浓度和质量。

2.cfDNA文库构建

使用甲基化文库构建试剂盒NEBNext Enzymatic Methyl-seq Kit(NEB，cat#E7120)，以5-30ng cfDNA起始量，通过TET2酶使5-甲基胞嘧啶(5-mC)转化为5-甲酰胞嘧啶(5-fC)和5-羧基胞嘧啶(5-caC)，并且通过APOBEC酶，使非甲基化胞嘧啶(C)脱氨转化为尿嘧啶(U)，然后进行扩增建库。

具体文库构建过程如下：

2.1内参准备

取50μL CpG全甲基化的pUC19 DNA和50μL CpG全非甲基化的Lamdba DNA混匀后加入100ul打断管中，使用M220打断仪(Covaris)打断。建库时，向待测cfDNA加入0.001ng的pUC19 DNA和0.02ng的lambda DNA.

2.2 cfDNA样本的准备

cfDNA样本起始量为5-30ng，不需要打断。

2.3末端修复

2.3.1在冰上混合以下反应体系；

试剂	体积
cfDNA样本(5-30ng)	50μL
NEBNext Ultra II End Prep Reaction Buffer	7μL
NEBNext Ultra II End Prep Enzyme Mix	3μL

总体积

60μL

2.3.2反应体系置于PCR仪上，按下表进行末端修复反应。

2.4连接Adaptor

2.4.1在冰上操作，将以下组分加入上步的60μL反应体系中

试剂	体积
NEBNext EM-seq Adaptor	2.5μL
NEBNext Ultra II Ligation Master Mix	30μL
NEBNext Ligation Enhancer	1μL
总体积	93.5L

2.4.2 20℃孵育15min。

2.5连接后纯化

2.5.1上一步反应结束后，取出样本，加入110μL NEBNext Sample Purification Beads，立即使用移液器吹打混匀。

2.5.2室温孵育5min。

2.5.3离心管置于磁力架上5min待液体澄清，弃去上清。

2.5.4加入200μL现配80％乙醇，孵育30s后弃去。重复一次200μL 80％乙醇清洗步骤。

2.5.5用10μL移液器吸尽离心管底部的残留乙醇，室温干燥3-5min至乙醇完全挥发。

2.5.6从磁力架取下离心管，加入29μL Elution Buffer(NEB)，震荡混匀。室温孵育1min。

2.5.7短暂离心，离心管置于磁力架上3min待液体澄清，取28μL放进新的PCR管中。

2.6 5-甲基胞嘧啶和5-羟甲基胞嘧啶氧化反应

使用NEBNext Enzymatic Methyl-seq Kit(NEB，cat#E7120)进行以下反应操作。

2.6.1 TET2 Reaction Buffer Supplement干粉加入400μL TET2 Reaction Buffer，充分混合。

2.6.2在冰上将以下组分加入上述28μL已连接adapter的DNA：

试剂	体积
TET2 Reaction Buffer(2.6.1中配制)	10μL
DTT	1μL
Oxidation Supplement	1μL
Oxidation Enhancer	1μL
TET2	4μL
总体积	17μL

2.6.3将500mM Fe(II)溶液按1：1250比例稀释。往上步混匀的产物中，加入已配好的Fe(II)。

试剂	体积
DNA样本	45μL
稀释Fe(II)	5μL
总体积	50μL

充分混合并在37℃孵育1h。

2.6.4反应结束后移至冰上并加入1μL Stop Reagent。

试剂	体积
Stop Reagent	1μL
总体积	51μL

充分混合。

2.6.5 37℃孵育30min。

步骤

温度

时间

终止氧化反应

37℃

30min

2.7氧化后纯化

2.7.1上一步反应结束后，取出样本，加入90μL NEBNext Sample Purification Beads，立即使用移液器吹打混匀。

2.7.2室温孵育5min。

2.7.3离心管置于磁力架上5min待液体澄清，弃去上清。

2.7.4加入200μL现配80％乙醇，孵育30s后弃去。重复一次200μL 80％乙醇清洗步骤。

2.7.5用10μL移液器吸尽离心管底部的残留乙醇，室温干燥3-5min至乙醇完全挥发。

2.7.6从磁力架取下离心管，加入17μL Elution Buffer，震荡混匀。室温孵育1min。

2.7.7短暂离心，离心管置于磁力架上3min待液体澄清，取16μL放进新的PCR管中。

2.8 DNA变性

2.8.1配制新鲜的0.1N NaOH。

2.8.2提前预热PCR仪到50℃。

2.8.3加入4μL 0.1N NaOH到上步16μL纯化产物中，充分混合。

2.8.4 50℃孵育10min。

2.8.5反应结束后立刻放入冰上。

2.9胞嘧啶脱氨基

2.9.1在冰上将下列组分加入上步20μL变性DNA。

充分混合。

2.9.2在PCR仪上37℃孵育3h后转为4℃终止反应。

2.10脱氨后纯化

2.10.1上一步反应结束后，取出样本，加入100μL NEBNext Sample Purification Beads，立即使用移液器吹打混匀。

2.10.2室温孵育5min。

2.10.3离心管置于磁力架上5min待液体澄清，弃去上清。

2.10.4加入200μL现配80％乙醇，孵育30s后弃去。重复一次200μL80％乙醇清洗步骤。

2.10.5用10μL移液器吸尽离心管底部的残留乙醇，室温干燥3-5min至乙醇完全挥发。

2.10.6从磁力架取下离心管，加入21μL Elution Buffer，震荡混匀。室温孵育1min。

2.10.7短暂离心，离心管置于磁力架上3min待液体澄清，取20μL放进新的PCR管中。

2.11文库PCR扩增

2.11.1在冰上将下列组分加入上步脱氨后的20μL DNA。

2.11.2充分混合后在PCR以上进行以下PCR反应。

2.12 PCR后纯化

2.12.1上一步反应结束后，取出样本，加入45μL NEBNext Sample Purification Beads，立即使用移液器吹打混匀。

2.12.2室温孵育5min。

2.12.3离心管置于磁力架上5min待液体澄清，弃去上清。

2.12.4加入200μL现配80％乙醇，孵育30s后弃去。重复一次200μL80％乙醇清洗步骤。

2.12.5用10μL移液器吸尽离心管底部的残留乙醇，室温干燥3-5min至乙醇完全挥发。

2.12.6从磁力架取下离心管，加入21μL Elution Buffer，震荡混匀。室温孵育1min。

2.12.7短暂离心，离心管置于磁力架上3min待液体澄清，取20μL放进新的PCR管中。

2.13文库定量

使用Qubit高灵敏试剂(thermoscientific cat#Q32854)对所构建的文库进行定量，文库产量大于400ng进行后续上机测序。

3.文库测序

取100ng上述文库加入10％PhiX DNA(Illumina cat#FC-110-3001)混合成上机样品，在Novaseq 6000(Illumina)平台进行PE100测序。

二、生信分析流程：

1.处理下机FASTQ数据为各模块可使用的Bam文件

1.1去接头

调用Trimmomatic-0.36将每一对FASTQ文件都作为配对的读段(paired reads)比对到hg19人类参考基因组序列，除M参数与指定Reads Group的ID外，不使用其余参数选项，生成初始bam文件。

1.2比对

调用Bismark-v0.19.0将去接头后的每一对FASTQ文件都作为配对读段比对到hg19人类参考基因组序列和Lambda DNA参考基因组序列，生成初始Bam文件。

1.3去重

调用Bismark-v0.19.0的deduplicate模块，对初始Bam文件进行去重复处理，生成去重后的Bam文件。

1.4排序标记

调用SAMtools-1.3的sort模块，对去重后的Bam文件进行排序，生成排序后的Bam文件。然后，调用Picard-2.1.0的AddOrReplaceReadGroups模块，对排序后的Bam文件进行标记分组。

1.5筛选

调用BamUtil-1.0.14的clipOverlap模块对标记分组后的Bam文件进行筛选，去除重叠的配对读段，生成Bam文件。并调用SAMtools-1.3view对去除重叠的Bam文件的比对质量进行过滤，采用“-q 20”作为参数，生成最终Bam文件。

1.6建立索引

调用SAMtools-1.3的index模块对最终生成的Bam文件建立索引，生成与最终Bam文件配对的bai文件。

2.甲基化密度(methylation density,MD)分析(MD-KNN分析模块)

2.1将人参考基因组按照非重叠滑窗方式划分为1Mb大小的区间(bin)，剔除比对率差的区间后剩余1846个bin，对每个样本，分别计算这1846个bin的所有CpG位点中甲基化位点的比例，该值对应于每个样本的甲基化密度(MD)值，具体公式如下：

MD _n,i＝Total_mC _n,i/Total_C _n,i

2.2对上述2.1中获得的每个样本的1846个MD值进行标准化处理计算z-score，应用R语言的philentropy包计算样本间的欧式距离(distance)，样本的权重选择1/distance。用50轮模拟调整参数K，每轮用80％的训练集样本，计算K在不同取值时，根据50轮里每一轮out-of-bag(OOB)的20％样本的预测结果计算AUC，选择OOB样本AUC最高的K值。

2.3用训练好的KNN(K-Nearest Neighbor，KNN)模型对测试集中的每个待测样本进行健康人或癌症患者的分类预测，获得预测值K。如图2所示，MD-KNN分类器对测试集中的单一癌种的检测ROC曲线面积(AUC)达到0.789-0.870，对全部七个癌种的检测AUC性能达到0.830，显示出良好的癌症检测性能。

3.片段长度系数(fragment size index，FSI)分析(FSI-SVM分析模块)

3.1将人参考基因组按照非重叠滑窗方式划分为5Mb大小的区间(bin)，剔除比对率差的黑名单区间后剩余502个bin，分别计算这502个bin内的短片段(101-167bp)数目和长片段(170-250bp)数目的比例，并用LOESS算法进行GC矫正，得到每个样本的片段长度系数(FSI)。具体计算公式如下：

FSI _n,i＝Total_S _n,i/Total_L _n,i

3.2对每个样本的502个FSI值应用python的sklearn包训练SVM(support vector machine,SVM)模型，使用网格搜索的方式进行超参数的选择，进行10乘交叉验证获得超参数。

3.3对测试集中的每个待测样本进行健康人或癌症患者的分类预测，获得预测值F。如图3所示，FSI-SVM分类器对测试集中的单一癌种的检测ROC曲线面积(AUC)达到0.874-0.933，对全部七个癌种的检测AUC性能达到0.904，显示出良好的癌症检测性能。

4.片段末端基序分析(Motif-SVM分析模块)

4.1计算每个样本的片段5’末端的256种(即四种碱基可能的排列组合，4的4次方)可能的4-mer基序序列的占比。选择占比超过0.0004且在健康人基线中占比最高的125种基序，如下表1所示。

表1

上述基序占比通过以下公式计算：

4.2利用健康人基线和训练集中的所有癌症样本的125种特征基序的占比，应用R语言的caret包训练SVM模型，使用网格搜索的方式进行超参数的选择，进行10乘交叉验证。

4.3对测试集中的每个待测样本进行健康人或癌症患者的分类预测，获得预测值S。如图4所示，Motif-SVM分类器对测试集中的单一癌种的检测ROC曲线面积(AUC)达到0.920-0.966，对全部七个癌种的检测AUC性能达到0.943，显示出良好的癌症检测性能。

5.染色体不稳定性(chromosome instability，CIN)分析(CIN-PAscore 分析模块)

5.1对每个样本，计算每半臂染色体的LOESS算法GC矫正后的读段数。

5.2以训练集中的352例健康人作为基线样本，对待测样本的每半臂染色体读段数对应基线样本的相应半臂染色体读段数的均值和标准差进行z-score转化。

5.3待测样本选择z-score绝对值最大的5条半臂染色体及基线样本对应的半臂染色体的z-score按文献所述方式(Leary et al.,2012 Sci Transl Med，)计算PAscore。具体计算如下。

Z _n,i＝(ARM _n,i-MESN_baseline _i)/SD_baseline _i

PAscore _n＝|logP _n-MEAN_baseline _lo□□|/SD_baseline _logP

5.4如图5所示，CIN-PAscore算法对测试集中单一癌种检测的AUC达到0.770-0.854，对全部七个癌种的检测AUC性能达到0.812。

6.整合模型分类器的构建(SVM-整合分类模块)

6.1将上述所得每个样本的MD-KNN、FSI-SVM、motif-SVM、CIN-PAscore数值(即上述预测值K、F、S和PAscore)作为训练模型中的特征。

6.2应用R语言的caret包训练LinearSVM模型，使用网格搜索的方式进行超参数的选择，进行10乘交叉验证。通过训练好的模型对测试集中的每个样本进行预测，获得样本预测为癌症单一癌变可能性的预测值Z。

6.3如图6所示，本发明的整合模型分类器对测试集中单一癌种检测的AUC达到0.934–0.971，对全部七个癌种的检测AUC达到0.952，性能超过任何单一的遗传或表观遗传特征分类器，展示出了多维度整合分析癌变信息数据相对单一组学的优越性。

6.4如表2所示，本发明的整合模型分类器在95％特异性下对测试集中七个癌种的检测灵敏度均在60％以上，对于早期癌症(I或II期)的检测灵敏度可达75％，展示出了对于各癌种良好的检测性能，并具有极大的潜力应用于癌症早期筛查。

表2.本发明的整个分类模块在95％特异性下对验证集中各癌种及各分期的检测灵敏度。

Claims

一种基于游离DNA的基因组癌变信息检测系统，包括：

文库构建装置，通过利用酶使待测样品中游离DNA(例如血浆中的游离DNA)中的5-甲基胞嘧啶(5-mC)转化为5-甲酰胞嘧啶(5-fC)和5-羧基胞嘧啶(5-caC)，非甲基化胞嘧啶(C)转化为尿嘧啶(U)，用于构建文库；

测序装置，用于对所构建的文库进行测序；和

信息分析装置，其包括以下一个或多个模块：

甲基化分析模块，用于分析游离DNA的甲基化信息，

片段长度系数分析模块，用于分析游离DNA的片段化信息，

末端基序分析模块，用于分析游离DNA的片段化信息，和

染色体不稳定性分析模块，用于分析染色体的拷贝数变异信息。
根据权利要求1所述的系统，其中所述信息分析装置还包括整合分类模块，用于将所述甲基化分析模块、片段长度系数分析模块、末端基序分析模块和/或染色体不稳定性分析模块所获得的信息进行整合。
根据权利要求2所述的系统，其中：

所述甲基化分析模块是MD-KNN分析模块，通过非重叠滑窗方法将人参考基因组化分为区间(例如1Mb大小)，计算每个区间的所有CpG位点中甲基化位点的比例，即甲基化密度MD值，通过KNN模型计算癌变可能性的预测值K；

所述片段长度系数分析模块是FSI-SVM分析模块，通过非重叠滑窗方法将人参考基因组化分为区间(例如5Mb大小)，计算每个区间的短片段(例如101-167bp)和长片段(例如170-250bp)数目的比例，得到每个样本的片段长度系数FSI值，通过SVM模型计算癌变可能性的预测值F；

所述末端基序分析模块是Motif-SVM分析模块，计算样本的片段的5’末端4-mer基序序列的占比，通过SVM模型计算癌变可能性的预测值S；

所述染色体不稳定性分析模块是CIN-PAscore分析模块，计算样本的所有半臂染色体的拷贝数，通过整合与健康人基线样本的对应染色体拷贝数变化最大的五条半臂染色体的z-score，计算PAscore值；

所述整合分类模块是SVM-整合分类模块，将上述预测值K、F、S和PAscore使用线性SVM模型进行整合，得到最终的单一癌变可能性的预测值Z。
根据前述权利要求任一项所述的系统，其中所述文库构建装置包括：

血浆游离DNA提取模块，用于从血浆样品提取其中的游离DNA(cfDNA)；

酶反应模块，使用酶使游离DNA中的5-甲基胞嘧啶(5-mC)转化为5-甲酰胞嘧啶(5-fC)和5-羧基胞嘧啶(5-caC)，非甲基化胞嘧啶(C)转化为尿嘧啶(U)；

PCR反应模块，利用PCR对酶反应后的游离DNA进行扩增。
如前述权利要求任一项所述的系统，其中所述酶是TET2酶和APOBEC酶。
根据权利要求任一项所述的系统，其中所述测序装置选自Illumina Novaseq 6000、Illumina Nextseq500、MGI DNBSEQ-T7或者MGI SEQ-2000。
根据权利要求3所述的系统，其中，所述MD-KNN分析模块中的MD值通过以下公式计算：

MD _n,i＝Total_mC _n,i/Total_C _n,i

其中MD _n,i为样本n的第i个bin的MD值，Total_mC _i为第i个bin内的所有甲基化C的总数，Total_C _n,i为第i个bin内的所有C的总数。
根据权利要求3所述的系统，其中，所述FSI-SVM分析模块中的FSI值通过以下公式计算：

FSI _n,i＝Total_S _n,i/Total_L _n,i

其中FSI _n,i为样本n的第i个bin的FSI值，Total_S _n,i为第i个bin内的短片段数量，Total_L _n,i为第i个bin内的长片段数量。
根据权利要求3所述的系统，其中，所述motif-SVM分析模块中的基序占比通过以下公式计算：

其中Fraction _n,i为样本n的第i种4-mer基序的占比，M _i为第i种4-mer 基序的数量。
根据权利要求3所述的系统，其中，所述CIN-PAscore分析模块中的PAscore通过以下公式计算：

Z _n,i＝(ARM _n,i-MEAN_baseline _i)/SD_baseline _i

其中，Z _n,i为样本n的半臂染色体i相对于基线样本的z-score，ARM _n,i为样本n的半臂染色体i的读段数，MEAN_baseline _i为基线样本的半臂染色体i的读段数的平均值，SD_baseline _i为基线样本的半臂染色体i的读段数的标准差；

取待测样本n的z-score绝对值最大的5个半臂染色体的z-score及基线样本对应的半臂染色体的z-score进行以下分析

其中，logP _n为样本n的5个半臂染色体的z-score在自由度为3的t分布中的P值的对数和的负值；

PAscore _n＝|logP _n-MEAN_baseline _logP|/SD_baseline _logP

其中PAscore _n为样本n的PAscore，MEAN_baseline _logP为基线样本的logP平均值，SD_baseline _logP为基线样本的logP的标准差。
根据权利要求任一项所述的系统，其中所述信息分析装置包括数据预处理模块，将测序装置获得的下机FASTQ数据转换为各模块可使用的Bam文件，并建立索引。
基于游离DNA的基因组癌变信息检测方法，其通过使用以上权利要求1-11任一项的系统进行。
基于游离DNA的基因组癌变信息检测方法，其包括：

文库构建，通过利用酶使待测样品中游离DNA(例如血浆中的游离DNA)中的5-甲基胞嘧啶(5-mC)转化为5-甲酰胞嘧啶(5-fC)和5-羧基胞嘧啶(5-caC)，非甲基化胞嘧啶(C)转化为尿嘧啶(U)，用于构建文库；

全基因组测序，对所构建的文库进行测序；和

测序信息分析，其包括以下一个或多个分析步骤：

甲基化分析，用于分析游离DNA的甲基化信息，

片段长度系数分析，用于分析游离DNA的片段化信息，

末端基序分析，用于分析游离DNA的片段化信息，和

染色体不稳定性分析，用于分析染色体的拷贝数变异信息。
如权利要求13所述的方法，其中，所述测序信息分析还包括整合分类步骤，用于将所述甲基化分析、片段长度系数分析、末端基序分析和/或染色体不稳定性分析所获得的信息进行整合。
如权利要求14所述的方法，其中，

所述甲基化分析包括通过非重叠滑窗方法将人参考基因组化分为区间(例如1Mb大小)，计算每个区间的所有CpG位点中甲基化位点的比例，即甲基化密度MD值，通过KNN模型计算癌变可能性的预测值K；

所述片段长度系数分析包括通过非重叠滑窗方法将人参考基因组化分为区间(例如5Mb大小)，计算每个区间的短片段(例如101-167bp)和长片段(例如170-250bp)数目的比例，得到每个样本的片段长度系数FSI值，通过SVM模型计算癌变可能性的预测值F；

所述末端基序分析包括计算样本的片段的5’末端4-mer基序序列的占比，通过SVM模型计算癌变可能性的预测值S；

所述染色体不稳定性分析包括计算样本的所有半臂染色体的拷贝数，通过整合与健康人基线样本的对应染色体拷贝数变化最大的五条半臂染色体的z-score，计算PAscore值；

所述整合分类包括将上述预测值K、F、S和PAscore使用线性SVM模型进行整合，得到最终的单一癌变可能性的预测值Z。
根据权利要求13-15任一项所述的方法，其中，所述文库构建包括：

从血浆样品提取其中的游离DNA(cfDNA)；

酶反应步骤，使用酶使游离DNA中的5-甲基胞嘧啶(5-mC)转化为5-甲酰胞嘧啶(5-fC)和5-羧基胞嘧啶(5-caC)，非甲基化胞嘧啶(C)转化为尿嘧啶(U)；和

PCR扩增，利用PCR对酶反应后的游离DNA进行扩增。
根据权利要求13-16任一项所述的方法，其中，所述酶是TET2酶和APOBEC酶。
根据权利要求13-17任一项所述的方法，其中，所述测序使用以下进行：Illumina Novaseq 6000、Illumina Nextseq500、MGI DNBSEQ-T7或者MGI SEQ-2000。
根据权利要求15所述的方法，所述MD值通过以下公式计算：

MD _n,i＝Total_mC _n,i/Total_C _n,i

其中MD _n,i为样本n的第i个bin的MD值，Total_mC _i为第i个bin内的所有甲基化C的总数，Total_C _n,i为第i个bin内的所有C的总数；

所述FSI值通过以下公式计算：

FSI _n,i＝Total_S _n,i/Total_L _n,i

其中FSI _n,i为样本n的第i个bin的FSI值，Total_S _n,i为第i个bin内的短片段数量，Total_L _n,i为第i个bin内的长片段数量；

所述基序占比通过以下公式计算：

其中Fraction _n,i为样本n的第i种4-mer基序的占比，M _i为第i种4-mer基序的数量；

所述PAscore通过以下公式计算：

Z _n,i＝(ARM _n,i-MEAN_baseline _i)/SD_baseline _i

其中，Z _n,i为样本n的半臂染色体i相对于基线样本的z-score，ARM _n,i为样本n的半臂染色体i的读段数，MEAN_baseline _i为基线样本的半臂染色体i的读段数的平均值，SD_baseline _i为基线样本的半臂染色体i的读段数的标准差，

取待测样本n的z-score绝对值最大的5个半臂染色体的z-score及基线样本对应的半臂染色体的z-score进行以下分析

其中，logP _n为样本n的5个半臂染色体的z-score在自由度为3的t分布中的P值的对数和的负值，

PAscore _n＝|logP _n-MEAN_baseline _logP|/SD_baseline _logP

其中PAscore _n为样本n的PAscore，MEAN_baseline _logP为基线样本的logP平均值，SD_baseline _logP为基线样本的logP的标准差。
根据权利要求13-19任一项所述的方法，其中所述信息分析还进一步包括数据预处理，将测序装置获得的下机FASTQ数据转换为各模块可使用的Bam文件，并建立索引。