WO2022082436A1

WO2022082436A1 - 确定孕妇的孕期状态的方法

Info

Publication number: WO2022082436A1
Application number: PCT/CN2020/122214
Authority: WO
Inventors: 陈若言; 徐金金; 金鑫
Original assignee: 深圳华大基因股份有限公司
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2022-04-28
Also published as: US20230386607A1; CN116323978A

Abstract

一种构建预测模型的方法，该预测模型用于预测孕妇的孕期状态。方法包括：(1)构建训练集合及可选的测试集合，训练集合和可选的测试集合由多个孕妇样本组成，孕妇样本具有已知的孕期状态；(2)针对训练集合的每一个孕妇样本，确定孕妇样本的预定参数，预定参数包括孕妇样本的差异表达基因信息，差异表达基因信息通过计算孕妇样本外周血的胎儿游离核酸的测序信息获得；以及(3)基于已知的孕期状态和预定参数，构建所述预测模型。

Description

确定孕妇的孕期状态的方法

技术领域

本发明涉及生物技术领域，具体地涉及确定孕妇的孕期状态的方法和装置以及相应的构建机器学习预测模型的方法和装置。

背景技术

人体血浆游离DNA(cfDNA)自1948年被发现以来，迅速在产前诊断领域广泛应用起来，以孕妇血浆cfDNA数据为基础的无创产前诊断逐渐成为胎儿21三体综合征的重要筛查手段之一。但以孕妇血浆cfDNA数据为基础的应用多数集中在针对胎儿多倍体及拷贝数变异的检测上，至今仍未有基于孕妇cfDNA对妊娠期综合征进行检测的有效手段出现。

目前基于孕妇血浆中cfDNA对妊娠期综合征进行检测的方法仍待开发。

发明内容

本申请是基于发明人对以下事实和问题的发现和认识作出的：

迄今为止，临床上多数通过检测胎儿纤维连接蛋白(Fetal Fibronectin)在孕妇阴道分泌情况来预测先兆早产，但该方法仅为一种辅助手段，并不能作为最终诊断依据，目前临床上尚无有效的早产诊断方法。

临床上使用的胎儿纤维连接蛋白分子辅助诊断早产的方法，存在假阳性过高的问题，统计显示，通过胎儿纤维连接蛋白分子诊断为阳性的孕妇中，最终仅有不到3％的样本确诊出现早产情况，假阳性过高的问题使得此诊断方法备受质疑。

多项报道显示孕妇血浆中胎儿cfDNA浓度与早产，先兆子痫等多种孕期并发症存在一定相关性。有研究尝试以胎儿cfDNA浓度为标志物对早产进行预测，但最终因相关性不足而失败，至今尚无利用胎儿cfDNA浓度进行早产预测的有效方法。

此前报道的仅使用孕妇血浆胎儿cfDNA浓度单一因素作为早产预测的方法，存在相关性不足的问题，未能成功建立有效预测模型。

为此，在本发明的第一方面，本发明提出了一种构建预测模型的方法，所述预测模型用于预测孕妇的孕期状态。根据本发明的实施例，所述方法包括：(1)构建训练集合及可选的测试集合，所述训练集合和可选的测试集合由多个孕妇样本组成，所述孕妇样本具有已知的孕期状态；(2)针对所述训练集合的每一个所述孕妇样本，确定所述孕妇样本的预定参数，所述预定参数包括所述孕妇样本外周血中游离核酸的差异表达基因信息，所述差异表达基因信息通过计算所述孕妇样本外周血中游离核酸的测序信息获得；以及(3)基于所述已知的所述孕期状态和所述预定参数，构建所述预测模型。根据本发明实施例的方法利用多个孕妇样本一次采血所获取的游离核酸的差异表达基因信息和孕妇孕期状态(例如，早产、分娩孕周)构建针对孕妇孕期状态的预测模型。根据本发明实施例的方法利用孕妇外周血中游离核酸的差异表达基因进行孕期状态的预测，对于不同的孕期状态，如早产、先兆子痫等均可检测出不同的差异表达基因，可以有针对性地选择相应的差异基因，进而提高了模型预测的准确性，并且只需对孕妇进行一次采血及测序即可构建预测模型，本方法方便、快捷、准确性高。本方法适用于人及其他动物，如小鼠、大鼠、兔子等，便于利用本发明对孕期病症的治病机理、遗传性疾病的治病机理、药物筛选进行科学研究。

在本发明的第二方面，本发明提出了一种构建预测模型的系统，所述预测模型用于确定孕妇的孕期状态。根据本发明的实施例，所述系统包括：训练集合构建模块，所述训练集合和可选的测试集合由多个孕妇样本组成，所述孕妇样本具有已知的孕期状态；预定参数确定模块，所述预定参数确定模块与所述训练集合构建模块相连，针对所述训练集合的每一个所述孕妇样本，确定所述孕妇样本的预定参数，所述预定参数包括所述孕妇样本中游离核酸的差异表达基因信息，所述差异表达基因信息通过计算所述孕妇样本外周血的游离核酸的测序信息获得；以及预测模型构建模块，所述预测模型构建模块与所述预定参数确定模块相连，基于所述已知的所述孕期状态和所述预定参数，构建所述预测模型。根据本发明实施例的系统适于执行前面所述的构建预测模型的方法，利用孕妇外周血中游离核酸的差异表达基因进行孕期状态的预测，对于不同的孕期状态，如早产、先兆子痫等均可检测出不同的差异表达基因，可以有针对性地选择相应的差异基因，进而提高了模型预测的准确性，并且只需对孕妇进行一次采血及测序即可构建预测模型。

在本发明的第三方面，本发明提出了一种确定孕妇的孕期状态的方法。根据本发明的实施例，该方法包括：(1)确定所述孕妇的预定参数，所述预定参数包括所述孕妇的所述早产相关基因的表达预测信息，所述早产相关基因的表达预测信息通过计算所述孕妇外周血中游离核酸的测序信息获得；以及(2)基于所述预定参数和预测模型，所述预测模型是通过在本发明第一方面所提出的方法或在本发明第二方面所提出的系统构建的，确定所述孕妇的孕期状态。根据本发明实施例的方法可以实现对待检测孕妇一次采血即可对孕期状态进行预测，所述孕期状态包括早产概率、胎儿宫内生长迟缓、先兆子痫以及其他与孕妇血浆中游离核酸存在相关性的孕期并发症，本方法简单易行，不会影响孕妇的生活，检测准确，操作简单。方法适用于人及其他动物，如小鼠、大鼠、兔子等，便于利用本发明对孕期病症的治病机理、遗传性疾病的治病机理、药物筛选进行科学研究。

在本发明的第四方面，本发明提出了一种确定孕妇的孕期状态的装置。根据本发明的实施例，该装置包括：参数确定模块，用于确定所述孕妇的预定参数，所述预定参数包括所述孕妇的早产相关基因的表达预测信息，所述早产相关基因的表达预测信息通过计算所述孕妇外周血中游离核酸的测序信息获得；以及孕期状态确定模块，所述孕期状态确定模块与所述参数确定模块相连，基于所述预定参数和预测模型，所述预测模型是通过在本发明的第一方面所提出的方法或在本发明的第二方面所提出的系统构建的，确定所述孕妇的孕期状态。根据本发明实施例的装置适于执行前面所述的确定孕妇的孕期状态的方法，可以实现对待检测孕妇一次采血即可对孕期状态进行预测，所述孕期状态包括早产概率、胎儿宫内生长迟缓、先兆子痫以及其他与孕妇血浆中游离核酸存在相关性的孕期并发症。

在本发明的第五方面，本发明提出了一种计算机可读存储介质，其上存储有计算机程序。根据本发明的实施例，该程序被处理器执行实现前面所述用于构建预测模型的步骤。由此，可以有效地实施前面所述的构建预测模型的方法，从而能够有效地构建预测模型，从而进一步可以利用该预测模型对未知的样本进行预测，以确定针对待检测孕妇的孕期状态。

在本发明的第六方面，本发明提出了一种电子设备，该设备包括前面所述计算机可读存储介质；以及一个或者多个处理器，用于执行所述计算机可读存储介质中的程序。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的构建预测模型的方法的流程示意图；

图2为根据本发明实施例的获得差异表达基因信息的流程示意图；

图3为根据本发明实施例的从原始比对结果中将测序reads末端转换为cfDNA原始片段末端方法示意图；

图4为根据本发明实施例的构建预测模型的系统的示意图；

图5为根据本发明实施例的预定参数确定模块的示意图；

图6为根据本发明实施例的确定孕妇的孕期状态的方法的流程示意图；

图7为根据本发明实施例的确定孕妇的孕期状态的装置示意图；

图8为根据本发明实施例的早产预测模型训练集及测试集样本筛选流程；

图9为根据本发明实施例的PCA训练模型对测试数据集中早产及足月样本分类结果示意图。

发明详细描述

下面详细描述本发明的实施例，所述实施例的示例在附图中示出。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

术语解释

如无特别说明，在本文中所使用的“第一”、“第二”、“第三”等类似术语均为用于描述方便而进行区分的目的，并不以任何目的暗示或者明示互相之间存在顺序或者重要性等差异，同时并不意味着由“第一”、“第二”、“第三”等类似术语所限定的内容仅有一种成分构成。

在本发明的第一方面，本发明提出了本发明提出了一种构建预测模型的方法，所述预测模型用于预测孕妇的孕期状态。根据本发明的实施例，参考图1，所述方法包括：S100，构建训练集合及可选的测试集合，所述训练集合和可选的测试集合由多个孕妇样本组成，所述孕妇样本具有已知的孕期状态；S200，针对所述训练集合的每一个所述孕妇样本，确定所述孕妇样本的预定参数，所述预定参数包括所述孕妇样本外周血中游离核酸的差异表达基因信息，所述差异表达基因信息通过计算所述孕妇样本外周血中游离核酸的测序信息获得；以及S300，基于所述已知的所述孕期状态和所述预定参数，构建所述预测模型。根据本发明的具体实施例，该方法为利用多个孕妇样本一次采血所获取的游离核酸的差异表达基因信息和孕妇孕期状态(例如，早产、分娩孕周)构建针对孕妇孕期状态的预测模型。选择已知孕期状态的孕妇(如早产或者足月生产)作为训练集合或者验证集合，所述训练集合用于模型的构建、相关系数的调整，所述验证集合用于模型准确性的验证，将所需孕妇样本的预定参数输入至模型中，得到预测结果，将预测结果与测试集合中对应孕妇样本的孕期状态比对，以便验证模型的准确性。在孕期内，抽取孕妇样本的外周血，以便获得孕妇样本外周血中游离核酸，对游离核酸进行测序得到游离核酸的序列信息，再对游离核酸的序列信息进行计算及比对，得到足月产妇与早产产妇血浆中游离核酸差异表达基因的信息，依据此信息进行模型构建。需要注意的是，在本发明的实施例中采用抽取孕妇外周血的方式获取孕妇血浆中游离核酸，对孕妇的创伤小，也可以采取其他方式获取孕妇血浆中游离核酸，孕妇血浆中的游离核酸可以为DNA，也可以为RNA，孕妇血浆中的游离核酸包括孕妇自己的游离核酸，也包括胎儿游离核酸，需要注意的是，胎儿游离核酸浓度也可以作为预定参数用于构建预测模型。

根据本发明的实施例，所述孕期状态包括所述孕妇的分娩区间。根据本发明实施例的方法，所述分娩区间不大于正常孕期则为早产，此外，所述方法也可应用于孕期肿瘤、先兆子痫等其他与核酸表达相关的孕期并发症。

根据本发明的实施例，所述孕妇样本包括早产孕妇样本和足月孕妇样本。根据本发明实施例的方法，分别选择多个早产孕妇样本及足月孕妇样本作为训练集和测试集，以便分别根据早产孕妇样本及足月孕妇样本血浆中游离核酸的差异表达基因构建早产预测模型。针对不同的预测类型，游离核酸差异表达基因也不相同；针对不同的样本数量，游离核酸差异表达基因也会有所差异。对于其他类型的预测，如孕期肿瘤、先兆子痫等，则选择对应的先兆子痫孕妇或具有孕期肿瘤的孕妇及正常孕妇作为样本，获取他们的游离核酸差异表达基因，构建相应的预测模型。在孕妇样本的选择上，扩大样本量有助于获得更加准确地差异表达基因，从而构建更加准确的预测模型。

根据本发明的实施例，所述取样孕周为15～22周。发明人发现，采血孕周在15到22周时孕妇血浆中游离核酸的差异表达基因与早产的相关性较强，不同的孕妇样本只需在孕期15～22周内采血一次，即可成为模型构建样本，避免了样本采集过程此种反复采血为孕妇样本带来的风险及成本。针对不同的采样孕周，所获得的游离核酸差异表达基因不同，对于不同类型的预测，所采用的最佳采血孕周也不相同。

根据本发明的实施例，所述预测模型为主成分分析和随机森林至少之一。根据本发明实施例的方法，预测模型为主成分分析或者随机森林。预测模型不局限于主成分分析模型和随机森林预测模型，任何可以对不同差异分布进行归纳的统计模型均可适用。

根据本发明实施例的方法，参考图2，所述差异表达基因信息通过以下步骤获得：S210，利用所述孕妇样本外周血中游离核酸在基因转录起始位点的测序读段覆盖深度预测全基因组范围内的基因表达情况；S220，针对每个所述基因转录起始位点的附近区，将所述早产孕妇样本和所述足月孕妇样本中每个碱基位点上所述游离核酸的覆盖深度进行显著性检测；和S230，利用所述显著性检测，选择显著性差异表达的基因作为早产相关基因，即选择p＜0.05/(基因总数)的基因作为早产相关基因，以便构建测序模型。根据本发明的实施例，即：某基因的p值小于0.05除以基因总数的商，则该基因被判定为差异表达基因；p值的标准也可以为0.01除以基因总数的商，即：某基因的p值小于0.01除以基因总数的商，则该基因被判定为差异表达基因。根据本发明的实施例，差异表达基因与孕妇样本数量、测序深度、预测类型(即预测目的)有关，不同的孕妇样本数量、不同的测序深度、不同的生理状态、不同的检测目的都会影响差异表达基因。差异表达基因的选择主要以构建模型时的测序结果及检测目的为依据进行选择，可以为一个基因，也可以为多个基因的组合。

根据本发明的具体实施例，针对每个样本，在全基因组范围内的每个基因的转录起始位点(TSSs)区附近，在每一个碱基位点上分别将比对至正链和负链的reads的末端数目对应转换为cfDNA原始片段末端数目，参考附图3。转换之后每个碱基位点上对应覆盖到的cfDNA片段末端总和即为该位点的reads起始数量(reads start count，RSC)。针对每个基因的TSS附近区，将早产即及足月样本每个碱基位点上的RSC值进行显著性检测(一般统计监测方法如秩和检测或T检测等均可)，挑选显著性差异(p<0.05/基因总数)基因作为早产相关基因，用于后续预测模型的构建。除计算RSC值以外，也可使用其他计算方法来达到预测核小体分布的目的，进而利用孕妇血浆中游离核酸对应的核小体分布信息确定差异表达基因。如窗口保护值(windowed protection score，WPS)和相对覆盖度(relative coverage)两种方法：(1)窗口保护值：在全基因组范围内，设置一个kbp长的滑动窗口(对于100bp的双端测序reads，k＝120)，在每个滑动窗口内，WPS＝(完整覆盖住此窗口的DNA片段个数–有一端在窗口内的reads个数)，在确定出每个位点上WPS值的基础上，选取峰值位置(peak calls)，即为预测所得核小体中心位置；(2)相对覆盖度：对于双端测序的cfDNA数据，可以直接通过将每一对配对的测序reads中间部分补齐的方式，来计算基因组上每个位点原始cfDNA片段的覆盖深度，即relative coverage，并最终将relative coverage与基因表达情况对应，从而对基因表达相关表型进行分析。

根据本发明的实施例，所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各100～1000个碱基范围内。根据本发明的实施例，所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各100,110,120,130,140,150,160,170,180,190,200,210,220,230,240,250,260,270,280,290,300,310,320,330,340,350,360,370,380,390,400,410,420,430,440,450,460,470,480,490,500,510,520,530,540,550,560,570,580,590,600,610,620,630,640,650,660,670,680,690,700,710,720,730,740,750,760,770,780,790,800,810,820,830,840,850,860,870,880,890,900,910,920,930,940,950,960,970,980,990,1000个碱基范围内。

根据本发明的实施例，所述S300进一步包括：S310，将所述训练集合和可选的验证集合中的所述孕妇样本数量、所述孕妇样本的孕期状态、所述早产相关基因数量、所述附近区的片段长度和所述早产相关基因转录起始位点附近区每个碱基位点上的所述游离核酸的覆盖深度作为输入构建预测模型。

根据本发明的具体实施例，以孕妇血浆中游离核酸(cfDNA)测序数据为基础构建早产预测模型，具体步骤如下：(1)前期数据处理：所有用于模型训练及预测和验证的样本的原始下机数据(fq格式)完成质控后使用比对软件(如BWA中samse模式)将测序数据比对至人类参考染色体上；使用测序数据质控软件(如Picard)去除比对结果中的重复reads并计算重复率，使用变异检测算法(如GATK中碱基质量值纠正BQSR功能)完成比对结果的局部矫正：(2)单个样本TSSs区reads起始数量计算：针对每个样本，全基因组每个基因的转录起始位点(TSSs)区附近(以TSS上下游100bp，400bp，600bp，1kb等范围作为TSS附近区域均可)，每一个碱基位点上分别将比对至正链和负链的reads的末端数目对应转换为cfDNA原始片段末端数目。转换之后每个碱基位点上对应覆盖到的cfDNA片段末端总和即为该位点的reads起始数量(reads start count，RSC)；(3)挑选早产相关基因：针对每个基因的TSS附近区，将早产及足月样本每个碱基位点上的RSC值进行显著性检测(一般统计监测方法如秩和检测或T检测等均可)，挑选显著性差异(p<0.05/基因总数)基因作为早产相关基因，用于后续预测模型的构建；(4)以TSSs区RSC值数据作为输入矩阵，建立早产预测模型：将用于模型训练的样本对应在(3)中所得早产相关基因TSSs区不同碱基位点上的RSC结果矩阵作为输入建立预测模型，即以n个样本对应m个早产相关基因的TSS上下游1kb区域上每个碱基位点计算RSC，则得到n×(m×2000)的RSC矩阵，利用R等统计软件进行主成分分析(Principal component analysis，PCA)或随机森林(Random Forest)等预测模型的训练，最终得到的结果即为预测模型。

根据本发明的实施例，所述早产相关基因包括选自表1所示基因至少之一。

表1：早产相关基因

根据本发明的实施例，早产相关基因与孕妇样本数量、测序深度有关，在利用不同数量的孕妇样本进行预测模型构建时，早产相关基因的种类和数量会有变化。

在本发明的第二方面，本发明提出了一种构建预测模型的系统，所述预测模型用于确定孕妇的孕期状态。根据本发明的实施例，参考图4，所述系统包括：训练集合构建模块100，所述训练集合和可选的测试集合由多个孕妇样本组成，所述孕妇样本具有已知的孕期状态；预定参数确定模块200，所述预定参数确定模块200与所述训练集合构建模块相连100，针对所述训练集合的每一个所述孕妇样本，确定所述孕妇样本的预定参数，所述预定参数包括所述孕妇样本血浆中游离核酸的差异表达基因信息，所述差异表达基因信息通过计算所述孕妇样本外周血中游离核酸的测序信息获得；以及预测模型构建模块300，所述预测模型构建模块300与所述预定参数确定模块200相连，基于所述已知的所述孕期状态和所述预定参数，构建所述预测模型。根据本发明的具体实施例，该系统适于执行上述构建预测模型的方法，其部分附加技术特征和技术效果与前面相同，在此不再赘述。

根据本发明的实施例，参考图5，所述预定参数确定模块进一步包括：基因表达情况确定单元210，利用所述孕妇样本外周血中游离核酸在基因转录起始位点的测序读段覆盖深度预测全基因组范围内的基因表达情况；基因表达差异显著性检测单元220，所述基因表达差异显著性检测单元220与所述基因表达情况确定单元210相连，针对每个所述基因转录起始位点的附近区，将所述早产孕妇样本和所述足月孕妇样本每个碱基位点上所述游离核酸的覆盖深度进行显著性检测；和早产相关基因选择单元230，所述早产相关基因选择单元230与所述基因表达差异显著性检测单元220相连，利用所述显著性检测，选择显著性差异的基因作为早产相关基因，即选择p＜0.05/(基因总数)的基因作为早产相关基因，以便构建测序模型。根据本发明的实施例，某基因的p值小于0.05除以基因总数的商，则该基因被判定为差异表达基因；p值的标准也可以为0.01除以基因总数的商，即：某基因的p值小于0.01除以基因总数的商，则该基因被判定为差异表达基因。根据本发明的实施例，差异表达基因与孕妇样本数量、测序深度、预测类型(即预测目的)有关，不同的孕妇样本数量、不同的测序深度、不同的生理状态、不同的检测目的都会影响差异表达基因。差异表达基因的选择主要以构建模型时的测序结果及检测目的为依据进行选择，可以为一个基因，也可以为多个基因的组合。

根据本发明的实施例，所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各100～1000个碱基范围内。

根据本发明的实施例，所述预测模型构建模块300进一步包括：数据输入单元310，将所述训练集合和可选的验证集合中的所述孕妇样本数量、所述孕妇样本的孕期状态、所述早产相关基因数量、所述附近区的片段长度和所述早产相关基因转录起始位点附近区每个碱基位点上的所述游离核酸的覆盖深度作为输入构建预测模型。

在本发明的第三方面，本发明提出了一种确定孕妇的孕期状态的方法。根据本发明的实施例，参考图6，该方法包括：S1000，确定所述孕妇的预定参数，所述预定参数包括所述孕妇的所述早产相关基因的表达预测信息，所述早产相关基因的表达预测信息通过计算所述孕妇外周血中游离核酸的测序信息获得；以及S2000，基于所述预定参数和预测模型，确定所述孕妇的孕期状态，所述预测模型是通过本发明第一方面所提出的方法或本发明第二方面所提出的系统构建的。根据本发明实施例的方法，提取待检测孕妇血浆中的游离核酸并进行测序，依据在构建预测模型时得到的早产相关基因，对待测孕妇血浆中游离核酸的序列进行分析，得到早产相关基因的表达预测信息，将早产相关的表达信息输入预测模型中，即可预测孕妇是否会发生早产。对于其他类型的预测，如孕期肿瘤、先兆子痫等则使用对应的预测模型及预测模型相关基因进行预测。

根据本发明的实施例，所述取样孕周为15～22周。发明人发现，采血孕周在15到22周时孕妇血浆中游离核酸的差异表达基因与早产的相关性较强，待检测孕妇只需在孕期15～22周内采血一次，即可完成早产预测，避免了样本采集过程此种反复采血为孕妇样本带来的风险及成本。针对不同的采样孕周，所获得的游离核酸差异表达基因不同，对于不同类型的预测，所采用的最佳采血孕周也不相同。

根据本发明的实施例，所述步骤S2000进一步包括：S2100，针对每个待测孕妇样本，将所述早产相关基因数量、所述附近区的片段长度和所述早产相关基因转录起始位点附近区每个碱基位点上的所述游离核酸的覆盖深度输入至所述预测模型中，以便获得预测结果。

根据本发明的具体实施例，取待检测孕妇的游离核酸测序数据，针对每个核酸样本，均在早产相关基因的TSS区域内计算RSC值，将每个核酸样本的(m×2000)个RSC值作为输入，利用预测模型进行预测，将所得每个核酸样本的位置坐标(即RSC矩阵)对应至早产及足月区域，预测待测孕妇样本是否出现早产。

根据所述早产相关基因包括选自表1所示基因至少之一。

根据本发明的实施例，在构建预测模型时，早产相关基因与孕妇样本数量、测序深度有关，在利用不同数量的孕妇样本进行预测模型构建时，早产相关基因的种类和数量会有变化。在对待测孕妇进行检测时，以构建预测模型时得到的早产相关基因为依据进行预测。

在本发明的第四方面，本发明提出了一种确定孕妇的孕期状态的装置。根据本发明的实施例，参考图7，该装置包括：预定参数确定模块1000，用于确定所述孕妇的预定参数，所述预定参数包括所述孕妇的早产相关基因的表达预测信息，所述早产相关基因的表达预测信息通过计算所述孕妇外周血中游离核酸的测序信息获得；以及孕期状态确定模块2000，所述孕期状态确定模块2000与所述预定参数确定模块1000相连，基于所述预定参数和预测模型，确定所述孕妇的孕期状态，所述预测模型是通过本发明第一方面所提出的方法或本发明第二方面所提出的系统构建的。根据本发明实施例的装置适于执行上述确定孕妇的孕期状态的方法，其部分附加技术特征和技术效果与前面相同，在此不再赘述。

根据本发明的实施例，所述参数确定模块进一步包括：早产相关基因表达信息确定单元1100，利用所述孕妇外周血中游离核酸在基因转录起始位点的测序读段覆盖深度预测早产相关基因表达情况，所述早产相关基因是通过本发明第一方面所提出的方法或本发明第二方面所提出的系统确定的。

根据本发明的实施例，所述孕期状态确定模块进一步包括：数据输入单元2100，针对每个待测孕妇样本，将所述早产相关基因数量、所述附近区的片段长度和所述早产相关基因转录起始位点附近区每个碱基位点上的所述游离核酸的覆盖深度输入至所述预测模型中，以便获得预测结果。

下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解，下面的实施例仅用于说明本发明，而不应视为限定本发明的范围。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品，例如可以采购自Illumina公司。

实施例

(1)从141432个无创产前诊断(NIPT)样本中，经过筛选，有临床信息且单胎样品共有73090例，其中早产有3358例。限定数据采血孕周在15-22孕周间，有2707例早产数据，将数据分为训练集数据1959例早产对应1959例足月，剩余360例早产，随时抽选7200例足月构成测试集数据。由此，最终确定用于早产预测模型训练数据集合共1959个早产样本及1959个足月样本，测试数据集合共360个早产样本及7200个足月样本，样本筛选流程参考附图8。

最终得到的训练集合及测试集合样本情况如表2所示。

表2：早产预测训练集及测试集样本情况汇总

(2)为保证核小体分布信号的准确性，本实施例将训练集及测试集中每10人随机聚合为一个数据点，最终从～0.1x的孕妇血浆cfDNA全基因组测序数据转换为～1x的cfDNA全基因组测序数据。为消除聚合带来的误差，此步骤随机重复20次，后续显著性差异基因挑选及预测模型的构建均以随机重复20次的数据集为基础平行进行。

(3)计算出上述训练集中早产及足月样本在全部基因TSSs区附近的RSC值，将早产及足月样本的RSC值进行秩和检测(Wilcox rank sum test)，本实施例此步骤使用R统计软件wilcox检测包完成。最终从全部基因中选取差异性显著的基因作为后续模型训练的输入。此处考虑到重复检验的随机误差，全部38074个基因的显著差异挑选标准为

最终得到不同TSSs附近区(此处选取TSS上下游400bp作为TSS附近区)在早产及足月样本中RSC分布存在显著性差异的基因共计207个，207个基因每一轮次的秩和检验值如表3所示，20轮次交叉验证方法下每个基因在独立的20轮次分析中每一轮次TSS上下游400bp早产组和足月组两组间秩和检验后所得P-value值，如一个基因有超过60％(12/20)轮次的P-value低于阈值1.31e10 ^-6,即认为该基因是早产相关基因；基因所在的染色体编号、起始位置和终止位置如表1所示。

表3：207个基因每一轮次的秩和检验值

(4)在步骤(3)挑选出的显著性差异基因TSS附近区，将(2)中20轮聚合所得训练集样本即1959例早产样品数据以及1959例足月样品数据对应的RSC值矩阵分别作为输入数据，进行PCA及随机森林模型的训练，本实施例使用R统计软件中PCA及随机森林测试包完成模型的训练。将所得训练模型保存，用于最终早产的预测。

(5)将(2)所得测试集在步骤(3)所挑选出的显著性差异基因TSS区的RSC值作为输入，构成如表4的矩阵第一行是207个基因的名称，第二行至第N行代表早产组(case组)以及足月组(control组)每个样品对应基因TSS区域的RSC值。代入(4)中所构建的训练模型中，完成早产的预测，并与实际样本情况比较，得到预测模型准确性分别参见附图9(PCA模型预测结果)及表5(随机森林预测结果)，通过图9可知，20轮次随机森林预测后PCA分组图中可见目前挑选的基因可以把两组很明显的分开。

表4：随机森林预测输入矩阵格式

Phe	ESPN	H6PD	ALPL	…	…	MIR514A1	FAM50A	LOC100507404
Case1	ESPN_RSC	H6PD_RSC	ALPL_RSC	…	…	MIR514A2_RSC	FAM51A_RSC	LOC100507405_RSC
…	ESPN_RSC	H7PD_RSC	ALPL_RSC	…	…	MIR514A2_RSC	FAM51A_RSC	LOC100507406_RSC
CaseN	ESPN_RSC	H8PD_RSC	ALPL_RSC	…	…	MIR514A2_RSC	FAM51A_RSC	LOC100507407_RSC
Control1	ESPN_RSC	H9PD_RSC	ALPL_RSC	…	…	MIR514A2_RSC	FAM51A_RSC	LOC100507408_RSC
…	ESPN_RSC	H10PD_RSC	ALPL_RSC	…	…	MIR514A2_RSC	FAM51A_RSC	LOC100507409_RSC
CntrolN	ESPN_RSC	H11PD_RSC	ALPL_RSC	…	…	MIR514A2_RSC	FAM51A_RSC	LOC100507410_RSC

表5：测试组中预测早产准确性汇总

注：1.mtry为R中随机森林软件包中的参数，用于指定节点中用于二叉树的变量个数。

2.ntree为R中随机森林软件包中的参数，指定随机森林所包含的决策树数目。

调整随机森林函数参数(mtry和ntree),在测试组中预测早产准确性汇总，例如第一轮测试中，当mtry为140，ntree为700时候，预测早产与真实早产一致性为92％，当mtry为200，ntree为700时，预测早产与真实早产一致性为94％，当mtry为140，ntree为500时候，预测早产与真实早产一致性为92％，每一轮次以此类推，综合20轮次预测准确度来看，当参数设置mtry为200，ntree为700预测效果最好，平均为91％。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

一种构建预测模型的方法，所述预测模型用于预测孕妇的孕期状态，其特征在于，包括：

(1)构建训练集合及可选的测试集合，所述训练集合和可选的测试集合由多个孕妇样本组成，所述孕妇样本具有已知的孕期状态；

(2)针对所述训练集合的每一个所述孕妇样本，确定所述孕妇样本的预定参数，所述预定参数包括所述孕妇样本外周血中游离核酸的差异表达基因信息，所述差异表达基因信息通过计算所述孕妇样本外周血中游离核酸的测序信息获得；以及

(3)基于所述已知的所述孕期状态和所述预定参数，构建所述预测模型。
根据权利要求1所述的方法，其特征在于，所述孕期状态包括所述孕妇的分娩区间。
根据权利要求1所述的方法，其特征在于，所述孕妇样本包括早产孕妇样本和足月孕妇样本。
根据权利要求1所述的方法，其特征在于，取样孕周为15～22周。
根据权利要求1所述的方法，其特征在于，所述预测模型包括选自主成分分析和随机森林至少之一。
根据权利要求1所述的方法，其特征在于，所述差异表达基因信息通过以下步骤获得：

(a)利用所述孕妇样本外周血中游离核酸在基因转录起始位点的测序读段覆盖深度预测全基因组范围内的基因表达情况；

(b)针对每个所述基因转录起始位点的附近区，将所述早产孕妇样本和所述足月孕妇样本中每个碱基位点上所述游离核酸的覆盖深度进行显著性检测；和

(c)利用所述显著性检测，选择显著性差异表达的基因作为早产相关基因，以便构建测序模型；

任选地，所述显著性差异表达的基因是指p＜0.05/(基因总数)的基因。
根据权利要求6所述的方法，其特征在于，所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各100～1000个碱基范围内；

任选地，所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各100个碱基；

任选地，所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各400个碱基；

任选地，所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各600个碱基；

任选地，所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各1000个碱基。
根据权利要求1所述的方法，其特征在于，所述步骤(3)进一步包括：

将所述训练集合和可选的验证集合中的所述孕妇样本数量、所述孕妇样本的孕期状态、所述早产相关基因数量、所述附近区的片段长度和所述早产相关基因转录起始位点附近区每个碱基位点上的所述游离核酸的覆盖深度作为输入构建预测模型。
根据权利要求1所述的方法，其特征在于，所述早产相关基因包括选自表1所示基因至少之一。
一种构建预测模型的系统，其特征在于，所述预测模型用于确定孕妇的孕期状态，包括：

训练集合构建模块，所述训练集合和可选的测试集合由多个孕妇样本组成，所述孕妇样本具有已知的孕期状态；

预定参数确定模块，所述预定参数确定模块与所述训练集合构建模块相连，针对所述训练集合的每一个所述孕妇样本，确定所述孕妇样本的预定参数，所述预定参数包括所述孕妇样本血浆中游离核酸的差异表达基因信息，所述差异表达基因信息通过计算所述孕妇样本外周血中游离核酸的测序信息获得；以及

预测模型构建模块，所述预测模型构建模块与所述预定参数确定模块相连，基于所述已知的所述孕期状态和所述预定参数，构建所述预测模型。
根据权利要求10所述的系统，其特征在于，所述孕期状态包括所述孕妇的分娩区间。
根据权利要求10所述的系统，其特征在于，所述孕妇样本包括早产孕妇样本和足月孕妇样本。
根据权利要求10所述的系统，其特征在于，取样孕周为15～22周。
根据权利要求10所述的系统，其特征在于，所述预测模型为主成分分析和随机森林至少之一。
根据权利要求10所述的系统，其特征在于，所述预定参数确定模块进一步包括：

基因表达情况确定单元，利用所述孕妇样本外周血中游离核酸在基因转录起始位点的测序读段覆盖深度预测全基因组范围内的基因表达情况；

基因表达差异显著性检测单元，所述基因表达差异显著性检测单元与所述基因表达情况确定单元相连，针对每个所述基因转录起始位点的附近区，将所述早产孕妇样本和所述足月孕妇样本每个碱基位点上所述游离核酸的覆盖深度进行显著性检测；和

早产相关基因选择单元，所述早产相关基因选择单元与所述基因表达差异显著性检测单元相连，利用所述显著性检测，选择显著性差异的基因作为早产相关基因，以便构建测序模型；

任选地，所述显著性差异表达的基因是指p＜0.05/(基因总数)的基因。
根据权利要求15所述的系统，其特征在于，所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各100～1000个碱基范围内；

任选地，所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各100个碱基；

任选地，所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各400个碱基；

任选地，所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各600个碱基；

任选地，所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各1000个碱基。
根据权利要求10所述的系统，其特征在于，所述预测模型构建模块进一步包括：

数据输入单元，将所述训练集合和可选的验证集合中的所述孕妇样本数量、所述孕妇样本的孕期状态、所述早产相关基因数量、所述附近区的片段长度和所述早产相关基因转录起始位点附近区每个碱基位点上的所述游离核酸的覆盖深度作为输入构建预测模型。
根据权利要求15所述的系统，其特征在于，所述早产相关基因包括选自表1所示基因至少之一。
一种确定孕妇的孕期状态的方法，其特征在于，包括：

(A)确定所述孕妇的预定参数，所述预定参数包括所述孕妇的所述早产相关基因的表达预测信息，所述早产相关基因的表达预测信息通过计算所述孕妇外周血中游离核酸的测序信息获得；以及

(B)基于所述预定参数和预测模型，确定所述孕妇的孕期状态，所述预测模型是通过权利要求1～9任一项所述的方法或权利要求10～18任一项所述的系统构建的。
根据权利要求19所述的方法，其特征在于，所述孕期状态包括所述孕妇的分娩区间。
根据权利要求19所述的方法，其特征在于，取样孕周为15～22周。
根据权利要求19所述的方法，其特征在于，所述预测模型为主成分分析和随机森林至少之一。
根据权利要求19所述的方法，其特征在于，所述早产相关基因的表达预测信息通过以下方法获得：

利用所述孕妇外周血中游离核酸在基因转录起始位点的测序读段覆盖深度预测早产相关基因表达情况，所述早产相关基因是通过权利要求1～9任一项所述的方法或权利要求10～18任一项所述的系统确定的。
根据权利要求19所述的方法，其特征在于，所述步骤(B)进一步包括：

针对每个待测孕妇样本，将所述早产相关基因数量、所述附近区的片段长度和所述早产相关基因转录起始位点附近区每个碱基位点上的所述游离核酸的覆盖深度输入至所述预测模型中，以便获得预测结果。
根据权利要求23所述的方法，其特征在于，所述早产相关基因包括选自表1所示基因至少之一。
一种确定孕妇的孕期状态的装置，其特征在于，包括：

参数确定模块，用于确定所述孕妇的预定参数，所述预定参数包括所述孕妇的早产相关基因的表达预测信息，所述早产相关基因的表达预测信息通过计算所述孕妇外周血中游离核酸的测序信息获得；以及

孕期状态确定模块，所述孕期状态确定模块与所述参数确定模块相连，基于所述预定参数和预测模型，确定所述孕妇的孕期状态，所述预测模型是通过权利要求1～9任一项所述的方法或权利要求10～18任一项所述的系统构建的。
根据权利要求26所述的装置，其特征在于，所述孕期状态包括所述孕妇的分娩区间。
根据权利要求26所述的装置，其特征在于，取样孕周为15～22周。
根据权利要求26所述的装置，其特征在于，所述预测模型为主成分分析和随机森林至少之一。
根据权利要求26所述的装置，其特征在于，所述参数确定模块进一步包括：

早产相关基因表达信息确定单元，利用所述孕妇外周血中游离核酸在基因转录起始位点的测序读段覆盖深度预测早产相关基因表达情况，所述早产相关基因是通过权利要求1～9任一项所述的方法或权利要求10～18任一项所述的系统确定的。
根据权利要求26所述的装置，其特征在于，所述孕期状态确定模块进一步包括：

数据输入单元，针对每个待测孕妇样本，将所述早产相关基因数量、所述附近区的片段长度和所述早产相关基因转录起始位点附近区每个碱基位点上的所述游离核酸的覆盖深度输入至所述预测模型中，以便获得预测结果。
根据权利要求30所述的装置，其特征在于，所述早产相关基因包括选自表1所示基因至少之一。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1～9或权利要求19～25中任一项所述方法的步骤。
一种电子设备，其特征在于，包括：

权利要求33中所述的计算机可读存储介质；以及

一个或者多个处理器，用于执行所述计算机可读存储介质中的程序。