WO2020124584A1

WO2020124584A1 - 患病风险预测方法、电子设备及存储介质

Info

Publication number: WO2020124584A1
Application number: PCT/CN2018/122786
Authority: WO
Inventors: 牛钢; 范彦辉; 王坤; 杨梅; 张春明; 谭光明; 冯震东
Original assignee: 北京哲源科技有限责任公司
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2020-06-25
Also published as: US20220068491A1; CN111670476B; CN111670476A

Abstract

本申请公开患病风险预测方法、电子设备及存储介质，所述方法包括：获得被检测对象的属于预定基因组的突变基因对于若干条预定信号通路的活性改变的驱动力信息；获得第一及第二参考对象组中的每个参考对象的属于所述预定基因组的突变基因对于所述若干条预定信号通路的活性改变的驱动力信息；其中，所述第一参考对象组中的各参考对象属于健康类对象，所述第二参考对象组中的各参考对象属于患特定疾病类对象；依据所述被检测对象的突变基因对于若干条预定信号通路的活性改变的驱动力信息及所述第一及第二参考对象组中的每个参考对象的突变基因对于所述若干条预定信号通路的活性改变的驱动力信息，对所述被检测对象、第一及第二参考对象组中的各参考对象进行第一聚类；以及依据进行所述第一聚类后获得的第一聚类结果输出所述被检测对象患所述特定疾病的风险。

Description

患病风险预测方法、电子设备及存储介质

技术领域

本申请涉及生物技术，尤其涉及患病风险预测方法、电子设备及存储介质。

背景技术

乳腺癌为全球范围内侵害女性健康的最主要威胁之一，全球每年约有130万新增乳腺癌病例及约50万死亡病例。以2015年中国及2018年美国的统计数据为例，两国乳腺癌发病率排名女性所有部位癌症首位，死亡率分别排第五、第二位，截至统计时间总存活患者总数均超过26万。平均而言，每位女性一生中约有12％的几率罹患乳腺癌。而及早预防、及早发现、及早治疗在多项回顾性研究中证明对乳腺癌患者的预后有显著的提升，特别是发病早、预后差、机制不明的三阴性乳腺癌。

随着生物学技术的发展，人们发现，在肿瘤发展过程中，信号通路控制着众多至关重要的细胞生物学过程。

技术问题

本申请旨在提供一种基于信号通路信息预测患病风险的方案。

技术解决方案

本申请一方面提供患病风险预测方法，由电子设备执行，包括：

获得被检测对象的属于预定基因组的突变基因对于若干条预定信号通路的活性改变的驱动力信息；

获得第一及第二参考对象组中的每个参考对象的属于所述预定基因组的突变基因对于所述若干条预定信号通路的活性改变的驱动力信息；其中，所述第一参考对象组中的各参考对象属于健康类对象，所述第二参考对象组中的各参考对象属于患特定疾病类对象；

依据所述被检测对象的突变基因对于若干条预定信号通路的活性改变的驱动力信息及所述第一及第二参考对象组中的每个参考对象的突变基因对于所述若干条预定信号通路的活性改变的驱动力信息，对所述被检测对象、第一及第二参考对象组中的各参考对象进行第一聚类；以及

依据进行所述第一聚类后获得的第一聚类结果输出所述被检测对象患所述特定疾病的风险。

本申请另一方面提供一种电子装置，包括：存储器、处理器以及存储在存储器中的程序，所述程序被配置成由处理器执行，所述处理器执行所述程序时实现：

如前所述的患病风险预测方法。

本申请再一方面提供一种存储介质，所述存储介质存储有计算机程序，其中，所述计算机程序被处理器执行时实现：

如前所述的患病风险预测方法。

有益效果

本申请的一些实施例中，基于信号通路信息，通过被检测对象的突变基因对于若干条预定信号通路的活性改变的驱动力信息，实现患病风险的预测。

本申请的一些实施例中，利用全部胚系遗传信息，全面评价胚系遗传整体特征的基础，因此能覆盖各种散发型和家族性遗传疾病(例如乳腺癌)由胚系遗传所导致的风险评估，提高了对风险个体检出的灵敏度。

本申请的一些实施例中，使得离散、高维、多元相关、非标准化的胚系变异特征能够投射到值域连续、相对低维、相关性逐渐收敛的基因预测表达量特征和信号通路活性特征上，构建了将离散定性数据转化为连续空间上的定量模型，一方面保留了数据的全局特征，另一方面成为了关联胚系遗传信息与乳腺癌中其他确定性事件(包括但不限于淋巴结转移、发病年龄等病理生理特征)的数据驱动分类基础。

本申请的一些实施例中，由于输入源为全局胚系稀有变异，使三阴性乳腺癌等散发型遗传乳腺癌的风险评级、临床特征关联能够按照通路活性进行分级，弥补了基于gene panel的知识驱动型方法的覆盖空缺，并且显著降低了假阴性率。

本申请的一些实施例中，由于能够将患病风险与其他临床、病理、生理、或行为相关确定性事件特征相关联，使得模型能够依据胚系遗传信息为患者的预后评估、早期临床干预与管理提供依据。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是依据本申请一实施例的获得细胞内确定性事件方法的流程示意图；

图2是依据本申请另一实施例的获得细胞内确定性事件方法的流程示意图；

图3是依据本申请一实施例的患病风险预测方法的流程示意图；

图4是依据本申请一实施例的电子设备的结构示意图。

本发明的实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含一系列步骤或单元的过程、方法或系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，术语“第一”、“第二”和“第三”等是用于区别不同对象，而非用于描述特定顺序。

本申请中，全局胚系遗传信息指来源于亲本，编码于所有由胚胎发育而成的正常细胞的基因组中，由个体终生携带、并能通过生殖遗传给后代的所有遗传信息。其形式包括但不限于基因组DNA序列、表观遗传修饰信息等。

本申请中，细胞内确定性事件指生物体内各类分子依照已知或未知的机制相互作用，最终产生可以被各类方法检测定性或定量的事件特征，包括但不限于信号通路(Signaling Pathways)的激活或抑制、新陈代谢产物(Metabolites)的种类及含量变化、生物分子(包括蛋白/核酸等大分子，脂质/小分子药物/代谢产物/无机金属离子等小分子)之间的相互作用模式、状态及其变更(Interactome)、多聚物/细胞/组织器官的结构形态及其变更等。在本申请中，细胞内确定性事件包括胚系遗传决定的基因表达、信号通路活性、对乳腺癌的患病风险或抵抗、乳腺癌相关的病生理状态发生的概率等。

图1示出本申请一实施例的获得细胞内确定性事件的方法的流程示意图，该方法可由一电子设备执行，包括：

S11、获得被检测对象的属于预定基因组的若干突变基因。

S12、获得所述若干突变基因中的每个突变基因对于所述预定基因组中的每个基因发生改变的驱动力信息。

S13、依据所述若干突变基因中的每个突变基因对于所述预定基因组中的每个基因发生改变的驱动力信息，获得所述若干突变基因对所述预定基因组中的每个基因发生改变的驱动力信息；以及

S14、依据所述若干突变基因对所述预定基因组中的每个基因发生改变的驱动力信息，确定所述被检测对象的至少一个预定类型的细胞内确定性事件。

在一个实现方式中，S14中所述确定所述被检测对象的至少一个预定类型的细胞内确定性事件包括：

S141、获得所述被检测对象的第一类型的细胞内确定性事件信息；以及

S142、依据所述被检测对象的第一类型的细胞内确定性事件信息，确定所述被检测对象的第二类型的细胞内确定性事件信息。

本申请中，被检测对象可以是活体生物，例如可以属于但不仅限于人类。

以人为例，预定基因组例如可以是已知人类基因组中的部分或全部基因。

被检测对象的若干突变基因属于预定基因组，可以是稀有胚系突变基因，也可以是全局胚系突变基因，视实际情况而定。

在一个实现方式中，可以获得被检测对象的全局胚系遗传信息，例如全外显子测序数据，从中确定稀有胚系突变基因。其中，被检测对象的稀有胚系突变基因例如可以是通过判断被检测对象的全外显子测序数据中的突变基因是否在预先确定的稀有突变基因组来确定。稀有胚系突变基因组可以通过设定的变异频率阈值来确定，换句话说，若某个基因在人群中出现变异的概率大于设定的变异频率阈值，则该基因为稀有胚系突变基因。

可以理解，在其他实现方式中，也可以使用其它高通全局数据替代全外显子测序数据，所述的高通全局数据例如包括但不限于全外显子组测序、全基因组测序、基因芯片、表达芯片数据等。

在一个具体实例中，前述的第一类型的细胞内确定性事件信息可以为被检测对象的所述若干突变基因对至少一条预定信号通路的活性改变的驱动力信息，第二类型的细胞内确定性事件信息可以为该被检测对象患特定疾病的预测风险。

图2示出本申请一实施例的获得细胞内确定性事件的方法的流程示意图，该方法可由一电子设备执行。本实施例中，可获得所述被检测对象的所述若干突变基因对至少一条预定信号通路的活性改变的驱动力。本实施例的方法包括：

S21、获得被检测对象的属于预定基因组的若干突变基因；

S22、获得所述若干突变基因中的每个突变基因对于所述预定基因组中的每个基因的基因表达发生改变的驱动力信息；

S23、依据所述若干突变基因中的每个突变基因对于所述预定基因组中的每个基因的基因表达发生改变的驱动力信息，获得所述若干突变基因对所述预定基因组中的每个基因的基因表达发生改变的驱动力信息；以及

S24、依据所述若干突变基因对所述预定基因组中的每个基因的基因表达发生改变的驱动力信息，确定所述被检测对象的所述若干突变基因对至少一条预定信号通路的活性改变的驱动力信息。

本申请中，基因表达指基因组上可被某个检测的基因转录的RNA产物的量或翻译得到的蛋白质的量，基因表达量可以是连续值域中的值，可以从现有数据中获得。

在本申请一种实现方式中，所述被检测对象的至少一个预定类型的细胞内确定性事件信息包括：确定所述被检测对象的所述若干突变基因对多条预定信号通路的活性改变的驱动力信息。该多条预定信号通路可以是从现有技术中已有的信号通路中选择确定，选择时，例如可以选择信号通路所包含的基因与上述预定基因组中的基因的重合度大于预定阈值的信号通路。

突变基因对信号通路的活性改变的驱动力表示突变基因对信号通路的活性改变影响能力。

在本申请一种实现方式中，S22中所述获得所述若干突变基因中的每个突变基因对于所述预定基因组中的每个基因的基因表达发生改变的驱动力信息包括：

从预先获得的模板数据中获取所述若干突变基因中的每个突变基因对于所述预定基因组中的每个基因的基因表达发生改变的驱动力信息，其中，所述模板数据包括所述预定基因组中的每个基因对于所述预定基因组中的各个基因的基因表达发生改变的驱动力信息。

在本申请一种实现方式中，获得所述模板数据的方法包括：针对所述预定基因组中的每个基因gi进行以下处理：

S221、将预定的参考细胞系分为第一细胞系组和第二细胞系组，其中，所述第一细胞系组包括所述预定的参考细胞系中包括突变基因gi的参考细胞系，所述第二细胞系组包括所述预定的参考细胞系中不包括突变基因gi的参考细胞系。

S222、对于预定基因组中的每个基因gj，获得所述第一细胞系组中的参考细胞系的突变基因gj的平均基因表达信息与所述第二细胞系组中的参考细胞系的突变基因gj的平均基因表达信息之间的差异信息。

S223、对所述差异信息进行降噪处理。

以下通过一个具体实例进行说明。

设预定基因组中基因的数量为n，参考细胞系的数量为p，

针于预定基因组中的每个基因gi，p个参考细胞系被分为两组：第一细胞系组(也称为突变组)mti和第二细胞系组(也称为野生组)wti，其中，第一细胞系组包括p个参考细胞系中包括基因gi的参考细胞系(设数量为pi1)，所述第二细胞系组包括p个参考细胞系中不包括基因gi的参考细胞系(设数量为pi2)。

然后对于预定基因组中的每个基因gj，计算第一细胞系组中的pi1个参考细胞系的基因gj的平均基因表达信息与第二细胞系组中pi2个参考细胞系的基因gj的平均基因表达信息之间的差异信息；具体的，可以是计算第一细胞系组中的pi1个参考细胞系的基因gj的基因表达值的平均值与第二细胞系组中pi2个参考细胞系的基因gj的基因表达值的平均值差值de：

de _ij＝μ _mtij-μ _wtij

其中，de _ij为基因gi对应的突变组mti中的各参考细胞系的基因gj的基因表达值的平均值与野生组wti中的各参考细胞系的基因gj的基因表达值的平均值的差值，μ _mtij表示突变组mti中的各参考细胞系的基因gj的基因表达值的平均值，μ _wtij表示野生组wti中的各参考细胞系的基因gj的基因表达值的平均值。

进一步的，可以对上述差值de _ij进行降噪处理。

在一种实现方式中，可以先进行预定次数(例如可以是但不限于10000次)的随机模拟。在每次模拟中，把p个细胞系随机分到突变组和野生组，并且突变组中参考细胞系的个数为pi1，野生组中参考细胞系的个数为pi2。然后计算每个基因gi在这随机分成的两组里的表达值的平均值的差值de _null。

之后，利用各次随机模拟获得的差值de _null对de _ij进行降噪处理(也称标准化处理)，标准化处理后获得的值表示驱动力df，此标准化处理可通过下述公式实现：

其中df _ij是基因gi对基因gj的基因表达发生改变的驱动力信息。mean(de _null)和std(de _null)分别为10000次随机模拟计算出的de _null的平均值和标准差。

以上过程为计算一个基因gi对各个基因gj的基因表达发生改变的驱动力。对于预定基因组中的n个基因，均进行上述计算过程，即可得到预定基因组中的每个基因对于所述预定基因组中的各个基因的基因表达发生改变的驱动力信息，即模板数据。在一种实现方式中，模板数据可以用一个n x n的矩阵表示，该矩阵的每一行对应一个基因gi，每一列对应一个基因gj，矩阵中的每一个值表示该行基因对该列基因的基因表达发生改变的驱动力。

每一个被检测对象携带不同数量的突变基因，假设被检测对象携带m个突变基因。在一个实现方式中，确定被检测对象的m个突变基因中的每个突变基因对于所述预定基因组中的每个基因的基因表达发生改变的驱动力信息可以包括：从上述n x n矩阵里获取这m个突变基因对应的m行数据，得到m x n的矩阵。

在本申请一种实现方式中，S23中获得被检测对象的若干突变基因对预定基因组中的每个基因的基因表达发生改变的驱动力信息的方法包括：对于预定基因组中的每个基因gj进行以下处理：

S231、将被检测对象的若干突变基因中的每个突变基因对于预定基因组中每个基因的基因表达发生改变的驱动力信息进行加权平均处理。

为了确定被检测对象的m个突变基因的整体效果，可以对各个基因的驱动力进行加权(w)，然后求平均值DF。

其中DF _j为被检测对象的所有m个突变基因对预定基因组中基因gj的基因表达发生改变的驱动力的平均值，i _k为被检测对象的第k个突变基因在n x n矩阵中的行数，df为前述n x n矩阵中相应位置的值。

一种简单的方法是假设各突变基因的驱动力的权重都是相同的，可以理解，各突变基因的驱动力的权重也可以是不同的。

S232、将加权平均处理所获得的结果DF _j进行降噪处理。在一种实现方式中，可以先进行预定次数(例如可以是但不限于10000次)的随机模拟。在每次模拟中，从预定基因组的n个基因里随机取m个基因进行加权平均处理，获得DF _null。

之后，利用各次随机模拟获得的加权平均值DF _null按对DF _j进行降噪处理(也称标准化处理)，此标准化处理可通过下述公式实现：

其中ZDF _j表示被检测对象携带的所有m个突变基因对预定基因组中基因gj的基因表达发生改变的驱动力，mean(DF _null)和std(DF _null)分别为10000次随机模拟计算出的DF _null的平均值和标准差。

获得被检测对象携带的所有m个突变基因对预定基因组中每个基因的基因表达发生改变的驱动力后，得到一个1x n的矩阵。虽然每个被检测对象携带不同数量的突变基因，通过上述处理，不同被检测对象对应的不同的m x n矩阵都转换为相同的1x n矩阵，后续可以在同一维度进行比较。

在本申请一种实现方式中，假设预定信号通路的数量为q，S24中获得被检测对象的若干突变基因对至少一条预定信号通路的活性改变的驱动力信息包括：对于每条所述信号通路sj进行如下处理：

S241、获得预定基因组中每个基因gi对该条信号通路sj的活性的影响信息；以及

S242、依据预定基因组中每个基因gi对该条信号通路sj的活性的影响信息，获得所述被检测对象的若干突变基因对该条信号通路sj的活性的综合影响信息。

在本申请一种实现方式中，S241中获得预定基因组中每个基因gi对信号通路sj的活性的影响信息包括：

S2411、获得每个基因gi对于信号通路sj中的每个基因a的基因表达发生改变的驱动力信息；

S2412、获得信号通路sj中的每个基因ak的基因表达的改变对于信号通路sj的影响信息；以及

S2413、依据S2411中获得的所述驱动力信息和S2412中获得的所述影响信息获得预定基因组中每个基因gi对信号通路sj的活性的影响信息。

在本申请一种实现方式中，首先获得预定基因组中每个基因gi对信号通路sj的活性的影响信息。假设一条信号通路由k个基因组成，其中信号通路中每个基因ak的基因表达的改变对信号通路的活性的影响分为两种，即上调(up)或下调(down)，那么基因gi对第j条信号通路的活性的影响可通过下述公式确定：

其中，DFP _ij为预定基因组中一个基因gi对第j条信号通路的活性的影响值，df为前述n x n矩阵相应位置的值，j _a为第j条信号通路中的第a个基因在n x n矩阵中的列数；sig _a为第a个基因ak对第j条信号通路的活性的影响，可以从现有数据中获得，在一个实例中，上调时值为1，下调时值为-1。

进一步的，可以对DFP _ij进行降噪处理。

在一种实现方式中，可以先进行预定次数(例如可以是但不限于10000次)的随机模拟。在每次模拟中，可以从前述n x n矩阵中随机取k个基因对应的数据通过上述公式计算DFP _null。

之后，利用各次随机模拟中获得的DFP _null对DFP进行降噪处理(也称标准化)，此标准化处理可通过以下公式实现：

其中ZDFP _ij为预定基因组中一个基因gi对第j条信号通路的活性改变的驱动力，mean(DFP _null)和std(DFP _null)分别为10000次随机模拟计算出的DFP _null的平均值和标准差。

获得预定基因组的n个基因中的每个基因gi对q条预定信号通路中的每条信号通路sj的活性改变的驱动力ZDFP _ij后，可以得到一个n x q的矩阵。

在本申请一种实现方式中，S242中所述被检测对象的若干突变基因对信号通路sj的活性的综合影响信息可通过下式公式获得：

其中，IDFP _j为被检测对象的m个突变基因对信号通路sj的活性的综合影响，i _a为第j条信号通路中的第a个基因在前述n x 60矩阵中的行数。

进一步的，可以对IDFP _j进行降噪处理。

在一种实现方式中，可以先进行预定次数(例如可以是但不限于10000 次)的随机模拟。在每次模拟中，从n x 60矩阵中随机取m行通过上述公式计算IDFP _null。

之后，利用各次随机模拟中获得的IDFP _null对IDFP _j进行降噪处理(也称标准化)，此标准化处理可通过以下公式实现：

其中ZIDFP _j为被检测对象所携带的所有m个突变基因对第j条信号通路的活性改变的驱动力。mean(IDFP _null)和std(IDFP _null)分别为10000次随机模拟计算出的IDFP _null的平均值和标准差。

获得被检测对象所携带的所有m个突变基因对每条信号通路的活性改变的驱动力后，可以得到一个1x q的矩阵。这样，每个被检测对象都用一个1x q的矩阵表示，而无需考虑该被检测对象的突变基因数据及具体突变的基因。

图3示出本申请一实施例的患病风险预测方法的流程示意图，该方法可由一电子设备执行，包括：

S31、获得被检测对象的属于预定基因组的突变基因对于若干条预定信号通路的活性改变的驱动力信息；

S32、获得第一及第二参考对象组中的每个参考对象的属于所述预定基因组的突变基因对于所述若干条预定信号通路的活性改变的驱动力信息；其中，所述第一参考对象组中的各参考对象属于健康类对象，所述第二参考对象组中的各参考对象属于患特定疾病类对象；

S33、依据所述被检测对象的突变基因对于若干条预定信号通路的活性改变的驱动力信息及所述第一及第二参考对象组中的每个参考对象的突变基因对于所述若干条预定信号通路的活性改变的驱动力信息，对所述被检测对象、第一及第二参考对象组中的各参考对象进行第一聚类；以及

S34、依据进行所述第一聚类后获得的第一聚类结果输出所述被检测对象患所述特定疾病的风险。

在一个具体实例中，所述特定疾病为三阴性乳腺癌。可以理解的，本实施例的患病风险预测方法也可用于其他合适的特定疾病，并不仅限于三阴性乳腺癌。

在一种实现方式中，对所述被检测对象、第一及第二参考对象组中的各参考对象进行第一聚类后还包括：将进行所述第一聚类后获得的若干聚类合并为多个组。

在一种实现方式中，对所述被检测对象、第一及第二参考对象组中的各参考对象进行第一聚类后还包括：获得并输出与所述被检测对象属于同一患病风险等级的参考对象的临床或病理相关确定性事件特征、病理特征、生理特征以及行为特征之中的至少一个。

在一种实现方式中，使用NMRCLUST聚类法对所述被检测对象、第一及第二参考对象组中的各参考对象进行所述第一聚类。可以理解，视实际情况可以选择其他的聚类方法进行所述第一聚类，例如，也可以使用包含但不限于基于层次的方法(Hierarchical methods)(例如k-nearest-neighbor(简称为kNN)算法等)、基于划分的方法(Partition-based methods)(例如K均值(K-Means)聚类等)、基于密度的方法(Density-based methods)(例如Density-Based Spatial Clustering of Applications with Noise(简称为DBSCAN等))、基于网络的方法(Grid-based methods)(例如(STatistical INformation Grid(简称为STING)算法等)、或基于模型的方法(Model-based methods)(例如高斯混合模型(Gaussian Mixture Models，简称为GMM))等，本申请包括并不限于此。

在一种实现方式中，在获得被检测对象的突变基因对于若干条预定信号通路的活性改变的驱动力信息之前包括：从多条参考信号通路中确定所述若干条预定信号通路。

在一种实现方式中，从多条参考信号通路中确定所述若干条预定信号通路之前包括：确定所述被检测对象对应的预分类类型；依据所述预分类类型，从第三参考对象组中确定所述第一参考对象组，其中，所述第三参考对象组的各参考对象属于所述健康类对象，所述第一参考对象组对应于所述预分类类型；以及依据所述预分类类型，从第四参考对象组中确定所述第二参考对象组，其中，所述第四参考对象组的各参考对象属于所述患特定疾病类对象，所述第二参考对象组对应于所述预分类类型。

从多条参考信号通路中确定所述若干条预定信号通路包括：依据所述预分类类型，从多条参考信号通路中确定所述若干条预定信号通路。

在一种实现方式中，确定所述被检测对象对应的预分类类型包括：获得被检测对象的突变基因对于所述多条参考信号通路的活性改变的驱动力信息；获得所述第三及第四参考对象组中每个参考对象的突变基因对于所述多条参考信号通路的活性改变的驱动力信息；以及依据所述被检测对象的突变基因对于所述多条参考信号通路的活性改变的驱动力信息及所述第三及第四参考对象组中每个参考对象的突变基因对于所述多条参考信号通路的活性改变的驱动力信息，对所述被检测对象、第三及第四参考对象组中的各参考对象进行第二聚类。

在一种实现方式中，使用Ward Hierarchical Clustering聚类法对所述被检测对象、第三及第四参考对象组中的各参考对象进行所述第二聚类。可以理解，视实际情况可以选择其他的聚类方法进行所述第二聚类，例如，也可以使用基于层次的方法(Hierarchical methods)(例如k-nearest-neighbor(简称为kNN)算法等)、基于划分的方法(Partition-based methods)(例如K均值(K-Means)聚类等)、基于密度的方法(Density-based methods)(例如Density-Based Spatial Clustering of Applications with Noise(简称为DBSCAN)等))、基于网络的方法(Grid-based methods)(例如STatistical INformation Grid(简称为STING)算法等)、或基于模型的方法(Model-based methods)(例如高斯混合模型(Gaussian Mixture Models，简称为GMM))等，本申请包括但并不限于此。

在本申请一种实现方式中，依据所述预分类类型，从多条参考信号通路中确定所述若干条预定信号通路包括：依据所述预分类类型，从所述第三参考对象组中确定对应于所述预分类类型的第五参考对象组；依据所述预分类类型，从所述第四参考对象组中确定对应于所述预分类类型的第六参考对象组；对于所述多条信号通路中的每条信号通路sk，确定所述第五参考对象组中的各参考对象的突变基因对于该条信号通路sk的活性改变的驱动力信息与所述第六参考对象组中的各参考对象的突变基因对于该条信号通路sk的活性改变的驱动力信息之间的差异；以及依据该差异，从所述多条信息通路中确定满足预设差异显著性条件的所述若干条预定信号通路。

在本申请一种实现方式中，确定所述第五参考对象组中的各参考对象的突变基因对于该条信号通路sk的活性改变的驱动力信息与所述第六参考对象组中的各参考对象的突变基因对于该条信号通路sk的活性改变的驱动力信息之间的差异的方法包括：获得第六参考对象组中各参考对象的突变基因对该条信号通路sk的活性改变的平均驱动力值与第五参考对象组中各参考对象的突变基因对该条信号通路sk的活性改变的平均驱动力值之间的差值。

进一步的，可以对所述差值进行降噪处理。

在本申请一种实现方式中，依据进行所述第一聚类后获得的第一聚类结果输出所述被检测对象患所述特定疾病的风险包括：至少依据所述被检测对象所属的聚类及该聚类中属于第二参考对象组的参考对象的数量及属于第一参考对象组的参考对象的数量的比例，确定并输出所述被检测对象患所述特定疾病的风险。

以下以三阴性乳腺癌为例，通过一个具体实例对本申请的患病风险预测方法进行详细说明。本实施例中，可以利用前述获得细胞内确定性事件的方法的实施例中获得的被检测对象的所述若干突变基因对q条预定信号通路的活性改变的驱动力信息，预测该被检测对象患三阴性乳腺癌的风险。

本申请中，三阴性乳腺癌(triple negative breast cancer，简称TNBC)指在乳腺癌分子分型检测中雌激素受体(Estrogen Receptor，简称ER)、孕激素受体(Progesterone Receptor，简称PR)、HER2基因均为阴性的乳腺癌，约占所有乳腺癌患者的15％，并具有发病早、预后较差、发病机制不明确、治疗响应较低等特点。

对于由n ₁个健康人组成的第三参考对象组，每个人可由一个前述的1x q的矩阵表示，该矩阵表示每个人的突变基因对于q条信号通路的活性改变的驱动力信息。对这n ₁个1x q的矩阵即n ₁x q的矩阵进行聚类分析(例如通过Ward Hierarchical Clustering方法分析)，发现这些参考对象可以分成两类：A类和B类。

对于由n ₂个三阴性乳腺癌患者组成的第四参考对象组，每个患者可由一个前述的1x q的矩阵表示，该矩阵表示每个人的突变基因对于q条信号通路的活性改变的驱动力信息。对这n ₂个1x q的矩阵即n ₂x q的矩阵进行聚类分析(例如通过Ward Hierarchical Clustering方法分析)，发现这些人也可以分成两类：A类和B类。

换句话说，对于第三参考对象组和第四参考对象组对应的n ₁x q的矩阵和n ₂x q的矩阵进行聚类分析，可以将第三、第四参考对象组中的参考对象分为A类和B类两类，两类中均同时包含健康人和三阴性乳腺癌患者。

需要预测被检测对象患三阴性乳腺癌的风险时，可以按照前述实施例中的方法获得被检测对象的1x q的矩阵。然后将被检测对象的1x q的矩阵与第三、第四参考对象组对应的n ₁x q的矩阵和n ₂x q的矩阵一起例如通过Ward Hierarchical Clustering方式进行第二聚类，以确定被检测对象的预分类类型。如前所述，第三、第四参考对象组中的参考对象会分为A类和B类两类，被检测对象会被聚类到A类或B类，即进行第二聚类后，可确定被检测对象的预分类类型为A类或B类。

假设被检测对象的预分类类型为A类，从第三参考对象组中确定对应于所述A类的第五参考对象组，从第四参考对象组中确定对应于所述A类的第六参考对象组。可以理解的，第五参考对象组中可以包括第三参考对象组中的部分或者所有A类参考对象，第六参考对象组中可以包括第四参考对象组中的部分或者所有A类参考对象。假设第五参考对象组中A类健康人和第六参考对象组中的A类三阴性乳腺癌患者的数量分别为n _1a和n _2a，那么第六参考对象组中各A类三阴性乳腺癌患者的突变基因对于第k条信号通路sk的活性改变的驱动力信息与第五参考对象组中各A类健康人的突变基因对于第k条信号通路sk的活性改变的驱动力信息之间的差异DP _k可通过以下公式确定：

其中，ZIDFP _ik为第i个三阴性乳腺癌患者所携带的突变基因对第k条信号通路活性改变的驱动力，ZIDFPjk为第j个健康人所携带的突变基因对第k条信号通路活性改变的驱动力。

进一步的，可以对DP _k进行降噪处理。

在一种实现方式中，可以先进行预定次数(例如可以是但不限于1000000次)的随机模拟。在每次随机模拟中，随机打乱每个参考对象是健康人或三阴性乳腺癌患者的标签，按照上述公式计算出DP _null。

之后，利用各次随机模拟中获得的DP _null对DP _k进行降噪处理(也称标准化)，此标准化处理可通过以下公式实现：

其中，mean(DP _null)和std(IDFP _null)分别为1000000次随机模拟计算出的DP _null的平均值和标准差。ZDP _k越偏离0表示该条信号通路活性在三阴性乳腺癌患者和健康人之间的差异越不是随机的，而是有特定生物学意义的。

接着，可以依据所获得的第五参考对象组中的各参考对象的突变基因对于q条信号通路的活性改变的驱动力信息与第六参考对象组中的各参考对象的突变基因对于q条信号通路的活性改变的驱动力信息之间的差异，从q条信息通路中确定满足预设差异显著性条件的若干条信号通路。

在一种实现方式中，可以选取q条信号通路中ZDP _k绝对值最大的q1条(例如8条)信号通路进行后续分析。

从被检测对象的1x q的矩阵中获取与该q1条信号通路对应的q1行数据，得到被检测对象的突变基因对于该q1条参考信号通路的活性改变的驱动力信息。

另外，被检测对象的预分类类型为A类，从第三参考对象组中确定对应于A类健康人的第一参考对象组，从第四参考对象组中确定对应于A类三阴性乳腺癌的第二参考对象组。从第一及第二参考对象组中的各参考对象的1x q的矩阵中分别获取与该q1条信号通路对应的q1行数据，获得第一及第二参考对象组中的各参考对象的突变基因对于该q1条参考信号通路的活性改变的驱动力信息。

可以理解的，第一参考对象组中可以包括第三参考对象组中的部分或者所有A类参考对象，第二参考对象组中可以包括第四参考对象组中的部分或者所有A类参考对象。第一参考对象组可以与第五参考对象组相同或不同，第二参考对象组可以与第六参考对象组相同或不同。

随后，依据被检测对象的的突变基因对于该q1条参考信号通路的活性改变的驱动力信息及第一及第二参考对象组中的各参考对象的突变基因对于该q1条参考信号通路的活性改变的驱动力信息，对被检测对象、第一及第二参考对象组中的各参考对象进行第一聚类，获得u1个聚类。

第一聚类例如可以使用NMRCLUST聚类法实现。NMRCLUST聚类法使用平均链接距离聚类，然后使用惩罚函数来同时优化聚类的数量和聚类之间的距离。例如可以选取最小惩罚值对应的聚类数量将A型的被检测对象、第一及第二参考对象组中的各参考对象聚类为u(例如15)个聚类，各个聚类可分别对应于不同患病风险等级。可以理解，视实际情况可以选择其他的聚类方法进行第一聚类，本申请并不限于此。

接着，依据进行第一聚类后获得的第一聚类结果，输出被检测对象患三阴性乳腺癌的风险。进行第一聚类后，可以确定被检测对象属于u个聚类中的哪个聚类，以及每个聚类中属于第一参考对象组的参考对象的数量(即健康人的数量)及属于第二参考对象组的参考对象的数量(即三阴性乳腺癌患者的数量)。然后计算每个聚类中三阴性乳腺癌患者的数量和健康人的数量的百分比，作为患病风险等级的定量参数表征，百分比值越大表明越有可能患三阴性乳腺癌。将各个聚类对应的百分比按大小进行排序，可确定每个聚类对应的患病风险等级的高低。因此，依据被检测对象所属的聚类，即可预测被检测对象患三阴性乳腺癌的风险。

可以理解的，也可直接依据被检测对象所属的聚类及该聚类中属于第二参考对象组的参考对象的数量及属于第一参考对象组的参考对象的数量的比例，确定并输出被检测对象患三阴性乳腺癌的风险。

进一步的，进行第一聚类获得的聚类数量较多时，可根据数据分布特征将进行所述第一聚类后获得的聚类进行合并，从而得到特征更显著的组。例如，将u个患病风险等级合并为数量更少的患病风险等级，以便于被检测对象参考。

在另一种实施方式中，可以通过将预设的各类的分类规则与被检测对象的与所述分类规则相应的信息进行对比，确定所述被检测对象对应的预分类类型。例如，在一个实例中，可以对前述第三参考对象组和第四参考对象组中的各参考对象进行第二聚类，将第三、第四参考对象组中的参考对象分为A类和B类两类，进而对A类参考对象和B类参考对象的相关信息(例如，各类参考对象中每个人的突变基因对于q条信号通路的活性改变的驱动力信息)进行统计获得每个类的分类规则；在确定所述被检测对象对应的预分类类型时，可以将被检测对象的与所述分类规则相应的信息(例如，被检测对象的突变基因对于q条信号通路的活性改变的驱动力信息)与每个类的分类规则进行对比，将被检测对象分到各个类中最接近的那一类。可以理解的，上述仅给出本申请依据预设的各个类的分类规则确定所述被检测对象对应的预分类类型的一个具体实例，本申请并不仅限于此，例如，在其他实施例中，各个类的分类规则可以通过其他方式确定，被检测对象的与所述分类规则相应的信息也不限于上面所提及的示例性的信息。

在本申请一种实现方式中，除了输出被检测对象患三阴性乳腺癌的预测风险，还可获得并输出与被检测对象属于同一患病风险等级(例如同一聚类或同一组)的参考对象的临床或病理相关确定性事件特征(例如发病年龄、淋巴结转移等)、病理特征(例如药物响应、原发或转移等)、生理特征(免疫机能、心血管呼吸系统机能等)以及行为特征(例如饮食运动等)等。

可以理解的，上面以三阴性乳腺癌为例对本申请进行了描述，但本申请并不限定必须进行预分类，或者限定预分类类型仅为两类。在本申请的其他实施例中，例如在其他疾病的患病风险预测方法中，预分类类型可以多于两类，或者，也可能不需要进行预分类。

图4示出本申请一实施例的电子设备40，包括存储器42、处理器44以及存储在存储器44中的程序46，所述程序46被配置成由处理器44执行，所述处理器44执行所述程序时实现前述获得细胞内确定性事件的方法的至少部分、或实现前述患病风险预测方法中的至少部分、或所述两方法的组合。

本申请还提供一种存储介质，所述存储介质存储有计算机程序，其中，所述计算机程序被处理器执行时实现前述获得细胞内确定性事件的方法的至少部分、或实现前述患病风险预测方法中的至少部分、或所述两方法的组合。

本申请的一些实施例中，利用全部胚系遗传信息，全面评价胚系遗传整体特征的基础，因此能覆盖各种散发型和家族性遗传乳腺癌由胚系遗传所导致的风险评估，提高了对风险个体检出的灵敏度。

电子设备在一些实施例中可以是用户终端设备、服务器、或者网络设备等。例如移动电话、智能电话、笔记本电脑、数字广播接收机、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置、车载装置、数字TV、台式计算机等、单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云等。

存储器至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。存储器中存储安装于服务节点设备的操作系统和各类应用软件及数据等。

处理器在一些实施例中可以是中央处理器(CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

患病风险预测方法，由电子设备执行，包括：

获得被检测对象的属于预定基因组的突变基因对于若干条预定信号通路的活性改变的驱动力信息；

获得第一及第二参考对象组中的每个参考对象的属于所述预定基因组的突变基因对于所述若干条预定信号通路的活性改变的驱动力信息；其中，所述第一参考对象组中的各参考对象属于健康类对象，所述第二参考对象组中的各参考对象属于患特定疾病类对象；

依据所述被检测对象的突变基因对于若干条预定信号通路的活性改变的驱动力信息及所述第一及第二参考对象组中的每个参考对象的突变基因对于所述若干条预定信号通路的活性改变的驱动力信息，对所述被检测对象、第一及第二参考对象组中的各参考对象进行第一聚类；以及

依据进行所述第一聚类后获得的第一聚类结果输出所述被检测对象患所述特定疾病的风险。
如权利要求1所述的患病风险预测方法，其特征在于，所述特定疾病为三阴性乳腺癌。
如权利要求1所述的患病风险预测方法，其特征在于，对所述被检测对象、第一及第二参考对象组中的各参考对象进行第一聚类后还包括：

将进行所述第一聚类后获得的若干聚类合并为多个组。
如权利要求1所述的患病风险预测方法，其特征在于，对所述被检测对象、第一及第二参考对象组中的各参考对象进行第一聚类后还包括：

获得并输出与所述被检测对象属于同一患病风险等级的参考对象的临床、病理、生理、或行为相关确定性事件特征之中的至少一个。
如权利要求1所述的患病风险预测方法，其特征在于，使用NMRCLUST聚类法、基于层次的方法、基于划分的方法、基于密度的方法、基于网络的方法、或基于模型的方法对所述被检测对象、第一及第二参考对象组中的各参考对象进行所述第一聚类。
如权利要求1所述的患病风险预测方法，其特征在于，在获得被检测对象的突变基因对于若干条预定信号通路的活性改变的驱动力信息之前包括：从多条参考信号通路中确定所述若干条预定信号通路。
如权利要求6所述的患病风险预测方法，其特征在于：

从多条参考信号通路中确定所述若干条预定信号通路之前包括：

确定所述被检测对象对应的预分类类型；

依据所述预分类类型，从第三参考对象组中确定所述第一参考对象组，其中，所述第三参考对象组的各参考对象属于所述健康类对象，所述第一参考对象组对应于所述预分类类型；以及

依据所述预分类类型，从第四参考对象组中确定所述第二参考对象组，其中，所述第四参考对象组的各参考对象属于所述患特定疾病类对象，所述第二参考对象组对应于所述预分类类型；

所述从多条参考信号通路中确定所述若干条预定信号通路包括：

依据所述预分类类型，从多条参考信号通路中确定所述若干条预定信号通路。
如权利要求7所述的患病风险预测方法，其特征在于，所述确定所述被检测对象对应的预分类类型包括：

获得被检测对象的突变基因对于所述多条参考信号通路的活性改变的驱动力信息；

获得所述第三及第四参考对象组中的每个参考对象的突变基因对于所述多条参考信号通路的活性改变的驱动力信息；以及

依据所述被检测对象的突变基因对于所述多条参考信号通路的活性改变的驱动力信息及所述第三及第四参考对象组中每个参考对象的突变基因对于所述多条参考信号通路的活性改变的驱动力信息，对所述被检测对象、第三及第四参考对象组中的各参考对象进行第二聚类。
如权利要求8所述的患病风险预测方法，其特征在于，使用Ward Hierarchical Clustering聚类法、基于层次的方法、基于划分的方法、基于密度的方法、基于网络的方法、或基于模型的方法对所述被检测对象、第三及第四参考对象组中的各参考对象进行所述第二聚类。
如权利要求7所述的患病风险预测方法，其特征在于，所述确定所述被检测对象对应的预分类类型包括：

将预设的各类的分类规则与被检测对象的与所述分类规则相应的信息进行对比，确定所述被检测对象对应的预分类类型。
如权利要求7所述的患病风险预测方法，其特征在于，依据所述预分类类型，从多条参考信号通路中确定所述若干条预定信号通路包括：

依据所述预分类类型，从所述第三参考对象组中确定对应于所述预分类类型的第五参考对象组；

依据所述预分类类型，从所述第四参考对象组中确定对应于所述预分类类型的第六参考对象组；

对于所述多条信号通路中的每条信号通路sk，确定所述第五参考对象组中的各参考对象的突变基因对于该条信号通路sk的活性改变的驱动力信息与所述第六参考对象组中的各参考对象的突变基因对于该条信号通路sk的活性改变的驱动力信息之间的差异；以及

依据所述差异，从所述多条信息通路中确定满足预设差异显著性条件的所述若干条预定信号通路。
如权利要求11所述的患病风险预测方法，其特征在于，确定所述第五参考对象组中的各参考对象的突变基因对于该条信号通路sk的活性改变的驱动力信息与所述第六参考对象组中的各参考对象的突变基因对于该条信号通路sk的活性改变的驱动力信息之间的差异的方法包括：

获得第六参考对象组中各参考对象的突变基因对该条信号通路sk的活性改变的平均驱动力值与第五参考对象组中各参考对象的突变基因对该条信号通路sk的活性改变的平均驱动力值之间的差值。
如权利要求12所述的患病风险预测方法，其特征在于，确定所述第五参考对象组中的各参考对象的突变基因对于该条信号通路sk的活性改变的驱动力信息与所述第六参考对象组中的各参考对象的突变基因对于该条信号通路sk的活性改变的驱动力信息之间的差异的方法还包括：

对所述差值进行降噪处理。
如权利要求1所述的患病风险预测方法，其特征在于，依据进行所述第一聚类后获得的第一聚类结果输出所述被检测对象患所述特定疾病的风险包括：

至少依据所述被检测对象所属的聚类及该聚类中属于第二参考对象组的参考对象的数量及属于第一参考对象组的参考对象的数量的比例，确定并输出所述被检测对象患所述特定疾病的风险。
一种电子设备，包括：存储器、处理器以及存储在存储器中的程序，所述程序被配置成由处理器执行，所述处理器执行所述程序时实现：

如权利要求1至14任一项所述的患病风险预测方法。
一种存储介质，所述存储介质存储有计算机程序，其中，所述计算机程序被处理器执行时实现：

如权利要求1至14任一项所述的患病风险预测方法。