WO2021098615A1

WO2021098615A1 - 基因型数据缺失的填充方法、装置及服务器

Info

Publication number: WO2021098615A1
Application number: PCT/CN2020/128853
Authority: WO
Inventors: 殷力; 殷鹏
Original assignee: 中国科学院深圳先进技术研究院
Priority date: 2019-11-22
Filing date: 2020-11-13
Publication date: 2021-05-27
Also published as: CN111028884B; CN111028884A

Abstract

一种基因型数据缺失的填充方法、装置及服务器，属于基因预测技术领域。该方法包括：从基因库中获取若干不同个体的基因数据生成若干基因样本；每一所述基因样本中包括被随机遮盖的若干基因值（S110）；对于所述基因样本中每一基因缺失位置，根据所述基因缺失位置与所在的基因样本的动态连锁关系，生成预填充所述基因缺失位置的填充值；所述填充值携带对应所述动态连锁关系的参数（S120）；将每一预填充后的基因样本输入缺失基因预测模型，根据预填充的所述填充值对所述基因缺失位置进行基因值预测，输出填充预测基因值的完整基因样本（S130）。所述方法解决填充效率低下且预测得到的基因填充值错误率高的问题。

Description

基因型数据缺失的填充方法、装置及服务器

技术领域

本发明涉及基因预测的技术领域，尤其涉及一种基因型数据缺失的填充方法、装置及服务器。

背景技术

SNP(单核苷酸多态性标记)芯片测序的过程中导致的基因数据的丢失给全基因组关联分析研究带来很大的挑战，基因型数据的丢失分为遗传性丢失和检测性丢失。我们在基因型缺失的分析过程中，一般讨论的是技术性缺失，而不是人为的缺失，主要有下列原因导致：全基因组重测序导致的缺失、简化基因测序导致的缺失、外显子测序以及目标区域捕获测序导致的缺失以及SNP芯片导致的缺失等。

在现有技术中，普遍通过带有缺失值的基因序列拟合一个参数，学习缺失数据的总体特征，然后根据特征对缺失值进行填充，这种方式需要数据缺失值对数据整体的分布产生一个比较小的影响，但是当下的基因样本数量还不足以支持如此大的数据量。导致填充效率低下且预测得到的基因填充值错误率高。

发明内容

有鉴于此，本发明实施例提供了一种基因型数据缺失的填充方法、装置及服务器，以解决填充效率低下且预测得到的基因填充值错误率高的问题。

本发明实施例的第一方面提供了一种基因型数据缺失的填充方法，包括：

从基因库中获取若干不同个体的基因数据生成若干基因样本；每一所述基因样本中包括被随机遮盖的若干基因值；

对于所述基因样本中每一基因缺失位置，根据所述基因缺失位置与所在的基因样本的动态连锁关系，生成预填充所述基因缺失位置的填充值；所述填充值携带对应所述动态连锁关系的参数；

将每一预填充后的基因样本输入缺失基因预测模型，根据预填充的所述填充值对所述基因缺失位置进行基因值预测，输出填充预测基因值的完整基因样本。

在一个实施示例中，所述对于所述基因样本中每一基因缺失位置，根据所述基因缺失位置与所在的基因样本的动态连锁关系，生成预填充所述基因缺失位置的填充值，包括：

根据所述基因缺失位置确定基因维度的物理序列维度和样本维度的取值；

计算所述基因缺失位置所在的基因样本在所述基因维度的物理序列维度的数据关系以及在所述样本维度的数据关系，得到基因维度的物理序列维度参数和样本维度参数；

根据所述基因维度的物理序列维度参数和所述样本维度参数，生成携带参数的填充值，以预填充所述基因缺失位置。

在一个实施示例中，所述将每一预填充后的基因样本输入缺失基因预测模型，根据预填充的所述填充值对所述基因缺失位置进行基因值预测，输出填充预测基因值的完整基因样本，包括：

通过N个编码器根据所述预填充后的基因样本中每一所述填充值携带的参数进行特征提取，输出上下文向量；N≥3；

通过N个解码器根据所述上下文向量对每一所述填充值所在的所述基因缺失位置进行基因值预测和对齐输出，得到填充预测基因值的所述完整基因样本。

在一个实施示例中，所述从基因库中获取若干不同个体的基因数据生成若干基因样本，包括：

从基因库中获取若干不同个体的基因数据，通过滑窗处理将所述基因数据截取为长度一致的若干基因样本。

在一个实施示例中，在将每一预填充后的基因样本输入缺失基因预测模型，根据预填充的所述填充值对所述基因缺失位置进行基因值预测，输出填充预测基因值的完整基因样本之后，还包括：

根据所述完整基因样本与对应的基因样本原值反向计算梯度，通过所述梯度更新所述缺失基因预测模型的参数。

在一个实施示例中，所述根据所述基因缺失位置确定基因维度的物理序列维度和样本维度的取值，包括：

若所述基因缺失位置

为显性，则设置遮盖值

为1；若所述基因缺失位置

不为显性，则设置所述遮盖值

为0；其中，t为基因维度的物理序列维度；d为样本维度的向量维度；

根据设置后的遮盖值确定在基因维度的物理序列维度t的跳跃δ _t和在样本维度d的跳跃

其中，在基因维度的物理序列维度t中任一所述样本维度的跳跃和在样本维度d中任一基因维度的物理序列维度的跳跃均为

s _t为预设刻度矩阵中基因维度的物理序列维度t对应的一个位点；s ^d为所述预设刻度矩阵中样本维度d对应的一个位点。

在一个实施示例中，所述计算所述基因缺失位置所在的基因样本在所述基因维度的物理序列维度的数据关系以及在所述样本维度的数据关系，得到基因维度的物理序列维度参数和样本维度参数，包括：

γ _t＝exp{-max(0,W _γδ _t+b _γ)}；

γ _d＝exp{-max(0,W _γδ ^d+b _γ)}；

其中，γ _t为所述基因维度的物理序列维度参数；γ _d为所述样本维度参数；W _γ为预设参数；b _γ为偏移量。

根据所述完整基因样本对应的原本被遮盖的基因样本，将所述完整基因样本中所有所述预测基因值挑出；

将所有所述预测基因值与对应的原基因值进行比对，更新所述预设参数。

本发明实施例的第二方面提供了一种基因型数据缺失的填充装置，包括：

基因样本生成模块，用于从基因库中获取若干不同个体的基因数据生成若干基因样本；每一所述基因样本中包括被随机遮盖的若干基因值；

填充值生成模块，用于对于所述基因样本中每一基因缺失位置，根据所述基因缺失位置与所在的基因样本的动态连锁关系，生成预填充所述基因缺失位置的填充值；所述填充值携带对应所述动态连锁关系的参数；

基因预测填充模块，用于将每一预填充后的基因样本输入缺失基因预测模型，根据预填充的所述填充值对所述基因缺失位置进行基因值预测，输出填充预测基因值的完整基因样本。

本发明实施例的第三方面提供了一种服务器，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面中基因型数据缺失的填充方法。

本发明实施例提供的一种基因型数据缺失的填充方法、装置及服务器，通过从基因库中获取若干不同个体的基因数据生成若干基因样本；每一所述基因样本中包括被随机遮盖的若干基因值；对于所述基因样本中每一基因缺失位置，根据所述基因缺失位置与所在的基因样本的动态连锁关系，生成预填充所述基因缺失位置的填充值；所述填充值携带对应所述动态连锁关系的参数；将每一预填充后的基因样本输入缺失基因预测模型，根据预填充的所述填充值对所述基因缺失位置进行基因值预测，输出填充预测基因值的完整基因样本。通过随机遮盖根据有效基因数据生成的每一基因样本中的基因值生成训练数据。生成携带基因缺失位置与基因样本的动态连锁关系的参数的填充值，并对训练数据进行填充。使得包括填充值的训练数据输入缺失基因预测模型后，模型能够根据填充值所携带的参数对应的动态连锁关系进行基因值预测，输出填充预测基因值的完整基因样本，完成模型的训练。通过训练生成的缺失基因预测模型对缺失的基因值进行预测填充，提高基因填充效率。且模型结合基因缺失位置上的填充值所携带的动态连锁关系对缺失的基因值进行预测填充，提高预测基因值的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的基因型数据缺失的填充方法的流程示意图；

图2是本发明实施例一提供的缺失基因预测模型的结构示意图；

图3是本发明实施例二提供的基因型数据缺失的填充方法的流程示意图；

图4是本发明实施例三提供的基因型数据缺失的填充装置的结构示意图；

图5是本发明实施例四提供的服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含一系列步骤或单元的过程、方法或系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，术语“第一”、“第二”和“第三”等是用于区别不同对象，而非用于描述特定顺序。

实施例一

如图1所示，是本发明实施例一提供的基因型数据缺失的填充方法的流程示意图。本实施例可适用于对基因数据中缺失的基因值进行预测填充的应用场景，该方法可以由基因型数据缺失的填充装置中的处理器执行，该装置可为服务器、智能终端、平板或PC等；在本申请实施例中以基因型数据缺失的填充装置作为执行主体进行说明，该方法具体包括如下步骤：

S110、从基因库中获取若干不同个体的基因数据生成若干基因样本；每一所述基因样本中包括被随机遮盖的若干基因值；

在实际对基因样本进行测序时，通过各种技术手段对基因样本进行处理过程中会造成样本中的一些基因数据缺失。且使用具有基因数据缺失的基因样本进行基因组关联分析研究提高了研究难度。现有技术通过带有缺失值的基因序列拟合一个参数，学习缺失数据的总体特征，然后根据特征对缺失值进行填充，这种方式需要数据缺失值对数据整体的分布产生一个比较小的影响，但是当下的已研究测试的基因样本数量还不足以支持如此大的数据量。缺失的基因数据虽然是随机的，但基因数据之间在表达过程中并不是独立进行，而是具有一定规律即连锁动态不平衡。可通过结合参考基因组序列中数据的分布并对基因组数据深度学习构建缺失基因预测模型，实现对基因型数据缺失进行预测填充。

参考基因组序列是对全球各个地区的人进行抽样采集的人类基因组数据集，数据对于分析人类基因组具有统计意义，例如1000基因组计划就选取了26个国家地区的人群分布一共2500多个样本组成基因组数据。具体地，在缺失基因预测模型训练阶段，可从已知的基因库中获取足够多数量的不同个体的基因序列生成若干基因样本。并对每一基因样本随机遮盖若干基因值，使得每一基因样本中均具有基因数据缺失以作为训练数据。

在一个实施示例中，从基因库中获取若干不同个体的基因数据生成若干基因样本的过程可为：从基因库中获取若干不同个体的基因数据，通过滑窗处理将所述基因数据截取为长度一致的若干基因样本。由于基因序列的长度过长，若在模型训练过程持续对过长的基因序列进行计算会导致计算效率低下。因此可通过切割数据的方式将若干基因序列分割成满足预设标准的若干样本数据可选的，可通过滑窗处理对基因序列进行截取，得到长度一致的若干基因样本。

S120、对于所述基因样本中每一基因缺失位置，根据所述基因缺失位置与所在的基因样本的动态连锁关系，生成预填充所述基因缺失位置的填充值；所述填充值携带对应所述动态连锁关系的参数；

为结合基因样本上每一基因缺失位置与所在的基因样本的动态连锁关系进行基因预测填充，在将生成的若干基因样本输入缺失基因预测模型进行模型训练之前，对于每一基因样本中每一基因缺失位置，根据该基因缺失位置与所在的基因样本的动态连锁关系，生成预填充该基因缺失位置的填充值。使得每一基因样本的基因缺失位置中均具有一个携带对应所述动态连锁关系的参数的填充值。将具有填充值的每一基因样本输入缺失基因预测模型进行模型训练时，缺失基因预测模型可根据填充值携带的动态连锁关系对基因缺失位置的缺失基因进行预测，提高缺失基因的预测准确率。

在一个实施示例中，对于所述基因样本中每一基因缺失位置，根据所述基因缺失位置与所在的基因样本的动态连锁关系，生成填充所述基因缺失位置的填充值的具体过程可为：根据所述基因缺失位置确定基因维度的物理序列维度和样本维度的取值；计算所述基因缺失位置所在的基因样本在所述基因维度的物理序列维度的数据关系以及在所述样本维度的数据关系，得到基因维度的物理序列维度参数和样本维度参数；根据所述基因维度的物理序列维度参数和所述样本维度参数，生成携带参数的填充值，以预填充所述基因缺失位置。

通过基因样本在基因维度的物理序列维度和样本维度的基因数据分布来生成填充值。具体地，根据每一基因缺失位置确定基因维度的物理序列维度和样本维度的取值，从而根据选取的基因维度的物理序列维度和选取的样本维度在该基因缺失位置所在的基因样本中采样不同的基因值。可选的，可通过基因缺失位置的显隐性确定一个遮盖值，从而通过遮盖值确定多个需选取位点的基因维度的物理序列维度和样本维度的取值。

在一个实施示例中，根据所述基因缺失位置确定基因维度的物理序列维度和样本维度的取值的过程包括：对于每一基因缺失位置，根据基因缺失位置的显隐性确定遮盖值。若该基因缺失位置

为显性，则设置遮盖值

为1；若该基因缺失位置

不为显性，则设置所述遮盖值

为0；其中，t为基因维度的物理序列维度；d为样本维度的向量维度；根据设置后的遮盖值确定在基因维度的物理序列维度t的跳跃δ _t和在样本维度d的跳跃δ ^d，使得填充装置能够根据确定好的基因维度的物理序列维度t的跳跃δ _t和在样本维度d的跳跃δ ^d在该基因缺失位置所在的基因样本中采样对应的位点。可选的，根据设置后的遮盖值确定在基因维度的物理序列维度t的跳跃δ _t和在样本维度d的跳跃δ ^d的规则如下：

st为预设刻度矩阵中基因维度的物理序列维度t的一个位点；s ^d为预设刻度矩阵中样本维度d的一个位点。根据上述公式确定在基因维度的物理序列维度t的跳跃δ _t和在样本维度d的跳跃δ ^d，当基因缺失位置对应的遮盖值取值为0时，则对应基因维度的物理序列维度采样预设刻度矩阵t-2时刻的位点，对应样本维度采样预设刻度矩阵d-2维度的位点；当基因缺失位置对应的遮盖值取值为1时，则对应基因维度的物理序列维度采样预设刻度矩阵t-1时刻的位点，对应样本维度采样预设刻度矩阵d-1维度的位点。具体地，预设刻度矩阵

为矩阵中包含的每一行中的元素的值从左往右逐一递增，且每一列中的元素的值从上往下逐一递增。可选的，预设刻度矩阵

可为：

当根据设置后的遮盖值确定在基因维度的物理序列维度t的跳跃δ _t和在样本维度d的跳跃δ ^d后，可根据确定好的基因维度的物理序列维度t的跳跃δ _t和在样本维度d的跳跃δ ^d在该基因缺失位置所在的基因样本中采样对应的位点，计算基因缺失位置所在的基因样本在确定的基因维度的物理序列维度的数据关系以及在确定的样本维度的数据关系，得到基因维度的物理序列维度参数和样本维度参数。在一个实施示例中，计算基因缺失位置所在的基因样本在所述基因维度的物理序列维度的数据关系以及在所述样本维度的数据关系，得到基因维度的物理序列维度参数和样本维度参数，可由以下公式计算获得：

γ _t＝exp{-max(0,W _γδ _t+b _γ)}；

γ _d＝exp{-max(0,W _γδ ^d+b _γ)}；

计算得到基因维度的物理序列维度参数和样本维度参数后，可通过基因维度的物理序列维度参数和样本维度参数分别控制基因缺失位置在基因维度的物理序列维度和样本维度上不同碱基的值的带参数的加权和，并与根据确定好的基因维度的物理序列维度t的跳跃δ _t和在样本维度d的跳跃δ ^d在该基因缺失位置所在的基因样本中采样得到的位点进行相加得到携带参数的填充值，以预填充所述基因缺失位置。在一个实施示例中，携带参数的填充值的计算公式可为：

其中，

S130、将每一预填充后的基因样本输入缺失基因预测模型，根据预填充的所述填充值对所述基因缺失位置进行基因值预测，输出填充预测基因值的完整基因样本。

在根据每一基因缺失位置与所在的基因样本的动态连锁关系生成预填充基因缺失位置的填充值后，将每一预填充有填充值的基因样本输入缺失基因预测模型进行模型训练。具体地，对于每一基因缺失位置中预填充的填充值，缺失基因预测模型结合填充值所携带的基因缺失位置与所在的基因样本的动态连锁关系对该填充值所在的基因缺失位置进行基因值预测，从而输出填充预测基因值的完整基因样本，完成缺失基因预测模型的训练。

在一个实施示例中，将每一预填充后的基因样本输入缺失基因预测模型根据所述填充值对基因缺失位置进行基因值预测，输出填充预测基因值的完整基因样本的过程包括：通过N 个编码器根据所述填充后的基因样本中每一所述填充值携带的参数进行特征提取，输出上下文向量；通过N个解码器根据所述上下文向量对每一所述填充值所在的所述基因缺失位置进行基因值预测和对齐输出，得到填充预测基因值的所述完整基因样本；N≥3。

如图2所示为缺失基因预测模型的结构示意图。具体地，缺失基因预测模型可采用Transformer模型，包括N个编码器21和N个解码器23。可选的，N可设为3。可预先根据预设的多尺度信息对缺失基因预测模型中的N个编码器21进行参数设置，以使N个编码器21能够根据所述填充后的基因样本中每一所述填充值携带的参数进行多尺度特征提取。每一编码器中包括多头注意力层(multi-head attention layer)，填充后的基因样本输入N个编码器后，N个编码器21将基因样本转换为向量并分别乘以根据填充值携带的参数对应设置的不同权重的参数矩阵，得到代表输入向量的键值对的K和V向量组合；并根据K和V向量组合计算当前键值对相对于其他向量的键值对来表征当前向量和其他向量的关系得到上下文向量。

将N个编码器21输出的上下文向量输入对应的N个解码器23之前，可通过全连接神经网络22对编码器输出的上下文向量进行维度压缩，减少数据量。可选的，该全连接神经网络22可为FNN全连接网络。经压缩后的上下文向量输入N个对应的解码器23对上下文向量进行基因值预测和对齐输出，由于预测到的基因值向量是浮点型数据，但是真实基因值向量是整数，需要将浮点型的基因值向量转成整数向量，得到填充预测基因值的所述完整基因样本。

在一个实施示例中，需对真正缺失基因值的待测基因样本进行基因值预测填充时，需对该待测基因样本中每一基因缺失位置进行填充值计算。根据该待测基因样本中每一基因缺失位置与该待测基因样本的动态连锁关系，生成预填充每一基因缺失位置的填充值，且每一填充值携带对应动态连锁关系的参数。然后将预填充好的待测基因样本输入训练好的缺失基因预测模型中，通过缺失基因预测模型根据每一填充值对该填充值所在的基因缺失位置进行基因值预测，从而输出填充预测基因值的完整基因样本，快速完成基因型数据的缺失填充，提高填充速率。

本发明实施例提供的一种基因型数据缺失的填充方法，通过从基因库中获取若干不同个体的基因数据生成若干基因样本；每一所述基因样本中包括被随机遮盖的若干基因值；对于所述基因样本中每一基因缺失位置，根据所述基因缺失位置与所在的基因样本的动态连锁关系，生成预填充所述基因缺失位置的填充值；所述填充值携带对应所述动态连锁关系的参数；将每一预填充后的基因样本输入缺失基因预测模型，根据预填充的所述填充值对所述基因缺失位置进行基因值预测，输出填充预测基因值的完整基因样本。通过随机遮盖根据有效基因数据生成的每一基因样本中的基因值生成训练数据。生成携带基因缺失位置与基因样本的动态连锁关系的参数的填充值，并对训练数据进行填充。使得包括填充值的训练数据输入缺失基因预测模型后，模型能够根据填充值所携带的参数对应的动态连锁关系进行基因值预测，输出填充预测基因值的完整基因样本，完成模型的训练。通过训练生成的缺失基因预测模型对缺失的基因值进行预测填充，提高基因填充效率。且模型结合基因缺失位置上的填充值所携带的动态连锁关系对缺失的基因值进行预测填充，提高预测基因值的准确率。

实施例二

如图3所示的是本发明实施例二提供的基因型数据缺失的填充方法的流程示意图。在实施例一的基础上，本实施例还提供了优化基因型数据缺失的填充方法中填充值携带的参数和缺失基因预测模型的参数的过程，从而进一步提高预测基因值的准确率。该方法具体包括：

S210、根据所述完整基因样本与对应的基因样本原值反向计算梯度，通过所述梯度更新所述缺失基因预测模型的参数；

由于基因型数据缺失的填充方法对缺失基因数据的待测基因样本进行预测填充的过程包括两个部分。第一部分是，对于待测基因中每一基因缺失位置，根据基因缺失位置与待测基因样本的动态连锁关系，生成预填充该基因缺失位置的填充值，且生成的填充值携带对应动态连锁关系的参数；第二部分是，将预填充后的待测基因样本输入训练好的缺失基因预测模型根据待测基因样本中的填充值对基因缺失位置进行基因值预测，输出基因缺失位置填充有预测基因值的完整基因样本，完成待测基因样本的基因缺失填充。为提高缺失基因预测模型的预测准确率，还可通过迭代训练优化缺失基因预测模型中的参数。

具体地，从已知的基因库中获取足够多数量的不同个体的基因序列生成若干基因样本。并对每一基因样本随机遮盖若干基因值，使得每一基因样本中均具有基因数据缺失以作为训练数据。在每一轮缺失基因预测模型的迭代训练过程中，当缺失基因预测模型对输入的训练数据中任一包括填充值的预填充基因样本进行基因值预测输出完整基因样本后，可根据缺失基因预测模型输出的完整基因样本与对应的基因样本原值反向计算梯度，从而通过计算得到梯度更新缺失基因预测模型中的参数，使缺失基因预测模型得到收敛。可选的，可在对每一基因样本随机遮盖若干基因值后对应存储每一基因样本原值。

S220、根据所述完整基因样本对应的原本被遮盖的基因样本，将所述完整基因样本中所有所述预测基因值挑出；

由于缺失基因的基因样本在输入缺失基因预测模型之前，对于待测基因中每一基因缺失位置，需根据基因缺失位置与待测基因样本的动态连锁关系，生成预填充该基因缺失位置的填充值，且生成的填充值携带对应动态连锁关系的参数。还可在每一轮缺失基因预测模型的迭代训练后，通过优化预填充基因缺失位置的填充值携带的参数，提高缺失基因值预测填充的准确率。

S230、将所有所述预测基因值与对应的原基因值进行比对，更新所述预设参数。

具体地，当缺失基因预测模型对输入的训练数据中任一包括填充值的基因样本进行基因值预测输出完整基因样本后，需根据输出的完整基因样本对应的原本被遮盖的基因样本，将该完整基因样本中所有的预测基因值挑出。然后将所有的预测基因值与该基因样本被遮盖的基因缺失位置的原基因值进行比对，计算所有预测基因值与对应的原基因值的加权平均值更新填充值携带的参数。

且由于携带参数的填充值根据基因维度的物理序列维度参数γ _t和样本维度参数γ _d生成，基因维度的物理序列维度参数γ _t和所述样本维度参数γ _d中均包括一个预设参数W _γ。将所有的预测基因值与该基因样本被遮盖的基因缺失位置的原基因值进行比对，计算所有预测基因值与对应的原基因值的加权平均值更新预设参数W _γ。

在一个实施示例中，由于基因库中的已知基因序列均为定点测序得到的基因数据，为使缺失基因预测模型对连续基因序列中未进行测试的其它基因数据进行学习，在缺失基因预测模型的预测阶段，还将带有真实缺失的基因样本替换掉输入模型阶段主动遮盖的基因向量值，然后通过缺失基因预测模型，得到最后的预测基因向量，由于预测基因向量是浮点型数据，但是真实向量是整数，需要将浮点型的预测基因向量转成整数向量，将得到的预测基因值通过真实缺失的基因样本挑选出预测的基因值，然后与真实值中没有被遮盖掉的基因数据进行组合得到最终向量。

实施例三

如图4所示的是本发明实施例三提供的基因型数据缺失的填充方装置。在实施例一或二的基础上，本发明实施例还提供了一种检测装置4，该装置包括：

基因样本生成模块401，用于从基因库中获取若干不同个体的基因数据生成若干基因样本；每一所述基因样本中包括被随机遮盖的若干基因值；

在一个实施示例中，从基因库中获取若干不同个体的基因数据生成若干基因样本；每一所述基因样本中包括被随机遮盖的若干基因值时，基因样本生成模块401包括：

截取单元，用于从基因库中获取若干不同个体的基因数据，通过滑窗处理将所述基因数据截取为长度一致的若干基因样本。

填充值生成模块402，用于对于所述基因样本中每一基因缺失位置，根据所述基因缺失位置与所在的基因样本的动态连锁关系，生成预填充所述基因缺失位置的填充值；所述填充值携带对应所述动态连锁关系的参数；

在一个实施示例中，对于所述基因样本中每一基因缺失位置，根据所述基因缺失位置与所在的基因样本的动态连锁关系，生成预填充所述基因缺失位置的填充值时，填充值生成模块402包括：

取值确定单元，用于根据所述基因缺失位置确定基因维度的物理序列维度和样本维度的取值；

在一个实施示例中，根据所述基因缺失位置确定基因维度的物理序列维度和样本维度的取值时，取值确定单元包括：

若所述基因缺失位置

为显性，则设置遮盖值

为1；若所述基因缺失位置

不为显性，则设置所述遮盖值

基因维度的物理序列维度参数和样本维度参数生成单元，用于计算所述基因缺失位置所在的基因样本在所述基因维度的物理序列维度的数据关系以及在所述样本维度的数据关系，得到基因维度的物理序列维度参数和样本维度参数；

在一个实施示例中，计算所述基因缺失位置所在的基因样本在所述基因维度的物理序列维度的数据关系以及在所述样本维度的数据关系，得到基因维度的物理序列维度参数和样本维度参数时，基因维度的物理序列维度参数和样本维度参数生成单元包括：

γ _t＝exp{-max(0,W _γδ _t+b _γ)}；

γ _d＝exp{-max(0,W _γδ ^d+b _γ)}；

填充值生成单元，用于根据所述基因维度的物理序列维度参数和所述样本维度参数，生成携带参数的填充值，以预填充所述基因缺失位置。

基因预测填充模块403，用于将每一预填充后的基因样本输入缺失基因预测模型，根据预填充的所述填充值对所述基因缺失位置进行基因值预测，输出填充预测基因值的完整基因样本。

在一个实施示例中，将每一预填充后的基因样本输入缺失基因预测模型，根据预填充的所述填充值对所述基因缺失位置进行基因值预测，输出填充预测基因值的完整基因样本时，基因预测填充模块403包括：

编码单元，用于通过N个编码器根据所述填充后的基因样本中每一所述填充值携带的参数进行特征提取，输出上下文向量；N≥3；

解码单元，用于通过N个解码器根据所述上下文向量对每一所述填充值所在的所述基因缺失位置进行基因值预测和对齐输出，得到填充预测基因值的所述完整基因样本。

在一个实施示例中，该填充装置还包括：

模型更新模块，用于根据所述完整基因样本与对应的基因样本原值反向计算梯度，通过所述梯度更新所述缺失基因预测模型的参数；

预测基因提取模块，用于根据所述完整基因样本对应的原本被遮盖的基因样本，将所述完整基因样本中所有所述预测基因值挑出；

参数更新模块，用于将所有所述预测基因值与对应的原基因值进行比对，更新所述预设参数。

本发明实施例提供的一种基因型数据缺失的填充装置，通过从基因库中获取若干不同个体的基因数据生成若干基因样本；每一所述基因样本中包括被随机遮盖的若干基因值；对于所述基因样本中每一基因缺失位置，根据所述基因缺失位置与所在的基因样本的动态连锁关系，生成预填充所述基因缺失位置的填充值；所述填充值携带对应所述动态连锁关系的参数；将每一预填充后的基因样本输入缺失基因预测模型，根据预填充的所述填充值对所述基因缺失位置进行基因值预测，输出填充预测基因值的完整基因样本。通过随机遮盖根据有效基因数据生成的每一基因样本中的基因值生成训练数据。生成携带基因缺失位置与基因样本的动态连锁关系的参数的填充值，并对训练数据进行填充。使得包括填充值的训练数据输入缺失基因预测模型后，模型能够根据填充值所携带的参数对应的动态连锁关系进行基因值预测，输出填充预测基因值的完整基因样本，完成模型的训练。通过训练生成的缺失基因预测模型对缺失的基因值进行预测填充，提高基因填充效率。且模型结合基因缺失位置上的填充值所携带的动态连锁关系对缺失的基因值进行预测填充，提高预测基因值的准确率。

实施例四

图5是本发明实施例四提供的服务器的结构示意图。该服务器包括：处理器1、存储器2以及存储在所述存储器2中并可在所述处理器1上运行的计算机程序3，例如用于基因型数据缺失的填充方法的程序。所述处理器1执行所述计算机程序3时实现上述基因型数据缺失的填充方法实施例中的步骤，例如图1所示的步骤S110至S130。

示例性的，所述计算机程序3可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器2中，并由所述处理器1执行，以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序3在所述服务器中的执行过程。例如，所述计算机程序3可以被分割成填充值生成模块、填充值生成模块和基因预测填充模块，各模块具体功能如下：

所述服务器可包括，但不仅限于，处理器1、存储器2以及存储在所述存储器2中的计算机程序3。本领域技术人员可以理解，图5仅仅是服务器的示例，并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述服务器还可以包括输入输出设备、网络接入设备、总线等。

所述处理器1可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器2可以是所述服务器的内部存储单元，例如服务器的硬盘或内存。所述存储器2也可以是外部存储设备，例如服务器上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器2还可以既包括服务器的内部存储单元也包括外部存储设备。所述存储器2用于存储所述计算机程序以及基因型数据缺失的填充方法所需的其他程序和数据。所述存储器2还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

一种基因型数据缺失的填充方法，其特征在于，包括：

从基因库中获取若干不同个体的基因数据生成若干基因样本；每一所述基因样本中包括被随机遮盖的若干基因值；

对于所述基因样本中每一基因缺失位置，根据所述基因缺失位置与所在的基因样本的动态连锁关系，生成预填充所述基因缺失位置的填充值；所述填充值携带对应所述动态连锁关系的参数；

将每一预填充后的基因样本输入缺失基因预测模型，根据预填充的所述填充值对所述基因缺失位置进行基因值预测，输出填充预测基因值的完整基因样本。
如权利要求1所述的基因型数据缺失的填充方法，其特征在于，所述对于所述基因样本中每一基因缺失位置，根据所述基因缺失位置与所在的基因样本的动态连锁关系，生成预填充所述基因缺失位置的填充值，包括：

根据所述基因缺失位置确定基因维度的物理序列维度和样本维度的取值；

计算所述基因缺失位置所在的基因样本在所述基因维度的物理序列维度的数据关系以及在所述样本维度的数据关系，得到基因维度的物理序列维度参数和样本维度参数；

根据所述基因维度的物理序列维度参数和所述样本维度参数，生成携带参数的填充值，以预填充所述基因缺失位置。
如权利要求1或2所述的基因型数据缺失的填充方法，其特征在于，所述将每一预填充后的基因样本输入缺失基因预测模型，根据预填充的所述填充值对所述基因缺失位置进行基因值预测，输出填充预测基因值的完整基因样本，包括：

通过N个编码器根据所述预填充后的基因样本中每一所述填充值携带的参数进行特征提取，输出上下文向量；N≥3；

通过N个解码器根据所述上下文向量对每一所述填充值所在的所述基因缺失位置进行基因值预测和对齐输出，得到填充预测基因值的所述完整基因样本。
如权利要求1所述的基因型数据缺失的填充方法，其特征在于，所述从基因库中获取若干不同个体的基因数据生成若干基因样本，包括：

从基因库中获取若干不同个体的基因数据，通过滑窗处理将所述基因数据截取为长度一致的若干基因样本。
如权利要求1所述的基因型数据缺失的填充方法，其特征在于，在将每一预填充后的基因样本输入缺失基因预测模型，根据预填充的所述填充值对所述基因缺失位置进行基因值预测，输出填充预测基因值的完整基因样本之后，还包括：

根据所述完整基因样本与对应的基因样本原值反向计算梯度，通过所述梯度更新所述缺失基因预测模型的参数。
如权利要求2所述的基因型数据缺失的填充方法，其特征在于，所述根据所述基因缺失位置确定基因维度的物理序列维度和样本维度的取值，包括：

若所述基因缺失位置
为显性，则设置遮盖值
为1；若所述基因缺失位置
不为显性，则设置所述遮盖值
为0；其中，t为所述基因维度的物理序列维度；d为所述样本维度的向量维度；

根据设置后的遮盖值确定在所述基因维度的物理序列维度t的跳跃δ _t和在所述样本维度d的跳跃δ ^d；

其中，在所述基因维度的物理序列维度t中任一所述样本维度的跳跃和在所述样本维度d中任一所述基因维度的物理序列维度的跳跃均为
s _t为预设刻度矩阵中所述基因维度的物理序列维度t对应的一个位点；s ^d为所述预设刻度矩阵中所述样本维度d对应的一个位点。
如权利要求6所述的基因型数据缺失的填充方法，其特征在于，所述计算所述基因缺失位置所在的基因样本在所述基因维度的物理序列维度的数据关系以及在所述样本维度的数据关系，得到基因维度的物理序列维度参数和样本维度参数，包括：

γ _t＝exp{-max(0,W _γδ _t+b _γ)}；

γ _d＝exp{-max(0,W _γδ ^d+b _γ)}；

其中，γ _t为所述基因维度的物理序列维度参数；γ _d为所述样本维度参数；W _γ为预设参数；b _γ为偏移量。
如权利要求7所述的基因型数据缺失的填充方法，其特征在于，在将每一预填充后的基因样本输入缺失基因预测模型，根据预填充的所述填充值对所述基因缺失位置进行基因值预测，输出填充预测基因值的完整基因样本之后，还包括：

根据所述完整基因样本对应的原本被遮盖的基因样本，将所述完整基因样本中所有所述预测基因值挑出；

将所有所述预测基因值与对应的原基因值进行比对，更新所述预设参数。
一种基因型数据缺失的填充装置，其特征在于，包括：

基因样本生成模块，用于从基因库中获取若干不同个体的基因数据生成若干基因样本；每一所述基因样本中包括被随机遮盖的若干基因值；

填充值生成模块，用于对于所述基因样本中每一基因缺失位置，根据所述基因缺失位置与所在的基因样本的动态连锁关系，生成预填充所述基因缺失位置的填充值；所述填充值携带对应所述动态连锁关系的参数；

基因预测填充模块，用于将每一预填充后的基因样本输入缺失基因预测模型，根据预填充的所述填充值对所述基因缺失位置进行基因值预测，输出填充预测基因值的完整基因样本。
一种服务器，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述基因型数据缺失的填充方法的步骤。