WO2020154885A1

WO2020154885A1 - 单细胞类型检测方法、装置、设备和存储介质

Info

Publication number: WO2020154885A1
Application number: PCT/CN2019/073647
Authority: WO
Inventors: 李辰威; 刘宝琳; 康博熙; 刘烨丹; 任仙文; 张泽民
Original assignee: 北京大学
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2020-08-06
Also published as: CN109891508B; CN109891508A

Abstract

一种单细胞类型检测方法、装置、设备和存储介质，方法包括：将参考数据输入表达熵模型，确定参考数据中每一类细胞包含的信息基因；参考数据包括N个单细胞中M个基因的表达谱数据集；表达熵模型通过训练参考数据得到；计算信息基因在每一类细胞中的出现概率；当接收到对待测单细胞进行检测获得的信息基因对应的表达量时，根据出现概率和表达量确定待测单细胞的细胞类型。

Description

单细胞类型检测方法、装置、设备和存储介质

技术领域

本发明实施例涉及单细胞转录组测序数据分析领域，具体涉及一种单细胞类型检测方法、装置、设备和存储介质。

背景技术

在过去几年里，单细胞捕获技术有了明显的提高，科学家利用现有的技术可以捕获数十万甚至数百万的细胞。随之产生的巨大信息量给生物信息学分析带来了极大的机遇和挑战，其中对单细胞表达数据聚类是得到生物学结论至关重要的基础分析方法。如图1所示，为现有技术中单细胞分析方法流程图。现有的聚类方法在识别highly variably genes(高变异基因)时采用gini-index(基尼系数)，dropout rates(流失率)，以及方差等方法，对基因表达量的描述有着严重的偏差；而在类群的marker gene(标记基因)选择上使用(主成分分析)pca score(seurat)和神经网络(scQuery)等方法，对所选基因的可解释性差，且需要运用生物学知识根据算法得到的marker gene(标记基因)对类群进行注释。最近，也有细胞分类算法产生(Seurat3，scmap等)，但其没有进行很好的假阳性控制且对细胞的分类从训练到预测需要大量的时间和内存。以上现有分析方法都对使用者的生物学背景和计算硬件提出了很高的要求。

随着单细胞转录组测序技术的不断发展，海量不同测序平台(Smart-seq2，10X genomics等)产生的数据之间如何进行整合；在可利用资源和时间受限的情况下如何准确快速的分析更多单细胞数据是现阶段急需解决的问题。

发明内容

本发明提供一种单细胞类型检测方法、装置、设备和存储介质，提升单细胞表达数据的分析效率和准确度，实现迅速准确检测细胞类型。

第一方面，本发明实施例提供了一种单细胞类型检测方法，包括：

将参考数据输入表达熵模型，确定所述参考数据中每一类细胞包含的信息基因；所述参考数据包括N个单细胞中M个基因的表达谱数据集；所述表达熵模型通过训练所述参考数据得到；

计算所述信息基因在所述每一类细胞中的出现概率；

当接收到对待测单细胞进行检测获得的所述信息基因对应的表达量时，根据所述出现概率和所述表达量确定所述待测单细胞的细胞类型。

进一步地，在将参考数据输入表达熵模型，确定所述参考数据中每一类细胞包含的信息基因之前，还包括：

将所述表达谱数据集标准化得到基因表达量数据集；

根据所述基因表达量数据集进行表达熵计算，生成第一表达熵数据集；所述表达熵为信使核糖核酸表达的离散程度；

根据所述第一表达熵数据集对所述表达熵模型进行训练，完成所述表达熵模型的构建。

进一步地，所述将参考数据输入表达熵模型，确定所述参考数据中每一类细胞包含的信息基因，包括：

将所述参考数据输入所述表达熵模型中，生成所述M个基因对应的第二表达熵数据集；

根据所述第一表达熵数据集和所述第二表达熵数据集进行基因筛选，确定所述参考数据中每一类细胞包含的信息基因。

进一步地，所述根据所述第一表达熵数据集对所述表达熵模型进行训练，完成所述表达熵模型的构建，包括：

根据所述基因表达量数据集获得所述M个基因的平均基因表达量；

对所述第一表达熵数据集和所述平均基因表达量进行回归分析，调整所述表达熵模型的参考系数；

根据调整后的参考系数构建所述表达熵模型。

进一步地，所述方法还包括：

当接收到对待测单细胞进行检测获得的基因数据时，将所述基因数据输入所述表达熵模型得到虚拟表达熵数据集；

根据所述基因数据进行表达熵计算，生成实际表达熵数据集；

根据所述虚拟表达熵数据集和所述实际表达熵数据集进行计算，确定所述待测细胞的纯度。

进一步地，所述根据所述第一表达熵数据集和所述第二表达熵数据集进行基因筛选，确定所述参考数据中每一类细胞包含的信息基因，包括：

根据所述第一表达熵数据集和所述第二表达熵数据集，获取每一所述基因对应的第一表达熵数据和第二表达熵数据；

计算每一所述基因对应的第二表达熵数据与第一表达熵数据的差值，获得所述M个基因的差值集合；

按照选取规则从所述差值集合中选出X个差值，将所述X个差值对应的基因作为所述参考数据中每一类细胞包含的信息基因。

在第二方面，本发明实施例还提供一种单细胞类型检测装置，包括：

信息基因确定模块，用于将参考数据输入表达熵模型，确定所述参考数据中每一类细胞包含的信息基因；所述参考数据包括N个单细胞中M个基因的表达谱数据集；所述表达熵模型根据所述参考数据训练生成；

概率计算模块，用于计算所述信息基因在所述每一类细胞中的出现概率；

细胞类型确定模块，用于当接收到对待测单细胞进行检测获得的所述信息基因对应的表达量时，根据所述出现概率和所述表达量确定所述待测单细胞的细胞类型。

进一步地，所述装置还包括：

数据标准化模块，用于将所述参考数据标准化得到基因表达量数据集；

表达熵计算模块，用于根据所述基因表达量数据集进行表达熵计算，生成第一表达熵数据集；所述表达熵为信使核糖核酸的基因表达的离散程度；

模型构建模块，用于根据所述第一表达熵数据集对所述表达熵模型进行训练，完成所述表达熵模型的构建。

在第三方面，本发明实施例还提供一种设备，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现第一方面提供的单细胞类型检测方法。

在第四方面，本发明实施例还提供一种存储介质，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行第一方面所述的单细胞类型检测方法。

本发明实施例提供的一种单细胞类型检测方法、装置、设备和存储介质，将参考数据输入表达熵模型，确定所述参考数据中每一类细胞包含的信息基因；所述表达熵模型通过训练所述参考数据得到；计算所述信息基因在所述每一类细胞中的出现概率；当接收到对待测单细胞进行检测获得的所述信息基因对应的表达量时，根据所述出现概率和所述表达量确定所述待测单细胞的细胞类型。通过向表达熵模型输入参考数据确定参考数据中每一类细胞类型包含的信息基因，并计算信息基因在每一细胞类型的出现概率，最后通过计算接收到的待测单细胞属于每一类细胞类型的概率，确定待测单细胞的细胞类型，实现将待测单细胞迅速定义到已有的细胞类型中，无需进行繁琐的现有单细胞分析流程，直接给出每个细胞的类型，极大的节省了单细胞数据分析的时间和资源。

附图说明

图1为现有技术中单细胞分析方法流程图；

图2是本发明实施例的单细胞类型检测方法的第一实施例的流程示意图；

图3是本发明实施例的单细胞类型检测方法的第二实施例的流程示意图；

图4是本发明实施例的单细胞类型检测方法的第三实施例的流程示意图；

图5是本发明实施例的单细胞类型检测方法的第四实施例的流程示意图；

图6是本发明实施例的单细胞类型检测方法的第五实施例的流程示意图；

图7是本发明实施例的单细胞类型检测装置的结构示意图；

图8是本发明实施例的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

由于现有技术中单细胞分析的方法采用gini-index(基尼系数)，dropout rates(流失率)，以及方差等方法，对基因表达量的描述有着严重的偏差；而在类群的标记基因选择上使用主成分分析和神经网络等方法，对所选基因的可解释性差，并且现有的细胞分类算法从训练到预测需耗费大量的时间和内存。为解决现有单细胞分析技术的效率及准确率低的问题，本发明提供一种单细胞类型检测方法，通过构建并使用表达熵模型，提升单细胞表达数据的分析效率和准确度，实现迅速准确检测细胞类型。

实施例一

如图2所示，是本发明实施例的单细胞类型检测方法的第一实施例的流程示意图。本实施例可适用于单细胞转录组测序数据分析，该方法可以由处理器来执行。

需要说明的是，在将参考数据输入表达熵模型以进行单细胞类型检测之前，本发明实施例提供的一种单细胞类型检测方法还包括该表达熵模型的构建过程。

在本发明实施例中，表达熵模型的构建过程包括：

S210、将表达谱数据集标准化得到基因表达量数据集；

具体地，参考数据包括N个单细胞中M个基因的表达谱数据集；所述表达熵模型通过训练所述参考数据得到。在此实施例中参考数据为海量不同测序平台(Smart-seq2，10X genomics等)产生的数据，包括26个已发表的单细胞的表达谱数据集。由于来自不同平台的数据所采用的衡量标准不一致，需对该表达谱数据集进行标准化，使得该表达谱数据集统一使用TPM(Transcripts Per Million)这一基因表达量的衡量指标，从而获得基因表达量数据集。

S220、根据所述基因表达量数据集进行表达熵计算，生成第一表达熵数据集；所述表达熵为信使核糖核酸表达的离散程度；

具体地，表达熵描述的是mRNA(信使核糖核酸)表达的离散程度。将由M个基因和N个单细胞组成的基因表达量数据集进行下游分析，即将该基因表达量数据集中每个基因的表达划分为一组向量：

通过计算将每个基因中的表达量每间隔120TPM划分为一个bin，从而将基因表达数据集中每个基因的表达分到不同的bin中，并且认为划分在同一个bin中的基因对应的细胞在该基因上具有相同的表达水平。根据对基因表达量数据集的划分得到表达熵的计算方法为：

其中，S为表达熵；b _k为在第K个bin中的细胞数。

根据基因表达量数据集划分后的每一个bin所包含的细胞数代入表达熵的计算算式进行计算后生成第一表达熵数据集。

S230、根据所述第一表达熵数据集对所述表达熵模型进行训练，完成所述表达熵模型的构建。

具体地，当获得第一表达熵数据集后，通过对该第一表达数据集进行训练完成表达熵模型的构建。

如图3所示，是本发明实施例的单细胞类型检测方法的第二实施例的流程示意图。进一步地，在本发明实施例的一个实施示例中，训练第一表达数据集并构建表达熵模型的过程，包括：

S310、根据所述基因表达量数据集获得所述M个基因的平均基因表达量；

具体地，根据基因表达量数据集中的M个基因的表达总量计算获得参考数据中M个基因的平均基因表达量E _m。

S320、对所述第一表达熵数据集和所述平均基因表达量进行回归分析，调整所述表达熵模型的参考系数；

具体地，对第一表达熵数据集和平均基因表达量进行回归分析，得到关系式：S(E _m)＝a·ln(b·E _m+1)；其中，S为表达熵；E _m为平均基因表达量；将第一表达熵数据集和平均基因表达量输入上述关系式，调整上述关系式的参考系数a和b。通过对代入第一表达熵数据集计算该关系式获得的a和b的值取平均值，获得调整后的表达熵的参考系数：a＝0.18；b＝0.03。

S330、根据调整后的参考系数构建所述表达熵模型。

具体地，根据调整后的参考系数：a＝0.18；b＝0.03，得到统一的表达熵模型，该表达熵模型为：

S(E _m)＝0.18·ln(0.03·E _m+1)

从而完成表达熵模型的构建。

图4是本发明实施例的单细胞类型检测方法的第三实施例的流程示意图。本实施例可适用于单细胞转录组测序数据分析，进一步地，在完成表达熵模型构建后，通过该表达熵进行单细胞类型检测的过程，具体包括如下步骤：

S410、将参考数据输入表达熵模型，确定所述参考数据中每一类细胞包含的信息基因；所述参考数据包括N个单细胞中M个基因的表达谱数据集；所述表达熵模型通过训练所述参考数据得到；

具体地，将参考数据输入表达熵模型实现更具有生物学意义的基因筛选。在本发明实施例的一个实施示例中，将参考数据输入表达熵模型，确定所述参考数据中每一类细胞包含的信息基因的过程为：

将所述参考数据输入所述表达熵模型中，生成所述M个基因对应的第二表达熵数据集；根据所述第一表达熵数据集和所述第二表达熵数据集进行基因筛选，确定参考数据中每一类细胞包含的信息基因(informative genes)。

S420、计算所述信息基因在所述每一类细胞中的出现概率；

需要说明的是，当确定参考数据中每一类细胞包含的信息基因后，对于参考数据中每一个细胞类型，计算信息基因i的出现概率，其出现概率的计算公式为：

其中，E _mi是信息基因i在第j类细胞中的平均表达量。通过计算每一类细胞类型中信息基因i的出现概率，获得每个细胞类型的概率向量。

S430、当接收到对待测单细胞进行检测获得的所述信息基因对应的表达量时，根据所述出现概率和所述表达量确定所述待测单细胞的细胞类型。

具体地，当接收到对待测单细胞进行检测获得的信息基因对应的表达量时，根据表达量和信息基因在每一细胞类型的出现概率计算待测单细胞属于每一类细胞类型的概率；其中，待测单细胞属于每一类细胞类型的概率的计算公式为：

其中，E _i为待测单细胞的信息基因对应的表达量(log2[TPM+1])。当计算获得待测单细胞属于每一类细胞类型的概率集合，在概率集合中概率最高值(即P _j最高)所对应的细胞类型即为待测单细胞的细胞类型。通过向表达熵模型输入参考数据确定参考数据中每一类细胞类型包含的信息基因，并计算信息基因在每一细胞类型的出现概率，最后通过计算接收到的待测单细胞属于每一类细胞类型的概率，确定待测单细胞的细胞类型，实现将待测单细胞迅速定义到已有的细胞类型中，无需进行繁琐的现有单细胞分析流程，直接给出每个细胞的类型，极大的节省了单细胞数据分析的时间和资源。

需要说明的是，本发明实施例提供的一种单细胞类型检测方法，将参考数据输入表达熵模型，确定所述参考数据中每一类细胞包含的信息基因；所述表达熵模型通过训练所述参考数据得到；计算所述信息基因在所述每一类细胞中的出现概率；当接收到对待测单细胞进行检测获得的所述信息基因对应的表达量时，根据所述出现概率和所述表达量确定所述待测单细胞的细胞类型。通过向表达熵模型输入参考数据确定参考数据中每一类细胞类型包含的信息基因，并计算信息基因在每一细胞类型的出现概率，最后通过计算接收到的待测单细胞属于每一类细胞类型的概率，确定待测单细胞的细胞类型，实现将待测单细胞迅速定义到已有的细胞类型中，无需进行繁琐的现有单细胞分析流程，直接给出每个细胞的类型，极大的节省了单细胞数据分析的时间和资源。

实施例二

图5是本发明实施例的单细胞类型检测方法的第四实施例的流程示意图。在实施例一的基础上，本实施例增加了将参考数据输入表达熵模型实现基因筛选的筛选方法。在本发明实施例的一个实施示例中，本发明基于表达熵模型进行无监督基因筛选，具体步骤包括：

S510、根据所述第一表达熵数据集和所述第二表达熵数据集，获取每一所述基因对应的第一表达熵数据和第二表达熵数据；

具体地，第一表达熵数据集为根据基因表达量数据集划分后的每一个bin所包含的细胞数代入表达熵的计算算式进行计算后生成第一表达熵数据集；第二表达熵数据集为将所述参考数据输入所述表达熵模型中生成的所述M个基因对应的第二表达熵数据集。获取M个基因中每一基因对应的第一表达熵数据和第二表达熵数据。

S520、计算每一所述基因对应的第二表达熵数据与第一表达熵数据的差值，获得所述M个基因的差值集合；

具体地，根据每一基因对应的第一表达熵数据和第二表达熵数据，进行差值计算：d _s(i)＝S′ _i-S _i；其中，S _i为任一基因的第一表达熵数据；S′ _i为该基因的第二表达熵数据。每一基因的第一表达熵数据和第二表达熵数据通过上式计算后获得M个基因的差值集合。

S530、按照选取规则从所述差值集合中选出X个差值，将所述X个差值对应的基因作为所述参考数据中每一类细胞包含的信息基因。

具体地，用户可以根据需求从差值集合中选出d _s最大的前X个差值，将这X个差值对应的基因作为所述参考数据中每一类细胞包含的信息基因。

在本发明实施例的另一个实施示例中，本发明基于表达熵模型进行有监督基因筛选E-test，具体步骤包括：用熵减作为统计量来进行有监督的基因选择。对于任意两类细胞类型T1和T2，每个基因的熵减定义为：

其中，E _m1表示基因i在T1类细胞中的平均表达，E _m2表示基因i在T2类细胞中的平均表达。因此，对于更对的细胞类型来说，每个基因的熵减定义为：

每一基因在参考数据中所包含的多个细胞类型的平均表达数据集通过上式计算后获得M个基因的差值集合；用户可以根据需求从差值集合中选出d _s最大的前X个差值，将这X个差值对应的基因作为所述参考数据中每一类细胞包含的信息基因。

实施例三

图6是本发明实施例的单细胞类型检测方法的第五实施例的流程示意图。在实施例二的基础上，本实施例增加了无监督基因筛选的应用场景。在本发明实施例的一个实施示例中，本发明基于表达熵模型进行无监督基因筛选判断一类细胞的纯度，具体步骤包括：

S610、当接收到对待测单细胞进行检测获得的基因数据时，将所述基因数据输入所述表达熵模型得到虚拟表达熵数据集；

S620、根据所述基因数据进行表达熵计算，生成实际表达熵数据集；

S630、根据所述虚拟表达熵数据集和所述实际表达熵数据集进行计算，确定所述待测细胞的纯度。

具体地，当接收到对待测单细胞进行检测获得的基因数据时，将基因数据中基因的平均表达量输入表达熵模型得到虚拟表达熵数据集，即表达熵S′ _i；根据基因数据进行表达熵计算，获得实际表达熵数据集，即基因经过标准化的表达熵S _i。根据表达熵S′ _i以及基因经过标准化的表达熵S _i进行计算，确定所述待测细胞的纯度，确定细胞纯度的计算公式为：

其中，S _i是经过标准化的表达熵，S′ _i是通过将基因的平均表达量带入公式得到的表达熵。通过上述方法确定细胞纯度使以前没有衡量标准的一类细胞的纯度或者异质性得到了很好的定量描述。

实施例四

如图7所示，是本发明实施例的单细胞类型检测装置的结构示意图。本发明还提供一种单细胞类型检测装置，该装置可适用于执行实施例一至三任一种的单细胞类型检测方法，该装置包括：

信息基因确定模块701，用于将参考数据输入表达熵模型，确定所述参考数据中每一类细胞包含的信息基因；所述参考数据包括N个单细胞中M个基因的表达谱数据集；所述表达熵模型根据所述参考数据训练生成；

概率计算模块702，用于计算所述信息基因在所述每一类细胞中的出现概率；

细胞类型确定模块703，用于当接收到对待测单细胞进行检测获得的所述信息基因对应的表达量时，根据所述出现概率和所述表达量确定所述待测单细胞的细胞类型。

进一步地，所述装置还包括：

数据标准化模块704，用于将所述参考数据标准化得到基因表达量数据集；

表达熵计算模块705，用于根据所述基因表达量数据集进行表达熵计算，生成第一表达熵数据集；所述表达熵为信使核糖核酸的基因表达的离散程度；

模型构建模块706，用于根据所述第一表达熵数据集对所述表达熵模型进行训练，完成所述表达熵模型的构建。

需要说明的是，本发明实施例提供的一种单细胞类型检测装置，将参考数据输入表达熵模型，确定所述参考数据中每一类细胞包含的信息基因；所述表达熵模型通过训练所述参考数据得到；计算所述信息基因在所述每一类细胞中的出现概率；当接收到对待测单细胞进行检测获得的所述信息基因对应的表达量时，根据所述出现概率和所述表达量确定所述待测单细胞的细胞类型。通过向表达熵模型输入参考数据确定参考数据中每一类细胞类型包含的信息基因，并计算信息基因在每一细胞类型的出现概率，最后通过计算接收到的待测单细胞属于每一类细胞类型的概率，确定待测单细胞的细胞类型，实现将待测单细胞迅速定义到已有的细胞类型中，无需进行繁琐的现有单细胞分析流程，直接给出每个细胞的类型，极大的节省了单细胞数据分析的时间和资源。

实施例五

本发明实施例还提供一种设备，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现实施例一至实施例三中任一实施例中的单细胞类型检测方法。

如图8所示，为本发明实施例五提供的一种设备的结构示意图，该设备包括处理器801和存储装置802；设备中处理器801的数量可以是一个或多个，图8中以一个处理器801为例；设备中的处理器801和存储装置802可以通过总线或其他方式连接，图8中以通过总线连接为例。

存储装置802作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的命令处理方法对应的程序指令/模块(例如，信息基因确定模块701、概率计算模块702、细胞类型确定模块703、数据标准化模块704、表达熵计算模块705和模型构建模块706)。处理器801通过运行存储在存储装置802中的软件程序、指令以及模块，从而执行设备中的各种功能应用以及数据处理，即实现上述的命令处理方法。

实施例六

本发明实施例还提供一种存储介质，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行实施例一至实施例三中任一实施例中的单细胞类型检测方法。

当然，本发明实施例所提供的一种处理器可执行指令的存储介质，其处理器可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的单细胞类型检测方法中的相关操作。

综上所述，本发明实施例提供的一种单细胞类型检测方法、装置、设备和存储介质，将参考数据输入表达熵模型，确定所述参考数据中每一类细胞包含的信息基因；所述表达熵模型通过训练所述参考数据得到；计算所述信息基因在所述每一类细胞中的出现概率；当接收到对待测单细胞进行检测获得的所述信息基因对应的表达量时，根据所述出现概率和所述表达量确定所述待测单细胞的细胞类型。通过向表达熵模型输入参考数据确定参考数据中每一类细胞类型包含的信息基因，并计算信息基因在每一细胞类型的出现概率，最后通过计算接收到的待测单细胞属于每一类细胞类型的概率，确定待测单细胞的细胞类型，实现将待测单细胞迅速定义到已有的细胞类型中，无需进行繁琐的现有单细胞分析流程，直接给出每个细胞的类型，极大的节省了单细胞数据分析的时间和资源。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述锂电池的充电方法的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

一种单细胞类型检测方法，其特征在于，包括：

将参考数据输入表达熵模型，确定所述参考数据中每一类细胞包含的信息基因；所述参考数据包括N个单细胞中M个基因的表达谱数据集；所述表达熵模型通过训练所述参考数据得到；

计算所述信息基因在所述每一类细胞中的出现概率；

当接收到对待测单细胞进行检测获得的所述信息基因对应的表达量时，根据所述出现概率和所述表达量确定所述待测单细胞的细胞类型。
如权利要求1所述的单细胞类型检测方法，其特征在于，在将参考数据输入表达熵模型，确定所述参考数据中每一类细胞包含的信息基因之前，还包括：

将所述表达谱数据集标准化得到基因表达量数据集；

根据所述基因表达量数据集进行表达熵计算，生成第一表达熵数据集；所述表达熵为信使核糖核酸表达的离散程度；

根据所述第一表达熵数据集对所述表达熵模型进行训练，完成所述表达熵模型的构建。
如权利要求2所述的单细胞类型检测方法，其特征在于，所述将参考数据输入表达熵模型，确定所述参考数据中每一类细胞包含的信息基因，包括：

将所述参考数据输入所述表达熵模型中，生成所述M个基因对应的第二表达熵数据集；

根据所述第一表达熵数据集和所述第二表达熵数据集进行基因筛选，确定所述参考数据中每一类细胞包含的信息基因。
如权利要求2所述的单细胞类型检测方法，其特征在于，所述根据所述第一表达熵数据集对所述表达熵模型进行训练，完成所述表达熵模型的构建，包括：

根据所述基因表达量数据集获得所述M个基因的平均基因表达量；

对所述第一表达熵数据集和所述平均基因表达量进行回归分析，调整所述表达熵模型的参考系数；

根据调整后的参考系数构建所述表达熵模型。
如权利要求3所述的单细胞类型检测方法，其特征在于，所述方法还包括：

当接收到对待测单细胞进行检测获得的基因数据时，将所述基因数据输入所述表达熵模型得到虚拟表达熵数据集；

根据所述基因数据进行表达熵计算，生成实际表达熵数据集；

根据所述虚拟表达熵数据集和所述实际表达熵数据集进行计算，确定所述待测细胞的纯度。
如权利要求3所述的单细胞类型检测方法，其特征在于，所述根据所述第一表达熵数据集和所述第二表达熵数据集进行基因筛选，确定所述参考数据中每一类细胞包含的信息基因，包括：

根据所述第一表达熵数据集和所述第二表达熵数据集，获取每一所述基因对应的第一表达熵数据和第二表达熵数据；

计算每一所述基因对应的第二表达熵数据与第一表达熵数据的差值，获得所述M个基因的差值集合；

按照选取规则从所述差值集合中选出X个差值，将所述X个差值对应的基因作为所述参考数据中每一类细胞包含的信息基因。
一种单细胞类型检测装置，其特征在于，包括：

信息基因确定模块，用于将参考数据输入表达熵模型，确定所述参考数据中每一类细胞包含的信息基因；所述参考数据包括N个单细胞中M个基因的表达谱数据集；所述表达熵模型根据所述参考数据训练生成；

概率计算模块，用于计算所述信息基因在所述每一类细胞中的出现概率；

细胞类型确定模块，用于当接收到对待测单细胞进行检测获得的所述信息基因对应的表达量时，根据所述出现概率和所述表达量确定所述待测单细胞的细胞类型。
如权利要求7所述的单细胞检测装置，其特征在于，所述装置还包括：

数据标准化模块，用于将所述参考数据标准化得到基因表达量数据集；

表达熵计算模块，用于根据所述基因表达量数据集进行表达熵计算，生成第一表达熵数据集；所述表达熵为信使核糖核酸的基因表达的离散程度；

模型构建模块，用于根据所述第一表达熵数据集对所述表达熵模型进行训练，完成所述表达熵模型的构建。
一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的单细胞类型检测方法。
一种存储介质，其特征在于，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行如权利要求1至6任意一项所述的单细胞类型检测方法。