WO2021052156A1

WO2021052156A1 - 数据分析方法、装置、设备及计算机可读存储介质

Info

Publication number: WO2021052156A1
Application number: PCT/CN2020/112468
Authority: WO
Inventors: 赵惟; 徐卓扬; 左磊; 孙行智; 田静涛; 胡岗
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-09-18
Filing date: 2020-08-31
Publication date: 2021-03-25
Also published as: CN110782989A; CN110782989B

Abstract

一种数据分析方法、装置、设备及计算机可读存储介质，该方法包括：对历史慢病患者的随时间推移而呈现数值变化的时序样本指标进行分析，识别出与疾病发展具有相关性的时序预测指标，并分析确定不同历史患者群体所对应的时序预测指标变化趋势，为慢病患者分群提供参考依据，然后将当前患者的时序检验指标随时间的变化趋势与历史患者群体所对应的时序预测指标变化趋势进行对比匹配，进而确定当前患者的分群结果。

Description

数据分析方法、装置、设备及计算机可读存储介质

优先权信息

本申请要求于2019年9月18日提交中国专利局、申请号为201910884245.8，发明名称为“数据分析方法、装置、设备及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据分析技术领域，尤其涉及一种数据分析方法、装置、设备及计算机可读存储介质。

背景技术

精准医疗的核心在于根据患者的个体差异提供个性化的治疗，这也是治疗最困难的地方。对于慢性疾病来说，如何把患者(比如的一亿糖尿病患者)分成若干的子群，为每个子群制定不一样的治疗方法，达到最佳的治疗效果，是个很大的挑战。

发明人意识到，对于慢病患者，往往需要多次就诊，持续观察，而目前已有的患者分群方法一般仅考虑当前单次的检验检查指标和基本信息，忽略了患者之前的指标与当次指标的相关性，因此现有的分群方法对慢性病而言具有偶然性和随机性，所得到的分群建议的可靠性不高。

发明内容

本申请的主要目的在于提供一种数据分析方法、装置、设备及计算机可读存储介质，旨在解决现有的患者分群结果可靠性不高的技术问题。

为实现上述目的，本申请实施例提供一种数据分析方法，所述数据分析方法包括：

访问预设数据库，从所述预设数据库中获取历史患者的时序样本指标，并通过显著性检验的方式在所述时序样本指标中筛选得到与所述历史患者的健康信息具有统计学关联的时序预测指标；

分析所述时序预测指标的数值随时间的变化关系，获得所述变化关系对应的数值变化斜率均值；

基于特征归因法和所述历史患者的历史分群结果分析所述数值变化斜率均值与历史分群结果之间的非线性关系，确定表征所述非线性关系的归类控制斜率，并根据所述归类控制斜率在预设坐标系模拟得到控制轨迹线；

根据所述时序预测指标的指标类型获取当前患者的时序检验指标，并根据所述时序检验指标在所述预设坐标系拟合得到对应的检验轨迹线；

将所述检验轨迹线与所述控制轨迹线进行位置比对，并根据所述检验轨迹线与所述控制轨迹线的位置关系、所述历史患者的历史分群结果确定所述当前患者的分群结果。

此外，为实现上述目的，本申请实施例还提供一种数据分析装置，所述数据分析装置包括：

指标获取模块，用于访问预设数据库，从所述预设数据库中获取历史患者的时序样本指标，并通过显著性检验的方式在所述时序样本指标中筛选得到与所述历史患者的健康信息具有统计学关联的时序预测指标；

第一分析模块，用于分析所述时序预测指标的数值随时间的变化关系，获得所述变化关系对应的数值变化斜率均值；

第二分析模块，用于基于特征归因法和所述历史患者的历史分群结果分析所述数值变化斜率均值与历史分群结果之间的非线性关系，确定表征所述非线性关系的归类控制斜率，并根据所述归类控制斜率在预设坐标系模拟得到控制轨迹线；

轨迹拟合模块，用于根据所述时序预测指标的指标类型获取当前患者的时序检验指标，并根据所述时序检验指标在所述预设坐标系拟合得到对应的检验轨迹线；

位置比对模块，用于将所述检验轨迹线与所述控制轨迹线进行位置比对，并根据所述检验轨迹线与所述控制轨迹线的位置关系、所述历史患者的历史分群结果确定所述当前患者的分群结果。

此外，为实现上述目的，本申请实施例还提供一种数据分析设备，所述数据分析设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上述的数据分析方法的步骤。

此外，为实现上述目的，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上述的数据分析方法的步骤。

本申请实施例通过对历史慢病患者的随时间推移而呈现数值变化的时序样本指标进行分析，识别出与疾病发展具有相关性的时序预测指标，并分析确定不同历史患者群体所对应的时序预测指标变化趋势，为慢病患者分群提供参考依据，然后将当前患者的时序检验指标随时间的变化趋势与历史患者群体所对应的时序预测指标变化趋势进行对比匹配，进而确定当前患者的分群结果；由于本申请实施例是根据患者的多次检验指标进行患者分群，因而降低了单次检验数据的偶然性和随机性对分群可靠性的不利影响，提高了患者分群的可靠性。

附图说明

图1为本申请实施例方案中涉及的数据分析设备的硬件结构示意图；

图2为本申请数据分析方法第一实施例的流程示意图；

图3为本申请数据分析方法第一实施例涉及的SHAP value for K-数值变化斜率均值K示意图；

图4为本申请数据分析装置第一实施例的功能模块示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例涉及的数据分析方法主要应用于数据分析设备，该数据分析设备可以是服务器、个人计算机(personal computer，PC)、笔记本电脑等具有数据处理功能的设备。

参照图1，图1为本申请实施例方案中涉及的数据分析设备的硬件结构示意图。本申请实施例中，该数据分析设备可以包括处理器1001(例如中央处理器Central Processing Unit，CPU)，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信；用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)；网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真WIreless-FIdelity，WI-FI接口)；存储器1005可以是高速随机存取存储器(random access memory，RAM)，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器，存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解，图1中示出的硬件结构并不构成对本申请的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

继续参照图1，图1中作为一种计算机可读存储介质的存储器1005可以包括操作系统、网络通信模块以及计算机程序。在图1中，网络通信模块可用于连接预设数据库，与数据库进行数据通信；而处理器1001可以调用存储器1005中存储的计算机程序，并执行本申请实施例提供的数据分析方法。

基于上述的硬件架构，提出本申请数据分析方法的各实施例。

本申请实施例提供了一种数据分析方法。

参照图2，图2为本申请数据分析方法第一实施例的流程示意图。

本实施例中，所述数据分析方法包括以下步骤：

步骤S10，访问预设数据库，从所述预设数据库中获取历史患者的时序样本指标，并通过显著性检验的方式在所述时序样本指标中筛选得到与所述历史患者的健康信息具有统计学关联的时序预测指标；

对于慢性疾病来说，如何把患者(比如的一亿糖尿病患者)分成若干的子群，为每个子群制定不一样的治疗方法，达到最佳的治疗效果，是个很大的挑战。对于慢病患者，往往需要多次就诊，持续观察，而目前已有的患者分群方法一般仅考虑当前单次的检验检查指标和基本信息，忽略了患者之前的指标与当次指标的相关性，因此现有的分群方法对慢性病而言具有偶然性和随机性，所得到的分群建议的可靠性不高。对此，本实施例提出一种基于风险指标轨迹趋势的数据分析方法，通过对历史慢病患者的随时间推移而呈现数值变化的时序样本指标进行分析，识别出与疾病发展具有相关性的时序预测指标，并分析确定不同历史患者群体所对应的时序预测指标变化趋势，为慢病患者分群提供参考依据，然后将当前患者的时序检验指标随时间的变化趋势与历史患者群体所对应的时序预测指标变化趋势进行对比匹配，进而确定当前患者的分群结果；由于本实施例是根据患者的多次检验指标进行患者分群，因而降低了单次检验数据的偶然性和随机性对分群可靠性的不利影响，提高了患者分群的可靠性，进而为患者的健康评估提供了有效地参考依据。

本实施例中的数据分析方法是由数据分析设备实现的，该数据分析设备可以是服务器、个人计算机、笔记本电脑等设备，本实施例中以服务器为例进行说明。服务器与预设数据库通信连接；该数据库中存储有若干历史患者所提供的样本指标，当然对于不同疾病类型的历史患者，其对应的样本指标类型不同，例如糖尿病患者的样本指标包括糖化血红蛋白、血糖浓度、血压等，慢性肾病患者的样本指标包括肾小球滤过率等。值得说明的是，对于每一类检验样本，都包括若干个检验时刻的数据值，具有一定的时序性，而不是单次检验的数据值，也即该样本指标为时序样本指标。

本实施例中的服务器可从预设数据库中获取时序样本指标。而对于这些时序样本指标，由于其类别较多，而在实际中不是所有的时序样本指标都与某类疾病具有相关性，因此服务器可通过显著性检验或人工标记筛选的方式，从时序样本指标中筛选出与用户健康(疾病的不良事件、死亡结局)有相关性的时序预测指标，作为可能的风险因素进行后续分析；其中，对于用户健康，可以是根据时序样本指标所对应历史用户的健康信息获得，因此该时序预测指标可认为是与历史患者的健康信息具有统计学关联(具有显著的统计学意义)。例如，当采用显著性检验的方式时，可以将各类时序样本指标分别作为特征变量，将历史患者最终的健康状况(或疾病诊断结果、不良事件、死亡等)作为结局变量，然后采用卡方检验方式对特征变量和结局变量之间的关系进行挖掘，通过卡方检验计算的P-value<0.05的方式识别出对结局变量影响具有显著统计学意义的特征变量，该特征变量所对应的时序样本指标即为时序预测指标；进一步的，还可以利用相对危险度RR或比数比OR来分析这些特征变量对结局变量的是正向还是负向影响(进而确定时序样本指标为危险或保护因素)。

步骤S20，分析所述时序预测指标的数值随时间的变化关系，获得所述变化关系对应的数值变化斜率均值；

本实施例中，服务器在得到与用户健康具有相关性的时序预测指标时，可对这些时序预测指标的数值随时间的变化关系进行分析，并通过数值变化斜率的方式对该变化关系进行表征。其中，在进行分析时，是以时间作为自变量(x轴)，以时序预测指标的数值作为因变量(y轴)，然后在预设坐标系中以绘制出各时序预测指标对应的数值点，然后根据时间先后顺序将各数值点连接成线，得到预测指标线；再对预测指标线进行斜率分析，确定预测指标的数值变化斜率均值，该数值变化斜率均值即表征了时序预测指标的数值随时间的变化关系。值得说明的是，当时序预测指标的类型包括多类时，服务器时分别对各类时序预测指标进行分析，得到多个数值变化斜率均值。

进一步的，考虑到在发生不可逆的病情变化时，与之具有相关性的指标一般是呈单调变化，因此本实施例中可仅对波动较小较稳定的指标来进行分析。具体的，所述步骤S20之前，还包括；

对所述时序预测指标进行稳定性筛选，得到满足预设变化规律的目标预设指标；

本实施例中，服务器在得到与健康具有相关性的时序预测指标时，为了使得分析过程更加准确可靠，可先对时序预测指标进行稳定性筛选，排除波动较大的时序预测指标，得到波动平缓的且有单调变化规律的目标预测指标，然后再对目标预测指标进行分析；对于该单调变化规律，包括单调下降和单调上升。其中，对于对于波动较平缓且有单点规律变化的指标，可以是通过以下公式进行识别：

对于单调下降的指标：

max(x(i+1)-x(i))＜a，and

对于单调上升的指标：

max(x(i+1)-x(i))＞b，and

上述公式中，x(i+1)为i+1时刻的时序预测指标的数据值，x(i)为i时刻的时序预测指标的数据值；a为大于零且接近零的常数，b为小于零且接近零的常数；threshold1、threshold2为变化率的绝对值阈值，且均为大于零的常数。波动平缓即限制时序预测指标的数值变化率绝对值在一个阈值以内。

所述步骤S20包括：

分析所述目标预测指标的数值随时间的变化关系，获得所述变化关系对应的数值变化斜率均值；

服务器再得到目标预测指标时，可对目标预测指标的数值随时间的变化关系进行分析，得到对应的数值变化斜率均值，具体分析过程如上述，此处不再赘述。

步骤S30，基于特征归因法和所述历史患者的历史分群结果分析所述数值变化斜率均值与历史分群结果之间的非线性关系，确定表征所述非线性关系的归类控制斜率，并根据所述归类控制斜率在预设坐标系模拟得到控制轨迹线；

本实施例中，服务器得到时序预测指标(目标预测指标)所对应的数值变化斜率均值时，将基于SHAP特征归因法和历史患者的历史分群结果(即时序预测指标所对应的历史患者的历史分群结果)分析数值变化斜率均值与历史患者分群标准(患者健康状况)之间的非线性关系，找到用以表征该非线性关系的归类控制斜率，该归类控制斜率可包括最佳控制值k、对归类结局有正向典型影响的正向控制值k1、对归类结局有负向典型影响的负向控制值k2，从而建立指标的数值变化斜率均值对于患者分群的预测模型。其中，SHAP是一种解释机器学习模型输出的方法，通过计算一个特征加入到模型时的边际贡献，然后考虑到该特征在所有的特征序列的情况下不同的边际贡献并取均值，该均值也即该特征的SHAP值，并通过该SHAP值来表征该特征对与结局的非线性关系，SHAP值越大对结局的影响越正向，值越小对结局的影响越负向。

具体的，本实施例中，可以是将若干个的数值变化斜率K作为特征变量，这些特征变量形成了全集N，并将历史患者的历史分群结果作为结局变量；从特征变量全集N随机选择一个作为当前变量α，然后确定出全集N中包括当前变量α的所有子集(值得说明的是包括N本身)，这些包括当前变量α的所有子集可记为Ri(γ+α)，而这些子集的数量记为n；在确定这些子集时，可进一步将这些子集中的当前变量α去除，从而得到与Ri(γ+α)对应的非α子集，可记为Ri(γ)；然后可基于预设算法(如LIME算法、DeepLIFT 算法、Layer-Wise Relevance Propagation算法、Classic Shapley Value Estimation算法等)计算出各Ri(γ+α)对于结局变量的贡献度F[Ri(γ+α)]、以及各Ri(γ)的贡献度F[Ri(γ)]；然后可计算各F[Ri(γ+α)]与对应的F[Ri(γ)]的差值ΔFi，并对各ΔFi差值求均值，该均值即为当前变量α的SHAP值；依此类推，可得到各特征变量的SHAP值，也即计算出各数值变化斜率K针对历史分群结果的SHAP值，进而根据各SHAP值的大小确定出对所述结局变量具有典型影响的目标变量，并将所述目标变量对应的数值变化斜率均值确定为所述归类控制斜率，如确定出最佳控制值k、对归类结局有正向典型影响的正向控制值k1、对归类结局有负向典型影响的负向控制值k2；在得到上述控制值时，即可认为建立了相关患者分群的预测模型，当输入了某一预测的斜率均值时，可通过该预测模型中的控制值与输入值之间的大小关系输出预测结果。例如，对于通过建立指标的数值变化斜率均值K对历史分群结果的预测模型，通过SHAP特征归因方法分析指标的数值变化斜率均值K与历史分群结果之间的非线性关系，此关系由服务器输出的SHAP value for K-数值变化斜率均值K的图可以说明，如图3所示；在图3中，x轴表示数值变化斜率均值K，y轴表示了数值变化斜率均值K对于历史分群结果的影响程度，y>0表示正向影响，y<0表示负向影响；在此SHAP value for K-数值变化斜率均值K的图中找出SHAP value＝0时K的取值，记为k，即为cutoff临界值(最佳控制值k)；当K>k和K<k时数值变化对分类结果分别具有正向或者反向的作用，因此需要进一步找出典型正向作用的斜率均值k1(正向控制值k1)，以及典型负向作用的斜率均值k2(负向控制值k2)，来作为分类的中心线斜率依据；此时，可取SHAP value for K-数值变化斜率均值K的图中SHAP value＝1时的K值为k1，指标斜率均值K的图中SHAP value＝-1时的K值为k2。

得到归类控制斜率(k、k1、k2)之后，即可根据归类控制斜率在预设坐标系中拟合得到对应的控制轨迹线，这些控制轨迹线可将时序预测指标对应的指标数值变化轨迹分为三种典型类型；这些控制轨迹线分别可记为y＝k*x+b、y1＝k1*x+b1、y2＝k2*x+b2，其中b1、b2、b3均为常数，y表示对历史分群结果无明显影响的指标数值轨迹，y1表示对历史分群结果有明显正向影响的指标数值轨迹，y2表示对历史分群结果有明显负向影响的指标数值轨迹，这三条控制轨迹线即为历史分群结果所对应的指标数值变化趋势对应的数据轨迹中心线。值得说明的是，在实际中，归类控制斜率和控制轨迹线的数量可以是根据实际情况进行定义。

步骤S40，根据所述时序预测指标的指标类型获取当前患者的时序检验指标，并根据所述时序检验指标在所述预设坐标系拟合得到对应的检验轨迹线；

本实施例中，在得到控制轨迹线时，即可根据控制轨迹线、结合当前患者的时序检验指标对患者进行分群。首先，服务器可根据时序预测指标的指标类型获取当前患者的时序检验指标，也即获取与控制轨迹线对应的检验指标(如糖尿病患者的指标包括糖化血红蛋白、血糖浓度、血压等，慢性肾病患者的指标包括肾小球滤过率等)。

具体的，所述根据所述时序预测指标的指标类型获取当前患者的时序检验指标的步骤包括：

从所述预设数据库中获取所述当前患者在预设周期内的周期体检数据，并根据所述时序预测指标的指标类型对所述周期体检数据进行筛选，获取与所述时序预测指标的指标类型对应的时序检验指标。

本实施例中，为了方便当前患者提供资料，对于该时序检验指标，可以时服务器根据当前患者的体检数据中自动识别和筛选得到。具体的，当前患者在进行体检(或者进行某些身体检查)后，可自行或通过授权他人将自己的体检数据上传至数据库(如医院的医疗系统数据库)。而服务器将与数据库进行连接，从数据库中获取当前患者在某一预设周期内的周期体检数据，然后根据时序预测指标的指标类型对周期体检数据进行筛选，获取与时序预测指标的指标类型对应的时序检验指标，并根据该时序检验指标进行后续分析处理，从而提高了指标(数据)获取的效率，也方便当前患者提供相关的检验指标资料。

进一步，由于患者的体检数据属于隐私数据，因此对于当前患者的体检数据，可以通过设置许可和加密的方式来提高当前患者的体检数据存储的安全性。具体的，所述从所述预设数据库中获取所述当前患者在预设周期内的周期体检数据的步骤之前，还包括：

向患者终端发送数据获取请求；

本实施例中，各患者存储在数据库中的体检数据是分别以不同的账户标识进行建表存储，且这些体检数据在数据库中是以加密的方式进行存储，而解密所用的密钥则由当前患者自行保管，从而提高数据存储的安全性。服务器在获取当前患者的周期体检数据前，首先会向当前患者的患者终端(如手机、平板电脑等)发送数据获取请求，以获得调取当前患者的体检数据的权限。

接收所述患者终端返回的数据许可信息，并对所述数据许可信息进行解析，得到对应的患者账户标识和患者数据密钥；

本实施例中，若当前患者同意服务器调取自己的体检数据，可操作患者终端向服务器返回对于的数据许可信息，该数据许可信息包括患者账户标识和患者数据密钥。服务器在接收到数据许可信息时，可对所述数据许可信息进行解析，得到对应的患者账户标识和患者数据密钥。

所述从所述预设数据库中获取所述当前患者在预设周期内的周期体检数据的步骤包括：

通过所述患者账户标识访问所述预设数据库，获取所述当前患者的加密体验数据；

本实施例中，服务器得到患者账户标识和患者数据密钥时，即可通过患者账户标识访问所述预设数据库，查询到相应的数据表(账户数据)，并获取到当前患者的加密体验数据

通过所述患者数据密钥对所述加密体验数据进行解密，并根据解密结果获取所述当前患者在预设周期内的周期体检数据。

本实施例中，服务器在得到当前患者的加密体验数据时，即可通过患者数据密钥对加密体验数据进行解密，并根据解密结果获取到当前患者在预设周期内的周期体检数据。

服务器在得到周期体检数据时，即可根据时序预测指标的指标类型对周期体检数据进行筛选，获取与时序预测指标的指标类型对应的时序检验指标；然后将时序检验指标中的数值作为因变量(y轴)，以时间作为自变量(x轴)，在预设坐标系中拟合得到对应的检验轨迹线。

步骤S50，将所述检验轨迹线与所述控制轨迹线进行位置比对，并根据所述检验轨迹线与所述控制轨迹线的位置关系、所述历史患者的历史分群结果确定所述当前患者的分群结果。

本实施例中，在得到检验轨迹线时，可将检验轨迹线与控制轨迹线进行位置比对，然后根据检验轨迹线与控制轨迹线的位置关系确定检验轨迹线的轨迹类型；而对于不同的位置关系，则对应了历史患者不同的历史分群结果，当确定检验轨迹线的与控制轨迹线的位置关系时，即可根据该位置关系确定出当前患者的分群结果，从而确定当前患者的相似患者群体。具体的，以一条控制轨迹线为例，历史患者的历史分群结果包括两种结果；在预设坐标系中，通过所述控制轨迹线可将预设坐标系的某一目标象限划分为至少两个子区域，其中每一个子区域分别对应一种历史分群结果；然后可确定检验轨迹线所处的目标子区域，对于该目标子区域所对应的历史分群结果，即为当前患者的分群结果；值得说明的是，为了方便比对控制轨迹线与检验轨迹线的位置关系，可以在对比时对两者进行一定的平移处理，以使两者在y轴或x轴中相交于同一点。

进一步，所述步骤S50之后，还包括：

将所述当前患者的分群结果发送至对应的诊疗终端；

本实施例中，服务器在得到当前患者的分群结果时，可将当前患者的分群结果发送至对应的诊疗终端，以医疗人员对当前患者的诊疗提供参考。

在接收到述诊疗终端返回的分群调整信息时，根据所述分群校正信息对所述当前患者的分群结果进行调整，并将所述当前患者调整后的分群结果和所述时序检验指标关联存储至所述预设数据库中。

本实施例中，由于服务器所提供的当前患者的分群结果仅为参考使用，而医疗人员对该当前患者的分群结果可能会进行调整；当需要调整时，医疗人员可通过诊疗终端向服务器返回对应的分群调整信息。服务器在接收所述诊疗终端返回的分群调整信息时，根据分群校正信息对当前患者的分群结果进行调整，然后将所述当前患者调整后的分群结果和时序检验指标关联存储至数据库中，以供后续参考使用。通过这样的方式，可不断根据实际医疗处理的过程积累更多的样本数据，便于后续对分析过程进行优化和调整。

再进一步的，本实施例的数据分析方法还包括：

当接收到所述分群调整信息的次数大于预设阈值时，根据所述预设数据库中新入库的时序检验指标和所述新入库的时序检验指标对应的分群结果重新获取对应的控制轨迹线。

本实施例中，服务器还将会对接收到分群调整信息的次数进行统计，当接收到的分群调整信息的次数大于预设阈值时，可认为是之前分析确定、当前使用的控制轨迹线不符合实际情况；此时服务器可调取新入库的时序检验指标和新入库的时序检验指标对应的分群结果，然后根据该新入库的时序检验指标及其分群结果重新进行分析处理，以重新获取对应的控制轨迹线并用于后续的患者分群；其中，控制轨迹线的重新获取过程如上述步骤所述，此处不再赘述。通过这样的方式，可不断根据实际医疗处理情况对控制轨迹线进行优化和调整，进而提高患者分群的准确性和可靠性。

本实施例通过对历史慢病患者的随时间推移而呈现数值变化的时序样本指标进行分析，识别出与疾病发展具有相关性的时序预测指标，并分析确定不同历史患者群体所对应的时序预测指标变化趋势，为慢病患者分群提供参考依据，然后将当前患者的时序检验指标随时间的变化趋势与历史患者群体所对应的时序预测指标变化趋势进行对比匹配，进而确定当前患者的分群结果；由于本申请实施例是根据患者的多次检验指标进行患者分群，因而降低了单次检验数据的偶然性和随机性对分群可靠性的不利影响，提高了患者分群的可靠性，进而为患者的健康评估提供了有效的参考依据。

基于上述图2所示实施例，提出本申请数据分析方法第二实施例。

本实施例中，所述步骤S50之后，还包括：

根据所述当前患者的分群结果从所述预设数据库中获取同类患者的历史健康数据，并将所述历史健康数据发送至对应终端。

本实施例中，服务器在得到当前患者的分群结果时，可根据当前患者的分群结果从数据库中获取同类患者的历史健康数据，然后将这些历史健康数据发送至对应终端(如诊疗人员的诊疗终端、当前患者的患者终端等)，以为对应的终端人员提供健康参考依据，为后续的诊疗处理提供方便。

此外，本申请实施例还提供一种数据分析装置。

参照图4，图4为本申请数据分析装置第一实施例的功能模块示意图。

本实施例中，所述数据分析装置包括：

指标获取模块10，用于访问预设数据库，从所述预设数据库中获取历史患者的时序样本指标，并通过显著性检验的方式在所述时序样本指标中筛选得到与所述历史患者的健康信息具有统计学关联的时序预测指标；

第一分析模块20，用于分析所述时序预测指标的数值随时间的变化关系，获得所述变化关系对应的数值变化斜率均值；

第二分析模块30，用于基于特征归因法和所述历史患者的历史分群结果分析所述数值变化斜率均值与历史分群结果之间的非线性关系，确定表征所述非线性关系的归类控制斜率，并根据所述归类控制斜率在预设坐标系模拟得到控制轨迹线；

轨迹拟合模块40，用于根据所述时序预测指标的指标类型获取当前患者的时序检验指标，并根据所述时序检验指标在所述预设坐标系拟合得到对应的检验轨迹线；

位置比对模块50，用于将所述检验轨迹线与所述控制轨迹线进行位置比对，并根据所述检验轨迹线与所述控制轨迹线的位置关系、所述历史患者的历史分群结果确定所述当前患者的分群结果。

其中，上述数据分析装置的各虚拟功能模块存储于图1所示数据分析设备的存储器1005中，用于实现计算机程序的所有功能；各模块被处理器1001执行时，可实现患者分群的功能。

进一步的，所述数据分析装置还包括：

指标筛选模块，用于对所述时序预测指标进行稳定性筛选，得到满足预设变化规律的目标预测指标；

所述第一分析模块20，还用于分析所述目标预测指标的数值随时间的变化关系，获得所述变化关系对应的数值变化斜率均值。

进一步的，所述预设变化规律包括单调下降和/或单调上升，

所述指标筛选模块，具体用于通过第一公式对所述对所述时序预测指标进行稳定性筛选，得到满足单调下降规律的目标预测指标，所述第一公式为

max(x(i+1)-x(i))＜a，and

和/或，通过第二公式对所述对所述时序预测指标进行稳定性筛选，得到满足单调上升规律的目标预测指标，所述第二公式为

max(x(i+1)-x(i))＞b，and

其中，x(i+1)为i+1时刻的时序预测指标的数据值，x(i)为i时刻的时序预测指标的数据值；

a为大于零的常数，b为小于零的常数；

threshold1、threshold2均为大于零的常数。

进一步的，所述第二分析模块30包括：

斜率确定单元，用于将所述数值变化斜率均值作为特征变量，将所述历史分群结果作为结局变量，其中所述特征变量形成全集N；从所述N中选择一个特征变量作为当前变量α，确定出所述N的包括当前变量α的所有子集Ri(γ+α)，并确定Ri(γ+α)对应的不包括当前变量α的非α子集Ri(γ)；通过预设算法分别计算各Ri(γ+α)对所述结局变量的贡献度F[Ri(γ+α)]，以及各Ri(γ)对所述结局变量的贡献度F[Ri(γ)]；分别计算各F[Ri(γ+α)]与对应F[Ri(γ)]的贡献度差值ΔFi，并计算各ΔFi的均值作为当前变量α的SHAP值；依此分别计算所述N中各特征变量的SHAP值，根据各特征变量的SHAP值的大小确定出对所述结局变量具有典型影响的目标变量，并将所述目标变量对应的数值变化斜率均值确定为所述归类控制斜率。

进一步的，所述轨迹拟合模块40包括数据获取单元，

所述数据获取单元，用于从所述预设数据库中获取所述当前患者在预设周期内的周期体检数据，并根据所述时序预测指标的指标类型对所述周期体检数据进行筛选，获取与所述时序预测指标的指标类型对应的时序检验指标。

进一步的，所述数据分析装置还包括：

数据发送模块，用于根据所述当前患者的分群结果从所述预设数据库中获取同类患者的历史健康数据，并将所述历史健康数据发送至对应终端。

其中，上述数据分析装置中各个模块的功能实现与上述数据分析方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

此外，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性的，也可以是易失性的。

本申请计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上述的数据分析方法的步骤。

其中，计算机程序被执行时所实现的方法可参照本申请数据分析方法的各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种数据分析方法，包括：

访问预设数据库，从所述预设数据库中获取历史患者的时序样本指标，并通过显著性检验的方式在所述时序样本指标中筛选得到与所述历史患者的健康信息具有统计学关联的时序预测指标；

分析所述时序预测指标的数值随时间的变化关系，获得所述变化关系对应的数值变化斜率均值；

基于特征归因法和所述历史患者的历史分群结果分析所述数值变化斜率均值与历史分群结果之间的非线性关系，确定表征所述非线性关系的归类控制斜率，并根据所述归类控制斜率在预设坐标系模拟得到控制轨迹线；

根据所述时序预测指标的指标类型获取当前患者的时序检验指标，并根据所述时序检验指标在所述预设坐标系拟合得到对应的检验轨迹线；

将所述检验轨迹线与所述控制轨迹线进行位置比对，并根据所述检验轨迹线与所述控制轨迹线的位置关系、所述历史患者的历史分群结果确定所述当前患者的分群结果。
如权利要求1所述的数据分析方法，其中，所述分析所述时序预测指标的数值随时间的变化关系，获得所述变化关系对应的数值变化斜率均值的步骤之前，还包括：

对所述时序预测指标进行稳定性筛选，得到满足预设变化规律的目标预测指标；

所述分析所述时序预测指标的数值随时间的变化关系，获得所述变化关系对应的数值变化斜率均值的步骤包括：

分析所述目标预测指标的数值随时间的变化关系，获得所述变化关系对应的数值变化斜率均值。
如权利要求2所述的数据分析方法，其中，所述预设变化规律包括单调下降和/或单调上升，

所述对所述时序预测指标进行稳定性筛选，得到满足预设变化规律的目标预测指标的步骤包括：

通过第一公式对所述对所述时序预测指标进行稳定性筛选，得到满足单调下降规律的目标预测指标，所述第一公式为

和/或，通过第二公式对所述对所述时序预测指标进行稳定性筛选，得到满足单调上升规律的目标预测指标，所述第二公式为

其中，x(i+1)为i+1时刻的时序预测指标的数据值，x(i)为i时刻的时序预测指标的数据值；

a为大于零的常数，b为小于零的常数；

threshold1、threshold2均为大于零的常数。
如权利要求1所述的数据分析方法，其中，所述基于特征归因法和所述历史患者的历史分群结果分析所述数值变化斜率均值与历史分群结果之间的非线性关系，确定表征所述非线性关系的归类控制斜率的步骤包括：

将所述数值变化斜率均值作为特征变量，将所述历史分群结果作为结局变量，其中所述特征变量形成全集N；

从所述N中选择一个特征变量作为当前变量α，确定出所述N的包括当前变量α的所有子集Ri(γ+α)，并确定Ri(γ+α)对应的不包括当前变量α的非α子集Ri(γ)；

通过预设算法分别计算各Ri(γ+α)对所述结局变量的贡献度F[Ri(γ+α)]，以及各Ri(γ)对所述结局变量的贡献度F[Ri(γ)]；

分别计算各F[Ri(γ+α)]与对应F[Ri(γ)]的贡献度差值ΔFi，并计算各ΔFi的均值作为当前变量α的SHAP值；

依此分别计算所述N中各特征变量的SHAP值，根据各特征变量的SHAP值的大小确定出对所述结局变量具有典型影响的目标变量，并将所述目标变量对应的数值变化斜率均值确定为所述归类控制斜率。
如权利要求1所述的数据分析方法，其中，所述将所述检验轨迹线与所述控制轨迹线进行位置比对，并根据所述检验轨迹线与所述控制轨迹线的位置关系、所述历史患者的历史分群结果确定所述当前患者的分群结果的步骤包括：

通过所述控制轨迹线将所述预设坐标系的目标象限划分为至少两个子区域，其中各子区域分别与所述历史患者的历史分群结果一一对应；

确定所述检验轨迹线所处的目标子区域，并根据所述目标子区域所对应的历史分群结果确定所述当前患者的分群结果。
如权利要求1所述的数据分析方法，其中，所述根据所述时序预测指标的指标类型获取当前患者的时序检验指标的步骤包括：

从所述预设数据库中获取所述当前患者在预设周期内的周期体检数据，并根据所述时序预测指标的指标类型对所述周期体检数据进行筛选，获取与所述时序预测指标的指标类型对应的时序检验指标。
如权利要求1至6中任一项所述的数据分析方法，其中，所述将所述检验轨迹线与所述控制轨迹线进行位置比对，并根据所述检验轨迹线与所述控制轨迹线的位置关系、所述历史患者的历史分群结果确定所述当前患者的分群结果的步骤之后，还包括：

根据所述当前患者的分群结果从所述预设数据库中获取同类患者的历史健康数据，并将所述历史健康数据发送至对应终端。
一种数据分析装置，其中，所述数据分析装置包括：

指标获取模块，用于访问预设数据库，从所述预设数据库中获取历史患者的时序样本指标，并通过显著性检验的方式在所述时序样本指标中筛选得到与所述历史患者的健康信息具有统计学关联的时序预测指标；

第一分析模块，用于分析所述时序预测指标的数值随时间的变化关系，获得所述变化关系对应的数值变化斜率均值；

第二分析模块，用于基于特征归因法和所述历史患者的历史分群结果分析所述数值变化斜率均值与历史分群结果之间的非线性关系，确定表征所述非线性关系的归类控制斜率，并根据所述归类控制斜率在预设坐标系模拟得到控制轨迹线；

轨迹拟合模块，用于根据所述时序预测指标的指标类型获取当前患者的时序检验指标，并根据所述时序检验指标在所述预设坐标系拟合得到对应的检验轨迹线；

位置比对模块，用于将所述检验轨迹线与所述控制轨迹线进行位置比对，并根据所述检验轨迹线与所述控制轨迹线的位置关系、所述历史患者的历史分群结果确定所述当前患者的分群结果。
一种数据分析设备，其中，所述数据分析设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，所述计算机程序被所述处理器执行时，实现如下步骤：

访问预设数据库，从所述预设数据库中获取历史患者的时序样本指标，并通过显著性检验的方式在所述时序样本指标中筛选得到与所述历史患者的健康信息具有统计学关联的时序预测指标；

分析所述时序预测指标的数值随时间的变化关系，获得所述变化关系对应的数值变化斜率均值；

基于特征归因法和所述历史患者的历史分群结果分析所述数值变化斜率均值与历史分群结果之间的非线性关系，确定表征所述非线性关系的归类控制斜率，并根据所述归类控制斜率在预设坐标系模拟得到控制轨迹线；

根据所述时序预测指标的指标类型获取当前患者的时序检验指标，并根据所述时序检验指标在所述预设坐标系拟合得到对应的检验轨迹线；

将所述检验轨迹线与所述控制轨迹线进行位置比对，并根据所述检验轨迹线与所述控制轨迹线的位置关系、所述历史患者的历史分群结果确定所述当前患者的分群结果。
如权利要求9所述的数据分析设备，其中，所述分析所述时序预测指标的数值随时间的变化关系，获得所述变化关系对应的数值变化斜率均值的步骤之前，还包括：

对所述时序预测指标进行稳定性筛选，得到满足预设变化规律的目标预测指标；

所述分析所述时序预测指标的数值随时间的变化关系，获得所述变化关系对应的数值变化斜率均值的步骤包括：

分析所述目标预测指标的数值随时间的变化关系，获得所述变化关系对应的数值变化斜率均值。
如权利要求10所述的数据分析设备，其中，所述预设变化规律包括单调下降和/或单调上升，

所述对所述时序预测指标进行稳定性筛选，得到满足预设变化规律的目标预测指标的步骤包括：

通过第一公式对所述对所述时序预测指标进行稳定性筛选，得到满足单调下降规律的目标预测指标，所述第一公式为

和/或，通过第二公式对所述对所述时序预测指标进行稳定性筛选，得到满足单调上升规律的目标预测指标，所述第二公式为

其中，x(i+1)为i+1时刻的时序预测指标的数据值，x(i)为i时刻的时序预测指标的数据值；

a为大于零的常数，b为小于零的常数；

threshold1、threshold2均为大于零的常数。
如权利要求9所述的数据分析设备，其中，所述基于特征归因法和所述历史患者的历史分群结果分析所述数值变化斜率均值与历史分群结果之间的非线性关系，确定表征所述非线性关系的归类控制斜率的步骤包括：

将所述数值变化斜率均值作为特征变量，将所述历史分群结果作为结局变量，其中所述特征变量形成全集N；

从所述N中选择一个特征变量作为当前变量α，确定出所述N的包括当前变量α的所有子集Ri(γ+α)，并确定Ri(γ+α)对应的不包括当前变量α的非α子集Ri(γ)；

通过预设算法分别计算各Ri(γ+α)对所述结局变量的贡献度F[Ri(γ+α)]，以及各Ri(γ)对所述结局变量的贡献度F[Ri(γ)]；

分别计算各F[Ri(γ+α)]与对应F[Ri(γ)]的贡献度差值ΔFi，并计算各ΔFi的均值作为当前变量α的SHAP值；

依此分别计算所述N中各特征变量的SHAP值，根据各特征变量的SHAP值的大小确定出对所述结局变量具有典型影响的目标变量，并将所述目标变量对应的数值变化斜率均值确定为所述归类控制斜率。
如权利要求9所述的数据分析设备，其中，所述将所述检验轨迹线与所述控制轨迹线进行位置比对，并根据所述检验轨迹线与所述控制轨迹线的位置关系、所述历史患者的历史分群结果确定所述当前患者的分群结果的步骤包括：

通过所述控制轨迹线将所述预设坐标系的目标象限划分为至少两个子区域，其中各子区域分别与所述历史患者的历史分群结果一一对应；

确定所述检验轨迹线所处的目标子区域，并根据所述目标子区域所对应的历史分群结果确定所述当前患者的分群结果。
如权利要求9所述的数据分析设备，其中，所述根据所述时序预测指标的指标类型获取当前患者的时序检验指标的步骤包括：

从所述预设数据库中获取所述当前患者在预设周期内的周期体检数据，并根据所述时序预测指标的指标类型对所述周期体检数据进行筛选，获取与所述时序预测指标的指标类型对应的时序检验指标。
如权利要求9至14中任一项所述的数据分析设备，其中，所述将所述检验轨迹线与所述控制轨迹线进行位置比对，并根据所述检验轨迹线与所述控制轨迹线的位置关系、所述历史患者的历史分群结果确定所述当前患者的分群结果的步骤之后，还包括：

根据所述当前患者的分群结果从所述预设数据库中获取同类患者的历史健康数据，并将所述历史健康数据发送至对应终端。
一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如下步骤：

访问预设数据库，从所述预设数据库中获取历史患者的时序样本指标，并通过显著性检验的方式在所述时序样本指标中筛选得到与所述历史患者的健康信息具有统计学关联的时序预测指标；

分析所述时序预测指标的数值随时间的变化关系，获得所述变化关系对应的数值变化斜率均值；

基于特征归因法和所述历史患者的历史分群结果分析所述数值变化斜率均值与历史分群结果之间的非线性关系，确定表征所述非线性关系的归类控制斜率，并根据所述归类控制斜率在预设坐标系模拟得到控制轨迹线；

根据所述时序预测指标的指标类型获取当前患者的时序检验指标，并根据所述时序检验指标在所述预设坐标系拟合得到对应的检验轨迹线；

将所述检验轨迹线与所述控制轨迹线进行位置比对，并根据所述检验轨迹线与所述控制轨迹线的位置关系、所述历史患者的历史分群结果确定所述当前患者的分群结果。
如权利要求16所述的计算机可读存储介质，其中，所述分析所述时序预测指标的数值随时间的变化关系，获得所述变化关系对应的数值变化斜率均值的步骤之前，还包括：

对所述时序预测指标进行稳定性筛选，得到满足预设变化规律的目标预测指标；

所述分析所述时序预测指标的数值随时间的变化关系，获得所述变化关系对应的数值变化斜率均值的步骤包括：

分析所述目标预测指标的数值随时间的变化关系，获得所述变化关系对应的数值变化斜率均值。
如权利要求17所述的计算机可读存储介质，其中，所述预设变化规律包括单调下降和/或单调上升，

所述对所述时序预测指标进行稳定性筛选，得到满足预设变化规律的目标预测指标的步骤包括：

通过第一公式对所述对所述时序预测指标进行稳定性筛选，得到满足单调下降规律的目标预测指标，所述第一公式为

和/或，通过第二公式对所述对所述时序预测指标进行稳定性筛选，得到满足单调上升规律的目标预测指标，所述第二公式为

其中，x(i+1)为i+1时刻的时序预测指标的数据值，x(i)为i时刻的时序预测指标的数据值；

a为大于零的常数，b为小于零的常数；

threshold1、threshold2均为大于零的常数。
如权利要求16所述的计算机可读存储介质，其中，所述基于特征归因法和所述历史患者的历史分群结果分析所述数值变化斜率均值与历史分群结果之间的非线性关系，确定表征所述非线性关系的归类控制斜率的步骤包括：

将所述数值变化斜率均值作为特征变量，将所述历史分群结果作为结局变量，其中所述特征变量形成全集N；

从所述N中选择一个特征变量作为当前变量α，确定出所述N的包括当前变量α的所有子集Ri(γ+α)，并确定Ri(γ+α)对应的不包括当前变量α的非α子集Ri(γ)；

通过预设算法分别计算各Ri(γ+α)对所述结局变量的贡献度F[Ri(γ+α)]，以及各Ri(γ)对所述结局变量的贡献度F[Ri(γ)]；

分别计算各F[Ri(γ+α)]与对应F[Ri(γ)]的贡献度差值ΔFi，并计算各ΔFi的均值作为当前变量α的SHAP值；

依此分别计算所述N中各特征变量的SHAP值，根据各特征变量的SHAP值的大小确定出对所述结局变量具有典型影响的目标变量，并将所述目标变量对应的数值变化斜率均值确定为所述归类控制斜率。
如权利要求16所述的计算机可读存储介质，其中，所述将所述检验轨迹线与所述控制轨迹线进行位置比对，并根据所述检验轨迹线与所述控制轨迹线的位置关系、所述历史患者的历史分群结果确定所述当前患者的分群结果的步骤包括：

通过所述控制轨迹线将所述预设坐标系的目标象限划分为至少两个子区域，其中各子区域分别与所述历史患者的历史分群结果一一对应；

确定所述检验轨迹线所处的目标子区域，并根据所述目标子区域所对应的历史分群结果确定所述当前患者的分群结果。