WO2020034801A1

WO2020034801A1 - 医疗特征筛选方法、装置、计算机设备和存储介质

Info

Publication number: WO2020034801A1
Application number: PCT/CN2019/096262
Authority: WO
Inventors: 荣絮; 冯骞; 吴亚博; 郑毅
Original assignee: 平安医疗健康管理股份有限公司
Priority date: 2018-08-14
Filing date: 2019-07-17
Publication date: 2020-02-20
Also published as: CN109065175A

Abstract

一种医疗特征筛选方法、装置、计算机设备和存储介质。所述方法包括：获取原始医疗数据，对原始医疗数据进行预处理，得到预处理的医疗数据；调用预设脚本，将预处理的医疗数据输入到所述预设脚本中，所述预设脚本用于按照目标特征类型进行特征构建，得到所述预设脚本输出的目标特征类型对应的医疗初始特征；根据医疗初始特征生成医疗特征子集，计算医疗特征子集的评价函数值，当医疗特征子集的评价函数值达到停止准则时，将医疗特征子集作为目标医疗特征集。

Description

医疗特征筛选方法、装置、计算机设备和存储介质

相关申请的交叉引用

本申请要求于2018年08月14日提交中国专利局，申请号为201810925041X，申请名称为“医疗特征筛选方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及一种医疗特征筛选方法、装置、计算机设备和存储介质。

背景技术

目前在医疗领域中，通过机器学习来对医疗大数据进行分析挖掘和洞察。由于是以机器学习算法为核心，数据和特征变量是算法模型的主要输入，因此对数据质量和特征变量的依赖很大。由于医疗数据的种类多、数据量大，在得到训练机器学习模型时需要的输入特征时，通常需要花费大量的服务器运行资源从医疗数据提取到数据的特征，导致服务器的运行效率降低。

发明内容

根据本申请公开的各种实施例，提供一种医疗特征筛选方法、装置、计算机设备和存储介质。

一种医疗特征筛选方法，包括：

获取原始医疗数据，对原始医疗数据进行预处理，得到预处理的医疗数据；

调用预设脚本，将预处理的医疗数据输入到所述预设脚本中，所述预设脚本用于按照目标特征类型进行特征构建，得到所述预设脚本输出的目标特征类型对应的医疗初始特征；及

根据医疗初始特征生成医疗特征子集，计算医疗特征子集的评价函数值，当医疗特征子集的评价函数值达到停止准则时，将医疗特征子集作为目标医疗特征集。

一种医疗特征筛选装置，包括：

预处理模块，用于获取原始医疗数据，对原始医疗数据进行预处理，得到预处理的医疗数据；

特征构建模块，用于调用预设脚本，将预处理的医疗数据输入到所述预设脚本中，所述预设脚本用于按照目标特征类型进行特征构建，得到所述预设脚本输出的目标特征类型对应的医疗初始特征；及

特征选择模块，用于根据医疗初始特征生成医疗特征子集，计算医疗特征子集的评价函数值，当医疗特征子集的评价函数值达到停止准则时，将医疗特征子集作为目标医疗特征集。

一种计算机设备，包括存储器和一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述一个或多个处理器执行以下步骤：获取原始医疗数据，对原始医疗数据进行预处理，得到预处理的医疗数据；调用预设脚本，将预处理的医疗数据输入到所述预设脚本中，所述预设脚本用于按照目标特征类型进行特征构建，得到所述预设脚本输出的目标特征类型对应的医疗初始特征；根据医疗初始特征生成医疗特征子集，计算医疗特征子集的评价函数值，当医疗特征子集的评价函数值达到停止准则时，将医疗特征子集作为目标医疗特征集。

一个或多个存储有计算机可读指令的非易失性存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：获取原始医疗数据，对原始医疗数据进行预处理，得到预处理的医疗数据；调用预设脚本，将预处理的医疗数据输入到所述预设脚本中，所述预设脚本用于按照目标特征类型进行特征构建，得到所述预设脚本输出的目标特征类型对应的医疗初始特征；根据医疗初始特征生成医疗特征子集，计算医疗特征子集的评价函数值，当医疗特征子集的评价函数值达到停止准则时，将医疗特征子集作为目标医疗特征集。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为根据一个或多个实施例中医疗特征筛选方法的应用场景图。

图2为根据一个或多个实施例中医疗特征筛选方法的流程示意图。

图3为根据一个或多个实施例中得到医疗初始特征的流程示意图。

图4为根据一个或多个实施例中得到医疗特征子集的流程示意图。

图5为根据一个或多个实施例中得到目标医疗特征子集的流程示意图。

图6为另一个实施例中得到医疗特征子集的流程示意图。

图7为根据一个或多个实施例中根据目标医疗特征集训练模型的流程示意图。

图8为根据一个或多个实施例中医疗特征筛选装置的框图。

图9为根据一个或多个实施例中计算机设备的框图。

具体实施方式

为了使本申请的技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的医疗特征筛选方法，可以应用于如图1所示的应用环境中。终端102通过网络与服务器104通过网络进行通信。服务器104获取原始医疗数据，对原始医疗数据进行预处理，得到预处理的医疗数据；将预处理的医疗数据按照目标特征类型进行特征构建，得到目标特征类型对应的医疗初始特征；根据医疗初始特征生成医疗特征子集，计算医疗特征子集的评价函数值，当医疗特征子集的评价函数值达到停止准则时，将医疗特征子集作为目标医疗特征集。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在其中一个实施例中，如图2所示，提供了一种医疗特征筛选方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202，获取原始医疗数据，对原始医疗数据进行预处理，得到预处理的医疗数据。

原始医疗数据是指患者在医院治疗疾病过程中产生的未经处理的数据，包括参保人信息，诊断信息，药品信息，手术信息，费用结算信息，医生和医院信息等。

具体地，服务器从各个医院获取到目标时间段的原始医疗数据，该目标时间段可以是一个月、一个季度和一年内等。对该原始医疗数据中不完整、不一致或者重复的数据进行处理，即补充不完整的数据，将不一致的数据进行一致性处理，将重复的数据进行删除。然后处理的原始医疗数据进行数据标准化处理或者归一化处理。

S204，调用预设脚本，将预处理的医疗数据输入到所述预设脚本中，所述预设脚本用于按照目标特征类型进行特征构建，得到所述预设脚本输出的目标特征类型对应的医疗初始特征。

特征构建是指在原始医疗数据特征的基础上基于相似的属性或者相似的类别构建新的特征。目标特征类型包括：就诊行为类型、费用支出类型、医疗项目类型和患者信息类型等。就诊行为类型用于反映患者的就诊行为的特征，包括就诊次数特征、就诊频率特征、就诊地点集中度特征和就诊行为自洽性等。费用支出类型用于反映患者的费用相关信息，包括支出额度、细项分布和速率等。医疗项目类型用于反映社保三目录相关信息的特征，包括手术信息通知、药品信息特征和检查项特征等。患者信息类型用于反映患者的社会人口学信息和其他非诊疗直接相关信息特征，包括年龄特征、性别特征和是否公务员特征等。

具体地，服务器调用预先设置的脚本文件，将预处理的医疗数据输入到预设脚本中，该预设脚本用于统计预处理的医疗数据中就诊行为类型、费用支出类型、医疗项目类型和患者信息类型等对应的数据，根据统计后的数据得到就诊行为类型对应的医疗初始特征、费用支出类型对应的医疗初始特征医疗项目类型对应的医疗初始特征和患者信息类型对应的医疗初始特征，然后预设脚本文件将得到的目标特征类型对应的医疗初始特征输出。比如，在hive(基于Hadoop的一个数据仓库工具)数据库中存储有预处理的医疗数据，预先将脚本加载到hive中，服务器会将hive数据库中预处理的医疗数据以输出流的形式交给脚本，该脚本以输入流的形式接收预处理的医疗数据，按照目标特征类型进行特征构建，然后改脚本又以输出流的形式将得到的目标特征类型对应的医疗初始特征存储到hive数据库中。

S206，根据医疗初始特征生成医疗特征子集，计算医疗特征子集的评价函数值，当医疗特征子集的评价函数值达到停止准则时，将医疗特征子集作为目标医疗特征集。

评价函数用于评价得到的医疗特征子集的好坏，包括筛选器(Filter)、封装器(Wrapper)两大类。筛选器通过分析医疗特征子集内部的特点来衡量医疗特征子集好坏。封装器使用医疗特征子集对样本集进行分类，根据分类精度来衡量医疗特征子集好坏。常见评价函数包括相关性、距离、信息增益、一致性和分类器错误率等，停止准则是指预先设置好的评价函数值的阈值。

具体的，服务器根据医疗初始特征使用搜索算法生成医疗特征子集，搜索算法包括完全搜索、启发式搜索和随机搜索算法等。并使用评价函数计算生成的医疗特征子集的评价函数值，当医疗特征子集的评价函数值达到预设的阈值时，将医疗特征子集作为目标医疗特征集，则该目标医疗特征集就是筛选出来的医疗特征集。其中，根据要训练的目标机器学习模型的不同，在进行特征选择时使用的评价函数不同，在一些实施例中，当目标机器学习模型为分类模型时，可以使用信息增益评价函数。在一些实施例中，当目标机器学习模型为预测模型时，可以使用相关性评价函数，使得到的特征集更适合目标机器学习模型。

上述医疗特征筛选方法中，通过获取原始医疗数据，对原始医疗数据进行预处理，得到预处理的医疗数据；将预处理的医疗数据按照目标特征类型进行特征构建，得到目标特征类型对应的医疗初始特征；根据医疗初始特征生成医疗特征子集，计算医疗特征子集的评价函数值，当医疗特征子集的评价函数值达到停止准则时，将医疗特征子集作为目标医疗特征集。通过按照目标特征类型进行特征构建，得到目标特征类型对应的医疗初始特征，通过使用预设脚本得到医疗初始特征，根据医疗初始特征生成医疗特征子集，将符合停止准则的医疗特征子集作为目标医疗特征集。即通过使用医疗初始特征来得到目标医疗特征集，能够减少得到医疗特征时使用的数据量，从而节省服务器的运行资源，提高服务器提取医疗特征时的运行效率。

在其中一个实施例中，如图3所示，步骤S202，即步骤将预处理的医疗数据按照目标特征类型进行特征构建，得到目标特征类型对应的医疗初始特征，包括步骤：

S302，获取目标特征类型。

目标特征类型包括就诊行为类型、费用支出类型、医疗项目类型和患者信息类型等。

具体地，服务器获取预先设置好的目标特征类型，该目标特征类型包括了就诊行为类型、费用支出类型、医疗项目类型和患者信息类型。

S304，根据预处理的医疗数据计算得到目标特征类型数据，根据目标特征类型数据得到医疗初始特征。

具体地，根据预处理的医疗数据计算得到目标特征类型数据，根据目标特征类型数据得到医疗初始特征。比如：在就诊行为类型数据中包括了就诊次数、频率、地点集中度等，根据预处理的医疗数据统计患者在目标时间段的就诊次数、频率，计算地点集中度等。根据统计之后的数据得到了数据对应的医疗初始特征。

在上述实施例中，通过获取目标特征类型，根据预处理的医疗数据计算得到目标特征类型数据，根据目标特征类型数据得到医疗初始特征。案子预设特征类型得到医疗初始特征，可以预先对原始医疗数据进行特征预处理，方便后续进行对医疗初始特征进一步筛选，提高了效率。

在其中一个实施例中，如图4所示，步骤S204，即根据医疗初始特征生成医疗特征子集，包括步骤：

S402，随机选择医疗初始特征中的第一目标特征，根据第一目标特征得到第一医疗特征子集，计算第一医疗特征子集的评价函数值。

具体地，初始化医疗特征子集为空，随机从医疗初始特征中选择一个特征为第一目标特征，将该第一目标特征加入到初始化的医疗特征子集中，得到了只有一个特征的子集，即第一医疗特征子集，使用评价函数计算第一医疗特征子集的评价函数值。在一个实施例中，使用筛选器计算第一医疗特征子集的样本间距离得到评价函数值。在另一个实施例中，使用封装器根据第一医疗特征子集对样本集进行分类，计算分类的精度作为评价函数值。

S404，随机选择医疗初始特征中的第二目标特征，将第二目标特征加入第一医疗特征子集中，得到第二医疗特征子集，计算第二医疗特征子集的评价函数值。

具体的，在从医疗初始特征中除过第一目标特征之外的特征中随机选择一个特征，将该特征作为第二目标特征，并将第二目标特征加入到第一医疗特征子集中，得到第二医疗特征子集。则该第二医疗特征子集中包括第一目标特征和第二目标特征。使用评价函数计算第二医疗特征子集的评价函数值。

S406，比较第一医疗特征子集的评价函数值和第二医疗特征子集的评价函数值，根据比较结果，得到目标医疗特征子集，将目标医疗特征子集作为第一医疗特征子集。

具体地，比较第一医疗特征子集的评价函数值和第二医疗特征子集的评价函数值，使用相同的评价函数计算第一医疗特征子集和第二医疗特征子集的评价函数值，比较评价函数值的大小，根据评价函数值的大小得到目标医疗特征子集，将目标医疗特征子集作为第一医疗特征子集。

S408，返回随机选择医疗初始特征中的第二目标特征，将第二目标特征加入第一医疗特征子集中，得到第二医疗特征子集，计算第二医疗特征子集的评价函数值的步骤，当医疗初始特征遍历完成时，得到医疗特征子集。

具体地，当得到目标医疗特征子集时，服务器会判断是否遍历医疗初始特征，当没有遍历完成时，将目标医疗特征子集作为第一医疗特征子集，然后返回步骤S404进行执行，即从除去第一医疗特征子集中的特征的医疗初始特征中中随机选择一个特征，将该特征放入第一医疗特征子集，得到第二特征子集进行迭代计算，当医疗初始特征中所有的特征都遍历完成时，将得到目标医疗特征子集作为医疗特征子集。

在一些实施例中，可以将医疗初始特征作为医疗特征子集，每次从医疗特征子集中随机删除一个特征，计算删除前医疗特征子集的评价函数值和删除后医疗特征子集的评价函数值，比较评价函数值大小，得到目标医疗特征子集，继续重复迭代计算，当医疗特征子集中所有的特征都遍历完成时，就将得到的目标医疗特征子集作为医疗特征子集。

在上述实施例中，通过随机选择医疗初始特征中的第一目标特征，根据第一目标特征得到第一医疗特征子集，计算第一医疗特征子集的评价函数值；随机选择医疗初始特征中的第二目标特征，将第二目标特征加入第一医疗特征子集中，得到第二医疗特征子集，计算第二医疗特征子集的评价函数值；比较第一医疗特征子集的评价函数值和第二医疗特征子集的评价函数值，根据比较结果，得到目标医疗特征子集，将目标医疗特征子集作为第一医疗特征子集；返回步骤S404执行，当医疗初始特征遍历完成时，得到医疗特征子集，可以提高得到医疗特征子集的效率。

在一些实施例中，可以使用完全搜索算法从医疗初始特征生成医疗特征子集。根据医疗初始特征枚举所有的医疗特征子集，计算每个医疗特征子集的评价函数值，将最大的评价函数值对应的医疗特征子集作为最终的医疗特征子集，可以得到更精确的医疗特征子集。

在一些实施例中，可以使用随机搜索算法从医疗初始特征生成医疗特征子集。首先随机产生多个医疗特征子集，计算每个医疗特征子集的评价函数值，删除评价函数值低于预设阈值对应的医疗特征子集，然后对剩余的医疗特征子集通过随机交叉、随机突变等方法繁殖出下一代的医疗特征子集，重新进行迭代计算，当达到预设的繁殖次数时，计算医疗特征子集的评价函数值，将最大评价函数值对应的医疗特征子集作为最终的医疗特征子集，能够提高得到医疗特征子集的精确率。

在其中一个实施例中，如图5所示，步骤S406，即比较第一医疗特征子集的评价函数值和第二医疗特征子集的评价函数值，根据比较结果，得到目标医疗特征子集，包括步骤：

S502，当第一医疗特征子集的评价函数值大于第二医疗特征子集的评价函数值时，将第一医疗特征子集作为目标医疗特征子集。

具体地，当第一医疗特征子集的评价函数值大于第二医疗特征子集的评价函数值时，说明第一医疗特征子集比第二医疗特征子集的评价更好，则将评价结果更好的第一医疗特征子集作为目标医疗特征子集。

S504，当第一医疗特征子集的评价函数值不大于第二医疗特征子集的评价函数值时，将第二医疗特征子集作为目标医疗特征子集。

具体地，当第一医疗特征子集的评价函数值不大于第二医疗特征子集的评价函数值时，说明第二医疗特征子集比第一医疗特征子集的评价好，此时将第二医疗特征子集作为目标医疗特征子集。

在该实施例中，通过当第一医疗特征子集的评价函数值大于第二医疗特征子集的评价函数值时，将第一医疗特征子集作为目标医疗特征子集；当第一医疗特征子集的评价函数值不大于第二医疗特征子集的评价函数值时，将第二医疗特征子集作为目标医疗特征子集，根据不同的比较结果得到不同的目标医疗特征子集，能够得到评价结果更好目标医疗特征子集，使得最终得到的医疗特征子集更为精确。

在其中一个实施例中，如图6所示，根据医疗初始特征生成医疗特征子集，包括步骤：

S602，根据医疗初始特征得到当前医疗特征集。

S604，根据当前医疗特征集训练支持向量机模型，得到各个特征的权值系数，根据权值系数计算对应特征的得分，按照得分对特征进行排序，得到得分最小的特征。

支持向量机一种有监督，基于统计学理论的机器学习算法，是一种二类分类模型。其基本模型定义为特征空间上的间隔最大的线性分类器。使用线性函数g(x)＝w ^Tx+b和f(x)＝sgn(g(x))作为分类器。

具体地，初始化医疗初始特征得到当前医疗特征集，获取到带当前医疗特征集的医疗样本数据，使用公式

训练支持向量机模型，其中，x _i是指第i个医疗样本数据，y _i是指第i个医疗样本数据对应的分类或者预测结果。N为医疗样本数据量。α _i为拉格朗日乘子，使用公式

计算得到权值系数ω的值。使用公式

计算特征的排序准则得分，找出排序得分最小的特征。

S606，从当前医疗特征集中删除得分最小的特征，得到当前医疗特征子集，确定当前医疗特征子集中特征数是否满足预设特征数，当当前医疗特征子集中特征数满足预设特征数时，将当前医疗特征子集作为医疗特征子集。

具体地，更新当前医疗特征集，即从当前医疗特征集中删除得分最小的特征，得到当前医疗特征子集，判断当前医疗特征子集中特征数是否满足预设特征数，当当前医疗特征子集中特征数满足预设特征数时，将当前医疗特征子集作为医疗特征子集。

在上述实例中，通过根据医疗初始特征得到当前医疗特征集；根据当前医疗特征集训练支持向量机模型，得到各个特征的权值系数，根据权值系数计算对应特征的得分，按照得分对特征进行排序，得到得分最小的特征；从当前医疗特征集中删除得分最小的特征，得到当前医疗特征子集，确定当前医疗特征子集中特征数是否满足预设特征数，当当前医疗特征子集中特征数满足预设特征数时，将当前医疗特征子集作为医疗特征子集，能够使得到医疗特征子集的效率得到提高。

在其中一个实施例中，在确定当前医疗特征子集中特征数是否满足预设特征数之后，还包括步骤：

当当前医疗特征子集中特征数不满足预设特征数时，返回根据当前医疗特征集训练支持向量机模型，得到各个特征的权值系数，根据权值系数计算对应特征的得分，按照得分对特征进行排序，得到得分最小的特征的步骤，当当前医疗特征子集中特征数满足预设特征数满足预设特征数时，将当前医疗特征子集作为医疗特征子集。

具体地，当当前医疗特征子集中特征数不满足预设特征数时，此时需要使用当前医疗特征子集重新训练支持向量机模型，进行下一次的迭代，即返回步骤S602进行执行，当当前医疗特征子集中的特征数满足预设特征数时，迭代停止，并将当前医疗特征子集作为医疗特征子集。

在其中一个实施例中，如图7所示，步骤S206，即在根据医疗初始特征生成医疗特征子集，计算医疗特征子集的评价函数值，当医疗特征子集的评价函数值达到停止准则时，将医疗特征子集作为目标医疗特征集之后，还包括步骤：

S702，获取医疗数据，根据医疗数据得到目标医疗特征集对应的数据。

具体地，从全国医疗基金库中获取到全国各个医院的医疗大数据，根据得到了医疗大数据得到目标医疗特征集对应的数据。

S704，将目标医疗特征集对应的数据输入到目标机器学习模型中进行训练，得到已训练的目标机器学习模型，目标机器学习模型包括医疗费用预测模型和医疗数据异常检测模型。

具体地，当目标机器学习模型是医疗费用预测模型时，获取到医院在不同时间段内的医疗数据，从医疗数据中获取到目标医疗特征集对应的数据，并获取到医疗数据中不同时间段内的医疗费用，此时，将一个时间段内目标医疗特征集对应的数据作为目标机器学习模型输入，将下一个时间段内的医疗费用作为标签进行训练，其中该目标机器学习模型是使用逻辑回归算法训练得到的，当达到预设条件时，得到已训练的目标机器学习模型。

当目标机器学习模型是医疗数据异常检测模型时，该医疗数据异常检测模型可以是使用有监督机器学习算法随机森林算法训练得到的，获取到从医疗数据中获取到目标医疗特征集对应的数据，并获取到医疗数据的异常检测结果，将目标医疗特征集对应的数据作为随机森林机器学习算法的输入，将对应的异常检测结果作为标签进行训练，当达到预设条件时，得到已训练的目标机器学习模型。也可以使用无监督机器学习算法隔离森林算法，直接从医疗数据中获取到目标医疗特征集对应的数据，将得到目标医疗特征集对应的数据根据隔离森林算法建立隔离森林，得到已训练的医疗数据异常检测模型。

上述实施例中，通过获取医疗数据，根据医疗数据得到目标医疗特征集对应的数据；将目标医疗特征集对应的数据输入到目标机器学习模型中进行训练，得到已训练的目标机器学习模型，目标机器学习模型包括医疗费用预测模型和医疗数据异常检测模型，可以直接使用目标医疗特征集训练目标机器学习模型，能提高得到机器学习模型效率。

应该理解的是，虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-7中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中，如图8所示，提供了一种医疗特征筛选装置800，包括：预处理模块802、特征构建模块804和特征选择模块806，其中：

预处理模块802，用于获取原始医疗数据，对原始医疗数据进行预处理，得到预处理的医疗数据。

特征构建模块804，用于将预处理的医疗数据按照目标特征类型进行特征构建，得到目标特征类型对应的医疗初始特征。

特征选择模块806，用于根据医疗初始特征生成医疗特征子集，计算医疗特征子集的评价函数值，当医疗特征子集的评价函数值达到停止准则时，将医疗特征子集作为目标医疗特征集。

在该医疗特征筛选装置800中，通过预处理模块802对原始医疗数据进行预处理，通过特征构建模块804来得到医疗初始特征，最后通过特征选择模块806生成医疗特征子集，计算医疗特征子集的评价函数值，当医疗特征子集的评价函数值达到停止准则时，将医疗特征子集作为目标医疗特征集，使用该目标医疗特征集训练机器学习模型，能够提高机器学习模型性能。

在其中一个实施例中，预处理模块802还用于获取目标特征类型。根据预处理的医疗数据计算得到目标特征类型数据，根据目标特征类型数据得到医疗初始特征。

在其中一个实施例中，特征选择模块806还用于随机选择医疗初始特征中的第一目标特征，根据第一目标特征得到第一医疗特征子集，计算第一医疗特征子集的评价函数值。随机选择医疗初始特征中的第二目标特征，将第二目标特征加入第一医疗特征子集中，得到第二医疗特征子集，计算第二医疗特征子集的评价函数值。比较第一医疗特征子集的评价函数值和第二医疗特征子集的评价函数值，根据比较结果，得到目标医疗特征子集，将目标医疗特征子集作为第一医疗特征子集。返回随机选择医疗初始特征中的第二目标特征，将第二目标特征加入第一医疗特征子集中，得到第二医疗特征子集，计算第二医疗特征子集的评价函数值的步骤，当医疗初始特征遍历完成时，得到医疗特征子集。

在其中一个实施例中，特征选择模块806还用于当第一医疗特征子集的评价函数值大于第二医疗特征子集的评价函数值时，将第一医疗特征子集作为目标医疗特征子集。当第一医疗特征子集的评价函数值不大于第二医疗特征子集的评价函数值时，将第二医疗特征子集作为目标医疗特征子集。

在其中一个实施例中，特征选择模块806还用于根据医疗初始特征得到当前医疗特征集。根据当前医疗特征集训练支持向量机模型，得到各个特征的权值系数，根据权值系数计算对应特征的得分，按照得分对特征进行排序，得到得分最小的特征。从当前医疗特征集中删除得分最小的特征，得到当前医疗特征子集，确定当前医疗特征子集中特征数是否满足预设特征数，当当前医疗特征子集中特征数满足预设特征数时，将当前医疗特征子集作为医疗特征子集。

在其中一个实施例中，特征选择模块806还用于：当当前医疗特征子集中特征数不满足预设特征数时，返回根据当前医疗特征集训练支持向量机模型，得到各个特征的权值系数，根据权值系数计算对应特征的得分，按照得分对特征进行排序，得到得分最小的特征的步骤，当当前医疗特征子集中特征数满足预设特征数满足预设特征数时，将当前医疗特征子集作为医疗特征子集。

在其中一个实施例中，医疗特征筛选装置800，还包括：

特征集数据得到模块，用于获取医疗数据，根据医疗数据得到目标医疗特征集对应的数据；

训练模块，用于将目标医疗特征集对应的数据输入到目标机器学习模型中进行训练，得到已训练的目标机器学习模型，目标机器学习模型包括医疗费用预测模型和医疗数据异常检测模型。

关于医疗特征筛选装置的具体限定可以参见上文中对于医疗特征筛选方法的限定，在此不再赘述。上述医疗特征筛选装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在其中一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储医疗大数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种医疗特征筛选方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

一种计算机设备，包括存储器和一个或多个处理器，存储器中储存有计算机可读指令，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器实现本申请任意一个实施例中提供的医疗特征筛选方法的步骤。

一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器实现本申请任意一个实施例中提供的医疗特征筛选方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种医疗特征筛选方法，包括：

获取原始医疗数据，对所述原始医疗数据进行预处理，得到预处理的医疗数据；

调用预设脚本，将所述预处理的医疗数据输入到所述预设脚本中，所述预设脚本用于按照目标特征类型进行特征构建，得到所述预设脚本输出的所述目标特征类型对应的医疗初始特征；及

根据所述医疗初始特征生成医疗特征子集，计算所述医疗特征子集的评价函数值，当所述医疗特征子集的评价函数值达到停止准则时，将所述医疗特征子集作为目标医疗特征集。
根据权利要求1所述的方法，其特征在于，将所述预处理的医疗数据按照目标特征类型进行特征构建，得到所述目标特征类型对应的医疗初始特征，包括：

获取目标特征类型；及

根据所述预处理的医疗数据计算得到所述目标特征类型数据，根据所述目标特征类型数据得到医疗初始特征。
根据权利要求1所述的方法，其特征在于，根据所述医疗初始特征生成医疗特征子集，包括：

随机选择医疗初始特征中的第一目标特征，根据所述第一目标特征得到第一医疗特征子集，计算所述第一医疗特征子集的评价函数值；

随机选择医疗初始特征中的第二目标特征，将所述第二目标特征加入所述第一医疗特征子集中，得到第二医疗特征子集，计算所述第二医疗特征子集的评价函数值；

比较所述第一医疗特征子集的评价函数值和所述第二医疗特征子集的评价函数值，根据比较结果，得到目标医疗特征子集，将所述目标医疗特征子集作为第一医疗特征子集；及

返回随机选择医疗初始特征中的第二目标特征，将所述第二目标特征加入所述第一医疗特征子集中，得到第二医疗特征子集，计算所述第二医疗特征子集的评价函数值的步骤，当所述医疗初始特征遍历完成时，得到医疗特征子集。
根据权利要求3所述的方法，其特征在于，比较所述第一医疗特征子集的评价函数值和所述第二医疗特征子集的评价函数值，根据比较结果，得到目标医疗特征子集，包括：

当所述第一医疗特征子集的评价函数值大于所述第二医疗特征子集的评价函数值时，将所述第一医疗特征子集作为目标医疗特征子集；及

当所述第一医疗特征子集的评价函数值不大于所述第二医疗特征子集的评价函数值时，将所述第二医疗特征子集作为目标医疗特征子集。
根据权利要求1所述的方法，其特征在于，根据所述医疗初始特征生成医疗特征子集，包括：

根据所述医疗初始特征得到当前医疗特征集；

根据所述当前医疗特征集训练支持向量机模型，得到各个特征的权值系数，根据所述权值系数计算对应特征的得分，按照所述得分对特征进行排序，得到得分最小的特征；及

从所述当前医疗特征集中删除得分最小的特征，得到当前医疗特征子集，确定当前医疗特征子集中特征数是否满足预设特征数，当所述当前医疗特征子集中特征数满足预设特征数时，将所述当前医疗特征子集作为医疗特征子集。
根据权利要求5所述的方法，其特征在于，在确定当前医疗特征子集中特征数是否满足预设特征数之后，还包括：

当所述当前医疗特征子集中特征数不满足预设特征数时，返回根据所述当前医疗特征集训练支持向量机模型，得到各个特征的权值系数，根据所述权值系数计算对应特征的得分，按照所述得分对特征进行排序，得到得分最小的特征的步骤，当所述当前医疗特征子集中特征数满足预设特征数满足预设特征数时，将所述当前医疗特征子集作为医疗特征子集。
根据权利要求1所述的方法，其特征在于，在根据所述医疗初始特征生成医疗特征子集，计算所述医疗特征子集的评价函数值，当所述医疗特征子集的评价函数值达到停止准则时，将所述医疗特征子集作为目标医疗特征集之后，还包括：

获取医疗数据，根据所述医疗数据得到所述目标医疗特征集对应的数据；及

将所述目标医疗特征集对应的数据输入到目标机器学习模型中进行训练，得到已训练的目标机器学习模型，所述目标机器学习模型包括医疗费用预测模型和医疗数据异常检测模型。
一种医疗特征筛选装置，包括：

预处理模块，用于获取原始医疗数据，对所述原始医疗数据进行预处理，得到预处理的医疗数据；

特征构建模块，用于调用预设脚本，将所述预处理的医疗数据输入到所述预设脚本中，所述预设脚本用于按照目标特征类型进行特征构建，得到所述预设脚本输出的所述目标特征类型对应的医疗初始特征；

特征选择模块，用于根据所述医疗初始特征生成医疗特征子集，计算所述医疗特征子集的评价函数值，当所述医疗特征子集的评价函数值达到停止准则时，将所述医疗特征子集作为目标医疗特征集。
根据权利要求8所述的装置，其特征在于，所述特征选择模块还用于随机选择医疗初始特征中的第一目标特征，根据所述第一目标特征得到第一医疗特征子集，计算所述第一医疗特征子集的评价函数值；随机选择医疗初始特征中的第二目标特征，将所述第二目标特征加入所述第一医疗特征子集中，得到第二医疗特征子集，计算所述第二医疗特征子集的评价函数值；比较所述第一医疗特征子集的评价函数值和所述第二医疗特征子集的评价函数值，根据比较结果，得到目标医疗特征子集，将所述目标医疗特征子集作为第一医疗特征子集；及返回随机选择医疗初始特征中的第二目标特征，将所述第二目标特征加入所述第一医疗特征子集中，得到第二医疗特征子集，计算所述第二医疗特征子集的评价函数值的步骤，当所述医疗初始特征遍历完成时，得到医疗特征子集。
根据权利要求8所述的装置，其特征在于，还包括：

特征集数据得到模块，用于获取医疗数据，根据所述医疗数据得到所述目标医疗特征集对应的数据；及

训练模块，用于将所述目标医疗特征集对应的数据输入到目标机器学习模型中进行训练，得到已训练的目标机器学习模型，所述目标机器学习模型包括医疗费用预测模型和医疗数据异常检测模型。
一种计算机设备，包括存储器及一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取原始医疗数据，对所述原始医疗数据进行预处理，得到预处理的医疗数据；

调用预设脚本，将所述预处理的医疗数据输入到所述预设脚本中，所述预设脚本用于按照目标特征类型进行特征构建，得到所述预设脚本输出的所述目标特征类型对应的医疗初始特征；及

根据所述医疗初始特征生成医疗特征子集，计算所述医疗特征子集的评价函数值，当所述医疗特征子集的评价函数值达到停止准则时，将所述医疗特征子集作为目标医疗特征集。
根据权利要求11所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

获取目标特征类型；及

根据所述预处理的医疗数据计算得到所述目标特征类型数据，根据所述目标特征类型数据得到医疗初始特征。
根据权利要求11所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

随机选择医疗初始特征中的第一目标特征，根据所述第一目标特征得到第一医疗特征子集，计算所述第一医疗特征子集的评价函数值；

随机选择医疗初始特征中的第二目标特征，将所述第二目标特征加入所述第一医疗特征子集中，得到第二医疗特征子集，计算所述第二医疗特征子集的评价函数值；

比较所述第一医疗特征子集的评价函数值和所述第二医疗特征子集的评价函数值，根据比较结果，得到目标医疗特征子集，将所述目标医疗特征子集作为第一医疗特征子集；及

返回随机选择医疗初始特征中的第二目标特征，将所述第二目标特征加入所述第一医疗特征子集中，得到第二医疗特征子集，计算所述第二医疗特征子集的评价函数值的步骤，当所述医疗初始特征遍历完成时，得到医疗特征子集。
根据权利要求13所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

当所述第一医疗特征子集的评价函数值大于所述第二医疗特征子集的评价函数值时，将所述第一医疗特征子集作为目标医疗特征子集；及

当所述第一医疗特征子集的评价函数值不大于所述第二医疗特征子集的评价函数值时，将所述第二医疗特征子集作为目标医疗特征子集。
根据权利要求11所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

根据所述医疗初始特征得到当前医疗特征集；

根据所述当前医疗特征集训练支持向量机模型，得到各个特征的权值系数，根据所述权值系数计算对应特征的得分，按照所述得分对特征进行排序，得到得分最小的特征；及

从所述当前医疗特征集中删除得分最小的特征，得到当前医疗特征子集，确定当前医疗特征子集中特征数是否满足预设特征数，当所述当前医疗特征子集中特征数满足预设特征数时，将所述当前医疗特征子集作为医疗特征子集。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取原始医疗数据，对所述原始医疗数据进行预处理，得到预处理的医疗数据；

调用预设脚本，将所述预处理的医疗数据输入到所述预设脚本中，所述预设脚本用于按照目标特征类型进行特征构建，得到所述预设脚本输出的所述目标特征类型对应的医疗初始特征；及

根据所述医疗初始特征生成医疗特征子集，计算所述医疗特征子集的评价函数值，当所述医疗特征子集的评价函数值达到停止准则时，将所述医疗特征子集作为目标医疗特征集。
根据权利要求16所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：

获取目标特征类型；及

根据所述预处理的医疗数据计算得到所述目标特征类型数据，根据所述目标特征类型数据得到医疗初始特征。
根据权利要求16所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：

随机选择医疗初始特征中的第一目标特征，根据所述第一目标特征得到第一医疗特征子集，计算所述第一医疗特征子集的评价函数值；

随机选择医疗初始特征中的第二目标特征，将所述第二目标特征加入所述第一医疗特征子集中，得到第二医疗特征子集，计算所述第二医疗特征子集的评价函数值；

比较所述第一医疗特征子集的评价函数值和所述第二医疗特征子集的评价函数值，根据比较结果，得到目标医疗特征子集，将所述目标医疗特征子集作为第一医疗特征子集；及

返回随机选择医疗初始特征中的第二目标特征，将所述第二目标特征加入所述第一医疗特征子集中，得到第二医疗特征子集，计算所述第二医疗特征子集的评价函数值的步骤，当所述医疗初始特征遍历完成时，得到医疗特征子集。
根据权利要求18所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：

当所述第一医疗特征子集的评价函数值大于所述第二医疗特征子集的评价函数值时，将所述第一医疗特征子集作为目标医疗特征子集；及

当所述第一医疗特征子集的评价函数值不大于所述第二医疗特征子集的评价函数值时，将所述第二医疗特征子集作为目标医疗特征子集。
根据权利要求16所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：

根据所述医疗初始特征得到当前医疗特征集；

根据所述当前医疗特征集训练支持向量机模型，得到各个特征的权值系数，根据所述权值系数计算对应特征的得分，按照所述得分对特征进行排序，得到得分最小的特征；及

从所述当前医疗特征集中删除得分最小的特征，得到当前医疗特征子集，确定当前医疗特征子集中特征数是否满足预设特征数，当所述当前医疗特征子集中特征数满足预设特征数时，将所述当前医疗特征子集作为医疗特征子集。