WO2021139271A1

WO2021139271A1 - 基于fm模型的医学热点的预测方法、装置和计算机设备

Info

Publication number: WO2021139271A1
Application number: PCT/CN2020/118914
Authority: WO
Inventors: 曹立宇
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-06-30
Filing date: 2020-09-29
Publication date: 2021-07-15
Also published as: CN111782821A; CN111782821B

Abstract

一种基于FM模型的医学热点的预测方法、装置和计算机设备，涉及人工智能领域。其中方法首次将FM模型应用到医学领域的医学研究热点的预测领域，其适合处理稀疏的特征，并且能够挖掘出特征与特征之间的组合关系。除此之外，基于FM模型的医学热点的预测方法相比于知识图谱预测和SVD算法预测，能够增加构造特征，特征的增加有利于模型取得更好的效果。所述方法针对医学领域内流行的研究关系进行统计并基于FM模型对未来可能出现的研究热点进行预测，能够预测某个疾病未来最有可能被研究的实体。一方面便于医生对目前研究内容的搜索，另一方面有助于给医生提供潜在的研究热点的信息。还可以应用于区块链领域中，如将训练后的模型存储到区块链网络中。

Description

基于FM模型的医学热点的预测方法、装置和计算机设备

本申请要求于2020年6月30日提交中国专利局、申请号为202010621766.7，发明名称为“基于FM模型的医学热点的预测方法、装置和计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及到人工智能领域，特别是涉及到一种基于FM模型的医学热点的预测方法、装置和计算机设备。

背景技术

医学研究热点预测方法是基于大量医学文献数据，使用文本挖掘构建知识图谱和模型，并提供已有的研究关系，然后推断出可能在未来出现的生物医学概念之间的关系。对未来医学研究热点的预测是研究人员探索研究主题的宝贵资源。

但是，发明人发现，如今医学领域的文献发表数量增长快速，并且随着文献发表率的提高，研究人员很难与其相关的研究内容时刻保持同步，从而难以跟进和挖掘新颖的研究内容。

现有的医学研究热点的预测方法有基于知识图谱的方法，但是只利用了图谱的局部信息，因此预测结果不够精准。还有基于SVD的算法，但是该方法可解释性差，并且难以找到合适的超参数，在实际应用中有所局限。

技术问题

本申请的主要目的为提供一种基于FM模型的医学热点的预测方法、装置和计算机设备，旨在解决现有技术中预测精准度低或者可解释性差的技术问题。

技术解决方案

为了实现上述发明目的，本申请提出一种基于FM模型的医学热点的预测方法，包括：

获取待预测的两个医学实体名称；

依据两个所述医学实体名称，以及预设的医学研究热点的预测模型的特征格式，编写适用于所述预测模型的预测特征，其中所述预测模型是基于FM模型训练得到的模型，其中，所述预设特征为稀疏向量，稀疏向量中对应医学实体名称的位置的值为1，其余为0；

将所述预测特征输入到所述预测模型中进行计算，得到预测概率值，其中，所述预测概率值用于表示两个医学实体名称之间的相关性，预测概率值越大，则表示两个医学实体名称之间的相关性越强；

判断所述预测概率值是否大于预设阈值；

若是，则判定两个所述医学实体名称联合到一起是一个医学研究热点。

本申请还提供一种基于FM模型的研究热点的预测装置，包括：

第一获取单元，用于获取待预测的两个医学实体名称；

编写单元，用于依据两个所述医学实体名称，以及预设的医学研究热点的预测模型的特征格式，编写适用于所述预测模型的预测特征，其中所述预测模型是基于FM模型训练得到的模型，其中，所述预设特征为稀疏向量，稀疏向量中对应医学实体名称的位置的值为1，其余为0；

计算单元，用于将所述预测特征输入到所述预测模型中进行计算，得到预测概率值，其中，所述预测概率值用于表示两个医学实体名称之间的相关性，预测概率值越大，则表示两个医学实体名称之间的相关性越强；

判断单元，用于判断所述预测概率值是否大于预设阈值；

判定单元，用于若所述预测概率值大于预设阈值，则判定两个所述医学实体名称联合到一起是一个医学研究热点。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种基于FM模型的医学热点的预测方法；

其中，所述基于FM模型的医学热点的预测方法包括：

获取待预测的两个医学实体名称；

判断所述预测概率值是否大于预设阈值；

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种基于FM模型的医学热点的预测方法；

其中，所述基于FM模型的医学热点的预测方法包括：

获取待预测的两个医学实体名称；

判断所述预测概率值是否大于预设阈值；

有益效果

本申请的基于FM模型的医学热点的预测方法、装置和计算机设备，首次将FM模型应用到医学领域的医学研究热点的预测领域，其适合处理稀疏向量的特征，并且能够挖掘出特征与特征之间的相关性。除此之外，基于FM模型的医学热点的预测方法相比于知识图谱预测和SVD算法预测，能够增加构造特征，特征的增加有利于模型取得更好的效果。本申请的方法针对医学领域内流行的研究关系进行统计并基于FM模型对未来可能出现的研究热点进行预测，能够预测某个疾病未来最有可能被研究的实体。一方面便于医生对目前研究内容的搜索，另一方面有助于给医生提供潜在的研究热点的信息。

附图说明

图1 为本申请一实施例的基于FM模型的医学热点的预测方法的流程示意图；

图2 为本申请一实施例的基于FM模型的医学热点的预测装置的结构示意框图；

图3 为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

本发明的最佳实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例提供一种基于FM模型的医学热点的预测方法，包括：

S1、获取待预测的两个医学实体名称；

S2、依据两个所述医学实体名称，以及预设的医学研究热点的预测模型的特征格式，编写适用于所述预测模型的预测特征，其中所述预测模型是基于FM模型训练得到的模型，其中，所述预设特征为稀疏向量，稀疏向量中对应医学实体名称的位置的值为1，其余为0；

S3、将所述预测特征输入到所述预测模型中进行计算，得到预测概率值，其中，所述预测概率值用于表示两个医学实体名称之间的相关性，预测概率值越大，则表示两个医学实体名称之间的相关性越强；

S4、判断所述预测概率值是否大于预设阈值；

S5、若是，则判定两个所述医学实体名称联合到一起是一个医学研究热点。

本申请实施例的执行主体可以是服务器等具有数据处理能力的计算机设备。

如上述步骤S1所述，上述医学实体名称可以包括疾病、药品、手术、检查检验、基因、微生物和免疫因子等多种类别。在本实施例中，两个医学实体名称中，一个是疾病类别的医学实体名称，另一个是其他种类的医学实体名称。

如上述步骤S2所述，上述预测模型是基于FM（Factorization Machine）模型训练得到的模型，FM模型可以通过向量交叉学习的方式来挖掘特征之间的相关性，有以下两点好处：.在高度稀疏的条件下能够更好地挖掘数据特征间的相关性，尤其是对于在训练样本中没出现的交叉数据；FM模型在计算目标函数和在随机梯度下降做优化学习时都可以在线性时间内完成。上述预测模型对应的特征格式可以包括多个模块，第一模块和第二模块分别是医学实体名称对应的独热编码，该独热编码是稀疏向量，其中对应医学实体名称的位置的值为1，其余为0，后面的各模块是各种设置的向量编码，具体的可以根据实际需求设定，在此不再赘述，只要是符合FM模型即可。在本实施例中第一模块是疾病的独热编码，第二模块是其他种类的医学实体名称的独热编码。当确定特征格式以及两个具体的医学实体名称后，既可以编写出适用于预测模型的预测特征。

如上述步骤S3至S5所述，即为将预测特征输入到预测模型中进行预测计算过过程，得到一个0-1之间的预测概率值，并根据预测概率值确定待预测的两个医学实体名称联合后是否是一个医学研究热点。上述预设阈值是一个人为设定的值，可以是经验值。上述预测概率值用于表示两个医学实体名称之间的相关性，预测概率值越大，则表示两个医学实体名称之间的相关性越强，那么这两个医学实体名称结合形成当前或者未来的医学研究热点的正确性就会越高。

在一个实施中，上述依据两个所述医学实体名称，以及预设的医学研究热点的预测模型的特征格式，编写适用于所述预测模型的预测特征的步骤S2之前，包括：

获取记载有医学知识的文献数据；

在所述文献数据中查找预设的医学实体名称，并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来；

依据提取出的具有关联关系的医学实体名称和所述特征格式编写正样本数据；以及构建与正样本数据格式相同，且不存在关联关系的医学实体名称的负样本数据，其中，所述负样本的构建采用实体间随机组合和采样的方式构造；

利用所述正样本数据和负样本数据训练所述基于FM模型的模型，得到用于输出预测概率值的所述预测模型。

在本实施例中，上述医学知识的文献数据主要是医学论文，其可以到指定的医学论文网站下载，也可以是医生开出的患者治疗方案数据，患者治疗方案数据可以到各医院的数据库中进行下载，其中，到医院的数据库中下载数据一般需要医院的授权。上述医学实体名称主要是通过关键字检索的方式进行提取，在提提取的过程中，如果相邻的两个医学实体名称达到预设要求，则判定相邻的两个医学实体名称具有关联关系，上述预设要求可以是在同一段话中出现的两个医学实体名称，或者同一句话中的两个医学实体名称等。在本实施例中，上述正样本数据表示两个医学实体名称具有关联关系，负样本数据表示两个医学实体名称不具有关联关系。上述FM模型中使用的特征格式包括多个模块，具体地，第一模块的向量是疾病的医学实体名称的独热编码，第二模块是其他医学实体名称的独热编码，第三模块是表示第二模块中的独热编码代表的种类（比如第二模块的独热编码是0100....，代表药品的医学实体名称，第三模块的数字2代表药品，则第三模块向量则为2等），后面的模块可以增加疾病的历史发表数量、影响因子、引用数的信息、增加疾病之间的上下位的信息等等，这些特征可以提高对FM模型的训练效果。上述正样本数据是根据医学知识的文献数据中的具有关联关系的医学实体名称编写，而负样本数据可以是采用实体间随机组合和采样的方式构造，即将大量的不关的数据数据放到一个数据库中，然后将数据库中的数据进行随机组合，以及在找一定的间隔进行采样等得到负样数据。在另一个实施例中，利用医学知识的文献数据中的不具有关联关系的医学实体名称编写而得到的。在本实施例中，正样本数据和负样本的数据量相等。在一个具体的如下图表所示：每一行是一个特征，第一模块是第一框内（disease）的部分，对应疾病的医学实体名称的独热编码，第二模块是第二框内（entity）的部分，代表除疾病的医学实体名称之外的其他医学实体名称的独热编码，后面是几个框中分别对应其他的向量，比如疾病的历史发表数量等等。

在一个实施例中，上述获取记载有医学知识的文献数据的步骤，包括：

到互联网中查找医学论文网站；

若查找到，则获取所述医学论文网站的建立时间和被访问次数；

计算所述建立时间与当前时间之间的时间长度；

判断所述被访问次数是否大于所述时间长度对应的次数阈值；

若是，则从医学论文网站上下载论文的标题和摘要，并将所述标题和摘要作为所述文献数据。

在本实施例中，获取文献数据的时候首先到互联网上查找医学论文网站，其实现手段是遍历各个网站，然后进入个网站的主页查看网站介绍，根据所述网站介绍判定网站是否为医学论文网站，具体地，对网站介绍进行语义识别，当获取到网站为医学内容，且存在论文下载功能的网站，则判定该网站为医学论文网站。为了提高文献数据的可信度，本申请还会对获取到的全部医学论文网站进行初步的排查，将不合格的排除，具体的办法是先获取医学论文网站的建立时间，然后计算建立时间与当前时间之间的时间长度，然后到预设的阈值列表（时间长度与次数阈值的映射表）中查找与所述时间长度对应的次数阈值，当被访问次数大于次数阈值时，说明查找到的医学论文网站是比人们经常访问的网站，符合文献数据的可信度要求。上述医学论文网站上发布的论文基本是具有研究成果的、比较前沿的医学知识，但是鉴于论文的重点主要是在摘要中，以及论文全文的文字数量较大，为了提高后续提取医学实体名称的速度，减少数据计算量，本申请仅下载医学论文的标题和摘要部分。在另外一个实施例中，上述医学论文网站是指定的论文网站，无需全网查找医学论文网站，而是直接到指定的医学论文网站下载文献数据。

在一个实施例中，上述在所述文献数据中查找预设的医学实体名称，并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来的步骤，包括：

在所述论文的摘要中查找预设的缩写格式，并提取缩写格式中的缩写名称，以及缩写格式之前对应缩写名称的完整医学实体名称；

将所述论文中的所述缩写名称替换成所述完整医学实体名称；

在完成缩写名称替换的摘要中查找预设的所述医学实体名称，以及提取具有预设关联关系的所述医学实体名称。

在本实施例中，主要针对论文的摘要，标准的论文，如果出现缩写等都会按照指定的格式进行处理，即第一次出现全名后跟着一个括号，括号中为对应全名的缩写。本申请为了防止缩写被漏提取的情况发生，先查找括号，然后确认括号前面的词是不是预设的医学实体名称，如果是，则将缩写与其关联，然后进行全文替换，最后再进行医学实体名称的提取，提高提取的准确性和全面性。

将所述文献数据以句为单位进行划分；

提取每一句中的医学实体名称；

若同一句中出现两种，则将该句子中的两个所述医学实体名单作为具有预设关联的医学实体名称进行提取；

若同一句中出现两种以上的医学实体名称，则以一个预设种类的第一医学名称作为主体，分别与其他的几个第二医学实体名称进行两两组和，得到多组具有关联关系的医学实体名称，并进行提取。

在本实施例中，无论是中文的文献数据，还是外文的文献数据，都是以一句话为标准，只有同一句中出现的医学实体名称之间才会被判定为具有预设关联关系。而句子的划分，可以通过识别文献数据中的标点符号来实现，比如，检测出句子中的句号、感叹号等代表一句话说完的标点符号，然后以此来划分。当句子划分完成之后，如果一个句子中只有一个医学实体名称，则忽略该医学实体名称，如果一个句子中出现两个医学实体名称，则判定这两个相邻的医学实体名称具有预设关联关系。如果一个句子中出现多个医学实体名称，如三个，且其中一个是预设的疾病种类的医学实体名称a，其他两个是其他种类的医学实体名称b和c，则会得到a与b的关联关系，以及a与c的关联关系。

在一个实施例中，上述提取每一句中的医学实体名称的名称的步骤，包括：

利用预训练模型BERT对每一句中的文字进行进行语意编码；

在所述语义编码中查找与各预设的医学实体名称的语义编码的相似度大于预设相似度阈值/且相似度最大的第一语义编码；

将所述第一语义编码对应的名称转换成与其对应的所述医学实体名称。

在本实施例中，上述预训练模型BERT全称是Pre-training of Deep Bidirectional TranSformerS for Language UnderStanding。Pre-training表示BERT是一个预训练模型，通过前期的大量语料的无监督训练，为下游任务学习大量的先验的语言、句法、词义等信息。Bidirectional 说明BERT采用的是双向语言模型的方式，能够更好的融合前后文的知识。简而言之，BERT是一个用TranSformerS作为特征抽取器的深度双向预训练语言理解模型。BERT在预训练过程中，学习到了丰富的语言学方面的信息。上述语意编码的过程即为将每一句文字向量化的过程。各预设的医学实体名称也都有对应的语义编码，然后在每一句话的语义编码中查找与各预设的医学实体名称的语义编码的相似度大于预设相似度阈值/且相似度最大的第一语义编码，然后将所述第一语义编码对应的名称转换成与其对应的所述医学实体名称（该对应的医学实体名称即为与第一语意编码的相似度大于预设相似度阈值且相似度最大的语义编码对应的医学实体名称）。本申请中，可以将不规范的医学实体名称也提取出来，且提取的时候将不规范的医学实体名称修改成正确的医学实体名称，提高后续各医学实体名称之间的连接概率的计算准确性。

在本实施例中，上述基于FM模型的医学热点的预测方法可以在区块链领域应用，上述的如预测模型、预训练模型BERT等存储在区块链网络中。上述区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

本申请还可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请的基于FM模型的医学热点的预测方法，首次将FM模型应用到医学领域的医学研究热点的预测领域，其适合处理稀疏的特征，并且能够挖掘出特征与特征之间的组合关系。除此之外，基于FM模型的医学热点的预测方法相比于知识图谱预测和SVD算法预测，能够增加构造特征，特征的增加有利于模型取得更好的效果。本申请的方法针对医学领域内流行的研究关系进行统计并基于FM模型对未来可能出现的研究热点进行预测，能够预测某个疾病未来最有可能被研究的实体。一方面便于医生对目前研究内容的搜索，另一方面有助于给医生提供潜在的研究热点的信息。

参照图2，本申请还提供一种种基于FM模型的研究热点的预测装置，包括：

第一获取单元10，用于获取待预测的两个医学实体名称；

编写单元20，用于依据两个所述医学实体名称，以及预设的医学研究热点的预测模型的特征格式，编写适用于所述预测模型的预测特征，其中所述预测模型是基于FM模型训练得到的模型，其中，所述预设特征为稀疏向量，稀疏向量中对应医学实体名称的位置的值为1，其余为0；

计算单元30，用于将所述预测特征输入到所述预测模型中进行计算，得到预测概率值，其中，所述预测概率值用于表示两个医学实体名称之间的相关性，预测概率值越大，则表示两个医学实体名称之间的相关性越强；

判断单元40，用于判断所述预测概率值是否大于预设阈值；

在一个实施例中，上述基于FM模型的研究热点的预测装置，还包括：

第二获取单元，用于获取记载有医学知识的文献数据；

查找提取单元，用于在所述文献数据中查找预设的医学实体名称，并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来；

生成样本单元，用于依据提取出的具有关联关系的医学实体名称和所述特征格式编写正样本数据；以及构建与正样本数据格式相同，且不存在关联关系的医学实体名称的负样本数据，其中，所述负样本的构建采用实体间随机组合和采样的方式构造；

训练单元，用于利用所述正样本数据和负样本数据训练所述基于FM模型的模型，得到用于输出预测概率值的所述预测模型

在一个实施例中，上述第二获取单元，包括：

查找模块，用于到互联网中查找医学论文网站；

获取模块，用于若查找到，则获取所述医学论文网站的建立时间和被访问次数；

计算模块，用于计算所述建立时间与当前时间之间的时间长度；

判断模块，用于判断所述被访问次数是否大于所述时间长度对应的次数阈值；

下载模块，用于从医学论文网站上下载论文的标题和摘要，并将所述标题和摘要作为所述文献数据。

在一个实施例中，上述查找提取单元，包括：

第一查找提取模块，用于在所述论文的摘要中查找预设的缩写格式，并提取缩写格式中的缩写名称，以及缩写格式之前对应缩写名称的完整医学实体名称；

替换模块，用于将所述论文中的所述缩写名称替换成所述完整医学实体名称；

第二查找提取模块，用于在完成缩写名称替换的摘要中查找预设的所述医学实体名称，以及提取具有预设关联关系的所述医学实体名称。

在一个实施例中，上述查找提取单元，包括：

划分模块，用于将所述文献数据以句为单位进行划分；

提取模块，用于提取每一句中的医学实体名称；

第一执行模块，用于若同一句中出现两种，则将该句子中的两个所述医学实体名单作为具有预设关联的医学实体名称进行提取；

第二执行模块，用于若同一句中出现两种以上的医学实体名称，则以一个预设种类的第一医学名称作为主体，分别与其他的几个第二医学实体名称进行两两组和，得到多组具有关联关系的医学实体名称，并进行提取。

在一个实施例中，上述提取模块，包括：

编码子模块，用于利用预训练模型BERT对每一句中的文字进行进行语意编码；

相似度计算子模块，用于在所述语义编码中查找与各预设的医学实体名称的语义编码的相似度大于预设相似度阈值/且相似度最大的第一语义编码；

转换子模块，用于将所述第一语义编码对应的名称转换成与其对应的所述医学实体名称。

上述各单元、模块、子模块等是执行上述基于FM模型的医学热点的预测方法的装置，在此不再一一展开说明。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文献数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任一实施例中所述的基于FM模型的研究热点的预测方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请实施例还提供一种计算机可读存储介质，所述计算机存储介质可以是非易失性，也可以是易失性，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一实施例中所述的基于FM模型的研究热点的预测方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM一多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（RambuS）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种基于FM模型的医学热点的预测方法，其中，包括：

获取待预测的两个医学实体名称；

依据两个所述医学实体名称，以及预设的医学研究热点的预测模型的特征格式，编写适用于所述预测模型的预测特征，其中所述预测模型是基于FM模型训练得到的模型，其中，所述预设特征为稀疏向量，稀疏向量中对应医学实体名称的位置的值为1，其余为0；

将所述预测特征输入到所述预测模型中进行计算，得到预测概率值，其中，所述预测概率值用于表示两个医学实体名称之间的相关性，预测概率值越大，则表示两个医学实体名称之间的相关性越强；

判断所述预测概率值是否大于预设阈值；

若是，则判定两个所述医学实体名称联合到一起是一个医学研究热点。
根据权利要求1所述的基于FM模型的医学热点的预测方法，其中，所述依据两个所述医学实体名称，以及预设的医学研究热点的预测模型的特征格式，编写适用于所述预测模型的预测特征的步骤之前，包括：

获取记载有医学知识的文献数据；

在所述文献数据中查找预设的医学实体名称，并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来；

依据提取出的具有关联关系的医学实体名称和所述特征格式编写正样本数据；以及构建与正样本数据格式相同，且不存在关联关系的医学实体名称的负样本数据，其中，所述负样本的构建采用实体间随机组合和采样的方式构造；

利用所述正样本数据和负样本数据训练所述基于FM模型的模型，得到用于输出预测概率值的所述预测模型。
根据权利要求1所述的基于FM模型的医学热点的预测方法，其中，所述获取记载有医学知识的文献数据的步骤，包括：

到互联网中查找医学论文网站；

若查找到，则获取所述医学论文网站的建立时间和被访问次数；

计算所述建立时间与当前时间之间的时间长度；

判断所述被访问次数是否大于所述时间长度对应的次数阈值；

若是，则从医学论文网站上下载论文的标题和摘要，并将所述标题和摘要作为所述文献数据。
根据权利要求3所述的基于FM模型的医学热点的预测方法，其中，所述在所述文献数据中查找预设的医学实体名称，并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来的步骤，包括：

在所述论文的摘要中查找预设的缩写格式，并提取缩写格式中的缩写名称，以及缩写格式之前对应缩写名称的完整医学实体名称；

将所述论文中的所述缩写名称替换成所述完整医学实体名称；

在完成缩写名称替换的摘要中查找预设的所述医学实体名称，以及提取具有预设关联关系的所述医学实体名称。
根据权利要求2所述的基于FM模型的医学热点的预测方法，其中，所述在所述文献数据中查找预设的医学实体名称，并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来的步骤，包括：

将所述文献数据以句为单位进行划分；

提取每一句中的医学实体名称；

若同一句中出现两种，则将该句子中的两个所述医学实体名单作为具有预设关联的医学实体名称进行提取；

若同一句中出现两种以上的医学实体名称，则以一个预设种类的第一医学名称作为主体，分别与其他的几个第二医学实体名称进行两两组和，得到多组具有关联关系的医学实体名称，并进行提取。
根据权利要求5所述的基于FM模型的医学热点的预测方法，其中，所述提取每一句中的医学实体名称的名称的步骤，包括：

利用预训练模型BERT对每一句中的文字进行进行语意编码；

在所述语义编码中查找与各预设的医学实体名称的语义编码的相似度大于预设相似度阈值/且相似度最大的第一语义编码；

将所述第一语义编码对应的名称转换成与其对应的所述医学实体名称。
一种基于FM模型的研究热点的预测装置，其中，包括：

第一获取单元，用于获取待预测的两个医学实体名称；

编写单元，用于依据两个所述医学实体名称，以及预设的医学研究热点的预测模型的特征格式，编写适用于所述预测模型的预测特征，其中所述预测模型是基于FM模型训练得到的模型，其中，所述预设特征为稀疏向量，稀疏向量中对应医学实体名称的位置的值为1，其余为0；

计算单元，用于将所述预测特征输入到所述预测模型中进行计算，得到预测概率值，其中，所述预测概率值用于表示两个医学实体名称之间的相关性，预测概率值越大，则表示两个医学实体名称之间的相关性越强；

判断单元，用于判断所述预测概率值是否大于预设阈值；

判定单元，用于若所述预测概率值大于预设阈值，则判定两个所述医学实体名称联合到一起是一个医学研究热点。
根据权利要求7所述的基于FM模型的研究热点的预测装置，其中，还包括：

第二获取单元，用于获取记载有医学知识的文献数据；

查找提取单元，用于在所述文献数据中查找预设的医学实体名称，并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来；

生成样本单元，用于依据提取出的具有关联关系的医学实体名称和所述特征格式编写正样本数据；以及构建与正样本数据格式相同，且不存在关联关系的医学实体名称的负样本数据，其中，所述负样本的构建采用实体间随机组合和采样的方式构造；

训练单元，用于利用所述正样本数据和负样本数据训练所述基于FM模型的模型，得到用于输出预测概率值的所述预测模型。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现一种基于FM模型的医学热点的预测方法；

其中，所述基于FM模型的医学热点的预测方法包括：

获取待预测的两个医学实体名称；

依据两个所述医学实体名称，以及预设的医学研究热点的预测模型的特征格式，编写适用于所述预测模型的预测特征，其中所述预测模型是基于FM模型训练得到的模型，其中，所述预设特征为稀疏向量，稀疏向量中对应医学实体名称的位置的值为1，其余为0；

将所述预测特征输入到所述预测模型中进行计算，得到预测概率值，其中，所述预测概率值用于表示两个医学实体名称之间的相关性，预测概率值越大，则表示两个医学实体名称之间的相关性越强；

判断所述预测概率值是否大于预设阈值；

若是，则判定两个所述医学实体名称联合到一起是一个医学研究热点。
根据权利要求9所述的计算机设备，其中，所述依据两个所述医学实体名称，以及预设的医学研究热点的预测模型的特征格式，编写适用于所述预测模型的预测特征的步骤之前，包括：

获取记载有医学知识的文献数据；

在所述文献数据中查找预设的医学实体名称，并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来；

依据提取出的具有关联关系的医学实体名称和所述特征格式编写正样本数据；以及构建与正样本数据格式相同，且不存在关联关系的医学实体名称的负样本数据，其中，所述负样本的构建采用实体间随机组合和采样的方式构造；

利用所述正样本数据和负样本数据训练所述基于FM模型的模型，得到用于输出预测概率值的所述预测模型。
根据权利要求9所述的计算机设备，其中，所述获取记载有医学知识的文献数据的步骤，包括：

到互联网中查找医学论文网站；

若查找到，则获取所述医学论文网站的建立时间和被访问次数；

计算所述建立时间与当前时间之间的时间长度；

判断所述被访问次数是否大于所述时间长度对应的次数阈值；

若是，则从医学论文网站上下载论文的标题和摘要，并将所述标题和摘要作为所述文献数据。
根据权利要求9所述的计算机设备，其中，所述在所述文献数据中查找预设的医学实体名称，并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来的步骤，包括：

在所述论文的摘要中查找预设的缩写格式，并提取缩写格式中的缩写名称，以及缩写格式之前对应缩写名称的完整医学实体名称；

将所述论文中的所述缩写名称替换成所述完整医学实体名称；

在完成缩写名称替换的摘要中查找预设的所述医学实体名称，以及提取具有预设关联关系的所述医学实体名称。
根据权利要求10所述的计算机设备，其中，所述在所述文献数据中查找预设的医学实体名称，并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来的步骤，包括：

将所述文献数据以句为单位进行划分；

提取每一句中的医学实体名称；

若同一句中出现两种，则将该句子中的两个所述医学实体名单作为具有预设关联的医学实体名称进行提取；

若同一句中出现两种以上的医学实体名称，则以一个预设种类的第一医学名称作为主体，分别与其他的几个第二医学实体名称进行两两组和，得到多组具有关联关系的医学实体名称，并进行提取。
根据权利要求13所述的计算机设备，其中，所述提取每一句中的医学实体名称的名称的步骤，包括：

利用预训练模型BERT对每一句中的文字进行进行语意编码；

在所述语义编码中查找与各预设的医学实体名称的语义编码的相似度大于预设相似度阈值/且相似度最大的第一语义编码；

将所述第一语义编码对应的名称转换成与其对应的所述医学实体名称。
一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现一种基于FM模型的医学热点的预测方法；

其中，所述基于FM模型的医学热点的预测方法包括：

获取待预测的两个医学实体名称；

依据两个所述医学实体名称，以及预设的医学研究热点的预测模型的特征格式，编写适用于所述预测模型的预测特征，其中所述预测模型是基于FM模型训练得到的模型，其中，所述预设特征为稀疏向量，稀疏向量中对应医学实体名称的位置的值为1，其余为0；

将所述预测特征输入到所述预测模型中进行计算，得到预测概率值，其中，所述预测概率值用于表示两个医学实体名称之间的相关性，预测概率值越大，则表示两个医学实体名称之间的相关性越强；

判断所述预测概率值是否大于预设阈值；

若是，则判定两个所述医学实体名称联合到一起是一个医学研究热点。
根据权利要求15所述的计算机可读存储介质，其中，所述依据两个所述医学实体名称，以及预设的医学研究热点的预测模型的特征格式，编写适用于所述预测模型的预测特征的步骤之前，包括：

获取记载有医学知识的文献数据；

在所述文献数据中查找预设的医学实体名称，并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来；

依据提取出的具有关联关系的医学实体名称和所述特征格式编写正样本数据；以及构建与正样本数据格式相同，且不存在关联关系的医学实体名称的负样本数据，其中，所述负样本的构建采用实体间随机组合和采样的方式构造；

利用所述正样本数据和负样本数据训练所述基于FM模型的模型，得到用于输出预测概率值的所述预测模型。
根据权利要求15所述的计算机可读存储介质，其中，所述获取记载有医学知识的文献数据的步骤，包括：

到互联网中查找医学论文网站；

若查找到，则获取所述医学论文网站的建立时间和被访问次数；

计算所述建立时间与当前时间之间的时间长度；

判断所述被访问次数是否大于所述时间长度对应的次数阈值；

若是，则从医学论文网站上下载论文的标题和摘要，并将所述标题和摘要作为所述文献数据。
根据权利要求15所述的计算机可读存储介质，其中，所述在所述文献数据中查找预设的医学实体名称，并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来的步骤，包括：

在所述论文的摘要中查找预设的缩写格式，并提取缩写格式中的缩写名称，以及缩写格式之前对应缩写名称的完整医学实体名称；

将所述论文中的所述缩写名称替换成所述完整医学实体名称；

在完成缩写名称替换的摘要中查找预设的所述医学实体名称，以及提取具有预设关联关系的所述医学实体名称。
根据权利要求16所述的计算机可读存储介质，其中，所述在所述文献数据中查找预设的医学实体名称，并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来的步骤，包括：

将所述文献数据以句为单位进行划分；

提取每一句中的医学实体名称；

若同一句中出现两种，则将该句子中的两个所述医学实体名单作为具有预设关联的医学实体名称进行提取；

若同一句中出现两种以上的医学实体名称，则以一个预设种类的第一医学名称作为主体，分别与其他的几个第二医学实体名称进行两两组和，得到多组具有关联关系的医学实体名称，并进行提取。
根据权利要求19所述的计算机可读存储介质，其中，所述提取每一句中的医学实体名称的名称的步骤，包括：

利用预训练模型BERT对每一句中的文字进行进行语意编码；

在所述语义编码中查找与各预设的医学实体名称的语义编码的相似度大于预设相似度阈值/且相似度最大的第一语义编码；

将所述第一语义编码对应的名称转换成与其对应的所述医学实体名称。