WO2021159738A1

WO2021159738A1 - 基于医学领域的数据推荐方法、设备、服务器及存储介质

Info

Publication number: WO2021159738A1
Application number: PCT/CN2020/124606
Authority: WO
Inventors: 张倩
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-09-27
Filing date: 2020-10-29
Publication date: 2021-08-19
Also published as: CN111949890B; CN111949890A

Abstract

一种基于医学领域的数据推荐方法、设备、服务器及存储介质，该方法包括：将构建的训练样本集中的第一用户特征和第一内容特征输入双塔模型进行训练得到召回模型；将对指定业务场景有过行为的目标用户的第二用户画像信息和指定业务场景的第二内容信息输入召回模型，得到用户特征向量和内容特征向量；根据用户特征向量与内容特征向量的距离确定N个推荐内容，并将N个推荐内容的索引标识存储于redis缓存中；当获取到用户终端发送的推荐请求时，将与推荐请求中携带的目标索引标识对应的目标推荐内容发送给用户终端，从而提高数据推荐的效率和准确率。该方法涉及区块链技术，上述数据可存储于区块链中。

Description

基于医学领域的数据推荐方法、设备、服务器及存储介质

本申请要求于2020年9月27日提交中国专利局、申请号为202011033995.3，发明名称为“基于医学领域的数据推荐方法、设备、服务器及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数字医疗领域，尤其涉及一种基于医学领域的数据推荐方法、设备、服务器及存储介质。

背景技术

发明人意识到，目前，主流的推荐系统通常包括索引阶段、召回阶段和排序阶段，其中，召回阶段主要是通过在有限的响应时间内直接从索引阶段得到的内容候选集中选择内容，并将选择的内容发送至排序阶段。这种方式受到巨大候选集和实时性的要求，复杂性受限，不适用于复杂的模型和网络。

发明内容

本申请实施例提供了一种基于医学领域的数据推荐方法、设备、服务器及存储介质，有助于提高医疗领域的数据推荐的效率和准确率。

第一方面，本申请实施例提供了一种基于医学领域的数据推荐方法，包括：

构建训练样本集，所述训练样本集包括多个用户的第一用户画像信息和第一内容信息，其中，所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种，所述第一内容信息为医学相关数据，包括一个正样本数据和多个负样本数据，每个负样本数据包括第一负样本数据和第二负样本数据；

根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征，并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征；

将所述第一用户特征和所述第一内容特征输入双塔模型进行训练，得到召回模型；

将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型，得到所述目标用户的用户特征向量和内容特征向量；

计算所述用户特征向量与所述内容特征向量的距离，并根据所述距离确定N个推荐内容，以及将所述N个推荐内容的索引标识存储于redis缓存中，其中，所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容，N为大于或等于1的正整数；

当获取到用户终端发送的推荐请求时，根据所述推荐请求中携带的目标索引标识，从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容，并将所述目标推荐内容发送给所述用户终端。

第二方面，本申请实施例提供了一种基于医学领域的数据推荐设备，包括：

构建单元，用于构建训练样本集，所述训练样本集包括多个用户的第一用户画像信息和第一内容信息，其中，所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种，所述第一内容信息为医学相关数据，包括一个正样本数据和多个负样本数据，每个负样本数据包括第一负样本数据和第二负样本数据；

确定单元，用于根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征，并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征；

训练单元，用于将所述第一用户特征和所述第一内容特征输入双塔模型进行训练，得到召回模型；

处理单元，用于将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型，得到所述目标用户的用户特征向量和内容特征向量；

计算单元，用于计算所述用户特征向量与所述内容特征向量的距离，并根据所述距离确定N个推荐内容，以及将所述N个推荐内容的索引标识存储于redis缓存中，其中，所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容，N为大于或等于1的正整数；

推荐单元，用于当获取到用户终端发送的推荐请求时，根据所述推荐请求中携带的目标索引标识，从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容，并将所述目标推荐内容发送给所述用户终端。

第三方面，本申请实施例提供了一种服务器，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储支持基于医学领域的数据推荐设备执行上述方法的计算机程序，所述计算机程序包括程序，所述处理器被配置用于调用所述程序，执行以下方法：

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行以实现以下方法：

计算所述用户特征向量与所述内容特征向量的距离，并根据所述距离确定N个推荐内容，以及将所述N个推荐内容的索引标识存储于redis缓存中，其中，所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容，N为大于或等于1 的正整数；

本申请实施例可以提高医疗领域的数据推荐的效率和准确率。

附图说明

图1是本申请实施例提供的一种基于医学领域的数据推荐系统的结构示意图；

图2是本申请实施例提供的一种基于医学领域的数据推荐系统的流程示意图；

图3是本申请实施例提供的一种基于医学领域的数据推荐方法的示意流程图；

图4是本申请实施例提供的一种基于医学领域的数据推荐设备的示意框图；

图5是本申请实施例提供的一种服务器的示意框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

本申请的技术方案可应用于人工智能、数字医疗、智慧城市、区块链和/或大数据技术领域，以实现数据推荐，比如医疗领域的数据推荐，实现智慧医疗。可选的，本申请涉及的数据如训练样本和/或推荐内容等可存储于数据库中，或者可以存储于区块链中，或者还可采用其他方式存储，本申请不做限定。

本申请实施例提供的基于医学领域的数据推荐方法可以应用于一种基于医学领域的数据推荐系统，在某些实施例中，所述基于医学领域的数据推荐系统包括服务器和用户终端。在某些实施例中，所述服务器中包括基于医学领域的数据推荐设备。在某些实施例中，所述用户终端可以与服务器建立通信连接。在某些实施例中，所述通信连接的方式可以包括但不限于Wi-Fi、蓝牙、近场通信(Near Field Communication，NFC)等。在某些实施例中，所述用户终端包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑等智能终端设备。

下面结合附图1和图2对本申请实施例提供的基于医学领域的数据推荐系统进行示意性说明。

请参见图1，图1是本申请实施例提供的一种基于医学领域的数据推荐系统的结构示意图。所述基于医学领域的数据推荐系统包括：服务器11和用户终端12。在某些实施例中，所述用户终端12可以与服务器11建立通信连接。在某些实施例中，所述用户终端12可以包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑等智能终端设备。

本申请实施例中，服务器11可以构建训练样本集，所述训练样本集包括多个用户的第一用户画像信息和第一内容信息，所述第一内容信息包括一个正样本数据和多个负样本数据，每个负样本数据包括第一负样本数据和第二负样本数据；将与所述第一用户画像信息对应的第一用户特征以及与所述第一内容信息对应的第一内容特征输入双塔模型进行训练，得到召回模型；将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型，得到所述目标用户的用户特征向量和内容特征向量；计算所述用户特征向量与所述内容特征向量的距离，并根据所述距离确定N个推荐内容，以及将所述N个推荐内容的索引标识存储于redis缓存中；当服务器11获取到用户终端12发送的推荐请求时，可以根据所述推荐请求中携带的目标索引标识，从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容，并将所述目标推荐内容发送给所述用户终端12。通过这种方式可以提高医疗领域的数据推荐的效率和准确率。

请参见图2，图2是本申请实施例提供的一种基于医学领域的数据推荐系统的流程示意图，如图2所示，所述基于医学领域的数据推荐系统主要分为线下处理21和线上处理22两部分，其中，线下处理21用于构建训练样本集以及模型训练，线上处理22用于在获取到用户终端发送的推荐请求时，向用户终端发送目标推荐内容。

在线下处理21的具体实施过程中，可以从日志数据211中获取正样本数据和负样本数据，其中，在从日志数据211中获取正样本数据时，可以确定日志数据211中被曝光点击的数据为正样本数据；在从日志数据211中获取负样本数据时，可以按从日志数据211中的曝光数随机抽取得到第一负样本数据，以及，可以从日志数据中获取与正样本数据的主题信息相同的其他数据为第二负样本数据，从而确定第一负样本数据和第二负样本数据为负样本数据。在构建好正样本数据和负样本数据之后可以将正样本数据和负样本数据输入双塔模型通过损失函数进行训练，得到召回模型。

在线上处理22的具体实施过程中，可以将目标用户221的第二用户画像信息和指定业务场景的内容候选池中的第二内容信息输入召回模型，得到目标用户221的用户特征向量和内容特征向量，并计算所述用户特征向量与所述内容特征向量的距离，根据所述距离确定N个推荐内容。从而可以将所述N个推荐内容的索引标识存储于redis缓存中。

本申请实施例，结合业务场景和内容数据特征构建了一个高效、高性能的数据推荐系统，通过将第一用户画像信息和包括一个正样本数据和多个负样本数据的第一内容信息作为训练样本集训练得到召回模型；并利用该召回模型为目标用户确定目标推荐内容，以及将目标推荐内容的索引标识存储于redis缓存中，以便可以在获取到目标用户的推荐请求时，可以直接从redis缓存中获取目标推荐数据，以提高推荐效率和准确度。

下面结合附图3对本申请实施例提供的基于医学领域的数据推荐方法进行示意性说明。

请参见图3，图3是本申请实施例提供的一种基于医学领域的数据推荐方法的示意流程图，如图3所示，该方法可以由基于医学领域的数据推荐设备执行，所述基于医学领域的数据推荐设备设置于服务器中，所述服务器的具体解释如前所述，此处不再赘述。具体地，本申请实施例的所述方法包括如下步骤。

S301：构建训练样本集，所述训练样本集包括多个用户的第一用户画像信息和第一内容信息。

本申请实施例中，基于医学领域的数据推荐设备可以构建训练样本集，所述训练样本集包括多个用户的第一用户画像信息和第一内容信息，其中，所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种，所述第一内容信息为医学相关数据，包括一个正样本数据和多个负样本数据，每个负样本数据包括第一负样本数据和第二负样本数据。

在一个实施例中，基于医学领域的数据推荐设备在构建训练样本集时，可以获取所述指定业务场景的日志数据，并从所述日志数据中获取被曝光点击的行为数据；以及根据所述被曝光点击的行为数据，确定与所述被曝光点击的行为数据对应的医学相关数据为所述正样本数据；以及从样本候选集中随机抽样得到所述第一负样本数据，并根据所述正样本数据的主题信息从除所述正样本数据以外的其他样本数据中确定与所述主题信息相同的所述第二负样本数据。在某些实施例中，所述主题信息包括但不限于疾病预测、疾病检测、疾病诊断等主题。

例如，假设所述指定业务场景为医学论文平台，则基于医学领域的数据推荐设备可以获取所述医学论文平台的日志数据，并从所述日志数据中获取被曝光点击的行为数据；以及根据所述被曝光点击的行为数据，确定与所述被曝光点击的行为数据对应的医学论文数据为所述正样本数据。如果所述正样本数据的主题是疾病预测，则基于医学领域的数据推荐设备可以根据所述正样本数据的主题信息疾病预测从除所述正样本数据以外的其他样本数据中确定与疾病预测这个主题信息相同的第二负样本数据。

通过这种方式，可增加模型训练的难度，有助于帮助模型学习到细粒度的知识和差异。

在一个实施例中，考虑到数据推荐系统中少数的主题信息占据了绝大多数的曝光和点击，在从样本候选集中随机抽样得到所述第一负样本数据时，可以获取各个热门主题信息的曝光数，并对各个热门主题信息按照曝光数进行过采样，得到所述第一负样本数据。通过这种方式有助于抵消热门主题信息对正样本数据的影响。

在一个实施例中，正样本数据和负样本数据的比例可以为1:20，其中，20个负样本数据中粗粒度的第一负样本数据和细粒度的第二负样本数据的比例可以为19:1。

在某些实施例中，所述医学相关数据可以为与医学相关的一些疾病、药物、病例等相关的文章、论文等。在某些实施例中，所述指定业务场景可以包括但不限于与医学数据相关的平台。

S302：根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征，并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征。

本申请实施例中，基于医学领域的数据推荐设备可以根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征，并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征。

在一个实施例中，基于医学领域的数据推荐设备在根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征时，可以获取所述正样本数据和所述负样本数据所挂载的相关属性，其中，所述相关属性包括相关科室、相关药物、相关主题、相关疾病中的一种或多种；并根据所述正样本数据和所述负样本数据所挂载的相关属性确定所述第一内容信息对应的第一内容特征。

在一个实施例中，所述第一用户画像信息包括用户的属性信息、用户的行为数据信息、用户的偏好信息中的一种或多种，其中，所述用户的属性信息包括但不限于如用户ID、年龄、性别、地理位置(省份和城市)、具体职业(比如医生/护士/乡村医生/医学生等等)；所述用户的行为数据信息包括但不限于有过行为(点击/点赞/转发/收藏等)的论文序列，有过行为的疾病序列，有过行为的科室序列，有过行为的药物序列等；所述用户的偏好信息包括但不限于用户偏好的疾病，偏好的药物，偏好的科室等。

在一个实施例中，所述第一用户特征是根据用户的属性信息、行为数据信息、偏好信息中的一种或多种确定的。

S303：将所述第一用户特征和所述第一内容特征输入双塔模型进行训练，得到召回模型。

本申请实施例中，基于医学领域的数据推荐设备可以将所述第一用户特征和所述第一内容特征输入双塔模型进行训练，得到召回模型。具体地，基于医学领域的数据推荐设备在生成所述第一用户特征和所述第一内容特征之后，可以将所述第一用户特征和所述第一内容特征输入双塔模型进行训练。

在一个实施例中，基于医学领域的数据推荐设备在将所述第一用户特征和所述第一内容特征输入双塔模型进行训练，得到召回模型时，可以将所述第一用户特征和所述第一内容特征输入双塔模型中，得到损失函数值；将所述损失函数值与目标损失函数值进行对比，并根据对比结果调整所述双塔模型的模型参数；以及将所述第一用户特征和所述第一内容特征输入调整所述模型参数后的双塔模型中；当得到的损失函数值与目标损失函数值的对比结果满足预设条件时，确定得到所述召回模型。

在一个实施例中，所述损失函数值可以是根据贝叶斯个性化排序损失函数(Bayesian Personalized Ranking Loss Operator，BPR)确定的，所述BPR的公式如下公式(1)所示：

其中，所述u为用户画像信息，d ⁺为正样本数据，d ^-为负样本数据，<u,d ⁺>表示用户画像信息和正样本数据，<u,d ^->表示用户画像信息和负样本数据，<u,d ⁺>-<u,d ^->表示用户画像信息和正样本数据与用户画像信息和负样本数据之间的距离信息。

在一个实施例中，可根据正样本数据被正确预测的最高分的概率来评价所述召回模型。

通过这种利用用户特征和内容特征训练模型的方式，有助于探索用户和内容两种不同的实体在同一个隐含空间内的相似性，从而进行推荐。

S304：将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型，得到所述目标用户的用户特征向量和内容特征向量。

本申请实施例中，基于医学领域的数据推荐设备可以将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型，得到所述目标用户的用户特征向量和内容特征向量。

在一个实施例中，基于医学领域的数据推荐设备在将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型，得到所述目标用户的用户特征向量和内容特征向量时，可以获取在指定时刻之前的历史时间范围内对所述指定业务场景有过行为的目标用户的第二用户画像信息，并确定与所述第二用户画像信息对应的第二用户特征；获取在所述指定业务场景的内容候选池中的第二内容信息，并确定与所述第二内容信息对应的第二内容特征；将所述第二用户特征和所述第二内容特征输入所述召回模型中，得到所述目标用户的用户特征向量和内容特征向量。

在一个实施例中，所述指定业务场景的内容候选池中的第二内容信息包括所述指定业务场景中所有用户的内容信息。

在一个实施例中，基于医学领域的数据推荐设备在将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型，得到所述目标用户的用户特征向量和内容特征向量时，可以获取在指定时刻之前的历史时间范围内对所述指定业务场景有过行为的每个用户的第二用户画像信息，并确定与所述每个用户的第二用户画像信息对应的第二用户特征；获取在所述指定业务场景的内容候选池中的第二内容信息，并确定与所述第二内容信息对应的第二内容特征；将所述每个用户的第二用户特征和所述第二内容特征输入所述召回模型中，得到所述每个用户的用户特征向量和内容特征向量。

例如，基于医学领域的数据推荐设备可以获取在t时刻之前的24小时内对医学论文平台有过行为的目标用户张三的第二用户画像信息，并确定与所述第二用户画像信息对应的第二用户特征；以及获取在所述医学论文平台中所有对所述医学论文平台有过行为数据的用户对应的内容候选池中的第二内容信息，并确定与所述第二内容信息对应的第二内容特征；从而将所述第二用户特征和所述第二内容特征输入所述召回模型中，得到张三的用户特征向量和内容特征向量。

S305：计算所述用户特征向量与所述内容特征向量的距离，并根据所述距离确定N个推荐内容，以及将所述N个推荐内容的索引标识存储于redis缓存中，其中，所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容，N为大于或等于1的正整数。

本申请实施例中，基于医学领域的数据推荐设备可以计算所述用户特征向量与所述内容特征向量的距离，并根据所述距离确定N个推荐内容，以及将所述N个推荐内容的索引标识存储于redis缓存中，其中，所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容，N为大于或等于1的正整数。

在一个实施例中，基于医学领域的数据推荐设备在计算所述用户特征向量与所述内容特征向量的距离时，可以利用余弦相似度算法计算所述用户特征向量与所述内容特征向量之间的相似度，并根据所述相似度确定所述用户特征向量与所述内容特征向量的距离。

在一个实施例中，基于医学领域的数据推荐设备在将所述N个推荐内容的索引标识存储于redis缓存中时，可以获取所述N个推荐内容的用户标识和/或内容标识，并根据所述N个推荐内容的用户标识和/或内容标识，确定所述N个推荐内容的索引标识，并将所述N个推荐内容的索引标识存储于所述redis缓存中。

通过将所述推荐内容存储于redis这种速度快、支持数据持久化以及支持丰富数据类型的key-value类型数据的内存库中，有助于提高推荐的效率。

S306：当获取到用户终端发送的推荐请求时，根据所述推荐请求中携带的目标索引标识，从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容，并将所述目标推荐内容发送给所述用户终端。

本申请实施例中，基于医学领域的数据推荐设备当获取到用户终端发送的推荐请求时，可以根据所述推荐请求中携带的目标索引标识，从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容，并将所述目标推荐内容发送给所述用户终端。在某些实施例中，所述目标索引标识可以为用户标识或内容标识。

在一个实施例中，所述推荐请求中可以携带用户标识和/或内容标识，基于医学领域的数据推荐设备当获取到用户终端发送的推荐请求时，可以根据所述推荐请求中携带的用户标识和/或内容标识确定对应的目标索引标识，并从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容，并将所述目标推荐内容发送给所述用户终端。在某些实施例中，所述目标索引标识可以为用户标识或内容标识。

本申请实施例中，基于医学领域的数据推荐设备可以构建训练样本集，所述训练样本集包括多个用户的第一用户画像信息和第一内容信息，所述第一内容信息包括一个正样本数据和多个负样本数据，每个负样本数据包括第一负样本数据和第二负样本数据；将与所述第一用户画像信息对应的第一用户特征以及与所述第一内容信息对应的第一内容特征输入双塔模型进行训练，得到召回模型；将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型，得到所述目标用户的用户特征向量和内容特征向量；计算所述用户特征向量与所述内容特征向量的距离，并根据所述距离确定N个推荐内容，以及将所述N个推荐内容的索引标识存储于redis缓存中；当获取到用户终端发送的推荐请求时，根据所述推荐请求中携带的目标索引标识，从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容，并将所述目标推荐内容发送给所述用户终端。通过这种方式可以提高医疗领域的数据推荐的效率和准确率。

本申请实施例还提供了一种基于医学领域的数据推荐设备，该基于医学领域的数据推荐设备用于执行前述任一项所述的方法的单元。具体地，参见图4，图4是本申请实施例提供的一种基于医学领域的数据推荐设备的示意框图。本实施例的基于医学领域的数据推荐设备包括：构建单元401、确定单元402、训练单元403、处理单元404、计算单元405以及推荐单元406。

构建单元401，用于构建训练样本集，所述训练样本集包括多个用户的第一用户画像信息和第一内容信息，其中，所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种，所述第一内容信息为医学相关数据，包括一个正样本数据和多个负样本数据，每个负样本数据包括第一负样本数据和第二负样本数据；

确定单元402，用于根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征，并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征；

训练单元403，用于将所述第一用户特征和所述第一内容特征输入双塔模型进行训练，得到召回模型；

处理单元404，用于将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型，得到所述目标用户的用户特征向量和内容特征向量；

计算单元405，用于计算所述用户特征向量与所述内容特征向量的距离，并根据所述距离确定N个推荐内容，以及将所述N个推荐内容的索引标识存储于redis缓存中，其中，所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容，N为大于或等于1的正整数；

推荐单元406，用于当获取到用户终端发送的推荐请求时，根据所述推荐请求中携带的目标索引标识，从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容，并将所述目标推荐内容发送给所述用户终端。

进一步地，所述构建401构建训练样本集时，具体用于：

获取所述指定业务场景的日志数据，并从所述日志数据中获取被曝光点击的行为数据；

根据所述被曝光点击的行为数据，确定与所述被曝光点击的行为数据对应的医学相关数据为所述正样本数据；

从样本候选集中随机抽样得到所述第一负样本数据，并根据所述正样本数据的主题信息从除所述正样本数据以外的其他样本数据中确定与所述主题信息相同的所述第二负样本数据。

进一步地，所述确定单元402根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征时，具体用于：

获取所述正样本数据和所述负样本数据所挂载的相关属性，其中，所述相关属性包括相关科室、相关药物、相关主题、相关疾病中的一种或多种；

根据所述正样本数据和所述负样本数据所挂载的相关属性确定所述第一内容信息对应的第一内容特征。

进一步地，所述训练单元403将所述第一用户特征和所述第一内容特征输入双塔模型进行训练，得到召回模型时，具体用于：

将所述第一用户特征和所述第一内容特征输入双塔模型中，得到损失函数值；

将所述损失函数值与目标损失函数值进行对比，并根据对比结果调整所述双塔模型的模型参数；

将所述第一用户特征和所述第一内容特征输入调整所述模型参数后的双塔模型中，当得到的损失函数值与目标损失函数值的对比结果满足预设条件时，确定得到所述召回模型。

进一步地，所述处理单元404将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型，得到所述目标用户的用户特征向量和内容特征向量时，具体用于：

获取在指定时刻之前的历史时间范围内对所述指定业务场景有过行为的目标用户的第二用户画像信息，并确定与所述第二用户画像信息对应的第二用户特征；

获取在所述指定业务场景的内容候选池中的第二内容信息，并确定与所述第二内容信息对应的第二内容特征；

将所述第二用户特征和所述第二内容特征输入所述召回模型中，得到所述目标用户的用户特征向量和内容特征向量。

进一步地，所述计算单元405计算所述用户特征向量与所述内容特征向量的距离时，具体用于：

利用余弦相似度算法计算所述用户特征向量与所述内容特征向量之间的相似度；

根据所述相似度确定所述用户特征向量与所述内容特征向量的距离。

进一步地，所述计算单元405将所述N个推荐内容的索引标识存储于redis缓存中时，具体用于：

获取所述N个推荐内容的用户标识和/或内容标识；

根据所述N个推荐内容的用户标识和/或内容标识，确定所述N个推荐内容的索引标识，并将所述N个推荐内容的索引标识存储于所述redis缓存中。

参见图5，图5是本申请实施例提供的一种服务器的示意框图。如图所示的本实施例中的服务器可以包括：一个或多个处理器501；一个或多个输入设备502，一个或多个输出设备503和存储器504。上述处理器501、输入设备502、输出设备503和存储器504通过总线505连接。存储器504用于存储计算机程序，所述计算机程序包括程序，处理器501用于执行存储器504存储的程序。其中，处理器501被配置用于调用所述程序执行：

进一步地，所述处理器501构建训练样本集时，具体用于：

进一步地，所述处理器501根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征时，具体用于：

进一步地，所述处理器501将所述第一用户特征和所述第一内容特征输入双塔模型进行训练，得到召回模型时，具体用于：

进一步地，所述处理器501将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型，得到所述目标用户的用户特征向量和内容特征向量时，具体用于：

进一步地，所述处理器501计算所述用户特征向量与所述内容特征向量的距离时，具体用于：

进一步地，所述处理器501将所述N个推荐内容的索引标识存储于redis缓存中时，具体用于：

获取所述N个推荐内容的用户标识和/或内容标识；

本申请实施例中，服务器可以构建训练样本集，所述训练样本集包括多个用户的第一用户画像信息和第一内容信息，所述第一内容信息包括一个正样本数据和多个负样本数据，每个负样本数据包括第一负样本数据和第二负样本数据；将与所述第一用户画像信息对应的第一用户特征以及与所述第一内容信息对应的第一内容特征输入双塔模型进行训练，得到召回模型；将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型，得到所述目标用户的用户特征向量和内容特征向量；计算所述用户特征向量与所述内容特征向量的距离，并根据所述距离确定N个推荐内容，以及将所述N个推荐内容的索引标识存储于redis缓存中；当获取到用户终端发送的推荐请求时，根据所述推荐请求中携带的目标索引标识，从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容，并将所述目标推荐内容发送给所述用户终端。通过这种方式可以提高医疗领域的数据推荐的效率和准确率。

应当理解，在本申请实施例中，所称处理器501可以是中央处理单元(CenSral Processing UniS，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigiSal Signal Processor，DSP)、专用集成电路(ApplicaSion Specific InSegraSed CircuiS，ASIC)、现成可编程门阵列(Field-Programmable GaSe Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备502可以包括触控板、麦克风等，输出设备503可以包括显示器(LCD等)、扬声器等。

该存储器504可以包括只读存储器和随机存取存储器，并向处理器501提供指令和数据。存储器504的一部分还可以包括非易失性随机存取存储器。例如，存储器504还可以存储设备类型的信息。

具体实现中，本申请实施例中所描述的处理器501、输入设备502、输出设备503可执行本申请实施例提供的图3所述的方法实施例中所描述的实现方式，也可执行本申请实施例图4所描述的基于医学领域的数据推荐设备的实现方式，在此不再赘述。

本申请实施例中还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现图3所对应实施例中描述的基于医学领域的数据推荐方法，也可实现本申请图4所对应实施例的基于医学领域的数据推荐设备，在此不再赘述。可选的，本申请涉及的存储介质如计算机可读存储介质可以是非易失性的，也可以是易失性的。

所述计算机可读存储介质可以是前述任一实施例所述的基于医学领域的数据推荐设备的内部存储单元，例如基于医学领域的数据推荐设备的硬盘或内存。所述计算机可读存储介质也可以是所述基于医学领域的数据推荐设备的外部存储设备，例如所述基于医学领域的数据推荐设备上配备的插接式硬盘，智能存储卡(SmarS Media Card,SMC)，安全数字(Secure DigiSal,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述基于医学领域的数据推荐设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述基于医学领域的数据推荐设备所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。所述的计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

需要强调的是，为进一步保证上述数据的私密和安全性，上述诊断结果还可以存储于一区块链的节点中。其中，本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所述，仅为本申请的部分实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

一种基于医学领域的数据推荐方法，包括：

构建训练样本集，所述训练样本集包括多个用户的第一用户画像信息和第一内容信息，其中，所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种，所述第一内容信息为医学相关数据，包括一个正样本数据和多个负样本数据，每个负样本数据包括第一负样本数据和第二负样本数据；

根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征，并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征；

将所述第一用户特征和所述第一内容特征输入双塔模型进行训练，得到召回模型；

将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型，得到所述目标用户的用户特征向量和内容特征向量；

计算所述用户特征向量与所述内容特征向量的距离，并根据所述距离确定N个推荐内容，以及将所述N个推荐内容的索引标识存储于redis缓存中，其中，所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容，N为大于或等于1的正整数；

当获取到用户终端发送的推荐请求时，根据所述推荐请求中携带的目标索引标识，从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容，并将所述目标推荐内容发送给所述用户终端。
根据权利要求1所述的方法，其中，所述构建训练样本集，包括：

获取所述指定业务场景的日志数据，并从所述日志数据中获取被曝光点击的行为数据；

根据所述被曝光点击的行为数据，确定与所述被曝光点击的行为数据对应的医学相关数据为所述正样本数据；

从样本候选集中随机抽样得到所述第一负样本数据，并根据所述正样本数据的主题信息从除所述正样本数据以外的其他样本数据中确定与所述主题信息相同的所述第二负样本数据。
根据权利要求1所述的方法，其中，所述根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征，包括：

获取所述正样本数据和所述负样本数据所挂载的相关属性，其中，所述相关属性包括相关科室、相关药物、相关主题、相关疾病中的一种或多种；

根据所述正样本数据和所述负样本数据所挂载的相关属性确定所述第一内容信息对应的第一内容特征。
根据权利要求1所述的方法，其中，所述将所述第一用户特征和所述第一内容特征输入双塔模型进行训练，得到召回模型，包括：

将所述第一用户特征和所述第一内容特征输入双塔模型中，得到损失函数值；

将所述损失函数值与目标损失函数值进行对比，并根据对比结果调整所述双塔模型的模型参数；

将所述第一用户特征和所述第一内容特征输入调整所述模型参数后的双塔模型中，当得到的损失函数值与目标损失函数值的对比结果满足预设条件时，确定得到所述召回模型。
根据权利要求4所述的方法，其中，所述将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型，得到所述目标用户的用户特征向量和内容特征向量，包括：

获取在指定时刻之前的历史时间范围内对所述指定业务场景有过行为的目标用户的第二用户画像信息，并确定与所述第二用户画像信息对应的第二用户特征；

获取在所述指定业务场景的内容候选池中的第二内容信息，并确定与所述第二内容信息对应的第二内容特征；

将所述第二用户特征和所述第二内容特征输入所述召回模型中，得到所述目标用户的用户特征向量和内容特征向量。
根据权利要求5所述的方法，其中，所述计算所述用户特征向量与所述内容特征向量的距离，包括：

利用余弦相似度算法计算所述用户特征向量与所述内容特征向量之间的相似度；

根据所述相似度确定所述用户特征向量与所述内容特征向量的距离。
根据权利要求1所述的方法，其中，所述将所述N个推荐内容的索引标识存储于redis缓存中，包括：

获取所述N个推荐内容的用户标识和/或内容标识；

根据所述N个推荐内容的用户标识和/或内容标识，确定所述N个推荐内容的索引标识，并将所述N个推荐内容的索引标识存储于所述redis缓存中。
一种基于医学领域的数据推荐设备，包括：

构建单元，用于构建训练样本集，所述训练样本集包括多个用户的第一用户画像信息和第一内容信息，其中，所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种，所述第一内容信息为医学相关数据，包括一个正样本数据和多个负样本数据，每个负样本数据包括第一负样本数据和第二负样本数据；

确定单元，用于根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征，并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征；

训练单元，用于将所述第一用户特征和所述第一内容特征输入双塔模型进行训练，得到召回模型；

处理单元，用于将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型，得到所述目标用户的用户特征向量和内容特征向量；

计算单元，用于计算所述用户特征向量与所述内容特征向量的距离，并根据所述距离确定N个推荐内容，以及将所述N个推荐内容的索引标识存储于redis缓存中，其中，所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容，N为大于或等于1的正整数；

推荐单元，用于当获取到用户终端发送的推荐请求时，根据所述推荐请求中携带的目标索引标识，从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容，并将所述目标推荐内容发送给所述用户终端。
一种服务器，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序，所述处理器被配置用于调用所述程序，执行以下方法：

构建训练样本集，所述训练样本集包括多个用户的第一用户画像信息和第一内容信息，其中，所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种，所述第一内容信息为医学相关数据，包括一个正样本数据和多个负样本数据，每个负样本数据包括第一负样本数据和第二负样本数据；

根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征，并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征；

将所述第一用户特征和所述第一内容特征输入双塔模型进行训练，得到召回模型；

将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型，得到所述目标用户的用户特征向量和内容特征向量；

计算所述用户特征向量与所述内容特征向量的距离，并根据所述距离确定N个推荐内容，以及将所述N个推荐内容的索引标识存储于redis缓存中，其中，所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容，N为大于或等于1的正整数；

当获取到用户终端发送的推荐请求时，根据所述推荐请求中携带的目标索引标识，从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容，并将所述目标推荐内容发送给所述用户终端。
根据权利要求9所述的服务器，其中，所述构建训练样本集时，具体执行：

获取所述指定业务场景的日志数据，并从所述日志数据中获取被曝光点击的行为数据；

根据所述被曝光点击的行为数据，确定与所述被曝光点击的行为数据对应的医学相关数据为所述正样本数据；

从样本候选集中随机抽样得到所述第一负样本数据，并根据所述正样本数据的主题信息从除所述正样本数据以外的其他样本数据中确定与所述主题信息相同的所述第二负样本数据。
根据权利要求9所述的服务器，其中，所述根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征时，具体执行：

获取所述正样本数据和所述负样本数据所挂载的相关属性，其中，所述相关属性包括相关科室、相关药物、相关主题、相关疾病中的一种或多种；

根据所述正样本数据和所述负样本数据所挂载的相关属性确定所述第一内容信息对应的第一内容特征。
根据权利要求9所述的服务器，其中，所述将所述第一用户特征和所述第一内容特征输入双塔模型进行训练，得到召回模型时，具体执行：

将所述第一用户特征和所述第一内容特征输入双塔模型中，得到损失函数值；

将所述损失函数值与目标损失函数值进行对比，并根据对比结果调整所述双塔模型的模型参数；

将所述第一用户特征和所述第一内容特征输入调整所述模型参数后的双塔模型中，当得到的损失函数值与目标损失函数值的对比结果满足预设条件时，确定得到所述召回模型。
根据权利要求12所述的服务器，其中，所述将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型，得到所述目标用户的用户特征向量和内容特征向量时，具体执行：

获取在指定时刻之前的历史时间范围内对所述指定业务场景有过行为的目标用户的第二用户画像信息，并确定与所述第二用户画像信息对应的第二用户特征；

获取在所述指定业务场景的内容候选池中的第二内容信息，并确定与所述第二内容信息对应的第二内容特征；

将所述第二用户特征和所述第二内容特征输入所述召回模型中，得到所述目标用户的用户特征向量和内容特征向量。
根据权利要求13所述的服务器，其中，所述计算所述用户特征向量与所述内容特征向量的距离时，具体执行：

利用余弦相似度算法计算所述用户特征向量与所述内容特征向量之间的相似度；

根据所述相似度确定所述用户特征向量与所述内容特征向量的距离。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现以下方法：

构建训练样本集，所述训练样本集包括多个用户的第一用户画像信息和第一内容信息，其中，所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种，所述第一内容信息为医学相关数据，包括一个正样本数据和多个负样本数据，每个负样本数据包括第一负样本数据和第二负样本数据；

根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征，并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征；

将所述第一用户特征和所述第一内容特征输入双塔模型进行训练，得到召回模型；

将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型，得到所述目标用户的用户特征向量和内容特征向量；

计算所述用户特征向量与所述内容特征向量的距离，并根据所述距离确定N个推荐内容，以及将所述N个推荐内容的索引标识存储于redis缓存中，其中，所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容，N为大于或等于1的正整数；

当获取到用户终端发送的推荐请求时，根据所述推荐请求中携带的目标索引标识，从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容，并将所述目标推荐内容发送给所述用户终端。
根据权利要求15所述的计算机可读存储介质，其中，所述构建训练样本集时，具体实现：

获取所述指定业务场景的日志数据，并从所述日志数据中获取被曝光点击的行为数据；

根据所述被曝光点击的行为数据，确定与所述被曝光点击的行为数据对应的医学相关数据为所述正样本数据；

从样本候选集中随机抽样得到所述第一负样本数据，并根据所述正样本数据的主题信息从除所述正样本数据以外的其他样本数据中确定与所述主题信息相同的所述第二负样本数据。
根据权利要求15所述的计算机可读存储介质，其中，所述根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征时，具体实现：

获取所述正样本数据和所述负样本数据所挂载的相关属性，其中，所述相关属性包括相关科室、相关药物、相关主题、相关疾病中的一种或多种；

根据所述正样本数据和所述负样本数据所挂载的相关属性确定所述第一内容信息对应的第一内容特征。
根据权利要求15所述的计算机可读存储介质，其中，所述将所述第一用户特征和所述第一内容特征输入双塔模型进行训练，得到召回模型时，具体实现：

将所述第一用户特征和所述第一内容特征输入双塔模型中，得到损失函数值；

将所述损失函数值与目标损失函数值进行对比，并根据对比结果调整所述双塔模型的模型参数；

将所述第一用户特征和所述第一内容特征输入调整所述模型参数后的双塔模型中，当得到的损失函数值与目标损失函数值的对比结果满足预设条件时，确定得到所述召回模型。
根据权利要求18所述的计算机可读存储介质，其中，所述将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型，得到所述目标用户的用户特征向量和内容特征向量时，具体实现：

获取在指定时刻之前的历史时间范围内对所述指定业务场景有过行为的目标用户的第二用户画像信息，并确定与所述第二用户画像信息对应的第二用户特征；

获取在所述指定业务场景的内容候选池中的第二内容信息，并确定与所述第二内容信息对应的第二内容特征；

将所述第二用户特征和所述第二内容特征输入所述召回模型中，得到所述目标用户的用户特征向量和内容特征向量。
根据权利要求19所述的计算机可读存储介质，其中，所述计算所述用户特征向量与所述内容特征向量的距离时，具体实现：

利用余弦相似度算法计算所述用户特征向量与所述内容特征向量之间的相似度；

根据所述相似度确定所述用户特征向量与所述内容特征向量的距离。