WO2024125155A1

WO2024125155A1 - 一种实体链接方法、装置、计算机设备和存储介质

Info

Publication number: WO2024125155A1
Application number: PCT/CN2023/129854
Authority: WO
Inventors: 徐朕燃; 陈昱霖; 户保田; 单子非
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2022-12-14
Filing date: 2023-11-06
Publication date: 2024-06-20
Also published as: CN116975302A

Abstract

本申请实施例公开了一种实体链接方法、装置、计算机设备和存储介质；本申请实施例可以获取文本内容，其中，文本内容包括指称文本内容和对指称文本内容进行说明的描述文本内容；根据指称文本内容的描述文本内容，对至少一个预设实体内容进行检索处理，得到指称文本内容对应的至少一个候选实体内容；根据指称文本内容对第一筛选模板内容进行内容填充处理，得到第二筛选模板内容；将描述文本内容、至少一个候选实体内容和第二筛选模板内容进行内容融合处理，得到融合后文本内容；根据融合后文本内容，对至少一个候选实体内容进行筛选处理，得到指称文本内容对应的目标实体内容。

Description

一种实体链接方法、装置、计算机设备和存储介质

本申请要求于2022年12月14日提交中国专利局、申请号为202211612479.5名称为“一种实体链接方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，具体涉及一种实体链接方法、装置、计算机设备和存储介质。

背景

实体链接可以指将文本内容中的指称文本内容对应至知识库中的目标实体内容。例如，对于文本内容“这个苹果又大又甜”中的指称内容“苹果”应该链接到水果这个目标实体内容，而不应该链接到公司这个目标实体内容。实体链接已经应用到了多个领域中。

技术内容

本申请实施例提供了一种实体链接方法，包括：

获取文本内容，其中，所述文本内容包括指称文本内容和对所述指称文本内容进行说明的描述文本内容；

根据所述指称文本内容的描述文本内容，对至少一个预设实体内容进行检索处理，得到所述指称文本内容对应的至少一个候选实体内容；

根据所述指称文本内容对第一筛选模板内容进行内容填充处理，得到第二筛选模板内容；

将所述描述文本内容、所述至少一个候选实体内容和所述第二筛选模板内容进行内容融合处理，得到融合后文本内容；

根据所述融合后文本内容，对所述至少一个候选实体内容进行筛选处理，得到所述指称文本内容对应的目标实体内容。

相应的，本申请实施例还提供了一种实体链接装置，包括：

获取单元，用于获取文本内容，其中，所述文本内容包括指称文本内容和对所述指称文本内容进行说明的描述文本内容；

检索单元，用于根据所述指称文本内容的描述文本内容，对至少一个预设实体内容进行检索处理，得到所述指称文本内容对应的至少一个候选实体内容；

内容填充单元，用于根据所述指称文本内容对第一筛选模板内容进行内容填充处理，得到第二筛选模板内容；

内容融合单元，用于将所述描述文本内容、所述至少一个候选实体内容和所述第二筛选模板内容进行内容融合处理，得到融合后文本内容；

筛选单元，用于根据所述融合后文本内容，对所述至少一个候选实体内容进行筛选处理，得到所述指称文本内容对应的目标实体内容。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述一方面的各种实施方式中提供的方法。

相应的，本申请实施例还提供一种存储介质，所述存储介质存储有指令，所述指令被处理器执行时实现本申请实施例任一提供的实体链接方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的实体链接方法的场景示意图；

图2是本申请实施例提供的实体链接方法的流程示意图；

图3是本申请实施例提供的实体链接方法的又一场景示意图；

图4是本申请实施例提供的实体链接方法的又一场景示意图；

图5是本申请实施例提供的实体链接方法的又一场景示意图；

图6是本申请实施例提供的实体链接方法的又一流程示意图；

图7是本申请实施例提供的实体链接装置的结构示意图；

图8是本申请实施例提供的计算机设备的结构示意图。

实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，然而，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在进行实体链接的过程中，对于一些专业领域，由于知识库信息不全，会降低实体链接的准确性。例如，对于生物医学和化学等专业领域，其知识库的信息量会较少，从而导致对这些专业领域的指称文本内容进行实体链接时，会存在准确性不高的问题。

因此，本申请实施例提出了一种实体链接方法、装置、计算机设备和存储介质，可以提高实体链接的准确性。

本申请实施例的实体链接方法可以由实体链接装置执行，该实体链接装置可以集成在计算机设备中。其中，该计算机设备可以包括终端以及服务器等中的至少一个。即，本申请实施例提出的实体链接方法即可以由终端执行，还可以由服务器执行，还可以由能够进行互相通信的终端和服务器共同执行。

其中，终端可以包括但不限于智能手机、平板电脑、笔记本电脑、个人电脑(Personal Computer，PC)、智能家电、可穿戴电子设备、VR/AR设备、车载终端、智能语音交互设备等等。

服务器可以为多个异构系统之间的互通服务器或者后台服务器，还可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器等等。

需要说明的是，本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。

在一实施例中，如图1所述，实体链接装置可以集成在终端或服务器等计算机设备上，以实施本申请实施例提出的实体链接方法。具体地，服务器11可以通过终端10获取文本内容，其中，文本内容包括指称文本内容和对指称文本内容进行说明的描述文本内容；根据指称文本内容的描述文本内容，对至少一个预设实体内容进行检索处理，得到指称文本内容对应的至少一个候选实体内容；根据指称文本内容对预设筛选模板内容进行内容填充处理，得到目标筛选模板内容；将描述文本内容、至少一个候选实体内容和目标筛选模板内容进行内容融合处理，得到融合后文本内容；根据融合后文本内容对至少一个候选实体内容进行筛选处理，得到指称文本内容对应的目标实体内容。

以下分别进行详细说明，需要说明的是，以下实施例的描述顺序不作为对实施例顺序的限定。

本申请实施例将从实体链接装置的角度进行描述，该实体链接装置可以集成在计算机设备中，该计算机设备可以是服务器，也可以是终端等设备。

如图2所述，本申请实施例提供了一种实体链接方法，具体流程包括：

101、获取文本内容，其中，文本内容包括指称文本内容和对指称文本内容进行说明的描述文本内容。

其中，文本内容可以包括由文字组成的内容。例如，文本内容可以包括一句话或者一段话，等等。

其中，指称文本内容可以包括文本内容中需要进行实体链接的对象。例如，该指称文本内容可以是用户指定的需要进行实体链接的对象。例如，该指称文本内容可以是文本内容中的某个代词或名词或词组，等等。例如，文本内容中出现的人名、地名和机构名称等都可以是指称文本内容。例如，对于文本内容“苹果总部位于美国旧金山”，若用户指定“苹果”进行实体链接，则“苹果”可以是指称文本内容。又例如，若用户指定“旧金山”进行实体链接，则“旧金山”可以是指称文本内容。

其中，描述文本内容可以包括文本内容中对指称文本内容进行说明的内容。例如，描述文本内容可以是文本内容本身。又例如，描述文本内容可以是文本内容中除了指称文本内容以外的内容。例如，对于文本内容“苹果总部位于美国旧金山”，若用户指定“苹果”进行实体链接，则描述文本内容可以是“苹果总部位于美国旧金山”。

如前所述，相关技术往往仅通过指称文本内容确定指称文本内容对应的目标实体内容。而对于某些专业领域，由于知识库信息不全，若仅仅通过指称文本内容确定目标实体内容，会导致实体链接的准确率较低。为了解决该问题，本申请实施例结合指称文本内容和描述文本内容确定目标实体内容。通过将指称文本内容和描述文本内容进行结合，可以提高实体链接的信息量，从而提高实体链接的准确率。

其中，实体链接可以指将文本内容中的指称文本内容对应至知识库中的目标实体内容。

其中，目标实体内容可以包括对上述指称文本内容的背景知识进行介绍的内容。目标实体内容是从预设实体内容中确定的。而预设实体内容可以是预先存储在知识库中的实体内容。例如，对于生物医学领域，常用的知识库是统一医学语言系统(Unified Medical Language System，UMLS)，该知识库涵盖了临床、基础、药学、生物学、医学管理等医学及与医学相关学科，收录了约200万个医学概念。UMLS中的每个医学概念都可以看作是一个预设实体内容。

在一实施例中，实体内容可以有多种形式。例如，实体内容可以是文本、链接、图片或视频，等等。

例如，对于某个指称文本内容进行实体链接，得到的目标实体内容是链接。当用户触发该链接时，可以得到对该指称文本内容的背景进行说明的文本内容。又例如，对于某个指称文本内容进行实体链接，得到的目标实体内容可以直接是对该指称文本内容的背景信息进行解释的视频。

在一实施例中，可以获取文本内容。

例如，互联网网页，如新闻、博客中存在大量的文本内容。而大部分网页并没有对文本内容中出现的名词等进行背景介绍。当用户通过终端设备浏览新闻时，触发了新闻中的某个名词进行实体链接，然后，终端可以将该新闻的文本内容发送至服务器，然后，服务器可以获取到该新闻的文本内容。

又例如，对于生物医学领域，医生可以从病人对病情的描述中指定指称文本内容，并进行实体链接，得到该指称文本内容对应的医学实体内容。然后，医生可以根据医学实体内容推断病人可能患有的疾病，进行实现通过指称文本内容来辅助医生诊断病情。

在一些实施例中，在获取到文本内容之后，可以对文本内容进行解析，得到指称文本内容和对指称文本内容进行说明的描述文本内容。

在本申请实施例中，可以对互联网网页中的新闻或博客中的文本内容添加标识。例如，可以对新闻中的每一句和每一段都添加相关的标识(可以称为描述文本标识)。此外，在用户指定文本内容中的某个名词进行实体链接时，终端可以为该名词生成指称文本标识。然后，通过对文本内容进行解析，可以得到文本内容中添加的描述文本标识和指称文本标识。然后，可以根据这些标识确定文本内容中的指称文本内容和描述文本内容。

例如，添加标识之后，文本内容可以包括指称文本内容、指称文本内容对应的指称文本标识、描述文本内容和描述文本内容对应的描述文本标识。例如，文本内容可以为“[CLS]Recently my[START]stomach aches[END][SEP]”，其中，“Recently my stomach aches”可以是描述文本内容，[CLS]和[SEP]可以是描述文本标识。“stomach aches”可以是指称文本内容，[START]和[END]可以是指称文本标识。因此，服务器在获取到文本内容之后，可以通过对文本内容进行遍历，得到文本内容中的指称文本标识和描述文本标识。然后，服务器可以根据指称文本标识从文本内容中截取出指称文本内容，以及根据描述文本标识从文本内容中截取出描述文本内容。

102、根据指称文本内容的描述文本内容，对至少一个预设实体内容进行检索处理，得到指称文本内容对应的至少一个候选实体内容。

在一实施例中，在相关技术中，会根据指称文本内容直接确定指称文本内容对应的目标实体内容，但是，这些会导致实体链接的准确率不高。为了提高实体链接的准确性，在本申请实施例中，可以首先对预设实体内容进行检索处理，得到指称文本内容对应的至少一个候选实体内容。然后，可以对至少一个候选实体内容进行筛选处理，得到目标实体内容。

其中，预设实体内容可以预先存储在知识库中的实体内容。例如，对于生物医学领域，常用的知识库是上述统一医学语言系统(UMLS)。UMLS中的每个医学概念都可以看作是一个预设实体内容。

其中，候选实体内容可以是检索出来的和指称文本内容有关联关系的实体内容。例如，如图3所示，对于文本内容“After a few days of feeling emotions,I will get extreme anxiety”，其指称文本内容是“feeling emotions”，描述文本内容是“After a few days of feeling emotions,I will get extreme anxiety”。根据指称文本内容的描述文本内容，对至少一个预设实体内容进行检索处理，可以得到指称文本内容对应的至少一个候选实体内容。例如，可以得到一个ID是408453002的候选实体内容，以及一个ID是285854004的候选实体内容。

其中，有多种方式可以对至少一个预设实体内容进行检索处理，得到指称文本内容对应的至少一个候选实体内容。

在一些实施例中，指称文本内容可以携带指称文本标识，描述文本内容可以携带描述文本标识，步骤“根据指称文本内容的描述文本内容，对至少一个预设实体内容进行检索处理，得到指称文本内容对应的至少一个候选实体内容”，可以包括：

根据指称文本标识和描述文本标识，分别对指称文本内容和描述文本内容进行编码处理，得到指称文本内容对应的指称文本编码信息和描述文本内容对应的描述文本编码信息；

根据描述文本编码信息对指称文本编码信息进行特征挖掘处理，得到指称文本编码信息的特征挖掘信息；

根据文本编码信息的特征挖掘信息，对至少一个预设实体内容进行检索处理，得到指称文本内容对应的至少一个候选实体内容。

在一些实施例中，可以根据指称文本标识和描述文本标识，分别对指称文本内容和描述文本内容进行编码处理，得到指称文本内容对应的指称文本编码信息和描述文本内容对应的描述文本编码信息。

其中，对指称文本内容和描述文本内容进行编码处理可以指将指称文本内容和描述文本内容转换为数学表达形式。例如，可以将指称文本内容和描述文本内容转换为向量，等等。

例如，可以分别对指称文本内容和描述文本内容进行特征提取、前向传播和非线性转换，得到指称文本内容对应的指称文本编码信息和描述文本内容对应的描述文本编码信息。

在一些实施例中，为了提高检索的准确性，可以根据描述文本编码信息对指称文本编码信息进行特征挖掘处理，得到指称文本编码信息的特征挖掘信息。例如，所述进行特征挖掘处理时，可以将描述文本编码信息和指称文本编码信息进行拼接，得到拼接后文本编码信息。然后，可以对拼接后文本编码信息进行特征提取、前向传播和非线性转换，得到指称文本编码信息的特征挖掘信息。

在一些实施例中，可以根据指称文本编码信息的特征挖掘信息，对至少一个预设实体内容进行检索处理，得到指称文本内容对应的至少一个候选实体内容。

例如，可以对预设实体内容进行编码处理，得到预设实体内容的实体内容编码信息。然后，可以对实体内容编码信息进行特征挖掘，得到实体内容编码信息的特征挖掘信息。

然后，可以计算指称文本内容的特征挖掘信息和预设实体内容的特征挖掘信息之间的相似度。然后，根据相似度在至少一个预设实体内容中筛选出至少一个候选实体内容。例如，可以基于欧式距离或余弦相似度等计算指称文本内容的特征挖掘信息和预设实体内容的实体内容编码信息之间的相似度。然后，可以对相似度从大到小进行排序，然后选择排在前10位的相似度对应的预设实体内容作为候选实体内容。

在一些实施例中，还可以利用人工智能模型对至少一个预设实体内容进行检索处理，得到所述指称文本内容对应的至少一个候选实体内容。具体的，步骤“根据指称文本内容的描述文本内容，对至少一个预设实体内容进行检索处理，得到指称文本内容对应的至少一个候选实体内容”，可以包括：

根据指称文本内容的描述文本内容，利用预设检索模型对至少一个预设实体内容进行检索处理，得到指称文本内容对应的至少一个候选实体内容。

其中，预设检索模型可以是一个人工智能模型。

其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。其中，强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。深度强化学习是将深度学习和强化学习相结合，将深度学习的技术来求解强化学习的问题。

例如，文本匹配模型可以是卷积神经网络(Convolutional Neural Networks，CNN)、反卷积神经网络(De-Convolutional Networks，DN)、深度神经网络(Deep Neural Networks，DNN)、深度卷积逆向图网络(Deep Convolutional Inverse Graphics Networks，DCIGN)、基于区域的卷积网络(Region-based Convolutional Networks，RCNN)、基于注意力机制的序列推荐模型(Self-Attentive Sequential Recommendation，SASRec)、双向编解码(Bidirectional Encoder Representations from Transformers，BERT)模型、SAPBERT模型、条件随机场(Conditional Random Field，CRF)模型、等中的至少一种。

例如，当文本内容是生物医学领域的内容时，该预设检索模型可以是SAPBERT模型，可以利用SAPBERT模型根据指称文本内容的描述文本内容，对至少一个预设实体内容进行检索处理，得到指称文本内容对应的至少一个候选实体内容。其中，SAPBERT模型是一个基于BERT的模型，该SAPBERT模型利用UMLS的度量学习的目标函数，将生物医学实体的表示进行空间自对齐。

在一实施例中，预设检索模型中可以包括指称编码器和实体编码器。其中，指称编码器可以用于对指称文本内容和描述文本内容进行编码处理，而实体编码器可以用于对预设实体内容进行编码处理。因此，可以利用指称编码器对指称文本内容进行编码处理，得到指称文本内容对应的编码向量。同时，可以利用实体编码器对预设实体内容进行编码处理，得到预设实体内容对应的编码向量。然后，可以计算指称文本内容对应的编码向量和预设实体内容对应的编码向量之间的相似度。接下来，可以根据该相似度在预设实体内容中筛选出指称文本内容对应的至少一个候选实体内容。

在一实施例中，在利用预设检索模型对至少一个预设实体内容进行检索处理之前，可以对待训练检索模型进行训练，得到预设检索模型。其中，为了提高预设检索模型的性能，可以对待训练检索模型进行预训练处理，得到初始训练的检索模型。然后，可以对初始训练的检索模型进行训练，得到预设检索模型。

具体的，本申请实施例还可以包括：

获取待训练检索模型、第一文本内容样本和第二文本内容样本；

利用第一文本内容样本，对待训练检索模型进行预训练处理，得到初始训练的检索模型；

利用第二文本内容样本，对上述初始训练的检索模型进行训练处理，得到预设检索模型。

其中，待训练检索模型可以是性能仍未达到要求，仍需要进行训练的模型。第一文本内容样本可以用于对待训练检索模型进行训练。第二文本内容样本可以用于对初始训练的检索模型进行训练。其中，第一文本内容样本和第二文本内容样本是不同的文本内容样本。

其中，通过对待训练检索模型进行预先训练，得到初始训练的检索模型。通过预训练得到的初始训练的检索模型，已经具备了一定的功能。例如，该初始训练的检索模型可以实现文本识别的功能。为了使得初始训练的检索模型可以实现检索的功能，可以对初始训练的检索模型进行训练处理，得到预设检索模型。

在一实施例中，由于预设检索模型中可以包括指称编码器和实体编码器，所以在对待训练检索模型进行预训练时，可以同时对指称编码器和实体编码器进行训练，使得指称编码器和实体编码器共享模型参数。同理，在对初始训练的检索模型进行训练时，也是同时对指称编码器和实体编码器进行训练，使得指称编码器和实体编码器共享模型参数。

在一实施例中，有多种方式可以对待检索模型进行预训练处理，得到初始训练的检索模型。例如，可以利用“提示学习”范式，对待检索模型进行预训练处理，得到初始训练的检索模型。其中，提示学习指在给定一系列合适提醒的条件下，通过无监督学习对模型训练。例如，在进行情感识别的任务时，给出一段社交媒体文本来预测情感标签。比如输入文本为“我今天又没赶上公交。”我们通过在这段输入文本后面添加一段提示文本“我感到十分______。”，让语言模型来预测横线部分的词。这样，我们就把一个分类任务转换成了一个语言模型在预训练阶段就见到过的任务。同样的，我们也可以用相似的办法把机器翻译任务转变为类似的形式，比如输入文本依然为“我今天又没赶上公交。”，下游任务是把它翻译成英语，即让模型返回一段英语输出文本。可以设计一个提示“Chinese:我今天又没赶上公交。English:_______________”，让语言模型用对应的英语翻译来填充横线部分。通过设计合适的提示，我们可以改变语言模型的行为，从而让语言模型在没有下游任务训练的情况下自身就可以产生正确的输出。

例如，利用“提示学习”对待训练检索模型进行训练，具体的，步骤“利用第一文本内容样本对待训练检索模型进行预训练处理，得到初始训练的检索模型”，可以包括：

对第一文本内容样本进行解析处理，得到至少一个文本内容单元；

在至少一个文本内容单元中，确定目标文本内容单元；

对第一文本内容样本中的目标文本内容单元进行遮盖处理，得到遮盖后文本内容样本；

利用遮盖后文本内容样本对待训练检索模型进行训练处理，得到初始训练的检索模型。

其中，文本内容单元可以指组成第一文本内容样本的内容。例如，该文本内容单元可以包括词语或者字。例如，假设第一文本内容样本为“今天天气真好”，则第一文本内容单元的文本内容单元可以包括“今天”、“天气”、“真”、“好”。其中，遮盖处理是指利用预设字符对文本内容中的一个或多个文本内容单元进行遮挡或者替换。例如，对第一文本内容单元中的目标文本内容单元“天气”进行遮盖处理后，得到的遮盖后文本内容样本为[START]今天[MASKED]真好[END]。

在一些实施例中，可以对第一文本内容样本进行解析处理，得到至少一个文本内容单元。例如，可以对第一文本内容样本进行文本识别，得到第一文本内容中的组成成分。然后，可以根据识别的结果将第一文本内容样本拆分称多个文本内容单元。

在一些实施例中，可以将其中一个或多个文本内容单元进行遮盖处理，从而形成提示文本。然后，可以利用提示文本对待训练检索模型进行训练，得到初始训练的检索模型。因此，可以在至少一个文本内容单元中，确定目标文本内容单元。例如，可以任意选择一个文本内容单元作为目标文本内容单元。然后，可以对第一文本内容样本中的目标文本内容单元进行遮盖处理，得到遮盖后文本内容样本。接下来，可以利用遮盖后文本内容样本对待训练检索模型进行训练处理，得到初始训练的检索模型。例如，可以利用待训练检索模型对遮盖后文本内容样本进行预测，得到被遮盖的文本内容单元的预测内容。然后，可以计算预测内容和目标文本内容单元之间的相似度。根据相似度对待训练检索模型的模型参数进行调整，得到初始训练的检索模型。又例如，可以计算预设内容和遮盖后文本内容样本之间的匹配度。然后，根据匹配度对待训练检索模型的模型参数进行调整，得到初始训练的检索模型。

又例如，该第一文本内容样本可以是由若干个意思相同或近似的词语拼接而成的。然后，可以对任意一个单词进行遮盖处理，得到遮盖后文本内容样本。然后，可以利用遮盖后文本内容样本待训练检索模型进行训练处理，得到初始训练的检索模型。

由于相关知识库存在信息不全的这个问题，而通过上述提到的方法对模型进行预训练，可以通过提示语来激发预训练后得到的模型中包含的信息，提高初始训练的检索模型的性能。当对初始训练的检索模型进行训练，得到预设检索模型时，可以提高预设检索模型的性能。

在一些实施例中，在得到初始训练的检索模型之后，可以利用第二文本内容样本对初始训练的检索模型进行训练处理，得到预设检索模型。例如，可以利用初始训练的检索模型对第二文本内容样本进行编码和特征挖掘，得到第二文本内容样本的特征挖掘信息。然后，可以计算特征挖掘信息和标签信息之间的损失信息，并根据损失信息对初始训练的检索模型的参数进行调整，得到预设检索模型。

103、根据指称文本内容，对第一筛选模板内容进行内容填充处理，得到第二筛选模板内容。

在一些实施例中，在检索出候选实体内容之后，可以对候选实体内容进行消歧处理。其中，对于一些专业领域，由于知识库信息不全，会降低实体链接的准确性，因此，在本申请实施例中可以对指称文本内容进行信息增强处理，提高指称文本内容的信息量，从而提高实体链接的准确性。

为了提高指称文本内容的信息量，可以根据指称文本内容对预设筛选模板内容进行内容填充处理，得到目标筛选模板内容。

其中，预设筛选模板内容可以是一个预先设置好的，用于对候选实体内容进行筛选时所用到的句子。例如，如图4所示，预设筛选模板内容可以是“Which of the following options is the same as_____？”。

在一些实施例中，可以根据指称文本内容对第一筛选模板内容(预设筛选模板内容)进行内容填充处理，得到第二筛选模板内容(目标筛选模板内容)。

例如，可以将指称文本内容添加到预设筛选模板内容中的待填充位置处，得到目标筛选模板内容。

例如，如图4所示，文本内容为“Adrenaline makes me feel low.So does anxiety or extremely tired.”，其中，指称文本内容为“Adrenaline”。

在将指称文本内容填充到预设筛选模板内容之后，得到的目标筛选模板内容为“Which of the following options is the same as Adrenaline？”。

104、将描述文本内容、至少一个候选实体内容和第二筛选模板内容进行内容融合处理，得到融合后文本内容。

在一些实施例中，在得到目标筛选模板内容之后，可以将描述文本内容、至少一个候选实体内容和目标筛选模板内容进行内容融合处理，得到融合后文本内容。

在一些实施例中，在进行内容融合处理时，可以为每个候选实体内容都生成一个实体内容标识。然后，可以将这些实体内容标识、描述文本内容、至少一个候选实体内容和目标筛选模板内容进行融合。

具体的，步骤“将描述文本内容、至少一个候选实体内容和目标筛选模板内容进行内容融合处理，得到融合后文本内容”，可以包括：

分别为至少一个候选实体内容中的各候选实体内容生成实体内容标识；

分别将每个候选实体内容和该候选实体内容对应的实体内容标识进行拼接处理，得到至少一个拼接后实体内容；

对目标筛选模板内容进行遮盖处理，得到遮盖后筛选模板内容；

根据预设拼接格式将描述文本内容、至少一个拼接后实体内容和遮盖后筛选模板内容进行拼接处理，得到融合后文本内容。

在一实施例中，可以分别为至少一个候选实体内容生成实体内容标识。例如，如图4所示，可以分别为候选实体内容“Adrenaline ephinephrine”、“Injection of adrenaline”和“Adrenaline-containing product”生成实体内容标识。

例如，候选实体内容“Adrenaline ephinephrine”对应的实体内容标识是E1。

候选实体内容“Injection of adrenaline”对应的实体内容标识是E2。

候选实体内容“Adrenaline-containing product”对应的实体内容标识是E3。

在一实施例中，可以分别将候选实体内容和候选实体内容对应的实体内容标识进行拼接处理，得到至少一个拼接后实体内容。

例如，如图4所示，拼接后实体内容可以是“[E1]Adrenaline ephinephrine”。

在一实施例中，可以对目标筛选模板内容进行遮盖处理，得到遮盖后筛选模板内容。然后，可以根据预设拼接格式将描述文本内容、至少一个拼接后实体内容和遮盖后筛选模板内容进行拼接处理，得到融合后文本内容。例如，如4图所示，可以是融合后文本内容的示意图。

105、根据融合后文本内容，对至少一个候选实体内容进行筛选处理，得到指称文本内容对应的目标实体内容。

在一实施例中，在得到融合后文本内容之后，可以根据融合后文本内容对至少一个候选实体内容进行筛选处理，得到指称文本内容对应的目标实体内容。

其中，有多种方式可以根据融合后文本内容对至少一个候选实体内容进行筛选处理，得到指称文本内容对应的目标实体内容。

例如，可以利用人工智能模型对至少一个候选实体内容进行筛选处理，得到指称文本内容对应的目标实体内容。具体的，步骤“根据融合后文本内容对至少一个候选实体内容进行筛选处理，得到指称文本内容对应的目标实体内容”，可以包括：

利用预设消歧模型，根据融合后文本内容对至少一个候选实体内容进行筛选处理，得到指称文本内容对应的目标实体内容。

其中，预设消歧模型可以是CNN、BERT或SAPBERT模型。

例如，可以利用训练好的SAPBERT模型，根据融合后文本内容对至少一个候选实体内容进行筛选处理，得到指称文本内容对应的目标实体内容。

在一些实施例中，在利用消歧模型进行消歧处理之前，可以获取待训练消歧模型，然后，对待训练消歧模型进行训练，得到消歧模型。具体的，本申请实施例还可以包括：

获取待训练消歧模型、文本内容样本和至少一个实体内容样本；

对至少一个实体内容样本进行信息增强处理，得到增强后实体内容样本；

利用增强后实体内容样本，对待训练消歧模型进行训练处理，得到初始训练的消歧模型；

利用文本内容样本对初始训练的消歧模型进行训练处理，得到预设消歧模型。

在一些实施例中，对待训练消歧模型进行训练的过程可以包括两部分。第一部分是对实体内容样本进行信息增强处理，得到增强后实体内容样本。然后，可以利用增强后实体内容样本对待训练消歧模型进行预训练，得到初始训练的消歧模型。第二部分可以是利用文本内容样本对初始训练后消歧模型进行训练处理，得到预设消歧模型。

在一些实施例中，由于专业领域的知识库存在信息量不足的问题，例如，UMLS生物医学知识库仅有7％的实体有描述，因此，可以对实体内容样本进行信息增强处理，得到正确后实体内容样本。例如，可以将相同或者相似的实体内容进行关联，得到增强后实体内容样本。

具体的，步骤“对至少一个实体内容样本进行信息增强处理，得到增强后实体内容样本”，可以包括：

对至少一个实体内容样本进行关联识别处理，得到具有关联关系的多个实体内容样本；

对具有关联关系的多个实体内容样本进行划分处理，得到第一实体内容样本集合和第二实体内容样本集合；

对第一实体内容样本集合进行遮盖处理，得到遮盖后实体内容样本集合；

将遮盖后实体内容样本集合和第二实体内容样本集合进行拼接处理，得到增强后实体内容样本。

其中，具有关联关系的多个实体内容样本可以包括含义相同的实体内容。例如，“stomachache”、“stomach ache”和“sore stomach”便是具有相同意思的多个不同实体内容样本，而这些实体内容样本是具有关联关系的。

在一些实施例中，可以对具有关联关系的多个实体内容样本进行遮盖处理。因此，可以对具有关联关系的多个实体内容样本进行划分处理，得到第一实体内容样本和第二实体内容样本。其中，第一实体内容样本是需要进行遮盖处理的样本。例如，可以随机将多个实体内容样本划分成两类实体内容样本：第一实体内容样本和第二实体内容样本。例如，有3个实体内容样本，可以随意将3个实体内容样本的任意一个划分为第一实体内容样本，而另外两个可以划分为第二实体内容样本。

然后，可以对第一实体内容样本进行遮盖处理，得到遮盖后实体内容样本。将遮盖后实体内容样本和第二实体内容样本进行拼接处理，得到增强后实体内容样本。例如，对于具有关联关系的实体内容样本“stomachache”、“stomach ache”和“sore stomach”，可以将“stomachache”进行遮盖，得到遮盖后实体内容样本。然后，可以将遮盖后实体内容样本和第二实体内容样本进行拼接处理，得到增强后实体内容样本为“[CLS][MASKED][OR]stomach ache[OR]sore stomach[SEP]”。其中，[OR]用于分隔不同的实体内容样本，[CLS]和[SEP]用于标记增强后实体内容样本，[MASKED]可以表示该实体内容样本被遮盖。

然后，可以利用增强后实体内容样本对待训练消歧模型进行训练处理，得到初始训练的消歧模型。例如，可以利用待训练消歧模型对增强后实体内容进行编码处理，得到增强后实体内容样本的编码信息。然后，可以利用待训练消歧模型对增强后实体内容样本的预测，得到遮盖后实体内容样本对应的预测结果。然后，计算预测结果和第一实体内容样本之间的损失信息，并根据该损失信息对待训练消歧模型的参数进行调整，得到初始训练的消歧模型。

然后，可以利用文本内容样本对初始训练的消歧模型进行训练处理，得到预设消歧模型。例如，文本内容样本可以包括指称文本内容样本和描述文本内容样本；步骤“利用文本内容样本对初始训练后消歧模型进行训练处理，得到预设消歧模型”，包括：

获取指称文本内容样本对应的至少一个候选实体内容样本；

根据指称文本内容样本、描述文本内容样本和至少一个候选实体内容样本，生成融合文本内容样本；

利用所述初始训练后消歧模型，根据所述融合文本内容样本对所述至少一个候选实体内容样本进行筛选处理，得到所述指称文本内容样本对应的目标实体内容样本；

根据所述目标实体内容样本，计算模型损失信息；

基于模型损失信息对初始训练后消歧模型进行参数调整处理，得到预设消歧模型。

在一些实施例中，可以获取指称文本内容样本对应的至少一个候选实体内容样本，其中步骤“获取指称文本内容样本对应的至少一个候选实体内容样本”可以参考步骤102，此处不再重复阐述。

在一些实施例中，可以根据指称文本内容样本、描述文本内容样本和至少一个候选实体内容样本，生成融合文本内容样本。其中，步骤“根据指称文本内容样本、描述文本内容样本和至少一个候选实体内容样本，生成融合文本内容样本”可以参考步骤103和104，此处不再重复阐述。

在一些实施例中，可以利用初始训练后消歧模型，根据融合文本内容样本对至少一个候选实体内容样本进行筛选处理，得到指称文本内容样本对应的目标实体内容样本。然后，可以根据目标实体内容样本，计算模型损失信息。

在一些实施例中，指称文本内容样本可以包括指称文本内容正样本和指称文本内容负样本。具体的，步骤“根据目标实体内容样本，计算模型损失信息”，可以包括：

分别计算指称文本内容正样本和所述指称文本内容正样本对应的目标实体内容样本之间的正样本相似度，以及指称文本内容负样本和所述指称文本内容负样本对应的目标实体内容样本之间的负样本相似度；

分别对正样本相似度和负样本相似度进行非线性运算，得到运算后正样本相似度和运算后负样本相似度；

对指称文本内容正样本对应的运算后正样本相似度进行统计运算，得到统计后正样本相似度；

将统计后正样本相似度和运算后负样本相似度进行相加，得到模型损失信息。

在一些实施例中，指称文本内容正样本和指称文本内容负样本是一个样本对。其中，指称文本内容正样本和指称文本内容负样本是包含同一指称文本内容但所对应的实体内容不同的样本对，该样本对内容相似，但是存在区别。例如，苹果公司中的苹果和水果苹果中的苹果便可以构成一个样本对。

在一些实施例中，可以分别计算指称文本内容正样本和指称文本内容正样本对应的目标实体内容样本之间的正样本相似度，以及指称文本内容负样本和指称文本内容负样本对应的目标实体内容样本之间的负样本相似度。例如，可以基于欧式距离和余弦距离计算负样本相似度和正样本相似度。

在一实施例中，可以分别对正样本相似度和负样本相似度进行非线性运算，得到运算后正样本相似度和运算后负样本相似度。例如，可以分别对正样本相似度和负样本相似度进行指数运算和对数运算等，得到运算后正样本相似度和运算后负样本相似度。

然后，可以将统计后正样本相似度和运算后负样本相似度进行相加，得到模型损失信息。

例如，可以按照下列公式计算模型损失信息：

其中，N_i可以表示指称文本内容负样本集，n可以表示指称文本内容负样本，P_i可以表示指称文本内容正样本集，p可以表示指称文本内容正样本。S_in可以用于表示负样本相似度，S_ip可以用于表示正样本相似度。α和β可以表示温度因子，该温度因子可以是常数。β可以是阈值。x_b可以表示正负样本对的数量。

然后，可以基于模型损失信息对初始训练后消歧模型进行参数调整处理，得到预设消歧模型。

在一些实施例中，步骤“根据融合后文本内容，对至少一个候选实体内容进行筛选处理，得到指称文本内容对应的目标实体内容”，可以包括：

对融合后文本内容进行编码处理，得到融合后文本内容对应的融合编码信息；

对融合后文本内容对应的融合编码信息进行特征挖掘，得到融合后文本内容对应的特征挖掘信息；

基于融合后文本内容对应的特征挖掘信息，对融合后文本内容中的遮盖信息进行预测处理，得到目标实体内容。

在一些实施例中，步骤“对融合后文本内容进行编码处理，得到融合后文本内容对应的融合编码信息”可以参考步骤“根据指称文本标识和描述文本标识分别对指称文本内容和描述文本内容进行编码处理，得到指称文本内容对应的指称文本编码信息和描述文本内容对应的描述文本编码信息”，此处不再重复阐述。

在一些实施例中，步骤“对融合后文本内容对应的融合编码信息进行特征挖掘，得到融合后文本内容对应的特征挖掘信息”可以参考步骤“根据描述文本编码信息对指称文本编码信息进行特征挖掘处理，得到指称文本编码信息的特征挖掘信息”，此处不再重复阐述。

在一些实施例中，可以基于融合后文本内容对应的特征挖掘信息，对融合后文本内容中的遮盖信息进行预测处理，得到目标实体内容。该遮盖信息为组成融合后文本内容的遮盖后筛选模板内容的被遮盖的内容。例如，如图4所示，可以对融合后文本内容中的[MASK]的地方进行预测，即预测[MASK]是候选实体内容中的哪一个。

本申请实施例中，可以获取文本内容，其中，文本内容包括指称文本内容和对指称文本内容进行说明的描述文本内容；根据指称文本内容的描述文本内容，对至少一个预设实体内容进行检索处理，得到指称文本内容对应的至少一个候选实体内容；根据指称文本内容对预设筛选模板内容进行内容填充处理，得到目标筛选模板内容；将描述文本内容、至少一个候选实体内容和目标筛选模板内容进行内容融合处理，得到融合后文本内容；根据融合后文本内容对至少一个候选实体内容进行筛选处理，得到指称文本内容对应的目标实体内容，可以提高实体链接的准确度。

例如，将本申请实施例提出的方法应用到医学领域中。本申请将本申请实施例和生物医学领域的其他实体链接方法进行了对比。其中，其他实体链接方法可以包括：BioSyn、SAPBERT、ResCNN、Clustering-based、Cross-domain和Generative。实验结果可以如图5所示，在仅在训练集上微调(Finetune only)的设置下，本申请实施例提出的模型在BC5CDR和COMETA上取得最优结果；若加上预训练步骤(Pretrain+Finetune)，本申请是历史提出的模型在三个数据集上都刷新了最优结果，证明了预设检索模型和预设消歧模型改进的有效性。

又例如，与进行大规模预训练的Generative方法相比，本申请实施例提出的自监督预训练方法带来的提升在NCBI disease上更高，在BC5CDR上平齐；如Generative论文中所述，其预训练需要在6张A100的GPU上跑24小时，而本申请实施例提出的方法预训练1轮只需要在1张A100的GPU上跑1个小时(预训练了10轮)，需要的算力更少且无需标注数据来监督训练。

本申请实施例可以获取文本内容，其中，文本内容包括指称文本内容和对指称文本内容进行说明的描述文本内容；根据指称文本内容的描述文本内容，对至少一个预设实体内容进行检索处理，得到指称文本内容对应的至少一个候选实体内容；根据指称文本内容对预设筛选模板内容进行内容填充处理，得到目标筛选模板内容；将描述文本内容、至少一个候选实体内容和目标筛选模板内容进行内容融合处理，得到融合后文本内容；根据融合后文本内容对至少一个候选实体内容进行筛选处理，得到指称文本内容对应的目标实体内容，可以提高实体链接的准确度。

根据上面实施例所描述的方法，以下将举例作进一步详细说明。

本申请实施例将以实体链接方法集成在服务器上为例来介绍本申请实施例方法。

在一些实施例中，如图6所示，一种实体链接方法，具体流程如下：

201、服务器获取文本内容，其中，文本内容包括指称文本内容和对指称文本内容进行说明的描述文本内容。

例如，服务器可以获取和生物医学相关的文本内容。例如，该文本内容可以是“Adrenaline makes me feel low.So doer anxiety or being extremely tired”。其中，该文本内容中的指称文本内容是“Adrenaline”，描述文本内容可以是“Adrenaline makes me feel low.So doer anxiety or being extremely tired”。

202、服务器根据指称文本内容的描述文本内容，对至少一个预设实体内容进行检索处理，得到指称文本内容对应的至少一个候选实体内容。

例如，可以利用预设检索模型对根据指称文本内容的描述文本内容，对至少一个预设实体内容进行检索处理，得到指称文本内容对应的至少一个候选实体内容。例如，可以得到3个候选实体内容“Adrenaline ephinephrine”、“Injection of adrenaline”和“Adrenaline-containing product”。

在一些实施例中，该预设检索模型可以采用双编码器的形式，例如指称编码器和实体编码器。其中，指称编码器的输入考虑了上下文，一个输入例子为“[CLS]Recently my[START]stomach aches[END][SEP](最近我肚子疼)”，其中[START]和[END]用于指示指称的开头和结束，[CLS]和[SEP]用于指示输入的开头和结束，以输出的[CLS]标记处的向量作为指称表示。实体编码器考虑了一个实体的所有名称，一个输入例子为“[CLS]stomachache[OR]stomach ache[OR]sore stomach[SEP]”，其中，[OR]用于分隔该实体的不同别名，最后取[CLS]标记处的向量作为实体表示。指称编码器和实体编码器用SAPBERT[2]参数初始化并共享参数。预测时，通过与指称最接近的向量来召回实体。

203、服务器根据指称文本内容，对预设筛选模板内容进行内容填充处理，得到目标筛选模板内容。

例如，如图4所示，预设筛选模板内容可以是“Which of the following options is the same as_____？”。

例如，如图4所示，文本内容为“Adrenaline makes me feel low.So does anxiety or extremely tired.”，其中，指称文本内容为“Adrenaline”。如前所述，所述内容填充处理是指在将指称文本内容填充到预设筛选模板内容的预设位置处。在将指称文本内容填充到预设筛选模板内容之后，得到的目标筛选模板内容为“Which of the following options is the same as Adrenaline？”。

204、服务器将描述文本内容、至少一个候选实体内容和目标筛选模板内容进行内容融合处理，得到融合后文本内容。

例如，可以分别为至少一个候选实体内容生成实体内容标识。例如，如图4所示，可以分别为候选实体内容“Adrenaline ephinephrine”、“Injection of adrenaline”和“Adrenaline-containing product”生成实体内容标识。例如，候选实体内容“Adrenaline ephinephrine”对应的实体内容标识是E1。候选实体内容“Injection of adrenaline”对应的实体内容标识是E2。候选实体内容“Adrenaline-containing product”对应的实体内容标识是E3。

然后，可以分别将候选实体内容和候选实体内容对应的实体内容标识进行拼接处理，得到至少一个拼接后实体内容。例如，如图4所示，拼接后实体内容可以是“[E1]Adrenaline ephinephrine”。

接下来，可以对目标筛选模板内容进行遮盖处理，得到遮盖后筛选模板内容。然后，可以根据预设拼接格式将描述文本内容、至少一个拼接后实体内容和遮盖后筛选模板内容进行拼接处理，得到融合后文本内容。例如，如图4所示，可以是融合后文本内容的示意图。

205、服务器根据融合后文本内容，对至少一个候选实体内容进行筛选处理，得到指称文本内容对应的目标实体内容。

例如，可以利用预设消歧模型根据融合后文本内容对至少一个候选实体内容进行筛选处理，得到指称文本内容对应的目标实体内容。其中，由于融合内容是候选实体内容和描述文本内容拼接而成的，所以，预设消歧模型可以同时关注到指称上下文和所有候选实体，既有指称和实体的交互，也有实体之间的交互。

在一些实施例中，可以对待训练消歧模型进行训练，得到预设消歧模型。例如，可以引入“自监督”的知识库增强的预训练方法，旨在用一些提示语来激发模型中包含的信息，从而提高模型的性能。例如，与消歧处理时对应的完形填空式的模板对应，该方法也采用预测[MASK]处的单词的方式。为了把同一个实体内容的多个名称信息学习至模型中，可以把代表实体内容的名称中的一个单词变为[MASK]，用该实体内容的其他名称作为提示，让模型来预测[MASK]。例如，有一个实体有3个名称，分别为“epidermolysis bullosa junctional herlitz type”、“epidermolysis bullosa generalized atrophic benign”和“epidermolysis bullosa letali”，可以随机把这三个名称中的一个单词替换为[MASK]，则模型输入示例为“epidermolysis bullosa junctional[MASK]type[OR]epidermolysis[MASK]generalized atrophic benign[OR]epidermolysis bullosa[MASK]”，模型需要预测这些[MASK]位置的词。

本申请实施例中，服务器获取文本内容，其中，文本内容包括指称文本内容和对指称文本内容进行说明的描述文本内容；服务器根据指称文本内容的描述文本内容，对至少一个预设实体内容进行检索处理，得到指称文本内容对应的至少一个候选实体内容；服务器根据指称文本内容对预设筛选模板内容进行内容填充处理，得到目标筛选模板内容；服务器将描述文本内容、至少一个候选实体内容和目标筛选模板内容进行内容融合处理，得到融合后文本内容；服务器根据融合后文本内容对至少一个候选实体内容进行筛选处理，得到指称文本内容对应的目标实体内容，可以提高在生物医学领域实体链接的准确性。

为了更好地实施本申请实施例提供的实体链接方法，在一些实施例中还提供了一种实体链接装置，该实体链接装置可以集成于计算机设备中。其中名词的含义与上述实体链接方法中相同，具体实现细节可以参考方法实施例中的说明。

在一实施例中，提供了一种实体链接装置，该实体链接装置具体可以集成在计算机设备中，如图7所示，该实体链接装置包括：获取单元301、检索单元302、内容填充单元303、内容融合单元304和筛选单元305，具体如下：

获取单元301，用于获取文本内容，其中，所述文本内容包括指称文本内容和对所述指称文本内容进行说明的描述文本内容；

检索单元302，用于根据所述指称文本内容的描述文本内容，对至少一个预设实体内容进行检索处理，得到所述指称文本内容对应的至少一个候选实体内容；

内容填充单元303，用于根据所述指称文本内容，对第一筛选模板内容进行内容填充处理，得到第二筛选模板内容；

内容融合单元304，用于将所述描述文本内容、所述至少一个候选实体内容和所述第二筛选模板内容进行内容融合处理，得到融合后文本内容；

筛选单元305，用于根据所述融合后文本内容，对所述至少一个候选实体内容进行筛选处理，得到所述指称文本内容对应的目标实体内容。

在一实施例中，所述检索单元302，可以包括：

编码子单元，用于根据所述指称文本标识和所述描述文本标识，分别对所述指称文本内容和所述描述文本内容进行编码处理，得到所述指称文本内容对应的指称文本编码信息和所述描述文本内容对应的描述文本编码信息；

特征挖掘子单元，用于根据所述描述文本编码信息对所述指称文本编码信息进行特征挖掘处理，得到所述指称文本编码信息的特征挖掘信息；

第一检索子单元，用于根据所述文本编码信息的特征挖掘信息，对至少一个预设实体内容进行检索处理，得到所述指称文本内容对应的至少一个候选实体内容。

在一实施例中，所述内容融合单元304，可以包括：

标识生成子单元，用于分别为所述至少一个候选实体内容中的各候选实体内容生成实体内容标识；

拼接子单元，用于分别将每个候选实体内容和该候选实体内容对应的实体内容标识进行拼接处理，得到至少一个拼接后实体内容；

第一遮盖子单元，用于对所述第二筛选模板内容进行遮盖处理，得到遮盖后筛选模板内容；

第一拼接子单元，用于根据预设拼接格式将所述描述文本内容、所述至少一个拼接后实体内容和所述遮盖后筛选模板内容进行拼接处理，得到所述融合后文本内容。

在一实施例中，所述检索单元302，可以包括：

第二检索子单元，用于根据所述指称文本内容的描述文本内容，利用预设检索模型对至少一个预设实体内容进行检索处理，得到所述指称文本内容对应的至少一个候选实体内容。

在一实施例中，所述筛选单元305，可以包括：

筛选子单元，用于利用预设消歧模型，根据所述融合后文本内容对所述至少一个候选实体内容进行筛选处理，得到所述指称文本内容对应的目标实体内容。

在一实施例中，所述实体链接装置，可以包括：

第一获取单元，用于获取待训练消歧模型、文本内容样本和至少一个实体内容样本；

信息增强单元，用于对所述至少一个实体内容样本进行信息增强处理，得到增强后实体内容样本；

第一训练单元，用于利用所述增强后实体内容样本，对所述待训练消歧模型进行训练处理，得到初始训练后消歧模型；

第二训练单元，用于利用所述文本内容样本，对所述初始训练后消歧模型进行训练处理，得到所述预设消歧模型。

在一实施例中，所述信息增强单元，可以包括：

关联识别子单元，用于对所述至少一个实体内容样本进行关联处理，得到具有关联关系的多个实体内容样本；

划分子单元，用于将所述具有关联关系的多个实体内容样本划分为两类实体内容样本，得到第一实体内容样本和第二实体内容样本；

第二遮盖子单元，用于对所述第一实体内容样本进行遮盖处理，得到遮盖后实体内容样本；

第二拼接子单元，用于将所述遮盖后实体内容样本和所述第二实体内容样本进行拼接处理，得到所述增强后实体内容样本。

在一实施例中，所述第二训练单元，可以包括：

获取子单元，用于获取所述指称文本内容样本对应的至少一个候选实体内容样本；

生成子单元，用于根据所述指称文本内容样本、所述描述文本内容样本和所述至少一个候选实体内容样本生成融合文本内容样本；

筛选子单元，用于利用所述初始训练后消歧模型根据所述融合文本内容样本对所述至少一个候选实体内容样本进行筛选处理，得到所述指称文本内容样本对应的目标实体内容样本；

计算子单元，用于根据所述目标实体内容样本计算模型损失信息；

参数调整子单元，用于基于所述模型损失信息对所述初始训练后消歧模型进行参数调整处理，得到所述预设消歧模型。

在一实施例中，所述计算子单元，可以包括：

计算模块，用于分别计算所述指称文本内容正样本和指称文本内容正样本对应的目标实体内容样本之间的正样本相似度，以及所述指称文本内容负样本和指称文本内容负样本对应的目标实体内容样本之间的负样本相似度；

非线性运算模块，用于分别对所述正样本相似度和所述负样本相似度进行非线性运算，得到运算后正样本相似度和运算后的负样本相似度；

统计模块，用于对指称文本内容正样本对应的运算后的正样本相似度进行统计运算，得到统计后正样本相似度；

相加模块，用于将所述统计后正样本相似度和所述运算后的负样本相似度进行相加，得到所述模型损失信息。

在一实施例中，所述实体链接装置，可以包括：

第二获取单元，用于获取待训练检索模型、第一文本内容样本和第二文本内容样本；

第三训练单元，用于利用第一文本内容样本对所述待训练检索模型进行预训练处理，得到初始训练后检索模型；

第四训练单元，用于利用第二文本内容样本对所述初始训练后检索模型进行训练处理，得到所述预设检索模型，所述第一文本内容样本和第二文本内容样本是不同的文本内容样本。

在一实施例中，所述第三训练子单元，可以包括：

解析子单元，用于对所述第一文本内容样本进行解析处理，得到至少一个文本内容单元；

确定子单元，用于在所述至少一个文本内容单元中确定目标文本内容单元；

遮盖子单元，用于对所述第一文本内容样本中的目标文本内容单元进行遮盖处理，得到遮盖后文本内容样本；

训练子单元，用于利用所述遮盖后文本内容样本对所述待训练检索模型进行训练处理，得到所述初始训练后检索模型。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

通过上述的实体链接装置可以实现在利用人工智能模型进行题目推荐时，即兼顾题目推荐的实时性，又兼顾题目推荐的质量。

本申请实施例还提供一种计算机设备，该计算机设备可以包括终端或服务器，比如，计算机设备可以作为实体链接终端，该终端可以为手机、平板电脑等等；又比如计算机设备可以为服务器，如实体链接服务器等。如图8所示，其示出了本申请实施例所涉及的终端的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图8中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据。处理器401可包括一个或多个处理核心；处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户页面和应用程序等，调制解调处理器主要处理无线通讯。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

根据所述指称文本内容对预设筛选模板内容进行内容填充处理，得到目标筛选模板内容；

将所述描述文本内容、所述至少一个候选实体内容和所述目标筛选模板内容进行内容融合处理，得到融合后文本内容；

根据所述融合后文本内容对所述至少一个候选实体内容进行筛选处理，得到所述指称文本内容对应的目标实体内容。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中各种实现方式中提供的方法。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例还提供一种存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种实体链接方法中的步骤。例如，该计算机程序可以执行如下步骤：

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种实体链接方法中的步骤，因此，可以实现本申请实施例所提供的任一种实体链接方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种实体链接方法、装置、计算机设备和存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种实体链接方法，由计算机设备执行，包括：

获取文本内容，其中，所述文本内容包括指称文本内容和对所述指称文本内容进行说明的描述文本内容；

根据所述指称文本内容的描述文本内容，对至少一个预设实体内容进行检索处理，得到所述指称文本内容对应的至少一个候选实体内容；

根据所述指称文本内容，对第一筛选模板内容进行内容填充处理，得到第二筛选模板内容；

将所述描述文本内容、所述至少一个候选实体内容和所述第二筛选模板内容进行内容融合处理，得到融合后文本内容；

根据所述融合后文本内容，对所述至少一个候选实体内容进行筛选处理，得到所述指称文本内容对应的目标实体内容。
根据权利要求1所述的方法，其中，所述指称文本内容携带指称文本标识，所述描述文本内容携带描述文本标识；

所述根据所述指称文本内容的描述文本内容，对至少一个预设实体内容进行检索处理，得到所述指称文本内容对应的至少一个候选实体内容，包括：

根据所述指称文本标识和所述描述文本标识，分别对所述指称文本内容和所述描述文本内容进行编码处理，得到所述指称文本内容对应的指称文本编码信息和所述描述文本内容对应的描述文本编码信息；

根据所述描述文本编码信息对所述指称文本编码信息进行特征挖掘处理，得到所述指称文本编码信息的特征挖掘信息；

根据所述文本编码信息的特征挖掘信息，对至少一个预设实体内容进行检索处理，得到所述指称文本内容对应的至少一个候选实体内容。
根据权利要求1所述的方法，其中，所述将所述描述文本内容、所述至少一个候选实体内容和所述第二筛选模板内容进行内容融合处理，得到融合后文本内容，包括：

分别为所述至少一个候选实体内容中的各候选实体内容生成实体内容标识；

分别将每个候选实体内容和该候选实体内容对应的实体内容标识进行拼接处理，得到至少一个拼接后实体内容；

对所述第二筛选模板内容进行遮盖处理，得到遮盖后筛选模板内容；

根据预设拼接格式将所述描述文本内容、所述至少一个拼接后实体内容和所述遮盖后筛选模板内容进行拼接处理，得到所述融合后文本内容。
根据权利要求3所述的方法，其中，所述根据所述融合后文本内容，对所述至少一个候选实体内容进行筛选处理，得到所述指称文本内容对应的目标实体内容，包括：

对所述融合后文本内容进行编码处理，得到所述融合后文本内容对应的融合编码信息；

对所述融合后文本内容对应的融合编码信息进行特征挖掘，得到所述融合后文本内容对应的特征挖掘信息；

基于所述融合后文本内容对应的特征挖掘信息，对所述融合后文本内容中的遮盖信息进行预测处理，得到所述目标实体内容。
根据权利要求1所述的方法，其中，所述根据所述指称文本内容的描述文本内容，对至少一个预设实体内容进行检索处理，得到所述指称文本内容对应的至少一个候选实体内容，包括：

根据所述指称文本内容的描述文本内容，利用预设检索模型对至少一个预设实体内容进行检索处理，得到所述指称文本内容对应的至少一个候选实体内容；

所述根据所述融合后文本内容，对所述至少一个候选实体内容进行筛选处理，得到所述指称文本内容对应的目标实体内容，包括：

利用预设消歧模型，根据所述融合后文本内容对所述至少一个候选实体内容进行筛选处理，得到所述指称文本内容对应的目标实体内容。
根据权利要求5所述的方法，其中，所述利用预设消歧模型，根据所述融合后文本内容对所述至少一个候选实体内容进行筛选处理，得到所述指称文本内容对应的目标实体内容之前，所述方法还包括：

获取待训练消歧模型、文本内容样本和至少一个实体内容样本；

对所述至少一个实体内容样本进行信息增强处理，得到增强后实体内容样本；

利用所述增强后实体内容样本，对所述待训练消歧模型进行训练处理，得到初始训练后消歧模型；

利用所述文本内容样本对所述初始训练后消歧模型进行训练处理，得到所述预设消歧模型。
根据权利要求6所述的方法，其中，所述对所述至少一个实体内容样本进行信息增强处理，得到增强后实体内容样本，包括：

对所述至少一个实体内容样本进行关联处理，得到具有关联关系的多个实体内容样本；

将所述具有关联关系的多个实体内容样本划分为两类实体内容样本，得到第一实体内容样本和第二实体内容样本；

对所述第一实体内容样本进行遮盖处理，得到遮盖后实体内容样本；

将所述遮盖后实体内容样本和所述第二实体内容样本进行拼接处理，得到所述增强后实体内容样本。
根据权利要求6所述的方法，其中，所述文本内容样本包括指称文本内容样本和描述文本内容样本；

所述利用所述文本内容样本，对所述初始训练后消歧模型进行训练处理，得到所述预设消歧模型，包括：

获取所述指称文本内容样本对应的至少一个候选实体内容样本；

根据所述指称文本内容样本、所述描述文本内容样本和所述至少一个候选实体内容样本，生成融合文本内容样本；

利用所述初始训练后消歧模型，根据所述融合文本内容样本对所述至少一个候选实体内容样本进行筛选处理，得到所述指称文本内容样本对应的目标实体内容样本；

根据所述目标实体内容样本计算模型损失信息；

基于所述模型损失信息，对所述初始训练后消歧模型进行参数调整处理，得到所述预设消歧模型。
根据权利要求8所述的方法，其中，所述指称文本内容样本包括指称文本内容正样本和指称文本内容负样本；所述根据所述目标实体内容样本计算模型损失信息，包括：

分别计算所述指称文本内容正样本和所述指称文本内容正样本对应的目标实体内容样本之间的正样本相似度，以及所述指称文本内容负样本和所述指称文本内容负样本对应的目标实体内容样本之间的负样本相似度；

分别对所述正样本相似度和所述负样本相似度进行非线性运算，得到运算后的正样本相似度和运算后的负样本相似度；

对所述指称文本内容正样本对应的运算后的正样本相似度进行统计运算，得到统计后正样本相似度；

将所述统计后正样本相似度和所述运算后的负样本相似度进行相加，得到所述模型损失信息。
根据权利要求6所述的方法，其中，所述根据所述指称文本内容的描述文本内容，利用预设检索模型对至少一个预设实体内容进行检索处理，得到所述指称文本内容对应的至少一个候选实体内容之前，所述方法还包括：

获取待训练检索模型、第一文本内容样本和第二文本内容样本；

利用第一文本内容样本对所述待训练检索模型进行预训练处理，得到初始训练后检索模型；

利用第二文本内容样本对所述初始训练后检索模型进行训练处理，得到所述预设检索模型，所述第一文本内容样本和第二文本内容样本是不同的文本内容样本。
根据权利要求10所述的方法，其中，所述利用第一文本内容样本对所述待训练检索模型进行预训练处理，得到初始训练后检索模型，包括：

对所述第一文本内容样本进行解析处理，得到至少一个文本内容单元；

在所述至少一个文本内容单元中，确定目标文本内容单元；

对所述第一文本内容样本中的目标文本内容单元进行遮盖处理，得到遮盖后文本内容样本；

利用所述遮盖后文本内容样本，对所述待训练检索模型进行训练处理，得到所述初始训练后检索模型。
一种实体链接装置，包括：

获取单元，用于获取文本内容，其中，所述文本内容包括指称文本内容和对所述指称文本内容进行说明的描述文本内容；

检索单元，用于根据所述指称文本内容的描述文本内容，对至少一个预设实体内容进行检索处理，得到所述指称文本内容对应的至少一个候选实体内容；

内容填充单元，用于根据所述指称文本内容对第一筛选模板内容进行内容填充处理，得到第二筛选模板内容；

内容融合单元，用于将所述描述文本内容、所述至少一个候选实体内容和所述第二筛选模板内容进行内容融合处理，得到融合后文本内容；

筛选单元，用于根据所述融合后文本内容，对所述至少一个候选实体内容进行筛选处理，得到所述指称文本内容对应的目标实体内容。
根据权利要求12所述的装置，其中，所述指称文本内容携带指称文本标识，所述描述文本内容携带描述文本标识；所述检索单元，包括：

编码子单元，用于根据所述指称文本标识和所述描述文本标识，分别对所述指称文本内容和所述描述文本内容进行编码处理，得到所述指称文本内容对应的指称文本编码信息和所述描述文本内容对应的描述文本编码信息；

特征挖掘子单元，用于根据所述描述文本编码信息对所述指称文本编码信息进行特征挖掘处理，得到所述指称文本编码信息的特征挖掘信息；

第一检索子单元，用于根据所述文本编码信息的特征挖掘信息，对至少一个预设实体内容进行检索处理，得到所述指称文本内容对应的至少一个候选实体内容。
根据权利要求12所述的装置，其中，所述内容融合单元，包括：

标识生成子单元，用于分别为所述至少一个候选实体内容中的各候选实体内容生成实体内容标识；

拼接子单元，用于分别将每个候选实体内容和该候选实体内容对应的实体内容标识进行拼接处理，得到至少一个拼接后实体内容；

第一遮盖子单元，用于对所述第二筛选模板内容进行遮盖处理，得到遮盖后筛选模板内容；

第一拼接子单元，用于根据预设拼接格式将所述描述文本内容、所述至少一个拼接后实体内容和所述遮盖后筛选模板内容进行拼接处理，得到所述融合后文本内容。
根据权利要求14所述的装置，其中，所述筛选单元，用于对所述融合后文本内容进行编码处理，得到所述融合后文本内容对应的融合编码信息；对所述融合后文本内容对应的融合编码信息进行特征挖掘，得到所述融合后文本内容对应的特征挖掘信息；基于所述融合后文本内容对应的特征挖掘信息，对所述融合后文本内容中的遮盖信息进行预测处理，得到所述目标实体内容。
根据权利要求12所述的装置，其中，所述检索单元，包括：

第二检索子单元，用于根据所述指称文本内容的描述文本内容，利用预设检索模型对至少一个预设实体内容进行检索处理，得到所述指称文本内容对应的至少一个候选实体内容；

所述筛选单元，包括：筛选子单元，用于利用预设消歧模型，根据所述融合后文本内容对所述至少一个候选实体内容进行筛选处理，得到所述指称文本内容对应的目标实体内容。
根据权利要求16所述的装置，其中，所述实体链接装置，可以包括：

第一获取单元，用于获取待训练消歧模型、文本内容样本和至少一个实体内容样本；

信息增强单元，用于对所述至少一个实体内容样本进行信息增强处理，得到增强后实体内容样本；

第一训练单元，用于利用所述增强后实体内容样本，对所述待训练消歧模型进行训练处理，得到初始训练后消歧模型；

第二训练单元，用于利用所述文本内容样本对所述初始训练后消歧模型进行训练处理，得到所述预设消歧模型。
一种计算机设备，包括存储器和处理器；所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至11任一项所述的实体链接方法中的操作。
一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至11任一项所述的实体链接方法中的步骤。
一种计算机程序产品，包括计算机程序或指令，该计算机程序或指令被处理器执行时实现权利要求1至11任一项所述的实体链接方法中的步骤。