WO2020215870A1

WO2020215870A1 - 命名实体识别方法及装置

Info

Publication number: WO2020215870A1
Application number: PCT/CN2020/076196
Authority: WO
Inventors: 张露
Original assignee: 京东方科技集团股份有限公司
Priority date: 2019-04-22
Filing date: 2020-02-21
Publication date: 2020-10-29
Also published as: CN109871545B; EP3961475A1; US20210103701A1; EP3961475A4; US11574124B2; CN109871545A

Abstract

本公开提供了一种命名实体识别方法及装置，属于信息技术领域。其中，命名实体识别方法，包括：获取待处理电子文本，待处理电子文本中包括词、字、和/或字符；基于所述待处理电子文本中的各个词生成相对应的词向量，以及基于所述待处理电子文本中的各个字或字符生成相对应的字向量；根据词向量和/或所述字向量，利用双向长短期记忆模型生成特征向量；将特征向量输入随机场模型以识别命名实体，并获取命名实体的类型。

Description

命名实体识别方法及装置

相关申请的交叉引用

本申请主张在2019年4月22日在中国提交的中国专利申请号No.201910325442.6的优先权，其全部内容通过引用包含于此。

技术领域

本公开涉及信息技术领域，特别是指一种命名实体识别方法及装置。

背景技术

命名实体识别是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。在医疗领域，从电子病历中自动识别命名实体对于医学知识库的构建和临床决策支持起着重要作用。相比通用领域的命名实体识别，中文电子病历的命名实体识别由于电子病历中句子较短、缩略语较多而导致命名实体识别的精度不高。

发明内容

本公开提供技术方案如下：

一方面，提供一种命名实体识别方法，包括：

获取待处理电子文本，所述待处理电子文本中包括词、字、和/或字符；

基于所述待处理电子文本中的各个词生成相对应的词向量，以及基于所述待处理电子文本中的各个字或字符生成相对应的字向量；

根据所述词向量和所述字向量，利用双向长短期记忆模型生成特征向量；

将所述特征向量输入随机场模型以识别所述命名实体，并获取所述命名实体的类型。

其中，所述根据所述词向量和所述字向量，利用双向长短期记忆模型生成特征向量，进一步包括：

将所述词向量输入双向长短期记忆模型，生成第一高级特征向量；

将所述字向量与所述第一高级特征向量进行拼接，获取第一过渡特征向量；

将所述第一过渡特征向量输入所述双向长短期记忆模型，生成第二高级特征向量；

将所述第一过渡特征向量与所述第二高级特征向量进行拼接，获取第二过渡特征向量；

将所述第二过渡特征向量输入所述双向长短期记忆模型，生成第三高级特征向量；

将所述第三高级特征向量作为所述特征向量。

本公开的命名实体识别方法，还包括：

获取训练数据，所述训练数据包括历史电子文本、历史命名实体和对应的历史命名实体类型；

根据所述历史电子文本、历史命名实体和对应的历史命名实体类型，优条件随机场模型。

本公开的命名实体识别方法，还包括：

通过多次迭代LBFGS算法，优化所述条件随机场模型。

其中，所述待处理文本包括：中文电子病历。

本公开实施例还提供一种知识图谱的构建方法，包括：通过所述的命名实体识别方法识别所述命名实体；根据识别的所述命名实体，构建知识图谱。

本公开实施例还提供了一种命名实体识别设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的命名实体识别方法中的步骤。

本公开实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的命名实体识别方法中的步骤。

附图说明

图1为本公开实施例命名实体识别方法的流程示意图；

图2为本公开实施例命名实体识别装置的结构框图。

具体实施方式

为使本公开的实施例要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

在中文电子病历的命名实体识别中，由于中文电子病历中句子较短、缩略语较多，从而导致命名实体识别的精度不高，因此可以采用本公开的技术方案提高中文电子病历的命名实体识别的精度。

本公开的实施例提供一种命名实体识别方法，如图1所示，包括：

步骤101：获取待处理电子文本，所述待处理电子文本中包括词、字、和/或字符。其中，待处理文本包括：中文电子病历。

本公开的命名实体识别方法，还包括：对所述待处理电子文本进行数据预处理。数据预处理包括数据清洗、数据集成、数据规约和数据变换，数据预处理可提高数据质量，包括准确性、完整性和一致性等。

中文电子病历进行数据预处理后，便于分词工具对中文电子病历的分词。

其中，通过分词工具对待处理电子文本进行分词，以获取待处理电子文本中的词、字、和/或字符。分词工具包括：结巴分词工具。

结巴分词工具是一个计算语言概率的算法模型，通过统计每一种分词结果的概率，即合理性，可以得到符合说话或行文习惯的分词结果。结巴分词工具可以很好地对中文文本进行分词，分词的正确性高。

其中，分词工具使用的数据库包括国际疾病分类数据库。

根据结巴分词工具的开发程序，结巴分词工具每次启动时，会先导入默认的数据库或字典，也就是通用数据库或字典。在结巴分词工具使用过程中，用户能够根据实际应用导入适用的数据库或字典，该数据库或字典会被加到默认数据库或字典之后，通常情况下，并不覆盖原数据库或字典。结巴分词工具在进行分词时，会查找数据库或字典中是否存在某个词，比如默认数据库或字典中可能没有“口腔溃疡”这个词，结巴分词工具在进行分词时会把一句话切成很多片，找到切片正确概率最大的那一种切片方式，在这个过程中，会去数据库或字典中查找是否存在某个子片。

以结巴分词工具使用的国际疾病分类数据库ICD10为例，即在结巴分词工具中导入国际疾病分类数据库ICD10。例如，在中文电子病历上记载有“给与右下肢持续皮牵引”，则在结巴分词工具中使用ICD10数据库进行分词，分词后的结果为“给与”、“右下肢”、“持续”、“皮”、“牵引”。

国际疾病分类数据库在使用之前需进行训练，已保证数据库中关键词的准确性、完备性；因此，可通过建立训练数据库完成对国际疾病分类数据库的训练。

训练数据库中包括大量的中文电子病历，可以请专业人员详细标注中文电子病历中的命名实体及实体类型，实体类型一共可以分为5大类，包括：身体部位、疾病和诊断、症状和体征、检查与检验以及治疗，分别用{B,D,S,C,T}作为5大类实体的标签，非实体用{X}表示。

步骤102：基于所述待处理电子文本中的各个词生成对应的词向量，以及基于所述待处理电子文本中的各个字或字符生成对应的字向量。

作为示例，具体地，可以将分词结果采用word2vec算法将词转化为一个词向量，例如，词向量可以为一个300维的向量。

将所述训练文本中的每一字或字符转化为字向量，具体地，可以采用word2vec算法将字或字符转化为一个字向量，例如，字向量可以为一个128维的向量。获得中文电子病历的基于字的字向量，将每个字或字符用字向量(比如字嵌入向量)表示，即不同的密集型向量表示不同的字或字符。

因计算机仅能对数值型的类型进行计算，而输入的词、字和字符是字符型，计算机不能直接计算，因此需要将词和字符转化为数值向量。利用词向量和字向量训练预设的长短期记忆模型，可以提取出基于字粒度的字向量特征以及融合语义信息的词向量特征。

步骤103：根据所述词向量和所述字向量，利用双向长短期记忆模型生成特征向量。

其中，根据词向量和/或所述字向量，利用双向长短期记忆模型生成特征向量，进一步包括：

将词向量输入双向长短期记忆模型，生成第一高级特征向量；

将字向量与第一高级特征向量进行拼接，获取第一过渡特征向量；

将第一过渡特征向量输入双向长短期记忆模型，生成第二高级特征向量；

将第一过渡特征向量与第二高级特征向量进行拼接，获取第二过渡特征向量；

将第二过渡特征向量输入双向长短期记忆模型，生成第三高级特征向量；

将第三高级特征向量作为所述特征向量。

作为示例，采用BiLSTM双向长短期记忆(Bi-directional Long Short-Term Memory,BiLSTM双向长短期记忆网络)模型对通过word2vec算法转化的词向量和字向量进行学习以获得相应的词向量特征和字向量特征。

将词向量输入双向长短期记忆模型，生成第一高级特征向量Y ₀；

将所述字向量与所述第一高级特征向量Y ₀进行拼接，获取第一过渡特征向量H ₁；

将所述第一过渡特征向量H ₁输入所述双向长短期记忆模型，生成第二高级特征向量Y ₂；

将所述第一过渡特征向量H ₁与所述第二高级特征向量Y ₂进行拼接，获取第二过渡特征向量H ₂；

将所述第二过渡特征向量H ₂输入所述双向长短期记忆模型进行训练，生成第三高级特征向量Y ₃；

其中，将特征H ₁与特征Y ₂结合作为BiLSTM模型的输入，就是残差学习。在上述特征处理步骤中，一共采用了三次BiLSTM这就是堆栈BiLSTM。

当然，本发明本公开的技术方案中，采用长短期记忆模型的次数并不局限为三次，还可以其他数量，仅以三次为例进行说明。

步骤104：将所述特征向量输入随机场模型以识别所述命名实体，并取所述命名实体的类型。

条件随机场模型，可以预测每个词和字符的实体类型。条件随机场模型的输入是高级特征，输出是输入文本和文本对应的类型，即非实体(用X表示)和实体类型(B,D,S,C,T)。

本公开的命名实体识别方法还包括：获取训练数据，训练数据包括历史电子文本、历史命名实体和对应的历史命名实体类型；

根据历史电子文本、历史命名实体和对应的历史命名实体类型，优化条件随机场模型。

其中，本公开的命名实体识别方法，还包括：通过多次迭代LBFGS算法，优化所述条件随机场模型。

LBFGS算法，即在有限内存(Limited emory)中进行BFGS算法。LBFGS算法是神经网络的优化算法，它适合处理大规模数据，收敛速度快，能节省大量的存储空间和计算资源。

条件随机场模型(Conditional Random Fields,CRF)在使用过程中，先初始化权重系数，在初始的权重系数下，输出的预测值与真实的有效值(ground truth)之间存在误差，如果此误差大于误差阈值，则需对CRF模型进行优化，具体地，优化初始的权重系数。

在本公开的实施例中，优化算法为LBFGS算法。LBFGS算法基于CRF模型输出的误差，经过计算并回传，得到一系列参数。技术人员能够根据该一系列参数对CRF模型初始的权重系数进行调整，得到优化的权重系数。如果根据优化的权重系数，CRF模型输出的误差仍然大于误差阈值，则需对CRF模型进行多次优化，即多次迭代LBFGS算法以减小CRF模型的误差至误差阈值以下。

本公开的命名实体识别方法，还包括对双向长短期记忆模型和条件随机场模型的结合进行评价，所述评价参数包括：精度、召回率、F1分数。

在利用长短期记忆模型以及条件随机场模型进行命名实体的识别后，可以利用精度、召回率和F1分数来衡量长短期记忆模型结合条件随机场模型的命名实体识别性能。如表1所示，为根据历史用户的模型输出数据与真实数据得出的模型精度及召回率数据，本领域技术人员可根据表1的数据对模型进行评估，进一步地，根据此数据可优化模型。

表1

	精度	召回率	F1分数
D	0.600	0.061	0.111
S	0.752	0.820	0.784
C	0.881	0.904	0.892
B	0.523	0.832	0.642
T	0.891	0.948	0.919

本公开的实施例中，根据词向量和字向量共同提取特征向量，能够同时获取字符和词的特征，同时还大大减少了分词的错误；另外采用长短期记忆模型和条件随机场模型相结合进行命名实体的识别，能够吸收更多的字符和词特征，从而能更进一步的提升实体识别的精度。

本公开实施例还提供了一种命名实体识别装置，如图2所示，包括：

文本获取模块21，用于获取待处理电子文本，所述待处理电子文本中包括词、字、和/或字符；

向量生成模块22，用于基于所述待处理电子文本中的各个词生成相对应的词向量，以及基于所述待处理电子文本中的各个字或字符生成相对应的字向量；

特征向量生成模块23，根据所述词向量和所述字向量，利用双向长短期记忆模型生成特征向量；

命名实体识别模块24，将所述特征向量输入随机场模型以识别所述命名实体，并获取所述命名实体的类型。

本实施例中，根据词向量和字向量共同提取特征向量，能够同时获取字符和词的特征，同时还大大减少了分词的错误；另外采用长短期记忆模型和条件随机场模型相结合进行命名实体的识别，能够吸收更多的字符和词特征，从而能更进一步的提升实体识别的精度。

其中，特征向量生成模块22，进一步包括：

第一高级特征向量生成单元，用于将所述词向量输入双向长短期记忆模型，生成第一高级特征向量；

第一过渡特征向量获取单元，用于将所述字向量与所述第一高级特征向量进行拼接，获取第一过渡特征向量；

第二高级特征向量生成单元，用于将所述第一过渡特征向量输入所述双向长短期记忆模型，生成第二高级特征向量；

第二过渡特征向量单元，用于将所述第一过渡特征向量与所述第二高级特征向量进行拼接，获取第二过渡特征向量；

第三高级特征向量生成单元，用于将所述第二过渡特征向量输入所述双向长短期记忆模型，生成第三高级特征向量；

特征向量单元，用于将所述第三高级特征向量作为所述特征向量。

其中，本公开的命名实体识别装置还包括：

训练数据获取模块，用于获取训练数据，所述训练数据包括历史电子文本、历史命名实体和对应的历史命名实体类型；

模型优化模块，用于根据所述历史电子文本、历史命名实体和对应的历史命名实体类型，优化条件随机场模型。

其中，本公开的命名实体识别装置还包括：算法迭代单元，用于通过多次迭代LBFGS算法，优化所述条件随机场模型。

本公开的命名实体识别装置还包括：分词模块，用于通过分词工具对所述待处理电子文本进行分词，以获取待处理电子文本中的词、字、和/或字符。

本公开的命名实体识别装置，还包括：预处理模块，用于对所述待处理电子文本进行数据预处理。

其中，本公开的命名实体识别装置，还包括：

模型评价模块，用于通过评价参数，对条件随机场模型进行评价，所述评价参数包括：精度、召回率、F1分数。

本实施例中采用了三次长短期记忆模型，这就是堆栈长短期记忆模型，采用堆栈长短期记忆模型能够解决特征在网络训练传递过程中关键信息丢失的问题，有利于关键特征的提取。当然，本公开的技术方案中，采用长短期记忆模型的次数并不局限为三次，还可以其他数量，仅以三次为例进行说明。

利用训练好的长短期记忆模型以及优化后的条件随机场模型即可对待处理电子文本进行命名实体的识别，将待处理文本输入训练好的长短期记忆模型和条件随机场模型，即可输出待处理文本中的命名实体。

本实施例的技术方案提供了一种结合字特征和词特征的堆栈残差BiLSTM中文电子病历命名实体识别方法，不仅增加了输入特征信息的丰富度，而且减少了训练过程中特征信息的损失，从而提高了中文电子病历中命名实体识别的准确率。

本公开的实施例具有以下有益效果：

上述方案中，根据词向量和字向量共同提取特征向量，能够同时获取字符和词的特征，同时还大大减少了分词的错误；另外采用长短期记忆模型和条件随机场模型相结合进行命名实体的识别，能够吸收更多的字符和词特征，从而能更进一步的提升实体识别的精度。

本公开实施例还提供一种知识图谱的构建方法，包括：通过命名实体识别方法识别所述命名实体；以及根据识别的所述命名实体构建知识图谱。

通过构建知识图谱，能够根据识别的所述命名实体获取与所述命名实体所关联的所有命名实体，包括但不仅限于一度、二度关联命名实体。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(Programmable Logic Device，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本公开实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本公开实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质 (包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开实施例是参照根据本公开实施例的方法、用户设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理用户设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理用户设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理用户设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理用户设备上，使得在计算机或其他可编程用户设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程用户设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本公开实施例的可选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括可选实施例以及落入本公开实施例范围的所有变更和修改。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者用户设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者用户设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者用户设备中还存在另外的相同要素。

以上所述的是本公开的可选实施方式，应当指出对于本技术领域的普通人员来说，在不脱离本公开所述的原理前提下还可以作出若干改进和润饰，这些改进和润饰也在本公开的保护范围内。

Claims

一种命名实体识别方法，包括：

获取待处理电子文本，所述待处理电子文本中包括词、字、和/或字符；

基于所述待处理电子文本中的各个词生成相对应的词向量，以及基于所述待处理电子文本中的各个字或字符生成相对应的字向量；

根据所述词向量和所述字向量，利用双向长短期记忆模型生成特征向量；

将所述特征向量输入随机场模型以识别所述命名实体，并获取所述命名实体的类型。
如权利要求1所述的方法，其中，所述根据所述词向量和所述字向量，利用双向长短期记忆模型生成特征向量，进一步包括：

将所述词向量输入双向长短期记忆模型，生成第一高级特征向量；

将所述字向量与所述第一高级特征向量进行拼接，获取第一过渡特征向量；

将所述第一过渡特征向量输入所述双向长短期记忆模型，生成第二高级特征向量；

将所述第一过渡特征向量与所述第二高级特征向量进行拼接，获取第二过渡特征向量；

将所述第二过渡特征向量输入所述双向长短期记忆模型，生成第三高级特征向量；

将所述第三高级特征向量作为所述特征向量。
如权利要求1所述的方法，还包括：

获取训练数据，所述训练数据包括历史电子文本、历史命名实体和对应的历史命名实体类型；

根据所述历史电子文本、历史命名实体和对应的历史命名实体类型，优化条件随机场模型。
如权利要求3所述的方法，还包括：

通过多次迭代LBFGS算法，优化所述条件随机场模型。
如权利要求1所述的方法，其中，所述待处理文本包括：中文电子病历。
如权利要求1所述的方法，还包括：

通过分词工具对所述待处理电子文本进行分词，以获取待处理电子文本中的词、字和/或字符。
如权利要求6所述的方法，其中，所述分词工具包括：结巴分词工具。
如权利要求1所述的方法，还包括：

对所述待处理电子文本进行数据预处理。
如权利要求1所述的方法，其中，还包括：通过评价参数，对双向长短期记忆模型和条件随机场模型的结合进行评价，所述评价参数包括：精度、召回率、F1分数。
如权利要求8所述的方法，其中，所述分词工具使用的数据库为国际疾病分类数据库。
一种命名实体识别装置，包括：

文本获取模块，用于获取待处理电子文本，所述待处理电子文本中包括词、字、和/或字符；

向量生成模块，用于基于所述待处理电子文本中的各个词生成相对应的词向量，以及基于所述待处理电子文本中的各个字或字符生成相对应的字向量；

特征向量生成模块，根据所述词向量和所述字向量，利用双向长短期记忆模型生成特征向量；

命名实体识别模块，将所述特征向量输入随机场模型以识别所述命名实体，并获取所述命名实体的类型。
如权利要求11所述的装置，其中，所述特征向量生成模块，进一步包括：

第一高级特征向量生成单元，用于将所述词向量输入双向长短期记忆模型，生成第一高级特征向量；

第一过渡特征向量获取单元，用于将所述字向量与所述第一高级特征向量进行拼接，获取第一过渡特征向量；

第二高级特征向量生成单元，用于将所述第一过渡特征向量输入所述双向长短期记忆模型，生成第二高级特征向量；

第二过渡特征向量单元，用于将所述第一过渡特征向量与所述第二高级特征向量进行拼接，获取第二过渡特征向量；

第三高级特征向量生成单元，用于将所述第二过渡特征向量输入所述双向长短期记忆模型，生成第三高级特征向量；

特征向量单元，用于将所述第三高级特征向量作为所述特征向量。
如权利要求11所述的装置，其中，还包括：

训练数据获取模块，用于获取训练数据，所述训练数据包括历史电子文本、历史命名实体和对应的历史命名实体类型；

模型优化模块，用于根据所述历史电子文本、历史命名实体和对应的历史命名实体类型，优化条件随机场模型。
如权利要求13所述的装置，其中，还包括：

算法迭代单元，用于通过多次迭代LBFGS算法，优化所述条件随机场模型。
如权利要求11所述的装置，还包括：

分词模块，用于通过分词工具对所述待处理电子文本进行分词，以获取待处理电子文本中的词、字、和/或字符。
如权利要求11所述的装置，还包括：

预处理模块，用于对所述待处理电子文本进行数据预处理。
如权利要求1所述的方法，其中，还包括：

模型评价模块，用于对双向长短期记忆模型和条件随机场模型的结合进行评价，所述评价参数包括：精度、召回率、F1分数。
一种知识图谱的构建方法，包括：

通过权利要求1至10中任一项所述的命名实体识别方法识别所述命名实体；

根据识别的所述命名实体，构建知识图谱。
一种命名实体识别设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至10中任一项所述的命名实体识别方法中的步骤。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述的命名实体识别方法中的步骤。