WO2017097166A1

WO2017097166A1 - 识别领域命名实体的方法及装置

Info

Publication number: WO2017097166A1
Application number: PCT/CN2016/108426
Authority: WO
Inventors: 徐文斌; 何鑫
Original assignee: 北京国双科技有限公司
Priority date: 2015-12-11
Filing date: 2016-12-02
Publication date: 2017-06-15
Also published as: CN106874256A; US20180365211A1; US10650192B2

Abstract

一种识别领域命名实体的方法及装置，涉及自然语言处理技术领域，主要目的在于有效的减少了分词结果对领域命名实体识别效果的影响，提高了命名实体识别的准确率。所述方法包括：对待识别文本进行分词（101）；根据待识别文本对应领域的标签集合，对待识别文本中的每个分词进行标签标注（102），该标签集合包含基于领域命名实体识别的基础标签集合和对应领域所属标签集合，其中，所述基础标签集合包含组成领域命名实体相关词语的位置标签；按照领域命名实体抽取规则对标签标注的分词进行抽取（103）；将抽取的分词组成领域命名实体（104）。

Description

识别领域命名实体的方法及装置

本申请基于申请号为201510921228.9、申请日为2015年12月11日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种识别领域命名实体的方法及装置。

背景技术

命名实体识别(Named Entity Recognition，NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，该实体主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web(语义网)的元数据标注等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。

目前，命名实体识别一般采用如下方法实现，该方法具体为：构建命名实体集合，或者指定实体抽取规则；对句子进行分词，并构建字典树或者规则树；遍历分词结果，匹配词典或者规则，若有与词典或者规则匹配的内容，则标记匹配内容的位置，如果没有匹配的内容，则进行下一句文本语句的遍历；直到将所述的文本语句遍历结束，并输出最终的标注结果。

在执行上述命名实体识别方法时，发明人发现目前的技术方案至少存在如下问题：中文领域的专有命名实体识别任务过程中，中文的分词不能像英文等通过空格来分词，所以错误的分词可能会导致命名实体边界确定的不准确，导致命名实体识别不准确；并且，目前命名实体识别的准确率完全依赖于字典或者规则的完整程度，针对于变化中的实体范围，并不能很好的完成实体识别任务。

发明内容

有鉴于此，本发明提供一种识别领域命名实体的方法及装置，主要目的在于，通过使用标签标记的方法，对命名实体边界进行精准定位，有效的减少了分词结果对领域命名实体识别效果的影响，提高了命名实体识别的准确率。

为达到上述目的，本发明提供如下的技术方案：

一方面，本发明提供一种识别领域命名实体的方法，包括：

对待识别文本进行分词；

根据所述待识别文本对应领域的标签集合，对待识别文本中的每个分词进行标签标注，所述标签集合包含基于领域命名实体识别的基础标签集合和对应领域所属标签集合，其中，所述基础标签集合包含组成领域命名实体相关词语的位置标签；

按照领域命名实体抽取规则对标签标注的分词进行抽取；

将抽取的分词组成领域命名实体。

另一方面，本发明还提供一种识别领域命名实体的装置，包括：

分词单元，用于对待识别文本进行分词；

标注单元，用于根据所述待识别文本对应领域的标签集合，对待识别文本中的每个分词进行标签标注，所述标签集合包含基于领域命名实体识别的基础标签集合和对应领域所属标签集合，其中，所述基础标签集合包含组成领域命名实体相关词语的位置标签；

抽取单元，用于按照领域命名实体抽取规则对标签标注的分词进行抽取；

组词单元，用于将抽取的分词组成领域命名实体。

本发明提供的识别领域命名实体的方法及装置，当需要对文本中的领域命名实体进行识别时，其是先根据预设置的该文本对应领域的标签集合，对待识别文本中的每个分词进行标签标注，即根据组成领域命名实体相关词语的位置标签对待识别文本中的每个分词进行标签标注，进而按照领域命名实体抽取规则对进行标签标注的分词进行抽取，并将抽取的分词组成领域命名实体，与现有技术中依赖于字典或者规则识别领域命名实体相比，其识别领域命名实体的边界不再局限于分词与字典进行匹配，而是通过标签标注来确定识别领域命名实体的边界，这样对命名实体边界能够进行精准定位，有效的减少了分词结果对领域命名实体识别效果的影响，提高了命名实体识别的准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例中一种识别领域命名实体的方法流程图；

图2示出了本发明实施例中一种隐马尔科夫模型的示意图；

图3示出了本发明实施例中一种识别领域命名实体的装置组成框图；

图4示出了本发明实施例中另一种识别领域命名实体的装置组成框图；

图5示出了本发明实施例中另一种识别领域命名实体的装置组成框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供一种识别领域命名实体的方法，如图1所示，该方法包括：

101、对待识别文本进行分词。

其中，对待识别文本进行分词可以采用目前的任一种方式实现，本发明实施例对此不进行限定。

102、根据所述待识别文本对应领域的标签集合，对待识别文本中的每个分词进行标签标注，所述标签集合包含基于领域命名实体识别的基础标签集合和对应领域所属标签集合，其中，所述基础标签集合包含组成领域命名实体相关词语的位置标签。

需要说明的是，不同领域的命名实体具有不同的内部特征，不可能用一个统一的模型来刻画所有的命名实体内部特征，所以本发明实施例在对不同领域的命名实体进行识别时，其各领域使用的标签集合也不尽相同。如上所述，每个领域的标签集合，包含基于领域命名实体识别的基础标签集合和对应领域所属标签集合。其中，各领域所属标签集合为不同领域特属的标签集合。例如：汽车领域可以添加集团标签集合；人名识别中可以添加姓氏标签集合。

其中，该所述基础标签集合包含组成领域命名实体相关词语的位置标签，该位置标签可以为但不局限于以下内容的标签：词语位于实体的首部TS、词语位于实体中部TM、词语位于实体的尾部TE、词语位于实体的前面/后面TSN/TEN、与该领域实体不相关TN、两个实体是并列关系TT、分词错误TSX/TEX/TXS/TEX等。各标签的具体含义可以参考如下的表1中的描述。

表1

进一步的，在执行本发明实施例之前，还需要先获取各领域的标签集合，在获取各领域的标签集合时，可以通过但不局限于以下的方法实现，该方法包括：获取领域命名实体识别的基础标签集合和各领域所属标签集合；取所述各领域所属标签集合与所述领域命名实体识别的基础标签集合的合集作为各领域的标签集合。

进一步的，本发明实施例在根据所述待识别文本对应领域的标签集合，对待识别文本中的每个分词进行标签标注时，可以采用但不局限于使用训练模型进行。该训练模型可以为但不局限于隐马尔科夫模型对待识别文本进行标签标注，也可以使用条件随机场模型或者神经网络模型等对待识别文本进行标签标注。由于隐马尔科夫模型充分考虑词语的上下文环境，有效的解决了在现有实体识别方法限于字典规模的问题，故本发明实施例优选使用隐马尔科夫模型对待识别文本进行标签标注。例如，将分词语句“上海大众汽车召回案”这句文本交给标签标注训练模型后，经过标签标注训练模型的标注，会输出“上海/TS大众/TE汽车/TEN召回案/TN”。

本发明实施例将结合图2简单描述一下隐马尔科夫模型。在上述的例子中，“上海大众汽车召回案”四个词对应K节点，表示要标记的句子中的词语，是模型的观测层，而对应的标签层为S节点，每个节点可以在该步骤中进行标注，是模型的隐含层。其中A为状态转移矩阵，记录着从前面一个状态出现的条件下，后面一个状态出现的概率，B为观测状态转移概率矩阵：表示隐含层中的状态(标签)与观测层观测到的值(词语)之间的概率。

103、按照领域命名实体抽取规则对标签标注的分词进行抽取。

本发明实施例中，按照特定领域的标签集合，根据不同的任务，设定的领域命名实体抽取规则也不同，具体的可以根据实体需求设置。例如，这对汽车领域，领域命名实体抽取规则为：“*/TS+*/TE”。在执行该步骤时，发现步骤102中的标记结果为“上海/TS大众/TE汽车/TEN召回案/TN”的句子，在本步骤中，发现其中“上海/TS大众/TE”满足规则“*/TS+*/TE”，则我们抽取出“上海大众”两个词语。

104、将抽取的分词组成领域命名实体。

将抽取出的“上海大众”两个词语组合成一个领域命名实体“上海大众”。

在将抽取的分词组成领域命名实体之后，若需要输出，则可以将组成的领域命名实体打上“entity”这样的标签，最后输出“上海大众/entity汽车召回案”这样的结果。

本发明实施例中，当需要对文本中的领域命名实体进行识别时，其是先根据预设置的该文本对应领域的标签集合，对待识别文本中的每个分词进行标签标注，即根据组成领域命名实体相关词语的位置标签对待识别文本中的每个分词进行标签标注，进而按照领域命名实体抽取规则对进行标签标注的分词进行抽取，并将抽取的分词组成领域命名实体，与现有技术中依赖于字典或者规则识别领域命名实体相比，其识别领域命名实体的边界不再局限于分词与字典进行匹配，而是通过标签标注来确定识别领域命名实体的边界，这样对命名实体边界能够进行精准定位，有效的减少了分词结果对领域命名实体识别效果的影响，提高了命名实体识别的准确率。

进一步的，为了保证分词的准确性，本发明实施例还提供相应分词纠错机制，在发现有分词错误时，对错误的分词进行纠错。具体的可以采用但不局限于以下的方法实现，该方法包括：

1、检测所述标签标注的文本中是否存在分词错误的标签；

其中，对于本发明实施例，具体可以检测所述标签标注的文本中是否存在TSX/TEX/TXS/TEX标签的分词，若存在，则确定存在分词错误的标签，执行2。

2、若存在分词错误的标签，则对分词错误的标签所在的文本语句进行分词纠错处理得到新的分词。

其中，对分词错误的标签所在的文本语句进行分词纠错处理得到新的分词时，可以采用但不局限于以下的方法实现，该方法为枚举法，具体包括：

对分词错误的标签所在的文本语句按字进行拆分；将拆分后的字进行重新组合得到新的分词。

当然，对于对分词错误的标签所在的文本语句进行分词纠错处理不局限于上述方式，还可以采用其他的分词纠错处理方式，例如直接纠错，字典纠错等纠错处理方式。其中，针对直接纠错，字典纠错可以参考现有技术中的相关描述，本发明实施例此处将不再赘述。

3、根据所述标签集合对所述新的分词中的每个分词进行标签标注，并执行1，直到标签标注的文本中不再出现分词错误的标签为止。

为了更清楚的表达本发明实施例中的分词纠错处理，本发明实施例具体以枚举方法为例进行具体的说明。比如，检测到ABCD/TSX这个词语，先将该词语先分成字的形式A，B，C，D，再枚举A，B，C，D四个字构成的词语有一下几种情况：

1，A，B，C，D

2，AB，C，D

3，A，BC，D

4，A，B，CD

5，AB，CD

6，ABC，D

7，A，BCD

然后把这些分词分别替换原有分词中的ABCD这个词语，并将替换完分词的句子重新进行标记，如果当前的标记中不存在TSX和TEX及TXE，TXS等标签，则输出文本语句的标签标注结果，结束文本语句重新分词的程序。

上述分词纠错处理方法，可以通过以下的例子进行具体说明，例如在人名识别中，句子文本“邓颖超生前和刘晓辉同学合影”分词程序结果为“邓颖超生前和刘晓辉同学合影”，通过标签标注模型后结果为“邓颖/TSE超生/TSX前/TN和/TT刘晓辉/TSE同学/TEN合影/TN”,其中，“超生/TSX”表示改词为分词错误，要对其进行重分词处理，分词结果为“邓颖超生前和刘晓辉同学合影”，然后重新标注为“邓颖/TS超/TE生/TEN前/TN和/TT刘晓辉/TSE同学/TEN合影/TN”，不再出现纠错标签，则终止本分词纠错步骤。

本发明实施例中，在对分词进行标签标注后，会检测是否存分词错误的特定标签后，若检测出存在分词错误的特定标签，并在本步骤中进行纠错处理，针对该种标签对应的待识别文本语句进行重分词处理，重分词处理后的文本作为输入文本重新输入到标注模型中，直到该标注标签中不再出现纠错标签为止。该分词纠错的技术方案有效地让分词错误的情况不再影响领域命名实体识别的结果，进一步保证了领域命名实体的准确性。

基于上述方法实施例，本发明实施例还提供一种识别领域命名实体的装置，如图3所示，该装置包括：

分词单元21，用于对待识别文本进行分词。

标注单元22，用于根据所述待识别文本对应领域的标签集合，对待识别文本中的每个分词进行标签标注，所述标签集合包含基于领域命名实体识别的基础标签集合和对应领域所属标签集合，其中，所述基础标签集合包含组成领域命名实体相关词语的位置标签。

其中，该所述基础标签集合包含组成领域命名实体相关词语的位置标签，该位置标签可以为但不局限于以下内容的标签：词语位于实体的首部TS、词语位于实体中部TM、词语位于实体的尾部TE、词语位于实体的前面/后面TSN/TEN、与该领域实体不相关TN、两个实体是并列关系TT、分词错误TSX/TEX/TXS/TEX等。

抽取单元23，用于按照领域命名实体抽取规则对标签标注的分词进行抽取。本发明实施例中，按照特定领域的标签集合，根据不同的任务，设定的领域命名实体抽取规则也不同，具体的可以根据实体需求设置。例如，这对汽车领域，领域命名实体抽取规则为：“*/TS+*/TE”。

组词单元24，用于将抽取的分词组成领域命名实体。

进一步的，如图4所示，该装置还包括：

检测单元25，用于在所述标注单元22根据所述待识别文本对应领域的标签集合，对待识别文本中的每个分词进行标签标注之后，检测所述标签标注的文本中是否存在分词错误的标签。

所述分词单元21还用于，当所述检测单元25检测到存在分词错误的标签时，对分词错误的标签所在的文本语句进行分词纠错处理得到新的分词。其中，所述分词单元21对分词错误的标签所在的文本语句进行分词纠错处理得到新的分词时，具体为：对分词错误的标签所在的文本语句按字拆分并重新组合得到新的分词。关于该分词单元对分词错误的标签所在的文本语句按字拆分并重新组合得到新的分词的相关描述，本发明实施例此处将不再赘述，相关描述可以参考方法实施例的对应描述。

所述标注单元22还用于，根据所述标签集合对所述新的分词中的每个分词进行标签标注，直到进行标签标注的文本中不再出现分词错误的标签为止。

进一步的，如图5所示，该装置还包括：

获取单元26，用于在所述标注单元22根据所述待识别文本对应领域的标签集合，对待识别文本中的每个分词进行标签标注之前，获取领域命名实体识别的基础标签集合和各领域所属标签集合。

所述获取单元26还用于，取所述各领域所属标签集合与所述领域命名实体识别的基础标签集合的合集作为各领域的标签集合。

需要说明的是，本发明实施例中涉及的各功能单元及功能模块的其他描述，可以参考方法实施例中的对应描述，本发明实施例此处将不再赘述。

并且，在对分词进行标签标注后，会检测是否存分词错误的特定标签，若检测出存在分词错误的特定标签，并在本步骤中进行纠错处理，针对该种标签对应的待识别文本语句进行重分词处理，重分词处理后的文本作为输入文本重新输入到标注模型中，直到该标注标签中不再出现纠错标签为止。该步骤有效让分词错误的情况不再影响领域命名实体识别的结果，进一步保证了领域命名实体的准确性。

所述识别领域命名实体的装置包括处理器和存储器，上述分词单元、标注单元、抽取单元、组词单元、检测单元和获取单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来通过使用标签标记的方法，对命名实体边界进行精准定位，有效的减少了分词结果对领域命名实体识别效果的影响，提高了命名实体识别的准确率。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：对待识别文本进行分词；根据所述待识别文本对应领域的标签集合，对待识别文本中的每个分词进行标签标注，所述标签集合包含基于领域命名实体识别的基础标签集合和对应领域所属标签集合，其中，所述基础标签集合包含组成领域命名实体相关词语的位置标签；按照领域命名实体抽取规则对标签标注的分词进行抽取；将抽取的分词组成领域命名实体。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

一种识别领域命名实体的方法，其特征在于，包括：

对待识别文本进行分词；

根据所述待识别文本对应领域的标签集合，对待识别文本中的每个分词进行标签标注，所述标签集合包含基于领域命名实体识别的基础标签集合和对应领域所属标签集合，其中，所述基础标签集合包含组成领域命名实体相关词语的位置标签；

按照领域命名实体抽取规则对标签标注的分词进行抽取；

将抽取的分词组成领域命名实体。
根据权利要求1所述的方法，其特征在于，所述位置标签包括：分词错误；在根据所述待识别文本对应领域的标签集合，对待识别文本中的每个分词进行标签标注之后，还包括：

检测所述标签标注的文本中是否存在分词错误的标签；

若存在分词错误的标签，则对分词错误的标签所在的文本语句进行分词纠错处理得到新的分词；

根据所述标签集合对所述新的分词中的每个分词进行标签标注，直到标签标注的文本中不再出现分词错误的标签为止。
根据权利要求2所述的方法，其特征在于，对分词错误的标签所在的文本语句进行分词纠错处理得到新的分词包括：

对分词错误的标签所在的文本语句按字拆分并重新组合得到新的分词。
根据权利要求1-3中任一项所述的方法，其特征在于，在根据所述待识别文本对应领域的标签集合，对待识别文本中的每个分词进行标签标注之前，所述方法还包括：

获取领域命名实体识别的基础标签集合和各领域所属标签集合；

取所述各领域所属标签集合与所述领域命名实体识别的基础标签集合的合集作为各领域的标签集合。
根据权利要求2或3所述的方法，其特征在于，所述位置标签还包括：

词语位于实体的首部、词语位于实体中部、词语位于实体的尾部、词语位于实体的前面/后面、与该领域实体不相关、两个实体是并列关系。
一种识别领域命名实体的装置，其特征在于，包括：

分词单元，用于对待识别文本进行分词；

标注单元，用于根据所述待识别文本对应领域的标签集合，对待识别文本中的每个分词进行标签标注，所述标签集合包含基于领域命名实体识别的基础标签集合和对应领域所属标签集合，其中，所述基础标签集合包含组成领域命名实体相关词语的位置标签；

抽取单元，用于按照领域命名实体抽取规则对标签标注的分词进行抽取；

组词单元，用于将抽取的分词组成领域命名实体。
根据权利要求6所述的装置，其特征在于，所述位置标签包括：分词错误；所述装置还包括：

检测单元，用于在所述标注单元根据所述待识别文本对应领域的标签集合，对待识别文本中的每个分词进行标签标注之后，检测所述标签标注的文本中否存在分词错误的标签；

所述分词单元还用于，当所述检测单元检测到存在分词错误的标签时，对分词错误的标签所在的文本语句进行分词纠错处理得到新的分词；

所述标注单元还用于，根据所述标签集合对新的分词中的每个分词进行标签标注，直到进行标签标注的文本中不再出现分词错误的标签为止。
根据权利要求7所述的装置，其特征在于，所述分词单元对分词错误的标签所在的文本语句进行分词纠错处理得到新的分词时，具体为：

对分词错误的标签所在的文本语句按字拆分并重新组合得到新的分词。
根据权利要求6-8中任一项所述的装置，其特征在于，还包括：

获取单元，用于在所述标注单元根据所述待识别文本对应领域的标签集合，对待识别文本中的每个分词进行标签标注之前，获取领域命名实体识别的基础标签集合和各领域所属标签集合；

所述获取单元还用于，取所述各领域所属标签集合与所述领域命名实体识别的基础标签集合的合集作为各领域的标签集合。
根据权利要求7或8所述的装置，其特征在于，所述位置标签还包括：

词语位于实体的首部、词语位于实体中部、词语位于实体的尾部、词语位于实体的前面/后面、与该领域实体不相关、两个实体是并列关系。