WO2023092960A1

WO2023092960A1 - 一种用于法律文书的命名实体识别的标注方法和装置

Info

Publication number: WO2023092960A1
Application number: PCT/CN2022/093493
Authority: WO
Inventors: 王宏升; 鲍虎军; 陈�光; 马超; 廖青
Original assignee: 之江实验室
Priority date: 2022-04-24
Filing date: 2022-05-18
Publication date: 2023-06-01
Also published as: CN114580424A; CN114580424B

Abstract

本发明公开了一种用于法律文书的命名实体识别的标注方法和装置，包括以下步骤：步骤S1：获取法律文本，转换成索引表；步骤S2：输出句子特征编码结果；步骤S3：训练及预测；步骤S4：得到集合；步骤S5：得到多头分数转移矩阵；步骤S6：得出所述法律文本对应的分数转移矩阵；步骤S7：确定识别嵌套实体；步骤S8：利用所述识别嵌套实体构建实体标注模板。本发明通过改变对BERT模型的输入，尝试完成对嵌套实体标注的识别，利用本发明所述的多头选择矩阵标注思路，较大程度的缓解了NER任务中长文本以及嵌套实体的识别难度。

Description

一种用于法律文书的命名实体识别的标注方法和装置

交叉引用

本发明要求于2022年4月24日向中国专利局提交的申请号为202210434737.9、发明名称为“一种用于法律文书的命名实体识别的标注方法和装置”中国专利申请的优先权，其全部内容通过引用，合并于此。

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种用于法律文书的命名实体识别的标注方法和装置。

背景技术

近年来，随着硬件计算能力的大幅度提高，基于深度神经网络的方法已经被成功地应用到命名实体识别中，该方法是一种端到端的方法，不需要特殊的领域资源(如词典)或者构建本体，可以从大规模的标注数据中自动地学习和抽取文本特征。

目前常用的命名实体识别分为：基于规则的方法、基于统计的方法。基于规则的方法的特点是：匹配规则、依赖词典、模板、正则表达式，灵活性差，可移植性差。基于统计的方法的特点是：将命名实体别看作分类问题，选择最大概率，将命名实体识别看作序列标注，采用隐马尔可夫、最大熵马尔可夫链、条件随机场、长短期记忆网络等机器学习序列标注模型，这些序列标注模型未能高度识别嵌套实体。

因此，我们提出了一种用于法律文书的命名实体识别的标注方法和装置以此解决上述技术问题。

发明内容

本发明的目的在于针对现有技术的不足，提供一种用于法律文书的命名实体识别的标注方法和装置。

本发明采用的技术方案如下：

一种用于法律文书的命名实体识别的标注方法，包括以下步骤：

步骤S1：获取法律文本，利用标注工具对所述法律文本进行实体标注得到标注信息，对所述标注信息进行处理得到语句和标注，并按索引位置填入用实体做成的字典，将所述语句、标注和字典保存为文件；

步骤S2：将所述文件中的所述语句转变为BERT预训练模型所能识别的索引值，同时确定输入的标签信息矩阵，创建生成器；

步骤S3：将所述生成器生成的一个批次的索引值输入BERT预训练模型中提取句子上下文特征、捕获句子上下文特征、理解句子之间的关系、理解语义之间的关系，输出句子特征编码结果；

步骤S4：将所述句子特征编码结果输入条件随机场模型中训练及预测，获取实体识别标签序列、实体标签位置信息和分数转移矩阵；

步骤S5：将所述分数转移矩阵输入多头神经网络层，得到一个实体对应多个实体识别标签序列、多个实体标签位置信息、多个分数转移矩阵；

步骤S6：对所述分数转移矩阵复制并转置，得到转置矩阵，将转置矩阵与原矩阵拼接得到多头分数转移矩阵；

步骤S7：将所述多头分数转移矩阵输入全连接层中得出所述法律文本对应的分数转移矩阵，至此BERT-SPAN训练模型构建完成；

步骤S8：将所述分数转移矩阵与所述标签信息矩阵进行交叉熵损失函数求损失值，将损失值回传入所述BERT-SPAN训练模型训练，不断调整BERT-SPAN训练模型的训练结果参数，得到识别嵌套实体；

步骤S9：利用所述识别嵌套实体构建实体标注模板。

进一步地，所述步骤S1具体包括以下子步骤：

步骤S11：获取法律文本，利用标注工具对所述法律文本进行实体标注得到标注信息，对所述标注信息分解为语句和标注，并将所述语句和所述标注分别存入语句列表和标注列表保存；步骤S12：对所述语句列表和所述标注列表按索引位置填入用实体做成的字典；

步骤S13：将所述语句列表和所述标注列表以及所述字典的信息存入josn文件。

进一步地，所述步骤S2具体包括以下子步骤：

步骤S21：对步骤S1中所述文件中的所述语句进行判断并处理，得到仅小于等于510字符的语句；

步骤S22：将所述仅小于等于510字符的语句通过所述BERT预训练模型的编码器直接转变为索引值；

步骤S23：读取步骤S1中所述文件，提取标签位置；

步骤S24：确定横轴方向上的实体起始坐标；

步骤S25：确定纵轴方向上的实体终止坐标：

步骤S26：将所述实体起始坐标与所述实体终止坐标合并，确定标签信息矩阵；

步骤S27：通过设置批次大小，确定同一批次中所述语句的最大长度，将所述标签信息矩阵中每个列表进行后向填充，与所述最大长度的值相同，同时对所述索引值以及按索引值长度生成的全零列表也全部填充至最大长度；

步骤S28：确定返回值为[索引值，全零列表]，[实体位置信息矩阵]，创建生成器。

进一步地，所述步骤S3具体包括以下子步骤：

步骤S31：将所述生成器生成的一个批次的索引值输入BERT-SPAN预训练模型中训练，得到词嵌入向量；

步骤S32：根据所述词嵌入向量提取句子上下文特征、捕获句子上下文特征、理解句子之间的关系、理解语义之间的关系，输出句子特征编码结果。

进一步地，所述步骤S4中所述分数转移矩阵表示预测实体与多个所述标签信息之间的关系，采用激活函数，为每个实体得到最大分数的输出，得分最大的标签为实体对应的标签。

进一步地，所述步骤S9中构建实体标注模板的方法采用标记语言设计。

本发明还提供一种用于法律文书的命名实体识别的标注方法，所述步骤S9中所述实体标注模板的属性包括：标注实体序号，实体类型和代码，已识别实体名称。

进一步地，所述步骤S9包括以下子步骤：

步骤S91：利用所述识别嵌套实体构建标签集，所述标签集包括人物、原告、被告、时间、地点、事件、罪名、结果；

步骤S92：根据所述标签集，已构建横轴与纵轴实体标注位置以及对应的实体，构建单实体模板，所述单实体模板包括：单个人物实体、单个原告实体、单个被告实体、单个时间实体、单个地点实体、单个事件实体、单个罪名实体；

步骤S93：根据所述标签集，提取已构建横轴与纵轴实体标注位置以及对应的嵌套实体，构建嵌套实体模板，多个实体之间采用顿号隔开，所述嵌套实体模板包括：多个人物实体、多个原告实体、多个被告实体、多个时间实体、多个地点实体、多个事件实体、多个罪名实体；

步骤S94：根据所述标签集，非实体模板由已构建横轴与纵轴实体标注中未能识别或者不是实体，构建非实体模板；

步骤S95：所述单实体模板，所述嵌套实体模板和所述非实体模板的集合为所述实体标注模板。

本发明还提供一种用于法律文书的命名实体识别的标注装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例任一项所述的一种用于法律文书的命名实体识别的标注方法。

本发明还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例任一项所述的一种用于法律文书的命名实体识别的标注方法。

本发明的有益效果是：首先，用SPAN模式为解决命名实体识别任务中长文本别提供方法；其次，可以通过改变对BERT模型的输入，尝试完成对嵌套实体标注的识别。利用本发明所述的SPAN模式，较大程度的解决NER任务中长文本以及嵌套实体的识别难度，为后续更好的解决此类问题做出了实践。本发明研究基于BERT预训练语言模型。具体的，本发明首先对语料进行SPAN方法的处理，让其位置信息从原先的普通标注(BMES)方法转化为位置信息的标注，同时规定BERT的输出，在此基础上构建BERT-SPAN模型；使用多头前馈神经网络对分数转移矩阵处理得到多头分数转移矩阵，将多头分数转移矩阵复制并转置，得到转置矩阵，将转置矩阵与原矩阵拼接得到多头标注位置转移矩阵；将多头分数转移矩阵输入全连接层中得出实体标注位置并构建标注横轴与纵轴位置坐标；利用已识别的实体与标注的位置构建实体标注模板。本发明解决了长文本嵌套实体在BERT模型下识别程度低，同时也为嵌套实体识别提供了解决方法，相比基于机器学习的命名实体识别方法，模型框架更为简单，准确度更高。

附图说明

图1是本发明一种用于法律文书的命名实体识别的标注方法的整体架构图；

图2是本发明一种用于法律文书的命名实体识别的标注方法的横轴方向上的实体坐标；

图3是本发明一种用于法律文书的命名实体识别的标注方法的纵轴方向上的实体坐标；

图4是本发明一种用于法律文书的命名实体识别的标注方法的语料训练过程实际矩阵；

图5是本发明一种用于法律文书的命名实体识别的标注方法的标注结果；

图6本发明一种用于法律文书的命名实体识别的标注装置的结构图。

具体实施方式

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

见图1，一种用于法律文书的命名实体识别的标注方法，包括以下步骤：

步骤S11：获取法律文本，利用标注工具对所述法律文本进行实体标注得到标注信息，对所述标注信息分解为语句和标注，并将所述语句和所述标注分别存入语句列表和标注列表保存；

步骤S12：对所述语句列表和所述标注列表按索引位置填入用实体做成的字典；

步骤S23：读取步骤S1中所述文件，提取标签位置；例如：“被告人张三酒驾逃逸被拘留”。提取出的字典格式如：

{“句子序号”：0，“句子长度”：12，{“标签”：{“被告”：[0,2]，[0,4],“事件”：[5,6],[7,8]，“结果”：[10,11]}}；

步骤S24：确定横轴方向上的实体起始坐标；

此时通过标签索引表将类别转化为数字，如上述例句：{1：[0,2]，[0,4]，2：[5,6],[7,8]，3：[10,11]}，根据每一个列表中的第一位数字，提前创建的一个同本句长度相同的全零列表，将全零列表中数字位置上的0变更为对应的标签类别索引，如果包含嵌套关系，则将两个类别的数字放在同一列表下，表示该位置包含多种实体的开头部分，整体表示为：

[1,0,0,1,0,2,0,0,0,0,3,0]，用该列表表示实体的位置信息与标注信息，以此构建横轴方向上的实体坐标，每个数字代表对应类别实体的一种类别实体的开始部分，参见图2。

步骤S25：确定纵轴方向上的实体终止坐标：

根据上述字典中有实体位置列表的第二位数字，将另一组同本句长度相同的全零列表中该数字位置索引上的0变更为对应的标签类别索引，整体为：

[0,0,1,0,1,0,2,0,2,0,0,3]，以此构建纵轴方向的实体坐标，每个数字代表对应类别实体的一种类别实体的结束部分，参见图3。

步骤S26：将所述实体起始坐标与所述实体终止坐标合并，确定标签信息矩阵；该矩阵表示语料中各个实体的准确位置，具体表示形式为横轴与纵轴为一条相同文本，横轴位置与纵轴位置确定矩阵中的一个点，此点为一个实体，用对应的数字表明实体的类别，同时为了避免过拟合，将横轴大于纵轴的数用-1表示，将矩阵的右上部和位置关系无关的数字去除，将此方法用作形成实体位置信息的模板，不断将每个实体的位置信息进行提取，构建一个二维矩阵来表示语料中实体的位置，语料训练过程中实际矩阵，参见图4；标注结果，参见图5。同时将此二维矩阵作为实体位置信息矩阵输入模型。

步骤S4：将所述句子特征编码结果输入条件随机场模型中训练及预测，获取实体识别标签序列、实体标签位置信息和分数转移矩阵；所述分数转移矩阵表示预测实体与多个所述标签信息之间的关系，为解决一个实体属于多个标签情况，采用激活函数，为每个实体得到最大分数的输出，得分最大的标签为实体对应的标签。

步骤S6：对所述分数转移矩阵复制并转置，得到转置矩阵，将转置矩阵与原矩阵拼接得到多头分数转移矩阵，维度转换为[批次大小，序列长度，序列长度，两个隐藏层]；

步骤S7：将所述多头分数转移矩阵输入全连接层中得出所述法律文本对应的分数转移矩阵，维度转换为[批次大小，序列长度，序列长度，序列中语句的类别位置信息]，至此BERT-SPAN训练模型构建完成；

对损失进行修正，避免BERT-SPAN模型出现过拟合，交叉熵损失函数具体公式如下：

其中span_loss为此次模型所用的损失函数；e为超参数，可自行调整；n为所有预测信息；i为第i次预测信息；xi为每一类别；p(xi)为真实概率分布；q(xi)为预测概率分布。

通过一个个批次的参数优化，调整真实标签的所在位置，确定识别嵌套实体。

步骤S9：利用所述识别嵌套实体构建实体标注模板；构建实体标注模板的方法采用标记语言(XML)设计，所述实体标注模板的属性包括：标注实体序号，实体类型和代码，已识别实体名称。

步骤S92：根据所述标签集，已构建横轴与纵轴实体标注位置以及对应的实体，构建单实体模板，所述单实体模板包括：单个人物实体、单个原告实体、单个被告实体、单个时间实体、单个地点实体、单个事件实体、单个罪名实体；单实体模板<NER id＝“1”label＝“被告”code＝“0001”>实体</NER>。

步骤S93：根据所述标签集，提取已构建横轴与纵轴实体标注位置以及对应的嵌套实体，构建嵌套实体模板，多个实体之间采用顿号隔开，所述嵌套实体模板包括：多个人物实体、多个原告实体、多个被告实体、多个时间实体、多个地点实体、多个事件实体、多个罪名实体；嵌套实体模板<NER_MORE id＝“2”label＝“事件”code＝“0002”>实体1、实体2</NER_MORE>。

步骤S94：根据所述标签集，非实体模板由已构建横轴与纵轴实体标注中未能识别或者不是实体，构建非实体模板；非实体模板<NER_NO id＝“3”label＝“NULL”code＝“NULL”>文本</NER_NO>。

与前述一种用于法律文书的命名实体识别的标注方法的实施例相对应，本发明还提供了一种用于法律文书的命名实体识别的标注装置的实施例。

参见图6，本发明实施例提供的一种用于法律文书的命名实体识别的标注装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的一种用于法律文书的命名实体识别的标注方法。

本发明一种用于法律文书的命名实体识别的标注装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图6所示，为本发明一种用于法律文书的命名实体识别的标注装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种用于法律文书的命名实体识别的标注方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

一种用于法律文书的命名实体识别的标注方法，其特征在于，包括以下步骤：

步骤S1：获取法律文本，利用标注工具对所述法律文本进行实体标注得到标注信息，对所述标注信息进行处理得到语句和标注，并按索引位置填入用实体做成的字典，将所述语句、标注和字典保存为文件；

步骤S2：将所述文件中的所述语句转变为BERT预训练模型所能识别的索引值，同时确定输入的标签信息矩阵，创建生成器；

步骤S3：将所述生成器生成的一个批次的索引值输入BERT预训练模型中提取句子上下文特征、捕获句子上下文特征、理解句子之间的关系、理解语义之间的关系，输出句子特征编码结果；

步骤S4：将所述句子特征编码结果输入条件随机场模型中训练及预测，获取实体识别标签序列、实体标签位置信息和分数转移矩阵；

步骤S5：将所述分数转移矩阵输入多头神经网络层，得到一个实体对应多个实体识别标签序列、多个实体标签位置信息、多个分数转移矩阵；

步骤S6：对所述分数转移矩阵复制并转置，得到转置矩阵，将转置矩阵与原矩阵拼接得到多头分数转移矩阵；

步骤S7：将所述多头分数转移矩阵输入全连接层中得出所述法律文本对应的分数转移矩阵，至此BERT-SPAN训练模型构建完成；

步骤S8：将所述分数转移矩阵与所述标签信息矩阵进行交叉熵损失函数求损失值，将损失值回传入所述BERT-SPAN训练模型训练，不断调整BERT-SPAN训练模型的训练结果参数，得到识别嵌套实体；

步骤S9：利用所述识别嵌套实体构建实体标注模板。
如权利要求1所述的一种用于法律文书的命名实体识别的标注方法，其特征在于，所述步骤S1具体包括以下子步骤：

步骤S11：获取法律文本，利用标注工具对所述法律文本进行实体标注得到标注信息，对所述标注信息分解为语句和标注，并将所述语句和所述标注分别存入语句列表和标注列表保存；步骤S12：对所述语句列表和所述标注列表按索引位置填入用实体做成的字典；

步骤S13：将所述语句列表和所述标注列表以及所述字典的信息存入josn文件。
如权利要求1所述的一种用于法律文书的命名实体识别的标注方法，其特征在于，所述步骤S2具体包括以下子步骤：

步骤S21：对步骤S1中所述文件中的所述语句进行判断并处理，得到仅小于等于510字符的语句；

步骤S22：将所述仅小于等于510字符的语句通过所述BERT预训练模型的编码器直接转变为索引值；

步骤S23：读取步骤S1中所述文件，提取标签位置；

步骤S24：确定横轴方向上的实体起始坐标；

步骤S25：确定纵轴方向上的实体终止坐标：

步骤S26：将所述实体起始坐标与所述实体终止坐标合并，确定标签信息矩阵；

步骤S27：通过设置批次大小，确定同一批次中所述语句的最大长度，将所述标签信息矩阵中每个列表进行后向填充，与所述最大长度的值相同，同时对所述索引值以及按索引值长度生成的全零列表也全部填充至最大长度；

步骤S28：确定返回值为[索引值，全零列表]，[实体位置信息矩阵]，创建生成器。
如权利要求1所述的一种用于法律文书的命名实体识别的标注方法，其特征在于，所述步骤S3具体包括以下子步骤：

步骤S31：将所述生成器生成的一个批次的索引值输入BERT-SPAN预训练模型中训练，得到词嵌入向量；

步骤S32：根据所述词嵌入向量提取句子上下文特征、捕获句子上下文特征、理解句子之间的关系、理解语义之间的关系，输出句子特征编码结果。
如权利要求1所述的一种用于法律文书的命名实体识别的标注方法，其特征在于，所述步骤S4中所述分数转移矩阵表示预测实体与多个所述标签信息之间的关系，采用激活函数，为每个实体得到最大分数的输出，得分最大的标签为实体对应的标签。
如权利要求1所述的一种用于法律文书的命名实体识别的标注方法，其特征在于，所述步骤S9中构建实体标注模板的方法采用标记语言设计。
如权利要求1所述的一种用于法律文书的命名实体识别的标注方法，其特征在于，所述步骤S9中所述实体标注模板的属性包括：标注实体序号，实体类型和代码，已识别实体名称。
如权利要求1所述的一种用于法律文书的命名实体识别的标注方法，其特征在于，所述步骤S9包括以下子步骤：

步骤S91：利用所述识别嵌套实体构建标签集，所述标签集包括人物、原告、被告、时间、地点、事件、罪名、结果；

步骤S92：根据所述标签集，已构建横轴与纵轴实体标注位置以及对应的实体，构建单实体模板，所述单实体模板包括：单个人物实体、单个原告实体、单个被告实体、单个时间实体、单个地点实体、单个事件实体、单个罪名实体；

步骤S93：根据所述标签集，提取已构建横轴与纵轴实体标注位置以及对应的嵌套实体，构建嵌套实体模板，多个实体之间采用顿号隔开，所述嵌套实体模板包括：多个人物实体、多个原告实体、多个被告实体、多个时间实体、多个地点实体、多个事件实体、多个罪名实体；

步骤S94：根据所述标签集，非实体模板由已构建横轴与纵轴实体标注中未能识别或者不是实体，构建非实体模板；

步骤S95：所述单实体模板，所述嵌套实体模板和所述非实体模板的集合为所述实体标注模板。
一种用于法律文书的命名实体识别的标注装置，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-8中任一项所述的一种用于法律文书的命名实体识别的标注方法。
一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现上述权利要求1-8中任一项所述的一种用于法律文书的命名实体识别的标注方法。