WO2023051399A1

WO2023051399A1 - 一种基于本体指导的生成式事件抽取方法

Info

Publication number: WO2023051399A1
Application number: PCT/CN2022/120840
Authority: WO
Inventors: 陈华钧; 叶宏彬; 张宁豫; 邓淑敏; 毕祯
Original assignee: 浙江大学
Priority date: 2021-09-28
Filing date: 2022-09-23
Publication date: 2023-04-06
Also published as: US20240143633A1; CN113987104A; CN113987104B

Abstract

本发明公开了一种基于本体指导的生成式事件抽取方法，包括：(1)构建事件本体知识库；(2)设计事件触发词提取模板和事件论元提取模板，分别将输入事件文本映射为第一输入序列，和将融入事件本体的输入事件文本映射为第二输入序列；(3)设计映射多单词标签到事件类型和/或角色类型的类标映射函数；(4)从事件本体知识库中提取与输入事件对应的事件本体后，按照事件触发词提取模板和事件论元提取模板构建第一输入序列和第二输入序列并输入事件提取模型；(5)事件提取模型根据类标映射函数和自身处理机制预测事件类型和角色类型，同时输出事件触发词跨度和事件论元跨度。该方法以实现在全监督和少样本场景下高效地抽取事件结构化知识。

Description

一种基于本体指导的生成式事件抽取方法

技术领域

本发明涉及自然语言处理中的信息抽取技术领域，特别是涉及一种基于本体指导的生成式事件抽取方法。

背景技术

事件作为信息的一种表现形式，其定义为特定的人、物在特定时间和特定地点相互作用的客观事实，一般来说是句子级的。在话题检测与跟踪(Topic Detection Tracking，TDT)中，事件是指关于某一主题的一组相关描述，这个主题可以是由分类或聚类形成的。

组成事件的各元素包括：触发词(trigger word)、事件类型(Event Type)、事件论元(Event Argument)及论元角色(Argument Role)。事件触发词表示事件发生的核心词，多为动词或名词。事件类型是指事件所属类型。事件论元是指事件的参与者，主要由实体、值、时间组成，值是一种非实体的事件参与者，例如工作岗位。论元角色是指事件论元在事件中充当的角色。

事件抽取是从非结构化信息中抽取出用户感兴趣的事件，并以结构化呈现给用户。事件抽取任务可分解为4个子任务：触发词识别、事件类型分类、论元识别和角色分类任务。其中，触发词识别和事件类型分类可合并成事件识别任务。事件识别分类判断句子中的每个单词归属的事件类型，是一个基于单词的多分类任务。论元识别和角色分类可合并成论元角色分类任务。角色分类任务则是一个基于词对的多分类任务，判断句子中任意一对触发词和实体之间的角色关系。

事件抽取的目的是用文本中的参数来识别事件触发器，通常被表述为一个分类或结构化的预测问题。例如，输入句子“The divorce settlement called for Giuliani to pay Hanover more than$6.8million.”，事件抽取应该提取两个事件，一个是“Life:Divorce”事件类型，触发词是“divorce”，由一个事件参数组成：论元跨度为“Giuliani”，角色类型为“Person”。另一个是“Transaction:Transfer-Money”事件类型，触发词是“pay”，由三个事件参数组成：论元跨度为“Giuliani”，角色类型为“Giver”；论元跨度为“$6.8million”，角色类型为“Money”；论元跨度为“Hanover”，角色类型为“Recipient”。句子中包含多个事件为事件抽取带来了更多的挑战。此外，论元跨度在不同事件中也存在重叠问题，例如示例句子中的“Giuliani”需要在两种不同类型的事件中同时扮演不同的论元角色。

传统方法采用序列标注的方法进行事件提取，然而这解决不了论元角色重叠的问题。此外，传统事件提取模型通常还存在着需要设计复杂的模型架构和对新事件类型的弱泛化性问题。

发明内容

鉴于上述，本发明的目的是提供一种基于本体指导的生成式事件抽取方法，以实现在全监督和少样本场景下高效地抽取事件结构化知识。

为实现上述发明目的，本发明提供以下技术方案：

一种基于本体指导的生成式事件抽取方法，包括以下步骤：

步骤1，根据领域知识库和事件标注框架构建事件本体知识库；

步骤2，设计生成式事件抽取的事件触发词提取模板和事件论元提取模板；事件触发词提取模板将输入事件文本映射为事件提取模型的第一输入序列；事件论元提取模板将融入事件本体的输入事件文本映射为事件提取模型的第二输入序列；

步骤3，设计类标映射函数，该映类标射函数处理多单词标签到事件类型和/或角色类型的映射；

步骤4，对于输入事件文本，从事件本体知识库中提取与输入事件对应的事件本体，并根据输入事件文本和事件本体，按照事件触发词提取模板和事件论元提取模板构建第一输入序列和第二输入序列；

步骤5，第一输入序列和的第二输入序列输入事件提取模型，事件提取模型根据类标映射函数和自身处理机制预测事件类型和角色类型，同时输出事件触发词跨度和事件论元跨度。

与现有技术相比，本发明具有的有益效果至少包括：

在构建事件本体知识库的基础上，通过设计的事件触发词提取模板和事件论元提取模板，将事件本体和增加的提示词融入到输入序列中，这样为事件提取模型注入事件本体知识，隐式地建模事件触发词和事件论元之间的相关性，然后利用融合事件本体的提示词来指导事件序列文本的生成，提高了在全监督和少样本场景下的性能，提高了事件提取模型的收敛速度，提高了多事件抽取和重叠事件论元的抽取速度和准确性，具有一定的工业实用价值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是一实施例提供的基于本体指导的生成式事件抽取方法的流程图；

图2是一实施例提供的基于本体指导的生成式事件抽取方法的总体框架图；

图3是一实施例提供的事件触发词抽取和事件类型分类的模型结构图；

图4是一实施例提供的事件论元抽取和事件角色分类的模型结构图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

为了解决现有事件提取方法中存在的论元角色重叠的问题，和设计复杂的模型架构和对新事件类型的弱泛化性问题，导致的事件提取速度慢，不准确的问题，本发明提供了一种基于本体指导的生成式事件抽取方法，将结构化事件信息重组为文本信息作为监督，并使用端到端语言生成模型来指导包含事件信息的序列文本的生成。为了融入外部事件知识，通过外部知识库为每个子事件类型构建一个事件本体知识库，并通过传播算法建立事件和事件之间的联系，将事件本体知识库与提示模板进行序列化和集成，为模型注入事件本体知识，隐式地建模事件触发词和事件论元之间的相关性。在此基础上，将事件提取视为自然语言生成的新框架，基于提示词的微调方法，减少了预训练模型和微调任务之间的差距，提高了预训练模型中的知识对下游任务的转移和适应的效率。

图1是一实施例提供的基于本体指导的生成式事件抽取方法的流程图，图2是一实施例提供的基于本体指导的生成式事件抽取方法的总体框架图，如图1和图2所示，实施例提供的生成式事件抽取方法，包括以下步骤：

步骤1，根据领域知识库和事件标注框架构建事件本体知识库。

实施例中，构建事件本体知识库的过程为：

步骤1.1，利用ACE预定义的事件框架作为目标事件本体，ACE语料库是语言数据联盟(LDC)发布的由实体，关系和事件注释组成的各种类型的数据，其中ACE语料为事件信息的注释提供了详细的框架；

步骤1.2，抽取FrameNet中与目标事件本体相关的事件框架作为扩充的事件本体，FrameNet以框架语义学作为理论根据，使得大多数单词的含义都可以通过语义框架(对事件、关系或实体及其参与者的描述)得到最佳理解，我们利用与事件本体相关的语义框架扩充事件本体的构建来源；

步骤1.3，整合目标事件本体和扩充的事件本体，进行去重和人工检查，得到事件本体知识库。

以ACE2005事件抽取数据集为例，在此例子中利用步骤1方法构建了33个核心事件本体及1161个非核心事件本体，通过事件与事件的传播算法建立了28个事件与事件之间的关系本体。

以离婚事件为例展示事件抽取的框架，事件数据集的本体知识库针对离婚事件构建了“injure”、“divorce”、“transfer-money”等核心事件本体(Event Ontology)，每个事件本体都有其各自的非核心事件本体，例如“divorce”核心事件本体与“person”、“time”、“purpose”、“partners”等非核心事件本体关联，此外事件与事件之间也存在着关系，例如“injure”核心事件本体通过“cause”关系指向“divorce”核心事件本体，说明伤害事件是造成离婚事件的成因。

步骤2，设计生成式事件抽取的事件触发词提取模板和事件论元提取模板。

实施例中，设计的提取模板是将融入事件本体的输入文本映射到标准的预先训练的事件提取模型的输入序列，也即是事件本体与输入事件文本需要共同生成式事件抽取的提示模板，由于触发词抽取和事件论元抽取任务的不同，为此设计了不同的提示模板。

实施例中，设计的事件触发词提取模板能够将输入事件文本映射为事件提取模型的第一输入序列，具体设计的事件触发词提取模板为：

[第一标记符]<伪模板><输入事件文本>[第二标记符]事件触发词为[MASK],触发词令牌为，对应英文为[CLS]<pseudo template><input sentence>[sos]The trigger word is[MASK],trigger token is；

其中，伪模板(pseudo template)采用预训练词嵌入中未使用的虚拟伪标签，如[unused1][unused2],……,[unused9]等，为了简化，<pseudo template>用s ₁表示，<input sentence>用s ₂表示。

实施例中，设计的事件论元提取模板将融入事件本体的输入事件文本映射为事件提取模型的第二输入序列；设计的事件论元提取模板为：

[第一标记符]<事件本体><输入事件文本>[第二标记符]论元类型为[MASK],论元令牌为，对应英文为[CLS]<Event ontology><input sentence>[SOS]The argument type is[MASK],argument token is，其中，事件本体(Event ontology)采用事件本体知识库中提及的事件本体填充，为了简化，<Event ontology>用s ₁表示，<input sentence>用s ₂表示。

步骤3，设计类标映射函数，该映类标射函数处理多单词标签到事件类型和/或角色类型的映射。

有些时候多个单词标签会形成一个事件类型或者角色类型，为了实现事件类型和角色类型的准确预测，实施例设计了类标映射函数，以处理多单词标签到事件类型和/或角色类型的映射。

实施例中，设计的类标映射函数为：

Y(r _i)＝{w ₁,w ₂,...,w _n}

在进行事件类型预测时，Y(r _i)表示第i个事件类型与多单词标签的映射函数，w _n表示事件类型的第n个词汇标签的词嵌入向量；

在进行角色类型预测时，Y(r _i)表示第i个角色类型与多单词标签的映射函数，w _n表示角色类型的第n个词汇标签的词嵌入向量。

基于以上类标映射函数可以预测事件类型或者角色类型。

步骤4，对输入事件文本构建输入事件提取模型的输入序列。

实施例中，首先对输入事件文本进行预处理，具体包括删除html格式的无效字符，例如<div>、<style>等，删除未出现在预定义词表中的词汇。然后，从事件本体知识库中通过规则匹配的方式提取与输入事件对应的事件本体，接下来，根据输入事件文本和事件本体，按照事件触发词提取模板和事件论元提取模板构建第一输入序列和第二输入序列。

步骤5，利用事件提取模型基于输入第一输入序列和第二输入序列进行文本预测。

实施例中，第一输入序列和第二输入序列输入事件提取模型，事件提取模型根据类标映射函数和自身处理机制预测事件类型和角色类型，同时输出事件触发词跨度和事件论元跨度。实施例中，事件提取模型采用编码-解码器Transformer框架。

利用事件提取模型在进行事件类型和/或角色类型预测时，采用以下公式获得事件类型和/或角色类型的预测概率：

其中，p(r _i)表示第r _i个事件类型或角色标签r _i的预测概率，h _[MASK]表示事件提取模型在[MASK]位置对应的输出向量，w表示目标事件类型/角色类型的词汇标签的词嵌入向量，w'表示所有事件类型/角色类型的词汇标签的词嵌入向量，R表示所有事件类型/角色标签集合；

利用事件提取模型进行事件触发词跨度和/或事件论元跨度预测时，将事件触发词跨度和/或事件论元跨度预测建模为一个序列生成任务，对于事件文本集S，输入事件文本A，关联的事件本体O，通过训练Z＝E _s(A,O)与H＝G _s(z)学习融合事件本体的条件分布

其中Z是在编码器E中通过学习得到的潜在源域表示，H表示在解码器G中通过学习得到的潜在源域表示，

和

表示源域中编码器和解码器的模型参数集，

表示给定输入事件文本A和关联的事件本体O生成输出序列H的总体概率，其中，

实施例中，利用基于事件触发词提取模板和事件论元提取模板构建的第一输入序列和第二输入序列对事件提取模型进行参数微调，利用微调后的事件提取模型进行预测任务。在训练时，采用的损失函数为：

将针对事件触发词抽取的提取模板以文本序列的形式输入到标准的预先训练的编码-解码器Transformer框架，对事件类型及事件触发词跨度进行预测。以图3所示的事件触发词抽取和事件类型分类的模型结构图为例进行说明，模型编码器输入序列为“[unused1][unused2]…[unused9]The divorce settlement called for Giuliani to pay Hanover more than$6.8million.”，模型解码器输出监督序列为“The trigger type is[MASK],trigger token is”。

事件触发词类型预测“[MASK]”位置每个事件类型的概率输出，并根据概率值倒序排列：

p(Divorce|s ₁,s ₂,[MASK])＞p(Sue|s ₁,s ₂,[MASK])＞...＞p(Attack|s ₁,s ₂,[MASK])

根据事件类型的概率值大小确定了事件类型为“Life:Divorce”事件类型，事件触发词跨度由模型自然生成“divorce”。

最终输出序列文本为“The trigger type is Life:Divorce,trigger token is divorce.”。

将针对事件论元抽取的提取模板以文本序列的形式输入到标准的预先训练的编码-解码器Transformer框架，对事件论元角色类型及事件论元跨度进行预测。以图4所示的事件论元抽取和事件角色分类的模型结构图为例进行说明，模型编码器输入序列为“divorce time place person fine partners injure victim agent place bodypart transfer money giver recipient money beneficiary.The divorce settlement called for Giuliani to pay Hanover more than$6.8million.”模型解码器输出监督序列为“The argument type is[MASK],argument token is”。

事件论元的角色类型预测“[MASK]”位置每个角色类型的概率输出，并根据概率值倒序排列：

p(Person|s ₁,s ₂,[MASK])＞p(Time|s ₁,s ₂,[MASK])

根据角色类型的概率值大小确定了角色类型为“Person”，对应的事件论元跨度由模型自然生成“Giuliani Hanover”。

最终输出序列文本为“The argument type is Person,argument token is Giuliani Hanover.”。

步骤6，对预测得到的事件类型、角色类型进行规范化处理。

实施例中，滤除低于概率阈值的类型后，进行事件类型与事件类型序号的映射，进行角色类型与角色类型序号的映射。

步骤7，对预测得到的事件触发词的跨度、事件论元跨度进行规范化处理。

实施例中，滤除低于概率阈值的跨度后，进行事件触发词跨度与事件触发词跨度标签的映射，进行事件论元跨度与事件论元跨度标签的映射。

步骤8，整合事件触发词与事件论元的类型序号、跨度标签，传入结构化数据库存储。

例如实施例中抽取出了两个事件，一个事件是“Life:Divorce”事件类型，类型序号为14，事件触发词是“divorce”，跨度标签为(2，3)，由一个事件参数组成：论元跨度为“Giuliani”，跨度标签为(6，7)，角色类型序号为“Person”，角色标签为35。另一个事件是“Transaction:Transfer-Money”事件类型，类型序号为20，触发词是“pay”，跨度标签为(8，9)，由三个事件参数组成：论元跨度为“Giuliani”，跨度标签为(6，7)，角色类型为“Giver”，角色类型序号为45；论元跨度为“$6.8million”，跨度标签为(12，14)，角色类型为“Money”，角色类型序号为46；论元跨度为“Hanover”，跨度标签为(9，10)，角色类型为“Recipient”，角色类型序号为47；最终将结构性事件抽取结果传入结构化数据库存储。

上述实施例提供的基于本体指导的生成式事件抽取方法，可以用于互联网新闻资讯的结构化整理，自动抽取出新闻事件名及其关联的新闻事件论元，可用于新闻定向推荐、关联文档整理、基于热点的搜索查询等下游场景，以提升新闻事件提取的速度和准确性。

上述实施例提供的基于本体指导的生成式事件抽取方法，对于将复杂的输入事件文本进行结构化知识抽取，利用自然语言处理相关技术，使用端到端语言生成模型作为事件提取模型，结合事件本体知识指导事件抽取，提高在全监督和少样本场景下的模型性能，为高效抽取公开的语料信息提供了更好的解决方法。

上述实施例提供的基于本体指导的生成式事件抽取方法，针对新事件类型的复杂模型架构和新事件类型的泛化能力，本发明引入了一个事件本体库，该库可以通过及时构建注入事件知识，有着更快的模型收敛速度，以及在少样本情况下性能提高显著。通过针对事件本体知识构建合适的模板和高效融入事件本体知识，本发明能够在全监督和少样本场景下高效地抽取事件结构化知识，具有一定的工业实用价值。该方法在预先训练的语言模型中已有的参数之外，不需要任何额外的参数，因此实现方式简单灵活。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

一种基于本体指导的生成式事件抽取方法，其特征在于，包括以下步骤：

步骤1，根据领域知识库和事件标注框架构建事件本体知识库；

步骤2，设计生成式事件抽取的事件触发词提取模板和事件论元提取模板；事件触发词提取模板将输入事件文本映射为事件提取模型的第一输入序列；事件论元提取模板将融入事件本体的输入事件文本映射为事件提取模型的第二输入序列；

步骤3，设计类标映射函数，该映类标射函数处理多单词标签到事件类型和/或角色类型的映射；

步骤4，对于输入事件文本，从事件本体知识库中提取与输入事件对应的事件本体，并根据输入事件文本和事件本体，按照事件触发词提取模板和事件论元提取模板构建第一输入序列和第二输入序列；

步骤5，第一输入序列和第二输入序列输入事件提取模型，事件提取模型根据类标映射函数和自身处理机制预测事件类型和角色类型，同时输出事件触发词跨度和事件论元跨度。
根据权利要求1所述的基于本体指导的生成式事件抽取方法，其特征在于，步骤1中，构建事件本体知识库的过程为：

步骤1.1，利用ACE预定义的事件框架作为目标事件本体；

步骤1.2，抽取FrameNet中与目标事件本体相关的事件框架作为扩充的事件本体；

步骤1.3，整合目标事件本体和扩充的事件本体，进行去重和人工检查，得到事件本体知识库。
根据权利要求1所述的基于本体指导的生成式事件抽取方法，其特征在于，步骤2中，设计的事件触发词提取模板为：

[第一标记符]<伪模板><输入事件文本>[第二标记符]事件触发词为[MASK],触发词令牌为，对应英文为[CLS]<pseudo template><input sentence>[SOS]The trigger word is[MASK],trigger token is；

其中，伪模板采用预训练词嵌入中未使用的虚拟伪标签。
根据权利要求1所述的基于本体指导的生成式事件抽取方法，其特征在于，步骤2中，设计的事件论元提取模板为：

[第一标记符]<事件本体><输入事件文本>[第二标记符]论元类型为[MASK],论元令牌为，对应英文为[CLS]<Event ontology><input sentence>[SOS]The argument type is[MASK],argument token is。
根据权利要求1所述的基于本体指导的生成式事件抽取方法，其特征在于，步骤3中，设计的类标映射函数为：

Y(r _i)＝{w ₁,w ₂,...,w _n}

在进行事件类型预测时，Y(r _i)表示第i个事件类型与多单词标签的映射函数，w _n表示事件类型的第n个词汇标签的词嵌入向量；

在进行角色类型预测时，Y(r _i)表示第i个角色类型与多单词标签的映射函数，w _n表示角色类型的第n个词汇标签的词嵌入向量。
根据权利要求1所述的基于本体指导的生成式事件抽取方法，其特征在于，步骤5中，事件提取模型采用编码-解码器Transformer框架；

利用事件提取模型在进行事件类型和/或角色类型预测时，采用以下公式获得事件类型和/或角色类型的预测概率：

其中，p(r _i)表示第r _i个事件类型/角色标签r _i的预测概率，h _[MASK]表示事件提取模型在[MASK]位置对应的输出向量，w表示目标事件类型/角色类型的词汇标签的词嵌入向量，w'表示所有事件类型/角色类型的词汇标签的词嵌入向量，R表示所有事件类型/角色标签集合；

利用事件提取模型进行事件触发词跨度和/或事件论元跨度预测时，将事件触发词跨度和/或事件论元跨度预测建模为一个序列生成任务，对于事件文本集S，输入事件文本A，关联的事件本体O，通过训练Z＝E _s(A,O)与H＝G _s(z)学习融合事件本体的条件分布
其中Z是在编码器E中通过学习得到的潜在源域表示，H表示在解码器G中通过学习得到的潜在源域表示，
和
表示源域中编码器和解码器的模型参数集，
表示给定输入事件文本A和关联的事件本体O生成输出序列H的总体概率，其中，
根据权利要求1所述的基于本体指导的生成式事件抽取方法，其特征在于，利用基于事件触发词提取模板和事件论元提取模板构建的第一输入序列和第二输入序列对事件提取模型进行参数微调，利用微调后的事件提取模型进行预测任务。
根据权利要求1所述的基于本体指导的生成式事件抽取方法，其特征在于，所述生成式事件抽取方法还包括：

步骤6，对步骤5预测得到的事件类型、角色类型进行规范化处理，滤除低于概率阈值的类型后，进行事件类型与事件类型序号的映射，进行角色类型与角色类型序号的映射。
根据权利要求1或8所述的基于本体指导的生成式事件抽取方法，其特征在于，所述生成式事件抽取方法还包括：

步骤7，对步骤5预测得到的事件触发词跨度、事件论元跨度进行规范化处理，滤除低于概率阈值的跨度后，进行事件触发词跨度与事件触发词跨度标签的映射，进行事件论元跨度与事件论元跨度标签的映射；

步骤8，整合事件触发词与事件论元的类型序号、跨度标签，传入结构化数据库存储。