WO2018113532A1

WO2018113532A1 - 信息抽取方法和系统

Info

Publication number: WO2018113532A1
Application number: PCT/CN2017/115185
Authority: WO
Inventors: 李阳; 张锋
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2016-12-22
Filing date: 2017-12-08
Publication date: 2018-06-28
Also published as: CN108228676A; US11093520B2; CN108228676B; US20190243842A1

Abstract

一种信息抽取方法包括：获取非结构化文本（S11）；根据预设的节点格式对所述待抽取文本进行解析，生成描述所述非结构化文本的节点组成的第一节点集合（S12）；获取预设的规则库，所述规则库包括多个用于生成节点的规则，各规则指明该规则生成的节点的角色，所述节点的角色为根节点或非根节点（S13）；根据所述规则库对所述第一节点集合中的所述节点进行合成以生成根节点，根据所述根节点生成结构化信息（S14）。

Description

信息抽取方法和系统

相关文件

本申请要求于2016年12月22日提交中国专利局、申请号为201611200449.8、发明名称为“信息抽取方法和系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及信息抽取领域，特别是涉及一种可适用于不同文本的信息抽取方法和系统。

背景

随着互联网技术的快速发展，Web已经发展成为一个巨大的、分布和共享的信息资源。Web上的海量信息大概可以分为结构化信息、半结构化信息和非结构化信息三种。结构化数据(Structured data)可以组织成行列结构，其中数据的性质和量值的出现位置是固定的，因此可以被精确地定位到，通常为数据库所管理的数据。半结构化数据具有规范的标题和正文的语法，例如专业网站上的细分频道。非结构化数据是指数据结构不规则或不完整、没有预定义的数据模型、不方便用数据库二维逻辑表来表现的数据，包括所有格式的办公文档、文本、图片、XML数据、HTML数据、各类报表、图像和音频/视频数据等。Web数据中大部分数据是以非结构化数据形式存在的，这些非结构化数据无法被应用程序理解并利用。

技术内容

为了使海量的非结构化的Web数据能够被利用，本申请实施例提供了一种信息抽取方法、系统和存储介质。

本申请实施例的信息抽取方法可以包括：

获取非结构化文本；

根据预设的节点格式对所述待抽取文本进行解析，生成描述所述非结构化文本的节点组成的第一节点集合；

获取预设的规则库，所述规则库包括多个用于生成节点的规则，各规则指明该规则生成的节点的角色，所述节点的角色为根节点或非根节点；

根据所述规则库对所述第一节点集合中的所述节点进行合成以生成根节点，根据所述根节点生成结构化信息。

本申请实施例的信息抽取系统可以包括：至少一个处理器和存储器，所述存储器中存储有计算机可读指令，所述指令可以使所述至少一个处理器：

获取非结构化文本；

本申请实施例的计算机可读存储介质可以包括：计算机可读指令，所述指令可以使至少一个处理器：

获取非结构化文本；

本申请实施例的技术方案，通过将非结构化文本分解为词语，采用结构化数据来描述这些词语，再利用预设的规则将这些结构化数据合并，从而得到描述该非结构化文本的根节点，将根节点中的结构化数据作为提取出的结构化数据。抽取逻辑基于预设的规则，无需大量标注语料及训练抽取模型，实现成本较低。

附图简要说明

图1a为本申请各实施例的信息抽取方法的流程图；

图1b为本申请各实施例的信息抽取方法的流程图；

图2为各实施例中服务器的内部结构示意图；

图3a为各实施例中信息抽取方法的应用场景示意图；

图3b为各实施例中信息抽取方法的流程图；

图4为各实施例中信息抽取方法的流程图；

图5为各实施例中信息抽取方法的流程图；

图6为各实施例中信息抽取方法的流程图；

图7为各实施例中信息抽取方法的流程图；

图8为各实施例中信息抽取方法的流程图；

图9为各实施例中信息抽取方法的流程图；

图10为各实施例中信息抽取方法的流程图；

图11为各实施例中信息抽取方法的流程图；

图12为各实施例中信息抽取方法的流程图；

图13为各实施例中信息抽取方法的流程图；

图14为信息抽取方法中根据节点合成规则由子节点合成父节点，根据子节点与父节点对应关系形成信息树的示意图；

图15为各实施例中信息抽取系统的结构示意图；

图16为各实施例中信息抽取系统的结构示意图；

图17为各实施例中信息抽取系统的结构示意图；

图18为各实施例中信息抽取系统的结构示意图；

图19为各实施例中信息抽取系统的结构示意图；

图20为各实施例中信息抽取系统的结构示意图；

图21为各实施例中信息抽取系统的结构示意图；

图22为各实施例中信息抽取系统的结构示意图；

图23为各实施例中信息抽取系统的结构示意图。

实施本发明的方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本申请各实施例的信息抽取方案用于从非结构化数据中抽取出结构化数据，使得海量的非结构化数据中的信息能够被计算机理解并处理。图1a为本申请实施例的一种信息抽取方法的流程图。该信息抽取方法可以由计算设备(如服务器、PC等)执行，例如可以由计算设备中的信息抽取应用执行。如图1a所示，该方法可以包括以下步骤。各实施例的信息抽取方法可以包括以下步骤。

步骤S11，获取非结构化文本；

步骤S12，根据预设的节点格式对所述待抽取文本进行解析，生成描述所述非结构化文本的节点组成的第一节点集合；

步骤S13，获取预设的规则库，所述规则库包括多个用于生成节点的规则，各规则指明该规则生成的节点的角色，所述节点的角色为根节点或非根节点；

步骤S14，根据所述规则库对所述第一节点集合中的所述节点进行合成生成根节点，根据所述根节点生成结构化信息。

图1b为本申请实施例的一种信息抽取方法的流程图。该信息抽取方法可以由计算设备(如服务器、PC等)执行，例如可以由计算设备中的信息抽取应用执行。如图1b所示，该方法可以包括以下步骤。

步骤S110，获取非结构化文本和预设的规则库。

非结构化文本可以从计算设备的存储器中或者网络上的存储设备中获取。非结构化文本可以从各种格式的文件中获得，如办公文档、XML文件、HTML文件等。

规则库包括多个用于生成节点的规则(后文也称为节点合成规则)。各规则指明该规则生成的节点的角色，所述节点的角色为根节点或非根节点。本文中，节点是指符合预设格式的结构化数据，可以用于描述一段文本，例如，字、词、短语、句子，等。规则库可以以文件的形式传递和存储。规则库可以包括一个或多个文件。规则库包括的各文件可以通过各种方式获得。例如，可以从信息抽取应用中预配置的位置(例如URL、计算设备中的存储路径，等)读取文件加入规则库。又例如，信息抽取应用可以提供文件输入接口，通过文件输入接口接收文件并加入规则库。各实施例不限制规则库中文件的来源，可以以任何可能的方式获取这些文件。

步骤S121，对所述非结构化文本进行分词得到包括多个词语的词语集合。

分词是指将一段文本分割成单个的词语。不同语言的文本可以采用不同的分词技术。

一些例子中，词语集合中的词语其排列顺序与在非结构化文本中的排列顺序一致。

步骤S122，利用所述词语集合生成第一节点集合。

其中，所述第一节点集合中的每个节点用于描述所述词语集合中的一个词语，包括一个或多个属性的属性名和属性值。

一些例子中，可以利用预设的处理方法生成词语对应的节点。节点符合预设的节点格式(即后文中的“表达文本信息的节点的节点格式”)。例如，节点可以包括节点名、一个或多个属性。预设的处理方法可以包括从词语中提取信息，作为节点的节点名或指定属性的属性值。例如，可以提取词语的词性，作为该词语对应的节点的属性“词性”的属性值；可以提取词语对应的字符串，作为该词语对应节点的节点名或者属性“文本”的属性值，等。各实施例不限定从词语中提取信息的种类和方式。预设的处理方法可以包括信息抽取应用的配置文件中预先配置的处理方法，也可以包括接收外部输入的自定义处理方法。

一些例子中，可以将词语集合中所有词语对应的节点组成第一节点集合。一些例子中，也可以将词语集合中一部分词语对应的节点组成第一节点集合。例如，可以对词语集合中的词语进行筛选，去除一些无意义的词语，将剩下的词语对应的节点组成第一节点集合。

步骤S141，利用所述规则库中的规则处理所述第一节点集合中的节点以生成第二节点集合。

其中，所述第二节点集合中的每个节点描述所述第一节点集合中的至少一个节点。

通过步骤S12、S13，非结构化文本已经被转化为一个描述该非结构化文本中词语的第一节点集合，其中每个节点包括从一个词语中提取出的一项或多项信息(即属性值)，每个节点仅描述简单的语料(即单个词语)。也即，步骤S12、S13的任务是拆解文本(即后文所说的“解析”)，并对单个词语进行分析和信息提取。步骤S14的任务则是根据各个节点中的信息对这些节点进行合并，合并得到的节点以结构化的数据描述具有语法结构的较复杂的语料(短语或句子)。经过一次或多次合并可以得到一个或多个合并后的节点，这些合并后的节点组成第二节点集合。节点的合并依据的是规则库中的规则。各规则可以根据非结构化文本的语言的语法规则设置节点的生成规则。语法规则包括词语的组合方式、类型及如何表达语义的规则。

一些例子中，可以将非结构化文本分割成多个子文本，然后逐个对各个子文本进行上述步骤S12至S14的处理。例如，子文本可以是分句、句子、段落，等。例如，为每个子文本生成一个词语集合。另一些例子中，可以为整个非结构化文本生成一个词语集合。一些例子中，可以在整个非结构化文本对应的词语集合中加入分隔标记，标记各子文本的起始位置。生成该词语集合对应的第一节点集合时，可以在第一节点集合中同样加入分隔节点，两个相邻的分隔节点之间的节点对应一个子文本。

步骤S142，将所述第二节点集合中具有根节点角色的节点的各属性的属性名和属性值输出为结构化信息。

每个规则指明了该规则生成的节点的角色，例如，根节点或非根节点。非根节点描述的是语义不完整的一段文本，根节点则描述具有完整语义的一段文本，例如分句、单句、复句、段落，等。各规则生成的节点是否为根节点由该规则基于的语法规则确定。例如，当一个节点的属性包括对人物、时间、地点、行为的描述，则可以作为根节点。节点的角色可以用节点的一个属性的属性值来表示。例如，节点的属性“角色”的属性值为“root”时，表示该节点为根节点。

第二节点集合中可以包括一个或多个根节点。例如，当第二节点集合对应非结构化文本中的一个子文本，例如句子，时，第二节点集合中可能包括一个根节点。又例如，当第二节点集合对应整个非结构化文本时，第二节点集合中可能包括多个根节点，每个根节点对应非结构化文本中的一个子文本。根节点包括多个属性，可以根据预设的提取规则提取出指定属性的属性值，以结构化数据的形式输出。输出的结构化数据可以存储为预设格式的数据，例如JS对象标记(JavaScript Object Notation)数据，等。输出的结构化数据可以存储到预设的存储设备中，供后续查询使用。提取出的结构化数据可以应用在各种场景中，例如数据挖掘、知识图谱构建，等。

本申请实施例的技术方案，通过将非结构化文本分解为词语，采用结构化数据来描述这些词语，再利用预设的规则将这些结构化数据合并，从而得到描述该非结构化文本的根节点，将根节点中的结构化数据作为提取出的结构化数据。抽取逻辑基于预设的规则，无需通过大量标注语料及训练抽取模型，实现成本较低。

一些实施例中，在步骤S122，可以生成词语集合中的每个词语对应的节点，所述节点包括第一属性，所述第一属性的属性值为所述词语对应的字符串；生成第一节点集合，所述第一节点集合包括所述词语集合中各词语对应的节点。

一些实施例中，在步骤S122，还可以在每个词语对应的节点中设置第二属性，所述第二属性的属性值表示所述词语的词性。词性可以包括名词、动词、介词、副词、形容词等。

一些实施例中，在步骤S122，还可以在所述词语集合中识别具有预设内容类型的第一词语。其中，所述预设的内容类型选自：人名、地名、日期、时间、专有名词。然后，利用所述第一词语对应节点的节点名或第三属性的属性值表示所述预设内容类型。

一些实施例中，在步骤S122，还可以将所述第一词语的文本转换为所述预设内容类型对应的指定格式的目标文本；在所述第一词语对应的预处理节点中增加第四属性，所述第四属性的属性值为所述目标文本。例如，可以将识别出的日期类型的词语的文本转换为预设的日期格式的文本，例如，将“2008年6月23日”转换为“2008-6-23”。

一些实施例中，规则库中各规则包括一个或多个输入节点的描述以及利用所述一个或多个输入节点生成输出节点的方式。在步骤S141中，可以从所述第一节点集合中选取至少一个节点，在所述规则库中查找规则：该规则的输入节点与所述至少一个节点匹配。将所述至少一个节点作为所述规则的输入节点、按照所述规则中的方式生成第二节点，在所述第一节点集合中使用所述第二节点替换所述至少一个节点。这里的处理步骤可以重复执行一次或多次。将经过上述处理的第一节点集合作为所述第二节点集合。从第一节点集合中选取节点时，一些例子中，可以遍历各种包括一个或一个以上节点的节点组合；一些例子中，可以仅选取包括相邻节点的节点组合；选取节点的方式这里不做限制，可以根据需要设计选取方式。

一些实施例中，一个规则中一个或多个输入节点的描述可以包括以下中的至少一个：

所述一个或多个输入节点中一个输入节点的指定属性的属性值需要满足的条件；

所述一个或多个输入节点的排列顺序。

一些实施例中，一个规则中利用所述一个或多个输入节点生成输出节点的方式可以包括以下中的至少一个：

将所述一个或多个输入节点中一个节点的指定属性的属性值作为所述输出节点的指定属性的属性值；

将所述一个或多个输入节点中至少两个节点的指定属性的属性值合并得到合并值，将所述合并值作为所述输出节点的指定属性的属性值。

一些实施例中，所述规则中所述至少两个节点的指定属性的属性值为字符串时，将至少两个节点的指定属性的属性值合并得到合并值的方式可以包括：按照所述规则指定的合并方式将所述至少两个节点对应的指定属性的属性值合并为字符串或字符串数组。所述合并方式可以包括以下中的一个：

将第一字符串拼接为第二字符串；或

将第一字符串合并为字符串数组，各第一字符串作为所述字符串数组中的元素。

一些实施例中，规则库可以包括各规则的优先级的信息，在规则库中查找规则时，可以按照规则的优先级从高到低的顺序查找规则。

图2为本申请各实施例的计算设备200的示意图。如图2所示，计算设备200包括通过处理器和存储介质。其中，存储介质存储有信息抽取系统。信息抽取系统可以由计算机可读指令实现。信息抽取系统可以执行本申请各实施例的信息提取方法，从非结构化文本中提取出结构化数据。一些例子中，计算设备200可以包括一个或多个物理设备，例如分布式计算系统、服务器集群，等。

图3a为本申请实施例的信息提取方法的应用场景的一个例子的示意图。如图3a所示，终端100通过网络与服务器200进行通信。终端100可以接收用户输入的文本(即非结构化文本)，并通过网络发送给服务器200。服务器200对文本进行信息抽取，形成结构化的抽取信息(即结构化数据)，从而实现文档的规范化自动化管理。服务器200还可以将抽取结果发送到终端100进行显示。终端100可以为智能手机、平板电脑、个人数字助理(PDA)及个人计算机。服务器200可以为独立的物理服务器或者物理服务器集群。

服务器200的结构可以如图2所示。例如，服务器200可以包括通过系统总线链接的处理器、存储介质、内存和网络接口。其中，该服务器200的存储介质存储有操作系统、数据库和一种信息抽取系统。数据库用于存储数据如用于信息抽取的节点格式、节点合成规则(即规则库中的规则)等。该服务器200的处理器用于提供计算和控制能力，支撑整个接入服务器200的运行。该服务器200的内存为存储介质中的信息抽取系统的运行提供环境。该服务器200的网络接口用于与外部的终端100通过网络连接通信，比如接收终端100发送的待抽取文本等。

图3b为本申请实施例的一种信息抽取方法的流程图。该方法可应用于图2所示的服务器中。该方法可以包括如下步骤。

步骤101，获取待抽取文本。

其中待抽取文本可以为由文字组成的任意文本数据，可以为半结构化web数据或者无结构的文本数据(即非结构化文本)。其中，获取待抽取文本包括获取指定应用程序中显示的文本数据，如指定网站发布的文本数据、指定信息发布平台发布的文本数据等。

步骤103，定义表达文本信息的节点的节点格式。

这里，“定义表达文本信息的节点的节点格式”是指，获取预定义的节点格式或者规则库中各规则定义的输出节点的格式作为后续生成的节点的节点格式。节点为表达文本信息的基本单元。每一节点具有统一的节点格式，通过以相同的节点格式将文本信息进行分组，每一相同节点格式的节点内附带有文本信息，并对节点内所包含的文本信息进行统一规则的标识，可便于对文本信息设置运算规则进行处理，以实现对文本信息的抽取。

步骤105，根据节点格式对待抽取文本进行解析生成表达待抽取文本的文本信息的节点，通过节点组成队列。

将待抽取文本解析成附带有文本信息的预设格式的节点进行表达。通常将待抽取文本以句子为单位进行解析，将每个句子解析成通过多个表达文本信息的节点，并对应组成一个队列。本实施例中，第一节点集合利用队列来实现。一个例子中，这里的解析步骤可以包括上述步骤S12、S13。

步骤107，获取通过子节点生成父节点的节点合成规则。

节点合成规则是指通过运算规则对节点进行处理，根据运算规则将多个节点(即输入节点)所表达的文本信息进行合成形成新节点(即输出节点)，即上述一个或多个输入节点的描述以及利用所述一个或多个输入节点生成输出节点的方式。该多个节点分别为子节点，所形成的新节点对应为父节点，父节点包含该多个节点所包含文本信息的总结性文本信息。每一节点合成规则包含一组父节点与子节点之间的对应关系。获取节点合成规则具体可通过提供抽取器接口实现。通过抽取器接口接收用户自定义的节点合成规则。当需要针对不同的待抽取文本增加节点合成规则时，可以定义一个类实现该抽取器接口。一些实施例中，通过该抽取器接口还可以获取待抽取文本作为参数，根据节点合成规则生成所需抽取结果。

步骤109，根据节点合成规则对队列中的节点进行合成生成父节点，根据父节点形成抽取信息。

将队列中的节点与节点合成规则依次进行匹配，根据匹配的结果将对应的节点按照节点合成规则进行合成生成父节点。每一父节点包含根据至少一条节点合成规则将子节点所包含的文本信息进行合成得到的总结性文本信息。根据一条节点合成规则所生成的父节点可以作为另一节点合成规则中的子节点，从而可通过定义不同的节点合成规则，通过父节点与子节点之间的对应关系逐步实现信息抽取的传递，如此可实现对待抽取文本的抽取获得相应抽取信息。根据附带文本信息的节点之间的传递关系可形成包含待抽取文本的文本信息及抽取结果的信息树，其中最终的抽取信息存储在信息树顶端的父节点中，该信息树顶端的父节点为根节点。

以上实施例所提供信息抽取方法，通过获取表达文本信息的节点的节点格式与通过子节点生成父节点的节点合成规则，从而可通过将待抽取文本解析成以预定的节点格式表达文本信息的节点，节点合成规则可以根据预抽取信息结果进行自定义，通过节点合成规则表达多个子节点与父节点之间的对应关系，从而根据节点合成规则可以将子节点表达的文本信息进行合成而得到包含总结性文本信息的父节点，通过父节点与子节点之间的对应关系逐步实现信息抽取的传递而获取最终的抽取信息，通过该信息抽取方法进行信息抽取不受限于待抽取文本中数据的结构，且节点合成规则可支持自定义及根据个别特殊复杂文本的需求进行补充，整个抽取实现逻辑易于理解，便于实时扩展，也无需通过大量标注预料训练抽取模型，实现成本较低。

图4为本申请实施例的信息抽取方法的流程图。如图4所示，图3b 的步骤103中，定义表达文本信息的节点的节点格式可以包括：

步骤1031，设置自定义节点。

本文中，“设置**节点”是指将节点的节点名或属性设置为指定的值，使该节点具有**节点的形式，下同。

自定义节点的节点格式为每一自定义节点以第一标识符号进行标识。每一自定义节点的节点内容包括节点名和通过文本信息属性(即节点的属性)与文本信息属性值(即节点属性的属性值)的对应关系表达的文本信息。文本信息属性与对应的文本信息属性值之间的对应关系通过第二标识符号进行标识。每一文本信息属性值通过第三标识符号进行标识。

每一自定义节点以第一标识符号进行标识，从而通过该第一标识符号可以区分分隔不同自定义节点。每一自定义节点所附带文本信息通过文本信息属性与文本信息属性值的对应关系进行表达。其中，文本信息属性与对应的文本信息属性值之间的对应关系通过第二标识符号进行标识，从而通过该第二标识符号可以分隔节点内容内所包含的不同文本信息。每一文本信息属性值通过第三标识符号进行标识，从而通过第三标识符号可以区分文本信息属性与文本信息属性值。其中，每一自定义节点的节点内容可包含由多个文本信息属性与文本信息属性值的对应关系表达的文本信息，不同文本信息属性与文本信息属性值的对应关系之间通常以预设符号分隔，一些实施例中，该预设符号为空格，同时节点名为不包含空格的任意字符串。

在一具体实施例中，第一标识符号为尖括号(<>)，即每个自定义节点用尖括号括起，第二标识符号为等号(＝)，即每一文本信息属性与对应的文本信息属性值之间通过等号连接，第三标识符号为双引号(“”)，即每一文本信息属性值通过双引号括起，则节点名为A的节点表达形式为：<A attr1＝”value1”>,A为节点名，attr1为文本信息属性，value1为文本信息属性值。一些实施例中，每一文本信息属性与文本信息属性值的对应关系中，当只包含属性名而未写文本信息属性值的，则文本信息属性值默认为真“true”。如，节点名为event的节点表达形式为：<event root>，event为节点名，root为文本信息属性，文本信息属性值为“true”。

通过设置节点的节点格式，其中节点格式中节点内容包括节点名和通过文本信息属性与文本信息属性值的对应关系表达的文本信息，该文本信息的表达格式接近一般思维理解方式，易于理解，方便通过设置的节点格式将文本信息解析成节点进行表达，文本信息属性与文本信息属性值表达文本信息方式引入词性信息，可便于后续借助词性信息对文本信息设置抽取的规则。

图5为本申请实施例的信息抽取方法的流程图。如图5所示，图4的步骤1031中，设置自定义节点的步骤可以包括以下步骤。

步骤1032，设置表达时间、地址、人物相关的文本信息的节点为内置节点。

步骤1033，设置表达事件类型相关的文本信息的节点为消息节点。

自定义节点包括内置节点与消息节点。内置节点为包括常用文本信息，例如时间、地址、人物、专有名词等，的节点。例如，可以分别设置表达时间、地址、人物相关的文本信息的节点为内置节点。设置附带时间相关文本信息的节点为时间内置节点，如<time>，其中time为时间内置节点的节点名。设置附带地址文本信息的节点为地址内置节点，如<location>，其中location为该地址内置节点的节点名。设置附带人物文本信息的节点为人物内置节点，如<people>，其中people为人物内置节点的节点名。由于时间、地址、人物通常是信息抽取的结果中必要显示的信息，通过设置表达时间、地址、人物相关的文本信息的节点为内置节点，可以自动识别待抽取文本中包含时间、地址、人物相关的文本信息并对应解析生成时间内置节点、地址内置节点及人物内置节点。

消息节点为包括事件类型的文本信息的节点。通过设置消息节点，可以自动识别待抽取文本中包含的事件类型相关的文本信息并对应解析生成消息节点。消息节点的节点名为消息，如<word>，其中word为消息节点的节点名，消息节点为待抽取文本的初始解析节点，表达解析事件类型的描述相关的文本信息生成的节点。通过节点形成消息树表达待抽取文本的信息抽取过程，消息树由子节点与父节点之间的映射关系组成。其中一部分节点同时为树中不同层级中的子节点和父节点，位于消息树顶端的父节点不作为任意节点的子节点，为根节点。位于消息树底端的子节点不作为任意节点的父节点，为叶子节点。消息节点即为叶子节点。

通过设置自定义节点的类型包括内置节点与消息节点，可实现将待抽取文本所包含文本信息解析生成通过由节点表达文本信息的节点队列，从而可通过对节点进行预设语法规则的运算对其所附带文本信息进行抽取。

图6为本申请实施例的信息抽取方法的流程图。如图6所示，图3b的步骤103中，定义表达文本信息的节点的节点格式的步骤可以包括：

步骤1034，设置文本信息属性与文本信息属性值的类型，文本信息属性包括原始字符串、规整后字符串及词性标记，原始字符串对应的文本信息属性值为原始文本。规整后字符串对应的文本信息属性值为将原始文本以预设格式转换后的文本，词性标记对应的文本信息属性值为用于分别标识不同原始文本词性的预设字符。

将附带不同文本信息的节点的文本信息属性进行预定义，设置文本信息属性与文本信息属性值的类型。文本信息属性主要包括原始字符串、规整后字符串及词性标记。其中原始字符串表示对应的文本信息属性值为待抽取文本中的原始文本，如<people original＝“刘德华”>，其中用original表示文本信息属性为原始字符串，其对应的文本信息属性值为待抽取文本中的原始文本“刘德华”。规整后字符串表示对应的文本信息属性值为待抽取文本中的原始文本以预设格式转换后的文本，如<time text＝“2008-06-23”>，其中用text表示文本信息属性为规整后字符串，其对应的文本信息属性值为待抽取文本中的原始文本“2008年6月23日”转换后的文本“2008-06-23”。词性标记为待抽取文本中的不同原始文本的词性，其对应的文本信息属性值为区分不同词性的预设字符，如<word pos＝"cc">，其中用pos表示文本信息属性为词性标记，其对应的文本信息属性值为预设字符cc，用于表示该节点所附带文本信息的词性为cc。其中预设字符的设置主要是便于记忆和区别词性，其字符位数及设置规则可以任意设置。通过设置文本信息属性包括原始字符串、规整后字符串及词性标记，可以将待抽取文本解析生成节点的过程中，根据各节点所附带的文本信息的对应属性进行标识，以用于在节点合成规则中通过统一的文本信息属性定义节点合成的运算条件。

图7为本申请实施例的信息抽取方法的流程图。如图7所示，图3b的步骤103中，定义表达文本信息的节点的节点格式的步骤可以包括：

步骤1035，设置文本信息属性，文本信息属性包括可空属性。

可空属性对应的文本信息属性值通常为真“true”,且可空属性对应的文本信息属性值通常不写由默认的方式表达，通过文本信息属性为可空属性表达对应的节点可以为空，即为可空节点。在一实施例中，可空属性用orEmpty表示，如<and orEmpty>，其中节点名为and的节点为可空节点。可空属性的节点可以应用在节点合成规则中，表示输入节点。通过将一输入节点设置为可空节点，该节点合成规则表达该输入节点内所附带的文本信息可以省略，即该输入节点可以不存在。

图8为本申请实施例的信息抽取方法的流程图。如图8所示，图3b的步骤103中，定义表达文本信息的节点的节点格式的步骤可以包括：

步骤1036，设置文本信息属性与文本信息属性值的类型，文本信息属性包括过滤属性，过滤属性对应的文本信息属性值为过滤条件。节点合成规则中，输入节点的属性可以包括过滤属性。过滤属性对应的文本信息属性值为具体过滤条件包含的内容。通过过滤属性与其对应的文本信息属性值表达的过滤关系包括相等或不相等，文本信息属性为过滤属性的节点为过滤节点。在一实施例中，过滤属性的属性名用$pos表示，关系相等用(＝)表示，关系不相等用(！＝)，如<B$pos＝”nr”>、<C$pos！＝”adj”>,其中节点名为B、节点名为C的节点均为过滤节点，表示节点的词性标记的文本信息属性值必须为nr，节点<C>的词性标记的文本信息属性值不能为adj。通过，可用于在节点合成规则中设置输入节点的过滤属性，表达输入节点内所附带的文本信息需要满足的条件，例如必须与过滤条件中的指定值相同或者不相同，以实现不同条件匹配。

可以理解的，一个节点可以定义多个过滤属性，多个过滤条件之间的关系可以为“且”或者“或”的关系。

一些实施例中，步骤103中，定义表达文本信息的节点的节点格式的步骤可以包括：

设置文本信息属性，文本信息属性包括根节点属性。根节点属性对应的文本信息属性值通常为真“true”,且根节点属性对应的文本信息属性值通常不写而由默认的方式表达，通过文本信息属性为根节点属性表达对应的节点为根节点。在一实施例中，根节点属性用root表示，如<marry root>，其中节点名为marry的节点为根节点。通过根节点的设置，用于在节点合成规则中通过根节点表达对应节点内所附带的文本信息为最终的抽取信息。

设置文本信息属性，文本信息属性包括优先级属性。优先级属性对应的文本信息属性值通常为数值。通过优先级属性及其对应的文本信息属性值表达节点合成规则的优先级。在一实施例中，优先权属性用level表示，如<level＝“1”>，通常，优先级可从1到10依次降低，当通过节点合成规则将多个子节点生成父节点的过程中，如果同时命中多条节点合成规则，则优先执行优先级别更高的节点合成规则。

一些实施例中，步骤1031中，设置自定义节点的步骤可以包括：

设置表达待抽取文本开始的节点为开始节点；

设置表达待抽取文本结尾的节点为结束节点。

通常将待抽取文本以句子为单位进行解析，将每个句子解析成通过多个节点表达文本信息的形式，并对应组成一个队列。其中，开始节点对应位于一个句子所形成的节点队列的头部，结束节点则对应位于一个句子所形成的节点队列的尾部。当待抽取文本包含多个句子或段落时，可将待抽取文本按照句子或者段落为单元进行解析生成节点队列，可通过开始节点和结束节点划分段落。

一些实施例中，图9为本申请实施例的信息抽取方法的流程图。如图9所示，图3b的步骤103中，定义表达文本信息的节点的节点格式的步骤包括：

步骤1039，设置文本节点，文本节点的节点格式为直接显示原始文本表达文本信息。

其中文本节点是指将原始文本直接显示在待抽取文本解析生成的节点列表中。文本节点与自定义节点不同，不需要设置标识符号进行区分。如待抽取文本中包含“的”，以直接通过文本节点“的”显示在该待抽取文本解析生成的节点队列中。其中，根据前述消息节点及文本信息属性中原始字符串的定义，文本节点也可等价于文本信息属性值为原始文本的消息节点。在一实施例中，文本节点“的”等价于消息节点<word text＝“的”>。文本节点的含义为文本自身，不附带其它文本信息属性。文本节点的设置，可简化待抽取文本解析形成节点队列时部分节点的表达形成，使得解析后通过节点表达文本信息时更加易于理解。

一些实施例中，图10为本申请实施例的信息抽取方法，节点的节点格式包括通过文本信息属性与文本信息属性值的对应关系表达文本信息。步骤107中，获取通过子节点生成父节点的节点合成规则的步骤可以包括：

步骤1071，获取复制指定子节点的文本信息属性值作为父节点的文本信息属性值的复制合成规则。

其中，每一节点合成规则中包含的父节点与子节点之间通过预设的第四标识符号进行标识。每一节点合成规则中，父节点位于第四标识符号的左边，子节点位于第四标识符号的右边，通过第四标识符号将节点合成规则分割成左右两个部分。在一实施例中，第四标识符号为(:＝),如<A>:＝<C><D>，表示三个子节点<C><D>合成父节点<A>的节点合成规则。

复制合成规则是指复制指定子节点的文本信息属性值作为父节点的文本信息属性值，以完成对子节点所附带文本信息的抽取形成父节点。其中，复制合成规则中的父节点的文本信息属性值以预设的第五标识符号进行表示。在一实施例中，第五标识符号为$+数字，其中数字则表示复制与该数字对应的子节点的文本信息属性值，如<A attr1＝”$1”>:＝<C><D>，表示通过复制合成规则通过子节点<C><D>合成父节点<A>，第五标识符号$1表示把右边的节点中的第一个子节点，即节点的文本信息属性值作为节点<A>的文本信息属性为attr1的文本信息属性值。

一些实施例中，图11为本申请实施例的信息抽取方法的流程图。节点的节点格式包括通过文本信息属性与文本信息属性值的对应关系表达文本信息。步骤107中，获取通过子节点生成父节点的节点合成规则的步骤可以包括：

步骤1072，获取选取多个子节点的文本信息属性值合并生成父节点的文本信息属性值的合并合成规则。

合并合成规则是指合并指定多个子节点的文本信息属性值作为父节点的文本信息属性值，以完成对子节点所附带文本信息的抽取形成父节点。其中，合并合成规则中的父节点的文本信息属性值以预设的第六标识符号进行表示。在一实施例中，第六标识符号为$join+索引列表，其中索引列表中包含通过预设标识符号进行分隔多个数字，数字表示合并与该多个数字对应的子节点的文本信息属性值。如<A attr1＝”$join 1,3”>:＝<and><C>，表示通过合并合成规则通过子节点<and><C>合成父节点<A>，第六标识符号$join 1,3表示把第一个子节点与第三个子节点，即子节点、<C>的文本信息属性值合并作为节点<A>的文本信息属性为attr1的文本信息属性值。当索引列表中未包含数字，即未指明待合并的子节点时，则默认为所有子节点；其中也可用指定的标识符号表示待合并的子节点为所有子节点，在一实施例中该指定的标识符号为下划线(_)。其中，该索引列表中用于分隔多个数字的预设标识符号同时也表示对应合并的子节点的文本信息属性值合成父节点的文本信息属性值时的分隔符号。其中，该索引列表页可用指定的标识符号表示待合并子节点的文本信息属性值合成父节点的文本信息属性值时不包含分隔符，在一实施例中，该指定的标识符号为\empty。

一些实施例中，图12为本申请实施例的信息抽取方法的流程图。节点的节点格式包括通过文本信息属性与文本信息属性值的对应关系表达文本信息。步骤107中，获取通过子节点生成父节点的节点合成规则的步骤可以包括：

步骤1073，获取选取所有子节点的指定文本信息属性的文本信息属性值生成父节点的文本信息属性值的收集合成规则。

其中，所有子节点包括该节点合成规则中所生成父节点的子节点以及子节点的子节点。收集合成规则是指收集所有子节点的指定文本信息属性的文本信息属性值作为父节点的文本信息属性值，以完成对子节点所附带文本信息的抽取形成父节点。收集合成规则中的父节点的文本信息属性以预设的第七标识符号进行表示，该文本信息属性的文本信息属性值为子节点的文本信息属性。通过收集合成原则完成对子节点所附带文本信息的抽取形成的父节点的收集结果为一个映射表，其中映射表包含所有子节点的收集的文本信息属性及对应的文本信息属性值的映射关系。在一实施例中，第七标识符号为collect。如

:＝<C role＝”participator”text＝”jack”><and><D role＝”participator”text＝”lucy”>

其中父节点为由子节点<C>和子节点<D>生成，节点<A>表示通过收集合成原则通过所有子节点的文本信息属性为role对应的文本信息属性值生成父节点<A>。父节点<A>的收集结果为：

role.participator＝[jack,lucy]

role.time＝[1984-11-25]

上述实施例中节点合成规则所包含的复制合成规则、合并合成规则以及收集合成规则，分别通过父节点的属性值的定义实现节点合成规则的定义。定义通过子节点生成父节点的节点合成规则，父节点会根据子节点的信息生成自己新的信息，其中父节点可作为其它节点合成规则中的子节点，从而可实现由子节点所附带文本信息的向上传递，最终把结果汇总到最顶端的父节点中。如此可将待抽取文本的句子分别解析成附带信息的信息树，位于最顶端的父节点为根节点，最终的抽取信息则形成在根节点中。

一些实施例中，图13为本申请实施例的信息抽取方法的流程图。步骤109中，根据节点合成规则对队列中的节点进行合成生成父节点，根据父节点形成抽取信息的步骤可以包括以下步骤。

步骤1091，判断队列是否为空；

步骤1093，当队列不为空时，将队列头部的节点存储至数据库中形成待抽取节点；

步骤1095，将数据库中的待抽取节点与节点合成规则进行匹配，当待抽取节点与节点合成规则匹配时，将待抽取节点按照节点合成规则进行合成生成父节点，并返回判断队列是否为空的步骤；

步骤1097，当队列为空时，根据数据库中的父节点形成抽取信息。

通过将待抽取文本解析生成的节点队列中的节点依序加入数据库中，以数据库中包含的节点作为节点合成规则匹配的对象，可实现信息抽取的逐步向上传递原则。

一些实施例中，该数据库为栈，步骤1091，判断队列是否为空之前，还包括：

步骤1090，初始化栈。

以数据库为栈为例，对信息抽取的逐步向上传递原则的具体实施例描述如下，初始化后栈为stack＝[]，节点队列为queue＝[word1,word2,...]；检查节点队列queue是否为空，当不为空时，弹出节点队列queue的头部元素，压入栈stack中，按照节点合成规则的优先级，依次判断栈中的元素是否符合对应的节点合成规则。具体判断方法为，将栈头项与节点合成规则的最后一项进行匹配，判断节点名与过滤条件是否同时匹配，若匹配，或者当前节点为可空节点，则继续对栈的前一项进行匹配，如节点合成规则的右边节点全部匹配，则匹配成功，根据该节点合成规则把栈中的对应项合成新节点，从栈中删除对应项，并把新节点压入栈中，新节点名由节点合成规则的左边节点定义，同时根据该节点合成规则定义的信息传递规则生成新节点的文本信息属性值；当节点队列queue为空，则抽取栈中根节点所包含的文本信息属性及文本信息属性值形成抽取结果，其中该根节点即为信息树种最顶端的父节点。可以理解的，针对待抽取文本包含文本信息相对较少时，可能存在通过一条节点合成规则实现待抽取文本的信息抽取，则根据该一条节点合成规则所生成父节点所附带文本信息形成抽取信息。

以待抽取文本为“刘德华和朱丽倩于2008年6月23日结婚”为例，通过以上实施例提供的信息抽取方法形成抽取信息的过程具体如下所述。

通过定义表达文本信息的节点格式如以上实施例所述，对该待抽取文本进行解析生成节点队列为：<begin><people pos＝"nr"text＝"刘德华"orginal＝"刘德华"><word pos＝"cc"text＝"和"orginal＝"和"><people pos＝"nr"text＝"朱丽倩"orginal＝"朱丽倩"><word pos＝"p"text＝"于"orginal＝"于"><time pos＝"time"text＝"2008-6-23"orginal＝"2008年6月23日"><word pos＝"vi"text＝"结婚"orginal＝"结婚"><end>

根据该待抽取文本定义节点合成规则包括：

<marry root collect＝"role">:＝<people role＝"couple"><and><people role＝"couple"><atTime orEmpty role＝"marryTime">结婚

<and>:＝和

<and>:＝与

<at>:＝在

<at>:＝于

请参阅图14，对该待抽取文本形成抽取信息，根据节点合成规则对队列中的节点进行合成生成父节点，根据父节点形成抽取信息的过程可通过树结构表示，树中相邻两层子节点与父节点之间的对应关系分别与对应的节点合成规则匹配，具体匹配过程如下表格所示(其中，队列queue中节点省略文本信息属性表示，栈stack中节点省略子节点表示)。

以上实施例所提供的信息抽取方法，其中节点合成规则的定义是建立在文本信息传递的原则上，通过节点合成规则对节点进行信息抽取脉络清晰，通过定义节点格式及节点合成规则的语法格式接近一般思维理解方式，因此编写自定义规则更加容易，易于理解；其中信息抽取实现过程中，节点合成规则的扩展只需增加新的规则即可，无需修改之前的规则，各节点合成规则之间的耦合低，同时支持抽取器接口获取自定义节点合成规则，从而易于扩展；各节点合成规则之间可以通过标记相互引用，无需重复编写，可把通用性较强的节点合成规则抽取到所需文件中，易于管理，支持重用；该节点合成规则中节点所附带文本信息通过文本信息属性与文本信息属性值的对应关系进行表达，可使用词性信息，并支持自定义文本信息属性和基于文本信息属性进行节点运算的节点合成规则，节点合成规则支持递归定义，增加了所述信息抽取方法的泛化能力；实现信息抽取无需大批量的训练语料，成本较低。

图15为本申请实施例的信息抽取系统的示意图。该系统可以包括获取模块11、节点模块13、解析模块15、规则模块17及抽取模块19，其中，获取模块11用于获取待抽取文本。节点模块13用于定义表达文本信息的节点的节点格式。解析模块15用于根据节点格式对待抽取文本进行解析生成表达待抽取文本的文本信息的节点，通过节点组成队列。规则模块17用于获取通过子节点生成父节点的节点合成规则。抽取模块19用于根据节点合成规则对队列中的节点进行合成生成父节点，根据父节点形成抽取信息。

一些实施例中，图16为实施例的信息抽取系统，其中，节点模块13包括自定义节点单元131。自定义节点单元131用于设置自定义节点，自定义节点的节点格式为每一自定义节点以第一标识符号进行标识。每一自定义节点的节点内容包括节点名和通过文本信息属性与文本信息属性值的对应关系表达的文本信息。文本信息属性与对应的文本信息属性值之间的对应关系通过第二标识符号进行标识，每一文本信息属性值通过第三标识符号进行标识。

一些实施例中，图17为实施例的信息抽取系统，自定义节点单元131包括内置节点单元132及消息节点单元133。内置节点单元132用于设置表达时间、地址、人物相关的文本信息的节点为内置节点。消息节点单元133用于设置表达事件类型相关的文本信息的节点为消息节点。

一些实施例中，图18为实施例所提供的信息抽取系统，节点模块13包括属性单元134。属性单元134用于设置文本信息属性与文本信息属性值的类型，文本信息属性包括原始字符串、规整后字符串及词性标记。原始字符串对应的文本信息属性值为原始文本，规整后字符串对应的文本信息属性值为将原始文本以预设格式转换后的文本，词性标记对应的文本信息属性值为用于分别标识不同原始文本词性的预设字符。

一些实施例中，节点模块13包括属性单元134。属性单元134用于设置文本信息属性，文本信息属性包括可空属性。

一些实施例中，节点模块13包括属性单元134。属性单元用于设置文本信息属性与文本信息属性值的类型，文本信息属性包括过滤属性，过滤属性对应的文本信息属性值为过滤条件。

一些实施例中，图19为实施例所提供的信息抽取系统，节点模块13包括文本节点单元135。文本节点单元135用于设置文本节点，文本节点的节点格式为直接显示原始文本表达文本信息。

一些实施例中，图20为实施例所提供的信息抽取系统，规则模块17包括复制合成规则单元171。节点的节点格式包括通过文本信息属性与文本信息属性值的对应关系表达文本信息。复制合成规则单元用于获取复制指定子节点的文本信息属性值作为父节点的文本信息属性值的复制合成规则。

一些实施例中，图21为实施例所提供的信息抽取系统，规则模块17包括合并合成规则单元172。节点的节点格式包括通过文本信息属性与文本信息属性值的对应关系表达文本信息。合并合成规则单元用于获取选取多个子节点的文本信息属性值合并生成父节点的文本信息属性值的合并合成规则。

一些实施例中，图22为实施例所提供的信息抽取系统，规则模块17包括收集合成规则单元173。节点的节点格式包括通过文本信息属性与文本信息属性值的对应关系表达文本信息。收集合成规则单元用于获取选取所有子节点的指定文本信息属性的文本信息属性值生成父节点的文本信息属性值的收集合成规则。

一些实施例中，图23为实施例所提供的信息抽取系统，抽取模块19包括判断单元191、存储单元193、匹配单元195及抽取单元197。判断单元191用于判断队列是否为空。存储单元193用于当队列不为空时，将队列头部的节点存储至数据库中形成待抽取节点。匹配单元195用于将数据库中的待抽取节点与节点合成规则进行匹配，当待抽取节点与节点合成规则匹配时，将待抽取节点按照节点合成规则进行合成生成父节点，并返回判断队列是否为空的步骤。抽取单元197用于当队列为空时，根据数据库中的父节点形成抽取信息。

以上实施例所提供的信息抽取系统，其中节点合成规则的定义是建立在文本信息传递的原则上，节点合成规则定义脉络清晰，易于理解；其中信息抽取实现过程中，节点合成规则的扩展只需增加新的规则即可，无需修改之前的规则，各节点合成规则之间低耦合，同时支持抽取器接口获取自定义节点合成规则，从而易于扩展；各节点合成规则之间可以通过标记相互引用，无需重复编写，可把通用性较强的节点合成规则抽取到所需文件中，易于管理，支持重用；该节点合成规则中节点所附带文本信息通过文本信息属性与文本信息属性值的对应关系进行表达，可使用词性信息，并支持自定义文本信息属性和基于文本信息属性的节点合成规则，节点合成规则支持递归定义，增加了信息抽取方法的泛化能力；实现信息抽取无需大批量的训练语料，成本较低。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所述实施例仅给出了几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

一种信息抽取方法，包括：

获取非结构化文本；

根据预设的节点格式对所述待抽取文本进行解析，生成描述所述非结构化文本的节点组成的第一节点集合；

获取预设的规则库，所述规则库包括多个用于生成节点的规则，各规则指明该规则生成的节点的角色，所述节点的角色为根节点或非根节点；

根据所述规则库对所述第一节点集合中的所述节点进行合成以生成根节点，根据所述根节点生成结构化信息。
如权利要求1所述的信息抽取方法，其中，根据预设的节点格式对所述待抽取文本进行解析，生成描述所述非结构化文本的节点组成的第一节点集合包括：

对所述非结构化文本进行分词得到包括多个词语的词语集合；

利用所述词语集合生成所述第一节点集合，其中，所述第一节点集合中的每个节点用于描述所述词语集合中的一个词语，包括一个或多个属性的属性值。
如权利要求1所述的信息抽取方法，其中，根据所述规则库对所述第一节点集合中的所述节点进行合成生成根节点，根据所述根节点生成结构化信息包括：

利用所述规则库中的规则处理所述第一节点集合中的节点以生成第二节点集合，其中，所述第二节点集合中的每个节点描述所述第一节点集合中的至少一个节点；

将所述第二节点集合中具有根节点角色的节点的一个或多个属性的属性值输出为所述结构化信息。
如权利要求2所述的信息抽取方法，其中，利用所述词语集合生成所述第一节点集合包括：

生成所述词语集合中的每个词语对应的节点，所述节点包括第一属性，所述第一属性的属性值为所述词语对应的字符串；

生成所述第一节点集合，所述第一节点集合包括所述词语集合中各词语对应的节点。
如权利要求4所述的信息抽取方法，进一步包括：

在每个词语对应的节点中设置第二属性，所述第二属性的属性值表示所述词语的词性。
如权利要求4所述的信息抽取方法，进一步包括：

在所述词语集合中识别具有预设内容类型的第一词语，其中，所述预设的内容类型为以下中的一个：人名、地名、日期、时间、专有名词；

利用所述第一词语对应的节点的节点名或第三属性的属性值表示所述预设内容类型。
如权利要求6所述的信息抽取方法，进一步包括：

将所述第一词语的文本转换为所述预设内容类型对应的指定格式的目标文本；

在所述第一词语对应的预处理节点中增加第四属性，所述第四属性的属性值为所述目标文本。
如权利要求2所述的信息抽取方法，其中，所述第一节点集合中各节点的排列顺序与各节点对应的词语在所述非结构化文本中的排列顺序一致。
如权利要求3所述的信息抽取方法，其中，所述规则库中各规则包括一个或多个输入节点的描述以及利用所述一个或多个输入节点生成输出节点的方式；利用所述规则库中的规则处理所述第一节点集合中的节点以生成所述第二节点集合包括：

从所述第一节点集合中选取至少一个节点，在所述规则库中查找规则：该规则的输入节点与所述至少一个节点匹配；

将所述至少一个节点作为所述规则的输入节点、按照所述规则中的方式生成第二节点，在所述第一节点集合中使用所述第二节点替换所述至少一个节点；

将所述第一节点集合作为所述第二节点集合。
如权利要求9所述的信息抽取方法，其中，所述规则中一个或多个输入节点的描述包括以下中的至少一个：

所述一个或多个输入节点中一个输入节点的指定属性的属性值需要满足的条件；

所述一个或多个输入节点的排列顺序。
如权利要求9所述的信息抽取方法，其中，所述规则中利用所述一个或多个输入节点生成输出节点的方式包括以下中的至少一个：

将所述一个或多个输入节点中一个节点的指定属性的属性值作为所述输出节点的指定属性的属性值；

将所述一个或多个输入节点中至少两个节点的指定属性的属性值合并得到合并值，将所述合并值作为所述输出节点的指定属性的属性值。
如权利要求11所述的信息抽取方法，其中，所述规则中所述至少两个节点的指定属性的属性值为字符串，将所述至少两个节点的指定属性的属性值合并得到合并值包括：

按照所述规则指定的合并方式将所述至少两个节点对应的指定属性的属性值合并为字符串或字符串数组；

所述合并方式包括以下中的一个：

将第一字符串拼接为第二字符串；或

将第一字符串合并为字符串数组，各第一字符串作为所述字符串数组中的元素。
如权利要求9所述的信息抽取方法，所述规则库包括各规则的优先级的信息；其中，查找规则包括：

在所述规则库中按照规则的优先级从高到低的顺序查找所述规则。
一种信息抽取系统，包括：至少一个处理器和存储器，所述存储器中存储有计算机可读指令，所述指令可以使所述至少一个处理器：

获取非结构化文本；

根据预设的节点格式对所述待抽取文本进行解析，生成描述所述非结构化文本的节点组成的第一节点集合；

获取预设的规则库，所述规则库包括多个用于生成节点的规则，各规则指明该规则生成的节点的角色，所述节点的角色为根节点或非根节点；

根据所述规则库对所述第一节点集合中的所述节点进行合成以生成根节点，根据所述根节点生成结构化信息。
如权利要求14所述的信息抽取系统，其中，根据预设的节点格式对所述待抽取文本进行解析，生成描述所述非结构化文本的节点组成的第一节点集合包括：

对所述非结构化文本进行分词得到包括多个词语的词语集合；

利用所述词语集合生成第一节点集合，其中，所述第一节点集合中的每个节点用于描述所述词语集合中的一个词语，包括一个或多个属性的属性值；
如权利要求14所述的信息抽取系统，其中，根据所述规则库对所述第一节点集合中的所述节点进行合成生成根节点，根据所述根节点生成结构化信息包括：

利用所述规则库中的规则处理所述第一节点集合中的节点以生成第二节点集合，其中，所述第二节点集合中的每个节点描述所述第一节点集合中的至少一个节点；

将所述第二节点集合中具有根节点角色的节点的一个或多个属性的属性值输出为所述结构化信息。
如权利要求15所述的信息抽取系统，其中，利用所述词语集合生成所述第一节点集合包括：

生成所述词语集合中的每个词语对应的节点，所述节点包括第一属性，所述第一属性的属性值为所述词语对应的字符串；

生成所述第一节点集合，所述第一节点集合包括所述词语集合中各词语对应的节点。
如权利要求17所述的信息抽取系统，其中，所述指令可以使所述至少一个处理器：

在每个词语对应的节点中设置第二属性，所述第二属性的属性值表示所述词语的词性。
如权利要求17所述的信息抽取系统，其中，所述指令可以使所述至少一个处理器：

在所述词语集合中识别具有预设内容类型的第一词语，其中，所述预设的内容类型选自：人名、地名、日期、时间、专有名词；

利用所述第一词语对应的节点的节点名或第三属性的属性值表示所述预设内容类型。
如权利要求19所述的信息抽取系统，其中，所述指令可以使所述至少一个处理器：

将所述第一词语的文本转换为所述预设内容类型对应的指定格式的目标文本；

在所述第一词语对应的预处理节点中增加第四属性，所述第四属性的属性值为所述目标文本。
如权利要求16所述的信息抽取系统，其中，利用所述规则库中的规则处理所述第一节点集合中的节点以生成所述第二节点集合包括：

从所述第一节点集合中选取至少一个节点，在所述规则库中查找规则：所述至少一个节点符合该规则中一个或多个输入节点的描述；

将所述至少一个节点作为所述规则的输入节点、按照所述规则指定的利用所述一个或多个输入节点生成输出节点的方式生成第二节点，在所述第一节点集合中使用所述第二节点替换所述至少一个节点；

将所述第一节点集合作为所述第二节点集合。
如权利要求21所述的信息抽取系统，其中，生成第二节点包括：

将所述至少一个节点中一个节点的指定属性的属性值作为所述第二节点的指定属性的属性值；

将所述至少一个节点节点中至少两个节点的指定属性的属性值合并得到合并值，将所述合并值作为所述第二节点的指定属性的属性值。
如权利要求22所述的信息抽取系统，其中，将所述至少两个节点的指定属性的属性值合并得到合并值包括：

当所述至少两个节点对应的指定属性的属性值为字符串时，按照所述规则指定的合并方式，将所述至少两个节点对应的指定属性的属性值合并为字符串或字符串数组；

所述合并方式包括以下中的一个：

将第一字符串拼接为第二字符串；或

将第一字符串合并为字符串数组，各第一字符串作为所述字符串数组中的元素。
一种计算机可读存储介质，包括：计算机可读指令，所述指令可以使至少一个处理器：

获取非结构化文本；

根据预设的节点格式对所述待抽取文本进行解析，生成描述所述非结构化文本的节点组成的第一节点集合；

获取预设的规则库，所述规则库包括多个用于生成节点的规则，各规则指明该规则生成的节点的角色，所述节点的角色为根节点或非根节点；

根据所述规则库对所述第一节点集合中的所述节点进行合成以生成根节点，根据所述根节点生成结构化信息。