WO2021164226A1

WO2021164226A1 - 法律案件知识图谱查询方法、装置、设备及存储介质

Info

Publication number: WO2021164226A1
Application number: PCT/CN2020/111301
Authority: WO
Inventors: 刘嘉伟; 于修铭; 汪伟; 陈晨; 李可
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-02-20
Filing date: 2020-08-26
Publication date: 2021-08-26
Also published as: CN111291161A

Abstract

本申请公开了一种法律案件知识图谱查询方法，包括：接收客户端发起的法律案件信息的查询请求；提取所述查询请求中的查询关键词；根据所述查询关键词，在预置的法律案件知识图谱库中检索目标关键词实体对象，并将与所述目标关键词实体对象匹配的法律案件信息输出至所述客户端；其中，所述法律案件知识图谱通过结合法理法规数据以及判案手册数据对裁判文书数据进行实体对象及实体对象关系抽取后构建得到。本申请还公开了一种法律案件知识图谱查询装置、设备及计算机可读存储介质。本申请能够清晰梳理出案件中的各种关系，降低了案件审理的复杂度，提升了案件审判的工作质量和效率。

Description

法律案件知识图谱查询方法、装置、设备及存储介质

本申请要求于2020年2月20日提交中国专利局、申请号为202010103656.1、发明名称为“法律案件知识图谱查询方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请涉及大数据技术领域，尤其涉及一种法律案件知识图谱查询方法、装置、设备及存储介质。

背景技术

随着社会与经济的快速发展，各类民事刑事纠纷案件也越来越多，各类案件处理涉及大量的法律知识，因而对于法律知识的智能化应用需求也越来越强烈。

发明人意识到，法律知识体系非常复杂，是多种逻辑的结合，传统的法律智能化方法并不实用。例如，传统法律信息数据库通过都是存储未经加工处理的原始案件信息，比如直接存储整篇裁判文书，然后直接基于关键字对整篇裁判文书进行查询，查询到的信息比较零散，且内容上并不具有很好的逻辑关系，因而查询效率和准确性都不能满足用户实际需求；基于传统自然语言处理技术的方法，由于法律领域是十分垂直的领域，准确性面临着极大的挑战，同时，自然语言处理技术无法对自身产生的结果进行解释，因而也让其在严肃的法律领域无法让人信服。也即传统针对法律信息数据库的智能化处理的效果较差、法律逻辑关系不够清晰，因而不能较好地提升案件查询效率。

发明内容

本申请的主要目的在于提供一种法律案件知识图谱查询方法、装置、设备及存储介质，旨在解决如何构建出法律逻辑关系清晰的法律信息数据库以提升案件查询效率的技术问题。

为实现上述目的，本申请第一方面提供了一种法律案件知识图谱查询方法，包括：接收客户端发起的法律案件信息的查询请求；提取所述查询请求中的查询关键词；根据所述查询关键词，在预置的法律案件知识图谱库中检索目标关键词实体对象，并将与所述目标关键词实体对象匹配的法律案件信息输出至所述客户端；其中，所述法律案件知识图谱通过结合法理法规数据以及判案手册数据对裁判文书数据进行实体对象及实体对象关系抽取后构建得到的。

本申请第二方面提供了一种法律案件知识图谱查询设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：接收客户端发起的法律案件信息的查询请求；提取所述查询请求中的查询关键词；根据所述查询关键词，在预置的法律案件知识图谱库中检索目标关键词实体对象，并将与所述目标关键词实体对象匹配的法律案件信息输出至所述客户端；其中，所述法律案件知识图谱通过结合法理法规数据以及判案手册数据对裁判文书数据进行实体对象及实体对象关系抽取后构建得到的。

本申请第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如下步骤：接收客户端发起的法律案件信息的查询请求；提取所述查询请求中的查询关键词；根据所述查询关键词，在预置的法律案件知识图谱库中检索目标关键词实体对象，并将与所述目标关键词实体对象匹配的法律案件信息输出至所述客户端；其中，所述法律案件知识图谱通过结合法理法规数据以及判案手册数据对裁判文书数据进行实体对象及实体对象关系抽取后构建得到的。

本申请第四方面提供了一种法律案件知识图谱查询装置，包括：接收模块，用于接收客户端发起的法律案件信息的查询请求；提取模块，用于提取所述查询请求中的查询关键词；检索模块，用于根据所述查询关键词，在预置的法律案件知识图谱库中检索目标关键词实体对象，并将与所述目标关键词实体对象匹配的法律案件信息输出至所述客户端；其中，所述法律案件知识图谱通过结合法理法规数据以及判案手册数据对裁判文书数据进行实体对象及实体对象关系抽取后构建得到。

本申请以预先构建的法律案件的知识图谱为案件审理数据库，通过知识图谱以梳理出待审理案件的各种法律逻辑关系。当查询法律案件信息时，只需输入要查询的关键字，通过检索本申请构建的法律案件的知识图谱，即可输出相应的法律案件信息。本申请的法律案件知识图谱是为解决法律相关案件而构建的，知识图谱中的法律案件信息完全根据裁判文书、法理法规及判案手册进行构建，因此知识图谱的真实性上无容置疑。本申请通过对实体对象与实体关系的进一步处理，从而获得更能反映案情的大事实要素、小事实要素以及小事实要素的实体关系，由此构建的法律案件知识图谱能够更加清晰地梳理出案件中的人物关系、证据与事实关系等复杂案情，从而降低了案件审理的复杂度，提升了案件审判的工作质量和效率。

附图说明

图1为本申请实施例方案涉及的法律案件知识图谱查询设备运行环境的结构示意图；

图2为本申请法律案件知识图谱查询方法第一实施例的流程示意图；

图3为本申请法律案件知识图谱查询方法第二实施例的流程示意图；

图4为图3中步骤S240一实施例的细化流程示意图；

图5为图4中步骤S2401一实施例的流程示意图；

图6为图4中步骤S2402一实施例的流程示意图；

图7为图4中步骤S2403一实施例的流程示意图；

图8为本申请法律案件知识图谱查询装置一实施例的功能模块示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

本申请实施例提供了一种法律案件知识图谱查询方法、装置、设备及存储介质，用于以预先构建的法律案件的知识图谱为案件审理数据库，通过知识图谱以梳理出待审理案件的各种法律逻辑关系，解决了如何构建出法律逻辑关系清晰的法律信息数据库以提升案件查询效率的技术问题，降低了案件审理的复杂度，提升了案件审判的工作质量和效率。

应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本申请提供一种法律案件知识图谱查询设备。

参照图1，图1为本申请实施例方案涉及的法律案件知识图谱查询设备运行环境的结构示意图。图1为本申请实施例方案涉及的法律案件知识图谱查询设备运行环境的结构示意图。

如图1所示，该法律案件知识图谱查询设备包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的法律案件知识图谱查询设备的硬件结构并不构成对法律案件知识图谱查询设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及计算机程序。其中，操作系统是管理和控制法律案件知识图谱查询设备和软件资源的程序，支持其它软件和/或程序的运行。

在图1所示的法律案件知识图谱查询设备的硬件结构中，网络接口1004主要用于接入网络；用户接口1003主要用于侦测确认指令和编辑指令等。而处理器1001可以用于调用存储器1005中存储的计算机程序，并执行以下法律案件知识图谱查询方法的各实施例的操作。

基于上述法律案件知识图谱查询设备硬件结构，提出本申请法律案件知识图谱查询方法的各个实施例。

参照图2，图2为本申请法律案件知识图谱查询方法第一实施例的流程示意图。本实施例中，所述法律案件知识图谱查询方法包括以下步骤：

步骤S110，接收客户端发起的法律案件信息的查询请求；

步骤S120，提取所述查询请求中的查询关键词；

步骤S130，根据所述查询关键词，在预置的法律案件知识图谱库中检索目标关键词实体对象，并将与所述目标关键词实体对象匹配的法律案件信息输出至所述客户端；

其中，所述法律案件知识图谱通过结合法理法规数据以及判案手册数据对裁判文书数据进行实体对象及实体对象关系抽取后构建得到。

本实施例中，当进行法律案件信息查询时，用户可以通过客户端发起法律案件信息的查询请求，后台接收查询请求后，提取查询请求中的查询关键词，然后再使用提取的查询关键词，检索预先构建的法律案件知识图谱，通过关键词匹配的方式，确定需要查询的法律案件信息并输出。

本实施例以预先构建的法律案件的知识图谱为案件审理数据库，通过知识图谱以梳理出待审理案件的各种法律逻辑关系。当查询法律案件信息时，只需输入要查询的关键字，通过检索本申请构建的法律案件的知识图谱，即可输出相应的法律案件信息。本实施例中的法律案件知识图谱是为解决法律相关案件而构建的，知识图谱中的法律案件信息完全基于裁判文书、法理法规及判案手册构建，因此知识图谱的真实性上无容置疑。同时，本实施例提出的法律案件知识图谱能够清晰梳理出案件中的人物关系、证据与事实关系等复杂案情，进而可降低了案件审理的复杂度，提升案件审判的工作质量和效率。

参照图3，图3为本申请法律案件知识图谱查询方法第二实施例的流程示意图。本实施例中，在上述步骤S110之前，包括以下步骤：

步骤S210，获取裁判文书数据；

步骤S220，基于预置实体关系标注模型，对所述裁判文书数据进行结构化抽取，得到所述裁判文书数据中的预置目标关键词实体对象及目标关键词实体对象的实体关系；

其中，所述目标关键词实体对象包括：原告与被告、原告证据与被告证据、原告诉请与被告辩称、争议焦点、法院判定结果、法条依据以及法院判定原因；

本实施例优选通过网络爬虫方式采集指定网站的裁判文书数据。裁判文书用于记载人民法院审理案件的过程和结果，既包含了案件情况，也包含了判案过程和结果。

本实施例中，对于爬取方式不限。优选通过Docker容器作为媒介，来进行多机器部署指定的爬虫程序，实现多机器爬取指定的内容。需要进一步说明的是，不同裁判文书数据分别独立存储，比如按案件名称独立存储。

实体关系是知识图谱的基础数据结构，具体为<head,relation,tail>三元组形式,其中head和tail为实体，relation为实体间的关系。由于裁判文书数据都是以文本方式储存，因而需要从文本数据中提取出结构化数据。

例如，裁判文书中“原告：贾某明，农民”，“原告于2009年3月21日借给被告应某勇10万元款项，由被告杨某光担保”，则从上述内容中提取出的结构化数据包括<贾某明，职业，农民>，<贾某明，类型，原告>，<贾载明，借贷关系，应某勇>，<应某勇，担保关系，杨某光>等。

本实施例中，为实现裁判文书数据的自动化抽取，因此需要训练出相应的数学模型。比如，预先使用序列标注的方法对大量的裁判文书进行标注而获得训练用的结构化语料，标注的内容有：原告、被告、原告和被告提供的证据、原告的诉请、被告的辩称、案件的争议焦点、法院的判定结果、依据的法理法规、法院判定的原因等，然后利用人工标注的结构化数据作为训练集训练生成实体关系标注模型。

本实施例中，通过预置的实体关系标注模型可自动从采集到的裁判文书数据中抽取出三元组形式的结构化数据，实体对象具体包括：原告、被告、原告证据、被告证据、原告诉请、被告辩称、争议焦点、法院判定结果、法条依据、法院判定原因。其中，原告分别与原告证据、原告诉请存在相应的实体关系，被告分别与被告证据、被告辩称存在相应的实体关系，争议焦点分别与原告诉请、被告辩称存在相应的实体关系。

步骤S230，根据关键词实体对象，生成大事实要素并将所述大事实要素确定为大事实要素实体对象；

本实施例中，大事实要素是指法律对相应争议焦点进行判断确认时的重要信息。本实施例优选通过以下方式生成大事实要素：

(1)对所述争议焦点进行聚类，得到多个争议焦点类别，并确定各争议焦点类别各自对应的预置案件争议焦点，其中，所述案件争议焦点指未被确认的事实；

(2)根据所述原告证据与被告证据、所述原告诉请与被告辩称、所述法院判定结果、法条依据以及法院判定原因，对所述案件争议焦点对应的未被确认的事实进行确认，并将进行确认时所使用的信息作为大事实要素以及将所述大事实要素确定为大事实要素实体对象。

通常案件的争议焦点会有很多，基于案件类型的不同，案件对应的争议焦点亦不相同。因此，本实施例中先对各争议焦点进行聚类，从而得到多个争议焦点所属的类别。聚类是将数据分类到不同的类或者簇的过程，同一个簇中的对象具有很大的相似性，而不同簇间的对象则具有很大的差异性。本实施例对于聚类实现方式不限，比如使用分层聚类算法进行聚类。

通过聚类而将争议焦点划分为多个类别后，还需进一步确定各类别对应的案件争议焦点，也即相当于对争议焦点进行类别命名。通常，不同案件的案件争议焦点不同。比如民间借贷案件，其对应的案件争议焦点主要有：借贷关系是否成立、借贷形式是否合理、合同是否生效、合同是否有效、合同是否正常履行、担保关系是否成立、借款是否为夫妻共同债务七大类别。因此，需要将同一案件的所有争议焦点聚类为七个类别，并在完成聚类并得到七个争议焦点类别后，将各争议焦点类别分别与各案件争议焦点进行一一对应。本实施例优选通过人机交互的方式确定各争议焦点类别所对应的案件争议焦点。

本实施例中，案件争议焦点是指未被肯定或者未被否定的事实，因此，需要进一步对各案件争议焦点进行判断，具体基于从裁判文书中抽取的原告证据、被告证据、原告诉请、被告辩称、法院判定结果、法条依据、法院判定原因以及预置判断规则进行判断，进而生成新的实体对象，也即大事实要素。

例如，以民间借贷对应的案件争议焦点为例，通过判断所形成的大事实要素形式如下所示：

(1)【借贷关系是否成立—借贷主体及法律关系】，本案件争议焦点对应的大事实要素为“借贷主体及法律关系”的内容，用于作为判断确认“借贷关系是否成立”的重要信息。

(2)【借贷形式是否合理—借贷形式及主要条款】，本案件争议焦点对应的大事实要素为“借贷形式及主要条款”的内容，用于作为判断确认“借贷形式是否合理”的重要信息。

(3)【合同是否生效—合同生效】，本案件争议焦点对应的大事实要素为“合同生效”，也即对“合同是否生效”进行了肯定确认。

(4)【合同是否有效—合同有效性】，本案件争议焦点对应的大事实要素为“合同有效性”的内容，用于作为判断确认“合同是否有效”的重要信息。

(5)【合同是否正常履行—合同的履行】，本案件争议焦点对应的大事实要素为“合同的履行”的内容，用于作为判断确认“合同是否正常履行”的重要信息。

(6)【担保关系是否成立—借贷的担保关系】，本案件争议焦点对应的大事实要素为“借贷的担保关系”的内容，用于作为判断确认“担保关系是否成立”的重要信息。

(7)【借款是否为夫妻共同债务—借款是夫妻共同债务】，本案件争议焦点对应的大事实要素为“借款是夫妻共同债务”，也即对“借款是否为夫妻共同债务”进行了肯定确认。

本实施例对于案件争议焦点的判断确认方式不限，例如通过人机交互方式进行判断，也可以是针对不同的案件争议焦点而预先设置不同的判断规则，比如，“借贷关系是否成立”可通过正则模式识别出对应的“借贷主体及法律关系”，“借款是否为夫妻共同债务”则可通过判断证据中是否有关夫妻二人借款的信息，若有，则确定是夫妻共同债务。

步骤S240，基于预置规则，将各大事实要素分别拆分为多个小事实要素，并将所述小事实要素确定为小事实要素实体对象，其中，所述规则根据法理法规数据以及判案手册数据预先设定；

本实施例中，通常大事实要素是对某类事实的宏观概述，包含有更多的细节事实，也即小事实要素，比如，“合同生效”涉及生效的时间、生效条件等；“借贷的担保关系”涉及担保人基本信息、担保人与借贷人关系等。而在判案过程中，为真实、准确、全面对案件进行审理，通常法院会根据法理法规及判案手册设置一些原则性的判案规则，并且该判案规则具体针对与案件相关的多种细节事实。例如，大事实要素“借款是夫妻共同债务”的确定，需要“夫妻关系”、“合同上有夫妻双方签名”、“借款合同的有效性”等细节事实的综合证明，也即大事实要素“借款是夫妻共同债务”可以进一步拆分为“夫妻关系”、“合同上有夫妻双方签名”、“借款合同的有效性”等多个小事实要素。

本实施例中，基于法理法规及法院判案手册中的判案原则，设置相应的用于拆分大事实要素的判案规则，将各案件争议焦点各自对应的大事实要素分别拆分为多个小事实要素。其中，用于判案的规则具体根据法理法规数据以及判案手册数据预先设定。法理法规数据指各种法条、法理、法规，而判案手册指法院制定的用于辅助判案的知识文件。

步骤S250，从指定的目标关键词实体对象中获取各小事实要素实体对象的实体关系；

通常，在法律案件中，法院判定原因会陈述大量的案件事实与相应证据，也即法院判定原因中存在小事实要素分别与原告证据、被告证据之间的实体关系，因此，本实施例优选以法院判定原因作为指定的目标关键词实体对象，以从中获取各小事实要素实体对象的实体关系。

步骤S260，根据获得的各实体对象及各实体关系，构建所述法律案件知识图谱。

本实施例中，具体基于获得的实体对象+不同实体对象之间的关系，构建基于图数据库的法律结构图，也即法律案件知识图谱，其中，图数据库优选使用Neo4j图数据库。

本实施例以预先构建的法律案件的知识图谱为案件审理数据库，通过知识图谱以梳理出待审理案件的各种法律逻辑关系。当查询法律案件信息时，只需输入要查询的关键字，通过检索本申请构建的法律案件的知识图谱，即可输出相应的法律案件信息。本实施例的法律案件知识图谱是为解决法律相关案件而构建的，比如民间借贷案由，构建的信息完全来自裁判文书、法理法规及判案手册，因此知识图谱的真实性上无容置疑。本申请通过对实体对象与实体关系的进一步处理，从而获得更能反映案情的大事实要素、小事实要素以及小事实要素的实体关系，由此构建的法律案件知识图谱能够更加清晰地梳理出案件中的人物关系、证据与事实关系等复杂案情，从而降低了案件审理的复杂度，提升了案件审判的工作质量和效率。

参照图4，图4为图3中步骤S250一实施例的细化流程示意图。本实施例中，上述步骤S250进一步包括：

步骤S2501，对所述法院判定原因进行实体关系抽取，得到多个实体关系三元组，其中，所述实体关系三元组中包含有小事实要素分别与所述原告证据、所述被告证据之间的实体关系；

本实施例中，法院判定原因包含有判决证据、判决事实以及判定关系，因此通过实体关系抽取，可得到<判决证据，判定关系，判决事实>三元组。

步骤S2502，对所述各实体关系三元组中的关系进行聚类，得到关系层级结构矩阵；

本实施例中，进一步对三元组中各实体之间关系进行聚类，进而得到关系层级矩阵，其中，关系层级结构矩阵包括：

A、关系聚类层rc，是关系层级结构中的最顶层。

B、关系层r'，是关系层级结构中的中间层，由所有的关系构成；

C、关系子类层rs，是关系层级结构中的最底层。

步骤S2503，根据所述关系层级结构矩阵，采用预置实体关系对齐算法，确定各小事实要素分别与所述原告证据、所述被告证据之间的实体关系。

本实施例中，实体关系对齐算法包括：对关系进行向量化，计算新加入的关系与其他已有关系之间距离，距离越近则代表相似度越高，设定阈值，与相似度超过该阈值的关系进行合并，如果没有任何一个关系相似，则划分为新的一个关系。

根据得到的关系层级矩阵，对于一个三元组(h，r，t)中的关系，可以得到它从语义空间到向量空间的映射embedding为：

r＝r _c+r′+r _s

基于上述embedding过程，对新加入的关系与其他的关系计算向量距离，优选计算两向量关系之间的余弦距离，并将该距离作为相似度，进而确定各小事实要素分别对应与原告证据、被告证据之间的实体关系，该实体关系具体指肯定关系或否定关系。

参照图5，图5为图4中步骤S2501一实施例的流程示意图。本实施例中，上述步骤S2501进一步包括：

步骤S101，对所述法院判定原因进行分句与切词，得到每个语句对应的单词序列；

本实施例中，为更好地识别出命名实体对象以及实体关系，因此需要预先对法院判定原因数据进行分句，具体以逗号、句号为标识进行语句划分，进而将整篇文档内容划分为多个语句。同时还进一步通过切词操作将各单个语句切分为一个单词序列，该单词序列中包含有多个顺序排列的单词。例如使用jieba分词方式将一条语句划分为多个顺序排列的单词。

步骤S102，使用预置的组合词性标注器对各单词序列进行词性标注，得到各单词序列的词性标注结果；

词性标注器是一种词性标记工具，可用于处理一个词序列，以为每个词附加一个词性标记。例如，使用基于隐马尔可夫模型的词性标注器对词序列进行标记，或者使用基于神经网络算法的词性标注器对词序列进行标记。

本实施例中采用的组合词性标注器包含有多个词性标注器，比如正则表达式标注器、bigram标注器、unigram标注器等。例如，先尝试使用正则表达式标注器对词序列进行标记，如果正则表达式标注器无法找到一个标记，则尝试使用bigram标注器对词序列进行标记，以此类推，从而得到各单词序列的词性标注结果。

步骤S103，根据所述词性标注结果与预置依存标注表，标识各单词序列中各单词之间的依存关系；

本实施例中，对每个分句对应的单词序列进行词性标注后，得到每个单词对应的词性，然后再根据预置的依存标注表，进一步标识各单词序列中各单词之间的依存关系。其中，单词之间的依存关系主要体现在各单词之间的语法关系上。例如，张三/喜欢/跑步，词性标注为名称+情态动词+名称，则对应的语法关系为：主谓宾关系；张三/就职于/学校，词性标注为名称+介词+名称，则对应的语法关系为：介宾关系。

句子中的语法关系还有前置宾语、定中关系、间宾关系、介宾关系、并列关系、动宾关系、主谓关系、核心关系等依存关系，因此，只要基于词性标注和依存标注表，就可以标识出句子中各单词之间的依存关系。

例如句子“酒店总经理张三”对应标注的单词词性为“名词+名词+名词”结构，根据依存标注表可查对应的组合为定中关系，前一个名词作为定于修饰后一个名词，因此“酒店总经理张三”的核心名词因为“张三”，而“酒店”和“总经理”是修饰“张三”的，因此这三个词依存关系被标注为ATT(也即定中关系)。

步骤S104，基于各单词序列中各单词之间的依存关系，构建对应的句法分析树；

本实施例中，一个句子中各各单词之间的依存关系可以通过构建句法分析树的形式来进行表达。构建句法分析树通常包含有以下四个集合：

(1)有限的非终端语法标识的集合，即句法分析树上非叶子结点的集合。

(2)起始标识，即句法分析树的开始节点对应的位置；

(3)有限的终端标识集合，即语句中所有单词的集合，位于句法分析树的叶子结点，其中，句法分析树的叶子节点允许为空；

(4)构建句法树的有限个规则的集合，该规则表述了句法树的构建过程。

通过以上方式即可构建一个单词序列(也即一条语句)对应的句法分析树，其中，子叶子节点与父叶子节点之间存在依存关系。

步骤S105，遍历所述句法分析树，并基于预置的中文语法规则，识别所述句法分析树中的核心词以及所述核心词对应的主语和宾语；

本实施例中，在构建好整个语句对应的句法分析树后，从根节点开始进行遍历，并在遍历过程中，基于预置的中文语法规则，识别该句法分析树中的核心词以及核心词对应的主语和宾语。

在基于依存关系的实体关系抽取模型中，关系词并非是预先设置的类别，而是存在于当前的句子中。例如“张三在广州创办了一家酒店”，基于中文语法规则可知，该句子预定义的关系可能是“张三：创始人”，而“创始人”一词在句子中不存在，但是句中存在一个与其相似的词“创办”。因此在句法分析中，能够提取出核心词“创办”，该词前面有一个名词“广州”，而“广州”前面有一个介词“在”，因此“在广州”是一个介宾短语，依存关系被标记为POB(介宾关系)，所以“广州”不是“创办”的主语，而是“张三”。“创办”一词后面是助词“了”可以省略，再往后则是名称“酒店”，因此“创办酒店”为动宾关系VOB。因此可分析得到该句的语义为“张三创办酒店”，核心词“创办”即为实体关系，“而张三”和“酒店”则是两个命名实体对象。

步骤S106，以所述核心词为实体关系、以所述核心词对应的主语和宾语为命名实体对象，构建实体关系三元组，其中，所述实体关系三元组用于描述法院判定原因中命名实体对象以及命名实体对象之间的实体关系。

本实施例中，在识别出句子中的命名实体对象及其之间的实体关系之后，再提取的核心词为实体关系、以该核心词对应的主语和宾语为命名实体对象，构建实体关系三元组，以用于描述法院判定原因中各命名实体对象以及各命名实体对象之间的实体关系。

需要说明的是，法院判定原因具体包含有判定事实和判定证据，以及还包含有事实与证据之间的关系，比如肯定关系或否定关系。本实施例中，通过上述实施例构建的实体关系三元组中包含有小事实要素与各种证据之间的关系。

参照图6，图6为图4中步骤S2502一实施例的流程示意图。本实施例中，上述步骤S2502进一步包括：

步骤S201，通过预置向量转换模型对各实体关系三元组中数据进行关系向量转换，得到关系向量；

知识图谱的数据基本结构主要为实体关系三元组，在一个三元组(h,r,t)中，h为主体、t为客体、r为关系，例如三元组(纽约，属于，美国)，纽约为主体，美国为客体，属于为关系。三元组是一种直观的数据结构，主体和客体统称为实体，关系有不可逆的属性，在一个三元组中，主体和客体不能互换。

通过预置的向量转换模型对三元组数据进行转换，得到关系向量。预置的向量转换模型可以将字符型的三元组数据转换成向量型的三元组数据，也即将字符型的关系数据转换成关系向量

将字符型的主体数据转换成主体向量

将字符型的客体数据转换成客体向量

需要说明的是，预置的向量转换模型为转换嵌入(translating embedding，TransE)模型，该模型可以将三元组数据转换成向量形式，具体实现方式如下：

(1)将三元组中的主体和客体映射为低维度向量

和

(2)通过预置的损失函数调整

和

直至

最小，其中

(3)当

最小时，将

设置为向量型的三元组，

为关系向量。

步骤S202，通过预置聚类算法分别对所有关系向量、每个关系的所有关系向量进行聚类，对应得到关系聚类向量以及每个关系的关系子向量；

在知识图谱中，不同关系的含义可能会相同，例如，“所属国家”和“国籍”具有相同的含义，因此需要将表示相同含义的不同关系分为一类，并设置同一类关系的关系聚类向量。在同类的关系中，每个关系的关系向量与该类的关系聚类向量之间的欧式距离最小。

步骤S203，基于关系向量以及对应的关系聚类向量、关系子向量，构建关系层级结构矩阵；

本实施例中，关系层级结构矩阵由顶层关系聚类层、中间层关系层以及底层关系子类层构成，其中，所述关系聚类层由所有关系聚类向量构成，所述关系层由所有关系向量构成，所述关系子类层由每个关系的所有关系子向量构成。

对于三元组(h,r,t)，TransE模型假设t-h≈r，则对每一个三元组可定义

其中t和h都来自TransE模型中的Embedding层。对每个关系，收集其对应的所有的

然后采用K-means算法进行对所有的

进行聚类，并将其划分为该关系的子类，所有关系的子类构成了关系层级结构中的最底层，也即关系子类层r _s。

参照图7，图7为图4中步骤S2503一实施例的流程示意图。本实施例中，上述步骤S2503进一步包括：

步骤S301，根据所述关系层级结构矩阵中的关系向量、关系聚类向量以及每个关系的关系子向量，计算所有实体关系三元组中任意两个关系之间的关系相似度；

结合关系向量、关系聚类向量和关系子向量来计算关系相似度，能够利用关系的层级结构信息，更准确的确定各个三元组中关系的意义是否相同，有利于对关系进行分类，提高了识别关系的准确性。

本实施例优选采用向量距离计算关系相似度，具体实现方式如下：

首先，通过预置公式得到每个三元组中关系的embedding为：

其中，

表示关系的embedding，

表示关系聚类向量，

表示初始的关系向量，

表示关系子向量。

然后，通过以下余弦距离计算关系相似度，其中，

和

表示任意两个关系向量。

步骤S302，以所有实体关系三元组中任意一个关系为相似性比对的基准关系，并依次判断其他关系与该基准关系之间的关系相似度是否超过预置阈值；

步骤S303，若是，则确定当前比对的关系与该基准关系相似并进行类别合并，否则将当前比对的关系作为新类别的关系；

步骤S304，从剩余未比对的关系中任意选择一个关系作为新的基准关系继续进行关系相似性比对，直至所有关系两两之间比对完成时结束。

通过聚类的方法构建了关系的上下层级结构，并充分利用了层级结构中的信息对关系进行向量化，通过计算新加入的关系与其他已有关系之间距离来衡量关系之间的相似度。距离越近则代表相似度越高，同时设定相似度阈值，若某新加入的关系的相似度超过该阈值则进行合并，如果新加入的关系不与任何一个关系相似，则将其划分为一个新的关系。

具体地，小事实要素分别与原告证据、被告证据之间的实体关系为肯定关系或否定关系。利用关系对齐技术，可将证据和小事实要素的关系抽取出来，此处的关系有肯定(或否定)以及肯定原因(或否定原因)。比如抽取出来的三元组为：【借款合同–[肯定有借款{原因：有签名}]->借款合同是否有借款人签名或追加】，这里的【借款合同】是证据，【借款合同是否有借款人签名或追加】是小事实要素，【肯定有借款{原因：有签名}】是证据和小事实要素的关系，也即可以得出小事实要素与原告证据自己的实体关系为肯定关系。

本申请还提供一种法律案件知识图查询装置。

参照图8，图8为本申请法律案件知识图谱查询装置一实施例的功能模块示意图。本实施例中，法律案件知识图谱查询装置包括：

接收模块10，用于接收客户端发起的法律案件信息的查询请求；

提取模块20，用于提取所述查询请求中的查询关键词；

检索模块30，用于根据所述查询关键词，在预置的法律案件知识图谱库中检索目标关键词实体对象，并将与所述目标关键词实体对象匹配的法律案件信息输出至所述客户端；

基于与上述本申请法律案件知识图谱查询方法相同的实施例说明内容，因此本实施例对法律案件知识图谱查询装置的实施例内容不做过多赘述。

本申请还提供一种法律案件知识图谱查询设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述法律案件知识图谱查询设备执行上述法律案件知识图谱查询方法中的步骤。

本申请还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，也可以为易失性计算机可读存储介质。计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如下步骤：

接收客户端发起的法律案件信息的查询请求；

提取所述查询请求中的查询关键词；

根据所述查询关键词，在预置的法律案件知识图谱库中检索目标关键词实体对象，并将与所述目标关键词实体对象匹配的法律案件信息输出至所述客户端；

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本申请各个实施例所述的方法。

Claims

一种法律案件知识图谱查询方法，其中，包括：

接收客户端发起的法律案件信息的查询请求；

提取所述查询请求中的查询关键词；

根据所述查询关键词，在预置的法律案件知识图谱库中检索目标关键词实体对象，并将与所述目标关键词实体对象匹配的法律案件信息输出至所述客户端；

其中，所述法律案件知识图谱通过结合法理法规数据以及判案手册数据对裁判文书数据进行实体对象及实体对象关系抽取后构建得到。
根据权利要求1所述的法律案件知识图谱查询方法，其中，在所述接收客户端发起的法律案件信息的查询请求的步骤之前，还包括：

获取法律案件的裁判文书数据；

基于预置实体关系标注模型，对所述裁判文书数据进行结构化抽取，得到所述裁判文书数据中的预置目标关键词实体对象及目标关键词实体对象的实体关系，其中，所述目标关键词实体对象包括：原告与被告、原告证据与被告证据、原告诉请与被告辩称、争议焦点、法院判定结果、法条依据以及法院判定原因；

根据关键词实体对象，生成大事实要素并将所述大事实要素确定为大事实要素实体对象；

基于预置规则，将各大事实要素分别拆分为多个小事实要素，并将所述小事实要素确定为小事实要素实体对象，其中，所述规则根据法理法规数据以及判案手册数据预先设定；

从指定的目标关键词实体对象中获取各小事实要素实体对象的实体关系；

根据获得的各实体对象及各实体关系，构建所述法律案件知识图谱。
根据权利要求2所述的法律案件知识图谱查询方法，其中，所述根据关键词实体对象，生成大事实要素并将所述大事实要素确定为大事实要素实体对象包括：

对所述争议焦点进行聚类，得到多个争议焦点类别，并确定各争议焦点类别各自对应的预置案件争议焦点，其中，所述案件争议焦点指未被确认的事实；

根据所述原告证据与被告证据、所述原告诉请与被告辩称、所述法院判定结果、法条依据以及法院判定原因，对所述案件争议焦点对应的未被确认的事实进行确认，并将进行确认时所使用的信息作为大事实要素以及将所述大事实要素确定为大事实要素实体对象。
根据权利要求2所述的法律案件知识图谱查询方法，其中，所述从指定的目标关键词实体对象中获取各小事实要素实体对象的实体关系包括：

对所述法院判定原因进行实体关系抽取，得到多个实体关系三元组，其中，所述实体关系三元组中包含有小事实要素分别与所述原告证据、所述被告证据之间的实体关系；

对所述各实体关系三元组中的关系进行聚类，得到关系层级结构矩阵；

根据所述关系层级结构矩阵，采用预置实体关系对齐算法，确定各小事实要素分别与所述原告证据、所述被告证据之间的实体关系。
根据权利要求4所述的法律案件知识图谱查询方法，其中，所述对所述法院判定原因进行实体关系抽取，得到多个实体关系三元组包括：

对所述法院判定原因进行分句与切词，得到每个语句对应的单词序列；

使用预置的组合词性标注器对各单词序列进行词性标注，得到各单词序列的词性标注结果；

根据所述词性标注结果与预置依存标注表，标识各单词序列中各单词之间的依存关系；

基于各单词序列中各单词之间的依存关系，构建对应的句法分析树；

遍历所述句法分析树，并基于预置的中文语法规则，识别所述句法分析树中的核心词以及所述核心词对应的主语和宾语；

以所述核心词为实体关系、以所述核心词对应的主语和宾语为命名实体对象，构建实体关系三元组，其中，所述实体关系三元组用于描述法院判定原因中命名实体对象以及命名实体对象之间的实体关系。
根据权利要求4所述的法律案件知识图谱查询方法，其中，所述对所述各实体关系三元组中的关系进行聚类，得到关系层级结构矩阵包括：

通过预置向量转换模型对各实体关系三元组中数据进行关系向量转换，得到关系向量；

通过预置聚类算法分别对所有关系向量、每个关系的所有关系向量进行聚类，对应得到关系聚类向量以及每个关系的关系子向量；

基于关系向量以及对应的关系聚类向量、关系子向量，构建关系层级结构矩阵；

其中，所述关系层级结构矩阵由顶层关系聚类层、中间层关系层以及底层关系子类层构成，其中，所述关系聚类层由所有关系聚类向量构成，所述关系层由所有关系向量构成，所述关系子类层由每个关系的所有关系子向量构成。
根据权利要求6所述的法律案件知识图谱查询方法，其中，所述根据所述关系层级结构矩阵，采用预置实体关系对齐算法，确定各小事实要素分别与所述原告证据、所述被告证据之间的实体关系包括：

根据所述关系层级结构矩阵中的关系向量、关系聚类向量以及每个关系的关系子向量，计算所有实体关系三元组中任意两个关系之间的关系相似度；

以所有实体关系三元组中任意一个关系为相似性比对的基准关系，并依次判断其他关系与该基准关系之间的关系相似度是否超过预置阈值；

若是，则确定当前比对的关系与该基准关系相似并进行类别合并，否则将当前比对的关系作为新类别的关系；

从剩余未比对的关系中任意选择一个关系作为新的基准关系继续进行关系相似性比对，直至所有关系两两之间比对完成时结束。
一种法律案件知识图谱查询设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

接收客户端发起的法律案件信息的查询请求；

提取所述查询请求中的查询关键词；

根据所述查询关键词，在预置的法律案件知识图谱库中检索目标关键词实体对象，并将与所述目标关键词实体对象匹配的法律案件信息输出至所述客户端；

其中，所述法律案件知识图谱通过结合法理法规数据以及判案手册数据对裁判文书数据进行实体对象及实体对象关系抽取后构建得到。
根据权利要求8所述的法律案件知识图谱查询设备，所述处理器执行所述计算机程序时还实现以下步骤：

获取法律案件的裁判文书数据；

基于预置实体关系标注模型，对所述裁判文书数据进行结构化抽取，得到所述裁判文书数据中的预置目标关键词实体对象及目标关键词实体对象的实体关系，其中，所述目标关键词实体对象包括：原告与被告、原告证据与被告证据、原告诉请与被告辩称、争议焦点、法院判定结果、法条依据以及法院判定原因；

根据关键词实体对象，生成大事实要素并将所述大事实要素确定为大事实要素实体对象；

基于预置规则，将各大事实要素分别拆分为多个小事实要素，并将所述小事实要素确定为小事实要素实体对象，其中，所述规则根据法理法规数据以及判案手册数据预先设定；

从指定的目标关键词实体对象中获取各小事实要素实体对象的实体关系；

根据获得的各实体对象及各实体关系，构建所述法律案件知识图谱。
根据权利要求9所述的法律案件知识图谱查询设备，所述处理器执行所述计算机程序时还实现以下步骤：

对所述争议焦点进行聚类，得到多个争议焦点类别，并确定各争议焦点类别各自对应的预置案件争议焦点，其中，所述案件争议焦点指未被确认的事实；

根据所述原告证据与被告证据、所述原告诉请与被告辩称、所述法院判定结果、法条依据以及法院判定原因，对所述案件争议焦点对应的未被确认的事实进行确认，并将进行确认时所使用的信息作为大事实要素以及将所述大事实要素确定为大事实要素实体对象。
根据权利要求9所述的法律案件知识图谱查询设备，所述处理器执行所述计算机程序时还实现以下步骤：

对所述法院判定原因进行实体关系抽取，得到多个实体关系三元组，其中，所述实体关系三元组中包含有小事实要素分别与所述原告证据、所述被告证据之间的实体关系；

对所述各实体关系三元组中的关系进行聚类，得到关系层级结构矩阵；

根据所述关系层级结构矩阵，采用预置实体关系对齐算法，确定各小事实要素分别与所述原告证据、所述被告证据之间的实体关系。
根据权利要求11所述的法律案件知识图谱查询设备，所述处理器执行所述计算机程序时还实现以下步骤：

对所述法院判定原因进行分句与切词，得到每个语句对应的单词序列；

使用预置的组合词性标注器对各单词序列进行词性标注，得到各单词序列的词性标注结果；

根据所述词性标注结果与预置依存标注表，标识各单词序列中各单词之间的依存关系；

基于各单词序列中各单词之间的依存关系，构建对应的句法分析树；

遍历所述句法分析树，并基于预置的中文语法规则，识别所述句法分析树中的核心词以及所述核心词对应的主语和宾语；

以所述核心词为实体关系、以所述核心词对应的主语和宾语为命名实体对象，构建实体关系三元组，其中，所述实体关系三元组用于描述法院判定原因中命名实体对象以及命名实体对象之间的实体关系。
根据权利要求11所述的法律案件知识图谱查询设备，所述处理器执行所述计算机程序时还实现以下步骤：

通过预置向量转换模型对各实体关系三元组中数据进行关系向量转换，得到关系向量；

通过预置聚类算法分别对所有关系向量、每个关系的所有关系向量进行聚类，对应得到关系聚类向量以及每个关系的关系子向量；

基于关系向量以及对应的关系聚类向量、关系子向量，构建关系层级结构矩阵；

其中，所述关系层级结构矩阵由顶层关系聚类层、中间层关系层以及底层关系子类层构成，其中，所述关系聚类层由所有关系聚类向量构成，所述关系层由所有关系向量构成，所述关系子类层由每个关系的所有关系子向量构成。
根据权利要求13所述的法律案件知识图谱查询设备，所述处理器执行所述计算机程序时还实现以下步骤：

根据所述关系层级结构矩阵中的关系向量、关系聚类向量以及每个关系的关系子向量，计算所有实体关系三元组中任意两个关系之间的关系相似度；

以所有实体关系三元组中任意一个关系为相似性比对的基准关系，并依次判断其他关系与该基准关系之间的关系相似度是否超过预置阈值；

若是，则确定当前比对的关系与该基准关系相似并进行类别合并，否则将当前比对的关系作为新类别的关系；

从剩余未比对的关系中任意选择一个关系作为新的基准关系继续进行关系相似性比对，直至所有关系两两之间比对完成时结束。
一种计算机可读存储介质，所述计算机可读存储介质中存储计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如下步骤：

接收客户端发起的法律案件信息的查询请求；

提取所述查询请求中的查询关键词；

根据所述查询关键词，在预置的法律案件知识图谱库中检索目标关键词实体对象，并将与所述目标关键词实体对象匹配的法律案件信息输出至所述客户端；

其中，所述法律案件知识图谱通过结合法理法规数据以及判案手册数据对裁判文书数据进行实体对象及实体对象关系抽取后构建得到。
根据权利要求15所述的计算机可读存储介质，当所述计算机指令在计算机上运行时，使得计算机还执行以下步骤：

获取法律案件的裁判文书数据；

基于预置实体关系标注模型，对所述裁判文书数据进行结构化抽取，得到所述裁判文书数据中的预置目标关键词实体对象及目标关键词实体对象的实体关系，其中，所述目标关键词实体对象包括：原告与被告、原告证据与被告证据、原告诉请与被告辩称、争议焦点、法院判定结果、法条依据以及法院判定原因；

根据关键词实体对象，生成大事实要素并将所述大事实要素确定为大事实要素实体对象；

基于预置规则，将各大事实要素分别拆分为多个小事实要素，并将所述小事实要素确定为小事实要素实体对象，其中，所述规则根据法理法规数据以及判案手册数据预先设定；

从指定的目标关键词实体对象中获取各小事实要素实体对象的实体关系；

根据获得的各实体对象及各实体关系，构建所述法律案件知识图谱。
根据权利要求16所述的计算机可读存储介质，当所述计算机指令在计算机上运行时，使得计算机还执行以下步骤：

对所述争议焦点进行聚类，得到多个争议焦点类别，并确定各争议焦点类别各自对应的预置案件争议焦点，其中，所述案件争议焦点指未被确认的事实；

根据所述原告证据与被告证据、所述原告诉请与被告辩称、所述法院判定结果、法条依据以及法院判定原因，对所述案件争议焦点对应的未被确认的事实进行确认，并将进行确认时所使用的信息作为大事实要素以及将所述大事实要素确定为大事实要素实体对象。
根据权利要求16所述的计算机可读存储介质，当所述计算机指令在计算机上运行时，使得计算机还执行以下步骤：

对所述法院判定原因进行实体关系抽取，得到多个实体关系三元组，其中，所述实体关系三元组中包含有小事实要素分别与所述原告证据、所述被告证据之间的实体关系；

对所述各实体关系三元组中的关系进行聚类，得到关系层级结构矩阵；

根据所述关系层级结构矩阵，采用预置实体关系对齐算法，确定各小事实要素分别与所述原告证据、所述被告证据之间的实体关系。
根据权利要求18所述的计算机可读存储介质，当所述计算机指令在计算机上运行时，使得计算机还执行以下步骤：

对所述法院判定原因进行分句与切词，得到每个语句对应的单词序列；

使用预置的组合词性标注器对各单词序列进行词性标注，得到各单词序列的词性标注结果；

根据所述词性标注结果与预置依存标注表，标识各单词序列中各单词之间的依存关系；

基于各单词序列中各单词之间的依存关系，构建对应的句法分析树；

遍历所述句法分析树，并基于预置的中文语法规则，识别所述句法分析树中的核心词以及所述核心词对应的主语和宾语；

以所述核心词为实体关系、以所述核心词对应的主语和宾语为命名实体对象，构建实体关系三元组，其中，所述实体关系三元组用于描述法院判定原因中命名实体对象以及命名实体对象之间的实体关系。
一种法律案件知识图谱查询装置，其中，所述法律案件知识图谱查询包括：

接收模块，用于接收客户端发起的法律案件信息的查询请求；

提取模块，用于提取所述查询请求中的查询关键词；

检索模块，用于根据所述查询关键词，在预置的法律案件知识图谱库中检索目标关键词实体对象，并将与所述目标关键词实体对象匹配的法律案件信息输出至所述客户端；

其中，所述法律案件知识图谱通过结合法理法规数据以及判案手册数据对裁判文书数据进行实体对象及实体对象关系抽取后构建得到。