WO2023178767A1

WO2023178767A1 - 基于企业征信大数据知识图谱的企业风险检测方法和装置

Info

Publication number: WO2023178767A1
Application number: PCT/CN2022/087210
Authority: WO
Inventors: 宋美娜; 刘毓; 鄂海红; 欧中洪; 张光卫; 于勰; 董亚飞; 李国英; 冯煜; 国晓雪; 郭京荆
Original assignee: 北京邮电大学
Priority date: 2022-03-24
Filing date: 2022-04-15
Publication date: 2023-09-28
Also published as: CN114817557A

Abstract

本公开公开了基于企业征信大数据知识图谱的企业风险检测方法和装置，其中，该方法包括：通过分散数据子域数据构建企业征信大数据统一信息模型；基于企业征信大数据统一信息模型，利用自顶向下方式构建第一企业征信大数据领域本体；以及通过自底向上的构建方式对企业征信大数据领域中的数据进行实体抽取和关系抽取，选取优质新词扩充第一企业征信大数据领域本体规模，以构建第二企业征信大数据领域本体；基于构建好的本体，利用企业征信大数据构建企业征信大数据知识图谱，通过知识图谱进行特征获取，将获取的特征数据输入训练好的风控模型输出分类结果，并用于分类企业。本公开提升了企业征信领域知识图谱本体的精确性，提升了风控模型的性能。

Description

基于企业征信大数据知识图谱的企业风险检测方法和装置

相关申请的交叉引用

本申请基于申请号为202210302732.0、申请日为2022年03月24日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本公开涉及企业风险检测领域，尤其涉及一种基于企业征信大数据知识图谱的企业风险检测方法和装置。

背景技术

目前在基于知识图谱的企业风险检测方法中，主流的方式是提取知识图谱中企业节点属性作为基本属性特征，以及提取知识图谱中企业与其余企业实体的关系作为关联关系特征，将企业的基本属性特征与关联关系特征一并作为后续风控模型的特征进行输入。有人提取企业在网络中的特征信息，包括其在网络中的一阶、二阶邻居关系中违约企业的数量和比重等作为企业的关系特征，结合企业的基本属性特征，输入梯度提升决策树分类模型。有人根据业务与数据背景，定义了与企业风险相关的三种知识图谱。知识图谱网络分别为企业上下游、投资融资、密切关联知识图谱，并使用社区发现算法获取企业之间的亲疏关系。有人通过股权关系、人事关系等数据，全面挖掘企业关联，构建企业征信知识图谱，基于图谱构建了两种模型，分别为企业关联关系分析模型，企业群体关联风险模型，帮助在商业银在信贷全流程中识别企业风险。

如上所述，目前基于知识图谱的企业风险检测方法中，方法所用到的特征主要分为两类，第一类为基本属性特征(主要是企业在金融、司法领域的数据)，第二类为关联关系特征(体现知识图谱中企业实体与其余企业实体密切关系)。

但基于征信数据隐私性较强的特点，不同行业不能共享征信数据，征信数据存在不全面和信息孤岛的挑战。构建企业征信图谱的基础是企业征信数据，因此现阶段已有的企业征信图谱都存在信息缺失等问题，企业征信图谱中企业实体属性仅来源于金融、司法等领域，难以完全表示企业的信用状况，数据维度有待增加，模型效果有待提升。

发明内容

本公开旨在至少在一定程度上解决相关技术中的技术问题之一。

本公开一方面提出了基于企业征信大数据知识图谱的企业风险检测方法，包括：

基于多个分散数据子域获得企业征信大数据统一信息模型；其中，所述企业征信大数据统一信息模型包括层次化企业信息架构和层次化关键人员架构；通过所述层次化关键人员架构的企业信息和所述层次化企业信息架构的企业人员信息，提取关键人物与企业之间的关系，以实现企业征信大数据跨域连接；基于实现所述跨域连接的企业征信大数据统一信息模型，利用自顶向下方式构建第一企业征信大数据领域本体；以及通过自底向上的构建方式，对所述企业征信大数据领域中的数据进行实体抽取和关系抽取，选取优质新词扩充所述第一企业征信大数据领域本体规模，以构建第二企业征信大数据领域本体；基于所述第二企业征信大数据领域本体，利用企业征信大数据构建企业征信大数据知识图谱并存储在图数据库中；利用所述企业征信大数据知识图谱进行企业特征数据获取，将获取的所述企业特征数据输入训练好的风控模型进行计算分类并输出分类结果。

根据本公开实施例的基于企业征信大数据知识图谱的企业风险检测方法，通过自顶向下严格的概念定义限制和关系限制，并融合自底向上的方式扩充本体规模，极大提升了企业征信领域知识图谱本体的精确性，为之后生成高质量的知识图谱打下坚实基础，并且创新性的引入了企业研发创新能力特征作为风控模型的输入，提升了企业征信领域知识图谱本体的精确性，也提升了风控模型的性能。

在一些实施方式中，所述企业征信大数据统一信息模型的层次化企业信息架构，包括：企业基本信息、企业人员信息、企业经营信息、企业资产信息、企业知识产权信息、企业财务信息、企业股权信息、司法数据、企业风险信息和辅助参考信息子域中的多种。

在一些实施方式中，所述通过自底向上的构建方式，对所述企业征信大数据领域中的数据进行实体抽取和关系抽取，选取优质新词扩充所述第一企业征信大数据领域本体规模，以构建第二企业征信大数据领域本体，包括：通过自底向上构建方式，对所述户企业征信大数据领域中的数据进行实体抽取和关系抽取；基于所述实体抽取和关系抽取，识别出所述数据中的命名实体与关系实例，并对于未能识别出的所述命名实体与关系实例进行质量判定；基于所述质量判定确定质量排名，选取优质新词并扩展所述第一企业征信大数据领域本体，以构建所述第二企业征信大数据领域本体。

在一些实施方式中，所述企业特征数据获取，包括：获取企业的基本属性特征、关联关系特征和研发创新能力特征；其中，从所述企业征信大数据知识图谱中获取所述企业的基本属性特征和所述企业的研发创新能力特征；以及，通过四类关系进行企业关系特征抽取，并通过最短路径算法以及社区发现算法，提取所述企业征信大数据知识图谱中的网络特征以获取所述企业的关联关系特征；其中，所述四类关系包括参股关系、投资关系、交易关系和诉讼关系。

在一些实施方式中，所述风控模型，包括：数据预处理、特征处理工程和结果分类。

在一些实施方式中，所述数据预处理，包括：对获取的所述企业特征数据进行预处理，将日期型数据转化为字符型变量，然后对全部字符型变量进行转化，得到数值型数据，提取所述数值型数据的IV值、WOE、efficiency和rate。

在一些实施方式中，所述IV值、WOE、efficiency和rate的公式为：

其中，Good _i和Bad _i表示统计每个分箱里的未违约企业数和违约企业数，Good _T和Bad _T分别表示总的未违约企业数和违约企业数。

在一些实施方式中，所述特征处理工程，包括：删除缺失值超过50％的特征、只含有唯一值的特征、和其他特征相关性高于60％的特征、在梯度增强器中特征重要性为0.0的特征，从所述梯度增强器中不贡献累积特征重要性99％的低重要性特征。

在一些实施方式中，所述结果分类，包括：获取所述企业特征数据样本和企业标签；利用所述企业特征数据样本和企业标签有监督的训练LightGBM分类模型，得到训练好的LightGBM分类模型；将所述特征处理工程处理后的特征，输入所述训练好的LightGBM分类模型，进行计算分类得到分类结果；其中，所述分类结果分为违约与正常。

本公开另一方面提出了一种基于企业征信大数据知识图谱的企业风险检测装置，包括：

信息获取模块，用于基于多个分散数据子域获得企业征信大数据统一信息模型；其中，所述企业征信大数据统一信息模型包括层次化企业信息架构和层次化关键人员架构；

关系连接模块，用于通过所述层次化关键人员架构的企业信息和所述层次化企业信息架构的企业人员信息，提取关键人物与企业之间的关系，以实现企业征信大数据跨域连接；

本体构建模块，用于基于实现所述跨域连接的企业征信大数据统一信息模型，利用自顶向下方式确定企业征信大数据领域并构建第一企业征信大数据领域本体；以及通过自底向上的构建方式，对所述企业征信大数据领域中的数据进行实体抽取和关系抽取，选取优质新词并扩充所述第一企业征信大数据领域本体规模，以构建第二企业征信大数据领域本体；

图谱构建模块，用于基于所述第二企业征信大数据领域本体，利用企业征信大数据构建企业征信大数据知识图谱并存储在图数据库中；

计算分类模块，用于利用所述企业征信大数据知识图谱进行企业特征数据获取，将获取的所述企业特征数据输入训练好的风控模型进行计算分类并输出分类结果。

本公开实施例的基于企业征信大数据知识图谱的企业风险检测装置，通过自顶向下严格的概念定义限制和关系限制，并融合自底向上的方式扩充本体规模，极大提升了企业征信领域知识图谱本体的精确性，为之后生成高质量的知识图谱打下坚实基础，并且创新性的引入了企业研发创新能力特征作为风控模型的输入，提升了企业征信领域知识图谱本体的精确性，也提升了风控模型的性能。

本公开另一方面实施例提出了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被处理器执行时实现如上所述的基于企业征信大数据知识图谱的企业风险检测方法。

本公开另一方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于企业征信大数据知识图谱的企业风险检测方法。

本公开另一方面实施例提出了一种计算机程序产品，包括计算机指令，所述计算机指令被至少一个处理器执行时实现如上所述的基于企业征信大数据知识图谱的企业风险检测方法。

本公开提出的企业征信大数据知识图谱构建技术，解决了现阶段已有的企业征信图谱都存在信息缺失等问题。

本公开提出的引入企业研发创新能力特征的风控模型，性能超越了传统的基于企业征信知识图谱的风控模型，便于提前识别违约企业，降低风险。

本公开附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本公开实施例的基于企业征信大数据知识图谱的企业风险检测架构示意图；

图2为根据本公开实施例的基于企业征信大数据知识图谱的企业风险检测方法的流程图；

图3为根据本公开实施例的企业征信大数据统一信息模型的层次化企业信息的架构示意图；

图4(a)和图4(b)为根据本公开实施例的企业征信大数据统一信息模型的企业财务信息二级架构的示意图；

图5为根据本公开实施例的企业征信大数据统一信息模型的层次化关键人员的架构示意图；

图6为根据本公开实施例的自顶向下、自底向上为辅的企业征信大数据知识图谱本体的流程示意图；

图7为根据本公开实施例的风控模型设计的流程示意图；

图8为根据本公开实施例的基于企业征信大数据知识图谱的企业风险检测装置的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

为了使本技术领域的人员更好地理解本公开方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

下面参照附图描述根据本公开实施例提出的基于企业征信大数据知识图谱的企业风险检测方法及装置，首先将参照附图描述根据本公开实施例提出的基于企业征信大数据知识图谱的企业风险检测方法。

本公开实施例的基于企业征信大数据知识图谱的企业风险检测方法，整体流程如图1所示。在原始的风控模型基础上，本公开实施例增加了企业研发创新能力特征来增加特征的层次与维度。除了特征的增加，本公开实施例的企业风险监测方法中企业风控模型使用的是LightGBM，由于LightGBM实际上采用的是基于决策树算法的梯度提升框架。因此LightGBM在训练过程中还能可以得到特征对于模型的重要性，用于评价不同特征对企业是否违约的影响程度。

图2是本公开一个实施例的基于企业征信大数据知识图谱的企业风险检测方法的流程图。

如图2所示，该基于企业征信大数据知识图谱的企业风险检测方法包括以下步骤：

步骤S1，基于多个分散数据子域获得企业征信大数据统一信息模型；其中，企业征信大数据统一信息模型包括层次化企业信息架构和层次化关键人员架构。

本公开实施例通过运用专家知识、研究一系列相关的企业征信数据标准体系，调研企业征信知识图谱相关的论文与专利，从现有的政务、工商、司法、舆论等各分散数据子域中提炼出“企业-关键人物“联合框架，设计出一套面向企业征信大数据场景的层次化企业信息架构和关键人员架构，以各类实体间关系的为连接边，实现了企业征信大数据的全域实体关联。

企业征信大数据统一信息模型的层次化企业信息架构由企业基本信息，企业人员信息，企业经营信息，企业资产信息，企业知识产权信息，企业财务信息，企业股权信息，司法数据，企业风险信息，辅助参考等10个信息子域共同支撑，企业征信大数据统一信息模型的层次化企业信息架构如图3所示。

如图4(a)和图4(b)所示，以企业财务数据为例，展示企业信息架构的细粒度视图。

步骤S2，通过层次化关键人员架构的企业信息和层次化企业信息架构的企业人员信息，提取关键人物与企业之间的关系，以实现企业征信大数据跨域连接。

可以理解的是，企业征信大数据统一信息模型层次化关键人员架构的视图由基础信息、工作信息、社会关系、历史风险等四个信息子域构成，借助关键人员架构里的企业信息和企业信息架构里的企业人员信息，即可打通该架构与企业架构的关联壁垒，形成实体对象之间的映射关系，从而实现征信大数据“企业-关键人员”的层次化和关联化，初步解决了企业征信大数据跨域连接难的问题。

如图5所示，为企业征信大数据统一信息模型的层次化关键人员架构的视图。

面向企业征信大数据场景的层次化企业信息架构和关键人物信息架构，希望以“双核心”的方式实现企业征信大数据全域实体关联，需要定义实体之间的关系。实体关系设置如表1。

表1：实体关系设计表

步骤S3，基于实现跨域连接的企业征信大数据统一信息模型，利用自顶向下方式构建第一企业征信大数据领域本体；以及通过自底向上的构建方式，对企业征信大数据领域中的数据进行实体抽取和关系抽取，选取优质新词扩充第一企业征信大数据领域本体规模，以构建第二企业征信大数据领域本体。

构建高质量企业征信大数据知识图谱的第一步就是定义准确清晰的知识模式(schema)，即给出描述企业征信领域基本认知框架的本体。然而传统的仅聚焦于“自顶向下法”的构建方法对领域专家的依赖性较大。而“自底向上法”以及海量、多源、异构的数据，是自底向上构建本体和后续知识融合的巨大挑战。

基于单一知识图谱本体构建方法存在的缺陷，使用一种基于“自顶向下为主，自底向上为辅”的企业征信大数据知识图谱本体构建方法，通过自顶向下的方法约束概念与关系，并融合自底向上的方法扩充本体的规模，极大提升了知识图谱本体的精确度和精细程度，为之后生成高质量的知识图谱打下坚实基础，具体建设流程如图6所示。

利用自顶向下方式形成领域本体，需要挖掘领域知识库的知识和听取领域专家的建议，构建领域本体。领域知识库包括但不仅限该领域的互联网知识库、百科网站、行业权威指南、元数据国家标准和关系型数据库等。例如，本公开实施例提及的基于层次化企业信息架构和关键人员信息架构归纳的“企业-关键人员体系”，有序组织了企业征信大数据领域的海量数据资源。从该标签体系中，可以筛选出企业征信领域高质量的概念和属性，以及概念之间的相互关系，构建领域本体雏形。

利用自顶向下的方法创建的领域本体，已经能够指导构建企业征信大数据知识图谱实例库。但是由于企业征信领域数据资源规模的增长，仅由自顶向下方式构建的企业征信领域本体模型，限制于规模，无法满足后续知识图谱构建技术(如知识抽取与知识融合)的需求。企业征信领域多源、海量、异构的数据资源如果能够加以整理、利用、完善，可以为企业征信领域的知识图谱构建生成巨大的数据推动力，因此自底向上的构建方式也是企业征信大数据知识图谱本体和数据构建中的重要一环。自底向上的辅线构建流程，首先是对企业征信领域中数据进行实体抽取和关系抽取，提取出该数据中的命名实体与关系实例，对于未能识别出命名实体与关系实例进行质量判定。征信专家判定质量排名靠前的新词是否为高质量短语，并扩展当前的企业征信领域本体结构。

步骤S4，基于第二企业征信大数据领域本体，利用企业征信大数据构建企业征信大数据知识图谱并存储在图数据库中。

利用上述方法构建企业征信大数据知识图谱本体后，利用已有的企业征信大数据构建知识图谱并存储进Neo4j图数据库中，为后续风控模型提供数据基础。

步骤S5，利用企业征信大数据知识图谱进行企业特征数据获取，将获取的企业特征数据输入训练好的风控模型进行计算分类并输出分类结果。

在企业风控模型模块中，从企业征信大数据知识图谱中获取企业的基本属性特征、关联关系特征、研发创新能力特征，将其进行处理，共同做为风控模型的输入，对LightGBM分类模型做有监督训练。通过引入企业研发创新能力特征，提升了风控模型的性能。本公开实施例的处理流程如图7所示，包括：

(1)数据获取模块：

在企业征信大数据知识图谱中，企业基本属性能力特征与研发创新能力特征都以企业节点属性的形式存在，直接从Neo4j图数据库中导出即可。企业关联关系特征是为了体现该企业实体与违约企业实体的亲疏关系。由于异构网络中的节点与边的类型多种多样，提取图的特征和困难程度被提高，因此提案限定本企业征信大数据知识图谱为同构网络，限制关系两端的节点只能为企业，并将人物节点进行折叠归约，降低人物对网络的干扰，保证每条关系都介于企业间。结合已有的数据和传统认知逻辑，保留四类风险较高的企业关系：参股关系、投资关系、交易关系、诉讼关系。并基于这四类关系进行企业关系特征抽取，提取知识图谱中网络特征的方式为最短路径算法以及社区发现算法。

提取的网络特征如表2所示：

表2：企业关联关系表

研发创新能力特征如表3所示：

表3：研发创新能力类

(2)数据预处理模块：

对使用信用评分卡提取改非数据型数据的IV值(Information Value)、WOE、efficiency、rate作为模型新增的特征进行后续的处理。

企业数据中含有许多纯字符串格式的属性，例如企业类型，行业门类等特定长度代码型数据。也包含成立日期，核准日期等日期型数据。对于日期型数据，首先现对其进行转化，将其统一转化为秒单位的数值型数据，再将其转化为字符型格式。然后对全部的字符型变量进行转化，使其变成数值型数据，提取其IV值(Information Value)、WOE、efficiency、rate。

WOE、IV、Efficiency、rate的公式如下：

其中Good _i和Bad _i表示统计每个分箱里的未违约企业数和违约企业数。Good _T和Bad _T分别表示总的未违约企业数和违约企业数。

(3)特征工程模块：

在特征工程环节，为了处理原始数据存在大量缺失值，且特征之间相关性过高等问题，首先需要对特征进行处理。主要步骤分为删除缺失值超过50％的特征、只含有唯一值的特征、和其他特征相关性高于60％的特征、在梯度增强器(gbm)中特征重要性为0.0的特征，从gbm中不贡献累积特征重要性99％的低重要性特征。

(4)分类模块：

该模块使用的是LightGBM算法，将特征工程模块处理过后的特征输入模型中即可得到分类结果，结果分类两种，违约与正常。由于LightGBM实际上采用的是基于决策树算法的梯度提升框架。因此LightGBM在训练过程中可以得到特征对于模型的重要性。特征的重要性程度能够作为评价不同特征对企业是否违约的影响程度。

通过上述步骤，通过自顶向下严格的概念定义限制和关系限制，并融合自底向上的方式扩充本体规模，极大提升了企业征信领域知识图谱本体的精确性，为之后生成高质量的知识图谱打下坚实基础，并且创新性的引入了企业研发创新能力特征作为风控模型的输入，提升了企业征信领域知识图谱本体的精确性，也提升了风控模型的性能。

为了实现上述实施例，如图8所示，本实施例中还提供了一种基于企业征信大数据知识图谱的企业风险检测装置10，该装置10包括：信息获取模块100，关系连接模块200，本体构建模块300，图谱构建模块400，计算分类模块500。

信息获取模块100，用于基于多个分散数据子域获得企业征信大数据统一信息模型；其中，企业征信大数据统一信息模型包括层次化企业信息架构和层次化关键人员架构。

关系连接模块200，用于通过层次化关键人员架构的企业信息和层次化企业信息架构的企业人员信息，提取关键人物与企业之间的关系，以实现企业征信大数据跨域连接。

本体构建模块300，用于基于实现跨域连接的企业征信大数据统一信息模型，利用自顶向下方式确定企业征信大数据领域并构建第一企业征信大数据领域本体；以及通过自底向上的构建方式，对企业征信大数据领域中的数据进行实体抽取和关系抽取，选取优质新词并扩充第一企业征信大数据领域本体规模，以构建第二企业征信大数据领域本体。

图谱构建模块400，用于基于第二企业征信大数据领域本体，利用企业征信大数据构建企业征信大数据知识图谱并存储在图数据库中。

计算分类模块500，用于利用企业征信大数据知识图谱进行企业特征数据获取，将获取的企业特征数据输入训练好的风控模型进行计算分类并输出分类结果。

根据本公开实施例的基于企业征信大数据知识图谱的企业风险检测装置，通过自顶向下严格的概念定义限制和关系限制，并融合自底向上的方式扩充本体规模，极大提升了企业征信领域知识图谱本体的精确性，为之后生成高质量的知识图谱打下坚实基础，并且创新性的引入了企业研发创新能力特征作为风控模型的输入，提升了企业征信领域知识图谱本体的精确性，也提升了风控模型的性能。

需要说明的是，前述对基于企业征信大数据知识图谱的企业风险检测方法实施例的解释说明也适用于该实施例的基于企业征信大数据知识图谱的企业风险检测装置，此处不再赘述。

本申请实施例提出了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被处理器执行时实现如上所述的基于企业征信大数据知识图谱的企业风险检测方法。

本申请实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于企业征信大数据知识图谱的企业风险检测方法。

本申请实施例提出了一种计算机程序产品，包括计算机指令，所述计算机指令被至少一个处理器执行时实现如上所述的基于企业征信大数据知识图谱的企业风险检测方法。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本公开各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本公开的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本公开的限制，本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

一种基于企业征信大数据知识图谱的企业风险检测方法，包括：

基于多个分散数据子域获得企业征信大数据统一信息模型；其中，所述企业征信大数据统一信息模型包括层次化企业信息架构和层次化关键人员架构；

通过所述层次化关键人员架构的企业信息和所述层次化企业信息架构的企业人员信息，提取关键人物与企业之间的关系，以实现企业征信大数据跨域连接；

基于实现所述跨域连接的企业征信大数据统一信息模型，利用自顶向下方式构建第一企业征信大数据领域本体；以及通过自底向上的构建方式，对所述企业征信大数据领域中的数据进行实体抽取和关系抽取，选取优质新词扩充所述第一企业征信大数据领域本体规模，以构建第二企业征信大数据领域本体；

基于所述第二企业征信大数据领域本体，利用企业征信大数据构建企业征信大数据知识图谱并存储在图数据库中；

利用所述企业征信大数据知识图谱进行企业特征数据获取，将获取的所述企业特征数据输入训练好的风控模型进行计算分类并输出分类结果。
根据权利要求1所述的方法，其中，所述企业征信大数据统一信息模型的层次化企业信息架构，包括：

企业基本信息、企业人员信息、企业经营信息、企业资产信息、企业知识产权信息、企业财务信息、企业股权信息、司法数据、企业风险信息和辅助参考信息子域中的多种。
根据权利要求1或2所述的方法，其中，所述通过自底向上的构建方式，对所述企业征信大数据领域中的数据进行实体抽取和关系抽取，选取优质新词扩充所述第一企业征信大数据领域本体规模，以构建第二企业征信大数据领域本体，包括：

通过自底向上的构建方式，对所述企业征信大数据领域中的数据进行实体抽取和关系抽取；

基于所述实体抽取和关系抽取，识别出所述数据中的命名实体与关系实例，并对于未能识别出的命名实体与关系实例进行质量判定；

基于所述质量判定确定质量排名，选取优质新词并扩展所述第一企业征信大数据领域本体，以构建所述第二企业征信大数据领域本体。
根据权利要求1至3中任一项所述的方法，其中，所述企业特征数据获取，包括：获取企业的基本属性特征、关联关系特征和研发创新能力特征；其中，

从所述企业征信大数据知识图谱中获取所述企业的基本属性特征和所述企业的研发创新能力特征；以及，通过四类关系进行企业关系特征抽取，并通过最短路径算法以及社区发现算法，提取所述企业征信大数据知识图谱中的网络特征以获取所述企业的关联关系特征；其中，所述四类关系包括参股关系、投资关系、交易关系和诉讼关系。
根据权利要求1至4中任一项所述的方法，其中，所述风控模型，包括：数据预处理、特征处理工程和结果分类。
根据权利要求5所述的方法，其中，所述数据预处理，包括：

对获取的所述企业特征数据进行预处理，将日期型数据转化为字符型变量，然后对全部字符型变量进行转化，得到数值型数据，提取所述数值型数据的IV值、WOE、efficiency和rate。
根据权利要求6所述的方法，其中，所述IV值、WOE、efficiency和rate的公式为：

其中，Good _i和Bad _i表示统计每个分箱里的未违约企业数和违约企业数，Good _T和Bad _T分别表示总的未违约企业数和违约企业数。
根据权利要求5至7中任一项所述的方法，其中，所述特征处理工程，包括：

删除缺失值超过50％的特征、只含有唯一值的特征、和其他特征相关性高于60％的特征、在梯度增强器中特征重要性为0.0的特征，从所述梯度增强器中不贡献累积特征重要性99％的低重要性特征。
根据权利要求5至8中任一项所述的方法，其中，所述结果分类，包括：

获取所述企业特征数据样本和企业标签；

利用所述企业特征数据样本和企业标签有监督的训练LightGBM分类模型，得到训练好的LightGBM分类模型；

将所述特征处理工程处理后的特征，输入所述训练好的LightGBM分类模型，进行计算分类得到分类结果；其中，所述分类结果分为违约与正常。
一种基于企业征信大数据知识图谱的企业风险检测装置，包括：

信息获取模块，用于基于多个分散数据子域获得企业征信大数据统一信息模型；其中，所述企业征信大数据统一信息模型包括层次化企业信息架构和层次化关键人员架构；

关系连接模块，用于通过所述层次化关键人员架构的企业信息和所述层次化企业信息架构的企业人员信息，提取关键人物与企业之间的关系，以实现企业征信大数据跨域连接；

本体构建模块，用于基于实现所述跨域连接的企业征信大数据统一信息模型，利用自顶向下方式确定企业征信大数据领域并构建第一企业征信大数据领域本体；以及通过自底向上的构建方式，对所述企业征信大数据领域中的数据进行实体抽取和关系抽取，选取优质新词并扩充所述第一企业征信大数据领域本体规模，以构建第二企业征信大数据领域本体；

图谱构建模块，用于基于所述第二企业征信大数据领域本体，利用企业征信大数据构建企业征信大数据知识图谱并存储在图数据库中；

计算分类模块，用于利用所述企业征信大数据知识图谱进行企业特征数据获取，将获取的所述企业特征数据输入训练好的风控模型进行计算分类并输出分类结果。
一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的基于企业征信大数据知识图谱的企业风险检测方法。
一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的基于企业征信大数据知识图谱的企业风险检测方法。
一种计算机程序产品，包括计算机指令，所述计算机指令被至少一个处理器执行时实现如权利要求1至9中任一项所述的基于企业征信大数据知识图谱的企业风险检测方法。