WO2022121083A1

WO2022121083A1 - 基于关联分析FP-Tree算法的企业风险预警方法

Info

Publication number: WO2022121083A1
Application number: PCT/CN2021/071403
Authority: WO
Inventors: 吴志雄; 甘建武; 李晓琼; 黄鼎
Original assignee: 南威软件股份有限公司
Priority date: 2020-12-09
Filing date: 2021-01-13
Publication date: 2022-06-16
Also published as: CN112465393A; CN112465393B

Abstract

本发明涉及一种基于关联分析FP-Tree算法的企业风险预警方法。构建企业指标数据集，而后运用互熵-区间套法进行分箱、卡方检验相关性筛选指标，最后运用关联分析FP-Tree算法进行企业风险预警。本发明不仅能够从单指标数据分析企业风险，也可以综合两个及以上指标数据挖掘企业风险，更全面挖掘企业存在的风险。

Description

基于关联分析FP-Tree算法的企业风险预警方法

技术领域

本发明属于企业风险预警领域，具体涉及一种基于关联分析FP-Tree算法的企业风险预警方法。

背景技术

企业活动作为集合经济、技术、管理、组织等各方面的综合性社会活动，在各个方面都存在着不确定性。企业风险预警就是通过建立风险评估体系，进而进行风险预控，化解风险的发生，并将风险造成的损失降至最低程度的有效手段。开展企业活动的风险分析与管理，预防和化解风险的发生，将风险造成的损失控制在最低限度，已成为保证企业经营活动并创造最大效益的重要措施之一。企业风险预警指标体系是衡量企业金融风险状况的标尺和重要依据。构建符合企业特点的风险预警指标体系要遵循以下基本原则：(1)全面性原则；(2)科学性原则；(3)目的性原则；(4)典型性原则；(5)可操作性原则；(6)公正性原则。

现有技术中，将企业风险分为内部风险和外部风险，包含四大风险综合指标：财务类、技术类、经营类和战略类。

(1)财务风险因子：包括流动性、筹资、投资、清偿、盈利、资产利用、成长等方面。

(2)技术风险因子：包括商标、专利、软件著作权、作品、关键技术等。

(3)经营风险因子：包括司法、经营异常、行政处罚等。

(4)战略风险因子：包括竞品、企业关联、发展历史等。

当前，企业风险预警多采用以下方法：在外部环境风险方面，借鉴六力分析模型，分析企业所处的竞争环境；在内部环境风险方面，结合国内外研究文献和数据的可得性，建立以财务风险因子、技术风险因子、经营风险因子、战略风险因子为主的指标体系，而常用的评级的方法有判别分析法、综合评判法、模糊分析法等，最后，依据评判结果设置预警区间，并采取相应对策。

现有技术的预警是从单指标数据分析或整体指标数据进行分析，且由于企业基本专业知识欠缺、企业数据维度高以及企业数据量大的现状，以及目前企业风险预警在信息获取、更新、处理和分析上都需要较长的时间，且无法实现动态处理，严重影响了风险预警的时效性，这在很大程度上使得企业风险预警存在严重的时间误差。

发明内容

本发明的目的在于提供一种基于关联分析FP-Tree算法的企业风险预警方法，不仅能够从单指标数据分析企业风险，也可以综合两个及以上指标数据挖掘企业风险，更全面挖掘企业存在的风险。

为实现上述目的，本发明的技术方案是：一种基于关联分析FP-Tree算法的企业风险预警方法，包括如下步骤：

步骤S1、根据历史企业相关行为数据，分析衡量企业风险状况的标尺和重要依据，设计风险指标体系X＝{x ₁,x ₂,…,x _i}，x _i表示风险指标体系的第i个指标的名称；

步骤S2、根据风险指标体系，运用大数据分析形成风险规则，即由一个或多个指标的值等于一预定值或预定区间值，认为企业可能存在相应风险，得到风险规则集B：

其中，X _k为指标体系X的子集；risk _k为由X _k分析推理得到的相对应的风险文字描述；

步骤S3、采集企业相关行为数据，并构建企业风险预警模型的训练指标数据集及待预警企业指标数据集，训练指标数据集中训练集：测试集＝4:1；

步骤S4、基于训练指标数据集，通过企业信用维度数据计算获得企业对应的风险等级，计算公式如下：

其中，creditScore _new表示最新信用风险分值归一化后数值，100·creditScore _new作为风险得分的基础分值；creditScore _i表示前i年信用风险分值，

代表信用分数的稳定性情况；riskListCount表示近5年来列入黑名单或失信名单次数，4·riskListCount代表被列入黑名单或失信名单风险；

步骤S5、运用互熵-区间套法进行分箱、卡方检验相关性筛选指标，根据分箱结果进行指标的字符化，并保存分箱规则以及筛选后剩余的指标列表；

步骤S6、获取关联规则集：运用关联分析FP-Tree算法挖掘企业各风险等级的企业行为的关联规则，遍历关联规则并将其整合为由指标集、风险等级及置信度组成的关联规则集，关联规则集由以“(指标集):(风险等级,置信度)”形式且置信度大于0.5的元素构成；

其中，A表示某一指标集；B表示某一风险等级；

表示由指标集A推理出风险等级B的置信度；count(A∩B)、count(A)分别表示指标集A中的元素和风险等级B同时存在同一样本的样本数量、指标集A中的元素存在同一样本的样本数量；

步骤S7、根据步骤S6得到的关联规则集以及步骤S2得到的风险规则集，基于待预警企业指标数据集对待预警企业进行预警，预警企业命中的关联规则，预测企业风险等级及可能存在的风险点，输出预警结果。

在本发明一实施例中，步骤S5中，运用互熵-区间套法进行分箱、卡方检验相关性筛选指标的具体实现方式如下：

对于值种类超过5个的离散变量属性的指标及连续变量的指标，运用有监督的互熵-区间套法对指标变量进行分箱并根据分箱结果字符化连续变量，降低模型过拟合的风险；

互熵-区间套法进行分箱步骤如下：

第0步，预先设定一个阈值threshold以及最大分箱数n；

对待分箱指标I，有

初始分箱边界值集为Boundary＝{a,b}，对指标I进行分箱：

第1步，取

将[a,b]划分为两个区间[a,a ₀]、(a ₀,b]，结合互信息和信息熵，提出一种新的类别不确定评价函数MiEntropy：

其中，t为区间；C为类别集合，C＝{c ₁,c ₂,…,c _m}，m为类别个数；p(c _i)、p(t)、p(t,c _i)分别是训练集中c _i类的样本数、指标值在区间t的样本数、指标值在区间t且属于c _i类的样本数与训练集样本总数的比例，p(c _i|t)指标值在区间t且属于c _i的样本数与指标值在区间t的样本数的比例，η为超参数，且满足η∈[0,1]；

应用MiEntropy对[a,a ₀]、(a ₀,b]进行评价，转第2步；

第2步，若MiEntropy([a,a ₀])≥throshold或MiEntropy((a ₀,b])≥throshold，则将a ₀添加至 Boundary中，转第3步；

第3步，根据Boundary获得指标I的分箱数numb(I)：

若numb(I)≥n，则停止分箱

若MiEntropy([a,a ₀])≥throshold，取a＝a,b＝a ₀并跳至第1步；

若MiEntropy((a ₀,b])≥throshold，取a＝a ₀,b＝b并跳至第1步；

若MiEntropy([a,a ₀])≤MiEntropy((a ₀,b])<throshold，取a＝a ₀,b＝b并跳至第1步；

若MiEntropy((a ₀,b])≤MiEntropy([a,a ₀])<throshold，取a＝a,b＝a ₀并跳至第1步；

第4步，分箱结束后，得到一个分箱边界集，将其按照小到大的顺序排序得到Boundary＝{a,a ₁,a ₂,…,a _k,b}，根据Boundary将指标I分为k+1箱：{[a,a ₁],(a ₁,a ₂],…,(a _k,b]}；

卡方检验相关性筛选指标具体为：通过卡方检验检验指标变量与企业风险的相关性，过滤对预警助益不大的指标，卡方检验进行相关分析的结果基于有监督的分箱进行划分样本空间。

在本发明一实施例中，步骤S7的具体实现方式如下：

首先，对待预警企业指标数据集中待预警企业指标数据字符化：指标数据的转化，由步骤S5的分箱规则决定，将原始指标数据转换为相对应的字符标识，得到该企业的转化后的指标集

其中，C _i为第i个样本企业各指标值字符化后的结果集合；

表示第i个样本企业第c _i个指标字符化结果值；

其次，获取命中关联规则：遍历关联规则，若关联规则的指标集

满足C _i∩R _j＝R _j，则表示该企业命中R _j对应的关联规则，因此，得到企业命中风险规则指标集：

其中，

表示第i个预警企业第q _i个命中的风险规则的指标集；

表示第i个预警企业第q _i个命中的风险规则的风险等级；

表示第i个预警企业第q _i个命中的风险规则的置信度；

然后，获取风险等级：风险等级由命中关联规则的风险等级和置信度所决定的，将关联规则的风险等级转换为对应分值，置信度作为权值进行加权平均，计算得到最终的风险分数，并根据各风险等级的分值区间获得风险等级；

其中，高风险用P0表示，中高风险有两个等级，即P1、P2，且P1的风险大于P2，低风险用P3表示，无风险用P4表示；riskScore _i表示第i个预警企业的风险得分；SP _ij表示第i个预警企业第j个命中的风险规则的风险等级得分；P _ij表示第i个预警企业第j个命中的风险规则的风险等级；Conf _ij表示第i个预警企业第j个命中的风险规则的置信度；r _i表示第i个预警企业命中的风险规则的置信度之和；riskLevel为风险得分映射为风险等级的函数；

最后，获取风险描述：遍历步骤S2所得的风险规则集

以及企业命中风险规则指标集

若X _k∩R _ir＝X _k，则该企业大概率存在X _k所对应的风险点risk _k；遍历完成后，得到该企业风险点集

对风险点集中各元素以分号进行拼接得到其风险描述。

相较于现有技术，本发明具有以下有益效果：

(1)高创新性。本发明是关联分析FP-Tree算法在企业风险预警分析领域的具体应用，填补了关联分析算法在企业风险预警分析领域的空白，而在FP-Tree挖掘关联规则前的数据处理——运用卡方检验原理进行指标筛选、分箱，通过去除相关性较弱的指标以提升预警准确度，更能够全面得挖掘企业行为的风险。

(2)时效性。每次进行企业预警时，代码脚本从原始数据表中获取实时数据生成指标，且指标筛选和分箱、关联规则均进行相应的动态更新，使得本发明能够实时根据外界的变化进行自动调整以适应其发生的变化，很大程度上降低企业风险预警在数据处理和分析上存在的时间误差。

(3)低门槛。由于本发明所述的基于关联分析算法FP-Tree的企业风险预警分析方法对最终用户的使用来说是黑盒的，终端用户无需关心具体的模型构建过程，只需要将所需的企业基本信息和行为信息数据保存、更新至企业信息数据库中，本发明通过风险预警系统界面将所得到的预警线索展示于领域模型风险线索列表中。

附图说明

图1为本发明方法结构示意图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提供了一种基于关联分析FP-Tree算法的企业风险预警方法，包括如下步骤：

其中，A表示某一指标集；B表示某一风险等级；

表示由指标集A推理出风险等级B的置信度；count(A∩B)、count(A)分别表示指标集A中的元素和风险等级B同时存在同一样本的样本数量、指标集A中的元素同时存在同一样本的样本数量；

以下为本发明的具体实现过程。

本发明采用以下方案步骤实现：

步骤1，经过前期调研、研究企业各项行为数据，分析衡量企业风险状况的标尺和重要依据，设计风险指标体系X＝{x ₁,x ₂,…,x _i}，x _i表示指标体系的第i个指标的名称。例如，通过研究企业在行政检查行为、行政处罚行为信息、行政强制行为、履约历史、产品质量检查、投诉举报信息、信用等级评价等各个环节的行为数据以及企业自身属性，设计7个一级指标、30个二级指标、81个三级指标组成的风险指标体系；

表1企业风险指标体系

表1-续1

表1-续2

表1-续3

步骤2，根据指标体系，运用现有大数据分析形成风险规则，即由一个或多个指标的值等于某个特定值或属于某特定区间值，以此推理该企业可能存在某风险，得到风险规则集B：

其中，

表示第i个预警企业第q _i个命中的风险规则的指标集；

表示第i个预警企业第q _i个命中的风险规则的风险等级；

表示第i个预警企业第q _i个命中的风险规则的置信度；

以表1的建立的风险指标体系为例，根据企业一级指标年报公示中三级指标收入异常、资产异常、利润异常、人员异常、纳税异常、逻辑关系异常可以推理出“企业疑似存在逃税漏税、弄虚作假”的风险、或根据法人代表变更、企业名称变更、登记住所变更、其他变更登记事项近三年来次数均大于10次以及注册资本大幅增长或减少推理得到“企业基本信息、股权等变更过于频繁，疑似存在经营不稳定”的风险等等。

步骤3，建立模型训练数据标准，包括：企业相关行为数据(企业基础信息、行政检查行为信息、行政处罚行为信息、行政强制行为信息、履约历史、投诉举报信息、企业信用分数、企业产品信息表等)，通过数据治理体系，汇集训练数据，并编写python脚本实时生成本提案预警模型的训练指标数据集(训练集：测试集＝4:1)、待预警企业指标数据集；

步骤4，获取训练样本的目标变量，根据企业信用维度数据设计公式计算获得其对应的风险等级。结合企业近5年信用分数、近5年来列入黑名单或失信名单次数等数据对训练数据集样本进行风险等级评估，依据下述公式及各风险等级分值区间对训练样本企业进行风险等级评估，以此作为训练数据集的目标变量“Y”，后续将获得的目标变量“Y”与训练指标数据集输入关联分析算法中进行关联规则挖掘；

代表信用分数的稳定性情况；riskListCount表示近5年来列入黑名单或失信名单次数，4·riskListCount代表被列入黑名单或失信名单风险；表2为风险得分-风险等级对应表。

表2风险得分-风险等级对应表

riskScore	(-∞,20)	[20,40)	[40,60)	[60,80)	[80,+∞)
风险等级	无风险P4	低风险P3	中风险P2	中高风险P1	高风险P0

步骤5，运用互熵-区间套法进行分箱、卡方检验进行筛选指标(过滤对预警模型助益不大的指标)，根据分箱结果进行指标的字符化，并保存分箱规则以及筛选后剩余的指标列表。

进一步地，步骤5所述的卡方分箱字符化指标变量具体为：对于值种类超过5个的离散变量属性的指标及连续变量的指标，运用有监督的互熵-区间套法对指标变量进行分箱并根据分箱结果字符化连续变量，降低模型过拟合的风险，例如对于指标“企业注册资本(x1)”，在卡方分箱下将原始指标数据分为3箱，则字符化后该指标的数值转化为x1_bin0、x1_bin1或x1_bin2。

互熵-区间套法进行分箱步骤如下：

第0步，预先设定一个阈值threshold以及最大分箱数n；

对待分箱指标I，有I·[a,b]＝[min{I},max{I}]，初始分箱边界值集为Boundary＝{a,b}，对指标I进行分箱：

第1步，取

其中，t为区间；C为类别集合，C＝{c ₁,c ₂,…,c _m}，m为类别个数；p(c _i)、p(t)、p(t,c _i)分别是训练集中c _i类的样本数、指标值在区间t的样本数、指标值在区间t且属于c _i类的样本数与训练集样本总数的比例，p(c _i|t)指标值在区间t且属于c _i的样本数与指标值在区间t的样本数的比例，η为超参数，且满足η∈[0,1]，默认值为0.5。

应用MiEntropy对[a,a ₀]、(a ₀,b]进行评价，转第2步；

第2步，若MiEntropy([a,a ₀])≥throshold或MiEntropy((a ₀,b])≥throshold，则将a ₀添加至Boundary中，转第3步；

第3步，根据Boundary获得指标I的分箱数numb(I)：

若numb(I)≥n，则停止分箱

若MiEntropy([a,a ₀])≥throshold，取a＝a,b＝a ₀并跳至第1步；

若MiEntropy((a ₀,b])≥throshold，取a＝a ₀,b＝b并跳至第1步

若MiEntropy((a ₀,b])≤MiEntropy([a,a ₀])<throshold，取a＝a,b＝a ₀并跳至第1步。

第4步，分箱结束后，得到一个分箱边界集，将其按照小到大的顺序排序得到 Boundary＝{a,a ₁,a ₂,…,a _k,b}，根据Boundary将指标I分为k+1箱：{[a,a ₁],(a ₁,a ₂],…,(a _k,b]}。

卡方检验相关性筛选指标具体为：通过卡方检验检验指标变量与企业风险的相关性，过滤对预警助益不大的指标，但传统的卡方检验进行相关分析的结果依赖于样本空间的划分,不同的划分可能会得到不同的推断结果，而本提案基于有监督的分箱进行划分样本空间，有较高的检验功效并且是稳健的。

步骤6，获取关联规则集。基于以上步骤，获得完整企业训练样本指标集以及目标变量“Y”，运用经典关联规则挖掘算法FP-Tree挖掘该训练数据中企业各风险等级的企业行为的关联规则，遍历关联规则并将其整合为由指标集、风险等级及置信度组成的关联规则集，关联规则集由以“(指标集):(风险等级,置信度)”形式且置信度大于0.5的元素构成。企业应用FP-Tree算法挖掘出的关联规则集形如：{(x1_bin0,x3_bin1,x7_bin3,x15_bin4):(P0,0.98),……}。

进一步地，步骤6所述的关联规则是反映一个事物和其他事物之前的相互依赖性和关联性，若事物之间存在关联关系，那么其中一个事物就能够通过其他事物预测到。基于这一思想的延展，将关联分析算法应用于企业风险预警中，运用经典关联规则挖掘算法FP-Tree挖掘企业各风险等级与企业行为的关联规则。

步骤7，根据得到的关联规则以及步骤2梳理的指标体系风险规则，对待预警企业进行预警，预警企业命中的关联规则，预测企业风险等级及可能存在的风险点。对任一待预警企业可根据如下步骤得到预警结果：

首先，待预警企业指标数据字符化。指标数据的转化，由步骤5的分箱规则决定，将原始指标数据转换为相对应的字符标识，得到该企业的指标集

其次，获取命中关联规则。遍历关联规则，若关联规则的指标集

满足C _i∩R _j＝R _j，则表示该企业命中R _j对应的关联规则，因此，得到企业命中风险规则集：

然后，获取风险等级。风险等级由命中关联规则的风险等级和置信度所决定的，将关联规则的风险等级转换为对应分值，置信度作为权值进行加权平均，计算得到最终的风险分数，并根据各风险等级的分值区间获得风险等级。

最后，获取风险描述。遍历步骤2所得的风险规则集

以及企业命中风险规则的指标集

若X _k∩R _ir＝X _k，则该企业大概率存在X _k所对应的风险点risk _k。遍历完成后，该企业得到风险点集

对风险点集中各元素以分号进行拼接得到其风险描述。

预警结果展示案例：某企业风险等级为P0(高风险)，线索描述为：缺失年报公示；企业登记变更频繁，存在经营不稳定风险；经营财务可能存在弄虚作假风险；营业执照过期或失效；关联企业经营异常比例过高，企业经营存在被纳入经营异常风险；关联企业失信比例过高，自身存在失信风险。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

一种基于关联分析FP-Tree算法的企业风险预警方法，其特征在于，包括如下步骤：

步骤S1、根据历史企业相关行为数据，分析衡量企业风险状况的标尺和重要依据，设计风险指标体系X＝{x ₁,x ₂,…,x _i}，x _i表示风险指标体系的第i个指标的名称；

步骤S2、根据风险指标体系，运用大数据分析形成风险规则，即由一个或多个指标的值等于一预定值或预定区间值，认为企业可能存在相应风险，得到风险规则集B：

其中，X _k为指标体系X的子集；risk _k为由X _k分析推理得到的相对应的风险文字描述；

步骤S3、采集企业相关行为数据，并构建企业风险预警模型的训练指标数据集及待预警企业指标数据集，训练指标数据集中训练集：测试集＝4:1；

步骤S4、基于训练指标数据集，通过企业信用维度数据计算获得企业对应的风险等级，计算公式如下：

其中，creditScore _new表示最新信用风险分值归一化后数值，100·creditScore _new作为风险得分的基础分值；creditScore _i表示前i年信用风险分值，
代表信用分数的稳定性情况；riskListCount表示近5年来列入黑名单或失信名单次数，4·riskListCount代表被列入黑名单或失信名单风险；

步骤S5、运用互熵-区间套法进行分箱、卡方检验相关性筛选指标，根据分箱结果进行指标的字符化，并保存分箱规则以及筛选后剩余的指标列表；

步骤S6、获取关联规则集：运用关联分析FP-Tree算法挖掘企业各风险等级的企业行为的关联规则，遍历关联规则并将其整合为由指标集、风险等级及置信度组成的关联规则集，关联规则集由以“(指标集):(风险等级,置信度)”形式且置信度大于0.5的元素构成；

其中，A表示其中一指标集；B表示其中一风险等级；
表示由指标集A推理出风险等级B的置信度；count(A∩B)、count(A)分别表示指标集A中的元素和风险等级B同时存在同一样本的样本数量、指标集A中的元素同时存在同一样本的样本数量；

步骤S7、根据步骤S6得到的关联规则集以及步骤S2得到的风险规则集，基于待预警企业指标数据集对待预警企业进行预警，预警企业命中的关联规则，预测企业风险等级及可能存在的风险点，输出预警结果。
根据权利要求1所述的基于关联分析FP-Tree算法的企业风险预警方法，其特征在于，步骤S5中，运用互熵-区间套法进行分箱、卡方检验相关性筛选指标的具体实现方式如下：

对于值种类超过5个的离散变量属性的指标及连续变量的指标，运用有监督的互熵-区间套法对指标变量进行分箱并根据分箱结果字符化连续变量，降低模型过拟合的风险；

互熵-区间套法进行分箱步骤如下：

第0步，预先设定一个阈值threshold以及最大分箱数n；

对待分箱指标I，有
初始分箱边界值集为Boundary＝{a,b}，对指标I进行分箱：

第1步，取
将[a,b]划分为两个区间[a,a ₀]、(a ₀,b]，结合互信息和信息熵，提出一种新的类别不确定评价函数MiEntropy：

其中，t为区间；C为类别集合，C＝{c ₁,c ₂,…,c _m}，m为类别个数；p(c _i)、p(t)、p(t,c _i)分别是训练集中c _i类的样本数、指标值在区间t的样本数、指标值在区间t且属于c _i类的样本数与训练集样本总数的比例，p(c _i|t)指标值在区间t且属于c _i的样本数与指标值在区间t的样本数的比例，η为超参数，且满足η∈[0,1]；

应用MiEntropy对[a,a ₀]、(a ₀,b]进行评价，转第2步；

第2步，若MiEntropy([a,a ₀])≥throshold或MiEntropy((a ₀,b])≥throshold，则将a ₀添加至Boundary中，转第3步；

第3步，根据Boundary获得指标I的分箱数numb(I)：

若numb(I)≥n，则停止分箱

若MiEntropy([a,a ₀])≥throshold，取a＝a,b＝a ₀并跳至第1步；

若MiEntropy((a ₀,b])≥throshold，取a＝a ₀,b＝b并跳至第1步；

若MiEntropy([a,a ₀])≤MiEntropy((a ₀,b])<throshold，取a＝a ₀,b＝b并跳至第1步；

若MiEntropy((a ₀,b])≤MiEntropy([a,a ₀])<throshold，取a＝a,b＝a ₀并跳至第1步；

第4步，分箱结束后，得到一个分箱边界集，将其按照小到大的顺序排序得到Boundary＝{a,a ₁,a ₂,…,a _k,b}，根据Boundary将指标I分为k+1箱：{[a,a ₁],(a ₁,a ₂],…,(a _k,b]}；

卡方检验相关性筛选指标具体为：通过卡方检验检验指标变量与企业风险的相关性，过滤对预警助益不大的指标，卡方检验进行相关分析的结果基于有监督的分箱进行划分样本空间。
根据权利要求1所述的基于关联分析FP-Tree算法的企业风险预警方法，其特征在于，步骤S7的具体实现方式如下：

首先，对待预警企业指标数据集中待预警企业指标数据字符化：指标数据的转化，由步骤S5的分箱规则决定，将原始指标数据转换为相对应的字符标识，得到该企业的转化后的指标集

其中，C _i为第i个样本企业各指标值字符化后的结果集合；
表示第i个样本企业第c _i个指标字符化结果值；

其次，获取命中关联规则：遍历关联规则，若关联规则的指标集
满足C _i∩R _j＝R _j，则表示该企业命中R _j对应的关联规则，因此，得到企业命中风险规则指标集Q _i：

其中，
表示第i个预警企业第q _i个命中的风险规则的指标集；
表示第i个预警企业第q _i个命中的风险规则的风险等级；
表示第i个预警企业第q _i个命中的风险规则的置信度；

然后，获取风险等级：风险等级由命中关联规则的风险等级和置信度所决定的，将关联规则的风险等级转换为对应分值，置信度作为权值进行加权平均，计算得到最终的风险分数，并根据各风险等级的分值区间获得风险等级；

其中，高风险用P0表示，中高风险有两个等级，即P1、P2，且P1的风险大于P2，低风险用P3表示，无风险用P4表示；riskScore _i表示第i个预警企业的风险得分；SP _ij表示第i个预警企业第j个命中的风险规则的风险等级得分；P _ij表示第i个预警企业第j个命中的风险规则的风险等级；Conf _ij表示第i个预警企业第j个命中的风险规则的置信度；r _i表示第i个预警企业命中的风险规则的置信度之和；riskLevel为风险得分映射为风险等级的函数；

最后，获取风险描述：遍历步骤S2所得的风险规则集
以及企业命中风险规则指标集
若X _k∩R _ir＝X _k，则该企业大概率存在X _k所对应的风险点risk _k；遍历完成后，得到该企业风险点集
对风险点集中各元素以分号进行拼接得到其风险描述。