WO2021196457A1

WO2021196457A1 - 数据相关性分析方法、装置、计算机系统及可读存储介质

Info

Publication number: WO2021196457A1
Application number: PCT/CN2020/103829
Authority: WO
Inventors: 吴锐
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2020-04-02
Filing date: 2020-07-23
Publication date: 2021-10-07
Also published as: CN111581296B; CN111581296A

Abstract

数据相关性分析方法、装置、计算机系统及可读存储介质，基于人工智能，包括：获取历史业务数据并提取其中的产品信息，按照产品信息对历史业务数据分类，获得至少一个由同一产品信息的历史业务数据构成的数据集合；计算数据集合的信息熵以确定数据集合的定性分析维度，根据各定性分析维度下的定性信息制定数据集合的定性判断条件；计算数据集合的最大密度范围以确定数据集合的定量分析维度，根据各定量分析维度及其最大密度范围制定数据集合的定量判断条件；根据定性判断条件及定量判断条件计算待评估数据与各数据集合之间的相关度获得相关评估值。解决了当前无法对客户申请进行精准匹配，导致推荐的产品信息成功率较低的问题。

Description

数据相关性分析方法、装置、计算机系统及可读存储介质

本申请要求于2020年4月2日提交中国专利局、申请号为CN 202010253260.5，发明名称为“数据相关性分析方法、装置、计算机系统及可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，其涉及到人工智能的知识表示与推理技术，尤其涉及一种数据相关性分析方法、装置、计算机系统及可读存储介质。

背景技术

导流是指平台方将一笔客户申请转发到一家资金方，即将客户在平台方申请的某一交易产品转化为资金方的产品信息的过程。随着互联网金融的不断发展,平台方会对接多家产品信息，各家产品信息对客户要求不尽相同。有些产品信息受限于展业地区，因此对客户的地区有要求；有些对客户的贷款金额有限制，如何依据业务数据正确确定一家产品信息是平台方必须解决的问题。

为解决上述问题，当前的平台方采用了树状图式的管理方式，也就是将对展业地区有要求的产品信息分为一类，对展业地区无要求的分为另一类；在此基础上再将对贷款金额有限制的分为一类，对贷款金额无限制的分为另一类，以此类推；然而发明人意识到，这种根据资金方的要求对客户申请进行粗略划分的方法，只能从较为单一的维度上划分客户申请以满足资金方的硬性要求，无法识别资金方在硬性要求之外的因素(如，资金方因其历史数据分析所指定的贷款偏好因素、风险控制的维度等)，因此无法对客户申请进行精准匹配，导致平台方所推荐的产品信息成功率较低。

发明内容

本申请的目的是提供一种数据相关性分析方法、装置、计算机系统及可读存储介质，用于解决现有技术存在的无法识别资金方在硬性要求之外的因素，导致无法对客户申请进行精准匹配，使平台方所推荐的产品信息成功率较低的问题。

为实现上述目的，本申请提供一种基于人工智能的数据相关性分析方法，包括：

获取历史业务数据并提取其中的产品信息，按照产品信息对所述历史业务数据分类，获得至少一个由同一产品信息的历史业务数据构成的数据集合并将其发送至综合数据库；其中，所述产品信息是历史业务数据中反应用户消费的产品的名称信息；

从所述综合数据库中提取数据集合，并计算所述数据集合的信息熵以确定所述数据集合的定性分析维度，根据各定性分析维度下的定性信息制定所述数据集合的定性判断条件并将其发送至定性知识库；其中，所述定性判断条件是反应数据集合中具有识别度的定性信息；

从所述综合数据库中提取数据集合，并计算所述数据集合的最大密度范围以确定所述数据集合的定量分析维度，根据各定量分析维度及其最大密度范围制定所述数据集合的定量判断条件并将其发送至定量知识库；其中，所述定量判断条件是反应数据集合中具有识别度的定量信息；

接收由人机界面输出的记载有用户的定量信息和定性信息的待评估数据，并分别从所述定性知识库和定量知识库中提取定性判断条件和定量判断条件，根据所述定性判断条件及定量判断条件计算所述待评估数据与各数据集合之间的相关度并获得相关评估值，将相关评估值最高的数据集合的产品信息发送所述人机界面。

为实现上述目的，本申请还一种基于人工智能的数据相关性分析装置，包括：

数据处理模块，用于获取历史业务数据并提取其中的产品信息，按照产品信息对所述历史业务数据分类，获得至少一个由同一产品信息的历史业务数据构成的数据集合并将其发送至综合数据库；其中，所述产品信息是历史业务数据中反应用户消费的产品的名称信息；

定性分析模块，用于从所述综合数据库中提取数据集合，并计算所述数据集合的信息熵以确定所述数据集合的定性分析维度，根据各定性分析维度下的定性信息制定所述数据集合的定性判断条件并将其发送至定性知识库；其中，所述定性判断条件是反应数据集合中具有识别度的定性信息；

定向分析模块，用于从所述综合数据库中提取数据集合，并计算所述数据集合的最大密度范围以确定所述数据集合的定量分析维度，根据各定量分析维度及其最大密度范围制定所述数据集合的定量判断条件并将其发送至定量知识库；其中，所述定量判断条件是反应数据集合中具有识别度的定量信息；

推理机模块，用于接收由人机界面输出的记载有用户的定量信息和定性信息的待评估数据，并分别从所述定性知识库和定量知识库中提取定性判断条件和定量判断条件，根据所述定性判断条件及定量判断条件计算所述待评估数据与各数据集合之间的相关度并获得相关评估值，将相关评估值最高的数据集合的产品信息发送所述人机界面；

人机界面，用于输出待评估数据及接收产品信息。

为实现上述目的，本申请还提供一种计算机系统，其包括多个计算机设备，各计算机设备包括存储器.处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述多个计算机设备的处理器执行所述计算机程序时共同实现上述数据相关性分析方法的步骤。

为实现上述目的，本申请还提供一种计算机可读存储介质，其包括多个存储介质，各存储介质上存储有计算机程序，所述多个存储介质存储的所述计算机程序被处理器执行时共同实现上述数据相关性分析方法的步骤。

本申请提供的数据相关性分析方法、装置、计算机系统及可读存储介质，通过综合数据库实现对历史业务数据进行分类并获得数据集合，每个数据集合都蕴含了每个产品信息的硬性要求，及硬性要求以外的所有因素；通过定性知识库计算数据集合获得具有识别度的定性维度并将其设为定性分析维度，根据该定性分析维度获得在定性分析维度下最具识别度的判断值域和判断方式，以实现识别产品信息的定性维度上的所有要求；通过定量知识库计算数据集合获得具有识别度的定量维度并将其设为定量分析维度，根据该定量分析维度获得在定量分析维度下最具识别度的判断值域和判断方式，以实现识别产品信息的定量维度上的所有要求；通过推理机对人机界面输出的待评估数据，分别从定量判断条件和定性判断条件两方面进行计算以获得，待评估数据与各数据集合之间的相关评估值，以实现从定量维度和定性维度上判断待评估数据与各产品信息的匹配度，实现了待评估数据与产品信息之间的精准匹配，提高了平台方所推荐的产品信息成功率，因此解决了现有技术中存在的无法识别资金方在硬性要求之外的因素，导致无法对客户申请进行精准匹配，使平台方所推荐的产品信息成功率较低的问题。

附图说明

图1为本申请数据相关性分析方法实施例一的流程图；

图2为本申请数据相关性分析方法实施例一S1中获取历史业务数据并提取其中的产品信息的流程图；

图3为本申请数据相关性分析方法实施例一S2中所确定所述数据集合的定性分析维度的流程图；

图4为本申请数据相关性分析方法实施例一S2中制定所述数据集合的定性判断条件的流程图；

图5为本申请数据相关性分析方法实施例一S3中确定所述数据集合的定量分析维度的流程图；

图6为本申请数据相关性分析方法实施例一S3中制定所述数据集合的定量判断条件的流程图；

图7为本申请数据相关性分析方法实施例一S4中获得描述所述待评估数据与各数据集合之间匹配度的相关评估值的流程图；

图8为本申请数据相关性分析装置实施例二的程序模块示意图；

图9为本申请计算机系统实施例三中计算机设备的硬件结构示意图。

附图标记：

1、数据相关性分析装置 2、计算机设备 11、数据处理模块

12、定性分析模块 13、定向分析模块 14、推理机模块

15、人机界面 21、存储器 22、处理器

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供的数据相关性分析方法、装置、计算机系统及可读存储介质，适用于计算机领域，为提供一种基于综合数据库、定性知识库、定量知识库、推理机、人机界面的数据相关性分析方法。本申请通过获取历史业务数据并提取其中的产品信息，按照产品信息对所述历史业务数据分类，获得至少一个由同一产品信息的历史业务数据构成的数据集合，并将所述数据集合发送定性知识库和定量知识库；计算数据集合的信息熵以确定所述数据集合的定性分析维度，根据各定性分析维度下的定性信息制定所述数据集合的定性判断条件，并将所述定性判断条件发送推理机；计算数据集合的最大密度范围以确定所述数据集合的定量分析维度，根据各定量分析维度及其最大密度范围制定所述数据集合的定量判断条件，并将所述定量判断条件发送推理机；接收由人机界面输出的待评估数据，通过各所述数据集合的定性判断条件及定量判断条件计算所述待评估数据，以获得描述所述待评估数据与各数据集合之间匹配度的相关评估值，将相关评估值最高的数据集合的产品信息发送所述人机界面。

实施例一：

请参阅图1，本实施例的一种基于人工智能的数据相关性分析方法，包括：

S1：获取历史业务数据并提取其中的产品信息，按照产品信息对所述历史业务数据分类，获得至少一个由同一产品信息的历史业务数据构成的数据集合并将其发送至综合数据库；其中，所述产品信息是历史业务数据中反应用户消费的产品的名称信息；

S2：从所述综合数据库中提取数据集合，并计算所述数据集合的信息熵以确定所述数据集合的定性分析维度，根据各定性分析维度下的定性信息制定所述数据集合的定性判断条件并将其发送至定性知识库；其中，所述定性判断条件是反应数据集合中具有识别度的定性信息；

S3：从所述综合数据库中提取数据集合，并计算所述数据集合的最大密度范围以确定所述数据集合的定量分析维度，根据各定量分析维度及其最大密度范围制定所述数据集合的定量判断条件并将其发送至定量知识库；其中，所述定量判断条件是反应数据集合中具有识别度的定量信息；

S4：接收由人机界面输出的记载有用户的定量信息和定性信息的待评估数据，并分别从所述定性知识库和定量知识库中提取定性判断条件和定量判断条件，根据所述定性判断条件及定量判断条件计算所述待评估数据与各数据集合之间的相关度并获得相关评估值，将相关评估值最高的数据集合的产品信息发送所述人机界面。

在示例性的实施例中，从储存有历史业务数据的数据库中获取历史业务数据，所述历史业务数据的维度特征包括定性维度、定量维度和产品信息，在定性维度下的信息为定性信息，在定量维度下的信息为定量信息；其中，所述定性维度是指以文字的形式描述用户特征的维度特征，如，姓氏，性别，职业等；所述定量维度是指以数字的形式描述用户特征的维度特征，如，年龄，工龄等，所述产品信息是反应用户在历史上购买的产品信息的维度特征，其至少包括：产品名称；所述数据集合是指由对应同一产品信息的历史业务数据所构成的信息集合，例如，产品信息包括产品A和产品B，那么将获得两个数据集合，其中一个涵盖了历史上所有购买了产品B的历史业务数据，另一个涵盖了历史上所有购买了产品B的历史业务数据。

通过信息增益模型计算所述数据集合中历史业务数据的信息熵，根据所述信息熵确定所述数据集合中某一定性维度为定性分析维度，从各所述历史业务数据中获取所述定性分析维度下的定性信息，并根据出现概率最高的定性信息及其判断方式制定定性判断条件；其中，信息熵是一种被用来作为一个系统的信息含量的量化指标，如果信息熵越大，则说明该信息中内容的混乱程度越大，通过该信息熵所对应的维度来识别该系统的可靠性就较低，反之，如果信息熵越小，则说明该信息中内容的混乱程度越小，那么通过该信息熵所对应的维度来识别该系统的可靠性就越高；因此，某一定性维度的信息熵越小的则说明这个定性维度的识别度最高，因此，获取该定性维度下出现概率最高的定性信息最能够体现数据集合的识别度。

通过均值漂移模型计算所述数据集合中各定量维度下历史定量信息的最大密度范围；将所述定量维度设为该数据集合的定量分析维度，根据所述定量分析维度及其最大密度范围获得定量判断条件；均值漂移模型是一种基于密度梯度上升的非参数方法，通过迭代运算找到目标位置，实现目标跟踪的算法；因此，本申请中将最大密度范围作为目标位置，通过迭代算法找到各定量维度下值的最大密度所在区域，并将该区域设为最大密度范围。接收由人机界面输出的待评估业务数据，根据所述定性判断条件判断所述待评估业务数据并获得定性评估值，根据所述定量判断条件判断所述待评估业务数据并获得定量评估值，将所述定性评估值与定量评估值加权计算，获得所述待评估业务数据对于所述数据集合的相关评估值；对比所述待评估业务数据对于每个数据集合的相关评估值，将相关评估值最高的数据集合所对应的产品信息设为推荐产品并将其输出至人机界面。

在一个优选的实施例中，请参阅图2，S1中所述获取历史业务数据并提取其中的产品信息的步骤，包括：

S101：通过配置模块设定训练数量，从历史数据库中获取数量与所述训练数量一致的历史业务数据。

其中，所述历史数据库是用于储存历史业务数据的数据库；通过设置训练数量有利于数据管理人员保证对历史业务数据进行训练的数量，保证了训练出的定性判断条件和定量判断条件的准确度，其中，所述训练数量可根据需要设置。

需要说明的是，可采用DMCTextFilter作为配置模块，DMCTextFilter是纯文本抽出通用程序库，可以从各种各样的文档格式的数据中或从插入的OLE对象中，完全除掉特殊控制信息，快速抽出纯文本数据信息。便于用户实现对多种文档数据资源信息进行统一管理，编辑，检索和浏览。

S102：通过维度模块获取所述历史业务数据中的维度值类型，将维度值类型为字符所对应的维度ID和维度编码设为定性维度，将定性维度所对应的信息设为定性信息，将维度值类型为码值、或日期、或数值所对应的维度ID和维度编码设为定量维度，将所述定量维度所对应的信息设为定量信息；其中，所述维度ID是标注历史业务数据中维度特征的数字编号。

例如：历史业务数据如下所示：

需要说明的是，采用re模块作为所述维度模块，所述re模块是一种在python中通过内嵌集成的模块，其用于直接实现正则匹配。

S103：通过产品模块提取所述历史业务数据的产品信息。

基于上述举例，提取上述历史业务数据的产品信息为产品A，以便于按照产品信息对历史业务数据进行分类，如，将产品信息为产品A的历史业务数据划归为一个数据集合。

需要说明的是，采用re模块作为产品模块，所述re模块是一种在python中通过内嵌集成的模块，其用于直接实现正则匹配。

在一个优选的实施例中，请参阅图3，S2中所述计算数据集合的信息熵以确定所述数据集合的定性分析维度的步骤，包括：

S201：通过定性汇总模块汇总数据集合的历史业务数据中，各定性维度下的定性信息以获得定性集合。

示例性地，根据所述数据集合中的定性维度，提取该定性维度下的历史定性信息并汇总，获得定性集合；例如，所述定性维度为“性别”，所述定性集合为{男，男，男，男，女}。

需要说明的是，可采用re模块作为定性汇总模块，所述re模块是一种在python中通过内嵌集成的模块，其用于直接实现正则匹配。

S202：采用所述概率模块通过预设的信息增益模型计算所述定性集合中各种类定性信息出现的概率，以获得与所述定性集合对应的定性维度的信息熵。

示例性地，获得所述定性集合中历史定性信息的数量并将其设为定性总量，将所述定性集合去重获得具有定性种类的定性种类集，在所述定性集合中依次获得定性种类的数量，并将其设为定性单量；根据所述定性单量计算所述定性种类出现的概率；基于上述举例，定性总量为5，定性种类集为{男，女}；其中，“男”的定性单量为4，“女”的定性单量为1；定性种类为男的出现概率为80％，定性种类为女的出现概率为20％。

将各定性种类的出现概率录入具有信息增益公式的信息增益模型，以计算所述定性维度在该数据集合中的信息熵；

所述信息增益公式为：E(X)＝—Σ _i＝1pilog2(pi)

其中，E为所述信息熵，pi为第i个定性名称的出现概率。

需要说明的是，可采用python的math模块构建所述概率模块的信息增益公式，其中，所述math模块中定义了数学函数，由于这个模块属于编译系统自带，因此它可以被无条件调用以构建所述概率模块的公式。

S203：采用定性判断模块将信息熵小于预设的信息阈值的定性维度，设为所述数据集合的定性分析维度。

本步骤中，通过预设的信息阈值对信息熵进行过滤，以消除信息熵较小的定性维度；信息熵是一种被用来作为一个系统的信息含量的量化指标，如果信息熵越大，则说明该信息中内容的混乱程度越大，通过该信息熵所对应的维度来识别该系统的可靠性就较低，反之，如果信息熵越小，则说明该信息中内容的混乱程度越小，那么通过该信息熵所对应的维度来识别该系统的可靠性就越高；例如，如果一个班上的学生有10个男生，10个女生，该信息熵就比较大，也就是说这个班的性别分布十分的混乱，因此，通过性别来识别这个班的可靠性就比较低；反之，如果一个班上的学生有19个男生，1个女生，该信息熵就比较小，也就是说这个班的性别分别十分规律，因此通过性别来识别这个班的可靠性就比较高。

因此，通过这种方法，能够在海量的数据中获得具有识别度的定性维度，按照这种定性维度区分历史业务数据，其准确度和可靠性就会非常高。

需要说明的是，可采用具有“IF”函数的计算机代码编写的计算机模块作为定性判断模块，以将信息熵小于信息阈值的定性维度，设为所述数据集合的定性分析维度。

在一个优选的实施例中，请参阅图4，S2中所述根据各定性分析维度下的定性信息制定所述数据集合的定性判断条件的步骤，包括：

S211：通过值域模块将数据集合中在所述定性分析维度下出现概率最高的定性种类设为判断值域。

基于上述举例，假设定性维度“性别”的信息熵小于信息阈值，并将其设为了定性分析维度，由于定性种类为男的出现概率为80％，定性种类为女的出现概率为20％，那么将“男”设为判断值域。

需要说明的是，可采用具有“条件计数函数COUNTIF”函数的计算机代码编写的计算机模块作为值域模块，以计算获得在所述定性分析维度下出现概率最高的定性种类设为判断值域。

S212：通过定性条件模块具有定性映射表，所述定性条件模块从定性映射表中获取与所述定性分析维度对应的判断方式，及汇总所述判断值域和判断方式生成所述数据集合的定性判断条件。

示例性地，预先设置的映射表中具有定性分析维度与判断方式之间的映射关系；于本实施例中，所述映射关系反应的是定性维度的维度值类型与判断方式之间的映射；例如，维度值类型为码值所对应的判断方式为“属于”，维度值类型为字符类型所对应的判断方式为“包含”。其中，所述判断值域为数据集合的历史业务数据中，在所述定性分析维度下出现概率最高的定性种类设为判断值域；所述定性判断条件还包括判断方式，所述判断方式为判断待评估数据的定性信息中待评估数据的定性信息与判断值域之间关系的行为；维度值类型为码值的判断方式包括“属于”，维度值类型为字符类型的判断方式包括“包含”。

例如：按照上述方法获得定性分析维度和定性判断条件，并如下表所示：

需要说明的是，可采用map()映射函数作为定性条件模块从定性映射表中获取与所述定性分析维度对应的判断方式，及汇总所述判断值域和判断方式生成所述数据集合的定性判断条件。

在一个优选的实施例中，请参阅图5，S3中计算数据集合的最大密度范围以确定所述数据集合的定量分析维度的步骤，包括：

S301：采用漂移模块通过预设的均值漂移模型计算所述数据集合中各定量维度下定量信息的最大密度范围。

示例性地，获得数据集合中定量维度下的历史定量信息，将所述数据集合的历史业务数据录入所述均值漂移模型中，并使所述历史业务数据的各定量信息在均值漂移模型中以坐标点的方式存在；例如，定量维度的维度ID为125，维度编码为app_amt，该历史业务数据的定量信息为500，则在均值漂移模型中，该定量信息以坐标为X1＝500的形式存在。创建半径为h的高维球区域，并利用密度公式计算所述高维球区域中的密度；其中，所述密度公式为：

所述密度公式中，S为高维球区域，k为落入高维球区域中点的个数，X为高维球区域的中心点，Xi为落入高维球区域中的定量信息，M为高维球区域的中心点与落入高维球区域中的历史定量信息的平均距离，不断移动所述高维球区域直至所述M为最小时停止移动；提取所述高维球区域的中心点，将该中心点与其半径相减获得定量下限，再将该中心点与其半径相加获得定量上限；根据所述定量上限和定量下限获得最大密度范围。

需要说明的是，可采用python的math模块构建具有均值漂移模型的漂移模块。

S302：通过定量判断模块提取所述最大密度范围中定量信息的数量，若该数量大于预设的定量阈值，则将所述最大密度范围所对应的定量维度设为所述数据集合的定量分析维度。

示例性地，根据使用者需要设置定量阈值，提取所述最大密度范围所对应的高维球区域中定量信息的数量，并将该数量与所述定量阈值比对，及将数量大于所述定量阈值的最大密度范围所对应的定量维度，设为所述数据集合的定量分析维度。

需要说明的是，可采用具有“IF”函数的计算机代码编写的计算机模块作为定量判断模块，以若该数量大于预设的定量阈值，则将所述最大密度范围所对应的定量维度设为所述数据集合的定量分析维度。

在一个优选的实施例中，请参阅图6，S3中根据各定量分析维度及其最大密度范围制定所述数据集合的定量判断条件的步骤，包括：

S311：采用方式值域模块从预设的定量映射表中获得定量分析维度的判断方式，并将所述最大密度范围作为判断值域。

示例性地，预先设置的定量映射表中具有定量分析维度与判断方式之间的映射关系；于本实施例中，所述映射关系反应的是定量维度的维度值类型与判断方式之间的映射；例如，维度值类型为数值和日期的判断方式为“范围”。

需要说明的是，可采用map()映射函数作为方式值域模块，从定量映射表中获得定量分析维度的判断方式，并将所述最大密度范围作为判断值域。

S312：通过定量条件模块汇总所述判断值域和判断方式，生成所述定量分析维度的定量判断条件。

例如：根据所述定量分析维度的维度值类型获取与其对应的判断方式，形成定量判断条件如下所示：

需要说明的是，可采用分类汇总函数SUBTOTAL制作定量条件模块，以汇总所述判断值域和判断方式生成所述定量分析维度的定量判断条件。

在示例性的实施例中，S3中根据各定量分析维度及其最大密度范围制定所述数据集合的定量判断条件之后还包括：

根据所述定性判断条件和定量分析条件生成创建成功信号，并将其输出至人机界面。

在示例性的实施例中，S4中接收由人机界面输出的待评估数据包括：

接收由人机界面根据所述创建成功信号输出的待评估业务数据；例如：待评估业务数据如下所示：

维度ID	维度名称	信息	维度编码	维度值类型	所属码值组
123	性别	女	SEX	1-码值	sex_type
124	申请时间	2019-3	app_time	2-日期
125	申请金额	1000	app_amt	3-数值
126	姓名	李四	name	4-字符
127	职业	律师	job	4-字符

在一个优选的实施例中，请参阅图7，S4中根据所述定性判断条件及定量判断条件计算所述待评估数据与各数据集合之间的相关度并获得相关评估值的步骤，包括：

S401：通过定性评估模块根据数据集合的定性判断条件，计算待评估数据的定性信息以获得定性评估值；

本步骤中，若待评估数据中与定性判断条件对应的定性信息，符合定性判断条件的判断方式和判断值域，则对所述定性信息的定性评估值赋值1；若待评估数据中与定性判断条件对应的定性信息，不符合定性判断条件的判断方式和判断值域，则对所述定性信息的定性评估值赋值0。

需要说明的是，可采用具有“条件计数函数COUNTIF”函数的计算机代码编写的计算机模块作为定性评估模块，以根据数据集合的定性判断条件，计算待评估数据的定性信息以获得定性评估值。

例如，待评估数据中与定性判断条件对应的定性信息如下所示：

维度ID	维度编码	信息
123	SEX	女
126	name	李

定性判断条件为

因此，待评估数据中与定性判断条件对应的定性信息及其定性评估值如下所示：

维度ID	维度编码	信息	定性评估值
123	SEX	女	0
126	name	李	0

S402：通过定量评估模块根据数据集合的定量判断条件，计算待评估数据的定量信息以获得定量评估值；

本步骤中，若待评估数据中与定量判断条件对应的定量信息，符合定量判断条件的判断方式和判断值域，则对所述定量信息的定量评估值赋值1；若待评估数据中与定量判断条件对应的定量信息，不符合定量判断条件的判断方式和判断值域，则对所述定量信息的定量评估值赋值0。

需要说明的是，可采用具有“条件计数函数COUNTIF”函数的计算机代码编写的计算机模块作为定量评估模块，以根据数据集合的定量判断条件，计算待评估数据的定量信息以获得定量评估值。

例如，待评估数据中与定量判断条件对应的定量信息如下所示：

维度ID	维度编码	信息
124	app_time	2019-3
125	app_amt	1000

定量判断条件为

因此，待评估数据中与定量判断条件对应的定量信息及其定量评估值如下所示：

维度ID	维度编码	信息	定量评估值
124	app_time	2019-3	1

125

app_amt

1000

1

S403：通过计算模块对所述定量评估值和定性评估值进行加权计算，获得描述所述待评估数据与各数据集合之间匹配度的相关评估值。

例如：

由此可知，待评估数据对于产品信息A的相关评估值为2。

需要说明的是，可采用python的math模块构建所述计算模块，以对所述定量评估值和定性评估值进行加权计算获得相关评估值。

在示例性的实施例中，S4中将相关评估值最高的数据集合的产品信息发送所述人机界面的步骤，包括：

对比所述待评估业务数据与每个数据集合之间的相关评估值，将相关评估值最高的数据集合所对应的产品信息发送至人机界面。

基于上述举例：若待评估数据对于产品A的相关评估值为2，对于产品B的相关评估值为0，对于产品C的相关评估值为1，对于产品D的相关评估值为4，则将产品D作为推荐产品并输出至人机界面，以实现对产品信息的精确导流。

实施例二：

请参阅图8，本实施例的一种基于人工智能的数据相关性分析装置1，包括：

数据处理模块11，用于获取历史业务数据并提取其中的产品信息，按照产品信息对所述历史业务数据分类，获得至少一个由同一产品信息的历史业务数据构成的数据集合并将其发送至综合数据库；其中，所述产品信息是历史业务数据中反应用户消费的产品的名称信息；

定性分析模块12，用于从所述综合数据库中提取数据集合，并计算所述数据集合的信息熵以确定所述数据集合的定性分析维度，根据各定性分析维度下的定性信息制定所述数据集合的定性判断条件并将其发送至定性知识库；其中，所述定性判断条件是反应数据集合中具有识别度的定性信息；

定向分析模块13，用于从所述综合数据库中提取数据集合，并计算所述数据集合的最大密度范围以确定所述数据集合的定量分析维度，根据各定量分析维度及其最大密度范围制定所述数据集合的定量判断条件并将其发送至定量知识库；其中，所述定量判断条件是反应数据集合中具有识别度的定量信息；

推理机模块14，用于接收由人机界面输出的记载有用户的定量信息和定性信息的待评估数据，并分别从所述定性知识库和定量知识库中提取定性判断条件和定量判断条件，根据所述定性判断条件及定量判断条件计算所述待评估数据与各数据集合之间的相关度并获得相关评估值，将相关评估值最高的数据集合的产品信息发送所述人机界面；

人机界面15，用于输出待评估数据及接收产品信息。

本申请基于人工智能领域的智能决策技术，采用了至少由综合数据库、定性知识库、定量知识库、推理机和人机界面构建的专家系统，由于专家系统(ExpertSystem)是一个或一组能在某些特定领域内，应用大量的专家知识和推理方法求解复杂问题的一种人工智能计算机程序，因此本申请基于专家系统构建了一种用于对待评估数据进行相似度匹配的分类模型。

实施例三：

为实现上述目的，本申请还提供一种计算机系统，该计算机系统包括多个计算机设备2，实施例二的数据相关性分析装置1的组成部分可分散于不同的计算机设备中，计算机设备可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于：可通过系统总线相互通信连接的存储器21、处理器22，如图9所示。需要指出的是，图9仅示出了具有组件-的计算机设备，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备的操作系统和各类应用软件，例如实施例一的数据相关性分析装置的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行数据相关性分析装置，以实现实施例一的数据相关性分析方法。

实施例四：

为实现上述目的，本申请还提供一种计算机可读存储系统，其包括多个存储介质，所述存储介质可以是非易失性，也可以是易失性，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器22执行时实现相应功能。本实施例的计算机可读存储介质用于存储数据相关性分析装置，被处理器22执行时实现实施例一的数据相关性分析方法。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种基于人工智能的数据相关性分析方法，其中，包括：

获取历史业务数据并提取其中的产品信息，按照产品信息对所述历史业务数据分类，获得至少一个由同一产品信息的历史业务数据构成的数据集合并将其发送至综合数据库；其中，所述产品信息是历史业务数据中反应用户消费的产品的名称信息；

从所述综合数据库中提取数据集合，并计算所述数据集合的信息熵以确定所述数据集合的定性分析维度，根据各定性分析维度下的定性信息制定所述数据集合的定性判断条件并将其发送至定性知识库；其中，所述定性判断条件是反应数据集合中具有识别度的定性信息；

从所述综合数据库中提取数据集合，并计算所述数据集合的最大密度范围以确定所述数据集合的定量分析维度，根据各定量分析维度及其最大密度范围制定所述数据集合的定量判断条件并将其发送至定量知识库；其中，所述定量判断条件是反应数据集合中具有识别度的定量信息；

接收由人机界面输出的记载有用户的定量信息和定性信息的待评估数据，并分别从所述定性知识库和定量知识库中提取定性判断条件和定量判断条件，根据所述定性判断条件及定量判断条件计算所述待评估数据与各数据集合之间的相关度并获得相关评估值，将相关评估值最高的数据集合的产品信息发送所述人机界面。
根据权利要求1所述的数据相关性分析方法，其中，所述获取历史业务数据并提取其中的产品信息的步骤，包括：

设定训练数量，从历史数据库中获取数量与所述训练数量一致的历史业务数据；

获取所述历史业务数据中的维度值类型，将维度值类型为字符所对应的维度ID和维度编码设为定性维度，将定性维度所对应的信息设为定性信息，将维度值类型为码值、或日期、或数值所对应的维度ID和维度编码设为定量维度，将所述定量维度所对应的信息设为定量信息；其中，所述维度ID是标注历史业务数据中维度特征的数字编号；

提取所述历史业务数据的产品信息。
根据权利要求1所述的数据相关性分析方法，其中，所述计算所述数据集合的信息熵以确定所述数据集合的定性分析维度的步骤，包括：

汇总数据集合的历史业务数据中各定性维度下的定性信息以获得定性集合；

通过预设的信息增益模型计算所述定性集合中各种类定性信息出现的概率，以获得与所述定性集合对应的定性维度的信息熵；

将信息熵小于预设的信息阈值的定性维度，设为所述数据集合的定性分析维度。
根据权利要求1所述的数据相关性分析方法，其中，所述根据各定性分析维度下的定性信息制定所述数据集合的定性判断条件的步骤，包括：

将数据集合中在所述定性分析维度下出现概率最高的定性种类设为判断值域；

从预设的定性映射表中获取与所述定性分析维度对应的判断方式，及汇总所述判断值域和判断方式生成所述数据集合的定性判断条件。
根据权利要求1所述的数据相关性分析方法，其中，所述计算所述数据集合的最大密度范围以确定所述数据集合的定量分析维度的步骤，包括：

通过预设的均值漂移模型计算所述数据集合中各定量维度下定量信息的最大密度范围；

提取所述最大密度范围中定量信息的数量，若该数量大于预设的定量阈值，则将所述最大密度范围所对应的定量维度设为所述数据集合的定量分析维度。
根据权利要求1所述的数据相关性分析方法，其中，所述根据各定量分析维度及其最大密度范围制定所述数据集合的定量判断条件的步骤，包括：

从预设的定量映射表中获得定量分析维度的判断方式，并将所述最大密度范围作为判断值域；

汇总所述判断值域和判断方式生成所述定量分析维度的定量判断条件。
根据权利要求1所述的数据相关性分析方法，其中，根据所述定性判断条件及定量判断条件计算所述待评估数据与各数据集合之间的相关度并获得相关评估值的步骤，包括：

根据各数据集合的定性判断条件，计算待评估数据的定性信息与所述各数据集合之间的相关度，以获得定性评估值；

根据各数据集合的定量判断条件，计算待评估数据的定量信息与所述各数据集合之间的相关度，以获得定量评估值；

对所述定量评估值和定性评估值进行加权计算，获得反映所述待评估数据与各数据集合之间匹配度的相关评估值。
一种基于人工智能的数据相关性分析装置，其中，包括：

数据处理模块，用于获取历史业务数据并提取其中的产品信息，按照产品信息对所述历史业务数据分类，获得至少一个由同一产品信息的历史业务数据构成的数据集合并将其发送至综合数据库；其中，所述产品信息是历史业务数据中反应用户消费的产品的名称信息；

定性分析模块，用于从所述综合数据库中提取数据集合，并计算所述数据集合的信息熵以确定所述数据集合的定性分析维度，根据各定性分析维度下的定性信息制定所述数据集合的定性判断条件并将其发送至定性知识库；其中，所述定性判断条件是反应数据集合中具有识别度的定性信息；

定向分析模块，用于从所述综合数据库中提取数据集合，并计算所述数据集合的最大密度范围以确定所述数据集合的定量分析维度，根据各定量分析维度及其最大密度范围制定所述数据集合的定量判断条件并将其发送至定量知识库；其中，所述定量判断条件是反应数据集合中具有识别度的定量信息；

推理机模块，用于接收由人机界面输出的记载有用户的定量信息和定性信息的待评估数据，并分别从所述定性知识库和定量知识库中提取定性判断条件和定量判断条件，根据所述定性判断条件及定量判断条件计算所述待评估数据与各数据集合之间的相关度并获得相关评估值，将相关评估值最高的数据集合的产品信息发送所述人机界面；

人机界面，用于输出待评估数据及接收产品信息。
一种计算机系统，其包括多个计算机设备，各计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其中，所述多个计算机设备的处理器执行所述计算机程序时共同实现以下步骤：

获取历史业务数据并提取其中的产品信息，按照产品信息对所述历史业务数据分类，获得至少一个由同一产品信息的历史业务数据构成的数据集合并将其发送至综合数据库；其中，所述产品信息是历史业务数据中反应用户消费的产品的名称信息；

从所述综合数据库中提取数据集合，并计算所述数据集合的信息熵以确定所述数据集合的定性分析维度，根据各定性分析维度下的定性信息制定所述数据集合的定性判断条件并将其发送至定性知识库；其中，所述定性判断条件是反应数据集合中具有识别度的定性信息；

从所述综合数据库中提取数据集合，并计算所述数据集合的最大密度范围以确定所述数据集合的定量分析维度，根据各定量分析维度及其最大密度范围制定所述数据集合的定量判断条件并将其发送至定量知识库；其中，所述定量判断条件是反应数据集合中具有识别度的定量信息；

接收由人机界面输出的记载有用户的定量信息和定性信息的待评估数据，并分别从所述定性知识库和定量知识库中提取定性判断条件和定量判断条件，根据所述定性判断条件及定量判断条件计算所述待评估数据与各数据集合之间的相关度并获得相关评估值，将相关评估值最高的数据集合的产品信息发送所述人机界面。
根据权利要求9所述的计算机系统，其中，所述获取历史业务数据并提取其中的产品信息的步骤，包括：

设定训练数量，从历史数据库中获取数量与所述训练数量一致的历史业务数据；

获取所述历史业务数据中的维度值类型，将维度值类型为字符所对应的维度ID和维度编码设为定性维度，将定性维度所对应的信息设为定性信息，将维度值类型为码值、或日期、或数值所对应的维度ID和维度编码设为定量维度，将所述定量维度所对应的信息设为定量信息；其中，所述维度ID是标注历史业务数据中维度特征的数字编号；

提取所述历史业务数据的产品信息。
根据权利要求9所述的计算机系统，其中，所述计算所述数据集合的信息熵以确定所述数据集合的定性分析维度的步骤，包括：

汇总数据集合的历史业务数据中各定性维度下的定性信息以获得定性集合；

通过预设的信息增益模型计算所述定性集合中各种类定性信息出现的概率，以获得与所述定性集合对应的定性维度的信息熵；

将信息熵小于预设的信息阈值的定性维度，设为所述数据集合的定性分析维度。
根据权利要求9所述的计算机系统，其中，所述根据各定性分析维度下的定性信息制定所述数据集合的定性判断条件的步骤，包括：

将数据集合中在所述定性分析维度下出现概率最高的定性种类设为判断值域；

从预设的定性映射表中获取与所述定性分析维度对应的判断方式，及汇总所述判断值域和判断方式生成所述数据集合的定性判断条件；

所述计算所述数据集合的最大密度范围以确定所述数据集合的定量分析维度的步骤，包括：

通过预设的均值漂移模型计算所述数据集合中各定量维度下定量信息的最大密度范围；

提取所述最大密度范围中定量信息的数量，若该数量大于预设的定量阈值，则将所述最大密度范围所对应的定量维度设为所述数据集合的定量分析维度。
根据权利要求9所述的计算机系统，其中，所述根据各定量分析维度及其最大密度范围制定所述数据集合的定量判断条件的步骤，包括：

从预设的定量映射表中获得定量分析维度的判断方式，并将所述最大密度范围作为判断值域；

汇总所述判断值域和判断方式生成所述定量分析维度的定量判断条件。
根据权利要求9所述的计算机系统，其中，根据所述定性判断条件及定量判断条件计算所述待评估数据与各数据集合之间的相关度并获得相关评估值的步骤，包括：

根据各数据集合的定性判断条件，计算待评估数据的定性信息与所述各数据集合之间的相关度，以获得定性评估值；

根据各数据集合的定量判断条件，计算待评估数据的定量信息与所述各数据集合之间的相关度，以获得定量评估值；

对所述定量评估值和定性评估值进行加权计算，获得反映所述待评估数据与各数据集合之间匹配度的相关评估值。
一种计算机可读存储介质，其包括多个存储介质，各存储介质上存储有计算机程序，其中，所述多个存储介质存储的所述计算机程序被处理器执行时共同实现以下步骤：

获取历史业务数据并提取其中的产品信息，按照产品信息对所述历史业务数据分类，获得至少一个由同一产品信息的历史业务数据构成的数据集合并将其发送至综合数据库；其中，所述产品信息是历史业务数据中反应用户消费的产品的名称信息；

从所述综合数据库中提取数据集合，并计算所述数据集合的信息熵以确定所述数据集合的定性分析维度，根据各定性分析维度下的定性信息制定所述数据集合的定性判断条件并将其发送至定性知识库；其中，所述定性判断条件是反应数据集合中具有识别度的定性信息；

从所述综合数据库中提取数据集合，并计算所述数据集合的最大密度范围以确定所述数据集合的定量分析维度，根据各定量分析维度及其最大密度范围制定所述数据集合的定量判断条件并将其发送至定量知识库；其中，所述定量判断条件是反应数据集合中具有识别度的定量信息；

接收由人机界面输出的记载有用户的定量信息和定性信息的待评估数据，并分别从所述定性知识库和定量知识库中提取定性判断条件和定量判断条件，根据所述定性判断条件及定量判断条件计算所述待评估数据与各数据集合之间的相关度并获得相关评估值，将相关评估值最高的数据集合的产品信息发送所述人机界面。
根据权利要求15所述的计算机可读存储介质，其中，所述获取历史业务数据并提取其中的产品信息的步骤，包括：

设定训练数量，从历史数据库中获取数量与所述训练数量一致的历史业务数据；

获取所述历史业务数据中的维度值类型，将维度值类型为字符所对应的维度ID和维度编码设为定性维度，将定性维度所对应的信息设为定性信息，将维度值类型为码值、或日期、或数值所对应的维度ID和维度编码设为定量维度，将所述定量维度所对应的信息设为定量信息；其中，所述维度ID是标注历史业务数据中维度特征的数字编号；

提取所述历史业务数据的产品信息。
根据权利要求15所述的计算机可读存储介质，其中，所述计算所述数据集合的信息熵以确定所述数据集合的定性分析维度的步骤，包括：

汇总数据集合的历史业务数据中各定性维度下的定性信息以获得定性集合；

通过预设的信息增益模型计算所述定性集合中各种类定性信息出现的概率，以获得与所述定性集合对应的定性维度的信息熵；

将信息熵小于预设的信息阈值的定性维度，设为所述数据集合的定性分析维度。
根据权利要求15所述的计算机可读存储介质，其中，所述根据各定性分析维度下的定性信息制定所述数据集合的定性判断条件的步骤，包括：

将数据集合中在所述定性分析维度下出现概率最高的定性种类设为判断值域；

从预设的定性映射表中获取与所述定性分析维度对应的判断方式，及汇总所述判断值域和判断方式生成所述数据集合的定性判断条件；

所述计算所述数据集合的最大密度范围以确定所述数据集合的定量分析维度的步骤，包括：

通过预设的均值漂移模型计算所述数据集合中各定量维度下定量信息的最大密度范围；

提取所述最大密度范围中定量信息的数量，若该数量大于预设的定量阈值，则将所述最大密度范围所对应的定量维度设为所述数据集合的定量分析维度。
根据权利要求15所述的计算机可读存储介质，其中，所述根据各定量分析维度及其最大密度范围制定所述数据集合的定量判断条件的步骤，包括：

从预设的定量映射表中获得定量分析维度的判断方式，并将所述最大密度范围作为判断值域；

汇总所述判断值域和判断方式生成所述定量分析维度的定量判断条件。
根据权利要求15所述的计算机可读存储介质，其中，根据所述定性判断条件及定量判断条件计算所述待评估数据与各数据集合之间的相关度并获得相关评估值的步骤，包括：

根据各数据集合的定性判断条件，计算待评估数据的定性信息与所述各数据集合之间的相关度，以获得定性评估值；

根据各数据集合的定量判断条件，计算待评估数据的定量信息与所述各数据集合之间的相关度，以获得定量评估值；

对所述定量评估值和定性评估值进行加权计算，获得反映所述待评估数据与各数据集合之间匹配度的相关评估值。