WO2023108967A1

WO2023108967A1 - 基于隐私保护计算和跨组织的联合信用评分方法及装置

Info

Publication number: WO2023108967A1
Application number: PCT/CN2022/087212
Authority: WO
Inventors: 宋美娜; 冯煜; 鄂海红; 张光卫; 田园; 于勰
Original assignee: 北京邮电大学
Priority date: 2021-12-15
Filing date: 2022-04-15
Publication date: 2023-06-22
Also published as: CN114398669A

Abstract

提出了基于隐私保护计算和跨组织的联合信用评分方法及装置。该方法包括：在多个边缘节点中分别构建本地数据资源，将本地数据资源的基本信息和元数据信息同步至中央节点；在中央节点中通过同步的信息构建数据模型进行关联分析，并构建数据指标；将数据指标与多个边缘节点的元数据信息进行关联映射；基于更新后的多个本地数据资源，通过隐私保护集合求交确定公共样本；通过多方数据挖掘算法计算数据指标体系的权重参数，并将权重参数赋值到评分系统的指标体系的每个特征上；通过构建出的联合评分系统模型进行信用评分。

Description

基于隐私保护计算和跨组织的联合信用评分方法及装置

相关申请的交叉引用

本申请要求在2021年12月15日在中国提交的中国专利申请号202111538462.5的优先权，其全部内容通过引用并入本文。

技术领域

本公开涉及信用评分技术领域，具体涉及一种基于隐私保护计算和跨组织的联合信用评分方法及装置。

背景技术

随着大数据和人工智能技术成功的在很多领域普及，大数据驱动模型也有望应用在建筑施工和互联网金融等各领域的风险管理中。在激烈的竞争环境下，许多机构由于自身技术水平和管理等实际因素的影响，随时可能产生信用危机。因此，相关技术中通常采用各种信用评估方法实现风险控制，通过进行信用评分与信用评级等方式确定评估结果，再根据评估结果制定相关策略，减少危机带来的不良影响。

然而，相关技术中的信用评分方法通常是拥有私有大数据平台的机构自主采集数据进行评分，导致数据采集数量有限且采集指标有限，从而缺少有效的分析方法和量化标准。并且，随着人们对隐私安全重视程度的逐渐提高，很多具有敏感信息数据无法进行获取，对数据不能有效加以利用。因此，相关技术中的信用评分方法不能合理有效的对个人或机构进行评分和评级。

发明内容

本公开旨在至少在一定程度上解决相关技术中的技术问题之一。

本公开的第一个目的在于提出一种基于隐私保护计算和跨组织的联合信用评分方法。该方法支持通过跨组织机构构建多维数据指标模型，通过隐私保护计算将数据提供与数据使用进行分离，能够在保证敏感数据的安全隐私的情况下，利用多方数据加以利用，实现了“数据可用不可见”，实现高维度和全面的信用评分价值赋能，便于实施，解决了当前信用评分存在的问题与不足。

本公开的第二个目的在于提出一种基于隐私保护计算和跨组织的联合信用评分装置。

本公开的第三个目的在于提出一种非临时性计算机可读存储介质。

本公开的第四个目的在于提出一种电子设备。

本公开的第五个目的在于提出一种计算机程序产品。

本公开的第六个目的在于提出一种计算机程序。

为达上述目的，本公开第一方面的实施例在于提出一种基于隐私保护计算和跨组织的联合信用评分方法，包括：

在多个边缘节点中分别构建本地数据资源，并将每个所述边缘节点的本地数据资源的基本信息和元数据信息同步至中央节点；

在所述中央节点中通过所述基本信息和所述元数据信息构建数据模型以进行关联分析，并构建数据指标；

将所述数据指标与所述多个边缘节点的元数据信息进行关联映射，生成所述数据指标与元数据的映射关系，构建包含多个参与方的多级数据指标体系；

根据所述映射关系更新每个所述边缘节点的本地数据资源，并在所述中央节点中基于更新后的多个本地数据资源，通过隐私保护集合求交PSI确定公共样本；

利用所述公共样本通过预设的多方数据挖掘算法计算所述数据指标体系的权重参数，并将所述权重参数赋值到评分系统的指标体系的每个特征上，以构建出联合信用评分系统模型；和

通过所述联合信用评分系统模型进行信用评分计算。

在本公开的一个实施例中，在所述通过所述联合信用评分系统模型进行信用评分计算之后，该方法还包括：在所述中央节点中从数据成本和数据应用价值的角度进行数据价值评估。

在本公开的一个实施例中，在多个边缘节点中分别构建本地数据资源，包括：在每个所述边缘节点中，为对应的每个大数据平台构建基础类数据标准和指标类数据标准；控制每个所述大数据平台进行数据采集并汇总采集的数据；对汇总的数据进行质量管理；和在本地的大数据中台中对质量管理后的数据进行治理，生成用于联合数据挖掘的主题数据资源并保存所述主题数据资源，以构建每个所述边缘节点的本地数据资源。

在本公开的一个实施例中，对汇总的数据进行质量管理，包括：基于所述元数据信息对所述汇总的数据按照预设的稽核规则进行质量稽核，生成质量稽核的评估结果；所述对质量管理后的数据进行治理，包括：通过描述性分析、缺失值处理、异常数据处理、数据标准化处理和特征选择对所述质量管理后的数据进行整合处理和过滤处理。

在本公开的一个实施例中，基础类数据标准包括：物理数据模型标准、逻辑数据模型标准、参考数据及主数据标准、元数据标准、公共代码和编码标准；所述指标类数据标准包括：基础指标标准和计算指标标准。

在本公开的一个实施例中，将所述数据指标与所述多个边缘节点的元数据信息进行关联映射，生成所述数据指标与元数据的映射关系，包括：分析并检索每个所述边缘节点的元数据信息；和将所述数据指标与多个主题数据资源中的元数据信息进行关联，生成一个数据指标对应多个元数据信息的关联表。

为达上述目的，本公开第二方面的实施例还提出了一种基于隐私保护计算和跨组织的联合信用评分装置，包括：

第一构建模块，用于在多个边缘节点中分别构建本地数据资源，并将每个所述边缘节点的本地数据资源的基本信息和元数据信息同步至中央节点；

第二构建模块，用于在所述中央节点中通过所述基本信息和所述元数据信息构建数据模型以进行关联分析，并构建数据指标；

关联映射模块，用于将所述数据指标与所述多个边缘节点的元数据信息进行关联映射，生成所述数据指标与元数据的映射关系，构建包含多个参与方的多级数据指标体系；

确定模块，用于根据所述映射关系更新每个所述边缘节点的本地数据资源，并在所述中央节点中基于更新后的多个本地数据资源，通过隐私保护集合求交PSI确定公共样本；

第一计算模块，用于利用所述公共样本通过预设的多方数据挖掘算法计算所述数据指标体系的权重参数，并将所述权重参数赋值到评分系统的指标体系的每个特征上，以构建出联合信用评分系统模型；和

第二计算模块，用于通过所述联合信用评分系统模型进行信用评分计算。

在本公开的一个实施例中，第二计算模块还用于：在所述中央节点中从数据成本和数据应用价值的角度进行数据价值评估。

在本公开的一个实施例中，第一构建模块具体用于：在每个所述边缘节点中，为对应的每个大数据平台构建基础类数据标准和指标类数据标准；控制每个所述大数据平台进行数据采集并汇总采集的数据；对汇总的数据进行质量管理；和在本地的大数据中台中对质量管理后的数据进行治理，生成用于联合数据挖掘的主题数据资源并保存所述主题数据资源，以构建每个所述边缘节点的本地数据资源。

本公开的一个实施例中，所述第一构建模块还用于：基于所述元数据信息对所述汇总的数据按照预设的稽核规则进行质量稽核，生成质量稽核的评估结果；和通过描述性分析、缺失值处理、异常数据处理、数据标准化处理和特征选择对所述质量管理后的数据进行整合处理和过滤处理。

本公开的一个实施例中，所述基础类数据标准包括：物理数据模型标准、逻辑数据模型标准、参考数据及主数据标准、元数据标准、公共代码和编码标准；所述指标类数据标准包括：基础指标标准和计算指标标准。

本公开的一个实施例中，所述关联映射模块具体用于：分析并检索每个所述边缘节点的元数据信息；和将所述数据指标与多个主题数据资源中的元数据信息进行关联，生成一个数据指标对应多个元数据信息的关联表。

本公开的实施例提供的技术方案至少带来以下有益效果：本公开通过对传统数据中台进行改造升级，在加入安全隐私的机制下，生成跨组织的联合评分系统架构，本公开提出的联合评分系统构建模式可以支持多种联合加密计算方案，适用于构建各种类型的评分系统。并且，本公开通过多方元数据构建指标体系，能够有效利用多维数据构建高维复杂的评分系统，可以实现在保证数据不可见的情况下达到数据可用的目的。由此，支持通过跨组织机构构建多维数据指标模型，通过隐私保护计算将数据提供与数据使用进行分离，能够在保证敏感数据的安全隐私的情况下，利用多方数据加以利用，实现了“数据可用不可见”，实现高维度和全面的信用评分价值赋能，从而提高了信用评分的准确性和可靠性，有利于保护用户的隐私数据的安全。

为达上述目的，本公开第三方面的实施例还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面任一实施例中的基于隐私保护计算和跨组织的联合信用评分方法。

为达上述目的，本公开第四方面的实施例还提出了一种电子设备，包括：存储器；处理器；和存储在所述存储器上并可在所述处理器上运行的计算机程序，其中所述处理器在执行所述计算机程序时实现上述第一方面任一实施例中所述的基于隐私保护计算和跨组织的联合信用评分方法。

为达上述目的，本公开第五方面的实施例还提出了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述第一方面任一实施例中所述的基于隐私保护计算和跨组织的联合信用评分方法。

为达上述目的，本公开第六方面的实施例还提出了一种计算机程序，包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行上述第一方面任一实施例中所述的基于隐私保护计算和跨组织的联合信用评分方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本公开实施例提出的一种基于隐私保护计算和跨组织的联合信用评分方法的流程图；

图2为本公开实施例提出的一种在边缘节点中构建本地数据资源的方法的流程示意图；

图3为本公开实施例提出的一种具体的基于隐私保护计算和跨组织的联合信用评分系统的结构示意图；

图4为本公开实施例提出的一种具体的基于隐私保护计算和跨组织的联合信用评分方法的流程示意图；

图5为本公开实施例提出的一种基于隐私保护计算和跨组织的联合信用评分装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例所提出的一种基于隐私保护计算和跨组织的联合信用评分方法和装置。

图1为本公开实施例提出的一种基于隐私保护计算和跨组织的联合信用评分方法的流程图。如图1所示，该方法包括步骤101至步骤106。

步骤101，在多个边缘节点中分别构建本地数据资源，并将每个边缘节点的本地数据资源的基本信息和元数据信息同步至中央节点。

需要说明的是，本公开提出的基于隐私保护计算和跨组织的联合信用评分方法可以构建出主从分布式的联合信用评分系统，即该联合信用评分系统包含中央节点和多个边缘节点两种类型的模块。在一些实施例中，边缘节点作为数据提供方可以包含多个大数据平台以获取本地数据，而中央节点能够进行联合统计分析。

在一些实施例中，边缘节点主与各个数据参与方，即当前边缘节点对应的多个大数据平台的大数据中台相结合，通过对多个大数据平台采集的本地数据进行加工、转换和治理后形成本地数据资源，该本地数据资源是数据提供方能够提供参与建模的优质数据资源。

在一些实施例中，本地数据资源的基本信息可以是本地数据资源的描述信息。

为了更加清楚的说明本公开在每个边缘节点中构建本地数据资源的具体实现过程，下面以本公开一个实施例中提出的一种在边缘节点中构建本地数据资源的步骤进行详细说明。如图2所示，步骤101具体包括以下步骤201至步骤204。

步骤201，在每个边缘节点中，为对应的每个大数据平台构建基础类数据标准和指标类数据标准。

具体的，为保证本地数据的一致性，首先每个边缘节点的本地大数据中台中，为本地的各个大数据平台构建基础类数据标准和指标类数据标准。

作为一种示例，构建的基础类数据标准可以包括：物理数据模型标准、逻辑数据模型标准、参考数据及主数据标准、元数据标准、公共代码和编码标准，构建的指标类数据标准可以包括：基础指标标准和计算指标标准。

在本示例中，具体而言，在构建物理数据模型标准时，可针对Mysql存储引擎或其他确定的存储引擎制定实际存储的数据标准，便于数据采集有统一的物理存储格式。在构建逻辑数据模型标准中，可针对信用评估场景业务设计网状数据模型标准、层次数据模型标准和关系数据模型标准等。在构建参考数据及主数据标准中，可以在信用违约和风险预警等场景业务数据中确定核心主数据，使本边缘节点能有效的提供的业务数据全局ID唯一。构建元数据标准时可包括以下几种方式：对于与业务规则和流程相关的描述性数据构建业务元数据标准，对于与存储和访问等技术底层的描述性数据构建技术元数据标准，对于与数据操作相关的描述性数据构建操作元数据标准，以及对于与数据管理相关的描述性数据构建管理元数据标准。在构建公共代码和编码标准时，可以按照信用业务需求制定有效分级分类的业务码表。

然后，在构建指标类数据标准时，分别构建基础指标和计算指标。在一些实施例中，构建的基础指标一般不包含维度信息，并且具有信用评估业务含义。再基于两个以上的基础指标计算得出计算指标。

步骤202，控制每个大数据平台进行数据采集并汇总采集的数据。

具体的，对于多个边缘节点中的任一边缘节点，先控制当前边缘节点对应的多个大数据平台进行数据采集，再汇聚多个大数据平台采集的数据。在采集和汇总数据时，可以对包含结构化数据、半结构化数据和非结构化数据的多源信息进行提取和采集，便于后续本地的大数据中台进行统一治理。

步骤203，对汇总的数据进行质量管理。

在一些实施例中，质量管理是对数据从计划、获取、存储、共享、维护、应用和消亡等一个完整的生命周期中的每个阶段内可能引发的各类数据质量问题，进行识别、度量、监控和预警等一系列管理活动。

具体实施时，作为一种可能的实现方式，可以基于元数据信息对汇总的数据按照预设的稽核规则进行质量稽核，还可以将标准质量稽核的结果发送至数据标准管理系统，由数据标准管理系统生成质量稽核的评估结果。

在本公开的实施例中，通过改善和提高管理水平使得获取的数据的数据质量进一步提高。

步骤204，在本地的大数据中台中对质量管理后的数据进行治理，生成用于联合数据挖掘的主题数据资源并保存主题数据资源，以构建每个边缘节点的本地数据资源。

具体的，在当前边缘节点的本地数据中台中构建优质数据资源，对数据进行治理后生成可以用于联合数据挖掘的主题数据资源，并落盘保存。

作为一种可能的实现方式，在进行数据治理时，可以通过描述性分析、缺失值处理、异常数据处理、数据标准化处理和特征选择等方式对质量管理后的优质数据集进行整合处理和过滤处理。

在本示例中，具体而言，在进行描述性分析过程中，获取各个特征的业务含义和计算逻辑，并分析各个特征的分布是否符合预期、特征之间的关联性和特征与实际数据值的关联度等信息。

在进行缺失值处理过程中，先统计计算样本量n、各个特征数据缺失率y和各个样本数据特征缺失率x，然后，删除特征缺失率x比较高的样本，将缺失率低的数据通过众数、中位数、平均数数值法进行填充，或者通过回归法进行样本填充。

在进行异常数据处理过程中，通过控制统计量范围、正态分布标准差分析、BOX-COX转化、箱线图异常检测、时间序列数据异常识别、聚类分析、孤立森林分析等方法识别并去除异常数据。

在进行数据标准化处理过程中，为了便于在后续提高中央节点数据联合挖掘的准确性，减少不同特征的数值影响，使用最大最小归一化和Z值规范化等标准化处理方法，进行标准化处理。

在进行特征选择过程中，为了减少特征共线性影响，进而减少生成的模型的复杂度，可以计算特征之间相关系数，保留明显的代表性特征，具体可通过方差膨胀系数(variance inflation factor，简称VIF)、皮尔森系数法和主成分分析(Principal Component Analysis，简称PCA)降维法等方法计算特征之间相关系数。

由此，根据步骤202至步骤204可生成任一边缘节点的本地数据资源，并通过上述方式可分别构建每个边缘节点的本地数据资源。

进一步的，将每个边缘节点的本地数据资源的基本信息和元数据信息同步至中央节点，形成虚拟数据资源。

需要说明的是，本公开仅将本地数据资源的描述信息以及相关元数据信息同步至中央节点，而核心业务的真实敏感数据并未发送至中央节点，从而可以降低敏感数据泄露的风险，保证敏感数据的隐私性和安全性，并可适用于更多的业务场景。

步骤102，在中央节点中通过基本信息和元数据信息构建数据模型以进行关联分析，并构建数据指标。

在本公开实施例中，可以在中央节点通过已经同步的虚拟数据资源和元数据信息进行关联分析，分别构建概念数据模型、逻辑数据模型和物理数据模型等数据模型，寻找并确定数据与数据之间的关联性。进而在已获取的数据资源的基础上构建相应的统计计算指标。

具体实施时，作为一种示例，可以先分析虚拟数据资产信息、数据模型和元数据等信息，根据上述信息构建全局逻辑数据模型，再构建业务数据指标，分析虚拟数据资源中的数据特征，根据实际情况，对与解决实际业务问题有关的数据特征进行筛选保留。

步骤103，将数据指标与多个边缘节点的元数据信息进行关联映射，生成数据指标与元数据的映射关系，构建包含多个参与方的多级数据指标体系。

在本公开实施例中，进行隐私计算的数据指标为各参与方元数据的直接映射，通过构建包含多个参与方的多级指标体系，形成基本的数据指标模型。

具体实施时，作为一种可能的实现方式，先分析并检索每个边缘节点的元数据信息，然后将数据指标与多个主题数据资源中的元数据信息进行关联，生成一个数据指标对应多个元数据信息的关联表。即，分析检索虚拟数据资源的元数据信息，由于步骤101中针对每个边缘节点生成了用于联合数据挖掘的主题数据资源，在本公开中多个边缘节点对应多主题数据资源，从而将数据指标与多主题数据资产中元数据进行映射关联，生成1对N的数据指标-元数据关联表。

步骤104，根据映射关系更新每个边缘节点的本地数据资源，并在中央节点中基于更新后的多个本地数据资源，通过隐私保护集合求交PSI确定公共样本。

在一些实施例中，隐私保护集合求交(Private Set Intersection，简称PSI)是允许持有各自集合的多个数据参与方共同计算集合的交集，而在计算的最后，各参与方只能得到正确的交集，而不会得到交集以外另一方集合中的任何信息的算法。

具体的，在每个边缘节点中，先根据映射关系抽取转换新的数据资源，具体可以通过在边缘节点中针对中央数据指标所选择的元数据，抽取关联数据集相关列，生成可用于数据挖掘的更新后的数据集。

进一步的，在中央节点中通过PSI求交确定出更新后的各个数据集的公共样本。

在本公开实施例中，为了保证多个参与方的数据集不泄露，利用多方PSI求交技术的特性，通过计算找出参与联合建模的公共样本数据，并保留公共样本的ID，用于后续进行联合数据挖掘。

步骤105，利用公共样本通过预设的多方数据挖掘算法计算数据指标体系的权重参数，并将权重参数赋值到评分系统的指标体系的每个特征上，以构建出联合评分系统模型。

在一些实施例中，多方数据挖掘算法可以包括逻辑回归(Logistic Regress，简称LR)算法、Xgboost算法、KNN算法和ANN算法等各种数据挖掘算法。

在本公开一个实施例中，在中央节点中，通过上述多方数据挖掘算对所构建的数据指标体系进行权重参数计算，最终计算出每一项数据指标中的权重。然后，将权重参数赋予预先设置的评分系统的指标体系的每一个特征上，其中，评分系统可以根据实际的评估需要确定，比如，可以选择评分卡模型为当前的评分系统。由此，构建出了联合信用评分系统模型。

步骤106，通过联合信用评分系统模型进行信用评分计算。

在本公开实施例中，在构建完成联合信用评分系统模型后，中央节点可以发布该联合信用评分系统模型，并通过该模型进行预测推理。

举例而言，通过联合信用评分系统模型进行信用评分计算时，对于新用户仅需输入用户的id，通过数据指标关联的元数据，查询并赋值，再通过多级权重求和，完成最终信用评分计算。进一步的，还可以使用信用评分进行评级。

由此，本公开的基于隐私保护计算和跨组织的联合信用评分方法，通过进行隐私加密与指标建设，使中央节点能够进行联合统计分析，可以跨多个数据参与方，以及跨中央节点和边缘节点进行联合信用评分。

需要说明的是，在本公开一个实施例中，在通过联合信用评分系统模型进行信用评分计算之后，还可以在中央节点中从数据成本和数据应用价值的角度进行数据价值评估。具体而言，中央节点可以对整个流程数据进行审计并对数据价值进行评估，在信用评分系统产生效能和收益后，从数据成本和数据应用价值进行数据价值评估，其中，数据成本包括从数据采集、存储和计算的人工费用、设备费用和运维费用等方面度量评估，数据价值包括通过数据资产的质量、使用频次活性度、数据稀缺性、数据时效性和数据应用场景等方面进行度量评估。

综上所述，本公开实施例的基于隐私保护计算和跨组织的联合信用评分方法，通过对传统数据中台进行改造升级，在加入安全隐私的机制下，生成跨组织的联合评分系统架构，本公开提出的联合评分系统构建模式可以支持多种联合加密计算方案，适用于构建各种类型的评分系统。并且，通过多方元数据构建指标体系，能够有效利用多维数据构建高维复杂的评分系统，可以实现在保证数据不可见的情况下达到数据可用的目的。由此，该方法支持通过跨组织机构构建多维数据指标模型，通过隐私保护计算将数据提供与数据使用进行分离，能够在保证敏感数据的安全隐私的情况下，利用多方数据加以利用，实现了“数据可用不可见”，实现高维度和全面的信用评分价值赋能，从而提高了信用评分的准确性和可靠性，有利于保护用户的隐私数据的安全。

为了更加清楚的说明本公开的基于隐私保护计算和跨组织的联合信用评分方法，下面以根据该方法的原理构建出的一个具体的基于隐私保护计算和跨组织的联合信用评分系统示例进行详细说明，图3为本公开实施例提出的一种具体的基于隐私保护计算和跨组织的联合信用评分系统的结构示意图，如图3所示，该基于隐私保护计算和跨组织的联合信用评分系统以主从分布式结构实现，该系统包括中央节点100和多个边缘节点(图3中以两个为示例)。

在一些实施例中，中央节点100包括基础设施层110、中央节点数据审计层120、数据层130、模型层140、数据价值管理层150、评分系统管理层160、可视化分析层170、应用层180和中央网关190。每个边缘节点200均包括多个大数据平台210(图3中以三个为示例)、大数据中台220、服务接口230、边缘数据审计层240、安全隐私加密层250和边缘网关260。

具体而言，基础设施层110主要包含基础的通信模块111、主从任务调度模块112和加密模块113等基础模块，能够为上层提供基本安全隐私和通信保障。

中央节点数据审计层120对数据层130执行数据安全审计，全方位计量计数，确保数据的获取符合隐私保障和合法合规，为数据充分利用提供可靠的环境。

数据层130包含虚拟数据资源管理模块131、数据标准管理模块132和元数据管理模块133，其中，虚拟数据资源是各个边缘节点上优质数据资源的映射体现，通过虚拟数据资源能够溯源边缘节点上的数据资源，实际数据资源仍然在边缘节点，数据标准管理和元数据管理是为保障数据定义全局唯一的情况下，将边缘节点的元数据汇总管理，目的是为构建指标模型提供数据资源的描述信息，便于数据开发者能在真实数据不可见的情况下，达到可用的目的。

模型层140包含数据模型管理模块141、数据指标管理模块142和隐私计算数据挖掘模块143等，数据模型管理可以在没有原始数据的情况下，对边缘节点的数据资源进行建模分析，挖掘各种数据的结构之间能够产生的关联，为高维数据分析工作提供有效建模支撑。数据指标管理是为解决上层业务问题提供指标管理能力，便于数据分析人员能联合更多数据建立数据指标体系，隐私计算的数据挖掘是在数据指标构建后，利用隐私数据挖掘等手段为数据指标分配合理的权重，让数据指标能精确合理的解决业务问题。

数据价值管理层150能合理为每一项联合数据挖掘产生价值进行计量与贡献度分析，从而使得整个数据运营团队得到合理的利益分配。

评分系统管理层160是评分系统相关业务的分类和管理层，包含评分系统构建、信用评分预测和评级等相关信用评分评级的业务管理。

可视化分析层170是对评分系统业务可视化解释和多维分析结果进行展示，能够对用户阐释信用分的指标含义与数据来源，提高评分评级结果的说服力。

应用层180对信用风控相关领域作出相关应用案例，评分系统可应用于信用评估业务、风险识别、违约预警和危害分析等。

中央节点100的中央网关190与每个边缘节点200的边缘网关260相连，实现中央节点100与每个边缘节点200的数据传输。边缘节点200与各个数据参与方即各个大数据平台210的大数据中台220相结合，并通过隐私加密相关技术与审计技术使得敏感数据不出域的情况下提供相关数据服务。

基于上述实施例，为了便于理解本公开实施例的基于隐私保护计算和跨组织的联合信用评分方法在实际应用中的具体实现过程，下面以一个实际应用中的具体实施例进行说明，图4为本公开实施例提出的一种具体的基于隐私保护计算和跨组织的联合信用评分方法的流程示意图。如图4所示，该方法包括以下步骤410至步骤480。

步骤410，边缘节点构建本地数据资产并同步。

步骤420，中央节点分析数据模型并构建业务数据指标。

在本步骤中，可以由数据分析师在中央节点通过已经同步的虚拟数据资源和元数据信息关联分析，分别构建概念数据模型、逻辑数据模型和物理数据模型等，寻找并理解数据与数据之间的关联性。在已有数据资产的基础上构建相应的统计计算指标。

步骤430，中央节点数据指标与元数据形成映射关联。

步骤440，边缘节点抽取转换新数据资源。

步骤450，中央节点通过PSI求交找出各个数据集公共样本。

步骤460，中央节点利用多方隐私数据挖掘算法构建信用评分联合模型。

步骤470，中央节点发布信用评分联合模型并预测推理。

步骤480，中央节点对整个流程数据审计并对数据价值进行评估。

需要说明的是，该方法中各步骤的具体实现方式可以参照上述实施例中的描述，此处不再赘述。该方法在进行联合统计分析时首先明确业务建模的目标与含义，数据提供方在边缘节点作数据筛选清理构建本地数据资产，并将该数据资产的基本信息与元数据信息与中央同步。数据开发者在中央节点做数据模型关联分析，并构建业务数据指标，将数据指标与元数据进行映射关联，形成逻辑数据指标与实际物理数据资源的映射关系。边缘节点对此映射关系自动形成新的本地数据集。中央节点对各家数据资产的数据进行PSI加密实体对齐找到公共样本，针对公共数据利用隐私计算数据挖掘计算数据指标权重，最终模型拟合后形成联合评分卡模型。

为了实现上述实施例，本公开还提出了一种基于隐私保护计算和跨组织的联合信用评分装置。图5为本公开实施例提出的一种基于隐私保护计算和跨组织的联合信用评分装置的结构示意图。如图5所示，该装置包括第一构建模块100、第二构建模块200、关联映射模块300、确定模块400、第一计算模块500和第二计算模块600。

第一构建模块100，用于在多个边缘节点中分别构建本地数据资源，并将每个边缘节点的本地数据资源的基本信息和元数据信息同步至中央节点。

第二构建模块200，用于在中央节点中通过基本信息和元数据信息构建数据模型以进行关联分析，并构建数据指标。

关联映射模块300，用于将数据指标与多个边缘节点的元数据信息进行关联映射，生成数据指标与元数据的映射关系，构建包含多个参与方的多级数据指标体系。

确定模块400，用于根据映射关系更新每个边缘节点的本地数据资源，并在中央节点中基于更新后的多个本地数据资源，通过隐私保护集合求交PSI确定公共样本。

第一计算模块500，用于利用公共样本通过预设的多方数据挖掘算法计算数据指标体系的权重参数，并将权重参数赋值到评分系统的指标体系的每个特征上，以构建出联合信用评分系统模型。

第二计算模块600，用于通过联合信用评分系统模型进行信用评分计算。

在本公开的一个实施例中，第二计算模块600还用于：在中央节点中从数据成本和数据应用价值的角度进行数据价值评估。

在本公开的一个实施例中，第一构建模块100具体用于：在每个边缘节点中，为对应的每个大数据平台构建基础类数据标准和指标类数据标准；控制每个大数据平台进行数据采集并汇总采集的数据；对汇总的数据进行质量管理；和在本地的大数据中台中对质量管理后的数据进行治理，生成用于联合数据挖掘的主题数据资源并保存主题数据资源，以构建每个边缘节点的本地数据资源。

在本公开的一个实施例中，第一构建模块100还用于：基于元数据信息对汇总的数据按照预设的稽核规则进行质量稽核，生成质量稽核的评估结果；和通过描述性分析、缺失值处理、异常数据处理、数据标准化处理和特征选择对质量管理后的数据进行整合处理和过滤处理。

在本公开的一个实施例中，基础类数据标准包括：物理数据模型标准、逻辑数据模型标准、参考数据及主数据标准、元数据标准、公共代码和编码标准；指标类数据标准包括：基础指标标准和计算指标标准。

在本公开的一个实施例中，关联映射模块300具体用于分析并检索每个边缘节点的元数据信息；和将数据指标与多个主题数据资源中的元数据信息进行关联，生成一个数据指标对应多个元数据信息的关联表。

需要说明的是，前述对基于隐私保护计算和跨组织的联合信用评分方法的实施例的解释说明也适用于该实施例的装置，此处不再赘述。

综上所述，本公开实施例的基于隐私保护计算和跨组织的联合信用评分装置，通过对传统数据中台进行改造升级，在加入安全隐私的机制下，生成跨组织的联合评分系统架构，本公开提出的联合评分系统构建模式可以支持多种联合加密计算方案，适用于构建各种类型的评分系统。并且，通过多方元数据构建指标体系，能够有效利用多维数据构建高维复杂的评分系统，可以实现在保证数据不可见的情况下达到数据可用的目的。

为了实现上述实施例，本公开还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述实施例中任一所述的基于隐私保护计算和跨组织的联合信用评分方法。

为了实现上述实施例，本公开还提出了一种电子设备，包括：存储器；处理器；和存储在所述存储器上并可在所述处理器上运行的计算机程序，其中所述处理器在执行所述计算机程序时实现如上述实施例中任一所述的基于隐私保护计算和跨组织的联合信用评分方法。

为了实现上述实施例，本公开还提出了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上述实施例中任一所述的基于隐私保护计算和跨组织的联合信用评分方法。

为了实现上述实施例，本公开还提出了一种计算机程序，包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行如上述实施例中任一所述的基于隐私保护计算和跨组织的联合信用评分方法。

需要说明的是，前述对基于隐私保护计算和跨组织的联合信用评分方法的实施例的解释说明也适用于上述实施例的非临时性计算机可读存储介质、电子设备、计算机程序产品和计算机程序，此处不再赘述。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本公开各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本公开的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本公开的限制，本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

一种基于隐私保护计算和跨组织的联合信用评分方法，包括：

在多个边缘节点中分别构建本地数据资源，并将每个所述边缘节点的本地数据资源的基本信息和元数据信息同步至中央节点；

在所述中央节点中通过所述基本信息和所述元数据信息构建数据模型以进行关联分析，并构建数据指标；

将所述数据指标与所述多个边缘节点的元数据信息进行关联映射，生成所述数据指标与元数据的映射关系，构建包含多个参与方的多级数据指标体系；

根据所述映射关系更新每个所述边缘节点的本地数据资源，并在所述中央节点中基于更新后的多个本地数据资源，通过隐私保护集合求交PSI确定公共样本；

利用所述公共样本通过预设的多方数据挖掘算法计算所述数据指标体系的权重参数，并将所述权重参数赋值到评分系统的指标体系的每个特征上，以构建出联合信用评分系统模型；和

通过所述联合信用评分系统模型进行信用评分计算。
根据权利要求1所述的方法，其中在所述通过所述联合信用评分系统模型进行信用评分计算之后，所述方法还包括：

在所述中央节点中从数据成本和数据应用价值的角度进行数据价值评估。
根据权利要求1或2所述的方法，其中所述在多个边缘节点中分别构建本地数据资源，包括：

在每个所述边缘节点中，为对应的每个大数据平台构建基础类数据标准和指标类数据标准；

控制每个所述大数据平台进行数据采集并汇总采集的数据；

对汇总的数据进行质量管理；和

在本地的大数据中台中对质量管理后的数据进行治理，生成用于联合数据挖掘的主题数据资源并保存所述主题数据资源，以构建每个所述边缘节点的本地数据资源。
根据权利要求3所述的方法，其中所述对汇总的数据进行质量管理，包括：

基于所述元数据信息对所述汇总的数据按照预设的稽核规则进行质量稽核，生成质量稽核的评估结果；

所述对质量管理后的数据进行治理，包括：

通过描述性分析、缺失值处理、异常数据处理、数据标准化处理和特征选择对所述质量管理后的数据进行整合处理和过滤处理。
根据权利要求3或4所述的方法，其中所述基础类数据标准包括：物理数据模型标准、逻辑数据模型标准、参考数据及主数据标准、元数据标准、公共代码和编码标准；所述指标类数据标准包括：基础指标标准和计算指标标准。
根据权利要求3至5中任一项所述的方法，其中所述将所述数据指标与所述多个边缘节点的元数据信息进行关联映射，生成所述数据指标与元数据的映射关系，包括：

分析并检索每个所述边缘节点的元数据信息；和

将所述数据指标与多个主题数据资源中的元数据信息进行关联，生成一个数据指标对应多个元数据信息的关联表。
一种基于隐私保护计算和跨组织的联合信用评分装置，包括：

第一构建模块，用于在多个边缘节点中分别构建本地数据资源，并将每个所述边缘节点的本地数据资源的基本信息和元数据信息同步至中央节点；

第二构建模块，用于在所述中央节点中通过所述基本信息和所述元数据信息构建数据模型以进行关联分析，并构建数据指标；

关联映射模块，用于将所述数据指标与所述多个边缘节点的元数据信息进行关联映射，生成所述数据指标与元数据的映射关系，构建包含多个参与方的多级数据指标体系；

确定模块，用于根据所述映射关系更新每个所述边缘节点的本地数据资源，并在所述中央节点中基于更新后的多个本地数据资源，通过隐私保护集合求交PSI确定公共样本；

第一计算模块，用于利用所述公共样本通过预设的多方数据挖掘算法计算所述数据指标体系的权重参数，并将所述权重参数赋值到评分系统的指标体系的每个特征上，以构建出联合信用评分系统模型；和

第二计算模块，用于通过所述联合信用评分系统模型进行信用评分计算。
根据权利要求7所述的装置，其中所述第二计算模块还用于：

在所述中央节点中从数据成本和数据应用价值的角度进行数据价值评估。
根据权利要求7或8所述的装置，其中所述第一构建模块具体用于：

在每个边缘节点中，为对应的每个大数据平台构建基础类数据标准和指标类数据标准；

控制每个所述大数据平台进行数据采集并汇总采集的数据；

对汇总的数据进行质量管理；和

在本地的大数据中台中对质量管理后的数据进行治理，生成用于联合数据挖掘的主题数据资源并保存所述主题数据资源，以构建每个所述边缘节点的本地数据资源。
根据权利要求9所述的装置，其中所述第一构建模块还用于：

基于所述元数据信息对所述汇总的数据按照预设的稽核规则进行质量稽核，生成质量稽核的评估结果；和

通过描述性分析、缺失值处理、异常数据处理、数据标准化处理和特征选择对所述质量管理后的数据进行整合处理和过滤处理。
根据权利要求9或10所述的装置，其中所述基础类数据标准包括：物理数据模型标准、逻辑数据模型标准、参考数据及主数据标准、元数据标准、公共代码和编码标准；所述指标类数据标准包括：基础指标标准和计算指标标准。
根据权利要求9至11中任一项所述的装置，其中所述关联映射模块具体用于：

分析并检索每个所述边缘节点的元数据信息；和

将所述数据指标与多个主题数据资源中的元数据信息进行关联，生成一个数据指标对应多个元数据信息的关联表。
一种非临时性计算机可读存储介质，其上存储有计算机程序，其中所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的基于隐私保护计算和跨组织的联合信用评分方法。
一种电子设备，包括：

存储器；

处理器；和

存储在所述存储器上并可在所述处理器上运行的计算机程序，

其中所述处理器在执行所述计算机程序时实现如权利要求1至6中任一项所述的基于隐私保护计算和跨组织的联合信用评分方法。
一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现权利要求1至6中任一项所述的基于隐私保护计算和跨组织的联合信用评分方法。
一种计算机程序，包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行权利要求1至6中任一项所述的基于隐私保护计算和跨组织的联合信用评分方法。