WO2020015594A1

WO2020015594A1 - 信息修复方法、装置、电子设备及计算机可读介质

Info

Publication number: WO2020015594A1
Application number: PCT/CN2019/095867
Authority: WO
Inventors: 卢周; 袁力; 范叶亮; 杜强; 项祖琪; 钱勇
Original assignee: 京东数字科技控股有限公司
Priority date: 2018-07-20
Filing date: 2019-07-12
Publication date: 2020-01-23
Also published as: CN110738558B; CN110738558A

Abstract

一种信息修复方法、装置、电子设备及计算机可读介质，属于互联网技术领域。该方法包括：通过电商平台获取用户数据，并对所述用户数据进行整合，得到数据整合表（S110）；根据所述数据整合表构建关系网络（S120）；对所述数据整合表进行多账号融合，结合所述关系网络生成融合后关系网络（S130）；根据所述融合后关系网络进行指定信息的修复（S140）。该方法通过对电商平台的用户数据构建生成关系网络，并进行融合、搜索等计算，实现对用户一些信息的修复，对原来已经失联的指定信息进行修复，可以得到更多失联借款人的联系方式。而且基于电商平台实际发生的购物数据，可以提高失联借款人联系方式的可靠性。

Description

信息修复方法、装置、电子设备及计算机可读介质

本公开要求申请日为2018年07月20日、申请号为201810804729.2、发明创造名称为《信息修复方法、装置、电子设备及计算机可读介质》的中国发明专利申请的优先权。

技术领域

本公开总体涉及互联网技术领域，具体而言，涉及一种信息修复方法、装置、电子设备及计算机可读介质。

背景技术

随着互联网金融业务发展，用户通过在线填写资料申请贷款，通过对大数据、机器学习等技术进行自动化授信决策，反欺诈，贷款催收，个性化营销等，大大提高业务效率，降低成本。

在互联网信贷客户逾期后，主要依靠贷后催收提高贷款收回率。目前，催收人员主要通过在申请贷款时预留个人电话号码，常用联系人电话号码联系借贷人，进行电话催收。但是如果借贷人无心偿还贷款，其预留号码的有效率会比较低，给电话催收带来不利影响。

因此，现有技术中的技术方案还存在有待改进之处。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开提供一种信息修复方法、装置、电子设备及计算机可读介质，以解决上述技术问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一方面，提供一种信息修复方法，包括：

通过电商平台获取用户数据，并对所述用户数据进行整合，得到数据整合表；

根据所述数据整合表构建关系网络；

对所述数据整合表进行多账号融合，结合所述关系网络生成融合后关系网络；

根据所述融合后关系网络进行指定信息的修复。

在本公开的一个实施例中，所述用户数据的数据来源为电商登录账号、身份证号、银行卡号、手机号、钱包支付账号、金融理财账号、移动设备号中的至少一种。

在本公开的一个实施例中，对所述用户数据进行整合，得到数据整合表包括：

针对所述用户数据的不同数据来源分别设定数据来源优先级；

当不同数据来源中含有相同字段时，根据所述数据来源优先级选择优先级高的数据来源中的字段值；当不同数据来源中未包含相同字段时，在相应数据来源中获取字段对应的字段值；

根据字段和对应的字段值形成所述数据整合表。

在本公开的一个实施例中，根据所述数据整合表构建关系网络包括：

将所述用户数据的数据来源作为节点；

根据所述节点之间的直接关联或间隔关联得到两个节点之间的边；

通过所述节点和所述边形成所述关系网络。

在本公开的一个实施例中，对所述数据整合表进行多账号融合，结合所述关系网络生成融合后关系网络包括：

对所述数据整合表中的数据来源优先级低于或等于预设值的数据来源进行删除；

根据删除后的数据整合表形成边表和节点编号与原始KEY的对应关系；

根据所述边表和节点个数采用连通分量算法计算得到节点编号与逻辑KEY的对应关系；

根据所述节点编号与原始KEY的对应关系和所述节点编号与逻辑KEY的对应关系，计算得到原始KEY与逻辑KEY的对应关系；

根据所述原始KEY与逻辑KEY的对应关系生成所述融合后关系网络；

其中所述原始KEY为所述用户数据的唯一识别号，所述逻辑KEY用于标记多账号融合后多个所述原始KEY对应的唯一逻辑主体。

在本公开的一个实施例中，根据删除后的数据整合表形成边表和节点编号与原始KEY的对应关系包括：

对所述删除后的数据整合表中的节点进行连续编号；

将同一原始KEY的节点进行两两组合，得到边表，所述边表中包括起始节点编号和终点节点编号；

构建节点编号与原始KEY的对应关系。

在本公开的一个实施例中，根据所述融合后关系网络进行指定信息的修复包括：

对多个所述融合后关系网络中从指定的逻辑KEY出发进行广度优先搜索查找相关的其他逻辑KEY，找到前N个最短路径逻辑KEY；

根据所述前N个最短路径逻辑KEY中指定字段对应的字段值得到指定信息的修复结果。

在本公开的一个实施例中，对多个所述融合后关系网络中从指定的逻辑KEY出发进行广度优先搜索查找相关的其他逻辑KEY，找到前N个最短路径逻辑KEY包括：

根据所述删除后的数据整合表产生节点表；

根据所述节点表和所述边表得到变权重、顶点类型权重和顶点度数；

对指定的逻辑KEY采用广度优先搜索算法进行遍历和加权计算，得到多个路径长度，其中所述路径长度＝边权重+顶点类型权重+顶点度数；

根据所述多个路径长度中数值最小的前N个数值得到所述前N个最短路径逻辑KEY。

根据本公开的再一方面，提供一种信息修复装置，包括：

数据获取模块，被配置为通过电商平台获取用户数据，并对所述用户数据进行整合，得到数据整合表；

网络构建模块，被配置为根据所述数据整合表构建关系网络；

融合模块，被配置为对所述数据整合表进行多账号融合，结合所述关系网络生成融合后关系网络；

修复模块，被配置为根据所述融合后关系网络进行指定信息的修复。

根据本公开的又一方面，提供一种电子设备，包括处理器；存储器，存储用于所述处理器控制如上所述的方法步骤的指令。

根据本公开的另一方面，提供一种计算机可读介质，其上存储有计算机可执行指令，所述可执行指令被处理器执行时实现如上所述的方法步骤。

根据本公开实施例提供的信息修复方法、装置、电子设备及计算机可读介质，一方面，通过对电商平台的用户数据构建生成关系网络，并进行融合、搜索等计算，实现对用户一些信息的修复，对原来已经失联的指定信息进行修复，可以得到更多失联借款人的联系方式。另一方面，基于电商平台实际发生的购物数据，可以提高失联借款人联系方式的可靠性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。

图1示出本公开一实施例中提供的一种信息修复方法的流程图。

图2示出本公开一实施例图1中步骤S110的流程图。

图3示出本公开一实施例图1中步骤S120的流程图。

图4示出本公开一实施例中的关系网络示意图。

图5示出本公开一实施例图1中步骤S130的流程图。

图6示出本公开一实施例图5中步骤S520的流程图。

图7示出本公开一实施例中的融合后关系网络示意图。

图8示出本公开一实施例图1中步骤S140的流程图。

图9示出本公开另一实施例中提供的一种信息修复装置的示意图。

图10示出本公开一实施例提供的适于用来实现本申请实施例的电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。

附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

在本公开的相关实施例中，据有关数据统计，国内个人信贷市场中，新申请客户中，失联比例达30％以上，进入不良阶段后(逾期30天以上)，失联比例高达70％。通过申请贷款时预留个人电话号码，关联人电话号码进行电话催收，会因欠款客户(即借款人)的填写的联系方式失联比例较高或欠款客户填写的常用联系人可用性较低，从而影响贷后催收的工作，产生较多不良资产。

图1示出本公开一实施例中提供的一种信息修复方法的流程图，包括以下步骤：

如图1所示，在步骤S110中，通过电商平台获取用户数据，并对所述用户数据进行整合，得到数据整合表。

如图1所示，在步骤S120中，根据所述数据整合表构建关系网络。

如图1所示，在步骤S130中，对所述数据整合表进行多账号融合，结合所述关系网络生成融合后关系网络。

如图1所示，在步骤S140中，根据所述融合后关系网络进行指定信息的修复。

本公开实施例提供的信息修复方法，一方面，通过对电商平台的用户数据构建生成关系网络，并进行融合、搜索等计算，实现对用户一些信息的修复，对原来已经失联的指定信息进行修复，可以得到更多失联借款人的联系方式。另一方面，基于电商平台实际发生的购物数据，可以提高失联借款人联系方式的可靠性。

以下结合图1所示的流程图对本公开提供的信息修复方法进行详细介绍，具体如下：

在步骤S110中，通过电商平台获取用户数据，并对所述用户数据进行整合，得到数据整合表。

通过电商平台来获取用户数据，由于在电商业务中，用户在完成整个购物过程中会留下诸多方面的信息，如用户在注册账号、浏览商品过程、下单成功、支付完成等过程中留下大量手机号、设备、卡号、账号等数据。

在本公开的一个实施例中，通过电商平台获取的用户数据的数据来源为电商登录账号、身份证号、银行卡号、手机号、钱包支付账号、金融理财账号、移动设备号中的至少一种。实际在电商平台中还可以获取更多的用户数据，如地址信息等，本公开中仅以修复联系方式这种指定信息为例进行介绍。

在本公开的一个实施例中，图2示出步骤S110中对所述用户数据进行整合，得到数据整合表的流程图，包括以下步骤：

如图2所示，在步骤S210中，针对所述用户数据的不同数据来源分别设定数据来源优先级。

如图2所示，在步骤S220中，基于数据来源及数据来源优先级获取字段级对应的字段值。

具体为：当不同数据来源中含有相同字段时，根据所述数据来源优先级选择优先级高的数据来源中的字段值；当不同数据来源中未包含相同字段时，在相应数据来源中获取字段对应的字段值。

如图2所示，在步骤S230中，根据字段和对应的字段值形成所述数据整合表。

表1为数据整合表，示出上述数据来源下的用户数据，具体如下：

Idlist表	字段类型	字段描述
us_*_key	Bigint	原始KEY
us_*_p	String	电商登录账号
us_*_n	String	用户姓名
id_*_n	String	身份证号码
wa_*_t	String	支付钱包账号
cu_*_ao	String	金融理财账号
mo_*_e	String	手机号
ba_*_ao	String	银行卡号
de_*_id	String	移动端设备ID
da_*_a	String	数据来源
sr_*_ue	Bigint	数据来源优先级

表1

如表1所示，对用户数据在Idlist表中的字段、字段类型以及字段描述进行介绍。本公开中主要是以电商登录账号为中心，对不同来源的用户设备、身份证号、卡号、手机号等数据进行整合。当用户首次访问电商网站时，通常会先注册网站账号(即电商登录账号)，在登录账号后，搜索浏览商品，最后填写收货地址、收货人及收货电话，下单购买商品。同时一个现实中真实人可能会有多个电商登录账号，并且会通过这多个账号给自己或亲朋好友下单购买商品，这样就会留下亲朋好友收货人的手机号、地址、姓名等。同时如果通过移动设备购买商品，还会留下移动设备信息号(如IMEI，可唯一确定一台移动设备)。同时，也可能存在多个账户登录同一设备的情况。如果支付时选择在线快捷支付，还会绑定本人实名信息(身份证、手机号)，卡信息(信用卡号、借记卡号、发卡行)等。这些多种由不同系统(支付实名系统、电商基本信息系统等)产生的数据，积累一个庞大的、涵盖电商登录账号、移动设备、手机号、身份证号、收货地址、银行等等信息，即综合性的用户数据。

如上所述，身份证号、手机号等个人信息字段会来源多个系统(如支付实名、电商基本信息)，由“数据来源”字段区分数据来源的所属系统，不同的数据来源具有不同的可信度。比如身份证号，来源支付实名系统比来源电商基本信息系统中要可靠。通过“数据来源优先级”字段量化数据来源优先级的值，以便后续步骤中根据数据来源优先级对众多的数据进行选择和取舍。

在步骤S120中，根据所述数据整合表构建关系网络。

在本公开的一个实施例中，图3示出步骤S120中根据所述数据整合表构建关系网络的流程图，包括以下步骤：

如图3所示，在步骤S310中，将所述用户数据的数据来源作为节点。

如图3所示，在步骤S320中，根据所述节点之间的直接关联或间隔关联得到两个节点之间的边。

如图3所示，在步骤S330中，通过所述节点和所述边形成所述关系网络。

图4示出基于上述表1形成的关系网络示意图，如图4所示的关系网络中节点的来源，主要是表1中的各类账号，包括：电商登录账号41、身份证号42、银行卡号43、手机号44、钱包支付账号45、金融理财账号46、移动设备号47。网络中的节点还具有属性，节点属性主要包括来源、时间等。例如，电商登录账号41的属性包括：用户等级、注册时间、最近下单时间和最近消费金额。身份证号42的属性包括：(类型：护照/驾驶证/身份证)、省份、数据来源和数据来源优先级。银行卡号43的属性包括：(类型：借记/信用)、银行、数据来源、数据来源优先级。手机号44的属性包括：手机号、最后一次使用时间、数据来源、数据来源优先级。钱包支付账号45的属性包括：钱包支付账号和注册时间。金融理财账号46的属性包括理财账号和注册时间。移动设备号47的属性包括：电商登录账号、IMEI号、数据来源、数据来源优先级。

如图4所示的关系网络中边的来源有两种：一是表1中处于同一行的各类账号(即已知的绑定和使用关系)，都有一条连接的边；二是由已知的关系，根据规则推导出的隐含关系，如使身份证号相同的多行数据存在关联关系。边的属性主要包括：实名认证、交易、注册、绑定等。例如，以电商登录账号41相关的边为例，电商登录账号41与身份证号42的边的属性为实名认证，电商登录账号41与银行卡号43的边的属性为绑卡/交易，电商登录账号41与手机号44的边的属性为交易，电商登录账号41与钱包支付账号45的边的属性为注册，电商登录账号41与金融理财账号46的边的属性为注册，电商登录账号41与移动设备号47的边的属性为交易。对于其他边的属性参照图4所示，此处不再赘述。

在步骤S130中，对所述数据整合表进行多账号融合，结合所述关系网络生成融合后关系网络。

由于在关系网络中，会存在多个电商登录账号实际上是同一“逻辑人”的情况，这需要对这多个电商登录账号进行融合，利用更大更准确的关系网络，提高失联修复效果。因此在步骤S130中通过带过滤的连通分量算法，将认定为同一“逻辑人”的各种节点(手机，身份证，电商登录账号等)关联为同一个逻辑KEY，从而实现各种账号到逻辑KEY的映射。

在本公开的一个实施例中，图5示出步骤S130中对所述数据整合表进行多账号融合，结合所述关系网络生成融合后关系网络的流程图，具体包括以下步骤：

如图5所示，在步骤S510中，对所述数据整合表中的数据来源优先级低于或等于预设值的数据来源进行删除。

如图5所示，在步骤S520中，根据删除后的数据整合表形成边表和节点编号与原始KEY的对应关系。

如图5所示，在步骤S530中，根据所述边表和节点个数采用连通分量算法计算得到节点编号与逻辑KEY的对应关系。

如图5所示，在步骤S540中，根据所述节点编号与原始KEY的对应关系和所述节点编号与逻辑KEY的对应关系，计算得到原始KEY与逻辑KEY的对应关系。其中所述原始KEY为所述用户数据的唯一识别号，所述逻辑KEY用于标记多账号融合后多个所述原始KEY对应的唯一逻辑主体。

如表1所示，其中原始KEY(即字段us_*_key)为原始数据的唯一ID，并且保证每次更新数据表时，数据的原始KEY不会改变。

如图5所示，在步骤S550中，根据所述原始KEY与逻辑KEY的对应关系生成所述融合后关系网络。

在本公开的一个实施例中，图6示出步骤S520中根据删除后的数据整合表形成边表和节点编号与原始KEY的对应关系包括：

如图6所示，在步骤S610中，对所述删除后的数据整合表中的节点进行连续编号。

如图6所示，在步骤S620中，将同一原始KEY的节点进行两两组合，得到边表，所述边表中包括起始节点编号和终点节点编号。

如图6所示，在步骤S630中，构建节点编号与原始KEY的对应关系。

根据表1所示的数据整合表，经过融合业务输出原始KEY与逻辑KEY 的对应关系，即输入格式为文本文件，每行数据有唯一原始KEY的关联数据，数据内容如表1所示，不同字段之间以空格分隔；输出格式也为文本文件，每行为原数据行中的原始KEY与其逻辑KEY之间的映射关系，格式为原始KEY[空格]逻辑KEY。输出为所有原始KEY所对应的逻辑KEY，其中取所对应的所有原始KEY中最小值作为逻辑KEY，具体包括下述三个步骤：

第一步，对表1所示的数据整合表进行过滤。

根据业务严格度的要求(可控制修复结果的是否严格)，指定限制来源，更新关系网络结构。其中过滤规则如下：

1)电商登录账号一致

2)手机号一致，限制来源为指定来源

3)身份证号码一致，限制来源为指定来源

4)金融理财账号一致

5)支付钱包账号一致

6)银行卡号一致，限制来源为指定来源

针对表1所示的数据，保留手机号、身份证号、银行卡号来源优先级为6以上节点，其他节点删除，对起点或者终点不在保留列表中的边，直接删除。

另外，由于手机号、身份证号等数据格式差异较大，为了计算方便，统一对所有节点进行ID编码，对所有节点按0开始进行连续编号，得到一个唯一的节点编号(即节点ID)(表1中多行数据中节点值相同，节点ID相同)。

(1)将同一原始KEY的节点ID，两两组合，得到边表的格式为：

起点节点ID[空格]终点节点ID。

(2)保留节点ID和原始KEY对应关系，方便后续查找，格式为：

节点ID[空格]原始KEY

例如，将手机号节点13*******生成新的节点ID 101，原始KEY为100001，得到保留节点和原始KEY对应关系的格式为：101 100001。

第二步，在图中计算连通分量。

采用的连通分量算法为标准算法，输入文件为边表文件和节点个数，输出是节点ID到连通分量ID的对应关系。由于第一步中已经将无用的边和节点全部过滤出去，处于同一连通分量的节点即可视为同一“逻辑主体”(即“逻辑人”)，连通分量ID取同一连通分量中最小节点ID。

即取连通分量ID为逻辑KEY，输出数据文件，格式为：

节点ID[空格]逻辑KEY。

第三步，由连通分量计算原始KEY到逻辑KEY的对应关系。

首先将节点ID映射成原始KEY，这一步通过查找节点ID->KEY对应表来完成。最终输出所有原始KEY及其对应的逻辑KEY，格式为：

原始KEY[空格]逻辑KEY。

最后，将此结果与原始输入做一次合并，也就是将逻辑KEY添加到数据整合表中，另外由于过滤删除了一部分节点(如用户姓名、移动端设备ID等)，因此得到如表2所示的融合表，如下所示：

Idlist表	字段类型	字段描述
us_*_key	bigint	原始KEY
us_*_p	string	电商登录账号
mo_*_e	String	手机号
id_*_n	string	身份证号码
wa_*_t	String	支付钱包账号
cu_*_ao	String	金融理财账号
ba_*_ao	String	银行卡号
da_*_a	string	数据来源
sr_*_ue	bigint	数据来源优先级
logic_key	bigint	逻辑KEY

表2

进一步根据上述融合表，得到图7所示的融合后关系网络的示意图。如图7所示，以逻辑KEY701为中心，还包括手机号702、金融理财账号703、身份证号704、电商登录账号705、银行卡号706和支付钱包账号707等六个节点，其余节点均与逻辑KEY701形成边，边的属性均为来源。

在步骤S140中，根据所述融合后关系网络进行指定信息的修复。

在本公开的一个实施例中，该步骤中首先，对多个所述融合后关系网络中从指定的逻辑KEY出发进行广度优先搜索查找相关的其他逻辑KEY，找到前N个最短路径逻辑KEY，然后，根据所述前N个最短路径逻辑KEY中指定字段对应的字段值得到指定信息的修复结果。

具体的，图8示出步骤S140中根据所述融合后关系网络进行指定信息的修复的流程图，具体包括以下步骤：

如图8所示，在步骤S810中，根据所述删除后的数据整合表产生节点表。

如图8所示，在步骤S820中，根据所述节点表和所述边表得到变权重、顶点类型权重和顶点度数。

如图8所示，在步骤S830中，对指定的逻辑KEY采用广度优先搜索算法进行遍历和加权计算，得到多个路径长度，其中所述路径长度＝边权重+顶点类型权重+顶点度数。

如图8所示，在步骤S840中，根据所述多个路径长度中数值最小的前N 个数值得到所述前N个最短路径逻辑KEY。

如图8所示，在步骤S850中，根据所述前N个最短路径逻辑KEY中指定字段对应的字段值得到指定信息的修复结果。

该步骤中主要依靠人与人之间联系(共用手机，收货地址等)，查询失联客户关系最紧密的逻辑人，这些逻辑人很可能就是客户本人(即借款人)或者与其有紧密关系的实体人，期望通过这些逻辑人的联系方式能够联系到失联客户。

在关系网络中，通过同一“逻辑人”将同属某一个真实人的不同账号的最终关联起来。其中每一个“逻辑人”拥有唯一的KEY(即逻辑KEY)，以逻辑KEY为中心，延伸出“逻辑人”的各种账号(手机号，电商登录账号，银行卡号等)，各逻辑人之间通过信息节点相连。修复算法执行时，统一从逻辑KEY出发执行BFS(Breadth-First Search，广度优先搜索)算法操作查找相关的其它逻辑KEY，操作中根据边权重、顶点类型权重、顶点度数等加权汇总得到路径长度，最后只保留前N(如可以取值前100)个最短路径。

其中本实施例中路径长度计算大体分为两步：

第一步，由表2创建融合关系网络图。

将表2中各种不同的数据映射到图中，产生节点表和边表。同时每条边附带来源权重(即边权重)与顶点类型权重，同时计算顶点度数，顶点度数等于出度+入度，其中对于有向图来说，顶点的出边条数称为该顶点的出度，有向图中某点作为图中边的终点的次数之和为入度。

基于上述，产生文件包括：

(1)不同顶点账号(手机，地址，PIN等类型)->逻辑KEY映射表

(2)逻辑KEY->不同顶点账号(手机，地址，PIN等类型)映射表

(3)边表(包含数据来源等属性)

(4)每个节点度数的统计。

第二步，BFS路径长度计算，即对指定的逻辑KEY进行BFS操作，最后返回前N(例如前100)个最短路径逻辑KEY。

在实际应用场景中，客户(即借款人)可能通过多个系统填写个人信息，比如身份证号，可能在电商基本信息注册时填写，也可能在支付绑卡实名时填写，所以，同一顶点信息，来源不同时其可信度不同，如身份证号来源支付实名表比来源电商基本信息表的可信度要高。为了更好度量这些信息，将逻辑KEY到其他类型顶点的边按来源不同赋予不同的权重，即边权重，该值越小，意味数据来源越可靠，越大数据来源越不可靠。同理，两个原始KEY通过身份证号相连，比通过设备相连，可靠性也高一些，所以对不同类型顶点(非原始KEY顶点)赋予不同的权重，即顶点类型权重，该值越小，意味相连接的KEY关系越紧密。

基于上述，考虑到不同顶点统计的度数差异较大，度数较高的顶点可能是公共顶点，对关系关联可信度较差，因此将每个顶点的出度和入度做一个统计，得到顶点度数，即顶点度数＝出度+入度。

最后在计算各个KEY之间路径长度时，使用三者相加算法，值越小，说明关系越紧密。如下公式：

路径长度＝边权重+顶点类型权重+顶点度数。

通过并行算法对不同的节点使用BFS算法进行图遍历，使用Dijkstra单源最短路径算法，计算KEY关联的每一个其他KEY的最短路径，根据上述路径长度的计算公式进行计算。其中Dijkstra迪杰斯特拉算法是从一个顶点到其余各顶点的最短路径算法，解决的是有向图中最短路径问题。迪杰斯特拉算法主要特点是以起始点为中心向外层层扩展，直到扩展到终点为止。

表3示出本实施例中采用的修改版BFS的逻辑如下所示：

表3

然后，将各节点ID对应回原始KEY，最终输出格式为：

逻辑KEY[空格]逻辑KEY1:路径长度[空格]逻辑KEY2:路径长度[空格]逻辑KEY3:路径长度…

其中路径长度为不同逻辑KEY的紧密程度值。

最后，通过返回的路径长度排序，选择关系最近的N个逻辑KEY对应的指定信息(如电话号码)，从而得到借款人的新的可能联系方式。

基于上述步骤，通过融合电商平台的用户数据进行关系网络构建、图算法计算等，可得更多失联欠款客户的潜在联系方式，从而帮助催收人员与客户取得联系，进行电话催收，化解不良资产。

综上所述，本公开实施例提供的信息修复方法，一方面，通过对电商平台的用户数据构建生成关系网络，并进行融合、搜索等计算，实现对用户一些信息的修复，对原来已经失联的指定信息进行修复，可以得到更多失联借款人的联系方式。另一方面，基于电商平台实际发生的购物数据，可以提高失联借款人联系方式的可靠性。

图9示出本公开另一实施例中提供的一种信息修复装置的示意图，如图9所示，该信息修复装置900中包括：数据获取模块910、网络构建模块920、融合模块930和修复模块940。

数据获取模块910被配置为通过电商平台获取用户数据，并对所述用户数据进行整合，得到数据整合表；网络构建模块920被配置为根据所述数据整合表构建关系网络；融合模块930被配置为对所述数据整合表进行多账号融合，结合所述关系网络生成融合后关系网络；修复模块940被配置为根据所述融合后关系网络进行指定信息的修复。

该装置中各个模块的功能参见上述方法实施例中的相关描述，此处不再赘述。

综上所述，本公开实施例提供的信息修复装置，一方面，针对不同粒度级别的数据分别构建嵌套数据结构，使得在数据入库时无需缓存等待，不论获取到哪种粒度的数据都可以实时入库，提升数据查询性能，简化多数据入库流程。另一方面，由于是以粒度级别最高的粗粒度为指标进行统计的，因此无需去重，而且按粗粒度统计数值合计的指标，可直接求和，求和结果中不存在重复合计的问题。

另一方面，本公开还提供了一种电子设备，包括处理器和存储器，存储器存储用于上述处理器控制以下方法的操作指令：通过电商平台获取用户数据，并对所述用户数据进行整合，得到数据整合表；根据所述数据整合表构建关系网络；对所述数据整合表进行多账号融合，结合所述关系网络生成融合后关系网络；根据所述融合后关系网络进行指定信息的修复。

下面参考图10，其示出了适于用来实现本申请实施例的电子设备的计算机系统1000的结构示意图。图10示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图10所示，计算机系统1000包括中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1007加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有系统1000操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括发送单元、获取单元、确定单元和第一处理单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，发送单元还可以被描述为“向所连接的服务端发送图片获取请求的单元”。

另一方面，本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括以下方法步骤：

通过电商平台获取用户数据，并对所述用户数据进行整合，得到数据整合表；根据所述数据整合表构建关系网络；对所述数据整合表进行多账号融合，结合所述关系网络生成融合后关系网络；根据所述融合后关系网络进行指定信息的修复。

应清楚地理解，本公开描述了如何形成和使用特定示例，但本公开的原理不限于这些示例的任何细节。相反，基于本公开公开的内容的教导，这些原理能够应用于许多其它实施方式。

以上具体地示出和描述了本公开的示例性实施方式。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

一种信息修复方法，包括：

通过电商平台获取用户数据，并对所述用户数据进行整合，得到数据整合表；

根据所述数据整合表构建关系网络；

对所述数据整合表进行多账号融合，结合所述关系网络生成融合后关系网络；

根据所述融合后关系网络进行指定信息的修复。
根据权利要求1所述的信息修复方法，其中，所述用户数据的数据来源为电商登录账号、身份证号、银行卡号、手机号、钱包支付账号、金融理财账号、移动设备号中的至少一种。
根据权利要求2所述的信息修复方法，其中，对所述用户数据进行整合，得到数据整合表包括：

针对所述用户数据的不同数据来源分别设定数据来源优先级；

当不同数据来源中含有相同字段时，根据所述数据来源优先级选择优先级高的数据来源中的字段值；当不同数据来源中未包含相同字段时，在相应数据来源中获取字段对应的字段值；

根据字段和对应的字段值形成所述数据整合表。
根据权利要求2所述的信息修复方法，其中，根据所述数据整合表构建关系网络包括：

将所述用户数据的数据来源作为节点；

根据所述节点之间的直接关联或间隔关联得到两个节点之间的边；

通过所述节点和所述边形成所述关系网络。
根据权利要求4所述的信息修复方法，其中，对所述数据整合表进行多账号融合，结合所述关系网络生成融合后关系网络包括：

对所述数据整合表中的数据来源优先级低于或等于预设值的数据来源进行删除；

根据删除后的数据整合表形成边表和节点编号与原始KEY的对应关系；

根据所述边表和节点个数采用连通分量算法计算得到节点编号与逻辑KEY的对应关系；

根据所述节点编号与原始KEY的对应关系和所述节点编号与逻辑KEY的对应关系，计算得到原始KEY与逻辑KEY的对应关系；

根据所述原始KEY与逻辑KEY的对应关系生成所述融合后关系网络；

其中所述原始KEY为所述用户数据的唯一识别号，所述逻辑KEY用于标记多账号融合后多个所述原始KEY对应的唯一逻辑主体。
根据权利要求5所述的信息修复方法，其中，根据删除后的数据整合表形成边表和节点编号与原始KEY的对应关系包括：

对所述删除后的数据整合表中的节点进行连续编号；

将同一原始KEY的节点进行两两组合，得到边表，所述边表中包括起始节点编号和终点节点编号；

构建节点编号与原始KEY的对应关系。
根据权利要求5所述的信息修复方法，其中，根据所述融合后关系网络进行指定信息的修复包括：

对多个所述融合后关系网络中从指定的逻辑KEY出发进行广度优先搜索查找相关的其他逻辑KEY，找到前N个最短路径逻辑KEY；

根据所述前N个最短路径逻辑KEY中指定字段对应的字段值得到指定信息的修复结果。
根据权利要求7所述的信息修复方法，其中，对多个所述融合后关系网络中从指定的逻辑KEY出发进行广度优先搜索查找相关的其他逻辑KEY，找到前N个最短路径逻辑KEY包括：

根据所述删除后的数据整合表产生节点表；

根据所述节点表和所述边表得到变权重、顶点类型权重和顶点度数；

对指定的逻辑KEY采用广度优先搜索算法进行遍历和加权计算，得到多个路径长度，其中所述路径长度＝边权重+顶点类型权重+顶点度数；

根据所述多个路径长度中数值最小的前N个数值得到所述前N个最短路径逻辑KEY。
一种信息修复装置，包括：

数据获取模块，被配置为通过电商平台获取用户数据，并对所述用户数据进行整合，得到数据整合表；

网络构建模块，被配置为根据所述数据整合表构建关系网络；

融合模块，被配置为对所述数据整合表进行多账号融合，结合所述关系网络生成融合后关系网络；

修复模块，被配置为根据所述融合后关系网络进行指定信息的修复。
一种电子设备，包括：

处理器；

存储器，存储用于所述处理器控制如权利要求1-8任一项所述的方法步骤。
一种计算机可读介质，其上存储有计算机可执行指令，其中，所述可执行指令被处理器执行时实现如权利要求1-8任一项所述的方法步骤。