WO2016119275A1

WO2016119275A1 - 网络账号识别匹配方法

Info

Publication number: WO2016119275A1
Application number: PCT/CN2015/072489
Authority: WO
Inventors: 王明兴; 吴颖徽; 马帅; 汤南; 贾西贝
Original assignee: 深圳市华傲数据技术有限公司
Priority date: 2015-01-30
Filing date: 2015-02-09
Publication date: 2016-08-04
Also published as: CN104573094B; CN104573094A

Abstract

涉及一种网络账号识别匹配方法。该方法包括：步骤10、根据预定义的匹配规则所需的属性整理网络账号（10）；步骤20、对于每个匹配规则，网络账号如果具有该匹配规则所需的所有属性，则将该网络账号的该所有属性的内容串联组成属性串，形成该属性串与该网络账号的记录id的对应关系（20）；步骤30、将对应于相同属性串的记录id归并在一起（30）；步骤40、对每个实体人的标识所具有的记录id广播其所属的实体人，形成记录id与其所属实体人的标识的对应关系，将对应于相同记录id的实体人的标识归并在一起，对归并在一起的实体人的标识进行传递闭包处理得到新的实体人的标识（40）；步骤50、反复进行步骤40，直至实体人没有改变（50）。能够用于大规模网络账号识别匹配。

Description

网络账号识别匹配方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种网络账号识别匹配方法。

背景技术

随着互联网技术的发展，网民在各类网站、应用上注册的账号快速增长。主流应用如QQ，淘宝、163邮箱、智联招聘，去哪儿网几乎是人手一号。这些账号的基本资料和活动信息蕴藏着大量与实体人有关的信息，可以说是一个数据油田。然而，同一个实体人，各类账号之间的数据是分离的，同一类型账号(比如有多个QQ号)数据也是分离的，这对数据的提取和分析造成了障碍，如果能识别哪些账号属于同一个实体人，将使数据大幅度增值。

网络账号识别的难点在于账号的数据量非常之大，各类账号之间结构差异大，账号也处在不断的更新、增长之中，这也符合大数据的3V特性，即Volume(数据量)，Variance(数据种类)，Velocity(处理速度)。如何从海量的、异构的、动态的账号中识别出属于同一个人的网络账号，是技术的重难点。

发明内容

本发明的目的在于提供一种网络账号识别匹配方法，可以用于大规模网络账号识别匹配。

为实现上述目的，本发明提供一种网络账号识别匹配方法，包括：

步骤10、根据预定义的匹配规则所需的属性整理网络账号，以唯一的记录id作为相应网络账号的标识；

步骤20、对于每个匹配规则，网络账号如果具有该匹配规则所需的所有属性，则将该网络账号的该所有属性的内容串联组成属性串，形成该属性串与该网络账号的记录id的对应关系；

步骤30、将对应于相同属性串的记录id归并在一起，以归并在一起的记录id代表同一实体人并作为相应实体人的标识；

步骤40、对每个实体人的标识所具有的记录id广播其所属的实体人，形成记录id与其所属实体人的标识的对应关系，将对应于相同记录id的实体人的标识归并在一起，对归并在一起的实体人的标识进行传递闭包处理得到新的实体人的标识；

步骤50、反复进行步骤40，直至实体人没有改变。

其中，步骤10包括：

步骤101、根据匹配规则整理出所需要的属性；

步骤102、对于每个网络账号数据，生成一个唯一的记录id；

步骤103、根据所需要的属性提取网络账号对应的值，并加上记录id，生成一行新的数据；如果网络账号不存在某属性或存在但内容为空或者不合法，则对应属性的内容最终结果为空。

其中，步骤20中，所述内容以特定的符号串联起来组成属性串。

其中，步骤40包括：

步骤401、对每个实体人的标识中的记录id广播其所属的实体人，生成包含记录id与其所属实体人的标识的键值对；通过以键值对形式记录对应关系，可以方便后续的归并操作，并且进一步可以方便于移植到Hadoop平台；

步骤402、收集每个记录id所属的实体人，如果记录id所属的实体人只有一个，则标记对应的实体人的状态为保留；否则合并所有的实体人的标识中的记录id，并去重，生成新的实体人的标识并标记该新的实体人的状态为新增，并标记每个旧的实体人的状态为删除；

步骤403、合并每个实体人的状态信息，如果状态内包含新增，此实体人需保留；如果状态内包含删除，此实体人需删除；否则，此实体人需保留；

步骤404、输出所有需要保留的实体人。

其中，步骤50中判断实体人没有改变的条件为实体人的数量保持不变。

其中，步骤50中判断实体人没有改变的条件为没有处于删除状态的实体人出现。

其中，所述所需的属性为身份证号、手机号、电子邮箱或QQ号。

其中，所述匹配规则包括身份证号相同、手机号相同、电子邮箱相同或QQ 号相同。

其中，步骤20中生成包含该属性串与该网络账号的记录id的键值对。通过以键值对形式记录对应关系，可以方便后续的归并操作，并且进一步可以方便于移植到Hadoop平台。

综上所述，本发明的网络账号识别匹配方法可以在海量异构的账号中识别出哪些账号最有可能属于同一个实体人，能够用于大规模网络账号识别匹配。

附图说明

图1是本发明网络账号识别匹配方法一较佳实施例的流程图。

具体实施方式

下面结合附图，通过对本发明的具体实施方式详细描述，将使本发明的技术方案及其有益效果显而易见。

参见图1，其为本发明网络账号识别匹配方法一较佳实施例的流程图。该较佳实施例主要包括：

步骤20、对于每个匹配规则，网络账号如果具有该匹配规则所需的所有属性，则将该网络账号的该所有属性的内容串联组成属性串，形成该属性串与该网络账号的记录id的对应关系；例如，可以生成包含该属性串与该网络账号的记录id的键值对；

步骤40、对每个实体人的标识所具有的记录id广播其所属的实体人，形成记录id与其所属实体人的标识的对应关系，将对应于相同记录id的实体人的标识归并在一起，对归并在一起的实体人的标识进行传递闭包处理得到新的实体人的标识；例如，可以形成记录id与其所属实体人的标识的键值对，将记录id相同的键值对归并在一起；

步骤50、反复进行步骤40，直至实体人没有改变。

由于各网络账号系统中都有存在一些实体的公共信息，这些信息是敏感且非常重要的，是网络账号识别的关键信息所在，识别账号的第一步就是体现出这些公共信息。经过分析，各网络账号系统通常会需要注册者提供有效电子邮箱以及手机号码进行验证，因此账号的电子邮箱、手机号码相同时通常代表注册者是同一人。另外一些账号进行实名认证时需要提供注册者的身份证号码、姓名等信息，身份证号码是个重要的识别信息。互联网时代，网络通信非常普遍，其中的代表是QQ，因此QQ号码也是人与人之间一个重要的联系手段。综合这些信息可预先制定如下匹配规则用于识别同一实体人：

1、身份证号码相同；

2、电子邮箱相同；

3、手机号码相同；

4、QQ号码相同。

针对其他特定的业务数据我们还可以提取其他有效的规则来识别同一实体人。例如某个实体人注册网络账号A是提供了邮箱x1和电话号码p1，注册网络账号B时提供了邮箱x2,没有提供电话号码，但对两个账号都进行了实名验证，提供了真实有效的身份证号码。其在注册网络账号C时提供了邮箱x2和电话p2。因此通过身份证相同我们知道账号A和账号B为同一实体人，通过邮箱相同我们知道账号B和账号C为同一实体人，综合可得，账号A、B、C为同一实体人。

本发明通过预定义的匹配规则，指定网络帐号属性匹配的规则，在哪种情况下用哪些属性进行匹配，以及相应的匹配成功判定方法。

由于各类账号结构差异大，不能直接进行比较和匹配，因此第一步需要整理数据。步骤10具体可以包括：

步骤101、根据匹配规则整理出所需要的属性，如身份证号、手机号、电子邮箱、QQ号等；

步骤102、对于每个网络账号数据，生成一个唯一的记录id，如可针对不同的账号类型按顺序编号并加上类型组成，如x1,x2,…,a1,a2…等形式；

步骤103、根据所需要的最终属性对应提取网络账号对应的值，并加上记录id，生成一行新的数据；如果网络账号不存在某属性或存在但内容为空或者不合法，则对应属性的内容最终结果为空。比如某邮箱系统由于没有对注册者进行实名验证，因此没有身份证号码等信息，则提取时“身份证号”字段内容为空即可。

如此我们得到统一格式的、可用于匹配的数据，具体可如：

id	身份证号	手机号	电子邮箱	QQ号
id	身份证号	手机号	电子邮箱	QQ号	x1	360622199001011111	13812345678	vip@audaque.com	12345678
a1	360622199001011111			23456789	x1	360622199001011111	13812345678	vip@audaque.com	12345678
a1	360622199001011111			23456789	a2				34567890
y1		13812345678			a2				34567890
y1		13812345678			y2	360622199001012222		guest@audaque.com	34567890

通过步骤20，提取匹配规则对应的属性。对于每个规则，根据规则定义的所有属性，如果对应的内容都不为空，则将所有内容以特定的符号串联起来，组成属性串，并与记录id一起生成一组键值对，如：

360622199001011111/x1

13812345678/x1

vip@audaque.com/x1

12345678/x1

360622199001011111/a1

23456789/a1

34567890/a2

13812345678/y1

360622199001012222/y2

guest@audaque.com/y2

34567890/y2。

此较佳实施例中以属性串为键，以记录id为值。通过生成键值对的方式，可以在MapReduce等分布式并行计算平台上实现对海量数据的处理，完成大规模网络账号识别匹配。

本发明通过步骤30合并规则属性，初步识别同一实体人。具体可以包括：

将所有相同的属性串归并在一起，对应的在一起记录id就代表同一实体人(注册者)，如：

360622199001011111/x1,a1

13812345678/x1,y1

vip@audaque.com/x1

12345678/x1

23456789/a1

34567890/a2,y2

360622199001012222/y2

guest@audaque.com/y2。

忽略属性串，可以得到如下的实体人初步结果列表：

x1,a1

x1,y1

x1

a1

a2,y2

y2

y2。

通过上述步骤识别后得到的结果是由每个规则独立计算后所得，因此会存在实体人重复出现以及某个账号属于多个实体人等情况，解决的方法称为传递闭包。本发明通过步骤40对数据进行传递闭包处理，解决虚拟人重复、传递问题。

步骤40具体可以包括如下：

步骤401、对每个实体人的标识中的记录id广播其所属的实体人，生成包含记录id与其所属实体人的标识的键值对；

对于每个实体人，根据该实体人的标识所具有的全部记录id分别生成包含记录id与该实体人的标识的键值对，如记录id——x1所属的记录组包括：

x1/x1,a1

x1/x1,y1

x1/x1

x1/x1。

步骤402、收集每个记录id所属的实体人，如果记录id所属的实体人只有一个，则标记对应的实体人的状态为保留；否则合并所有的实体人的标识中的记录id，并去重，生成新的实体人的标识并标记该新的实体人的状态为新增，并标记每个旧的实体人的状态为删除。

例如，记录id——x1对应的实体人有4个，分别为“x1,a1”,“x1,y1”,“x1”,“x1”，合并去重后得到新实体人“x1,a1,y1”,状态为“新增”；而 “x1,a1”,“x1,y1”,“x1”,“x1”4个实体人的状态为“删除”。又如记录id——y1对应的实体人只有一个“x1,y1”，所以输出其状态为“保留”。

步骤403、合并每个实体人的状态信息，如果状态内包含新增，此实体人需保留；如果状态内包含删除，此实体人需删除；否则，此实体人需保留。

例如，“x1,y1”的状态包含2种，分别为“删除”(通过x1计算得出)和“保留”(通过y1得出)，因此最终结果为实体人“x1,y1”需删除。

步骤404、输出所有需要保留的实体人。

经过上述几步处理后能解决所有重复问题以及一部分传递问题。但是还需要进行步骤50，这是由于实体人间可能多重传递，因此需采用多次传递闭包处理，例如初步识别出实体人“x1,a1”,“a1,b1”,“b1,c1”；经过一次闭包处理后得实体人：“x1,a1,b1”,“a1,b1,c1”，再次闭包后，才得正确的最终结果：“x1,a1,b1,c1”。当实体人没有改变时(如结果中实体人的数量保持不变，或没有“删除”状态出现)停止闭包处理过程。

综上所述，本发明可以从大量数据中识别出归属于同一个实体人的账号，能够用于大规模网络账号识别匹配，其有益效果主要有以下三点：

一、数据效益。众所周知，数据的价值是1+1>>2的,将原本孤立但却高度相关的数据联系起来，其价值要远大于本身价值之和。通过关联实体人的账号，可以聚合原本松散的数据，全面获得实体人的属性以及活动信息。这对于后期进行实体人的分析以及基于分析结果的应用是奠基的工作。

二、经济效益。当掌握了实体人各类账号属性以及活动信息后，便是一个巨大的数据油田。数据本身具有经济价值，基于数据的应用例如精准营销也具有经济价值。

三、社会效益。当政府部门掌握的民众的网络数据、行为时，可以加深其对于群众的了解，制定更加贴合实际的政策，增加社会效益。与此同时，公安部门通过对网络数据的监控，可以获取破案线索，维护社会的稳定。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

一种网络账号识别匹配方法，其特征在于，包括：

步骤10、根据预定义的匹配规则所需的属性整理网络账号，以唯一的记录id作为相应网络账号的标识；

步骤20、对于每个匹配规则，网络账号如果具有该匹配规则所需的所有属性，则将该网络账号的该所有属性的内容串联组成属性串，形成该属性串与该网络账号的记录id的对应关系；

步骤30、将对应于相同属性串的记录id归并在一起，以归并在一起的记录id代表同一实体人并作为相应实体人的标识；

步骤40、对每个实体人的标识所具有的记录id广播其所属的实体人，形成记录id与其所属实体人的标识的对应关系，将对应于相同记录id的实体人的标识归并在一起，对归并在一起的实体人的标识进行传递闭包处理得到新的实体人的标识；

步骤50、反复进行步骤40，直至实体人没有改变。
根据权利要求1所述的网络账号识别匹配方法，其特征在于，步骤10包括：

步骤101、根据匹配规则整理出所需要的属性；

步骤102、对于每个网络账号数据，生成一个唯一的记录id；

步骤103、根据所需要的属性提取网络账号对应的值，并加上记录id，生成一行新的数据；如果网络账号不存在某属性或存在但内容为空或者不合法，则对应属性的内容最终结果为空。
根据权利要求1所述的网络账号识别匹配方法，其特征在于，步骤20中，所述内容以特定的符号串联起来组成属性串。
根据权利要求1所述的网络账号识别匹配方法，其特征在于，步骤40包括：

步骤401、对每个实体人的标识中的记录id广播其所属的实体人，生成包含记录id与其所属实体人的标识的键值对；

步骤402、收集每个记录id所属的实体人，如果记录id所属的实体人只有一个，则标记对应的实体人的状态为保留；否则合并所有的实体人的标识中的记录id，并去重，生成新的实体人的标识并标记该新的实体人的状态为新增，并标记每个旧的实体人的状态为删除；

步骤403、合并每个实体人的状态信息，如果状态内包含新增，此实体人需保留；如果状态内包含删除，此实体人需删除；否则，此实体人需保留；

步骤404、输出所有需要保留的实体人。
根据权利要求1所述的网络账号识别匹配方法，其特征在于，步骤50中判断实体人没有改变的条件为实体人的数量保持不变。
根据权利要求4所述的网络账号识别匹配方法，其特征在于，步骤50中判断实体人没有改变的条件为没有处于删除状态的实体人出现。
根据权利要求1所述的网络账号识别匹配方法，其特征在于，所述所需的属性为身份证号、手机号、电子邮箱或QQ号。
根据权利要求1所述的网络账号识别匹配方法，其特征在于，所述匹配规则包括身份证号相同、手机号相同、电子邮箱相同或QQ号相同。
根据权利要求1所述的网络账号识别匹配方法，其特征在于，步骤20中生成包含该属性串与该网络账号的记录id的键值对。