WO2017107367A1

WO2017107367A1 - 用户标识处理的方法、终端和非易失性计算可读存储介质

Info

Publication number: WO2017107367A1
Application number: PCT/CN2016/082414
Authority: WO
Inventors: 姚乾乾; 叶幸春; 刘鹤; 张海川
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2015-12-23
Filing date: 2016-05-17
Publication date: 2017-06-29
Also published as: US20170329993A1; US10878121B2; EP3396558A1; EP3396558B1; CN106909811B; CN106909811A; EP3396558A4

Abstract

一种用户标识处理的方法包括：扫描源数据表，获取所述源数据表的各字段所对应的数据的特征；将各字段所对应的数据的特征与用户标识的特征规则进行匹配，若字段所对应的数据的特征与用户标识的特征规则匹配成功，则所述字段所对应的数据为用户标识，若字段所对应的数据的特征与用户标识的特征规则匹配失败，则所述字段所对应的数据不为用户标识；将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号，将源数据表中字段所对应的数据不为用户标识的数据保持数据不变。

Description

用户标识处理的方法、终端和非易失性计算可读存储介质

本申请要求于 2015 年 12 月 23 日提交中国专利局、申请号为 201510980369.8 、发明名称为'用户标识处理的方法和装置'的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

【技术领域】

本发明涉及数据识别领域，特别是涉及一种用户标识处理的方法、终端和非易失性计算可读存储介质。

【背景技术】

随着计算机和互联网技术的发展，越来越多的用户享受着互联网技术所带来的便利，同时也产生了海量的数据。海量的数据中涉及到很多用户标识信息，该用户标识信息关乎用户的隐私，需要对用户标识信息进行保护。然而，这些用户标识信息涉及大量的表，表结构复杂，且存储达到百TB（太字节），无法做到人工识别覆盖整体数据。传统的用户标识识别方法主要是通过模糊搜索识别字段，或者通过限制用户标识数据值范围，或者基于全量注册数据进行匹配，然而，采用模糊搜索匹配出现错误率较高，通过数据值范围匹配，因数据范围变化较大，无法准确捕捉正确的用户标识，采用全量注册数据进行匹配，效率低，且用户标识安全性低。

【发明内容】

基于此，有必要提供一种用户标识处理的方法，能提高识别的准确率和效率，且能提高用户标识安全性。

此外，还有必要提供一种终端和非易失性计算机可读存储介质，能提高识别的准确率和效率，且能提高用户标识安全性。

一种用户标识处理的方法，包括以下步骤：

扫描源数据表，获取所述源数据表的各字段所对应的数据的特征；

将各字段所对应的数据的特征与用户标识的特征规则进行匹配，若字段所对应的数据的特征与用户标识的特征规则匹配成功，则所述字段所对应的数据为用户标识，若字段所对应的数据的特征与用户标识的特征规则匹配失败，则所述字段所对应的数据不为用户标识；

将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号，将源数据表中字段所对应的数据不为用户标识的数据保持数据不变。

一种终端，包括存储器及处理器，所述存储器中储存有计算机可读指令，所述指令被所述处理器执行时，使得所述处理器执行以下步骤：

一个或多个包含计算机可执行指令的非易失性计算机可读存储介质，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行以下步骤：

本发明的一个或多个实施例的细节在下面的附图和描述中提出。本发明的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

【附图说明】

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A为一个实施例中终端的内部结构示意图；

图1B为一个实施例中服务器的内部结构示意图；

图2为一个实施例中用户标识处理的方法的流程图；

图3为一个实施例中源数据表的结构形式示意图；

图4为另一个实施例中用户标识处理的方法的流程图；

图5为一个实施例中用户标识处理的装置的结构框图；

图6为另一个实施例中用户标识处理的装置的结构框图；

图7为另一个实施例中用户标识处理的装置的结构框图；

图8为另一个实施例中用户标识处理的装置的结构框图。

【具体实施方式】

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

可以理解，本发明所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本发明的范围的情况下，可以将第一客户端称为第二客户端，且类似地，可将第二客户端称为第一客户端。

图1A为一个实施例中终端的内部结构示意图。如图1A所示，该终端包括通过系统总线连接的处理器、存储介质、内存、网络接口、显示屏和输入装置。其中，终端的存储介质存储有操作系统，还包括一种用户标识处理的装置，该用户标识处理的装置用于实现一种用户标识处理的方法。该处理器用于提供计算和控制能力，支撑整个终端的运行。终端中的内存为存储介质中的用户标识处理的装置的运行提供环境，网络接口用于与服务器进行网络通信，如发送数据请求至服务器，接收服务器返回的数据等。终端的显示屏可以是液晶显示屏或者电子墨水显示屏等，输入装置可以是显示屏上覆盖的触摸层，也可以是终端外壳上设置的按键、轨迹球或触控板，也可以是外接的键盘、触控板或鼠标等。该终端可以是手机、平板电脑或者个人数字助理。本领域技术人员可以理解，图1A中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的终端的限定，具体的终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

图1B为一个实施例中服务器的内部结构示意图。如图1B所示，该服务器包括通过系统总线连接的处理器、非易失性存储介质、内存、网络接口、显示屏和输入装置。其中，该服务器的非易失性存储介质存储有操作系统、数据库和用户标识处理的装置，数据库中存储有各种数据和用户标识与第三方用户帐号数据及对应关系，该用户标识处理的装置用于实现适用于服务器的一种用户标识处理的方法。该服务器的处理器用于提供计算和控制能力，支撑整个服务器的运行。该服务器的内存为非易失性存储介质中的用户标识处理的装置的运行提供环境。该服务器的显示屏可以是液晶显示屏或者电子墨水显示屏等，输入装置可以是显示屏上覆盖的触摸层，也可以是终端外壳上设置的按键、轨迹球或触控板，也可以是外接的键盘、触控板或鼠标等。该服务器的网络接口用于据以与外部的终端通过网络连接通信，比如接收终端发送的用户标识请求以及向终端返回第三方用户帐号等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本领域技术人员可以理解，图1B中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的服务器的限定，具体的服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

图2为一个实施例中用户标识处理的方法的流程图。如图2所示，一种用户标识处理的方法，可运行于图1中的服务器或终端上，包括以下步骤：

步骤202，扫描源数据表，获取该源数据表的各字段所对应的数据的特征。

具体地，源数据表是指从网络中获取的数据，其一般以表格形式存储。在源数据表中存在一个或多个字段，每个字段表示一种数据，例如序号字段、姓名字段、用户标识字段、性别字段、年龄字段、地址字段等。

图3为一个实施例中源数据表的结构形式示意图。如图3所示，在源数据表首行中包括序号字段、姓名字段、性别字段、用户标识字段、年龄字段、地址字段等。每个字段对应一列。序号字段所对应的数据可为以1开始，自增1的自然数。姓名字段所对应的数据可为各种名称，如王小明、李小白、赵小红等。性别字段所对应的数据可为“男”、“女”和“未知”等。用户标识字段所对应的数据可为符合用户标识规则的数据，如即时通信帐号12345至9999999999等。年龄字段所对应的数据可为0至150等。地址字段所对应的数据可为各个地址。

本实施例中的源数据表可为各网站的用户行为所产生的数据等。

对源数据表中每个字段所对应的数据计算数据的特征。该特征可包括平均值和标准差等。平均值和标准差相对稳定，且组合校验具有较高的可靠性。此外，该特征还可包括最大值和最小值。

步骤204，将各字段所对应的数据的特征与用户标识的特征规则进行匹配。

具体地，预先可根据海量的数据统计得出用户标识的特征规则。该用户标识的特征规则可为均值和标准差在某个范围内。不同的用户标识的特征规则不同，需要根据海量的数据进行统计分析得出对应用户标识的特征规则。

用户标识是用于表示用户身份唯一性的标识。用户标识可为即时通信帐号或移动通信标识或电子邮箱或身份证号码或支付帐号等。

将字段所对应的数据的特征与用户标识的特征规则进行匹配，例如用户标识的特征规则是均值在[100000，110000]之间，标准差在[1，2]，计算得到的字段所对应的数据的特征，即均值在[100000，110000]之间且标准差在[1，2]之间，则该字段所对应的数据的特征与用户标识的特征规则匹配成功。若计算得到的字段所对应的数据的特征，即均值和标准差中任意一个不在用户标识的特征规则内，则该字段所对应的数据的特征与用户标识的特征规则匹配失败。

步骤206，若字段所对应的数据的特征与用户标识的特征规则匹配成功，则该字段所对应的数据为用户标识，然后执行步骤210。

步骤208，若字段所对应的数据的特征与用户标识的特征规则匹配失败，则该字段所对应的数据不为用户标识，然后执行步骤212。

步骤210，将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户标识。

具体地，第三方用户标识是一个开放用户标识，即openid，是允许用户使用用户标识登录第三方平台，但不会公开用户标识给第三方，为用户标识的开放提供的一种安全的实现方式。预先建立用户标识与第三方用户帐号的映射关系，然后根据用户标识从用户标识与第三方用户帐号的映射关系中查找到对应的第三方用户帐号，将用户标识替换为第三方用户帐号。

步骤212，将源数据表中字段所对应的数据不为用户标识的数据保持数据不变。

若源数据表中各字段所对应的数据均不为用户标识，则保持源数据表不变。

上述用户标识处理的方法，通过获取源数据表中各字段所对应的数据的特征，将各字段所对应的数据的特征与用户标识的特征规则进行匹配，若匹配成功，则将该字段所对应的数据转化为第三方用户帐号，若匹配失败，则保持该字段所对应的数据不变，通过用户标识的特征规则进行匹配，提高了用户标识被识别的准确率和效率，且将用户标识转化为第三方用户帐号，不让第三方平台获取用户标识，提高了用户标识的安全性。

图4为另一个实施例中用户标识处理的方法的流程图。如图4所示，一种用户标识处理的方法，包括以下步骤：

步骤402，从测试数据中选取用户标识字段的数据作为正样本数据，选取非用户标识字段的数据作为负样本数据。

具体地，测试数据可为海量的网络数据。用户标识是用于表示用户身份唯一性的标识。用户标识可为即时通信帐号或移动通信标识或电子邮箱或身份证号码或支付帐号等。

例如用户标识为即时通信帐号，则测试数据可包括即时通信帐号数据和广告曝光数据、商品订单路径数据、网页浏览数据、用户搜索数据等。从测试数据中提取即时通信帐号字段所对应的数据作为正样本数据。随机选取非即时通信帐号字段所对应的数据作为负样本数据，将负样本数据作为参照组。

步骤404，对正样本数据和负样本数据分别进行特征计算。

具体地，对正样本数据和负样本数据分别求取平均值和标准差，还可求取最大值和最小值。将计算得到的正样本数据的特征和负样本数据的特征以字段为行，特征为列的汇总表格。对正样本数据和负样本数据分别进行特征计算可得到用户标识的特征的统计分布状态，进行分析得出分布规则。

步骤406，将正样本数据的特征和负样本数据的特征进行比对，得到该正样本数据的特征规则。

具体地，可将正样本数据的特征和负样本数据的特征进行汇总，通过条形图展示比对，发现两者之间的特征呈现较明显的区别，提炼出用户标识数据的可信范围，然后形成用户标识的特征规则。

步骤408，扫描源数据表，获取该源数据表的各字段所对应的数据的特征。

步骤410，将各字段所对应的数据的特征与用户标识的特征规则进行匹配。

步骤412，若字段所对应的数据的特征与用户标识的特征规则匹配成功，则该字段所对应的数据为用户标识，若字段所对应的数据的特征与用户标识的特征规则匹配失败，则该字段所对应的数据不为用户标识。

步骤414，将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户标识，将源数据表中字段所对应的数据不为用户标识的数据保持数据不变，然后执行步骤418。

步骤416，源数据表中各字段所对应的数据均不为用户标识，则保持源数据表不变。

步骤418，根据已匹配成功的字段所对应的数据和包含用户标识而未被匹配成功的字段所对应的数据对该用户标识的特征规则进行修正。

具体地，字段所对应的数据与用户标识的特征规则进行匹配的过程中可能存在识别错误或漏识别字段的情况，通过获取已匹配成功的字段所对应的数据和包含用户标识而未被匹配成功的字段所对应的数据，然后根据已匹配成功的字段所对应的数据和包含用户标识而未被匹配成功的字段所对应的数据对该用户标识的特征规则进行修正。例如可分析包含用户标识而未被匹配成功的字段所对应的数据，得到用户标识的命名规则和/或类型等，并添加到用户标识的特征规则中，下次再进行匹配时，则不会被漏掉。对于已匹配成功的字段所对应的数据被认为是识别错误的，可根据该字段所对应的数据的特征对用户标识的特征规则进行修正。

上述用户标识处理的方法，选取用户标识作为正样本数据，非用户标识的数据作为负样本数据，计算正样本数据的特征和负样本数据的特征，比较得出正样本数据的特征规则，可得到较为准确的用户标识的特征规则；通过获取源数据表中各字段所对应的数据的特征，将各字段所对应的数据的特征与用户标识的特征规则进行匹配，若匹配成功，则将该字段所对应的数据转化为第三方用户帐号，若匹配失败，则保持该字段所对应的数据不变，通过用户标识的特征规则进行匹配，提高了用户标识被识别的准确率和效率，且将用户标识转化为第三方用户帐号，不让第三方平台获取用户标识，提高了用户标识的安全性；通过已匹配成功的字段及包含用户标识未被匹配成功的字段所对应的数据对用户标识的特征规则进行修正，可持续完善用户标识的特征规则，提高识别的准确率。

在一个实施例中，上述用户标识处理的方法还包括：在该将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号，将源数据表中字段所对应的数据不为用户标识的数据保持数据不变的步骤之后，获取源数据表中包含用户标识而未被匹配成功的字段所对应的数据；根据该包含用户标识而未被匹配成功的字段所对应的数据对该用户标识的特征规则进行修正。

具体地，可分析包含用户标识而未被匹配成功的字段所对应的数据，得到用户标识的命名规则和/或类型等，并添加到用户标识的特征规则中，下次再进行匹配时，则不会被漏掉。

下面结合具体的应用场景描述用户标识处理的方法的实现过程。以用户标识处理的方法用于将第三方平台的数据中即时通信帐号进行识别并入库保存。具体过程包括（1）至（5）：

（1）从测试数据中选取即时通信帐号字段所对应的数据作为正样本数据，选取非即时通信帐号字段所对应的数据作为负样本数据。

具体地，将即时通信应用的注册数据和第三方平台的用户行为数据作为测试数据。例如即时通信应用QQ的数据包括注册用户数据。第三方平台的用户行为数据如京东网站有5个数据量，包括广告曝光数据、商品订单路径数据、网页浏览数据、用户搜索数据等。从即时通信应用的注册数据和第三方平台的用户行为数据中选取即时通信帐号字段作为正样本数据，在选取非即时通信帐号字段所对应的数据作为负样本数据。

可采用分区抽样统计或全表统计等方式对特征进行统计计算。分区抽样统计是指抽取一部分数据进行统计。全表统计是指对所有数据表进行分析统计。

（2）对正样本数据和负样本数据分别进行特征计算，特征包括平均值和标准差。

具体地，对正样本数据和负样本数据分别求取平均值和标准差。此外，还可求取最大值和最小值。将计算得到的正样本数据的特征和负样本数据的特征以字段为行，特征为列的汇总表格。

（3）将即时通信帐号的特征和非即时通信帐号的特征进行比对，得到即时通信帐号的特征规则。

具体地，可将即时通信帐号的特征和非即时通信帐号的特征进行汇总，通过条形图展示比对，发现两者之间的特征呈现较明显的区别，提炼出即时通信帐号数据的可信范围，然后形成即时通信帐号的特征规则。

（4）扫描第三方平台的源数据表，获取源数据表的各字段所对应的数据的特征，将各字段所对应的数据的特征与即时通信帐号的特征规则进行匹配，若字段所对应的数据的特征与即时通信帐号的特征规则匹配成功，则该字段所对应的数据为即时通信帐号，若字段所对应的数据的特征与即时通信帐号的特征规则匹配失败，则该字段所对应的数据不为即时通信帐号，将源数据表中字段所对应的数据为即时通信帐号的数据转化为第三方用户标识，将源数据表中字段所对应的数据不为即时通信帐号的数据保持数据不变。

具体地，扫描第三方平台的源数据表中的即时通信帐号，根据即时通信帐号与第三方用户帐号的映射关系，将即时通信帐号转化为第三方用户帐号，即openid。然后将完整的数据表入库保存。第三方平台无法直接获取用户标识，只是获取openid，即实现一种安全的帐号开放模式。

在这一过程中，人工只需配置相应的特征规则和需要迁移的数据表清单，然后由大数据平台自动识别和转化，并入库保存，节省人力。

（5）根据已匹配成功的字段所对应的数据和包含即时通信帐号而未被匹配成功的字段所对应的数据对该即时通信帐号的特征规则进行修正。

具体地，对已转化的数据，会记录数据被识别的情况，可包括已有即时通信帐号字段被识别和包含即时通信帐号字段未被识别。根据已有即时通信帐号字段被识别和包含即时通信帐号字段未被识别对即时通信帐号的特征规则进行修正，持续完善以提高识别的准确率。处理包含即时通信帐号而未被匹配成功的字段所对应的数据，得到即时通信帐号的命名规则和/或类型等，并添加到即时通信帐号的特征规则中，下次再进行匹配时，则不会被漏掉。

通过对正负样本数据得出的特征规则做了几轮修正后，对于QQ号码识别准确率达到了94.5%。该即时通信帐号可为QQ号码或微信或其他即时通信帐号等。

需要说明的是，上述具体应用场景描述了即时通信帐号被识别处理的过程，但不限于此，上述用户标识处理的方法还可应用于身份证号码、移动通信标识、支付帐号、电子邮箱等被识别处理。

图5为一个实施例中用户标识处理的装置的结构框图。如图5所示，一种用户标识处理的装置，包括扫描模块510、匹配模块520和处理模块530。其中：

扫描模块510用于扫描源数据表，获取该源数据表的各字段所对应的数据的特征。

匹配模块520用于将各字段所对应的数据的特征与用户标识的特征规则进行匹配，若字段所对应的数据的特征与用户标识的特征规则匹配成功，则该字段所对应的数据为用户标识，若字段所对应的数据的特征与用户标识的特征规则匹配失败，则该字段所对应的数据不为用户标识。

处理模块530用于将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号，将源数据表中字段所对应的数据不为用户标识的数据保持数据不变。

上述用户标识处理的装置，通过获取源数据表中各字段所对应的数据的特征，将各字段所对应的数据的特征与用户标识的特征规则进行匹配，若匹配成功，则将该字段所对应的数据转化为第三方用户帐号，若匹配失败，则保持该字段所对应的数据不变，通过用户标识的特征规则进行匹配，提高了用户标识被识别的准确率和效率，且将用户标识转化为第三方用户帐号，不让第三方平台获取用户标识，提高了用户标识的安全性。

图6为另一个实施例中用户标识处理的装置的结构框图。如图6所示，一种用户标识处理的装置，除了包括扫描模块510、匹配模块520和处理模块530，还包括选取模块540、计算模块550和特征规则提取模块560。其中：

选取模块540用于在扫描源数据表，获取该源数据表的各字段所对应的数据的特征之前，从测试数据中选取用户标识字段的数据作为正样本数据，选取非用户标识字段的数据作为负样本数据。

计算模块550用于对该正样本数据和负样本数据分别进行特征计算。

具体地，对正样本数据和负样本数据分别求取平均值和标准差，还可求取最大值和最小值。将计算得到的正样本数据的特征和负样本数据的特征以字段为行，特征为列的汇总表格。

特征规则提取模块560用于将正样本数据的特征和负样本数据的特征进行比对，得到该正样本数据的特征规则。

选取用户标识作为正样本数据，非用户标识的数据作为负样本数据，计算正样本数据的特征和负样本数据的特征，比较得出正样本数据的特征规则，可得到较为准确的用户标识的特征规则。

图7为另一个实施例中用户标识处理的装置的结构框图。如图7所示，一种用户标识处理的装置，除了包括扫描模块510、匹配模块520和处理模块530，还包括第一获取模块570和第一修正模块580。其中：

第一获取模块570用于在该将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号，将源数据表中字段所对应的数据不为用户标识的数据保持数据不变之后，获取源数据表中已匹配成功的字段所对应的数据和包含用户标识而未被匹配成功的字段所对应的数据。

第一修正模块580用于根据已匹配成功的字段所对应的数据和包含用户标识而未被匹配成功的字段所对应的数据对该用户标识的特征规则进行修正。

图8为另一个实施例中用户标识处理的装置的结构框图。如图8所示，一种用户标识处理的装置，除了包括扫描模块510、匹配模块520和处理模块530，还包括第二获取模块590和第二修正模块592。其中：

第二获取模块590用于在该将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号，将源数据表中字段所对应的数据不为用户标识的数据保持数据不变之后，获取源数据表中包含用户标识而未被匹配成功的字段所对应的数据。

第二修正模块592用于根据该包含用户标识而未被匹配成功的字段所对应的数据对该用户标识的特征规则进行修正。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）等。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

一种用户标识处理的方法，包括以下步骤：

扫描源数据表，获取所述源数据表的各字段所对应的数据的特征；

将各字段所对应的数据的特征与用户标识的特征规则进行匹配，若字段所对应的数据的特征与用户标识的特征规则匹配成功，则所述字段所对应的数据为用户标识，若字段所对应的数据的特征与用户标识的特征规则匹配失败，则所述字段所对应的数据不为用户标识；

将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号，将源数据表中字段所对应的数据不为用户标识的数据保持数据不变。
根据权利要求1所述的方法，其特征在于，在扫描源数据表，获取所述源数据表的各字段所对应的数据的特征的步骤之前，还包括：

从测试数据中选取用户标识字段的数据作为正样本数据，选取非用户标识字段的数据作为负样本数据；

对所述正样本数据和负样本数据分别进行特征计算；

将正样本数据的特征和负样本数据的特征进行比对，得到所述正样本数据的特征规则。
根据权利要求1所述的方法，其特征在于，在所述将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号，将源数据表中字段所对应的数据不为用户标识的数据保持数据不变的步骤之后，所述方法还包括：

获取源数据表中已匹配成功的字段所对应的数据和包含用户标识而未被匹配成功的字段所对应的数据；

根据已匹配成功的字段所对应的数据和包含用户标识而未被匹配成功的字段所对应的数据对所述用户标识的特征规则进行修正。
根据权利要求1所述的方法，其特征在于，在所述将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号，将源数据表中字段所对应的数据不为用户标识的数据保持数据不变的步骤之后，还包括：

获取源数据表中包含用户标识而未被匹配成功的字段所对应的数据；

根据所述包含用户标识而未被匹配成功的字段所对应的数据对所述用户标识的特征规则进行修正。
根据权利要求1所述的方法，其特征在于，所述特征包括平均值和标准差；所述用户标识为即时通信帐号或移动通信标识或电子邮箱或身份证号码或支付帐号。
一种终端，包括存储器及处理器，所述存储器中储存有计算机可读指令，所述指令被所述处理器执行时，使得所述处理器执行以下步骤：

扫描源数据表，获取所述源数据表的各字段所对应的数据的特征；

将各字段所对应的数据的特征与用户标识的特征规则进行匹配，若字段所对应的数据的特征与用户标识的特征规则匹配成功，则所述字段所对应的数据为用户标识，若字段所对应的数据的特征与用户标识的特征规则匹配失败，则所述字段所对应的数据不为用户标识；

将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号，将源数据表中字段所对应的数据不为用户标识的数据保持数据不变。
根据权利要求6所述的终端，其特征在于，在扫描源数据表，获取所述源数据表的各字段所对应的数据的特征的步骤之前，所述处理器还执行以下步骤：

从测试数据中选取用户标识字段的数据作为正样本数据，选取非用户标识字段的数据作为负样本数据；

对所述正样本数据和负样本数据分别进行特征计算；

将正样本数据的特征和负样本数据的特征进行比对，得到所述正样本数据的特征规则。
根据权利要求6所述的终端，其特征在于，在所述将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号，将源数据表中字段所对应的数据不为用户标识的数据保持数据不变的步骤之后，所述处理器还执行以下步骤：

获取源数据表中已匹配成功的字段所对应的数据和包含用户标识而未被匹配成功的字段所对应的数据；

根据已匹配成功的字段所对应的数据和包含用户标识而未被匹配成功的字段所对应的数据对所述用户标识的特征规则进行修正。
根据权利要求6所述的终端，其特征在于，在所述将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号，将源数据表中字段所对应的数据不为用户标识的数据保持数据不变的步骤之后，所述处理器还执行以下步骤：

获取源数据表中包含用户标识而未被匹配成功的字段所对应的数据；

根据所述包含用户标识而未被匹配成功的字段所对应的数据对所述用户标识的特征规则进行修正。
根据权利要求6所述的终端，其特征在于，所述特征包括平均值和标准差；所述用户标识为即时通信帐号或移动通信标识或电子邮箱或身份证号码或支付帐号。
一个或多个包含计算机可执行指令的非易失性计算机可读存储介质，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行以下步骤：

扫描源数据表，获取所述源数据表的各字段所对应的数据的特征；

将各字段所对应的数据的特征与用户标识的特征规则进行匹配，若字段所对应的数据的特征与用户标识的特征规则匹配成功，则所述字段所对应的数据为用户标识，若字段所对应的数据的特征与用户标识的特征规则匹配失败，则所述字段所对应的数据不为用户标识；

将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号，将源数据表中字段所对应的数据不为用户标识的数据保持数据不变。
根据权利要求11所述的非易失性计算机可读存储介质，其特征在于，在扫描源数据表，获取所述源数据表的各字段所对应的数据的特征的步骤之前，还包括：

从测试数据中选取用户标识字段的数据作为正样本数据，选取非用户标识字段的数据作为负样本数据；

对所述正样本数据和负样本数据分别进行特征计算；

将正样本数据的特征和负样本数据的特征进行比对，得到所述正样本数据的特征规则。
根据权利要求11所述的非易失性计算机可读存储介质，其特征在于，在所述将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号，将源数据表中字段所对应的数据不为用户标识的数据保持数据不变的步骤之后，还包括：

获取源数据表中已匹配成功的字段所对应的数据和包含用户标识而未被匹配成功的字段所对应的数据；

根据已匹配成功的字段所对应的数据和包含用户标识而未被匹配成功的字段所对应的数据对所述用户标识的特征规则进行修正。
根据权利要求11所述的非易失性计算机可读存储介质，其特征在于，在所述将源数据表中字段所对应的数据为用户标识的数据转化为第三方用户帐号，将源数据表中字段所对应的数据不为用户标识的数据保持数据不变的步骤之后，还包括：

获取源数据表中包含用户标识而未被匹配成功的字段所对应的数据；

根据所述包含用户标识而未被匹配成功的字段所对应的数据对所述用户标识的特征规则进行修正。
根据权利要求11所述的非易失性计算机可读存储介质，其特征在于，所述特征包括平均值和标准差；所述用户标识为即时通信帐号或移动通信标识或电子邮箱或身份证号码或支付帐号。