WO2019019385A1

WO2019019385A1 - 跨平台数据匹配方法、装置、计算机设备和存储介质

Info

Publication number: WO2019019385A1
Application number: PCT/CN2017/104666
Authority: WO
Inventors: 王健宗; 黄章成; 吴天博; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2017-07-26
Filing date: 2017-09-29
Publication date: 2019-01-31
Also published as: US11030265B2; US20190278822A1; CN107688605B; CN107688605A

Abstract

一种跨平台数据匹配方法，包括：接收终端发送的数据匹配请求；在第一社交网络平台中获取第一用户群组对应的群组行为数据，学习群组行为数据，得到群组特征分布函数；在第二社交网络平台中获取指定的根节点用户的关联用户以及对应的行为数据；学习根节点用户的行为数据，生成匹配根节点用户后的群组特征分布函数；对关联用户的行为数据进行行为学习；计算匹配关联用户后的群组特征分布函数的最大熵值，将对应最大熵值最大的关联用户确定为第一用户群组的匹配用户；以确定的匹配用户为当前根节点用户，确定下一个匹配用户，直至确定的匹配用户满足设定数量条件，完成群组匹配。

Description

跨平台数据匹配方法、装置、计算机设备和存储介质

本申请要求于2017年07月26日提交中国专利局，申请号为2017106183781，发明名称为“跨平台数据匹配方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别是涉及一种跨平台数据匹配方法、装置、计算机设备和存储介质。

背景技术

社交网络已成为感知个体在线行为的“传感器”，大量的社交“传感器”可以感知用户不同层面的信息，包括姓名、年龄、性别、消费能力、交友习惯、支付习惯、购物倾向以及对某种观点、商品和服务的态度等。

在金融大数据应用中，不同的社交网络中连接相同的真实用户，不同社交网络平台上的相同用户发布的内容很可能是不相同的(主题不一样，例如美食社交网络的和图片社交网络的信息很难匹配；发表的内容规模不一样，比如一个新的平台和用了很久的平台的内容密度是不同的)，那么，用这些不同的内容难以进行用户身份匹配，最终导致跨平台数据融合障碍，以致大数据分析仅局限于单一社交网络平台，分析效果差，大数据不能够得到充分利用。

发明内容

基于此，有必要提供一种跨平台数据匹配方法、装置、计算机设备和存储介质。

一种跨平台数据匹配方法，所述方法包括：

接收终端发送的数据匹配请求，所述数据匹配请求中携带第一社交网络平台标识、用户指定的第一社交网络平台中的第一用户群组以及第二社交网络平台标识和用户指定的第二社交网络平台中的根节点用户；

在所述第一社交网络平台标识对应的第一社交网络平台中获取所述第一用户群组对应的群组行为数据，并对所述群组行为数据进行行为学习，得到所述第一用户群组对应的群组特征分布函数；

在所述第二社交网络平台中获取所述根节点用户的关联用户，并在所述第二社交网络平台中获取所述根节点用户和每个所述关联用户对应的行为数据；

基于所述第一用户群组对应的群组特征分布函数，学习所述根节点用户的行为数据，生成匹配根节点用户后的群组特征分布函数；

基于匹配根节点用户后的群组特征分布函数，分别对每个关联用户的行为数据进行行为学习，生成匹配每个所述关联用户后的群组特征分布函数；

计算匹配所述关联用户后的所述群组特征分布函数的最大熵值，将对应最大熵值最大的所述关联用户确定为所述第一用户群组的匹配用户；及

以确定的所述匹配用户为当前根节点用户，确定下一个匹配用户，直至确定的所述匹配用户满足设定数量条件，完成群组匹配。

一种跨平台数据匹配装置，所述装置包括：

匹配请求模块，用于接收终端发送的数据匹配请求，所述数据匹配请求中携带第一社交网络平台标识、用户指定的第一社交网络平台中的第一用户群组以及第二社交网络平台标识和用户指定的第二社交网络平台中的根节点用户；

群组特征学习模块，用于在所述第一社交网络平台标识对应的第一社交网络平台中获取所述第一用户群组对应的群组行为数据，并对所述群组行为数据进行行为学习，得到所述第一用户群组对应的群组特征分布函数；

待匹配节点确定模块，用于在所述第二社交网络平台中获取所述根节点用户的关联用户，并在所述第二社交网络平台中获取所述根节点用户和每个所述关联用户对应的行为数据；

根节点特征学习模块，用于基于所述第一用户群组对应的群组特征分布函数，学习所述根节点用户的行为数据，生成匹配所述根节点用户后的群组特征分布函数；

关联节点特征学习模块，用于基于匹配所述根节点用户后的群组特征分布函数，分别对每个关联用户的所述行为数据进行行为，生成匹配每个所述关联用户后的群组特征分布函数；及

匹配模块，用于计算匹配所述关联用户后的所述群组特征分布函数的最大熵值，将对应最大熵值最大的所述关联用户确定为所述第一用户群组的匹配用户，以确定的所述匹配用户为当前根节点用户，确定下一个匹配用户，直至确定的所述匹配用户满足设定数量条件，完成群组匹配。

一种计算机设备，包括存储器和处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行以下步骤：

一个或多个存储有计算机可读指令的计算机可读非易失性存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为一个实施例中跨平台数据匹配方法的应用环境图；

图2为一个实施例中服务器的内部结构示意图；

图3为一个实施例中跨平台数据匹配方法的流程图；

图4为一个实施例中的社交网络图；

图5为一个实施例中群组行为特征学习所涉及的流程图；

图6为一个实施例中跨平台数据匹配装置的结构框图；及

图7为一个实施例中群组特征学习模块的结构框图。

具体实施方式

为了使本申请的技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如图1所示，在一个实施例中，提供了一种跨平台数据匹配方法的应用环境图，该应用环境图包括终端110和服务器120。终端110可通过网络与服务器120通信。终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机中的至少一种，但并不局限于此。服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群。服务器120中预先存储了多个社交网络平台的用户群数据，包括平台中各用户之间的社交关系数据以及用户在平台内发布的各种信息。终端110进行源社交网络平台(第一社交网络平台)和匹配的目标社交网络平台(第二社交网络平台)的指定，服务器120根据中终端发送的信息从第一社交网络平台中获取第一用户群组对应的群组行为数据，并对查找的群组行为数据进行行为学习，得到群组特征分布函数。然后以指定的第二社交网络平台的根节点用户为查找起点，考虑社交网络结构，通过逐个候选节点的行为数据学习逐一确定匹配节点，即跨平台地查找到与第一用户群组匹配的第二用户群组，也就是实现了跨平台数据的整合，整合后的大数据更加有利于进行精准分析。

如图2所示，在一个实施例中，提供了一种服务器120，该服务器120包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中，该服务器120的非易失性存储介质存储有操作系统、数据库和至少一条计算机可读指令。该计算机可读指令被处理器执行时，可使得处理器执行一种如图3所示的跨平台数据匹配方法。处理器用于提供计算和控制能力，支撑整个服务器120的运行。内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。网络接口用于与终端110进行通信连接。

在一个实施中，服务器120还包括数据库，该数据库用于存储从社交网络平台中抓取的用户行为数据。本领域技术人员可以理解，图2中示出的服务器的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的服务器的限定，具体的服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

图3为本申请一个实施例的方法的流程示意图。应该理解的是，虽然图3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，图3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图3所示，在一个实施例中，提供了一种跨平台数据匹配方法，该方法具体包括如下步骤：

步骤S202：接收终端发送的数据匹配请求，数据匹配请求中携带第一社交网络平台标识、用户指定的第一社交网络平台中的第一用户群组以及第二社交网络平台标识和用户指定的第二社交网络平台中的根节点用户。

终端中可预先存储有多个社交网络平台的标识信息以及每个社交网络平台中的用户标识信息。其中，每个社交网络平台对应的用户标识信息也可以存储在服务器中，终端通过社交网络平台标识向服务器发送获取用户标识信息的请求。这里的社交网络平台可以是Foursquare平台、Twitter平台、微博平台、MSN平台等。

本实施例中，终端指定源社交网络平台和目标社交网络平台，并基于源社交网络平台指定第一用户群组，基于指定的目标社交网络平台指定根节点用户。本实施实例方法用于实现源社交网络平台和目标网络平台数据的匹配。上述的源社交网络平台即为第一社交网络平台，目标社交网络平台即为第二社交网络平台。社交网络平台中的用户标识信息通过如图4所示的社交网络图的形式呈现在终端页面中。终端用户可通过点选的方式指定第一用户群组和根节点用户。

需要说明的是，第一用户群组是具有一定群组核度的用户群组，群组核度表示群组中每个用户节点邻接组内其他成员数量的最小值。例如，第一用户群组需要满足的群组核度为2，则群组内每个群组成员邻接组内其他成员的数量应不小于两个。

在一个实施例中，终端可指定一个或者多个用户节点、群组规模和群组核度，终端根据社交网络图自动查找满足群组规模、核度条件且包括指定用户节点的用户群组。在另一个实施例中，终端可指定一个或者多个用户节点、群组规模和群组亲密度，终端根据社交网络图自动查找满足群组数量、群组亲密度且包括指定用户节点的用户群组。

步骤S204：在第一社交网络平台标识对应的第一社交网络平台中获取第一用户群组对应的群组行为数据，并对群组行为数据进行行为学习，得到第一用户群组对应的群组特征分布函数。

服务器接收用户终端发送的源社交网络平台标识和指定的第一群组用户，这里的源社交网络平台即为第一社交网络平台。服务器向源社交网络平台请求第一用户群组对应的群组行为数据，其中，群组行为数据为第一用户群组中所有用户在源社交网络平台内所发布的信息和用户对应的属性信息。服务器可对获取的群组行为数据(也就是用户行为数据)进行存储，待下一次数据匹配时，首先查找本地是否存储有对应的行为数据，若有，直接从本地存储中获取需要的用户行为数据。

举例来说，源社交网络平台为Foursquare平台，第一用户群组对应的群组行为数据则为第一用户群组成员在Foursquare平台上发布的签到信息、评论信息以及群组成员的生日、教育背景、格言等属性信息。

对群组定位数据进行行为学习实质上就是得到用户群组的行为属性分布的过程，即将用户群体的信息和特征进行建模得到群组特征分布函数。

步骤S206：在第二社交网络平台中获取根节点用户的关联用户，并在第二社交网络平台中获取根节点用户和每个关联用户对应的行为数据。

具体的，终端在发送数据请求时，请求中还携带指定的目标社交网络平台标识(对应第二社交网络平台)以及根节点用户标识，其中根节点用户标识为目标社交网络平台中的用户标识。

服务器获取目标社交网络平台的社交网络图(包括目标社交网络平台中的节点以及节点关联关系数据)，并基于获取的社交网络图查找与指定的根节点用户具有关联关系的关联用户。

在一个实施例中，根节点用户的关联用户可以是与根节点直接关联的用户。如图4所示，若v₁为根节点用户，则图中展示的其关联用户为v₂、v₃和v₅。

步骤S208：基于第一用户群组对应的群组特征分布函数，学习根节点用户的行为数据，生成匹配根节点用户后的群组特征分布函数。

确定目标社交网络平台中的根节点用户后，服务器在已经学习的第一用户群组对应的群组特征分布函数的基础上，进一步对根节点用户的行为数据进行学习，得到匹配根节点用户后的新用户群组(包括第一用户群组和根节点用户)对应的群组特征分布函数。

需要说明的是，用户指定的根节点用户为用户可以准确确认的与第一用户群组中某一用户相匹配的用户。举例来说，第一用户群组中包括用户Mary，其与在目标社交网络平台中用户指定的根节点用户Marysweety实质上为一个人，也就是说，根节点用户为确定的第一个与第一用户群组相匹配的用户。

步骤S210：基于匹配根节点用户后的群组特征分布函数，分别对每个关联用户的行为数据进行行为学习，生成匹配每个关联用户后的群组特征分布函数。

步骤S212：计算匹配每个关联用户后的群组特征分布函数的最大熵值，将对应最大熵值最大的关联用户确定为第一用户群组的匹配用户。

服务器从与根节点用户具有关联关系的关联用户中确定第二个匹配用户。具体为：以匹配根节点用户后的群组特征分布函数为基础，对每个关联用户的行为数据进行学习，也就是，学习每个关联用户的行为特征，修正原有特征分布函数，得到新的群组特征分布函数。即经特征学习后，得到匹配每个关联用户后的群组特征分布函数。

为了在这些关联用户中确定最可能的匹配用户，根据每个关联用户对应的群组特征分布函数，计算模型的最大熵。求解的最大熵越大，说明关联用户与第一用户群体匹配后学习到的模型越好，关联用户与第一用户群体的匹配程度越高。因此，将对应熵值最大的关联用户确定为第一用户群组的匹配用户。

步骤S214：以确定的匹配用户为当前根节点用户，确定下一个匹配用户，直至确定的匹配用户满足设定数量条件，完成群组匹配。

将确定的关联用户作为当前根节点用户，在目标社交网络平台中获取当前根节点用户的关联用户，然后在匹配当前根节点用户后的用户群组(包括第一用户群组、指定的根节点用户和当前根节点用户)对应的群组特征分布函数基础上，分别学习当前根节点用户的关联用户的行为数据，根据最大熵确定下一个匹配用户。循环上述步骤，逐个进行匹配用户的确定，直至确定的匹配用户满足设定数量条件，即在目标社交网络平台中得到了与源社交网络平台指定群组相匹配的群组。

第一社交网络平台的第一用户群组与第二社交网络平台中的匹配用户群组为不同社交网络中连接的相同用户群体的群组，两个群组对应的数据可进行跨平台整合、分析，也就是实现了跨平台数据的整合，整合后的大数据更加有利于进行精准分析。

在一个实施例中，指定的根节点用户的关联用户为在第二社交网络平台中与根节点用户之间的亲密度不小于设定阈值的用户节点，其中，设定阈值根据第一用户群组的亲密度而设定。

终端指定的第二社交网络平台的根节点用户的关联用户根据第二社交网络平台的社交网络关系来确定。具体的，计算根节点用户与其周边用户节点之间的亲密度，其中，两个用户节点共同邻接的节点数与两个用户节点邻接的所有节点的数量的比值越大，两节点的亲密度越大。用户节点之间的亲密度可通过如下公式计算：

其中，N(u)表示节点u的邻接节点集合，节点u和v的共同邻接节点数为|N(u)∩N(v)|。在亲密度的计算中，分子采用节点的共同邻居加1，主要是为了避免两个节点之间存在边，而亲密度却为0的情况。

在另一个实施例中，还可使用Random Walks with Restart(RWR)理论可以实现图中两个节点的相关性的测量。从节点v_q开始，根据每个步骤处的链路的权重，通过跟随到另一节点的链路来执行RWR。此外，在每个步骤中存在返回节点v_q的概率如下：

r^(t+1)＝τSr^(t)+(1-τ)q

v_q和其他节点的亲密度，就是以上式为基础不断迭代，直到达到稳定(两次迭代r的值变化很小)，这个向量中的第i位则为v_q与v_i的亲密度。

上述的亲密度比对阈值可根据源社交网络平台中的第一用户群组的亲密度来确定。具体的，计算第一用户群组中用户之间的亲密度，确定最小的亲密度数值，将最小的亲密度数值最为查找的关联用户的亲密度阈值。

在一个实施例中，以确定的匹配用户为当前根节点用户，确定下一个匹配用户，直至确定的匹配用户满足设定数量条件，完成群组匹配的步骤为：以确定的匹配用户为当前根节点用户，在第二社交网络平台中查找当前根节点用户的当前关联用户，其中，查找的当前关联用户与确定的所有匹配用户和指定的根节点组成的群组的群组亲密度不小于设定阈值；在当前关联用户中确定下一个匹配用户，直至确定的匹配用户满足设定数量条件，完成群组匹配。

确定终端指定的根节点用户的关联用户时，是计算周边用户与该关联用户的亲密度，随着确定的匹配用户的增多，当确定下一级的关联用户时，应该使当前根节点用户周边的用户节点与已经确定的所有匹配用户(包括指定的根节点用户)之间的亲密度满足设定阈值。

举例来说，终端指定的根节点用户为u，从根节点的关联用户(与用户u具有关联关系且与用户u的亲密度不小于设定第一阈值)确定第一级匹配用户v₁；然后以用户v₁为当前根节点用户，确定v₁的关联用户。v₁的关联用户应该是与v₁具有关联关系且与u、v₁组成的群组的群组亲密度不小于设定第二阈值，其中，群组亲密度为群组中各成员之间的亲密度之和(如w₁、w₂和w₃组成的群组的群组亲密度为w₁和w₂之间的亲密度、w₂和w₃之间的亲密度以及w₁和w₃之间的亲密度三者之和)。确定v₁的关联用户后，对v₁的关联用户进行行为学习，从v₁的关联用户中确定下一级匹配用户，在以新确定的匹配用户为当前根节点用户，进一步确定下一级匹配用户，直至确定的匹配用户的数量满足设定数量条件。

在一个实施例中，当确定的匹配用户(包括终端指定的根节点用户)的数量与第一用户群组的成员数量相等时，完成群组匹配。也就是，在第二社交网络平台中查找与第一社交网络平台的第一用户群组群组规模相同的匹配群组。

在另一个实施例中，匹配群组与第一用户群组的群组规模也可以不相同。匹配的结束点为查找不到满足条件的关联用户时或者行为学习后的群组特征分布函数最大熵不能满足设定条件，也就是匹配效果不佳时。

在一个实施例中，如图5所示，步骤S204：在第一社交网络平台标识对应的第一社交网络平台中获取第一用户群组对应的群组行为数据，并对群组行为数据进行行为学习，得到第一用户群组对应的群组特征分布函数的步骤包括：

步骤S302：在第一社交网络平台标识对应的第一社交网络平台中获取第一用户群组对应的群组行为数据。

第一用户群组对应的群组行为数据为第一用户群组中所有成员在设定时间段内在第一社交网络平台中发布信息和第一用户群组中所有成员的属性信息。

如第一用户群组的群组行为数据为第一用户群组中所有成员在24个月内发布的信息和成员在注册第一社交网络平台时填写的用户详情信息。

步骤S304：提取群组行为数据中的特征词语，根据特征词语生成多个特征向量，其中，每个特征向量都是由属于同一类别的特征词语构成的。

具体的，从群组行为数据中提取的特征词语为所有有意义的词或者词组。生成的每个特征向量包括多个属于同一类别的特征词语。

假设用户集合X为{Mary，John，Lily，Tom，...}(marked as{x₁，x₂，x₃，x₄...})，从用户集合X中的Mary，John，Lily，Tom，...的行为数据中提取特征词语，构成该用户集合对应的状态空间为[apple，London，Messi，football，rain，fruit，New York，swimming，running Ronaldo，manchester...]。然后根据状态空间中的特征词语生成特征向量f_i，如f₁为[footbal，Messi，Ronaldo，manchester...]，f₂为[London，New York，...]，f₃为[apple，fruit，...]，f₄为[swimming，running，...]等。生成的特征向量的数量没有限制，按照设定分分类规则可将提取的特征向量归属于多种类型以生成多种特征向量。

步骤S306：依次根据第一用户群组中每个用户对应的行为数据中出现特征词语的频率信息修正每个特征向量对应的特征分布值，进而得到第一用户群组对应的群组特征分布函数。

依次学习第一用户群组中每个用户的行为数据，得到提取的特征词语在该学习的用户行为数据中出现的频率，以计算该用户行为数据对每个特征向量所产生的行为特征分布值。学习下一个用户的行为数据，修正每个特征向量对应的特征分布值，进而得到第一用户群组对应的群组特征分布函数。

例如，学习Mary的行为数据，得到Mary对应于特征向量f₁的行为特征分布值。具体为，在Mary的行为数据中查找是否出现了特征向量f₁中的特征词语，若是，统计出现f₁中的每个特征词语的频率，出现的f₁中每个特征词语的频率的加和即为Mary对应于f₁的行为特征分布的值。以此类推计算Mary对应于其他特征向量的行为特征分布值，继而得到Mary(x₁)的所有行为特征分布。

以同样的方法学习群组中其他用户的行为数据，继而得到第一用户群组对应的群组特征分布函数。

在一个实施例中，通过下述公式表示群组特征分布函数：

其中，其中，x代表用户，y代表用户的标签(即根据用户行为数据提取的特征词语集合)，而f代表用户的特征(特征向量)，λ代表了对应特征的权重。

在一个实施例中，步骤S208：基于第一用户群组对应的群组特征分布函数，学习根节点用户的行为数据，生成匹配根节点用户后的群组特征分布函数的步骤为：以根据第一用户群组对应的群组行为数据所提取的特征向量为行为学习的基础，学习根节点用户的行为数据以修正每个特征向量对应的特征分布值，生成匹配根节点用户后的群组特征分布函数。

以学习第一用户群组对应的特征向量为基础，学习第二社交网络平台中的用户的行为特征，得到增加新用户后的群体行为分布函数，通过对比分布函数(以最大熵为标准)可判断该用户的行为特征是否贴合第一用户群组的群组行为特征，若是，则可判定该用户为匹配用户。

在进行匹配学习的时候，不进行特征向量的增加，而是以第一用户群组的特征向量为标准去验证第二社交网络平台中的用户，经行为学习后，可准确的确定用户是否为第一用户群组的匹配用户。

在一个实施例中，如图6所示，提供了一种跨平台数据匹配装置，装置包括：匹配请求模块402，用于接收终端发送的数据匹配请求，数据匹配请求中携带第一社交网络平台标识、用户指定的第一社交网络平台中的第一用户群组以及第二社交网络平台标识和用户指定的第二社交网络平台中的根节点用户。

群组特征学习模块404，用于在第一社交网络平台标识对应的第一社交网络平台中获取第一用户群组对应的群组行为数据，并对群组行为数据进行行为学习，得到第一用户群组对应的群组特征分布函数。

根节点确定模块406，用于在第二社交网络平台中获取根节点用户的关联用户，并在第二社交网络平台中获取根节点用户和每个关联用户对应的行为数据。

根节点特征学习模块408，用于基于第一用户群组对应的群组特征分布函数，学习根节点用户对应的行为数据，生成匹配根节点用户后的群组特征分布函数。

关联节点特征学习模块410，用于基于匹配根节点用户后的群组特征分布函数，分别对每个关联用户的行为数据进行行为学习，生成匹配每个关联用户后的群组特征分布函数。

匹配模块412，用于计算匹配关联用户后的群组特征分布函数的最大熵值，将对应最大熵值最大的关联用户确定为第一用户群组的匹配用户，以确定的匹配用户为当前根节点用户，确定下一个匹配用户，直至确定的匹配用户满足设定数量条件，完成群组匹配。

在一个实施例中，匹配模块412，还用于以确定的匹配用户为当前根节点用户，在第二社交网络平台中查找当前根节点用户的当前关联用户，其中，查找的当前关联用户与确定的所有匹配用户和指定的根节点组成的群组的群组亲密度不小于设定阈值；在当前关联用户中确定下一个匹配用户，直至确定的匹配用户满足设定数量条件，完成群组匹配。

在一个实施例中，如图7所示，群组特征学习模块404包括：

群组行为数据获取模块502，用于在第一社交网络平台标识对应的第一社交网络平台中获取第一用户群组对应的群组行为数据。

特征向量学习模块504，用于提取群组行为数据中的特征词语，根据特征词语生成多个特征向量，其中，每个特征向量都是由属于同一类别的特征词语构成的。

特征分布值计算模块506，用于依次根据第一用户群组中每个用户对应的行为数据中出现特征词语的频率信息修正每个特征向量对应的特征分布值，进而得到第一用户群组对应的群组特征分布函数。

在一个实施例中，根节点特征学习模块408，还用于以根据第一用户群组对应的群组行为数据所提取的特征向量为行为学习的基础，学习根节点用户的行为数据以修正每个特征向量对应的特征分布值，生成匹配根节点用户后的群组特征分布函数。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中储存有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行以下步骤：接收终端发送的数据匹配请求，数据匹配请求中携带第一社交网络平台标识、用户指定的第一社交网络平台中的第一用户群组以及第二社交网络平台标识和用户指定的第二社交网络平台中的根节点用户；在第一社交网络平台标识对应的第一社交网络平台中获取第一用户群组对应的群组行为数据，并对群组行为数据进行行为学习，得到第一用户群组对应的群组特征分布函数在第二社交网络平台中获取根节点用户的关联用户，并在第二社交网络平台中获取根节点用户和每个关联用户对应的行为数据；基于第一用户群组对应的群组特征分布函数，学习根节点用户对应的行为数据，生成匹配根节点用户后的群组特征分布函数；基于匹配根节点用户后的群组特征分布函数，分别对每个关联用户对应的行为数据进行行为学习，生成匹配每个关联用户后的群组特征分布函数；计算每个匹配后的群组特征分布函数最大熵值，将对应最大熵值最大的关联用户确定为第一用户群组的匹配用户；及以确定的匹配用户为当前根节点用户，确定下一个匹配用户，直至确定的匹配用户满足设定数量条件，完成群组匹配。

在一个实施例中，计算机设备的处理器所执行的以确定的匹配用户为当前根节点用户，确定下一个匹配用户，直至确定的匹配用户满足设定数量条件，完成群组匹配的步骤为：以确定的匹配用户为当前根节点用户，在第二社交网络平台中查找当前根节点用户的当前关联用户，其中，查找的当前关联用户与确定的所有匹配用户和指定的根节点组成的群组的群组亲密度不小于设定阈值；及在当前关联用户中确定下一个匹配用户，直至确定的匹配用户满足设定数量条件，完成群组匹配。

在一个实施例中，计算机设备的处理器所执行的在第一社交网络平台标识对应的第一社交网络平台中获取第一用户群组对应的群组行为数据，并对群组行为数据进行行为学习，得到第一用户群组对应的群组特征分布函数的步骤包括：在第一社交网络平台标识对应的第一社交网络平台中获取第一用户群组对应的群组行为数据；提取群组行为数据中的特征词语，根据特征词语生成多个特征向量，其中，每个特征向量都是由属于同一类别的特征词语构成的；及依次根据第一用户群组中每个用户对应的行为数据中出现特征词语的频率信息修正每个特征向量对应的特征分布值，进而得到第一用户群组对应的群组特征分布函数。

在一个实施例中，计算机设备的处理器所执行的基于第一用户群组对应的群组特征分布函数，学习根节点用户对应的行为数据，生成匹配根节点用户后的群组特征分布函数的步骤为：以根据第一用户群组对应的群组行为数据所提取的特征向量为行为学习的基础，学习根节点用户的行为数据以修正每个特征向量对应的特征分布值，生成匹配根节点用户后的群组特征分布函数。

在一个实施例中，提供了一个或多个存储有计算机可读指令的计算机可读非易失性存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：接收终端发送的数据匹配请求，数据匹配请求中携带第一社交网络平台标识、用户指定的第一社交网络平台中的第一用户群组以及第二社交网络平台标识和用户指定的第二社交网络平台中的根节点用户；在第一社交网络平台标识对应的第一社交网络平台中获取第一用户群组对应的群组行为数据，并对群组行为数据进行行为学习，得到第一用户群组对应的群组特征分布函数；在第二社交网络平台中获取根节点用户的关联用户，并在第二社交网络平台中获取根节点用户和每个关联用户对应的行为数据；基于第一用户群组对应的群组特征分布函数，学习根节点用户对应的行为数据，生成匹配根节点用户后的群组特征分布函数；基于匹配根节点用户后的群组特征分布函数，分别对每个关联用户的行为数据进行行为学习，生成匹配每个关联用户后的群组特征分布函数；计算每个匹配后的群组特征分布函数最大熵值，将对应最大熵值最大的关联用户确定为第一用户群组的匹配用户；及以确定的匹配用户为当前根节点用户，确定下一个匹配用户，直至确定的匹配用户满足设定数量条件，完成群组匹配。

在一个实施例中，处理器所执行的以确定的匹配用户为当前根节点用户，确定下一个匹配用户，直至确定的匹配用户满足设定数量条件，完成群组匹配的步骤为：以确定的匹配用户为当前根节点用户，在第二社交网络平台中查找当前根节点用户的当前关联用户，其中，查找的当前关联用户与确定的所有匹配用户和指定的根节点组成的群组的群组亲密度不小于设定阈值；及在当前关联用户中确定下一个匹配用户，直至确定的匹配用户满足设定数量条件，完成群组匹配。

在一个实施例中，处理器所执行的在第一社交网络平台标识对应的第一社交网络平台中获取第一用户群组对应的群组行为数据，并对群组行为数据进行行为学习，得到第一用户群组对应的群组特征分布函数的步骤包括：在第一社交网络平台标识对应的第一社交网络平台中获取第一用户群组对应的群组行为数据；提取群组行为数据中的特征词语，根据特征词语生成多个特征向量，其中，每个特征向量都是由属于同一类别的特征词语构成的；及依次根据第一用户群组中每个用户对应的行为数据中出现特征词语的频率信息修正每个特征向量对应的特征分布值，进而得到第一用户群组对应的群组特征分布函数。

在一个实施例中，处理器所执行的基于第一用户群组对应的群组特征分布函数，学习根节点用户对应的行为数据，生成匹配根节点用户后的群组特征分布函数的步骤为：以根据第一用户群组对应的群组行为数据所提取的特征向量为行为学习的基础，学习根节点用户的行为数据以修正每个特征向量对应的特征分布值，生成匹配根节点用户后的群组特征分布函数。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种跨平台数据匹配方法，包括：

接收终端发送的数据匹配请求，所述数据匹配请求中携带第一社交网络平台标识、用户指定的第一社交网络平台中的第一用户群组以及第二社交网络平台标识和用户指定的第二社交网络平台中的根节点用户；

在所述第一社交网络平台标识对应的第一社交网络平台中获取所述第一用户群组对应的群组行为数据，并对所述群组行为数据进行行为学习，得到所述第一用户群组对应的群组特征分布函数；

在所述第二社交网络平台中获取所述根节点用户的关联用户，并在所述第二社交网络平台中获取所述根节点用户和每个所述关联用户对应的行为数据；

基于所述第一用户群组对应的群组特征分布函数，学习所述根节点用户的行为数据，生成匹配根节点用户后的群组特征分布函数；

基于匹配根节点用户后的群组特征分布函数，分别对每个关联用户的行为数据进行行为学习，生成匹配每个所述关联用户后的群组特征分布函数；

计算匹配所述关联用户后的所述群组特征分布函数的最大熵值，将对应最大熵值最大的所述关联用户确定为所述第一用户群组的匹配用户；及

以确定的所述匹配用户为当前根节点用户，确定下一个匹配用户，直至确定的所述匹配用户满足设定数量条件，完成群组匹配。
根据权利要求1所述的方法，其特征在于，所述根节点用户的关联用户为在所述第二社交网络平台中与所述根节点用户之间的亲密度不小于设定阈值的用户节点，其中，所述设定阈值根据所述第一用户群组的亲密度而设定。
根据权利要求2所述的方法，其特征在于，所述以确定的所述匹配用户为当前根节点用户，确定下一个匹配用户，直至确定的所述匹配用户满足设定数量条件，完成群组匹配为：

以确定的所述匹配用户为当前根节点用户，在所述第二社交网络平台中查找所述当前根节点用户的当前关联用户，其中，查找的所述当前关联用户与确定的所有匹配用户和所述指定的根节点组成的群组的群组亲密度不小于设定阈值；及

在所述当前关联用户中确定下一个匹配用户，直至确定的所述匹配用户满足设定数量条件，完成群组匹配。
根据权利要求1所述的方法，其特征在于，所述在所述第一社交网络平台标识对应的第一社交网络平台中获取所述第一用户群组对应的群组行为数据，并对所述群组行为数据进行行为学习，得到所述第一用户群组对应的群组特征分布函数包括：

在所述第一社交网络平台标识对应的第一社交网络平台中获取所述第一用户群组对应的群组行为数据；

提取所述群组行为数据中的特征词语，根据所述特征词语生成多个特征向量，其中，所述特征向量都是由属于同一类别的特征词语构成的；及

依次根据所述第一用户群组中每个用户对应的行为数据中出现所述特征词语的频率信息修正每个所述特征向量对应的特征分布值，进而得到所述第一用户群组对应的群组特征分布函数。
根据权利要求4所述的方法，其特征在于，所述基于所述第一用户群组对应的群组特征分布函数，学习所述根节点用户的行为数据，生成匹配根节点用户后的群组特征分布函数为：

以根据所述第一用户群组对应的群组行为数据所提取的所述特征向量为行为学习的基础，学习所述根节点用户的行为数据以修正每个所述特征向量对应的特征分布值，生成匹配所述根节点用户后的群组特征分布函数。
一种跨平台数据匹配装置，包括：

匹配请求模块，用于接收终端发送的数据匹配请求，所述数据匹配请求中携带第一社交网络平台标识、用户指定的第一社交网络平台中的第一用户群组以及第二社交网络平台标识和用户指定的第二社交网络平台中的根节点用户；

群组特征学习模块，用于在所述第一社交网络平台标识对应的第一社交网络平台中获取所述第一用户群组对应的群组行为数据，并对所述群组行为数据进行行为学习，得到所述第一用户群组对应的群组特征分布函数；

待匹配节点确定模块，用于在所述第二社交网络平台中获取所述根节点用户的关联用户，并在所述第二社交网络平台中获取所述根节点用户和每个所述关联用户对应的行为数据；

根节点特征学习模块，用于基于所述第一用户群组对应的群组特征分布函数，学习所述根节点用户的行为数据，生成匹配所述根节点用户后的群组特征分布函数；

关联节点特征学习模块，用于基于匹配所述根节点用户后的群组特征分布函数，分别对每个关联用户的所述行为数据进行行为，生成匹配每个所述关联用户后的群组特征分布函数；及

匹配模块，用于计算匹配所述关联用户后的所述群组特征分布函数的最大熵值，将对应最大熵值最大的所述关联用户确定为所述第一用户群组的匹配用户，以确定的所述匹配用户为当前根节点用户，确定下一个匹配用户，直至确定的所述匹配用户满足设定数量条件，完成群组匹配。
根据权利要求6所述的装置，其特征在于，所述指定的根节点用户的关联用户为在所述第二社交网络平台中与所述根节点用户之间的亲密度不小于设定阈值的用户节点，其中，所述设定阈值根据所述第一用户群组的亲密度而设定。
根据权利要求7所述的装置，其特征在于，所述匹配模块还用于以确定的所述匹配用户为当前根节点用户，在所述第二社交网络平台中查找所述当前根节点用户的当前关联用户，其中，查找的所述当前关联用户与确定的所有匹配用户和所述指定的根节点组成的群组的群组亲密度不小于设定阈值；及在所述当前关联用户中确定下一个匹配用户，直至确定的所述匹配用户满足设定数量条件，完成群组匹配。
根据权利要求6所述的装置，其特征在于，所述群组特征学习模块包括：

群组行为数据获取模块，用于在所述第一社交网络平台标识对应的第一社交网络平台中获取所述第一用户群组对应的群组行为数据；

特征向量学习模块，用于提取所述群组行为数据中的特征词语，根据所述特征词语生成多个特征向量，其中，所述特征向量都是由属于同一类别的特征词语构成的；及

特征分布值计算模块，用于依次根据所述第一用户群组中每个用户对应的行为数据中出现所述特征词语的频率信息修正每个所述特征向量对应的特征分布值，进而得到所述第一用户群组对应的群组特征分布函数。
根据权利要求9所述的装置，其特征在于，所述关联节点特征学习模块还用于以根据所述第一用户群组对应的群组行为数据所提取的所述特征向量为行为学习的基础，学习所述根节点用户的行为数据以修正每个所述特征向量对应的特征分布值，生成匹配所述根节点用户后的群组特征分布函数。
一种计算机设备，包括存储器和处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行以下步骤：

接收终端发送的数据匹配请求，所述数据匹配请求中携带第一社交网络平台标识、用户指定的第一社交网络平台中的第一用户群组以及第二社交网络平台标识和用户指定的第二社交网络平台中的根节点用户；

在所述第一社交网络平台标识对应的第一社交网络平台中获取所述第一用户群组对应的群组行为数据，并对所述群组行为数据进行行为学习，得到所述第一用户群组对应的群组特征分布函数；

在所述第二社交网络平台中获取所述根节点用户的关联用户，并在所述第二社交网络平台中获取所述根节点用户和每个所述关联用户对应的行为数据；

基于所述第一用户群组对应的群组特征分布函数，学习所述根节点用户的行为数据，生成匹配根节点用户后的群组特征分布函数；

基于匹配根节点用户后的群组特征分布函数，分别对每个关联用户的行为数据进行行为学习，生成匹配每个所述关联用户后的群组特征分布函数；

计算匹配所述关联用户后的所述群组特征分布函数的最大熵值，将对应最大熵值最大的所述关联用户确定为所述第一用户群组的匹配用户；及

以确定的所述匹配用户为当前根节点用户，确定下一个匹配用户，直至确定的所述匹配用户满足设定数量条件，完成群组匹配。
根据权利要求11所述的计算机设备，其特征在于，所述根节点用户的关联用户为在所述第二社交网络平台中与所述根节点用户之间的亲密度不小于设定阈值的用户节点，其中，所述设定阈值根据所述第一用户群组的亲密度而设定。
根据权利要求12所述的计算机设备，其特征在于，所述处理器还用于执行：

以确定的所述匹配用户为当前根节点用户，在所述第二社交网络平台中查找所述当前根节点用户的当前关联用户，其中，查找的所述当前关联用户与确定的所有匹配用户和所述指定的根节点组成的群组的群组亲密度不小于设定阈值；及

在所述当前关联用户中确定下一个匹配用户，直至确定的所述匹配用户满足设定数量条件，完成群组匹配。
根据权利要求11所述的计算机设备，所述处理器还用于执行：在所述第一社交网络平台标识对应的第一社交网络平台中获取所述第一用户群组对应的群组行为数据；

提取所述群组行为数据中的特征词语，根据所述特征词语生成多个特征向量，其中，所述特征向量都是由属于同一类别的特征词语构成的；及

依次根据所述第一用户群组中每个用户对应的行为数据中出现所述特征词语的频率信息修正每个所述特征向量对应的特征分布值，进而得到所述第一用户群组对应的群组特征分布函数。
根据权利要求14所述的计算机设备，所述处理器还用于执行：以根据所述第一用户群组对应的群组行为数据所提取的所述特征向量为行为学习的基础，学习所述根节点用户的行为数据以修正每个所述特征向量对应的特征分布值，生成匹配所述根节点用户后的群组特征分布函数。
一个或多个存储有计算机可读指令的计算机可读非易失性存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

接收终端发送的数据匹配请求，所述数据匹配请求中携带第一社交网络平台标识、用户指定的第一社交网络平台中的第一用户群组以及第二社交网络平台标识和用户指定的第二社交网络平台中的根节点用户；

在所述第一社交网络平台标识对应的第一社交网络平台中获取所述第一用户群组对应的群组行为数据，并对所述群组行为数据进行行为学习，得到所述第一用户群组对应的群组特征分布函数；

在所述第二社交网络平台中获取所述根节点用户的关联用户，并在所述第二社交网络平台中获取所述根节点用户和每个所述关联用户对应的行为数据；

基于所述第一用户群组对应的群组特征分布函数，学习所述根节点用户的行为数据，生成匹配根节点用户后的群组特征分布函数；

基于匹配根节点用户后的群组特征分布函数，分别对每个关联用户的行为数据进行行为学习，生成匹配每个所述关联用户后的群组特征分布函数；

计算匹配所述关联用户后的所述群组特征分布函数的最大熵值，将对应最大熵值最大的所述关联用户确定为所述第一用户群组的匹配用户；及

以确定的所述匹配用户为当前根节点用户，确定下一个匹配用户，直至确定的所述匹配用户满足设定数量条件，完成群组匹配。
根据权利要求16所述的存储介质，其特征在于，所述根节点用户的关联用户为在所述第二社交网络平台中与所述根节点用户之间的亲密度不小于设定阈值的用户节点，其中，所述设定阈值根据所述第一用户群组的亲密度而设定。
根据权利要求17所述的存储介质，所述处理器还用于执行：

以确定的所述匹配用户为当前根节点用户，在所述第二社交网络平台中查找所述当前根节点用户的当前关联用户，其中，查找的所述当前关联用户与确定的所有匹配用户和所述指定的根节点组成的群组的群组亲密度不小于设定阈值；及

在所述当前关联用户中确定下一个匹配用户，直至确定的所述匹配用户满足设定数量条件，完成群组匹配。
根据权利要求16所述的存储介质，其特征在于，所述处理器还用于执行：

在所述第一社交网络平台标识对应的第一社交网络平台中获取所述第一用户群组对应的群组行为数据；

提取所述群组行为数据中的特征词语，根据所述特征词语生成多个特征向量，其中，所述特征向量都是由属于同一类别的特征词语构成的；及

依次根据所述第一用户群组中每个用户对应的行为数据中出现所述特征词语的频率信息修正每个所述特征向量对应的特征分布值，进而得到所述第一用户群组对应的群组特征分布函数。
根据权利要求19所述的存储介质，其特征在于，所述处理器还用于执行：

以根据所述第一用户群组对应的群组行为数据所提取的所述特征向量为行为学习的基础，学习所述根节点用户的行为数据以修正每个所述特征向量对应的特征分布值，生成匹配所述根节点用户后的群组特征分布函数。