WO2019019385A1 - 跨平台数据匹配方法、装置、计算机设备和存储介质 - Google Patents

跨平台数据匹配方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
WO2019019385A1
WO2019019385A1 PCT/CN2017/104666 CN2017104666W WO2019019385A1 WO 2019019385 A1 WO2019019385 A1 WO 2019019385A1 CN 2017104666 W CN2017104666 W CN 2017104666W WO 2019019385 A1 WO2019019385 A1 WO 2019019385A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
group
matching
root node
social network
Prior art date
Application number
PCT/CN2017/104666
Other languages
English (en)
French (fr)
Inventor
王健宗
黄章成
吴天博
肖京
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Priority to US16/348,966 priority Critical patent/US11030265B2/en
Publication of WO2019019385A1 publication Critical patent/WO2019019385A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Definitions

  • the present application relates to the field of computer technologies, and in particular, to a cross-platform data matching method, apparatus, computer device, and storage medium.
  • Social networks have become “sensors” that sense the online behavior of individuals.
  • a large number of social “sensors” can sense different levels of information, including name, age, gender, spending power, dating habits, payment habits, shopping preferences, and certain perspectives. , attitudes of goods and services, etc.
  • a cross-platform data matching method comprising:
  • the determined matching user is the current root node user, and the next matching user is determined until the determined matching user meets the set quantity condition, and the group matching is completed.
  • a to-be-matched node determining module configured to acquire an associated user of the root node user in the second social network platform, and acquire the root node user and each of the associated users in the second social network platform Corresponding behavior data;
  • a root node feature learning module configured to learn behavior data of the root node user based on a group feature distribution function corresponding to the first user group, and generate a group feature distribution function after matching the root node user;
  • One or more computer readable non-volatile storage media storing computer readable instructions, when executed by one or more processors, cause one or more processors to perform the steps of:
  • the determined matching user is the current root node user, and the next matching user is determined until the determined matching user meets the set quantity condition, and the group matching is completed.
  • FIG. 1 is an application environment diagram of a cross-platform data matching method in an embodiment
  • FIG. 2 is a schematic diagram showing the internal structure of a server in an embodiment
  • FIG. 3 is a flow chart of a cross-platform data matching method in an embodiment
  • Figure 4 is a social network diagram in one embodiment
  • FIG. 7 is a structural block diagram of a group feature learning module in an embodiment.
  • an application environment diagram of a cross-platform data matching method includes a terminal 110 and a server 120.
  • Terminal 110 can communicate with server 120 over a network.
  • the terminal 110 may be at least one of a smartphone, a tablet, a notebook, and a desktop computer, but is not limited thereto.
  • the server 120 may be an independent physical server or a server cluster composed of a plurality of physical servers.
  • the user group data of the plurality of social network platforms is pre-stored in the server 120, including social relationship data between the users in the platform and various information published by the user in the platform.
  • the terminal 110 performs designation of the source social network platform (the first social network platform) and the matching target social network platform (the second social network platform), and the server 120 acquires the first user from the first social network platform according to the information sent by the central terminal.
  • the group behavior data corresponding to the group, and behavior learning of the found group behavior data to obtain a group feature distribution function.
  • the root node user of the second social network platform as the starting point for the social network node. Constructing a matching node one by one by behavior data learning of each candidate node, that is, finding a second user group that matches the first user group across platforms, that is, realizing integration of cross-platform data, integrated big data More conducive to accurate analysis.
  • server 120 also includes a database for storing user behavior data that is captured from the social networking platform.
  • server 120 also includes a database for storing user behavior data that is captured from the social networking platform.
  • FIG. 3 is a schematic flow chart of a method according to an embodiment of the present application. It should be understood that although the various steps in the flowchart of FIG. 3 are sequentially displayed as indicated by the arrows, these steps are not necessarily performed in the order indicated by the arrows. Except as explicitly stated herein, the execution of these steps is not strictly limited, and may be performed in other sequences. Moreover, at least some of the steps in FIG. 3 may include a plurality of sub-steps or stages, which are not necessarily performed at the same time, but may be executed at different times, and the order of execution thereof is not necessarily This may be performed in sequence, but may be performed alternately or alternately with other steps or at least a portion of the sub-steps or stages of the other steps.
  • a cross-platform data matching method is provided, and the method specifically includes the following steps:
  • Step S202 Receive a data matching request sent by the terminal, where the data matching request carries the first social network platform identifier, the first user group in the first social network platform specified by the user, and the second The social network platform identifies and the root node user in the second social network platform specified by the user.
  • the identification information of the plurality of social network platforms and the user identification information in each social network platform may be pre-stored in the terminal.
  • the user identification information corresponding to each social network platform may also be stored in the server, and the terminal sends a request for acquiring the user identification information to the server through the social network platform identifier.
  • the social network platform here may be a Foursquare platform, a Twitter platform, a Weibo platform, an MSN platform, and the like.
  • the terminal specifies a source social network platform and a target social network platform, and specifies a first user group based on the source social network platform, and specifies a root node user based on the specified target social network platform.
  • the present embodiment method is used to implement matching of data between a source social network platform and a target network platform.
  • the source social network platform is the first social network platform
  • the target social network platform is the second social network platform.
  • the user identification information in the social network platform is presented in the terminal page in the form of a social network map as shown in FIG. The end user can specify the first user group and the root node user by clicking and selecting.
  • the first user group is a user group with a certain group of nuclearities
  • the group nuclearity indicates the minimum value of the number of other members in the adjacent group of each user node in the group. For example, if the first user group needs to satisfy the group verification degree of 2, the number of other members in the group adjacent to each group in the group should be no less than two.
  • the terminal may specify one or more user nodes, group size, and group auditing, and the terminal automatically searches for a user group that satisfies the group size, the nuclearity condition, and includes the specified user node according to the social network map.
  • the terminal may specify one or more user nodes, group size, and group intimacy, and the terminal automatically searches for a group of users that meet the group number, group intimacy, and includes the specified user node according to the social network map. group.
  • Step S204 Obtain group behavior data corresponding to the first user group in the first social network platform corresponding to the identifier of the first social network platform, and perform behavior learning on the group behavior data to obtain a group corresponding to the first user group.
  • Group feature distribution function Obtain group behavior data corresponding to the first user group in the first social network platform corresponding to the identifier of the first social network platform, and perform behavior learning on the group behavior data to obtain a group corresponding to the first user group.
  • the server receives the source social network platform identifier sent by the user terminal and the designated first group user, where the source social network platform is the first social network platform.
  • Server to source social network The station requests the group behavior data corresponding to the first user group, wherein the group behavior data is information published by all users in the first user group in the source social network platform and attribute information corresponding to the user.
  • the server may store the acquired group behavior data (that is, user behavior data). When the next data is matched, firstly, it is searched whether the local behavior data is stored, and if so, the required user behavior is directly obtained from the local storage. data.
  • the source social network platform is a Foursquare platform
  • the group behavior data corresponding to the first user group is the check-in information, the comment information, and the birthday and education of the group members posted by the first user group member on the Foursquare platform. Attribute information such as background, maxim, etc.
  • Behavior learning of group positioning data is essentially a process of obtaining the behavior attribute distribution of the user group, that is, modeling the information and characteristics of the user group to obtain a group feature distribution function.
  • Step S206 Acquire an associated user of the root node user in the second social network platform, and obtain behavior data corresponding to the root node user and each associated user in the second social network platform.
  • the request when the terminal sends the data request, the request further carries the specified target social network platform identifier (corresponding to the second social network platform) and the root node user identifier, where the root node user identifier is the user identifier in the target social network platform.
  • the server acquires a social network map of the target social network platform (including nodes in the target social network platform and node association data), and searches for an associated user that has an association relationship with the specified root node user based on the acquired social network map.
  • the associated user of the root node user may be a user directly associated with the root node. As shown in FIG. 4, if v 1 is a root node user, the associated users shown in the figure are v 2 , v 3 , and v 5 .
  • Step S208 Learning the behavior data of the root node user based on the group feature distribution function corresponding to the first user group, and generating a group feature distribution function after matching the root node user.
  • the server After determining the root node user in the target social network platform, the server further learns the behavior data of the root node user based on the group feature distribution function corresponding to the learned first user group, and obtains the matching root node user.
  • the group feature distribution function corresponding to the new user group (including the first user group and the root node user).
  • the root node user specified by the user is a user that can be accurately confirmed by the user and matches a user in the first user group.
  • the first user group includes the user Mary, which is substantially the same as the root node user Marysweety specified by the user in the target social network platform, that is, the root node user is determined to be the first and the first A user whose user group matches.
  • Step S210 Perform behavior learning on the behavior data of each associated user based on the group feature distribution function after matching the root node user, and generate a group feature distribution function after matching each associated user.
  • Step S212 Calculate the maximum entropy value of the group feature distribution function after matching each associated user, and determine the associated user with the largest maximum entropy value as the matching user of the first user group.
  • the server determines a second matching user from among the associated users having an association with the root node user. Specifically, based on the group feature distribution function after matching the root node user, learning the behavior data of each associated user, that is, learning the behavior characteristics of each associated user, correcting the original feature distribution function, and obtaining new Group feature distribution function. That is, after the feature learning, a group feature distribution function matching each associated user is obtained.
  • the maximum entropy of the model is calculated according to the group feature distribution function corresponding to each associated user.
  • the larger the maximum entropy of the solution the better the model learned by the associated user after matching with the first user group, and the higher the matching degree between the associated user and the first user group. Therefore, the associated user with the largest entropy value is determined as the matching user of the first user group.
  • Step S214 The determined matching user is the current root node user, and the next matching user is determined until the determined matching user satisfies the set quantity condition, and the group matching is completed.
  • the determined associated user is used as the current root node user, and the associated user of the current root node user is obtained in the target social network platform, and then the user group (including the first user group and the specified root node) after matching the current root node user Based on the group feature distribution function corresponding to the user and the current root node user, the behavior data of the associated user of the current root node user is separately learned, and the next matching user is determined according to the maximum entropy. Cycling the above steps to perform matching user determination one by one until the determined matching user satisfies the set quantity condition, that is, the source social network is obtained in the target social network platform.
  • the network platform specifies the group to which the group matches.
  • the first user group of the first social network platform and the matching user group of the second social network platform are groups of the same user group connected in different social networks, and the data corresponding to the two groups can be integrated across platforms. Analysis, that is, the realization of cross-platform data integration, integrated big data is more conducive to accurate analysis.
  • the associated user of the designated root node user is a user node whose affinity with the root node user in the second social network platform is not less than a set threshold, wherein the threshold is set according to the first user group. Set the intimacy of the group.
  • the associated user of the root node user of the second social network platform designated by the terminal is determined according to the social network relationship of the second social network platform. Specifically, the intimacy between the root node user and its neighboring user nodes is calculated, wherein the ratio of the number of nodes adjacent to the two user nodes to the number of all nodes adjacent to the two user nodes is larger, and the intimacy of the two nodes is higher. Big.
  • the intimacy between user nodes can be calculated by the following formula:
  • N(u) represents the set of adjacent nodes of node u
  • the numerator adopts the co-neighbor of the node plus 1, mainly to avoid the case where there is an edge between the two nodes, but the intimacy is zero.
  • the measurement of the correlation of the two nodes in the graph can also be achieved using the Random Walks with Restart (RWR) theory.
  • RWR Random Walks with Restart
  • Starting with node vq RWR is performed by following the link to another node based on the weight of the link at each step.
  • the probability of returning a node v q in each step is as follows:
  • the above-mentioned intimacy comparison threshold may be based on the intimacy of the first user group in the source social network platform. Degree to determine. Specifically, the intimacy between the users in the first user group is calculated, the minimum intimacy value is determined, and the minimum intimacy value is used to find the intimacy threshold of the associated user.
  • the determined matching user is the current root node user
  • the next matching user is determined until the determined matching user satisfies the set quantity condition
  • the step of completing the group matching is: determining the matching user as the current root
  • the node user searches for the current associated user of the current root node user in the second social network platform, wherein the searched current associated user and the determined group of all matching users and the specified root node have a group affinity of not less than The threshold is determined; the next matching user is determined in the current associated user until the determined matching user satisfies the set quantity condition, and the group matching is completed.
  • the intimacy of the neighboring user and the associated user is calculated.
  • the determined matching user increases, when the associated user of the next level is determined, the current root node user should be made to be around.
  • the affinity between the user node and all matching users that have been determined satisfies a set threshold.
  • the root node user specified by the terminal is u
  • the first-level matching user v 1 is determined from the associated user of the root node (having an association relationship with the user u and the intimacy with the user u is not less than a set first threshold); Then, the user v 1 is the current root node user, and the associated user of v 1 is determined.
  • v 1 should be associated with a user having an association with the v 1 and the U group, the group consisting of 1 v intimacy is not less than the set second threshold value, wherein the degree of closeness between the group members of the group The sum of the intimacy (eg, the group intimacy of the group consisting of w 1 , w 2 , and w 3 is the intimacy between w 1 and w 2 , the intimacy between w 2 and w 3 , and w 1 and The sum of the intimacy between w 3 ).
  • the group intimacy of the group consisting of w 1 , w 2 , and w 3 is the intimacy between w 1 and w 2 , the intimacy between w 2 and w 3 , and w 1 and The sum of the intimacy between w 3 ).
  • the new user After determining the associated user v 1, v associated to a user's behavioral study, matching the user from the association of a user v 1, the new user is determined to match the root node for the current user, a further determination at a The user is matched until the determined number of matching users satisfies the set quantity condition.
  • the group match is completed when the determined number of matching users (including the root node user specified by the terminal) is equal to the number of members of the first user group. That is, searching for the same size as the first user group group of the first social network platform in the second social network platform Group.
  • the group size of the matching group and the first user group may also be different.
  • the matching end point is that when the associated user that does not satisfy the condition is found, or the maximum entropy of the group feature distribution function after the behavior learning cannot satisfy the setting condition, that is, when the matching effect is not good.
  • step S204 acquiring group behavior data corresponding to the first user group in the first social network platform corresponding to the first social network platform identifier, and performing group behavior data Behavior learning, the steps of obtaining the group feature distribution function corresponding to the first user group include:
  • Step S302 Acquire group behavior data corresponding to the first user group in the first social network platform corresponding to the first social network platform identifier.
  • the group behavior data corresponding to the first user group is that all members in the first user group publish information in the first social network platform and attribute information of all members in the first user group within a set time period.
  • the group behavior data of the first user group is information published by all members in the first user group within 24 months and user details information filled by the member when registering the first social network platform.
  • Step S304 Extract feature words in the group behavior data, and generate a plurality of feature vectors according to the feature words, wherein each feature vector is composed of feature words belonging to the same category.
  • the feature words extracted from the group behavior data are all meaningful words or phrases.
  • Each feature vector generated includes a plurality of feature words belonging to the same category.
  • the user set X is ⁇ Mary, John, Lily, Tom,... ⁇ (marked as ⁇ x 1 , x 2 , x 3 , x 4 ... ⁇ ), from the user set X in Mary, John, Lily
  • the feature data is extracted from the behavior data of Tom, ..., and the state space corresponding to the user set is [apple, London, Messi, football, rain, fruit, New York, swiming, running Ronaldo, manchester...].
  • f 1 is [footbal, Messi, Ronaldo, manchester...]
  • f 2 is [London, New York,...]
  • f 3 is [apple , fruit, ...]
  • f 4 is [swimming, running, ...] and so on.
  • the extracted feature vectors can be attributed to a plurality of types to generate a plurality of feature vectors according to a set classification rule.
  • Step S306 Correct the feature distribution value corresponding to each feature vector according to the frequency information of the feature word appearing in the behavior data corresponding to each user in the first user group, and obtain the group feature distribution function corresponding to the first user group.
  • the behavior data of each user in the first user group is sequentially learned, and the frequency of the extracted feature words appearing in the learned user behavior data is obtained, so as to calculate the behavior characteristic distribution value generated by the user behavior data for each feature vector. .
  • the behavior data of the next user is learned, and the feature distribution value corresponding to each feature vector is corrected, thereby obtaining a group feature distribution function corresponding to the first user group.
  • the behavior data of other users in the group is learned, and then the group feature distribution function corresponding to the first user group is obtained.
  • the group feature distribution function is represented by the following formula:
  • x represents a user
  • y represents a user's tag (ie, a feature word set extracted according to user behavior data)
  • f represents a user's feature (feature vector)
  • represents a weight of the corresponding feature.
  • step S208 learning behavior data of the root node user based on the group feature distribution function corresponding to the first user group, and generating a group feature distribution function after matching the root node user is:
  • the feature vector extracted by the group behavior data corresponding to a user group is Based on the behavior learning, the behavior data of the root node user is learned to correct the feature distribution value corresponding to each feature vector, and the group feature distribution function after matching the root node user is generated.
  • the feature vector is not added, but the user in the second social network platform is verified by using the feature vector of the first user group as a standard. After the behavior learning, the user can be accurately determined whether the user is The matching user of the first user group.
  • a cross-platform data matching device includes: a matching request module 402, configured to receive a data matching request sent by the terminal, where the data matching request carries the first social network platform. And identifying, by the first user group in the first social network platform specified by the user, the second social network platform identifier and the root node user in the second social network platform specified by the user.
  • the group feature learning module 404 is configured to acquire group behavior data corresponding to the first user group in the first social network platform corresponding to the first social network platform identifier, and perform behavior learning on the group behavior data to obtain the first The group feature distribution function corresponding to the user group.
  • the root node determining module 406 is configured to obtain an associated user of the root node user in the second social network platform, and obtain behavior data corresponding to the root node user and each associated user in the second social network platform.
  • the root node feature learning module 408 is configured to learn the behavior data corresponding to the root node user based on the group feature distribution function corresponding to the first user group, and generate a group feature distribution function after matching the root node user.
  • the association node feature learning module 410 is configured to perform behavior learning on the behavior data of each associated user based on the group feature distribution function after matching the root node user, and generate a group feature distribution function after matching each associated user.
  • the matching module 412 is configured to calculate a maximum entropy value of the group feature distribution function after matching the associated user, and determine an associated user that has the largest maximum entropy value as the matching user of the first user group, and determine the matching user as the current root. The node user determines the next matching user until the determined matching user satisfies the set quantity condition, and completes the group matching.
  • the associated user of the designated root node user is a user node whose affinity with the root node user in the second social network platform is not less than a set threshold, wherein the threshold is set according to the first user group. Set the intimacy of the group.
  • the matching module 412 is further configured to determine that the matching user is the current root node user, and search for the current associated user of the current root node user in the second social network platform, where the currently associated user of the search is determined.
  • the group intimacy of all the matching users and the specified root node is not less than a set threshold; determining the next matching user among the currently associated users until the determined matching user satisfies the set quantity condition, completing the group matching .
  • the group feature learning module 404 includes:
  • the group behavior data obtaining module 502 is configured to acquire group behavior data corresponding to the first user group in the first social network platform corresponding to the first social network platform identifier.
  • the feature vector learning module 504 is configured to extract feature words in the group behavior data, and generate a plurality of feature vectors according to the feature words, wherein each feature vector is composed of feature words belonging to the same category.
  • the feature distribution value calculation module 506 is configured to sequentially correct the feature distribution value corresponding to each feature vector according to the frequency information of the feature word appearing in the behavior data corresponding to each user in the first user group, thereby obtaining the correspondence of the first user group.
  • Group feature distribution function
  • the root node feature learning module 408 is further configured to learn behavior data of the root node user to correct each behavior data based on the feature vector extracted according to the group behavior data corresponding to the first user group.
  • the feature distribution values corresponding to the feature vectors are generated to generate a group feature distribution function after matching the root node user.
  • a computer device including a memory and a processor, for storing The computer readable instructions are stored, and when the computer readable instructions are executed by the processor, the processor performs the following steps: receiving a data matching request sent by the terminal, where the data matching request carries the first social network platform identifier, and the user specifies the a first user group in a social network platform and a second social network platform identifier and a root node user in the second social network platform specified by the user; acquiring the first social network platform corresponding to the first social network platform identifier A group behavior data corresponding to a user group, and behavior learning of the group behavior data, obtaining a group feature distribution function corresponding to the first user group, acquiring an associated user of the root node user in the second social network platform, and Obtaining behavior data corresponding to the root node user and each associated user in the second social network platform; learning the behavior data corresponding to the root node user based on the group feature distribution function corresponding to the first user group, and generating the matching
  • the associated user of the designated root node user is a user node whose affinity with the root node user in the second social network platform is not less than a set threshold, wherein the threshold is set according to the first user group. Set the intimacy of the group.
  • the group behavior data corresponding to the first user group is obtained in the first social network platform corresponding to the first social network platform identifier, and is executed by the processor of the computer device, and The group behavior data is subjected to the behavior learning, and the step of obtaining the group feature distribution function corresponding to the first user group includes: acquiring the group corresponding to the first user group in the first social network platform corresponding to the first social network platform identifier Behavior data; extracting feature words in the group behavior data, and generating a plurality of feature vectors according to the feature words, wherein each feature vector is composed of feature words belonging to the same category; and sequentially according to each of the first user groups
  • the frequency information of the feature words appearing in the behavior data corresponding to the user corrects the feature distribution value corresponding to each feature vector, and further obtains the group feature distribution function corresponding to the first user group.
  • the behavior of the root node user is learned based on the group feature distribution function corresponding to the first user group performed by the processor of the computer device, and the group feature distribution function after matching the root node user is generated.
  • the step is: learning the root node user behavior data according to the feature vector extracted according to the group behavior data corresponding to the first user group, and correcting the feature distribution value corresponding to each feature vector to generate a matching root node.
  • the group feature distribution function after the user is: learning the root node user behavior data according to the feature vector extracted according to the group behavior data corresponding to the first user group, and correcting the feature distribution value corresponding to each feature vector to generate a matching root node.
  • one or more computer readable non-volatile storage media having computer readable instructions, when executed by one or more processors, causing one or more processors The following steps are performed: receiving a data matching request sent by the terminal, where the data matching request carries the first social network platform identifier, the first user group in the first social network platform specified by the user, and the second social network platform identifier and the user specified a root node user in the second social network platform; acquiring the group behavior data corresponding to the first user group in the first social network platform corresponding to the first social network platform identifier, and performing behavior learning on the group behavior data, a group feature distribution function corresponding to the first user group; acquiring an associated user of the root node user in the second social network platform, and acquiring behavior data corresponding to the root node user and each associated user in the second social network platform; Learning the behavior data corresponding to the root node user based on the group feature distribution function corresponding to the first user group Generate a group feature distribution function after matching the root node user
  • the associated user of the designated root node user is a user node whose affinity with the root node user in the second social network platform is not less than a set threshold, wherein the threshold is set according to the first user group. Set the intimacy of the group.
  • the determined matching user performed by the processor is the current root node user, and the next matching user is determined until the determined matching user satisfies the set quantity condition, and the step of completing the group matching is: determining The matching user is the current root node user, and searches for the current associated user of the current root node user in the second social network platform, wherein the searched current associated user and the determined group of all matching users and the specified root node are grouped. The intimacy is not less than the set threshold; and the next matching user is determined among the currently associated users until the determined matching user satisfies the set quantity condition, and the group matching is completed.
  • the group behavior data corresponding to the first user group is obtained in the first social network platform corresponding to the identifier of the first social network platform, and behavior learning is performed on the group behavior data.
  • the step of the group feature distribution function corresponding to the first user group includes: acquiring the group behavior data corresponding to the first user group in the first social network platform corresponding to the first social network platform identifier; and extracting the group behavior data a feature word, generating a plurality of feature vectors according to the feature words, wherein each feature vector is composed of feature words belonging to the same category; and sequentially appearing according to behavior data corresponding to each user in the first user group
  • the frequency information of the word corrects the feature distribution value corresponding to each feature vector, thereby obtaining a group feature distribution function corresponding to the first user group.
  • the step of learning the behavior data corresponding to the root node user based on the group feature distribution function corresponding to the first user group performed by the processor, and generating the group feature distribution function after matching the root node user is:
  • the feature vector extracted according to the group behavior data corresponding to the first user group is used as the basis of behavior learning, and the behavior data of the root node user is learned to correct the feature distribution value corresponding to each feature vector, and the matching root node user is generated.
  • Group feature distribution function is used as the basis of behavior learning, and the behavior data of the root node user is learned to correct the feature distribution value corresponding to each feature vector, and the matching root node user is generated.
  • the storage medium may be a non-volatile storage medium such as a magnetic disk, an optical disk, or a read-only memory (ROM).

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种跨平台数据匹配方法,包括:接收终端发送的数据匹配请求;在第一社交网络平台中获取第一用户群组对应的群组行为数据,学习群组行为数据,得到群组特征分布函数;在第二社交网络平台中获取指定的根节点用户的关联用户以及对应的行为数据;学习根节点用户的行为数据,生成匹配根节点用户后的群组特征分布函数;对关联用户的行为数据进行行为学习;计算匹配关联用户后的群组特征分布函数的最大熵值,将对应最大熵值最大的关联用户确定为第一用户群组的匹配用户;以确定的匹配用户为当前根节点用户,确定下一个匹配用户,直至确定的匹配用户满足设定数量条件,完成群组匹配。

Description

跨平台数据匹配方法、装置、计算机设备和存储介质
本申请要求于2017年07月26日提交中国专利局,申请号为2017106183781,发明名称为“跨平台数据匹配方法、装置、计算机设备和存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及计算机技术领域,特别是涉及一种跨平台数据匹配方法、装置、计算机设备和存储介质。
背景技术
社交网络已成为感知个体在线行为的“传感器”,大量的社交“传感器”可以感知用户不同层面的信息,包括姓名、年龄、性别、消费能力、交友习惯、支付习惯、购物倾向以及对某种观点、商品和服务的态度等。
在金融大数据应用中,不同的社交网络中连接相同的真实用户,不同社交网络平台上的相同用户发布的内容很可能是不相同的(主题不一样,例如美食社交网络的和图片社交网络的信息很难匹配;发表的内容规模不一样,比如一个新的平台和用了很久的平台的内容密度是不同的),那么,用这些不同的内容难以进行用户身份匹配,最终导致跨平台数据融合障碍,以致大数据分析仅局限于单一社交网络平台,分析效果差,大数据不能够得到充分利用。
发明内容
基于此,有必要提供一种跨平台数据匹配方法、装置、计算机设备和存储介质。
一种跨平台数据匹配方法,所述方法包括:
接收终端发送的数据匹配请求,所述数据匹配请求中携带第一社交网络 平台标识、用户指定的第一社交网络平台中的第一用户群组以及第二社交网络平台标识和用户指定的第二社交网络平台中的根节点用户;
在所述第一社交网络平台标识对应的第一社交网络平台中获取所述第一用户群组对应的群组行为数据,并对所述群组行为数据进行行为学习,得到所述第一用户群组对应的群组特征分布函数;
在所述第二社交网络平台中获取所述根节点用户的关联用户,并在所述第二社交网络平台中获取所述根节点用户和每个所述关联用户对应的行为数据;
基于所述第一用户群组对应的群组特征分布函数,学习所述根节点用户的行为数据,生成匹配根节点用户后的群组特征分布函数;
基于匹配根节点用户后的群组特征分布函数,分别对每个关联用户的行为数据进行行为学习,生成匹配每个所述关联用户后的群组特征分布函数;
计算匹配所述关联用户后的所述群组特征分布函数的最大熵值,将对应最大熵值最大的所述关联用户确定为所述第一用户群组的匹配用户;及
以确定的所述匹配用户为当前根节点用户,确定下一个匹配用户,直至确定的所述匹配用户满足设定数量条件,完成群组匹配。
一种跨平台数据匹配装置,所述装置包括:
匹配请求模块,用于接收终端发送的数据匹配请求,所述数据匹配请求中携带第一社交网络平台标识、用户指定的第一社交网络平台中的第一用户群组以及第二社交网络平台标识和用户指定的第二社交网络平台中的根节点用户;
群组特征学习模块,用于在所述第一社交网络平台标识对应的第一社交网络平台中获取所述第一用户群组对应的群组行为数据,并对所述群组行为数据进行行为学习,得到所述第一用户群组对应的群组特征分布函数;
待匹配节点确定模块,用于在所述第二社交网络平台中获取所述根节点用户的关联用户,并在所述第二社交网络平台中获取所述根节点用户和每个所述关联用户对应的行为数据;
根节点特征学习模块,用于基于所述第一用户群组对应的群组特征分布函数,学习所述根节点用户的行为数据,生成匹配所述根节点用户后的群组特征分布函数;
关联节点特征学习模块,用于基于匹配所述根节点用户后的群组特征分布函数,分别对每个关联用户的所述行为数据进行行为,生成匹配每个所述关联用户后的群组特征分布函数;及
匹配模块,用于计算匹配所述关联用户后的所述群组特征分布函数的最大熵值,将对应最大熵值最大的所述关联用户确定为所述第一用户群组的匹配用户,以确定的所述匹配用户为当前根节点用户,确定下一个匹配用户,直至确定的所述匹配用户满足设定数量条件,完成群组匹配。
一种计算机设备,包括存储器和处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行以下步骤:
接收终端发送的数据匹配请求,所述数据匹配请求中携带第一社交网络平台标识、用户指定的第一社交网络平台中的第一用户群组以及第二社交网络平台标识和用户指定的第二社交网络平台中的根节点用户;
在所述第一社交网络平台标识对应的第一社交网络平台中获取所述第一用户群组对应的群组行为数据,并对所述群组行为数据进行行为学习,得到所述第一用户群组对应的群组特征分布函数;
在所述第二社交网络平台中获取所述根节点用户的关联用户,并在所述第二社交网络平台中获取所述根节点用户和每个所述关联用户对应的行为数据;
基于所述第一用户群组对应的群组特征分布函数,学习所述根节点用户的行为数据,生成匹配根节点用户后的群组特征分布函数;
基于匹配根节点用户后的群组特征分布函数,分别对每个关联用户的行为数据进行行为学习,生成匹配每个所述关联用户后的群组特征分布函数;
计算匹配所述关联用户后的所述群组特征分布函数的最大熵值,将对应 最大熵值最大的所述关联用户确定为所述第一用户群组的匹配用户;及
以确定的所述匹配用户为当前根节点用户,确定下一个匹配用户,直至确定的所述匹配用户满足设定数量条件,完成群组匹配。
一个或多个存储有计算机可读指令的计算机可读非易失性存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:
接收终端发送的数据匹配请求,所述数据匹配请求中携带第一社交网络平台标识、用户指定的第一社交网络平台中的第一用户群组以及第二社交网络平台标识和用户指定的第二社交网络平台中的根节点用户;
在所述第一社交网络平台标识对应的第一社交网络平台中获取所述第一用户群组对应的群组行为数据,并对所述群组行为数据进行行为学习,得到所述第一用户群组对应的群组特征分布函数;
在所述第二社交网络平台中获取所述根节点用户的关联用户,并在所述第二社交网络平台中获取所述根节点用户和每个所述关联用户对应的行为数据;
基于所述第一用户群组对应的群组特征分布函数,学习所述根节点用户的行为数据,生成匹配根节点用户后的群组特征分布函数;
基于匹配根节点用户后的群组特征分布函数,分别对每个关联用户的行为数据进行行为学习,生成匹配每个所述关联用户后的群组特征分布函数;
计算匹配所述关联用户后的所述群组特征分布函数的最大熵值,将对应最大熵值最大的所述关联用户确定为所述第一用户群组的匹配用户;及
以确定的所述匹配用户为当前根节点用户,确定下一个匹配用户,直至确定的所述匹配用户满足设定数量条件,完成群组匹配。
本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为一个实施例中跨平台数据匹配方法的应用环境图;
图2为一个实施例中服务器的内部结构示意图;
图3为一个实施例中跨平台数据匹配方法的流程图;
图4为一个实施例中的社交网络图;
图5为一个实施例中群组行为特征学习所涉及的流程图;
图6为一个实施例中跨平台数据匹配装置的结构框图;及
图7为一个实施例中群组特征学习模块的结构框图。
具体实施方式
为了使本申请的技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,在一个实施例中,提供了一种跨平台数据匹配方法的应用环境图,该应用环境图包括终端110和服务器120。终端110可通过网络与服务器120通信。终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机中的至少一种,但并不局限于此。服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群。服务器120中预先存储了多个社交网络平台的用户群数据,包括平台中各用户之间的社交关系数据以及用户在平台内发布的各种信息。终端110进行源社交网络平台(第一社交网络平台)和匹配的目标社交网络平台(第二社交网络平台)的指定,服务器120根据中终端发送的信息从第一社交网络平台中获取第一用户群组对应的群组行为数据,并对查找的群组行为数据进行行为学习,得到群组特征分布函数。然后以指定的第二社交网络平台的根节点用户为查找起点,考虑社交网络结 构,通过逐个候选节点的行为数据学习逐一确定匹配节点,即跨平台地查找到与第一用户群组匹配的第二用户群组,也就是实现了跨平台数据的整合,整合后的大数据更加有利于进行精准分析。
如图2所示,在一个实施例中,提供了一种服务器120,该服务器120包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中,该服务器120的非易失性存储介质存储有操作系统、数据库和至少一条计算机可读指令。该计算机可读指令被处理器执行时,可使得处理器执行一种如图3所示的跨平台数据匹配方法。处理器用于提供计算和控制能力,支撑整个服务器120的运行。内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。网络接口用于与终端110进行通信连接。
在一个实施中,服务器120还包括数据库,该数据库用于存储从社交网络平台中抓取的用户行为数据。本领域技术人员可以理解,图2中示出的服务器的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的服务器的限定,具体的服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
图3为本申请一个实施例的方法的流程示意图。应该理解的是,虽然图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图3所示,在一个实施例中,提供了一种跨平台数据匹配方法,该方法具体包括如下步骤:
步骤S202:接收终端发送的数据匹配请求,数据匹配请求中携带第一社交网络平台标识、用户指定的第一社交网络平台中的第一用户群组以及第二 社交网络平台标识和用户指定的第二社交网络平台中的根节点用户。
终端中可预先存储有多个社交网络平台的标识信息以及每个社交网络平台中的用户标识信息。其中,每个社交网络平台对应的用户标识信息也可以存储在服务器中,终端通过社交网络平台标识向服务器发送获取用户标识信息的请求。这里的社交网络平台可以是Foursquare平台、Twitter平台、微博平台、MSN平台等。
本实施例中,终端指定源社交网络平台和目标社交网络平台,并基于源社交网络平台指定第一用户群组,基于指定的目标社交网络平台指定根节点用户。本实施实例方法用于实现源社交网络平台和目标网络平台数据的匹配。上述的源社交网络平台即为第一社交网络平台,目标社交网络平台即为第二社交网络平台。社交网络平台中的用户标识信息通过如图4所示的社交网络图的形式呈现在终端页面中。终端用户可通过点选的方式指定第一用户群组和根节点用户。
需要说明的是,第一用户群组是具有一定群组核度的用户群组,群组核度表示群组中每个用户节点邻接组内其他成员数量的最小值。例如,第一用户群组需要满足的群组核度为2,则群组内每个群组成员邻接组内其他成员的数量应不小于两个。
在一个实施例中,终端可指定一个或者多个用户节点、群组规模和群组核度,终端根据社交网络图自动查找满足群组规模、核度条件且包括指定用户节点的用户群组。在另一个实施例中,终端可指定一个或者多个用户节点、群组规模和群组亲密度,终端根据社交网络图自动查找满足群组数量、群组亲密度且包括指定用户节点的用户群组。
步骤S204:在第一社交网络平台标识对应的第一社交网络平台中获取第一用户群组对应的群组行为数据,并对群组行为数据进行行为学习,得到第一用户群组对应的群组特征分布函数。
服务器接收用户终端发送的源社交网络平台标识和指定的第一群组用户,这里的源社交网络平台即为第一社交网络平台。服务器向源社交网络平 台请求第一用户群组对应的群组行为数据,其中,群组行为数据为第一用户群组中所有用户在源社交网络平台内所发布的信息和用户对应的属性信息。服务器可对获取的群组行为数据(也就是用户行为数据)进行存储,待下一次数据匹配时,首先查找本地是否存储有对应的行为数据,若有,直接从本地存储中获取需要的用户行为数据。
举例来说,源社交网络平台为Foursquare平台,第一用户群组对应的群组行为数据则为第一用户群组成员在Foursquare平台上发布的签到信息、评论信息以及群组成员的生日、教育背景、格言等属性信息。
对群组定位数据进行行为学习实质上就是得到用户群组的行为属性分布的过程,即将用户群体的信息和特征进行建模得到群组特征分布函数。
步骤S206:在第二社交网络平台中获取根节点用户的关联用户,并在第二社交网络平台中获取根节点用户和每个关联用户对应的行为数据。
具体的,终端在发送数据请求时,请求中还携带指定的目标社交网络平台标识(对应第二社交网络平台)以及根节点用户标识,其中根节点用户标识为目标社交网络平台中的用户标识。
服务器获取目标社交网络平台的社交网络图(包括目标社交网络平台中的节点以及节点关联关系数据),并基于获取的社交网络图查找与指定的根节点用户具有关联关系的关联用户。
在一个实施例中,根节点用户的关联用户可以是与根节点直接关联的用户。如图4所示,若v1为根节点用户,则图中展示的其关联用户为v2、v3和v5
步骤S208:基于第一用户群组对应的群组特征分布函数,学习根节点用户的行为数据,生成匹配根节点用户后的群组特征分布函数。
确定目标社交网络平台中的根节点用户后,服务器在已经学习的第一用户群组对应的群组特征分布函数的基础上,进一步对根节点用户的行为数据进行学习,得到匹配根节点用户后的新用户群组(包括第一用户群组和根节点用户)对应的群组特征分布函数。
需要说明的是,用户指定的根节点用户为用户可以准确确认的与第一用户群组中某一用户相匹配的用户。举例来说,第一用户群组中包括用户Mary,其与在目标社交网络平台中用户指定的根节点用户Marysweety实质上为一个人,也就是说,根节点用户为确定的第一个与第一用户群组相匹配的用户。
步骤S210:基于匹配根节点用户后的群组特征分布函数,分别对每个关联用户的行为数据进行行为学习,生成匹配每个关联用户后的群组特征分布函数。
步骤S212:计算匹配每个关联用户后的群组特征分布函数的最大熵值,将对应最大熵值最大的关联用户确定为第一用户群组的匹配用户。
服务器从与根节点用户具有关联关系的关联用户中确定第二个匹配用户。具体为:以匹配根节点用户后的群组特征分布函数为基础,对每个关联用户的行为数据进行学习,也就是,学习每个关联用户的行为特征,修正原有特征分布函数,得到新的群组特征分布函数。即经特征学习后,得到匹配每个关联用户后的群组特征分布函数。
为了在这些关联用户中确定最可能的匹配用户,根据每个关联用户对应的群组特征分布函数,计算模型的最大熵。求解的最大熵越大,说明关联用户与第一用户群体匹配后学习到的模型越好,关联用户与第一用户群体的匹配程度越高。因此,将对应熵值最大的关联用户确定为第一用户群组的匹配用户。
步骤S214:以确定的匹配用户为当前根节点用户,确定下一个匹配用户,直至确定的匹配用户满足设定数量条件,完成群组匹配。
将确定的关联用户作为当前根节点用户,在目标社交网络平台中获取当前根节点用户的关联用户,然后在匹配当前根节点用户后的用户群组(包括第一用户群组、指定的根节点用户和当前根节点用户)对应的群组特征分布函数基础上,分别学习当前根节点用户的关联用户的行为数据,根据最大熵确定下一个匹配用户。循环上述步骤,逐个进行匹配用户的确定,直至确定的匹配用户满足设定数量条件,即在目标社交网络平台中得到了与源社交网 络平台指定群组相匹配的群组。
第一社交网络平台的第一用户群组与第二社交网络平台中的匹配用户群组为不同社交网络中连接的相同用户群体的群组,两个群组对应的数据可进行跨平台整合、分析,也就是实现了跨平台数据的整合,整合后的大数据更加有利于进行精准分析。
在一个实施例中,指定的根节点用户的关联用户为在第二社交网络平台中与根节点用户之间的亲密度不小于设定阈值的用户节点,其中,设定阈值根据第一用户群组的亲密度而设定。
终端指定的第二社交网络平台的根节点用户的关联用户根据第二社交网络平台的社交网络关系来确定。具体的,计算根节点用户与其周边用户节点之间的亲密度,其中,两个用户节点共同邻接的节点数与两个用户节点邻接的所有节点的数量的比值越大,两节点的亲密度越大。用户节点之间的亲密度可通过如下公式计算:
Figure PCTCN2017104666-appb-000001
其中,N(u)表示节点u的邻接节点集合,节点u和v的共同邻接节点数为|N(u)∩N(v)|。在亲密度的计算中,分子采用节点的共同邻居加1,主要是为了避免两个节点之间存在边,而亲密度却为0的情况。
在另一个实施例中,还可使用Random Walks with Restart(RWR)理论可以实现图中两个节点的相关性的测量。从节点vq开始,根据每个步骤处的链路的权重,通过跟随到另一节点的链路来执行RWR。此外,在每个步骤中存在返回节点vq的概率如下:
r(t+1)=τSr(t)+(1-τ)q
vq和其他节点的亲密度,就是以上式为基础不断迭代,直到达到稳定(两次迭代r的值变化很小),这个向量中的第i位则为vq与vi的亲密度。
上述的亲密度比对阈值可根据源社交网络平台中的第一用户群组的亲密 度来确定。具体的,计算第一用户群组中用户之间的亲密度,确定最小的亲密度数值,将最小的亲密度数值最为查找的关联用户的亲密度阈值。
在一个实施例中,以确定的匹配用户为当前根节点用户,确定下一个匹配用户,直至确定的匹配用户满足设定数量条件,完成群组匹配的步骤为:以确定的匹配用户为当前根节点用户,在第二社交网络平台中查找当前根节点用户的当前关联用户,其中,查找的当前关联用户与确定的所有匹配用户和指定的根节点组成的群组的群组亲密度不小于设定阈值;在当前关联用户中确定下一个匹配用户,直至确定的匹配用户满足设定数量条件,完成群组匹配。
确定终端指定的根节点用户的关联用户时,是计算周边用户与该关联用户的亲密度,随着确定的匹配用户的增多,当确定下一级的关联用户时,应该使当前根节点用户周边的用户节点与已经确定的所有匹配用户(包括指定的根节点用户)之间的亲密度满足设定阈值。
举例来说,终端指定的根节点用户为u,从根节点的关联用户(与用户u具有关联关系且与用户u的亲密度不小于设定第一阈值)确定第一级匹配用户v1;然后以用户v1为当前根节点用户,确定v1的关联用户。v1的关联用户应该是与v1具有关联关系且与u、v1组成的群组的群组亲密度不小于设定第二阈值,其中,群组亲密度为群组中各成员之间的亲密度之和(如w1、w2和w3组成的群组的群组亲密度为w1和w2之间的亲密度、w2和w3之间的亲密度以及w1和w3之间的亲密度三者之和)。确定v1的关联用户后,对v1的关联用户进行行为学习,从v1的关联用户中确定下一级匹配用户,在以新确定的匹配用户为当前根节点用户,进一步确定下一级匹配用户,直至确定的匹配用户的数量满足设定数量条件。
在一个实施例中,当确定的匹配用户(包括终端指定的根节点用户)的数量与第一用户群组的成员数量相等时,完成群组匹配。也就是,在第二社交网络平台中查找与第一社交网络平台的第一用户群组群组规模相同的匹配 群组。
在另一个实施例中,匹配群组与第一用户群组的群组规模也可以不相同。匹配的结束点为查找不到满足条件的关联用户时或者行为学习后的群组特征分布函数最大熵不能满足设定条件,也就是匹配效果不佳时。
在一个实施例中,如图5所示,步骤S204:在第一社交网络平台标识对应的第一社交网络平台中获取第一用户群组对应的群组行为数据,并对群组行为数据进行行为学习,得到第一用户群组对应的群组特征分布函数的步骤包括:
步骤S302:在第一社交网络平台标识对应的第一社交网络平台中获取第一用户群组对应的群组行为数据。
第一用户群组对应的群组行为数据为第一用户群组中所有成员在设定时间段内在第一社交网络平台中发布信息和第一用户群组中所有成员的属性信息。
如第一用户群组的群组行为数据为第一用户群组中所有成员在24个月内发布的信息和成员在注册第一社交网络平台时填写的用户详情信息。
步骤S304:提取群组行为数据中的特征词语,根据特征词语生成多个特征向量,其中,每个特征向量都是由属于同一类别的特征词语构成的。
具体的,从群组行为数据中提取的特征词语为所有有意义的词或者词组。生成的每个特征向量包括多个属于同一类别的特征词语。
假设用户集合X为{Mary,John,Lily,Tom,...}(marked as{x1,x2,x3,x4...}),从用户集合X中的Mary,John,Lily,Tom,...的行为数据中提取特征词语,构成该用户集合对应的状态空间为[apple,London,Messi,football,rain,fruit,New York,swimming,running Ronaldo,manchester...]。然后根据状态空间中的特征词语生成特征向量fi,如f1为[footbal,Messi,Ronaldo,manchester...],f2为[London,New York,...],f3为[apple,fruit,...],f4为[swimming,running,...]等。生成的特征向量的数量没有限制,按照设定分分 类规则可将提取的特征向量归属于多种类型以生成多种特征向量。
步骤S306:依次根据第一用户群组中每个用户对应的行为数据中出现特征词语的频率信息修正每个特征向量对应的特征分布值,进而得到第一用户群组对应的群组特征分布函数。
依次学习第一用户群组中每个用户的行为数据,得到提取的特征词语在该学习的用户行为数据中出现的频率,以计算该用户行为数据对每个特征向量所产生的行为特征分布值。学习下一个用户的行为数据,修正每个特征向量对应的特征分布值,进而得到第一用户群组对应的群组特征分布函数。
例如,学习Mary的行为数据,得到Mary对应于特征向量f1的行为特征分布值。具体为,在Mary的行为数据中查找是否出现了特征向量f1中的特征词语,若是,统计出现f1中的每个特征词语的频率,出现的f1中每个特征词语的频率的加和即为Mary对应于f1的行为特征分布的值。以此类推计算Mary对应于其他特征向量的行为特征分布值,继而得到Mary(x1)的所有行为特征分布。
以同样的方法学习群组中其他用户的行为数据,继而得到第一用户群组对应的群组特征分布函数。
在一个实施例中,通过下述公式表示群组特征分布函数:
Figure PCTCN2017104666-appb-000002
其中,其中,x代表用户,y代表用户的标签(即根据用户行为数据提取的特征词语集合),而f代表用户的特征(特征向量),λ代表了对应特征的权重。
在一个实施例中,步骤S208:基于第一用户群组对应的群组特征分布函数,学习根节点用户的行为数据,生成匹配根节点用户后的群组特征分布函数的步骤为:以根据第一用户群组对应的群组行为数据所提取的特征向量为 行为学习的基础,学习根节点用户的行为数据以修正每个特征向量对应的特征分布值,生成匹配根节点用户后的群组特征分布函数。
以学习第一用户群组对应的特征向量为基础,学习第二社交网络平台中的用户的行为特征,得到增加新用户后的群体行为分布函数,通过对比分布函数(以最大熵为标准)可判断该用户的行为特征是否贴合第一用户群组的群组行为特征,若是,则可判定该用户为匹配用户。
在进行匹配学习的时候,不进行特征向量的增加,而是以第一用户群组的特征向量为标准去验证第二社交网络平台中的用户,经行为学习后,可准确的确定用户是否为第一用户群组的匹配用户。
在一个实施例中,如图6所示,提供了一种跨平台数据匹配装置,装置包括:匹配请求模块402,用于接收终端发送的数据匹配请求,数据匹配请求中携带第一社交网络平台标识、用户指定的第一社交网络平台中的第一用户群组以及第二社交网络平台标识和用户指定的第二社交网络平台中的根节点用户。
群组特征学习模块404,用于在第一社交网络平台标识对应的第一社交网络平台中获取第一用户群组对应的群组行为数据,并对群组行为数据进行行为学习,得到第一用户群组对应的群组特征分布函数。
根节点确定模块406,用于在第二社交网络平台中获取根节点用户的关联用户,并在第二社交网络平台中获取根节点用户和每个关联用户对应的行为数据。
根节点特征学习模块408,用于基于第一用户群组对应的群组特征分布函数,学习根节点用户对应的行为数据,生成匹配根节点用户后的群组特征分布函数。
关联节点特征学习模块410,用于基于匹配根节点用户后的群组特征分布函数,分别对每个关联用户的行为数据进行行为学习,生成匹配每个关联用户后的群组特征分布函数。
匹配模块412,用于计算匹配关联用户后的群组特征分布函数的最大熵值,将对应最大熵值最大的关联用户确定为第一用户群组的匹配用户,以确定的匹配用户为当前根节点用户,确定下一个匹配用户,直至确定的匹配用户满足设定数量条件,完成群组匹配。
在一个实施例中,指定的根节点用户的关联用户为在第二社交网络平台中与根节点用户之间的亲密度不小于设定阈值的用户节点,其中,设定阈值根据第一用户群组的亲密度而设定。
在一个实施例中,匹配模块412,还用于以确定的匹配用户为当前根节点用户,在第二社交网络平台中查找当前根节点用户的当前关联用户,其中,查找的当前关联用户与确定的所有匹配用户和指定的根节点组成的群组的群组亲密度不小于设定阈值;在当前关联用户中确定下一个匹配用户,直至确定的匹配用户满足设定数量条件,完成群组匹配。
在一个实施例中,如图7所示,群组特征学习模块404包括:
群组行为数据获取模块502,用于在第一社交网络平台标识对应的第一社交网络平台中获取第一用户群组对应的群组行为数据。
特征向量学习模块504,用于提取群组行为数据中的特征词语,根据特征词语生成多个特征向量,其中,每个特征向量都是由属于同一类别的特征词语构成的。
特征分布值计算模块506,用于依次根据第一用户群组中每个用户对应的行为数据中出现特征词语的频率信息修正每个特征向量对应的特征分布值,进而得到第一用户群组对应的群组特征分布函数。
在一个实施例中,根节点特征学习模块408,还用于以根据第一用户群组对应的群组行为数据所提取的特征向量为行为学习的基础,学习根节点用户的行为数据以修正每个特征向量对应的特征分布值,生成匹配根节点用户后的群组特征分布函数。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储 器中储存有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行以下步骤:接收终端发送的数据匹配请求,数据匹配请求中携带第一社交网络平台标识、用户指定的第一社交网络平台中的第一用户群组以及第二社交网络平台标识和用户指定的第二社交网络平台中的根节点用户;在第一社交网络平台标识对应的第一社交网络平台中获取第一用户群组对应的群组行为数据,并对群组行为数据进行行为学习,得到第一用户群组对应的群组特征分布函数在第二社交网络平台中获取根节点用户的关联用户,并在第二社交网络平台中获取根节点用户和每个关联用户对应的行为数据;基于第一用户群组对应的群组特征分布函数,学习根节点用户对应的行为数据,生成匹配根节点用户后的群组特征分布函数;基于匹配根节点用户后的群组特征分布函数,分别对每个关联用户对应的行为数据进行行为学习,生成匹配每个关联用户后的群组特征分布函数;计算每个匹配后的群组特征分布函数最大熵值,将对应最大熵值最大的关联用户确定为第一用户群组的匹配用户;及以确定的匹配用户为当前根节点用户,确定下一个匹配用户,直至确定的匹配用户满足设定数量条件,完成群组匹配。
在一个实施例中,指定的根节点用户的关联用户为在第二社交网络平台中与根节点用户之间的亲密度不小于设定阈值的用户节点,其中,设定阈值根据第一用户群组的亲密度而设定。
在一个实施例中,计算机设备的处理器所执行的以确定的匹配用户为当前根节点用户,确定下一个匹配用户,直至确定的匹配用户满足设定数量条件,完成群组匹配的步骤为:以确定的匹配用户为当前根节点用户,在第二社交网络平台中查找当前根节点用户的当前关联用户,其中,查找的当前关联用户与确定的所有匹配用户和指定的根节点组成的群组的群组亲密度不小于设定阈值;及在当前关联用户中确定下一个匹配用户,直至确定的匹配用户满足设定数量条件,完成群组匹配。
在一个实施例中,计算机设备的处理器所执行的在第一社交网络平台标识对应的第一社交网络平台中获取第一用户群组对应的群组行为数据,并对 群组行为数据进行行为学习,得到第一用户群组对应的群组特征分布函数的步骤包括:在第一社交网络平台标识对应的第一社交网络平台中获取第一用户群组对应的群组行为数据;提取群组行为数据中的特征词语,根据特征词语生成多个特征向量,其中,每个特征向量都是由属于同一类别的特征词语构成的;及依次根据第一用户群组中每个用户对应的行为数据中出现特征词语的频率信息修正每个特征向量对应的特征分布值,进而得到第一用户群组对应的群组特征分布函数。
在一个实施例中,计算机设备的处理器所执行的基于第一用户群组对应的群组特征分布函数,学习根节点用户对应的行为数据,生成匹配根节点用户后的群组特征分布函数的步骤为:以根据第一用户群组对应的群组行为数据所提取的特征向量为行为学习的基础,学习根节点用户的行为数据以修正每个特征向量对应的特征分布值,生成匹配根节点用户后的群组特征分布函数。
在一个实施例中,提供了一个或多个存储有计算机可读指令的计算机可读非易失性存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:接收终端发送的数据匹配请求,数据匹配请求中携带第一社交网络平台标识、用户指定的第一社交网络平台中的第一用户群组以及第二社交网络平台标识和用户指定的第二社交网络平台中的根节点用户;在第一社交网络平台标识对应的第一社交网络平台中获取第一用户群组对应的群组行为数据,并对群组行为数据进行行为学习,得到第一用户群组对应的群组特征分布函数;在第二社交网络平台中获取根节点用户的关联用户,并在第二社交网络平台中获取根节点用户和每个关联用户对应的行为数据;基于第一用户群组对应的群组特征分布函数,学习根节点用户对应的行为数据,生成匹配根节点用户后的群组特征分布函数;基于匹配根节点用户后的群组特征分布函数,分别对每个关联用户的行为数据进行行为学习,生成匹配每个关联用户后的群组特征分布函数;计算每个匹配后的群组特征 分布函数最大熵值,将对应最大熵值最大的关联用户确定为第一用户群组的匹配用户;及以确定的匹配用户为当前根节点用户,确定下一个匹配用户,直至确定的匹配用户满足设定数量条件,完成群组匹配。
在一个实施例中,指定的根节点用户的关联用户为在第二社交网络平台中与根节点用户之间的亲密度不小于设定阈值的用户节点,其中,设定阈值根据第一用户群组的亲密度而设定。
在一个实施例中,处理器所执行的以确定的匹配用户为当前根节点用户,确定下一个匹配用户,直至确定的匹配用户满足设定数量条件,完成群组匹配的步骤为:以确定的匹配用户为当前根节点用户,在第二社交网络平台中查找当前根节点用户的当前关联用户,其中,查找的当前关联用户与确定的所有匹配用户和指定的根节点组成的群组的群组亲密度不小于设定阈值;及在当前关联用户中确定下一个匹配用户,直至确定的匹配用户满足设定数量条件,完成群组匹配。
在一个实施例中,处理器所执行的在第一社交网络平台标识对应的第一社交网络平台中获取第一用户群组对应的群组行为数据,并对群组行为数据进行行为学习,得到第一用户群组对应的群组特征分布函数的步骤包括:在第一社交网络平台标识对应的第一社交网络平台中获取第一用户群组对应的群组行为数据;提取群组行为数据中的特征词语,根据特征词语生成多个特征向量,其中,每个特征向量都是由属于同一类别的特征词语构成的;及依次根据第一用户群组中每个用户对应的行为数据中出现特征词语的频率信息修正每个特征向量对应的特征分布值,进而得到第一用户群组对应的群组特征分布函数。
在一个实施例中,处理器所执行的基于第一用户群组对应的群组特征分布函数,学习根节点用户对应的行为数据,生成匹配根节点用户后的群组特征分布函数的步骤为:以根据第一用户群组对应的群组行为数据所提取的特征向量为行为学习的基础,学习根节点用户的行为数据以修正每个特征向量对应的特征分布值,生成匹配根节点用户后的群组特征分布函数。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (20)

  1. 一种跨平台数据匹配方法,包括:
    接收终端发送的数据匹配请求,所述数据匹配请求中携带第一社交网络平台标识、用户指定的第一社交网络平台中的第一用户群组以及第二社交网络平台标识和用户指定的第二社交网络平台中的根节点用户;
    在所述第一社交网络平台标识对应的第一社交网络平台中获取所述第一用户群组对应的群组行为数据,并对所述群组行为数据进行行为学习,得到所述第一用户群组对应的群组特征分布函数;
    在所述第二社交网络平台中获取所述根节点用户的关联用户,并在所述第二社交网络平台中获取所述根节点用户和每个所述关联用户对应的行为数据;
    基于所述第一用户群组对应的群组特征分布函数,学习所述根节点用户的行为数据,生成匹配根节点用户后的群组特征分布函数;
    基于匹配根节点用户后的群组特征分布函数,分别对每个关联用户的行为数据进行行为学习,生成匹配每个所述关联用户后的群组特征分布函数;
    计算匹配所述关联用户后的所述群组特征分布函数的最大熵值,将对应最大熵值最大的所述关联用户确定为所述第一用户群组的匹配用户;及
    以确定的所述匹配用户为当前根节点用户,确定下一个匹配用户,直至确定的所述匹配用户满足设定数量条件,完成群组匹配。
  2. 根据权利要求1所述的方法,其特征在于,所述根节点用户的关联用户为在所述第二社交网络平台中与所述根节点用户之间的亲密度不小于设定阈值的用户节点,其中,所述设定阈值根据所述第一用户群组的亲密度而设定。
  3. 根据权利要求2所述的方法,其特征在于,所述以确定的所述匹配用户为当前根节点用户,确定下一个匹配用户,直至确定的所述匹配用户满足设定数量条件,完成群组匹配为:
    以确定的所述匹配用户为当前根节点用户,在所述第二社交网络平台中 查找所述当前根节点用户的当前关联用户,其中,查找的所述当前关联用户与确定的所有匹配用户和所述指定的根节点组成的群组的群组亲密度不小于设定阈值;及
    在所述当前关联用户中确定下一个匹配用户,直至确定的所述匹配用户满足设定数量条件,完成群组匹配。
  4. 根据权利要求1所述的方法,其特征在于,所述在所述第一社交网络平台标识对应的第一社交网络平台中获取所述第一用户群组对应的群组行为数据,并对所述群组行为数据进行行为学习,得到所述第一用户群组对应的群组特征分布函数包括:
    在所述第一社交网络平台标识对应的第一社交网络平台中获取所述第一用户群组对应的群组行为数据;
    提取所述群组行为数据中的特征词语,根据所述特征词语生成多个特征向量,其中,所述特征向量都是由属于同一类别的特征词语构成的;及
    依次根据所述第一用户群组中每个用户对应的行为数据中出现所述特征词语的频率信息修正每个所述特征向量对应的特征分布值,进而得到所述第一用户群组对应的群组特征分布函数。
  5. 根据权利要求4所述的方法,其特征在于,所述基于所述第一用户群组对应的群组特征分布函数,学习所述根节点用户的行为数据,生成匹配根节点用户后的群组特征分布函数为:
    以根据所述第一用户群组对应的群组行为数据所提取的所述特征向量为行为学习的基础,学习所述根节点用户的行为数据以修正每个所述特征向量对应的特征分布值,生成匹配所述根节点用户后的群组特征分布函数。
  6. 一种跨平台数据匹配装置,包括:
    匹配请求模块,用于接收终端发送的数据匹配请求,所述数据匹配请求中携带第一社交网络平台标识、用户指定的第一社交网络平台中的第一用户群组以及第二社交网络平台标识和用户指定的第二社交网络平台中的根节点用户;
    群组特征学习模块,用于在所述第一社交网络平台标识对应的第一社交网络平台中获取所述第一用户群组对应的群组行为数据,并对所述群组行为数据进行行为学习,得到所述第一用户群组对应的群组特征分布函数;
    待匹配节点确定模块,用于在所述第二社交网络平台中获取所述根节点用户的关联用户,并在所述第二社交网络平台中获取所述根节点用户和每个所述关联用户对应的行为数据;
    根节点特征学习模块,用于基于所述第一用户群组对应的群组特征分布函数,学习所述根节点用户的行为数据,生成匹配所述根节点用户后的群组特征分布函数;
    关联节点特征学习模块,用于基于匹配所述根节点用户后的群组特征分布函数,分别对每个关联用户的所述行为数据进行行为,生成匹配每个所述关联用户后的群组特征分布函数;及
    匹配模块,用于计算匹配所述关联用户后的所述群组特征分布函数的最大熵值,将对应最大熵值最大的所述关联用户确定为所述第一用户群组的匹配用户,以确定的所述匹配用户为当前根节点用户,确定下一个匹配用户,直至确定的所述匹配用户满足设定数量条件,完成群组匹配。
  7. 根据权利要求6所述的装置,其特征在于,所述指定的根节点用户的关联用户为在所述第二社交网络平台中与所述根节点用户之间的亲密度不小于设定阈值的用户节点,其中,所述设定阈值根据所述第一用户群组的亲密度而设定。
  8. 根据权利要求7所述的装置,其特征在于,所述匹配模块还用于以确定的所述匹配用户为当前根节点用户,在所述第二社交网络平台中查找所述当前根节点用户的当前关联用户,其中,查找的所述当前关联用户与确定的所有匹配用户和所述指定的根节点组成的群组的群组亲密度不小于设定阈值;及在所述当前关联用户中确定下一个匹配用户,直至确定的所述匹配用户满足设定数量条件,完成群组匹配。
  9. 根据权利要求6所述的装置,其特征在于,所述群组特征学习模块包 括:
    群组行为数据获取模块,用于在所述第一社交网络平台标识对应的第一社交网络平台中获取所述第一用户群组对应的群组行为数据;
    特征向量学习模块,用于提取所述群组行为数据中的特征词语,根据所述特征词语生成多个特征向量,其中,所述特征向量都是由属于同一类别的特征词语构成的;及
    特征分布值计算模块,用于依次根据所述第一用户群组中每个用户对应的行为数据中出现所述特征词语的频率信息修正每个所述特征向量对应的特征分布值,进而得到所述第一用户群组对应的群组特征分布函数。
  10. 根据权利要求9所述的装置,其特征在于,所述关联节点特征学习模块还用于以根据所述第一用户群组对应的群组行为数据所提取的所述特征向量为行为学习的基础,学习所述根节点用户的行为数据以修正每个所述特征向量对应的特征分布值,生成匹配所述根节点用户后的群组特征分布函数。
  11. 一种计算机设备,包括存储器和处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行以下步骤:
    接收终端发送的数据匹配请求,所述数据匹配请求中携带第一社交网络平台标识、用户指定的第一社交网络平台中的第一用户群组以及第二社交网络平台标识和用户指定的第二社交网络平台中的根节点用户;
    在所述第一社交网络平台标识对应的第一社交网络平台中获取所述第一用户群组对应的群组行为数据,并对所述群组行为数据进行行为学习,得到所述第一用户群组对应的群组特征分布函数;
    在所述第二社交网络平台中获取所述根节点用户的关联用户,并在所述第二社交网络平台中获取所述根节点用户和每个所述关联用户对应的行为数据;
    基于所述第一用户群组对应的群组特征分布函数,学习所述根节点用户 的行为数据,生成匹配根节点用户后的群组特征分布函数;
    基于匹配根节点用户后的群组特征分布函数,分别对每个关联用户的行为数据进行行为学习,生成匹配每个所述关联用户后的群组特征分布函数;
    计算匹配所述关联用户后的所述群组特征分布函数的最大熵值,将对应最大熵值最大的所述关联用户确定为所述第一用户群组的匹配用户;及
    以确定的所述匹配用户为当前根节点用户,确定下一个匹配用户,直至确定的所述匹配用户满足设定数量条件,完成群组匹配。
  12. 根据权利要求11所述的计算机设备,其特征在于,所述根节点用户的关联用户为在所述第二社交网络平台中与所述根节点用户之间的亲密度不小于设定阈值的用户节点,其中,所述设定阈值根据所述第一用户群组的亲密度而设定。
  13. 根据权利要求12所述的计算机设备,其特征在于,所述处理器还用于执行:
    以确定的所述匹配用户为当前根节点用户,在所述第二社交网络平台中查找所述当前根节点用户的当前关联用户,其中,查找的所述当前关联用户与确定的所有匹配用户和所述指定的根节点组成的群组的群组亲密度不小于设定阈值;及
    在所述当前关联用户中确定下一个匹配用户,直至确定的所述匹配用户满足设定数量条件,完成群组匹配。
  14. 根据权利要求11所述的计算机设备,所述处理器还用于执行:在所述第一社交网络平台标识对应的第一社交网络平台中获取所述第一用户群组对应的群组行为数据;
    提取所述群组行为数据中的特征词语,根据所述特征词语生成多个特征向量,其中,所述特征向量都是由属于同一类别的特征词语构成的;及
    依次根据所述第一用户群组中每个用户对应的行为数据中出现所述特征词语的频率信息修正每个所述特征向量对应的特征分布值,进而得到所述第一用户群组对应的群组特征分布函数。
  15. 根据权利要求14所述的计算机设备,所述处理器还用于执行:以根据所述第一用户群组对应的群组行为数据所提取的所述特征向量为行为学习的基础,学习所述根节点用户的行为数据以修正每个所述特征向量对应的特征分布值,生成匹配所述根节点用户后的群组特征分布函数。
  16. 一个或多个存储有计算机可读指令的计算机可读非易失性存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:
    接收终端发送的数据匹配请求,所述数据匹配请求中携带第一社交网络平台标识、用户指定的第一社交网络平台中的第一用户群组以及第二社交网络平台标识和用户指定的第二社交网络平台中的根节点用户;
    在所述第一社交网络平台标识对应的第一社交网络平台中获取所述第一用户群组对应的群组行为数据,并对所述群组行为数据进行行为学习,得到所述第一用户群组对应的群组特征分布函数;
    在所述第二社交网络平台中获取所述根节点用户的关联用户,并在所述第二社交网络平台中获取所述根节点用户和每个所述关联用户对应的行为数据;
    基于所述第一用户群组对应的群组特征分布函数,学习所述根节点用户的行为数据,生成匹配根节点用户后的群组特征分布函数;
    基于匹配根节点用户后的群组特征分布函数,分别对每个关联用户的行为数据进行行为学习,生成匹配每个所述关联用户后的群组特征分布函数;
    计算匹配所述关联用户后的所述群组特征分布函数的最大熵值,将对应最大熵值最大的所述关联用户确定为所述第一用户群组的匹配用户;及
    以确定的所述匹配用户为当前根节点用户,确定下一个匹配用户,直至确定的所述匹配用户满足设定数量条件,完成群组匹配。
  17. 根据权利要求16所述的存储介质,其特征在于,所述根节点用户的关联用户为在所述第二社交网络平台中与所述根节点用户之间的亲密度不小 于设定阈值的用户节点,其中,所述设定阈值根据所述第一用户群组的亲密度而设定。
  18. 根据权利要求17所述的存储介质,所述处理器还用于执行:
    以确定的所述匹配用户为当前根节点用户,在所述第二社交网络平台中查找所述当前根节点用户的当前关联用户,其中,查找的所述当前关联用户与确定的所有匹配用户和所述指定的根节点组成的群组的群组亲密度不小于设定阈值;及
    在所述当前关联用户中确定下一个匹配用户,直至确定的所述匹配用户满足设定数量条件,完成群组匹配。
  19. 根据权利要求16所述的存储介质,其特征在于,所述处理器还用于执行:
    在所述第一社交网络平台标识对应的第一社交网络平台中获取所述第一用户群组对应的群组行为数据;
    提取所述群组行为数据中的特征词语,根据所述特征词语生成多个特征向量,其中,所述特征向量都是由属于同一类别的特征词语构成的;及
    依次根据所述第一用户群组中每个用户对应的行为数据中出现所述特征词语的频率信息修正每个所述特征向量对应的特征分布值,进而得到所述第一用户群组对应的群组特征分布函数。
  20. 根据权利要求19所述的存储介质,其特征在于,所述处理器还用于执行:
    以根据所述第一用户群组对应的群组行为数据所提取的所述特征向量为行为学习的基础,学习所述根节点用户的行为数据以修正每个所述特征向量对应的特征分布值,生成匹配所述根节点用户后的群组特征分布函数。
PCT/CN2017/104666 2017-07-26 2017-09-29 跨平台数据匹配方法、装置、计算机设备和存储介质 WO2019019385A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/348,966 US11030265B2 (en) 2017-07-26 2017-09-29 Cross-platform data matching method and apparatus, computer device and storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710618378.1A CN107688605B (zh) 2017-07-26 2017-07-26 跨平台数据匹配方法、装置、计算机设备和存储介质
CN201710618378.1 2017-07-26

Publications (1)

Publication Number Publication Date
WO2019019385A1 true WO2019019385A1 (zh) 2019-01-31

Family

ID=61153081

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/104666 WO2019019385A1 (zh) 2017-07-26 2017-09-29 跨平台数据匹配方法、装置、计算机设备和存储介质

Country Status (3)

Country Link
US (1) US11030265B2 (zh)
CN (1) CN107688605B (zh)
WO (1) WO2019019385A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111192154A (zh) * 2019-12-25 2020-05-22 西安交通大学 一种基于风格迁移的社交网络用户节点匹配方法
CN117591283A (zh) * 2023-11-21 2024-02-23 嘉兴云切在线科技有限公司 基于跨平台数据融合的云切设备管理方法及系统

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635201B (zh) * 2018-12-18 2020-07-31 苏州大学 异质社交网络跨平台关联用户账户挖掘方法
US11468029B2 (en) * 2019-01-21 2022-10-11 Netapp, Inc. Evolution of communities derived from access patterns
CN109872241A (zh) * 2019-01-28 2019-06-11 太仓煜和网络科技有限公司 交友平台数据分销系统及分销方法
CN110197207B (zh) * 2019-05-13 2023-04-07 腾讯科技(深圳)有限公司 对未归类用户群进行归类的方法及相关装置
CN112148459B (zh) * 2020-10-12 2023-11-03 中国农业银行股份有限公司 节点关联数据的处理方法、装置、可读介质以及设备
CN112631733B (zh) * 2020-12-31 2024-01-02 中电长城网际安全技术研究院(北京)有限公司 数据采集方法及装置
CN113449159B (zh) * 2021-06-29 2024-02-02 乐视云网络技术(北京)有限公司 节点数据处理方法、装置、设备和计算机可读存储介质
CN113420140B (zh) * 2021-08-24 2021-12-28 北京明略软件系统有限公司 用户情绪的预测方法、装置、电子设备和可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510856A (zh) * 2009-03-12 2009-08-19 腾讯科技(深圳)有限公司 一种sns网络中成员关系圈的提取方法和装置
CN103793460A (zh) * 2013-11-22 2014-05-14 清华大学 社会网络在线特定团体感知方法及系统
CN104090971A (zh) * 2014-07-17 2014-10-08 中国科学院自动化研究所 面向个性化应用的跨网络行为关联方法
CN104317959A (zh) * 2014-11-10 2015-01-28 北京字节跳动网络技术有限公司 基于社交平台的数据挖掘方法及装置
CN104573057A (zh) * 2015-01-22 2015-04-29 电子科技大学 一种用于跨ugc网站平台的帐户关联方法
WO2016029794A1 (zh) * 2014-08-27 2016-03-03 阿里巴巴集团控股有限公司 识别特征账号的方法及装置
US20160147758A1 (en) * 2014-11-24 2016-05-26 Adobe Systems Incorporated Automatic aggregation of online user profiles

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10007895B2 (en) * 2007-01-30 2018-06-26 Jonathan Brian Vanasco System and method for indexing, correlating, managing, referencing and syndicating identities and relationships across systems
US8655792B1 (en) * 2009-03-27 2014-02-18 Symantec Corporation Deriving the content of a social network private site based on friend analysis
US8655938B1 (en) * 2010-05-19 2014-02-18 Adobe Systems Incorporated Social media contributor weight
US8893185B2 (en) * 2011-06-17 2014-11-18 Cox Communications, Inc. Systems and methods for combining user profiles
US20130110583A1 (en) * 2011-10-28 2013-05-02 Justin Ormont Multiple social media network analysis for user conflation and related advertising methods
US8706739B1 (en) * 2012-04-26 2014-04-22 Narus, Inc. Joining user profiles across online social networks
CN102664967A (zh) * 2012-05-18 2012-09-12 北京慧创新盈科技有限公司 跨平台的个人信息交互方法和系统及后台服务器
CN102710636A (zh) * 2012-05-29 2012-10-03 北京慧创新盈科技有限公司 跨平台的社交聚合方法和系统及后台服务器
US9098819B1 (en) * 2012-10-18 2015-08-04 Google Inc. Identifying social network accounts belonging to the same user
US9166961B1 (en) * 2012-12-11 2015-10-20 Amazon Technologies, Inc. Social networking behavior-based identity system
CN103914493A (zh) * 2013-01-09 2014-07-09 北大方正集团有限公司 一种微博用户群体结构发现分析方法及系统
US9544381B2 (en) * 2013-03-13 2017-01-10 Arizona Board Of Regents On Behalf Of Arizona State University User identification across social media
CN104765729B (zh) * 2014-01-02 2018-08-31 中国人民大学 一种跨平台微博社区账户匹配方法
US20180068028A1 (en) * 2016-09-07 2018-03-08 Conduent Business Services, Llc Methods and systems for identifying same users across multiple social networks
CN106777382A (zh) * 2017-02-13 2017-05-31 北京奇虎科技有限公司 社交朋友推荐方法、装置和服务器

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510856A (zh) * 2009-03-12 2009-08-19 腾讯科技(深圳)有限公司 一种sns网络中成员关系圈的提取方法和装置
CN103793460A (zh) * 2013-11-22 2014-05-14 清华大学 社会网络在线特定团体感知方法及系统
CN104090971A (zh) * 2014-07-17 2014-10-08 中国科学院自动化研究所 面向个性化应用的跨网络行为关联方法
WO2016029794A1 (zh) * 2014-08-27 2016-03-03 阿里巴巴集团控股有限公司 识别特征账号的方法及装置
CN104317959A (zh) * 2014-11-10 2015-01-28 北京字节跳动网络技术有限公司 基于社交平台的数据挖掘方法及装置
US20160147758A1 (en) * 2014-11-24 2016-05-26 Adobe Systems Incorporated Automatic aggregation of online user profiles
CN104573057A (zh) * 2015-01-22 2015-04-29 电子科技大学 一种用于跨ugc网站平台的帐户关联方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111192154A (zh) * 2019-12-25 2020-05-22 西安交通大学 一种基于风格迁移的社交网络用户节点匹配方法
CN111192154B (zh) * 2019-12-25 2023-05-02 西安交通大学 一种基于风格迁移的社交网络用户节点匹配方法
CN117591283A (zh) * 2023-11-21 2024-02-23 嘉兴云切在线科技有限公司 基于跨平台数据融合的云切设备管理方法及系统
CN117591283B (zh) * 2023-11-21 2024-04-16 嘉兴云切在线科技有限公司 基于跨平台数据融合的云切设备管理方法及系统

Also Published As

Publication number Publication date
US11030265B2 (en) 2021-06-08
US20190278822A1 (en) 2019-09-12
CN107688605B (zh) 2019-02-26
CN107688605A (zh) 2018-02-13

Similar Documents

Publication Publication Date Title
WO2019019385A1 (zh) 跨平台数据匹配方法、装置、计算机设备和存储介质
US20230334089A1 (en) Entity recognition from an image
WO2017080176A1 (zh) 个体用户画像方法和系统
CN111522989B (zh) 用于图像检索的方法、计算设备和计算机存储介质
CN108959370B (zh) 一种基于知识图谱中实体相似度的社区发现方法及装置
US9536444B2 (en) Evaluating expert opinions in a question and answer system
CN111382283B (zh) 资源类别标签标注方法、装置、计算机设备和存储介质
CN109241243B (zh) 候选文档排序方法及装置
CN111310074B (zh) 兴趣点的标签优化方法、装置、电子设备和计算机可读介质
CN113656698B (zh) 兴趣特征提取模型的训练方法、装置和电子设备
CN114329244A (zh) 地图兴趣点查询方法、装置、设备、存储介质及程序产品
KR20230095796A (ko) 하이퍼그래프 콘볼루션 네트워크들을 통한 공동 개인맞춤형 검색 및 추천
WO2018227773A1 (zh) 地点推荐方法、装置、计算机设备和存储介质
CN111177481B (zh) 用户标识映射方法及装置
CN109858031B (zh) 神经网络模型训练、上下文预测方法及装置
You et al. QoS evaluation for web service recommendation
CN106575418B (zh) 建议的关键词
US11601509B1 (en) Systems and methods for identifying entities between networks
Chen et al. From tie strength to function: Home location estimation in social network
CN112749005B (zh) 资源数据处理方法、装置、计算机设备和存储介质
CN114912623A (zh) 用于模型解释的方法及装置
CN112559872A (zh) 设备间用户识别方法、系统、计算机设备及存储介质
CN112102304A (zh) 图像处理方法、装置、计算机设备和计算机可读存储介质
CN113010769A (zh) 基于知识图谱的物品推荐方法、装置、电子设备及介质
CN107292750B (zh) 社交网络的信息收集方法及信息收集装置

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 29/05/2020)

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 29-05-2020)

122 Ep: pct application non-entry in european phase

Ref document number: 17919254

Country of ref document: EP

Kind code of ref document: A1