WO2017080398A1 - 一种用户群体的划分方法和装置 - Google Patents

一种用户群体的划分方法和装置 Download PDF

Info

Publication number
WO2017080398A1
WO2017080398A1 PCT/CN2016/104490 CN2016104490W WO2017080398A1 WO 2017080398 A1 WO2017080398 A1 WO 2017080398A1 CN 2016104490 W CN2016104490 W CN 2016104490W WO 2017080398 A1 WO2017080398 A1 WO 2017080398A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
core
label
user identifier
degree value
Prior art date
Application number
PCT/CN2016/104490
Other languages
English (en)
French (fr)
Inventor
黄光远
Original Assignee
阿里巴巴集团控股有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 阿里巴巴集团控股有限公司 filed Critical 阿里巴巴集团控股有限公司
Publication of WO2017080398A1 publication Critical patent/WO2017080398A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Definitions

  • the present application relates to the technical field of computer processing, and in particular, to a method for dividing a user group and a device for dividing a user group.
  • users need to be divided into different user groups.
  • the commonly used rules for identifying the “brushing” group are “the number of similar products viewed by the user before purchase”, “the length of time the user browses to place an order”, and “the user purchases multiple items”. Interval time, etc.
  • embodiments of the present application have been made in order to provide a method for dividing a user group and a corresponding device for dividing a user group that overcome the above problems or at least partially solve the above problems.
  • the embodiment of the present application discloses a method for dividing a user group, including:
  • one or more target user groups are divided according to the common behavior relationship.
  • the step of establishing a common behavior relationship between the user identifiers and obtaining a user node graph includes:
  • Finding behavior data of the user identifier
  • a common behavior relationship is established for the user identifier to which the common behavior data belongs.
  • the step of searching for behavior data of the user identifier includes:
  • the step of establishing a common behavior relationship for the user identifier to which the common behavior data belongs includes:
  • the step of identifying one or more core user groups according to the common behavior relationship includes:
  • the core degree value is greater than a preset core threshold, determining that the user identifier corresponding to the core degree value belongs to a core user group.
  • the step of calculating a core degree value of the user identifier in the user node graph includes:
  • the number of user identifiers connected by a common behavior relationship is counted for each user identifier, and the node degree value is obtained;
  • the step of setting a global core degree value of the current iteration includes:
  • the step of dividing one or more target user groups according to the common behavior relationship in the one or more core user groups includes:
  • a label is selected according to the value of the label as the owned label
  • the user IDs with the same label are divided into target user groups.
  • the step of dividing one or more target user groups according to the common behavior relationship in the one or more core user groups includes:
  • one label is selected as the owned label according to the number of labels
  • the user IDs with the same label are divided into target user groups.
  • the embodiment of the present application further discloses a device for dividing a user group, including:
  • a user identifier obtaining module configured to capture a user identifier
  • a user node graph construction module configured to establish a common behavior relationship between the user identifiers, and obtain a user node graph
  • a core user group identification module configured to identify one or more core user groups according to the common behavior relationship in the user node graph
  • the target user group dividing module is configured to divide one or more target user groups according to the common behavior relationship in the one or more core user groups.
  • the user node graph construction module includes:
  • a behavior data search submodule configured to search behavior data of the user identifier
  • a common behavior data identification sub-module for identifying common behavior data from the behavior data
  • the common behavior relationship establishing submodule is configured to establish a common behavior relationship with the user identifier to which the common behavior data belongs.
  • the behavior data search submodule includes:
  • the time period data searching unit is configured to extract behavior data of the user identifier within a preset time period from a preset database.
  • the common behavior relationship establishing submodule includes:
  • a weight configuration unit configured to configure weights on the common behavior data according to a type of behavior data
  • the relationship establishing unit is configured to establish a common behavior relationship with the user identifier to which the common behavior data belongs when the sum of the weights is greater than a preset weight threshold.
  • the core user group identification module includes:
  • a core degree value calculation submodule configured to calculate a core degree value of the user identifier in the user node graph
  • the core user group determining sub-module is configured to determine, when the core degree value is greater than a preset core threshold, the user identity corresponding core user group corresponding to the core degree value.
  • the core degree value calculation submodule includes:
  • a global core degree value setting unit for setting a global core degree value of the current iteration
  • a node degree value statistics unit configured to collect, in the user node graph, the number of user identifiers connected by a common behavior relationship for each user identifier, and obtain a node degree value
  • a quantity comparison unit configured to determine, in the user node graph, whether a node degree value of each user identifier is less than or equal to a global core degree value; if yes, calling a user identifier removal unit, and if not, returning to invoke the global The core degree value setting unit until the traversal of the user node graph is completed;
  • a user identifier removing unit configured to remove, in the user node graph, a user identifier whose node degree value is less than or equal to the global core degree value
  • a core degree value assignment unit configured to assign the global core degree value to the previously removed user identifier as a core degree value of the first removed user identifier
  • the common behavior relationship deleting unit is configured to delete a common behavior relationship connected to the previously removed user identifier in the user node graph, and return to invoke the quantity comparison unit.
  • the global core degree value setting unit includes:
  • the initial setting subunit is used to set the initial global core degree value to 1 on the first iteration
  • the value-added sub-unit is used to add 1 to the previous global core degree value as the current global core degree value when it is not the first iteration.
  • the target user group division module includes:
  • a first label configuration submodule configured to configure, in the one or more core user groups, a label for each user identifier, the label having a value
  • a first label delivery submodule configured to pass the label of each user identifier to the connected user identifier
  • the first label selection sub-module is configured to select a label from the label received by each user identifier as the owned label
  • a first determining sub-module configured to determine, in the one or more core user groups, whether a label owned by the user identifier changes; if yes, returning to invoke the first label delivery sub-module; if not, calling a first target user group division sub-module;
  • the first target user group division sub-module is configured to divide the user identifiers having the same label into the target user groups.
  • the target user group division module includes:
  • a second label configuration submodule configured to configure a label for each user identifier in the one or more core user groups
  • a second label delivery submodule configured to pass the label of each user identifier to the connected user identifier
  • the second label selection sub-module is configured to select a label from each user identifier according to the number of labels as the owned label;
  • a second determining sub-module configured to determine, in the one or more core user groups, whether a label owned by the user identifier changes, or whether the current maximum number of iterations is less than a preset maximum number of iterations; if yes, returning the call The second label transfer sub-module; if not, the second target user group sub-module is invoked;
  • the second target user group division sub-module is configured to divide the user identifiers having the same label into the target user groups.
  • the user node graph is constructed by using the common behavior relationship of the user, and the core user group is roughly divided in the user node graph, and the target user group is finely divided in the core user group.
  • manual setting rules are avoided, and different User groups have different distribution characteristics. Although the individual behaviors are different, the user's potential relationship is relatively stable.
  • the graph-based user group division method improves the user group's partition accuracy.
  • the core is roughly divided. The user group greatly reduces the amount of data, thereby improving the efficiency of partitioning and improving the accuracy of division of user groups.
  • FIG. 1 is a flow chart showing the steps of an embodiment of a method for dividing a user group according to the present application
  • 2A-2C are diagrams showing an example of construction of a user node map of the present application.
  • 3A-3D are diagrams showing an example of identification of a core user group of the present application.
  • FIG. 4 is a diagram showing an example of identification of a target user group of the present application.
  • FIG. 5 is a structural block diagram of an embodiment of a device for dividing a user group according to the present application.
  • FIG. 1 a flow chart of steps of a method for dividing a user group of the present application is shown, which may specifically include the following steps:
  • Step 101 Grab a user identifier.
  • the user identification may be information capable of representing a certain user, such as a user ID (Identity), a cookie, a Mac (Media Access Control) address, and the like.
  • the server may record the user's data through the website log and store it in the database.
  • Step 102 Establish a common behavior relationship between the user identifiers, and obtain a user node graph.
  • a common behavioral relationship can refer to a common behavior between users (represented by user identification).
  • nodes represent users (represented by user IDs)
  • links represent relationships between nodes (ie, common behavior relationships)
  • user node graphs represent strong relationships between users with common operations.
  • step 102 may include the following sub-steps:
  • Sub-step S11 searching for behavior data of the user identifier
  • the general website log can record what the IP address of the user's computer is, at what time, what operating system, what browser, what display, which page of the website is accessed, and whether the access is successful.
  • the website log can be filtered to obtain structured behavior data, such as user ID, product ID accessed by the user, access time, and user behavior (eg, click, purchase, evaluation, etc.).
  • structured behavior data such as user ID, product ID accessed by the user, access time, and user behavior (eg, click, purchase, evaluation, etc.).
  • the website log can be:
  • the structured behavior data obtained after filtering can be:
  • the user's behavior is time-sensitive, such as buying popsicles in summer and downselling in winter, etc.
  • the establishment of a common behavior relationship generally considers the time dimension.
  • the behavior data of the user identification within a preset time period may be extracted from the preset database.
  • Sub-step S12 identifying common behavior data from the behavior data
  • common behavioral data refers to the same behavioral data between users (characterized by user identification).
  • the “brushing” group of a single item is identified, because it is a single item, the “common behavior data” should be defined as “two users jointly purchased the same item”.
  • Sub-step S13 establishing a common behavior relationship for the user identifier to which the common behavior data belongs.
  • the user intentions of different behavior expressions are different. For example, the user purchases the product with the strongest intention, the collection is second, and the browsing is weak. Therefore, the common behavior data may be weighted according to the type of the behavior data.
  • the weight threshold is set in advance, and the setting of the weight threshold is proportional to the strength of the user's intention expressed by the behavior, and is generally between 0-1.
  • the user A and the user B may be connected to a dotted line.
  • user A and user B may be connected to a solid line.
  • a user node map can be constructed, such as user A-user Q constructing a user node map.
  • Step 103 Identify, in the user node graph, one or more core user groups according to the common behavior relationship;
  • the core user group can refer to a group of major users that the server is targeting, such as a group of users with more active behaviors and more closely related users.
  • the edge node may be filtered by the graph algorithm Kcore to find the nodes (ie, user identifiers) of the relative core locations in the user node graph and discover their associations.
  • step 103 may include the following sub-steps:
  • Sub-step S21 calculating a core degree value of the user identifier in the user node graph
  • the core degree value may indicate the importance degree of the user, and the higher the core degree value, indicates that the user is more important.
  • the sub-step S21 may further include the following sub-steps:
  • Sub-step S211 setting a global core degree value
  • Sub-step S212 in the user node graph, the number of user identifiers connected by the common behavior relationship is counted for each user identifier, and the node degree value is obtained;
  • a node that is, a user identifier
  • N edges that is, a common behavior relationship
  • node A when node A is connected to nodes B, C, D, E, F, and J, node A has a node degree of 6; and node J is only connected to node A, and node J has a node degree value. 1.
  • Sub-step S214 in the user node graph, the removal node degree value is less than or equal to the global core degree value User ID;
  • Sub-step S215 assigning the global core degree value to the previously removed user identifier as a coreness value of the first removed user identifier
  • Sub-step S216 in the user node map, delete the common behavior relationship connected with the previously removed user identifier, and return to the execution sub-step S213 until the traversal of the user node map is completed.
  • the graph algorithm Kcore supports a distributed system and can process massive amounts of data.
  • the nodes and edges are removed, forming a new user node graph, which is processed in the new user node graph in the next iteration.
  • the node degrees of each node are as follows:
  • the node degrees of nodes J, K, L, M, N, O, P, and Q are equal to k(1), therefore, nodes J, K, L, M, N, O, P, Q are removed. And its connected edges, and assign k to the nodes J, K, L, M, N, O, P, Q, then its coreness value is 1.
  • the node degree values of the nodes change, such as the node degree value of the node I. Change to 1, the node value of each node is as follows:
  • node degree value of node I is equal to k(1), therefore, node I and its connected edges are removed, and k is assigned to the node. I, then the coreness value is 1.
  • the node degrees of each node no longer change, and the node degrees of all nodes are greater than or equal to the global core level of the current iteration.
  • k(1) the node degrees of each node are as follows:
  • node degrees of nodes I, E, F, G, and H are less than or equal to k(2). Therefore, nodes I, E, F, G, and H and their connected edges are removed and assigned. k gives nodes I, E, F, G, and H, and its coreness is 2.
  • the node degrees of each node are as follows:
  • the node degrees of nodes A, B, C, and D are equal to k(3). Therefore, nodes A, B, C, and D and their connected edges are removed, and k is assigned to nodes A and B. , C, D, then its core degree value (coreness) is 3, at this time, traversing the user node map is completed.
  • Sub-step S22 when the core degree value is greater than a preset core threshold, determining that the user identifier corresponding to the core degree value belongs to a core user group.
  • a set of nodes whose coreness value is greater than a certain core threshold may be taken.
  • the corresponding user group is the core user group of the user node graph.
  • the core threshold setting is related to the size scale of the user node graph. For a user node graph of tens of millions, the core threshold ranges from 100 to above.
  • the core user group does not consider whether there is a connection, because according to the processing algorithm of the graph algorithm KCore, the set of nodes whose coreness value is greater than a certain core threshold will constitute several subgraphs, and there will be no isolated single node. .
  • the usage value algorithm is used to identify the core user group, and the degree value calculation method is relatively simple. The higher the degree value indicates that the user has more users with more users. The embodiments of the present application do not limit this.
  • Step 104 Divide one or more target user groups according to the common behavior relationship in one or more core user groups.
  • fine division can be further performed on the basis of a thick user group (ie, a core user group).
  • the connected graph algorithm may be used to divide the target user group on the basis of the core user group.
  • the preliminary screen sequence of the graph algorithm can be connected.
  • step 104 may include the following sub-steps:
  • Sub-step S31 in each of the one or more core user groups, configuring a label for each user identifier
  • the label may be a user ID.
  • the label may be configured in other manners, such as a random configuration, as long as the uniqueness of the label is maintained.
  • the tag has a numerical value, such as 1, 2, and the like.
  • Sub-step S32 the label of each user identifier is delivered to the connected user identifier
  • the label of each user identifier may be delivered to its neighbor, and likewise, the user identifier will receive the label passed by its neighbor.
  • the node R passes its label to the node S, the node T, and receives the label transmitted by the node S and the node T.
  • Sub-step S33 selecting a label from each user identifier according to the value of the label as the owned label
  • the label with the largest value may be selected, and the label with the smallest value may be selected to ensure that the updated policies are consistent. This embodiment of the present application does not limit this.
  • Sub-step S34 determining whether the label owned by the user identifier changes in the one or more core user groups; if yes, returning to the execution sub-step S32, and if not, executing sub-step S35;
  • Sub-step S35 the user identifiers having the same label are divided into target user groups.
  • tags are unique, nodes are connected in the same user group. In different user groups, nodes are disconnected. Therefore, in the process of iteration, tags will flow in the same user group. Therefore, the labels of the same user group are gradually stabilized.
  • the nodes with the same label belong to the same connected graph, that is, the users corresponding to the nodes belong to the same user group, and the label of the node can be used as the identification of the user group. label.
  • the labels of the user IDs are all 1 and no longer change. Therefore, the nodes R, S, T, and U belong to the same connected graph, and the users corresponding to the nodes R, S, T, and U belong to the same. The same user group.
  • a community discovery algorithm may be used to divide different user groups.
  • the user node graph is relatively complicated due to the large amount of users involved, and the community discovery algorithm can obtain higher precision at this time.
  • the connections between the nodes belonging to the same user group are relatively dense, and the connections between the nodes of different user groups are sparse, that is, the users corresponding to the nodes in the same user group are more closely related. It can well reflect the "gang" attribute of the user community.
  • the community discovery algorithm supports a distributed system and can process massive amounts of data.
  • step 104 may include the following sub-steps:
  • Sub-step S41 in each of the one or more core user groups, configuring a label for each user identifier
  • the label may be a user ID.
  • the label may be configured in other manners, such as a random configuration, as long as the uniqueness of the label is maintained.
  • Sub-step S42 the label of each user identifier is delivered to the connected user identifier
  • Sub-step S43 selecting a label from each user identifier according to the number of labels as the owned label
  • the label with the largest number can be selected. If the number is the same, the label can be randomly selected.
  • Sub-step S44 determining whether the label owned by the user identifier changes in the one or more core user groups, or whether the current maximum number of iterations is less than the preset maximum number of iterations; if yes, returning to the execution sub-step S42, if not , executing sub-step S45;
  • Sub-step S45 the user identifiers having the same label are divided into target user groups.
  • the label can be randomly selected. Since the core node is connected with many other peripheral nodes, the probability that the label is randomly obtained is large. In the subsequent iteration process, the number of labels of the core node will increase, and gradually stabilize. .
  • the nodes with the same tag belong to the same user group, and the tag of the node can be used as the identification tag of the user group.
  • the name of the node is used as the label of the node, that is, the labels of the nodes R, S, T, and U are respectively R, S, T, and U, and the iterative process is as follows:
  • the labels owned by the user identifiers are all R and no longer change. Therefore, the users corresponding to the nodes R, S, T, and U belong to the same user group.
  • the user node graph is constructed by using the common behavior relationship of the user, and the core user group is roughly divided in the user node graph, and the target user group is finely divided in the core user group.
  • manual setting rules are avoided, and different User groups have different distribution characteristics. Although the individual behaviors are different, the user's potential relationship is relatively stable.
  • the graph-based user group division method improves the user group's partition accuracy.
  • the core is roughly divided. The user group greatly reduces the amount of data, thereby improving the efficiency of partitioning and improving the accuracy of division of user groups.
  • FIG. 5 a structural block diagram of an apparatus for dividing a user group of the present application is shown, which may specifically include the following modules:
  • a user identifier obtaining module 501 configured to capture a user identifier
  • a user node graph construction module 502 configured to establish a common behavior relationship between the user identifiers, and obtain a user node graph
  • a core user group identification module 503, configured to identify one or more core user groups according to the common behavior relationship in the user node graph;
  • the target user group dividing module 504 is configured to divide one or more target user groups according to the common behavior relationship among the one or more core user groups.
  • the user node graph construction module 502 may include the following submodules:
  • a behavior data search submodule configured to search behavior data of the user identifier
  • a common behavior data identification sub-module for identifying common behavior data from the behavior data
  • the common behavior relationship establishing submodule is configured to establish a common behavior relationship with the user identifier to which the common behavior data belongs.
  • the behavior data search submodule may include the following units:
  • the time period data searching unit is configured to extract behavior data of the user identifier within a preset time period from a preset database.
  • the common behavior relationship establishing submodule may include the following units:
  • a weight configuration unit configured to configure weights on the common behavior data according to a type of behavior data
  • the relationship establishing unit is configured to establish a common behavior relationship with the user identifier to which the common behavior data belongs when the sum of the weights is greater than a preset weight threshold.
  • the core user group identification module 503 may include the following sub-modules:
  • a core degree value calculation submodule configured to calculate a core degree value of the user identifier in the user node graph
  • the core user group determining sub-module is configured to determine, when the core degree value is greater than a preset core threshold, the user identity corresponding core user group corresponding to the core degree value.
  • the core degree value calculation submodule may include the following units:
  • a global core degree value setting unit for setting a global core degree value of the current iteration
  • a node degree value statistics unit configured to perform a common line for each user identity in the user node graph Obtaining a node degree value for the number of user identifiers connected to the relationship;
  • a quantity comparison unit configured to determine, in the user node graph, whether a node degree value of each user identifier is less than or equal to a global core degree value; if yes, calling a user identifier removal unit, and if not, returning to invoke the global The core degree value setting unit until the traversal of the user node graph is completed;
  • a user identifier removing unit configured to remove, in the user node graph, a user identifier whose node degree value is less than or equal to the global core degree value
  • a core degree value assignment unit configured to assign the global core degree value to the previously removed user identifier as a core degree value of the first removed user identifier
  • the common behavior relationship deleting unit is configured to delete a common behavior relationship connected to the previously removed user identifier in the user node graph, and return to invoke the quantity comparison unit.
  • the global core degree value setting unit may include a subunit:
  • the initial setting subunit is used to set the initial global core degree value to 1 on the first iteration
  • the value-added sub-unit is used to add 1 to the previous global core degree value as the current global core degree value when it is not the first iteration.
  • the target user group dividing module 504 may include the following sub-modules:
  • a first label configuration submodule configured to configure, in the one or more core user groups, a label for each user identifier, the label having a value
  • a first label delivery submodule configured to pass the label of each user identifier to the connected user identifier
  • the first label selection sub-module is configured to select a label from the label received by each user identifier as the owned label
  • a first determining sub-module configured to determine, in the one or more core user groups, whether a label owned by the user identifier changes; if yes, returning to invoke the first label delivery sub-module; if not, calling a first target user group division sub-module;
  • the first target user group division sub-module is configured to divide the user identifiers having the same label into the target user groups.
  • the target user group partitioning module 504 can include the following sub-modules:
  • a second label configuration submodule configured to configure a label for each user identifier in the one or more core user groups
  • a second label delivery submodule configured to pass the label of each user identifier to the connected user identifier
  • the second label selection sub-module is configured to select a label from each user identifier according to the number of labels as the owned label;
  • a second determining sub-module configured to determine, in the one or more core user groups, whether a label owned by the user identifier changes, or whether the current maximum number of iterations is less than a preset maximum number of iterations; if yes, returning the call The second label transfer sub-module; if not, the second target user group sub-module is invoked;
  • the second target user group division sub-module is configured to divide the user identifiers having the same label into the target user groups.
  • the description is relatively simple, and the relevant parts can be referred to the description of the method embodiment.
  • embodiments of the embodiments of the present application can be provided as a method, apparatus, or computer program product. Therefore, the embodiments of the present application may take the form of an entirely hardware embodiment, an entirely software embodiment, or an embodiment combining software and hardware. Moreover, embodiments of the present application can take the form of a computer program product embodied on one or more computer-usable storage media (including but not limited to disk storage, CD-ROM, optical storage, etc.) including computer usable program code.
  • computer-usable storage media including but not limited to disk storage, CD-ROM, optical storage, etc.
  • the computer device includes one or more processors (CPUs), input/output interfaces, network interfaces, and memory.
  • the memory may include non-persistent memory, random access memory (RAM), and/or non-volatile memory in a computer readable medium, such as read only memory (ROM) or flash memory.
  • RAM random access memory
  • ROM read only memory
  • Memory is an example of a computer readable medium.
  • Computer readable media includes both permanent and non-persistent, removable and non-removable media.
  • Information storage can be implemented by any method or technology. The information can be computer readable instructions, data structures, modules of programs, or other data.
  • Examples of computer storage media include, but are not limited to, phase change memory (PRAM), static random access memory (SRAM), dynamic random access memory (DRAM), other types of random access memory (RAM), read only memory. (ROM), electrically erasable programmable read only memory (EEPROM), flash memory or other memory technology, compact disk read only memory (CD-ROM), digital versatile disk (DVD) or other optical storage, Magnetic tape cartridges, magnetic tape storage or other magnetic storage devices or any other non-transportable media can be used to store information that can be accessed by a computing device.
  • Computer readable media does not include non-continuous as defined herein Sexual computer readable media, such as modulated data signals and carrier waves.
  • Embodiments of the present application are described with reference to flowcharts and/or block diagrams of methods, terminal devices (systems), and computer program products according to embodiments of the present application. It will be understood that each flow and/or block of the flowchart illustrations and/or FIG.
  • These computer program instructions can be provided to a processor of a general purpose computer, special purpose computer, embedded processor or other programmable data processing terminal device to produce a machine such that instructions are executed by a processor of a computer or other programmable data processing terminal device
  • Means are provided for implementing the functions specified in one or more of the flow or in one or more blocks of the flow chart.
  • the computer program instructions can also be stored in a computer readable memory that can direct a computer or other programmable data processing terminal device to operate in a particular manner, such that the instructions stored in the computer readable memory produce an article of manufacture comprising the instruction device.
  • the instruction device implements the functions specified in one or more blocks of the flowchart or in a flow or block of the flowchart.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种用户群体的划分方法和装置,该方法包括:抓取用户标识(101);建立所述用户标识之间的共同行为关系,获得用户节点图(102);在所述用户节点图中,根据所述共同行为关系识别一个或多个核心用户群体(103);在所述一个或多个核心用户群体中,根据所述共同行为关系划分一个或多个目标用户群体(104)。一方面,避免人工设定规则,不同的用户群具有不同的分布特征,尽管个体的行为差异较大,但是用户的潜在关系则比较稳定,基于图的用户群体划分方式提高了用户群体的划分精确度;另一方面,通过粗略划分出核心用户群体,大大减少了数据量,进而提高了划分效率,提高了用户群体的划分精确度。

Description

一种用户群体的划分方法和装置
本申请要求2015年11月12日递交的申请号为201510772638.1发明名称为“一种用户群体的划分方法和装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及计算机处理的技术领域,特别是涉及一种用户群体的划分方法和一种用户群体的划分装置。
背景技术
随着互联网的高速发展,网上的信息量急剧增加,过量的信息使得人们无法高效地从中获取自己需要的部分,信息的使用效率反而降低。
因此,各大网站通常将其面向的用户划分为不同的用户群体,提供更精细化的服务。
另外,在某些安全检测情景中,也需要将用户划分不同的用户群体。
例如,在电子商务网站中,不法分子通过虚拟交易等途径恶意增加店铺的积分,俗称“刷钻”,为维持秩序,网站需要将“刷钻”的群体识别出来。
现在,用户群体划分的方式通常有两种,一种是人工设定规则,另一种是社区发现算法。
在人工设定规则的方式中,往往难以覆盖不同群体的不同特性,而且,用户群体的规则繁多、容易发生变化,人工设定的规则难免会有所偏差,从而导致用户群体划分的精确度较低。
以识别“刷钻”群体为例,识别“刷钻”群体常用的规则有“用户购买前浏览的同类商品个数”、“用户浏览到下单的时间长度”、“用户购买多个物品的间隔时间”等。
不同的“刷钻”群体,往往具有不一样的表现。如一个“刷钻”群体接到需求后直接购买指定的商品;另一个“刷钻”群体,会浏览多个同类商品后,再购买指定的商品。
则对于这两个“刷钻”群体,在“用户购买前浏览的同类商品个数”这个规则上的表现不一,难以通过同一个阈值进行识别判断。
在社区发现算法中,容易在结果中引入与具体应用场景不符合的数据,导致数据量过大,划分效率较低,用户群体划分的精确度较低。
以识别“刷钻”群体为例,在建模时首先对用户间的购买关系进行抽象,简单地认为两个用户共同购买过某一件商品即认为他们存在关系,会使得建立的图规模过大,造成划分效率的低下,以及存在将一些购买数量较多的用户误识别为“刷钻”用户的风险。
发明内容
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种用户群体的划分方法和相应的一种用户群体的划分装置。
为了解决上述问题,本申请实施例公开了一种用户群体的划分方法,包括:
抓取用户标识;
建立所述用户标识之间的共同行为关系,获得用户节点图;
在所述用户节点图中,根据所述共同行为关系识别一个或多个核心用户群体;
在所述一个或多个核心用户群体中,根据所述共同行为关系划分一个或多个目标用户群体。
可选地,所述建立所述用户标识之间的共同行为关系,获得用户节点图的步骤包括:
查找所述用户标识的行为数据;
从所述行为数据中识别共同的行为数据;
对所述共同的行为数据所属的用户标识建立共同行为关系。
可选地,所述查找所述用户标识的行为数据的步骤包括:
从预置的数据库中提取在预设时间段内、所述用户标识的行为数据。
可选地,所述对所述共同的行为数据所属的用户标识建立共同行为关系的步骤包括:
按照行为数据的类型对所述共同的行为数据配置权重;
当所述权重之和大于预设的权重阈值时,对所述共同的行为数据所属的用户标识建立共同行为关系。
可选地,所述在所述用户节点图中,根据所述共同行为关系识别一个或多个核心用户群体的步骤包括:
计算所述用户标识在所述用户节点图中的核心程度值;
当所述核心程度值大于预设的核心阈值时,确定所述核心程度值对应的用户标识归属核心用户群体。
可选地,所述计算所述用户标识在所述用户节点图中的核心程度值的步骤包括:
设置当前迭代的全局核心程度值;
在所述用户节点图中,针对每个用户标识统计通过共同行为关系相连的用户标识的数量,获得节点度值;
在所述用户节点图中,判断每个用户标识的节点度值是否小于或等于全局核心程度值;
若是,则去除节点度值小于或等于所述全局核心程度值的用户标识;
将所述全局核心程度值赋值给在先去除的用户标识,作为先去除的用户标识的核心程度值;
在所述用户节点图中,删除与在先去除的用户标识相连的共同行为关系,返回执行所述在所述用户节点图中,判断每个用户标识的节点度值是否小于或等于全局核心程度值的步骤;
若否,则返回执行所述设置当前迭代的全局核心程度值的步骤,直至遍历所述用户节点图完成。
可选地,所述设置当前迭代的全局核心程度值的步骤包括:
在首次迭代时,设置初始的全局核心程度值为1;
或者,
在非首次迭代时,在上一全局核心程度值的基础上加1,作为当前全局核心程度值。
可选地,所述在所述一个或多个核心用户群体中,根据所述共同行为关系划分一个或多个目标用户群体的步骤包括:
在所述一个或多个核心用户群体中,对每个用户标识配置标签,所述标签具有数值;
将每个用户标识的标签传递至相连的用户标识;
从每个用户标识接收到的标签中,按照标签的数值选取一个标签作为所拥有的标签;
判断在所述一个或多个核心用户群体中,用户标识所拥有的标签是否发生变化;
若是,则返回执行所述将每个用户标识的标签传递至相连的用户标识的步骤;
若否,则将拥有相同标签的用户标识划分为目标用户群体。
可选地,所述在所述一个或多个核心用户群体中,根据所述共同行为关系划分一个或多个目标用户群体的步骤包括:
在所述一个或多个核心用户群体中,对每个用户标识配置标签;
将每个用户标识的标签传递至相连的用户标识;
从每个用户标识接收到的标签中,按照标签的数量选取一个标签作为所拥有的标签;
判断在所述一个或多个核心用户群体中,用户标识所拥有的标签是否发生变化,或 者,当前是否小于预设的最大迭代次数;
若是,则返回执行所述将每个用户标识的标签传递至相连的用户标识的步骤;
若否,则将拥有相同标签的用户标识划分为目标用户群体。
本申请实施例还公开了一种用户群体的划分装置,包括:
用户标识获取模块,用于抓取用户标识;
用户节点图构建模块,用于建立所述用户标识之间的共同行为关系,获得用户节点图;
核心用户群体识别模块,用于在所述用户节点图中,根据所述共同行为关系识别一个或多个核心用户群体;
目标用户群体划分模块,用于在所述一个或多个核心用户群体中,根据所述共同行为关系划分一个或多个目标用户群体。
可选地,所述用户节点图构建模块包括:
行为数据查找子模块,用于查找所述用户标识的行为数据;
共同行为数据识别子模块,用于从所述行为数据中识别共同的行为数据;
共同行为关系建立子模块,用于对所述共同的行为数据所属的用户标识建立共同行为关系。
可选地,所述行为数据查找子模块包括:
时间段数据查找单元,用于从预置的数据库中提取在预设时间段内、所述用户标识的行为数据。
可选地,所述共同行为关系建立子模块包括:
权重配置单元,用于按照行为数据的类型对所述共同的行为数据配置权重;
关系建立单元,用于在所述权重之和大于预设的权重阈值时,对所述共同的行为数据所属的用户标识建立共同行为关系。
可选地,所述核心用户群体识别模块包括:
核心程度值计算子模块,用于计算所述用户标识在所述用户节点图中的核心程度值;
核心用户群体确定子模块,用于在所述核心程度值大于预设的核心阈值时,确定所述核心程度值对应的用户标识归属核心用户群体。
可选地,所述核心程度值计算子模块包括:
全局核心程度值设置单元,用于设置当前迭代的全局核心程度值;
节点度值统计单元,用于在所述用户节点图中,针对每个用户标识统计通过共同行为关系相连的用户标识的数量,获得节点度值;
数量比较单元,用于在所述用户节点图中,判断每个用户标识的节点度值是否小于或等于全局核心程度值;若是,则调用用户标识去除单元,若否,则返回调用所述全局核心程度值设置单元,直至遍历所述用户节点图完成;
用户标识去除单元,用于在所述用户节点图中,去除节点度值小于或等于所述全局核心程度值的用户标识;
核心程度值赋值单元,用于将所述全局核心程度值赋值给在先去除的用户标识,作为先去除的用户标识的核心程度值;
共同行为关系删除单元,用于在所述用户节点图中,删除与在先去除的用户标识相连的共同行为关系,返回调用所述数量比较单元。
可选地,所述全局核心程度值设置单元包括:
初始设置子单元,用于在首次迭代时,设置初始的全局核心程度值为1;
或者,
增值子单元,用于在非首次迭代时,在上一全局核心程度值的基础上加1,作为当前全局核心程度值。
可选地,所述目标用户群体划分模块包括:
第一标签配置子模块,用于在所述一个或多个核心用户群体中,对每个用户标识配置标签,所述标签具有数值;
第一标签传递子模块,用于将每个用户标识的标签传递至相连的用户标识;
第一标签选取子模块,用于从每个用户标识接收到的标签中,按照标签的数值选取一个标签作为所拥有的标签;
第一判断子模块,用于判断在所述一个或多个核心用户群体中,用户标识所拥有的标签是否发生变化;若是,则返回调用所述第一标签传递子模块;若否,则调用第一目标用户群体划分子模块;
第一目标用户群体划分子模块,用于将拥有相同标签的用户标识划分为目标用户群体。
可选地,所述目标用户群体划分模块包括:
第二标签配置子模块,用于在所述一个或多个核心用户群体中,对每个用户标识配置标签;
第二标签传递子模块,用于将每个用户标识的标签传递至相连的用户标识;
第二标签选取子模块,用于从每个用户标识接收到的标签中,按照标签的数量选取一个标签作为所拥有的标签;
第二判断子模块,用于判断在所述一个或多个核心用户群体中,用户标识所拥有的标签是否发生变化,或者,当前是否小于预设的最大迭代次数;若是,则返回调用所述第二标签传递子模块;若否,则调用第二目标用户群体划分子模块;
第二目标用户群体划分子模块,用于将拥有相同标签的用户标识划分为目标用户群体。
本申请实施例包括以下优点:
本申请实施例通过用户的共同行为关系构建用户节点图,在用户节点图中粗略划分出核心用户群体,在核心用户群体中精细划分出目标用户群体,一方面,避免人工设定规则,不同的用户群具有不同的分布特征,尽管个体的行为差异较大,但是用户的潜在关系则比较稳定,基于图的用户群体划分方式提高了用户群体的划分精确度,另一方面,通过粗略划分出核心用户群体,大大减少了数据量,进而提高了划分效率,提高了用户群体的划分精确度。
附图说明
图1是本申请的一种用户群体的划分方法实施例的步骤流程图;
图2A-图2C是本申请的一种用户节点图的构建示例图;
图3A-图3D是本申请的一种核心用户群体的识别示例图;
图4是本申请的一种目标用户群体的识别示例图;
图5是本申请的一种用户群体的划分装置实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1,示出了本申请的一种用户群体的划分方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,抓取用户标识;
用户标识可以是能够代表一个确定的用户的信息,例如,用户ID(Identity,身份标识号)、cookie、Mac(Media Access Control,媒体访问控制)地址等等。
在本申请实施例中,服务器可以通过网站日志记录用户的数据,存储在数据库中。
在划分用户群体时,可以从数据库中抓取用户标识。
步骤102,建立所述用户标识之间的共同行为关系,获得用户节点图;
共同行为关系,可以指用户(以用户标识表征)之间存在共同的行为。
在用户节点图中,节点代表用户(以用户标识表征),连线表示节点之间的关系(即共同行为关系),用户节点图为表示用户间存在共同操作的强关系网络。
在本申请的一个实施例中,步骤102可以包括如下子步骤:
子步骤S11,查找所述用户标识的行为数据;
一般的网站日志可以记录用户电脑的IP地址是什么、在什么时间、用什么操作系统、什么浏览器、什么显示器的情况下访问了网站的哪个页面,是否访问成功。
但是针对用户行为而言,需要的不是用户电脑的IP地址、操作系统、浏览器等机器人数据,而是用户浏览了什么信息、对其喜爱程度的表现行为等可以表征用户兴趣爱好的行为数据。
在具体实现中,可以对网站日志进行过滤,获得结构化的行为数据,例如用户ID,用户访问的商品ID,访问时间,用户行为(例如点击,购买,评价等)。
例如,网站日志可以为:
118.112.27.164---[24/Oct/2012:11:00:00+0800]"GET/b.jpg?cD17Mn0mdT17L2NoaW5hLmFsaWJhYmEuY29tL30mbT17R0VUfSZzPXsyMDB9JnI9e2h0dHA6Ly9mdy50bWFsbC5jb20vP3NwbT0zLjE2OTQwNi4xOTg0MDEufSZhPXtzaWQ9MTdjMDM2MjEtZTk2MC00NDg0LWIwNTYtZDJkMDcwM2NkYmE4fHN0aW1lPTEzNTEwNDc3MDU3OTZ8c2RhdGU9MjR8YWxpX2FwYWNoZV9pZD0xMTguMTEyLjI3LjE2NC43MjU3MzI0NzU5ODMzMS43fGNuYT0tfSZiPXstfSZjPXtjX3NpZ25lZD0wfQ==&pageid=7f0000017f00000113511803054674156071647816&sys=ie6.0|windowsXP|1366*768|zh-cn&ver=43&t=1351047705828HTTP/1.0"200-"Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1;SV1;.NET CLR 2.0.50727)"118.112.27.164.135104760038.61^sid%3D17c03621-e960-4484-b056-d2d0703cdba8%7Cstime%3D1351047705796%7Csdate%3D24|cna=-^-^aid=118.112.27.164.72573247598331.7
过滤后获得的结构化的行为数据可以为:
1,b2b-1633112210,1215596848,1,07/Aug/2013:08:27:22
需要说明的是,用户的行为具有时效性,如夏天购买冰棒、冬天购买羽绒等,则共同行为关系的建立一般考虑时间维度。
因此,在本申请实施例中,可以从预置的数据库中提取在预设时间段内、用户标识的行为数据。
子步骤S12,从所述行为数据中识别共同的行为数据;
在实际应用中,共同的行为数据指用户(以用户标识表征)之间相同的行为数据。
在电子商务网站中,可以取一段时间内的购买、收藏、好评、加入购物车等行为数据,统计在一定时间间隔内,两个用户共同购买的商品、共同收藏的商品、共同好评的商品、共同加入购物车的商品等的操作记录数。
例如,取一个月内的购买记录,取时间间隔为一周,若买家A在星期一时在某个店铺发生购买行为,买家B在三天后时在该店铺发生购买行为,则买家A与买家B存在一条共同的行为数据。
需要说明的是,根据不同业务场景的需求,可以采用不同粒度的共同行为数据。
以共同的购买数据为例,根据应用场景、考察对象的不同,“共同”的关系可以有灵活的实现。
若识别单个商品的“刷钻”群体,因为是单品,所以“共同的行为数据”应定义为“两个用户共同购买了同一件商品”。
若处理店铺的群体划分场景时,此时考虑店铺间的关系,所以“共同的行为数据”可定义为“两个用户在同一家店铺购买了任意的商品”。
子步骤S13,对所述共同的行为数据所属的用户标识建立共同行为关系。
在具体实现中,不同的行为表达的用户意图强度不同,例如,用户购买商品意图最强,收藏次之,浏览较弱,因此,可以按照行为数据的类型对所述共同的行为数据配置权重。
另外,预先设置权重阈值,权重阈值的设定与该行为表达的用户意图强弱成正比,一般取0-1之间。
当权重之和大于预设的权重阈值时,对共同的行为数据所属的用户标识建立共同行为关系。
如图2A所示,在构建用户节点图中,若用户A与用户B存在共同的行为数据,则可以对用户A与用户B连接虚线。
如图2B所示,若确定用户A与用户B存在较强的共同行为关系,则可以对用户A与用户B连接一条实线。
如图2C所示,对每一个用户进行相同的操作,则可以构建用户节点图,如用户A-用户Q构建用户节点图。
步骤103,在所述用户节点图中,根据所述共同行为关系识别一个或多个核心用户群体;
核心用户群体,可以指服务器所面向的主要用户所组成的群体,如行为较为活跃、关联较为紧密的用户所组成的群体。
在具体实现中,可以通过图算法Kcore进行边缘节点的过滤,找出用户节点图中相对核心位置的节点(即用户标识)并发现它们的关联。
在本申请的一个实施例中,步骤103可以包括如下子步骤:
子步骤S21,计算所述用户标识在所述用户节点图中的核心程度值;
在本申请实施例中,核心程度值可以表示用户的重要程度,核心程度值越高,则表示该用户越重要。
在本申请的一个实施例中,子步骤S21进一步可以包括如下子步骤:
子步骤S211,设置全局核心程度值;
在具体实现中,在首次迭代时,可以设置初始的全局核心程度值为1,假设设定k为1为k,则初始时k=1。
在非首次迭代时,可以在上一全局核心程度值的基础上加1,作为当前全局核心程度值,即k=k+1,第二次迭代k=2,第三次迭代k=3,以此类推。
子步骤S212,在所述用户节点图中,针对每个用户标识统计通过共同行为关系相连的用户标识的数量,获得节点度值;
在用户节点图中,某个节点(即用户标识)具有N条边(即共同行为关系)相连的节点(即用户标识),则其的节点度值为N,N为正整数。
例如,如图2C所示,节点A连接节点B、C、D、E、F、J,则节点A的节点度值为6;而节点J只连接节点A,则节点J的节点度值为1。
子步骤S213,在所述用户节点图中,判断每个用户标识的节点度值是否小于或等于全局核心程度值;若是,则执行子步骤S214,若否,则返回子步骤S211,直至遍历所述用户节点图完成;
子步骤S214,在所述用户节点图中,去除节点度值小于或等于所述全局核心程度值 的用户标识;
子步骤S215,将所述全局核心程度值赋值给在先去除的用户标识,作为先去除的用户标识的核心程度值(coreness);
子步骤S216,在所述用户节点图中,删除与在先去除的用户标识相连的共同行为关系,返回执行子步骤S213,直至遍历所述用户节点图完成。
在本申请实施例中,图算法Kcore支持分布式系统,可以处理海量的数据。
在每次迭代中,都会去除节点及边,形成新的用户节点图,在下一次迭代中,即在新的用户节点图中进行处理。
如图2C所示的用户节点图,在首次迭代时,k=1,各节点的节点度值如下:
节点度值 节点
1 J、K、L、M、N、O、P、Q
2 E、F
4 B、C、G、H、I
5 D
7 A
在首次迭代中,节点J、K、L、M、N、O、P、Q的节点度值等于k(1),因此,去除节点J、K、L、M、N、O、P、Q及其相连的边,并赋值k给节点J、K、L、M、N、O、P、Q,则其核心程度值(coreness)为1。
如图3A所示的用户节点图,去除节点J、K、L、M、N、O、P、Q及其相连的边之后,各节点的节点度值发生变化,如节点I的节点度值变为1,各节点的节点度值如下:
节点度值 节点
1 I
2 E、F、G、H
4 B、C
5 D
6 A
节点I的节点度值等于k(1),因此,去除节点I及其相连的边,并赋值k给节点 I,则其核心程度值(coreness)为1。
如图3B所示的用户节点图,去除节点I及其相连的边之后,各节点的节点度值不再发生变化,并且,所有节点的节点度值均大于或等于当前迭代的全局核心程度值k(1),各节点的节点度值如下:
节点度值 节点
2 E、F、G、H
4 B、C
5 D
6 A
因此,进入第二轮迭代,k=k+1=2。
在第二次迭代中,节点I、E、F、G、H的节点度值小于或等于k(2),因此,去除节点I、E、F、G、H及其相连的边,并赋值k给节点I、E、F、G、H,则其核心程度值(coreness)为2。
如图3C所示的用户节点图,去除节点I、E、F、G、H及其相连的边之后,各节点的节点度值不再发生变化,并且,所有节点的节点度值均大于或等于当前迭代的全局核心程度值k(2),各节点的节点度值如下:
节点度值 节点
3 A、B、C、D
因此,进入第三轮迭代,k=k+1=3。
在第三次迭代中,节点A、B、C、D的节点度值等于k(3),因此,去除节点A、B、C、D及其相连的边,并赋值k给节点A、B、C、D,则其核心程度值(coreness)为3,此时,遍历用户节点图完成。
如图3D所示的用户节点图,节点J、K、L、M、N、O、P、Q、I的核心程度值为1(coreness=1),在最外层,节点E、F、G、H的核心程度值为2(coreness=2),在次外层,节点A、B、C、D的核心程度值为3(coreness=3),在中心层。
子步骤S22,当所述核心程度值大于预设的核心阈值时,确定所述核心程度值对应的用户标识归属核心用户群体。
在本申请实施例中,可以取核心程度值(coreness)大于一定核心阈值的节点的集合, 对应的用户群体为该用户节点图的核心用户群体。
核心阈值设定与用户节点图的大小规模有关,如对于千万级的用户节点图,核心阈值的范围为100以上。
一般而言,核心用户群体不考虑是否有相连,因为根据图算法KCore的处理过程,核心程度值(coreness)大于一定核心阈值的节点的集合会组成若干个子图,不会存在有孤立的单个节点。
也即,这里会根据核心用户划分了若干个粗范围的用户群体。
当然,除了图算法Kcore之外,还可以采用其他方式识别核心用户群体,如使用度值算法识别核心用户群体,度值计算方法较为简单,度值越高表示该用户与越多的其他用户具有较强的共同操作关系,等等,本申请实施例对此不加以限制。
步骤104,在一个或多个核心用户群体中,根据所述共同行为关系划分一个或多个目标用户群体。
在本申请实施例中,可以在粗范围的用户群体(即核心用户群体)的基础上,进一步进行精细的划分。
在本申请的一个实施例中,若用户节点图的结构较为简单,或者,对用户群体的划分精度要求不高,可以使用连通图算法在核心用户群体的基础上划分目标用户群体。
其中,在一个无向图中,若从顶点vi到顶点vj有路径相连,则称vi和vj是连通的,处于连通图中的所有节点,两两间都是连通的。
如在识别“刷钻”群体的场景中,由于数据建模数据清洗时会使用相对较严格的标准,此时可以连通图算法初步筛序。
在连通图算法中,若两个用户属于不同的用户群体,该两个用户之间不会存在有较强的共同操作关系,即对应用户节点图中两个节点不存在边。
则在本申请实施例中,步骤104可以包括如下子步骤:
子步骤S31,在所述一个或多个核心用户群体中,对每个用户标识配置标签;
在具体实现中,为方便计算,该标签可以为其用户ID,当然,也可以采用其他方式配置标签,如随机配置,只要保持标签的唯一性即可,本申请实施例对此不加以限制。
在本申请实施例中,标签具有数值,如1、2等。
子步骤S32,将每个用户标识的标签传递至相连的用户标识;
在本申请实施例中,可以将每个用户标识的标签传递至其邻居,同样地,该用户标识会接收到其邻居传递的标签。
例如,如图4所示的核心用户群体,节点R将其标签传递至节点S、节点T,接收节点S、节点T传递的标签。
子步骤S33,从每个用户标识接收到的标签中,按照标签的数值选取一个标签作为所拥有的标签;
在具体实现中,可以选取数值最大的标签,也可以选取数值最小的标签,保证更新的策略一致即可,本申请实施例对此不加以限制。
子步骤S34,判断在所述一个或多个核心用户群体中,用户标识所拥有的标签是否发生变化;若是,则返回执行子步骤S32,若否,则执行子步骤S35;
子步骤S35,将拥有相同标签的用户标识划分为目标用户群体。
由于标签具有唯一性,在同一个用户群体中,节点之间是连通的,在不同的用户群体中,节点之间是不连通的,因此在迭代的过程中,标签会在同一个用户群体流动,使得同一个用户群体的标签逐渐趋向稳定,当标签稳定时,具有同样标签的节点属于同一个连通图,即节点对应的用户属于同一个用户群体,节点的标签即可作为该用户群体的识别标签。
例如,如图4所示,假设节点R、S、T、U的标签的数值分别为1、2、3、4,选择数值最小的标签,则其在迭代的过程如下:
Figure PCTCN2016104490-appb-000001
在第3轮迭代后,用户标识所拥有的标签都为1,不再发生变化,因此,节点R、S、T、U属于同一个连通图,节点R、S、T、U对应的用户属于同一个用户群体。
在本申请的另一个实施例中,若用户节点图的结构较为复杂,或者,需要较为准确地划分不同的用户群体,可以使用社区发现算法来划分不同的用户群。
如在识别微博群体的场景中,由于涉及的用户量较大,用户节点图比较复杂,此时使用社区发现算法可以获得较高的精确度。
在社区发现算法中,属于同一个用户群体的节点间的连线较为稠密,不同用户群体的节点间的连线较为稀疏,即同一个用户群体内的节点所对应的用户的关系更为紧密,能很好地反映用户群体的“团伙”属性。
在本申请实施例中,社区发现算法支持分布式系统,可以处理海量的数据。
则在本申请实施例中,步骤104可以包括如下子步骤:
子步骤S41,在所述一个或多个核心用户群体中,对每个用户标识配置标签;
在具体实现中,为方便计算,该标签可以为其用户ID,当然,也可以采用其他方式配置标签,如随机配置,只要保持标签的唯一性即可,本申请实施例对此不加以限制。
子步骤S42,将每个用户标识的标签传递至相连的用户标识;
子步骤S43,从每个用户标识接收到的标签中,按照标签的数量选取一个标签作为所拥有的标签;
在具体实现中,可以选取数量最多的标签,若数量相同,则可以随机选取标签。
子步骤S44,判断在所述一个或多个核心用户群体中,用户标识所拥有的标签是否发生变化,或者,当前是否小于预设的最大迭代次数;若是,则返回执行子步骤S42,若否,则执行子步骤S45;
子步骤S45,将拥有相同标签的用户标识划分为目标用户群体。
在首次迭代中,可以随机选择标签,由于核心的节点连着其他很多外围节点,其标签被随机到的几率较大,在后续的迭代过程中,核心的节点的标签数量会增加,逐步达到稳定。
当标签稳定或到达最大迭代次数时,具有同样标签的节点属于同一个用户群体,节点的标签即可作为该用户群体的识别标签。
例如,如图4所示,以节点的名称作为节点的标签,即节点R、S、T、U的标签分别为R、S、T、U,则其在迭代的过程如下:
Figure PCTCN2016104490-appb-000002
在第3轮迭代后,用户标识所拥有的标签都为R,不再发生变化,因此,节点R、S、T、U对应的用户属于同一个用户群体。
当然,除了上述社区发现算法之外,还可以采用其他社区发现算法,如GN算法、Louvain算法等等,本申请实施例对此不加以限制。
本申请实施例通过用户的共同行为关系构建用户节点图,在用户节点图中粗略划分出核心用户群体,在核心用户群体中精细划分出目标用户群体,一方面,避免人工设定规则,不同的用户群具有不同的分布特征,尽管个体的行为差异较大,但是用户的潜在关系则比较稳定,基于图的用户群体划分方式提高了用户群体的划分精确度,另一方面,通过粗略划分出核心用户群体,大大减少了数据量,进而提高了划分效率,提高了用户群体的划分精确度。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是 本申请实施例所必须的。
参照图5,示出了本申请的一种用户群体的划分装置实施例的结构框图,具体可以包括如下模块:
用户标识获取模块501,用于抓取用户标识;
用户节点图构建模块502,用于建立所述用户标识之间的共同行为关系,获得用户节点图;
核心用户群体识别模块503,用于在所述用户节点图中,根据所述共同行为关系识别一个或多个核心用户群体;
目标用户群体划分模块504,用于在所述一个或多个核心用户群体中,根据所述共同行为关系划分一个或多个目标用户群体。
在本申请的一个实施例中,所述用户节点图构建模块502可以包括如下子模块:
行为数据查找子模块,用于查找所述用户标识的行为数据;
共同行为数据识别子模块,用于从所述行为数据中识别共同的行为数据;
共同行为关系建立子模块,用于对所述共同的行为数据所属的用户标识建立共同行为关系。
在本申请实施例的一个示例中,所述行为数据查找子模块可以包括如下单元:
时间段数据查找单元,用于从预置的数据库中提取在预设时间段内、所述用户标识的行为数据。
在本申请实施例的一个示例中,所述共同行为关系建立子模块可以包括如下单元:
权重配置单元,用于按照行为数据的类型对所述共同的行为数据配置权重;
关系建立单元,用于在所述权重之和大于预设的权重阈值时,对所述共同的行为数据所属的用户标识建立共同行为关系。
在本申请的一个实施例中,所述核心用户群体识别模块503可以包括如下子模块:
核心程度值计算子模块,用于计算所述用户标识在所述用户节点图中的核心程度值;
核心用户群体确定子模块,用于在所述核心程度值大于预设的核心阈值时,确定所述核心程度值对应的用户标识归属核心用户群体。
在本申请的一个实施例中,所述核心程度值计算子模块可以包括如下单元:
全局核心程度值设置单元,用于设置当前迭代的全局核心程度值;
节点度值统计单元,用于在所述用户节点图中,针对每个用户标识统计通过共同行 为关系相连的用户标识的数量,获得节点度值;
数量比较单元,用于在所述用户节点图中,判断每个用户标识的节点度值是否小于或等于全局核心程度值;若是,则调用用户标识去除单元,若否,则返回调用所述全局核心程度值设置单元,直至遍历所述用户节点图完成;
用户标识去除单元,用于在所述用户节点图中,去除节点度值小于或等于所述全局核心程度值的用户标识;
核心程度值赋值单元,用于将所述全局核心程度值赋值给在先去除的用户标识,作为先去除的用户标识的核心程度值;
共同行为关系删除单元,用于在所述用户节点图中,删除与在先去除的用户标识相连的共同行为关系,返回调用所述数量比较单元。
在本申请实施例的一个示例中,所述全局核心程度值设置单元可以包括子单元:
初始设置子单元,用于在首次迭代时,设置初始的全局核心程度值为1;
或者,
增值子单元,用于在非首次迭代时,在上一全局核心程度值的基础上加1,作为当前全局核心程度值。
在本申请的一个实施例中,所述目标用户群体划分模块504可以包括如下子模块:
第一标签配置子模块,用于在所述一个或多个核心用户群体中,对每个用户标识配置标签,所述标签具有数值;
第一标签传递子模块,用于将每个用户标识的标签传递至相连的用户标识;
第一标签选取子模块,用于从每个用户标识接收到的标签中,按照标签的数值选取一个标签作为所拥有的标签;
第一判断子模块,用于判断在所述一个或多个核心用户群体中,用户标识所拥有的标签是否发生变化;若是,则返回调用所述第一标签传递子模块;若否,则调用第一目标用户群体划分子模块;
第一目标用户群体划分子模块,用于将拥有相同标签的用户标识划分为目标用户群体。
在本申请的另一个实施例中,所述目标用户群体划分模块504可以包括如下子模块:
第二标签配置子模块,用于在所述一个或多个核心用户群体中,对每个用户标识配置标签;
第二标签传递子模块,用于将每个用户标识的标签传递至相连的用户标识;
第二标签选取子模块,用于从每个用户标识接收到的标签中,按照标签的数量选取一个标签作为所拥有的标签;
第二判断子模块,用于判断在所述一个或多个核心用户群体中,用户标识所拥有的标签是否发生变化,或者,当前是否小于预设的最大迭代次数;若是,则返回调用所述第二标签传递子模块;若否,则调用第二目标用户群体划分子模块;
第二目标用户群体划分子模块,用于将拥有相同标签的用户标识划分为目标用户群体。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非持续 性的电脑可读媒体(transitory media),如调制的数据信号和载波。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种用户群体的划分方法和一种用户群体的划分装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施 例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (18)

  1. 一种用户群体的划分方法,其特征在于,包括:
    抓取用户标识;
    建立所述用户标识之间的共同行为关系,获得用户节点图;
    在所述用户节点图中,根据所述共同行为关系识别一个或多个核心用户群体;
    在所述一个或多个核心用户群体中,根据所述共同行为关系划分一个或多个目标用户群体。
  2. 根据权利要求1所述的方法,其特征在于,所述建立所述用户标识之间的共同行为关系,获得用户节点图的步骤包括:
    查找所述用户标识的行为数据;
    从所述行为数据中识别共同的行为数据;
    对所述共同的行为数据所属的用户标识建立共同行为关系。
  3. 根据权利要求2所述的方法,其特征在于,所述查找所述用户标识的行为数据的步骤包括:
    从预置的数据库中提取在预设时间段内、所述用户标识的行为数据。
  4. 根据权利要求2所述的方法,其特征在于,所述对所述共同的行为数据所属的用户标识建立共同行为关系的步骤包括:
    按照行为数据的类型对所述共同的行为数据配置权重;
    当所述权重之和大于预设的权重阈值时,对所述共同的行为数据所属的用户标识建立共同行为关系。
  5. 根据权利要求1或2或3或4所述的方法,其特征在于,所述在所述用户节点图中,根据所述共同行为关系识别一个或多个核心用户群体的步骤包括:
    计算所述用户标识在所述用户节点图中的核心程度值;
    当所述核心程度值大于预设的核心阈值时,确定所述核心程度值对应的用户标识归属核心用户群体。
  6. 根据权利要求5所述的方法,其特征在于,所述计算所述用户标识在所述用户节点图中的核心程度值的步骤包括:
    设置当前迭代的全局核心程度值;
    在所述用户节点图中,针对每个用户标识统计通过共同行为关系相连的用户标识的数量,获得节点度值;
    在所述用户节点图中,判断每个用户标识的节点度值是否小于或等于全局核心程度值;
    若是,则去除节点度值小于或等于所述全局核心程度值的用户标识;
    将所述全局核心程度值赋值给在先去除的用户标识,作为先去除的用户标识的核心程度值;
    在所述用户节点图中,删除与在先去除的用户标识相连的共同行为关系,返回执行所述在所述用户节点图中,判断每个用户标识的节点度值是否小于或等于全局核心程度值的步骤;
    若否,则返回执行所述设置当前迭代的全局核心程度值的步骤,直至遍历所述用户节点图完成。
  7. 根据权利要求6所述的方法,其特征在于,所述设置当前迭代的全局核心程度值的步骤包括:
    在首次迭代时,设置初始的全局核心程度值为1;
    或者,
    在非首次迭代时,在上一全局核心程度值的基础上加1,作为当前全局核心程度值。
  8. 根据权利要求1或2或3或4或6或7所述的方法,其特征在于,所述在所述一个或多个核心用户群体中,根据所述共同行为关系划分一个或多个目标用户群体的步骤包括:
    在所述一个或多个核心用户群体中,对每个用户标识配置标签,所述标签具有数值;
    将每个用户标识的标签传递至相连的用户标识;
    从每个用户标识接收到的标签中,按照标签的数值选取一个标签作为所拥有的标签;
    判断在所述一个或多个核心用户群体中,用户标识所拥有的标签是否发生变化;
    若是,则返回执行所述将每个用户标识的标签传递至相连的用户标识的步骤;
    若否,则将拥有相同标签的用户标识划分为目标用户群体。
  9. 根据权利要求1或2或3或4或6或7所述的方法,其特征在于,所述在所述一个或多个核心用户群体中,根据所述共同行为关系划分一个或多个目标用户群体的步骤包括:
    在所述一个或多个核心用户群体中,对每个用户标识配置标签;
    将每个用户标识的标签传递至相连的用户标识;
    从每个用户标识接收到的标签中,按照标签的数量选取一个标签作为所拥有的标签;
    判断在所述一个或多个核心用户群体中,用户标识所拥有的标签是否发生变化,或者,当前是否小于预设的最大迭代次数;
    若是,则返回执行所述将每个用户标识的标签传递至相连的用户标识的步骤;
    若否,则将拥有相同标签的用户标识划分为目标用户群体。
  10. 一种用户群体的划分装置,其特征在于,包括:
    用户标识获取模块,用于抓取用户标识;
    用户节点图构建模块,用于建立所述用户标识之间的共同行为关系,获得用户节点图;
    核心用户群体识别模块,用于在所述用户节点图中,根据所述共同行为关系识别一个或多个核心用户群体;
    目标用户群体划分模块,用于在所述一个或多个核心用户群体中,根据所述共同行为关系划分一个或多个目标用户群体。
  11. 根据权利要求10所述的装置,其特征在于,所述用户节点图构建模块包括:
    行为数据查找子模块,用于查找所述用户标识的行为数据;
    共同行为数据识别子模块,用于从所述行为数据中识别共同的行为数据;
    共同行为关系建立子模块,用于对所述共同的行为数据所属的用户标识建立共同行为关系。
  12. 根据权利要求11所述的装置,其特征在于,所述行为数据查找子模块包括:
    时间段数据查找单元,用于从预置的数据库中提取在预设时间段内、所述用户标识的行为数据。
  13. 根据权利要求11所述的装置,其特征在于,所述共同行为关系建立子模块包括:
    权重配置单元,用于按照行为数据的类型对所述共同的行为数据配置权重;
    关系建立单元,用于在所述权重之和大于预设的权重阈值时,对所述共同的行为数据所属的用户标识建立共同行为关系。
  14. 根据权利要求10或11或12或13所述的装置,其特征在于,所述核心用户群体识别模块包括:
    核心程度值计算子模块,用于计算所述用户标识在所述用户节点图中的核心程度值;
    核心用户群体确定子模块,用于在所述核心程度值大于预设的核心阈值时,确定所述核心程度值对应的用户标识归属核心用户群体。
  15. 根据权利要求14所述的装置,其特征在于,所述核心程度值计算子模块包括:
    全局核心程度值设置单元,用于设置当前迭代的全局核心程度值;
    节点度值统计单元,用于在所述用户节点图中,针对每个用户标识统计通过共同行为关系相连的用户标识的数量,获得节点度值;
    数量比较单元,用于在所述用户节点图中,判断每个用户标识的节点度值是否小于或等于全局核心程度值;若是,则调用用户标识去除单元,若否,则返回调用所述全局核心程度值设置单元,直至遍历所述用户节点图完成;
    用户标识去除单元,用于在所述用户节点图中,去除节点度值小于或等于所述全局核心程度值的用户标识;
    核心程度值赋值单元,用于将所述全局核心程度值赋值给在先去除的用户标识,作为先去除的用户标识的核心程度值;
    共同行为关系删除单元,用于在所述用户节点图中,删除与在先去除的用户标识相连的共同行为关系,返回调用所述数量比较单元。
  16. 根据权利要求15所述的装置,其特征在于,所述全局核心程度值设置单元包括:
    初始设置子单元,用于在首次迭代时,设置初始的全局核心程度值为1;
    或者,
    增值子单元,用于在非首次迭代时,在上一全局核心程度值的基础上加1,作为当前全局核心程度值。
  17. 根据权利要求10或11或12或13或15或16所述的装置,其特征在于,所述目标用户群体划分模块包括:
    第一标签配置子模块,用于在所述一个或多个核心用户群体中,对每个用户标识配置标签,所述标签具有数值;
    第一标签传递子模块,用于将每个用户标识的标签传递至相连的用户标识;
    第一标签选取子模块,用于从每个用户标识接收到的标签中,按照标签的数值选取一个标签作为所拥有的标签;
    第一判断子模块,用于判断在所述一个或多个核心用户群体中,用户标识所拥有的标签是否发生变化;若是,则返回调用所述第一标签传递子模块;若否,则调用第一目标用户群体划分子模块;
    第一目标用户群体划分子模块,用于将拥有相同标签的用户标识划分为目标用户群体。
  18. 根据权利要求10或11或12或13或15或16所述的装置,其特征在于,所述目标用户群体划分模块包括:
    第二标签配置子模块,用于在所述一个或多个核心用户群体中,对每个用户标识配置标签;
    第二标签传递子模块,用于将每个用户标识的标签传递至相连的用户标识;
    第二标签选取子模块,用于从每个用户标识接收到的标签中,按照标签的数量选取一个标签作为所拥有的标签;
    第二判断子模块,用于判断在所述一个或多个核心用户群体中,用户标识所拥有的标签是否发生变化,或者,当前是否小于预设的最大迭代次数;若是,则返回调用所述第二标签传递子模块;若否,则调用第二目标用户群体划分子模块;
    第二目标用户群体划分子模块,用于将拥有相同标签的用户标识划分为目标用户群体。
PCT/CN2016/104490 2015-11-12 2016-11-04 一种用户群体的划分方法和装置 WO2017080398A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510772638.1A CN106708844A (zh) 2015-11-12 2015-11-12 一种用户群体的划分方法和装置
CN201510772638.1 2015-11-12

Publications (1)

Publication Number Publication Date
WO2017080398A1 true WO2017080398A1 (zh) 2017-05-18

Family

ID=58694517

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/104490 WO2017080398A1 (zh) 2015-11-12 2016-11-04 一种用户群体的划分方法和装置

Country Status (2)

Country Link
CN (1) CN106708844A (zh)
WO (1) WO2017080398A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046805A (zh) * 2019-03-29 2019-07-23 阿里巴巴集团控股有限公司 风险用户发现方法及装置
CN111651741A (zh) * 2020-06-05 2020-09-11 腾讯科技(深圳)有限公司 用户身份识别方法、装置、计算机设备和存储介质
CN111831894A (zh) * 2019-04-23 2020-10-27 北京嘀嘀无限科技发展有限公司 一种信息匹配方法及装置
CN111966951A (zh) * 2020-07-06 2020-11-20 东南数字经济发展研究院 一种基于社交电商交易数据的用户群体阶层划分方法
CN112016979A (zh) * 2020-09-08 2020-12-01 平安科技(深圳)有限公司 用户分群方法、装置、设备和计算机可读存储介质
CN112491819A (zh) * 2017-06-26 2021-03-12 创新先进技术有限公司 识别目标团伙的方法和装置
CN112925800A (zh) * 2021-02-26 2021-06-08 平安普惠企业管理有限公司 数据依赖判断方法、装置、计算机设备及存储介质

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107871277B (zh) * 2017-07-25 2021-04-13 平安普惠企业管理有限公司 服务器、客户关系挖掘的方法及计算机可读存储介质
CN108171267B (zh) * 2017-12-28 2022-03-22 阿里巴巴(中国)有限公司 用户群划分方法及装置、消息推送方法及装置
CN108416645B (zh) * 2018-01-19 2021-08-20 北京三快在线科技有限公司 一种针对用户的推荐方法、装置、存储介质和设备
CN108810089B (zh) * 2018-05-04 2021-07-30 微梦创科网络科技(中国)有限公司 一种信息推送方法、装置及存储介质
CN108763359A (zh) * 2018-05-16 2018-11-06 武汉斗鱼网络科技有限公司 一种具有关联关系的用户挖掘方法、装置及电子设备
CN109947865B (zh) * 2018-09-05 2023-06-30 中国银联股份有限公司 商户分类方法及商户分类系统
CN109344326B (zh) * 2018-09-11 2021-09-24 创新先进技术有限公司 一种社交圈的挖掘方法和装置
CN111127064B (zh) * 2018-11-01 2023-08-25 百度在线网络技术(北京)有限公司 用户社会属性的确定方法、装置与电子设备
CN111309815A (zh) * 2018-12-12 2020-06-19 北京嘀嘀无限科技发展有限公司 一种关系图谱的处理方法、装置和电子设备
CN110807129B (zh) * 2019-09-29 2024-02-20 北京淇瑀信息科技有限公司 多层用户关系图集合的生成方法、装置及电子设备
CN111309784B (zh) * 2020-02-13 2023-07-14 支付宝(杭州)信息技术有限公司 群体发现方法及装置
CN111814064A (zh) * 2020-06-24 2020-10-23 平安科技(深圳)有限公司 基于Neo4j的异常用户处理方法、装置、计算机设备和介质
CN113157767B (zh) * 2021-03-24 2022-06-07 支付宝(杭州)信息技术有限公司 一种风险数据监控方法、装置以及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090216581A1 (en) * 2008-02-25 2009-08-27 Carrier Scott R System and method for managing community assets
CN102194149A (zh) * 2010-03-01 2011-09-21 中国人民解放军国防科学技术大学 社区发现方法
CN103678669A (zh) * 2013-12-25 2014-03-26 福州大学 一种社交网络中的社区影响力评估系统及方法
CN103914493A (zh) * 2013-01-09 2014-07-09 北大方正集团有限公司 一种微博用户群体结构发现分析方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049496B (zh) * 2012-12-07 2016-08-17 北京百度网讯科技有限公司 一种对多个用户进行用户群划分的方法、装置与设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090216581A1 (en) * 2008-02-25 2009-08-27 Carrier Scott R System and method for managing community assets
CN102194149A (zh) * 2010-03-01 2011-09-21 中国人民解放军国防科学技术大学 社区发现方法
CN103914493A (zh) * 2013-01-09 2014-07-09 北大方正集团有限公司 一种微博用户群体结构发现分析方法及系统
CN103678669A (zh) * 2013-12-25 2014-03-26 福州大学 一种社交网络中的社区影响力评估系统及方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112491819A (zh) * 2017-06-26 2021-03-12 创新先进技术有限公司 识别目标团伙的方法和装置
CN112491819B (zh) * 2017-06-26 2022-09-20 创新先进技术有限公司 识别目标团伙的方法和装置
CN110046805A (zh) * 2019-03-29 2019-07-23 阿里巴巴集团控股有限公司 风险用户发现方法及装置
CN111831894A (zh) * 2019-04-23 2020-10-27 北京嘀嘀无限科技发展有限公司 一种信息匹配方法及装置
CN111651741A (zh) * 2020-06-05 2020-09-11 腾讯科技(深圳)有限公司 用户身份识别方法、装置、计算机设备和存储介质
CN111651741B (zh) * 2020-06-05 2024-05-07 腾讯科技(深圳)有限公司 用户身份识别方法、装置、计算机设备和存储介质
CN111966951A (zh) * 2020-07-06 2020-11-20 东南数字经济发展研究院 一种基于社交电商交易数据的用户群体阶层划分方法
CN112016979A (zh) * 2020-09-08 2020-12-01 平安科技(深圳)有限公司 用户分群方法、装置、设备和计算机可读存储介质
CN112016979B (zh) * 2020-09-08 2023-07-18 平安科技(深圳)有限公司 用户分群方法、装置、设备和计算机可读存储介质
CN112925800A (zh) * 2021-02-26 2021-06-08 平安普惠企业管理有限公司 数据依赖判断方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN106708844A (zh) 2017-05-24

Similar Documents

Publication Publication Date Title
WO2017080398A1 (zh) 一种用户群体的划分方法和装置
JP5922667B2 (ja) 製品情報の伝送
CN111046237B (zh) 用户行为数据处理方法、装置、电子设备及可读介质
US9129296B2 (en) Augmenting recommendation algorithms based on similarity between electronic content
US10467636B2 (en) Implementing retail customer analytics data model in a distributed computing environment
CN104077723B (zh) 一种社交网络推荐系统及方法
CN113722520B (zh) 图数据的查询方法及装置
CN110555172B (zh) 用户关系挖掘方法及装置、电子设备和存储介质
CN103248677B (zh) 互联网行为分析系统及其工作方法
WO2016101811A1 (zh) 一种信息排序方法及装置
CN109977135A (zh) 一种数据查询方法、装置及服务器
CN105391594A (zh) 识别特征账号的方法及装置
CN111258978A (zh) 一种数据存储的方法
JP2019508814A (ja) アプリケーション分類方法及び装置
CN110928984A (zh) 一种知识图谱的构建方法、装置、终端及存储介质
US10733244B2 (en) Data retrieval system
CN109918678A (zh) 一种字段含义识别方法和装置
CN109409940A (zh) 基于路径的浏览处理方法、装置、设备和存储介质
CN112528067A (zh) 图数据库的存储方法、读取方法、装置及设备
CN108154024A (zh) 一种数据检索方法、装置及电子设备
TWI720989B (zh) 推薦方法及裝置
CN108416645B (zh) 一种针对用户的推荐方法、装置、存储介质和设备
TW201828193A (zh) 一種用戶群體的劃分方法和裝置
CN103036726A (zh) 一种网络用户管理的方法及设备
CN112836126A (zh) 基于知识图谱的推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16863575

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16863575

Country of ref document: EP

Kind code of ref document: A1