WO2021036453A1 - 一种用户识别方法、装置、计算机设备 - Google Patents

一种用户识别方法、装置、计算机设备 Download PDF

Info

Publication number
WO2021036453A1
WO2021036453A1 PCT/CN2020/097853 CN2020097853W WO2021036453A1 WO 2021036453 A1 WO2021036453 A1 WO 2021036453A1 CN 2020097853 W CN2020097853 W CN 2020097853W WO 2021036453 A1 WO2021036453 A1 WO 2021036453A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
order
data
subject
node
Prior art date
Application number
PCT/CN2020/097853
Other languages
English (en)
French (fr)
Inventor
房树志
叶国华
刘佳进
肖潇
邵言
Original Assignee
苏宁云计算有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 苏宁云计算有限公司 filed Critical 苏宁云计算有限公司
Priority to CA3152848A priority Critical patent/CA3152848A1/en
Publication of WO2021036453A1 publication Critical patent/WO2021036453A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0609Buyer or seller confidence or verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0633Lists, e.g. purchase orders, compilation or processing
    • G06Q30/0635Processing of requisition or of purchase orders

Definitions

  • the present invention belongs to the field of computer technology, and in particular relates to a user identification method, device, and computer equipment.
  • the present invention proposes a user identification method, device, and computer equipment.
  • the method associates non-subject features to generate combined features, which overcomes the difficulty in obtaining strong correlation features or insufficient features of users in an e-commerce environment.
  • the present invention provides a user identification method, the method includes:
  • the subject feature is a feature that can directly determine the relationship between orders
  • the non-subject feature is a feature that cannot directly determine the relationship between orders
  • the order is abstracted as an order node
  • the feature value of the subject feature and the combination feature is abstracted as a feature node
  • the relationship between the order and the corresponding feature value is abstracted as an edge, according to the order node, feature node Create a bipartite graph with edges;
  • Clustering analysis is performed on the bipartite graph to obtain a clustering result, and suspicious user identification is performed according to the clustering result.
  • the method further includes:
  • the method further includes:
  • performing data processing on the integrated data to generate an order in a unified data format specifically includes:
  • establishing a bipartite graph according to the order nodes, characteristic nodes and edges specifically includes:
  • obtaining the order data in the preset time dimension specifically includes:
  • the first data and the second data are integrated to generate the order data.
  • performing a cluster analysis on the bipartite graph to obtain a clustering result, and identifying a suspicious user according to the clustering result specifically includes:
  • the risk judgment result is obtained according to the clustering result.
  • the identification data related to the order includes login and/or registration information.
  • the present invention provides a user identification device, which includes:
  • the data processing module is used to integrate the order data in the preset time dimension and the identification data related to the order;
  • the feature extraction module is used to obtain the subject feature and the non-subject feature from the integrated data and combine at least two of the non-subject features that meet the preset conditions to generate a combined feature, and determine the feature of the subject feature and the combined feature Value, wherein the subject feature is a feature that can directly determine the correlation between orders, and the non-subject feature is a feature that cannot directly determine the correlation between orders;
  • the relationship model establishment module is used to abstract the order as an order node, abstract the feature value of the subject feature and the combination feature as a feature node, and abstract the relationship between the order and the corresponding feature value as an edge, according to
  • the order nodes, characteristic nodes and edges establish a bipartite graph
  • the identification module is used to perform cluster analysis on the bipartite graph to obtain a clustering result, and identify suspicious users according to the clustering result.
  • the feature extraction module is also used for:
  • the device further includes:
  • the conversion module is used to perform data processing on the integrated data to generate an order in a unified data format.
  • the conversion module is specifically used for:
  • the relationship model establishment module is specifically used for:
  • the device further includes:
  • a data acquisition module for acquiring the first data generated when the order is generated; judging the status of the order within a preset time dimension, and acquiring the second data generated when the order status changes;
  • the data integration module is used to integrate the first data and the second data to generate the order data.
  • the identification module specifically includes:
  • the clustering module is used to cluster the order nodes and characteristic nodes by using the LPA algorithm to obtain clustering results;
  • the judgment module is used to obtain the risk judgment result according to the clustering result.
  • the identification data related to the order includes login and/or registration information.
  • the present invention provides a computer device, including:
  • One or more processors are One or more processors.
  • a memory associated with the one or more processors where the memory is used to store program instructions, and when the program instructions are read and executed by the one or more processors, perform the following operations:
  • the subject feature is a feature that can directly determine the relationship between orders
  • the non-subject feature is a feature that cannot directly determine the relationship between orders
  • the order is abstracted as an order node
  • the feature value of the subject feature and the combination feature is abstracted as a feature node
  • the relationship between the order and the corresponding feature value is abstracted as an edge, according to the order node, feature node Create a bipartite graph with edges;
  • Clustering analysis is performed on the bipartite graph to obtain a clustering result, and suspicious user identification is performed according to the clustering result.
  • the present invention integrates the data in the order life cycle, and associates the data in the order life cycle with the identification data, which solves the problems of complex shopping process and ununified data, and can better identify the characteristics of the subject And non-subject features, which provide sufficient information and efficient use for building graph models;
  • the present invention associates the non-subject features that meet the preset conditions to generate combined features, overcomes the problem of users' strong correlation features being difficult to obtain or insufficient features in an e-commerce environment, and makes full use of non-subject features to construct an accurate graph model;
  • the present invention acquires historical non-subject characteristics from historical order data, and associates and combines historical non-subject characteristics, which makes up for the factual shortcomings of lack of characteristics in the e-commerce environment, and provides a new method for digging deeper network relationships;
  • the present invention corrects the combined features through the LPA algorithm, effectively avoids excessive diffusion, and improves the accuracy of scalper gang discovery.
  • the present invention does not necessarily need to satisfy all the above-mentioned effects at the same time, and only needs to satisfy one of them.
  • FIG. 1 is an application environment diagram of a user identification method provided by an embodiment of the present application
  • FIG. 2 is a flowchart of a user identification method provided in Embodiment 1 of the present application.
  • FIG. 3 is a schematic structural diagram of a user identification device provided in Embodiment 2 of the present application.
  • This application provides a user identification method, which can be applied in the application environment as shown in FIG. 1.
  • the server 12 communicates with the database 11 and the terminal 13 through the network.
  • the database 11 is used to store order data and identification data.
  • the server 12 is used to perform operation calculations on the order data and identification data to identify scalpers.
  • the terminal 13 can be, but is not limited to, various personal computers, laptops, smart phones, and tablet computers.
  • the server 12 can be implemented as an independent server or a server cluster composed of multiple servers.
  • this application provides a user identification method, which includes the following steps:
  • the identification data related to the order includes login and/or registration information;
  • the order data in the preset time dimension includes: data generated in the preset time dimension, such as generating orders, modifying orders, and paying orders.
  • obtaining the order data in the preset time dimension may include the following steps:
  • the first data generated by generating an order includes data generated by generating an order within a preset time dimension, such as: order address information, etc.;
  • the second data generated by an order status change includes multiple submissions of an order and each submission Different information is used, and the information is changed when the order is paid.
  • step S21 Setting the preset time dimension to one hour further explains step S21:
  • order data Take the current moment as the end point to obtain orders within one hour to obtain order data; integrate order data with identification data (such as: ip information associated with ip attribution, operator and other information; member associated with registered mobile phone, registered ip, registered device model , Register the mobile phone attribution, operator and other information), and generate an order with a preset data format.
  • identification data such as: ip information associated with ip attribution, operator and other information; member associated with registered mobile phone, registered ip, registered device model , Register the mobile phone attribution, operator and other information
  • the data format of the integrated order can be as follows:
  • the order data can be enriched, and sufficient information is provided for the subsequent construction of the graph model; and the integrated data is formed into a specific data format, which solves the shopping process
  • the problem of complexity and unification of data provides an efficient way to build graph models.
  • subject characteristics refer to the characteristics that can directly determine the correlation between orders, such as: receipt information, mobile phone number; non-subject characteristics refer to characteristics that cannot directly determine the correlation between orders, such as: order IP, etc.
  • the subject feature and non-subject feature can be extracted, and at least two non-subject features that meet the preset conditions are combined to generate a combined feature, and the feature value of the subject feature and the combined feature can be determined .
  • one order has non-subjective characteristics (F1, F2, F3), and another order has non-subjective characteristics (F1, F2, F3, F4). If the feature F1 does not indicate that the two subjects have a relationship, therefore, According to preset conditions (such as setting a threshold for each feature), the features higher than the threshold are associated and combined to obtain the combined feature F1+F2+F3. At this time, F1+F2+F3 is the same subject (order) There is a correlation between.
  • the non-subject features that meet the preset conditions are associated to generate combined features, which can overcome the problem of users' strong correlation features being difficult to obtain or insufficient features in the e-commerce environment, and make full use of non-subject features to build accurate graph models.
  • featureVertex is a feature array composed of feature values of different orders
  • featureValue is a feature value of orders.
  • the distribution of historical order data obtained through statistics of historical order data is identified according to the distribution to obtain abnormal characteristics, that is, historical non-subject characteristics.
  • the statistical indicator may be set as a threshold value, and according to the set threshold value, historical non-subject features higher than the threshold value are associated and combined to generate historical combination features.
  • Each edge (i, j) is composed of an order node and a characteristic node.
  • the two nodes of each edge belong to two different node sets (for example: i belongs to the characteristic node set and j belongs to the order node set). In this way, Construct a bipartite graph.
  • the order node retains all the information of the characteristic node corresponding to the order.
  • building a bipartite graph based on order nodes, feature nodes and edges may include the following steps:
  • This step may specifically include:
  • the LPA algorithm can modify the combined features, effectively avoiding excessive diffusion, and improving the accuracy of scalper gang discovery.
  • This step specifically includes:
  • each node sends a message to its neighbor node, and at the same time, each node accepts the message sent by its neighbor node and accumulates the received group weight, and updates its own label according to the label with the largest cumulative weight until the label is stable.
  • risk conversion is performed on the clustering results according to business requirements, and suspicious users are identified.
  • the group risk is established. In this way, the scalper group is identified.
  • two data outputs are obtained.
  • One is the order information, including the unique code of the gang, which is convenient and fast for retrieval and statistics; the second is the gang information, which includes the number of members of the gang, information about the equipment involved, ip information, etc., to facilitate the rapid perception of the characteristics of the gang. Make quick decisions.
  • the present application provides a user identification device, including:
  • the data processing module 31 is used to integrate the order data in the preset time dimension and the identification data related to the order;
  • the feature extraction module 32 is configured to obtain the subject feature and the non-subject feature from the integrated data and combine at least two non-subject features that meet the preset conditions to generate a combined feature, and determine the feature value of the subject feature and the combined feature, where , Subject characteristics are characteristics that can directly determine the correlation between orders, and non-subject characteristics are characteristics that cannot directly determine the correlation between orders;
  • the relationship model establishment module 33 is used to abstract orders as order nodes, abstract the characteristic values of subject characteristics and combined features as characteristic nodes, and abstract the relationship between orders and corresponding characteristic values as edges, according to order nodes and characteristic nodes Create a bipartite graph with edges;
  • the identification module 34 is configured to perform cluster analysis on the bipartite graph to obtain a clustering result, and identify suspicious users according to the clustering result.
  • the above-mentioned feature extraction module 34 is also used for:
  • the above-mentioned device further includes:
  • the conversion module 35 is used to perform data processing on the integrated data to generate an order in a unified data format.
  • the above conversion module is specifically used for:
  • the above-mentioned relationship model establishment module 33 is specifically used for:
  • the above-mentioned device further includes:
  • the data acquisition module 36 is configured to acquire the first data generated by generating the order; determine the status of the order within the preset time dimension, and acquire the second data generated when the order status changes;
  • the data integration module 37 is used to integrate the first data and the second data to generate order data.
  • the aforementioned identification module 34 specifically includes:
  • the clustering module 341 is used to cluster the order nodes and characteristic nodes by using the LPA algorithm to obtain the clustering results;
  • the judgment module 342 is used to obtain the risk judgment result according to the clustering result.
  • the aforementioned identification data related to the order includes login and/or registration information.
  • the user identification device provided in the above embodiment performs user identification
  • only the division of the above-mentioned functional modules is used as an example for illustration.
  • the above-mentioned functions can be allocated by different functional modules as needed. That is, the internal structure of the device is divided into different functional modules to complete all or part of the functions described above.
  • the user identification device provided in the foregoing embodiment and the user identification method embodiment belong to the same concept, and the specific implementation process is detailed in the method embodiment, which will not be repeated here.
  • Embodiment 3 of the present application provides a computer device, including:
  • One or more processors are One or more processors.
  • the memory is used to store program instructions. When the program instructions are read and executed by one or more processors, the following operations are performed:
  • the order is abstracted as order nodes
  • the feature values of the subject characteristics and combined features are abstracted as feature nodes
  • the relationship between the order and the corresponding feature values is abstracted as edges, and a bipartite graph is established according to the order nodes, feature nodes and edges;

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用户识别方法、装置、计算机设备,方法包括:将预设时间维度内的订单数据和与订单相关的标识数据进行整合(S21);在整合后的数据中获取主体特征和非主体特征并对满足预设条件的至少两个非主体特征进行组合生成组合特征,确定主体特征和组合特征的特征值(S22);将订单抽象为订单节点,将主体特征和组合特征的特征值抽象为特征节点,将订单和对应的特征值之间的关系抽象为边,根据订单节点、特征节点及边建立二分图(S23);对二分图进行聚类分析得到聚类结果,根据聚类结果进行可疑用户识别(S24)。上述方法将非主体特征关联生成组合特征,克服了电商环境下用户强关联特征难以获取或特征不足的问题,利用非主体特征构建图模型,进而完成黄牛团伙的识别。

Description

一种用户识别方法、装置、计算机设备 技术领域
本发明属于计算机技术领域,尤其涉及一种用户识别方法、装置、计算机设备。
背景技术
目前,欺诈团伙的检测一般存在金融房贷领域,具体手段为通过提取一些标志性较强的个体属性作为图论中的节点、特征相同的点组成可连接的边,从而构建图结构。由于在金融房贷领域中,个人资质的审核往往需要身份证、手机号、紧急联系人等具有较强社会特征的信息,因此上述技术中利用了属性作为连接点,在金融行业可以达到风险检测的目的。然而在电商行业无法通过用户的一次购物就收集用户的相关信息,因此在电商行业用户具有标识性的属性往往过少、其他属性往往过泛。如,下单ip这个属性,在同一个小区、同一个商场wifi、用户在同一个地区连接了同一个移动基站往往都会出现同一个ip的情况,在这种情况下提取特征的方式方法就需要做出改变。此外,标签传播往往会把检测的群体扩大化,由于在电商场景中,用户下单往往成本较低,审核较少因此传统金融保险行业的欺诈网络无法完全适用于电商场景。
发明内容
为了解决现有技术的问题,本发明提出了一种用户识别方法、装置、计算机设备,本方法将非主体特征关联起来生成组合特征,克服了电商环境下用户强关联特征难以获取或特征不足的问题,充分利用了非主体特征来构建精准的图模型,进而完成黄牛团伙的识别。
本发明实施例提供的具体技术方案如下:
第一方面,本发明提供一种用户识别方法,所述方法包括:
将预设时间维度内的订单数据和与订单相关的标识数据进行整合;
在整合后的数据中获取主体特征和非主体特征并对满足预设条件的至少两个所述非主体特征进行组合生成组合特征,确定所述主体特征和组合特征的特征值,其中,所述主体特征为可以直接确定订单之间具有关联的特征,所述非主体特征为无法直接确定订单之间具有关联的特征;
将所述订单抽象为订单节点,将所述主体特征和组合特征的特征值抽象为特征节点,将所述订单和对应的特征值之间的关系抽象为边,根据所述订单节点、特征节点及边建立二分图;
对所述二分图进行聚类分析得到聚类结果,根据聚类结果进行可疑用户识别。
优选的,所述方法还包括:
对历史订单数据进行特征提取及统计,识别得到历史非主体特征;
将满足预设条件的至少两个所述历史非主体特征进行组合生成历史组合特征。
优选的,所述方法还包括:
对所述整合后的数据进行数据处理,生成统一数据格式的订单。
优选的,对所述整合后的数据进行数据处理,生成统一数据格式的订单具体包括:
对所述整合后的数据进行字段映射,将不同类型的数据格式转换成相同的主键形式;
对相同主键的数据进行聚合,生成统一数据格式的订单。
优选的,根据所述订单节点、特征节点及边建立二分图具体包括:
获取所述订单的唯一标识及所述主体特征和组合特征的特征值;
对所述唯一标识及特征值进行合并去重及编码处理;
将编码后的唯一标识及特征值与编码前的唯一标识及特征值进行对应关联;
根据关联后的数据建立二分图。
优选的,获取预设时间维度内的订单数据具体包括:
获取生成所述订单所产生的第一数据;
判断在预设时间维度内所述订单的状态,获取订单状态变化时所产生的第二数据;
将所述第一数据、第二数据进行整合,生成所述订单数据。
优选的,对所述二分图进行聚类分析得到聚类结果,根据聚类结果进行可疑用户识别具体包括:
利用LPA算法,对所述订单节点、特征节点进行聚类,得到聚类结果;
根据聚类结果得到风险判断结果。
优选的,所述与订单相关的标识数据包括登录和/或注册信息。
第二方面,本发明提供一种用户识别装置,所述装置包括:
数据处理模块,用于将预设时间维度内的订单数据和与订单相关的标识数据进行整合;
特征提取模块,用于在整合后的数据中获取主体特征和非主体特征并对满足预设条件的至少两个所述非主体特征进行组合生成组合特征,确定所述主体特征和组合特征的特征值,其中,所述主体特征为可以直接确定订单之间具有关联的特征,所述非主体特征为无法直接确定订单之间具有关联的特征;
关系模型建立模块,用于将所述订单抽象为订单节点,将所述主体特征和组合特征的特征值抽象为特征节点,将所述订单和对应的特征值之间的关系抽象为边,根据所述订单节点、特征节点及边建立二分图;
识别模块,用于对所述二分图进行聚类分析得到聚类结果,根据聚类结果进行可疑用户识别。
优选的,所述特征提取模块还用于:
对历史订单数据进行特征提取及统计,识别得到历史非主体特征;
将满足预设条件的至少两个所述历史非主体特征进行组合生成历史组合特 征。
优选的,所述装置还包括:
转换模块,用于对所述整合后的数据进行数据处理,生成统一数据格式的订单。
优选的,所述转换模块具体用于:
对所述整合后的数据进行字段映射,将不同类型的数据格式转换成相同的主键形式;
对相同主键的数据进行聚合,生成统一数据格式的订单。
优选的,所述关系模型建立模块具体用于:
获取所述订单的唯一标识及所述主体特征和组合特征的特征值;
对所述唯一标识及特征值进行合并去重及编码处理;
将编码后的唯一标识及特征值与编码前的唯一标识及特征值进行对应关联;
根据关联后的数据建立二分图。
优选的,所述装置还包括:
数据获取模块,用于获取生成所述订单所产生的第一数据;判断在预设时间维度内所述订单的状态,获取订单状态变化时所产生的第二数据;
数据整合模块,用于将所述第一数据、第二数据进行整合,生成所述订单数据。
优选的,所述识别模块具体包括:
聚类模块,用于利用LPA算法,对所述订单节点、特征节点进行聚类,得到聚类结果;
判断模块,用于根据聚类结果得到风险判断结果。
优选的,所述与订单相关的标识数据包括登录和/或注册信息。
第三方面,本发明提供一种计算机设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所 述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
将预设时间维度内的订单数据和与订单相关的标识数据进行整合;
在整合后的数据中获取主体特征和非主体特征并对满足预设条件的至少两个所述非主体特征进行组合生成组合特征,确定所述主体特征和组合特征的特征值,其中,所述主体特征为可以直接确定订单之间具有关联的特征,所述非主体特征为无法直接确定订单之间具有关联的特征;
将所述订单抽象为订单节点,将所述主体特征和组合特征的特征值抽象为特征节点,将所述订单和对应的特征值之间的关系抽象为边,根据所述订单节点、特征节点及边建立二分图;
对所述二分图进行聚类分析得到聚类结果,根据聚类结果进行可疑用户识别。
本发明实施例具有如下有益效果:
1、本发明对订单生命周期内的数据进行整合,并将订单生命周期内的数据与标识数据进行关联,解决了购物环节流程复杂、数据无法统一的问题,可以更好的识别出主体特征特征及非主体特征,为构建图模型提供了充分的信息和高效的使用方式;
2、本发明将满足预设条件的非主体特征关联起来生成组合特征,克服了电商环境下用户强关联特征难以获取或特征不足的问题,充分利用了非主体特征来构建精准的图模型;
3、本发明在历史订单数据中获取历史非主体特征,并将历史非主体特征关联组合,弥补了电商环境下特征缺失的事实缺点,为挖掘更深的网络关系提供了新的方法;
4、本发明通过LPA算法对组合特征进行修正,有效的避免的过度扩散,提升了黄牛团伙发现的准确度。
当然,本发明并不一定需要同时满足上述所有效果,只需满足其一即可。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种用户识别方法的应用环境图;
图2是本申请实施例一提供的一种用户识别方法的流程图;
图3是本申请实施例二提供的一种用户识别装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供一种用户识别方法,可以应用于如图1所示的应用环境中。其中,服务器12通过网络与数据库11和终端13进行通信。数据库11用于存储与订单数据以及标识数据,服务器12用于对订单数据以及标识数据进行操作计算以便识别黄牛团伙,终端13可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器12可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
实施例一
如图2所示,本申请提供了一种用户识别方法,包括如下步骤:
S21、将预设时间维度内的订单数据和与订单相关的标识数据进行整合。
本实施例中,与订单相关的标识数据包括登录和/或注册信息;预设时间维度内的订单数据包括:预设时间维度内生成订单、修改订单、支付订单等生成的 数据。
其中,获取预设时间维度内的订单数据可以包括以下步骤:
a、获取生成订单所产生的第一数据;
b、判断在预设时间维度内订单的状态,获取订单状态变化时所产生的第二数据;
c、将第一数据、第二数据进行整合,生成订单数据。
其中,生成订单所产生的第一数据包括在预设时间维度内生成订单所产生的数据,如:订单地址信息等;订单状态变化所产生的第二数据包括一个订单多次提交、每次提交使用了不同的信息,订单支付时信息变更等。
本方案中,将生成订单所产生的数据与订单状态变化时所产生的数据整合,便能够得到生命周期内的所有数据。
将预设时间维度设置为一小时对步骤S21进一步解释说明:
以当前时刻为终点获取一小时内的订单,得到订单数据;将订单数据与标识数据进行整合(如:ip信息关联ip归属地、运营商等信息;会员关联注册手机、注册ip、注册设备型号、注册手机归属地、运营商等信息),生成预设数据格式的订单。
其中,整合后的订单的数据格式可以为如下形式:
Figure PCTCN2020097853-appb-000001
Figure PCTCN2020097853-appb-000002
本方案中,通过将订单数据与标识数据进行关联,可以使得订单数据更丰富,为后续构建图模型提供了充分的信息;并且,将整合后的数据组成特定的数据格式,解决了购物环节流程复杂、数据无法统一的问题,为构建图模型提供了高效的使用方式。
S22、在整合后的数据中获取主体特征和非主体特征并对满足预设条件的至少两个非主体特征进行组合生成组合特征,确定主体特征和组合特征的特征值。
其中,主体特征指可以直接确定订单之间具有关联的特征,如:收货信息、手机号码;非主体特征是指无法直接确定订单之间具有关联的特征,如:下单IP等。
在获取主体特征和非主体特征之前,还可以包括如下步骤:
对整合后的数据进行数据处理,生成统一数据格式的订单。
本方案中,当订单的生命周期处在不同阶段时,产生的数据格式也不同,因此需要对整合后的数据进行统一格式转化,具体可以包括:
a、对整合后的数据进行字段映射,将不同类型的数据格式转换成相同的主键形式;
b、对相同主键的数据进行聚合,生成统一数据格式的订单。
通过对数据的主键进行转换处理,便于将订单不同生命周期产生的数据进行整合,为构建图模型提供了高效的使用方式。
当得到统一数据格式的订单后,即可对其进行主体特征和非主体特征提取,并将满足预设条件的至少两个非主体特征进行组合生成组合特征,确定主体特 征和组合特征的特征值。
其中,对于同一个设备,正常人在使用后可能通过出售流转到黑产中,因此如果不做时效限制则会造成网络无边界,此时,需要根据历史订单数据对主体特征进行时效分析,避免误判正常用户。
组合特征的生成过程如下:
示例性的,一个订单有非主体性特征(F1、F2、F3),另外一个订单有非主体特征(F1、F2、F3、F4),若特征F1不具备标识两个主体具有关系,因此,根据预设的条件(如:为每一个特征设定阈值),将高于阈值的特征进行关联组合,得到组合特征F1+F2+F3,此时,F1+F2+F3相同的主体(订单)之间具有关联。
本方案中,将满足预设条件的非主体特征关联起来生成组合特征,可以克服电商环境下用户强关联特征难以获取或特征不足的问题,充分利用了非主体特征来构建精准的图模型。
需要说明的是,一个订单中,由于组合特征具有多样性,因此,一个订单所对应的特征值可以有多个。具体的,参见如下数据结构:
Figure PCTCN2020097853-appb-000003
Figure PCTCN2020097853-appb-000004
其中,featureVertex为由不同订单的特征值组成的特征数组,featureValue为订单的特征值。
此外,为了得到更多的组合特征来确定订单之间的联系,弥补电商环境下特征缺失的事实缺点,实现更深层次的网络关系的挖掘,还可以对历史订单数据进行统计及特征提取,从而得到组合特征,具体的,对历史订单数据进行统计及特征提取生成组合特征可以包括:
a、对历史订单数据进行特征提取及统计,识别得到历史非主体特征;
具体的,通过对历史订单数据的统计得到的历史订单数据的分布情况,根据分布情况识别得到异常特征,即,历史非主体特征。
b、将满足预设条件的至少两个历史非主体特征进行组合生成历史组合特征。
示例性的,统计指标可以设置为一阈值,根据设置的阈值,将高于阈值的历史非主体特征进行关联组合,从而生成历史组合特征。
S23、将订单抽象为订单节点,将主体特征和组合特征的特征值抽象为特征节点,将订单和对应的特征值之间的关系抽象为边,根据订单节点、特征节点及边建立二分图。
本方案中的特征节点和订单节点组合构成节点集合。每一条边(i,j)由订单节点和特征节点组成,每条边两个节点分别属于两个不同的节点集(如:i属于特征节点集合,j属于订单节点集合),如此,便能构建得到一个二分图。二分图中,订单节点保留该订单对应的特征节点的全部信息。
其中,根据订单节点、特征节点及边建立二分图可以包括如下步骤:
a、获取订单的唯一标识及主体特征和组合特征的特征值;
b、对唯一标识及特征值进行合并去重及编码处理;
c、将编码后的唯一标识及特征值与编码前的唯一标识及特征值进行对应关联;
d、根据关联后的数据建立二分图。
示例性的:
1、提取订单的唯一标识和特征值数据,构建dataframe表,格式如下表1所示:
表1
Figure PCTCN2020097853-appb-000005
2、将订单标识和特征值进行合并去重,成单列dataframe,如下表2所示:
表2
Figure PCTCN2020097853-appb-000006
3、为订单标识和特征值分配ID,如下表3所示:
表3
Figure PCTCN2020097853-appb-000007
Figure PCTCN2020097853-appb-000008
4、将表1及表3进行关联,将字符串类型的对应关系转换成long数字的映射关系,如下表4所示:
表4
Figure PCTCN2020097853-appb-000009
5、根据表4建立二分图。
S24、对二分图进行聚类分析得到聚类结果,根据聚类结果进行可疑用户识别。
其中,通过图的连通性相关的算法,对二分图中的节点和边进行聚类,输出具有相同关联的群组,从而进行可疑用户的识别,该步骤具体可以包括:
a、利用LPA算法,对订单节点、特征节点进行聚类,得到聚类结果;
其中,LPA算法可以对组合特征进行修正,有效的避免的过度扩散,提升了黄牛团伙发现的准确度。
该步骤具体包括:
1、为所有节点设置唯一标签;
2、刷新所有节点的标签直至收敛,生成社区结构。
具体的,每一个节点都向其邻居节点发送消息,同时,每一个节点接受其邻居节点发送的消息并且对接收到的群组权重进行累加,根据累加权重最大的标 签更新自身的标签直至标签稳定,生成社区结构;其中,消息的权重为节点权重、边权重和分割系数的乘积。
b、根据聚类结果得到风险判断结果。
具体的,根据业务需求对聚类结果进行风险转换,识别得到可疑用户。
示例性的,当某类商品一个团伙购买超过n,则团伙风险成立,如此,即识别得到黄牛团伙。
此外,在对聚类结果进行风险转换后,得到两种数据输出。一种为订单信息,包含团伙唯一性编码等,方便快速的检索和统计;二为团伙信息,包含团伙的成员个数、涉及的设备信息、ip信息等,方便对团伙特性进行快速的感知从而快速决策。
实施例二
如图3所示,本申请提供了一种用户识别装置,包括:
数据处理模块31,用于将预设时间维度内的订单数据和与订单相关的标识数据进行整合;
特征提取模块32,用于在整合后的数据中获取主体特征和非主体特征并对满足预设条件的至少两个非主体特征进行组合生成组合特征,确定主体特征和组合特征的特征值,其中,主体特征为可以直接确定订单之间具有关联的特征,非主体特征为无法直接确定订单之间具有关联的特征;
关系模型建立模块33,用于将订单抽象为订单节点,将主体特征和组合特征的特征值抽象为特征节点,将订单和对应的特征值之间的关系抽象为边,根据订单节点、特征节点及边建立二分图;
识别模块34,用于对二分图进行聚类分析得到聚类结果,根据聚类结果进行可疑用户识别。
优选的,上述特征提取模块34还用于:
对历史订单数据进行特征提取及统计,识别得到历史非主体特征;
将满足预设条件的至少两个历史非主体特征进行组合生成历史组合特征。
优选的,上述装置还包括:
转换模块35,用于对整合后的数据进行数据处理,生成统一数据格式的订单。
优选的,上述转换模块具体用于:
对整合后的数据进行字段映射,将不同类型的数据格式转换成相同的主键形式;
对相同主键的数据进行聚合,生成统一数据格式的订单。
优选的,上述关系模型建立模块33具体用于:
获取订单的唯一标识及主体特征和组合特征的特征值;
对唯一标识及特征值进行合并去重及编码处理;
将编码后的唯一标识及特征值与编码前的唯一标识及特征值进行对应关联;
根据关联后的数据建立二分图。
优选的,上述装置还包括:
数据获取模块36,用于获取生成订单所产生的第一数据;判断在预设时间维度内订单的状态,获取订单状态变化时所产生的第二数据;
数据整合模块37,用于将第一数据、第二数据进行整合,生成订单数据。
优选的,上述识别模块34具体包括:
聚类模块341,用于利用LPA算法,对订单节点、特征节点进行聚类,得到聚类结果;
判断模块342,用于根据聚类结果得到风险判断结果。
优选的,上述与订单相关的标识数据包括登录和/或注册信息。
需要说明的是,上述实施例提供的用户识别装置在进行用户识别时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的用户识别装置与用户识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
实施例三
对应上述方法和装置,本申请实施例三提供一种计算机设备,包括:
一个或多个处理器;以及
与一个或多个处理器关联的存储器,存储器用于存储程序指令,程序指令在被一个或多个处理器读取执行时,执行如下操作:
将预设时间维度内的订单数据和与订单相关的标识数据进行整合;
在整合后的数据中获取主体特征和非主体特征并对满足预设条件的至少两个非主体特征进行组合生成组合特征,确定主体特征和组合特征的特征值,其中,主体特征为可以直接确定订单之间具有关联的特征,非主体特征为无法直接确定订单之间具有关联的特征;
将订单抽象为订单节点,将主体特征和组合特征的特征值抽象为特征节点,将订单和对应的特征值之间的关系抽象为边,根据订单节点、特征节点及边建立二分图;
对二分图进行聚类分析得到聚类结果,根据聚类结果进行可疑用户识别。
尽管已描述了本发明实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

  1. 一种用户识别方法,其特征在于,所述方法包括:
    将预设时间维度内的订单数据和与订单相关的标识数据进行整合;
    在整合后的数据中获取主体特征和非主体特征并对满足预设条件的至少两个所述非主体特征进行组合生成组合特征,确定所述主体特征和组合特征的特征值,其中,所述主体特征为可以直接确定订单之间具有关联的特征,所述非主体特征为无法直接确定订单之间具有关联的特征;
    将所述订单抽象为订单节点,将所述主体特征和组合特征的特征值抽象为特征节点,将所述订单和对应的特征值之间的关系抽象为边,根据所述订单节点、特征节点及边建立二分图;
    对所述二分图进行聚类分析得到聚类结果,根据聚类结果进行可疑用户识别。
  2. 根据权利要求1所述的方法,其特征在于,所述方法还包括:
    对历史订单数据进行特征提取及统计,识别得到历史非主体特征;
    将满足预设条件的至少两个所述历史非主体特征进行组合生成历史组合特征。
  3. 根据权利要求1所述的方法,其特征在于,所述方法还包括:
    对所述整合后的数据进行数据处理,生成统一数据格式的订单。
  4. 根据权利要求3所述的方法,其特征在于,对所述整合后的数据进行数据处理,生成统一数据格式的订单具体包括:
    对所述整合后的数据进行字段映射,将不同类型的数据格式转换成相同的主键形式;
    对相同主键的数据进行聚合,生成统一数据格式的订单。
  5. 根据权利要求1所述的方法,其特征在于,根据所述订单节点、特征节点及边建立二分图具体包括:
    获取所述订单的唯一标识及所述主体特征和组合特征的特征值;
    对所述唯一标识及特征值进行合并去重及编码处理;
    将编码后的唯一标识及特征值与编码前的唯一标识及特征值进行对应关联;
    根据关联后的数据建立二分图。
  6. 根据权利要求1~5任意一项所述的方法,其特征在于,获取预设时间维度内的订单数据具体包括:
    获取生成所述订单所产生的第一数据;
    判断在预设时间维度内所述订单的状态,获取订单状态变化时所产生的第二数据;
    将所述第一数据、第二数据进行整合,生成所述订单数据。
  7. 根据权利要求1~5任意一项所述的方法,其特征在于,对所述二分图进行聚类分析得到聚类结果,根据聚类结果进行可疑用户识别具体包括:
    利用LPA算法,对所述订单节点、特征节点进行聚类,得到聚类结果;
    根据聚类结果得到风险判断结果。
  8. 根据权利要求1~5任意一项所述的方法,其特征在于,所述与订单相关的标识数据包括登录和/或注册信息。
  9. 一种用户识别装置,其特征在于,所述装置包括:
    数据处理模块,用于将预设时间维度内的订单数据和与订单相关的标识数据进行整合;
    特征提取模块,用于在整合后的数据中获取主体特征和非主体特征并对满足预设条件的至少两个所述非主体特征进行组合生成组合特征,确定所述主体特征和组合特征的特征值,其中,所述主体特征为可以直接确定订单之间具有关联的特征,所述非主体特征为无法直接确定订单之间具有关联的特征;
    关系模型建立模块,用于将所述订单抽象为订单节点,将所述主体特征和组合特征的特征值抽象为特征节点,将所述订单和对应的特征值之间的关系抽象为边,根据所述订单节点、特征节点及边建立二分图;
    识别模块,用于对所述二分图进行聚类分析得到聚类结果,根据聚类结果进行可疑用户识别。
  10. 一种计算机设备,其特征在于,包括:
    一个或多个处理器;以及
    与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
    将预设时间维度内的订单数据和与订单相关的标识数据进行整合;
    在整合后的数据中获取主体特征和非主体特征并对满足预设条件的至少两个所述非主体特征进行组合生成组合特征,确定所述主体特征和组合特征的特征值,其中,所述主体特征为可以直接确定订单之间具有关联的特征,所述非主体特征为无法直接确定订单之间具有关联的特征;
    将所述订单抽象为订单节点,将所述主体特征和组合特征的特征值抽象为特征节点,将所述订单和对应的特征值之间的关系抽象为边,根据所述订单节点、特征节点及边建立二分图;
    对所述二分图进行聚类分析得到聚类结果,根据聚类结果进行可疑用户识别。
PCT/CN2020/097853 2019-08-28 2020-06-24 一种用户识别方法、装置、计算机设备 WO2021036453A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CA3152848A CA3152848A1 (en) 2019-08-28 2020-06-24 User identifying method and device, and computer equipment

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910801967.2A CN110648195B (zh) 2019-08-28 2019-08-28 一种用户识别方法、装置、计算机设备
CN201910801967.2 2019-08-28

Publications (1)

Publication Number Publication Date
WO2021036453A1 true WO2021036453A1 (zh) 2021-03-04

Family

ID=69009933

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/097853 WO2021036453A1 (zh) 2019-08-28 2020-06-24 一种用户识别方法、装置、计算机设备

Country Status (3)

Country Link
CN (1) CN110648195B (zh)
CA (1) CA3152848A1 (zh)
WO (1) WO2021036453A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378899A (zh) * 2021-05-28 2021-09-10 百果园技术(新加坡)有限公司 非正常账号识别方法、装置、设备和存储介质
CN113590188A (zh) * 2021-07-30 2021-11-02 上海识装信息科技有限公司 一种应用程序崩溃堆栈聚合的方法、装置及存储介质
CN113689292A (zh) * 2021-09-18 2021-11-23 杭银消费金融股份有限公司 基于图像背景识别的用户聚集识别方法及系统

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111383050A (zh) * 2020-02-21 2020-07-07 中国平安财产保险股份有限公司 产品数据整合及分析方法、装置及计算机可读存储介质
CN111753154B (zh) * 2020-06-22 2024-03-19 北京三快在线科技有限公司 用户数据处理方法、装置、服务器及计算机可读存储介质
CN116934418B (zh) * 2023-06-15 2024-03-19 广州淘通科技股份有限公司 一种异常订单的检测预警方法、系统、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050044073A1 (en) * 2003-08-18 2005-02-24 International Business Machines Corporation Frequent pattern mining apparatus, frequent pattern mining method, and program and recording medium therefor
CN105447117A (zh) * 2015-11-16 2016-03-30 北京邮电大学 一种用户聚类的方法和装置
CN106127505A (zh) * 2016-06-14 2016-11-16 北京众成汇通信息技术有限公司 一种刷单识别方法及装置
CN109978033A (zh) * 2019-03-15 2019-07-05 第四范式(北京)技术有限公司 同操作人识别模型的构建与同操作人识别的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050044073A1 (en) * 2003-08-18 2005-02-24 International Business Machines Corporation Frequent pattern mining apparatus, frequent pattern mining method, and program and recording medium therefor
CN105447117A (zh) * 2015-11-16 2016-03-30 北京邮电大学 一种用户聚类的方法和装置
CN106127505A (zh) * 2016-06-14 2016-11-16 北京众成汇通信息技术有限公司 一种刷单识别方法及装置
CN109978033A (zh) * 2019-03-15 2019-07-05 第四范式(北京)技术有限公司 同操作人识别模型的构建与同操作人识别的方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378899A (zh) * 2021-05-28 2021-09-10 百果园技术(新加坡)有限公司 非正常账号识别方法、装置、设备和存储介质
CN113378899B (zh) * 2021-05-28 2024-05-28 百果园技术(新加坡)有限公司 非正常账号识别方法、装置、设备和存储介质
CN113590188A (zh) * 2021-07-30 2021-11-02 上海识装信息科技有限公司 一种应用程序崩溃堆栈聚合的方法、装置及存储介质
CN113689292A (zh) * 2021-09-18 2021-11-23 杭银消费金融股份有限公司 基于图像背景识别的用户聚集识别方法及系统

Also Published As

Publication number Publication date
CA3152848A1 (en) 2021-03-04
CN110648195A (zh) 2020-01-03
CN110648195B (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
WO2021036453A1 (zh) 一种用户识别方法、装置、计算机设备
CN110543586B (zh) 多重用户身份融合方法、装置、设备及存储介质
WO2020186901A1 (zh) 基于区块链的数据核对系统、方法、计算设备及存储介质
US11003896B2 (en) Entity recognition from an image
WO2021239004A1 (zh) 异常社群检测方法、装置、计算机设备及存储介质
WO2019024496A1 (zh) 企业推荐方法及应用服务器
CN104077723B (zh) 一种社交网络推荐系统及方法
WO2020257993A1 (zh) 内容推送方法、装置、服务端及存储介质
CN111814065B (zh) 信息传播路径分析方法、装置、计算机设备及存储介质
CN111476595A (zh) 产品推送方法、装置、计算机设备和存储介质
WO2023093638A1 (zh) 异常数据识别方法、装置、设备和存储介质
CN111768242A (zh) 下单率预测方法、设备及可读存储介质
CN116070663A (zh) 一种物资标识编码方法、装置、设备及存储介质
US10979848B1 (en) Method for identifying a device using attributes and location signatures from the device
CN111401478B (zh) 数据异常识别方法以及装置
CN111669466B (zh) 智能外呼系统配置方法、装置及计算机可读存储介质
CN115048352B (zh) 一种日志字段提取方法、装置、设备和存储介质
CN116303657A (zh) 群体画像生成方法、装置、计算机设备和存储介质
CN107679096B (zh) 数据集市间指标共享的方法和装置
US11941153B2 (en) De-identification method for big data
US20210141791A1 (en) Method and system for generating a hybrid data model
CN114818635A (zh) 数据报表生成方法、装置、电子设备及存储介质
CN113743838A (zh) 目标用户识别方法、装置、计算机设备和存储介质
CN110781309A (zh) 一种基于模式匹配的实体并列关系相似度计算方法
CN110956430A (zh) 一种部门推荐的方法和装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20856246

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 3152848

Country of ref document: CA

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20856246

Country of ref document: EP

Kind code of ref document: A1