WO2022252363A1 - 数据处理方法、计算机设备以及可读存储介质 - Google Patents

数据处理方法、计算机设备以及可读存储介质 Download PDF

Info

Publication number
WO2022252363A1
WO2022252363A1 PCT/CN2021/107114 CN2021107114W WO2022252363A1 WO 2022252363 A1 WO2022252363 A1 WO 2022252363A1 CN 2021107114 W CN2021107114 W CN 2021107114W WO 2022252363 A1 WO2022252363 A1 WO 2022252363A1
Authority
WO
WIPO (PCT)
Prior art keywords
attribute
risk
graph
isomorphic
risk control
Prior art date
Application number
PCT/CN2021/107114
Other languages
English (en)
French (fr)
Inventor
余意
Original Assignee
腾讯云计算(北京)有限责任公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 腾讯云计算(北京)有限责任公司 filed Critical 腾讯云计算(北京)有限责任公司
Publication of WO2022252363A1 publication Critical patent/WO2022252363A1/zh
Priority to US18/320,313 priority Critical patent/US20230289828A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Definitions

  • the present application relates to the field of computer technology, and in particular to a data processing method, computer equipment and a readable storage medium.
  • Embodiments of the present application provide a data processing method, computer equipment, and a readable storage medium, which can improve detection coverage and detection accuracy of cheating traffic. Described technical scheme is as follows:
  • a data processing method including:
  • An acquisition module configured to acquire a service request initiated by a target user; acquire the corresponding first attribute data of the service request, and acquire the user social group of the target user;
  • a graph construction module configured to use the first attribute data and the second attribute data of associated users in the user social group as attribute nodes; respectively construct isomorphic graphs and heterogeneous graphs;
  • a graph vector determination module configured to perform node sequence sampling on the isomorphic graph and the heterogeneous graph, and generate a graph-associated feature vector of an attribute node corresponding to the first attribute data according to the attribute node sequence obtained by sampling;
  • a risk determination module configured to perform risk prediction processing on the attribute label, the graph-associated feature vector, and the behavior feature corresponding to the first attribute data, to obtain a target risk prediction result
  • the processor is connected to the memory, wherein the memory is used to store a computer program, and when the computer program is executed by the processor, the computer device executes the method provided by the embodiment of the present application.
  • risk prediction processing is performed on business requests to obtain target risk prediction results, which are difficult to find through manual experience.
  • the dimensional features can improve the accuracy of the target risk prediction results, and then perform anti-cheating processing on business requests based on the target risk prediction results, improving the detection coverage and detection accuracy of fraudulent traffic.
  • FIG. 4 is a schematic structural diagram of an isomorphic graph provided in an embodiment of the present application.
  • FIG. 7 is a schematic diagram of a community discovery process provided by an embodiment of the present application.
  • the attributes of the attribute nodes in the isomorphic graph are the same, and the weight of the edge is determined by the commonality information between the attribute nodes.
  • the attribute nodes in the isomorphic graph are the request accounts of different users. The information indicates that the number of shared IPs is 2, and the edge weight of the attribute node corresponding to the requesting account 1 and the attribute node corresponding to the requesting account 2 is 2 at this time.
  • the community discovery process is performed on the isomorphic graph to obtain the attribute label for the business request.
  • community discovery is to divide the attribute nodes in the isomorphic graph, and divide the attribute nodes with relatively close connection into the same community.
  • the attribute label is the community attribute label of the community where the attribute node corresponding to the service attribute data of the service request is located.
  • attribute nodes belonging to the same community are closely connected. For example, attribute node 1 and attribute node 3 in community A are illegal accounts, and the attribute node corresponding to the request account that initiated the service request also belongs to community A, then the request The account may also be an offending account.
  • the process of constructing the isomorphic graph and the heterogeneous graph includes: using the attribute data corresponding to the service request and the attribute data corresponding to the associated business of the associated user in the user social group as attribute nodes, wherein the number of attribute nodes is at least two , and attribute nodes correspond to attribute types, such as: attribute types include account type, IP address type, device number type, etc.; among at least two attribute nodes, obtain attribute nodes with the same attribute type as isomorphic attribute nodes;
  • the commonality information of the attribute data between the isomorphic attribute nodes determines the weight of the first edge between the isomorphic attribute nodes.
  • the commonality information is the number of shared IPs; isomorphic graph.
  • Step 306 perform anti-cheating processing associated with the target risk prediction result on the service request.
  • the isomorphic graph 71 is optimized by modularity, and the transfer isomorphic graph 72 is obtained, which includes four transfer communities. To facilitate understanding, attribute nodes in different transfer communities are marked with different colors. Inside each transfer community, The connection relationship of attribute nodes is relatively tight, while the connection relationship between different transfer communities is relatively sparse.
  • each reconstructed attribute node represents a transfer community
  • the edge weight between reconstructed attribute nodes is the sum of the edge weights of all attribute nodes in the corresponding transfer community, as shown in Figure 5
  • the weight of the edge is 1, at this time, the edge between the transfer community 722 and the transfer community 721 is only the connection edge between the attribute node 11 and the attribute node 6 with an edge weight of 1, Then in the reconstructed isomorphic graph 73 , the edge weight between the reconstructed attribute node 731 and the reconstructed attribute node 732 is 1.
  • the decision engine 91 can call the risk control detection model online, and then the model deployment
  • the platform 92 can provide real-time risk control detection model services through the called risk control detection model, the specific process is as follows:
  • the graph construction module 102 includes: a node determination unit 1021 , an isomorphic graph construction unit 1022 and a heterogeneous graph construction unit 1023 .
  • An isomorphic graph construction unit 1022 configured to obtain, among at least two attribute nodes, attribute nodes of the same attribute type as isomorphic attribute nodes;
  • the graph vector determining module 104 includes: an isomorphic vector determining unit 1041 , a heterogeneous vector determining unit 1042 and a splicing unit 1043 .

Abstract

本发明公开了一种数据处理方法、装置、计算机设备以及可读存储介质,涉及计算机技术领域。该方法包括:接收目标账号发起的第一业务请求,目标账号对应的关联账号发起有第二业务请求;根据属性数据构建同构图和异构图;对同构图进行社区划分,得到第一业务请求的属性标签;对属性节点进行节点序列采样,得到第一业务请求对应的图关联特征向量;对上述进行风险预测,得到风险预测结果。基于这些多个维度特征对业务请求进行风险预测处理,得到目标风险预测结果,通过挖掘人工经验难以发现的维度特征,可以提高目标风险预测结果的准确性,提高了对作弊流量的检测覆盖率和检测准确率。

Description

数据处理方法、计算机设备以及可读存储介质
本申请要求于2021年06月03日提交的申请号为202110622162.9、发明名称为“一种数据处理方法、计算机设备以及可读存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、计算机设备以及可读存储介质。
背景技术
在流量风控行业,作弊流量存在于广告、零售、电商、出行等多个行业,比如,虚假曝光点击量、虚假安装激活量、虚假注册登录量等等,造成大量业务费用损失。
相关技术中,通常依靠人工经验从海量业务数据中确定出作弊流量,然后对作弊流量的来源进行识别分析,对产生作弊流量的恶意资源和恶意手段进行标注,后续对于标注过的恶意资源或者恶意手段产生的流量,可以快速进行识别。
然而,产生作弊流量的资源和手段不停的在发生演变,人工标注的效率较低,导致对作弊流量的检测覆盖率不足,使得作弊流量容易绕开风控,检测准确率降低。
发明内容
本申请实施例提供一种数据处理方法、计算机设备以及可读存储介质,可以提高对作弊流量的检测覆盖率和检测准确率。所述技术方案如下:
一方面,提供了一种数据处理方法,包括:
获取由目标用户所发起的业务请求;
获取所述业务请求所述对应的第一属性数据,获取所述目标用户的用户社交群,以所述第一属性数据和所述用户社交群中的关联用户的第二属性数据为属性节点,分别构建同构图和异构图;
对所述同构图进行社区发现处理,得到针对所述业务请求的属性标签;
分别对所述同构图和所述异构图进行节点序列采样,根据采样得到的属性节点序列,生成所述第一属性数据对应的属性节点的图关联特征向量;
对所述属性标签、图关联特征向量以及所述第一属性数据对应的行为特征进行风险预测处理,得到目标风险预测结果;
对所述业务请求进行与所述目标风险预测结果相关联的反作弊处理。
另一方面,提供了一种数据处理装置,所述装置包括:
获取模块,用于获取由目标用户所发起的业务请求;获取所述业务请求所述对应的第一属性数据,获取所述目标用户的用户社交群;
图构建模块,用于以所述第一属性数据和所述用户社交群中的关联用户的第二属性数据为属性节点;分别构建同构图和异构图;
标签确定模块,用于对所述同构图进行社区发现处理,得到针对所述业务请求的属性标签;
图向量确定模块,用于分别对所述同构图和所述异构图进行节点序列采样,根据采样得到的属性节点序列,生成所述第一属性数据对应的属性节点的图关联特征向量;
风险确定模块,用于对所述属性标签、图关联特征向量以及所述第一属性数据对应的行为特征进行风险预测处理,得到目标风险预测结果;
反作弊模块,用于对所述业务请求进行与所述目标风险预测结果相关联的反作弊处理。
另一方面,提供了一种计算机设备,包括:处理器和存储器;
处理器与存储器相连,其中,存储器用于存储计算机程序,计算机程序被处理器执行时,使得该计算机设备执行本申请实施例提供的方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行本申请实施例提供的方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例提供的方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过自动提取用于表征业务请求不同维度特征的属性标签、图关联特征向量和行为特征,并基于这些多个维度特征对业务请求进行风险预测处理,得到目标风险预测结果,通过挖掘人工经验难以发现的维度特征,可以提高目标风险预测结果的准确性,再基于该目标风险预测结果对业务请求进行反作弊处理,提高了对作弊流量的检测覆盖率和检测准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构示意图;
图2是本申请实施例提供的一种风险提示的场景示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图;
图4是本申请实施例提供的一种同构图的结构示意图;
图5是本申请实施例提供的一种异构图的结构示意图;
图6是本申请实施例提供的一种风控检测方法的流程示意图;
图7是本申请实施例提供的一种社区发现处理的示意图;
图8是本申请实施例提供的一种同构图节点嵌入实现的场景示意图;
图9是本申请实施例提供的一种决策引擎和模型部署平台的关系示意图;
图10是本申请实施例提供的一种模型部署平台的架构示意图;
图11是本申请实施例提供的一种数据处理装置的结构示意图;
图12是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。以下介绍本申请的数据处理方法,本说明书提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本申请实施例提供的方案涉及人工智能的自然语言处理技术以及机器学习等技术,具体通过如下实施例进行说明,请参见图1,图1是本申请实施例提供的一种网络架构示意图。如图1所示,该系统可以包括业务服务器100以及终端设备集群1010,该终端设备集群1010可以包括终端设备10a、终端设备10b、…、终端设备10n,其中,终端设备集群1010之间可以存在通信连接,例如终端设备10a与终端设备10b之间存在通信连接,终端设备10b与终端设备10n之间存在通信连接,且终端设备集群1010中的任一终端设备可以与业务服务器100存在通信连接,例如终端设备10a与业务服务器100之间存在通信连接,终端设备10b与业务服务器100之间存在通信连接。
应该理解,如图1所示的终端设备集群1010中的每个终端设备均安装有应用客户端,当该应用客户 端运行于各终端设备中时,可以分别与上述图1所示的业务服务器100之间进行数据交互,使得业务服务器100可以接收来自于每个终端设备的业务数据。其中,该应用客户端可以为游戏应用、视频编辑应用、社交应用、即时通信应用、直播应用、短视频应用、视频应用、音乐应用、购物应用、小说应用、支付应用、浏览器等具有显示文字、图像、音频以及视频等数据信息功能的应用客户端。其中,该应用客户端可以为独立的客户端,也可以为集成在某客户端(例如即时通信客户端、社交客户端、视频客户端等)中的嵌入式子客户端,在此不做限定。
业务服务器100在接收到每个终端设备通过应用客户端发送的业务请求后,应该响应该业务请求,执行该业务请求对应的业务方法并将执行结果返回到应用客户端。但是由于黑色产业人员为了谋取利益,通常会使用虚假流量、或者恶意刷量等方式,来发起恶意的业务请求,不仅占用网络资源、业务服务器100的运算和内存等资源,还会使得应用客户端对应的业务数据出现错误,不再真实。
示意性的,以购物应用为例,商品的好评率是用户购买该商品考虑的因素之一,某些卖家为了增加商品的购买率,会对该商品进行刷好评的操作,比如通过同一账号多次发起针对该商品进行好评的业务请求,通过虚假账号发起针对该商品进行好评的业务请求等等,业务服务器100没有识别业务请求的真实性,响应了这些恶意的业务请求并执行,最终使得该商品的好评率远高于用户给出的真实好评率。
示意性的,以视频应用为例,电视剧的播放量是该电视剧热度的衡量指标之一,因此某些剧方为了增加该电视剧的播放量,会采取不正当的播放方式,比如通过模拟器、多开分身、云控等方式,模拟出虚假的终端设备,然后安装视频应用,向业务服务器100发起播放电视剧的业务请求,业务服务器100没有识别业务请求的真实性,响应了这些恶意的业务请求并执行,最终使得该电视剧的播放量远高于真实的播放量。
本申请实施例中,业务服务器100在接收到业务请求后,会获取该业务请求对应的属性数据,然后基于属性数据对该业务请求进行风险预测,识别该业务请求是否为真实业务请求,再根据风险预测结果对该业务请求进行反作弊处理。
示意性的,请参见图2,图2是本申请实施例提供的一种风险提示的场景示意图。如图2所示,终端设备210集成安装有购物应用200,用户A为操作终端设备210的用户。用户A通过购物应用200向业务服务器100发起了对商品B进行评论的业务请求。假设用户A登录购物应用200的账号为虚假账号(比如未实名的白号、虚拟运营商非实名卡注册的账号等等),若业务服务器100接收到该业务请求,直接响应该业务请求,用户A就可以通过虚假账号完成对商品B的评论,用户A可以通过终端设备210的购物应用200登录多个虚假账号,对商品B进行评论,导致商品B的质量与评论不符,给其他用户造成损失。因此,业务服务器100需要先对业务请求进行风险预测处理,业务服务器100还可以基于风险预测结果给出相应的风险提示下发到终端设备210。
具体的,业务服务器100获取到由用户A发起的业务请求时,会通过决策引擎300获取到与该业务请求对应的业务属性数据。其中,业务属性数据包括请求账号、请求手机号、请求IP(Internet Protocol,网际互连协议)、请求设备号等属性数据。然后,业务服务器100会通过决策引擎300调用模型部署平台400中的风控检测模型,然后通过模型部署平台400基于该风控检测模型和业务属性数据对该业务请求进行风险预测,得到风险预测结果,然后将风险预测结果返回到决策引擎300,决策引擎300再根据风险预测结果进行反作弊处理。
其中,业务服务器100通过决策引擎300获取到业务请求对应的业务属性数据后,会将其传给风控检测模型。然后,业务服务器100会通过该风控检测模型,获取用户A的用户社交群,用户社交群中包括关联用户,然后以业务属性数据和关联用户的关联业务属性数据为属性节点,分别构建同构图和异构图。关联业务属性数据中包括关联用户的请求账号、请求手机号、请求IP、请求设备号等业务属性数据。同构图和异构图都是由多个属性节点和边构成的。
其中,同构图中的属性节点的属性相同,边的权重由属性节点之间的共性信息决定,比如,同构图中的属性节点为不同用户的请求账号,若请求账号1和请求账号2的共性信息为共用的IP数为2,则此时请求账号1对应的属性节点和请求账号2对应的属性节点的边权重为2。
异构图中可以存在不同属性的属性节点,如果不同属性的属性节点之间存在连接关系,则不同属性的属性节点之间存在连接边,比如,属性节点3对应请求账号1,属性节点4对应请求设备号5,而请求账号1在请求设备号5上登录过,则说明属性节点3和属性节点4之间存在连接关系。
然后对同构图进行社区发现处理,得到针对该业务请求的属性标签。其中,社区发现是将同构图中的属性节点进行划分,将联系比较紧密的属性节点划分进同一个社区。其中,属性标签为业务请求的业务属性数据对应的属性节点所在社区的社区属性标签。其中,属于同一社区的属性节点之间的联系紧密,如,社区A中的属性节点1和属性节点3为违规账号,而发起业务请求的请求账号对应的属性节点也属于社区A,则该请求账号也可能是违规账号。
同时,对同构图和异构图进行节点嵌入处理,即分别对同构图和异构图进行节点序列采样,根据采样 得到的属性节点序列,生成业务属性数据对应的属性节点的图关联特征向量。同时,基于业务属性数据生成针对该业务请求的行为特征。其中,根据属性节点序列生成业务属性数据对应的图关联特征向量,可以通过一些向量建模算法来实现,比如node2vec(节点嵌入)算法,节点嵌入主要是将图向量化,通过向量来呈现图。其中,图关联特征向量用于描述同构图和异构图的结构信息和潜在的特性,可以表征多个属性维度下业务属性数据和关联业务属性数据之间的关联关系。其中,行为特征是基于某个历史时间段内业务属性数据相关联的行为统计信息所生成的,例如,行为统计信息可以包括:最近十分钟内请求账号一共发起了多少次请求,最近一小时内该账号登录过多少个设备,等等。最后,将属性标签、图关联特征向量以及行为特征进行拼接,得到目标特征向量,再基于该目标特征向量对该业务请求进行风险预测,并输出风险预测结果,返回到决策引擎300。决策引擎300可以根据该目标风险预测结果,确定该业务请求属于正常业务请求还是异常业务请求。
如图2所示,经过上述处理,业务服务器100将通过决策引擎300确定用户A所发起的业务请求为异常业务请求,业务服务器100将拒绝执行该业务请求相关联的业务方法,并下发异常提示到终端设备210。
可以理解的是,上述处理过程可以由业务服务器单独执行,也可以由终端设备单独执行,也可以由业务服务器和终端设备共同执行,这里不作限制。
需要说明的是,上述数据处理方案可以应用于游戏、视频、即时通信等各类需要发起业务请求的场景中,本申请实施例仅以视频应用和购物应用为例进行相关说明。
可以理解的是,本申请实施例提供的方法可以由计算机设备执行,计算机设备包括但不限于终端设备或业务服务器。其中,业务服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云数据库、云服务、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备(例如智能手表、智能手环等)、智能电脑等可以运行上述应用客户端的智能终端。其中,终端设备和业务服务器可以通过有线或无线方式进行直接或间接地连接,本申请实施例在此不做限制。
可以理解的是,上述设备(如上述业务服务器100、终端设备10a、终端设备10b、…、终端设备10n)可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成的点对点(P2P,Peer To Peer)网络,P2P协议是一个运行在传输控制协议(TCP,Transmission Control Protocol)协议之上的应用层协议。在分布式系统中,任意形式的计算机设备,比如服务器、终端设备等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
图3是本申请实施例提供的一种数据处理方法的流程图。该方法由图1中所述的计算机设备执行,即可以为图1中的业务服务器100,也可以为图1中的终端设备集群110。如图3所示,该数据处理方法可以包括如下步骤:
步骤301,获取由目标用户所发起的业务请求。
在一些实施例中,接收目标账号发起的第一业务请求,目标账号即目标用户所操作的帐号。
其中,目标账号对应有关联账号,关联账号发起有第二业务请求。
可选地,目标账号为用户操作的账号,或者,目标账号为自动化工具操控的账号。具体的,黑色产业人员产生作弊流量时,可以通过市场上各种黑产要素资源组合来实现,比如设备资源从最开始的模拟器、多开分身、改机软件转变为群控和云控,2020年出现了云手机盒子,号称一台手机盒子相当于600+台手机;IP资源也从传统代理IP向秒拨IP转变;手机号也从猫池向公开接码平台转变,随着国家政策对接码平台的打击后,慢慢已转换为线下接码。也就是说,业务请求不一定是真实用户所发起的,也可能是黑产人员或者自动化工具所产生的。因此,需要说明的是,使用目标账号的目标用户可以理解为一个假想用户,即计算机设备接收到业务请求后,会默认该业务请求是由一个假想用户发起的,该假想用户同该业务请求对应的业务属性数据具有绑定关系。
可选地,目标用户对应有关联用户,则对应的目标账号对应有关联账号。关联账号是指与目标账号具有直接关联或者间接关联的账号。其中,关联账号为用户操作的账号或者自动化工具操控的账号。其中,目标账号所对应的关联账号是根据目标账号的属性数据确定的,该属性数据包括账号、手机号、IP号、设备号等等。示意性的,当目标账号的属性数据与第一账号的属性数据中存在相同部分,则认为第一账号与目标账号存在直接联系,如:目标账号的设备号与第一账号的设备号相同,则认为第一账号和目标账号存在直接联系;若第二账号与第一账号存在直接联系,则认为第二账号和目标账号之间存在间接联系。
为便于理解,假设账号1发起了业务请求A,计算机设备接收到业务请求A,确定业务请求A对应的属性数据包括账号1、手机号2、IP号3和设备号4;若用户更换了手机号,改为使用手机号5,然后发起了业务请求B,计算机设备接收到业务请求B,确定业务请求B对应的属性数据包括账号1、手机号5、IP 号3和设备号4。因此,每个业务请求绑定有唯一的一组属性数据。
步骤302,获取业务请求对应的第一属性数据,获取目标用户的用户社交群,以第一属性数据和用户社交群中的关联用户的第二属性数据为属性节点,分别构建同构图和异构图。
示意性的,构建同构图和异构图的过程包括:以业务请求对应的属性数据和用户社交群中的关联用户的关联业务对应的属性数据为属性节点,其中,属性节点的数量为至少两个,且属性节点对应有属性类型,如:属性类型包括账号类型、IP地址类型、设备号类型等;在至少两个属性节点中,获取属性类型相同的属性节点,作为同构属性节点;根据同构属性节点之间属性数据的共性信息,确定同构属性节点之间的第一边权重,示意性的,共性信息为共用IP的个数;根据同构属性节点和第一边权重,构建同构图。
为便于理解同构图,请参考图4,图4是本申请实施例提供的一种同构图的结构示意图。如图4所示,同构图40中包含同构属性节点401、同构属性节点402、同构属性节点403等多个同构属性节点。假设同构图40是账号同构图,则同构图40中的同构属性节点可以是属性数据中包含的账号数据,可以理解的是,重复账号数据可以算作同一账号数据,仅生成一个对应的同构属性节点。示意性的,同构属性节点401为账号1,同构属性节点402为账号2,同构属性节点402为账号3。同构属性节点之间可以连接有权重的边,如图4所示,同构属性节点401和同构属性节点402之间的边权重为1,同构属性节点401和同构属性节点403之间的边权重为2,同构属性节点402和同构属性节点403之间没有连线,可以理解为边权重为0。同构属性节点之间的边的权重是由同构属性节点之间属性数据的共性信息决定的,比如,同构属性节点为账号时,共性信息可以为共用IP的个数。此时,同构属性节点401和同构属性节点402之间的边权重为1,说明账号1和账号2共用IP的个数为1。
根据至少两个属性节点中两个属性节点之间的属性关系,在具备间接属性关系的属性节点之间建立连接关系,构建得到包含至少两个属性节点的异构图。其中,间接属性关系是指第一属性节点的属性A与第二属性节点的属性B之间存在关联关系。
为便于理解异构图,请一并参见图5,图5是本申请实施例提供的一种异构图的结构示意图。如图5所示,异构图中包含多种属性类型的属性节点,比如第一属性节点521,第二属性节点531,第三属性节点541,第四属性节点551,同一种属性类型的属性节点可以有多个,比如第一属性的属性节点还包括属性节点522,属性节点523等等。属性数据都能在异构图中找到对应的属性节点。根据不同属性类型的属性节点之间的连接关系,可以确定两个属性节点之间的第二边权重,假设第二属性节点531是设备1,第三属性节点541是设备型号a,设备1的型号为设备型号a,则说明第二属性节点531和第三属性节点541有联系,则第二属性节点531和第三属性节点541之间有连接边。
步骤303,对同构图进行社区发现处理,得到针对业务请求的属性标签。
在一些实施例中,通过风控检测模型对同构图中的属性节点进行社区划分处理。
可选地,基于同构图的模块度(modularity)对同构图中的属性节点进行划分,得到社区划分结果,其中,模块度用于指示同构图的社区结构强度;然后确定第一属性数据对应的属性节点所属的社区,作为目标社区;最后将目标社区的社区属性标签,作为针对业务请求的属性标签。在同构图中,有的属性节点之间的连接较为紧密,有的属性节点之间的连接关系较为稀疏,而连接较为紧密的部分可以被看成一个社区,在两个社区间则相对连接关系较为稀疏,这便称为社团结构。
通过同构图的模块度对同构图中的属性节点进行划分处理,得到社区划分解雇过,即将连接比较稠密的属性节点划分在一个社区中,这样模块度的值会变大,最终,模块度最大的划分便是最优的社区划分。其中,模块度指的是网络中连接社区结构内部顶点的边所占的比例,减去在同样的社团结构下任意连接这两个属性节点的边的比例期望值。
对同构图中的属性节点进行划分得到社区还可以采用其他方式,比如:1、最小割或者正则化割,即通过计算图的最小割,将网络划分为预定的分组数,并使连接各分组的边的条数最少;2、非负矩阵分解:基本原理是将原始矩阵分解得到社区指示矩阵和基矩阵;3、基于节点相似性的社区划分等等,这里不作限制。
步骤304,分别对同构图和异构图进行节点序列采样,根据采样得到的属性节点序列,生成第一属性数据对应的属性节点的图关联特征向量。
在一些实施例中,通过风控检测模型对同构图和异构图中的属性节点进行节点序列采样。
可选地,在同构图上随机游走(Random Walk),对随机游走路径上的属性节点进行采样,得到同构属性节点序列;然后根据同构属性节点序列,生成第一属性数据对应的属性节点的同构图特征向量;在异构图上随机游走,对随机游走路径上的属性节点进行采样,得到异构属性节点序列;然后根据异构属性节点序列,生成第一属性数据对应的属性节点的异构图特征向量;最后对同构图特征向量和异构图特征向量进行拼接,得到第一属性数据对应的属性节点的图关联特征向量。
其中,从某个节点的邻居节点中随机挑选一个节点作为下一跳节点的过程称为随机游走,多次的随机游走并对随机游走路径上的属性节点进行采样即产生游走序列,其中,游走序列中包括随机游走路径上的 每个属性节点,或者,游走序列中包括随机游走路径上的部分属性节点。
可选地,将同构属性节点序列作为训练样本输入风控检测模型的同构图嵌入层中进行训练,得到第一属性数据对应的属性节点的同构图特征向量,也就是节点嵌入向量(embedding)。类似的,将异构属性节点序列作为训练样本输入风控检测模型的异构图嵌入层中进行训练,得到第一属性数据对应的属性节点的异构图特征向量。
步骤305,对属性标签、图关联特征向量以及第一属性数据对应的行为特征进行风险预测处理,得到目标风险预测结果。
在一些实施例中,将属性标签、图关联特征向量以及第一属性数据对应的行为特征进行特征拼接,得到目标特征向量;然后将目标特征向量输入风险预测模型的分类层,通过分类层确定目标特征向量在至少两个候选风险类型标签下的风险概率;然后根据风险概率生成针对业务请求的风险值,在至少两个候选风险类型标签分别对应的风险概率中,将最大风险概率对应的候选风险类型标签确定为业务请求的风险类型标签。其中,候选风险类型标签用于表征该业务请求对应的风险类型,比如账号非法、登录IP非法等等,风险值用于描述该风险类型对应的风险程度。
在一些实施例中,确定业务请求对应的行为特征时,获取与第一属性数据相关联的历史业务请求序列;然后获取历史业务请求序列中的历史业务请求的历史业务属性数据,确定历史业务请求所处的历史时间段,基于历史业务属性数据和历史时间段,生成业务请求对应的请求行为统计信息;然后基于请求行为统计信息生成业务请求对应的行为特征。比如说,业务请求对应的行为特征可以为,近1小时手机号的请求次数,近10分钟手机号使用的IP个数等等。
步骤306,对业务请求进行与目标风险预测结果相关联的反作弊处理。
可选地,获取与风险类型标签具有映射关系的反作弊风控策略;然后根据反作弊风控策略获取风险类型标签对应的风控阈值;若风险值大于或等于风控阈值,则拒绝业务请求;若风险值小于风控阈值,则响应业务请求。
在一些实施例中,在得到与第一业务请求相关的风险预测结果后,将该风险预测结果与目标账号进行绑定,在一定时间段内,再次接收到该目标账号所发起的业务请求,直接对该新的业务请求进行与风险预测结果相关联的反作弊处理。
可选的,模型部署平台还可以离线对多组业务属性数据进行事先识别和预测其风险预测结果,当接收到业务请求时,获取其对应的属性数据,只需在离线预测的多组属性数据中进行匹配,然后得到与业务请求的属性数据相匹配的属性数据对应的风险预测结果,直接对该第一业务请求进行与风险预测结果相关联的反作弊处理,可以提高对作弊流量进行识别的时效性。
在一些实施例中,通过决策引擎对第一业务请求进行与风险预测结果对应的反作弊处理。其中,决策引擎配置并执行风险策略,模型部署平台可以快速完成模型部署、测试、上线、更新、迭代。
模型部署平台的模型库中可以包含多个不同版本和不同类型的用于反作弊的风控检测模型。通过模型部署平台,可以对不同版本和不同类型的风控检测模型进行流量分配,即确定每个风控检测模型关联的假想用户群体,例如,模型部署平台为目标应用进行风控处理,目标应用有一万个账号,该模型部署平台可以将一千个账号关联到风控检测模型A,另外九千个账号关联到风控检测模型B,此时,风控检测模型A关联的假想用户群体中的假想用户。模型部署平台进行流量分配时,也可以基于账号、IP号、手机号、设备号等业务属性数据分别划分或者联合划分,这里不作限制。计算机设备获取到目标账号所发起的第一业务请求后,会通过决策引擎在模型部署平台中的模型库中,获取与该业务请求具有关联关系的风控检测模型,其中,风控检测模型关联的假想用户群体,包括目标账号。
综上所述,通过自动提取用于表征业务请求不同维度特征的属性标签、图关联特征向量和行为特征,并基于这些多个维度特征对业务请求进行风险预测处理,得到目标风险预测结果,通过挖掘人工经验难以发现的维度特征,可以提高目标风险预测结果的准确性,再基于该目标风险预测结果对业务请求进行反作弊处理,提高了对作弊流量的检测覆盖率和检测准确率。
进一步的,请参见图6,图6是本申请实施例提供的一种风控检测方法的流程图。该方法由图1中所述的计算机设备执行,即可以为图1中的业务服务器100,也可以为图1中的终端设备集群110。如图6所示,该风控检测方法的流程如下:
步骤601,对业务请求相关联的业务数据进行特征提取,得到属性数据。
具体的,对于实时在线接收到的业务请求,通过决策引擎对应的接口获取业务请求关联的业务数据,计算机设备可以通过决策引擎对应的接口去获取。对于获取到的业务数据,计算机设备对其进行特征提取处理,提取出需要的属性数据,比如:账号、设备号、IP等信息。可选地,计算机设备每次处理完一个业务请求后,会将该业务请求对应的账号、设备号、手机号、IP等业务数据落库,方便后续训练模型或者构造行为特征等调用。
步骤602,基于属性数据构造同构图和异构图。
可选地,在得到属性数据后,将其分别输入进同构模型和异构模型,通过同构模型输出得到对应的同构图,并通过异构模型输出得到对应的异构图。其中,同构模型和异构模型可以是无监督学习模型。计算机设备通过无标签的属性数据对同构模型和异构模型进行训练。
可选地,同构图的数量为一个或者多个,根据获取到的属性数据,构造属性类型为账号的第一同构图,并构造属性类型为IP的第二同构图等等,本申请实施例对此不加以限定。
步骤603,通过社区发现模型对同构图进行社区发现处理,输出属性标签。
具体的,对每个同构图,都可以通过基于模块度的社区发现(Fast Unfolding)模型,来挖掘该同构图中第一属性数据对应的属性节点所述社区的社区属性标签,作为属性标签。
为便于理解,请一并参见图7,图7是本申请实施例提供的一种社区发现处理的示意图。计算机设备根据同构图的模块度对同构图中的属性节点进行划分处理,得到社区,主要包括两个阶段,如图7所示,第一阶段为模块度优化(Modularity Optimization),主要是将每个属性节点划分到与其邻接的属性节点所在的节点社区中,以使得模块度的值不断变大,具体过程如下:
首先初始化,将同构图71中的属性节点分别划分进初始社区,即每个属性节点单独算作一个初始社区;然后,将同构图中的第i个属性节点转移到邻居属性节点所在的初始社区,得到转移社区;邻居节点与同构图中的第i个属性节点具有连接关系,i为小于或等于同构图中的属性节点总数量的正整数;基于初始社区和转移社区确定模块度变化值,即转移社区对应的模块度减去转移社区对应的模块度。也就是说,将每个属性节点尝试划分到其邻居属性节点所在的社区中,计算此时的模块度,判断划分前后的模块度的差值ΔQ是否为正数,若为正数,则接受本次的划分,若非正数,则放弃本次的划分。
其中,模块度的计算可以通过下述公式(1)来实现:
公式(1):
Figure PCTCN2021107114-appb-000001
其中,∑ in表示的是社区c内部的权重,∑ tot表示的是社区之间的边权重之和,m为图的所有权重之和,Q是模块度。
其中,ΔQ的计算可以参见下述公式(2):
公式(2):
Figure PCTCN2021107114-appb-000002
其中,k i,in表示的是属性节点i和属性节点in之间的权重,属性节点in指属性节点i的邻居属性节点,k i为所有与属性节点i相连的边权重之和。
重复上述过程,直到不能再增大模块度为止,即无论移动哪个属性节点到邻居属性节点所在的社区中,模块度变化值均不为正数,此时确定模块度变化值满足社区聚集条件。如图7所示,同构图71经过模块度优化,得到转移同构图72,包含四个转移社区,为便于理解,给不同转移社区中的属性节点标注了不同的颜色,每个转移社区内部,属性节点的连接关系比较紧密,而不同转移社区之间的连接关系比较稀疏。比如转移社区722中的属性节点之间联系紧密,而转移社区721和转移社区722的联系比较稀疏。然后,计算机设备会执行第二阶段:社区聚集(Community Aggregation),将转移社区作为重构属性节点,得到重构同构图,即将第一阶段划分出来的转移社区聚合成为一个重构属性节点,然后根据第一阶段生成的社区结构重新构造同构网络。对转移同构图72中进行社区聚集处理,得到重构同构图73。如重构同构图73所示,每个重构属性节点代表一个转移社区,重构属性节点之间的边权重为其对应的转移社区中的所有属性节点的边权重之和,如图5所示,假设在转移同构图72中,边的权重均为1,此时转移社区722和转移社区721之间的边仅有属性节点11和属性节点6之间的边权重为1的连接边,则在重构同构图73中,重构属性节点731和重构属性节点732之间的边权重为1。
然后,若重构同构图和同构图的社区结构相同,则将重构同构图对应的转移社区,作为社区划分结果;若重构同构图和同构图的社区结构不相同,则继续对重构同构图中的重构属性节点进行转移处理。也就是说,由于同构图71和重构同构图73的社区结构不同,计算机设备将对重构同构图73重复执行上述第一、第二阶段,得到新的重构同构图,直到新的重构同构图的社区结构不再发生改变。假设最终得到的社区结构不再改变的是重构同构图74,此时,计算机设备会将重构同构图74中对应的转移社区作为社区划分结果。每个社区都有一个社区属性标签来进行标识,计算机设备会确定第一属性数据对应的属性节点所属的社区,作为目标社区;将目标社区的社区属性标签,作为针对业务请求的属性标签。
步骤604,通过同构异构混合模型对同构图和异构图进行节点嵌入处理,得到图关联特征向量。
可选地,节点嵌入的目的是为了将实体映射到连续的向量空间中。节点嵌入,即通过嵌入保留图中的信息,比如通过某个点的嵌入向量能够找到它在图中的邻居,同时,可以将某个点的嵌入向量直接用作下游任务的输入。节点嵌入的思想是随机游走,对随机游走路径上的属性节点采样得到属性节点序列,然后用处理词向量的方法对这样的序列建模得到属性节点的向量表示。
为便于理解,请参见图8,图8是本申请实施例提供的一种同构图节点嵌入实现的场景示意图。计算机设备获取序列长度参数;然后在同构图中随机选择一个属性节点添加至采样节点序列;然后将添加进采样节点序列的属性节点作为目标采样节点;随后,计算机设备会在目标采样节点的邻居节点中随机选择一个属性节点添加至采样节点序列;若采样节点序列中的属性节点的总数量等于序列长度参数,则停止随机游走节点序列采样,将采样节点序列作为一组同构属性节点序列;若采样节点序列中的属性节点的总数量小于序列长度参数,则将新添加进采样节点序列的属性节点作为新的目标采样节点,继续在新的目标采样节点的邻居节点中随机选择一个属性节点添加至所述采样节点序列。如图8所示,对同构图80进行采样后,得到序列1、序列2和序列3,其中,序列1包括v1,v2,v0…其中,v1就是属性节点1,v2就是属性节点2,v0就是属性节点0。得到三组同构属性节点序列的过程,可以为:假设序列长度参数为10,计算机设备随机游走采样时,首先随机选择属性节点1作为目标采样节点,然后随机从属性节点1的邻居节点中选择属性节点2添加进采样节点序列,此时采样节点序列中只有2个属性节点,计算机设备会将属性节点2作为目标采样节点,继续采样。直到采样节点序列中包含十个属性节点,计算机设备会该采样节点序列作为一组同构属性节点序列。计算机设备可以根据实际设置需求,采集多组同构属性节点序列。然后,计算机设备会将采集到的多组同构属性节点序列作为skip-gram(一种神经网络)模型的输入,输出同构图对应的同构图特征向量。
异构图对应的异构图特征向量的实现同理。然后对同构图特征向量和异构图特征向量进行拼接处理,得到第一属性数据对应的属性节点的图关联特征向量。使用同构异构混合模型,不局限于图的模块度,挖掘第一属性数据之间的行为和关系链数据,得到图关联特征向量,可以提供更多用于表征业务请求的维度特征信息。
步骤605,确定属性数据对应的行为特征。
拉取统计时间段内与第一属性数据相关联的历史业务请求序列,再根据历史业务请求序列中的历史业务请求的历史业务属性数据和历史业务请求所处的历史时间段,生成第一属性数据对应的请求行为统计信息,然后基于请求行为统计信息生成第一属性数据对应的行为特征。
步骤606,根据属性标签、图关联特征向量和行为特征,得到目标特征向量。
步骤607,将目标特征向量输入分类层,输出风险值和风险标签。
可选地,分类层的实现可以采用有监督学习模型实现,比如XGBoost模型。步骤606和步骤607的实现,可以参见上述图3所对应实施例中步骤305和306的实现,这里不再进行赘述。
采用本申请实施例提供的方法,可以通过风控检测模型获取到用于表征业务请求的属性标签、图关联特征向量和行为特征,并将属性标签、图关联特征向量和行为特征进行拼接处理得到目标特征向量,通过目标特征向量从多个维度来表征业务请求,最后通过目标特征向量来输出业务请求的风险分和风险类型,可以提升对作弊流量的检测覆盖率和准确率。
请参见图9,图9是本申请实施例提供一种决策引擎和模型部署平台的关系示意图。如图9所示,模型部署平台92中包含模型仓库,模型仓库中可以存储多个不同类型和版本的风控检测模型。模型部署平台92可以将模型仓库中的每个风控检测模型部署为模型线上服务,以使决策引擎可以调用风控检测模型以获得模型实时服务。模型部署平台92可以针对风控检测模型的流量配置操作,确定风控检测模型相关联的目标用户群体,之后,该风控检测模型将用于响应目标用户群体所发起的业务请求。
如图9所示,决策引擎91可以提供风控规则配置、策略管理、识别设备指纹、模型调用等功能。其中,风控规则配置是指决策引擎91可以响应针对目标用户群体的风控策略配置操作,生成针对目标用户群体的风控策略。其中,风控策略包括处理类型字段和处理类型字段相关联的反作弊处理策略,比如,处理类型字段为true,相关联的反作弊处理策略可以为允许响应业务请求;处理类型字段为false,相关联的反作弊处理策略可以为拒绝响应业务请求。其中,策略管理用户将风控检测模型的至少两种风险预测结果与处理类型字段进行映射。比如,风险预测结果包括第一风险预测结果和第二风险预测结果,第一风险预测结果和处理类型字段true映射,第二风险预测结果和处理类型字段false相映射。
如图9所示,决策引擎91的风控策略和模型部署平台92中的风控检测模型之间的映射配置完成后,决策引擎91可以对风控检测模型进行模型线上调用,然后模型部署平台92可以通过被调用的风控检测模型提供实时的风控检测模型服务,具体过程如下:
决策引擎91接收到目标用户的业务请求后,会调用该目标用户所属的目标用户群体相关联的风控检测模型,然后将目标用户的业务请求相关的业务数据一并传给该风控检测模型,风控检测模型基于该业务 请求后会输出目标风险预测结果,并将该目标预测结果返回给决策引擎91。然后决策引擎91会确定与该目标风险预测结果具有映射关系的处理类型字段,作为目标处理类型字段,然后根据该目标处理类型字段相关联的反作弊处理策略,对该业务请求进行反作弊处理。比如,该目标预测结果为上述第一风险预测结果,该第一风险预测结果和处理类型字段true映射,而和处理类型字段true相关联的反作弊处理策略可以为允许响应业务请求,此时决策引擎91不会拦截该业务请求,计算机设备将响应该业务请求,并执行该业务请求相关联的业务方法。
如图9所示,决策引擎91和模型部署平台92还会共同对风控检测模型提供的实时风控检测模型服务的状态进行管理。模型部署平台92会统计模型仓库中每个风控检测模型被调用的情况,以及内存占用量、运行情况等等,并将其发送给决策引擎91,然后通过决策引擎91可以实时显示每个风控检测模型的服务状态,策略人员可以根据显示的服务状态对风控检测模型进行资源划分、升级回退、暂停、启用等配置操作来进行管理。
如图9所示,决策引擎91设备指纹可以用于对发起业务请求的目标用户的设备号和指纹信息进行验证,如果验证通过,响应该业务请求。决策引擎91还可以提供实时指标计算服务,能够实时计算一段时间内账号之间的关联和统计数据,用于识别业务流水中账号的关联和行为异常。
采用本申请实施例提供的方法,可以通过决策引擎可以随时调整风控策略以及风控策略和风控检测模型之间的映射关系,不需要额外的开发和部署上线,省时省力,能快速应对黑产的变化。
进一步地,请参见图10,图10是本申请实施例提供的一种模型部署平台的架构示意图。如图10所示,模型部署平台10可以包括决策引擎1001、页面配置层1002、模型层1003、配置层1004、服务层1005以及工具层1006。
模型训练人员训练好风控检测模型后,可以通过页面配置层1001对应的页面上传模型文件。模型层1003可以支持pmml(Predictive Model Markup Language,预言模型标记预言)、pb(一种二进制文件)、zip(一种数据压缩和文档存储的文件格式)和.m(一种程序文本文件)等多种模型文件格式,以满足传统机器学习模型、树模型、不同深度学习库的模型文件。也就是说,模型部署平台10通过模型层1003获取到页面配置层1002上传的待部署的风控模型文件后,可以识别风控模型文件的模型文件格式,基于模型文件格式解析风控模型文件,得到风控模型文件对应的风控检测模型。然后,模型部署平台10可以通过配置层1004对风控检测模型进行版本管理、流量分配、模型部署和模型测试,具体的,在模型部署平台10中,响应针对风控检测模型发起的版本管理操作,通过配置层1004为风控检测模型分配模型版本信息;然后响应针对风控检测模型发起的部署上线操作,对风控检测模型进行测试处理,得到测试服务质量;若测试服务质量满足模型上线条件,则将风控检测模型和模型版本信息添加至模型部署平台中的模型库中。其中,模型版本信息可以用于区分不同功能的风控检测模型以外,还可以用于区分为满足不同用户的不同使用要求的同系列风控检测模型,如适用于不同运行环境或不同平台的相同功能的风控检测模型,还可以区分新老风控检测模型,旧风控检测模型投入使用以后,经过一段时间运行提出了变更的要求,开发人员对其做了较大的修正或纠错,增强功能或提高性能后重新上传了新的风控检测模型。其中,对风控检测模型进行测试处理,得到测试服务质量的过程,可以为:通过模型部署平台获取离线样本属性数据;然后基于离线样本数据对风控检测模型服务进行离线预测处理,得到离线预测结果;根据离线预测结果和风控标签之间的误差结果,评估风控检测模型服务的测试服务质量。其中,离线样本属性数据添加有风控标签;风控标签用于表征离线样本属性数据的风险性。
如图10所示,风控检测模型部署成功后,服务层1005可以提供风控检测服务。风控检测服务上线后,即可在决策引擎1001中配置引用风控检测模型的风控检测服务的能力,将业务数据对应的业务字段映射成风控检测模型的入参,将风控检测模型的输出返回给决策引擎1001,配置到风控策略和规则中。当上述图2所对应实施例中的风控检测模型的入参和输出配置完成以后,模型部署平台10就可以执行上述图2所对应实施例中步骤S101到步骤S106中的描述。
如图10所示,模型部署平台10可以通过工具层1006提供调度管理、升级回退、字段映射以及服务监控等功能。字段映射用于实现风控检测模型的输出与决策引擎1001中的风控策略之间的映射关系。可以理解的是,字段映射功能实现了风控检测模型和风控策略的解耦,当风控策略发生改变时,只需通过字段映射重新调整新的风控策略和风控检测模型之间的映射关系即可,不需要重新上线风控检测模型,可以更高效的进行风控策略的更新,加快应对黑产人员产生作弊流量的资源和手段发生演变的速度。服务监控的过程可以为:通过模型部署平台10的工具层1006可以将风控检测模型响应目标用户群体所发起的业务请求所得到的预测风控检测结果,记录到风控检测模型对应的模型执行日志中;后续在一段时间内监控目标用户群体的风险状况,根据风险状况确定目标用户群体的真实风险标签;基于真实风险标签和模型执行日志中的预测风控检测结果之间的误差结果,生成针对风控检测模型的风控策略质量。当风控策略质量不满足风控条件时,生成针对风控检测模型的策略调整提示。其中,策略调整提示用于提示对风控检测模型 相关联的反作弊处理策略进行调整。服务监控还可以包括:记录每个模型的运行数据,然后基于模型服务执行日志中的识别结果和每个模型服务的调用量和占用资源量生成针对每个模型的运行监督结果。其中,运行数据包括不同时间段内的每个模型服务的调用量和占用资源量。服务监控得到的风控策略质量和运行监督结果都可以通过工具层1006对应的页面来进行可视化显示,以供策略人员随时了解风控检测模型提供的风险预测服务的状态。通过工具层1006,策略人员可以根据服务监控结果对风控检测模型进行调度管理和升级回退,其中,调度管理可以是根据风控检测模型的调用量调整风控检测模型占用的资源量、内存量等等,保证资源最大利用率;升级回退可以是若某个新版本的风控检测模型的风控策略质量不符合预期,回退到该风控检测模型的旧版本使用,重新对新版本的风控检测模型进行训练优化后再重新上线。
一个可行的实施例中,为了保证模型自动部署平台的扩展性,模型层可以支持PMML文件格式的模型文件,PMML文件具有平台无关性、兼容性等特征,PMML可以让模型部署平台与模型训练平台解耦,训练完风控检测模型之后,只需将该风控检测模型导出转换成PMML格式即可通过模型部署平台快速部署。其中,兼容性表示兼容PMML的模型部署平台可以读取并部署其他平台导出的标准PMML文件。因此,模型部署平台可以采用PMML标准模型规范,融合AI Serving(一款开源的机器学习和深度学习模型部署推理系统)库和Tensorflow Serving(一个适用于机器学习模型的灵活、高性能应用系统)库提供模型线上预测服务,传统机器学习模型采用AI Serving服务,深度学习模型采用Tensorflow Serving。模型部署服务的性能好,且稳定性高,在单台8核16G(Gigabyte,一种十进制单位)的机器上QPS(Queries-per-second,每秒查询率)能够达到3w/s(万/秒),99.99%的时延在100ms(毫秒)以内,能够满足流量风控客户对时延的要求。模型自动化部署平台不依赖于模型训练平台,模型部署平台可以单独运行提供服务,模型服务能够满足决策引擎的高并发请求,模型部署平台支持监控服务器资源和服务执行状态,能够运行各种常用的机器学习模型、各种常见的平台环境下生成的模型,且支持Docker(容器引擎)快速部署模型服务,具备平台低耦合、高并发、稳定性高、模型兼容性高和支持快速部署的优点。
图11是本申请实施例提供的一种数据处理装置的结构示意图。上述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该数据处理装置可以用于执行本申请实施例提供的方法中的相应步骤。如图11所示,该数据处理装置包括:
获取模块101,用于获取由目标用户所发起的业务请求;
获取模块101,还用于获取业务请求对应的第一属性数据,获取目标用户的用户社交群;
图构建模块102,用于以第一属性数据和用户社交群中的关联用户的第二属性数据为属性节点,分别构建同构图和异构图;
标签确定模块103,用于对同构图进行社区发现处理,得到针对业务请求的属性标签;
图向量确定模块104,用于分别对同构图和异构图进行节点序列采样,根据采样得到的属性节点序列,生成第一属性数据对应的属性节点的图关联特征向量;
风险确定模块105,用于对属性标签、图关联特征向量以及第一属性数据对应的行为特征进行风险预测处理,得到目标风险预测结果;
反作弊模块106,用于对业务请求进行与目标风险预测结果相关联的反作弊处理。
图构建模块102包括:节点确定单元1021、同构图构建单元1022以及异构图构建单元1023。
节点确定单元1021,用于将所述第一属性数据和所述第二属性数据确定为属性节点;
同构图构建单元1022,用于在至少两个属性节点中,获取属性类型相同的属性节点,作为同构属性节点;
同构图构建单元1022,用于根据同构属性节点之间属性数据的共性信息,确定同构属性节点之间的第一边权重;
同构图构建单元1022,用于根据同构属性节点和第一边权重,构建同构图。
该装置还包括:异构图构建单元1023,用于根据至少两个属性节点中两个属性节点之间的属性关系,在具备间接属性关系的属性节点之间建立连接关系,构建得到包含至少两个所述属性节点的所述异构图。
标签确定模块103包括:社区划分单元1031以及标签选择单元1032。
社区划分单元1031,用于根据同构图的模块度对同构图中的属性节点进行划分,得到社区划分结果,模块度用于指示同构图的社区结构强度;
标签选择单元1032,用于确定第一属性数据对应的属性节点所属的社区,作为目标社区;
标签选择单元1032,还用于将目标社区的社区属性标签,作为针对业务请求的属性标签。
社区划分单元1031包括:初始子单元10311、转移子单元10312、转移子单元10312以及迭代子单元10314。
初始子单元10311,用于将同构图中的属性节点分别划分进初始社区;
转移子单元10312,用于将所述同构图中的第i个属性节点转移到邻居属性节点所在的初始社区,得 到转移社区,所述邻居节点与所述第i个属性节点具有连接关系,i为小于或等于属性节点总数量的正整数;
转移子单元10312,还用于基于初始社区和转移社区确定模块度变化值;
重构子单元10313,用于若所述模块度变化值满足社区聚集条件,基于转移社区得到社区划分结果。
可选地,重构子单元10313,用于基于所述转移社区得到重构同构图;
迭代子单元10314,还用于若所述重构同构图和所述同构图的社区结构相同,则将所述转移社区,作为社区划分结果;
迭代子单元10314,还用于若所述重构同构图和所述同构图的社区结构不相同,则继续对所述重构同构图中的重构属性节点进行转移处理,直至得到所述社区划分结果。
图向量确定模块104包括:同构向量确定单元1041、异构向量确定单元1042以及拼接单元1043。
同构向量确定单元1041,用于在同构图上随机游走,对路径上的属性节点进行采样,得到同构属性节点序列;
同构向量确定单元1041,还用于根据同构属性节点序列,生成第一属性数据对应的属性节点的同构图特征向量;
异构向量确定单元1042,用于在异构图上随机游走,对路径上的属性节点进行采样,得到异构属性节点序列;
异构向量确定单元1042,还用于根据异构属性节点序列,生成第一属性数据对应的属性节点的异构图特征向量;
拼接单元1043,用于对同构图特征向量和异构图特征向量进行拼接,得到第一属性数据对应的属性节点的图关联特征向量。
其中,目标风险预测结果包括风险值和风险类型标签;
风险确定模块105包括:特征拼接单元1051以及结果确定单元1052。
特征拼接单元1051,用于将属性标签、图关联特征向量以及第一属性数据对应的行为特征进行特征拼接,得到目标特征向量;
结果确定单元1052,用于将目标特征向量输入风险预测模型的分类层,通过分类层确定目标特征向量在至少两个候选风险类型标签下的风险概率;
结果确定单元1052,还用于根据风险概率生成针对业务请求的风险值;在至少两个候选风险类型标签分别对应的风险概率中,将最大风险概率对应的候选风险类型标签确定为业务请求的风险类型标签。
反作弊模块106包括:策略获取单元1061以及反作弊单元1062。
策略获取单元1061,用于获取与风险类型标签具有映射关系的反作弊风控策略;
反作弊单元1062,用于根据反作弊风控策略获取风险类型标签对应的风控阈值;
反作弊单元1062,还用于若风险值大于或等于风控阈值,拒绝业务请求;
反作弊单元1062,还用于若风险值小于风控阈值,响应业务请求。
上述数据处理装置1还包括:特征确定模块107。
特征确定模块107,用于获取与第一属性数据相关联的历史业务请求序列;
特征确定模块107,还用于获取历史业务请求序列中的历史业务请求对应的历史业务属性数据来确定历史业务请求所处的历史时间段;基于所述历史业务属性数据和所述历史时间段,生成第一属性数据对应的请求行为统计信息;基于请求行为统计信息生成第一属性数据对应的行为特征。
可选地,所述对所述同构图进行社区发现处理、所述分别对所述同构图和所述异构图进行节点序列采样、以及所述对所述属性标签、图关联特征向量以及所述第一属性数据对应的行为特征进行风险预测处理都是通过风控检测模型实现的。
上述数据处理装置1还包括:模型生成模块108、版本配置模块109、测试质量确定模块110以及添加模块111。
模型生成模块108,用于通过模型部署平台获取待部署的风控模型文件;
模型生成模块108,还用于识别风控模型文件的模型文件格式,基于模型文件格式解析风控模型文件,得到风控模型文件对应的风控检测模型;
版本配置模块109,用于在模型部署平台中,响应针对风控检测模型发起的版本管理操作,为风控检测模型分配模型版本信息;
测试质量确定模块110,用于响应针对风控检测模型发起的部署上线操作,对风控检测模型进行测试,得到测试服务质量;
添加模块111,用于若测试服务质量满足模型上线条件,则将风控检测模型和模型版本信息添加至模型部署平台中的模型库中。
测试质量确定模块110包括:离线数据获取单元1101以及离线预测单元1102。
离线数据获取单元1101,用于通过模型部署平台获取离线样本属性数据;离线样本属性数据标注有风 控标签;风控标签用于表征离线样本属性数据的风险性;
离线预测单元1102,用于通过离线样本数据对风控检测模型进行离线预测处理,得到离线预测结果;
离线预测单元1102,还用于基于离线预测结果和风控标签之间的误差,评估风控检测模型的测试服务质量。
上述数据处理装置1还包括:流量配置模块112以及策略配置模块113。
流量配置模块112,用于通过模型部署平台响应针对风控检测模型的流量配置操作,确定风控检测模型相关联的目标用户群体;目标用户群体包括目标用户;风控检测模型用于响应目标用户群体所发起的业务请求;
策略配置模块113,用于通过决策引擎响应针对目标用户群体的风控策略配置操作,生成针对目标用户群体的风控策略;风控策略包括处理类型字段和处理类型字段相关联的反作弊处理策略;
策略配置模块113,还用于将风控检测模型的至少两种风险预测结果与处理类型字段进行映射。
反作弊模块106包括:目标字段确定单元1061以及策略处理单元1062。
目标字段确定单元1061,用于通过决策引擎确定与目标风险预测结果具有映射关系的处理类型字段,作为目标处理类型字段;
策略处理单元1062,用于根据目标处理类型字段相关联的反作弊处理策略,对业务请求进行反作弊处理。
上述数据处理装置1还包括:结果记录模块114、监控模块115以及调整提示模块116。
结果记录模块114,用于将风控检测模型响应目标用户群体所发起的业务请求所得到的预测风险预测结果,记录到风控检测模型对应的模型执行日志中;
监控模块115,用于监控目标用户群体的风险状况,根据风险状况确定目标用户群体的真实风险标签;
调整提示模块116,用于基于真实风险标签和模型执行日志中的预测风险预测结果之间的误差结果,生成针对风控检测模型的风控策略质量;
调整提示模块116,还用于当风控策略质量不满足风控条件时,生成针对风控检测模型的策略调整提示;策略调整提示用于提示对风控检测模型相关联的反作弊处理策略进行调整。
综上所述,本申请实施例提供的装置,通过自动提取用于表征业务请求不同维度特征的属性标签、图关联特征向量和行为特征,并基于这些多个维度特征对业务请求进行风险预测处理,得到目标风险预测结果,通过挖掘人工经验难以发现的维度特征,可以提高目标风险预测结果的准确性,再基于该目标风险预测结果对业务请求进行反作弊处理,提高了对作弊流量的检测覆盖率和检测准确率。
进一步地,请参见图12,图12是本申请实施例提供的一种计算机设备的结构示意图。如图12所示,上述图9所对应实施例中的数据处理装置1可以应用于上述计算机设备1200,上述计算机设备1200可以包括:处理器1201,网络接口1204和存储器1205,此外,上述计算机设备1200还包括:用户接口1203,和至少一个通信总线1202。其中,通信总线1202用于实现这些组件之间的连接通信。其中,用户接口1203可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1203还可以包括标准的有线接口、无线接口。网络接口1204可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1205可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1205可选的还可以是至少一个位于远离前述处理器1201的存储装置。如图12所示,作为一种计算机可读存储介质的存储器1205中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图12所示的计算机设备1200中,网络接口1204可提供网络通讯功能;而用户接口1203主要用于为用户提供输入的接口;而处理器1201可以用于调用存储器1205中存储的设备控制应用程序,以实现:
获取由目标用户所发起的业务请求,通过决策引擎在模型部署平台中的模型库中,获取与业务请求具有关联关系的风控检测模型;
获取业务请求对应的第一属性数据,获取目标用户的用户社交群,以第一属性数据和用户社交群中的关联用户的关联业务属性数据为属性节点,分别构建同构图和异构图;
通过风控检测模型对同构图进行社区发现处理,得到针对业务请求的属性标签;
通过风控检测模型分别对同构图和异构图进行节点序列采样,根据采样得到的属性节点序列,生成第一属性数据对应的属性节点的图关联特征向量;
通过风控检测模型对属性标签、图关联特征向量以及第一属性数据对应的行为特征进行风险预测处理,得到目标风险预测结果;
通过决策引擎对业务请求进行与目标风险预测结果相关联的反作弊处理。
应当理解,本申请实施例中所描述的计算机设备1200可执行前文各个实施例中对该数据处理方法的描述,也可执行前文图11所对应实施例中对该数据处理装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且上述计算机可读存储介质中存储有前文提及的数据处理装置1所执行的计算机程序,当上述处理器加载并执行上述计算机程序时,能够执行前文任一实施例对上述数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (18)

  1. 一种数据处理方法,其特征在于,应用于计算机设备中,所述方法包括:
    获取由目标用户所发起的业务请求;
    获取所述业务请求所述对应的第一属性数据,获取所述目标用户的用户社交群,以所述第一属性数据和所述用户社交群中的关联用户的第二属性数据为属性节点,分别构建同构图和异构图;
    对所述同构图进行社区发现处理,得到针对所述业务请求的属性标签;
    分别对所述同构图和所述异构图进行节点序列采样,根据采样得到的属性节点序列,生成所述第一属性数据对应的属性节点的图关联特征向量;
    对所述属性标签、图关联特征向量以及所述第一属性数据对应的行为特征进行风险预测处理,得到目标风险预测结果;
    对所述业务请求进行与所述目标风险预测结果相关联的反作弊处理。
  2. 根据权利要求1所述的方法,其特征在于,以所述第一属性数据和所述用户社交群中的关联用户的第二属性数据为属性节点,构建同构图,包括:
    将所述第一属性数据和所述第二属性数据确定为属性节点;
    在至少两个所述属性节点中,获取属性类型相同的属性节点,作为同构属性节点;
    根据所述同构属性节点之间属性数据的共性信息,确定所述同构属性节点之间的第一边权重;
    根据所述同构属性节点和所述第一边权重,构建所述同构图。
  3. 根据权利要求1所述的方法,其特征在于,以所述第一属性数据和所述用户社交群中的关联用户的第二属性数据为属性节点,构建异构图,包括:
    根据至少两个属性节点中两个属性节点之间的属性关系,在具备间接属性关系的属性节点之间建立连接关系,构建得到包含至少两个所述属性节点的所述异构图。
  4. 根据权利要求1所述的方法,其特征在于,所述对所述同构图进行社区发现处理,得到针对所述业务请求的属性标签,包括:
    根据所述同构图的模块度对所述同构图中的属性节点进行划分,得到社区划分结果,所述模块度用于指示所述同构图的社区结构强度;
    确定所述第一属性数据对应的属性节点所属的社区,作为目标社区;
    将所述目标社区的社区属性标签,作为针对所述业务请求的属性标签。
  5. 根据权利要求4所述的方法,其特征在于,所述根据所述同构图的模块度对所述同构图中的属性节点进行划分,得到社区划分结果,包括:
    将所述同构图中的属性节点分别划分至初始社区;
    将所述同构图中的第i个属性节点转移到邻居属性节点所在的初始社区,得到转移社区,所述邻居节点与所述第i个属性节点具有连接关系,i为小于或等于属性节点总数量的正整数;
    基于所述初始社区和所述转移社区确定模块度变化值;
    若所述模块度变化值满足社区聚集条件,基于所述转移社区得到所述社区划分结果。
  6. 根据权利要求5所述的方法,其特征在于,所述基于所述转移社区得到所述社区划分结果,包括:
    基于所述转移社区得到重构同构图;
    若所述重构同构图和所述同构图的社区结构相同,则将所述转移社区,作为所述社区划分结果;
    若所述重构同构图和所述同构图的社区结构不相同,则继续对所述重构同构图中的重构属性节点进行转移处理,直至得到所述社区划分结果。
  7. 根据权利要求1所述的方法,其特征在于,所述分别对所述同构图和所述异构图进行节点序列采样,根据采样得到的属性节点序列,生成所述第一属性数据对应的属性节点对应的图关联特征向量,包括:
    在所述同构图上随机游走,对路径上的属性节点进行采样,得到同构属性节点序列;
    根据所述同构属性节点序列,生成所述第一属性数据对应的属性节点的同构图特征向量;
    在所述异构图上随机游走,对路径上的属性节点进行采样,得到异构属性节点序列;
    根据所述异构属性节点序列,生成所述第一属性数据对应的属性节点的异构图特征向量;
    对所述同构图特征向量和所述异构图特征向量进行拼接,得到所述第一属性数据对应的属性节点的图关联特征向量。
  8. 根据权利要求1至7任一所述的方法,其特征在于,所述目标风险预测结果包括风险值和风险类型标签;
    所述对所述属性标签、图关联特征向量以及所述第一属性数据对应的行为特征进行风险预测处理,得到目标风险预测结果,包括:
    将所述属性标签、所述图关联特征向量以及所述第一属性数据对应的行为特征进行特征拼接,得到目标特征向量;
    将所述目标特征向量输入风险预测模型的分类层,通过所述分类层确定所述目标特征向量在至少两个候选风险类型标签下的风险概率;
    根据所述风险概率生成针对所述业务请求的所述风险值;
    在所述至少两个候选风险类型标签分别对应的风险概率中,将最大风险概率对应的候选风险类型标签确定为所述业务请求的风险类型标签。
  9. 根据权利要求8所述的方法,其特征在于,所述根据所述目标风险预测结果对所述业务请求进行反作弊处理,包括:
    获取与所述风险类型标签具有映射关系的反作弊风控策略;
    根据所述反作弊风控策略获取所述风险类型标签对应的风控阈值;
    若所述风险值大于或等于所述风控阈值,拒绝所述业务请求;
    若所述风险值小于所述风控阈值,响应所述业务请求。
  10. 根据权利要求1至7任一所述的方法,其特征在于,所述方法还包括:
    获取与所述第一属性数据相关联的历史业务请求序列;
    获取所述历史业务请求序列中的历史业务请求对应的历史业务属性数据;
    确定所述历史业务请求所处的历史时间段;
    基于所述历史业务属性数据和所述历史时间段,生成所述第一属性数据对应的请求行为统计信息;
    基于所述请求行为统计信息生成所述第一属性数据对应的行为特征。
  11. 根据权利要求1至7任一所述的方法,其特征在于,
    所述对所述同构图进行社区发现处理、所述分别对所述同构图和所述异构图进行节点序列采样、以及所述对所述属性标签、图关联特征向量以及所述第一属性数据对应的行为特征进行风险预测处理都是通过风控检测模型实现的。
  12. 根据权利要求11所述的方法,其特征在于,所述方法还包括:
    通过模型部署平台获取待部署的风控模型文件;
    识别所述风控模型文件的模型文件格式,基于所述模型文件格式解析所述风控模型文件,得到所述风控模型文件对应的风控检测模型;
    在所述模型部署平台中,响应针对所述风控检测模型发起的版本管理操作,为所述风控检测模型分配模型版本信息;
    响应针对所述风控检测模型发起的部署上线操作,对所述风控检测模型进行测试,得到测试服务质量;
    若所述测试服务质量满足模型上线条件,则将所述风控检测模型和所述模型版本信息添加至所述模型部署平台中的模型库中。
  13. 根据权利要求12所述的方法,其特征在于,所述对所述风控检测模型进行测试,得到测试服务质量,包括:
    通过所述模型部署平台获取离线样本属性数据,所述离线样本属性数据标注有风控标签,所述风控标签用于表征所述离线样本属性数据的风险性;
    通过所述离线样本数据对所述风控检测模型进行离线预测处理,得到离线预测结果;
    基于所述离线预测结果和所述风控标签之间的误差,评估所述风控检测模型的测试服务质量。
  14. 根据权利要求12所述的方法,其特征在于,所述方法还包括:
    通过所述模型部署平台响应针对所述风控检测模型的流量配置操作,确定所述风控检测模型相关联的 目标用户群体;所述目标用户群体包括所述目标用户;所述风控检测模型用于响应所述目标用户群体所发起的业务请求;
    通过决策引擎响应针对所述目标用户群体的风控策略配置操作,生成针对所述目标用户群体的风控策略;所述风控策略包括处理类型字段和处理类型字段相关联的反作弊处理策略;
    将所述风控检测模型的至少两种风险预测结果与所述处理类型字段进行映射;
    所述所述业务请求进行与所述目标风险预测结果相关联的反作弊处理,包括:
    通过所述决策引擎确定与所述目标风险预测结果具有映射关系的处理类型字段,作为目标处理类型字段;
    根据所述目标处理类型字段相关联的反作弊处理策略,对所述业务请求进行反作弊处理。
  15. 根据权利要求12所述的方法,其特征在于,所述方法还包括:
    将所述风控检测模型响应所述目标用户群体所发起的业务请求所得到的预测风险预测结果,记录到所述风控检测模型对应的模型执行日志中;
    监控所述目标用户群体的风险状况,根据所述风险状况确定所述目标用户群体的真实风险标签;
    基于所述真实风险标签和所述模型执行日志中的预测风险预测结果之间的误差结果,生成针对所述风控检测模型的风控策略质量;
    当所述风控策略质量不满足风控条件时,生成针对所述风控检测模型的策略调整提示;所述策略调整提示用于提示对所述风控检测模型相关联的反作弊处理策略进行调整。
  16. 一种数据处理装置,其特征在于,所述装置包括:
    获取模块,用于获取由目标用户所发起的业务请求;获取所述业务请求所述对应的第一属性数据,获取所述目标用户的用户社交群;
    图构建模块,用于以所述第一属性数据和所述用户社交群中的关联用户的第二属性数据为属性节点;分别构建同构图和异构图;
    标签确定模块,用于对所述同构图进行社区发现处理,得到针对所述业务请求的属性标签;
    图向量确定模块,用于分别对所述同构图和所述异构图进行节点序列采样,根据采样得到的属性节点序列,生成所述第一属性数据对应的属性节点的图关联特征向量;
    风险确定模块,用于对所述属性标签、图关联特征向量以及所述第一属性数据对应的行为特征进行风险预测处理,得到目标风险预测结果;
    反作弊模块,用于对所述业务请求进行与所述目标风险预测结果相关联的反作弊处理。
  17. 一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
    所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供网络通信功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行权利要求1-15任一项所述的方法。
  18. 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,该计算机程序适于由处理器加载并执行权利要求1-15任一项所述的方法。
PCT/CN2021/107114 2021-06-03 2021-07-19 数据处理方法、计算机设备以及可读存储介质 WO2022252363A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/320,313 US20230289828A1 (en) 2021-06-03 2023-05-19 Data processing method, computer device, and readable storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110622162.9 2021-06-03
CN202110622162.9A CN115511501A (zh) 2021-06-03 2021-06-03 一种数据处理方法、计算机设备以及可读存储介质

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/320,313 Continuation US20230289828A1 (en) 2021-06-03 2023-05-19 Data processing method, computer device, and readable storage medium

Publications (1)

Publication Number Publication Date
WO2022252363A1 true WO2022252363A1 (zh) 2022-12-08

Family

ID=84322749

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/107114 WO2022252363A1 (zh) 2021-06-03 2021-07-19 数据处理方法、计算机设备以及可读存储介质

Country Status (3)

Country Link
US (1) US20230289828A1 (zh)
CN (1) CN115511501A (zh)
WO (1) WO2022252363A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116094827A (zh) * 2023-01-18 2023-05-09 支付宝(杭州)信息技术有限公司 基于拓扑增强的安全风险鉴别方法与系统
CN116091208A (zh) * 2023-01-16 2023-05-09 张一超 基于图神经网络的信贷风险企业识别方法和装置
CN116595224A (zh) * 2023-04-07 2023-08-15 西安伟雄电子科技有限公司 针对在线业务会话的大数据存储优化方法及服务器

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116911406B (zh) * 2023-07-05 2024-02-02 上海数禾信息科技有限公司 风控模型部署方法、装置、计算机设备和存储介质
CN116701706B (zh) * 2023-07-29 2023-09-29 腾讯科技(深圳)有限公司 一种基于人工智能的数据处理方法、装置、设备及介质
CN117252703B (zh) * 2023-11-20 2024-02-09 杭州联海网络科技有限公司 一种面向金融客户的营销规则生成方法和系统
CN117350461B (zh) * 2023-12-05 2024-03-19 湖南财信数字科技有限公司 企业异常行为预警方法、系统、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180083994A1 (en) * 2016-09-21 2018-03-22 Stealth Security, Inc. Unsupervised classification of web traffic users
CN108109011A (zh) * 2017-12-28 2018-06-01 北京皮尔布莱尼软件有限公司 一种广告反作弊方法及计算设备
CN110852881A (zh) * 2019-10-14 2020-02-28 支付宝(杭州)信息技术有限公司 风险账户识别方法、装置、电子设备及介质
CN110852761A (zh) * 2019-10-11 2020-02-28 支付宝(杭州)信息技术有限公司 制定反作弊策略的方法、装置及电子设备
CN112488765A (zh) * 2020-12-08 2021-03-12 深圳市欢太科技有限公司 广告反作弊方法、广告反作弊装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180083994A1 (en) * 2016-09-21 2018-03-22 Stealth Security, Inc. Unsupervised classification of web traffic users
CN108109011A (zh) * 2017-12-28 2018-06-01 北京皮尔布莱尼软件有限公司 一种广告反作弊方法及计算设备
CN110852761A (zh) * 2019-10-11 2020-02-28 支付宝(杭州)信息技术有限公司 制定反作弊策略的方法、装置及电子设备
CN110852881A (zh) * 2019-10-14 2020-02-28 支付宝(杭州)信息技术有限公司 风险账户识别方法、装置、电子设备及介质
CN112488765A (zh) * 2020-12-08 2021-03-12 深圳市欢太科技有限公司 广告反作弊方法、广告反作弊装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116091208A (zh) * 2023-01-16 2023-05-09 张一超 基于图神经网络的信贷风险企业识别方法和装置
CN116091208B (zh) * 2023-01-16 2023-10-27 张一超 基于图神经网络的信贷风险企业识别方法和装置
CN116094827A (zh) * 2023-01-18 2023-05-09 支付宝(杭州)信息技术有限公司 基于拓扑增强的安全风险鉴别方法与系统
CN116595224A (zh) * 2023-04-07 2023-08-15 西安伟雄电子科技有限公司 针对在线业务会话的大数据存储优化方法及服务器

Also Published As

Publication number Publication date
CN115511501A (zh) 2022-12-23
US20230289828A1 (en) 2023-09-14

Similar Documents

Publication Publication Date Title
WO2022252363A1 (zh) 数据处理方法、计算机设备以及可读存储介质
EP3989131A1 (en) Method and system for realizing machine learning modeling process
CN108520470B (zh) 用于生成用户属性信息的方法和装置
CN113590497A (zh) 业务服务的测试方法、装置、电子设备及存储介质
CN109471978B (zh) 一种电子资源推荐方法及装置
CN113761219A (zh) 基于知识图谱的检索方法、装置、电子设备及存储介质
CN111626767B (zh) 资源数据的发放方法、装置及设备
CN114692007B (zh) 表示信息的确定方法、装置、设备及存储介质
US10678821B2 (en) Evaluating theses using tree structures
CN114371946B (zh) 基于云计算和大数据的信息推送方法及信息推送服务器
CN113706211B (zh) 基于神经网络的广告点击率预测方法及系统
Rai et al. Using open source intelligence as a tool for reliable web searching
CN114331495A (zh) 多媒体数据处理方法、装置、设备及存储介质
CN115222433A (zh) 一种信息推荐方法、装置及存储介质
CN116976353A (zh) 一种数据处理方法、装置、设备以及可读存储介质
CN116029766A (zh) 用户交易决策识别方法、激励策略优化方法、装置和设备
CN112269942B (zh) 一种推荐对象的方法、装置、系统及电子设备
CN114662001A (zh) 资源交互预测模型训练方法和装置和资源推荐方法和装置
CN112200602A (zh) 用于广告推荐的神经网络模型训练方法及装置
CN115329183A (zh) 数据处理方法、装置、存储介质及设备
CN111522747A (zh) 一种应用程序的处理方法、装置、设备及介质
CN110895564A (zh) 一种潜在客户数据处理方法和装置
CN111784503B (zh) 一种通信征信数据的运营变现方法、系统和存储介质
CN116708298A (zh) 流量控制方法、装置、计算机设备及存储介质
CN114077710A (zh) 社交网络账号识别方法、装置及电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21943720

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE