WO2021031825A1 - 网络欺诈识别方法、装置、计算机装置及存储介质 - Google Patents

网络欺诈识别方法、装置、计算机装置及存储介质 Download PDF

Info

Publication number
WO2021031825A1
WO2021031825A1 PCT/CN2020/105940 CN2020105940W WO2021031825A1 WO 2021031825 A1 WO2021031825 A1 WO 2021031825A1 CN 2020105940 W CN2020105940 W CN 2020105940W WO 2021031825 A1 WO2021031825 A1 WO 2021031825A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
network
users
feature
multiple users
Prior art date
Application number
PCT/CN2020/105940
Other languages
English (en)
French (fr)
Inventor
刘利
Original Assignee
深圳壹账通智能科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳壹账通智能科技有限公司 filed Critical 深圳壹账通智能科技有限公司
Publication of WO2021031825A1 publication Critical patent/WO2021031825A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • This application relates to the field of artificial intelligence technology, in particular to a method, device, computer device, and storage medium for identifying online fraud.
  • Content-based fraud detection technology extracts content features (ie text, URL) from user activities on social networks, and then performs fraud identification.
  • content features ie text, URL
  • the inventor realizes that content-based methods cannot make full use of the graph structure characteristics of social networks, and cannot effectively identify the global characteristics of user fraud.
  • the first aspect of the present application provides a network fraud identification method, wherein the method includes:
  • the cyber fraud recognition model includes a deep autoencoder and a convolutional neural network
  • the deep autoencoder includes an encoder and a decoder
  • the encoder The output is the input of the convolutional neural network
  • the characteristic vector of the user to be identified is input into the trained network fraud identification model for identification, and it is determined whether the user to be identified is a fraudulent user.
  • the second aspect of the present application provides a computer device, wherein the computer device includes a processor configured to execute computer-readable instructions stored in a memory to implement the following steps:
  • the cyber fraud recognition model includes a deep autoencoder and a convolutional neural network
  • the deep autoencoder includes an encoder and a decoder
  • the encoder The output is the input of the convolutional neural network
  • the characteristic vector of the user to be identified is input into the trained network fraud identification model for identification, and it is determined whether the user to be identified is a fraudulent user.
  • a third aspect of the present application provides a storage medium with computer-readable instructions stored on the storage medium, where the computer-readable instructions implement the following steps when executed by a processor:
  • the cyber fraud recognition model includes a deep autoencoder and a convolutional neural network
  • the deep autoencoder includes an encoder and a decoder
  • the encoder The output is the input of the convolutional neural network
  • the characteristic vector of the user to be identified is input into the trained network fraud identification model for identification, and it is determined whether the user to be identified is a fraudulent user.
  • the fourth aspect of the present application provides a network fraud identification device, wherein the device includes:
  • An acquiring module configured to acquire network registration information of multiple users, and construct a network graph of the multiple users according to the network registration information of the multiple users, the multiple users including training set users and users to be identified;
  • a construction module configured to construct an adjacency matrix of the multiple users according to the network graph
  • a generating module configured to generate, for each given user among the multiple users, according to the row vector corresponding to the given user in the feature matrix and the row vector corresponding to the preset neighbor users of the given user The feature vector of the given user;
  • the training module is configured to use the feature vectors of the users of the training set to train a cyber fraud recognition model
  • the cyber fraud recognition model includes a deep autoencoder and a convolutional neural network
  • the deep autoencoder includes an encoder and a decoder
  • the output of the encoder is the input of the convolutional neural network
  • the recognition module is configured to input the characteristic vector of the user to be identified into the trained online fraud identification model for identification, and determine whether the user to be identified is a fraudulent user.
  • This application obtains network registration information of multiple users, and constructs a network diagram of the multiple users according to the network registration information of the multiple users, and the multiple users include training set users and users to be identified; according to the network diagram Construct the adjacency matrix of the multiple users; perform spectral decomposition on the adjacency matrix to obtain the feature matrix of the multiple users; for each given user in the multiple users, according to the feature matrix
  • the row vector corresponding to the given user and the row vector corresponding to the preset neighbor user of the given user are used to generate the feature vector of the given user;
  • the feature vector of the user in the training set is used to train the network fraud recognition model, the
  • the network fraud recognition model includes a deep autoencoder and a convolutional neural network.
  • the deep autoencoder includes an encoder and a decoder.
  • the output of the encoder is the input of the convolutional neural network; and the user to be identified
  • the characteristic vector of is input into the trained network fraud recognition model for recognition, and it is determined whether the user to be recognized is a fraudulent user.
  • This application realizes the identification of fraudulent users on the network based on the user's network registration information.
  • Fig. 1 is a flowchart of a method for identifying online fraud provided by an embodiment of the present application.
  • Fig. 3 is a schematic diagram of a computer device provided by an embodiment of the present application.
  • connection information of each node in the network diagram can be marked with a predetermined format. For example, if user A (corresponding to node 1) and user B (corresponding to node 2) have the same IP address, the connection information between node 1 and node 2 can be marked as "1 - connected by IP - 2"; B and user C (corresponding to node 3) have the same IP address and MAC address, then the connection information between node 2 and node 3 can be marked as "2-connected by IP and MAC-3".
  • the convolutional neural network may be a LeNet convolutional neural network, and the LeNet convolutional neural network adopts three convolutional layers, two downsampling layers, and one fully connected layer.
  • the output of the online fraud identification model is a preset value, and it can be determined whether the user to be identified is a fraudulent user according to the output of the online fraud model. For example, if the output of the online fraud identification model is 0, it is determined that the user to be identified is not a fraudulent user; if the output of the online fraud identification model is 1, it is determined that the user to be identified is a fraudulent user.
  • different network registration information and different preset neighbor users can be used for network fraud identification.
  • network fraud recognition models with different recognition accuracy rates can be trained, and the combination of conditions with the highest recognition accuracy rate can be used for network fraud recognition.
  • Fig. 2 is a structural diagram of a network fraud identification device provided in the second embodiment of the present application.
  • the network fraud identification device 20 is applied to a computer device.
  • the network fraud identification device 20 can identify fraudulent users on the network (for example, a social platform) according to the user's network registration information.
  • the network fraud identification device 20 may include an acquisition module 201, a construction module 202, a spectrum decomposition module 203, a generation module 204, a training module 205, and an identification module 206.
  • the constructing a network diagram of the multiple users according to the network registration information of the multiple users includes:
  • each node corresponds to a user
  • each edge corresponds to two users with the same network registration information.
  • the constructing a network map of the multiple users according to the network registration information of the multiple users further includes:
  • the weight of each edge in the network graph may be equal to the amount of the same network registration information of two users corresponding to the edge. For example, if user A and user B have the same IP address, the weight of the side corresponding to user A and user B can be 1; user B and user C have the same IP address and MAC address, then user B corresponds to user C The weight of the edge can be 2.
  • the value corresponding to each identical network registration information can be set, and each edge in the network graph can be determined based on the value corresponding to each identical network registration information and the same network registration information of the two users corresponding to each edge.
  • the weight of For example, the value corresponding to the same IP address is 1, the value corresponding to the same MAC address is 2, and user A and user B have the same IP address, then the weight of the side corresponding to user A and user B can be 1; user B With the same IP address and MAC address as user C, the weight of the edge corresponding to user B and user C can be 3 (ie, 1+2).
  • the training set user has a category label, and the category label is used to mark whether the training set user is a fraudulent user. For example, if the category label is 1, it means that the training set user is a fraudulent user; if the category label is 0, it means that the training set user is not a fraudulent user.
  • the construction module 202 is configured to construct an adjacency matrix of the multiple users according to the network graph.
  • each element of the adjacency matrix may be determined according to the connection relationship of each node in the network graph and the weight of each edge in the network graph.
  • the adjacency matrix is P N ⁇ N
  • the elements of the adjacency matrix are p i,j , 1 ⁇ i,j ⁇ N.
  • p i,j is equal to the weight of the edge connecting node i and node j in the network graph; if the node i and node j corresponding to the off-diagonal elements are in the network graph If not connected, p i,j is equal to 0.
  • p i,j is equal to 0.
  • Spectral decomposition is also called eigen decomposition.
  • Spectral decomposition of the adjacency matrix is to decompose the adjacency matrix into the product of the matrix represented by the eigenvalue of the adjacency matrix and the eigenvector.
  • Each row (that is, each row vector) in the feature matrix corresponds to a user (that is, a node).
  • the characteristic matrix obtained by spectral decomposition of the adjacency matrix is a square matrix, and the dimension of the characteristic matrix is the same as the dimension of the adjacency matrix. For example, if the dimension of the adjacency matrix is N (that is, an N*N square matrix), the dimension of the feature matrix is also N.
  • the vectors in the adjacency matrix can be approximately described by the vectors in the feature matrix.
  • the diagonal elements of the diagonal matrix are the eigenvalues of the adjacency matrix P, and the column vectors of the eigen matrix Q are eigenvectors corresponding to the eigenvalues.
  • the generating module 204 is configured to, for each given user among the multiple users, according to the row vector corresponding to the given user in the feature matrix and the row vector corresponding to the preset neighbor user of the given user Generate the feature vector of the given user.
  • the generated feature vector includes the feature vector of the user in the training set and the feature vector of the user to be identified.
  • the preset neighbor users of a given user are determined according to the network diagram.
  • the preset neighbor user may be a one-step neighbor user.
  • the preset neighbor user may be a two-step neighbor user.
  • the one-step neighbor user is a user who is directly connected to a given user in the network diagram (that is, one hop away from the given user); the two-step neighbor user is in the network diagram and is connected to the given user A user connected indirectly through another user (that is, two hops away from a given user). For example, if user A is directly connected to user B, user B is directly connected to user C, and user A is not directly connected to user C, then user B is a one-step neighbor user of user A, and user C is a two-step neighbor user of user A.
  • the generating the feature vector of the given user according to the row vector corresponding to the given user and the row vector corresponding to the preset neighbor user of the given user in the feature matrix includes:
  • K takes the value 6.
  • user C its one-step neighbor users include user B and user D, then: in the feature matrix, take the first 6 elements of the row vector corresponding to user C to obtain the first feature sub-vector of user C; In the feature matrix, take the first 6 elements of the row vector corresponding to user B to obtain the feature sub-vector of user B; in the feature matrix, take the first 6 elements of the row vector corresponding to user D to obtain user D’s
  • Feature sub-vector Calculate the average value of the feature sub-vector of user B and the feature sub-vector of user D to obtain the second feature sub-vector of user C. Combine the first feature subvector and the second feature subvector of user C to obtain the feature vector of user C, that is, a 12-dimensional feature subvector.
  • the value of K can be taken in other ways, for example, if the dimension N of the adjacency matrix is even, K can be taken as N/2; if the dimension N of the adjacency matrix is even , K can be taken as (N-1)/2 or (N+1)/2.
  • the training module 205 is configured to use the feature vectors of the users of the training set to train a cyber fraud recognition model
  • the cyber fraud recognition model includes a deep autoencoder and a convolutional neural network
  • the deep autoencoder includes an encoder and a decoder
  • the output of the encoder is the input of the convolutional neural network.
  • the network fraud model extracts the user's deep network connection information according to the user's feature vector, and identifies whether the user is a fraudulent user according to the deep network connection information.
  • the network fraud model performs dimension reduction and feature extraction on the user's feature vector through the encoder of the deep autoencoder, and the dimension of the reduced feature vector is equal to the dimension of the input vector of the convolutional neural network. Then input the feature vector after dimensionality reduction and feature extraction into the convolutional neural network, thereby reducing the computational consumption of the convolutional neural network.
  • the convolutional neural network may be a LeNet convolutional neural network, and the LeNet convolutional neural network adopts three convolutional layers, two downsampling layers, and one fully connected layer.
  • the network fraud recognition model When training the network fraud recognition model, first input the feature vector of the training set user into the deep autoencoder for training. After completing the training of the deep autoencoder, the feature vectors of the users of the training set are input from the deep autoencoder to the convolutional neural network, and the convolutional neural network is trained. Adjust the parameters of the convolutional neural network according to the labels of the users in the training set and the output result of the convolutional neural network to complete the training of the convolutional neural network.
  • the identification module 206 is configured to input the feature vector of the user to be identified into the trained online fraud identification model for identification, and determine whether the user to be identified is a fraudulent user.
  • the output of the online fraud identification model is a preset value, and it can be determined whether the user to be identified is a fraudulent user according to the output of the online fraud model. For example, if the output of the online fraud identification model is 0, it is determined that the user to be identified is not a fraudulent user; if the output of the online fraud identification model is 1, it is determined that the user to be identified is a fraudulent user.
  • different network registration information and different preset neighbor users can be used for network fraud identification.
  • network fraud recognition models with different recognition accuracy rates can be trained, and the combination of conditions with the highest recognition accuracy rate can be used for network fraud recognition.
  • the network registration information may use IP address, MAC address, or IP address, MAC address, or phone number; the preset neighbor user may use a two-step neighbor user or a three-step neighbor user.
  • the network fraud recognition model After many trainings and tests, when the network registration information is an IP address and a MAC address, and the neighbor user is preset as a two-step neighbor user, the network fraud recognition model has the highest recognition accuracy.
  • the existing content-based fraud detection technology extracts content features (ie text, URL) from user activities on social networks, and then performs fraud identification.
  • Content-based fraud identification methods cannot make full use of the graph structure characteristics of network users, and cannot effectively identify the global characteristics of user fraud.
  • the network fraud identification method of the present application constructs a network map based on the user's network registration information, identifies fraudulent users on the network according to the network map, and realizes effective identification of network fraud users.
  • the network fraud identification device 20 of the second embodiment obtains network registration information of multiple users, and constructs a network diagram of the multiple users according to the network registration information of the multiple users, and the multiple users include training set users and to-be-identified users User; construct the adjacency matrix of the multiple users according to the network graph; perform spectral decomposition on the adjacency matrix to obtain the feature matrix of the multiple users; for each given user of the multiple users, Generate the feature vector of the given user according to the row vector corresponding to the given user in the feature matrix and the row vector corresponding to the preset neighbor user of the given user; use the feature vector of the training set user for training
  • the network fraud recognition model includes a deep autoencoder and a convolutional neural network
  • the deep autoencoder includes an encoder and a decoder
  • the output of the encoder is the input of the convolutional neural network Input the characteristic vector of the user to be identified into the trained online fraud identification model for identification, and determine whether the user to be identified is a
  • This embodiment provides a storage medium with computer-readable instructions stored on the storage medium.
  • the steps in the embodiment of the online fraud identification method are implemented, such as 101- shown in FIG. 106:
  • 105 Use feature vectors of users in the training set to train a cyber fraud recognition model, the cyber fraud recognition model including a deep autoencoder and a convolutional neural network, the deep autoencoder including an encoder and a decoder, and the encoder
  • the output of the device is the input of the convolutional neural network;
  • the obtaining module 201 is configured to obtain network registration information of multiple users, and construct a network graph of the multiple users according to the network registration information of the multiple users, and the multiple users include training set users and users to be identified;
  • the spectral decomposition module 203 is configured to perform spectral decomposition on the adjacency matrix to obtain feature matrices of the multiple users;
  • the generating module 204 is configured to, for each given user among the multiple users, according to the row vector corresponding to the given user in the feature matrix and the row vector corresponding to the preset neighbor user of the given user Generating a feature vector of the given user;
  • the training module 205 is configured to use the feature vectors of the users of the training set to train a cyber fraud recognition model, the cyber fraud recognition model includes a deep autoencoder and a convolutional neural network, and the deep autoencoder includes an encoder and a decoder , The output of the encoder is the input of the convolutional neural network;
  • the identification module 206 inputs the feature vector of the user to be identified into the trained online fraud identification model for identification, and determines whether the user to be identified is a fraudulent user.
  • FIG. 3 is a schematic diagram of a computer device provided in Embodiment 4 of this application.
  • the computer device 30 includes a memory 301, a processor 302, and a computer program 303 that is stored in the memory 301 and can run on the processor 302, such as a network fraud identification program.
  • a network fraud identification program such as a network fraud identification program.
  • 105 Use feature vectors of users in the training set to train a cyber fraud recognition model, the cyber fraud recognition model including a deep autoencoder and a convolutional neural network, the deep autoencoder including an encoder and a decoder, and the encoder
  • the output of the device is the input of the convolutional neural network;
  • each module in the above-mentioned device embodiment is realized, for example, the modules 201-206 in Fig. 2:
  • the obtaining module 201 is configured to obtain network registration information of multiple users, and construct a network graph of the multiple users according to the network registration information of the multiple users, and the multiple users include training set users and users to be identified;
  • the construction module 202 is configured to construct an adjacency matrix of the multiple users according to the network graph;
  • the spectral decomposition module 203 is configured to perform spectral decomposition on the adjacency matrix to obtain feature matrices of the multiple users;
  • the generating module 204 is configured to, for each given user among the multiple users, according to the row vector corresponding to the given user in the feature matrix and the row vector corresponding to the preset neighbor user of the given user Generating a feature vector of the given user;
  • the training module 205 is configured to use the feature vectors of the users of the training set to train a cyber fraud recognition model, the cyber fraud recognition model includes a deep autoencoder and a convolutional neural network, and the deep autoencoder includes an encoder and a decoder , The output of the encoder is the input of the convolutional neural network;
  • the identification module 206 inputs the feature vector of the user to be identified into the trained online fraud identification model for identification, and determines whether the user to be identified is a fraudulent user.
  • the computer program 303 may be divided into one or more modules, and the one or more modules are stored in the memory 301 and executed by the processor 302 to complete the method.
  • the one or more modules may be a series of computer-readable instruction segments capable of completing specific functions, and the instruction segments are used to describe the execution process of the computer program 303 in the computer device 30.
  • the computer program 303 can be divided into the acquisition module 201, the construction module 202, the spectrum decomposition module 203, the generation module 204, the training module 205, and the recognition module 206 in FIG. 2.
  • the second embodiment For specific functions of each module, refer to the second embodiment.
  • the so-called processor 302 may be a central processing unit (Central Processing Unit, CPU), other general-purpose processors, digital signal processors (Digital Signal Processor, DSP), application specific integrated circuits (Application Specific Integrated Circuit, ASIC), Ready-made programmable gate array (Field-Programmable Gate Array, FPGA) or other programmable logic devices, discrete gate or transistor logic devices, discrete hardware components, etc.
  • the general-purpose processor can be a microprocessor or the processor 302 can also be any conventional processor, etc.
  • the processor 302 is the control center of the computer device 30 and connects the entire computer device 30 with various interfaces and lines. Various parts.
  • the memory 301 may be used to store the computer program 303, and the processor 302 implements the computer device by running or executing the computer program or module stored in the memory 301 and calling data stored in the memory 301 30 various functions.
  • the memory 301 may mainly include a program storage area and a data storage area.
  • the program storage area may store an operating system, an application program required by at least one function (such as a sound playback function, an image playback function, etc.), etc.; Data (such as audio data) created according to the use of the computer device 30 and the like are stored.
  • the memory 301 may include non-volatile and volatile memory, such as a hard disk, a memory, a plug-in hard disk, a smart memory card (Smart Media Card, SMC), a Secure Digital (SD) card, a flash memory card ( Flash Card), at least one disk storage device, flash memory device or other storage device.
  • non-volatile and volatile memory such as a hard disk, a memory, a plug-in hard disk, a smart memory card (Smart Media Card, SMC), a Secure Digital (SD) card, a flash memory card ( Flash Card), at least one disk storage device, flash memory device or other storage device.
  • the integrated modules of the computer device 30 are implemented in the form of software functional modules and sold or used as independent products, they can be stored in a computer-readable storage medium. Based on this understanding, this application implements all or part of the processes in the above-mentioned embodiments and methods, and can also be completed by instructing relevant hardware through a computer program.
  • the computer program can be stored in a computer-readable storage medium. When the program is executed by the processor, the steps of the foregoing method embodiments can be implemented.
  • the computer program includes computer readable instruction code, and the computer readable instruction code may be in the form of source code, object code, executable file, or some intermediate form.
  • the computer-readable storage medium may include: any entity or device capable of carrying the computer-readable instruction code, recording medium, U disk, mobile hard disk, magnetic disk, optical disk, computer memory, read-only memory (ROM, Read- Only Memory), Random Access Memory (RAM, Random Access Memory).
  • the computer-readable storage medium may be non-volatile or volatile.
  • modules described as separate components may or may not be physically separated, and the components displayed as modules may or may not be physical modules, that is, they may be located in one place, or they may be distributed on multiple network units. Some or all of the modules may be selected according to actual needs to achieve the objectives of the solutions of the embodiments.
  • each functional module in each embodiment of the present application may be integrated into one processing module, or each module may exist alone physically, or two or more modules may be integrated into one module.
  • the above-mentioned integrated modules can be implemented in the form of hardware, or in the form of hardware plus software functional modules.
  • the above-mentioned integrated modules implemented in the form of software functional modules may be stored in a computer-readable storage medium.
  • the above-mentioned software function module is stored in a storage medium and includes several instructions to make a computer device (which may be a personal computer, a server, or a network device, etc.) or a processor (processor) execute the method described in each embodiment of the present application Part of the steps.

Abstract

本申请提供一种网络欺诈识别方法、装置、计算机装置及存储介质。所述方法包括:获取多个用户的网络注册信息,根据所述网络注册信息构建所述多个用户的网络图;根据所述网络图构建所述多个用户的邻接矩阵;对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;使用所述多个用户中的训练集用户的特征向量训练网络欺诈识别模型;将所述多个用户中的待识别用户的特征向量输入所述网络欺诈识别模型进行识别。本申请根据用户的网络注册信息识别网络上的欺诈用户。

Description

网络欺诈识别方法、装置、计算机装置及存储介质
本申请要求于2019年8月22日提交中国专利局、申请号为201910776749.8、发明名称为“网络欺诈识别方法、装置、计算机装置及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能技术领域,具体涉及一种网络欺诈识别方法、装置、计算机装置及存储介质。
背景技术
随着互联网的快速发展以及智能终端的普及,在线社交网络已经成为流行的社交服务。由于社交网络的开放性,欺诈者可以很容易地在社交网络中注册,并通过向社交网络中注入虚假内容进行网络欺诈。调查显示,包括网络欺诈在内的网络犯罪每年给全球带来高达4450亿美元的经济损失,日益复杂并向不同行业渗透。在国内,网络诈骗的黑色产业链规模超过1100亿元,从业人员超过160万人。
目前有许多基于内容的欺诈检测技术。基于内容的欺诈检测技术是从社交网络上的用户活动中提取内容特征(即文本、URL),然后进行欺诈识别。但是,发明人意识到基于内容的方法不能充分利用社交网络的图结构特征,不能够有效识别用户的欺诈行为的全局特性。
发明内容
鉴于以上内容,有必要提出一种网络欺诈识别方法、装置、计算机装置及存储介质,其可以根据用户的网络注册信息识别网络上的欺诈用户。
本申请的第一方面提供一种网络欺诈识别方法,其中,所述方法包括:
获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户;
根据所述网络图构建所述多个用户的邻接矩阵;
对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;
对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;
使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;
将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。
本申请的第二方面提供一种计算机装置,其中,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机可读指令以实现以下步骤:
获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户;
根据所述网络图构建所述多个用户的邻接矩阵;
对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;
对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;
使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;
将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。
本申请的第三方面提供一种存储介质,所述存储介质上存储有计算机可读指令,其中,所述计算机可读指令被处理器执行时实现以下步骤:
获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户;
根据所述网络图构建所述多个用户的邻接矩阵;
对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;
对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;
使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;
将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。
本申请的第四方面提供一种网络欺诈识别装置,其中,所述装置包括:
获取模块,用于获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户;
构建模块,用于根据所述网络图构建所述多个用户的邻接矩阵;
谱分解模块,用于对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;
生成模块,用于对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;
训练模块,用于使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;
识别模块,用于将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。
本申请获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户;根据所述网络图构建所述多个用户的邻接矩阵;对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。本申请实现了根据用户的网络注册信息识别网络上的欺诈用户。
附图说明
图1是本申请实施例提供的网络欺诈识别方法的流程图。
图2是本申请实施例提供的网络欺诈识别装置的结构图。
图3是本申请实施例提供的计算机装置的示意图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施例对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
优选地,本申请的网络欺诈识别方法应用在一个或者多个计算机装置中。所述计算机装置是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
实施例一
图1是本申请实施例一提供的网络欺诈识别方法的流程图。所述网络欺诈识别方法应用于计算机装置。
本申请网络欺诈识别方法涉及机器学习,可以根据用户的网络注册信息识别网络(例如社交平台)上的欺诈用户。
如图1所示,所述网络欺诈识别方法包括:
101,获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户,所述网络注册信息包括IP(Internet Protocol Address,互联网协议地址)地址、MAC(Media Access Control Address,媒体访问控制地址)地址。
本步骤获取多个用户的网络注册信息,根据多个用户的网络注册信息构建所述多个用户的网络图。例如,本方法应用于社交平台(如交友网站),用于对社交平台上的欺诈用户进行识别,则本步骤获取所述社交平台上多个用户的网络注册信息,根据所述社交平台上多个用户的网络注册信息构建所述多个用户的网络图。
在一具体实施例中,所述根据多个用户的网络注册信息构建所述多个用户的网络图包括:
以所述多个用户中的每个用户作为所述网络图的节点,若所述多个用户中的两个用户有相同的网络注册信息,则连接所述两个用户对应的节点,得到所述两个用户对应的边。
构建的网络图中,每个节点对应一个用户,每条边对应有相同的网络注册信息的两个用户。
所述多个用户中的任意两个用户可以有相同的一个或多个网络注册信息。
例如,所述网络图中有三个节点1、2、3,分别表示用户A、用户B、用户C,用户A与用户B有相同的IP地址,用户B与用户C有相同的IP地址和MAC地址,则连接节点1和节点2、节点2和节点3、节点1和节点3。
可以用预定格式标记所述网络图中各个节点的连接信息。例如,用户A(对应于节点1)与用户B(对应于节点2)有相同的IP地址,则节点1与节点2的连接信息可以标记为“1――connected by IP――2”;用户B与用户C(对应于节点3)有相同的IP地址和MAC地址,则节点2与节点3的连接信息可以标记为“2――connected by IP and MAC――3”。
所述根据多个用户的网络注册信息构建所述多个用户的网络图还包括:
根据所述多个用户的网络注册信息确定所述网络图中各条边的权值。
具体地,根据所述多个用户的网络注册信息确定所述网络图中各条边的权值就是根据所述网络图中每条边对应的两个用户的相同的网络注册信息确定该条边的权值。
所述网络图中每条边的权值可以等于该条边对应的两个用户相同的网络注册信息的数量。例如,用户A与用户B有相同的IP地址,则用户A与用户B对应的边的权值可以为1;用户B与用户C有相同的IP地址和MAC地址,则用户B与用户C对应的边的权值可以为2。
或者,可以设置每个相同的网络注册信息对应的数值,根据每个相同的网络注册信息对应的数值和每条边对应的两个用户的相同的网络注册信息确定所述网络图中各条边的权值。例如,相同IP地址对应的数值为1,相同的MAC地址对应的数值为2,用户A与用户B有相同的IP地址,则用户A与用户B对应的边的权值可以为1;用户B与用户C有相同的IP地址和MAC地址,则用户B与用户C对应的边的权值可以为3(即1+2)。
所述训练集用户带有类别标签,所述类别标签用于标注所述训练集用户是否为欺诈用户。例如,若类别标签为1,则表示所述训练集用户是欺诈用户;若类别标签为0,则表示所述训练集用户不是欺诈用户。
可选的,所述网络注册信息还可以包括电话号码、通讯地址等。
102,根据所述网络图构建所述多个用户的邻接矩阵。
邻接矩阵用于表示所述网络图中各个节点之间的连接关系。例如,邻接矩阵中的元素p 1,2表示所述网络图中节点1与节点2之间的连接关系。邻接矩阵的每一行(即每个行向量)对应网络图中的一个节点(对应于一个用户),表示该节点与其他节点(对应于其他用户)的连接关系。
所述邻接矩阵是N×N的方阵(即所述邻接矩阵的维数为N),N为所述网络图的节点数,即所述多个用户的用户个数。例如,101中获取100个用户的网络注册信息,则102中构建100×100的邻接矩阵。
邻接矩阵的各个元素的值可以根据所述网络图中各个节点的连接关系和所述网络图中各条边的权值确定。例如,所述邻接矩阵为P N×N,所述邻接矩阵的元素为p i,j,1≤i,j≤N。对于所述邻接矩阵中的非对角线元素(即i≠j,对应于所述网络图中两个不同的节点),若所述非对角线元素对应的节点i与节点j在所述网络图中相连接,则p i,j等于所述网络图中节点i与节点j相连的边的权值;若所述非对角线元素对应的节点i与节点j在所述网络图中不连接,则p i,j等于0。对于所述邻接矩阵中的对角线元素(即i=j,对应于所述网络图中同一节点),p i,j等于0。
103,对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵。
谱分解也叫特征分解,对邻接矩阵进行谱分解是将邻接矩阵分解为由邻接矩阵的的特征值和特征向量表示的矩阵之积。
所述特征矩阵中的每一行(即每个行向量)对应一个用户(即一个节点)。
对所述邻接矩阵进行谱分解得到的特征矩阵为方阵,所述特征矩阵的维数与所述邻接矩阵的维数相同。例如,所述邻接矩阵的维数为N(即N*N的方阵),则所述特征矩阵的维数也为N。
所述邻接矩阵中的向量可以由所述特征矩阵中的向量近似描述。
假设邻接矩阵为P,将邻接矩阵P谱分解为P=Q∧Q -1,其中Q是所述特征矩阵,∧是对角矩阵。所述对角矩阵的对角线元素为所述邻接矩阵P的特征值,所述特征矩阵Q的列向量是与所述特征值相对应的特征向量。
对邻接矩阵进行谱分解的具体方法可以参考现有技术,此处不再赘述。
104,对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量。
生成的特征向量包括所述训练集用户的特征向量和所述待识别用户的特征向量。
给定用户的预设邻居用户根据所述网络图确定。可选地,所述预设邻居用户可以是一步邻居用户。或者,所述预设邻居用户可以是二步邻居用户。所述一步邻居用户是在所述网络图中,与给定用户直接连接的用户(即与给定用户相距一跳);所述二步邻居用户是在所述网络图中,与给定用户通过另一用户间接相连的用户(即与给定用户相距两跳)。例如,用户A与用户B直接相连,用户B与用户C直接相连,用户A与用户C未直接相连,则用户B是用户A的一步邻居用户,用户C是用户A的二步邻居用户。
所述根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量包括:
在所述特征矩阵中,取所述给定用户对应的行向量的前K个元素,得到所述给定用户的第一特征子向量,K小于等于所述邻接矩阵的维数N;
在所述特征矩阵中,取所述给定用户的每个预设邻居用户对应的行向量的前K个元素,得到所述给定用户的每个预设邻居用户的特征子向量,取所述给定用户的所有预设邻居用户的特征子向量的平均值作为所述给定用户的第二特征子向量;
组合所述第一特征子向量和所述第二特征子向量,得到所述给定用户的特征向量。
对所述邻接矩阵进行谱分解还得到所述邻接矩阵的对角矩阵,所述K可以按照如下方式确定:
从所述对角矩阵中获取所述特征矩阵的特征值;
将所述特征值进行降序排序;
若降序排序后的第X-1个特征值减去第X个特征值的差超过预设值(例如2),则取X为K。
举例来说,若降序排序后的第5个特征值减去第6个特征值的差值为3,超过预设值2,则K取值为6。对于用户C,其一步邻居用户包括用户B、用户D,则:在所述特征矩阵中,取用户C对应的行向量的前6个元素,得到用户C的第一特征子向量;在所述特征矩阵中,取用户B对应的行向量的前6个元素,得到用户B的特征子向量;在所述特征矩阵中,取与用户D对应的行向量的前6个元素,得到用户D的特征子向量;计算用户B的特征子向量与用户D的特征子向量的平均值,得到用户C的第二特征子向量。将用户C的第一特征子向量与第二特征子向量进行组合,得到用户C的特征向量,即12维的特征子向量。
在其他的实施例中,所述K可以按照其他方式取值,例如,若所述邻接矩阵的维数N为偶数,K可以取为N/2;若所述邻接矩阵的维数N为偶数,K可以取为(N-1)/2或(N+1)/2。
105,使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入。
所述网络欺诈模型根据用户的特征向量提取用户的深层网络连接信息,根据该深层网络连接信息识别用户是否为欺诈用户。
所述网络欺诈模型通过深度自编码器的编码器对用户的特征向量进行降维和特征提取,降维后的特征向量的维数等于卷积神经网络的输入向量的维数。再将经过降维和特征提取后的特征向量输入卷积神经网络,从而减小卷积神经网络的计算消耗。
所述卷积神经网络可以是LeNet卷积神经网络,所述LeNet卷积神经网络采用三个卷积层、两个下采样层和一个全连接层。
在对所述网络欺诈识别模型进行训练时,首先将所述训练集用户的特征向量输入所述深度自编码器进行训练。完成所述深度自编码器的训练后,将所述训练集用户的特征向量由所述深度自编码器输入至所述卷积神经网络,对所述卷积神经网络进行训练。根据所述训练集用户的标签与所述卷积神经网络输出的结果调整所述卷积神经网络的参数,完成所述卷积神经网络的训练。
可以使用神经网络训练算法,例如反向传播算法对所述卷积神经网络进行训练。使用神经网络训练算法训练卷积神经网络为公知技术,此处不再赘述。
106,将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。
所述网络欺诈识别模型的输出为预设值,根据所述网络欺诈模型的输出即可确定所述待识别用户是否为欺诈用户。例如,若所述网络欺诈识别模型的输出为0,则确定所述待识别用户不是欺诈用户;若所述网络欺诈识别模型的输出为1,则确定所述待识别用户是欺诈用户。
在本申请的技术方案中,可以采用不同的网络注册信息、不同的预设邻居用户进行网络欺诈识别。对于不同的网络注册信息、不同的预设邻居用户,可以训练得到识别准确率不同的网络欺诈识别模型,可以采用识别准确率最高的条件组合进行网络欺诈识别。
例如,本申请的网络欺诈识别方法中,网络注册信息可以采用IP地址、MAC地址,或者采用IP地址、MAC地址、电话号码;预设邻居用户可以采用二步邻居用户或三步邻居用户。经过多次训练、测试,当网络注册信息为IP地址、MAC地址,预设邻居用户为二步邻居用户的条件下,所述网络欺诈识别模型的识别准确率最高。
现有的基于内容的欺诈检测技术是从社交网络上的用户活动中提取内容特征(即文本、URL),然后进行欺诈识别。基于内容的欺诈识别方法不能充分利用网络用户的图结构特征,不能够有效识别用户的欺诈行为的全局特性。本申请的网络欺诈识别方法根据用户的网络注册信息构建网络图,根据网络图识别网络上的欺诈用户,实现了网络欺诈用户的有效识别。
实施例一的网络欺诈识别方法获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户,所述网络注册信息包括IP(Internet Protocol Address,互联网协议地址)地址、MAC(Media Access Control Address,媒体访问控制地址)地址;根据所述网络图构建所述多个用户的邻接矩阵;对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。实施例一实现了根据用户的网络注册信息识别网络上的欺诈用户。
实施例二
图2是本申请实施例二提供的网络欺诈识别装置的结构图。所述网络欺诈识别装置20应用于计算机装置。所述网络欺诈识别装置20可以根据用户的网络注册信息识别网络(例如社交平台)上的欺诈用户。如图2所示,所述网络欺诈识别装置20可以包括获取模块201、构建模块202、谱分解模块203、生成模块204、训练模块205、识别模块206。
获取模块201,用于获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户,所述网络注册信息包括IP(Internet Protocol Address,互联网协议地址)地址、MAC(Media Access Control Address,媒体访问控制地址)地址。
本步骤获取多个用户的网络注册信息,根据多个用户的网络注册信息构建所述多个用户的网络图。例如,本方法应用于社交平台(如交友网站),用于对社交平台上的欺诈用户进行识别,则本步骤获取所述社交平台上多个用户的网络注册信息,根据所述社交平台上多个用户的网络注册信息构建所述多个用户的网络图。
在一具体实施例中,所述根据多个用户的网络注册信息构建所述多个用户的网络图包括:
以所述多个用户中的每个用户作为所述网络图的节点,若所述多个用户中的两个用户有相同的网络注册信息,则连接所述两个用户对应的节点,得到所述两个用户对应的边。
构建的网络图中,每个节点对应一个用户,每条边对应有相同的网络注册信息的两个用户。
所述多个用户中的任意两个用户可以有相同的一个或多个网络注册信息。
例如,所述网络图中有三个节点1、2、3,分别表示用户A、用户B、用户C,用户A与用户B有相同的IP地址,用户B与用户C有相同的IP地址和MAC地址,则连接节点1和节点2、节点2和节点3、节点1和节点3。
可以用预定格式标记所述网络图中各个节点的连接信息。例如,用户A(对应于节点1)与用户B(对应于节点2)有相同的IP地址,则节点1与节点2的连接信息可以标记为“1――connected by IP――2”;用户B与用户C(对应于节点3)有相同的IP地址和MAC地址,则节点2与节点3的连接信息可以标记为“2――connected by IP and MAC――3”。
所述根据多个用户的网络注册信息构建所述多个用户的网络图还包括:
根据所述多个用户的网络注册信息确定所述网络图中各条边的权值。
具体地,根据所述多个用户的网络注册信息确定所述网络图中各条边的权值就是根据所述网络图中每条边对应的两个用户的相同的网络注册信息确定该条边的权值。
所述网络图中每条边的权值可以等于该条边对应的两个用户相同的网络注册信息的数量。例如,用户A与用户B有相同的IP地址,则用户A与用户B对应的边的权值可以为1;用户B与用户C有相同的IP地址和MAC地址,则用户B与用户C对应的边的权值可以为2。
或者,可以设置每个相同的网络注册信息对应的数值,根据每个相同的网络注册信息对应的数值和每条边对应的两个用户的相同的网络注册信息确定所述网络图中各条边的权值。例如,相同IP地址对应的数值为1,相同的MAC地址对应的数值为2,用户A与用户B有相同的IP地址,则用户A与用户B对应的边的权值可以为1;用户B与用户C有相同的IP地址和MAC地址,则用户B与用户C对应的边的权值可以为3(即1+2)。
所述训练集用户带有类别标签,所述类别标签用于标注所述训练集用户是否为欺诈用户。例如,若类别标签为1,则表示所述训练集用户是欺诈用户;若类别标签为0,则表示所述训练集用户不是欺诈用户。
可选的,所述网络注册信息还可以包括电话号码、通讯地址等。
构建模块202,用于根据所述网络图构建所述多个用户的邻接矩阵。
邻接矩阵用于表示所述网络图中各个节点之间的连接关系。例如,邻接矩阵中的元素p 1,2表示所述网络图中节点1与节点2之间的连接关系。邻接矩阵的每一行(即每个行向量)对应网络图中的一个节点(对应于一个用户),表示该节点与其他节点(对应于其 他用户)的连接关系。
所述邻接矩阵是N×N的方阵(即所述邻接矩阵的维数为N),N为所述网络图的节点数,即所述多个用户的用户个数。例如,获取模块201获取100个用户的网络注册信息,则构建模块202构建100×100的邻接矩阵。
邻接矩阵的各个元素的值可以根据所述网络图中各个节点的连接关系和所述网络图中各条边的权值确定。例如,所述邻接矩阵为P N×N,所述邻接矩阵的元素为p i,j,1≤i,j≤N。对于所述邻接矩阵中的非对角线元素(即i≠j,对应于所述网络图中两个不同的节点),若所述非对角线元素对应的节点i与节点j在所述网络图中相连接,则p i,j等于所述网络图中节点i与节点j相连的边的权值;若所述非对角线元素对应的节点i与节点j在所述网络图中不连接,则p i,j等于0。对于所述邻接矩阵中的对角线元素(即i=j,对应于所述网络图中同一节点),p i,j等于0。
谱分解模块203,用于对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵。
谱分解也叫特征分解,对邻接矩阵进行谱分解是将邻接矩阵分解为由邻接矩阵的的特征值和特征向量表示的矩阵之积。
所述特征矩阵中的每一行(即每个行向量)对应一个用户(即一个节点)。
对所述邻接矩阵进行谱分解得到的特征矩阵为方阵,所述特征矩阵的维数与所述邻接矩阵的维数相同。例如,所述邻接矩阵的维数为N(即N*N的方阵),则所述特征矩阵的维数也为N。
所述邻接矩阵中的向量可以由所述特征矩阵中的向量近似描述。
假设邻接矩阵为P,将邻接矩阵P谱分解为P=Q∧Q -1,其中Q是所述特征矩阵,∧是对角矩阵。所述对角矩阵的对角线元素为所述邻接矩阵P的特征值,所述特征矩阵Q的列向量是与所述特征值相对应的特征向量。
对邻接矩阵进行谱分解的具体方法可以参考现有技术,此处不再赘述。
生成模块204,用于对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量。
生成的特征向量包括所述训练集用户的特征向量和所述待识别用户的特征向量。
给定用户的预设邻居用户根据所述网络图确定。可选地,所述预设邻居用户可以是一步邻居用户。或者,所述预设邻居用户可以是二步邻居用户。所述一步邻居用户是在所述网络图中,与给定用户直接连接的用户(即与给定用户相距一跳);所述二步邻居用户是在所述网络图中,与给定用户通过另一用户间接相连的用户(即与给定用户相距两跳)。例如,用户A与用户B直接相连,用户B与用户C直接相连,用户A与用户C未直接相连,则用户B是用户A的一步邻居用户,用户C是用户A的二步邻居用户。
所述根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量包括:
在所述特征矩阵中,取所述给定用户对应的行向量的前K个元素,得到所述给定用户的第一特征子向量,K小于等于所述邻接矩阵的维数N;
在所述特征矩阵中,取所述给定用户的每个预设邻居用户对应的行向量的前K个元素,得到所述给定用户的每个预设邻居用户的特征子向量,取所述给定用户的所有预设邻居用户的特征子向量的平均值作为所述给定用户的第二特征子向量;
组合所述第一特征子向量和所述第二特征子向量,得到所述给定用户的特征向量。
对所述邻接矩阵进行谱分解还得到所述邻接矩阵的对角矩阵,所述K可以按照如下方式确定:
从所述对角矩阵中获取所述特征矩阵的特征值;
将所述特征值进行降序排序;
若降序排序后的第X-1个特征值减去第X个特征值的差超过预设值(例如2),则 取X为K。
举例来说,若降序排序后的第5个特征值减去第6个特征值的差值为3,超过预设值2,则K取值为6。对于用户C,其一步邻居用户包括用户B、用户D,则:在所述特征矩阵中,取用户C对应的行向量的前6个元素,得到用户C的第一特征子向量;在所述特征矩阵中,取用户B对应的行向量的前6个元素,得到用户B的特征子向量;在所述特征矩阵中,取与用户D对应的行向量的前6个元素,得到用户D的特征子向量;计算用户B的特征子向量与用户D的特征子向量的平均值,得到用户C的第二特征子向量。将用户C的第一特征子向量与第二特征子向量进行组合,得到用户C的特征向量,即12维的特征子向量。
在其他的实施例中,所述K可以按照其他方式取值,例如,若所述邻接矩阵的维数N为偶数,K可以取为N/2;若所述邻接矩阵的维数N为偶数,K可以取为(N-1)/2或(N+1)/2。
训练模块205,用于使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入。
所述网络欺诈模型根据用户的特征向量提取用户的深层网络连接信息,根据该深层网络连接信息识别用户是否为欺诈用户。
所述网络欺诈模型通过深度自编码器的编码器对用户的特征向量进行降维和特征提取,降维后的特征向量的维数等于卷积神经网络的输入向量的维数。再将经过降维和特征提取后的特征向量输入卷积神经网络,从而减小卷积神经网络的计算消耗。
所述卷积神经网络可以是LeNet卷积神经网络,所述LeNet卷积神经网络采用三个卷积层、两个下采样层和一个全连接层。
在对所述网络欺诈识别模型进行训练时,首先将所述训练集用户的特征向量输入所述深度自编码器进行训练。完成所述深度自编码器的训练后,将所述训练集用户的特征向量由所述深度自编码器输入至所述卷积神经网络,对所述卷积神经网络进行训练。根据所述训练集用户的标签与所述卷积神经网络输出的结果调整所述卷积神经网络的参数,完成所述卷积神经网络的训练。
可以使用神经网络训练算法,例如反向传播算法对所述卷积神经网络进行训练。使用神经网络训练算法训练卷积神经网络为公知技术,此处不再赘述。
识别模块206,用于将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。
所述网络欺诈识别模型的输出为预设值,根据所述网络欺诈模型的输出即可确定所述待识别用户是否为欺诈用户。例如,若所述网络欺诈识别模型的输出为0,则确定所述待识别用户不是欺诈用户;若所述网络欺诈识别模型的输出为1,则确定所述待识别用户是欺诈用户。
在本申请的技术方案中,可以采用不同的网络注册信息、不同的预设邻居用户进行网络欺诈识别。对于不同的网络注册信息、不同的预设邻居用户,可以训练得到识别准确率不同的网络欺诈识别模型,可以采用识别准确率最高的条件组合进行网络欺诈识别。
例如,本申请的网络欺诈识别方法中,网络注册信息可以采用IP地址、MAC地址,或者采用IP地址、MAC地址、电话号码;预设邻居用户可以采用二步邻居用户或三步邻居用户。经过多次训练、测试,当网络注册信息为IP地址、MAC地址,预设邻居用户为二步邻居用户的条件下,所述网络欺诈识别模型的识别准确率最高。
现有的基于内容的欺诈检测技术是从社交网络上的用户活动中提取内容特征(即文本、URL),然后进行欺诈识别。基于内容的欺诈识别方法不能充分利用网络用户的图结构特征,不能够有效识别用户的欺诈行为的全局特性。本申请的网络欺诈识别方法根据用户的网络注册信息构建网络图,根据网络图识别网络上的欺诈用户,实现了网络欺诈 用户的有效识别。
实施例二的网络欺诈识别装置20获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户;根据所述网络图构建所述多个用户的邻接矩阵;对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。实施例二实现了根据用户的网络注册信息识别网络上的欺诈用户。
实施例三
本实施例提供一种存储介质,该存储介质上存储有计算机可读指令,该计算机可读指令被处理器执行时实现上述网络欺诈识别方法实施例中的步骤,例如图1所示的101-106:
101,获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户;
102,根据所述网络图构建所述多个用户的邻接矩阵;
103,对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;
104,对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;
105,使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;
106,将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。
或者,该计算机可读指令被处理器执行时实现上述装置实施例中各模块的功能,例如图2中的模块201-206:
获取模块201,用于获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户;
构建模块202,用于根据所述网络图构建所述多个用户的邻接矩阵;
谱分解模块203,用于对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;
生成模块204,用于对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;
训练模块205,用于使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;
识别模块206,将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。
实施例四
图3为本申请实施例四提供的计算机装置的示意图。所述计算机装置30包括存储器301、处理器302以及存储在所述存储器301中并可在所述处理器302上运行的计算机程序303,例如网络欺诈识别程序。所述处理器302执行所述计算机程序303时实现上述网络欺诈识别方法实施例中的步骤,例如图1所示的101-106:
101,获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户;
102,根据所述网络图构建所述多个用户的邻接矩阵;
103,对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;
104,对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;
105,使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;
106,将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。
或者,该计算机程序被处理器执行时实现上述装置实施例中各模块的功能,例如图2中的模块201-206:
获取模块201,用于获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户;
构建模块202,用于根据所述网络图构建所述多个用户的邻接矩阵;
谱分解模块203,用于对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;
生成模块204,用于对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;
训练模块205,用于使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;
识别模块206,将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。
示例性的,所述计算机程序303可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器301中,并由所述处理器302执行,以完成本方法。所述一个或多个模块可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机程序303在所述计算机装置30中的执行过程。例如,所述计算机程序303可以被分割成图2中的获取模块201、构建模块202、谱分解模块203、生成模块204、训练模块205、识别模块206,各模块具体功能参见实施例二。
所述计算机装置30可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解,所述示意图3仅仅是计算机装置30的示例,并不构成对计算机装置30的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机装置30还可以包括输入输出设备、网络接入设备、总线等。
所称处理器302可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等,所述处理器302是所述计算机装置30的控制中心,利用各种接口和线路连接整个计算机装置30的各个部分。
所述存储器301可用于存储所述计算机程序303,所述处理器302通过运行或执行存储在所述存储器301内的计算机程序或模块,以及调用存储在存储器301内的数据,实现所述计算机装置30的各种功能。所述存储器301可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功 能、图像播放功能等)等;存储数据区可存储根据计算机装置30的使用所创建的数据(比如音频数据)等。此外,存储器301可以包括非易失性和易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件或其他存储器件。
所述计算机装置30集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机可读指令代码,所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)。所述计算机可读存储介质可以是非易失性,也可以是易失性的。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他模块或步骤,单数不排除复数。系统权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。

Claims (20)

  1. 一种网络欺诈识别方法,其中,所述方法包括:
    获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户;
    根据所述网络图构建所述多个用户的邻接矩阵;
    对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;
    对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;
    使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;
    将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。
  2. 如权利要求1所述的网络欺诈识别方法,其中,所述根据多个用户的网络注册信息构建所述多个用户的网络图包括:
    以所述多个用户中的每个用户作为所述网络图的节点,若所述多个用户中的两个用户有相同的网络注册信息,则连接所述两个用户对应的节点,得到所述两个用户对应的边;
    根据所述多个用户的网络注册信息确定所述网络图中各条边的权值。
  3. 如权利要求1所述的网络欺诈识别方法,其中,所述邻接矩阵中的各个元素的值根据所述网络图中各个节点的连接关系和所述网络图中各条边的权值确定。
  4. 如权利要求1所述的网络欺诈识别方法,其中,所述网络注册信息包括IP地址和MAC地址。
  5. 如权利要求1所述的网络欺诈识别方法,其中,所述根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量包括:
    在所述特征矩阵中,取所述给定用户对应的行向量的前K个元素,得到所述给定用户的第一特征子向量,K小于等于所述邻接矩阵的维数N;
    在所述特征矩阵中,取所述给定用户的每个预设邻居用户对应的行向量的前K个元素,得到所述给定用户的每个预设邻居用户的特征子向量,取所述给定用户的所有预设邻居用户的特征子向量的平均值作为所述给定用户的第二特征子向量;
    组合所述第一特征子向量和所述第二特征子向量,得到所述给定用户的特征向量。
  6. 如权利要求5所述的网络欺诈识别方法,其中,对所述邻接矩阵进行谱分解还得到所述邻接矩阵的对角矩阵,所述K按照如下方式确定:
    从所述邻接矩阵的对角矩阵中获取所述特征矩阵的特征值,所述对角矩阵在对所述邻接矩阵进行谱分解时得到;
    将所述特征值进行降序排序;
    若降序排序后的第X-1个特征值减去第X个特征值的差超过预设值,则取X为K。
  7. 如权利要求1所述的网络欺诈识别方法,其中,所述卷积神经网络是LeNet卷积神经网络。
  8. 一种计算机装置,其中,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机可读指令以实现以下步骤:
    获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户;
    根据所述网络图构建所述多个用户的邻接矩阵;
    对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;
    对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;
    使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;
    将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。
  9. 如权利要求8所述的计算机装置,其中,所述处理器执行所述计算机可读指令以实现所述根据多个用户的网络注册信息构建所述多个用户的网络图时,具体包括:
    以所述多个用户中的每个用户作为所述网络图的节点,若所述多个用户中的两个用户有相同的网络注册信息,则连接所述两个用户对应的节点,得到所述两个用户对应的边;
    根据所述多个用户的网络注册信息确定所述网络图中各条边的权值。
  10. 如权利要求8所述的计算机装置,其中,所述邻接矩阵中的各个元素的值根据所述网络图中各个节点的连接关系和所述网络图中各条边的权值确定。
  11. 如权利要求8所述的计算机装置,其中,所述网络注册信息包括IP地址和MAC地址。
  12. 如权利要求8所述的计算机装置,其中,所述处理器执行所述计算机可读指令以实现所述根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量时,具体包括:
    在所述特征矩阵中,取所述给定用户对应的行向量的前K个元素,得到所述给定用户的第一特征子向量,K小于等于所述邻接矩阵的维数N;
    在所述特征矩阵中,取所述给定用户的每个预设邻居用户对应的行向量的前K个元素,得到所述给定用户的每个预设邻居用户的特征子向量,取所述给定用户的所有预设邻居用户的特征子向量的平均值作为所述给定用户的第二特征子向量;
    组合所述第一特征子向量和所述第二特征子向量,得到所述给定用户的特征向量。
  13. 如权利要求12所述的计算机装置,其中,所述处理器执行所述计算机可读指令以实现所述对所述邻接矩阵进行谱分解时,还得到所述邻接矩阵的对角矩阵,所述K按照如下方式确定:
    从所述邻接矩阵的对角矩阵中获取所述特征矩阵的特征值,所述对角矩阵在对所述邻接矩阵进行谱分解时得到;
    将所述特征值进行降序排序;
    若降序排序后的第X-1个特征值减去第X个特征值的差超过预设值,则取X为K。
  14. 如权利要求8所述的计算机装置,其中,所述卷积神经网络是LeNet卷积神经网络。
  15. 一种存储介质,所述存储介质上存储有计算机可读指令,其中,所述计算机可读指令被处理器执行时实现以下步骤:
    获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户;
    根据所述网络图构建所述多个用户的邻接矩阵;
    对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;
    对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;
    使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;
    将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。
  16. 如权利要求15所述的存储介质,其中,所述计算机可读指令被所述处理器执行以实现所述根据多个用户的网络注册信息构建所述多个用户的网络图时,具体包括:
    以所述多个用户中的每个用户作为所述网络图的节点,若所述多个用户中的两个用户有相同的网络注册信息,则连接所述两个用户对应的节点,得到所述两个用户对应的边;
    根据所述多个用户的网络注册信息确定所述网络图中各条边的权值。
  17. 如权利要求15所述的存储介质,其中,所述邻接矩阵中的各个元素的值根据所述网络图中各个节点的连接关系和所述网络图中各条边的权值确定。
  18. 如权利要求15所述的存储介质,其中,所述计算机可读指令被所述处理器执行以实现所述根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量时,具体包括:
    在所述特征矩阵中,取所述给定用户对应的行向量的前K个元素,得到所述给定用户的第一特征子向量,K小于等于所述邻接矩阵的维数N;
    在所述特征矩阵中,取所述给定用户的每个预设邻居用户对应的行向量的前K个元素,得到所述给定用户的每个预设邻居用户的特征子向量,取所述给定用户的所有预设邻居用户的特征子向量的平均值作为所述给定用户的第二特征子向量;
    组合所述第一特征子向量和所述第二特征子向量,得到所述给定用户的特征向量。
  19. 如权利要求18所述的存储介质,其中,所述计算可读指令被所述处理器执行以实现所述对所述邻接矩阵进行谱分解时,还得到所述邻接矩阵的对角矩阵,所述K按照如下方式确定:
    从所述邻接矩阵的对角矩阵中获取所述特征矩阵的特征值,所述对角矩阵在对所述邻接矩阵进行谱分解时得到;
    将所述特征值进行降序排序;
    若降序排序后的第X-1个特征值减去第X个特征值的差超过预设值,则取X为K。
  20. 一种网络欺诈识别装置,其中,所述装置包括:
    获取模块,用于获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户;
    构建模块,用于根据所述网络图构建所述多个用户的邻接矩阵;
    谱分解模块,用于对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;
    生成模块,用于对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;
    训练模块,用于使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;
    识别模块,用于将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。
PCT/CN2020/105940 2019-08-22 2020-07-30 网络欺诈识别方法、装置、计算机装置及存储介质 WO2021031825A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910776749.8A CN110705585A (zh) 2019-08-22 2019-08-22 网络欺诈识别方法、装置、计算机装置及存储介质
CN201910776749.8 2019-08-22

Publications (1)

Publication Number Publication Date
WO2021031825A1 true WO2021031825A1 (zh) 2021-02-25

Family

ID=69193391

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/105940 WO2021031825A1 (zh) 2019-08-22 2020-07-30 网络欺诈识别方法、装置、计算机装置及存储介质

Country Status (2)

Country Link
CN (1) CN110705585A (zh)
WO (1) WO2021031825A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011979A (zh) * 2021-03-29 2021-06-22 中国银联股份有限公司 交易检测方法、模型的训练方法、装置及计算机可读存储介质
CN116433345A (zh) * 2023-05-05 2023-07-14 辽宁慧远科技开发有限公司 基于ai的欺诈活动分析方法及数字化金融产品服务系统
CN116155755B (zh) * 2023-02-21 2024-04-26 湖南大学 一种基于线性优化封闭子图编码的链路符号预测方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705585A (zh) * 2019-08-22 2020-01-17 深圳壹账通智能科技有限公司 网络欺诈识别方法、装置、计算机装置及存储介质
CN111459780B (zh) * 2020-04-01 2023-04-07 北京字节跳动网络技术有限公司 用户识别方法、装置、可读介质及电子设备
CN112348519A (zh) * 2020-10-21 2021-02-09 上海淇玥信息技术有限公司 一种欺诈用户识别方法、装置和电子设备
CN112070422B (zh) * 2020-11-05 2021-07-30 广州竞远安全技术股份有限公司 一种基于神经网络的安全测评师派工系统及方法
CN112331230A (zh) * 2020-11-17 2021-02-05 平安科技(深圳)有限公司 一种欺诈行为识别方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150120188A (ko) * 2014-04-17 2015-10-27 주식회사 에스원 인증 방법 및 이를 이용한 인증 장치
CN108304865A (zh) * 2018-01-19 2018-07-20 同济大学 一种基于循环神经网络的图节点分类方法
CN109743286A (zh) * 2018-11-29 2019-05-10 武汉极意网络科技有限公司 一种基于图卷积神经网络的ip类型标记方法及设备
CN110705585A (zh) * 2019-08-22 2020-01-17 深圳壹账通智能科技有限公司 网络欺诈识别方法、装置、计算机装置及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7458508B1 (en) * 2003-05-12 2008-12-02 Id Analytics, Inc. System and method for identity-based fraud detection
US10796316B2 (en) * 2017-10-12 2020-10-06 Oath Inc. Method and system for identifying fraudulent publisher networks
CN108038413A (zh) * 2017-11-02 2018-05-15 平安科技(深圳)有限公司 欺诈可能性分析方法、装置及存储介质
CN109544190A (zh) * 2018-11-28 2019-03-29 北京芯盾时代科技有限公司 一种欺诈识别模型训练方法、欺诈识别方法及装置
CN109816535A (zh) * 2018-12-13 2019-05-28 中国平安财产保险股份有限公司 欺诈识别方法、装置、计算机设备及存储介质
CN109784636A (zh) * 2018-12-13 2019-05-21 中国平安财产保险股份有限公司 欺诈用户识别方法、装置、计算机设备及存储介质
CN110009486B (zh) * 2019-04-09 2020-10-02 连连银通电子支付有限公司 一种欺诈检测的方法、系统、设备及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150120188A (ko) * 2014-04-17 2015-10-27 주식회사 에스원 인증 방법 및 이를 이용한 인증 장치
CN108304865A (zh) * 2018-01-19 2018-07-20 同济大学 一种基于循环神经网络的图节点分类方法
CN109743286A (zh) * 2018-11-29 2019-05-10 武汉极意网络科技有限公司 一种基于图卷积神经网络的ip类型标记方法及设备
CN110705585A (zh) * 2019-08-22 2020-01-17 深圳壹账通智能科技有限公司 网络欺诈识别方法、装置、计算机装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YE, MINGHUA: "Insurance Frauds Identification Research Based on the BP Neurological Network - with China Motor Insurance Claim as an Example", INSURANCE STUDIES, no. 3, 1 March 2011 (2011-03-01), pages 1 - 8, XP055782391, DOI: 10.13497/j .cnki .is .2011.03.012 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011979A (zh) * 2021-03-29 2021-06-22 中国银联股份有限公司 交易检测方法、模型的训练方法、装置及计算机可读存储介质
CN116155755B (zh) * 2023-02-21 2024-04-26 湖南大学 一种基于线性优化封闭子图编码的链路符号预测方法
CN116433345A (zh) * 2023-05-05 2023-07-14 辽宁慧远科技开发有限公司 基于ai的欺诈活动分析方法及数字化金融产品服务系统

Also Published As

Publication number Publication date
CN110705585A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
WO2021031825A1 (zh) 网络欺诈识别方法、装置、计算机装置及存储介质
Poongodi et al. Image and audio caps: automated captioning of background sounds and images using deep learning
JP7266674B2 (ja) 画像分類モデルの訓練方法、画像処理方法及び装置
CN105468742B (zh) 恶意订单识别方法及装置
CN112435656B (zh) 模型训练方法、语音识别方法、装置、设备及存储介质
WO2021232594A1 (zh) 语音情绪识别方法、装置、电子设备及存储介质
CN111695415A (zh) 图像识别模型的构建方法、识别方法及相关设备
CN110009486B (zh) 一种欺诈检测的方法、系统、设备及计算机可读存储介质
CN112860841A (zh) 一种文本情感分析方法、装置、设备及存储介质
CN113435196B (zh) 意图识别方法、装置、设备及存储介质
CN112131261B (zh) 基于社区网络的社区查询方法、装置和计算机设备
CN110837653A (zh) 标签预测方法、装置以及计算机可读存储介质
WO2021196474A1 (zh) 用户兴趣画像方法及相关设备
CN110866042A (zh) 表格智能查询方法、装置及计算机可读存储介质
CN113010679A (zh) 问答对生成方法、装置、设备及计算机可读存储介质
CN111966811A (zh) 意图识别和槽填充方法、装置、可读存储介质及终端设备
CN111125379B (zh) 知识库扩充方法、装置、电子设备和存储介质
CN112115892A (zh) 一种关键要素抽取方法、装置、设备及存储介质
CN116842949A (zh) 事件提取方法、装置、电子设备和存储介质
CN115618415A (zh) 敏感数据识别方法、装置、电子设备和存储介质
CN112507081B (zh) 相似句匹配方法、装置、计算机设备及存储介质
CN115438658A (zh) 一种实体识别方法、识别模型的训练方法和相关装置
CN112463964B (zh) 文本分类及模型训练方法、装置、设备及存储介质
CN113590786A (zh) 一种数据预测方法、装置、设备及存储介质
CN113886547A (zh) 基于人工智能的客户实时对话转接方法、装置和电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20854933

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20854933

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 12.08.2022)

122 Ep: pct application non-entry in european phase

Ref document number: 20854933

Country of ref document: EP

Kind code of ref document: A1