WO2019153604A1 - 人机识别模型的建立装置、方法及计算机可读存储介质 - Google Patents

人机识别模型的建立装置、方法及计算机可读存储介质 Download PDF

Info

Publication number
WO2019153604A1
WO2019153604A1 PCT/CN2018/089715 CN2018089715W WO2019153604A1 WO 2019153604 A1 WO2019153604 A1 WO 2019153604A1 CN 2018089715 W CN2018089715 W CN 2018089715W WO 2019153604 A1 WO2019153604 A1 WO 2019153604A1
Authority
WO
WIPO (PCT)
Prior art keywords
human
model
information
behavior data
user behavior
Prior art date
Application number
PCT/CN2018/089715
Other languages
English (en)
French (fr)
Inventor
韩伟
邓坤
王建明
肖京
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2019153604A1 publication Critical patent/WO2019153604A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2133Verifying human interaction, e.g., Captcha
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Definitions

  • the present application relates to the field of human-computer recognition technology, and in particular, to a device, a method, and a computer-readable storage medium for establishing a human-computer recognition model.
  • the present application provides a device, a method, and a computer readable storage medium for establishing a human-computer recognition model, the main purpose of which is to solve the technical problem of the sliding verification code that cannot accurately identify the operation of the machine in the prior art.
  • the present application provides a device for establishing a human-computer recognition model, the device comprising a memory and a processor, wherein the memory stores a model building program executable on the processor, the model building program The following steps are implemented when executed by the processor:
  • Collecting a sample library of user behavior data of a preset number of sliding verification operations the sliding verification operation is based on browser triggering, and the user behavior data includes browser information, hardware information, page track information, and sliding track information;
  • the present application further provides a method for establishing a human-computer recognition model, the method comprising:
  • the sliding verification operation is based on a browser trigger, and the user behavior data includes browser information, hardware information, page track information, and sliding track information;
  • the present application further provides a computer readable storage medium having a model establishing program stored thereon, the model establishing program being executable by one or more processors to implement The steps of the method of establishing a human recognition model as described above.
  • the apparatus, method and computer readable storage medium for establishing a human-computer recognition model proposed by the present application collect user behavior data of a preset number of sliding verification operations and construct a sample library, and the sliding verification operation is based on browser triggering, user behavior data.
  • the device information and the hardware information generate a first human-machine recognition rule, perform statistical analysis on the page track information and the sliding track information in the sample library, generate one or more track determination rules according to the statistical result, and generate the rule according to one or more track determination rules.
  • the second human-computer recognition rule uses the user behavior data in the sample library to train the BP neural network model and the DBSCAN-based classification model to obtain the BP neural network human-computer recognition model and the DBSCAN human-computer recognition model, and construct the rules and models obtained above.
  • the fusion human-computer recognition model is trained by the user behavior data in the sample library, and the trained human-machine recognition model can be used to accurately identify the sliding verification of the machine operation.
  • the solution of the present application is based on the collected browser information, hardware information, and page.
  • the user behavior data generation rules such as the trajectory information and the sliding trajectory information are used to train the model, and a generated human-machine recognition model is constructed by using the generated multiple rules or models to identify the sliding operation of the machine operation, and the prior art is solved.
  • the technical problem of the sliding verification code for machine operation cannot be accurately identified.
  • FIG. 1 is a schematic diagram of a preferred embodiment of an apparatus for establishing a machine identification model of the applicant
  • FIG. 2 is a schematic diagram of a program module of a model establishing program in an embodiment of an apparatus for establishing a machine identification model of the applicant;
  • FIG. 3 is a flow chart of a preferred embodiment of a method for establishing a machine identification model of the applicant.
  • the application provides a device for establishing a human recognition model.
  • FIG. 1 a schematic diagram of a preferred embodiment of an apparatus for establishing a machine identification model of the applicant is shown.
  • the device for establishing the human-computer recognition model may be a PC (Personal Computer), or may be a terminal device such as a smart phone, a tablet computer, or a portable computer.
  • PC Personal Computer
  • terminal device such as a smart phone, a tablet computer, or a portable computer.
  • the device for establishing the CAPTCHA includes at least a memory 11, a processor 12, a communication bus 13, and a network interface 14.
  • the memory 11 includes at least one type of readable storage medium including a flash memory, a hard disk, a multimedia card, a card type memory (for example, an SD or DX memory, etc.), a magnetic memory, a magnetic disk, an optical disk, and the like.
  • the memory 11 may in some embodiments be an internal storage unit of a device for establishing a human-computer identification model, such as a hard disk of a device for establishing a human-computer recognition model. In other embodiments, the memory 11 may also be an external storage device of the device for establishing a human-computer recognition model, such as a plug-in hard disk equipped with a smart phone card (SMC). Secure Digital (SD) card, Flash Card, etc.
  • SMC smart phone card
  • SD Secure Digital
  • the memory 11 may also include an internal storage unit of the establishment device of the human-computer recognition model and an external storage device.
  • the memory 11 can be used not only for storing application software installed in the human-machine recognition model and various types of data, such as code of a model creation program, but also for temporarily storing data that has been output or is to be output.
  • the processor 12 may be a Central Processing Unit (CPU), controller, microcontroller, microprocessor or other data processing chip for running program code or processing stored in the memory 11. Data, such as execution model building procedures, etc.
  • CPU Central Processing Unit
  • controller microcontroller
  • microprocessor or other data processing chip for running program code or processing stored in the memory 11.
  • Data such as execution model building procedures, etc.
  • Communication bus 13 is used to implement connection communication between these components.
  • the network interface 14 can optionally include a standard wired interface, a wireless interface (such as a WI-FI interface), and is typically used to establish a communication connection between the device and other electronic devices.
  • a standard wired interface such as a WI-FI interface
  • Figure 1 shows only the setup of a human-computer recognition model with components 11-14 and a model building program, but it should be understood that not all illustrated components may be implemented, and that more or fewer implementations may be implemented instead. Component.
  • the device may further include a user interface
  • the user interface may include a display
  • an input unit such as a keyboard
  • the optional user interface may further include a standard wired interface and a wireless interface.
  • the display may be an LED display, a liquid crystal display, a touch-sensitive liquid crystal display, an OLED (Organic Light-Emitting Diode) touch sensor, or the like.
  • the display may also be appropriately referred to as a display screen or a display unit for displaying information processed in the establishment device of the human-computer recognition model and a user interface for displaying the visualization.
  • a model establishment program is stored in the memory 11; when the processor 12 executes the model establishment program stored in the memory 11, the following steps are implemented:
  • Collecting a sample library of user behavior data of a preset number of sliding verification operations the sliding verification operation is based on browser triggering, and the user behavior data includes browser information, hardware information, page track information, and sliding track information.
  • the user behavior data of the historical sliding verification operation is collected according to the history of the user accessing the system.
  • the user behavior data includes user behavior data capable of determining whether it is a human operation, and user behavior data that cannot determine whether it is a human operation or a machine operation.
  • User behavior data is collected in two ways and added to the sample repository. It can be understood that the more user behavior data collected, the more accurate the results obtained by using the data training model subsequently. Therefore, the preset number of values can be set by the user according to the requirements for the accuracy of the model.
  • the foregoing user behavior data includes browser information, hardware information, page track information, and sliding track information, wherein the browser information and the hardware information may be obtained by using a cookie information generated by a sliding operation, and the user is based on a webpage access system on the browser.
  • the slide verification page is displayed on the webpage, the slide verification page is provided with a slide verification area, which includes a slider and a target area to which the slider needs to be moved, the user needs to operate by mouse or Touch to move the slider to the desired target area to complete the slide verification.
  • the page track information and the sliding track information generated by the sliding operation are acquired; and the browser information and the hardware information are obtained from the cookie information of the browser, wherein the sliding track information is in the process of the sliding verification operation.
  • the offset, moving speed, and moving acceleration of the slider area in the sliding verification area; the page track information is the speed of the mouse pointer moving on the webpage where the sliding verification area is located within the preset time period before and after the sliding verification operation, Displacement and time.
  • the hardware information includes, but is not limited to, display parameters, memory parameters, physical addresses, and the like of the user terminal, and the browser information may be information such as the model and version of the browser. It should be noted that the user behavior data of the historical sliding verification operation is collected according to the history of the user accessing the system in the sample library, and each piece of data has execution time information of the sliding operation.
  • the browsing is determined.
  • An abnormal operation occurs in the device information and/or the hardware information; the first human-machine recognition rule is generated according to the hardware information and the browser information in which the abnormal operation occurs.
  • the preset threshold of the unit time and the total number of operations can be set according to the specific access situation of the website. For example, the unit time can be set to 10 minutes, that is, if the browser on a certain device is used, the continuous operation is performed within 10 minutes.
  • the first human-machine identification rule generated according to the browser information and/or the hardware information of the abnormal operation may be: if the browser information and the hardware information in the corresponding user behavior data of the sliding verification operation are related to the extracted If the browser information and/or the hardware information of the abnormal operation are consistent, it is determined that the corresponding sliding verification operation is an abnormal sliding verification operation.
  • the machine When the sliding verification operation is performed artificially, it is difficult to ensure that the moving speed and acceleration of the slider region are constant during the movement, and the movement trajectory of the slider region also fluctuates.
  • the machine When the machine performs the sliding verification operation, it is implemented by executing an automatic script. Therefore, the page track information and the sliding track information of the sliding verification operation performed by the machine may conform to a certain rule, and these rules may pass through the pages in the sample library. The statistical analysis of the trajectory information and the sliding trajectory information is obtained, and then one or more trajectory determination rules are generated according to the analysis result.
  • the sliding operation is a machine operation; if the acceleration of the slider area during the movement is zero or If it is constant, it is determined that the sliding operation is a machine operation; or, each time the moving distance of the slider region is completely the same, it is determined that the sliding operation is a machine operation.
  • the BP neural network model and the DBSCAN-based classification model are trained using user behavior data in the sample library.
  • the category tag is added to the user behavior data that can obtain the source information, that is, the user behavior data capable of determining the human operation and the user behavior data capable of determining the machine operation are respectively added. There is no category tag for the category tag to identify its source information and the user behavior data for the source message.
  • the user behavior data with category tags in the sample library is input into BP (back propagation) neural network model training to obtain the model parameters of the BP neural network model, and the BP neural network model for determining the model parameters is taken as BP.
  • Neural network human-computer recognition model Extracting features from the user behavior data of the category tag in the above sample library, mainly including browser information, hardware information, offset of the slider area moving in the sliding verification area, moving speed and moving acceleration, and sliding verification operation In the preset time period before and after, the speed, displacement and time of the mouse pointer moving on the webpage where the sliding verification area is located, the characteristics of the above eight dimensions are obtained, and the extracted BP neural network model is used to obtain the model parameters.
  • the BP neural network model after determining the model parameters is used as the BP neural network human-computer recognition model.
  • the user behavior data of the classless tag in the sample library is input into the DBSCAN (Density-Based Spatial Clustering of Applications with Noise) model to obtain the model parameters of the DBSCAN-based classification model.
  • the DBSCAN-based classification model that determines the model parameters is used as the DBSCAN human-computer recognition model. Extract the features in the user behavior data without category tags in the same way as in the previous step, and use the extracted features to train the classification model based on DBSCAN.
  • DBSCAN is a density-based clustering algorithm that can have a sufficiently high density. The area is divided into clusters. That is to say, the algorithm is an unsupervised classification algorithm, which can classify the data in the sample set by clustering even for a large amount of user behavior data without category tags.
  • the data can be divided into two categories.
  • the user can determine the clusters belonging to the machine operation according to the clustering result, and add the category labels to them.
  • the user behavior data for obtaining the sliding verification is input into the model, and the cluster to which the user behavior data belongs is output, and whether the current sliding operation is a machine operation is determined according to the label of the cluster.
  • the behavior data trains the fusion human-computer recognition model S to obtain the values of the weights a1, a2, a3, a4.
  • the output of model S is a value of 0 to 1.
  • the verification process of the integrated human-computer recognition model in the actual application is as follows: acquiring page track information, sliding track information, browser information and hardware information generated by the user's browser-based sliding verification operation, and extracting the required feature input from the In the model, the output result is obtained, and it is judged whether it is a machine operation based on the output result.
  • the user can preset the judgment threshold of the output result according to the actual situation, for example, set to 0.8, that is, when the output result is greater than or equal to 0.8, it is determined that the interactive verification operation is a machine operation, which can block This login or visit.
  • the apparatus for establishing a human-computer recognition model collects user behavior data of a preset number of sliding verification operations and constructs a sample library, and the sliding verification operation is triggered by a browser, and the user behavior data includes browser information and hardware information. , page track information and sliding track information, statistical analysis of browser information and hardware information in the sample library to determine browser information and hardware information with abnormal sliding operation, and generate the first according to the determined browser information and hardware information
  • a human-machine recognition rule performs statistical analysis on page track information and sliding track information in the sample library, generates one or more track determination rules according to the statistical result, and generates a second human-machine recognition rule according to one or more track determination rules.
  • the BP neural network model and the DBSCAN-based classification model are trained by using the user behavior data in the sample library.
  • the BP neural network human-computer recognition model and the DBSCAN human-computer recognition model are obtained.
  • the rules and models obtained above are constructed into a fusion human-computer recognition model.
  • use user behavior data in the sample library The fusion human-computer recognition model is trained, and the trained human-machine recognition model can be used to accurately identify the sliding verification of the machine operation.
  • the solution of the present application is based on the collected browser information, hardware information, page track information, and sliding track information.
  • the behavior data generates rules and trains the model, and constructs a fusion man-machine recognition model with the generated multiple rules or models to identify the sliding operation of the machine operation, and solves the sliding verification that cannot accurately identify the machine operation in the prior art.
  • the model building program may also be divided into one or more modules, and one or more modules are stored in the memory 11 and are composed of one or more processors (this embodiment is The processor 12) is executed to complete the application.
  • a module referred to in the present application refers to a series of computer program instruction segments capable of performing a specific function for describing the execution process of the model establishment program in the establishment device of the human-computer recognition model.
  • FIG. 2 it is a schematic diagram of a program module of a model establishing program in an embodiment of an apparatus for establishing a model of the applicant's identification.
  • the model establishing program may be divided into a sample collection module 10 and a rule generation method.
  • Module 20, model training module 30, and model fusion module 40 by way of example:
  • the sample collection module 10 is configured to: collect a user activity data construction sample library of a preset number of sliding verification operations, the sliding verification operation is based on a browser trigger, and the user behavior data includes browser information, hardware information, and page track information. And sliding track information;
  • the rule generating module 20 is configured to perform statistical analysis on browser information and hardware information in the sample library to determine browser information and hardware information having an abnormal sliding operation, and generate a first according to the determined browser information and hardware information.
  • a human-machine identification rule a human-machine identification rule
  • the model training module 30 is configured to: train a BP neural network model and a DBSCAN-based classification model by using user behavior data in the sample library;
  • the model fusion module 40 is configured to: construct a combined human-computer recognition model according to the first human-machine recognition rule, the second human-machine recognition rule, and the trained BP neural network human-computer recognition model and the DBSCAN human-computer recognition model, And merging the merged human recognition model using user behavior data in the sample library.
  • the functions or operation steps of the program modules are substantially the same as those of the above embodiments, and are not described herein again.
  • the present application also provides a method for establishing a human recognition model.
  • FIG. 3 it is a flow chart of a preferred embodiment of the method for establishing a machine identification model of the applicant. The method can be performed by a device that can be implemented by software and/or hardware.
  • the method for establishing a human-computer recognition model includes:
  • Step S10 collecting a user activity data construction sample library of a preset number of sliding verification operations, the sliding verification operation is based on a browser trigger, and the user behavior data includes browser information, hardware information, page track information, and sliding track information. .
  • the user behavior data of the historical sliding verification operation is collected according to the history of the user accessing the system.
  • the user behavior data includes user behavior data capable of determining whether it is a human operation, and user behavior data that cannot determine whether it is a human operation or a machine operation.
  • user behavior data can be collected by automated script simulation machine operations.
  • User behavior data is collected in two ways and added to the sample repository. It can be understood that the more user behavior data collected, the more accurate the results obtained by using the data training model subsequently. Therefore, the preset number of values can be set by the user according to the requirements for the accuracy of the model.
  • the foregoing user behavior data includes browser information, hardware information, page track information, and sliding track information, wherein the browser information and the hardware information may be obtained by using a cookie information generated by a sliding operation, and the user is based on a webpage access system on the browser.
  • the slide verification page is displayed on the webpage, the slide verification page is provided with a slide verification area, which includes a slider and a target area to which the slider needs to be moved, the user needs to operate by mouse or Touch to move the slider to the desired target area to complete the slide verification.
  • the page track information and the sliding track information generated by the sliding operation are acquired; and the browser information and the hardware information are obtained from the cookie information of the browser, wherein the sliding track information is in the process of the sliding verification operation.
  • the offset, moving speed, and moving acceleration of the slider area in the sliding verification area; the page track information is the speed of the mouse pointer moving on the webpage where the sliding verification area is located within the preset time period before and after the sliding verification operation, Displacement and time.
  • the hardware information includes, but is not limited to, display parameters, memory parameters, physical addresses, and the like of the user terminal, and the browser information may be information such as the model and version of the browser. It should be noted that the user behavior data of the historical sliding verification operation is collected according to the history of the user accessing the system in the sample library, and each piece of data has execution time information of the sliding operation.
  • Step S20 Perform statistical analysis on browser information and hardware information in the sample library to determine browser information and hardware information with abnormal sliding operation, and generate first human-machine recognition according to the determined browser information and hardware information. rule.
  • step S20 may include the following refinement steps:
  • the browser information and the hardware information in the sample library are counted, and when the total number of operations of the sliding operation corresponding to the browser information and/or the hardware information reaches a corresponding preset threshold value, the browser information is determined. And/or the hardware information has an abnormal operation; the first human-machine identification rule is generated according to the hardware information and the browser information in which the abnormal operation occurs.
  • the preset threshold of the unit time and the total number of operations can be set according to the specific access conditions of the website. For example, the unit time can be set to 10 minutes, that is, if the browser on a certain device is used, the slide verification is continuously performed within 10 minutes. If the number of operations reaches a preset threshold, it is determined that an abnormal operation is performed on the device, and the hardware information of the device and the browser information used are used as the browser information and/or hardware information of the abnormal operation.
  • the first human-machine identification rule generated according to the browser information and/or the hardware information of the abnormal operation may be: if the browser information and the hardware information in the corresponding user behavior data of the sliding verification operation are related to the extracted If the browser information and/or the hardware information of the abnormal operation are consistent, it is determined that the corresponding sliding verification operation is an abnormal sliding verification operation.
  • Step S30 performing statistical analysis on page track information and sliding track information in the sample library, generating one or more track determination rules according to the statistical result, and generating a second human-machine recognition rule according to the one or more track determination rules.
  • the machine When the sliding verification operation is performed artificially, it is difficult to ensure that the moving speed and acceleration of the slider region are constant during the movement, and the movement trajectory of the slider region also fluctuates.
  • the machine When the machine performs the sliding verification operation, it is implemented by executing an automatic script. Therefore, the page track information and the sliding track information of the sliding verification operation performed by the machine may conform to a certain rule, and these rules may pass through the pages in the sample library. The statistical analysis of the trajectory information and the sliding trajectory information is obtained, and then one or more trajectory determination rules are generated according to the analysis result.
  • the sliding operation is a machine operation
  • the acceleration of the slider area during the movement is zero
  • it is determined that the sliding operation is a machine operation
  • the sliding operation is a machine operation
  • Step S40 training the BP neural network model and the DBSCAN-based classification model using the user behavior data in the sample library.
  • the category tag is added to the user behavior data that can obtain the source information, that is, the user behavior data capable of determining the human operation and the user behavior data capable of determining the machine operation are respectively added. There is no category tag for the category tag to identify its source information and the user behavior data for the source message.
  • Step S40 may include the following refinement steps:
  • the model parameters of the neural network model are used to determine the BP neural network model of the model parameters as the BP neural network human-computer recognition model; the user behavior data of the classless markers in the sample library is input into the DBSCAN-based classification model to obtain the basis
  • the model parameters of the classification model of DBSCAN will determine the DBSCAN-based classification model of the model parameters as the DBSCAN human-computer recognition model.
  • the user behavior data with category markers in the sample library is input into the BP neural network model to obtain the model parameters of the BP neural network model, and the BP neural network model for determining the model parameters is used as the BP neural network human-computer recognition model.
  • Extracting features from the user behavior data of the category tag in the above sample library mainly including browser information, hardware information, offset of the slider area moving in the sliding verification area, moving speed and moving acceleration, and sliding verification operation
  • the characteristics of the above eight dimensions are obtained, and the extracted BP neural network model is used to obtain the model parameters.
  • the BP neural network model after determining the model parameters is used as the BP neural network human-computer recognition model.
  • the user behavior data of the classless tag in the sample library is input into the DBSCAN (Density-Based Spatial Clustering of Applications with Noise) model to obtain the model parameters of the DBSCAN-based classification model.
  • the DBSCAN-based classification model that determines the model parameters is used as the DBSCAN human-computer recognition model. Extract the features in the user behavior data without category tags in the same way as in the previous step, and use the extracted features to train the classification model based on DBSCAN.
  • DBSCAN is a density-based clustering algorithm that can have a sufficiently high density. The area is divided into clusters. That is to say, the algorithm is an unsupervised classification algorithm, which can classify the data in the sample set by clustering even for a large amount of user behavior data without category tags.
  • the data can be divided into two categories.
  • the user can determine the clusters belonging to the machine operation according to the clustering result, and add the category labels to them.
  • the user behavior data for obtaining the sliding verification is input into the model, and the cluster to which the user behavior data belongs is output, and whether the current sliding operation is a machine operation is determined according to the label of the cluster.
  • Step S50 constructing a fusion human-computer recognition model according to the first human-machine recognition rule, the second human-machine recognition rule, and the trained BP neural network human-computer recognition model and the DBSCAN human-computer recognition model, and using the The user behavior data in the sample library trains the fusion human-computer recognition model.
  • the behavior data trains the fusion human-computer recognition model S to obtain the values of the weights a1, a2, a3, a4.
  • the output of model S is a value of 0 to 1.
  • the verification process of the integrated human-computer recognition model in the actual application is as follows: acquiring page track information, sliding track information, browser information and hardware information generated by the user's browser-based sliding verification operation, and extracting the required feature input from the In the model, the output result is obtained, and it is judged whether it is a machine operation based on the output result.
  • the user can preset the judgment threshold of the output result according to the actual situation, for example, set to 0.8, that is, when the output result is greater than or equal to 0.8, it is determined that the interactive verification operation is a machine operation, which can block This login or visit.
  • the method for establishing a human-computer recognition model proposed in this embodiment collects user behavior data of a preset number of sliding verification operations and constructs a sample library.
  • the sliding verification operation is based on browser triggering, and the user behavior data includes browser information and hardware information.
  • page track information and sliding track information statistical analysis of browser information and hardware information in the sample library to determine browser information and hardware information with abnormal sliding operation, and generate the first according to the determined browser information and hardware information
  • a human-machine recognition rule performs statistical analysis on page track information and sliding track information in the sample library, generates one or more track determination rules according to the statistical result, and generates a second human-machine recognition rule according to one or more track determination rules.
  • the BP neural network model and the DBSCAN-based classification model are trained by using the user behavior data in the sample library.
  • the BP neural network human-computer recognition model and the DBSCAN human-computer recognition model are obtained.
  • the rules and models obtained above are constructed into a fusion human-computer recognition model.
  • the fusion human-computer recognition model is trained, and the trained human-machine recognition model can be used to accurately identify the sliding verification of the machine operation.
  • the solution of the present application is based on the collected browser information, hardware information, page track information, and sliding track information.
  • the behavior data generates rules and trains the model, and constructs a fusion man-machine recognition model with the generated multiple rules or models to identify the sliding operation of the machine operation, and solves the sliding verification that cannot accurately identify the machine operation in the prior art.
  • the present application also provides a computer readable storage medium having a model building program stored thereon, the model building program being executable by one or more processors to:
  • the sliding verification operation is based on a browser trigger, and the user behavior data includes browser information, hardware information, page track information, and sliding track information;
  • the technical solution of the present application which is essential or contributes to the prior art, may be embodied in the form of a software product stored in a storage medium (such as ROM/RAM as described above). , a disk, an optical disk, including a number of instructions for causing a terminal device (which may be a mobile phone, a computer, a server, or a network device, etc.) to perform the methods described in the various embodiments of the present application.
  • a terminal device which may be a mobile phone, a computer, a server, or a network device, etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种人机识别模型的建立装置,包括存储器和处理器,存储器上存储有可在处理器上运行的模型建立程序,该程序被处理器执行时实现如下步骤:收集滑动验证操作的用户行为数据构建样本库;对样本库中的浏览器信息和硬件信息进行统计分析并生成第一人机识别规则;根据页面轨迹信息和滑动轨迹信息生成第二人机识别规则;使用样本库中的数据训练BP神经网络模型和基于DBSCAN的分类模型;根据上述规则和模型构建融合人机识别模型,并训练该模型。本申请还提出一种人机识别模型的建立方法以及一种计算机可读存储介质。本申请解决了现有技术中无法准确识别机器操作的滑动验证码的技术问题。

Description

人机识别模型的建立装置、方法及计算机可读存储介质
本申请基于巴黎公约申明享有2018年02月06日递交的申请号为201810114634.8、名称为“人机识别模型的建立装置、方法及计算机可读存储介质”的中国专利申请的优先权,该中国专利申请的整体内容以参考的方式结合在本申请中。
技术领域
本申请涉及人机识别技术领域,尤其涉及一种人机识别模型的建立装置、方法及计算机可读存储介质。
背景技术
在验证码领域,区别于传统的图像识别验证码、文字识别验证码、算术计算验证码等方式,滑动验证码由于识别方式清晰直观,具有良好的用户体验,得到越来越多的企业的青睐。
而作为一种验证方式,为了保证信息的安全性,仍然需要进行人机识别,以判断滑动验证操作是恶意的机器操作,还是人为的正常登录操作。但是,目前在滑动验证码的人机识别上面并没有一个很好的解决方案,破解率非常高,因此,如何准确识别机器操作的滑动验证是各公司安全部门亟需解决的问题。
发明内容
本申请提供一种人机识别模型的建立装置、方法及计算机可读存储介质,其主要目的在于解决现有技术中无法准确识别机器操作的滑动验证码的技术问题。
为实现上述目的,本申请提供一种人机识别模型的建立装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的模型建立程序,所述模型建立程序被所述处理器执行时实现如下步骤:
收集预设数量的滑动验证操作的用户行为数据构建样本库,所述滑动验证操作为基于浏览器触发,所述用户行为数据包括浏览器信息、硬件信息、 页面轨迹信息和滑动轨迹信息;
对所述样本库中的浏览器信息和硬件信息进行统计分析,以确定有异常滑动操作的浏览器信息和硬件信息,并根据确定的浏览器信息和硬件信息生成第一人机识别规则;
对所述样本库中的页面轨迹信息和滑动轨迹信息进行统计分析,根据统计结果生成一个或者多个轨迹判断规则,根据所述一个或者多个轨迹判断规则生成第二人机识别规则;
使用所述样本库中的用户行为数据训练BP神经网络模型和基于DBSCAN的分类模型;
根据所述第一人机识别规则、所述第二人机识别规则,以及训练得到的BP神经网络人机识别模型和DBSCAN人机识别模型构建融合人机识别模型,并使用所述样本库中的用户行为数据训练所述融合人机识别模型。
此外,为实现上述目的,本申请还提供一种人机识别模型的建立方法,该方法包括:
收集预设数量的滑动验证操作的用户行为数据构建样本库,所述滑动验证操作为基于浏览器触发,所述用户行为数据包括浏览器信息、硬件信息、页面轨迹信息和滑动轨迹信息;
对所述样本库中的浏览器信息和硬件信息进行统计分析,以确定有异常滑动操作的浏览器信息和硬件信息,并根据确定的浏览器信息和硬件信息生成第一人机识别规则;
对所述样本库中的页面轨迹信息和滑动轨迹信息进行统计分析,根据统计结果生成一个或者多个轨迹判断规则,根据所述一个或者多个轨迹判断规则生成第二人机识别规则;
使用所述样本库中的用户行为数据训练BP神经网络模型和基于DBSCAN的分类模型;
根据所述第一人机识别规则、所述第二人机识别规则,以及训练得到的BP神经网络人机识别模型和DBSCAN人机识别模型构建融合人机识别模型,并使用所述样本库中的用户行为数据训练所述融合人机识别模型。
此外,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有模型建立程序,所述模型建立程序可被一个或 者多个处理器执行,以实现如上所述的人机识别模型的建立方法的步骤。
本申请提出的人机识别模型的建立装置、方法及计算机可读存储介质,收集预设数量的滑动验证操作的用户行为数据并构建样本库,滑动验证操作为基于浏览器触发的,用户行为数据包括浏览器信息、硬件信息、页面轨迹信息和滑动轨迹信息,对样本库中的浏览器信息和硬件信息进行统计分析,以确定有异常滑动操作的浏览器信息和硬件信息,并根据确定的浏览器信息和硬件信息生成第一人机识别规则,对样本库中的页面轨迹信息和滑动轨迹信息进行统计分析,根据统计结果生成一个或者多个轨迹判断规则,根据一个或者多个轨迹判断规则生成第二人机识别规则,使用样本库中的用户行为数据训练BP神经网络模型和基于DBSCAN的分类模型,得到BP神经网络人机识别模型和DBSCAN人机识别模型,将上述得到的规则和模型构建为一个融合人机识别模型,并使用样本库中的用户行为数据训练该融合人机识别模型,训练得到的融合人机识别模型可以用来准确识别机器操作的滑动验证,本申请的方案根据收集的浏览器信息、硬件信息、页面轨迹信息以及滑动轨迹信息等用户行为数据生成规则并训练模型,并且用生成的多个规则或者模型构建一个融合人机识别模型,用来对机器操作的滑动操作进行识别,解决了现有技术中无法准确识别机器操作的滑动验证码的技术问题。
附图说明
图1为本申请人机识别模型的建立装置较佳实施例的示意图;
图2为本申请人机识别模型的建立装置一实施例中模型建立程序的程序模块示意图;
图3为本申请人机识别模型的建立方法较佳实施例的流程图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供一种人机识别模型的建立装置。参照图1所示,为本申请人机识别模型的建立装置较佳实施例的示意图。
在本实施例中,人机识别模型的建立装置可以是PC(Personal Computer, 个人电脑),也可以是智能手机、平板电脑、便携计算机等终端设备。
该人机识别模型的建立装置至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是人机识别模型的建立装置的内部存储单元,例如该人机识别模型的建立装置的硬盘。存储器11在另一些实施例中也可以是人机识别模型的建立装置的外部存储设备,例如人机识别模型的建立装置上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括人机识别模型的建立装置的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于人机识别模型的建立装置的应用软件及各类数据,例如模型建立程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行模型建立程序等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置与其他电子设备之间建立通信连接。
图1仅示出了具有组件11-14以及模型建立程序的人机识别模型的建立装置,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该装置还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在人机识别模型的建立装置中处理的信息以及用于显示可视化的用户界面。
在图1所示的装置实施例中,存储器11中存储有模型建立程序;处理器12执行存储器11中存储的模型建立程序时实现如下步骤:
收集预设数量的滑动验证操作的用户行为数据构建样本库,所述滑动验证操作为基于浏览器触发,所述用户行为数据包括浏览器信息、硬件信息、页面轨迹信息和滑动轨迹信息。
根据用户访问系统的历史记录收集历史滑动验证操作的用户行为数据,这些用户行为数据中包括能够确定是人为操作的用户行为数据,也包括不能够确定是人为操作还是机器操作的用户行为数据。此外,还可以通过自动化脚本模拟机器操作,并采集用户行为数据。通过上述两种方式收集用户行为数据,并将这些数据添加到样本库中。可以理解的是,收集的用户行为数据越多,后续使用这些数据训练模型得到的结果也越准确。因此,预设数量的值可以由用户根据对模型的精准度的要求进行设置。
具体地,上述用户行为数据包括浏览器信息、硬件信息、页面轨迹信息和滑动轨迹信息,其中,浏览器信息和硬件信息可以通过滑动操作产生的cookie信息获取,用户基于浏览器上的网页访问系统时,系统会发送一个滑动验证的页面在网页上显示,该滑动验证的页面上设置有滑动验证区域,其中包含有滑块,以及需要将滑块移动到的目标区域,用户需要通过鼠标操作或者触摸操作将滑块移动到要求的目标区域以完成滑动验证。在用户执行滑动验证时,获取滑动操作产生的页面轨迹信息、滑动轨迹信息;并且从浏览器的cookie信息中获取浏览器信息和硬件信息,其中,滑动轨迹信息为在滑动验证操作的过程中,滑块区域在滑动验证区域内移动的偏移量、移动速度和移动加速度;页面轨迹信息为滑动验证操作之前以及之后的预设时长内,鼠标指针在滑动验证区域所在的网页上移动的速度、位移和时间。硬件信息包括但不限于用户终端的显示器参数、内存参数、物理地址等,浏览器信息可以为浏览器的型号、版本等信息。需要说明的是,样本库中的根据用户访问系统的历史记录收集历史滑动验证操作的用户行为数据,每一条数据都有该滑动操作的执行时间信息。
对所述样本库中的浏览器信息和硬件信息进行统计分析,以确定有异常滑动操作的浏览器信息和硬件信息,并根据确定的浏览器信息和硬件信息生成第一人机识别规则。
对样本库中大量的浏览器信息和硬件信息进行统计分析,当有浏览器信息和/或硬件信息对应的滑动操作在单位时间内的操作总数量分别达到对应的预设阈值时,判定该浏览器信息和/或硬件信息出现异常操作;根据出现异常操作的硬件信息、浏览器信息生成第一人机识别规则。其中,单位时间、以及操作总数量的预设阈值,可以根据网站的具体访问情况进行设置,例如单位时间可以设置为10分钟,即若通过某台设备上的浏览器,在10分钟内连续进行滑动验证操作的数量达到预设阈值,则判定该设备上执行的是异常操作,将该设备的硬件信息以及使用的浏览器信息作为所述出现异常操作的浏览器信息和/或硬件信息。对应地,根据这些异常操作的浏览器信息和/或硬件信息生成的第一人机识别规则可以是:若滑动验证操作的对应的用户行为数据中的浏览器信息和硬件信息与所述提取的异常操作的浏览器信息和/或硬件信息一致,则判定对应的滑动验证操作为异常滑动验证操作。
对所述样本库中的页面轨迹信息和滑动轨迹信息进行统计分析,根据统计结果生成一个或者多个轨迹判断规则,根据所述一个或者多个轨迹判断规则生成第二人机识别规则。
由于人为执行滑动验证操作时,难以保证滑块区域在移动过程中的移动速度和加速度的恒定不变,而且滑块区域的移动轨迹也会有一定的波动。而机器执行滑动验证操作时,是通过执行自动化脚本来实现的,因此,由机器执行的滑动验证操作的页面轨迹信息和滑动轨迹信息会符合一定的规律,这些规律可以通过对样本库中的页面轨迹信息和滑动轨迹信息的统计分析得到,进而根据分析结果生成一个或者多个轨迹判断规则。例如,如果滑块区域上的点在页面上的移动轨迹为直线或者移动轨迹的变化幅度小于预设阈值,则判定该滑动操作是机器操作;如果滑块区域在移动过程中的加速度为零或者恒定不变,则判定该滑动操作为机器操作;或者,每次滑块区域的移动距离完全相同,则判定该滑动操作为机器操作。将上述规则中的一个或者多个结合起来,设置为第二人机识别规则。例如,如果滑块区域上的点在页面上的移动轨迹为直线且滑块区域在移动过程中的加速度为零,则该滑动操作判定为机器操作。
使用所述样本库中的用户行为数据训练BP神经网络模型和基于DBSCAN的分类模型。
根据样本库中的用户行为数据的来源信息,为能够获取到来源信息的用户行为数据添加类别标记,即为能够确定是人为操作的用户行为数据和能够确定是机器操作的用户行为数据分别添加对应的类别标记,以标识其来源信息,而获取不到来源信息的用户行为数据,则没有类别标记。
将样本库中有类别标记的用户行为数据输入到BP(back propagation,反向传播)神经网络模型中训练,以得到该BP神经网络模型的模型参数,将确定模型参数的BP神经网络模型作为BP神经网络人机识别模型。从上述样本库中的有类别标记的用户行为数据中提取特征,主要包括浏览器信息、硬件信息、滑块区域在滑动验证区域内移动的偏移量、移动速度和移动加速度,以及滑动验证操作之前以及之后的预设时长内,鼠标指针在滑动验证区域所在的网页上移动的速度、位移和时间,一共得到以上八个维度的特征,使用提取到的特征训练BP神经网络模型得到模型参数,将确定模型参数后BP神经网络模型作为BP神经网络人机识别模型。
将样本库中无类别标记的用户行为数据输入到DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)模型中训练,以得到该基于DBSCAN的分类模型的模型参数,将确定模型参数的基于DBSCAN的分类模型作为DBSCAN人机识别模型。按照上一步骤中同样的方式提取没有类别标记的用户行为数据中的特征,使用提取的特征训练基于DBSCAN的分类模型,DBSCAN是一种基于密度的聚类算法,它能够把具有足够高密度的区域划分为簇。也就是说,该算法是一种无监督的分类算法,对于即使没有类别标记的大量用户行为数据,也能够通过聚类的方式对样本集中的数据进行分类。使用没有类别标记的用户行为数据训练该模型,能够将数据分为两类,作为一种实施方式,可以由用户根据聚类的结果确定属于机器操作的聚类,并为其添加类别标签。在该模型的实际应用中,获取滑动验证的用户行为数据输入到该模型中,输出该用户行为数据所属的聚类,根据该聚类的标签判断本次滑动操作是否为机器操作。
根据所述第一人机识别规则、所述第二人机识别规则,以及训练得到的BP神经网络人机识别模型和DBSCAN人机识别模型构建融合人机识别模型,并使用所述样本库中的用户行为数据训练所述融合人机识别模型。
得到上述规则和模型之后,将其组合为一个融合人机识别模型,具体地, 为第一人机识别规则A、第二人机识别规则B、BP神经网络人机识别模型C和DBSCAN人机识别模型D分别分配权重a1、a2、a3、a4,生成融合人机识别模型S,其中,S=a1*A+a2*B+a3*C+a4*D;使用所述样本库中的用户行为数据训练所述融合人机识别模型S,获取权重a1、a2、a3、a4的数值。模型S的输出结果为一个0~1的数值,在训练模型时,设置机器操作的模型输出结果为1,人为操作的模型输出结果为0,识别结果越准确的模型或规则,其对应的权重也越大,反之,其对应的权重越小。
该融合人机识别模型在实际应用中的验证流程如下:获取用户基于浏览器的滑动验证操作产生的页面轨迹信息、滑动轨迹信息,以及浏览器信息和硬件信息,从中提取出需要的特征输入到模型中,得到输出结果,根据输出结果判断是否为机器操作。融合模型S在实际使用过程中,用户可以根据实际情况预先设置输出结果的判断阈值,例如设为0.8,即当输出结果大于或等于0.8时,则判断本次互动验证操作为机器操作,可以阻止本次登录或者访问。
本实施例提出的人机识别模型的建立装置,收集预设数量的滑动验证操作的用户行为数据并构建样本库,滑动验证操作为基于浏览器触发的,用户行为数据包括浏览器信息、硬件信息、页面轨迹信息和滑动轨迹信息,对样本库中的浏览器信息和硬件信息进行统计分析,以确定有异常滑动操作的浏览器信息和硬件信息,并根据确定的浏览器信息和硬件信息生成第一人机识别规则,对样本库中的页面轨迹信息和滑动轨迹信息进行统计分析,根据统计结果生成一个或者多个轨迹判断规则,根据一个或者多个轨迹判断规则生成第二人机识别规则,使用样本库中的用户行为数据训练BP神经网络模型和基于DBSCAN的分类模型,得到BP神经网络人机识别模型和DBSCAN人机识别模型,将上述得到的规则和模型构建为一个融合人机识别模型,并使用样本库中的用户行为数据训练该融合人机识别模型,训练得到的融合人机识别模型可以用来准确识别机器操作的滑动验证,本申请的方案根据收集的浏览器信息、硬件信息、页面轨迹信息以及滑动轨迹信息等用户行为数据生成规则并训练模型,并且用生成的多个规则或者模型构建一个融合人机识别模型,用来对机器操作的滑动操作进行识别,解决了现有技术中无法准确识别机器操作的滑动验证码的技术问题。
可选地,在其他的实施例中,模型建立程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本申请,本申请所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述模型建立程序在人机识别模型的建立装置中的执行过程。
例如,参照图2所示,为本申请人机识别模型的建立装置一实施例中的模型建立程序的程序模块示意图,该实施例中,模型建立程序可以被分割为样本收集模块10、规则生成模块20、模型训练模块30和模型融合模块40,示例性地:
样本收集模块10用于:收集预设数量的滑动验证操作的用户行为数据构建样本库,所述滑动验证操作为基于浏览器触发,所述用户行为数据包括浏览器信息、硬件信息、页面轨迹信息和滑动轨迹信息;
规则生成模块20用于:对所述样本库中的浏览器信息和硬件信息进行统计分析,以确定有异常滑动操作的浏览器信息和硬件信息,并根据确定的浏览器信息和硬件信息生成第一人机识别规则;
以及,对所述样本库中的页面轨迹信息和滑动轨迹信息进行统计分析,根据统计结果生成一个或者多个轨迹判断规则,根据所述一个或者多个轨迹判断规则生成第二人机识别规则;
模型训练模块30用于:使用所述样本库中的用户行为数据训练BP神经网络模型和基于DBSCAN的分类模型;
模型融合模块40用于:根据所述第一人机识别规则、所述第二人机识别规则,以及训练得到的BP神经网络人机识别模型和DBSCAN人机识别模型构建融合人机识别模型,并使用所述样本库中的用户行为数据训练所述融合人机识别模型。
上述样本收集模块10、规则生成模块20、模型训练模块30和模型融合模块4等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本申请还提供一种人机识别模型的建立方法。参照图3所示,为本申请人机识别模型的建立方法较佳实施例的流程图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,人机识别模型的建立方法包括:
步骤S10,收集预设数量的滑动验证操作的用户行为数据构建样本库,所述滑动验证操作为基于浏览器触发,所述用户行为数据包括浏览器信息、硬件信息、页面轨迹信息和滑动轨迹信息。
根据用户访问系统的历史记录收集历史滑动验证操作的用户行为数据,这些用户行为数据中包括能够确定是人为操作的用户行为数据,也包括不能够确定是人为操作还是机器操作的用户行为数据。此外,还可以通过自动化脚本模拟机器操作采集用户行为数据。通过上述两种方式收集用户行为数据,并将这些数据添加到样本库中。可以理解的是,收集的用户行为数据越多,后续使用这些数据训练模型得到的结果也越准确。因此,预设数量的值可以由用户根据对模型的精准度的要求进行设置。
具体地,上述用户行为数据包括浏览器信息、硬件信息、页面轨迹信息和滑动轨迹信息,其中,浏览器信息和硬件信息可以通过滑动操作产生的cookie信息获取,用户基于浏览器上的网页访问系统时,系统会发送一个滑动验证的页面在网页上显示,该滑动验证的页面上设置有滑动验证区域,其中包含有滑块,以及需要将滑块移动到的目标区域,用户需要通过鼠标操作或者触摸操作将滑块移动到要求的目标区域以完成滑动验证。在用户执行滑动验证时,获取滑动操作产生的页面轨迹信息、滑动轨迹信息;并且从浏览器的cookie信息中获取浏览器信息和硬件信息,其中,滑动轨迹信息为在滑动验证操作的过程中,滑块区域在滑动验证区域内移动的偏移量、移动速度和移动加速度;页面轨迹信息为滑动验证操作之前以及之后的预设时长内,鼠标指针在滑动验证区域所在的网页上移动的速度、位移和时间。硬件信息包括但不限于用户终端的显示器参数、内存参数、物理地址等,浏览器信息可以为浏览器的型号、版本等信息。需要说明的是,样本库中的根据用户访问系统的历史记录收集历史滑动验证操作的用户行为数据,每一条数据都有该滑动操作的执行时间信息。
步骤S20,对所述样本库中的浏览器信息和硬件信息进行统计分析,以确定有异常滑动操作的浏览器信息和硬件信息,并根据确定的浏览器信息和硬件信息生成第一人机识别规则。
对样本库中大量的浏览器信息和硬件信息进行统计分析,提取出异常的 用户行为数据出现较多的硬件信息和浏览器信息,例如,步骤S20可以包括如下细化步骤:
统计所述样本库中的浏览器信息和硬件信息,当有浏览器信息和/或硬件信息对应的滑动操作在单位时间内的操作总数量分别达到对应的预设阈值时,判定该浏览器信息和/或硬件信息出现异常操作;根据出现异常操作的硬件信息、浏览器信息生成所述第一人机识别规则。
单位时间、以及操作总数量的预设阈值,可以根据网站的具体访问情况进行设置,例如单位时间可以设置为10分钟,即若通过某台设备上的浏览器,在10分钟内连续进行滑动验证操作的数量达到预设阈值,则判定该设备上执行的是异常操作,将该设备的硬件信息以及使用的浏览器信息作为所述出现异常操作的浏览器信息和/或硬件信息。对应地,根据这些异常操作的浏览器信息和/或硬件信息生成的第一人机识别规则可以是:若滑动验证操作的对应的用户行为数据中的浏览器信息和硬件信息与所述提取的异常操作的浏览器信息和/或硬件信息一致,则判定对应的滑动验证操作为异常滑动验证操作。
步骤S30,对所述样本库中的页面轨迹信息和滑动轨迹信息进行统计分析,根据统计结果生成一个或者多个轨迹判断规则,根据所述一个或者多个轨迹判断规则生成第二人机识别规则。
由于人为执行滑动验证操作时,难以保证滑块区域在移动过程中的移动速度和加速度的恒定不变,而且滑块区域的移动轨迹也会有一定的波动。而机器执行滑动验证操作时,是通过执行自动化脚本来实现的,因此,由机器执行的滑动验证操作的页面轨迹信息和滑动轨迹信息会符合一定的规律,这些规律可以通过对样本库中的页面轨迹信息和滑动轨迹信息的统计分析得到,进而根据分析结果生成一个或者多个轨迹判断规则。例如,如果滑块区域的上的点在页面上的移动轨迹为直线或者移动轨迹的变化幅度小于预设阈值,则判定该滑动操作是机器操作;如果滑块区域在移动过程中的加速度为零或者恒定不变,则判定该滑动操作为机器操作;或者,每次滑块区域的移动距离完全相同,则判定该滑动操作为机器操作。将上述规则中的一个或者多个结合起来,设置为第二人机识别规则。例如,如果滑块区域上的点在页面上的移动轨迹为直线且滑块区域在移动过程中的加速度为零,则该滑动操作判定为机器操作。
步骤S40,使用所述样本库中的用户行为数据训练BP神经网络模型和基于DBSCAN的分类模型。
根据样本库中的用户行为数据的来源信息,为能够获取到来源信息的用户行为数据添加类别标记,即为能够确定是人为操作的用户行为数据和能够确定是机器操作的用户行为数据分别添加对应的类别标记,以标识其来源信息,而获取不到来源信息的用户行为数据,则没有类别标记。
步骤S40可以包括如下细化步骤:
获取样本库中的用户行为数据的来源信息,为能够获取到来源信息的用户行为数据添加类别标记;将样本库中有类别标记的用户行为数据输入到BP神经网络模型中训练,以得到该BP神经网络模型的模型参数,将确定模型参数的BP神经网络模型作为BP神经网络人机识别模型;将样本库中无类别标记的用户行为数据输入到基于DBSCAN的分类模型中训练,以得到该基于DBSCAN的分类模型的模型参数,将确定模型参数的基于DBSCAN的分类模型作为DBSCAN人机识别模型。
将样本库中有类别标记的用户行为数据输入到BP神经网络模型中训练,以得到该BP神经网络模型的模型参数,将确定模型参数的BP神经网络模型作为BP神经网络人机识别模型。从上述样本库中的有类别标记的用户行为数据中提取特征,主要包括浏览器信息、硬件信息、滑块区域在滑动验证区域内移动的偏移量、移动速度和移动加速度,以及滑动验证操作之前以及之后的预设时长内,鼠标指针在滑动验证区域所在的网页上移动的速度、位移和时间,一共得到以上八个维度的特征,使用提取到的特征训练BP神经网络模型得到模型参数,将确定模型参数后BP神经网络模型作为BP神经网络人机识别模型。
将样本库中无类别标记的用户行为数据输入到DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)模型中训练,以得到该基于DBSCAN的分类模型的模型参数,将确定模型参数的基于DBSCAN的分类模型作为DBSCAN人机识别模型。按照上一步骤中同样的方式提取没有类别标记的用户行为数据中的特征,使用提取的特征训练基于DBSCAN的分类模型,DBSCAN是一种基于密度的聚类算法,它能够把具有足够高密度的区域划分为簇。也就是说,该算法是一种无监督的分 类算法,对于即使没有类别标记的大量用户行为数据,也能够通过聚类的方式对样本集中的数据进行分类。使用没有类别标记的用户行为数据训练该模型,能够将数据分为两类,作为一种实施方式,可以由用户根据聚类的结果确定属于机器操作的聚类,并为其添加类别标签。在该模型的实际应用中,获取滑动验证的用户行为数据输入到该模型中,输出该用户行为数据所属的聚类,根据该聚类的标签判断本次滑动操作是否为机器操作。
步骤S50,根据所述第一人机识别规则、所述第二人机识别规则,以及训练得到的BP神经网络人机识别模型和DBSCAN人机识别模型构建融合人机识别模型,并使用所述样本库中的用户行为数据训练所述融合人机识别模型。
得到上述规则和模型之后,将其组合为一个融合人机识别模型,具体地,为第一人机识别规则A、第二人机识别规则B、BP神经网络人机识别模型C和DBSCAN人机识别模型D分别分配权重a1、a2、a3、a4,生成融合人机识别模型S,其中,S=a1*A+a2*B+a3*C+a4*D;使用所述样本库中的用户行为数据训练所述融合人机识别模型S,获取权重a1、a2、a3、a4的数值。模型S的输出结果为一个0~1的数值,在训练模型时,设置机器操作的模型输出结果为1,人为操作的模型输出结果为0,识别结果越准确的模型或规则,其对应的权重也越大,反之,其对应的权重越小。
该融合人机识别模型在实际应用中的验证流程如下:获取用户基于浏览器的滑动验证操作产生的页面轨迹信息、滑动轨迹信息,以及浏览器信息和硬件信息,从中提取出需要的特征输入到模型中,得到输出结果,根据输出结果判断是否为机器操作。融合模型S在实际使用过程中,用户可以根据实际情况预先设置输出结果的判断阈值,例如设为0.8,即当输出结果大于或等于0.8时,则判断本次互动验证操作为机器操作,可以阻止本次登录或者访问。
本实施例提出的人机识别模型的建立方法,收集预设数量的滑动验证操作的用户行为数据并构建样本库,滑动验证操作为基于浏览器触发的,用户行为数据包括浏览器信息、硬件信息、页面轨迹信息和滑动轨迹信息,对样本库中的浏览器信息和硬件信息进行统计分析,以确定有异常滑动操作的浏览器信息和硬件信息,并根据确定的浏览器信息和硬件信息生成第一人机识别规则,对样本库中的页面轨迹信息和滑动轨迹信息进行统计分析,根据统计结果生成一个或者多个轨迹判断规则,根据一个或者多个轨迹判断规则生 成第二人机识别规则,使用样本库中的用户行为数据训练BP神经网络模型和基于DBSCAN的分类模型,得到BP神经网络人机识别模型和DBSCAN人机识别模型,将上述得到的规则和模型构建为一个融合人机识别模型,并使用样本库中的用户行为数据训练该融合人机识别模型,训练得到的融合人机识别模型可以用来准确识别机器操作的滑动验证,本申请的方案根据收集的浏览器信息、硬件信息、页面轨迹信息以及滑动轨迹信息等用户行为数据生成规则并训练模型,并且用生成的多个规则或者模型构建一个融合人机识别模型,用来对机器操作的滑动操作进行识别,解决了现有技术中无法准确识别机器操作的滑动验证码的技术问题。
此外,本申请还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有模型建立程序,所述模型建立程序可被一个或多个处理器执行,以实现如下操作:
收集预设数量的滑动验证操作的用户行为数据构建样本库,所述滑动验证操作为基于浏览器触发,所述用户行为数据包括浏览器信息、硬件信息、页面轨迹信息和滑动轨迹信息;
对所述样本库中的浏览器信息和硬件信息进行统计分析,以确定有异常滑动操作的浏览器信息和硬件信息,并根据确定的浏览器信息和硬件信息生成第一人机识别规则;
对所述样本库中的页面轨迹信息和滑动轨迹信息进行统计分析,根据统计结果生成一个或者多个轨迹判断规则,根据所述一个或者多个轨迹判断规则生成第二人机识别规则;
使用所述样本库中的用户行为数据训练BP神经网络模型和基于DBSCAN的分类模型;
根据所述第一人机识别规则、所述第二人机识别规则,以及训练得到的BP神经网络人机识别模型和DBSCAN人机识别模型构建融合人机识别模型,并使用所述样本库中的用户行为数据训练所述融合人机识别模型。
本申请计算机可读存储介质具体实施方式与上述人机识别模型的建立装置和方法各实施例基本相同,在此不作累述。
需要说明的是,上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非 排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (20)

  1. 一种人机识别模型的建立装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的模型建立程序,所述模型建立程序被所述处理器执行时实现如下步骤:
    收集预设数量的滑动验证操作的用户行为数据构建样本库,所述滑动验证操作为基于浏览器触发,所述用户行为数据包括浏览器信息、硬件信息、页面轨迹信息和滑动轨迹信息;
    对所述样本库中的浏览器信息和硬件信息进行统计分析,以确定有异常滑动操作的浏览器信息和硬件信息,并根据确定的浏览器信息和硬件信息生成第一人机识别规则;
    对所述样本库中的页面轨迹信息和滑动轨迹信息进行统计分析,根据统计结果生成一个或者多个轨迹判断规则,根据所述一个或者多个轨迹判断规则生成第二人机识别规则;
    使用所述样本库中的用户行为数据训练BP神经网络模型和基于DBSCAN的分类模型;
    根据所述第一人机识别规则、所述第二人机识别规则,以及训练得到的BP神经网络人机识别模型和DBSCAN人机识别模型构建融合人机识别模型,并使用所述样本库中的用户行为数据训练所述融合人机识别模型。
  2. 如权利要求1所述的人机识别模型的建立装置,其特征在于,所述对所述样本库中的浏览器信息和硬件信息进行统计分析,以确定有异常滑动操作的浏览器信息和硬件信息,并根据确定的浏览器信息和硬件信息生成第一人机识别规则的步骤包括:
    统计所述样本库中的浏览器信息和硬件信息,当有浏览器信息和/或硬件信息对应的滑动操作在单位时间内的操作总数量分别达到对应的预设阈值时,判定该浏览器信息和/或硬件信息出现异常操作;
    根据出现异常操作的硬件信息、浏览器信息生成所述第一人机识别规则。
  3. 如权利要求1所述的人机识别模型的建立装置,其特征在于,所述使用所述样本库中的用户行为数据训练BP神经网络模型和基于DBSCAN的分类模型的步骤包括:
    获取所述样本库中的用户行为数据的来源信息,为能够获取到来源信息 的用户行为数据添加类别标记;
    将所述样本库中有类别标记的用户行为数据输入到BP神经网络模型中训练,以得到该BP神经网络模型的模型参数,将确定模型参数的BP神经网络模型作为BP神经网络人机识别模型;
    将所述样本库中无类别标记的用户行为数据输入到基于DBSCAN的分类模型中训练,以得到该基于DBSCAN的分类模型的模型参数,将确定模型参数的基于DBSCAN的分类模型作为DBSCAN人机识别模型。
  4. 如权利要求2所述的人机识别模型的建立装置,其特征在于,所述使用所述样本库中的用户行为数据训练BP神经网络模型和基于DBSCAN的分类模型的步骤包括:
    获取所述样本库中的用户行为数据的来源信息,为能够获取到来源信息的用户行为数据添加类别标记;
    将所述样本库中有类别标记的用户行为数据输入到BP神经网络模型中训练,以得到该BP神经网络模型的模型参数,将确定模型参数的BP神经网络模型作为BP神经网络人机识别模型;
    将所述样本库中无类别标记的用户行为数据输入到基于DBSCAN的分类模型中训练,以得到该基于DBSCAN的分类模型的模型参数,将确定模型参数的基于DBSCAN的分类模型作为DBSCAN人机识别模型
  5. 如权利要求2所述的人机识别模型的建立装置,其特征在于,所述根据所述第一人机识别规则、所述第二人机识别规则,以及训练得到的BP神经网络人机识别模型和DBSCAN人机识别模型构建融合人机识别模型,并使用所述样本库中的用户行为数据训练所述融合人机识别模型的步骤包括:
    为第一人机识别规则A、第二人机识别规则B、BP神经网络人机识别模型C和DBSCAN人机识别模型D分别分配权重a1、a2、a3、a4,生成融合人机识别模型S,其中,S=a1*A+a2*B+a3*C+a4*D;
    使用所述样本库中的用户行为数据训练所述融合人机识别模型S,获取权重a1、a2、a3、a4的值。
  6. 如权利要求3所述的人机识别模型的建立装置,其特征在于,所述根据所述第一人机识别规则、所述第二人机识别规则,以及训练得到的BP神经网络人机识别模型和DBSCAN人机识别模型构建融合人机识别模型,并使用 所述样本库中的用户行为数据训练所述融合人机识别模型的步骤包括:
    为第一人机识别规则A、第二人机识别规则B、BP神经网络人机识别模型C和DBSCAN人机识别模型D分别分配权重a1、a2、a3、a4,生成融合人机识别模型S,其中,S=a1*A+a2*B+a3*C+a4*D;
    使用所述样本库中的用户行为数据训练所述融合人机识别模型S,获取权重a1、a2、a3、a4的值。
  7. 如权利要求5所述的人机识别模型的建立装置,其特征在于,所述滑动轨迹信息为在滑动验证操作的过程中,滑块区域在滑动验证区域内移动的偏移量、移动速度和移动加速度;所述页面轨迹信息为鼠标指针在所述滑动验证区域所在的网页上移动的速度、位移和时间。
  8. 一种人机识别模型的建立方法,其特征在于,所述方法包括:
    收集预设数量的滑动验证操作的用户行为数据构建样本库,所述滑动验证操作为基于浏览器触发,所述用户行为数据包括浏览器信息、硬件信息、页面轨迹信息和滑动轨迹信息;
    对所述样本库中的浏览器信息和硬件信息进行统计分析,以确定有异常滑动操作的浏览器信息和硬件信息,并根据确定的浏览器信息和硬件信息生成第一人机识别规则;
    对所述样本库中的页面轨迹信息和滑动轨迹信息进行统计分析,根据统计结果生成一个或者多个轨迹判断规则,根据所述一个或者多个轨迹判断规则生成第二人机识别规则;
    使用所述样本库中的用户行为数据训练BP神经网络模型和基于DBSCAN的分类模型;
    根据所述第一人机识别规则、所述第二人机识别规则,以及训练得到的BP神经网络人机识别模型和DBSCAN人机识别模型构建融合人机识别模型,并使用所述样本库中的用户行为数据训练所述融合人机识别模型。
  9. 如权利要求8所述的人机识别模型的建立方法,其特征在于,所述对所述样本库中的浏览器信息和硬件信息进行统计分析,以确定有异常滑动操作的浏览器信息和硬件信息,并根据确定的浏览器信息和硬件信息生成第一人机识别规则的步骤包括:
    统计所述样本库中的浏览器信息和硬件信息,当有浏览器信息和/或硬件 信息对应的滑动操作在单位时间内的操作总数量分别达到对应的预设阈值时,判定该浏览器信息和/或硬件信息出现异常操作;
    根据出现异常操作的硬件信息、浏览器信息生成所述第一人机识别规则。
  10. 如权利要求8所述的人机识别模型的建立方法,其特征在于,所述使用所述样本库中的用户行为数据训练BP神经网络模型和基于DBSCAN的分类模型的步骤包括:
    获取所述样本库中的用户行为数据的来源信息,为能够获取到来源信息的用户行为数据添加类别标记;
    将所述样本库中有类别标记的用户行为数据输入到BP神经网络模型中训练,以得到该BP神经网络模型的模型参数,将确定模型参数的BP神经网络模型作为BP神经网络人机识别模型;
    将所述样本库中无类别标记的用户行为数据输入到基于DBSCAN的分类模型中训练,以得到该基于DBSCAN的分类模型的模型参数,将确定模型参数的基于DBSCAN的分类模型作为DBSCAN人机识别模型。
  11. 如权利要求9所述的人机识别模型的建立方法,其特征在于,所述使用所述样本库中的用户行为数据训练BP神经网络模型和基于DBSCAN的分类模型的步骤包括:
    获取所述样本库中的用户行为数据的来源信息,为能够获取到来源信息的用户行为数据添加类别标记;
    将所述样本库中有类别标记的用户行为数据输入到BP神经网络模型中训练,以得到该BP神经网络模型的模型参数,将确定模型参数的BP神经网络模型作为BP神经网络人机识别模型;
    将所述样本库中无类别标记的用户行为数据输入到基于DBSCAN的分类模型中训练,以得到该基于DBSCAN的分类模型的模型参数,将确定模型参数的基于DBSCAN的分类模型作为DBSCAN人机识别模型。
  12. 如权利要求9所述的人机识别模型的建立方法,其特征在于,所述根据所述第一人机识别规则、所述第二人机识别规则,以及训练得到的BP神经网络人机识别模型和DBSCAN人机识别模型构建融合人机识别模型,并使用所述样本库中的用户行为数据训练所述融合人机识别模型的步骤包括:
    为第一人机识别规则A、第二人机识别规则B、BP神经网络人机识别模 型C和DBSCAN人机识别模型D分别分配权重a1、a2、a3、a4,生成融合人机识别模型S,其中,S=a1*A+a2*B+a3*C+a4*D;
    使用所述样本库中的用户行为数据训练所述融合人机识别模型S,获取权重a1、a2、a3、a4的值。
  13. 如权利要10所述的人机识别模型的建立方法,其特征在于,所述根据所述第一人机识别规则、所述第二人机识别规则,以及训练得到的BP神经网络人机识别模型和DBSCAN人机识别模型构建融合人机识别模型,并使用所述样本库中的用户行为数据训练所述融合人机识别模型的步骤包括:
    为第一人机识别规则A、第二人机识别规则B、BP神经网络人机识别模型C和DBSCAN人机识别模型D分别分配权重a1、a2、a3、a4,生成融合人机识别模型S,其中,S=a1*A+a2*B+a3*C+a4*D;
    使用所述样本库中的用户行为数据训练所述融合人机识别模型S,获取权重a1、a2、a3、a4的值。
  14. 如权利要12所述的人机识别模型的建立方法,其特征在于,所述滑动轨迹信息为在滑动验证操作的过程中,滑块区域在滑动验证区域内移动的偏移量、移动速度和移动加速度;所述页面轨迹信息为鼠标指针在所述滑动验证区域所在的网页上移动的速度、位移和时间。
  15. 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有模型建立程序,所述模型建立程序可被一个或者多个处理器执行,以实现如下步骤:
    收集预设数量的滑动验证操作的用户行为数据构建样本库,所述滑动验证操作为基于浏览器触发,所述用户行为数据包括浏览器信息、硬件信息、页面轨迹信息和滑动轨迹信息;
    对所述样本库中的浏览器信息和硬件信息进行统计分析,以确定有异常滑动操作的浏览器信息和硬件信息,并根据确定的浏览器信息和硬件信息生成第一人机识别规则;
    对所述样本库中的页面轨迹信息和滑动轨迹信息进行统计分析,根据统计结果生成一个或者多个轨迹判断规则,根据所述一个或者多个轨迹判断规则生成第二人机识别规则;
    使用所述样本库中的用户行为数据训练BP神经网络模型和基于 DBSCAN的分类模型;
    根据所述第一人机识别规则、所述第二人机识别规则,以及训练得到的BP神经网络人机识别模型和DBSCAN人机识别模型构建融合人机识别模型,并使用所述样本库中的用户行为数据训练所述融合人机识别模型。
  16. 如权利要15所述的计算机可读存储介质,其特征在于,所述对所述样本库中的浏览器信息和硬件信息进行统计分析,以确定有异常滑动操作的浏览器信息和硬件信息,并根据确定的浏览器信息和硬件信息生成第一人机识别规则的步骤包括:
    统计所述样本库中的浏览器信息和硬件信息,当有浏览器信息和/或硬件信息对应的滑动操作在单位时间内的操作总数量分别达到对应的预设阈值时,判定该浏览器信息和/或硬件信息出现异常操作;
    根据出现异常操作的硬件信息、浏览器信息生成所述第一人机识别规则。
  17. 如权利要15所述的计算机可读存储介质,其特征在于,所述使用所述样本库中的用户行为数据训练BP神经网络模型和基于DBSCAN的分类模型的步骤包括:
    获取所述样本库中的用户行为数据的来源信息,为能够获取到来源信息的用户行为数据添加类别标记;
    将所述样本库中有类别标记的用户行为数据输入到BP神经网络模型中训练,以得到该BP神经网络模型的模型参数,将确定模型参数的BP神经网络模型作为BP神经网络人机识别模型;
    将所述样本库中无类别标记的用户行为数据输入到基于DBSCAN的分类模型中训练,以得到该基于DBSCAN的分类模型的模型参数,将确定模型参数的基于DBSCAN的分类模型作为DBSCAN人机识别模型。
  18. 如权利要16所述的计算机可读存储介质,其特征在于,所述使用所述样本库中的用户行为数据训练BP神经网络模型和基于DBSCAN的分类模型的步骤包括:
    获取所述样本库中的用户行为数据的来源信息,为能够获取到来源信息的用户行为数据添加类别标记;
    将所述样本库中有类别标记的用户行为数据输入到BP神经网络模型中训练,以得到该BP神经网络模型的模型参数,将确定模型参数的BP神经网 络模型作为BP神经网络人机识别模型;
    将所述样本库中无类别标记的用户行为数据输入到基于DBSCAN的分类模型中训练,以得到该基于DBSCAN的分类模型的模型参数,将确定模型参数的基于DBSCAN的分类模型作为DBSCAN人机识别模型
  19. 如权利要16所述的计算机可读存储介质,其特征在于,所述根据所述第一人机识别规则、所述第二人机识别规则,以及训练得到的BP神经网络人机识别模型和DBSCAN人机识别模型构建融合人机识别模型,并使用所述样本库中的用户行为数据训练所述融合人机识别模型的步骤包括:
    为第一人机识别规则A、第二人机识别规则B、BP神经网络人机识别模型C和DBSCAN人机识别模型D分别分配权重a1、a2、a3、a4,生成融合人机识别模型S,其中,S=a1*A+a2*B+a3*C+a4*D;
    使用所述样本库中的用户行为数据训练所述融合人机识别模型S,获取权重a1、a2、a3、a4的值。
  20. 如权利要17所述的计算机可读存储介质,其特征在于,所述根据所述第一人机识别规则、所述第二人机识别规则,以及训练得到的BP神经网络人机识别模型和DBSCAN人机识别模型构建融合人机识别模型,并使用所述样本库中的用户行为数据训练所述融合人机识别模型的步骤包括:
    为第一人机识别规则A、第二人机识别规则B、BP神经网络人机识别模型C和DBSCAN人机识别模型D分别分配权重a1、a2、a3、a4,生成融合人机识别模型S,其中,S=a1*A+a2*B+a3*C+a4*D;
    使用所述样本库中的用户行为数据训练所述融合人机识别模型S,获取权重a1、a2、a3、a4的值。
PCT/CN2018/089715 2018-02-06 2018-06-03 人机识别模型的建立装置、方法及计算机可读存储介质 WO2019153604A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810114634.8 2018-02-06
CN201810114634.8A CN108416198B (zh) 2018-02-06 2018-02-06 人机识别模型的建立装置、方法及计算机可读存储介质

Publications (1)

Publication Number Publication Date
WO2019153604A1 true WO2019153604A1 (zh) 2019-08-15

Family

ID=63127702

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/089715 WO2019153604A1 (zh) 2018-02-06 2018-06-03 人机识别模型的建立装置、方法及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN108416198B (zh)
WO (1) WO2019153604A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516422A (zh) * 2019-08-30 2019-11-29 北京字节跳动网络技术有限公司 用户身份的识别方法、装置、电子设备及存储介质
CN111598796A (zh) * 2020-04-27 2020-08-28 Oppo广东移动通信有限公司 图像处理方法及装置、电子设备、存储介质
CN111666968A (zh) * 2020-04-21 2020-09-15 北京奇艺世纪科技有限公司 人机识别方法及装置、电子设备、计算机可读存储介质
CN111831991A (zh) * 2020-07-24 2020-10-27 中国工商银行股份有限公司 输入操作检测方法、装置、计算设备和介质
CN113449297A (zh) * 2020-03-24 2021-09-28 中移动信息技术有限公司 恶意代码识别模型的训练方法、恶意代码识别方法及装置
CN113554515A (zh) * 2021-06-26 2021-10-26 陈思佳 互联网金融控制方法、系统、设备及介质
CN113900889A (zh) * 2021-09-18 2022-01-07 百融至信(北京)征信有限公司 一种智能识别app人为操作的方法及系统

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086594A (zh) * 2018-09-21 2018-12-25 郑州云海信息技术有限公司 一种实现滑动型验证码验证的方法、装置及系统
CN109124635B (zh) * 2018-09-25 2022-09-02 上海联影医疗科技股份有限公司 模型生成方法、磁共振成像扫描方法及系统
CN109299592B (zh) * 2018-09-29 2021-08-10 武汉极意网络科技有限公司 人机行为特征边界构建方法、系统、服务器及存储介质
CN110162939B (zh) * 2018-10-25 2023-05-02 腾讯科技(深圳)有限公司 人机识别方法、设备和介质
CN111147431B (zh) * 2018-11-06 2022-06-07 北京京东尚科信息技术有限公司 用于生成信息的方法和装置
CN109685104B (zh) * 2018-11-15 2022-05-13 同盾控股有限公司 一种识别模型的确定方法和装置
CN109766915A (zh) * 2018-12-14 2019-05-17 深圳壹账通智能科技有限公司 基于图像识别的测试方法、装置、计算机设备及存储介质
CN109784015B (zh) * 2018-12-27 2023-05-12 腾讯科技(深圳)有限公司 一种身份鉴别方法及装置
CN109858230A (zh) * 2019-01-08 2019-06-07 平安科技(深圳)有限公司 滑块验证方法、装置、计算机设备及存储介质
CN109902470A (zh) * 2019-01-08 2019-06-18 平安科技(深圳)有限公司 滑块验证方法、装置、计算机设备及存储介质
CN109660556B (zh) * 2019-01-11 2022-11-29 平安科技(深圳)有限公司 基于信息安全的用户登陆方法、装置、设备和存储介质
CN110046647A (zh) * 2019-03-08 2019-07-23 同盾控股有限公司 一种验证码机器行为识别方法及装置
CN109977641A (zh) * 2019-03-25 2019-07-05 山东浪潮云信息技术有限公司 一种基于行为分析的验证处理方法及系统
CN111782068A (zh) * 2019-04-04 2020-10-16 阿里巴巴集团控股有限公司 鼠标轨迹生成的方法、装置和系统以及数据处理的方法
CN110427737A (zh) * 2019-06-20 2019-11-08 平安科技(深圳)有限公司 操作行为的人机识别方法、装置及计算机设备
CN110569906B (zh) * 2019-09-10 2022-08-09 京东科技控股股份有限公司 数据处理方法、数据处理装置及计算机可读存储介质
CN110807183A (zh) * 2019-10-12 2020-02-18 广州多益网络股份有限公司 一种多维度特征体系的滑动验证码人机行为识别方法
CN110768980B (zh) * 2019-10-22 2022-04-05 武汉极意网络科技有限公司 网络人机验证方法、装置、设备及存储介质
CN113126794A (zh) * 2019-12-31 2021-07-16 京东数字科技控股有限公司 异常操作识别方法、装置和计算机可读存储介质
CN111787009A (zh) * 2020-06-30 2020-10-16 北京明略昭辉科技有限公司 一种异常流量判断方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9471767B2 (en) * 2014-08-22 2016-10-18 Oracle International Corporation CAPTCHA techniques utilizing traceable images
CN106155298A (zh) * 2015-04-21 2016-11-23 阿里巴巴集团控股有限公司 人机识别方法及装置、行为特征数据的采集方法及装置
CN107153786A (zh) * 2017-05-26 2017-09-12 北京奇点数聚科技有限公司 一种人机识别方法、系统及终端设备、可读存储介质
CN107463878A (zh) * 2017-07-05 2017-12-12 成都数联铭品科技有限公司 基于深度学习的人体行为识别系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737019B (zh) * 2011-03-31 2016-08-24 阿里巴巴集团控股有限公司 机器行为确定方法、网页浏览器及网页服务器
CN104239758B (zh) * 2013-06-13 2018-04-27 阿里巴巴集团控股有限公司 一种人机识别方法及相应的人机识别系统
CN105989268A (zh) * 2015-03-02 2016-10-05 苏宁云商集团股份有限公司 一种人机识别的安全访问方法和系统
CN106815514A (zh) * 2015-11-27 2017-06-09 阿里巴巴集团控股有限公司 一种人机识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9471767B2 (en) * 2014-08-22 2016-10-18 Oracle International Corporation CAPTCHA techniques utilizing traceable images
CN106155298A (zh) * 2015-04-21 2016-11-23 阿里巴巴集团控股有限公司 人机识别方法及装置、行为特征数据的采集方法及装置
CN107153786A (zh) * 2017-05-26 2017-09-12 北京奇点数聚科技有限公司 一种人机识别方法、系统及终端设备、可读存储介质
CN107463878A (zh) * 2017-07-05 2017-12-12 成都数联铭品科技有限公司 基于深度学习的人体行为识别系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516422A (zh) * 2019-08-30 2019-11-29 北京字节跳动网络技术有限公司 用户身份的识别方法、装置、电子设备及存储介质
CN113449297A (zh) * 2020-03-24 2021-09-28 中移动信息技术有限公司 恶意代码识别模型的训练方法、恶意代码识别方法及装置
CN111666968A (zh) * 2020-04-21 2020-09-15 北京奇艺世纪科技有限公司 人机识别方法及装置、电子设备、计算机可读存储介质
CN111598796A (zh) * 2020-04-27 2020-08-28 Oppo广东移动通信有限公司 图像处理方法及装置、电子设备、存储介质
CN111598796B (zh) * 2020-04-27 2023-09-05 Oppo广东移动通信有限公司 图像处理方法及装置、电子设备、存储介质
CN111831991A (zh) * 2020-07-24 2020-10-27 中国工商银行股份有限公司 输入操作检测方法、装置、计算设备和介质
CN113554515A (zh) * 2021-06-26 2021-10-26 陈思佳 互联网金融控制方法、系统、设备及介质
CN113900889A (zh) * 2021-09-18 2022-01-07 百融至信(北京)征信有限公司 一种智能识别app人为操作的方法及系统
CN113900889B (zh) * 2021-09-18 2023-10-24 百融至信(北京)科技有限公司 一种智能识别app人为操作的方法及系统

Also Published As

Publication number Publication date
CN108416198B (zh) 2022-02-01
CN108416198A (zh) 2018-08-17

Similar Documents

Publication Publication Date Title
WO2019153604A1 (zh) 人机识别模型的建立装置、方法及计算机可读存储介质
CN108629043B (zh) 网页目标信息的提取方法、装置及存储介质
CN109325165B (zh) 网络舆情分析方法、装置及存储介质
AU2017408801B2 (en) User keyword extraction device and method, and computer-readable storage medium
CN106155298B (zh) 人机识别方法及装置、行为特征数据的采集方法及装置
CN104123500B (zh) 一种基于深度学习的Android平台恶意应用检测方法及装置
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
US20190311114A1 (en) Man-machine identification method and device for captcha
CN104318138A (zh) 一种验证用户身份的方法和装置
CN105989268A (zh) 一种人机识别的安全访问方法和系统
CN106537387B (zh) 检索/存储与事件相关联的图像
CN109271762A (zh) 基于滑块验证码的用户认证方法及装置
CN110855648A (zh) 一种网络攻击的预警控制方法及装置
CN112965645A (zh) 页面拖拽方法、装置、计算机设备及存储介质
CN103902913B (zh) 一种用于对web应用进行安全处理的方法与设备
WO2016188334A1 (zh) 一种用于处理应用访问数据的方法与设备
WO2020190165A1 (ru) Способ и система идентификации пользователя по траектории движения курсора
JP6608061B2 (ja) Sns情報に基づくリスクイベント認識システム、方法、電子装置及び記憶媒体
CN109299592A (zh) 人机行为特征边界构建方法、系统、服务器及存储介质
CN110276183B (zh) 反向图灵验证方法及装置、存储介质、电子设备
CN112163400A (zh) 信息处理方法及装置
CN115757075A (zh) 任务异常检测方法、装置、计算机设备及存储介质
CN109885647B (zh) 用户履历验证方法、装置、电子设备及存储介质
RU2792586C1 (ru) Способ и система идентификации пользователя по траектории движения курсора
CN115941322B (zh) 基于人工智能的攻击检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18905124

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 03/11/2020)

122 Ep: pct application non-entry in european phase

Ref document number: 18905124

Country of ref document: EP

Kind code of ref document: A1