WO2022142013A1 - 基于人工智能的ab测试方法、装置、计算机设备及介质 - Google Patents

基于人工智能的ab测试方法、装置、计算机设备及介质 Download PDF

Info

Publication number
WO2022142013A1
WO2022142013A1 PCT/CN2021/090460 CN2021090460W WO2022142013A1 WO 2022142013 A1 WO2022142013 A1 WO 2022142013A1 CN 2021090460 W CN2021090460 W CN 2021090460W WO 2022142013 A1 WO2022142013 A1 WO 2022142013A1
Authority
WO
WIPO (PCT)
Prior art keywords
result
data
output result
output
test
Prior art date
Application number
PCT/CN2021/090460
Other languages
English (en)
French (fr)
Inventor
陆琦川
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2022142013A1 publication Critical patent/WO2022142013A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling

Definitions

  • the present application relates to the technical field of artificial intelligence, in particular to an artificial intelligence-based AB testing method, device, computer equipment and medium.
  • AB testing has become an essential tool for enterprise business evaluation and business growth efficiency. By maintaining certain dimensional variables and changing several factors, different solutions can be obtained. The experimental user groups are divided into different solutions, and feedback information and related data are obtained.
  • a first aspect of the present application provides an artificial intelligence-based AB testing method, the method comprising:
  • the first xgboost model is trained based on the multi-dimensional standard data corresponding to the initial traffic distribution and the efficacy index value, and the first output result is calculated according to the prediction result output by the first xgboost model;
  • the initial traffic allocation is updated according to the first output result to obtain a first traffic allocation
  • a second xgboost model is trained based on the multi-dimensional standard data corresponding to the first traffic allocation, and the output is output according to the second xgboost model
  • the prediction result is calculated to obtain the second output result
  • a second aspect of the present application provides an artificial intelligence-based AB testing device, the device comprising:
  • a collection module configured to collect user multi-dimensional feature data and perform data cleaning on the multi-dimensional feature data to obtain multi-dimensional standard data
  • the test module is used to perform the AB test according to the initial flow distribution and obtain the efficacy index value of the AB test;
  • a training module for training the first xgboost model based on the multi-dimensional standard data corresponding to the initial traffic distribution and the efficacy index value, and calculating the first output result according to the prediction result output by the first xgboost model;
  • the training module is further configured to update the initial traffic allocation according to the first output result to obtain a first traffic allocation, and train a second xgboost model based on the multi-dimensional standard data corresponding to the first traffic allocation, and Calculate the second output result according to the prediction result output by the second xgboost model;
  • a judgment module for judging whether the second output result is better than the first output result
  • the training module is further configured to, when it is determined that the second output result is better than the first output result, iteratively update the first flow distribution according to the second output result to obtain a second flow distribution, and
  • the third xgboost model is trained based on the multi-dimensional standard data corresponding to the second traffic distribution, until the third output result calculated according to the prediction result output by the third xgboost model is greater than or equal to the preset result threshold, stop the The training of the third xgboost model;
  • a determination module configured to determine that the third output result is the target result of the AB test.
  • a third aspect of the present application provides a computer device, the computer device includes a processor, and the processor is configured to implement the following steps when executing computer-readable instructions stored in a memory:
  • the first xgboost model is trained based on the multi-dimensional standard data corresponding to the initial traffic distribution and the efficacy index value, and the first output result is calculated according to the prediction result output by the first xgboost model;
  • the initial traffic allocation is updated according to the first output result to obtain a first traffic allocation
  • a second xgboost model is trained based on the multi-dimensional standard data corresponding to the first traffic allocation, and the output is output according to the second xgboost model
  • the prediction result is calculated to obtain the second output result
  • a fourth aspect of the present application provides a computer-readable storage medium, where computer-readable instructions are stored thereon, and when the computer-readable instructions are executed by a processor, the following steps are implemented:
  • the first xgboost model is trained based on the multi-dimensional standard data corresponding to the initial traffic distribution and the efficacy index value, and the first output result is calculated according to the prediction result output by the first xgboost model;
  • the initial traffic allocation is updated according to the first output result to obtain a first traffic allocation
  • a second xgboost model is trained based on the multi-dimensional standard data corresponding to the first traffic allocation, and the output is output according to the second xgboost model
  • the prediction result is calculated to obtain the second output result
  • the artificial intelligence-based AB test method, device, computer equipment and medium described in this application perform AB test through initial flow distribution and obtain the efficacy index value of AB test; Dimension standard data and the efficacy index value train the xgboost model, and obtain the output result of the xgboost model; update the initial traffic distribution according to the output result to obtain the first traffic distribution, and iteratively train the xgboost model until the xgboost model When the output result of xgboost is greater than or equal to the preset result threshold, the output result of the xgboost model is determined as the target result of the AB test.
  • the test efficiency of the AB test is improved; in addition, only when the output result of the xgboost model is greater than or equal to the preset result threshold, the output result of the xgboost model is determined as the target of the AB test As a result, the consistency between the long-term effect and the short-term effect of the AB test results can be guaranteed.
  • FIG. 1 is a flowchart of an artificial intelligence-based AB testing method provided in Embodiment 1 of the present application.
  • FIG. 2 is a structural diagram of an artificial intelligence-based AB testing device provided in Embodiment 2 of the present application.
  • FIG. 3 is a schematic structural diagram of a computer device provided in Embodiment 3 of the present application.
  • the artificial intelligence-based AB testing method provided in the embodiments of the present application is executed by computer equipment, and correspondingly, the artificial intelligence-based AB testing device runs in the computer equipment.
  • FIG. 1 is a flowchart of an artificial intelligence-based AB testing method provided in Embodiment 1 of the present application.
  • the artificial intelligence-based AB testing method specifically includes the following steps. According to different requirements, the order of the steps in the flowchart can be changed, and some can be omitted.
  • S11 Collect user multi-dimensional feature data and perform data cleaning on the multi-dimensional feature data to obtain multi-dimensional standard data.
  • the user's multi-dimensional feature data can be collected from the user client.
  • the collecting user multi-dimensional feature data includes:
  • the user multi-dimensional feature data is collected from the buried point data.
  • KPIs Key Performance Indicators
  • the key performance indicators of the multiple dimensions may include, but are not limited to: the system version of the user client, the GPS information of the user client, the version of the application, behavior data, and the like.
  • the behavior data refers to the user's operation behavior of the APP on the user client, such as click behavior, closing behavior, sharing behavior, and the like.
  • the computer device sends the acquisition signal carrying the multi-dimensional KPI and the acquisition serial number corresponding to each dimension KPI to the user client.
  • the user client sends the feature data corresponding to each dimension KPI to the computer device in the form of buried points.
  • the computer device parses the buried point data to obtain an analysis result, and sequentially acquires feature data from the analysis results according to the collection sequence numbers corresponding to the multiple dimensional KPIs, thereby obtaining user multi-dimensional feature data.
  • the buried point data reported by the multiple user clients includes and only includes the feature data corresponding to the multi-dimensional KPIs. Collection efficiency is high.
  • performing data cleaning on the multi-dimensional feature data to obtain multi-dimensional standard data includes:
  • Multi-dimensional standard data is obtained by deleting abnormal data in the deduplicated multi-dimensional feature data.
  • the user client will be affected by the network quality when reporting the buried point data.
  • the same buried point data may be reported multiple times. Therefore, it is necessary to report the same user
  • the same-dimensional feature data is deduplicated, which helps to improve the data quality of multi-dimensional feature data and helps to improve the performance of training the xgboost model.
  • the buried point data reported by some user clients may be falsified or distorted.
  • the random forest model is used to detect abnormal data in the deduplicated multi-dimensional feature data. Random forest refers to the use of random forest algorithm to generate trees, and abnormal points can be easily detected due to numerical anomalies. Training the xgboost model based on the multi-dimensional feature data after removing the abnormal data can improve the stability of the xgboost model.
  • AB is a performance testing tool for the Apache Hypertext Transfer Protocol (HTTP). Its design intent is to describe the execution performance of the currently installed Apache, mainly to show how many requests the installed Apache can handle per second. AB can also simulate continuous online requests for a specific URL, and can also simulate several identical online requests at the same time point.
  • HTTP Apache Hypertext Transfer Protocol
  • performing the AB test according to the initial flow distribution and obtaining the efficacy index value of the AB test includes:
  • the initial traffic distribution is 8:2, that is, 800 pieces (80%) of the multi-dimensional standard data are allocated to version A, and the multi-dimensional standard data is allocated to version A.
  • the remaining 200 pieces (20%) of the standard data are allocated to version B; assuming that the data volume of the multi-dimensional standard data is 10,000, the initial traffic allocation is 9:1, that is, 9,000 pieces of the multi-dimensional standard data ( 90%) of the data is allocated to the A version, and the remaining 1000 pieces (10%) of the data in the multi-dimensional standard data are allocated to the B version.
  • the A version is the old version
  • the B version is the new version.
  • the efficacy indicators may include, but are not limited to: conversion rate, transaction rate, click-through rate, etc. According to the actual situation, the function instruction can be adjusted and modified.
  • the AB test can be closer to the actual business scenario, avoid the phenomenon of one-size-fits-all, and the AB test is more efficient.
  • the multi-dimensional standard data allocated to version A is marked with the first label
  • the multi-dimensional standard data allocated to version B is marked with the second label.
  • a supervised learning method is used to train the first xgboost model.
  • first define a training end condition, which may be that the number of iterative training exceeds a preset number of thresholds; then input the data set into the first xgboost model for iterative training; when the number of iterative training When the preset number of times threshold is exceeded, the training of the first xgboost model is stopped.
  • the first xgboost model will output a prediction result after training, and the first output result is calculated according to the prediction result output by the first xgboost model.
  • the prediction result includes: a first prediction label and a first prediction probability of the multi-dimensional standard data corresponding to each user of the A version, a second prediction probability of the multi-dimensional standard data corresponding to each user of the B version The predicted label and the second predicted probability.
  • the first prediction probability is used to represent the maximum possibility that the first xgboost model predicts the first prediction label of the multi-dimensional standard data corresponding to each user of the A version
  • the second prediction probability is used to represent the first xgboost
  • the model predicts the maximum likelihood assigned to the second predicted label of the multi-dimensional standard data corresponding to each user of version B.
  • the first predicted label and the second predicted label are used to predict whether the multi-dimensional standard data corresponding to each user belongs to the first label or the second label.
  • the calculating and obtaining the first output result according to the prediction result output by the first xgboost model may include: acquiring the first prediction label and the first prediction probability, the second prediction label and the second prediction probability in the prediction result ; Obtain the first number of the first label in the first predicted label and the second predicted label; Obtain the second number of the second label in the first predicted label and the second predicted label; Calculate The sum of the first number and the second number obtains the sum of numbers; calculate the sum of the first number and the number to obtain a first ratio value; calculate the second number and the number Count the sum to get the second scale value.
  • the first output result includes: a first label, a first scale value; a second label, a second scale value.
  • the sum of the first proportion value and the second proportion value is 1, the first proportion value represents the proportion occupied by the first label, and the second proportion value represents the proportion occupied by the second label.
  • the first label corresponds to the A version, and the second label corresponds to the B version.
  • the initial traffic allocation needs to be updated for the second round of training the xgboost model.
  • the calculation process of the second output result is the same as the calculation process of the first output result.
  • the second output result includes: a first label, a first scale value; a second label, a second scale value.
  • the sum of the first proportion value and the second proportion value is 1, the first proportion value represents the proportion occupied by the first label, and the second proportion value represents the proportion occupied by the second label.
  • the first label corresponds to the A version, and the second label corresponds to the B version.
  • the step of updating the initial traffic allocation to obtain the first traffic allocation according to the first output result includes:
  • the first flow distribution is obtained by reducing the second value on the basis of the initial flow distribution.
  • the first proportional value is smaller than the second proportional value, indicating that the B version exhibits a better effect than the A version, and the initial traffic allocation is increased, so that the first multi-dimensional standard allocated to the A version is The data volume of the data is reduced, and the data volume of the second multi-dimensional standard data allocated to the B version is increased.
  • the first proportional value is greater than the second proportional value, indicating that the A version shows a better effect than the B version, so the initial traffic allocation is reduced, so that the data amount of the first multi-dimensional standard data allocated to the A version increases, and the data is allocated to the A version.
  • the data volume of the second multi-dimensional standard data of the B version is reduced.
  • the preset result threshold is a preset critical value, which is used to indicate the end condition of the xgboost model.
  • first proportional value in the first output result is smaller than the first proportional value in the second output result, it indicates that the second output result is better than the first output result. If the first proportional value in the first output result is greater than the first proportional value in the second output result, it indicates that the second output result is worse than the first output result.
  • a first value is added on the basis of the first flow distribution to obtain a second flow distribution; when it is determined that the first output result is better than the first flow distribution
  • the second flow distribution is obtained by reducing the second value on the basis of the first flow distribution.
  • the flow is dynamically changed, and the training result model is used to verify the consistency of the data results. If there is an inconsistent result set in the experimental results, self-learning will be performed again until the model results converge, and more experiments will be carried out in the experimental results. The secondary flow is automatically adjusted.
  • the training of the third xgboost model is stopped, indicating that the AB test has ended, and the third output result of the third xgboost model can be determined as the target result.
  • the calculation process of the third output result is the same as the calculation process of the first output result.
  • the method further includes:
  • notification information is sent to multiple user clients, so that the multiple user clients update the application to the B version.
  • the third output result includes: a first label, a first scale value; a second label, a second scale value.
  • the sum of the first proportion value and the second proportion value is 1, the first proportion value represents the proportion occupied by the first label, and the second proportion value represents the proportion occupied by the second label.
  • the first label corresponds to the A version, and the second label corresponds to the B version.
  • the first scale value is smaller than the second scale value, it means that the A result is smaller than the B result.
  • the first scale value is greater than the second scale value, it means that the A result is greater than the B result.
  • the long-term effects of the AB test can be simulated.
  • the long-term effect means that the result of A is smaller than the result of B, it means that the effect of the application of version B is better than that of the application of version A; when the long-term effect means that the result of A is greater than the result of B, it means that the effect of the application of version A is better than that of the application of version B.
  • the method provided in this application is suitable for testing two different versions of the same application, to test which version is more effective for users; the method provided in this application is also applicable to testing two different solutions, Test which scheme is more effective for the user; the method provided in this application can also be applied to the testing of multiple different versions of the same application or to the testing of multiple different schemes.
  • the present application can be applied to smart scenarios such as smart government affairs, so as to promote the construction of smart cities.
  • the present application performs the AB test through initial flow distribution and obtains the efficacy index value of the AB test; trains the xgboost model based on the multi-dimensional standard data corresponding to the initial flow distribution and the efficacy index value, and obtains the output result of the xgboost model;
  • the initial traffic distribution is updated according to the output result to obtain the first traffic distribution, and the xgboost model is iteratively trained until the output result of the xgboost model is greater than or equal to the preset result threshold, and the output result of the xgboost model is determined as the AB test. target result.
  • the test efficiency of the AB test is improved; in addition, only when the output result of the xgboost model is greater than or equal to the preset result threshold, the output result of the xgboost model is determined as the target of the AB test As a result, the consistency between the long-term effect and the short-term effect of the AB test results can be guaranteed.
  • the above target results can be stored in the nodes of the blockchain.
  • FIG. 2 is a structural diagram of an artificial intelligence-based AB testing device provided in Embodiment 2 of the present application.
  • the artificial intelligence-based AB testing device 20 may include a plurality of functional modules composed of computer-readable instruction segments.
  • the computer-readable instructions of each program segment in the described artificial intelligence-based AB testing device 20 can be stored in the memory of the computer device, and executed by at least one processor to execute (detailed in Fig. 1 description) based on artificial intelligence. function of AB testing.
  • the artificial intelligence-based AB testing device 20 can be divided into multiple functional modules according to the functions it performs.
  • the functional modules may include: a collection module 201 , a test module 202 , a training module 203 , a judgment module 204 , a determination module 205 and a notification module 206 .
  • a module referred to in this application refers to a series of computer-readable instruction segments that can be executed by at least one processor and can perform fixed functions, and are stored in a memory. In this embodiment, the functions of each module will be described in detail in subsequent embodiments.
  • the collection module 201 is configured to collect user multi-dimensional feature data and perform data cleaning on the multi-dimensional feature data to obtain multi-dimensional standard data.
  • the user's multi-dimensional feature data can be collected from the user client.
  • the collecting module 201 collecting user multi-dimensional feature data includes:
  • the user multi-dimensional feature data is collected from the buried point data.
  • KPIs Key Performance Indicators
  • the key performance indicators of the multiple dimensions may include, but are not limited to: the system version of the user client, the GPS information of the user client, the version of the application, behavior data, and the like.
  • the behavior data refers to the user's operation behavior of the APP on the user client, such as click behavior, closing behavior, sharing behavior, and the like.
  • the computer device sends the acquisition signal carrying the multi-dimensional KPI and the acquisition serial number corresponding to each dimension KPI to the user client.
  • the user client sends the feature data corresponding to each dimension KPI to the computer device in the form of buried points.
  • the computer device parses the buried point data to obtain an analysis result, and sequentially acquires feature data from the analysis results according to the collection sequence numbers corresponding to the multiple dimensional KPIs, thereby obtaining user multi-dimensional feature data.
  • the buried point data reported by multiple user clients includes and only includes the feature data corresponding to the multi-dimensional KPIs. Collection efficiency is high.
  • the collection module 201 performs data cleaning on the multi-dimensional feature data to obtain multi-dimensional standard data including:
  • Multi-dimensional standard data is obtained by deleting abnormal data in the deduplicated multi-dimensional feature data.
  • the user client will be affected by the network quality when reporting the buried point data.
  • the same buried point data may be reported multiple times. Therefore, it is necessary to report the same user
  • the same-dimensional feature data is deduplicated. Deduplication can help improve the data quality of multi-dimensional feature data and improve the performance of training the xgboost model.
  • the buried point data reported by some user clients may be falsified or distorted.
  • the random forest model is used to detect abnormal data in the deduplicated multi-dimensional feature data. Random forest refers to the use of random forest algorithm to generate trees, and abnormal points can be easily detected due to numerical anomalies. Training the xgboost model based on the multi-dimensional feature data after removing the abnormal data can improve the stability of the xgboost model.
  • the test module 202 is configured to perform the AB test according to the initial flow distribution and obtain the efficacy index value of the AB test.
  • AB is a performance testing tool for the Apache Hypertext Transfer Protocol (HTTP). Its design intent is to describe the execution performance of the currently installed Apache, mainly to show how many requests the installed Apache can handle per second. AB can also simulate continuous online requests for a specific URL, and can also simulate several identical online requests at the same time point.
  • HTTP Apache Hypertext Transfer Protocol
  • the test module 202 performs the AB test according to the initial flow distribution and obtains the efficacy index value of the AB test, including:
  • the initial traffic distribution is 8:2, that is, 800 pieces (80%) of the multi-dimensional standard data are allocated to version A, and the multi-dimensional standard data is allocated to version A.
  • the remaining 200 pieces (20%) of the standard data are allocated to version B; assuming that the data volume of the multi-dimensional standard data is 10,000, the initial traffic allocation is 9:1, that is, 9,000 pieces of the multi-dimensional standard data ( 90%) of the data is allocated to the A version, and the remaining 1000 pieces (10%) of the data in the multi-dimensional standard data are allocated to the B version.
  • the A version is the old version
  • the B version is the new version.
  • the efficacy indicators may include, but are not limited to: conversion rate, transaction rate, click-through rate, etc. According to the actual situation, the function instruction can be adjusted and modified.
  • the AB test can be closer to the actual business scenario, avoid the phenomenon of one-size-fits-all, and the AB test is more efficient.
  • the training module 203 is used to train the first xgboost model based on the multi-dimensional standard data corresponding to the initial traffic distribution and the efficacy index value, and calculate the first output result according to the prediction result output by the first xgboost model .
  • the multi-dimensional standard data allocated to version A is marked with the first label
  • the multi-dimensional standard data allocated to version B is marked with the second label.
  • a supervised learning method is used to train the first xgboost model.
  • first define a training end condition, and the training end condition may be that the number of iterative training exceeds a preset number of times threshold; then input the data set into the first xgboost model for iterative training; when the number of iterative training When the preset number of times threshold is exceeded, the training of the first xgboost model is stopped.
  • the first xgboost model will output a prediction result after training, and the first output result is calculated according to the prediction result output by the first xgboost model.
  • the prediction result includes: a first prediction label and a first prediction probability of the multi-dimensional standard data corresponding to each user of the A version, a second prediction probability of the multi-dimensional standard data corresponding to each user of the B version The predicted label and the second predicted probability.
  • the first prediction probability is used to represent the maximum possibility that the first xgboost model predicts the first prediction label of the multi-dimensional standard data corresponding to each user of the A version
  • the second prediction probability is used to represent the first xgboost
  • the model predicts the maximum likelihood assigned to the second predicted label of the multi-dimensional standard data corresponding to each user of version B.
  • the first predicted label and the second predicted label are used to predict whether the multi-dimensional standard data corresponding to each user belongs to the first label or the second label.
  • the calculating and obtaining the first output result according to the prediction result output by the first xgboost model may include: acquiring the first prediction label and the first prediction probability, the second prediction label and the second prediction probability in the prediction result ; Obtain the first number of the first label in the first predicted label and the second predicted label; Obtain the second number of the second label in the first predicted label and the second predicted label; Calculate The sum of the first number and the second number obtains the sum of numbers; calculate the sum of the first number and the number to obtain a first ratio value; calculate the second number and the number Count the sum to get the second scale value.
  • the first output result includes: a first label, a first scale value; a second label, a second scale value.
  • the sum of the first proportion value and the second proportion value is 1, the first proportion value represents the proportion occupied by the first label, and the second proportion value represents the proportion occupied by the second label.
  • the first label corresponds to the A version, and the second label corresponds to the B version.
  • the training module 203 is further configured to update the initial traffic allocation according to the first output result to obtain a first traffic allocation, and train a second xgboost model based on the multi-dimensional standard data corresponding to the first traffic allocation, and calculating the second output result according to the prediction result output by the second xgboost model.
  • the initial traffic allocation needs to be updated for the second round of training the xgboost model.
  • the calculation process of the second output result is the same as the calculation process of the first output result.
  • the second output result includes: a first label, a first scale value; a second label, a second scale value.
  • the sum of the first proportion value and the second proportion value is 1, the first proportion value represents the proportion occupied by the first label, and the second proportion value represents the proportion occupied by the second label.
  • the first label corresponds to the A version, and the second label corresponds to the B version.
  • the step of updating the initial traffic allocation to obtain the first traffic allocation according to the first output result includes:
  • the first flow distribution is obtained by reducing the second value on the basis of the initial flow distribution.
  • the first proportional value is smaller than the second proportional value, indicating that the B version exhibits a better effect than the A version, and the initial traffic allocation is increased, so that the first multi-dimensional standard allocated to the A version is The data volume of the data is reduced, and the data volume of the second multi-dimensional standard data allocated to the B version is increased.
  • the first proportional value is greater than the second proportional value, indicating that the A version shows a better effect than the B version, so the initial traffic allocation is reduced, so that the data amount of the first multi-dimensional standard data allocated to the A version increases, and the data is allocated to the A version.
  • the data volume of the second multi-dimensional standard data of the B version is reduced.
  • the judging module 204 is further configured to judge whether the second output result is better than the first output result.
  • the preset result threshold is a preset critical value, which is used to indicate the end condition of the xgboost model.
  • first proportional value in the first output result is smaller than the first proportional value in the second output result, it indicates that the second output result is better than the first output result. If the first proportional value in the first output result is greater than the first proportional value in the second output result, it indicates that the second output result is worse than the first output result.
  • the training module 203 is further configured to update the first flow distribution according to the second output result to obtain a second flow distribution when it is determined that the second output result is better than the first output result, and
  • the third xgboost model is trained based on the multi-dimensional standard data corresponding to the second traffic distribution.
  • a first value is added on the basis of the first flow distribution to obtain a second flow distribution; when it is determined that the first output result is better than the first flow distribution
  • the second flow distribution is obtained by reducing the second value on the basis of the first flow distribution.
  • the flow is dynamically changed, and the training result model is used to verify the consistency of the data results. If there is an inconsistent result set in the experimental results, self-learning will be performed again until the model results converge, and more experiments will be carried out in the experimental results. The secondary flow is automatically adjusted.
  • the determining module 205 is configured to determine that the third output result is the target result of the AB test when the third output result calculated according to the prediction result output by the third xgboost model is greater than or equal to a preset result threshold.
  • the training of the third xgboost model is stopped, indicating that the AB test has ended, and the third output result of the third xgboost model can be determined as the target result.
  • the calculation process of the third output result is the same as the calculation process of the first output result.
  • the notification module 206 is further configured to obtain the A result and the B result in the target result after determining that the third output result is the target result of the AB test; compare the A result and the B result ; When it is determined that the A result is less than the B result, send notification information to multiple user clients, so that the multiple user clients update the application to the B version.
  • the third output result includes: a first label, a first scale value; a second label, a second scale value.
  • the sum of the first proportion value and the second proportion value is 1, the first proportion value represents the proportion occupied by the first label, and the second proportion value represents the proportion occupied by the second label.
  • the first label corresponds to the A version, and the second label corresponds to the B version.
  • the first scale value is smaller than the second scale value, it means that the A result is smaller than the B result.
  • the first scale value is greater than the second scale value, it means that the A result is greater than the B result.
  • the long-term effects of the AB test can be simulated.
  • the long-term effect means that the result of A is smaller than the result of B, it means that the effect of the application of version B is better than that of the application of version A; when the long-term effect means that the result of A is greater than the result of B, it means that the effect of the application of version A is better than that of the application of version B.
  • the device provided in this application is suitable for testing two different versions of the same application, to test which version is more effective for the user; the device provided in this application is also suitable for testing two different solutions, Test which scheme is more effective for the user; the device provided in this application can also be applied to the testing of multiple different versions of the same application or to the testing of multiple different schemes.
  • the present application can be applied to smart scenarios such as smart government affairs, so as to promote the construction of smart cities.
  • the present application performs the AB test through initial flow distribution and obtains the efficacy index value of the AB test; trains the xgboost model based on the multi-dimensional standard data corresponding to the initial flow distribution and the efficacy index value, and obtains the output result of the xgboost model;
  • the initial traffic distribution is updated according to the output result to obtain the first traffic distribution, and the xgboost model is iteratively trained until the output result of the xgboost model is greater than or equal to the preset result threshold, and the output result of the xgboost model is determined as the AB test. target result.
  • the test efficiency of the AB test is improved; in addition, only when the output result of the xgboost model is greater than or equal to the preset result threshold, the output result of the xgboost model is determined as the target of the AB test As a result, the consistency between the long-term effect and the short-term effect of the AB test results can be guaranteed.
  • the above target results can be stored in the nodes of the blockchain.
  • the computer device 3 includes a memory 31 , at least one processor 32 , at least one communication bus 33 and a transceiver 34 .
  • FIG. 3 does not constitute a limitation of the embodiments of the present application, and may be a bus-type structure or a star-shaped structure. more or less other hardware or software, or a different arrangement of components is shown.
  • the computer device 3 is a computer device that can automatically perform numerical calculation and/or information processing according to pre-set or stored instructions, and its hardware includes but is not limited to microprocessors, application-specific integrated circuits , programmable gate arrays, digital processors and embedded devices.
  • the computer equipment 3 may also include client equipment, including but not limited to any electronic product that can interact with the client through a keyboard, a mouse, a remote control, a touchpad or a voice-activated device, etc., for example, Personal computers, tablets, smartphones, digital cameras, etc.
  • the memory 31 stores computer-readable instructions, which when executed by the at least one processor 32 implement all or all of the artificial intelligence-based AB testing methods described above. some steps. Described memory 31 comprises read-only memory (Read-Only Memory, ROM), programmable read-only memory (Programmable Read-Only Memory, PROM), erasable programmable read-only memory (Erasable Programmable Read-Only Memory, EPROM) , One-time Programmable Read-Only Memory (OTPROM), Electronically-Erasable Programmable Read-Only Memory (EEPROM), Compact Disc Read- Only Memory, CD-ROM) or other optical disk storage, magnetic disk storage, magnetic tape storage, or any other computer-readable medium that can be used to carry or store data.
  • the computer-readable storage medium may be non-volatile or volatile.
  • the computer-readable storage medium may mainly include a storage program area and a storage data area, wherein the storage program area may store an operating system, an application program required by at least one function, and the like; The data created by the use of the node, etc.
  • the blockchain referred to in this application is a new application mode of computer technologies such as distributed data storage, point-to-point transmission, consensus mechanism, and encryption algorithm.
  • Blockchain essentially a decentralized database, is a series of data blocks associated with cryptographic methods. Each data block contains a batch of network transaction information to verify its Validity of information (anti-counterfeiting) and generation of the next block.
  • the blockchain can include the underlying platform of the blockchain, the platform product service layer, and the application service layer.
  • the at least one processor 32 is a control core (Control Unit) of the computer device 3, using various interfaces and lines to connect various components of the entire computer device 3, and by running or executing storage in the computer device 3
  • the programs or modules in the memory 31 and the data stored in the memory 31 are called to perform various functions of the computer device 3 and process data.
  • the at least one processor 32 executes the computer-readable instructions stored in the memory, all or part of the steps of the artificial intelligence-based AB testing method described in the embodiments of the present application are implemented; or the artificial intelligence-based AB testing method is implemented; Test all or part of the functionality of the device.
  • the at least one processor 32 may be composed of integrated circuits, for example, may be composed of a single packaged integrated circuit, or may be composed of multiple integrated circuits packaged with the same function or different functions, including one or more central processing units. (Central Processing unit, CPU), microprocessor, digital processing chip, graphics processor and combination of various control chips, etc.
  • CPU Central Processing unit
  • microprocessor digital processing chip
  • graphics processor and combination of various control chips, etc.
  • the at least one communication bus 33 is configured to enable connection communication between the memory 31 and the at least one processor 32 and the like.
  • the computer device 3 may also include a power source (such as a battery) for supplying power to various components.
  • the power source may be logically connected to the at least one processor 32 through a power management device, so as to be implemented by the power management device Manage charging, discharging, and power management functions.
  • the power source may also include one or more DC or AC power sources, recharging devices, power failure detection circuits, power converters or inverters, power status indicators, and any other components.
  • the computer device 3 may also include a variety of sensors, Bluetooth modules, Wi-Fi modules, etc., which will not be repeated here.
  • the above-mentioned integrated units implemented in the form of software functional modules may be stored in a computer-readable storage medium.
  • the above-mentioned software function modules are stored in a storage medium, and include several instructions to make a computer device (which may be a personal computer, a computer device, or a network device, etc.) or a processor (processor) to execute the methods described in the various embodiments of the present application. part.
  • modules described as separate components may or may not be physically separated, and the components shown as modules may or may not be physical units, and may be located in one place or distributed to multiple network units. Some or all of the modules may be selected according to actual needs to achieve the purpose of the solution in this embodiment.
  • each functional module in each embodiment of the present application may be integrated into one processing unit, or each unit may exist physically alone, or two or more units may be integrated into one unit.
  • the above-mentioned integrated units can be implemented in the form of hardware, or can be implemented in the form of hardware plus software function modules.

Abstract

提供一种基于人工智能的AB测试方法、装置、计算机设备及介质,包括:清洗多维度特征数据为多维度标准数据(S11);根据初始流量分配执行AB测试得到功效指标值(S12);基于初始流量分配对应的多维度标准数据及功效指标值训练第一xgboost模型(S13);根据第一xgboost模型的第一输出结果更新第一流量分配,基于第一流量分配对应的多维度标准数据训练第二xgboost模型(S14);当第二xgboost模型的第二输出结果优于第一输出结果,根据第二输出结果更新第二流量分配并训练第三xgboost模型(S16);当第三xgboost模型的第三输出结果大于等于预设结果阈值时,确定第三输出结果为AB测试的目标结果(S17)。本申请能够提高AB测试的测试效率,且保证AB测试结果的长期效应与短期效应的一致性。

Description

基于人工智能的AB测试方法、装置、计算机设备及介质
本申请要求于2020年12月30日提交中国专利局、申请号为202011614892.6,发明名称为“基于人工智能的AB测试方法、装置、计算机设备及介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能技术领域,具体涉及一种基于人工智能的AB测试方法、装置、计算机设备及介质。
背景技术
AB测试已成为企业业务评估与业务增长效能的必备工具,通过保持确定维度变量,改变若干因素来得出不同方案,对实验用户分群分别投放不通方案,并获取反馈信息和相关数据。
发明人在实现本发明的过程中发现,传统的AB测试,需要进行AB测试方案设计、AB测试多方案场景代码编写等一系列繁琐的过程,导致AB测试效率较低;此外,通过多长期多次的AB测试结果的分析,发现UI/UE的变更,经常会对用户的行为产生较大的影响,但当用户习惯新的业务流程后,带来的业务效果未必与功能初期上线的结果一致,即长期AB测试结果与短期AB测试结果不统一,AB测试准确率较差。
发明内容
鉴于以上内容,有必要提出一种基于人工智能的AB测试方法、装置、计算机设备及介质,能够提高AB测试的测试效率,且保证AB测试结果的长期效应与短期效应的一致性。
本申请的第一方面提供一种基于人工智能的AB测试方法,所述方法包括:
采集用户多维度特征数据并对所述多维度特征数据进行数据清洗得到多维度标准数据;
根据初始流量分配执行AB测试并获取AB测试的功效指标值;
基于所述初始流量分配对应的多维度标准数据及所述功效指标值训练第一xgboost模型,并根据所述第一xgboost模型输出的预测结果计算得到第一输出结果;
根据所述第一输出结果对所述初始流量分配进行更新得到第一流量分配,并基于所述第一流量分配对应的多维度标准数据训练第二xgboost模型,并根据所述第二xgboost模型输出的预测结果计算得到第二输出结果;
判断所述第二输出结果是否优于所述第一输出结果;
当确定所述第二输出结果优于所述第一输出结果时,迭代根据所述第二输出结果对所述第一流量分配进行更新得到第二流量分配,并基于所述第二流量分配对应的多维度标准数据训练第三xgboost模型,直至根据所述第三xgboost模型输出的预测结果计算得到的第三输出结果大于或者等于预设结果阈值时,停止所述第三xgboost模型的训练;
确定所述第三输出结果为AB测试的目标结果。
本申请的第二方面提供一种基于人工智能的AB测试装置,所述装置包括:
采集模块,用于采集用户多维度特征数据并对所述多维度特征数据进行数据清洗得到多维度标准数据;
测试模块,用于根据初始流量分配执行AB测试并获取AB测试的功效指标值;
训练模块,用于基于所述初始流量分配对应的多维度标准数据及所述功效指标值训练第一xgboost模型,并根据所述第一xgboost模型输出的预测结果计算得到第一输出结果;
所述训练模块,还用于根据所述第一输出结果对所述初始流量分配进行更新得到第一流量分配,并基于所述第一流量分配对应的多维度标准数据训练第二xgboost模型,并根据所述第二xgboost模型输出的预测结果计算得到第二输出结果;
判断模块,用于判断所述第二输出结果是否优于所述第一输出结果;
所述训练模块,还用于当确定所述第二输出结果优于所述第一输出结果时,迭代根据所述第二输出结果对所述第一流量分配进行更新得到第二流量分配,并基于所述第二流量分配对应的多维度标准数据训练第三xgboost模型,直至根据所述第三xgboost模型输出的预测结果计算得到的第三输出结果大于或者等于预设结果阈值时,停止所述第三xgboost模型的训练;
确定模块,用于确定所述第三输出结果为AB测试的目标结果。
本申请的第三方面提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机可读指令时实现以下步骤:
采集用户多维度特征数据并对所述多维度特征数据进行数据清洗得到多维度标准数据;
根据初始流量分配执行AB测试并获取AB测试的功效指标值;
基于所述初始流量分配对应的多维度标准数据及所述功效指标值训练第一xgboost模型,并根据所述第一xgboost模型输出的预测结果计算得到第一输出结果;
根据所述第一输出结果对所述初始流量分配进行更新得到第一流量分配,并基于所述第一流量分配对应的多维度标准数据训练第二xgboost模型,并根据所述第二xgboost模型输出的预测结果计算得到第二输出结果;
判断所述第二输出结果是否优于所述第一输出结果;
当确定所述第二输出结果优于所述第一输出结果时,迭代根据所述第二输出结果对所述第一流量分配进行更新得到第二流量分配,并基于所述第二流量分配对应的多维度标准数据训练第三xgboost模型,直至根据所述第三xgboost模型输出的预测结果计算得到的第三输出结果大于或者等于预设结果阈值时,停止所述第三xgboost模型的训练;
确定所述第三输出结果为AB测试的目标结果。
本申请的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现以下步骤:
采集用户多维度特征数据并对所述多维度特征数据进行数据清洗得到多维度标准数据;
根据初始流量分配执行AB测试并获取AB测试的功效指标值;
基于所述初始流量分配对应的多维度标准数据及所述功效指标值训练第一xgboost模型,并根据所述第一xgboost模型输出的预测结果计算得到第一输出结果;
根据所述第一输出结果对所述初始流量分配进行更新得到第一流量分配,并基于所述第一流量分配对应的多维度标准数据训练第二xgboost模型,并根据所述第二xgboost模型输出的预测结果计算得到第二输出结果;
判断所述第二输出结果是否优于所述第一输出结果;
当确定所述第二输出结果优于所述第一输出结果时,迭代根据所述第二输出结果对所述第一流量分配进行更新得到第二流量分配,并基于所述第二流量分配对应的多维度标准数据训练第三xgboost模型,直至根据所述第三xgboost模型输出的预测结果计算得到的第三输出结果大于或者等于预设结果阈值时,停止所述第三xgboost模型的训练;
确定所述第三输出结果为AB测试的目标结果。
综上所述,本申请所述的基于人工智能的AB测试方法、装置、计算机设备及介质,通过初始流量分配执行AB测试并获取AB测试的功效指标值;基于所述初始流量分配对应的多维度标准数据及所述功效指标值训练xgboost模型,并获取所述xgboost模型的输出结果;根据所述输出结果对所述初始流量分配进行更新得到第一流量分配,并迭代训练xgboost模型直至xgboost模型的输出结果大于或者等于预设结果阈值时,将xgboost模型的输出结果确定为AB测试的目标结果。通过不断迭代训练xgboost模型从而自动模拟AB测试,提高了AB测试的测试效率;此外,只有在xgboost模型的输出结果大于或者等于预设结果阈值时,将xgboost模型的输出结果确定为AB测试的目标结果,能够保证AB测试结果的长期效应与短期效应的一致性。
附图说明
图1是本申请实施例一提供的基于人工智能的AB测试方法的流程图。
图2是本申请实施例二提供的基于人工智能的AB测试装置的结构图。
图3是本申请实施例三提供的计算机设备的结构示意图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施例对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
本申请实施例提供的基于人工智能的AB测试方法由计算机设备执行,相应地,基于人工智能的AB测试装置运行于计算机设备中。
图1是本申请实施例一提供的基于人工智能的AB测试方法的流程图。所述基于人工智能的AB测试方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,采集用户多维度特征数据并对所述多维度特征数据进行数据清洗得到多维度标准数据。
可以从用户客户端中采集用户的多维度特征数据。
由于不同用户的同一维度特征数据可能相差较大,因此需要对采集到的多维度特征数据进行数据清洗得到多维度标准数据,便于后续基于所述多维度标准数据进行机器学习与训练,从而主动的进行AB测试。
在一个可选的实施例中,所述采集用户多维度特征数据包括:
定义多维度关键绩效指标并发送所述多维度关键绩效指标至所述多个用户客户端;
获取所述多个用户客户端根据所述多维度关键绩效指标上报的埋点数据;
从所述埋点数据中采集所述用户多维度特征数据。
该可选的实施例中,为了精准且高效的获取用户多维度特征数据,事先定义多个维度的关键绩效指标(Key Performance Indicator,KPI),使得用户客户端能够根据多个维度的KPI自主上报埋点数据,从而使得计算机设备从所述埋点数据中采集用户多维度特征数据。其中,所述多个维度的关键绩效指标可以包括,但不限于:用户客户端的系统版本、用户客户端的GPS信息、应用的版本、行为数据等。所述行为数据是指用户在用户客户端上的APP的操作行为,例如,点击行为、关闭行为、分享行为等。
计算机设备发送携带有多维度KPI及每个维度KPI对应的采集序号的采集信号至用户客户端。用户客户端响应于接收到的采集信号,将每个维度KPI对应的特征数据通过埋点的形式发送给计算机设备。计算机设备响应于接收到的埋点数据,对埋点数据进行解析得到解析结果,并按照多个维度KPI对应的采集序号从所述解析结果中依次获取特征数据,从而得到用户多维度特征数据。
在上述实施例中,通过发送多维度KPI至多个用户客户端,使得多个用户客户端上报的埋点数据中包括且仅包括了与多维度KPI对应的特征数据,因而用户多维度特征数据的采集效率高。
在一个可选的实施例中,所述对所述多维度特征数据进行数据清洗得到多维度标准数据包括:
对所述多维度特征数据进行去重处理;
采用随机森林模型检测去重处理后的多维度特征数据中的异常数据;
删除所述去重处理后的多维度特征数据中的异常数据得到多维度标准数据。
该可选的实施例中,用户客户端在上报埋点数据时会受到网络质量的影响,当网络质量较差时,可能会重复多次上报同一个埋点数据,因此,需要对同一个用户的同维度特征数据进行去重处理,去重处理有助于提高多维度特征数据的数据质量,有助于提高训练xgboost模型的性能。
在风控场景中,有些用户客户端上报的埋点数据会存在造假或者失真,采用随机森林模型检测去重处理后的多维度特征数据中的异常数据。随机森林是指利用随机森林算法生成树,异常点会因为数值异常很容易被检测出来。基于去掉异常数据后的多维度特征数据训练xgboost模型,能够提高xgboost模型的稳定性。
S12,根据初始流量分配执行AB测试并获取AB测试的功效指标值。
AB是Apache超文本传输协议(HTTP)的性能测试工具。其设计意图是描绘当前所安装的Apache的执行性能,主要是显示安装的Apache每秒可以处理多少个请求。AB还可以针对某个特定的URL仿真出连续的联机请求,同时还可以仿真出同时间点数个相同的联机请求。
在一个可选的实施例中,所述根据初始流量分配执行AB测试并获取AB测试的功效指标值包括:
判断多维度标准数据的数据量;
根据预设数据量范围与流量分配比例之间的映射表确定与所述数据量对应的目标流量分配比例,作为所述初始流量分配;
按照所述初始流量分配切分所述多维度标准数据为第一多维度标准数据和第二多维度标准数据;
将所述第一多维度标准数据分配给A版本及将所述第二多维度标准数据分配给B版本并执行模拟测试过程;
获取模拟测试结束后的测试数据并根据所述测试数据计算功效指标。
示例性的,假设多维度标准数据的数据量为1000,则初始流量分配为8:2,即将所述多维度标准数据中的800条(80%)数据分配给A版本,将所述多维度标准数据中剩余的200条(20%)的数据分配给B版本;假设多维度标准数据的数据量为10000,则初始流量分配为9:1,即将所述多维度标准数据中的9000条(90%)的数据分配给A版本,将所述多维度标准数据中剩余的1000条(10%)的数据分配给B版本。其中,A版本为旧版本,B版本为新版本。
其中,功效指标可以包括,但不限于:转化率,成交率,点击率等。依据实际情况,可以对功效指令进行调整与修改。
该可选的实施例中,由于应用更新版本后,并不能确定新版本应用是否会带来好的或者不好的影响,多维度标准数据的数据量越大,则将较多的数据分配给A版本,将较少的数据分配给B版本;多维度标准数据的数据量越大,则将较多的数据分配给A版本,将较少的数据分配给B版本。本实施例中通过根据多维度标准数据的数据量确定初始流量分配并执行AB测试,能够使得AB测试更贴近实际业务场景,避免一刀切的现象,AB测试效率更高。
S13,基于所述初始流量分配对应的多维度标准数据及所述功效指标值训练第一xgboost模型,并根据所述第一xgboost模型输出的预测结果计算得到第一输出结果。
将分配给A版本的多维度标准数据打上第一标签,将分配给B版本的多维度标准数据打上第二标签。将所述第一标签及对应的第一多维度标准数据、所述第二标签及对应的第二多维度标准数据和功效指标值作为数据集,采用有监督的学习方式训练第一xgboost模型。具体实施时,首先定义训练结束条件,所述训练结束条件可以是迭代训练的次数超过预设次数阈值;接着输入所述数据集至所述第一xgboost模型中进行迭代训练;当迭代训练的次数超过预设次数阈值时,停止对所述第一xgboost模型的训练。所述第一xgboost模型在训练结束后会输出预测结果,根据所述第一xgboost模型输出的预测结果计算得到所述第一输出结果。其中,所述预测结果包括:分配给A版本的每一个用户对应的多维度标准数据的第一预测标签 及第一预测概率,分配给B版本的每一个用户对应的多维度标准数据的第二预测标签及第二预测概率。
所述第一预测概率用以表示第一xgboost模型预测分配给A版本的每一个用户对应的多维度标准数据的第一预测标签的最大可能性,所述第二预测概率用以表示第一xgboost模型预测分配给B版本的每一个用户对应的多维度标准数据的第二预测标签的最大可能性。所述第一预测标签和所述第二预测标签用以预测每一个用户对应的多维度标准数据属于所述第一标签还是所述第二标签。
所述根据所述第一xgboost模型输出的预测结果计算得到所述第一输出结果可以包括:获取所述预测结果中的第一预测标签及第一预测概率,第二预测标签及第二预测概率;获取所述第一预测标签及所述第二预测标签中第一标签的第一个数;获取所述第一预测标签及所述第二预测标签中第二标签的第二个数;计算所述第一个数与所述第二个数之和得到个数和;计算所述第一个数与所述个数和得到第一比例值;计算所述第二个数和所述个数和得到第二比例值。
所述第一输出结果包括:第一标签,第一比例值;第二标签,第二比例值。所述第一比例值与所述第二比例值之和为1,第一比例值代表第一标签所占的比例,第二比例值代表第二标签所占的比例。所述第一标签与A版本对应,所述第二标签与B版本对应。
S14,根据所述第一输出结果对所述初始流量分配进行更新得到第一流量分配,并基于所述第一流量分配对应的多维度标准数据训练第二xgboost模型,并根据所述第二xgboost模型输出的预测结果计算得到第二输出结果。
在第一轮训练第一xgboost模型之后,需要对初始流量分配进行更新,以便进行第二轮xgboost模型的训练。
所述第二输出结果的计算过程同所述第一输出结果的计算过程。所述第二输出结果包括:第一标签,第一比例值;第二标签,第二比例值。所述第一比例值与所述第二比例值之和为1,第一比例值代表第一标签所占的比例,第二比例值代表第二标签所占的比例。所述第一标签与A版本对应,所述第二标签与B版本对应。
在一个可选的实施例中,所述根据所述第一输出结果对所述初始流量分配进行更新得到第一流量分配包括:
判断所述第一比例值是否小于所述第二比例值;
当确定所述第一比例值小于所述第二比例值时,在所述初始流量分配的基础上增加第一值得到第一流量分配;
当确定所述第一比例值大于所述第二比例值时,在所述初始流量分配的基础上减少第二值得到第一流量分配。
该可选的实施例中,第一比例值小于所述第二比例值,表明B版本表现出了优于A版本的效应,则增加初始流量分配,使得分配给A版本的第一多维度标准数据的数据量减少,分配给B版本的第二多维度标准数据的数据量增加。第一比例值大于所述第二比例值,表明A版本表现出了优于B版本的效应,则减少初始流量分配,使得分配给A版本的第一多维度标准数据的数据量增加,分配给B版本的第二多维度标准数据的数据量减少。
S15,判断所述第二输出结果是否优于所述第一输出结果。
其中,所述预设结果阈值为预先设置的临界值,用以表示xgboost模型的结束条件。
如果第一输出结果中的第一比例值小于第二输出结果中的第一比例值,则表明第二输出结果优于第一输出结果。如果第一输出结果中的第一比例值打于第二输出结果中的第一比例值,则表明第二输出结果差于第一输出结果。
S16,当确定所述第二输出结果优于所述第一输出结果时,根据所述第二输出结果对所述第一流量分配进行更新得到第二流量分配,并基于所述第二流量分配对应的多维度标准数据训练第三xgboost模型。
当确定所述第二输出结果优于所述第一输出结果时,在所述第一流量分配的基础上增加 第一值得到第二流量分配;当确定所述第一输出结果优于所述第二输出结果时,在所述第一流量分配的基础上减少第二值得到第二流量分配。
在根据所述第二输出结果对所述第一流量分配进行更新得到第二流量分配之后,基于所述第二流量分配对应的多维度标准数据训练第三xgboost模型,并根据所述第三xgboost模型输出的预测结果计算得到第三输出结果。判断所述第二输出结果是否优于所述第二输出结果及判断第三输出结果是否大于预设结果阈值。当判断所述第二输出结果优于所述第二输出结果且第三输出结果小于预设结果阈值时,根据所述第三输出结果对所述第二流量分配进行更新得到第三流量分配,并基于所述第三流量分配对应的多维度标准数据训练第四xgboost模型,以此类推。当判断所述第二输出结果优于所述第二输出结果且判断第三输出结果大于或者等于预设结果阈值时,停止所述第三xgboost模型的训练。
对于统计功效更优的版本,进行流量动态变更,并使用训练结果模型验证数据结果一致性,若实验结果出现不一致结果集,将重新进行自学习,直至模型结果收敛,并且实验结果中将进行多次流量自动调整。
S17,当根据所述第三xgboost模型输出的预测结果计算得到的第三输出结果大于或者等于预设结果阈值时,确定所述第三输出结果为AB测试的目标结果。
停止对所述第三xgboost模型的训练,表明AB测试已经结束,可以将第三xgboost模型的第三输出结果确定为目标结果。其中,所述第三输出结果的计算过程同所述第一输出结果的计算过程。
在一个可选的实施例中,在所述确定所述第三输出结果为AB测试的目标结果之后,所述方法还包括:
获取所述目标结果中的A结果及B结果;
比较所述A结果及所述B结果;
当确定所述A结果小于所述B结果,发送通知信息至多个用户客户端,使得所述多个用户客户端更新应用为B版本。
所述第三输出结果包括:第一标签,第一比例值;第二标签,第二比例值。所述第一比例值与所述第二比例值之和为1,第一比例值代表第一标签所占的比例,第二比例值代表第二标签所占的比例。所述第一标签与A版本对应,所述第二标签与B版本对应。当第一比例值小于第二比例值时,表示A结果小于B结果。当第一比例值大于第二比例值时,表示A结果大于B结果。
在多次训练xgboost模型之后,即可模拟AB测试的长期效应。当长期效应表示A结果小于B结果,则表明B版本应用的效应优于A版本应用的效应;当长期效应表示A结果大于B结果,则表明A版本应用的效应优于B版本应用的效应。
当长期效应表明某个版本优于另一个版本,将可以发送通知信息至用户客户端,通知用户客户端更新版本至更优版本。
需要说明的是,本申请提供的方法适用于同一个应用的两个不同的版本的测试,测试哪一个版本对用户更有效;本申请提供的方法还可适用于两个不同的方案的测试,测试哪一个方案对用户更有效;本申请提供的方法还可适用于同一个应用的多个不同的版本的测试或者用于多个不同的方案的测试。
综上,本申请可应用于智慧政务等智慧场景中,从而推动智慧城市的建设。本申请通过初始流量分配执行AB测试并获取AB测试的功效指标值;基于所述初始流量分配对应的多维度标准数据及所述功效指标值训练xgboost模型,并获取所述xgboost模型的输出结果;根据所述输出结果对所述初始流量分配进行更新得到第一流量分配,并迭代训练xgboost模型直至xgboost模型的输出结果大于或者等于预设结果阈值时,将xgboost模型的输出结果确定为AB测试的目标结果。通过不断迭代训练xgboost模型从而自动模拟AB测试,提高了AB测试的测试效率;此外,只有在xgboost模型的输出结果大于或者等于预设结果阈值时,将xgboost模型的输出结果确定为AB测试的目标结果,能够保证AB测试结果的长期效应与短 期效应的一致性。
需要强调的是,为进一步保证上述目标结果的私密性和安全性,上述目标结果可存储于区块链的节点中。
图2是本申请实施例二提供的基于人工智能的AB测试装置的结构图。
在一些实施例中,所述基于人工智能的AB测试装置20可以包括多个由计算机可读指令段所组成的功能模块。所述基于人工智能的AB测试装置20中的各个程序段的计算机可读指令可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)基于人工智能的AB测试的功能。
本实施例中,所述基于人工智能的AB测试装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:采集模块201、测试模块202、训练模块203、判断模块204、确定模块205及通知模块206。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述采集模块201,用于采集用户多维度特征数据并对所述多维度特征数据进行数据清洗得到多维度标准数据。
可以从用户客户端中采集用户的多维度特征数据。
由于不同用户的同一维度特征数据可能相差较大,因此需要对采集到的多维度特征数据进行数据清洗得到多维度标准数据,便于后续基于所述多维度标准数据进行机器学习与训练,从而主动的进行AB测试。
在一个可选的实施例中,所述采集模块201采集用户多维度特征数据包括:
定义多维度关键绩效指标并发送所述多维度关键绩效指标至所述多个用户客户端;
获取所述多个用户客户端根据所述多维度关键绩效指标上报的埋点数据;
从所述埋点数据中采集所述用户多维度特征数据。
该可选的实施例中,为了精准且高效的获取用户多维度特征数据,事先定义多个维度的关键绩效指标(Key Performance Indicator,KPI),使得用户客户端能够根据多个维度的KPI自主上报埋点数据,从而使得计算机设备从所述埋点数据中采集用户多维度特征数据。其中,所述多个维度的关键绩效指标可以包括,但不限于:用户客户端的系统版本、用户客户端的GPS信息、应用的版本、行为数据等。所述行为数据是指用户在用户客户端上的APP的操作行为,例如,点击行为、关闭行为、分享行为等。
计算机设备发送携带有多维度KPI及每个维度KPI对应的采集序号的采集信号至用户客户端。用户客户端响应于接收到的采集信号,将每个维度KPI对应的特征数据通过埋点的形式发送给计算机设备。计算机设备响应于接收到的埋点数据,对埋点数据进行解析得到解析结果,并按照多个维度KPI对应的采集序号从所述解析结果中依次获取特征数据,从而得到用户多维度特征数据。
在上述实施例中,通过发送多维度KPI至多个用户客户端,使得多个用户客户端上报的埋点数据中包括且仅包括了与多维度KPI对应的特征数据,因而用户多维度特征数据的采集效率高。
在一个可选的实施例中,所述采集模块201对所述多维度特征数据进行数据清洗得到多维度标准数据包括:
对所述多维度特征数据进行去重处理;
采用随机森林模型检测去重处理后的多维度特征数据中的异常数据;
删除所述去重处理后的多维度特征数据中的异常数据得到多维度标准数据。
该可选的实施例中,用户客户端在上报埋点数据时会受到网络质量的影响,当网络质量较差时,可能会重复多次上报同一个埋点数据,因此,需要对同一个用户的同维度特征数据进行去重处理,去重处理有助于提高多维度特征数据的数据质量,有助于提高训练xgboost模型的性能。
在风控场景中,有些用户客户端上报的埋点数据会存在造假或者失真,采用随机森林模型检测去重处理后的多维度特征数据中的异常数据。随机森林是指利用随机森林算法生成树,异常点会因为数值异常很容易被检测出来。基于去掉异常数据后的多维度特征数据训练xgboost模型,能够提高xgboost模型的稳定性。
所述测试模块202,用于根据初始流量分配执行AB测试并获取AB测试的功效指标值。
AB是Apache超文本传输协议(HTTP)的性能测试工具。其设计意图是描绘当前所安装的Apache的执行性能,主要是显示安装的Apache每秒可以处理多少个请求。AB还可以针对某个特定的URL仿真出连续的联机请求,同时还可以仿真出同时间点数个相同的联机请求。
在一个可选的实施例中,所述测试模块202根据初始流量分配执行AB测试并获取AB测试的功效指标值包括:
判断多维度标准数据的数据量;
根据预设数据量范围与流量分配比例之间的映射表确定与所述数据量对应的目标流量分配比例,作为所述初始流量分配;
按照所述初始流量分配切分所述多维度标准数据为第一多维度标准数据和第二多维度标准数据;
将所述第一多维度标准数据分配给A版本及将所述第二多维度标准数据分配给B版本并执行模拟测试过程;
获取模拟测试结束后的测试数据并根据所述测试数据计算功效指标。
示例性的,假设多维度标准数据的数据量为1000,则初始流量分配为8:2,即将所述多维度标准数据中的800条(80%)数据分配给A版本,将所述多维度标准数据中剩余的200条(20%)的数据分配给B版本;假设多维度标准数据的数据量为10000,则初始流量分配为9:1,即将所述多维度标准数据中的9000条(90%)的数据分配给A版本,将所述多维度标准数据中剩余的1000条(10%)的数据分配给B版本。其中,A版本为旧版本,B版本为新版本。
其中,功效指标可以包括,但不限于:转化率,成交率,点击率等。依据实际情况,可以对功效指令进行调整与修改。
该可选的实施例中,由于应用更新版本后,并不能确定新版本应用是否会带来好的或者不好的影响,多维度标准数据的数据量越大,则将较多的数据分配给A版本,将较少的数据分配给B版本;多维度标准数据的数据量越大,则将较多的数据分配给A版本,将较少的数据分配给B版本。本实施例中通过根据多维度标准数据的数据量确定初始流量分配并执行AB测试,能够使得AB测试更贴近实际业务场景,避免一刀切的现象,AB测试效率更高。
所述训练模块203,用于基于所述初始流量分配对应的多维度标准数据及所述功效指标值训练第一xgboost模型,并根据所述第一xgboost模型输出的预测结果计算得到第一输出结果。
将分配给A版本的多维度标准数据打上第一标签,将分配给B版本的多维度标准数据打上第二标签。将所述第一标签及对应的第一多维度标准数据、所述第二标签及对应的第二多维度标准数据和功效指标值作为数据集,采用有监督的学习方式训练第一xgboost模型。具体实施时,首先定义训练结束条件,所述训练结束条件可以是迭代训练的次数超过预设次数阈值;接着输入所述数据集至所述第一xgboost模型中进行迭代训练;当迭代训练的次数超过预设次数阈值时,停止对所述第一xgboost模型的训练。所述第一xgboost模型在训练结束后会输出预测结果,根据所述第一xgboost模型输出的预测结果计算得到所述第一输出结果。其中,所述预测结果包括:分配给A版本的每一个用户对应的多维度标准数据的第一预测标签及第一预测概率,分配给B版本的每一个用户对应的多维度标准数据的第二预测标签及第二预测概率。
所述第一预测概率用以表示第一xgboost模型预测分配给A版本的每一个用户对应的多 维度标准数据的第一预测标签的最大可能性,所述第二预测概率用以表示第一xgboost模型预测分配给B版本的每一个用户对应的多维度标准数据的第二预测标签的最大可能性。所述第一预测标签和所述第二预测标签用以预测每一个用户对应的多维度标准数据属于所述第一标签还是所述第二标签。
所述根据所述第一xgboost模型输出的预测结果计算得到所述第一输出结果可以包括:获取所述预测结果中的第一预测标签及第一预测概率,第二预测标签及第二预测概率;获取所述第一预测标签及所述第二预测标签中第一标签的第一个数;获取所述第一预测标签及所述第二预测标签中第二标签的第二个数;计算所述第一个数与所述第二个数之和得到个数和;计算所述第一个数与所述个数和得到第一比例值;计算所述第二个数和所述个数和得到第二比例值。所述第一输出结果包括:第一标签,第一比例值;第二标签,第二比例值。所述第一比例值与所述第二比例值之和为1,第一比例值代表第一标签所占的比例,第二比例值代表第二标签所占的比例。所述第一标签与A版本对应,所述第二标签与B版本对应。
所述训练模块203,还用于根据所述第一输出结果对所述初始流量分配进行更新得到第一流量分配,并基于所述第一流量分配对应的多维度标准数据训练第二xgboost模型,并根据所述第二xgboost模型输出的预测结果计算得到第二输出结果。
在第一轮训练第一xgboost模型之后,需要对初始流量分配进行更新,以便进行第二轮xgboost模型的训练。
所述第二输出结果的计算过程同所述第一输出结果的计算过程。所述第二输出结果包括:第一标签,第一比例值;第二标签,第二比例值。所述第一比例值与所述第二比例值之和为1,第一比例值代表第一标签所占的比例,第二比例值代表第二标签所占的比例。所述第一标签与A版本对应,所述第二标签与B版本对应。
在一个可选的实施例中,所述根据所述第一输出结果对所述初始流量分配进行更新得到第一流量分配包括:
判断所述第一比例值是否小于所述第二比例值;
当确定所述第一比例值小于所述第二比例值时,在所述初始流量分配的基础上增加第一值得到第一流量分配;
当确定所述第一比例值大于所述第二比例值时,在所述初始流量分配的基础上减少第二值得到第一流量分配。
该可选的实施例中,第一比例值小于所述第二比例值,表明B版本表现出了优于A版本的效应,则增加初始流量分配,使得分配给A版本的第一多维度标准数据的数据量减少,分配给B版本的第二多维度标准数据的数据量增加。第一比例值大于所述第二比例值,表明A版本表现出了优于B版本的效应,则减少初始流量分配,使得分配给A版本的第一多维度标准数据的数据量增加,分配给B版本的第二多维度标准数据的数据量减少。
所述判断模块204,还用于判断所述第二输出结果是否优于所述第一输出结果。
其中,所述预设结果阈值为预先设置的临界值,用以表示xgboost模型的结束条件。
如果第一输出结果中的第一比例值小于第二输出结果中的第一比例值,则表明第二输出结果优于第一输出结果。如果第一输出结果中的第一比例值打于第二输出结果中的第一比例值,则表明第二输出结果差于第一输出结果。
所述训练模块203,还用于当确定所述第二输出结果优于所述第一输出结果时,根据所述第二输出结果对所述第一流量分配进行更新得到第二流量分配,并基于所述第二流量分配对应的多维度标准数据训练第三xgboost模型。
当确定所述第二输出结果优于所述第一输出结果时,在所述第一流量分配的基础上增加第一值得到第二流量分配;当确定所述第一输出结果优于所述第二输出结果时,在所述第一流量分配的基础上减少第二值得到第二流量分配。
在根据所述第二输出结果对所述第一流量分配进行更新得到第二流量分配之后,基于所述第二流量分配对应的多维度标准数据训练第三xgboost模型,并根据所述第三xgboost模型 输出的预测结果计算得到第三输出结果。判断所述第二输出结果是否优于所述第二输出结果及判断第三输出结果是否大于预设结果阈值。当判断所述第二输出结果优于所述第二输出结果且第三输出结果小于预设结果阈值时,根据所述第三输出结果对所述第二流量分配进行更新得到第三流量分配,并基于所述第三流量分配对应的多维度标准数据训练第四xgboost模型,以此类推。当判断所述第二输出结果优于所述第二输出结果且判断第三输出结果大于或者等于预设结果阈值时,停止所述第三xgboost模型的训练。
对于统计功效更优的版本,进行流量动态变更,并使用训练结果模型验证数据结果一致性,若实验结果出现不一致结果集,将重新进行自学习,直至模型结果收敛,并且实验结果中将进行多次流量自动调整。
所述确定模块205,用于当根据所述第三xgboost模型输出的预测结果计算得到的第三输出结果大于或者等于预设结果阈值时,确定所述第三输出结果为AB测试的目标结果。
停止对所述第三xgboost模型的训练,表明AB测试已经结束,可以将第三xgboost模型的第三输出结果确定为目标结果。其中,所述第三输出结果的计算过程同所述第一输出结果的计算过程。
所述通知模块206,还用于在所述确定所述第三输出结果为AB测试的目标结果之后,获取所述目标结果中的A结果及B结果;比较所述A结果及所述B结果;当确定所述A结果小于所述B结果,发送通知信息至多个用户客户端,使得所述多个用户客户端更新应用为B版本。
所述第三输出结果包括:第一标签,第一比例值;第二标签,第二比例值。所述第一比例值与所述第二比例值之和为1,第一比例值代表第一标签所占的比例,第二比例值代表第二标签所占的比例。所述第一标签与A版本对应,所述第二标签与B版本对应。当第一比例值小于第二比例值时,表示A结果小于B结果。当第一比例值大于第二比例值时,表示A结果大于B结果。
在多次训练xgboost模型之后,即可模拟AB测试的长期效应。当长期效应表示A结果小于B结果,则表明B版本应用的效应优于A版本应用的效应;当长期效应表示A结果大于B结果,则表明A版本应用的效应优于B版本应用的效应。
当长期效应表明某个版本优于另一个版本,将可以发送通知信息至用户客户端,通知用户客户端更新版本至更优版本。
需要说明的是,本申请提供的装置适用于同一个应用的两个不同的版本的测试,测试哪一个版本对用户更有效;本申请提供的装置还可适用于两个不同的方案的测试,测试哪一个方案对用户更有效;本申请提供的装置还可适用于同一个应用的多个不同的版本的测试或者用于多个不同的方案的测试。
综上,本申请可应用于智慧政务等智慧场景中,从而推动智慧城市的建设。本申请通过初始流量分配执行AB测试并获取AB测试的功效指标值;基于所述初始流量分配对应的多维度标准数据及所述功效指标值训练xgboost模型,并获取所述xgboost模型的输出结果;根据所述输出结果对所述初始流量分配进行更新得到第一流量分配,并迭代训练xgboost模型直至xgboost模型的输出结果大于或者等于预设结果阈值时,将xgboost模型的输出结果确定为AB测试的目标结果。通过不断迭代训练xgboost模型从而自动模拟AB测试,提高了AB测试的测试效率;此外,只有在xgboost模型的输出结果大于或者等于预设结果阈值时,将xgboost模型的输出结果确定为AB测试的目标结果,能够保证AB测试结果的长期效应与短期效应的一致性。
需要强调的是,为进一步保证上述目标结果的私密性和安全性,上述目标结果可存储于区块链的节点中。
参阅图3所示,为本申请实施例三提供的计算机设备的结构示意图。在本申请较佳实施例中,所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的计算机设备的结构并不构成本申请实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的计算机设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述计算机设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机可读指令,所述计算机可读指令被所述至少一个处理器32执行时实现如所述的基于人工智能的AB测试方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。所述计算机可读存储介质可以是非易失性,也可以是易失性的。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机可读指令时实现本申请实施例中所述的基于人工智能的AB测试方法的全部或者部分步骤;或者实现基于人工智能的AB测试装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述计算机设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,计算机设备,或者网络设备等)或处理器(processor)执行本申请各个实施 例所述方法的部分。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。

Claims (20)

  1. 一种基于人工智能的AB测试方法,其中,所述方法包括:
    采集用户多维度特征数据并对所述多维度特征数据进行数据清洗得到多维度标准数据;
    根据初始流量分配执行AB测试并获取AB测试的功效指标值;
    基于所述初始流量分配对应的多维度标准数据及所述功效指标值训练第一xgboost模型,并根据所述第一xgboost模型输出的预测结果计算得到第一输出结果;
    根据所述第一输出结果对所述初始流量分配进行更新得到第一流量分配,并基于所述第一流量分配对应的多维度标准数据训练第二xgboost模型,并根据所述第二xgboost模型输出的预测结果计算得到第二输出结果;
    判断所述第二输出结果是否优于所述第一输出结果;
    当确定所述第二输出结果优于所述第一输出结果时,迭代根据所述第二输出结果对所述第一流量分配进行更新得到第二流量分配,并基于所述第二流量分配对应的多维度标准数据训练第三xgboost模型,直至根据所述第三xgboost模型输出的预测结果计算得到的第三输出结果大于或者等于预设结果阈值时,停止所述第三xgboost模型的训练;
    确定所述第三输出结果为AB测试的目标结果。
  2. 如权利要求1所述的基于人工智能的AB测试方法,其中,所述根据初始流量分配执行AB测试并获取AB测试的功效指标值包括:
    判断多维度标准数据的数据量;
    根据预设数据量范围与流量分配比例之间的映射表确定与所述数据量对应的目标流量分配比例,作为所述初始流量分配;
    按照所述初始流量分配切分所述多维度标准数据为第一多维度标准数据和第二多维度标准数据;
    将所述第一多维度标准数据分配给A版本及将所述第二多维度标准数据分配给B版本并执行模拟测试过程;
    获取模拟测试结束后的测试数据并根据所述测试数据计算功效指标值。
  3. 如权利要求1所述的基于人工智能的AB测试方法,其中,所述根据所述第一xgboost模型输出的预测结果计算得到第一输出结果包括:
    获取所述第一xgboost模型输出的预测结果;
    获取所述预测结果中的第一预测标签及第一预测概率,第二预测标签及第二预测概率;
    获取所述第一预测标签及所述第二预测标签中第一标签的第一个数;
    获取所述第一预测标签及所述第二预测标签中第二标签的第二个数;
    计算所述第一个数与所述第二个数之和得到个数和;
    计算所述第一个数与所述个数和得到第一比例值;
    计算所述第二个数和所述个数和得到第二比例值。
  4. 如权利要求3所述的基于人工智能的AB测试方法,其中,所述根据所述第一输出结果对所述初始流量分配进行更新得到第一流量分配包括:
    判断所述第一比例值是否小于所述第二比例值;
    当确定所述第一比例值小于所述第二比例值时,在所述初始流量分配的基础上增加第一值得到第一流量分配;
    当确定所述第一比例值大于所述第二比例值时,在所述初始流量分配的基础上减少第二值得到第一流量分配。
  5. 如权利要求1所述的基于人工智能的AB测试方法,其中,在所述确定所述第三输出结果为AB测试的目标结果之后,所述方法还包括:
    获取所述目标结果中的A结果及B结果;
    比较所述A结果及所述B结果;
    当确定所述A结果小于所述B结果,发送通知信息至多个用户客户端,使得所述多个用 户客户端更新应用为B版本。
  6. 如权利要求5所述的基于人工智能的AB测试方法,其中,所述采集用户多维度特征数据包括:
    定义多维度关键绩效指标并发送所述多维度关键绩效指标至所述多个用户客户端;
    获取所述多个用户客户端上报的埋点数据;
    从所述埋点数据中采集所述用户多维度特征数据。
  7. 如权利要求6所述的基于人工智能的AB测试方法,其中,所述对所述多维度特征数据进行数据清洗得到多维度标准数据包括:
    对所述多维度特征数据进行去重处理;
    采用随机森林模型检测去重处理后的多维度特征数据中的异常数据;
    删除所述去重处理后的多维度特征数据中的异常数据得到多维度标准数据。
  8. 一种基于人工智能的AB测试装置,其中,所述装置包括:
    采集模块,用于采集用户多维度特征数据并对所述多维度特征数据进行数据清洗得到多维度标准数据;
    测试模块,用于根据初始流量分配执行AB测试并获取AB测试的功效指标值;
    训练模块,用于基于所述初始流量分配对应的多维度标准数据及所述功效指标值训练第一xgboost模型,并根据所述第一xgboost模型输出的预测结果计算得到第一输出结果;
    所述训练模块,还用于根据所述第一输出结果对所述初始流量分配进行更新得到第一流量分配,并基于所述第一流量分配对应的多维度标准数据训练第二xgboost模型,并根据所述第二xgboost模型输出的预测结果计算得到第二输出结果;
    判断模块,用于判断所述第二输出结果是否优于所述第一输出结果;
    所述训练模块,还用于当确定所述第二输出结果优于所述第一输出结果时,迭代根据所述第二输出结果对所述第一流量分配进行更新得到第二流量分配,并基于所述第二流量分配对应的多维度标准数据训练第三xgboost模型,直至根据所述第三xgboost模型输出的预测结果计算得到的第三输出结果大于或者等于预设结果阈值时,停止所述第三xgboost模型的训练;
    确定模块,用于确定所述第三输出结果为AB测试的目标结果。
  9. 一种计算机设备,其中,所述计算机设备包括:
    处理器,所述处理器用于执行存储器中存储的计算机可读指令时实现以下步骤:
    采集用户多维度特征数据并对所述多维度特征数据进行数据清洗得到多维度标准数据;
    根据初始流量分配执行AB测试并获取AB测试的功效指标值;
    基于所述初始流量分配对应的多维度标准数据及所述功效指标值训练第一xgboost模型,并根据所述第一xgboost模型输出的预测结果计算得到第一输出结果;
    根据所述第一输出结果对所述初始流量分配进行更新得到第一流量分配,并基于所述第一流量分配对应的多维度标准数据训练第二xgboost模型,并根据所述第二xgboost模型输出的预测结果计算得到第二输出结果;
    判断所述第二输出结果是否优于所述第一输出结果;
    当确定所述第二输出结果优于所述第一输出结果时,迭代根据所述第二输出结果对所述第一流量分配进行更新得到第二流量分配,并基于所述第二流量分配对应的多维度标准数据训练第三xgboost模型,直至根据所述第三xgboost模型输出的预测结果计算得到的第三输出结果大于或者等于预设结果阈值时,停止所述第三xgboost模型的训练;
    确定所述第三输出结果为AB测试的目标结果。
  10. 如权利要求9所述的计算机设备,其中,所述处理器执行所述计算机可读指令以实现根据初始流量分配执行AB测试并获取AB测试的功效指标值时,具体包括:
    判断多维度标准数据的数据量;
    根据预设数据量范围与流量分配比例之间的映射表确定与所述数据量对应的目标流量分 配比例,作为所述初始流量分配;
    按照所述初始流量分配切分所述多维度标准数据为第一多维度标准数据和第二多维度标准数据;
    将所述第一多维度标准数据分配给A版本及将所述第二多维度标准数据分配给B版本并执行模拟测试过程;
    获取模拟测试结束后的测试数据并根据所述测试数据计算功效指标值。
  11. 如权利要求9所述的计算机设备,其中,所述处理器执行所述计算机可读指令以实现根据所述第一xgboost模型输出的预测结果计算得到第一输出结果时,具体包括:
    获取所述第一xgboost模型输出的预测结果;
    获取所述预测结果中的第一预测标签及第一预测概率,第二预测标签及第二预测概率;
    获取所述第一预测标签及所述第二预测标签中第一标签的第一个数;
    获取所述第一预测标签及所述第二预测标签中第二标签的第二个数;
    计算所述第一个数与所述第二个数之和得到个数和;
    计算所述第一个数与所述个数和得到第一比例值;
    计算所述第二个数和所述个数和得到第二比例值。
  12. 如权利要求11所述的计算机设备,其中,所述处理器执行所述计算机可读指令以实现根据所述第一输出结果对所述初始流量分配进行更新得到第一流量分配时,具体包括:
    判断所述第一比例值是否小于所述第二比例值;
    当确定所述第一比例值小于所述第二比例值时,在所述初始流量分配的基础上增加第一值得到第一流量分配;
    当确定所述第一比例值大于所述第二比例值时,在所述初始流量分配的基础上减少第二值得到第一流量分配。
  13. 如权利要求9所述的计算机设备,其中,在所述确定所述第三输出结果为AB测试的目标结果之后,所述处理器执行所述计算机可读指令还用以实现以下步骤:
    获取所述目标结果中的A结果及B结果;
    比较所述A结果及所述B结果;
    当确定所述A结果小于所述B结果,发送通知信息至多个用户客户端,使得所述多个用户客户端更新应用为B版本。
  14. 如权利要求13所述的计算机设备,其中,所述处理器执行所述计算机可读指令以实现采集用户多维度特征数据时,具体包括:
    定义多维度关键绩效指标并发送所述多维度关键绩效指标至所述多个用户客户端;
    获取所述多个用户客户端上报的埋点数据;
    从所述埋点数据中采集所述用户多维度特征数据。
  15. 如权利要求14所述的计算机设备,其中,所述处理器执行所述计算机可读指令以实现对所述多维度特征数据进行数据清洗得到多维度标准数据时,具体包括:
    对所述多维度特征数据进行去重处理;
    采用随机森林模型检测去重处理后的多维度特征数据中的异常数据;
    删除所述去重处理后的多维度特征数据中的异常数据得到多维度标准数据。
  16. 一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,其中,所述计算机可读指令被处理器执行时实现以下步骤:
    采集用户多维度特征数据并对所述多维度特征数据进行数据清洗得到多维度标准数据;
    根据初始流量分配执行AB测试并获取AB测试的功效指标值;
    基于所述初始流量分配对应的多维度标准数据及所述功效指标值训练第一xgboost模型,并根据所述第一xgboost模型输出的预测结果计算得到第一输出结果;
    根据所述第一输出结果对所述初始流量分配进行更新得到第一流量分配,并基于所述第一流量分配对应的多维度标准数据训练第二xgboost模型,并根据所述第二xgboost模型输出 的预测结果计算得到第二输出结果;
    判断所述第二输出结果是否优于所述第一输出结果;
    当确定所述第二输出结果优于所述第一输出结果时,迭代根据所述第二输出结果对所述第一流量分配进行更新得到第二流量分配,并基于所述第二流量分配对应的多维度标准数据训练第三xgboost模型,直至根据所述第三xgboost模型输出的预测结果计算得到的第三输出结果大于或者等于预设结果阈值时,停止所述第三xgboost模型的训练;
    确定所述第三输出结果为AB测试的目标结果。
  17. 如权利要求16所述的计算机可读存储介质,其中,所述计算机可读指令被所述处理器执行以实现根据初始流量分配执行AB测试并获取AB测试的功效指标值时,具体包括:
    判断多维度标准数据的数据量;
    根据预设数据量范围与流量分配比例之间的映射表确定与所述数据量对应的目标流量分配比例,作为所述初始流量分配;
    按照所述初始流量分配切分所述多维度标准数据为第一多维度标准数据和第二多维度标准数据;
    将所述第一多维度标准数据分配给A版本及将所述第二多维度标准数据分配给B版本并执行模拟测试过程;
    获取模拟测试结束后的测试数据并根据所述测试数据计算功效指标值。
  18. 如权利要求16所述的计算机可读存储介质,其中,所述计算机可读指令被所述处理器执行以实现根据所述第一xgboost模型输出的预测结果计算得到第一输出结果时,具体包括:
    获取所述第一xgboost模型输出的预测结果;
    获取所述预测结果中的第一预测标签及第一预测概率,第二预测标签及第二预测概率;
    获取所述第一预测标签及所述第二预测标签中第一标签的第一个数;
    获取所述第一预测标签及所述第二预测标签中第二标签的第二个数;
    计算所述第一个数与所述第二个数之和得到个数和;
    计算所述第一个数与所述个数和得到第一比例值;
    计算所述第二个数和所述个数和得到第二比例值。
  19. 如权利要求18所述的计算机可读存储介质,其中,所述计算机可读指令被所述处理器执行以实现根据所述第一输出结果对所述初始流量分配进行更新得到第一流量分配时,具体包括:
    判断所述第一比例值是否小于所述第二比例值;
    当确定所述第一比例值小于所述第二比例值时,在所述初始流量分配的基础上增加第一值得到第一流量分配;
    当确定所述第一比例值大于所述第二比例值时,在所述初始流量分配的基础上减少第二值得到第一流量分配。
  20. 如权利要求16所述的计算机可读存储介质,其中,在所述确定所述第三输出结果为AB测试的目标结果之后,所述计算机可读指令被所述处理器执行还用以实现以下步骤:
    获取所述目标结果中的A结果及B结果;
    比较所述A结果及所述B结果;
    当确定所述A结果小于所述B结果,发送通知信息至多个用户客户端,使得所述多个用户客户端更新应用为B版本。
PCT/CN2021/090460 2020-12-30 2021-04-28 基于人工智能的ab测试方法、装置、计算机设备及介质 WO2022142013A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011614892.6 2020-12-30
CN202011614892.6A CN112700131B (zh) 2020-12-30 2020-12-30 基于人工智能的ab测试方法、装置、计算机设备及介质

Publications (1)

Publication Number Publication Date
WO2022142013A1 true WO2022142013A1 (zh) 2022-07-07

Family

ID=75512714

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/090460 WO2022142013A1 (zh) 2020-12-30 2021-04-28 基于人工智能的ab测试方法、装置、计算机设备及介质

Country Status (2)

Country Link
CN (1) CN112700131B (zh)
WO (1) WO2022142013A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115509890A (zh) * 2022-08-11 2022-12-23 创新奇智(深圳)技术有限公司 基于强化学习的测试方法、装置、电子设备和存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112700131B (zh) * 2020-12-30 2023-01-10 平安科技(深圳)有限公司 基于人工智能的ab测试方法、装置、计算机设备及介质
CN113392018B (zh) * 2021-06-28 2024-01-16 北京字节跳动网络技术有限公司 流量分发方法、装置、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019019958A1 (en) * 2017-07-25 2019-01-31 Beijing DIDI Infinity Technology and Development Co., Ltd SYSTEMS AND METHODS FOR DETERMINING AN OPTIMAL STRATEGY
CN110168595A (zh) * 2018-04-20 2019-08-23 上海荟萃网络科技有限公司 基于采样模拟的快速ab测试方法
CN111008263A (zh) * 2019-11-29 2020-04-14 支付宝(杭州)信息技术有限公司 问答匹配模型的更新方法和装置
CN111950622A (zh) * 2020-08-10 2020-11-17 中国平安人寿保险股份有限公司 基于人工智能的行为预测方法、装置、终端及存储介质
CN112700131A (zh) * 2020-12-30 2021-04-23 平安科技(深圳)有限公司 基于人工智能的ab测试方法、装置、计算机设备及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106548210B (zh) * 2016-10-31 2021-02-05 腾讯科技(深圳)有限公司 基于机器学习模型训练的信贷用户分类方法及装置
CN110807676A (zh) * 2020-01-07 2020-02-18 同盾控股有限公司 长尾用户挖掘方法、装置、电子设备及存储介质
CN111314869B (zh) * 2020-02-18 2021-06-29 中国联合网络通信集团有限公司 流量配额分配方法、装置、电子设备及存储介质
CN111967675A (zh) * 2020-08-19 2020-11-20 京东方科技集团股份有限公司 光伏发电量的预测方法以及预测装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019019958A1 (en) * 2017-07-25 2019-01-31 Beijing DIDI Infinity Technology and Development Co., Ltd SYSTEMS AND METHODS FOR DETERMINING AN OPTIMAL STRATEGY
CN110168595A (zh) * 2018-04-20 2019-08-23 上海荟萃网络科技有限公司 基于采样模拟的快速ab测试方法
CN111008263A (zh) * 2019-11-29 2020-04-14 支付宝(杭州)信息技术有限公司 问答匹配模型的更新方法和装置
CN111950622A (zh) * 2020-08-10 2020-11-17 中国平安人寿保险股份有限公司 基于人工智能的行为预测方法、装置、终端及存储介质
CN112700131A (zh) * 2020-12-30 2021-04-23 平安科技(深圳)有限公司 基于人工智能的ab测试方法、装置、计算机设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115509890A (zh) * 2022-08-11 2022-12-23 创新奇智(深圳)技术有限公司 基于强化学习的测试方法、装置、电子设备和存储介质
CN115509890B (zh) * 2022-08-11 2024-01-26 创新奇智(深圳)技术有限公司 基于强化学习的测试方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN112700131B (zh) 2023-01-10
CN112700131A (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
US10649838B2 (en) Automatic correlation of dynamic system events within computing devices
WO2022142013A1 (zh) 基于人工智能的ab测试方法、装置、计算机设备及介质
US20210073680A1 (en) Data driven methods and systems for what if analysis
WO2021189904A1 (zh) 数据异常检测方法、装置、电子设备及存储介质
US9852041B2 (en) Systems and methods for categorizing exceptions and logs
US20130326028A1 (en) Server migration
CN106537350A (zh) 用于处理数据处理系统中的数据质量异常的方法
CN109543891B (zh) 容量预测模型的建立方法、设备及计算机可读存储介质
WO2007060721A1 (ja) ネットワーク管理装置およびネットワークの管理方法
CN110162445A (zh) 基于主机日志及性能指标的主机健康评价方法及装置
KR20230031889A (ko) 네트워크 토폴로지에서의 이상 탐지
US20200117530A1 (en) Application performance management system with collective learning
WO2023207689A1 (zh) 一种变更风险评估方法、设备及存储介质
US11392821B2 (en) Detecting behavior patterns utilizing machine learning model trained with multi-modal time series analysis of diagnostic data
US11669374B2 (en) Using machine-learning methods to facilitate experimental evaluation of modifications to a computational environment within a distributed system
JP6252309B2 (ja) 監視漏れ特定処理プログラム,監視漏れ特定処理方法及び監視漏れ特定処理装置
US10313457B2 (en) Collaborative filtering in directed graph
RU2532714C2 (ru) Способ получения данных при оценке ресурсов сети и устройство для осуществления способа
CN111090401A (zh) 存储设备性能预测方法及装置
Shih et al. Implementation and visualization of a netflow log data lake system for cyberattack detection using distributed deep learning
US9229898B2 (en) Causation isolation using a configuration item metric identified based on event classification
US11036561B2 (en) Detecting device utilization imbalances
CN112445854B (zh) 多源业务数据实时处理方法、装置、终端及存储介质
JP6508202B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
US11972382B2 (en) Root cause identification and analysis

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21912775

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21912775

Country of ref document: EP

Kind code of ref document: A1