WO2022196070A1 - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2022196070A1
WO2022196070A1 PCT/JP2022/001328 JP2022001328W WO2022196070A1 WO 2022196070 A1 WO2022196070 A1 WO 2022196070A1 JP 2022001328 W JP2022001328 W JP 2022001328W WO 2022196070 A1 WO2022196070 A1 WO 2022196070A1
Authority
WO
WIPO (PCT)
Prior art keywords
intervention
allocation
evaluation
model
user
Prior art date
Application number
PCT/JP2022/001328
Other languages
English (en)
French (fr)
Inventor
拓麻 宇田川
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to US18/549,197 priority Critical patent/US20240161142A1/en
Priority to JP2023506792A priority patent/JPWO2022196070A1/ja
Publication of WO2022196070A1 publication Critical patent/WO2022196070A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates
    • G06Q30/0211Determining the effectiveness of discounts or incentives
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Definitions

  • causal inference data collection, model learning and evaluation, operation, etc.
  • FIG. 10 is a diagram showing an example of data in which data stored in a model offline evaluation result storage unit and actual coupon provision results are combined;
  • FIG. 10 is a diagram showing an example of data obtained by evaluation of an offline evaluation method using intervention results; It is a block diagram which shows the structural example of a computer.
  • the intervention processing system 11 includes a KPI input unit 21, a segment input unit 22, a baseline input unit 23, a model learning unit 24, a model storage unit 25, a model offline evaluation unit 26, and a model offline evaluation result storage unit 27. Configured.
  • the intervention processing system 11 includes a new intervention target estimation unit 28, a new intervention target presentation unit 29, a new intervention input unit 30, an intervention storage unit 31, an intervention randomization rate estimation unit 32, an intervention allocation explanation generation unit 33, and an intervention design generation unit. It is configured to include a portion 34 .
  • the model storage unit 25 stores the model supplied from the model learning unit 24.
  • the model offline evaluation unit 26 uses the offline evaluation model learned by the offline evaluation model learning unit 45 .
  • the offline evaluation model is "a model that predicts true KPIs by inputting expected KPI prediction values and data feature values in multiple OPEs such as IPW, DM, and DR".
  • the true KPI is the actual KPI (evaluation) measured value when the intervention allocation to be evaluated is performed.
  • the model offline evaluation unit 26 uses the data used for offline evaluation, the information on the actual intervention schedule, and the predicted values of expected KPIs for intervention allocation (model and baseline) by OPE as inputs to the offline evaluation model. Calculate the predicted value of the KPI.
  • the predicted value of the expected KPI by this offline evaluation model is the offline evaluation value.
  • the data used for offline evaluation is the same data used for model learning.
  • the data used for offline evaluation and the predicted values of expected KPIs by OPE are output to the model offline evaluation result storage unit 27 and the intervention randomization rate estimation unit 32.
  • the calculated offline evaluation value is output to the new intervention target estimation unit 28 .
  • the intervention allocation explanation generation unit 33 generates an intervention allocation explanation including comparison information (difference information) between the baseline and the model for the predicted values of the intervention and expected KPIs. At that time, together with the data used for offline evaluation supplied from the intervention randomization rate estimator 32, the user's random intervention rate is also referred to.
  • the intervention allocation explanation generation unit 33 outputs the generated intervention allocation explanation to the intervention design generation unit 34 together with the data used for offline evaluation and the ratio of random intervention by the user.
  • the intervention design generation unit 34 generates final intervention design information based on the data used for offline evaluation, the ratio of random intervention by the user, and the intervention allocation explanation supplied from the intervention allocation explanation generation unit 33. .
  • the intervention design generation unit 34 also refers to new intervention information supplied from the new intervention input unit 30 .
  • the intervention design generation unit 34 outputs the generated intervention design information to the intervention design storage unit 35 and the intervention unit 37 .
  • the intervention design generation unit 34 also outputs the generated intervention design information to the intervention design confirmation unit 36 .
  • the intervention design confirmation unit 36 presents the intervention design information supplied from the intervention design generation unit 34 for confirmation by the person in charge on the business side before actually performing the intervention.
  • the user state acquisition unit 38 acquires information indicating actions taken by the user as a result of the intervention from the user interface (UI) and sensors of the user terminal, and outputs the acquired information to the user log storage unit 39. do. Note that the user state acquisition unit 38 acquires information indicating actions taken by the user even in a state in which no intervention is performed.
  • Actions taken by users include clicks and taps on interventions, purchases of products, viewing content detail pages, actual viewing of content, whether or not viewing has been completed, good/bad, or feedback such as 5-point evaluation. .
  • the user state acquisition unit 38 estimates a motion (i.e., a motion taken by the user) based on the user's facial expression and other biological information based on the sensor data, and calculates the estimated motion.
  • information to be displayed is output to the user log storage unit 39 .
  • the intervention result analysis unit 40 refers to the user log in the user log storage unit 39, compares the intervention allocation of the model and the baseline intervention allocation, and obtains the intervention result such as whether or not the KPI measured value has improved. To analyze.
  • the intervention result confirmation unit 41 presents the result of comparison between the intervention allocation of the model analyzed by the intervention result analysis unit 40 and the baseline intervention allocation, in order to allow the operator side person in charge to confirm the intervention results.
  • the offline evaluation method evaluation unit 43 evaluates each OPE method based on the actual intervention results supplied from the intervention result analysis unit 40 . That is, the evaluation unit 43 of the offline evaluation method evaluates the offline evaluation value by each OPE using the data of the users who performed the intervention allocation by the model and the data of the users who performed the intervention allocation by the baseline.
  • the data of the users who underwent intervention allocation by the model are referred to as the data of the users to whom the model was applied
  • the data of the users who underwent the intervention allocation by the baseline are referred to as the data of the users to whom the baseline was applied.
  • the evaluation result storage unit 44 of the offline evaluation method stores the data of the user who applied the model supplied from the evaluation unit 43 of the offline evaluation method, the data of the user who applied the baseline, and the offline evaluation value by OPE using each. Save the evaluation result of Furthermore, the offline evaluation method evaluation result storage unit 44 stores data obtained by combining the actual intervention results supplied from the intervention result analysis unit 40 and the data stored in the model offline evaluation result storage unit 27. .
  • the offline evaluation model learning unit 45 learns the offline evaluation model using the data stored in the evaluation result storage unit 44 of the offline evaluation method.
  • the offline evaluation model learning unit 45 outputs the learned offline evaluation model to the model offline evaluation unit 26 .
  • FIG. 2 is a flowchart for explaining the processing of the intervention processing system 11. As shown in FIG.
  • step S11 the KPI input unit 21 inputs a KPI to be optimized by intervention according to the operation of the person in charge on the business side, and outputs it to the model learning unit 24.
  • step S ⁇ b>12 the segment input unit 22 inputs a user segment to be optimized for intervention and outputs it to the model learning unit 24 according to the operation of the person in charge on the business side.
  • step S13 the baseline input unit 23 inputs a baseline and outputs it to the model learning unit 24 according to the operation of the person in charge on the business side.
  • the model learning unit 24 outputs the learned model to the model storage unit 25.
  • the model learning unit 24 outputs the learned model and the data used for model learning to the model offline evaluation unit 26 .
  • step S16 the new intervention target estimating unit 28 estimates, based on the offline evaluation values supplied from the model offline evaluating unit 26, whether there are users for whom existing interventions are unlikely to be effective.
  • step S17 If it is determined in step S17 that there are no users for whom the existing intervention is unlikely to be effective, the processes of steps S18 and S19 are skipped, and the process proceeds to step S20.
  • the intervention allocation explanation generating unit 33 refers to the user's random intervention ratio, and generates an intervention allocation explanation including comparison information between the baseline and the model for the intervention and expected KPI prediction values.
  • the intervention allocation explanation generating unit 33 outputs the data used for offline evaluation supplied from the intervention randomization rate estimating unit 32 , the user's random intervention ratio, and the generated intervention allocation explanation to the intervention design generating unit 34 .
  • the intervention design generation unit 34 outputs the generated intervention design information to the intervention design storage unit 35 and the intervention unit 37 .
  • the intervention design generation unit 34 also outputs the generated intervention design information to the intervention design confirmation unit 36 .
  • step S24 based on the intervention design information generated by the intervention design generation unit 34, intervention is performed for the user, that is, the display unit of the user terminal.
  • step S ⁇ b>25 the user state acquisition unit 38 acquires information indicating actions taken by the user as a result of the intervention from the UI and sensors of the user terminal, and outputs the acquired information to the user log storage unit 39 . do.
  • step S27 the intervention result confirmation unit 41 presents the result of comparison between the intervention allocation of the model and the baseline intervention allocation compared by the intervention result analysis unit 40, in order to allow the operator side person in charge to confirm the intervention result. .
  • step S28 the offline evaluation method evaluation unit 43 and the offline evaluation model learning unit 45 evaluate the offline evaluation method and learn the offline evaluation model.
  • the evaluation unit 43 of the offline evaluation method evaluates the offline evaluation value of each OPE based on the actual intervention results supplied from the intervention result analysis unit 40.
  • the evaluation unit 43 of the offline evaluation method saves the data of the user to whom the model is applied, the data of the user to which the baseline is applied, and the evaluation result of the offline evaluation value by OPE using each, to the evaluation result storage unit of the offline evaluation method. 44.
  • the actual intervention results supplied from the intervention result analysis unit 40 are combined with data used for offline evaluation, which is data stored in the model offline evaluation result storage unit 27, offline evaluation values by each OPE, etc., and offline evaluation is performed. It is supplied to the method evaluation result storage unit 44 .
  • the evaluation result storage unit 44 of the offline evaluation method stores the data of the user who applied the model supplied from the evaluation unit 43 of the offline evaluation method, the data of the user who applied the baseline, and the offline evaluation value by OPE using each. Save the evaluation result of The evaluation result storage unit 44 of the offline evaluation method stores the actual intervention results supplied from the intervention result analysis unit 40, data used for offline evaluation which is data stored in the model offline evaluation result storage unit 27, and each OPE Stores combined data such as offline evaluation values.
  • the offline evaluation model learning unit 45 learns the offline evaluation model using the data stored in the evaluation result storage unit 44 of the offline evaluation method.
  • the offline evaluation model learning unit 45 outputs the learned offline evaluation model to the model offline evaluation unit 326 .
  • step S28 the offline evaluation model learned in step S28 is used when performing the next offline evaluation in step S15. Therefore, by repeating the processing described above with reference to FIG. 2, the data stored in the evaluation result storage unit 44 of the offline evaluation method increases, and the accuracy of the offline evaluation model improves.
  • the three main elements of this technology will be described in order.
  • the three elements are the estimation of the intervention randomization rate in step S16 of FIG. 2, the generation of intervention allocation explanations in step S21, and the training of the offline evaluation model in step S28.
  • Fig. 3 is a diagram showing an example in which the baseline intervention allocation and the model intervention allocation are applied as they are to the users in the target segment.
  • FIG. 3 shows that both the baseline intervention allocation and the model intervention allocation for users in the target segment are deterministic. That is, the probability of intervention allocation for each user is "coupon A: 100%, coupon B: 0%” or "coupon A: 0%, coupon B: 100%".
  • these intervention allocations are probabilistic intervention allocations.
  • Figure 4 shows an example of adding a random intervention to the baseline intervention allocation and the model intervention allocation.
  • the intervention randomization rate estimating unit 32 estimates the optimal sample size of users who perform the random intervention shown in FIG.
  • FIG. 5 is a flow chart explaining the process of estimating the intervention randomization rate in step S16 of FIG.
  • step S51 the intervention randomization rate estimating unit 32 calculates the minimum sample size at which there is a significant difference in the expected KPI predicted values between the baseline and the model.
  • the intervention randomization rate estimation unit 32 makes a significant difference in the predicted value of the expected KPI when statistically tested based on the offline evaluation results of the baseline intervention allocation and the model intervention allocation. and the expected sample size.
  • the t-test is used as an example of a statistical test.
  • Effect sizes can be calculated based on offline assessment results (predicted values of expected KPIs for baseline and model respectively), so sample sizes are calculated.
  • step S52 the intervention randomization rate estimation unit 32 calculates the randomly intervening sample size shown in FIG.
  • the intervention randomization rate estimating unit 32 subtracts from the number of users in the target segment the minimum sample size at which there is a significant difference in the expected KPI prediction values between the baseline calculated in step S51 and the model. This allows us to calculate a sample size of random intervention users.
  • FIG. 6 is a diagram showing an example of user logs stored in the user log storage unit 39 and intervention allocation to the user logs.
  • the user log consists of user feature values, interventions, and KPI actual values.
  • the user feature amount consists of "gender”, "age”, and "region”. Interventions consisted of ⁇ give coupon A'', ⁇ give coupon B'', and ⁇ do nothing''.
  • KPI is “Sales”.
  • the second data has "gender” as female, “age” as 30s, “region” as Tokyo, “intervention” as none, and “sales” as 2,000 yen.
  • the baseline intervention allocation for the second data is Coupon B and the model intervention allocation for the second data is none.
  • the intervention allocation explanation generation unit 33 asks, "How will the new intervention allocation by the model change from the baseline intervention allocation? Intervention allocation explanations such as "Can you expect a certain degree of effect?"
  • FIG. 7 is a flowchart explaining the generation of the intervention allocation explanation in step S21 of FIG.
  • the intervention allocation explanation generating unit 33 regards the baseline intervention allocation and the model intervention allocation as a pair of variables, and obtains the correspondence relationship with the user feature quantity.
  • a decision tree which will be described later with reference to FIG. 8, is used. In this case, a decision tree is learned that infers pairs of baseline intervention allocations and model intervention allocations based on user features.
  • FIG. 8 is a diagram showing an example of a decision tree for estimating pairs of baseline intervention allocation and model intervention allocation based on user feature values.
  • each node of the decision tree shows the baseline and model intervention allocations. Arrows represent conditional branching of samples, and conditions for classifying samples are indicated on the arrows.
  • the baseline and model intervention allocations are (coupon A, coupon A), (coupon A, coupon B), (coupon A, none), (coupon B, coupon A), (coupon B, Coupon B) or (Coupon B, no).
  • samples whose user feature quantity “gender” is male are split into node N3-1, and samples whose user feature quantity “gender” is female are split into node N3-2.
  • the baseline and model intervention allocations are (none, coupon A), (none, coupon B), or (none, none).
  • the samples whose user feature quantity “gender” is female are divided into the node N3-3, and the samples whose user feature quantity “gender” is male are divided into the node N3-4.
  • the baseline and model intervention allocations are (coupon A, coupon A), (coupon A, coupon B), or (coupon A, none).
  • samples whose user feature amount "area” is Chiba are divided into nodes N4-1, and samples whose user feature amount "area” is other than Chiba are divided into nodes N4-2.
  • the baseline and model intervention allocations are (coupon B, coupon A), (coupon B, coupon B), or (coupon B, none).
  • the samples whose user feature amount "region” is Tokyo are divided into the node N4-3, and the samples whose user feature amount "region” is other than Tokyo are divided into the node N4-4.
  • the baseline and model intervention allocations are (none, coupon B) or (none, none).
  • the samples with the user feature value "region" other than Saitama are divided into the node N4-5, and the samples with the user feature value "region" of Saitama are divided into the node N4-6.
  • the baseline and model intervention allocations are (coupon A, coupon A) or (coupon A, coupon B).
  • samples with user feature quantity "age” less than 25 years old are divided into node N5-1, and samples with user feature quantity "age” of 25 years old or older are divided into node N5-2. be.
  • the baseline and model intervention allocation is (coupon A, none).
  • the samples are not split. That is, the intervention allocation of the sample baseline and model for which the user feature value “age” is under 40, the user feature value “gender” is male, and the user feature value “region” is other than Chiba is node N4. -2 shown (coupon A, no).
  • the baseline and model intervention allocations are (coupon B, coupon A) or (coupon B, coupon B).
  • samples with user feature quantity "age” less than 30 years old are divided into node N5-3, and samples with user feature quantity "age” of 30 years or older are divided into node N5-4. be done.
  • the baseline and model intervention allocation is (none, coupon B).
  • the samples are not split.
  • the intervention allocation of the baseline and model of the sample whose user feature value "age” is 40 years old or older, whose user feature value "gender” is male, and whose user feature value "region” is other than Saitama is node N4. -5 shown (none, coupon B).
  • the baseline and model intervention assignments are (none, none).
  • the samples are not split. That is, the intervention allocation of the sample baseline and model for which the user feature value "age” is 40 years old or older, the user feature value "gender” is male, and the user feature value "region” is Saitama, is node N4- 6 (none, none).
  • the baseline and model intervention allocation is (coupon A, coupon A).
  • the samples are not split. That is, the user feature "age” is under 25 years old, the user feature "gender” is male, and the user feature "region” is Chiba. -1 is shown (coupon A, coupon A).
  • the baseline and model intervention allocation is (coupon A, coupon B).
  • the samples are not split. That is, the user feature "age” is 25 to 40 years old, the user feature "gender” is male, and the user feature "region” is Chiba. , shown at node N5-2 (coupon A, coupon B).
  • the baseline and model intervention allocation is (coupon B, coupon B).
  • the samples are not split. That is, the baseline of the sample and the intervention allocation of the model where the user feature value "age” is between 30 and 40 years old, the user feature value "sex” is female, and the user feature value "region” is other than Tokyo is shown at node N5-4 (coupon B, coupon B).
  • the intervention allocation explanation generation unit 33 generates an intervention that describes how the new intervention allocation by the model changes from the baseline intervention allocation and, as a result, what degree of effect can be expected for each user feature amount. Can generate assignment descriptions.
  • the intervention design confirmation unit 36 By presenting the UI in FIG. 9, for example, by the intervention design confirmation unit 36, the person in charge on the operator side can confirm the intervention allocation explanation.
  • the intervention allocation actually applied to the data and the intervention allocation to be evaluated are often different. For example, there may be differences in seasonality (collection months) and sample size fluctuations.
  • KPI which is the measured value of the KPI resulting from the allocation of the intervention to be evaluated, it is necessary to actually allocate the intervention to be evaluated online.
  • evaluation data as data to which an intervention allocation that differs from the intervention allocation to be evaluated is applied
  • true data as data to which the intervention allocation to be evaluated is applied online.
  • FIG. 10 is a flowchart explaining learning of the offline evaluation model in step S18 of FIG.
  • step S91 the actual intervention results (FIG. 11) supplied from the intervention result analysis unit 40 and the offline evaluation results (FIG. 12) stored in the model offline evaluation result storage unit 27 are combined to form an offline evaluation method. is supplied to the evaluation result storage unit 44 of the.
  • FIG. 11 is a diagram showing an example of actual intervention result data supplied from the intervention result analysis unit 40.
  • FIG. 11 is a diagram showing an example of actual intervention result data supplied from the intervention result analysis unit 40.
  • FIG. 11 shows an example in which "segment”, "data collection month”, and “sample size” are used as data feature amounts of true data (hereinafter referred to as true data feature amounts).
  • the actually applied baseline intervention allocation data is the true data feature segment “Age > 20”, data collection month “November”, sample size “15,000”, and the KPIs for this baseline intervention allocation The measured value is "8".
  • FIG. 12 is a diagram showing an example of data stored in the model offline evaluation result storage unit 27.
  • FIG. 12 is a diagram showing an example of data stored in the model offline evaluation result storage unit 27.
  • the model offline evaluation result storage unit 27 stores offline evaluation data feature values and offline evaluation values (predicted values of expected KPIs (referred to as KPI predicted values in the figure; the same applies to subsequent figures)).
  • the data feature amount of the evaluation data (hereinafter referred to as the evaluation data feature amount) is "segment”, "data collection month”, and “sample size”, and the offline evaluation methods are IPW, DM, and DR. is used.
  • the data for the intervention allocation of the model that was evaluated offline is the evaluation data feature segment "Age > 20", the data collection month "September”, the sample size "30,000”, and the offline evaluation values of IPW, DM, and DR. is "6, 8, 7".
  • FIG. 13 is a diagram showing an example of data (correspondence table) in which intervention results and offline evaluation results are combined.
  • each data consisting of an evaluation data feature amount, a true data feature amount, an offline evaluation value, and a true KPI are shown.
  • the first data are the data to which the baseline intervention allocation was applied
  • the second data are the data to which the model intervention allocation was applied.
  • the feature values of the first data are the evaluation data feature value segment “Age>20”, the data collection month “September”, the sample size “30,000”, and the true data feature value segment “Age>20”,
  • the data collection month is November, the sample size is 15,000, and the IPW, DM, and DR offline ratings are 10, 7, and 9.
  • the true KPI for the first data is "8".
  • the feature values of the second data are the evaluation data feature value segment “Age>20”, the data collection month “September”, the sample size “30,000”, and the true data feature value segment “Age>20”,
  • the data collection month is November, the sample size is 15,000, and the IPW, DM, and DR offline ratings are 6, 8, and 7.
  • the true KPI for the second data is "6".
  • step S92 the offline evaluation method evaluation unit 43 evaluates the offline evaluation method using the actual intervention results (FIG. 11) supplied from the intervention result analysis unit 40.
  • FIG. 14 is a diagram showing an example of data used for evaluation of the offline evaluation method using intervention results.
  • each data consisting of an evaluation data feature amount, a true data feature amount, an online evaluation value, and a true KPI are shown.
  • the first data are the data to which the baseline intervention allocation was applied
  • the second data are the data to which the model intervention allocation was applied.
  • the feature values of the first data are the evaluation data feature value segment “Age>20”, the data collection month “November”, the sample size “15,000”, and the true data feature value segment “Age>20”,
  • the data collection month is November, the sample size is 15,000, and the IPW, DM, and DR offline ratings are 9, 7, and 8.
  • the true KPI for the first data is "8".
  • the feature values of the second data are the evaluation data feature value segment “Age>20”, the data collection month “November”, the sample size “15,000”, and the true data feature value segment “Age>20”,
  • the data collection month is November, the sample size is 15,000, and the IPW, DM, and DR offline ratings are 7, 9, and 8.
  • the true KPI for the second data is "6".
  • FIG. 15 is a diagram showing an example of data stored in the evaluation result storage unit 44 of the offline evaluation method.
  • the first data shown in FIG. 15 is the first data in FIG. 14, and the second data shown in FIG. 15 is the second data in FIG.
  • the third data shown in FIG. 15 is the first data in FIG. 13, and the fourth data shown in FIG. 15 is the second data in FIG.
  • step S93 the offline evaluation model learning unit 45 learns the offline evaluation model using the data (FIG. 15) stored in the evaluation result storage unit 44 of the offline evaluation method.
  • the offline evaluation model is learned using the evaluation data feature amount, the true data feature amount, and the offline evaluation value as feature amounts, and using the true KPI as the objective variable.
  • supervised learning such as linear regression, regression trees, or neural networks is used.
  • the offline evaluation model learned here is used in the next offline evaluation by the model offline evaluation unit 26. At this time, information on assumed online intervention is used as the true data feature amount.
  • Fig. 16 is a diagram showing an example of a UI that can adjust the rate of random intervention.
  • the horizontal axis indicates the ratio of random intervention
  • the vertical axis indicates the KPI according to the ratio of random intervention.
  • the solid line graph represents the baseline KPIs
  • the dash-dotted line graph represents the model KPIs.
  • KPI represents the predicted value of the expected KPI.
  • the UI in Fig. 16 shows an example in which the random intervention rate adjustment bar is positioned at a random intervention rate of 30%. At this time, the vertical axis presents the risk that the KPI for a random intervention rate of 30% will be -10 for the baseline and -5 for the model compared to a random intervention rate of 0%. ing.
  • the UI in Figure 16 shows that the maximum random intervention rate at which a significant difference between the baseline and the model can be expected is when the random intervention rate is 50%.
  • the person in charge on the business side can confirm the corresponding risk by sliding the random intervention rate adjustment bar from 0% to 50% on the UI in Figure 16. This allows operator personnel to determine the rate of random intervention according to acceptable risk.
  • FIG. 17 is a diagram showing an example of the UI presented by the intervention design confirmation unit 36.
  • FIG. 17 is a diagram showing an example of the UI presented by the intervention design confirmation unit 36.
  • the baseline intervention allocation for the user with user ID "00001” is "Gift coupon A”
  • the model intervention allocation is "Gift coupon B”
  • the effect on KPI is "Sales expected value is increased to 200 yen.”
  • FIG. 18 is a diagram showing an example of learning data of an offline evaluation model to which intervention allocation information has been added.
  • the feature values of the first data are the evaluation data feature values of the number of coupon A grantees "2,000” and the number of coupon grantees "10,000", the segment “age > 20", the data collection month “November”, and the sample size " 15,000”.
  • the number of true data feature coupon A grants is "3,000”
  • the number of coupons grants is "8,000”
  • the segment is “age > 20”
  • the data collection month is "November”
  • the sample size is "15,000”
  • IPW, DM and the offline evaluation values of DR are "9, 7, 8”.
  • the true KPI for the first data is "8".
  • the feature value of the third data is the evaluation data feature value of the number of coupon A recipients "5,000” and the number of coupon A recipients "12,000”, the segment “age > 20", the data collection month “September”, and the sample size " 30,000”.
  • the number of true data features with coupon A is "3,000”
  • the number of coupons is "8,000”
  • the segment is “age > 20”
  • the data collection month is "November”
  • the sample size is "15,000”.
  • IPW, DM, and DR are "10, 7, 9".
  • the true KPI for the first data is "8".
  • the feature value of the fourth data is the evaluation data feature value of the number of coupon A grantees "6,000” and the number of coupon grantees "16,000", the segment “age > 20", the data collection month “September”, and the sample size " 30,000”.
  • the number of coupon A grants of the true data feature amount is "2,000”
  • the number of coupon grants is "10,000”
  • the segment is “age > 20”
  • the data collection month is "November”
  • the sample size is "15,000”
  • IPW, DM and the offline evaluation values of DR are "6, 8, 7”.
  • the true KPI for the second data is "6".
  • IPW, DM, and DR have been used as offline evaluation methods, examples have been described, but offline evaluation methods other than IPW, DM, and DR may be used. For example, More Robust Doubly Robust can be used.
  • step S11 the KPI input unit 21 inputs "sales” as a KPI to be optimized by intervention and outputs it to the model learning unit 24 according to the operation of the person in charge on the business side.
  • step S12 the segment input unit 22 inputs "long-term user” as a user segment to be optimized for intervention and outputs it to the model learning unit 24 according to the operator's operation.
  • the baseline input unit 23 inputs a baseline and outputs it to the model learning unit 24 according to the operation of the person in charge on the business side.
  • intervention allocation which was conventionally considered manually by marketers, can be considered.
  • a baseline "Users with a cumulative purchase amount of 100,000 yen or more will be given a 10% OFF coupon, and users with a cumulative purchase amount of less than 100,000 yen will be given a 30% OFF coupon.” is entered.
  • step S14 the model learning unit 24 uses the user log stored in the user log storage unit 39 and intervention information stored in the intervention storage unit 31 to learn a model.
  • the model learns the optimal intervention on a per-user basis targeting user segments supplied from the segment input unit 22 so as to maximize the KPI supplied from the KPI input unit 21 .
  • a new intervention allocation by the model is output.
  • the user log storage unit 39 stores the user's past purchase history. Further, the intervention storage unit 31 stores intervention methods using coupons that have been implemented in the past. For example, the intervention storage unit 31 stores an intervention method using "10% OFF coupon, 30% OFF coupon, and 50% OFF coupon".
  • the model learning unit 24 learns the optimal coupon for each user so as to maximize the KPI "sales" input in advance. For example, “Users with a cumulative purchase amount of 200,000 yen or more have a 10% OFF coupon, users with a cumulative purchase amount of 50,000 yen or more and less than 200,000 yen have a 30% OFF coupon, and users with a cumulative purchase amount of less than 50,000 yen have a 50% OFF coupon. It is assumed that the learning result of "giving A learned model is stored in the model storage unit 25 .
  • step S15 the model offline evaluation unit 26 performs offline evaluation of the model supplied by the model learning unit 24.
  • model offline evaluation unit 26 inputs the data used for offline evaluation, the information on the actual coupon provision schedule, and the predicted value of the expected sales for the intervention allocation of the model and baseline by OPE. Calculate the predicted value of expected sales by
  • FIG. 19 is a diagram showing an example of offline evaluation by the model offline evaluation unit 26.
  • FIG. 19 is a diagram showing an example of offline evaluation by the model offline evaluation unit 26.
  • the input feature values consist of the data used for offline evaluation, the schedule of actual coupons, and the predicted value of expected sales from OPE.
  • the data used for offline evaluation and the actual coupon application schedule each consist of a segment and a sample size.
  • Expected sales forecast by OPE consists of IPW, DM, and DR.
  • the input feature values are that the data used for offline evaluation is the segment "long-term user” and the sample size is "30,000”, and the information on the actual coupon provision schedule is the segment "long-term user”.
  • user the sample size is "10,000”
  • the predicted value of expected sales by OPE is IPW “1000”, DM “700”, and DR "900”.
  • the input feature values are that the data used for offline evaluation is the segment “long-term users” and the sample size is "30,000”, and the information on the actual coupon provision schedule is the segment " Long-term user”, sample size is "10,000”, and expected sales forecast values by OPE are IPW “600”, DM “800”, and DR "700”.
  • the expected sales value predicted by the calculated offline evaluation model is "600”.
  • the data used for offline evaluation are stored as evaluation data feature values and used for learning an offline evaluation model.
  • the actual coupon grant schedule information is saved as a true data feature amount and used for learning an offline evaluation model.
  • the predicted value of the expected sales by the offline evaluation model is saved as the offline evaluation value and used for learning the offline evaluation model.
  • the offline evaluation model has been learned in the previous step S28.
  • step S16 the new intervention target estimating unit 28 estimates, based on the offline evaluation values supplied from the model offline evaluating unit 26, whether there are users for whom existing interventions are unlikely to be effective.
  • step S17 the new intervention target estimating unit 28 determines whether or not there are users for whom existing interventions are unlikely to be effective, based on the estimation results in step S16.
  • step S18 the new intervention target presenting unit 29 presents that there are users for whom existing interventions are unlikely to be effective, and urges the person in charge on the operator side to add new interventions targeting those users.
  • step S ⁇ b>19 the new intervention input unit 30 inputs new intervention information according to the operation of the person in charge on the operator side, and outputs the input intervention information to the intervention storage unit 31 and the intervention design generation unit 34 .
  • the intervention storage unit 31 stores intervention information supplied from the new intervention input unit 30 .
  • step S17 If it is determined in step S17 that there are no users for whom the existing intervention is unlikely to be effective, the processes of steps S18 and S19 are skipped, and the process proceeds to step S20.
  • step S20 the intervention randomization rate estimating unit 32 estimates the optimal rate of user random intervention for randomly allocating coupons.
  • the offline evaluation values show expected sales of 800 yen for the model and 600 yen for the baseline.
  • the intervention randomization rate estimator 32 calculates the sample size necessary to detect a statistically significant difference in sales between the model and the baseline. For example, if the calculation result is "8,000 users are model-applied and 8,000 users are baseline-applied," coupons are given randomly to each of the remaining 2,000 users.
  • step S21 the intervention allocation explanation generating unit 33 generates an intervention allocation explanation including comparison information between the baseline and the model regarding coupon provision and expected sales.
  • FIG. 20 is a diagram showing an example of an intervention allocation explanation generated by the intervention allocation explanation generation unit 33.
  • FIG. 20 is a diagram showing an example of an intervention allocation explanation generated by the intervention allocation explanation generation unit 33.
  • “user” indicates a user feature amount
  • “baseline” indicates a baseline intervention allocation
  • “model” indicates a model intervention allocation
  • “effect on sales ” indicates the expected effect on sales when changing from the baseline intervention allocation to the model intervention allocation.
  • the “user” is “cumulative purchase amount is 200,000 yen or more”, the “baseline” is “10% OFF coupon provision”, and the “model” is “10% OFF coupon provision”.
  • the ⁇ effect on sales'' is ⁇ no change in expected sales''.
  • “user” is “cumulative purchase amount is 100,000 yen or more and less than 200,000 yen”
  • baseline is “10% OFF coupon given”
  • model is “30% OFF Coupon provision”
  • the “Effect on Sales” is “Sales Expected Value Increased from 1,000 Yen to 1,250 Yen”.
  • the intervention design generation unit 34 outputs the generated coupon provision design information to the intervention design storage unit 35 and the intervention unit 37 .
  • the intervention design generation unit 34 also outputs the generated design information of coupon provision to the intervention design confirmation unit 36 .
  • step S23 the intervention design confirmation unit 36 presents the intervention design information supplied from the intervention design generation unit 34 for confirmation by the person in charge on the business side before actually performing the intervention.
  • FIG. 21 is a diagram showing an example of the UI presented by the intervention design confirmation unit 36.
  • FIG. 21 is a diagram showing an example of the UI presented by the intervention design confirmation unit 36.
  • FIG. 21 shows, as shown in the upper left, the UI 120 for final confirmation of the design of coupons with "sales” as the KPI and "long-term users” as the segment.
  • the predicted value of the expected sales is shown as the sales.
  • the calculation results of the sample size required to produce a significant difference in the case of applying the baseline with an expected sales of 550 yen and in the case of applying the model with an expected sales of 740 yen are displayed as follows. Out of 10,000 users, it is presented to be 8,000 users. The remaining 2,000 users will also receive random coupons.
  • the horizontal axis shows the ratio of random coupons, and the vertical axis shows sales according to the ratio of random coupons.
  • the solid line graph represents baseline sales and the dash-dotted line graph represents model sales.
  • the randomization rate adjustment unit 122 shows an example in which the random coupon rate adjustment bar is positioned at a random coupon rate of 20%. At this time, the vertical axis shows the risk that the KPI when the random coupon rate is 20% is 50 lower in the baseline and 60 in the model than when the random coupon rate is 0%. It is
  • FIG. 22 is a diagram showing an example of the UI in which the ratio of random coupons is adjusted in the UI of FIG.
  • Fig. 22 shows an example of a UI that has been adjusted by the person in charge on the business side so that the ratio of random coupons, which used to be 20%, is reduced to 10%.
  • the sample size calculation result was 9,000 users, which was 8,000 users in the randomization rate presentation unit 121 in FIG. , has 1,000 users.
  • the randomization rate adjustment section 122 in FIG. 22 shows an example in which the random coupon rate adjustment bar has been moved from 20% to 10%. At this time, the vertical axis shows that the sales when the random coupon rate is 10% are 25 less in the baseline and 30 less in the model than when the random coupon rate is 0%. , the risk is changed compared to the example of FIG.
  • the business operator slides the adjustment bar in the randomization rate adjustment unit 122, and the expected sales value is displayed in conjunction with the slide of the adjustment bar. This allows the business operator to adjust the acceptable risk and generate the coupon application design information.
  • step S24 based on the coupon application design information generated by the intervention design generation unit 34, coupons are applied to the user, that is, the display unit of the user terminal.
  • step S25 the user state acquisition unit 38 acquires information (user's purchase history) indicating actions taken by the user as a result of the intervention from the UI and sensors of the user terminal, and transmits the acquired information to the user's Output to the log storage unit 39 .
  • information user's purchase history
  • the intervention result analysis unit 40 refers to the purchase history of the user in the user log storage unit 39, compares the model with the baseline, and determines whether or not the actual sales (measured values) have improved. Analyze intervention results.
  • the intervention result analysis unit 40 outputs the comparison result between the model and the baseline to the intervention result confirmation unit 41 and the intervention result storage unit 42 .
  • step S27 the intervention result confirmation unit 41 compares the model analyzed by the intervention result analysis unit 40 with the baseline, as shown in FIG. Present the results.
  • FIG. 23 is a diagram showing an example of the UI presented by the intervention result confirmation unit 41.
  • FIG. 23 is a diagram showing an example of the UI presented by the intervention result confirmation unit 41.
  • FIG. 23 shows, as shown in the upper left, the UI 140 for the final confirmation of the design of coupon provision for the KPI of "sales" and the segment of "long-term user".
  • actual sales values are shown as sales.
  • the calculation result of the sample size required to produce a significant difference between the case of applying the baseline with an average sales of 550 yen and the case of applying the model is displayed for 8,000 users out of 10,000 users. It is presented that the average sales are 600 yen.
  • the calculation result of the sample size required for a significant difference between the case of applying the model with an average sales of 740 yen and the case of applying the baseline is 8,000 users out of 10,000 users, and the average sales are 800 It is presented to be a circle. Both also suggest that the remaining 2,000 users will receive random coupons.
  • the explanation presentation unit 142 presents an intervention allocation explanation about the difference between the sales effect baseline and the model in the actual sales value.
  • the "user” is "cumulative purchase amount is 200,000 yen or more”
  • the “baseline” is “10% OFF coupon given”
  • the “model” is “10% OFF coupon given ' and the 'effect on sales' is 'no change in expected sales value (actual value)'.
  • the actual intervention results supplied from the intervention result analysis unit 40 are data used for offline evaluation, which is data stored in the model offline evaluation result storage unit 27, and It is combined with the offline evaluation value by each OPE and supplied.
  • Fig. 24 shows that the actual coupon provision schedule information was changed from "10,000” to "8,000” in the segment "long-term users", and that the predicted value of the expected sales by the offline evaluation model was changed from the actual
  • the only difference from FIG. 19 is the change to sales (actual measurement) due to coupons.
  • each data consisting of the evaluation data feature amount, the true data feature amount, and the online evaluation value, and the actual sales due to the provision of coupons are shown.
  • the data indicated by the dashed line is the user's data to which the baseline is applied.
  • Data indicated by a solid line are user data to which the model is applied.
  • the model-applied data is used for the evaluation data feature amount and each offline evaluation value, and the baseline is applied for the true data feature amount and the actual sales due to the coupon application. Data are used.
  • the evaluation result storage unit 44 of the offline evaluation method stores the data of FIG. 24 and the data of FIG. 25 supplied from the evaluation unit 43 of the offline evaluation method.
  • a first intervention allocation indicating the correspondence relationship between the user feature amount and the intervention and a second intervention allocation indicating the correspondence relationship between the user feature amount and the intervention newly allocated using the learning model. and comparison information of evaluation expected values when the intervention is performed based on the first intervention allocation and when the intervention is performed based on the second intervention allocation. is generated.
  • causal inference generally assumes that intervention is probabilistic.
  • OPE offline evaluation of models in causal inference
  • OPE can estimate expected KPI values when intervention is performed according to an intervention allocation.
  • OPE method is an offline evaluation method with high estimation accuracy depends on the type and amount of data. Therefore, when performing offline evaluation, it is necessary to decide the OPE method.
  • none of the selection techniques take into account the difference between the data at hand used for offline evaluation and online verification. For example, seasonality and increase/decrease in sample size may occur when conducting an effect verification online. Therefore, it is possible that other OPE methods were more robust than offline evaluation with the selected OPE method.
  • evaluation expected values and data feature values obtained by a plurality of offline evaluation methods for the first intervention allocation and the second intervention allocation are input, and the results of intervention performed based on the intervention allocation to be evaluated are evaluated.
  • An offline evaluation of the learning model is performed using the offline evaluation model for predicting performance values.
  • FIG. 26 is a block diagram showing a hardware configuration example of a computer that executes the series of processes described above by a program.
  • a CPU 301 a CPU (Read Only Memory) 302 and a RAM 303 are interconnected by a bus 304 .
  • An input/output interface 305 is further connected to the bus 304 .
  • the input/output interface 305 is connected to an input unit 306 such as a keyboard and a mouse, and an output unit 307 such as a display and a speaker.
  • the input/output interface 305 is also connected to a storage unit 308 such as a hard disk or nonvolatile memory, a communication unit 309 such as a network interface, and a drive 310 that drives a removable medium 311 .
  • the CPU 301 loads a program stored in the storage unit 308 into the RAM 303 via the input/output interface 305 and the bus 304 and executes the above-described series of processes. is done.
  • the program executed by the computer may be a program that is processed in chronological order according to the order described in this specification, or may be executed in parallel or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • a system means a set of multiple components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a single device housing a plurality of modules in one housing, are both systems. .
  • Embodiments of the present technology are not limited to the above-described embodiments, and various modifications are possible without departing from the gist of the present technology.
  • one step includes multiple processes
  • the multiple processes included in the one step can be executed by one device or shared by multiple devices.
  • This technique can also take the following configurations.
  • an intervention allocation description including comparison information of evaluation expected values between when the intervention is performed based on the first intervention allocation and when the intervention is performed based on the second intervention allocation.
  • An information processing device comprising: a description generation unit that generates a description.
  • the information processing apparatus further comprising a model offline evaluation unit that performs offline evaluation of the learning model using an offline evaluation model for predicting a value.
  • the offline evaluation method includes at least two of Inverse Probability Weighting (IPW), Direct Method (DM), Doubly Robust (DR), and More Robust Doubly Robust.
  • IPW Inverse Probability Weighting
  • DM Direct Method
  • DR Doubly Robust
  • More Robust Doubly Robust More Robust Doubly Robust.
  • the information processing device wherein the first data feature amount and the second data feature amount include at least one of an optimization target user segment, a data collection period, and a sample size.
  • the information processing apparatus wherein the first data feature quantity and the second data feature quantity include the number of people who have undergone the intervention or the ratio of the number of people who have undergone the intervention to the total number of people.
  • the information processing apparatus according to any one of (2) to (7), further comprising an intervention randomization rate estimation unit that determines an intervention randomization rate that is a rate of randomly allocating the intervention to the user.
  • the intervention randomization rate estimator calculates a sample size that is expected to produce a significant difference in the expected evaluation values of the plurality of offline evaluation methods for each of the first intervention allocation and the second intervention allocation.
  • the information processing apparatus according to (8), wherein the ratio of random intervention of the user is determined based on the calculated sample size.
  • the intervention randomization rate estimating unit determines the random intervention rate of the user in response to an operation of a user in charge of intervention design.
  • the description generation unit The offline evaluation model with the user feature amount and the expected evaluation value obtained by the plurality of offline evaluation methods for the first intervention allocation and the second intervention allocation corresponding to each section of the user feature amount as input.
  • the information processing apparatus according to any one of (2) to (13), wherein the intervention allocation explanation is generated using
  • the explanation generation unit generates a comparison information between the first intervention allocation and the second intervention allocation, and a first evaluation performance value of a result of the intervention based on the first intervention allocation and the The information processing apparatus according to (1), wherein the intervention allocation explanation includes comparison information between a result of the intervention performed based on the second intervention allocation and a second evaluation performance value.
  • the information processing apparatus according to any one of (1) to (15), wherein the explanation generation unit generates the intervention allocation explanation for each user.
  • the information processing apparatus according to any one of (1) to (16), further comprising a presentation control unit that controls presentation of the intervention allocation explanation.
  • the information processing apparatus according to any one of (1) to (17), further comprising a model learning unit that learns the learning model that generates the second intervention allocation using a user log and the existing intervention as inputs.
  • the information processing device Comparison information between a first intervention allocation indicating a correspondence relationship between user feature values and interventions and a second intervention allocation indicating a correspondence relationship between the user feature values and interventions newly allocated using a learning model. , and an intervention allocation description including comparison information of evaluation expected values between when the intervention is performed based on the first intervention allocation and when the intervention is performed based on the second intervention allocation. How to generate information.
  • an intervention allocation description including comparison information of evaluation expected values between when the intervention is performed based on the first intervention allocation and when the intervention is performed based on the second intervention allocation.

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Theoretical Computer Science (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本技術は、因果推論の効果検証に適したシステムを構築することができるようにする情報処理装置および方法、並びにプログラムに関する。 介入処理システムは、ユーザ特徴量と介入との対応関係を示す第1の介入割付と、学習モデルを用いて新たに割り付けられたユーザ特徴量と介入との対応関係を示す第2の介入割付との比較情報、および、第1の介入割付に基づいて介入が行われた場合と第2の介入割付に基づいて介入が行われた場合との評価期待値の比較情報を含む介入割付説明を生成する。本技術は、ECサイトのユーザに対してクーポンの付与を行う介入処理システムに適用することができる。

Description

情報処理装置および方法、並びにプログラム
 本技術は、情報処理装置および方法、並びにプログラムに関し、特に、因果推論の効果検証に適したシステムを構築することができるようにした情報処理装置および方法、並びにプログラムに関する。
 EC(Electronic Commerce)サイトにおける、例えば、クーポン付与などの施策立案は、従来、マーケターが行ってきた。しかしながら、近年のデータ活用技術の発達により、ユーザ単位での最適な施策が機械学習モデルにより推定できるようになってきており(特許文献1参照)、実システムでの適用例もある。
 上述した技術は、「介入効果の因果推論(Uplift modeling)」などと呼ばれており、クリックや購入など、一般的な行動予測を行う機械学習モデルとは異なる技術である。例えば、介入による効果(リフト効果)を推定する方法や、リフト効果の推定を行わずに、最適な介入を直接的に推定する方法などがある。
 このような因果推論の技術を用いた介入の最適化を行うためには、因果推論に適したシステム(データ収集、モデルの学習と評価、運用など)が必要である。
特開2016-118975号公報
 しかしながら、既存のシステムは、因果推論の効果検証を想定した設計となっていない。したがって、担当者が人手で、データ収集、機械学習モデルの学習と評価、運用などを行う必要がある。
 すなわち、介入を最適化するために、因果推論の効果検証に適したデータ収集、モデルの学習と評価、および運用がシームレスに継続して可能なシステムが望まれている。
 本技術はこのような状況に鑑みてなされたものであり、因果推論の効果検証に適したシステムを構築することができるようにするものである。
 本技術の一側面の情報処理装置は、ユーザ特徴量と介入との対応関係を示す第1の介入割付と、学習モデルを用いて新たに割り付けられた前記ユーザ特徴量と前記介入との対応関係を示す第2の介入割付との比較情報、および、前記第1の介入割付に基づいて前記介入が行われた場合と前記新しい介入割付に基づいて前記介入が行われた場合との評価期待値の比較情報を含む介入割付説明を生成する説明生成部を備える。
 本技術の一側面においては、ユーザ特徴量と介入との対応関係を示す第1の介入割付と、学習モデルを用いて新たに割り付けられた前記ユーザ特徴量と前記介入との対応関係を示す第2の介入割付との比較情報、および、前記第1の介入割付に基づいて前記介入が行われた場合と前記新しい介入割付に基づいて前記介入が行われた場合との評価期待値の比較情報を含む介入割付説明が生成される。
本技術を適用した介入処理システムの第1の実施の形態の機能構成を示すブロック図である。 介入処理システムの処理を説明するフローチャートである。 ベースラインの介入割付とモデルの介入割付をそのまま対象セグメントのユーザに適用した場合の例を示す図である。 ベースラインの介入割付とモデルの介入割付にランダムな介入を追加した場合の例を示す図である。 図2のステップS16における介入ランダム化率の推定処理を説明するフローチャートである。 ユーザログと介入割付の例を示す図である。 図2のステップS21における介入割付説明の生成について説明するフローチャートである。 決定木の例を示す図である。 介入割付説明に関するUIの例を示す図である。 図2のステップS18におけるオフライン評価モデルの学習について説明するフローチャートである。 介入結果解析部から供給される実際の介入結果のデータの例を示す図である。 モデルオフライン評価結果保存部に保存されるデータの例を示す図である。 介入結果とオフライン評価結果とが結合されたデータの例を示す図である。 介入結果を用いたオフライン評価方法の評価により得られるデータの例を示す図である。 オフライン評価方法の評価結果保存部に保存されるデータの例を示す図である。 ランダム介入の割合を調整できるUIの例を示す図である。 介入設計確認部により提示されるUIの例を示す図である。 介入割付の情報を追加したオフライン評価モデルの学習データの例を示す図である。 モデルオフライン評価部によるオフライン評価の例を示す図である。 生成された介入割付説明の例を示す図である。 介入設計確認部により提示されるUIの例を示す図である。 図21のUIにおいて、ランダムなクーポン付与の割合を調整したUIの例を示す図である。 介入結果確認部により提示されるUIの例を示す図である。 モデルオフライン評価結果保存部に保存されているデータと実際のクーポン付与結果が結合したデータの例を示す図である。 介入結果を用いたオフライン評価方法の評価により得られるデータの例を示す図である。 コンピュータの構成例を示すブロック図である。
 以下、本技術を実施するための形態について説明する。説明は以下の順序で行う情報を提示すること。
1.介入処理システム
2.変形例
3.ユースケース
4.その他
<1.介入処理システム>
 <介入処理システムの構成例>
 図1は、本技術を適用した介入処理システムの実施の形態の機能構成を示すブロック図である。
 図1の介入処理システム11は、評価値の1つであるKPI(Key Performance Indicator)向上のために、ユーザに対して、介入を行う。介入とは、コンテンツに対するユーザの行動(視聴、購入、クリックなど)を促すための情報提示や施策配信などのアクションである。施策配信としては、例えば、EC(Electronic Commerce)サイトにおけるクーポン付与などが挙げられる。以下、評価値としてKPIを用いて、本技術について説明していくが、他の評価値を用いるようにしてもよい。
 図1に示す機能構成は、図示せぬサーバなどのCPUにより所定のプログラムが実行されることによって実現される。
 介入処理システム11は、KPI入力部21、セグメント入力部22、ベースライン入力部23、モデル学習部24、モデル保存部25、モデルオフライン評価部26、およびモデルオフライン評価結果保存部27を含むように構成される。介入処理システム11は、新規介入ターゲット推定部28、新規介入ターゲット提示部29、新規介入入力部30、介入保存部31、介入ランダム化率推定部32、介入割付説明生成部33、および介入設計生成部34を含むように構成される。
 また、介入処理システム11は、介入設計保存部35、介入設計確認部36、介入部37、ユーザ状態取得部38、ユーザログ保存部39、および介入結果解析部40を含むように構成される。介入処理システム11は、介入結果確認部41、介入結果保存部42、オフライン評価方法の評価部43、オフライン評価方法の評価結果保存部44、およびオフライン評価モデルの学習部45を含むように構成される。
 KPI入力部21は、事業者側担当者の操作に応じて、介入によって最適化したいKPIを入力し、モデル学習部24に出力する。KPIは、例えば、売上、購入数、または、サイト訪問数などである。複数のKPIが入力されてもよい。
 セグメント入力部22は、事業者側担当者の操作に応じて、介入の最適化対象とするユーザセグメント(区分)を入力し、モデル学習部24に出力する。例えば、ECサイトなどのクーポン付与が介入で与えられる場合、当該ECサイトを長い期間利用している長期利用ユーザや年配者ユーザ、男性ユーザなどが最適化対象のユーザセグメントとして入力される。
 ベースライン入力部23は、事業者側担当者の操作に応じて、ベースラインを入力し、モデル学習部24に出力する。ベースラインとは、モデルの学習による新しい介入割付との比較対象となる既存の介入割付のことであり、例えば、従来マーケターが人手で考えていた介入割付などが挙げられる。
 ここで、介入割付とは、どのユーザ特徴量にどの介入を割り付けるか、すなわち、ユーザ特徴量と介入の対応関係を示す情報である。
 モデル学習部24は、ユーザログ保存部39に保存されるユーザログおよび介入保存部31に保存される介入の情報を用いて、モデルを学習する。モデルは、KPI入力部21から供給されるKPIを最大化するように、セグメント入力部22から供給されるユーザセグメントを対象とするユーザ単位で最適な介入割付を学習する。モデルの学習結果として、モデルによる新しい介入割付が出力される。
 モデル学習部24は、学習したモデルを、モデル保存部25に出力する。モデル学習部24は、学習したモデルと、モデルの学習に用いたデータをモデルオフライン評価部26に出力する。
 モデル保存部25は、モデル学習部24から供給されるモデルを保存する。
 モデルオフライン評価部26は、モデル学習部24により供給されるモデルのオフライン評価を行う。
 モデルオフライン評価部26で行う因果推論を用いたモデルのオフライン評価は、一般的な行動予測の機械学習とは異なる。因果推論を用いたモデルのオフライン評価は、Off-Policy evaluation(OPE)と呼ばれ、数多くの方法が存在する。例えば、Inverse Probability Weighting(IPW)、Direct Method(DM)、およびDoubly Robust(DR)などのOPE方法が存在する。OPEを行うことで、ある介入割付に従って介入した場合に期待される期待KPIの予測値(以下、KPI(評価)期待値とも称する)が算出される。
 モデルオフライン評価部26においては、オフライン評価モデルの学習部45により学習されたオフライン評価モデルが用いられる。オフライン評価モデルは、「IPW、DM、DRなどの複数のOPEでの期待KPIの予測値とデータ特徴量を入力として、真のKPIを予測するモデル」である。真のKPIは、評価したい評価対象の介入割付を実施したときの実際のKPI(評価)実測値である。
 モデルオフライン評価部26は、オフライン評価に用いるデータ、実際の介入予定の情報、OPEによる介入割付(モデルとベースライン)に対する期待KPIの予測値を、オフライン評価モデルの入力として、オフライン評価モデルによる期待KPIの予測値を算出する。このオフライン評価モデルによる期待KPIの予測値が、オフライン評価値となる。このオフライン評価モデルを用いることで、複数のOPE方法でのオフライン評価値を用いたオフライン評価を行うことができる。
 なお、オフライン評価に用いるデータは、多くの場合、モデルの学習に用いるデータと同じデータである。
 オフライン評価に用いるデータおよびOPEによる期待KPIの予測値などは、モデルオフライン評価結果保存部27および介入ランダム化率推定部32に出力される。算出されたオフライン評価値は、新規介入ターゲット推定部28に出力される。
 モデルオフライン評価結果保存部27は、モデルオフライン評価部26により供給されるオフライン評価に用いるデータおよびOPEによる期待KPIの予測値などを保存する。モデルオフライン評価結果保存部27において、各OPEによる期待KPIの予測値は、各OPEによるオフライン評価値として保存される。
 新規介入ターゲット推定部28は、モデルオフライン評価部26により供給されるオフライン評価値に基づいて、既存の介入では効果が見込めないユーザがいるか否かを推定する。既存の介入では効果が見込めないユーザがいると推定した場合、新規介入ターゲット推定部28は、そのユーザ特徴量を抽出し、抽出したユーザ特徴量を新規介入ターゲット提示部29に出力する。
 新規介入ターゲット提示部29は、新規介入ターゲット推定部28から供給されるユーザ特徴量に基づいて、既存の介入では効果が見込めないユーザの特徴量を提示し、そのユーザを狙った新規介入の追加を事業者側担当者に促す。
 新規介入入力部30は、事業者側担当者の操作に応じて、新規の介入の情報を入力し、入力した介入の情報を介入保存部31および介入設計生成部34に出力する。
 介入保存部31は、新規介入入力部30から供給される介入の情報を保存する。
 介入ランダム化率推定部32は、ユーザへのランダム介入の最適な割合を推定する。ユーザのランダム介入の割合とは、介入をランダムにユーザに割り付ける割合のことである。介入ランダム化率推定部32は、モデルオフライン評価部26から供給されるオフライン評価に用いるデータとともに、推定したユーザのランダム介入の割合を介入割付説明生成部33に出力する。
 介入割付説明生成部33は、介入および期待KPIの予測値についてのベースラインとモデルとの比較情報(差分情報)を含む介入割付説明を生成する。その際、介入ランダム化率推定部32から供給されるオフライン評価に用いるデータとともに、ユーザのランダム介入の割合も参照される。介入割付説明生成部33は、オフライン評価に用いるデータ、ユーザのランダム介入の割合とともに、生成した介入割付説明を介入設計生成部34に出力する。
 介入設計生成部34は、介入割付説明生成部33から供給される、オフライン評価に用いるデータ、ユーザのランダム介入の割合、および介入割付説明などに基づいて、最終的な介入の設計情報を生成する。なお、介入設計生成部34においては、新規介入入力部30により供給される新規の介入の情報も参照される。介入設計生成部34は、生成した介入の設計情報を介入設計保存部35および介入部37に出力する。介入設計生成部34は、生成した介入設計情報を介入設計確認部36にも出力する。
 介入設計保存部35は、介入設計生成部34から供給される介入の設計情報を保存する。
 介入設計確認部36は、実際に介入を行う前に事業者側担当者に確認させるために、介入設計生成部34から供給される介入の設計情報を提示する。
 介入部37は、介入設計生成部34により生成された介入の設計情報に基づいて、ユーザ、すなわち、ユーザ端末の表示部に対して、介入を実施する。
 ユーザ状態取得部38は、介入が行われた結果、ユーザがとった行動を示す情報を、ユーザ端末のUI(User Interface)やセンサから取得し、取得した情報を、ユーザログ保存部39に出力する。なお、介入が行われていない状態においても、ユーザがとった行動を示す情報が、ユーザ状態取得部38により取得される。
 ユーザがとった行動とは、介入に対するクリックやタップ、商品の購入、コンテンツの詳細ページの閲覧、コンテンツの実際の視聴、視聴完了の有無、good/bad、または5段階評価などのフィードバックなどである。
 ユーザ状態取得部38は、取得した情報がセンサデータである場合、センサデータに基づいて、ユーザの表情やその他の生体情報から動作(すなわち、ユーザがとった行動)を推定し、推定した動作を示す情報などを、ユーザログ保存部39に出力する。
 ユーザログ保存部39は、ユーザ状態取得部38から供給される情報を、ユーザログとして保存する。なお、ユーザログ保存部39は、ユーザログに対応付けて、介入部37において行われた介入に関する情報(例えば、どのコンテンツの介入であるかを示すコンテンツIDや介入を識別する介入IDなど)も保存する。
 介入結果解析部40は、ユーザログ保存部39のユーザログを参照し、モデルの介入割付とベースラインの介入割付とを比較して、KPI実測値に改善が見られたか否かなど介入結果を解析する。
 介入結果解析部40は、モデルの介入割付とベースラインの介入割付との比較結果を、介入結果確認部41および介入結果保存部42に出力する。介入結果解析部40は、また、実際の介入結果をオフライン評価方法の評価部43およびオフライン評価方法の評価結果保存部44に出力する。その際、オフライン評価方法の評価結果保存部44には、実際の介入結果が、モデルオフライン評価結果保存部27に保存されているデータであるオフライン評価に用いたデータおよび各OPEによるオフライン評価値などと結合されて供給される。
 介入結果確認部41は、介入結果を事業者側担当者に確認させるために、介入結果解析部40により解析されたモデルの介入割付とベースラインの介入割付との比較結果を提示する。
 介入結果保存部42は、介入結果解析部40から供給される実際の介入結果を保存する。
 オフライン評価方法の評価部43は、介入結果解析部40から供給される実際の介入結果に基づいて、各OPE方法を評価する。すなわち、オフライン評価方法の評価部43は、モデルによる介入割付を実施したユーザのデータと、ベースラインによる介入割付を実施したユーザのデータとを用いて、各OPEによるオフライン評価値を評価する。なお、以下、モデルによる介入割付を実施したユーザのデータは、モデルを適用したユーザのデータと称し、ベースラインによる介入割付を実施したユーザのデータは、ベースラインを適用したユーザのデータと称する。
 オフライン評価方法の評価部43は、モデルを適用したユーザのデータ、ベースラインを適用したユーザのデータ、および、それぞれを用いたOPEによるオフライン評価値の評価結果を、オフライン評価方法の評価結果保存部44に出力する。
 オフライン評価方法の評価結果保存部44は、オフライン評価方法の評価部43から供給されるモデルを適用したユーザのデータ、ベースラインを適用したユーザのデータ、および、それぞれを用いたOPEによるオフライン評価値の評価結果を保存する。さらに、オフライン評価方法の評価結果保存部44は、介入結果解析部40から供給される実際の介入結果と、モデルオフライン評価結果保存部27に保存されているデータとが結合されたデータを保存する。
 オフライン評価モデルの学習部45は、オフライン評価方法の評価結果保存部44に保存されているデータを用いて、オフライン評価モデルを学習する。オフライン評価モデルの学習部45は、学習したオフライン評価モデルをモデルオフライン評価部26に出力する。
 <介入処理システムの処理例>
 図2は、介入処理システム11の処理を説明するフローチャートである。
 ステップS11において、KPI入力部21は、事業者側担当者の操作に応じて、介入によって最適化したいKPIを入力し、モデル学習部24に出力する。
 ステップS12において、セグメント入力部22は、事業者側担当者の操作に応じて、介入の最適化対象とするユーザセグメントを入力し、モデル学習部24に出力する。
 ステップS13において、ベースライン入力部23は、事業者側担当者の操作に応じて、ベースラインを入力し、モデル学習部24に出力する。
 ステップS14において、モデル学習部24は、ユーザログ保存部39に保存されるユーザログおよび介入保存部31に保存される介入の情報を用いて、モデルを学習し、その学習結果として、新しい介入割付を出力する。
 モデル学習部24は、学習したモデルを、モデル保存部25に出力する。モデル学習部24は、学習したモデルと、モデルの学習に用いたデータをモデルオフライン評価部26に出力する。
 ステップS15において、モデルオフライン評価部26は、モデル学習部24により供給されたモデルのオフライン評価を行う。オフライン評価に用いるデータおよびOPEによる期待KPIの予測値などは、モデルオフライン評価結果保存部27および介入ランダム化率推定部32に出力される。算出されたオフライン評価値は、新規介入ターゲット推定部28に出力される。
 ステップS16において、新規介入ターゲット推定部28は、モデルオフライン評価部26から供給されるオフライン評価値に基づいて、既存の介入では効果が見込めないユーザがいるかを推定する。
 ステップS17において、新規介入ターゲット推定部28は、ステップS16での推定結果に基づいて、既存の介入では効果が見込めないユーザがいるか否かを判定する。既存の介入では効果が見込めないユーザがいるとステップS17において判定された場合、処理は、ステップS18に進む。この場合、新規介入ターゲット推定部28は、既存の介入では効果が見込めないユーザのユーザ特徴量を抽出し、抽出したユーザ特徴量を新規介入ターゲット提示部29に出力する。
 ステップS18において、新規介入ターゲット提示部29は、新規介入ターゲット推定部28から供給されるユーザ特徴量に基づいて、既存の介入では効果が見込めないユーザの特徴を提示し、そのユーザを狙った新規介入の追加を事業者側担当者に促す。
 ステップS19において、新規介入入力部30は、事業者側担当者の操作に応じて、新規の介入の情報を入力し、入力した介入の情報を介入保存部31および介入設計生成部34に出力する。介入保存部31は、新規介入入力部30から供給される介入の情報を保存する。
 ステップS17において、既存の介入では効果が見込めないユーザがいないと判定された場合、ステップS18およびS19の処理はスキップされ、処理は、ステップS20に進む。
 ステップS20において、介入ランダム化率推定部32は、ユーザのランダム介入の最適な割合を推定する。介入ランダム化率推定部32は、モデルオフライン評価部26から供給されるオフライン評価に用いるデータ、各OPEによる期待KPIの予測値などとともに、推定したユーザのランダム介入の割合を介入割付説明生成部33に出力する。
 ステップS21において、介入割付説明生成部33は、ユーザのランダム介入の割合を参照して、介入および期待KPIの予測値についてのベースラインとモデルの比較情報を含む介入割付説明を生成する。介入割付説明生成部33は、介入ランダム化率推定部32から供給されるオフライン評価に用いるデータおよびユーザのランダム介入の割合と、生成した介入割付説明とを介入設計生成部34に出力する。
 ステップS22において、介入設計生成部34は、介入割付説明生成部33から供給される、オフライン評価に用いるデータ、各OPEによる期待KPIの予測値、ユーザのランダム介入の割合、および介入割付説明に基づいて、最終的な介入の設計情報を生成する。
 介入設計生成部34は、生成した介入の設計情報を介入設計保存部35および介入部37に出力する。介入設計生成部34は、生成した介入の設計情報を介入設計確認部36にも出力する。
 ステップS23において、介入設計確認部36は、実際に介入を行う前に事業者側担当者に確認させるために、介入設計生成部34から供給される介入の設計情報を提示する。
 ステップS24において、介入設計生成部34により生成された介入の設計情報に基づいて、ユーザ、すなわち、ユーザ端末の表示部に対して、介入を実施する。
 ステップS25において、ユーザ状態取得部38は、介入が行われた結果、ユーザがとった行動を示す情報を、ユーザ端末のUIやセンサから取得し、取得した情報を、ユーザログ保存部39に出力する。
 ステップS26において、介入結果解析部40は、ユーザログ保存部39のユーザログを参照し、モデルの介入割付とベースラインの介入割付を比較して、KPI実績値に改善が見られたか否かなど介入結果を解析する。介入結果解析部40は、モデルとベースラインの比較結果を、介入結果確認部41および介入結果保存部42に出力する。
 ステップS27において、介入結果確認部41は、介入結果を事業者側担当者に確認させるために、介入結果解析部40により比較されたモデルの介入割付とベースラインの介入割付の比較結果を提示する。
 ステップS28において、オフライン評価方法の評価部43およびオフライン評価モデルの学習部45は、オフライン評価方法を評価し、オフライン評価モデルを学習する。
 すなわち、オフライン評価方法の評価部43は、介入結果解析部40から供給される実際の介入結果に基づいて、各OPEによるオフライン評価値を評価する。
 オフライン評価方法の評価部43は、モデルを適用したユーザのデータ、ベースラインを適用したユーザのデータ、および、それぞれを用いたOPEによるオフライン評価値の評価結果を、オフライン評価方法の評価結果保存部44に出力する。介入結果解析部40から供給される実際の介入結果は、モデルオフライン評価結果保存部27に保存されているデータであるオフライン評価に用いるデータおよび各OPEによるオフライン評価値などと結合されて、オフライン評価方法の評価結果保存部44に供給される。
 オフライン評価方法の評価結果保存部44は、オフライン評価方法の評価部43から供給されるモデルを適用したユーザのデータ、ベースラインを適用したユーザのデータ、および、それぞれを用いたOPEによるオフライン評価値の評価結果を保存する。オフライン評価方法の評価結果保存部44は、介入結果解析部40から供給される実際の介入結果と、モデルオフライン評価結果保存部27に保存されているデータであるオフライン評価に用いるデータおよび各OPEによるオフライン評価値などが結合されたデータを保存する。
 オフライン評価モデルの学習部45は、オフライン評価方法の評価結果保存部44に保存されているデータを用いて、オフライン評価モデルを学習する。オフライン評価モデルの学習部45は、学習したオフライン評価モデルをモデルオフライン評価部326に出力する。
 なお、ステップS28において学習したオフライン評価モデルは、次回のステップS15におけるオフライン評価を行う際に用いられる。したがって、図2を参照して上述した処理を繰り返すことによりオフライン評価方法の評価結果保存部44に保存されるデータは、増えていき、オフライン評価モデルの精度が向上していく。
 <本技術の主要な3つの要素>
 次に、本技術の主要な3つの要素について順に説明する。3つの要素は、図2のステップS16における介入ランダム化率の推定、ステップS21における介入割付説明の生成、およびステップS28におけるオフライン評価モデルの学習である。
 <介入ランダム化率の推定>
 まず、図2のステップS16における介入ランダム化率の推定について説明する。
 図3は、ベースラインの介入割付とモデルの介入割付をそのまま対象セグメントのユーザに適用した場合の例を示す図である。
 ベースラインの介入割付とモデルによる介入割付は、一般的には決定論的である。
 例えば、クーポンAとクーポンBの片方を各ユーザに付与(介入)する場合を考える。この場合、各ユーザに対する介入割付の確率が、「クーポンA:100%、クーポンB:0%」や「クーポンA:0%、クーポンB:100%」であるとき、これらの介入割付は、決定論的な介入割付となる。
 すなわち、図3においては、対象セグメントのユーザに対するベースラインの介入割付もモデルの介入割付も、決定論的であることが表されている。すなわち、ユーザ毎の介入割付の確率が、「クーポンA:100%、クーポンB:0%」または「クーポンA:0%、クーポンB:100%」である。
 一方、各ユーザに対する介入割付が0%または100%でないとき、これらの介入割付は、確率的な介入割付となる。
 したがって、図3に示されるように、決定論的な介入割付のまま、介入を実施した場合、収集したデータは、決定論的な介入がなされていることになる。そのため、因果推論を用いたモデルの学習および評価に適していないデータになってしまう。
 そこで、図4の下部に示されるように、対象セグメントのユーザのうち、一部のユーザに対してランダムな介入を追加することにより、確率的な介入割付が実現される。
 図4は、ベースラインの介入割付とモデルの介入割付にランダムな介入を追加した場合の例を示す図である。
 図4においては、対象セグメントのユーザのうち、一部のユーザに対してランダムな介入が追加されている。
 このとき、追加される介入、すなわち、ランダムな介入を実施するユーザが多いほど、因果推論により適したデータとなる。一方、この場合、ベースラインとモデルの介入割付を直接適用したユーザが少なくなってしまうため、ベースラインの介入割付とモデルの介入割付を比較したときに、KPIに有意な改善が見られなくなる可能性が高まる。
 そこで、介入ランダム化率推定部32は、図4に示されるランダムな介入を実施するユーザの最適なサンプルサイズを推定する。
 図5は、図2のステップS16における介入ランダム化率の推定処理を説明するフローチャートである。
 ステップS51において、介入ランダム化率推定部32は、ベースラインとモデルで期待KPIの予測値に有意差が出る最低サンプルサイズを計算する。
 その際、介入ランダム化率推定部32は、ベースラインの介入割付とモデルの介入割付それぞれのオフライン評価結果に基づいて、統計学的検定をしたときに期待KPIの予測値に有意な差が出ると期待されるサンプルサイズを計算する。
 ここでは、統計学的検定の一例として、t検定が用いられる。検出力、有意水準、効果量を指定すると、必要なサンプルサイズが計算されるが、一般的な値として、検出力=0.8、有意水準=0.05に設定される。効果量は、オフライン評価結果(ベースラインとモデルそれぞれの期待KPIの予測値)に基づいて計算可能であるため、サンプルサイズが計算される。
 ステップS52において、介入ランダム化率推定部32は、図4に示されるランダムに介入するサンプルサイズを計算する。
 その際、介入ランダム化率推定部32は、ステップS51で計算されたベースラインとモデルで期待KPIの予測値に有意差が出る最低サンプルサイズを、対象セグメントのユーザ数から引く。これにより、ランダムな介入をするユーザのサンプルサイズを計算することができる。
 <介入割付説明の生成>
 次に、図2のステップS21における介入割付説明の生成について説明する。
 図6は、ユーザログ保存部39に保存されているユーザログと、ユーザログに対する介入割付の例を示す図である。
 図6において、ユーザログは、ユーザ特徴量、介入、およびKPI実測値から構成される。ユーザ特徴量は、「性別」、「年齢」、および「地域」からなる。介入は、「クーポンAを付与」、「クーポンBを付与」、「何も付与しない」からなる。KPIは、「売上」とする。
 これらのユーザログの各ユーザ特徴量に対して、ベースラインによる介入割付が存在し、モデルによる介入割付が生成される場合を考える。
 1番目のデータは、「性別」が男性であり、「年齢」が20代であり、「地域」が千葉であり、「介入」がクーポンAであり、「売上」が3,000円である。1番目のデータに対するベースラインの介入割付はクーポンAであり、1番目のデータに対するモデルの介入割付はクーポンAである。
 2番目のデータは、「性別」が女性であり、「年齢」が30代であり、「地域」が東京であり、「介入」がなしであり、「売上」が2,000円である。2番目のデータに対するベースラインの介入割付はクーポンBであり、2番目のデータに対するモデルの介入割付はなしである。
 3番目のデータは、「性別」が男性であり、「年齢」が40代であり、「地域」が埼玉であり、「介入」がクーポンBであり、「売上」が1,000円である。3番目のデータに対するベースラインの介入割付はなしであり、3番目のデータに対するモデルの介入割付はなしである。
 介入割付説明生成部33は、以上のように構成される、ユーザログと介入割付が存在する場合に、「モデルによる新しい介入割付はベースラインの介入割付からどのように変化し、その結果、どの程度の効果が期待できるか」という介入割付説明を生成する。
 図7は、図2のステップS21における介入割付説明の生成について説明するフローチャートである。
 ステップS71において、介入割付説明生成部33は、ユーザ特徴量の区画毎に、ベースラインとモデルの介入割付のペアを対応させる。
 すなわち、介入割付説明生成部33は、ベースラインの介入割付とモデルの介入割付とをペアで1つの変数と捉えて、ユーザ特徴量との対応関係を求める。その際、例えば、図8を参照して後述される決定木が用いられる。この場合、ベースラインの介入割付とモデルの介入割付のペアをユーザ特徴量に基づいて推測する決定木が学習される。
 図8は、ベースラインの介入割付とモデルの介入割付のペアをユーザ特徴量に基づいて推測する決定木の例を示す図である。
 図8において、決定木の各ノードには、ベースラインとモデルの介入割付が示されている。矢印は、サンプルの条件分岐を表し、矢印上には、サンプルを分類する条件が示されている。
 最上段のノードN1において、ユーザ特徴量「年齢」が40より小さいサンプルは、ノードN2-1に分割され、ユーザ特徴量「年齢」が40以上のサンプルは、ノードN2-2に分割される。
 ノードN2-1において、ベースラインとモデルの介入割付は、(クーポンA,クーポンA)、(クーポンA,クーポンB)、(クーポンA,なし)、(クーポンB,クーポンA)、(クーポンB,クーポンB)、または(クーポンB,なし)とされる。ノードN2-1において、ユーザ特徴量「性別」が男性であるサンプルは、ノードN3-1に分割され、ユーザ特徴量「性別」が女性であるサンプルは、ノードN3-2に分割される。
 ノードN2-2において、ベースラインとモデルの介入割付は、(なし,クーポンA)、(なし,クーポンB)、または(なし,なし)とされる。ノードN2-2において、ユーザ特徴量「性別」が女性であるサンプルは、ノードN3-3に分割され、ユーザ特徴量「性別」が男性であるサンプルは、ノードN3-4に分割される。
 ノードN3-1において、ベースラインとモデルの介入割付は、(クーポンA,クーポンA)、(クーポンA,クーポンB)、または(クーポンA,なし)とされる。ノードN3-1において、ユーザ特徴量「地域」が千葉であるサンプルは、ノードN4-1に分割され、ユーザ特徴量「地域」が千葉以外であるサンプルは、ノードN4-2に分割される。
 ノードN3-2において、ベースラインとモデルの介入割付は、(クーポンB,クーポンA)、(クーポンB,クーポンB)、または(クーポンB,なし)とされる。ノードN3-2において、ユーザ特徴量「地域」が東京であるサンプルは、ノードN4-3に分割され、ユーザ特徴量「地域」が東京以外であるサンプルは、ノードN4-4に分割される。
 ノードN3-3において、ベースラインとモデルの介入割付は、(なし,クーポンA)とされる。ノードN3-3において、サンプルは分割されない。すなわち、ユーザ特徴量「年齢」が40歳未満で、ユーザ特徴量「性別」が女性であるサンプルのベースラインとモデルの介入割付は、ノードN3-3に示される(なし,クーポンA)とされる。
 ノードN3-4において、ベースラインとモデルの介入割付は、(なし,クーポンB)、または(なし,なし)とされる。ノードN3-4において、ユーザ特徴量「地域」が埼玉以外であるサンプルは、ノードN4-5に分割され、ユーザ特徴量「地域」が埼玉であるサンプルは、ノードN4-6に分割される。
 ノードN4-1において、ベースラインとモデルの介入割付は、(クーポンA,クーポンA)または(クーポンA,クーポンB)とされる。ノードN4-1において、ユーザ特徴量「年齢」が25歳より小さいサンプルは、ノードN5-1に分割され、ユーザ特徴量「年齢」が25歳以上であるサンプルは、ノードN5-2に分割される。
 ノードN4-2において、ベースラインとモデルの介入割付は、(クーポンA,なし)とされる。ノードN4-2において、サンプルは分割されない。すなわち、ユーザ特徴量「年齢」が40歳未満であり、ユーザ特徴量「性別」が男性であり、ユーザ特徴量「地域」が千葉以外であるサンプルのベースラインとモデルの介入割付は、ノードN4-2に示される(クーポンA,なし)とされる。
 ノードN4-3において、ベースラインとモデルの介入割付は、(クーポンB,なし)とされる。ノードN4-3において、サンプルは分割されない。すなわち、ユーザ特徴量「年齢」が40歳未満であり、ユーザ特徴量「性別」が女性であり、ユーザ特徴量「地域」が東京であるサンプルのベースラインとモデルの介入割付は、ノードN4-3に示される(クーポンB,なし)とされる。
 ノードN4-4において、ベースラインとモデルの介入割付は、(クーポンB,クーポンA)、または(クーポンB,クーポンB)とされる。ノードN4-4において、ユーザ特徴量「年齢」が30歳未満であるサンプルは、ノードN5-3に分割され、ユーザ特徴量「年齢」が30歳以上であるサンプルは、ノードN5-4に分割される。
 ノードN4-5において、ベースラインとモデルの介入割付は、(なし,クーポンB)とされる。ノードN4-5において、サンプルは分割されない。すなわち、ユーザ特徴量「年齢」が40歳以上であり、ユーザ特徴量「性別」が男性であり、ユーザ特徴量「地域」が埼玉以外であるサンプルのベースラインとモデルの介入割付は、ノードN4-5に示される(なし,クーポンB)とされる。
 ノードN4-6において、ベースラインとモデルの介入割付は、(なし,なし)とされる。ノードN4-6において、サンプルは分割されない。すなわち、ユーザ特徴量「年齢」が40歳以上であり、ユーザ特徴量「性別」が男性であり、ユーザ特徴量「地域」が埼玉であるサンプルのベースラインとモデルの介入割付は、ノードN4-6に示される(なし,なし)とされる。
 ノードN5-1において、ベースラインとモデルの介入割付は、(クーポンA,クーポンA)とされる。ノードN5-1において、サンプルは分割されない。すなわち、ユーザ特徴量「年齢」が25歳未満であり、ユーザ特徴量「性別」が男性であり、ユーザ特徴量「地域」が千葉である、サンプルのベースラインとモデルの介入割付は、ノードN5-1に示される(クーポンA,クーポンA)とされる。
 ノードN5-2において、ベースラインとモデルの介入割付は、(クーポンA,クーポンB)とされる。ノードN5-2において、サンプルは分割されない。すなわち、ユーザ特徴量「年齢」が25歳以上40歳未満であり、ユーザ特徴量「性別」が男性であり、ユーザ特徴量「地域」が千葉である、サンプルのベースラインとモデルの介入割付は、ノードN5-2に示される(クーポンA,クーポンB)とされる。
 ノードN5-3において、ベースラインとモデルの介入割付は、(クーポンB,クーポンA)とされる。ノードN5-3において、サンプルは分割されない。すなわち、ユーザ特徴量「年齢」が30歳未満であり、ユーザ特徴量「性別」が女性であり、ユーザ特徴量「地域」が東京以外である、サンプルのベースラインとモデルの介入割付は、ノードN5-3に示される(クーポンB,クーポンA)とされる。
 ノードN5-4において、ベースラインとモデルの介入割付は、(クーポンB,クーポンB)とされる。ノードN5-4において、サンプルは分割されない。すなわち、ユーザ特徴量「年齢」が30歳以上40歳未満であり、ユーザ特徴量「性別」が女性であり、ユーザ特徴量「地域」が東京以外である、サンプルのベースラインとモデルの介入割付は、ノードN5-4に示される(クーポンB,クーポンB)とされる。
 次に、図7に戻って、ステップS72において、介入割付説明生成部33は、ユーザ特徴量の区画毎に、オフライン評価モデルを用いて、期待KPIの予測値を推定する。
 すなわち、介入割付説明生成部33は、図8のノード5-2におけるユーザ特徴量「男性、25歳以上40歳未満、千葉」については、ベースラインの介入割付に基づき、クーポンAを付与した場合の期待KPIの予測値と、モデルの介入割付に基づき、クーポンBを付与した場合の期待KPIの予測値を、オフライン評価モデルを用いて推定する。
 これにより、介入割付説明生成部33は、ユーザ特徴量毎に、モデルによる新しい介入割付が、ベースラインの介入割付からどのように変化し、その結果、どの程度の効果が期待できるか、という介入割付説明を生成できる。
 この結果は、介入設計確認部36に提示させることにより、事業者側担当者に確認させることもできる。
 図9は、介入割付説明に関するUIの例を示す図である。
 図9のUIには、「ユーザ」として、ユーザ特徴量が示され、「ベースライン」として、ベースラインの介入割付が示され、「モデル」として、モデルの介入割付が示され、「KPIへの効果」として、ベースラインの介入割付からモデルの介入割付に変えた場合、どのくらいのKPIへの効果が見込まれるかが示されている。
 1番目の介入割付説明には、「男性、25-40歳、千葉」の「ユーザ」に対して、「クーポンAを付与」する「ベースライン」の介入割付から、「クーポンBを付与」する「モデル」の介入割付に変えた場合、「売上期待値が2,000円から2,800円に増加」する「KPIへの効果」が期待できることが示されている。
 2番目の介入割付説明には、「女性、30歳未満、東京以外」の「ユーザ」に対して、「クーポンBを付与」する「ベースライン」の介入割付から、「クーポンAを付与」する「モデル」の介入割付に変えた場合、「売上期待値が1,200円から2,000円に増加」する「KPIへの効果」が期待できることが示されている。
 図9のUIが、例えば、介入設計確認部36により提示されることで、事業者側担当者は、介入割付説明を確認することができる。
 <オフライン評価モデルの詳細>
 次に、図2のステップS18におけるオフライン評価モデルの学習について説明する。
 オフライン評価を行う場合、一般的に、データに実際に適用されている介入割付と、評価したい介入割付とが異なることが多い。例えば、季節性(収集月)の違いやサンプルサイズの増減が生じることがある。評価対象の介入割付を行った結果のKPI実測値である、真のKPIを知るためには、実際に、評価対象の介入割付を、オンラインで行う必要がある。
 以下においては、説明の便宜上、各種データの名前を定義する。評価対象の介入割付とは異なる介入割付が適用されているデータを「評価用データ」、オンラインで、実際に評価したい評価対象の介入割付を適用したデータを「真データ」と定義する。
 図10は、図2のステップS18におけるオフライン評価モデルの学習について説明するフローチャートである。
 ステップS91において、介入結果解析部40から供給される実際の介入結果(図11)とモデルオフライン評価結果保存部27に保存されているオフライン評価結果(図12)とが結合されて、オフライン評価方法の評価結果保存部44に供給される。
 図11は、介入結果解析部40から供給される実際の介入結果のデータの例を示す図である。
 図11においては、真データのデータ特徴量(以下、真データ特徴量と称する)として、「セグメント」「データ収集月」「サンプルサイズ」が用いられる例が示されている。
 実際に適用されたベースラインの介入割付のデータは、真データ特徴量のセグメント「年齢>20」、データ収集月「11月」、サンプルサイズ「15,000」であり、このベースラインの介入割付のKPI実測値は、「8」である。
 実際に適用されたモデルの介入割付のデータは、真データ特徴量のセグメント「年齢>20」、データ収集月「11月」、サンプルサイズ「15,000」であり、このモデルの介入割付のKPI実測値は、「6」である。
 図12は、モデルオフライン評価結果保存部27に保存されるデータの例を示す図である。
 モデルオフライン評価結果保存部27には、オフライン評価用データ特徴量とオフライン評価値(期待KPIの予測値(図では、KPI予測値と記す。以降の図でも同様。))が保存されている。
 図12の例においては、評価用データのデータ特徴量(以下、評価用データ特徴量と称する)として、「セグメント」「データ収集月」「サンプルサイズ」、オフライン評価方法として、IPW、DM、DRが用いられる例が示されている。
 オフライン評価したベースラインの介入割付のデータは、評価用データ特徴量のセグメント「年齢>20」、データ収集月「9月」、サンプルサイズ「30,000」であり、IPW、DM、DRの各オフライン評価値が「10、7、9」である。
 オフライン評価したモデルの介入割付のデータは、評価用データ特徴量のセグメント「年齢>20」、データ収集月「9月」、サンプルサイズ「30,000」であり、IPW、DM、DRの各オフライン評価値が「6、8、7」である。
 図10のステップS91においては、図11に示されるオンラインでの介入結果と、図12に示されるオフライン評価値とが結合されるので、図13に示されるように、データ特徴量およびオフライン評価値と真のKPIの対応表が得られる。
 図13は、介入結果とオフライン評価結果とが結合されたデータ(対応表)の例を示す図である。
 図13において、データ特徴量として、評価用データ特徴量、真データ特徴量、オフライン評価値からなる各データと、真のKPIとが示されている。図13の場合、例えば、1番目のデータは、ベースラインの介入割付が適用されたデータであり、2番目のデータは、モデルの介入割付が適用されたデータである。
 1番目のデータの特徴量は、評価用データ特徴量のセグメント「年齢>20」、データ収集月「9月」、サンプルサイズ「30,000」であり、真データ特徴量のセグメント「年齢>20」、データ収集月「11月」、サンプルサイズ「15,000」であり、IPW、DM、DRの各オフライン評価値が「10、7、9」である。1番目のデータの真のKPIは、「8」である。
 2番目のデータの特徴量は、評価用データ特徴量のセグメント「年齢>20」、データ収集月「9月」、サンプルサイズ「30,000」であり、真データ特徴量のセグメント「年齢>20」、データ収集月「11月」、サンプルサイズ「15,000」であり、IPW、DM、DRの各オフライン評価値が「6、8、7」である。2番目のデータの真のKPIは、「6」である。
 図10に戻って、ステップS92において、オフライン評価方法の評価部43は、介入結果解析部40から供給される実際の介入結果(図11)を用いたオフライン評価方法の評価を行う。
 オフライン評価方法の評価には、引用文献1(”YUTA SAITO,TAKUMA UDAGAWA,KEI TATENO”,”Data-Driven Off-Policy Estimator Selection : An Application in User Marketing on An Online Content Delivery Servic”、 RecSys2020 Workshop,REVEAL 2020: Bandit and Reinforcement Learning from User Interactions,2020年7月27日)に記載の方法が用いられる。
 オフライン評価方法の評価を行うことにより、ベースラインとモデルそれぞれの介入割付を適用したデータ(図14)を得ることができる。これにより、一方を評価用データ、もう一方を真データとして扱うことができるので、オフライン評価値と真のKPIとを比較することができる。
 図14は、介入結果を用いたオフライン評価方法の評価により用いられるデータの例を示す図である。
 図14において、データ特徴量として、評価用データ特徴量、真データ特徴量、オンライン評価値からなる各データと、真のKPIとが示されている。図14の場合、例えば、1番目のデータは、ベースラインの介入割付が適用されたデータであり、2番目のデータは、モデルの介入割付が適用されたデータである。
 1番目のデータの特徴量は、評価用データ特徴量のセグメント「年齢>20」、データ収集月「11月」、サンプルサイズ「15,000」であり、真データ特徴量のセグメント「年齢>20」、データ収集月「11月」、サンプルサイズ「15,000」であり、IPW、DM、DRの各オフライン評価値が「9、7、8」である。1番目のデータの真のKPIは、「8」である。
 2番目のデータの特徴量は、評価用データ特徴量のセグメント「年齢>20」、データ収集月「11月」、サンプルサイズ「15,000」であり、真データ特徴量のセグメント「年齢>20」、データ収集月「11月」、サンプルサイズ「15,000」であり、IPW、DM、DRの各オフライン評価値が「7、9、8」である。2番目のデータの真のKPIは、「6」である。
 オフライン評価方法の評価結果保存部44は、介入結果解析部40とモデルオフライン評価結果保存部27との間において結合されて供給される図13のデータと、オフライン評価方法の評価部43から供給される図14のデータとを保存する。
 図15は、オフライン評価方法の評価結果保存部44に保存されるデータの例を示す図である。
 図15に示される1番目のデータは、図14の1番目のデータであり、図15に示される2番目のデータは、図14の2番目のデータである。図15に示される3番目のデータは、図13の1番目のデータであり、図15に示される4番目のデータは、図13の2番目のデータである。
 図10に戻って、ステップS93において、オフライン評価モデルの学習部45は、オフライン評価方法の評価結果保存部44に保存されているデータ(図15)を用いて、オフライン評価モデルを学習する。
 オフライン評価モデルは、評価用データ特徴量、真データ特徴量、およびオフライン評価値を特徴量とし、真のKPIを目的変数として学習される。学習には、例えば、線形回帰、回帰木、またはニュートラルネットワークなどの教師あり学習が用いられる。
 ここで学習されたオフライン評価モデルは、モデルオフライン評価部26による次のオフライン評価時に使用される。このとき、真データ特徴量には、想定されるオンラインでの介入の情報が用いられる。
<2.変形例>
 <介入ランダム化率推定の変形例>
 介入ランダム化率推定部32において推定されるランダム化率は、事業者側担当者が調整するようにしてもよい。
 また、その際、図16に示されるように、ランダム化率に応じた期待KPI(の予測値)を、オフライン評価モデルを用いて算出することで、ランダム化率に応じた期待KPIの予測値とリスクを担当者に提示することもできる。ここで、リスクとは、ランダム介入をしない場合のKPIと比して、からのKPIの推定減少量を示す。
 図16は、ランダム介入の割合を調整できるUIの例を示す図である。
 図16において、横軸は、ランダム介入の割合を示し、縦軸は、ランダム介入の割合に応じたKPIを示している。実線のグラフは、ベースラインのKPIを表し、一点鎖線のグラフは、モデルのKPIを表す。図16において、KPIは、期待KPIの予測値を表す。
 図16のUIには、ランダム介入の割合の調整バーが、ランダム介入の割合が30%に位置する例が示されている。このとき、縦軸には、ランダム介入の割合が30%の場合のKPIが、ランダム介入の割合が0%の場合よりも、ベースラインで-10、モデルで-5になるというリスクが提示されている。
 また、図16のUIは、ランダム介入の割合が50%であるときが、ベースラインとモデルで有意差が期待できる最大のランダム介入の割合であることが示されている。
 事業者側担当者は、図16のUIにおいて、ランダム介入の割合の調整バーを、0%乃至50%でスライドさせることで、対応するリスクが提示されるので、そのリスクを確認できる。これにより、事業者側担当者は、許容できるリスクに応じて、ランダム介入の割合を決定することができる。
 <介入割付説明生成の変形例>
 上記説明においては、介入割付説明を、オフラインでの評価結果に対して適用する例を説明してきたが、オンラインでの介入結果に対しても適用可能である。
 この場合、オフライン評価モデルを用いて期待KPIの予測値を計算していた部分が、オンラインでの実際のKPI実績値に置き換わる。このような処理が、介入結果解析部40により行われることで、介入結果確認部41において、事業者側担当者に提示することも可能である。
 また、介入割付説明は、個別のユーザ単位で行うようにしてもよい。この場合、モデルとして、リフト効果を推定するモデルが用いられる。
 これにより、ユーザ単位で各介入に対するリフト効果が推定でき、ユーザ単位でのベースラインとモデルのKPIの比較情報を求めることができる。
 この結果は、図17に示されるように、介入設計確認部36により事業者側担当者に提示されるようにしてもよい。
 図17は、介入設計確認部36により提示されるUIの例を示す図である。
 図17のUIには、各ユーザIDのユーザに対するベースラインの介入割付、モデルの介入割付、およびKPIへの効果が示されている。
 ユーザIDが「00001」のユーザに対するベースラインの介入割付は、「クーポンAを付与」であり、モデル介入割付は、「クーポンBを付与」であり、KPIへの効果は、「売上期待値が200円に増加」である。
 ユーザIDが「00002」のユーザに対するベースラインの介入割付は、「クーポンAを付与」であり、モデル介入割付は、「クーポンBを付与」であり、KPIへの効果は、「売上期待値が100円に増加」である。
 <オフライン評価モデル学習の変形例>
 オフライン評価モデルの学習に用いられる特徴量には、ユーザ特徴量だけでなく、図18に示されるように、介入割付の情報が含まれるようにしてもよい。介入割付の情報とは、例えば、介入が行われた人数や、介入が行われた人数の全体に対する割合などである。
 図18は、介入割付の情報を追加したオフライン評価モデルの学習データの例を示す図である。
 図18のデータは、評価用データ特徴量、真データ特徴量には、セグメント、データ収集月、サンプルサイズの他に、介入割付情報として、クーポンA付与人数とクーポンB付与人数とが追加されている点が、図14のデータと異なっている。なお、図18の場合、例えば、1番目および3番目のデータは、ベースラインの介入割付が適用されたデータであり、2番目および4番目のデータは、モデルの介入割付が適用されたデータである。
 1番目のデータの特徴量は、評価用データ特徴量のクーポンA付与人数「2,000」、クーポン付与人数「10,000」であり、セグメント「年齢>20」、データ収集月「11月」、サンプルサイズ「15,000」である。また、真データ特徴量のクーポンA付与人数「3,000」、クーポン付与人数「8,000」であり、セグメント「年齢>20」、データ収集月「11月」、サンプルサイズ「15,000」であり、IPW、DM、DRの各オフライン評価値が「9、7、8」である。1番目のデータの真のKPIは、「8」である。
 2番目のデータの特徴量は、評価用データ特徴量のクーポンA付与人数「3,000」、クーポン付与人数「8,000」であり、セグメント「年齢>20」、データ収集月「11月」、サンプルサイズ「15,000」である。また、真データ特徴量のクーポンA付与人数「2,000」、クーポン付与人数「10,000」であり、セグメント「年齢>20」、データ収集月「11月」、サンプルサイズ「15,000」であり、IPW、DM、DRの各オフライン評価値が「7、9、8」である。2番目のデータの真のKPIは、「6」である。
 3番目のデータの特徴量は、評価用データ特徴量のクーポンA付与人数「5,000」、クーポン付与人数「12,000」であり、セグメント「年齢>20」、データ収集月「9月」、サンプルサイズ「30,000」である。また、真データ特徴量のクーポンA付与人数「3,000」、クーポン付与人数「8,000」であり、セグメント「年齢>20」、データ収集月「11月」、サンプルサイズ「15,000」であり、IPW、DM、DRの各オフライン評価値が「10、7、9」である。1番目のデータの真のKPIは、「8」である。
 4番目のデータの特徴量は、評価用データ特徴量のクーポンA付与人数「6,000」、クーポン付与人数「16,000」であり、セグメント「年齢>20」、データ収集月「9月」、サンプルサイズ「30,000」である。また、真データ特徴量のクーポンA付与人数「2,000」、クーポン付与人数「10,000」であり、セグメント「年齢>20」、データ収集月「11月」、サンプルサイズ「15,000」であり、IPW、DM、DRの各オフライン評価値が「6、8、7」である。2番目のデータの真のKPIは、「6」である。
 また、オフライン評価方法として、IPW、DM、DRを用いた例を説明してきたが、IPW、DM、DR以外のオフライン評価方法を用いてもよい。例えば、More Robust Doubly Robustを用いることもできる。
<3.ユースケース>
 次に、ユースケースとして、EC(Electronic Commerce)サイトにおけるクーポン付与を例に、再度、図2のフローチャートを参照して説明する。
 ステップS11において、KPI入力部21は、事業者側担当者の操作に応じて、介入によって最適化したいKPIとして、「売上」を入力し、モデル学習部24に出力する。
 ステップS12において、セグメント入力部22は、事業者側担当者の操作に応じて、介入の最適化対象とするユーザセグメントとして、「長期利用ユーザ」を入力し、モデル学習部24に出力する。
 ステップS13において、ベースライン入力部23は、事業者側担当者の操作に応じて、ベースラインを入力し、モデル学習部24に出力する。例えば、ベースラインとしては、従来、マーケターが人手で考えていた介入割付などが考えられる。本ユースケースの場合、ベースラインとして、「累積購入金額が10万円以上のユーザには、10%OFFクーポンの付与が入力され、10万円未満のユーザには、30%OFFクーポンの付与」が入力される。
 ステップS14において、モデル学習部24は、ユーザログ保存部39に保存されるユーザログおよび介入保存部31に保存される介入の情報を用いて、モデルを学習する。モデルは、KPI入力部21から供給されるKPIを最大化するように、セグメント入力部22から供給されるユーザセグメントを対象とするユーザ単位で最適な介入を学習する。モデルの学習結果として、モデルによる新しい介入割付が出力される。
 すなわち、このとき、ユーザログ保存部39は、ユーザの過去の購買履歴を保存している。また、介入保存部31は、過去に実施されたクーポンを用いた介入方法を保存している。例えば、介入保存部31には、「10%OFFクーポン、30%OFFクーポン、および50%OFFクーポン」を用いた介入方法が保存されている。
 モデル学習部24は、これらの情報を用いて、事前に入力されたKPIである「売上」を最大化するように、ユーザ単位で最適なクーポンを学習する。例えば、「累積購入金額が20万円以上のユーザには、10%OFFクーポン、5万円以上20万円未満のユーザには30%OFFクーポン、5万円未満のユーザには50%OFFクーポンを付与する」という学習結果が得られるとする。学習されたモデルは、モデル保存部25に保存される。
 モデル学習部24は、学習したモデルと、モデルの学習に用いたデータをモデルオフライン評価部26に出力する。
 ステップS15において、モデルオフライン評価部26は、モデル学習部24により供給されたモデルのオフライン評価を行う。
 すなわち、モデルオフライン評価部26は、オフライン評価に用いるデータ、実際のクーポン付与予定の情報、およびOPEによるモデルとベースラインの介入割付に対する期待売上の予測値などの特徴量を入力として、オフライン評価モデルによる期待売上の予測値を算出する。
 図19は、モデルオフライン評価部26によるオフライン評価の例を示す図である。
 入力とされる特徴量は、オフライン評価に用いるデータ、実際のクーポン付与予定、OPEによる期待売上の予測値からなる。オフライン評価に用いるデータ、実際のクーポン付与予定は、それぞれ、セグメントとサンプルサイズからなる。OPEによる期待売上の予測値は、IPW、DM、DRからなる。
 モデルの介入割付の場合、入力とされる特徴量は、オフライン評価に用いるデータが、セグメント「長期利用ユーザ」で、サンプルサイズ「30,000」であり、実際のクーポン付与予定の情報が、セグメント「長期利用ユーザ」で、サンプルサイズ「10,000」であり、OPEによる期待売上の予測値がIPW「1000」、DM「700」、DR「900」である。
 モデルの介入割付の場合、算出されるオフライン評価モデルによる期待売上の予測値は、「800」である。
 ベースラインの介入割付の場合、入力とされる特徴量は、オフライン評価に使うデータが、セグメント「長期利用ユーザ」で、サンプルサイズ「30,000」であり、実際のクーポン付与予定の情報が、セグメント「長期利用ユーザ」で、サンプルサイズ「10,000」であり、OPEによる期待売上の予測値がIPW「600」、DM「800」、DR「700」である。
 ベースラインの介入割付の場合、算出されるオフライン評価モデルによる期待売上の予測値は、「600」である。
 なお、図19に示されるように、オフライン評価に用いるデータは、評価用データ特徴量として保存され、オフライン評価モデルの学習などで用いられる。実際のクーポン付与予定の情報は、真データ特徴量として保存され、オフライン評価モデルの学習などで用いられる。オフライン評価モデルによる期待売上の予測値は、オフライン評価値として保存され、オフライン評価モデルの学習などで用いられる。オフライン評価モデルは、前回のステップS28において学習されている。
 図19のオフライン評価に用いるデータおよびOPEによる期待売上の予測値などは、モデルオフライン評価結果保存部27に出力される。算出されたオフライン評価値は、新規介入ターゲット推定部28に出力される。
 ステップS16において、新規介入ターゲット推定部28は、モデルオフライン評価部26から供給されるオフライン評価値に基づいて、既存の介入では効果が見込めないユーザがいるかを推定する。
 ステップS17において、新規介入ターゲット推定部28は、ステップS16での推定結果に基づいて、既存の介入では効果が見込めないユーザがいるか否かを判定する。
 例えば、「累積購入金額が20万円以上のユーザ」には、介入保存部31に保存されている「10%OFFクーポン、30%OFFクーポン、50%OFFクーポン」を付与する介入では効果が見込めないとする。この場合、既存の介入では効果が見込めないユーザがいるとステップS17において判定され、処理は、ステップS18に進む。
 ステップS18において、新規介入ターゲット提示部29は、既存の介入では効果が見込めないユーザがいる旨を提示し、そのユーザを狙った新規介入の追加を事業者側担当者に促す。
 ステップS19において、新規介入入力部30は、事業者側担当者の操作に応じて、新規の介入の情報を入力し、入力した介入の情報を介入保存部31および介入設計生成部34に出力する。介入保存部31は、新規介入入力部30から供給される介入の情報を保存する。
 ステップS17において、既存の介入では効果が見込めないユーザがいないと判定された場合、ステップS18およびS19の処理はスキップされ、処理は、ステップS20に進む。
 ステップS20において、介入ランダム化率推定部32は、クーポンをランダムに割り付ける、ユーザのランダム介入の最適な割合を推定する。図19の場合、オフライン評価にて期待売上がモデル800円、ベースライン600円というオフライン評価値が出ており、実際のクーポン付与予定が10,000ユーザずつである。
 ここで、介入ランダム化率推定部32は、モデルとベースラインで売り上げに統計的有意差を検出するために必要なサンプルサイズを計算する。例えば、計算結果が、「モデル適用が8,000ユーザで、ベースライン適用が8,000ユーザ」である場合、クーポンは、残りの2,000ユーザずつに対してランダムに付与される。
 ステップS21において、介入割付説明生成部33は、クーポン付与および期待売上についてのベースラインとモデルの比較情報を含む介入割付説明を生成する。
 図20は、介入割付説明生成部33により生成された介入割付説明の例を示す図である。
 図20においては、「ユーザ」として、ユーザ特徴量が示され、「ベースライン」として、ベースラインの介入割付が示され、「モデル」として、モデルの介入割付が示され、「売上への効果」として、ベースラインの介入割付からモデルの介入割付に変えた場合、どのくらいの売上への効果が見込まれるかが示されている。
 1番目には、「ユーザ」が、「累積購入金額が20万円以上」であり、「ベースライン」が「10%OFFクーポン付与」であり、「モデル」が「10%OFFクーポン付与」であり、「売上への効果」が、「売上期待値に変化なし」である介入割付説明が示されている。
 2番目には、「ユーザ」が、「累積購入金額が10万円以上20万円未満」であり、「ベースライン」が「10%OFFクーポン付与」であり、「モデル」が「30%OFFクーポン付与」であり、「売上への効果」が、「売上期待値が1,000円から1,250円に増加」である介入割付説明が示されている。
 3番目には、「ユーザ」が、「累積購入金額が5万円以上10万円未満」であり、「ベースライン」が「30%OFFクーポン付与」であり、「モデル」が「30%OFFクーポン付与」であり、「売上への効果」が、「売上期待値に変化なし」である介入割付説明が示されている。
 4番目には、「ユーザ」が、「累積購入金額が50万円未満」であり、「ベースライン」が「30%OFFクーポン付与」であり、「モデル」が「50%OFFクーポン付与」であり、「売上への効果」が、「売上期待値が500円から650円に増加」である介入割付説明が示されている。
 ステップS22において、介入設計生成部34は、介入割付説明生成部33から供給される、オフライン評価に用いるデータ、ユーザのランダム介入の割合、および介入割付説明に基づいて、最終的なクーポン付与の設計情報を生成する。
 介入設計生成部34は、生成したクーポン付与の設計情報を介入設計保存部35および介入部37に出力する。介入設計生成部34は、生成したクーポン付与の設計情報を介入設計確認部36にも出力する。
 ステップS23において、介入設計確認部36は、実際に介入を行う前に事業者側担当者に確認させるために、介入設計生成部34から供給される介入の設計情報を提示する。
 図21は、介入設計確認部36により提示されるUIの例を示す図である。
 図21には、左上に示されるように、KPIが「売上」であり、セグメントが「長期利用ユーザ」のクーポン付与設計の最終確認を行うためのUI120が示されている。なお、図21においては、売上として、期待売上の予測値が示されている。
 UI120は、ランダム化率が提示されるランダム化率提示部121、ランダム化率が調整できるランダム化率調整部122、および、図20の介入割付説明が提示される説明提示部123から構成される。
 ランダム化率提示部121には、期待売上550円のベースライン適用の場合と、期待売上740円のモデル適用の場合に、有意な差が出るのに必要なサンプルサイズの計算結果が、それぞれ、10,000ユーザのうち、8,000ユーザであることが提示されている。また、残りの2,000ユーザには、ランダムなクーポン付与が実施されることが提示されている。
 ランダム化率調整部122には、図16と同様に、ランダム介入の割合を調整できるUIが提示されている。
 横軸は、ランダムなクーポン付与の割合を示し、縦軸は、ランダムなクーポン付与の割合に応じた売上を示している。実線のグラフは、ベースラインの売上を表し、一点鎖線のグラフは、モデルの売上を表す。
 ランダム化率調整部122には、ランダムなクーポン付与の割合の調整バーが、ランダムなクーポン付与の割合が20%に位置する例が示されている。このとき、縦軸には、ランダムなクーポン付与の割合が20%の場合のKPIが、ランダムなクーポン付与の割合が0%の場合よりもベースラインで50、モデルで60減少するというリスクが提示されている。
 このように構成されるUIが、例えば、介入設計確認部36により提示されることで、事業者側担当者は、クーポン付与設計情報を確認することができる。
 図22は、図21のUIにおいて、ランダムなクーポン付与の割合を調整したUIの例を示す図である。
 図22においては、20%であったランダムなクーポン付与の割合が10%となるように、事業者側担当者により調整されたUIの例が示されている。
 図22のランダム化率提示部121では、図21のランダム化率提示部121において、8,000ユーザであった、サンプルサイズの計算結果が、9,000ユーザとなり、2,000ユーザであった、残りのユーザ数が、1,000ユーザとなっている。
 図22のランダム化率調整部122では、ランダムなクーポン付与の割合の調整バーが、ランダムなクーポン付与の割合が20%から10%に移動された例が示されている。このとき、縦軸には、ランダムなクーポン付与の割合が10%の場合の売上が、ランダムなクーポン付与の割合が0%の場合よりも、ベースラインで25、モデルで30減少するというように、図21の例と比べてリスクが変化している。
 このように構成されるUIにおいて、事業者側担当者は、ランダム化率調整部122における調整バーをスライドすることで、期待売上の値が、調整バーのスライドに連動して表示される。これにより、事業者側担当者は、許容可能なリスクを調整して、クーポン付与設計情報を生成することができる。
 ステップS24において、介入設計生成部34により生成されたクーポン付与設計情報に基づいて、ユーザ、すなわち、ユーザ端末の表示部に対して、クーポン付与を実施する。
 ステップS25において、ユーザ状態取得部38は、介入が行われた結果、ユーザがとった行動を示す情報(ユーザの購買履歴)を、ユーザ端末のUIやセンサから取得し、取得した情報を、ユーザログ保存部39に出力する。
 ステップS26において、介入結果解析部40は、ユーザログ保存部39のユーザの購買履歴を参照し、モデルとベースラインを比較して、実際の売上(実測値)に改善が見られたか否かなど介入結果を解析する。介入結果解析部40は、モデルとベースラインの比較結果を、介入結果確認部41および介入結果保存部42に出力する。
 ステップS27において、介入結果確認部41は、クーポン付与の結果を事業者側担当者に確認させるために、図23に示されるように、介入結果解析部40により解析されたモデルとベースラインの比較結果を提示する。
 図23は、介入結果確認部41により提示されるUIの例を示す図である。
 図23には、左上に示されるように、KPIが「売上」であり、セグメントが「長期利用ユーザ」のクーポン付与設計の最終確認のためのUI140が示されている。なお、図23においては、売上として、売上実測値が示されている。
 UI140は、クーポン付与の解析結果が提示される解析結果提示部141、および、モデルとベースラインの差分(比較情報)に対する説明が提示される説明提示部142から構成される。
 解析結果提示部141には、平均売上550円のベースライン適用の場合と、モデル適用の場合に、有意な差が出るのに必要なサンプルサイズの計算結果が、10,000ユーザのうち、8,000ユーザであり、その平均売上が600円であることが提示されている。また、平均売上740円のモデル適用の場合とベースライン適用の場合に、有意な差が出るのに必要なサンプルサイズの計算結果が、10,000ユーザのうち、8,000ユーザであり、その平均売上が800円であることが提示されている。また、どちらにも、残りの2,000ユーザには、ランダムなクーポン付与が実施されることが提示されている。
 解析結果提示部141の右側には、統計的な比較として、「p=0.01であること、および、モデルの方がベースラインよりも統計的に有意に売上が多いこと」が示されている。
 説明提示部142には、図16の場合と異なり、売上実測値での売上の効果ベースラインとモデルの差分についての介入割付説明が提示されている。
 すなわち、1番目には、「ユーザ」が、「累積購入金額が20万円以上」であり、「ベースライン」が「10%OFFクーポン付与」であり、「モデル」が「10%OFFクーポン付与」であり、「売上への効果」が、「売上期待値(実測値)に変化なし」である介入割付説明が示されている。
 2番目には、「ユーザ」が、「累積購入金額が10万円以上20万円未満」であり、「ベースライン」が「10%OFFクーポン付与」であり、「モデル」が「30%OFFクーポン付与」であり、「売上への効果」が、「売上期待値(実測値)が1,100円から1,350円に増加」である介入割付説明が示されている。
 3番目には、「ユーザ」が、「累積購入金額が5万円以上10万円未満」であり、「ベースライン」が「30%OFFクーポン付与」であり、「モデル」が「30%OFFクーポン付与」であり、「売上への効果」が、「売上期待値(実測値)に変化なし」である介入割付説明が示されている。
 4番目には、「ユーザ」が、「累積購入金額が50万円未満」であり、「ベースライン」が「30%OFFクーポン付与」であり、「モデル」が「50%OFFクーポン付与」であり、「売上への効果」が、「売上期待値が450円から600円に増加」である介入割付説明が示されている。
 ステップS28において、オフライン評価方法の評価部43およびオフライン評価モデルの学習部45は、オフライン評価モデルを学習する。
 まず、介入結果解析部40から供給される実際の介入結果は、オフライン評価方法の評価部43およびオフライン評価方法の評価結果保存部44に出力される。
 ただし、オフライン評価方法の評価結果保存部44には、介入結果解析部40から供給される実際の介入結果が、モデルオフライン評価結果保存部27に保存されているデータであるオフライン評価に用いるデータおよび各OPEによるオフライン評価値などと結合されて、供給される。
 図24は、モデルオフライン評価結果保存部27に保存されているデータと実際のクーポン付与結果が結合したデータの例を示す図である。
 図24は、実際のクーポン付与予定の情報が、セグメント「長期利用ユーザ」で、サンプルサイズ「10,000」から「8,000」に変更された点と、オフライン評価モデルによる期待売上の予測値が、実際のクーポン付与による売上(実測値)に変更された点だけが、図19と異なっている。
 また、オフライン評価方法の評価部43は、例えば、図25に示される、モデルを適用したユーザのデータと、ベースラインを適用したユーザのデータとをそれぞれ用いて、OPEによる売上予測を評価する。
 図25は、介入結果を用いたオフライン評価方法の評価により得られるデータの例を示す図である。
 図25において、データ特徴量として、評価用データ特徴量、真データ特徴量、オンライン評価値からなる各データと、実際のクーポン付与による売上とが示されている。また、図25の各データと実際のクーポン付与による売上のうち、破線で示されるデータは、ベースラインを適用したユーザのデータである。また、実線で示されるデータは、モデルを適用したユーザのデータである。
 したがって、1番目のデータの特徴量は、ベースラインを適用した評価用データ特徴量のセグメント「長期利用ユーザ」、サンプルサイズ「30,000」であり、モデルを適用した真データ特徴量のセグメント「長期利用ユーザ」、サンプルサイズ「30,000」である。またベースラインを適用したIPW、DM、DRの各オフライン評価値が「1000、700、900」である。モデルを適用した、実際のクーポン付与による売上は、「800」である。
 すなわち、1番目のデータにおいては、評価用データ特徴量と各オフライン評価値については、ベースラインを適用したデータが用いられ、真データ特徴量と実際のクーポン付与による売上については、モデルを適用したデータが用いられている。
 2番目のデータの特徴量は、モデルを適用した評価用データ特徴量のセグメント「長期利用ユーザ」、サンプルサイズ「30,000」であり、ベースラインを適用した真データ特徴量のセグメント「長期利用ユーザ」、サンプルサイズ「30,000」である。また、モデルを適用したIPW、DM、DRの各オフライン評価値が「600、800、700」である。ベースラインを適用した実際のクーポン付与による売上は、「600」である。
 すなわち、2番目のデータにおいては、評価用データ特徴量と各オフライン評価値については、モデルを適用したデータが用いられ、真データ特徴量と実際のクーポン付与による売上については、ベースラインを適用したデータが用いられている。
 以上のように、オフライン評価方法の評価部43は、モデルを適用したユーザのデータと、ベースラインを適用したユーザのデータとをそれぞれ用いて、OPEによる売上予測を評価する。オフライン評価方法の評価部43は、図25のデータをオフライン評価方法の評価結果保存部44に出力する。
 オフライン評価方法の評価結果保存部44は、図24のデータと、オフライン評価方法の評価部43から供給される図25のデータとを保存する。
 オフライン評価モデルの学習部45は、オフライン評価方法の評価結果保存部44に保存されているデータ(図24および図25)を用いて、オフライン評価モデルを学習する。
 ここで学習されたオフライン評価モデルは、モデルオフライン評価部26による次のオフライン評価時に使用される。以上のように、学習と評価を繰り返し行うことにより、オフライン評価方法の評価結果保存部44に保存されるデータは増えていき、オフライン評価モデルの精度が向上する。
<4.その他>
 <従来技術と本技術の効果>
 上述したように、ECサイトにおける、例えば、クーポン付与などの施策立案は、元来、マーケターが行ってきた。しかしながら、近年のデータ活用技術の発達により、ユーザ単位での最適な施策が学習モデルにより推定できるようになってきている。
 学習モデルは、一般的に、ブラックボックスとなる傾向があった。また、既存のモデルの説明は、どんなモデルであるかという、モデル単体としての説明のみを出力するものであった。例えば、寄与した特徴量を示すことができる技術が提案されている。
 しかしながら、施策担当者には、モデル単体としての説明ではなく、「モデルによる新しい介入割付は、既存の介入割付からどのように変化し、その結果どの程度の効果が期待できるか」、という説明が必要であった。
 本技術においては、ユーザ特徴量と介入との対応関係を示す第1の介入割付と、学習モデルを用いて新たに割り付けられたユーザ特徴量と介入との対応関係を示す第2の介入割付との比較情報、および、第1の介入割付に基づいて介入が行われた場合と前記第2の介入割付に基づいて前記介入が行われた場合との評価期待値の比較情報を含む介入割付説明が生成される。
 したがって、学習モデルのブラックボックス化を防ぐことができる。これにより、因果推論の効果検証に適したシステムを構築することができる。
 また、因果推論においては、一般的に介入が確率的であることが前提とされている。
 しかしながら、従来の学習モデルによる介入割付も、マーケターが人手で考える介入割付も一般的には決定論的である。したがって、既存のシステムでは、蓄積されるデータは、因果推論に適していないことが多く、因果推論に基づく最適化を行うには、その都度、データを収集する必要があった。
 本技術によれば、介入をランダムにユーザに割り付ける割合である介入ランダム化率が決定される。
 したがって、確率的な介入割付がなされたデータを収集することができる。これにより、因果推論の効果検証に適したシステムを構築することができる。
 さらに、因果推論でのモデルのオフライン評価は、OPEと呼ばれ、数多くの方法が存在する。OPEによって、ある介入割付に従って介入した場合のKPI期待値を推定できる。しかしながら、どのOPE方法が推定精度の高いオフライン評価方法であるかは、データの首種類や量によって変わる。したがって、オフライン評価を行う場合、OPE方法を決める必要がある。
 そこで、OPE方法の選定技術がいくつも提案されているが、以下のようなデメリットがあった。
 どの選定技術でも、一方のOPE方法を選定した場合には、他方のOPE方法でのオフライン評価を完全に切り捨てることになるため、一部の情報を切り捨てることと同意であった。
 また、どの選定技術でも、オフライン評価に用いている手元のデータとオンラインでの検証の差が考慮されていない。例えば、実際に、オンラインで効果検証を行う際には、季節性やサンプルサイズの増減が生じ得る。そのため、選定したOPE方法でのオフライン評価よりも、他のOPE方法を用いたほうがロバストだった可能性もある。
 本技術においては、第1の介入割付および第2の介入割付に対する複数のオフライン評価方法による評価期待値とデータ特徴量とを入力として評価対象の介入割付に基づいて介入が行われた結果の評価実績値を予測するためのオフライン評価モデルを用いて、学習モデルのオフライン評価が行われる。
 したがって、複数のオフライン評価方法のどれをも切り捨てることなく、評価の精度を向上させることができる。これにより、因果推論の効果検証に適したシステムを構築することができる。
 また、本技術においては、評価対象データの特徴量である第1の特徴量、第1の特徴量を用いた評価対象の介入割付に基づいて介入が行われた結果の評価実績値、評価用データの特徴量である第2の特徴量、および第2の特徴量を用いた介入割付によるオフライン評価方法での評価期待値に基づいて、オフライン評価モデルが学習される。
 したがって、効果検証のサイクルを繰り返すほどにオフライン評価の精度を上げることができる。これにより、因果推論の効果検証に適したシステムを構築することができる。
 <コンピュータの構成例>
 上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
 図26は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 CPU301、ROM(Read Only Memory)302、RAM303は、バス304により相互に接続されている。
 バス304には、さらに、入出力インタフェース305が接続されている。入出力インタフェース305には、キーボード、マウスなどよりなる入力部306、ディスプレイ、スピーカなどよりなる出力部307が接続される。また、入出力インタフェース305には、ハードディスクや不揮発性のメモリなどよりなる記憶部308、ネットワークインタフェースなどよりなる通信部309、リムーバブルメディア311を駆動するドライブ310が接続される。
 以上のように構成されるコンピュータでは、CPU301が、例えば、記憶部308に記憶されているプログラムを入出力インタフェース305及びバス304を介してRAM303にロードして実行することにより、上述した一連の処理が行われる。
 CPU301が実行するプログラムは、例えばリムーバブルメディア311に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部308にインストールされる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 なお、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
 本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
<構成の組み合わせ例>
 本技術は、以下のような構成をとることもできる。
(1)
 ユーザ特徴量と介入との対応関係を示す第1の介入割付と、学習モデルを用いて新たに割り付けられた前記ユーザ特徴量と前記介入との対応関係を示す第2の介入割付との比較情報、および、前記第1の介入割付に基づいて前記介入が行われた場合と前記第2の介入割付に基づいて前記介入が行われた場合との評価期待値の比較情報を含む介入割付説明を生成する説明生成部
 を備える情報処理装置。
(2)
 前記第1の介入割付および前記第2の介入割付に対する複数のオフライン評価方法による前記評価期待値とデータ特徴量とを入力として評価対象の介入割付に基づいて前記介入が行われた結果の評価実績値を予測するためのオフライン評価モデルを用いて、前記学習モデルのオフライン評価を行うモデルオフライン評価部をさらに備える
 前記(1)に記載の情報処理装置。
(3)
 前記オフライン評価方法は、Inverse Probability Weighting(IPW)、Direct Method(DM)、Doubly Robust(DR)、およびMore Robust Doubly Robustのうち少なくも2つからなる
 前記(2)に記載の情報処理装置。
(4)
 前記評価対象のデータ特徴量である第1のデータ特徴量、前記第1のデータ特徴量を用いた前記評価対象の介入割付に基づいて前記介入が行われた結果の前記評価実績値、評価用のデータ特徴量である第2のデータ特徴量、および前記第2のデータ特徴量を用いた介入割付による前記オフライン評価方法での前記評価期待値に基づいて、前記オフライン評価モデルを学習するオフライン評価モデル学習部をさらに備える
 前記(3)に記載の情報処理装置。
(5)
 前記オフライン評価モデル学習部は、前記第1のデータ特徴量、前記第2のデータ特徴量、および前記評価期待値を入力とし、前記評価実績値を目的変数として、前記オフライン評価モデルを学習する
 前記(4)に記載の情報処理装置。
(6)
 前記第1のデータ特徴量および前記第2のデータ特徴量は、最適化対象のユーザセグメント、データ収集期間、およびサンプルサイズのうち少なくとも1つを含む
 前記(5)に記載の情報処理装置。
(7)
 前記第1のデータ特徴量および前記第2のデータ特徴量は、前記介入が行われた人数または前記介入が行われた人数の全体からの割合を含む
 前記(5)に記載の情報処理装置。
(8)
 前記介入をランダムにユーザに割り付ける割合である介入ランダム化率を決定する介入ランダム化率推定部をさらに備える
 前記(2)乃至(7)のいずれかに記載の情報処理装置。
(9)
 前記介入ランダム化率推定部は、前記第1の介入割付および前記第2の介入割付それぞれに対する複数の前記オフライン評価方法での前記評価期待値に有意な差が出ると期待されるサンプルサイズを計算し、計算したサンプルサイズに基づいて、前記ユーザのランダム介入の割合を決定する
 前記(8)に記載の情報処理装置。
(10)
 前記介入ランダム化率推定部は、介入設計の担当ユーザの操作に対応して、前記ユーザのランダム介入の割合を決定する
 前記(8)に記載の情報処理装置。
(11)
 前記介入割付説明、および前記ユーザのランダム介入の割合に基づいて、前記介入の設計情報を生成する介入設計生成部をさらに備える
 前記(8)に記載の情報処理装置。
(12)
 前記オフライン評価での評価結果に基づいて、前記第1の介入割付では、前記評価期待値の増加が見込めない前記ユーザ特徴量を抽出する新規介入ターゲット推定部をさらに備える
 前記(2)乃至(11)のいずれかに記載の情報処理装置。
(13)
 前記新規介入ターゲット推定部により抽出された前記ユーザ特徴量の提示を制御する新規介入ターゲット提示部をさらに備える
 前記(12)に記載の情報処理装置。
(14)
 前記説明生成部は、
 前記ユーザ特徴量の区画毎に対応させた前記第1の介入割付および前記第2の介入割付に対する複数の前記オフライン評価方法による前記評価期待値と前記ユーザ特徴量とを入力として、前記オフライン評価モデルを用いて、前記介入割付説明を生成する
 前記(2)乃至(13)のいずれかに記載の情報処理装置。
(15)
 前記説明生成部は、前記第1の介入割付と前記第2の介入割付との比較情報、および前記第1の介入割付に基づいて前記介入が行われた結果の第1の評価実績値と前記第2の介入割付に基づいて前記介入が行われた結果の第2の評価実績値との比較情報を含む前記介入割付説明を生成する
 前記(1)に記載の情報処理装置。
(16)
 前記説明生成部は、前記ユーザ毎に、前記介入割付説明を生成する
 前記(1)乃至(15)のいずれかに記載の情報処理装置。
(17)
 前記介入割付説明の提示を制御する提示制御部をさらに備える
 前記(1)乃至(16)のいずれかに記載の情報処理装置。
(18)
 ユーザログおよび既存の前記介入を入力として、前記第2の介入割付を生成する前記学習モデルを学習するモデル学習部をさらに備える
 前記(1)乃至(17)のいずれかに記載の情報処理装置。
(19)
 情報処理装置が、
 ユーザ特徴量と介入との対応関係を示す第1の介入割付と、学習モデルを用いて新たに割り付けられた前記ユーザ特徴量と前記介入との対応関係を示す第2の介入割付との比較情報、および、前記第1の介入割付に基づいて前記介入が行われた場合と前記第2の介入割付に基づいて前記介入が行われた場合との評価期待値の比較情報を含む介入割付説明を生成する
 情報処理方法。
(20)
 ユーザ特徴量と介入との対応関係を示す第1の介入割付と、学習モデルを用いて新たに割り付けられた前記ユーザ特徴量と前記介入との対応関係を示す第2の介入割付との比較情報、および、前記第1の介入割付に基づいて前記介入が行われた場合と前記第2の介入割付に基づいて前記介入が行われた場合との評価期待値の比較情報を含む介入割付説明を生成する説明生成部として、
 コンピュータを機能させるプログラム。
 11 介入処理システム, 21 KPI入力部, 22 セグメント入力部, 23 ベースライン入力部, 24 モデル学習部, 25 モデル保存部, 26 モデルオフライン評価部, 27 モデルオフライン評価結果保存部, 28 新規介入ターゲット推定部, 29 新規介入ターゲット提示部, 30 新規介入入力部, 31 介入保存部, 32 介入ランダム化率推定部, 33 介入割付説明生成部, 34 介入設計生成部, 35 介入設計保存部, 36 介入設計確認部, 37 介入部, 38 ユーザ状態取得部, 39 ユーザログ保存部, 40 介入結果解析部, 41 介入結果確認部, 42 介入結果保存部, 43 オフライン評価方法の評価部, 44 オフライン評価方法の評価結果保存部, 45 オフライン評価モデルの学習部

Claims (20)

  1.  ユーザ特徴量と介入との対応関係を示す第1の介入割付と、学習モデルを用いて新たに割り付けられた前記ユーザ特徴量と前記介入との対応関係を示す第2の介入割付との比較情報、および、前記第1の介入割付に基づいて前記介入が行われた場合と前記第2の介入割付に基づいて前記介入が行われた場合との評価期待値の比較情報を含む介入割付説明を生成する説明生成部
     を備える情報処理装置。
  2.  前記第1の介入割付および前記第2の介入割付に対する複数のオフライン評価方法による前記評価期待値とデータ特徴量とを入力として評価対象の介入割付に基づいて前記介入が行われた結果の評価実績値を予測するためのオフライン評価モデルを用いて、前記学習モデルのオフライン評価を行うモデルオフライン評価部をさらに備える
     請求項1に記載の情報処理装置。
  3.  前記オフライン評価方法は、Inverse Probability Weighting(IPW)、Direct Method(DM)、Doubly Robust(DR)、およびMore Robust Doubly Robustのうち少なくも2つを含む
     請求項2に記載の情報処理装置。
  4.  前記評価対象のデータ特徴量である第1のデータ特徴量、前記第1のデータ特徴量を用いた前記評価対象の介入割付に基づいて前記介入が行われた結果の前記評価実績値、評価用のデータ特徴量である第2のデータ特徴量、および前記第2のデータ特徴量を用いた介入割付による前記オフライン評価方法での前記評価期待値に基づいて、前記オフライン評価モデルを学習するオフライン評価モデル学習部をさらに備える
     請求項2に記載の情報処理装置。
  5.  前記オフライン評価モデル学習部は、前記第1のデータ特徴量、前記第2のデータ特徴量、および前記評価期待値を入力とし、前記評価実績値を目的変数として、前記オフライン評価モデルを学習する
     請求項4に記載の情報処理装置。
  6.  前記第1のデータ特徴量および前記第2のデータ特徴量は、最適化対象のユーザセグメント、データ収集期間、およびサンプルサイズのうち少なくとも1つを含む
     請求項5に記載の情報処理装置。
  7.  前記第1のデータ特徴量および前記第2のデータ特徴量は、前記介入が行われた人数または前記介入が行われた人数の全体からの割合を含む
     請求項5に記載の情報処理装置。
  8.  前記介入をランダムにユーザに割り付ける割合である介入ランダム化率を決定する介入ランダム化率推定部をさらに備える
     請求項2に記載の情報処理装置。
  9.  前記介入ランダム化率推定部は、前記第1の介入割付および前記第2の介入割付それぞれに対する複数の前記オフライン評価方法での前記評価期待値に有意な差が出ると期待されるサンプルサイズを計算し、計算したサンプルサイズに基づいて、前記ユーザのランダム介入の割合を決定する
     請求項8に記載の情報処理装置。
  10.  前記介入ランダム化率推定部は、介入設計の担当ユーザの操作に対応して、前記ユーザのランダム介入の割合を決定する
     請求項8に記載の情報処理装置。
  11.  前記介入割付説明、および前記ユーザのランダム介入の割合に基づいて、前記介入の設計情報を生成する介入設計生成部をさらに備える
     請求項8に記載の情報処理装置。
  12.  前記オフライン評価での評価結果に基づいて、前記第1の介入割付では、前記評価期待値の増加が見込めない前記ユーザ特徴量を抽出する新規介入ターゲット推定部をさらに備える
     請求項2に記載の情報処理装置。
  13.  前記新規介入ターゲット推定部により抽出された前記ユーザ特徴量の提示を制御する新規介入ターゲット提示部をさらに備える
     請求項12に記載の情報処理装置。
  14.  前記説明生成部は、
     前記ユーザ特徴量の区画毎に対応させた前記第1の介入割付および前記第2の介入割付に対する複数の前記オフライン評価方法による前記評価期待値と前記ユーザ特徴量とを入力として、前記オフライン評価モデルを用いて、前記介入割付説明を生成する
     請求項2に記載の情報処理装置。
  15.  前記説明生成部は、前記第1の介入割付と前記第2の介入割付との比較情報、および前記第1の介入割付に基づいて前記介入が行われた結果の第1の評価実績値と前記第2の介入割付に基づいて前記介入が行われた結果の第2の評価実績値との比較情報を含む前記介入割付説明を生成する
     請求項1に記載の情報処理装置。
  16.  前記説明生成部は、前記ユーザ毎に、前記介入割付説明を生成する
     請求項1に記載の情報処理装置。
  17.  前記介入割付説明の提示を制御する提示制御部をさらに備える
     請求項1に記載の情報処理装置。
  18.  ユーザログおよび既存の前記介入を入力として、前記第2の介入割付を生成する前記学習モデルを学習するモデル学習部をさらに備える
     請求項1に記載の情報処理装置。
  19.  情報処理装置が、
     ユーザ特徴量と介入との対応関係を示す第1の介入割付と、学習モデルを用いて新たに割り付けられた前記ユーザ特徴量と前記介入との対応関係を示す第2の介入割付との比較情報、および、前記第1の介入割付に基づいて前記介入が行われた場合と前記第2の介入割付に基づいて前記介入が行われた場合との評価期待値の比較情報を含む介入割付説明を生成する
     情報処理方法。
  20.  ユーザ特徴量と介入との対応関係を示す第1の介入割付と、学習モデルを用いて新たに割り付けられた前記ユーザ特徴量と前記介入との対応関係を示す第2の介入割付との比較情報、および、前記第1の介入割付に基づいて前記介入が行われた場合と前記第2の介入割付に基づいて前記介入が行われた場合との評価期待値の比較情報を含む介入割付説明を生成する説明生成部として、
     コンピュータを機能させるプログラム。
PCT/JP2022/001328 2021-03-15 2022-01-17 情報処理装置および方法、並びにプログラム WO2022196070A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US18/549,197 US20240161142A1 (en) 2021-03-15 2022-01-17 Information processing apparatus, information processing method, and program
JP2023506792A JPWO2022196070A1 (ja) 2021-03-15 2022-01-17

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-041074 2021-03-15
JP2021041074 2021-03-15

Publications (1)

Publication Number Publication Date
WO2022196070A1 true WO2022196070A1 (ja) 2022-09-22

Family

ID=83320210

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/001328 WO2022196070A1 (ja) 2021-03-15 2022-01-17 情報処理装置および方法、並びにプログラム

Country Status (3)

Country Link
US (1) US20240161142A1 (ja)
JP (1) JPWO2022196070A1 (ja)
WO (1) WO2022196070A1 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015528952A (ja) * 2012-07-09 2015-10-01 フェイスブック,インク. 広告キャンペーン予算に基づいた広告キャンペーンに関するターゲット設定基準の変更
US20160148233A1 (en) * 2014-11-21 2016-05-26 Staples, Inc. Dynamic Discount Optimization Model
JP6068715B1 (ja) * 2016-07-06 2017-01-25 原 正彦 介入効果推測システム、介入効果推測方法、及び、介入効果推測システムに用いるプログラム
WO2017090175A1 (ja) * 2015-11-27 2017-06-01 株式会社日立製作所 検証支援システム及び方法
WO2019201310A1 (en) * 2018-04-20 2019-10-24 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for coupon issuing
US10552863B1 (en) * 2016-11-16 2020-02-04 Amazon Technologies, Inc. Machine learning approach for causal effect estimation
JP2020024736A (ja) * 2019-10-23 2020-02-13 株式会社日立製作所 データ解析システム及び施策の生成方法
US20210065228A1 (en) * 2019-09-04 2021-03-04 Scilicet, Llc Systems and methods for managing incentive campaigns and automatically approving requests for incentives

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015528952A (ja) * 2012-07-09 2015-10-01 フェイスブック,インク. 広告キャンペーン予算に基づいた広告キャンペーンに関するターゲット設定基準の変更
US20160148233A1 (en) * 2014-11-21 2016-05-26 Staples, Inc. Dynamic Discount Optimization Model
WO2017090175A1 (ja) * 2015-11-27 2017-06-01 株式会社日立製作所 検証支援システム及び方法
JP6068715B1 (ja) * 2016-07-06 2017-01-25 原 正彦 介入効果推測システム、介入効果推測方法、及び、介入効果推測システムに用いるプログラム
US10552863B1 (en) * 2016-11-16 2020-02-04 Amazon Technologies, Inc. Machine learning approach for causal effect estimation
WO2019201310A1 (en) * 2018-04-20 2019-10-24 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for coupon issuing
US20210065228A1 (en) * 2019-09-04 2021-03-04 Scilicet, Llc Systems and methods for managing incentive campaigns and automatically approving requests for incentives
JP2020024736A (ja) * 2019-10-23 2020-02-13 株式会社日立製作所 データ解析システム及び施策の生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ANONYMOUS: "Basics of Off-Policy Evaluation and introduction of ZOZOTOWN large-scale public real data and packages", TECH BLOG ZOZOTOWN, ZOZO TECHNOLOGIES INC., JP, 3 September 2020 (2020-09-03), JP, pages 1 - 27, XP055967121, Retrieved from the Internet <URL:https://techblog.zozo.com/entry/openbanditproject> [retrieved on 20221003] *

Also Published As

Publication number Publication date
JPWO2022196070A1 (ja) 2022-09-22
US20240161142A1 (en) 2024-05-16

Similar Documents

Publication Publication Date Title
US11451668B2 (en) Customer journey management
Coussement et al. Improving customer attrition prediction by integrating emotions from client/company interaction emails and evaluating multiple classifiers
Bekavac et al. Web analytics tools and web metrics tools: An overview and comparative analysis
Todor Marketing automation
Sun et al. “Adaptive” learning and “proactive” customer relationship management
Cao et al. Customer demand prediction of service-oriented manufacturing incorporating customer satisfaction
US20110231243A1 (en) Customer state-based targeting
Clemente-Císcar et al. A methodology based on profitability criteria for defining the partial defection of customers in non-contractual settings
US20200090196A1 (en) System and method for measuring social influence of a brand for improving the brand&#39;s performance
US20110231244A1 (en) Top customer targeting
US9384444B2 (en) Web analytics neural network modeling prediction
Kumar et al. Camta: Causal attention model for multi-touch attribution
US20140344020A1 (en) Competitor pricing strategy determination
Munro Learning to personalize treatments when agents are strategic
CA3057530A1 (en) Method and system for adjustable automated forecasts
WO2022196070A1 (ja) 情報処理装置および方法、並びにプログラム
US20140344021A1 (en) Reactive competitor price determination using a competitor response model
Chashmi et al. Predicting customer turnover using recursive neural networks
Dhoni Synergy in Technology How Generative AI Augments the Capabilities of Customer Data Platforms
Mahdiloo et al. Optimal direct mailing modelling based on data envelopment analysis
JP2018147457A (ja) ユーザが評価対象を評価した結果を分析するためのコンピュータシステムおよびそのコンピュータシステムにおいて実行される方法およびプログラム
Puspitasari et al. Reducing Customer Churn for XL Axiata Prepaid: Factors and Strategies
Gubela et al. Multi-Valued Treatments Uplift Modeling for Continuous Outcomes
Jacob et al. A Comparative Analysis of Traditional and Machine Learning Forecasting Techniques
Ahlstrand et al. Preliminary Results on the use of Artificial Intelligence for Managing Customer Life Cycles

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22770832

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023506792

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 18549197

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22770832

Country of ref document: EP

Kind code of ref document: A1