WO2021176674A1 - モデル生成プログラム及び方法並びに情報処理装置 - Google Patents

モデル生成プログラム及び方法並びに情報処理装置 Download PDF

Info

Publication number
WO2021176674A1
WO2021176674A1 PCT/JP2020/009534 JP2020009534W WO2021176674A1 WO 2021176674 A1 WO2021176674 A1 WO 2021176674A1 JP 2020009534 W JP2020009534 W JP 2020009534W WO 2021176674 A1 WO2021176674 A1 WO 2021176674A1
Authority
WO
WIPO (PCT)
Prior art keywords
data item
user
data
value
assumption
Prior art date
Application number
PCT/JP2020/009534
Other languages
English (en)
French (fr)
Inventor
鈴木 浩史
啓介 後藤
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to CN202080098092.5A priority Critical patent/CN115244550A/zh
Priority to EP20922956.6A priority patent/EP4116891A4/en
Priority to PCT/JP2020/009534 priority patent/WO2021176674A1/ja
Priority to JP2022504902A priority patent/JPWO2021176674A1/ja
Publication of WO2021176674A1 publication Critical patent/WO2021176674A1/ja
Priority to US17/900,972 priority patent/US20220414404A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2451Classification techniques relating to the decision surface linear, e.g. hyperplane
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to a model generation program, a model generation method, and an information processing device.
  • One aspect is to provide a model generation program, a model generation method, and an information processing device that can improve the ease of interpreting the model.
  • the model generation program causes the computer to execute the process of acquiring the training data set used for generating the linear model.
  • the model generator makes each first assumption that the data items violate the first assumption.
  • the training data set is used to calculate each first value optimized for the objective function having the ease of interpreting the data item as the weight of loss, and the data item is difficult for the user to interpret.
  • the training data set is used to calculate each second value optimized for the objective function for each second state in which the data item violates the second assumption. Let the process be executed.
  • the model generation program selects a specific data item from the data items based on the first value and the second value for each of the data items on the computer, and the model generation program selects the specific data item from the data items. Using the user's evaluation of the item, the process of generating the linear model is executed.
  • FIG. 1 is a diagram illustrating an information processing apparatus according to the first embodiment.
  • FIG. 2 is a diagram illustrating problems in general technology.
  • FIG. 3 is a functional block diagram showing a functional configuration of the information processing apparatus according to the first embodiment.
  • FIG. 4 is a diagram illustrating an example of a training data set.
  • FIG. 5 is a diagram illustrating a loss function.
  • FIG. 6 is a diagram illustrating the recommendation of data items.
  • FIG. 7 is a diagram illustrating the recommendation of data items.
  • FIG. 8 is a diagram illustrating the first loop of a specific example.
  • FIG. 9 is a diagram illustrating the calculation of the difference between the upper and lower boundaries.
  • FIG. 10 is a diagram illustrating an example of an inquiry screen.
  • FIG. 10 is a diagram illustrating an example of an inquiry screen.
  • FIG. 11 is a diagram illustrating a second loop of a specific example.
  • FIG. 12 is a diagram illustrating a second loop of a specific example.
  • FIG. 13 is a diagram illustrating a third loop of a specific example.
  • FIG. 14 is a diagram illustrating a third loop of a specific example.
  • FIG. 15 is a diagram illustrating a fourth loop of a specific example.
  • FIG. 16 is a diagram illustrating a fourth loop of a specific example.
  • FIG. 17 is a diagram illustrating a fifth loop of a specific example.
  • FIG. 18 is a flowchart showing the flow of processing.
  • FIG. 19 is a diagram illustrating a hardware configuration example.
  • model generation program examples of the model generation program, model generation method, and information processing apparatus according to the present invention will be described in detail with reference to the drawings.
  • the present invention is not limited to this embodiment.
  • each embodiment can be appropriately combined within a consistent range.
  • FIG. 1 is a diagram illustrating an information processing device 10 according to a first embodiment.
  • the information processing device 10 shown in FIG. 1 is a computer device that generates a highly interpretable classification model.
  • the information processing device 10 repeats feedback of evaluation by humans and model generation through dialogue with a user (human), and generates a model that can be convinced by humans and has high accuracy without causing humans to spend as much time as possible.
  • the information processing apparatus 10 according to the first embodiment will be described by taking a linear model, which is an example of a white box model, as an example as an explainable machine learning model.
  • a classification model (learning model) based on a regression equation (see equation (2)) obtained by minimizing the loss function shown in equation (1)
  • the loss function is an example of an objective function including training data, a classification error, and a weight penalty
  • the regression equation shows an example assuming that there are d data items.
  • the regression equation is a model that classifies as a positive example when m (x)> 0, and as a negative example otherwise.
  • a data item that matches the input data and has a weight of not "0" is presented to the user as an explanation.
  • due to x 3 and x 5 is classified as negative examples can be presented to the user as a particular "x 5" is important.
  • the information processing apparatus 10 optimizes under the formulation assuming the ease of interpretation of each data item, and gives the user a simple task of "evaluating one data item”. Imposing and gaining actual readability. Then, the information processing device 10 manages the upper bound and the lower bound of the optimum value, and effectively determines the data items to be evaluated by the user based on the upper bound and the lower bound.
  • the information processing device 10 acquires a classification model learned using a training data set including each data item. Then, in the first assumption that the data item is easy to interpret for each of the data items included in the training data set, the information processing apparatus 10 has the ease of interpretation of the data item as the weight of the loss.
  • the function calculates a first value optimized using the training dataset.
  • the information processing apparatus 10 uses the training data set to calculate a second value optimized for the loss function in the second assumption that the data items are easy to interpret. Then, the information processing apparatus 10 selects a specific data item from each data item based on the change of the first value and the value of 2 for each data item, and evaluates the user for the specific data item. Use to perform retraining of the classification model.
  • the information processing apparatus 10 searches for data items recommended by optimizing the loss function, and proposes the searched data items to the user. Then, the information processing apparatus 10 acquires the user evaluation for the proposed data item, relearns the classification model (linear model) in consideration of the user evaluation, and presents it to the user. Further, the information processing apparatus 10 acquires the user evaluation for the proposed classification model and re-executes the search for the data item proposed to the user.
  • the information processing apparatus 10 searches for data items recommended by optimizing the loss function, and proposes the searched data items to the user. Then, the information processing apparatus 10 acquires the user evaluation for the proposed data item, relearns the classification model (linear model) in consideration of the user evaluation, and presents it to the user. Further, the information processing apparatus 10 acquires the user evaluation for the proposed classification model and re-executes the search for the data item proposed to the user.
  • the information processing device 10 recommends a data item to a user based on the learning history, the number of data items is reduced to simplify the task, and the user evaluation and re-learning based on the evaluation are repeated to repeat the data item. Realize model creation considering the ease of interpretation of. In this way, the information processing apparatus 10 can improve the ease of interpreting the model. Note that "easy to interpret data items" used in this embodiment is synonymous with "easy to appear in a model”.
  • FIG. 3 is a functional block diagram showing a functional configuration of the information processing apparatus 10 according to the first embodiment.
  • the information processing device 10 includes a communication unit 11, a display unit 12, a storage unit 13, and a control unit 20.
  • the communication unit 11 is a processing unit that controls communication with other devices, and is realized by, for example, a communication interface.
  • the communication unit 11 receives various instructions such as a training data set and processing start from the administrator terminal and transmits the classification model after learning to the administrator terminal.
  • the display unit 12 is a processing unit that outputs various information generated by the control unit 20, and is realized by, for example, a display or a touch panel.
  • the storage unit 13 is an example of a storage device that stores various data, a program executed by the control unit 20, and the like, and is realized by, for example, a memory or a hard disk.
  • the storage unit 13 stores the training data set 14 and the classification model 15.
  • the training data set 14 is the training data used for learning the classification model 15.
  • FIG. 4 is a diagram illustrating an example of the training data set 14. As shown in FIG. 4, the training data set 14 is composed of a plurality of training data in which a plurality of data items which are explanatory variables and correct answer information (labels) which are objective variables are associated with each other.
  • data a a "data item x 1, x 2, x 3 , x 4, x 5, x 6, x 7, x 8 ""1,0,0,0,0,0,0,1,1 Is set, and "normal example" is set as the label.
  • the classification model 15 is a trained model trained using the training data set 14.
  • the classification model 15 is a linear model m (x) shown in the equation (3), and if the predicted value m (x) with respect to the input is larger than 0, it is a “normal example”, and the predicted value m (x) is 0 or less. If there is, it is classified as a "negative example”.
  • the classification model 15 is learned by the learning unit 21, which will be described later.
  • the control unit 20 is a processing unit that controls the entire information processing device 10, and is realized by, for example, a processor.
  • the control unit 20 has a learning unit 21, a dialogue processing unit 22, and an output unit 26.
  • the learning unit 21, the dialogue processing unit 22, and the output unit 26 can be realized as an electronic circuit such as a processor, or can be realized as a process executed by the processor.
  • the learning unit 21 is a processing unit that executes learning of the classification model 15. Specifically, the learning unit 21 learns the classification model 15 using the training data set 14, and when the learning is completed, the learning unit 21 stores the learned classification model 15 in the storage unit 13.
  • the loss function L shown in equation (4) is defined by the sum of the classification error and the weight penalty.
  • X is an explanatory variable of the training data
  • y is an objective variable (label) of the training data.
  • [rho is a constant set in advance
  • w i is a value true value is found by humans impose task.
  • FIG. 5 is a diagram illustrating a loss function. As shown in FIG. 5, the learning unit 21 substitutes the “X” of the loss function L with a matrix of 8 rows and 6 columns having explanatory variables (data items) of each data of the training data set 14 as rows.
  • the data c "x 1 , x 2 , x 3 , x 4 , x 5 , x 6 , x 7 , x 8 0, 0, 0, 0, 0, 1, 1, 1, 1"
  • the data d "x 1 , x 2 , x 3 , x 4 , x 5 , x 6 , x 7 , x 8 1,1,1,1,0,0,0,0",
  • a matrix of 1 row and 6 columns with the label of each data of the training data set 14 as the row is substituted for "y" of the loss function L.
  • “label negative example” of data e on the 5th line
  • the positive example is converted to "1" and the negative example is converted to "0".
  • w i is a value that is set for each data item, it is defined by interpreting the ease of each data item.
  • the data item is w 1 is set for x 1
  • w 2 is set for the data item x 2
  • is w 3 is set for the data item x 3
  • w 5 is set for the data item x 5
  • w 6 is set for the data item x 6
  • w 7 is set for the data item x 7
  • w 7 is set for the data item x 8 .
  • w 8 is set and the optimization (minimization) of the loss function is calculated.
  • the learning unit 21 sets an arbitrary value for w i. For example, in all of the w i can also be set to "1", it is also possible to set a random value to each w i.
  • the learning unit 21 executes the optimization of the loss function L in which the values are set for each variable as described above, and uses the ⁇ i obtained by the optimization, and the classification model m (x) shown in the equation (5). ) Is generated. That is, the learning unit 21 generates a classification model based on the regression equation obtained by minimizing the loss function L, and stores it in the storage unit 13 as the classification model 15.
  • the dialogue processing unit 22 has a recommendation unit 23, a re-learning unit 24, and a screen display unit 25. Acquiring a user evaluation for a data item by a dialogue approach with a user, and re-learning a classification model 15 in consideration of the user evaluation. Is the processing unit that executes.
  • the dialogue processing unit 22 does not impose a task on the first assumption (hereinafter referred to as "lower bound”) that all data items that do not impose a task are "easy to interpret”.
  • a second assumption hereinafter referred to as "upper bound” that is "difficult to interpret” is set for all data items, and the optimum solution of equation (3) is managed for each of the upper and lower bounds.
  • the dialogue processing unit 22 considers a new lower bound and an upper bound when the data item is said to be "easy to interpret” and "difficult to interpret", and as a result, a new lower bound is applied.
  • the data item that reduces the difference between the optimum value and the optimum value due to the new upper bound is recommended to the user, and the user evaluation is fed back.
  • the dialogue processing unit 22 realizes the optimization of the classification model 15 with a small number of tasks by effectively imposing tasks.
  • the recommendation unit 23 is a processing unit that searches for one data item recommended to the user from a plurality of data items included in each training data of the training data set, and recommends the searched data item to the user.
  • the recommendation unit 23 uses the training data set to optimize the loss function of the equation (3) in the lower bound where each data item is assumed to be easy to interpret. Value) and the second optimum value (second value) obtained by optimizing the loss function of Eq. (3) using the training data set in the upper bound where it is assumed that each data item is difficult to interpret. do. Then, the recommendation unit 23 selects a specific data item as a recommendation target based on the change of the first optimum value and the second optimum value when each data item violates the lower bound and the upper bound.
  • 6 and 7 are diagrams for explaining the recommendation of data items.
  • the predicted value is a predicted value when each data (for example, data a) is input to the classification model m (x).
  • the recommendation unit 23 when calculating the optimum value (minimization) of the loss function for each of the lower bound and the upper bound, the recommendation unit 23 generates a contradiction (a state contrary to the assumption) in each data item and calculates each optimum value. do.
  • the recommendation unit 23 to the lower bound, the optimal solution when that caused the conflict only lower bound of the data item x 1, the optimal solution when that caused the conflict only lower bound of the data item x 2 optimum solution when only caused the inconsistency lower bound of the data item x 3, the optimal solution when that caused the conflict only lower bound of the data item x 4, caused the conflict only lower bound of the data item x 5 optimal solution when inconsistencies optimal solutions when only caused the inconsistency lower bound of the data item x 6, the optimal solution when that caused the conflict only lower bound of the data item x 7, the lower bound of the data item x 8 only The optimum solution when is generated is calculated respectively.
  • the recommendation unit 23 provides an optimum solution when a contradiction is generated only in the upper bound of the data item x 1 and an optimum solution when a contradiction is generated only in the upper bound of the data item x 2 with respect to the upper bound.
  • solutions the optimum solution when that caused the conflict only the upper bound of the data item x 3, the optimal solution when that caused the conflict to upper bound of the data item x 4, the contradiction only the upper bound of the data item x 5
  • Optimal solution when it is generated Optimal solution when a contradiction is generated only in the upper bound of data item x 6
  • Optimal solution when a contradiction is generated only in the upper bound of data item x 7 Data item x 8 Calculate the optimum solution when a contradiction occurs only in the upper bound.
  • the recommendation unit 23 calculates 16 optimal solutions (a set of 8 upper and lower bound optimal solutions). Then, as shown in FIG. 7, the recommendation unit 23 recommends the data item having the smallest difference between the optimum value of the upper bound and the optimum value of the lower bound to the user. For example, the recommendation unit 23 determines the data item recommended to the user as "x 3 " when the difference between the optimum value of the upper bound and the optimum value of the lower bound is the smallest when the data item x 3 violates the assumption. ..
  • the recommendation unit 23 searches for a data item having a small influence in a state contrary to the assumption, determines that the data item is likely to appear in the model, and determines the interpretability of the data item by the user. By contacting, the user evaluation is accurately fed back to machine learning.
  • the re-learning unit 24 is a processing unit that executes re-learning of the classification model 15 in consideration of the user's evaluation obtained by the recommendation unit 23. Specifically, the re-learning unit 24 uses the training data set 14 and the equation (3) in the same manner as the learning unit 21, and uses the training data set 14 and the equation (3) to minimize the loss function L and obtain the classification model 15 by the regression equation. Generate.
  • re-learning unit 24 to reflect the user evaluation acquired by the recommendation unit 23 to "w i" to perform the minimization.
  • re-learning unit 24 or a classification model 15 by regression formula obtained by minimizing the loss function based on User evaluation "w i" presented to the user, the classification model 15 itself is likely to interpret whether Let them evaluate.
  • the classification model 15 if the classification model 15 itself is evaluated to be easy to interpret, the classification model 15 at that time is determined to be the finally obtained classification model.
  • the recommendation unit 23 searches for and recommends the data item, and the re-learning unit 24 re-learns.
  • the screen display unit 25 is a processing unit that generates an inquiry screen for accepting a user's evaluation and displays it to the user. For example, the screen display unit 25 generates an inquiry screen for inquiring whether the data item searched by the recommendation unit 23 is easy to interpret or difficult to interpret, and displays it to the user. Further, the screen display unit 25 generates an inquiry screen for inquiring whether the classification model 15 generated by the re-learning unit 24 is easy to interpret or difficult to interpret, and displays it to the user.
  • the recommendation unit 23 and the re-learning unit 24 receive user evaluations on the inquiry screen generated by the screen display unit 25. Further, the screen display unit 25 can display the inquiry screen on the display unit 12 of the information processing device 10 and can also transmit the inquiry screen to the user terminal.
  • the output unit 26 is a processing unit that outputs the classification model 15 that is finally determined to be easy to interpret. For example, when the display classification model 15 is determined to be "easy to interpret" on the inquiry screen generated by the screen display unit 25, the output unit 26 stores the displayed classification model 15 in the storage unit 13. It can be stored in, output to the user terminal, or output to any output destination.
  • FIG. 8 is a diagram illustrating the first loop of a specific example.
  • the lower bound "w -” and “1.0” the upper bound of the "w +” and "1.5”.
  • the "true w" shown in FIG. 8 represents the potential ease of interpretation of each data item, and although it is described in a specific example for the sake of clarity, it is actually used. It is an unknown value in processing.
  • each data item when the dialogue processing unit 22 calculates the optimum value of the loss function for each of the lower bound and the upper bound, each data item generates a state contrary to the assumption, and 16 optimum solutions (8 upper bounds) are generated.
  • the set of optimal solutions for the upper and lower bounds) is calculated, and the difference between the optimum value for the upper bound and the optimum value for the lower bound (new difference between the upper and lower bounds) is calculated.
  • FIG. 9 is a diagram illustrating the calculation of the difference between the upper and lower boundaries.
  • the dialogue processing unit 22 when focusing on the data item x 2 , the dialogue processing unit 22 generates a state in which the data item x 2 is contrary to the assumption by exchanging the values of the lower bound and the upper bound.
  • dialogue processing unit 22 when calculating the optimal solution for the lower bound of the new assumption, equation (3) of the weight penalty loss function for "w i" "w 2" only "1.5” as the other For "w”, enter "1.0" to minimize equation (3).
  • the dialogue processing unit 22 generates new upper and lower bounds when each data item violates the assumption, and calculates the optimum solution for each of the 16 optimum solutions (8). Calculate the optimal set of upper and lower bounds). Then, as shown in FIG. 8, the dialogue processing unit 22 sets the difference between the optimum solutions of each new upper and lower boundary of the data items “x 1 to x 8” to “10, 8, 11, 9, 10, 8, 7”. Assuming that ", 10" is calculated, the data item "x 7 " having the smallest difference is determined as the recommendation target and recommended to the user.
  • FIG. 10 is a diagram illustrating an example of an inquiry screen.
  • the dialogue processing unit 22 generates an inquiry screen 50 having an area 51 showing the current model, an area 52 for accepting evaluation of data items, and an area 53 of data details, and displays it to the user. ..
  • the dialogue processing unit 22 displays the current classification model 15 (m (x)) in the area 51 indicating the current model, and displays a button for selecting whether or not to output the model. indicate.
  • the dialogue processing unit 22 displays the "data item” determined as the recommendation target in the area 52 that receives the evaluation of the data item, and whether the data item is "easy to interpret” or “difficult to interpret”. A button or the like for selecting is displayed. Further, the dialogue processing unit 22 displays the training data set 14 in the data detail area 53.
  • (Loop 2) 11 and 12 are diagrams for explaining the second loop of the specific example.
  • the dialogue processing unit 22 reflects the user evaluation "easy to interpret” only for the data item "x 7 ", and sets random values for the other data items because the evaluation is unknown, and then sets the classification model. Perform re-learning of.
  • the dialogue processing unit 22 generates a new upper bound and lower bound when each data item other than the evaluated data item “x 7” violates the assumption. Then, by calculating the optimum solution for each, 14 optimum solutions (a set of 7 upper and lower bound optimal solutions) are calculated. Then, as shown in FIG. 10, the dialogue processing unit 22 sets the difference between the optimum solutions of the new upper and lower boundaries of the data items "x 1 to x 8 " excluding the data item "x 7" to "9, 8, 11". , 6, 10, 8,-, 10 ", the data item” x 4 "with the smallest difference is determined as the recommendation target.
  • the interaction processor 22, the data item "x 4" is displayed on the user generates a query screen 50 is displayed in the area 52, recommending data item "x 4" to the user.
  • (Loop 3) 13 and 14 are diagrams for explaining the third loop of the specific example.
  • the dialogue processing unit 22 has a data item “x 7 ” evaluated as “easy to interpret” in loop 1 and a data item “x 4 ” evaluated as “easy to interpret” in loop 2.
  • the lower bound and upper bound are fixed at "1.0".
  • the dialogue processing unit 22 provides a new upper bound when each data item other than the evaluated data items “x 7 ” and “x 4” violates the assumption. And the lower bound are generated, and the optimum solution is calculated for each, so that 12 optimum solutions (a set of 6 optimum solutions of the upper bound and the lower bound) are calculated. Then, as shown in FIG. 14, the dialogue processing unit 22 sets the difference between the optimum solutions of the new upper and lower boundaries of the data items "x 1 to x 8 " excluding the data items "x 7 " and "x 4". Assuming that "9,8,9,-, 6,8,-, 8" is calculated, the data item "x 5 " having the smallest difference is determined as the recommendation target.
  • the interaction processor 22, the data item "x 5" is displayed on the user generates a query screen 50 is displayed in the area 52, recommending data item "x 5" to the user.
  • loop 4 15 and 16 are diagrams for explaining the fourth loop of the specific example.
  • the dialogue processing unit 22 has a data item “x 7 ” evaluated as “easy to interpret” in loop 1 and a data item “x 4 ” evaluated as “easy to interpret” in loop 2.
  • the lower and upper bounds are fixed at "1.0"
  • the lower and upper bounds of the data item "x 5 " evaluated as "difficult to interpret” in loop 3 are fixed at "1.5".
  • FIG. 17 is a diagram illustrating a fifth loop of a specific example.
  • the dialogue processing unit 22 has a data item “x 7 ” evaluated as “easy to interpret” in loop 1 and a data item “x 4 ” evaluated as “easy to interpret” in loop 2.
  • the lower and upper bounds of the data item “x 6 " evaluated as “easy to interpret” in loop 4 are fixed at "1.0", and the data item "difficult to interpret” in loop 3 is evaluated.
  • the lower and upper bounds of "x 5 " are fixed at "1.5".
  • FIG. 18 is a flowchart showing the flow of processing.
  • the learning unit 21 executes learning of the model (classification model) and stores it in the storage unit 13 (S101). Subsequently, the dialogue processing unit 22 executes initialization such as setting an upper bound and a lower bound (S102).
  • the dialogue processing unit 22 calculates the difference between the optimum value of the upper bound and the optimum value of the lower bound when the assumption is violated for each data item of the training data set 14 (S103), and selects the data item having the smallest difference. Recommended to the user (S104).
  • the dialogue processing unit 22 acquires the user evaluation for the recommended data item (S105), reflects the user evaluation on the recommended data item, and randomly assumes the ease of interpreting the unrated data item. , Relearn the model (S106).
  • the dialogue processing unit 22 presents the model after re-learning (S107), and outputs the current model when the user's condition is satisfied (S108: Yes) (S109). On the other hand, when the dialogue processing unit 22 does not satisfy the user's condition (S108: No), the dialogue processing unit 22 repeats S103 and subsequent steps.
  • the information processing apparatus 10 imposes a simple task of "evaluating one data item" on a human being, and can obtain the actual ease of interpretation. Further, the information processing apparatus 10 can generate a classification model based on the optimization of the loss function while adjusting the appearance frequency of each data item. As a result, the information processing apparatus 10 can generate a highly interpretable classification model with less burden on humans.
  • the learning unit 21 is an example of an acquisition unit
  • the recommendation unit 23 is an example of a calculation unit and a selection unit
  • the re-learning unit 24 is an example of a generation unit.
  • each component of each device shown in the figure is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific forms of distribution and integration of each device are not limited to those shown in the figure. That is, all or a part thereof can be functionally or physically distributed / integrated in any unit according to various loads, usage conditions, and the like.
  • each processing function performed by each device can be realized by a CPU and a program that is analyzed and executed by the CPU, or can be realized as hardware by wired logic.
  • FIG. 19 is a diagram illustrating a hardware configuration example.
  • the information processing device 10 includes a communication device 10a, an HDD (Hard Disk Drive) 10b, a memory 10c, and a processor 10d. Further, the parts shown in FIG. 19 are connected to each other by a bus or the like.
  • HDD Hard Disk Drive
  • the communication device 10a is a network interface card or the like, and communicates with other servers.
  • the HDD 10b stores a program or DB that operates the function shown in FIG.
  • the processor 10d reads a program that executes the same processing as each processing unit shown in FIG. 3 from the HDD 10b or the like and expands it in the memory 10c to operate a process that executes each function described in FIG. 3 or the like. For example, this process executes the same function as each processing unit of the information processing apparatus 10. Specifically, the processor 10d reads a program having the same functions as the learning unit 21, the dialogue processing unit 22, the output unit 26, and the like from the HDD 10b and the like. Then, the processor 10d executes a process of executing the same processing as the learning unit 21, the dialogue processing unit 22, the output unit 26, and the like.
  • the information processing device 10 operates as an information processing device that executes the model generation method by reading and executing the program. Further, the information processing apparatus 10 can realize the same function as that of the above-described embodiment by reading the program from the recording medium by the medium reader and executing the read program.
  • the program referred to in the other embodiment is not limited to being executed by the information processing apparatus 10.
  • the present invention can be similarly applied when another computer or server executes a program, or when they execute a program in cooperation with each other.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

情報処理装置は、線形モデルの生成に利用される訓練データセットを取得する。情報処理装置は、訓練データセットに含まれる各データ項目のそれぞれに関して、ユーザにとって解釈しやすいと仮定した第1の仮定において、データ項目が第1の仮定に反した各第1の状態について、訓練データセットを用いてデータ項目の解釈しやすさを損失の重みとして有する目的関数を最適化した各第1の値を算出し、データ項目がユーザにとって解釈にしくいと仮定した第2の仮定において、データ項目が前記第2の仮定に反した各第2の状態について、訓練データセットを用いて目的関数を最適化した各第2の値を算出する。情報処理装置は、各データ項目それぞれについての各第1の値および各第2の値に基づき、各データ項目の中から特定のデータ項目を選択し、特定のデータ項目に対するユーザの評価を用いて、線形モデルを生成する。

Description

[規則37.2に基づきISAが決定した発明の名称] モデル生成プログラム及び方法並びに情報処理装置
 本発明は、モデル生成プログラム、モデル生成方法および情報処理装置に関する。
 AI(Artificial Intelligence)技術が普及し、ブラックボックスなモデルの判断を鵜呑みにできない、人間にとって解釈可能な判断の根拠を示してほしいなど、説明可能な機械学習モデルの需要が増加している。このことから、ルールリスト、決定木、線形モデルなどのホワイトボックスモデルを予め用いることも行われるが、ホワイトボックスなモデルを単に用いるだけでは、人間にとって解釈可能なモデルとは限らない。
 そのため、近年では、モデル生成と人間へのフィードバックとを繰り返す対話型アプローチにより、人間が納得できて精度がよいモデルを生成することが行われている。例えば、「ある入力に対するモデルの出力を予測する」タスクをユーザに表示し、反応時間により解釈可能性を評価する。そして、評価にしたがって、モデルを最適化する際のパラメータを変更してモデルを更新する。このような処理を繰り返すことで、人間が納得できて精度がよいモデルを生成することが行われている。
Isaac Lage,et al.,"Human-in-the-loop interpretability prior",In proceedings of the 32nd International Conference on Neural Information Processing Systems (NIPS‘18),pages 10180-10189,2018
 しかしながら、上記技術は、決定木やルールリストなど、人間が分岐を追うことで出力を予測できるモデルが対象であり、線形モデルへの適用が困難である。例えば、100個のデータ項目がモデルに出現する場合、ユーザが100個のデータ項目すべてに目を通してモデルの予測値を概算するのは、ユーザにとって負担が大きく、非現実的である。
 また、線形モデルの解釈可能性は、出力の説明として提示されるデータ項目の解釈しやすさにより決まるので、上記タスクへの応答時間の長さからは解釈可能性を評価できない。
 一つの側面では、モデルの解釈のしやすさの向上を図ることができるモデル生成プログラム、モデル生成方法および情報処理装置を提供することを目的とする。
 第1の案では、モデル生成プログラムは、コンピュータに、線形モデルの生成に利用される訓練データセットを取得する処理を実行させる。モデル生成プログラムは、コンピュータに、前記訓練データセットに含まれる各データ項目のそれぞれに関して、ユーザにとって解釈しやすいと仮定した第1の仮定において、データ項目が前記第1の仮定に反した各第1の状態について、前記訓練データセットを用いて前記データ項目の解釈しやすさを損失の重みとして有する目的関数を最適化した各第1の値を算出し、前記データ項目が前記ユーザにとって解釈にしくいと仮定した第2の仮定において、前記データ項目が前記第2の仮定に反した各第2の状態について、前記訓練データセットを用いて前記目的関数を最適化した各第2の値を算出する処理を実行させる。モデル生成プログラムは、コンピュータに、前記各データ項目それぞれについての前記各第1の値および前記各第2の値に基づき、前記各データ項目の中から特定のデータ項目を選択し、前記特定のデータ項目に対するユーザの評価を用いて、前記線形モデルを生成する処理を実行させる。
 一実施形態によれば、モデルの解釈のしやすさの向上を図ることができる。
図1は、実施例1にかかる情報処理装置を説明する図である。 図2は、一般技術の問題点を説明する図である。 図3は、実施例1にかかる情報処理装置の機能構成を示す機能ブロック図である。 図4は、訓練データセットの一例を説明する図である。 図5は、ロス関数を説明する図である。 図6は、データ項目の推薦を説明する図である。 図7は、データ項目の推薦を説明する図である。 図8は、具体例のループ1回目を説明する図である。 図9は、上下界の差の算出を説明する図である。 図10は、問い合わせ画面例を説明する図である。 図11は、具体例のループ2回目を説明する図である。 図12は、具体例のループ2回目を説明する図である。 図13は、具体例のループ3回目を説明する図である。 図14は、具体例のループ3回目を説明する図である。 図15は、具体例のループ4回目を説明する図である。 図16は、具体例のループ4回目を説明する図である。 図17は、具体例のループ5回目を説明する図である。 図18は、処理の流れを示すフローチャートである。 図19は、ハードウェア構成例を説明する図である。
 以下に、本発明にかかるモデル生成プログラム、モデル生成方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
[情報処理装置の説明]
 図1は、実施例1にかかる情報処理装置10を説明する図である。図1に示す情報処理装置10は、解釈可能性の高い分類モデルを生成するコンピュータ装置である。この情報処理装置10は、ユーザ(人間)との対話により、人間による評価のフィードバックとモデル生成を繰り返し、なるべく人間に手間をかけさせないで、人が納得できて精度良いモデルを生成する。実施例1にかかる情報処理装置10は、説明可能な機械学習モデルとして、ホワイトボックスモデルの一例である線形モデルを例にして説明する。
 ここで、線形モデルの一例としては、式(1)に示すロス関数を最小化して得られる回帰式(式(2)参照)による分類モデル(学習モデル)が考えられる。なお、ロス関数は、訓練データと分類誤差と重みペナルティを含む目的関数の一例であり、回帰式は、データ項目がd個あると仮定した例を示している。回帰式は、m(x)>0のとき正例、それ以外では負例と分類するモデルである。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
 一般的に、学習された分類モデルにおいて、入力データに合致して重みが「0」でないデータ項目を説明としてユーザに提示する。例えば、分類モデルがm(x)=7x-2x-6xであるときに、入力x=(0,1,1,0,1)を入力した場合、分類モデルによる予測値m(x)は「-8」となる。このとき、xとxに起因して負例と分類されていることから、特に「x」が重要としてユーザに提示することができる。このように、対話的アプローチにより学習が進むと、ロス関数内のペナルティの調整により重みが「0」のデータ項目が増えて簡潔な説明になるが、説明の簡潔さと分類精度はトレードオフの関係にある。
 図2は、一般技術の問題点を説明する図である。図2に示すように、データ項目を増やせば分類精度は向上するが、回帰式が長くなるので、ユーザによる「ある入力に対するモデルの出力を予測する」タスクにかかる時間が長くなる。つまり、ユーザが各データ項目について解釈可能か否かを判定し、ユーザによる評価を取得するまでの時間が長くなり、分類モデルの生成に時間がかかる。一方、回帰式を短くすると、ユーザが解釈することが難しいデータ項目x、x、x(解釈しやすさ=×)などが多く使用されることもあり、ユーザによるタスクの処理時間が短縮できるとも限らない。
 そこで、実施例1にかかる情報処理装置10は、各データ項目の解釈しやすさを仮定した定式化の下で最適化を行い、ユーザに「1つのデータ項目を評価する」という平易なタスクを課し実際の解釈しやすさを得る。そして、情報処理装置10は、最適値の上界や下界を管理することで、それに基づいてユーザに評価してもらうデータ項目を効果的に決定する。
 具体的には、情報処理装置10は、各データ項目を含む訓練データセットを用いて学習された分類モデルを取得する。そして、情報処理装置10は、訓練データセットに含まれる各データ項目のそれぞれに関して、データ項目が解釈しやすいと仮定した第1の仮定において、データ項目が解釈しやすさを損失の重みとして有するロス関数を、訓練データセットを用いて最適化した第1の値を算出する。同様に、情報処理装置10は、データ項目が解釈しやすいと仮定した第2の仮定において、訓練データセットを用いて、ロス関数を最適化した第2の値を算出する。そして、情報処理装置10は、各データ項目それぞれについての第1の値および2の値の変化に基づき、各データ項目の中から特定のデータ項目を選択し、特定のデータ項目に対するユーザの評価を用いて、分類モデルの再学習を実行する。
 例えば、図1に示すように、情報処理装置10は、ロス関数の最適化により推薦するデータ項目を探索して、探索されたデータ項目をユーザに提案する。そして、情報処理装置10は、提案されたデータ項目に対するユーザ評価を取得して、ユーザ評価を考慮して分類モデル(線形モデル)の再学習を実行し、ユーザに提示する。また、情報処理装置10は、提案された分類モデルに対するユーザ評価を取得して、ユーザに提案するデータ項目の探索を再度実行する。
 つまり、情報処理装置10は、学習履歴に基づいてデータ項目をユーザに推薦する際に、データ項目数を減らしてタスクを平易化し、ユーザ評価とその評価に基づく再学習を繰り返すことで、データ項目の解釈しやすさを考慮したモデル作成を実現する。このようにして、情報処理装置10は、モデルの解釈のしやすさの向上を図ることができる。なお、本実施例で使用する「データ項目が解釈しやすい」とは、「モデルへの出現しやすさ」と同義である。
[機能構成]
 図3は、実施例1にかかる情報処理装置10の機能構成を示す機能ブロック図である。図3に示すように、情報処理装置10は、通信部11、表示部12、記憶部13、制御部20を有する。
 通信部11は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースにより実現される。例えば、通信部11は、管理者端末などから訓練データセットや処理開始などの各種指示を受信し、学習後の分類モデルを管理者端末に送信する。
 表示部12は、制御部20により生成される各種情報を出力する処理部であり、例えばディスプレイやタッチパネルなどにより実現される。
 記憶部13は、各種データや制御部20が実行するプログラムなどを記憶する記憶装置の一例であり、例えばメモリやハードディスクにより実現される。この記憶部13は、訓練データセット14と分類モデル15を記憶する。
 訓練データセット14は、分類モデル15の学習に使用された訓練データである。図4は、訓練データセット14の一例を説明する図である。図4に示すように、訓練データセット14は、説明変数である複数のデータ項目と目的変数である正解情報(ラベル)とが対応付けられた複数の訓練データから構成される。
 具体的には、図4に示すように、データa、b、c、d、e、fのそれぞれは、データ項目x(i=1から8)とラベルとから構成される。例えば、データaは、「データ項目x,x,x,x,x,x,x,x」として「1,0,0,0,0,0,1,1」が設定されており、ラベルとして「正例」が設定されている。
 分類モデル15は、訓練データセット14を用いて学習された学習済みのモデルである。例えば、分類モデル15は、式(3)に示す線形モデルm(x)であり、入力に対する予測値m(x)が0より大きければ「正例」、予測値m(x)が0以下であれば「負例」と分類される。なお、分類モデル15は、後述する学習部21によって学習される。
Figure JPOXMLDOC01-appb-M000003
 制御部20は、情報処理装置10全体を司る処理部であり、例えばプロセッサなどにより実現される。この制御部20は、学習部21、対話処理部22、出力部26を有する。なお、学習部21、対話処理部22、出力部26は、プロセッサなどの電子回路として実現することもでき、プロセッサが実行するプロセスとして実現することもできる。
 学習部21は、分類モデル15の学習を実行する処理部である。具体的には、学習部21は、訓練データセット14を用いて分類モデル15を学習し、学習が完了すると、学習済みである分類モデル15を記憶部13に格納する。
 ここで、学習に使用するロス関数と分類モデルについて説明する。式(4)に示すロス関数Lは、分類誤差と重みペナルティとの和により定義される。ここで、Xは、訓練データの説明変数であり、yは、訓練データの目的変数(ラベル)である。また、ρは、予め設定する定数であり、wは、人間にタスクを課すことで真の値が判明する値である。なお、データ項目iが解釈しやすい場合、w=wが設定され、データ項目iが解釈しにくい場合、w=wが設定され、wおよびwは、予め与える入力パラメータである。実施例1では、w=1.0、w=1.5とする。
Figure JPOXMLDOC01-appb-M000004
 図5は、ロス関数を説明する図である。図5に示すように、学習部21は、ロス関数Lの「X」に、訓練データセット14の各データの説明変数(データ項目)を行とする8行6列の行列が代入される。例えば、Xの1行目にデータaの「x,x,x,x,x,x,x,x=1,0,0,0,0,0,1,1」、2行目にデータbの「x,x,x,x,x,x,x,x=1,1,1,1,0,0,1,1」、3行目にデータcの「x,x,x,x,x,x,x,x=0,0,0,0,1,1,1,1」、4行目にデータdの「x,x,x,x,x,x,x,x=1,1,1,1,0,0,0,0」、5行目にデータeの「x,x,x,x,x,x,x,x=0,1,1,1,1,1,0,0」、6行目にデータfの「x,x,x,x,x,x,x,x=0,1,1,1,1,1,1,1」が設定される。
 また、ロス関数Lの「y」には、訓練データセット14の各データのラベルを行とする1行6列の行列が代入される。例えば、yの1行目にデータaの「ラベル=正例」、2行目にデータbの「ラベル=正例」、3行目にデータcの「ラベル=正例」、4行目にデータdの「ラベル=負例」、5行目にデータeの「ラベル=負例」、6行目にデータfの「ラベル=負例」が設定される。計算上、正例は「1」、負例は「0」に変換される。
 また、wは、データ項目ごとに設定される値であり、各データ項目の解釈しやすさにより定義される。例えば、データ項目xに対してwが設定され、データ項目xに対してwが設定され、データ項目xに対してwが設定され、データ項目xに対してwが設定され、データ項目xに対してwが設定され、データ項目xに対してwが設定され、データ項目xに対してwが設定され、データ項目xに対してwが設定されて、ロス関数の最適化(最小化)が計算される。なお、学習部21による学習時は、wに対して任意の値を設定する。例えば、すべてのwに「1」を設定することもでき、各wにランダムな値を設定することもできる。
 そして、学習部21は、上述したように各変数に値を設定したロス関数Lの最適化を実行し、最適化して得られるβを用いた、式(5)に示す分類モデルm(x)を生成する。すなわち、学習部21は、ロス関数Lを最小化して得られる回帰式による分類モデルを生成して、分類モデル15として記憶部13に格納する。なお、式(5)では、データ項目数がd個である例を示しているが、実施例1では、d=8となる。
Figure JPOXMLDOC01-appb-M000005
 対話処理部22は、推薦部23、再学習部24、画面表示部25を有し、ユーザとの対話アプローチによるデータ項目に対するユーザ評価の取得、および、ユーザ評価を考慮した分類モデル15の再学習を実行する処理部である。
 具体的には、対話処理部22は、タスクを課していないデータ項目すべてについて「解釈しやすい」とする第1の仮定(以下では「下界」と記載する)と、タスクを課していないデータ項目すべてについて「解釈しにくい」とする第2の仮定(以下では「上界」と記載する)とを設定し、上界と下界のそれぞれについて、式(3)の最適解を管理する。
 そして、対話処理部22は、データ項目が「解釈しやすい」と言われた場合と「解釈しにくい」と言われた場合それぞれの新たな下界と上界を考え、その結果として新たな下界による最適値と新たな上界による最適値の差が小さくなるデータ項目をユーザに推薦して、ユーザ評価をフィードバックする。この結果、対話処理部22は、効果的にタスクを課すことで、少ないタスク回数で分類モデル15の最適化を実現する。
 推薦部23は、訓練データセットの各訓練データに含まれる複数のデータ項目から、ユーザに推薦する1つのデータ項目の探索を実行し、探索されたデータ項目をユーザに推薦する処理部である。
 具体的には、推薦部23は、各データ項目が解釈しやすいと仮定された下界において、訓練データセットを用いて式(3)のロス関数を最適化した第1の最適値(第1の値)と、各データ項目が解釈しにくいと仮定された上界において、訓練データセットを用いて式(3)のロス関数を最適化した第2の最適値(第2の値)とを算出する。そして、推薦部23は、各データ項目が下界および上界に反した場合の第1の最適値および2の最適値の変化に基づき、特定のデータ項目を推薦対象として選択する。
 ここで、データ項目の推薦について詳細に説明する。図6と図7は、データ項目の推薦を説明する図である。図6に示すように、推薦部23は、学習済みの分類モデル「m(x)=x-2x-x+2x」の訓練データセット14の各データ項目(xからx)に対して、下界(w=1.0)と上界(w=1.5)を設定する。なお、予測値は、各データ(例えばデータa)を分類モデルm(x)に入力したときの予測値である。
 そして、推薦部23は、下界と上界のそれぞれについてロス関数の最適値(最小化)を算出する際に、各データ項目に矛盾(仮定に反した状態)を発生させて各最適値を算出する。
 具体的には、推薦部23は、下界に対して、データ項目xの下界にのみ矛盾を発生させたときの最適解、データ項目xの下界にのみ矛盾を発生させたときの最適解、データ項目xの下界にのみ矛盾を発生させたときの最適解、データ項目xの下界にのみ矛盾を発生させたときの最適解、データ項目xの下界にのみ矛盾を発生させたときの最適解、データ項目xの下界にのみ矛盾を発生させたときの最適解、データ項目xの下界にのみ矛盾を発生させたときの最適解、データ項目xの下界にのみ矛盾を発生させたときの最適解をそれぞれ算出する。
 同様に、推薦部23は、上界に対して、データ項目xの上界にのみ矛盾を発生させたときの最適解、データ項目xの上界にのみ矛盾を発生させたときの最適解、データ項目xの上界にのみ矛盾を発生させたときの最適解、データ項目xの上界に矛盾を発生させたときの最適解、データ項目xの上界にのみ矛盾を発生させたときの最適解、データ項目xの上界にのみ矛盾を発生させたときの最適解、データ項目xの上界にのみ矛盾を発生させたときの最適解、データ項目xの上界にのみ矛盾を発生させたときの最適解をそれぞれ算出する。
 このようにして、推薦部23は、16個の最適解(8個の上界と下界の最適解の組)を算出する。そして、図7に示すように、推薦部23は、上界の最適値と下界の最適値の差が最も小さいデータ項目をユーザに推薦する。例えば、推薦部23は、データ項目xが仮定に反した場合の上界の最適値と下界の最適値との差が最も小さい場合、ユーザへ推薦するデータ項目を「x」と決定する。
 つまり、推薦部23は、仮定に反した状態で、影響力の小さいデータ項目を探索し、当該データ項目がモデルに出現する可能性が高いと判定して、そのデータ項目の解釈可能性をユーザに問い合わせることで、ユーザ評価を正確に機械学習にフィードバックさせる。
 再学習部24は、推薦部23により得られたユーザの評価を考慮して、分類モデル15の再学習を実行する処理部である。具体的には、再学習部24は、学習部21と同様の手法により、訓練データセット14と式(3)とを用いて、ロス関数Lを最小化して得られる回帰式による分類モデル15を生成する。
 このとき、再学習部24は、推薦部23により取得されたユーザ評価を「w」に反映させて最小化を実行する。例えば、再学習部24は、データ項目xが「解釈しやすい」と評価された場合は「w=1.0」とするとともに、他のデータ項目の「w」についてはランダムな値を設定したロス関数の最小化を計算する。また、再学習部24は、データ項目xが「解釈しにくい」と評価された場合は「w=1.5」とするとともに、他のデータ項目の「w」についてはランダムな値を設定したロス関数の最小化を計算する。
 そして、再学習部24は、ユーザ評価を「w」に反映させたロス関数を最小化して得られる回帰式による分類モデル15をユーザに提示して、分類モデル15そのものが解釈しやすいか否かを評価させる。
 ここで、分類モデル15そのものが解釈しやすいと評価された場合は、そのときの分類モデル15が最終的に得られた分類モデルと決定される。一方、分類モデル15そのものが解釈しにくいと評価された場合は、推薦部23によるデータ項目の探索および推薦と、再学習部24による再学習とが再度実行される。
 画面表示部25は、ユーザの評価を受け付けるための問い合わせ画面を生成してユーザに表示する処理部である。例えば、画面表示部25は、推薦部23により探索されたデータ項目が解釈しやすいか解釈しにくいかを問い合わせるための問い合わせ画面を生成してユーザに表示する。また、画面表示部25は、再学習部24により生成された分類モデル15が解釈しやすいか解釈しにくいかを問い合わせるための問い合わせ画面を生成してユーザに表示する。
 なお、推薦部23や再学習部24は、画面表示部25により生成される問い合わせ画面上でユーザ評価を受け付ける。また、画面表示部25は、問い合わせ画面を情報処理装置10の表示部12に画面を表示することもでき、ユーザ端末に送信することもできる。
 出力部26は、解釈しやすいと最終的に判定された分類モデル15を出力する処理部である。例えば、出力部26は、画面表示部25により生成された問い合わせ画面上で、表示されている分類モデル15が「解釈しやすい」と判定された場合、表示されている分類モデル15を記憶部13に格納したり、ユーザ端末に出力したり、任意の出力先に出力する。
[具体例]
 次に、図8から図17を用いて、ユーザ評価を考慮した分類モデル15の再学習の具体例を説明する。
(ループ1)
 図8は、具体例のループ1回目を説明する図である。図8に示すように、対話処理部22は、学習部21により学習された分類モデル15「m(x)=x-2x-x+2x」の訓練データセット14の各データ項目に下界と上界を設定する。ここで、具体例では、下界の「w」を「1.0」、上界の「w」を「1.5」とする。なお、図8に示す「真のw」とは、各データ項目の潜在的な解釈のしやすさを表すものであり、具体例では説明を分かりやすくするために記載しているが、実際の処理においては不明な値である。
 そして、対話処理部22は、下界と上界のそれぞれについてロス関数の最適値を算出する際に、各データ項目が仮定に反した状態を発生させて、16個の最適解(8個の上界と下界の最適解の組)を算出し、上界の最適値と下界の最適値の差(新たな上下界の差)を算出する。
 図9は、上下界の差の算出を説明する図である。図9に示すように、データ項目xに着目した場合、対話処理部22は、下界と上界の値を入れ替えることで、データ項目xが仮定に反した状態を生成する。したがって、対話処理部22は、新しい仮定の下界について最適解を算出する際に、式(3)のロス関数の重みペナルティの「w」について「w」のみ「1.5」として他の「w」については「1.0」を入力して、式(3)を最小化する。
 このようにして、対話処理部22は、各データ項目が仮定に反したときの新たな上界と下界とを生成し、それぞれについて最適解を算出することで、16個の最適解(8個の上界と下界の最適解の組)を算出する。そして、対話処理部22は、図8に示すように、データ項目「xからx」の各新たな上下界の最適解の差を「10,8,11,9,10,8,7,10」と算出したとすると、差が最も小さいデータ項目「x」を推薦対象に決定してユーザに推薦する。
 図10は、問い合わせ画面例を説明する図である。図10に示すように、対話処理部22は、現在のモデルを示す領域51と、データ項目の評価を受け付ける領域52と、データ詳細の領域53を有する問い合わせ画面50を生成してユーザに表示する。
 具体的には、対話処理部22は、現在のモデルを示す領域51には、現時点での分類モデル15(m(x))を表示するとともに、モデルを出力するか否かを選択させるボタンを表示する。また、対話処理部22は、データ項目の評価を受け付ける領域52には、推薦対象に決定された「データ項目」を表示するとともに、そのデータ項目が「解釈しやすい」か「解釈しにくいか」を選択させるボタン等を表示する。また、対話処理部22は、データ詳細の領域53には、訓練データセット14を表示する。
 なお、この具体例においては、対話処理部22は、推薦されたデータ項目「x」に対して、ユーザから「解釈しやすい」との評価を取得したものとする。また、対話処理部22は、分類モデル「m(x)=x-2x-x+2x」については、ユーザから「解釈しにくい」との評価を取得したものとする。
(ループ2)
 図11と図12は、具体例のループ2回目を説明する図である。図11に示すように、対話処理部22は、ループ1で「解釈しやすい」と評価されたデータ項目「x」の下界と上界については「1.0」に固定する。そして、対話処理部22は、図5で説明した同様の手法を用いて、式(3)のロス関数Lに訓練データセット14を入力してロス関数の最適解を算出する際に、データ項目「x」に対応する「w=1.0」を設定し、他の「w」についてはランダムな値(1.0または1.5)を設定する。
 つまり、対話処理部22は、データ項目「x」についてのみユーザ評価「解釈しやすい」を反映させ、その他のデータ項目については評価が不明であるためにランダム値を設定した上で、分類モデルの再学習を実行する。ここで、再学習により、分類モデルが「m(x)=x-2x-x+2x」と生成されたとする。
 続いて、対話処理部22は、再学習後の分類モデル「m(x)=x-2x-x+2x」を領域51に表示させた問い合わせ画面50を生成してユーザに表示する。ここで、対話処理部22は、分類モデル「m(x)=x-2x-x+2x」に対してユーザ評価「解釈しにくい」を取得したために、推薦するデータ項目の探索を実行する。
 具体的には、図12に示すように、対話処理部22は、評価済みのデータ項目「x」以外の他の各データ項目が仮定に反したときの新たな上界と下界とを生成し、それぞれについて最適解を算出することで、14個の最適解(7個の上界と下界の最適解の組)を算出する。そして、対話処理部22は、図10に示すように、データ項目「x」を除くデータ項目「xからx」の各新たな上下界の最適解の差を「9,8,11,6,10,8,-,10」と算出したとすると、差が最も小さいデータ項目「x」を推薦対象に決定する。そして、対話処理部22は、データ項目「x」を領域52に表示させた問い合わせ画面50を生成してユーザに表示して、データ項目「x」をユーザに推薦する。
 なお、この具体例においては、対話処理部22は、推薦されたデータ項目「x」に対して、ユーザから「解釈しやすい」との評価を取得したものとする。
(ループ3)
 図13と図14は、具体例のループ3回目を説明する図である。図13に示すように、対話処理部22は、ループ1で「解釈しやすい」と評価されたデータ項目「x」およびループ2で「解釈しやすい」と評価されたデータ項目「x」の下界と上界については「1.0」に固定する。そして、対話処理部22は、図5で説明した同様の手法を用いて、式(3)のロス関数Lに訓練データセット14を入力してロス関数の最適解を算出する際に、データ項目「x」に対応する「w=1.0」およびデータ項目「x」に対応する「w=1.0」を設定し、他の「w」についてはランダムな値を設定する。
 つまり、対話処理部22は、データ項目「x」とデータ項目「x」についてのみユーザ評価「解釈しやすい」を反映させ、その他のデータ項目については評価が不明であるためにランダム値を設定した上で、分類モデルの再学習を実行する。ここで、再学習により、分類モデルが「m(x)=x-2x-x+2x」と生成されたとする。
 続いて、対話処理部22は、再学習後の分類モデル「m(x)=x-2x-x+2x」を領域51に表示させた問い合わせ画面50を生成してユーザに表示する。ここで、対話処理部22は、分類モデル「m(x)=x-2x-x+2x」に対してユーザ評価「解釈しにくい」を取得したために、推薦するデータ項目の探索を実行する。
 具体的には、図14に示すように、対話処理部22は、評価済みのデータ項目「x」と「x」以外の他の各データ項目が仮定に反したときの新たな上界と下界とを生成し、それぞれについて最適解を算出することで、12個の最適解(6個の上界と下界の最適解の組)を算出する。そして、対話処理部22は、図14に示すように、データ項目「x」と「x」を除くデータ項目「xからx」の各新たな上下界の最適解の差を「9,8,9,-,6,8,-,8」と算出したとすると、差が最も小さいデータ項目「x」を推薦対象に決定する。そして、対話処理部22は、データ項目「x」を領域52に表示させた問い合わせ画面50を生成してユーザに表示して、データ項目「x」をユーザに推薦する。
 なお、この具体例においては、対話処理部22は、推薦されたデータ項目「x」に対して、ユーザから「解釈しにくい」との評価を取得したものとする。
(ループ4)
 図15と図16は、具体例のループ4回目を説明する図である。図15に示すように、対話処理部22は、ループ1で「解釈しやすい」と評価されたデータ項目「x」およびループ2で「解釈しやすい」と評価されたデータ項目「x」の下界と上界については「1.0」に固定し、ループ3で「解釈しにくい」と評価されたデータ項目「x」の下界と上界については「1.5」に固定する。
 そして、対話処理部22は、図5で説明した同様の手法を用いて、式(3)のロス関数Lに訓練データセット14を入力してロス関数の最適解を算出する際に、データ項目「x」に対応する「w=1.0」およびデータ項目「x」に対応する「w=1.0」を設定するとともに、データ項目「x」に対応する「w=1.5」を設定し、他の「w」についてはランダムな値を設定する。
 つまり、対話処理部22は、データ項目「x」とデータ項目「x」についてユーザ評価「解釈しやすい」を反映させ、データ項目「x」についてユーザ評価「解釈しにくい」を反映させ、その他のデータ項目については評価が不明であるためにランダム値を設定した上で、分類モデルの再学習を実行する。ここで、再学習により、分類モデルが「m(x)=x-2x-x+2x」と生成されたとする。
 続いて、対話処理部22は、再学習後の分類モデル15「m(x)=x-2x-x+2x」を領域51に表示させた問い合わせ画面50を生成してユーザに表示する。ここで、対話処理部22は、分類モデル「m(x)=x-2x-x+2x」に対してユーザ評価「解釈しにくい」を取得したために、推薦するデータ項目の探索を実行する。
 具体的には、図16に示すように、対話処理部22は、評価済みのデータ項目「x」と「x」と「x」以外の他の各データ項目を矛盾させたときの新たな上界と下界とを生成し、それぞれについて最適解を算出することで、10個の最適解(5個の上界と下界の最適解の組)を算出する。そして、対話処理部22は、図16に示すように、データ項目「x」と「x」と「x」を除くデータ項目「xからx」の各新たな上下界の最適解の差を「6,7,8,-,-,5,-,8」と算出したとすると、差が最も小さいデータ項目「x」を推薦対象に決定する。そして、対話処理部22は、データ項目「x」を領域52に表示させた問い合わせ画面50を生成してユーザに表示して、データ項目「x」をユーザに推薦する。
 なお、この具体例においては、対話処理部22は、推薦されたデータ項目「x」に対して、ユーザから「解釈しやすい」との評価を取得したものとする。
(ループ5)
 図17は、具体例のループ5回目を説明する図である。図17に示すように、対話処理部22は、ループ1で「解釈しやすい」と評価されたデータ項目「x」とループ2で「解釈しやすい」と評価されたデータ項目「x」とループ4で「解釈しやすい」と評価されたデータ項目「x」の下界と上界については「1.0」に固定し、ループ3で「解釈しにくい」と評価されたデータ項目「x」の下界と上界については「1.5」に固定する。
 そして、対話処理部22は、図5で説明した同様の手法を用いて、式(3)のロス関数Lに訓練データセット14を入力してロス関数の最適解を算出する際に、データ項目「x」に対応する「w=1.0」、データ項目「x」に対応する「w=1.0」、データ項目「x」に対応する「w=1.0」を設定するとともに、データ項目「x」に対応する「w=1.5」を設定し、他の「w」についてはランダムな値を設定する。
 つまり、対話処理部22は、データ項目「x」、「x」、「x」についてユーザ評価「解釈しやすい」を反映させ、データ項目「x」についてユーザ評価「解釈しにくい」を反映させ、その他のデータ項目については評価が不明であるためにランダム値を設定した上で、分類モデルの再学習を実行する。ここで、再学習により、分類モデルが「m(x)=x-2x-x+2x」と生成されたとする。
 続いて、対話処理部22は、再学習後の分類モデル「m(x)=x-2x-x+2x」を領域51に表示させた問い合わせ画面50を生成してユーザに表示する。ここで、対話処理部22は、分類モデル「m(x)=x-2x-x+2x」に対してユーザ評価「解釈しやすい」を取得したとする。
 すると、対話処理部22は、ユーザが解釈しやすい線形モデルが生成できたと判定して探索および再学習を終了し、現時点の分類モデル「m(x)=x-2x-x+2x」を、分類モデル15として記憶部13に出力する。
[処理の流れ]
 図18は、処理の流れを示すフローチャートである。図18に示すように、学習部21は、モデル(分類モデル)の学習を実行して記憶部13に格納する(S101)。続いて、対話処理部22は、上界や下界を設定するなどの初期化を実行する(S102)。
 そして、対話処理部22は、訓練データセット14の各データ項目について、仮定に反した場合の上界の最適値と下界の最適値の差分を算出し(S103)、差分が最小のデータ項目をユーザに推薦する(S104)。
 その後、対話処理部22は、推薦したデータ項目に対するユーザ評価を取得し(S105)、推薦したデータ項目にはユーザ評価を反映させ、未評価のデータ項目の解釈しやすさをランダムに仮定して、モデルを再学習する(S106)。
 そして、対話処理部22は、再学習後のモデルを提示し(S107)、ユーザの条件を満たした場合(S108:Yes)、現モデルを出力する(S109)。一方、対話処理部22は、ユーザの条件を満たしていない場合(S108:No)、S103以降を繰り返す。
[効果]
 上述したように、情報処理装置10は、人間に「1つのデータ項目を評価する」という平易なタスクを課し実際の解釈しやすさを得ることができる。また、情報処理装置10は、個々のデータ項目の出現頻度を調整しながらロス関数の最適化に基づく分類モデルを生成することができる。この結果、情報処理装置10は、人間にとって少ない負担で、解釈可能性が高い分類モデルを生成することができる。
 さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。
[数値等]
 上記実施例で用いた数値例、ロス関数、データ項目数、訓練データ数等は、あくまで一例であり、任意に変更することができる。また、分類モデルの生成に用いるロス関数は、式(3)に示したものに限らず、「解釈しやすい」または「解釈しにくい」により変化する重みペナルティを含む他の目的関数を採用することもできる。また、処理の流れも矛盾のない範囲内で適宜変更することができる。また、学習部21を実行する装置と、対話処理部22および出力部26を実行する装置とを別々の装置で実現することもできる。
[モデル等]
 上記実施例では、一度学習されたモデルに対して、ユーザ評価を反映させて再学習する例を説明したが、これに限定されるものではなく、学習前のモデルに対して、上記実施例の手法によりユーザ評価を反映させて学習することもできる。また、線形モデルの生成(再学習)を終了するタイミングは、ユーザ評価に限らず、所定回数実行した場合など任意に設定することができる。また、上記実施例では、目的関数の一例としてロス関数(損失関数)を用いた例で説明したが、これに限定されるものではなく、コスト関数など他の目的関数を採用することができる。
[システム]
 上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。なお、学習部21は、取得部の一例であり、推薦部23は、算出部と選択部の一例であり、再学習部24は、生成部の一例である。
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
 さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[ハードウェア]
 次に、情報処理装置10のハードウェア構成例を説明する。図19は、ハードウェア構成例を説明する図である。図19に示すように、情報処理装置10は、通信装置10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図19に示した各部は、バス等で相互に接続される。
 通信装置10aは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。HDD10bは、図3に示した機能を動作させるプログラムやDBを記憶する。
 プロセッサ10dは、図3に示した各処理部と同様の処理を実行するプログラムをHDD10b等から読み出してメモリ10cに展開することで、図3等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、情報処理装置10が有する各処理部と同様の機能を実行する。具体的には、プロセッサ10dは、学習部21、対話処理部22、出力部26等と同様の機能を有するプログラムをHDD10b等から読み出す。そして、プロセッサ10dは、学習部21、対話処理部22、出力部26等と同様の処理を実行するプロセスを実行する。
 このように、情報処理装置10は、プログラムを読み出して実行することでモデル生成方法を実行する情報処理装置として動作する。また、情報処理装置10は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置10によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
 10 情報処理装置
 11 通信部
 12 表示部
 13 記憶部
 14 訓練データセット
 15 分類モデル
 20 制御部
 21 学習部
 22 対話処理部
 23 推薦部
 24 再学習部
 25 画面表示部
 26 出力部

Claims (7)

  1.  コンピュータに、
     線形モデルの生成に利用される訓練データセットを取得し、
     前記訓練データセットに含まれる各データ項目のそれぞれに関して、ユーザにとって解釈しやすいと仮定した第1の仮定において、データ項目が前記第1の仮定に反した各第1の状態について、前記訓練データセットを用いて前記データ項目の解釈しやすさを損失の重みとして有する目的関数を最適化した各第1の値を算出し、前記データ項目が前記ユーザにとって解釈にしくいと仮定した第2の仮定において、前記データ項目が前記第2の仮定に反した各第2の状態について、前記訓練データセットを用いて前記目的関数を最適化した各第2の値を算出し、
     前記各データ項目それぞれについての前記各第1の値および前記各第2の値に基づき、前記各データ項目の中から特定のデータ項目を選択し、
     前記特定のデータ項目に対するユーザの評価を用いて、前記線形モデルを生成する
     処理を実行させることを特徴とするモデル生成プログラム。
  2.  前記選択する処理は、前記各データ項目それぞれについて、前記データ項目が前記第1の状態である場合の前記第1の値と前記第2の状態である場合の前記第2の値との差を算出し、前記差が最も小さいデータ項目を前記特定のデータ項目として選択することを特徴とする請求項1に記載のモデル生成プログラム。
  3.  前記生成する処理は、前記特定のデータ項目に対して前記ユーザが解釈しやすいまたは解釈しにくいと評価した評価結果を取得し、前記評価結果に基づき前記特定のデータ項目に対応する前記損失の重みを決定し、前記特定のデータ項目以外の他のデータ項目に対応する前記損失の重みを前記第1の仮定または前記第2の仮定のいずれかに決定し、決定した各損失の重みを設定した前記目的関数を最適化して得られる回帰式による前記線形モデルを生成することを特徴とする請求項2に記載のモデル生成プログラム。
  4.  前記算出する処理は、所定の条件を満たす前記線形モデルが生成されるまで、前記ユーザによる評価が得られたデータ項目について前記損失の重みを確定させた状態で、前記ユーザによる評価が未評価である各データ項目に対する前記各第1の値および前記各第2の値を算出し、
     前記選択する処理は、前記特定のデータ項目を選択し、
     前記生成する処理は、前記各データ項目に対応する評価状況に基づき、前記各データ項目に対応する各損失の重みを設定した前記目的関数を最適化して得られる回帰式による前記線形モデルを生成することを特徴とする請求項3に記載のモデル生成プログラム。
  5.  前記取得する処理は、前記各データ項目に対する各損失の重みがランダムに設定された前記目的関数と、前記訓練データセットとを用いて学習された学習済みの線形モデルを取得し、
     前記生成する処理は、前記学習済みの線形モデルに対して、前記各データ項目に対応する評価状況に基づき、前記各データ項目に対応する各損失の重みを設定した前記目的関数を用いて、前記線形モデルの再学習を実行することを特徴とする請求項4に記載のモデル生成プログラム。
  6.  コンピュータが、
     線形モデルの生成に利用される訓練データセットを取得し、
     前記訓練データセットに含まれる各データ項目のそれぞれに関して、ユーザにとって解釈しやすいと仮定した第1の仮定において、データ項目が前記第1の仮定に反した各第1の状態について、前記訓練データセットを用いて前記データ項目の解釈しやすさを損失の重みとして有する目的関数を最適化した各第1の値を算出し、前記データ項目が前記ユーザにとって解釈にしくいと仮定した第2の仮定において、前記データ項目が前記第2の仮定に反した各第2の状態について、前記訓練データセットを用いて前記目的関数を最適化した各第2の値を算出し、
     前記各データ項目それぞれについての前記各第1の値および前記各第2の値に基づき、前記各データ項目の中から特定のデータ項目を選択し、
     前記特定のデータ項目に対するユーザの評価を用いて、前記線形モデルを生成する
     処理を実行することを特徴とするモデル生成方法。
  7.  線形モデルの生成に利用される訓練データセットを取得する取得部と、
     前記訓練データセットに含まれる各データ項目のそれぞれに関して、ユーザにとって解釈しやすいと仮定した第1の仮定において、データ項目が前記第1の仮定に反した各第1の状態について、前記訓練データセットを用いて前記データ項目の解釈しやすさを損失の重みとして有する目的関数を最適化した各第1の値を算出し、前記データ項目が前記ユーザにとって解釈にしくいと仮定した第2の仮定において、前記データ項目が前記第2の仮定に反した各第2の状態について、前記訓練データセットを用いて前記目的関数を最適化した各第2の値を算出する算出部と、
     前記各データ項目それぞれについての前記各第1の値および前記各第2の値に基づき、前記各データ項目の中から特定のデータ項目を選択する選択部と、
     前記特定のデータ項目に対するユーザの評価を用いて、前記線形モデルを生成する生成部と
     を有することを特徴とする情報処理装置。
PCT/JP2020/009534 2020-03-05 2020-03-05 モデル生成プログラム及び方法並びに情報処理装置 WO2021176674A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202080098092.5A CN115244550A (zh) 2020-03-05 2020-03-05 模型生成程序及方法、以及信息处理装置
EP20922956.6A EP4116891A4 (en) 2020-03-05 2020-03-05 MODEL GENERATION PROGRAM AND METHOD, AND INFORMATION PROCESSING DEVICE
PCT/JP2020/009534 WO2021176674A1 (ja) 2020-03-05 2020-03-05 モデル生成プログラム及び方法並びに情報処理装置
JP2022504902A JPWO2021176674A1 (ja) 2020-03-05 2020-03-05
US17/900,972 US20220414404A1 (en) 2020-03-05 2022-09-01 Storage medium, model generation method, and information processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/009534 WO2021176674A1 (ja) 2020-03-05 2020-03-05 モデル生成プログラム及び方法並びに情報処理装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/900,972 Continuation US20220414404A1 (en) 2020-03-05 2022-09-01 Storage medium, model generation method, and information processing apparatus

Publications (1)

Publication Number Publication Date
WO2021176674A1 true WO2021176674A1 (ja) 2021-09-10

Family

ID=77613147

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/009534 WO2021176674A1 (ja) 2020-03-05 2020-03-05 モデル生成プログラム及び方法並びに情報処理装置

Country Status (5)

Country Link
US (1) US20220414404A1 (ja)
EP (1) EP4116891A4 (ja)
JP (1) JPWO2021176674A1 (ja)
CN (1) CN115244550A (ja)
WO (1) WO2021176674A1 (ja)

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ISAAC LAGE ET AL.: "Human-in-the-Loop Interpretability Prior", 32ND CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NIPS 2018, 2018, pages 10180 - 10189
See also references of EP4116891A4
SUZUKI HIROFUMI, GOTO KEISUKE, IWASHITA HIROAKI, TAKAGI TAKUYA, OHORI KOTARO, HARA SATOSHI: "Heuristic Algorithm for Human Acceptable Linear Model based on Weighted Lasso", JSAI TECHNICAL REPORT, SIG-FPAI-112, pages 67 - 72, XP055876969, ISSN: 2436-4584, DOI: 10.11517/jsaifpai.112.0_12 *
TYOKIHARA, YUSHIN ET AL.: "On Upper Bounds on Estimation Error of Least Squares Rgression with L1 Penalty", IEICE TECHNICAL REPORT, DENSHI JOUHOU TSUUSHIN GAKKAI, JP, vol. 114, no. 472 (ISEC2014-106), 23 February 2015 (2015-02-23), JP , pages 199 - 204, XP009538970, ISSN: 0913-5685 *

Also Published As

Publication number Publication date
EP4116891A1 (en) 2023-01-11
EP4116891A4 (en) 2023-03-29
JPWO2021176674A1 (ja) 2021-09-10
CN115244550A (zh) 2022-10-25
US20220414404A1 (en) 2022-12-29

Similar Documents

Publication Publication Date Title
Coulson et al. Data-enabled predictive control: In the shallows of the DeePC
Buşoniu et al. Reinforcement learning for control: Performance, stability, and deep approximators
CN110569443B (zh) 一种基于强化学习的自适应学习路径规划系统
Powell From reinforcement learning to optimal control: A unified framework for sequential decisions
Reif et al. Automatic classifier selection for non-experts
Powell A unified framework for optimization under uncertainty
Kapoor Multi-agent reinforcement learning: A report on challenges and approaches
CN101923663B (zh) 信息处理设备、信息处理方法和程序
Liu et al. Learning conditional preference networks from inconsistent examples
Shiue et al. Development of machine learning‐based real time scheduling systems: using ensemble based on wrapper feature selection approach
Qing et al. A survey on explainable reinforcement learning: Concepts, algorithms, challenges
Li et al. Hierarchical diffusion for offline decision making
Kumar et al. Machine learning algorithms: A conceptual review
Kumar et al. A Conceptual introduction of Machine Learning Algorithms
WO2021176674A1 (ja) モデル生成プログラム及び方法並びに情報処理装置
Ertel et al. Machine learning and data mining
Houeland et al. A learning system based on lazy metareasoning
Rossit et al. knowledge representation in Industry 4.0 scheduling problems
Carvalho et al. Fuzzy set theory to establish resilient production systems
WO2021240664A1 (ja) モデル訓練プログラム、モデル訓練方法および情報処理装置
Pavón et al. Experimental evaluation of an automatic parameter setting system
Kopel Oligopoly dynamics
Ertel et al. Machine learning and data mining
Huang et al. Branch Ranking for Efficient Mixed-Integer Programming via Offline Ranking-Based Policy Learning
Peltonen Recent advances in Reinforcement Learning: Upside Down Reinforcement Learning

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20922956

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022504902

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020922956

Country of ref document: EP

Effective date: 20221005