WO2020059136A1 - 決定リスト学習装置、決定リスト学習方法および決定リスト学習プログラム - Google Patents

決定リスト学習装置、決定リスト学習方法および決定リスト学習プログラム Download PDF

Info

Publication number
WO2020059136A1
WO2020059136A1 PCT/JP2018/035162 JP2018035162W WO2020059136A1 WO 2020059136 A1 WO2020059136 A1 WO 2020059136A1 JP 2018035162 W JP2018035162 W JP 2018035162W WO 2020059136 A1 WO2020059136 A1 WO 2020059136A1
Authority
WO
WIPO (PCT)
Prior art keywords
rule
decision list
appearance
rules
list
Prior art date
Application number
PCT/JP2018/035162
Other languages
English (en)
French (fr)
Inventor
穣 岡嶋
定政 邦彦
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US17/277,520 priority Critical patent/US20210350260A1/en
Priority to JP2020547594A priority patent/JP7136217B2/ja
Priority to PCT/JP2018/035162 priority patent/WO2020059136A1/ja
Publication of WO2020059136A1 publication Critical patent/WO2020059136A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to a decision list learning device, a decision list learning method, and a decision list learning program for learning a decision list.
  • rule-based models that combine multiple simple conditions have the advantage of being easy to interpret.
  • the decision list is one of the rule-based models.
  • the decision list is a list in which rules composed of conditions and predictions are arranged in order. When an example is given, the predictor follows this list in order, adopts the first rule for which the example meets the condition, and outputs a prediction of that rule.
  • Non-Patent Document 1 describes an example of a method for optimizing a decision list.
  • the decision list is optimized using the Markov chain Monte Carlo method.
  • the decision list has the advantage of being highly interpretable, but has the disadvantage of being difficult to optimize. If the model has continuous parameters such as a linear model or a neural network, the optimization is a continuous optimization problem. Therefore, a continuous optimization technique such as calculating a gradient by differentiation and using a gradient descent method can be easily applied. However, since the decision list does not have continuous parameters and the prediction is determined only by the order of application of rules, this optimization is a discrete optimization problem. Therefore, differentiation cannot be performed using parameters, and optimization is difficult.
  • Non-Patent Document 1 is a method of randomly changing a decision list until the prediction accuracy is improved, and it is necessary to try various lists over a long time until a preferable decision list is obtained by chance. is there. Therefore, the method described in Non-Patent Document 1 is inefficient because it takes a very long time until a decision list with high prediction accuracy is obtained, and the method has high prediction accuracy with a realistic calculation time. Deriving a decision list is difficult.
  • an object of the present invention is to provide a decision list learning device, a decision list learning method, and a decision list learning program that can construct a decision list in a practical time while improving prediction accuracy.
  • a decision list learning device is a decision list learning device that learns a decision list, and includes a set of rules including a condition and a prediction, and an input unit that receives a pair of observation data and a correct answer, and a set of rules.
  • a probabilistic decision list generation unit that assigns each included rule to a plurality of positions on the decision list with an appearance degree indicating the degree of appearance, and integrates predictions of rules whose observation data satisfies conditions based on the degree of appearance
  • a learning unit that updates a parameter that determines the degree of appearance so as to reduce the difference between the integrated prediction obtained as described above and the correct answer.
  • the decision list learning method is a decision list learning method for learning a decision list, which includes a set of rules including conditions and predictions, and a pair of observation data and a correct answer, each of which is included in the set of rules.
  • a rule is assigned to a plurality of positions on the decision list with an appearance degree indicating the degree of appearance, and integrated prediction obtained by integrating predictions of rules that satisfy observation data conditions based on the appearance degree, and a correct answer Is characterized in that the parameter for determining the appearance degree is updated so as to reduce the difference between.
  • a decision list learning program is a decision list learning program applied to a computer that learns a decision list, and accepts a set of rules including conditions and predictions, and a pair of observation data and a correct answer.
  • Input processing probabilistic decision list generation processing that assigns each rule included in a set of rules to a plurality of positions on the decision list with appearance frequency indicating the degree of appearance, and prediction of rules whose observation data satisfies conditions Is characterized by executing a learning process for updating a parameter for determining an appearance degree so as to reduce a difference between an integrated prediction obtained by integrating based on the appearance degree and a correct answer.
  • a decision list can be constructed in a practical time while improving the prediction accuracy.
  • FIG. 9 is an explanatory diagram illustrating an example of a rule set. It is an explanatory view showing an example of a stochastic decision list.
  • FIG. 9 is an explanatory diagram illustrating an example of a process of deriving a weighted linear sum. It is a flowchart which shows the example of the process which calculates a prediction value. It is an explanatory view showing an example of a learning result.
  • FIG. 11 is an explanatory diagram illustrating an example of a process of generating a determination list. 5 is a flowchart illustrating an operation example of the decision list learning device of the first embodiment.
  • FIG. 11 is an explanatory diagram illustrating an example of a process of extracting a rule. It is a block diagram showing the example of composition of the 2nd embodiment of the decision list learning device by the present invention. It is an explanatory view showing an example of a stochastic decision list.
  • 1 is a block diagram illustrating a configuration example of an information processing system according to the present invention. It is a block diagram showing the outline of the decision list learning device by the present invention.
  • FIG. 2 is a schematic block diagram illustrating a configuration of a computer according to at least one embodiment.
  • FIG. 1 is a block diagram showing a configuration example of a first embodiment of a decision list learning device according to the present invention.
  • the decision list learning device 100 according to the present embodiment is a device that learns a decision list in which the application order of rules is determined based on a position on the list.
  • the decision list learning device 100 includes an input unit 10, a stochastic decision list generation unit 20, a stochastic decision list learning unit 30, a discretization unit 40, and an output unit 50.
  • the input unit 10 receives a rule set to be optimized.
  • the rule set is a set of rules including a condition regarding observation data and prediction when the observation data satisfies the condition.
  • Each rule included in the rule set may be provided with an index. In this case, each rule may be arranged in order according to the index.
  • the input unit 10 receives a set of training data, which is a pair of observation data and a correct answer.
  • each rule is assigned an index starting with 0, and the rule specified by the index j is referred to as r j .
  • r j the rule specified by the index j is referred to as r j .
  • it predicts the (predicted value) y ⁇ j of this rule or, referred to in the superscript of y j ⁇ .
  • FIG. 2 is an explanatory diagram illustrating an example of a rule set.
  • rules used in the present embodiment for example, rules automatically acquired by applying frequent pattern mining to training data or rules manually created by humans can be used.
  • condition of the rule is not particularly limited as long as the truth can be determined when the observation data is given.
  • the condition of the rule may include, for example, a compound condition obtained by combining a plurality of conditions by AND.
  • a rule extracted by frequent pattern mining as described in Non-Patent Document 1 may be used.
  • a rule extracted by a decision tree ensemble such as Random @ Forest may be used. A method of extracting a rule using a decision tree ensemble will be described later.
  • the probabilistic determination list generation unit 20 generates a list in which rules are associated with the degrees of appearance indicating the degrees of appearance of the rules. This appearance degree is a value indicating the degree of appearance of the rule at a specific position in the decision list.
  • the probabilistic determination list generation unit 20 according to the present embodiment generates a list in which each rule included in the set of accepted rules is assigned to a plurality of positions on the determination list with an appearance degree indicating the degree of appearance.
  • the appearance degree is treated as the probability that the rule appears on the decision list (hereinafter referred to as the appearance probability). Therefore, the generated list is hereinafter referred to as a probabilistic decision list.
  • the method by which the stochastic decision list generation unit 20 assigns rules to a plurality of positions on the decision list is arbitrary. However, in order to allow the stochastic decision list learning unit 30 described later to appropriately determine the order of the rules on the decision list, it is preferable to assign the rules so as to cover the context of each rule. For example, when assigning the first rule and the second rule, the probabilistic determination list generation unit 20 assigns the second rule after the first rule and the first rule after the second rule. Is preferably assigned. Note that the number of rules assigned by the stochastic determination list generation unit 20 may be the same or different for each rule.
  • the probabilistic determination list generation unit 20 duplicates and concatenates a list of length
  • the stochastic decision list generation unit 20 uses the probability p ⁇ (j, d) that the rule r j appears at the position ⁇ (j, d) as the degree of appearance , and uses the softmax function with temperature as exemplified in the following Expression 2. May be used for calculation.
  • is a temperature parameter
  • w j, d is a parameter representing the degree to which rule r j appears at position ⁇ (j, d) in the list.
  • the probabilistic decision list generation unit 20 generates the probabilistic decision list in which each rule is assigned to a plurality of positions on the decision list, with the probability of occurrence defined by the softmax function exemplified in Equation 2. You may.
  • the parameters w j, d are arbitrary real numbers in the range of [ ⁇ , ⁇ ].
  • the probability p j, d is normalized to a total of 1 by the softmax function. That is, for each rule, the sum of the probabilities of appearance at ⁇ positions in the list and the probabilities of not appearing in the list is 1.
  • Equation 2 when the temperature ⁇ approaches 0, the output of the softmax function approaches the one-hot vector. That is, in a certain rule, the probability becomes 1 only in any one position, and becomes 0 in other positions.
  • a range in which one rule is determined from a plurality of assigned rules is referred to as a group.
  • a group in which the same rule is put together constitutes one group. Therefore, it can be said that the stochastic determination list generation unit 20 determines the appearance degree so that the total appearance degree of the rules belonging to the same group becomes 1. In other words, the probabilistic determination list generation unit 20 of the present embodiment determines the appearance so that the sum of the appearances of the same rule assigned to a plurality of positions becomes one.
  • FIG. 3 is an explanatory diagram showing an example of processing for generating a probabilistic decision list.
  • the first two rule sets correspond to the in-list rule set R2
  • the remaining one rule set corresponds to the out-of-list rule set R3.
  • the appearance frequency of each rule included in the in-list rule set R2 is set to 0.3
  • the appearance frequency of each rule included in the out-of-list rule set R3 is 0.4.
  • the set appearance does not need to be the same in the in-list rule set R2 and the out-of-list rule set R3, and an arbitrary appearance can be set.
  • it is determined that the sum of the appearances of the rules belonging to the same group is 1.
  • the probabilistic decision list generation unit 20 randomly selects a rule from the received rule set R1, and selects a probabilistic decision list (the in-list rule set R4 and the out-of-list rule set R4).
  • a rule set R5) may be generated.
  • rules are regularly arranged from the viewpoint of calculation (more specifically, from the viewpoint of matrix calculation).
  • the probabilistic determination list learning unit 30 integrates prediction of a rule that satisfies a condition that observation data included in the received training data satisfies a condition, based on an appearance degree associated with the rule.
  • the integrated prediction is referred to as integrated prediction.
  • the stochastic decision list learning unit 30 updates the parameter for determining the appearance degree and learns the stochastic decision list so as to reduce the difference between the integrated prediction and the correct answer.
  • the stochastic decision list learning unit 30 updates the parameters w j, d to learn the stochastic decision list.
  • the stochastic decision list learning unit 30 extracts a rule including a condition satisfied by the received observation data.
  • the probabilistic decision list learning unit 30 arranges the extracted rules in order, so that the greater the frequency of appearance of a rule that satisfies the condition with the observation data, the smaller the weight of the rule following the rule is, Calculate the weight of the rule.
  • the stochastic decision list learning unit 30 integrates the prediction of the rules using the calculated weights as the integrated prediction.
  • the probabilistic decision list learning unit 30 multiplies the appearance of the subsequent rule by the cumulative product of (1-p) and weights the rule.
  • the weighted linear sum calculated and multiplied by the calculated weight to each prediction and added may be used as the integrated prediction.
  • the integrated prediction y ⁇ is expressed by Expression 3 illustrated below.
  • ⁇ (i) i%
  • is an index indicating the rule corresponding to the position i.
  • 1 i (x) is a function that becomes 1 when the input x satisfies the condition of the rule corresponding to the position i, and becomes 0 when the condition is not satisfied.
  • FIG. 4 is an explanatory diagram showing an example of a process for deriving a weighted linear sum.
  • observation data that satisfies the conditions of Rule 1 and Rule 3 has been received in the situation where the probabilistic determination list illustrated in FIG. 3 has been generated.
  • the probabilistic decision list learning unit 30 extracts the rules 1 and 3 including the condition satisfied by the received observation data (rule list R6).
  • the probabilistic decision list learning unit 30 multiplies the probability p of each rule by a value (1-p) obtained by subtracting the probability p of the preceding rule from 1 from 1 in order from the top of the probabilistic decision list. Calculate the weight.
  • the stochastic decision list learning unit 30 sets the weight of the rule 3 in the second line to the probability 0.3 of the rule 3.
  • the weight (0.21) is calculated by multiplying the probability of the rule 1 of the eye by a value (1-0.3) obtained by subtracting it from 1.
  • the stochastic decision list learning unit 30 subtracts the weight of rule 1 in the third line from the probability of rule 1 in rule 1 to the probability of rule 1 in the first line from 1 (1 ⁇ 0.3 ) And a value (1-0.3) obtained by subtracting the probability of rule 3 in the second row from 1 to calculate the weight (0.147).
  • the probabilistic decision list learning unit 30 subtracts the weight of the rule 3 in the fourth row from the probability of the rule 3 to 0.3 and the probability of the rule 1 in the first row from 1 (1-0.3).
  • the stochastic decision list learning unit 30 determines the appearance degree of the rule included in the out-of-list rule set by the weight. Not used for calculation processing.
  • the probabilistic decision list learning unit 30 calculates a weighted linear sum obtained by adding the calculated weights as coefficients of each prediction as a prediction value.
  • prediction 1 based on rule 1 in the first row prediction 3 based on rule 3 in the second row, prediction 1 based on rule 1 in the third row, and prediction 3 based on rule 3 in the fourth row, respectively.
  • a default prediction value may be provided in consideration of a case where there is no rule including a condition satisfied by the received observation data.
  • the integrated prediction y ⁇ may be expressed by Expression 4 illustrated below.
  • y ⁇ def is a default predicted value.
  • y ⁇ def for example, an average value of all y included in the training data may be used.
  • FIG. 5 is a flowchart illustrating an example of a process for calculating the predicted value y ⁇ .
  • the probabilistic decision list learning unit 30 adds the q i p i y ⁇ j in y ⁇ , by adding the q i p i to s , Q i by (1 ⁇ p i ) (step S13).
  • the processing in step S13 is not performed.
  • the stochastic decision list learning unit 30 adds (1-s) y ⁇ def to the predicted value y ⁇ (step S14), and sets the added value as the predicted value y ⁇ .
  • the probabilistic decision list learning unit 30 calculates the weight of a rule such that the greater the frequency of appearance of a rule whose observation data satisfies the condition, the lower the weight of the rule following that rule, and This has the effect of not using rules that exist subsequently. This can be said that the final decision list is derived from the stochastic decision list considered to be stochastically distributed.
  • the method by which the stochastic determination list learning unit 30 updates the parameter for determining the appearance degree so as to reduce the difference between the integrated prediction and the correct answer is arbitrary.
  • the function L (D; W), the error function E (D; W), and the regularization term R (W) may be defined as in the following Expression 5.
  • C is a hyperparameter for balancing the error function and the regularization term.
  • a mean square error exemplified in Expression 6 below may be used as the error function E (D; W).
  • cross entropy may be used as an error function. That is, any error function may be defined as long as the gradient can be calculated.
  • Expression 7 illustrated below may be used as the regularization term R (W).
  • the regularization term exemplified in Expression 7 is the sum of the probabilities that exist in the list for all rules. By adding this regularization term, the number of rules included in the list is reduced, so that generalization performance can be improved.
  • the stochastic decision list learning unit 30 calculates the gradient of the loss function and minimizes the gradient by using the gradient descent method.
  • , ⁇ + 1) where w j, d is an element of the j-th row and the d-th column in the above equation (2) can be defined as By defining the parameters in this manner, the gradient can be calculated by matrix operation.
  • FIG. 6 is an explanatory diagram showing an example of a learning result.
  • the appearance of each rule is optimized and updated so as to improve prediction accuracy.
  • the appearance rates of the rule 1 on the second line, the rule 4 on the fifth line, and the rule 2 on the eighth line are updated from 0.3 to 0.8, respectively. This indicates that the appearance of the rule at the correct position has been improved.
  • the appearance rates of rule 0 on the first line and rule 0 on the fourth line are updated from 0.4 to 0.8 in the out-of-list rule set. Indicates that the rule is less applicable.
  • the discretization unit 40 generates a decision list based on the learned stochastic decision list. Specifically, the discretization unit 40 selects a rule with the highest occurrence frequency associated with the same rule from the learned rules based on the learned stochastic decision list, and generates a decision list. From the viewpoint of the above group, the discretization unit 40 replaces the occurrence of a rule associated with the maximum occurrence in the same group with 1 and replaces the occurrence of a rule other than the replaced with 0. Generates a discrete decision list. This means that, by applying only the rule whose appearance has been replaced with 1, the list of rules considered to be stochastically distributed is regarded as a list of discrete rules.
  • the discretization unit 40 since the discretization unit 40 generates a discrete decision list from a stochastic decision list indicating a stochastic distribution, it can be said that the discretization unit 40 is a decision list generation unit. In addition, it can be said that the discretization unit 40 performs a process of fixing the rule to a position where the probability becomes the maximum.
  • FIG. 7 is an explanatory diagram showing an example of processing for generating a decision list. It is assumed that, for example, a result illustrated in FIG. 6 is obtained as a stochastic determination list.
  • a result illustrated in FIG. 6 is obtained as a stochastic determination list.
  • the discretization unit 40 determines that the rule assigned to the second row is applied to rule 1.
  • the rule assigned to the eighth row has a higher appearance rate than the rule assigned to the third row. Therefore, the discretization unit 40 determines that the rule assigned to the eighth row is applied to rule 2.
  • the discretization unit 40 generates the decision list R8 in the order of rule 1, rule 4, and rule 2 as a result of performing the above processing for all groups (rules). Note that since the rules 0 and 3 of the rule set outside the list are unnecessary, the discretization unit 40 excludes the rules 0 and 3 from the decision list.
  • the output unit 50 outputs the generated decision list.
  • the input unit 10, the stochastic decision list generation unit 20, the probabilistic decision list learning unit 30, the discretization unit 40, and the output unit 50 include a processor (for example, a computer) that operates according to a program (decision list learning program).
  • a processor for example, a computer
  • a CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • FPGA field-programmable gate array
  • the program is stored in a storage unit (not shown) included in the decision list learning apparatus 100, and the processor reads the program, and according to the program, the input unit 10, the stochastic decision list generation unit 20, the stochastic decision list It may operate as the learning unit 30, the discretization unit 40, and the output unit 50.
  • the function of the decision list learning device 100 may be provided in the form of SaaS (Software ⁇ as ⁇ a ⁇ Service ⁇ ).
  • the input unit 10, the stochastic decision list generation unit 20, the stochastic decision list learning unit 30, the discretization unit 40, and the output unit 50 may each be realized by dedicated hardware.
  • some or all of the components of each device may be realized by a general-purpose or dedicated circuit (circuitry II), a processor, or a combination thereof. These may be configured by a single chip, or may be configured by a plurality of chips connected via a bus. Some or all of the components of each device may be realized by a combination of the above-described circuit and the like and a program.
  • the plurality of information processing devices or circuits may be centrally arranged. , May be distributed.
  • the information processing device, the circuit, and the like may be realized as a form in which each is connected via a communication network, such as a client server system and a cloud computing system.
  • FIG. 8 is a flowchart illustrating an operation example of the decision list learning device 100 of the present embodiment.
  • the input unit 10 receives a set of rules (rule set) including conditions and predictions, and training data that is a pair of observation data and a correct answer (step S21).
  • the stochastic decision list generation unit 20 assigns each rule included in the rule set to a plurality of positions on the decision list with an appearance degree indicating the degree of appearance (step S22).
  • the probabilistic decision list learning unit 30 integrates the predictions of the rule that satisfies the condition with the observation data, acquires the integrated prediction based on the degree of appearance (step S23), and reduces the difference between the integrated prediction and the correct answer. Then, the parameter for determining the appearance degree is updated (step S24).
  • the discretizing unit 40 generates a discrete decision list from a stochastic decision list in which rules and degrees of occurrence are assigned to a plurality of positions, and the output unit 50 outputs the generated decision list.
  • the input unit 10 receives a set of rules and training data, and the stochastic decision list generation unit 20 determines each rule included in the set of rules by a plurality of positions on the decision list. Assigned with appearance. Then, the stochastic decision list learning unit 30 reduces the occurrence degree so that the difference between the integrated prediction obtained by integrating the prediction of the rule that the observation data satisfies the condition based on the appearance degree and the correct answer is small. Update the parameters to be determined. Therefore, the decision list can be constructed in a practical time while improving the prediction accuracy.
  • the probabilistic decision list generation unit 20 generates a probabilistic decision list by assigning each rule to a plurality of positions on the decision list with their appearance.
  • the generated decision list is a decision list that exists stochastically assuming that the rules are stochastically distributed, and can be optimized by the gradient descent method, so that a more accurate decision list can be constructed in a practical time. .
  • FIG. 9 is a block diagram showing a modification of the decision list learning device of the first embodiment.
  • the decision list learning device 101 of the present modification includes an extraction unit 11 in addition to the decision list learning device 100 of the first embodiment.
  • the input unit 10 accepts an input of a decision tree instead of the rule set.
  • the extraction unit 11 extracts a rule from the received decision tree. Specifically, the extraction unit 11 extracts, as a plurality of rules from the decision tree, a condition for tracing a leaf node from a root node and a prediction indicated by the leaf node.
  • FIG. 10 is an explanatory diagram illustrating an example of a process of extracting a rule. It is assumed that the input unit 10 has received the decision tree T1 illustrated in FIG. At this time, the extraction unit 11 traces the leaf node from the root node, and extracts a rule combining conditions set for each node and a prediction indicated by the leaf node. For example, as a condition for a leaf node whose prediction is “B”, the extraction unit 11 extracts “(x 0 ⁇ 4) AND (x 1 > 2)”. The extraction unit 11 may similarly extract conditions and predictions for other leaf nodes.
  • the extraction unit 11 can perform processing in cooperation with a decision tree ensemble such as Random @ Forest.
  • Embodiment 2 a second embodiment of the decision list learning device according to the present invention will be described.
  • the stochastic decision list generation unit 20 generates a list (probabilistic decision list) in which one rule is assigned to one position.
  • a method for learning a decision list using a list in which a plurality of rules are assigned to one position will be described.
  • FIG. 11 is a block diagram showing a configuration example of the second embodiment of the decision list learning device according to the present invention.
  • the decision list learning device 200 of the present embodiment includes an input unit 10, a stochastic decision list generation unit 21, a stochastic decision list learning unit 30, a discretization unit 40, and an output unit 50.
  • the decision list learning device 200 of the present embodiment includes a stochastic decision list generation unit 21 instead of the probabilistic decision list generation unit 20 as compared with the decision list learning device 100 of the first embodiment. Differs in that: Other configurations are the same as in the first embodiment. Note that the decision list learning device 200 may include the extraction unit 11 shown in the modification of the first embodiment.
  • the probabilistic decision list generation unit 21 generates a list in which rules are associated with the degrees of appearance, similarly to the probabilistic decision list generation unit 20 of the first embodiment. However, the probabilistic decision list generation unit 21 of the present embodiment generates a probabilistic decision list in which a plurality of rules and the degrees of appearance are assigned to one position. At this time, the probabilistic decision list generation unit 21 normalizes the rule existing at one position so that the total probability is 1.
  • the stochastic determination list generation unit 21 of the present embodiment also determines the appearance degree so that the sum of the appearance degrees of the rules belonging to the same group becomes 1. That is, the probabilistic determination list generation unit 21 determines the appearance so that the sum of the appearances of a plurality of rules assigned to the same position becomes one.
  • FIG. 12 is an explanatory diagram showing an example of a stochastic decision list.
  • a probabilistic decision list in which five rules (rules 0 to 4) and appearances are assigned to one position is shown. Further, the example shown in FIG. 12 indicates that each row corresponds to one group, and the sum of the appearances is 1.0.
  • the probabilistic decision list learning unit 30 of the present embodiment also integrates the prediction of the rule that satisfies the condition that the observation data included in the received training data satisfies the condition, based on the appearance degree associated with the rule. Specifically, the probabilistic decision list learning unit 30 calculates rule weights such that the greater the appearance of a rule that satisfies the condition of the observation data, the smaller the weight of the rule following the rule is.
  • the probabilistic decision list learning unit 30 sets the probability q as the sum of the occurrences of the rule corresponding to the input data x at one position, and calculates (1-q) Is multiplied by the cumulative product of the rules to calculate the weight of the rule.
  • a weighted linear sum obtained by multiplying each prediction by the weight calculated in this manner and adding the weights may be used as the integrated prediction.
  • the probabilistic decision list learning unit 30 extracts the rules 1 and 3 including the conditions that are satisfied by the received observation data.
  • the probabilistic decision list learning unit 30 calculates the sum of the occurrences of the rule corresponding to each position, and sets it as the probability q.
  • the stochastic decision list learning unit 30 calculates a weight by multiplying the probability p of each rule by a value (1 ⁇ q) obtained by subtracting the probability q of the preceding rule from 1 from 1.
  • the stochastic decision list learning unit 30 multiplies the probability 0.1 of the rule 1 in the second row by a value (1-0.4) obtained by subtracting the total of the probabilities of the rules in the first row from 1 by The weight (0.06) is calculated. Similarly, the stochastic decision list learning unit 30 multiplies the probability 0.1 of the rule 3 in the second row by a value (1-0.4) obtained by subtracting the total of the probabilities of the rules in the first row from 1 , Weight (0.06).
  • weight 0.06
  • the stochastic decision list learning unit 30 calculates, as a predicted value, a weighted linear sum obtained by adding the calculated weight as a coefficient of each prediction.
  • the stochastic decision list learning unit 30 updates the parameter for determining the appearance degree so as to reduce the difference between the integrated prediction and the correct answer. Also in the present embodiment, for example, in the limit where ⁇ ⁇ 0 in the above equation 2, the stochastic decision list converges to a normal decision list, as in the first embodiment.
  • the probabilistic decision list generation unit 21 generates a probabilistic decision list in which a plurality of rules and appearances are assigned to one position, and the probabilistic decision list learning unit 30 The parameter for determining the appearance is updated so as to reduce the difference between the prediction and the correct answer. Even with such a configuration, the decision list can be constructed in a practical time while improving the prediction accuracy.
  • Embodiment 3 an application example of the decision list generated in the present invention will be described.
  • the conditions for the input x are checked in order from the top, and the first applicable rule is selected.
  • a method will be described in which the rule to be selected is extended, and even when the applicable rule is found, the applicable rule is further selected and processed based on the subsequent conditions.
  • FIG. 13 is a block diagram showing a configuration example of the information processing system 300 of the present invention.
  • the information processing system 300 illustrated in FIG. 13 includes the decision list learning device 100 and a predictor 310. Note that, instead of the decision list learning device 100, a decision list learning device 101 or a decision list learning device 200 may be used. Further, the predictor 310 may be configured integrally with the decision list learning device 100.
  • the predictor 310 acquires the decision list learned by the decision list learning device 100. Then, the predictor 310 checks the decision list in order from the top until the condition of the predetermined number is satisfied, and obtains a predetermined number of rules including the condition corresponding to the input x from the decision list. Note that when there is no condition corresponding to the predetermined number of cases, the predictor 310 may obtain all rules corresponding to the condition from the determination list.
  • the predictor 310 performs prediction using all the obtained rules. For example, the predictor 310 may determine the average of the obtained predictions of the rule as the final prediction. When a weight is set for each rule in the decision list, the predictor 310 may calculate prediction according to the weight of each rule.
  • the method of acquiring one rule corresponding to the condition from the decision list and performing prediction based on the rule is the same as the method using the ordinary decision list. In this case, a highly interpretable prediction can be performed. On the other hand, a method of making a majority decision using a plurality of rule predictions can further improve the prediction accuracy.
  • k 1 matches the method using a normal decision list.
  • a process performed by selecting k rules from the top can be called a top k decision list (Top-k ⁇ decision ⁇ lists).
  • FIG. 14 is a block diagram showing an outline of the decision list learning device according to the present invention.
  • the decision list learning device 80 is a decision list learning device (for example, a decision list learning device 100, 101, 201) for learning a decision list, and includes a set of rules including conditions and predictions, and observation data. And an input unit 81 (for example, the input unit 10) that receives a pair of correct answers (for example, training data), and an appearance degree indicating the degree of appearance of each rule included in the set of rules at a plurality of positions on the decision list.
  • a pair of correct answers for example, training data
  • a probabilistic decision list generator 82 (for example, a stochastic decision list generator 20) that allocates (for example, generates a probabilistic decision list), and integrates prediction of rules whose observation data satisfies the condition based on the occurrence degree
  • the learning unit 83 (for updating the parameter for determining the appearance degree so as to reduce the difference between the integrated prediction (for example, a weighted linear sum) obtained by Example, and a stochastic decision list learning section 30).
  • the decision list can be constructed in a practical time while improving the prediction accuracy.
  • the learning unit 83 calculates rule weights such that the greater the appearance frequency of a rule that satisfies the condition of the observation data, the smaller the weight of the rule following the rule is, and predicts the rule using the weight.
  • the integrated result may be used as the integrated prediction. In this way, by calculating the weight of a rule so that the greater the frequency of appearance of a rule that satisfies the condition, the weight of the rule following the rule decreases, the rules existing after that rule are not used. The effect to be obtained is obtained.
  • the stochastic determination list generation unit 82 may determine the appearance degree so that the sum of the appearance degrees of the rules belonging to the same group becomes one.
  • the probabilistic determination list generation unit 82 groups the same rule assigned to a plurality of positions, and determines the appearance so that the total appearance of the rules belonging to each group becomes 1. You may.
  • the probabilistic determination list generation unit 82 may group a plurality of rules assigned to the same position, and determine the appearance such that the total appearance of the rules belonging to each group is 1. .
  • the decision list learning device 80 replaces the maximum occurrence in the same group with 1 and replaces the occurrences other than the replaced with 0, thereby generating a discrete list as a decision list. (For example, a discretizing unit 40).
  • the decision list learning device 80 may include an extraction unit (for example, the extraction unit 11) that extracts a rule from a decision tree. Then, the input unit 81 may receive the input of the decision tree, and the extraction unit may extract, from the received decision tree, a condition for tracing the leaf node from the root node and a prediction indicated by the leaf node as a rule. According to such a configuration, it is possible to extract a plurality of rules from the decision tree.
  • an extraction unit for example, the extraction unit 11
  • the stochastic decision list generation unit 82 may assign each rule to a plurality of positions on the decision list with appearance by duplicating and connecting all the rules included in the rule set a plurality of times. . According to such a configuration, since the parameters can be defined by a matrix, it is possible to calculate a gradient by a matrix operation.
  • the learning unit 83 may multiply the prediction of the rule by the weight of the rule reduced according to the degree of appearance to obtain the sum of the weighted linear sums as the integrated prediction.
  • FIG. 15 is a schematic block diagram showing a configuration of a computer according to at least one embodiment.
  • the computer 1000 includes a processor 1001, a main storage device 1002, an auxiliary storage device 1003, and an interface 1004.
  • the decision list learning device 80 described above is implemented in the computer 1000.
  • the operation of each processing unit described above is stored in the auxiliary storage device 1003 in the form of a program (decision list learning program).
  • the processor 1001 reads out the program from the auxiliary storage device 1003, expands the program in the main storage device 1002, and executes the above processing according to the program.
  • the auxiliary storage device 1003 is an example of a non-transitory tangible medium.
  • Other examples of non-transitory tangible media include a magnetic disk, a magneto-optical disk, a CD-ROM (Compact Disc Read-only memory), a DVD-ROM (Read-only memory), A semiconductor memory and the like are included.
  • the program When the program is distributed to the computer 1000 via a communication line, the computer 1000 that has received the program may load the program into the main storage device 1002 and execute the above-described processing.
  • the program may be for realizing a part of the functions described above. Further, the program may be a program that realizes the above-described function in combination with another program already stored in the auxiliary storage device 1003, that is, a so-called difference file (difference program).
  • a decision list learning device that learns a decision list, a set of rules including a condition and a prediction, an input unit that receives a pair of observation data and a correct answer, and each rule included in the set of rules. And a probabilistic decision list generation unit that assigns, to a plurality of positions on the decision list, with a degree of appearance indicating the degree of appearance, and the prediction of the rule that satisfies the condition with the observation data is integrated based on the degree of appearance.
  • a learning unit that updates a parameter that determines the degree of appearance so as to reduce a difference between the integrated prediction obtained as described above and the correct answer.
  • the learning unit calculates the weight of the rule such that the greater the appearance frequency of the rule that satisfies the condition of the observation data is, the smaller the weight of the rule following the rule is, and the weight of the rule is calculated using the weight.
  • the decision list learning device according to Supplementary Note 1, wherein an integrated prediction is defined as an integrated prediction.
  • the probabilistic determination list generation unit groups the same rules assigned to a plurality of positions, and determines the appearance so that the total appearance of the rules belonging to each group becomes one. To 3.
  • the decision list learning device according to any one of Supplementary Note 3 to Supplementary Note 3.
  • the probabilistic determination list generation unit groups a plurality of rules assigned to the same position, and determines the appearance so that the total appearance of the rules belonging to each group becomes one.
  • the decision list learning device according to any one of Supplementary Note 3 to Supplementary Note 3.
  • (Supplementary Note 7) An extraction unit for extracting a rule from the decision tree, wherein the input unit receives an input of the decision tree, and the extraction unit determines, from the received decision tree, a condition for tracing a leaf node from a root node and a leaf node 6.
  • the decision list learning device according to any one of Supplementary Notes 1 to 6, wherein the prediction indicated by (1) is extracted as a rule.
  • the probabilistic decision list generation unit assigns each rule to a plurality of positions on the decision list with occurrences by copying and connecting all rules included in the set of rules a plurality of times.
  • the decision list learning device according to any one of Supplementary notes 7 to 7.
  • a decision list learning method for learning a decision list which receives a set of rules including conditions and predictions and a pair of observation data and a correct answer, and determines each rule included in the set of rules.
  • An integrated prediction obtained by integrating a plurality of positions on the list with an appearance degree indicating the degree of appearance, and integrating the prediction of the rule that satisfies the condition with the observation data based on the appearance degree;
  • a parameter for determining the appearance degree is updated so as to reduce the difference from the determination list.
  • Rule weights are calculated such that the greater the appearance of a rule whose observation data satisfies the condition, the smaller the weight of the rule following the rule is, and the prediction of the rule is integrated using the weight.
  • a decision list learning program applied to a computer that learns a decision list wherein the computer receives a set of rules including a condition and a prediction, and an input process for receiving a pair of observation data and a correct answer.
  • Probabilistic decision list generation processing that assigns each rule included in the rule set to a plurality of positions on the decision list with an appearance degree indicating the degree of appearance, and prediction of the rule that the observation data satisfies a condition.
  • a decision list learning program for executing a learning process for updating a parameter for determining the degree of appearance so as to reduce a difference between the integrated prediction obtained by integrating based on the degree of appearance and the correct answer.
  • the computer calculates the weight of the rule such that the greater the appearance frequency of the rule whose observation data satisfies the condition is, the smaller the weight of the rule following the rule is, and the weight is used by using the weight. 13.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

入力部81は、条件と予測とを含むルールの集合、及び、観測データと正解のペアを受け付ける。確率的決定リスト生成部82は、ルールの集合に含まれる各ルールを、決定リスト上の複数の位置に、出現の度合いを示す出現度つきで割り当てる。学習部83は、観測データが条件を満たすルールの予測を出現度に基づいて統合することで得られる統合予測と、正解との差を小さくするように、出現度を決定するパラメータを更新する。

Description

決定リスト学習装置、決定リスト学習方法および決定リスト学習プログラム
 本発明は、決定リストを学習する決定リスト学習装置、決定リスト学習方法および決定リスト学習プログラムに関する。
 機械学習の分野において、単純な条件を複数組み合わせるルールベースのモデルは、解釈が容易であるという利点がある。
 決定リスト(decision list)は、ルールベースのモデルの一つである。決定リストは、条件と予測から構成されるルールが、順序付きで並べられたリストである。用例が与えられたとき、予測器は、このリストを順にたどり、用例が条件に適合する最初のルールを採用し、そのルールの予測を出力する。
 非特許文献1には、決定リストを最適化する方法の一例が記載されている。非特許文献1に記載された方法では、マルコフ連鎖モンテカルロ法を用いて決定リストを最適化する。
Letham,  Benjamin,  Rudin,  Cynthia,  McCormick,  Tyler H.,  and Madigan,  David, "Interpretable  classifiers  using  rules  and Bayesian analysis:  Building a better stroke prediction model", Annals of Applied Statistics, 9(3), pp.1350?1371, 2015.
 決定リストは、解釈性が高いという利点がある一方で、最適化が難しいという欠点がある。線形モデルやニューラルネットワークのような連続的なパラメータを持つモデルであれば、その最適化は連続最適化問題になる。そのため、微分により勾配を計算して勾配降下法を利用するなど、連続最適化の手法が容易に適用できる。しかし、決定リストは、連続的なパラメータを持たず、ルールの適用順序だけで予測が決まるため、この最適化は離散最適化問題となる。そのため、パラメータで微分することができず、最適化が難しい。
 非特許文献1に記載されている方法は、予測精度が改善されるまで決定リストをランダムに変更する方法であり、好ましい決定リストが偶然得られるまで長い時間をかけて様々なリストを試す必要がある。そのため、非特許文献1に記載された方法は、予測精度が高い決定リストが得られるまでに、非常に長い時間がかかってしまうため非効率的であり、現実的な計算時間で予測精度が高い決定リストを導出することは困難である。
 そこで、本発明は、予測精度を高めつつ実用的な時間で決定リストを構築できる決定リスト学習装置、決定リスト学習方法および決定リスト学習プログラムを提供すること目的とする。
 本発明による決定リスト学習装置は、決定リストを学習する決定リスト学習装置であって、条件と予測とを含むルールの集合、及び、観測データと正解のペアを受け付ける入力部と、ルールの集合に含まれる各ルールを、決定リスト上の複数の位置に、出現の度合いを示す出現度つきで割り当てる確率的決定リスト生成部と、観測データが条件を満たすルールの予測を出現度に基づいて統合することで得られる統合予測と、正解との差を小さくするように、出現度を決定するパラメータを更新する学習部とを備えたことを特徴とする。
 本発明による決定リスト学習方法は、決定リストを学習する決定リスト学習方法であって、条件と予測とを含むルールの集合、及び、観測データと正解のペアを受け付け、ルールの集合に含まれる各ルールを、決定リスト上の複数の位置に、出現の度合いを示す出現度つきで割り当て、観測データが条件を満たすルールの予測を出現度に基づいて統合することで得られる統合予測と、正解との差を小さくするように、出現度を決定するパラメータを更新することを特徴とする。
 本発明による決定リスト学習プログラムは、決定リストを学習するコンピュータに適用される決定リスト学習プログラムであって、コンピュータに、条件と予測とを含むルールの集合、及び、観測データと正解のペアを受け付ける入力処理、ルールの集合に含まれる各ルールを、決定リスト上の複数の位置に、出現の度合いを示す出現度つきで割り当てる確率的決定リスト生成処理、および、観測データが条件を満たすルールの予測を出現度に基づいて統合することで得られる統合予測と、正解との差を小さくするように、出現度を決定するパラメータを更新する学習処理を実行させることを特徴とする。
 本発明によれば、予測精度を高めつつ実用的な時間で決定リストを構築できる。
本発明による決定リスト学習装置の第一の実施形態の構成例を示すブロック図である。 ルールセットの例を示す説明図である。 確率的決定リストの例を示す説明図である。 重み付線形和を導出する処理の例を示す説明図である。 予測値を算出する処理の例を示すフローチャートである。 学習結果の例を示す説明図である。 決定リストを生成する処理の例を示す説明図である。 第一の実施形態の決定リスト学習装置の動作例を示すフローチャートである。 第一の実施形態の決定リスト学習装置の変形例を示すブロック図である。 ルールを抽出する処理の例を示す説明図である。 本発明による決定リスト学習装置の第二の実施形態の構成例を示すブロック図である。 確率的決定リストの例を示す説明図である。 本発明の情報処理システムの構成例を示すブロック図である。 本発明による決定リスト学習装置の概要を示すブロック図である。 少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
 以下、本発明の実施形態を図面を参照して説明する。本発明では、xを観測データとし、正解yを予測する問題を考える。以下では、yが任意の連続値である回帰問題について説明するが、クラスへの所属確率をyとして用いることで、分類問題にも適用可能である。
実施形態1.
 図1は、本発明による決定リスト学習装置の第一の実施形態の構成例を示すブロック図である。本実施形態の決定リスト学習装置100は、リスト上での位置に基づいてルールの適用順序が決まる決定リストを学習する装置である。決定リスト学習装置100は、入力部10と、確率的決定リスト生成部20と、確率的決定リスト学習部30と、離散化部40と、出力部50とを備えている。
 入力部10は、最適化の対象とするルールセットを受け付ける。ルールセットは、観測データに関する条件と、その観測データが条件を満たす場合の予測とを含むルールの集合である。ルールセットに含まれる各ルールには、インデックスが付与されていてもよい。この場合、各ルールがインデックスに従って順に並べられていてもよい。また、入力部10は、観測データと正解とのペアである訓練データの集合を受け付ける。
 本実施形態では、ルールセットが事前に構築されていると仮定する。また、各ルールには、0で始まるインデックスが割り当てられており、インデックスjで特定されるルールをrと記す。また、このルールの予測(予測値)をy^、または、yの上付き^で記す。
 図2は、ルールセットの例を示す説明図である。図2に示す例では、ルールに観測データx=[x,xに関する条件が含まれる。本実施形態で用いられるルールには、例えば、訓練データに頻出パターンマイニングを適用することで自動獲得されたルールや、人間が手作業で作成したルールを用いることが可能である。
 また、ルールの条件は、観測データが与えられた場合に真偽が判定できるものであれば特に限定されない。ルールの条件に、例えば、複数の条件をANDで結合した複合条件が含まれていてもよい。また、非特許文献1に記載されているような、頻出パターンマイニングで抽出されたルールが用いられてもよい。さらに、Random Forestのような決定木アンサンブルにより抽出されるルールが用いられてもよい。決定木アンサンブルによりルールを抽出する方法は、後述される。
 確率的決定リスト生成部20は、ルールとそのルールが出現する度合いを示す出現度とを対応付けたリストを生成する。この出現度は、決定リストにおける特定の位置にルールが出現する度合いを示す値である。本実施形態の確率的決定リスト生成部20は、受け付けたルールの集合に含まれる各ルールを、決定リスト上の複数の位置に、出現の度合いを示す出現度つきで割り当てたリストを生成する。
 以下の説明では、出現度を、ルールが決定リスト上に出現する確率(以下、出現確率と記す。)として扱う。そこで、生成されるリストを、以下、確率的決定リストと記す。
 確率的決定リスト生成部20が決定リスト上の複数の位置にルールを割り当てる方法は任意である。ただし、後述する確率的決定リスト学習部30が、決定リスト上のルールの順序を適切に決定できるようにするため、各ルールの前後関係を網羅するようにルールを割り当てることが好ましい。確率的決定リスト生成部20は、例えば、第一のルールと第二のルールとを割り当てる際に、第一のルールの後に第二のルールを割り当てるとともに、第二のルールの後に第一のルールを割り当てるようにすることが好ましい。なお、確率的決定リスト生成部20がルールを割り当てる数は、各ルールで一致していてもよいし、異なっていてもよい。
 また、確率的決定リスト生成部20は、ルールセットRに含まれる全てのルールをインデックスに従って並べた長さ|R|のリストを、δ回複製して連結することにより、長さδ|R|の確率的決定リストを生成してもよい。このように、同一のルールセットを複製して確率的決定リストを生成することで、後述する確率的決定リスト学習部30による学習処理を効率化できる。
 上述する例の場合、ルールrは、リスト中に計δ回出現し、その出現位置は、以下に例示する式1で表される。
 π(j,d)=d*|R|+j (d∈[0,δ-1])  (式1)
 確率的決定リスト生成部20は、ルールrが位置π(j,d)に出現する確率pπ(j,d)、を、出現度として、以下の式2に例示する温度つきソフトマックス関数を用いて計算してもよい。式2において、τは温度パラメータであり、wj,dは、ルールrがリスト内の位置π(j,d)に出現する度合いを表わすパラメータである。
Figure JPOXMLDOC01-appb-M000001
 このように、確率的決定リスト生成部20は、式2に例示するソフトマックス関数で定義される出現確率つきで、決定リスト上の複数の位置に各ルールを割り当てた確率的決定リストを生成してもよい。
 ここで、式2において、d=δの場合のパラメータ(つまり、wj,d)は、ルールrがリスト内に出現しない度合いを表すパラメータである。すなわち、確率的決定リスト生成部20は、決定リストに含まれ得る候補のルールセット(リスト内ルールセットと記すこともある。)と、決定リストに含まれない候補のルールセット(リスト外ルールセットと記すこともある。)とを含む確率的決定リストを生成する。
 また、上記式2において、パラメータwj,dは、[-∞,∞]の範囲の任意の実数である。ただし、ソフトマックス関数によって、確率pj,dは、合計1に正規化される。すなわち、各ルールについて、リスト内のδ個の位置での出現確率、及び、リストに出現しない確率を合計すると1になる。
 式2において、温度τが0に近づくと、ソフトマックス関数の出力はone-hotベクトルに近づく。すなわち、あるルールは、いずれか1つの位置のみ確率が1になり、他の位置では確率が0になる。
 以下の説明では、割り当てた複数のルールの中から一つのルールを決定する範囲をグループと記す。本実施形態では、同一のルールを纏めたものを一つのグループとする。そのため、確率的決定リスト生成部20は、同一のグループに所属するルールの出現度の合計が1になるように、出現度を決定していると言える。言い換えると、本実施形態の確率的決定リスト生成部20は、複数の位置に割り当てられる同一のルールの出現度の合計が1になるように出現度を決定する。
 図3は、確率的決定リストを生成する処理の例を示す説明図である。図3(a)に示す例では、入力部10が5つのルールを含むルールセットR1を受け付け、ルールセットR1から3つの複製されたルールセットを含む確率的決定リストを生成したとする(δ=2)。この場合、先頭の2つのルールセットがリスト内ルールセットR2に対応し、残りの1つのルールセットがリスト外ルールセットR3に対応する。
 また、図3(a)に示す例では、リスト内ルールセットR2に含まれる各ルールの出現度が0.3に設定され、リスト外ルールセットR3に含まれる各ルールの出現度が0.4に設定されている。ただし、設定される出現度は、リスト内ルールセットR2やリスト外ルールセットR3で同一である必要はなく、任意の出現度を設定することが可能である。なお、本実施形態では、同一のグループに所属するルールの出現度の合計が1になるように決定される。
 例えば、3つのルール0を含むグループに着目すると、図3に例示するルール0の出現度の合計は、0.3+0.3+0.4=1.0に設定されている。他のルールについても同様である。
 また、確率的決定リスト生成部20は、図3(b)に示すように、受け付けたルールセットR1の中から、ランダムにルールを選択して確率的決定リスト(リスト内ルールセットR4およびリスト外ルールセットR5)を生成してもよい。ただし、上述するように、規則的にルールが並んでいる方が、計算の観点(より詳しくは、行列計算の観点)から、より好ましい。
 確率的決定リスト学習部30は、受け付けた訓練データに含まれる観測データが条件を満たすルールの予測を、そのルールに対応付けられた出現度に基づいて統合する。以下、統合された予測のことを統合予測と記す。そして、確率的決定リスト学習部30は、統合予測と正解との差を小さくするように、出現度を決定するパラメータを更新して、確率的決定リストを学習する。上記式2の例では、確率的決定リスト学習部30は、パラメータwj,dを更新して確率的決定リストを学習する。
 具体的には、まず、確率的決定リスト学習部30は、受け付けた観測データが満たす条件を含むルールを抽出する。次に、確率的決定リスト学習部30は、抽出したルールを順に並べたときに、観測データが条件を満たすルールの出現度が大きいほど、そのルールに後続するルールの重みが減少するように、ルールの重みを算出する。そして、確率的決定リスト学習部30は、算出した重みを用いてルールの予測を統合したものを統合予測とする。
 例えば、あるルールの出現度が確率pで表されるとき、確率的決定リスト学習部30は、その後続のルールの出現度に対して(1-p)の累積積を乗じてルールの重みを算出し、算出された重みを各予測に乗じて加算した重み付線形和を統合予測としてもよい。例えば、確率的決定リストがルールセットRの複製で生成されている場合、統合予測y^は、以下に例示する式3で表される。
Figure JPOXMLDOC01-appb-M000002
 式3において、λ(i)=i%|R|は、位置iに対応するルールを示すインデックスである。また、1(x)は、位置iに対応するルールの条件を入力xが満たす場合に1、満たさない場合に0になる関数である。
 図4は、重み付線形和を導出する処理の例を示す説明図である。図3に例示する確率的決定リストが生成された状況で、ルール1とルール3の条件を満たす観測データが受け付けられたとする。この場合、確率的決定リスト学習部30は、受け付けた観測データが満たす条件を含むルール1およびルール3を抽出する(ルールリストR6)。
 次に、確率的決定リスト学習部30は、確率的決定リストの上から順に、各ルールの確率pに、その前のルールの確率pを1から減じた値(1-p)を乗じることで重みを算出する。図4に示す例では、一行目のルール1の確率が0.3の場合、確率的決定リスト学習部30は、二行目のルール3の重みを、ルール3の確率0.3に、一行目のルール1の確率を1から減じた値(1-0.3)を乗じることで、重み(0.21)を算出する。
 同様に、確率的決定リスト学習部30は、三行目のルール1の重みを、ルール1の確率0.3に、一行目のルール1の確率を1から減じた値(1-0.3)、および、二行目のルール3の確率を1から減じた値(1-0.3)を乗じることで、重み(0.147)を算出する。また、確率的決定リスト学習部30は、四行目のルール3の重みを、ルール3の確率0.3に、一行目のルール1の確率を1から減じた値(1-0.3)、二行目のルール3の確率を1から減じた値(1-0.3)、および、三行目のルール1の確率を1から減じた値(1-0.3)を乗じることで、重み(0.1029)を算出する(算出結果R7)。
 なお、上述するように、リスト外ルールセットは、決定リストに含まれない候補のルールセットであるため、確率的決定リスト学習部30は、リスト外ルールセットに含まれるルールの出現度を重みの算出処理には用いない。
 確率的決定リスト学習部30は、算出した重みを各予測の係数として加算した重み付線形和を予測値として算出する。図4に示す例では、一行目のルール1による予測1、二行目のルール3による予測3、三行目のルール1による予測1、および、四行目のルール3による予測3に、それぞれ、重み、0.3、0.21、0.147および0.1029を乗じて加算することで、重み付線形和F1を算出する。
 なお、受け付けた観測データが満たす条件を含むルールが存在しない場合を考慮し、デフォルトの予測値が設けられていてもよい。この場合、統合予測y^は、以下に例示する式4で表されてもよい。式4において、y^defは、デフォルトの予測値である。y^defとして、例えば、訓練データに含まれるすべてのyの平均値が用いられてもよい。
Figure JPOXMLDOC01-appb-M000003
 図5は、予測値y^を算出する処理の例を示すフローチャートである。確率的決定リスト学習部30は、まず、初期値として、y^およびsにそれぞれ0を設定し、qに1を設定する(ステップS11)。次に、確率的決定リスト学習部30は、i=0からδ|R|-1まで、以下に示すステップS12からステップS13の処理を繰り返す。
 入力xがルールrの条件を満たす場合(ステップS12におけるYes)、確率的決定リスト学習部30は、y^にqy^を加算し、sにqを加算し、qに(1-p)を乗じる(ステップS13)。一方、入力xがルールrの条件を満たさない場合(ステップS12におけるNo)、ステップS13の処理は行われない。そして、確率的決定リスト学習部30は、予測値y^に、(1-s)y^defを加算し(ステップS14)、加算した値を予測値y^とする。
 図5に例示する処理の結果、当たらないルールは下層に追いやられ、当たるルールは上層に浮かび上がるように学習されることになる。また、図5に例示するフローチャートのアルゴリズムは、以下のように解釈できる。上記の式4に示すように、予測値y^は、入力xが条件を満たすような全てのルールの予測値と、デフォルト予測値の重み付き平均である。そして、ある位置iでのルールの出現確率pは、後続のルールの予測値全てにペナルティとして作用する。すなわち、pの値が大きいほど、後続のルールの予測値の重みは小さくなる。
 例えば、p=1のとき、後続するルールの予測値の重みは全て0になる。特に、上記の式2において、τが0に限りなく近づくとき、各ルールはいずれかの位置においてのみ確率1で存在する。すなわち、全ての位置iにおいて、pは、0か1のいずれかの値をとる。このとき、p=1であり、かつ、入力xが条件を満たす最初のルールの予測値が、最終的な予測値になる。
 つまり、確率的決定リストは、p=1になるルールのみが存在するとみなした通常の離散的な決定リストに収束することを意味する。このことから、これまで説明してきた確率的決定リストは、通常の離散的な決定リストに近似すると言える。
 すなわち、確率的決定リスト学習部30が、観測データが条件を満たすルールの出現度が大きいほど、そのルールに後続するルールの重みが減少するように、ルールの重みを算出することで、そのルール以降に存在するルールを使わないようにする効果が得られる。これは、確率的に分布するとみなした確率的決定リストから、最終的な決定リストを導出していると言える。
 なお、確率的決定リスト学習部30が、統合予測と正解との差を小さくするように出現度を決定するパラメータを更新する方法は任意である。例えば、観測データxと、正解yのペアの集合である訓練データD={(x,y)}n-1 i=0と、出現度を決定するパラメータWを用いて、損失関数L(D;W)、誤差関数E(D;W)、正則化項R(W)を以下に例示する式5のように定義してもよい。
 L(D;W)=E(D;W)+cR(W) (式5)
 cは、誤差関数と正則化項のバランスをとるためのハイパーパラメータである。例えば回帰問題の場合、誤差関数E(D;W)として、以下の式6に例示する平均二乗誤差が用いられてもよい。また、例えば、分類問題の場合、誤差関数として、クロスエントロピーが用いられてもよい。すなわち、勾配の計算が可能であれば、どのような誤差関数が定義されてもよい。
Figure JPOXMLDOC01-appb-M000004
 また、正則化項R(W)として、例えば、以下に例示する式7が用いられてもよい。式7に例示する正則化項は、全てのルールについて、リスト内に存在する確率を合計したものである。この正則化項を加えることで、リストに含まれるルールの数が少なくなるため、汎化性能を向上させることが可能になる。
Figure JPOXMLDOC01-appb-M000005
 確率的決定リスト学習部30は、損失関数の勾配を計算し、勾配降下法を用いて最小化する。なお、同一のルールセットを複製して確率的決定リストが生成されている場合、上記式2において、wj,dを、j行目d列目の要素とするサイズ(|R|,δ+1)の行列と定義することができる。このようにパラメータを定義することで、行列演算により勾配を計算することが可能になる。
 図6は、学習結果の例を示す説明図である。例えば、図3に例示する確率的決定リストに基づいて確率的決定リスト学習部30が学習した結果、予測精度を向上させるように各ルールの出現度が最適化され、更新される。具体的には、図6に示す例では、2行目のルール1、5行目のルール4、8行目のルール2の出現度が、それぞれ0.3から0.8に更新され、適切な位置のルールの出現度が向上したことを示す。また、図6に示す例では、リスト外ルールセットにおいて、1行目のルール0と、4行目のルール0の出現度が、それぞれ0.4から0.8に更新されており、これらのルールの適用可能性が低いことを示す。
 離散化部40は、学習された確率的決定リストに基づいて、決定リストを生成する。具体的には、離散化部40は、学習された確率的決定リストに基づいて、同一のルールの中から対応付けられた出現度が最も高いルールを選択して、決定リストを生成する。上記グループの観点では、離散化部40は、同一グループ内で最大の出現度が対応付けられたルールの出現度を1に置換し、置換された以外のルールの出現度を0に置換することで、離散的な決定リストを生成する。これは、出現度が1に置換されたルールのみを適用することにより、確率的に分布するとみなされたルールのリストを離散的なルールのリストとみなすることを意味する。
 このように、離散化部40は、確率的な分布を示す確率的決定リストから離散的な決定リストを生成していることから、決定リスト生成部と言うことができる。また、離散化部40は、最大確率になる位置にルールを固定する処理を行っているとも言える。
 図7は、決定リストを生成する処理の例を示す説明図である。確率的決定リストとして、例えば、図6に例示する結果が得られているとする。ここで、ルール1に着目した場合、出現度の最も大きい位置は、出現度が0.8の2行目であることが分かる。そこで、離散化部40は、ルール1については、2行目に割り当てられたルールを適用すると決定する。同様に、ルール2については、3行目に割り当てられたルールよりも、8行目に割り当てられたルールの方が出現度が高い。そこで、離散化部40は、ルール2については、8行目に割り当てられたルールを適用すると決定する。他のルールについても同様である。
 離散化部40は、全てのグループ(ルール)について上記処理を行った結果、ルール1、ルール4、ルール2の順で決定リストR8を生成する。なお、リスト外ルールセットのルール0およびルール3は不要なため、離散化部40は、ルール0およびルール3を決定リストから除外する。
 出力部50は、生成された決定リストを出力する。
 入力部10と、確率的決定リスト生成部20と、確率的決定リスト学習部30と、離散化部40と、出力部50とは、プログラム(決定リスト学習プログラム)に従って動作するコンピュータのプロセッサ(例えば、CPU(Central Processing Unit )、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array ))によって実現される。
 例えば、プログラムは、決定リスト学習装置100が備える記憶部(図示せず)に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、入力部10、確率的決定リスト生成部20、確率的決定リスト学習部30、離散化部40および出力部50として動作してもよい。また、決定リスト学習装置100の機能がSaaS(Software as a Service )形式で提供されてもよい。
 また、入力部10と、確率的決定リスト生成部20と、確率的決定リスト学習部30と、離散化部40と、出力部50とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。
 また、決定リスト学習装置100の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
 次に、本実施形態の決定リスト学習装置100の動作を説明する。図8は、本実施形態の決定リスト学習装置100の動作例を示すフローチャートである。入力部10は、条件と予測とを含むルールの集合(ルールセット)、及び、観測データと正解のペアである訓練データを受け付ける(ステップS21)。確率的決定リスト生成部20は、ルールの集合に含まれる各ルールを、決定リスト上の複数の位置に、出現の度合いを示す出現度つきで割り当てる(ステップS22)。確率的決定リスト学習部30は、観測データが条件を満たすルールの予測を、出現度に基づいて統合して、統合予測を取得し(ステップS23)、統合予測と正解との差を小さくするように、出現度を決定するパラメータを更新する(ステップS24)。
 以降、離散化部40は、複数の位置にルールおよび出現度が割り当てられた確率的決定リストから離散的な決定リストを生成し、出力部50は、生成された決定リストを出力する。
 以上のように、本実施形態では、入力部10が、ルールの集合及び訓練データを受け付け、確率的決定リスト生成部20が、ルールの集合に含まれる各ルールを、決定リスト上の複数の位置に出現度つきで割り当てる。そして、確率的決定リスト学習部30が、観測データが条件を満たすルールの予測を、出現度に基づいて統合することで得られる統合予測と、正解との差を小さくするように、出現度を決定するパラメータを更新する。よって、予測精度を高めつつ実用的な時間で決定リストを構築できる。
 すなわち、通常の決定リストは離散的で微分不可能であるが、確率的決定リストは連続的で微分可能である。本実施形態では、確率的決定リスト生成部20が、決定リスト上の複数の位置に各ルールを出現度つきで割り当てて確率的決定リストを生成する。生成された決定リストは、ルールが確率的に分布するとみなすことで確率的に存在する決定リストであり、勾配降下法で最適化できるため、より精度が高い決定リストを実用的な時間で構築できる。
 次に、第一の実施形態の変形例を説明する。図9は、第一の実施形態の決定リスト学習装置の変形例を示すブロック図である。本変形例の決定リスト学習装置101は、第一の実施形態の決定リスト学習装置100に加え、抽出部11を備えている。
 入力部10は、ルールセットの代わりに、決定木の入力を受け付ける。抽出部11は、受け付けた決定木から、ルールを抽出する。具体的には、抽出部11は、決定木から複数のルールとして、根ノードから葉ノードを辿る条件と、その葉ノードが示す予測とを抽出する。
 図10は、ルールを抽出する処理の例を示す説明図である。入力部10が、図10に例示する決定木T1を受け付けたとする。このとき、抽出部11は、根ノードから葉ノードを辿って、各ノードに設定された条件を結合したルールと、その葉ノードが示す予測とを抽出する。例えば、予測が「B」になる葉ノードへの条件として、抽出部11は、「(x≦4)AND(x>2)」を抽出する。抽出部11は、他の葉ノードに対しても同様に条件および予測を抽出すればよい。
 このように、抽出部11が決定木から複数のルールを抽出することで、Random Forestのような決定木アンサンブルと連携して処理を行うことが可能になる。
実施形態2.
 次に、本発明による決定リスト学習装置の第二の実施形態を説明する。第一の実施形態では、確率的決定リスト生成部20が、1つの位置に1つのルールを割り当てたリスト(確率的決定リスト)を生成する方法について説明した。本実施形態では、1つの位置に複数のルールが割り当てられたリストを用いて、決定リストを学習する方法を説明する。
 図11は、本発明による決定リスト学習装置の第二の実施形態の構成例を示すブロック図である。本実施形態の決定リスト学習装置200は、入力部10と、確率的決定リスト生成部21と、確率的決定リスト学習部30と、離散化部40と、出力部50とを備えている。
 すなわち、本実施形態の決定リスト学習装置200は、第一の実施形態の決定リスト学習装置100と比較して、確率的決定リスト生成部20の代わりに確率的決定リスト生成部21を備えている点において異なる。それ以外の構成は、第一の実施形態と同様である。なお、決定リスト学習装置200が、第一の実施形態の変形例で示す抽出部11を備えていてもよい。
 確率的決定リスト生成部21は、第一の実施形態の確率的決定リスト生成部20と同様に、ルールと出現度とを対応付けたリストを生成する。ただし、本実施形態の確率的決定リスト生成部21は、1つの位置に複数のルールおよび出現度を割り当てた確率的決定リストを生成する。その際、確率的決定リスト生成部21は、1つの位置に存在するルールの確率が合計1になるように正規化する。
 本実施形態では、1つの位置に存在する複数のルールを一つのグループとして扱う。そのため、本実施形態の確率的決定リスト生成部21も、同一のグループに所属するルールの出現度の合計が1になるように、出現度を決定していると言える。すなわち、確率的決定リスト生成部21は、同一の位置に割り当てられた複数のルールの出現度の合計が1になるように出現度を決定する。
 図12は、確率的決定リストの例を示す説明図である。図12に示す例では、1つの位置に5つのルール(ルール0~4)および出現度を割り当てた確率的決定リストを示す。また、図12に示す例では、各行がそれぞれ1つのグループに対応し、出現度の合計が1.0になっていることを示す。
 本実施形態の確率的決定リスト学習部30も、受け付けた訓練データに含まれる観測データが条件を満たすルールの予測を、そのルールに対応付けられた出現度に基づいて統合する。具体的には、確率的決定リスト学習部30は、観測データが条件を満たすルールの出現度が大きいほど、そのルールに後続するルールの重みが減少するように、ルールの重みを算出する。
 本実施形態では、確率的決定リスト学習部30は、1つの位置で入力データxに該当するルールの出現度の合計を確率qとし、その後続のルールの出現度に対して(1-q)の累積積を乗じてルールの重みを算出する。このように算出された重みを各予測に乗じて加算した重み付線形和を統合予測としてもよい。
 例えば、図12に例示する確率的決定リストが生成された状況で、ルール1とルール3の条件を満たす観測データが受け付けられたとする。この場合、確率的決定リスト学習部30は、受け付けた観測データが満たす条件を含むルール1およびルール3を抽出する。
 次に、確率的決定リスト学習部30は、各位置で該当するルールの出現度の合計を算出し、それを確率qとする。確率的決定リスト学習部30は、各ルールの確率pに、その前のルールの確率qを1から減じた値(1-q)を乗じることで重みを算出する。
 図12に示す例では、一行目のルール1とルール3の確率の合計が0.2+0.2=0.4になる。そこで、確率的決定リスト学習部30は、二行目のルール1の確率0.1に、一行目のルールの確率の合計を1から減じた値(1-0.4)を乗じることで、重み(0.06)を算出する。同様に、確率的決定リスト学習部30は、二行目のルール3の確率0.1に、一行目のルールの確率の合計を1から減じた値(1-0.4)を乗じることで、重み(0.06)を算出する。以下の行についても同様である。
 そして、確率的決定リスト学習部30は、算出した重みを各予測の係数として加算した重み付線形和を予測値として算出する。
 以降、第一の実施形態と同様に、確率的決定リスト学習部30は、統合予測と正解との差を小さくするように出現度を決定するパラメータを更新する。本実施形態においても、例えば、上記式2におけるτ→0になる極限で、第一の実施形態と同様に、確率的決定リストは、通常の決定リストに収束することになる。
 以上のように、本実施形態では、確率的決定リスト生成部21が、1つの位置に複数のルールおよび出現度を割り当てた確率的決定リストを生成し、確率的決定リスト学習部30が、統合予測と正解との差を小さくするように出現度を決定するパラメータを更新する。そのような構成によっても、予測精度を高めつつ実用的な時間で決定リストを構築できる。
実施形態3.
 次に、本発明で生成される決定リストの適用例を説明する。一般的に、決定リストは、上から順に入力xに対する条件がチェックされ、1番目に該当するルールが選択される。本実施形態では、選択するルールを拡張し、該当するルールが発見された場合でも、後続の条件でさらに該当するルールを選択して処理を行う方法を説明する。
 図13は、本発明の情報処理システム300の構成例を示すブロック図である。図13に例示する情報処理システム300は、決定リスト学習装置100と、予測器310とを備えている。なお、決定リスト学習装置100の代わりに、決定リスト学習装置101や決定リスト学習装置200が用いられてもよい。また、予測器310が、決定リスト学習装置100と一体になって構成されていてもよい。
 予測器310は、決定リスト学習装置100が学習した決定リストを取得する。そして、予測器310は、予め定めた件数の条件に該当するまで、決定リストを上から順にチェックし、決定リストから入力xに該当する条件を含むルールを、予め定めた件数取得する。なお、予め定めた件数に該当する条件が存在しない場合、予測器310は、条件に該当する全てのルールを決定リストから取得すればよい。
 そして、予測器310は、取得した全てのルールを用いて予測を行う。予測器310は、例えば、取得したルールの予測の平均を、最終的な予測として決定してもよい。また、決定リストの各ルールに重みが設定されている場合、予測器310は、各ルールの重みに従って予測を算出してもよい。
 決定リストから条件に該当する1つのルールを取得し、そのルールに基づいて予測を行う方法は、通常の決定リストを用いた方法に一致する。この場合、解釈性の高い予測を行うことが可能になる。一方、複数のルールの予測を用いて、多数決的に予測を行う方法は、予測の精度をより向上させることが可能になる。
 すなわち、決定リストから選択されるルールの数をkとした場合、k=1で通常の決定リストを利用する方法に一致する。また、k=∞で、複数のルールを考慮して処理が行われることからRandom Forestを利用する方法に一致すると言える。このように、上位からk件のルールを選択して行われる処理を、トップk決定リスト(Top-k decision lists)と呼ぶことができる。
 また、kの値(すなわち、選択するルールの数)は、ユーザが予め指定することが可能である。上述するように、k=1の場合には、より解釈性の高い予測を行うことができ、kを大きくするほど、予測の精度を向上させることができる。すなわち、ユーザは、解釈性と予測精度のトレードオフを自由に選択することが可能になる。
 次に、本発明の概要を説明する。図14は、本発明による決定リスト学習装置の概要を示すブロック図である。本発明による決定リスト学習装置80は、決定リストを学習する決定リスト学習装置(例えば、決定リスト学習装置100,101,201)であって、条件と予測とを含むルールの集合、及び、観測データと正解のペア(例えば、訓練データ)を受け付ける入力部81(例えば、入力部10)と、ルールの集合に含まれる各ルールを、決定リスト上の複数の位置に、出現の度合いを示す出現度つきで割り当てる(例えば、確率的決定リストを生成する)確率的決定リスト生成部82(例えば、確率的決定リスト生成部20)と、観測データが条件を満たすルールの予測を出現度に基づいて統合することで得られる統合予測(例えば、重み付線形和)と、正解との差を小さくするように、出現度を決定するパラメータを更新する学習部83(例えば、確率的決定リスト学習部30)とを備えている。
 そのような構成により、予測精度を高めつつ実用的な時間で決定リストを構築できる。
 また、学習部83は、観測データが条件を満たすルールの出現度が大きいほど、そのルールに後続するルールの重みが減少するようにルールの重みを算出し、その重みを用いてルールの予測を統合したものを統合予測としてもよい。このように、条件を満たすルールの出現度が大きいほど、そのルールに後続するルールの重みが減少するように、ルールの重みを算出することで、そのルール以降に存在するルールを使わないようにする効果が得られる。
 また、確率的決定リスト生成部82は、同一のグループに所属するルールの出現度の合計が1になるように、出現度を決定してもよい。
 具体的には、確率的決定リスト生成部82は、複数の位置に割り当てられた同一のルールをグループ化し、各グループに所属するルールの出現度の合計が1になるように出現度を決定してもよい。
 もしくは、確率的決定リスト生成部82は、同一の位置に割り当てられた複数のルールをグループ化し、各グループに所属するルールの出現度の合計が1になるように出現度を決定してもよい。
 また、決定リスト学習装置80は、同一グループ内で最大の出現度を1に置換し、置換された以外の出現度を0に置換することで、離散的なリストを決定リストとして生成する離散化部(例えば、離散化部40)を備えていてもよい。
 また、決定リスト学習装置80は、決定木からルールを抽出する抽出部(例えば、抽出部11)を備えていてもよい。そして、入力部81は、決定木の入力を受け付け、抽出部は、受け付けた決定木から、根ノードから葉ノードを辿る条件とその葉ノードが示す予測とをルールとして抽出してもよい。そのような構成によれば、決定木から複数のルールを抽出することが可能になる。
 また、確率的決定リスト生成部82は、ルールの集合に含まれるすべてのルールを複数回複製して連結することにより、各ルールを決定リスト上の複数の位置に出現度つきで割り当ててもよい。そのような構成によれば、パラメータを行列で定義することができるため、行列演算により勾配を計算することが可能になる。
 また、学習部83は、出現度に応じて減少させたルールの重みをそのルールの予測にそれぞれ乗じて総和とした重み付線形和を統合予測としてもよい。
 図15は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、プロセッサ1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
 上述の決定リスト学習装置80は、コンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(決定リスト学習プログラム)の形式で補助記憶装置1003に記憶されている。プロセッサ1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
 なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disc Read-only memory )、DVD-ROM(Read-only memory)、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行してもよい。
 また、当該プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)決定リストを学習する決定リスト学習装置であって、条件と予測とを含むルールの集合、及び、観測データと正解のペアを受け付ける入力部と、前記ルールの集合に含まれる各ルールを、決定リスト上の複数の位置に、出現の度合いを示す出現度つきで割り当てる確率的決定リスト生成部と、前記観測データが条件を満たす前記ルールの予測を、前記出現度に基づいて統合することで得られる統合予測と、前記正解との差を小さくするように、前記出現度を決定するパラメータを更新する学習部とを備えたことを特徴とする決定リスト学習装置。
(付記2)学習部は、観測データが条件を満たすルールの出現度が大きいほど、当該ルールに後続するルールの重みが減少するようにルールの重みを算出し、当該重みを用いて前記ルールの予測を統合したものを統合予測とする付記1記載の決定リスト学習装置。
(付記3)確率的決定リスト生成部は、同一のグループに所属するルールの出現度の合計が1になるように、出現度を決定する付記1または付記2記載の決定リスト学習装置。
(付記4)確率的決定リスト生成部は、複数の位置に割り当てられた同一のルールをグループ化し、各グループに所属するルールの出現度の合計が1になるように出現度を決定する付記1から付記3のうちのいずれか1つに記載の決定リスト学習装置。
(付記5)確率的決定リスト生成部は、同一の位置に割り当てられた複数のルールをグループ化し、各グループに所属するルールの出現度の合計が1になるように出現度を決定する付記1から付記3のうちのいずれか1つに記載の決定リスト学習装置。
(付記6)同一グループ内で最大の出現度を1に置換し、置換された以外の出現度を0に置換することで、離散的なリストを決定リストとして生成する離散化部を備えた付記3から付記5のうちのいずれか1つに記載の決定リスト学習装置。
(付記7)決定木からルールを抽出する抽出部を備え、入力部は、決定木の入力を受け付け、前記抽出部は、受け付けた決定木から、根ノードから葉ノードを辿る条件と当該葉ノードが示す予測とをルールとして抽出する付記1から付記6のうちのいずれか1つに記載の決定リスト学習装置。
(付記8)確率的決定リスト生成部は、ルールの集合に含まれるすべてのルールを複数回複製して連結することにより、各ルールを決定リスト上の複数の位置に出現度つきで割り当てる付記1から付記7のうちのいずれか1つに記載の決定リスト学習装置。
(付記9)学習部は、出現度に応じて減少させたルールの重みを当該ルールの予測にそれぞれ乗じて総和とした重み付線形和を統合予測とする付記2記載の決定リスト学習装置。
(付記10)決定リストを学習する決定リスト学習方法であって、条件と予測とを含むルールの集合、及び、観測データと正解のペアを受け付け、前記ルールの集合に含まれる各ルールを、決定リスト上の複数の位置に、出現の度合いを示す出現度つきで割り当て、前記観測データが条件を満たす前記ルールの予測を、前記出現度に基づいて統合することで得られる統合予測と、前記正解との差を小さくするように、前記出現度を決定するパラメータを更新することを特徴とする決定リスト学習方法。
(付記11)観測データが条件を満たすルールの出現度が大きいほど、当該ルールに後続するルールの重みが減少するようにルールの重みを算出し、当該重みを用いて前記ルールの予測を統合したものを統合予測とする付記10記載の決定リスト学習方法。
(付記12)決定リストを学習するコンピュータに適用される決定リスト学習プログラムであって、前記コンピュータに、条件と予測とを含むルールの集合、及び、観測データと正解のペアを受け付ける入力処理、前記ルールの集合に含まれる各ルールを、決定リスト上の複数の位置に、出現の度合いを示す出現度つきで割り当てる確率的決定リスト生成処理、および、前記観測データが条件を満たす前記ルールの予測を、前記出現度に基づいて統合することで得られる統合予測と、前記正解との差を小さくするように、前記出現度を決定するパラメータを更新する学習処理を実行させるための決定リスト学習プログラム。
(付記13)コンピュータに、学習処理で、観測データが条件を満たすルールの出現度が大きいほど、当該ルールに後続するルールの重みが減少するようにルールの重みを算出させ、当該重みを用いて前記ルールの予測を統合したものを統合予測とさせる付記12記載の決定リスト学習プログラム。
 10 入力部
 11 抽出部
 20,21 確率的決定リスト生成部
 30 確率的決定リスト学習部
 40 離散化部
 50 出力部
 100,101,200 決定リスト学習装置
 300 情報処理システム
 310 予測器

Claims (13)

  1.  決定リストを学習する決定リスト学習装置であって、
     条件と予測とを含むルールの集合、及び、観測データと正解のペアを受け付ける入力部と、
     前記ルールの集合に含まれる各ルールを、決定リスト上の複数の位置に、出現の度合いを示す出現度つきで割り当てる確率的決定リスト生成部と、
     前記観測データが条件を満たす前記ルールの予測を前記出現度に基づいて統合することで得られる統合予測と、前記正解との差を小さくするように、前記出現度を決定するパラメータを更新する学習部とを備えた
     ことを特徴とする決定リスト学習装置。
  2.  学習部は、観測データが条件を満たすルールの出現度が大きいほど、当該ルールに後続するルールの重みが減少するようにルールの重みを算出し、当該重みを用いて前記ルールの予測を統合したものを統合予測とする
     請求項1記載の決定リスト学習装置。
  3.  確率的決定リスト生成部は、同一のグループに所属するルールの出現度の合計が1になるように、出現度を決定する
     請求項1または請求項2記載の決定リスト学習装置。
  4.  確率的決定リスト生成部は、複数の位置に割り当てられた同一のルールをグループ化し、各グループに所属するルールの出現度の合計が1になるように出現度を決定する
     請求項1から請求項3のうちのいずれか1項に記載の決定リスト学習装置。
  5.  確率的決定リスト生成部は、同一の位置に割り当てられた複数のルールをグループ化し、各グループに所属するルールの出現度の合計が1になるように出現度を決定する
     請求項1から請求項3のうちのいずれか1項に記載の決定リスト学習装置。
  6.  同一グループ内で最大の出現度を1に置換し、置換された以外の出現度を0に置換することで、離散的なリストを決定リストとして生成する離散化部を備えた
     請求項3から請求項5のうちのいずれか1項に記載の決定リスト学習装置。
  7.  決定木からルールを抽出する抽出部を備え、
     入力部は、決定木の入力を受け付け、
     前記抽出部は、受け付けた決定木から、根ノードから葉ノードを辿る条件と当該葉ノードが示す予測とをルールとして抽出する
     請求項1から請求項6のうちのいずれか1項に記載の決定リスト学習装置。
  8.  確率的決定リスト生成部は、ルールの集合に含まれるすべてのルールを複数回複製して連結することにより、各ルールを決定リスト上の複数の位置に出現度つきで割り当てる
     請求項1から請求項7のうちのいずれか1項に記載の決定リスト学習装置。
  9.  学習部は、出現度に応じて減少させたルールの重みを当該ルールの予測にそれぞれ乗じて総和とした重み付線形和を統合予測とする
     請求項2記載の決定リスト学習装置。
  10.  決定リストを学習する決定リスト学習方法であって、
     条件と予測とを含むルールの集合、及び、観測データと正解のペアを受け付け、
     前記ルールの集合に含まれる各ルールを、決定リスト上の複数の位置に、出現の度合いを示す出現度つきで割り当て、
     前記観測データが条件を満たす前記ルールの予測を、前記出現度に基づいて統合することで得られる統合予測と、前記正解との差を小さくするように、前記出現度を決定するパラメータを更新する
     ことを特徴とする決定リスト学習方法。
  11.  観測データが条件を満たすルールの出現度が大きいほど、当該ルールに後続するルールの重みが減少するようにルールの重みを算出し、当該重みを用いて前記ルールの予測を統合したものを統合予測とする
     請求項10記載の決定リスト学習方法。
  12.  決定リストを学習するコンピュータに適用される決定リスト学習プログラムであって、
     前記コンピュータに、
     条件と予測とを含むルールの集合、及び、観測データと正解のペアを受け付ける入力処理、
     前記ルールの集合に含まれる各ルールを、決定リスト上の複数の位置に、出現の度合いを示す出現度つきで割り当てる確率的決定リスト生成処理、および、
     前記観測データが条件を満たす前記ルールの予測を、前記出現度に基づいて統合することで得られる統合予測と、前記正解との差を小さくするように、前記出現度を決定するパラメータを更新する学習処理
     を実行させるための決定リスト学習プログラム。
  13.  コンピュータに、
     学習処理で、観測データが条件を満たすルールの出現度が大きいほど、当該ルールに後続するルールの重みが減少するようにルールの重みを算出させ、当該重みを用いて前記ルールの予測を統合したものを統合予測とさせる
     請求項12記載の決定リスト学習プログラム。
PCT/JP2018/035162 2018-09-21 2018-09-21 決定リスト学習装置、決定リスト学習方法および決定リスト学習プログラム WO2020059136A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/277,520 US20210350260A1 (en) 2018-09-21 2018-09-21 Decision list learning device, decision list learning method, and decision list learning program
JP2020547594A JP7136217B2 (ja) 2018-09-21 2018-09-21 決定リスト学習装置、決定リスト学習方法および決定リスト学習プログラム
PCT/JP2018/035162 WO2020059136A1 (ja) 2018-09-21 2018-09-21 決定リスト学習装置、決定リスト学習方法および決定リスト学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/035162 WO2020059136A1 (ja) 2018-09-21 2018-09-21 決定リスト学習装置、決定リスト学習方法および決定リスト学習プログラム

Publications (1)

Publication Number Publication Date
WO2020059136A1 true WO2020059136A1 (ja) 2020-03-26

Family

ID=69886846

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/035162 WO2020059136A1 (ja) 2018-09-21 2018-09-21 決定リスト学習装置、決定リスト学習方法および決定リスト学習プログラム

Country Status (3)

Country Link
US (1) US20210350260A1 (ja)
JP (1) JP7136217B2 (ja)
WO (1) WO2020059136A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022259309A1 (ja) * 2021-06-07 2022-12-15 日本電気株式会社 情報処理装置、学習方法、および学習プログラム
WO2024029261A1 (ja) * 2022-08-04 2024-02-08 日本電気株式会社 情報処理装置、予測装置、機械学習方法、および学習プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07175770A (ja) * 1993-12-20 1995-07-14 Nec Corp 連続値決定リストを用いた学習装置
JPH1196010A (ja) * 1997-09-19 1999-04-09 Nec Corp 分類装置
WO2017168460A1 (ja) * 2016-03-29 2017-10-05 日本電気株式会社 情報処理システム、情報処理方法および情報処理プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07175770A (ja) * 1993-12-20 1995-07-14 Nec Corp 連続値決定リストを用いた学習装置
JPH1196010A (ja) * 1997-09-19 1999-04-09 Nec Corp 分類装置
WO2017168460A1 (ja) * 2016-03-29 2017-10-05 日本電気株式会社 情報処理システム、情報処理方法および情報処理プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHIRAKI, NOBUYUKI ET AL.: "Bunsetsu Identification with Sequential Use of Plural Decision Lists", JOURNAL OF NATURAL LANGUAGE PROCESSING, vol. 7, no. 4, pages 232 - 233 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022259309A1 (ja) * 2021-06-07 2022-12-15 日本電気株式会社 情報処理装置、学習方法、および学習プログラム
WO2024029261A1 (ja) * 2022-08-04 2024-02-08 日本電気株式会社 情報処理装置、予測装置、機械学習方法、および学習プログラム

Also Published As

Publication number Publication date
US20210350260A1 (en) 2021-11-11
JP7136217B2 (ja) 2022-09-13
JPWO2020059136A1 (ja) 2021-08-30

Similar Documents

Publication Publication Date Title
US10713597B2 (en) Systems and methods for preparing data for use by machine learning algorithms
Messalas et al. Model-agnostic interpretability with shapley values
WO2019088972A1 (en) Training tree-based machine-learning modeling algorithms for predicting outputs and generating explanatory data
JP6414363B2 (ja) 予測システム、方法およびプログラム
WO2021034932A1 (en) Automated path-based recommendation for risk mitigation
CN108921342B (zh) 一种物流客户流失预测方法、介质和系统
KR102293791B1 (ko) 반도체 소자의 시뮬레이션을 위한 전자 장치, 방법, 및 컴퓨터 판독가능 매체
JP7051724B2 (ja) 計算機システム及び対象に関する目的を達成するために有用な情報の提示方法
WO2014176056A2 (en) Data classification
JP7481902B2 (ja) 管理計算機、管理プログラム、及び管理方法
WO2020059136A1 (ja) 決定リスト学習装置、決定リスト学習方法および決定リスト学習プログラム
US20210192361A1 (en) Intelligent data object generation and assignment using artificial intelligence techniques
JP7024881B2 (ja) パターン認識装置およびパターン認識方法
WO2022012347A1 (en) Predictive models having decomposable hierarchical layers configured to generate interpretable results
CN110717537B (zh) 训练用户分类模型、执行用户分类预测的方法及装置
Dosdoğru Comparative study of hybrid artificial neural network methods under stationary and nonstationary data in stock market
KR20220101868A (ko) 동적 딥 뉴럴 네트워크 학습 방법 및 시스템
CN113191527A (zh) 一种基于预测模型进行人口预测的预测方法及装置
US11281747B2 (en) Predicting variables where a portion are input by a user and a portion are predicted by a system
CN117834630B (zh) 用于感知网络中边缘节点健康状态的方法、设备和介质
US20240070658A1 (en) Parsing event data for clustering and classification
JP7395396B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP4440828B2 (ja) 類似事例に基づく予測を行う予測装置および方法
JP2005302054A (ja) 類似事例に基づく予測を行う予測装置および方法
Oriol Sàbat Species-agnostic local ancestry inference with convolutions

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18933833

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020547594

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18933833

Country of ref document: EP

Kind code of ref document: A1