WO2017159523A1 - 推論システム、推論方法、及び、記録媒体 - Google Patents

推論システム、推論方法、及び、記録媒体 Download PDF

Info

Publication number
WO2017159523A1
WO2017159523A1 PCT/JP2017/009399 JP2017009399W WO2017159523A1 WO 2017159523 A1 WO2017159523 A1 WO 2017159523A1 JP 2017009399 W JP2017009399 W JP 2017009399W WO 2017159523 A1 WO2017159523 A1 WO 2017159523A1
Authority
WO
WIPO (PCT)
Prior art keywords
rule set
rule
inference
probability
result
Prior art date
Application number
PCT/JP2017/009399
Other languages
English (en)
French (fr)
Inventor
健太郎 佐々木
シルバ ダニエル ゲオルグ アンドラーデ
陽太郎 渡邉
定政 邦彦
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2018505870A priority Critical patent/JP6721036B2/ja
Priority to US16/083,992 priority patent/US11521092B2/en
Publication of WO2017159523A1 publication Critical patent/WO2017159523A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/24765Rule-based classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence

Definitions

  • the present invention relates to an inference system that outputs information related to inference, an inference method, and a recording medium.
  • Such a probabilistic inference system defines a random variable based on a rule set and performs probabilistic logic inference. Then, the inference system obtains a posteriori probability that is a probability that a query under the observation and the rule set is satisfied by using the observation and the query as inputs.
  • Probabilistic Soft Logic for example, Non-Patent Document 2, hereinafter referred to as “PSL”
  • MSN Markov Logic Network
  • Non-Patent Documents 1 to 3 calculate a posterior probability that the query is established under the observation and the rule set based on the rule set, the input observation, and the input query.
  • the posterior probability that the query is satisfied under the observation and rule set is referred to as “inference result”.
  • the techniques described in Non-Patent Documents 1 to 3 can output the calculated inference result itself.
  • the techniques described in Non-Patent Documents 1 to 3 do not output the inference process or the basis (reason), in other words, how the inference result is calculated from the rule set and observation.
  • the inventor of the present invention has found that in the scene where the inference system is used, it is sometimes desirable that the inference system presents not only the inference result but also the grounds to reach the inference result or the inference process.
  • a user of an inference system uses an inference system to support his / her decision making when solving a real-world problem.
  • the reasoning system outputs the basis or process of reasoning that leads to the reasoning result in accordance with the reasoning result, rather than outputting only the reasoning result itself. This is because the user can make a decision based on deeper insight if the reason or process of inference in addition to the inference result can be confirmed. For example, the user can determine how reliable the inference result is based on confirmation of the grounds leading to the inference result.
  • the user can understand the state of the inference system at that time based on the presented reasoning reason. Then, the user can grasp the operation of the inference system, consider whether the rules and / or weights used by the inference system are appropriate, and improve the inference system based on the result of the consideration. For example, when the user obtains an unexpected inference result, the user can consider a rule that is the basis of the inference.
  • An example of consideration in this case is as follows. Example 1: The influence of the assumed rule is small.
  • Example 2 There is no rule that I thought would be natural.
  • Example 3 The influence of unexpected rules is large.
  • the user can examine, for example, “whether there are enough rules for the rules used in the inference system” or “if the weight of the rule is appropriate (if there is a weight)”. Then, the user can determine whether or not it is necessary to add and delete rules to the inference system or reset weights based on such examination.
  • the knowledge of the result can be increased. This is a finding obtained by the inventors of the present invention.
  • Non-Patent Documents 1 to 3 have a problem in that the basis for the result cannot be presented.
  • Non-Patent Documents 1 to 3 do not disclose that the reasoning of inference is visualized, presented to the user, or made into a white box.
  • An object of the present invention is to provide an inference system, an inference method, and a recording medium that solve the above-described problems and present the basis of inference.
  • An inference system is an inference system that infers a probability that an end state is established from a start state and a rule set.
  • a rule set that excludes one rule from the rules that constitute the first rule set is a first inference system.
  • the probability of the end state from the start state and the first rule set is the first inference result
  • the probability of the end state from the start state and the second rule set is the second inference result
  • a calculation unit that calculates an importance that is an index indicating the magnitude of the difference between the first reasoning result and the second reasoning result, and a rule and a rule for each rule that is excluded
  • Output means for associating and outputting the importance of each.
  • the reasoning system is a reasoning system for inferring a probability that an end state is established from a start state and a rule set, and is a subset of the first rule set from the rules constituting the first rule set.
  • the rule set excluding the third rule set is set as the second rule set, the probability that the end state is established from the start state and the first rule set is set as the first inference result, and the set from the start state and the second rule set is ended.
  • an importance level that is an index indicating the magnitude of the difference between the first inference result and the second inference result is calculated for the third rule set.
  • a calculation means and an output means for associating and outputting the third rule set and the importance of the third rule set for each excluded third rule set.
  • the reasoning system is a rule set obtained by excluding a third rule set, which is a subset of the first rule set, from the rules constituting the first rule set.
  • the result of inferring the probability that the end state is established from the start state and the first rule set is set as the first inference result, and the result of inferring the probability that the end state is established from the start state and the second rule set is the second inference result.
  • the rule constituting the second rule set is limited, the difference between the first inference result and the second inference result is reduced while limiting the number of rules constituting the second rule set.
  • the inference system is a subset of the first rule set from the rules constituting the first rule set in the inference system for inferring the probability that the end state is established from the start state and the rule set.
  • the rule set excluding the third rule set is set as the second rule set, the result of inferring the probability that the end state is established from the start state and the first rule set is set as the first inference result, and the start state and the second
  • the rules constituting the third rule set are limited to the number of rules constituting the third rule set.
  • the inference system in the inference system for inferring the probability that the end state is established from the start state and the rule set, excludes one rule from the rules constituting the first rule set.
  • the rule set is the second rule set
  • the probability that the end state is satisfied from the start state and the first rule set is the first inference result
  • the probability that the end state is satisfied from the start state and the second rule set is the second
  • the importance level which is an index indicating the magnitude of the difference between the first reasoning result and the second reasoning result, is calculated for each rule that is excluded. Output in association with the importance of the rule.
  • the inference method provides an inference system for inferring a probability that an end state is established from a start state and a rule set, wherein the inference system is configured to change the first rule set from the rules constituting the first rule set.
  • the rule set excluding the third rule set that is a subset is set as the second rule set, the probability that the end state is satisfied from the start state and the first rule set is set as the first inference result, and the start state and the second
  • the second inference result is the probability that the end state is established from the rule set
  • an important index indicating the magnitude of the difference between the first inference result and the second inference result with respect to the third rule set
  • the degree is calculated, and for each excluded third rule set, the third rule set and the importance of the third rule set are output in association with each other.
  • the inference system uses a rule set obtained by excluding a third rule set, which is a subset of the first rule set, from the rules constituting the first rule set.
  • the result of inferring the probability of the end state from the start state and the first rule set as the first inference result and the result of inferring the probability of the end state from the start state and the second rule set as the rule set When the inference result is 2, the difference between the first inference result and the second inference result is determined by limiting the number of rules constituting the second rule set to the rules constituting the second rule set. It specifies so that it may become small, and outputs the specified 2nd rule set.
  • the inference method is the inference system in which the inference system infers the probability that the end state is established from the start state and the rule set, and the rule of the first rule set is determined from the rules constituting the first rule set.
  • the rule set excluding the third rule set which is a subset is set as the second rule set, and the result of inferring the start state and the probability that the end state is established from the first rule set is set as the first inference result.
  • the second inference result is the result of inferring the probability that the end state is established from the second rule set
  • the number of rules constituting the third rule set is limited to the number of rules constituting the third rule set.
  • the difference between the first inference result and the second inference result is specified to be large, and the specified third rule set is output.
  • the recording medium provides a rule set obtained by excluding one rule from the rules constituting the first rule set in an inference system for inferring the probability that the end state is established from the start state and the rule set.
  • the probability of the end state from the start state and the first rule set is the first inference result
  • the probability of the end state from the start state and the second rule set is the second inference result
  • a program for causing the computer to execute processing for associating and outputting the importance is recorded.
  • the recording medium according to the second aspect of the present invention is a subset of the first rule set from the rules constituting the first rule set in the inference system for inferring the probability that the end state is established from the start state and the rule set.
  • the rule set excluding the third rule set is set as the second rule set, the probability that the end state is established from the start state and the first rule set is set as the first inference result, and the set from the start state and the second rule set is ended.
  • an importance level that is an index indicating the magnitude of the difference between the first inference result and the second inference result is calculated for the third rule set. Records a program that causes a computer to execute a process and a process for associating and outputting the third rule set and the importance of the third rule set for each excluded third rule set .
  • the recording medium provides a rule set obtained by excluding a third rule set, which is a subset of the first rule set, from the rules constituting the first rule set in the inference system.
  • the result of inferring the probability of the end state from the start state and the first rule set as the first inference result and the result of inferring the probability of the end state from the start state and the second rule set as the rule set When the inference result is 2, the difference between the first inference result and the second inference result is determined by limiting the number of rules constituting the second rule set to the rules constituting the second rule set.
  • a program that causes a computer to execute processing for specifying a smaller size and processing for outputting the specified second rule set is recorded.
  • the recording medium is an inference system that infers a probability that an end state is established from a start state and a rule set in an inference system, and from the rules constituting the first rule set,
  • the rule set excluding the third rule set which is a subset is set as the second rule set, and the result of inferring the start state and the probability that the end state is established from the first rule set is set as the first inference result.
  • the second inference result is the result of inferring the probability that the end state is established from the second rule set
  • the number of rules constituting the third rule set is limited to the number of rules constituting the third rule set.
  • the process of specifying the difference between the first inference result and the second inference result to be large and the process of outputting the specified third rule set are compiled. Recording a program to be executed by data.
  • an effect of presenting the basis of inference to the user can be achieved.
  • FIG. 1 is a block diagram showing an example of the configuration of the inference system according to the first embodiment of the present invention.
  • FIG. 2 is a block diagram illustrating an example of a configuration of an inference system according to the third embodiment.
  • FIG. 3 is a flowchart illustrating an example of the operation of the inference system according to the third embodiment.
  • FIG. 4 is a diagram illustrating a rule set used for explaining the outline of the operation of the first embodiment.
  • FIG. 5 is a diagram illustrating an example of a rule subset in which rules are excluded from the rule set of FIG.
  • FIG. 6 is a diagram illustrating an example of an output in which rules and importance levels are associated with each other.
  • FIG. 7 is a diagram illustrating an example of an output associated with a weight.
  • FIG. 1 is a block diagram showing an example of the configuration of the inference system according to the first embodiment of the present invention.
  • FIG. 2 is a block diagram illustrating an example of a configuration of an inference system according to the third
  • FIG. 8 is a diagram illustrating an example of a rule set used for explaining detailed operations.
  • FIG. 9 is a diagram illustrating an example of a rule set graph illustrated in FIG. 8.
  • FIG. 10 is a diagram illustrating an example of the rule subset specified in the rule set of FIG.
  • FIG. 11 is a diagram illustrating an example of a rule subset output by the related invention.
  • FIG. 12 is a diagram illustrating a rule set of the first data example.
  • FIG. 13 is a diagram showing rule subsets identified based on the first data example.
  • FIG. 14 is a diagram illustrating a rule set of the second data example.
  • FIG. 15 is a diagram illustrating a rule subset identified based on the second data example.
  • FIG. 16 is a diagram illustrating a rule set of the third data example.
  • FIG. 17 is a diagram illustrating a rule subset identified based on the third data example.
  • FIG. 18 is a diagram illustrating a rule set of the fourth data example.
  • FIG. 19 is a diagram illustrating rule subsets identified based on the fourth data example.
  • FIG. 20 is a diagram illustrating a rule set of the fifth data example.
  • FIG. 21 is a diagram illustrating rule subsets identified based on the fifth data example.
  • FIG. 22 is a diagram illustrating a rule set of the sixth data example.
  • FIG. 23 is a diagram illustrating a rule subset identified based on the sixth data example.
  • FIG. 24 is a diagram illustrating a rule set of the seventh data example.
  • FIG. 25 is a diagram illustrating rule subsets identified based on the seventh data example.
  • FIG. 26 is a block diagram illustrating a configuration of an information processing apparatus that is an example of a hardware configuration of the inference system.
  • “Atom” is a logical expression (atomic logical expression or elementary logical expression) having no partial logical expression.
  • An example of an atom is a propositional variable or predicate.
  • predicates are mainly used as atom examples.
  • an example of an atom is “X smokes” when X is a variable.
  • An atom may be expressed using a function format.
  • “X smokes” may be expressed as “Smoke (X)”.
  • An atom may include a plurality of variables.
  • an example of an atom in this case is “X and Y are friends”. When the function format is used, for example, “X and Y are friends” becomes “Friends (X, Y)”.
  • Ground atom is an atom in which a constant is assigned to a variable in the atom.
  • an atom in which a specific person is substituted for the variable X of “X smokes” is a ground atom. More specifically, for example, the ground atom when the person A is substituted for the variable X is “A smokes”.
  • a truth value (True (1) or False (0)) can be assigned to the ground atom. If A smokes, this ground atom becomes True. If A does not smoke, this ground atom is False.
  • “World” is the assignment of the truth value of the ground atom. For example, when there are N ground atoms, x is “x ⁇ ⁇ 0, 1 ⁇ N ” where “x” is an element (each allocation) included in the entire assignment of truth values to the ground atom. Each of these assignments is called world (x). In other words, each set of truth values in the ground atom, which is the result of assigning a constant to a predetermined number of atom variables, becomes the world.
  • Rule are logical expressions, and are generally logical expressions including the above atoms.
  • the rules used below are predicate logic rules.
  • a rule may include a predicate. That is, the rules are described using propositions, predicates, constants, variables, and logical symbols ( ⁇ , ⁇ , ⁇ , ⁇ , ⁇ , ⁇ , or ⁇ ).
  • the rule used by the embodiment of the present invention may not have a weight to be described later. However, since MLN is used as a reference in the description of detailed operations described later, in the following description, a rule set composed of weighted rules is used as a rule set as necessary. In the following description, for the convenience of explanation, a first-order predicate logic rule is used. However, the present invention is not limited to the first order predicate logic.
  • (referred to as a generic symbol, a generic quantification symbol, or a universal symbol)” is a logical symbol meaning “for any” or “for all”.
  • (referred to as existence symbol, special name symbol, or existence quantification symbol)” is a logical symbol meaning “to satisfy (condition)” or “in contrast to”.
  • is a logical symbol representing disjunction or logical sum.
  • is a logical symbol representing an implication. For example, “A ⁇ B” means “B if A”. “A ⁇ B” is equivalent to “ ⁇ A ⁇ B”.
  • is a logic symbol indicating the logic in the opposite direction of “ ⁇ ”. For example, “A ⁇ B” means “A if B”.
  • “ ⁇ ” is a logical symbol indicating the same value. “A ⁇ B” is “(A ⁇ B) ⁇ (A ⁇ B)”.
  • Observation means that a truth value is assigned to one or more ground atoms.
  • an observation is a set consisting of a pair of a ground atom and its truth value.
  • Truth values are assigned to the ground atoms included in the observation.
  • the truth value is determined for the ground atom included in the observation.
  • “Observe” is an operation of acquiring a ground atom to which a truth value is assigned. Note that the acquisition source of the observation is not particularly limited. The observation may be received from a user, for example, or may be received from a device or device (not shown) such as a sensor.
  • a “query” is a ground atom or a logical combination of ground atoms for which the posterior probability is calculated under the observation and rule set. That is, the query is a set including at least one ground atom or a logical combination of ground atoms as an element.
  • the query is an object of inference in the inference system. Note that the inference system receives a query from a user directly or indirectly.
  • Weight is a value set for each rule, and is a value used to reflect the success or failure of the rule as a continuous value in the probability.
  • the case of MLN is used as an example as follows.
  • the weight of the rule is interpreted as “the logarithm of odds of the probability that the rule is established”.
  • the odds are “(probability / (1 ⁇ probability))”.
  • the odds are “(probability / (1 ⁇ probability))”.
  • the weight reflects the establishment or non-establishment of the rule in the probability of the world as follows. (1) When a rule with a positive weight is established, the probability of the world is higher than when the rule is not established. In this case, when a rule with a large absolute value is established, the probability of the world is higher than when a rule with a small absolute value is established. (2) When the rule with a negative weight is established, the probability of the world is lower than when the rule is not established. In this case, when a rule with a large absolute value is established, the probability of the world is lower than when a rule with a small absolute value is established. (3) A rule with a weight of 0 does not affect the probability of the world, whether it is established or not established.
  • weight is a value disclosed in a known technique such as MLN, as already described.
  • the “importance” of a rule set is an index indicating how much the rule set contributes to the inference result.
  • the “importance” of the rule set is an index newly found by the inventor of the present invention.
  • the importance of the rule set is defined as follows.
  • a rule set obtained by excluding a rule set from the rules constituting the first rule set is defined as a second rule set.
  • the importance of the excluded rule set is defined as follows.
  • the importance of the excluded rule set is defined based on the magnitude of the difference between the first inference result and the second inference result.
  • Importance can be defined for a single rule or a set of rules.
  • the “importance” in the present invention is a concept different from the “weight” described above.
  • the first rule set is a rule set including 100 rules. It is assumed that 10 rules are selected at random from 100 rules constituting the first rule set, and the selected rules are excluded from the first rule set. As a result, a second rule set including 90 rules is defined.
  • the probability of a certain query inferred under a certain observation and the first rule set is taken as the first inference result.
  • the probability of the same query as that inferred under the same observation and the second rule set is the second inference result.
  • the importance of the 10 rule sets excluded earlier is defined using the magnitude of the difference between the first inference result and the second inference result.
  • third rule set 1 when 10 rules (hereinafter referred to as “third rule set 1”) are excluded, the difference between the first inference result and the second inference result is not so large. To do.
  • third rule set 2 when other ten rules different from the third rule set 1 (hereinafter referred to as “third rule set 2”) are excluded, the first inference result and the second rule set 2 It is assumed that the difference from the inference result is remarkably large. At this time, the importance level of the third rule set No. 2 is higher than the importance level of the third rule set No. 1.
  • the remaining rules excluding 10 rules (third rule set 1) from the first rule set are defined as second rule set 1, and the same observation and second rule set 1 are used.
  • the probability of the same query as that inferred under is taken as the second inference result.
  • the remaining rules obtained by excluding the other ten rules (third rule set 2) from the first rule set are defined as second rule set 2 and the same observation and second rule set 2 are used.
  • the probability of the same query as that inferred under is the second inference result No. 2.
  • the importance of the second rule set 2 is The second rule set is higher than the first importance level. This is because it can be said that the inference result based on the second rule set No. 2 reproduces the first inference result more accurately than the inference result based on the second rule set No. 1.
  • the term “equal” or “more” than “or” or the term “below (equal” to “or less” than) may be used.
  • the phrase “equal to or more than” may be read as “more than”. Further, the term “equal ⁇ to or less than” may be read as “less than”.
  • S is a function indicating the number of elements (elements) of the set S.
  • A is a predicate.
  • F is a grounded rule, that is, a rule whose variable value is determined.
  • the subscript j is added.
  • rule set L is the entire set of rules F (hereinafter referred to as rule set).
  • a subset of the rule set L that is the remainder of the rule set L excluding one or more rules F is defined as a rule subset L ′ (L′ ⁇ L).
  • a set of one or a plurality of excluded rules F is defined as a rule subset L ′′.
  • the rule set L is a rule set including 100 rules F. It is assumed that 10 rules F are selected at random from the 100 rules F constituting the rule set L, and the selected rules F are excluded from the rule set L. In this case, the rule set including the remaining 90 rules F is the rule subset L ′. Further, the set of ten rule Fs to be excluded is the rule subset L ′′. The rule subset L ′′ is “excluded rule subset L ′′” in order to clarify that it is excluded. Sometimes called.
  • the rule set L is ⁇ F 1 , F 2 ,..., F N ⁇ .
  • O is an observation. Observation O is a set of a pair of ground atom and its truth value. In the following description, it is assumed that O is not empty.
  • the query Q is a query.
  • the query Q includes at least one ground atom or a logical combination of ground atoms.
  • observation O and query Q are shown below.
  • the truth value is determined for the elements constituting the observation O.
  • O, L) is the probability of query Q under rule set L and observation O. In the following description, it is simply referred to as probability P (Q
  • D L (L ′, O, Q) is the probability P (Q
  • D L (L ′, O, Q) is expressed as follows using a mathematical formula.
  • D L (L ′, O, Q) P (Q
  • the difference value is a positive value, a negative value, or 0.
  • W is the weight assigned to the rule.
  • An inference system using MLN or the like sets a weight w for rule F. Therefore, as a related invention of the present invention, an invention that outputs the basis of inference based on the weight w will be described.
  • an inference system such as MLN assigns a weight w to rule F.
  • a pair of weight w and rule F is referred to as a “weighted rule”.
  • a rule including a weighted rule is referred to as a rule F.
  • the weight w is a real value, ⁇ , or ⁇ .
  • is a symbol representing a value larger than an arbitrary real value.
  • is a symbol representing a value smaller than an arbitrary real value.
  • the related invention extracts the rule subset L ′ from the rule set L using the weight w as a selection criterion as a basis for explaining the inference result.
  • the related invention operates as follows.
  • the related invention acquires a rule set L and a hyperparameter.
  • the related invention receives a rule set L and a hyperparameter from a device operated by a user.
  • the rule set L includes the weight w described above.
  • the hyper parameter will be described later.
  • the related invention selects the rule F based on the weight w of the rule F, and outputs the rule subset L ′.
  • the related invention may further include restrictions.
  • An example of the constraint is “rule F including observation O and / or rule F including query Q is not excluded”.
  • the first method is a method of selecting a rule F in which the value of the weight w is equal to or greater than a threshold value.
  • the related invention acquires the threshold value of the weight w as the hyper parameter.
  • the first selection method is a selection method that excludes the rule F whose weight w is less than the threshold value.
  • the output in the first method is a rule subset L ′ made up of rules F having a weight w greater than or equal to a hyperparameter.
  • the second method is a method of selecting a predetermined number of rules F from the larger weight w value.
  • the related invention acquires the number of rules F as a hyperparameter.
  • the second selection method is a selection method in which the rule F is excluded from the smaller weight w so as to leave a predetermined number of rules F.
  • the output in the second method is a rule subset L ′ including the number of rules F specified by using hyperparameters from the one with the larger weight w.
  • the related invention outputs the rule subset L ′ using any of the methods described above.
  • the rule subset L ′ selected as the output here is a subset of the rule F having a large weight w. Therefore, the output rule subset L ′ is a rule F suitable for being used for inference.
  • the related invention may use the above two methods.
  • the related invention acquires the threshold value (first threshold value) of the weight w and the threshold value of the number of rules F (second threshold value).
  • the open invention may select the rule F using “delete all rules F less than the first threshold” and / or “the number of rules F is equal to or less than the second threshold rule” as the stop condition. .
  • the related invention can output the rule subset L ′ as the basis of inference.
  • the reasoning to actually show the basis is the reasoning for obtaining “the probability P of the query Q under the observation O”.
  • the inventor has found the following problems in presenting the grounds for inference for obtaining the probability P of the query Q under the observation O in the related invention.
  • the first problem is that in the related invention, the rule subset L ′ selected as the output does not take into consideration the degree of influence on the “probability P of the query Q under the observation O”.
  • the weight w used as the selection criterion is a value determined in the previous stage of the operation of inferring “the probability P of the query Q under the observation O”.
  • the weight w is determined based on the result of the weight learning process using machine learning or the definition of the user before the rule set L is used as the input of the inference system. That is, the selection based on the weight w does not use the information regarding the observation O and the information regarding the query Q in the inference stage for the selection of the rule F.
  • the related invention does not consider the degree of influence on “probability P of query Q under observation O”.
  • the second problem is that in the related invention, the probability P when re-inferring using the rule subset L ′ selected as the output changes with respect to the probability P when inferring using the original rule set L It is a point that cannot guarantee the range.
  • the related invention does not use the information related to the observation O and the information related to the query Q in the inference to select the rule F. Since the weight w, which is a criterion for selection in the related invention, is a value determined in the previous stage of inference, the related invention does not consider the information on the observation O and the information on the query Q in the inference. Therefore, the related invention cannot guarantee the range in which the probability of the query Q under the observation O changes.
  • the third problem is that the related invention cannot use a probabilistic inference system that handles rule F having no weight w.
  • Non-Patent Document 1 the weight w is not given to the rule F. Therefore, the related invention cannot select the rule F in the inference system using the non-patent document 1.
  • the fourth problem is that the related invention cannot handle rule sets.
  • the inference system 100 infers the probability P that the query Q is satisfied under the observation O and the rule set L. Then, the inference system 100 outputs the reason for the inference.
  • An example of the reasoning of inference is the rule F excluded when creating the rule subset L ′ from the rule set L.
  • an example of the inference system 100 is the rule F excluded when creating the rule subset L ′ for calculating the probability P of the query Q under the rule set L and the observation O as the “reason for inference”. Is output.
  • FIG. 4 is a diagram illustrating a rule set L used for explaining the outline of the operation of the first embodiment.
  • the graph shown in FIG. 4 is a graph created by applying the following method, for example. (1) A ground atom is a node. (2) For a pair of ground atoms, an edge is drawn between the two ground atoms only when the two ground atoms appear in the same rule.
  • FIG. 4 is an undirected graph. That is, in FIG. 4, the direction of inference in each rule F is not necessarily limited from left to right.
  • Cancer (X) indicates that “X becomes cancer”.
  • Smoke (X) indicates that “X smokes”.
  • Fan (X, Y) indicates that “X and Y are family members”.
  • Friends (X, Y) indicates that “X and Y are friends”.
  • FIG. 4 is an example of the entire reasoning reasoning when the probability P of “B becomes cancer” that is the query Q is obtained under the observation O where “A becomes cancer” is True.
  • a rule set L is shown.
  • the rules F included in the rule set L shown in FIG. 4 are as follows.
  • F 1 A smokes. ⁇ A becomes cancer.
  • F 2 A smokes. A A and B are friends.
  • F 3 A smokes. A A and B are families.
  • F 4 B smokes. ⁇ B becomes cancer.
  • the inference system 100 calculates the probability of the query Q under the rule set L and the observation O. The probability at this time is taken as the first inference result.
  • the inference system 100 calculates the probability of the query Q under the rule subset L ′ and the observation O when any rule F is excluded.
  • inference system 100 and excluding rules F 3.
  • FIG. 5 is a diagram illustrating an example of the rule subset L ′ when the rule F 3 is excluded from the rule set of FIG.
  • the rule subset L ′ shown in FIG. 5 includes the following rules F.
  • F 1 A smokes. ⁇ A becomes cancer.
  • F 2 A smokes. A A and B are friends.
  • F 4 B smokes. ⁇ B becomes cancer.
  • the inference system 100 calculates the probability of the query Q under the observation O and the rule subset L ′. The probability at this time is taken as the second inference result.
  • the inference system 100 calculates the difference between the first inference result and the second inference result as the importance of the excluded rule F.
  • the inference system 100 outputs the rule F that has been excluded and the importance of the rule F in association with each other.
  • the user can specify the rule F having a high importance.
  • the user selects the rule subset L ′ ⁇ F 1 , F 2 , F 4 ⁇ as the rule subset L ′ ⁇ F 1 , F 3 , F 4 ⁇ shows that it is appropriate as a basis.
  • FIG. 1 is a block diagram showing an example of the configuration of the inference system 100 according to the first embodiment of the present invention.
  • the inference system 100 infers the probability that the end state is satisfied from the start state and the rule set L.
  • the inference system 100 includes a calculation unit 110 and an output unit 120.
  • the calculation unit 110 sets a rule set obtained by excluding one rule from the rules constituting the first rule set as the second rule set. Then, the calculation unit 110 calculates a probability that the end state is established from the start state and the first rule set as the first inference result. Furthermore, the calculation unit 110 calculates, as the second inference result, the probability that the same start state as the previous and the same end state as the previous are satisfied from the second rule set. Then, the calculation unit 110 calculates the importance that is an index indicating the magnitude of the difference between the first inference result and the second inference result for each rule that is excluded.
  • the output unit 120 outputs the rule and the importance of the rule in association with each rule excluded.
  • the output unit 120 may output a rule having higher importance in preference to a rule having lower importance.
  • the start state is the observation O.
  • the first rule set is the rule set L.
  • the end state is the query Q.
  • the first inference result is the probability P (Q
  • the second rule set is a rule subset L ′.
  • the second inference result is the probability P (Q
  • An example of the difference is D L (L ′, O, Q).
  • the calculation unit 110 calculates a probability P (Q
  • the output unit 120 outputs the rule F that has been excluded and the importance of the rule F in association with each other.
  • FIG. 6 is a diagram illustrating an example of an output in which the rule F is associated with its importance.
  • FIG. 6 shows a case where the rules F are arranged in descending order of importance.
  • the rule F 1 including the observation O and the rule F 4 including the query Q are omitted.
  • the output destination output by the output unit 120 is not particularly limited.
  • the output unit 120 may transmit the rule F and the importance to a device (not shown) operated by the user.
  • the output unit 120 may include a display device (not shown) and display the rule F and the importance on the display device.
  • the inference system 100 may repeat the same operation with the rule subset L ′ as a new rule set L.
  • the calculation unit 110 may acquire the observation O, the query Q, and the rule set L from an external device (not shown).
  • the calculation unit 110 may operate using the observation O, the query Q, and the rule set L that are stored in advance in a storage device (not shown).
  • the calculation unit 110 executes inference when calculating the importance.
  • the reasoning here is to calculate the probability P in the query Q.
  • the configuration for executing inference is not limited to the calculation unit 110.
  • an inference engine (not shown) (for example, an inference engine similar to MLN) may calculate the probability P described above.
  • the calculation unit 110 transmits “rule set L, rule subset L ′, observation O, and query Q” to the inference engine, obtains an inference result (probability P) from the inference engine. Also good.
  • the reasoning system 100 configured in this way can produce an effect of presenting the basis of reasoning to the user.
  • the calculation unit 110 calculates the difference in the probability P of the query Q when the rule F is excluded. That is, the calculation unit 110 calculates the importance of the rule F. Then, the output unit 120 associates and outputs the rule F and the calculated importance of the rule F. This is because the inference system 100 can present a rule F (rule F having high importance) having a high degree of influence on the probability P of the query Q to the user based on such an operation.
  • the inference system 100 has an effect of solving the problem of the related invention.
  • the calculation unit 110 calculates the probability P of the query Q under the rule subset L ′ and the observation O excluding the rule F, and the query Q under the rule set L and the observation O. The difference from the probability P is calculated. That is, the calculated importance level of the rule F is a value indicating the degree to which the rule F affects the probability P of the query Q under the observation O. That is, the calculation unit 110 calculates the degree of influence on the “probability P of the query Q under the observation O” as the importance. Then, the output unit 120 outputs the rule F and the importance in association with each other. Therefore, the inference system 100 considers the degree of influence (importance) on the “probability P of the query Q under the observation O”. That is, the inference system 100 solves the first problem of the related invention.
  • the calculation unit 110 calculates the difference in the probability P between the rule set L and the rule subset L ′ as the importance. Then, the output unit 120 outputs the rule F and its importance in association with each other. Therefore, the inference system 100 can guarantee a range that changes with respect to the probability P when inferring using the rule set L based on the importance. That is, the inference system 100 solves the second problem of the related invention.
  • the calculation unit 110 does not use the weight w in calculating the importance of the rule F. Therefore, the calculation unit 110 can cope with a probabilistic inference system that is not weighted. That is, the inference system 100 solves the third problem of the related invention.
  • Modification 1 When the rule set L includes the weight w, the calculation unit 110 of the inference system 100 may associate and output the weight w in addition to the difference in specifying the rule F.
  • FIG. 7 is a diagram illustrating an example of an output associated with a weight.
  • FIG. 7 shows a case where the rules F are arranged in descending order of importance.
  • the rule F 1 including the observation O and the rule F 4 including the query Q are omitted.
  • the inference system 100 may arrange the rules F based on different items. For example, the inference system 100 may arrange the rules F from the rule F having a large weight. In this case, the user can acquire different knowledge in the inference such as rule F having a large weight but not high importance.
  • the output unit 120 may output the rule F, the importance of the rule F, and the weight value calculated in advance for the rule F in association with each other.
  • Inference system 100 may use constraints. For example, the inference system 100 may use a constraint that “the rule F including the observation O and / or the rule F including the query Q is not excluded”. Alternatively, the inference system 100 may receive an instruction of the rule F that is not excluded from the user. Alternatively, the inference system 100 may not exclude the rule F in a predetermined range from the observation O or the query Q. Or inference system 100 may set the range of observation O which can be excluded using time, when observation O contains time information.
  • the difference D L (L ′, O, Q) has been described as the difference in the probability P between the rule set L and the rule subset L ′.
  • the difference D L (L ′, O, Q) is not limited to such a difference in probability P.
  • the calculation unit 110 may use a difference D L (L ′, O, Q).
  • the difference is a difference corresponding to the rule F included in the rule subset L ′ in the probability P.
  • the difference is a difference between the probability P and whether the rule F is in the rule subset L ′. An example of the difference in this case is shown below.
  • the calculation unit 110 may use the difference (D L ′ ( L ′ ⁇ F j , O, Q)) shown in Equation 1 instead of the difference D L (L ′, O, Q).
  • “ ⁇ ” In Formula 1 indicates rule exclusion. That is, “rule set L ′ ⁇ F j ” indicates that the rule F j is further excluded from the rule subset L ′.
  • the difference D L ′ ( L ′ ⁇ F j , O, Q) is the difference between the difference D L (L ′, O, Q) and the difference D L (L ′ ⁇ F j , O, Q). Show.
  • Equation 1 indicates that the difference (D L ′ ( L ′ ⁇ F j , O, Q)) is a change amount of the difference D L when the rule F j is excluded from the rule subset L ′.
  • the calculation unit 110 may use the difference D L ′ ( L ′ ⁇ F j , O, Q) instead of the difference D L (L ′, O, Q).
  • the inference system 100 excludes one rule F at a time.
  • the inference system 100 may exclude a plurality of rules F, that is, rule sets at a time.
  • an inference system 100 that excludes a plurality of rules F, that is, rule sets, from the rule set L will be described.
  • the inference system 100 according to the second embodiment is the same as the first embodiment except that the rule set is excluded, and therefore detailed description of the configuration is omitted as appropriate.
  • the same description as in the first embodiment will be omitted, and the operation unique to the present embodiment will be described.
  • the inference system 100 of the second embodiment infers the probability that the end state is satisfied from the start state and the rule set.
  • the inference system 100 includes a calculation unit 110 and an output unit 120.
  • the calculation unit 110 sets a rule set obtained by excluding a third rule set, which is a subset of the first rule set, from the rules constituting the first rule set as the second rule set. . Then, the calculation unit 110 sets, as the first inference result, the probability that the same start state as the previous and the same end state as the previous from the first rule set. Then, the calculation unit 110 sets, as the second inference result, the probability that the same start state as the previous and the same end state as the previous from the second rule set. Then, the calculation unit 110 calculates the importance that is an index indicating the magnitude of the difference between the first inference result and the second inference result for the third rule set.
  • the output unit 120 associates and outputs the third rule set and the importance of the third rule set for each excluded third rule set.
  • the inference system 100 according to the second embodiment may repeat the above operation.
  • the inference system 100 according to the second embodiment may use Modifications 1 to 3 in the first embodiment.
  • the inference system 100 has an effect that the importance of a set of a plurality of rules F can be calculated.
  • the calculation unit 110 of the second embodiment calculates the importance for a rule set including a plurality of rules F. That is, the inference system 100 according to the second embodiment can calculate the importance for a plurality of rules F. That is, the inference system 100 according to the second embodiment solves the fourth problem of the related invention.
  • FIG. 2 is a block diagram showing an example of the configuration of the inference system 101 according to the third embodiment.
  • the inference system 101 includes a specifying unit 130 and an output unit 140.
  • the identifying unit 130 sets a rule set obtained by excluding the third rule set, which is a subset of the first rule set, from the rules constituting the first rule set as the second rule set. And the specific
  • the output unit 140 outputs the specified second rule set.
  • the specifying unit 130 uses a configuration that realizes a function corresponding to the calculation unit 110 of the first embodiment or the second embodiment in the above operation. That is, the specifying unit 130 uses a rule or rule set and its importance. Therefore, the specifying unit 130 may use a configuration corresponding to the output unit 120 in addition to the calculation unit 110.
  • the first rule set is the rule set L. That is, the rule set L is the original rule set.
  • the second rule set is a rule subset L ′. That is, the rule subset L ′ is a remaining rule set obtained by excluding a rule set from the original rule set.
  • the third rule set is a rule subset L ′′. That is, the rule subset L ′′ is a rule set to be excluded.
  • the starting state is observation O.
  • the end state is a query Q.
  • the first inference result is P (Q
  • the second inference result is P (Q
  • the difference is D L (L ′, O, Q).
  • the specifying unit 130 uses the rule set L, the observation O, the query Q, and the hyperparameter ⁇ .
  • the hyper parameter ⁇ is a parameter indicating the range of difference in the constraint. That is, the hyperparameter ⁇ is a threshold value in the difference.
  • the specifying unit 130 specifies the rule subset L ′ as a solution to the optimization problem 1 shown below.
  • the specifying unit 130 determines the rule part having the smallest number of rules F (Card (L ′)) in the rule subset L ′ in which the difference D L (L ′, O, Q) is equal to or less than the hyperparameter ⁇ .
  • a set L ′ is specified.
  • the specifying unit 130 specifies the rule F that constitutes the rule subset L ′.
  • optimization problem 1 can also be defined using the rule subset L ′′ that is excluded.
  • the optimization problem 1 is as follows.
  • the identifying unit 130 sets a rule set obtained by excluding the third rule set, which is a subset of the first rule set, from the rules constituting the first rule set as the second rule set. And the specific
  • the output unit 140 outputs the specified third rule set.
  • the third embodiment has an effect that the rule subset L ′ having a smaller number of rules F can be specified in addition to the effect of presenting the reasoning reason to the user.
  • the specifying unit 130 uses the rule F of the rule subset L ′ under the constraint that the value of the difference D L (L ′, O, Q) falls within the hyperparameter ⁇ . This is because the rule subset L ′ that minimizes the number is specified. That is, the identifying unit 130 can extract a rule F having a large influence on the probability P (Q
  • the specifying unit 130 specifies the rule subset L ′ under the constraint that the value of the difference D L (L ′, O, Q) falls within the hyperparameter ⁇ . Therefore, the probability P (Q
  • the specifying unit 130 uses a hyperparameter C instead of the hyperparameter ⁇ .
  • the hyper parameter C is a parameter indicating the range of the number of rules F in the constraint. That is, the hyperparameter C is a threshold value in the number of rules F.
  • the specifying unit 130 specifies the rule subset L ′ as a solution to the optimization problem 2 shown below.
  • optimization problem 2 can also be defined using the rule subset L ′′ that is excluded.
  • the optimization problem 2 is as follows.
  • the fourth embodiment has an effect that it is possible to specify a rule subset L ′ having a smaller number of rules F in addition to the effect of presenting the reasoning reason to the user.
  • the specifying unit 130 is different under the restriction that the number of elements (rule F) (Card (L ′)) of the rule subset L ′ falls below the hyperparameter C. This is because the rule subset L ′ that minimizes the value of D L (L ′, O, Q) is specified. That is, the identifying unit 130 can extract a rule F having a large influence on the probability P (Q
  • the specifying unit 130 performs the difference D L (L) under the constraint that the value of the number of elements (Card (L ′)) of the rule subset L ′ is less than or equal to the hyperparameter C.
  • the rule subset L ′ that minimizes the value of “, O, Q) is specified. Therefore, the probability P (Q
  • the rule subset L ′ is the smallest deviation from the probability P (Q
  • the specifying unit 130 uses the rule Q of the query Q when the probability P (Q
  • the specifying unit 130 excludes the rules F from the rule set L one by one, and the rule portion that becomes the minimum number of rules F (Card (L ′)) as long as the constraints are satisfied.
  • Set L ′ is the optimal solution.
  • the specifying unit 130 may repeat the operation of reducing the plurality of rules F.
  • the specifying unit 130 may exclude all of the plurality of rules F at the same time so that the number of the rules F is minimized under the restriction in one operation.
  • a rule subset L ′ obtained by excluding one rule F from the rule set L is defined as L 1 .
  • a rule subset L ′ obtained by excluding one rule F from the rule subset L 1 is defined as L 2 .
  • the rule set L is, and L 0.
  • D Li (L i + 1 , O, Q): P (Q
  • O, L i ) P (Q
  • the specifying unit 130 excludes the rule F j n times as the rule subset L ′ the relationship between the rule set L and the final rule subset L ′ is as follows.
  • FIG. 3 is a flowchart showing an example of the operation of the inference system 101 according to the third embodiment.
  • the identifying unit 130 acquires information (rule set L, observation O, query Q, and hyperparameter ⁇ ) (step S201).
  • the specifying unit 130 may perform an operation of initializing data such as variables used for the operation before the next operation.
  • the specifying unit 130 excludes the rule F from the rule set L in the following operation. Therefore, the specifying unit 130, for example, a variable used as a rule subset L '(hereinafter referred to as L V) as an initial value of, setting a rule set L.
  • L V a variable used as a rule subset L '(hereinafter referred to as L V) as an initial value of, setting a rule set L.
  • This operation can be expressed as “L V ⁇ L 0 ”, for example.
  • the specifying unit 130 may initialize a variable (hereinafter referred to as SD) used as a sum of differences. This operation can be expressed as, for example, “SD ⁇ 0”.
  • the identifying unit 130 determines whether or not the operation has been completed (step S202).
  • a specific termination condition is that, even if any rule F is excluded, the total difference does not become equal to or less than the hyperparameter ⁇ .
  • Termination condition is expressed as follows using variables. Termination condition:
  • the specifying unit 130 updates the total difference (step S204). For example, the specifying unit 130 executes “SD ⁇ D (L V ⁇ ⁇ F j ⁇ , O, Q) + SD”.
  • the identifying unit 130 excludes the rule F j identified from the rule subset L V in step S203, the new rule subset L V. That is, the specific portion 130, by excluding specific rule F j, updates the rule subset L V (step S205). For example, the specifying unit 130 executes “L V ⁇ L V ⁇ ⁇ F j ⁇ ”.
  • step S202 determines whether it is complete
  • the specifying unit 130 repeats the above operation until the end condition is satisfied.
  • step S202 When the operation is finished (Yes at step S202), the specifying unit 130, 'and (L' rules subset L V at that time the final rule subset L ⁇ L V), the final rule subsets L 'Is transmitted to the output unit 140.
  • the rule subset L ′ output here is the rule subset L ′ specified by the specifying unit 130. Further, the rule F constituting the rule subset L ′ is the identified rule F.
  • the output unit 140 outputs the rule subset L ′ received from the specifying unit 130, that is, the set of the rules F specified by the specifying unit 130 (Step S206).
  • FIG. 8 is a diagram showing an example of the rule set L used in the following detailed description of the operation.
  • the rule set L includes the following four rules F (rule F 1 , rule F 2 , rule F 3 , and rule F 4 ).
  • F 1 Run (Run) ⁇ Burn fat (Burn fat).
  • F 2 Burn fat (Burn fat) ⁇ Thin (Slim).
  • F 3 Burn fat (Burn fat) ⁇ Get hungry (Start).
  • F 4 Slim (Slim) ⁇ Get healthy (Get health).
  • rule F 1 is rule F including observation O.
  • the query Q is “become healthy”. That is, the rule F 4 is the rule F including the query Q.
  • a weight w is given to each rule F.
  • FIG. 9 is a diagram showing an example of a graph of the rule set L shown in FIG. FIG. 9 uses the same graph configuration as MLN. That is, FIG. 9 is a graph of the rule set L, using each predicate as a node and connecting predicates appearing in the same rule F with edges, as in FIG.
  • the constraint is that “the rule F including the observation O and the rule F including the query Q are not excluded”. In other words, the rule F 1 and Rule F 4 is removed from the excluded.
  • the hyperparameter ⁇ is set to “0.30000”.
  • the specifying unit 130 acquires the data (step S201). Furthermore, the specifying unit 130 initializes the variables (rule subset L V ⁇ rule set L, SD ⁇ 0).
  • the probability P of the query Q under the rule set L and the observation O is shown below.
  • O, ⁇ F 1 , F 2 , F 3 , F 4 ⁇ ) 0.99995 Since the specifying unit 130 does not exclude the rule F 1 including the observation O and the rule F 4 including the query Q, the specifying unit 130 calculates the probability P of the query Q when the rule F 2 and the rule F 3 are excluded. .
  • the respective probabilities P are as follows. P (Q
  • O, ⁇ F 1 , F 2 , F 4 ⁇ ) 0.99995 P (Q
  • O, ⁇ F 1 , F 3 , F 4 ⁇ ) 0.64799
  • the difference between the probability P and the original of the probability P of the case excluding the rules F 2 is "0.35196". This value is greater than the hyperparameter ⁇ .
  • the specifying unit 130 determines that the process is not finished (No in step S202).
  • Identifying unit 130 identifies the rule F 3 difference probability P is smaller when the negative (step S203).
  • the probability P when the rule F 2 is excluded is lower than the probability P when the rule F 3 is excluded. That is, the variation of the probability P of Excluding rule F 2 is the variation is larger than the probability P Excluding rule F 3. Accordingly, the rule F 2 is a rule F having higher importance than the rule F 3 . That is, the specifying unit 130 specifies the rule F with low importance.
  • the identification unit 130 updates the rule subset L V (step S205).
  • Rules subset L V after updating is ⁇ F 1, F 2, F 4 ⁇ .
  • the specifying unit 130 determines whether or not to end (step S202).
  • the specific part 130 calculates the probability P of the query Q when further excluding rules F 2.
  • the probability P in this case is as follows. P (Q
  • O, ⁇ F 1 , F 4 ⁇ ) 0.64799 In this case, the total difference (SD) of the probabilities P is “0.35196”. This difference is larger than the hyperparameter ⁇ (0.30000). Therefore, the specifying unit 130 determines that the process is finished (Yes in step S202).
  • the specifying unit 130 specifies the current rule subset L V ⁇ F 1 , F 2 , F 4 ⁇ as the final rule subset L ′. That is, the specifying unit 130 specifies the rule F 1 , the rule F 2 , and the rule F 4 .
  • the output unit 140 outputs the specified rule subset L ′ ( ⁇ F 1 , F 2 , F 4 ⁇ ) (step S206).
  • FIG. 10 is a diagram illustrating an example of the rule subset L ′ specified in the rule set L in FIG. 9.
  • the related invention uses the weight w.
  • rule F 2 and rule F 3 have the same weight w. For this reason, the related invention cannot determine which rule F 2 or rule F 3 is excluded. Therefore, the related invention is based on the original rule set L ( ⁇ F 1 , F 2 , F 3 , F 4 ⁇ ) or the rule subset L ′ ( ⁇ F 1 , F 4 ) excluding the rules F 2 and F 3. ⁇ ) Is output.
  • FIG. 11 is a diagram illustrating an example of the rule subset L ′ ( ⁇ F 1 , F 4 ⁇ ) output by the related invention.
  • the rule set L ( ⁇ F 1 , F 2 , F 3 , F 4 ⁇ ) is shown in FIG.
  • output has a set of redundant rules including rules F 3.
  • the rule subset L ′ ( ⁇ F 1 , F 4 ⁇ ) shown in FIG. 11 is greatly different from the rule set L in the probability P as described above.
  • FIG. 12 is a diagram illustrating a rule set L of the first data example.
  • Observation O is a predicate A 1.
  • Query Q is a predicate A 3.
  • the rule F constituting the rule set L is as follows.
  • F 1 A 1 ⁇ A 2 (weight: 10)
  • F 2 A 2 ⁇ A 3 (weight: 10)
  • F 3 A 3 ⁇ A 4 (weight: 10)
  • F 4 A 4 ⁇ A 5 (weight: 10)
  • O, L) in this case is 0.99995.
  • FIG. 13 is a diagram showing a rule subset L ′ specified based on the first data example shown in FIG.
  • O, L ′) in the rule subset L ′ is 0.99995. Still further, the probability P in Excluding rule F 1 (Q
  • O, L ′) is 0. 37801.
  • the inference system 101 can exclude the rule F that does not affect the probability P of the query Q (rule F with low importance), and can specify the rule F with high importance.
  • FIG. 14 is a diagram illustrating a rule set L of the second data example.
  • Observation O is a predicate A 4.
  • Query Q is a predicate A 3.
  • the rule F of the rule set L is the same as in FIG.
  • O, L) in this case is 0.75498.
  • FIG. 15 is a diagram showing a rule subset L ′ specified based on the second data example shown in FIG.
  • O, L ′) in the rule subset L ′ is 0.75498. Note that when rule F 1 is excluded, that is, when rule subset L ′ is ⁇ F 2 , F 3 , F 4 ⁇ , the probability P (Q
  • the inference system 101 can identify a rule F having a high degree of importance by excluding the rule F having a weak influence on the probability P of the query Q even in the rule F including the observation O.
  • FIG. 16 is a diagram illustrating a rule set L of the third data example.
  • Observation O is predicate A 1 and predicate A 4 .
  • Query Q is a predicate A 3.
  • the rule F of the rule set L is the same as in FIG.
  • O, L) in this case is 0.99995.
  • FIG. 17 is a diagram showing a rule subset L ′ specified based on the third data example shown in FIG.
  • O, L ′) in the rule subset L ′ is 0.99995. Note that when rule F 1 is excluded, that is, when rule subset L ′ is ⁇ F 2 , F 3 , F 4 ⁇ , the probability P (Q
  • the inference system 101 can exclude the rules F that have a weak influence on the probability P of the query Q and specify the rules F having high importance.
  • FIG. 18 is a diagram illustrating a rule set L of the fourth data example.
  • Observation O is a predicate A 1.
  • Query Q is a predicate A 3.
  • the rule F of the rule set L is as follows. F 1 : A 1 ⁇ A 2 (weight: 10) F 2 : A 2 ⁇ A 3 (weight: 10) F 3 : A 4 ⁇ A 2 (weight: 10)
  • O, L) in this case is 0.99995.
  • FIG. 19 is a diagram showing a rule subset L ′ specified based on the fourth data example shown in FIG.
  • O, L ′) in the rule subset L ′ is 0.99995. Note that the probability P (Q
  • the inference system 101 can preferentially specify the rule F including the observation O even if there are a plurality of rules F having the same connection state.
  • FIG. 20 is a diagram illustrating a rule set L of the fifth data example.
  • Observation O is a predicate A 1.
  • Query Q is a predicate A 3.
  • the rule F of the rule set L is as follows. F 1 : A 1 ⁇ A 2 (weight: 10) F 2 : A 2 ⁇ A 3 (weight: 10) F 3 : A 2 ⁇ A 4 (weight: 10)
  • O, L) in this case is 0.99995.
  • FIG. 21 is a diagram showing a rule subset L ′ specified based on the fifth data example shown in FIG.
  • O, L ′) in the rule subset L ′ is 0.99995. Note that the probability P (Q
  • the inference system 101 can exclude the rule F that does not affect the probability P of the query Q and specify the rule F having high importance.
  • FIG. 22 is a diagram illustrating a rule set L of the sixth data example.
  • Observation O is predicate A 1 and predicate A 4 .
  • Query Q is a predicate A 3.
  • the rule F of the rule set L is as follows. F 1 : A 1 ⁇ A 2 (weight: 100) F 2 : A 2 ⁇ A 3 (weight: 10) F 3 : A 4 ⁇ A 2 (weight: 1)
  • O, L) in this case is 0.99995.
  • FIG. 23 is a diagram showing the rule subset L ′ specified based on the sixth data example shown in FIG.
  • O, L ′) in the rule subset L ′ is 0.99995.
  • O, L ′) is 0.82297.
  • the inference system 101 excludes the rule F including the observation O that has a weak influence on the probability P of the query Q even when there are a plurality of rules F including the observation O having the same connection method, and the rule F having a high importance level. Can be identified.
  • FIG. 24 is a diagram illustrating a rule set L of the seventh data example.
  • Observation O is predicate A 1 and predicate A 4 .
  • Query Q is a predicate A 3.
  • the rule F of the rule set L is as follows. F 1 : A 1 ⁇ A 2 (weight: 10) F 2 : A 2 ⁇ A 3 (weight: 10) F 3 : A 4 ⁇ A 2 (weight: 10)
  • O, L) in this case is 0.99995.
  • FIG. 25 is a diagram showing a rule subset L ′ specified based on the seventh data example shown in FIG.
  • O, L ′) in the rule subset L ′ is 0.99995. Note that the probability P (Q
  • the inference system 101 excludes the rule F including the observation O that has a weak influence on the probability P of the query Q even when there are a plurality of rules F including the observation O having the same weight w, and the rule F having a high importance level. Can be identified.
  • the inference system 100 and the inference system 101 described above are configured as follows.
  • each component of the inference system 100 and the inference system 101 is realized using a general-purpose or dedicated circuit, a processor, or a combination thereof. These may be configured using a single chip, or may be configured using a plurality of chips connected via a bus. Some or all of the components of the inference system 100 and the inference system 101 may be realized using a combination of the above-described circuit and the like and a program.
  • the plurality of information processing devices or circuits are arranged in a centralized manner. Alternatively, they may be distributed.
  • the information processing apparatus or the circuit may be realized as a form in which each is connected via a communication network, such as a client and server system or a cloud computing system.
  • the plurality of components may be configured by a single piece of hardware.
  • the inference system 100 and the inference system 101 may be realized as a computer device including a CPU (Central Processing Unit), a ROM (Read Only Memory), and a RAM (Random Access Memory).
  • the inference system 100 and the inference system 101 may be realized as a computer device that further includes an input / output connection circuit (IOC: Input / Output Output Circuit) and a network interface circuit (NIC: Network Interface) Circuit. Good.
  • IOC Input / Output Output Circuit
  • NIC Network Interface
  • FIG. 26 is a block diagram illustrating a configuration of an information processing apparatus 600, which is an example of a hardware configuration related to the inference system 100 and the inference system 101.
  • the information processing apparatus 600 includes a CPU 610, a ROM 620, a RAM 630, an internal storage device 640, an IOC 650, and a NIC 680, and constitutes a computer device.
  • the CPU 610 reads a program from ROM 620.
  • the CPU 610 controls the RAM 630, the internal storage device 640, the IOC 650, and the NIC 680 based on the read program.
  • the computer including the CPU 610 controls these configurations and implements the functions as the calculation unit 110 and the output unit 120 shown in FIG.
  • the computer including the CPU 610 controls these configurations and realizes the functions as the specifying unit 130 and the output unit 140 shown in FIG.
  • the CPU 610 may use the RAM 630 or the internal storage device 640 as a temporary storage medium for the program when realizing each function.
  • the CPU 610 may read a program included in the storage medium 700 storing the program so as to be readable by a computer by using a storage medium reading device (not shown). Alternatively, the CPU 610 may receive a program from an external device (not shown) via the NIC 680, store the program in the RAM 630, and operate based on the stored program.
  • ROM 620 stores programs executed by CPU 610 and fixed data.
  • the ROM 620 is, for example, a P-ROM (Programmable-ROM) or a flash ROM.
  • the RAM 630 temporarily stores programs executed by the CPU 610 and data.
  • the RAM 630 is, for example, a D-RAM (Dynamic-RAM).
  • the internal storage device 640 stores data and programs stored in the information processing device 600 for a long period of time. Further, the internal storage device 640 may operate as a temporary storage device for the CPU 610.
  • the internal storage device 640 is, for example, a hard disk device, a magneto-optical disk device, an SSD (Solid State Drive), or a disk array device.
  • the ROM 620 and the internal storage device 640 are non-transitory storage media.
  • the RAM 630 is a volatile storage medium.
  • the CPU 610 can operate based on a program stored in the ROM 620, the internal storage device 640, or the RAM 630. That is, the CPU 610 can operate using a nonvolatile storage medium or a volatile storage medium.
  • the IOC 650 mediates data between the CPU 610, the input device 660, and the display device 670.
  • the IOC 650 is, for example, an IO interface card or a USB (Universal Serial Bus) card. Further, the IOC 650 is not limited to a wired connection such as a USB, but may be wireless.
  • the input device 660 is a device that receives an input instruction from an operator of the information processing apparatus 600.
  • the input device 660 is, for example, a keyboard, a mouse, or a touch panel.
  • the display device 670 is a device that displays information to the operator of the information processing apparatus 600.
  • the display device 670 is a liquid crystal display, for example.
  • the display device 670 may operate as the output unit 120 or the output unit 140.
  • the NIC 680 relays data exchange with an external device (not shown) via the network.
  • the NIC 680 is, for example, a LAN (Local Area Network) card.
  • the NIC 680 is not limited to a wired line, and may use wireless.
  • the information processing apparatus 600 configured as described above can obtain the same effects as those of the inference system 100 and the inference system 101.
  • the output means outputs the rule having higher importance in preference to the rule having lower importance.
  • the output means associates and outputs the rule, the importance of the rule, and the weight value calculated in advance for the rule.
  • [Appendix 4] In the inference system that infers the probability that the end state is satisfied from the start state and the rule set, A rule set obtained by excluding a third rule set, which is a subset of the first rule set, from the rules constituting the first rule set is defined as a second rule set, and the start state and the end state are determined from the first rule set.
  • a calculation means for calculating an importance that is an index indicating a magnitude of a difference between the first inference result and the second inference result with respect to the third rule set;
  • Output means for associating and outputting the third rule set and the importance of the third rule set for each excluded third rule set; Inference system with.
  • a rule set obtained by excluding a third rule set, which is a subset of the first rule set, from the rules constituting the first rule set is defined as a second rule set, and the start state and the end state are determined from the first rule set.
  • the specifying unit specifies a rule that configures the second rule set so that the constraint that the difference is equal to or less than a threshold is satisfied, and the number of rules that configure the second rule set is reduced.
  • the specifying unit specifies a rule that configures the second rule set so that the restriction that the number of rules that configure the second rule set is equal to or less than a threshold is satisfied, and the difference is reduced.
  • the inference system according to appendix 5.
  • a rule set obtained by excluding a third rule set, which is a subset of the first rule set, from the rules constituting the first rule set is defined as a second rule set, and the start state and the end state are determined from the first rule set.
  • the specifying unit specifies a rule that configures the third rule set so that the constraint that the difference is equal to or greater than a threshold is satisfied, and the number of rules that configure the third rule set is reduced.
  • the specifying unit specifies a rule that configures the third rule set so that the constraint that the number of rules that configure the third rule set is equal to or less than a threshold is satisfied, and the difference is increased.
  • the inference system according to appendix 7.
  • Inference system that infers the probability that the end state is satisfied from the start state and the rule set, Inference system A rule set obtained by excluding one rule from the rules constituting the first rule set is defined as a second rule set, and the probability that the start state and the end state are satisfied from the first rule set is defined as the first inference result, and the start state And the second inference result is the probability that the end state is satisfied from the second rule set, For each rule that is excluded, calculate the importance that is an index indicating the magnitude of the difference between the first inference result and the second inference result, An inference method that outputs a rule and the importance of the rule in association with each excluded rule.
  • Inference system In the inference system that infers the probability that the end state is satisfied from the start state and the rule set, Inference system A rule set obtained by excluding a third rule set, which is a subset of the first rule set, from the rules constituting the first rule set is defined as a second rule set, and the start state and the end state are determined from the first rule set.
  • Inference system A rule set obtained by excluding a third rule set, which is a subset of the first rule set, from the rules constituting the first rule set is defined as a second rule set, and the start state and the end state are determined from the first rule set.
  • the rule constituting the third rule set is specified so as to increase the difference between the first inference result and the second inference result while limiting the number of rules constituting the third rule set, An inference method that outputs the specified third rule set.
  • a rule set obtained by excluding one rule from the rules constituting the first rule set is defined as a second rule set, and the probability that the start state and the end state are satisfied from the first rule set is defined as the first inference result, and the start state And the second inference result is the probability that the end state is satisfied from the second rule set,
  • a process of calculating the importance that is an index indicating the magnitude of the difference between the first inference result and the second inference result For each rule that is excluded, a process for associating and outputting the rule and the importance of the rule,
  • a rule set obtained by excluding a third rule set, which is a subset of the first rule set, from the rules constituting the first rule set is defined as a second rule set, and the start state and the end state are determined from the first rule set.
  • a process of calculating importance that is an index indicating the magnitude of the difference between the first inference result and the second inference result
  • a process for associating and outputting the third rule set and the importance of the third rule set for each excluded third rule set A recording medium for recording a program that causes a computer to execute the program in a computer-readable manner.
  • a rule set obtained by excluding a third rule set, which is a subset of the first rule set, from the rules constituting the first rule set is defined as a second rule set, and the start state and the end state are determined from the first rule set.
  • a rule set obtained by excluding a third rule set, which is a subset of the first rule set, from the rules constituting the first rule set is defined as a second rule set, and the start state and the end state are determined from the first rule set.
  • the present invention can be applied to the purpose of briefly explaining the basis for the result of inference of artificial intelligence in support of human intellectual labor based on artificial intelligence with probabilistic logic reasoning as a core.
  • the present invention is not limited to an inference method such as MLN or PSL, but is a probabilistic logical inference method that performs inference by defining a random variable based on a logical expression. This method can be widely applied in the case of making an inference to obtain the posterior probability of

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

推論の根拠をユーザに提示するため、本発明の推論システムは、開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、第1のルール集合を構成するルールから一つのルールを除外したルール集合を第2のルール集合とし、開始状態及び第1のルール集合から終了状態が成り立つ確率を第1の推論結果とし、開始状態及び第2のルール集合から終了状態が成り立つ確率を第2の推論結果とするとき、除外されたルール毎に、第1の推論結果と第2の推論結果との差異の大きさを示す指標である重要度を算出する算出手段と、除外されたルール毎に、ルールとルールの重要度とを関連付けて出力する出力手段と、を備える。

Description

推論システム、推論方法、及び、記録媒体
 本発明は、推論に関連する情報を出力する推論システム、推論方法、及び、記録媒体に関する。
 所定の規則又は基準に基づいて、論理式(以下、「ルール」と呼ぶ)の集合から、推論を実行するシステムがある。このようなシステムは、推論システムと呼ばれている(例えば、非特許文献1を参照)。
 初期の推論システムは、その動作において論理式のみを判断基準として用いていた。しかし、近年では、論理式のような確定的な判断基準のみならず、確率的な判断基準を同時に用いた推論システムが利用可能となっている。
 このような確率的な推論システムは、ルール集合を基に、確率変数を定義し、確率的な論理推論を行う。そして、推論システムは、観測とクエリとを入力として、観測とルール集合との下でのクエリが成り立つ確率である事後確率を求める。
 このような推論手法として、例えば、Probabilistic Soft Logic(例えば、非特許文献2、以下、「PSL」とする)及びMarkov Logic Network(例えば、非特許文献3を参照、以下、「MLN」とする)などがある。
特開2013-008221号公報
Lise Getoor and Ben Taskar, "Introduction to Statistical Relational Learning (Adaptive Computation and Machine Learning Series)", The MIT Press, August 31, 2007, pp.291-322, (Kristian Kersting and Luc De Raedt. "10 Bayesian logic programming: Theory and tool") Angelika Kimmig, Stephen H. Bach, Matthias Broecheler, Bert Huang, and Lise Getoor, "A short introduction to probabilistic soft logic", NIPS Workshop on Probabilistic Programming: Foundations and Applications, edition: 2, Location: Lake Tahoe, Nevada, USA, December 07-08, 2012. Matthew Richardson and Pedro Domingos, "Markov logic networks. Machine learning", Machine Learning, Volume 62, Issue 1, p.p. 107-136, February, 2006 (First Online, January 27, 2006), Publisher: Kluwer Academic Publishers.
 非特許文献1ないし3に記載の技術は、ルール集合、入力された観測、及び、入力されたクエリに基づいて、当該観測及びルール集合の下、当該クエリが成り立つ事後確率を算出する。以降、「観測及びルール集合の下での、クエリが成り立つ事後確率」を「推論結果」と呼ぶ。非特許文献1ないし3に記載の技術は、算出された推論結果そのものを出力することはできる。しかし、非特許文献1ないし3に記載の技術は、ルール集合及び観測から、どのように推論結果が算出されたのか、言い換えると、推論の過程又は根拠(理由)を出力しない。
 しかし、本発明の発明者は、推論システムが用いられる場面において、推論システムが、推論結果に限らず、推論結果に至る根拠又は推論の過程を提示することが望ましい場合があることを見いだした。
 例えば、推論システムのユーザが、実世界の問題を解決する場合において、自己の意思決定をサポートするために、推論システムを利用する場合を想定する。この場合、ユーザにとって、推論システムは、推論結果そのものだけを出力するよりも、推論結果に合わせて推論結果に至る根拠又は推論の過程を出力する方が好ましい。ユーザは、推論結果に加え、推論結果に至る根拠又は推論の過程を端的に確認することができると、より深い洞察に基づく意思決定が可能となるためである。例えば、ユーザは、推論結果に至る根拠の確認に基づいて、その推論結果がどの程度信頼できるものなのかを判断できるようになる。
 また、ユーザは、提示された推論根拠に基づいて、その時点における推論システムの様子が分かる。そして、ユーザは、推論システムの動作を把握して、推論システムが用いるルール及び/又は重みが適切であるか否かの考察し、考察の結果を基に推論システムの改善できる。例えば、ユーザは、予想外の推論結果を得た場合、推論の根拠となるルールを考察できる。この場合の考察の一例は、次のとおりである。
例1:想定していたルールの影響が小さい。
例2:当然あるだろうと思っていたルールがない。
例3:想定外のルールの影響が大きい。
ユーザは、上記のような考察を基に、例えば、「推論システムで用いるルールに必要なルールが足りているか」又は「(重みがある場合は)ルールの重みが適切か」などを検討できる。そして、ユーザは、そのような検討を基に、推論システムへのルールの追加及び削除、又は、重みの再設定などの要否を判断できる。
 このように、推論システムのユーザは、観測からクエリに至る推論の過程、つまり、推論の根拠を知ることができると、結果に対する知見を増やすことができる。このことは、本発明の発明者により得られた知見である。
 しかし、推論システムに用いられている内部モデル及び動作プロセスは、多くの場合、膨大で、解釈性に乏しい。例えば、MLNの場合、観測とクエリとを含む連結なネットワークに現れるすべてのルールが、推論結果に影響する。さらに、各ルールは、推論結果の確率に対する寄与として、複雑な数式を介して関係している(例えば、非特許文献3を参照)。
 さらに、確率的な推論システムが用いるルールには、結果に対する影響が大きいルールから、ほとんど影響を与えないルールまで、多くのルールが含まれる。そのため、例えば、「推論に用いたルール集合」を抽出する場合、抽出されるルール集合は、冗長なルール集合となる。このように、非特許文献1ないし3は、結果に至る根拠を提示できないという問題点があった。
 すなわち、発明者は、一般的な推論システムに対して、次のような新規の課題を見いだした。
 (1)推論の根拠を可視化したい。
 (2)推論の根拠をユーザに提示したい。
 (3)推論の根拠をホワイトボックスにしたい。
 言い換えると、非特許文献1ないし3は、推論の根拠を、可視化したり、ユーザに提示したり、ホワイトボックスにしたりすることが開示されていない。
 本発明の目的は、上記問題点を解決し、推論の根拠を提示する推論システム、推論方法、及び、記録媒体を提供することにある。
 本発明の第一の形態における推論システムは、開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、第1のルール集合を構成するルールから一つのルールを除外したルール集合を第2のルール集合とし、開始状態及び第1のルール集合から終了状態が成り立つ確率を第1の推論結果とし、開始状態及び第2のルール集合から終了状態が成り立つ確率を第2の推論結果とするとき、除外されたルール毎に、第1の推論結果と第2の推論結果との差異の大きさを示す指標である重要度を算出する算出手段と、除外されたルール毎に、ルールとルールの重要度とを関連付けて出力する出力手段と、を備える。
 本発明の第二の形態における推論システムは、開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、第1のルール集合を構成するルールから第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、開始状態及び第1のルール集合から終了状態が成り立つ確率を第1の推論結果とし、開始状態及び第2のルール集合から終了状態が成り立つ確率を第2の推論結果とするとき、第3のルール集合に対して、第1の推論結果と第2の推論結果との差異の大きさを示す指標である重要度を算出する算出手段と、除外された第3のルール集合毎に、第3のルール集合と第3のルール集合の重要度とを関連付けて出力する出力手段と、を備える。
 本発明の第三の形態における推論システムは、第1のルール集合を構成するルールから第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、開始状態及び第1のルール集合から終了状態が成り立つ確率を推論した結果を第1の推論結果とし、開始状態及び第2のルール集合から終了状態が成り立つ確率を推論した結果を第2の推論結果とするとき、第2のルール集合を構成するルールを、第2のルール集合を構成するルールの数量を限定しつつ、第1の推論結果と第2の推論結果との差異を小さくするように特定する特定手段と、特定された第2のルール集合を出力する出力手段と、を備える。
 本発明の第四の形態における推論システムは、開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、第1のルール集合を構成するルールから第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、開始状態及び第1のルール集合から終了状態が成り立つ確率を推論した結果を第1の推論結果とし、開始状態及び第2のルール集合から終了状態が成り立つ確率を推論した結果を第2の推論結果とするとき、第3のルール集合を構成するルールを、第3のルール集合を構成するルールの数量を限定しつつ、第1の推論結果と第2の推論結果との差異を大きくように特定する特定手段と、特定された第3のルール集合を出力する出力手段と、を備える。
 本発明の第一の形態における推論方法は、開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、推論システムが、第1のルール集合を構成するルールから一つのルールを除外したルール集合を第2のルール集合とし、開始状態及び第1のルール集合から終了状態が成り立つ確率を第1の推論結果とし、開始状態及び第2のルール集合から終了状態が成り立つ確率を第2の推論結果とするとき、除外されたルール毎に、第1の推論結果と第2の推論結果との差異の大きさを示す指標である重要度を算出し、除外されたルール毎に、ルールとルールの重要度とを関連付けて出力する。
 本発明の第二の形態における推論方法は、開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、推論システムが、第1のルール集合を構成するルールから第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、開始状態及び第1のルール集合から終了状態が成り立つ確率を第1の推論結果とし、開始状態及び第2のルール集合から終了状態が成り立つ確率を第2の推論結果とするとき、第3のルール集合に対して、第1の推論結果と第2の推論結果との差異の大きさを示す指標である重要度を算出し、除外された第3のルール集合毎に、第3のルール集合と第3のルール集合の重要度とを関連付けて出力する。
 本発明の第三の形態における推論方法は、推論システムが、第1のルール集合を構成するルールから第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、開始状態及び第1のルール集合から終了状態が成り立つ確率を推論した結果を第1の推論結果とし、開始状態及び第2のルール集合から終了状態が成り立つ確率を推論した結果を第2の推論結果とするとき、第2のルール集合を構成するルールを、第2のルール集合を構成するルールの数量を限定しつつ、第1の推論結果と第2の推論結果との差異を小さくするように特定し、特定された第2のルール集合を出力する。
 本発明の第四の形態における推論方法は、推論システムが、開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、第1のルール集合を構成するルールから第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、開始状態及び第1のルール集合から終了状態が成り立つ確率を推論した結果を第1の推論結果とし、開始状態及び第2のルール集合から終了状態が成り立つ確率を推論した結果を第2の推論結果とするとき、第3のルール集合を構成するルールを、第3のルール集合を構成するルールの数量を限定しつつ、第1の推論結果と第2の推論結果との差異を大きくように特定し、特定された第3のルール集合を出力する。
 本発明の第一の形態における記録媒体は、開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、第1のルール集合を構成するルールから一つのルールを除外したルール集合を第2のルール集合とし、開始状態及び第1のルール集合から終了状態が成り立つ確率を第1の推論結果とし、開始状態及び第2のルール集合から終了状態が成り立つ確率を第2の推論結果とするとき、除外されたルール毎に、第1の推論結果と第2の推論結果との差異の大きさを示す指標である重要度を算出する処理と、除外されたルール毎に、ルールとルールの重要度とを関連付けて出力する処理と、をコンピュータに実行させるプログラムを記録する。
 本発明の第二の形態における記録媒体は、開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、第1のルール集合を構成するルールから第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、開始状態及び第1のルール集合から終了状態が成り立つ確率を第1の推論結果とし、開始状態及び第2のルール集合から終了状態が成り立つ確率を第2の推論結果とするとき、第3のルール集合に対して、第1の推論結果と第2の推論結果との差異の大きさを示す指標である重要度を算出する処理と、除外された第3のルール集合毎に、第3のルール集合と第3のルール集合の重要度とを関連付けて出力する処理と、をコンピュータに実行させるプログラムを記録する。
 本発明の第三の形態における記録媒体は、推論システムにおいて、第1のルール集合を構成するルールから第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、開始状態及び第1のルール集合から終了状態が成り立つ確率を推論した結果を第1の推論結果とし、開始状態及び第2のルール集合から終了状態が成り立つ確率を推論した結果を第2の推論結果とするとき、第2のルール集合を構成するルールを、第2のルール集合を構成するルールの数量を限定しつつ、第1の推論結果と第2の推論結果との差異を小さくするように特定する処理と、特定された第2のルール集合を出力する処理と、をコンピュータに実行させるプログラムを記録する。
 本発明の第四の形態における記録媒体は、推論システムにおいて、開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、第1のルール集合を構成するルールから第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、開始状態及び第1のルール集合から終了状態が成り立つ確率を推論した結果を第1の推論結果とし、開始状態及び第2のルール集合から終了状態が成り立つ確率を推論した結果を第2の推論結果とするとき、第3のルール集合を構成するルールを、第3のルール集合を構成するルールの数量を限定しつつ、第1の推論結果と第2の推論結果との差異を大きくように特定する処理と、特定された第3のルール集合を出力する処理と、をコンピュータに実行させるプログラムを記録する。
 本発明に基づけば、推論の根拠をユーザに提示する効果を奏することができる。
図1は、本発明における第1の実施形態に係る推論システムの構成の一例を示すブロック図である。 図2は、第3の実施形態に係る推論システムの構成の一例を示すブロック図である。 図3は、第3の実施形態に係る推論システムの動作の一例を示すフローチャートである。 図4は、第1の実施形態の動作の概要を説明するために用いるルール集合を示す図である。 図5は、図4のルール集合においてルールを除外したルール部分集合の一例を示す図である。 図6は、ルールと重要度とを関連付けた出力の一例を示す図である。 図7は、重みを関連付けた出力の一例を示す図である。 図8は、詳細な動作の説明に用いられるルール集合の一例を示す図である。 図9は、図8に示されているルール集合のグラフの一例を示す図である。 図10は、図9のルール集合において特定されたルール部分集合の一例を示す図である。 図11は、関連発明が出力するルール部分集合の一例を示す図である。 図12は、第1のデータ例のルール集合を示す図である。 図13は、第1のデータ例を基に特定されたルール部分集合を示す図である。 図14は、第2のデータ例のルール集合を示す図である。 図15は、第2のデータ例を基に特定されたルール部分集合を示す図である。 図16は、第3のデータ例のルール集合を示す図である。 図17は、第3のデータ例を基に特定されたルール部分集合を示す図である。 図18は、第4のデータ例のルール集合を示す図である。 図19は、第4のデータ例を基に特定されたルール部分集合を示す図である。 図20は、第5のデータ例のルール集合を示す図である。 図21は、第5のデータ例を基に特定されたルール部分集合を示す図である。 図22は、第6のデータ例のルール集合を示す図である。 図23は、第6のデータ例を基に特定されたルール部分集合を示す図である。 図24は、第7のデータ例のルール集合を示す図である。 図25は、第7のデータ例を基に特定されたルール部分集合を示す図である。 図26は、推論システムのハードウェアの構成の一例である情報処理装置の構成を示すブロック図である。
 次に、本発明の実施形態について図面を参照して説明する。
 なお、各図面は、本発明の実施形態を説明するためのものである。ただし、本発明は、各図面の記載に限られるわけではない。また、各図面の同様の構成には、同じ番号を付し、その繰り返しの説明を、省略する場合がある。また、以下の説明に用いる図面において、本発明の説明に関係しない部分の構成については、記載を省略し、図示しない場合もある。また、図面中の矢印の方向は、一例を示すものであり、ブロック間の信号の向きを限定するものではない。
 まず、本実施形態の説明における用語について整理する。
 「アトム」とは、部分論理式を持たない論理式(原子論理式又は素論理式)である。アトムの例は、命題変数又は述語である。以下の説明では、アトムの例として主として述語を用いる。例えば、アトムの一例は、Xを変数とした場合の、「Xがたばこを吸う」である。なお、アトムは、関数形式を用いて表される場合もある。例えば、上記の「Xがたばこを吸う」は、「Smoke(X)」のように表されてもよい。なお、アトムは、複数の変数を含んでもよい。例えば、この場合のアトムの一例は、「XとYとが友人である」である。なお、関数形式を用いると、例えば、「XとYとが友人である」は、「Friends(X,Y)」となる。
 「グラウンドアトム」は、アトムにおける変数に定数が代入されたアトムである。例えば、上記の「Xはたばこを吸う」の変数Xに特定の人物を代入したアトムが、グラウンドアトムである。より具体的には、例えば、変数Xに人物Aを代入した場合のグラウンドアトムは、「Aはたばこを吸う」である。グラウンドアトムには、真理値(True(1)又はFalse(0))を割り当てることができる。Aがたばこを吸う場合、このグラウンドアトムは、Trueとなる。Aがたばこを吸わない場合、このグラウンドアトムは、Falseとなる。
 「世界」とは、グラウンドアトムの真理値の割当てである。例えば、グラウンドアトムがN個ある場合、グラウンドアトムへの真理値の割当て全体に含まれる要素(各割当て)を「x」とすると、xは、「x∈{0,1}」となる。この各割当てそれぞれを、世界(x)と呼ぶ。つまり、所定数のアトムの変数に定数が代入された結果であるグラウンドアトムにおける真理値の集合が、それぞれ、世界となる。
 「ルール」とは、論理式であり、一般的に上記のアトムを含む論理式である。以下で用いるルールは、述語論理のルールとする。したがって、ルールは、述語を含む場合がある。すなわち、ルールは、命題、述語、定数、変数、及び、論理記号(∀、∃、¬、∧、∨、→、←、又は、⇔)を用いて記述される。本発明における実施形態が用いるルールは、後ほど説明する重みを付与されていなくてもよい。ただし、後ほど説明する詳細な動作の説明において、参考としてMLNを用いるため、以下の説明では、必要に応じて、ルール集合として、重み付きルールで構成されたルール集合を用いる。なお、以下の説明では、説明の便宜のため、一階述語論理のルールを用いて説明する。ただし、本発明は、一階述語論理に限定されない。
 なお、上記の論理記号は、一般的な述語論理に用いられる記号であり、その意味は、次のとおりである。
 「∀(全称記号、全称量化記号、又は、普遍記号と呼ばれる)」は、「任意の~について」又は「全ての~について」を意味する論理記号である。
 「∃(存在記号、特称記号、又は、存在量化記号と呼ばれる)」は、「(条件)を満たす~が存在する」又は「ある~に対して、」を意味する論理記号である。
 「¬」は、否定を表す論理記号である。
 「∧」は、連言又は論理積を表す論理記号である。
 「∨」は、選言又は論理和を表す論理記号である。
 「→」は、含意を表す論理記号である。例えば、「A→B」は、「AならばB」を意味する。「A→B」は、「¬A∨B」と同値である。
 「←」は、「→」の反対の方向の論理を示す論理記号である。例えば、「A←B」は、「BならばA」を意味する。
 「⇔」は、同値を示す論理記号である。「A⇔B」は、「(A→B)∧(A←B)」である。
 「観測」とは、一つ又は複数のグラウンドアトムに真理値が割り当てられることである。つまり、観測は、グラウンドアトムとその真理値との組からなる集合である。そして、観測に含まれるグラウンドアトムは、真理値が割り当てられている。つまり、観測に含まれるグラウンドアトムは、真理値が決定している。「観測する」とは、真理値が割り当てられたグラウンドアトムを取得する動作である。なお、観測の取得元は、特に制限されない。観測は、例えば、ユーザから受け取ってもよく、センサなど図示しない装置又は機器から受け取ってもよい。
 「クエリ」とは、観測とルール集合との下で事後確率を算出される対象となるグラウンドアトム又はグラウンドアトムの論理結合である。つまり、クエリは、要素として、少なくとも一つのグラウンドアトム又はグラウンドアトムの論理結合を含む集合である。また、クエリは、推論システムにおける推論の対象である。なお、推論システムは、直接的又は間接的に、ユーザからクエリを受け取る。
 請求の範囲に記載の「開始状態」は、観測に相当する。また、請求の範囲に記載の「終了状態」は、クエリに相当する。
 「重み」とは、各ルールに設定されている値であり、ルールの成立又は不成立を、連続値として、確率に反映されるために用いられる値である。例えば、MLNの場合を例に用いると次のようになる。ルールが1つの場合、そのルールの重みは、「ルールが成立する確率のオッズ(odds)の対数を取ったもの」として解釈される。ここで、オッズは、「(確率/(1-確率))」である。ただし、一般に、ルールが複数ある場合には、このような単純な解釈は、知られていない。
 単純な解釈はないが、例えば、MLNの場合には、重さは、次のように、ルールの成立又は不成立を世界の確率に反映する。
(1)重みが正のルールが成立すると、成立しない場合より、世界の確率は、高くなる。この場合、絶対値が大きいルールが成立すると、絶対値が小さいルールが成立した場合より、世界の確率は、より高くなる。
(2)重みが負のルールが成立すると、成立しない場合より、世界の確率は、低くなる。この場合、絶対値が大きいルールが成立すると、絶対値が小さいルールが成立した場合より、世界の確率は、より低くなる。
(3)重みが0のルールは、成立しても、不成立でも、世界の確率には、影響しない。
 ただし、これは、世界の確率に対してのものである。クエリの確率に対する影響は、この限りではなく、一般に、上記のような単純には説明できない。なぜなら、クエリの確率の値は、ある世界における確率の和を取った値を、他の世界における確率の和を取った値で、除算して計算されるため、一般に、複雑に関連しているためである。
 なお、「重み」は、既に説明しているように、MLNなど公知との技術において開示されている値である。
 ルール集合の「重要度」とは、そのルール集合が推論の結果に、どの程度寄与するかを示す指標である。ルール集合の「重要度」は、本発明の発明者が、新規に見いだした指標である。
 本発明において、ルール集合の重要度は、以下のように定義される。
 (前提1)観測及びルール集合からクエリが成り立つ事後確率を推論する場合を想定する。
 (前提2)第1のルール集合を構成するルールから、あるルール集合を除外したルール集合を、第2のルール集合とする。
 (前提3)観測及び第1のルール集合からクエリが成り立つ確率を、第1の推論結果とする。
 (前提4)先と同一の観測及び第2のルール集合から先と同一のクエリが成り立つ確率を第2の推論結果とする。
 このとき、除外されたルール集合の重要度は、次のように定義される。
 (定義)除外されたルール集合の重要度は、第1の推論結果と第2の推論結果との差異の大きさに基づいて定義される。
 「重要度」は、一つのルールに対して定義することもできるし、ルール集合に対して定義することもできる。
 このように、本発明における「重要度」は、前述した「重み」とは異なる概念である。
 例えば、第1のルール集合が100個のルールを含むルール集合であるとする。第1のルール集合を構成する100個のルールのうち、ランダムに10個のルールを選択して、その選択したルールを第1のルール集合から除外するとする。その結果として、90個のルールを含む第2のルール集合が定義される。
 ある観測と第1のルール集合との下で推論したあるクエリの確率を第1の推論結果とする。先と同じ観測と第2のルール集合との下で推論した先と同じクエリの確率を第2の推論結果とする。先ほど除外した10個のルール集合の重要度は、第1の推論結果と第2の推論結果との差異の大きさを用いて定義される。
 例えば、ある10個のルール(以下、「第3のルール集合その1」と呼ぶ)が除外された場合には、第1の推論結果と第2の推論結果との差異が、あまり大きくないとする。また、第3のルール集合その1とは異なる他の10個のルール(以下、「第3のルール集合その2」と呼ぶ)が除外された場合には、第1の推論結果と第2の推論結果との差異が、顕著に大きいとする。このとき、第3のルール集合その2の重要度は、第3のルール集合その1の重要度よりも高い。
 上記の重要度の具体例は、第2のルール集合に着目して下記のように言い換えることもできる。
 上記の第1のルール集合からある10個のルール(第3のルール集合その1)を除外した残りのルールを第2のルール集合その1とし、先と同じ観測と第2のルール集合その1との下で推論した先と同じクエリの確率を第2の推論結果その1とする。上記第1のルール集合から他の10個のルール(第3のルール集合その2)を除外した残りのルールを第2のルール集合その2とし、先と同じ観測と第2のルール集合その2の下で推論した先と同じクエリの確率を第2の推論結果その2とする。
 第1の推論結果と第2の推論結果その2との差異が、第1の推論結果と第2の推論結果その1との差異よりも小さい場合、第2のルール集合その2の重要度は、第2のルール集合その1の重要度よりも高い。第2のルール集合その2に基づく推論結果は、第2のルール集合その1に基づく推論結果よりも、第1の推論結果をより正確に再現していると言えるからである。
 なお、以下の説明において、値と閾値との比較として、「以上(equal to or more than)」という文言、又は、「以下(equal to or less than)」という文言を用いることがある。「以上(equal to or more than)」という文言は、「超える(more than)」と読み替えてもよい。また、「以下(equal to or less than)」という文言は、「未満(less than)」と読み替えてもよい。
 [記号の説明]
 以下の説明に用いる記号を説明する。
 Card(S)は、集合Sの元(要素)の個数を示す関数である。
 [[l]]は、論理式lの解釈を表す。今の場合、一階述語論理を用いているため、解釈は、「True」又は「False」のいずれかである。以下、値を用いて解釈を表す場合、True=1、及び、False=0とする。
 Aは、述語である。
 Fは、グラウンドされたルール、つまり、変数の値が決定しているルールである。ルールFを区別する場合は、添え字jを付す。
 Lは、ルールFの全体の集合(以下、ルール集合と呼ぶ)である。ルール集合Lから、一つ又は複数のルールFを除外した残りであるルール集合Lの部分集合を、ルール部分集合L’とする(L’⊆L)。また、除外された一つ又は複数のルールFの集合をルール部分集合L”とする。
 例えば、ルール集合Lが100個のルールFを含むルール集合であるとする。ルール集合Lを構成する100個のルールFのうち、ランダムに10個のルールFを選択して、その選択したルールFをルール集合Lから除外するとする。この場合、残される90個のルールFを含むルール集合が、ルール部分集合L’である。また、除外される10個のルールFの集合が、ルール部分集合L”である。ルール部分集合L”は、除外されることを明確にするため、「除外されるルール部分集合L”」と呼ぶ場合もある。
 なお、例えば、ルール集合Lの元の数(Card(L))を、Nとすると、ルール集合Lは、{F,F,…,F}となる。
 Oは、観測である。観測Oは、グラウンドアトムとその真理値のペアの集合である。以下では、Oは、空ではないとして説明を進める。
 Qは、クエリである。クエリQは、少なくとも一つのグラウンドアトム又はグラウンドアトムの論理結合を含む。
 観測OとクエリQとの具体例を示す。
 例えば、観測Oに含まれる元の数(Card(O))をMとすると、観測Oは、{[[A]]=True,…,[[A]]=True}となる。このように、観測Oを構成する要素は、真理値が定まっている。
 また、例えば、クエリQに含まれる元の数をKとする。すると、クエリQは、{A,A,…,A}となる。
 P(Q|O,L)は、ルール集合Lと観測Oとの下でのクエリQの確率である。以下の説明では、単に、確率P(Q|O,L)と呼ぶ。
 D(L’,O,Q)は、観測Oの下で、ルール部分集合L’を用いた推論におけるクエリQの確率P(Q|O,L’)と、ルール集合Lを用いた推論におけるクエリQの確率P(Q|O,L)との変化量である。D(L’,O,Q)は、数式を用いて表すと、次のようになる。
(L’,O,Q)=P(Q|O,L’)-P(Q|O,L)
 つまり、D(L’,O,Q)は、差異の一例である。そのため、以下では、差異として、D(L’,O,Q)を用いる。なお、差異の値は、正の値、負の値、又は、0となる。ただし、「差異の大きさ」は、差異の値の絶対値の大きさとする。例えば、以下の説明において、「差異D(L’,O,Q)=-0.5」は、「差異D(L’,O,Q)=0.3」より大きいとして説明する。
 wは、ルールに付与された重みである。
 <本発明に関連する発明>
 本発明における第1の実施形態の説明の前に、そのルールが推論の結果にどの程度寄与するかを示す指標として、ルールに設定された「重み」を用いる例を説明する。以下の記載も、本発明の発明者が見いだした知見である。以下、ルールに設定された「重み」をそのルールが推論の結果にどの程度寄与するかを示す指標として用いる発明を、「関連発明」と呼ぶ。
 MLNなどを用いた推論システムは、ルールFに重みwを設定している。そこで、本発明の関連発明として、重みwを基に、推論の根拠を出力する発明について説明する。
 上記のように、MLNなどの推論システムは、ルールFに重みwを付与する。以下の説明において、重みwとルールFのペアを、「重み付きルール」と呼ぶ。また、以下の説明において、特に区別の必要がない場合、重み付きルールを含め、ルールFと呼ぶ。
 なお、MLNなどにおいて、重みwは、実数値、∞、又は、-∞である。ここで、∞は、任意の実数値より大きい値を表す記号である。また、-∞は、任意の実数値より小さい値を表す記号である。
 関連発明は、推論結果を説明する根拠として、選択基準として重みwを用いて、ルール集合Lからルール部分集合L’を抽出する。
 より具体的には、関連発明は、次のように動作する。
 まず、関連発明は、ルール集合Lと、ハイパーパラメタとを取得する。例えば、関連発明は、ユーザが操作する装置から、ルール集合Lとハイパーパラメタとを受信する。ルール集合Lは、上記の重みwを含んでいる。ハイパーパラメタは、後ほど説明する。
 関連発明は、ルールFの重みwを基に、ルールFを選択して、ルール部分集合L’を出力する。
 関連発明における選択手法としては、例えば、次の2つの方法がある。なお、関連発明は、さらに、制約を含んでもよい。制約の一例は、「観測Oを含むルールF及び/又はクエリQを含むルールFは、除外されない」である。
 (第1の選択方法) 第1の方法は、重みwの値が閾値以上のルールFを選択する方法である。この方法の場合、関連発明は、上記のハイパーパラメタとして、重みwの閾値を取得する。言い換えると、第1の選択方法は、重みwの値が閾値未満のルールFを除外する選択方法である。第1の方法における出力は、重みwがハイパーパラメタ以上のルールFからなるルール部分集合L’である。
 (第2の選択方法) 第2の方法は、重みwの値の大きな方から所定の数のルールFを選択する方法である。この方法の場合、関連発明は、ハイパーパラメタとして、ルールFの数を取得する。言い換えると、第2の選択方法は、所定の数のルールFを残すように、重みwに小さい方からルールFを除外する選択方法である。第2の方法における出力は、重みwの大きい方からハイパーパラメタを用いて指定された数のルールFを含むルール部分集合L’である。
 関連発明は、上記のいずれかの方法を用いてルール部分集合L’を出力する。ここで出力として選択されたルール部分集合L’は、重みwが大きいルールFの部分集合である。そのため、出力されたルール部分集合L’は、推論に用いられることに適したルールFである。
 なお、関連発明は、上記の二つの方法を用いてもよい。つまり、関連発明は、上記の重みwの値の閾値(第1閾値)とルールFの数の閾値(第2閾値)とを取得する。そして、開連発明は、停止条件として、「第1閾値未満のルールFを全て削除」及び/又は「ルールFの数が第2閾値ルール以下」を用いて、ルールFを選択してもよい。
 (関連発明が有する課題)
 上記のように、関連発明は、推論の根拠として、ルール部分集合L’を出力できる。
 しかし、実際に根拠を示したい推論は、「観測Oの下でのクエリQの確率P」を求めるための推論である。
 そこで、発明者は、関連発明における、観測Oの下でのクエリQの確率Pを求めるための推論の根拠を提示することにおいて、次のような課題を見いだした。
 第1の課題は、関連発明において、出力として選択されたルール部分集合L’が、「観測Oの下でのクエリQの確率P」に対する影響度が考慮されていない点である。
 その理由は、次のとおりである。関連発明において、選択の基準として用いる重みwは、「観測Oの下でのクエリQの確率P」を推論する動作の前の段階において決定された値である。例えば、重みwは、ルール集合Lが推論システムの入力として用いられる前に、機械学習を用いた重み学習処理の結果、又は、ユーザの定義に基づいて決定されている。つまり、重みwに基づく選択は、推論段階における観測Oに関する情報、及び、クエリQに関する情報を、ルールFの選択に用いていない。このように、関連発明は、「観測Oの下でのクエリQの確率P」に対する影響度を考慮していない。
 第2の課題は、関連発明において、出力として選択されたルール部分集合L’を用いて再推論する場合の確率Pが、元のルール集合Lを用いて推論した場合の確率Pに対して変化する範囲を保証できない点である。
 その理由は、課題1と同様に、関連発明は、推論における観測Oに関する情報及びクエリQに関する情報を、ルールFの選択に用いていないためである。関連発明が選択の基準としている重みwが、推論の前段階に決定される値であるため、関連発明は、推論における観測Oに関する情報及びクエリQに関する情報を考慮していない。そのため、関連発明は、観測Oの下でのクエリQの確率の変化する範囲を保証できない。
 第3の課題は、関連発明が、重みwを持たないルールFを扱う確率的推論システムを用いることができない点である。
 その理由は、関連発明が、ルールFの選択の基準として重みwを用いているためである。
 例えば、非特許文献1は、ルールFに重みwが付与されない。したがって、関連発明は、非特許文献1を用いる推論システムにおけるルールFを選択できない。
 第4の課題は、関連発明は、ルール集合を取り扱うことができない点である。
 その理由は、関連発明が扱う重みwが、ルールF毎に設定されているからである。
 そこで、発明者は、以下に説明するように、上記の課題を解決する情報処理システムを見いだした。
 <第1の実施形態>
 以下、図面を参照して、本発明における第1の実施形態に係る推論システム100について説明する。
 推論システム100は、観測O及びルール集合Lの下で、クエリQが成り立つ確率Pを推論する。そして、推論システム100は、推論の根拠を出力する。推論の根拠の一例が、ルール集合Lからルール部分集合L’を作成するときに除外されたルールFである。つまり、推論システム100の一例は、「推論の根拠」として、ルール集合Lと観測Oとの下でのクエリQの確率Pを算出するルール部分集合L’を作成する際に除外されたルールFを出力する。
 まず、推論システム100の動作の概要について、図面を参照して説明する。
 図4は、第1の実施形態の動作の概要を説明するために用いるルール集合Lを示す図である。図4に示されているグラフは、例えば、次のような手法を適用して作成されたグラフである。
(1)グラウンドアトムをノードとする。
(2)グラウンドアトムのペアに対して、その2つのグラウンドアトムが同一のルールに現れるときに限り、その2つのグラウンドアトム間にエッジを引く。
 なお、この手法は、MLNなどで用いられている手法である。また、図4は、無向グラフである。つまり、図4において、各ルールFにおける推論の方向は、必ずしも、左から右に限定されない。
 図4において、「Cancer(X)」は、「Xが癌になる」ことを示す。「Smoke(X)」は、「Xがたばこを吸う」ことを示す。「Family(X,Y)」は、「XとYとが家族である」ことを示す。「Friends(X,Y)」は、「XとYとが友人である」ことを示す。
 そして、観測Oは、「Aが癌になる」がTrueとする。クエリQは、「Bが癌になる」とする。
 つまり、図4は、「Aが癌になる」がTrueである観測Oの下で、クエリQである「Bが癌になる」の確率Pを求める場合に、推論の根拠全体の一例であるルール集合Lを示す。
 図4に示されているルール集合Lに含まれるルールFは、次のとおりである。
=Aがたばこを吸う。 → Aが癌になる。
=Aがたばこを吸う。 ∧ AとBとが友人である。 → Bがたばこを吸う。
=Aがたばこを吸う。 ∧ AとBとが家族である。 → Bがたばこを吸う。
=Bがたばこを吸う。 → Bは、癌になる。
 まず、推論システム100は、ルール集合Lと観測Oとの下で、クエリQの確率を算出する。この時の確率を、第1の推論結果とする。
 そして、推論システム100は、いずれかのルールFを除外した場合のルール部分集合L’と観測Oとの下で、クエリQの確率を算出する。
 例えば、推論システム100は、ルールFを除外したとする。
 図5は、図4のルール集合においてルールFを除外した場合のルール部分集合L’の一例を示す図である。図5に示されているルール部分集合L’は、次のようなルールFで構成されている。
=Aがたばこを吸う。 → Aが癌になる。
=Aがたばこを吸う。 ∧ AとBとが友人である。 → Bがたばこを吸う。
=Bがたばこを吸う。 → Bは、癌になる。
 推論システム100は、観測Oとルール部分集合L’との下で、クエリQの確率を算出する。この時の確率を第2の推論結果とする。
 そして、推論システム100は、除外したルールFの重要度として、第1の推論結果と第2の推論結果との差異を算出する。
 そして、推論システム100は、除外したルールFと、ルールFの重要度とを関連付けて出力する。
 その結果、ユーザは、重要度が高いルールFを特定できる。
 例えば、ルールFの重要度が、ルールFの重要度より高い場合、ユーザは、ルール部分集合L’{F,F,F}が、ルール部分集合L’{F,F,F}より根拠として適切なことが分かる。
 次に、第1の実施形態に係る推論システム100の構成について、図面を参照して説明する。
 図1は、本発明における第1の実施形態に係る推論システム100の構成の一例を示すブロック図である。
 推論システム100は、開始状態及びルール集合Lから終了状態が成り立つ確率を推論する。
 そのため、推論システム100は、算出部110と、出力部120とを備える。
 算出部110は、第1のルール集合を構成するルールから一つのルールを除外したルール集合を第2のルール集合とする。そして、算出部110は、第1の推論結果として、開始状態及び第1のルール集合から終了状態が成り立つ確率を算出する。さらに、算出部110は、第2の推論結果として、先と同一の開始状態及び第2のルール集合から先と同一の終了状態が成り立つ確率を算出する。そして、算出部110は、除外されたルール毎に、第1の推論結果と第2の推論結果との差異の大きさを示す指標である重要度を算出する。
 出力部120は、除外されたルール毎に、ルールと、ルールの重要度とを関連付けて出力する。
 なお、出力部120は、重要度が高いルールを、重要度が低いルールよりも優先して出力してもよい。
 上記の説明において、開始状態が、観測Oである。第1のルール集合が、ルール集合Lである。終了状態が、クエリQである。第1の推論結果が、観測Oとルール集合Lとの下でのクエリQの確率P(Q|O,L)である。第2のルール集合が、ルール部分集合L’である。つまり、第2の推論結果は、観測Oとルール部分集合L’との下でのクエリQの確率P(Q|O,L’)である。そして、差異の一例は、D(L’,O,Q)である。
 すなわち、算出部110は、第1の推論結果として、観測O及びルール集合Lとの下で、クエリQが成り立つ確率P(Q|O,L)を算出する。さらに、算出部110は、第2のルール集合として、ルール集合Lから一つのルールを除外したルール部分集合L’を作成する。そして、算出部110は、第2の推論結果として、観測O及びルール部分集合L’の下で、クエリQが成り立つ確率P(Q|O,L’)を算出する。そして、算出部110は、重要度として、D(L’,O,Q)を算出する。
 そして、出力部120は、除外されたルールFと、そのルールFの重要度を関連付けて出力する。
 図6は、ルールFとその重要度とを関連付けた出力の一例を示す図である。図6は、重要度の大きい順に、ルールFを並べた場合を示している。なお、図6は、観測Oを含むルールFとクエリQを含むルールFとを省略している。
 なお、出力部120が出力する出力先は、特に制限されない。出力部120は、図示しない、ユーザが操作する装置に、ルールFと重要度とを送信してもよい。あるいは、出力部120は、図示しない表示機器を含み、その表示機器にルールFと重要度とを表示させてもよい。
 推論システム100は、ルール部分集合L’を新たなルール集合Lとして、同様の動作を繰り返してもよい。
 なお、推論システム100の情報の取得元は、特に制限されない。例えば、算出部110は、図示しない外部の装置から、観測O、クエリQ、及び、ルール集合Lを取得してもよい。あるいは、算出部110は、図示しない記憶装置に予め保持されている観測O、クエリQ、及び、ルール集合Lを用いて動作してもよい。
 上記の説明において、算出部110が、重要度を算出する際に、推論を実行するとして説明した。ここでの推論は、クエリQにおける確率Pを算出することである。ただし、推論を実行する構成は、算出部110に限定されない。例えば、図示しない推論エンジン(例えば、MLNと同様の推論エンジン)が、上記の確率Pを算出してもよい。この場合、算出部110は、「ルール集合L、ルール部分集合L’、観測O、及び、クエリQ」をその推論エンジンに送信し、その推論エンジンから推論の結果(確率P)を取得してもよい。
 このように構成された推論システム100は、推論の根拠をユーザに提示する効果を奏することができる。
 その理由は、次のとおりである。
 算出部110は、そのルールFを除外した場合にクエリQの確率Pの差異を算出する。つまり、算出部110は、ルールFの重要度を算出する。そして、出力部120は、ルールFと算出されたルールFの重要度とを関連付けて出力する。このような動作を基に、推論システム100は、ユーザに、クエリQの確率Pに影響の程度が高いルールF(重要度が高いルールF)を提示できるためである。
 さらに、推論システム100は、関連発明の課題を解決するとの効果を奏する。
 その理由は、次のとおりである。
 算出部110は、ルールFの重要度として、そのルールFを除外したルール部分集合L’及び観測Oの下でのクエリQの確率Pと、ルール集合L及び観測Oの下でのクエリQの確率Pとの差異を算出する。つまり、算出されたルールFの重要度は、そのルールFが観測Oの下でのクエリQの確率Pに影響を与える程度を示す値である。つまり、算出部110は、重要度として、「観測Oの下でのクエリQの確率P」に対する影響の程度を算出している。そして、出力部120は、ルールFと重要度とを関連付けて出力する。そのため、推論システム100は、「観測Oの下でのクエリQの確率P」に対する影響の程度(重要度)を考慮している。つまり、推論システム100は、関連発明の第1の課題を解決している。
 また、算出部110は、重要度として、ルール集合Lとルール部分集合L’とにおける確率Pの差異を算出している。そして、出力部120は、ルールFとその重要度とを関連付けて出力する。そのため、推論システム100は、重要度を基に、ルール集合Lを用いて推論した場合の確率Pに対して変化する範囲を保証できる。つまり、推論システム100は、関連発明の第2の課題を解決している。
 さらに、算出部110は、ルールFの重要度の算出において、重みwを用いていない。そのため、算出部110は、重み付きではない確率的推論システムに対応できる。つまり、推論システム100は、関連発明の第3の課題を解決している。
 (変形例1)
 推論システム100の算出部110は、ルール集合Lに重みwが含まれる場合、ルールFの特定において、差異に加え、重みwを関連付けて出力してもよい。
 図7は、重みを関連付けた出力の一例を示す図である。図7は、重要度の大きい順に、ルールFを並べた場合を示している。なお、図7は、観測Oを含むルールFとクエリQを含むルールFとを省略している。
 ただし、推論システム100は、別の項目を基にルールFを並べてもよい。例えば、推論システム100は、重みが大きいルールFから、ルールFを並べてもよい。この場合、ユーザは、重みが大きいが、重要度が高くないルールFなど、推論における異なる知見を取得できる。
 このように、出力部120は、ルールFと、ルールFの重要度と、ルールFに対して予め算出された重みの値と、を関連付けて出力してもよい。
 (変形例2)
 推論システム100は、制約を用いてもよい。例えば、推論システム100は、「観測Oを含むルールF及び/又はクエリQを含むルールFを除外しない」との制約を用いてもよい。あるいは、推論システム100は、ユーザから除外しないルールFの指示を受信してもよい。あるいは、推論システム100は、観測O又はクエリQから所定の範囲のルールFを除外しないようにしてもよい。あるいは、推論システム100は、観測Oが時間情報を含む場合、時間を用いて除外可能な観測Oの範囲を設定してもよい。
 (変形例3)
 ここまでの説明において、差異D(L’,O,Q)は、ルール集合Lとルール部分集合L’との確率Pの差として説明した。しかし、差異D(L’,O,Q)は、このような確率Pの差に限定されない。例えば、算出部110は、差異D(L’,O,Q)の差分を用いてもよい。ここで、差分とは、確率Pにおける、ルール部分集合L’に含まれるルールFに対応する差分である。例えば、差分は、確率Pの、ルールFがルール部分集合L’に入っているか否かにおける差分である。この場合の差分の一例を以下に示す。
 算出部110は、差異D(L’,O,Q)の代わりとして、数式1に示す差分(DL’(L’\F,O,Q))を用いてもよい。数式1の「\」は、ルールの除外を示す。つまり、「ルール分集合L’\F」は、ルール部分集合L’から、さらにルールFを除外することを示す。そして、差分DL’(L’\F,O,Q)は、差異D(L’,O,Q)と、差異D(L’\F,O,Q)との差を示す。つまり、数1は、差分(DL’(L’\F,O,Q))が、ルール分集合L’からルールFを除外した場合の差異Dの変化量であることを示す。算出部110は、差異D(L’,O,Q)に代えて、差分DL’(L’\F,O,Q)を用いてもよい。
Figure JPOXMLDOC01-appb-M000001
 <第2の実施形態>
 第1の実施形態に係る推論システム100は、一度に、一つのルールFを除外した。
 しかし、推論システム100は、一度に、複数のルールF、つまりルール集合を除外してもよい。
 そこで、第2の実施形態として、ルール集合Lから複数のルールF、つまりルール集合を除外する推論システム100を説明する。
 第2の実施形態に係る推論システム100は、第1の実施形態に比較して、ルール集合を除外する点を除き、同様のため、適宜、構成の詳細な説明を省略する。また、動作についても、第1の実施形態の同様の説明を省略し、本実施形態に特有の動作を説明する。
 第2の実施形態の推論システム100は、開始状態及びルール集合から終了状態が成り立つ確率を推論する。
 そして、推論システム100は、算出部110と、出力部120とを備える。
 第2の実施形態に係る算出部110は、第1のルール集合を構成するルールから第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とする。そして、算出部110は、先と同一の開始状態及び第1のルール集合から先と同一の終了状態が成り立つ確率を第1の推論結果とする。そして、算出部110は、先と同一の開始状態及び第2のルール集合から先と同一の終了状態が成り立つ確率を第2の推論結果とする。そして、算出部110は、第3のルール集合に対して、第1の推論結果と第2の推論結果との差異の大きさを示す指標である重要度を算出する。
 出力部120は、除外された第3のルール集合毎に、第3のルール集合と第3のルール集合の重要度とを関連付けて出力する。
 第2の実施形態に係る推論システム100は、上記の動作を繰り返してもよい。
 また、第2の実施形態に係る推論システム100は、第1の実施形態における変形例1ないし3を用いてもよい。
 このように、第2の実施形態の係る推論システム100は、第1の実施形態の効果に加え、複数のルールFの集合の重要度を算出することができるとの効果を奏する。
 その理由は、第2の実施形態の算出部110が、複数のルールFを含むルール集合に対して重要度を算出するためである。つまり、第2の実施形態に係る推論システム100は、複数のルールFに対する重要度を算出できる。つまり、第2の実施形態に係る推論システム100は、関連発明の第4の課題を解決している。
 <第3の実施形態>
 次に、本発明における第3の実施形態について説明する。
 図2は、第3の実施形態に係る推論システム101の構成の一例を示すブロック図である。推論システム101は、特定部130と、出力部140とを備える。
 特定部130は、第1のルール集合を構成するルールから、第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とする。そして、特定部130は、開始状態及び第1のルール集合から終了状態が成り立つ確率を推論した結果を第1の推論結果とする。そして、特定部130は、先と同一の開始状態及び第2のルール集合から先と同一の終了状態が成り立つ確率を推論した結果を第2の推論結果とする。そして、特定部130は、第2のルール集合を構成するルールを、第2のルール集合を構成するルールの数量を限定しつつ、第1の推論結果と第2の推論結果との差異を小さくするように特定する。
 出力部140は、特定された第2のルール集合を出力する。
 特定部130は、上記の動作において、第1の実施形態又は第2の実施形態の算出部110に相当する機能を実現する構成を用いる。つまり、特定部130は、ルール又はルール集合と、その重要度とを用いる。そのため、特定部130は、算出部110に加え、出力部120に相当する構成を用いてもよい。
 推論システム101の動作について、最適化問題を用いて詳細に説明する。
 以下の説明において、第1のルール集合は、ルール集合Lである。すなわち、ルール集合Lは、元のルール集合である。第2のルール集合は、ルール部分集合L’である。すなわち、ルール部分集合L’は、元のルール集合からあるルール集合が除外された残りのルール集合である。第3のルール集合は、ルール部分集合L”である。すなわち、ルール部分集合L”は、除外の対象であるルール集合である。開始状態は、観測Oである。終了状態は、クエリQである。第1の推論結果は、P(Q|O,L)である。第2の推論結果は、P(Q|O,L’)である。差異は、D(L’,O,Q)である。
 そして、特定部130は、ルール集合Lと、観測Oと、クエリQと、ハイパーパラメタεとを用いる。ハイパーパラメタεは、制約における差異の範囲を示すパラメータである。つまり、ハイパーパラメタεは、差異における閾値である。
 そして、特定部130は、次に示す最適化問題1の解として、ルール部分集合L’を特定する。
 [最適化問題1]
 ・入力:観測O、クエリQ、ルール集合L、及び、ハイパーパラメタε
 ・最適化問題:
  minimize Card(L’)
  subject to |D(L’,O,Q)|≦ε
 ・出力:ルール部分集合L’
 つまり、特定部130は、次に制約において、ルールFの数が最も少ないルール部分集合L’を特定する。制約は、ルール部分集合L’と観測Oとの下でのクエリQの確率Pと、ルール集合Lと観測Oとの下でのクエリQの確率Pとの差異の絶対値がハイパーパラメタε以下となることである。つまり、特定部130は、差異D(L’,O,Q)がハイパーパラメタε以下となるルール部分集合L’の中で、ルールFの数(Card(L’))が最も少ないルール部分集合L’を特定する。あるいは、特定部130は、上記ルール部分集合L’を構成するルールFを特定する。
 なお、上記の最適化問題1は、除外されるルール部分集合L”を用いて、定義することもできる。その場合、最適化問題1は、次のようになる。
 [最適化問題1の別形式]
 ・入力:観測O、クエリQ、ルール集合L、及び、ハイパーパラメタε
 ・最適化問題:
  minimize Card(L”)
  subject to |D(L’,O,Q)|≧ε
 ・出力:ルール部分集合L”
 この場合の特定部130及び出力部140は、次のとおりである。
 特定部130は、第1のルール集合を構成するルールから、第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とする。そして、特定部130は、開始状態及び第1のルール集合から終了状態が成り立つ確率を推論した結果を第1の推論結果とする。そして、特定部130は、先と同一の開始状態及び第2のルール集合から先と同一の終了状態が成り立つ確率を推論した結果を第2の推論結果とする。そして、特定部130は、第3のルール集合を構成するルールを、第3のルール集合を構成するルールの数量を限定しつつ、第1の推論結果と第2の推論結果との差異を大きくするように特定する。
 出力部140は、特定された第3のルール集合を出力する。
 [効果の説明]
 第3の実施形態の効果について説明する。
 第3の実施形態は、推論の根拠をユーザに提示する効果に加え、ルールFの数がより少ないルール部分集合L’を特定できるとの効果を奏する。
 その理由は、第3実施形態に係る特定部130が、差異D(L’,O,Q)の値がハイパーパラメタε以下に納まるという制約の下で、ルール部分集合L’のルールFの数を最小にするルール部分集合L’を特定するためである。つまり、特定部130は、観測Oの下で、クエリQの確率P(Q|O,L’)に対する影響度の大きいルールFを取り出せる。
 また、第3の実施形態に係る特定部130は、差異D(L’,O,Q)の値がハイパーパラメタε以下に納まるという制約の下で、ルール部分集合L’を特定する。そのため、第3の実施形態において特定されたルール部分集合L’におけるクエリQの確率P(Q|O,L’)は、ルール集合Lを用いた場合のクエリQの確率P(Q|O,L)から、たかだがハイパーパラメタεまでしか乖離しない。つまり、第3の実施形態は、クエリQの確率Pの変動を抑えたルール部分集合L’を出力できる。
 <第4の実施形態>
 [構成の説明]
 次に、本発明における第4の実施形態について説明する。第4の実施形態の構成及び動作は、以下に示す最適化問題を除き、第3の実施形態と同様の構成を備え、同様の動作を実行する。そこで、本実施形態に特有の動作を説明し、第3の実施形態の同様の説明は、適宜、省略する。
 第4の実施形態に係る特定部130は、ハイパーパラメタεに変えて、ハイパーパラメタCを用いる。ハイパーパラメタCは、制約においてルールFの数の範囲を示すパラメータである。つまり、ハイパーパラメタCは、ルールFの数における閾値である。
 そして、特定部130は、次に示す最適化問題2の解として、ルール部分集合L’を特定する。
 [最適化問題2]
 ・入力:観測O、クエリQ、ルール集合L、及び、ハイパーパラメタC
 ・最適化問題:
  minimize D(L’,O,Q)
  subject to Card(L’)≦C
 ・出力:ルール部分集合L’
 つまり、特定部130は、次に制約において、差異が最も小さくなるルール部分集合L’を特定する。制約は、ルール部分集合L’のルールFの数(Card(L’))が、ハイパーパラメタC以下となることである。つまり、特定部130は、ルールFの数(Card(L’))がハイパーパラメタC以下となるルール部分集合L’の中で、差異D(L’,O,Q)が最も小さくなるルール部分集合L’を特定する。あるいは、特定部130は、上記ルール部分集合L’を構成するルールFを特定する。
 なお、上記の最適化問題2は、除外されるルール部分集合L”を用いて、定義することもできる。その場合、最適化問題2は、次のようになる。
 [最適化問題2の別形式]
 ・入力:観測O、クエリQ、ルール集合L、及び、ハイパーパラメタC
 ・最適化問題:
  maximize D(L’,O,Q)
  subject to Card(L”)≦C
 ・出力:ルール部分集合L”
 なお、この場合の特定部130及び出力部140も、第3の実施形態と同様である。
 [効果の説明]
 第4の実施形態の効果について説明する。
 第4の実施形態は、推論の根拠をユーザに提示する効果に加え、ルールFの数がより少ないルール部分集合L’を特定できるとの効果を奏する。
 その理由は、第4の実施形態に係る特定部130が、ルール部分集合L’の要素(ルールF)の数(Card(L’))がハイパーパラメタC以下に納まるという制約の下で、差異D(L’,O,Q)の値を最小とするルール部分集合L’を特定するためである。つまり、特定部130は、観測Oの下で、クエリQの確率P(Q|O,L’)に対する影響度の大きいルールFを取り出せる。
 また、第4の実施形態に係る特定部130は、ルール部分集合L’の要素の個数(Card(L’))の値がハイパーパラメタC以下に納まるという制約の下で、差異D(L’,O,Q)の値を最小にするルール部分集合L’を特定する。そのため、第4の実施形態において特定されたルール部分集合L’におけるクエリQの確率P(Q|O,L’)は、制約の下で、ルール集合Lを用いて推論した場合のクエリQの確率P(Q|O,L)からの乖離が最も小さいルール部分集合L’となる。このように、第4の実施形態に係る特定部130は、ルール部分集合L’におけるクエリQの確率P(Q|O,L’)が、ルール集合Lを用いて推論した場合のクエリQの確率P(Q|O,L)から大きく乖離がしないことを保証する。
 <詳細な動作例>
 次に、図面を参照して、本発明における実施形態に係る詳細動作の一例を説明する。以下の説明は、第3の実施形態を用いて説明する。ただし、本動作例は、第3の実施形態に限定されない。
 本動作例の説明において、推論システム101は、貪欲法を用いて最適化問題1を解くとする。つまり、以下の説明において、特定部130は、ルール集合Lから、ルールFを一つずつ除外していき、制約を満たす限りにおいて最小のルールFの数(Card(L’))となるルール部分集合L’を、最適解とする。
 なお、これは、特定部130が用いる方法を、貪欲法に限定するものではない。例えば、特定部130は、複数のルールFを減らす動作を繰り返してもよい。あるいは、特定部130は、一回の動作で、制約の下でルールFの数が最小となるように、複数のルールFを、全て同時に除外してもよい。
 以下の説明において、ルール部分集合L’は、複数となる。そこで、ルール部分集合L’に添え字i(i=1,…,n、n=自然数)を付して区別する。ルール集合Lから一つのルールFを除外したルール部分集合L’を、Lとする。ルール部分集合Lから一つのルールFを除外したルール部分集合L’を、Lとする。なお、ルール集合Lは、Lとする。
 あるルール部分集合LからルールFを除外したルール部分集合Li+1とした場合、この関係は、次のように表すとする。
 Li+1=L\{F
 さらに、ルール部分集合LにおけるクエリQの確率P(Q|O,L)と、ルール部分集合Li+1におけるクエリQの確率P(Q|O,Li+1)との差異「DLi(Li+1,O,Q)」を次のように定義する。
Li(Li+1,O,Q):=P(Q|O,Li+1)-P(Q|O,L)=P(Q|O,L\{F})-P(Q|O,L
 特定部130が、ルール部分集合L’として、ルールFをn回除外した場合、ルール集合Lと最終的なルール部分集合L’との関係は、次のとおりである。
 L=L⊇L⊇,…,⊇L=L’
 このとき、最適化問題1における制約条件に含まれる差異D(L’,O,Q)は、次の数2となる。
Figure JPOXMLDOC01-appb-M000002
 図面を参照して、具体的な動作を説明する。
 図3は、第3の実施形態に係る推論システム101の動作の一例を示すフローチャートである。
 特定部130は、情報(ルール集合L、観測O、クエリQ、及び、ハイパーパラメタε)を取得する(ステップS201)。
 特定部130は、次の動作の前に、動作に用いる変数などのデータを初期化する動作を実行してもよい。例えば、特定部130は、以下の動作において、ルール集合LからルールFを除外していく。そのため、特定部130は、例えば、ルール部分集合L’として用いる変数(以下、Lとする)の初期値として、ルール集合Lを設定する。この動作は、例えば、「L←L」と表すことができる。
 あるいは、特定部130は、差異の合計として用いる変数(以下、SDとする)を初期化してもよい。この動作は、例えば、「SD←0」と表すことできる。
 次に、特定部130は、動作が終了したか否かを判定する(ステップS202)。具体的な終了の条件は、いずれのルールFを除外しても、差異の合計がハイパーパラメタε以下とならないことである。
 終了条件は、変数を用いて表すと、次のとおりである。
終了条件:|D(L\{F},O,Q)+SD|>ε(F∈L
 終了でない場合(ステップS202でNo)、特定部130は、除外された場合に差異の合計が最も小さくなるルールFを特定する(ステップS203)。この場合の差異の合計は、「|D(L\{F},O,Q)+SD|」である。なお、特定部130は、差異の合計に加え、差異(D(L\{F},O,Q))の大きさを判断基準に加えてもよい。
 次に、特定部130は、差異の合計を更新する(ステップS204)。例えば、特定部130は、「SD←D(L\{F},O,Q)+SD」を実行する。
 そして、特定部130は、ルール部分集合LからステップS203で特定したルールFを除外し、新たなルール部分集合Lとする。つまり、特定部130は、特定したルールFを除外して、ルール部分集合Lを更新する(ステップS205)。例えば、特定部130は、「L←L\{F}」を実行する。
 そして、特定部130は、ステップS202に戻り、終了か否かを判定する。特定部130は、終了条件が成立するまで、上記動作を繰り返す。
 動作が終了の場合(ステップS202でYes)、特定部130は、その時点におけるルール部分集合Lを最終的なルール部分集合L’とし(L’←L)、最終的なルール部分集合L’を出力部140に送信する。
 ここで出力されたルール部分集合L’が、特定部130に特定されたルール部分集合L’である。また、ルール部分集合L’を構成するルールFが、特定されたルールFである。
 出力部140は、特定部130から受信したルール部分集合L’、つまり、特定部130が特定したルールFの集合を出力する(ステップS206)。
 (データを用いた説明)
 次に、詳細な動作について、具体的なデータを用いて説明する。
 図8は、以下の詳細な動作の説明の用いられるルール集合Lの一例を示す図である。図8に示されているように、ルール集合Lは、次に示す4つのルールF(ルールF、ルールF、ルールF、及び、ルールF)を含む。
=走る(Run) → 脂肪を燃焼する(Burn fat)。
=脂肪を燃焼する(Burn fat) → 痩せる(Slim)。
=脂肪を燃焼する(Burn fat) → 空腹になる(Starve)。
=痩せる(Slim) → 健康になる(Get healthy)。
 観測Oは、「走る」である。つまり、ルールFが、観測Oを含むルールFである。また、クエリQは、「健康になる」である。つまり、ルールFが、クエリQを含むルールFである。なお、以下の説明に用いる確率PとしてMLNにおける確率Pを用いるため、各ルールFには、重みwが、付与されている。
 図9は、図8に示されているルール集合Lのグラフの一例を示す図である。なお、図9は、MLNと同様のグラフの構成を用いている。すなわち、図9は、図4と同様に、各述語をノードとし、同じルールFに現れる述語同士をエッジで結ぶことを用いてルール集合Lをグラフ化している。
 なお、以下の説明において、制約は、「観測Oを含むルールF及びクエリQを含むルールFは、除外対象としない」とする。つまり、ルールF及びルールFは、除外対象から外されている。ハイパーパラメタεは、「0.30000」とする。
 まず、特定部130は、上記データを取得する(ステップS201)。さらに、特定部130は、変数を初期化(ルール部分集合L←ルール集合L、SD←0)する。
 なお、以下の説明の参考として、ルール集合Lと観測Oとの下におけるクエリQの確率Pを次に示す。
 P(Q|O,{F,F,F,F})=0.99995
 特定部130は、観測Oを含むルールF及びクエリQを含むルールFを除外しないため、特定部130は、ルールF及びルールFを除外した場合のクエリQの確率Pを算出する。それぞれの確率Pは、次のとおりである。
P(Q|O,{F,F,F})=0.99995
P(Q|O,{F,F,F})=0.64799
 ルールFを除外した場合の確率Pと元の確率Pとの差異は、「0.35196」である。この値は、ハイパーパラメタεより大きい。しかし、ルールFを除外した場合の確率Pと元の確率Pとの差異は、「0.00000」である。この値は、ハイパーパラメタεより小さい。そして、今の場合、SDの値は、0である。つまり、終了条件|D(L\{F},O,Q)+SD|は、0であり、ハイパーパラメタεより小さい。そのため、特定部130は、終了でないと判定する(ステップS202でNo)。
 特定部130は、除外したときの確率Pの差異が小さいルールFを特定する(ステップS203)。
 なお、ルールFを除外した場合の確率Pは、ルールFを除外した場合に確率Pより低い。つまり、ルールFを除外した場合の確率Pの変化量は、ルールFを除外した場合の確率Pの変化量より大きい。このことより、ルールFは、ルールFより重要度が高いルールFである。つまり、特定部130は、重要度が低いルールFを特定している。
 特定部130は、差異の合計(SD)を更新する(ステップS204)。具体的には、特定部130は、「SD←SD+0.00000=0.00000」を実行する。
 そして、特定部130は、ルール部分集合Lを更新する(ステップS205)。更新後のルール部分集合Lは、{F,F,F}である。
 次に、特定部130は、終了か否かを判定する(ステップS202)
 つまり、特定部130は、さらにルールFを除外した場合のクエリQの確率Pを算出する。この場合の確率Pは、次のとおりである。
P(Q|O,{F,F})=0.64799
 この場合の確率Pの差異の合計(SD)は、「0.35196」となる。この差異は、ハイパーパラメタε(0.30000)より大きい。そのため、特定部130は、終了であると判定する(ステップS202でYes)。
 特定部130は、最終的なルール部分集合L’として、今のルール部分集合L{F,F,F}を特定する。つまり、特定部130は、ルールF、ルールF、及び、ルールFを特定する。
 そして、出力部140は、特定されたルール部分集合L’({F,F,F})を出力する(ステップS206)。
 図10は、図9のルール集合Lにおいて特定されたルール部分集合L’の一例を示す図である。
 以下、参考として、図8及び図9に示されているルール集合Lに、MLNを用いた関連発明を適用した場合について説明する。関連発明は、重みwを用いる。しかし、ルールFとルールFは、重みwが同じである。そのため、関連発明は、ルールF、又は、ルールFのどちらを除外するか判定できない。そのため、関連発明は、元のルール集合L({F,F,F,F})、又は、ルールF及びFを除外したルール部分集合L’({F,F})を出力することとなる。
 図11は、関連発明が出力するルール部分集合L’({F,F})の一例を示す図である。なお、ルール集合L({F,F,F,F})は、図9に示されている。
 しかし、ルール集合Lを出力する場合、出力結果は、ルールFを含む冗長なルールの集合となっている。また、図11に示されているルール部分集合L’({F,F})は、上記のように、ルール集合Lに対して、確率Pが大きく異なっている。
 このように、MLNを用いた関連発明は、適切なルール部分集合L’を出力できない。
 (その他のデータ例)
 さらに、上記とは異なるデータにおける動作結果を説明する。以下の説明において、ルール集合Lと、特定部130における特定の結果としてのルール部分集合L’を示す。
 図12は、第1のデータ例のルール集合Lを示す図である。観測Oは、述語Aである。クエリQは、述語Aである。ルール集合Lを構成するルールFは、次のとおりである。
:A→A(重み:10)
:A→A(重み:10)
:A→A(重み:10)
:A→A(重み:10)
この場合の確率P(Q|O,L)は、0.99995である。
 図13は、図12に示された第1のデータ例を基に特定されたルール部分集合L’を示す図である。ルール部分集合L’における確率P(Q|O,L’)は、0.99995である。なお、さらに、ルールFを除外した場合における確率P(Q|O,L’)は、0.64799となる。なお、ルール集合LからルールFを除外した場合、つまり、ルール部分集合L’を{F,F,F}とした場合における確率P(Q|O,L’)は、0.37801となる。
 このように、推論システム101は、クエリQの確率Pに影響がないルールF(重要度の低いルールF)を除外し、重要度が高いルールFを特定できる。
 図14は、第2のデータ例のルール集合Lを示す図である。観測Oは、述語Aである。クエリQは、述語Aである。ルール集合LのルールFは、図12と同じである。この場合の確率P(Q|O,L)は、0.75498である。
 図15は、図14に示された第2のデータ例を基に特定されたルール部分集合L’を示す図である。ルール部分集合L’における確率P(Q|O,L’)は、0.75498である。なお、ルールFを除外した場合、つまり、ルール部分集合L’を{F,F,F}とした場合における確率P(Q|O,L’)は、0.64799となる。
 このように、推論システム101は、観測Oを含むルールFでも、クエリQの確率Pに対して影響が弱いルールFを除外し、重要度が高いルールFを特定できる。
 図16は、第3のデータ例のルール集合Lを示す図である。観測Oは、述語A及び述語Aである。クエリQは、述語Aである。ルール集合LのルールFは、図12と同じである。この場合の確率P(Q|O,L)は、0.99995である。
 図17は、図16に示された第3のデータ例を基に特定されたルール部分集合L’を示す図である。ルール部分集合L’における確率P(Q|O,L’)は、0.99995である。なお、ルールFを除外した場合、つまり、ルール部分集合L’を{F,F,F}とした場合における確率P(Q|O,L’)は、0.64799となる。
 このように、推論システム101は、観測Oを含むルールFが複数ある場合でも、クエリQの確率Pに対して影響が弱いルールFを除外し、重要度が高いルールFを特定できる。
 図18は、第4のデータ例のルール集合Lを示す図である。観測Oは、述語Aである。クエリQは、述語Aである。ルール集合LのルールFは、次のとおりである。
:A→A(重み:10)
:A→A(重み:10)
:A→A(重み:10)
この場合の確率P(Q|O,L)は、0.99995である。
 図19は、図18に示された第4のデータ例を基に特定されたルール部分集合L’を示す図である。ルール部分集合L’における確率P(Q|O,L’)は、0.99995である。なお、ルールFを除外した場合、つまり、ルール部分集合L’を{F,F}とした場合における確率P(Q|O,L’)は、0.64799となる。
 このように、推論システム101は、同様の接続状態のルールFが複数あっても、優先的に観測Oを含むルールFを特定できる。
 図20は、第5のデータ例のルール集合Lを示す図である。観測Oは、述語Aである。クエリQは、述語Aである。ルール集合LのルールFは、次のとおりである。
:A→A(重み:10)
:A→A(重み:10)
:A→A(重み:10)
この場合の確率P(Q|O,L)は、0.99995である。
 図21は、図20に示された第5のデータ例を基に特定されたルール部分集合L’を示す図である。ルール部分集合L’における確率P(Q|O,L’)は、0.99995である。なお、ルールFを除外した場合、つまり、ルール部分集合L’を{F,F}とした場合における確率P(Q|O,L’)は、0.60999となる。
 このように、推論システム101は、クエリQの確率Pに影響がないルールFを除外し、重要度が高いルールFを特定できる。
 図22は、第6のデータ例のルール集合Lを示す図である。観測Oは、述語A及び述語Aである。クエリQは、述語Aである。ルール集合LのルールFは、次のとおりである。
:A→A(重み:100)
:A→A(重み:10)
:A→A(重み:1)
この場合の確率P(Q|O,L)は、0.99995である。
 図23は、図22に示された第6のデータ例を基に特定されたルール部分集合L’を示す図である。ルール部分集合L’における確率P(Q|O,L’)は、0.99995である。なお、ルールFを除外した場合、つまり、ルール部分集合L’を{F,F}とした場合における確率P(Q|O,L’)は、0.82297となる。
 このように、推論システム101は、つながり方が同じ観測Oを含むルールFが複数の場合でも、クエリQの確率Pに影響が弱い観測Oを含むルールFを除外し、重要度が高いルールFを特定できる。
 図24は、第7のデータ例のルール集合Lを示す図である。観測Oは、述語A及び述語Aである。クエリQは、述語Aである。ルール集合LのルールFは、次のとおりである。
:A→A(重み:10)
:A→A(重み:10)
:A→A(重み:10)
この場合の確率P(Q|O,L)は、0.99995である。
 図25は、図24に示された第7のデータ例を基に特定されたルール部分集合L’を示す図である。ルール部分集合L’における確率P(Q|O,L’)は、0.99995である。なお、ルールFを除外した場合、つまり、ルール部分集合L’を{F,F}とした場合における確率P(Q|O,L’)は、0.75300となる。
 このように、推論システム101は、重みwが同じ観測Oを含むルールFが複数の場合でも、クエリQの確率Pに影響が弱い観測Oを含むルールFを除外し、重要度が高いルールFを特定できる。
 <ハードウェア構成>
 推論システム100及び推論システム101のハードウェア構成について説明する。
 以上の説明した推論システム100及び推論システム101は、次のように構成される。
 推論システム100及び推論システム101の各構成要素の一部又は全部は、汎用又は専用の回路(circuitry)、プロセッサ等、又は、これらの組合せを用いて実現される。これらは、単一のチップを用いて構成されてもよいし、バスを介して接続された複数のチップを用いて構成されてもよい。推論システム100及び推論システム101の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せを用いて実現されてもよい。
 推論システム100及び推論システム101の各構成要素の一部又は全部が、複数の情報処理装置又は回路等を用いて実現される場合には、複数の情報処理装置又は回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置又は回路等は、クライアントアンドサーバシステム、又は、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
 また、推論システム100及び推論システム101において、複数の構成部は、1つのハードウェアで構成されてもよい。
 また、推論システム100及び推論システム101は、CPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)とを含むコンピュータ装置として実現されてもよい。推論システム100及び推論システム101は、上記構成に加え、さらに、入出力接続回路(IOC:Input / Output Circuit)と、ネットワークインターフェース回路(NIC:Network Interface Circuit)とを含むコンピュータ装置として実現されてもよい。
 図26は、推論システム100及び推論システム101に係るハードウェアの構成の一例である情報処理装置600の構成を示すブロック図である。
 情報処理装置600は、CPU610と、ROM620と、RAM630と、内部記憶装置640と、IOC650と、NIC680とを含み、コンピュータ装置を構成している。
 CPU610は、ROM620からプログラムを読み込む。そして、CPU610は、読み込んだプログラムに基づいて、RAM630と、内部記憶装置640と、IOC650と、NIC680とを制御する。そして、CPU610を含むコンピュータは、これらの構成を制御し、図1に示される、算出部110と、出力部120としての各機能を実現する。あるいは、CPU610を含むコンピュータは、これらの構成を制御し、図2に示される、特定部130と、出力部140としての各機能を実現する。
 CPU610は、各機能を実現する際に、RAM630又は内部記憶装置640を、プログラムの一時記憶媒体として使用してもよい。
 また、CPU610は、コンピュータで読み取り可能にプログラムを記憶した記憶媒体700が含むプログラムを、図示しない記憶媒体読み取り装置を用いて読み込んでもよい。あるいは、CPU610は、NIC680を介して、図示しない外部の装置からプログラムを受け取り、RAM630に保存して、保存したプログラムを基に動作してもよい。
 ROM620は、CPU610が実行するプログラム及び固定的なデータを記憶する。ROM620は、例えば、P-ROM(Programmable-ROM)又はフラッシュROMである。
 RAM630は、CPU610が実行するプログラム及びデータを一時的に記憶する。RAM630は、例えば、D-RAM(Dynamic-RAM)である。
 内部記憶装置640は、情報処理装置600が長期的に保存するデータ及びプログラムを記憶する。また、内部記憶装置640は、CPU610の一時記憶装置として動作してもよい。内部記憶装置640は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)又はディスクアレイ装置である。
 ここで、ROM620と内部記憶装置640は、不揮発性(non-transitory)の記憶媒体である。一方、RAM630は、揮発性(transitory)の記憶媒体である。そして、CPU610は、ROM620、内部記憶装置640、又は、RAM630に記憶されているプログラムを基に動作可能である。つまり、CPU610は、不揮発性記憶媒体又は揮発性記憶媒体を用いて動作可能である。
 IOC650は、CPU610と、入力機器660及び表示機器670とのデータを仲介する。IOC650は、例えば、IOインターフェースカード又はUSB(Universal Serial Bus)カードである。さらに、IOC650は、USBのような有線に限らず、無線を用いてもよい。
 入力機器660は、情報処理装置600の操作者からの入力指示を受け取る機器である。入力機器660は、例えば、キーボード、マウス又はタッチパネルである。
 表示機器670は、情報処理装置600の操作者に情報を表示する機器である。表示機器670は、例えば、液晶ディスプレイである。表示機器670は、出力部120又は出力部140として動作してもよい。
 NIC680は、ネットワークを介した図示しない外部の装置とのデータのやり取りを中継する。NIC680は、例えば、LAN(Local Area Network)カードである。さらに、NIC680は、有線に限らず、無線を用いてもよい。
 このように構成された情報処理装置600は、推論システム100及び推論システム101と同様の効果を得ることができる。
 その理由は、情報処理装置600のCPU610が、プログラムに基づいて推論システム100及び推論システム101と同様の機能を実現できるためである。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
[付記1]
 開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、
 第1のルール集合を構成するルールから一つのルールを除外したルール集合を第2のルール集合とし、開始状態及び第1のルール集合から終了状態が成り立つ確率を第1の推論結果とし、開始状態及び第2のルール集合から終了状態が成り立つ確率を第2の推論結果とするとき、
 除外されたルール毎に、第1の推論結果と第2の推論結果との差異の大きさを示す指標である重要度を算出する算出手段と、
 除外されたルール毎に、ルールとルールの重要度とを関連付けて出力する出力手段と、
 を備える推論システム。
[付記2]
 出力手段は、重要度の高いルールを重要度の低いルールよりも優先して出力する、
 付記1に記載の推論システム。
[付記3]
 出力手段は、ルールとルールの重要度と、ルールに対して予め算出された重みの値と、を関連付けて出力する、
 付記1又は2に記載の推論システム。
[付記4]
 開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、
 第1のルール集合を構成するルールから第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、開始状態及び第1のルール集合から終了状態が成り立つ確率を第1の推論結果とし、開始状態及び第2のルール集合から終了状態が成り立つ確率を第2の推論結果とするとき、
 第3のルール集合に対して、第1の推論結果と第2の推論結果との差異の大きさを示す指標である重要度を算出する算出手段と、
 除外された第3のルール集合毎に、第3のルール集合と第3のルール集合の重要度とを関連付けて出力する出力手段と、
 を備える推論システム。
[付記5]
 第1のルール集合を構成するルールから第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、開始状態及び第1のルール集合から終了状態が成り立つ確率を推論した結果を第1の推論結果とし、開始状態及び第2のルール集合から終了状態が成り立つ確率を推論した結果を第2の推論結果とするとき、
 第2のルール集合を構成するルールを、第2のルール集合を構成するルールの数量を限定しつつ、第1の推論結果と第2の推論結果との差異を小さくするように特定する特定手段と、
 特定された第2のルール集合を出力する出力手段と、
 を備える推論システム。
[付記6]
 特定手段は、差異を閾値以下にするという制約が満たされるように、かつ、第2のルール集合を構成するルールの数を少なくするように第2のルール集合を構成するルールを特定する、
 付記5に記載の推論システム。
[付記7]
 特定手段は、第2のルール集合を構成するルールの数量を閾値以下にするという制約が満たされるように、かつ、差異を小さくするように第2のルール集合を構成するルールを特定する、
 付記5に記載の推論システム。
[付記8]
 開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、
 第1のルール集合を構成するルールから第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、開始状態及び第1のルール集合から終了状態が成り立つ確率を推論した結果を第1の推論結果とし、開始状態及び第2のルール集合から終了状態が成り立つ確率を推論した結果を第2の推論結果とするとき、
 第3のルール集合を構成するルールを、第3のルール集合を構成するルールの数量を限定しつつ、第1の推論結果と第2の推論結果との差異を大きくように特定する特定手段と、
 特定された第3のルール集合を出力する出力手段と、
 を備える推論システム。
[付記9]
 特定手段は、差異を閾値以上にするという制約が満たされるように、かつ、第3のルール集合を構成するルールの数を少なくするように第3のルール集合を構成するルールを特定する、
 付記7に記載の推論システム。
[付記10]
 特定手段は、第3のルール集合を構成するルールの数量を閾値以下にするという制約が満たされるように、かつ、差異を大きくするように第3のルール集合を構成するルールを特定する、
 付記7に記載の推論システム。
[付記11]
 開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、
 推論システムが、
 第1のルール集合を構成するルールから一つのルールを除外したルール集合を第2のルール集合とし、開始状態及び第1のルール集合から終了状態が成り立つ確率を第1の推論結果とし、開始状態及び第2のルール集合から終了状態が成り立つ確率を第2の推論結果とするとき、
 除外されたルール毎に、第1の推論結果と第2の推論結果との差異の大きさを示す指標である重要度を算出し、
 除外されたルール毎に、ルールとルールの重要度とを関連付けて出力する
 推論方法。
[付記12]
 開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、
 推論システムが、
 第1のルール集合を構成するルールから第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、開始状態及び第1のルール集合から終了状態が成り立つ確率を第1の推論結果とし、開始状態及び第2のルール集合から終了状態が成り立つ確率を第2の推論結果とするとき、
 第3のルール集合に対して、第1の推論結果と第2の推論結果との差異の大きさを示す指標である重要度を算出し、
 除外された第3のルール集合毎に、第3のルール集合と第3のルール集合の重要度とを関連付けて出力する
 推論方法。
[付記13]
 推論システムが、
 第1のルール集合を構成するルールから第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、開始状態及び第1のルール集合から終了状態が成り立つ確率を推論した結果を第1の推論結果とし、開始状態及び第2のルール集合から終了状態が成り立つ確率を推論した結果を第2の推論結果とするとき、
 第2のルール集合を構成するルールを、第2のルール集合を構成するルールの数量を限定しつつ、第1の推論結果と第2の推論結果との差異を小さくするように特定し、
 特定された第2のルール集合を出力する
 推論方法。
[付記14]
 推論システムが、
 開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、
 第1のルール集合を構成するルールから第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、開始状態及び第1のルール集合から終了状態が成り立つ確率を推論した結果を第1の推論結果とし、開始状態及び第2のルール集合から終了状態が成り立つ確率を推論した結果を第2の推論結果とするとき、
 第3のルール集合を構成するルールを、第3のルール集合を構成するルールの数量を限定しつつ、第1の推論結果と第2の推論結果との差異を大きくように特定し、
 特定された第3のルール集合を出力する
 推論方法。
[付記15]
 開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、
 第1のルール集合を構成するルールから一つのルールを除外したルール集合を第2のルール集合とし、開始状態及び第1のルール集合から終了状態が成り立つ確率を第1の推論結果とし、開始状態及び第2のルール集合から終了状態が成り立つ確率を第2の推論結果とするとき、
 除外されたルール毎に、第1の推論結果と第2の推論結果との差異の大きさを示す指標である重要度を算出する処理と、
 除外されたルール毎に、ルールとルールの重要度とを関連付けて出力する処理と、
 をコンピュータに実行させるプログラムをコンピュータ読み取り可能に記録する記録媒体。
[付記16]
 開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、
 第1のルール集合を構成するルールから第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、開始状態及び第1のルール集合から終了状態が成り立つ確率を第1の推論結果とし、開始状態及び第2のルール集合から終了状態が成り立つ確率を第2の推論結果とするとき、
 第3のルール集合に対して、第1の推論結果と第2の推論結果との差異の大きさを示す指標である重要度を算出する処理と、
 除外された第3のルール集合毎に、第3のルール集合と第3のルール集合の重要度とを関連付けて出力する処理と、
 をコンピュータに実行させるプログラムをコンピュータ読み取り可能に記録する記録媒体。
[付記17]
 推論システムにおいて、
 第1のルール集合を構成するルールから第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、開始状態及び第1のルール集合から終了状態が成り立つ確率を推論した結果を第1の推論結果とし、開始状態及び第2のルール集合から終了状態が成り立つ確率を推論した結果を第2の推論結果とするとき、
 第2のルール集合を構成するルールを、第2のルール集合を構成するルールの数量を限定しつつ、第1の推論結果と第2の推論結果との差異を小さくするように特定する処理と、
 特定された第2のルール集合を出力する処理と、
 をコンピュータに実行させるプログラムをコンピュータ読み取り可能に記録する記録媒体。
[付記18]
 推論システムにおいて、
 開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、
 第1のルール集合を構成するルールから第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、開始状態及び第1のルール集合から終了状態が成り立つ確率を推論した結果を第1の推論結果とし、開始状態及び第2のルール集合から終了状態が成り立つ確率を推論した結果を第2の推論結果とするとき、
 第3のルール集合を構成するルールを、第3のルール集合を構成するルールの数量を限定しつつ、第1の推論結果と第2の推論結果との差異を大きくように特定する処理と、
 特定された第3のルール集合を出力する処理と、
 をコンピュータに実行させるプログラムをコンピュータ読み取り可能に記録する記録媒体。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成及び詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2016年 3月15日に出願された日本出願特願2016-050373を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明は、確率的論理推論手法をコアに据えた人工知能に基づく人間の知的労働の支援において、人工知能の推論の結果に至る根拠を端的に説明する用途に適用できる。
 本発明は、MLN又はPSLなどの推論手法に限らず、論理式を基に確率変数を定義して推論を行う確率的論理推論手法で、観測とクエリとを入力として、観測の下でのクエリの事後確率を求めるという推論を行う場合に広く適用できる。
 100  推論システム
 101  推論システム
 110  算出部
 120  出力部
 130  特定部
 140  出力部
 600  情報処理装置
 610  CPU
 620  ROM
 630  RAM
 640  内部記憶装置
 650  IOC
 660  入力機器
 670  表示機器
 680  NIC
 700  記憶媒体

Claims (18)

  1.  開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、
     第1のルール集合を構成するルールから一つの前記ルールを除外したルール集合を第2のルール集合とし、前記開始状態及び前記第1のルール集合から前記終了状態が成り立つ確率を第1の推論結果とし、前記開始状態及び前記第2のルール集合から前記終了状態が成り立つ確率を第2の推論結果とするとき、
     除外された前記ルール毎に、前記第1の推論結果と前記第2の推論結果との差異の大きさを示す指標である重要度を算出する算出手段と、
     除外された前記ルール毎に、前記ルールと前記ルールの前記重要度とを関連付けて出力する出力手段と、
     を備える推論システム。
  2.  前記出力手段は、前記重要度の高い前記ルールを前記重要度の低い前記ルールよりも優先して出力する、
     請求項1に記載の推論システム。
  3.  前記出力手段は、前記ルールと前記ルールの前記重要度と、前記ルールに対して予め算出された重みの値と、を関連付けて出力する、
     請求項1又は2に記載の推論システム。
  4.  開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、
     第1のルール集合を構成するルールから前記第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、前記開始状態及び前記第1のルール集合から前記終了状態が成り立つ確率を第1の推論結果とし、前記開始状態及び前記第2のルール集合から前記終了状態が成り立つ確率を第2の推論結果とするとき、
     前記第3のルール集合に対して、前記第1の推論結果と前記第2の推論結果との差異の大きさを示す指標である重要度を算出する算出手段と、
     除外された前記第3のルール集合毎に、前記第3のルール集合と前記第3のルール集合の前記重要度とを関連付けて出力する出力手段と、
     を備える推論システム。
  5.  第1のルール集合を構成するルールから前記第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、開始状態及び前記第1のルール集合から終了状態が成り立つ確率を推論した結果を第1の推論結果とし、前記開始状態及び前記第2のルール集合から終了状態が成り立つ確率を推論した結果を第2の推論結果とするとき、
     前記第2のルール集合を構成するルールを、前記第2のルール集合を構成するルールの数量を限定しつつ、前記第1の推論結果と前記第2の推論結果との差異を小さくするように特定する特定手段と、
     特定された前記第2のルール集合を出力する出力手段と、
     を備える推論システム。
  6.  前記特定手段は、前記差異を閾値以下にするという制約が満たされるように、かつ、前記第2のルール集合を構成するルールの数を少なくするように前記第2のルール集合を構成するルールを特定する、
     請求項5に記載の推論システム。
  7.  前記特定手段は、前記第2のルール集合を構成するルールの数量を閾値以下にするという制約が満たされるように、かつ、前記差異を小さくするように前記第2のルール集合を構成するルールを特定する、
     請求項5に記載の推論システム。
  8.  開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、
     第1のルール集合を構成するルールから前記第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、前記開始状態及び前記第1のルール集合から終了状態が成り立つ確率を推論した結果を第1の推論結果とし、前記開始状態及び前記第2のルール集合から終了状態が成り立つ確率を推論した結果を第2の推論結果とするとき、
     前記第3のルール集合を構成するルールを、前記第3のルール集合を構成するルールの数量を限定しつつ、前記第1の推論結果と前記第2の推論結果との差異を大きくように特定する特定手段と、
     特定された前記第3のルール集合を出力する出力手段と、
     を備える推論システム。
  9.  前記特定手段は、前記差異を閾値以上にするという制約が満たされるように、かつ、前記第3のルール集合を構成するルールの数を少なくするように前記第3のルール集合を構成するルールを特定する、
     請求項7に記載の推論システム。
  10.  前記特定手段は、前記第3のルール集合を構成するルールの数量を閾値以下にするという制約が満たされるように、かつ、前記差異を大きくするように前記第3のルール集合を構成するルールを特定する、
     請求項7に記載の推論システム。
  11.  開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、
     前記推論システムが、
     第1のルール集合を構成するルールから一つの前記ルールを除外したルール集合を第2のルール集合とし、前記開始状態及び前記第1のルール集合から前記終了状態が成り立つ確率を第1の推論結果とし、前記開始状態及び前記第2のルール集合から前記終了状態が成り立つ確率を第2の推論結果とするとき、
     除外された前記ルール毎に、前記第1の推論結果と前記第2の推論結果との差異の大きさを示す指標である重要度を算出し、
     除外された前記ルール毎に、前記ルールと前記ルールの前記重要度とを関連付けて出力する
     推論方法。
  12.  開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、
     前記推論システムが、
     第1のルール集合を構成するルールから前記第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、前記開始状態及び前記第1のルール集合から前記終了状態が成り立つ確率を第1の推論結果とし、前記開始状態及び前記第2のルール集合から前記終了状態が成り立つ確率を第2の推論結果とするとき、
     前記第3のルール集合に対して、前記第1の推論結果と前記第2の推論結果との差異の大きさを示す指標である重要度を算出し、
     除外された前記第3のルール集合毎に、前記第3のルール集合と前記第3のルール集合の前記重要度とを関連付けて出力する
     推論方法。
  13.  推論システムが、
     第1のルール集合を構成するルールから前記第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、開始状態及び前記第1のルール集合から終了状態が成り立つ確率を推論した結果を第1の推論結果とし、前記開始状態及び前記第2のルール集合から終了状態が成り立つ確率を推論した結果を第2の推論結果とするとき、
     前記第2のルール集合を構成するルールを、前記第2のルール集合を構成するルールの数量を限定しつつ、前記第1の推論結果と前記第2の推論結果との差異を小さくするように特定し、
     特定された前記第2のルール集合を出力する
     推論方法。
  14.  推論システムが、
     開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、
     第1のルール集合を構成するルールから前記第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、前記開始状態及び前記第1のルール集合から終了状態が成り立つ確率を推論した結果を第1の推論結果とし、前記開始状態及び前記第2のルール集合から終了状態が成り立つ確率を推論した結果を第2の推論結果とするとき、
     前記第3のルール集合を構成するルールを、前記第3のルール集合を構成するルールの数量を限定しつつ、前記第1の推論結果と前記第2の推論結果との差異を大きくように特定し、
     特定された前記第3のルール集合を出力する
     推論方法。
  15.  開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムを実行するコンピュータにおいて、
     第1のルール集合を構成するルールから一つの前記ルールを除外したルール集合を第2のルール集合とし、前記開始状態及び前記第1のルール集合から前記終了状態が成り立つ確率を第1の推論結果とし、前記開始状態及び前記第2のルール集合から前記終了状態が成り立つ確率を第2の推論結果とするとき、
     除外された前記ルール毎に、前記第1の推論結果と前記第2の推論結果との差異の大きさを示す指標である重要度を算出する処理と、
     除外された前記ルール毎に、前記ルールと前記ルールの前記重要度とを関連付けて出力する処理と、
     を実行させるプログラムをコンピュータ読み取り可能に記録する記録媒体。
  16.  開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムを実行するコンピュータにおいて、
     第1のルール集合を構成するルールから前記第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、前記開始状態及び前記第1のルール集合から前記終了状態が成り立つ確率を第1の推論結果とし、前記開始状態及び前記第2のルール集合から前記終了状態が成り立つ確率を第2の推論結果とするとき、
     前記第3のルール集合に対して、前記第1の推論結果と前記第2の推論結果との差異の大きさを示す指標である重要度を算出する処理と、
     除外された前記第3のルール集合毎に、前記第3のルール集合と前記第3のルール集合の前記重要度とを関連付けて出力する処理と、
     を実行させるプログラムをコンピュータ読み取り可能に記録する記録媒体。
  17.  推論システムを実行するコンピュータにおいて、
     第1のルール集合を構成するルールから前記第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、開始状態及び前記第1のルール集合から終了状態が成り立つ確率を推論した結果を第1の推論結果とし、前記開始状態及び前記第2のルール集合から終了状態が成り立つ確率を推論した結果を第2の推論結果とするとき、
     前記第2のルール集合を構成するルールを、前記第2のルール集合を構成するルールの数量を限定しつつ、前記第1の推論結果と前記第2の推論結果との差異を小さくするように特定する処理と、
     特定された前記第2のルール集合を出力する処理と、
     を実行させるプログラムをコンピュータ読み取り可能に記録する記録媒体。
  18.  推論システムを実行するコンピュータにおいて、
     開始状態及びルール集合から終了状態が成り立つ確率を推論する推論システムにおいて、
     第1のルール集合を構成するルールから前記第1のルール集合の部分集合である第3のルール集合を除外したルール集合を第2のルール集合とし、前記開始状態及び前記第1のルール集合から終了状態が成り立つ確率を推論した結果を第1の推論結果とし、前記開始状態及び前記第2のルール集合から終了状態が成り立つ確率を推論した結果を第2の推論結果とするとき、
     前記第3のルール集合を構成するルールを、前記第3のルール集合を構成するルールの数量を限定しつつ、前記第1の推論結果と前記第2の推論結果との差異を大きくように特定する処理と、
     特定された前記第3のルール集合を出力する処理と、
     を実行させるプログラムをコンピュータ読み取り可能に記録する記録媒体。
PCT/JP2017/009399 2016-03-15 2017-03-09 推論システム、推論方法、及び、記録媒体 WO2017159523A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018505870A JP6721036B2 (ja) 2016-03-15 2017-03-09 推論システム、推論方法、及び、プログラム
US16/083,992 US11521092B2 (en) 2016-03-15 2017-03-09 Inference system, inference method, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-050373 2016-03-15
JP2016050373 2016-03-15

Publications (1)

Publication Number Publication Date
WO2017159523A1 true WO2017159523A1 (ja) 2017-09-21

Family

ID=59851919

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/009399 WO2017159523A1 (ja) 2016-03-15 2017-03-09 推論システム、推論方法、及び、記録媒体

Country Status (3)

Country Link
US (1) US11521092B2 (ja)
JP (1) JP6721036B2 (ja)
WO (1) WO2017159523A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112700328B (zh) * 2021-01-11 2024-04-16 河南中原消费金融股份有限公司 一种指标自动分析方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000242497A (ja) * 1999-02-19 2000-09-08 Fuji Electric Co Ltd ファジィ推論モデルの構築支援方法及びファジィ推論方法
JP2010200840A (ja) * 2009-02-27 2010-09-16 Canon Inc 医療意志決定支援装置及びその制御方法
JP2013511788A (ja) * 2010-11-02 2013-04-04 コリア インスティテュート オブ サイエンス アンド テクノロジー インフォメイション 推論検証及び漸増的な推論のためのトリプルの格納方法及び装置、並びにこれらに適した推論依存性索引装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6946715B2 (en) * 2003-02-19 2005-09-20 Micron Technology, Inc. CMOS image sensor and method of fabrication
US20070022029A1 (en) * 2005-07-21 2007-01-25 Protrade Sports, Inc. Athlete valuation
JP5904525B2 (ja) 2011-06-24 2016-04-13 国立研究開発法人情報通信研究機構 論理推論システムおよび論理推論方法
US20130297531A1 (en) * 2012-05-02 2013-11-07 Imageworks Interactive Device for modifying various types of assets
US8825581B2 (en) * 2012-09-10 2014-09-02 International Business Machines Corporation Simplifying a graph of correlation rules while preserving semantic coverage
US9952340B2 (en) * 2013-03-15 2018-04-24 General Electric Company Context based geo-seismic object identification
US20160379074A1 (en) * 2015-06-25 2016-12-29 Appropolis Inc. System and a method for tracking mobile objects using cameras and tag devices
US10824951B2 (en) * 2016-03-14 2020-11-03 Huawei Technologies Co., Ltd. System and method for rule generation using data processed by a binary classifier
US20180361579A1 (en) * 2017-06-20 2018-12-20 Michael Kelly Motion model synthesizer methods and systems
US20210035026A1 (en) * 2019-07-31 2021-02-04 Microsoft Technology Licensing, Llc Diagnosing & triaging performance issues in large-scale services

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000242497A (ja) * 1999-02-19 2000-09-08 Fuji Electric Co Ltd ファジィ推論モデルの構築支援方法及びファジィ推論方法
JP2010200840A (ja) * 2009-02-27 2010-09-16 Canon Inc 医療意志決定支援装置及びその制御方法
JP2013511788A (ja) * 2010-11-02 2013-04-04 コリア インスティテュート オブ サイエンス アンド テクノロジー インフォメイション 推論検証及び漸増的な推論のためのトリプルの格納方法及び装置、並びにこれらに適した推論依存性索引装置

Also Published As

Publication number Publication date
JP6721036B2 (ja) 2020-07-08
JPWO2017159523A1 (ja) 2019-01-24
US20200293929A1 (en) 2020-09-17
US11521092B2 (en) 2022-12-06

Similar Documents

Publication Publication Date Title
Raikwal et al. Performance evaluation of SVM and k-nearest neighbor algorithm over medical data set
US11580363B2 (en) Systems and methods for assessing item compatibility
CN105659225B (zh) 使用路径受约束的随机游走的查询扩展和查询-文档匹配
JP2021518024A (ja) 機械学習アルゴリズムのためのデータを生成する方法、システム
Tsirlis et al. On scoring maximal ancestral graphs with the max–min hill climbing algorithm
US11741375B2 (en) Capturing the global structure of logical formulae with graph long short-term memory
US20190286978A1 (en) Using natural language processing and deep learning for mapping any schema data to a hierarchical standard data model (xdm)
US20210133635A1 (en) Material descriptor generation method, material descriptor generation device, recording medium storing material descriptor generation program, predictive model construction method, predictive model construction device, and recording medium storing predictive model construction program
Jabbari et al. Discovery of causal models that contain latent variables through Bayesian scoring of independence constraints
US11657077B2 (en) Document classification device, document classification method and document classification program
US20230128318A1 (en) Automated Parameterized Modeling And Scoring Intelligence System
JP6172317B2 (ja) 混合モデル選択の方法及び装置
Yu et al. Toward naive Bayes with attribute value weighting
CN117616431A (zh) 针对大规模数据的可解释的机器学习
CN114897173A (zh) 基于变分量子线路确定PageRank的方法及装置
CN116304205A (zh) 一种传播网络结构重构方法、装置、设备及存储介质
Gilmore et al. More interpretable decision trees
JP6721036B2 (ja) 推論システム、推論方法、及び、プログラム
Meytus Problems of constructing intelligent systems. Knowledge representation
US20230186092A1 (en) Learning device, learning method, computer program product, and learning system
Musella A PC algorithm variation for ordinal variables
JP6690713B2 (ja) 推論システム、情報処理システム、推論方法、及び、プログラム
CN115240843A (zh) 基于结构因果模型的公平性预测系统
US11676050B2 (en) Systems and methods for neighbor frequency aggregation of parametric probability distributions with decision trees using leaf nodes
JPWO2019167240A1 (ja) 情報処理装置、制御方法、及びプログラム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2018505870

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17766524

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 17766524

Country of ref document: EP

Kind code of ref document: A1