WO2023238395A1 - 情報処理装置、情報処理方法、プログラム - Google Patents

情報処理装置、情報処理方法、プログラム Download PDF

Info

Publication number
WO2023238395A1
WO2023238395A1 PCT/JP2022/023497 JP2022023497W WO2023238395A1 WO 2023238395 A1 WO2023238395 A1 WO 2023238395A1 JP 2022023497 W JP2022023497 W JP 2022023497W WO 2023238395 A1 WO2023238395 A1 WO 2023238395A1
Authority
WO
WIPO (PCT)
Prior art keywords
explanation
machine learning
learning model
data
information processing
Prior art date
Application number
PCT/JP2022/023497
Other languages
English (en)
French (fr)
Inventor
耀一 佐々木
穣 岡嶋
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/023497 priority Critical patent/WO2023238395A1/ja
Publication of WO2023238395A1 publication Critical patent/WO2023238395A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program.
  • Non-Patent Document 1 when an arbitrary machine learning model is given, a simple model is generated that locally approximates the prediction of the model for similar cases existing in the vicinity of a certain case, and this A technique is disclosed that outputs a simple model as a local explanation regarding the prediction of the case.
  • Non-Patent Document 1 has a problem in that the explanation output for each case is not the explanation that a human would expect. This is because machine learning models are trained independently of what humans expect, so they do not necessarily predict what humans expect. However, even if a machine learning model outputs correct predictions, humans cannot trust and use a machine learning model unless it provides an explanation that humans expect.
  • an object of the present disclosure is to provide an information processing device that can solve the above-mentioned problem that explanations for predicted values by machine learning models differ from case to case.
  • An information processing device that is one form of the present disclosure includes an explanation generation unit that generates explanation data that explains a predicted value output by the machine learning model in response to input training data; a prediction loss representing the degree to which the predicted value output by the machine learning model for the input of the training data differs from a preset correct value, and whether the explanatory data satisfies a preset standard that the explanatory data should satisfy.
  • a parameter calculation unit that calculates parameters of the machine learning model so that the explanation loss representing the degree to which the explanation loss is small; Equipped with The structure is as follows.
  • an information processing method that is one form of the present disclosure includes: Generate explanatory data that explains the predicted value output by the machine learning model in response to input training data, a prediction loss representing the degree to which the predicted value output by the machine learning model for the input of the training data differs from a preset correct value, and whether the explanatory data satisfies a preset standard that the explanatory data should satisfy. calculating the parameters of the machine learning model so that the explanatory loss representing the degree to which there is no The structure is as follows.
  • the present disclosure can prevent explanations for predicted values by a machine learning model from differing from case to case, and can generate a highly reliable machine learning model.
  • FIG. 1 is a diagram for explaining an overview of the present disclosure. 1 is a diagram for explaining an overview of Embodiment 1 of the present disclosure.
  • FIG. FIG. 1 is a block diagram showing the configuration of an information processing device in Embodiment 1 of the present disclosure.
  • 4 is a flowchart showing the operation of the information processing device disclosed in FIG. 3.
  • FIG. 4 is a flowchart showing the operation of the information processing device disclosed in FIG. 3.
  • FIG. 4 is a flowchart showing the operation of the information processing device disclosed in FIG. 3.
  • FIG. 4 is a flowchart showing the operation of the information processing device disclosed in FIG. 3.
  • FIG. FIG. 4 is a diagram showing a state of processing by the information processing apparatus disclosed in FIG. 3;
  • FIG. 4 is a diagram showing a state of processing by the information processing apparatus disclosed in FIG. 3;
  • FIG. 4 is a diagram showing a state of processing by the information processing apparatus disclosed in FIG. 3;
  • FIG. 7 is a diagram showing a state of processing by the information processing device in Embodiment 2 of the present disclosure.
  • FIG. 7 is a diagram showing a state of processing by the information processing device in Embodiment 2 of the present disclosure.
  • FIG. 3 is a block diagram showing the hardware configuration of an information processing device in Embodiment 3 of the present disclosure.
  • FIG. 3 is a block diagram showing the configuration of an information processing device in Embodiment 3 of the present disclosure.
  • FIGS. 1 to 9. A first embodiment of the present disclosure will be described with reference to FIGS. 1 to 9.
  • 1 and 2 are diagrams for explaining an overview of the present disclosure.
  • FIG. 3 is a diagram for explaining the configuration of the information processing device, and
  • FIGS. 4 to 9 are diagrams for explaining the processing operation of the information processing device.
  • an explanation evaluation criterion it is possible to use, for example, the degree of agreement with the correct explanation.
  • the parameters will be updated so that an explanation that matches the correct explanation as much as possible is obtained.
  • the correct explanation for example, an explanation that has already been presented to humans in the past can be used.
  • Such usage is particularly useful when updating parameters in a running model. There are cases where you were operating a model trained using a certain set of training cases, but then some additional training cases were obtained, and you want to add these to the set of training cases and retrain the model. At this time, there is a need to avoid changing the predictions and explanations for the same case as much as possible before and after retraining.
  • the present invention can update parameters so that the prediction does not deviate significantly and the explanation does not change significantly, considering the balance between prediction loss and explanation loss.
  • the information processing system includes an information processing device 10 that performs machine learning.
  • a correct explanation adding section 20 configured with an information processing device that inputs data used for machine learning is equipped, and although this will be described later, the correct answer explanation adding section 20 is not necessarily provided. It's okay.
  • the information processing device 10 that performs machine learning is composed of one or more information processing devices including an arithmetic unit and a storage device. As shown in FIG. 3, the information processing device 10 includes an input section 11, a parameter calculation section, a prediction loss calculation section 13, an explanation loss calculation section 14, and an explanation generation section 15.
  • the function of the input unit 11, parameter calculation unit 12, predicted loss calculation unit 13, explanation loss calculation unit 14, and explanation generation unit 15 is for the arithmetic unit to execute programs stored in the storage device for realizing each function. This can be realized by Hereinafter, operations based on the functions of each configuration will be explained.
  • step S21 the set Z is initialized as an empty set (step S21).
  • the variable i is changed from 1 to N and the following is executed (step S22).
  • the i-th perturbation example z' i is generated (step S23).
  • the perturbation case z' i is a binary vector of length d' like x'.
  • the perturbation case may be generated by any method as long as a binary vector of length d' is obtained. For example, it can be obtained by uniformly and randomly generating a binary vector of length d'.
  • FIG. 8 shows an example of the generated perturbation case z′ i . While all values of x' are 1, perturbation cases z' i take values of 1 and 0.
  • z i is a vector with the same length d as x.
  • d the length of the transformation source space.
  • z i can be obtained from the perturbation cases z' i by the following method, for example. Compute the mean and standard deviation for d elements in the training example set. Then, samples are taken from d normal distributions using these averages and standard deviations as parameters, and a sample that meets the same conditions as z' i is defined as z i .
  • z' 2 satisfies the four conditions "x1 ⁇ 3", “x2 ⁇ 4", "x3 ⁇ 1", and "x4 ⁇ 5", so the values that meet these conditions are Randomly generate it and set it to z 2 .
  • a prediction f(z i ) is obtained using the model f (step S25).
  • the prediction f(z i ) by f is obtained.
  • the degree of proximity ⁇ x (z i ) is obtained (step S26).
  • the triplet ⁇ z' i , f(z i ), ⁇ x (z i )> is added to the set Z (step S27).
  • step S28 The above process is repeated N times (step S28), and finally the set Z is output (step S29).
  • step S29 The above is the process of step S13.
  • the explanation generation unit 15 receives Z as an input and generates an explanation w (vector w) for x.
  • an interpretable model g is trained using z' i as a training example, f(z i ) as a correct label, and ⁇ x (z i ) as a weight for the example, and the parameters of g obtained in training. is output as w.
  • a design matrix D of N ⁇ d' is defined by the following equation 2.
  • z' ij represents the j-th element of z' i .
  • a vector fz of length N representing the prediction of the model f for N perturbation cases is defined by the following equation 3.
  • case weight matrix ⁇ is defined as an N ⁇ N diagonal matrix expressed by the following equation (4).
  • Equation 5 the explanation w is w that minimizes the loss function Lw shown in Equation 5 below.
  • the first term of Equation 5 is the squared error between the prediction fz based on f and the prediction Dw based on g, with the degree of proximity being weighted.
  • the second term is a normalization term.
  • the coefficient ⁇ is any positive real value.
  • Equation 6 The explanation w that minimizes the above loss can be calculated using Equation 6 below.
  • I is a d' ⁇ d' identity matrix.
  • matrix A is defined by the following equation 7.
  • the explanation w can be written as the following equation 8 as a linear transformation of the prediction fz .
  • the above equation 8 is differentiable because it is a linear transformation.
  • the explanation w can be obtained in the form of a differentiable function of the prediction of the model f. Since the explanation is differentiable, the gradient of the explanation loss can be calculated for the parameter ⁇ of the model f, and the parameter ⁇ of the model f can be updated, as will be described later.
  • Non-Patent Document 1 The method of generating an explanation by the explanation generation unit of this embodiment is basically similar to Algorithm 1 of Non-Patent Document 1.
  • a model called k-Lasso which is difficult to differentiate, is adopted as the explanatory model g. This is because, in Non-Patent Document 1, since the ultimate purpose is to generate an explanation, the parameters of the model f are not updated using differentiation.
  • the training example set X is a set of M training examples, as shown in Equation 9. Each instance is a vector of length d.
  • the correct label y is a vector of length M that represents the label to be predicted by the model f, as shown in Equation 10.
  • the element of the correct label y is a class for classification, and a real value for regression. In the following, for the sake of explanation, it is assumed that regression is occurring and that the correct label y is a real value.
  • the present invention can be applied to both discrimination and regression. Note that the explanation evaluation criteria will be explained later.
  • Step S31 The input unit 11 receives a training example set, correct answer labels, and explanation evaluation criteria.
  • Step S33 The prediction loss calculation unit 13 calculates the slope of the prediction loss regarding the j-th training example xj .
  • the prediction loss for example, in the case of regression, a squared error as shown in Equation 14 below can be used.
  • the slope of the predicted loss with respect to f can be calculated as shown in Equation 15 below.
  • the slope of the prediction loss with respect to f is known, the slope of the prediction loss with respect to ⁇ k can be calculated as shown in Equation 16 below.
  • ⁇ k is the kth element of ⁇ .
  • the term shown by Equation 17 in Equation 16 can be calculated using the error backpropagation method.
  • Equation 19 the term shown in Equation 20 in Equation 19 is a vector of length N representing the prediction of f regarding N perturbation examples generated regarding the j-th training example.
  • Equation 20 The slope of the loss can be calculated as shown in Equation 21 below.
  • the slope of the predicted loss regarding the k-th element ⁇ k of the parameter vector ⁇ can be written as an inner product of vectors as shown in Equation 22 below using the chain rule.
  • Equation 23 in Equation 22 can be calculated as described above. Since the term shown by Equation 24 in Equation 22 becomes Equation 25 according to the definition of Equation 20, it is sufficient to calculate the gradient of f for N predictions for N perturbation cases. This gradient can be calculated using a backpropagation method in the case of a neural network, for example.
  • Equation 26 a pseudo residual r j that is a target value for the j-th training example is calculated as shown in Equation 26 below.
  • Equation 27 the base learning device is trained and added using Equation 27 as a training example set.
  • explanation evaluation criteria In the above, a method has been described in which correct explanations associated with each training example are used as explanation evaluation criteria. However, different explanation evaluation criteria may be used.
  • the explanation evaluation criteria may be a set of subscripts representing elements of the training example to be used for explanation. An example is the following set. ⁇ 2,3,5 ⁇
  • a negative explanation loss is given to an explanation involving ⁇ x 2 , x 3 , x 5 ⁇ . Then, the parameters are updated so that the explanation loss becomes smaller. As a result, explanations involving ⁇ x 2 , x 3 , x 5 ⁇ can be obtained preferentially.
  • an explanation loss as shown in Equation 30 below can be used.
  • w j,l represents the l-th element of the explanation w j generated for the j-th training example.
  • 1 l is a variable that becomes 1 when the l-th element of the explanation relates to the variable indicated by the above-mentioned subscript set, and becomes 0 in other cases.
  • FIG. 9 shows an example of the explanation evaluation criteria and explanation loss calculated in this way.
  • an explanation when using the initial parameter ⁇ before updating can be used.
  • An explanation is generated when the prediction is calculated using the initial parameter ⁇ for each training example, and this is defined as the correct explanation, and the degree of deviation from the correct explanation is used as the explanation loss.
  • FIGS. 10 and 11 are diagrams for explaining processing operations in the second embodiment.
  • FIG. 11 shows an example of the decision list.
  • the decision list is a list in which multiple rules are arranged in order, and when making predictions, the rules are looked at in order from the top to the top, and one or more rules that satisfy a given case are selected. becomes a decision rule, and this decision rule becomes explanatory data. Therefore, when the training examples are given to the decision list as shown in FIG. x 0 ⁇ 1.0 OR X 2 ⁇ 2.0) AND x 1 ⁇ 2.0 AND x 2 ⁇ 3.0” is generated as explanatory data.
  • the parameter calculation unit 12 in this embodiment calculates the prediction loss, which is the difference between the predicted value and the correct value, and the difference between the explanatory data, which is the determined rule, and the correct rule.
  • a rule that is a parameter of a prediction model that minimizes an objective function L consisting of a weighted sum of a certain explanation loss is calculated.
  • the objective function L can be expressed by the following equation 31.
  • T ⁇ t 1 , . . . , t n ⁇ .
  • the L acc is a prediction loss representing a prediction error between the predicted value f(t) and the correct value f(fb(t)).
  • the prediction loss L acc can be expressed, for example, by an error function such as a squared error.
  • the above L exp is an explanation loss representing the error between the rule rule (f, t) used at the time of prediction and the correct rule rule (fb, t). For example, L exp can use an index as shown in Equation 32.
  • the parameter calculation unit 12 can perform calculations.
  • L acc + ⁇ L exp constituting the objective function L is expressed as a linear programming problem.
  • L exp can be expressed as follows.
  • this is an explanation loss between the rule used by the model fb before training to predict the case x i and the rule r i output during training.
  • L exp can be expressed by Equation 33.
  • the correct explanation may be associated only with the training example in which the predicted value output by the machine learning model in response to the input of the training example matches the correct label.
  • the objective function L may be expressed by the following equation 34.
  • the second term is the prediction loss for the training examples that are answered correctly
  • the third term is the explanation loss for the training examples that are answered correctly.
  • FIGS. 12 and 13 are block diagrams showing the configuration of an information processing apparatus according to the third embodiment. Note that this embodiment shows an outline of the configuration of the information processing apparatus described in the above embodiments.
  • the information processing device 100 is constituted by a general information processing device, and is equipped with the following hardware configuration as an example.
  • ⁇ CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • Program group 104 loaded into RAM 103 - Storage device 105 that stores the program group 104 -
  • a drive device 106 that reads and writes from and to a storage medium 110 external to the information processing device -Communication interface 107 that connects to the communication network 111 outside the information processing device ⁇ I/O interface 108 that inputs and outputs data ⁇ Bus 109 connecting each component
  • the information processing apparatus 100 can construct and equip the explanation generation section 121 and the parameter calculation section 122 shown in FIG. 13 by having the CPU 101 acquire the program group 104 and execute the program group 104.
  • the program group 104 is stored in advance in the storage device 105 or ROM 102, for example, and is loaded into the RAM 103 and executed by the CPU 101 as needed.
  • the program group 104 may be supplied to the CPU 101 via the communication network 111, or may be stored in the storage medium 110 in advance, and the drive device 106 may read the program and supply it to the CPU 101.
  • the explanation generation section 121 and the parameter calculation section 122 described above may be constructed of a dedicated electronic circuit for realizing such means.
  • FIG. 12 shows an example of the hardware configuration of an information processing device that is the information processing device 100, and the hardware configuration of the information processing device is not limited to the case described above.
  • the information processing device may be configured from part of the configuration described above, such as not having the drive device 106.
  • the information processing device uses GPU (Graphic Processing Unit), DSP (Digital Signal Processor), MPU (Micro Processing Unit), FPU (Float) instead of the above-mentioned CPU. ating point number Processing Unit), PPU (Physics Processing Unit) , a TPU (Tensor Processing Unit), a quantum processor, a microcontroller, or a combination thereof.
  • GPU Graphic Processing Unit
  • DSP Digital Signal Processor
  • MPU Micro Processing Unit
  • FPU Float
  • the explanation generation unit 121 generates explanation data that explains the predicted value output by the machine learning model in response to input training data.
  • a machine learning model is a model that can update parameters using the gradient of an objective function, and can generate explanatory data based on the importance of training data for predicted values.
  • a machine learning model is a model that predicts a predicted value using a plurality of rules, and training data can generate a corresponding rule in the machine learning model as explanatory data.
  • the parameter calculation unit 122 calculates a prediction loss representing the degree of difference between the predicted value output by the machine learning model in response to the input of training data and the preset correct value, and the criteria that the explanatory data set in advance should satisfy.
  • the parameters of the machine learning model are calculated so that the explanation loss, which represents the degree to which the condition is not satisfied, is small. For example, when correct data for the explanation data is given, the explanation loss is the difference between the generated explanation data and the correct data.
  • the present disclosure updates the parameters of the machine learning model so that the prediction loss and explanation loss are small, thereby preventing the explanation for the predicted value by the machine learning model from being different for each case. Can be suppressed.
  • Non-transitory computer-readable media include various types of tangible storage media.
  • Examples of non-transitory computer-readable media include magnetic recording media (e.g., flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (e.g., magneto-optical disks), CD-ROMs (Read Only Memory), CD-Rs, CD-R/W, semiconductor memory (eg, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (Random Access Memory)).
  • the program may also be supplied to the computer via various types of transitory computer readable media. Examples of transitory computer-readable media include electrical signals, optical signals, and electromagnetic waves.
  • the temporary computer-readable medium can provide the program to the computer via wired communication channels, such as electrical wires and fiber optics, or wireless communication channels.
  • Additional notes Part or all of the above embodiments may also be described as in the following additional notes.
  • an explanation generation unit that generates explanation data that explains a predicted value output by the machine learning model in response to input training data; a prediction loss representing the degree to which the predicted value output by the machine learning model for the input of the training data differs from a preset correct value, and whether the explanatory data satisfies a preset standard that the explanatory data should satisfy.
  • a parameter calculation unit that calculates parameters of the machine learning model so that the explanation loss representing the degree to which the explanation loss is small;
  • An information processing device equipped with (Additional note 2) The information processing device according to supplementary note 1, The parameter calculation unit calculates parameters of the machine learning model so that the prediction loss and the explanation loss representing a degree of difference between the explanation data and preset correct explanation data are small.
  • Information processing device. (Additional note 3) The information processing device according to supplementary note 1, The parameter calculation unit calculates parameters of the machine learning model so that the prediction loss and the explanation loss based on a weighted sum of the explanation data including a plurality of elements are small.
  • the explanation generation unit generates the explanation data based on the importance of each element constituting the training data with respect to the predicted value by the machine learning model.
  • Information processing device. (Appendix 5) The information processing device according to appendix 4, The explanation generation unit generates the explanation data using a differentiable function using the machine learning model as the importance level, The parameter calculation unit calculates parameters of the machine learning model by calculating a gradient of the explanation loss using differentiation of the function.
  • Information processing device. (Appendix 6) The information processing device according to appendix 5, The explanation generation unit is configured to calculate the parameters of the second machine learning model based on the machine learning model when the second machine learning model is trained using second training data generated based on the training data.
  • the information processing device is a model that predicts a predicted value using a plurality of rules
  • the explanation generation unit generates a rule to which the training data corresponds in the machine learning model as the explanation data
  • the parameter calculation unit calculates parameters of the machine learning model so that the prediction loss and the explanation loss representing the degree of difference between the explanation data and a preset correct answer rule are small.
  • the information processing device comprising a correct explanation adding unit that associates the correct explanation data with the training data
  • the correct answer explanation provision unit obtains the training data, a correct answer label corresponding to the training data, and initial parameters of the machine learning model, and uses the initial parameters as parameters of the machine learning model to associating the explanatory data generated when inputting the training data into a machine learning model with the training data as the correct explanatory data;
  • Information processing device (Appendix 9) The information processing device according to appendix 8, The correct explanation adding unit associates the correct explanation data only with the training data when the predicted value output by the machine learning model in response to the input of the training data matches the correct value.
  • Information processing device comprising a correct explanation adding unit that associates the correct explanation data with the training data, The correct answer explanation provision unit obtains the training data, a correct answer label corresponding to the training data, and initial parameters of the machine learning model, and uses the initial parameters as parameters of the machine learning model to associating the explanatory data generated when inputting the training data into a
  • (Appendix 11) Generate explanatory data that explains the predicted value output by the machine learning model in response to input training data, a prediction loss representing the degree to which the predicted value output by the machine learning model for the input of the training data differs from a preset correct value, and whether the explanatory data satisfies a preset standard that the explanatory data should satisfy. calculating the parameters of the machine learning model so that the explanatory loss representing the degree to which there is no
  • a computer-readable storage medium that stores a program for causing a computer to execute processing.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本発明の情報処理装置100は、訓練データの入力に対して機械学習モデルが出力する予測値を説明する説明データを生成する説明生成部121と、訓練データの入力に対する機械学習モデルが出力する予測値と予め設定された正解値とが異なる度合いを表す予測損失と、説明データが予め設定された説明データが満たすべき基準を満たしていない度合いを表す説明損失と、が小さくなるよう機械学習モデルのパラメータを計算するパラメータ計算部122と、を備える。

Description

情報処理装置、情報処理方法、プログラム
 本開示は、情報処理装置、情報処理方法、プログラムに関する。
 機械学習分野において、機械学習モデルの説明性は、機械学習モデルの予測が信頼できるかを人間が判断するために重要となる。機械学習モデルの説明は、大域的な説明(global explanation)と局所的な説明(local explanation)の2種類に大別される。大域的な説明は、機械学習モデル全体の挙動を説明するものである。局所的な説明は、個々の事例に対して出される予測についてその予測の根拠を説明するものである。
 ここで、非特許文献1には、任意の機械学習モデルが与えられたときに、ある事例の近傍に存在する類似事例に対するそのモデルの予測を局所的に近似する簡易なモデルを生成し、この簡易なモデルをその事例の予測に関する局所的な説明として出力する技術が開示されている。
M. T. Ribeiro, S. Singh, and C. Guestrin, ""why should I trust you?": Explaining the predictions of any classifier," in Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016, pp. 1135-1144.
 非特許文献1に開示されている技術では、事例ごとに出力される説明が、人間が予期するような説明にならないという課題がある。何故なら、機械学習モデルは、人間が何を予期しているかと無関係に訓練されているため、人間が予期しているように予測するとは限らないためである。しかし、たとえ正しい予測を出力していたとしても、人間が予期する説明が出てこないと人間は機械学習モデルを信頼して使用することができない。
 そして、上述した課題は特に、機械学習モデルを再訓練したときに顕著になる。訓練事例を追加して機械学習モデルを再訓練した場合、人間は同じ事例への同じ予測に対しては同じ説明が出ることを予期するが、非特許文献1に記載の技術では、再訓練の前後で異なる説明が出力されてしまうおそれがある。その結果、再訓練するたびに説明が変わるモデルは人間が信頼して使うことができない。
 このため、本開示の目的は、上述した課題である、機械学習モデルによる予測値に対する説明が事例ごとに異なる、ことを解決することができる情報処理装置を提供することにある。
 本開示の一形態である情報処理装置は、
 訓練データの入力に対して機械学習モデルが出力する予測値を説明する説明データを生成する説明生成部と、
 前記訓練データの入力に対する前記機械学習モデルが出力する予測値と予め設定された正解値とが異なる度合いを表す予測損失と、前記説明データが予め設定された当該説明データが満たすべき基準を満たしていない度合いを表す説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算するパラメータ計算部と、
を備えた、
という構成をとる。
 また、本開示の一形態である情報処理方法は、
 訓練データの入力に対して機械学習モデルが出力する予測値を説明する説明データを生成し、
 前記訓練データの入力に対する前記機械学習モデルが出力する予測値と予め設定された正解値とが異なる度合いを表す予測損失と、前記説明データが予め設定された当該説明データが満たすべき基準を満たしていない度合いを表す説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算する、
という構成をとる。
 また、本開示の一形態であるプログラムは、
 訓練データの入力に対して機械学習モデルが出力する予測値を説明する説明データを生成し、
 前記訓練データの入力に対する前記機械学習モデルが出力する予測値と予め設定された正解値とが異なる度合いを表す予測損失と、前記説明データが予め設定された当該説明データが満たすべき基準を満たしていない度合いを表す説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算する、
処理をコンピュータに実行させる、
という構成をとる。
 本開示は、以上のように構成されることにより、機械学習モデルによる予測値に対する説明が事例ごとに異なる、ことを抑制することができ、信頼性の高い機械学習モデルを生成することができる。
本開示の概要を説明するための図である。 本開示の実施形態1の概要を説明するための図である。 本開示の実施形態1における情報処理装置の構成を示すブロック図である。 図3に開示した情報処理装置の動作を示すフローチャートである。 図3に開示した情報処理装置の動作を示すフローチャートである。 図3に開示した情報処理装置の動作を示すフローチャートである。 図3に開示した情報処理装置による処理の様子を示す図である。 図3に開示した情報処理装置による処理の様子を示す図である。 図3に開示した情報処理装置による処理の様子を示す図である。 本開示の実施形態2における情報処理装置による処理の様子を示す図である。 本開示の実施形態2における情報処理装置による処理の様子を示す図である。 本開示の実施形態3における情報処理装置のハードウェア構成を示すブロック図である。 本開示の実施形態3における情報処理装置の構成を示すブロック図である。
 <実施形態1>
 本開示の第1の実施形態を、図1乃至図9を参照して説明する。図1乃至図2は、本開示の概要を説明するための図である。図3は、情報処理装置の構成を説明するための図であり、図4乃至図9は、情報処理装置の処理動作を説明するための図である。
 [概要]
 まず、図1を参照して、本開示の概要について説明する。図1に示すように、本開示における情報処理装置は、訓練事例を用いて機械学習モデルを学習し、機械学習モデルのパラメータを更新するものである。このとき、訓練事例を入力した機械学習モデルから、予測と、予測に対する説明と、が出力される。このような状況において、本開示における情報処理装置は、機械学習モデルから出力された予測と予め設定された正解ラベルとの差を表す予測損失と、機械学習モデルから出力された説明と予め設定された正解説明との差を表す説明損失と、が小さくなるように、機械学習モデルのパラメータを更新するよう学習する、というものである。なお、説明損失は、機械学習モデルから出力される説明が、予め設定された基準を満たしていない度合いにて表わしてもよい。
 次に、図2を参照して、第1の実施形態の概要について説明する。図2に示すように、実施形態1では、訓練事例に対してランダムに摂動事例を生成し、摂動事例に対するモデルfの予測を付与する。そして、訓練事例と摂動事例との近接度を重みとして、入出力を予測する簡易モデルgを訓練し、かかる重みを説明として出力する。そして、出力された説明と、予め設定された説明と、の差を説明損失とし、上述同様に、予測損失と説明損失とが小さくなるようモデルfのパラメータを更新する、というものである。このとき、簡易モデルgが線形モデルであるとき、説明は微分可能なモデルfの関数としてかける。このため、モデルfのパラメータに関する説明損失の勾配が計算でき、かかる勾配を用いて説明損失が小さくなるようパラメータを更新することができる。なお、説明損失は、機械学習モデルから出力される説明が、予め設定された基準を満たしていない度合いにて表わしてもよい。
 <実施形態1の詳細>
 次に、実施形態1の詳細について説明する。実施形態1では、勾配を用いてパラメータを更新できる任意の機械学習モデルに対して、事例ごとの説明を出力する際に予期された説明が出力されるように、機械学習モデルのパラメータを更新する。本実施形態では、勾配を用いてパラメータを更新できる任意の機械学習モデルに適用可能である。本実施の形態における説明は、当該機械学習モデルの動作を局所的に近似する線形モデルの重みである。なお、本実施の形態の説明に用いる用語や記号は非特許文献1に準拠することとする。
 初めに、本実施の形態の説明で用いる基本的な概念を説明する。実施形態1で訓練する機械学習モデルをfとする。fは、目的関数の勾配を用いてパラメータを更新できる機械学習モデルであれば何でもよい。そのようなモデルfとしては、たとえばニューラルネットワークや、勾配ブースティングを用いることができる。さらに、モデルfの挙動を決定するパラメータをベクトルθで表す。たとえば、モデルfがニューラルネットワークであるとき、θはニューラルネットワークの重みからなるベクトルである。モデルfが勾配ブースティングであるとき、θは弱学習器の数や弱学習器のパラメータである。モデルfは、θの値に依存して出力が決定される。
 教師あり機械学習では、一般に訓練事例集合と、訓練事例集合に含まれる各訓練事例に関連付けられた正解ラベルと、が入力される。そして各訓練事例をモデルfに入力した際にモデルfが出力する予測と、その訓練事例に関連付けられた正解ラベルと、の差異が小さくなるようにパラメータを更新する。この予測と正解ラベルとの差異を予測損失と呼ぶ。
 しかし、ただ単に予測損失が小さくなるようにパラメータを更新するだけでは、予測に対する説明が、人間が予期した説明にならないという課題がある。そこで、本開示では、予測損失を小さくするだけでなく、説明に関する損失を考える。具体的には、本開示では、説明の適切さを評価する基準である説明評価基準を入力として受け付ける。そして、各訓練事例に対してモデルfが出す予測について生成された説明が説明評価基準を満たしていない度合である説明損失を考える。そして、予測損失だけでなく説明損失も小さくなるようにモデルfのパラメータθを更新する。特に、予測損失と説明損失の重みつき和を小さくするようにパラメータを更新することが有効である。これにより、予測損失と説明損失のバランスを取ることができる。
 説明評価基準としては、たとえば正解となる説明との一致度を用いることが考えられる。その場合、正解となる説明とできるだけ一致する説明が出るようにパラメータを更新することになる。正解となる説明としては、たとえば過去にすでに人間に提示した説明を用いることができる。そのような使い方が特に有用になるのは、運用中のモデルのパラメータを更新する場合である。ある訓練事例集合を用いて訓練したモデルを運用していたが、その後いくつかの訓練事例が追加で得られたため、これらを訓練事例集合に加えてモデルを再訓練したいという場合が存在する。このとき、再訓練の前後で同じ事例に対する予測と説明をできるだけ変えたくない、というニーズがある。説明が変わると、人間が過去の説明と何故違うのか理解しづらいためである。そのような場合、過去に人間に提示した説明を正解となる説明として用いることができる。その場合、本発明は、予測損失と説明損失のバランスを考慮して、予測が大きく外れずに、しかも説明が大きく変わらないようにパラメータを更新することができる。
 次に、図3乃至図9を参照して、実施形態1の具体的な構成及び動作を説明する。図3に示すように、実施形態1における情報処理システムは、機械学習を行う情報処理装置10を備える。なお、図3では、機械学習に用いるデータを入力する情報処理装置で構成された正解説明付与部20が装備されており、これについては後述するが、正解説明付与部20は必ずしも設けられていなくてもよい。
 機械学習を行う情報処理装置10は、演算装置と記憶装置とを備えた1台又は複数台の情報処理装置にて構成される。そして、情報処理装置10は、図3に示すように、入力部11、パラメータ計算部、予測損失計算部13、説明損失計算部14、説明生成部15、を備える。入力部11、パラメータ計算部12、予測損失計算部13、説明損失計算部14、説明生成部15の機能は、演算装置が記憶装置に格納された各機能を実現するためのプログラムを実行することにより、実現することができる。以下、各構成が有する機能による動作を説明する。
 実施形態1全体の動作を説明する前に、説明生成部15の動作を図4のフローチャーを参照して説明する。
(ステップS11)
 説明生成部15は、訓練事例x(訓練データ)を入力として受け付ける。訓練事例xは、モデルfに入力する事例を表す長さdの実数値ベクトルである。xは、表データを表すものでも、画像やテキストを表すものでもよい。図7に訓練事例xの一例を示す。
(ステップS12)
 説明生成部15は、訓練事例xの解釈可能な表現x’を生成する。解釈可能な表現x’は、長さd’のバイナリベクトルである。x’は訓練事例xを人間に分かりやすい特徴の有無で表現したものである。x’は、非特許文献1の3.1節で説明されているような様々な形態を取ることができる。たとえば、訓練事例xがテキストであれば、x’は語の有無を表すバイナリベクトルを用いることができる。解釈可能な表現を生成する方法は、訓練事例xをバイナリベクトルに変換でき、結果を人間が解釈できる方法であれば任意のものが使える。もし訓練事例xが既にバイナリベクトルであれば、xをそのままx’として用いてもよい。
 ここでは一例として、訓練事例xが連続値のベクトルである場合について可能な方法を説明する(以下、閾値法と呼ぶ)。xを構成するd個の要素のそれぞれについて中央値を閾値として分割することで2つの条件を生成する。たとえば、xの1番目の要素x1の中央値が3である場合、「x1≧3」と「x1<3」の2つの条件を生成する。これを他の要素についても繰り返し行い、d*2個の条件を生成する。そして、最後にxが満たす条件のみを抽出し、x’を構成する特徴量として用いる。ただし各特徴量の値は条件を満たす場合1、それ以外の場合0とする。閾値法で生成したx’の一例を図8に示す。この図で示すように、この方法で作成した場合、xが満たす条件のみを抽出しているため、必然的にx’は全ての要素が1となる。閾値法は、中央値の代わりに四分位数を使って4つの条件に分割してもよい。非特許文献1の著者による実装(https://github.com/marcotcr/lime)では四分位数を使った閾値法が実装されている。
(ステップS13)
 ステップS13では、説明生成部15が、x’を元に、摂動事例(perturbed samples)に関する集合Zを生成する。摂動事例は、人工的に生成する事例であり、x周辺でのfの局所的な予測を近似する第2の機械学習モデルを構築するための訓練事例として用いられる。集合Zの生成方法は、非特許文献1の3.3節やAlgorithm 1に示されているアルゴリズムに基づく。
 集合Zを生成するためのパラメータを以下のように定める。生成する摂動事例の数をNとする。xとの近接度を測る関数をπとする。π(z)は、長さdのベクトルzがxに近いほど大きな値を返し、xから遠いほど小さな値を返す任意の関数である。たとえば、ベクトルのコサイン類似度を用いることができる。
 ここで、図4のステップS13における集合Zの生成方法を、図5のフローチャートに示す。初めに、集合Zを空集合として初期化する(ステップS21)。変数iを1からNに変化させて以下を実行する(ステップS22)。
 i番目の摂動事例z’を生成する(ステップS23)。摂動事例z’は、x’と同じく長さd’のバイナリベクトルである。摂動事例は、長さd’のバイナリベクトルが得られるのであればどのような方法で生成してもよい。たとえば、長さd’のバイナリベクトルを一様ランダムに生成することで得ることができる。図8に、生成された摂動事例z’の一例を示す。x’はすべての値が1であったことに対し、摂動事例z’は1や0の値を取る。
 摂動事例z’から変換元の空間における表現であるzを得る(ステップS24)。zはxと同じ長さdのベクトルである。たとえばタスクが画像分類であれば、バイナリベクトルから対応する画像を得る。上記の閾値法の場合、たとえば以下の方法で摂動事例z’からzを得ることができる。訓練事例集合においてd個の要素に関する平均と標準偏差を計算する。そしてこれらの平均と標準偏差をパラメータとするd個の正規分布からサンプリングし、z’と同じ条件に当てはまるサンプルをzとする。たとえば、図8に示す例であれば、z’は「x1≧3」「x2≧4」「x3<1」「x4<5」という4つの条件に当てはまるため、これらの条件に当てはまる値をランダムに生成してzとする。
 続いて、モデルfを用いて予測f(z)を得る(ステップS25)。zをfに入力することで、fによる予測f(z)を得る。続いて、近接度π(z)を得る(ステップS26)。そして、集合Zに、3つ組<z’,f(z),π(z)>を追加する(ステップS27)。
 上記処理をN回繰り返し(ステップS28)、最後に集合Zを出力する(ステップS29)。以上がステップS13の処理となる。
 (ステップS14)
 続いて、説明生成部15が、Zを入力として、xに対する説明w(ベクトルw)を生成する。具体的には、z’を訓練事例、f(z)を正解ラベル、π(z)を事例への重みとして、解釈可能モデルgを訓練し、訓練で得られたgのパラメータをwとして出力する。
 説明wの計算方法として、解釈可能モデルgが線形モデルである場合について説明する。解釈可能モデルgが線形モデルであるとき、以下の数1式のように表すことができる。
なお、ここでは説明の簡略化のために切片を省略した線形モデルを用いているが、常に1になる要素をzに追加するだけで切片を考慮した線形モデルにすることができる。
 このとき、N×d’の計画行列(design matrix)Dを以下の数2式で定義する。
 ここでz’ijは、z’のj番目の要素をあらわす。
 また、N個の摂動事例に対するモデルfの予測を表す長さNのベクトルfを、以下の数3式で定義する。
 さらに事例重み行列Πを、以下の数4式で表すN×Nの対角行列として定義する。
 このとき説明wは、以下の数5式に示す損失関数Lwを最小化するwである。
数5式の第1項は、fによる予測fとgによる予測Dwの二乗誤差に、近接度を重みとして付与したものである。第2項は正規化項である。係数λは任意の正の実数値である。
 上記の損失を最小化する説明wは、以下の数6式で計算できる。
Iはd’×d’の単位行列である。ここで行列Aを以下の数7式で定義する。
このとき、説明wは予測fの線形変換として、以下の数8式のように書ける。
 上記数8式は、線形変換なので微分可能である。
 以上のように、説明wを、モデルfの予測の微分可能な関数の形で得ることができる。説明が微分可能であることにより、後述するように、モデルfのパラメータθについて説明損失の勾配を計算でき、モデルfのパラメータθを更新することができる。
 ここで非特許文献1との差異について述べる。本実施の形態の説明生成部による説明の生成方法は、基本的には非特許文献1のAlgorithm1と類似している。しかし、非特許文献1ではk-Lassoという微分困難なモデルを説明用のモデルgとして採用している。何故なら非特許文献1では説明を生成することが最終的な目的であるため、微分を用いてモデルfのパラメータを更新することはないためである。
 一方、本実施の形態では、生成された説明を用いてfのパラメータを更新することが目的である。そのためK-Lassoではなく線形モデルをgとして用いることで、説明wをモデルfの予測の微分可能な関数の形で表している。これにより勾配を用いてfのパラメータを更新できるようになる。
 なお、本実施の形態では線形モデルを用いたが、説明wをモデルfの予測の微分可能な関数の形で表せるのであれば、他のモデルを用いてもよい。以上で、説明生成部15の動作の説明は終わる。
 続いて、図6を参照して、本実施の形態における情報処理装置10の全体の動作について説明する。
 初めに、入力部11への入力となる訓練事例集合、正解ラベル、説明評価基準について説明する。
 訓練事例集合Xは、数9式に示すように、M個の訓練事例からなる集合である。それぞれの事例は長さdのベクトルである。
 正解ラベルyは、数10式に示すように、モデルfが予測する対象となるラベルを表す長さMのベクトルである。
 正解ラベルyの要素は、判別(classification)であればクラス、回帰(regression)であれば実数値である。以下では、説明のため、回帰を想定して正解ラベルyは実数値であると仮定する。本発明は、判別にも回帰にも適用できる。
 なお、説明評価基準について後ほど説明する。
 次に、本実施の形態の目的関数について説明する。目的関数Lは、以下の数11式のように、予測損失と説明損失の重み付き和の形で与えられる。
 ここでPはj番目の訓練事例に関する予測損失であり、訓練事例に対してモデルfが出力する予測と正解ラベルが異なる度合いを表す値である。Eはj番目の訓練事例に関する説明損失であり、生成した説明が説明評価基準を満たしていない度合を表す値である。λは二つの損失のバランスを取るための係数である。
 この目的関数に対してパラメータを更新するためには、Pの勾配とEの勾配が計算できればよい。特に勾配降下法の更新式は以下の数12式のようになる。
 ただし、θ(t)はt番目の更新におけるパラメータ、ηは学習率(learning rate)である。ここで、数13式であるため、θに関するPの勾配とEの勾配が分かればパラメータを更新できる。そこで、ステップS32以下では、j=1,...,Mに関して、Pの勾配とEの勾配を計算する。
(ステップS31)
 入力部11が、訓練事例集合と正解ラベルと説明評価基準を受け付ける。
(ステップS32)
 j=1,...,Mに関して、以下を繰り返す。
(ステップS33)
 予測損失計算部13が、j番目の訓練事例xに関する予測損失の勾配を計算する。予測損失は、たとえば回帰であれば以下の数14式のような二乗誤差を用いることができる。
このときfに関する予測損失の勾配は、以下の数15式のように計算できる。
fに関する予測損失の勾配が分かれば、θに関する予測損失の勾配が、以下の数16式のように計算できる。θはθのk番目の要素である。
ニューラルネットワークであれば、数16式中の数17で示す項は、誤差逆伝搬法で計算できる。
(ステップS34)
 説明生成部15が、j番目の訓練事例xに関する説明wを生成する。生成方法は上記で説明した通りである。
(ステップS35)
 説明損失計算部14が、j番目の訓練事例xに関する説明損失の勾配を計算する。ここで、説明損失は、説明評価基準に応じて定義される。説明評価基準は、訓練事例に対する機械学習モデルの予測の説明が満たすべき基準である。説明評価基準は、生成された説明を評価できるような基準であればなんでもよい。典型的には、説明評価基準として、訓練事例に対する予測の説明として出力されるべき説明そのものである、正解説明を用いることができる。以下では、j番目の訓練事例に関連付けられた正解説明をvとする。vは長さd’のベクトルである。
 説明損失Eとしてはたとえば以下の数18式で示す2乗誤差を用いることができる。この説明損失Eは、j番目の訓練事例に対して生成された説明wが正解説明vと乖離しているほど大きくなる。
gが線形モデルであるとき、説明生成部15に関して定義した行列Aを用いて、数19式と書ける。
ここで、数19式中の数20式で示す項は、j番目の訓練事例に関して生成されたN個の摂動事例に関するfの予測を表す長さNのベクトルである。
 数20式に関する説明損失の勾配は、以下の数21式のように計算できる。
パラメータベクトルθのk番目の要素θに関する予測損失の勾配は、連鎖律により以下の数22式のようにベクトルの内積として書ける。
ここで、数22式中の数23式で示す項は、上述のように計算できる。
数22式中の数24式で示す項については、数20式の定義により、数25式となるため、N個の摂動事例に対するN回の予測について、fの勾配を計算すればよい。この勾配は、たとえばニューラルネットワークであれば誤差逆伝搬法を用いて計算できる。
(ステップS36)
 以上をM個の事例について繰り返して次のステップに移行する。
(ステップS37)
 続いて、パラメータ計算部12が、勾配を用いてパラメータθを計算する。ニューラルネットワークの場合は、勾配降下法によってパラメータθを更新できる。パラメータθに関するPとEの勾配は上記の通り既に計算されているため、これらを用いて勾配降下法の更新式によって更新すればよい。
(ステップS38)
 その後、更新されたパラメータを出力する。
 なお、ステップS32からS37までの手順を複数回繰り返してもよい。これによりパラメータは複数回更新され、そのぶん損失が減少してより良いパラメータに近づくことが期待される。
 続いて、実施形態1においてさらに取り得るバリエーションについて説明する。
(勾配ブースティングの場合)
 モデルfが勾配ブースティングの場合について説明する。勾配ブースティングにおいては、勾配降下法の更新式を用いる代わりに、疑似残差(pseudo-residuals)を目標値とするベース学習器(base learner)を追加することでパラメータの更新が行われる。勾配ブースティングにおいてはパラメータが一回の更新ごとに追加されていくと考えることができる。
 通常の勾配ブースティングでは、j番目の訓練事例に関する目標値となる疑似残差rを以下の数26式ように計算する。
 そして、数27式を訓練事例集合として、ベース学習器を訓練して追加する。
 本開示に適用する場合は、ベース学習器を訓練する際の訓練事例集合に、ひとつの訓練事例当たりさらに以下の数28式に示すN個の摂動事例を追加する。
ただし、摂動事例に関する疑似残差sは、以下の数29式のように計算する。
すなわちsは、数23式のi番目の要素に(-λ)をかけたものである。
 以上のように計算されたベース学習器を追加することで、予測損失だけでなく説明損失も減少するようにパラメータが更新される。
(説明評価基準の一例)
 上記では、説明評価基準として、訓練事例ごとに関連付けられた正解説明を用いる方法について説明した。ただし説明評価基準としては異なるものを用いてもよい。たとえば、説明評価基準は、説明に使用すべき訓練事例の要素を表す添字の集合でもよい。例としては以下のような集合である。
{2,3,5}
 上記のような集合が説明評価基準として与えられた場合、{x,x,x}が関わる説明にはマイナスの説明損失を与える。そして説明損失が小さくなるようにパラメータを更新する。これにより、{x,x,x}が関わる説明が優先して得られるようになる。たとえば、以下の数30式に示すような説明損失を用いることができる。
 ここでwj,lは、j番目の訓練事例に対して生成された説明wのl番目の要素を表す。1は、説明のl番目の要素が上述した添字集合が示す変数に関する場合に1となり、それ以外の場合に0となる変数であるとする。このようにして計算される説明評価基準と説明損失の一例を図9に示す。
 ここで、図3に示すように、入力部11の前に、正解説明付与部20が存在してもよい。正解説明付与部20は、訓練事例集合と、訓練事例に関連付けられた正解ラベルを受け付ける。正解説明付与部20は、訓練事例に正解説明を関連付ける。正解説明付与部20は、正解説明を説明評価基準として、訓練事例集合と正解ラベルとともに入力部11に与える。
 正解説明として、たとえば更新前の初期パラメータθを用いたときの説明を用いることができる。訓練事例ごとに初期パラメータθを用いて予測を計算したときの説明を生成して、これを正解説明とし、この正解説明と乖離している度合いを説明損失として用いる。
 また、正解説明は、訓練事例集合に含まれる全ての訓練事例に関連付けられている必要はなく、たとえば、既に一度人間に説明が提示された訓練事例のみに正解説明が関連付けられ、新たに追加された訓練事例には正解説明が関連付けられていなくてもよい。つまり、正解説明は、既に訓練されたことで訓練事例の入力に対して機械学習モデルが出力する予測値が正解ラベルと一致している当該訓練事例のみに、正解説明が関連付けられていてもよい。これにより、既に一度人間に提示された説明と新たな説明とをできるだけ一致するようにしつつ、最近追加された訓練事例に対する予測も当たるようにモデルを再訓練することができる。すなわち、過去に提示された説明との一貫性を保ちつつ、新たな事例に含まれる情報をモデルに取り込むことができる。
 <実施形態2>
 次に、本開示の第2の実施形態を、図10乃至図11を参照して説明する。図10乃至図11は、実施形態2における処理動作を説明するための図である。
 本実施形態で対象とする機械学習モデルは、複数のルールを用いて予測を行うモデルfであり、例えば、決定木や決定リストである。この場合、訓練データが決定木や決定リストにおいて該当するルールが予測の説明となる。つまり、本実施形態では、上述した説明生成部15は、決定木や決定リストにて訓練事例の入力に対して予測を行う際に、決定木や決定リストが出力した予測値に至る決定されたルールを、説明データとして生成する。そして、本実施形態では、上述したパラメータ計算部12は、上述同様に、出力された予測値と予め設定された正解値との差である予測損失と、決定されたルールである説明データと予め設定された正解ルールとの差である説明損失と、が小さくなるよう、決定木や決定リストのルール(パラメータ)を計算して学習する。
 ここで、図10に決定木の一例を示す。この図に示すように、決定木は、根ノードから複数の葉ノードに枝分かれして構成されており、根ノードから各葉ノードまでのパスで表される複数のルールとして存在している。このうち、最終的に至った1つの葉ノードが予測値となるが、与えられた事例において根ノードから各ノードを順に辿っていき、予測値となった1つの葉ノードまでのパスが決定ルールとなり、かかる決定ルールが説明データとなる。このため、説明生成部15は、図10に示すような決定木に訓練事例を与えた場合に、白抜き矢印に示すようなパスが決定ルールとなった場合には、かかる決定ルールを示す点線の枠で囲った決定ルール「x>1.5 AND x≦3.0 AND x>2.0」を説明データとして生成する。
 また、図11に決定リストの一例を示す。この図に示すように、決定リストは、複数のルールが順番に並べられたリストであり、予測の際には上位より順にルールを見ていき、与えられた事例を満たす1つ又は複数のルールが決定ルールとなり、かかる決定ルールが説明データとなる。このため、説明生成部15は、図11に示すような決定リストに訓練事例を与えた場合に、点線の枠で囲った3つのルールが決定ルールとなった場合には、かかる決定ルール「(x≦1.0 OR X≧2.0) AND x≦2.0 AND x<3.0」を説明データとして生成する。
 そして、本実施形態におけるパラメータ計算部12は、上述した実施形態1と同様に、予測値と正解値との差である予測損失と、決定されたルールである説明データと正解ルールとの差である説明損失の重み付き和と、からなる目的関数Lを最小とする予測モデルのパラメータであるルールを算出する。例えば、目的関数Lは、以下の数31式で表せる。
 ここで、モデルfに含まれるルール集合をR={r,・・・,r}とする。訓練事例集合をT={t,・・・,t}とする。また、訓練中の予測モデルをf、訓練前の予測モデルをfbとする。ここでは、訓練前の予測モデルfbによる予測値(fb(t))を正解値とし、訓練前の予測モデルfbのルール(rule(fb,t))を正解ルールとして用いることとする。
 上記Laccは、予測値f(t)と正解値f(fb(t))との予測誤差を表す予測損失である。予測損失Laccは、例えば、二乗誤差などの誤差関数で表すことができる。上記Lexpは、予測時に用いたルールrule(f,t)と、正解ルールrule(fb,t)との誤差を表す説明損失である。例えば、Lexpは、数32に示すような指標を用いることができる。
 ここで、例えば、上記目的関数Lを、損失関数の線形計画問題表現で表すことで、パラメータ計算部12による計算を行うことができる。つまり、目的関数Lを構成する「Lacc+λLexp」を線形計画問題表現で表す。このうち、Laccの表現方法は、予測モデルにより異なり、決定木や決定リストの表現方法は既知である。また、Lexpは、以下のように表せる。
 まず、2次元行列S={siji=1,...,m,j=1,...,nの各要素sijは、Lexp(r,rule(f,t))とする。つまり、事例xの予測に訓練前のモデルfbが用いたルールと、訓練中に出力されたルールrとの説明損失となる。また、2次元行列D={diji=1,...,m,j=1,...,nの各要素dijは、事例xの予測に用いた説明にrを使用した場合に1となり、それ以外は0となる。上記を用いて、Lexpは数33式にて表すことができる。
 なお、本実施形態においても、訓練事例の入力に対して機械学習モデルが出力する予測値が正解ラベルと一致している当該訓練事例のみに正解説明を関連付けてもよい。これにより、例えば、目的関数Lを以下の数34式にて表してもよい。このとき、第2項は正解している訓練事例に対しての予測損失であり、第3項は正解している訓練事例に対しての説明損失である。
 <実施形態3>
 次に、本開示の第3の実施形態を、図12乃至図13を参照して説明する。図12乃至図13は、実施形態3における情報処理装置の構成を示すブロック図である。なお、本実施形態では、上述した実施形態で説明した情報処理装置の構成の概略を示している。
 まず、図12を参照して、本実施形態における情報処理装置100のハードウェア構成を説明する。情報処理装置100は、一般的な情報処理装置にて構成されており、一例として、以下のようなハードウェア構成を装備している。
 ・CPU(Central Processing Unit)101(演算装置)
 ・ROM(Read Only Memory)102(記憶装置)
 ・RAM(Random Access Memory)103(記憶装置)
 ・RAM103にロードされるプログラム群104
 ・プログラム群104を格納する記憶装置105
 ・情報処理装置外部の記憶媒体110の読み書きを行うドライブ装置106
 ・情報処理装置外部の通信ネットワーク111と接続する通信インタフェース107
 ・データの入出力を行う入出力インタフェース108
 ・各構成要素を接続するバス109
 そして、情報処理装置100は、プログラム群104をCPU101が取得して当該CPU101が実行することで、図13に示す説明生成部121とパラメータ計算部122とを構築して装備することができる。なお、プログラム群104は、例えば、予め記憶装置105やROM102に格納されており、必要に応じてCPU101がRAM103にロードして実行する。また、プログラム群104は、通信ネットワーク111を介してCPU101に供給されてもよいし、予め記憶媒体110に格納されており、ドライブ装置106が該プログラムを読み出してCPU101に供給してもよい。但し、上述した説明生成部121とパラメータ計算部122とは、かかる手段を実現させるための専用の電子回路で構築されるものであってもよい。
 なお、図12は、情報処理装置100である情報処理装置のハードウェア構成の一例を示しており、情報処理装置のハードウェア構成は上述した場合に限定されない。例えば、情報処理装置は、ドライブ装置106を有さないなど、上述した構成の一部から構成されてもよい。また、情報処理装置は、上述したCPUの代わりに、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、TPU(TensorProcessingUnit)、量子プロセッサ、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。
 上記説明生成部121は、訓練データの入力に対して機械学習モデルが出力する予測値を説明する説明データを生成する。一例として、機械学習モデルは、目的関数の勾配を用いてパラメータを更新できるモデルであり、訓練データの予測値に対する重要度に基づいて説明データを生成することができる。また、一例として、機械学習モデルは、複数のルールを用いて予測値を予測するモデルであり、訓練データが機械学習モデルにおいて該当するルールを説明データとして生成することができる。
 上記パラメータ計算部122は、訓練データの入力に対する機械学習モデルが出力する予測値と予め設定された正解値とが異なる度合いを表す予測損失と、説明データが予め設定された説明データが満たすべき基準を満たしていない度合いを表す説明損失と、が小さくなるよう機械学習モデルのパラメータを計算する。例えば、説明損失は、説明データに対する正解データが与えられている場合には、生成された説明データと正解データとの差異とする。
 本開示は、以上のように構成されることにより、予測損失と説明損失とが小さくなるよう機械学習モデルのパラメータを更新することで、機械学習モデルによる予測値に対する説明が事例ごとに異なることを抑制することができる。
 なお、上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
 以上、上記実施形態等を参照して本開示を説明したが、本開示は、上述した実施形態に限定されるものではない。本開示の構成や詳細には、本開示の範囲内で当業者が理解しうる様々な変更をすることができる。また、上述した説明生成部、パラメータ計算部の機能のうちの少なくとも一以上の機能は、ネットワーク上のいかなる場所に設置され接続された情報処理装置で実行されてもよく、つまり、いわゆるクラウドコンピューティングで実行されてもよい。
 <付記>
 上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本開示における情報処理装置、情報処理方法、プログラムの構成の概略を説明する。但し、本開示は、以下の構成に限定されない。
(付記1)
 訓練データの入力に対して機械学習モデルが出力する予測値を説明する説明データを生成する説明生成部と、
 前記訓練データの入力に対する前記機械学習モデルが出力する予測値と予め設定された正解値とが異なる度合いを表す予測損失と、前記説明データが予め設定された当該説明データが満たすべき基準を満たしていない度合いを表す説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算するパラメータ計算部と、
を備えた情報処理装置。
(付記2)
 付記1に記載の情報処理装置であって、
 前記パラメータ計算部は、前記予測損失と、前記説明データと予め設定された正解説明データとが異なる度合いを表す前記説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算する、
情報処理装置。
(付記3)
 付記1に記載の情報処理装置であって、
 前記パラメータ計算部は、前記予測損失と、複数の要素からなる前記説明データの重み付き和に基づく前記説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算する、
情報処理装置。
(付記4)
 付記1に記載の情報処理装置であって、
 前記説明生成部は、前記訓練データを構成する要素毎の前記機械学習モデルによる予測値に対する重要度に基づいて前記説明データを生成する、
情報処理装置。
(付記5)
 付記4に記載の情報処理装置であって、
 前記説明生成部は、前記機械学習モデルを用いた微分可能な関数を前記重要度として用いて前記説明データを生成し、
 前記パラメータ計算部は、前記関数の微分を利用して前記説明損失の勾配を計算することで前記機械学習モデルのパラメータを計算する、
情報処理装置。
(付記6)
 付記5に記載の情報処理装置であって、
 前記説明生成部は、前記訓練データに基づいて生成した第2の訓練データを用いて前記機械学習モデルに基づく第2の機械学習モデルを訓練した場合における当該第2の機械学習モデルのパラメータを前記関数として前記説明データを生成する、
て生成する、
情報処理装置。
(付記7)
 付記1に記載の情報処理装置であって、
 前記機械学習モデルが複数のルールを用いて予測値を予測するモデルであり、
 前記説明生成部は、前記訓練データが前記機械学習モデルにおいて該当するルールを前記説明データとして生成し、
 前記パラメータ計算部は、前記予測損失と、前記説明データと予め設定された正解ルールとが異なる度合いを表す前記説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算する、
情報処理装置。
(付記8)
 付記2に記載の情報処理装置であって、
 前記訓練データに前記正解説明データを関連付ける正解説明付与部を備え、
 前記正解説明付与部は、前記訓練データと、当該訓練データに対応する正解ラベルと、前記機械学習モデルの初期パラメータと、を取得して、前記初期パラメータを前記機械学習モデルのパラメータとして用いて当該機械学習モデルに前記訓練データを入力したときに生成された前記説明データを前記正解説明データとして当該訓練データに関連付ける、
情報処理装置。
(付記9)
 付記8に記載の情報処理装置であって、
 前記正解説明付与部は、前記訓練データの入力に対する前記機械学習モデルが出力する前記予測値が前記正解値と一致している場合における当該訓練データのみに、前記正解説明データを関連付ける、
情報処理装置。
(付記10)
 訓練データの入力に対して機械学習モデルが出力する予測値を説明する説明データを生成し、
 前記訓練データの入力に対する前記機械学習モデルが出力する予測値と予め設定された正解値とが異なる度合いを表す予測損失と、前記説明データが予め設定された当該説明データが満たすべき基準を満たしていない度合いを表す説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算する、
情報処理方法。
(付記11)
 訓練データの入力に対して機械学習モデルが出力する予測値を説明する説明データを生成し、
 前記訓練データの入力に対する前記機械学習モデルが出力する予測値と予め設定された正解値とが異なる度合いを表す予測損失と、前記説明データが予め設定された当該説明データが満たすべき基準を満たしていない度合いを表す説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算する、
処理をコンピュータに実行させるためのプログラムを記憶したコンピュータにて読み取り可能な記憶媒体。
10 情報処理装置
11 入力部
12 パラメータ計算部
13 予測損失計算部
14 説明損失計算部
15 説明生成部
20 正解説明付与部
100 情報処理装置
101 CPU
102 ROM
103 RAM
104 プログラム群
105 記憶装置
106 ドライブ装置
107 通信インタフェース
108 入出力インタフェース
109 バス
110 記憶媒体
111 通信ネットワーク
121 説明生成部
122 パラメータ計算部
 

Claims (11)

  1.  訓練データの入力に対して機械学習モデルが出力する予測値を説明する説明データを生成する説明生成部と、
     前記訓練データの入力に対する前記機械学習モデルが出力する予測値と予め設定された正解値とが異なる度合いを表す予測損失と、前記説明データが予め設定された当該説明データが満たすべき基準を満たしていない度合いを表す説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算するパラメータ計算部と、
    を備えた情報処理装置。
  2.  請求項1に記載の情報処理装置であって、
     前記パラメータ計算部は、前記予測損失と、前記説明データと予め設定された正解説明データとが異なる度合いを表す前記説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算する、
    情報処理装置。
  3.  請求項1に記載の情報処理装置であって、
     前記パラメータ計算部は、前記予測損失と、複数の要素からなる前記説明データの重み付き和に基づく前記説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算する、
    情報処理装置。
  4.  請求項1に記載の情報処理装置であって、
     前記説明生成部は、前記訓練データを構成する要素毎の前記機械学習モデルによる予測値に対する重要度に基づいて前記説明データを生成する、
    情報処理装置。
  5.  請求項4に記載の情報処理装置であって、
     前記説明生成部は、前記機械学習モデルを用いた微分可能な関数を前記重要度として用いて前記説明データを生成し、
     前記パラメータ計算部は、前記関数の微分を利用して前記説明損失の勾配を計算することで前記機械学習モデルのパラメータを計算する、
    情報処理装置。
  6.  請求項5に記載の情報処理装置であって、
     前記説明生成部は、前記訓練データに基づいて生成した第2の訓練データを用いて前記機械学習モデルに基づく第2の機械学習モデルを訓練した場合における当該第2の機械学習モデルのパラメータを前記関数として前記説明データを生成する、
    て生成する、
    情報処理装置。
  7.  請求項1に記載の情報処理装置であって、
     前記機械学習モデルが複数のルールを用いて予測値を予測するモデルであり、
     前記説明生成部は、前記訓練データが前記機械学習モデルにおいて該当するルールを前記説明データとして生成し、
     前記パラメータ計算部は、前記予測損失と、前記説明データと予め設定された正解ルールとが異なる度合いを表す前記説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算する、
    情報処理装置。
  8.  請求項2に記載の情報処理装置であって、
     前記訓練データに前記正解説明データを関連付ける正解説明付与部を備え、
     前記正解説明付与部は、前記訓練データと、当該訓練データに対応する正解ラベルと、前記機械学習モデルの初期パラメータと、を取得して、前記初期パラメータを前記機械学習モデルのパラメータとして用いて当該機械学習モデルに前記訓練データを入力したときに生成された前記説明データを前記正解説明データとして当該訓練データに関連付ける、
    情報処理装置。
  9.  請求項8に記載の情報処理装置であって、
     前記正解説明付与部は、前記訓練データの入力に対する前記機械学習モデルが出力する前記予測値が前記正解値と一致している場合における当該訓練データのみに、前記正解説明データを関連付ける、
    情報処理装置。
  10.  訓練データの入力に対して機械学習モデルが出力する予測値を説明する説明データを生成し、
     前記訓練データの入力に対する前記機械学習モデルが出力する予測値と予め設定された正解値とが異なる度合いを表す予測損失と、前記説明データが予め設定された当該説明データが満たすべき基準を満たしていない度合いを表す説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算する、
    情報処理方法。
  11.  訓練データの入力に対して機械学習モデルが出力する予測値を説明する説明データを生成し、
     前記訓練データの入力に対する前記機械学習モデルが出力する予測値と予め設定された正解値とが異なる度合いを表す予測損失と、前記説明データが予め設定された当該説明データが満たすべき基準を満たしていない度合いを表す説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算する、
    処理をコンピュータに実行させるためのプログラムを記憶したコンピュータにて読み取り可能な記憶媒体。
     
PCT/JP2022/023497 2022-06-10 2022-06-10 情報処理装置、情報処理方法、プログラム WO2023238395A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/023497 WO2023238395A1 (ja) 2022-06-10 2022-06-10 情報処理装置、情報処理方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/023497 WO2023238395A1 (ja) 2022-06-10 2022-06-10 情報処理装置、情報処理方法、プログラム

Publications (1)

Publication Number Publication Date
WO2023238395A1 true WO2023238395A1 (ja) 2023-12-14

Family

ID=89117859

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/023497 WO2023238395A1 (ja) 2022-06-10 2022-06-10 情報処理装置、情報処理方法、プログラム

Country Status (1)

Country Link
WO (1) WO2023238395A1 (ja)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GAO YUYANG; SUN TONG; BHATT RISHAB; YU DAZHOU; HONG SUNGSOO; ZHAO LIANG: "GNES: Learning to Explain Graph Neural Networks", 2021 IEEE INTERNATIONAL CONFERENCE ON DATA MINING (ICDM), IEEE, 7 December 2021 (2021-12-07), pages 131 - 140, XP034045141, DOI: 10.1109/ICDM51629.2021.00023 *
ZIJIAN ZHANG; KOUSTAV RUDRA; AVISHEK ANAND: "Explain and Predict, and then Predict again", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 11 January 2021 (2021-01-11), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081856875, DOI: 10.1145/3437963.3441758 *

Similar Documents

Publication Publication Date Title
Evermann et al. A deep learning approach for predicting process behaviour at runtime
US11443235B2 (en) Identifying optimal weights to improve prediction accuracy in machine learning techniques
Lundberg et al. An unexpected unity among methods for interpreting model predictions
US11593618B2 (en) Data processing apparatus, data processing method, and storage medium
US20160358068A1 (en) Reducing computations in a neural network
US20220383126A1 (en) Low-Rank Adaptation of Neural Network Models
KR20220038907A (ko) 생성적 대립 신경망(gan) 기반의 데이터 예측 방법, 그리고 이를 구현하기 위한 장치
KR102366302B1 (ko) 준 지도 학습을 위한 오토인코더 기반 그래프 설계
WO2020226634A1 (en) Distributed synchronous training architecture using stale weights
JP2018067039A (ja) 学習装置、学習方法および学習プログラム
CN115699041A (zh) 利用专家模型的可扩展迁移学习
KR20190141581A (ko) 데이터 예측을 위한 인공신경망을 학습하는 방법 및 장치
JP2021072100A (ja) 情報処理装置、統合モデル生成方法、及び統合モデル生成プログラム
WO2023238395A1 (ja) 情報処理装置、情報処理方法、プログラム
Al-Shamiri et al. Harmony search algorithms for optimizing extreme learning machines
WO2020059136A1 (ja) 決定リスト学習装置、決定リスト学習方法および決定リスト学習プログラム
JP7242595B2 (ja) 学習装置、推論装置、学習方法及び推論方法
KR20220073636A (ko) 커널 밀도 추정에 기반한 기계학습 수행 방법 및 장치
Hemkiran et al. Design of Automatic Credit Card Approval System Using Machine Learning
WO2024180648A1 (ja) 情報処理装置、情報処理方法、プログラム
US20240211808A1 (en) Learning apparatus, learning method, and program
WO2024157507A1 (ja) モデル評価装置、モデル評価方法、プログラム
US20240095558A1 (en) Information processing apparatus, information processing method, and program
Joudar et al. Using continuous hopfield neural network for choice architecture of probabilistic self-organizing map
Teng et al. A Simulated Annealing BP Algorithm for Adaptive Temperature Setting

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22945893

Country of ref document: EP

Kind code of ref document: A1