WO2023002648A1 - 情報処理方法及び情報処理システム - Google Patents

情報処理方法及び情報処理システム Download PDF

Info

Publication number
WO2023002648A1
WO2023002648A1 PCT/JP2022/003897 JP2022003897W WO2023002648A1 WO 2023002648 A1 WO2023002648 A1 WO 2023002648A1 JP 2022003897 W JP2022003897 W JP 2022003897W WO 2023002648 A1 WO2023002648 A1 WO 2023002648A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning data
learning
information processing
model
data
Prior art date
Application number
PCT/JP2022/003897
Other languages
English (en)
French (fr)
Inventor
知伸 辻川
愉希夫 大渕
由幸 小林
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to EP22845589.5A priority Critical patent/EP4375890A1/en
Priority to CN202280050196.8A priority patent/CN117730332A/zh
Publication of WO2023002648A1 publication Critical patent/WO2023002648A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Definitions

  • this disclosure relates to an information processing method and an information processing system that perform processing related to learning of a machine learning model.
  • Artificial intelligence can analyze and estimate huge amounts of data, and is used for image recognition, voice recognition, and natural language processing, for example.
  • Artificial intelligence is realized by learning a machine learning model composed of a neural network or the like. By performing deep learning using a huge amount of data sets for learning, it is possible to obtain artificial intelligence that realizes inference that exceeds human ability.
  • the process by which artificial intelligence reaches an inference result is black-boxed, making it difficult to understand the grounds for its judgment.
  • Gradient-weighted Class Activation Mapping has been developed as a technology for visualizing the basis of decisions made by deep learning machine learning models.
  • Grad -An analysis program has been proposed that is written to generate a map indicating the degree of attention of each image part of an incorrectly inferred image that was focused on during inference by using the CAM method (see Patent Document 1). .
  • An object of the present disclosure is to provide an information processing method and an information processing system for processing learning data used for learning a machine learning model.
  • the present disclosure has been made in consideration of the above problems, and a first aspect thereof is an information processing method for processing learning data used for learning a machine learning model, a determining step of determining characteristics of each training data based on inference results of the machine learning model for the training data; a presentation step of presenting an evaluation result of the learning data based on the determined characteristics; It is an information processing method having
  • the determining step based on the expected value for each label output by the machine learning model for the learning data, the physical characteristics of the object corresponding to each learning data are determined, and each object having the determined physical characteristics is determined. Perform physics simulation calculations between Specifically, in the determination step, the mass of the object corresponding to the learning data is determined based on the magnitude of the expected value of the correct label, and each mass is determined based on the match/mismatch of the label with a high expected value or the label with a low expected value. Attractive force and repulsive force acting between objects corresponding to learning data are determined, and motion information of each object is calculated by physics simulation calculation based on these physical characteristics. Then, in the presenting step, each object displayed on the screen of the display device is moved based on the movement information calculated in the determining step.
  • the information processing method may further include an input step of inputting a user's operation on the object displayed on the screen of the display device.
  • the user can exclude the learning data corresponding to the object for which the deletion operation has been performed on the screen in the input step from the learning target of the machine learning model. In this way, custom data sets for each user can be created.
  • a second aspect of the present disclosure is an information processing system that performs processing related to learning data used for learning a machine learning model, a determination unit that determines characteristics of each learning data based on the inference result of the machine learning model for the learning data; a presentation unit that presents an evaluation result of the learning data based on the determined characteristics; It is an information processing system including
  • system refers to a logical assembly of multiple devices (or functional modules that implement specific functions), and each device or functional module is in a single housing. It does not matter whether or not In other words, both a single device consisting of a plurality of parts or functional modules and an assembly of a plurality of devices correspond to a "system.”
  • the determining unit determines the physical characteristics of the object corresponding to each learning data based on the expected value for each label output by the machine learning model for the learning data, and determines the physical characteristics of each object having the determined physical characteristics.
  • a physics simulation calculation is performed between the objects to calculate the motion information of each object. Then, the presentation unit moves each object displayed on the screen of the display device based on the motion information calculated in the determination step.
  • the information processing system is composed of one or more devices.
  • the information processing device includes a first device including the determination unit and a second device including the presentation unit.
  • the second device may include a display device for displaying an evaluation result of learning data based on the determined characteristics on a screen, and an input unit for inputting a user's operation on the screen.
  • the information processing system may further include a third device including a model updating unit that updates the machine learning model by learning using learning data.
  • FIG. 1 is a diagram showing a functional configuration example of a learning system 100.
  • FIG. 2 is a diagram showing a configuration example of the machine learning model 200.
  • FIG. 3 is a diagram exemplifying the transition of inference results according to the number of learning times (the number of epochs) of the machine learning model 200.
  • FIG. 4 is a diagram showing physical properties determined for inference results for the learning data illustrated in FIG.
  • FIG. 5 is a diagram exemplifying a dynamic model composed of objects corresponding to each learning data.
  • FIG. 6 is a diagram showing a configuration example of a GUI screen that displays evaluation results of learning data used for learning a machine learning model.
  • FIG. 1 is a diagram showing a functional configuration example of a learning system 100.
  • FIG. 2 is a diagram showing a configuration example of the machine learning model 200.
  • FIG. 3 is a diagram exemplifying the transition of inference results according to the number of learning times (the number of epochs) of
  • FIG. 7 is a diagram showing how a GUI operation is performed on the GUI screen shown in FIG.
  • FIG. 8 is a diagram showing how a GUI operation is performed on the GUI screen shown in FIG.
  • FIG. 9 is a diagram showing how the evaluation result of the learning data changes on the GUI screen during learning of the machine learning model.
  • FIG. 10 is a diagram showing an example of a judgment base image with a heat map display calculated based on the Grad-CAM algorithm.
  • FIG. 11 is a diagram showing another example of a judgment basis image with heat map display calculated based on the Grad-CAM algorithm.
  • FIG. 12 is a diagram showing an example of GUI operation for displaying detailed information of learning data.
  • FIG. 13 is a diagram showing an example of GUI operation for displaying detailed information of learning data.
  • FIG. 14 is a flowchart showing a processing procedure performed by the learning data evaluation unit 120.
  • FIG. 15 is a diagram showing a hardware configuration example of an information processing system 1500. As shown in FIG.
  • Artificial intelligence consists of models using types such as neural networks, support vector regression, and Gaussian process regression. For the sake of convenience, the present specification will focus on embodiments using a neural network model, but the present disclosure is not limited to a specific model type, and is equally applicable to models other than neural networks.
  • the use of artificial intelligence consists of a "learning phase” in which models are trained and an “inference phase” in which inferences are made using the trained models. Inference includes recognition processing such as image recognition and voice recognition, and prediction processing for estimating and predicting events.
  • recognition processing such as image recognition and voice recognition
  • prediction processing for estimating and predicting events.
  • the learning phase of artificial intelligence using a data set consisting of a combination of the data input to the model (hereinafter also referred to as "input data”) and the labels that you want the model to estimate for the input data, each input data
  • the model is trained by a learning algorithm such as error backpropagation so that it can output the correct label corresponding to .
  • a model that has been trained in the learning phase (hereinafter also referred to as a "trained model”) outputs appropriate labels for input data.
  • the present disclosure proposes a method and system for evaluating training data during model training and presenting evaluation results to a user.
  • a user here is specifically a developer of a machine learning model.
  • evaluation of learning data the ranking of individual learning data is calculated, the relationship between learning data is evaluated, and such evaluation results are displayed on a computer GUI (Graphical User Interface) screen. be used and presented to the user. Therefore, through the GUI screen, the user can grasp that there is a problem in the learning data used for the machine learning model during learning, select the problematic learning data, and reduce the time required for re-learning. loss can be reduced. That is, the user can proceed with the learning of the machine learning model while visually confirming the influence of the learning data.
  • GUI Graphic User Interface
  • FIG. 1 shows a functional configuration example of a learning system 100 to which the present disclosure is applied.
  • the illustrated learning system 100 is used by being mounted on an edge device, for example, but some or all of the functions of the learning system 100 may be built on a cloud or an arithmetic device capable of large-scale computation.
  • the learning system 100 will be described as learning a machine learning model that mainly performs image classification, such as object recognition and face recognition.
  • the present disclosure is not limited to this, and the learning system 100 may learn a machine learning model that performs inference other than image classification.
  • the illustrated learning system 100 includes a learning data storage unit 101, a model update unit 102, a model parameter storage unit 103, an inference unit 111, a data input unit 112, and an input data processing unit 113.
  • the learning data holding unit 101, the model updating unit 102, and the model parameter holding unit 103 operate in the learning phase of the machine learning model
  • the inference unit 111, the data input unit 112, and the input data processing unit 113 operate in the learning phase. It operates in the inference phase using the pre-existing model.
  • the learning system 100 is used by being mounted on an edge device, for example, but some or all of the functions of the learning system 100 may be built on a cloud or an arithmetic device capable of large-scale computation.
  • the learning system 100 includes a learning data providing unit 130 that provides learning data used for learning the machine learning model, and a model updating unit 102 that evaluates the learning data used for learning the machine learning model.
  • a learning data evaluation unit 120 is further provided.
  • the learning data evaluation unit 120 includes a physics simulation calculation unit 121 , an evaluation result presentation unit 122 , and a judgment basis calculation unit 123 .
  • the learning data evaluation unit 120 may be the same system as the learning system 100 or may be a system configured independently from the learning system 100 .
  • a system that implements the learning data evaluation unit 120 is used by being mounted on, for example, an edge device, but part or all of the functions of this system may be built on a cloud or a computing device capable of large-scale computation.
  • the learning data providing unit 130 supplies learning data that the model updating unit 102 uses for model learning.
  • Learning data basically consists of a data set (x, y) that combines input data x to be input to a model to be learned and correct label y that is the correct answer for input data x.
  • the learning data providing unit 130 for example, in the case of a digital camera, stores a photographed image and a correct label (what is the subject of the photographed image).
  • Provide learning data consisting of combinations. For example, learning data composed of images captured by a large number of digital cameras is provided to the learning system 100 via a wide area network such as the Internet.
  • the learning data holding unit 101 accumulates learning data that the model updating unit 102 uses for model learning.
  • Each piece of learning data consists of a data set combining input data to be input to a model to be learned and correct labels to be inferred by the model.
  • the learning data holding unit 101 stores data sets provided by the learning data providing unit 130, but may also store data sets obtained from other sources. When the model updating unit 102 performs deep learning, a large amount of data sets are accumulated in the learning data holding unit 101 .
  • a custom data set can be generated at the discretion of the user.
  • the learning data holding unit 101 associates a data set customized for each user with, for example, identification information for each user, and provides general data provided by the learning data providing unit 130 or acquired from other sources. You may make it hold separately from a set.
  • the model updating unit 102 sequentially reads the learning data from the learning data holding unit 101, performs learning of the machine learning model to be learned, and updates the machine learning model.
  • the machine learning model is composed of, for example, a neural network, but may be a model using support vector regression, Gaussian process regression, or the like.
  • a machine learning model consisting of a neural network consists of an input layer that inputs data such as images (explanatory variables), an output layer that outputs labels (objective variables) that are inference results for the input data, an input layer and an output layer. consists of multiple layers of one or more intermediate layers (or hidden layers) between Each layer consists of a plurality of nodes corresponding to neurons.
  • the connections between nodes between layers have weights, and the data input to the input layer undergoes value conversion in the process of passing from layer to layer.
  • the model update unit 102 calculates a loss function defined based on the error between the label output from the machine learning model for the input data and the known correct label corresponding to the input data, and calculates the loss function
  • a machine learning model is learned while updating model parameters (such as weight coefficients between nodes) by error backpropagation so that is minimized. Since the learning process of the machine learning model requires a huge amount of calculation, distributed learning may be performed using multiple GPUs (Graphics Processing Units) or multiple computation nodes.
  • a model parameter is a variable element that defines a model, and is, for example, a connection weighting factor given between nodes of a neural network model.
  • the inference unit 111, the data input unit 112, and the input data processing unit 113 perform the inference phase of the trained model.
  • the data input unit 112 inputs sensor information acquired by a sensor provided in the edge device.
  • the input data processing unit 113 processes the data input from the data input unit 112 into a data format that can be input to a model (for example, a neural network model), and inputs the processed data to the inference unit 111 .
  • the inference unit 111 outputs a label inferred from input data using a model in which model parameters read from the model parameter storage unit 103 are set, that is, a trained model.
  • the learning data evaluation unit 120 evaluates each learning data used for learning the machine learning model in the model updating unit 102 .
  • the learning data evaluation unit 120 includes a physics simulation calculation unit 121 and an evaluation result presentation unit 122 .
  • the physics simulation calculation unit 121 determines the physical characteristics of each piece of learning data based on the inference result of the learning data by the model during learning. Specifically, the physics simulation calculation unit 121 determines the force acting on the learning data based on the inference result of each learning data by the machine learning model.
  • the force here includes the mass (gravitational force) of learning data, buoyancy, and the attraction or repulsion acting between other learning data. Also, the physics simulation calculation unit 121 may determine physical quantities such as the size (volume) and shape of learning data in addition to the acting force.
  • the physics simulation calculation unit 121 performs physics simulation calculation based on the physical quantity such as the magnitude of the acting force of each learning data determined according to the result of inference by the model during learning, and calculates the movement of each learning data. decide.
  • An example of the physical simulation calculation is the FD (Force-Directed) method.
  • the evaluation result presentation unit 122 presents a GUI screen in which a plurality of objects corresponding to each learning data are arranged and visually ranked based on the motion information determined based on the physics simulation calculation. On this GUI screen, it is possible to perform GUI operations on objects corresponding to each learning data, such as dragging and dropping.
  • the evaluation result presentation unit 122 may include a display device that displays a GUI screen, and an input device (mouse, touch panel, keyboard, etc.) for performing user operations on the GUI screen.
  • the judgment basis calculation unit 123 calculates the judgment basis for inference on learning data by the machine learning model being learned in the model updating unit 102 .
  • Grad-CAM Grad-weighted Class Activation Mapping
  • LIME Land Interpretable Model-agnostic Explanations
  • LIME Machine learning model inference using one or more XAI algorithms such as SHAP (SHApley Additive exPlanations), TCAV (Testing with Concept Activation Vectors) (see, for example, Non-Patent Document 3), which is an advanced form Calculate the basis for judgment.
  • the evaluation result presentation unit 122 determines the inference of the machine learning model for the learning data in response to an operation (for example, a mouse over operation or a mouse button pressing operation) to an object corresponding to each learning data on the GUI screen. You may make it present the grounds of further.
  • the judgment basis calculation of the machine learning model using the XAI algorithm such as Grad-CAM, LIME / SHAP, TCAV is performed in the learning system 100 instead of the learning data evaluation unit 120, and the calculation result of the judgment basis is learned. It may be passed from the system 100 to the learning data evaluation unit 120 .
  • the physics simulation calculation unit 121 determines the physical characteristics of each piece of learning data and performs the physics simulation calculation each time learning is performed, and the evaluation result presentation unit 122 updates the GUI screen.
  • the learning data evaluation unit 120 evaluates the learning data used for learning the machine learning model in the model updating unit 102 .
  • the learning data evaluation unit 120 includes a physics simulation calculation unit 121 and an evaluation result presentation unit 122 .
  • the physics simulation calculation unit 121 determines the physical characteristics of each piece of learning data based on the inference results of the learning data by the model during learning, and further calculates the motion information of each piece of learning data on a two-dimensional plane or three-dimensional space by physics simulation calculation.
  • the evaluation result presenting unit 122 presents a GUI screen in which objects corresponding to each learning data are arranged based on the motion information determined based on the physical simulation calculation.
  • the processing implemented in the learning data evaluation unit 120 will be described in detail.
  • the model updating unit 102 learns the machine learning model 200 as shown in FIG.
  • the machine learning model 200 is configured by, for example, a neural network, and performs learning using the learning data read from the learning data holding unit 101 .
  • machine learning model 200 performs image classification. That is, the input data to the machine learning model 200 is an image, and the machine learning model 200 infers whether the subject included in the image is one of predefined labels 1 to 5, and the expected value for each label (or likelihood). For example, label 1 is horse, label 2 is cat, label 3 is dog, label 4 is cow, and label 5 is bird.
  • the machine learning model 200 it is assumed that the inference results for the same learning data will change according to the number of times of learning (or the number of epochs). For example, when the number of times of learning is small and the learning is not progressing much, the machine learning model 200 outputs a low expected value for the correct label and a high threshold for the incorrect label, but the learning progress state , the machine learning model 200 gradually transitions to output a higher expected value for the correct label.
  • FIG. 3 exemplifies the transition of the inference results of the machine learning model 200 according to the number of times of learning (the number of epochs) for the same learning data.
  • the learning data is the inference result of the machine learning model 200 for the input image with label 3 as the correct answer. (However, for simplification of the drawing, specific expected values are entered only for the number of times of learning E1, E2, and E3, and details of the other number of times of learning are omitted.).
  • the machine learning model 200 outputs a low expected value of "0.1" for the correct label 3 at the learning number E1 when learning has not progressed, while outputting "0.5” for the incorrect label 1. output a high expected value. After that, as the number of times of learning increases E2 times and E3 times, the learning of the machine learning model 200 progresses, and gradually high expected values such as "0.5” and "0.8” are output for the correct label 3. , and low expected values such as "0.1” and "0.0" are output to the dictionary for label 1, which is an incorrect answer.
  • the physics simulation calculation unit 121 determines the physical properties of each learning data based on the inference results of the learning data by the machine learning model learned by the model updating unit 102 . Since the inference result for the same learning data changes according to the number of times of learning, the physics simulation calculation unit 121, for example, uses a predetermined number of learning data to update the model parameters (or each epoch), Physical characteristics of each piece of learning data are determined based on the inference result of each piece of learning data by the machine learning model 200 .
  • the physics simulation calculation unit 121 determines the physical properties of the learning data according to the inference results of the machine learning model 200 .
  • the inference result of the learning data by the machine learning model 200 consists of the expected value of each label for the input data. Therefore, based on the expected value of the correct label, the physics simulation calculation unit 121 performs mass (gravitational force), buoyancy, attraction or repulsion acting between learning data, size (volume) and Determine physical quantities such as shape. Therefore, the evaluation result presenting unit 122 in the latter stage can express each piece of learning data as an object having physical properties determined by the physical simulation calculating unit 121 .
  • the physics simulation calculation unit 121 determines a light mass and a small size for learning data with a low expected value for the correct label, and determines a heavy mass and a large size for learning data with a high expected value for the correct label. to decide. Therefore, we expect to express the inference result of the training data by using the property that heavy objects try to sink and light objects try to float. Also, when the expected value of the correct label gradually increases as the number of times of learning increases, a light mass is determined for the learning data at first, but is updated to a heavy mass after that.
  • the buoyancy may be determined according to the size of the object, or may be determined based only on the expected value for the correct label without depending on the size of the object.
  • an attractive force acts between learning data with matching labels for which a high expected value is output from the machine learning model 200, and a low expected value is output from the machine learning model 200 for the same label.
  • Attractive force and repulsive force acting between learning data are determined such that a repulsive force acts between a learning model outputting a high expected value and a learning model outputting a high expected value. Therefore, learning data with high expected values for the same label are attracted by attraction.
  • the inference result of the training data can be expressed by utilizing the property that training data with a high expectation value and training data with a low expectation value for the same label tend to separate due to repulsive force.
  • the learning data in which the expected value of the correct label gradually increases as the number of learning times increases, the learning data first attracts the learning data of the incorrect label, but then the correct label is attracted. It will come to attract with the same learning data.
  • FIG. 4 shows the transition example of the inference result according to the number of learning times (epoch number) for certain learning data shown in FIG.
  • the machine learning model 200 When learning is not progressing and the number of times of learning is E1, the machine learning model 200 infers this learning data and outputs a low expected value of "0.1" for label 3, which is the correct answer. Therefore, the physics simulation calculation unit 121 determines a light mass and a small size for this learning data because the expected value to be output for the correct label is low at this point. The physics simulation calculation unit 121 may further determine that a large buoyant force acts on this learning data. In addition, since the machine learning model 200 outputs the highest expected value of “0.5” for label 1, which is an incorrect answer, the physics simulation calculation unit 121 selects another learning model with a high expected value for label 1. Determine the attractive forces acting between the data and this training data.
  • the physics simulation calculation unit 121 outputs a higher expected value for the labels 3 to 5. Determine the repulsive force acting between this training data and other training data with .
  • the machine learning model 200 outputs an average expected value of “0.2” for the label 2
  • the physics simulation calculation unit 121 compares it with other learning data having a high expected value for the label 2. It is determined that neither attractive force nor repulsive force acts between this learning data.
  • the machine learning model 200 Infers this learning data and outputs an intermediate expected value of "0.5" for the correct label 3. Therefore, the physics simulation calculation unit 121 determines an intermediate mass and size for this learning data because the expected value to be output for the correct label is not sufficiently high at this point. The physics simulation calculation unit 121 may reduce the buoyancy acting on this learning data. In addition, since the machine learning model 200 outputs the highest expected value of “0.5” for label 3, which is the correct answer, the physics simulation calculation unit 121 outputs other learning data having a high expected value for label 3. and this training data.
  • the machine learning model 200 outputs expected values of "0.1” for incorrect labels 1 and 4, and "0.0" for incorrect label 5, which are lower than the average values
  • the physics simulation calculation unit 121 determines the repulsive forces acting between this learning data and other learning data having high expected values for each of the labels 1, 4, and 5.
  • the machine learning model 200 outputs an expected value of “0.3” for label 2, which is an incorrect answer, which is higher than the average value. determines the attractive force acting between the learning data of and this learning data.
  • the machine learning model 200 Infers this learning data and outputs the highest expected value of "0.8" for label 3, which is the correct answer. Therefore, the physics simulation calculation unit 121 determines a heavy mass and a large size for this learning data because the expected value to be output for the correct label is the highest. The physics simulation calculation section 121 may make the buoyant force acting on this learning data extremely small. In addition, since the machine learning model 200 outputs the highest expected value of “0.8” for label 3, which is the correct answer, the physics simulation calculation unit 121 outputs other learning data having a high expected value for label 3. and this training data.
  • the physics simulation calculation unit 121 determines the repulsive force acting between this learning data and other learning data having high expected values for each of the labels 1, 2, 4, and 5.
  • a sufficiently high expected value can be output for label 3, which is the correct answer, so a heavy mass is given to this learning data.
  • an attractive force acts in the E2 time, but a repulsive force acts in the E3 time.
  • the physics simulation calculation unit 121 treats each learning data as an object having determined physical properties such as attractive force, repulsive force, mass, and size, and performs a physics simulation calculation on a two-dimensional plane or plane of the object corresponding to each learning data. Calculate motion information in a three-dimensional space.
  • An example of a physics simulation operation is the Force-Directed (FD) method.
  • the position information of the object D i corresponding to the i-th learning data is (x i , y i , z i ), and the physics simulation calculation unit 121 outputs the inference result of the machine learning model 200 for the i-th learning data (
  • M i be the mass of the object D i
  • S i be the size
  • B i be the buoyancy of the object D i determined based on the expected value of the correct label.
  • the attractive force represented by the following equation (1) or A repulsive force G ij acts.
  • k is a constant (for example, universal gravitational constant)
  • r ij is the distance between the object D i corresponding to the i-th learning data and the object D j corresponding to the j-th learning data.
  • ⁇ ij is the label that the machine learning model 200 inferred the highest expected value and the lowest expected value for the i-th learning data, respectively, and the highest expected value for the j-th learning data. Takes values of 1, 0, or -1 based on label matching.
  • ⁇ ij 1 means that when the labels with the highest expected values in the i-th learning data and the j-th learning data match, an attractive force acts between the object D i and the object D j corresponding to each learning data.
  • the force F i acting on the object D i corresponding to the i -th learning data is the force (attractive force or repulsive force) G ij , the gravitational force M i g depending on the mass M i of the object D i , and the buoyant force B i of the object D i .
  • the physics simulation calculation unit 121 sets a dynamic model in which the force shown in the above formula (2) acts on an object corresponding to each learning data used for learning of the machine learning model 200. Then, the physics simulation calculation unit 121 calculates two-dimensional or three-dimensional motion information of each object by physics simulation calculation.
  • FIG. 5 illustrates a dynamic model consisting of three objects D i , D j , and D k each corresponding to training data.
  • an attractive force acts between objects D i and D j
  • a repulsive force acts between objects D i and D k .
  • the gravitational force and buoyancy of each object D i , D j , and D k are omitted.
  • a dynamic model consisting of bodies D i , D j , and D k is represented as a spring system in which the bodies are connected by springs. Each spring that connects bodies has a restoring force in either the direction of compression or extension.
  • the position of an object corresponding to each learning data can be calculated so that the potential energy in such a spring system is minimized.
  • a physics simulation calculation such as the Force-Directed method can be performed to calculate the position of each object so that the potential energy is minimized.
  • the evaluation result presentation unit 122 presents each learning data to the machine learning model 200 based on the physical characteristics of each learning data determined by the physics simulation calculation unit 121 based on the inference results of the machine learning model 200. We will present the evaluation results when using it for learning.
  • the physics simulation calculation unit 121 determines the physical properties of the learning data according to the inference results of the machine learning model 200, and treats each learning data as an object having the determined physical properties. Then, the movement information of the object on the two-dimensional plane or three-dimensional space corresponding to each learning data is calculated by physical simulation calculation.
  • the evaluation result presenting unit 122 presents a GUI screen in which objects corresponding to each learning data are arranged based on the motion information determined based on the physical simulation calculation.
  • an object for each learning data is displayed as an object having a size determined according to the inference result of the machine learning model 200, and is moved according to motion information calculated by physics simulation calculation.
  • FIG. 6 shows a display example of a GUI screen in which the evaluation result presentation unit 122 maps objects representing each learning data based on the result of the physics simulation calculation in the physics simulation calculation unit 121.
  • the objects corresponding to each learning data are all shown as circles or spheres for the sake of simplification of the drawing, but the objects may be other shapes such as square blocks or cubes.
  • each piece of learning data may be represented by an object having a different shape.
  • the objects may be displayed in different colors according to the correct label of the learning data.
  • Objects corresponding to learning data with high expected values for correct labels are heavy, so they tend to sink downward on the GUI screen shown in FIG.
  • objects in learning data whose labels with high expected values match are attracted to each other by a strong attractive force, so that they are mapped closer on the same GUI screen.
  • an object corresponding to learning data with a low expected value for the correct label becomes lighter and tries to float upward on the same GUI screen.
  • the attractive force acting on a light object is small, it is not attracted to objects corresponding to other training data that match labels with high expected values, and even if it is mapped at a location distant from other objects. good. Therefore, the evaluation result presentation unit 122 can be said to be a GUI screen that visually ranks and displays the evaluation results of each learning data used for learning.
  • the object indicated by reference number 601 corresponds to a learning model that outputs a low expected value for the correct label, has a light and small size, and is mapped at a location distant from other objects.
  • the inference result of the machine learning model 200 for the learning data corresponding to the object 601 has a low expected value for the correct label.
  • a user for example, a developer of the machine learning model 200
  • a sound effect may be output in accordance with a GUI operation such as moving the object 601 within the GUI screen or excluding the object 601 from the area.
  • the user can prevent the learning data deleted through the GUI operation from being used for learning of the machine learning model 200 thereafter, thereby reducing time loss due to re-learning.
  • a custom data set can be generated at the user's discretion, excluding one or more learning data deleted through a GUI operation that moves an object out of the area.
  • the learning data holding unit 101 associates a data set customized for each user with, for example, identification information for each user, and provides a general data set provided by the learning data providing unit 130 or acquired from another source. You may make it distinguish and hold
  • FIG. 8 shows another GUI operation example in which the user deletes learning data on the GUI screen shown in FIG.
  • the physics simulation calculation unit 121 determines a light mass and a small size for an object corresponding to learning data with a low expected value of the correct label. It is small or floats above the GUI screen due to buoyancy.
  • a threshold line representing the threshold set by the user is displayed.
  • the user may directly specify the position of the threshold line 801 by performing a drag operation or the like on the GUI screen.
  • An object that floats above the GUI screen beyond the threshold line 801 is an object that corresponds to learning data that has problems in using it for learning of the machine learning model 200, and is subject to automatic deletion. Instead of the user adjusting the position of the threshold line based on his or her own wishes, the position of the threshold line 801 is determined based on a threshold set in advance by the system, and learning corresponding to objects exceeding the threshold line 801 is performed. Data may be subject to automatic deletion. Also, by setting the threshold line 801, one or more learning data at positions beyond the threshold line 801 can be excluded, and a custom data set can be generated based on the user's judgment.
  • learning data that is problematic for use in learning the machine learning model 200 can be deleted or automatically deleted at the request of the user. can be done. Also, the user can visually confirm learning data to be deleted through the GUI screen. Then, the model updating unit 102 can proceed with the learning of the machine learning model by excluding the learning data for which the delete operation has been performed on the GUI screen.
  • the evaluation result presentation unit 122 visually ranks and displays the evaluation results of each learning data dynamically changing during learning of the machine learning model 200 through a GUI screen as shown in FIG. can do. Every time the machine learning model 200 during learning infers learning data in the model updating unit 102, physical characteristics are determined and physical simulation calculations are performed to update the GUI screen. It looks like it's moving. A user (for example, a developer of the machine learning model 200) appropriately selects each learning data while observing the change in the evaluation result of each learning data for each number of times of learning through a GUI screen as shown in FIG. be able to. For example, in the GUI screen shown in FIG. 9, the expected value of the correct label for the learning data corresponding to the object 601 increases each time learning is performed.
  • the force acting on the object obtained by the physics simulation calculation does not reach an equilibrium state, multiple objects may be densely aggregated or displayed around the edge of the screen. In that case, a distance may be set between the objects, or a distance may be set between the object and the edge of the screen so that the user can appropriately recognize the object corresponding to the learning data.
  • the average position of the cyclical motion may be calculated and displayed on the GUI screen. Also, it may be possible to input a command to temporarily stop the movement of an object on the GUI screen, and an icon or the like corresponding to such a command may be displayed on the GUI screen.
  • the judgment basis calculation unit 123 calculates the judgment basis for the inference of the learning data by the machine learning model 200, and the evaluation result presentation unit 122 further calculates the judgment basis for the inference of the machine learning model for the learning data. It is designed to be presented.
  • the judgment basis calculation unit 123 uses various XAI (eXplainable AI) algorithms such as Grad-CAM, LIME, SHAP, which is an advanced form of LIME, and TCAV, to calculate the judgment basis for inference of the machine learning model 200. do.
  • the judgment basis calculation unit 123 calculates the judgment basis using one or a plurality of XAI algorithms for the inference label for which the machine learning model 200 outputs the highest expected value.
  • the determination basis calculation unit 123 may further calculate the judgment basis for the labels with the second and subsequent highest expected values.
  • Grad-CAM traces the gradient backward from the label that is the inference result of class classification in the output layer (calculates the contribution of each feature map up to class classification, and back-propagates with its weight. It is an algorithm for estimating the places in the input image data that have contributed to class classification, and the places that have contributed to class classification can be visualized like a heat map.
  • the positional information of the pixels of the input image data is retained up to the final convolutional layer, and by obtaining the degree of influence of the positional information on the final discrimination output, the part of the original input image with strong influence is displayed as a heat map. You may do so.
  • a machine learning model composed of a neural network when image recognition is performed on the input image and class c is output, a method of calculating the basis for judgment based on the Grad-CAM algorithm (method of generating a heat map) will be explained below.
  • FIG. 10 shows an example of a judgment basis image with a heat map display calculated by the judgment basis calculation unit 123 based on the Grad-CAM algorithm.
  • a heat map 1001 is superimposed on a portion of input image data 1000 that is the basis for the inference label for which the machine learning model 200 outputs the highest expected value.
  • the original input image is an image in which a dog and a cat are photographed together, and is used for learning of the machine learning model 200 as learning data with a correct label of "dog (label 3)".
  • the user refers to the image data with heat map display as shown in FIG. 10, and uses the original input image as learning data based on whether the area where the heat map is displayed represents the correct label. You can figure out if there are any issues.
  • the correct label "dog” is correctly displayed as a heat map, so the user can determine that there is no problem in using this input image as learning data.
  • FIG. 11 shows another example of a judgment basis image with heat map display calculated by the judgment basis calculation unit 123 for the same input image 1100 as in FIG. 10 based on the Grad-CAM algorithm.
  • the inference label for which the machine learning model 200 outputs the highest expected value is “dog”, but the heat map 1101 is displayed in the input image 1100 in the area of the cat instead of the dog.
  • a user can refer to image data in which a heat map is displayed in a region different from the inference labels, as shown in FIG. can be done.
  • LIME estimates that if the output result of the neural network is reversed or greatly fluctuates when a specific input data item (feature value) is changed, that item is "highly important in determination". For example, the judgment basis calculation unit 123 generates another model (basis model) for local approximation to indicate the reason (basis) for inference in the machine learning model that the model updating unit 102 is learning. The determination basis calculation unit 123 generates a basis model that locally approximates the combination of the input image and the output result corresponding to the input information. Then, the judgment basis calculation unit 123 uses the basis model to generate basis information about the inference label for which the machine learning model during learning outputs the highest expected value, and generates a basis image as shown in FIG. It can be generated similarly to the Grad-CAM algorithm.
  • TCAV is an algorithm that calculates the importance of Concepts (concepts that can be easily understood by humans) to the predictions of a trained model.
  • the determination basis calculation unit 123 generates a plurality of pieces of input information by duplicating or modifying the input information (pathological image data), and creates a model (description target model) for which basis information is to be generated.
  • a model description target model
  • Each of a plurality of pieces of input information is input, and a plurality of pieces of output information corresponding to each piece of input information are output from the model to be explained.
  • the determination basis calculation unit 123 learns a basis model using a combination (pair) of each of the plurality of input information and each of the corresponding plurality of output information as learning data, and selects the target input information as a target. Generate a basis model that locally approximates another interpretable model as . Then, when a label is output from the machine learning model under learning by the model updating unit 102, the determination basis calculation unit 123 uses the basis model to generate basis information related to the output label, which is shown in FIG. Such a basis image can be similarly generated.
  • judgment basis calculation unit 123 may calculate the basis for the output label of the machine learning model being learned by the model updating unit 102 based on algorithms other than Grad-CAM, LIME/SHAP, and TCAV described above. good.
  • the evaluation result presenting unit 122 performs the physical characteristics determined by the physical simulation computing unit 121 for each piece of learning data, and the physical characteristics based on the determined physical characteristics. Based on the calculation results, the user is presented with a GUI screen in which objects representing each learning data are mapped. Such a GUI screen visually ranks and displays the evaluation results for each piece of learning data, and the user can intuitively grasp whether or not there is a problem with the learning data through the GUI screen. However, when judging whether or not to exclude learning data, the user desires to check more detailed information about the learning data even if the learning data is visually ranked at a low rank.
  • learning data has detailed information such as images (image file names), correct labels, and inference results (expected values for each label) by the machine learning model during learning.
  • the judgment basis calculation unit 123 calculates the judgment basis using one or a plurality of XAI algorithms for the inference label for which the machine learning model 200 outputs the highest expected value.
  • another method may be used to evaluate each piece of learning data.
  • FIG. 12 shows an example of GUI operation for displaying detailed information of learning data.
  • the user performs, for example, a mouse-over operation, a mouse-button press operation, a touch operation, or the like on an object of interest to the user on the GUI screen displaying the evaluation results of each learning data.
  • a pop-up balloon 1201 describing detailed information of the image data corresponding to the object to be operated is displayed.
  • FIG. 13 more specifically shows the detailed information of the learning data displayed on the GUI screen in response to the mouse operation on the object.
  • the file name of the image to be input data, the correct label corresponding to the input data, the inference result (expected value for each label) by the machine learning model being trained, the input image, Judgment bases calculated using one or more XAI algorithms for the inference label output with the highest expected value are displayed.
  • a slider bar 1302 may be provided, for example, at the right edge of the balloon 1301 so that the display range can be moved.
  • FIG. 14 shows the processing procedure performed in the learning data evaluation section 120 in the form of a flow chart.
  • the machine learning model 200 under learning infers the learning data in the model updating unit 102, the physical characteristics are determined and the physical simulation calculation is performed, and the GUI screen (FIGS. 6 to 9) is displayed. See also) are assumed to be updated.
  • each time the model updating unit 102 updates model parameters using learning data it notifies the learning data evaluation unit 120 that the machine learning model has been updated.
  • the learning data evaluation unit 120 is notified by the learning system 100 that the machine learning model has been updated (step S1401), the learning data evaluation unit 120 starts subsequent learning data evaluation processing.
  • the learning data evaluation unit 120 basically evaluates all the learning data used for learning the machine learning model in the model update unit 102 .
  • part of the learning data used for learning the machine learning model may be subject to evaluation, or part of the used learning data may be excluded from the subject of evaluation.
  • step S1404 the learning data evaluation unit 120 selects one of them as target data (step S1403), and calculates inference for that target data. (S1404).
  • the machine learning model under learning may be used to calculate a forward simulation of the target data, or the inference result of the machine learning model under learning is acquired from the model updating unit 102. You may do so.
  • the inference result of the machine learning model consists of the expected value for each output label of the machine learning model for the target data.
  • the physics simulation calculation unit 121 determines physical properties such as the mass and size of the target data and the acting force (attractive force or repulsive force) between other learning data based on the inference results of the machine learning model for the target data. (Step S1405).
  • the physics simulation calculation unit 121 determines the physical properties of all the target data (No in step S1402), it performs the physics simulation calculation on the object corresponding to each target data (step S1406).
  • the force-directed method is used to perform physical simulation calculations to calculate the motion of an object corresponding to each target data that minimizes the potential energy.
  • the evaluation result presentation unit 122 presents a GUI screen in which a plurality of objects corresponding to each target data are arranged and visually ranked based on the motion information determined based on the physics simulation calculation in step S1406. (Step S1407). Every time the machine learning model 200 during learning infers learning data in the model updating unit 102, physical characteristics are determined and physical simulation calculations are performed to update the GUI screen. appear to be moving (see, eg, FIG. 9).
  • FIG. 15 shows an example of the hardware configuration of an information processing system 1500 that operates as the learning data evaluation unit 120.
  • the information processing system 1500 is configured using, for example, a personal computer.
  • the learning data evaluation unit 120 includes functions such as a physics simulation calculation unit 121, an evaluation result presentation unit 122, and a judgment basis calculation unit 123.
  • the information processing system 1500 may be the same system as the learning system 100 or may be a system configured independently from the learning system 100 .
  • the illustrated information processing system 1500 includes a CPU (Central Processing Unit) 1501, a ROM (Read Only Memory) 1502, a RAM (Random Access Memory) 1503, a host bus 1504, a bridge 1505, an expansion bus 1506, an interface It includes a unit 1507 , an input device 1508 , an output device 1509 , a storage device 1510 , a drive 1511 and a communication device 1513 .
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the CPU 1501 functions as an arithmetic processing device and a control device, and controls the overall operation of the information processing system 1500 according to various programs. Further, the information processing system 1500 may further include a GPU or GPGPU (General-Purpose Computing on Graphics Processing Units) in addition to the CPU 1501 as an arithmetic processing unit.
  • a GPU or GPGPU General-Purpose Computing on Graphics Processing Units
  • the ROM 1502 nonvolatilely stores programs (basic input/output system, etc.) used by the CPU 1501, operation parameters, and the like.
  • the RAM 1503 is used to load programs used in the execution of the CPU 1501 and to temporarily store parameters such as work data that change as appropriate during program execution.
  • the programs loaded into the RAM 1503 and executed by the CPU 1501 are, for example, various application programs and an operating system (OS).
  • OS operating system
  • the CPU 1501, ROM 1502 and RAM 1503 are interconnected by a host bus 1504 comprising a CPU bus or the like.
  • the CPU 1501 can implement various functions and services by executing various application programs under the execution environment provided by the OS through cooperative operations of the ROM 1502 and the RAM 1503 .
  • the cooperative operation of the CPU 1501, the ROM 1502, and the RAM 1503 realizes the function of the learning data evaluation unit 120, and determines the physical characteristics of the learning data used for learning the machine learning model, performs physical simulation calculation, and performs physical simulation. It realizes GUI screen presentation of evaluation results of learning data based on calculation results, basis calculation of learning data inference by machine learning models, and the like.
  • a host bus 1504 is connected to an expansion bus 1506 via a bridge 1505 .
  • the expansion bus 1506 is, for example, PCI standardized by PCI-SIG (Peripheral Component Interconnect Special Interest Group) or PCIe (PCI Express).
  • PCI-SIG Peripheral Component Interconnect Special Interest Group
  • PCIe PCI Express
  • the interface 1507 connects external devices or peripheral devices such as the input device 1508, the output device 1509, the storage device 1510, the drive 1511, and the communication device 1513 according to the standard of the expansion bus 1506.
  • external devices or peripheral devices such as the input device 1508, the output device 1509, the storage device 1510, the drive 1511, and the communication device 1513 according to the standard of the expansion bus 1506.
  • not all external devices or peripheral devices shown in FIG. may further include:
  • the input device 1508 is composed of an input control circuit and the like that generates an input signal based on an input from the user and outputs the signal to the CPU 1501 .
  • the input device 1508 is, for example, at least one of a mouse, keyboard, touch panel, button, microphone, switch, and lever.
  • the input device 1508 is used, for example, by a user (machine learning model developer) to operate an object corresponding to learning data on a GUI screen (see FIG. 7) or input other instructions. Used.
  • the output device 1509 includes, for example, a liquid crystal display (LCD) device, an organic EL (Electro-Luminescence) display device, and a display device such as an LED (Light Emitting Diode), and displays various data such as video data as an image or text. do.
  • the output device 1509 includes an audio output device such as a speaker and headphones, and converts audio data into audio and outputs the audio.
  • the storage device 1510 is composed of a large-capacity storage device such as an SSD (Solid State Drive) or HDD (Hard Disk Drive).
  • the storage device 1510 stores files such as programs executed by the CPU 1501 and various data.
  • the removable storage medium 1512 is a cartridge type storage medium such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • Drive 1511 performs read and write operations to removable storage media 1513 installed therein.
  • the drive 1511 outputs data read from the removable recording medium 1512 to the RAM 1503 and writes data on the RAM 1503 to the removable recording medium 1512 .
  • the drive 1511 may be built into the housing of the information processing system 1500 or externally attached.
  • the communication device 1513 is a device for connecting to an external network such as a LAN (Local Area Network) or the Internet, and is composed of a network interface card (NIC), for example.
  • a LAN Local Area Network
  • NIC network interface card
  • the present disclosure is applied to a learning system that performs machine learning model learning for image classification, but the gist of the present disclosure is not limited to this.
  • learning data according to the present disclosure can be evaluated for machine learning models that perform various inferences such as speech recognition, character recognition, and data generation.
  • the machine learning model may be a model using a model such as support vector regression, Gaussian process regression, or the like, in addition to being configured with a neural network.
  • An information processing method for processing learning data used for learning a machine learning model a determining step of determining characteristics of each training data based on inference results of the machine learning model for the training data; a presentation step of presenting an evaluation result of the learning data based on the determined characteristics;
  • the determining step determines the characteristics of each learning data, and the presenting step presents an evaluation result of the learning data.
  • the information processing method according to any one of (1) to (7) above.
  • An information processing system for processing learning data used for learning a machine learning model a determination unit that determines characteristics of each learning data based on the inference result of the machine learning model for the learning data; a presentation unit that presents an evaluation result of the learning data based on the determined characteristics;
  • Information processing system including;
  • the determination unit determines physical properties of objects corresponding to each learning data based on the inference results of the machine learning model, and performs physical simulation calculations between objects having the determined physical properties.
  • the presentation unit presents an object corresponding to each learning data based on the result of the physics simulation calculation.
  • the determination unit determines the physical characteristics of the object corresponding to the learning data based on the expected value for each label output by the machine learning model for the learning data.
  • the information processing system according to (10) above.
  • the determination unit determines the mass, buoyancy, or size of the object corresponding to the learning data based on the expected value of the correct label.
  • the determining unit determines such that an object corresponding to learning data with a large expected value of the correct label is heavy or large, and an object corresponding to learning data with a small expected value of the correct label is light or small. do, The information processing system according to (12) above.
  • the determining unit determines at least one of an attractive force and a repulsive force acting between objects corresponding to each piece of learning data based on the expected value of the correct label.
  • the information processing system according to either (11) or (12) above.
  • the determining unit determines an attractive force acting between objects corresponding to learning data whose labels with high expected values match.
  • the determining unit determines a repulsive force acting between an object corresponding to a learning model outputting a low expected value and an object corresponding to a learning model outputting a high expected value for the same label. decide, The information processing system according to either (13) or (13-1) above.
  • the determination unit calculates movement information of each object by the physics simulation calculation based on the physical characteristics determined for the object corresponding to each learning data,
  • the presentation unit moves and displays each object on the screen of the display device based on the movement information calculated by the determination unit.
  • the information processing system according to any one of (10) to (13) above.
  • the presenting unit further presents detailed information on learning data corresponding to the object in response to a predetermined operation performed on the object displayed on the screen through the input unit.
  • the information processing system according to (15) above.
  • (16-1) further comprising a calculation unit that calculates the grounds for the inference judgment of the machine learning model for the learning data;
  • the presentation unit presents the detailed information including the judgment basis calculated by the calculation unit.
  • the determination unit determines characteristics of each learning data, and the presentation unit presents an evaluation result of the learning data.
  • the information processing system according to any one of (9) to (16) above.
  • a first device including the determining unit; a second device including the presentation unit; including, The information processing system according to any one of (9) to (17) above.
  • the second device includes a display device for displaying an evaluation result of learning data based on the determined characteristics on a screen, and an input unit for inputting a user's operation on the screen.
  • (20) further comprising a third device including a model update unit that updates the machine learning model by learning using the learning data;
  • a third device including a model update unit that updates the machine learning model by learning using the learning data;

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

機械学習モデルの学習に用いられる学習データの評価結果を提示する。 機械学習モデルの学習に用いられる学習データに関する処理を行う情報処理方法は、学習データに対する前記機械学習モデルの推論結果に基づいて各学習データの特性を決定する決定ステップと、前記決定した特性に基づく学習データの評価結果を提示する提示ステップを有する。前記決定ステップでは、学習データに対して前記機械学習モデルが出力するラベル毎に期待値に基づいて、学習データに対応する物体の質量や大きさ、引力や斥力などの作用力といった物理特性を決定する。

Description

情報処理方法及び情報処理システム
 本明細書で開示する技術(以下、「本開示」とする)は、機械学習モデルの学習に関する処理を行う情報処理方法及び情報処理システムに関する。
 人工知能は、膨大なデータを分析したり推定したりすることができ、例えば画像認識や音声認識、自然言語処理に活用される。人工知能は、ニューラルネットワークなどで構成される機械学習モデルに学習を行うことで実現される。膨大量の学習用のデータセットを用いてディープラーニングを行うことによって、人間の能力を超える推論を実現する人工知能を得ることができる。しかしながら、人工知能が推論結果に至った過程がブラックボックス化されて、その判断の根拠が分かり難いという問題がある。また、学習データに偏りがあるなど、不公平性な学習データを用いて学習を行うと、機械学習モデルの学習効率が低下することや、正しく推論するように機械学習モデルを学習できないことが懸念される。
 最近では、ディープラーニングした機械学習モデルの判断根拠を可視化する技術として、Grad-CAM(Gradient-weighted Class Activation Mapping)などが開発されている。例えば、画像認識処理において、誤ったラベルが推論された際の入力画像である誤推論画像を、推論の正解ラベルのスコアが最大となるように変更しながら、リファイン画像を生成する際に、Grad-CAM法を用いることで推論の際に注目した誤推論画像の各画像部分の注目度合いを示すマップを生成するように記述された解析プログラムが提案されている(特許文献1を参照のこと)。また、モデルに対する各学習データの正解回数を蓄積し、正解回数が閾値以上となった学習データを学習対象から除外することによって、学習処理に要する計算量を削減する学習装置が提案されている(特許文献2を参照のこと)。
特開2020-197875号公報 特開2018-194919号公報
Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization <https://arxiv.org/abs/1610.02391> "Why Should I Trust You?": Explaining the Predictions of Any Classifier <https://arxiv.org/abs/1602.04938> Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors (TCAV) <https://arxiv.org/pdf/1711.11279.pdf>
 本開示の目的は、機械学習モデルの学習に用いられる学習データに関する処理を行う情報処理方法及び情報処理システムを提供することにある。
 本開示は、上記課題を参酌してなされたものであり、その第1の側面は、機械学習モデルの学習に用いられる学習データに関する処理を行う情報処理方法であって、
 学習データに対する前記機械学習モデルの推論結果に基づいて各学習データの特性を決定する決定ステップと、
 前記決定した特性に基づく学習データの評価結果を提示する提示ステップと、
を有する情報処理方法である。
 前記決定ステップでは、学習データに対して前記機械学習モデルが出力するラベル毎の期待値に基づいて、各学習データに対応する物体の物理特性を決定するとともに、決定された物理特性をそれぞれ持つ物体間の物理シミュレーション演算を実施する。具体的には、前記決定ステップでは、正解ラベルの期待値の大小に基づいて学習データに対応する物体の質量を決定し、期待値が高いラベル又は期待値が低いラベルの一致不一致に基づいて各学習データに対応する物体間に作用する引力や斥力を決定し、これらの物理特性に基づいて物理シミュレーション演算により各物体の動き情報を算出する。そして、前記提示ステップでは、前記決定ステップで算出された動き情報に基づいて、表示装置の画面上に表示された各物体を動かす。
 第1の側面に係る情報処理方法は、前記表示装置に画面上に表示された物体に対するユーザの操作を入力する入力ステップをさらに有していてもよい。ユーザは、前記入力ステップにおいて前記画面上で削除する操作が行われた物体に対応する学習データを、前記機械学習モデルの学習対象から除外することができる。このようにして、ユーザ毎のカスタムのデータセットを作成することができる。
 また、本開示の第2の側面は、機械学習モデルの学習に用いられる学習データに関する処理を行う情報処理システムであって、
 学習データに対する前記機械学習モデルの推論結果に基づいて各学習データの特性を決定する決定部と、
 前記決定した特性に基づく学習データの評価結果を提示する提示部と、
を含む情報処理システムである。
 但し、ここで言う「システム」とは、複数の装置(又は特定の機能を実現する機能モジュール)が論理的に集合した物のことを言い、各装置や機能モジュールが単一の筐体内にあるか否かは特に問わない。すなわち、複数の部品又は機能モジュールからなる1つの装置も、複数の装置の集合体も、「システム」に相当する。
 前記決定部は、学習データに対して前記機械学習モデルが出力するラベル毎の期待値に基づいて、各学習データに対応する物体の物理特性を決定するとともに、決定された物理特性をそれぞれ持つ物体間の物理シミュレーション演算を実施して、各物体の動き情報を算出する。そして、前記提示部は、前記決定ステップで算出された動き情報に基づいて、表示装置の画面上に表示された各物体を動かす。
 第2の側面に係る情報処理システムは、1又は複数の装置で構成される。例えば、情報処理装置は、前記決定部を含む第1の装置と、前記提示部を含む第2の装置を含む。前記第2の装置は、前記決定した特性に基づく学習データの評価結果を画面に表示する表示装置と、前記画面に対するユーザの操作を入力する入力部を含んでもよい。また、情報処理システムは、学習データを用いた学習により前記機械学習モデルを更新するモデル更新部を含む第3の装置をさらに含んでもよい。
 本開示によれば、機械学習モデルの学習に用いられる学習データの評価結果を提示するための処理を行う情報処理方法及び情報処理システムを提供することができる。
 なお、本明細書に記載された効果は、あくまでも例示であり、本開示によりもたらされる効果はこれに限定されるものではない。また、本開示が、上記の効果以外に、さらに付加的な効果を奏する場合もある。
 本開示のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
図1は、学習システム100の機能的構成例を示した図である。 図2は、機械学習モデル200の構成例を示した図である。 図3は、機械学習モデル200の学習回数(エポック数)に応じた推論結果の推移を例示した図である。 図4は、図3に例示した学習データに対する推論結果に対して決定された物理特性を示した図である。 図5は、各学習データに対応する物体からなる力学モデルを例示した図である。 図6は、機械学習モデルの学習に使用した学習データの評価結果を表示するGUI画面の構成例を示した図である。 図7は、図6に示したGUI画面上でGUI操作が行われる様子を示した図である。 図8は、図6に示したGUI画面上でGUI操作が行われる様子を示した図である。 図9は、機械学習モデルの学習中に、GUI画面上で学習データの評価結果が変化する様子を示した図である。 図10は、Grad-CAMアルゴリズムに基づいて計算したヒートマップ表示付き判断根拠画像の例を示した図である。 図11は、Grad-CAMアルゴリズムに基づいて計算したヒートマップ表示付き判断根拠画像の他の例を示した図である。 図12は、学習データの詳細情報を表示するGUI操作の一例を示した図である。 図13は、学習データの詳細情報を表示するGUI操作の一例を示した図である。 図14は、学習データ評価部120において実施される処理手順を示したフローチャートである。 図15は、情報処理システム1500のハードウェア構成例を示した図である。
 以下、図面を参照しながら本開示について、以下の順に従って説明する。
A.概要
B.システム構成
C.学習データの評価
 C-1.学習データに対する物理特性の決定
 C-2.学習データに対する評価結果の提示
 C-3.機械学習モデルによる推論の判断の根拠の明示
 C-4.詳細情報の提示方法ついて
 C-5.処理手順
D.システム構成
A.概要
 人工知能は、例えばニューラルネットワークやサポートベクタ回帰、ガウス過程回帰などの型を用いたモデルからなる。本明細書では、便宜上、ニューラルネットワーク型のモデルを利用した実施形態を中心に説明するが、本開示は特定のモデル型に限定されず、ニューラルネットワーク以外のモデルに対しても同様に適用可能である。人工知能の利用は、モデルの学習を行う「学習フェーズ」と学習済みのモデルを使って推論を行う「推論フェーズ」からなる。推論は、画像認識や音声認識などの認識処理や、事象の推定や予測を行う予測処理を含む。以下では主に画像分類などの分類問題に人工知能を適用する実施例について説明する。
 人工知能の学習フェーズでは、モデルに入力されるデータ(以下、「入力データ」とも言う)と、入力データに対してモデルに推定させたいラベルとの組み合わせからなるデータセットを用いて、各入力データに対応する正解のラベルを出力できるように、誤差逆伝播などの学習アルゴリズムによってモデルの学習が行われる。そして、人工知能の推論フェーズでは、学習フェーズにおいて学習済みのモデル(以下、「学習済みモデル」とも言う)は、入力データに対して適切なラベルを出力する。
 学習中のモデルに与える影響が大きい学習データを用いることで、より効率的にモデルの学習を行うことができると考えられる。そこで、本開示では、モデルの学習中に学習データを評価し、且つ評価結果をユーザに提示する方法及びシステムについて提案する。ここで言うユーザは、具体的には機械学習モデルの開発者である。本開示では、学習データの評価として、個々の学習データのランク付けを計算したり、学習データ間の関係を評価したりし、さらにこのような評価結果をコンピュータのGUI(Graphical User Interface)画面を利用してユーザに提示する。したがって、ユーザは、GUI画面を通じて、学習中の機械学習モデルに使用する学習データに課題があることを把握したり、問題のある学習データを取捨選択したりすることができ、学習のやり直しによる時間ロスを少なくすることができる。すなわち、ユーザは、学習データが与える影響を視覚的に確認しながら、機械学習モデルの学習を進めることができる。
B.システム構成
 図1には、本開示を適用した学習システム100の機能的構成例を示している。図示の学習システム100は、例えばエッジデバイスに搭載して用いられるが、学習システム100の機能の一部又は全部がクラウド又は大規模演算が可能な演算装置上に構築されてもよい。以下では、学習システム100は、物体認識や顔認識など、主に画像分類を行う機械学習モデルの学習を行うものとして説明する。但し、本開示はこれに限定されるものではなく、学習システム100は画像分類以外の推論を行う機械学習モデルの学習を行うものであっても構わない。
 図示の学習システム100は、学習データ保持部101と、モデル更新部102と、モデルパラメータ保持部103と、推論部111と、データ入力部112と、入力データ処理部113を備えている。このうち、学習データ保持部101と、モデル更新部102と、モデルパラメータ保持部103は機械学習モデルの学習フェーズにおいて動作し、推論部111と、データ入力部112と、入力データ処理部113は学習済みモデルを用いた推論フェーズにおいて動作する。学習システム100は、例えばエッジデバイスに搭載して用いられるが、学習システム100の機能の一部又は全部がクラウド又は大規模演算が可能な演算装置上に構築されてもよい。
 また、本実施形態では、学習システム100には、機械学習モデルの学習に使用する学習データを提供する学習データ提供部130と、モデル更新部102において機械学習モデルの学習に使用した学習データを評価する学習データ評価部120がさらに装備されている。学習データ評価部120は、物理シミュレーション演算部121と、評価結果提示部122と、判断根拠計算部123を含んでいる。学習データ評価部120は、学習システム100と同一のシステムであってもよいし、学習システム100とは独立して構成されたシステムであってもよい。学習データ評価部120を実現するシステムは、例えばエッジデバイスに搭載して用いられるが、このシステムの機能の一部又は全部がクラウド又は大規模演算が可能な演算装置上に構築されてもよい。
 学習データ提供部130は、モデル更新部102がモデルの学習に使用する学習データを供給する。学習データは、基本的に、学習対象となるモデルに入力する入力データxと、入力データxに対して正解となる正解ラベルyを組み合わせたデータセット(x,y)からなる。例えば、モデル更新部102が画像分類用の機械学習モデルの学習を行う場合、学習データ提供部130は例えばデジタルカメラであれば、撮像した画像と正解ラベル(撮像画像の被写体が何であるか)の組み合わせからなる学習データを提供する。例えば多数のデジタルカメラでそれぞれ撮像された画像からなる学習データが、インターネットなどの広域ネットワークを介して学習システム100に提供される。
 学習データ保持部101は、モデル更新部102がモデルの学習に使用する学習データを蓄積している。個々の学習データは、学習対象となるモデルに入力する入力データと、そのモデルが推論すべき正解のラベルを組み合わせたデータセットからなる。学習データ保持部101は、学習データ提供部130から提供されたデータセットを蓄積するが、その他のソースから得られたデータセットを蓄積していてもよい。モデル更新部102がディープラーニングを行う場合には、学習データ保持部101には厖大量のデータセットが蓄積される。
 後述するように本実施形態では、ユーザの判断でカスタムのデータセットを生成することができる。このため、学習データ保持部101は、ユーザ毎にカスタマイズされたデータセットを例えばユーザ毎の識別情報と紐付けして、学習データ提供部130から提供され又はその他のソースから取得した一般的なデータセットとは区別して保持するようにしてもよい。
 モデル更新部102は、学習データ保持部101から学習データを逐次読み出して、学習の対象となる機械学習モデルの学習を行って、機械学習モデルを更新する。機械学習モデルは、例えばニューラルネットワークで構成されるが、サポートベクタ回帰、ガウス過程回帰などの型を用いたモデルであってもよい。ニューラルネットワークで構成される機械学習モデルは、画像などのデータ(説明変数)を入力する入力層と、入力データに対する推論結果となるラベル(目的変数)を出力する出力層と、入力層と出力層の間の1又は複数の中間層(又は隠れ層)の多層で構成される。各層はそれぞれニューロンに相当する複数のノードからなる。層と層の間にあるノード間の結合は重みを持ち、入力層に入力されたデータは、層から層へ渡る過程で値が変換されていく。モデル更新部102は、例えば、入力データに対して機械学習モデルから出力されるラベルと、入力データに対応する既知の正解ラベルとの誤差に基づいて定義される損失関数を計算し、この損失関数が最小となるように誤差逆伝播により、モデルパラメータ(ノード間の重み係数など)を更新しながら、機械学習モデルの学習を実施する。なお、機械学習モデルの学習処理は計算量が膨大であることから、複数のGPU(Graphics Processing Unit)又は複数の計算ノードを用いた分散学習を実施するようにしてもよい。
 そして、モデル更新部102は、学習結果として得られたモデルパラメータを、モデルパラメータ保持部103に格納する。モデルパラメータは、モデルを規定する変動要素であり、例えばニューラルネットワークモデルのノード間に与える結合重み係数などである。
 推論部111と、データ入力部112と、入力データ処理部113は、学習済みのモデルの推論フェーズを実施する。データ入力部112は、エッジデバイスが備えるセンサにより取得されるセンサ情報を入力する。入力データ処理部113は、データ入力部112から入力されたデータを、モデル(例えば、ニューラルネットワークモデル)に入力可能となるデータ形式となるようにデータ処理して、推論部111に入力する。推論部111は、モデルパラメータ保持部103から読み出したモデルパラメータを設定したモデルすなわち学習済みモデルを使って、入力データから推論したラベルを出力する。
 学習データ評価部120は、モデル更新部102において機械学習モデルの学習に使用した各学習データを評価する。学習データ評価部120は、物理シミュレーション演算部121と、評価結果提示部122を含んでいる。
 物理シミュレーション演算部121は、学習中のモデルによる学習データの推論結果に基づいて、各学習データの物理特性を決定する。具体的には、物理シミュレーション演算部121は、機械学習モデルによる各学習データの推論結果に基づいて学習データに作用する力を決定する。ここで言う力には、学習データの質量(重力)や浮力、他の学習データとの間に作用する引力又は斥力が含まれる。また、物理シミュレーション演算部121は、作用力だけでなく、学習データの大きさ(体積)や形状などの物理量も決定してもよい。そして、物理シミュレーション演算部121は、学習中のモデルによる推論結果に応じて決定した各学習データの作用力の大きさなどの物理量に基づいて物理シミュレーション演算を実施して、各学習データの動きを決定する。物理シミュレーション演算の一例はFD(Force-Directed)法である。そして、評価結果提示部122は、物理シミュレーション演算に基づいて決定された動き情報に基づいて、各学習データに対応する物体を複数配置して視覚的にランク付けしたGUI画面を提示する。このGUI画面上では、ドラッグやドロップを始めとする各学習データに対応する物体に対するGUI操作が可能である。評価結果提示部122は、GUI画面を表示する表示装置や、GUI画面に対するユーザ操作を行うための入力装置(マウスやタッチパネル、キーボードなど)を含んでいてもよい。
 判断根拠計算部123は、モデル更新部102において学習中の機械学習モデルによる学習データに対する推論の判断の根拠を計算する。例えば、Grad-CAM(Gradient-weighted Class Activation Mapping)(例えば、非特許文献1を参照のこと)、LIME(Local Interpretable Model-agnostic Explanations)(例えば、非特許文献2を参照のこと)、LIMEの発展形であるSHAP(SHapley Additive exPlanations)、TCAV(Testing with Concept Activation Vectors)(例えば、非特許文献3を参照のこと)などのうち1又は複数のXAIアルゴリズムを使って、機械学習モデルの推論の判断の根拠を計算する。Grad-CAM、LIME/SHAP、TCAVをそれぞれ用いた根拠計算方法の詳細については後述に譲る。そして、評価結果提示部122は、GUI画面上での各学習データに対応する物体への操作(例えばマウスオーバーやマウスボタンの押下操作)などに応じて、学習データに対する機械学習モデルの推論の判断の根拠をさらに提示するようにしてもよい。但し、Grad-CAM、LIME/SHAP、TCAVなどのXAIアルゴリズムを用いた機械学習モデルの判断根拠計算は、学習データ評価部120ではなく学習システム100内で実施して、判断根拠の計算結果を学習システム100から学習データ評価部120へ渡すようにしてもよい。
 学習回数に応じて、学習中のモデルによる学習データの推論結果は逐次変化していくことが想定される。したがって、学習の度に、物理シミュレーション演算部121は各学習データの物理特性を決定して物理シミュレーション演算を実施し、評価結果提示部122はGUI画面を更新していくものとする。
C.学習データの評価
 学習データ評価部120は、モデル更新部102において機械学習モデルの学習に使用した学習データを評価する。本実施形態では、学習データ評価部120は、物理シミュレーション演算部121と、評価結果提示部122を含んでいる。物理シミュレーション演算部121は、学習中のモデルによる学習データの推論結果に基づいて各学習データの物理特性を決定し、さらに物理シミュレーション演算により各学習データの2次元平面又は3次元空間上の動き情報を算出する。そして、評価結果提示部122は、物理シミュレーション演算に基づいて決定された動き情報に基づいて、各学習データに対応する物体を配置したGUI画面を提示する。このC項では、学習データ評価部120において実現される処理について詳細に説明する。
 以下の説明では、モデル更新部102では、図2に示すような機械学習モデル200の学習を行うことを想定している。機械学習モデル200は、例えばニューラルネットワークで構成され、学習データ保持部101から読み出された学習データを用いて機械学習モデル200の学習を行う。図3に示す例では、機械学習モデル200が画像分類を行う。すなわち、機械学習モデル200への入力データは画像であり、機械学習モデル200は画像に含まれる被写体があらかじめ定義されたラベル1~5のいずれかであるかを推論して、ラベル毎の期待値(又は尤度)を出力する。例えば、ラベル1は馬、ラベル2は猫、ラベル3は犬、ラベル4は牛、ラベル5は鳥である。
 また、機械学習モデル200は、学習回数(又は、エポック数)に応じて、同じ学習データに対する推論結果が推移していくことが想定される。例えば、学習回数が少なく、学習があまり進んでいない状態では、機械学習モデル200は正解ラベルに対して低い期待値を出力するとともに不正解ラベルに対して高い閾値を出力するが、学習の進捗状態に応じて、機械学習モデル200は徐々に正解ラベルに対してより高い期待値を出力するように推移していく。
 図3には、機械学習モデル200の、同じ学習データに対する学習回数(エポック数)に応じた推論結果の推移を例示している。図3に示す例では、学習データはラベル3を正解とする入力画像についての機械学習モデル200の推論結果であり、学習回数毎に機械学習モデル200から出力される各ラベル1~5の期待値を示している(但し、図面の簡素化のため、学習回数E1、E2、E3についてのみ具体的な期待値を記入し、その他の学習回数については詳細を省略している)。
 機械学習モデル200は、学習が進んでいない学習回数E1回目では正解のラベル3に対して「0.1」という低い期待値を出力する一方、不正解のラベル1に対して「0.5」という高い期待値を出力する。その後、学習回数がE2回、E3回増加するにつれて機械学習モデル200の学習が進み、正解のラベル3に対して「0.5」、「0.8」と徐々に高い期待値を出力するようになっていき、不正解のラベル1に対して「0.1」、「0.0」と辞書所に低い期待値を出力するようになっていく。
C-1.学習データに対する物理特性の決定
 物理シミュレーション演算部121は、モデル更新部102において学習した機械学習モデルによる学習データの推論結果に基づいて、各学習データの物理特性を決定する。学習回数に応じて同じ学習データに対する推論結果が推移していくことから、物理シミュレーション演算部121は、例えば所定個数の学習データを使用してモデルパラメータを更新する度(又は、エポック毎)に、機械学習モデル200による各学習データの推論結果に基づいて、各学習データの物理特性を決定する。
 物理シミュレーション演算部121は、学習データに対して、機械学習モデル200による推論結果に応じた物理特性を決定する。図3を参照しながら説明したように、機械学習モデル200による学習データの推論結果は、入力データに対する各ラベルの期待値からなる。そこで、物理シミュレーション演算部121は、正解ラベルの期待値に基づいて、学習データに対して質量(重力)や浮力、他の学習データとの間に作用する引力又は斥力、大きさ(体積)や形状などの物理量を決定する。したがって、後段の評価結果提示部122では、各学習データを、物理シミュレーション演算部121によって決定された物理特性を持つ物体として表現することができるようになる。
 具体的には、物理シミュレーション演算部121は、正解ラベルに対する期待値が低い学習データに対して軽い質量や小さなサイズを決定し、正解ラベルに対する期待値が高い学習データに対して重い質量や大きなサイズを決定する。したがって、重い物体は下へ沈もうとし、軽い物体は上に浮かぼうとするという性質を利用して、学習データの推論結果を表現することを期待する。また、学習回数が増えるにつれて正解ラベルの期待値が徐々に増加していく場合には、学習データには最初は軽い質量が決定されるが、その後に重い質量に更新されていく。なお、浮力は物体のサイズに応じて決定されてもよいし、物体のサイズに応じずに正解ラベルに対する期待値のみに基づいて決定されてもよい。
 また、物理シミュレーション演算部121は、機械学習モデル200から高い期待値が出力されたラベルが一致する学習データの間では引力が作用し、同じラベルに対して機械学習モデル200から低い期待値が出力された学習モデルと逆に高い期待値が出力された学習モデルの間では斥力が作用するように、学習データ間に作用する引力及び斥力を決定する。したがって、同じラベルに対して高い期待値を有する学習データ同士が引力で引き付けられ。同じラベルに対して高い期待値を有する学習データと低い期待値を有する学習データが斥力で離れようとする性質を利用して、学習データの推論結果を表現することを期待する。また、学習回数が増えるにつれて正解ラベルの期待値が徐々に増加していく学習データの場合には、その学習データは、最初は不正解のラベルの学習データと引き寄せ合うが、その後に正解ラベルが同じ学習データと引き寄せ合うようになっていく。
 図4には、図3に示した、ある学習データに対する学習回数(エポック数)に応じた推論結果の推移例に、物理シミュレーション演算部121によって決定された物理特性を記入して示している。
 学習が進んでいない学習回数がE1回目では、機械学習モデル200がこの学習データの推論を行い、正解のラベル3に対して「0.1」という低い期待値を出力する。したがって、物理シミュレーション演算部121は、この時点では、正解ラベルに対して出力する期待値が低いので、この学習データに対して軽い質量や小さなサイズを決定する。物理シミュレーション演算部121は、この学習データに対して大きな浮力が作用することをさらに決定してもよい。また、機械学習モデル200が不正解のラベル1に対して「0.5」という最も高い期待値を出力したので、物理シミュレーション演算部121は、ラベル1に対して高い期待値を持つ他の学習データとこの学習データとの間で作用する引力を決定する。また、機械学習モデル200がラベル3~5に対して「0.1」という平均値より低い期待値を出力したので、物理シミュレーション演算部121は、ラベル3~5に対して逆に高い期待値を持つ他の学習データとこの学習データとの間で作用する斥力を決定する。他方、機械学習モデル200がラベル2に対して「0.2」という平均的な期待値を出力したので、物理シミュレーション演算部121は、ラベル2に対して高い期待値を持つ他の学習データとこの学習データとの間では引力も斥力も作用しないと決定する。
 学習の進捗が中程度の学習回数がE2回目では、機械学習モデル200がこの学習データの推論を行い、正解のラベル3に対して「0.5」という中間的な期待値を出力する。したがって、物理シミュレーション演算部121は、この時点では、正解ラベルに対して出力する期待値が十分高くはないので、この学習データに対して中間的な質量やサイズを決定する。物理シミュレーション演算部121は、この学習データに作用する浮力を低くしてもよい。また、機械学習モデル200が正解のラベル3に対して「0.5」という最も高い期待値を出力したので、物理シミュレーション演算部121は、ラベル3に対して高い期待値を持つ他の学習データとこの学習データとの間で作用する引力を決定する。また、機械学習モデル200が不正解のラベル1及びラベル4に対しそれぞれ「0.1」、不正解のラベル5に対して「0.0」という平均値よりも低い期待値を出力したので、物理シミュレーション演算部121は、各ラベル1、4、5に対して逆に高い期待値を持つ他の学習データとこの学習データとの間で作用する斥力を決定する。他方、機械学習モデル200が不正解のラベル2に対して「0.3」という平均値より高い期待値を出力したので、物理シミュレーション演算部121は、ラベル2に対して高い期待値を持つ他の学習データとこの学習データとの間で作用する引力を決定する。
 学習の最終段階に近い学習回数がE3回目では、機械学習モデル200がこの学習データの推論を行い、正解のラベル3に対して「0.8」という最も高い期待値を出力する。したがって、物理シミュレーション演算部121は、正解ラベルに対して出力する期待値が最も高いので、この学習データに対して重い質量や大きなサイズを決定する。物理シミュレーション演算部121は、この学習データに作用する浮力を極めて小さくしてもよい。また、機械学習モデル200が正解のラベル3に対して「0.8」という最も高い期待値を出力したので、物理シミュレーション演算部121は、ラベル3に対して高い期待値を持つ他の学習データとこの学習データとの間で作用する引力を決定する。また、機械学習モデル200が不正解のラベル1及びラベル5に対しそれぞれ「0.0」、ラベル2及びラベル4に対して「0.1」という平均値よりも低い期待値を出力したので、物理シミュレーション演算部121は、各ラベル1、2、4、5に対して逆に高い期待値を持つ他の学習データとこの学習データとの間で作用する斥力を決定する。学習の成果として、正解のラベル3に対して十分高い期待値を出力できるようになったので、この学習データに重い質量が与えられるようになった。また、学習の成果として、この学習データとラベル2に対する期待が高い学習データ群との間では、E2回目では引力が作用していたがE3回目では斥力が作用するようになっている。
 そして、物理シミュレーション演算部121は、各学習データを、決定した引力や斥力、質量、大きさなどの物理特性を持つ物体として扱い、物理シミュレーション演算により各学習データに対応する物体の2次元平面又は3次元空間上の動き情報を算出する。物理シミュレーション演算の一例は、Force-Directed(FD)法である。
 ここで、i番目の学習データに対応する物体Diの位置情報を(xi,yi,zi)とし、物理シミュレーション演算部121がi番目の学習データに対する機械学習モデル200の推論結果(又は、正解ラベルの期待値)に基づいて決定した物体Diの質量をMi、大きさをSi、浮力をBiとする。また、i番目の学習データに対応する物体Diとj番目の学習データに対応する物体Djとの間では(但し、i≠jとする)、下式(1)で表される引力又は斥力Gijが作用する。
Figure JPOXMLDOC01-appb-M000001
 但し、上式(1)において、kは定数(例えば万有引力定数)、rijはi番目の学習データに対応する物体Diとj番目の学習データに対応する物体Dj間の距離である。また、δijは、機械学習モデル200が、i番目の学習データに対して最も高い期待値及び低い期待値をそれぞれ推論したラベルと、j番目の学習データに対して最も高い期待値を推論したラベルの一致に基づいて、1、0、又は-1の値をとる。δij=1は、i番目の学習データとj番目の学習データにおいて期待値が最も高いラベルが一致する場合に、各々の学習データに対応する物体Diと物体Dj間に引力が作用することを表す。また、δij=-1は、i番目の学習データとj番目の学習データの一方において最も期待値が高いラベルと他方において期待値が最も低いラベルが一致する場合に、各々の学習データに対応する物体Diと物体Dj間に斥力が作用することを表す。また、δij=0は、i番目の学習データとj番目の学習データの間でラベルの期待値に相関がないので、各々の学習データに対応する物体Diと物体Dj間に力が作用しないことを表す。
 したがって、i番目の学習データに対応する物体Diに作用する力Fiは、下式(2)のように、他の各学習データに対応する物体Djとの間で作用する力(引力又は斥力)Gijの合計と、物体Diの質量Miに応じた重力Mig、及び物体Diの浮力Biの合力として表される。
Figure JPOXMLDOC01-appb-M000002
 物理シミュレーション演算部121は、機械学習モデル200の学習に使用した各学習データに対応する物体に上式(2)に示すような力が作用するという力学モデルを設定する。そして、物理シミュレーション演算部121は、物理シミュレーション演算により各物体の2次元又は3次元の動き情報を計算する。
 図5には、それぞれ学習データに対応する3つの物体Di、Dj、及びDkからなる力学モデルを例示している。図5に示す例では、物体Diと物体Dj間には引力が作用し、物体Diと物体Dk間には斥力が作用するが物体Dと物体Dk間には引力も斥力も作用しないことを想定している。また、説明の便宜上、各物体Di、Dj、及びDkの重力と浮力を省略している。図5では、物体Di、Dj、及びDkからなる力学モデルを、スプリングで物体間を接続したスプリングシステムとして表している。物体間を接続する各スプリングには、圧縮又は伸長のいずれかの方向に復元力が作用している。例えばForce-Directed法を用いて物理シミュレーション演算を実施した場合、このようなスプリングシステムにおいて位置エネルギーが最小となるように、各学習データに対応する物体の位置を算出することができる。もちろん、このスプリングシステムにおいて各物体に重力及び浮力を作用されても、Force-Directed法などの物理シミュレーション演算を実施して、位置エネルギーが最小となるように各物体の位置を算出することができる。
C-2.学習データに対する評価結果の提示
 評価結果提示部122は、物理シミュレーション演算部121が機械学習モデル200による推論結果に基づいて決定した学習データ毎の物理特性に基づいて、各学習データを機械学習モデル200の学習に使用する際の評価結果を提示する。上記C-1項で説明したように、物理シミュレーション演算部121は、機械学習モデル200による推論結果に応じた学習データの物理特性を決定し、各学習データを決定した物理特性を持つ物体とみなして物理シミュレーション演算により各学習データに対応する物体の2次元平面又は3次元空間上の動き情報を算出する。そして、評価結果提示部122は、物理シミュレーション演算に基づいて決定された動き情報に基づいて、各学習データに対応する物体を配置したGUI画面を提示する。このGUI画面上では、学習データ毎の物体は、機械学習モデル200の推論結果に応じて決定された大きさを持つ物体として表示され、物理シミュレーション演算によって算出された動き情報に従って動かされる。
 図6には、評価結果提示部122が、物理シミュレーション演算部121における物理シミュレーション演算の結果に基づいて各学習データを表す物体をマッピングしたGUI画面の表示例を示す。図6に示す例では、図面の簡素化のため、各学習データに対応する物体をすべて円又は球で示しているが、物体は四角形のブロックや立方体などその他の形状であってもよい。もちろん、学習データ毎に異なる形状の物体で表してもよい。また、学習データの正解ラベルに応じて物体を色分けして表示してもよい。
 正解ラベルに対する期待値が高い学習データに対応する物体は、重くなるので、図6に示すGUI画面上では下へ沈もうとする。また、期待値が高いラベルが一致する学習データ同士の物体間では、強い引力が作用して引き寄せ合うので、同GUI画面上ではより近くにマッピングされる。他方、正解ラベルに対する期待値が低い学習データに対応する物体は、軽くなるので、同GUI画面上では上に浮かぼうとする。また、軽い物体に作用する引力は小さいので、期待値が高いラベルが一致する他の学習データに対応する物体に引き寄せられることはなく、他の物体から離間した場所にマッピングされるようにしてもよい。したがって、評価結果提示部122は、学習に使用された各学習データの評価結果を視覚的にランク付けして表示したGUI画面と言うことができる。
 図6中で、例えば参照番号601で示す物体は、正解ラベルに対して低い期待値を出力した学習モデルに対応し、軽く小さなサイズであり、他の物体から離間した場所にマッピングされている。物体601に対応する学習データに対する機械学習モデル200の推論結果では、正解ラベルに対する期待値が低い。
 ユーザ(例えば機械学習モデル200の開発者)は、図6に示すような、各学習データの評価結果を視覚的にランク付けして表示したGUI画面上で、課題のある学習データに対応する物体601を把握することができる。また、ユーザは、例えば図7に示すように物体601を所定のエリア外に移動するGUI操作を行うことによって、該当する学習データを学習データ保持部101から削除することができる。なお、物体601をGUI画面内で移動したりエリアから物体601を除外したりするGUI操作に合わせて、効果音を出力するようにしてもよい。
 ユーザは、GUI操作を通じて削除された学習データを、以後は機械学習モデル200の学習に使用しないようにして、学習のやり直しによる時間ロスを少なくすることができる。また、物体をエリア外に移動させるGUI操作を通じて削除した1以上の学習データを除外して、ユーザの判断でカスタムのデータセットを生成することができる。また、学習データ保持部101は、ユーザ毎にカスタマイズされたデータセットを例えばユーザ毎の識別情報と紐付けして、学習データ提供部130から提供され又はその他のソースから取得した一般的なデータセットとは区別して保持するようにしてもよい。
 図8には、図6に示すGUI画面上で、ユーザが学習データを削除する他のGUI操作例を示している。既に述べたように、物理シミュレーション演算部121は正解ラベルの期待値が低い学習データに対応する物体に軽い質量及び小さいサイズを決定し、このため物理シミュレーション演算を実施すると他の物体との引力が小さく、又は浮力によってGUI画面の上方に浮揚する。例えばユーザが、正解ラベルの期待値として許容される下限の閾値や、許容される物体の質量の加減の閾値を、自身の要望に基づいて設定すると、図8中の参照番号801で示すように、ユーザが設定した閾値を表す閾値ラインが表示される。あるいは、ユーザがGUI画面に対してドラッグ操作などを行って、閾値ライン801の位置を直接指示するようにしてもよい。この閾値ライン801を超えてGUI画面の上方に浮揚している物体は、機械学習モデル200の学習に使用するには課題がある学習データに対応する物体であり、自動削除の対象となる。なお、ユーザが自身の要望に基づいて閾値ラインの位置を調整するのではなく、システムであらかじめ設定した閾値に基づいて閾値ライン801の位置を決定して、閾値ライン801を超える物体に対応する学習データを自動削除の対象としてもよい。また、閾値ライン801を設定することで、閾値ライン801を超えた位置にある1以上の学習データを除外して、ユーザの判断でカスタムのデータセットを生成することができる。
 図7及び図8を参照しながら説明したように、機械学習モデル200の学習に使用するには課題のある学習データを、ユーザの要望に応じて削除したり、自動的に削除したりすることができる。また、ユーザは、GUI画面を通じて、削除の対象となる学習データを視覚的に確認することができる。そして、GUI画面上で削除操作が行われた学習データを除外して、モデル更新部102は機械学習モデルの学習を進めることができる。
 ここで、図4を参照すると、学習の初期段階(E1回目の学習)では正解ラベルに対する期待値が低くても、E2回目、E3回目と学習が進むにつれて、正解ラベルに対する期待値が高くなっていくこともある。正解ラベルに対する期待値が高い学習データに対応する物体は、重く大きなサイズとなるので、図6に示すGUI画面上では下へ沈もうとする。また、期待値が高いラベルが一致する学習データ同士の物体間では、強い引力が作用して引き寄せ合うので、同GUI画面上ではより近くにマッピングされる。例えば、図9に示すように、ある学習データは、E1回目の学習後では正解ラベルの期待値が低いために参照番号601で示す物体で表されていたが、E2回目、E3回目の学習後では正解ラベルの期待値が徐々に高くなり、参照番号902で示す大きく重い物体、参照番号903で示すさらに大きく且つ重い物体に推移していくことが想定される。
 したがって、評価結果提示部122は、図9に示すようなGUI画面を通じて、機械学習モデル200の学習中に動的に変化していく各学習データの評価結果を、視覚的にランク付けして表示することができる。モデル更新部102において学習中の機械学習モデル200が学習データを推論する度に物理特性の決定及び物理シミュレーション演算を実施してGUI画面を更新すると、ユーザにとっては、学習データに対応する物体が自律的に動いているように見える。ユーザ(例えば機械学習モデル200の開発者)は、図9に示すようなGUI画面を通じて、学習回数毎の各学習データの評価結果の変化を観察しながら、各学習データの取捨選択を適切に行うことができる。例えば、図9に示すGUI画面中で、物体601に対応する学習データは、学習回数毎に正解ラベルの期待値が大きくなり、これに応じて対応する物体の質量が増大してGUI画面内で徐々に下降していくことから、機械学習モデル200の学習に使用する上で問題はないことを確認することができる。ユーザは、物体903に対応する学習データを削除する必要がない、又は機械学習モデル200の学習に使用すべきであることを把握することができる。なお、機械学習モデル200の学習の進捗とともに学習データに対応する物体が徐々に移動する動作に合わせて、効果音を出力するようにしてもよい。
 なお、物理シミュレーション演算によって得られた、物体に働く力が平衡状態とならない場合は、複数の物体が密に凝集したり、画面の端部周辺に表示されたりする可能性がある。その場合は、ユーザが適切に学習データに対応する物体を認識できるように、物体間に距離を取ったり、物体と画面端の間に距離を取ったりしてもよい。また、物体が周期的な動きを見せるような状態になった場合は、周期的運動による平均位置を算出してGUI画面中に表示してもよい。また、GUI画面中の物体の運動を一時停止させるようなコマンドが入力可能であってもよく、そのようなコマンドに対応するアイコンなどをGUI画面中に表示してもよい。
C-3.機械学習モデルによる推論の判断の根拠の明示
 人工知能が推論結果に至った過程がブラックボックス化されて、その判断の根拠が分かり難いという問題がある。そこで、本実施形態では、判断根拠計算部123が機械学習モデル200による学習データに対する推論の判断の根拠を計算し、評価結果提示部122が学習データに対する機械学習モデルの推論の判断の根拠をさらに提示するようになっている。
 判断根拠計算部123は、例えば、Grad-CAM、LIME、LIMEの発展形であるSHAP、TCAVなどの各種のXAI(eXplainable AI)アルゴリズムを使って、機械学習モデル200の推論の判断の根拠を計算する。判断根拠計算部123は、機械学習モデル200が最も高い期待値を出力した推論ラベルに対して、1又は複数のXAIアルゴリズムを使って判断の根拠を計算する。もちろん、判断根拠計算部123が2番目以降に高い期待値のラベルについてもさらに判断根拠を計算するようにしてもよい。
 ここで、Grad-CAMは、出力層においてクラス分類の推論結果となるラベルから勾配を逆にたどる(クラス分類に至るまでの各特徴マップの貢献を算出し、その重みを以って逆伝播していく)方法によって、入力画像データのうちクラス分類に寄与した場所を推定するアルゴリズムであり、クラス分類に寄与した場所をヒートマップのように可視化することができる。あるいは、入力画像データの画素の位置情報を最終畳み込み層まで保持させて、最後の判別出力への位置情報の影響度を得ることで、元の入力画像のうち影響の強い部分をヒートマップ表示するようにしてもよい。ニューラルネットワークで構成される機械学習モデルにおいて、入力画像に対して画像認識を行ってクラスcを出力した場合に、Grad-CAMアルゴリズムに基づいて判断根拠を計算する方法(ヒートマップを生成する方法)について、以下で説明しておく。
Grad-CAMについて:
 クラスcの勾配ycが特徴マップの活性化Akであると仮定すると、下式(3)に示すようにニューロンの重要度の重みが与えられる。
Figure JPOXMLDOC01-appb-M000003
 そして、最終的な畳み込み層の順伝播出力にチャネル毎の重みを乗算して、活性化関数ReLUを介して、下式(4)に示すようにGrad-CAMが計算される。
Figure JPOXMLDOC01-appb-M000004
 図10には、判断根拠計算部123がGrad-CAMアルゴリズムに基づいて計算したヒートマップ表示付き判断根拠画像の例を示している。図10に示す例では、入力された画像データ1000のうち、機械学習モデル200が最も高い期待値を出力した推論ラベルの根拠となった部分にヒートマップ1001が重畳されている。元の入力画像は、犬と猫が一緒に写っている画像であり、正解ラベルを「犬(ラベル3)」とした学習データとして、機械学習モデル200の学習に用いられる。ユーザは、図10に示すようなヒートマップ表示付き画像データを参照して、ヒートマップが表示されている領域が正解ラベルを表しているかどうかに基づいて、元の入力画像を学習データに使用することに課題があるかどうかを把握することができる。図10に示す例では、正解ラベルである「犬」を正しくヒートマップ表示しているので、ユーザは、この入力画像を学習データとして使用することに問題ないと判断することができる。
 他方、図11には、図10と同じ入力画像1100に対して判断根拠計算部123がGrad-CAMアルゴリズムに基づいて計算したヒートマップ表示付き判断根拠画像の他の例を示している。図11に示す例では、機械学習モデル200が最も高い期待値を出力した推論ラベルは「犬」であるが、入力画像1100のうち犬ではなく猫の領域にヒートマップ1101が表示されている。ユーザは、図11に示すような、推論ラベルとは異なる領域にヒートマップが表示された画像データを参照して、元の入力画像を学習データに使用することに課題があることを把握することができる。
LIMEについて:
 LIMEは、特定の入力データ項目(特徴量)を変化させた際にニューラルネットワークの出力結果が反転又は大きく変動すれば、その項目を「判定における重要度が高い」と推定する。例えば、判断根拠計算部123は、モデル更新部102が学習を行っている機械学習モデルにおける推論の理由(根拠)を示すために局所近似する他のモデル(根拠用モデル)を生成する。判断根拠計算部123は、入力画像とその入力情報に対応する出力結果との組合せを対象に、局所的に近似する根拠用モデルを生成する。そして、判断根拠計算部123は、根拠用モデルを用いて、学習中の機械学習モデルが最も高い期待値を出力した推論ラベルに関する根拠情報を生成して、図10に示したような根拠画像をGrad-CAMアルゴリズムと同様に生成することができる。
TCAVについて:
 TCAVは、訓練済みモデルの予測に対するConcept(人間が簡単に理解できるような概念)の重要度を計算するアルゴリズムである。例えば、判断根拠計算部123は、入力情報(病理画像データ)を複製したり、変更を加えたりした複数の入力情報を生成して、根拠情報の生成対象となるモデル(説明対象モデル)に、複数の入力情報の各々を入力し、各入力情報に対応する複数の出力情報を説明対象モデルから出力させる。次いで、判断根拠計算部123は、複数の入力情報の各々と、対応する複数の出力情報の各々との組合せ(ペア)を学習用データとして、根拠用モデルを学習して、対象入力情報を対象として別の解釈可能なモデルで局所近似する根拠用モデルを生成する。そして、判断根拠計算部123は、モデル更新部102により学習中の機械学習モデルからラベルが出力されると、根拠用モデルを用いて、その出力ラベルに関する根拠情報を生成して、図10に示したような根拠画像を同様に生成することができる。
 もちろん、判断根拠計算部123は、上述したGrad-CAM、LIME/SHAP、TCAV以外のアルゴリズムに基づいて、モデル更新部102により学習中の機械学習モデルの出力ラベルに関する根拠を計算するようにしてもよい。
C-4.詳細情報の提示方法ついて
 図6を参照しながら既に説明したように、評価結果提示部122は、、物理シミュレーション演算部121が学習データ毎に決定した物理特性、及び決定した物理特性に基づく物理シミュレーション演算の結果に基づいて、各学習データを表す物体をマッピングしたGUI画面をユーザに提示する。このようなGUI画面は、各学習データに対する評価結果を視覚的にランク付けして表示しており、ユーザはGUI画面を通じて学習データについての課題の有無などを直感的に把握することができる。但し、学習データを除外するか否かを判断する際には、視覚的には低ランクに位置付けされていても、ユーザは学習データについてより詳細な情報を確認したいという要望がある。
 一方、学習データは、画像(画像ファイル名)と正解ラベル、さらには学習中の機械学習モデルによる推論結果(ラベル毎の期待値)、といった詳細情報を有する。また、判断根拠計算部123は、機械学習モデル200が最も高い期待値を出力した推論ラベルに対して、1又は複数のXAIアルゴリズムを使って判断の根拠を計算する。付言すれば、機械学習モデルによる推論結果に基づいて決定した物理特性を評価するという上記方法以外に手法をさらに用いて各学習データを評価するようにしてもよい。
 そこで、図6に示したような、各学習データの評価結果を表示するGUI画面上で、ユーザの要望に応じて、学習データの詳細情報や、XAIアルゴリズムによる評価結果、異なる手法による評価結果などを表示する。
 図12には、学習データの詳細情報を表示するGUI操作の一例を示している。図12に示す例では、ユーザは、各学習データの評価結果を表示するGUI画面上で、自身が着目する物体の上で、例えばマウスオーバーやマウスボタンの押下操作、タッチ操作などを実施する。このマウス操作に応答して、操作の対象となった物体に対応する画像データの詳細情報を記述している吹き出し1201がポップアップ表示する。
 また、図13には、GUI画面上で、物体へのマウス操作に応答して表示される、学習データの詳細情報をさらに具体的に示している。図13に示す吹き出し1301内には、入力データとなる画像のファイル名と、入力データに対応する正解ラベル、習中の機械学習モデルによる推論結果(ラベル毎の期待値)、入力された画像、最も高い期待値が出力された推論ラベルに対する1以上のXAIアルゴリズムを用いて算出された判断根拠が表示される。吹き出し1301内にすべてのデータを同時に表示できない場合には、吹き出し1301の例えば右端縁にスライダーバー1302を設けて、表示範囲を移動できるようにしてもよい。
C-5.処理手順
 図14には、学習データ評価部120において実施される処理手順をフローチャートの形式で示している。図14に示す処理手順では、モデル更新部102において学習中の機械学習モデル200が学習データを推論する度に物理特性の決定及び物理シミュレーション演算を実施して、GUI画面(図6~図9を参照のこと)を更新することを想定している。
 学習システム100では、モデル更新部102が学習データを使用してモデルパラメータを更新する度に、学習データ評価部120に対して機械学習モデルを更新したことを通知する。学習データ評価部120は、学習システム100から機械学習モデルの更新を行ったことが通知されると(ステップS1401)、後続の学習データの評価処理を開始する。
 学習データ評価部120は、基本的には、モデル更新部102において機械学習モデルの学習に使用したすべての学習データを評価対象とする。もちろん、機械学習モデルの学習に使用した学習データの一部を評価対象としたり、使用した学習データの一部を評価対象から除外したりしてもよい。
 未評価の学習データがまだ残っている場合には(ステップS1402のYes)、学習データ評価部120はそのうちの1つを対象データとして選択して(ステップS1403)、その対象データの推論を計算する(S1404)。ステップS1404では、学習中の機械学習モデルを使って、対象データの順シミュレーション(forward)の算出を行うようにしてもよいし、モデル更新部102から学習中の機械学習モデルの推論結果を取得するようにしてもよい。
 図3を参照しながら既に説明したように、機械学習モデルの推論結果は、対象データに対する機械学習モデルの出力ラベル毎の期待値からなる。続いて、物理シミュレーション演算部121は、対象データに対する機械学習モデルの推論結果に基づいて、対象データの質量や大きさ、他の学習データ間の作用力(引力又は斥力)といった物理特性を決定する(ステップS1405)。
 次いで、物理シミュレーション演算部121は、すべての対象データについての物理特性を決定すると(ステップS1402のNo)、各対象データに対応する物体に対して物理シミュレーション演算を実施する(ステップS1406)。例えばForce-Directed法を用いて物理シミュレーション演算を実施し、位置エネルギーが最小となるような各対象データに対応する物体の動きを算出する。
 そして、評価結果提示部122は、ステップS1406において物理シミュレーション演算に基づいて決定された動き情報に基づいて、各対象データに対応する物体を複数配置して視覚的にランク付けしたGUI画面を提示する(ステップS1407)。モデル更新部102において学習中の機械学習モデル200が学習データを推論する度に物理特性の決定及び物理シミュレーション演算を実施してGUI画面を更新すると、ユーザにとっては、学習データに対応する物体が自律的に動いているように見える(例えば図9を参照のこと)。
D.システム構成
 図15には、学習データ評価部120として動作する情報処理システム1500のハードウェア構成例を示している。情報処理システム1500は、例えばパーソナルコンピュータを用いて構成されるが、機能的には学習データ評価部120は、物理シミュレーション演算部121と、評価結果提示部122と、判断根拠計算部123等の機能モジュールを含んでいる。情報処理システム1500は、学習システム100と同一のシステムであってもよいし、学習システム100とは独立して構成されたシステムであってもよい。
 図示の情報処理システム1500は、CPU(Central Processing Unit)1501と、ROM(Read Only Memory)1502と、RAM(Random Access Memory)1503と、ホストバス1504と、ブリッジ1505と、拡張バス1506と、インターフェース部1507と、入力装置1508と、出力装置1509と、ストレージ装置1510と、ドライブ1511と、通信装置1513を含んでいる。
 CPU1501は、演算処理装置及び制御装置として機能し、各種プログラムに従って情報処理システム1500の動作全般を制御する。また、情報処理システム1500は、演算処理装置としてCPU1501以外にも、GPUやGPGPU(General-purpose computing on graphics processing units)をさらに含んでもよい。
 ROM1502は、CPU1501が使用するプログラム(基本入出力システムなど)や演算パラメータなどを不揮発的に格納している。RAM1503は、CPU1501の実行において使用するプログラムをロードしたり、プログラム実行において適宜変化する作業データなどのパラメータを一時的に格納したりするのに使用される。RAM1503にロードしてCPU1501において実行するプログラムは、例えば各種アプリケーションプログラムやオペレーティングシステム(OS)である。
 CPU1501とROM1502とRAM1503は、CPUバスなどから構成されるホストバス1504により相互に接続されている。そして、CPU1501は、ROM1502及びRAM1503の協働的な動作により、OSが提供する実行環境下で各種アプリケーションプログラムを実行して、さまざまな機能やサービスを実現することができる。本実施形態では、CPU1501とROM1502及びRAM1503の協働的動作により、学習データ評価部120としての機能を実現し、機械学習モデルの学習に使用した学習データの物理特性決定及び物理シミュレーション演算、物理シミュレーション演算結果に基づく学習データの評価結果のGUI画面提示、機械学習モデルによる学習データの推論の根拠計算などを実現する。
 ホストバス1504は、ブリッジ1505を介して拡張バス1506に接続されている。拡張バス1506は、例えばPCI-SIG(Peripheral Component Interconnect Special Interest Group)によって規格策定されるPCI、又はPCIe(PCI Express)である。但し、情報処理システム1500がホストバス1504、ブリッジ1505及び拡張バス1506によって回路コンポーネントを分離される構成する必要はなく、単一のバス(図示しない)によってほぼすべての回路コンポーネントが相互接続される実装であってもよい。
 インターフェース1507は、拡張バス1506の規格に則って、入力装置1508、出力装置1509、ストレージ装置1510、ドライブ1511、通信装置1513といった外部装置又は周辺装置を接続する。但し、情報処理システム1500が学習データ評価部120として動作するために、図15に示す外部装置又は周辺装置がすべて必須であるとは限らず、また図示しない外部装置又は周辺装置を情報処理システム1500がさらに含んでもよい。
 入力装置1508は、ユーザからの入力に基づいて入力信号を生成し、CPU1501に出力する入力制御回路などから構成される。入力装置1508は、例えばマウス、キーボード、タッチパネル、ボタン、マイクロホン、スイッチ及びレバーのうち少なくともいずれか1つである。入力装置1508は、例えばユーザ(機械学習モデルの開発者)がGUI画面(図7を参照のこと)上で学習データに対応する物体の操作を行ったり、その他の指示を入力したりするために用いられる。
 出力装置1509は、例えば、液晶ディスプレイ(LCD)装置、有機EL(Electro-Luminescence)ディスプレイ装置、及びLED(Light Emitting Diode)などの表示装置を含み、映像データなどの各種データをイメージ又はテキストで表示する。また、出力装置1509は、スピーカ及びヘッドホンなどの音声出力装置を含み、音声データなどを音声に変換して出力する。
 ストレージ装置1510は、例えば、SSD(Solid State Drive)やHDD(Hard Disk Drive)といった大容量記憶装置で構成される。ストレージ装置1510は、CPU1501で実行されるプログラムや各種データなどのファイルを格納する。
 リムーバブル記憶媒体1512は、例えば磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのカートリッジ式で構成される記憶媒体である。ドライブ1511は、装填したリムーバブル記憶媒体1513に対して読み出し及び書き込み動作を行う。ドライブ1511は、リムーバブル記録媒体1512から読み出したデータをRAM1503に出力したり、RAM1503上のデータをリムーバブル記録媒体1512に書き込んだりする。ドライブ1511は、情報処理システム1500の筐体に内蔵される場合と、外付けされる場合がある。
 通信装置1513は、LAN(Local Area Network)やインターネットなどの外部ネットワークに接続するためのデバイスであり、例えばネットワークインターフェースカード(NIC)で構成される。
 以上、特定の実施形態を参照しながら、本開示について詳細に説明してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
 本明細書では、主に画像分類を行う機械学習モデルの学習を行う学習システムに本開示を適用した実施形態を中心に説明してきたが、本開示の要旨はこれに限定されるものではない。例えば、音声認識、文字認識、データ生成などさまざまな推論を行う機械学習モデルを対象として、本開示に係る学習データの評価を実施することができる。また、機械学習モデルは、ニューラルネットワークで構成される他、サポートベクタ回帰、ガウス過程回帰などの型を用いたモデルであってもよい。
 要するに、例示という形態により本開示について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本開示の要旨を判断するためには、特許請求の範囲を参酌すべきである。
 なお、本開示は、以下のような構成をとることも可能である。
(1)機械学習モデルの学習に用いられる学習データに関する処理を行う情報処理方法であって、
 学習データに対する前記機械学習モデルの推論結果に基づいて各学習データの特性を決定する決定ステップと、
 前記決定した特性に基づく学習データの評価結果を提示する提示ステップと、
を有する情報処理方法。
(2)前記決定ステップでは、前記機械学習モデルの推論結果に基づいて各学習データに対応する物体の物理特性を決定するとともに、決定された物理特性をそれぞれ持つ物体間の物理シミュレーション演算を実施し、
 前記提示ステップでは、前記物理シミュレーション演算の結果に基づいて、各学習データに対応する物体を提示する、
上記(1)に記載の情報処理方法。
(3)前記決定ステップでは、学習データに対して前記機械学習モデルが出力するラベル毎の期待値に基づいて、学習データに対応する物体の物理特性を決定する、
上記(2)に記載の情報処理方法。
(4)前記決定ステップでは、正解ラベルの期待値に基づいて学習データに対応する物体の質量、浮力、又は大きさを決定する、
上記(3)に記載の情報処理方法。
(4-1)前記決定ステップでは、正解ラベルの期待値が大きい学習データに対応する物体が重く又は大きくなり、正解ラベルの期待値が小さい学習データに対応する物体が軽く又は小さくなるように、各学習データの物理特性を決定する、
上記(4)に記載の情報処理方法。
(5)前記決定ステップでは、正解ラベルの期待値に基づいて各学習データに対応する物体間に作用する引力又は斥力のうち少なくとも一方を決定する、
上記(3)又は(4)のいずれかに記載の情報処理方法。
(5-1)前記決定ステップでは、期待値が高いラベルが一致する学習データに対応する物体間に作用する引力を決定する、
上記(5)に記載の情報処理方法。
(5-2)前記決定ステップでは、同じラベルに対して低い期待値が出力された学習モデルに対応する物体と逆に高い期待値が出力された学習モデルに対応する物体間に作用する斥力を決定する、
上記(5)又は(5-1)のいずれかに記載の情報処理方法。
(6)前記決定ステップでは、各学習データに対応する物体に決定した物理特性に基づいて、前記物理シミュレーション演算により各物体の動き情報を算出し、
 前記提示ステップでは、前記決定ステップで算出された動き情報に基づいて、表示装置の画面上に各物体を動かして表示させる、
上記(2)乃至(5)のいずれかに記載の情報処理方法。
(7)前記表示装置に画面上に表示された物体に対するユーザの操作を入力する入力ステップをさらに有する、
上記(6)に記載の情報処理方法。
(7-1)前記入力ステップにおいて前記画面上で削除する操作が行われた物体に対応する学習データを、前記機械学習モデルの学習対象から除外する、
上記(7)に記載の情報処理方法。
(8)前記機械学習モデルの更新を行う度に、前記決定ステップにより各学習データの特性を決定して、前記提示ステップにより学習データの評価結果を提示する、
上記(1)乃至(7)のいずれかに記載の情報処理方法。
(9)機械学習モデルの学習に用いられる学習データに関する処理を行う情報処理システムであって、
 学習データに対する前記機械学習モデルの推論結果に基づいて各学習データの特性を決定する決定部と、
 前記決定した特性に基づく学習データの評価結果を提示する提示部と、
を含む情報処理システム。
(10)前記決定部は、前記機械学習モデルの推論結果に基づいて各学習データに対応する物体の物理特性を決定するとともに、決定された物理特性をそれぞれ持つ物体間の物理シミュレーション演算を実施し、
 前記提示部は、前記物理シミュレーション演算の結果に基づいて、各学習データに対応する物体を提示する、
上記(9)に記載の情報処理システム。
(11)前記決定部は、学習データに対して前記機械学習モデルが出力するラベル毎の期待値に基づいて、学習データに対応する物体の物理特性を決定する、
上記(10)に記載の情報処理システム。
(12)前記決定部は、正解ラベルの期待値に基づいて学習データに対応する物体の質量、浮力、又は大きさを決定する、
上記(11)に記載の情報処理システム。
(12-1)前記決定部は、正解ラベルの期待値が大きい学習データに対応する物体が重く又は大きくなり、正解ラベルの期待値が小さい学習データに対応する物体が軽く又は小さくなるように決定する、
上記(12)に記載の情報処理システム。
(13)前記決定部は、正解ラベルの期待値に基づいて各学習データに対応する物体間に作用する引力又は斥力のうち少なくとも一方を決定する、
上記(11)又は(12)のいずれかに記載の情報処理システム。
(13-1)前記決定部は、期待値が高いラベルが一致する学習データに対応する物体間に作用する引力を決定する、
上記(13)に記載の情報処理システム。
(13-2)前記決定部は、同じラベルに対して低い期待値が出力された学習モデルに対応する物体と逆に高い期待値が出力された学習モデルに対応する物体間に作用する斥力を決定する、
上記(13)又は(13-1)のいずれかに記載の情報処理システム。
(14)前記決定部は、各学習データに対応する物体に決定した物理特性に基づいて、前記物理シミュレーション演算により各物体の動き情報を算出し、
 前記提示部は、前記決定部が算出された動き情報に基づいて、表示装置の画面上に各物体を動かして表示させる、
上記(10)乃至(13)のいずれかに記載の情報処理システム。
(15)前記表示装置に画面上に表示された物体に対するユーザの操作を入力する入力部をさらに含む、
上記(14)に記載の情報処理システム。
(15-1)前記入力部において前記画面上で削除する操作が行われた物体に対応する学習データを、前記機械学習モデルの学習対象から除外する、
上記(15)に記載の情報処理システム。
(16)前記提示部は、前記画面上に表示された物体に対して前記入力部を通じて所定の操作が行われたことに応答して、前記物体に対応する学習データに関する詳細情報をさらに提示する、
上記(15)に記載の情報処理システム。
(16-1)学習データに対する前記機械学習モデルの推論の判断の根拠を計算する計算部をさらに備え、
 前記提示部は、計算部によって計算された判断根拠を含む前記詳細情報を提示する、
上記(16)に記載の情報処理システム。
(17)前記機械学習モデルの更新を行う度に、前記決定部が各学習データの特性を決定して、前記提示部が学習データの評価結果を提示する、
上記(9)乃至(16)のいずれかに記載の情報処理システム。
(18)前記決定部を含む第1の装置と、
 前記提示部を含む第2の装置と、
を含む、
上記(9)乃至(17)のいずれかに記載の情報処理システム。
(19)前記第2の装置は、前記決定した特性に基づく学習データの評価結果を画面に表示する表示装置と、前記画面に対するユーザの操作を入力する入力部を含む、
上記(18)に記載の情報処理システム。
(20)学習データを用いた学習により前記機械学習モデルを更新するモデル更新部を含む第3の装置をさらに含む、
上記(18)又は(19)のいずれかに記載の情報処理システム。
 100…学習システム、101…学習データ保持部、102…モデル更新部
 103…モデルパラメータ保持部、111…推論部
 112…データ入力処理部、120…学習データ評価部
 121…物理シミュレーション演算部、122…評価結果提示部
 123…判断根拠計算部、130…学習データ提供部
 1500…情報処理システム、1501…CPU、1502…ROM
 1503…RAM、1504…ホストバス、1505…ブリッジ、
 1506…拡張バス、1507…インターフェース部
 1508…入力装置、1509…出力装置、1510…ストレージ装置
 1511…ドライブ、1512…リムーバブル記録媒体
 1513…通信装置

Claims (20)

  1.  機械学習モデルの学習に用いられる学習データに関する処理を行う情報処理方法であって、
     学習データに対する前記機械学習モデルの推論結果に基づいて各学習データの特性を決定する決定ステップと、
     前記決定した特性に基づく学習データの評価結果を提示する提示ステップと、
    を有する情報処理方法。
  2.  前記決定ステップでは、前記機械学習モデルの推論結果に基づいて各学習データに対応する物体の物理特性を決定するとともに、決定された物理特性をそれぞれ持つ物体間の物理シミュレーション演算を実施し、
     前記提示ステップでは、前記物理シミュレーション演算の結果に基づいて、各学習データに対応する物体を提示する、
    請求項1に記載の情報処理方法。
  3.  前記決定ステップでは、学習データに対して前記機械学習モデルが出力するラベル毎の期待値に基づいて、学習データに対応する物体の物理特性を決定する、
    請求項2に記載の情報処理方法。
  4.  前記決定ステップでは、正解ラベルの期待値に基づいて学習データに対応する物体の質量、浮力、又は大きさを決定する、
    請求項3に記載の情報処理方法。
  5.  前記決定ステップでは、正解ラベルの期待値に基づいて各学習データに対応する物体間に作用する引力又は斥力のうち少なくとも一方を決定する、
    請求項3に記載の情報処理方法。
  6.  前記決定ステップでは、各学習データに対応する物体に決定した物理特性に基づいて、前記物理シミュレーション演算により各物体の動き情報を算出し、
     前記提示ステップでは、前記決定ステップで算出された動き情報に基づいて、表示装置の画面上に各物体を動かして表示させる、
    請求項2に記載の情報処理方法。
  7.  前記表示装置に画面上に表示された物体に対するユーザの操作を入力する入力ステップをさらに有する、
    請求項6に記載の情報処理方法。
  8.  前記機械学習モデルの更新を行う度に、前記決定ステップにより各学習データの特性を決定して、前記提示ステップにより学習データの評価結果を提示する、
    請求項1に記載の情報処理方法。
  9.  機械学習モデルの学習に用いられる学習データに関する処理を行う情報処理システムであって、
     学習データに対する前記機械学習モデルの推論結果に基づいて各学習データの特性を決定する決定部と、
     前記決定した特性に基づく学習データの評価結果を提示する提示部と、
    を含む情報処理システム。
  10.  前記決定部は、前記機械学習モデルの推論結果に基づいて各学習データに対応する物体の物理特性を決定するとともに、決定された物理特性をそれぞれ持つ物体間の物理シミュレーション演算を実施し、
     前記提示部は、前記物理シミュレーション演算の結果に基づいて、各学習データに対応する物体を提示する、
    請求項9に記載の情報処理システム。
  11.  前記決定部は、学習データに対して前記機械学習モデルが出力するラベル毎の期待値に基づいて、学習データに対応する物体の物理特性を決定する、
    請求項10に記載の情報処理システム。
  12.  前記決定部は、正解ラベルの期待値に基づいて学習データに対応する物体の質量、浮力、又は大きさを決定する、
    請求項11に記載の情報処理システム。
  13.  前記決定部は、正解ラベルの期待値に基づいて各学習データに対応する物体間に作用する引力又は斥力のうち少なくとも一方を決定する、
    請求項11に記載の情報処理システム。
  14.  前記決定部は、各学習データに対応する物体に決定した物理特性に基づいて、前記物理シミュレーション演算により各物体の動き情報を算出し、
     前記提示部は、前記決定部が算出された動き情報に基づいて、表示装置の画面上に各物体を動かして表示させる、
    請求項10に記載の情報処理システム。
  15.  前記表示装置に画面上に表示された物体に対するユーザの操作を入力する入力部をさらに含む、
    請求項14に記載の情報処理システム。
  16.  前記提示部は、前記画面上に表示された物体に対して前記入力部を通じて所定の操作が行われたことに応答して、前記物体に対応する学習データに関する詳細情報をさらに提示する、
    請求項15に記載の情報処理システム。
  17.  前記機械学習モデルの更新を行う度に、前記決定部が各学習データの特性を決定して、前記提示部が学習データの評価結果を提示する、
    請求項9に記載の情報処理システム。
  18.  前記決定部を含む第1の装置と、
     前記提示部を含む第2の装置と、
    を含む、
    請求項9に記載の情報処理システム。
  19.  前記第2の装置は、前記決定した特性に基づく学習データの評価結果を画面に表示する表示装置と、前記画面に対するユーザの操作を入力する入力部を含む、
    請求項18に記載の情報処理システム。
  20.  学習データを用いた学習により前記機械学習モデルを更新するモデル更新部を含む第3の装置をさらに含む、
    請求項18に記載の情報処理システム。
PCT/JP2022/003897 2021-07-23 2022-02-01 情報処理方法及び情報処理システム WO2023002648A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP22845589.5A EP4375890A1 (en) 2021-07-23 2022-02-01 Information processing method and information processing system
CN202280050196.8A CN117730332A (zh) 2021-07-23 2022-02-01 信息处理方法和信息处理系统

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021121122 2021-07-23
JP2021-121122 2021-07-23

Publications (1)

Publication Number Publication Date
WO2023002648A1 true WO2023002648A1 (ja) 2023-01-26

Family

ID=84979072

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/003897 WO2023002648A1 (ja) 2021-07-23 2022-02-01 情報処理方法及び情報処理システム

Country Status (3)

Country Link
EP (1) EP4375890A1 (ja)
CN (1) CN117730332A (ja)
WO (1) WO2023002648A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018194919A (ja) 2017-05-12 2018-12-06 富士通株式会社 学習プログラム、学習方法及び学習装置
JP2020140226A (ja) * 2019-02-26 2020-09-03 三菱Ufj信託銀行株式会社 汎用人工知能装置及び汎用人工知能プログラム
JP2020197875A (ja) 2019-05-31 2020-12-10 富士通株式会社 解析プログラム、解析装置及び解析方法
JP2021060692A (ja) * 2019-10-03 2021-04-15 株式会社東芝 推論結果評価システム、推論結果評価装置及びその方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018194919A (ja) 2017-05-12 2018-12-06 富士通株式会社 学習プログラム、学習方法及び学習装置
JP2020140226A (ja) * 2019-02-26 2020-09-03 三菱Ufj信託銀行株式会社 汎用人工知能装置及び汎用人工知能プログラム
JP2020197875A (ja) 2019-05-31 2020-12-10 富士通株式会社 解析プログラム、解析装置及び解析方法
JP2021060692A (ja) * 2019-10-03 2021-04-15 株式会社東芝 推論結果評価システム、推論結果評価装置及びその方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Why Should I Trust You?", EXPLAINING THE PREDICTIONS OF ANY CLASSIFIER, Retrieved from the Internet <URL:https://arxiv.org/abs/1602.04938>
GRAD-CAM: VISUAL EXPLANATIONS FROM DEEP NETWORKS VIA GRADIENT-BASED LOCALIZATION, Retrieved from the Internet <URL:https://arxiv.org/abs/1610.02391>
GUMELAR AGUSTINUS BIMO: "An Anatomy of Machine Learning Data Visualization", 2019 INTERNATIONAL SEMINAR ON APPLICATION FOR TECHNOLOGY OF INFORMATION AND COMMUNICATION (ISEMANTIC), 21 September 2019 (2019-09-21), pages 1 - 6, XP033651025, DOI: 10.1109/ISEMANTIC.2019.8884340 *
INTERPRETABILITY BEYOND FEATURE ATTRIBUTION: QUANTITATIVE TESTING WITH CONCEPT ACTIVATION VECTORS (TCAV, Retrieved from the Internet <URL:https://arxiv.org/pdf/1711.11279.pdf>

Also Published As

Publication number Publication date
EP4375890A1 (en) 2024-05-29
CN117730332A (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN111489412B (zh) 用于使用神经网络生成基本逼真图像的语义图像合成
Jabri et al. Unsupervised curricula for visual meta-reinforcement learning
KR102532749B1 (ko) 약한 지도 학습에 기초한 뉴럴 네트워크의 계층적 학습 방법 및 장치
KR102535411B1 (ko) 메트릭 학습 기반의 데이터 분류와 관련된 장치 및 그 방법
US20230150127A1 (en) Optimizing policy controllers for robotic agents using image embeddings
US20190130275A1 (en) Gradient normalization systems and methods for adaptive loss balancing in deep multitask networks
WO2019099305A1 (en) Meta-learning for multi-task learning for neural networks
US9111375B2 (en) Evaluation of three-dimensional scenes using two-dimensional representations
EP3676765A1 (en) Using hierarchical representations for neural network architecture searching
JP7144699B2 (ja) 信号変更装置、方法、及びプログラム
WO2020159890A1 (en) Method for few-shot unsupervised image-to-image translation
JP2007280053A (ja) データ処理装置、データ処理方法、およびプログラム
KR102046113B1 (ko) 신경망 학습 방법 및 그 장치
CN109447096B (zh) 一种基于机器学习的扫视路径预测方法和装置
WO2020104499A1 (en) Action classification in video clips using attention-based neural networks
JP2021526678A (ja) 画像処理方法、装置、電子装置及び記憶媒体
Huttunen Deep neural networks: A signal processing perspective
WO2023002648A1 (ja) 情報処理方法及び情報処理システム
EP1837807A1 (en) Pattern recognition method
Conradt et al. Automated plankton classification with a dynamic optimization and adaptation cycle
Ishiwaka et al. DeepFoids: Adaptive Bio-Inspired Fish Simulation with Deep Reinforcement Learning.
WO2024103345A1 (zh) 一种多任务认知的类脑建模方法
Sadeghipour et al. Social motorics–towards an embodied basis of social human-robot interaction
Gilley Comparison of Search Algorithms in Two-Stage Neural Network Training for Optical Character Recognition of Handwritten Digits
Tveter Exploring High Dimensional, Sparse Reward Problems Using Deep Learning and Neuroevolution

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22845589

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 202280050196.8

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2022845589

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2022845589

Country of ref document: EP

Effective date: 20240223