WO2023181244A1 - モデル分析装置、モデル分析方法、及び、記録媒体 - Google Patents

モデル分析装置、モデル分析方法、及び、記録媒体 Download PDF

Info

Publication number
WO2023181244A1
WO2023181244A1 PCT/JP2022/013900 JP2022013900W WO2023181244A1 WO 2023181244 A1 WO2023181244 A1 WO 2023181244A1 JP 2022013900 W JP2022013900 W JP 2022013900W WO 2023181244 A1 WO2023181244 A1 WO 2023181244A1
Authority
WO
WIPO (PCT)
Prior art keywords
model
performance
attribute
category
attributes
Prior art date
Application number
PCT/JP2022/013900
Other languages
English (en)
French (fr)
Inventor
竜太 松野
智哉 坂井
啓太 佐久間
義男 亀田
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/013900 priority Critical patent/WO2023181244A1/ja
Publication of WO2023181244A1 publication Critical patent/WO2023181244A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • This disclosure relates to analysis of machine learning models.
  • Patent Document 1 discloses a method for visualizing the relationship between the number of training data used for learning a model and the classification accuracy of the model obtained by learning, for each category of training data used for learning a discrimination model. It is listed.
  • One purpose of the present disclosure is to evaluate the performance of a model for each category attribute of a dataset used for prediction, and to visualize categories and attributes with large differences in prediction performance between the models.
  • the model analysis device includes: a model acquisition means for acquiring a model; performance calculation means for calculating the performance of the model for each attribute included in a data category; output means for extracting a pair of attributes in which a difference in performance of the models satisfies a predetermined condition, and outputting performance information indicating the performance of the model for each attribute included in the pair; Equipped with
  • the model analysis method includes: get the model, Calculate the performance of the model for each attribute included in the data category, A pair of attributes in which the difference in performance of the models satisfies a predetermined condition is extracted, and performance information indicating the performance of the model is output for each attribute included in the pair.
  • the recording medium includes: get the model, Calculate the performance of the model for each attribute included in the data category, A program is recorded that causes a computer to execute a process of extracting a pair of attributes in which a difference in performance of the models satisfies a predetermined condition, and outputting performance information indicating the performance of the model for each attribute included in the pair.
  • FIG. 1 is a block diagram showing the overall configuration of a model generation system according to a first embodiment.
  • FIG. 2 is a block diagram showing the hardware configuration of a model generation device.
  • 1 is a block diagram showing a functional configuration of a model generation device according to a first embodiment;
  • FIG. An example of displaying unfair performance information is shown.
  • An example of generating unfair performance information is shown below.
  • 7 is a flowchart of model analysis processing performed by the model generation device.
  • FIG. 1 is a block diagram showing a schematic configuration of a model generation system using a server and a terminal device.
  • FIG. 2 is a block diagram showing the functional configuration of a model analysis device according to a second embodiment. It is a flowchart of processing by a model analysis device of a 2nd embodiment.
  • FIG. 1 is a block diagram showing the overall configuration of a model generation system according to a first embodiment.
  • the model generation system 1 includes a model generation device 100, a display device 2, and an input device 3.
  • the model generation device 100 is an application of the model analysis device of the present disclosure, and is configured by, for example, a computer such as a personal computer (PC).
  • the display device 2 is, for example, a liquid crystal display device, and displays the evaluation information generated by the model generation device 100.
  • the input device 3 is, for example, a mouse, a keyboard, etc., and is used by the user to give instructions and input necessary when modifying a model or viewing evaluation information.
  • the model generation device 100 generates a machine learning model (hereinafter simply referred to as a "model") using training data prepared in advance.
  • the model generation device 100 also analyzes and evaluates the generated model. Specifically, the model generation device 100 performs prediction using a model using evaluation data and the like, and analyzes the prediction performance of the model based on the prediction result.
  • the model generation device 100 calculates a value indicating the performance of the model (hereinafter also referred to as "performance value”) for each category attribute of the dataset of evaluation data.
  • the model generation device 100 generates a graph or the like showing the performance of the model for each attribute of the category and presents it to the user as evaluation information.
  • the user can check the evaluation information and operate the input device 3 to input modification information for modifying the model.
  • a machine learning model is information that represents the relationship between explanatory variables and objective variables.
  • a machine learning model is, for example, a component for estimating a result to be estimated by calculating a target variable based on an explanatory variable.
  • a machine learning model is generated by executing a learning algorithm using learning data for which the value of the target variable has already been obtained and arbitrary parameters as input.
  • a machine learning model may be represented, for example, by a function c that maps an input x to a correct answer y.
  • the machine learning model may be one that estimates a numerical value to be estimated, or may be one that estimates a label to be estimated.
  • the machine learning model may output variables that describe the probability distribution of the target variable.
  • a machine learning model is sometimes described as a “learning model,” “analytical model,” “AI (Artificial Intelligence) model,” “trained model,” “inference model,” or “prediction formula.”
  • an explanatory variable is a variable used as an input in a machine learning model.
  • Explanatory variables are sometimes described as “features” or “features.”
  • the learning algorithm for generating the machine learning model is not particularly limited, and any existing learning algorithm may be used.
  • the learning algorithm may be a random forest, a support vector machine, a piecewise linear model using Naive Bayes, FAB inference (Factorized Asymmetric Bayesian Inference), or a neural network.
  • FAB inference Vectorized Asymmetric Bayesian Inference
  • a piecewise linear model method using FAB inference is disclosed in, for example, US Patent Publication No. US2014/0222741A1.
  • FIG. 2 is a block diagram showing the hardware configuration of the model generation device 100.
  • the model generation device 100 includes an interface (I/F) 111, a processor 112, a memory 113, a recording medium 114, and a database (DB) 115.
  • I/F interface
  • processor 112 processor 112
  • memory 113 memory
  • recording medium 114 recording medium
  • DB database
  • the I/F 111 inputs and outputs data to and from external devices. Specifically, training data, evaluation data, and instructions and inputs input by the user using the input device 3 are input to the model generation device 100 through the I/F 111. Furthermore, evaluation information of the model generated by the model generation device 100 is output to the display device 2 through the I/F 111.
  • the processor 112 is a computer such as a CPU (Central Processing Unit), and controls the entire model generation device 100 by executing a program prepared in advance.
  • the processor 112 may be a GPU (Graphics Processing Unit), a TPU (Tensor Processing Unit), a quantum processor, or an FPGA (Field-Programmable Gate Array).
  • the processor 112 executes model analysis processing, which will be described later.
  • the memory 113 is composed of ROM (Read Only Memory), RAM (Random Access Memory), and the like. Memory 113 is also used as a working memory while processor 112 executes various processes.
  • the recording medium 114 is a non-volatile, non-temporary recording medium such as a disk-shaped recording medium or a semiconductor memory, and is configured to be detachable from the model generation device 100.
  • the recording medium 114 records various programs executed by the processor 112. When the model generation device 100 executes various processes, a program recorded on the recording medium 114 is loaded into the memory 113 and executed by the processor 112.
  • the DB 115 stores information regarding the model generated by the model generation device 100 (hereinafter referred to as "existing model”) and the model after modification by retraining (hereinafter referred to as "modified model”). Further, the DB 115 stores training data input through the I/F 111, evaluation data, correction information input by the user, and the like, as necessary.
  • FIG. 3 is a block diagram showing the functional configuration of the model generation device 100 of the first embodiment.
  • the model generation device 100 functionally includes a training data DB 121, a model training section 122, a model DB 123, an evaluation data DB 124, and an analysis section 125.
  • the training data DB 121 stores training data used for model generation.
  • Training data D1 is input to model training section 122.
  • the training data D1 is composed of a plurality of combinations of input data and correct answers (correct values or correct labels) for the input data.
  • the model training unit 122 trains a model using the training data D1 and generates a model.
  • the model training unit 122 outputs model data M corresponding to the generated model to the model DB 123 and the analysis unit 125.
  • the model data M includes a plurality of parameter information constituting the model.
  • the parameter information includes, for example, information on explanatory variables used as model inputs, information on weights for each explanatory variable, information on weights for each sample forming input data, and the like.
  • the model training unit 122 retrains the existing model to generate a modified model.
  • the model training unit 122 corrects the parameters constituting the model based on the correction information D3 input by the user using the input device 3, and uses training data for retraining as necessary to improve the model. Perform retraining.
  • the model training unit 122 stores model data M of the corrected model obtained through retraining in the model DB 123 and outputs it to the analysis unit 125.
  • the evaluation data DB 124 stores evaluation data used to evaluate the generated model.
  • the evaluation data includes, for example, part of the collected data that was not used as training data, newly collected data, validation data prepared for verification, and the like. Note that training data may be used as evaluation data.
  • the evaluation data is composed of a plurality of combinations of input data and correct answers (correct values or correct labels) for the input data.
  • the evaluation data is stored and used in units of data sets.
  • Each data included in the dataset includes multiple categories. For example, in the case of a prediction model for determining credit, data on a large number of people to be determined is prepared as evaluation data, and each data includes categories such as age group, gender, area of residence, family structure, and income. Furthermore, each category includes multiple attributes (groups).
  • the analysis unit 125 uses the evaluation data to analyze the performance of the model for each attribute included in the category of the dataset. For example, assume that a certain category "age group" includes multiple attributes such as “20s", “30s", “40s”, etc. In this case, the analysis unit 125 calculates a performance value indicating the performance of the model for each attribute. Next, the analysis unit 125 extracts attributes with a large difference (discrepancy) in performance. Note that a large difference in performance is called “unfair" performance. The analysis unit 125 outputs information indicating the category and the attribute with a large difference in performance (hereinafter also referred to as "unfair performance information”) to the display device 2 as evaluation information D2.
  • unfair performance information information indicating the category and the attribute with a large difference in performance
  • the display device 2 displays the evaluation information D2 output by the analysis section 125 on the display device 2. By looking at the displayed unfair performance information, the user can know the difference in model performance for each category and each attribute.
  • the user inputs modification information D3 for modifying the current model into the input device 3, if necessary.
  • the modification information D3 is, for example, information related to modification, such as information on explanatory variables used as model inputs, information on weights for each explanatory variable, and information on weights for each sample constituting the input data.
  • the model training unit 122 corrects the model by retraining the model using the input correction information D3.
  • FIG. 4 shows an example of unfair performance information.
  • FIG. 4(A) shows the performance index of a certain prediction model for the entire data set. This graph is, for example, the average value of the performance index of the prediction model for all data included in the data set.
  • FIG. 4(B) shows an example of unfair performance information.
  • the predictive model has high performance for the data for the attribute "20s," but the attribute " It has been shown that the performance of the predictive model is low for data for people in their 60s to 90s.
  • FIG. 4(C) shows another example of unfair performance information.
  • the predictive model has high performance for data with the attribute "2 million to 3 million,” but the predictive model has high performance for the attribute "10 million.” has been shown to have poor performance.
  • the analysis unit 125 extracts attributes for which there is a large difference in model performance for each attribute, and presents the category and a graph showing the performance value to the user as unfair performance information. This allows the user to modify the model to reduce the difference in model performance for each attribute for each category, that is, to prevent variations in model performance for each attribute. . Note that the method for generating unfair performance information will be explained in detail later.
  • the analysis unit 125 is an example of a model acquisition means, a performance calculation means, an attribute integration means, and an output means.
  • FIG. 5 shows an example of generating unfair performance information.
  • the data set input to the model includes information in categories 1-6 for multiple customers. Note that category 1 is "age group” and category 4 is "income.”
  • the analysis unit 125 first divides each category into multiple attributes (groups). In the example of FIG. 5, the analysis unit 125 divides category 1 (age group) into multiple attributes such as "20s", "30s", . .. .. Divide into. Similarly, the analysis unit 125 divides each of categories 2 to 6 into a plurality of attributes.
  • the analysis unit 125 inputs the data set into the model for each attribute, performs prediction, and calculates a performance index indicating the performance of the model for each attribute.
  • the performance index various indexes that can be used to evaluate the performance of the model, such as prediction accuracy and compatibility of the model, can be used.
  • Other examples of performance indicators include F1 score, precision, recall, and the like.
  • a coefficient of determination or the like may be used.
  • an error-based index in which the lower the value, the better the value for example, mean square error, cross entropy, etc. may be used.
  • performance values indicating the performance of the model are obtained for each attribute included in categories 1 to 6.
  • performance values for each attribute calculated for categories 1 to 6 are shown in graphs 81 to 86.
  • the analysis unit 125 extracts combinations with large differences in performance values for each attribute for each category. For example, in category 1 in FIG. 5, the performance value of the attribute "20s" is high, and the attributes "60s", “70s", . .. The performance value of is low. Therefore, the analysis unit 125 extracts combinations of attributes with large differences in performance values (hereinafter also referred to as "unfair attribute pairs"). Specifically, the analysis unit 125 extracts an attribute having the maximum performance value and an attribute having the minimum performance value as an unfair attribute pair.
  • the analysis unit 125 may integrate those attributes into one attribute. For example, in the graph 81 related to category 1 in FIG. 5, if the difference in performance values of the attributes "60s,” “70s,” “80s,” and “90s” is small (the difference is within a predetermined threshold). , the analysis unit 125 may create an attribute "60s to 90s” by integrating them. In this way, in the example of FIG. 5, "20s” and “60s to 90s" are extracted as unfair attribute pairs. In this way, by integrating a plurality of attributes with small differences in performance values, the display becomes simpler and easier for the user to recognize than when a plurality of attributes are listed.
  • the analysis unit 125 compares the differences in performance values for the unfair attribute pairs extracted for each category, and selects the category corresponding to the unfair attribute pair with the largest difference in performance values from the unfair category ( (hereinafter also referred to as the "unfair category"). For example, if the difference between the pair of unfair attributes in category 1 is the largest among categories 1 to 6, the analysis unit 125 determines category 1 as the unfair category. In this way, the category with the highest level of unfairness (the lowest level of fairness) is extracted from among the multiple categories.
  • the analysis unit 125 creates a graph showing the category name and the performance value of the unfair attribute pair for the unfair category, and outputs it to the display device 2.
  • the analysis unit 125 determines that category 1 is an unfair category, and a graph showing the category name "age group" and the performance values of the unfair attribute pair "20s" and "60s to 90s" is displayed.
  • the analysis unit 125 extracts one unfair category, but may extract multiple unfair categories. For example, the analysis unit 125 may extract the category with the highest unfairness and the category with the second highest unfairness among the plurality of categories as unfair categories.
  • category 4 income shown in graph 88 is also extracted as an unfair category.
  • the analysis unit 125 creates the attribute "2 million to 3 million” by integrating the attributes "2 million,” "2.5 million,” and "3 million” that have small differences in performance values, and creates the attribute "2 million to 3 million.” 2 million to 3 million” and “10 million” are extracted as unfair attribute pairs. Note that when the number of categories is one, the analysis unit 125 may output unfair performance information for that category.
  • the analysis unit 125 compares the performance values of each attribute included in each category, and extracts a category with a large difference in performance value of each attribute as an unfair category. Then, the analysis unit 125 displays information such as graphs 87 and 88 regarding unfair categories on the display device 2 as unfair performance information. Thereby, the user can easily know which categories have large differences or variations in model performance for each attribute. Normally, when there are a large number of categories and attributes, or when a data set is numerical data, it is difficult to manually check the difference in performance between categories. In this regard, in this embodiment, by displaying unfair performance information as shown in graphs 87 and 88 in FIG. Differences in performance values can be easily understood.
  • FIG. 6 is a flowchart of model analysis processing by the model generation device 100.
  • the model analysis process is a process of calculating model performance for each attribute of each category and generating unfair performance information. This processing is realized by the processor 112 shown in FIG. 2 executing a prepared program and mainly operating as the analysis unit 125 shown in FIG. 3.
  • the analysis unit 125 converts continuous variables included in the data set into categories (step S10). Specifically, the analysis unit 125 converts continuous variables such as age and income into ordered categories. For example, the analysis unit 125 equally divides the minimum and maximum values of a continuous variable into two or more attributes (groups) and converts them into categories. In the age example, the analysis unit 125 divides 20 to 100 years old into every 10 years, and creates multiple attributes such as 20s, 30s, and so on.
  • the analysis unit 125 may convert continuous variables into categories according to the dividing points.
  • the analysis unit 125 may also determine division points according to percentiles and convert continuous variables into categories so that the number of samples for each attribute is the same. Note that if the variables included in the data set are originally categories, such as gender or place of residence, the above processing is not necessary.
  • the analysis unit 125 calculates a performance value for each attribute for each category (step S11). Specifically, the analysis unit 125 divides the data set according to the attributes of each category and creates partial data sets. The analysis unit 125 then calculates the performance value of the model for each partial data set.
  • the analysis unit 125 integrates the attributes (step S12). Specifically, the analysis unit 125 integrates continuous attributes into one attribute when the difference in performance of consecutive attributes is within a certain threshold for an ordered category that includes the original continuous variable. Note that, instead, the analysis unit 125 may integrate multiple attributes using a clustering method.
  • the analysis unit 125 determines, for each category, unfair attribute pairs with a large difference in model performance values (step S13). Specifically, in each category, the analysis unit 125 extracts a pair of an attribute and an attribute with a maximum model performance value as an unfair attribute pair.
  • the method by which the analysis unit 125 extracts unfair attribute pairs is not limited to the maximum value and minimum value of performance values.
  • the analysis unit 125 may extract pairs that satisfy conditions predetermined by the user as unfair attribute pairs.
  • the analysis unit 125 may extract any attribute pair as an unfair attribute pair if the difference in performance value is greater than a certain value.
  • the analysis unit 125 determines the unfair category and outputs the unfair performance information to the display device 2 (step S14). Specifically, the analysis unit 125 calculates the difference in performance value between pairs of unfair attributes for each category, and determines the category with at least the largest difference in performance value as the unfair category. Then, the analysis unit 125 outputs unfair performance information including graphs showing performance values of unfair attribute pairs belonging to the unfair category to the display device 2. As a result, unfair performance information such as graphs 87 and 88 in FIG. 5 is displayed on the display device 2. Then, the process ends.
  • the model generation device 100 is configured as an independent device such as a PC, but instead, the model generation device may be configured with a server and a terminal device.
  • FIG. 7 is a block diagram showing a schematic configuration of a model generation system 1x using a server and a terminal device.
  • a server 100x includes the configuration of the model generation device 100 shown in FIG.
  • the display device 2x and input device 3x of the terminal device 7 used by the user are used as the display device 2 and input device 3 shown in FIG.
  • FIG. 8 is a block diagram showing the functional configuration of the model analysis device 70 of the second embodiment.
  • the model analysis device 70 includes a model acquisition means 71, a performance calculation means 72, and an output means 73.
  • FIG. 9 is a flowchart of processing by the model analysis device 70 of the second embodiment.
  • the model acquisition means 71 acquires a model (step S71).
  • the performance calculation means 72 calculates the performance of the model for each attribute included in the data category (step S72).
  • the output means 73 extracts a pair of attributes in which the difference in performance of the models satisfies a predetermined condition, and outputs performance information indicating the performance of the model for each attribute included in the pair (step S73).
  • model analysis device 70 of the second embodiment it is possible to evaluate the performance of the model for each category attribute of the dataset used for prediction, and to visualize categories and attributes with large differences in prediction performance between the models. becomes.
  • a model acquisition means for acquiring a model
  • performance calculation means for calculating the performance of the model for each attribute included in a data category
  • output means for extracting a pair of attributes in which a difference in performance of the models satisfies a predetermined condition, and outputting performance information indicating the performance of the model for each attribute included in the pair
  • a model analysis device comprising:
  • the performance calculation means calculates the performance of the model for each attribute included in each category for a plurality of categories, The model analysis device according to supplementary note 1, wherein the output means outputs the performance information for a category having the largest difference in performance between attributes included in the attribute pair, among the plurality of categories.
  • the model analysis device according to appendix 1 or 2, further comprising an attribute integration unit that integrates a plurality of consecutive attributes into one based on the performance of the model.
  • a recording medium storing a program that causes a computer to execute a process of extracting pairs of attributes in which the difference in performance of the models satisfies a predetermined condition, and outputting performance information indicating the performance of the model for each attribute included in the pair.
  • Model generation device 112 Processor 121 Training data DB 122 Model training department 123 Model DB 124 Evaluation data DB 125 Analysis Department

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

モデル分析装置において、モデル取得手段は、モデルを取得する。性能算出手段は、データのカテゴリに含まれる属性毎にモデルの性能を算出する。出力手段は、モデルの性能の差が所定の条件を満たす属性のペアを抽出し、当該ペアに含まれる属性毎にモデルの性能を示す性能情報を出力する。

Description

モデル分析装置、モデル分析方法、及び、記録媒体
 本開示は、機械学習モデルの分析に関する。
 近年、様々な分野において、機械学習により得られた予測モデルが利用されている。特許文献1は、識別モデルの学習に使用する学習用データのカテゴリ毎に、モデルの学習に使用した学習用データの数と、学習により得られたモデルの識別精度との関係を可視化する手法を記載している。
国際公開WO2021/085188号公報
 予測モデルを用いて予測を行う場合、入力されるデータセットのカテゴリや属性によって、モデルの性能に差が生じることがある。この場合、予測に用いられるデータセットのカテゴリ数や属性数が多いと、モデルの性能の差を人手で確認することは困難となる。
 本開示の1つの目的は、予測に使用されるデータセットのカテゴリの属性毎にモデルの性能を評価し、モデルによる予測性能の差が大きいカテゴリ及び属性を可視化することにある。
 本開示の一つの観点では、モデル分析装置は、
 モデルを取得するモデル取得手段と、
 データのカテゴリに含まれる属性毎に前記モデルの性能を算出する性能算出手段と、
 前記モデルの性能の差が所定の条件を満たす属性のペアを抽出し、当該ペアに含まれる属性毎に前記モデルの性能を示す性能情報を出力する出力手段と、
 を備える。
 本開示の他の観点では、モデル分析方法は、
 モデルを取得し、
 データのカテゴリに含まれる属性毎に前記モデルの性能を算出し、
 前記モデルの性能の差が所定の条件を満たす属性のペアを抽出し、当該ペアに含まれる属性毎に前記モデルの性能を示す性能情報を出力する。
 本開示のさらに他の観点では、記録媒体は、
 モデルを取得し、
 データのカテゴリに含まれる属性毎に前記モデルの性能を算出し、
 前記モデルの性能の差が所定の条件を満たす属性のペアを抽出し、当該ペアに含まれる属性毎に前記モデルの性能を示す性能情報を出力する処理をコンピュータに実行させるプログラムを記録する。
 本開示によれば、予測に使用されるデータセットのカテゴリの属性毎にモデルの性能を評価し、モデルによる予測性能の差が大きいカテゴリ及び属性を可視化することが可能となる。
第1実施形態に係るモデル生成システムの全体構成を示すブロック図である。 モデル生成装置のハードウェア構成を示すブロック図である。 第1実施形態のモデル生成装置の機能構成を示すブロック図である。 不公平性能情報の表示例を示す。 不公平性能情報を生成する例を示す。 モデル生成装置によるモデル分析処理のフローチャートである。 サーバと端末装置を用いたモデル生成システムの概略構成を示すブロック図である。 第2実施形態のモデル分析装置の機能構成を示すブロック図である。 第2実施形態のモデル分析装置による処理のフローチャートである。
 以下、図面を参照して、本開示の好適な実施形態について説明する。
 <第1実施形態>
 [全体構成]
 図1は、第1実施形態に係るモデル生成システムの全体構成を示すブロック図である。モデル生成システム1は、モデル生成装置100と、表示装置2と、入力装置3とを備える。モデル生成装置100は、本開示のモデル分析装置を適用したものであり、例えばパーソナルコンピュータ(PC)などのコンピュータにより構成される。表示装置2は、例えば液晶表示装置などであり、モデル生成装置100が生成した評価情報を表示する。入力装置3は、例えばマウス、キーボードなどであり、ユーザがモデルの修正時や評価情報の閲覧時に必要な指示、入力を行うために使用される。
 まず、モデル生成システム1の動作を概略的に説明する。モデル生成装置100は、予め用意された訓練データを用いて、機械学習モデル(以下、単に「モデル」と呼ぶ。)を生成する。また、モデル生成装置100は、生成したモデルの分析、評価を行う。具体的に、モデル生成装置100は、評価用データなどを用いてモデルによる予測を行い、予測結果に基づいてモデルの予測性能を分析する。モデル生成装置100は、評価用データのデータセットのカテゴリの属性毎に、モデルの性能を示す値(以下、「性能値」とも呼ぶ。)を算出する。そして、モデル生成装置100は、カテゴリの属性毎のモデルの性能が大きく異なる場合、カテゴリの属性毎のモデルの性能を示すグラフなどを生成し、評価情報としてユーザに提示する。ユーザは、評価情報を確認し、入力装置3を操作してモデルの修正のための修正情報を入力することができる。
 なお、機械学習モデルとは、説明変数と目的変数の関係を表す情報である。機械学習モデルは、例えば、説明変数に基づいて目的とする変数を算出することにより推定対象の結果を推定するためのコンポーネントである。機械学習モデルは、既に目的変数の値が得られている学習用データと任意のパラメータとを入力として、学習アルゴリズムを実行することにより生成される。機械学習モデルは例えば、入力xを正解yに写像する関数cにより表されてもよい。機械学習モデルは、推定対象の数値を推定するものであってもよいし、推定対象のラベルを推定するものであってもよい。機械学習モデルは、目的変数の確率分布を記述する変数を出力してもよい。機械学習モデルは、「学習モデル」、「分析モデル」、「AI(Artificial Intelligence)モデル」、「学習済みモデル」、「推論モデル」、または「予測式」などと記載されることもある。ここで、説明変数とは機械学習モデルにおいて入力として用いられる変数である。説明変数は、「特徴量」または「特徴」などと記載されることがある。
 また、機械学習モデルを生成するための学習アルゴリズムは特に限定されず、既存の学習アルゴリズムでよい。例えば、学習アルゴリズムは、ランダムフォレスト、サポートベクターマシン、ナイーブベイズ、FAB推論(Factorized Asymptotic Bayesian Inference)を利用した区分線形モデル、またはニューラルネットワークであってよい。なお、FAB推論を利用した区分線形モデルの手法は、例えば米国公開特許US2014/0222741A1号公報等に開示されている。
 [ハードウェア構成]
 図2は、モデル生成装置100のハードウェア構成を示すブロック図である。図示のように、モデル生成装置100は、インタフェース(I/F)111と、プロセッサ112と、メモリ113と、記録媒体114と、データベース(DB)115と、を備える。
 I/F111は、外部装置との間でデータの入出力を行う。具体的に、モデルの生成に使用する訓練データ、評価用データ、及び、ユーザが入力装置3を用いて入力した指示や入力は、I/F111を通じてモデル生成装置100に入力される。また、モデル生成装置100が生成したモデルの評価情報は、I/F111を通じて表示装置2へ出力される。
 プロセッサ112は、CPU(Central Processing Unit)などのコンピュータであり、予め用意されたプログラムを実行することによりモデル生成装置100の全体を制御する。なお、プロセッサ112は、GPU(Graphics Processing Unit)、TPU(Tensor Processing Unit)、量子プロセッサまたはFPGA(Field-Programmable Gate Array)であってもよい。プロセッサ112は、後述するモデル分析処理を実行する。
 メモリ113は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ113は、プロセッサ112による各種の処理の実行中に作業メモリとしても使用される。
 記録媒体114は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、モデル生成装置100に対して着脱可能に構成される。記録媒体114は、プロセッサ112が実行する各種のプログラムを記録している。モデル生成装置100が各種の処理を実行する際には、記録媒体114に記録されているプログラムがメモリ113にロードされ、プロセッサ112により実行される。
 DB115は、モデル生成装置100が生成したモデル(以下、「既存モデル」と呼ぶ。)、及び、再訓練による修正後のモデル(以下、「修正後モデル」と呼ぶ。)に関する情報を記憶する。また、DB115は、必要に応じて、I/F111を通じて入力された訓練データ、評価用データ、ユーザが入力した修正情報などを記憶する。
 (機能構成)
 図3は、第1実施形態のモデル生成装置100の機能構成を示すブロック図である。モデル生成装置100は、機能的には、訓練データDB121と、モデル訓練部122と、モデルDB123と、評価用データDB124と、分析部125と、を備える。
 訓練データDB121は、モデルの生成に用いられる訓練データを記憶する。訓練データD1は、モデル訓練部122に入力される。なお、訓練データD1は、入力データと、その入力データに対する正解(正解値又は正解ラベル)との複数の組み合わせにより構成される。
 モデル訓練部122は、訓練データD1を用いてモデルの訓練を行い、モデルを生成する。モデル訓練部122は、生成したモデルに対応するモデルデータMをモデルDB123及び分析部125へ出力する。なお、モデルデータMは、モデルを構成する複数のパラメータ情報を含む。パラメータ情報は、例えば、モデルの入力として用いられる説明変数の情報、各説明変数に対する重みの情報、入力データを構成する各サンプルに対する重みの情報などを含む。
 また、モデル訓練部122は、既存モデルを再訓練して修正後モデルを生成する。この場合、モデル訓練部122は、ユーザが入力装置3を用いて入力した修正情報D3に基づいて、モデルを構成するパラメータを修正し、必要に応じて再訓練用の訓練データを用いてモデルの再訓練を行う。モデル訓練部122は、再訓練により得られた修正後モデルのモデルデータMをモデルDB123へ記憶するとともに、分析部125へ出力する。
 評価用データDB124は、生成されたモデルの評価に使用する評価用データを記憶する。評価用データは、例えば収集されたデータのうち、訓練データとして使用しなかった一部のデータや、新たに収集されたデータ、検証のために用意されたバリデーションデータなどである。なお、訓練データを評価用データとして使用してもよい。評価用データは、入力データと、その入力データに対する正解(正解値又は正解ラベル)との複数の組み合わせにより構成される。
 評価用データは、データセットの単位で記憶され、使用される。データセットに含まれる各データは、複数のカテゴリを含む。例えば、与信を判定する予測モデルの場合、評価用データとして多数の判定対象者のデータが用意され、各データは、例えば年齢層、性別、居住地域、家族構成、所得などのカテゴリを含む。また、各カテゴリは、複数の属性(グループ)を含む。
 分析部125は、評価用データを用いて、データセットのカテゴリに含まれる属性毎に、モデルの性能を分析する。例えば、あるカテゴリ「年齢層」が「20代」、「30代」、「40代」・・・、などの複数の属性を含むとする。この場合、分析部125は、属性毎にモデルの性能を示す性能値を算出する。次に、分析部125は、性能の差(乖離)が大きい属性を抽出する。なお、性能の差が大きいことを性能が「不公平」であると呼ぶ。分析部125は、そのカテゴリと、性能の差が大きい属性と、を示す情報(以下、「不公平性能情報」とも呼ぶ。)を、評価情報D2として表示装置2へ出力する。
 表示装置2は、分析部125が出力した評価情報D2を表示装置2に表示する。ユーザは、表示された不公平性能情報を見ることにより、カテゴリ毎及び属性毎のモデルの性能の差異を知ることができる。
 また、ユーザは、必要に応じて、現行モデルを修正するための修正情報D3を入力装置3に入力する。修正情報D3は、例えば、モデルの入力として用いられる説明変数の情報、各説明変数に対する重みの情報、入力データを構成する各サンプルに対する重みの情報などの修正に関する情報である。モデル訓練部122は、入力された修正情報D3を用いてモデルの再訓練を行うことにより、モデルの修正を行う。
 図4は、不公平性能情報の例を示す。図4(A)は、ある予測モデルのデータセット全体に対する性能指標を示す。このグラフは、例えば、データセットに含まれる全てのデータに対する予測モデルの性能指標の平均値などである。
 図4(B)は、不公平性能情報の一例を示す。この例では、カテゴリ「年齢層」に含まれる複数の属性(20代、30代、...)のうち、属性「20代」のデータに対しては予測モデルの性能が高いが、属性「60~90代」のデータに対しては予測モデルの性能が低いことが示されている。
 図4(C)は、不公平性能情報の他の例を示す。この例では、カテゴリ「所得」に含まれる複数の属性のうち、属性「200~300万」のデータに対しては予測モデルの性能が高いが、属性「1000万」に対しては予測モデルの性能が低いことが示されている。
 このように、分析部125は、属性毎のモデルの性能の差が大きい属性を抽出し、そのカテゴリ、及び、性能値を示すグラフなどを不公平性能情報としてユーザに提示する。これにより、ユーザは、各カテゴリについて属性毎のモデルの性能の差を小さくするように、即ち、モデルの性能に属性毎のばらつきが生じないように、モデルの修正などを行うことが可能となる。なお、不公平性能情報の生成方法については、後に詳しく説明する。分析部125は、モデル取得手段、性能算出手段、属性統合手段、及び、出力手段の一例である。
 [不公平性能情報の生成例]
 次に、不公平性能情報を生成する例を説明する。図5は、不公平性能情報を生成する例を示す。いま、顧客の情報に基づいて商品の売り上げを予測するモデルを想定する。モデルに入力されるデータセットは、複数の顧客について、カテゴリ1~6の情報を含む。なお、カテゴリ1は「年齢層」とし、カテゴリ4は「所得」とする。
 この場合、まず、分析部125は、各カテゴリを複数の属性(グループ)に分割する。図5の例では、分析部125は、カテゴリ1(年齢層)を複数の属性「20代」、「30代」、...に分割する。同様に、分析部125は、カテゴリ2~6をそれぞれ複数の属性に分割する。
 次に、分析部125は、各カテゴリについて、属性毎にデータセットをモデルに入力して予測を行い、属性毎にモデルの性能を示す性能指標を算出する。性能指標としては、例えば、モデルの予測精度、互換性など、モデルの性能を評価するために使用できる各種の指標を用いることができる。性能指標の他の例として、F1スコア、適合率、再現率などを用いることができる。回帰タスクの場合には、決定係数等を用いても良い。また、値が低いほど良いとされる誤差系の指標として、例えば平均二乗誤差や交差エントロピー等を用いても良い。これにより、図5に示すように、カテゴリ1~6に含まれる各属性について、モデルの性能を示す性能値が得られる。図5では、カテゴリ1~6について算出した属性毎の性能値をグラフ81~86で示している。
 次に、分析部125は、各カテゴリについて、属性毎の性能値の差が大きい組み合わせを抽出する。例えば、図5のカテゴリ1では、属性「20代」の性能値は高く、属性「60代」、「70代」、..の性能値は低い。よって、分析部125は、性能値の差が大きい属性の組み合わせ(以下、「不公平属性ペア」とも呼ぶ。)を抽出する。具体的には、分析部125は、最大の性能値を有する属性と最小の性能値を有する属性を不公平属性ペアとして抽出する。
 なお、分析部125は、連続又は隣接する属性の性能値の差が小さい場合には、それらの属性を1つの属性に統合してもよい。例えば、図5のカテゴリ1に関するグラフ81において、属性「60代」、「70代」、「80代」、「90代」の性能値の差が小さい(差が所定の閾値以内である)場合、分析部125は、それらを統合した属性「60~90代」を作成してもよい。こうして、図5の例では、不公平属性ペアとして「20代」と「60~90代」が抽出される。このように、性能値の差が小さい複数の属性を統合することにより、複数の属性を列挙する場合に比べて表示がシンプルになり、ユーザによる認識が容易となる。
 次に、分析部125は、各カテゴリについて抽出された不公平属性ペアについて、性能値の差を比較し、性能値の差が最も大きい不公平属性ペアに対応するカテゴリを、不公平なカテゴリ(以下、「不公平カテゴリ」とも呼ぶ。)と決定する。例えば、カテゴリ1~6のうち、カテゴリ1の不公平属性ペア間の差が最大である場合、分析部125は、カテゴリ1を不公平カテゴリと決定する。こうして、複数のカテゴリのうち、不公平性が最も高い(公平性が最も低い)カテゴリが抽出される。
 分析部125は、不公平カテゴリについて、そのカテゴリ名、不公平属性ペアの性能値を示すグラフを作成し、表示装置2へ出力する。図5の例では、分析部125は、カテゴリ1を不公平カテゴリと判定し、カテゴリ名「年齢層」と、不公平属性ペア「20代」及び「60~90代」の性能値を示すグラフとを表示している。
 なお、上記の例では、分析部125は、1つの不公平カテゴリを抽出しているが、複数の不公平カテゴリを抽出してもよい。例えば、分析部125は、複数のカテゴリのうち、不公平性が最も高いカテゴリと、2番目に高いカテゴリと、を不公平カテゴリとして抽出してもよい。図5の例では、グラフ87に示すカテゴリ1(年齢層)に加えて、グラフ88に示すカテゴリ4(所得)も不公平カテゴリとして抽出されている。なお、カテゴリ4については、分析部125は、性能値の差が小さい属性「200万」、「250万」、「300万」を統合して属性「200~300万」を作成し、属性「200~300万」と「1000万」を不公平属性ペアとして抽出している。なお、分析部125は、カテゴリ数が1つである場合には、そのカテゴリについての不公平性能情報を出力すればよい。
 以上のように、本実施形態では、分析部125は、各カテゴリについて、それに含まれる属性毎の性能値を比較し、属性毎の性能値の差が大きいカテゴリを不公平カテゴリとして抽出する。そして、分析部125は、不公平カテゴリに関するグラフ87、88のような情報を不公平性能情報として表示装置2に表示する。これにより、ユーザは、属性毎のモデルの性能の差やばらつきが大きいカテゴリを容易に知ることができる。通常、カテゴリ数及び属性数が多い場合、データセットが数値データである場合などには、カテゴリ毎の性能の差を人手により確認することは困難である。この点、本実施形態では、図5のグラフ87、88に示すような不公平性能情報を表示することにより、ユーザは性能が不公平なカテゴリや、そのカテゴリにおいて問題になっている属性毎の性能値の違いなどを容易に把握することができる。
 [モデル分析処理]
 次に、モデル生成装置100によるモデル分析処理について説明する。図6は、モデル生成装置100によるモデル分析処理のフローチャートである。モデル分析処理は、図5に例示したように、各カテゴリの属性毎にモデルの性能を算出し、不公平性能情報を生成する処理である。この処理は、図2に示すプロセッサ112が予め用意されたプログラムを実行し、主として図3に示す分析部125として動作することにより実現される。
 まず、分析部125は、データセットに含まれる連続変数を、カテゴリに変換する(ステップS10)。具体的に、分析部125は、年齢、所得などの連続変数を、順序付きカテゴリに変換する。例えば、分析部125は、連続変数の取る最小値と最大値の間を2つ以上の属性(グループ)に等分割し、カテゴリに変換する。年齢の例では、分析部125は、20~100歳を10歳毎に分割して、20代、30代、というように複数の属性を作成する。
 なお、分析部125は、業務知識に基づいて分割点を用意できる場合は、その分割点に応じて、連続変数をカテゴリに変換してもよい。また、分析部125は、各属性のサンプル数が同じになるように、パーセンタイルに応じて分割点を決定し、連続変数をカテゴリに変換してもよい。なお、データセットに含まれる変数が例えば、性別、居住地など、もともとカテゴリである場合は、上記の処理は不要である。
 次に、分析部125は、各カテゴリについて、属性毎に性能値を算出する(ステップS11)。具体的に、分析部125は、各カテゴリの属性に応じてデータセットを分割し、部分データセットを作成する。そして、分析部125は、部分データセット毎にモデルの性能値を算出する。
 次に、分析部125は、属性を統合する(ステップS12)。具体的には、分析部125は、元々の連続変数を含む順序付きカテゴリについて、連続する属性の性能の差が一定の閾値以内である場合に、それらの属性を1つの属性に統合する。なお、その代わりに、分析部125は、クラスタリング手法を用いて複数の属性を統合してもよい。
 次に、分析部125は、各カテゴリについて、モデルの性能値の差が大きい不公平属性ペアを決定する(ステップS13)。具体的には、分析部125は、各カテゴリにおいて、モデルの性能値が最大の属性と最小の属性のペアを不公平属性ペアとして抽出する。
 なお、分析部125が、不公平属性ペアを抽出する方法は、性能値の最大値と最小値とに限定されない。例えば、分析部125は、ユーザによって事前に定められた条件を満たすペアを不公平属性ペアとして抽出してもよい。分析部125は、任意の属性ペアの性能値の差が一定以上であれば、不公平属性ペアとして抽出してもよい。
 次に、分析部125は、不公平カテゴリを決定し、不公平性能情報を表示装置2に出力する(ステップS14)。具体的には、分析部125は、各カテゴリについての不公平属性ペア間の性能値の差を算出し、少なくとも性能値の差が最大であるカテゴリを不公平カテゴリと決定する。そして、分析部125は、不公平カテゴリについて、それに属する不公平属性ペアの性能値を示すグラフなどを含む不公平性能情報を表示装置2へ出力する。これにより、図5のグラフ87、88などの不公平性能情報が表示装置2に表示される。そして、処理は終了する。
 [変形例]
 上記の実施形態では、モデル生成装置100をPCなどの独立した装置として構成しているが、その代わりに、モデル生成装置をサーバと端末装置により構成してもよい。図7は、サーバと端末装置を用いたモデル生成システム1xの概略構成を示すブロック図である。図7において、サーバ100xは、図3に示すモデル生成装置100の構成を備える。また、ユーザが使用する端末装置7の表示装置2x及び入力装置3xを、図3に示す表示装置2及び入力装置3として使用する。
 <第2実施形態>
 図8は、第2実施形態のモデル分析装置70の機能構成を示すブロック図である。モデル分析装置70は、モデル取得手段71と、性能算出手段72と、出力手段73と、を備える。
 図9は、第2実施形態のモデル分析装置70による処理のフローチャートである。モデル取得手段71は、モデルを取得する(ステップS71)。性能算出手段72は、データのカテゴリに含まれる属性毎にモデルの性能を算出する(ステップS72)。出力手段73は、モデルの性能の差が所定の条件を満たす属性のペアを抽出し、当該ペアに含まれる属性毎にモデルの性能を示す性能情報を出力する(ステップS73)。
 第2実施形態のモデル分析装置70によれば、予測に使用されるデータセットのカテゴリの属性毎にモデルの性能を評価し、モデルによる予測性能の差が大きいカテゴリ及び属性を可視化することが可能となる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 モデルを取得するモデル取得手段と、
 データのカテゴリに含まれる属性毎に前記モデルの性能を算出する性能算出手段と、
 前記モデルの性能の差が所定の条件を満たす属性のペアを抽出し、当該ペアに含まれる属性毎に前記モデルの性能を示す性能情報を出力する出力手段と、
 を備えるモデル分析装置。
 (付記2)
 前記性能算出手段は、複数のカテゴリについて、各カテゴリに含まれる属性毎に前記モデルの性能を算出し、
 前記出力手段は、前記複数のカテゴリのうち、前記属性のペアに含まれる属性間の性能の差が最も大きいカテゴリについて、前記性能情報を出力する付記1に記載のモデル分析装置。
 (付記3)
 前記モデルの性能に基づいて、連続する複数の属性を1つに統合する属性統合手段を備える付記1又は2に記載のモデル分析装置。
 (付記4)
 前記出力手段は、前記属性のペアとして、前記モデルの性能が最大値である属性と、前記モデルの性能が最小値である属性とを抽出する付記1乃至3のいずれか一項に記載のモデル分析装置。
 (付記5)
 前記性能情報は、前記属性のペアに含まれる属性毎に前記モデルの性能を示すグラフを含む付記1乃至4のいずれか一項に記載のモデル分析装置。
 (付記6)
 前記性能算出手段は、前記カテゴリに含まれる属性毎にデータセットを分割し、前記属性毎のデータセットを用いて、前記属性毎に前記モデルの性能を算出する付記1乃至5のいずれか一項に記載のモデル分析装置。
 (付記7)
 モデルを取得し、
 データのカテゴリに含まれる属性毎に前記モデルの性能を算出し、
 前記モデルの性能の差が所定の条件を満たす属性のペアを抽出し、当該ペアに含まれる属性毎に前記モデルの性能を示す性能情報を出力するモデル分析方法。
 (付記8)
 モデルを取得し、
 データのカテゴリに含まれる属性毎に前記モデルの性能を算出し、
 前記モデルの性能の差が所定の条件を満たす属性のペアを抽出し、当該ペアに含まれる属性毎に前記モデルの性能を示す性能情報を出力する処理をコンピュータに実行させるプログラムを記録した記録媒体。
 以上、実施形態及び実施例を参照して本開示を説明したが、本開示は上記実施形態及び実施例に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。
 1、1x モデル生成システム
 2、2x 表示装置
 3、3x 入力装置
 7 端末装置
 100 モデル生成装置
 112 プロセッサ
 121 訓練データDB
 122 モデル訓練部
 123 モデルDB
 124 評価用データDB
 125 分析部

Claims (8)

  1.  モデルを取得するモデル取得手段と、
     データのカテゴリに含まれる属性毎に前記モデルの性能を算出する性能算出手段と、
     前記モデルの性能の差が所定の条件を満たす属性のペアを抽出し、当該ペアに含まれる属性毎に前記モデルの性能を示す性能情報を出力する出力手段と、
     を備えるモデル分析装置。
  2.  前記性能算出手段は、複数のカテゴリについて、各カテゴリに含まれる属性毎に前記モデルの性能を算出し、
     前記出力手段は、前記複数のカテゴリのうち、前記属性のペアに含まれる属性間の性能の差が最も大きいカテゴリについて、前記性能情報を出力する請求項1に記載のモデル分析装置。
  3.  前記モデルの性能に基づいて、連続する複数の属性を1つに統合する属性統合手段を備える請求項1又は2に記載のモデル分析装置。
  4.  前記出力手段は、前記属性のペアとして、前記モデルの性能が最大値である属性と、前記モデルの性能が最小値である属性とを抽出する請求項1乃至3のいずれか一項に記載のモデル分析装置。
  5.  前記性能情報は、前記属性のペアに含まれる属性毎に前記モデルの性能を示すグラフを含む請求項1乃至4のいずれか一項に記載のモデル分析装置。
  6.  前記性能算出手段は、前記カテゴリに含まれる属性毎にデータセットを分割し、前記属性毎のデータセットを用いて、前記属性毎に前記モデルの性能を算出する請求項1乃至5のいずれか一項に記載のモデル分析装置。
  7.  モデルを取得し、
     データのカテゴリに含まれる属性毎に前記モデルの性能を算出し、
     前記モデルの性能の差が所定の条件を満たす属性のペアを抽出し、当該ペアに含まれる属性毎に前記モデルの性能を示す性能情報を出力するモデル分析方法。
  8.  モデルを取得し、
     データのカテゴリに含まれる属性毎に前記モデルの性能を算出し、
     前記モデルの性能の差が所定の条件を満たす属性のペアを抽出し、当該ペアに含まれる属性毎に前記モデルの性能を示す性能情報を出力する処理をコンピュータに実行させるプログラムを記録した記録媒体。
PCT/JP2022/013900 2022-03-24 2022-03-24 モデル分析装置、モデル分析方法、及び、記録媒体 WO2023181244A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/013900 WO2023181244A1 (ja) 2022-03-24 2022-03-24 モデル分析装置、モデル分析方法、及び、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/013900 WO2023181244A1 (ja) 2022-03-24 2022-03-24 モデル分析装置、モデル分析方法、及び、記録媒体

Publications (1)

Publication Number Publication Date
WO2023181244A1 true WO2023181244A1 (ja) 2023-09-28

Family

ID=88100674

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/013900 WO2023181244A1 (ja) 2022-03-24 2022-03-24 モデル分析装置、モデル分析方法、及び、記録媒体

Country Status (1)

Country Link
WO (1) WO2023181244A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200349466A1 (en) * 2019-05-03 2020-11-05 Microsoft Technology Licensing, Llc Providing performance views associated with performance of a machine learning system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200349466A1 (en) * 2019-05-03 2020-11-05 Microsoft Technology Licensing, Llc Providing performance views associated with performance of a machine learning system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BARCELOS GABE: "Understanding Bias in Machine Learning Models", ARIZE, 15 March 2022 (2022-03-15), XP093094779, Retrieved from the Internet <URL:https://arize.com/blog/understanding-bias-in-ml-models/> [retrieved on 20231025] *

Similar Documents

Publication Publication Date Title
Mesarić et al. Decision trees for predicting the academic success of students
US20120271612A1 (en) Predictive modeling
WO2012045496A2 (en) Probabilistic data mining model comparison engine
Perez et al. Predicting student program completion using Naïve Bayes classification algorithm
CN112700324A (zh) 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法
CA3186873A1 (en) Activity level measurement using deep learning and machine learning
EP3624017A1 (en) Time series data analysis apparatus, time series data analysis method and time series data analysis program
CN111612491B (zh) 状态分析模型构建方法、分析方法及装置
US10795956B1 (en) System and method for identifying potential clients from aggregate sources
CN114819777A (zh) 一种基于数字孪生技术的企业销售业务分析管理系统
US11144938B2 (en) Method and system for predictive modeling of consumer profiles
Radhamani et al. Diagnosis and Evaluation of ADHD using MLP and SVM Classifiers
CN112949954B (zh) 基于识别学习建立财务欺诈识别模型的方法
WO2023181244A1 (ja) モデル分析装置、モデル分析方法、及び、記録媒体
Liu The evaluation of classification models for credit scoring
WO2023175921A1 (ja) モデル分析装置、モデル分析方法、及び、記録媒体
US20180121811A1 (en) Profiling a population of examples in a precisely descriptive or tendency-based manner
US8000995B2 (en) System and method for assessing customer segmentation strategies
US20230214668A1 (en) Hyperparameter adjustment device, non-transitory recording medium in which hyperparameter adjustment program is recorded, and hyperparameter adjustment program
Wang et al. Intelligent weight generation algorithm based on binary isolation tree
WO2023181245A1 (ja) モデル分析装置、モデル分析方法、及び、記録媒体
WO2023181230A1 (ja) モデル分析装置、モデル分析方法、及び、記録媒体
WO2023181322A1 (ja) モデル分析装置、モデル分析方法、及び、記録媒体
WO2023181243A1 (ja) モデル分析装置、モデル分析方法、及び、記録媒体
JP7496951B1 (ja) 検証装置、推論システム、検証方法およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22933385

Country of ref document: EP

Kind code of ref document: A1