WO2023119682A1 - データ解析方法、データ解析装置、及び、データ解析プログラム - Google Patents

データ解析方法、データ解析装置、及び、データ解析プログラム Download PDF

Info

Publication number
WO2023119682A1
WO2023119682A1 PCT/JP2022/014750 JP2022014750W WO2023119682A1 WO 2023119682 A1 WO2023119682 A1 WO 2023119682A1 JP 2022014750 W JP2022014750 W JP 2022014750W WO 2023119682 A1 WO2023119682 A1 WO 2023119682A1
Authority
WO
WIPO (PCT)
Prior art keywords
prediction
physical quantity
pie
pred
variable data
Prior art date
Application number
PCT/JP2022/014750
Other languages
English (en)
French (fr)
Inventor
敏章 枝光
Original Assignee
Enjyn株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Enjyn株式会社 filed Critical Enjyn株式会社
Publication of WO2023119682A1 publication Critical patent/WO2023119682A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Definitions

  • the present invention relates to a data analysis method, a data analysis device, and a data analysis program.
  • a machine learning model is generated from multiple teacher data by supervised learning, and the machine learning model is used to predict the explanatory variables that exist in the range in which the teacher data are distributed, that is, the interpolation range.
  • the machine learning model When predicting an unknown explanatory variable using a machine learning model, it is often possible to achieve high prediction accuracy.
  • the machine learning model should The lack of information characterizing the correlation between the variable and the target variable results in poor prediction accuracy of the machine learning model. Also, if the distribution of the teacher data is uneven, it may not be possible to ensure high prediction accuracy of the machine learning model in a part of the interpolation range.
  • the present invention has been made in view of the above-described problems, and provides a data analysis method and data analysis that make it possible to improve prediction performance when predicting an unknown target variable for an explanatory variable to be predicted.
  • An object of the present invention is to provide an apparatus and a data analysis program.
  • a data analysis method comprises: A data analysis method for analyzing data related to a predetermined phenomenon using a computer, A variable data vector (q), which is numerical data of a plurality of variables observed in the phenomenon, including variable objective variable data (y), which is numerical data of objective variables, and variable explanation, which is numerical data of explanatory variables
  • the phenomenon prediction process (S1 to S3) is
  • the learning target variable data set (Q train ) is a pie number data vector ( ⁇ ), which is numerical data of a plurality of pie numbers, based on the pie number transformation information (P), from the objective variable
  • a model creation process (S30, S31) for creating a pie number prediction model (F pred ) having as input and the pie number objective variable
  • the data analysis method it is possible to improve the prediction performance when predicting an unknown target variable with respect to a predictor variable to be predicted by using pie number transformation information.
  • FIG. 1 is a configuration diagram showing an example of a data analysis device 1;
  • FIG. 2 is a hardware configuration diagram showing an example of a computer 200;
  • FIG. FIG. 2 is a schematic diagram showing a physical phenomenon of a mass-spring system in which two mass points completely inelasticly collide and move together. It is a schematic diagram which shows the pi number conversion by pi number conversion processing.
  • 1 is a first schematic diagram showing an outline of a pie number prediction model method in a simple example (three physical quantities q v and two pie numbers ⁇ v ).
  • FIG. It is the 2nd schematic diagram which shows the outline
  • FIG. 4 is a flowchart showing an example of first phenomenon prediction processing S1 by the pie number prediction model method; It is a flow chart which shows an example of model creation processing (Step S30). It is a flow chart which shows an example of model evaluation processing (Step S60). It is a flow chart which shows an example of model prediction processing (Step S40).
  • 2 is a scatter diagram matrix showing physical quantity data sets A1 and A2;
  • FIG. 10 is a scatter diagram matrix showing pi number data sets obtained by pi number transforming the physical quantity data sets A1 and A2;
  • FIG. It is a figure which shows the verification result of the pie number prediction model Fpred produced from physical-quantity data set A1.
  • FIG. 10 is a scatter diagram matrix showing outlier determination results (predictable or unpredictable) of the physical quantity data set A2 by the outlier determination model f od created from the physical quantity data set A1;
  • FIG. 10 is a diagram showing a verification result of prediction performance based on a comparison between the predicted value of the physical quantity objective variable by the pie number prediction model method and the true value of the physical quantity objective variable;
  • FIG. 10 is a diagram showing a verification result of prediction performance based on a comparison between a predicted value of a physical quantity objective variable by a conventional physical quantity regression model and a true value of the physical quantity objective variable;
  • 2 is a scatter diagram matrix showing physical quantity data sets A1 and A3;
  • FIG. 10 is a scatter diagram matrix showing pi number data sets obtained by converting the physical quantity data sets A1 and A3 into pi number data sets;
  • FIG. 10 is a scatter diagram matrix showing outlier determination results (predictable or unpredictable) of the physical quantity data set A3 by the outlier determination model f od created from the physical quantity data set A1;
  • FIG. 10 is a diagram showing a verification result of prediction performance based on a comparison between the predicted value of the physical quantity objective variable by the pie number prediction model method and the true value of the physical quantity objective variable;
  • FIG. 10 is a diagram showing a verification result of prediction performance based on a comparison between a predicted value of a physical quantity objective variable by a conventional physical quantity regression model and a true value of the physical quantity objective variable;
  • 2 is a scatter diagram matrix showing physical quantity data sets B1 and A1;
  • FIG. 10 is a scatter diagram matrix showing pi number data sets obtained by converting the physical quantity data sets B1 and A1 into pi number data sets;
  • FIG. It is a figure which shows the verification result of the pie number prediction model F pred produced from physical quantity data set B1.
  • FIG. 10 is a scatter diagram matrix showing outlier determination results (predictable or unpredictable) of the physical quantity data set A1 by the outlier determination model f od created from the physical quantity data set B1;
  • FIG. 10 is a diagram showing a verification result of prediction performance based on a comparison between the predicted value of the physical quantity objective variable by the pie number prediction model method and the true value of the physical quantity objective variable;
  • FIG. 10 is a diagram showing a verification result of prediction performance based on a comparison between a predicted value of a physical quantity objective variable by a conventional physical quantity regression model and a true value of the physical quantity objective variable;
  • 2 is a scatter diagram matrix showing physical quantity data sets C1 and A1;
  • FIG. 4 is a scatter diagram matrix showing pie number data sets obtained by pie number conversion of physical quantity data sets C1 and A1, respectively;
  • FIG. It is a figure which shows the verification result of the pie number prediction model Fpred produced from the physical quantity data set C1.
  • FIG. 10 is a scatter diagram matrix showing outlier determination results (predictable or unpredictable) of the physical quantity data set A1 by the outlier determination model f od created from the physical quantity data set C1.
  • FIG. 10 is a diagram showing a verification result of prediction performance based on a comparison between the predicted value of the physical quantity objective variable by the pie number prediction model method and the true value of the physical quantity objective variable;
  • FIG. 10 is a diagram showing a verification result of prediction performance based on a comparison between a predicted value of a physical quantity objective variable by a conventional physical quantity regression model and a true value of the physical quantity objective variable;
  • the histogram of the physical quantity explanatory variables t 1e and t 2e determined not to be outliers in the prediction target data set A2 is 4A and 4B are diagrams showing each;
  • BRIEF DESCRIPTION OF THE DRAWINGS It is a schematic diagram which shows the outline of the integrated pie number prediction model method by a general example. It is a flowchart which shows an example of 2nd phenomenon prediction process S2 by the integrated pie number prediction model method.
  • FIG. 10 is a diagram showing a verification result of prediction performance based on a comparison between the predicted value of the physical quantity objective variable by the integrated pie number prediction model method and the true value of the physical quantity objective variable;
  • FIG. 10 is a diagram showing a verification result of prediction performance based on a comparison between the predicted value of the physical quantity objective variable by the integrated pie number prediction model method and the true value of the physical quantity objective variable; It is a flowchart which shows an example of 3rd phenomenon prediction process S3 by the iterative integrated pie number prediction model method. It is a figure which shows transition of a predictability rate and a coefficient of determination when loop processing by the iterative integrated pie number prediction model method is performed.
  • FIG. 11 is a functional explanatory diagram showing an example of optimum solution search processing S4;
  • FIG. 1 is a configuration diagram showing an example of the data analysis apparatus 1 .
  • the data analysis device 1 is a device capable of executing a data analysis method 100 for analyzing data relating to a given phenomenon, and is composed of, for example, a general-purpose or dedicated computer (see FIG. 2 described later).
  • the predetermined law may be any law as long as it involves multiple variables, for example, not only laws such as physical laws and mathematical laws, but also laws such as economic laws, market laws, and psychological laws. is also included.
  • the data analysis device 1 includes a control unit 10, a storage unit 11, an input unit 12, an output unit 13, and a communication unit 14 as its main components.
  • the control unit 10 functions as a data analysis unit by executing the data analysis program 110 stored in the storage unit 11, and performs the first to third phenomenon prediction processes S1 to S3 performed by the data analysis method 100. , and the optimum solution search processing S4.
  • the storage unit 11 stores, for example, an operating system (OS), other programs, data, and the like.
  • OS operating system
  • the input unit 12 accepts various input operations, and the output unit 13 outputs various information via the display screen and voice, thereby performing the first to third phenomenon prediction processes S1 to S3 and the optimum It functions as a user interface for the solution search process S4.
  • the communication unit 14 is connected to a wired or wireless network to transmit and receive various data to and from another device (not shown).
  • first to third phenomenon prediction processes S1 to S3 are performed using pie numbers corresponding to the phenomenon.
  • a pie number conversion matrix P (details will be described later), which is a form of pie number conversion information that defines the relationship between the variables observed in the phenomenon to be processed and the pie numbers that can be converted from the variables.
  • First to third phenomenon prediction processes S1 to S3 are performed using this.
  • the pie number conversion information is information that enables conversion from a variable to a pie number or inverse conversion from a pie number to a variable while maintaining the law of similarity.
  • the first to third phenomenon prediction processes S1 to S3 included in the data analysis method 100 are the first to third phenomenon prediction processes S1 to S3 for predicting a predetermined phenomenon using the properties of pie numbers.
  • a number forecasting model method, an integrated pie number forecasting model method, and an iterative integrated pie number forecasting model method are implemented respectively.
  • the optimum solution search process S4 realizes a function of searching for an optimum solution that satisfies a predetermined optimization condition by cooperating with any one of the first to third phenomenon prediction processes S1 to S3. Since the first to third phenomenon prediction processes S1 to S3 are closely related, the data analysis method 100 preferably systematically performs the first to third phenomenon prediction processes S1 to S3.
  • the data analysis device 1 is configured as a device that executes part of the processing
  • the data analysis program 110 is configured as a program that causes the computer (control unit 10) to execute the part of the processing. be.
  • the data analysis method 100 performs pie number conversion processing as common processing in the first to third phenomenon prediction processes S1 to S3. Perform number conversion processing. Details of the first to third phenomenon prediction processes S1 to S3, the optimum solution search process S4, and the pie number conversion process will be described later.
  • FIG. 2 is a hardware configuration diagram showing an example of the computer 200.
  • the computer 200 is an example of a device that constitutes the data analysis device 1, and is configured as a general-purpose or dedicated computer.
  • the computer 200 includes, as its main components, a bus 210, a processor 212, a memory 214, an input device 216, an output device 217, a display device 218, a storage device 220, a communication I/F (interface) It has a section 222 , an external device I/F section 224 , an I/O (input/output) device I/F section 226 and a media input/output section 228 . Note that the above components may be omitted as appropriate depending on the application in which the computer 200 is used.
  • the processor 212 is composed of one or more arithmetic processing units (CPU (Central Processing Unit), MPU (Micro-processing unit), DSP (digital signal processor), GPU (Graphics Processing Unit), etc.), and the entire computer 200 It operates as a control unit 10 that supervises the .
  • the memory 214 stores various data and programs 230, and is composed of, for example, a volatile memory (DRAM, SRAM, etc.) functioning as a main memory, a non-volatile memory (ROM), a flash memory, and the like.
  • the input device 216 is composed of, for example, a keyboard, mouse, numeric keypad, electronic pen, etc., and functions as the input unit 12.
  • the output device 217 is composed of, for example, a sound (voice) output device, a vibration device, or the like, and functions as the output unit 13 .
  • the display device 218 is composed of, for example, a liquid crystal display, an organic EL display, electronic paper, a projector, etc., and functions as the output unit 13 .
  • the input device 216 and the display device 218 may be configured integrally like a touch panel display.
  • the storage device 220 is composed of, for example, a HDD (Hard Disk Drive), an SSD (Solid State Drive), etc., and functions as the storage unit 11 .
  • the storage device 220 stores various data necessary for executing the operating system and programs 230 .
  • the communication I/F unit 222 is wired or wirelessly connected to a network 240 such as the Internet or an intranet, and functions as the communication unit 14 that transmits and receives data to and from other computers according to a predetermined communication standard.
  • the external device I/F unit 224 is wired or wirelessly connected to the external device 250 such as a camera, printer, scanner, reader/writer, etc.
  • the communication unit 14 that transmits and receives data to and from the external device 250 according to a predetermined communication standard. function as The I/O device I/F unit 226 is connected to I/O devices 260 such as various sensors and actuators, and exchanges with the I/O devices 260, for example, detection signals from sensors and control signals to actuators.
  • the media input/output unit 228 is composed of a drive device such as a DVD (Digital Versatile Disc) drive, a CD (Compact Disc) drive, etc., and transfers data to media (non-temporary storage media) 270 such as DVDs and CDs. read and write.
  • a drive device such as a DVD (Digital Versatile Disc) drive, a CD (Compact Disc) drive, etc.
  • media (non-temporary storage media) 270 such as DVDs and CDs. read and write.
  • the processor 212 calls the program 230 stored in the storage device 220 to the memory 214 and executes it, and controls each part of the computer 200 via the bus 210 .
  • the program 230 may be stored in the memory 214 instead of the storage device 220 .
  • the program 230 may be recorded on the media 270 in an installable file format or executable file format and provided to the computer 200 via the media input/output unit 228 .
  • Program 230 may be provided to computer 200 by downloading via network 240 via communication I/F section 222 .
  • the computer 200 may implement various functions realized by the processor 212 executing the program 230 by hardware such as FPGA (field-programmable gate array) and ASIC (application specific integrated circuit). good.
  • the computer 200 is, for example, a stationary computer or a portable computer, and is an arbitrary form of electronic equipment. Also, the computer 200 may be a client-type computer, a server-type computer, or a cloud-type computer.
  • FIG. 1 As the predetermined phenomenon, "physical phenomenon of a spring-mass system in which two mass points completely inelasticly collide and move together" (hereinafter, “spring-mass system completely inelastic collision A phenomenon”) will be used as an example to explain a case in which a plurality of physical quantities are observed as a plurality of variables.
  • FIG. 3 is a schematic diagram showing a physical phenomenon of a mass-spring system in which two mass points completely inelasticly collide and move together.
  • the spring - mass complete inelastic collision phenomenon as shown in FIG .
  • the phenomenon in which the first mass point and the second mass point are at the position x2e is targeted.
  • a set of physical quantities consisting of a plurality of physical quantities q v1 to q v8 observed in a spring-mass complete inelastic collision phenomenon is represented by a “physical quantity set Q v ” as shown in the following [Equation 1]. do.
  • the position x 2s is the physical quantity to be predicted, the position x 2s is called the "physical quantity objective variable" and the other physical quantity is called the “physical quantity explanatory variable”.
  • the physical quantity objective variable (position x 2s ) shall be placed in the first element q 1 of the physical quantity set Q v .
  • the relationship between the physical quantity set Q v consisting of a plurality of physical quantities q v observed in a spring-mass perfect inelastic collision phenomenon and the pi number set ⁇ v consisting of one or more pi numbers ⁇ v that can be converted from the physical quantity is represented by the following [Table 2] as pie number conversion information.
  • the physical quantity objective variable is arranged in the first column (the left end of the numerical part), and the pie number containing the physical quantity objective variable is arranged in the first row (the upper end of the numerical part).
  • the pi-number transformation matrix P By subjecting the pi-number transformation matrix P to basic row transformation, the pi-number ⁇ v can be transformed.
  • the basic row transformation is also used for solving simultaneous linear equations. The procedure is to replace a line with another line.
  • the first and second expressions in the [Equation 5] express the relational expression F of the pi number ⁇ v indicated by Buckingham's pi theorem.
  • (m 2 /m 1 ) 3 in the third equation was modified from the second equation by taking the cube root operation in F′. Since (t 2e /t 1e ) 2 in the fourth equation is a function of t 2e /t 1e , it is represented by ⁇ V3 and eliminated in the fifth equation.
  • the transformations of the 3rd to 5th equations correspond to the transformation of the pie number transformation matrix P in which the pie number transformation vector p3 is doubled and added to the pie number transformation vector p2 .
  • Equation 6 the third and fifth arguments are interchanged, but the definition of function F'' remains the same.
  • the pie number transformation matrix P this corresponds to the operation of exchanging the pie number transformation vector p3 and the pie number transformation vector p5 .
  • F' and F'' are different in form from F, since the third to sixth equations are modified equations of the first equation, each argument is a pie number as in the second equation. can be defined.
  • a matrix can be transformed into a step matrix by basic row transformation, so if the columns after the second column of the pie number conversion matrix P are rearranged and then transformed into a step matrix, the pie number ⁇ v is transformed, and , the pi-number ⁇ v1 containing the physical quantity objective variable always yields the pi-number transformation matrix P that is placed only in the first place. Furthermore, if the obtained pi-number transformation matrix P is simplified, the complexity is reduced.
  • the physical quantity data vector q is the numerical data of the objective variable, "physical quantity objective variable data y ” and a “physical quantity explanatory variable data vector x” consisting of explanatory variable data, which is numerical data of the explanatory variable.
  • a set of physical quantity target variable data y a one-dimensional array in which a plurality of physical quantity target variable data y are arranged vertically is defined as a “physical quantity target variable data set Y”.
  • a set of physical quantity explanatory variable data vectors x a two-dimensional array in which a plurality of physical quantity explanatory variable data vectors x are arranged vertically is defined as a “physical quantity explanatory variable data set X”.
  • the pi number data vector ⁇ is data corresponding to the pi number set ⁇ v and consists of “pi number data” which is numerical data of the pi number ⁇ v .
  • a set of multiple pie number data vectors ⁇ a two-dimensional array in which multiple pie number data vectors ⁇ are arranged vertically is defined as “pi number data set ⁇ ”.
  • the pie number data vector ⁇ is the numerical data of the objective variable "pi number objective Variable data ⁇ ” and a “pie number explanatory variable data vector ⁇ ” consisting of explanatory variable data which is numerical data of the explanatory variables are configured as a set.
  • a set of pie number target variable data ⁇ a one-dimensional array in which a plurality of pie number target variable data ⁇ are arranged vertically is defined as a “pi number target variable data set ⁇ ”.
  • pie number explanatory variable data set ⁇ As a set of pie number explanatory variable data vectors ⁇ , a two-dimensional array in which a plurality of pie number explanatory variable data vectors ⁇ are arranged vertically is defined as a “pi number explanatory variable data set ⁇ ”.
  • a pi-number conversion matrix P for n physical quantities q v and k pi-numbers ⁇ v is defined as shown in Equation 8 below. Also, the i row of the pie number conversion matrix P is defined as a "pi number conversion vector p i ".
  • FIG. 4 is a schematic diagram showing pie number conversion by the pie number conversion processing.
  • the pi-number conversion process is a process of converting the physical quantity data vector q into the pi-number data vector ⁇ based on the pi-number conversion matrix P.
  • the pie number conversion by the pie number conversion process is represented by the following [Math. 9] formula (see FIG. 4A).
  • the pi number data vector ⁇ is uniquely transformed by substituting each value of the physical quantity data making up the physical quantity data vector q into each defining expression of the pi number data making up the pi number data vector ⁇ . For example, by substituting each value of the eight physical quantity data into the formula [Formula 3] showing the definition of the pie number data, all the pie number data are uniquely determined, and the pie number data vector ⁇ converted.
  • the pi-number conversion process converts each physical quantity data vector q included in the physical quantity data set Q into a pi-number data vector ⁇ based on the pi-number conversion matrix P, using the following formula (10): (see FIG. 4(b)).
  • the first phenomenon prediction process S1 by the pie number prediction model method will be described.
  • the first phenomenon prediction process S1 although the theoretical formula that holds for a given phenomenon is unknown, a physical quantity data set Q train to be learned observed in the phenomenon and a pie number ⁇ v representing the phenomenon (for example , the initial pie number transformation matrix P 0 ) is obtained, the pie number ⁇ v is used to generate one or more prediction target physical quantity explanatory variable data vectors x pred (in the case of multiple prediction target).
  • the physical quantity explanatory variable data vector x pred to be predicted is not limited to being present in the interpolation range of the physical quantity data set Q train to be learned, but is present in the extrapolation range of the physical quantity data set Q train to be learned. Including things.
  • the pie number ⁇ v used in the first phenomenon prediction process S1 that is, the pie number transformation matrix P for processing may be the initial pie number transformation matrix obtained by dimensional analysis, or the initial pie number transformation
  • the pie number conversion matrix created in the below-described pie number creation process (step S20) from the matrix may be used, or the pie number conversion matrix created based on the knowledge of the data analyst may be used.
  • the basic processing contents of the first phenomenon prediction process S1 include a pie number creation process (step S20) for creating a pie number transformation matrix P for processing, Based on the transformation matrix P, the learning target pie number data set ⁇ train is converted (pi number conversion), and based on the converted pie number data set ⁇ train , the pie number explanatory variable data vector ⁇ is input, and the pie number A model creation process (step S30) for creating a pie number prediction model F pred that outputs the number objective variable data ⁇ , and a prediction target physical quantity explanatory variable data vector x pred based on the pie number transformation matrix P.
  • step S40 unknown physical quantity objective variable data y Model prediction processing (step S40) of predicting unknown physical quantity objective variable data y pred is performed by performing calculation processing for calculating pred on the prediction target physical quantity explanatory variable data vector x pred . Details of each process will be described later.
  • the prediction target physical quantity explanatory variable data vector x pred is interpolated with respect to the region in which the learning target physical quantity data set Q train is distributed (distribution region of the physical quantity space).
  • the prediction target pie number explanatory variable data vector ⁇ pred is interpolated with respect to the area where the learning target pie number data set ⁇ train is distributed (distribution area of the pie number space) If so, it is possible to predict the unknown physical quantity target variable data y_pred .
  • At least two constraint equations are required for two physical quantities q v to be interpolated. If both physical quantities q v are distributed in a box-shaped region, two inequalities are required, for example min 1 ⁇ q v1 ⁇ max 1 and min 2 ⁇ q v2 ⁇ max 2 .
  • the one pi number is expressed by only one constraint expression in order to be an interpolation. That is, it can be seen from the difference in the number of constraint expressions that the probability of extrapolation in the pi number space is smaller than the probability of extrapolation in the physical quantity space.
  • the pi number ⁇ v is in the form of the power product of the physical quantity q v , even if the distribution of the physical quantity q v is uniform, the distribution of the pi number ⁇ v tends to be coarse and dense. Therefore, in order to determine whether each explanatory variable constituting the pi number ⁇ v is interpolation or extrapolation, a simple determination method using the minimum value and the maximum value often does not work. Therefore, it is effective to introduce a method for determining outliers and use an outlier determination model f od based on the pie number explanatory variable data set ⁇ train to be learned. There are various methods for judging outliers, but in general, the standard value for judging outliers (the basis for judging feature quantity, threshold for severity, etc.) may be selected and adjusted for use.
  • FIG. 5 is a first schematic diagram showing an outline of the pie number prediction model method in a simple example (three physical quantities q v and two pie numbers ⁇ v ).
  • FIG. 6 is a second schematic diagram showing an overview of the pie number prediction model method in a general example.
  • the physical quantity explanatory variable x 2 has a common part between the learning target explanatory variable data set X 2 , train and the prediction target physical quantity explanatory variable data set X 2 , pred .
  • the physical quantity explanatory variable x 1 there is no common portion between the physical quantity explanatory variable data set X 1 , train to be learned and the physical quantity explanatory variable data set X 1 , pred to be predicted.
  • one pie number explanatory variable ⁇ 1 is determined by the ratio of two physical quantity explanatory variables x1 and x2 . Since two independent axes are combined into one, it is probabilistically easier to have common parts. Therefore, on the x 1 -x 2 plane shown in FIG. 5, for example, the slope x 2 /x 1 corresponds to the pie number ⁇ 2 , so the range in which the learning target physical quantity explanatory variable data set X train is distributed Two tangent lines are drawn from the origin at , and the area between them is the interpolation range in the pi number space. Therefore, even if two physical quantity explanatory variables x 1 and x 2 do not have a common portion, they may have a common portion in the pie number space.
  • regions where unknown physical quantity target variable data y pred (unknown physical quantity target variable data set Y pred ) can be predicted by the pie number prediction model method are indicated by diagonal lines.
  • the common portion between the physical quantity explanatory variable data set X train to be learned and the physical quantity explanatory variable data set X pred to be predicted is a portion where all of the physical quantity explanatory variables x 1 to x n ⁇ 1 are common.
  • the intersection of the learning target pie number explanatory variable data set ⁇ train and the prediction target pie number explanatory variable data set ⁇ pred is that all of the pie number explanatory variables ⁇ 1 to ⁇ k ⁇ 1 are A common portion is indicated by diagonal lines.
  • the physical quantity explanatory variable data vector x pred in the common portion of the physical quantity explanatory variable data set X train to be learned and the physical quantity explanatory variable data set X pred to be predicted may be Since it may be determined as an outlier, there are regions that do not fall within the physical quantity explanatory variable data set X inlier to be predicted . Since it is predictable by the model, it is indicated by diagonal lines.
  • FIGS. 7 to 10 are flowcharts showing an example of the first phenomenon prediction process (step S1) by the pie number prediction model method.
  • step S100 an initial pie number transformation matrix P0 , a learning target physical quantity data set Q train , and a prediction target physical quantity explanatory variable data set X pred are input. These data may be read from the storage unit 11, input via the input unit 12, or received from another device connected to the network.
  • the physical quantity data set Q train to be learned input in step S100 is a set of the physical quantity target variable data y train and the physical quantity explanatory variable data vector x train , as shown in Equation 6. It is a set of physical quantity data vectors q train , and is composed of a physical quantity explanatory variable data set X train and a physical quantity objective variable data set Y train .
  • step S100 when the value of the exponent of the physical quantity qv included in the pi number ⁇ v is large, and when the value of the pi number ⁇ v after pi number conversion is large, the digit difference of the pi number ⁇ v becomes large .
  • learning data preprocessing such as normalization by dividing the physical quantity explanatory variable data set X train by the maximum value of each physical quantity explanatory variable data may be performed as necessary.
  • a learning data density improving process is performed to improve the data density of the learning target physical quantity data set Q train .
  • a physical quantity prediction model F train is created that takes the physical quantity explanatory variable data vector x train as input and the physical quantity target variable data y train as output.
  • the physical quantity prediction model F train is , for example, a regression model using a neural network (including deep learning). It is created by machine learning the correlation between the variable data y train . Note that the physical quantity prediction model F train is not limited to the above example, and may be created by other methods or models.
  • the new physical quantity explanatory variable data vector x new1,i may be created, for example, by random numbers or the like, and may correspond to the vicinity of the end (contour) of the region in which the learning target physical quantity data set Q train is distributed.
  • the number of new physical quantity data vectors q new1,i may be appropriately determined according to the number of learning target physical quantity data vectors q train , the number and distribution of physical quantity explanatory variables x, and the like. As described above, by performing the process of adding the new physical quantity data vector q new1,i to the learning target physical quantity data set Q train , the data density of the learning target physical quantity data set Q train is improved. Since the data density of the pie number data set ⁇ train is also improved, the accuracy of outlier determination by the outlier determination model f od can be improved.
  • step S20 pie number creation processing for creating a pie number conversion matrix P for processing is performed.
  • the initial pie number conversion matrix P 0 input in step S100 is changed so that the exponents of the physical quantity objective variables included in the pie number ⁇ v are 0 except for the specific pie number ⁇ v1 . to create a pi-number transformation matrix P for processing. Therefore, it is assumed that a specific pi number ⁇ v1 including a physical quantity objective variable is transformed so as to be placed only in the first row as shown in [Table 2], for example.
  • the first element in the pie number conversion vector p 1 in the first row, the first element is an integer other than 0, and in the other pie number conversion vectors p 2 to p 5 , It is transformed so that the first element is 0.
  • step S20 may be executed before the initial pi-number transformation matrix P0 is input in step S100, or the initial pi-number transformation matrix P0 originally has a shape after deformation. If so, step S20 may be omitted. In that case, in each step after step S20, the initial pie number conversion matrix P0 input in step S100 may be regarded as the pie number conversion matrix P for processing.
  • step S30 a model creation process for creating a pie number prediction model F pred and an outlier determination model f od from the learning target physical quantity data set Q train using the pie number transformation matrix P for processing. I do.
  • FIG. 8 is a flow chart showing an example of the model creation process (step S30).
  • step S300 the physical quantity data set Q train to be learned is subjected to pie number conversion using the pi number conversion matrix P for processing, thereby generating the pi number data set ⁇ train to be learned.
  • the pi-number conversion process for the learning target physical quantity data set Q train is expressed by the following [Equation 11], like the [Equation 10].
  • step S300 learning data conversion processing such as Box-Cox conversion, power conversion such as Yeo-Johnson conversion, logarithmic conversion, standardization, etc. is performed on the learning target pi number data set ⁇ train ,
  • the distribution of the pie number data set ⁇ train may be adjusted. Since the pi number ⁇ v has the form of the power product of the physical quantity q v , even if the physical quantity q v has a uniform distribution, the value of the pi number ⁇ v after the pi number conversion is It tends to be a distribution with a difference in coarseness and fineness.
  • an outlier determination model f od is created based on the pie number explanatory variable data set ⁇ train included in the learning target pie number data set ⁇ train .
  • the outlier determination model f od is created by, for example, a technique such as "Isolation Forest", which is a kind of unsupervised learning.
  • Isolation Forest a parameter called “contamination” may be set as the reference value for outlier determination.
  • Contamination is a parameter that indicates the ratio of outliers judged to be outliers with respect to the reference data (here, the physical quantity data set Q train to be learned) when creating an outlier judgment model.
  • step S60 the predictability rate R P and A model evaluation process for calculating at least one of the unpredictability rate RU is performed.
  • FIG. 9 is a flow chart showing an example of the model evaluation process (step S60).
  • step S600 the prediction target physical quantity explanatory variable data vector x pred included in the prediction target physical quantity explanatory variable data set X pred is sequentially selected, and by performing loop processing that repeats steps S610 to S613, the prediction target physical quantity explanatory variable data vector x pred is sequentially selected.
  • An outlier determination process using an outlier determination model f od is performed on each of the physical quantity explanatory variable data vectors x pred .
  • step S610 the prediction target physical quantity explanatory variable data vector x pred selected in step S600 is subjected to pie number transformation using the processing pie number transformation matrix P, thereby generating the prediction target pie number explanatory variable data vector ⁇ pred . do.
  • the pi-number conversion processing for the prediction target physical quantity explanatory variable data vector x pred and the pi-number conversion processing for the prediction target physical quantity explanatory variable data set X pred are performed in the following [expression 12] in the same manner as in the expression [expression 10]. is represented by the formula
  • step S611 depending on whether or not the prediction target pie number explanatory variable data vector ⁇ pred is an outlier of the outlier determination model f od , the prediction target physical quantity explanatory variable data vector x pred is It is determined whether prediction of the unknown physical quantity target variable data y pred is possible using the pi-number conversion matrix P.
  • step S611 if it is determined that the outlier determination model f od is not an outlier, that is, the prediction is possible (S611: Yes), the process proceeds to step S612, and the pie number explanatory variable data vector ⁇ pred at that time is The pie number explanatory variable data vector ⁇ inlier,i is substituted, and the physical quantity explanatory variable data vector x pred corresponding to the pie number explanatory variable data vector ⁇ inlier,i is substituted into the physical quantity explanatory variable data vector x inlier,i .
  • the set of predictable pie number explanatory variable data vectors ⁇ inlier, i is represented by the pie number explanatory variable data set ⁇ inlier
  • the set of physical quantity explanatory variable data vectors x inlier, i is represented by the physical quantity explanatory variable data set X inlier . shall be represented.
  • step S611 determines whether the outlier determination model f od is an outlier, that is, that prediction is impossible (S611: No)
  • the process proceeds to step S613, and the pie number explanatory variable data at that time Substitute the vector ⁇ pred into the pie number explanatory variable data vector ⁇ outsider,i , and substitute the physical quantity explanatory variable data vector x pred corresponding to the pie number explanatory variable data vector ⁇ outsider,i into the physical quantity explanatory variable data vector x outsider,i. substitute.
  • a set of pie number explanatory variable data vectors ⁇ outer,i determined to be unpredictable is represented by a pie number explanatory variable data set ⁇ outer
  • a set of physical quantity explanatory variable data vectors x outer, i is represented by a physical quantity explanatory variable data set. It shall be denoted by X outer .
  • step S60 outlier determination of the pie number explanatory variable data set ⁇ pred to be predicted is performed using an outlier determination model f od created based on the pie number explanatory variable data set ⁇ train to be learned.
  • the processing to be performed is represented by the following [Equation 13].
  • the learning target pie number explanatory variable data set ⁇ train is obtained by transforming the learning target physical quantity explanatory variable data set X train using the pie number transformation matrix P
  • the prediction target pie number explanatory variable data set ⁇ pred is
  • the physical quantity explanatory variable data set X pred to be predicted is converted by the pi number conversion matrix P.
  • step S620 at least one of the predictability rate R P and the unpredictability rate R U is calculated based on the determination result of the outlier determination process for each physical quantity explanatory variable data vector x pred to be predicted. do. Specifically, the physical quantity explanatory variable data vector included in the physical quantity explanatory variable data set X inlier with respect to the total number of physical quantity explanatory variable data vectors x pred included in the physical quantity explanatory variable data set X pred to be predicted (total number of X pred ) Based on the ratio of the total number of x inliers, i (the total number of X inliers ), the predictability rate R P is calculated.
  • the unpredictability rate RU is calculated based on the ratio of the total number of i (total number of X outliers ). That is, the predictability rate RP and the unpredictability rate RU are calculated by the following [Equation 14].
  • step S303 based on the learning target pie number data set ⁇ train , a pie number prediction with the pie number explanatory variable data vector ⁇ as input and the pie number objective variable data ⁇ as output Create model F pred .
  • the pie number prediction model F pred is, for example, a regression model using a neural network (including deep learning), with the pie number data set ⁇ train to be learned as learning data, the pie number explanatory variable data vector ⁇ , It is created by machine learning the correlation between the pie number objective variable data ⁇ . Note that the pie number prediction model F pred is not limited to the above example, and may be created by other methods or models.
  • step S40 using the pie number conversion matrix P for processing, the pie number prediction model F pred , and the outlier determination model f od , the prediction target physical quantity explanatory variable data set A model prediction process for predicting an unknown physical quantity target variable data set Y pred is performed on X pred .
  • FIG. 10 is a flowchart showing an example of model prediction processing (step S40).
  • step S400 the prediction target physical quantity explanatory variable data vector x pred included in the prediction target physical quantity explanatory variable data set X pred is sequentially selected, and by performing loop processing that repeats steps S410 to S421, the prediction target physical quantity explanatory variable data vector x pred is sequentially selected.
  • Calculation processing is performed for each of the physical quantity explanatory variable data vectors x pred .
  • the calculation process includes steps S410 to S413 similar to steps S610 to S613.
  • step S410 the prediction target physical quantity explanatory variable data vector x pred selected in step S400 is subjected to pie number transformation using the processing pie number transformation matrix P, thereby generating the prediction target pie number explanatory variable data vector ⁇ pred . do.
  • step S411 depending on whether the prediction target pie number explanatory variable data vector ⁇ pred is not an outlier of the outlier determination model f od , the prediction target physical quantity explanatory variable data vector x pred is It is determined whether prediction of the unknown physical quantity target variable data y pred is possible using the pi-number conversion matrix P.
  • step S412 If it is determined in step S411 that prediction is possible (S411: Yes), in step S412, the pie number explanatory variable data vector ⁇ pred of the prediction target at that time is replaced with the pie number explanatory variable data vector ⁇ , the physical quantity explanatory variable data vector x pred corresponding to the pie number explanatory variable data vector ⁇ inlier,i is substituted for the physical quantity explanatory variable data vector x inlier,i, and the process proceeds to step S420.
  • step S411 determines whether the prediction is impossible (S411: No) or not. If it is determined in step S411 that the prediction is impossible (S411: No), in step S413, the pie number explanatory variable data vector ⁇ The physical quantity explanatory variable data vector x pred corresponding to the pie number explanatory variable data vector ⁇ outer,i is substituted for the physical quantity explanatory variable data vector x outer,i, and the process returns to step S410.
  • step S420 the pie number explanatory variable data vector ⁇ inlier,i to be predicted is input to the pie number prediction model F pred created in step S30 to obtain the unknown pie number objective variable data ⁇ inlier,i. to output
  • the pie number prediction model F pred is used to calculate the unknown pie number objective variable data ⁇ inlier,i from the pie number explanatory variable data vector ⁇ inlier, i of the prediction target, and the prediction target
  • the processing for calculating the unknown pie number target variable data H inlier from the pie number explanatory variable data vector ⁇ inlier of is represented by the following equation (15).
  • step S421 from the unknown pie number objective variable data ⁇ inlier,i output in step S420, based on the prediction target physical quantity explanatory variable data vector x inlier,i and the pie number transformation matrix P, Calculate the unknown physical quantity target variable data y inlier,i .
  • step S420 the unknown physical quantity objective variable data set Y
  • the processing for calculating the inlier is represented by the following [Equation 17] by introducing a function “f y ”. Note that the physical quantity explanatory variable data set X inlier can be obtained immediately from the corresponding pie number explanatory variable data set ⁇ inlier , so the first equation in [Formula 17] can be redefined by the second equation.
  • the prediction target pie number explanatory variable data set ⁇ pred , the learning target pie number explanatory variable data set ⁇ train , and the learning target pie number explanatory variable data set ⁇ train are the prediction target physical quantity explanatory variable data set X pred .
  • a pie number conversion matrix for processing Since each can be obtained by performing pi-number conversion with P, the first equation in [Equation 18] is transformed into the second equation.
  • the physical quantity data sets A1, B1, and C1 are used as a learning target physical quantity data set Q train .
  • the physical quantity data sets A1 to A3 are used as a prediction target physical quantity data set Q train for verifying the prediction performance.
  • the number of conditions in each of physical quantity data sets A1 to A3, B1, and C1 was 1000 conditions.
  • the physical quantity explanatory variables of the physical quantity data set A1 were created as random uniform distributions within the regions shown in [Table 3].
  • the physical quantity data sets A2 and A3 were created by expanding the min value and the max value outward while maintaining the center value of the range of each physical quantity explanatory variable of the physical quantity data set A1.
  • the distribution ranges of the physical quantity explanatory variables of the physical quantity data sets A2 and A3 were created so as to have distribution range enlargement ratios of 2 and 3 times that of the physical quantity data set A1, respectively.
  • the physical quantity explanatory variables m 1 , x 1s , and t 1e of the physical quantity data set B1 were created by fixing only one level (constant) of the center value of the physical quantity data set A1.
  • the other physical quantity explanatory variables are uniformly distributed randomly in the same range as the physical quantity data set A3, but were created using different random number seeds from the physical quantity data set A3.
  • the physical quantity explanatory variable t 1e of the physical quantity data set C1 was created by randomly assigning only two levels of the minimum value and the maximum value of the physical quantity data set A1.
  • Other physical quantity explanatory variables are uniformly distributed randomly in the same range as the physical quantity data set A1, but were created using random number seeds different from the physical quantity data set A1.
  • a pie number prediction model F pred and an outlier determination model f od are created in the model creation process S30, and the prediction target physical quantity data sets A1 to A3 are created.
  • unknown physical quantity target variable data y pred is predicted in the first phenomenon prediction process S1
  • the value of the predicted unknown physical quantity target variable data y pred (physical quantity target variable x 2e )
  • the value of the physical quantity objective variable data y pred (the true value of the physical quantity objective variable x 2e ) obtained by dynamic simulation from the physical quantity explanatory variable data vector x pred included in the physical quantity data sets A1 to A3.
  • FIG. 11 is a scatter diagram matrix showing physical quantity data sets A1 and A2.
  • the diagonal graphs represent histograms of each physical quantity, and the other graphs represent scatter plots of all combinations of physical quantities.
  • White points represent the learning target physical quantity data set A1
  • black dots represent the prediction target physical quantity data set A2. Since the white dots are displayed as opaque dots on top of the black dots, areas where the white dots are displayed may have black dots behind them. This is represented by the overlapping white and black bars in the histogram (as in all scatterplot matrices below).
  • the physical quantity explanatory variable data sets X train and X pred included in the physical quantity data sets A1 and A2 are normalized by the maximum values of the physical quantity explanatory variables of the physical quantity data set A1. Therefore, the maximum value of the physical quantity explanatory variables of the physical quantity data set A1 is 1, and all the explanatory variables are distributed substantially uniformly.
  • the range that can be predicted without deteriorating the prediction accuracy is within the interpolation range in which the physical quantity data set A1 is distributed. Limited.
  • FIG. 12 is a scatter diagram matrix showing pi number data sets obtained by subjecting the physical quantity data sets A1 and A2 to pi number conversion.
  • the pi-number data sets ⁇ train and ⁇ pred shown in FIG. 12 are obtained by subjecting the physical quantity data sets A1 and A2 to pi-number conversion using the pi-number conversion matrix P of the formula [Equation 4]. , and A2, respectively, were subjected to learning data transformation processing (Box-Cox transformation and normalization ) using the same transformation parameters .
  • FIG. 12(a) shows the pie number data sets ⁇ train, ⁇ pred before the learning data conversion process is performed.
  • FIG. 12(b) shows the pie-number explanatory variable datasets ⁇ train and ⁇ pred after the learning data conversion process has been performed.
  • the physical quantity data sets A1 and A2 have similar distributions, but the distribution range of the physical quantity data set A2 is wider than that of the physical quantity data set A1.
  • FIG. 13 is a diagram showing verification results of the pie number prediction model F pred created from the physical quantity data set A1.
  • the pie number prediction model F pred in FIG. 13 uses the learning target physical quantity data set A1 shown in FIG. It is prepared by dividing into 750 number data vectors and 250 verification pie number data vectors.
  • the coefficients of determination of the learning and validation results in the pie number prediction model F pred were 0.999 and 0.999, respectively.
  • FIG. 14 is a scatter diagram matrix showing outlier determination results (predictable or unpredictable) of the physical quantity data set A2 by the outlier determination model f od created from the physical quantity data set A1.
  • the outlier determination model f od is created based on the pie number explanatory variable data set ⁇ train converted from the learning target physical quantity data set A1, and each point of the prediction target physical quantity data set A2 (pi It was determined whether or not the number explanatory variable data vector ⁇ pred ) was an outlier of the outlier determination model f od .
  • the white dots shown in FIG. It represents the distribution of the data vector x inlier,i (physical quantity explanatory variable data set X inlier ).
  • the black points shown in FIG. 14 are the physical quantity explanatory variable data vectors x outer , i (physical quantity explanatory variables represents the distribution of the data set Xoutlier ).
  • the physical quantity explanatory variable data vector x inlier,i (white dots shown in FIG. 14) determined to be predictable is the distribution area of the physical quantity data set A1 shown in FIG. It can be seen that it is also distributed outside the white dots shown in ).
  • FIG. 15 is a diagram showing a verification result of prediction performance based on a comparison between the predicted value of the physical quantity objective variable by the pie number prediction model method and the true value of the physical quantity objective variable.
  • the horizontal axis represents the predicted value, and the vertical axis represents the true value (correct answer).
  • Each plot shows the physical quantity target variable data y pred corresponding to each point (physical quantity explanatory variable data vector x pred ) of the physical quantity data set A2 to be predicted . respectively.
  • FIG. 15A shows the physical quantity target variable data y inlier,i corresponding to the physical quantity explanatory variable data vector x inlier,i determined to be predictable (not an outlier ) in the prediction target physical quantity data set A2. show. The number of predictable physical quantity explanatory variable data vectors x inlier,i shown in FIG. there were.
  • FIG. 15(b) shows the physical quantity objective variable data y_outlier corresponding to the physical quantity explanatory variable data vector x_outlier,i determined to be unpredictable ( outlier ).
  • FIG. 16 is a diagram showing a verification result of predictive performance based on a comparison between the predicted value of the physical quantity objective variable by the conventional physical quantity regression model and the true value of the physical quantity objective variable.
  • a physical quantity regression model conventional technology
  • Figure 2 shows the results when predicting the variable data set Y pred .
  • the conventional physical quantity regression model (prior art) it is not possible to determine whether prediction is possible for the data that is the extrapolation range for the physical quantity data set A1 to be learned. y pred was predicted. Therefore, since the verification results shown in FIG. 16 also include the extrapolation range, the conventional physical quantity regression model (prior art) is a physical quantity explanatory variable data vector x inlier, i that can be predicted in the pie number prediction model method. The prediction accuracy was worse than the prediction, and the coefficient of determination was 0.899.
  • FIG. 17 is a scatter diagram matrix showing physical quantity data sets A1 and A3.
  • FIG. 17 corresponds to FIG. 11, with white dots representing the learning target physical quantity data set A1 and black dots representing the prediction target physical quantity data set A3.
  • the physical quantity explanatory variable data sets included in the physical quantity data sets A1 and A3 are normalized by the maximum values of the physical quantity explanatory variables of the physical quantity data set A1.
  • FIG. 18 is a scatter diagram matrix showing pi number data sets obtained by subjecting the physical quantity data sets A1 and A3 to pi number conversion.
  • FIG. 19 is a scatter diagram matrix showing outlier determination results (predictable or unpredictable) of the physical quantity data set A3 by the outlier determination model f od created from the physical quantity data set A1.
  • FIG. 20 is a diagram showing a verification result of prediction performance based on a comparison between the predicted value of the physical quantity objective variable by the pie number prediction model method and the true value of the physical quantity objective variable.
  • FIG. 21 is a diagram showing a verification result of prediction performance based on a comparison between the predicted value of the physical quantity objective variable by the conventional physical quantity regression model and the true value of the physical quantity objective variable. 18 to 21 correspond to FIGS. 12 and 14 to 16, respectively.
  • the pie number prediction model F pred and the outlier determination model f od were the same as in the case where the distribution range enlargement ratio was 2, and the outlier determination reference value was also the same.
  • the physical quantity target variable data set Y pred was predicted for the physical quantity data set A3 to be predicted. The coefficient of determination was 0.627.
  • FIG. 22 is a scatter diagram matrix showing physical quantity data sets B1 and A1.
  • FIG. 22 corresponds to FIG. 11, with white dots representing the learning target physical quantity data set B1 and black dots representing the prediction target physical quantity data set A1.
  • white dots representing the learning target physical quantity data set B1
  • black dots representing the prediction target physical quantity data set A1.
  • the physical quantity data set B1 since the three physical quantity explanatory variables are fixed at one level, they are represented as a straight line or as one point where all the points are overlapped.
  • FIG. 23 is a scatter diagram matrix showing pi number data sets obtained by subjecting the physical quantity data sets B1 and A1 to pi number conversion.
  • FIG. 24 is a diagram showing verification results of the pie number prediction model F pred created from the physical quantity data set B1.
  • FIG. 25 is a scatter diagram matrix showing outlier determination results (predictable or unpredictable) of the physical quantity data set A1 by the outlier determination model f od created from the physical quantity data set B1.
  • FIG. 26 is a diagram showing the result of verification of prediction performance based on comparison between the predicted value of the physical quantity objective variable by the pie number prediction model method and the true value of the physical quantity objective variable.
  • FIG. 27 is a diagram showing a verification result of prediction performance based on a comparison between the predicted value of the physical quantity objective variable by the conventional physical quantity regression model and the true value of the physical quantity objective variable. 23 to 27 correspond to FIGS. 12 to 16, respectively.
  • the distribution of the pi number data set ⁇ train converted from the physical quantity data set B1 does not have a portion represented by a straight line or a single point as shown in the physical quantity data set B1 in FIG. As shown in 23, a uniform distribution was obtained.
  • the learning target physical quantity data set B1 does not include information about the effects on the physical quantity objective variable due to changes in the values of the three physical quantity explanatory variables fixed at one level, creating a physical quantity regression model not suitable for
  • the distribution of the pie number data set ⁇ train converted from the physical quantity data set B1 is a uniform distribution as described above, it is suitable for creating the pie number prediction model F pred .
  • the physical quantity data set B1 to be learned Prediction is possible if the distribution area of the pie number data set ⁇ train (the distribution area of the pie number space) converted from is included in the interpolation range.
  • the physical quantity data set B1 to be learned even if the three physical quantity explanatory variables are fixed, prediction by the pie number prediction model F pred is possible in a wide range due to the effect of the other physical quantity explanatory variables being widely distributed.
  • the physical quantity target variable data set Y The coefficient of determination when predicting pred was 0.491.
  • the physical quantity data set B1 to be learned since the three physical quantity explanatory variables are fixed, there is no information regarding the influence of changes in the values of these physical quantity explanatory variables on the physical quantity objective variable. Therefore, in the physical quantity data set A1 to be predicted, the physical quantity explanatory variable data vector x pred in which the physical quantity explanatory variable fixed at 1 level is set to a value different from the fixed value of the physical quantity data set B1 is extrapolated prediction. Therefore, it is considered that the prediction accuracy deteriorated.
  • FIG. 28 is a scatter diagram matrix showing physical quantity data sets C1 and A1.
  • FIG. 28 corresponds to FIG. 11, with white dots representing the learning physical quantity data set C1 and black dots representing the prediction target physical quantity data set A1.
  • one physical quantity explanatory variable t1e is fixed at two levels, and thus is represented as two linear distributions.
  • the physical quantity data set A1 to be predicted is an interpolation in the sense that it is within the range of the minimum value and the maximum value of the physical quantity data set C1 to be learned. Since there are two distribution regions, and the physical quantity explanatory variable t 1e of the prediction target physical quantity data set A1 is distributed between them, prediction is difficult with the conventional physical quantity regression model, as with extrapolation prediction.
  • FIG. 29 is a scatter diagram matrix showing pi number data sets obtained by subjecting the physical quantity data sets C1 and A1 to pi number conversion.
  • FIG. 30 is a diagram showing verification results of the pie number prediction model F pred created from the physical quantity data set C1.
  • FIG. 31 is a scatter diagram matrix showing outlier determination results (predictable or unpredictable) of the physical quantity data set A1 by the outlier determination model f od created from the physical quantity data set C1.
  • FIG. 32 is a diagram showing the verification results of prediction performance based on comparison between the predicted value of the physical quantity objective variable by the pie number prediction model method and the true value of the physical quantity objective variable.
  • FIG. 33 is a diagram showing a verification result of predictive performance based on a comparison between the predicted value of the physical quantity objective variable by the conventional physical quantity regression model and the true value of the physical quantity objective variable. 29 to 33 correspond to FIGS. 12 to 16, respectively.
  • the pie number including the physical quantity explanatory variable t 1e includes other uniformly distributed physical quantity explanatory variables
  • the distribution of the pie number data set ⁇ train converted from the learning target physical quantity data set C1 is shown in FIG. A two-dimensional distribution can be seen in each scatter diagram shown in .
  • the physical quantity explanatory variable t 1e fixed at two levels is assigned to the physical quantity explanatory variable data vector x pred to be predicted, which is set to a value different from the fixed values. may be predictable.
  • the coefficients of determination of the learning and verification results in the pie number prediction model F pred shown in FIG. 30 were 0.999 and 1.000, respectively.
  • the value of the physical quantity explanatory variable t 1e of the physical quantity data set A1 to be predicted is distributed between fixed values fixed at two levels in the physical quantity data set C1 to be learned, so it is converted from the physical quantity data set C1
  • Even the prediction target pie-number explanatory variable data vector ⁇ pred that is out of the distribution area of the pie-number data set ⁇ train is located at a location sandwiched between the distributions of the physical quantity data set C1.
  • the pie number space it can be regarded as a low-density interpolation range rather than a complete extrapolation range, so it is considered that even if an outlier is determined, the prediction accuracy is unlikely to deteriorate.
  • the coefficient of determination showed a high accuracy of 0.994. .2%) and the coefficient of determination deteriorated to 0.941.
  • the physical quantity target variable data set Y The coefficient of determination when predicting pred was ⁇ 4368.
  • the prediction target physical quantity data set A1 when the physical quantity explanatory variable t 1e was swung to a value between the minimum value and the maximum value, the prediction accuracy deteriorated similarly to the extrapolation prediction.
  • the pie number space corresponding to each of such multiple pie number transformation matrices Pj is different from the distribution shape of the pie number data set ⁇ train in each pie number space.
  • the prediction target physical quantity explanatory variable data vector x pred that is determined not to be an outlier (interpolation) is the pie number transformation matrix P j will vary depending on the shape of Therefore, even if the same learning target physical quantity data set Q train and outlier determination reference values are used, a combination of physical quantity explanatory variable data vectors determined to be predictable in outlier determination in each pie number space will be different depending on the shape of the pi-number transformation matrix Pj .
  • the above point will be described with a specific example.
  • the pi number set ⁇ V shown in the formula [3] is transformed into two pi number sets ⁇ ex1 and ⁇ ex2 shown in the following formulas [19] by row-based transformation of the pi number transformation matrix P.
  • the pie number sets ⁇ ex1 and ⁇ ex2 are in a form in which the physical quantity explanatory variables t 1e and t 2e are interchanged.
  • t 1e is included in the denominator of three pie numbers and t 2e is included in the numerator of only one pie number.
  • t 2e is included in the denominator of three pie numbers and t 1e is included in the numerator of only one pie number.
  • FIG. 34 shows the physical quantity explanatory variables t 1e and t determined as not outliers in the prediction target data set A2 when the pie number sets ⁇ ex1 and ⁇ ex2 are used for the learning target data set A1.
  • 2e respectively show the histograms of FIG.
  • the physical quantity explanation The pie number explanatory variable data vector ⁇ pred transformed from the variable data vector x pred is likely to be determined as an outlier.
  • the physical quantity explanatory variable x v is included in the denominator of the pie number ⁇ v , the smaller the value of the physical quantity data for the physical quantity explanatory variable x v , the larger the value of the pie number.
  • the number of data in the left end portion of t 1e in , and t 2e in FIG. 34(c) tends to decrease.
  • the physical quantity explanatory variables t 1e and t 2e are interchanged. do. Note that even if learning data conversion processing (Box-Cox conversion, etc.) is performed to reduce the unevenness of the distribution, if the shape of the pie number conversion matrix P j changes, predictions extracted by outlier determination It is the same that the possible physical quantity explanatory variable data vector x pred changes.
  • the second phenomenon prediction process S2 based on the integrated pie number prediction model method utilizes the above properties, and corresponds to a plurality (m) of pie number transformation matrices Pj created by row basic deformation. Create an outlier determination model f od,j and a pie number prediction model F pred,j in a plurality of pie number spaces, and create each outlier determination model f od for the physical quantity explanatory variable data vector x pred to be predicted , j and using the pie number prediction model F pred corresponding to the pie number space determined as not being an outlier, it is possible to predict the unknown physical quantity target variable data y pred . As a result, the integrated pie number prediction model method can expand the prediction range (predictability rate R P ).
  • FIG. 35 is a schematic diagram showing a general example of an overview of the integrated pie number predictive model method.
  • the plot indicated by “ x INLIER,i ” in FIG. 35 is a physical quantity explanatory variable data vector x It is pred .
  • pi number spaces are generated according to a plurality of pi number transformation matrices Pj , and predictable (non-outlier) pi number explanatory variable data sets in each pi number space ⁇ inlier,j (that is, the physical quantity explanatory variable data set X inlier,j that can predict the unknown physical quantity target variable set Y inlier,j ) is different.
  • the physical quantity explanatory variable data set X INLIER that can be predicted by the model method is the union of the physical quantity explanatory variable data sets X inlier,j determined to be predictable in at least one pie number space (pi number transformation information P j ) , expressed by the following [Equation 20].
  • the physical quantity explanatory variable data set X OUTLIER which cannot be predicted by the integrated pie number prediction model method, is the difference set excluding the physical quantity explanatory variable data set X INLIER from the physical quantity explanatory variable data set X pred to be predicted, as the following [ 20].
  • the integrated pie number prediction model method achieves an expansion of the prediction range (predictability rate R P ), but since it is not necessary to relax the criteria for determining outliers in each pie number space, a single pie number A higher coefficient of determination is more likely to be maintained than relaxing the outlier criteria in the number space.
  • FIGS. 36 to 39 are flowcharts showing an example of the second phenomenon prediction processing (step S2) by the integrated pie number prediction model method.
  • step S2 the steps common to the first phenomenon prediction process S1 are given the same step numbers as those in FIGS. processing will be mainly described.
  • step S100 an initial pie number transformation matrix P0 , a learning target physical quantity data set Q train , and a prediction target physical quantity explanatory variable data set X pred are input. Then, in step S110, a learning data density improving process is performed to improve the data density of the learning target physical quantity data set Q train .
  • the initial pie number transformation matrix P0 input in step S100 is subjected to basic row transformation and simplification to create multiple pie number transformation matrices Pj . do.
  • Random numbers may be used when creating a plurality of pie number transformation matrices Pj .
  • the plurality of pie number conversion matrices Pj may intentionally include a specific pie number conversion matrix, or include a pie number conversion matrix created based on the knowledge of a data analyst. You may do so.
  • step S31 a plurality of pie number prediction models F pred,j and a plurality of outlier determination models f od are obtained from the learning target physical quantity data set Q train using a plurality of pie number transformation matrices P j . , j is performed.
  • FIG. 37 is a flow chart showing an example of integrated model creation processing (step S31).
  • step S310 a pie number conversion matrix P for processing is sequentially selected from a plurality of pie number conversion matrices Pj , and by performing a loop process that repeats steps S300 and S302, a plurality of pie number conversion matrices Pj A plurality of corresponding outlier determination models f od,j are created.
  • step S61 using the plurality of pie number conversion matrices Pj created in step S21 and the plurality of outlier determination models fod,j , for the prediction target physical quantity explanatory variable data set X pred Then, integrated model evaluation processing is performed to calculate at least one of the integrated predictability rate TRP and the unpredictability rate TRU .
  • FIG. 38 is a flow chart showing an example of integrated model evaluation processing (step S61).
  • step S600 the prediction target physical quantity explanatory variable data vectors x pred included in the prediction target physical quantity explanatory variable data set X pred are sequentially selected.
  • step S600 the prediction target physical quantity explanatory variable data vectors x pred included in the prediction target physical quantity explanatory variable data set X pred are sequentially selected.
  • step S61 the prediction target physical quantity explanatory variable data vectors x pred included in the prediction target physical quantity explanatory variable data set X pred are sequentially selected.
  • the pie number conversion matrix P for processing and the outlier determination model f od for processing from the value determination models f od and j and performing double loop processing that repeats S610 to S613
  • An outlier determination process using each of a plurality of outlier determination models f od,j is performed on each of the vectors x pred .
  • step S621 based on the determination result of the outlier determination process using each of the plurality of outlier determination models f od,j for each of the prediction target physical quantity explanatory variable data vectors x pred , integrated prediction is possible.
  • the pie number transformation matrix P j determined to be predictable with respect to the total number of physical quantity explanatory variable data vectors x pred (total number of X pred ) included in the physical quantity explanatory variable data set X pred to be predicted is at least 1.
  • the integrated predictability rate TRP is calculated.
  • the integrated predictability rate TRU is calculated for the total number of physical quantity explanatory variable data vectors x pred (total number of X pred) contained in the physical quantity explanatory variable data set X pred to be predicted.
  • the number of the prediction target physical quantity explanatory variable data vectors x pred (total number of X pred ) that does not have a pie number transformation matrix P j determined to be predictable
  • the integrated unpredictability rate TRU is calculated. That is, the integrated predictability rate TRP and the integrated unpredictability rate TRU are calculated by the following [Equation 21].
  • step S621 not only the integrated predictability rate TRP and the integrated unpredictability rate TRU , but also the formula [Equation 14 ] is used to calculate the predictability rate Rp and At least one of the unpredictability rate RU may be calculated, and at least one of the average predictability rate ARP and the unpredictability rate ARU may be calculated as their average value. .
  • step S320 pie number selection processing is performed to select a pie number conversion matrix Pj that satisfies a predetermined selection condition from among the plurality of pie number conversion matrices Pj created in step S21. conduct.
  • a predetermined selection condition for example, a pie number conversion matrix P j that maximizes the total number of physical quantity explanatory variable data vectors x inlier, j to be predicted that are determined to be predictable in the outlier determination process.
  • Choose a pi-number transformation matrix P j that minimizes the total number of pi-number prediction models F pred,j from combinations of .
  • the physical quantity explanatory variable data vectors x pred,0 , x pred,1 , x pred,2 , x pred,4 are predictable by at least one pie number transformation matrix P 0 to P 4 .
  • the physical quantity explanatory variable data set Included in X INLIER is included in the physical quantity explanatory variable data set X OUTLIER because it is unpredictable by any of the pie number transformation matrices P 0 -P 4 .
  • the physical quantity explanatory variable data vectors x pred,0 , x pred,1 , x pred,2 , x pred,4 included in the physical quantity explanatory variable data set X INLIER are all predicted by the pie number conversion matrices P 1 and P 4 Since it is possible, the other pie number transformation matrices P0 , P2 , P3 have no effect on the integrated predictability rate TRP . Therefore, in the example of Table 4, two pie number conversion matrices P 1 and P 4 are selected in step 320 (pi number selection processing), and two pie number conversion matrices are selected in step S 300 to be described later. Since only the two pie number prediction models F pred,1 and F pred,2 are created using only the matrices P 1 and P 4 , the model creation work can be made more efficient.
  • step S330 the pie number conversion matrix P for processing is sequentially selected from the pie number conversion matrix Pj selected in step S320, and by performing loop processing that repeats steps S300 and S303, the selection in step S320 is performed. Create a pie-number prediction model F pred,j corresponding to the resulting pie-number transformation matrix P j .
  • step S41 a plurality of pie number transformation matrices Pj , a plurality of pie number prediction models Fpred,j corresponding to the plurality of pie number transformation matrices Pj, and a plurality of outliers
  • the judgment model f od,j an integrated model prediction process is performed for predicting an unknown physical quantity target variable data set Y pred for the physical quantity explanatory variable data set X pred to be predicted.
  • the pie number conversion matrix P j selected in step S320 is used as the plurality of pie number conversion matrices P j here. Also, if step S320 is omitted, the pie number transformation matrix Pj created in step S21 is used.
  • FIG. 39 is a flow chart showing an example of integrated model prediction processing (step S41).
  • step S400 the prediction target physical quantity explanatory variable data vectors x pred included in the prediction target physical quantity explanatory variable data set X pred are sequentially selected.
  • the pie number conversion matrix P for processing, the pie number prediction model F pred and the outlier judgment model f od are sequentially selected from the number prediction model F pred ,j and the outlier judgment model f od, j , and steps S410 to S421 are repeated.
  • double loop processing calculation processing using each of a plurality of pie number prediction models F pred,j is performed for each prediction target physical quantity explanatory variable data vector x pred .
  • step S430 when there are a plurality of pie number transformation matrices Pj determined to be predictable in the outlier determination process for the prediction target physical quantity explanatory variable data vector x inlier,i , a plurality of the pie number transformation information Predicted value synthesizing processing for synthesizing a plurality of unknown physical quantity target variable data y inlier,i calculated by performing calculation processing using each of P j is performed for each physical quantity explanatory variable data vector x pred to be predicted. do.
  • the average value of the physical quantity target variable data y inlier,i may be calculated, or outlier determination may be performed. may be calculated using weighting considering the evaluation value (degree of deviation) of .
  • the average value of the predicted value y pred for x pred,2 by the pie number transformation matrix P 1 and the predicted value y pred for x pred ,2 by the pie number transformation matrix P 4 is the prediction target. physical quantity explanatory variable data vector x pred. 2 as unknown physical quantity target variable data y pred .
  • the physical quantity explanatory variable data vector x pred on the side where the evaluation value for outlier determination is less than the reference value but deviates relatively greatly has a small data density around it, so the pie number prediction model F pred, The prediction accuracy by j tends to deteriorate.
  • the evaluation value for outlier determination is small, the prediction accuracy tends to be high. Therefore, if multiple predicted values are combined as an average value or a weighted value, the risk of accidentally reflecting only predicted values with poor prediction accuracy is reduced, and thus an improvement in prediction accuracy can be expected. can.
  • FIG. 40 is a diagram showing the results of verification of prediction performance based on a comparison between the predicted value of the physical quantity objective variable by the integrated pie number prediction model method and the true value of the physical quantity objective variable.
  • the predictability rate R P by the pie number conversion matrix P1 alone was 19.6%, and the coefficient of determination was 0.998 (5.3.1 above (Fig. 15 (a) (same as the result of ).
  • the average value of the predictability rate R P (average predictability rate AR P ) by each of the pie number conversion matrices P 0 to P 9 was 20.5%.
  • the integrated predictability rate TR P determined to be predictable by at least one pie number transformation matrix P j among the pie number transformation matrices P 0 to P 9 is 36. improved to 0%.
  • the average value of the prediction values using the pie number transformation matrix determined to be predictable among the pie number transformation matrices P 0 to P 9 is calculated, and as a result, the coefficient of determination is 0.993. became.
  • FIG. 41 is a diagram showing the results of predictive performance verification based on the comparison between the predicted value of the physical quantity objective variable by the integrated pie number prediction model method and the true value of the physical quantity objective variable.
  • the predictability rate R P by the pie number conversion matrix P 0 alone was 4.7%, and the coefficient of determination was 0.992 (see 5.3.2 above (see FIG. 20 (a) ).
  • the average value of the predictability rate R P (average predictability rate AR P ) for each of the pie number transformation matrices P 0 to P 9 was 5.0%.
  • the integrated predictability rate TR P determined to be predictable by at least one pie number transformation matrix P j among the pie number transformation matrices P 0 to P 9 is 11. improved to 8%.
  • the average value of the prediction values using each of the pie number transformation matrices P 0 to P 9 was calculated, and as a result, the coefficient of determination was 0.984.
  • step S110 a new physical quantity data vector q new1,i is added to the learning target physical quantity data set Q train in the learning data density improvement process (step S110).
  • the new physical quantity data vector q new1,i is created based on the physical quantity prediction model F train , and exists in the interpolation range of the original learning target physical quantity data set Q train . Therefore, in the learning data density improvement process, by improving the data density of the learning target physical quantity data set Q train , there is an effect of improving the accuracy of outlier determination . cannot necessarily be expected to improve the
  • the physical quantity objective variable data predicted in the second phenomenon prediction process S2 is applied to the physical quantity explanatory variable data vector x inlier,i determined to be predictable in the outlier determination process.
  • One or a plurality of new physical quantity data vectors q new2 , i that are a set of y inlier,i and the relevant variable explanatory variable data vector x inlier ,i are added to the learning target physical quantity data set Q train .
  • the second phenomenon prediction process S2 is performed in the same manner with the learning target physical quantity data set Q train to which the new physical quantity data vector q new2,i is added as the new learning target physical quantity data set Q train .
  • the new physical quantity data vector q new2, i includes those existing in the extrapolation range of the original learning target physical quantity data set Q train .
  • the predictability rate RP and the integrated predictability rate TRP can be improved.
  • FIG. 42 is a flowchart showing an example of the third phenomenon prediction process (step S3) by the iterative integrated pie number prediction model method.
  • steps S3 processes common to the first and second phenomenon prediction processes S1 and S2 are assigned step numbers common to those in FIGS. 7 to 10 and FIGS. , the characteristic processing in the third phenomenon prediction processing S3 will be mainly described.
  • step S100 an initial pie number transformation matrix P0 , a learning target physical quantity data set Q train , and a prediction target physical quantity explanatory variable data set X pred are input. Then, in step S110, a learning data density improving process is performed to improve the data density of the learning target physical quantity data set Q train .
  • step S120 it is determined whether or not a predetermined repetition condition is satisfied, and while the repetition condition is satisfied, step S31 (integrated model creation processing), step S41 (integrated model prediction processing), step S70 (learning data). additional processing) is performed to predict an unknown physical quantity target variable data set Y pred for the prediction target physical quantity explanatory variable data set X pred .
  • the iteration condition is basically determined by the upper limit value N (for example, 20 times) of the number of iterations. It may be determined by the upper limit of the predictability rate TRP , or it may be when the data analyst accepts an input operation for ending the loop processing.
  • step S31 using a plurality of pie number transformation matrices Pj , a plurality of pie number prediction models F pred are obtained from the learning target physical quantity data set Q train 0 after step S110 has been performed. , j and a plurality of outlier determination models f od,j are created, and in step S41, using the pie number prediction model F pred,j and the outlier determination model f od,j created in step S31 , an unknown physical quantity target variable data set Y pred is predicted for a physical quantity explanatory variable data set X pred to be predicted.
  • step S70 the unknown physical quantity target variable data y inlier,i predicted for the prediction target physical quantity explanatory variable data vector x inlier,i in step S41, and the physical quantity explanatory variable data vector x inlier,i
  • a training data addition process is performed to add one or a plurality of new physical quantity data vectors q new2,i in pairs to the learning target physical quantity data set Q train 0 .
  • the new physical quantity data vector q new2, i is determined to be predictable in the outlier determination process.
  • a new physical quantity data set Q INLIER that is a set of the unknown physical quantity explanatory variable data set Y INLIER 0 predicted for the predictable physical quantity explanatory variable data set X INLIER 0 and the physical quantity explanatory variable data set X INLIER 0 .
  • a new learning target physical quantity data set Q train 1 is created.
  • step 31 the second loop processing is performed using the new physical quantity data set Q train 1 to be learned, and a plurality of iterations (for example, N corresponding to the upper limit of the number of iterations) are performed while the iteration condition is satisfied. times), the same process is repeated.
  • a plurality of iterations for example, N corresponding to the upper limit of the number of iterations
  • the integrated pie number prediction model method that is, by repeatedly performing step S31 (integrated model creation processing) and step S41 (integrated model prediction processing)
  • a series of processes by the iterative integrated pie number prediction model method shall be represented by the following [Math. 23] formula by introducing a function “f ⁇ N models ”.
  • FIG. 43 is a diagram showing changes in the predictability rate and the coefficient of determination when loop processing is performed by the iterative integrated pie number prediction model method.
  • the average predictability rate AR P is calculated as the average value of the predictability rates R P0 -R P19 for each of the 20 pie number conversion matrices P 0 -P 19 .
  • the average predictability rate ARP was 5.0%
  • the integrated predictability rate TRP was 13.3%
  • the coefficient of determination was 0.982.
  • the average predictability rate ARP was 17.8%
  • the integrated predictability rate TRP was 38.4%
  • the coefficient of determination was 0.924.
  • the coefficient of determination by conventional machine learning under similar evaluation conditions is 0.627 (same as the result of 5.3.2 (see FIG. 21) above), and the lower limit of the vertical axis in FIG. is set to
  • the average predictability rate ARP is lower than the integrated predictability rate TRP , and the difference between the two can be regarded as the effect of expanding the prediction range by the integrated pie number prediction model method.
  • the rate TRP increased.
  • the coefficient of determination decreases gradually, but the prediction accuracy remains high compared to conventional machine learning.
  • the cause of the decrease in the coefficient of determination is that the prediction value by each pie number prediction model F pred,j includes an error due to the degree of completion of the pie number prediction model F pred,j , but new physical quantity data based on the prediction value It is inferred that the errors are accumulated as the vector q new2,i is added to the learning target physical quantity data set Q train for each loop processing.
  • the outlier determination by each outlier determination model f od,j it is determined that the prediction target physical quantity explanatory variable data vector x pred distributed in an area with low data density is not an outlier. It is possible that the prediction accuracy of the number prediction model F pred,j has deteriorated. Therefore, by setting a strict reference value for outlier determination, it is expected that the expansion of the prediction range and deterioration of the coefficient of determination will be moderated.
  • the prediction by the iteratively integrated pie number prediction model method can expand the prediction range while maintaining the prediction accuracy compared to the prediction by the pie number prediction model method with relaxed outlier judgment criteria.
  • the optimum solution that satisfies predetermined optimization conditions is searched for by cooperating with any one of the first to third phenomenon prediction processes S1 to S3. Realize the function.
  • the first to third phenomenon prediction processes S1 to S3 even if the candidate for the design value of the new product is an outlier (extrapolation) with respect to the design value of the past product in the physical quantity space, the past in the pie number space If it is determined that the design value of the product is not an outlier (predictable), it can be determined that the phenomenon to be considered for the product is a proven design value.
  • FIG. 44 is a functional explanatory diagram showing an example of the optimum solution search processing S4.
  • the optimum solution search process S4 performs first to third prediction of one or more unknown physical quantity target variable data y pred using one or more prediction target physical quantity explanatory variable data vectors x pred as the optimum solution candidate.
  • An optimum solution candidate is determined based on phenomenon prediction processes S1 to S3, optimization conditions, and one or more unknown physical quantity target variable data y pred predicted by the first to third phenomenon prediction processes S1 to S3.
  • the optimum solution is searched for by repeating the candidate creation process S5 of evaluating and creating new candidates (either one or a plurality of candidates) based on the results of the evaluation.
  • the first to third phenomenon prediction processes S1 to S3 include a physical quantity data set Q train to be learned, which is data of past products, a pie number conversion matrix P obtained from the data of past products, and a design of a new product.
  • a physical quantity data set Q train to be learned which is data of past products
  • a pie number conversion matrix P obtained from the data of past products
  • a design of a new product By inputting the physical quantity explanatory variable data vector x pred to be predicted, which is a candidate for the value (optimal solution of the explanatory variable), the unknown to predict the physical quantity target variable data vector y pred of .
  • the optimization condition that defines the optimization, minimization, etc.) and the distribution area of the pie number space obtained from the past product data are input as the constraint condition when searching for the optimum solution candidate.
  • the candidate creation process S5 evaluates the optimum solution candidate based on the optimization conditions and the unknown physical quantity target variable data y pred , and evaluates the candidate under the constraint conditions by an optimization algorithm such as a genetic algorithm.
  • a new optimum solution candidate is created so as to obtain a higher result, and is output to the first to third phenomenon prediction processes S1 to S3. If the evaluation result of the optimum solution candidate satisfies the optimization condition, the optimum solution candidate at that time is output as the final design value of the new product.
  • a pie number automatic generation process S6 for automatically generating a pie number from the learning target physical quantity data set Q train is combined, and the pie number conversion matrix P generated by the pie number automatic generation process may be used to perform the prediction by the phenomenon prediction processes S1 to S3.
  • the pie number automatic generation process S6 can apply the technology disclosed in Japanese Patent Application No. 2021-126294 filed by the applicant of the present application, and the contents disclosed in the specification and drawings of Japanese Patent Application No. 2021-126294. The entirety is incorporated herein by reference.
  • the phenomenon prediction processes S1 to S3 by the data analysis method 100 can also be applied to predetermined phenomena other than physical phenomena.
  • the definition of data used in the data analysis method 100 and the phenomenon prediction processes S1 to S3 can be applied.
  • the phenomenon prediction processes S1 to S3 are performed on the prediction target physical quantity explanatory variable data vector x pred in a state where the physical quantity target variable data y pred is unknown.
  • the phenomenon prediction processes S1 to S3 even if the physical quantity target variable data y is in a known state, the known physical quantity target variable data y is assumed to be in an unknown state. is assumed to be unknown for the physical quantity explanatory variable data vector x pred paired with the physical quantity objective variable data y of the physical quantity explanatory variable data vector x Assuming that something is unknown) physical quantity target variable data y pred may be predicted.
  • the prediction target in the phenomenon prediction processes S1 to S3 is a plurality of physical quantity predictor variable data vectors x pred included in the physical quantity predictor variable data set X pred . It may be the explanatory variable data vector x pred .
  • the loop processing (steps S400, S600) for the physical quantity explanatory variable data set X pred may be omitted, or the loop processing (steps S400, S600) may be performed once. You may do so.
  • the phenomenon prediction processes S1 to S3 perform the calculation process on the physical quantity explanatory variable data vector x inlier,i (X inlier ) determined to be predictable in the outlier determination process (step S411: Yes).
  • the physical quantity explanatory variable data vector x outleir (X outlier ) may be calculated by performing the same calculation process.
  • the outlier determination processing steps S411 to S413 ) may be omitted, and the unknown physical quantity target variable data y pred ( Y pred ) may be calculated.
  • the order of each process may be changed as appropriate, some processes may be omitted, and other processes may be added.
  • the learning data density improvement process step S110
  • the model evaluation process step S60
  • the integrated model evaluation process step S61
  • the pie number selection process step S320
  • the phenomenon prediction processes S1 to S3 are described as being executed by a single data analysis device 1, but each process included in the phenomenon prediction processes S1 to S3 is executed by a plurality of data analysis devices 1. may be executed in a distributed manner.
  • the first data analysis device 1 model creation device
  • the second data analysis device 1 phenomenon prediction device
  • information such as the pie number prediction model F pred created by the first data analysis device 1 and the outlier determination model f od is transferred to the second data via an arbitrary communication network or storage medium. It may be provided to the analysis device 1 .
  • Various processing results in the phenomenon prediction processes S1 to S3 of the above embodiment may be output on a display screen or the like via the output unit 13, or may be stored in the storage unit 11 in an arbitrary data format. , may be transmitted to the device via the communication unit 14 .
  • the processing result includes, for example, the pie number prediction model F pred and the outlier determination model f od created by the model creating process (step S30) or the integrated model creating process (step S31), the model evaluation process (step S60) or the integrated Predictability rate RP , unpredictability rate RU, integrated predictability rate TRP and unpredictability rate TRU calculated in model evaluation processing (step S61), model prediction processing (step S40) or integrated model prediction It includes the calculation result of the unknown physical quantity target variable data y_pred predicted in the process (step S41). Further, the processing result may include diagrams and graphs (FIGS. 11 to 33, 40, 41, and 43) and the like for explaining the verification result of the prediction performance.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】予測対象の説明変数に対して未知の目的変数を予測するときの予測性能を向上させることを可能とするデータ解析方法を提供する。 【解決手段】現象予測処理S1は、予測対象の変量説明変数データベクトルxpredに対して未知の変量目的変数データypredを予測する処理として、学習対象の変量データセットQtrainとパイナンバー変換情報Pとに基づいて、パイナンバー予測モデルFpredを作成するモデル作成処理S30と、変量説明変数データベクトルxpredをパイナンバー説明変数データベクトルξpredに変換し、そのパイナンバー説明変数データベクトルξpredをパイナンバー予測モデルFpredに入力することでパイナンバー目的変数データηpredを出力し、そのパイナンバー目的変数データηpredから、変量説明変数データベクトルxpredとパイナンバー変換情報Pとに基づいて、変量目的変数データypredを算出するモデル予測処理S40とを行う。

Description

データ解析方法、データ解析装置、及び、データ解析プログラム
 本発明は、データ解析方法、データ解析装置、及び、データ解析プログラムに関する。
 従来、所定の現象に関するデータを解析する際、説明変数と目的変数とからなる教師データを用いて教師あり学習を実行して機械学習モデルを生成することで、予測対象の説明変数に対して未知の説明変数を予測することが知られている(例えば、特許文献1の段落[0077]等参照)。
特開2020-134496号公報
 教師あり学習により複数の教師データから機械学習モデルを生成し、その機械学習モデルを用いて、それらの教師データが分布している範囲、すなわち、内挿範囲に存在する予測対象の説明変数に対して未知の説明変数を予測する場合には、機械学習モデルの予測精度を高精度に実現できることが多い。しかしながら、その内挿範囲に存在しない、すなわち、外挿範囲に存在するような予測対象の説明変数に対して未知の説明変数を予測する場合には、機械学習モデルにその外挿範囲における、説明変数と目的変数との相関関係を特徴付ける情報が含まれていないため、機械学習モデルの予測精度は悪化してしまう。また、教師データの分布に粗密があるような場合には、内挿範囲であっても、その一部の範囲では機械学習モデルの予測精度を高精度に確保できないこともあり得る。
 本発明は、上述した課題に鑑みてなされたものであって、予測対象の説明変数に対して未知の目的変数を予測するときの予測性能を向上させることを可能とするデータ解析方法、データ解析装置、及び、データ解析プログラムを提供することを目的とする。
 上記目的を達成するために、本発明の一態様に係るデータ解析方法は、
 コンピュータを用いて、所定の現象に関するデータを解析するデータ解析方法であって、
 前記現象にて観察される複数の変量の数値データである変量データベクトル(q)であって、目的変数の数値データである変量目的変数データ(y)と、説明変数の数値データである変量説明変数データベクトル(x)とを組とする学習対象の前記変量データベクトル(q)の集合である学習対象の変量データセット(Qtrain)、及び、複数の前記変量からなる変量セット(Q)と、複数の前記変量から変換可能な複数のパイナンバーからなるパイナンバーセット(Π)との関係を前記パイナンバーに含まれる前記変量の指数で定めるパイナンバー変換情報(P)を用いて、1又は複数の予測対象の前記変量説明変数データベクトル(xpred)に対して1又は複数の未知の前記変量目的変数データ(ypred)の予測を行う現象予測処理(S1~S3)を行い、
 前記現象予測処理(S1~S3)は、
  前記学習対象の変量データセット(Qtrain)を、前記パイナンバー変換情報(P)に基づいて、複数の前記パイナンバーの数値データであるパイナンバーデータベクトル(π)であって、前記目的変数から変換可能な前記パイナンバーの数値データであるパイナンバー目的変数データ(η)と、前記説明変数から変換可能な前記パイナンバーの数値データであるパイナンバー説明変数データベクトル(ξ)とを組とする前記パイナンバーデータベクトル(π)の集合であるパイナンバーデータセット(Πtrain)に変換し、その変換した前記パイナンバーデータセット(Πtrain)に基づいて、前記パイナンバー説明変数データベクトル(ξ)を入力とし、前記パイナンバー目的変数データ(η)を出力とするパイナンバー予測モデル(Fpred)を作成するモデル作成処理(S30、S31)と、
  前記予測対象の変量説明変数データベクトル(xpred)を、前記パイナンバー変換情報(P)に基づいて、予測対象の前記パイナンバー説明変数データベクトル(ξpred)に変換し、その変換した前記予測対象のパイナンバー説明変数データベクトル(ξpred)を前記モデル作成処理(S30、S31)により作成された前記パイナンバー予測モデル(Fpred)に入力することで未知の前記パイナンバー目的変数データ(ηpred)を出力し、その出力した前記未知のパイナンバー目的変数データ(ηpred)から、前記予測対象の変量説明変数データベクトル(xpred)と、前記パイナンバー変換情報(P)とに基づいて、前記未知の変量目的変数データ(ypred)を算出する算出処理(S410、S420、S421)を、前記予測対象の変量説明変数データベクトル(xpred)に対して行うことにより、前記予測を行うモデル予測処理(S40、S41)とを行う。
 本発明の一態様に係るデータ解析方法によれば、パイナンバー変換情報を用いることで予測対象の説明変数に対して未知の目的変数を予測するときの予測性能を向上させることができる。
 上記以外の課題、構成及び効果は、後述する発明を実施するための形態にて明らかにされる。
データ解析装置1の一例を示す構成図である。 コンピュータ200の一例を示すハードウエア構成図である。 2つの質点が完全非弾性衝突して一体となって運動するばね質点系の物理現象を示す模式図である。 パイナンバー変換処理によるパイナンバー変換を示す模式図である。 パイナンバー予測モデル法の概要を簡易的な例(物理量qが3個、パイナンバーπが2個)で示す第1の模式図である。 パイナンバー予測モデル法の概要を一般的な例で示す第2の模式図である。 パイナンバー予測モデル法による第1の現象予測処理S1の一例を示すフローチャートである。 モデル作成処理(ステップS30)の一例を示すフローチャートである。 モデル評価処理(ステップS60)の一例を示すフローチャートである。 モデル予測処理(ステップS40)の一例を示すフローチャートである。 物理量データセットA1、A2を示す散布図マトリックスである。 物理量データセットA1、A2をそれぞれパイナンバー変換したパイナンバーデータセットを示す散布図マトリックスである。 物理量データセットA1から作成されたパイナンバー予測モデルFpredの検証結果を示す図である。 物理量データセットA1から作成された外れ値判定モデルfodによる物理量データセットA2の外れ値判定結果(予測可能、又は、予測不可能)を示す散布図マトリックスである。 パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。 従来の物理量回帰モデルによる物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。 物理量データセットA1、A3を示す散布図マトリックスである。 物理量データセットA1、A3をそれぞれパイナンバー変換したパイナンバーデータセットを示す散布図マトリックスである。 物理量データセットA1から作成された外れ値判定モデルfodによる物理量データセットA3の外れ値判定結果(予測可能、又は、予測不可能)を示す散布図マトリックスである。 パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。 従来の物理量回帰モデルによる物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。 物理量データセットB1、A1を示す散布図マトリックスである。 物理量データセットB1、A1をそれぞれパイナンバー変換したパイナンバーデータセットを示す散布図マトリックスである。 物理量データセットB1から作成されたパイナンバー予測モデルFpredの検証結果を示す図である。 物理量データセットB1から作成された外れ値判定モデルfodによる物理量データセットA1の外れ値判定結果(予測可能、又は、予測不可能)を示す散布図マトリックスである。 パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。 従来の物理量回帰モデルによる物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。 物理量データセットC1、A1を示す散布図マトリックスである。 物理量データセットC1、A1をそれぞれパイナンバー変換したパイナンバーデータセットを示す散布図マトリックスである。 物理量データセットC1から作成されたパイナンバー予測モデルFpredの検証結果を示す図である。 物理量データセットC1から作成された外れ値判定モデルfodによる物理量データセットA1の外れ値判定結果(予測可能、又は、予測不可能)を示す散布図マトリックスである。 パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。 従来の物理量回帰モデルによる物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。 学習対象のデータセットA1に対してパイナンバーセットΠex1、Πex2が用いられたときに、予測対象のデータセットA2のうち外れ値でないと判定された物理量説明変数t1e、t2eのヒストグラムをそれぞれ示す図である。 統合パイナンバー予測モデル法の概要を一般的な例で示す模式図である。 統合パイナンバー予測モデル法による第2の現象予測処理S2の一例を示すフローチャートである。 統合モデル作成処理(ステップS31)の一例を示すフローチャートである。 統合モデル評価処理(ステップS61)の一例を示すフローチャートである。 統合モデル予測処理(ステップS41)の一例を示すフローチャートである。 統合パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。 統合パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。 反復統合パイナンバー予測モデル法による第3の現象予測処理S3の一例を示すフローチャートである。 反復統合パイナンバー予測モデル法によるループ処理を行ったときの予測可能率、及び、決定係数の推移を示す図である。 最適解探索処理S4の一例を示す機能説明図である。
 以下、図面を参照して本発明を実施するための実施形態について説明する。以下では、本発明の目的を達成するための説明に必要な範囲を模式的に示し、本発明の該当部分の説明に必要な範囲を主に説明することとし、説明を省略する箇所については公知技術によるものとする。
(1)データ解析装置1の構成と、データ解析方法100の概要
 図1は、データ解析装置1の一例を示す構成図である。データ解析装置1は、所定の現象に関するデータを解析するデータ解析方法100を実行可能な装置であり、例えば、汎用又は専用のコンピュータ(後述の図2参照)で構成される。
 所定の現象では、所定の法則(規則やルールと呼ばれるものも含む)の下で相互に作用する複数の変量が観察され、その観察された変量を数値データとして数値化(デジタル化)し、収集することで、データ解析方法100の解析対象となるデータセットが生成される。所定の法則は、複数の変量が関与するものであれば任意の法則でよく、例えば、物理法則や数学的法則のような法則だけでなく、経済法則、市場法則、心理的法則のような法則も含まれる。
 データ解析装置1は、その主要な構成要素として、制御部10、記憶部11、入力部12、出力部13、及び、通信部14を備える。制御部10は、記憶部11に記憶されたデータ解析プログラム110を実行することで、データ解析部として機能し、データ解析方法100にて行われる第1乃至第3の現象予測処理S1~S3と、最適解探索処理S4とを実行する。記憶部11は、データ解析プログラム110と、データ解析プログラム110で使用される各種のデータとを記憶する他に、例えば、オペレーティングシステム(OS)、他のプログラムやデータ等を記憶する。入力部12は、各種の入力操作を受け付けるとともに、出力部13は、表示画面や音声を介して各種の情報を出力することで、第1乃至第3の現象予測処理S1~S3、及び、最適解探索処理S4のユーザインターフェースとして機能する。通信部14は、有線又は無線のネットワークに接続されて、他の装置(不図示)との間で各種のデータを送受信する。
 データ解析方法100では、所定の現象に関するデータを解析する際、その現象に対応するパイナンバーを利用して第1乃至第3の現象予測処理S1~S3(詳細は後述)が行われる。具体的には、処理対象とする現象で観察される変量と、その変量から変換可能なパイナンバーとの関係を定めるパイナンバー変換情報の一形式であるパイナンバー変換マトリックスP(詳細は後述)を利用して第1乃至第3の現象予測処理S1~S3が行われる。パイナンバー変換情報は、相似則を保ちつつ、変量からパイナンバーへの変換、又は、パイナンバーから変量への逆変換を可能とする情報である。
 データ解析方法100に含まれる第1乃至第3の現象予測処理S1~S3は、パイナンバーの性質を利用して所定の現象を予測する第1乃至第3の現象予測処理S1~S3として、パイナンバー予測モデル法、統合パイナンバー予測モデル法、及び、反復統合パイナンバー予測モデル法をそれぞれ実現する。また、最適解探索処理S4は、第1乃至第3の現象予測処理S1~S3のいずれかと連携することで、所定の最適化条件を満たす最適解を探索する機能を実現する。なお、第1乃至第3の現象予測処理S1~S3は、密接に関連しているため、データ解析方法100は、第1乃至第3の現象予測処理S1~S3を体系的に行うことが好ましいが、第1乃至第3の現象予測処理S1~S3のうち一部の処理(単独でもよいし、任意の組み合わせでもよい)だけを行うものでもよいし、最適解探索処理S4を行わないようにしてもよい。その場合には、データ解析装置1は、その一部の処理を実行する装置として構成され、データ解析プログラム110は、コンピュータ(制御部10)に、その一部の処理を実行させるプログラムとして構成される。
 データ解析方法100は、第1乃至第3の現象予測処理S1~S3において共通する処理として、パイナンバー変換処理を行い、第1乃至第3の現象予測処理S1~S3の処理の過程において、パイナンバー変換処理を行う。なお、第1乃至第3の現象予測処理S1~S3、最適解探索処理S4、及びパイナンバー変換処理の詳細は後述する。
 図2は、コンピュータ200の一例を示すハードウエア構成図である。コンピュータ200は、データ解析装置1を構成する装置の一例であり、汎用又は専用のコンピュータとして構成される。
 コンピュータ200は、図2に示すように、その主要な構成要素として、バス210、プロセッサ212、メモリ214、入力デバイス216、出力デバイス217、表示デバイス218、ストレージ装置220、通信I/F(インターフェース)部222、外部機器I/F部224、I/O(入出力)デバイスI/F部226、及び、メディア入出力部228を備える。なお、上記の構成要素は、コンピュータ200が使用される用途に応じて適宜省略されてもよい。
 プロセッサ212は、1つ又は複数の演算処理装置(CPU(Central Processing Unit)、MPU(Micro-processing unit)、DSP(digital signal processor)、GPU(Graphics Processing Unit)等)で構成され、コンピュータ200全体を統括する制御部10として動作する。メモリ214は、各種のデータ及びプログラム230を記憶し、例えば、メインメモリとして機能する揮発性メモリ(DRAM、SRAM等)と、不揮発性メモリ(ROM)、フラッシュメモリ等とで構成される。
 入力デバイス216は、例えば、キーボード、マウス、テンキー、電子ペン等で構成され、入力部12として機能する。出力デバイス217は、例えば、音(音声)出力装置、バイブレーション装置等で構成され、出力部13として機能する。表示デバイス218は、例えば、液晶ディスプレイ、有機ELディスプレイ、電子ペーパー、プロジェクタ等で構成され、出力部13として機能する。入力デバイス216及び表示デバイス218は、タッチパネルディスプレイのように、一体的に構成されていてもよい。ストレージ装置220は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)等で構成され、記憶部11として機能する。ストレージ装置220は、オペレーティングシステムやプログラム230の実行に必要な各種のデータを記憶する。
 通信I/F部222は、インターネットやイントラネット等のネットワーク240に有線又は無線により接続され、所定の通信規格に従って他のコンピュータとの間でデータの送受信を行う通信部14として機能する。外部機器I/F部224は、カメラ、プリンタ、スキャナ、リーダライタ等の外部機器250に有線又は無線により接続され、所定の通信規格に従って外部機器250との間でデータの送受信を行う通信部14として機能する。I/OデバイスI/F部226は、各種のセンサ、アクチュエータ等のI/Oデバイス260に接続され、I/Oデバイス260との間で、例えば、センサによる検出信号やアクチュエータへの制御信号等の各種の信号やデータの送受信を行う通信部14として機能する。メディア入出力部228は、例えば、DVD(Digital Versatile Disc)ドライブ、CD(Compact Disc)ドライブ等のドライブ装置で構成され、DVD、CD等のメディア(非一時的な記憶媒体)270に対してデータの読み書きを行う。
 上記構成を有するコンピュータ200において、プロセッサ212は、ストレージ装置220に記憶されたプログラム230をメモリ214に呼び出して実行し、バス210を介してコンピュータ200の各部を制御する。なお、プログラム230は、ストレージ装置220に代えて、メモリ214に記憶されていてもよい。プログラム230は、インストール可能なファイル形式又は実行可能なファイル形式でメディア270に記録され、メディア入出力部228を介してコンピュータ200に提供されてもよい。プログラム230は、通信I/F部222を介してネットワーク240経由でダウンロードすることによりコンピュータ200に提供されてもよい。また、コンピュータ200は、プロセッサ212がプログラム230を実行することで実現する各種の機能を、例えば、FPGA(field-programmable gate array)、ASIC(application specific integrated circuit)等のハードウエアで実現するものでもよい。
 コンピュータ200は、例えば、据置型コンピュータや携帯型コンピュータで構成され、任意の形態の電子機器である。また、コンピュータ200は、クライアント型コンピュータでもよいし、サーバ型コンピュータやクラウド型コンピュータでもよい。
 次に、上記構成を有するデータ解析装置1により行われるデータ解析方法100の第1乃至第3の現象予測処理S1~S3の詳細について、図3乃至図43を参照して説明する。本実施形態では、所定の現象として、後述の図3に示す「2つの質点が完全非弾性衝突して一体となって運動するばね質点系の物理現象」(以下「ばね質点系完全非弾性衝突現象」という)を例にして、複数の変量として、複数の物理量が観察される場合を中心に説明する。
(2)物理量及びパイナンバーと、パイナンバー変換マトリックスPについて
 図3は、2つの質点が完全非弾性衝突して一体となって運動するばね質点系の物理現象を示す模式図である。ばね質点系完全非弾性衝突現象は、図3に示すように、ばね定数kのばねに連結され、初期位置x1s、初速度v1sが与えられて自由振動している質量mの第1質点に、時刻t=t1eにおいて、初速度ゼロ、質量mの第2質点が完全非弾性衝突し、その後、第1質点及び第2質点が一体となって運動し、時刻t=t2eにおいて、第1質点及び第2質点が位置x2eにいる現象を対象とする。
 ばね質点系完全非弾性衝突現象にて観察される複数の物理量qv1~qv8からなる物理量の集合は、以下の[数1]式に示すように、「物理量セットQ」で表すものとする。
Figure JPOXMLDOC01-appb-M000001
 ばね質点系完全非弾性衝突現象において、位置x2sが予測対象の物理量であるとすると、位置x2sを「物理量目的変数」、他の物理量を「物理量説明変数」という。本実施形態では、物理量目的変数(位置x2s)は、物理量セットQの第1番目の要素qに配置されるものとする。
 また、ばね質点系完全非弾性衝突現象において、物理量と、それぞれの物理量の基本単位の指数(次元)の関係は、以下の[表1]で表される。基本単位は、質量の[kg]、時間の[s]及び、質量の[m]であり、物理量目的変数は、[表1]の第1列(数値部分の左端の列)に配置されるものとする。
Figure JPOXMLDOC01-appb-T000002
 [表1]における数値部分のみを抽出し、以下の[数2]式に示すように、行列の形式で表したものを、「次元マトリックスD」という。
Figure JPOXMLDOC01-appb-M000003
 ここで、[数2]式に示す次元マトリックスDに対して次元解析を行うことにより、以下の[数3]式に示すように、5個のパイナンバーπv1~πv5が求められる。これら5個のパイナンバーπv1~πv5からなるパイナンバーπの集合{πv1,πv2,πv3,πv4,πv5}を、「パイナンバーセットΠ」で表すものとする。本実施形態では、物理量目的変数を含むパイナンバーπv1は、第1番目のみの要素に配置されるものとする。
Figure JPOXMLDOC01-appb-M000004
 ばね質点系完全非弾性衝突現象にて観察される複数の物理量qからなる物理量セットQと、物理量から変換可能な1又は複数のパイナンバーπからなるパイナンバーセットΠとの関係は、パイナンバー変換情報として、以下の[表2]で表される。本実施形態では、物理量目的変数は、第1列(数値部分の左端)に、物理量目的変数が含まれるパイナンバーは、第1行(数値部の上端)に配置されるものとする。
Figure JPOXMLDOC01-appb-T000005
 パイナンバー変換情報が表形式で表された[表2]における数値部分のみを抽出し、以下の[数4]式に示すように、行列形式で表したものを、「パイナンバー変換マトリックスP」という。また、パイナンバー変換マトリックスPのi行を、「パイナンバー変換ベクトルp」という。本実施形態では、パイナンバー変換情報の形式として、「パイナンバー変換マトリックスP」を採用して説明するが、パイナンバー変換情報は、[表2]や[数4]式で表される情報と同等の情報を含むものであれば、表形式や行列形式以外の任意の形式で表現されるものでもよい。
Figure JPOXMLDOC01-appb-M000006
 パイナンバー変換マトリックスPに対して行基本変形を施すことにより、パイナンバーπを変形することができる。行基本変形は、連立1次方程式の解法にも用いられ、例えば、(1)ある行を定数倍する、(2)ある行を定数倍したものを、別の行に加える、(3)ある行と別の行とを入れ換える、という手順で行われる。
 パイナンバー変換マトリックスPに対する行基本変形では、(1)は、パイナンバーのべき演算、(2)は、あるパイナンバーと共通の変数を持つ別のパイナンバーを用いた変数の置き換え、(3)は、パイナンバーの順序の入れ替えにそれぞれ相当する。このような手順によりパイナンバーπの形は変わることになるが、パイナンバーπの本質的な意味が変わるものではない。これは、連立1次方程式の解が変わらないことと同様である。
 [数3]式に示すパイナンバーπv1~πv5に対する行基本変形の例は、以下の[数5]式で表される。[数5]式では、(1)の例として、πv4を3乗し、(2)の例として、πv2のt1eを、πv3を用いてt2eに置き換え、(3)の例として、πv3とπv5とを入れ替えることにより、パイナンバーπv1~πv5としての意味が変わらないことを示している。
Figure JPOXMLDOC01-appb-M000007
 [数5]式における第1式と第2式は、バッキンガムのパイ定理が示すパイナンバーπの関係式Fを表す。第3式の(m/mは、F’の中で3乗根の演算がなされることにして、第2式から変形された。第4式の(t2e/t1eは、t2e/t1eの関数であるので、πV3に代表させて第5式では消去された。第3式から第5式までの変形は、パイナンバー変換マトリックスPにおいて、パイナンバー変換ベクトルpを2倍したものを、パイナンバー変換ベクトルpに加える変形に相当する。第6式では、第3引数と第5引数が入れ替えられたが、関数F’’の定義として変わるものではない。パイナンバー変換マトリックスPにおいては、パイナンバー変換ベクトルpとパイナンバー変換ベクトルpの入れ替え操作に相当する。F’及びF’’は、Fとは形が異なるが、第3式から第6式は、第1式を変形した式であるので、それぞれの引数は、第2式と同様にパイナンバーとして定義されることができる。
 一般に、行列は行基本変形により階段行列化することができるので、パイナンバー変換マトリックスPの第2列以降の列を並べ替えたうえで階段行列化すれば、パイナンバーπが変形され、かつ、物理量目的変数を含むパイナンバーπv1は、常に第1番目のみに配置されたパイナンバー変換マトリックスPが得られる。さらに、得られたパイナンバー変換マトリックスPに簡約化を施せば、複雑さが低減される。
(3)データ構造の定義について
 次に、データ解析方法100にて取り扱われるデータに関するデータ構造の定義について説明する。複数(n個)の物理量qからなる物理量セットQに対して特定の物理現象(条件)を表す数値がそれぞれ代入された数値データを、以下の[数6]式に示すように定義する。具体的には、複数の物理量qからなる物理量セットQに対して数値データがそれぞれ代入された要素{q,q,…,q}を持つベクトルを、「物理量データベクトルq」と定義する。そのため、物理量データベクトルqは、物理量セットQに対応したデータであり、物理量qの数値データである「物理量データ」からなる。複数の物理量データベクトルqの集合として、複数の物理量データベクトルqを縦に並べた二次元配列を、「物理量データセットQ」と定義する。
 また、複数の物理量qが、目的変数と、1又は複数の説明変数からなる説明変数セットとで構成される場合、物理量データベクトルqは、目的変数の数値データである「物理量目的変数データy」と、説明変数の数値データである説明変数データからなる「物理量説明変数データベクトルx」とを組として構成される。物理量目的変数データyの集合として、複数の物理量目的変数データyを縦に並べた一次元配列を、「物理量目的変数データセットY」と定義する。物理量説明変数データベクトルxの集合として、複数の物理量説明変数データベクトルxを縦に並べた二次元配列を、「物理量説明変数データセットX」と定義する。
Figure JPOXMLDOC01-appb-M000008
 複数(k個)のパイナンバーπからなるパイナンバーセットΠに対しても、物理量qと同様に、特定の物理現象(条件)を表す数値がそれぞれ代入された数値データを、以下の[数7]式に示すように定義する。具体的には、複数のパイナンバーπからなるパイナンバーセットΠに対して数値データがそれぞれ代入された要素{π,π,…,π}を持つベクトルを、「パイナンバーデータベクトルπ」と定義する。そのため、パイナンバーデータベクトルπは、パイナンバーセットΠに対応したデータであり、パイナンバーπの数値データである「パイナンバーデータ」からなる。複数のパイナンバーデータベクトルπの集合として、複数のパイナンバーデータベクトルπを縦に並べた二次元配列を、「パイナンバーデータセットΠ」と定義する。
 また、複数のパイナンバーπが、目的変数と、1又は複数の説明変数からなる説明変数セットとで構成される場合、パイナンバーデータベクトルπは、目的変数の数値データである「パイナンバー目的変数データη」と、説明変数の数値データである説明変数データからなる「パイナンバー説明変数データベクトルξ」とを組として構成される。パイナンバー目的変数データηの集合として、複数のパイナンバー目的変数データηを縦に並べた一次元配列を、「パイナンバー目的変数データセットΗ」と定義する。パイナンバー説明変数データベクトルξの集合として、複数のパイナンバー説明変数データベクトルξを縦に並べた二次元配列を、「パイナンバー説明変数データセットΞ」と定義する。
Figure JPOXMLDOC01-appb-M000009
 n個の物理量q、及び、k個のパイナンバーπに対するパイナンバー変換マトリックスPを、以下の[数8]式に示すように定義する。また、パイナンバー変換マトリックスPのi行を、「パイナンバー変換ベクトルp」と定義する。
Figure JPOXMLDOC01-appb-M000010
(4)パイナンバー変換処理について
 図4は、パイナンバー変換処理によるパイナンバー変換を示す模式図である。パイナンバー変換処理は、パイナンバー変換マトリックスPに基づいて、物理量データベクトルqをパイナンバーデータベクトルπに変換する処理である。パイナンバー変換処理によるパイナンバー変換を、以下の[数9]式で表すものとする(図4(a)参照)。
Figure JPOXMLDOC01-appb-M000011
 パイナンバーデータベクトルπは、物理量データベクトルqを構成する物理量データの各値を、パイナンバーデータベクトルπを構成するパイナンバーデータの各定義式に代入することにより、一意に変換される。例えば、パイナンバーデータの定義式を示す[数3]式に対して、8個の物理量データの各値を代入することにより、全てのパイナンバーデータが一意に決定され、パイナンバーデータベクトルπに変換される。
 また、パイナンバー変換処理が、パイナンバー変換マトリックスPに基づいて、物理量データセットQに含まれる物理量データベクトルqの各々をパイナンバーデータベクトルπにそれぞれ変換する処理を、以下の[数10]式で表すものとする(図4(b)参照)。
Figure JPOXMLDOC01-appb-M000012
(5-1)パイナンバー予測モデル法の基本原理について
 次に、パイナンバー予測モデル法による第1の現象予測処理S1について説明する。第1の現象予測処理S1は、所定の現象にて成り立つ理論式は不明であるが、その現象にて観察された学習対象の物理量データセットQtrainと、その現象を表すパイナンバーπ(例えば、初期のパイナンバー変換マトリックスP)が得られている状況において、そのパイナンバーπを用いて、1又は複数の予測対象の物理量説明変数データベクトルxpred(複数の場合は、予測対象の物理量説明変数データセットXpred)に対して1又は複数の未知の物理量目的変数データypred(複数の場合は、未知の物理量目的変数データセットYpred)の予測を行う処理である。その際、予測対象の物理量説明変数データベクトルxpredは、学習対象の物理量データセットQtrainの内挿範囲に存在するものに限られず、学習対象の物理量データセットQtrainの外挿範囲に存在するものを含む。
 なお、第1の現象予測処理S1で用いられるパイナンバーπ、すなわち、処理用のパイナンバー変換マトリックスPは、次元解析により得られた初期のパイナンバー変換マトリックスでもよいし、初期のパイナンバー変換マトリックスから後述のパイナンバー作成処理(ステップS20)で作成されたパイナンバー変換マトリックスでもよいし、データ解析者の知見に基づいて作成されたパイナンバー変換マトリックスでもよい。
 第1の現象予測処理S1は、その基本的な処理内容として、処理用のパイナンバー変換マトリックスPを作成するパイナンバー作成処理(ステップS20)と、学習対象の物理量データセットQtrainを、パイナンバー変換マトリックスPに基づいて、学習対象のパイナンバーデータセットΠtrainに変換(パイナンバー変換)し、その変換したパイナンバーデータセットΠtrainに基づいて、パイナンバー説明変数データベクトルξを入力とし、パイナンバー目的変数データηを出力とするパイナンバー予測モデルFpredを作成するモデル作成処理(ステップS30)と、予測対象の物理量説明変数データベクトルxpredを、パイナンバー変換マトリックスPに基づいて、予測対象のパイナンバー説明変数データベクトルξpredに変換(パイナンバー変換)し、その変換した予測対象のパイナンバー説明変数データベクトルξpredをパイナンバー予測モデルFpredに入力することで未知のパイナンバー目的変数データηpredを出力し、その出力した未知のパイナンバー目的変数データηpredから、予測対象の物理量説明変数データベクトルxpredと、パイナンバー変換マトリックスPとに基づいて、未知の物理量目的変数データypredを算出する算出処理を、予測対象の物理量説明変数データベクトルxpredに対して行うことにより、未知の物理量目的変数データypredの予測を行うモデル予測処理(ステップS40)とを行う。なお、各処理の詳細は後述する。
 このとき、第1の現象予測処理S1では、予測対象の物理量説明変数データベクトルxpredが、学習対象の物理量データセットQtrainが分布している領域(物理量空間の分布領域)に対して内挿となっている必要はなく、予測対象のパイナンバー説明変数データベクトルξpredが、学習対象のパイナンバーデータセットΠtrainが分布している領域(パイナンバー空間の分布領域)に対して内挿となっている場合には、未知の物理量目的変数データypredの予測が可能となる。
 ここで、2つの物理量qがともに内挿であるためには、少なくとも2つの制約式が必要となる。仮に両方の物理量qが箱型の領域に分布していれば、例えば、min<qv1<max1、min<qv2<maxのように、2つの不等式が必要となる。2つの物理量qが、パイナンバーとして1つに集約されている場合には、その1つのパイナンバーが内挿であるためには、1つの制約式のみで表現される。すなわち、制約式の個数の違いからも、パイナンバー空間において外挿となる確率は、物理量空間において外挿となる確率よりも小さいことが分かる。
 また、パイナンバーπは、物理量qの乗べき積の形をしているので、仮に物理量qの分布が一様であっても、パイナンバーπの分布では粗密が大きくなりやすい。そのため、パイナンバーπを構成する各説明変数に関して内挿か外挿かを判定するためには、最小値や最大値を用いたような簡単な判定手法は機能しない場合が多い。そのため、外れ値を判定する手法を導入し、学習対象のパイナンバー説明変数データセットΞtrainを基準とする外れ値判定モデルfodを用いることが有効である。外れ値を判定する手法には、様々な手法が存在するが、一般的には、データの特性(数や分布の形など)や用途に応じて、外れ値判定の基準値(判定の根拠とする特徴量、厳しさに関する閾値など)を選択・調整して用いるようにすればよい。
 図5は、パイナンバー予測モデル法の概要を簡易的な例(物理量qが3個、パイナンバーπが2個)で示す第1の模式図である。図6は、パイナンバー予測モデル法の概要を一般的な例で示す第2の模式図である。
 図5の例では、物理量説明変数xには、学習対象の説明変数データセットXtrainと、予測対象の物理量説明変数データセットXpredとの間に共通分が存在するが、物理量説明変数xには、学習対象の物理量説明変数データセットXtrainと、予測対象の物理量説明変数データセットXpredとの間に共通部分が存在しない。このように少なくとも1つの物理量説明変数が外挿となる場合、例えば、従来の機械学習により学習対象の物理量データセットQtrainを用いて物理量回帰モデルを作成し、予測対象の物理量説明変数データベクトルxpredから未知の物理量目的変数データypredを予測しても、すべての説明変数が内挿である場合に比べて予測精度は悪化する。
 図5の例では、1個のパイナンバー説明変数ξは、2個の物理量説明変数x1,の比で決まる。独立な2つの軸が1つに合成されるので、確率的に共通部分を持ちやすくなる。そのため、図5に示すx-x平面上では、例えば、傾きx/xが、パイナンバーπに相当するので、学習対象の物理量説明変数データセットXtrainが分布している範囲に原点から2本の接線を引き、それらの間の領域が、パイナンバー空間における内挿範囲となる。したがって、仮に2個の物理量説明変数x1,に共通部分がなくても、パイナンバー空間では共通部分を持つことがあり得る。パイナンバー空間において、学習対象のパイナンバー説明変数データセットΞtrainと、予測対象のパイナンバー説明変数データセットΞpredの共通部分に存在する予測対象のパイナンバー説明変数データベクトルξpred(=ξinlier,i,1)から、パイナンバー予測モデルFpredに基づいて、未知のパイナンバー目的変数データηpred(=ηinlier,i)の値が算出され、その値から、予測対象の物理量説明変数データベクトルxpred(=xinlier,i,1及びxinlier,i,2)と、パイナンバー変換マトリックスPとを用いて、未知の物理量目的変数データypred(yinlier,i)の値が算出される。
 図5では、パイナンバー予測モデル法による未知の物理量目的変数データypred(未知の物理量目的変数データセットYpred)の予測が可能な領域は斜線で示されている。また、図6では、学習対象の物理量説明変数データセットXtrainと、予測対象の物理量説明変数データセットXpredとの共通部分は、物理量説明変数x~xn-1の全てが共通する部分として斜線で示され、学習対象のパイナンバー説明変数データセットΞtrainと、予測対象のパイナンバー説明変数データセットΞpredとの共通部分は、パイナンバー説明変数ξ~ξk-1の全てが共通する部分として斜線で示されている。なお、パイナンバー空間における外れ値判定の設定によっては、学習対象の物理量説明変数データセットXtrainと、予測対象の物理量説明変数データセットXpredとの共通部分にある物理量説明変数データベクトルxpredが外れ値と判定される場合もあるため、予測対象の物理量説明変数データセットXinlierの中に入らない領域も存在するが、この領域内にある物理量説明変数データベクトルxpredは、通常の物理量回帰モデルで予測可能であるので、斜線で表示した。
(5-2)パイナンバー予測モデル法の詳細について
 図7乃至図10は、パイナンバー予測モデル法による第1の現象予測処理(ステップS1)の一例を示すフローチャートである。
 まず、ステップS100では、初期のパイナンバー変換マトリックスPと、学習対象の物理量データセットQtrainと、予測対象の物理量説明変数データセットXpredとが入力される。なお、これらのデータは、記憶部11から読み出したものでもよいし、入力部12を介して入力されたものでもよいし、ネットワークに接続された他の装置から受信したものでもよい。
 ここでは、ステップS100にて入力される学習対象の物理量データセットQtrainは、[数6]式に示すように、物理量目的変数データytrainと、物理量説明変数データベクトルxtrainとを組とする物理量データベクトルqtrainの集合であり、物理量説明変数データセットXtrainと、物理量目的変数データセットYtrainとで構成される場合について説明する。なお、ステップS100では、パイナンバーπに含まれる物理量qの指数の値が大きい場合、パイナンバー変換後のパイナンバーπの値が大きい場合、パイナンバーπの桁の差が大きくなる場合等が想定されるときには、必要に応じて、物理量説明変数データセットXtrainを各物理量説明変数データの最大値で除して正規化する等の学習データ前処理を行うようにしてもよい。
 次に、ステップS110では、学習対象の物理量データセットQtrainのデータ密度を向上させる学習データ密度向上処理を行う。学習データ密度向上処理では、学習対象の物理量データセットQtrainに基づいて、物理量説明変数データベクトルxtrainを入力とし、物理量目的変数データytrainを出力とする物理量予測モデルFtrainを作成する。物理量予測モデルFtrainは、例えば、ニューラルネットワーク(ディープラーニングを含む)を用いた回帰モデルであり、学習対象の物理量データセットQtrainを学習用データとして、物理量説明変数データベクトルxtrainと、物理量目的変数データytrainとの間の相関関係を機械学習することで作成される。なお、物理量予測モデルFtrainは、上記の例に限られず、他の手法やモデルにより作成されたものでもよい。
 そして、学習対象の物理量データセットQtrainの分布範囲に含まれる1又は複数の新たな物理量説明変数データベクトルxnew1,iを物理量予測モデルFtrainに入力することで1又は複数の新たな物理量目的変数データynew1,iを出力し、その出力した新たな物理量目的変数データynew1,iと、新たな物理量説明変数データベクトルxnew1,iとを組とする1又は複数の新たな物理量データベクトルqnew1,iを、学習対象の物理量データセットQtrainに追加する。なお、新たな物理量説明変数データベクトルxnew1,iは、例えば、乱数等により作成してもよいし、学習対象の物理量データセットQtrainが分布している領域の端(輪郭)付近に対応するものを作成してもよい。また、新たな物理量データベクトルqnew1,iの数は、学習対象の物理量データベクトルqtrainの数、物理量説明変数xの個数や分布等に応じて適宜決定すればよい。上記のように、新たな物理量データベクトルqnew1,iを学習対象の物理量データセットQtrainに追加する処理を行うことで、学習対象の物理量データセットQtrainのデータ密度が向上し、学習対象のパイナンバーデータセットΠtrainのデータ密度も向上するため、外れ値判定モデルfodによる外れ値判定の精度を向上させることができる。
 次に、ステップS20では、処理用のパイナンバー変換マトリックスPを作成するパイナンバー作成処理を行う。パイナンバー作成処理では、例えば、ステップS100で入力された初期のパイナンバー変換マトリックスPを、パイナンバーπに含まれる物理量目的変数の指数が特定のパイナンバーπv1を除いて0となるように変形することで、処理用のパイナンバー変換マトリックスPを作成する。したがって、物理量目的変数を含む特定のパイナンバーπv1が、例えば、[表2]に示すように、第1行目のみに配置されるように変形されるものとして説明する。すなわち、[数4]式に示すように、第1行目のパイナンバー変換ベクトルpでは、第1番目の要素が0以外の整数となり、他のパイナンバー変換ベクトルp~pでは、第1番目の要素が0となるように、変形される。
 なお、ステップS20は、ステップS100にて初期のパイナンバー変換マトリックスPが入力される前に実行されてもよいし、初期のパイナンバー変換マトリックスPが、変形後の形を元々有している場合には、ステップS20は省略されてもよい。その場合には、ステップS20以降の各ステップでは、ステップS100にて入力された初期のパイナンバー変換マトリックスPを、処理用のパイナンバー変換マトリックスPとみなして実行すればよい。
 次に、ステップS30では、処理用のパイナンバー変換マトリックスPを用いて、学習対象の物理量データセットQtrainから、パイナンバー予測モデルFpred、及び、外れ値判定モデルfodを作成するモデル作成処理を行う。
 図8は、モデル作成処理(ステップS30)の一例を示すフローチャートである。まず、ステップS300では、学習対象の物理量データセットQtrainを、処理用のパイナンバー変換マトリックスPによりパイナンバー変換することで、学習対象のパイナンバーデータセットΠtrainを生成する。学習対象の物理量データセットQtrainに対するパイナンバー変換処理は、[数10]式と同様に、以下の[数11]式で表される。
Figure JPOXMLDOC01-appb-M000013
 なお、ステップS300では、学習対象のパイナンバーデータセットΠtrainに対して、例えば、Box-Cox変換、Yeo-Johnson変換等のべき乗変換、対数変換、標準化等の学習データ変換処理を行うことで、パイナンバーデータセットΠtrainの分布を整えるようにしてもよい。パイナンバーπは、物理量qの乗べき積の形をしているので、仮に物理量qが一様の分布を有していても、パイナンバー変換後のパイナンバーπの値は、粗密の差がある分布になりやすい。上記のような学習データ変換処理を行うことで、分布の粗密の偏りを低減させて、例えば、外れ値判定モデルfodによる外れ値判定の精度を向上させることができる。
 次に、ステップS302では、学習対象のパイナンバーデータセットΠtrainに含まれるパイナンバー説明変数データセットΞtrainを基準にして、外れ値判定モデルfodを作成する。外れ値判定モデルfodは、例えば、教師なし学習の一種である「Isolation Forest」等の手法により作成される。外れ値判定モデルfodとして、「Isolation Forest」を採用した場合には、外れ値判定の基準値は、「contamination」と呼ばれるパラメータを設定すればよい。「contamination」は、外れ値判定モデルを作成する際の基準データ(ここでは、学習対象の物理量データセットQtrain)に対して外れ値と判定される割合の目安を表すパラメータであるため、その値が大きいほど外れ値と判定されやすくなる。なお、以下の説明では、外れ値判定モデルfodの作成手法は、「Isolation Forest」を採用し、外れ値判定の基準値は、「contamination」に対する値であるものと説明する。
 次に、ステップS60では、処理用のパイナンバー変換マトリックスPと、外れ値判定モデルfodとを用いて、予測対象の物理量説明変数データセットXpredに対して、予測可能率R、及び、予測不可能率Rの少なくとも一方を算出するモデル評価処理を行う。
 図9は、モデル評価処理(ステップS60)の一例を示すフローチャートである。まず、ステップS600では、予測対象の物理量説明変数データセットXpredに含まれる予測対象の物理量説明変数データベクトルxpredを順次選択し、ステップS610~S613を繰り返すループ処理を行うことで、予測対象の物理量説明変数データベクトルxpredの各々に対して、外れ値判定モデルfodを用いた外れ値判定処理を行う。
 ステップS610では、ステップS600で選択した予測対象の物理量説明変数データベクトルxpredを、処理用のパイナンバー変換マトリックスPによりパイナンバー変換することで、予測対象のパイナンバー説明変数データベクトルξpredを生成する。予測対象の物理量説明変数データベクトルxpredに対するパイナンバー変換処理、及び、予測対象の物理量説明変数データセットXpredに対するパイナンバー変換処理は、[数10]式と同様に、以下の[数12]式で表される。
Figure JPOXMLDOC01-appb-M000014
 次に、ステップS611では、予測対象のパイナンバー説明変数データベクトルξpredが、外れ値判定モデルfodの外れ値でないか否かに応じて、その予測対象の物理量説明変数データベクトルxpredに対して未知の物理量目的変数データypredの予測が、パイナンバー変換マトリックスPを用いて可能か否かを判定する。
 ステップS611にて、外れ値判定モデルfodの外れ値でない、すなわち、予測が可能と判定した場合には(S611:Yes)、ステップS612に進み、そのときのパイナンバー説明変数データベクトルξpredをパイナンバー説明変数データベクトルξinlier,iに代入し、そのパイナンバー説明変数データベクトルξinlier,iに対応する物理量説明変数データベクトルxpredを物理量説明変数データベクトルxinlier,iに代入する。なお、予測が可能したパイナンバー説明変数データベクトルξinlier,iの集合をパイナンバー説明変数データセットΞinlierで表し、物理量説明変数データベクトルxinlier,iの集合を物理量説明変数データセットXinlierで表すものとする。
 一方、ステップS611にて、外れ値判定モデルfodの外れ値である、すなわち、予測が不可能と判定した場合には(S611:No)、ステップS613に進み、そのときのパイナンバー説明変数データベクトルξpredをパイナンバー説明変数データベクトルξoutlier,iに代入し、そのパイナンバー説明変数データベクトルξoutlier,iに対応する物理量説明変数データベクトルxpredを物理量説明変数データベクトルxoutlier,iに代入する。なお、予測が不可能と判定したパイナンバー説明変数データベクトルξoutlier,iの集合をパイナンバー説明変数データセットΞoutlierで表し、物理量説明変数データベクトルxoutlier,iの集合を物理量説明変数データセットXoutlierで表すものとする。
 なお、ステップS60において、学習対象のパイナンバー説明変数データセットΞtrainを基準にして作成された外れ値判定モデルfodを用いて、予測対象のパイナンバー説明変数データセットΞpredの外れ値判定を行う処理を、以下の[数13]式で表すものとする。学習対象のパイナンバー説明変数データセットΞtrainは、学習対象の物理量説明変数データセットXtrainからパイナンバー変換マトリックスPにより変換されたものであり、予測対象のパイナンバー説明変数データセットΞpredは、予測対象の物理量説明変数データセットXpredからパイナンバー変換マトリックスPにより変換されたものである。
Figure JPOXMLDOC01-appb-M000015
 次に、ステップS620では、予測対象の物理量説明変数データベクトルxpredの各々に対する外れ値判定処理の判定結果に基づいて、予測可能率R、及び、予測不可能率Rの少なくとも一方を算出する。具体的には、予測対象の物理量説明変数データセットXpredに含まれる物理量説明変数データベクトルxpredの総数(Xpredの総数)に対する、物理量説明変数データセットXinlierに含まれる物理量説明変数データベクトルxinlier,iの総数(Xinlierの総数)の割合に基づいて、予測可能率Rを算出する。また、予測対象の物理量説明変数データセットXpredに含まれる物理量説明変数データベクトルxpredの総数(Xpredの総数)に対する、物理量説明変数データセットXoutlierに含まれる物理量説明変数データベクトルxoutlier,iの総数(Xoutlierの総数)の割合に基づいて、予測不可能率Rを算出する。すなわち、予測可能率R及び予測不可能率Rは、以下の[数14]式により算出される。
Figure JPOXMLDOC01-appb-M000016
 次に、図8に戻ると、ステップS303では、学習対象のパイナンバーデータセットΠtrainに基づいて、パイナンバー説明変数データベクトルξを入力とし、パイナンバー目的変数データηを出力とするパイナンバー予測モデルFpredを作成する。パイナンバー予測モデルFpredは、例えば、ニューラルネットワーク(ディープラーニングを含む)を用いた回帰モデルであり、学習対象のパイナンバーデータセットΠtrainを学習用データとして、パイナンバー説明変数データベクトルξと、パイナンバー目的変数データηとの間の相関関係を機械学習することで作成される。なお、パイナンバー予測モデルFpredは、上記の例に限られず、他の手法やモデルにより作成されたものでもよい。
 次に、図7に戻ると、ステップS40では、処理用のパイナンバー変換マトリックスPと、パイナンバー予測モデルFpredと、外れ値判定モデルfodとを用いて、予測対象の物理量説明変数データセットXpredに対して未知の物理量目的変数データセットYpredの予測を行うモデル予測処理を行う。
 図10は、モデル予測処理(ステップS40)の一例を示すフローチャートである。まず、ステップS400では、予測対象の物理量説明変数データセットXpredに含まれる予測対象の物理量説明変数データベクトルxpredを順次選択し、ステップS410~S421を繰り返すループ処理を行うことで、予測対象の物理量説明変数データベクトルxpredの各々に対して算出処理を行う。なお、算出処理は、ステップS610~S613と同様のステップS410~S413を含むものである。
 ステップS410では、ステップS400で選択した予測対象の物理量説明変数データベクトルxpredを、処理用のパイナンバー変換マトリックスPによりパイナンバー変換することで、予測対象のパイナンバー説明変数データベクトルξpredを生成する。
 次に、ステップS411では、予測対象のパイナンバー説明変数データベクトルξpredが、外れ値判定モデルfodの外れ値でないか否かに応じて、その予測対象の物理量説明変数データベクトルxpredに対して未知の物理量目的変数データypredの予測が、パイナンバー変換マトリックスPを用いて可能か否かを判定する。
 ステップS411にて、予測が可能と判定した場合には(S411:Yes)、ステップS412にて、そのときの予測対象のパイナンバー説明変数データベクトルξpredをパイナンバー説明変数データベクトルξinlier,iに代入し、そのパイナンバー説明変数データベクトルξinlier,iに対応する物理量説明変数データベクトルxpredを物理量説明変数データベクトルxinlier,iに代入し、ステップS420に進む。一方、ステップS411にて、予測が不可能と判定した場合には(S411:No)、ステップS413にて、そのときの予測対象のパイナンバー説明変数データベクトルξpredをパイナンバー説明変数データベクトルξoutlier,iに代入し、そのパイナンバー説明変数データベクトルξoutlier,iに対応する物理量説明変数データベクトルxpredを物理量説明変数データベクトルxoutlier,iに代入し、ステップS410に戻る。
 次に、ステップS420では、予測対象のパイナンバー説明変数データベクトルξinlier,iを、ステップS30で作成されたパイナンバー予測モデルFpredに入力することで未知のパイナンバー目的変数データηinlier,iを出力する。なお、ステップS420において、パイナンバー予測モデルFpredを用いて、予測対象のパイナンバー説明変数データベクトルξinlier,iから未知のパイナンバー目的変数データηinlier,iを算出する処理、及び、予測対象のパイナンバー説明変数データベクトルΞinlierから未知のパイナンバー目的変数データΗinlierを算出する処理を、以下の[数15]式で表すものとする。
Figure JPOXMLDOC01-appb-M000017
 次に、ステップS421では、ステップS420で出力された未知のパイナンバー目的変数データηinlier,iから、予測対象の物理量説明変数データベクトルxinlier,iと、パイナンバー変換マトリックスPとに基づいて、未知の物理量目的変数データyinlier,iを算出する。具体的には、以下の[数16]式で示すように、物理量目的変数を含む特定のパイナンバーπv1の定義式に、ステップS420で出力された未知のパイナンバー目的変数データηinlier,i(=πinlier,i,1)と、予測対象の物理量説明変数データベクトルxinlier,iとを代入することにより、未知の物理量目的変数データyinlier,iを算出する。[数16]式における「xinlier,i,j」は、予測対象の物理量説明変数データセットXinlierに含まれるi番目の物理量説明変数データベクトルxinlier,iの第j成分(j=1,…,n-1)を表す。また、[数16]式における「p1,j」は、処理用のパイナンバー変換マトリックスPにおける第1行目のパイナンバー変換ベクトルpの第k成分(k=1,…,n)を表す。
Figure JPOXMLDOC01-appb-M000018
 なお、ステップS420において、未知のパイナンバー目的変数データセットΗinlier,iから、予測対象の物理量説明変数データセットXinlierと、パイナンバー変換マトリックスPとに基づいて、未知の物理量目的変数データセットYinlierを算出する処理を、「f」という関数を導入し、以下の[数17]式で表すものとする。なお、物理量説明変数データセットXinlierは、対応するパイナンバー説明変数データセットΞinlierから直ちに求められるから、[数17]式の第1式は、第2式により定義し直すことができる。
Figure JPOXMLDOC01-appb-M000019
 以上のようにして、図7乃至図10に示すパイナンバー予測モデル法による第1の現象予測処理S1では、パイナンバー変換マトリックスPを用いて、パイナンバー予測モデルFpred及び外れ値判定モデルfodを作成し、予測対象の物理量説明変数データセットXpredに対して未知の物理量目的変数データセットYpredを予測する。パイナンバー予測モデル法による一連の処理を、「fπ model」という関数を導入し、以下の[数18]式で表すものとする。[数18]式における第1式は、[数15]式から変形され、さらに[数13]式を用いて変形された。予測対象のパイナンバー説明変数データセットΞpred、学習対象のパイナンバー説明変数データセットΞtrain、及び、学習対象のパイナンバー目的変数データセットΗtrainは、予測対象の物理量説明変数データセットXpred、学習対象の物理量説明変数データセットXtrain、及び、学習対象の物理量目的変数データセットYtrainから、[数11]式、及び、[数12]式に示すように、処理用のパイナンバー変換マトリックスPによりパイナンバー変換することでそれぞれ求められるため、[数18]式の第1式は、第2式に変形される。
Figure JPOXMLDOC01-appb-M000020
(5-3)パイナンバー予測モデル法による予測性能の検証結果
 以下の[表3]に示す物理量データセットQ(=A1~A3、B1、C1)を用いて、パイナンバー予測モデル法による第1の現象予測処理S1の予測性能を検証した結果について説明する。
Figure JPOXMLDOC01-appb-T000021
 物理量データセットA1、B1、C1は、学習対象の物理量データセットQtrainとして用いる。物理量データセットA1~A3は、予測性能を検証するための予測対象の物理量データセットQtrainとして用いる。物理量データセットA1~A3、B1、C1の各々における条件数は、それぞれ1000条件とした。
 物理量データセットA1の物理量説明変数は、[表3]に示した領域内にランダムな一様分布として作成した。物理量データセットA2、A3は、物理量データセットA1の各物理量説明変数の範囲のセンター値を維持したまま、min値及びmax値を外側に広げて作成した。物理量データセットA2、A3の物理量説明変数の分布範囲は、それぞれ物理量データセットA1に対して2倍及び3倍の分布範囲拡大率となるように作成した。物理量データセットB1の物理量説明変数m、x1s、t1eは、物理量データセットA1のセンター値の1水準のみ(定数)に固定して作成した。他の物理量説明変数は、物理量データセットA3と同じ範囲でランダムに一様分布しているが、物理量データセットA3とは異なる乱数シードを用いて作成した。物理量データセットC1の物理量説明変数t1eは、物理量データセットA1の最小値と最大値の2水準のみにランダムに振り分けて作成した。他の物理量説明変数は、物理量データセットA1と同じ範囲でランダムに一様分布しているが、物理量データセットA1とは異なる乱数シードを用いて作成した。
 学習対象の物理量データセットA1、B1、C1を用いて、モデル作成処理S30にてパイナンバー予測モデルFpred、及び、外れ値判定モデルfodを作成し、予測対象の物理量データセットA1~A3に含まれる物理量説明変数データベクトルxpredから、第1の現象予測処理S1にて未知の物理量目的変数データypredを予測し、その予測した未知の物理量目的変数データypredの値(物理量目的変数x2eの予測値)と、物理量データセットA1~A3に含まれる物理量説明変数データベクトルxpredから動力学シミュレーションにより求められた物理量目的変数データypredの値(物理量目的変数x2eの真値)とを比較することで、予測性能を検証した。
(5-3-1)分布範囲拡大率が2倍の場合について
 以下に、学習対象として、[表3]に示す物理量データセットA1を用い、予測対象として、[表3]に示す物理量データセットA2を用いた場合(分布範囲拡大率が2倍)における、パイナンバー予測モデル法による予測性能を検証した結果について説明する。
 図11は、物理量データセットA1、A2を示す散布図マトリックスである。対角のグラフは各物理量のヒストグラム、他のグラフは物理量の全ての組み合わせについての散布図を表す。白い点は、学習対象の物理量データセットA1、黒い点は、予測対象の物理量データセットA2を表す。白い点は、不透明な点として黒い点の上に表示されているため、白い点が表示されている領域にはその裏側に黒い点が存在している場合がある。その様子は、ヒストグラムにおける白いバーと黒いバーとが重なる様子により表現されている(以後のすべての散布図マトリックスにおいて同様である)。
 物理量データセットA1、A2に含まれる物理量説明変数データセットXtrain、Xpredは、物理量データセットA1の物理量説明変数の最大値で正規化したものである。そのため、物理量データセットA1の物理量説明変数の最大値は1となっており、すべての説明変数がほぼ一様に分布している。
 従来の機械学習により学習対象の物理量データセットA1を用いて物理量回帰モデルを作成した場合、予測精度の悪化を招くことなく予測が可能な範囲は、物理量データセットA1が分布する内挿範囲内に限られる。ここでは、物理量説明変数が7個あり、予測対象の物理量データセットA2では、すべての物理量説明変数の分布範囲が、物理量データセットA1に対して2倍になっている。したがって、物理量データセットA2のうち従来の機械学習により予測可能な物理量説明変数データベクトルxinlier,iの割合は、(1/2)=0.78%、すなわち、1000個の物理量説明変数データベクトルxのうち8個程度である。
 図12は、物理量データセットA1、A2をそれぞれパイナンバー変換したパイナンバーデータセットを示す散布図マトリックスである。図12に示すパイナンバーデータセットΠtrain、Ξpredは、[数4]式のパイナンバー変換マトリックスPを用いて、物理量データセットA1、A2をそれぞれパイナンバー変換したものであり、物理量データセットA1、A2からそれぞれ変換されたパイナンバーデータセットΠtrain、Ξpredに対して同一の変換パラメータにより学習データ変換処理(Box-Cox変換及び標準化)を行った。図12(a)は、学習データ変換処理が行われる前のパイナンバーデータセットΠtrain、Ξpredである。図12(b)は、学習データ変換処理が行われた後のパイナンバー説明変数データセットΞtrain、Ξpredである。物理量データセットA1、A2の分布の形は類似しているが、物理量データセットA2の分布範囲は、物理量データセットA1の分布範囲よりも広くなっている。
 パイナンバーπは、物理量qの乗べき積の形をしているので、図12(a)に示すパイナンバーデータセットΠtrain、Ξpredの分布では、粗密の偏りが大きい。一方、図12(b)に示すパイナンバー説明変数データセットΞtrain、Ξpredの分布では、各パイナンバー説明変数のヒストグラムは、図12(a)に比べて左右対称な山型の形をしている。
 図13は、物理量データセットA1から作成されたパイナンバー予測モデルFpredの検証結果を示す図である。図13におけるパイナンバー予測モデルFpredは、図12(b)に示す学習対象の物理量データセットA1を用いて、その物理量データセットA1から変換されたパイナンバーデータセットΠtrainをランダムに学習用パイナンバーデータベクトル750個と、検証用パイナンバーデータベクトル250個とに分割して作成したものである。パイナンバー予測モデルFpredにおける学習及び検証結果の決定係数は、それぞれ0.999及び0.999であった。
 図14は、物理量データセットA1から作成された外れ値判定モデルfodによる物理量データセットA2の外れ値判定結果(予測可能、又は、予測不可能)を示す散布図マトリックスである。外れ値判定モデルfodは、学習対象の物理量データセットA1から変換されたパイナンバー説明変数データセットΞtrainを基準にして作成されたものであり、予測対象の物理量データセットA2の各点(パイナンバー説明変数データベクトルξpred)が、その外れ値判定モデルfodの外れ値でないか否かを判定した。なお、外れ値判定モデルfodは、「Isolation Forest」を採用し、外れ値判定の基準値は、「contamination=0.15」と設定した。
 外れ値判定モデルfodによる外れ値の判定結果として、図14に示す白い点は、予測が可能(外れ値でない)と判定されたパイナンバー説明変数データベクトルξinlier,iに対応する物理量説明変数データベクトルxinlier,i(物理量説明変数データセットXinlier)の分布を表す。また、図14に示す黒い点は、予測が不可能(外れ値である)と判定されたパイナンバー説明変数データベクトルξoutlier,iに対応する物理量説明変数データベクトルxoutlier,i(物理量説明変数データセットXoutlier)の分布を表す。予測が可能と判定された物理量説明変数データベクトルxinlier,i(図14に示す白い点)が、従来の機械学習では外挿とみなされる図11に示す物理量データセットA1の分布領域(図11に示す白い点)の外側にも分布していることが分かる。
 図15は、パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。横軸が予測値、縦軸が真値(正解)をそれぞれ表し、各プロットは、予測対象の物理量データセットA2の各点(物理量説明変数データベクトルxpred)に対応する物理量目的変数データypredをそれぞれ表す。
 図15(a)は、予測対象の物理量データセットA2のうち、予測が可能(外れ値でない)と判定された物理量説明変数データベクトルxinlier,iに対応する物理量目的変数データyinlier,iを示す。図15(a)に示す、予測可能な物理量説明変数データベクトルxinlier,iの数は、196個(予測可能率R=19.6%)であり、その決定係数は、0.998であった。
 図15(b)は、予測が不可能(外れ値である)と判定された物理量説明変数データベクトルxoutlier,iに対応する物理量目的変数データyoutlierを示す。図15(b)に示す、予測不可能な物理量説明変数データベクトルxoutlier,iの数は、804個(予測不可能率R=80.4%)であり、決定係数は、0.931であった。
 図16は、従来の物理量回帰モデルによる物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。従来の機械学習により学習対象の物理量データセットA1から作成された物理量回帰モデル(従来技術)を用いて、予測対象の物理量データセットA2(1000個の物理量説明変数データベクトルx)に対して物理量目的変数データセットYpredを予測したときの結果を示す。
 従来の物理量回帰モデル(従来技術)では、学習対象の物理量データセットA1に対して外挿範囲となるデータについて予測が可能か否かを判断できないため、物理量データセットA2のすべてについて物理量目的変数データypredを予測した。そのため、図16に示す検証結果は、外挿範囲となる場合も含むので、従来の物理量回帰モデル(従来技術)は、パイナンバー予測モデル法において予測可能な物理量説明変数データベクトルxinlier,iに対する予測よりも予測精度が悪く、決定係数は、0.899であった。
(5-3-2)分布範囲拡大率が3倍の場合について
 以下に、学習対象として、[表3]に示す物理量データセットA1を用い、予測対象として、[表3]に示す物理量データセットA3を用いた場合(分布範囲拡大率が3倍)における、パイナンバー予測モデル法による予測性能を検証した結果について説明する。
 図17は、物理量データセットA1、A3を示す散布図マトリックスである。図17は、図11に対応するものであり、白い点は学習対象の物理量データセットA1、黒い点は予測対象の物理量データセットA3を表す。物理量データセットA1、A3に含まれる物理量説明変数データセットは、物理量データセットA1の物理量説明変数の最大値で正規化したものである。ここでは、物理量説明変数が7個あり、物理量データセットA3では、すべての物理量説明変数の分布範囲が、物理量データセットA1に対して3倍になっている。したがって、物理量データセットA3のうち従来の機械学習により予測可能な割合は、(1/3)=0.045%、すなわち、1000個の物理量説明変数データベクトルxのうち1個未満である。
 図18は、物理量データセットA1、A3をそれぞれパイナンバー変換したパイナンバーデータセットを示す散布図マトリックスである。図19は、物理量データセットA1から作成された外れ値判定モデルfodによる物理量データセットA3の外れ値判定結果(予測可能、又は、予測不可能)を示す散布図マトリックスである。図20は、パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。図21は、従来の物理量回帰モデルによる物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。図18乃至図21は、図12、図14乃至図16にそれぞれ対応する。パイナンバー予測モデルFpred及び外れ値判定モデルfodは、分布範囲拡大率が2倍である場合と同様のものを用い、外れ値判定の基準値も同一であるものとした。
 図20(a)に示す、予測可能な物理量説明変数データベクトルxinlier,iの数は、47個(予測可能率R=4.7%)であり、その決定係数は、0.992であった。また、図20(b)に示す、予測不可能な物理量説明変数データベクトルxoutlier,iの数は、953個(予測不可能率R=95.3%)であり、決定係数は、0.698であった。一方、図21に示す、従来の機械学習により学習対象の物理量データセットA1から作成された物理量回帰モデルを用いて、予測対象の物理量データセットA3に対して物理量目的変数データセットYpredを予測したときの決定係数は、0.627であった。
(5-3-3)3つの物理量説明変数を1水準に固定した場合について
 以下に、学習対象として、[表3]に示す物理量データセットB1(3つの物理量説明変数が1水準に固定)を用い、予測対象として、[表3]に示す物理量データセットA1を用いた場合における、パイナンバー予測モデル法による予測性能を検証した結果について説明する。
 図22は、物理量データセットB1、A1を示す散布図マトリックスである。図22は、図11に対応するものであり、白い点は学習対象の物理量データセットB1、黒い点は予測対象の物理量データセットA1を表す。物理量データセットB1では、3つの物理量説明変数が1水準に固定されているため、直線状又はすべての点が重なった1点として表されている。
 図23は、物理量データセットB1、A1をそれぞれパイナンバー変換したパイナンバーデータセットを示す散布図マトリックスである。図24は、物理量データセットB1から作成されたパイナンバー予測モデルFpredの検証結果を示す図である。図25は、物理量データセットB1から作成された外れ値判定モデルfodによる物理量データセットA1の外れ値判定結果(予測可能、又は、予測不可能)を示す散布図マトリックスである。図26は、パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。図27は、従来の物理量回帰モデルによる物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。図23乃至図27は、図12乃至図16にそれぞれ対応する。
 学習対象の物理量データセットB1では、3つの物理量説明変数が1水準に固定されているが、一様に分布する他の物理量説明変数が1次の変数として各パイナンバーの分子に1つずつ含まれている。そのため、物理量データセットB1から変換されたパイナンバーデータセットΠtrainの分布には、図22の物理量データセットB1に示すような直線状又は1点の形で表される部分が存在せず、図23に示すように、一様分布となった。
 また、学習対象の物理量データセットB1には、1水準に固定された3つの物理量説明変数の値が変化することで物理量目的変数に与える影響に関する情報が含まれていないため、物理量回帰モデルの作成には適さない。一方、物理量データセットB1から変換されたパイナンバーデータセットΠtrainの分布は、上記のように、一様分布となっているため、パイナンバー予測モデルFpredの作成に適している。したがって、予測対象の物理量データセットA1において、1水準に固定された物理量説明変数が物理量データセットB1の固定値とは別の値に振られた場合であっても、学習対象の物理量データセットB1から変換されたパイナンバーデータセットΠtrainの分布領域(パイナンバー空間の分布領域)に対して内挿範囲に含まれる場合には、予測が可能となる。
 学習対象の物理量データセットB1では、3つの物理量説明変数が1水準に固定されることは、パイナンバーデータセットΠtrainの分布領域を狭める方向に作用しているが、他の4つの物理量説明変数が予測対象の物理量データセットA1の3倍の範囲に分布していることは、パイナンバーデータセットΠtrainの分布領域を広げる方向に作用している。その結果、予測対象の物理量データセットA1に対する各パイナンバー説明変数データベクトルξpredの大部分が、パイナンバーデータセットΠtrainが分布している領域(パイナンバー空間の分布領域)に対して内挿範囲に含まれる。
 図26(a)に示す、予測可能な物理量説明変数データベクトルxinlier,iの数は、997個(予測可能率R=99.7%)であり、その決定係数は、0.999であった。学習対象の物理量データセットB1において、3つの物理量説明変数が固定されていても、他の物理量説明変数が広く分布している効果により、パイナンバー予測モデルFpredによる予測は広範囲で可能となった。また、図26(b)に示す、予測不可能な物理量説明変数データベクトルxoutlier,iの数は、3個(予測不可能率R=0.3%)であり、決定係数は、0.991であったが、数が少ないため、これは参考値である。
 一方、図27に示す、従来の機械学習により学習対象の物理量データセットB1から作成された物理量回帰モデル(従来技術)を用いて、予測対象の物理量データセットA1に対して物理量目的変数データセットYpredを予測したときの決定係数は、0.491であった。学習対象の物理量データセットB1では、3つの物理量説明変数が固定されていることで、それらの物理量説明変数の値が変化することで物理量目的変数に与える影響に関する情報を持たない。そのため、予測対象の物理量データセットA1において、1水準に固定された物理量説明変数が物理量データセットB1の固定値とは別の値に振られた物理量説明変数データベクトルxpredは、外挿予測となるため、予測精度は悪化したものと考えられる。
(5-3-4)1つの物理量説明変数を2水準に固定した場合について
 以下に、学習対象として、[表3]に示す物理量データセットC1(1つの物理量説明変数が2水準に固定)を用い、予測対象として、[表3]に示す物理量データセットA1を用いた場合における、パイナンバー予測モデル法による予測性能を検証した結果について説明する。
 図28は、物理量データセットC1、A1を示す散布図マトリックスである。図28は、図11に対応するものであり、白い点は学習の物理量データセットC1、黒い点は予測対象の物理量データセットA1を表す。学習対象の物理量データセットC1では、1つの物理量説明変数t1eが2水準に固定されているため、2つの直線状の分布として表されている。予測対象の物理量データセットA1は、学習対象の物理量データセットC1の最小値と最大値の範囲内という意味では内挿であるが、外れ値の観点では、物理量説明変数t1eに関して分割された2つの分布領域があり、その間に予測対象の物理量データセットA1の物理量説明変数t1eが分布するので、外挿予測と同様に、従来の物理量回帰モデルでは予測が困難である。
 図29は、物理量データセットC1、A1をそれぞれパイナンバー変換したパイナンバーデータセットを示す散布図マトリックスである。図30は、物理量データセットC1から作成されたパイナンバー予測モデルFpredの検証結果を示す図である。図31は、物理量データセットC1から作成された外れ値判定モデルfodによる物理量データセットA1の外れ値判定結果(予測可能、又は、予測不可能)を示す散布図マトリックスである。図32は、パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。図33は、従来の物理量回帰モデルによる物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。図29乃至図33は、図12乃至図16にそれぞれ対応する。
 物理量説明変数t1eを含むパイナンバーには、一様に分布する他の物理量説明変数が含まれるため、学習対象の物理量データセットC1から変換されたパイナンバーデータセットΠtrainの分布として、図29に示す各散布図では、2次元的な分布が見られる。これにより、学習対象の物理量データセットC1では、2水準に固定されている物理量説明変数t1eが、それらの固定値とは異なる値に振られた予測対象の物理量説明変数データベクトルxpredに対しても予測可能となる場合がある。図30に示すパイナンバー予測モデルFpredにおける学習及び検証結果の決定係数は、それぞれ0.999及び1.000であった。
 図32(a)に示す、予測可能な物理量説明変数データベクトルxinlier,iの数は、871個(予測可能率R=87.1%)であり、その決定係数は、0.999であった。学習対象の物理量データセットC1において、1つの物理量説明変数t1eが2水準に固定されていても、他の物理量説明変数が広く分布している効果により、パイナンバー予測モデルFpredによる予測は広範囲で可能となった。
 また、図32(b)に示す、予測不可能な物理量説明変数データベクトルxoutlier,iの数は、129個(予測不可能率R=12.9%)であり、決定係数は、0.999であった。予測対象の物理量データセットA1の物理量説明変数t1eの値は、学習対象の物理量データセットC1で2水準に固定された固定値の間に分布しているので、物理量データセットC1から変換されたパイナンバーデータセットΠtrainの分布領域から外れているような予測対象のパイナンバー説明変数データベクトルξpredでも、物理量データセットC1の分布に挟まれるような場所に位置している。そのため、パイナンバー空間では、完全な外挿範囲ではなく、密度の低い内挿範囲とみなされることもできるので、外れ値と判定されても予測精度が悪化しにくかったと考えられる。なお、分布範囲拡大率が3倍の物理量データセットA3に対して同様の予測を行うと、予測可能な物理量説明変数データベクトルxinlier,iの数は、258個(予測可能率R=25.8%)であり、決定係数は、0.994と高い精度を示したが、予測不可能な物理量説明変数データベクトルxoutlier,iの数は、742個(予測不可能率R=74.2%)であり、決定係数は、0.941に悪化した。
 一方、図33に示す、従来の機械学習により学習対象の物理量データセットC1から作成された物理量回帰モデル(従来技術)を用いて、予測対象の物理量データセットA1に対して物理量目的変数データセットYpredを予測したときの決定係数は、-4368であった。予測対象の物理量データセットA1において、物理量説明変数t1eが最小値と最大値の間の値に振られた場合、外挿予測と同様に、予測精度は悪化した。
(6-1)統合パイナンバー予測モデル法の基本原理について
 次に、統合パイナンバー予測モデル法による第2の現象予測処理S2について説明する。初期のパイナンバー変換マトリックスPに対して行基本変形を行うことにより、複数(m個)のパイナンバー変換マトリックスP(j=0,…,m-1)を作成することができるが、そのような複数のパイナンバー変換マトリックスPにそれぞれ対応するパイナンバー空間(複数のパイナンバー軸が構成する空間)と、各パイナンバー空間におけるパイナンバーデータセットΠtrainの分布形状とは異なるものである。そのため、各パイナンバー空間での外れ値判定の基準値を同じにしたとしても、外れ値でない(内挿)と判定される予測対象の物理量説明変数データベクトルxpredは、パイナンバー変換マトリックスPの形に応じて異なることになる。したがって、同じ学習対象の物理量データセットQtrain及び外れ値判定の基準値が用いられたとしても、各パイナンバー空間での外れ値判定にて予測が可能と判定される物理量説明変数データベクトルの組み合わせは、パイナンバー変換マトリックスPの形に応じて異なることになる。
 上記の点について、具体例を挙げて説明する。[数3]式に示すパイナンバーセットΠは、パイナンバー変換マトリックスPに対する行基本変形により、以下の[数19]式に示す2つのパイナンバーセットΠex1、Πex2に変形される。
Figure JPOXMLDOC01-appb-M000022
 パイナンバーセットΠex1、Πex2は、物理量説明変数t1e、t2eが入れ替えられた形になっている。パイナンバーセットΠex1の形では、t1eが3つのパイナンバーの分母に、t2eは1つのパイナンバーの分子にのみ含まれている。パイナンバーセットΠex2の形では、t2eが3つのパイナンバーの分母に、t1eは1つのパイナンバーの分子にのみ含まれている。
 図34は、学習対象のデータセットA1に対してパイナンバーセットΠex1、Πex2が用いられたときに、予測対象のデータセットA2のうち外れ値でないと判定された物理量説明変数t1e、t2eのヒストグラムをそれぞれ示す図である。ここでは、外れ値判定の基準値は、「contamination=0.20」と設定した。
 予測対象の物理量説明変数データベクトルxpredが、学習対象の物理量データセットQtrainが分布している領域の端の部分(最小値及び最大値に近い部分)に位置するような場合、その物理量説明変数データベクトルxpredから変換されたパイナンバー説明変数データベクトルξpredは外れ値と判定されやすい。特に、物理量説明変数xがパイナンバーπの分母に含まれている場合、その物理量説明変数xに対する物理量データの値が小さいほどパイナンバーの値が大きくなりやすいので、図34(b)のt1e及び図34(c)のt2eの左端部分のデータ数が減りやすい。なお、パイナンバーセットΠex1、Πex2では、物理量説明変数t1e、t2eを入れ替えられた形をしているので、図34(b)の上下を入れ替えられると、図34(c)に類似する。なお、分布の粗密の偏りの低減のために学習データ変換処理(Box-Cox変換等)が施された場合でも、パイナンバー変換マトリックスPの形が変わると、外れ値判定により抽出される予測可能な物理量説明変数データベクトルxpredが変わることは同様である。
 上記の2つのパイナンバーセットΠex1、Πex2を用いたとき、予測可能な物理量説明変数データベクトルxpredは、それぞれ182個(予測可能率R=18.2%)、189個(予測可能率R=18.9%)であったが、パイナンバーセットΠex1、Πex2の少なくともどちらか一方で予測可能な物理量説明変数データベクトルxpredは、226個(予測可能率R=22.6%)に増加した。すなわち、2つのパイナンバーセットΠex1、Πex2を用いたときには、単一のパイナンバー変換マトリックスPが用いられたときよりも、予測可能率Rが増加した。これは、図34に示すように、2つのパイナンバーセットΠex1、Πex2では、予測可能な(外れ値でない)物理量説明変数データベクトルxpredが異なるからである。
 統合パイナンバー予測モデル法による第2の現象予測処理S2は、上記のような性質を利用したものであり、行基本変形により作成された複数(m個)のパイナンバー変換マトリックスPにそれぞれ対応する複数のパイナンバー空間において、外れ値判定モデルfod,j及びパイナンバー予測モデルFpred,jをそれぞれ作成し、予測対象の物理量説明変数データベクトルxpredに対して各外れ値判定モデルfod,jによる外れ値判定をそれぞれ行い、外れ値でないと判定されたパイナンバー空間に対応するパイナンバー予測モデルFpredを用いることで、未知の物理量目的変数データypredの予測が可能となる。これにより、統合パイナンバー予測モデル法では、予測範囲(予測可能率R)の拡大を実現することができる。
 図35は、統合パイナンバー予測モデル法の概要を一般的な例で示す模式図である。図35の「xINLIER,i」で示すプロットは、2つのパイナンバー予測モデルFpred,0、Fpred,jのいずれによっても物理量目的変数データypredの予測が可能な物理量説明変数データベクトルxpredである。
 物理量空間は、1つしか存在しないが、パイナンバー空間は、複数のパイナンバー変換マトリックスPに応じて多数生成され、各パイナンバー空間で予測可能な(外れ値でない)パイナンバー説明変数データセットΞinlier,j(すなわち、未知の物理量目的変数セットYinlier,jを予測可能な物理量説明変数データセットXinlier,j)は異なる。複数のパイナンバー変換マトリックスPにそれぞれ対応するパイナンバー空間の各々において、予測が可能(外れ値でない)と判定されたパイナンバー説明変数データセットΞinlier,jに対応する物理量説明変数データセットXinlier,jと表し、予測が不可能(外れ値である)と判定されたパイナンバー説明変数データセットΞoutlier,jに対応する物理量説明変数データセットXoutlier,jと表す場合、統合パイナンバー予測モデル法による予測が可能な物理量説明変数データセットXINLIERは、少なくとも1つのパイナンバー空間(パイナンバー変換情報P)において予測が可能と判定された物理量説明変数データセットXinlier,jの和集合として、以下の[数20]式で表される。また、統合パイナンバー予測モデル法による予測が不可能な物理量説明変数データセットXOUTLIERは、予測対象の物理量説明変数データセットXpredから物理量説明変数データセットXINLIERを除く差集合として、以下の[数20]式で表される。
Figure JPOXMLDOC01-appb-M000023
 これにより、統合パイナンバー予測モデル法では、予測範囲(予測可能率R)の拡大が実現されるが、各パイナンバー空間における外れ値判定の基準を緩和する必要がないため、単一のパイナンバー空間において外れ値判定の基準を緩和するよりも高い決定係数が維持されやすい。
(6-2)統合パイナンバー予測モデル法の詳細について
 図36乃至図39は、統合パイナンバー予測モデル法による第2の現象予測処理(ステップS2)の一例を示すフローチャートである。第2の現象予測処理S2において、第1の現象予測処理S1と共通の処理には、図7乃至図10と共通のステップ番号を付与し、以下では、第2の現象予測処理S2における特徴的な処理を中心に説明する。
 まず、ステップS100では、初期のパイナンバー変換マトリックスPと、学習対象の物理量データセットQtrainと、予測対象の物理量説明変数データセットXpredとが入力される。そして、ステップS110では、学習対象の物理量データセットQtrainのデータ密度を向上させる学習データ密度向上処理を行う。
 次に、ステップS21では、複数(m個)のパイナンバー変換マトリックスP(j=0,…,m-1)を作成する複数パイナンバー作成処理を行う。複数パイナンバー作成処理では、例えば、ステップS100で入力された初期のパイナンバー変換マトリックスPに対して、例えば、行基本変形及び簡約化を行うことにより、複数のパイナンバー変換マトリックスPを作成する。なお、複数のパイナンバー変換マトリックスPを作成する際、乱数が用いられてもよい。また、複数のパイナンバー変換マトリックスPには、意図的に特定のパイナンバー変換マトリックスが含まれるようにしてもよいし、データ解析者の知見に基づいて作成されたパイナンバー変換マトリックスが含まれるようにしてもよい。
 次に、ステップS31では、複数のパイナンバー変換マトリックスPを用いて、学習対象の物理量データセットQtrainから、複数のパイナンバー予測モデルFpred,j、及び、複数の外れ値判定モデルfod,jを作成する統合モデル作成処理を行う。
 図37は、統合モデル作成処理(ステップS31)の一例を示すフローチャートである。まず、ステップS310では、複数のパイナンバー変換マトリックスPから処理用のパイナンバー変換マトリックスPを順次選択し、ステップS300、S302を繰り返すループ処理を行うことで、複数のパイナンバー変換マトリックスPにそれぞれ対応する複数の外れ値判定モデルfod、jを作成する。
 次に、ステップS61では、ステップS21で作成された複数のパイナンバー変換マトリックスPと、複数の外れ値判定モデルfod、jとを用いて、予測対象の物理量説明変数データセットXpredに対して、統合予測可能率TR、及び、予測不可能率TRの少なくとも一方を算出する統合モデル評価処理を行う。
 図38は、統合モデル評価処理(ステップS61)の一例を示すフローチャートである。まず、ステップS600では、予測対象の物理量説明変数データセットXpredに含まれる予測対象の物理量説明変数データベクトルxpredを順次選択し、さらに、ステップS601では、複数のパイナンバー変換マトリックスP及び外れ値判定モデルfod、jから処理用のパイナンバー変換マトリックスP及び外れ値判定モデルfodを順次選択し、S610~S613を繰り返す二重のループ処理を行うことで、予測対象の物理量説明変数データベクトルxpredの各々に対して、複数の外れ値判定モデルfod、jの各々を用いた外れ値判定処理を行う。
 次に、ステップS621では、予測対象の物理量説明変数データベクトルxpredの各々に対する、複数の外れ値判定モデルfod、jの各々を用いた外れ値判定処理の判定結果に基づいて、統合予測可能率TR、及び、統合予測不可能率TRの少なくとも一方を算出する。具体的には、予測対象の物理量説明変数データセットXpredに含まれる物理量説明変数データベクトルxpredの総数(Xpredの総数)に対する、予測が可能と判定したパイナンバー変換マトリックスPが少なくとも1つ存在する予測対象の物理量説明変数データベクトルxinlier,iの総数(XINLIERの総数)の割合に基づいて、統合予測可能率TRを算出する。また、予測対象の物理量説明変数データセットXpredに含まれる物理量説明変数データベクトルxpredの総数(Xpredの総数)に対する、予測が可能と判定したパイナンバー変換マトリックスPが存在しない予測対象の物理量説明変数データベクトルxoutlier,iの総数(XOUTLIERの総数)の割合に基づいて、統合予測不可能率TRを算出する。すなわち、統合予測可能率TR及び統合予測不可能率TRは、以下の[数21]式により算出される。
Figure JPOXMLDOC01-appb-M000024
 なお、ステップS621では、統合予測可能率TR及び統合予測不可能率TRだけでなく、[数14]式を用いて、複数のパイナンバー変換マトリックスPの各々に対する予測可能率R及び予測不可能率Rの少なくとも一方をそれぞれ算出してもよいし、さらに、それらの平均値として、平均予測可能率AR及び予測不可能率ARの少なくとも一方を算出するようにしてもよい。
 次に、図37に戻ると、ステップS320では、ステップS21で作成された複数のパイナンバー変換マトリックスPのうち、所定の選択条件を満たすパイナンバー変換マトリックスPを選択するパイナンバー選択処理を行う。パイナンバー選択処理では、所定の選択条件として、例えば、外れ値判定処理にて予測が可能と判定した予測対象の物理量説明変数データベクトルxinlier,jの総数を最大化するパイナンバー変換マトリックスPの組み合わせからパイナンバー予測モデルFpred,jの総数を最小化するように、パイナンバー変換マトリックスPを選択する。
 外れ値判定処理にて予測が可能と判定した物理量説明変数データセットXINLIERのすべてが予測されるためには、必ずしもすべてのパイナンバー変換マトリックスPが必要とされない場合もあり得る。以下の[表4]において、「〇」又は「×」は、5つの物理量説明変数データベクトルxpred,iの各々が、外れ値判定の判定結果として、各パイナンバー変換マトリックスPにより予測可能又は予測不可能であることを表す。
Figure JPOXMLDOC01-appb-T000025
 物理量説明変数データベクトルxpred,0、xpred,1、xpred,2、xpred,4は、少なくとも1つのパイナンバー変換マトリックスP~Pにより予測可能であるので、物理量説明変数データセットXINLIERに含まれる。物理量説明変数データベクトルxpred,3は、いずれのパイナンバー変換マトリックスP~Pによっても予測不可能であるので、物理量説明変数データセットXOUTLIERに含まれる。そして、物理量説明変数データセットXINLIERに含まれる物理量説明変数データベクトルxpred,0、xpred,1、xpred,2、xpred,4は、パイナンバー変換マトリックスP、Pによりすべて予測可能となるので、他のパイナンバー変換マトリックスP0、、Pは、統合予測可能率TRへの影響はない。したがって、表4の例では、ステップ320(パイナンバー選択処理)にて、2つのパイナンバー変換マトリックスP、Pが選択されることで、後述のステップS300にて、2個のパイナンバー変換マトリックスP、Pのみを用いて2つのパイナンバー予測モデルFpred,1、Fpred,2のみが作成されることになるため、モデル作成作業の効率化を図ることができる。
 次に、ステップS330では、ステップS320で選択されたパイナンバー変換マトリックスPから処理用のパイナンバー変換マトリックスPを順次選択し、ステップS300、S303を繰り返すループ処理を行うことで、ステップS320で選択されたパイナンバー変換マトリックスPに対応するパイナンバー予測モデルFpred,jを作成する。
 次に、図36に戻ると、ステップS41では、複数のパイナンバー変換マトリックスPと、複数のパイナンバー変換マトリックスPにそれぞれ対応する複数のパイナンバー予測モデルFpred,j及び複数の外れ値判定モデルfod,jとを用いて、予測対象の物理量説明変数データセットXpredに対して未知の物理量目的変数データセットYpredの予測を行う統合モデル予測処理を行う。なお、ここでの複数のパイナンバー変換マトリックスPは、ステップS320で選択されたパイナンバー変換マトリックスPが用いられる。また、ステップS320が省略された場合には、ステップS21で作成されたパイナンバー変換マトリックスPが用いられる。
 図39は、統合モデル予測処理(ステップS41)の一例を示すフローチャートである。まず、ステップS400では、予測対象の物理量説明変数データセットXpredに含まれる予測対象の物理量説明変数データベクトルxpredを順次選択し、さらに、ステップS401では、複数のパイナンバー変換マトリックスP、パイナンバー予測モデルFpred,j、外れ値判定モデルfod、jから処理用のパイナンバー変換マトリックスP、パイナンバー予測モデルFpred及び外れ値判定モデルfodを順次選択し、ステップS410~S421を繰り返す二重のループ処理を行うことで、予測対象の物理量説明変数データベクトルxpredの各々に対して、複数のパイナンバー予測モデルFpred,jの各々を用いた算出処理を行う。その結果、予測対象の物理量説明変数データベクトルxpredの各々に対して、複数のパイナンバー変換マトリックスP、パイナンバー予測モデルFpred,j、外れ値判定モデルfod、jをそれぞれ用いて、未知の物理量目的変数データyinlier,iを算出する。
 ステップS430では、予測対象の物理量説明変数データベクトルxinlier,iに対して外れ値判定処理にて予測が可能と判定したパイナンバー変換マトリックスPが複数存在するとき、複数の当該パイナンバー変換情報Pの各々を用いた算出処理を行うことで算出した複数の未知の物理量目的変数データyinlier,iを合成する予測値合成処理を、予測対象の物理量説明変数データベクトルxpredの各々に対して行う。
 ステップS430の予測値合成処理にて、複数の物理量目的変数データyinlier,iを合成する手法として、例えば、物理量目的変数データyinlier,iの平均値を算出してもよいし、外れ値判定の評価値(外れの程度)を考慮した重み付けを用いて算出してもよい。[表4]の例では、パイナンバー変換マトリックスPによるxpred,2に対する予測値ypredと、パイナンバー変換マトリックスPによるxpred,2に対する予測値ypredとの平均値が、予測対象の物理量説明変数データベクトルxpred。2に対する未知の物理量目的変数データypredとして算出される。
 なお、[表4]において、パイナンバー変換マトリックスP、Pのみではなく、すべてのパイナンバー変換マトリックスP~Pを用いることで、予測精度が向上する利点がある。物理量目的変数データypredが、複数のパイナンバー変換マトリックスPでそれぞれ予測されると、複数の予測値が得られる。それらが、予測が可能(外れ値でない)と判定されたパイナンバー予測モデルFpred,jによる予測値である場合でも、外れ値判定の評価値(外れの程度)が同程度とは限らない。そのため、外れ値判定の評価値が、基準値以下ではあるが、比較的大きく外れている側の物理量説明変数データベクトルxpredは、その周辺のデータ密度が小さいため、パイナンバー予測モデルFpred,jによる予測精度が悪化しやすい。一方、外れ値判定の評価値が小さい場合、予測精度は高くなる傾向がある。したがって、複数の予測値が、平均値又は重み付けを考慮した値として合成されると、偶然的に予測精度が悪い予測値のみが反映されるリスクが低下するため、予測精度の向上を見込むことができる。
 以上のようにして、図36乃至図39に示す統合パイナンバー予測モデル法による第2の現象予測処理S2では、複数のパイナンバー変換マトリックスPを用いて、複数のパイナンバー変換マトリックスPに対応する複数のパイナンバー予測モデルFpred,j及び複数の外れ値判定モデルfod,jを作成し、予測対象の物理量説明変数データセットXpredに対して未知の物理量目的変数データセットYpred(=YINLIER)を予測する。統合パイナンバー予測モデル法による一連の処理を、「fπ models」という関数を導入し、以下の[数22]式で表すものとする。
Figure JPOXMLDOC01-appb-M000026
(6-3)統合パイナンバー予測モデル法による予測性能の検証結果
 初期のパイナンバー変換マトリックスPとして、[数4]式に示すパイナンバー変換マトリックスPを用いて、ランダムな物理量説明変数の並べ替えと簡約化により、合計10個のパイナンバー変換マトリックスP~Pを作成した。そして、学習対象の物理量データセットA1から、合計10個のパイナンバー予測モデルFpred,0~Fpred,9を作成した。
(6-3-1)分布範囲拡大率が2倍の場合について
 以下に、学習対象として、[表3]に示す物理量データセットA1を用い、予測対象として、[表3]に示す物理量データセットA2を用いた場合(分布範囲拡大率が2倍)における、統合パイナンバー予測モデル法による予測性能を検証した結果について説明する。
 図40は、統合パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。
 パイナンバー予測モデル法では、パイナンバー変換マトリックスP単体による予測可能率Rは、19.6%、決定係数は、0.998であった(上記5.3.1(図15(a)参照)の結果と同じ)。パイナンバー変換マトリックスP~Pの各々による予測可能率Rの平均値(平均予測可能率AR)は、20.5%であった。
 図40に示す統合パイナンバー予測モデル法では、パイナンバー変換マトリックスP~Pのうち少なくとも1つのパイナンバー変換マトリックスPにより予測が可能と判定された統合予測可能率TRは、36.0%に向上した。予測値合成処理では、パイナンバー変換マトリックスP~Pのうち予測が可能と判定されたパイナンバー変換マトリックスを用いた予測値の平均値を算出し、その結果、決定係数は、0.993となった。
(6-3-2)分布範囲拡大率が3倍の場合について
 以下に、学習対象として、[表3]に示す物理量データセットA1を用い、予測対象として、[表3]に示す物理量データセットA3を用いた場合(分布範囲拡大率が3倍)における、統合パイナンバー予測モデル法による予測性能を検証した結果について説明する。
 図41は、統合パイナンバー予測モデル法による物理量目的変数の予測値と、物理量目的変数の真値との比較に基づいて、予測性能の検証結果を示す図である。
 パイナンバー予測モデル法では、パイナンバー変換マトリックスP単体による予測可能率Rは、4.7%、決定係数は0.992であった(上記5.3.2(図20(a)参照)の結果と同じ)。パイナンバー変換マトリックスP~Pの各々による予測可能率Rの平均値(平均予測可能率AR)は、5.0%であった。
 図41に示す統合パイナンバー予測モデル法では、パイナンバー変換マトリックスP~Pのうち少なくとも1つのパイナンバー変換マトリックスPにより予測が可能と判定された統合予測可能率TRは、11.8%に向上した。予測値合成処理では、パイナンバー変換マトリックスP~Pの各々を用いた予測値の平均値を算出し、その結果、決定係数は、0.984となった。
 なお、パイナンバー予測モデル法において、予測可能率Rを拡大するために、外れ値判定の基準値であるcontaminationを、0.15から0.05に下げると、予測可能率Rは、4.7%から11.5%に増加し、統合パイナンバー予測モデル法における統合予測可能率TR(=11.8%)に近い値が得られた。しかしながら、そのときのパイナンバー予測モデル法での決定係数は、0.934となり、統合パイナンバー予測モデル法の決定係数(=0.984)よりも悪化した。したがって、統合パイナンバー予測モデル法による予測は、外れ値判定の基準値が緩和されたパイナンバー予測モデル法による予測に比べて、予測精度を維持したままで予測範囲を拡大できることが分かった。
(7-1)反復統合パイナンバー予測モデル法の基本原理について
 次に、反復統合パイナンバー予測モデル法による第3の現象予測処理S3について説明する。第2の現象予測処理S2では、学習データ密度向上処理(ステップS110)にて、新たな物理量データベクトルqnew1,iを学習対象の物理量データセットQtrainに追加している。新たな物理量データベクトルqnew1,iは、物理量予測モデルFtrainに基づいて作成されたものであり、元々の学習対象の物理量データセットQtrainの内挿範囲に存在する。そのため、学習データ密度向上処理では、学習対象の物理量データセットQtrainのデータ密度を向上させることで外れ値判定の精度を向上させる効果を奏するが、予測可能率Rや統合予測可能率TRを向上させるような効果は必ずしも期待できない。
 そこで、第3の現象予測処理S3では、外れ値判定処理にて予測が可能と判定した物理量説明変数データベクトルxinlier,iに対して第2の現象予測処理S2にて予測した物理量目的変数データyinlier,iと、当該変量説明変数データベクトルxinlier,iとを組とする1又は複数の新たな物理量データベクトルqnew2,iを学習対象の物理量データセットQtrainに追加する。そして、新たな物理量データベクトルqnew2,iが追加された学習対象の物理量データセットQtrainを新たな学習対象の物理量データセットQtrainとして、第2の現象予測処理S2を同様に行う。このような一連の処理を繰り返すことで、新たな物理量データベクトルqnew2,iは、元々の学習対象の物理量データセットQtrainの外挿範囲に存在するものも含まれることになるため、学習対象の物理量データセットQtrainのデータ密度を向上させるだけでなく、予測可能率Rや統合予測可能率TRを向上させることができる。
(7-2)反復統合パイナンバー予測モデル法の詳細について
 図42は、反復統合パイナンバー予測モデル法による第3の現象予測処理(ステップS3)の一例を示すフローチャートである。第3の現象予測処理S3において、第1及び第2の現象予測処理S1、S2と共通の処理には、図7乃至図10、図36乃至図39と共通のステップ番号を付与し、以下では、第3の現象予測処理S3における特徴的な処理を中心に説明する。
 まず、ステップS100では、初期のパイナンバー変換マトリックスPと、学習対象の物理量データセットQtrainと、予測対象の物理量説明変数データセットXpredとが入力される。そして、ステップS110では、学習対象の物理量データセットQtrainのデータ密度を向上させる学習データ密度向上処理を行う。次に、ステップS21では、複数(m個)のパイナンバー変換マトリックスP(j=0,…,m-1)を作成する複数パイナンバー作成処理を行う。
 次に、ステップS120では、所定の反復条件を満たしているか否かを判定し、反復条件を満たす間、ステップS31(統合モデル作成処理)、ステップS41(統合モデル予測処理)、ステップS70(学習データ追加処理)を繰り返すループ処理を行うことにより、予測対象の物理量説明変数データセットXpredに対して未知の物理量目的変数データセットYpredの予測を行う。反復条件は、反復回数の上限値N(例えば、20回)により定められることを基本とするが、ステップS31(統合モデル作成処理)に含まれるステップS61(統合モデル評価処理)で算出される統合予測可能率TRの上限値により定められていてもよいし、データ解析者がループ処理を終了するための入力操作を受け付けたときでもよい。
 1回目のループ処理では、ステップS31にて、複数のパイナンバー変換マトリックスPを用いて、ステップS110が行われた後の学習対象の物理量データセットQtrain から複数のパイナンバー予測モデルFpred,j、及び、複数の外れ値判定モデルfod,jを作成し、ステップS41にて、ステップS31で作成されたパイナンバー予測モデルFpred,j及び外れ値判定モデルfod,jを用いて、予測対象の物理量説明変数データセットXpredに対して未知の物理量目的変数データセットYpredを予測する。
 次に、ステップS70では、ステップS41にて予測対象の物理量説明変数データベクトルxinlier,iに対して予測した未知の物理量目的変数データyinlier,iと、当該物理量説明変数データベクトルxinlier,iとを組とする1又は複数の新たな物理量データベクトルqnew2,iを、学習対象の物理量データセットQtrain に追加する学習データ追加処理を行う。その際、新たな物理量データベクトルqnew2,iは、外れ値判定処理にて予測が可能と判定されたものであればよいため、[数20]で示すように、統合パイナンバー予測モデル法による予測が可能な物理量説明変数データセットXINLIER に対して予測した未知の物理量説明変数データセットYINLIER と、当該物理量説明変数データセットXINLIER とを組とする新たな物理量データセットQINLIER を学習対象の物理量データセットQtrain に追加することで、新たな学習対象の物理量データセットQtrain を作成する。
 そして、ステップ31に戻り、新たな学習対象の物理量データセットQtrain を用いて、2回目のループ処理を行い、反復条件を満たす間の複数回(例えば、反復回数の上限値に相当するN回)、同様の処理を繰り返す。
 以上のようにして、図42に示す反復統合パイナンバー予測モデル法による第3の現象予測処理S3では、統合パイナンバー予測モデル法による予測値に基づく新たな物理量データベクトルqnew2,iを学習対象の物理量データセットQtrainに追加しながら、統合パイナンバー予測モデル法、すなわち、ステップS31(統合モデル作成処理)と、ステップS41(統合モデル予測処理)とを繰り返し行うことにより、予測対象の物理量説明変数データセットXpredに対して未知の物理量目的変数データセットYpred(=YINLIER )を予測する。反復統合パイナンバー予測モデル法による一連の処理を、「fπ  models」という関数を導入し、以下の[数23]式で表すものとする。
Figure JPOXMLDOC01-appb-M000027
(7-3)反復統合パイナンバー予測モデル法による予測性能の検証結果
 初期のパイナンバー変換マトリックスPとして、[数4]式に示すパイナンバー変換マトリックスPを用いて、ランダムな物理量説明変数の並べ替えと簡約化により、合計20個のパイナンバー変換マトリックスP~P19を作成した。学習対象として、[表3]に示す物理量データセットA1を用い、予測対象として、[表3]に示す物理量データセットA3を用いた場合(分布範囲拡大率が3倍)における、反復統合パイナンバー予測モデル法による予測性能を検証した結果について説明する。
 図43は、反復統合パイナンバー予測モデル法によるループ処理を行ったときの予測可能率、及び、決定係数の推移を示す図である。反復回数の上限値Nを21回とし、外れ値判定の基準値は、「contamination=0.15」と設定した。平均予測可能率ARは、20個のパイナンバー変換マトリックスP~P19の各々に対する予測可能率RP0~RP19の平均値として算出される。
 第1回目のループ処理(Loop=0)においては、平均予測可能率ARが5.0%、統合予測可能率TRが13.3%、決定係数が0.982であった。第21回目のループ処理(Loop=20)においては、平均予測可能率ARが17.8%、統合予測可能率TRが38.4%、決定係数が0.924であった。なお、同様の評価条件における従来の機械学習による決定係数は、0.627であり(上記5.3.2(図21参照)の結果と同じ)、図43(a)の縦軸の下限値に設定されている。
 平均予測可能率ARは、統合予測可能率TRよりも低く、両者の差分が統合パイナンバー予測モデル法による予測範囲を拡大する効果とみなすことができ、ループ回数が増加するほど統合予測可能率TRは大きくなった。
 また、ループ回数が増えると、決定係数は緩やかに低下したが、従来の機械学習と比較すると、予測精度は高く維持されている。決定係数の低下原因は、各パイナンバー予測モデルFpred,jによる予測値には、パイナンバー予測モデルFpred,jの完成度に起因する誤差が含まれるが、予測値に基づく新たな物理量データベクトルqnew2,iがループ処理毎に学習対象の物理量データセットQtrainに追加されていくことで、その誤差が蓄積したものと推察される。また、各外れ値判定モデルfod,jによる外れ値判定において、データ密度が低い領域に分布している予測対象の物理量説明変数データベクトルxpredが外れ値ではないと判定されることで、パイナンバー予測モデルFpred,jによる予測精度が悪化した可能性も考えられる。したがって、外れ値判定の基準値を厳しく設定することで、予測範囲の拡大及び決定係数の悪化が緩やかになることが予想される。
 外れ値判定の基準値を、「contamination=0.02」に緩和し、1つのパイナンバー変換マトリックスPのみを用いたパイナンバー予測モデル法による予測では、予測可能率Rは、18.1%であり、決定係数は、0.914であった。反復統合パイナンバー予測モデル法では、図42(a)に示すように、第7回目のループ処理(Loop=6)で、上記と同じような値の統合予測可能率TRが得られた。また、第7回目のループ処理(Loop=6)における決定係数は、0.984であり、図42(b)の四角で表す点(0.914)よりも高かった。したがって、反復統合パイナンバー予測モデル法による予測は、外れ値判定の基準値が緩和されたパイナンバー予測モデル法による予測に比べて、予測精度を維持したままで予測範囲を拡大できることが分かった。
(8)最適解探索処理への適用について
 多部品又は複雑な機構が採用される製品の設計では、様々な現象が複合的に作用するため、各現象に対応する複数の物理量回帰モデルを組み合わせることで全体の設計モデルが作成される。設計の対象とする範囲が広いほど、製品の設計値(説明変数)の数が増えるため、全体の設計モデルは複雑となり、設計値の組み合わせが増大する。そのため、製品の要求性能(目的変数)を満たす最適な設計値の組み合わせを発見するために、遺伝アルゴリズム等の最適化アルゴリズムが用いられる。しかし、最適化アルゴリズムの制約条件として、最適解の探索範囲が、過去製品の設計値の内挿範囲に限定された場合、最適解として探索された設計値は、過去製品のマイナーチェンジに留まる可能性が高い。
 そこで、最適解探索処理S4では、従来の物理量回帰モデルに代えて、第1乃至第3の現象予測処理S1~S3のいずれかと連携することで、所定の最適化条件を満たす最適解を探索する機能を実現する。第1乃至第3の現象予測処理S1~S3では、新規製品の設計値の候補が、物理量空間において過去製品の設計値に対して外れ値(外挿)であっても、パイナンバー空間において過去製品の設計値に対して外れ値ではない(予測が可能)と判定された場合には、その製品で考慮すべき現象としては実績のある設計値と判断することができる。一方、外れ値である(予測が不可能)と判定された場合には、単に予測が不可能という事実だけでなく、過去製品の設計範囲から逸脱する現象となることを意味するので、パイナンバー空間において外れ値とならない設計値の組み合わせを再探索するべきであると判断される。
 図44は、最適解探索処理S4の一例を示す機能説明図である。最適解探索処理S4は、最適解の候補を1又は複数の予測対象の物理量説明変数データベクトルxpredとして、1又は複数の未知の物理量目的変数データypredの予測を行う第1乃至第3の現象予測処理S1~S3と、最適化条件と、第1乃至第3の現象予測処理S1~S3にて予測した1又は複数の未知の物理量目的変数データypredとに基づいて最適解の候補を評価し、その評価した結果に基づいて、新たな候補(1又は複数のいずれでもよい)を作成する候補作成処理S5とを繰り返し行うことにより、最適解を探索する。
 第1乃至第3の現象予測処理S1~S3には、過去製品のデータである学習対象の物理量データセットQtrainと、過去製品のデータから得られたパイナンバー変換マトリックスPと、新規製品の設計値(説明変数の最適解)の候補である予測対象の物理量説明変数データベクトルxpredが入力されることで、その新規製品の設計値の候補に対する新規製品の性能値(目的変数)として、未知の物理量目的変数データベクトルypredを予測する。
 候補作成処理S5には、新規製品の性能値として第1乃至第3の現象予測処理S1~S3から出力された未知の物理量目的変数データベクトルypredと、性能値に対する評価基準(性能値の最大化や最小化等)を定める最適化条件と、最適解の候補を探索するときの制約条件として、過去製品のデータから得られたパイナンバー空間の分布領域とが入力される。そして、候補作成処理S5は、最適化条件と、未知の物理量目的変数データypredとに基づいて最適解の候補を評価し、例えば、遺伝アルゴリズム等の最適化アルゴリズムにより、制約条件下でその評価結果がより高くなるように、新たな最適解の候補を作成し、第1乃至第3の現象予測処理S1~S3に出力する。また、最適解の候補の評価結果が最適化条件を満たす場合には、そのときの最適解の候補を、最終的な新規製品の設計値として出力する。
 なお、図44の例では、学習対象の物理量データセットQtrainからパイナンバーを自動で生成するパイナンバー自動生成処理S6が組み合わせられており、パイナンバー自動生成処理により生成されたパイナンバー変換マトリックスPを用いて、現象予測処理S1~S3による予測が行われるようにしてもよい。パイナンバー自動生成処理S6は、例えば、本願出願人が出願済みの特願2021-126294号に開示された技術を適用可能であり、特願2021-126294号の明細書及び図面に開示された内容全体は、本願明細書に参照として取り込まれる。
 以上のようにして、図44に示す最適解探索処理S4では、第1乃至第3の現象予測処理S1~S3と、候補作成処理S5(遺伝アルゴリズム等の最適化アルゴリズム)とを連携さることで、過去製品のデータしか存在しない場合でも、過去製品の設計値の範囲に限定されることなく、過去製品で実績のある法則から逸脱しない範囲において、新規製品の設計値(最適解)を探索することができる。
(他の実施形態)
 本発明は上述した実施形態に制約されるものではなく、本発明の主旨を逸脱しない範囲内で種々変更して実施することが可能である。そして、それらはすべて、本発明の技術思想に含まれるものである。
 上記実施形態では、所定の現象として、物理法則に従う物理現象を例にして説明したが、データ解析方法100による現象予測処理S1~S3は、物理現象以外の所定の現象にも適用可能である。その場合には、上記実施形態における「物理量」という用語を、所定の現象で観察される「変量」として読み替えることで、データ解析方法100で使用されるデータの定義や、現象予測処理S1~S3の処理内容を適用することができる。
 上記実施形態では、現象予測処理S1~S3は、物理量目的変数データypredが未知な状態で予測対象の物理量説明変数データベクトルxpred対して行われるものとして説明した。これに対し、現象予測処理S1~S3は、物理量目的変数データyが既知な状態であっても、その既知の物理量目的変数データyを未知な状態であると仮定し、その未知(本来は既知であるものを未知と仮定)の物理量目的変数データyと組とする物理量説明変数データベクトルxpredに対して行われることで、その物理量説明変数データベクトルpredxに対して未知(本来は既知であるものを未知と仮定)の物理量目的変数データypredを予測してもよい。
 上記実施形態では、現象予測処理S1~S3における予測対象は、物理量説明変数データセットXpredに含まれる複数の物理量説明変数データベクトルxpredであるものとして説明したが、予測対象は、1つの物理量説明変数データベクトルxpredでもよい。その場合には、現象予測処理S1~S3において、物理量説明変数データセットXpredに対するループ処理(ステップS400、S600)を省略してもよいし、1回分のループ処理(ステップS400、S600)として扱うようにしてもよい。
 上記実施形態では、現象予測処理S1~S3は、外れ値判定処理にて予測が可能と判定(ステップS411:Yes)した物理量説明変数データベクトルxinlier,i(Xinlier)に対して算出処理を行うことにより、未知の物理量目的変数データypredを算出するものとして説明したが、外れ値判定処理にて予測が不可能と判定(ステップS411:No)した物理量説明変数データベクトルxoutleir(Xoutlier)に対しても同様の算出処理を行うことにより、未知の物理量目的変数データypredを算出するようにしてもよい。その際、外れ値判定処理(ステップS411~S413)は省略されてもよく、すべての予測対象の物理量説明変数データベクトルxpred(Xpred)に対して未知の物理量目的変数データypred(Ypred)を算出するようにしてもよい。
 上記実施形態の現象予測処理S1~S3において、各処理の順序が適宜入れ替えられてもよいし、一部の処理が省略されてもよいし、他の処理が追加されてもよい。例えば、学習データ密度向上処理(ステップS110)、モデル評価処理(ステップS60)、統合モデル評価処理(S61)、パイナンバー選択処理(ステップS320)等は省略されてもよい。
 上記実施形態では、現象予測処理S1~S3は、単一のデータ解析装置1にて実行されるものとして説明したが、現象予測処理S1~S3に含まれる各処理は、複数のデータ解析装置1にて分散して実行されるようにしてもよい。例えば、現象予測処理S1、S2では、モデル作成処理(ステップS30)又は統合モデル作成処理(ステップS31)までを行う第1のデータ解析装置1(モデル作成装置)と、モデル予測処理(ステップS40)又は統合モデル予測処理(ステップS41)を行う第2のデータ解析装置1(現象予測装置)とで実行されるようにしてもよい。その場合には、第1のデータ解析装置1により作成されたパイナンバー予測モデルFpred、及び、外れ値判定モデルfod等の情報が、任意の通信網や記憶媒体を介して第2のデータ解析装置1に提供されるようにすればよい。
 上記実施形態の現象予測処理S1~S3における各種の処理結果は、出力部13を介して表示画面等により出力されてもよいし、任意のデータ形式にて記憶部11に記憶されてもよいし、通信部14を介して装置に送信されてもよい。処理結果には、例えば、モデル作成処理(ステップS30)又は統合モデル作成処理(ステップS31)により作成されたパイナンバー予測モデルFpred及び外れ値判定モデルfod、モデル評価処理(ステップS60)又は統合モデル評価処理(ステップS61)にて算出された予測可能率R、予測不可能率R、統合予測可能率TR及び予測不可能率TR、モデル予測処理(ステップS40)又は統合モデル予測処理(ステップS41)にて予測された未知の物理量目的変数データypredの算出結果等が含まれる。また、処理結果には、予測性能の検証結果を説明するために例示した図やグラフ(図11乃至図33、図40、図41、図43)等が含まれていてもよい。
1…データ解析装置、10…制御部、11…記憶部、12…入力部、13…出力部、14…通信部、100…データ解析方法、110…データ解析プログラム、200…コンピュータ

Claims (13)

  1.  コンピュータを用いて、所定の現象に関するデータを解析するデータ解析方法であって、
     前記現象にて観察される複数の変量の数値データである変量データベクトル(q)であって、目的変数の数値データである変量目的変数データ(y)と、説明変数の数値データである変量説明変数データベクトル(x)とを組とする学習対象の前記変量データベクトル(q)の集合である学習対象の変量データセット(Qtrain)、及び、複数の前記変量からなる変量セット(Q)と、複数の前記変量から変換可能な複数のパイナンバーからなるパイナンバーセット(Π)との関係を前記パイナンバーに含まれる前記変量の指数で定めるパイナンバー変換情報(P)を用いて、1又は複数の予測対象の前記変量説明変数データベクトル(xpred)に対して1又は複数の未知の前記変量目的変数データ(ypred)の予測を行う現象予測処理(S1~S3)を行い、
     前記現象予測処理(S1~S3)は、
      前記学習対象の変量データセット(Qtrain)を、前記パイナンバー変換情報(P)に基づいて、複数の前記パイナンバーの数値データであるパイナンバーデータベクトル(π)であって、前記目的変数から変換可能な前記パイナンバーの数値データであるパイナンバー目的変数データ(η)と、前記説明変数から変換可能な前記パイナンバーの数値データであるパイナンバー説明変数データベクトル(ξ)とを組とする前記パイナンバーデータベクトル(π)の集合であるパイナンバーデータセット(Πtrain)に変換し、その変換した前記パイナンバーデータセット(Πtrain)に基づいて、前記パイナンバー説明変数データベクトル(ξ)を入力とし、前記パイナンバー目的変数データ(η)を出力とするパイナンバー予測モデル(Fpred)を作成するモデル作成処理(S30、S31)と、
      前記予測対象の変量説明変数データベクトル(xpred)を、前記パイナンバー変換情報(P)に基づいて、予測対象の前記パイナンバー説明変数データベクトル(ξpred)に変換し、その変換した前記予測対象のパイナンバー説明変数データベクトル(ξpred)を前記モデル作成処理(S30、S31)により作成された前記パイナンバー予測モデル(Fpred)に入力することで未知の前記パイナンバー目的変数データ(ηpred)を出力し、その出力した前記未知のパイナンバー目的変数データ(ηpred)から、前記予測対象の変量説明変数データベクトル(xpred)と、前記パイナンバー変換情報(P)とに基づいて、前記未知の変量目的変数データ(ypred)を算出する算出処理(S410、S420、S421)を、前記予測対象の変量説明変数データベクトル(xpred)に対して行うことにより、前記予測を行うモデル予測処理(S40、S41)とを行う、
     データ解析方法。
  2.  前記モデル作成処理(S30、S31)は、
      前記パイナンバーデータセット(Πtrain)に含まれる前記パイナンバー説明変数データベクトル(ξ)の集合であるパイナンバー説明変数データセット(Ξtrain)を基準にして、外れ値判定モデル(fod)を作成し、
     前記現象予測処理(S1~S3)は、
      前記予測対象のパイナンバー説明変数データベクトル(ξpred)が、前記モデル作成処理(S30、S31)により作成された前記外れ値判定モデル(fod)の外れ値でないか否かに応じて、前記予測対象の変量説明変数データベクトル(xpred)に対して前記未知の変量目的変数データ(ypred)の予測が、前記パイナンバー変換情報(P)を用いて可能か否かを判定する外れ値判定処理(S411~S413、S611~S613)を、前記予測対象の変量説明変数データベクトル(xpred)に対して行う、
     請求項1に記載のデータ解析方法。
  3.  前記モデル作成処理(S30)は、
      前記予測対象の1又は複数の変量説明変数データベクトル(xpred)の総数に対する、前記外れ値判定処理(S611~S613)にて前記予測が可能と判定した前記予測対象の変量説明変数データベクトル(xinlier)の総数の割合に基づく予測可能率、及び、前記総数に対する、前記外れ値判定処理(S611~S613)にて前記予測が不可能と判定した前記予測対象の変量説明変数データベクトル(xoutlier)の総数の割合に基づく予測不可能率の少なくとも一方を算出するモデル評価処理(S60)を行う、
     請求項2に記載のデータ解析方法。
  4.  前記モデル予測処理(S40、S41)は、
      前記算出処理(S410、S420、S421)を、前記外れ値判定処理(S411~S413)にて前記予測が可能と判定した前記予測対象の変量説明変数データベクトル(xinlier)に対して行うことにより、前記未知の変量目的変数データ(yinlier)を算出する、
     請求項2又は請求項3に記載のデータ解析方法。
  5.  前記現象予測処理(S2)は、
      前記パイナンバー変換情報(P)に対して行基本変形を行うことにより、複数の前記パイナンバー変換情報(P)を作成する複数パイナンバー作成処理(S21)と、
      前記複数パイナンバー作成処理(S21)により作成された複数の前記パイナンバー変換情報(P)を用いて、前記モデル作成処理(S30)をそれぞれ行うことにより、複数の前記パイナンバー変換情報(P)にそれぞれ対応する複数の前記パイナンバー予測モデル(Fpred,j)及び複数の前記外れ値判定モデル(fod,j)を作成する統合モデル作成処理(S31)と、
      前記複数パイナンバー作成処理(S21)により作成された複数の前記パイナンバー変換情報(P)と、複数の当該パイナンバー変換情報(P)にそれぞれ対応する複数の前記パイナンバー予測モデル(Fpred,j)及び複数の前記外れ値判定モデル(fod,j)とを用いて、前記モデル予測処理(S40)をそれぞれ行うことにより、前記予測を行う統合モデル予測処理(S41)とを行う、
     請求項4に記載のデータ解析方法。
  6.  前記統合モデル予測処理(S41)は、
      前記予測対象の変量説明変数データベクトル(xpred)に対して前記外れ値判定処理(S411~S413)にて前記予測が可能と判定した前記パイナンバー変換情報(P)が複数存在するとき、複数の当該パイナンバー変換情報(P)の各々を用いて前記算出処理(S410、S420、S421)を行うことで算出した複数の前記未知の変量目的変数データ(ypred)を合成する予測値合成処理(S430)を、前記予測対象の変量説明変数データベクトル(xpred)に対して行う、
     請求項5に記載のデータ解析方法。
  7.  前記統合モデル作成処理(S31)は、
      前記予測対象の変量説明変数データベクトル(xpred)の総数に対する、前記外れ値判定処理(S611~S613)にて前記予測が可能と判定した前記パイナンバー変換情報(P)が少なくとも1つ存在する前記予測対象の変量説明変数データベクトル(xinlier,i)の総数の割合に基づく統合予測可能率、及び、前記総数に対する、前記外れ値判定処理(S611~S613)にて前記予測が可能と判定した前記パイナンバー変換情報(P)が存在しない前記予測対象の変量説明変数データベクトル(xoutlier,i)の総数の割合に基づく統合予測不可能率の少なくとも一方を算出する統合モデル評価処理(S61)を行う、
     請求項5又は請求項6に記載のデータ解析方法。
  8.  前記統合モデル作成処理(S31)は、
      前記複数パイナンバー作成処理(S21)により作成された複数の前記パイナンバー変換情報(P)のうち、前記外れ値判定処理(S611~S613)にて前記予測が可能と判定した前記予測対象の変量説明変数データベクトル(xinlier,i)の総数を最大化する前記パイナンバー変換情報(P)の組み合わせから前記パイナンバー予測モデル(Fpred,j)の総数を最小化するように、前記パイナンバー変換情報(P)を選択するパイナンバー選択処理(S320)を行い、
      前記パイナンバー選択処理(S320)により選択された前記パイナンバー変換情報(P)に対応する前記パイナンバー予測モデル(Fpred,j)を作成し、
     統合モデル予測処理(S41)は、
      前記パイナンバー選択処理(S320)により選択された前記パイナンバー変換情報(P)と、当該パイナンバー変換情報(P)に対応する前記パイナンバー予測モデル(Fpred,j)及び前記外れ値判定モデル(fod,j)とを用いて、前記モデル予測処理(S40)を行うことにより、前記予測を行う
     請求項5乃至請求項7のいずれか一項に記載のデータ解析方法。
  9.  前記現象予測処理(S3)は、
      前記統合モデル予測処理(S41)にて前記予測対象の変量説明変数データベクトル(xinlier,i)に対して予測した前記未知の変量目的変数データ(yinlier,i)と、当該変量説明変数データベクトル(xinlier,i)とを組とする1又は複数の新たな前記変量データベクトル(qnew2,i)を、前記学習対象の変量データセット(Qtrain)に追加する学習データ追加処理(S70)と、前記学習データ追加処理(S70)により追加された前記学習対象の変量データセット(Qtrain)に対する前記統合モデル作成処理(S31)と、前記予測対象の変量説明変数データベクトル(xpred)に対する前記統合モデル予測処理(S41)とを繰り返し行うことにより、前記予測を行う、
     請求項5乃至請求項8のいずれか一項に記載のデータ解析方法。
  10.  前記現象予測処理(S1~S3)は、
      前記学習対象の変量データセット(Qtrain)に基づいて、前記変量説明変数データベクトル(x)を入力とし、前記変量目的変数データ(y)を出力とする物理量予測モデル(Ftrain)を作成し、
      前記学習対象の変量データセット(Qtrain)の分布範囲に含まれる1又は複数の新たな前記変量説明変数データベクトル(xnew1,i)を前記物理量予測モデル(Ftrain)に入力することで1又は複数の新たな前記変量目的変数データ(ynew1,i)を出力し、
      その出力した前記新たな変量目的変数データ(ynew1,i)と、前記新たな前記変量説明変数データベクトル(xnew1,i)とを組とする1又は複数の新たな前記変量データベクトル(qnew1,i)を、前記学習対象の変量データセット(Qtrain)に追加する学習データ密度向上処理(S110)を行う、
     請求項1乃至請求項9のいずれか一項に記載のデータ解析方法。
  11.  請求項1乃至請求項10のいずれか一項に記載の現象予測処理(S1~S3)を用いて、所定の最適化条件を満たす最適解を探索するデータ解析方法であって、
     前記最適解の候補を1又は複数の前記予測対象の変量説明変数データベクトル(xpred)として、1又は複数の前記未知の変量目的変数データ(ypred)の予測を行う前記現象予測処理(S1~S3)と、
     前記最適化条件と、前記現象予測処理(S1~S3)にて予測した1又は複数の前記未知の変量目的変数データ(ypred)とに基づいて前記候補を評価し、その評価した結果に基づいて、新たな前記候補を作成する候補作成処理とを繰り返し行うことにより、前記最適解を探索する、
     データ解析方法。
  12.  コンピュータであって、
      請求項1乃至請求項11のいずれか一項に記載のデータ解析方法にて行われる各処理を実行する制御部を備える、
     データ解析装置。
  13.  コンピュータに、
      請求項1乃至請求項11のいずれか一項に記載のデータ解析方法にて行われる各処理を実行させる、
     データ解析プログラム。
     
PCT/JP2022/014750 2021-12-23 2022-03-26 データ解析方法、データ解析装置、及び、データ解析プログラム WO2023119682A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021209862A JP7039090B1 (ja) 2021-12-23 2021-12-23 データ解析方法、データ解析装置、及び、データ解析プログラム
JP2021-209862 2021-12-23

Publications (1)

Publication Number Publication Date
WO2023119682A1 true WO2023119682A1 (ja) 2023-06-29

Family

ID=81214288

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/014750 WO2023119682A1 (ja) 2021-12-23 2022-03-26 データ解析方法、データ解析装置、及び、データ解析プログラム

Country Status (2)

Country Link
JP (1) JP7039090B1 (ja)
WO (1) WO2023119682A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050234763A1 (en) * 2004-04-16 2005-10-20 Pinto Stephen K Predictive model augmentation by variable transformation
US20210028472A1 (en) * 2019-07-26 2021-01-28 Xi?An Jiaotong University Similar Principle Analysis Method of Input and Output Characteristics for Fuel Cell

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050234763A1 (en) * 2004-04-16 2005-10-20 Pinto Stephen K Predictive model augmentation by variable transformation
US20210028472A1 (en) * 2019-07-26 2021-01-28 Xi?An Jiaotong University Similar Principle Analysis Method of Input and Output Characteristics for Fuel Cell

Also Published As

Publication number Publication date
JP7039090B1 (ja) 2022-03-22
JP2023094403A (ja) 2023-07-05

Similar Documents

Publication Publication Date Title
Dupuy et al. DiceDesign and DiceEval: Two R packages for design and analysis of computer experiments
JP7206476B2 (ja) 最適化装置、最適化装置の制御方法及び最適化装置の制御プログラム
JP2020086821A (ja) 最適化装置および最適化装置の制御方法
JP2019185602A (ja) 最適化装置及び最適化装置の制御方法
Zeng et al. Graph convolutional network with sample and feature weights for Alzheimer’s disease diagnosis
WO2020234984A1 (ja) 学習装置、学習方法、コンピュータプログラム及び記録媒体
Zhang et al. A hybrid sequential sampling strategy for sparse polynomial chaos expansion based on compressive sampling and Bayesian experimental design
CN109217617B (zh) 一种马达的激励信号搜索方法及电子设备
EP3968240A1 (en) Information processing system, information processing method, and program
US20220012291A1 (en) Information processing system, information processing method, and non-transitory computer-readable storage medium for storing program
TWI781461B (zh) 資訊處理裝置、資訊處理方法及程式
WO2023119682A1 (ja) データ解析方法、データ解析装置、及び、データ解析プログラム
JP2020187453A (ja) 最適化装置および最適化装置の制御方法
US11847389B2 (en) Device and method for optimizing an input parameter in a processing of a semiconductor
JP6104469B2 (ja) 行列生成装置及び行列生成方法及び行列生成プログラム
US20210279575A1 (en) Information processing apparatus, information processing method, and storage medium
O’Neill Three distributions in the extended occupancy problem
JP2021179790A (ja) 画像生成装置、画像生成方法及びプログラム
JP7297286B2 (ja) 最適化方法、最適化プログラム、推論方法、および推論プログラム
JP2021135683A (ja) 学習装置、推論装置、学習方法及び推論方法
WO2023007848A1 (ja) データ解析方法、データ解析装置、及び、データ解析プログラム
JP5581753B2 (ja) プラント制御装置、そのモデル予測制御装置
WO2017056320A1 (ja) プログラム生成装置、プログラム生成方法および生成プログラム
EP4235518A1 (en) Data processing program, data processing device, and data processing method
US20240232290A1 (en) Optimization method and information processing apparatus

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22910413

Country of ref document: EP

Kind code of ref document: A1