WO2018124170A1 - 説明変数を選択する装置、方法及びプログラム - Google Patents

説明変数を選択する装置、方法及びプログラム Download PDF

Info

Publication number
WO2018124170A1
WO2018124170A1 PCT/JP2017/046865 JP2017046865W WO2018124170A1 WO 2018124170 A1 WO2018124170 A1 WO 2018124170A1 JP 2017046865 W JP2017046865 W JP 2017046865W WO 2018124170 A1 WO2018124170 A1 WO 2018124170A1
Authority
WO
WIPO (PCT)
Prior art keywords
variable
explanatory
explanatory variable
coefficients
value
Prior art date
Application number
PCT/JP2017/046865
Other languages
English (en)
French (fr)
Inventor
康 高野
辰郎 石島
一慶 吉野
峻佑 秋田
Original Assignee
みずほ第一フィナンシャルテクノロジー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by みずほ第一フィナンシャルテクノロジー株式会社 filed Critical みずほ第一フィナンシャルテクノロジー株式会社
Priority to US16/473,743 priority Critical patent/US20210133277A1/en
Publication of WO2018124170A1 publication Critical patent/WO2018124170A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Definitions

  • the present invention relates to an apparatus, method, and program for selecting explanatory variables.
  • Statistical models are used to elucidate and predict various phenomena such as natural and social phenomena. For example, there are the following statistical models.
  • x 1 , x 2 ,... are variables called explanatory variables.
  • ... ⁇ 1 , ⁇ 2 ,... are coefficients corresponding to the explanatory variables x 1 , x 2 ,.
  • Z represented by the sum of a linear combination of explanatory variables and coefficients and a constant term ⁇ is called a linear predictor.
  • Y is a variable called a response variable.
  • the relationship between the expected value E [Y] of the response variable Y and the linear predictor Z is expressed by a function F.
  • the function F is not necessarily represented by a simple expression, but may be represented as a composite function of a plurality of functions, or a function that is not represented by an analytical expression and needs to be calculated numerically. It may become.
  • weight can be used as a response variable
  • height, waist, etc. can be used as explanatory variables.
  • An example of such a statistical model is a generalized linear model.
  • examples of the generalized linear model include a linear regression model, a binomial logit model, and an order logit model.
  • variable selection problem has a significant impact on the accuracy and usability of statistical models.
  • stepwise method explanatory variables are sequentially added to or deleted from the model based on an index such as an F value used in regression analysis, and a combination of variables having higher explanatory power is searched. This method can be executed even when the calculation load is relatively small and the number of candidates is large. On the other hand, the optimum combination of explanatory variables is not always obtained.
  • Non-Patent Document 1 describes a variable selection method called Lasso regression.
  • Non-Patent Document 2 describes a variable selection method called elastic-net. All of these consider a function in which a penalty term determined according to the value of a coefficient is added to the likelihood function, and select a variable corresponding to a coefficient that takes a non-zero value when the function is maximized as an explanatory variable. It is a method. In these methods, the explanatory variable selected depending on the value of a variable called a hyper parameter that determines the magnitude of the penalty varies, but the method of determining the value of the variable is arbitrary. Also, the selected combination of explanatory variables generally does not maximize the likelihood function itself.
  • the present invention has been made in view of the background art described above, and an object thereof is to efficiently select explanatory variables even when the number of explanatory variable candidates is relatively large.
  • the predictor uses the variable selection model represented by a sum of a linear combination of a plurality of explanatory variable candidates and a plurality of coefficients respectively corresponding to the plurality of explanatory variable candidates and a constant term.
  • An apparatus for selecting a desired explanatory variable from variable candidates is provided.
  • the apparatus is a constraint condition acquisition unit that acquires a constraint condition indicating a set of values that each of the plurality of coefficients can take, wherein the set for at least one coefficient of the plurality of coefficients isolates zero.
  • a plurality of data including a constraint condition acquisition unit including a point and an element other than zero
  • an actual value of the plurality of explanatory variable candidates and an actual value of the response variable.
  • the estimation part which calculates the estimated value of the said some coefficient and the estimated value of the said constant term, and the said explanatory variable candidate corresponding to the coefficient by which the estimated value was calculated to be non-zero are selected as said desired explanatory variable And a selection unit.
  • the plurality of linear predictors At least one of the plurality of explanatory variable candidates using a variable selection model represented by a sum of a linear combination of a plurality of explanatory variable candidates and a plurality of coefficients respectively corresponding to the plurality of explanatory variable candidates and a constant term.
  • a variable selection model represented by a sum of a linear combination of a plurality of explanatory variable candidates and a plurality of coefficients respectively corresponding to the plurality of explanatory variable candidates and a constant term.
  • the apparatus is a constraint condition acquisition unit that acquires a constraint condition indicating a set of values that each of the plurality of coefficients can take, wherein the set for at least one coefficient of the plurality of coefficients isolates zero.
  • a plurality of data including a constraint condition acquisition unit including a point and an element other than zero, an actual value of the plurality of explanatory variable candidates, and an actual value of the response variable.
  • the estimation part which calculates the estimated value of the said some coefficient and the estimated value of the said constant term, and the said explanatory variable candidate corresponding to the coefficient by which the estimated value was calculated to be non-zero are selected as said desired explanatory variable And a selection unit.
  • each coefficient in the statistical model should have the same sign as that assumed from the relationship between a single explanatory variable and the response variable” as exemplified in the previous paragraph is called a sign condition. Since the estimated value of the coefficient in the statistical model reflects the influence of correlation between explanatory variables, etc., the code condition is not always satisfied in the statistical model having a plurality of explanatory variables. In general, as the number of explanatory variables increases, it becomes difficult to obtain a statistical model that satisfies the code condition.
  • each height and waist an explanatory variable x 1 and x 2 in the formula (1)
  • the body weight is the response variable Y in the formula (2).
  • various requests may be imposed on the explanatory variables to be selected. For example, “I want to select a specific explanatory variable candidate as an explanatory variable” or “I want to prevent the explanatory power of a specific explanatory variable from becoming too large”. Variable selection requires flexibility to meet these requirements.
  • This embodiment deals with a statistical model for evaluating the ease of default of a company or an individual, that is, default. If it is evaluated that it is difficult to default, the company or individual has high creditworthiness. Such a statistical model is called a credit evaluation model.
  • financial indicators calculated from the balance sheet and income statement are often used as explanatory variables.
  • financial indicators in this case include the capital adequacy ratio, debt repayment years, current account balance ratio, and receivable turnover days.
  • indicators related to individual attributes are often used as explanatory variables. Examples of such information include an individual's age, the number of households, annual income, years of service, and the like.
  • the accuracy of the credit evaluation model is very important because it is necessary to accurately grasp the creditworthiness of the borrower when deciding whether to accept the loan or determining the loan interest rate.
  • the credit evaluation model can be expressed as follows.
  • ⁇ k is a coefficient corresponding to the explanatory variable x k
  • is a constant term.
  • Z is a linear predictor.
  • Response variable Is the default flag.
  • the default flag is a variable that takes 1 if it defaults within one year after the settlement, and takes 0 if it does not default. further, Is the probability that the default flag will be 1.
  • FIG. 1 shows a functional configuration example of a variable selection device 1 that selects an explanatory variable in a credit evaluation model.
  • the variable selection device 1 includes a record acquisition unit 10, a code condition acquisition unit 20, an estimation unit 30, and a selection unit 40. Details of each functional unit will be described later.
  • FIG. 2 shows a computer hardware configuration example of the variable selection device 1.
  • the variable selection device 1 includes a CPU 51, an interface device 52, a display device 53, an input device 54, a drive device 55, an auxiliary storage device 56, and a memory device 57. It is connected to the.
  • a program for realizing the function of the variable selection device 1 is provided by a recording medium 59 such as a CD-ROM.
  • a recording medium 59 such as a CD-ROM.
  • the program is installed from the recording medium 59 to the auxiliary storage device 56 via the drive device 55.
  • the program does not necessarily have to be installed by the recording medium 59, and can be downloaded from another computer via a network.
  • the auxiliary storage device 56 stores the installed program and also stores necessary files and data.
  • the memory device 57 reads the program from the auxiliary storage device 56 and stores it when there is an instruction to start the program.
  • the CPU 51 implements the function of the variable selection device 1 according to the program stored in the memory device 57.
  • the interface device 52 is used as an interface for connecting to another computer through a network.
  • the display device 53 displays a GUI (Graphical User Interface) or the like by a program.
  • the input device 54 is a keyboard and a mouse.
  • Table 1 shows a plurality of records used when variable selection is performed in a credit evaluation model for a company. This record is stored in the auxiliary storage device 56. A record is also called data.
  • each record represents information about one company.
  • the “default flag” is a variable that takes 1 if it defaults within one year after settlement, and takes 0 if it does not default. This default flag is a response variable in the credit evaluation model.
  • the “financial indicators” in Table 1 are calculated from account settlement information such as the balance sheet and income statement of each company.
  • “sales / logarithm” is information obtained by logarithmically converting the sales calculated from the settlement information.
  • “Equity ratio”, “Debt repayment years”, “Current ratio”, and “Rate of sales interest rate” are each calculated from the settlement information.
  • These indicators are explanatory variable candidates that can be selected as explanatory variables in the credit evaluation model.
  • “K” is an explanatory variable candidate number.
  • Table 1 includes a plurality of records, and each record includes a plurality of explanatory variable candidate realization values and a response variable realization value.
  • explanatory variable candidates there is no limit to the number of explanatory variable candidates.
  • a combination having high explanatory power is selected from many explanatory variable candidates (financial indicators).
  • explanatory variable candidates financial indicators
  • dozens to over a hundred explanatory variable candidates are prepared.
  • a financial index that has undergone some transformation such as logarithmic transformation or discretization may be used as an explanatory variable candidate.
  • variable selection model used for the variable selection device 1 to perform variable selection is determined as follows.
  • is a constant term, and ⁇ k is a coefficient of the explanatory variable candidate X k .
  • Z is a linear predictor.
  • PD is a probability that the response variable, that is, the default flag is “1”. PD is also called default rate.
  • the linear predictor is a statistic represented by the sum of a plurality of explanatory variable candidates and a linear combination of a plurality of coefficients corresponding to the plurality of explanatory variable candidates and a constant term. It is a model.
  • i is the company ID in Table 1.
  • X i, k is an actual value of the explanatory variable candidate X k regarding the company i.
  • Z i is the score of company i.
  • PD i is an estimated value of the default rate of company i by the variable selection model.
  • Table 2 shows the sign conditions of each coefficient used by the variable selection device 1. This code condition is set for each coefficient, and designates a value that can be taken by the coefficient as being zero or more or zero or less. The code condition is stored in the auxiliary storage device 56.
  • a sign condition of “0 or more” is set for an explanatory variable candidate that is considered to have a higher credibility as it is larger.
  • a sign condition of “0 or less” is provided for an explanatory variable candidate that is considered to have a higher credibility as it is smaller.
  • the sign conditions of the coefficients ⁇ 1 , ⁇ 2 , and ⁇ 4 are “0 or more”.
  • step S101 the record acquisition unit 10 acquires a plurality of records used when building a credit evaluation model for a company as shown in Table 1.
  • step S102 the code condition acquisition unit 20 acquires the code conditions as shown in Table 2.
  • step S103 the estimation unit 30 performs maximum likelihood estimation. That is, the estimation unit 30 calculates an estimated value of each parameter when the likelihood function L ( ⁇ ) in the variable selection model is maximized. This estimation value calculation is performed using a plurality of records acquired in step S101. Moreover, the estimated value calculation is obtained sign conditions in step S102, that is carried out under conditions C 1 below.
  • L ( ⁇ ) is a likelihood function.
  • N is the number of records in Table 1.
  • Di is a default flag for company i.
  • the maximum likelihood estimator shown in Formula (10) the likelihood function L under the condition C 1 (theta) are estimated as theta when maximized.
  • Algorithm searching the maximum of the likelihood function under these conditions C 1 L ( ⁇ ) is a plurality. For example, there are a coordinate descent method and a steepest descent method. For example, the coordinate descent method can be executed at high speed even when the number of explanatory variable candidates is very large. In the present embodiment, any algorithm may be used.
  • Table 3 shows specific estimated values of the parameters obtained in this step.
  • the coefficient ⁇ 1 corresponding to the sales amount, the coefficient ⁇ 2 corresponding to the capital ratio, and the coefficient ⁇ 3 corresponding to the debt repayment period are all estimated to be zero.
  • coefficient ⁇ 4 corresponding to the current ratio and coefficient ⁇ 5 corresponding to the sales interest burden ratio non-zero coefficient values satisfying the sign conditions are estimated.
  • step S104 the selection unit 40 selects an explanatory variable. Specifically, it is determined whether the coefficient value estimated in step S103 is zero or non-zero, and explanatory variable candidates corresponding to the coefficient estimated to be non-zero are selected as explanatory variables. In the present embodiment, the current ratio and the sales interest burden ratio corresponding to the coefficients ⁇ 4 and ⁇ 5 whose values are estimated to be non-zero are selected as desired explanatory variables.
  • the desired statistical model after variable selection is expressed as follows. However, x 4 and x 5 is the desired explanatory variables are those corresponding respectively to the explanatory variable candidates X 4 and X 5.
  • variable selection can be performed at high speed.
  • estimation can be performed at high speed even when the number of explanatory variable candidates is large.
  • explanatory variables can be selected in almost the same time as normal maximum likelihood estimation without a code condition.
  • the horizontal axis is the coefficient beta 4
  • the vertical axis is beta 2
  • the likelihood decreases as the distance from the region R increases.
  • the estimation under the condition C 1 is carried out. That is, estimation is carried out in the first quadrant Q 1.
  • the point K 1 is estimated.
  • An estimated value satisfying the sign condition is obtained, in which the estimated value of the coefficient ⁇ 4 is a positive value and the estimated value of the coefficient ⁇ 2 is zero.
  • the estimation target range is widened, and an estimated value that does not satisfy the code condition may be obtained.
  • the estimated under the condition C 1 since the estimated under the condition C 1, based on the sign conditions is made, it is possible to limit the estimated target range estimate satisfying the sign condition is obtained. That is, the estimation can be performed efficiently.
  • the combination with the maximum likelihood is obtained among all the combinations that satisfy the code condition, a combination of explanatory variables having a higher likelihood is obtained as compared with the conventional method such as the stepwise method. That is, a model with higher accuracy than the conventional method can be constructed.
  • the conventional stepwise method lasso regression, and elastic net, the sign condition is not considered in the variable selection process. For this reason, trial and error are generally required to find a combination of explanatory variables that satisfy the code condition.
  • the stepwise method and the brute force method it is necessary to perform the maximum likelihood estimation a plurality of times, but in the present embodiment, only one estimation is required. Moreover, the selection of the explanatory variable and the estimation of the corresponding coefficient can be simultaneously performed at one time.
  • explanatory variables to be selected may differ depending on how the hyperparameters are determined. In the present embodiment, since there is no variable such as a hyperparameter, no additional analysis is necessary. In addition, a combination of explanatory variables that maximizes the likelihood function under the sign condition is always selected.
  • a constraint condition can also be set.
  • This constraint condition defines, for each coefficient, at least one of an upper limit value and a lower limit value that can be taken by the coefficient. Examples of constraint conditions are shown in Table 4. The constraint conditions are stored in the auxiliary storage device 56.
  • the location where the upper limit value is blank indicates that there is no upper limit value set for the coefficient.
  • the lower limit value For example, for the coefficient beta 2, but the lower limit is set to 10.00, setting the upper limit thereof is not.
  • the coefficient ⁇ 1, the constraint condition is not set at all.
  • Constraints related to a certain coefficient need to be set to match the sign conditions related to the coefficient. If the sign condition is “0 or more”, both the upper limit value and the lower limit value must be positive values. If the sign condition is “0 or less”, both the upper limit value and the lower limit value must be negative values.
  • the variable selection device 1 further includes a constraint condition acquisition unit (not shown).
  • the flow of processing performed by the variable selection device 1 in this case is shown in FIG.
  • step S201 exists between step S102 and step S103.
  • the constraint condition acquisition unit acquires a constraint condition.
  • the estimation in step S103 is performed under a code condition and a constraint condition. That is, estimation is made under conditions C 2 shown below.
  • the maximum likelihood estimator of the parameter vector ⁇ obtained by this estimation can be expressed as follows.
  • Table 5 shows specific estimated values of the parameters obtained in this step.
  • the values are estimated to be non-zero.
  • the estimated amount of the coefficient for which the upper limit value or the lower limit value is set is not necessarily equal to the upper limit value or the lower limit value.
  • a value having an absolute value larger than the upper and lower limit values may be estimated as the coefficient ⁇ 3 in Table 5.
  • the absolute value of the estimated amount is small for the interest rate burden ratio (coefficient ⁇ 5 ) by setting a lower limit value. That is, the influence of the interest rate burden on sales in the statistical model is suppressed. Further, the estimated amount of explanatory variable candidates for which no constraint condition has been set, such as the flow ratio (coefficient ⁇ 4 ) in Table 5, is also affected by the change in coefficient values of other explanatory variable candidates. This is different from the estimated amount in the embodiment.
  • an explanatory variable is selected by the selection unit 40. That is, the capital ratio, the debt repayment period, the current ratio and the sales interest burden ratio corresponding to the coefficients ⁇ 2 to ⁇ 5 estimated to be non-zero are selected as desired explanatory variables.
  • specific explanatory variable candidates such as capital adequacy ratio and debt repayment years can always be selected as explanatory variables by setting constraint conditions. That is, it is possible to respond to the request “I want to select a specific explanatory variable candidate as an explanatory variable”. Furthermore, by setting a constraint condition, it is possible to perform variable selection while preventing the degree of influence of a specific explanatory variable from becoming too large. Note that a constraint condition can be set for at least one of the coefficients for which the code condition is set.
  • variable selection device 1 further includes a narrowing condition acquisition unit and a narrowing processing unit (both not shown). Then, as shown in FIG. 7, when a plurality of explanatory variables are selected in step S104, steps S301 and S302 can be performed following this step.
  • the narrowing condition acquisition unit acquires narrowing conditions.
  • the narrowing condition is a condition for narrowing down the number of explanatory variables when a plurality of explanatory variables are selected in step S104.
  • the narrow-down conditions are stored in the auxiliary storage device 56. Examples of narrowing conditions include the following. Exclude explanatory variables whose p value or t value does not reach a certain level. Reduce variables by the variable reduction method using the combination of explanatory variables selected in step S104 as an initial value.
  • step S302 the narrowing processing unit performs narrowing processing according to the narrowing conditions. As a result, the number of explanatory variables is narrowed down.
  • explanatory variables that are not highly statistically significant can be excluded by setting narrowing conditions.
  • a model with fewer explanatory variables can be constructed while maintaining the accuracy of the model. Note that even if explanatory variables that are not statistically significant are excluded, the influence on coefficients corresponding to other explanatory variables is extremely small. For this reason, the code conditions are hardly satisfied by narrowing down.
  • steps S301 and S302 can be performed after step S103 shown in FIG.
  • Table 6 shows an example of model construction data used for construction of an order logit model for estimating a corporate rating. This data is acquired in step S101.
  • “Rating” indicates the level of debt repayment ability of a company by a sign, and in this embodiment, it indicates that the creditworthiness is high in the order of 1> 2> 3> 4>. . Nr is the rating number.
  • the notation of the rating code may be expressed by character information such as “AAA, AA +, AA,...” Or “A rating, B rating, C rating,. Yes, it can be replaced with numerical information as in this embodiment.
  • a model that estimates a rating of a company is called a “rating estimation model”.
  • the rating estimation model is also a kind of credit evaluation model.
  • the likelihood function L ( ⁇ ) of the rating estimation model can be expressed as follows.
  • the estimated value of the variable selection model is obtained by the following equation.
  • the condition C 1 is the same as the first embodiment.
  • L ( ⁇ ) is the likelihood function.
  • Table 7 shows an example of parameters obtained in step S103.
  • step S104 the capital ratio, the years of debt repayment, the interest rate on sales, and so on are selected as explanatory variables.
  • the plurality of linear predictors uses a variable selection model represented by a sum of a linear combination of a plurality of explanatory variable candidates and a plurality of coefficients respectively corresponding to the plurality of explanatory variable candidates and a constant term.
  • the variable selection device 1 can be configured to select a desired explanatory variable from the explanatory variable candidates.
  • the sequential logit model described below can also be used as a modeling method when the response variable is represented by an ordinal scale composed of three or more values.
  • the sequential logit model uses a plurality of binomial logit models that estimate the probability of whether the rating is s or less, and estimates the probability of each rating. The process flow is similar to FIG.
  • the likelihood function for the sequential logit model is exactly the same as the likelihood function (equation (11)) of the order logit model, except that p i, s is different.
  • the parameter estimation value of the variable selection model is obtained by the following equation.
  • condition C 3 is as follows.
  • Table 8 shows examples of parameters obtained by this embodiment.
  • the coefficient and constant term are estimated for each Z i, s (for each rating), and the explanatory variables selected in step S104 are also different for each Z i, s .
  • the plurality of linear predictors At least one of the predictors (for example, Z i, 2 ) is represented by a sum of a linear combination of a plurality of explanatory variable candidates and a plurality of coefficients respectively corresponding to the plurality of explanatory variable candidates and a constant term.
  • the variable selection device 1 can be configured to select a desired explanatory variable from the plurality of explanatory variable candidates using a variable selection model.
  • first constraint a finite or semi-infinite interval containing zero as an end point
  • Second constraint a union of a finite or semi-infinite interval containing zero as an end point and a non-zero interval
  • Third constraint A set that includes zero as an isolated point and also includes elements other than zero
  • Fourth constraint A set of all values
  • an isolated point of a set does not include any element of the set other than itself This is the source of the neighborhood.
  • is a coefficient corresponding to an explanatory variable candidate
  • ⁇ , ⁇ 1 , and ⁇ 2 are all positive numbers
  • ⁇ 1 ⁇ ⁇ 2 are all positive numbers
  • Example 1 is an example of the first constraint described above.
  • a set of possible values of the coefficient ⁇ is a semi-infinite interval with zero as the left end. According to this constraint condition, only when the estimated value of the coefficient ⁇ is a positive value, the explanatory variable candidate corresponding to the coefficient is selected as the explanatory variable.
  • Example 2 is also an example of the first constraint described above.
  • a set of possible values of the coefficient ⁇ is a finite interval with zero as the left end. According to this constraint condition, only when the estimated value of the coefficient ⁇ is a positive value, the explanatory variable candidate corresponding to the coefficient is selected as the explanatory variable, and the maximum value of the coefficient ⁇ when selected as the explanatory variable is ⁇ . By providing such an upper limit, it is possible to prevent the influence of the explanatory variable corresponding to the coefficient ⁇ on the statistical model from becoming too large.
  • Example 3 is an example of the second constraint condition described above.
  • a set of values that can be taken by the coefficient ⁇ is a union of a semi-infinite section having zero as the right end and a semi-infinite section having ⁇ as the left end (that is, a section not including zero).
  • the explanatory variable candidate corresponding to the coefficient is selected as the explanatory variable only when the estimated value of the coefficient ⁇ is a negative value or a positive value greater than or equal to ⁇ .
  • Example 4 is an example of the third constraint described above.
  • the set of possible values of the coefficient ⁇ includes zero as an isolated point and also includes elements other than zero (elements included in a semi-infinite interval having ⁇ as the left end).
  • the explanatory variable candidate corresponding to the coefficient is selected as the explanatory variable.
  • the estimated value of the coefficient ⁇ does not become a positive value less than ⁇ , so that an explanatory variable candidate that is less significant is selected as an explanatory variable. Can be prevented.
  • Example 5 is also an example of the third constraint described above.
  • the set of possible values of the coefficient ⁇ includes zero as an isolated point and a non-zero element (an element included in a semi-infinite interval with - ⁇ 1 as the right end and a semi-infinite interval with ⁇ 2 as the left end. Included).
  • the absolute value of the estimated value of the coefficient ⁇ is ⁇ 1 or more.
  • ⁇ , ⁇ 1 and ⁇ 2 can be determined by an arbitrary method. It may be determined empirically, or may be theoretically determined so that the coefficient has a certain significance. Examples 1 to 5 are merely examples of the first to third constraints described above.
  • FIG. 8 is another example of an image diagram of coefficient estimation in the present embodiment.
  • the value of the coefficient is estimated so that the likelihood function is maximized under preset constraint conditions.
  • the horizontal axis represents the coefficient beta 1 corresponding to a certain explanatory variable candidates
  • the ordinate is a coefficient beta 2 corresponding to another explanatory variables candidate shows a likelihood by a contour line CL.
  • the likelihood decreases as the distance from the region R increases.
  • the coefficients ⁇ 1 and ⁇ 2 are estimated.
  • the point K 3 on the vertical axis are estimated. That is, the estimated value of the coefficient ⁇ 1 is zero, and the estimated value of the coefficient ⁇ 2 is negative and ⁇ 2 or less. That is, the explanatory variable candidate corresponding to the coefficient ⁇ 1 is not selected as the explanatory variable, and the explanatory variable candidate corresponding to the coefficient ⁇ 2 is selected as the explanatory variable.
  • Y is a response variable
  • is a constant term
  • ⁇ k is a coefficient corresponding to the explanatory variable candidate x k.
  • the function F (referred to as a link function) representing the relationship between the expected value of the response variable Y and the linear predictor is the identity function.
  • a combination of explanatory variables with high explanatory power is often selected from a large number of explanatory variable candidates.
  • Table 9 shows a plurality of records used when the linear multiple regression model is constructed.
  • Each record includes an actual value of a response variable and an actual value of a plurality of explanatory variable candidates.
  • the number of explanatory variable candidates is 10.
  • the number of explanatory variable candidates varies depending on the problem and may be several tens to several hundreds.
  • Table 10 is an example of the constraint condition of each coefficient.
  • a set of values that the coefficient can take is a set indicated by the one set condition.
  • the set of values that the coefficient can take is the union of two or more sets indicated by the two or more set conditions.
  • the set of values that the coefficient can take is a set of all values.
  • the constraint conditions for the coefficients ⁇ 1 to ⁇ 4 are simple constraint conditions that determine the sign of each coefficient.
  • the set of possible values of the coefficients including zero as an isolated point, and also includes a non-zero source.
  • the coefficients ⁇ 6 and ⁇ 7 are not included in the set of possible values of the coefficient.
  • the coefficients beta 9 zero is not included in the set of possible values of the coefficient.
  • the coefficients beta 9 would be selected as always explanatory variables.
  • all of the conditions 1 to 3 are not imposed on the coefficient ⁇ 10 , and can take any value. This can be regarded as a kind of constraint condition that designates a set of “all values” as possible values of the coefficient ⁇ 10 .
  • Table 11 shows the estimated values of the parameters (constant term ⁇ and coefficient ⁇ k ) obtained under the constraints in Table 10.
  • the estimated values of the coefficients ⁇ 1 to ⁇ 3 are non-zero.
  • Estimates of the coefficients beta 4 is zero. That is, the explanatory variable candidates x 4 is not selected as the explanatory variables.
  • the coefficient ⁇ 6 is estimated to be 1.0, which is the lower limit value of the condition 3 in the constraint condition.
  • the coefficient ⁇ 8 is estimated to be ⁇ 1.5, which is the upper limit value of the condition 1 in the constraint condition.
  • the coefficient ⁇ 9 is estimated to be 1.0 which is the lower limit value of the condition 1 in the constraint condition. As described above, the estimated values of all the coefficients satisfy the corresponding constraint conditions.
  • Table 12 shows the constraint conditions of the coefficients ⁇ 3 and ⁇ 10 changed.
  • Table 13 shows estimated values of parameters (constant term ⁇ and coefficient ⁇ k ) obtained under the constraint conditions shown in Table 12.
  • the corresponding explanatory variable candidates x 3 and x 10 are not selected as explanatory variables. That is, simultaneously with the parameter estimation, the explanatory variable candidates x 3 and x 10 having low significance can be removed from the model. This is because the constraint condition of both coefficients is changed so that zero is included as an isolated point in the set of possible values of the coefficients ⁇ 3 and ⁇ 10 .
  • the logistic regression model is a model for estimating the probability of occurrence of a certain event, and is represented by the following model formula.
  • i is the sample ID
  • X i, k is the kth explanatory variable candidate X k of sample i
  • linear predictor Z i is the score of sample i
  • P i is sample i This is an estimate of the probability that the event will occur.
  • is a constant term
  • ⁇ k is a coefficient corresponding to the k-th explanatory variable candidate X k .
  • Table 14 shows an example of data used to construct a logistic regression model. Each record includes a realization of realization and a plurality of explanatory variables candidate is the response variable occurrence flag D i.
  • Table 15 is an example of a constraint condition for each coefficient.
  • the set indicated by the constraint condition of each coefficient is the union of the set indicated by condition 1 and the set indicated by condition 2. In this example, it is assumed that a positive sign is assumed as a natural sign for all the coefficients.
  • a constraint condition of “1.0 or more or 0” is imposed so that the explanatory variable has a certain significance. is doing.
  • the set indicated by this constraint includes zero as an isolated point.
  • the constraint condition (C 15 ) in Table 15 can be written as an equation as follows.
  • the estimated values of the parameters are obtained by the following equations.
  • Table 16 summarizes the estimated values of the parameters obtained under the constraints C 15.
  • An explanatory variable candidate corresponding to a coefficient whose estimated value is non-zero among the coefficients ⁇ 1 to ⁇ 100 is selected as an explanatory variable.
  • the coefficients ⁇ 3 and ⁇ 5 are estimated to be zero, and it can be seen that the explanatory variable candidates x 3 and x 5 are not selected as explanatory variables.
  • the coefficient ⁇ 100 is estimated to be 1.0, which is the lower limit value of the condition 1 in the corresponding constraint condition.
  • Table 17 shows a partial modification of the constraint conditions shown in Table 15. Specifically, the lower limit value in the condition 1 of each coefficient is changed from 1.0 to 2.0.
  • Table 18 shows the estimated values of the parameters (constant term ⁇ and coefficient ⁇ k ) obtained under the constraint conditions shown in Table 17.
  • the estimated value of the coefficient ⁇ 2 is non-zero in Table 16, but is zero in Table 18.
  • the estimate of coefficient ⁇ 3 was zero in Table 16 but non-zero in Table 18.
  • the number of explanatory variables selected can be reduced. For example, 40 explanatory variables are selected under the constraints in Table 15, and 23 explanatory variables are selected under the constraints in Table 17 that are stricter than the constraints in Table 15. Alternatively, the number of explanatory variables to be selected is assumed in advance, and the constraint condition can be set so that the number of selected explanatory variables matches the assumed number.
  • the selection of explanatory variables in the present embodiment is performed by the variable selection device 1a shown in FIG.
  • the same elements as those in FIG. 1 are denoted by the same reference numerals.
  • the variable selection device 1a includes a record acquisition unit 10, a constraint condition acquisition unit 50, an estimation unit 30, and a selection unit 40.
  • the constraint condition acquisition unit 50 performs processing for acquiring a constraint condition. The processing performed by the record acquisition unit 10, the estimation unit 30, and the selection unit 40 is as described above.
  • This embodiment is not limited to Examples 1 and 2. According to this embodiment, even when explanatory variable candidates corresponding to coefficients for which it is difficult to assume a natural code are included in the variable selection model, it is possible to efficiently select explanatory variables. This is because the constraint condition is set so that the set of possible values of the coefficient includes zero as an isolated point. In the variable selection model, this embodiment is particularly useful when it is difficult to assume a natural code for all coefficients corresponding to all explanatory variable candidates.
  • explanatory variables having high significance can be preferentially selected. Even if the above-described narrowing process is not performed, the estimated value of the coefficient corresponding to the explanatory variable candidate having relatively low significance becomes zero during parameter estimation, and the explanatory variable can be selected efficiently. . This is because if the constraint condition is set so that the set of values that can be taken by the coefficient includes zero as an isolated point, the estimated value of the coefficient of the explanatory variable candidate having low significance is likely to be zero.
  • the narrowing process may be performed after estimation.
  • the number of explanatory variables selected can be changed by changing the constraints.
  • the number of explanatory variables to be selected that is, explanatory variable candidates whose coefficient estimated values are non-zero
  • the constraints By tightening the constraints, the number of explanatory variables to be selected (that is, explanatory variable candidates whose coefficient estimated values are non-zero) can be reduced.
  • This embodiment can be applied not only to a linear regression model and a logistic regression model, but also to a generalized linear model including a binomial logit model and an order logit model.
  • the original index may be used as an explanatory variable candidate as it is, but if necessary, the power of the original index may be used as an explanatory variable candidate.
  • an explanatory variable candidate may be obtained by logarithmically converting the original index.
  • the probability that the response variable is a certain value is an argument of the function F.
  • the expected value of the response variable can be used as an argument of the function F.
  • Constraint conditions in the sixth embodiment can be set for each coefficient for all coefficients. Any one of the first to fourth constraints described above or other constraints can be set for each coefficient. Alternatively, when the set of values that each of the plurality of coefficients can take is the same, one constraint condition can be set for the plurality of coefficients. In any case, it suffices if a set of values that each of the plurality of coefficients can take is determined.
  • the code condition can be stored not only in the auxiliary storage device 56 but also in a storage device provided inside or outside the variable selection device 1.
  • the data for model construction, the code condition, the constraint condition, and the narrowing condition may be stored in the same storage device, or may be distributed and stored in a plurality of storage devices.
  • the record acquisition unit 10 is not essential.
  • the estimation part 40 should just be able to calculate an estimated value using the some data containing the actual value of a some explanatory variable candidate, and the actual value of a response variable.
  • either or both of the estimation based on the constraint condition and the narrowing process based on the narrowing condition may be further performed.
  • the embodiment disclosed in the present specification has not only an aspect as an apparatus but also an aspect as a method and an aspect as a computer program.
  • the present invention is not limited to the generalized linear model, and can be applied to a wider range of statistical models expressed using linear predictors.
  • Variable Selection Device 10 Record Acquisition Unit 20 Code Condition Acquisition Unit 30 Estimation Unit 40 Selection Unit 51 CPU 52 interface device 53 display device 54 input device 55 drive device 56 auxiliary storage device 57 memory device 58 bus 59 recording medium

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

説明変数の候補数が比較的多い場合であっても、説明変数を効率的に選択する。 線形予測子と、応答変数の期待値又は応答変数がある値となる確率との関係が所定の関数により表される統計モデルにおいて、前記線形予測子が、複数の説明変数候補と前記複数の説明変数候補にそれぞれ対応する複数の係数との線形結合と、定数項との和により表される変数選択用モデルを用いて、前記複数の説明変数候補から所望の説明変数を選択する装置(1)は、前記複数の係数の各々が取りうる値の集合を示す制約条件を取得する制約条件取得部(50)と、複数のデータを用いて、前記制約条件の下で、前記複数の係数の推定値及び前記定数項の推定値を算出する推定部(30)と、推定値が非ゼロと算出された係数に対応する前記説明変数候補を前記所望の説明変数として選択する選択部(40)とを備えている。

Description

説明変数を選択する装置、方法及びプログラム
 本発明は、説明変数を選択する装置、方法及びプログラムに関する。
 自然現象、社会現象といった様々な現象の解明及び予測を行うために統計モデルが用いられる。例えば、以下のような統計モデルがある。
Figure JPOXMLDOC01-appb-M000001
 ただし、x、x、・・・は、説明変数と呼ばれる変数である。β、β、・・・は、説明変数x、x、・・・にそれぞれ対応する係数であり、αは定数項である。式(1)において、説明変数と係数との線形結合と定数項αとの和により表されるZは、線形予測子と呼ばれる。Yは応答変数と呼ばれる変数である。式(2)に示したように、応答変数Yの期待値E[Y]と線形予測子Zとの関係は、関数Fにより表される。なお、関数Fは必ずしも単純な式で表されるとは限らず、複数の関数の合成関数として表される場合や、解析的な式では表せず、数値的に値を算出する必要がある関数となる場合もある。
 例えば、体重を応答変数とし、身長、ウエストなどを説明変数とすることができる。
 このような統計モデルの例として、一般化線形モデル(generalized linear model)が挙げられる。さらに、一般化線形モデルの例として、線形回帰モデル、二項ロジットモデル、順序ロジットモデルが挙げられる。
 このような統計モデルにおいては、どのような指標を説明変数として選択すべきかが問題となる。この問題は、変数選択の問題として知られている。変数選択は、統計モデルの精度及び使いやすさに大きな影響を与える。
 説明変数の選択方法として、総当たり法と呼ばれる方法がある。この方法では、説明変数の候補である説明変数候補の、考えられる全ての組合せが試された上で、最適な組合せが見いだされる。説明変数候補がp個ある場合、考えられる全ての組合せは2-1通りある。この方法によれば、考えられる全ての組合せを試してみるため、真に最適な変数の組合せが得られる。しかし、計算負荷が非常に大きく、候補数pが大きい場合には組合せの数が爆発的に増加し、事実上実行不可能となる。
 また、ステップワイズ法と呼ばれる変数選択方法がある。この方法では、回帰分析で用いられるF値等の指標に基づいて説明変数が逐次的にモデルに追加又は削除され、より説明力の高い変数の組合せが探索される。この方法によれば、計算負荷が比較的小さく、候補数が多い場合でも実行できる。その一方で、必ずしも最適な説明変数の組合せが得られるとは限らない。
 その他、非特許文献1には、ラッソ回帰(Lasso regression)と呼ばれる変数選択法が記載されている。非特許文献2には、エラスティック・ネット(elastic-net)と呼ばれる変数選択法が記載されている。これらはいずれも、係数の値に応じて決まるペナルティ項を尤度関数に加えた関数を考え、当該関数を最大とする時に非ゼロの値を取る係数に対応する変数を説明変数として選択する、という方法である。これらの方法では、ペナルティの大きさを決めるハイパーパラメータと呼ばれる変数の値によって選択される説明変数が変わってくるが、当該変数の値の決め方には任意性がある。また、選択された説明変数の組み合わせは、一般には尤度関数そのものを最大化するものではない。
R. Tibshirani, "Regression shrinkage and selection via the lasso", A retrospective, Journal of the Royal Statistical Society B, 73, 273-282, 2011 Hui Zou and Trevor Hastie, "Regularization and Variable Selection via the Elastic Net", Journal of the Royal Statistical Society, Series B: 301-320, 2005
 本発明は、上記背景技術に鑑みてなされたものであって、その目的は、説明変数の候補数が比較的多い場合であっても、説明変数を効率的に選択することにある。
 上記目的を達成するために、本発明によれば、線形予測子と、応答変数の期待値又は応答変数がある値となる確率との関係が所定の関数により表される統計モデルにおいて、前記線形予測子が、複数の説明変数候補と前記複数の説明変数候補にそれぞれ対応する複数の係数との線形結合と、定数項との和により表される変数選択用モデルを用いて、前記複数の説明変数候補から所望の説明変数を選択する装置が提供される。本装置は、前記複数の係数の各々が取りうる値の集合を示す制約条件を取得する制約条件取得部であって、前記複数の係数のうちの少なくとも一つの係数に対する前記集合が、ゼロを孤立点として含み、かつゼロ以外の元をも含む、制約条件取得部と、前記複数の説明変数候補の実現値と、前記応答変数の実現値とを含む複数のデータを用いて、前記制約条件の下で、前記複数の係数の推定値及び前記定数項の推定値を算出する推定部と、推定値が非ゼロと算出された係数に対応する前記説明変数候補を前記所望の説明変数として選択する選択部とを備えている。
 また、本発明によれば、複数の線形予測子と、応答変数の期待値又は応答変数がある値となる確率との関係が所定の関数により表される統計モデルにおいて、前記複数の線形予測子のうち少なくとも一つが、複数の説明変数候補と前記複数の説明変数候補にそれぞれ対応する複数の係数との線形結合と、定数項との和により表される変数選択用モデルを用いて、前記複数の説明変数候補から所望の説明変数を選択する装置が提供される。本装置は、前記複数の係数の各々が取りうる値の集合を示す制約条件を取得する制約条件取得部であって、前記複数の係数のうちの少なくとも一つの係数に対する前記集合が、ゼロを孤立点として含み、かつゼロ以外の元をも含む、制約条件取得部と、前記複数の説明変数候補の実現値と、前記応答変数の実現値とを含む複数のデータを用いて、前記制約条件の下で、前記複数の係数の推定値及び前記定数項の推定値を算出する推定部と、推定値が非ゼロと算出された係数に対応する前記説明変数候補を前記所望の説明変数として選択する選択部とを備えている。
 本発明によれば、説明変数の候補数が比較的多い場合であっても、説明変数を効率的に選択することができる。
変数選択装置の機能構成例を示す説明図である。 変数選択装置のハードウェア構成例を示す説明図である。 変数選択装置が行う処理のフローチャートの一例である。 変数選択に伴う係数決定のイメージ図である。 変数選択に伴う係数決定の別のイメージ図である。 変数選択装置が行う処理のフローチャートの別の例である。 変数選択装置が行う処理のフローチャートのさらに別の例である。 変数選択に伴う係数決定のイメージ図の別の例である。 変数選択装置の別の機能構成例を示す説明図である。
 先に述べたように、説明変数の選択において、説明変数の候補数が増えると、変数の組合せの数が爆発的に増加してしまうという問題がある。その他にも、考慮すべき問題について、本発明の発明者は鋭意検討を行った。
 説明変数の選択においては、選択される説明変数に対応する係数の符号も考慮する必要がある。例えば、「体重の期待値=α+β×身長+β×ウエスト」という統計モデルを考える。一般に、身長が大きければ体重も重くなると考えられるため、身長が説明変数として選択される場合には、係数βは正の数となることが期待される。同様に、ウエストが大きければ体重も重くなると考えられるため、ウエストが説明変数として選択される場合には、係数βは正の数となることが期待される。仮にβが負値である場合、「身長が同じであればウエストが大きい方が体重が軽い」という結果をもたらすこととなるため、こうしたモデルは非常に使いづらいものとなってしまう。
 前段落で例示したような、「統計モデルにおける各係数が、単独の説明変数と応答変数の関係から想定される符号と同じ符号になるべき」という条件のことを、符号条件とよぶ。統計モデルにおける係数の推定値には、説明変数間の相関等の影響が反映されるため、複数の説明変数を持つ統計モデルでは、符号条件が満たされるとは限らない。また、一般に説明変数の数が増えるに従って、符号条件を満たす統計モデルを得ることは難しくなる。
 なお、身長及びウエストはそれぞれ、式(1)における説明変数x及びxであり、体重は式(2)における応答変数Yである。そして、式(2)における関数Fは恒等関数である。すなわち、F(E[Y])=E[Y]=Zである。
 また、選択される説明変数に対して様々な要請が課せられる場合がある。例えば、「特定の説明変数候補を説明変数として必ず選択したい」、「特定の説明変数の説明力が大きくなり過ぎないようにしたい」といったものである。変数選択には、このような要請を満たすようことができるよう柔軟性が求められる。
 以上のような検討結果を踏まえて、以下に本発明の実施形態を説明する。ただし、本発明は、以下に説明する実施の形態によって限定されるものではない。
 [第1の実施形態]
 本実施形態では、企業又は個人のデフォルトすなわち債務不履行のしやすさを評価する統計モデルを扱う。デフォルトしにくいと評価されれば、当該企業又は個人は信用力が高いといえる。このような統計モデルを信用評価モデルと呼ぶ。
 企業を対象とした信用評価モデルにおいては、貸借対照表、損益計算書から計算される財務指標を説明変数として用いることが多い。この場合の財務指標の例としては、自己資本比率、債務償還年数、経常収支比率、売上債権回転日数などが挙げられる。
 また、個人を対象とした信用評価モデルでは、個人の属性に関する指標を説明変数として用いることが多い。このような情報の例として、個人の年齢、世帯人数、年収、勤続年数などが挙げられる。
 いずれにしても、融資の諾否の判断や貸出金利の決定にあたっては、貸出先の信用力を精確に把握する必要があるため、信用評価モデルの精度向上は非常に重要である。
 信用評価モデルは以下のように表すことができる。
Figure JPOXMLDOC01-appb-M000002
 
 ただし、x(k=1,2,・・・)は説明変数である。βは、説明変数xに対応する係数であり、αは定数項である。Zは線形予測子である。また、応答変数
Figure JPOXMLDOC01-appb-M000003
 
は、デフォルトフラグである。デフォルトフラグとは、決算後1年以内にデフォルトしていれば1、デフォルトしていなければ0をとる変数である。さらに、
Figure JPOXMLDOC01-appb-M000004
 
は、デフォルトフラグが1となる確率である。
 図1は、信用評価モデルにおける説明変数の選択を行う変数選択装置1の機能構成例を示している。変数選択装置1は、レコード取得部10と符号条件取得部20と推定部30と選択部40とを備えている。各機能部の詳細は後述する。
 図2は、変数選択装置1のコンピュータハードウェア構成例を示している。変数選択装置1は、CPU51と、インタフェース装置52と、表示装置53と、入力装置54と、ドライブ装置55と、補助記憶装置56と、メモリ装置57とを備えており、これらがバス58により相互に接続されている。
 変数選択装置1の機能を実現するプログラムは、CD-ROM等の記録媒体59によって提供される。プログラムを記録した記録媒体59がドライブ装置55にセットされると、プログラムが記録媒体59からドライブ装置55を介して補助記憶装置56にインストールされる。あるいは、プログラムのインストールは必ずしも記録媒体59により行う必要はなく、ネットワークを介して他のコンピュータからダウンロードすることもできる。補助記憶装置56は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
 メモリ装置57は、プログラムの起動指示があった場合に、補助記憶装置56からプログラムを読み出して格納する。CPU51は、メモリ装置57に格納されたプログラムにしたがって変数選択装置1の機能を実現する。インタフェース装置52は、ネットワークを通して他のコンピュータに接続するためのインタフェースとして用いられる。表示装置53はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置54はキーボード及びマウス等である。
 表1は、企業を対象とした信用評価モデルにおいて変数選択を行う際に用いる複数のレコードを示している。このレコードは、補助記憶装置56に記憶されている。レコードのことをデータとも呼ぶ。
Figure JPOXMLDOC01-appb-T000005
 
 この表においては、各レコードが一つの企業に関する情報を表している。また、「デフォルトフラグ」とは、先に述べたように、決算後1年以内にデフォルトしていれば1、デフォルトしていなければ0をとる変数である。このデフォルトフラグが、信用評価モデルにおける応答変数である。
 同じく表1における「財務指標」は、各企業の貸借対照表、損益計算書等といった決算情報から算出される。例えば、「売上高・対数」は、決算情報から算出される売上高を対数変換した情報である。「自己資本比率」、「債務償還年数」、「流動比率」、「売上高金利負担率」は、それぞれ、決算情報から算出されるものである。これらの指標が、信用評価モデルにおける説明変数として選択され得る説明変数候補である。なお、「k」は、説明変数候補の番号である。
 例えば、企業IDが「1」である「企業A」の「自己資本比率」の値は「46.82%」である。この値を、「自己資本比率」という説明変数候補の実現値と呼ぶ。そして、「デフォルトフラグ」という応答変数の実現値は「0」である。このように、表1は、複数のレコードを有し、各レコードは、複数の説明変数候補の実現値と応答変数の実現値とを含んでいる。
 もちろん、説明変数候補の個数に制限はなく、複数あればよい。企業の信用評価においては、企業の財務状況を多面的に評価するため、多くの説明変数候補(財務指標)の中から説明力の高い組合せを選択する。一般に、数十個から百個超の説明変数候補を用意する。さらに、表1における「売上高・対数」のように、財務指標に対して対数変換、離散化といった何らかの変換を行ったものを説明変数候補として用いてもよい。
 そして、変数選択装置1が変数選択を行うために用いる変数選択用モデルを以下のように定める。
Figure JPOXMLDOC01-appb-M000006
 
 ただし、X(k=1,2,・・・)は説明変数候補である。αは定数項であり、βは、説明変数候補Xの係数である。Zは線形予測子である。PDは、応答変数すなわちデフォルトフラグが「1」となる確率である。PDをデフォルト率とも呼ぶ。
 このように、変数選択用モデルは、線形予測子が、複数の説明変数候補と前記複数の説明変数候補にそれぞれ対応する複数の係数との線形結合と、定数項との和により表される統計モデルである。
 なお、式(6)においては、線形予測子Zの符号が正となっている。これは、「Zが大きいほど信用力が高い」という関係が成り立つようにするためである。もちろん、関数Fがロジスティック分布の分布関数となるように、式(6)における「Z」を「-Z」とすることもできる。
 次に、変数選択用モデルによるデフォルト率の推定値と説明変数候補の実現値との関係を以下のように定める。
Figure JPOXMLDOC01-appb-M000007
 
 ただし、iは表1の企業IDである。Xi,kは、企業iに関する、説明変数候補Xの実現値である。Zは企業iのスコアである。PDは、変数選択用モデルによる企業iのデフォルト率の推定値である。
 そして、定数項αと係数βとをまとめてパラメータと呼ぶ。θをパラメータベクトルとする。すなわち、以下の通りである。
Figure JPOXMLDOC01-appb-M000008
 
 表2は、変数選択装置1により用いられる各係数の符号条件を示している。この符号条件は、係数ごとに設定されており、当該係数の取りうる値がゼロ以上又はゼロ以下を指定したものである。符号条件は、補助記憶装置56に記憶されている。
Figure JPOXMLDOC01-appb-T000009
 
 大きいほど信用力が高いと考えられる説明変数候補については、「0以上」という符号条件を設ける。また、小さいほど信用力が高いと考えられる説明変数候補については、「0以下」という符号条件を設ける。本実施形態において、売上高(k=1)、自己資本比率(k=2)、流動比率(k=4)は、大きいほど信用力が高いと考えられる。そのため、係数β、β、βの符号条件は「0以上」となっている。また、債務償還年数(k=3)と売上高金利負担率(k=5)は、小さいほど信用力が高いと考えられる。そのため、係数β、βの符号条件は「0以下」となっている。
 続いて、図3を参照しながら、変数選択装置1が行う処理の流れを説明する。まず、ステップS101において、レコード取得部10が、表1に示したような、企業を対象とした信用評価モデルを構築する際に用いるレコードを複数取得する。
 ステップS102において、符号条件取得部20が、表2に示したような、符号条件を取得する。
 ステップS103において、推定部30は最尤推定を行う。すなわち、推定部30は、上記変数選択用モデルにおける尤度関数L(θ)が最大となるときの各パラメータの推定値を算出する。この推定値算出は、ステップS101において取得された複数のレコードを用いて行われる。さらに、この推定値算出は、ステップS102において取得された符号条件、すなわち以下に示す条件Cの下で行われる。
Figure JPOXMLDOC01-appb-M000010
 
 本ステップにおいて得られるパラメータベクトルθの最尤推定量
Figure JPOXMLDOC01-appb-M000011
 
は、以下のように表すことができる。
Figure JPOXMLDOC01-appb-M000012
 
 上述したように、L(θ)は尤度関数である。Nは、表1におけるレコード数である。Dは、企業iのデフォルトフラグである。
 このように、式(10)に示した最尤推定量は、条件Cの下で尤度関数L(θ)が最大となるときのθとして推定される。
 こうした条件Cの下で尤度関数L(θ)の最大値を探索するアルゴリズムは複数ある。例えば、座標降下法(coordinate descent method)、最急降下法(steepest descent method)がある。例えば座標降下法は、説明変数候補の数が非常に多い場合でも高速に実行可能である。本実施形態では、どのようなアルゴリズムを用いてもよい。
 なお、本実施例のように、パラメータがとり得る値に条件をつけた上で得られる推定量が、漸近正規性や一致性等の、通常の最尤推定量が持つ性質を満たすことが知られている。詳細は、非特許文献「T.J.Moore, B.M. Sadler, Maximum-likelihood estimation and scoring under parametric constrains. Army Research Lab, Aldelphi, MD, Tech. Rep. ARL-TR-3805, 2006」を参照されたい。
 本ステップにより得られるパラメータの具体的な推定値を表3に示している。
Figure JPOXMLDOC01-appb-T000013
 
 売上高に対応する係数βと、自己資本比率に対応する係数βと、債務償還年数に対応する係数βとは、いずれも0と推定されている。流動比率に対応する係数βと、売上高金利負担率に対応する係数βとについては、それぞれ符号条件を満たした、非ゼロの係数値が推定されている。
 ステップS104において、選択部40が説明変数の選択を行う。具体的には、ステップS103において推定された係数値がゼロか非ゼロであるかを判別し、非ゼロと推定された係数に対応する説明変数候補を説明変数として選択する。本実施形態では、値が非ゼロと推定された係数β及びβにそれぞれ対応する流動比率及び売上高金利負担率が所望の説明変数として選択される。
 変数選択後の所望の統計モデルは、以下のように表される。
Figure JPOXMLDOC01-appb-M000014
 
 ただし、x及びxは所望の説明変数であり、説明変数候補X及びXにそれぞれ対応するものである。
 [効果]
 本実施形態によれば、変数選択を高速に実行することができる。前述のように、座標降下法等のアルゴリズムを用いることにより、説明変数候補の数が多い場合でも推定を高速に行うことができる。しかも、符号条件のない、通常の最尤推定とほぼ同時間で説明変数の選択を行うことができる。
 また、与えられた符号条件の下で尤度を最大にする説明変数候補の組合せが選択されることから、人による事後的な試行錯誤は不要である。符号条件の下で変数選択を行う場合と、符号条件のない状態で変数選択を行う場合の比較について以下に説明する。
 図4は、横軸が係数βであり、縦軸がβであり、尤度を等高線CLにより示している。領域Rから離れるほど尤度は減少する。本実施形態によれば、条件Cの下で推定が行われる。すなわち、推定は、第1象限Qにおいて行われる。その結果、点Kが推定される。係数βの推定値は正値、係数βの推定値はゼロという、符号条件を満たす推定値が得られる。
 これに対し、条件Cのような条件を設けずに推定を行った様子を図5に示している。推定は、第1象限Qから第4象限Qという全ての象限が対象範囲となり、符号条件を満たさない点Kが推定される。
 このように、条件を設定しない場合は、推定の対象範囲が広くなるとともに、符号条件を満たさない推定値が得られる可能性がある。これに対し、本実施形態においては、符号条件に基づく条件Cの下で推定がなされるため、推定対象範囲を限定することができるとともに、符号条件を満たした推定値が得られる。すなわち、効率的に推定を行うことができる。
 上述したように、説明変数の数が多くなると符号条件を満たす統計モデルを得ることが難しくなる。これは、説明変数候補が多い場合、条件Cのような符号条件の下で尤度関数を最大にする点では、多くの係数が0となることを意味している。すなわち、符号条件を課すことにより、説明変数の絞り込みが実施できることとなる。
 さらに、符号条件を満たす全ての組合せの中で尤度を最大とするものが得られるため、ステップワイズ法などの従来の手法に比べて、より尤度の大きい説明変数の組合せが得られる。すなわち、従来手法よりも精度の高いモデルを構築することができる。なお、従来のステップワイズ法、ラッソ回帰、エラスティック・ネットでは、変数選択の過程で符号条件は考慮されていない。このため、符号条件を満たす説明変数の組み合わせを見つけるためには、一般に試行錯誤が必要となる。
 また、ステップワイズ法や総当たり法では、最尤推定を複数回実施する必要があるが、本実施形態では、推定回数が1回で済む。しかも、その1回で、説明変数の選択と、対応する係数の推定とを同時に行うことができる。
 ラッソ回帰やエラスティック・ネットでは、前述したハイパーパラ-メータの値を決めるために、追加的な分析を行うことが一般的である。また、ハイパーパラメータの決め方によって、選択される説明変数も異なるものとなり得る。本実施形態では、ハイパーパラメータのような変数は存在しないため、追加的な分析は不要である。さらに、符号条件の下で尤度関数を最大化する説明変数の組み合わせが必ず選択される。
 [第2の実施形態]
 符号条件に加えて、制約条件を設定することもできる。この制約条件は、係数ごとに、当該係数が取りうる値の上限値及び下限値の少なくとも一方を定めたものである。制約条件の例を表4に示している。制約条件は、補助記憶装置56に記憶されている。
Figure JPOXMLDOC01-appb-T000015
 
 表4において上限値が空欄となっている箇所は、当該係数について上限値の設定がないことを示している。下限値についても同様である。例えば、係数βについては、下限値が10.00と設定されているが、上限値の設定はない。係数βについては、制約条件が全く設定されていない。
 ある係数に関する制約条件は、当該係数に関する符号条件と整合するように設定する必要がある。符号条件が「0以上」であれば、上限値及び下限値はいずれも正値とする必要がある。符号条件が「0以下」であれば上限値及び下限値はいずれも負値とする必要がある。
 本実施形態において、変数選択装置1は、制約条件取得部(不図示)をさらに備えている。この場合の、変数選択装置1が行う処理の流れを図6に示している。図3との違いは、ステップS102とステップS103との間に、ステップS201がある点である。ステップS201では、上記制約条件取得部が制約条件を取得する。そして、ステップS103における推定は、符号条件及び制約条件の下で行われる。すなわち、推定は、以下に示す条件Cの下でなされる。
Figure JPOXMLDOC01-appb-M000016
 
 そして、この推定により得られるパラメータベクトルθの最尤推定量は、以下のように表すことができる。
Figure JPOXMLDOC01-appb-M000017
 
 本ステップにより得られるパラメータの具体的な推定値を表5に示している。
Figure JPOXMLDOC01-appb-T000018
 
 第1の実施形態では値がゼロと推定された係数β及びβに関し、本実施形態では、値が非ゼロと推定されている。
 上限値又は下限値を設定した係数の推定量は必ずしも上限値又は下限値に等しくなるわけではない。表5における係数βのように上下限値よりも絶対値の大きい値が推定されることもある。
 売上高金利負担率(係数β)は、下限値を設定したことによって、推定量の絶対値が小さくなっている。つまり、統計モデルにおける売上高金利負担率の影響が抑えられることとなっている。また、表5における流動比率(係数β)のように、制約条件を設定していない説明変数候補の推定量についても、他の説明変数候補の係数値が変化することの影響により、第1の実施形態における推定量とは異なっている。
 続くステップS104では、選択部40による説明変数の選択が行われる。すなわち、値が非ゼロと推定された係数β~βにそれぞれ対応する自己資本比率、債務償還年数、流動比率及び売上高金利負担率が所望の説明変数として選択される。
 本実施形態によれば、制約条件の設定により、自己資本比率、債務償還年数といった特定の説明変数候補が説明変数として必ず選択されるようにすることができる。すなわち、「特定の説明変数候補を説明変数として選択したい」という要請に応えることができる。さらに、制約条件を設定することで、特定の説明変数の影響度が大きくなり過ぎることを防ぎながら、変数選択を行うことができる。なお、符号条件が設定されている係数のうちの少なくとも一つについて、制約条件を設定することができる。
 [第3の実施形態]
 本実施形態において、変数選択装置1は、絞込み条件取得部と絞込み処理部(ともに不図示)をさらに備えている。そして、図7に示すように、ステップS104にて複数の説明変数が選択された場合に、同ステップにつづいてステップS301及びS302を行うことができる。
 ステップS301では、絞込み条件取得部が絞込み条件を取得する。絞込み条件とは、ステップS104にて複数の説明変数が選択された場合に、説明変数の個数を絞り込むための条件である。絞込み条件は、補助記憶装置56に記憶されている。絞込み条件の例として、以下のようなものが挙げられる。
 ・p値又はt値が一定の水準に満たない説明変数を除外する
 ・ステップS104にて選択された説明変数の組合せを初期値として、変数減少法により変数を削減する
 ステップS302では、絞込み条件にしたがって絞込み処理部が絞込み処理を行う。その結果、説明変数の個数が絞り込まれる。
 本実施形態によれば、絞込み条件を設定することで、統計的な有意性が高くない説明変数を除外することができる。そして、モデルの精度をほぼ維持しつつ、説明変数の個数がより少ないモデルを構築することができる。なお、統計的な有意性が高くない説明変数を除外しても、他の説明変数に対応する係数に与える影響は極めて小さい。そのため、絞込みによって符号条件が満たされなくなることはほとんどない。
 なお、図6に示したステップS103の後に、ステップS301及びS302を行うことも可能である。
 [第4の実施形態]
 以下、応答変数が3つ以上の値からなる順序尺度で表される場合に用いられる順序ロジットモデルに関する実施形態について説明する。処理の流れは図3とほぼ同様であるが、異なる点を以下に説明する。
 表6は、企業の格付を推定するための順序ロジットモデルの構築に用いられるモデル構築用データの例を示したものである。このデータはステップS101により取得される。
Figure JPOXMLDOC01-appb-T000019
 
 「格付」とは企業の債務返済能力の水準を符号で示したものであり、本実施例では1>2>3>4>・・・>Nrの順に信用力が高いことを表すものとする。ただし、Nrは格付数である。格付符号の表記は「AAA,AA+,AA,…」や「A格,B格,C格,…」などの文字情報で表されることもあるが、いずれも信用力の序列を表すものであり、本実施形態のように数値情報に置き換えることができる。
 順序ロジットモデルのように、企業の格付を推定するモデルは「格付推定モデル」と呼ばれる。格付推定モデルも信用評価モデルの一種である。
 順序ロジットモデルによって構築される格付推定モデルでは、企業iが格付sに属する確率の推定値が、以下のように表されると仮定する。
Figure JPOXMLDOC01-appb-M000020
 
 格付推定モデルの尤度関数L(θ)は、以下のように表すことができる。
Figure JPOXMLDOC01-appb-M000021
 
 格付推定モデルに関して、図3のステップS102にて取得される符号条件を考慮して、ステップS103の推定を行う場合、次の式によって変数選択用モデルの推定値を得る。
Figure JPOXMLDOC01-appb-M000022
 
 ただし、条件Cは第1の実施形態と同じである。L(θ)は上記尤度関数である。
 表7は、ステップS103によって得られるパラメータの例を示したものである。
Figure JPOXMLDOC01-appb-T000023
 
 この表の結果から、ステップS104において、自己資本比率、債務償還年数、売上高金利負担率、・・・が説明変数として選択されることとなる。
 このように、複数の線形予測子(Zi.s)と、応答変数の期待値又は応答変数がある値となる確率との関係が所定の関数により表される統計モデルにおいて、前記複数の線形予測子の各々が、複数の説明変数候補と前記複数の説明変数候補にそれぞれ対応する複数の係数との線形結合と、定数項との和により表される変数選択用モデルを用いて、前記複数の説明変数候補から所望の説明変数を選択するように、変数選択装置1を構成することができる。
 [第5の実施形態]
 応答変数が3つ以上の値からなる順序尺度で表される場合のモデル化の方法として、以下に述べる逐次ロジットモデルを用いることもできる。逐次ロジットモデルでは、格付がs以下か否かの確率を推定する二項ロジットモデルを複数用いて、各格付となる確率を推定する。処理の流れは図3と類似している。
Figure JPOXMLDOC01-appb-M000024
 
 逐次ロジットモデルに対する尤度関数は、pi,sが異なるだけで、順序ロジットモデルの尤度関数(式(11))とまったく同じ表式となる。
 逐次ロジットモデルに対して、ステップS102で取得される符号条件のみを考慮してステップS103の推定を行う場合、次の式によって変数選択用モデルのパラメータ推定値を得る。
Figure JPOXMLDOC01-appb-M000025
 
 ただし、条件Cは以下の通りである。
Figure JPOXMLDOC01-appb-M000026
 
 表8は、本実施例によって得られるパラメータの例を示したものである。
Figure JPOXMLDOC01-appb-T000027
 
 係数及び定数項は、Zi,s毎(格付毎)に推定され、ステップS104において選択される説明変数もZi,s毎に異なる。
 このように、複数の線形予測子(Zi,s)と、応答変数の期待値又は応答変数がある値となる確率との関係が所定の関数により表される統計モデルにおいて、前記複数の線形予測子のうち少なくとも一つ(例えば、Zi,2)が、複数の説明変数候補と前記複数の説明変数候補にそれぞれ対応する複数の係数との線形結合と、定数項との和により表される変数選択用モデルを用いて、前記複数の説明変数候補から所望の説明変数を選択するように、変数選択装置1を構成することができる。
 [第6の実施形態]
 これまでに述べた符号条件及び制約条件はいずれも、係数の取りうる値の集合を示すものであることから、以下では両者を一括して制約条件と呼ぶことにする。
 本実施形態における、係数が取りうる値の集合を係数毎に示す制約条件の例として以下のものが挙げられる。
  第1の制約条件: ゼロを端点として含む有限区間又は半無限区間
  第2の制約条件: ゼロを端点として含む有限区間又は半無限区間と、ゼロを含まない区間との和集合
  第3の制約条件: ゼロを孤立点として含み、かつゼロ以外の元をも含む集合
  第4の制約条件: あらゆる値の集合
 ここで、集合の孤立点とは、自身以外に当該集合の元が一つも含まれない近傍が存在する元のことである。
 次に制約条件の具体的な例を示す。以下の例において、βを、ある説明変数候補に対応する係数とし、τ、τ、τは全て正の数とし、τ≦τとする。
Figure JPOXMLDOC01-appb-M000028
 
 例1は、先に述べた第1の制約条件の例である。係数βの取りうる値の集合は、ゼロを左端とする半無限区間である。この制約条件によれば、係数βの推定値が正値となる場合のみ、当該係数に対応する説明変数候補が説明変数として選択される。
 例2も、先に述べた第1の制約条件の例である。係数βの取りうる値の集合は、ゼロを左端とする有限区間である。この制約条件によれば、係数βの推定値が正値となる場合のみ、当該係数に対応する説明変数候補が説明変数として選択され、かつ説明変数として選択される場合の係数βの最大値はτとなる。このような上限を設けることにより、係数βに対応する説明変数の、統計モデルにおける影響が大きくなり過ぎないようにすることができる。
 例3は、先に述べた第2の制約条件の例である。係数βの取りうる値の集合は、ゼロを右端とする半無限区間と、τを左端とする半無限区間(すなわちゼロを含まない区間)との和集合である。この制約条件によれば、係数βの推定値が負値又はτ以上の正値となる場合のみ、当該係数に対応する説明変数候補が説明変数として選択される。
 例4は、先に述べた第3の制約条件の例である。係数βの取りうる値の集合は、ゼロを孤立点として含み、かつゼロ以外の元(τを左端とする半無限区間に含まれる元)をも含む。この制約条件によれば、係数βの推定値が正値かつτ以上の場合のみ、当該係数に対応する説明変数候補が説明変数として選択される。係数の取りうる値の符号を指定する例1とは異なり、係数βの推定値がτ未満の正値となることがないため、有意性に乏しい説明変数候補が説明変数として選択されることを防ぐことができる。
 例5も、先に述べた第3の制約条件の例である。係数βの取りうる値の集合は、ゼロを孤立点として含み、かつゼロ以外の元(-τを右端とする半無限区間に含まれる元と、τを左端とする半無限区間に含まれる元)をも含む。この制約条件によれば、係数βに対応する説明変数候補が説明変数として選択される場合、係数βの推定値の絶対値はτ以上である。
 ところで、先に述べたように、「体重の期待値=α+β×身長+β×ウエスト」という統計モデルにおいては、係数β及び係数βの符号はいずれも正となることが期待される。このように、期待される符号のことを「自然な符号」と呼ぶことにする。しかし、あらゆる説明変数候補について自然な符号が仮定できるとは限らない。例えば、心拍数という別の説明変数候補を考えた場合、この説明変数候補に対応する係数について自然な符号を仮定することが難しい。このように、自然な符号を仮定することが困難な係数に対して、上記例5の制約条件は有益である。
 τ、τ、τは任意の方法で決定することができる。経験的に決定してもよいし、係数が一定以上の有意性を持つものとなるように理論的に定めてもよい。なお、例1~例5は、先に述べた第1から第3の制約条件の例示に過ぎない。
 図8は、本実施形態における係数推定のイメージ図の別の例である。この例では、予め設定された制約条件の下で尤度関数が最も大きくなるような係数の値が推定される。同図において、横軸は、ある説明変数候補に対応する係数βであり、縦軸は、別の説明変数候補に対応する係数βであり、尤度を等高線CLにより示している。領域Rから離れるほど尤度は減少する。
 係数β及びβの制約条件は以下の通りである。ただし、τ及びτはいずれも正の数とする。
  係数βの制約条件: β≦-τ or β=0 or τ≦β
  係数βの制約条件: β≦-τ or β=0 or τ≦β
 図8にはさらに、係数β及びβの取りうる値の集合に含まれる部分集合SS1~SS9を示している。各部分集合は以下のように表される。
  SS1: β≦-τかつτ≦β
  SS2: β≦-τかつβ=0
  SS3: β≦-τかつβ≦-τ
  SS4: β=0かつτ≦β
  SS5: β=0かつβ=0
  SS6: β=0かつβ≦-τ
  SS7: τ≦βかつτ≦β
  SS8: τ≦βかつβ=0
  SS9: τ≦βかつβ≦-τ
 このような制約条件の下で係数β及びβの推定が行われる。その結果、縦軸上の点Kが推定される。すなわち、係数βの推定値はゼロであり、係数βの推定値は負値かつ-τ以下である。つまり、係数βに対応する説明変数候補は説明変数として選択されず、係数βに対応する説明変数候補が説明変数として選択されることになる。
 [実施例1 線形重回帰モデルにおける変数選択]
 続いて、線形重回帰モデルにおける変数選択の実施例を説明する。線形重回帰モデルでは、応答変数の期待値が複数の説明変数の線形結合として表されると仮定する。モデル式は以下の通りである。
    E[Y]=α+β+β+・・・
 ただし、Yは応答変数であり、x(k=1,2,・・・)は説明変数候補であり、αは定数項であり、βは説明変数候補xに対応する係数である。この線形重回帰モデルにおいては、応答変数Yの期待値と線形予測子との関係を表す(リンク関数と呼ばれる)関数Fが恒等関数である。線形重回帰モデルの構築にあたっては、多数の説明変数候補の中から、説明力の高い説明変数の組み合わせを選択することが多い。
 表9は、線形重回帰モデルを構築する際に用いる複数のレコードを示したものである。
Figure JPOXMLDOC01-appb-T000029
 
 各レコードは、応答変数の実現値と複数の説明変数候補の実現値とを含んでいる。この例では説明変数候補の数を10個としているが、説明変数候補の数は問題によって異なり、数十個から数百個程度になる場合もある。
 本実施例では、係数の有意性を分かりやすくするため、説明変数候補は全て標準正規分布に従うように規格化されているものと仮定する。なお、一般には説明変数候補は規格化されておらず、説明変数候補毎に値の水準が異なるため、説明変数候補の有意性を対応する係数の絶対値から判断することはできない。本実施例は説明変数候補が規格化されていない場合でも、実施することができる。
 表10は、各係数の制約条件の例である。条件1~3のうち、一つのみが設定されている場合、その係数の取りうる値の集合は、設定されている当該一つの条件が示す集合である。条件1~3のうち、二つ以上が設定されている場合、その係数の取りうる値の集合は、設定されている当該二つ以上の条件がそれぞれ示す二つ以上の集合の和集合である。条件1~3のいずれも設定されていない場合、その係数の取りうる値の集合は、あらゆる値の集合である。
Figure JPOXMLDOC01-appb-T000030
 
 係数β~βの制約条件は、各係数の符号を定めた単純な制約条件である。
 係数βの制約条件によれば、当該係数の取りうる値の集合は、ゼロを孤立点として含み、かつゼロ以外の元をも含む。係数β及びβについても同様である。
 係数βの制約条件によれば、当該係数の取りうる値の集合にゼロが含まれない。係数βについても同様である。すなわち、係数βに対応する説明変数候補xと、係数βに対応する説明変数候補xとは、必ず説明変数として選択されることになる。
 なお、係数β10について条件1~3の全てが課されておらず、あらゆる値をとることができる。これは、係数β10の取り得る値として「全ての値」という集合を指定した制約条件の一種とみなすことができる。
 表11は、表10の制約条件の下で得られたパラメータ(定数項α及び係数β)の推定値である。
Figure JPOXMLDOC01-appb-T000031
 
 表11に示すように、係数β~βの各々の推定値は非ゼロである。
 係数βの推定値はゼロである。すなわち、説明変数候補xは説明変数として選択されない。
 係数βについては、絶対値が0.5以上となる推定値が得られず、推定値がゼロとなっている。すなわち、説明変数候補xは説明変数として選択されない。
 係数βは、制約条件における条件3の下限値である1.0と推定されている。
 係数βについては、制約条件における条件1の上限値である-1.5と推定されている。
 係数βについては、制約条件における条件1の下限値である1.0と推定されている。
 以上のように、全ての係数の推定値は、対応する制約条件を満たしている。
 表11に示したように、係数β及びβ10の各推定値はゼロではないものの、その絶対値が比較的小さいことから、説明変数候補x及びx10の有意性は低いと考えられる。「絶対値が小さいから有意性が低い」と言えるのは、先に述べたように説明変数が規格化されているためである。
 次に、表10に示した制約条件のうち、係数β及びβ10の制約条件を変更したものを表12に示す。
Figure JPOXMLDOC01-appb-T000032
 
 そして、表12の制約条件の下で得られたパラメータ(定数項α及び係数β)の推定値を表13に示す。
Figure JPOXMLDOC01-appb-T000033
 
 係数β及びβ10の制約条件を変更したことにより、対応する説明変数候補x及びx10が説明変数として選択されなくなった。つまり、パラメータ推定と同時に、有意性が低い説明変数候補x及びx10をモデルから取り除くことができている。これは、係数β及びβ10の取りうる値の集合にゼロが孤立点として含まれるように、両係数の制約条件を変更したことによる。
 [実施例2 ロジスティック回帰モデルにおける変数選択]
 続いて、ロジスティック回帰モデルにおける変数選択の実施例を説明する。ロジスティック回帰モデルは、ある事象が発生する確率を推定するモデルであり、以下のようなモデル式で表される。
Figure JPOXMLDOC01-appb-M000034
 
 ただし、iはサンプルIDであり、Xi,kは、サンプルiの第k番目の説明変数候補Xであり、線形予測子Zはサンプルiのスコアであり、Pは、サンプルiで当該事象が発生する確率の推定値である。また、αは定数項であり、βは第k番目の説明変数候補Xに対応する係数である。
 上記事象及び説明変数候補はモデル化しようとする対象によって異なるが、本実施例は事象及び説明変数候補によらず適用可能である。例えば、融資先企業の貸し倒れという事象に対して、対象企業の各種財務指標を説明変数候補とすることができる。
 θをパラメータベクトル、すなわちθ=(α,β,β,・・・)とすると、各係数に制約条件を設けない場合の最尤推定量は、次式で与えられる。
Figure JPOXMLDOC01-appb-M000035
 
 ただし、Dは、サンプルiにおける当該事象の発生フラグであり、本モデルの応答変数である。サンプルiにおいて当該事象が発生している場合はD=1であり、さもなければD=0である。Nはサンプル数である。
 表14は、ロジスティック回帰モデルの構築に用いるデータの例を示したものである。各レコードは、応答変数である発生フラグDの実現値と複数の説明変数候補の実現値とを含んでいる。
Figure JPOXMLDOC01-appb-T000036
 
 表15は、各係数に対する制約条件の例である。各係数の制約条件が示す集合は、条件1が示す集合と条件2が示す集合との和集合である。
Figure JPOXMLDOC01-appb-T000037
 
 この例では、全ての係数について、自然な符号として正の符号が仮定されているものとする。加えて、各係数に対応する説明変数候補が説明変数として選択される場合には当該説明変数が一定の有意性を持つようにするために、「1.0以上又は0」という制約条件を課している。この制約条件が示す集合は、ゼロを孤立点として含む。表15の制約条件(C15)を式で書けば、以下のようになる。
Figure JPOXMLDOC01-appb-M000038
 
 なお、この例では全ての係数について同じ制約条件を課したが、係数毎に異なる条件を課してもよい。
 本実施例では、次の式によってパラメータ(定数項α及び係数β)の推定値を得る。
Figure JPOXMLDOC01-appb-M000039
 
 こうした制約条件の下で最大の尤度を探索するアルゴリズムは様々なものが考えられるが、本実施例ではどのようなアルゴリズムを用いてもよい。
 表16は、制約条件C15の下で得られたパラメータの推定値をまとめたものである。係数βからβ100のうち、推定値が非ゼロとなっている係数に対応する説明変数候補が説明変数として選択されることになる。この例では、係数β及びβがゼロと推定されており、説明変数候補x及びxは説明変数として選択されないことがわかる。また、係数β100は、対応する制約条件における条件1の下限値である1.0と推定されている。
Figure JPOXMLDOC01-appb-T000040
 
 表15に示した制約条件を一部変更したものを表17に示す。具体的には、各係数の条件1における下限値が1.0から2.0に変更されている。そして、表17の制約条件の下で得られたパラメータ(定数項α及び係数β)の推定値を表18に示す。
Figure JPOXMLDOC01-appb-T000041
 
Figure JPOXMLDOC01-appb-T000042
 
 係数β、β、β100の推定値はゼロであることから、説明変数候補x、x、x100が説明変数として選択されないことがわかる。
 係数βの推定値は、表16においては非ゼロであったものの、表18においてはゼロとなっている。対照的に、係数βの推定値は、表16においてはゼロであったものの、表18においては非ゼロとなっている。このように、制約条件によって、係数β及びβに対応する説明変数候補の選択結果が逆転している。これは、選択される説明変数の組み合わせによって係数の推定値が変わることによる。
 制約条件を厳しくすることにより、選択される説明変数の数を減らすことができる。例えば、表15の制約条件の下では40個の説明変数が選択され、表15の制約条件よりも厳しい表17の制約条件の下では23個の説明変数が選択される。あるいは、選択したい説明変数の数を予め想定しておいて、選択される説明変数の数が想定される数に一致するように、制約条件を定めることもできる。
 本実施形態における説明変数の選択は、図9に示す変数選択装置1aにより行われる。図1と同じ要素には同じ符号を付している。変数選択装置1aは、レコード取得部10と制約条件取得部50と推定部30と選択部40とを備えている。制約条件取得部50は、制約条件を取得する処理を行う。レコード取得部10と推定部30と選択部40とが行う処理は先に述べた通りである。
 本実施形態は、実施例1及び2に限定されるものではない。本実施形態によれば、自然な符号を仮定することが困難な係数に対応する説明変数候補が変数選択モデルに含まれる場合であっても、説明変数の選択を効率的に行うことができる。これは、係数の取りうる値の集合がゼロを孤立点として含むように、制約条件を定めることによる。変数選択モデルにおいて、全ての説明変数候補にそれぞれ対応する全ての係数について自然な符号を仮定することが困難な場合には特に本実施形態は有益である。
 また、本実施形態によれば、有意性が高い説明変数を優先的に選択することができる。先に述べた絞込み処理を行わなくても、パラメータ推定の際に、有意性が比較的低い説明変数候補に対応する係数の推定値はゼロとなり、説明変数の選択を効率的に行うことができる。これは、係数の取りうる値の集合がゼロを孤立点として含むように制約条件を定めると、有意性が低い説明変数候補の係数の推定値がゼロとなる可能性が高まるからである。なお、推定後に絞込み処理を行ってもよい。
 加えて、制約条件を変えることにより、選択される説明変数の数を変えることができる。制約条件を厳しくすることにより、選択される説明変数の数(すなわち、係数の推定値が非ゼロの説明変数候補)を減らすことができる。
 本実施形態は、線形回帰モデル及びロジスティック回帰モデルだけではなく、二項ロジットモデル及び順序ロジットモデルを含む一般化線形モデルに適用することができる。
 [その他]
 変数選択にあたり、元になる指標をそのまま説明変数候補としてもよいが、必要に応じて、元になる指標の累乗を説明変数候補としてもよい。あるいは、元になる指標を対数変換したものを説明変数候補としてもよい。
 式(4)において、応答変数がある値となる確率が関数Fの引数となっている。しかし、応答変数の期待値を関数Fの引数とすることも可能である。
 第6の実施形態における制約条件は、全ての係数について係数毎に設定することができる。係数毎に、先に述べた第1~第4の制約条件のいずれか又はその他の制約条件を設定することができる。あるいは、複数の係数の各々が取りうる値の集合が同一である場合は、その複数の係数に対して一つの制約条件を設定することもできる。いずれにしても、複数の係数の各々が取りうる値の集合が定まっていればよい。
 補助記憶装置56に限らず、変数選択装置1の内部又は外部に設けた記憶装置に符号条件を記憶することができる。モデル構築用データ、制約条件及び絞込み条件についても同様である。モデル構築用データ、符号条件、制約条件及び絞込み条件を同一の記憶装置に記憶してもよいし、複数の記憶装置に分散させて記憶してもよい。
 レコード取得部10は必須ではない。推定部40が、複数の説明変数候補の実現値と、応答変数の実現値とを含む複数のデータを用いて、推定値の算出を行うことができるようになっていればよい。
 第4の実施形態及び第5の実施形態において、制約条件に基づいた推定と絞込み条件に基づく絞込み処理とのいずれか又は両方をさらに行ってもよい。
 本明細書に開示した実施形態は、装置としての側面だけではなく、方法としての側面及びコンピュータプログラムとしての側面をも有している。
 本発明は、一般化線形モデルに限らず、線形予測子を用いて表現される、より広範な統計モデルに対して適用することができる。
 以上、本発明の実施形態につき述べたが、本発明は既述の実施の形態に限定されるものではなく、本発明の技術的思想に基づいて各種の変形及び変更が可能である。
1   変数選択装置
10  レコード取得部
20  符号条件取得部
30  推定部
40  選択部
51  CPU
52  インタフェース装置
53  表示装置
54  入力装置
55  ドライブ装置
56  補助記憶装置
57  メモリ装置
58  バス
59  記録媒体

Claims (12)

  1.  線形予測子と、応答変数の期待値又は応答変数がある値となる確率との関係が所定の関数により表される統計モデルにおいて、
     前記線形予測子が、複数の説明変数候補と前記複数の説明変数候補にそれぞれ対応する複数の係数との線形結合と、定数項との和により表される変数選択用モデルを用いて、
     前記複数の説明変数候補から所望の説明変数を選択する装置であって、
     前記複数の係数の各々が取りうる値の集合を示す制約条件を取得する制約条件取得部であって、前記複数の係数のうちの少なくとも一つの係数に対する前記集合が、ゼロを孤立点として含み、かつゼロ以外の元をも含む、制約条件取得部と、
     前記複数の説明変数候補の実現値と、前記応答変数の実現値とを含む複数のデータを用いて、前記制約条件の下で、前記複数の係数の推定値及び前記定数項の推定値を算出する推定部と、
     推定値が非ゼロと算出された係数に対応する前記説明変数候補を前記所望の説明変数として選択する選択部と
     を備えた装置。
  2.  複数の線形予測子と、応答変数の期待値又は応答変数がある値となる確率との関係が所定の関数により表される統計モデルにおいて、
     前記複数の線形予測子のうち少なくとも一つが、複数の説明変数候補と前記複数の説明変数候補にそれぞれ対応する複数の係数との線形結合と、定数項との和により表される変数選択用モデルを用いて、
     前記複数の説明変数候補から所望の説明変数を選択する装置であって、
     前記複数の係数の各々が取りうる値の集合を示す制約条件を取得する制約条件取得部であって、前記複数の係数のうちの少なくとも一つの係数に対する前記集合が、ゼロを孤立点として含み、かつゼロ以外の元をも含む、制約条件取得部と、
     前記複数の説明変数候補の実現値と、前記応答変数の実現値とを含む複数のデータを用いて、前記制約条件の下で、前記複数の係数の推定値及び前記定数項の推定値を算出する推定部と、
     推定値が非ゼロと算出された係数に対応する前記説明変数候補を前記所望の説明変数として選択する選択部と
     を備えた装置。
  3.  前記推定部が、前記制約条件の下で、前記変数選択用モデルの尤度関数が最大となるときの前記複数の係数の値及び前記定数項の値を前記推定値とするものである、請求項1又は2に記載の装置。
  4.  前記選択部により複数の前記説明変数が選択された場合に、
     前記説明変数の個数を絞り込むための所定の絞込み条件を取得する絞込み条件取得部と、
     前記絞込み条件に基づいて前記説明変数の個数を絞り込む絞込み処理部と
     をさらに備えた請求項1~3のいずれか一項に記載の装置。
  5.  線形予測子と、応答変数の期待値又は応答変数がある値となる確率との関係が所定の関数により表される統計モデルにおいて、
     前記線形予測子が、複数の説明変数候補と前記複数の説明変数候補にそれぞれ対応する複数の係数との線形結合と、定数項との和により表される変数選択用モデルを用いて、
     前記複数の説明変数候補から所望の説明変数を選択する方法であって、
     前記方法は、制約条件取得部と推定部と選択部とを備えた装置により行われ、
     前記制約条件取得部が、前記複数の係数の各々が取りうる値の集合を示す制約条件を取得する制約条件取得ステップであって、前記複数の係数のうちの少なくとも一つの係数に対する前記集合が、ゼロを孤立点として含み、かつゼロ以外の元をも含む、制約条件取得ステップと、
     前記推定部が、前記複数の説明変数候補の実現値と、前記応答変数の実現値とを含む複数のデータを用いて、前記制約条件の下で、前記複数の係数の推定値及び前記定数項の推定値を算出する推定ステップと、
     前記選択部が、推定値が非ゼロと算出された係数に対応する前記説明変数候補を前記所望の説明変数として選択する選択ステップと
     を含む方法。
  6.  複数の線形予測子と、応答変数の期待値又は応答変数がある値となる確率との関係が所定の関数により表される統計モデルにおいて、
     前記複数の線形予測子のうち少なくとも一つが、複数の説明変数候補と前記複数の説明変数候補にそれぞれ対応する複数の係数との線形結合と、定数項との和により表される変数選択用モデルを用いて、
     前記複数の説明変数候補から所望の説明変数を選択する方法であって、
     前記方法は、制約条件取得部と推定部と選択部とを備えた装置により行われ、
     前記制約条件取得部が、前記複数の係数の各々が取りうる値の集合を示す制約条件を取得する制約条件取得ステップであって、前記複数の係数のうちの少なくとも一つの係数に対する前記集合が、ゼロを孤立点として含み、かつゼロ以外の元をも含む、制約条件取得ステップと、
     前記推定部が、前記複数の説明変数候補の実現値と、前記応答変数の実現値とを含む複数のデータを用いて、前記制約条件の下で、前記複数の係数の推定値及び前記定数項の推定値を算出する推定ステップと、
     前記選択部が、推定値が非ゼロと算出された係数に対応する前記説明変数候補を前記所望の説明変数として選択する選択ステップと
     を含む方法。
  7.  前記推定ステップが、前記制約条件の下で、前記変数選択用モデルの尤度関数が最大となるときの前記複数の係数の値及び前記定数項の値を前記推定値とするステップである、請求項5又は6に記載の方法。
  8.  前記装置は、絞込み条件取得部と絞込み処理部とをさらに備え、
     前記選択ステップにおいて複数の前記説明変数が選択された場合に、
     前記絞込み条件取得部が、前記説明変数の個数を絞り込むための所定の絞込み条件を取得する絞込み条件取得ステップと、
     前記絞込み処理部が、前記絞込み条件に基づいて前記説明変数の個数を絞り込む絞込みステップと
     をさらに含む請求項5~7のいずれか一項に記載の方法。
  9.  線形予測子と、応答変数の期待値又は応答変数がある値となる確率との関係が所定の関数により表される統計モデルにおいて、
     前記線形予測子が、複数の説明変数候補と前記複数の説明変数候補にそれぞれ対応する複数の係数との線形結合と、定数項との和により表される変数選択用モデルを用いて、
     前記複数の説明変数候補から所望の説明変数を選択するプログラムであって、
     前記複数の係数の各々が取りうる値の集合を示す制約条件を取得する制約条件取得ステップであって、前記複数の係数のうちの少なくとも一つの係数に対する前記集合が、ゼロを孤立点として含み、かつゼロ以外の元をも含む、制約条件取得ステップと、
     前記複数の説明変数候補の実現値と、前記応答変数の実現値とを含む複数のデータを用いて、前記制約条件の下で、前記複数の係数の推定値及び前記定数項の推定値を算出する推定ステップと、
     推定値が非ゼロと算出された係数に対応する前記説明変数候補を前記所望の説明変数として選択する選択ステップと
     をコンピュータに実行させるプログラム。
  10.  複数の線形予測子と、応答変数の期待値又は応答変数がある値となる確率との関係が所定の関数により表される統計モデルにおいて、
     前記複数の線形予測子のうち少なくとも一つが、複数の説明変数候補と前記複数の説明変数候補にそれぞれ対応する複数の係数との線形結合と、定数項との和により表される変数選択用モデルを用いて、
     前記複数の説明変数候補から所望の説明変数を選択するプログラムであって、
     前記複数の係数の各々が取りうる値の集合を示す制約条件を取得する制約条件取得ステップであって、前記複数の係数のうちの少なくとも一つの係数に対する前記集合が、ゼロを孤立点として含み、かつゼロ以外の元をも含む、制約条件取得ステップと、
     前記複数の説明変数候補の実現値と、前記応答変数の実現値とを含む複数のデータを用いて、前記制約条件の下で、前記複数の係数の推定値及び前記定数項の推定値を算出する推定ステップと、
     推定値が非ゼロと算出された係数に対応する前記説明変数候補を前記所望の説明変数として選択する選択ステップと
     をコンピュータに実行させるプログラム。
  11.  前記推定ステップが、前記制約条件の下で、前記変数選択用モデルの尤度関数が最大となるときの前記複数の係数の値及び前記定数項の値を前記推定値とするステップである、請求項9又は10に記載のプログラム。
  12.  前記選択ステップにおいて複数の前記説明変数が選択された場合に、
     前記説明変数の個数を絞り込むための所定の絞込み条件を取得する絞込み条件取得ステップと、
     前記絞込み条件に基づいて前記説明変数の個数を絞り込む絞込みステップと
     をさらに含む請求項9~11のいずれか一項に記載のプログラム。
PCT/JP2017/046865 2016-12-28 2017-12-27 説明変数を選択する装置、方法及びプログラム WO2018124170A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/473,743 US20210133277A1 (en) 2016-12-28 2017-12-27 Apparatus, method, and program for selecting explanatory variables

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016256233A JP6246889B1 (ja) 2016-12-28 2016-12-28 説明変数を選択する装置、方法及びプログラム
JP2016-256233 2016-12-28

Publications (1)

Publication Number Publication Date
WO2018124170A1 true WO2018124170A1 (ja) 2018-07-05

Family

ID=60659021

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/046865 WO2018124170A1 (ja) 2016-12-28 2017-12-27 説明変数を選択する装置、方法及びプログラム

Country Status (3)

Country Link
US (1) US20210133277A1 (ja)
JP (1) JP6246889B1 (ja)
WO (1) WO2018124170A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021260982A1 (ja) * 2020-06-22 2021-12-30 株式会社日立製作所 予測システムおよび予測方法
US11410064B2 (en) 2020-01-14 2022-08-09 International Business Machines Corporation Automated determination of explanatory variables

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11308411B2 (en) 2018-05-04 2022-04-19 Wisconsin Alumni Research Foundation Systems methods and media for automatically identifying entrepreneurial individuals in a population using individual and population level data
JP7243084B2 (ja) * 2018-08-31 2023-03-22 株式会社リコー 学習方法、プログラムおよび学習装置
WO2021157669A1 (ja) * 2020-02-04 2021-08-12 国立大学法人 東京大学 回帰分析装置、回帰分析方法及びプログラム
JP7388230B2 (ja) 2020-02-17 2023-11-29 富士通株式会社 混合物性能最適化装置、混合物性能最適化プログラム、混合物性能最適化方法、及び混合冷媒

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008204214A (ja) * 2007-02-21 2008-09-04 Hitachi East Japan Solutions Ltd 信用リスク計算装置、および、信用リスク計算方法
JP2011145905A (ja) * 2010-01-15 2011-07-28 Nec Corp 予測関数生成装置、方法、及び、プログラム
US20120143796A1 (en) * 2010-12-03 2012-06-07 International Business Machines Corporation Group variable selection in spatiotemporal modeling

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008204214A (ja) * 2007-02-21 2008-09-04 Hitachi East Japan Solutions Ltd 信用リスク計算装置、および、信用リスク計算方法
JP2011145905A (ja) * 2010-01-15 2011-07-28 Nec Corp 予測関数生成装置、方法、及び、プログラム
US20120143796A1 (en) * 2010-12-03 2012-06-07 International Business Machines Corporation Group variable selection in spatiotemporal modeling

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11410064B2 (en) 2020-01-14 2022-08-09 International Business Machines Corporation Automated determination of explanatory variables
WO2021260982A1 (ja) * 2020-06-22 2021-12-30 株式会社日立製作所 予測システムおよび予測方法
JP2022002063A (ja) * 2020-06-22 2022-01-06 株式会社日立製作所 予測システムおよび予測方法
JP7001766B2 (ja) 2020-06-22 2022-01-20 株式会社日立製作所 予測システムおよび予測方法

Also Published As

Publication number Publication date
JP6246889B1 (ja) 2017-12-13
US20210133277A1 (en) 2021-05-06
JP2018109805A (ja) 2018-07-12

Similar Documents

Publication Publication Date Title
JP6246889B1 (ja) 説明変数を選択する装置、方法及びプログラム
Calabrese et al. Modelling small and medium enterprise loan defaults as rare events: the generalized extreme value regression model
Daye et al. High-dimensional heteroscedastic regression with an application to eQTL data analysis
De Jongh et al. The impact of pre-selected variance in ation factor thresholds on the stability and predictive power of logistic regression models in credit scoring
US8015057B1 (en) Method and system for analyzing service outsourcing
WO2017073445A1 (ja) 説明変数を選択する装置、方法及びプログラム
JP4391506B2 (ja) 評価装置、評価方法及び評価プログラム
JP2016004525A (ja) データ分析システム及びデータ分析方法
US10685260B1 (en) Interactive modeling application adapted for execution via distributed computer-based systems
JP2013143031A (ja) 予測方法、予測システムおよびプログラム
US11195135B2 (en) Systems and methods for ranking entities
Du et al. Influence of intensity measure selection on simulation-based regional seismic risk assessment
JP2011215927A (ja) 生産性評価装置、生産性評価方法およびプログラム
JP2001125962A (ja) 企業診断及び経営意思決定支援システム
Tian et al. Multiethnic polygenic risk prediction in diverse populations through transfer learning
US20170046460A1 (en) Scoring a population of examples using a model
WO2017073446A1 (ja) 説明変数値を算出する装置、方法及びプログラム
KR101851367B1 (ko) 신용도를 평가하는 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
JP6012860B2 (ja) 作業時間推定装置
JP7276483B2 (ja) 学習装置、分類装置、学習方法及び学習プログラム
JP6771513B2 (ja) 債務不履行確率を算出する装置、方法及びそのためのプログラム
Berteloot et al. A novel credit rating migration modeling approach using macroeconomic indicators
JP6729703B2 (ja) 情報提示方法、装置、及びプログラム
Basiri Optimal number of failures in Type II censoring for rayleigh distribution
Benito et al. Assessing the importance of the choice threshold in quantifying market risk under the POT approach (EVT)

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17887082

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17887082

Country of ref document: EP

Kind code of ref document: A1