WO2017163277A1 - 情報処理システム、情報処理方法および情報処理プログラム - Google Patents

情報処理システム、情報処理方法および情報処理プログラム Download PDF

Info

Publication number
WO2017163277A1
WO2017163277A1 PCT/JP2016/001751 JP2016001751W WO2017163277A1 WO 2017163277 A1 WO2017163277 A1 WO 2017163277A1 JP 2016001751 W JP2016001751 W JP 2016001751W WO 2017163277 A1 WO2017163277 A1 WO 2017163277A1
Authority
WO
WIPO (PCT)
Prior art keywords
prediction
variable
information processing
prediction target
contribution
Prior art date
Application number
PCT/JP2016/001751
Other languages
English (en)
French (fr)
Inventor
洋介 本橋
圭介 梅津
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2018506499A priority Critical patent/JP6604431B2/ja
Priority to US16/070,956 priority patent/US20190034945A1/en
Priority to PCT/JP2016/001751 priority patent/WO2017163277A1/ja
Publication of WO2017163277A1 publication Critical patent/WO2017163277A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Definitions

  • the present invention relates to an information processing system, an information processing method, and an information processing program for analyzing factors that can contribute to a prediction target.
  • POS data for example, there is a method of using a totaling tool having a function like a pivot table of EXCEL (registered trademark).
  • EXCEL registered trademark
  • the number of sales of products can be tabulated from various viewpoints, such as every store, every season, and every product, and sales can be made from a micro perspective to a macro perspective. It is possible to freely analyze the contributing factors.
  • Tableau registered trademark
  • SAS registered trademark
  • SPSS registered trademark
  • Patent Document 1 describes a system for counting unspecified majority persons using a plurality of data.
  • the system described in Patent Literature 1 obtains the number of visitors by counting the number of visitors to a predetermined location based on the input data, and estimates the characteristics of the visitors based on the input data. Get the data.
  • the number of visitors to a predetermined place can be counted based on input data.
  • the technique described in Patent Document 1 does not consider analyzing what factor contributes to the number of visitors with respect to the number of visitors to a predetermined place.
  • an object of the present invention is to provide an information processing system, an information processing method, and an information processing program that can analyze factors that can contribute to a prediction target.
  • An information processing system is an information processing system that predicts a prediction target specified by a plurality of classifications using a prediction model including a variable that can affect the prediction target, and accepts a classification that specifies the prediction target A receiving unit and a totaling unit that totals, for each variable, a degree of contribution determined by a prediction model corresponding to the prediction target for the prediction target specified by the received classification among the prediction targets.
  • An information processing method is an information processing method for predicting a prediction target specified by a plurality of classifications using a prediction model including a variable that can affect the prediction target, and accepts a classification for specifying the prediction target For the prediction target specified by the accepted classification among the prediction targets, the contribution determined by the prediction model corresponding to the prediction target is aggregated for each variable.
  • An information processing program is an information processing program applied to a computer that predicts a prediction target specified by a plurality of classifications using a prediction model including a variable that can affect the prediction target.
  • the factors that can contribute to the prediction target can be analyzed.
  • the prediction model is generally used to predict the result, and a large amount of the prediction model itself is not usually used for factor analysis.
  • a prediction model is learned for each prediction target, if there are a large number of prediction targets, a large number of prediction models also exist.
  • the present inventor has come up with the idea of analyzing factors that can contribute to a prediction target by aggregating a large number of prediction models.
  • each prediction target is predicted using a prediction model, and the prediction model has been learned in advance from past performance data or the like.
  • One prediction model is associated with one prediction target.
  • the prediction model is information representing the correlation between explanatory variables and objective variables.
  • a prediction model is a component for predicting the result of a prediction object, for example by calculating the target variable based on an explanatory variable.
  • the prediction model is generated by a learning device by using learning data and an arbitrary parameter for which the value of the objective variable has already been obtained.
  • the prediction model may be represented by, for example, a function c that maps the input x to the correct answer y.
  • the prediction model may predict a numerical value to be predicted or may predict a label to be predicted.
  • the prediction model may output a variable describing the probability distribution of the objective variable.
  • the prediction model may be described as “model”, “learning model”, “estimation model”, “prediction formula”, “estimation formula”, or the like.
  • the prediction model is represented by a prediction formula including one or more explanatory variables indicating factors that can contribute to the prediction result of the prediction target.
  • the objective variable is represented by a linear regression equation including a plurality of explanatory variables.
  • the objective variable corresponds to the correct answer y
  • the explanatory variable corresponds to the input y.
  • the maximum number of explanatory variables included in one prediction model may be limited for the purpose of improving the interpretability of the prediction model or preventing overlearning.
  • the prediction formula used for predicting one prediction target is not limited to one, and the prediction predictor is used as the prediction model when the prediction formula is selected according to the value of the explanatory variable. May be.
  • the prediction target belongs to one or more classifications specified by the user.
  • the classification may be single or hierarchical.
  • the prediction target is, for example, “the number of sales of orange juice sold at store A in Tokyo”.
  • the prediction target is specified by a classification of a store (Tokyo> A store) and a classification of a product (beverage> fruit juice> orange juice).
  • the symbol indicated by “>” indicates that the classification has a hierarchical structure.
  • the forecast target is, for example, “the number of sales of company A private brand ballpoint pens sold in March 2016 at store B managed by company A”.
  • the prediction targets are the classification of sales stores (Company A is management> B stores), the classification of sales times (2016> March 2016), and the classification of products (A company private brand> stationery> ballpoint pen) Specified by.
  • FIG. FIG. 1 is a block diagram showing a configuration example of a first embodiment of an information processing system according to the present invention.
  • the information processing system 100 includes a receiving unit 10, a totaling unit 20, a storage unit 30, and an output unit 40.
  • the storage unit 30 stores a prediction model for each prediction target.
  • 2 to 5 are explanatory diagrams illustrating examples of information stored in the storage unit 30.
  • FIG. The storage unit 30 may store the prediction target and the classification in association with each other.
  • the storage unit 30 may store actual measurement values of explanatory variables.
  • the actual measured value of the explanatory variable means the value of each explanatory variable actually measured as exemplified in FIG.
  • FIG. 2 shows an example in which the storage unit 30 stores the prediction target and a plurality of classifications in association with each other.
  • the prediction target is uniquely identified by the prediction target ID, and the classification “store”, “product”, and “time” are associated with each prediction target ID.
  • FIG. 3 shows examples of explanatory variables.
  • FIG. 4 illustrates an example in which the storage unit 30 stores a prediction model to be predicted.
  • the explanatory variables illustrated in FIG. 3 are used in the prediction model illustrated in FIG.
  • the vertical direction of the table indicates the prediction target
  • the horizontal direction of the table indicates the weight of the explanatory variable indicating the prediction model of the prediction target.
  • the prediction model is a linear regression equation
  • FIG. 5 shows a specific example of actually measured values of explanatory variables.
  • the explanatory variable X 10 is a variable representing “the highest temperature of the day”
  • the actual measurement value illustrated in FIG. 5 is the value of the highest temperature actually measured for each day.
  • the total periods of the measured values and the explanatory variables are different, the actual values may be totaled according to a predetermined rule, and the total result may be used as the actual measured value of the explanatory variable.
  • the explanatory variable is “the highest temperature of the month” and the measured value is “the highest temperature of each day”
  • the highest temperature in the month may be specified and the value may be used as the measured value.
  • the storage unit 30 is realized by, for example, a magnetic disk device.
  • the output unit 40 outputs the result of counting by the counting unit 20. Further, the output unit 40 may accept an input from the user for the output result.
  • the output unit 40 is realized by a display device or a touch panel, for example.
  • the accepting unit 10 accepts a classification that identifies a prediction target.
  • the reception unit 10 receives a classification for specifying a prediction target for analyzing a factor.
  • the number of classifications accepted is not limited to one, and may be plural.
  • the receiving unit 10 may receive not only the lowest classification but also the higher classification.
  • the receiving unit 10 may display candidate classifications on the output unit 40 and receive one or more classifications selected by the user.
  • the reception unit 10 may receive a classification via a communication network.
  • the aggregation unit 20 identifies a prediction target based on the received classification, and identifies a prediction model of the identified prediction target. Specifically, the totaling unit 20 specifies a prediction model to be predicted from the storage unit 30.
  • the totaling unit 20 totals the weights of the explanatory variables for each explanatory variable included in the identified prediction model. Specifically, the totaling unit 20 totals the weights of each explanatory variable by calculating the sum of the weights for each explanatory variable included in the identified prediction model.
  • the prediction formula is expressed by a linear regression formula
  • the weight of the explanatory variable corresponds to the coefficient, and therefore the totaling unit 20 totals the coefficient of the explanatory variable for each explanatory variable.
  • the weight specified for each explanatory variable or the aggregated value of the weights aggregated from a predetermined viewpoint is used as the contribution of the explanatory variable. Described as degrees.
  • the contribution of the explanatory variable may be simply referred to as contribution.
  • the sum of weights for each explanatory variable included in the specified prediction target prediction model is referred to as a first contribution.
  • FIG. 7 is an explanatory diagram illustrating an example of processing for calculating the sum of the weights of the explanatory variables (first contribution).
  • three types of prediction targets T 1 to T 3 are specified, and the respective prediction formulas Y 1 to Y 3 are also specified.
  • the specified three prediction equations include four types of explanatory variables x 1 to x 4 in total. Note that not all explanatory variables need to be included in each prediction formula.
  • the totaling unit 20 calculates the sum of the weights of each explanatory variable. In the example shown in FIG. 7, the totaling unit 20 calculates the sum of the coefficients for each of the explanatory variables x 1 to x 4 .
  • the aggregation unit 20 outputs the aggregation result to the output unit 40.
  • the coefficient value may be used as the weight instead of the absolute value of the coefficient.
  • the weight may be a signed value.
  • the totaling unit 20 may calculate the sum of the weights of each explanatory variable while canceling out the positive coefficient and the negative coefficient (that is, by performing addition / subtraction in accordance with the sign).
  • the totaling unit 20 may total the positive contribution and the negative contribution separately for a certain explanatory variable. In this way, by summing up the contributions for each code for one explanatory variable, the totaling unit 20 makes it possible to use one explanatory variable from the viewpoint of two explanatory variables.
  • the aggregation unit 20 may standardize the coefficients included in each prediction formula. Specifically, the totaling unit 20 may correct each coefficient so that the total value of the coefficients of each prediction formula is 1 (that is, the average is 0 and the variance is 1). For example, if the prediction formula Y 1 illustrated in FIG. 7, the aggregation unit 20 normalizes the coefficients a 11, a 12, a 13 contained in Y 1. Note that the standardization may be performed on the calculated sum of weights after calculating the sum of the weights of each explanatory variable.
  • the totaling unit 20 may calculate the ratio of the calculated contributions (first contributions) of each explanatory variable. Specifically, the totaling unit 20 may calculate the ratio of the first contribution degree of each explanatory variable to the total sum of the first contribution degrees for each explanatory variable. For example, it is assumed that there is a prediction formula illustrated in FIG. 7, and the first contributions of the explanatory variables x 1 to x 4 are w 1 to w 4 , respectively.
  • the aggregation unit 20 is, for example, a first percentage of contribution w 1 explanatory variables x 1, may be calculated by w 1 / w 1 + w 2 + w 3 + w 4. The calculation method of the ratio of the first contribution of other explanatory variables is the same.
  • the totaling unit 20 may standardize the calculated contribution degree of each explanatory variable. Specifically, the totaling unit 20 may correct the respective contributions so that the total value of the contributions of each explanatory variable is 1 (that is, the average is 0 and the variance is 1). For example, in the case of the example illustrated in FIG. 7, the totaling unit 20 standardizes the calculated explanatory variables w 1 , w 2 , w 3 , and w 4 . Such standardization makes it possible to compare with other contributions having different scales.
  • the aggregation unit 20 standardizes the coefficients of the respective prediction formulas or calculates the ratio of the contribution degree, so that the comparison with the contribution degree of other explanatory variables becomes easy.
  • the receiving unit 10, the totaling unit 20, and the output unit 40 are realized by a CPU of a computer that operates according to a program (information processing program).
  • the program may be stored in the storage unit 30, and the CPU may read the program and operate as the receiving unit 10 and the counting unit 20 according to the program.
  • the function of the information processing system may be provided in the SaaS (SoftwareSas Service) format.
  • each of the receiving unit 10, the totaling unit 20, and the output unit 40 may be realized by dedicated hardware.
  • a part or all of each component of each device may be realized by a general-purpose or dedicated circuit (circuitry), a processor, or a combination thereof. These may be configured by a single chip or may be configured by a plurality of chips connected via a bus. Part or all of each component of each device may be realized by a combination of the above-described circuit and the like and a program.
  • each device when some or all of the constituent elements of each device are realized by a plurality of information processing devices and circuits, the plurality of information processing devices and circuits may be arranged in a concentrated manner or distributedly arranged. May be.
  • the information processing apparatus, the circuit, and the like may be realized as a form in which each is connected via a communication network, such as a client and server system and a cloud computing system.
  • FIG. 8 is a flowchart illustrating an operation example of the information processing system 100 according to the first embodiment.
  • the reception unit 10 receives a classification for specifying a prediction target (step S11).
  • the totaling unit 20 specifies a prediction target from the received classification (step S12), and totals the contribution determined by the prediction model corresponding to the specified prediction target for each explanatory variable (step S13).
  • the tabulation unit 20 calculates, for each explanatory variable, the sum of the weights of the explanatory variables included in the specified prediction target prediction model as the first contribution.
  • FIG. 9 is a flowchart illustrating an operation example of specifying a prediction model to be aggregated based on information received by the receiving unit 10 from the prediction models stored in the storage unit 30.
  • the storage unit 30 stores a table in which the prediction target and the classification as illustrated in FIG. 2 are associated with each other, and a table in which the prediction target and the prediction model as illustrated in FIG. 4 are associated with each other. It shall be.
  • the totaling unit 20 identifies a prediction target associated with the received classification from the table illustrated in FIG. 2 (step S14). Specifically, the tabulation unit 20 specifies a prediction target ID for identifying a prediction target from the table illustrated in FIG. And the total part 20 specifies the prediction model corresponding to a prediction object from the table
  • the reception unit 10 receives a classification for specifying a prediction target
  • the aggregation unit 20 uses a prediction model corresponding to the prediction target for the prediction target specified by the received classification. Aggregate the determined contribution for each variable. Therefore, the factors that can contribute to the prediction result can be analyzed.
  • the counting unit 20 can narrow down the analysis target by the receiving unit 10 receiving the classification of the prediction target.
  • the aggregation unit 20 performs aggregation by focusing on the weight (coefficient) of each explanatory variable that is a factor that can contribute to the prediction target, the user can grasp the influence degree (contribution degree) of each factor. become.
  • the aggregation unit 20 may standardize the common explanatory variable coefficient. Specifically, the totaling unit 20 may correct each coefficient so that the total value of the coefficients of each explanatory variable is 1 (average is 0 and variance is 1). For example, in the case of the explanatory variable x 1 illustrated in FIG. 7, the counting unit 20 standardizes the coefficients a 11 and a 31 included in Y 1 and Y 3 .
  • the totaling unit 20 may calculate the ratio of the coefficient of the explanatory variable between the respective prediction formulas. Specifically, the aggregation unit 20 may calculate the ratio of the coefficient of the explanatory variable to the total sum of the calculated coefficient of the explanatory variable for each prediction target. For example, the ratio of the coefficients of the explanatory variables x 1 illustrated in FIG. 7, may be calculated in a 11 / a 11 + a 31 . The calculation method of the ratio of the coefficients of other explanatory variables is the same.
  • the aggregation unit 20 can standardize the coefficient of each explanatory variable or calculate the ratio of the coefficient, thereby comparing the degree of contribution to the same explanatory variable for each prediction target.
  • Embodiment 2 a second embodiment of the information processing system according to the present invention will be described.
  • the configuration of the second embodiment is the same as the configuration of the first embodiment.
  • the present embodiment is different from the first embodiment in that the counting unit 20 calculates the contribution including the actual measured values of the explanatory variables.
  • the operation of the receiving unit 10 is the same as that in the first embodiment.
  • the prediction model is represented by a linear regression equation including a plurality of explanatory variables.
  • the totaling unit 20 specifies a prediction target based on the received classification, and specifies a prediction model of the specified prediction target.
  • the totaling unit 20 specifies the actual measured values of the explanatory variables included in the prediction model based on the received classification.
  • the actual measurement value is stored in the storage unit 30, for example.
  • the totaling unit 20 calculates the product of the weight (coefficient) of the explanatory variable in the linear regression equation and the measured value of the explanatory variable for each explanatory variable. Then, the totaling unit 20 calculates the total sum of the calculated products for each explanatory variable and sets it as the contribution level. In the following description, the sum of products calculated for each explanatory variable is referred to as a second contribution.
  • FIG. 10 is an explanatory diagram illustrating an example of processing for calculating the sum of products (second contribution) calculated for each explanatory variable.
  • three types of prediction targets T 1 to T 3 are specified, and the respective prediction formulas Y 1 to Y 3 are also specified.
  • four explanatory variables x 1 to x 4 are included in total.
  • the measured value D 1 ⁇ D 3 of explanatory variables x 1 ⁇ x 4 for each prediction target T 1 ⁇ T 3 have been identified.
  • the aggregation unit 20 may standardize the product of the coefficient of the explanatory variable calculated by each prediction formula and the actual measurement value, as in the first embodiment. Specifically, the totaling unit 20 may correct each product so that the total value of the products is 1 (average is 0 and variance is 1). Note that the standardization may be performed after calculating the sum of products of each explanatory variable.
  • the totaling unit 20 may calculate the ratio of the calculated contribution degree (second contribution degree) of each explanatory variable. Specifically, the totaling unit 20 may calculate the ratio of the second contribution of each explanatory variable to the total sum of the second contribution for each explanatory variable.
  • FIG. 11 is a flowchart illustrating an operation example of the information processing system 100 according to the second embodiment.
  • the reception unit 10 receives a classification for specifying a prediction target (step S11).
  • the totaling unit 20 specifies a prediction target from the accepted classification (step S12), and further specifies a performance value (step S21).
  • the totaling unit 20 calculates the product of the weight (coefficient) of the explanatory variable and the measured value of the explanatory variable for each explanatory variable, and calculates the total sum of the calculated products for each explanatory variable as the second contribution. (Step S22).
  • the totaling unit 20 calculates the product of the coefficient that is the weight of the explanatory variable in the linear regression equation and the measured value of the explanatory variable for each explanatory variable, and calculates the sum of the calculated products.
  • the second contribution is calculated for each explanatory variable. Therefore, in addition to the effects of the first embodiment, analysis reflecting the actual value is possible.
  • the contribution of the explanatory variable is determined by the product value of “the value of the coefficient in the prediction formula” and “the actual value of the explanatory variable related to the coefficient”. By calculating, the analysis reflecting the actual value becomes possible.
  • the aggregation unit 20 may standardize the product of the coefficient of the explanatory variable and the actually measured value for the common explanatory variable, as in the first embodiment. Specifically, the totaling unit 20 may correct the value of each product so that the total value of the products for each explanatory variable is 1 (average is 0 and variance is 1).
  • the totaling unit 20 may calculate the ratio of the product of the coefficient of the explanatory variable and the actual measurement value for each explanatory variable between the prediction formulas. Specifically, the totaling unit 20 may calculate the ratio of the product of each explanatory variable to the total sum of the products for the calculated explanatory variables for each prediction formula.
  • the totaling unit 20 may correct the contribution by using an error that is a difference between the prediction result predicted based on the prediction model and the actually obtained actual measurement result.
  • the aggregation unit 20 may correct the contribution of each explanatory variable at the same ratio based on the difference between the prediction result and the actual measurement result, for example, for each prediction target. For example, when the actual measurement result takes a value twice as large as the prediction result, the totaling unit 20 may double the contribution of each explanatory variable.
  • the totaling unit 20 may provide a new explanatory variable indicating a difference between the prediction result and the actual measurement result, and the difference may be used as the contribution degree of the new explanatory variable.
  • the method by which the counting unit 20 corrects the contribution according to the error is not limited to the example described above.
  • the aggregation unit 20 may change the ratio for correcting the contribution degree, and may provide two or more new explanatory variables.
  • Embodiment 3 a third embodiment of the information processing system according to the present invention will be described.
  • the method for calculating the contribution for each explanatory variable has been described.
  • the number of explanatory variables used for prediction is assumed to be very large. That is, if the factors used in the analysis are made too fine, the types of explanatory variables become very large when they are aggregated, which may affect interpretability.
  • the accepting unit 10 accepts a classification “the number of sales of orange juice on a certain day in March 2016” as a classification for specifying a prediction target from the operator.
  • prediction models for 1000 stores are specified. That is, a prediction model for predicting the number of orange juice sales on a certain day in March 2016 at each 1000 store is specified.
  • FIG. 12 is an explanatory diagram illustrating an example of a process for performing factor analysis using a plurality of prediction models.
  • a factor analysis of orange juice sales from a store A to a store D on a certain day in March 2016 is performed. Even for the same product (for example, orange juice) at the same time (for example, March 2016), the factors (that is, explanatory variables) that contribute to the sales are considered to vary from store to store.
  • the sales of orange juice in March 2016 from store A to store D include explanatory variables x 2 , x 3 , x 4 , x 5 , x 6 , x 7 , x 9 , It can be seen that the factors indicated by x 10 , x 11 , x 12 , x 13 , x 15 , x 16 , x 17 are affected. However, too many explanatory variables to consider can affect interpretability. As a result, when the aggregation unit 20 performs aggregation processing for a large number of prediction models, there are fears that the aggregation results may be difficult for humans to interpret because there are too many types of explanatory variables included in the prediction model.
  • FIG. 13 is an explanatory diagram illustrating an example of explanatory variables in which categories are set.
  • the prediction model includes explanatory variables such as “TV advertisement”, “Internet posting”, and “flyer distribution”, for example, a category of “advertisement” is set in these explanatory variables.
  • explanatory variables such as “whether it is Sunday”, “whether it is a holiday”, “whether it is the day before a holiday”, etc. in the prediction model Is included in these explanatory variables, for example, a category of “calendar”.
  • the prediction target is predicted every day
  • the prediction model includes explanatory variables such as “whether it is a rainy day”, “highest temperature”, “sunshine amount”, these explanations
  • a category “meteorology” is set in the variable. Assume that the relationship between the explanatory variable and the category to which the explanatory variable belongs is set in advance, for example.
  • the configuration of the third embodiment is the same as that of the first embodiment and the second embodiment.
  • the present embodiment is different from the other embodiments in that the aggregation unit 20 calculates the contribution by reducing each category set as the explanatory variable. Whether the contribution level is calculated for each category or the contribution level is calculated for each explanatory variable may be determined in advance, or the receiving unit 10 may receive a method of calculating the contribution level.
  • the totaling unit 20 calculates a contribution for each explanatory variable.
  • the totaling unit 20 may calculate the first contribution degree described in the first embodiment as a contribution degree for each explanatory variable, and the second contribution degree described in the second embodiment as the explanatory variable. You may calculate as a contribution degree for every.
  • the totaling unit 20 totals the calculated contribution for each category of the explanatory variable. For example, if the explanatory variable x 1 and the explanatory variable x 2 illustrated in FIG. 7 belong to the same category, aggregating unit 20 adds the contribution w 2 of contribution w 1 and the explanatory variable x 2 explanatory variables x 1 And the contribution of the category. In the following description, the contribution calculated for each category is referred to as a third contribution.
  • the totaling unit 20 may standardize the contribution level totaled for each category. Specifically, the totaling unit 20 may correct the respective contributions so that the total value of the contributions totaled for each category is 1 (that is, the average is 0 and the variance is 1). .
  • the totaling unit 20 may calculate a ratio of the contributions (third contribution) that are aggregated for each category. Specifically, the totaling unit 20 may calculate the ratio of the third contribution degree of each category to the total sum of the third contribution degrees for each category.
  • FIG. 14 is a flowchart illustrating an operation example of the information processing system 100 according to the third embodiment.
  • the reception unit 10 receives a classification for specifying a prediction target (step S11).
  • the totaling unit 20 identifies a prediction target from the received classification (step S12), and for each explanatory variable of the common category included in the specified prediction target prediction model, the weight of the category is determined as a contribution ( The third contribution degree) is tabulated (step S31).
  • the totaling unit 20 totals the contribution calculated for each explanatory variable for each category of the explanatory variable, and calculates it as the third contribution. Therefore, in addition to the effects of the first embodiment or the second embodiment, it is possible to analyze from a global viewpoint.
  • FIG. 15 is an explanatory diagram showing an example in which contributions are tabulated for each category.
  • factors that is, explanatory variables.
  • the factors are aggregated into four types of advertisement, calendar, weather, and price by aggregation for each category.
  • by compiling a large number of similar explanatory variables in this way it becomes possible to improve the interpretability of the factors. For example, in the example illustrated in FIG. 15, it is easy to determine at a glance that the factor related to the category “calendar” is large.
  • the totaling unit 20 may standardize the contributions totaled for each category by each prediction formula, as in the first embodiment or the second embodiment. Specifically, the totaling unit 20 may correct the respective contributions so that the total value of the contributions for each category is 1 (average is 0 and variance is 1).
  • the totaling unit 20 may calculate a contribution ratio for each category between the prediction formulas. Specifically, the totaling unit 20 may calculate the ratio of the contribution level of each category to the total sum of the calculated contribution levels for each category for each prediction formula.
  • Embodiment 4 FIG. Next, a fourth embodiment of the information processing system according to the present invention will be described.
  • the configuration of the fourth embodiment is the same as the configuration of the first embodiment.
  • a method for calculating the degree of contribution using a prediction model in which a prediction formula is specified according to the value of the variable to be applied (actual measurement value) will be described.
  • a prediction model in which a prediction equation is specified according to an actual measurement value for example, a case-by-case predictor that specifies one prediction equation according to a sample can be cited.
  • the operation of the receiving unit 10 is the same as that in the first embodiment.
  • FIG. 16 is an explanatory diagram illustrating an example of a case-by-case predictor.
  • FIG. 16 schematically shows that the prediction formula changes according to the sample.
  • the predictor illustrated in FIG. 16 uses the prediction formula 1 when the day indicated by the sample is Saturday or Sunday (weekend), and uses the prediction formula 2 when the weather is clear except for the weekend, and otherwise. In the case of, it indicates that the prediction formula 3 is used.
  • the selection ratio illustrated in FIG. 16 illustrates the ratio at which each prediction formula is selected according to the sample. In other words, since the prediction formula is selected according to the sample, it can be said that the selection ratio indicates the ratio of the number of samples corresponding to the prediction formula.
  • the case-by-case predictor described in the present embodiment represents a prediction model in which a prediction formula is specified according to an actual measurement value.
  • the aggregation unit 20 calculates a contribution for each explanatory variable using a prediction model (that is, a case-by-case predictor) in which a prediction formula is specified according to the value of the applied variable. Specifically, the totaling unit 20 specifies a prediction formula corresponding to each sample to be used, using the case-classifying predictor.
  • a prediction model that is, a case-by-case predictor
  • the totaling unit 20 may calculate the first contribution shown in the first embodiment (that is, the sum of the weights of the explanatory variables included in the specified prediction target prediction model), or the second The second contribution shown in the embodiment (that is, the sum of products calculated for each explanatory variable) may be calculated. Moreover, the totaling unit 20 may calculate the third contribution (that is, the contribution calculated for each category) shown in the third embodiment.
  • the totaling unit 20 calculates the ratio of samples used for specifying the prediction formula for each prediction formula.
  • the ratio of the sample used for specifying the prediction formula 1 is 30%
  • the ratio of the sample used for specifying the prediction formula 2 is 40%
  • the sample used for specifying the prediction formula 3 The percentage is 30%.
  • the totaling unit 20 corrects the coefficient according to the calculated ratio. Specifically, the totaling unit 20 multiplies the calculated ratio by the coefficient of the corresponding prediction formula. And the total part 20 totals the coefficient of the explanatory variable for every explanatory variable contained in the identified prediction formula. This is the contribution of each explanatory variable for one prediction target.
  • the totaling unit 20 calculates, for each explanatory variable, the product of the coefficient of the explanatory variable in the prediction formula specified according to the sample and the value of the explanatory variable sample. Then, the totaling unit 20 calculates the total sum of the calculated products for each explanatory variable and sets it as the contribution level. This is the contribution of each explanatory variable for one prediction target.
  • the aggregation unit 20 may calculate the contribution degree for each explanatory variable having a common category after calculating the first contribution degree or the second contribution degree.
  • the aggregation unit 20 calculates the contribution for each explanatory variable using the prediction model in which the prediction formula is specified according to the value of the applied variable. Therefore, in addition to the effects of the first to third embodiments, the contribution can be calculated using a prediction model in which a prediction formula is selected according to the sample.
  • FIG. 17 is an explanatory diagram showing an example of a summary screen displayed by the output unit 40.
  • the initial state of the aggregation screen is shown, and it is assumed that there is a screen S1 for designating an object to be analyzed in the upper part and a screen S2 for displaying the aggregation result in the lower part.
  • FIG. 18 is an explanatory diagram illustrating an example of information included in the drop-down list.
  • a fruit juice beverage is included in the beverage of the product classification, and further, a plurality of juices are included in the classification of the fruit juice beverage.
  • the output unit 40 may display the aggregation result according to the classification hierarchy.
  • check boxes C1 to C3 for specifying whether or not to display the total result for each lower class when a higher class is selected are provided for each class.
  • the screen S1 is provided with a radio button R1 for selecting whether to total for each factor (that is, explanatory variable) or total for each category in order to specify a totaling method. Further, on the screen S1, the weight of the explanatory variable described in the first embodiment is displayed as the contribution degree, or the product of the explanatory variable and the actual value described in the second embodiment is also considered in consideration of the actual measurement value. A radio button R2 for selecting whether to display the contribution is also provided.
  • the receiving unit 10 and the tabulation unit 20 perform tabulation processing, and the output unit 40 outputs the tabulation result to the screen S2.
  • the first type is a factor analysis of orange juice sales at all stores in Tokyo (ie, A store, B store, C store and D store) in March 2016.
  • the second type is March 2016
  • FIG. 4 is a factor analysis of sales of all juice drinks (apple juice, orange juice, pine juice, grape juice, and peach juice) at a specific store (store A).
  • FIGS. 19 to 23 are explanatory diagrams showing examples of output result screens displayed by the output unit 40.
  • FIG. FIG. 19 shows an example of the result of outputting the factor of sales of orange juice at all stores in Tokyo.
  • FIG. 20 shows an example of the result of outputting the factor of sales of the whole juice drink at the store A.
  • FIG. 21 shows an example of the result of totaling and outputting the factor of sales of orange juice in all stores in Tokyo by category.
  • FIG. 22 shows an example of the result of totaling and outputting the factors of sales of the whole juice drink at the store A by category.
  • FIG. 19 there are 14 factors, whereas in the example shown in FIG. 21, there are four categories.
  • FIG. 20 there are 15 factors, whereas in the example shown in FIG. In either case, it can be said that the interpretability is higher.
  • the output unit 40 may display the aggregation result for each classification included in the lower classification.
  • FIG. 23 outputs the aggregated results of apple juice, orange juice, pine juice, grape juice, and peach juice included in the subcategories of fruit juice beverages when analyzing the factors for each category of fruit juice beverage sales in Tokyo. An example is shown.
  • the forecast targets for sales are “all beverages”, “fruit juice beverages”, “coffee”, “350 ml can single product”, “350 ml can set”, “500 ml plastic bottle single product” and “500 ml plastic bottle set”. It shall be reduced to six.
  • “Fruit juice” includes “orange juice”, “grape juice”, and “apple juice”, and store A exists in Tokyo, which is included in the Kanto area. As an initial classification, sales in the Kanto region in January are assumed.
  • FIG. 24 is an explanatory diagram showing an example of a prediction model.
  • the meaning of the table illustrated in FIG. 24 is the same as the meaning of the table illustrated in FIG. That is, the vertical direction of the table indicates the prediction target, and the horizontal direction of the table indicates the weight of the explanatory variable indicating the prediction model of the prediction target.
  • the prediction model shown in this specific example differs in the contents of the prediction target and the explanatory variable.
  • FIG. 25 is an explanatory diagram illustrating an example in which the weight for each category to be predicted is standardized based on the prediction model illustrated in FIG.
  • the tabulation unit 20 standardizes the tabulated values after tabulating the absolute values of the coefficients for each category of the explanatory variables in the prediction model illustrated in FIG.
  • the coefficient illustrated in FIG. 25 corresponds to the weight (contribution) of this embodiment.
  • the output unit 40 may output the aggregation results illustrated in FIG. 25 in a heat map format.
  • FIG. 26 is an explanatory diagram illustrating an example in which the aggregation results illustrated in FIG. 25 are output in a heat map format. By displaying the total result on the heat map, the visibility of the overall tendency can be improved.
  • the output unit 40 may output the aggregation results illustrated in FIG. 25 as a balance chart.
  • FIG. 27 is an explanatory diagram illustrating an example in which the aggregation results illustrated in FIG. 25 are output as a balance chart.
  • the balance chart illustrated in FIG. 27 is obtained by selecting and outputting three prediction results (“all beverages”, “fruit juice beverage”, and “coffee”) among the prediction results illustrated in FIG.
  • the output unit 40 displays the results aggregated for the categories including the explanatory variables that can be directly controlled and the results aggregated for the categories that include the explanatory variables that are not directly controllable in a manner that can be distinguished from each other. Also good.
  • “Weather” and “calendar” are distinguished from each other by displaying the heading in a black frame.
  • the distinguishing method is not limited to the method of changing the mode of the headline itself, and for example, the output value or the mode of plotting may be changed.
  • the output unit 40 may display the result obtained by counting the explanatory variables that can be directly controlled and the result obtained by counting the explanatory variables that are not directly controllable in a manner that can be distinguished from each other.
  • FIG. 28 is an explanatory diagram showing an example of visualizing the contribution ratio of each explanatory variable.
  • the ratio when the prediction target is “coffee” (see FIG. 28A) and the ratio when the prediction target is “500 ml PET bottle” (see FIG. 28B) are pie charts. It is represented by By displaying the ratio in this way, it is possible to visually grasp the degree of influence of factors that can contribute to the prediction target while comparing with other explanatory variables.
  • any direction of the category direction of the explanatory variable and the classification direction of the prediction target can also be expanded and aggregated for display.
  • FIG. 29 is an explanatory diagram showing an example of outputting the contributions of explanatory variables belonging to a category.
  • the output unit 40 may output a contribution for each explanatory variable included in the selected category.
  • the tabulation unit 20 performs “TV advertisement” and “Internet publication” that are explanatory variables belonging to the category “advertisement”. And the contribution degree of "flyer distribution" is calculated, and it shows that the output part 40 is outputting the total result.
  • FIG. 30 is an explanatory diagram showing an example in which the prediction target is changed.
  • the output unit 40 may output the degree of contribution of the prediction formula included in the selected prediction target.
  • the aggregation unit 20 is “orange juice” that is the prediction target included in the prediction target “fruit juice drink”.
  • “Grape Juice” and “Apple Juice” contributions are calculated for each category, and the output unit 40 indicates that the totaled result is output.
  • FIG. 31 is an explanatory diagram showing another example in which the prediction target is changed.
  • the example shown in FIG. 31 shows an example in which Tokyo is selected from the Kanto region as the prediction target.
  • the output unit 40 may selectively display a classification that can specify a prediction target.
  • the hierarchy of a prediction object is not limited to one step, A plurality may exist.
  • a store for example, “A store”
  • a store may be selected as a lower hierarchy in Tokyo.
  • the change of the output content is not limited to the case of specifying by drill-down.
  • the totaling unit 20 calculates a contribution according to the specified content, and the output unit 40 What is necessary is just to output a calculation result.
  • the classification of the prediction target the contents and properties of the product and the place where the product is provided are exemplified, but the classification of the prediction target is not limited to these contents.
  • the classification may be provided from the viewpoint of the seller or the buyer, or may be provided from the viewpoint of the time when the product is provided.
  • this classification is not limited to the case where the prediction target is an object related to a product, and can be similarly adopted when the prediction target is a target related to a service.
  • the factor of the number of visitors to the facility F that provides a certain service is analyzed.
  • an advertisement for example, the number of times a CM using talent A is aired in the Kansai region, the number of advertisements suspended in a predetermined train
  • an advertisement for example, the number of times a CM using talent A is aired in the Kansai region, the number of advertisements suspended in a predetermined train
  • the cause of a certain lifestyle-related disease is analyzed.
  • age (40s), gender (male), etc. can be cited as the classification.
  • the information processing system of the present invention can be applied not only to retail store sales forecasts, but also to production forecasts for manufacturers, passenger numbers for railway companies, demand forecasts for electric utilities, etc. It can be used for industry and forecast targets.
  • FIG. 32 is a block diagram showing an outline of an information processing system according to the present invention.
  • An information processing system 80 according to the present invention is an information processing system (for example, the information processing system 100) that predicts a prediction target specified by a plurality of classifications using a prediction model including a variable that can affect the prediction target.
  • a totaling unit 82 (for example, the totaling unit 20) that totals each variable (for example, explanatory variable) is provided.
  • the factors that can contribute to the prediction target can be analyzed.
  • the information processing system 80 further includes a storage unit (for example, the storage unit 30) that stores a prediction target specified by a plurality of classifications in association with a prediction model including a variable that can affect the prediction target. It may be. And the total part 82 may total about the prediction object specified by the received classification
  • a storage unit for example, the storage unit 30
  • the totaling unit 82 may total the contribution (for example, the third contribution) for each category based on the correspondence relationship between the variable and the category to which the variable belongs. Such a configuration enables analysis from a global perspective.
  • the totaling unit 82 may totalize the variable weights as contributions.
  • the totaling unit 82 may calculate the sum of the weights of the variables included in the identified prediction target prediction model for each variable as the first contribution. With such a configuration, it is possible to reduce a plurality of prediction targets and analyze factors (explanatory variables) that can contribute.
  • the prediction model may be expressed by a linear regression equation including a plurality of variables.
  • the totaling unit 82 may totalize the coefficient of the variable included in the prediction model as the weight of the variable.
  • the tabulation unit 82 calculates, for each variable, the product of the coefficient of the variable included in the prediction model and the actual measurement value of the variable, The total sum of the calculated products may be calculated for each variable as the second contribution.
  • the totaling unit 82 may correct the contribution based on an error that is a difference between the predicted value of the prediction target and the actual measurement value. Moreover, the totaling unit 82 may totalize the error that is the difference between the predicted value of the prediction target and the actual measurement value as the contribution degree of the variable indicating the error.
  • the totaling unit 82 may standardize the contribution calculated for each variable. For example, in the example shown in FIG. 7, the totaling unit 82 may standardize the contributions w 1 to w 4 calculated for each explanatory variable (standardize in the horizontal direction).
  • the totaling unit 82 may calculate the ratio of the variable contribution to the total sum of the calculated variable contributions for each variable. For example, in the example shown in FIG. 7, the totaling unit 82 calculates the sum of the contributions w 1 to w 4 calculated for each explanatory variable, and the ratio of the contribution of each explanatory variable to the total (the ratio in the horizontal direction). ) May be calculated.
  • the totaling unit 82 may standardize the weight of a variable common to each prediction formula for each variable. For example, in the case of the example illustrated in FIG. 7, the totaling unit 82 may standardize (normalize in the vertical direction) the coefficients a 11 and a 31 of the explanation x 1 included in the target prediction formula.
  • the totaling unit 82 may calculate the ratio of the variable weight to the sum of the common variable weights for each prediction target.
  • the tabulation unit 82 has a ratio (a 11 / a 11 + a 31 ) of the weight of the explanatory variable x 1 of each prediction formula to the sum of the weights of the explanatory variable x 1 (a 11 + a 31 ).
  • a 31 / a 11 + a 31 ) (vertical ratio) may be calculated.
  • the totaling unit 82 calculates a contribution degree for each variable using a prediction model (for example, a case-by-case predictor) in which a prediction formula is specified according to a value of an applied variable (for example, a sample). Also good.
  • a prediction model for example, a case-by-case predictor
  • a prediction formula is specified according to a value of an applied variable (for example, a sample). Also good.
  • the prediction target may be a target related to a product or a service.
  • the classification may be information indicating either the content or nature of the product or service, the seller or purchaser, or the location or time at which the product or service is provided.
  • the information processing system collects the results of the variables that can be directly controlled (for example, “location”, “weather”, and “calendar” illustrated in FIG. 27) and the variables that are not directly controllable (for example, FIG. 27).
  • An output unit for example, an output
  • the prediction model is a linear regression equation
  • the prediction model is not limited to a linear regression equation.
  • the present invention is applicable if the prediction model is composed of variables that can affect the prediction target and the degree of contribution to the prediction target is determined by the prediction model.

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

複数の分類により特定される予測対象を、予測対象に影響し得る変数を含む予測モデルを用いて予測する情報処理システム80であって、受付部81と、集計部82とを備えている。受付部81は、予測対象を特定する分類を受け付ける。集計部82は、予測対象のうち受け付けられた分類により特定される予測対象について、予測対象に対応する予測モデルにより定まる寄与度を、変数ごとに集計する。

Description

情報処理システム、情報処理方法および情報処理プログラム
 本発明は、予測対象に寄与し得る要因を分析する情報処理システム、情報処理方法および情報処理プログラムに関する。
 大量の実績データに基づいて様々な分析を行う方法が知られている。POS(Point of sale )データは、各店舗の売上実績を表わすデータの一例である。例えば、全国に1000店舗の小売店を展開する企業が、1店舗あたり2000種類の商品の売上数量を月ごとに集計している場合、このPOSデータの数は、1年で、1000(店舗)×12(月/年)×2000(種類/月・店舗)=24,000,000になる。
 このようなPOSデータを分析する方法として、例えば、EXCEL(登録商標)のピボットテーブルのような機能を有する集計ツールを利用する方法が挙げられる。ユーザがこのような集計ツールにPOSデータを読み込ませることで、商品の売上数を、店舗ごと、季節ごと、商品ごとなど、様々な観点で集計でき、ミクロな観点からマクロな観点まで、売上に寄与した要因を自由に分析することが可能になる。
 他にも、このような統計に特化したソフトウェアの例として、Tableau(登録商標)や、SAS(登録商標)、SPSS(登録商標)などが知られている。
 また、特許文献1には、複数のデータを用いて不特定多数者を集計するシステムが記載されている。特許文献1に記載されたシステムは、入力データに基づいて所定の場所への来場者を計数して来場者数データを取得するとともに、入力データに基づいて来場者の特性を推定して特性推定データを取得する。
再特WO2009/041242号
 特許文献1に記載の技術によれば、入力データに基づいて所定の場所への来場者数を計数することはできる。しかし、特許文献1に記載の技術は、所定の場所への来場者数について、どのような要因が来場者数にどの程度寄与したのかを分析することは考慮されていない。
 そこで、本発明は、予測対象に寄与し得る要因を分析できる情報処理システム、情報処理方法および情報処理プログラムを提供することを目的とする。
 本発明による情報処理システムは、複数の分類により特定される予測対象を、予測対象に影響し得る変数を含む予測モデルを用いて予測する情報処理システムであって、予測対象を特定する分類を受け付ける受付部と、予測対象のうち受け付けられた分類により特定される予測対象について、予測対象に対応する予測モデルにより定まる寄与度を、変数ごとに集計する集計部とを備えたことを特徴とする。
 本発明による情報処理方法は、複数の分類により特定される予測対象を、予測対象に影響し得る変数を含む予測モデルを用いて予測する情報処理方法であって、予測対象を特定する分類を受け付け、予測対象のうち受け付けられた分類により特定される予測対象について、予測対象に対応する予測モデルにより定まる寄与度を、変数ごとに集計することを特徴とする。
 本発明による情報処理プログラムは、複数の分類により特定される予測対象を、予測対象に影響し得る変数を含む予測モデルを用いて予測するコンピュータに適用される情報処理プログラムであって、コンピュータに、予測対象を特定する分類を受け付ける受付処理、および、予測対象のうち受け付けられた分類により特定される予測対象について、予測対象に対応する予測モデルにより定まる寄与度を、変数ごとに集計する集計処理を実行させることを特徴とする。
 本発明によれば、予測対象に寄与し得る要因を分析できる。
本発明による情報処理システムの第1の実施形態の構成例を示すブロック図である。 予測対象と複数の分類とを対応付けて記憶する例を示す説明図である。 説明変数の例を示す説明図である。 予測対象の予測モデルの例を示す説明図である。 説明変数の実測値の具体例を示す説明図である。 予測対象を特定する処理の例を示す説明図である。 説明変数の重みの総和を算出する処理の例を示す説明図である。 第1の実施形態の情報処理システムの動作例を示すフローチャートである。 集計対象の予測モデルを特定する動作例を示すフローチャートである。 説明変数ごとに算出された積の総和を算出する処理の例を示す説明図である。 第2の実施形態の情報処理システムの動作例を示すフローチャートである。 複数の予測モデルを用いて要因分析する処理の例を示す説明図である。 カテゴリが設定された説明変数の例を示す説明図である。 第3の実施形態の情報処理システムの動作例を示すフローチャートである。 カテゴリごとに寄与度を集計した場合の例を示す説明図である。 場合分け予測器の例を示す説明図である。 集計画面例を示す説明図である。 ドロップダウンリストに含まれる情報の例を示す説明図である。 予測対象に寄与する要因を出力した結果の例を示す説明図である。 予測対象に寄与する要因を出力した結果の他の例を示す説明図である。 予測対象に寄与するカテゴリを出力した結果の例を示す説明図である。 予測対象に寄与するカテゴリを出力した結果の他の例を示す説明図である。 上位分類および下位分類のいずれの集計結果も出力する例を示す説明図である。 予測対象の予測モデルの他の例を示す説明図である。 予測対象のカテゴリごとの重みを表形式で表した例を示す説明図である。 集計結果をヒートマップ形式で出力した例を示す説明図である。 集計結果をバランスチャートで出力した例を示す説明図である。 各説明変数の寄与度の比率を可視化した例を示す説明図である。 カテゴリに属する説明変数の寄与度を出力する例を示す説明図である。 予測対象を変更した例を示す説明図である。 予測対象を変更した他の例を示す説明図である。 本発明による情報処理システムの概要を示すブロック図である。
 特許文献1に記載されているように、情報の分析には、過去の大量の実績データを利用することが一般的である。一方、情報の分析には、過去の実績データそのものだけでなく、過去の実績データに基づいて予測対象ごとに学習された予測モデルを利用することも考えられる。実績データに基づいて適切に学習された予測モデルは、その実績データの性質を適切に反映していると考えられる。このため、このような予測モデルに基づいて、予測対象に寄与し得る要因の分析を行うことが可能になる。
 ただし、予測モデルは結果を予測するために用いられることが一般的であり、大量の予測モデルそのものを要因分析に利用することは通常行われていない。予測対象ごとに予測モデルが学習される場合には、予測対象が大量に存在すると予測モデルも大量に存在することになる。本発明者は、大量の予測モデルを集計することにより、予測対象に寄与し得る要因を分析するという着想を得た。
 以下、本発明の実施形態を図面を参照して説明する。以下の説明では、予測モデルを用いて各予測対象の予測が行われるものとし、予測モデルは、予め過去の実績データ等により学習済みであるとする。また、1つの予測対象には、1つの予測モデルが対応付けられる。
 予測モデルは、説明変数と目的変数の相関関係を表す情報である。予測モデルは、例えば、説明変数に基づいて目的とする変数を算出することにより予測対象の結果を予測するためのコンポーネントである。予測モデルは、既に目的変数の値が得られている学習用データと任意のパラメータとを入力として、学習器により生成される。予測モデルは、例えば、入力xを正解yに写像する関数cにより表されてもよい。予測モデルは、予測対象の数値を予測するものであってもよいし、予測対象のラベルを予測するものであってもよい。予測モデルは、目的変数の確率分布を記述する変数を出力してもよい。予測モデルは、「モデル」、「学習モデル」、「推定モデル」、「予測式」または「推定式」などと記載されることもある。
 本実施形態において、予測モデルは、予測対象の予測結果に寄与し得る要因を示す1以上の説明変数を含む予測式で表される。予測モデルは、例えば、複数の説明変数を含む線形回帰式で目的変数が表される。前述の例では、目的変数が正解yに相当し、説明変数が入力yに相当する。例えば、予測モデルの解釈性を高めたり過学習を防いだりする目的で、一つの予測モデルに含まれる説明変数の最大個数が制限されているとしてもよい。なお、後述するように、1つの予測対象を予測するために用いられる予測式は1つに限定されず、説明変数の値に応じて予測式が選択される場合分け予測器が予測モデルとして用いられてもよい。
 予測対象は、ユーザにより指定された1つ以上の分類に属するものとする。分類は、単独でもよく、階層構造であってもよい。小売店を例に挙げると、予測対象は、例えば、「東京都のA店で販売されるオレンジジュースの売上数」である。この場合、予測対象は、販売店舗という分類(東京都>A店)や、商品という分類(飲料>果汁飲料>オレンジジュース)により特定される。ここで、「>」で示す記号は、分類が階層構造になっていることを示す。
 他にも、予測対象は、例えば「A社が経営するB店において2016年3月に販売される、A社プライベートブランドのボールペンの売上数」である。この場合、予測対象は、販売店舗という分類(A社が経営>B店)や、販売時期という分類(2016年>2016年3月)や、商品という分類(A社プライベートブランド>文房具>ボールペン)により特定される。
実施形態1.
 図1は、本発明による情報処理システムの第1の実施形態の構成例を示すブロック図である。本実施形態の情報処理システム100は、受付部10と、集計部20と、記憶部30と、出力部40とを備えている。
 記憶部30は、予測対象ごとに予測モデルを記憶する。図2~図5は、記憶部30が記憶する情報の例を示す説明図である。記憶部30は、予測対象と分類とを対応付けて記憶していてもよい。また、記憶部30は、説明変数の実測値を記憶していてもよい。ここで、説明変数の実測値とは、例えば、図5に例示するように、実際に測定された各説明変数の値を意味する。
 図2は、記憶部30が、予測対象と複数の分類とを対応付けて記憶する例を示している。図2に示す例では、予測対象が予測対象IDで一意に識別され、それぞれの予測対象IDに、分類である「店舗」、「商品」および「時期」がそれぞれ対応付けられていることを示す。例えば、予測対象ID=1で識別される予測対象は、「店舗」の観点では、東京都のA店に分類され、「商品」の観点では、飲料のうち果汁飲料であるアップルジュースに分類され、「時期」の観点では、2016年3月に分類されることを示す。
 図3は、説明変数の例を示している。また、図4は、記憶部30が、予測対象の予測モデルを記憶している例を示している。ここでは、図3に例示する説明変数が、図4に例示する予測モデルで用いられているとする。
 図4に示す例では、表の縦方向が予測対象を示し、表の横方向がその予測対象の予測モデルを表わす説明変数の重みを示す。例えば、予測対象ID=1で識別される予測対象の予測モデルは、説明変数x,x,x10,x15を用いて表され、それらの重みがそれぞれ1.5,0.6,1.2,2.1であることを示す。例えば、予測モデルが線形回帰式である場合には、予測対象ID=1で識別される予測対象の予測モデルは、目的変数をyとすると、y=1.5x+0.6x+1.2x10+2.1x15である。なお、図4に例示する予測モデルは、一日ごとの商品需要量を予測するものとし、予測モデル(予測式)は、月末に更新されるとする。
 図5は、説明変数の実測値の具体例を示す。例えば、説明変数X10が「その日の最高気温」を表わす変数である場合、図5に例示する実測値は、実際に測定された各日の最高気温の値である。なお、実測値と説明変数との集計期間が異なる場合、予め定めた規則に応じて、実測値を集計し、集計結果を説明変数の実測値としてもよい。例えば、説明変数が、「当該月の最高気温」であり、実測値が「各日の最高気温」である場合、当該月内の最高気温を特定し、その値を実測値としてもよい。
 記憶部30は、たとえば、磁気ディスク装置により実現される。出力部40は、集計部20による集計結果を出力する。また、出力部40は、出力結果に対するユーザからの入力を受け付けてもよい。出力部40は、例えば、ディスプレイ装置やタッチパネルにより実現される。
 受付部10は、予測対象を特定する分類を受け付ける。言い換えると、受付部10は、要因を分析する予測対象を特定するための分類を受け付ける。受け付ける分類は1つに限られず、複数であってもよい。例えば、2016年3月の各店舗の「アップルジュース」の要因分析をする場合、受付部10は、分類として、「2016年3月」および「アップルジュース」を受け付ける。また、分類が階層構造になっている場合、受付部10は、最下位の分類だけでなく、上位の分類を受け付けてもよい。受付部10は、例えば、出力部40に候補となる分類を表示させ、ユーザにより選択された1つ以上の分類を受け付けてもよい。他にも、受付部10は、通信ネットワークを介して分類を受け付けてもよい。
 集計部20は、受け付けた分類に基づいて予測対象を特定し、特定された予測対象の予測モデルを特定する。具体的には、集計部20は、記憶部30から予測対象の予測モデルを特定する。
 図6は、受け付けた分類に基づいて、図2~図5に例示する情報から予測対象を特定する処理の例を示す説明図である。例えば、2016年3月の各店舗の「アップルジュース」の要因分析を行うとして、受付部10が、「2016年3月」および「アップルジュース」を分類として受け付ける。このとき、集計部20は、図2に例示する表から商品=「アップルジュース」、時期=「2016年3月」に該当する予測対象ID=1,6,11,16の予測対象を特定する。そして、集計部20は、図4に例示する表から、予測対象の予測モデルを特定する。
 なお、受付部10が、階層構造における上位の分類を受け付けた場合、集計部20は、その分類に属する全ての下位の分類が指定されたと判断し、該当する分類の予測対象を全て特定してもよい。例えば、図2に示す例で、商品の分類として「果汁飲料」が指定された場合、集計部20は、予測対象ID=1~5で識別される予測対象を特定してもよい。
 そして、集計部20は、特定した予測モデルに含まれる説明変数ごとに、その説明変数の重みを集計する。具体的には、集計部20は、特定した予測モデルに含まれる説明変数ごとに重みの総和を算出することで、各説明変数の重みを集計する。予測式が線形回帰式で表される場合、説明変数の重みは係数に対応するため、集計部20は、説明変数ごとに、その説明変数の係数を集計する。
 説明変数の重みが大きいほど予測結果に寄与する度合いが高いことから、以下の説明では、説明変数ごとに特定される重み、または、所定の観点で集計した重みの集計値を、説明変数の寄与度と記す。なお、説明変数の寄与度を、以下、単に寄与度と記すこともある。
 また、以下の説明では、特定された予測対象の予測モデルに含まれる説明変数ごとの重みの総和を、第一の寄与度と記す。
 図7は、説明変数の重みの総和(第一の寄与度)を算出する処理の例を示す説明図である。図7に示す例では、3種類の予測対象T~Tが特定され、それぞれの予測式Y~Yも特定されていることを示す。また、図7に示す例では、特定された3つの予測式には全部で4種類の説明変数x~xが含まれているとする。なお、各予測式に全ての説明変数が含まれている必要はない。
 集計部20は、各説明変数の重みの総和を算出する。図7に示す例では、集計部20は、説明変数x~xごとに係数の総和を算出する。なお、重みの総和を算出する際、各説明変数の寄与する度合いを示すため、重みには係数の絶対値が用いられる。例えば、説明変数xの寄与度wを算出する場合、集計部20は、w=|a11|+|a31|で寄与度を算出する。他の説明変数についても同様である。集計部20は、集計結果を出力部40に出力する。
 なお、重みとして係数の絶対値ではなく係数の値が用いられてもよい。具体的には、重みが符号付きの値であってもよい。この場合、集計部20は、正の係数と負の係数とを相殺しあいながら(すなわち、符号に則して加減算を行うことで)、各説明変数の重みの総和を算出してもよい。また、集計部20は、ある一つの説明変数について、正の寄与度と負の寄与度とをそれぞれ別個に集計してもよい。このように、集計部20がある一つの説明変数について符号ごとに寄与度を集計することで、一つの説明変数を二つの説明変数としての観点で利用することが可能になる。
 なお、集計部20は、各予測式に含まれる係数を標準化してもよい。具体的には、集計部20は、各予測式の係数の合計値が1になる(すなわち、平均が0、分散が1になる)ようにそれぞれの係数を補正してもよい。例えば、図7に例示する予測式Yの場合、集計部20は、Yに含まれる係数a11,a12,a13を標準化する。なお、標準化は、各説明変数の重みの総和を算出した後で、算出された重みの総和に対して行われてもよい。
 また、集計部20は、算出した各説明変数の寄与度(第一の寄与度)の比率を算出してもよい。具体的には、集計部20は、第一の寄与度の総和に対する各説明変数の第一の寄与度の比率を、説明変数ごとに算出してもよい。例えば、図7に例示する予測式が存在し、各説明変数x~xの第一の寄与度がそれぞれw~wであるとする。このとき、集計部20は、例えば、説明変数xの第一の寄与度wの比率を、w/w+w+w+wで算出してもよい。他の説明変数の第一の寄与度の比率の算出方法も同様である。
 さらに、集計部20は、算出した各説明変数の寄与度を標準化してもよい。具体的には、集計部20は、各説明変数の寄与度の合計値が1になる(すなわち、平均が0、分散が1になる)ようにそれぞれの寄与度を補正してもよい。例えば、図7に示す例の場合、集計部20は、算出した各説明変数w,w,w,w標準化する。このような標準化をすることで、スケールの異なる他の寄与度と比較することが可能になる。
 このように、集計部20が各予測式の係数を標準化する、または、寄与度の比率を算出することで、他の説明変数の寄与度との比較が容易になる。
 受付部10と、集計部20と、出力部40とは、プログラム(情報処理プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、記憶部30に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、受付部10および集計部20として動作してもよい。また、情報処理システムの機能がSaaS(Software as a Service )形式で提供されてもよい。
 また、受付部10と、集計部20と、出力部40とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。
 また、各装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、 集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
 次に、本実施形態の情報処理システムの動作を説明する。図8は、第1の実施形態の情報処理システム100の動作例を示すフローチャートである。まず、受付部10は、予測対象を特定する分類を受け付ける(ステップS11)。次に、集計部20は、受け付けた分類から予測対象を特定し(ステップS12)、特定された予測対象に対応する予測モデルにより定まる寄与度を説明変数ごとに集計する(ステップS13)。具体的には、集計部20は、特定された予測対象の予測モデルに含まれる説明変数の重みの総和を第一の寄与度として、説明変数ごとに算出する。
 次に、受け付けた分類から予測モデルを特定する動作を説明する。図9は、記憶部30が記憶する予測モデルから、受付部10が受け付けた情報に基づいて集計対象の予測モデルを特定する動作例を示すフローチャートである。ここでは、記憶部30は、図2に例示するような予測対象と分類とを対応付けた表と、図4に例示するような予測対象と予測モデルとを対応付けた表とを記憶しているものとする。
 集計部20は、図2に例示する表から、受け付けた分類が対応付けられた予測対象を特定する(ステップS14)。具体的には、集計部20は、図2に例示する表から、予測対象を識別する予測対象IDを特定する。そして、集計部20は、図4に例示する表から、予測対象に対応する予測モデルを特定する(ステップS15)。具体的には、集計部20は、特定した予測対象IDで図4に例示する表から説明変数および説明変数の重みを特定し、その説明変数を含む予測モデルを特定する。
 以上のように、本実施形態では、受付部10が、予測対象を特定する分類を受け付け、集計部20が、受け付けられた分類により特定される予測対象について、その予測対象に対応する予測モデルにより定まる寄与度を、変数ごとに集計する。そのため、予測結果に寄与し得る要因を分析できる。
 すなわち、本実施形態では、受付部10が予測対象の分類を受け付けることで集計部20が分析対象を絞り込むことができる。また、集計部20が、予測対象に寄与し得る要因である各説明変数の重み(係数)に着目して集計するため、ユーザは、各要因の影響度合い(寄与度合い)を把握することが可能になる。
 以下、本実施形態の効果を、具体例を示しながら詳細に説明する。
 本願発明では、大量の予測モデルが作成されている状況が想定される。すなわち、本実施形態では、細かい予測対象ごとに予測モデルが作成され、作成された複数の予測モデルを集計することにより要因分析が行われる。
 例えば、「果汁飲料」という分類と、「果汁飲料」の下位の分類として「オレンジジュース」、「グレープジュース」、「アップルジュース」の3種類のみ存在する状況を想定する。「果汁飲料」に着目した要因分析を行う場合、(1)果汁飲料全体について作成した予測モデルに基づいて要因分析する方法と、(2)オレンジジュース、グレープジュース、アップルジュースのそれぞれに対して作成された予測モデルを集計することにより要因分析する方法とが考えられる。
 本願発明のように、細かい予測対象ごとに予測モデルが作成されている場合、上記(2)のように、個々の予測対象に対して作成された予測モデルを集計することにより要因分析するほうが、要因分析の精度は高くなる。例えば、オレンジジュースにはキャンペーンAを行い、アップルジュースには別のキャンペーンBを行ったとする。この場合、「果汁飲料」全体について要因分析するよりも、粒度が細かく作成された個々の予測モデルについて要因分析するほうが、より細かい要因(説明変数)を考慮できるためである。特に、モデルの解釈容易性を上げるためや過学習を防ぐために、予測モデルに含まれる説明変数の種類の上限を制限している場合、より顕著な効果を有する。
 また、細かい単位で予測モデルを作成しておくことで、様々な観点(店舗、商品、時期など)で、自由自在に集計できるという効果も得られる。
 なお、集計部20は、共通の説明変数の係数を標準化してもよい。具体的には、集計部20は、各説明変数の係数の合計値が1になる(平均が0、分散が1になる)ようにそれぞれの係数を補正してもよい。例えば、図7に例示する説明変数xの場合、集計部20は、YおよびYに含まれる係数a11,a31を標準化する。
 また、集計部20は、各予測式間で説明変数の係数の比率を算出してもよい。具体的には、集計部20は、算出された説明変数の係数の総和に対する説明変数の係数の比率を、予測対象ごとに算出してもよい。例えば、図7に例示する説明変数xの係数の比率を、a11/a11+a31で算出してもよい。他の説明変数の係数の比率の算出方法も同様である。
 このように、集計部20が各説明変数の係数を標準化する、または、係数の比率を算出することで、同じ説明変数に対する寄与度を予測対象ごとに比較できる
実施形態2.
 次に、本発明による情報処理システムの第2の実施形態を説明する。第2の実施形態の構成は、第1の実施形態の構成と同様である。ただし、本実施形態では、集計部20が説明変数の実測値を含めて寄与度を算出する点において第1の実施形態と異なる。なお、受付部10の動作は、第1の実施形態と同様である。
 本実施形態では、予測モデルが複数の説明変数を含む線形回帰式で表されているものとする。集計部20は、受け付けた分類に基づいて予測対象を特定し、特定された予測対象の予測モデルを特定する。また、集計部20は、併せて、受け付けた分類に基づいて、その予測モデルに含まれる説明変数の実測値を特定する。実測値は、例えば、記憶部30に記憶される。
 集計部20は、線形回帰式における説明変数の重み(係数)とその説明変数の実測値との積を、説明変数ごとに算出する。そして、集計部20は、算出した積の総和を説明変数ごとに算出して寄与度とする。以下の説明では、説明変数ごとに算出された積の総和を、第二の寄与度と記す。
 図10は、説明変数ごとに算出された積の総和(第二の寄与度)を算出する処理の例を示す説明図である。図10に示す例では、図7に示す例と同様、3種類の予測対象T~Tが特定され、それぞれの予測式Y~Yも特定され、特定された3つの予測式には全部で4種類の説明変数x~xが含まれているとする。また、図10に示す例では、各予測対象T~Tについての説明変数x~xの実測値D~Dも特定されているとする。
 集計部20は、説明変数の係数と実測値との積を説明変数ごとに算出する。図10に示す例では、集計部20は、例えば説明変数xについて、w=|a1111|+|a3131|で寄与度を算出する。他の説明変数についても同様である。
 なお、集計部20は、第1の実施形態と同様に、各予測式で算出される説明変数の係数と実測値との積を標準化してもよい。具体的には、集計部20は、積の合計値が1になる(平均が0、分散が1になる)ようにそれぞれの積を補正してもよい。なお、標準化は、各説明変数の積の総和を算出した後で行われてもよい。
 また、集計部20は、算出した各説明変数の寄与度(第二の寄与度)の比率を算出してもよい。具体的には、集計部20は、第二の寄与度の総和に対する各説明変数の第二の寄与度の比率を、説明変数ごとに算出してもよい。
 次に、本実施形態の情報処理システムの動作を説明する。図11は、第2の実施形態の情報処理システム100の動作例を示すフローチャートである。まず、受付部10は、予測対象を特定する分類を受け付ける(ステップS11)。次に、集計部20は、受け付けた分類から予測対象を特定し(ステップS12)、さらに、実績値を特定する(ステップS21)。そして、集計部20は、説明変数の重み(係数)とその説明変数の実測値との積を説明変数ごとに算出し、算出した積の総和を第二の寄与度として説明変数ごとに算出する(ステップS22)。
 以上のように、本実施形態では、集計部20が、線形回帰式における説明変数の重みである係数とその説明変数の実測値との積を説明変数ごとに算出し、算出した積の総和を第二の寄与度として説明変数ごとに算出する。そのため、第1の実施形態の効果に加え、実績値を反映した分析が可能になる。
 以下、本実施形態の効果を、具体例を示しながら詳細に説明する。
 例えば、「A店の2016年3月のある日におけるオレンジジュースの売上数」が以下の予測式により説明されるとする。ここで、括弧内は、説明変数を表わす。
 売上数= -11.3*(A店近傍における当該月の最高気温)+60*(A店近傍における当該日の総降水量)+130
 上記式だけで判断すると、一見、当該日の総降水量は、係数の値が大きいため、A店の3月のある日におけるオレンジジュースの売上数に大きく寄与しているようにも見える。しかし、実際には、3月のある日にA店近傍において雨が全く降らなかったとする。その場合、実際には、A店近傍における当該日の総降水量はA店の3月のある日におけるオレンジジュースの売上数に全く寄与しなかったということができる。
 したがって、第1の実施形態と比較すると、本実施形態では、当該説明変数の寄与度を、“予測式における係数の値”と“当該係数が係る説明変数の実測値”との積の値によって算出することで、実績値を反映した分析が可能になる。
 なお、集計部20は、第1の実施形態と同様に、説明変数の係数と実測値との積を共通の説明変数について標準化してもよい。具体的には、集計部20は、各説明変数についての積の合計値が1になる(平均が0、分散が1になる)ようにそれぞれの積の値を補正してもよい。
 また、集計部20は、各予測式間で説明変数の係数と実測値との積の比率を説明変数ごとに算出してもよい。具体的には、集計部20は、算出された説明変数についての積の総和に対する各説明変数の積の比率を、予測式ごとに算出してもよい。
 次に、第2の実施形態の変形例を説明する。第2の実施形態では、実測値を用いて寄与度を算出する方法を説明した。一方、予測モデルを用いることで結果を予測することも可能である。この場合、予測モデルに基づいて予測した予測結果と、実際に取得された実測結果との差分(誤差)を特定することが可能である。そのため、集計部20は、予測モデルに基づいて予測された予測結果と、実際に取得された実測結果との差分である誤差を利用して、寄与度を補正してもよい。
 集計部20は、例えば、予測対象ごとに、予測結果と実測結果の差分に基づいて、各説明変数の寄与度を同じ割合で補正してもよい。例えば、実測結果が予測結果の2倍の値を取った場合、集計部20は、各説明変数の寄与度をそれぞれ2倍してもよい。
 他にも、集計部20は、例えば、予測結果と実測結果の差分を示す新たな説明変数を設け、その差分を新たな説明変数の寄与度としてもよい。
 なお、集計部20が誤差に応じて寄与度を補正する方法は、上述する例に限定されない。集計部20は、寄与度を補正する割合を変更してもよく、新たな説明変数を2つ以上設けてもよい。
実施形態3.
 次に、本発明による情報処理システムの第3の実施形態を説明する。第1の実施形態および第2の実施形態では、説明変数ごとに寄与度を算出する方法を説明した。一方、予測に用いられる説明変数は、その数が非常に多くなることも想定される。すなわち、分析に用いられる要因を細かくしすぎると、集約した際に説明変数の種類が非常に膨大になり、解釈性に影響を及ぼす可能性がある。
 以下、説明変数の種類が膨大になる理由を、具体例を用いて説明する。例えば、全国に1000店舗の小売店を展開する企業が、1店舗あたり2000種類の商品の売上数量を月ごとに予測している場合、その予測モデルの数は、1年で、1000(店舗)×12(月/年)×2000(種類/月・店舗)=24,000,000になる。
 ここで、オペレータが、特定の月における特定の商品の全国の売上について、売上の要因分析を行いたいとする。この場合、受付部10は、オペレータから、予測対象を特定する分類として「2016年3月のある日におけるオレンジジュースの売上数」という分類を受け付ける。受付部10が受け付けた分類により、1000店舗分の予測モデルが特定される。すなわち、1000店舗それぞれにおける2016年3月のある日におけるオレンジジュースの売上数を予測する予測モデルが特定される。
 一方、予測モデルの数が増加するほど、その予測モデルに含まれる説明変数の種類も増加する。このことについて、図4に示す予測モデルを例に説明する。図12は、複数の予測モデルを用いて要因分析する処理の例を示す説明図である。ここでは、A店からD店までの2016年3月のある日のオレンジジュースの売上の要因分析を行うものとする。同じ時期(例えば、2016年3月)における同じ商品(例えば、オレンジジュース)であっても、その売上に寄与する要因(すなわち、説明変数)は、店舗によって様々であると考えられる。
 例えば、図4に示す例では、A店のオレンジジュースの売上に寄与する要因(すなわち、説明変数)は、予測対象ID=2で特定される予測モデルに含まれる説明変数x,x,x,x11,x17が示す要因と考えられる。一方、B店のオレンジジュースの売上に寄与する要因(すなわち、説明変数)は、予測対象ID=7で特定される予測モデルに含まれる説明変数x,x,x,x12,x15,x16が示す要因と考えられる。同様に、C店では、予測対象ID=12で特定される予測モデルに含まれる説明変数x,x,x10,x12,x13,x15が示す要因が考えられ、D店では、予測対象ID=17で特定される予測モデルに含まれる説明変数x,x,x,x13,x15が示す要因が考えられる。
 これらの要因を全て集計すると、A店からD店までの2016年3月のオレンジジュースの売上には、説明変数x,x,x,x,x,x,x,x10,x11,x12,x13,x15,x16,x17が示す要因が影響していることが分かる。しかし、考慮すべき説明変数が増えすぎると、解釈性に影響を及ぼす可能性がある。その結果、集計部20が大量の予測モデルについて集計処理を行うと、予測モデルに含まれる説明変数の種類が多すぎることで、その集計結果が人間にとって解釈しづらいものとなるおそれがある。すなわち、一つの予測式を構成する説明変数の数自体がそれほど多くはなくても、予測式の数が増えるにしたがって、含まれる説明変数の種類は増加してしまうことがある。そこで、本実施形態では、予測対象に寄与し得る要因を、より大域的な観点から分析できる方法を説明する。
 本実施形態では、各説明変数に、変数の性質を示すカテゴリがそれぞれ設定される。ただし、第1の実施形態および第2の実施形態の説明変数にカテゴリが設定されていてもよい。図13は、カテゴリが設定された説明変数の例を示す説明図である。
 例えば、予測モデルに、「テレビ広告」、「インターネット掲載」、「チラシ配布」などの説明変数が含まれている場合、これらの説明変数には、例えば、「広告」というカテゴリが設定される。また、例えば、予測対象が一日毎に予測されるとして、予測モデルに「日曜日であるか否か」、「祝日であるか否か」、「祝日の前日であるか否か」などの説明変数が含まれている場合、これらの説明変数には、例えば、「カレンダー」というカテゴリが設定される。また、例えば、予測対象が一日毎に予測されるとして、予測モデルに「雨の日か否か」、「最高気温」、「日照量」などの説明変数が含まれている場合、これらの説明変数には、例えば、「気象」というカテゴリが設定される。説明変数とその説明変数が属するカテゴリとの関係は、例えば、あらかじめ設定されているものとする。
 第3の実施形態の構成も、第1の実施形態および第2の実施形態の構成と同様である。ただし、本実施形態では、集計部20が説明変数に設定されるカテゴリごとに縮約して寄与度を算出する点において他の実施形態と異なる。なお、カテゴリごとに寄与度を算出するか、説明変数ごとに寄与度を算出するかは、予め定められていてもよく、受付部10が寄与度を算出する方法を受け付けてもよい。
 まず、集計部20は、説明変数ごとに寄与度を算出する。集計部20は、第1の実施形態に記載された第一の寄与度を説明変数ごとの寄与度として算出してもよく、第2の実施形態に記載された第二の寄与度を説明変数ごとの寄与度として算出してもよい。
 次に、集計部20は、算出された寄与度を説明変数のカテゴリごとに集計する。例えば、図7に例示する説明変数xと説明変数xが同じカテゴリに属する場合、集計部20は、説明変数xの寄与度wと説明変数xの寄与度wを加算し、そのカテゴリの寄与度とする。以下の説明では、カテゴリごとに集計された寄与度を、第三の寄与度と記す。
 本実施形態においても、集計部20は、カテゴリごとに集計された寄与度を標準化してもよい。具体的には、集計部20は、カテゴリごとに集計された寄与度の合計値が1になる(すなわち、平均が0、分散が1になる)ようにそれぞれの寄与度を補正してもよい。
 また、集計部20は、カテゴリごとに集計された寄与度(第三の寄与度)の比率を算出してもよい。具体的には、集計部20は、第三の寄与度の総和に対する各カテゴリの第三の寄与度の比率を、カテゴリごとに算出してもよい。
 次に、本実施形態の情報処理システムの動作を説明する。図14は、第3の実施形態の情報処理システム100の動作例を示すフローチャートである。まず、受付部10は、予測対象を特定する分類を受け付ける(ステップS11)。次に、集計部20は、受け付けた分類から予測対象を特定し(ステップS12)、特定された予測対象の予測モデルに含まれる共通のカテゴリの説明変数ごとに、そのカテゴリの重みを寄与度(第三の寄与度)として集計する(ステップS31)。
 以上のように、本実施形態では、集計部20が、説明変数ごとに算出された寄与度を、その説明変数のカテゴリごとに集計し、第三の寄与度として算出する。そのため、第1の実施形態または第2の実施形態の効果に加え、より大域的な観点で分析することが可能になる。
 図15は、カテゴリごとに寄与度を集計した場合の例を示す説明図である。図12に示す例では、要因(すなわち、説明変数)が14種類存在していたが、カテゴリごとに集計することで、要因が広告、カレンダー、気象および価格の4種類に集約されている。また、このように、似たような大量の説明変数を集計することで、要因の解釈性を高めることが可能になる。例えば、図15に示す例では、カテゴリ「カレンダー」に関する要因が大きいことが一見して判断しやすくなる。
 なお、集計部20は、第1の実施形態または第2の実施形態と同様に、各予測式でカテゴリごとに集計した寄与度を標準化してもよい。具体的には、集計部20は、各カテゴリについての寄与度の合計値が1になる(平均が0、分散が1になる)ようにそれぞれの寄与度を補正してもよい。
 また、集計部20は、各予測式間でカテゴリごとの寄与度の比率を算出してもよい。具体的には、集計部20は、算出されたカテゴリごとの寄与度の総和に対する各カテゴリの寄与度の比率を、予測式ごとに算出してもよい。
実施形態4.
 次に、本発明による情報処理システムの第4の実施形態を説明する。第4の実施形態の構成も、第1の実施形態の構成と同様である。ただし、本実施形態では、適用される変数の値(実測値)に応じて予測式が特定される予測モデルを用いて寄与度を算出する方法を説明する。実測値に応じて予測式が特定される予測モデルとして、例えば、サンプルに応じて1つの予測式を特定する場合分け予測器が挙げられる。なお、受付部10の動作は、第1の実施形態と同様である。
 図16は、場合分け予測器の例を示す説明図である。図16は、サンプルに応じて予測式が変化することを模式的に示している。図16に例示する予測器は、サンプルが示す曜日が土曜日または日曜日(週末)の場合には予測式1が使用され、週末以外で天気が晴れの場合には予測式2が使用され、それ以外の場合には予測式3が使用されることを示す。また、図16に例示する選択割合は、各予測式がサンプルに応じて選択される割合を例示している。言い換えると、サンプルに応じて予測式が選択されることから、選択割合は、予測式に対応するサンプル数の割合を示していると言うことができる。また、本実施形態で説明する場合分け予測器は、実測値に応じて予測式が特定される予測モデルを表わしていると言える。
 集計部20は、適用される変数の値に応じて予測式が特定される予測モデル(すなわち、場合分け予測器)を用いて、説明変数ごとに寄与度を算出する。具体的には、集計部20は、上記場合分け予測器を用いて、使用するサンプルごとに該当する予測式を特定する。
 その後、集計部20は、第1の実施形態で示す第一の寄与度(すなわち、特定された予測対象の予測モデルに含まれる説明変数の重みの総和)を算出してもよいし、第2の実施形態で示す第二の寄与度(すなわち、説明変数ごとに算出された積の総和)を算出してもよい。また、集計部20は、第3の実施形態で示す第三の寄与度(すなわち、カテゴリごとに集計された寄与度)を算出してもよい。
 例えば、第一の寄与度を算出する場合、集計部20は、予測式の特定に用いたサンプルの割合を予測式ごとに算出する。図16に示す例では、予測式1の特定に用いられたサンプルの割合が30%、予測式2の特定に用いられたサンプルの割合が40%、予測式3の特定に用いられたサンプルの割合が30%である。
 次に、集計部20は、算出した割合に応じて係数を補正する。具体的には、集計部20は、算出した割合を対応する予測式の係数に乗じる。そして、集計部20は、特定された予測式に含まれる説明変数ごとに、その説明変数の係数を集計する。これが、1つの予測対象について各説明変数の寄与度になる。
 第二の寄与度を算出する場合、集計部20は、サンプルに応じて特定した予測式における説明変数の係数とその説明変数のサンプルの値との積を、説明変数ごとに算出する。そして、集計部20は、算出した積の総和を説明変数ごとに算出して寄与度とする。これが、1つの予測対象について各説明変数の寄与度になる。
 第三の寄与度を算出する場合、集計部20は、第一の寄与度または第二の寄与度を算出した後で、カテゴリが共通する説明変数ごとに寄与度を集計すればよい。
 以上のように、本実施形態では、集計部20が、適用される変数の値に応じて予測式が特定される予測モデルを用いて、説明変数ごとに寄与度を算出する。そのため、第1~3の実施形態の効果に加え、サンプルに応じて予測式が選択されるような予測モデルを用いても寄与度を算出できる。
 次に、本願発明の情報処理システムの具体例を説明する。
 まず、第一の具体例では、受付部10が受け付けた分類に基づいて特定された10~100個程度の予測モデルに対して、ユーザが様々な観点から集計処理を行う方法を説明する。第一の具体例では、図2および図4に例示する情報から特定される予測モデルが記憶部30に記憶されているとする。
 図17は、出力部40が表示する集計画面例を示す説明図である。図17に示す例では、集計画面の初期状態を示し、上部に分析を行う対象を指定する画面S1が存在し、下部に集計結果を表示する画面S2が存在するものとする。
 また、図17に示す例では、画面S1に、予測対象を特定する分類ごとにドロップダウンリストD1~3が設けられている。図18は、ドロップダウンリストに含まれる情報の例を示す説明図である。図18に示す例では、商品分類の飲料に果汁飲料が含まれ、さらに、果汁飲料の分類に複数のジュースが含まれていることを示す。分類が階層構造になることを考慮し、出力部40は、分類の階層に応じて集計結果を表示してもよい。
 また、図17に示す例では、上位の分類が選択された場合に下位の分類ごとに集計結果を表示するか否かを指定するチェックボックスC1~3が分類ごとに設けられている。
 また、画面S1には、集計方法を指定するために、要因(すなわち、説明変数)ごとに集計するか、カテゴリごとに集計するか選択するためのラジオボタンR1が設けられる。さらに、画面S1には、第1の実施形態で説明した説明変数の重みを寄与度として表示するか、実測値も考慮して第2の実施形態で説明した説明変数と実績値との積を寄与度として表示するか選択するためのラジオボタンR2も設けられる。
 ユーザが分類および集計方法を選択して図17に例示する実行ボタンB1を押下すると、受付部10および集計部20は、集計処理を行い、出力部40が、集計結果を画面S2に出力する。
 以下、ユーザから2種類の観点での要因分析を受け付けた場合の集計結果の例を説明する。1種類目は、2016年3月、東京都の全店舗(すなわち、A店,B店,C店およびD店)におけるオレンジジュースの売上の要因分析であり、2種類目は、2016年3月、特定の店舗(A店)における果汁飲料全体(アップルジュース、オレンジジュース、パインジュース、グレープジュースおよびピーチジュース)の売上の要因分析である。
 図19~図23は、出力部40が表示する出力結果画面例を示す説明図である。図19は、東京都の全店舗におけるオレンジジュースの売上の要因を出力した結果の例を示す。また、図20は、A店における果汁飲料全体の売上の要因を出力した結果の例を示す。
 図19および図20に例示するように、本願発明の情報処理システムを用いることで、様々な観点から予測対象に寄与し得る要因を分析できる。
 なお、図19および図20に示すように、対象とする予測モデルが増加するに従い、寄与し得る要因(説明変数)も増加する。そこで、第3の実施形態で説明したように、要因(説明変数)をカテゴリごとに集計することで、解釈性容易性を高めることが可能になる。
 図21は、東京都の全店舗におけるオレンジジュースの売上の要因をカテゴリで集計して出力した結果の例を示す。また、図22は、A店における果汁飲料全体の売上の要因をカテゴリで集計して出力した結果の例を示す。図19に示す例では、要因が14個だったのに対し、図21に示す例では、4つのカテゴリに集約されている。また、図20に示す例では、要因が15個だったのに対し、図22に示す例では、4つのカテゴリに集約されている。いずれの場合も、より解釈性が高くなっていると言える。
 また、出力部40は、上位の分類が指定された場合に、下位に含まれる分類ごとに集計結果を表示してもよい。図23は、東京都の果汁飲料の売上のカテゴリごとの要因分析をする際、果汁飲料の下位の分類に含まれるアップルジュース、オレンジジュース、パインジュース、グレープジュースおよびピーチジュースの集計結果を出力した例を示す。
 次に、本願発明の情報処理システムの第二の具体例を説明する。第二の具体例では、様々な予測対象の要因を一覧で可視化する方法を説明する。第二の具体例では、説明変数が属するカテゴリとして、「立地」、「気象」、「カレンダー」、「棚割り」、「価格」および「広告」の6つを想定する。また、「広告」カテゴリに属する説明変数として、「テレビ広告」、「インターネット掲載」および「チラシ配布」の3つを想定する。
 また、売上を予測する予測対象を、「全飲料」、「果汁飲料」、「コーヒー」、「350ml缶単品」、「350ml缶セット」、「500mlペットボトル単品」および「500mlペットボトルセット」の6つに縮約するものとする。「果汁飲料」の中には、「オレンジジュース」、「グレープジュース」および「アップルジュース」が含まれるものとし、関東地区に含まれる東京にA店が存在するものとする。また、初期の分類として、1月の関東地区の売上を想定する。
 図24は、予測モデルの例を示す説明図である。図24に例示する表の意味は、図4に例示する表の意味と同様である。すなわち、表の縦方向が予測対象を示し、表の横方向がその予測対象の予測モデルを表わす説明変数の重みを示す。ただし、本具体例で示す予測モデルは、予測対象および説明変数の内容が異なる。
 図25は、図24に例示する予測モデルに基づいて予測対象のカテゴリごとの重みを標準化した例を示す説明図である。図25に例示する表を生成するため、集計部20は、図24に例示する予測モデルについて、説明変数のカテゴリごとに係数の絶対値を集計した後、その集計値を標準化している。図25に例示する係数が、本実施形態の重み(寄与度)に対応する。
 出力部40は、図25に例示する集計結果をヒートマップ形式で出力してもよい。図26は、図25に例示する集計結果をヒートマップ形式で出力した例を示す説明図である。ヒートマップで集計結果を表示することで、全体の傾向の視認性を向上させることができる。
 また、出力部40は、図25に例示する集計結果をバランスチャートで出力してもよい。図27は、図25に例示する集計結果をバランスチャートで出力した例を示す説明図である。図27に例示するバランスチャートは、図25に例示する予測結果のうち、3つの予測結果(「全飲料」、「果汁飲料」および「コーヒー」)を選択して出力したものである。
 また、出力部40は、直接制御可能な説明変数を含むカテゴリについて集計された結果と、直接制御可能でない説明変数を含むカテゴリについて集計された結果とを、互いに区別し得る態様にて表示してもよい。
 図27に示す例では、直接制御可能な説明変数を含むカテゴリである「広告」、「価格」、および「棚割り」の集計結果と、直接制御可能でない説明変数を含むカテゴリである「立地」、「気象」および「カレンダー」とを、見出しを黒枠で囲むように表示することで互いに区別している。ただし、区別する方法は見出し自体の態様を変化させる方法に限定されず、例えば、出力する値やプロットの態様を変化させてもよい。
 なお、図27に示す例では、カテゴリごとに集計した結果を出力しているが、説明変数ごとに集計した結果を出力する場合も同様である。この場合、出力部40は、直接制御可能な説明変数について集計された結果と、直接制御可能でない説明変数について集計された結果とを、互いに区別し得る態様にて表示すればよい。
 また、出力部40は、算出された説明変数の寄与度の総和に対する各説明変数の寄与度の比率を可視化してもよい。図28は、各説明変数の寄与度の比率を可視化した例を示す説明図である。図28に示す例では、予測対象が「コーヒー」の場合の比率(図28(a)参照)と、予測対象が「500mlペットボトル」の場合の比率(図28(b)参照)を円グラフで表している。このように比率を表示することで、予測対象に寄与し得る要因の影響度合いを、他の説明変数と比較しながら視覚的に把握することが可能になる。
 また、本願発明では、予測対象ごとに設けられた予測モデル(予測式)を縮約して寄与度を集計しているため、説明変数のカテゴリ方向、および、予測対象の分類方向のいずれの方向にも展開および集約して表示することが可能である。
 図29は、カテゴリに属する説明変数の寄与度を出力する例を示す説明図である。例えば、図25に例示する表から画面操作等によりカテゴリが選択された場合、出力部40は、選択されたカテゴリに含まれる説明変数ごとに寄与度を出力してもよい。図29に示す例では、図25に例示する表から、カテゴリ「広告」が選択された場合に、集計部20が、カテゴリ「広告」に属する説明変数である「テレビ広告」、「インターネット掲載」および「チラシ配布」の寄与度を算出し、出力部40がその集計結果を出力していることを示す。
 図30は、予測対象を変更した例を示す説明図である。例えば、図25に例示する表から画面操作等により予測対象が選択された場合、出力部40は、選択された予測対象に含まれる予測式の寄与度を出力してもよい。図30に示す例では、図25に例示する表から、予測対象「果汁飲料」が選択された場合に、集計部20が、予測対象「果汁飲料」に含まれる予測対象である「オレンジジュース」、「グレープジュース」および「アップルジュース」の寄与度をカテゴリごとに算出し、出力部40がその集計結果を出力していることを示す。
 図31は、予測対象を変更した他の例を示す説明図である。図31に示す例では、予測対象を関東の中から東京を選択した例を示している。図31に例示するように、出力部40は、予測対象を特定可能な分類を選択的に表示してもよい。なお、予測対象の階層は1段階に限定されず、複数存在してもよい。例えば、東京の下位の階層として店舗(例えば、「A店」)を選択できるようにしてもよい。
 なお、図29から図31に示す例では、寄与度を表示する対象をドリルダウンで選択する場合を例示したが、出力内容の変更はドリルダウンで指定する場合に限定されない。ユーザ等の指示に応じて別の範囲の予測対象(または予測対象の分類)が指定された場合、集計部20は、指定された内容に応じて寄与度を算出し、出力部40は、その算出結果を出力すればよい。
 なお、上記具体例では、商品に関する売上を予測対象とする場合について説明したが、サービスに関する対象を予測対象とする場合も同様に対応可能である。サービスに関する予測対象として、例えば、あるサービスを提供する施設への来場者数などが挙げられる。
 また、上記具体例では、予測対象の分類として、商品の内容や性質、商品が提供される場所を例示したが、予測対象の分類はこれらの内容に限定されない。例えば、分類が、販売者または購買者の観点で設けられてもよいし、商品が提供される時間の観点で設けられてもよい。また、この分類は、予測対象が商品に関する対象である場合に限られず、予測対象がサービスに関する対象の場合にも、同様に採用することが可能である。
 例えば、あるサービスを提供する施設Fの来場者数の要因を分析するとする。この場合、分類として、時期(2015年3月)を設定することが考えられる。また、要因(説明変数)として、広告(例えば、タレントAを起用したCMを関西地方で放映回数、所定の電車の車内中吊り広告掲載回数)などが用いられてもよい。
 他にも、例えば、ある生活習慣病の要因を分析するとする。このとき、例えば、分類として、年代(40代)、性別(男性)などが挙げられる。
 また、このような観点から、本願発明の情報処理システムを、小売店の売上予測だけでなく、製造業向けの生産予測や鉄道会社向けの乗客数予測、電気事業者向けの需要予測など、幅広い業種および予測対象に利用することが可能である。
 次に、本発明の概要を説明する。図32は、本発明による情報処理システムの概要を示すブロック図である。本発明による情報処理システム80は、複数の分類により特定される予測対象を、予測対象に影響し得る変数を含む予測モデルを用いて予測する情報処理システム(例えば、情報処理システム100)であって、予測対象を特定する分類を受け付ける受付部81(例えば、受付部10)と、予測対象のうち受け付けられた分類により特定される予測対象について、予測対象に対応する予測モデルにより定まる寄与度を、変数(例えば、説明変数)ごとに集計する集計部82(例えば、集計部20)とを備えている。
 そのような構成により、予測対象に寄与し得る要因を分析できる。
 また、情報処理システム80は、複数の分類により特定される予測対象に、予測対象に影響し得る変数を含む予測モデルを対応付けて記憶している記憶部(例えば、記憶部30)を更に備えていてもよい。そして集計部82は、記憶部が記憶している複数の予測対象のうち、受け付けられた分類により特定される予測対象について、集計してもよい。
 また、集計部82は、変数とその変数が属するカテゴリとの対応関係に基づいて、寄与度(例えば、第三の寄与度)をカテゴリごとに集計してもよい。そのような構成により、より大域的な観点で分析することが可能になる。
 具体的には、集計部82は、変数の重みを寄与度として集計してもよい。また、集計部82は、特定された予測対象の予測モデルに含まれる変数の重みの総和を第一の寄与度として変数ごとに算出してもよい。そのような構成により、複数の予測対象を縮約して、寄与し得る要因(説明変数)を分析できる。
 また、予測モデルが複数の変数を含む線形回帰式で表されていてもよい。このとき、集計部82は、予測モデルに含まれる変数の係数をその変数の重みとして集計してもよい。
 また、予測モデルが複数の変数を含む線形回帰式で表されている場合に、集計部82は、予測モデルに含まれる変数の係数とその変数の実測値との積を変数ごとに算出し、算出した積の総和を第二の寄与度として変数ごとに算出してもよい。そのような構成により、実績値を反映した分析が可能になる。
 その際、集計部82は、予測対象の予測値と実測値との差分である誤差に基づいて寄与度を補正してもよい。また、集計部82は、予測対象の予測値と実測値との差分である誤差を、その誤差を示す変数の寄与度として集計してもよい。
 また、集計部82は、変数ごとに算出された寄与度を標準化してもよい。例えば、図7に示す例の場合、集計部82は、説明変数ごとに算出した寄与度w~wを標準化(横方向に標準化)してもよい。
 また、集計部82は、算出された変数の寄与度の総和に対する変数の寄与度の比率を変数ごとに算出してもよい。例えば、図7に示す例の場合、集計部82は、説明変数ごとに算出した寄与度w~wの総和を算出し、その総和に対する各説明変数の寄与度の比率(横方向の比率)を算出してもよい。
 一方、集計部82は、各予測式で共通する変数の重みをその変数ごとに標準化してもよい。例えば、図7に示す例の場合、集計部82は、対象とする予測式に含まれる説明xの係数a11,a31を標準化(縦方向に標準化)してもよい。
 また、集計部82は、共通する変数の重みの総和に対する変数の重みの比率を予測対象ごとに算出してもよい。例えば、図7に示す例の場合、集計部82は、説明変数xの重みの総和(a11+a31)に対する各予測式の説明変数xの重みの比率(a11/a11+a31,a31/a11+a31)(縦方向の比率)を算出してもよい。
 また、集計部82は、適用される変数(例えば、サンプル)の値に応じて予測式が特定される予測モデル(例えば、場合分け予測器)を用いて、変数ごとに寄与度を算出してもよい。
 なお、予測対象は、商品またはサービスに関する対象であってもよい。そして、分類は、商品またはサービスの、内容若しくは性質、販売者若しくは購買者、または、商品またはサービスが提供される場所もしくは時間、のうちのいずれかを示す情報であってもよい。
 また、情報処理システムは、直接制御可能な変数(例えば、図27に例示する「立地」、「気象」、「カレンダー」)について集計された結果と、直接制御可能でない変数(例えば、図27に例示する「広告」、「価格」、「棚割り」)について集計された結果とを、互いに区別し得る態様(図27に示す例ではカテゴリを黒枠表示)にて表示する出力部(例えば、出力部40)を備えていてもよい。
 また、これまで、予測モデルが線形回帰式である場合について説明した。しかし、予測モデルは線形回帰式には限定されない。予測モデルが予測対象に影響し得る変数から構成され、予測対象への寄与度が予測モデルにより定まるならば、本発明を適用可能である。
 10 受付部
 20 集計部
 30 記憶部
 40 出力部
 100 情報処理システム

Claims (20)

  1.  複数の分類により特定される予測対象を、前記予測対象に影響し得る変数を含む予測モデルを用いて予測する情報処理システムであって、
     前記予測対象を特定する分類を受け付ける受付部と、
     前記予測対象のうち前記受け付けられた分類により特定される予測対象について、前記予測対象に対応する予測モデルにより定まる寄与度を、前記変数ごとに集計する集計部とを備えた
     ことを特徴とする情報処理システム。
  2.  複数の分類により特定される予測対象に、前記予測対象に影響し得る変数を含む予測モデルを対応付けて記憶している記憶部を更に備え、
     前記集計部は、前記記憶部が記憶している複数の予測対象のうち、前記受け付けられた分類により特定される予測対象について、集計する
     請求項1記載の情報処理システム。
  3.  前記集計部は、変数と前記変数が属するカテゴリとの対応関係に基づいて、前記寄与度を前記カテゴリごとに集計する
     請求項1または請求項2記載の情報処理システム。
  4.  前記集計部は、前記変数の重みを寄与度として集計する
     請求項1から請求項3のうちのいずれか1項に記載の情報処理システム。
  5.  前記集計部は、特定された予測対象の予測モデルに含まれる変数の重みの総和を第一の寄与度として当該変数ごとに算出する
     請求項4記載の情報処理システム。
  6.  予測モデルが複数の変数を含む線形回帰式で表され、
     前記集計部は、前記予測モデルに含まれる変数の係数を当該変数の重みとして集計する
     請求項4または請求項5記載の情報処理システム。
  7.  予測モデルが複数の変数を含む線形回帰式で表され、
     前記集計部は、前記予測モデルに含まれる変数の係数と当該変数の実測値との積を当該変数ごとに算出し、算出した積の総和を第二の寄与度として当該変数ごとに算出する
     請求項4記載の情報処理システム。
  8.  前記集計部は、予測対象の予測値と実測値との差分である誤差に基づいて寄与度を補正する
     請求項7記載の情報処理システム。
  9.  前記集計部は、予測対象の予測値と実測値との差分である誤差を、当該誤差を示す変数の寄与度として集計する
     請求項7記載の情報処理システム。
  10.  前記集計部は、変数ごとに算出された寄与度を標準化する
     請求項1から請求項9のうちのいずれか1項に記載の情報処理システム。
  11.  前記集計部は、算出された変数の寄与度の総和に対する変数の寄与度の比率を当該変数ごとに算出する
     請求項1から請求項8のうちのいずれか1項に記載の情報処理システム。
  12.  前記集計部は、各予測式で共通する変数の重みを当該変数ごとに標準化する
     請求項1から請求項9のうちのいずれか1項に記載の情報処理システム。
  13.  集計部は、共通する変数の重みの総和に対する変数の重みの比率を予測対象ごとに算出する
     請求項1から請求項9のうちのいずれか1項に記載の情報処理システム。
  14.  前記集計部は、適用される変数の値に応じて予測式が特定される予測モデルを用いて、変数ごとに寄与度を算出する
     請求項1から請求項13のうちのいずれか1項に記載の情報処理システム。
  15.  予測対象は、商品またはサービスに関する対象であり、
     分類は、前記商品またはサービスの、内容若しくは性質、販売者若しくは購買者、または、前記商品またはサービスが提供される場所もしくは時間、のうちのいずれかを示す情報である
     請求項1から請求項14のうちのいずれか1項に記載の情報処理システム。
  16.  直接制御可能な変数について集計された結果と、直接制御可能でない変数について集計された結果とを、互いに区別し得る態様にて表示する出力部を備えた
     請求項1から請求項15のうちのいずれか1項に記載の情報処理システム。
  17.  複数の分類により特定される予測対象を、前記予測対象に影響し得る変数を含む予測モデルを用いて予測する情報処理方法であって、
     前記予測対象を特定する分類を受け付け、
     前記予測対象のうち前記受け付けられた分類により特定される予測対象について、前記予測対象に対応する予測モデルにより定まる寄与度を、前記変数ごとに集計する
     ことを特徴とする情報処理方法。
  18.  複数の分類により特定される予測対象に、前記予測対象に影響し得る変数を含む予測モデルを対応付けて記憶している記憶部が記憶している複数の当該予測対象のうち、前記受け付けられた分類により特定される予測対象について、集計する
     請求項17記載の情報処理方法。
  19.  複数の分類により特定される予測対象を、前記予測対象に影響し得る変数を含む予測モデルを用いて予測するコンピュータに適用される情報処理プログラムであって、
     前記コンピュータに、
     前記予測対象を特定する分類を受け付ける受付処理、および、
     前記予測対象のうち前記受け付けられた分類により特定される予測対象について、前記予測対象に対応する予測モデルにより定まる寄与度を、前記変数ごとに集計する集計処理
     を実行させるための情報処理プログラム。
  20.  コンピュータに、
     前記集計処理で、複数の分類により特定される予測対象に、前記予測対象に影響し得る変数を含む予測モデルを対応付けて記憶している記憶部が記憶している複数の当該予測対象のうち、前記受け付けられた分類により特定される予測対象について、集計させる
     請求項19記載の情報処理プログラム。
PCT/JP2016/001751 2016-03-25 2016-03-25 情報処理システム、情報処理方法および情報処理プログラム WO2017163277A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018506499A JP6604431B2 (ja) 2016-03-25 2016-03-25 情報処理システム、情報処理方法および情報処理プログラム
US16/070,956 US20190034945A1 (en) 2016-03-25 2016-03-25 Information processing system, information processing method, and information processing program
PCT/JP2016/001751 WO2017163277A1 (ja) 2016-03-25 2016-03-25 情報処理システム、情報処理方法および情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/001751 WO2017163277A1 (ja) 2016-03-25 2016-03-25 情報処理システム、情報処理方法および情報処理プログラム

Publications (1)

Publication Number Publication Date
WO2017163277A1 true WO2017163277A1 (ja) 2017-09-28

Family

ID=59901274

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/001751 WO2017163277A1 (ja) 2016-03-25 2016-03-25 情報処理システム、情報処理方法および情報処理プログラム

Country Status (3)

Country Link
US (1) US20190034945A1 (ja)
JP (1) JP6604431B2 (ja)
WO (1) WO2017163277A1 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019065610A1 (ja) * 2017-09-29 2019-04-04 日本電気株式会社 情報処理装置、制御方法、及びプログラム
JP2019087030A (ja) * 2017-11-07 2019-06-06 株式会社東芝 予測モデル生成装置、予測モデル生成方法及び予測モデル生成プログラム
JP2019145087A (ja) * 2017-12-29 2019-08-29 ゴゴロ インク 交換可能エネルギー貯蔵装置に対する需要を予測するためのシステムおよび方法
WO2019187968A1 (ja) * 2018-03-29 2019-10-03 日本電気株式会社 情報処理システム、情報処理方法及び記憶媒体
JP2020024621A (ja) * 2018-08-08 2020-02-13 日本電気株式会社 情報処理装置、方法及びプログラム
WO2020040253A1 (ja) * 2018-08-24 2020-02-27 株式会社Nttドコモ 予測解釈装置、及び予測解釈方法
WO2020075436A1 (ja) * 2018-10-11 2020-04-16 日本電気株式会社 予測状況可視化装置、予測状況可視化方法および予測状況可視化プログラム
JP2020077033A (ja) * 2018-11-05 2020-05-21 日本電気株式会社 解析装置および解析方法
JP2020123164A (ja) * 2019-01-30 2020-08-13 株式会社日立製作所 計算機システム及び入力データに対する予測結果の根拠に関する情報の提示方法
JPWO2021130916A1 (ja) * 2019-12-25 2021-07-01
WO2022137778A1 (ja) * 2020-12-22 2022-06-30 日本電気株式会社 情報処理装置、分析方法、および分析プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6842111B2 (ja) * 2017-04-06 2021-03-17 テンソル・コンサルティング株式会社 モデル変数候補生成装置および方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009041242A1 (ja) * 2007-09-28 2009-04-02 Nec Soft, Ltd. 集計システム、集計装置、及び集計方法
JP2016012223A (ja) * 2014-06-27 2016-01-21 東芝テック株式会社 需要予測装置およびプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2011162119A1 (ja) * 2010-06-24 2013-08-19 日本電気株式会社 注目度推定装置、注目度推定方法、及びプログラム
US20130144642A1 (en) * 2011-06-02 2013-06-06 Russell W. Bessette Method of Predicting Healthcare Costs
US20130103597A1 (en) * 2011-10-24 2013-04-25 Fannie Mae Evaluating appraisals by comparing their comparable sales with comparable sales selected by a model
US9454173B2 (en) * 2013-05-22 2016-09-27 Utility Programs And Metering Ii, Inc. Predictive alert system for building energy management
US11599894B2 (en) * 2018-06-29 2023-03-07 Tata Consultancy Services Limited Method and system for generating customer decision tree through machine learning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009041242A1 (ja) * 2007-09-28 2009-04-02 Nec Soft, Ltd. 集計システム、集計装置、及び集計方法
JP2016012223A (ja) * 2014-06-27 2016-01-21 東芝テック株式会社 需要予測装置およびプログラム

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019065610A1 (ja) * 2017-09-29 2019-04-04 日本電気株式会社 情報処理装置、制御方法、及びプログラム
JP7078053B2 (ja) 2017-09-29 2022-05-31 日本電気株式会社 情報処理装置、制御方法、及びプログラム
JPWO2019065610A1 (ja) * 2017-09-29 2020-10-22 日本電気株式会社 情報処理装置、制御方法、及びプログラム
JP2019087030A (ja) * 2017-11-07 2019-06-06 株式会社東芝 予測モデル生成装置、予測モデル生成方法及び予測モデル生成プログラム
JP2019145087A (ja) * 2017-12-29 2019-08-29 ゴゴロ インク 交換可能エネルギー貯蔵装置に対する需要を予測するためのシステムおよび方法
JPWO2019187968A1 (ja) * 2018-03-29 2021-03-18 日本電気株式会社 情報処理システム、情報処理方法及び記憶媒体
WO2019187968A1 (ja) * 2018-03-29 2019-10-03 日本電気株式会社 情報処理システム、情報処理方法及び記憶媒体
JP7334728B2 (ja) 2018-03-29 2023-08-29 日本電気株式会社 情報処理システム、情報処理方法及び記憶媒体
JP2020024621A (ja) * 2018-08-08 2020-02-13 日本電気株式会社 情報処理装置、方法及びプログラム
JP7212231B2 (ja) 2018-08-08 2023-01-25 日本電気株式会社 情報処理装置、方法及びプログラム
WO2020040253A1 (ja) * 2018-08-24 2020-02-27 株式会社Nttドコモ 予測解釈装置、及び予測解釈方法
JP7328974B2 (ja) 2018-08-24 2023-08-17 株式会社Nttドコモ 予測解釈装置、及び予測解釈方法
JPWO2020075436A1 (ja) * 2018-10-11 2021-09-16 日本電気株式会社 予測状況可視化装置、予測状況可視化方法および予測状況可視化プログラム
JP7095744B2 (ja) 2018-10-11 2022-07-05 日本電気株式会社 予測状況可視化装置、予測状況可視化方法および予測状況可視化プログラム
WO2020075436A1 (ja) * 2018-10-11 2020-04-16 日本電気株式会社 予測状況可視化装置、予測状況可視化方法および予測状況可視化プログラム
JP2020077033A (ja) * 2018-11-05 2020-05-21 日本電気株式会社 解析装置および解析方法
JP7225688B2 (ja) 2018-11-05 2023-02-21 日本電気株式会社 解析装置、解析方法、および解析プログラム
JP2020123164A (ja) * 2019-01-30 2020-08-13 株式会社日立製作所 計算機システム及び入力データに対する予測結果の根拠に関する情報の提示方法
JP7125358B2 (ja) 2019-01-30 2022-08-24 株式会社日立製作所 計算機システム及び入力データに対する予測結果の根拠に関する情報の提示方法
JPWO2021130916A1 (ja) * 2019-12-25 2021-07-01
WO2021130916A1 (ja) * 2019-12-25 2021-07-01 日本電気株式会社 意図特徴量抽出装置、学習装置、方法およびプログラム
JP7279821B2 (ja) 2019-12-25 2023-05-23 日本電気株式会社 意図特徴量抽出装置、学習装置、方法およびプログラム
WO2022137778A1 (ja) * 2020-12-22 2022-06-30 日本電気株式会社 情報処理装置、分析方法、および分析プログラム

Also Published As

Publication number Publication date
US20190034945A1 (en) 2019-01-31
JPWO2017163277A1 (ja) 2018-11-01
JP6604431B2 (ja) 2019-11-13

Similar Documents

Publication Publication Date Title
JP6604431B2 (ja) 情報処理システム、情報処理方法および情報処理プログラム
JP7120649B2 (ja) 情報処理システム、情報処理装置、予測モデル抽出方法および予測モデル抽出プログラム
Mirabi et al. A study of factors affecting on customers purchase intention
TWI284848B (en) Sales prediction using client value represented by three index axes as criterion
WO2017168460A1 (ja) 情報処理システム、情報処理方法および情報処理プログラム
Vaz et al. Performance comparison of retailing stores using a Malmquist-type index
JP2009205365A (ja) 商品の在庫管理および販売の最適化システム、その最適化方法、及びその最適化プログラム
CN107886241A (zh) 资源分析方法、装置、介质和电子设备
JP2015043167A (ja) 売上予測システム及び売上予測方法
WO2017163278A1 (ja) 商品需要予測システム、商品需要予測方法および商品需要予測プログラム
CN109685537A (zh) 用户行为的分析方法、装置、介质和电子设备
Mumford et al. Footfall signatures and volumes: Towards a classification of UK centres
JP2018536947A (ja) ターゲットクラスタリング手法を利用して、属性タイプが混合した顧客をセグメント化するためのシステムおよび方法
Goic et al. Detecting inefficiently managed categories in a retail store
Hariharan et al. Aggregate impact of different brand development strategies
Dias et al. Time-or state-dependent price setting rules? Evidence from micro data
US20140297372A1 (en) Evaluation support device and evaluation support method
Tsao et al. The impact of loyalty and promotion effects on retention rate
US20190073620A1 (en) System, method and computer program product for data analysis
Adler et al. Ranking methods within data envelopment analysis
Abolghasemi et al. The value of point of sales information in upstream supply chain forecasting: an empirical investigation
Liebert Airport Benchmarking An Efficiency Analysis of European Airports from an Economic and Managerial Perspective
CN108665097A (zh) 一种货运需求模拟预测方法、装置及存储介质
AU2013359696A1 (en) Method and system for identifying defective goods based on user purchasing behaviour
Maha et al. Hotel efficiency analysis from the customer’s point of view in Romania: A stochastic production frontier approach

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2018506499

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16895317

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 16895317

Country of ref document: EP

Kind code of ref document: A1