WO2020250810A1 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
WO2020250810A1
WO2020250810A1 PCT/JP2020/022183 JP2020022183W WO2020250810A1 WO 2020250810 A1 WO2020250810 A1 WO 2020250810A1 JP 2020022183 W JP2020022183 W JP 2020022183W WO 2020250810 A1 WO2020250810 A1 WO 2020250810A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
prediction
analysis
user
information processing
Prior art date
Application number
PCT/JP2020/022183
Other languages
English (en)
French (fr)
Inventor
正典 宮原
慎吾 高松
紘士 飯田
健人 中田
裕士 堀口
元輝 東出
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/615,421 priority Critical patent/US20220230193A1/en
Priority to EP20821742.2A priority patent/EP3985580A4/en
Priority to CN202080041100.2A priority patent/CN113950692A/zh
Publication of WO2020250810A1 publication Critical patent/WO2020250810A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Definitions

  • This disclosure relates to information processing devices, information processing methods and programs.
  • a past case including a past prediction target and an analysis data set used for the prediction analysis of the prediction target is acquired, data used for the prediction analysis is acquired, and the data and the past case are obtained.
  • an information processing apparatus including a control unit that extracts a prediction target when performing prediction analysis using the data and constructs a data set used for the prediction analysis of the extracted prediction target based on the data is provided.
  • Embodiment 1-1 Embodiment 1-1. Background 1-2. Outline of information processing according to the embodiment 1-3. Configuration of Information Processing System According to Embodiment 1-4. Configuration of Information Processing Device According to Embodiment 1-5. Information processing procedure according to the embodiment 2. Other configuration examples 3. Hardware configuration
  • the user decides what kind of predictive analysis to perform based on the accumulated data. Furthermore, the user evaluates the business effect obtained by introducing the predictive analysis by conducting a proof experiment of the determined predictive analysis. In this way, by conducting a demonstration experiment and evaluating the business effect obtained by the predictive analysis, the user can introduce a highly effective predictive analysis into the business, and the predictive analysis can be utilized in the business.
  • FIG. 1 is a diagram illustrating the business introduction of predictive analysis.
  • the user first sets a problem as to which data is used and what is predicted in the accumulated data (step S1). For example, when setting a problem, "use data such as the customer's annual income and total assets to predict whether or not a loan will go bad” or "data such as past sales and customer age group”. Predict future sales by using. " In this way, the appropriate problem setting differs depending on the business field and the user. Therefore, the user sets a problem based on his / her own knowledge and experience, for example.
  • the user constructs a data set according to the problem setting from the accumulated data (step S2).
  • the user constructs a data set by, for example, extracting data to be used for predictive analysis from accumulated data, and interpreting and structuring the data according to predictive analysis. For example, user knowledge and experience may be required to build a data set.
  • the user generates a prediction model based on the problem setting and the data set (step S3).
  • Predictive models are generated using common machine learning.
  • the user can generate a prediction model using, for example, an existing information processing device.
  • the user evaluates the accuracy of the generated prediction model (step S4).
  • the accuracy of the prediction model is evaluated using a general evaluation index such as the area under the curve (AUC) or the accuracy.
  • AUC area under the curve
  • the user can evaluate the accuracy of the prediction model using, for example, an existing information processing device.
  • the user who evaluated the accuracy of the prediction model conducts a demonstration experiment using the prediction model generated next (step S5). For example, the user collects data in a limited range such as a period or region, and performs predictive analysis of the data using the generated prediction model. The user introduces predictive analysis into the business on a trial basis, for example, by changing the purchase of goods or the business partner according to the analysis result.
  • the user measures the effect of the demonstration experiment (step S6).
  • the user measures the effect by comparing the data before and after the experiment, for example, comparing the sales when the predictive analysis is introduced on a trial basis with the sales before the introduction.
  • the user then introduces predictive analysis into the actual business, depending on the results of the demonstration experiment and the measured effect.
  • FIG. 2 is a diagram schematically showing an analysis process according to the embodiment of the present disclosure.
  • FIG. 3 is a diagram illustrating an example of a past case according to the embodiment of the present disclosure.
  • FIG. 4 is a diagram illustrating an example of user data according to the embodiment of the present disclosure.
  • the analysis process according to the present disclosure is performed by the information processing device 100 shown in FIG.
  • the information processing device 100 is a device that executes information processing according to the present disclosure, and is, for example, a server device, a PC (Personal Computer), or the like.
  • the user data is, for example, data collected by the user.
  • the user data includes various data such as customer information and product information.
  • the user uses the user data to perform forecast analysis such as next month's sales.
  • past cases include problem setting of predictive analysis performed in the past.
  • the prediction target hereinafter, also referred to as the past target
  • the analysis data used for the prediction analysis of the past target such as which data was used for the past prediction.
  • a set hereinafter, also referred to as a past data set
  • past cases include, for example, the past dataset 12.
  • the historical dataset 12 includes, for example, "customer ID”, “loan amount”, “loan type”, “years of service” and “loan loss”. Further, in FIG. 3, it is indicated by diagonal lines that “credit loss” is a past target.
  • the past case includes the past data set 12 and the past object (here, “credit loss”).
  • the information processing device 100 acquires user data (step S12).
  • user data is data generated and collected by the user, and is used for model generation of predictive analysis and the like.
  • the user data 22 shown in FIG. 4 includes, for example, "customer ID”, "loan amount”, “loan type”, “years of service”, “annual income”, “total account balance”, and "credit loss”.
  • the information processing apparatus 100 extracts a prediction target based on the acquired past case and user data 22 (step S13).
  • the information processing device 100 selects, for example, a past object related to a user from past cases.
  • the information processing device 100 selects a past target by using a recommender system using information about the user, such as a department to which the information processing device 100 belongs or a predictive analysis performed by the user in the past.
  • a recommender system using information about the user, such as a department to which the information processing device 100 belongs or a predictive analysis performed by the user in the past.
  • the information processing apparatus 100 selects the “credit loss” of the past data set 12 shown in FIG. 3 from the past case as the past target.
  • the information processing device 100 extracts the same items as the selected past target from the user data 22 as a prediction target (hereinafter, also referred to as an extraction target) for which the prediction analysis is performed this time.
  • a prediction target hereinafter, also referred to as an extraction target
  • the past target selected by the information processing apparatus 100 is “lost debt”. Therefore, the information processing apparatus 100 extracts "credit loss” from the user data 22 shown in FIG. 4 as a prediction target.
  • the “credit loss” to be extracted is indicated by a diagonal line. The details of the extraction method of the extraction target will be described later with reference to FIG. 7.
  • the information processing apparatus 100 constructs a data set (hereinafter, also referred to as a construction data set) to be used for predictive analysis of the extraction target based on the user data 22 (step S14).
  • the information processing apparatus 100 extracts, for example, items related to the extraction target as a construction data set. For example, the information processing apparatus 100 extracts "customer ID”, “loan amount”, “loan type”, “years of service”, and "credit loss" from the user data 22 shown in FIG. 4, and generates a construction data set.
  • the information processing apparatus 100 constructs a data set including a part of the user data 22 shown in FIG. 4, but the present invention is not limited to this.
  • a data set including all user data 22 may be constructed. The details of the data set construction method will be described later with reference to FIG. 7.
  • the information processing apparatus 100 learns the prediction model based on the extraction target and the construction data set (step S15).
  • the information processing device 100 converts the data of the construction data set into a feature vector.
  • the information processing apparatus 100 generates a prediction model by solving a classification or regression problem by machine learning based on a feature vector and an extraction target.
  • the information processing apparatus 100 evaluates the accuracy of the prediction analysis by evaluating the generated prediction model (step S16).
  • the information processing apparatus 100 evaluates the prediction model using the prediction model and the construction data set.
  • the evaluation index is selected according to the analysis method, for example, AUC or Accuracy in the case of classification analysis, MAE (Mean Absolute Error) in the case of regression analysis, and the like.
  • the information processing device 100 presents the extraction information including the extraction target and the evaluation result to the user (step S17).
  • the extraction information including the extraction target and the evaluation result to the user.
  • FIG. 5 is a diagram showing an example of an image presented to the user.
  • the information processing device 100 presents the user with a combination of problem setting and evaluation results.
  • the extraction result when the information processing apparatus 100 extracts a plurality of problem settings is displayed.
  • the information processing apparatus 100 displays a list of combinations of problem setting and evaluation results as in the image IM1.
  • the user can decide whether or not to perform the predictive analysis with the problem setting presented by the information processing apparatus 100, for example, with reference to the evaluation result.
  • the content presented to the user by the information processing device 100 is not limited to the problem setting and the evaluation result.
  • the information processing apparatus 100 may present at least one of the construction data set, the extraction target, and the evaluation result to the user.
  • the information processing apparatus 100 may present reference information when the user selects a problem setting, such as an effect obtained when the predictive analysis is performed. Details of the method of displaying the extraction result by the information processing apparatus 100 will be described later with reference to FIG.
  • the information processing apparatus 100 extracts the problem setting, so that the user does not have to perform the problem setting and can perform the predictive analysis more easily. Further, when the information processing apparatus 100 evaluates the accuracy of the predictive analysis, the user can select the predictive analysis to be executed based on the accuracy evaluation, and the predictive analysis with high accuracy can be performed more easily.
  • FIG. 6 is a diagram showing a configuration example of the information processing system 1 according to the embodiment of the present disclosure.
  • the information processing system 1 includes a terminal device 10 and an information processing device 100.
  • the terminal device 10 and the information processing device 100 are wirelessly or wiredly connected to each other via a predetermined communication network (network N).
  • the information processing system 1 shown in FIG. 6 may include a plurality of terminal devices 10 and a plurality of information processing devices 100.
  • the terminal device 10 is an information processing device used by the user.
  • the terminal device 10 is used to provide a service related to predictive analysis.
  • the terminal device 10 may be any device as long as the processing in the embodiment can be realized.
  • the terminal device 10 may be any device as long as it provides a service related to predictive analysis to the user and has a display for displaying information.
  • the terminal device 10 may be, for example, a device such as a notebook PC, a desktop PC, a tablet terminal, a smartphone, a mobile phone, or a PDA (Personal Digital Assistant).
  • the information processing device 100 is used to provide a service related to predictive analysis to a user.
  • the information processing device 100 is an information processing device that controls the user to display information on the results of problem setting and predictive analysis evaluation based on user data.
  • the information processing device 100 generates an image showing information about the result of the problem setting and the predictive analysis evaluation, and provides the image to the terminal device 10.
  • the information processing device 100 controls the display of the terminal device 10.
  • the information processing device 100 is a server device that provides information to be displayed on the terminal device 10.
  • the information processing device 100 may provide the terminal device 10 with an application for displaying the provided image or the like.
  • the information processing device 100 controls the display of the terminal device 10 by transmitting an image including control information to the terminal device 10.
  • the control information is described in, for example, a script language such as Javascript (registered trademark), CSS, or the like.
  • the application itself provided from the information processing device 100 to the terminal device 10 may be regarded as control information.
  • FIG. 7 is a diagram showing a configuration example of the information processing apparatus 100 according to the embodiment of the present disclosure.
  • the information processing device 100 includes a communication unit 110, a storage unit 120, and a control unit 130.
  • the information processing device 100 includes an input unit (for example, a keyboard, a mouse, etc.) that receives various operations from the administrator of the information processing device 100, and a display unit (for example, a liquid crystal display, etc.) for displaying various information. You may have.
  • the communication unit 110 is realized by, for example, a NIC (Network Interface Card) or the like. Then, the communication unit 110 is connected to the network N (see FIG. 6) by wire or wirelessly, and transmits / receives information to / from another information processing device such as the terminal device 10 or an external server.
  • NIC Network Interface Card
  • the storage unit 120 is realized by, for example, a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk. As shown in FIG. 7, the storage unit 120 according to the embodiment includes a past case storage unit 121, a user data storage unit 122, and a user profile storage unit 123. Although not shown, the storage unit 120 may store various information such as an image that is the basis of the image provided to the terminal device 10.
  • a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory)
  • a storage device such as a hard disk or an optical disk.
  • the storage unit 120 includes a past case storage unit 121, a user data storage unit 122, and a user profile storage unit 123.
  • the storage unit 120 may store various information such as an image that is the basis of the image provided to the terminal device 10.
  • the past case storage unit 121 stores past cases.
  • Past cases include information about predictive analysis performed in the past.
  • the past case storage unit 121 stores, for example, a case when the predictive analysis is introduced into the business in the past.
  • the past cases may be appropriately acquired from an external server or the like without being held by the information processing apparatus 100.
  • FIG. 8 shows an example of the past case storage unit 121 according to the embodiment.
  • FIG. 8 is a diagram showing an example of the past case storage unit 121 according to the embodiment of the present disclosure.
  • the past case storage unit 121 has "problem setting", “data set”, “collection cost”, “prediction model”, “model evaluation result”, “demonstration experiment”, and "business effect”. Store information about such things for each case.
  • the past case storage unit 121 stores a plurality of past cases, such as past cases A, B, and so on.
  • “Problem setting” is information indicating what data was used and what was predicted in the prediction analysis.
  • “problem setting” for example, there are a plurality of "use items” (explanatory variables) such as "what data was used” and one "prediction target” (objective variable) such as "what was predicted”. included.
  • "use items” explanatory variables
  • prediction target objective variable
  • the items shown by diagonal lines are the prediction targets, and the remaining items are the items to be used.
  • the "data set” is a past data set used for training a prediction model.
  • a “data set” is a data set including "input data” and "correct answer data”.
  • the past data set 12 shown in FIG. 3 corresponds to such a “data set”.
  • the "collection cost” shown in FIG. 8 is the cost of collecting the data used in the predictive analysis.
  • the “collection cost” includes, for example, the period and cost required for collecting data for each item.
  • the "prediction model” is a past prediction model (hereinafter, also referred to as a past model) generated by using the "problem setting" and "data set” to be stored.
  • a “predictive model” is a model generated by solving a classification or regression problem, for example, by machine learning.
  • the “model evaluation result” is the result of the accuracy evaluation of the "prediction model” to be stored.
  • the “model evaluation result” includes the evaluation result by an evaluation index such as AUC or Accuracy.
  • “Demonstration experiment” is information on the contents and results of the demonstration experiment conducted to introduce the business of predictive analysis.
  • the “demonstration experiment” includes, for example, information such as the period and range of the experiment, the data used in the experiment, the effect obtained by the experiment, and the cost of the experiment.
  • Business effect is information on the business effect obtained after introducing the forecast analysis into the business.
  • the "business effect” includes, for example, information such as a profit amount such as an improved sales amount and a cost reduction amount such as a reduced labor cost.
  • the past case storage unit 121 stores various information when the predictive analysis is introduced into the business in the past for each of a plurality of past cases.
  • the above-mentioned past case is an example, and if the past case storage unit 121 stores the "problem setting" and the "data set", for example, "collection cost", "model evaluation result”, and "demonstration experiment”. Etc., some information may not be stored, or information other than the above-mentioned information may be stored.
  • User data storage unit 122 Returning to FIG. 7, the user data storage unit 122 will be described.
  • User data is various data created or collected by the user.
  • various formats are assumed as listed below, for example.
  • the user data may be appropriately acquired from the terminal device 10, an external server, or the like without being held by the information processing device 100.
  • the user data may be raw data directly acquired from a camera, a sensor, or the like, or may be processed data obtained by performing processing such as feature amount extraction on the raw data.
  • the user data may include metadata that is a recognition result obtained by performing recognition processing of raw data or processed data.
  • the user profile storage unit 123 stores profile information about the user.
  • the profile information includes, for example, user information and user case information.
  • the user information is information about the user, and includes, for example, information about the user ID, the company name to which the user belongs, the department, the industry, and the like.
  • the user information may include information related to the user's interests and interests, such as search history of websites and databases, browsing history of websites, keywords contained in e-mails and office documents.
  • the user case information includes information related to the past prediction analysis performed by the user.
  • the user case information includes, for example, information on predictive analysis performed by the user in the past, information on past cases in which the user has been involved, and the like. It should be noted that such predictive analysis may be performed by the user himself or herself, or may be performed by the department or company to which the user belongs.
  • Control unit 130 for example, a program stored inside the information processing apparatus 100 (for example, a program according to the present disclosure) is executed by a CPU (Central Processing Unit), an MPU (Micro Processing Unit), or the like using a RAM or the like as a work area. It is realized by being done. Further, the control unit 130 is a controller, and is realized by, for example, an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • the control unit 130 collects and determines the acquisition unit 131, the time prediction unit 141, the interpretation unit 132, the extraction unit 133, the learning unit 134, the evaluation unit 135, and the prediction unit 136. It has a unit 137, a contribution calculation unit 142, and a display control unit 138, and realizes or executes a function or operation of information processing described below.
  • the internal structure of the control unit 130 is not limited to the configuration shown in FIG. 7, and may be another configuration as long as it is configured to perform information processing described later. Further, the connection relationship of each processing unit included in the control unit 130 is not limited to the connection relationship shown in FIG. 7, and may be another connection relationship.
  • the acquisition unit 131 acquires various information from the storage unit 120.
  • the acquisition unit 131 acquires a plurality of past cases from the past case storage unit 121.
  • the acquisition unit 131 acquires user data from the user data storage unit 122.
  • the acquisition unit 131 acquires profile information from the user profile storage unit 123.
  • the acquisition unit 131 may acquire various information from an external server, a terminal device 10, or the like instead of the past case storage unit 121, the user data storage unit 122, and the user profile storage unit 123.
  • the time prediction unit 141 predicts the time required for the analysis process performed by the control unit 130 from the start of data acquisition by the acquisition unit 131 to the presentation of the processing result such as problem setting extraction to the user.
  • the time prediction unit 141 uses the user data (hereinafter, also referred to as partial data) acquired by the acquisition unit 131 at a predetermined time (for example, 1 second) to perform analysis processing such as extraction, learning, and evaluation of problem settings.
  • the analysis process is a process performed by each unit of the control unit 130 from the start of data acquisition by the acquisition unit 131 to the presentation of the processing result to the user, and the details will be described later.
  • the time prediction unit 141 measures the processing time of the analysis process performed using some data.
  • the analysis process may take several hours or more, and in some cases several days, depending on the type and size of user data. Therefore, there is a user's request to know the time required for the analysis process. Therefore, the time prediction unit 141 calculates the prediction processing time using some data. As a result, it is possible to present the user with an estimate of the time required for the analysis process. At this time, by limiting the size of the data used for calculating the predicted processing time to a size that can be acquired in, for example, 1 second, the time required for calculating the predicted processing time can be suppressed to a short time.
  • the time prediction unit 141 does not simply calculate the prediction processing time from the size of the user data, but actually executes the analysis processing using a part of the data to calculate the prediction processing time.
  • the size of user data can be easily obtained, but the time required for predictive analysis depends not only on the size of user data but also on the nature of the data. Therefore, the time prediction unit 141 can actually execute the processing and calculate the prediction processing time, so that the prediction accuracy of the prediction processing time can be improved.
  • the time prediction unit 141 calculates the prediction processing time using some data acquired at a predetermined time, but the prediction processing time is not limited to this.
  • the time prediction unit 141 may calculate the prediction processing time using some data of a predetermined size (for example, 100 rows to 2000 rows).
  • the time prediction unit 141 may predict the prediction processing time using a trained processing time prediction model prepared in advance.
  • the time prediction unit 141 uses, for example, the number of items (number of columns) from some data, the loss rate of each item, the data type of each item (character string / numerical value / date, etc.), and the type of machine learning (binary value). Extract information such as classification / multi-value classification / regression, etc.). The time prediction unit 141 predicts the prediction processing time by the learned processing time prediction model using the extracted information.
  • the time prediction unit 141 may update the prediction processing time at a predetermined timing such as the passage of a certain time or the timing when the processing of each unit is completed.
  • the time prediction unit 141 uses some data and executes a process that has not yet been completed at a predetermined timing.
  • the time prediction unit 141 updates the prediction processing time by recalculating the prediction processing time based on the time required for the executed processing.
  • the partial data used for updating the predicted processing time may be the same as the partial data used for calculating the predicted processing time before the update, or may be the user data acquired again at the time of this update. ..
  • the interpretation unit 132 described later performs structured processing on all user data
  • user data of a predetermined size is acquired from all the user data that has undergone structured processing and is used as a part of data. May be good.
  • the interpretation unit 132 analyzes and structures the user data acquired by the acquisition unit 131 from the user data storage unit 122. First, the data analysis performed by the interpretation unit 132 will be described.
  • user data includes various data formats.
  • the interpretation unit 132 analyzes user data by using a recognizer (not shown) for each type of data, for example. It is assumed that the recognizer is stored in the storage unit 120, for example.
  • the interpretation unit 132 performs recognition processing for detecting an face / character string / general object or the like from the image by using an image recognizer for the image data included in the user data, for example.
  • the interpretation unit 132 detects a user ID (terminal ID), a shooting location, a shooting time, and the like from the data given to the image.
  • the interpretation unit 132 detects a character string from the image, and the telephone number, company name, purchased product, product price, total amount, payment method (cash / credit / electronic money / QR code (registered trademark) payment, etc.) And so on.
  • the interpretation unit 132 adds the recognition result as metadata to the user data which is the raw data.
  • the interpretation unit 132 recognizes the speaker using a voice recognizer for the voice data included in the user data, and converts the utterance content into text. Alternatively, the interpretation unit 132 recognizes the user's moving behavior (walking / bicycle / train, etc.) for each time with respect to the acceleration data. Further, the interpretation unit 132 corrects the notational fluctuation and adds a similar expression using a synonym dictionary to the text data. In this way, the interpretation unit 132 analyzes the user data for each type of data and adds metadata.
  • the interpretation unit 132 recognizes one data using a plurality of recognizers. It may be.
  • the interpretation unit 132 first converts the voice data into text data, and then translates the converted text data into multiple languages. Subsequently, the interpretation unit 132 corrects the notational fluctuation of the translated text data and adds a similar expression. In this way, the interpreting unit 132 may recognize the user data by using the recognizer in multiple stages.
  • the interpretation unit 132 may recognize the user data based on various known techniques.
  • the interpretation unit 132 structures the user data based on the analysis result.
  • Interpretation unit 132 structures the metadata added to the user data by using the template.
  • the template is specialized for predictive analysis, and it is assumed that, for example, a plurality of templates are stored in advance by the storage unit 120.
  • the interpretation unit 132 structures the data by applying the data to the most suitable template.
  • the interpreting unit 132 structures metadata which is unstructured data.
  • the interpretation unit 132 may newly add metadata.
  • the metadata given here is used when extracting the problem setting.
  • the interpretation unit 132 may add higher categories such as "food expenses” and “living miscellaneous expenses” from the "product name" assigned to the receipt image as metadata.
  • the interpretation unit 132 may structure user data based on various known techniques. Further, the above-mentioned template and higher category are examples, and the interpretation unit 132 may structure user data by using various templates, categories, and metadata specialized for predictive analysis. Further, when the user data stored in the user data storage unit 122 is already structured, the processing of the interpretation unit 132 may be omitted.
  • the interpretation unit 132 analyzes and structures the user data, so that the burden on the user can be reduced.
  • the extraction unit 133 extracts problem settings in the predictive analysis based on the user data structured by the interpretation unit 132 (hereinafter, also referred to as structured data) and the past cases acquired by the acquisition unit 131.
  • the problem setting includes a plurality of "use items” (explanatory variables) "what data items to use” and one "prediction target” (objective variable) "what to predict”.
  • Extraction unit 133 extracts "prediction target” from structured data based on past cases.
  • the extraction unit 133 for example, extracts the same items (variables) as the past objects included in the past cases from the structured data as “prediction targets”.
  • the extraction unit 133 extracts a "prediction target" that is related to the user or is considered to be of high interest to the user, for example, based on the profile information. For example, if a user is in the business of selling merchandise, they may be more interested in "sales” forecasts. Therefore, in this case, the extraction unit 133 extracts "sales” as a prediction target.
  • the extraction unit 133 extracts candidates from past objects of past cases using a recommendation system, for example, based on profile information.
  • the extraction unit 133 sets the items included in the user data from the extracted candidates as the "prediction target" of the problem setting.
  • Recommender systems include, for example, ranking learning, content-based filtering, collaborative filtering, or a combination of these.
  • the extraction unit 133 may extract a plurality of "prediction targets". For example, when a plurality of past objects are extracted in a ranking format as in ranking learning, the extraction unit 133 extracts a predetermined number of "prediction targets” from the top ranking. In this way, the extraction unit 133 extracts a plurality of "prediction targets", so that the extraction unit 133 can extract a wide range of "prediction targets” related to the user.
  • the extraction unit 133 extracts a plurality of "use items” for each extracted “prediction target” (extraction target).
  • the extraction unit 133 sets items (variables) related to the extraction target from the structured data to "use items" (explanatory variables).
  • the extraction unit 133 may set items related to the extraction target as "use items”. In this case, the information processing apparatus 100 can improve the learning accuracy in the prediction model learning, which is the processing after extraction.
  • the extraction unit 133 may set a predetermined number of items as "use items” in order from the one having the highest relation to the extraction target. In this case, the information processing apparatus 100 can reduce the processing load in the prediction model learning.
  • the extraction unit 133 constructs a data set based on the extracted "use items” (hereinafter, also referred to as extraction items).
  • the extraction unit 133 constructs a data set by extracting the data corresponding to the extraction item from the structured data.
  • the extraction unit 133 may, for example, extract a plurality of problem settings.
  • the extraction unit 133 extracts a plurality of combinations of the "prediction target" and the plurality of "use items" corresponding to the "prediction target".
  • the extraction unit 133 constructs a data set according to the extracted problem setting. Therefore, when a plurality of problem settings are extracted, the extraction unit 133 constructs a plurality of data sets corresponding to each problem setting. By constructing the data set by the extraction unit 133 in this way, even if there are a plurality of problem settings, the user does not need to construct each corresponding data set, and the burden on the user can be reduced.
  • the learning unit 134 learns the prediction model based on the problem setting and the construction data set extracted by the extraction unit 133.
  • the learning unit 134 learns a prediction model corresponding to each of the plurality of problem settings.
  • the learning unit 134 divides the construction data set into learning data and test data.
  • the learning unit 134 converts the learning data into a feature vector.
  • the learning unit 134 generates a prediction model by machine learning, for example, by solving a classification or regression problem based on a feature vector and a prediction target.
  • the machine learning described above is an example, and the learning unit 134 may learn a prediction model based on various known techniques.
  • the learning unit 134 divides the construction data set, but this is an example.
  • the extraction unit 133 may construct each of the training data set and the test data set.
  • the evaluation unit 135 evaluates the prediction model generated by the learning unit 134. When the learning unit 134 generates a plurality of prediction models, the evaluation unit 135 evaluates each of the plurality of prediction models.
  • the evaluation unit 135 evaluates the prediction model using the evaluation index based on the prediction model and the test data.
  • the evaluation index is, for example, AUC for binary classification, Accuracy for multi-value classification, MAE for regression, and the like.
  • the evaluation index described above is an example, and the evaluation unit 135 may evaluate the prediction model based on various known techniques. For example, the user may specify an evaluation index.
  • the prediction unit 136 predicts the business effect when the prediction model is introduced into the business.
  • the prediction unit 136 predicts the business effect (hereinafter, also referred to as the prediction effect) when the plurality of prediction models are introduced into the business.
  • the prediction unit 136 selects a past case whose past target is the same item as the extraction target extracted by the extraction unit 133 from the past case storage unit 121.
  • the prediction unit 136 performs prediction analysis using the "business effect" included in the selected past case as a new "prediction target” (hereinafter, also referred to as an effect prediction target).
  • the prediction unit 136 first sets the "business effect” to the "effect prediction target". Next, the prediction unit 136 sets the items related to the "business effect” to the "use items” from the past cases.
  • the prediction unit 136 may set "use items” from the items included in both the past case and the structured user data (or the construction data set), for example.
  • the prediction unit 136 constructs a data set (hereinafter, also referred to as an effect learning data set) by extracting data corresponding to "use items" from past cases.
  • the prediction unit 136 generates a prediction model (hereinafter, also referred to as an effect prediction model) by solving, for example, a regression problem by machine learning based on the effect prediction data set and the “effect prediction target”.
  • the prediction unit 136 extracts the data corresponding to the "use item" from the structured user data and constructs a data set (hereinafter, also referred to as an effect prediction data set).
  • the prediction unit 136 predicts the business effect when the prediction model generated by the learning unit 134 is introduced into the business based on the effect prediction data set and the generated effect prediction model.
  • the prediction unit 136 may predict the business effect based on various known techniques. Further, the construction of the effect prediction data set and the learning of the effect prediction model performed by the prediction unit 136 may be executed by using some functions of the extraction unit 133 and the learning unit 134.
  • the collection decision unit 137 determines a data item (hereinafter, also referred to as a proposal item) to propose collection to the user based on the past case and the user data for each extracted problem setting. When there are a plurality of problem settings, the collection decision unit 137 determines a proposal item for each of the plurality of problem settings. The collection determination unit 137 may determine a plurality of proposal items for one problem setting.
  • the collection decision unit 137 compares the data set of the past case (past data set) with the data set constructed by the extraction unit 133 (construction data set). The collection decision unit 137 extracts "used items” (hereinafter, also referred to as "uncollected items") included in the past data set and not included in the construction data set.
  • the collection decision unit 137 predicts the business effect when "uncollected items" are not used in the past cases. Specifically, the collection decision unit 137 learns the prediction model using the past data set excluding the “uncollected item” and evaluates the accuracy of the prediction model. The collection decision unit 137 recalculates the business effect with the evaluated prediction accuracy. Since the learning, evaluation, and calculation of the business effect of the prediction model here are the same as the processing of the learning unit 134, the evaluation unit 135, and the prediction unit 136, the description thereof will be omitted.
  • the collection decision unit 137 determines the "uncollected item" whose effect has decreased as a proposal item.
  • the collection decision unit 137 When the collection decision unit 137 extracts a plurality of "uncollected items", the collection decision unit 137 recalculates the business effect for each "uncollected item”. Then, the collection decision unit 137 determines the “uncollected item” having the largest decrease in business effect as the proposal item. Alternatively, the collection decision unit 137 may determine "uncollected items” whose amount of decrease in business effect is equal to or greater than the threshold value as the proposed items, or may determine a predetermined number of "uncollected items” as the proposed items. ..
  • the collection decision unit 137 may determine the proposal item based on the newly calculated business effect and collection cost. In this case, the collection decision unit 137 determines the difference between the introduction effect obtained by subtracting the collection cost from the business effect calculated by the prediction unit 136 including the “uncollected items” and the business effect calculated without including the “uncollected items”. calculate. The collection decision unit 137 determines the “uncollected item” having a large calculated difference as the proposed item.
  • the collection decision unit 137 determines the proposed items including the "collection cost" of the data, so that the information processing apparatus 100 gives priority to the uncollected items whose collection cost is low and the data can be easily collected. Can be suggested to the user.
  • the information processing apparatus 100 can propose to the user data collection of uncollected items, which has a high collection cost but has a large business effect when used.
  • the collection decision unit 137 learns the prediction model when the “uncollected item” is not used, evaluates the accuracy, and calculates the business effect, but the present invention is not limited to this.
  • the learning unit 134, the evaluation unit 135, and the prediction unit 136 may perform learning of the prediction model, accuracy evaluation, and calculation of the business effect, respectively.
  • the collection decision unit 137 determines the proposal item based on the result of each unit.
  • the collection decision department 137 decides the proposal items based on the business effect, but it is not limited to this.
  • the collection decision unit 137 may decide the proposal item based on the evaluation result of the prediction model, for example. In this case, the collection decision unit 137 evaluates the accuracy of the prediction model learned without using the "uncollected items", and determines the "unused items” with a small decrease in evaluation as the proposed items.
  • the contribution calculation unit 142 calculates the contribution degree indicating which feature amount contributes to the prediction result among the feature amounts of the test data input to the prediction model learned by the learning unit 134. Specifically, the contribution calculation unit 142 removes the feature amount for which the contribution is to be calculated from the input of the prediction model, and calculates the contribution based on the change in the prediction result before and after the removal.
  • the contribution degree calculated by the contribution degree calculation unit 142 includes a positive value and a negative value.
  • a positive value of contribution means that the set of features contributes positively to the prediction, that is, it improves the prediction probability predicted by the prediction model. Further, when the contribution is a negative value, it means that the set of features contributes negatively to the prediction, that is, the prediction probability predicted by the prediction model is lowered.
  • the contribution calculation unit 142 calculates the ratio of the feature amount for which the contribution degree has been calculated to the set (item) of the feature amount. If the calculated ratio is low, it rarely occurs even if the contribution is high, and the utility value for the user is low. Therefore, in the embodiment of the present disclosure, the contribution calculation unit 142 calculates the ratio of the feature amount for which the contribution is calculated, and presents the ratio to the user as described later with reference to FIG. As a result, the user can confirm the contribution of the data in consideration of the degree of occurrence.
  • the prediction unit 136, the contribution calculation unit 142, and the collection decision unit 137 calculate the business effect and the contribution, respectively, and determine the proposal items, but it is not necessary to calculate / determine all of them.
  • the contribution calculation unit 142 may calculate the contribution, and the calculation of the business effect by the prediction unit 136 and the determination of the proposed item by the collection determination unit 137 may be omitted.
  • the contribution calculation unit 142 may calculate the contribution and the prediction unit 136 may calculate the business effect, and the collection decision unit 137 may omit the determination of the proposed item.
  • the user may be able to select the process of calculating / determining.
  • the display control unit 138 of FIG. 7 controls the display of various information.
  • the display control unit 138 controls the display of various information on the terminal device 10.
  • the display control unit 138 generates an image including control information for controlling the display mode. This control information is described in a script language such as Javascript (registered trademark) or CSS, for example.
  • the display control unit 138 provides the terminal device 10 with an image including the above control information, so that the terminal device 10 performs the above-mentioned display process according to the control information.
  • the display control unit 138 is not limited to the above, and may control the display of the terminal device 10 by appropriately using various conventional techniques.
  • FIG. 9 is a diagram showing an example of an image for designating a user data acquisition destination.
  • the image shown in FIG. 9 is displayed on the terminal device 10 when, for example, the acquisition unit 131 acquires user data.
  • the display control unit 138 causes the terminal device 10 to display the image IM 11.
  • the image IM 11 is an image that accepts the user's selection of a user data acquisition destination.
  • the user selectively selects the acquisition destination from the two options of "automatically scanning the file in the PC" and "manually specifying the data source".
  • the icons DB1 to DB9 of the external database are displayed.
  • the user selects "manually specify the data source”
  • the user specifies the data source by moving an arbitrary icon to the selection area R11 by, for example, a drag and drop operation.
  • the acquisition unit 131 of the information processing apparatus 100 acquires the user data from the designated acquisition destination.
  • the database designation is not limited to the drag and drop operation, and may be specified by the user clicking the icons DB1 to DB9, for example.
  • the display control unit 138 has shown an example in which the user selects an internal or external data source in the PC as the acquisition destination, the present invention is not limited to this.
  • the display control unit 138 may allow the user to select the storage unit 120 of the information processing device 100 as the acquisition destination.
  • the display control unit 138 may allow the user to select an externally mounted storage medium such as a hard disk, a magnetic disk, a magneto-optical disk, an optical disk, a USB memory, or a memory card as an acquisition destination.
  • the display control unit 138 may accept the direct input of the address indicating the storage destination of the user data.
  • FIG. 10 is a diagram showing an example of an image showing a calculation status of the predicted processing time.
  • the image IM 31 shown in FIG. 10 is displayed on the terminal device 10 while, for example, the time prediction unit 141 calculates the prediction processing time.
  • the display control unit 138 causes the terminal device 10 to display the image IM 31.
  • an outline of the process is displayed in the left side region R31 of the image IM31.
  • an outline of the processing an outline of the processing performed by each unit of the control unit 130, such as model learning performed by the learning unit 134, is displayed.
  • the display control unit 138 displays the execution completed and the processing being executed in a dark color, and the processing that has not yet been executed is displayed in a light color in the displayed outline.
  • the image IM31 of FIG. 10 shows that the data is being read, and that the data preprocessing, model learning, and the like are performed thereafter.
  • FIG. 11 is a diagram showing an example of an image showing the learning status of the prediction model.
  • the display control unit 138 causes the terminal device 10 to display the image IM 41. As shown in FIG. 11, the display control unit 138 displays the completed “data reading” and “data preprocessing” (corresponding to the structured data generation processing by the interpretation unit 132) together with the check mark M41 in a dark display color. To do.
  • the display control unit 138 displays the "model learning" (corresponding to the learning process of the prediction model by the learning unit 134) during the process in a dark display color together with the icon M42.
  • the circular icon M42 is, for example, a circular indicator indicating the progress of the learning process.
  • the display control unit 138 displays the remaining time T43 of the analysis process at the lower part of the image IM41. Further, the display control unit 138 displays the progress status bar B44 indicating the progress status corresponding to the remaining required time T43 together with the remaining required time T43.
  • FIG. 12 is a diagram showing an example of an image showing the completion of the analysis process.
  • the display control unit 138 causes the terminal device 10 to display the image IM 51. As shown in FIG. 12, the display control unit 138 displays all the completed processes in a dark display color together with a check mark. Further, for example, the display control unit 138 displays the OK button B51 on the image IM51. When the display control unit 138 receives, for example, an operation of pressing the OK button B51 from the user, the display control unit 138 presents the analysis processing result to the user.
  • FIG. 13 is a diagram showing an example of an image showing the analysis processing result.
  • the image shown in FIG. 13 is a terminal device as an image showing the processing result. It is displayed at 10.
  • the display control unit 138 causes the terminal device 10 to display the image IM21.
  • the image IM 21 is an image that presents the processing result of the information processing device 100 to the user.
  • the display control unit 138 displays the information related to the plurality of problem settings extracted by the extraction unit 133 in the areas R21, R22, ... As recommended problem settings, respectively.
  • the display control unit 138 displays the problem settings in descending order of the business effect predicted by the prediction unit 136, for example.
  • the display order of the problem settings by the display control unit 138 described above is an example.
  • the display control unit 138 may display the problem settings in descending order of the evaluation value of the prediction model by the evaluation unit 135.
  • the extraction unit 133 extracts the problem settings using ranking learning
  • the display control unit 138 displays the problem settings in the order according to the information about the user, such as displaying the problem settings according to the ranking order. You may. Since the display contents of the areas R21, R22, ... Are the same, the area R21 will be described in detail below.
  • the display control unit 138 displays the problem setting RS11 and the evaluation result RS12 in the area R21 of the screen IM21.
  • the display control unit 138 displays a sentence including a part of the "use item” and the "prediction target" as the problem setting RS11, for example, "predict whether the loan will be lost based on the job type / annual income”. It shall be.
  • the display control unit 138 displays the accuracy of the prediction model as the evaluation result RS12.
  • the display control unit 138 displays with an evaluation in addition to the accuracy, such as "accuracy 82.6% is quite good”.
  • the display control unit 138 displays an edit icon C21 indicating that the problem setting RS11 can be edited near the problem setting RS11. In this way, by displaying the edit icon C21, the user may be able to directly change the problem setting, such as adding / deleting the "use item" in the problem setting or changing the "prediction target".
  • the display control unit 138 displays the construction data set M21 as the data used for the prediction.
  • the display control unit 138 displays, for example, the construction data set M21 as a matrix.
  • the display control unit 138 may emphasize the display by changing the display color of the item corresponding to the “prediction target”.
  • the highlighting of the "prediction target” is not limited to the change of the display color, and may be various modes as long as the display mode is different from the "use item”.
  • the highlighting of the "prediction target” may be displayed in a character size larger than that of the "used item” or underlined. Further, the highlighting of the "prediction target” may be to blink the highlighted target.
  • the display control unit 138 displays an edit icon C22 indicating that the construction data set M21 can be edited near the construction data set M21.
  • the edit icon C22 the user may be able to directly change the problem setting, such as adding / deleting "use items" in the problem setting or changing the "prediction target".
  • the user may be able to edit such as adding, modifying, and deleting the data contained in the construction dataset.
  • the display control unit 138 displays the constructed data set on the image IM21, so that it is possible to present to the user what kind of data set was used for the predictive analysis.
  • the display of the construction data set shown in FIG. 13 is an example, and is not limited to this.
  • the display control unit 138 may display a part of the construction data set such as typical items and data.
  • the display control unit 138 may be able to display all the construction data sets M21 by accepting, for example, a scroll operation by the user.
  • the display control unit 138 may display an image that allows the user to select whether or not to perform processing such as generation of a prediction model, evaluation, and calculation of business effect again with the changed contents.
  • the information processing apparatus 100 performs the process such as generation of the prediction model, evaluation, and calculation of the business effect again based on the content changed by the user.
  • the display control unit 138 displays various graphs and tables as evaluation results. In the example shown in FIG. 13, the display control unit 138 displays the confusion matrix M22 and the graph G21 showing the distribution of the prediction probabilities.
  • the display control unit 138 may display various graphs and tables such as a graph showing the result of the prediction analysis in time series. Alternatively, the user may specify the graph or table to be displayed. It is assumed that the data used for the graphs and tables displayed by the display control unit 138 is calculated by the evaluation unit 135, for example.
  • the display control unit 138 displays the business effect R23.
  • the display control unit 138 displays the calculated amount of the business effect by the prediction unit 136.
  • the display control unit 138 displays the calculated amount to be displayed with a predetermined width, or rounds the calculated amount to a predetermined digit to display the calculated amount. May be good.
  • the display control unit 138 presents the proposed item included in the additional item R24 to the user by displaying the additional item R24 as data to be added.
  • the additional item R24 includes a proposal item determined by the collection decision unit 137. Further, the display control unit 138 may display the amount of the business effect that increases when the proposed item is added. The display control unit 138 displays the increase amount based on the decrease amount of the business effect calculated by the collection decision unit 137.
  • the display control unit 138 may round the increased amount to a predetermined digit and display it.
  • the display control unit 138 may display the increase to be displayed with a predetermined width.
  • the display control unit 138 displays the adoption button B21 to be selected when adopting the prediction analysis using the proposed problem setting.
  • the display control unit 138 displays an image that accepts inputs such as proof experiment results and business effects when the adopted prediction analysis is actually performed. In this way, by accepting the data when the business is actually introduced, the information processing apparatus 100 can acquire the past case of the predictive analysis.
  • the display control unit 138 may display an example of a demonstration experiment such as a period or area. Examples of demonstration experiments are displayed based on, for example, demonstration experiments included in past cases. As a result, the user can carry out a demonstration experiment with reference to past cases.
  • the display control unit 138 displays various information on the image IM21.
  • the display control unit 138 displays a sentence or an icon in which a link to detailed information of the information displayed on the image IM21 is set.
  • the display control unit 138 displays the details of the corresponding content. ..
  • the display control unit 138 displays an enlarged version of the confusion matrix M22 or the graph G21, or additionally displays a table or graph that is not displayed in the image IM21. May be good.
  • the display control unit 138 may display, for example, a detailed calculated amount or display a specific example of introduction to the business. Further, when the detailed display operation of the data to be added is accepted, the display control unit 138 may display the detailed calculated amount or display the proposed items other than those displayed on the image IM21.
  • the display control unit 138 underlines and highlights, for example, the use item of the problem setting RS11, the proposal item of the additional item R24, and the accuracy value of the evaluation result RS12. By selecting the highlighted part, the user may be able to confirm, for example, the details of the items used and the details of the accuracy value.
  • the highlighting of the highlighting target is not limited to the underline, and may be various modes as long as the display mode is different from the elements not covered by the highlighting.
  • the highlighting of the highlighting target may be displayed in a character size larger than that of the element not being highlighted, or may be displayed in a color different from that of the element not being highlighted. Further, the highlighting of the highlighted object may be to blink the highlighted object.
  • the display control unit 138 displays the text box TB21 that receives a question or the like from the user in addition to the processing result of the information processing device 100. In this way, the display control unit 138 may display information other than the information related to the processing result.
  • FIG. 14 is a diagram (1) showing another example of an image showing the analysis processing result.
  • FIG. 15 is a diagram (2) showing another example of an image showing the analysis processing result.
  • a case where the calculation processing result of the contribution calculation unit 142 is shown in the analysis processing will be described.
  • FIGS. 14 and 15 the results of predictive analysis for predicting whether or not a machine operating in a factory will fail will be described as an example.
  • the display control unit 138 causes the terminal device 10 to display the image IM61.
  • the display control unit 138 displays the contribution of each item such as “number of operating months” and “production factory” in a bar graph in the left area R61 of the image IM61.
  • the contribution includes positive and negative values. Therefore, the display control unit 138 displays a value obtained by combining the total value of the positive values and the total value of the negative values as a bar graph.
  • the amount is negative.
  • FIG. 14 it can be seen that the contribution of “operating months” is large to both the prediction probability that the prediction result is “failure” and the prediction probability that the prediction result is “normal”.
  • the contribution degree display method is not limited to the bar graph, and may be displayed using a pie chart, a line graph, or other indicators, or may be displayed by various display methods such as displaying the contribution degree numerical value itself. You may do so.
  • the display control unit 138 displays the details of the contribution of a specific item in the right area R62 of the image IM61.
  • the display control unit 138 displays the contribution of the "operating months" for each feature amount (item content) and the ratio of the feature amount to the item as the details of the contribution of the "operating months”. doing.
  • the contribution and the ratio are calculated by the contribution calculation unit 142.
  • the display control unit 138 describes the details of the contribution, for example, a feature amount (item content) that contributes to the result predicted as “failure” and a feature amount (item content) that contributes to the result predicted as “normal”. ) And, respectively, are displayed in the order of increasing contribution.
  • the display control unit 138 may display a numerical value of the contribution degree, or may display an indicator corresponding to the contribution degree as shown in FIG.
  • an indicator composed of a plurality of bars is arranged, and the display control unit 138 displays more bars from the left side to the right side as the degree of contribution increases.
  • the display control unit 138 displays the contribution as well as the ratio of the feature amount to the item.
  • the display control unit 138 displays an indicator M63 corresponding to the contribution of the item content “99.00 to 110.0” that contributes to the failure, and a pie chart M64 corresponding to the ratio.
  • FIG. 14 shows that the data of “99 to 110 months after the machine is in operation” has the highest contribution to the predictive analysis of predicting “failure”. It also shows that the data "99 to 110 months after the machine started operating" accounts for 9% of the data included in the number of operating months.
  • the contribution of the item content "110.0 to 116.0" that contributes to the failure is the second largest, but the ratio to the item is 3%, and the data included in the number of operating months. It can be seen that the percentage of the total is small.
  • the display control unit 138 may indicate the numerical range R65 of each item content.
  • the display control unit 138 displays one graph with the numerical range of each item content on the horizontal axis with the number of operating months as the horizontal axis. As a result, the numerical range of the item content can be presented to the user in a visually easy-to-understand manner.
  • the display control unit 138 causes the terminal device 10 to display the image IM71.
  • the display control unit 138 displays the details of the contribution of the “production factory” in the right area R62.
  • the display control unit 138 displays the contribution indicator and the ratio to the item for each "Tottori prefecture” and "Niigata prefecture” which are the feature quantities (item contents) of the "production factory”.
  • the method of displaying the contribution degree and the ratio is not limited to the above-mentioned example, and may be displayed using various graphs and indicators, and may be displayed by various display methods such as displaying the numerical value of the contribution degree itself. It may be.
  • FIG. 16 is a flowchart showing a procedure of analysis processing according to the embodiment of the present disclosure.
  • the information processing device 100 acquires past cases and user data from the storage unit 120 (step S101).
  • the information processing apparatus 100 predicts the processing time (predicted processing time) required for the analysis process using a part of the acquired user data (step S110).
  • the information processing device 100 analyzes user data and structures the user data to generate structured data (step S102).
  • the information processing device 100 extracts problem settings based on structured data and past cases (step S103).
  • the information processing device 100 constructs a data set according to the extracted problem setting (step S104).
  • the information processing device 100 learns the prediction model based on the problem setting and the construction data set (step S105).
  • the information processing device 100 divides the data set into training data and test data, and generates a prediction model using the training data.
  • the information processing apparatus 100 evaluates the prediction model using the test data (step S106).
  • the information processing device 100 predicts the business effect when the prediction model is introduced into the business (step S107).
  • the information processing device 100 determines items that may increase the business effect when added to the data set as proposed items (step S108).
  • the information processing device 100 calculates the contribution of the feature amount of the test data (step S111).
  • the information processing device 100 presents the processing result to the user (step S109).
  • the information processing apparatus 100 may return to step S105 to learn and evaluate the prediction model again, or calculate the business effect. Further, the information processing apparatus 100 may predict the processing time at the timing when the processing of each step is completed. Further, when the extraction unit 133 extracts a plurality of problem settings, the analysis process for all the problem settings may be executed by repeatedly executing steps S104 to S111 for each problem setting.
  • Each of the above configurations is an example, and the information processing system 1 may have any system configuration as long as it is possible to extract problem settings and construct a data set based on past cases and user data.
  • the information processing device 100 and the terminal device 10 may be integrated.
  • each component of each device shown in the figure is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or part of the device is functionally or physically distributed / physically in any unit according to various loads and usage conditions. It can be integrated and configured.
  • FIG. 17 is a hardware configuration diagram showing an example of a computer 1000 that realizes the functions of information processing devices such as the information processing device 100 and the terminal device 10.
  • the computer 1000 includes a CPU 1100, a RAM 1200, a ROM (Read Only Memory) 1300, an HDD (Hard Disk Drive) 1400, a communication interface 1500, and an input / output interface 1600.
  • Each part of the computer 1000 is connected by a bus 1050.
  • the CPU 1100 operates based on the program stored in the ROM 1300 or the HDD 1400, and controls each part. For example, the CPU 1100 expands the program stored in the ROM 1300 or the HDD 1400 into the RAM 1200, and executes processing corresponding to various programs.
  • the ROM 1300 stores a boot program such as a BIOS (Basic Input Output System) executed by the CPU 1100 when the computer 1000 is started, a program that depends on the hardware of the computer 1000, and the like.
  • BIOS Basic Input Output System
  • the HDD 1400 is a computer-readable recording medium that non-temporarily records a program executed by the CPU 1100 and data used by the program.
  • the HDD 1400 is a recording medium for recording the program according to the present disclosure, which is an example of the program data 1450.
  • the communication interface 1500 is an interface for the computer 1000 to connect to an external network 1550 (for example, the Internet).
  • the CPU 1100 receives data from another device or transmits data generated by the CPU 1100 to another device via the communication interface 1500.
  • the input / output interface 1600 is an interface for connecting the input / output device 1650 and the computer 1000.
  • the CPU 1100 receives data from an input device such as a keyboard or mouse via the input / output interface 1600. Further, the CPU 1100 transmits data to an output device such as a display, a speaker, or a printer via the input / output interface 1600. Further, the input / output interface 1600 may function as a media interface for reading a program or the like recorded on a predetermined recording medium (media).
  • the media is, for example, an optical recording medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk), a magneto-optical recording medium such as MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory.
  • an optical recording medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk)
  • a magneto-optical recording medium such as MO (Magneto-Optical disk)
  • tape medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk)
  • MO Magneto-optical disk
  • the CPU 1100 of the computer 1000 realizes the functions of the control unit 130 and the like by executing the information processing program loaded on the RAM 1200.
  • the HDD 1400 stores the program related to the present disclosure and the data in the storage unit 120.
  • the CPU 1100 reads the program data 1450 from the HDD 1400 and executes the program, but as another example, these programs may be acquired from another device via the external network 1550.
  • the present technology can also have the following configurations.
  • An information processing device including a control unit that constructs a data set used for predictive analysis of the extracted prediction target based on the data.
  • the control unit selects the past prediction target from the past case based on the information about the user.
  • the information processing apparatus according to (1) wherein variables included in the data and corresponding to the selected past prediction target are extracted as the prediction target.
  • the control unit A plurality of explanatory variables are extracted based on the extracted prediction target and the data.
  • the information processing apparatus which constructs the data set based on the extracted prediction target and the plurality of explanatory variables.
  • the information processing device according to any one of (1) to (3), wherein the control unit extracts a plurality of the prediction targets and constructs the data set for each of the extracted plurality of prediction targets.
  • the information processing device according to any one of (1) to (4), wherein the control unit predicts an effect obtained when the extracted prediction analysis of the prediction target is introduced into a business based on the past case.
  • the past case includes the case effect obtained when the predictive analysis of the past forecast target is introduced into the business.
  • the control unit uses the analysis data set to learn an effect prediction model for predicting the case effect included in the past case, and predicts using the effect prediction model and the constructed data set.
  • the information processing apparatus according to (5), which predicts the effect by performing analysis.
  • the information processing device according to (6), wherein the control unit presents a plurality of extracted prediction targets to the user in an order according to the effect and / or the information about the user.
  • the control unit presents explanatory variables included in the analysis data set and not included in the constructed data set to the user as data for proposing additional collection. Information processing device. (9) Acquiring past cases including past forecast targets and analysis data sets used for the forecast analysis of the forecast targets.
  • Acquiring data to be used for predictive analysis Based on the data and the past cases, extracting the prediction target when performing the prediction analysis using the data, and Based on the data, construct a data set to be used for the prediction analysis of the extracted prediction target, and Information processing methods performed by the processor, including. (10) Computer, Acquire past cases including past forecast targets and analysis data sets used for forecast analysis of the forecast targets. Get the data to use for predictive analysis Based on the data and the past cases, the prediction target when performing the prediction analysis using the data is extracted. A program that functions as a control unit that constructs a data set used for predictive analysis of the extracted prediction target based on the data.
  • Information processing system 100 Information processing device 110 Communication unit 120 Storage unit 121 Past case storage unit 122 User data storage unit 123 User profile storage unit 130 Control unit 131 Acquisition unit 132 Interpretation unit 133 Extraction unit 134 Learning unit 135 Evaluation unit 136 Prediction unit 137 Collection decision unit 138 Display control unit 10 Terminal device

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本開示に係る情報処理装置(100)は、過去の予測対象と、当該予測対象の予測分析に用いた分析データセットと、を含む過去事例を取得し、予測分析に使用するデータを取得し、データおよび過去事例に基づき、データを用いて予測分析を行う場合の予測対象を抽出し、データに基づき、抽出した予測対象の予測分析に用いるデータセットを構築する制御部(130)を備える。

Description

情報処理装置、情報処理方法およびプログラム
 本開示は、情報処理装置、情報処理方法およびプログラムに関する。
 近年、ビジネスにおいて様々なデータが蓄積されるようになり、蓄積されたデータをビジネスに活用することの重要性が認識されるようになって久しい。データのビジネス活用の手法として、例えば機械学習を用いて過去のデータから将来の結果を予測する予測分析技術を利用した手法が知られている(例えば、特許文献1参照)。
特開2017-16321号公報
 しかしながら、上記の従来技術では、何を予測するのか予め決められている。このように、従来はユーザが何を予測するか決定する必要があり、ユーザがより容易に情報を分析することについて改善の余地があった。
 そこで、本開示では、ユーザがより容易に情報を分析することができる情報処理装置、情報処理方法およびプログラムを提案する。
 本開示によれば、過去の予測対象と、当該予測対象の予測分析に用いた分析データセットと、を含む過去事例を取得し、予測分析に使用するデータを取得し、前記データおよび前記過去事例に基づき、前記データを用いて予測分析を行う場合の予測対象を抽出し、前記データに基づき、抽出した前記予測対象の予測分析に用いるデータセットを構築する制御部を備える情報処理装置が提供される。
予測分析のビジネス導入を説明する図である。 本開示の実施形態に係る分析処理を模式的に示す図である。 本開示の実施形態に係る過去事例の一例を説明する図である。 本開示の実施形態に係るユーザデータの一例を説明する図である。 ユーザに提示する画像の一例を示す図である。 本開示の実施形態に係る情報処理システムの構成例を示す図である。 本開示の実施形態に係る情報処理装置の構成例を示す図である。 本開示の実施形態に係る過去事例記憶部の一例を示す図である。 ユーザデータの取得先を指定する画像の一例を示す図である。 予測処理時間の算出状況を示す画像の一例を示す図である。 予測モデルの学習状況を示す画像の一例を示す図である。 分析処理完了を示す画像の一例を示す図である。 分析処理結果を示す画像の一例を示す図である。 分析処理結果を示す画像の他の例を示す図(1)である。 分析処理結果を示す画像の他の例を示す図(2)である。 本開示の実施形態に係る情報処理の手順を示すフローチャートである。 情報処理装置や端末装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
 以下に、本開示の各実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 また、以下に示す項目順序に従って本開示を説明する。
  1.実施形態
   1-1.背景
   1-2.実施形態に係る情報処理の概要
   1-3.実施形態に係る情報処理システムの構成
   1-4.実施形態に係る情報処理装置の構成
   1-5.実施形態に係る情報処理の手順
  2.その他の構成例
  3.ハードウェア構成
(1.実施形態)
[1-1.背景]
 まず、本開示の実施の形態について詳細に説明する前に、本開示の実施形態の背景として、予測分析をビジネスに活用するためのワークフローについて説明する。
 予測分析をビジネス活用する場合、ユーザは、蓄積されたデータに基づいてどのような予測分析を行うかを決定する。さらにユーザは、決定した予測分析の実証実験を行うことで、予測分析を導入して得られるビジネス効果を評価する。このように、実証実験を行い予測分析によって得られるビジネス効果を評価することで、ユーザは効果が高い予測分析をビジネスに導入することができ、予測分析をビジネスにより活用することができる。
 実際に予測分析をビジネスに活用するためのワークフローとして、例えば図1に示すフローがあげられる。図1は、予測分析のビジネス導入を説明する図である。
 具体的に、図1に示す例では、まずユーザは、蓄積されたデータにおいてどのデータを利用して何を予測するか問題設定を行う(ステップS1)。例えば、問題設定には、「顧客の年収入や総資産などのデータを利用して、ローンの貸し倒れが起こるか否かを予測する」ことや、「過去の売り上げや顧客の年齢層などのデータを利用して、将来の売り上げを予測する」ことなどがある。このように、ビジネス分野やユーザによって適切な問題設定が異なる。そのため、ユーザは例えば自身の知識や経験に基づいて問題設定を行う。
 次に、ユーザは、蓄積されたデータから問題設定に応じたデータセットを構築する(ステップS2)。ユーザは、例えば蓄積されたデータから予測分析に用いるデータを抽出したり、予測分析に合わせてデータの解釈や構造化を行ったりして、データセットを構築する。データセットの構築にも例えばユーザの知識や経験が必要となる場合がある。
 続いて、ユーザは、問題設定およびデータセットに基づき、予測モデルを生成する(ステップS3)。予測モデルは一般的な機械学習を用いて生成する。この場合、ユーザは例えば既存の情報処理装置等を用いて予測モデルを生成することができる。
 ユーザは、生成した予測モデルの精度を評価する(ステップS4)。予測モデルの精度は、例えば曲線下面積(AUC)やAccuracyなど、一般的な評価指標を用いて評価する。この場合、ユーザは例えば既存の情報処理装置等を用いて予測モデルの精度を評価することができる。
 予測モデルの精度評価を行ったユーザは、次に生成した予測モデルを用いた実証実験を行う(ステップS5)。例えばユーザは、期間や地域など範囲を限定してデータを収集し、生成した予測モデルを用いてデータの予測分析を行う。ユーザは、分析結果に応じて例えば商品の仕入れや営業先を変更するなど、試験的に予測分析をビジネスに導入する。
 続いて、ユーザは、実証実験の効果を測定する(ステップS6)。ユーザは、例えば予測分析を試験導入した場合の売り上げと導入する前の売り上げとを比較するなど、実験前後のデータを比較することで効果を測定する。その後、ユーザは、実証実験の結果や測定した効果に応じて、実際のビジネスに予測分析を導入する。
 以上のように、実際のビジネスに予測分析を導入する場合、問題設定やデータセットの構築においてユーザの知識や経験が必要となり、導入のボトルネックとなってしまう可能性がある。また、実証実験にはコストがかかるため、予測分析のビジネス導入によってある程度の効果が得られる確証がないと実証実験に移りにくい。このように、実証実験への移行もハードルが高い傾向がある。
[1-2.実施形態に係る情報処理の概要]
 本開示は、かかる点に着目し、情報処理装置が問題設定の抽出やデータセットの構築を含めた予測分析を行うようにしたものである。以下、図2~図4を用いて情報処理装置が行う分析処理の概要について説明する。
 図2は、本開示の実施形態に係る分析処理を模式的に示す図である。図3は、本開示の実施形態に係る過去事例の一例を説明する図である。図4は、本開示の実施形態に係るユーザデータの一例を説明する図である。
 本開示に係る分析処理は、図2に示す情報処理装置100によって行われる。情報処理装置100は、本開示に係る情報処理を実行する装置であり、例えばサーバ装置やPC(Personal Computer)等である。
 図2の例では、過去事例を参照してユーザデータを用いた予測分析を行う場合について説明する。ここで、ユーザデータとは例えばユーザが収集したデータである。ユーザデータには、例えば顧客情報や商品情報等の種々のデータが含まれる。ユーザはユーザデータを用いて例えば来月の売り上げ等、予測分析を行う。
 一般的に、ユーザデータを用いて予測分析を行う場合、「どのデータを用いて何を予測するか」という問題設定をユーザ自身が行う必要がある。予測分析の問題設定を行うにはユーザの知識と経験が求められる場合があり、ユーザにとって負担となる可能性がある。そこで、実施形態に係る分析処理では、過去事例を参照して予測分析の問題設定を自動で行い、ユーザの負担を軽減しようとするものである。
 まず、情報処理装置100は、過去事例を取得する(ステップS11)。ここで、過去事例には、過去に行った予測分析の問題設定が含まれる。具体的には、過去事例には、過去に何を予測したかという予測対象(以下、過去対象ともいう)と、過去の予測にどのデータを用いたかという過去対象の予測分析に用いた分析データセット(以下、過去データセットともいう)と、が含まれる。
 ここで、図3を用いて過去事例の一例を説明する。図3に示すように、過去事例には例えば過去データセット12が含まれる。過去データセット12には、例えば「顧客ID」、「ローン額」、「ローン種別」、「勤続年数」および「貸し倒れ」が含まれる。また、図3では、「貸し倒れ」が過去対象であることを斜線で示している。このように、過去事例には、過去データセット12と過去対象(ここでは「貸し倒れ」)とが含まれる。
 図2に戻り、情報処理装置100は、ユーザデータを取得する(ステップS12)。ここで、図4を用いてユーザデータの一例を説明する。ユーザデータは、ユーザが生成、収集したデータであり、予測分析のモデル生成等に用いるデータである。図4に示すユーザデータ22には、例えば「顧客ID」、「ローン額」、「ローン種別」、「勤続年数」、「年収入」、「全口座残高」および「貸し倒れ」が含まれる。
 図2に戻り、情報処理装置100は、取得した過去事例およびユーザデータ22に基づいて予測対象を抽出する(ステップS13)。情報処理装置100は、例えば、過去事例からユーザに関連する過去対象を選択する。情報処理装置100は、例えば所属部署や過去にユーザが行った予測分析など、ユーザに関する情報を用いて推薦システムを利用することで、過去対象を選択する。ここでは、情報処理装置100が過去事例から図3に示す過去データセット12の「貸し倒れ」を過去対象として選択したものとする。
 情報処理装置100は、選択した過去対象と同じ項目を、今回予測分析を行う予測対象(以下、抽出対象ともいう)としてユーザデータ22から抽出する。図3の例では、情報処理装置100が選択した過去対象は「貸し倒れ」である。したがって、情報処理装置100は、図4に示すユーザデータ22から「貸し倒れ」を予測対象として抽出する。図4では、抽出対象である「貸し倒れ」を斜線で示している。なお、抽出対象の抽出方法の詳細は、図7を用いて後述する。
 図2に戻り、情報処理装置100は、ユーザデータ22に基づいて抽出対象の予測分析に用いるデータセット(以下、構築データセットともいう)を構築する(ステップS14)。情報処理装置100は、例えば抽出対象に関連する項目を構築データセットとして抽出する。例えば、情報処理装置100は、図4に示すユーザデータ22から「顧客ID」、「ローン額」、「ローン種別」、「勤続年数」および「貸し倒れ」を抽出し構築データセットを生成する。
 なお、ここでは、情報処理装置100が、図4に示すユーザデータ22の一部を含むデータセットを構築するとしたが、これに限定されない。ユーザデータ22全てを含むデータセットを構築してもよい。なお、データセットの構築方法の詳細は、図7を用いて後述する。
 図2に戻り、情報処理装置100は、抽出対象および構築データセットに基づいて予測モデルを学習する(ステップS15)。情報処理装置100は、構築データセットのデータを特徴ベクトルに変換する。情報処理装置100は、特徴ベクトルと抽出対象とに基づき、機械学習によって、分類または回帰問題を解くことで予測モデルを生成する。
 次に、情報処理装置100は、生成した予測モデルを評価することで、予測分析の精度を評価する(ステップS16)。情報処理装置100は、予測モデルと構築データセットとを用いて、予測モデルを評価する。なお、評価指標は、例えば分類分析の場合はAUCやAccuracy、回帰分析の場合はMAE(Mean Absolute Error)など、分析手法に応じて選択される。
 情報処理装置100は、抽出対象と評価結果とを含む抽出情報をユーザに提示する(ステップS17)。ここで、図5を用いて抽出情報のユーザへの提示例について説明する。図5は、ユーザに提示する画像の一例を示す図である。
 図5に示すように、情報処理装置100は、問題設定および評価結果の組み合わせをユーザに提示する。図5では、情報処理装置100が複数の問題設定を抽出する場合の抽出結果を表示している。この場合、情報処理装置100は画像IM1のように問題設定および評価結果の組み合わせを一覧にして表示する。
 これにより、ユーザは、例えば評価結果を参考にして情報処理装置100が提示した問題設定で予測分析を行うか否かを決定することができる。
 なお、情報処理装置100がユーザに提示する内容は、問題設定および評価結果に限定されない。情報処理装置100が、構築データセット、抽出対象および評価結果の少なくとも1つをユーザに提示するようにしてもよい。あるいは、予測分析を行った場合に得られる効果等、ユーザが問題設定を選択する場合の参考情報を、情報処理装置100が提示するようにしてもよい。情報処理装置100による抽出結果の表示方法の詳細は、図13を用いて後述する。
 以上のように、情報処理装置100が問題設定を抽出することで、ユーザは、問題設定を行わなくてよく、より容易に予測分析を行うことができるようになる。また、情報処理装置100が予測分析の精度評価を行うことで、ユーザは、精度評価に基づき、実行する予測分析を選択することができ、より容易に精度の高い予測分析を行うことができる。
[1-3.実施形態に係る情報処理システムの構成]
 図6に示す情報処理システム1について説明する。図6は、本開示の実施形態に係る情報処理システム1の構成例を示す図である。図6に示すように、情報処理システム1には、端末装置10と、情報処理装置100とが含まれる。端末装置10と、情報処理装置100とは所定の通信網(ネットワークN)を介して、有線または無線により通信可能に接続される。なお、図6に示した情報処理システム1には、複数台の端末装置10や、複数台の情報処理装置100が含まれてもよい。
 端末装置10は、ユーザによって利用される情報処理装置である。端末装置10は、予測分析に関するサービスの提供に用いられる。端末装置10は、実施形態における処理を実現可能であれば、どのような装置であってもよい。端末装置10は、ユーザに予測分析に関するサービスを提供し、情報を表示するディスプレイを有する構成であれば、どのような装置であってもよい。また、端末装置10は、例えば、ノート型PCや、デスクトップPCや、タブレット型端末や、スマートフォンや、携帯電話機や、PDA(Personal Digital Assistant)等の装置であってもよい。
 情報処理装置100は、予測分析に関するサービスをユーザに提供するために用いられる。情報処理装置100は、ユーザデータに基づく問題設定および予測分析評価の結果に関する情報を、ユーザに表示するように制御する情報処理装置である。情報処理装置100は、問題設定および予測分析評価の結果に関する情報を示す画像を生成し、画像を端末装置10へ提供する。
 情報処理装置100は、端末装置10の表示を制御する。情報処理装置100は、端末装置10に表示する情報を提供するサーバ装置である。なお、情報処理装置100は、提供する画像等を表示するアプリケーションを端末装置10に提供してもよい。情報処理装置100は、端末装置10に制御情報を含む画像を送信することにより、端末装置10の表示を制御する。ここで、制御情報は、例えば、JavaScript(登録商標)等のスクリプト言語やCSS等により記述される。なお、情報処理装置100から端末装置10に提供されるアプリケーションそのものを制御情報とみなしてもよい。
[1-4.実施形態に係る情報処理装置の構成]
 次に、実施形態に係る分析処理を実行する情報処理装置の一例である情報処理装置100の構成について説明する。図7は、本開示の実施形態に係る情報処理装置100の構成例を示す図である。
 図7に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、情報処理装置100は、情報処理装置100の管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
(通信部)
 通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークN(図6参照)と有線または無線で接続され、端末装置10や外部サーバ等の他の情報処理装置との間で情報の送受信を行う。
(記憶部)
 記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部120は、図7に示すように、過去事例記憶部121と、ユーザデータ記憶部122と、ユーザプロファイル記憶部123とを有する。なお、図示を省略するが、記憶部120は、端末装置10に提供する画像の基となる画像等の種々の情報を記憶してもよい。
(過去事例記憶部)
 実施形態に係る過去事例記憶部121は、過去事例を記憶する。過去事例には、過去に行った予測分析に関する情報が含まれる。過去事例記憶部121は、例えば過去に予測分析をビジネス導入した際の事例を記憶する。なお、過去事例は、情報処理装置100が保持せずに、外部サーバ等から適宜取得してもよい。
 図8に、実施形態に係る過去事例記憶部121の一例を示す。図8は、本開示の実施形態に係る過去事例記憶部121の一例を示す図である。図8に示した例では、過去事例記憶部121は、「問題設定」、「データセット」、「収集コスト」、「予測モデル」、「モデル評価結果」、「実証実験」、「ビジネス効果」等に関する情報を事例ごとに記憶する。過去事例記憶部121は、過去事例A、B、・・・というように、複数の過去事例を記憶する。
 「問題設定」は、予測分析で何のデータを使用して何を予測したかを示す情報である。「問題設定」には、例えば、「何のデータを使用したか」という複数の「使用項目」(説明変数)と、「何を予測したか」という1つの「予測対象」(目的変数)が含まれる。例えば図3に示す例では、斜線で示す項目が予測対象であり、残りの項目が使用項目である。
 図8に戻る。「データセット」は、予測モデルの学習に用いた過去データセットである。例えば、「データセット」は、「入力データ」と「正解データ」とを含むデータセットである。例えば、図3に示す過去データセット12が、かかる「データセット」に相当する。
 図8に示す「収集コスト」は、予測分析で使用したデータの収集にかかったコストである。「収集コスト」には、例えば項目ごとにデータの収集にかかった期間や費用などが含まれる。
 「予測モデル」は、記憶する「問題設定」および「データセット」を用いて生成した過去の予測モデル(以下、過去モデルともいう)である。「予測モデル」は、例えば機械学習によって、分類または回帰問題を解くことで生成されたモデルである。
 「モデル評価結果」は、記憶する「予測モデル」の精度評価の結果である。「モデル評価結果」には、AUCやAccuracyなどの評価指標による評価結果が含まれる。
 「実証実験」は、予測分析のビジネス導入のために行った実証実験の内容や結果に関する情報である。「実証実験」には、例えば、実験を行った期間や範囲、実験に使用したデータ、実験によって得られた効果や、実験にかかった費用などの情報が含まれる。
 「ビジネス効果」は、予測分析をビジネス導入した後に得られたビジネス効果に関する情報である。「ビジネス効果」には、例えば、向上した売上額などの利益額や、削減した人件費などの経費削減額といった情報が含まれる。
 このように、図8に示した例では、過去事例記憶部121は、過去に予測分析をビジネス導入した場合の種々の情報を、複数の過去事例ごとに記憶する。なお、上述した過去事例は一例であり、過去事例記憶部121は、「問題設定」および「データセット」を記憶していれば、例えば「収集コスト」や「モデル評価結果」、「実証実験」等、一部の情報を記憶していなくてもよく、あるいは上述した情報以外の情報を記憶してもよい。
(ユーザデータ記憶部)
 図7に戻り、ユーザデータ記憶部122について説明する。ユーザデータは、ユーザが作成または収集した種々のデータである。ユーザデータのデータ形式には、例えば下記に挙げるように多岐に渡る形式が想定される。
・テキスト-単語、文章、HTML(HyperText Markup Language)など
・メディア-RGB画像、深度画像、ベクタ画像、動画、音声など
・複合文書-オフィス文書、PDF、Webページ、電子メールなど
・センサデータ-現在位置、加速度、心拍数など
・アプリケーションデータ-起動ログ、処理中のファイル情報など
・データベース-リレーショナルデータベース、キーバリューストアなど
 なお、ユーザデータは、情報処理装置100が保持せずに、端末装置10や外部サーバ等から適宜取得してもよい。また、ユーザデータは、カメラやセンサ等から直接取得した生データであってもよく、あるいは、生データに特徴量抽出等の処理を行った処理データであってもよい。あるいは、ユーザデータは、生データや処理データの認識処理を行った認識結果であるメタデータを含んでいてもよい。
(ユーザプロファイル記憶部)
 次に、ユーザプロファイル記憶部123について説明する。ユーザプロファイル記憶部123は、ユーザに関するプロファイル情報を記憶する。プロファイル情報は、例えばユーザ情報やユーザ事例情報を含む。
 ユーザ情報は、ユーザに関する情報であり、例えばユーザIDやユーザが所属する会社名、部署、業界等に関する情報を含む。ユーザ情報に、例えばウェブサイトやデータベースの検索履歴やウェブサイトの閲覧履歴、メールやオフィス文書に含まれるキーワードなど、ユーザの興味や関心に関連する情報を含めてもよい。
 また、ユーザ事例情報は、ユーザが行った過去の予測分析に関する情報を含む。ユーザ事例情報には、例えばユーザが過去に行った予測分析に関する情報やユーザが携わった過去事例に関する情報などが含まれる。なお、かかる予測分析はユーザ自身が行ったものであってもよく、ユーザが所属する部署や会社が行ったものであってもよい。
(制御部)
 制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部に記憶されたプログラム(例えば、本開示に係るプログラム)がRAM等を作業領域として実行されることにより実現される。また、制御部130は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
 図7に示すように、制御部130は、取得部131と、時間予測部141と、解釈部132と、抽出部133と、学習部134と、評価部135と、予測部136と、収集決定部137と、寄与度算出部142と、表示制御部138と、を有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構造は、図7に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図7に示した接続関係に限られず、他の接続関係であってもよい。
(取得部)
 取得部131は、記憶部120から各種情報を取得する。取得部131は、過去事例記憶部121から複数の過去事例を取得する。取得部131は、ユーザデータ記憶部122からユーザデータを取得する。取得部131は、ユーザプロファイル記憶部123からプロファイル情報を取得する。取得部131は、過去事例記憶部121、ユーザデータ記憶部122およびユーザプロファイル記憶部123に代えて、外部サーバや端末装置10等から各種情報を取得してもよい。
(時間予測部)
 時間予測部141は、取得部131がデータの取得を開始してから問題設定抽出等の処理結果をユーザに提示するまでに制御部130が行う分析処理にかかる時間を予測する。
 時間予測部141は、取得部131が所定時間(例えば1秒)に取得したユーザデータ(以下、一部データともいう)を用いて、問題設定の抽出や学習、評価等の分析処理を行う。分析処理は、取得部131がデータの取得を開始してから処理結果をユーザに提示するまでに制御部130の各部が行う処理であり、詳細は後述する。
 時間予測部141は、一部データを用いて行った分析処理の処理時間を計測する。時間予測部141は、計測した処理時間に基づき、分析処理にかかる時間(予測処理時間)を予測する。詳しくは、時間予測部141は、予測処理時間=(計測した処理時間)*(ユーザデータのサイズ/一部データのサイズ)として、予測処理時間を算出する。
 分析処理は、ユーザデータの種類やサイズによって数時間以上、場合によっては数日かかることもある。そのため、分析処理にかかる時間を知りたいというユーザの要望がある。そこで、時間予測部141は、一部データを用いて予測処理時間を算出する。これにより、分析処理にかかる時間の見積もりをユーザに提示することができる。このとき、予測処理時間の算出に使用するデータのサイズを、例えば1秒で取得できるサイズに限定することで、予測処理時間の算出にかかる時間を短時間に抑えることができる。
 また、時間予測部141は、単にユーザデータのサイズから予測処理時間を算出するのではなく、実際に一部データを用いた分析処理を実行して予測処理時間を算出する。ユーザデータのサイズは容易に取得できるが、予測分析にかかる時間はユーザデータのサイズだけでなく、データの性質に依存する。そのため、時間予測部141が、実際に処理を実行して予測処理時間を算出することで、予測処理時間の予測精度を向上させることができる。
 なお、ここでは、時間予測部141が、所定時間に取得した一部データを用いて予測処理時間を算出するとしたが、これに限定されない。例えば、時間予測部141が所定サイズ(例えば100行~2000行)の一部データを用いて予測処理時間を算出してもよい。
 あるいは、時間予測部141が、予め用意してある学習済みの処理時間予測モデルを用いて予測処理時間を予測するようにしてもよい。この場合、時間予測部141は、例えば、一部データから項目数(列数)、各項目の欠損率、各項目のデータ型(文字列/数値/日付等)、機械学習の種類(二値分類/多値分類/回帰等)などの情報を抽出する。時間予測部141は、抽出した情報を用いて、学習済みの処理時間予測モデルによって、予測処理時間を予測する。
 また、時間予測部141は、一定時間の経過や各部の処理が終了したタイミングなど、所定のタイミングで予測処理時間を更新してもよい。時間予測部141は、一部データを用い、所定のタイミングでまだ終了していない処理を実行する。時間予測部141は、実行した処理にかかった時間に基づき、予測処理時間を再度算出することで、予測処理時間を更新する。
 なお、予測処理時間の更新に用いる一部データは、更新前の予測処理時間の算出に用いた一部データと同じであってもよく、今回の更新時に改めて取得したユーザデータであってもよい。例えば、後述する解釈部132で、全てのユーザデータに対して構造化処理を行った場合、構造化処理を行った全てのユーザデータの中から所定サイズのユーザデータを取得して一部データとしてもよい。
(解釈部)
 解釈部132は、取得部131がユーザデータ記憶部122から取得したユーザデータを解析し、構造化する。まず、解釈部132が行うデータ解析について説明する。
 上述したように、ユーザデータには種々のデータ形式が含まれる。解釈部132は、例えばデータの種類ごとに認識器(図示省略)を用いてユーザデータを解析する。認識器は、例えば記憶部120に記憶されているものとする。
 具体的に、解釈部132は、例えばユーザデータに含まれる画像データに対して画像用の認識器を用いて画像の中から顔/文字列/一般物体などを検出する認識処理を行う。例えば、画像データが商品購入を示すレシートの画像であった場合、解釈部132は、画像に付与されたデータから、ユーザID(端末ID)、撮影場所、撮影時刻などを検出する。また、解釈部132は、画像から文字列を検出し、電話番号、会社名、購入商品、商品の値段、合計額、支払方法(現金/クレジット/電子マネー/QRコード(登録商標)決済など)などを認識する。解釈部132は、認識結果をメタデータとして生データであるユーザデータに付与する。
 画像データ以外でも、解釈部132は、例えばユーザデータに含まれる音声データに対して音声用の認識器を用いて話者を認識し、発話内容をテキスト化する。あるいは、加速度データに対して、解釈部132は、時刻ごとにユーザの移動行動(徒歩/自転車/電車など)を認識する。また、テキストデータに対して、解釈部132は、表記ゆれの補正や類義語辞書を用いた類似表現の追加を行う。このように、解釈部132は、ユーザデータをデータの種類ごとに解析し、メタデータを付与する。
 上述した例では、解釈部132が1つの認識器を用いて1つのデータを認識する場合について説明したが、例えば解釈部132が1つのデータに対して複数の認識器を用いて認識を行うようにしてもよい。例えば音声データを認識する場合、解釈部132は、まず音声データをテキストデータに変換し、変換後のテキストデータを多言語に翻訳する。続いて、解釈部132は、翻訳したテキストデータの表記ゆれを補正したり、類似表現の追加を行ったりする。このように、解釈部132は認識器を多段に使用してユーザデータを認識してもよい。
 なお、上述したデータ認識は一例であり、解釈部132は、種々の既知の技術に基づき、ユーザデータを認識してもよい。
 続いて、解釈部132は、解析結果に基づいてユーザデータを構造化する。解釈部132は、テンプレートを用いてユーザデータに付与されたメタデータの構造化を行う。テンプレートは、予測分析に特化したものであり、例えば複数のテンプレートを記憶部120が予め記憶しているものとする。
 解釈部132は、メタデータが付与されたユーザデータが入力されると、データを最も適合するテンプレートに当てはめることでデータの構造化を行う。
 例えば、「ユーザ」という概念が「年齢」、「性別」という概念を持ち、「商品」という概念が「価格」という概念を持つとする。「ユーザ」と「商品」は「購入」という関係を持ち、「購入」という概念は「購入日時」という概念を持つとする。例えばこのようなデータ構造のテンプレートを用いて、解釈部132は非構造化データであるメタデータを構造化する。
 さらに、解釈部132が、メタデータを新たに付与してもよい。ここで付与したメタデータは、問題設定を抽出する際に利用される。例えば、解釈部132が、レシート画像に付与された「商品名」から「食費」や「生活雑費」のような上位カテゴリをメタデータとして付与してもよい。
 なお、上述した構造化は一例であり、解釈部132は、種々の既知の技術に基づき、ユーザデータの構造化を行ってもよい。また、上述したテンプレートや上位カテゴリは一例であり、解釈部132は、予測分析に特化した種々のテンプレートやカテゴリ、メタデータを用いてユーザデータの構造化を行ってもよい。また、ユーザデータ記憶部122が記憶するユーザデータがすでに構造化されている場合は、解釈部132の処理を省略してもよい。
 このように、解釈部132がユーザデータの解析、構造化を行うことで、ユーザの負担を軽減することができる。
(抽出部)
 続いて、抽出部133は、解釈部132が構造化したユーザデータ(以下、構造化データともいう)および取得部131が取得した過去事例に基づき、予測分析における問題設定を抽出する。問題設定は「何のデータ項目を使用するか」という複数の「使用項目」(説明変数)と、「何を予測するか」という1つの「予測対象」(目的変数)とを含む。
 抽出部133は、過去事例に基づき、構造化データから「予測対象」を抽出する。抽出部133は、例えば、過去事例に含まれる過去対象と同じ項目(変数)を構造化データから「予測対象」として抽出する。
 このとき、抽出部133は、例えばプロファイル情報に基づき、ユーザと関連がある、あるいはユーザの関心が高いと考えられる「予測対象」を抽出する。例えば、ユーザが商品販売に関するビジネスを行っている場合、「売り上げ」予測に対する関心が高いと考えられる。そこで、この場合、抽出部133は、「売り上げ」を予測対象として抽出する。
 具体的に、抽出部133は、例えばプロファイル情報に基づき、推薦システムを用いて過去事例の過去対象から候補を抽出する。抽出部133は、抽出した候補の中からユーザデータにも含まれる項目を問題設定の「予測対象」とする。推薦システムには、例えばランキング学習や内容ベースフィルタリング、協調フィルタリング、あるいはこれらを組み合わせたシステムが含まれる。
 なお、抽出部133が複数の「予測対象」を抽出してもよい。例えば、ランキング学習のように過去対象がランキング形式で複数抽出される場合、抽出部133は、ランキング上位から所定数の「予測対象」を抽出する。このように、抽出部133が複数の「予測対象」を抽出することで、抽出部133は、ユーザに関係する「予測対象」を幅広く抽出することができる。
 抽出部133は、抽出した「予測対象」(抽出対象)ごとに複数の「使用項目」を抽出する。抽出部133は、構造化データの中から抽出対象に関連する項目(変数)を「使用項目」(説明変数)に設定する。抽出部133は、抽出対象に少しでも関連する項目を「使用項目」に設定してもよい。この場合、情報処理装置100は、抽出後の処理である予測モデル学習において学習の精度を向上させることができる。あるいは、抽出部133は、抽出対象に関連が高いものから順に所定数の項目を「使用項目」に設定してもよい。この場合、情報処理装置100は、予測モデル学習における処理負荷を低減させることができる。
 抽出部133は、抽出した「使用項目」(以下、抽出項目ともいう)に基づいてデータセットを構築する。抽出部133は、構造化データから抽出項目に該当するデータを抽出することで、データセットを構築する。このように、抽出部133がデータセットを構築することで、ユーザが問題設定に応じたデータセットを構築する必要がなく、ユーザの負担を軽減することができる。
 上述したように、抽出部133が、例えば複数の問題設定を抽出するようにしてもよい。この場合、抽出部133は、「予測対象」と、「予測対象」に対応する複数の「使用項目」との組み合わせを複数抽出する。また、抽出部133は、抽出した問題設定に応じたデータセットを構築する。したがって、抽出部133は、複数の問題設定を抽出した場合、各問題設定に対応するデータセットを複数構築する。このように、抽出部133がデータセットを構築することで、問題設定が複数ある場合でもユーザは対応するデータセットをそれぞれ構築する必要がなく、ユーザの負担を低減することができる。
(学習部)
 学習部134は、抽出部133が抽出した問題設定および構築データセットに基づき、予測モデルを学習する。抽出部133が複数の問題設定を抽出する場合、学習部134は複数の問題設定それぞれに対応する予測モデルを学習する。
 学習部134は、構築データセットを学習用データとテスト用データに分割する。学習部134は、学習用データを特徴ベクトルに変換する。学習部134は、特徴ベクトルと予測対象に基づき、機械学習によって、例えば分類または回帰問題を解くことで、予測モデルを生成する。なお、上述した機械学習は一例であり、学習部134は、種々の既知の技術に基づき、予測モデルを学習してもよい。
 ここでは、学習部134が構築データセットを分割するとしたが、これは一例であり、例えば抽出部133が学習用データセットとテスト用データセットのそれぞれを構築するようにしてもよい。
(評価部)
 評価部135は、学習部134が生成した予測モデルを評価する。学習部134が複数の予測モデルを生成する場合、評価部135は複数の予測モデルそれぞれについて評価を行う。
 評価部135は、予測モデルおよびテスト用データに基づき、評価指標を用いて予測モデルを評価する。評価指標は、例えば二値分類であればAUC、多値分類であればAccuracy、回帰であればMAEなどである。なお、上述した評価指標は一例であり、評価部135は、種々の既知の技術に基づき、予測モデルの評価を行ってもよい。例えばユーザが評価指標を指定してもよい。
(予測部)
 予測部136は、予測モデルをビジネスに導入した場合のビジネス効果を予測する。学習部134が複数の予測モデルを生成する場合、予測部136は複数の予測モデルをビジネスに導入した場合のビジネス効果(以下、予測効果ともいう)をそれぞれ予測する。
 予測部136は、過去事例記憶部121から、抽出部133が抽出した抽出対象と同じ項目を過去対象とする過去事例を選択する。予測部136は、選択した過去事例に含まれる「ビジネス効果」を新たな「予測対象」(以下、効果予測対象ともいう)として予測分析を行う。
 具体的に、まず予測部136は、「ビジネス効果」を「効果予測対象」に設定する。次に、予測部136は、過去事例から「ビジネス効果」に関連する項目を「使用項目」に設定する。なお、予測部136は、例えば過去事例および構造化したユーザデータ(あるいは構築データセット)の両方に含まれる項目の中から「使用項目」を設定するようにしてもよい。
 予測部136は、過去事例から「使用項目」に該当するデータを抽出することで、データセット(以下、効果学習データセットともいう)を構築する。予測部136は、効果予測データセットおよび「効果予測対象」に基づき、機械学習によって、例えば回帰問題を解くことで、予測モデル(以下、効果予測モデルともいう)を生成する。
 続いて、予測部136は、構造化したユーザデータから「使用項目」に該当するデータを抽出してデータセット(以下、効果予測データセットともいう)を構築する。予測部136は、効果予測データセットおよび生成した効果予測モデルに基づき、学習部134が生成した予測モデルをビジネス導入した場合のビジネス効果を予測する。
 なお、上述した手法は一例であり、予測部136は、種々の既知の技術に基づき、ビジネス効果を予測してもよい。また、予測部136が行う効果予測データセットの構築や効果予測モデルの学習等を抽出部133や学習部134の一部の機能を用いて実行するようにしてもよい。
(収集決定部)
 収集決定部137は、抽出した問題設定ごとに、過去事例およびユーザデータに基づき、ユーザに収集を提案するデータ項目(以下、提案項目ともいう)を決定する。問題設定が複数ある場合、収集決定部137は複数の問題設定ごとに提案項目を決定する。なお、収集決定部137が1つの問題設定に対して複数の提案項目を決定してもよい。
 収集決定部137は、過去事例のデータセット(過去データセット)と抽出部133が構築したデータセット(構築データセット)とを比較する。収集決定部137は、過去データセットに含まれ、構築データセットに含まれない「使用項目」(以下、「未収集項目」ともいう)を抽出する。
 まず、収集決定部137は、過去事例において、「未収集項目」を使用しなかった場合のビジネス効果を予測する。具体的には、収集決定部137は、「未収集項目」を除く過去データセットを利用して予測モデルを学習し、予測モデルの精度を評価する。収集決定部137は、評価した予測精度でのビジネス効果を改めて算出する。なお、ここでの予測モデルの学習、評価およびビジネス効果の算出は、学習部134、評価部135および予測部136の処理と同様であるため、説明を省略する。
 収集決定部137は、算出したビジネス効果に基づき、効果が減少した「未収集項目」を提案項目に決定する。
 なお、収集決定部137が複数の「未収集項目」を抽出する場合、収集決定部137は、「未収集項目」ごとにビジネス効果を再算出する。そして、収集決定部137は、ビジネス効果の減少量が最も大きい「未収集項目」を提案項目に決定する。あるいは、収集決定部137は、ビジネス効果の減少量が閾値以上の「未収集項目」を提案項目に決定してもよく、あるいは所定数の「未収集項目」を提案項目に決定してもよい。
 また、データ収集にかかった「収集コスト」が過去事例に含まれる場合、収集決定部137は、改めて算出したビジネス効果と収集コストに基づき、提案項目を決定してもよい。この場合、収集決定部137は、予測部136が「未収集項目」を含めて算出したビジネス効果から収集コストを引いた導入効果と「未収集項目」を含めず算出したビジネス効果との差を算出する。収集決定部137は、算出した差が大きい「未収集項目」を提案項目に決定する。
 このように、収集決定部137がデータの「収集コスト」も含めて提案項目を決定することで、情報処理装置100は、収集コストが低くデータの収集が容易である未収集項目を優先してユーザに提案することができる。あるいは、情報処理装置100は、収集コストは高いが使用するとビジネス効果が大きい未収集項目のデータ収集をユーザに提案することができる。
 なお、ここでは、収集決定部137が「未収集項目」を使用しなかった場合の予測モデルの学習、精度評価およびビジネス効果の算出を行うとしたが、これに限定されない。例えば、学習部134、評価部135および予測部136がそれぞれ予測モデルの学習、精度評価およびビジネス効果の算出を行うようにしてもよい。この場合、収集決定部137は、各部の結果に基づき、提案項目を決定する。
 また、ここでは、収集決定部137がビジネス効果に基づいて提案項目を決定するとしたが、これに限定されない。収集決定部137が、例えば予測モデルの評価結果に基づいて提案項目を決定するようにしてもよい。この場合、収集決定部137は、「未収集項目」を使用せずに学習した予測モデルの精度を評価し、評価の減少量が少ない「未使用項目」を提案項目に決定する。
(寄与度算出部)
 寄与度算出部142は、学習部134で学習した予測モデルに入力されるテスト用データの特徴量のうち、どの特徴量がどれだけ予測結果に寄与するかを示す寄与度を算出する。具体的に、寄与度算出部142は、寄与度の算出対象とする特徴量を予測モデルの入力から除去して、除去する前後での予測結果の変化に基づいて寄与度を算出する。
 ここで、寄与度算出部142が算出する寄与度には、正の値と負の値とが含まれる。寄与度が正の値であることは、特徴量の集合が予測に対して正に寄与する、すなわち予測モデルによって予測される予測確率を向上させることを意味する。また、寄与度が負の値であることは、特徴量の集合が予測に対して負に寄与する、すなわち予測モデルによって予測される予測確率を低下させることを意味する。
 また、寄与度算出部142は、寄与度を算出した特徴量が、特徴量の集合(項目)に占める割合を算出する。算出した割合が低いと、寄与度が高くても滅多に発生しないケースであり、ユーザにとっての利用価値が低くなる。そこで、本開示の実施形態では、寄与度算出部142が寄与度を算出した特徴量の割合を算出し、図14を用いて後述するようにかかる割合もユーザに提示する。これにより、ユーザは、発生度合いも考慮して、データの寄与度を確認することができる。
 なお、ここでは、予測部136、寄与度算出部142および収集決定部137がそれぞれビジネス効果、寄与度を算出し、提案項目を決定するとしたが、これら全てを算出/決定する必要はない。例えば、寄与度算出部142が寄与度を算出するようにし、予測部136によるビジネス効果の算出および収集決定部137による提案項目の決定を省略してもよい。あるいは、寄与度算出部142による寄与度の算出および予測部136によるビジネス効果の算出を行うようにし、収集決定部137による提案項目の決定を省略してもよい。また、算出/決定する処理をユーザが選択できるようにしてもよい。
(表示制御部)
 図7の表示制御部138は、各種情報の表示を制御する。表示制御部138は、端末装置10における各種情報の表示を制御する。表示制御部138は、表示態様を制御する制御情報を含む画像を生成する。この制御情報は、例えば、JavaScript(登録商標)やCSS等のスクリプト言語により記述される。表示制御部138は、上記のような制御情報を含む画像を端末装置10に提供することにより、制御情報にしたがって端末装置10に上述した表示処理を行わせる。なお、表示制御部138は、上記に限らず、種々の従来技術を適宜用いて、端末装置10の表示を制御してもよい。
 図9~図15を用いて、表示制御部138が端末装置10に表示させる画面の一例について説明する。図9は、ユーザデータの取得先を指定する画像の一例を示す図である。図9に示す画像は、例えば取得部131がユーザデータを取得する場合に端末装置10に表示される。
 図9の例では、表示制御部138は、端末装置10に画像IM11を表示させる。画像IM11は、ユーザによるユーザデータの取得先の選択を受け付ける画像である。画像IM11では、「PC内のファイルを自動スキャンする」または「データソースを手動で指定する」の2つの選択肢からユーザが択一的に取得先を選択する。
 画像IM11では外部データベースのアイコンDB1~DB9が表示される。ユーザは、「データソースを手動で指定する」を選択した場合、例えばドラッグ&ドロップ操作によって任意のアイコンを選択領域R11に移動させることで、データソースを指定する。ユーザが、ユーザデータの取得先を指定して「次へ」ボタンB11を選択した場合、情報処理装置100の取得部131は、指定された取得先からユーザデータを取得する。なお、データベースの指定はドラッグ&ドロップ操作に限定されず、例えばアイコンDB1~DB9をユーザがクリックすることで指定するようにしてもよい。
 なお、ここでは、表示制御部138が、取得先としてPC内あるいは外部データソースをユーザに選択させる例を示したが、これに限定されない。例えば、表示制御部138は、情報処理装置100の記憶部120を取得先としてユーザに選択させるようにしてもよい。あるいは、例えば、表示制御部138は、ハードディスク、磁気ディスク、光磁気ディスク、光ディスク、USBメモリ、又はメモリカードなどの外部装着型の記憶媒体を取得先としてユーザに選択させるようにしてもよい。表示制御部138は、ユーザデータの保存先を示すアドレスの直接入力を受け付けるようにしてもよい。
 続いて、表示制御部138は、制御部130の各部による処理の進行状況を示す画面をユーザに提示する。図10~図13を用いて表示制御部138が提示する進行状況を示す画面の一例について説明する。図10は、予測処理時間の算出状況を示す画像の一例を示す図である。図10に示す画像IM31は、例えば時間予測部141が予測処理時間を算出している間、端末装置10に表示される。
 図10の例では、表示制御部138は、端末装置10に画像IM31を表示させる。図10に示すように、画像IM31の左側領域R31には処理の概要が表示される。処理の概要として、例えば学習部134で行われるモデル学習など、制御部130の各部が行う処理の概要が表示される。表示制御部138は、表示される概要のうち、実行完了および実行中の処理は濃い色で表示し、まだ実行していない処理は薄い色で表示する。図10の画像IM31は、データの読み込みを実行中であり、以降、データの前処理、モデル学習等が行われることを示している。
 また、図10の画像IM31の右側領域R32には、実際に制御部130の各部が行う処理の詳細が表示される。図10の例では、時間予測部141が予測処理時間を算出しているため、「データ読み込み・学習時間見積もり処理の開始」が表示されている。
 次に、図11を用いて、分析処理が進み、制御部130の学習部134が予測モデルの学習を行っている場合に表示制御部138が提示する画面について説明する。図11は、予測モデルの学習状況を示す画像の一例を示す図である。
 図11の例では、表示制御部138は、端末装置10に画像IM41を表示させる。図11に示すように、表示制御部138は、処理が完了した「データ読み込み」と「データ前処理」(解釈部132による構造化データ生成処理に相当)をチェックマークM41とともに濃い表示色で表示する。
 また、表示制御部138は、処理を実行中の「モデル学習」(学習部134による予測モデルの学習処理に相当)を、アイコンM42とともに濃い表示色で表示する。円形のアイコンM42は、例えば学習処理の進行状況を示す円形状のインジケータである。
 図11の例では、表示制御部138は、画像IM41の下部に分析処理の残り所要時間T43を表示する。また、表示制御部138は、残り所要時間T43とともに、残り所要時間T43に対応した進行状況を示す進行状況バーB44を表示する。
 続いて、図12を用いて分析処理が完了した場合に表示制御部138が提示する画面について説明する。図12は、分析処理完了を示す画像の一例を示す図である。
 図12の例では、表示制御部138は、端末装置10に画像IM51を表示させる。図12に示すように、表示制御部138は、完了した全ての処理を、チェックマークとともに濃い表示色で表示する。また、例えば表示制御部138は、画像IM51にOKボタンB51を表示する。表示制御部138は、例えばユーザからのOKボタンB51の押下操作を受け付けると、分析処理結果をユーザに提示する。
 次に、図13を用いて、表示制御部138が、情報処理装置100による分析処理結果を端末装置10に表示させる例について説明する。図13は、分析処理結果を示す画像の一例を示す図である。ここでは、抽出部133による抽出処理に加え、例えば評価部135、予測部136、収集決定部137で各処理が行われた場合に、図13に示す画像が処理の結果を示す画像として端末装置10に表示される。
 図13の例では、表示制御部138は、端末装置10に画像IM21を表示させる。画像IM21は、情報処理装置100の処理結果をユーザに提示する画像である。表示制御部138は、抽出部133が抽出した複数の問題設定に関する情報をおすすめの問題設定として領域R21、R22、・・・にそれぞれ表示する。表示制御部138は、例えば予測部136が予測したビジネス効果が高い順に問題設定を表示する。
 なお、上述した表示制御部138による問題設定の表示順は一例である。例えば表示制御部138が、評価部135による予測モデルの評価値が高い順に問題設定を表示するようにしてもよい。あるいは、抽出部133がランキング学習を利用して問題設定を抽出した場合、表示制御部138は、ランキング順位に応じて問題設定を表示するなど、ユーザに関する情報に応じた順番で問題設定を表示してもよい。なお、各領域R21、R22、・・・の表示内容は同じであるため、以下、領域R21について詳細に説明する。
 図13に示すように、表示制御部138は、画面IM21の領域R21内に問題設定RS11および評価結果RS12を表示する。なお、図13では、表示制御部138は、問題設定RS11として、例えば「職種・年収などから貸し倒れするかを予測」のように「使用項目」の一部と「予測対象」を含む文章を表示するものとする。また、表示制御部138は、評価結果RS12として予測モデルの精度を表示する。このとき、図13では、表示制御部138は、「精度82.6%でかなり良い」というように、精度に加え評価も付して表示する。このように、文章や評価を提示することでユーザに抽出結果をわかりやすく提示することができる。なお、図13では、複数の問題設定および評価結果を区別するため、「問題設定1」、「評価結果1」と数字を付して表示している。
 また、表示制御部138は、問題設定RS11の近くに問題設定RS11が編集可能であることを示す編集アイコンC21を表示する。このように、編集アイコンC21を表示することで、ユーザが、例えば問題設定における「使用項目」の追加・削除や「予測対象」の変更等、問題設定の変更を直接行えるようにしてもよい。
 次に、図13の例では、表示制御部138は、構築データセットM21を予測に使用したデータとして表示する。表示制御部138は、例えば構築データセットM21をマトリクスとして表示する。このとき、例えば表示制御部138は、「予測対象」に該当する項目の表示色を変更するなど、強調して表示してもよい。なお、「予測対象」の強調表示は、表示色の変更に限らず、「使用項目」と異なる表示態様であれば、種々の態様であってもよい。例えば、「予測対象」の強調表示は、「使用項目」よりも大きな文字サイズで表示したり、下線を付して表示したりすることであってもよい。また、「予測対象」の強調表示は、強調対象を点滅して表示させることであってもよい。
 また、表示制御部138は、構築データセットM21の近くに構築データセットM21が編集可能であることを示す編集アイコンC22を表示する。編集アイコンC22を選択することで、ユーザが、例えば問題設定における「使用項目」の追加・削除や「予測対象」の変更等、問題設定の変更を直接行えるようにしてもよい。あるいは、ユーザが、構築データセットに含まれるデータの追加、修正、削除等の編集を行えるようにしてもよい。
 このように、表示制御部138が構築データセットを画像IM21に表示することで、予測分析にどのようなデータセットを利用したかユーザに提示することができる。なお、図13に示す構築データセットの表示は一例であり、これに限定されない。例えば構築データセットが大きく画面に全てを表示させられない場合、表示制御部138が代表的な項目やデータなど構築データセットの一部を表示するようにしてもよい。あるいは、表示制御部138は、ユーザによる例えばスクロール操作を受け付けることで全ての構築データセットM21を表示できるようにしてもよい。
 なお、例えば、ユーザが編集アイコンC21、C22を選択し、問題設定または構築データセットに変更を加えたとする。この場合、表示制御部138は、ユーザに対して、変更した内容で再度予測モデルの生成、評価およびビジネス効果の算出等の処理を行うか否かを選択させる画像を表示してもよい。ユーザが再度処理を行うことを選択した場合、情報処理装置100は、ユーザが変更した内容に基づき、再度予測モデルの生成、評価およびビジネス効果の算出等の処理を行う。
 表示制御部138は、評価結果として各種グラフや表を表示する。図13に示す例では、表示制御部138は、混同行列M22および予測確率の分布を示すグラフG21を表示する。
 なお、表示制御部138が表示する各種グラフや表は図13に示す例に限定されない。表示制御部138が、例えば予測分析の結果を時系列に示すグラフなど、種々の各種グラフや表を表示するようにしてもよい。あるいは、表示するグラフや表をユーザが指定するようにしてもよい。なお、ここで表示制御部138が表示するグラフや表に用いるデータは例えば評価部135が算出するものとする。
 続いて、表示制御部138は、ビジネス効果R23を表示する。表示制御部138は、予測部136によるビジネス効果の算出額を表示する。このとき、図13に示すように、表示制御部138が、表示する算出額に所定の幅を持たせて表示したり、算出額を所定の桁に丸める端数処理を行って表示したりしてもよい。
 表示制御部138は、追加項目R24を追加すべきデータとして表示することで、追加項目R24に含まれる提案項目をユーザに提示する。追加項目R24には、収集決定部137が決定した提案項目が含まれる。また、表示制御部138は、提案項目を追加した場合に増加するビジネス効果の額を表示するようにしてもよい。表示制御部138は、収集決定部137が算出するビジネス効果の減少量に基づき、かかる増加額を表示する。
 このとき、図13に示すように、表示制御部138が、増加額を所定の桁に丸める端数処理を行って表示するようにしてもよい。あるいは、例えば増加額がそれぞれ異なる複数の提案項目を表示する場合などにおいて、表示制御部138が、表示する増加額に所定の幅を持たせて表示するようにしてもよい。
 また、表示制御部138は、提案した問題設定を用いた予測分析を採用する場合に選択する採用ボタンB21を表示する。ユーザが採用ボタンB21を選択すると、表示制御部138が、採用した予測分析を実際に行った場合の実証実験結果やビジネス効果等の入力を受け付ける画像を表示する。このように、実際にビジネス導入した場合のデータを受け付けることで、情報処理装置100は、予測分析の過去事例を取得することができる。
 あるいは、表示制御部138が、例えば、期間や地域など実証実験の例を表示するようにしてもよい。実証実験の例は、例えば過去事例に含まれる実証実験に基づいて表示される。これにより、ユーザは過去事例を参考にして実証実験を行うことができる。
 上述した以外にも、表示制御部138は種々の情報を画像IM21に表示する。例えば、表示制御部138は、画像IM21に表示した情報の詳細情報へのリンクが設定された文章やアイコンを表示する。
 図13では、例えば「もっと詳しく」と下線を付して記載された文章を選択するなど、ユーザによる詳細表示への切り替え操作を受け付けると、表示制御部138は、対応する内容の詳細を表示する。
 例えば評価結果の詳細表示操作を受け付けた場合、表示制御部138は混同行列M22やグラフG21を拡大したものを表示したり、画像IM21では表示していない表やグラフを追加で表示したりしてもよい。
 また、ビジネス効果の詳細表示操作を受け付けた場合、表示制御部138は、例えば詳細な算出額を表示したり、具体的なビジネスへの導入例を表示したりしてもよい。また、追加すべきデータの詳細表示操作を受け付けた場合、表示制御部138は、詳細な算出額を表示したり、画像IM21に表示している以外の提案項目を表示したりしてもよい。
 また、表示制御部138は、例えば問題設定RS11の使用項目や追加項目R24の提案項目、評価結果RS12の精度値に下線を付して強調表示する。ユーザが強調表示箇所を選択することで、例えば使用項目の詳細や精度値の詳細を確認できるようにしてもよい。なお、強調対象の強調表示は、下線に限らず、強調表示の対象外の要素と異なる表示態様であれば、種々の態様であってもよい。例えば、強調対象の強調表示は、強調表示の対象外の要素よりも大きな文字サイズで表示したり、強調表示の対象外の要素とは異なる色で表示したりすることであってもよい。また、強調対象の強調表示は、強調対象を点滅して表示させることであってもよい。
 また、図13の例では、表示制御部138は、情報処理装置100の処理結果に加え、ユーザからの質問等を受け付けるテキストボックスTB21を表示する。このように、表示制御部138が処理結果に関する情報以外の情報を表示するようにしてもよい。
 次に、図14、図15を用いて、表示制御部138が端末装置10に表示させる分析処理結果の他の例について説明する。図14は、分析処理結果を示す画像の他の例を示す図(1)である。図15は、分析処理結果を示す画像の他の例を示す図(2)である。ここでは、分析処理のうち寄与度算出部142の算出処理結果を示す場合について説明する。また、図14、図15では、工場で稼働する機械が故障するか否かを予測する予測分析を行った結果を例にとって説明する。
 図14の例では、表示制御部138は、端末装置10に画像IM61を表示させる。図14では、表示制御部138は、画像IM61の左側領域R61に、例えば「稼働月数」や、「生産工場」といった項目ごとの寄与度を棒グラフで表示する。上述したように、寄与度は正の値および負の値が含まれる。そこで、表示制御部138は、正の値の合計値と負の値の合計値とをそれぞれ合わせた値を棒グラフとして表示する。
 なお、ここでは、機械が故障するか否かを予測しているため、故障するという予測確率を向上させる特徴量が正の値となり、故障しない(=正常である)という予測確率を向上させる特徴量が負の値となる。図14では、予測結果が「故障」となる予測確率に対しても、「正常」となる予測確率に対しても「稼働月数」の寄与度が大きいことがわかる。このように、項目ごとに正および負の寄与度を表示することで、どの項目が予測分析に大きく寄与しているのかわかりやすく表示することができる。
 なお、寄与度の表示方法は棒グラフに限られず、円グラフや折れ線グラフ、その他のインジケータを用いて表示してもよく、また、寄与度の数値自体を表示するなど、種々の表示方法で表示するようにしてもよい。
 また、表示制御部138は、画像IM61の右側領域R62に特定の項目の寄与度の詳細を表示する。図14の例では、表示制御部138は、「稼働月数」の寄与度の詳細として、「稼働月数」の特徴量(項目内容)ごとの寄与度と特徴量の項目に占める割合を表示している。かかる寄与度および割合は、寄与度算出部142が算出したものである。
 図14では、表示制御部138は、寄与度の詳細として、例えば「故障」と予測する結果に寄与する特徴量(項目内容)と、「正常」と予測する結果に寄与する特徴量(項目内容)と、をそれぞれ寄与度が大きい順に所定数表示する。
 このとき、表示制御部138は、寄与度の数値を表示してもよく、あるいは図14に示すように寄与度に対応するインジケータを表示してもよい。例えば、図14では、複数のバーで構成されるインジケータが配置されており、表示制御部138は、寄与度が大きくなるほど左側から右側に向かって多くのバーを表示する。
 また、表示制御部138は、寄与度とともに、特徴量の項目に占める割合を表示する。図14の例では、表示制御部138は、故障へ寄与する項目内容「99.00~110.0」の寄与度に対応するインジケータM63と、割合に対応する円グラフM64と、を表示する。図14では、「機械が稼働してから99ヶ月から110ヶ月」のデータが「故障」と予測する予測分析への寄与度が最も高いことを示している。また「機械が稼動してから99ヶ月から110ヶ月」のデータが、稼働月数に含まれるデータの9パーセントを占めることを示している。
 また、図14の例では、故障へ寄与する項目内容「110.0~116.0」の寄与度は2番目に大きいが、項目に占める割合は3パーセントであり、稼働月数に含まれるデータに占める割合は小さいことがわかる。このように、項目内容ごとに寄与度および割合を表示することで、各項目内容の寄与度がどれくらい大きいか、また項目内容がどれくらいの頻度で起こるのかをユーザにわかりやすく提示することができる。
 また、特徴量(項目内容)が数値である場合、表示制御部138は、各項目内容の数値の範囲R65を示すようにしてもよい。図14の例では、表示制御部138は、稼働月数を横軸とし、各項目内容の数値範囲を1つのグラフを表示する。これにより、項目内容の数値範囲を視覚的にわかりやすくユーザに提示することができる。
 次に、図15を用いて、分析処理結果を示す画像の他の例を説明する。図15の例では、表示制御部138は、端末装置10に画像IM71を表示させる。例えば、ユーザが左側領域R61に表示される項目の「生産工場」を選択したとする。この場合、表示制御部138は、図15に示すように、右側領域R62に「生産工場」の寄与度の詳細を表示する。図15の例では、表示制御部138は、「生産工場」の特徴量(項目内容)である「鳥取県」や「新潟県」ごとに寄与度のインジケータと項目に占める割合を表示する。
 なお、寄与度や割合の表示方法は上述した例に限られず、各種グラフやインジケータを用いて表示してもよく、また、寄与度の数値自体を表示するなど、種々の表示方法で表示するようにしてもよい。
[1-5.実施形態に係る情報処理の手順]
 次に、図16を用いて、実施形態に係る情報処理の手順について説明する。図16は、本開示の実施形態に係る分析処理の手順を示すフローチャートである。
 図16に示すように、情報処理装置100は、記憶部120から過去事例およびユーザデータを取得する(ステップS101)。情報処理装置100は、取得した一部のユーザデータを用いて分析処理にかかる処理時間(予測処理時間)を予測する(ステップS110)。情報処理装置100は、ユーザデータを解析し、構造化することで構造化データを生成する(ステップS102)。
 情報処理装置100は、構造化データおよび過去事例に基づき、問題設定を抽出する(ステップS103)。情報処理装置100は、抽出した問題設定に応じたデータセットを構築する(ステップS104)。
 情報処理装置100は、問題設定および構築データセットに基づき、予測モデルを学習する(ステップS105)。情報処理装置100は、データセットを学習用データとテスト用データに分割し、学習用データを用いて予測モデルを生成する。
 続いて、情報処理装置100は、テスト用データを用いて予測モデルを評価する(ステップS106)。情報処理装置100は、予測モデルをビジネス導入した場合のビジネス効果を予測する(ステップS107)。
 情報処理装置100は、過去事例に基づき、データセットに追加するとビジネス効果が増加する可能性がある項目を提案項目に決定する(ステップS108)。情報処理装置100は、テスト用データの特徴量の寄与度を算出する(ステップS111)。情報処理装置100は、処理結果をユーザに提示する(ステップS109)。
 なお、情報処理装置100は、ユーザから問題設定やデータの修正を受け付けた場合、ステップS105に戻り、再度予測モデルの学習や評価を行ったり、ビジネス効果を算出したりしてもよい。また、情報処理装置100は、各ステップの処理が終了したタイミングで処理時間を予測するようにしてもよい。また、抽出部133が問題設定を複数抽出する場合、1つの問題設定ごとにステップS104~ステップS111を繰り返し実行することで、全ての問題設定に対する分析処理を実行するようにしてもよい。
[2.その他の構成例]
 上記の各構成は一例であり、情報処理システム1は、過去事例およびユーザデータに基づき、問題設定の抽出およびデータセットの構築が可能であればどのようなシステム構成であってもよい。例えば、情報処理装置100と端末装置10とが一体であってもよい。
 また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
 また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
[3.ハードウェア構成]
 上述してきた各実施形態や変形例に係る情報処理装置100や端末装置10等の情報機器は、例えば図17に示すような構成のコンピュータ1000によって実現される。図17は、情報処理装置100や端末装置10等の情報処理装置の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。以下、実施形態に係る情報処理装置100を例に挙げて説明する。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、および入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
 CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
 HDD1400は、CPU1100によって実行されるプログラム、および、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係るプログラムを記録する記録媒体である。
 通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。例えば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 例えば、コンピュータ1000が実施形態に係る情報処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた情報処理プログラムを実行することにより、制御部130等の機能を実現する。また、HDD1400には、本開示に係るプログラムや、記憶部120内のデータが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
 なお、本技術は以下のような構成も取ることができる。
(1)
 過去の予測対象と、当該予測対象の予測分析に用いた分析データセットと、を含む過去事例を取得し、
 予測分析に使用するデータを取得し、
 前記データおよび前記過去事例に基づき、前記データを用いて予測分析を行う場合の予測対象を抽出し、
 前記データに基づき、抽出した前記予測対象の予測分析に用いるデータセットを構築する制御部
 を備える情報処理装置。
(2)
 前記制御部は、ユーザに関する情報に基づいて前記過去事例から過去の前記予測対象を選択し、
 前記データに含まれる変数であって、選択した過去の前記予測対象に対応する変数を、前記予測対象として抽出する(1)に記載の情報処理装置。
(3)
 前記制御部は、
 抽出した前記予測対象および前記データに基づき、複数の説明変数を抽出し、
 抽出した前記予測対象および複数の前記説明変数に基づき、前記データセットを構築する(1)または(2)に記載の情報処理装置。
(4)
 前記制御部は、複数の前記予測対象を抽出し、抽出した複数の前記予測対象ごとに前記データセットを構築する(1)~(3)のいずれかに記載の情報処理装置。
(5)
 前記制御部は、前記過去事例に基づき、抽出した前記予測対象の予測分析をビジネスに導入した場合に得られる効果を予測する(1)~(4)のいずれかに記載の情報処理装置。
(6)
 前記過去事例は、過去の前記予測対象の予測分析をビジネスに導入した場合に得られた事例効果を含み、
 前記制御部は、前記分析データセットを用いて、前記過去事例に含まれる前記事例効果を予測対象とした効果用予測モデルを学習し、当該効果用予測モデルおよび構築した前記データセットを用いて予測分析を行うことで、前記効果を予測する(5)に記載の情報処理装置。
(7)
 前記制御部は、抽出した複数の前記予測対象を前記効果または/および前記ユーザに関する前記情報に応じた順番で前記ユーザに提示する(6)に記載の情報処理装置。
(8)
 前記制御部は、前記分析データセットに含まれ、構築した前記データセットに含まれない説明変数を、追加収集を提案するデータとして前記ユーザに提示する(1)~(7)のいずれかに記載の情報処理装置。
(9)
 過去の予測対象と、当該予測対象の予測分析に用いた分析データセットと、を含む過去事例を取得することと、
 予測分析に使用するデータを取得することと、
 前記データおよび前記過去事例に基づき、前記データを用いて予測分析を行う場合の予測対象を抽出することと、
 前記データに基づき、抽出した前記予測対象の予測分析に用いるデータセットを構築することと、
 を含む、プロセッサにより実行される情報処理方法。
(10)
 コンピュータを、
 過去の予測対象と、当該予測対象の予測分析に用いた分析データセットと、を含む過去事例を取得し、
 予測分析に使用するデータを取得し、
 前記データおよび前記過去事例に基づき、前記データを用いて予測分析を行う場合の予測対象を抽出し、
 前記データに基づき、抽出した前記予測対象の予測分析に用いるデータセットを構築する制御部
 として機能させるプログラム。
1 情報処理システム
100 情報処理装置
110 通信部
120 記憶部
121 過去事例記憶部
122 ユーザデータ記憶部
123 ユーザプロファイル記憶部
130 制御部
131 取得部
132 解釈部
133 抽出部
134 学習部
135 評価部
136 予測部
137 収集決定部
138 表示制御部
10 端末装置

Claims (10)

  1.  過去の予測対象と、当該予測対象の予測分析に用いた分析データセットと、を含む過去事例を取得し、
     予測分析に使用するデータを取得し、
     前記データおよび前記過去事例に基づき、前記データを用いて予測分析を行う場合の予測対象を抽出し、
     前記データに基づき、抽出した前記予測対象の予測分析に用いるデータセットを構築する制御部
     を備える情報処理装置。
  2.  前記制御部は、ユーザに関する情報に基づいて前記過去事例から過去の前記予測対象を選択し、
     前記データに含まれる変数であって、選択した過去の前記予測対象に対応する変数を、前記予測対象として抽出する請求項1に記載の情報処理装置。
  3.  前記制御部は、
     抽出した前記予測対象および前記データに基づき、複数の説明変数を抽出し、
     抽出した前記予測対象および複数の前記説明変数に基づき、前記データセットを構築する請求項2に記載の情報処理装置。
  4.  前記制御部は、複数の前記予測対象を抽出し、抽出した複数の前記予測対象ごとに前記データセットを構築する請求項3に記載の情報処理装置。
  5.  前記制御部は、前記過去事例に基づき、抽出した前記予測対象の予測分析をビジネスに導入した場合に得られる効果を予測する請求項4に記載の情報処理装置。
  6.  前記過去事例は、過去の前記予測対象の予測分析をビジネスに導入した場合に得られた事例効果を含み、
     前記制御部は、前記分析データセットを用いて、前記過去事例に含まれる前記事例効果を予測対象とした効果用予測モデルを学習し、当該効果用予測モデルおよび構築した前記データセットを用いて予測分析を行うことで、前記効果を予測する請求項5に記載の情報処理装置。
  7.  前記制御部は、抽出した複数の前記予測対象を前記効果または/および前記ユーザに関する前記情報に応じた順番で前記ユーザに提示する請求項6に記載の情報処理装置。
  8.  前記制御部は、前記分析データセットに含まれ、構築した前記データセットに含まれない前記説明変数を、追加収集を提案するデータとして前記ユーザに提示する請求項7に記載の情報処理装置。
  9.  過去の予測対象と、当該予測対象の予測分析に用いた分析データセットと、を含む過去事例を取得することと、
     予測分析に使用するデータを取得することと、
     前記データおよび前記過去事例に基づき、前記データを用いて予測分析を行う場合の予測対象を抽出することと、
     前記データに基づき、抽出した前記予測対象の予測分析に用いるデータセットを構築することと、
     を含む、プロセッサにより実行される情報処理方法。
  10.  コンピュータを、
     過去の予測対象と、当該予測対象の予測分析に用いた分析データセットと、を含む過去事例を取得し、
     予測分析に使用するデータを取得し、
     前記データおよび前記過去事例に基づき、前記データを用いて予測分析を行う場合の予測対象を抽出し、
     前記データに基づき、抽出した前記予測対象の予測分析に用いるデータセットを構築する制御部
     として機能させるプログラム。
PCT/JP2020/022183 2019-06-11 2020-06-04 情報処理装置、情報処理方法およびプログラム WO2020250810A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/615,421 US20220230193A1 (en) 2019-06-11 2020-06-04 Information processing apparatus, information processing method, and program
EP20821742.2A EP3985580A4 (en) 2019-06-11 2020-06-04 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM
CN202080041100.2A CN113950692A (zh) 2019-06-11 2020-06-04 信息处理设备、信息处理方法和程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019109117 2019-06-11
JP2019-109117 2019-06-11

Publications (1)

Publication Number Publication Date
WO2020250810A1 true WO2020250810A1 (ja) 2020-12-17

Family

ID=73780753

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/022183 WO2020250810A1 (ja) 2019-06-11 2020-06-04 情報処理装置、情報処理方法およびプログラム

Country Status (4)

Country Link
US (1) US20220230193A1 (ja)
EP (1) EP3985580A4 (ja)
CN (1) CN113950692A (ja)
WO (1) WO2020250810A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114781766A (zh) * 2022-06-22 2022-07-22 长江水利委员会长江科学院 水文站点的水文信息预测方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140156581A1 (en) * 2012-11-30 2014-06-05 Dxcontinuum Inc. A computer implemented system for automating the generation of a business decision analytic model
WO2016016973A1 (ja) * 2014-07-30 2016-02-04 株式会社Ubic 実績評価装置、実績評価装置の制御方法、および実績評価装置の制御プログラム
JP2017016321A (ja) 2015-06-30 2017-01-19 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2018147061A (ja) * 2017-03-02 2018-09-20 株式会社日立製作所 分析ソフトウェア管理システム及び分析ソフトウェア管理方法
WO2018185899A1 (ja) * 2017-04-06 2018-10-11 株式会社日立製作所 ライブラリ検索装置、ライブラリ検索システム、及びライブラリ検索方法
WO2020004049A1 (ja) * 2018-06-27 2020-01-02 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8417715B1 (en) * 2007-12-19 2013-04-09 Tilmann Bruckhaus Platform independent plug-in methods and systems for data mining and analytics
US10496927B2 (en) * 2014-05-23 2019-12-03 DataRobot, Inc. Systems for time-series predictive data analytics, and related methods and apparatus
CN108846520B (zh) * 2018-06-22 2021-08-03 京东数字科技控股有限公司 贷款逾期预测方法、装置以及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140156581A1 (en) * 2012-11-30 2014-06-05 Dxcontinuum Inc. A computer implemented system for automating the generation of a business decision analytic model
WO2016016973A1 (ja) * 2014-07-30 2016-02-04 株式会社Ubic 実績評価装置、実績評価装置の制御方法、および実績評価装置の制御プログラム
JP2017016321A (ja) 2015-06-30 2017-01-19 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2018147061A (ja) * 2017-03-02 2018-09-20 株式会社日立製作所 分析ソフトウェア管理システム及び分析ソフトウェア管理方法
WO2018185899A1 (ja) * 2017-04-06 2018-10-11 株式会社日立製作所 ライブラリ検索装置、ライブラリ検索システム、及びライブラリ検索方法
WO2020004049A1 (ja) * 2018-06-27 2020-01-02 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3985580A4

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114781766A (zh) * 2022-06-22 2022-07-22 长江水利委员会长江科学院 水文站点的水文信息预测方法、装置、设备及存储介质
CN114781766B (zh) * 2022-06-22 2022-09-13 长江水利委员会长江科学院 水文站点的水文信息预测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20220230193A1 (en) 2022-07-21
EP3985580A1 (en) 2022-04-20
CN113950692A (zh) 2022-01-18
EP3985580A4 (en) 2022-04-20

Similar Documents

Publication Publication Date Title
CN109783632B (zh) 客服信息推送方法、装置、计算机设备及存储介质
CN113935434A (zh) 一种数据分析处理系统及自动建模方法
US20220138770A1 (en) Method and apparatus for analyzing sales conversation based on voice recognition
Xu et al. Bert feature based model for predicting the helpfulness scores of online customers reviews
US20220414741A1 (en) Systems and methods for managing a personalized online experience
US20230093756A1 (en) Systems and methods for generating recommendations
CN113946754A (zh) 基于用户画像的权益推荐方法、装置、设备及存储介质
US20170154294A1 (en) Performance evaluation device, control method for performance evaluation device, and control program for performance evaluation device
CN113704599A (zh) 营销转化用户的预测方法、装置及计算机设备
CN111666413A (zh) 基于评论者可信赖度回归预测的商品评论推荐方法
CN115063035A (zh) 基于神经网络的客户评估方法、系统、设备及存储介质
KR102311107B1 (ko) 딥러닝 모델을 자동으로 생성하는 딥러닝 솔루션 플랫폼과 연동 가능한 고객 이탈 방지 시스템에 의해서 수행되는, 고객의 이탈을 방지하기 위한 솔루션을 제공하는 고객 이탈 방지 방법
WO2020250810A1 (ja) 情報処理装置、情報処理方法およびプログラム
KR102119083B1 (ko) 사용자 리뷰 기반 평점 재산정 장치 및 방법, 이를 기록한 기록매체
WO2023090292A1 (ja) 情報処理装置、情報処理方法およびコンピュータプログラム
CN109960777B (zh) 物品评论个性化推荐方法、系统、电子设备及存储介质
CN115828914A (zh) 一种考虑用户属性偏好的满意度评估方法
CN112313679A (zh) 信息处理设备、信息处理方法和程序
JP2021012420A (ja) 顧客管理システム、及び顧客管理方法
JP6178480B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
US11789983B2 (en) Enhanced data driven intelligent cloud advisor system
CN116415548A (zh) 标签预测模型的训练方法及装置
WO2021140957A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
AU2020201689A1 (en) Cognitive forecasting
CN110837595A (zh) 一种企业信息资讯数据处理方法、系统、终端及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20821742

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020821742

Country of ref document: EP

Effective date: 20220111

NENP Non-entry into the national phase

Ref country code: JP