WO2021153477A1 - 情報処理装置、情報処理方法および情報処理プログラム - Google Patents

情報処理装置、情報処理方法および情報処理プログラム Download PDF

Info

Publication number
WO2021153477A1
WO2021153477A1 PCT/JP2021/002366 JP2021002366W WO2021153477A1 WO 2021153477 A1 WO2021153477 A1 WO 2021153477A1 JP 2021002366 W JP2021002366 W JP 2021002366W WO 2021153477 A1 WO2021153477 A1 WO 2021153477A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
model
degree
information processing
improvement
Prior art date
Application number
PCT/JP2021/002366
Other languages
English (en)
French (fr)
Inventor
健人 中田
裕士 堀口
慎吾 高松
紘士 飯田
正典 宮原
将大 吉田
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to EP21748459.1A priority Critical patent/EP4105789A4/en
Priority to US17/759,212 priority patent/US20230052020A1/en
Publication of WO2021153477A1 publication Critical patent/WO2021153477A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence

Definitions

  • This disclosure relates to an information processing device, an information processing method, and an information processing program.
  • Patent Document 1 there is a technique for providing a data set similar to the data held by the user from among a plurality of data sets registered in the server (see, for example, Patent Document 1). For example, the user adds the provided data set to his / her own data to learn a prediction model or the like.
  • the information processing device of one form according to the present disclosure includes a learning unit, a calculation unit, and a presentation unit.
  • the learning unit has a first model based on predetermined new data acquired from a terminal device possessed by the user, and a second model based on combined data in which shared data stored in advance in the storage unit is combined with the new data as additional data. Learn with the model.
  • the calculation unit calculates the degree of improvement indicating the degree of improvement in the output accuracy of the second model with respect to the first model.
  • the presentation unit generates presentation information based on the degree of improvement calculated by the calculation unit.
  • a plurality of components having substantially the same functional configuration may be distinguished by adding different numbers after the same reference numerals. However, if it is not necessary to distinguish each of the plurality of components having substantially the same functional configuration, only the same reference numerals are given.
  • FIG. 1A and 1B are diagrams showing an outline of an information processing method according to an embodiment.
  • the information processing method according to the embodiment is executed by the information processing device 1.
  • the information processing apparatus 1 stores a shared data database (DB) in a storage unit in advance, and stores new data received from a user (user terminal) and a shared data DB. Based on the shared data provided, predetermined presentation information is generated and presented to the user.
  • DB shared data database
  • the information processing device 1 generates presentation information based on the degree of improvement indicating the degree of improvement in the output accuracy of the model learned based on the combined data obtained by combining the new data and the shared data, and the user (described later). It is presented to the user terminal 100).
  • the information processing apparatus 1 first learns (generates) the first model based on new data acquired from the user.
  • the information processing device 1 learns (generates) the second model based on the combined data in which the shared data selected from the shared data DB is combined with the new data as additional data.
  • the selection of the additional data is performed, for example, based on the user's designation or the meta-feature amount of the shared data, and the details will be described later.
  • the information processing device 1 calculates the degree of improvement indicating the degree of improvement in the output accuracy of the second model with respect to the first model. That is, the information processing device 1 calculates the degree of improvement in the accuracy of the output of the second model with respect to the output of the first model by combining the new data with the predetermined additional data as the degree of improvement. .. The details of the improvement degree calculation process will be described later.
  • additional data with a high degree of improvement (improvement in output accuracy) can be presented (recommended) to the user as presentation information based on the degree of improvement. That is, according to the information processing method according to the embodiment, it is possible to provide the user with data (shared data) useful for model learning by calculating the degree of improvement.
  • the information processing device 1 is not limited to presenting additional data as presentation information, and may present the improvement degree information itself to the user. That is, the information processing device 1 presents information on how much the accuracy of the model is improved by adding additional data as presentation information. As a result, the user can easily determine how much the model learning can be improved by the additional data, so that the additional data that is more effective for the user can be added to the new data to perform the model learning.
  • the information processing device 1 can learn in advance an improvement degree model for estimating the improvement degree using the shared data already stored. Will be described later.
  • FIG. 2 is a diagram showing a configuration of an information processing system S according to an embodiment.
  • the information processing system S according to the embodiment includes an information processing device 1 and a plurality of user terminals 100.
  • Network N is a communication network such as LAN (Local Area Network), WAN (Wide Area Network), telephone network (mobile telephone network, fixed telephone network, etc.), regional IP (Internet Protocol) network, and the Internet.
  • the network N may include a wired network or may include a wireless network.
  • the information processing device 1 is, for example, a server device that provides various services to the user terminal 100.
  • the information processing device 1 provides the user terminal 100 with an application related to model learning. Specifically, the information processing device 1 learns a model based on new data received from the user terminal 100, calculates the degree of improvement in the output accuracy of the model, and presents the above-mentioned presentation information to the user terminal 100. To do. The details of various processes executed by the information processing device 1 will be described later.
  • the user terminal 100 is a terminal device used by the user.
  • the user terminal 100 is, for example, a smartphone, a desktop PC (Personal Computer), a notebook PC, a tablet terminal, a mobile phone, a PDA (Personal Digital Assistant), a wearable device (Wearable Device), or the like.
  • the user terminal 100 transmits new data (including shared data) input by the user and various requests to the information processing device 1, and outputs various information received from the information processing device 1 by voice or screen display. ..
  • FIG. 3 is a block diagram showing a configuration example of the information processing device 1 according to the embodiment.
  • the information processing device 1 according to the embodiment includes a communication unit 2, a control unit 3, and a storage unit 4.
  • the communication unit 2 is realized by, for example, a NIC (Network Interface Card) or the like. Then, the communication unit 2 is connected to the predetermined network N by wire or wirelessly, and transmits / receives information to / from the user terminal 100.
  • NIC Network Interface Card
  • the control unit 3 is realized by, for example, a CPU (Central Processing Unit), an MPU (Micro Processing Unit), or the like executing a program stored in the information processing device 1 with a RAM or the like as a work area. Further, the control unit 3 is a controller, and is realized by, for example, an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • control unit 3 includes an acquisition unit 31, a learning unit 32, a calculation unit 33, and a presentation unit 34, and realizes or executes an information processing function or operation described below. ..
  • the internal configuration of the control unit 3 is not limited to the configuration shown in FIG. 3, and may be another configuration as long as it is a configuration for performing information processing described later.
  • the storage unit 4 is realized by, for example, a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk.
  • a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory)
  • flash memory Flash Memory
  • storage device such as a hard disk or an optical disk.
  • the storage unit 4 is realized by, for example, a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk. As shown in FIG. 3, the storage unit 4 according to the embodiment stores the shared data DB 41, the meta feature information 42, and the history information 43.
  • a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory)
  • flash memory Flash Memory
  • FIG. 3 the storage unit 4 according to the embodiment stores the shared data DB 41, the meta feature information 42, and the history information 43.
  • the shared data DB 41 is a database including a plurality of shared data generated based on new data acquired from the user. The shared data generation process will be described later in FIG.
  • the meta feature information 42 is information regarding the feature amount of the data. Specifically, the meta feature information 42 includes information on the meta feature amount calculated from new data and shared data. The calculation process of the meta feature amount will be described later in FIG.
  • the history information 43 is information on the user's behavior history with respect to the shared data included in the shared data DB 41. Specifically, the history information 43 is information on the action history performed by the user with respect to the shared data in order to learn the second model described later. For example, the number of searches (search hits) of the shared data and the number of search hits are used. Adopted the number of times shared data was viewed, the number of times it was learned as additional data, the number of times the second model was downloaded obtained by learning, the actual operation results of the second model (operation period, number of times of use, etc.), and the second model Information such as evaluation information of shared data by the user who has done so is included.
  • control unit 3 acquisition unit 31, learning unit 32, calculation unit 33, and presentation unit 34.
  • the acquisition unit 31 acquires various data. For example, the acquisition unit 31 acquires new data from the user terminal 100 and generates statistical data based on the new data.
  • the statistical data generation process will be described with reference to FIG.
  • FIG. 4 is a diagram showing a statistical data generation process.
  • the new data is table type data will be described as an example, but the new data may be image data, audio data, graph structure data, or the like.
  • the acquisition unit 31 generates statistical data by performing statistical processing on new data acquired from the user.
  • the statistical data includes items such as "column name”, “data type”, “unique number” and "missing rate”.
  • Column name is information indicating each item name in the new data.
  • the "data type” is information indicating the data type of each item which is a column, and for example, information such as a categorical value, a character string, and a numerical value is input.
  • the "unique number” is information indicating the number of different values of the data of each item which is a column.
  • the "deficiency rate” is information indicating the loss rate of the data of each item which is a column.
  • the statistical data shown in FIG. 4 is an example, for example, the category of data in each column and the summary value of the data in each column (maximum value, minimum value, average value, median value, variance, deviation, etc.).
  • Information such as consolidation candidates between a plurality of table data may be included in the statistical data.
  • the acquisition unit 31 presents the generated statistical data to the user, and accepts confirmation and correction of the statistical data from the user.
  • the acquisition unit 31 may accept explanatory information of new data from the user.
  • the explanatory information may be, for example, text information arbitrarily input by the user or information on the selection result of a plurality of options regarding the explanation of the data.
  • the acquisition unit 31 may generate the analysis result of the explanatory information as statistical data.
  • the acquisition unit 31 corrects the statistical data based on the correction request and presents the corrected statistical data to the user.
  • the acquisition unit 31 receives a notification from the user that the confirmation of the statistical data has been completed, and also receives an instruction as to whether to store the statistical data as shared data or to perform model learning. For example, when the acquisition unit 31 receives a storage instruction to be stored as shared data, the acquisition unit 31 stores the corresponding data in which the statistical data is associated with the new data in the shared data DB 41 as shared data.
  • the acquisition unit 31 when the acquisition unit 31 receives a learning instruction for performing model learning, it receives a specification of a column to be used for model learning and a specification of a column to be output of the model from the new data together with the learning instruction.
  • the acquisition unit 31 outputs the received learning instruction information and the corresponding data to the learning unit 32.
  • learning data the corresponding data for learning the first model described later
  • shared data the corresponding data stored in the shared data DB 41
  • the acquisition unit 31 calculates the feature amount of the statistical data based on the generated statistical data.
  • the acquisition unit 31 calculates, for example, a meta feature amount as a feature amount.
  • the calculation process of the meta-feature amount will be described with reference to FIG.
  • FIG. 5 is a diagram showing the calculation process of the meta feature amount.
  • FIG. 5 shows two statistical data that are connected to each other, and it is assumed that the two statistical data are generated from one new data.
  • the acquisition unit 31 digitizes (meta-characterizes) the data of each column (column name, data type, unique number, loss rate, maximum value and concatenation) in the statistical data. Subsequently, the acquisition unit 31 aggregates the meta-featured numerical values for each column and calculates the meta-feature amount.
  • the meta-feature amount of the column in the first row is [0,1,0,5, ...]. Subsequently, the acquisition unit 31 calculates the meta feature amount for each table (that is, for each statistical data) based on the meta feature amount for each column.
  • the acquisition unit 31 calculates the meta feature amount for each table by performing the sum, average, simple join, etc. of the meta feature amount for each column.
  • the meta-feature amount for each table the column that is the output of the model is excluded.
  • the acquisition unit 31 calculates the meta feature amount for each concatenated table (that is, for each new data or shared data) based on the meta feature amount for each table. For example, the acquisition unit 31 calculates the meta feature amount for each concatenated table by performing the sum, average, simple join, and the like of the meta feature amount for each table.
  • the acquisition unit 31 stores each calculated meta-feature amount as meta-feature information 42 in the storage unit 4.
  • the acquisition unit 31 is not limited to the meta feature amount, and can adopt any feature amount as long as the features of the new data and the shared data are digitized feature amounts.
  • the acquisition unit 31 updates the shared data based on the update data included in the update request.
  • the acquisition unit 31 may perform anonymization processing on the shared data satisfying a predetermined condition and store it in the storage unit 4. For example, when the user specifies the data of a specific column included in the shared data, the acquisition unit 31 anonymizes and stores the data of such a column.
  • the acquisition unit 31 may automatically perform anonymization processing by a predetermined anonymization algorithm (k-anonymization, differential privacy guarantee by Laplace mechanism, etc.). In such a case, the acquisition unit 31 may notify the user that the anonymization process is to be performed.
  • a predetermined anonymization algorithm k-anonymization, differential privacy guarantee by Laplace mechanism, etc.
  • the learning unit 32 learns the model based on the learning instruction acquired by the acquisition unit 31. Any algorithm can be adopted as the learning algorithm of the first model and the second model.
  • the learning unit 32 learns a model that outputs a column specified by a learning instruction. Specifically, the learning unit 32 learns the first model based on the learning data which is new data. More specifically, the learning unit 32 learns the first model using the meta-features of the learning data as explanatory variables and the designated column as the objective variable.
  • the learning unit 32 learns the second model based on the combined data in which the shared data stored in the shared data DB 41 is combined with the learning data as additional data. Specifically, the learning unit 32 calculates the meta-features of the combined data, uses the calculated meta-features as explanatory variables, and learns the second model using the designated column as the objective variable. The learning unit 32 may instruct the acquisition unit 31 to calculate the meta-feature amount of the combined data.
  • FIG. 6 is a diagram showing a join process for generating join data.
  • FIG. 6 shows a case where two additional data are combined for one training data. As the additional data, shared data similar to the learning data is selected, and the selection process will be described later with reference to FIG.
  • FIG. 6 shows a case where the learning unit 32 combines the statistical data of the learning data with the column data of a part of the statistical data of the additional data. Specifically, the column data of the column name "capital" of the additional data 1 and the column data of the column name "product category” of the additional data 2 are combined with the training data.
  • the column data to be combined may be column data selected by the user, or may be column data selected by a predetermined algorithm.
  • the learning unit 32 when the learning data and the additional data are time series data, the learning unit 32 generates additional data for matching with the time series of the learning data when the time series of the learning data and the additional data do not match. And combine. This point will be described with reference to FIG.
  • FIG. 7 is a diagram showing a combination process of the combined data in the case of time series data.
  • FIG. 7 describes a case where the stock prices of companies B and D are combined with the learning data including the stock price information of company A for each time.
  • the column name “time” in the training data and the column name “time” in the additional data are different (the time itself may be different, the time interval may be different, etc.).
  • the learning unit 32 corrects 10 minutes, which is the amount of deviation of the "time” of the additional data, and "time” of the learning data. Align with "time”.
  • the stock price data in each column of the additional data may be corrected by a value corresponding to the correction value of 10 minutes, or the stock price data at the corrected time may be acquired from an external server.
  • the stock price data at 30-minute intervals is interpolated.
  • the stock price data to be interpolated may be the average value of the stock price data before and after, or may be the stock price data acquired from an external server.
  • the learning unit 32 applies a preprocessing called time synchronization to the additional data and combines it with the learning data.
  • time synchronization a preprocessing called time synchronization
  • the learning unit 32 may perform preprocessing for digitizing, for example, image data, audio data, etc. so that it can be handled in the model learning in the subsequent stage.
  • the calculation unit 33 calculates the degree of improvement indicating the degree of improvement in the output accuracy of the second model with respect to the first model. For example, the calculation unit 33 can calculate the difference between the accuracy evaluation indexes of the first model and the second model as the degree of improvement.
  • an index such as a coefficient of determination (R 2 ), RMSE (Root Mean Squared Error), or MAE (Mean Absolute Error) can be used.
  • the calculation unit 33 may calculate the degree of improvement each time the user gives a learning instruction together with new data, or may learn in advance a model for estimating the degree of improvement (improvement model). ..
  • the learning unit 32 first selects pseudo learning data (pseudo-new data) and additional data (pseudo-additional data) from the shared data DB 41, and the pseudo-first model based on the pseudo-new data. And a pseudo second model based on the pseudo additional data.
  • the calculation unit 33 learns the improvement degree model that outputs the improvement degree based on the pseudo improvement degree calculated based on the pseudo first model and the pseudo second model. Specifically, the calculation unit 33 learns the improvement degree model by using the feature amount of the pseudo-th training data and the feature amount of the pseudo-additional data as explanatory variables and the pseudo-improvement degree as the objective variable.
  • the improvement degree calculation process when a predetermined additional data is added can be speeded up by using the improvement degree model.
  • the calculation unit 33 includes information on the user's behavior history (history information 43) for the pseudo-learning data and the pseudo-additional data, output result information of the pseudo-first model and the pseudo-second model, and the like. May be included.
  • Prediction result information is a model of accuracy evaluation index, statistics such as average value and variance of data in each classification when the output of the model is classified into success and failure, and model of each column data in pseudo training data and pseudo additional data. It is information including information such as contribution (importance) to.
  • the presentation unit 34 generates predetermined presentation information based on the degree of improvement calculated by the calculation unit 33 and presents it to the user. For example, when new data is input by the user, the presentation unit 34 generates additional data as presentation information in which the improvement degree estimated by the improvement degree model satisfies a predetermined condition, and presents the additional data to the user. For example, the presentation unit 34 generates and presents additional data whose degree of improvement is equal to or greater than a predetermined threshold value as presentation information.
  • the presentation unit 34 presents additional data that can be expected to improve the output accuracy of the model by adding the data.
  • the presentation unit 34 when the presentation unit 34 generates a plurality of additional data as presentation information and presents it to the user, the presentation unit 34 also generates and presents the recommendation degree information based on the improvement degree.
  • the recommendation degree information is information indicating that the effect of improvement is high by adding data, and is calculated based on, for example, the degree of improvement and the meta-feature amount.
  • the calculation process of the recommendation degree information will be described with reference to FIG.
  • FIG. 8 is a diagram showing a calculation process of recommendation degree information.
  • the upper part of FIG. 8 shows the case where the training data and the additional data are plotted in the two-dimensional meta-feature space. In such a meta-feature space, the more similar the meta-features, the shorter the distance between the data.
  • the calculation unit 33 calculates a predetermined distance index between the learning data and each additional data in the meta-feature amount space.
  • the distance index for example, the Hamming distance, the Euclidean distance, the Mahalanobis distance, or the like can be used.
  • the calculation unit 33 sorts the additional data in ascending order according to the distance index, and selects a predetermined number of additional data having a small distance index (close to the distance).
  • the calculation unit 33 may select additional data whose distance index is equal to or greater than a predetermined value.
  • the additional data selected here is presented to the user as presentation information.
  • the calculation unit 33 estimates the degree of improvement for each column included in the selected additional data by using the degree of improvement model.
  • the learning unit 32 performs model learning, calculation of the degree of improvement, and the like by combining shared data having similar feature amounts with the learning data as additional data.
  • the calculation unit 33 sets the learning data as “u”, the additional data selected by the distance index as “a”, the arbitrary column data in the selected additional data as “b”, and the degree of improvement of the column data as “g”.
  • the recommendation degree index fabb (b, u) of the column data with respect to the training data is calculated by the following formula (1).
  • the presentation unit 34 displays the recommendation degree information for each column data based on the calculated recommendation degree index together with the presentation information.
  • the specific mode of presenting the recommendation level information will be described later with reference to FIG.
  • the presentation unit 34 can efficiently perform model learning because the user can grasp additional data (column data) having a high improvement effect by presenting the recommendation degree information based on the improvement degree to the user. ..
  • the presentation unit 34 may present the recommendation degree information using graph theory, for example. This point will be described with reference to FIG.
  • FIG. 9 is a diagram showing a calculation process of recommendation degree information using graph theory. As shown in FIG. 9, the presentation unit 34 first sets nodes in a predetermined space as additional data based on the feature amount of the additional data and the degree of improvement between the additional data, and sets the nodes having the degree of improvement of the predetermined value or more as additional data. Build a linked graph.
  • the presentation unit 34 constructs a node and a link of the training data on the constructed graph based on the feature amount of the training data and the degree of improvement with each additional data. Then, the presentation unit 34 determines additional data in which the number of links to the learning data is equal to or less than a predetermined number as the target of the recommendation degree information. For example, the presentation unit 34 presents recommendation degree information such that the smaller the number of links, the higher the recommendation degree. For example, as shown in FIG. 9, additional data having two or less links is targeted for recommendation degree information.
  • FIGS. 10 and 11 are diagrams showing an example of the screen display of the user terminal 100.
  • the upper part of FIG. 10 shows a screen on which statistical data received from the information processing device 1 is displayed.
  • the user terminal 100 includes output information 101 regarding the output of the model to be learned, statistical data 102, a search window 103 for searching a specific column in the statistical data, and processing execution buttons 104 and 105. , 106, 107, etc. are displayed.
  • the output information 101 includes column name information (prediction target) that is the output of the model selected by the user, output data type (prediction type), ratio of column data included in new data (prediction value), and the like. Contains information.
  • the statistical data 102 displays the above-mentioned statistical data information. Further, a search window 103 is arranged above the statistical data 102 so that a specific column in the statistical data can be searched.
  • Process execution buttons 104, 105, 106, 107 are display buttons for executing various processes.
  • the process execution button 104 "share this data” is a button that executes a process for storing new data as shared data in the shared data DB 41.
  • the process execution button 105, "additional data search”, is a button for searching for additional data that is expected to improve the output accuracy of the model.
  • the process execution button 106, "Cancel”, is a button for canceling the work.
  • the process execution button 107 “execute learning and evaluation” is a button for executing the learning process (and evaluation process) of the model.
  • the evaluation process is a process of calculating the accuracy evaluation index of the model.
  • the information processing apparatus 1 learns the first model and the second model using the selected column as new data and the output information 101 as the output of the model, and calculates the degree of improvement. Then, the information processing device 1 displays additional data in which the recommendation degree information based on the improvement degree satisfies a predetermined condition as the recommendation result.
  • FIG. 10 shows an example of the recommendation result screen, and shows "stock data set”, “weather data set”, and “product data set” as additional data.
  • the data set indicates that a plurality of column data are included.
  • additional information 110 such as an explanation such as an item example (column) of the additional data is added to each additional data and displayed. That is, when the information processing apparatus 1 presents additional data as presentation information, the information processing apparatus 1 also generates and presents predetermined additional information regarding the additional data.
  • additional information for example, the column name of the additional data, the data size, the statistical data for each column, the element value (representative value, histogram, etc.) of each column in the additional data, and other users in the past for the additional data.
  • Information such as the preprocessing method used by the user, the evaluation of other users who actually used the additional data, the number of views, the number of learning executions, and the number of model operations is displayed.
  • an additional button 111 for adding additional data an execution button 112 for adding recommended additional data and executing model learning, and a free of charge selected according to a predetermined condition are provided.
  • FIG. 11 shows a screen displayed on the user terminal 100 when the add button 111 is pressed.
  • the “recommendation degree” is the above-mentioned recommendation degree information and is expressed by the number of stars. In FIG. 11, the higher the recommendation degree index described above, the larger the number of stars.
  • the column name "product category” is selected by the user (in a checked state), and when the user presses the add button 122 in this state, the column data "product category” is used as additional data. It is added to the training data.
  • FIGS. 12 to 14 are flowcharts showing a processing procedure of processing executed by the information processing apparatus 1 according to the embodiment.
  • FIG. 12 shows the registration process of the shared data executed by the information processing device 1
  • FIG. 13 shows the presentation process of the presentation information
  • FIG. 14 shows the learning process of the improvement degree model.
  • control unit 3 of the information processing device 1 acquires new data from the user terminal 100 (step S101).
  • control unit 3 calculates the statistical data of the acquired new data (step S102) and presents the statistical data to the user terminal 100 (step S103).
  • control unit 3 receives a registration request from the user terminal 100 to register new data as shared data (step S104).
  • the control unit 3 corrects the statistical data as necessary when there is a request for correction of the statistical data.
  • control unit 3 performs anonymization processing on the new data and the data included in the statistical data, if necessary, according to a predetermined anonymization algorithm or a designation from the user (step S105).
  • control unit 3 stores the corresponding data associated with the new data and the statistical data as the shared data in the shared data DB 41 (step S106), and ends the registration process.
  • control unit 3 acquires new data from the user terminal 100 (step S201).
  • control unit 3 accepts the designation of the output target of the models (first model and second model) to be learned based on the new data (step S202).
  • control unit 3 calculates the statistical data based on the new data to generate the learning data which is the corresponding data in which the statistical data and the new data are associated with each other (step S203).
  • control unit 3 calculates the meta feature amount, which is the feature amount of the learning data (step S204).
  • control unit 3 learns the first model using the training data as the explanatory variable and the output target specified in step S202 as the objective variable (step S205).
  • control unit 3 selects shared data having similar meta-features as the training data as additional data (step S206).
  • control unit 3 learns a second model in which the combined data obtained by combining the training data with the additional data is used as the explanatory variable and the output target specified in step S202 is the objective variable (step S207).
  • control unit 3 calculates the degree of improvement indicating the degree of improvement in the output accuracy of the second model with respect to the first model (step S208).
  • control unit 3 presents predetermined presentation information based on the calculated improvement degree to the user (step S209), and ends the presentation process.
  • control unit 3 calculates the meta feature amount of the shared data included in the shared data DB 41 stored in the storage unit 4 (step S301).
  • control unit 3 selects shared data to be pseudo new data (pseudo new data) from the shared data DB 41, and is based on the meta-feature amount of the shared data which is the selected pseudo new data.
  • the shared data to be the pseudo additional data is selected (step S302).
  • control unit 3 learns a pseudo first model (pseudo first model) based on the pseudo new data, and a pseudo second model (pseudo second model) based on the pseudo new data and the pseudo additional data.
  • the model is learned (step S303).
  • control unit 3 calculates the pseudo improvement degree based on the pseudo first model and the pseudo second model (step S304).
  • control unit 3 acquires the history information 43 of the pseudo new data and the pseudo additional data (step S305).
  • control unit 3 uses the meta-feature amount of the pseudo-new data, the meta-feature amount of the pseudo-additional data, the accuracy evaluation index information of the pseudo-first model and the pseudo-second model, and the history information 43 as explanatory variables for pseudo-improvement.
  • the improvement degree model with the degree as the objective variable is learned (step S306), and the process is terminated.
  • FIG. 15 is a block diagram showing an example of the hardware configuration of the information processing device 1 according to the present embodiment.
  • the information processing device 1 includes a CPU (Central Processing Unit) 901, a ROM (Read Only Memory) 902, a RAM (Random Access Memory) 903, a host bus 905, a bridge 907, an external bus 906, and an interface 908. , Input device 911, output device 912, storage device 913, drive 914, connection port 915, and communication device 916.
  • the information processing device 1 may include a processing circuit such as an electric circuit, a DSP, or an ASIC in place of or in combination with the CPU 901.
  • the CPU 901 functions as an arithmetic processing device and a control device, and controls the overall operation in the information processing device 1 according to various programs. Further, the CPU 901 may be a microprocessor.
  • the ROM 902 stores programs, calculation parameters, and the like used by the CPU 901.
  • the RAM 903 temporarily stores a program used in the execution of the CPU 901, parameters that are appropriately changed in the execution, and the like.
  • the CPU 901 may execute the functions of the acquisition unit 31, the learning unit 32, the calculation unit 33, and the presentation unit 34, for example.
  • the CPU 901, ROM 902 and RAM 903 are connected to each other by a host bus 905 including a CPU bus and the like.
  • the host bus 905 is connected to an external bus 906 such as a PCI (Peripheral Component Interconnect / Interface) bus via a bridge 907.
  • the host bus 905, the bridge 907, and the external bus 906 do not necessarily have to be separately configured, and these functions may be implemented in one bus.
  • the input device 911 is a device in which information is input by a user such as a mouse, a keyboard, a touch panel, a button, a microphone, a switch, or a lever.
  • the input device 911 may be a remote control device using infrared rays or other radio waves, or may be an externally connected device such as a mobile phone or a PDA that supports the operation of the information processing device 1.
  • the input device 911 may include, for example, an input control circuit that generates an input signal based on the information input by the user using the above input means.
  • the output device 912 is a device capable of visually or audibly notifying the user of information.
  • the output device 912 is, for example, a display device such as a CRT (Cathode Ray Tube) display device, a liquid crystal display device, a plasma display device, an EL (ElectroLuminence) display device, a laser projector, an LED (Light Emitting Diode) projector, or a lamp. It may be an audio output device such as a speaker or a headphone.
  • the output device 912 may output, for example, the results obtained by various processes by the information processing device 1. Specifically, the output device 912 may visually display the results obtained by various processes by the information processing device 1 in various formats such as texts, images, tables, and graphs. Alternatively, the output device 912 may convert an audio signal such as audio data or acoustic data into an analog signal and output it audibly.
  • the storage device 913 is a data storage device formed as an example of the storage unit of the information processing device 1.
  • the storage device 913 may be realized by, for example, a magnetic storage device such as an HDD (Hard Disk Drive), a semiconductor storage device, an optical storage device, a magneto-optical storage device, or the like.
  • the storage device 913 may include a storage medium, a recording device that records data on the storage medium, a reading device that reads data from the storage medium, a deleting device that deletes the data recorded on the storage medium, and the like.
  • the storage device 913 may store a program executed by the CPU 901, various data, various data acquired from the outside, and the like.
  • the drive 914 is a reader / writer for a storage medium, and is built in or externally attached to the information processing device 1.
  • the drive 914 reads information recorded on a removable storage medium such as a mounted magnetic disk, optical disk, magneto-optical disk, or semiconductor memory, and outputs the information to the RAM 903.
  • the drive 914 can also write information to the removable storage medium.
  • connection port 915 is an interface connected to an external device.
  • the connection port 915 is a connection port capable of transmitting data to an external device, and may be, for example, USB (Universal Serial Bus).
  • the communication device 916 is, for example, an interface formed by a communication device or the like for connecting to the network N.
  • the communication device 916 may be, for example, a communication card for a wired or wireless LAN (Local Area Network), LTE (Long Term Evolution), Bluetooth (registered trademark), WUSB (Wireless USB), or the like.
  • the communication device 916 may be a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), a modem for various communications, or the like.
  • the communication device 916 can send and receive signals and the like to and from the Internet or other communication devices in accordance with a predetermined protocol such as TCP / IP.
  • the network 40 is a wired or wireless transmission line for information.
  • the network 40 may include a public network such as the Internet, a telephone line network or a satellite communication network, various LANs (Local Area Network) including Ethernet (registered trademark), WAN (Wide Area Network), and the like.
  • the network 40 may include a dedicated line network such as IP-VPN (Internet Protocol-Virtual Private Network).
  • a computer program for exerting the same functions as each configuration of the information processing device 1 according to the above-described embodiment is also created for the hardware such as the CPU, ROM, and RAM built in the information processing device 1. It is possible. It is also possible to provide a storage medium in which the computer program is stored.
  • the information processing program may be stored in a disk device provided in a server device on a network such as the Internet so that it can be downloaded to a computer or the like.
  • the above-mentioned functions may be realized by the collaboration between the OS (Operating System) and the application software.
  • the part other than the OS may be stored in a medium and distributed, or the part other than the OS may be stored in the server device so that it can be downloaded to a computer or the like.
  • each component of each device shown in the figure is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or part of the device is functionally or physically dispersed / physically distributed in arbitrary units according to various loads and usage conditions. Can be integrated and configured.
  • the information processing device 1 includes a learning unit 32, a calculation unit 33, and a presentation unit 34.
  • the learning unit 32 combines the first model based on predetermined new data acquired from the terminal device (user terminal 100) possessed by the user and the shared data stored in advance in the storage unit 4 as additional data and combined with the new data. Learn with a second model based on data.
  • the calculation unit 33 calculates the degree of improvement indicating the degree of improvement in the output accuracy of the second model with respect to the first model.
  • the presentation unit 34 generates predetermined presentation information based on the degree of improvement calculated by the calculation unit 33.
  • the learning unit 32 combines shared data having similar features with new data as additional data.
  • the learning unit 32 selects pseudo-new data and pseudo-additional data from the shared data stored in the storage unit 4, and obtains a pseudo-first model based on the pseudo-new data and a pseudo-second model based on the pseudo-additional data. To learn.
  • the calculation unit 33 learns an improvement degree model that outputs an improvement degree based on the pseudo improvement degree calculated based on the pseudo first model and the pseudo second model.
  • the model that outputs the degree of improvement can be learned in advance, so that it is not necessary to learn the first model and the second model and calculate the degree of improvement each time new data is input, so that the processing load of model learning Can be reduced.
  • the calculation unit 33 learns the improvement degree model with the feature amount of the pseudo new data and the feature amount of the pseudo additional data as explanatory variables and the pseudo improvement degree as the objective variable.
  • the improvement degree model based on the feature amount can be learned, so that a highly accurate model can be generated.
  • the calculation unit 33 further includes information on the user's behavior history with respect to the pseudo new data and the pseudo additional data as explanatory variables.
  • the presentation unit 34 generates additional data as presentation information whose degree of improvement satisfies a predetermined condition.
  • the presentation unit 34 When a plurality of additional data are generated as presentation information, the presentation unit 34 also generates recommendation degree information based on the improvement degree.
  • the presentation unit 34 When generating additional data as presentation information, the presentation unit 34 also generates predetermined additional information regarding the additional data.
  • the additional information can be viewed as a judgment material when the user adds the additional data, so that the user can easily select the additional data desired.
  • New data and additional data are time series data.
  • the learning unit 32 When the time series of the new data and the additional data do not match, the learning unit 32 generates and combines additional data for matching with the time series of the new data.
  • the time series of the data of the first model and the second model can be aligned, so that the accuracy of the degree of improvement calculated from the first model and the second model can be improved.
  • the information processing device 1 further includes an acquisition unit 31 that acquires new data as shared data from the user terminal 100.
  • the shared data DB 41 is updated (added and updated) as needed, so that the accuracy of the model learning process using the shared data and the improvement degree calculation process can be improved.
  • the acquisition unit 31 performs anonymization processing on the shared data satisfying a predetermined condition and stores it in the storage unit 4.
  • the learning unit 32 performs a predetermined preprocessing on the additional data and then combines it with the new data.
  • the optimum preprocessing can be applied to the additional data when performing model learning, so that the accuracy of model learning can be improved.
  • the present technology can also have the following configurations.
  • (1) The first model based on predetermined new data acquired from the terminal device possessed by the user and the second model based on the combined data combined with the shared data stored in advance in the storage unit as additional data are learned.
  • a calculation unit that calculates the degree of improvement indicating the degree of improvement in the output accuracy of the second model with respect to the first model.
  • An information processing device including a presentation unit that generates presentation information based on the degree of improvement calculated by the calculation unit.
  • the learning unit The shared data having similar features to the new data is combined as the additional data.
  • the information processing device according to (1) above.
  • the learning unit Pseudo-new data and pseudo-additional data are selected from the shared data stored in the storage unit, and a pseudo-first model based on the pseudo-new data and a pseudo-second model based on the pseudo-additional data are learned. death,
  • the calculation unit Learn an improvement degree model that outputs the improvement degree based on the pseudo improvement degree calculated based on the pseudo first model and the pseudo second model.
  • the information processing device according to (1) or (2) above.
  • the calculation unit The improvement degree model is learned by using the feature amount of the pseudo-new data and the feature amount of the pseudo-additional data as explanatory variables and the pseudo-improvement degree as an objective variable.
  • the information processing device according to (3) above.
  • the calculation unit Information on the user's behavior history with respect to the pseudo-new data and the pseudo-additional data is further included as the explanatory variable.
  • the presentation unit The additional data whose degree of improvement satisfies a predetermined condition is generated as the presentation information.
  • the presentation unit When a plurality of the additional data are generated as the presentation information, the recommendation degree information based on the improvement degree is also generated.
  • the new data and the additional data are time series data and are The learning unit When the time series of the new data and the additional data do not match, the additional data for matching with the time series of the new data is generated and combined.
  • the information processing device according to any one of (1) to (8).
  • An acquisition unit that acquires the new data as the shared data from the terminal device is further provided.
  • the information processing device according to any one of (1) to (9) above.
  • (11) The acquisition unit
  • the information processing device according to (10), wherein the shared data satisfying a predetermined condition is subjected to anonymization processing and stored in the storage unit.
  • the learning unit After performing a predetermined preprocessing on the additional data, it is combined with the new data.
  • the information processing device according to any one of (1) to (11).
  • the first model based on predetermined new data acquired from the terminal device possessed by the user and the second model based on the combined data combined with the shared data stored in advance in the storage unit as additional data are learned. Learning process and A calculation step for calculating the degree of improvement indicating the degree of improvement in the output accuracy of the second model with respect to the first model, and An information processing method including a presentation unit that generates presentation information based on the degree of improvement calculated by the calculation step. (14) The first model based on predetermined new data acquired from the terminal device possessed by the user and the second model based on the combined data combined with the shared data stored in advance in the storage unit as additional data are learned.
  • Information processing device 1 Information processing device 2 Communication unit 3 Control unit 4 Storage unit 31 Acquisition unit 32 Learning unit 33 Calculation unit 34 Presentation unit 100 User terminal

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

情報処理装置(1)は、学習部(32)と、算出部(33)と、提示部(34)とを備える。学習部(32)は、ユーザが所持する端末装置(100)から取得した所定の新規データに基づく第1モデルと、記憶部(4)に予め記憶された共有データを追加データとして新規データに結合した結合データに基づく第2モデルとを学習する。算出部(33)は、第1モデルに対する第2モデルの出力精度の改善度合いを示す改善度を算出する。提示部(34)は、算出部(33)によって算出された改善度に基づいた所定の提示情報を生成する。

Description

情報処理装置、情報処理方法および情報処理プログラム
 本開示は、情報処理装置、情報処理方法および情報処理プログラムに関する。
 従来、サーバに登録された複数のデータセットの中から、ユーザが保持しているデータに類似したデータセットを提供する技術がある(例えば、特許文献1参照)。例えば、ユーザは、提供されたデータセットを、自身のデータに追加して予測モデル等を学習する。
特表2019-507444号公報
 しかしながら、従来技術は、ユーザのデータに類似したデータセットを提供しているに過ぎないため、提供されたデータセットがモデルを学習する上で有用であるか否かはわからなかった。
 そこで、本開示では、モデル学習に有用なデータを提示することができる情報処理装置、情報処理方法および情報処理プログラムを提案する。
 上記の課題を解決するために、本開示に係る一形態の情報処理装置は、学習部と、算出部と、提示部とを備える。前記学習部は、ユーザが所持する端末装置から取得した所定の新規データに基づく第1モデルと、記憶部に予め記憶された共有データを追加データとして前記新規データに結合した結合データに基づく第2モデルとを学習する。前記算出部は、前記第1モデルに対する前記第2モデルの出力精度の改善度合いを示す改善度を算出する。前記提示部は、前記算出部によって算出された前記改善度に基づいた提示情報を生成する。
実施形態に係る情報処理方法の概要を示す図である。 実施形態に係る情報処理方法の概要を示す図である。 実施形態に係る情報処理システムの構成例を示す図である。 実施形態に係る情報処理装置の構成例を示すブロック図である。 統計データの生成処理を示す図である。 メタ特徴量の算出処理を示す図である。 結合データを生成するための結合処理を示す図である。 時系列データである場合の結合データの結合処理を示す図である。 推薦度情報の算出処理を示す図である。 グラフ理論を用いた推薦度情報の算出処理を示す図である。 ユーザ端末の画面表示の一例を示す図である。 ユーザ端末の画面表示の一例を示す図である。 実施形態に係る情報処理装置が実行する処理の処理手順を示すフローチャートである。 実施形態に係る情報処理装置が実行する処理の処理手順を示すフローチャートである。 実施形態に係る情報処理装置が実行する処理の処理手順を示すフローチャートである。 本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。
<実施形態に係る情報処理方法の概要>
 図1Aおよび図1Bは、実施形態に係る情報処理方法の概要を示す図である。実施形態に係る情報処理方法は、情報処理装置1によって実行される。図1Aに示すように、実施形態に係る情報処理装置1は、共有データデータベース(DB)を予め記憶部に記憶しており、ユーザ(ユーザ端末)から受け付けた新規データと、共有データDBに記憶された共有データとに基づいて、所定の提示情報を生成しユーザへ提示する。
 具体的には、情報処理装置1は、新規データと共有データとを結合した結合データに基づき学習したモデルの出力精度の改善度合いを示す改善度に基づいた提示情報を生成し、ユーザ(後述するユーザ端末100)へ提示する。
 ここで、図1Bを用いて、改善度の算出処理について説明する。図1Bに示すように、情報処理装置1は、まず、ユーザから取得した新規データに基づいて第1モデルを学習(生成)する。
 つづいて、情報処理装置1は、共有データDBの中から選択した共有データを追加データとして新規データに結合した結合データに基づいて第2モデルを学習(生成)する。なお、追加データの選択は、例えば、ユーザによる指定や、共有データのメタ特徴量に基づいて行われるが、詳細については後述する。
 そして、情報処理装置1は、第1モデルに対する第2モデルの出力精度の改善度合いを示す改善度を算出する。つまり、情報処理装置1は、新規データに所定の追加データを結合することにより、第1モデルの出力に対して第2モデルの出力の精度がどの程度改善したかの度合いを改善度として算出する。なお、改善度の算出処理の詳細については後述する。
 これにより、例えば、改善度に基づいた提示情報として、改善度が高い(出力精度が向上する)追加データをユーザに提示(推薦)することができる。すなわち、実施形態に係る情報処理方法によれば、改善度を算出することで、ユーザに対してモデル学習に有用なデータ(共有データ)を提供することができる。
 なお、情報処理装置1は、追加データを提示情報として提示する場合に限らず、改善度の情報そのものをユーザへ提示してもよい。つまり、情報処理装置1は、追加データを追加することでモデルの精度がどの程度改善するかの情報を提示情報として提示する。これにより、ユーザは追加データによりどの程度モデル学習の改善が見込めるかを容易に判断できるため、ユーザにとってより効果的な追加データを新規データに追加してモデル学習を行うことができる。
 なお、情報処理装置1は、処理負荷軽減のため、既に記憶している共有データを用いて、改善度を推定する改善度モデルを予めに学習しておくことができるが、かかる点の詳細については後述する。
<実施形態に係る情報処理システムの構成>
 次に、図2を用いて、上述した情報処理装置1を含む情報処理システムの構成について説明する。図2は、実施形態に係る情報処理システムSの構成を示す図である。図2に示すように、実施形態に係る情報処理システムSは、情報処理装置1と、複数のユーザ端末100とを含む。
 情報処理装置1および複数のユーザ端末100は、ネットワークNを介して接続される。ネットワークNは、LAN(Local Area Network)、WAN(Wide Area Network)、電話網(携帯電話網、固定電話網等)、地域IP(Internet Protocol)網、インターネット等の通信ネットワークである。ネットワークNには、有線ネットワークが含まれていてもよいし、無線ネットワークが含まれていてもよい。
 情報処理装置1は、例えば、ユーザ端末100に対して各種サービスを提供するサーバ装置である。例えば、情報処理装置1は、ユーザ端末100に対してモデル学習に関するアプリケーションを提供する。具体的には、情報処理装置1は、ユーザ端末100から受信した新規データに基づいてモデルを学習したり、モデルの出力精度の改善度を算出したり、上述した提示情報をユーザ端末100へ提示したりする。なお、情報処理装置1が実行する各種処理の詳細については後述する。
 ユーザ端末100は、ユーザによって利用される端末装置である。ユーザ端末100は、例えば、スマートフォン、デスクトップ型PC(Personal Computer)、ノート型PC、タブレット型端末、携帯電話機、PDA(Personal Digital Assistant)、ウェアラブルデバイス(Wearable Device)等である。ユーザ端末100は、ユーザによって入力された新規データ(共有データ含む)や、各種要求を情報処理装置1へ送信したり、情報処理装置1から受信した各種情報を音声や画面表示により出力したりする。
<実施形態に係る情報処理装置の構成>
 次に、図3を用いて、実施形態に係る情報処理装置1の構成例について説明する。図3は、実施形態に係る情報処理装置1の構成例を示すブロック図である。図3に示すように、実施形態に係る情報処理装置1は、通信部2と、制御部3と、記憶部4とを備える。
 通信部2は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部2は、所定のネットワークNと有線または無線で接続され、ユーザ端末100との間で情報の送受信を行う。
 制御部3は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置1内部に記憶されたプログラムがRAM等を作業領域として実行されることにより実現される。また、制御部3は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。 
 図3に示すように、制御部3は、取得部31と、学習部32と、算出部33と、提示部34とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部3の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
 記憶部4は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
 記憶部4は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部4は、図3に示すように、共有データDB41と、メタ特徴情報42と、履歴情報43とを記憶する。
<共有データDB>
 共有データDB41は、ユーザから取得した新規データに基づいて生成した共有データを複数含むデータベースである。なお、共有データの生成処理については、図4で後述する。
<メタ特徴情報>
 メタ特徴情報42は、データの特徴量に関する情報である。具体的には、メタ特徴情報42には、新規データや共有データから算出したメタ特徴量の情報が含まれる。なお、メタ特徴量の算出処理については、図5で後述する。
<履歴情報>
 履歴情報43は、共有データDB41に含まれる共有データに対するユーザの行動履歴の情報である。具体的には、履歴情報43は、後述する第2モデルを学習するために共有データに対してユーザが行った行動履歴の情報であり、例えば、共有データの検索回数(検索ヒット数)や、共有データの閲覧回数、追加データとして学習された回数、学習して得られた第2モデルのダウンロード回数、実際の第2モデルの運用実績(運用期間や、使用回数等)、第2モデルを採用したユーザによる共有データの評価情報等の情報が含まれる。
<制御部>
 次に、制御部3の各機能(取得部31、学習部32、算出部33および提示部34)について説明する。
 取得部31は、各種データを取得する。例えば、取得部31は、ユーザ端末100から新規データを取得し、新規データに基づいて統計データを生成する。ここで、図4を用いて、統計データの生成処理について説明する。
 図4は、統計データの生成処理を示す図である。なお、図4では、新規データがテーブル型のデータである場合を例に挙げて説明するが、新規データは、画像データや、音声データ、グラフ構造データ等であってもよい。
 図4に示すように、取得部31は、ユーザから取得した新規データに対して統計処理を施すことで統計データを生成する。図4に示す例では、統計データは、「カラム名」、「データタイプ」、「ユニーク数」および「欠損率」といった項目を含む。
 「カラム名」は、新規データにおける各項目名を示す情報である。「データタイプ」は、カラムである各項目のデータの型を示す情報であり、例えば、カテゴリカル値や、文字列、数値といった情報が入力される。「ユニーク数」は、カラムである各項目のデータの異なる値の数を示す情報である。「欠損率」は、カラムである各項目のデータの欠損率を示す情報である。
 なお、図4に示す統計データは一例であって、例えば、各カラムにおけるデータのカテゴリや、各カラムにおけるデータの要約値(最大値や、最小値、平均値、中央値、分散、偏差等)、複数のテーブルデータ間における連結候補等の情報が統計データに含まれてもよい。
 そして、取得部31は、生成した統計データをユーザへ提示し、統計データの確認および訂正をユーザから受け付ける。なお、取得部31は、ユーザから新規データの説明情報を受け付けてもよい。説明情報は、例えば、ユーザによって任意に入力されたテキスト情報や、データの説明に関する複数の選択肢の選択結果の情報であってもよい。例えば、取得部31は、説明情報の解析結果を統計データとして生成してもよい。
 そして、取得部31は、ユーザから統計データの訂正要求があった場合、訂正要求に基づいて統計データを訂正し、訂正後の統計データをユーザへ提示する。
 また、取得部31は、ユーザから統計データの確認完了の通知を受け付けるとともに、共有データとして記憶するか、モデル学習を行うかの指示を受け付ける。例えば、取得部31は、共有データとして記憶する記憶指示を受け付けた場合、新規データに統計データを対応付けた対応データを共有データとして共有データDB41に格納する。
 一方、取得部31は、モデル学習を行う学習指示を受け付ける場合、新規データの中から、モデル学習に用いるカラムの指定およびモデルの出力となるカラムの指定を学習指示とともに受け付ける。取得部31は、受け付けた学習指示の情報および対応データを学習部32へ出力する。なお、以下では、後述する第1モデルを学習するための対応データを「学習データ」と称し、共有データDB41に格納された対応データを「共有データ」と称する。
 また、取得部31は、生成した統計データに基づいて統計データの特徴量を算出する。取得部31は、例えば、特徴量としてメタ特徴量を算出する。ここで、図5を用いて、メタ特徴量の算出処理について説明する。
 図5は、メタ特徴量の算出処理を示す図である。図5では、互いに連結関係にある2つの統計データを示しており、この2つの統計データは、1つの新規データから生成されることとする。
 まず、取得部31は、統計データにおける各列(カラム名、データタイプ、ユニーク数、欠損率、最大値および連結)のデータを数値化(メタ特徴化)する。つづいて、取得部31は、メタ特徴化された数値をカラム毎に集約してメタ特徴量を算出する。
 図5に示す例では、例えば、1行目のカラムのメタ特徴量は、[0,1,0,5,・・・]となる。つづいて、取得部31は、カラム毎のメタ特徴量に基づいて、テーブル毎(すなわち、統計データ毎)のメタ特徴量を算出する。
 例えば、取得部31は、カラム毎のメタ特徴量の和や、平均、単純結合等を行うことでテーブル毎のメタ特徴量を算出する。なお、テーブル毎のメタ特徴量では、モデルの出力となるカラムは除かれる。
 つづいて、取得部31は、テーブル毎のメタ特徴量に基づいて、連結テーブル毎(すなわち、新規データまたは共有データ毎)のメタ特徴量を算出する。例えば、取得部31は、テーブル毎のメタ特徴量の和や、平均、単純結合等を行うことで連結テーブル毎のメタ特徴量を算出する。
 取得部31は、算出した各メタ特徴量をメタ特徴情報42として記憶部4に記憶する。なお、取得部31は、メタ特徴量に限らず、新規データおよび共有データの特徴が数値化された特徴量であれば任意の特徴量を採用可能である。
 なお、取得部31は、既に記憶部4に記憶された共有データについて、ユーザ端末100から更新要求があった場合に、更新要求に含まれる更新データに基づいて共有データを更新する。
 また、取得部31は、所定の条件を満たす共有データに対して匿名化処理を施して記憶部4に記憶するようにしてもよい。例えば、取得部31は、共有データに含まれる特定のカラムのデータの指定がユーザからあった場合、かかるカラムのデータを匿名化して記憶する。
 あるいは、取得部31は、所定の匿名化アルゴリズム(k-匿名化、ラプラスメカニズムによる差分プライバシー保証等)により自動で匿名化処理を施してもよい。なお、かかる場合、取得部31は、匿名化処理を行う旨をユーザへ通知するようにしてもよい。
 学習部32は、取得部31によって取得された学習指示に基づいてモデルを学習する。なお、第1モデルおよび第2モデルの学習アルゴリズムは、任意のアルゴリズムを採用可能である。
 学習部32は、学習指示によって指定されたカラムを出力とするモデルを学習する。具体的には、学習部32は、新規データである学習データに基づいて第1モデルを学習する。より具体的には、学習部32は、学習データのメタ特徴量を説明変数とし、指定されたカラムを目的変数として第1モデルを学習する。
 また、学習部32は、共有データDB41に格納された共有データを追加データとして学習データに結合した結合データに基づいて第2モデルを学習する。具体的には、学習部32は、結合データのメタ特徴量を算出し、算出したメタ特徴量を説明変数とし、指定されたカラムを目的変数として第2モデルを学習する。なお、学習部32は、結合データのメタ特徴量の算出を取得部31に指示してもよい。
 ここで、図6を用いて、結合データの結合処理について説明する。図6は、結合データを生成するための結合処理を示す図である。図6では、1つの学習データに対して2つの追加データを結合する場合を示す。なお、追加データは、学習データに類似する共有データが選択されるが、かかる選択処理については、図8で後述する。
 図6では、学習部32は、学習データの統計データに追加データの統計データの一部のカラムデータを結合する場合を示している。具体的には、追加データ1のカラム名「資本金」のカラムデータと、追加データ2のカラム名「製品カテゴリ」のカラムデータとを学習データに結合する。なお、結合するカラムデータは、ユーザによって選択されたカラムデータであってもよく、所定のアルゴリズムによって選定されたカラムデータであってもよい。
 なお、学習部32は、学習データおよび追加データが時系列のデータである場合において、学習データおよび追加データの時系列が一致しない場合、学習データの時系列と一致させるための追加データを生成して結合する。かかる点について、図7を用いて説明する。
 図7は、時系列データである場合の結合データの結合処理を示す図である。図7では、時刻毎のA社の株価の情報を含む学習データに対して、B社およびD社の株価を結合する場合について説明する。なお、図7において、学習データにおけるカラム名「時刻」と、追加データにおけるカラム名「時刻」とが異なる(時刻自体が異なる場合や、時間間隔が異なる場合等がある)こととする。
 例えば、学習部32は、学習データの「時刻」と追加データの「時刻」とが10分ずれている場合、追加データの「時刻」のズレ量である10分を補正し、学習データの「時刻」に揃える。かかる場合、追加データの各カラムの株価データは、補正値である10分に応じた値で補正してもよく、あるいは、外部サーバから補正後の時刻における株価データを取得してもよい。
 また、例えば、学習データの「時刻」が30分間隔であるのに対し、追加データの「時刻」が60分間隔である場合、30分間隔の株価データを補間する。例えば、補間する株価データは、前後の株価データの平均値であってもよく、あるいは、外部サーバから取得した株価データであってもよい。
 すなわち、学習部32は、時刻同期という前処理を追加データに施して学習データに結合させる。このように、追加データを時刻同期して学習データに結合することで、学習結果として生成される第2モデルの精度を向上させることができる。
 なお、学習部32は、前処理として、時刻同期以外に、例えば、画像データや音声データ等では、後段のモデル学習で扱えるように数値化する前処理を施してもよい。
 図3に戻って、算出部33について説明する。算出部33は、第1モデルに対する第2モデルの出力精度の改善度合いを示す改善度を算出する。例えば、算出部33は、第1モデルおよび第2モデルの精度評価指標の差異を改善度として算出することができる。
 なお、精度評価指標は、例えば、決定係数(R)や、RMSE(Root Mean Squared Error)、MAE(Mean Absolute Error)等の指標を用いることができる。
 なお、算出部33は、ユーザから新規データとともに学習指示がある毎に、改善度を算出してもよく、あるいは、改善度を推定するモデル(改善度モデル)を予め学習しておいてもよい。
 具体的には、学習部32は、まず、共有データDB41の中から、疑似的に学習データ(疑似新規データ)および追加データ(疑似追加データ)を選択し、疑似新規データに基づく疑似第1モデルと、前記疑似追加データに基づく疑似第2モデルとを学習する。
 そして、算出部33は、疑似第1モデルおよび疑似第2モデルに基づき算出した疑似改善度に基づいて、改善度を出力とする改善度モデルを学習する。具体的には、算出部33は、疑似第学習データの特徴量および疑似追加データの特徴量を説明変数とし、疑似改善度を目的変数として改善度モデルを学習する。
 これにより、ユーザによって新規データが入力された場合に、改善度モデルを用いることで、所定の追加データを追加した場合における改善度の算出処理を高速化できる。
 なお、算出部33は、改善度モデルの説明変数として、疑似学習データおよび疑似追加データに対するユーザの行動履歴の情報(履歴情報43)や、疑似第1モデルおよび疑似第2モデルの出力結果情報等を含ませてもよい。予測結果情報とは、精度評価指標や、モデルの出力を成功および失敗に分類した場合、各分類におけるデータの平均値や分散等の統計量、疑似学習データおよび疑似追加データにおける各カラムデータのモデルに対する寄与度(重要度)等の情報を含んだ情報である。
 提示部34は、算出部33によって算出された改善度に基づいた所定の提示情報を生成し、ユーザへ提示する。例えば、提示部34は、ユーザによって新規データが入力された場合に、改善度モデルで推定された改善度が所定の条件を満たす追加データを提示情報として生成し、ユーザへ提示する。例えば、提示部34は、改善度が所定の閾値以上の追加データを提示情報として生成し、提示する。
 つまり、提示部34は、新規データを基にモデルを学習する場合、データを追加することでモデルの出力精度の改善が見込める追加データを提示する。
 また、提示部34は、複数の追加データを提示情報として生成してユーザへ提示する場合、改善度に基づく推薦度情報を併せて生成し、提示する。推薦度情報は、データを追加することで改善の効果が高いことを示す情報であり、例えば、改善度およびメタ特徴量に基づいて算出される。ここで、図8を用いて、推薦度情報の算出処理について説明する。
 図8は、推薦度情報の算出処理を示す図である。図8の上段では、2次元のメタ特徴量空間に学習データおよび追加データをプロットした場合を示している。かかるメタ特徴量空間では、メタ特徴量が類似するほど、データ間の距離が短くなることとする。
 図8に示すように、まず、算出部33は、メタ特徴量空間において、学習データと各追加データとの所定の距離指標を算出する。距離指標は、例えば、ハミング距離や、ユークリッド距離、マハラノビス距離等を用いることができる。
 つづいて、算出部33は、追加データを距離指標により昇順でソートし、距離指標が小さい(距離が近い)所定数の追加データを選択する。なお、算出部33は、距離指標が所定値以上の追加データを選択するようにしてもよい。ここで選択された追加データが提示情報としてユーザへ提示される。
 さらに、算出部33は、改善度モデルを用いて、選択した追加データに含まれるカラム毎に改善度を推定する。換言すれば、学習部32は、学習データと特徴量が類似する共有データを追加データとして結合することで、モデル学習や、改善度の算出等を行う。そして、算出部33は、学習データを「u」、距離指標により選択した追加データを「a」、選択した追加データにおける任意のカラムデータを「b」、かかるカラムデータの改善度を「g」とした場合に、学習データに対するカラムデータの推薦度指標fabb(b,u)を、下記式(1)により算出する。
Figure JPOXMLDOC01-appb-M000001
 そして、提示部34は、算出した推薦度指標に基づいたカラムデータ毎の推薦度情報を提示情報と併せて表示する。なお、推薦度情報の具体的な提示態様については、図11で後述する。
 このように、提示部34は、改善度に基づく推薦度情報をユーザへ提示することで、改善効果の高い追加データ(カラムデータ)をユーザが把握できるため、モデル学習を効率良く行うことができる。
 なお、提示部34は、推薦度指標に基づいた推薦度情報を提示する場合以外に、例えば、グラフ理論を用いた推薦度情報を提示してもよい。かかる点について、図9を用いて説明する。
 図9は、グラフ理論を用いた推薦度情報の算出処理を示す図である。図9に示すように、提示部34は、まず、追加データの特徴量および追加データ間における改善度に基づいて、所定の空間におけるノードを追加データとし、改善度が所定値以上のノード間をリンクで結んだグラフを構築する。
 つづいて、提示部34は、学習データの特徴量および各追加データとの改善度に基づいて、構築したグラフ上に学習データのノードおよびリンクを構築する。そして、提示部34は、学習データまでのリンク数が所定数以下の追加データを推薦度情報の対象として決定する。例えば、提示部34は、リンク数が少ない程、推薦度が高くなるような推薦度情報を提示する。例えば、図9に示すように、リンク数が2つ以下の追加データを推薦度情報の対象とする。
<ユーザ端末のUI>
 次に、図10および図11を用いて、情報処理装置1からの情報に基づくユーザ端末100の画面表示の一例について説明する。図10および図11は、ユーザ端末100の画面表示の一例を示す図である。
 図10の上段では、情報処理装置1から受信した統計データが表示された画面を示している。図10の上段に示すように、ユーザ端末100には、学習するモデルの出力に関する出力情報101や、統計データ102、統計データ内の特定のカラムを検索する検索窓103、処理実行ボタン104,105,106,107等が表示される。
 出力情報101には、ユーザが選択したモデルの出力となるカラム名の情報(予測ターゲット)や、出力されるデータタイプ(予測タイプ)、新規データに含まれるカラムデータの割合(予測値)等の情報が含まれる。
 統計データ102には、上述した統計データの情報が表示される。また、統計データ102の上部には検索窓103が配置され、統計データにおける特定のカラムを検索できるようになっている。
 処理実行ボタン104,105,106,107は、各種処理を実行するための表示ボタンである。処理実行ボタン104である「このデータを共有」は、新規データを共有データとして共有データDB41に格納するための処理を実行するボタンである。処理実行ボタン105である「追加データ検索」は、モデルの出力精度の改善が見込める追加データを検索するためのボタンである。処理実行ボタン106である「キャンセル」は、作業をキャンセルするためのボタンである。処理実行ボタン107である「学習と評価を実行」は、モデルの学習処理(および評価処理)を実行するためのボタンである。なお、評価処理とは、モデルの精度評価指標を算出処理である。
 ここで、ユーザが統計データ102の中から所定のカラムを選択して(チェックボックス)、処理実行ボタン105である「追加データ検索」を押下したとする。かかる場合、情報処理装置1は、選択されたカラムを新規データとし、出力情報101をモデルの出力として、第1モデルおよび第2モデルを学習するとともに、改善度を算出する。そして、情報処理装置1は、改善度に基づいた推薦度情報が所定の条件を満たす追加データを推薦結果として表示する。
 図10の下段には、推薦結果の画面の一例を示しており、追加データとして、「株式データセット」、「天気データセット」、「製品データセット」を示している。なお、データセットとは、複数のカラムデータを含んでいることを示している。
 また、図10の下段に示すように、各追加データには、追加データの項目例(カラム)等といった説明等の付加情報110が付加されて表示されている。つまり、情報処理装置1は、提示情報として追加データを提示する場合、追加データに関する所定の付加情報を併せて生成し、提示する。なお、付加情報として、例えば、追加データのカラム名や、データサイズ、カラム毎の統計データ、追加データにおける各カラムの要素値(代表値や、ヒストグラム等)、追加データに対して過去の他ユーザによって使用された前処理方法、追加データを実際に使用した他ユーザの評価や、閲覧数、学習実行数、モデル運用数等の情報が表示される。
 また、図10の下段には、追加データを追加するための追加ボタン111や、推薦された追加データを追加してモデル学習を実行するための実行ボタン112や、所定の条件により選別された無償の共有データ(追加データ)を表示する画面と、有償の共有データ(追加データ)を表示する画面とを切り替えるための切替ボタン113が表示される。
 ここで、ユーザが製品データセットの追加ボタン111を押下したとする。図11には、追加ボタン111を押下した場合にユーザ端末100に表示される画面を示している。
 図11に示すように、追加ボタン111(図10)が押下された場合、追加データに含まれる各カラムデータの詳細が表示される。図11に示す画面では、追加データの詳細情報120や、チェックボックス121、追加ボタン122等が表示される。
 詳細情報120には、追加データに含まれるカラム毎の統計データおよび「推薦度」の情報が表示される。「推薦度」は、上述した推薦度情報であり、星の数によって表現される。図11では、上述した推薦度指標が高いほど、星の数が多くなるように表現されている。
 図11では、ユーザは、カラム名「製品カテゴリ」が選択されており(チェック状態であり)、この状態でユーザが追加ボタン122を押下した場合、カラムデータである「製品カテゴリ」が追加データとして学習データに追加される。
<処理フロー>
 次に、図12~図14を用いて、実施形態に係る情報処理装置1が実行する処理の処理手順について説明する。図12~図14は、実施形態に係る情報処理装置1が実行する処理の処理手順を示すフローチャートである。図12では、情報処理装置1が実行する共有データの登録処理を示し、図13では、提示情報の提示処理を示し、図14では、改善度モデルの学習処理を示す。
 まず、図12を用いて、共有データの登録処理について説明する。
 図12に示すように、まず、情報処理装置1の制御部3は、ユーザ端末100から新規データを取得する(ステップS101)。
 つづいて、制御部3は、取得した新規データの統計データを算出し(ステップS102)、統計データをユーザ端末100へ提示する(ステップS103)。
 つづいて、制御部3は、ユーザ端末100から新規データを共有データとして登録する登録要求があったとする(ステップS104)。なお、制御部3は、統計データの訂正要求等があった場合には、必要に応じて統計データを訂正する。
 つづいて、制御部3は、所定の匿名化アルゴリズム、または、ユーザからの指定により、必要に応じて、新規データおよび統計データに含まれるデータに対して匿名化処理を施す(ステップS105)。
 つづいて、制御部3は、新規データおよび統計データを対応付けた対応データを共有データとして共有データDB41に記憶し(ステップS106)、登録処理を終了する。
 次に、図13を用いて、提示情報の提示処理について説明する。
 図13に示すように、まず、制御部3は、ユーザ端末100から新規データを取得する(ステップS201)。
 つづいて、制御部3は、新規データに基づいて学習するモデル(第1モデルおよび第2モデル)の出力対象の指定を受け付ける(ステップS202)。
 つづいて、制御部3は、新規データに基づいて統計データを算出することで、統計データおよび新規データを対応付けた対応データである学習データを生成する(ステップS203)。
 つづいて、制御部3は、学習データの特徴量であるメタ特徴量を算出する(ステップS204)。
 つづいて、制御部3は、学習データを説明変数とし、ステップS202で指定された出力対象を目的変数とする第1モデルを学習する(ステップS205)。
 つづいて、制御部3は、学習データとメタ特徴量が類似する共有データを追加データとして選択する(ステップS206)。
 つづいて、制御部3は、学習データに追加データを結合した結合データを説明変数とし、ステップS202で指定された出力対象を目的変数とする第2モデルを学習する(ステップS207)。
 つづいて、制御部3は、第1モデルに対する第2モデルの出力精度の改善度合いを示す改善度を算出する(ステップS208)。
 つづいて、制御部3は、算出した改善度に基づいた所定の提示情報をユーザへ提示し(ステップS209)、提示処理を終了する。
 次に、図14を用いて、改善度モデルの学習処理について説明する。
 まず、制御部3は、記憶部4に記憶された共有データDB41に含まれる共有データのメタ特徴量を算出する(ステップS301)。
 つづいて、制御部3は、共有データDB41の中から、疑似的な新規データ(疑似新規データ)となる共有データを選択し、選択した疑似的な新規データである共有データのメタ特徴量に基づいて疑似的な追加データ(疑似追加データ)となる共有データを選択する(ステップS302)。
 つづいて、制御部3は、疑似新規データに基づいて疑似的な第1モデル(疑似第1モデル)を学習し、疑似新規データおよび疑似追加データに基づいて疑似的な第2モデル(疑似第2モデル)を学習する(ステップS303)。
 つづいて、制御部3は、疑似第1モデルおよび疑似第2モデルに基づいて疑似改善度を算出する(ステップS304)。
 つづいて、制御部3は、疑似新規データおよび疑似追加データの履歴情報43を取得する(ステップS305)。
 つづいて、制御部3は、疑似新規データのメタ特徴量および疑似追加データのメタ特徴量、疑似第1モデルおよび疑似第2モデルの精度評価指標の情報、履歴情報43を説明変数とし、疑似改善度を目的変数とする改善度モデルを学習し(ステップS306)、処理を終了する。
<ハードウェア構成例>
 続いて、図15を参照して、本実施形態に係る情報処理装置1等のハードウェア構成の一例について説明する。図15は、本実施形態に係る情報処理装置1のハードウェア構成の一例を示すブロック図である。 
 図15に示すように、情報処理装置1は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM(Random Access Memory)903、ホストバス905、ブリッジ907、外部バス906、インタフェース908、入力装置911、出力装置912、ストレージ装置913、ドライブ914、接続ポート915、及び通信装置916を備える。情報処理装置1は、CPU901に替えて、又はこれと共に、電気回路、DSP若しくはASIC等の処理回路を備えてもよい。 
 CPU901は、演算処理装置、及び制御装置として機能し、各種プログラムに従って情報処理装置1内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラム及び演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラム、及びその実行において適宜変化するパラメータ等を一時記憶する。CPU901は、例えば、取得部31、学習部32、算出部33および提示部34の機能を実行してもよい。 
 CPU901、ROM902及びRAM903は、CPUバスなどを含むホストバス905により相互に接続されている。ホストバス905は、ブリッジ907を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス906に接続されている。なお、ホストバス905、ブリッジ907、及び外部バス906は、必ずしも分離構成されなくともよく、1つのバスにこれらの機能が実装されてもよい。 
 入力装置911は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ又はレバー等のユーザによって情報が入力される装置である。または、入力装置911は、赤外線又はその他の電波を利用したリモートコントロール装置であってもよく、情報処理装置1の操作に対応した携帯電話又はPDA等の外部接続機器であってもよい。さらに、入力装置911は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成する入力制御回路などを含んでもよい。 
 出力装置912は、情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置である。出力装置912は、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、EL(ElectroLuminescence)ディスプレイ装置、レーザープロジェクタ、LED(Light Emitting Diode)プロジェクタ又はランプ等の表示装置であってもよく、スピーカ又はヘッドホン等の音声出力装置等であってもよい。 
 出力装置912は、例えば、情報処理装置1による各種処理にて得られた結果を出力してもよい。具体的には、出力装置912は、情報処理装置1による各種処理にて得られた結果を、テキスト、イメージ、表、又はグラフ等の様々な形式で視覚的に表示してもよい。または、出力装置912は、音声データ又は音響データ等のオーディオ信号をアナログ信号に変換して聴覚的に出力してもよい。 
 ストレージ装置913は、情報処理装置1の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置913は、例えば、HDD(Hard Disk Drive)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現されてもよい。例えば、ストレージ装置913は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出装置、及び記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。ストレージ装置913は、CPU901が実行するプログラム、各種データ及び外部から取得した各種のデータ等を格納してもよい。
 ドライブ914は、記憶媒体用リーダライタであり、情報処理装置1に内蔵又は外付けされる。ドライブ914は、装着されている磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、RAM903に出力する。また、ドライブ914は、リムーバブル記憶媒体に情報を書き込むことも可能である。 
 接続ポート915は、外部機器と接続されるインタフェースである。接続ポート915は、外部機器とのデータ伝送可能な接続口であり、例えばUSB(Universal Serial Bus)であってもよい。 
 通信装置916は、例えば、ネットワークNに接続するための通信デバイス等で形成されたインタフェースである。通信装置916は、例えば、有線若しくは無線LAN(Local Area Network)、LTE(Long Term Evolution)、Bluetooth(登録商標)又はWUSB(Wireless USB)用の通信カード等であってもよい。また、通信装置916は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。通信装置916は、例えば、インターネット又は他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。 
 なお、ネットワーク40は、情報の有線又は無線の伝送路である。例えば、ネットワーク40は、インターネット、電話回線網若しくは衛星通信網などの公衆回線網、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、又はWAN(Wide Area Network)などを含んでもよい。また、ネットワーク40は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。 
 なお、情報処理装置1に内蔵されるCPU、ROM及びRAMなどのハードウェアに対して、上述した本実施形態に係る情報処理装置1の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供することが可能である。 
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。 
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
<変形例>
 また、上記情報処理プログラムをインターネット等のネットワーク上のサーバ装置が備えるディスク装置に格納しておき、コンピュータにダウンロード等できるようにしてもよい。また、上述の機能を、OS(Operating System)とアプリケーションソフトとの協働により実現してもよい。この場合には、OS以外の部分を媒体に格納して配布してもよいし、OS以外の部分をサーバ装置に格納しておき、コンピュータにダウンロード等できるようにしてもよい。
 また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。
 また、上述の実施形態は、処理内容を矛盾させない領域で適宜組み合わせることが可能である。また、上述の実施形態のフローチャート及びシーケンス図に示された各ステップは、適宜順序を変更することが可能である。
<まとめ>
 以上説明したように、本開示の一実施形態によれば、本実施形態に係る情報処理装置1は、学習部32と、算出部33と、提示部34とを備える。学習部32は、ユーザが所持する端末装置(ユーザ端末100)から取得した所定の新規データに基づく第1モデルと、記憶部4に予め記憶された共有データを追加データとして新規データに結合した結合データに基づく第2モデルとを学習する。算出部33は、第1モデルに対する第2モデルの出力精度の改善度合いを示す改善度を算出する。提示部34は、算出部33によって算出された改善度に基づいた所定の提示情報を生成する。
 これにより、ユーザに対してモデル学習に有用なデータ(共有データ)を提示することができる。
 学習部32は、新規データと特徴量が類似する共有データを追加データとして結合する。
 これにより、ユーザの新規データとは無関係、すなわち、ユーザが普段収集しない(できない)ような追加データを追加してモデル学習が行われることを回避できる。換言すれば、ユーザによって有用(収集が容易)なデータを追加データとして提示できる。
 学習部32は、記憶部4に記憶された共有データの中から、疑似新規データおよび疑似追加データを選択し、疑似新規データに基づく疑似第1モデルと、疑似追加データに基づく疑似第2モデルとを学習する。算出部33は、疑似第1モデルおよび疑似第2モデルに基づき算出した疑似改善度に基づいて改善度を出力とする改善度モデルを学習する。
 これにより、改善度を出力するモデルを事前に学習できるため、新規データが入力される度に第1モデルおよび第2モデルを学習して改善度を算出する必要が無くなるため、モデル学習の処理負荷を軽減できる。
 算出部33は、疑似新規データの特徴量および疑似追加データの特徴量を説明変数とし、疑似改善度を目的変数として改善度モデルを学習する。
 これにより、特徴量に基づいた改善度モデルを学習できるため、高精度なモデルを生成することができる。
 算出部33は、疑似新規データおよび疑似追加データに対するユーザの行動履歴の情報を説明変数としてさらに含む。
 これにより、生成される改善度モデルの精度をさらに向上させることができる。
 提示部34は、改善度が所定の条件を満たす追加データを提示情報として生成する。
 これにより、例えば、モデルの改善が見込める可能性が高い追加データを提示情報として提示することができる。
 提示部34は、複数の追加データを提示情報として生成する場合、改善度に基づく推薦度情報を併せて生成する。
 これにより、追加データ毎にどの程度の改善効果が見込めるかをデータの追加前に把握できるため、ユーザがより効果的な追加データを選択した効率良くモデル学習を行うことができる。
 提示部34は、提示情報として追加データを生成する場合、追加データに関する所定の付加情報を併せて生成する。
 これにより、ユーザが追加データを追加する際の判断材料として付加情報を見ることができるため、ユーザが所望する追加データの選択を容易化できる。
 新規データおよび追加データは、時系列のデータである。学習部32は、新規データおよび追加データの時系列が一致しない場合、新規データの時系列と一致させるための追加データを生成して結合する。
 これにより、第1モデルおよび第2モデルのデータの時系列を揃えることができるため、第1モデルおよび第2モデルから算出される改善度の精度を高めることができる。
 情報処理装置1は、ユーザ端末100から共有データとして新規データを取得する取得部31をさらに備える。
 これにより、共有データDB41が随時更新(追加および更新)されていくため、共有データを用いたモデル学習処理や、改善度算出処理の精度を向上させることができる。
 取得部31は、所定の条件を満たす共有データに対して匿名化処理を施して記憶部4に記憶する。
 これにより、例えば、顧客情報や個人情報等が他ユーザに公開されることを回避できる。
 学習部32は、追加データに対して所定の前処理を施した後に新規データと結合する。
 これにより、モデル学習をする際に最適な前処理を追加データに施すことができるため、モデル学習の精度を高めることができる。
 以上、本開示の各実施形態について説明したが、本開示の技術的範囲は、上述の各実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。
 また、本明細書に記載された各実施形態における効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
 なお、本技術は以下のような構成も取ることができる。
(1)
 ユーザが所持する端末装置から取得した所定の新規データに基づく第1モデルと、記憶部に予め記憶された共有データを追加データとして前記新規データに結合した結合データに基づく第2モデルとを学習する学習部と、
 前記第1モデルに対する前記第2モデルの出力精度の改善度合いを示す改善度を算出する算出部と、
 前記算出部によって算出された前記改善度に基づいた提示情報を生成する提示部と
 を備える情報処理装置。
(2)
 前記学習部は、
 前記新規データと特徴量が類似する前記共有データを前記追加データとして結合する、
 前記(1)に記載の情報処理装置。
(3)
 前記学習部は、
 前記記憶部に記憶された前記共有データの中から、疑似新規データおよび疑似追加データを選択し、前記疑似新規データに基づく疑似第1モデルと、前記疑似追加データに基づく疑似第2モデルとを学習し、
 前記算出部は、
 前記疑似第1モデルおよび前記疑似第2モデルに基づき算出した疑似改善度に基づいて前記改善度を出力とする改善度モデルを学習する、
 前記(1)または(2)に記載の情報処理装置。
(4)
 前記算出部は、
 前記疑似新規データの特徴量および前記疑似追加データの特徴量を説明変数とし、前記疑似改善度を目的変数として改善度モデルを学習する、
 前記(3)に記載の情報処理装置。
(5)
 前記算出部は、
 前記疑似新規データおよび前記疑似追加データに対するユーザの行動履歴の情報を前記説明変数としてさらに含む、
 前記(4)に記載の情報処理装置。
(6)
 前記提示部は、
 前記改善度が所定の条件を満たす前記追加データを前記提示情報として生成する、
 前記(1)~(5)のいずれか1つに記載の情報処理装置。
(7)
 前記提示部は、
 複数の前記追加データを前記提示情報として生成する場合、前記改善度に基づく推薦度情報を併せて生成する、
 前記(6)に記載の情報処理装置。
(8)
 前記提示部は、
 前記提示情報として前記追加データを生成する場合、前記追加データに関する所定の付加情報を併せて生成する、
 前記(6)または(7)に記載の情報処理装置。
(9)
 前記新規データおよび前記追加データは、時系列のデータであって、
 前記学習部は、
 前記新規データおよび前記追加データの時系列が一致しない場合、前記新規データの時系列と一致させるための前記追加データを生成して結合する、
 前記(1)~(8)のいずれか1つに記載の情報処理装置。
(10)
 前記端末装置から前記共有データとして前記新規データを取得する取得部をさらに備える、
 前記(1)~(9)のいずれか1つに記載の情報処理装置。
(11)
 前記取得部は、
 所定の条件を満たす前記共有データに対して匿名化処理を施して前記記憶部に記憶する
 前記(10)に記載の情報処理装置。
(12)
 前記学習部は、
 前記追加データに対して所定の前処理を施した後に前記新規データと結合する、
 前記(1)~(11)のいずれか1つに記載の情報処理装置。
(13)
 ユーザが所持する端末装置から取得した所定の新規データに基づく第1モデルと、記憶部に予め記憶された共有データを追加データとして前記新規データに結合した結合データに基づく第2モデルとを学習する学習工程と、
 前記第1モデルに対する前記第2モデルの出力精度の改善度合いを示す改善度を算出する算出工程と、
 前記算出工程によって算出された前記改善度に基づいた提示情報を生成する提示部と
 を含む情報処理方法。
(14)
 ユーザが所持する端末装置から取得した所定の新規データに基づく第1モデルと、記憶部に予め記憶された共有データを追加データとして前記新規データに結合した結合データに基づく第2モデルとを学習する学習手順と、
 前記第1モデルに対する前記第2モデルの出力精度の改善度合いを示す改善度を算出する算出手順と、
 前記算出手順によって算出された前記改善度に基づいた提示情報を生成する提示手順と
 をコンピュータに実行させる情報処理プログラム。
 1   情報処理装置
 2   通信部
 3   制御部
 4   記憶部
 31  取得部
 32  学習部
 33  算出部
 34  提示部
 100 ユーザ端末

Claims (14)

  1.  ユーザが所持する端末装置から取得した所定の新規データに基づく第1モデルと、記憶部に予め記憶された共有データを追加データとして前記新規データに結合した結合データに基づく第2モデルとを学習する学習部と、
     前記第1モデルに対する前記第2モデルの出力精度の改善度合いを示す改善度を算出する算出部と、
     前記算出部によって算出された前記改善度に基づいた提示情報を生成する提示部と
     を備える情報処理装置。
  2.  前記学習部は、
     前記新規データと特徴量が類似する前記共有データを前記追加データとして結合する、
     請求項1に記載の情報処理装置。
  3.  前記学習部は、
     前記記憶部に記憶された前記共有データの中から、疑似新規データおよび疑似追加データを選択し、前記疑似新規データに基づく疑似第1モデルと、前記疑似追加データに基づく疑似第2モデルとを学習し、
     前記算出部は、
     前記疑似第1モデルおよび前記疑似第2モデルに基づき算出した疑似改善度に基づいて前記改善度を出力とする改善度モデルを学習する、
     請求項1に記載の情報処理装置。
  4.  前記算出部は、
     前記疑似新規データの特徴量および前記疑似追加データの特徴量を説明変数とし、前記疑似改善度を目的変数として改善度モデルを学習する、
     請求項3に記載の情報処理装置。
  5.  前記算出部は、
     前記疑似新規データおよび前記疑似追加データに対するユーザの行動履歴の情報を前記説明変数としてさらに含む、
     請求項4に記載の情報処理装置。
  6.  前記提示部は、
     前記改善度が所定の条件を満たす前記追加データを前記提示情報として生成する、
     請求項1に記載の情報処理装置。
  7.  前記提示部は、
     複数の前記追加データを前記提示情報として生成する場合、前記改善度に基づく推薦度情報を併せて生成する、
     請求項6に記載の情報処理装置。
  8.  前記提示部は、
     前記提示情報として前記追加データを生成する場合、前記追加データに関する所定の付加情報を併せて生成する、
     請求項6に記載の情報処理装置。
  9.  前記新規データおよび前記追加データは、時系列のデータであって、
     前記学習部は、
     前記新規データおよび前記追加データの時系列が一致しない場合、前記新規データの時系列と一致させるための前記追加データを生成して結合する、
     請求項1に記載の情報処理装置。
  10.  前記端末装置から前記共有データとして前記新規データを取得する取得部をさらに備える、
     請求項1に記載の情報処理装置。
  11.  前記取得部は、
     所定の条件を満たす前記共有データに対して匿名化処理を施して前記記憶部に記憶する
     請求項10に記載の情報処理装置。
  12.  前記学習部は、
     前記追加データに対して所定の前処理を施した後に前記新規データと結合する、
     請求項1に記載の情報処理装置。
  13.  ユーザが所持する端末装置から取得した所定の新規データに基づく第1モデルと、記憶部に予め記憶された共有データを追加データとして前記新規データに結合した結合データに基づく第2モデルとを学習する学習工程と、
     前記第1モデルに対する前記第2モデルの出力精度の改善度合いを示す改善度を算出する算出工程と、
     前記算出工程によって算出された前記改善度に基づいた提示情報を生成する提示工程と
     を含む情報処理方法。
  14.  ユーザが所持する端末装置から取得した所定の新規データに基づく第1モデルと、記憶部に予め記憶された共有データを追加データとして前記新規データに結合した結合データに基づく第2モデルとを学習する学習手順と、
     前記第1モデルに対する前記第2モデルの出力精度の改善度合いを示す改善度を算出する算出手順と、
     前記算出手順によって算出された前記改善度に基づいた提示情報を生成する提示手順と
     をコンピュータに実行させる情報処理プログラム。
PCT/JP2021/002366 2020-01-30 2021-01-25 情報処理装置、情報処理方法および情報処理プログラム WO2021153477A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP21748459.1A EP4105789A4 (en) 2020-01-30 2021-01-25 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND INFORMATION PROCESSING PROGRAM
US17/759,212 US20230052020A1 (en) 2020-01-30 2021-01-25 Information processing apparatus, information processing method, and information processing program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-014015 2020-01-30
JP2020014015 2020-01-30

Publications (1)

Publication Number Publication Date
WO2021153477A1 true WO2021153477A1 (ja) 2021-08-05

Family

ID=77078951

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/002366 WO2021153477A1 (ja) 2020-01-30 2021-01-25 情報処理装置、情報処理方法および情報処理プログラム

Country Status (3)

Country Link
US (1) US20230052020A1 (ja)
EP (1) EP4105789A4 (ja)
WO (1) WO2021153477A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017167980A (ja) * 2016-03-17 2017-09-21 株式会社東芝 特徴選択装置、特徴選択方法およびプログラム
JP2019507444A (ja) 2015-12-07 2019-03-14 データフォーキュア、インク. 測定データおよびテキストからオントロジーベースの動的学習および知識統合を行う方法およびシステム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017228086A (ja) * 2016-06-22 2017-12-28 富士通株式会社 機械学習管理プログラム、機械学習管理方法、および機械学習管理装置
JP2020004178A (ja) * 2018-06-29 2020-01-09 ルネサスエレクトロニクス株式会社 学習モデルの評価方法、学習方法、装置、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019507444A (ja) 2015-12-07 2019-03-14 データフォーキュア、インク. 測定データおよびテキストからオントロジーベースの動的学習および知識統合を行う方法およびシステム
JP2017167980A (ja) * 2016-03-17 2017-09-21 株式会社東芝 特徴選択装置、特徴選択方法およびプログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ÖZCAN FATMA, KOUTRIKA GEORGIA, MADDEN SAM, KUMAR ARUN, NAUGHTON JEFFREY, PATEL JIGNESH M., ZHU XIAOJIN: "To Join or Not to Join? : Thinking Twice about Joins before Feature Selection", PROCEEDINGS OF THE 2016 INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA, SIGMOD '16, ACM PRESS, NEW YORK, NEW YORK, USA, 14 June 2016 (2016-06-14), New York, New York, USA, pages 19 - 34, XP055843669, ISBN: 978-1-4503-3531-7, DOI: 10.1145/2882903.2882952 *
See also references of EP4105789A4
TAKAAKI MYOJO, TOMONORI MATSUI, YU ENOKIBORI, NOBUHIKO NISHIO: "Dwarfstar: Towards an Optimised Framework for Lifelog Analysis", IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, vol. J96-D, no. 5, 1 May 2013 (2013-05-01), JP, pages 1267 - 1278, XP009530198, ISSN: 1880-4535 *
ZHANG YI, IVES ZACHARY G.: "Juneau : data lake management for Jupyter", PROCEEDINGS OF THE VLDB ENDOWMENT, ASSOC. OF COMPUTING MACHINERY, NEW YORK, NY, vol. 12, no. 12, 1 August 2019 (2019-08-01), New York, NY, pages 1902 - 1905, XP055843613, ISSN: 2150-8097, DOI: 10.14778/3352063.3352095 *

Also Published As

Publication number Publication date
EP4105789A1 (en) 2022-12-21
EP4105789A4 (en) 2023-07-12
US20230052020A1 (en) 2023-02-16

Similar Documents

Publication Publication Date Title
AU2017290063B2 (en) Apparatuses, methods and systems for relevance scoring in a graph database using multiple pathways
US9680959B2 (en) Recommending content based on intersecting user interest profiles
US20180276553A1 (en) System for querying models
US10902073B2 (en) Role-relative social networking
US9305542B2 (en) Mobile communication device including text-to-speech module, a touch sensitive screen, and customizable tiles displayed thereon
US11102276B2 (en) System and method for providing more appropriate question/answer responses based upon profiles
US10936601B2 (en) Combined predictions methodology
US10387815B2 (en) Continuously variable resolution of resource allocation
US11544307B2 (en) Personnel selecting device, personnel selecting system, personnel selecting method, and recording medium
US10936978B2 (en) Models for visualizing resource allocation
US20230259824A1 (en) Automatic generation of an explanation, based on data lineage and user feedback, of a prediction produced by a machine learning system
RU2643434C2 (ru) Способ предоставления пользователю сообщения посредством вычислительного устройства и машиночитаемый носитель информации
JP2023536831A (ja) データ分析及びレポート生成のためのインタラクティブなインターフェース
US20160314129A1 (en) System and method for matching dynamically validated network data
US20210232573A1 (en) Issue rank management in an issue tracking system
WO2021135322A1 (zh) 一种自动出题方法、装置及系统
WO2021153477A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2014229120A (ja) 緊急時ノウハウ参照支援方法、緊急時ノウハウ参照支援装置、及び緊急時ノウハウ参照支援プログラム
US20160071061A1 (en) System and method for automated creation and validation of physical ability tests for employment assessment
WO2021014823A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2012242859A (ja) グラフ生成装置およびプログラム
US20180232130A1 (en) Storage medium, display method, and display apparatus
JP2020042607A (ja) 情報処理装置、サーバ、情報処理方法及び情報処理プログラム
US20230230114A1 (en) Systems and methods for providing combined prediction scores
KR102181579B1 (ko) 환자정보 스티커 서비스 제공방법 및 이를 위한 치과용 보험청구 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21748459

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021748459

Country of ref document: EP

Effective date: 20220830

NENP Non-entry into the national phase

Ref country code: JP