WO2023189737A1 - 情報処理方法、情報処理装置及びプログラム - Google Patents

情報処理方法、情報処理装置及びプログラム Download PDF

Info

Publication number
WO2023189737A1
WO2023189737A1 PCT/JP2023/010627 JP2023010627W WO2023189737A1 WO 2023189737 A1 WO2023189737 A1 WO 2023189737A1 JP 2023010627 W JP2023010627 W JP 2023010627W WO 2023189737 A1 WO2023189737 A1 WO 2023189737A1
Authority
WO
WIPO (PCT)
Prior art keywords
domain
dataset
variable
candidate
data set
Prior art date
Application number
PCT/JP2023/010627
Other languages
English (en)
French (fr)
Inventor
政寛 佐藤
友紀 谷口
智子 大熊
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Publication of WO2023189737A1 publication Critical patent/WO2023189737A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning

Definitions

  • the present invention relates to an information processing method, an information processing device, and a program.
  • the item is a product handled by the EC site, and if you are a user of a document information management system, the item is stored document information.
  • Non-Patent Document 1 and Non-Patent Document 2 describe research on information recommendation technology, which is a technology that presents selection candidates from among items for the purpose of assisting the user's selection. Note that EC on the EC site is an abbreviation for Electronic Commerce.
  • Non-Patent Document 5 describes a technology for pseudo-generating user behavior history necessary for information recommendation technology using a Conditional Generative Adversarial Network called CGAN, which is one of the data generation methods using deep learning. be written.
  • CGAN Conditional Generative Adversarial Network
  • Non-patent document 6 describes a technique for generating data of different domains. Specifically, this document proposes a generator that converts data in a source domain into data in a different pseudo domain. The generator described in this document generates a pseudo domain whose data probability distribution is far from the source domain.
  • Patent Document 1 describes a multiple model providing method that divides users into a plurality of groups, applies federated learning of each group, and generates a predictive model to be applied to a service as a multiple model.
  • Patent Document 2 describes an information processing device that divides users into groups using user attributes and a Dirichlet process, and generates a predictive model for each group.
  • the device described in this document selects a prediction model suitable for the user from the generated prediction models.
  • Patent Document 3 describes a medical diagnostic device that sorts AI learning data for medical facilities based on attribute information and the like.
  • the device described in this document performs selection that reduces bias in attributes and results in an attribute distribution that is close to test data of a facility that uses trained AI.
  • AI is an abbreviation for Artificial Intelligence.
  • Non-Patent Document 5 there is research on generating user behavior history, but this involves generating data for the same domain, and generating data for multiple domains from data for a single domain. isn't it.
  • Non-Patent Document 6 attempts have been made to generate data of different domains from data of a single domain when there is not a sufficient number of domains for learning and evaluation, but sufficient results have not been obtained. It has not been done.
  • Patent Document 1 The method described in Patent Document 1 is interpreted from the description in paragraph [0064] and paragraph [0066] to assume that users with similar characteristics are classified into groups. When dividing data of a single domain into data of multiple domains, differences between groups are important, and appropriate domain division is difficult with the method described in this document.
  • the device described in Patent Document 2 performs grouping for the purpose of reducing the number of explanatory variables required for the prediction model and shortening the calculation time of predicted values, and is similar to the method described in Patent Document 1. , categorized into groups by users with similar characteristics. On the other hand, in domain division, the difference between groups is important, not the similarity of data within a group, and appropriate domain division is difficult with the device described in this document.
  • the device described in Patent Document 3 is considered to be aimed at developing domain-specific AI, rather than domain generalization, from the description in paragraph [0002] and paragraph [0004] of the same document.
  • the device described in this document selects data with the aim of constructing a model suitable for a single domain, and it is difficult to construct a domain generalization model using only the selected data. Further, the device described in this document generates a single data set, and it is difficult to generate multiple data sets.
  • the present invention has been made in view of the above circumstances, and aims to provide an information processing method, an information processing device, and a program that can realize the generation of data sets of user behavior history in different domains.
  • An information processing method includes building a predictive model using a target variable and one or more explanatory variables, with user behavior as a target variable, for a dataset consisting of behavior histories of multiple users with respect to multiple items.
  • An information processing method for generating a dataset applied to a domain which is a dataset in one domain, and to which an objective variable, an explanatory variable, and a plurality of variables excluding the objective variable and explanatory variable are applied.
  • Select multiple domain candidate variables to be domain candidates from the acquired variables excluding the objective variable and explanatory variables generate dataset candidates to divide the dataset using the domain candidate variables, and divide the dataset. Determine whether each of the candidates is a dataset in a different domain, and if each of the dataset candidates is a dataset in a different domain, divide the dataset by domain using the domain candidate variable as the domain. This is an information processing method for generating divided data sets.
  • a pseudo data set of a different domain can be generated from a data set of one domain.
  • data set candidates may be generated in which at least a portion of the distributions of existence probabilities of data for each explanatory variable overlap.
  • data set candidates may be generated by applying time as a domain candidate variable.
  • a dataset candidate may be generated by applying a user attribute that is not applied to an explanatory variable as a domain candidate variable.
  • pseudo data sets of different domains can be generated in which differences in user attributes are treated as differences in domains.
  • a data set candidate may be generated by applying an item attribute that is not applied to an explanatory variable as a domain candidate variable.
  • a dataset candidate may be generated by applying a context that is not applied to an explanatory variable as a domain candidate variable.
  • a trained model generated by learning using any of a plurality of dataset candidates is generated, and a range of a first dataset candidate among the plurality of dataset candidates is generated.
  • the performance of the trained model is evaluated in the range of a second dataset candidate that is different from the first dataset candidate, and the performance of the trained model corresponding to the first dataset candidate is evaluated. It may be determined whether the datasets are in different domains based on the performance difference between the performance of the learned model corresponding to the two dataset candidates.
  • a process may be performed on the divided data sets to cause each user or each item to exist in only one of the divided data sets.
  • An information processing device constructs a predictive model using an objective variable and one or more explanatory variables, with user behavior as an objective variable, for a dataset consisting of behavior histories of a plurality of users with respect to a plurality of items.
  • An information processing device that generates a data set applied to The processor executes the instructions of the program to obtain a data set in one domain to which a target variable, an explanatory variable, and a plurality of variables excluding the target variable and the explanatory variable are applied, and A plurality of domain candidate variables that are domain candidates are selected from a plurality of variables excluding the Determine whether the datasets are in different domains, and if each of the dataset candidates is a dataset in a different domain, divide the dataset into each domain with the domain candidate variable as the domain, and divide the dataset into divided data.
  • This is an information processing device that generates a set.
  • the information processing device According to the information processing device according to the present disclosure, it is possible to obtain the same effects as the information processing method according to the present disclosure.
  • the constituent elements of the information processing method according to other aspects can be applied to the constituent elements of the information processing apparatus according to other aspects.
  • the program according to the present disclosure is applied to a dataset consisting of behavior history of multiple users with respect to multiple items, with user behavior as the objective variable, and construction of a predictive model using the objective variable and one or more explanatory variables.
  • a program that generates a data set for a computer which is a data set in one domain, to which an objective variable, an explanatory variable, and a plurality of variables excluding the objective variable and the explanatory variable are applied.
  • the program according to the present disclosure it is possible to obtain the same effects as the information processing method according to the present disclosure.
  • the constituent elements of the information processing method according to other aspects can be applied to the constituent elements of the program according to other aspects.
  • a pseudo data set of a different domain can be generated from a data set of one domain.
  • FIG. 1 is a conceptual diagram of a typical recommendation system.
  • FIG. 2 is a conceptual diagram showing an example of supervised machine learning, which is widely used to construct recommendation systems.
  • FIG. 3 is an explanatory diagram showing a typical introduction flow of the recommendation system.
  • FIG. 4 is an explanatory diagram of the installation process of the recommendation system when data on the installation destination facility cannot be obtained.
  • FIG. 5 is an explanatory diagram when learning a model by applying domain.
  • FIG. 6 is an explanatory diagram of a recommendation system introduction flow including a step of evaluating the performance of a trained learning model.
  • FIG. 7 is an explanatory diagram showing an example of learning data and evaluation data used in machine learning.
  • FIG. 8 is a graph schematically showing differences in model performance due to differences in data sets.
  • FIG. 8 is a graph schematically showing differences in model performance due to differences in data sets.
  • FIG. 9 is an explanatory diagram of data necessary for developing a domain generalization model.
  • FIG. 10 is a block diagram schematically showing an example of the hardware configuration of the information processing device according to the embodiment.
  • FIG. 11 is a functional block diagram showing the functional configuration of the information processing apparatus shown in FIG. 10.
  • FIG. 12 is a flowchart showing the procedure of the information processing method according to the embodiment.
  • FIG. 13 is a schematic diagram of the generation of a dataset using domain candidate variables.
  • FIG. 14 is a schematic diagram showing an example of domain division candidate plan generation applied to the generation of the data set shown in FIG. 13.
  • FIG. 15 is a schematic diagram showing another example of domain division candidate plan generation applied to the generation of the data set shown in FIG. 13.
  • FIG. 16 is a schematic diagram of data set generation when multiple domain candidate variables are selected.
  • FIG. 17 is a schematic diagram showing an example of generation of a domain division candidate plan.
  • FIG. 18 is a schematic diagram showing another example of generating a domain division candidate plan.
  • FIG. 19 is a schematic diagram showing the generation of domain division candidates in the case of explanatory variables different from the explanatory variables shown in FIG. 17.
  • FIG. 20 is a schematic diagram showing generation of domain division candidates in the case of explanatory variables different from those shown in FIG. 18.
  • FIG. 21 is a schematic diagram of generation of a domain division candidate plan to which time is applied as a domain candidate variable.
  • FIG. 22 is a schematic diagram of generation of a domain division candidate plan to which user attributes are applied as domain candidate variables.
  • FIG. 23 is a table showing an example of the data set shown in FIG. 22.
  • FIG. 24 is a schematic diagram showing a specific example of different domain determination.
  • Information recommendation technology is a technology for recommending (suggesting) items to users.
  • FIG. 1 is a conceptual diagram of a typical recommendation system.
  • the recommendation system 10 receives user information and context information as input, and outputs information on items recommended to the user according to the context.
  • Context refers to various situations, such as the day of the week, time of day, or weather. Items can be of various objects, such as books, videos, and restaurants.
  • the recommendation system 10 generally recommends multiple items at the same time.
  • FIG. 1 shows an example in which the recommendation system 10 recommends three items: item IT1, item IT2, and item IT3.
  • the recommendation is generally considered successful if the user responds positively to the recommended items IT1, IT2, and IT3. Positive reactions include, for example, purchases, viewings, and visits.
  • Such recommendation technology is widely used, for example, on e-commerce sites and gourmet sites that introduce restaurants.
  • Figure 2 is a conceptual diagram showing an example of supervised machine learning, which is widely used to construct recommendation systems.
  • the recommendation system 10 is constructed using machine learning technology.
  • positive examples and negative examples are prepared based on past user behavior history, and combinations of users and contexts are input to the prediction model 12, and the prediction model 12 is trained to reduce prediction errors.
  • a viewed item that the user viewed is a positive example
  • a non-viewed item that the user did not view is a negative example.
  • Machine learning is performed until the prediction error converges, and the target prediction performance is achieved.
  • the learned prediction model 12 is synonymous with the trained predictive model 12.
  • the prediction model 12 will predict that the user A will read a document such as item IT3 shown in FIG. 1 under the conditions of context ⁇ . It is inferred that there is a high probability that the item will be viewed, and an item similar to item IT3 is recommended to user A. Note that depending on the configuration of the recommendation system 10, items are often recommended to the user without considering the context.
  • a user's action history is equivalent to correct answer data in machine learning. Strictly speaking, it can be understood as a task setting that infers the next action from past action history, but it is common to learn latent features based on past action history.
  • the user's action history may include, for example, a book purchase history, a video viewing history, or a restaurant visit history.
  • the main feature quantities include user attributes and item attributes.
  • User attributes may include various elements such as gender, age, occupation, family structure, and residential area.
  • Item attributes can include various elements, such as the genre and price of a book, the genre and length of a video, and the genre and location of a restaurant.
  • FIG. 3 is an explanatory diagram showing a typical introduction flow of the recommendation system.
  • step 1 is to construct a model 14 that performs a target recommendation task
  • step 2 is to introduce and operate the constructed model 14.
  • constructing the model 14 includes learning the model 14 using learning data and creating a recommendation model that is a predictive model that satisfies a practical level of recommendation performance.
  • Operating the model 14 means, for example, obtaining an output of a recommended item list from the trained model 14 in response to input of a combination of a user and a context.
  • the construction of the model 14 requires learning data. As shown in FIG. 3, the recommendation system model 14 is generally trained based on data collected at the facility where it is introduced. By performing learning using data collected from the target facility, the model 14 learns the behavior of the users of the target facility and is able to accurately predict recommended items for the users of the target facility. It is possible.
  • FIG. 4 is an explanatory diagram of the introduction process of the recommendation system when data on the facility to be introduced cannot be obtained. If the model 14 that has been trained using data collected at a facility different from the facility where it is introduced is operated at the facility where it is inserted, the predictive accuracy of the model 14 will decrease due to differences in user behavior between the facilities. There's a problem.
  • Domain application is a problem setting related to domain generalization. This is a learning method that uses data from both the source and target domains. The purpose of using data from a different domain even though data for the target domain exists is to compensate for the fact that the amount of data for the target domain is small and insufficient for learning.
  • domain generalization can be referred to as Domain generalization using English notation.
  • Domain adaptation may be referred to as Domain adaptation using English notation.
  • FIG. 5 is an explanatory diagram when learning a model by domain application. Although the amount of data collected at the target domain, the facility where it is being introduced, is relatively smaller than the amount of data collected at a different facility, by learning using both types of data, The model 14 can also predict the behavior of users of the facility where it is introduced with a certain degree of accuracy.
  • Item attribute level For example, comedy movies and horror movies are different domains. Note that the item attribute level may be referred to as Item attribute level using English notation.
  • Item type level For example, movies and TV dramas are different domains. Note that the item type level may be referred to as Item type level using English notation.
  • Item level For example, movies and books are different domains. Note that the item level may be referred to as Item level using English notation.
  • System level For example, movies in movie theaters and movies shown on TV are separate domains. Note that the system level may be referred to as System level using English notation.
  • the domain is defined by the joint probability distribution P(X, Y) of objective variable Y and explanatory variable X, and when Pd1(X, Y) ⁇ Pd2(X, Y), This is a different domain.
  • the joint probability distribution P(X,Y) is the product of the distribution P(X) of the explanatory variable and the conditional probability distribution P(Y
  • Prior probability shift When the distribution P(Y) of the objective variable is different, it is called a prior probability shift. For example, a case where the average viewing rate or average purchase rate differs between data sets corresponds to a prior probability shift. Note that the prior probability shift may be referred to as Prior probability shift using English notation.
  • Predictive classification models that perform prediction or classification tasks make inferences based on the relationship between explanatory variables decreases.
  • Domain shift can be a problem not only for information recommendation but also for models of various tasks. For example, for a model that predicts the risk of employee retirement, domain shift can become a problem when a predictive model learned using data from one company is used in another company. Furthermore, domain shift can be a problem when a model that predicts the amount of antibody produced by a cell is trained using data from one antibody and is used with another antibody. In addition, for models that classify customer voices, for example, models that classify VOC into product function, support response, and others, domain shift occurs when a classification model learned using data about one product is used for another product. That could be a problem. Note that VOC is an abbreviation for Voice of Customer, which is an English expression for customer voice.
  • FIG. 6 is an explanatory diagram of the recommendation system introduction flow including the step of evaluating the performance of the trained learning model.
  • a step of evaluating the performance of the model 14 is added as step 1.5 between step 1 of learning the model 14 explained in FIG. 5 and step 2 of operating the model 14.
  • the other configurations are the same as in FIG. 5.
  • data collected at the installation destination facility is often divided into learning data and evaluation data. After confirming the predictive performance of the model 14 using the evaluation data, the operation of the model 14 is started.
  • the learning data and evaluation data need to be in different domains. Furthermore, in domain generalization, it is preferable to use data from multiple domains as learning data, and it is more preferable that there are many domains that can be used for learning.
  • FIG. 7 is an explanatory diagram showing an example of learning data and evaluation data used in machine learning.
  • the data set obtained from the joint probability distribution Pd1 (X, Y) of a certain domain d1 is divided into learning data and evaluation data. Evaluation data in the same domain as the learning data is referred to as first evaluation data, and is denoted as evaluation data 1 in FIG.
  • a data set obtained from the joint probability distribution Pd2 (X, Y) of domain d2 different from domain d1 is prepared, and this is used as evaluation data.
  • Evaluation data in a domain different from the learning data is referred to as second evaluation data, and is denoted as evaluation data 2 in FIG. 7 .
  • the model 14 is trained using the training data of the domain d1, and the performance of the trained model 14 is calculated using the first evaluation data of the domain d1 and the second evaluation data of the domain d2. is evaluated.
  • FIG. 8 is a graph schematically showing differences in model performance due to differences in data sets.
  • the performance of the model 14 in the learning data is performance A
  • the performance of the model 14 in the first evaluation data is performance B
  • the performance of the model 14 in the second evaluation data is performance C.
  • the relationship is performance A>performance B>performance C.
  • the high generalization performance of the model 14 generally refers to high performance B or a small difference between performances A and B. In other words, the high generalization performance of the model 14 is aimed at achieving high prediction performance even for untrained data without overfitting the learning data.
  • domain generalizability in this specification, it refers to high performance C or a small difference between performance B and performance C.
  • the aim is to achieve consistently high performance even in a domain different from the one used for learning.
  • FIG. 9 is an explanatory diagram of data necessary for developing a domain generalization model.
  • FIG. 10 is a block diagram schematically showing an example of the hardware configuration of the information processing device according to the embodiment.
  • the information processing device 100 performs a process of dividing a dataset consisting of behavior histories of multiple users with respect to multiple items into domains by excluding objective variables and explanatory variables, and creates a dataset for each domain. generate.
  • the information processing device 100 is realized using computer hardware and software.
  • the physical form of the information processing device 100 is not particularly limited, and may be a server computer, a workstation, a personal computer, a tablet terminal, or the like.
  • an example will be described in which the processing functions of the information processing apparatus 100 are realized using one computer, but the processing functions of the information processing apparatus 100 may also be realized by a computer system configured using a plurality of computers. Good too.
  • the information processing device 100 includes a processor 102, a computer readable medium 104 which is a non-transitory tangible object, a communication interface 106, an input/output interface 108, and a bus 110.
  • the processor 102 includes a CPU (Central Processing Unit).
  • the processor 102 may include a GPU (Graphics Processing Unit).
  • Processor 102 is connected to computer readable media 104, communication interface 106, and input/output interface 108 via bus 110.
  • the processor 102 reads various programs, data, etc. stored in the computer-readable medium 104, and executes various processes.
  • the term program includes the concept of a program module and includes instructions similar to a program.
  • the computer-readable medium 104 is, for example, a storage device that includes a memory 112 that is a main storage device and a storage 114 that is an auxiliary storage device.
  • the storage 114 is configured using, for example, a hard disk device, a solid state drive device, an optical disk, a magneto-optical disk, a semiconductor memory, and the like.
  • the storage 114 may be configured using an appropriate combination of the devices described above.
  • the storage 114 stores various programs, data, and the like.
  • the hard disk device may be referred to as an HDD using the abbreviation of the English notation Hard Disk Drive.
  • a solid state drive device may be referred to as an SSD (using the English notation Solid State Drive).
  • the memory 112 includes an area used as a work area for the processor 102 and an area for temporarily storing programs and various data read from the storage 114.
  • a program stored in the storage 114 is loaded into the memory 112, and the instructions of the program are executed by the processor 102, so that the processor 102 functions as a means for performing various processes specified by the program.
  • the memory 112 includes a domain candidate variable selection program 130, a dataset candidate generation program 132, a dataset determination program 134, a dataset generation program 136, a learning program 138, a learned model evaluation program 139, etc., which are executed using the processor 102. Various programs, various data, etc. are stored.
  • the memory 112 includes an original dataset storage section 140, a domain candidate variable storage section 142, a generated data storage section 144, and a learned model storage section 145.
  • the original data set storage unit 140 is a storage area in which a data set from which a data set of a different domain is generated is stored as an original data set.
  • the domain candidate variable storage unit 142 is a storage area in which a plurality of variables excluding the objective variable and explanatory variables are stored as domains.
  • the generated data storage unit 144 is a storage area in which pseudo behavior history data generated using the dataset generation program 136 is stored.
  • the trained model storage unit 145 is a storage area in which learning is performed using datasets generated as datasets of different domains, and the generated trained models are stored.
  • the communication interface 106 performs communication processing with an external device using wired or wireless communication, and exchanges information with the external device.
  • the information processing device 100 is connected to a communication line via a communication interface 106.
  • the communication line may be a local area network, a wide area network, or a combination thereof. Note that illustration of the communication line is omitted.
  • the communication interface 106 can play the role of a data acquisition unit that accepts input of various data such as original data sets.
  • the information processing device 100 includes an input device 122 and a display device. Input device 122 and display device 124 are connected to bus 110 via input/output interface 108 .
  • the input device 122 may be, for example, a keyboard, mouse, multi-touch panel, other pointing device, voice input device, or the like.
  • the input device 122 may be an appropriate combination of the above-mentioned keyboards and the like.
  • the display device 124 for example, a liquid crystal display, an organic EL display, a projector, etc. are applied.
  • the display device 124 may be an appropriate combination of the above-mentioned liquid crystal displays and the like.
  • the input device 122 and the display device 124 may be integrally configured like a touch panel, or the information processing device 100, the input device 122, and the display device 124 may be integrally configured like a touch panel tablet terminal. may be configured.
  • Organic EL displays may be referred to as OEL, an abbreviation for organic electro-luminescence.
  • EL in organic EL display is an abbreviation for Electro-Luminescence.
  • FIG. 11 is a functional block diagram showing the functional configuration of the information processing device shown in FIG. 10.
  • the information processing device 100 includes a dataset acquisition unit 150, a domain candidate variable selection unit 152, a domain division candidate generation unit 154, a different domain determination unit 156, a dataset generation unit 158, a learning unit 159, and a learned model evaluation unit 160. Be prepared.
  • the data set acquisition unit 150 acquires a data set of behavior history obtained for each item of a plurality of users in one domain, which is an original data set.
  • the original dataset acquired using the dataset acquisition unit 150 is stored in the original dataset storage unit 140.
  • the domain candidate variable selection unit 152 selects two or more variables as domain candidate variables to be domain candidates from among a plurality of variables included in the data set, excluding the objective variable and explanatory variables.
  • the domain candidate variables selected using the domain candidate variable selection unit 152 are stored in the domain candidate variable storage unit 142.
  • the domain division candidate plan generation unit 154 uses the domain candidate variables selected using the domain candidate variable selection unit 152 to generate a domain division candidate plan, which is a candidate plan for the dataset into which the data set is to be divided.
  • the different domain determination unit 156 determines whether the domain division candidate plan generated using the domain division candidate proposal generation unit 154 is a data set of a different domain.
  • the dataset generation unit 158 divides the dataset using the variable selected in the domain division candidate plan determined by the different domain determination unit 156 to be a data set of a different domain. to generate a pseudo multi-domain dataset. Note that the pseudo multiple domain data set described in the embodiment is an example of a divided data set.
  • the dataset generation unit 158 may perform processing to correct the dataset so that each user has only one of the pseudo-domain datasets.
  • the dataset generation unit 158 may perform processing to correct the dataset so that each item exists in only one of the pseudo-domain datasets. This enables learning and evaluation of large system-level domain shifts.
  • the learning unit 159 performs learning on the pseudo multi-domain dataset generated using the dataset generating unit 158 to generate a learned model that is a predictive model of the user's behavior history.
  • the trained model is stored in the trained model storage unit 145.
  • the trained model evaluation unit 160 evaluates the trained model generated using the learning unit 159.
  • the trained model storage unit 145, the learning unit 159, and the trained model evaluation unit 160 may be separated from the information processing device 100.
  • the information processing device 100 may function as a device that generates pseudo data sets of multiple domains. Furthermore, a device including the trained model storage section 145 and the learning section 159 may function as a device that generates a trained model. Furthermore, the device including the trained model evaluation unit 160 may function as a device that evaluates the trained model.
  • the behavior history data As the behavior history data, the behavior history in the in-hospital test result viewing system shown in FIG. 9 can be applied. In the same figure, a part of the table of action history data is illustrated. The items in the behavior history data shown in the figure are test results.
  • the table shown in FIG. 9 has columns for user ID, item ID, user attribute 1, user attribute 2, item attribute 1, item attribute 2, context 1, context 2, and viewing status. Note that ID is an abbreviation for identification.
  • the time column in the table shown in FIG. 9 indicates the date and time when the item was viewed.
  • the user ID is user identification information used to identify the user.
  • FIG. 9 shows an example in which a unique number for each user is applied as the user ID.
  • the item ID is item identification information used to identify the item.
  • FIG. 9 shows an example in which a unique number for each item is applied as the item ID.
  • the user attribute 1 is applied to the medical department to which the user belongs.
  • job type is applied to user attribute 2.
  • the inspection type is applied to the item attribute 1.
  • the patient's gender is applied to the item attribute 2.
  • Context 1 applies, for example, to the presence or absence of hospitalization.
  • Context 2 applies, for example, the elapsed time since item creation.
  • Viewed status is 1 if the item is viewed. Note that there are a huge number of items that have not been viewed, and in general, only when an item whose viewing status is 1 is viewed is recorded in a record.
  • each of item attribute 1, item attribute 2, context 1, and context 2 is an example of an explanatory variable.
  • time, user ID, item ID, user attribute 1, and user attribute 2 are examples of a plurality of variables excluding the objective variable and explanatory variable.
  • explanatory variables and the combinations of explanatory variables are not limited to the example shown in FIG. 9.
  • User attributes 3, context 3, etc. may be included as explanatory variables.
  • an aspect may be applied in which context 1 and context 2 are not included in the explanatory variables.
  • FIG. 12 is a flowchart showing the procedure of the information processing method according to the embodiment.
  • the dataset acquisition unit 150 shown in FIG. 11 acquires a dataset.
  • the process proceeds to a domain candidate variable selection step S12.
  • the domain candidate variable selection unit 152 selects domain candidate variables from among the variables applied to the dataset acquired in the dataset acquisition step S10. After the domain candidate variable selection step S12, the process proceeds to a domain division candidate generation step S14.
  • the domain division candidate generation unit 154 divides the dataset acquired by the dataset acquisition unit 150 using the domain candidate variables selected in the domain candidate variable selection step S12. Generate candidate plans.
  • a plurality of domain division candidate plans may be generated using a plurality of sets of domain candidate variables. After the domain division candidate generation step S14, the process proceeds to a different domain determination step S16.
  • the different domain determination unit 156 determines whether the data set for each domain candidate variable generated in the domain division candidate proposal generation step S14 is a data set for each different domain.
  • a different domain determination step S16 determines whether each of the plurality of domain division candidates is a data set for each different domain. It will be judged. After the different domain determination step S16, the process proceeds to domain division candidate plan evaluation determination S18.
  • domain division candidate plan evaluation determination S18 the different domain determination unit 156 makes a No determination if it is determined that determination results have not been obtained for all domain division candidate plans. If the determination is No, the process returns to the different domain determination step S16, and the different domain determination step S16 and domain division candidate evaluation determination S18 are repeatedly executed until a Yes determination is made in the domain division candidate evaluation determination S18.
  • domain division candidate plan evaluation determination S18 if the different domain determination unit 156 determines that determination results have been obtained for all domain division candidate plans, the determination is Yes. If the determination is Yes, the process advances to the data set generation step S20.
  • the dataset generation step S20 the dataset is divided using the domain candidate variable applied to the domain division candidate plan that was determined to be a data set for each different domain in the domain division candidate plan evaluation determination S18. generate multiple datasets that can be considered as datasets for each of multiple domains.
  • the process advances to the data set storage step S22.
  • the data set generation unit 158 stores the plurality of generated data sets in the generated data storage unit 144. After the data set storage step S22, the process proceeds to a trained model generation step S24.
  • the learning unit 159 performs learning using the dataset generated by the dataset generation unit 158 to generate a trained learning model.
  • the trained model generated in the trained model generation step S24 is stored in the trained model storage section 145. After the learned model generation step S24, the process proceeds to the learned model evaluation step S26.
  • the trained model evaluation unit 160 performs a performance evaluation of the trained model generated in the trained model generation step S24.
  • the trained model that is evaluated to satisfy the specified performance in the trained model evaluation step S26 is introduced into a domain different from the domain from which the original data set was acquired.
  • the information processing device 100 ends the procedure of the information processing method.
  • the learned model generation step S24 may be executed as a learned model manufacturing method in a learned model generation device different from the information processing device 100.
  • the learned model evaluation step S26 may be executed as a learned model evaluation method in a learned model evaluation device different from the information processing device 100 and the learned model generation device.
  • the recommendation model generated by performing learning using the data set uses item attribute 1, item characteristic 2, context 1, and context 2 as explanatory variables. Furthermore, the recommendation model uses whether or not the item is viewed as an objective variable to predict whether or not the item is viewed, which is a user's behavior. When operating as a recommendation system, the learned recommendation model is used to predict the viewing rates for all candidate items, and the five items with the highest viewing rates are selected and recommended.
  • the action history in the test result viewing system shown in FIG. 9 includes time, user ID, user attribute 1, and user attribute 2 as a plurality of variables excluding the objective variable and explanatory variable.
  • any one of the plurality of variables excluding the objective variable and explanatory variable described above is utilized as a domain candidate variable.
  • the data set for respiratory medicine is Data Set 1A
  • the data set for gastrointestinal medicine is Data Set 1B.
  • Learning was performed using Dataset 1A
  • viewing prediction was performed within the range of Dataset 1A
  • the hit@5 index which represents the probability that one recommendation is correct out of five recommendations, was 34%. do.
  • viewing prediction is performed within the range of dataset 1B, and the hit@5 index is 32%. The rate of decline in predictive performance in such a case is 2%.
  • the hit@5 index of predictions made within the range of Dataset 1A and the hit@5 index of predictions made within the range of Dataset 1B are 1%.
  • the average rate of decline in predictive performance of a trained model generated by training using Dataset 1A and the rate of decline in predictive performance of a trained model generated by training using Dataset 1B is , 1.5 percent.
  • the user attribute 2 to which the job type is applied is applied to the domain candidate variable to divide the original data set.
  • the doctor's data set be Data Set 2A
  • the nurse's data set be Data Set 2B.
  • the hit@5 index is 32%.
  • the hit@5 index is 21%.
  • the rate of decline in prediction performance is 11 percent.
  • the difference between the index of hit@5 when evaluated within the range of dataset 2A and the index of hit@5 when evaluated within the scope of dataset 2B is Assume that it is 9%.
  • the average rate of decline in prediction performance is 10 percent.
  • the dataset is divided using user attribute 1 as a domain candidate variable
  • the above-mentioned rate of decline in prediction performance is significantly greater. Therefore, when the dataset is divided using user attribute 2 as a domain candidate variable, it is determined that it is suitable for dividing into different domains. Based on the determination result, the data set 2 is divided using the user attribute 2, and a pseudo multi-domain data set is generated.
  • learning is performed using the generated dataset, and a trained model is generated. Additionally, the trained model is evaluated. If there are multiple model candidates, it is preferable to evaluate each model candidate and select the optimal model before operating the recommendation system.
  • logistic regression logistic regression
  • factorization machines factorization machines
  • gradient boosting decision trees each model has hyperparameters for learning.
  • hyperparameters in logistic regression include regularization coefficients.
  • hyperparameters in factorization machines include regularization coefficients and the number of latent dimensions.
  • Hyperparameters in the gradient boosting decision tree include the depth of the tree and the number of trees. Here, we will randomly select 20 combinations of hyperparameters for each model and perform a random grid search to search for the optimal hyperparameters.
  • the trained model with the highest performance evaluation is considered to be the trained model with the highest performance as data in a domain different from the training data and the highest domain generalization. It will be done.
  • the regularization coefficient of factorization machines is 0.001 and the number of latent dimensions is 50, the performance evaluation result using dataset 2B is highest, then factorization machines are adopted as the model, The regularization coefficient and the number of latent dimensions are adopted as hyperparameters.
  • FIG. 13 is a schematic diagram of the generation of a dataset using domain candidate variables.
  • FIG. 13 schematically illustrates the processing of the domain division candidate generation step S14 and the processing of the different domain determination step S16 shown in FIG. 12.
  • FIG. 13 schematically illustrates a process of generating a domain division candidate plan in which the original dataset 300 is divided into two using the domain candidate variable 302 to generate a dataset 304 and a dataset 306.
  • a domain is a data set consisting of an explanatory variable X and an objective variable Y generated from a certain probability distribution P(X, Y).
  • the mutually different domains be d1 and d2, respectively, and the relationship between the probability distribution Pd1 (X, Y) in the domain d1 and the probability distribution Pd2 (X, Y) in the domain d2 is Pd1 (X, Y) ⁇ Pd2 (X, In the case of Y), the domain d1 and the domain d2 are different domains.
  • FIG. 14 is a schematic diagram showing an example of domain division candidate plan generation applied to the generation of the data set shown in FIG. 13.
  • FIG. 14 shows an example of dividing the data set 300 using the domain candidate variable 302A representing time series when the data set 300 is the behavior history data shown in FIG.
  • FIG. 14 shows an example in which the data set is divided into two parts: a data set 304A before time t1 and a data set 306A beyond time t1.
  • FIG. 15 is a schematic diagram showing another example of domain division candidate plan generation applied to the generation of the data set shown in FIG. 13. An example of dividing the data set 300 using the user attribute as the domain candidate variable 302B when the behavior history data shown in FIG. 9 is used as the data set 300 will be shown.
  • the data set is divided by either user attribute 1 to which the affiliated medical department is applied or user attribute 2 to which the job type is applied, as shown in FIG.
  • the behavior history of user attribute A in FIG. The history is a data set 306B in which a user whose occupation is gastroenterology viewed the test result viewing system.
  • FIG. 16 is a schematic diagram of data set generation when multiple domain candidate variables are selected.
  • FIG. 16 shows an example in which domain candidate variables 312A, 312B, and 312C are selected, and domain division candidate plan 1, domain division candidate plan 2, and domain division candidate plan 3 are generated.
  • Domain division candidate plan 1 shown in FIG. 16 is a domain division candidate plan in which the dataset 300 is divided into a dataset 314A and a dataset 316A using a domain candidate variable 312A.
  • Domain division candidate plan 2 is a domain division candidate plan in which the dataset 300 is divided into a dataset 314B and a dataset 316B using the domain candidate variable 312B.
  • Domain division candidate plan 3 is a domain division candidate plan in which the dataset 300 is divided into a dataset 314C and a dataset 316C using a domain candidate variable 312C.
  • domain division candidate plan 2 is determined to be a data set for each different domain. On the other hand, it is determined that both domain division candidate plan 1 and domain division candidate plan 3 are not data sets for different domains. Domain division candidate plan 2 is adopted, and data set 314B and data set 316B are generated from data set 300.
  • FIG. 17 is a schematic diagram showing an example of generation of a domain division candidate plan.
  • FIG. 17 illustrates an example of generation of a domain division candidate plan when domain division candidate plan 2 shown in FIG. 16 is adopted.
  • Graphs 320 and 322 shown in FIG. 17 are graphs in which the horizontal axis represents the number of days that have passed since item creation, which is an explanatory variable in the prediction model, and the vertical axis represents the data existence probability P(X, Y).
  • Graph 320 shown in FIG. 17 corresponds to data set 314B shown in FIG. 16. Additionally, graph 322 corresponds to data set 316B.
  • the number of days that have passed since the item creation date which is the domain candidate variable on the horizontal axis of the graphs 320 and 322, is a characteristic quantity that is universal to domains.
  • the number of days that have passed since the item creation date is suitable as an explanatory variable for the prediction model.
  • FIG. 18 is a schematic diagram showing another example of generating a domain division candidate plan.
  • Graphs 324 and 326 shown in FIG. 18, like the graph 320 shown in FIG. 17, are graphs in which the horizontal axis represents the number of days that have passed since item creation and the vertical axis represents the data existence probability P (X, Y). It is.
  • the graph 324 shown in FIG. 18 corresponds to the data set 314A generated in the division candidate plan 1 shown in FIG. 16, and the graph 326 corresponds to the data set 316B.
  • FIG. 19 is a schematic diagram showing the generation of domain division candidates in the case of explanatory variables different from those shown in FIG. 17.
  • Graphs 340 and 342 shown in FIG. 19 are graphs representing the distribution of the existence probability of data with respect to the explanatory variable when the user's gender is applied as the explanatory variable.
  • the user's gender is a feature universal to the domain and is used as an explanatory variable in prediction models.
  • the graph 340 corresponding to data set 314B and the graph 342 corresponding to data set 316B male data and female data exist, and there is a certain overlap between them.
  • FIG. 20 is a schematic diagram showing the generation of domain division candidates in the case of explanatory variables different from those shown in FIG. 18. Similar to FIG. 19, in FIG. 20, the gender of the user, which is an explanatory variable in the prediction model, is applied, and the vertical axis is a graph 344 and Graph 346 is illustrated.
  • FIG. 21 is a schematic diagram of generation of a domain division candidate plan to which time is applied as a domain candidate variable.
  • FIG. 21 shows a further specific example of the example shown in FIG. 14.
  • As a domain division candidate plan 1 an example will be shown in which a data set 354A for months A and B days and earlier and a data set 356A exceeding A months and B days are generated using a domain candidate variable 352A to which a date is applied.
  • a data set 354B of month C and day D and earlier and a data set 356B exceeding month C and day D are generated using a domain candidate variable 352B to which the date is applied.
  • a data set 354B of month C and day D and earlier and a data set 356B exceeding month C and day D are generated using a domain candidate variable 352B to which the date is applied.
  • a data set 354C before E month F day and a data set 356B exceeding E month F day are generated using a domain candidate variable 352C to which the date is applied.
  • a month B day, C month D day, and E month F day indicate arbitrary dates that are different from each other.
  • domain division candidate plan 2 is adopted, and from the data set 300, a data set 354B for month C and day D and earlier, and a data set 356B for month C and day D are generated.
  • FIG. 22 is a schematic diagram of generation of a domain division candidate plan to which user attributes are applied as domain candidate variables.
  • FIG. 23 is a table showing an example of the data set shown in FIG. 22.
  • FIG. 23 shows a part of a table of behavior history data regarding document viewing obtained from a document information management system of a certain company.
  • FIG. 22 shows a further specific example of the example shown in FIG. 15.
  • domain division candidate plan 1 As domain division candidate plan 1, an example will be shown in which a dataset 404, a dataset 406, and a dataset 408 are generated from a dataset 400 using a domain candidate variable 402 to which a department is applied.
  • FIG. 22 shows an example in which a dataset 414, a dataset 416, and a dataset 418 are generated from the dataset 400 using a domain candidate variable 412 to which an age is applied as a domain division candidate plan 2.
  • domain division candidate plan 1 is adopted, and a data set 404 for department A, a data set 406 for department B, and a data set 408 for department C are generated from the data set 400.
  • item attribute 1, item attribute 2, context 1, and context 2 are illustrated as explanatory variables X, but if these variables are not used as explanatory variables of the prediction model, they may be domain candidate variables.
  • the original data set may be divided using item attribute 1 and item attribute 2 that are not used as explanatory variables of the prediction model to generate multiple data sets.
  • item attribute 1 and item attribute 2 that are not used as explanatory variables of the prediction model to generate multiple data sets.
  • a data set corresponding to CT a data set corresponding to You may generate a dataset corresponding to .
  • CT is an abbreviation for Computed Tomography.
  • PCR is an abbreviation for polymerase chain reaction.
  • a data set corresponding to a male patient and a data set corresponding to a female patient may be generated by using the item attribute 2 to which the patient gender shown in FIG. 9 is applied as a domain candidate variable.
  • a dataset corresponding to outpatients and a dataset corresponding to inpatients may be generated using Context 1 shown in FIG. 9 to which the presence or absence of hospitalization is applied as a domain candidate variable. Furthermore, a data set before a certain elapsed time and a data set exceeding a certain elapsed time may be generated by using the context 2 to which the elapsed time from the item creation date is applied as a domain candidate variable. Note that variables that are not used as explanatory variables described in the embodiments are examples of variables that are not applied to explanatory variables.
  • FIG. 24 is a schematic diagram showing a specific example of different domain determination.
  • two datasets are generated in each domain division candidate plan, one dataset is used to generate a trained model, and the prediction performance within the range of one dataset is compared with that of the other dataset.
  • An example will be shown in which it is determined whether two data sets are data sets of different domains based on the rate of decline in prediction performance within a range.
  • a data set 502 and a data set 504 are generated from the data set 500. Learning is performed using the dataset 502 to generate a trained model 510. Note that learning may be performed using the data set 504 to generate a trained model.
  • Prediction performance is evaluated within the range of data set 502 using the trained model 510, and prediction performance P1A is derived. Prediction performance is evaluated within the range of data set 504 using trained model 510, and prediction performance P1B is derived. Specifically, the predicted performance P1B is subtracted from the predicted performance P1A to calculate P1A-P1B as the predicted performance decrease.
  • a dataset 522 and a dataset 524 are generated from the dataset 500, and a trained model 520 is generated using the dataset 522 or the dataset 524.
  • Predicted performance P2A in the range of data set 522 and predicted performance P2B in the range of data set 524 are derived, and P2A ⁇ P2B is calculated as the decrease in predicted performance.
  • a dataset 532 and a dataset 534 are generated from the dataset 500, and a trained model 530 is generated using the dataset 532 or the dataset 534.
  • Predicted performance P3A in the range of data set 532 and predicted performance P3B in the range of data set 534 are derived, and P3A ⁇ P3B is calculated as the decrease in predicted performance.
  • , and the decrease in prediction performance in domain division candidate plan 3 The domain division candidate plan to be adopted is determined based on the size
  • domain division candidate plan 2 is adopted, and data set 522 and data set 524 are generated from data set 500.
  • the predictive performance of a trained model depends on the amount of training data applied to learning. When generating a trained model, the amount of learning data is adjusted or the dependence on the amount of learning data is corrected.
  • the rate of decrease in prediction performance and the amount of decrease in prediction performance described in the embodiments are examples of performance differences between prediction models.
  • one dataset in each domain division candidate plan is an example of a first dataset candidate, and the other dataset is an example of a second dataset candidate.
  • Different domains may be determined using differences in probability distributions for each domain candidate variable. For example, the amount of Kullback-Leibler information in the probability distribution for each domain candidate variable may be used for different domain determination. Note that the Kullback-Leibler information amount can be referred to as Kullback-Leibler divergence using English notation.
  • the Kullback-Leibler information amount is expressed as the following equation 1 expressed.
  • the domain d1 here is one of the domain candidate variables
  • the domain d2 is one of the domain candidate variables different from the domain candidate variable designated as the domain d1.
  • Optimal transport distance may be applied as an index representing the difference in probability distribution applied to different domain determination.
  • Optimal transport distance is expressed as Equation 2 below.
  • X i in Equation 2 is data of domain d1
  • X j is data of domain d2.
  • [1] Select a domain candidate variable from among multiple variables excluding the objective variable and explanatory variable in the prediction model, generate a domain division candidate plan that divides the original dataset using the domain candidate variable, and divide each domain division candidate. For each proposal, it is determined whether or not it is suitable as a dataset for a different domain, and the original dataset is divided using domain candidate variables that are determined to be appropriate as a dataset for a different domain. Multi-domain datasets are generated.
  • the number of domains in the learning data can be increased, and the number of domains used for learning and evaluation of trained models can be increased.
  • domain candidate variables time, user attributes not used as explanatory variables, item attributes not used as explanatory variables, or contexts not used as explanatory variables are applied. This makes it possible to perform division of the original data set, which is suitable for generating pseudo multi-domain data sets.
  • an index representing the difference in probability distribution in the data set for each domain candidate variable is derived, and the index is applied to the determination.
  • Data sets in which there are differences in probability distribution are suitable as data sets for different domains.
  • a trained model is generated using one of multiple datasets for each domain segmentation candidate, and the performance of the trained model is evaluated in each range of the multiple datasets to determine the decrease in performance. is derived, and the decrease in performance is used for determination.
  • Data sets with performance degradation are suitable as data sets for different domains.
  • a plurality of data sets generated by dividing the original data set are corrected so that one of each user exists in only one data set. This enables learning and performance evaluation for large domain shifts at the system level of other facilities.
  • a plurality of data sets generated by dividing the original data set are corrected so that each item exists in only one data set. This enables learning and performance evaluation for large domain shifts at the system level of other facilities.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

異なるドメインのユーザー行動履歴のデータセットの生成が実現される、情報処理方法、情報処理装置及びプログラムを提供する。情報処理方法は、1つのドメインにおける、目的変数、説明変数及び目的変数と説明変数とを除外した複数の変数が適用されるデータセットを取得し、目的変数と説明変数とを除外した複数の変数から、ドメイン候補となる複数のドメイン候補変数を選択し、ドメイン候補変数を用いてデータセットを分割するデータセット候補を生成し、データセット候補のそれぞれが、異なるドメインにおけるデータセットである場合に、ドメイン候補変数をドメインとして、分割データセットを生成する。

Description

情報処理方法、情報処理装置及びプログラム
 本発明は情報処理方法、情報処理装置及びプログラムに関する。
 多くのアイテムの中からユーザーが自分に合ったベストなものを選ぶことは、時間的にも認知能力的にも難しい。例えば、ECサイトのユーザーであれば、アイテムはECサイトで扱っている商品であり、文書情報管理システムのユーザーであればアイテムは格納されている文書情報である。
 非特許文献1及び非特許文献2には、ユーザの選択の補助を目的として、アイテムの中から選択候補を提示する技術である情報推薦技術に関する研究について記載されている。なお、ECサイトのECはElectronic Commerceの省略語である。
 一般に、情報推薦システムは導入先の施設で収集したデータを基に学習する。しかし、学習データと異なる施設に情報推薦システムを導入すると、モデルの予測精度が低下してしまう問題がある。未知の他施設では機械学習モデルがうまく機能しない問題はドメインシフトと呼ばれ、非特許文献3及び非特許文献4に記載されるように、ドメインシフトに対するロバスト性向上の研究であるdomain generalizationが、近年、画像認識を中心に研究が活発化している。
   Domain generalizationの学習及び評価において、複数ドメインのデータセットは必須であり、ドメイン数は多い方がよい。多くのドメインのデータを集めるのは困難であるか又は高コストであることが多いため、異なるドメインのデータを生成する技術が求められる。
   非特許文献5は、深層学習を用いたデータ生成手法の1つである、CGANと称されるConditional Generative Adversarial Networkを用いて、情報推薦技術に必要なユーザ行動履歴を疑似的に生成する技術が記載される。
   非特許文献6は、異なるドメインのデータを生成する技術が記載される。具体的には、同文献では、ソースドメインのデータを異なる疑似ドメインのデータに変換する生成器を提案している。同文献に記載の生成器は、ソースドメインとのデータの確率分布の距離が遠くなる疑似ドメインを生成している。
 特許文献1は、ユーザを複数のグループに分割し、各グループの連合学習を適用して、サービスに適用する予測モデルを多重モデルとして生成する多重モデル提供方法が記載される。
 特許文献2は、ユーザ属性及びディリクレ過程を用いてユーザをグループ分けし、グループ毎に予測モデルを生成する情報処理装置が記載される。同文献に記載の装置は、生成された予測モデルから、ユーザに適合する予測モデルを選択している。
 特許文献3は、医療施設向けAIの学習データを、属性情報などを基に選別する医療診断装置が記載される。同文献に記載の装置は、属性の偏りが少くなる選別、学習済みAIを使用する施設のテストデータと属性分布が近くなる選別を実施する。なお、AIはArtificial Intelligenceの省略語である。
特開2021-197181号公報 特開2016-062509号公報 特開2021-086558号公報
Dietmar Jannach、Markus Zanker、Alexander Felfernig、Gerhard Friedrich著、田中克己、角谷和俊訳「情報推薦システム入門-理論と実践‐」共立出版、2012年 Deepak K. Agarwal, Bee-Chung Chen著「推薦システム:統計的機械学習の理論と実践」共立出版、2018年 Jindong Wang1、Cuiling Lan1、Chang Liu1、Yidong Ouyang2、Tao Qin著"Generalizing to Unseen Domains: A Survey on Domain Generalization"Microsoft Research, Beijing, China、2021年 Kaiyang Zhou、Ziwei Liu、Yu Qiao、Tao Xiang、Chen Change Loy著"Domain Generalization in Vision: A Survey"Central University of Finance and Economics, Beijing, China、2021年 Wang, Qinyong、Yin, Hongzhi、Wang, Hao、Nguyen, Quoc Viet Hung、Huang, Zi、Cui, Lizhen著"Enhancing Collaborative Filtering with Generative Augmentation"Griffith University"、2019年 Kaiyang Zhou、Yongxin Yang、Timothy Hospedales、Tao Xiang著"Learning to Generate Novel Domains for Domain Generalization"、2020年
 しかしながら、従来技術の多くはモデルの学習及び評価に使える複数ドメインのそれぞれについてデータがあることを前提としており、単一のドメインのデータしか存在ない場合は学習及び評価の実施が困難である。複数ドメインのそれぞれについてデータがある場合であっても、ドメインの数が学習及び評価に十分な数でない場合は、学習モデルの性能が低下してしまう。
 非特許文献5に記載のように、ユーザの行動履歴の生成の研究があるが、同一のドメインのデータを生成するものであり、単一のドメインのデータから複数のドメインのデータを生成するものではない。
 非特許文献6に記載のように、学習及び評価に十分な数のドメインがない場合に、単一のドメインのデータから異なるドメインのデータを生成する試みが始まっているが、十分な成果は得られていない。
 特許文献1に記載の方法は、段落[0064]の記載及び段落[0066]の記載から、類似した特性のユーザごとにグループに分類することを想定するものであると解釈される。単一のドメインのデータを複数のドメインのデータとして分割する場合、グループ間の相違性が重要であり、同文献に記載の方法では、適切なドメイン分割は困難である。
 特許文献2に記載の装置は、予測モデルに必要な説明変数を少なくし、予測値の計算時間を短くすることを目的としてグループ分けを実施しており、特許文献1に記載の方法と同様に、類似した特性のユーザごとのグループに分類している。一方、ドメイン分割は、グループ内のデータの類似性ではなく、グループ間の相違性が重要であり、同文献に記載の装置では、適切なドメイン分割は困難である。
 特許文献3に記載の装置は、同文献の段落[0002]の記載及び段落[0004]の記載からドメインの汎化ではなく、ドメイン特化型のAIの開発を目的としていると考えられる。同文献に記載の装置は、単一のドメインに適したモデルの構築を目指したデータの選択を行っており、選択されたデータのみではドメイン汎化のモデルの構築は困難である。また、同文献に記載の装置は、単一のデータセットを生成するものであり、複数のデータセットの生成は困難である。
 本発明はこのような事情に鑑みてなされたもので、異なるドメインのユーザー行動履歴のデータセットの生成が実現される、情報処理方法、情報処理装置及びプログラムの提供を目的とする。
 本開示に係る情報処理方法は、複数のユーザーの複数のアイテムに対する行動履歴からなるデータセットに対して、ユーザーの行動を目的変数として、目的変数及び1つ以上の説明変数を用いる予測モデルの構築に適用されるデータセットを生成する情報処理方法であって、1つのドメインにおけるデータセットであり、目的変数、説明変数及び目的変数と説明変数とを除外した複数の変数が適用されるデータセットを取得し、目的変数と説明変数とを除外した複数の変数から、ドメイン候補となる複数のドメイン候補変数を選択し、ドメイン候補変数を用いてデータセットを分割するデータセット候補を生成し、データセット候補のそれぞれが、異なるドメインにおけるデータセットであるか否かを判定し、データセット候補のそれぞれが、異なるドメインにおけるデータセットである場合に、ドメイン候補変数をドメインとして、データセットをドメインごとに分割して、分割データセットを生成する情報処理方法である。
 本開示に係る情報処理方法によれば、1つのドメインにおけるデータセットから、疑似的な異なるドメインのデータセットを生成し得る。
 他の態様に係る情報処理方法において、説明変数ごとのデータの存在確率の分布の少なくとも一部が重なるデータセット候補を生成してもよい。
 かかる態様によれば、説明変数の重なりが存在する複数のデータセットが生成される。
 他の態様に係る情報処理方法において、ドメイン候補変数として時間を適用して、データセット候補を生成してもよい。
 かかる態様によれば、時系列の違いがドメインの違いとされた、疑似的な異なるドメインのデータセットを生成し得る。
 他の態様に係る情報処理方法において、ドメイン候補変数として説明変数に非適用のユーザー属性を適用して、データセット候補を生成してもよい。
 かかる態様によれば、ユーザー属性の違いがドメインの違いとされた、疑似的な異なるドメインのデータセットを生成し得る。
 他の態様に係る情報処理方法において、ドメイン候補変数として説明変数に非適用のアイテム属性を適用して、データセット候補を生成してもよい。
 かかる態様によれば、アイテム属性の違いがドメインの違いとされた、疑似的な異なるドメインのデータセットを生成し得る。
 他の態様に係る情報処理方法において、ドメイン候補変数として説明変数に非適用のコンテキストを適用して、データセット候補を生成してもよい。
 かかる態様によれば、コンテキストの違いがドメインの違いとされた、疑似的な異なるドメインのデータセットを生成し得る。
 他の態様に係る情報処理方法において、説明変数と目的変数との1つ以上の確率分布の違いに基づき、異なるドメインにおけるデータセットであるか否かを判定してもよい。
 他の態様に係る情報処理方法において、複数のデータセット候補のいずれかを用いて学習をして生成される学習済みモデルを生成し、複数のデータセット候補のうち、第1データセット候補の範囲において学習済みモデルの性能を評価し、第1データセット候補と異なる第2データセット候補の範囲において学習済みモデルの性能を評価し、第1データセット候補に対応する学習済みモデルの性能と、第2データセット候補に対応する学習済みモデルの性能との性能差に基づいて、異なるドメインにおけるデータセットであるか否かを判定してもよい。
 かかる態様によれば、ドメイン候補変数のそれぞれに対応する学習モデルの性能差に基づき、異なるドメインにおけるデータセットであるか否かを判定し得る。
 他の態様に係る情報処理方法において、分割データセットに対して、分割データセットのいずれか1つのみに各ユーザー又は各アイテムを存在させる処理を実施してもよい。
 かかる態様によれば、システムレベルの相対的に大きなドメインシフトに対する学習及び学習済みモデルの評価を実施し得る。
 本開示に係る情報処理装置は、複数のユーザーの複数のアイテムに対する行動履歴からなるデータセットに対して、ユーザーの行動を目的変数として、目的変数及び1つ以上の説明変数を用いる予測モデルの構築に適用されるデータセットを生成する情報処理装置であって、1つ以上のプロセッサと、1つ以上のプロセッサに実行させるプログラムが記憶される1つ以上のメモリと、を備え、1つ以上のプロセッサは、プログラムの命令を実行して、1つのドメインにおけるデータセットであり、目的変数、説明変数及び目的変数と説明変数とを除外した複数の変数が適用されるデータセットを取得し、目的変数と説明変数とを除外した複数の変数から、ドメイン候補となる複数のドメイン候補変数を選択し、ドメイン候補変数を用いてデータセットを分割するデータセット候補を生成し、データセット候補のそれぞれが、異なるドメインにおけるデータセットであるか否かを判定し、データセット候補のそれぞれが、異なるドメインにおけるデータセットである場合に、ドメイン候補変数をドメインとして、データセットをドメインごとに分割して、分割データセットを生成する情報処理装置である。
 本開示に係る情報処理装置によれば、本開示に係る情報処理方法と同様の作用効果を得ることが可能である。他の態様に係る情報処理方法の構成要件は、他の態様に係る情報処理装置の構成要件へ適用し得る。
 本開示に係るプログラムは、複数のユーザーの複数のアイテムに対する行動履歴からなるデータセットに対して、ユーザーの行動を目的変数として、目的変数及び1つ以上の説明変数を用いる予測モデルの構築に適用されるデータセットを生成するプログラムであって、コンピュータに、1つのドメインにおけるデータセットであり、目的変数、説明変数及び目的変数と説明変数とを除外した複数の変数が適用されるデータセットを取得する機能、目的変数と説明変数とを除外した複数の変数から、ドメイン候補となる複数のドメイン候補変数を選択する機能、ドメイン候補変数を用いてデータセットを分割するデータセット候補を生成する機能、データセット候補のそれぞれが、異なるドメインにおけるデータセットであるか否かを判定する機能、及びデータセット候補のそれぞれが、異なるドメインにおけるデータセットである場合に、ドメイン候補変数をドメインとして、データセットをドメインごとに分割して、分割データセットを生成する機能を実現させるプログラムである。
 本開示に係るプログラムによれば、本開示に係る情報処理方法と同様の作用効果を得ることが可能である。他の態様に係る情報処理方法の構成要件は、他の態様に係るプログラムの構成要件へ適用し得る。
 本発明によれば、1つのドメインにおけるデータセットから、疑似的な異なるドメインのデータセットを生成し得る。
図1は典型的な推薦システムの概念図である。 図2は推薦システムの構築に広く用いられている教師あり機械学習の例を示す概念図である。 図3は推薦システムの典型的な導入フローを示す説明図である。 図4は導入先の施設のデータが得られない場合における推薦システムの導入プロセスの説明図である。 図5はドメイン適用によるモデルの学習を行う場合の説明図である。 図6は学習済み学習モデルの性能を評価するステップを含む推薦システム導入フローの説明図である。 図7は機械学習に用いる学習用データと評価用データの例を示す説明図である。 図8はデータセットの違いに起因するモデルの性能の違いを模式的に示すグラフである。 図9はドメイン汎化のモデル開発に必要なデータの説明図である。 図10は実施形態に係る情報処理装置のハードウェア構成の例を概略的に示すブロック図である。 図11は図10に示す情報処理装置の機能的構成を示す機能ブロック図である。 図12は実施形態に係る情報処理方法の手順を示すフローチャートである。 図13はドメイン候補変数が用いられるデータセットの生成の模式図である。 図14は図13に示すデータセットの生成に適用されるドメイン分割候補案生成の一例を示す模式図である。 図15は図13に示すデータセットの生成に適用されるドメイン分割候補案生成の他の例を示す模式図である。 図16は複数のドメイン候補変数が選択される場合のデータセットの生成の模式図である。 図17はドメイン分割候補案の生成の一例を示す模式図である。 図18はドメイン分割候補案の生成の他の例を示す模式図である。 図19は図17に示す説明変数と異なる説明変数の場合におけるドメイン分割候補案の生成を示す模式図である。 図20は図18に示す説明変数と異なる説明変数の場合におけるドメイン分割候補案の生成を示す模式図である。 図21はドメイン候補変数として時間が適用されるドメイン分割候補案の生成の模式図である。 図22はドメイン候補変数としてユーザー属性が適用されるドメイン分割候補案の生成の模式図である。 図23は図22に示すデータセットの例を示す表である。 図24は異ドメイン判定の具体例を示す模式図である。
 以下、添付図面に従って本発明の好ましい実施形態について詳説する。本明細書では、同一の構成要素には同一の参照符号を付して、重複する説明は適宜省略する。
 [情報推薦技術の概説]
 本実施形態では、推薦システムに用いるモデルの学習及び評価に用いるユーザーの行動履歴のデータに関して、異なるドメインのデータを生成する方法について説明する。はじめに、情報推薦技術の概要と複数ドメインのデータの必要性について具体例を示して概説する。情報推薦技術は、ユーザーに対してアイテムを推薦(サジェスト)するための技術である。
 図1は典型的な推薦システムの概念図である。推薦システム10は、ユーザーの情報と、コンテキストの情報とを入力として受け付け、コンテキストに応じて当該ユーザーに推薦するアイテムの情報を出力する。コンテキストは、様々な状況を意味し、例えば、曜日、時間帯、または天気などがあり得る。アイテムは、例えば、本、動画及び飲食店など、様々な対象があり得る。
 推薦システム10は、複数のアイテムを同時に推薦するのが一般的である。図1では、推薦システム10が3つのアイテムIT1、アイテムIT2及びアイテムIT3を推薦する例が示されている。推薦したアイテムIT1、アイテムIT2及びアイテムIT3に対してユーザーがポジティブな反応をすると、一般に推薦は成功したとみなされる。ポジティブな反応とは、例えば、購入、視聴及び訪問などである。このような推薦技術は、例えば、ECサイトや飲食店を紹介するグルメサイトなどにおいて広く活用されている。
 図2は推薦システムの構築に広く用いられている教師あり機械学習の例を示す概念図である。推薦システム10は、機械学習の技術を用いて構築される。一般に、過去のユーザーの行動履歴を基に正例および負例を用意して、ユーザーとコンテキストとの組み合わせを予測モデル12に入力し、予測誤差が小さくなるように予測モデル12を訓練する。例えば、ユーザーが閲覧した閲覧アイテムを正例、閲覧しなかった非閲覧アイテムを負例とする。予測誤差が収束するまで機械学習が行われ、目標とする予測性能が獲得される。
 こうして訓練された学習済みの予測モデル12を用いて、ユーザーとコンテキストの組合せに対して予測される閲覧確率が高いアイテムを推薦する。学習済みの予測モデル12は、訓練済みの予測モデル12と同義である。
 例えば、学習済みの予測モデル12に対し、あるユーザーAとコンテキストβとの組合せを入力すると、予測モデル12は、ユーザーAがコンテキストβの条件の下で、図1に示すアイテムIT3等の文書を閲覧する確率が高いと推論し、ユーザーAに対してアイテムIT3に近いアイテムを推薦する。なお、推薦システム10の構成によっては、コンテキストを考慮せずにユーザーに対してアイテムを推薦することも多い。
 〔推薦システムの開発に用いるデータの例〕
 ユーザーの行動履歴は、機械学習における正解データと等しいものである。厳密には、過去の行動履歴から次の行動を推論するというタスク設定と理解されるが、過去の行動履歴を基に潜在的な特徴量を学習するのが一般的である。
 ユーザーの行動履歴としては、例えば、本の購入履歴、動画の視聴履歴、または飲食店の訪問履歴などがあり得る。
 また、主要な特徴量としては、ユーザー属性と、アイテム属性とがある。ユーザー属性は、例えば、性別、年代、職業、家族構成及び居住エリアなど、様々な要素があり得る。アイテム属性は、例えば、本のジャンル、値段、動画のジャンル、長さ、飲食店のジャンル及び場所など、様々な要素があり得る。
 [モデルの構築と運用]
 図3は推薦システムの典型的な導入フローを示す説明図である。ここでは、ある施設に推薦システムを導入する際の典型的なフローを示す。推薦システムの導入は、ステップ1として、目的の推薦タスクを行うモデル14を構築し、ステップ2として、構築したモデル14を導入して運用する。
 モデル14を構築するとは、機械学習モデルの場合、学習用のデータを用いてモデル14の学習を行い、実用レベルの推薦性能を満たす予測モデルである推薦モデルを作成することを含む。モデル14を運用するとは、例えば、ユーザーとコンテキストとの組合せの入力に対して、学習済みのモデル14から推薦アイテムリストの出力を得ることである。
 モデル14の構築には、学習用のデータが必要である。図3に示すように、一般に推薦システムのモデル14は、導入先の施設で収集したデータを基に学習が行われる。導入先の施設から収集されたデータを用いて学習を行うことによりモデル14は、導入先の施設のユーザーの振る舞いを学習し、導入先の施設のユーザーに対して精度のよい推薦アイテムの予測が可能である。
 しかし、様々な事情に起因して、導入先の施設のデータが得られない場合がある。例えば、企業の社内システムにおける文書情報推薦システム及び病院の院内システムにおける文書情報推薦システムなどの場合、推薦モデルを開発する企業が導入先の施設のデータにアクセスできないことがあり得る。導入先の施設のデータが得られない場合、代わりに、異なる施設で収集されたデータをもとに学習する必要がある。
 図4は導入先の施設のデータが得られない場合における推薦システムの導入プロセスの説明図である。導入先の施設とは異なる施設で収集されたデータを用いて学習したモデル14を挿入先の施設で運用すると、施設間のユーザーの振る舞いの違いなどにより、モデル14の予測精度が低下してしまう問題がある。
 学習した施設と異なる未知の他施設では機械学習モデルがうまく機能しない問題は、広義にはモデル14を学習したソースドメインと、モデル14を適用するターゲットドメインが異なるドメインシフトの問題に対するロバスト性を向上させるという技術課題として把握される。ドメイン汎化に関連する問題設定として、ドメイン適用がある。これはソースドメインとターゲットドメインの両方のデータを用いて学習する方法である。ターゲットドメインのデータが存在するにもかかわらず異なるドメインのデータを使う目的は、ターゲットドメインのデータ量が少なく学習に不十分であるのを補うためである。
 なお、ドメイン汎化は、英語表記を用いてDomain generalizationと称され得る。ドメイン適用は、英語表記を用いてDomain adaptationと称され得る。
 図5はドメイン適用によるモデルの学習を行う場合の説明図である。ターゲットドメインである導入先の施設で収集されたデータのデータ量は、異なる施設で収集されたデータよりもデータ量に比べて相対的に少ないものの、両方のデータを用いて学習を行うことにより、モデル14は、導入先の施設のユーザーの振る舞いについてもある程度の精度で予測することが可能になる。
 [ドメインの説明]
 上記の施設の違いはドメインの違いの一種である。情報推薦におけるdomain adaptationの研究に関する文献であるIvan Cantador et al, Chapter 27:“Cross-domain Recommender System”では、ドメインの違いが以下の4つに分類されている。
 〔アイテム属性レベル〕
 例えば、コメディ映画とホラー映画は別ドメイン。なお、アイテム属性レベルは、英語表記を用いてItem attribute levelと称され得る。
 〔アイテムタイプレベル〕
 例えば、映画と連続テレビドラマは別ドメイン。なお、アイテムタイプレベルは、英語表記を用いてItem type levelと称され得る。
 〔アイテムレベル〕
 例えば、映画と本は別ドメイン。なお、アイテムレベルは、英語表記を用いてItem levelと称され得る。
 〔システムレベル〕
 例えば、映画館の映画とテレビ放映の映画は別ドメイン。なお、システムレベルは、英語表記を用いてSystem levelと称され得る。
 図5等に示す施設の違いは、上記の4つの分類のうちのシステムレベルのドメインに該当する。
 フォーマルにドメインを定義すると、ドメインは目的変数Yと説明変数Xの同時確率分布P(X,Y)で規定され、Pd1(X,Y)≠Pd2(X,Y)の場合に、d1とd2とは異なるドメインである。
 同時確率分布P(X,Y)は、説明変数の分布P(X)と条件付き確率分布P(Y|X)との積、又は目的変数の分布P(Y)と条件付き確率分布P(Y|X)との積で表すことができる。
 P(X,Y)=P(Y|X)P(X)=P(X|Y)P(Y)
 したがって、P(X)、P(Y)、P(Y|X)及びP(X|Y)のうち1つ以上が変わると異なるドメインとなる。
 [ドメインシフトの典型パターン]
 〔共変量シフト〕
 説明変数の分布P(X)が異なる場合、共変量シフトと呼ばれる。例えば、データセット間でユーザー属性の分布が異なる場合、より具体的には男女比率が異なる場合などが共変量シフトに該当する。なお、共変量シフトは、英語表記を用いてCovariate shiftと称され得る。
 〔事前確率シフト〕
 目的変数の分布P(Y)が異なる場合、事前確率シフトと呼ばれる。例えば、データセット間で平均閲覧率や平均購入率が異なる場合などが事前確率シフトに該当する。なお、事前確率シフトは、英語表記を用いてPrior probability shiftと称され得る。
 〔コンセプトシフト〕
 条件付き確率分布P(Y|X)及びP(X|Y)が異なる場合、コンセプトシフトと呼ばれる。例えば、ある企業の研究開発部門がデータ分析資料を読む確率がP(Y|X)にあたるが、これがデータセット間で異なる場合などがコンセプトシフトに該当する。なお、コンセプトシフトは、英語表記を用いてConcept shiftと称され得る。
 ドメイン適応あるいはドメイン汎化性の研究は、上記いずれかのパターンを主要因として想定しているものと、特にどのパターンが主要因であるかを考慮せずにP(X,Y)が変化していることへの対処を考えるものと、がある。なお、前者の場合、特に、共変量シフトを想定しているものが多い。
 [ドメインシフトが影響する理由]
 予測又は分類のタスクを行う予測分類モデルは、説明変数Xと目的変数Yの関係性に基づいて推論を行うため、P(Y|X)が変化すれば当然、予測性能及び分類性能の少なくともいずれかは低下する。また、予測分類モデルを機械学習する際には学習データ内において予測誤差及び分類誤差の少なくともいずれかの最小化を行うが、例えば、説明変数がX=X_1になる頻度が、X=X_2になる頻度より大きい場合、つまりP(X=X_1)>P(X=X_2)である場合、X=X_1のデータの方がX=X_2のデータより多いので、X=X_1の誤差低減はX=X_2の誤差低減より優先して学習される。そのためP(X)が施設間で変化する場合も、予測誤差及び分類誤差の少なくともいずれかは低下する。
 ドメインシフトは、情報推薦に限らず、いろいろなタスクのモデルについて問題になり得る。例えば、社員の退職リスクを予測するモデルについて、ある企業のデータを用いて学習した予測モデルを別の企業で運用する場合にドメインシフトが問題になり得る。また、細胞の抗体生産量を予測するモデルについて、ある抗体のデータを用いて学習したモデルを、別の抗体で運用する場合にドメインシフトが問題になり得る。また、顧客の声を分類するモデル、例えば、VOCを商品機能、サポート対応及びその他に分類するモデルについて、ある商品に関するデータを用いて学習した分類モデルを別の商品で運用する場合にドメインシフトが問題になり得る。なお、VOCは、顧客の声の英語表記であるVoice of Customerの省略語である。
 [モデルの導入前評価について]
 学習したモデル14を実際の施設等に導入する前に、モデル14の性能評価を行うことが多い。性能評価は導入の可否判断や、モデルあるいは学習手法などの研究開発のために必要である。
 図6は学習済み学習モデルの性能を評価するステップを含む推薦システム導入フローの説明図である。図6では、図5で説明したモデル14を学習するステップ1と、モデル14を運用するステップ2との間に、ステップ1.5として、モデル14の性能を評価するステップが追加されている。その他の構成は図5と同様である。
 図6に示すように、一般的な推薦システム導入のフローでは、導入先の施設で収集されたデータを学習用データと評価用データとに分割することが多い。評価用データを用いてモデル14の予測性能を確認してから、モデル14の運用が開始される。
 しかし、ドメイン汎化のモデル14を構築する場合は、学習用データと評価用データは異なるドメインである必要がある。さらに、ドメイン汎化においては、学習用データについても複数ドメインのデータを用いることが好ましく、学習に使えるドメインが多い方がより好ましい。
 [汎化性について]
 図7は機械学習に用いる学習用データと評価用データの例を示す説明図である。あるドメインd1の同時確率分布Pd1(X,Y)から得られるデータセットは、学習用データと、評価用データとに分けられる。学習用データと同一ドメインの評価用データを第1の評価用データといい、図7において評価用データ1と表記する。また、ドメインd1と異なるドメインd2の同時確率分布Pd2(X,Y)から得られるデータセットを用意し、これを評価用データとして用いる。学習用データと異なるドメインの評価用データを第2の評価用データといい、図7において評価用データ2と表記する。
 ドメインd1の学習用データを用いてモデル14の学習が行われ、ドメインd1の第1の評価用データと、ドメインd2の第2の評価用データとのそれぞれを用いて学習済みのモデル14の性能が評価される。
 図8はデータセットの違いに起因するモデルの性能の違いを模式的に示すグラフである。学習用データ内でのモデル14の性能を性能Aとし、第1の評価用データでのモデル14の性能を性能Bとし、第2の評価用データでのモデル14の性能を性能Cとする場合、通常は、図8に示すように、性能A>性能B>性能Cという関係になる。
 モデル14の汎化性能の高さは、一般には、性能Bが高いこと又は性能AとBの差が小さいことを指す。つまり、モデル14の汎化性能の高さは、学習用データに過剰適合せずに、学習していないデータに対しても予測の性能が高いことを目指している。
 本明細書におけるドメイン汎化性の文脈では、性能Cが高いこと又は性能Bと性能Cの差が小さいことを指す。つまり、学習に用いたドメインと異なるドメインでも、変わらずに高い性能が出ることを目指している。
 図9は、ドメイン汎化のモデル開発に必要なデータの説明図である。ドメイン汎化のモデル14を開発するには、図9に示すように、複数の異なる施設で収集されたデータを用意し、学習用データとして複数のドメインのデータセットを用い、評価用データとして、さらに異なるドメインのデータセットを用いる態様が好ましい。
 [課題]
 上記のように、多施設でロバストな性能のモデルを開発するには、基本的には複数施設のデータが必要である。しかし、現実においては、複数の異なる施設のデータを用意することが困難な場合が多い。モデルの学習又は評価に活用できるドメイン数が少ない場合でも、特に1つのドメインのデータしかないときでも、ドメイン汎化性のあるモデルを実現することが望まれる。本実施形態では、1つのドメインのみのデータしかない場合でも、擬似的に他のドメインのデータを生成する方法を提供する。
 [実施形態に係る情報処理装置の構成例]
 図10は実施形態に係る情報処理装置のハードウェア構成の例を概略的に示すブロック図である。情報処理装置100は、複数ユーザーの複数アイテムに対する行動履歴からなるデータセットに対して、目的変数と説明変数とを除外した複数の変数をドメインとして分割する処理を実施して、ドメインごとのデータセットを生成する。
 情報処理装置100は、コンピュータのハードウェアとソフトウェアとを用いて実現される。情報処理装置100の物理的形態は特に限定されず、サーバコンピュータであってもよいし、ワークステーションであってもよく、パーソナルコンピュータ又はタブレット端末などであってもよい。ここでは、1台のコンピュータを用いて情報処理装置100の処理機能を実現する例を述べるが、情報処理装置100の処理機能は、複数台のコンピュータを用いて構成されるコンピュータシステムによって実現してもよい。
 情報処理装置100は、プロセッサ102、非一時的な有体物であるコンピュータ可読媒体104、通信インターフェース106、入出力インターフェース108及びバス110を備える。
 プロセッサ102は、CPU(Central Processing Unit)を含む。プロセッサ102はGPU(Graphics Processing Unit)を含んでもよい。プロセッサ102は、バス110を介してコンピュータ可読媒体104、通信インターフェース106及び入出力インターフェース108と接続される。
 プロセッサ102は、コンピュータ可読媒体104に記憶された各種のプログラム及びデータ等を読み出し、各種の処理を実行する。プログラムという用語は、プログラムモジュールの概念を含み、プログラムに準じる命令を含む。
 コンピュータ可読媒体104は、例えば、主記憶装置であるメモリ112及び補助記憶装置であるストレージ114を備える記憶装置である。ストレージ114は、例えば、ハードディスク装置、ソリッドステートドライブ装置、光ディスク、光磁気ディスク及び半導体メモリなどを用いて構成される。ストレージ114は、上記したデバイスの適宜の組み合わせを用いて構成されてもよい。ストレージ114には、各種プログラム及びデータ等が記憶される。
 なお、ハードディスク装置は、英語表記Hard Disk Driveの省略語を用いてHDDと称され得る。ソリッドステートドライブ装置は、英語表記Solid State Driveを用いてSSD)と称され得る。
 メモリ112は、プロセッサ102の作業領域として使用される領域及びストレージ114から読み出されたプログラム及び各種のデータを一時的に記憶する領域が含まれる。ストレージ114に記憶されているプログラムがメモリ112にロードされ、プログラムの命令をプロセッサ102が実行して、プロセッサ102は、プログラムで規定される各種の処理を行う手段として機能する。
 メモリ112には、プロセッサ102を用いて実行されるドメイン候補変数選択プログラム130、データセット候補生成プログラム132、データセット判定プログラム134、データセット生成プログラム136、学習プログラム138及び学習済みモデル評価プログラム139などの各種のプログラムおよび各種のデータ等が記憶される。
 メモリ112は、オリジナルデータセット記憶部140、ドメイン候補変数記憶部142、生成データ記憶部144及び学習済みモデル記憶部145が含まれる。オリジナルデータセット記憶部140は、異なるドメインのデータセットの生成を行う際の元になるデータセットが、オリジナルデータセットとして記憶される記憶領域である。
 ドメイン候補変数記憶部142は、目的変数と説明変数とを除外した複数の変数をドメインとして記憶される記憶領域である。生成データ記憶部144は、データセット生成プログラム136を用いて生成された擬似的な行動履歴のデータが記憶される記憶領域である。
 学習済みモデル記憶部145は、異なるドメインのデータセットとして生成されたデータセットを用いて学習が実施され、生成された学習済みモデルが記憶される記憶領域である。
 通信インターフェース106は、有線又は無線を適用して外部装置との通信処理を行い、外部装置との間で情報のやり取りを行う。情報処理装置100は、通信インターフェース106を介して通信回線に接続される。
 通信回線は、ローカルエリアネットワークであってもよいし、ワイドエリアネットワークであってもよく、これらの組み合わせであってもよい。なお、通信回線の図示を省略する。通信インターフェース106は、オリジナルデータセットなど様々なデータの入力を受け付けるデータ取得部の役割を担うことができる。
 情報処理装置100は、入力装置122及び表示装置を備える。入力装置122及び表示装置124は、入出力インターフェース108を介してバス110に接続される。入力装置122は、例えば、キーボード、マウス、マルチタッチパネル、その他のポインティングデバイス及び音声入力装置等が適用され得る。入力装置122は、上記したキーボード等の適宜の組み合わせであってよい。
 表示装置124は、例えば、液晶ディスプレイ、有機ELディスプレイ及びプロジェクタ等が適用される。表示装置124は、上記した液晶ディスプレイ等の適宜の組み合わせであってよい。なお、タッチパネルのように入力装置122と表示装置124とが一体的に構成されてもよく、タッチパネル式のタブレット端末のように、情報処理装置100と入力装置122と表示装置124とが一体的に構成されてもよい。有機ELディスプレイは、organic electro-luminescenceの省略語であるOELと称され得る。なお、有機ELディスプレイのELは、Electro-Luminescenceの省略語である。
 図11は図10に示す情報処理装置の機能的構成を示す機能ブロック図である。情報処理装置100は、データセット取得部150、ドメイン候補変数選択部152,ドメイン分割候補案生成部154、異ドメイン判定部156、データセット生成部158、学習部159及び学習済みモデル評価部160を備える。
 データセット取得部150は、オリジナルのデータセットである1つのドメインにおける複数のユーザーの各アイテムに対し得る行動履歴のデータセットを取得する。データセット取得部150を用いて取得されオリジナルのデータセットは、オリジナルデータセット記憶部140へ記憶される。
 ドメイン候補変数選択部152は、データセットに含まれる変数のうち、目的変数及び説明変数を除外した複数の変数のうち、ドメイン候補となるドメイン候補変数として2つ以上の変数を選択する。ドメイン候補変数選択部152を用いて選択されたドメイン候補変数は、ドメイン候補変数記憶部142へ記憶される。
 ドメイン分割候補案生成部154は、ドメイン候補変数選択部152を用いて選択されたドメイン候補変数を用いて、データセットを分割するデータセットの候補案である、ドメイン分割候補案を生成する。
 異ドメイン判定部156は、ドメイン分割候補案生成部154を用いて生成されたドメイン分割候補案が、異なるドメインのデータセットとなっているか否かを判定する。
 データセット生成部158は、異ドメイン判定部156を用いドメイン分割候補案が、異なるドメインのデータセットとなっていると判定されたドメイン分割候補案において選択された変数を用いてデータセットを分割して、疑似的な複数ドメインのデータセットを生成する。なお、実施形態に記載の疑似的な複数ドメインのデータセットは、分割データセットの一例である。
 データセット生成部158は、各ユーザーが疑似的な複数ドメインのデータセットのいずれか1つのみ存在するように、データセットを補正する処理を実施してもよい。データセット生成部158は、各アイテムが疑似的な複数ドメインのデータセットのいずれか1つのみ存在するように、データセットを補正する処理を実施してもよい。これにより、システムレベルの大きなドメインシフトに対する学習及び評価が可能となる。
 学習部159は、データセット生成部158を用いて生成された疑似的な複数ドメインのデータセットに対して学習を実施して、ユーザーの行動履歴の予測モデルである学習済みモデルを生成する。学習済みモデルは、学習済みモデル記憶部145へ記憶される。
 学習済みモデル評価部160は、学習部159を用いて生成された学習済みモデルを評価する。学習済みモデル記憶部145、学習部159及び学習済みモデル評価部160は、情報処理装置100と分離させてもよい。
 すなわち。情報処理装置100は、疑似的な複数ドメインのデータセットを生成する装置として機能してもよい。また、学習済みモデル記憶部145及び学習部159を備える装置は学習済みモデルを生成する装置として機能してもよい。更に、学習済みモデル評価部160を備える装置は、学習済みモデルを評価する装置として機能してもよい。
 行動履歴のデータとして、図9に示す病院内の検査結果閲覧システムにおける行動履歴を適用し得る。同図には、行動履歴データのテーブルの一部を図示する。同図に示す行動履歴データにおけるアイテムは、検査結果である。
 図9に示すテーブルは、ユーザーID、アイテムID、ユーザー属性1、ユーザー属性2、アイテム属性1、アイテム属性2、コンテキスト1、コンテキスト2及び閲覧有無のカラムを有する。なお、IDはidentificationの省略語である。
 図9に示すテーブルにおける時間のカラムは、アイテムを閲覧した日時を示す。ユーザーIDは、ユーザーを特定する際に用いられるユーザーの識別情報である。図9には、ユーザーIDとして、ユーザーごとの固有の番号が適用される例を示す。
 アイテムIDは、アイテムを特定する際に用いられるアイテムの識別情報である。図9には、アイテムIDとして、アイテムごとの固有の番号が適用される例を示す。ユーザー属性1は、例えば、ユーザーが所属する所属診療科が適用される。ユーザー属性2は、例えば、職種が適用される。
 アイテム属性1は、例えば、検査種類が適用される。アイテム属性2は、例えば、患者の性別が適用される。コンテキスト1は、例えば、入院の有無が適用される。コンテキスト2は、例えば、アイテム作成からの経過時間が適用される。
 閲覧有無は、アイテムが閲覧された場合に1となる。なお、閲覧していないアイテムは膨大であり、一般に、閲覧有無が1とされるアイテムが閲覧された場合のみレコードへ記録される。
 図9における閲覧有無は、目的変数の一例であり、アイテム属性1、アイテム属性2、コンテキスト1及びコンテキスト2のそれぞれは、説明変数の一例である。また、時間、ユーザーID、アイテムID、ユーザー属性1及びユーザー属性2は、目的変数及び説明変数が除外された複数の変数の一例である。
 説明変数の種類及び説明変数の組み合わせは、図9に示す例に限定されない。説明変数として、ユーザー属性3及びコンテキスト3等が含まれてもよい。また、コンテキスト1及びコンテキスト2が説明変数に含まれない態様を適用してもよい。
 [情報処理方法の手順]
 図12は実施形態に係る情報処理方法の手順を示すフローチャートである。データセット取得工程S10では、図11に示すデータセット取得部150はデータセットを取得する。データセット取得工程S10の後にドメイン候補変数選択工程S12へ進む。
 ドメイン候補変数選択工程S12では、ドメイン候補変数選択部152は、データセット取得工程S10において取得されたデータセットに適用される変数の中から、ドメイン候補変数を選択する。ドメイン候補変数選択工程S12の後にドメイン分割候補案生成工程S14へ進む。
 ドメイン分割候補案生成工程S14は、ドメイン分割候補案生成部154は、ドメイン候補変数選択工程S12において選択されたドメイン候補変数を用いて、データセット取得部150において取得したデータセットを分割するドメイン分割候補案を生成する。
 ドメイン分割候補案生成工程S14では、複数のドメイン候補変数の組を用いて、複数のドメイン分割候補案を生成してもよい。ドメイン分割候補案生成工程S14の後に異ドメイン判定工程S16へ進む。
 異ドメイン判定工程S16では、異ドメイン判定部156は、ドメイン分割候補案生成工程S14において生成されたドメイン候補変数ごとのデータセットが、異なるドメインごとのデータセットであるか否かが判定される。
 ドメイン分割候補案生成工程S14において、複数のドメイン分割候補案が生成される場合、異ドメイン判定工程S16では、複数のドメイン分割候補案のそれぞれについて、異なるドメインごとのデータセットであるか否かが判定される。異ドメイン判定工程S16の後にドメイン分割候補案評価判定S18へ進む。
 ドメイン分割候補案評価判定S18では、異ドメイン判定部156は、全てのドメイン分割候補案についての判定結果が得られていないと判定される場合はNo判定となる。No判定の場合は異ドメイン判定工程S16へ戻り、ドメイン分割候補案評価判定S18においてYes判定となるまで、異ドメイン判定工程S16及びドメイン分割候補案評価判定S18が繰り返し実行される。
 一方、ドメイン分割候補案評価判定S18において、異ドメイン判定部156が全てのドメイン分割候補案についての判定結果が得られていると判定する場合はYes判定となる。Yes判定の場合は、データセット生成工程S20へ進む。
 データセット生成工程S20では、ドメイン分割候補案評価判定S18において、異なるドメインごとのデータセットであると判定されたドメイン分割候補案に適用されるドメイン候補変数を用いてデータセットを分割し、疑似的に複数のドメインのそれぞれにおけるデータセットとみなし得る複数のデータセットを生成する。データセット生成工程S20の後にデータセット記憶工程S22へ進む。
 データセット記憶工程S22では、データセット生成部158は、生成データ記憶部144へ生成された複数のデータセットを記憶する。データセット記憶工程S22の後に、学習済みモデル生成工程S24へ進む。
 学習済みモデル生成工程S24では、学習部159は、データセット生成部158において生成されたデータセットを用いて学習を実施し、学習済み学習モデルを生成する。学習済みモデル生成工程S24において生成された学習済みモデルは、学習済みモデル記憶部145へ記憶される。学習済みモデル生成工程S24の後に、学習済みモデル評価工程S26へ進む。
 学習済みモデル評価工程S26では、学習済みモデル評価部160は、学習済みモデル生成工程S24において生成された学習済みモデルの性能評価を実施する。学習済みモデル評価工程S26において規定の性能を満たすと評価された学習済みモデルは、オリジナルのデータセットが取得されたドメインとは異なるドメインへ導入される。学習済みモデル評価工程S26の後に、情報処理装置100は情報処理方法の手順を終了させる。
 学習済みモデル生成工程S24は、情報処理装置100とは別の学習済みモデル生成装置において、学習済みモデル製造方法として実行されてもよい。同様に、学習済みモデル評価工程S26は、情報処理装置100及び学習済みモデル生成装置とは別の学習済みモデル評価装において、学習済みモデル評価方法として実行されてもよい。
 [情報処理方法の具体例]
 図12に示す情報処理方法の具体例について説明する。例えば、オリジナルのデータセットが、図9に示す病院内の検査結果閲覧システムにおける行動履歴の場合について考える。
 データセットを用いて学習を実施して生成される推薦モデルは、アイテム属性1、アイテム特性2、コンテキスト1及びコンテキスト2が説明変数として用いられる。また、推薦モデルは、アイテムの閲覧有無を目的変数として、ユーザーの行動であるアイテムの閲覧有無を予測する。推薦システムとして運用する際に、学習済みの推薦モデルを用いて候補の全アイテムに対する閲覧率を予測し、閲覧率が上位のアイテムを5つ選択し、推薦する。
 図9に示す検査結果閲覧システムにおける行動履歴には、目的変数及び説明変数が除外された複数の変数として、時間、ユーザーID、ユーザー属性1及びユーザー属性2が存在する。データセットの分割において、上記した目的変数及び説明変数が除外された複数の変数のいずれかがドメイン候補変数として活用される。
 以下に、ドメイン候補変数として、所属診療科が適用されるユーザー属性1及び職種が適用されるユーザー属性2がドメイン候補変数とされる例について説明する。まず、ユーザー属性1をドメイン候補変数に適用して、オリジナルのデータセットを分割する。
 例えば、呼吸器科のデータセットをデータセット1Aとし、胃腸科のデータセットをデータセット1Bとする。データセット1Aを用いて学習を実施して、データセット1Aの範囲で閲覧予測を行い、5件の推薦をして1件の推薦が当たる確率を表すhit@5の指標が34パーセントであったとする。また、データセット1Bの範囲で閲覧予測を行い、hit@5の指標が32パーセントであったとする。かかる場合の予測性能の低下率は2パーセントである。
 一方、データセット1Bを用いて学習をして生成される学習済みモデルについて、データセット1Aの範囲で実施された予測のhit@5の指標と、データセット1Bの範囲で実施された予測のhit@5の指標との差である予測性能の低下率が1パーセントであったとする。データセット1Aを用いて学習をして生成される学習済みモデルの予測性能の低下率と、データセット1Bを用いて学習をして生成される学習済みモデルの予測性能の低下率との平均は、1.5パーセントである。
 次に、職種が適用されるユーザー属性2をドメイン候補変数に適用して、オリジナルのデータセットを分割する。医師のデータセットをデーセット2Aとし、看護師のデータセットをデーセット2Bとする。
 デーセット2Aを用いて生成された学習済みモデルをデータセット2Aの範囲で評価すると、hit@5の指標は32パーセントとなる。デーセット2Aを用いて生成された学習済みモデルをデータセット2Bの範囲で評価すると、hit@5の指標は21パーセントとなる。予測性能の低下率は11パーセントである。
 デーセット2Bを用いて生成された学習済みモデルについて、データセット2Aの範囲で評価した場合のhit@5の指標と、データセット2Bの範囲で評価した場合のhit@5の指標との差は9パーセントであるとする。予測性能の低下率の平均は10パーセントである。
 ユーザー属性1をドメイン候補変数としてデータセットを分割した場合に対して、ユーザー属性2をドメイン候補変数としてデータセットを分割した場合は、上記した予測性能の低下率が顕著に大きい。したがって、ユーザー属性2をドメイン候補変数としてデータセットを分割した場合は、異なるドメインの分割として適していると判定される。かかる判定結果に基づき、ユーザー属性2を用いて、データセット2が分割され、疑似的な複数ドメインのデータセットが生成される。
 次に、生成されたデータセットを用いて学習が実施され、学習済みモデルが生成される。また、学習済みモデルの評価が実施される。複数のモデルの候補が存在する場合には、推薦システムの運用前に各モデルの候補を評価し、最適なモデルを選択する態様が好ましい。
 モデルの候補として、ロジスティック回帰、factorization machines及びgradient boosting decision treesの3つを考える。更に、それぞれのモデルには学習の際のハイパーパラメータが存在する。ロジスティック回帰におけるハイパーパラメータとして、正則化係数などが挙げられる。
 factorization machinesにおけるハイパーパラメータとして、正則化係数及び潜在次元数などが挙げられる。gradient boosting decision treeにおけるハイパーパラメータとして、木の深さ及び木の数などが挙げられる。ここでは、モデルごとにハイパーパラメータの組合せをランダムに20個ずつ選択し、最適なハイパーパラメータを探索するランダムグリッドサーチを実施することとする。
 次に、ユーザー属性2が医師であるデータセット2Aを用いて、上記した3つのモデルごと、20個のハイパーバラメータごとの60モデルの学習が実施される。更に、ユーザー属性2が看護師であるデータセット2Bを用いて、学習済みモデルの性能評価が実施される。
 データセット2Bが適用される学習済みモデルの性能評価において、最も性能評価が高い学習済みモデルが、学習データと異なるドメインのデータとしての性能が高く、最もドメイン汎化性が高い学習済みモデルと考えられる。
 ここでは、factorization machinesにおいて、正則化係数が0.001であり、潜在次元数が50である場合が、最もデータセット2Bを用いる性能評価の結果が高かったとすると、モデルとしてfactorization machinesが採用され、ハイパーパラメータとして正則化係数及び潜在次元数が採用される。
 このようにして、他の病院等の他の施設おいて、医師等のユーザーに対して、次に見るべき検査結果を推薦する検査結果閲覧推薦システムが導入される際に、上記した学習済みモデルが推薦される。
 [データセットの生成の具体例]
 図13はドメイン候補変数が用いられるデータセットの生成の模式図である。図13には、図12に示すドメイン分割候補案生成工程S14の処理及び異ドメイン判定工程S16の処理を模式的に図示する。
 図13には、ドメイン候補変数302を用いて、オリジナルのデータセット300が2分割され、データセット304及びデータセット306が生成されるドメイン分割候補案が生成される処理を模式的に図示する。
 ここで、ドメインとは、ある確率分布P(X,Y)から生成される説明変数Xと目的変数Yとからなるデータ集合である。互いに異なるドメインをそれぞれd1及びd2とし、ドメインd1における確率分布Pd1(X,Y)と、ドメインd2における確率分布Pd2(X,Y)との関係が、Pd1(X,Y)≠Pd2(X,Y)の場合は、ドメインd1とドメインd2とは異なるドメインである。
 有限データ集合から確率分布P(X,Y)を厳密に推定することは困難である。また、ドメインd1とドメイン2dとの割り当て方法は、組み合わせの数の分の計算が必要となる。したがって、Pd1(X,Y)とPd2(X,Y)との違いの判定には、何らかの工夫が必要である。
 図14は図13に示すデータセットの生成に適用されるドメイン分割候補案生成の一例を示す模式図である。図14には、図9に示す行動履歴のデータをデータセット300とする場合に、時系列を表すドメイン候補変数302Aを用いて、データセット300を分割する例を示す。図14には、時刻t1の以前のデータセット304Aと、時刻t1を超えるデータセット306Aとに、データセットが2分割される場合の例を示す。
 図15は図13に示すデータセットの生成に適用されるドメイン分割候補案生成の他の例を示す模式図である。図9に示す行動履歴のデータをデータセット300とする場合に、ユーザー属性をドメイン候補変数302Bとしてデータセット300を分割する例を示す。
 例えば、図9に示す所属診療科が適用されるユーザー属性1又は職種が適用されるユーザー属性2のいずれかでデータセットを分割する例を示す。ユーザー属性として、所属診療科が適用される場合、図15のユーザー属性Aの行動履歴は、職種が呼吸器科のユーザーが検査結果閲覧システムを閲覧したデータセット304Bであり、ユーザー属性Bの行動履歴は、職種が胃腸科のユーザーが検査結果閲覧システムを閲覧したデータセット306Bである。
 図16は複数のドメイン候補変数が選択される場合のデータセットの生成の模式図である。図16には、ドメイン候補変数312A、ドメイン候補変数312B及びドメイン候補変数312Cが選択され、ドメイン分割候補案1、ドメイン分割候補案2及びドメイン分割候補案3が生成される場合の例を示す。
 図16に示すドメイン分割候補案1は、ドメイン候補変数312Aを用いて、データセット300がデータセット314Aとデータセット316Aとに分割されるドメイン分割候補案である。
 ドメイン分割候補案2は、ドメイン候補変数312Bを用いて、データセット300がデータセット314Bとデータセット316Bとに分割されるドメイン分割候補案である。ドメイン分割候補案3は、ドメイン候補変数312Cを用いて、データセット300がデータセット314Cとデータセット316Cとに分割されるドメイン分割候補案である。
 図16に示す例では、ドメイン分割候補案2は、異なるドメインごとのデータセットであると判定される。一方、ドメイン分割候補案1及びドメイン分割候補案3はいずれも、異なるドメインごとのデータセットでないと判定される。ドメイン分割候補案2が採用され、データセット300からデータセット314B及びデータセット316Bが生成される。
 [ドメイン分割候補案の生成の具体例]
 図17はドメイン分割候補案の生成の一例を示す模式図である。図17には、図16に示すドメイン分割候補案2が採用される場合における、ドメイン分割候補案の生成の例を図示する。図17に示すグラフ320及びグラフ322は、予測モデルにおける説明変数とされるアイテム作成からの経過日数を横軸とし、データの存在確率P(X,Y)を縦軸とするグラフである。図17に示すグラフ320は、図16に示すデータセット314Bに対応する。また、グラフ322はデータセット316Bに対応する。
 グラフ320及びグラフ322の横軸とされるドメイン候補変数としたアイテム作成日からの経過日数は、ドメインに普遍的な特徴量である。アイテム作成日からの経過日数が予測モデルの説明変数に適している。
 アイテム作成日からの経過日数が閲覧に与える影響を適切に学習するには、データセット300から生成されたデータセット314B及びデータセット316Bのいずれにも、説明変数ごとのデータが存在することが好ましい。
 すなわち、データセット314Bにおける説明変数ごとのデータの存在確率を表すグラフ320と、データセット316Bにおける説明変数ごとのデータの存在確率を表す対応するグラフ322との間には、一定の重なりが存在している。
 図18はドメイン分割候補案の生成の他の例を示す模式図である。図18に示すグラフ324及びグラフ326は、図17に示すグラフ320等と同様に、アイテム作成からの経過日数ごとを横軸とし、データの存在確率P(X,Y)を縦軸とするグラフである。例えば、図18に示すグラフ324は、図16に示す分割候補案1において生成されるデータセット314Aに対応し、グラフ326はデータセット316Bに対応する。
 データセット314Aにおける説明変数ごとのデータの存在確率を表すグラフ324と、データセット316Aにおける説明変数ごとのデータの存在確率を表す対応するグラフ326との間には、一定の重なりが存在しない。そうすると、データセット314A及びデータセット316Aを生成する際のドメイン候補変数は、ドメイン分割案の生成には不適である。
 図19は図17に示す説明変数と異なる説明変数の場合におけるドメイン分割候補案の生成を示す模式図である。図19に示すグラフ340及びグラフ342は、説明変数としてユーザーの性別が適用される場合における説明変数に対するデータの存在確率の分布を表すグラフである。
 ユーザーの性別は、ドメインに普遍的な特徴量であり、予測モデルにおいて説明変数として用いられる。データセット314Bに対応するグラフ340及びデータセット316Bに対応するグラフ342のいずれにも、男性のデータ及び女性のデータが存在し、両者の間には一定の重なりが存在する。
 図20は図18に示す説明変数と異なる説明変数の場合におけるドメイン分割候補案の生成を示す模式図である。図20には図19と同様に、予測モデルにおいて説明変数とされるユーザーの性別が適用され、縦軸はユーザーの性別ごとのデータの存在確率P(X,Y)が適用されるグラフ344及びグラフ346を図示する。
 グラフ344は、女性のデータのみが存在し、男性のデータは存在しない。一方、グラフ346は、女性のデータが存在せず、男性のデータのみが存在する。グラフ344とグラフ346とは重なりが存在せず、それぞれのデータセットにおいて、ユーザーの性別が閲覧などのユーザーの行動に対してどのように影響するかの学習が困難である。
 図21はドメイン候補変数として時間が適用されるドメイン分割候補案の生成の模式図である。図21には、図14に示す例の更なる具体例を示す。ドメイン分割候補案1として、日付が適用されるドメイン候補変数352Aを用いて、A月B日以前のデータセット354Aと、A月B日を超えるデータセット356Aが生成される例を示す。
 また、図21には、ドメイン分割候補案2として、日付が適用されるドメイン候補変数352Bを用いて、C月D日以前のデータセット354Bと、C月D日を超えるデータセット356Bが生成される例を示す。
 更に、図21には、ドメイン分割候補案3として、日付が適用されるドメイン候補変数352Cを用いて、E月F日以前のデータセット354Cと、E月F日を超えるデータセット356Bが生成される例を示す。なお、A月B日、C月D日及びE月F日は、互いに異なる任意の日付を示す。
 図21に示す例では、ドメイン分割候補案2が採用され、データセット300からC月D日以前のデータセット354Bと、C月D日を超えるデータセット356Bが生成される。
 図22はドメイン候補変数としてユーザー属性が適用されるドメイン分割候補案の生成の模式図である。図23は図22に示すデータセットの例を示す表である。図23には、ある企業の文書情報管理システムから得られた文書の閲覧に関する行動履歴のデータのテーブルの一部が示されている。図22には、図15に示す例の更なる具体例を示す。
 ドメイン分割候補案1として、所属部門が適用されるドメイン候補変数402を用いて、データセット400からデータセット404、データセット406及びデータセット408が生成される例を示す。
 また、図22には、ドメイン分割候補案2として、年代が適用されるドメイン候補変数412を用いて、データセット400からデータセット414、データセット416及びデータセット418が生成される例を示す。
 図21に示す例では、ドメイン分割候補案1が採用され、データセット400から所属部門Aのデータセット404、所属部門Bのデータセット406及び所属部門Cのデータセット408が生成される。
 図9には、説明変数Xとして、アイテム属性1、アイテム属性2、コンテキスト1及びコンテキスト2を例示したが、これらの変数が予測モデルの説明変数に使用されない場合は、ドメイン候補変数としてもよい。
 すなわち、予測モデルの説明変数に使用されないアイテム属性1及びアイテム属性2を用いて、オリジナルのデータセットを分割して、複数のデータセットを生成してもよい。例えば、図9に示す検査結果閲覧システムにおける行動履歴のデータセットにおいて、検査種類をドメイン候補変数として、CTに対応するデータセット、X線に対応するデータセット、超音波に対応するデータセット及びPCRに対応するデータセットを生成してもよい。なお、CTはComputed Tomographyの省略語である。PCRはpolymerase chain reactionの省略語である。
 また、図9に示す患者性別が適用されるアイテム属性2をドメイン候補変数として、男性の患者に対応するデータセットと、女性の患者に対応するデータセットとを生成してもよい。
 図9に示す入院の有無が適用されるコンテキスト1をドメイン候補変数として、外来患者に対応するデータセットと、入院患者に対応するデータセットとを生成してもよい。また、アイテム作成日からの経過時間が適用されるコンテキスト2をドメイン候補変数として、ある経過時間以前データセットと、ある経過時間を超えるデータセットとを生成してもよい。なお、実施形態に記載の説明変数に使用されない変数は、説明変数に非適用の変数の一例である。
 [異ドメイン判定の具体例]
 〔予測性能の低下率を用いる判定〕
 図24は異ドメイン判定の具体例を示す模式図である。図24には、各ドメイン分割候補案において、2つのデータセットが生成され、一方のデータセットを用いて学習済みモデルを生成し、一方のデータセットの範囲内の予測性能に対する、他方データセットの範囲内の予測性能の低下率に基づき、2つのデータセットが異なるドメインのデータセットであるか否かを判定する例を示す。
 ドメイン分割候補案1として、データセット500からデータセット502と、データセット504とが生成される。データセット502を用いて学習が実施されて、学習済みモデル510が生成される。なお、データセット504を用いて学習が実施され、学習済みモデルが生成されてもよい。
 学習済みモデル510を用いて、データセット502の範囲において予測性能が評価され、予測性能P1Aが導出される。学習済みモデル510を用いて、データセット504の範囲において予測性能が評価され、予測性能P1Bが導出される。具体的には、予測性能の低下分として、予測性能P1Aから予測性能P1Bが減算されたP1A-P1Bが算出される。
 ドメイン分割候補案2として、データセット500からデータセット522と、データセット524とが生成され、データセット522又はデータセット524を用いて、学習済みモデル520が生成される。データセット522の範囲における予測性能P2A及びデータセット524の範囲における予測性能P2Bが導出され、予測性能の低下分としてP2A-P2Bが算出される。
 ドメイン分割候補案3として、データセット500からデータセット532と、データセット534とが生成され、データセット532又はデータセット534を用いて、学習済みモデル530が生成される。データセット532の範囲における予測性能P3A及びデータセット534の範囲における予測性能P3Bが導出され、予測性能の低下分としてP3A-P3Bが算出される。
 ドメイン分割候補案1における予測性能の低下分の大きさ|P1A-P1B|、ドメイン分割候補案2における予測性能の低下分の大きさ|P2A-P2B|及びドメイン分割候補案3における予測性能の低下分の大きさ|P3A-P3B|に基づき、採用されるドメイン分割候補案が決められる。
 図24に示す例では、ドメイン分割候補案2が採用され、データセット500からデータセット522と、データセット524とが生成される。学習済みモデルの予測性能は、学習に適用される学習データの量に依存する。学習済みモデルを生成する際に、学習データの量を合わせるか、又は学習データ量依存性を補正する。
 なお、実施形態に記載の予測性能の低下率及び予測性能の低下分は、予測モデルの性能差の一例である。また、各ドメイン分割候補案における一方のデータセットは第1データセット候補の一例であり、他方のデータセットは第2データセット候補の一例である。
 〔確率分布の違いを用いる判定〕
 異ドメイン判定には、ドメイン候補変数ごとの確率分布の違いを用いて判定してもよい。例えば、異ドメイン判定には、ドメイン候補変数ごとの確率分布におけるカルバック-ライブラー情報量が用いられてもよい。なお、カルバック-ライブラー情報量は、英語表記を用いて、Kullback-Leibler divergenceと称され得る。
 ドメインd1の確率分布をPd1(X)とし、ドメインd2の確率分布をPd2(X)とし、kをXが取り得る離散変数とする場合に、カルバック-ライブラー情報量は、以下の式1として表される。
Figure JPOXMLDOC01-appb-M000001
 ここでいうドメインd1は、ドメイン候補変数の1つであり、ドメインd2は、ドメインd1とされたドメイン候補変数とは異なるドメイン候補変数の1つである。
 また、異ドメイン判定に適用される確率分布の違いを表す指標として、Optimal transport distanceを適用してもよい。Optimal transport distanceは、以下の式2として表される。
Figure JPOXMLDOC01-appb-M000002
但し、式2におけるXiはドメインd1のデータであり、Xjはドメインd2のデータである。
 [実施形態の作用効果]
 実施形態に係る情報処理装置及び情報処理方法は、以下の作用効果を得ることが可能である。
 〔1〕
 予測モデルにおける目的変数及び説明変数が除外された複数の変数の中からドメイン候補変数を選択し、ドメイン候補変数を用いてオリジナルのデータセットを分割するドメイン分割候補案を生成し、各ドメイン分割候補案について、異なるドメインのデータセットとして適切であるか否かが判定され、異なるドメインのデータセットとして適切であると判定されたドメイン候補変数を用いて、オリジナルのデータセットが分割され、疑似的な複数ドメインのデータセットが生成される。
 これにより、学習データにおけるドメイン数を増やすことができ、学習及び学習済みモデルの評価に用いられるドメイン数を増やすことができる。
 〔2〕
 ドメイン候補変数を用いてオリジナルのデータセットを分割する際に、学習済みモデルに適用される説明変数の確率分布が、分割されたデータセットにおいて一定に重なりが存在する。これにより、分割されたデータセット間に共通する説明変数のデータが存在し得る。
 〔3〕
 ドメイン候補変数は、時間、説明変数に用いられないユーザー属性、説明変数に用いられないアイテム属性又は説明変数に用いられないコンテキストのいずれかが適用される。これにより、疑似的な複数ドメインのデータセットの生成として好適な、オリジナルのデータセットの分割を実施し得る。
 〔4〕
 異ドメイン判定では、ドメイン候補変数ごとのデータセットにおける確率分布の違いを表す指標が導出され、指標が判定に適用される。確率分布の差異が存在するデータセットは、異なるドメインのデータセットとして好適である。
 〔5〕
 異ドメイン判定では、ドメイン分割候補ごとの複数のデータセットのいずれかを用いて学習済みモデルが生成され、複数のデータセットのそれぞれの範囲において学習済みモデルの性能評価が実施され、性能の低下分が導出され、性能の低下分が判定に用いられる。
 性能の低下分が存在するデータセットは、異なるドメインのデータセットとして好適である。
 〔6〕
 オリジナルのデータセットを分割して生成された複数のデータセットには、各ユーザーのいずれかを1つのデータセットのみに存在させる補正がされる。これにより、他の施設などのシステムレベルの大きなドメインシフトに対する学習及び性能評価が可能となる。
 〔7〕
 オリジナルのデータセットを分割して生成された複数のデータセットには、各アイテムのいずれかを1つのデータセットのみに存在させる補正がされる。これにより、他の施設などのシステムレベルの大きなドメインシフトに対する学習及び性能評価が可能となる。
 本発明の技術的範囲は、上記の実施形態に記載の範囲には限定されない。各実施形態における構成等は、本発明の趣旨を逸脱しない範囲で、各実施形態の間で適宜組み合わせることができる。
10 推薦システム
12 予測モデル
14 モデル
100 情報処理装置
102 プロセッサ
104 コンピュータ可読媒体
106 通信インターフェース
108 入出力インターフェース
110 バス
112 メモリ
114 ストレージ
122 入力装置
124 表示装置
130 ドメイン候補変数選択プログラム
132 データセット候補生成プログラム
134 データセット判定プログラム
136 データセット生成プログラム
138 学習プログラム
139 学習済みモデル評価プログラム
140 オリジナルデータセット記憶部
142 ドメイン候補変数記憶部
144 生成データ記憶部
145 学習済みモデル記憶部
150 データセット取得部
152 ドメイン候補変数選択部
154 ドメイン分割候補案生成部
156 異ドメイン判定部
158 データセット生成部
159 学習部
160 学習済みモデル評価部
300 データセット
302 ドメイン候補変数
302A ドメイン候補変数
302B ドメイン候補変数
304 データセット
304A データセット
304B データセット
306 データセット
306A データセット
306B データセット
312A ドメイン候補変数
312B ドメイン候補変数
312C ドメイン候補変数
314A データセット
314B データセット
314C データセット
316A データセット
316B データセット
316C データセット
320 グラフ
322 グラフ
324 グラフ
326 グラフ
340 グラフ
342 グラフ
344 グラフ
346 グラフ
352A ドメイン候補変数
352B ドメイン候補変数
352C ドメイン候補変数
354A データセット
354B データセット
354C データセット
356A データセット
356B データセット
400 データセット
402 ドメイン候補変数
404 データセット
406 データセット
408 データセット
412 ドメイン候補変数
414 データセット
416 データセット
418 データセット
500 データセット
510 学習済みモデル
520 学習済みモデル
522 データセット
524 データセット
530 学習済みモデル
532 データセット
534 データセット
IT1 アイテム
IT2 アイテム
IT3 アイテム
S10からS26 情報処理方法の各工程

Claims (12)

  1.  複数のユーザーの複数のアイテムに対する行動履歴からなるデータセットに対して、ユーザーの行動を目的変数として、前記目的変数及び1つ以上の説明変数を用いる予測モデルの構築に適用されるデータセットを生成する情報処理方法であって、
     1つのドメインにおけるデータセットであり、前記目的変数、前記説明変数及び前記目的変数と前記説明変数とを除外した複数の変数が適用されるデータセットを取得し、
     前記目的変数と前記説明変数とを除外した前記複数の変数から、ドメイン候補となる複数のドメイン候補変数を選択し、
     前記ドメイン候補変数を用いて前記データセットを分割するデータセット候補を生成し、
     前記データセット候補のそれぞれが、異なるドメインにおけるデータセットであるか否かを判定し、
     前記データセット候補のそれぞれが、異なるドメインにおけるデータセットである場合に、前記ドメイン候補変数をドメインとして、前記データセットを前記ドメインごとに分割して、分割データセットを生成する情報処理方法。
  2.  前記説明変数ごとのデータの存在確率の分布の少なくとも一部が重なる前記データセット候補を生成する請求項1に記載の情報処理方法。
  3.  前記ドメイン候補変数として時間を適用して、前記データセット候補を生成する請求項1又は2に記載の情報処理方法。
  4.  前記ドメイン候補変数として前記説明変数に非適用のユーザー属性を適用して、前記データセット候補を生成する請求項1から3のいずれか一項に記載の情報処理方法。
  5.  前記ドメイン候補変数として前記説明変数に非適用のアイテム属性を適用して、前記データセット候補を生成する請求項1から4のいずれか一項に記載の情報処理方法。
  6.  前記ドメイン候補変数として前記説明変数に非適用のコンテキストを適用して、前記データセット候補を生成する請求項1から4のいずれか一項に記載の情報処理方法。
  7.  前記説明変数と前記目的変数との1つ以上の確率分布の違いに基づき、異なるドメインにおけるデータセットであるか否かを判定する請求項1から6のいずれか一項に記載の情報処理方法。
  8.  複数の前記データセット候補のいずれかを用いて学習をして生成される学習済みモデルを生成し、
     複数の前記データセット候補のうち、第1データセット候補の範囲において前記学習済みモデルの性能を評価し、
     前記第1データセット候補と異なる第2データセット候補の範囲において前記学習済みモデルの性能を評価し、
     前記第1データセット候補に対応する前記学習済みモデルの性能と、前記第2データセット候補に対応する前記学習済みモデルの性能との性能差に基づいて、異なるドメインにおけるデータセットであるか否かを判定する請求項1から7のいずれか一項に記載の情報処理方法。
  9.  前記分割データセットに対して、前記分割データセットのいずれか1つのみに各ユーザー又は各アイテムを存在させる処理を実施する請求項1から8のいずれか一項に記載の情報処理方法。
  10.  複数のユーザーの複数のアイテムに対する行動履歴からなるデータセットに対して、ユーザーの行動を目的変数として、前記目的変数及び1つ以上の説明変数を用いる予測モデルの構築に適用されるデータセットを生成する情報処理装置であって、
     1つ以上のプロセッサと、
     前記1つ以上のプロセッサに実行させるプログラムが記憶される1つ以上のメモリと、
     を備え、
     前記1つ以上のプロセッサは、前記プログラムの命令を実行して、
     1つのドメインにおけるデータセットであり、前記目的変数、前記説明変数及び前記目的変数と前記説明変数とを除外した複数の変数が適用されるデータセットを取得し、
     前記目的変数と前記説明変数とを除外した前記複数の変数から、ドメイン候補となる複数のドメイン候補変数を選択し、
     前記ドメイン候補変数を用いて前記データセットを分割するデータセット候補を生成し、
     前記データセット候補のそれぞれが、異なるドメインにおけるデータセットであるか否かを判定し、
     前記データセット候補のそれぞれが、異なるドメインにおけるデータセットである場合に、前記ドメイン候補変数をドメインとして、前記データセットを前記ドメインごとに分割して、分割データセットを生成する情報処理装置。
  11.  複数のユーザーの複数のアイテムに対する行動履歴からなるデータセットに対して、ユーザーの行動を目的変数として、前記目的変数及び1つ以上の説明変数を用いる予測モデルの構築に適用されるデータセットを生成するプログラムであって、
     コンピュータに、
     1つのドメインにおけるデータセットであり、前記目的変数、前記説明変数及び前記目的変数と前記説明変数とを除外した複数の変数が適用されるデータセットを取得する機能、
     前記目的変数と前記説明変数とを除外した前記複数の変数から、ドメイン候補となる複数のドメイン候補変数を選択する機能、
     前記ドメイン候補変数を用いて前記データセットを分割するデータセット候補を生成する機能、
     前記データセット候補のそれぞれが、異なるドメインにおけるデータセットであるか否かを判定する機能、及び
     前記データセット候補のそれぞれが、異なるドメインにおけるデータセットである場合に、前記ドメイン候補変数をドメインとして、前記データセットを前記ドメインごとに分割して、分割データセットを生成する機能を実現させるプログラム。
  12.  非一時的かつコンピュータ読取可能な記録媒体であって、請求項11に記載のプログラムが記録された記録媒体。
PCT/JP2023/010627 2022-03-28 2023-03-17 情報処理方法、情報処理装置及びプログラム WO2023189737A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-052101 2022-03-28
JP2022052101 2022-03-28

Publications (1)

Publication Number Publication Date
WO2023189737A1 true WO2023189737A1 (ja) 2023-10-05

Family

ID=88201082

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/010627 WO2023189737A1 (ja) 2022-03-28 2023-03-17 情報処理方法、情報処理装置及びプログラム

Country Status (1)

Country Link
WO (1) WO2023189737A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020202591A1 (ja) * 2019-03-29 2020-10-08 日本電気株式会社 モデル生成装置、モデル調整装置、モデル生成方法、モデル調整方法、及び、記録媒体
JP2021189585A (ja) * 2020-05-27 2021-12-13 株式会社日立製作所 予測装置、予測方法、および予測プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020202591A1 (ja) * 2019-03-29 2020-10-08 日本電気株式会社 モデル生成装置、モデル調整装置、モデル生成方法、モデル調整方法、及び、記録媒体
JP2021189585A (ja) * 2020-05-27 2021-12-13 株式会社日立製作所 予測装置、予測方法、および予測プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TOSHIHIKO MATSUURA; TATSUYA HARADA: "Domain Generalization Using a Mixture of Multiple Latent Domains", ARXIV.ORG, 18 November 2019 (2019-11-18), XP081534555 *

Similar Documents

Publication Publication Date Title
Zhang et al. Interpretable dynamic treatment regimes
Zhang et al. Iterative cohort analysis and exploration
US20190029603A1 (en) Active patient risk prediction
US11809966B2 (en) Computer model machine learning based on correlations of training data with performance trends
CN118152127A (zh) 用于管理特征处理的系统和方法
Cholleti et al. Leveraging derived data elements in data analytic models for understanding and predicting hospital readmissions
US11120218B2 (en) Matching bias and relevancy in reviews with artificial intelligence
US20240046157A1 (en) System and method for generating and optimizing artificial intelligence models
Wesołowski et al. An explainable artificial intelligence approach for predicting cardiovascular outcomes using electronic health records
Jagadish et al. The many facets of data equity
Bagirov et al. Robust piecewise linear l 1-regression via nonsmooth dc optimization
Weber Artificial Intelligence for Business Analytics: Algorithms, Platforms and Application Scenarios
Lahlou et al. Explainable health risk predictor with transformer-based medicare claim encoder
Lee et al. Stable clinical risk prediction against distribution shift in electronic health records
WO2023189737A1 (ja) 情報処理方法、情報処理装置及びプログラム
Demigha Decision Support Systems (DSS) and Management Information Systems (MIS) in Today's Organizations
Wassan et al. Deep convolutional neural network and IoT technology for healthcare
Ayre et al. Algorithms: avoiding the implementation of institutional biases
Lakshmi Chetana et al. CF-AMVRGO: Collaborative filtering based adaptive moment variance reduction gradient optimizer for movie recommendations
WO2023189738A1 (ja) 情報処理方法、情報処理装置およびプログラム
Huitzil et al. Fuzzy ontology datatype learning using Datil
Jeon et al. Interactive feedback loop with counterfactual data modification for serendipity in a recommendation system
Tariq et al. Graph convolutional network-based fusion model to predict risk of hospital acquired infections
Osei-Bryson et al. Exploration of a hybrid feature selection algorithm
US20240070752A1 (en) Information processing method, information processing apparatus, and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23779753

Country of ref document: EP

Kind code of ref document: A1