WO2023085279A1 - Information processing system, and information processing method - Google Patents

Information processing system, and information processing method Download PDF

Info

Publication number
WO2023085279A1
WO2023085279A1 PCT/JP2022/041591 JP2022041591W WO2023085279A1 WO 2023085279 A1 WO2023085279 A1 WO 2023085279A1 JP 2022041591 W JP2022041591 W JP 2022041591W WO 2023085279 A1 WO2023085279 A1 WO 2023085279A1
Authority
WO
WIPO (PCT)
Prior art keywords
entities
data set
feature vectors
entity
group
Prior art date
Application number
PCT/JP2022/041591
Other languages
French (fr)
Japanese (ja)
Inventor
雄介 熊谷
龍 道本
悠哉 野沢
Original Assignee
株式会社博報堂Dyホールディングス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社博報堂Dyホールディングス filed Critical 株式会社博報堂Dyホールディングス
Publication of WO2023085279A1 publication Critical patent/WO2023085279A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Definitions

  • the present disclosure relates to an information processing system and an information processing method.
  • Data fusion technology that combines multiple data collected by different means based on common variables is also known.
  • a first data set comprising first characteristic data for each customer
  • a second data set comprising second characteristic data for each customer.
  • a technique related to data fusion between sets has already been disclosed (see Patent Document 1, for example).
  • Data fusion combines first characteristic data and second characteristic data of close customers based on variables common between the first data set and the second data set, e.g., demographic attributes of the customers. It is done to bind.
  • the first It is desirable to be able to provide a technique that can realize correspondence between one entity and a second entity.
  • an information processing system includes a first acquisition unit, a second acquisition unit, a dimensionality reduction unit, and an association unit.
  • the first obtaining unit is configured to obtain a first data set for a plurality of first entities.
  • the first data set may describe characteristics of each of the plurality of first entities.
  • the second acquisition unit is configured to acquire a second data set related to a plurality of second entities.
  • the second data set may describe characteristics of each of the plurality of second entities.
  • the dimension reduction unit performs dimension reduction processing on a group of first feature vectors identified from the first data set and a group of second feature vectors identified from the second data set, It is configured to generate a first set of low-dimensional feature vectors corresponding to the first set of feature vectors and a second set of low-dimensional feature vectors corresponding to the second set of feature vectors.
  • the group of second low-dimensional feature vectors may be a group of feature vectors having the same number of dimensions as the group of first low-dimensional feature vectors.
  • Each of the first feature vectors can represent features of a corresponding one of the plurality of first entities.
  • Each of the second feature vectors may represent features of a corresponding one of the plurality of second entities.
  • the associating unit associates each of the plurality of first entities with at least one of the plurality of second entities based on the group of first low-dimensional feature vectors and the group of second low-dimensional feature vectors. configured to match.
  • first feature vector and the second feature vector if the first set of entities and the second set of entities are subsets from a common population or a mutually related population Even in the absence of common variables, dimensionality reduction allows features of the first entity and features of the second entity to be represented by combinations of components that are common or related to each other.
  • the first It is possible to properly associate one entity with a second entity.
  • the associating unit is the similarity between the first entities identified from the first group of low-dimensional feature vectors and the second group of low-dimensional feature vectors identified from the Each of the plurality of first entities is divided into a plurality of It can be associated with at least one of the second entities.
  • first set of entities and the second set of entities are subsets from a common population or mutually related populations, then the mutual relationships in terms of similarity between the entities are similar to the populations.
  • first set of entities and the second set of entities generally have or are related to each other.
  • each of the plurality of first entities is associated with at least one of the plurality of second entities such that the correlation between the first entities in terms of similarity matches the correlation between the second entities.
  • each first entity can be associated with a suitable second entity that is highly identical or closely related.
  • a group of first low-dimensional feature vectors may be defined by a first feature space.
  • a second set of low-dimensional feature vectors may be defined by the second feature space.
  • the associating unit is configured such that the distribution of the plurality of first entities in the first feature space specified from the group of first low-dimensional feature vectors is specified from the group of second low-dimensional feature vectors.
  • a mapping may be searched to map the plurality of first entities on the first feature space to the second feature space to match the distribution of the plurality of second entities in the feature space.
  • the associating unit may be configured to associate each of the plurality of first entities with at least one of the plurality of second entities based on the mapping.
  • the associating unit is an expression including matrix K, matrix L, and matrix H
  • a matrix ⁇ that maximizes the value Z( ⁇ ) according to is searched as a matrix ⁇ * , and based on the matrix ⁇ * , each of the plurality of first entities is associated with at least one of the plurality of second entities.
  • T is the transpose symbol.
  • trace is the diagonal sum of matrix X;
  • Matrix K can be a matrix with N rows and N columns.
  • the number of first entities may be N;
  • the number of second entities can be the same as the first entity.
  • the matrix K is a first similarity matrix in which the value of the element in the i-th row and j-th column represents the similarity between the i-th entity and the j-th entity among the plurality of first entities. obtain.
  • the value of the i-th row and j-th column element in the matrix K is the first low-dimensional feature vector of the i-th entity among the plurality of first entities and the j-th and a first low-dimensional feature vector of the entity.
  • the matrix L can be a matrix with N rows and N columns.
  • the matrix L is a second similarity matrix in which the value of the element in the i-th row and j-th column represents the similarity between the i-th entity and the j-th entity among the plurality of second entities. .
  • the value of the i-th row and j-th column element in the matrix L is the second low-dimensional feature vector of the i-th entity among the plurality of second entities and the j-th feature vector of the plurality of second entities. and a second low-dimensional feature vector of the entity.
  • the matrix H can be a matrix with N rows and N columns.
  • the associating unit may change the dimensionality reduction method in the dimensionality reduction process based on the matrix ⁇ * .
  • the associating unit, of the group of first low-dimensional feature vectors and the group of second low-dimensional feature vectors, between the first low-dimensional feature vector and the second low-dimensional feature vector corresponding to each other The dimension reduction method in the dimension reduction process may be changed so that the distance in the feature space of is shortened.
  • the associating unit improves the matrix ⁇ * by repeatedly performing a re-search process on the matrix ⁇ * until a predetermined condition is satisfied, and converts the improved matrix ⁇ * to Based on this, each of the plurality of first entities may be configured to correspond to at least one of the plurality of second entities.
  • the re-searching process may include changing the dimensionality reduction scheme in the dimensionality reduction process based on the matrix ⁇ * .
  • the dimensionality reduction unit executes the dimensionality reduction process in the dimensionality reduction method after the change, and the group of the first low-dimensional feature vectors and the second low-dimensional feature vector newly obtained thereby. It may involve re-searching the matrix ⁇ * based on the constellation.
  • the association unit is configured in this way, the association between the first entity and the second entity can be performed with high accuracy.
  • the first data set may include multiple pieces of first feature data.
  • Each of the plurality of first feature data can represent features of a corresponding one of the plurality of first entities.
  • the second data set may include multiple second feature data.
  • Each of the plurality of second feature data can represent features of a corresponding one of the plurality of second entities.
  • the information processing system may further include a data fusion unit.
  • the data fusion unit adds the plurality of second feature data to each of the plurality of first feature data based on the association between the plurality of first entities and the plurality of second entities by the association unit. Combining one of them may be configured to generate an augmented data set.
  • An extended data set may comprise multiple extended data. Each of the plurality of extended data can be combined data of corresponding one first feature data and second feature data.
  • the first entity may be a person.
  • a second entity can be a person.
  • the first data set may be a data set describing a first characteristic of each of a plurality of persons belonging to the first population.
  • the second data set can be a data set describing a second characteristic of each of the plurality of persons belonging to the second population.
  • the combination of the first feature and the second feature includes a feature related to purchasing behavior, a feature related to movement in at least one of the online space and the offline space, and/or spatially and features relating to visits to multiple points of. Entity matching based on datasets related to these features, and furthermore data fusion, aids in human behavior analysis.
  • the second data set may be associated with identification information of information terminals corresponding to each of the plurality of second entities.
  • an information processing system includes at least part of a set of second entities, among a plurality of second entities, that are associated with any one of a plurality of first entities by an associating unit. as a distribution destination of the information content.
  • the information processing system includes a distribution unit configured to distribute information content to a set of information terminals corresponding to distribution destinations of the information content based on the identification information.
  • This information processing system functions meaningfully when the first entity and the second entity are people. According to the distribution method described above, even when the relationship between the first entity and the information terminal is unknown, the identification information of the information terminal associated with the second entity is used to support the first entity.
  • the information content can be appropriately distributed to the information terminal of the second entity that
  • the selection unit includes a first set that is a set of second entities associated with any of the plurality of first entities by the association unit, and a plurality of second entities.
  • the second set having similar features to the first set may be selected as the distribution destination of the information content. According to such selection of distribution destinations, it is possible to distribute the information content by expanding the distribution destinations within an appropriate range based on the second data set.
  • the second data set may be a data set describing behavioral characteristics of each of the plurality of second entities.
  • the information processing system may include an estimation unit that calculates, for each of the one or more attention entities, an estimated value regarding the behavior of the corresponding attention entity.
  • One or more entities of interest may be at least a portion of the plurality of first entities.
  • the estimated value may be calculated based on at least one behavioral feature of the plurality of second entities associated with the corresponding entity of interest.
  • the first entity and the second entity can be people.
  • An estimate may be a prediction.
  • an information processing method corresponding to the method executed by the information processing system described above may be provided.
  • a computer-implemented information processing method may be provided. The information processing method may include obtaining a first data set relating to a plurality of first entities, the first data set describing characteristics of each of the plurality of first entities.
  • the information processing method may include obtaining a second data set relating to a plurality of second entities, the second data set describing characteristics of each of the plurality of second entities.
  • the information processing method performs dimension reduction processing on a group of first feature vectors identified from the first data set and a group of second feature vectors identified from the second data set, It may include generating a first set of low-dimensional feature vectors corresponding to the first set of feature vectors and a second set of low-dimensional feature vectors corresponding to the second set of feature vectors.
  • the group of second low-dimensional feature vectors may be a group of feature vectors having the same number of dimensions as the group of first low-dimensional feature vectors.
  • Each of the first feature vectors can represent features of a corresponding one of the plurality of first entities.
  • Each of the second feature vectors may represent features of a corresponding one of the plurality of second entities.
  • the information processing method converts each of the plurality of first entities into at least one of the plurality of second entities based on the set of first low-dimensional feature vectors and the set of second low-dimensional feature vectors. may include matching.
  • the matching is a measure of similarity between a first entity identified from a first set of low-dimensional feature vectors and a measure of similarity between entities identified from a second set of low-dimensional feature vectors. Based on the similarity between the second entities, each of the plurality of first entities is combined with the plurality of second entities such that the correlation between the first entities with respect to the similarity matches the correlation between the second entities. It may involve mapping to one of two entities.
  • a first data set regarding a plurality of first entities and a second data set regarding a plurality of second entities are obtained without using a common variable.
  • a correspondence between the first entity and the second entity can be realized based on .
  • a computer program including instructions for causing a computer to execute the information processing method described above may be provided.
  • a computer-readable non-transitory tangible recording medium storing a computer program may be provided.
  • FIG. 1 is a block diagram showing the configuration of an information processing system
  • FIG. 4 is a flowchart representing analysis processing executed by a processor
  • FIG. 3A is a diagram illustrating the configuration of the first data set
  • FIG. 3B is a diagram illustrating the configuration of the second data set.
  • 4A and 4B are diagrams illustrating a search method for the matrix ⁇ .
  • 4 is a diagram illustrating the configuration of a correspondence table generated by a processor
  • FIG. FIG. 4 is a diagram illustrating the configuration of an extended data set generated by a processor; It is a flow chart showing analysis processing which a processor performs in a second embodiment. It is a flow chart showing evaluation processing which a processor performs in a third embodiment.
  • FIG. 4 is a flowchart representing analysis processing executed by a processor
  • FIG. 3A is a diagram illustrating the configuration of the first data set
  • FIG. 3B is a diagram illustrating the configuration of the second data set.
  • 4A and 4B are diagrams
  • FIG. 11 is a flowchart showing selection processing executed by a processor in the third embodiment;
  • FIG. It is a block diagram showing the structure of the delivery system of 4th embodiment. It is a figure which illustrates the structure of the internal data set in 4th embodiment. It is a flow chart showing distribution control processing which a processor performs in a fourth embodiment. It is a flow chart showing distribution control processing which a processor performs in a fifth embodiment.
  • FIG. 16 is a flowchart showing prediction processing executed by a processor in the sixth embodiment; FIG.
  • the information processing system 1 of this embodiment is configured by installing a dedicated computer program Pr in a general-purpose computer.
  • the information processing system 1 includes a processor 11, a memory 13, a storage 15, a user interface 17, and a communication interface 19, as shown in FIG.
  • the processor 11 executes processing according to the computer program Pr stored in the storage 15.
  • the memory 13 is a primary storage device having a RAM, and is used as a work area when the processor 11 executes processing.
  • the storage 15 is a secondary storage device including, for example, a hard disk drive or a solid state drive, and stores various data provided during execution of processing according to the computer program Pr in addition to the computer program Pr.
  • the user interface 17 includes an input device and a display.
  • the input device is provided for inputting an operation signal from a user who operates the information processing system 1 to the processor 11 .
  • a display is provided for displaying various information to the user. Examples of input devices include keyboards and pointing devices.
  • the communication interface 19 includes a LAN (Local Area Network) interface and a USB (Universal Serial Serial) interface, and is used for communication with external devices.
  • the information processing system 1 transmits and receives data to and from an external device through the communication interface 19 .
  • the processor 11 in the information processing system 1 executes a process according to the computer program Pr to extend the first data set 15A acquired from the external device through the communication interface 19 using the second data set 15B to obtain an extended data set 15C. to generate
  • the extended data set 15C is a data set obtained by adding information provided in the second data set 15B to the first data set 15A. Expansion increases the amount of information for each entity that the first data set 15A describes.
  • An entity is, for example, a person, in particular an individual. The increase in the amount of information is performed for human behavior analysis and advertisement distribution based on the extended data set 15C.
  • the processor 11 of the information processing system 1 executes the analysis process shown in FIG.
  • the processor 11 acquires the first data set 15A and the second data set 15B for data fusion (S110, S120).
  • the processor 11 can read the first data set 15A and the second data set 15B pre-stored in the storage 15 from the storage 15. Thereby, the processor 11 can acquire the first data set 15A and the second data set 15B.
  • the first data set 15A and the second data set 15B to be acquired can be specified by the user.
  • the user can collect the first data set 15A and the second data set 15B for data fusion in advance and store them in the storage 15 .
  • the processor 11 can acquire the first data set 15A from the first external device and the second data set 15B from the second external device through communication using the communication interface 19.
  • a first data set 15A is a data set relating to a plurality of first entities and a data set describing the first characteristics of each of the first entities.
  • the first data set 15A is a set of first feature data, each piece of first feature data representing a first feature of a corresponding one of the plurality of first entities.
  • a second data set 15B is a data set relating to a plurality of second entities and a data set describing the second characteristics of each of the second entities.
  • the second feature can be a different feature than the first feature.
  • the second data set 15B is a set of second feature data, and each of the second feature data is the second feature of a corresponding one of the plurality of second entities. represents
  • the first set of entities and the second set of entities are, for example, different subsets of a common population.
  • a population can be a collection of people or a collection of consumers.
  • a first set of entities may be a set of people corresponding to customers of the first business.
  • the second set of entities may be a set of people corresponding to customers of a second business that is different from the first business.
  • the first set of entities may be a set of people whose first actions are collected.
  • the second set of entities may be a set of people from whom the second behavior is collected.
  • a first data set 15A shown in FIG. 3A is data relating to a first group of people, and includes feature data relating to purchasing behavior of each person.
  • Each piece of feature data is associated with a corresponding person's ID, and indicates by a binary value of 1 or 0 whether the corresponding person has purchased each of the plurality of products P1, P2, P3, .
  • a second data set 15B shown in FIG. 3B is data relating to a second set of people and comprises feature data relating to browsing behavior of web content for each person.
  • Each feature data is associated with a corresponding person's ID, and whether or not the corresponding person has visited each of the plurality of websites S1, S2, S3, . . . is represented by a binary value of 1 or 0.
  • the lower right area of FIG. 3A shows an example of a low-dimensional feature vector Dx in the form of a table.
  • the low-dimensional feature vector Dy is a feature vector having the same dimension number M as the low-dimensional feature vector Dx.
  • the lower right area of FIG. 3B shows an example of a low-dimensional feature vector Dy in the form of a table.
  • Examples of algorithms for realizing mapping to a low-dimensional space include nonnegative matrix factorization, latent dirichlet allocation, singular value decomposition, and stochastic Latent semantic analysis (Probabilistic Latent Semantic Analysis) is known.
  • the dimensionality reduction process at S130, S140 can be performed using one of these algorithms.
  • the feature vector can be reduced in dimension so that the main feature components that strongly characterize the individual entity are extracted.
  • the feature vector can be reduced in dimension in a form that is less lossy of information to distinguish individual entities.
  • the processor 11 performs alignment processing to calculate the relationship between the first entity and the second entity based on the set of low-dimensional feature vectors Dx and the set of low-dimensional feature vectors Dy ( S150-S180).
  • Alignment processing is performed using kernelized sorting technology. Details of alignment processing using kernelized sorting will be described below. However, the alignment process may be realized using adversarial learning, Gromov-Wasserstein Alignment technology, or Unbalanced Optimal Transport technology.
  • the processor 11 uses the group of low-dimensional feature vectors Dx to generate a similarity matrix K for the first set of entities.
  • the similarity matrix K is a square matrix with N rows and N columns.
  • N is the number of low-dimensional feature vectors Dx, in other words, the number of first entities.
  • the similarity matrix K is defined as a matrix in which the value Kij of the i-th row and j-th column element represents the similarity between the i-th entity and the j-th entity in the first entity set.
  • the similarity matrix K is defined as a matrix that describes the distribution of similarities between entities with respect to the first set of entities.
  • the similarity matrix K is defined as a matrix that describes the distribution of entities on the feature space with respect to the first set of entities using a measure of closeness between entities.
  • An example of the kernel function k(a,b) includes a Gaussian RBF (radial basis function) kernel expressed by the following equation.
  • the similarity calculated using this kernel function k(a, b) takes values ranging from 0 to 1.
  • the value Kij of the elements of the similarity matrix K is 0 ⁇ Kij ⁇ 1.
  • the processor 11 uses the group of low-dimensional feature vectors Dy to generate a similarity matrix L for the second set of entities.
  • the similarity matrix L is a square matrix with N rows and N columns.
  • N is the number of low-dimensional feature vectors Dy, in other words, the number of second entities. That is, the number of first entities and the number of second entities are the same.
  • processor 11 uses similarity matrix K and similarity matrix L to search for matrix ⁇ that maximizes value Z( ⁇ ) according to the following equation as matrix ⁇ * .
  • T is the transpose symbol.
  • trace(X) is the diagonal sum of matrix X;
  • Similarity matrices K and L are symmetric matrices.
  • the value Z( ⁇ ) is maximized when the ideal ⁇ is found such that the matrix ⁇ T L' ⁇ is the transpose of the matrix K'.
  • Searching the matrix ⁇ * is the similarity between a first entity identified from a set of low-dimensional feature vectors Dx and the similarity between a second entity identified from a set of low-dimensional feature vectors Dy each of the plurality of first entities to at least one of the plurality of second entities such that the correlation between the first entities in terms of similarity matches the correlation between the second entities based on Corresponding to correspond.
  • searching the matrix ⁇ * is the distribution of the first entity in the first M-dimensional feature space identified from the group of low-dimensional feature vectors Dx, defined by the similarity between the entities.
  • the left graph in FIG. 4A conceptually represents the distribution of the first entity
  • the left graph in FIG. 4B conceptually represents the distribution of the second entity.
  • the examples shown in FIGS. 4A and 4B define two-dimensional low-dimensional feature vectors Dx and Dy for technical explanation only.
  • Each point labeled E11, E12, E13, E14, E15, E16, E17 indicates the position of the first entity on the feature space.
  • Each point labeled E21, E22, E23, E24, E25, E26, E27 indicates the position of the second entity on the feature space.
  • the component Dy1 of the low-dimensional feature vector Dy corresponds to the component Dx2 of the low-dimensional feature vector Dx
  • the component Dy2 of the low-dimensional feature vector Dy corresponds to the low-dimensional feature vector It corresponds to the component Dx1 of Dx.
  • the first group of entities and the second group of entities are such that the entity arrangement and dimension order are between the similarity matrix K and the similarity matrix L. They represent similarity distributions for sets of entities that are essentially the same, only defined differently.
  • the low-dimensional feature vectors Dx and Dy only have the same feature component, and the arrangement of the feature components cannot be aligned. Also, the entities are not aligned between the first data set 15A and the second data set 15B.
  • the search of the matrix ⁇ * corresponds to the work of searching for the correspondence between irregular feature vectors Dx and Dy with respect to the array of entities and the array of dimensions, using the identity of the similarity distribution as a clue.
  • the processor 11 associates each of the first entities with at least one of the second entities based on the matrix ⁇ * .
  • the element value of the i-th row and j-th column of the matrix ⁇ * is the i-th entity in the first entity set and the j-th entity in the second entity set. and represent the degree or possibility of correspondence.
  • Each element of the matrix ⁇ * ideally takes 0 or 1, the sum of the element values in one row is 1 for each row, and the sum of the element values in one column is 1 for each column.
  • the matrix ⁇ * is such an ideal matrix, the first entity of the row number and the second entity of the column number of the 1-valued elements correspond to each other.
  • each of the plurality of first entities is associated with at least one of the second entities using one of the following methods.
  • Method 1 The i-th row of the matrix ⁇ * is searched for the element with the maximum value. If the element with the largest value is in the c-th column, the i-th entity in the first set of entities is associated with the c-th entity in the second set of entities. Do this for all rows.
  • one of the second entities may be associated with multiple first entities.
  • a neighborhood search may be performed. Contextual dissimilarity measure is known as an example of neighborhood search.
  • Method 2 In order to perform a strict one-to-one correspondence, by solving an optimal assignment problem with the matrix ⁇ * as an input, each of the plurality of first entities is assigned to one of the non-overlapping second entities. correspond to
  • the processor 11 can further output the correspondence table shown in FIG. 5 as a table describing the correspondence between the first entity and the second entity. That is, a correspondence table describing the ID of the corresponding second entity in association with each ID of the first entity can be output and stored in the storage 15 .
  • the processor 11 executes data fusion processing (S190).
  • the processor 11 combines the first data set 15A and the second data set 15B based on the correspondence result or the correspondence table to generate the extended data set 15C. .
  • the extended data set 15C comprises multiple extended data. As shown in FIG. 6, each of the plurality of extension data is combined data of corresponding one first feature data and second feature data.
  • the processor 11 assigns each of the plurality of first feature data included in the first data set 15A to each of the plurality of second feature data included in the second data set 15B based on the correspondence table. Combining one produces an extended data set 15C.
  • the processor 11 of the i Generate extended data for the th entity When the correspondence table associates the i-th entity in the first entity set with the j-th entity in the second entity set, the processor 11 of the i Generate extended data for the th entity.
  • the extended data set 15C generated in this way is stored in the storage 15.
  • the extended data set 15C stored in the storage 15 is transferred to another system through the communication interface 19 based on a command from the user input through the user interface 17, for example.
  • Another system may be, for example, an advertisement distribution system. Based on the extended data set 15C, the advertisement distribution system can determine the entity to which the advertisement is to be distributed, and distribute the advertisement to the entity.
  • the similarity distribution Based on this, the first entity and the second entity can be appropriately associated.
  • the similarity distributions between the first set of entities and the second set of entities match, are similar to, or are related to each other.
  • first data set 15A and the second data set 15B are data sets based on collected data from populations whose distributions of demographic attributes are estimated to be similar to each other, appropriate matching between entities is feasible.
  • the first data set 15A and the second data set 15B are data sets that explain the characteristics of people belonging to different groups with no common variables, or data sets that explain the characteristics of different behaviors. Even if there is, the correspondence between the entities can be made appropriately. Therefore, it is possible to generate a data set useful for human psychology/behavior analysis as the extended data set 15C.
  • the first data set 15A is a data set describing the characteristics of purchasing behavior of each of a plurality of people belonging to the first group
  • the second data set 15B is a A data set describing characteristics of website visit behavior and/or web content browsing behavior of each of a plurality of people belonging to a group.
  • one of the first data set 15A and the second data set 15B may be a data set that describes characteristics of a person's media contact behavior, such as television viewing behavior.
  • One of the first data set 15A and the second data set 15B may be a data set that describes the characteristics of usage of a mobile terminal such as a smart phone.
  • a dataset that describes the characteristics of a person's movement in an offline space may be used as one of the first dataset 15A and the second dataset 15B.
  • a dataset may describe features of a person's movement in the offline space, such as visits to multiple locations, travel routes, and/or means of travel.
  • a dataset that describes the characteristics of people's movement in the online space may be used as one of the first dataset 15A and the second dataset 15B.
  • a dataset may describe features of a person's movement and surfing in a virtual reality (VR) space as features of a person's movement in an online space.
  • a data set based on data collected by a questionnaire may be used as one of the first data set 15A and the second data set 15B.
  • a combination of the first data set 15A and the second data set 15B a combination of a data set collected by questionnaire and a data set related to TV viewing behavior, or a data set related to movement history and a data set related to purchase may be employed in combination with
  • processing such as ZCA whitening, normalization, and standardization may be performed on the group of low-dimensional feature vectors Dx and Dy.
  • the number of dimensions M of the low-dimensional feature vectors Dx and Dy is determined by the designer or user, but the information processing system 1 may be configured to search for the optimum number of dimensions M. For example, the information processing system 1 repeatedly executes the analysis processing shown in FIG. It may be configured to automatically select the number M.
  • the information processing system 1 of the second embodiment is configured such that the processor 11 executes the analysis process shown in FIG. 7 instead of the analysis process shown in FIG. Below, the details of the analysis processing executed by the processor 11 will be selectively described as a description of the second embodiment. It may be understood that the configuration of the information processing system 1 that is not mentioned in this embodiment is the same as in the first embodiment.
  • the processor 11 acquires the first data set 15A and the second data set 15B to be subjected to data fusion (S310, S320), as in the first embodiment.
  • the processor 11 generates a feature vector x for each first entity based on the first data set 15A (S310), similar to the process at S110.
  • the processor 11 generates a feature vector y for each second entity based on the second data set 15B (S320), similar to the process at S120.
  • the processor 11 generates a group of low-dimensional feature vectors Dx corresponding to the group of feature vectors x, and a group of low-dimensional feature vectors Dx corresponding to the group of feature vectors y by the dimension reduction process, similarly to the processes in S130 and S140.
  • a set of feature vectors Dy is generated (S330).
  • the processor 11 executes the same processes as those in S150, S160, and S170. That is, the processor 11 uses a group of low-dimensional feature vectors Dx to generate a similarity matrix K for the first set of entities, and uses a group of low-dimensional feature vectors Dy to generate a similarity matrix K for the second set of entities. Generate a similarity matrix L.
  • the processor 11 uses the similarity matrix K and the similarity matrix L to search for the matrix ⁇ that maximizes the value Z( ⁇ ) described in the first embodiment as the matrix ⁇ * (S340).
  • the searched matrix ⁇ * is expressed as a correspondence matrix ⁇ * .
  • the processor 11 determines whether or not the repetition end condition is satisfied (S350). When determining that the repetition end condition is not satisfied (No in S350), the processor 11 executes the process of S360.
  • the processor 11 searches for a dimensionality reduction scheme that minimizes the cost of the Gromov-Wasserstein distance while fixing the correspondence matrix ⁇ * searched at S340.
  • Fixing the correspondence matrix ⁇ * corresponds to fixing the correspondence between the first entity and the second entity. Searching the matrix ⁇ that maximizes the value Z( ⁇ ) as described above as the correspondence matrix ⁇ * is performed in the first feature space to fit the distribution of the second entity in the second feature space This corresponds to finding a map for mapping the plurality of first entities above to the second feature space.
  • the Gromov-Wasserstein distance cost corresponds to the transportation cost in the optimal transportation problem between the first entity and the second entity when mapping the first set of entities to the second feature space.
  • the cost of the Gromov-Wasserstein distance can be calculated using the similarity matrices K, L and the correspondence matrix ⁇ * .
  • the similarity matrix K is, as described above, a matrix whose elements are the degrees of similarity between the first entities calculated based on the reduced-dimensional feature vector Dx.
  • the similarity matrix L is a matrix whose elements are similarities between the second entities calculated based on the reduced-dimensional feature vector Dy.
  • the cost minimization is the distance in the feature space between the first entity and the second entity that correspond to each other, in other words, the low-dimensional feature vector of the first entity It corresponds to searching for a dimensionality reduction scheme that reduces the distance in the feature space between Dx and the low-dimensional feature vector Dy of the second entity.
  • the transform matrix Tx of M rows and M1 columns is applied to the feature vector x.
  • a transformation matrix Ty of M rows and M2 columns is applied to the feature vector y.
  • the number of parameters m constituting the transformation matrices Tx and Ty is (M*M1+M*M2).
  • the search for the dimension reduction method is realized by searching for the parameter m that minimizes the above-mentioned cost as the parameter m of the transformation matrixes Tx and Yy, for example, by using the gradient method or the like.
  • the processor 11 reduces the dimension of the feature vectors x, y by the searched dimension reduction method (for example, transformation matrices Tx, Ty), and calculates new low-dimensional feature vectors Dx, Dy (S370).
  • the searched dimension reduction method for example, transformation matrices Tx, Ty
  • the processor 11 uses the similarity matrix K based on the new low-dimensional feature vector Dx and the similarity matrix L based on the new low-dimensional feature vector Dy to create a matrix ⁇ that maximizes the value Z ( ⁇ ), Search as a new correspondence matrix ⁇ * (S340).
  • the processor 11 By repeatedly executing the processes of S360, S370, and S340 in this manner, the processor 11 re-searches the correspondence matrix ⁇ * with high matching accuracy along with a better dimensionality reduction method.
  • the processor 11 executes the process of S380.
  • the repetition end condition is satisfied, for example, when the process of S340 is executed a predetermined number of times, or when the amount of change in the correspondence matrix ⁇ * due to the re-search becomes less than a certain amount.
  • the processor 11 converts each of the first entities to at least correspond to one.
  • Processor 11 is further capable of storing and outputting a correspondence table describing the correspondence between the first entity and the second entity.
  • the processor 11 performs data fusion processing in the same manner as in S190 to combine the first data set 15A and the second data set 15B to generate the extended data set 15C.
  • the generated extended data set 15C is stored in the storage 15 (S390).
  • the information processing system 1 of the second embodiment described above can associate the first entity and the second entity with even higher accuracy through the iterative process described above. Therefore, it is possible to generate the extended data set 15C with high precision.
  • the information processing system 1 of the third embodiment is configured such that the processor 11 executes the evaluation process shown in FIG. Details of the evaluation process executed by the processor 11 will be described below as a description of the third embodiment. It may be understood that the configuration of the information processing system 1 that is not mentioned in this embodiment is the same as in the first or second embodiment.
  • the evaluation process is performed to evaluate whether or not the data set to be evaluated is an excellent data set capable of performing the matching and data fusion in the analysis process shown in FIG. 2 or 7 with high accuracy.
  • the data set to be evaluated corresponds to a data set that can be used as the first data set 15A or the second data set 15B in the analytical process.
  • the processor 11 acquires the evaluation target data set specified by the user along with the execution instruction (S410).
  • the processor 11 can acquire the designated evaluation target data set from the storage 15 .
  • the processor 11 After that, the processor 11 generates a first feature vector x_1 and a second feature vector x_2 for each entity based on the data set to be evaluated (S420).
  • the data set to be evaluated may comprise, for each entity, feature data representing features of the corresponding entity with (Q1+Q2) elements.
  • the processor 11 can divide the (Q1+Q2) elements into a first element group consisting of Q1 elements and a second element group consisting of Q2 elements. Each of the (Q1+Q2) elements can be randomly classified into either the first element group or the second element group.
  • the processor 11 Based on the data set to be evaluated, the processor 11 generates, for each entity, a first feature vector x_1 describing a feature of the first element group of the corresponding entity and a feature of the second element group of the corresponding entity. and a second feature vector x_2 describing
  • a first feature vector x_1 containing Q1 elements (v[1], v[2], ..., v[Q1]) and Q2
  • the first feature vector x_1 corresponds to the feature vector x for each entity in the first set of entities
  • the second feature vector x_2 corresponds to the entity in the same second set of entities as the first set of entities. corresponding to each feature vector y.
  • the processor 11 performs the same processing as the processing performed in S130 to S170 on the first feature vector x_1 and the second feature vector x_2 in S430 and S440.
  • the processor 11 performs dimension reduction processing on the first feature vector x_1 for each first entity and the second feature vector x_2 for each second entity, similarly to the processing in S130 and S140. , generate a low-dimensional feature vector Dx_1 and a low-dimensional feature vector Dx_2 having the same number of dimensions.
  • the processor 11 Based on the low-dimensional feature vector Dx_1 for each first entity, the processor 11 generates a similarity matrix representing the similarity of the low-dimensional feature vector Dx_1 between the first entities corresponding to the similarity matrix K. The processor 11 further generates a similarity matrix representing the similarity of the low-dimensional feature vectors Dx_2 between the second entities corresponding to the similarity matrix L based on the low-dimensional feature vectors Dx_2 for each second entity.
  • the processor 11 searches for the matrix ⁇ that maximizes the value Z( ⁇ ) as the correspondence matrix ⁇ * (S440).
  • the processor 11 determines that the correspondence matrix ⁇ * for the first set of entities corresponding to the group of low-dimensional feature vectors Dx_1 and the second set of entities corresponding to the group of low-dimensional feature vectors Dx_2 is:
  • a score is calculated to indicate the degree of correct representation of the correspondence between the first entity and the second entity (S450).
  • the processor 11 evaluates whether or not the dataset to be evaluated is an excellent dataset capable of performing matching and data fusion by analysis processing with high accuracy (S450).
  • the processor 11 stores the correct correspondence relationship between the first entity and the second entity when generating the feature vector x_1 for each first entity and the feature vector x_2 for each second entity in advance in S420. can be kept.
  • Processor 11 calculates correspondence matrix ⁇ * by executing processing similar to the analysis processing in S430 and S440 in an environment in which the correct correspondence relationship is stored as described above, and calculates correspondence specified from correspondence matrix ⁇ * . Compare the relationship with the correct answer.
  • the processor 11 performs the process of associating each of the first entities with one of the second entities based on the correspondence matrix ⁇ * in the same manner as in S180 and S380.
  • the processor 11 determines that the association is successful when the first entity and the second entity associated based on the correspondence matrix ⁇ * are the same entity in the data set to be evaluated. If they are not the same entity, it is determined that the association has failed.
  • the processor 11 can calculate the percentage of successful association among all entities as the score of the evaluation target data set (S450). After that, the processor 11 outputs the calculated score as an evaluation result (S460), and ends the evaluation process.
  • the dataset must contain sufficient information or data structure to achieve high accuracy matching and data fusion of the features of the set. It can be assumed that they do not.
  • the processor 11 can inform the user of the information processing system 1 whether or not the dataset to be evaluated is an excellent dataset by outputting the score. Thereby, the user can employ an appropriate combination of the first data set 15A and the second data set 15B for analysis processing to obtain the extended data set 15C with high reliability.
  • the extended data set 15C may be sufficient to generate the extended data set 15C using a data set relating to customer purchasing behavior of any one of the plurality of distribution organizations as the first data set 15A.
  • Examples of multiple distribution organizations include multiple convenience store chains.
  • the data set on purchases of each convenience store chain may contain information on the same kind of purchasing behavior as that of other convenience store chains as consumer purchasing behavior.
  • the first data set 15A it is considered sufficient to generate the extended data set 15C using a data set on customer purchasing behavior of any one of a plurality of convenience store chains.
  • the accuracy of matching and data fusion is determined from these multiple data sets. can be used to select the optimal data set in terms of as the first data set 15A (or the second data set 15B).
  • the processor 11 executes the selection process shown in FIG. One candidate can be adopted as a data set for data fusion.
  • the data set targeted for data fusion in S110 and S310 corresponds to the first data set 15A
  • the data set targeted for data fusion in S120 and S320 corresponds to the second data set 15B.
  • the processor 11 acquires multiple data sets as multiple data set candidates for data fusion (S510).
  • the processor 11 can acquire a plurality of data sets designated by the user from the storage 15 .
  • the processor 11 sets one of the plurality of datasets as the dataset to be evaluated (S520), and executes the evaluation process shown in FIG. 8 (S530).
  • the processor 11 sets each data set as a data set to be evaluated (S520) and executes the evaluation process (S530) until the evaluation process for all of the plurality of data sets is executed (Yes in S540). repeat the process. As a result, the score calculated in S450 is obtained for each data set.
  • the processor 11 When evaluation processing is performed on all of the plurality of data sets and scores are obtained (Yes in S540), the processor 11 adopts the data set with the highest score among the plurality of data sets as the data set to be subjected to data fusion. (S550). After that, the selection process ends. At S110, S120, S310, S320, processor 11 may generate a feature vector (x or y) based on the adopted data fusion target dataset.
  • multiple dataset candidates for data fusion may include multiple datasets representing consumer purchasing behavior with different parameters.
  • the first candidate may be a data set capable of generating a feature vector whose elements include the number of items purchased for each consumer as an entity.
  • a second candidate may be a data set capable of generating a feature vector whose elements include the purchase amount of each product for each consumer as an entity.
  • Preparing a plurality of data sets that explain similar features with different parameters and selecting a data set suitable for data fusion leads to the generation of a better extended data set 15C.
  • the distribution system 30 of the fourth embodiment shown in FIG. 10 uses the data fusion technology of the first embodiment or the second embodiment to provide an external data set 35A, which is a data set provided from outside the distribution system 30, This system combines an internal data set 35B, which is a data set held inside the distribution system 30, and distributes advertisements based on an extended data set 35C generated thereby.
  • the distribution system 30 includes a processor 31, a memory 33, a storage 35, and a communication interface 39, as shown in FIG.
  • Processor 31 executes processing according to computer program Pr1 stored in storage 35 .
  • the storage 35 further comprises an internal data set 35B.
  • the internal data set 35B includes, for each user, feature data describing the features of the corresponding user's online behavior in association with the corresponding user's advertisement ID.
  • the advertisement ID as is well known, is an identification code used for advertisement and is an ID unique to the information terminal.
  • the feature data associated with the advertisement ID describes the features of the user's online behavior observed through the information terminal assigned the corresponding advertisement ID.
  • Online behavior includes website visit behavior and web content viewing behavior.
  • the distribution system 30 is connected to the wide area network through the communication interface 39 and provides an advertisement distribution service via the wide area network.
  • a company-side system 40 that is a company-side system that uses the advertisement distribution service provides the distribution system 30 with distribution designation information together with advertisement content to be distributed.
  • Advertising content is information content for advertising.
  • the distribution designation information includes target designation information that designates distribution targets and distribution number designation information that designates the number of distributions.
  • the user company side system 40 further provides the delivery system 30 with a customer data set, which is a data set describing the characteristics of the customer corresponding to the delivery destination candidate, as an external data set 35A.
  • a customer data set can be, for example, a data set that describes the characteristics of the purchasing behavior of customers who use stores operated by the user company.
  • the customer data set may comprise, as feature data for each customer, feature data describing the purchase volume for each item of the corresponding customer regarding a plurality of items.
  • the processor 31 executes the distribution control process shown in FIG. 12 based on the computer program Pr1.
  • the processor 31 receives from the user company system 40 the advertising content to be distributed, the distribution designation information including the target designation information and the distribution number designation information, and the customer data set as the external data set 35A. (S610).
  • the processor 31 uses the external data set 35A as the first data set 15A and further uses the internal data set 35B as the second data set 15A to perform the same processing as in S110 to S190 in the analysis process. Execute the process. Thereby, processor 31 combines external data set 35A and internal data set 35B to generate extended data set 35C (S620).
  • the feature data for each customer contained in the external data set 35A includes the advertisement ID of the user who is highly likely to be the same person as the customer contained in the internal data set 35B. is associated.
  • the extended data set 35C comprises extended data in which the feature data of the corresponding customer's external data set 35A and the feature data of the corresponding user's internal data set 35B are combined for each entity.
  • Each extension data is associated with the corresponding user's advertisement ID in the internal data set 35B.
  • An entity here is a combination of a customer and a user that are associated with each other through data fusion.
  • Data fusion creates a one-to-one correspondence between customers and users.
  • the extended data set 35C is a data set having a structure in which the advertisement ID of each entity is described in columns having "ID2_1", “ID2_2”, and "ID2_3" illustrated in the extended data set 15C shown in FIG. obtain.
  • the processor 31 calculates a score regarding the likelihood that each entity in the extended data set 35C is a delivery target (S630). For example, if the external data set 35A is a data set relating to customer purchasing behavior and the internal data set 35B is a data set relating to user online behavior, the processor 31 may determine the purchasing behavior characteristics of each entity in the extended data set 35C. The data and feature data about online behavior are input into a predetermined function to calculate a score that quantifies the likelihood that the corresponding entity is a distribution target.
  • a distribution target is a group of consumers who are targeted for distribution narrowed down by parameters that characterize consumers such as gender, age, purchasing tendency, online behavior tendency, interest, and interest, and is specified through target designation information.
  • the processor 31 After calculating the score in S630, the processor 31 selects the entities corresponding to the number of distributions specified by the user company system 40 in descending order of the calculated score among the group of entities associated with the advertisement ID, A content delivery destination is determined (S640). In this way, the processor 31 selects at least some of the plurality of users corresponding to the internal data set 35B associated with one of the plurality of customers corresponding to the external data set 35A as distribution destinations of the advertising content. .
  • the processor 31 transmits the advertising content provided from the user company system 40 to the determined information terminal of the content delivery destination through the wide area network (S650).
  • the advertisement content is distributed to the information terminal identified from the advertisement ID of the content distribution destination. After that, the processor 31 ends the distribution control process.
  • the distribution system 30 of the fourth embodiment described above by combining the external data set 35A and the internal data set 35B using the data forsion technique without common variables, the customer whose advertisement ID is unknown
  • the advertisement ID can be associated with the feature data of .
  • the distribution system 30 of the fifth embodiment is configured such that the processor 31 executes distribution control processing shown in FIG. 13 instead of the distribution control processing shown in FIG. Below, the details of the distribution control process executed by the processor 31 will be selectively described as a description of the fifth embodiment. It may be understood that the configuration of the distribution system 30 not mentioned in this embodiment is the same as in the fourth embodiment.
  • the processor 31 executes the distribution control process shown in FIG.
  • the processor 31 acquires the advertising content to be distributed, the distribution designation information, and the customer data set as the external data set 35A from the user company system 40 (S710).
  • the distribution designation information acquired in S710 does not include target designation information, but only distribution number designation information.
  • the customer data set acquired as the external data set 35A is a specific customer data set that describes the characteristics of the customer group corresponding to the distribution target narrowed down by the user company.
  • the processor 31 combines the external data set 35A and the internal data set 35B to generate the extended data set 35C (S720), similar to the processing in S620.
  • the extended data set 35C includes extended data obtained by combining the feature data of the corresponding customer's external data set 35A and the feature data of the corresponding user's internal data set 35B for each entity.
  • the extended data set 35C of the present embodiment also includes, as extended data of one entity, user feature data that is not associated with the customer of the company using the data. This extended data is the feature data of the corresponding user that the internal data set 35B has, which is not substantially extended.
  • the group of entities associated with the group of customers corresponding to the external data set 35A is referred to as a seed, and the other group of entities is referred to as a seed. is expressed as non-seed.
  • the processor 31 calculates the similarity of the feature indicated by the internal data set 35B between each non-seed entity and each seed entity based on the extended data set 35C (S730).
  • the similarity can be calculated by the feature space distance between each non-seed entity and each seed entity.
  • the processor 31 determines, as distribution destinations, the number of entities corresponding to the number of distributions specified by the distribution designation information in descending order of similarity (S740). At this time, all entities corresponding to the seed are also determined as delivery destinations.
  • the processor 31 selects a set of seeds, which is a set of users associated with a plurality of customers corresponding to the external data set 35A, and seeds and features among a plurality of users corresponding to the internal data set 35B. is selected as a distribution destination of advertising content.
  • the processor 31 transmits the advertising content provided from the user company system 40 to the information terminal of the content delivery destination determined in S740 through the wide area network (S750). After that, the distribution control process is terminated.
  • the distribution system 30 of this embodiment described above based on the data set of the customer group provided from the user company side system 40, information terminals of a larger group of consumers exhibiting similar characteristics to the customer group can deliver advertising content. Therefore, according to this embodiment, it is possible to efficiently distribute advertisements to many consumers.
  • the distribution system 30 of the sixth embodiment is configured to provide a prediction service along with an advertisement distribution service similar to the distribution system 30 of the fourth or fifth embodiment.
  • the processor 31 executes the prediction process shown in FIG. 14 in response to an execution request from the user company system 40. Details of the prediction process executed by the processor 31 will be selectively described below as a description of the sixth embodiment. It may be understood that the configuration of the distribution system 30 not mentioned in this embodiment is the same as in the fourth or fifth embodiment.
  • the processor 31 acquires the data set to be analyzed from the user company system 40 through the communication interface 39 together with the analysis condition designation information (S810).
  • the data set to be analyzed is a data set comprising feature data for each customer to be analyzed.
  • the analysis condition specifying information can be information specifying the target product for which the customer's purchase possibility is to be evaluated.
  • the possibility that each analysis target customer will purchase a designated target product is predicted by calculating a predicted value of the number of purchases of the target product. Prediction here corresponds to estimating the customer's behavior, and predicted value corresponds to an estimate of the behavior.
  • the processor 31 After executing the process of S810, the processor 31 uses the data set to be analyzed as the first data set 15A and further uses the internal data set 35B as the second data set 15B to perform S110 to S170 in the analysis process. Alternatively, by executing the same processing as the processing of S310 to S370, a correspondence matrix ⁇ * indicating the correspondence between each customer to be analyzed and each user having feature data in the internal data set 35B is calculated (S820). .
  • the processor 31 extracts a predetermined number of users close to the corresponding customer for each customer to be analyzed based on the calculated correspondence matrix ⁇ * , and extracts the above extracted users who can be identified from the internal data set 35B. Based on the weighted average of the number of product purchases, the predicted number of purchases of the target product by the corresponding customer is calculated (S830). Thus, the processor 31 infers the customer's purchasing behavior from the associated user's purchasing behavior.
  • the internal data set 35B includes information that can identify the number of purchases of target products by each user.
  • Each element of the correspondence matrix ⁇ * indicates the degree of similarity between the customer and the user with a value of 0-1.
  • the element in the i-th row and j-th column of the correspondence matrix ⁇ * is the i-th user in the set of users corresponding to the internal data set 35B and the j-th user in the set of customers corresponding to the data set to be analyzed.
  • the similarity between the customers of and is indicated by a value of 0 to 1.
  • a weighted average is calculated, for example, using similarity as a weight.
  • a weighted average can be calculated as follows, assuming that the first, second, and third users are extracted as three users close to the customer.
  • the degree of similarity between the customer and the first user is w1
  • the degree of similarity between the customer and the second user is w2
  • the degree of similarity between the customer and the third user is w3.
  • p1 the number of purchases of the target product by the second user
  • p3 the number of purchases of the target product by the third user
  • the processor 31 After executing the process of S830, the processor 31 outputs prediction data describing the predicted number of purchases of corresponding products for each customer to the source of the prediction process execution request (S840). After that, the processor 31 terminates the prediction process shown in FIG.
  • the processor 31 instead of or in addition to outputting the prediction data, uses data in descending order of the prediction value based on the prediction value of the number of purchases of corresponding products for each customer.
  • a process of distributing the advertising content promoting the purchase of the target product to the number of customers corresponding to the number of distributions specified by the company may be executed (S840).
  • the distribution system 30 of the sixth embodiment has been described above, but according to this embodiment, a meaningful advertisement distribution service can be provided using data fusion technology without common variables, and furthermore, a meaningful marketing solution can be provided. can be provided.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Collating Specific Patterns (AREA)
  • Image Analysis (AREA)

Abstract

In this information processing system, a first dataset relating to a plurality of first entities is acquired. A second dataset relating to a plurality of second entities is acquired. A group of first feature vectors identified from the first dataset, and a group of second feature vectors identified from the second dataset are subjected to dimensionality reduction processing. As a result, a group of first low-dimensionality feature vectors corresponding to the group of first feature vectors, and a group of second low-dimensionality feature vectors corresponding to the group of second feature vectors are generated. Each first entity is associated with at least one second entity on the basis of the group of first low-dimensionality feature vectors and the group of second low-dimensionality feature vectors.

Description

情報処理システム及び情報処理方法Information processing system and information processing method 関連出願の相互参照Cross-reference to related applications
 本国際出願は、2021年11月9日に日本国特許庁に出願された日本国特許出願第2021-182537号及び2022年3月24日に日本国特許庁に出願された日本国特許出願第2022-048893号に基づく優先権を主張するものであり、日本国特許出願第2021-182537号及び日本国特許出願第2022-048893号の全内容を本国際出願に参照により援用する。 This international application is Japanese Patent Application No. 2021-182537 filed with the Japan Patent Office on November 9, 2021 and Japanese Patent Application No. 2022 filed with the Japan Patent Office on March 24, 2022. 2022-048893, and the entire contents of Japanese Patent Application No. 2021-182537 and Japanese Patent Application No. 2022-048893 are incorporated by reference into this international application.
 本開示は、情報処理システム及び情報処理方法に関する。 The present disclosure relates to an information processing system and an information processing method.
 従来、商品の販売データに基づき顧客の購買行動を分析することが行われている。顧客によるマスメディアやネットワークコンテンツへの接触行動を分析することも行われている。アンケート形式や対面での質問形式により、顧客に関する多様な情報を収集することも行われている。 Conventionally, analysis of customer purchasing behavior is performed based on product sales data. Analyzes of customers' contact behavior with respect to mass media and network contents are also performed. A wide variety of information about customers is also collected in the form of questionnaires and face-to-face questions.
 異なる手段で収集した複数のデータを共通変数に基づいて結合するデータフュージョン技術も知られている。特には、複数の第一の顧客に関して、顧客毎の第一の特徴データを備える第一のデータセットと、複数の第二の顧客に関して、顧客毎の第二の特徴データを備える第二のデータセットとの間のデータフュージョンに関する技術が既に開示されている(例えば、特許文献1参照)。データフュージョンは、第一のデータセットと第二のデータセットとの間で共通する変数、例えば、顧客のデモグラフィック属性に基づいて、近しい顧客の第一の特徴データと第二の特徴データとを結合するように行われる。 Data fusion technology that combines multiple data collected by different means based on common variables is also known. In particular, for a plurality of first customers, a first data set comprising first characteristic data for each customer, and for a plurality of second customers, a second data set comprising second characteristic data for each customer. A technique related to data fusion between sets has already been disclosed (see Patent Document 1, for example). Data fusion combines first characteristic data and second characteristic data of close customers based on variables common between the first data set and the second data set, e.g., demographic attributes of the customers. It is done to bind.
特開2016-126609号公報JP 2016-126609 A
 従来のデータフュージョン技術では、共通変数を用いて近しい顧客を判別するために、結合対象の第一のデータセットと第二のデータセットとの間に、顧客に関する共通変数が必要である。従って、共通変数のないデータ同士を結合することができない。 With conventional data fusion technology, a common variable regarding customers is required between the first data set and the second data set to be combined in order to determine close customers using the common variable. Therefore, data that do not have common variables cannot be combined.
 そこで、本開示の一側面によれば、共通変数によらずに、複数の第一のエンティティに関する第一のデータセットと、複数の第二のエンティティに関する第二のデータセットとに基づいて、第一のエンティティと第二のエンティティとの対応付けを実現可能な技術を提供できることが望ましい。 Therefore, according to one aspect of the present disclosure, the first It is desirable to be able to provide a technique that can realize correspondence between one entity and a second entity.
 本開示の一側面によれば、情報処理システムが提供される。情報処理システムは、第一取得部と、第二取得部と、次元削減部と、対応付け部と、を備える。第一取得部は、複数の第一のエンティティに関する第一のデータセットを取得するように構成される。第一のデータセットは、複数の第一のエンティティのそれぞれの特徴を記述し得る。 According to one aspect of the present disclosure, an information processing system is provided. The information processing system includes a first acquisition unit, a second acquisition unit, a dimensionality reduction unit, and an association unit. The first obtaining unit is configured to obtain a first data set for a plurality of first entities. The first data set may describe characteristics of each of the plurality of first entities.
 第二取得部は、複数の第二のエンティティに関する第二のデータセットを取得するように構成される。第二のデータセットは、複数の第二のエンティティのそれぞれの特徴を記述し得る。 The second acquisition unit is configured to acquire a second data set related to a plurality of second entities. The second data set may describe characteristics of each of the plurality of second entities.
 次元削減部は、第一のデータセットから特定される第一の特徴ベクトルの一群、及び、第二のデータセットから特定される第二の特徴ベクトルの一群に対する次元削減処理を実行することによって、第一の特徴ベクトルの一群に対応する第一の低次元特徴ベクトルの一群、及び、第二の特徴ベクトルの一群に対応する第二の低次元特徴ベクトルの一群を生成するように構成される。第二の低次元特徴ベクトルの一群は、第一の低次元特徴ベクトルの一群と同一次元数の特徴ベクトルの一群であり得る。 The dimension reduction unit performs dimension reduction processing on a group of first feature vectors identified from the first data set and a group of second feature vectors identified from the second data set, It is configured to generate a first set of low-dimensional feature vectors corresponding to the first set of feature vectors and a second set of low-dimensional feature vectors corresponding to the second set of feature vectors. The group of second low-dimensional feature vectors may be a group of feature vectors having the same number of dimensions as the group of first low-dimensional feature vectors.
 第一の特徴ベクトルのそれぞれは、複数の第一のエンティティのうちの対応する一つのエンティティの特徴を表し得る。第二の特徴ベクトルのそれぞれは、複数の第二のエンティティのうちの対応する一つのエンティティの特徴を表し得る。 Each of the first feature vectors can represent features of a corresponding one of the plurality of first entities. Each of the second feature vectors may represent features of a corresponding one of the plurality of second entities.
 対応付け部は、第一の低次元特徴ベクトルの一群、及び、第二の低次元特徴ベクトルの一群に基づき、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの少なくとも一つに対応付けるように構成される。 The associating unit associates each of the plurality of first entities with at least one of the plurality of second entities based on the group of first low-dimensional feature vectors and the group of second low-dimensional feature vectors. configured to match.
 第一のエンティティの集合及び第二のエンティティの集合が互いに共通する母集団又は互いに関係する母集団からの部分集合である場合には、第一の特徴ベクトルと第二の特徴ベクトルとの間に共通変数が存在しなくても、次元削減によって、第一のエンティティの特徴及び第二のエンティティの特徴を、互いに共通する又は関係する成分の組合せで表現することができる。 between the first feature vector and the second feature vector if the first set of entities and the second set of entities are subsets from a common population or a mutually related population Even in the absence of common variables, dimensionality reduction allows features of the first entity and features of the second entity to be represented by combinations of components that are common or related to each other.
 すなわち、次元削減によれば、第一の特徴ベクトル及び第二の特徴ベクトルから互いに共通する又は関係する主要な特徴成分を抽出することができる。従って、低次元特徴ベクトルの比較によれば、第一のエンティティと第二のエンティティとの間の適合度を、適切に判別することができる。 That is, according to dimensionality reduction, it is possible to extract main feature components that are common or related to each other from the first feature vector and the second feature vector. Therefore, by comparing the low-dimensional feature vectors, it is possible to appropriately determine the degree of matching between the first entity and the second entity.
 従って、本開示の一側面によれば、共通変数によらずに、複数の第一のエンティティに関する第一のデータセットと、複数の第二のエンティティに関する第二のデータセットとに基づいて、第一のエンティティと第二のエンティティとの対応付けを適切に行うことができる。 Therefore, according to one aspect of the present disclosure, the first It is possible to properly associate one entity with a second entity.
 本開示の一側面によれば、対応付け部は、第一の低次元特徴ベクトルの一群から特定される第一のエンティティ間の類似度、及び、第二の低次元特徴ベクトルの一群から特定される第二のエンティティ間の類似度に基づき、類似度に関する第一のエンティティ間の相互関係が第二のエンティティ間の相互関係に適合するように、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの少なくとも一つに対応付けることができる。 According to one aspect of the present disclosure, the associating unit is the similarity between the first entities identified from the first group of low-dimensional feature vectors and the second group of low-dimensional feature vectors identified from the Each of the plurality of first entities is divided into a plurality of It can be associated with at least one of the second entities.
 第一のエンティティの集合、及び、第二のエンティティの集合が共通する母集団又は互いに関係する母集団からの部分集合である場合には、エンティティ間の類似度に関する相互関係が、母集団と同様に、第一のエンティティの集合と、第二のエンティティの集合との間で、およそ互いに共通する又は関係する。 If the first set of entities and the second set of entities are subsets from a common population or mutually related populations, then the mutual relationships in terms of similarity between the entities are similar to the populations. In addition, the first set of entities and the second set of entities generally have or are related to each other.
 従って、類似度に関する第一のエンティティ間の相互関係が第二のエンティティ間の相互関係に適合するように、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの少なくとも一つに対応付けることによれば、第一のエンティティのそれぞれを、同一性の高い又は関係性の強い適切な第二のエンティティに対応付けることができる。 Therefore, each of the plurality of first entities is associated with at least one of the plurality of second entities such that the correlation between the first entities in terms of similarity matches the correlation between the second entities. Possibly, each first entity can be associated with a suitable second entity that is highly identical or closely related.
 本開示の一側面によれば、第一の低次元特徴ベクトルの一群は、第一の特徴空間によって定義され得る。第二の低次元特徴ベクトルの一群は、第二の特徴空間によって定義され得る。 According to one aspect of the present disclosure, a group of first low-dimensional feature vectors may be defined by a first feature space. A second set of low-dimensional feature vectors may be defined by the second feature space.
 対応付け部は、第一の低次元特徴ベクトルの一群から特定される第一の特徴空間における複数の第一のエンティティの分布が、第二の低次元特徴ベクトルの一群から特定される第二の特徴空間における複数の第二のエンティティの分布に適合するように、第一の特徴空間上の複数の第一のエンティティを第二の特徴空間にマッピングするための写像を探索し得る。 The associating unit is configured such that the distribution of the plurality of first entities in the first feature space specified from the group of first low-dimensional feature vectors is specified from the group of second low-dimensional feature vectors. A mapping may be searched to map the plurality of first entities on the first feature space to the second feature space to match the distribution of the plurality of second entities in the feature space.
 対応付け部は、写像に基づいて、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの少なくとも一つに対応付けるように構成され得る。 The associating unit may be configured to associate each of the plurality of first entities with at least one of the plurality of second entities based on the mapping.
 本開示の一側面によれば、対応付け部は、行列K、行列L、及び行列Hを含む式  According to one aspect of the present disclosure, the associating unit is an expression including matrix K, matrix L, and matrix H
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000002
 に従う値Z(Ω)を最大化する行列Ωを行列Ωとして探索し、行列Ωに基づいて、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの少なくとも一つに対応付けるように構成され得る。Tは、転置記号である。traceは、行列Xの対角和である。 A matrix Ω that maximizes the value Z(Ω) according to is searched as a matrix Ω * , and based on the matrix Ω * , each of the plurality of first entities is associated with at least one of the plurality of second entities. can be configured to T is the transpose symbol. trace is the diagonal sum of matrix X;
 行列Kは、N行N列の行列であり得る。第一のエンティティの数は、Nであり得る。第二のエンティティの数は、第一のエンティティと同じであり得る。行列Kは、第i行第j列の要素の値が、複数の第一のエンティティのうちのi番目のエンティティとj番目のエンティティとの間の類似度を表す第一の類似度行列であり得る。 Matrix K can be a matrix with N rows and N columns. The number of first entities may be N; The number of second entities can be the same as the first entity. The matrix K is a first similarity matrix in which the value of the element in the i-th row and j-th column represents the similarity between the i-th entity and the j-th entity among the plurality of first entities. obtain.
 行列Kにおける第i行第j列の要素の値は、複数の第一のエンティティのうちのi番目のエンティティの第一の低次元特徴ベクトルと、複数の第一のエンティティのうちのj番目のエンティティの第一の低次元特徴ベクトルと、に基づいて算出され得る。 The value of the i-th row and j-th column element in the matrix K is the first low-dimensional feature vector of the i-th entity among the plurality of first entities and the j-th and a first low-dimensional feature vector of the entity.
 行列Lは、N行N列の行列であり得る。行列Lは、第i行第j列の要素の値が、複数の第二のエンティティのうちのi番目のエンティティとj番目のエンティティとの間の類似度を表す第二の類似度行列である。 The matrix L can be a matrix with N rows and N columns. The matrix L is a second similarity matrix in which the value of the element in the i-th row and j-th column represents the similarity between the i-th entity and the j-th entity among the plurality of second entities. .
 行列Lにおける第i行第j列の要素の値は、複数の第二のエンティティのうちのi番目のエンティティの第二の低次元特徴ベクトルと、複数の第二のエンティティのうちのj番目のエンティティの第二の低次元特徴ベクトルと、に基づいて算出され得る。 The value of the i-th row and j-th column element in the matrix L is the second low-dimensional feature vector of the i-th entity among the plurality of second entities and the j-th feature vector of the plurality of second entities. and a second low-dimensional feature vector of the entity.
 行列Hは、N行N列の行列であり得る。行列Hは、第i行第j列の要素の値が、i=jであるとき値1-1/Nを示し、i≠jであるとき値0を示す行列であり得る。 The matrix H can be a matrix with N rows and N columns. The matrix H may be a matrix in which the value of the element in the i-th row and j-th column indicates the value 1−1/N when i=j, and indicates the value 0 when i≠j.
 本開示の一側面によれば、対応付け部は、行列Ωに基づいて、次元削減処理での次元削減方式を変更してもよい。例えば、対応付け部は、第一の低次元特徴ベクトルの一群及び第二の低次元特徴ベクトルの一群のうち、互いに対応する第一の低次元特徴ベクトルと第二の低次元特徴ベクトルとの間の特徴空間上の距離が短くなるように、次元削減処理での次元削減方式を変更してもよい。 According to one aspect of the present disclosure, the associating unit may change the dimensionality reduction method in the dimensionality reduction process based on the matrix Ω * . For example, the associating unit, of the group of first low-dimensional feature vectors and the group of second low-dimensional feature vectors, between the first low-dimensional feature vector and the second low-dimensional feature vector corresponding to each other The dimension reduction method in the dimension reduction process may be changed so that the distance in the feature space of is shortened.
 本開示の一側面によれば、対応付け部は、行列Ωに関する再探索処理を、所定条件が満足されるまで繰返し実行することにより、行列Ωを改善し、改善された行列Ωに基づいて、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの少なくとも一つに対応付けるように構成されてもよい。 According to one aspect of the present disclosure, the associating unit improves the matrix Ω* by repeatedly performing a re-search process on the matrix Ω * until a predetermined condition is satisfied, and converts the improved matrix Ω* to Based on this, each of the plurality of first entities may be configured to correspond to at least one of the plurality of second entities.
 再探索処理は、行列Ωに基づいて、次元削減処理での次元削減方式を変更することを含み得る。再探索処理は、変更後の次元削減方式での次元削減処理を、次元削減部に実行させ、それにより新たに得られた第一の低次元特徴ベクトルの一群及び第二の低次元特徴ベクトルの一群に基づいて、行列Ωを再探索することを含み得る。 The re-searching process may include changing the dimensionality reduction scheme in the dimensionality reduction process based on the matrix Ω * . In the re-search process, the dimensionality reduction unit executes the dimensionality reduction process in the dimensionality reduction method after the change, and the group of the first low-dimensional feature vectors and the second low-dimensional feature vector newly obtained thereby. It may involve re-searching the matrix Ω * based on the constellation.
 対応付け部がこのように構成される情報処理システムによれば、第一のエンティティと第二のエンティティとの間の対応付けを、高精度に実行することができる。 According to the information processing system in which the association unit is configured in this way, the association between the first entity and the second entity can be performed with high accuracy.
 本開示の一側面によれば、第一のデータセットは、複数の第一の特徴データを含み得る。複数の第一の特徴データのそれぞれは、複数の第一のエンティティのうちの対応する一つのエンティティの特徴を表し得る。第二のデータセットは、複数の第二の特徴データを含み得る。複数の第二の特徴データのそれぞれは、複数の第二のエンティティのうちの対応する一つのエンティティの特徴を表し得る。 According to one aspect of the present disclosure, the first data set may include multiple pieces of first feature data. Each of the plurality of first feature data can represent features of a corresponding one of the plurality of first entities. The second data set may include multiple second feature data. Each of the plurality of second feature data can represent features of a corresponding one of the plurality of second entities.
 本開示の一側面によれば、情報処理システムは、データフュージョン部を更に備え得る。データフュージョン部は、対応付け部による複数の第一のエンティティと複数の第二のエンティティとの間の対応付けに基づき、複数の第一の特徴データのそれぞれに、複数の第二の特徴データのうちの一つを結合することによって、拡張データセットを生成するように構成され得る。拡張データセットは、複数の拡張データを備え得る。複数の拡張データのそれぞれは、対応する一つの第一の特徴データと第二の特徴データとの結合データであり得る。 According to one aspect of the present disclosure, the information processing system may further include a data fusion unit. The data fusion unit adds the plurality of second feature data to each of the plurality of first feature data based on the association between the plurality of first entities and the plurality of second entities by the association unit. Combining one of them may be configured to generate an augmented data set. An extended data set may comprise multiple extended data. Each of the plurality of extended data can be combined data of corresponding one first feature data and second feature data.
 こうした情報処理システムによれば、複数のデータセットを結合した情報量の多いデータセットを生成することが可能である。 According to such an information processing system, it is possible to generate a data set with a large amount of information by combining multiple data sets.
 本開示の一側面によれば、第一のエンティティは、人であり得る。第二のエンティティは、人であり得る。第一のデータセットは、第一の集団に属する複数の人のそれぞれの第一の特徴を記述するデータセットであり得る。第二のデータセットは、第二の集団の属する複数の人のそれぞれの第二の特徴を記述するデータセットであり得る。 According to one aspect of the present disclosure, the first entity may be a person. A second entity can be a person. The first data set may be a data set describing a first characteristic of each of a plurality of persons belonging to the first population. The second data set can be a data set describing a second characteristic of each of the plurality of persons belonging to the second population.
 人の行動や関心等に関する特徴は、デモグラフィック属性に大きく影響し、異なる人の集団の間でも、デモグラフィック属性に応じた特徴分布は、大きく変わらないと考えられる。従って、本開示の一側面に係る情報処理システムによれば、共通変数なしで、異なる集団間の人に関する対応付けを、適切に行うことが可能である。 It is believed that features related to people's behavior and interests greatly affect demographic attributes, and that feature distributions according to demographic attributes do not change significantly even among different groups of people. Therefore, according to the information processing system according to one aspect of the present disclosure, it is possible to appropriately associate people in different groups without common variables.
 本開示の一側面によれば、第一の特徴と第二の特徴との組合せは、購買行動に関する特徴と、オンライン空間及びオフライン空間の少なくとも一方の空間における移動に関する特徴、及び/又は、空間上の複数の地点への訪問に関する特徴と、の組合せであり得る。こうした特徴に関係するデータセットに基づいたエンティティの対応付けは、更には、データフュージョンは、人の行動分析に役立つ。 According to one aspect of the present disclosure, the combination of the first feature and the second feature includes a feature related to purchasing behavior, a feature related to movement in at least one of the online space and the offline space, and/or spatially and features relating to visits to multiple points of. Entity matching based on datasets related to these features, and furthermore data fusion, aids in human behavior analysis.
 本開示の一側面によれば、第二のデータセットには、複数の第二のエンティティのそれぞれに対応する情報端末の識別情報が関連付けられていてもよい。 According to one aspect of the present disclosure, the second data set may be associated with identification information of information terminals corresponding to each of the plurality of second entities.
 本開示の一側面によれば、情報処理システムは、複数の第二のエンティティのうち、対応付け部により複数の第一のエンティティのいずれかと対応付けられた第二のエンティティの集合の少なくとも一部を、情報コンテンツの配信先に選択する選択部を備えていてもよい。 According to one aspect of the present disclosure, an information processing system includes at least part of a set of second entities, among a plurality of second entities, that are associated with any one of a plurality of first entities by an associating unit. as a distribution destination of the information content.
 本開示の一側面によれば、情報処理システムは、上記識別情報に基づいて、情報コンテンツの配信先に対応する情報端末の集合に、情報コンテンツを配信するように構成される配信部を備えていてもよい。 According to one aspect of the present disclosure, the information processing system includes a distribution unit configured to distribute information content to a set of information terminals corresponding to distribution destinations of the information content based on the identification information. may
 この情報処理システムは、第一のエンティティ及び第二のエンティティが人であるときに有意義に機能する。上述の配信方式によれば、第一のエンティティと情報端末との関係が不明であるときにも、第二のエンティティに関連付けられた情報端末の識別情報を活用して、第一のエンティティに対応する第二のエンティティの情報端末に適切に情報コンテンツを配信することができる。 This information processing system functions meaningfully when the first entity and the second entity are people. According to the distribution method described above, even when the relationship between the first entity and the information terminal is unknown, the identification information of the information terminal associated with the second entity is used to support the first entity. The information content can be appropriately distributed to the information terminal of the second entity that
 本開示の一側面によれば、選択部は、対応付け部により複数の第一のエンティティのいずれかと対応付けられた第二のエンティティの集合である第一の集合と、複数の第二のエンティティのうち、第一の集合と特徴が類似する第二の集合と、を情報コンテンツの配信先に選択するように構成されてもよい。こうした配信先の選択によれば、第二のデータセットに基づいて、配信先を適切な範囲で拡張して、情報コンテンツを配信することができる。 According to one aspect of the present disclosure, the selection unit includes a first set that is a set of second entities associated with any of the plurality of first entities by the association unit, and a plurality of second entities. Of these, the second set having similar features to the first set may be selected as the distribution destination of the information content. According to such selection of distribution destinations, it is possible to distribute the information content by expanding the distribution destinations within an appropriate range based on the second data set.
 本開示の一側面によれば、第二のデータセットは、複数の第二のエンティティのそれぞれの行動に関する特徴を記述するデータセットであってもよい。この場合、情報処理システムは、一以上の注目エンティティに関して、注目エンティティ毎に、対応する注目エンティティの行動に関する推定値を算出する推定部を備えていてもよい。一以上の注目エンティティは、複数の第一のエンティティの少なくとも一部であり得る。推定値は、対応する注目エンティティに対応付けられた複数の第二のエンティティの少なくとも一つの行動に関する特徴に基づき算出され得る。第一のエンティティ及び第二のエンティティは、人であり得る。 According to one aspect of the present disclosure, the second data set may be a data set describing behavioral characteristics of each of the plurality of second entities. In this case, the information processing system may include an estimation unit that calculates, for each of the one or more attention entities, an estimated value regarding the behavior of the corresponding attention entity. One or more entities of interest may be at least a portion of the plurality of first entities. The estimated value may be calculated based on at least one behavioral feature of the plurality of second entities associated with the corresponding entity of interest. The first entity and the second entity can be people.
 上述の推定部を備える情報処理システムによれば、第一のデータセットだけでは判別できない第一のエンティティの行動を、第二のデータセットを通じて推定することが可能である。推定は、予測であってもよい。 According to the information processing system including the estimation unit described above, it is possible to estimate the behavior of the first entity through the second data set, which cannot be determined by the first data set alone. An estimate may be a prediction.
 本開示の一側面によれば、上述した情報処理システムが実行する方法に対応する情報処理方法が提供されてもよい。本開示の一側面によれば、コンピュータにより実行される情報処理方法が提供されてもよい。情報処理方法は、複数の第一のエンティティに関する第一のデータセットであって、複数の第一のエンティティのそれぞれの特徴を記述する第一のデータセットを取得することを含み得る。 According to one aspect of the present disclosure, an information processing method corresponding to the method executed by the information processing system described above may be provided. According to one aspect of the present disclosure, a computer-implemented information processing method may be provided. The information processing method may include obtaining a first data set relating to a plurality of first entities, the first data set describing characteristics of each of the plurality of first entities.
 情報処理方法は、複数の第二のエンティティに関する第二のデータセットであって、複数の第二のエンティティのそれぞれの特徴を記述する第二のデータセットを取得することを含み得る。 The information processing method may include obtaining a second data set relating to a plurality of second entities, the second data set describing characteristics of each of the plurality of second entities.
 情報処理方法は、第一のデータセットから特定される第一の特徴ベクトルの一群、及び、第二のデータセットから特定される第二の特徴ベクトルの一群に対する次元削減処理を実行することによって、第一の特徴ベクトルの一群に対応する第一の低次元特徴ベクトルの一群、及び、第二の特徴ベクトルの一群に対応する第二の低次元特徴ベクトルの一群を生成することを含み得る。第二の低次元特徴ベクトルの一群は、第一の低次元特徴ベクトルの一群と同一次元数の特徴ベクトルの一群であり得る。 The information processing method performs dimension reduction processing on a group of first feature vectors identified from the first data set and a group of second feature vectors identified from the second data set, It may include generating a first set of low-dimensional feature vectors corresponding to the first set of feature vectors and a second set of low-dimensional feature vectors corresponding to the second set of feature vectors. The group of second low-dimensional feature vectors may be a group of feature vectors having the same number of dimensions as the group of first low-dimensional feature vectors.
 第一の特徴ベクトルのそれぞれは、複数の第一のエンティティのうちの対応する一つのエンティティの特徴を表し得る。第二の特徴ベクトルのそれぞれは、複数の第二のエンティティのうちの対応する一つのエンティティの特徴を表し得る。 Each of the first feature vectors can represent features of a corresponding one of the plurality of first entities. Each of the second feature vectors may represent features of a corresponding one of the plurality of second entities.
 情報処理方法は、第一の低次元特徴ベクトルの一群、及び、第二の低次元特徴ベクトルの一群に基づき、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの少なくとも一つに対応付けることを含み得る。 The information processing method converts each of the plurality of first entities into at least one of the plurality of second entities based on the set of first low-dimensional feature vectors and the set of second low-dimensional feature vectors. may include matching.
 本開示の一側面によれば、対応付けることは、第一の低次元特徴ベクトルの一群から特定される第一のエンティティ間の類似度、及び、第二の低次元特徴ベクトルの一群から特定される第二のエンティティ間の類似度に基づき、類似度に関する第一のエンティティ間の相互関係が第二のエンティティ間の相互関係に適合するように、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの一つに対応付けることを含み得る。 According to one aspect of the present disclosure, the matching is a measure of similarity between a first entity identified from a first set of low-dimensional feature vectors and a measure of similarity between entities identified from a second set of low-dimensional feature vectors. Based on the similarity between the second entities, each of the plurality of first entities is combined with the plurality of second entities such that the correlation between the first entities with respect to the similarity matches the correlation between the second entities. It may involve mapping to one of two entities.
 こうした情報処理方法によれば、上述した情報処理システムと同様に、共通変数によらずに、複数の第一のエンティティに関する第一のデータセットと、複数の第二のエンティティに関する第二のデータセットとに基づいて、第一のエンティティと第二のエンティティとの対応付けを実現可能である。 According to this information processing method, as in the information processing system described above, a first data set regarding a plurality of first entities and a second data set regarding a plurality of second entities are obtained without using a common variable. A correspondence between the first entity and the second entity can be realized based on .
 本開示の一側面によれば、コンピュータに上述した情報処理方法を実行させるための命令を含むコンピュータプログラムが提供されてもよい。本開示の一側面によれば、コンピュータプログラムを記憶するコンピュータ読取可能な一時的でない有形の記録媒体が提供されてもよい。 According to one aspect of the present disclosure, a computer program including instructions for causing a computer to execute the information processing method described above may be provided. According to one aspect of the present disclosure, a computer-readable non-transitory tangible recording medium storing a computer program may be provided.
情報処理システムの構成を表すブロック図である。1 is a block diagram showing the configuration of an information processing system; FIG. プロセッサが実行する分析処理を表すフローチャートである。4 is a flowchart representing analysis processing executed by a processor; 図3Aは、第一のデータセットの構成を例示する図であり、図3Bは、第二のデータセットの構成を例示する図である。FIG. 3A is a diagram illustrating the configuration of the first data set, and FIG. 3B is a diagram illustrating the configuration of the second data set. 図4A及び図4Bは、行列Ωの探索手法を説明する図である。4A and 4B are diagrams illustrating a search method for the matrix Ω. プロセッサにより生成される対応表の構成を例示する図である。4 is a diagram illustrating the configuration of a correspondence table generated by a processor; FIG. プロセッサにより生成される拡張データセットの構成を例示する図である。FIG. 4 is a diagram illustrating the configuration of an extended data set generated by a processor; 第二実施形態でプロセッサが実行する分析処理を表すフローチャートである。It is a flow chart showing analysis processing which a processor performs in a second embodiment. 第三実施形態でプロセッサが実行する評価処理を表すフローチャートである。It is a flow chart showing evaluation processing which a processor performs in a third embodiment. 第三実施形態でプロセッサが実行する選択処理を表すフローチャートである。FIG. 11 is a flowchart showing selection processing executed by a processor in the third embodiment; FIG. 第四実施形態の配信システムの構成を表すブロック図である。It is a block diagram showing the structure of the delivery system of 4th embodiment. 第四実施形態における内部データセットの構成を例示する図である。It is a figure which illustrates the structure of the internal data set in 4th embodiment. 第四実施形態でプロセッサが実行する配信制御処理を表すフローチャートである。It is a flow chart showing distribution control processing which a processor performs in a fourth embodiment. 第五実施形態でプロセッサが実行する配信制御処理を表すフローチャートである。It is a flow chart showing distribution control processing which a processor performs in a fifth embodiment. 第六実施形態でプロセッサが実行する予測処理を表すフローチャートである。FIG. 16 is a flowchart showing prediction processing executed by a processor in the sixth embodiment; FIG.
 1…情報処理システム、11,31…プロセッサ、13,33…メモリ、15,35…ストレージ、15A…第一のデータセット、15B…第二のデータセット、15C…拡張データセット、17…ユーザインタフェース、19,39…通信インタフェース、30…配信システム、35A…外部データセット、35B…内部データセット、35C…拡張データセット、40…利用企業側システム、Pr,Pr1…コンピュータプログラム。 REFERENCE SIGNS LIST 1 information processing system 11, 31 processor 13, 33 memory 15, 35 storage 15A first data set 15B second data set 15C extended data set 17 user interface , 19, 39... communication interface, 30... delivery system, 35A... external data set, 35B... internal data set, 35C... extended data set, 40... user company side system, Pr, Pr1... computer program.
 以下に本開示の例示的実施形態を、図面を参照しながら説明する。 Exemplary embodiments of the present disclosure will be described below with reference to the drawings.
 <第一実施形態>
 本実施形態の情報処理システム1は、汎用コンピュータに専用のコンピュータプログラムPrをインストールすることによって構成される。情報処理システム1は、図1に示すように、プロセッサ11と、メモリ13と、ストレージ15と、ユーザインタフェース17と、通信インタフェース19とを備える。
<First embodiment>
The information processing system 1 of this embodiment is configured by installing a dedicated computer program Pr in a general-purpose computer. The information processing system 1 includes a processor 11, a memory 13, a storage 15, a user interface 17, and a communication interface 19, as shown in FIG.
 プロセッサ11は、ストレージ15に格納されたコンピュータプログラムPrに従う処理を実行する。メモリ13は、RAMを備える一次記憶装置であり、プロセッサ11による処理の実行時に作業エリアとして使用される。 The processor 11 executes processing according to the computer program Pr stored in the storage 15. The memory 13 is a primary storage device having a RAM, and is used as a work area when the processor 11 executes processing.
 ストレージ15は、例えばハードディスクドライブ又はソリッドステートドライブを備える二次記憶装置であり、コンピュータプログラムPrの他、コンピュータプログラムPrに従う処理の実行時に供される各種データを記憶する。 The storage 15 is a secondary storage device including, for example, a hard disk drive or a solid state drive, and stores various data provided during execution of processing according to the computer program Pr in addition to the computer program Pr.
 ユーザインタフェース17は、入力デバイスと、ディスプレイとを備える。入力デバイスは、情報処理システム1を操作するユーザからの操作信号をプロセッサ11に入力するために設けられる。ディスプレイは、ユーザに対して各種情報を表示するために設けられる。入力デバイスの例には、キーボード及びポインティングデバイスが含まれる。 The user interface 17 includes an input device and a display. The input device is provided for inputting an operation signal from a user who operates the information processing system 1 to the processor 11 . A display is provided for displaying various information to the user. Examples of input devices include keyboards and pointing devices.
 通信インタフェース19は、LAN(ローカルエリアネットワーク)インタフェース及びUSB(ユニバーサル・シリアル・シリアル)インタフェースを含み、外部装置との通信に使用される。情報処理システム1は、通信インタフェース19を通じて外部装置との間でデータ送受する。 The communication interface 19 includes a LAN (Local Area Network) interface and a USB (Universal Serial Serial) interface, and is used for communication with external devices. The information processing system 1 transmits and receives data to and from an external device through the communication interface 19 .
 情報処理システム1におけるプロセッサ11は、コンピュータプログラムPrに従う処理の実行により、通信インタフェース19を通じて外部装置から取得した第一のデータセット15Aを、第二のデータセット15Bを用いて拡張した拡張データセット15Cを生成する。 The processor 11 in the information processing system 1 executes a process according to the computer program Pr to extend the first data set 15A acquired from the external device through the communication interface 19 using the second data set 15B to obtain an extended data set 15C. to generate
 拡張データセット15Cは、第一のデータセット15Aに対して、第二のデータセット15Bが備える情報を付加したデータセットである。拡張により、第一のデータセット15Aが記述する各エンティティの情報量は増大する。エンティティは、例えば人、特には個人である。情報量の増大は、拡張データセット15Cに基づいた人の行動分析や広告配信のために実行される。 The extended data set 15C is a data set obtained by adding information provided in the second data set 15B to the first data set 15A. Expansion increases the amount of information for each entity that the first data set 15A describes. An entity is, for example, a person, in particular an individual. The increase in the amount of information is performed for human behavior analysis and advertisement distribution based on the extended data set 15C.
 具体的に、情報処理システム1のプロセッサ11は、ユーザインタフェース17を通じてユーザからの実行指令が入力されると、図2に示す分析処理を実行する。図2に示す分析処理を開始すると、プロセッサ11は、データフュージョン対象の第一のデータセット15Aと第二のデータセット15Bとを取得する(S110,S120)。 Specifically, when an execution command is input from the user through the user interface 17, the processor 11 of the information processing system 1 executes the analysis process shown in FIG. When the analysis process shown in FIG. 2 is started, the processor 11 acquires the first data set 15A and the second data set 15B for data fusion (S110, S120).
 S110,S120において、プロセッサ11は、ストレージ15に予め格納された第一のデータセット15A及び第二のデータセット15Bを、ストレージ15から読み出すことができる。これにより、プロセッサ11は、第一のデータセット15A及び第二のデータセット15Bを取得することができる。 In S110 and S120, the processor 11 can read the first data set 15A and the second data set 15B pre-stored in the storage 15 from the storage 15. Thereby, the processor 11 can acquire the first data set 15A and the second data set 15B.
 取得すべき第一のデータセット15A及び第二のデータセット15Bは、ユーザから指定され得る。ユーザは、データフュージョン対象の第一のデータセット15A及び第二のデータセット15Bを予め収集してストレージ15に格納することができる。 The first data set 15A and the second data set 15B to be acquired can be specified by the user. The user can collect the first data set 15A and the second data set 15B for data fusion in advance and store them in the storage 15 .
 あるいは、プロセッサ11は、通信インタフェース19を用いた通信により、第一の外部装置から第一のデータセット15Aを取得し、第二の外部装置から第二のデータセット15Bを取得することができる。 Alternatively, the processor 11 can acquire the first data set 15A from the first external device and the second data set 15B from the second external device through communication using the communication interface 19.
 第一のデータセット15Aは、複数の第一のエンティティに関するデータセットであって、第一のエンティティのそれぞれの第一の特徴を記述するデータセットである。第一のデータセット15Aは、第一の特徴データの集合であり、第一の特徴データのそれぞれは、複数の第一のエンティティのうちの対応する一つのエンティティの第一の特徴を表す。 A first data set 15A is a data set relating to a plurality of first entities and a data set describing the first characteristics of each of the first entities. The first data set 15A is a set of first feature data, each piece of first feature data representing a first feature of a corresponding one of the plurality of first entities.
 第二のデータセット15Bは、複数の第二のエンティティに関するデータセットであって、第二のエンティティのそれぞれの第二の特徴を記述するデータセットである。第二の特徴は、第一の特徴とは異なる特徴であり得る。具体的に、第二のデータセット15Bは、第二の特徴データの集合であり、第二の特徴データのそれぞれは、複数の第二のエンティティのうちの対応する一つのエンティティの第二の特徴を表す。 A second data set 15B is a data set relating to a plurality of second entities and a data set describing the second characteristics of each of the second entities. The second feature can be a different feature than the first feature. Specifically, the second data set 15B is a set of second feature data, and each of the second feature data is the second feature of a corresponding one of the plurality of second entities. represents
 第一のエンティティの集合、及び、第二のエンティティの集合は、例えば、互いに共通する母集団における異なる部分集合である。母集団は、人の集合、又は、消費者の集合であり得る。例えば第一のエンティティの集合は、第一の企業の顧客に対応する人の集合であり得る。例えば第二のエンティティの集合は、第一の企業とは異なる第二の企業の顧客に対応する人の集合であり得る。 The first set of entities and the second set of entities are, for example, different subsets of a common population. A population can be a collection of people or a collection of consumers. For example, a first set of entities may be a set of people corresponding to customers of the first business. For example, the second set of entities may be a set of people corresponding to customers of a second business that is different from the first business.
 あるいは、第一のエンティティの集合は、第一の行動の収集対象とされる人の集合であり得る。第二のエンティティの集合は、第二の行動の収集対象とされる人の集合であり得る。 Alternatively, the first set of entities may be a set of people whose first actions are collected. The second set of entities may be a set of people from whom the second behavior is collected.
 図3Aに示される第一のデータセット15Aは、第一の人の集合に関するデータであり、人毎の購買行動に関する特徴データを備える。各特徴データは、対応する人のIDに関連付けて、複数の商品P1,P2,P3,…のそれぞれを、対応する人が購入したかを1又は0の2値で表す。 A first data set 15A shown in FIG. 3A is data relating to a first group of people, and includes feature data relating to purchasing behavior of each person. Each piece of feature data is associated with a corresponding person's ID, and indicates by a binary value of 1 or 0 whether the corresponding person has purchased each of the plurality of products P1, P2, P3, .
 図3Bに示される第二のデータセット15Bは、第二の人の集合に関するデータであり、人毎のウェブコンテンツの閲覧行動に関する特徴データを備える。各特徴データは、対応する人のIDに関連付けて、複数のウェブサイトS1,S2,S3,…のそれぞれについて、対応するウェブサイトを、対応する人が訪問してウェブコンテンツを閲覧したか否かを1又は0の2値で表す。 A second data set 15B shown in FIG. 3B is data relating to a second set of people and comprises feature data relating to browsing behavior of web content for each person. Each feature data is associated with a corresponding person's ID, and whether or not the corresponding person has visited each of the plurality of websites S1, S2, S3, . . . is represented by a binary value of 1 or 0.
 プロセッサ11は、S110において、取得した第一のデータセット15Aに含まれる第一のエンティティ毎の第一の特徴データに基づいて、第一のエンティティ毎のM1次元特徴ベクトルx=(x1,x2,x3,…)を生成する。一例によれば、特徴ベクトルxの要素x1,x2,x3,…は、それぞれ、対応する人の商品P1,P2,P3,…の購買の有無を表し得る。 In S110, the processor 11 generates an M1-dimensional feature vector x=(x1, x2, x3,...). According to one example, the elements x1, x2, x3, .
 同様に、プロセッサ11は、S120において、取得した第二のデータセット15Bに含まれる第二のエンティティ毎の第二の特徴データに基づいて、第二のエンティティ毎のM2次元特徴ベクトルy=(y1,y2,y3,…)を生成する。一例によれば、特徴ベクトルyの要素y1,y2,y3,…は、それぞれ、対応する人のウェブサイトS1,S2,S3,…でのウェブコンテンツの閲覧有無を表し得る。 Similarly, in S120, the processor 11 calculates the M2-dimensional feature vector y=(y1 , y2, y3, . . . ). According to one example, the elements y1, y2, y3, .
 その後、プロセッサ11は、特徴ベクトルxの一群に対する次元削減処理(S130)により、各特徴ベクトルxを、M1次元特徴ベクトルから、それより小さいM次元の特徴ベクトルである低次元特徴ベクトルDx=(Dx1,Dx2,…)に変換する。これにより、プロセッサ11は、特徴ベクトルxの一群に対応する低次元特徴ベクトルDxの一群を生成する。図3Aの右下領域は、低次元特徴ベクトルDxの例を、テーブルにより示す。 After that, the processor 11 performs dimension reduction processing (S130) on a group of feature vectors x to convert each feature vector x from the M1-dimensional feature vector to a lower-dimensional feature vector Dx=(Dx1 , Dx2, . . . ). Thereby, the processor 11 generates a group of low-dimensional feature vectors Dx corresponding to the group of feature vectors x. The lower right area of FIG. 3A shows an example of a low-dimensional feature vector Dx in the form of a table.
 プロセッサ11は更に、特徴ベクトルyの一群に対する次元削減処理(S140)により、各特徴ベクトルyを、M2次元特徴ベクトルから、それより小さいM次元の特徴ベクトルである低次元特徴ベクトルDy=(Dy1,Dy2,…)に変換する。これにより、プロセッサ11は、特徴ベクトルyの一群に対応する低次元特徴ベクトルDyの一群を生成する。低次元特徴ベクトルDyは、低次元特徴ベクトルDxと同一次元数Mの特徴ベクトルである。図3Bの右下領域は、低次元特徴ベクトルDyの例を、テーブルにより示す。 Further, the processor 11 performs dimension reduction processing (S140) on a group of feature vectors y to convert each feature vector y from the M2-dimensional feature vector to a low-dimensional feature vector Dy=(Dy1, Dy1, which is a smaller M-dimensional feature vector). Dy2,...). Thereby, the processor 11 generates a group of low-dimensional feature vectors Dy corresponding to the group of feature vectors y. The low-dimensional feature vector Dy is a feature vector having the same dimension number M as the low-dimensional feature vector Dx. The lower right area of FIG. 3B shows an example of a low-dimensional feature vector Dy in the form of a table.
 低次元空間への写像を実現するためのアルゴリズムの例としては、非負値行列分解(Nonnegative Matrix Factorization)、潜在的ディリクレ分配(latent dirichlet allocation )、特異値分解(singular value decomposition)、及び、確率的潜在意味解析(Probabilistic Latent Semantic Analysis)が知られている。S130,S140における次元削減処理は、これらのアルゴリズムの一つを用いて実行され得る。 Examples of algorithms for realizing mapping to a low-dimensional space include nonnegative matrix factorization, latent dirichlet allocation, singular value decomposition, and stochastic Latent semantic analysis (Probabilistic Latent Semantic Analysis) is known. The dimensionality reduction process at S130, S140 can be performed using one of these algorithms.
 上述したアルゴリズムによれば、特徴ベクトルは、エンティティの個々を強く特徴付ける主要な特徴成分が抽出されるように、低次元化され得る。あるいは、特徴ベクトルは、エンティティの個々を区別するための情報の損失が少ない形式で、低次元化され得る。 According to the algorithm described above, the feature vector can be reduced in dimension so that the main feature components that strongly characterize the individual entity are extracted. Alternatively, the feature vector can be reduced in dimension in a form that is less lossy of information to distinguish individual entities.
 その後、プロセッサ11は、低次元特徴ベクトルDxの一群と、低次元特徴ベクトルDyの一群と、に基づいて、第一のエンティティと第二のエンティティとの間の関係を計算するアライメント処理を行う(S150-S180)。 After that, the processor 11 performs alignment processing to calculate the relationship between the first entity and the second entity based on the set of low-dimensional feature vectors Dx and the set of low-dimensional feature vectors Dy ( S150-S180).
 アライメント処理は、カーネライズドソーティング(Kernelized Sorting)の技術を用いて行われる。以下には、カーネライズドソーティングを用いたアライメント処理の詳細を説明する。但し、アライメント処理は、敵対的学習、Gromov-Wasserstein Alignment技術、又は、不均衡最適輸送(Unbalanced Optimal Transport)技術を用いて実現されてもよい。 Alignment processing is performed using kernelized sorting technology. Details of alignment processing using kernelized sorting will be described below. However, the alignment process may be realized using adversarial learning, Gromov-Wasserstein Alignment technology, or Unbalanced Optimal Transport technology.
 S150において、プロセッサ11は、低次元特徴ベクトルDxの一群を用いて、第一のエンティティの集合に関する類似度行列Kを生成する。類似度行列Kは、N行N列の正方行列である。ここで、Nは、低次元特徴ベクトルDxの個数、換言すれば、第一のエンティティの数である。 At S150, the processor 11 uses the group of low-dimensional feature vectors Dx to generate a similarity matrix K for the first set of entities. The similarity matrix K is a square matrix with N rows and N columns. Here, N is the number of low-dimensional feature vectors Dx, in other words, the number of first entities.
 類似度行列Kは、第i行第j列の要素の値Kijが、第一のエンティティの集合におけるi番目のエンティティとj番目のエンティティとの間の類似度を表す行列として定義される。 The similarity matrix K is defined as a matrix in which the value Kij of the i-th row and j-th column element represents the similarity between the i-th entity and the j-th entity in the first entity set.
 すなわち、類似度行列Kは、第一のエンティティの集合に関して、エンティティ間の類似度の分布を説明する行列として定義される。換言すれば、類似度行列Kは、第一のエンティティの集合に関して、特徴空間上のエンティティの分布を、エンティティ間の近しさの尺度を用いて説明する行列として定義される。 That is, the similarity matrix K is defined as a matrix that describes the distribution of similarities between entities with respect to the first set of entities. In other words, the similarity matrix K is defined as a matrix that describes the distribution of entities on the feature space with respect to the first set of entities using a measure of closeness between entities.
 具体的に、類似度は、i番目のエンティティの低次元特徴ベクトルDxである低次元特徴ベクトルDx[i]と、j番目のエンティティの低次元特徴ベクトルDxである低次元特徴ベクトルDx[j]と、をカーネル関数k(a,b)に代入した値k(Dx[i],Dx[j])として算出される。すなわち、Kij=k(Dx[i],Dx[j])である。 Specifically, the similarity is calculated using a low-dimensional feature vector Dx[i], which is the low-dimensional feature vector Dx of the i-th entity, and a low-dimensional feature vector Dx[j], which is the low-dimensional feature vector Dx of the j-th entity. and are substituted into the kernel function k(a, b) as a value k(Dx[i], Dx[j]). That is, Kij=k(Dx[i], Dx[j]).
 カーネル関数k(a,b)の例には、次式で表されるガウシアンRBF(動径基底関数)カーネルが含まれる。このカーネル関数k(a,b)を用いて算出される類似度は、値0から値1までの範囲の値を採る。 An example of the kernel function k(a,b) includes a Gaussian RBF (radial basis function) kernel expressed by the following equation. The similarity calculated using this kernel function k(a, b) takes values ranging from 0 to 1.
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000003
 上記カーネル関数k(a,b)によれば、類似度行列Kの要素の値Kijは、0<Kij≦1である。 According to the above kernel function k(a, b), the value Kij of the elements of the similarity matrix K is 0<Kij≤1.
 S160において、プロセッサ11は、低次元特徴ベクトルDyの一群を用いて、第二のエンティティの集合に関する類似度行列Lを生成する。類似度行列Lは、N行N列の正方行列である。ここで、Nは、低次元特徴ベクトルDyの個数、換言すれば、第二のエンティティの数である。すなわち、第一のエンティティの数と、第二のエンティティの数は、同一である。 At S160, the processor 11 uses the group of low-dimensional feature vectors Dy to generate a similarity matrix L for the second set of entities. The similarity matrix L is a square matrix with N rows and N columns. Here, N is the number of low-dimensional feature vectors Dy, in other words, the number of second entities. That is, the number of first entities and the number of second entities are the same.
 類似度行列Lは、類似度行列Kと同様に、第i行第j列の要素の値Lijが第二のエンティティの集合のうち、i番目のエンティティとj番目のエンティティとの間の類似度を表す行列として定義される。すなわち、第i行第j列の要素の値Lij=k(Dy[i],Dy[j])である。 In the similarity matrix L, similar to the similarity matrix K, the value Lij of the element in the i-th row and j-th column indicates the similarity between the i-th entity and the j-th entity in the set of second entities. is defined as a matrix representing That is, the value Lij of the element in the i-th row and j-th column is Lij=k(Dy[i], Dy[j]).
 続くS170において、プロセッサ11は、類似度行列K及び類似度行列Lを用いて、次式に従う値Z(Ω)を最大化する行列Ωを行列Ωとして探索する。 In subsequent S170, processor 11 uses similarity matrix K and similarity matrix L to search for matrix Ω that maximizes value Z(Ω) according to the following equation as matrix Ω * .
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000004
 ここで、行列Hは、N行N列の行列であって、第i行第j列の要素の値が、i=jであるとき値1-1/Nを示し、i≠jであるとき値0を示す対角行列である。Tは、転置記号である。trace(X)は、行列Xの対角和である。類似度行列K,Lは、対称行列である。行列ΩL’Ωが行列K’の転置行列となるような理想的なΩが見つかるとき、値Z(Ω)は、最大化する。 Here, the matrix H is a matrix of N rows and N columns, and the value of the element in the i-th row and j-th column indicates the value 1-1/N when i = j, and when i ≠ j It is a diagonal matrix showing the value 0. T is the transpose symbol. trace(X) is the diagonal sum of matrix X; Similarity matrices K and L are symmetric matrices. The value Z(Ω) is maximized when the ideal Ω is found such that the matrix Ω T L'Ω is the transpose of the matrix K'.
 行列Ωを探索することは、低次元特徴ベクトルDxの一群から特定される第一のエンティティ間の類似度、及び、低次元特徴ベクトルDyの一群から特定される第二のエンティティ間の類似度に基づき、類似度に関する第一のエンティティ間の相互関係が第二のエンティティ間の相互関係に適合するように、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの少なくとも一つに対応付けることに対応する。 Searching the matrix Ω * is the similarity between a first entity identified from a set of low-dimensional feature vectors Dx and the similarity between a second entity identified from a set of low-dimensional feature vectors Dy each of the plurality of first entities to at least one of the plurality of second entities such that the correlation between the first entities in terms of similarity matches the correlation between the second entities based on Corresponding to correspond.
 換言すれば、行列Ωを探索することは、低次元特徴ベクトルDxの一群から特定される第一のM次元特徴空間における第一のエンティティの分布であって、エンティティ間の類似度で定義される第一のエンティティの分布が、低次元特徴ベクトルDyの一群から特定される第二のM次元特徴空間における第二のエンティティの分布に適合するように、第一のM次元特徴空間上の複数の第一のエンティティを第二のM次元特徴空間にマッピングするための写像を探索することに対応する。 In other words, searching the matrix Ω * is the distribution of the first entity in the first M-dimensional feature space identified from the group of low-dimensional feature vectors Dx, defined by the similarity between the entities. A plurality of to a second M-dimensional feature space.
 図4Aの左グラフは、第一のエンティティの分布を概念的に表し、図4Bの左グラフは、第二のエンティティの分布を概念的に表す。図4A及び図4Bに示す例は、技術説明のためだけに、2次元の低次元特徴ベクトルDx,Dyを定義している。符号E11,E12,E13,E14,E15,E16,E17が付された各点は、第一のエンティティのそれぞれの特徴空間上の位置を示す。符号E21,E22,E23,E24,E25,E26,E27が付された各点は、第二のエンティティのそれぞれの特徴空間上の位置を示す。 The left graph in FIG. 4A conceptually represents the distribution of the first entity, and the left graph in FIG. 4B conceptually represents the distribution of the second entity. The examples shown in FIGS. 4A and 4B define two-dimensional low-dimensional feature vectors Dx and Dy for technical explanation only. Each point labeled E11, E12, E13, E14, E15, E16, E17 indicates the position of the first entity on the feature space. Each point labeled E21, E22, E23, E24, E25, E26, E27 indicates the position of the second entity on the feature space.
 図4Bから理解できるように、この例によれば、低次元特徴ベクトルDyの成分Dy1は、低次元特徴ベクトルDxの成分Dx2に対応し、低次元特徴ベクトルDyの成分Dy2は、低次元特徴ベクトルDxの成分Dx1に対応する。 As can be understood from FIG. 4B, according to this example, the component Dy1 of the low-dimensional feature vector Dy corresponds to the component Dx2 of the low-dimensional feature vector Dx, and the component Dy2 of the low-dimensional feature vector Dy corresponds to the low-dimensional feature vector It corresponds to the component Dx1 of Dx.
 すなわち、図4Aに示す例によれば、第一のエンティティの一群と、第二のエンティティの一群とは、エンティティの配列及び次元の順序が、類似度行列Kと類似度行列Lとの間で異なる形で定義されているだけであり、実質、同じエンティティの集合の類似度分布を示す。 That is, according to the example shown in FIG. 4A , the first group of entities and the second group of entities are such that the entity arrangement and dimension order are between the similarity matrix K and the similarity matrix L. They represent similarity distributions for sets of entities that are essentially the same, only defined differently.
 第一のエンティティの一群と、第二のエンティティの一群とが、母集団が同じであるなどの理由により、相互に共通する又は関係する集団的性質を有するときには、特徴ベクトルx,yの低次元化により、情報源の第一のデータセット15Aと第二のデータセット15Bとの間に共通変数がなくとも、各エンティティに本質的な共通する特徴成分を抽出することができる。 Low dimensionality of feature vectors x, y when the first group of entities and the second group of entities have collective properties that are common or related to each other, such as because the populations are the same By the transformation, even if there is no common variable between the first data set 15A and the second data set 15B of the information sources, it is possible to extract the essential common feature components for each entity.
 但し、このような低次元化によっても、低次元特徴ベクトルDx,Dyが、同じ特徴成分を有するだけで、特徴成分の配列を揃えることはできない。また、第一のデータセット15Aと第二のデータセット15Bとの間でエンティティの配列は揃っていない。 However, even with such dimensionality reduction, the low-dimensional feature vectors Dx and Dy only have the same feature component, and the arrangement of the feature components cannot be aligned. Also, the entities are not aligned between the first data set 15A and the second data set 15B.
 行列Ωの探索は、エンティティの配列及び次元の配列に関して、不ぞろいな特徴ベクトルDx,Dyの対応関係を、類似度分布の同一性を手掛かりに、探索する作業に対応する。 The search of the matrix Ω * corresponds to the work of searching for the correspondence between irregular feature vectors Dx and Dy with respect to the array of entities and the array of dimensions, using the identity of the similarity distribution as a clue.
 続くS180において、プロセッサ11は、行列Ωに基づいて、第一のエンティティのそれぞれを、第二のエンティティの少なくとも一つに対応付ける。行列Ωにおける第i行第j列の要素値は、類似度の分布によれば、第一のエンティティの集合のうちi番目のエンティティと、第二のエンティティの集合のうちのj番目のエンティティと、が対応する程度又は可能性の大きさを表す。 At subsequent S180, the processor 11 associates each of the first entities with at least one of the second entities based on the matrix Ω * . According to the similarity distribution, the element value of the i-th row and j-th column of the matrix Ω * is the i-th entity in the first entity set and the j-th entity in the second entity set. and represent the degree or possibility of correspondence.
 行列Ωの各要素は、理想的には0又は1を採り、各行について、一行の要素値の合計が1になり、各列について、一列の要素値の合計が1になる。行列Ωが、こうした理想的な行列であるときには、値が1である要素の行番号の第一のエンティティと、列番号の第二のエンティティとが、互いに対応する。 Each element of the matrix Ω * ideally takes 0 or 1, the sum of the element values in one row is 1 for each row, and the sum of the element values in one column is 1 for each column. When the matrix Ω * is such an ideal matrix, the first entity of the row number and the second entity of the column number of the 1-valued elements correspond to each other.
 すなわち、行列Ωにおける第i行第j列の要素が、値1であるとき、第一のエンティティの集合のうちi番目のエンティティと、第二のエンティティの集合のうちのj番目のエンティティと、が互いに対応することを示す。 That is, when the i-th row and j-th column element in the matrix Ω * has the value 1, the i-th entity in the first set of entities and the j-th entity in the second set of entities , correspond to each other.
 但し、数値計算上において、行列Ωが、こうした理想的な行列になることはまれである。従って、S180では、次のいずれかの手法で、複数の第一のエンティティのそれぞれを、第二のエンティティの少なくとも一つに対応付ける。 However, in numerical calculations, the matrix Ω * is rarely such an ideal matrix. Therefore, in S180, each of the plurality of first entities is associated with at least one of the second entities using one of the following methods.
 (手法1)行列Ωの第i行において、値が最大の要素を探索する。値が最大の要素が第c列である場合には、第一のエンティティの集合のうちi番目のエンティティを、第二のエンティティの集合のうちc番目のエンティティに対応付ける。これを全ての行について行う。 (Method 1) The i-th row of the matrix Ω * is searched for the element with the maximum value. If the element with the largest value is in the c-th column, the i-th entity in the first set of entities is associated with the c-th entity in the second set of entities. Do this for all rows.
 この手法では、第二のエンティティの一つに、複数の第一のエンティティが対応付けられる可能性がある。この可能性を抑制するために、近傍検索が行われてもよい。近傍検索の例としては、Contextual Dissimilarity measureが知られている。 With this method, one of the second entities may be associated with multiple first entities. To limit this possibility, a neighborhood search may be performed. Contextual dissimilarity measure is known as an example of neighborhood search.
 (手法2)厳密な一対一の対応付けを行うために、行列Ωを入力とした最適割当問題を解くことにより、複数の第一のエンティティのそれぞれを、重複しない第二のエンティティの一つに対応付ける。 (Method 2) In order to perform a strict one-to-one correspondence, by solving an optimal assignment problem with the matrix Ω * as an input, each of the plurality of first entities is assigned to one of the non-overlapping second entities. correspond to
 S180において、プロセッサ11は更に、第一のエンティティと第二のエンティティとの間の対応関係を説明するテーブルとして、図5に示す対応表を出力することができる。すなわち、第一のエンティティのそれぞれのIDに関連付けて、対応する第二のエンティティのIDを記述する対応表を出力して、ストレージ15に記憶することができる。 At S180, the processor 11 can further output the correspondence table shown in FIG. 5 as a table describing the correspondence between the first entity and the second entity. That is, a correspondence table describing the ID of the corresponding second entity in association with each ID of the first entity can be output and stored in the storage 15 .
 更にプロセッサ11は、データフュージョン処理を実行する(S190)。データフュージョン処理において、プロセッサ11は、上記対応付けの結果、又は上記対応表に基づいて、第一のデータセット15Aと、第二のデータセット15Bとを結合して、拡張データセット15Cを生成する。 Further, the processor 11 executes data fusion processing (S190). In the data fusion process, the processor 11 combines the first data set 15A and the second data set 15B based on the correspondence result or the correspondence table to generate the extended data set 15C. .
 拡張データセット15Cは、複数の拡張データを備える。図6に示すように、複数の拡張データのそれぞれは、対応する一つの第一の特徴データと第二の特徴データとの結合データである。 The extended data set 15C comprises multiple extended data. As shown in FIG. 6, each of the plurality of extension data is combined data of corresponding one first feature data and second feature data.
 すなわち、プロセッサ11は、対応表に基づき、第一のデータセット15Aに含まれる複数の第一の特徴データのそれぞれに、第二のデータセット15Bに含まれる複数の第二の特徴データのうちの一つを結合することによって、拡張データセット15Cを生成する。 That is, the processor 11 assigns each of the plurality of first feature data included in the first data set 15A to each of the plurality of second feature data included in the second data set 15B based on the correspondence table. Combining one produces an extended data set 15C.
 プロセッサ11は、対応表によって、第一のエンティティの集合のうちのi番目のエンティティと、第二のエンティティの集合のうちj番目のエンティティとが対応付けられているとき、第一のエンティティの集合のうちのi番目のエンティティの特徴を説明する第一の特徴データと、第二のエンティティの集合のうちのj番目のエンティティの特徴を説明する第二の特徴データとを結合して、上記i番目のエンティティの拡張データを生成する。 When the correspondence table associates the i-th entity in the first entity set with the j-th entity in the second entity set, the processor 11 of the i Generate extended data for the th entity.
 このようにして生成された拡張データセット15Cは、ストレージ15に格納される。ストレージ15に格納された拡張データセット15Cは、例えばユーザインタフェース17を通じて入力されるユーザからの指令に基づき、通信インタフェース19を通じて別のシステムに転送される。 The extended data set 15C generated in this way is stored in the storage 15. The extended data set 15C stored in the storage 15 is transferred to another system through the communication interface 19 based on a command from the user input through the user interface 17, for example.
 別のシステムは、例えば広告配信システムであり得る。広告配信システムは、拡張データセット15Cに基づき、広告配信先のエンティティを判別し、当該エンティティに広告を配信することができる。 Another system may be, for example, an advertisement distribution system. Based on the extended data set 15C, the advertisement distribution system can determine the entity to which the advertisement is to be distributed, and distribute the advertisement to the entity.
 S190において、データフュージョン処理を終了すると、プロセッサ11は、図2に示す分析処理を終了する。 At S190, when the data fusion process ends, the processor 11 ends the analysis process shown in FIG.
 以上に説明したように、本実施形態の情報処理システム1によれば、第一のデータセット15Aと、第二のデータセット15Bとの間に共通変数が存在しなくとも、類似度の分布に基づいて、第一のエンティティと第二のエンティティとを適切に対応付けることができる。 As described above, according to the information processing system 1 of the present embodiment, even if there is no common variable between the first data set 15A and the second data set 15B, the similarity distribution Based on this, the first entity and the second entity can be appropriately associated.
 適切な対応付けのためには、第一のエンティティの集合と、第二のエンティティの集合との間において、類似度の分布が、相互に一致する、類似する、又は、関係するのが好ましい。 For proper matching, it is preferable that the similarity distributions between the first set of entities and the second set of entities match, are similar to, or are related to each other.
 第一のエンティティの集合と、第二のエンティティの集合とが、同じ母集団からの部分集合であるとき、このような好ましい条件はおよそ満足される。従って、第一のエンティティ及び第二のエンティティが人であるとき、すなわち、第一のデータセット15A及び第二のデータセット15Bとして、人に関する特徴を表すデータセットが取り扱われるとき、本実施形態の技術は、有意義に機能する。 Such favorable conditions are approximately satisfied when the first set of entities and the second set of entities are subsets from the same population. Therefore, when the first entity and the second entity are people, that is, when data sets representing features related to people are handled as the first data set 15A and the second data set 15B, Technology works meaningfully.
 特に人の行動は、特にデモグラフィック属性に応じた傾向を示すことが多い。従って、第一のデータセット15A及び第二のデータセット15Bが、デモグラフィック属性の分布が互いに類似すると推定される集団からの収集データに基づいたデータセットであるとき、エンティティ間の適切な対応付けを実現可能である。 In particular, human behavior often shows trends according to demographic attributes. Therefore, when the first data set 15A and the second data set 15B are data sets based on collected data from populations whose distributions of demographic attributes are estimated to be similar to each other, appropriate matching between entities is feasible.
 例えば、第一のデータセット15A及び第二のデータセット15Bが、共通変数の存在しない、互いに異なる集団に属する人の特徴を説明するデータセットであったり、異なる行動の特徴を説明するデータセットであったりしても、エンティティ間の対応付けを適切に行うことができる。従って、拡張データセット15Cとして、人の心理・行動分析に役立つデータセットを生成することができる。 For example, the first data set 15A and the second data set 15B are data sets that explain the characteristics of people belonging to different groups with no common variables, or data sets that explain the characteristics of different behaviors. Even if there is, the correspondence between the entities can be made appropriately. Therefore, it is possible to generate a data set useful for human psychology/behavior analysis as the extended data set 15C.
 上述した例によれば、第一のデータセット15Aは、第一の集団に属する複数の人のそれぞれの購買行動に関する特徴を記述するデータセットであり、第二のデータセット15Bは、第二の集団に属する複数の人のそれぞれのウェブサイト訪問行動及び/又はウェブコンテンツ閲覧行動に関する特徴を記述するデータセットである。 According to the example described above, the first data set 15A is a data set describing the characteristics of purchasing behavior of each of a plurality of people belonging to the first group, and the second data set 15B is a A data set describing characteristics of website visit behavior and/or web content browsing behavior of each of a plurality of people belonging to a group.
 別例によれば、第一のデータセット15A及び第二のデータセット15Bの一方には、テレビ視聴行動などの人のメディア接触行動に関する特徴を記述するデータセットが用いられてもよい。第一のデータセット15A及び第二のデータセット15Bの一方には、スマートフォン等の携帯端末の使用状況に関する特徴を記述するデータセットが用いられてもよい。 According to another example, one of the first data set 15A and the second data set 15B may be a data set that describes characteristics of a person's media contact behavior, such as television viewing behavior. One of the first data set 15A and the second data set 15B may be a data set that describes the characteristics of usage of a mobile terminal such as a smart phone.
 第一のデータセット15A及び第二のデータセット15Bの一方には、オフライン空間(すなわち現実空間)における人の移動に関する特徴を記述するデータセットが用いられてもよい。データセットは、オフライン空間における人の移動に関する特徴として、例えば複数の場所への訪問、移動経路、及び/又は、移動手段に関する特徴を記述し得る。 A dataset that describes the characteristics of a person's movement in an offline space (that is, a real space) may be used as one of the first dataset 15A and the second dataset 15B. A dataset may describe features of a person's movement in the offline space, such as visits to multiple locations, travel routes, and/or means of travel.
 第一のデータセット15A及び第二のデータセット15Bの一方には、オンライン空間における人の移動に関する特徴を記述するデータセットが用いられてもよい。データセットは、オンライン空間における人の移動に関する特徴として、仮想現実(VR)空間における人の移動やネットサ―フィンに関する特徴を記述し得る。第一のデータセット15A及び第二のデータセット15Bの一方には、アンケートにより収集されたデータに基づくデータセットが使用されてもよい。 A dataset that describes the characteristics of people's movement in the online space may be used as one of the first dataset 15A and the second dataset 15B. A dataset may describe features of a person's movement and surfing in a virtual reality (VR) space as features of a person's movement in an online space. A data set based on data collected by a questionnaire may be used as one of the first data set 15A and the second data set 15B.
 第一のデータセット15Aと第二のデータセット15Bとの組合せとして、アンケートにより収集されたデータセットと、テレビ視聴行動に関するデータセットとの組合せ、又は、移動履歴に関するデータセットと、購買に関するデータセットとの組合せが採用されてもよい。 As a combination of the first data set 15A and the second data set 15B, a combination of a data set collected by questionnaire and a data set related to TV viewing behavior, or a data set related to movement history and a data set related to purchase may be employed in combination with
 上記実施形態において、低次元特徴ベクトルDx,Dyの一群に対しては、ZCA白色化、正規化、及び、標準化などの処理が行われてもよい。 In the above embodiment, processing such as ZCA whitening, normalization, and standardization may be performed on the group of low-dimensional feature vectors Dx and Dy.
 上記実施形態では、低次元特徴ベクトルDx,Dyの次元数Mが、設計者又はユーザにより定められるが、最適な次元数Mを探索するように、情報処理システム1は構成されてもよい。例えば、情報処理システム1は、図2に示す分析処理を、同一のデータセット15A,15Bについて次元数Mを変更しながら繰返し実行して、Z(Ω)の最大値を指標に、最適な次元数Mを自動選定するように構成されてもよい。 In the above embodiment, the number of dimensions M of the low-dimensional feature vectors Dx and Dy is determined by the designer or user, but the information processing system 1 may be configured to search for the optimum number of dimensions M. For example, the information processing system 1 repeatedly executes the analysis processing shown in FIG. It may be configured to automatically select the number M.
 <第二実施形態>
 第二実施形態の情報処理システム1は、プロセッサ11が図2に示す分析処理に代えて、図7に示す分析処理を実行するように構成される。以下では、第二実施形態の説明として、プロセッサ11が実行する分析処理の詳細を選択的に説明する。本実施形態において言及されない情報処理システム1の構成は、第一実施形態と同じであると理解されてよい。
<Second embodiment>
The information processing system 1 of the second embodiment is configured such that the processor 11 executes the analysis process shown in FIG. 7 instead of the analysis process shown in FIG. Below, the details of the analysis processing executed by the processor 11 will be selectively described as a description of the second embodiment. It may be understood that the configuration of the information processing system 1 that is not mentioned in this embodiment is the same as in the first embodiment.
 プロセッサ11は、図7に示す分析処理を開始すると、第一実施形態と同様に、データフュージョン対象の第一のデータセット15Aと第二のデータセット15Bとを取得する(S310,S320)。 When starting the analysis process shown in FIG. 7, the processor 11 acquires the first data set 15A and the second data set 15B to be subjected to data fusion (S310, S320), as in the first embodiment.
 プロセッサ11は、S110での処理と同様に、第一のデータセット15Aに基づいて、第一のエンティティ毎の特徴ベクトルxを生成する(S310)。プロセッサ11は、S120での処理と同様に、第二のデータセット15Bに基づいて、第二のエンティティ毎の特徴ベクトルyを生成する(S320)。 The processor 11 generates a feature vector x for each first entity based on the first data set 15A (S310), similar to the process at S110. The processor 11 generates a feature vector y for each second entity based on the second data set 15B (S320), similar to the process at S120.
 更に、プロセッサ11は、S130,S140での処理と同様に、次元削減処理によって、特徴ベクトルxの一群に対応する低次元特徴ベクトルDxの一群を生成し、特徴ベクトルyの一群に対応する低次元特徴ベクトルDyの一群を生成する(S330)。 Furthermore, the processor 11 generates a group of low-dimensional feature vectors Dx corresponding to the group of feature vectors x, and a group of low-dimensional feature vectors Dx corresponding to the group of feature vectors y by the dimension reduction process, similarly to the processes in S130 and S140. A set of feature vectors Dy is generated (S330).
 続くS340において、プロセッサ11は、S150,S160,S170での処理と同様の処理を実行する。すなわち、プロセッサ11は、低次元特徴ベクトルDxの一群を用いて、第一のエンティティの集合に関する類似度行列Kを生成し、低次元特徴ベクトルDyの一群を用いて、第二のエンティティの集合に関する類似度行列Lを生成する。 In subsequent S340, the processor 11 executes the same processes as those in S150, S160, and S170. That is, the processor 11 uses a group of low-dimensional feature vectors Dx to generate a similarity matrix K for the first set of entities, and uses a group of low-dimensional feature vectors Dy to generate a similarity matrix K for the second set of entities. Generate a similarity matrix L.
 更に、プロセッサ11は、類似度行列K及び類似度行列Lを用いて、第一実施形態で説明した値Z(Ω)を最大化する行列Ωを行列Ωとして探索する(S340)。ここでは、探索された行列Ωのことを、対応関係行列Ωと表現する。 Further, the processor 11 uses the similarity matrix K and the similarity matrix L to search for the matrix Ω that maximizes the value Z(Ω) described in the first embodiment as the matrix Ω * (S340). Here, the searched matrix Ω * is expressed as a correspondence matrix Ω * .
 その後、プロセッサ11は、繰返し終了条件が満足されたか否かを判断する(S350)。繰返し終了条件が満足されていないと判断すると(S350でNo)、プロセッサ11は、S360の処理を実行する。 After that, the processor 11 determines whether or not the repetition end condition is satisfied (S350). When determining that the repetition end condition is not satisfied (No in S350), the processor 11 executes the process of S360.
 S360において、プロセッサ11は、S340で探索された対応関係行列Ωを固定した状態で、Gromov-Wasserstein距離のコストを最小化する次元削減方式を探索する。 At S360, the processor 11 searches for a dimensionality reduction scheme that minimizes the cost of the Gromov-Wasserstein distance while fixing the correspondence matrix Ω * searched at S340.
 対応関係行列Ωを固定した状態は、第一のエンティティと第二のエンティティとの間の対応関係を固定した状態に対応する。上述したように値Z(Ω)を最大化する行列Ωを対応関係行列Ωとして探索することは、第二の特徴空間における第二のエンティティの分布に適合するように、第一の特徴空間上の複数の第一のエンティティを第二の特徴空間にマッピングするための写像を探索することに対応する。 Fixing the correspondence matrix Ω * corresponds to fixing the correspondence between the first entity and the second entity. Searching the matrix Ω that maximizes the value Z(Ω) as described above as the correspondence matrix Ω * is performed in the first feature space to fit the distribution of the second entity in the second feature space This corresponds to finding a map for mapping the plurality of first entities above to the second feature space.
 Gromov-Wasserstein距離のコストは、第一のエンティティの集合を、第二の特徴空間にマッピングしたときの第一のエンティティと第二のエンティティとの間の最適輸送問題における輸送コストに対応する。 The Gromov-Wasserstein distance cost corresponds to the transportation cost in the optimal transportation problem between the first entity and the second entity when mapping the first set of entities to the second feature space.
 Gromov-Wasserstein距離のコストは、類似度行列K,L及び対応関係行列Ωを用いて算出可能である。類似度行列Kは、上述の通り、次元削減後の低次元特徴ベクトルDxに基づいて算出された第一のエンティティ間の類似度を要素に含む行列である。類似度行列Lは、次元削減後の低次元特徴ベクトルDyに基づいて算出された第二のエンティティ間の類似度を要素に含む行列である。 The cost of the Gromov-Wasserstein distance can be calculated using the similarity matrices K, L and the correspondence matrix Ω * . The similarity matrix K is, as described above, a matrix whose elements are the degrees of similarity between the first entities calculated based on the reduced-dimensional feature vector Dx. The similarity matrix L is a matrix whose elements are similarities between the second entities calculated based on the reduced-dimensional feature vector Dy.
 Gromov-Wasserstein距離のコストを最小化する次元削減方式を探索することは、対応関係行列Ωで示される第一のエンティティと第二のエンティティとの間の対応関係を最もよく正当化する低次元特徴ベクトルDx,Dyを生成するための次元削減方式を探索することに対応する。 Searching for a dimensionality reduction scheme that minimizes the cost of the Gromov-Wasserstein distance, the low dimensionality that best justifies the correspondence between the first entity and the second entity denoted by the correspondence matrix Ω * It corresponds to searching for a dimensionality reduction scheme for generating feature vectors Dx, Dy.
 コストの最小化は、対応関係行列Ωによれば、互いに対応する第一のエンティティと第二のエンティティとの間の特徴空間上の距離、換言すれば、第一のエンティティの低次元特徴ベクトルDxと、第二のエンティティの低次元特徴ベクトルDyとの間の特徴空間上の距離が短くなるように、次元削減方式を探索することに対応する。 According to the correspondence matrix Ω * , the cost minimization is the distance in the feature space between the first entity and the second entity that correspond to each other, in other words, the low-dimensional feature vector of the first entity It corresponds to searching for a dimensionality reduction scheme that reduces the distance in the feature space between Dx and the low-dimensional feature vector Dy of the second entity.
 例えば、M1次元の特徴ベクトルxを、M次元の低次元特徴ベクトルDxに変換する場合には、特徴ベクトルxにM行M1列の変換行列Txを作用させる。M2次元の特徴ベクトルyを、M次元の低次元特徴ベクトルDyに変換する場合には、特徴ベクトルyにM行M2列の変換行列Tyを作用させる。このとき、変換行列Tx,Tyを構成するパラメータmの数は、(M*M1+M*M2)個である。 For example, when transforming an M1-dimensional feature vector x into an M-dimensional low-dimensional feature vector Dx, the transform matrix Tx of M rows and M1 columns is applied to the feature vector x. When transforming an M2-dimensional feature vector y into an M-dimensional low-dimensional feature vector Dy, a transformation matrix Ty of M rows and M2 columns is applied to the feature vector y. At this time, the number of parameters m constituting the transformation matrices Tx and Ty is (M*M1+M*M2).
 次元削減方式の探索は、例えば変換行列Tx,Yyのパラメータmとして、上述のコストを最小化するパラメータmを、勾配法等を用いて探索することにより実現される。  The search for the dimension reduction method is realized by searching for the parameter m that minimizes the above-mentioned cost as the parameter m of the transformation matrixes Tx and Yy, for example, by using the gradient method or the like.
 その後、プロセッサ11は、探索された次元削減方式(例えば変換行列Tx,Ty)で特徴ベクトルx,yを低次元化し、新たな低次元特徴ベクトルDx,Dyを算出する(S370)。 After that, the processor 11 reduces the dimension of the feature vectors x, y by the searched dimension reduction method (for example, transformation matrices Tx, Ty), and calculates new low-dimensional feature vectors Dx, Dy (S370).
 プロセッサ11は、新たな低次元特徴ベクトルDxに基づく類似度行列K、及び、新たな低次元特徴ベクトルDyに基づく類似度行列Lを用いて、値Z(Ω)を最大化する行列Ωを、新たな対応関係行列Ωとして探索する(S340)。 The processor 11 uses the similarity matrix K based on the new low-dimensional feature vector Dx and the similarity matrix L based on the new low-dimensional feature vector Dy to create a matrix Ω that maximizes the value Z (Ω), Search as a new correspondence matrix Ω * (S340).
 プロセッサ11は、このようにS360,S370,S340の処理を繰返し実行することによって、マッチング精度の高い対応関係行列Ωを、より良い次元削減方式と共に再探索する。 By repeatedly executing the processes of S360, S370, and S340 in this manner, the processor 11 re-searches the correspondence matrix Ω * with high matching accuracy along with a better dimensionality reduction method.
 プロセッサ11は、繰返し終了条件が満足されると(S350でYes)、S380の処理を実行する。繰返し終了条件は、例えば、S340の処理が所定回実行された場合に、あるいは、再探索による対応関係行列Ωの変化量が一定未満になった場合に満足される。 When the repetition end condition is satisfied (Yes in S350), the processor 11 executes the process of S380. The repetition end condition is satisfied, for example, when the process of S340 is executed a predetermined number of times, or when the amount of change in the correspondence matrix Ω * due to the re-search becomes less than a certain amount.
 S380において、プロセッサ11は、第一実施形態におけるS180の処理と同様に、繰返し処理の最後に算出された対応関係行列Ωに基づいて、第一のエンティティのそれぞれを、第二のエンティティの少なくとも一つに対応付ける。プロセッサ11は更に、第一のエンティティと第二のエンティティとの対応関係を説明する対応表を記憶及び出力することができる。 In S380, the processor 11 converts each of the first entities to at least correspond to one. Processor 11 is further capable of storing and outputting a correspondence table describing the correspondence between the first entity and the second entity.
 その後、プロセッサ11は、S190での処理と同様に、データフュージョン処理を実行することにより、第一のデータセット15Aと、第二のデータセット15Bとを結合して、拡張データセット15Cを生成し、生成した拡張データセット15Cをストレージ15に格納する(S390)。 Thereafter, the processor 11 performs data fusion processing in the same manner as in S190 to combine the first data set 15A and the second data set 15B to generate the extended data set 15C. , the generated extended data set 15C is stored in the storage 15 (S390).
 以上に説明した第二実施形態の情報処理システム1は、上述の繰返し処理によって、更に精度よく、第一のエンティティと第二のエンティティとの間の対応付けを行うことができる。従って、精度の良い拡張データセット15Cを生成することが可能である。 The information processing system 1 of the second embodiment described above can associate the first entity and the second entity with even higher accuracy through the iterative process described above. Therefore, it is possible to generate the extended data set 15C with high precision.
 <第三実施形態>
 第三実施形態の情報処理システム1は、ユーザインタフェース17を通じたユーザからの実行指示に基づき、プロセッサ11が図8に示す評価処理を実行するように構成される。以下では、第三実施形態の説明として、プロセッサ11が実行する評価処理の詳細を説明する。本実施形態において言及されない情報処理システム1の構成は、第一又は第二実施形態と同じであると理解されてよい。
<Third embodiment>
The information processing system 1 of the third embodiment is configured such that the processor 11 executes the evaluation process shown in FIG. Details of the evaluation process executed by the processor 11 will be described below as a description of the third embodiment. It may be understood that the configuration of the information processing system 1 that is not mentioned in this embodiment is the same as in the first or second embodiment.
 評価処理は、評価対象のデータセットが、図2又は図7に示す分析処理での対応付け及びデータフュージョンを高精度に実行可能な優良なデータセットであるか否かを評価するために実行される。評価対象のデータセットは、分析処理で、第一のデータセット15A又は第二のデータセット15Bとして使用され得るデータセットに対応する。 The evaluation process is performed to evaluate whether or not the data set to be evaluated is an excellent data set capable of performing the matching and data fusion in the analysis process shown in FIG. 2 or 7 with high accuracy. be. The data set to be evaluated corresponds to a data set that can be used as the first data set 15A or the second data set 15B in the analytical process.
 プロセッサ11は、評価処理を開始すると、ユーザから実行指示と共に指定された評価対象のデータセットを取得する(S410)。プロセッサ11は、ストレージ15から指定された評価対象のデータセットを取得することができる。 When starting the evaluation process, the processor 11 acquires the evaluation target data set specified by the user along with the execution instruction (S410). The processor 11 can acquire the designated evaluation target data set from the storage 15 .
 その後、プロセッサ11は、評価対象のデータセットに基づき、エンティティ毎に、第一の特徴ベクトルx_1と、第二の特徴ベクトルx_2と、を生成する(S420)。評価対象のデータセットは、エンティティ毎に、対応するエンティティの特徴を(Q1+Q2)個の要素で表す特徴データを備えることができる。 After that, the processor 11 generates a first feature vector x_1 and a second feature vector x_2 for each entity based on the data set to be evaluated (S420). The data set to be evaluated may comprise, for each entity, feature data representing features of the corresponding entity with (Q1+Q2) elements.
 プロセッサ11は、(Q1+Q2)個の要素を、Q1個の要素からなる第一の要素群と、Q2個の要素からなる第二の要素群と、に分割することができる。(Q1+Q2)個の要素のそれぞれは、ランダムに、第一の要素群及び第二の要素群のいずれかに分類され得る。 The processor 11 can divide the (Q1+Q2) elements into a first element group consisting of Q1 elements and a second element group consisting of Q2 elements. Each of the (Q1+Q2) elements can be randomly classified into either the first element group or the second element group.
 プロセッサ11は、評価対象のデータセットに基づいて、エンティティ毎に、対応するエンティティの第一の要素群に関する特徴を記述した第一の特徴ベクトルx_1と、対応するエンティティの第二の要素群に関する特徴を記述した第二の特徴ベクトルx_2と、を生成することができる。 Based on the data set to be evaluated, the processor 11 generates, for each entity, a first feature vector x_1 describing a feature of the first element group of the corresponding entity and a feature of the second element group of the corresponding entity. and a second feature vector x_2 describing
 例えば、評価対象のデータセットが、S110,S120,S310,又はS320で特徴ベクトルv=(v[1],v[2],v[3],…,v[Q])が生成され得る要素数Q=(Q1+Q2)の特徴データをエンティティ毎に備える場合、Q1個の要素を含む第一の特徴ベクトルx_1=(v[1],v[2],…,v[Q1])及びQ2個の要素を含む第二の特徴ベクトルx_2=(v[Q1+1],v[Q1+2],…,v[Q1+Q2])が生成され得る。 For example, the data set to be evaluated is an element that can generate a feature vector v=(v[1], v[2], v[3], . When the number Q = (Q1 + Q2) of feature data is provided for each entity, a first feature vector x_1 containing Q1 elements = (v[1], v[2], ..., v[Q1]) and Q2 A second feature vector x_2=(v[Q1+1], v[Q1+2], . . . , v[Q1+Q2]) may be generated containing elements of
 第一の特徴ベクトルx_1は、第一のエンティティの集合におけるエンティティ毎の特徴ベクトルxに対応し、第二の特徴ベクトルx_2は、第一のエンティティの集合と同一の第二のエンティティの集合におけるエンティティ毎の特徴ベクトルyに対応する。 The first feature vector x_1 corresponds to the feature vector x for each entity in the first set of entities, and the second feature vector x_2 corresponds to the entity in the same second set of entities as the first set of entities. corresponding to each feature vector y.
 その後、プロセッサ11は、S130~S170で実行される処理と同様の処理を、S430,S440において、第一の特徴ベクトルx_1及び第二の特徴ベクトルx_2に対して実行する。 After that, the processor 11 performs the same processing as the processing performed in S130 to S170 on the first feature vector x_1 and the second feature vector x_2 in S430 and S440.
 S430において、プロセッサ11は、S130,S140での処理と同様に、第一のエンティティ毎の第一の特徴ベクトルx_1及び第二のエンティティ毎の第二の特徴ベクトルx_2に対する次元削減処理を実行して、同次元数の低次元特徴ベクトルDx_1及び低次元特徴ベクトルDx_2を生成する。 In S430, the processor 11 performs dimension reduction processing on the first feature vector x_1 for each first entity and the second feature vector x_2 for each second entity, similarly to the processing in S130 and S140. , generate a low-dimensional feature vector Dx_1 and a low-dimensional feature vector Dx_2 having the same number of dimensions.
 プロセッサ11は、第一のエンティティ毎の低次元特徴ベクトルDx_1に基づき、類似度行列Kに対応する第一のエンティティ間の低次元特徴ベクトルDx_1の類似度を表す類似度行列を生成する。プロセッサ11は更に、第二のエンティティ毎の低次元特徴ベクトルDx_2に基づき、類似度行列Lに対応する第二のエンティティ間の低次元特徴ベクトルDx_2の類似度を表す類似度行列を生成する。 Based on the low-dimensional feature vector Dx_1 for each first entity, the processor 11 generates a similarity matrix representing the similarity of the low-dimensional feature vector Dx_1 between the first entities corresponding to the similarity matrix K. The processor 11 further generates a similarity matrix representing the similarity of the low-dimensional feature vectors Dx_2 between the second entities corresponding to the similarity matrix L based on the low-dimensional feature vectors Dx_2 for each second entity.
 プロセッサ11は、これらの類似度行列に基づき、値Z(Ω)を最大化する行列Ωを対応関係行列Ωとして探索する(S440)。 Based on these similarity matrices, the processor 11 searches for the matrix Ω that maximizes the value Z(Ω) as the correspondence matrix Ω * (S440).
 その後、プロセッサ11は、低次元特徴ベクトルDx_1の一群に対応する第一のエンティティの集合と、低次元特徴ベクトルDx_2の一群に対応する第二のエンティティの集合とに関して、対応関係行列Ωが、第一のエンティティと第二のエンティティとの間の対応関係を正しく表している程度をスコアとして算出する(S450)。 After that, the processor 11 determines that the correspondence matrix Ω * for the first set of entities corresponding to the group of low-dimensional feature vectors Dx_1 and the second set of entities corresponding to the group of low-dimensional feature vectors Dx_2 is: A score is calculated to indicate the degree of correct representation of the correspondence between the first entity and the second entity (S450).
 これにより、プロセッサ11は、評価対象のデータセットが分析処理による対応付け及びデータフュージョンを高精度に実行可能な優良なデータセットであるか否かを評価する(S450)。 Thereby, the processor 11 evaluates whether or not the dataset to be evaluated is an excellent dataset capable of performing matching and data fusion by analysis processing with high accuracy (S450).
 プロセッサ11は、予めS420で第一のエンティティ毎の特徴ベクトルx_1及び第二のエンティティ毎の特徴ベクトルx_2を生成する際に、第一のエンティティと第二のエンティティとの間の正しい対応関係を記憶しておくことができる。 The processor 11 stores the correct correspondence relationship between the first entity and the second entity when generating the feature vector x_1 for each first entity and the feature vector x_2 for each second entity in advance in S420. can be kept.
 プロセッサ11は、このように対応関係の正解を記憶した環境で、S430,S440において分析処理と同様の処理を実行して対応関係行列Ωを算出し、対応関係行列Ωから特定される対応関係を正解と比較する。 Processor 11 calculates correspondence matrix Ω * by executing processing similar to the analysis processing in S430 and S440 in an environment in which the correct correspondence relationship is stored as described above, and calculates correspondence specified from correspondence matrix Ω * . Compare the relationship with the correct answer.
 例えば、プロセッサ11は、対応関係行列Ωに基づいて、第一のエンティティのそれぞれを、第二のエンティティの一つと対応付ける処理を、S180,S380での処理と同様に実行する。 For example, the processor 11 performs the process of associating each of the first entities with one of the second entities based on the correspondence matrix Ω * in the same manner as in S180 and S380.
 プロセッサ11は、対応関係行列Ωに基づいて対応付けられた第一のエンティティと第二のエンティティとが、評価対象のデータセットにおいて同一のエンティティである場合には、対応付けに成功したと判別し、同一のエンティティではない場合には、対応付けに失敗したと判別する。 The processor 11 determines that the association is successful when the first entity and the second entity associated based on the correspondence matrix Ω * are the same entity in the data set to be evaluated. If they are not the same entity, it is determined that the association has failed.
 プロセッサ11は、エンティティ全体のうち、対応付けに成功した割合を、評価対象のデータセットのスコアとして算出することができる(S450)。その後、プロセッサ11は、算出したスコアを評価結果として出力し(S460)、評価処理を終了する。 The processor 11 can calculate the percentage of successful association among all entities as the score of the evaluation target data set (S450). After that, the processor 11 outputs the calculated score as an evaluation result (S460), and ends the evaluation process.
 一つのデータセットに基づく対応付け及びデータフュージョンを高精度に実行できない場合には、そのデータセットが、集合の特徴に関して高精度な対応付け及びデータフュージョンを実現するために十分な情報又はデータ構造を有していないと推測できる。 If matching and data fusion based on a single dataset cannot be performed with high accuracy, the dataset must contain sufficient information or data structure to achieve high accuracy matching and data fusion of the features of the set. It can be assumed that they do not.
 この情報不足は、二つの異なるデータセットに関して分析処理を実行して、対応付け及びデータフュージョンを行う場合の精度にも影響する。従って、上記評価処理によれば、評価対象のデータセットが、共通変数なしのデータフュージョンを高精度に実行可能なデータセットであるかを、事前に推測することができる。 This lack of information also affects the accuracy when performing analysis processing on two different data sets to perform matching and data fusion. Therefore, according to the evaluation process described above, it is possible to infer in advance whether the data set to be evaluated is a data set in which data fusion without a common variable can be executed with high accuracy.
 プロセッサ11は、S460において、スコアの出力により、評価対象のデータセットが優良なデータセットであるか否かを情報処理システム1のユーザに伝達することができる。これにより、ユーザは、分析処理に、適切な第一のデータセット15A及び第二のデータセット15Bの組合せを採用して、信頼性の高い拡張データセット15Cを得ることができる。 In S460, the processor 11 can inform the user of the information processing system 1 whether or not the dataset to be evaluated is an excellent dataset by outputting the score. Thereby, the user can employ an appropriate combination of the first data set 15A and the second data set 15B for analysis processing to obtain the extended data set 15C with high reliability.
 所望の拡張データセット15Cを得るために、第二のデータセット15Bに結合する第一のデータセット15Aとして、互いに類似する複数のデータセットのいずれかを採用すれば十分である環境が考えられる。 In order to obtain the desired extended data set 15C, an environment is conceivable in which it is sufficient to employ one of a plurality of mutually similar data sets as the first data set 15A to be combined with the second data set 15B.
 例えば、購買行動に関する第一のデータセット15Aと、ウェブサイト訪問行動/ウェブコンテンツ閲覧行動に関する第二のデータセット15Bとを、結合して、拡張データセット15Cを生成することを考える。この場合、第一のデータセット15Aとして、複数の流通組織のいずれか一組織の顧客の購買行動に関するデータセットを用いて、拡張データセット15Cを生成すれば十分であることが考えられる。 For example, consider combining the first data set 15A regarding purchasing behavior and the second data set 15B regarding website visit behavior/web content browsing behavior to generate an extended data set 15C. In this case, it may be sufficient to generate the extended data set 15C using a data set relating to customer purchasing behavior of any one of the plurality of distribution organizations as the first data set 15A.
 複数の流通組織の例には、複数のコンビニエンスストアチェーンが含まれる。各コンビニストアチェーンの購買に関するデータセットには、消費者の購買行動として、他のコンビニストアチェーンと同種の購買行動に関する情報が含まれ得る。 Examples of multiple distribution organizations include multiple convenience store chains. The data set on purchases of each convenience store chain may contain information on the same kind of purchasing behavior as that of other convenience store chains as consumer purchasing behavior.
 従って、第一のデータセット15Aとしては、複数のコンビニエンスストアチェーンのうちのいずれか一つの顧客の購買行動に関するデータセットを用いて、拡張データセット15Cを生成すれば十分であることが考えられる。 Therefore, as the first data set 15A, it is considered sufficient to generate the extended data set 15C using a data set on customer purchasing behavior of any one of a plurality of convenience store chains.
 上述の評価処理は、第一のデータセット15A(又は第二のデータセット15B)の候補として、複数のデータセットが存在する場合に、これらの複数のデータセットから、対応付け及びデータフュージョンの精度の観点で最適なデータセットを、第一のデータセット15A(又は第二のデータセット15B)として選択するために利用することができる。 In the above-described evaluation process, when there are multiple data sets as candidates for the first data set 15A (or second data set 15B), the accuracy of matching and data fusion is determined from these multiple data sets. can be used to select the optimal data set in terms of as the first data set 15A (or the second data set 15B).
 例えば、プロセッサ11は、S110,S120,S310,S320のいずれかの処理において、必要に応じて、図9に示す選択処理を実行することにより、データフュージョン対象のデータセットの複数の候補から、一つの候補を、データフュージョン対象のデータセットとして採用することができる。S110,S310におけるデータフュージョン対象のデータセットは、第一のデータセット15Aに対応し、S120,S320におけるデータフュージョン対象のデータセットは、第二のデータセット15Bに対応する。 For example, the processor 11 executes the selection process shown in FIG. One candidate can be adopted as a data set for data fusion. The data set targeted for data fusion in S110 and S310 corresponds to the first data set 15A, and the data set targeted for data fusion in S120 and S320 corresponds to the second data set 15B.
 図9に示す選択処理を開始すると、プロセッサ11は、データフュージョン対象のデータセットの複数の候補として、複数のデータセットを取得する(S510)。プロセッサ11は、ユーザから指定された複数のデータセットを、ストレージ15から取得することができる。 When the selection process shown in FIG. 9 is started, the processor 11 acquires multiple data sets as multiple data set candidates for data fusion (S510). The processor 11 can acquire a plurality of data sets designated by the user from the storage 15 .
 その後、プロセッサ11は、複数のデータセットのうちの一つを、評価対象のデータセットに設定して(S520)、図8に示す評価処理を実行する(S530)。プロセッサ11は、複数のデータセットのすべてに関する評価処理を実行するまで(S540でYes)、データセット毎に、これを評価対象のデータセットに設定して(S520)、評価処理(S530)を実行する処理を繰り返す。これにより、データセット毎に、S450で算出されるスコアを取得する。 After that, the processor 11 sets one of the plurality of datasets as the dataset to be evaluated (S520), and executes the evaluation process shown in FIG. 8 (S530). The processor 11 sets each data set as a data set to be evaluated (S520) and executes the evaluation process (S530) until the evaluation process for all of the plurality of data sets is executed (Yes in S540). repeat the process. As a result, the score calculated in S450 is obtained for each data set.
 複数のデータセットのすべてに関して評価処理を実行し、スコアを取得すると(S540でYes)、プロセッサ11は、複数のデータセットのうち、最もスコアの高いデータセットを、データフュージョン対象のデータセットに採用する(S550)。その後、選択処理を終了する。S110,S120,S310,S320において、プロセッサ11は、採用されたデータフュージョン対象のデータセットに基づく特徴ベクトル(x又はy)を生成することができる。 When evaluation processing is performed on all of the plurality of data sets and scores are obtained (Yes in S540), the processor 11 adopts the data set with the highest score among the plurality of data sets as the data set to be subjected to data fusion. (S550). After that, the selection process ends. At S110, S120, S310, S320, processor 11 may generate a feature vector (x or y) based on the adopted data fusion target dataset.
 このように選択処理を実行して、複数の候補の中から最適なデータセットを選択することによれば、精度の高い拡張データセット15Cを生成することが可能である。 By executing the selection process in this way and selecting the optimum data set from a plurality of candidates, it is possible to generate the extended data set 15C with high accuracy.
 付言すると、購買行動の例において、データフュージョン対象のデータセットの複数の候補には、消費者の購買行動を異なるパラメータで表す複数のデータセットが含まれ得る。例えば、第一の候補は、エンティティとしての消費者毎に、商品毎の購入個数を要素に含む特徴ベクトルを生成可能なデータセットであり得る。第二の候補は、エンティティとしての消費者毎に、商品毎の購入金額を要素に含む特徴ベクトルを生成可能なデータセットであり得る。 Additionally, in the example of purchasing behavior, multiple dataset candidates for data fusion may include multiple datasets representing consumer purchasing behavior with different parameters. For example, the first candidate may be a data set capable of generating a feature vector whose elements include the number of items purchased for each consumer as an entity. A second candidate may be a data set capable of generating a feature vector whose elements include the purchase amount of each product for each consumer as an entity.
 こうした同種の特徴を異なるパラメータで説明する複数のデータセットを用意して、データフュージョンに適したデータセットを選択することは、より良い拡張データセット15Cの生成に繋がる。 Preparing a plurality of data sets that explain similar features with different parameters and selecting a data set suitable for data fusion leads to the generation of a better extended data set 15C.
 <第四実施形態>
 図10に示す第四実施形態の配信システム30は、第一実施形態又は第二実施形態のデータフュージョン技術を用いて、配信システム30の外部から提供されるデータセットである外部データセット35Aと、配信システム30の内部に保持するデータセットである内部データセット35Bとを結合し、それにより生成される拡張データセット35Cに基づいて、広告配信を行うシステムである。
<Fourth embodiment>
The distribution system 30 of the fourth embodiment shown in FIG. 10 uses the data fusion technology of the first embodiment or the second embodiment to provide an external data set 35A, which is a data set provided from outside the distribution system 30, This system combines an internal data set 35B, which is a data set held inside the distribution system 30, and distributes advertisements based on an extended data set 35C generated thereby.
 配信システム30は、図10に示すように、プロセッサ31と、メモリ33と、ストレージ35と、通信インタフェース39とを備える。プロセッサ31は、ストレージ35に格納されたコンピュータプログラムPr1に従う処理を実行する。ストレージ35は、更に、内部データセット35Bを備える。 The distribution system 30 includes a processor 31, a memory 33, a storage 35, and a communication interface 39, as shown in FIG. Processor 31 executes processing according to computer program Pr1 stored in storage 35 . The storage 35 further comprises an internal data set 35B.
 内部データセット35Bは、図11に示すように、ユーザ毎に、対応するユーザの広告IDに関連付けて、対応するユーザのオンライン行動の特徴を説明する特徴データを備える。広告IDは、良く知られるように、広告のために使用される識別コードであって、情報端末に固有のIDである。 As shown in FIG. 11, the internal data set 35B includes, for each user, feature data describing the features of the corresponding user's online behavior in association with the corresponding user's advertisement ID. The advertisement ID, as is well known, is an identification code used for advertisement and is an ID unique to the information terminal.
 広告IDに関連付けられた特徴データは、対応する広告IDが割り当てられた情報端末を通じて観測されたユーザのオンライン行動の特徴を説明する。オンライン行動には、ウェブサイト訪問行動及びウェブコンテンツ閲覧行動が含まれる。 The feature data associated with the advertisement ID describes the features of the user's online behavior observed through the information terminal assigned the corresponding advertisement ID. Online behavior includes website visit behavior and web content viewing behavior.
 配信システム30は、通信インタフェース39を通じて広域ネットワークと接続され、広域ネットワークを介して、広告配信サービスを提供する。広告配信サービスを利用する企業側のシステムである利用企業側システム40は、配信システム30に対して、配信対象の広告コンテンツと共に、配信指定情報を提供する。広告コンテンツは、広告用の情報コンテンツである。配信指定情報には、配信ターゲットを指定するターゲット指定情報、及び、配信数を指定する配信数指定情報が含まれる。 The distribution system 30 is connected to the wide area network through the communication interface 39 and provides an advertisement distribution service via the wide area network. A company-side system 40 that is a company-side system that uses the advertisement distribution service provides the distribution system 30 with distribution designation information together with advertisement content to be distributed. Advertising content is information content for advertising. The distribution designation information includes target designation information that designates distribution targets and distribution number designation information that designates the number of distributions.
 利用企業側システム40は更に、配信システム30に対し、外部データセット35Aとして、配信先候補に対応する顧客の特徴を説明するデータセットである顧客データセットを提供する。 The user company side system 40 further provides the delivery system 30 with a customer data set, which is a data set describing the characteristics of the customer corresponding to the delivery destination candidate, as an external data set 35A.
 顧客データセットは、例えば、利用企業が運営する店舗を利用する顧客の購買行動に関する特徴を説明するデータセットであり得る。例えば、顧客データセットは、顧客毎の特徴データとして、複数の商品に関する、対応する顧客の商品毎の購買量を説明する特徴データを備えることができる。 A customer data set can be, for example, a data set that describes the characteristics of the purchasing behavior of customers who use stores operated by the user company. For example, the customer data set may comprise, as feature data for each customer, feature data describing the purchase volume for each item of the corresponding customer regarding a plurality of items.
 プロセッサ31は、通信インタフェース39を通じて利用企業側システム40から配信要求が入力されると、コンピュータプログラムPr1に基づいて図12に示す配信制御処理を実行する。 When a distribution request is input from the user company system 40 through the communication interface 39, the processor 31 executes the distribution control process shown in FIG. 12 based on the computer program Pr1.
 配信制御処理を開始すると、プロセッサ31は、利用企業側システム40から、配信対象の広告コンテンツと共に、ターゲット指定情報及び配信数指定情報を含む配信指定情報、並びに、外部データセット35Aとしての顧客データセットを取得する(S610)。 When the distribution control process is started, the processor 31 receives from the user company system 40 the advertising content to be distributed, the distribution designation information including the target designation information and the distribution number designation information, and the customer data set as the external data set 35A. (S610).
 その後、プロセッサ31は、第一のデータセット15Aとして外部データセット35Aを用いて、更には、第二のデータセット15Aとして内部データセット35Bを用いて、分析処理におけるS110~S190の処理と同様の処理を実行する。これにより、プロセッサ31は、外部データセット35Aと内部データセット35Bとを結合し、拡張データセット35Cを生成する(S620)。 After that, the processor 31 uses the external data set 35A as the first data set 15A and further uses the internal data set 35B as the second data set 15A to perform the same processing as in S110 to S190 in the analysis process. Execute the process. Thereby, processor 31 combines external data set 35A and internal data set 35B to generate extended data set 35C (S620).
 外部データセット35Aと内部データセット35Bとの結合により、外部データセット35Aに含まれる顧客毎の特徴データには、内部データセット35Bに含まれる顧客と同一人物である可能性の高いユーザの広告IDが関連付けられる。 By combining the external data set 35A and the internal data set 35B, the feature data for each customer contained in the external data set 35A includes the advertisement ID of the user who is highly likely to be the same person as the customer contained in the internal data set 35B. is associated.
 拡張データセット35Cは、エンティティ毎に、対応する顧客の外部データセット35Aが有する特徴データと、対応するユーザの内部データセット35Bが有する特徴データとが結合された拡張データを備える。各拡張データには、内部データセット35Bが有する対応するユーザの広告IDが関連付けられる。 The extended data set 35C comprises extended data in which the feature data of the corresponding customer's external data set 35A and the feature data of the corresponding user's internal data set 35B are combined for each entity. Each extension data is associated with the corresponding user's advertisement ID in the internal data set 35B.
 ここでいうエンティティは、データフュージョンにより互いに対応付けられた顧客とユーザとの組合せのことである。データフュージョンでは、顧客とユーザとが一対一で対応付けられる。例えば、拡張データセット35Cは、図6に示す拡張データセット15Cにおいて図示される「ID2_1」「ID2_2」「ID2_3」を有する列に、各エンティティの広告IDが記述された構造を有するデータセットであり得る。  An entity here is a combination of a customer and a user that are associated with each other through data fusion. Data fusion creates a one-to-one correspondence between customers and users. For example, the extended data set 35C is a data set having a structure in which the advertisement ID of each entity is described in columns having "ID2_1", "ID2_2", and "ID2_3" illustrated in the extended data set 15C shown in FIG. obtain.
 プロセッサ31は、その後、拡張データセット35C内の各エンティティが配信ターゲットである可能性に関するスコアを算出する(S630)。例えば、外部データセット35Aが顧客の購買行動に関するデータセットであり、内部データセット35Bがユーザのオンライン行動に関するデータセットである場合、プロセッサ31は、拡張データセット35C内の各エンティティの購買行動に関する特徴データとオンライン行動に関する特徴データとを所定の関数に入力して、対応するエンティティが配信ターゲットである可能性を数値化したスコアを算出する。 The processor 31 then calculates a score regarding the likelihood that each entity in the extended data set 35C is a delivery target (S630). For example, if the external data set 35A is a data set relating to customer purchasing behavior and the internal data set 35B is a data set relating to user online behavior, the processor 31 may determine the purchasing behavior characteristics of each entity in the extended data set 35C. The data and feature data about online behavior are input into a predetermined function to calculate a score that quantifies the likelihood that the corresponding entity is a distribution target.
 配信ターゲットは、性別、年齢、購買傾向、オンライン行動傾向、興味、及び関心等の消費者を特徴付けるパラメータにより絞り込まれる配信先の消費者群であり、ターゲット指定情報を通じて指定される。 A distribution target is a group of consumers who are targeted for distribution narrowed down by parameters that characterize consumers such as gender, age, purchasing tendency, online behavior tendency, interest, and interest, and is specified through target designation information.
 S630におけるスコア算出後、プロセッサ31は、広告IDが関連付けられているエンティティの一群のうち、算出されたスコアが高い順に、利用企業側システム40から指定された配信数に対応する数のエンティティを、コンテンツ配信先に決定する(S640)。このようにして、プロセッサ31は、外部データセット35Aに対応する複数の顧客のいずれかと対応付けられた内部データセット35Bに対応する複数のユーザの少なくとも一部を、広告コンテンツの配信先に選択する。 After calculating the score in S630, the processor 31 selects the entities corresponding to the number of distributions specified by the user company system 40 in descending order of the calculated score among the group of entities associated with the advertisement ID, A content delivery destination is determined (S640). In this way, the processor 31 selects at least some of the plurality of users corresponding to the internal data set 35B associated with one of the plurality of customers corresponding to the external data set 35A as distribution destinations of the advertising content. .
 その後、プロセッサ31は、決定したコンテンツ配信先の情報端末に、利用企業側システム40から提供された広告コンテンツを、広域ネットワークを通じて送信する(S650)。広告コンテンツは、コンテンツ配信先の広告IDから識別される情報端末に配信される。その後プロセッサ31は、配信制御処理を終了する。 After that, the processor 31 transmits the advertising content provided from the user company system 40 to the determined information terminal of the content delivery destination through the wide area network (S650). The advertisement content is distributed to the information terminal identified from the advertisement ID of the content distribution destination. After that, the processor 31 ends the distribution control process.
 以上に説明した第四実施形態の配信システム30によれば、共通変数なしのデータフォージョン技術を用いて、外部データセット35Aと内部データセット35Bとを結合することにより、広告IDが不明な顧客の特徴データに対して広告IDを関連付けることができる。これにより、広告IDが不明な外部データセット35Aの顧客に対して、広告コンテンツを適切に配信することができる。 According to the distribution system 30 of the fourth embodiment described above, by combining the external data set 35A and the internal data set 35B using the data forsion technique without common variables, the customer whose advertisement ID is unknown The advertisement ID can be associated with the feature data of . As a result, it is possible to appropriately distribute the advertisement content to the customer of the external data set 35A whose advertisement ID is unknown.
 <第五実施形態>
 第五実施形態の配信システム30は、プロセッサ31が図12に示す配信制御処理に代えて、図13に示す配信制御処理を実行するように構成される。以下では、第五実施形態の説明として、プロセッサ31が実行する配信制御処理の詳細を選択的に説明する。本実施形態において言及されない配信システム30の構成は、第四実施形態と同じであると理解されてよい。
<Fifth embodiment>
The distribution system 30 of the fifth embodiment is configured such that the processor 31 executes distribution control processing shown in FIG. 13 instead of the distribution control processing shown in FIG. Below, the details of the distribution control process executed by the processor 31 will be selectively described as a description of the fifth embodiment. It may be understood that the configuration of the distribution system 30 not mentioned in this embodiment is the same as in the fourth embodiment.
 本実施形態において、プロセッサ31は、通信インタフェース39を通じて利用企業側システム40から、配信要求が入力されると、図13に示す配信制御処理を実行する。 In this embodiment, when a distribution request is input from the user company system 40 through the communication interface 39, the processor 31 executes the distribution control process shown in FIG.
 配信制御処理を開始すると、プロセッサ31は、利用企業側システム40から、配信対象の広告コンテンツと共に、配信指定情報、外部データセット35Aとしての顧客データセットを取得する(S710)。 When the distribution control process starts, the processor 31 acquires the advertising content to be distributed, the distribution designation information, and the customer data set as the external data set 35A from the user company system 40 (S710).
 S710で取得される配信指定情報は、ターゲット指定情報を含まず、配信数指定情報のみを含む。外部データセット35Aとして取得される顧客データセットは、利用企業が絞り込んだ配信ターゲットに対応する顧客群の特徴を説明する特定顧客データセットである。 The distribution designation information acquired in S710 does not include target designation information, but only distribution number designation information. The customer data set acquired as the external data set 35A is a specific customer data set that describes the characteristics of the customer group corresponding to the distribution target narrowed down by the user company.
 その後、プロセッサ31は、S620での処理と同様に、外部データセット35Aと内部データセット35Bとを結合し、拡張データセット35Cを生成する(S720)。拡張データセット35Cは、エンティティ毎に、対応する顧客の外部データセット35Aが有する特徴データと、対応するユーザの内部データセット35Bが有する特徴データとが結合された拡張データを備える。 After that, the processor 31 combines the external data set 35A and the internal data set 35B to generate the extended data set 35C (S720), similar to the processing in S620. The extended data set 35C includes extended data obtained by combining the feature data of the corresponding customer's external data set 35A and the feature data of the corresponding user's internal data set 35B for each entity.
 本実施形態のS720の処理では、内部データセット35Bのユーザのすべてに対して外部データセット35Aの顧客が対応付けられる結果は生じない。本実施形態の拡張データセット35Cは、利用企業側の顧客と対応付けられていないユーザの特徴データも、一つのエンティティの拡張データとして含む。この拡張データは、実質的には拡張されていない内部データセット35Bが有する該当ユーザの特徴データである。 In the processing of S720 of the present embodiment, there is no result that the customer of the external data set 35A is associated with all the users of the internal data set 35B. The extended data set 35C of the present embodiment also includes, as extended data of one entity, user feature data that is not associated with the customer of the company using the data. This extended data is the feature data of the corresponding user that the internal data set 35B has, which is not substantially extended.
 本実施形態では、拡張データセット35Cに対応するエンティティの一群のうち、外部データセット35Aに対応する顧客群に対応付けられたエンティティ群のことをシードと表現し、それ以外のエンティティの一群のことを、非シードと表現する。 In this embodiment, among the group of entities corresponding to the extended data set 35C, the group of entities associated with the group of customers corresponding to the external data set 35A is referred to as a seed, and the other group of entities is referred to as a seed. is expressed as non-seed.
 S720の処理後、プロセッサ31は、拡張データセット35Cに基づいて、非シードの各エンティティと、シードの各エンティティとの間の内部データセット35Bが示す特徴の類似度を算出する(S730)。類似度は、非シードの各エンティティと、シードの各エンティティとの間の特徴空間上の距離によって算出され得る。 After the process of S720, the processor 31 calculates the similarity of the feature indicated by the internal data set 35B between each non-seed entity and each seed entity based on the extended data set 35C (S730). The similarity can be calculated by the feature space distance between each non-seed entity and each seed entity.
 類似度の算出後、プロセッサ31は、類似度の高い順に、配信指定情報で指定された配信数に対応する数のエンティティを配信先に決定する(S740)。この際、シードに対応する全てのエンティティも配信先に決定される。 After calculating the degree of similarity, the processor 31 determines, as distribution destinations, the number of entities corresponding to the number of distributions specified by the distribution designation information in descending order of similarity (S740). At this time, all entities corresponding to the seed are also determined as delivery destinations.
 このようにして、プロセッサ31は、外部データセット35Aに対応する複数の顧客と対応付けられたユーザの集合であるシードの集合と、内部データセット35Bに対応する複数のユーザのうち、シードと特徴が類似するユーザの集合と、を広告コンテンツの配信先に選択する。 In this way, the processor 31 selects a set of seeds, which is a set of users associated with a plurality of customers corresponding to the external data set 35A, and seeds and features among a plurality of users corresponding to the internal data set 35B. is selected as a distribution destination of advertising content.
 その後、プロセッサ31は、S650の処理と同様に、S740で決定したコンテンツ配信先の情報端末に、利用企業側システム40から提供された広告コンテンツを、広域ネットワークを通じて送信する(S750)。その後、配信制御処理を終了する。 After that, similar to the process of S650, the processor 31 transmits the advertising content provided from the user company system 40 to the information terminal of the content delivery destination determined in S740 through the wide area network (S750). After that, the distribution control process is terminated.
 以上に説明した本実施形態の配信システム30によれば、利用企業側システム40から提供された顧客群のデータセットを基礎に、顧客群と類似した特徴を示すより大きな集合の消費者の情報端末に、広告コンテンツを配信することができる。従って、本実施形態によれば、多くの消費者に、効率的に広告配信を行うことが可能である。 According to the distribution system 30 of this embodiment described above, based on the data set of the customer group provided from the user company side system 40, information terminals of a larger group of consumers exhibiting similar characteristics to the customer group can deliver advertising content. Therefore, according to this embodiment, it is possible to efficiently distribute advertisements to many consumers.
 <第六実施形態>
 第六実施形態の配信システム30は、第四実施形態又は第五実施形態の配信システム30と同様の広告配信サービスと共に、予測サービスを提供するように構成される。
<Sixth embodiment>
The distribution system 30 of the sixth embodiment is configured to provide a prediction service along with an advertisement distribution service similar to the distribution system 30 of the fourth or fifth embodiment.
 本実施形態において、プロセッサ31は、利用企業側システム40からの実行要求に応じて、図14に示す予測処理を実行する。以下では、第六実施形態の説明として、プロセッサ31が実行する予測処理の詳細を選択的に説明する。本実施形態において言及されない配信システム30の構成は、第四実施形態又は第五実施形態と同じであると理解されてよい。 In this embodiment, the processor 31 executes the prediction process shown in FIG. 14 in response to an execution request from the user company system 40. Details of the prediction process executed by the processor 31 will be selectively described below as a description of the sixth embodiment. It may be understood that the configuration of the distribution system 30 not mentioned in this embodiment is the same as in the fourth or fifth embodiment.
 プロセッサ31は、予測処理を開始すると、通信インタフェース39を通じて分析対象のデータセットを、分析条件指定情報と共に、利用企業側システム40から取得する(S810)。分析対象のデータセットは、分析対象の顧客毎の特徴データを備えるデータセットである。 When starting the prediction process, the processor 31 acquires the data set to be analyzed from the user company system 40 through the communication interface 39 together with the analysis condition designation information (S810). The data set to be analyzed is a data set comprising feature data for each customer to be analyzed.
 分析条件指定情報は、顧客の購入可能性を評価する対象の商品を指定する情報であり得る。予測処理では、指定された対象商品を分析対象の各顧客が購入する可能性が、対象商品の購入数の予測値を算出することによって予測される。ここでの予測は、顧客の行動を推定することに対応し、予測値は、行動に関する推定値に対応する。 The analysis condition specifying information can be information specifying the target product for which the customer's purchase possibility is to be evaluated. In the prediction process, the possibility that each analysis target customer will purchase a designated target product is predicted by calculating a predicted value of the number of purchases of the target product. Prediction here corresponds to estimating the customer's behavior, and predicted value corresponds to an estimate of the behavior.
 S810の処理実行後、プロセッサ31は、第一のデータセット15Aとして分析対象のデータセットを用いて、更には、第二のデータセット15Bとして内部データセット35Bを用いて、分析処理におけるS110~S170又はS310~S370の処理と同様の処理を実行することにより、分析対象の各顧客と内部データセット35Bに特徴データを有する各ユーザとの対応関係を示す対応関係行列Ωを算出する(S820)。 After executing the process of S810, the processor 31 uses the data set to be analyzed as the first data set 15A and further uses the internal data set 35B as the second data set 15B to perform S110 to S170 in the analysis process. Alternatively, by executing the same processing as the processing of S310 to S370, a correspondence matrix Ω * indicating the correspondence between each customer to be analyzed and each user having feature data in the internal data set 35B is calculated (S820). .
 プロセッサ31は更に、算出された対応関係行列Ωに基づき、分析対象の顧客毎に、対応する顧客に近しい所定数のユーザを抽出し、内部データセット35Bから特定可能な上記抽出したユーザの対象商品の購入数の重み付け平均により、対応する顧客の対象商品の購入数の予測値を算出する(S830)。このようにしてプロセッサ31は、顧客の購買行動を、対応付けられたユーザの購買行動から推定する。内部データセット35Bは、各ユーザの対象商品の購入数を特定可能な情報を含む。 Further, the processor 31 extracts a predetermined number of users close to the corresponding customer for each customer to be analyzed based on the calculated correspondence matrix Ω * , and extracts the above extracted users who can be identified from the internal data set 35B. Based on the weighted average of the number of product purchases, the predicted number of purchases of the target product by the corresponding customer is calculated (S830). Thus, the processor 31 infers the customer's purchasing behavior from the associated user's purchasing behavior. The internal data set 35B includes information that can identify the number of purchases of target products by each user.
 対応関係行列Ωの各要素は、顧客とユーザとの間の類似度を0~1の値で示す。対応関係行列Ωにおける第i行第j列の要素は、内部データセット35Bに対応するユーザの集合のうちi番目のユーザと、分析対象のデータセットに対応する顧客の集合のうちのj番目の顧客と、の間の類似度を値0~1で示す。 Each element of the correspondence matrix Ω * indicates the degree of similarity between the customer and the user with a value of 0-1. The element in the i-th row and j-th column of the correspondence matrix Ω * is the i-th user in the set of users corresponding to the internal data set 35B and the j-th user in the set of customers corresponding to the data set to be analyzed. The similarity between the customers of and is indicated by a value of 0 to 1.
 重み付け平均は、例えば、類似度を重みとして用いて算出される。重み付け平均は、顧客と近しい3人のユーザとして第一、第二、及び第三のユーザが抽出されたと仮定したとき、次のように算出され得る。 A weighted average is calculated, for example, using similarity as a weight. A weighted average can be calculated as follows, assuming that the first, second, and third users are extracted as three users close to the customer.
 すなわち、顧客と第一のユーザとの類似度がw1、顧客と第二のユーザとの類似度がw2、顧客と第三のユーザとの類似度w3であり、第一のユーザの対象商品購入数がp1、第二のユーザの対象商品購入数がp2であり、第三のユーザの対象商品購入数がp3であるとき、顧客の対象商品の購入数の予測値peは、pe=(w1・p1+w2・p2+w3・p3)/3で算出され得る。 That is, the degree of similarity between the customer and the first user is w1, the degree of similarity between the customer and the second user is w2, and the degree of similarity between the customer and the third user is w3. is p1, the number of purchases of the target product by the second user is p2, and the number of purchases of the target product by the third user is p3, the predicted value pe of the number of purchases of the target product by the customer is pe=(w1 *p1+w2*p2+w3*p3)/3.
 対応関係行列Ωからは、顧客毎に、すべてのユーザとの類似度(換言すれば対応付けの大きさ)を特定可能である。従って、近しいユーザを抽出するプロセスなしに、すべてのユーザの対象商品の購入数の重み付け平均によって、顧客の対象商品の購入数の予測値が算出されてもよい。 From the correspondence matrix Ω * , it is possible to identify the degree of similarity (in other words, magnitude of correspondence) with all users for each customer. Therefore, without the process of extracting close users, a weighted average of the number of purchases of the target product by all users may be used to calculate the expected number of purchases of the target product by the customer.
 S830の処理実行後、プロセッサ31は、顧客毎の対応商品の購入数の予測値を記述した予測データを、予測処理の実行要求元に出力する(S840)。その後、プロセッサ31は、図14に示す予測処理を終了する。 After executing the process of S830, the processor 31 outputs prediction data describing the predicted number of purchases of corresponding products for each customer to the source of the prediction process execution request (S840). After that, the processor 31 terminates the prediction process shown in FIG.
 別例によれば、プロセッサ31は、S830の処理実行後、予測データを出力することに代えて又は加えて、顧客毎の対応商品の購入数の予測値に基づき、予測値が大きい順に、利用企業から指定された配信数に対応する人数の顧客に対して、対象商品の購入を進める広告コンテンツを配信する処理を実行してもよい(S840)。 According to another example, after executing the process of S830, the processor 31, instead of or in addition to outputting the prediction data, uses data in descending order of the prediction value based on the prediction value of the number of purchases of corresponding products for each customer. A process of distributing the advertising content promoting the purchase of the target product to the number of customers corresponding to the number of distributions specified by the company may be executed (S840).
 以上に、第六実施形態の配信システム30を説明したが、本実施形態によれば、共通変数なしのデータフュージョン技術を用いて、有意義な広告配信サービスを提供でき、更には、有意義なマーケティングソリューションを提供可能である。 The distribution system 30 of the sixth embodiment has been described above, but according to this embodiment, a meaningful advertisement distribution service can be provided using data fusion technology without common variables, and furthermore, a meaningful marketing solution can be provided. can be provided.
 [その他]
 本開示が上述した実施形態に限定されるものではなく、種々の態様を採り得ることは言うまでもない。上記実施形態における1つの構成要素が有する機能は、複数の構成要素に分散して設けられてもよい。複数の構成要素が有する機能は、1つの構成要素に統合されてもよい。上記実施形態の構成の一部は、省略されてもよい。上記実施形態の構成の少なくとも一部は、他の上記実施形態の構成に対して付加又は置換されてもよい。請求の範囲に記載の文言から特定される技術思想に含まれるあらゆる態様が本開示の実施形態である。
[others]
It goes without saying that the present disclosure is not limited to the embodiments described above, and can take various forms. A function possessed by one component in the above embodiment may be distributed to a plurality of components. Functions possessed by multiple components may be integrated into one component. A part of the configuration of the above embodiment may be omitted. At least part of the configurations of the above embodiments may be added or replaced with respect to the configurations of other above embodiments. All aspects included in the technical ideas specified by the language in the claims are embodiments of the present disclosure.

Claims (15)

  1.  複数の第一のエンティティに関する第一のデータセットであって、前記複数の第一のエンティティのそれぞれの特徴を記述する第一のデータセットを取得するように構成される第一取得部と、
     複数の第二のエンティティに関する第二のデータセットであって、前記複数の第二のエンティティのそれぞれの特徴を記述する第二のデータセットを取得するように構成される第二取得部と、
     前記第一のデータセットから特定される第一の特徴ベクトルの一群であって、前記第一の特徴ベクトルのそれぞれが、前記複数の第一のエンティティのうちの対応する一つのエンティティの特徴を表す第一の特徴ベクトルの一群、及び、前記第二のデータセットから特定される第二の特徴ベクトルの一群であって、前記第二の特徴ベクトルのそれぞれが、前記複数の第二のエンティティのうちの対応する一つのエンティティの特徴を表す第二の特徴ベクトルの一群に対する次元削減処理を実行することによって、前記第一の特徴ベクトルの一群に対応する第一の低次元特徴ベクトルの一群、及び、前記第二の特徴ベクトルの一群に対応する第二の低次元特徴ベクトルの一群であって前記第一の低次元特徴ベクトルの一群と同一次元数の第二の低次元特徴ベクトルの一群を生成するように構成される次元削減部と、
     前記第一の低次元特徴ベクトルの一群、及び、前記第二の低次元特徴ベクトルの一群に基づき、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの少なくとも一つに対応付けるように構成される対応付け部と、
     を備える情報処理システム。
    a first acquisition unit configured to acquire a first data set relating to a plurality of first entities, the first data set describing characteristics of each of the plurality of first entities;
    a second acquisition unit configured to acquire a second data set relating to a plurality of second entities, the second data set describing characteristics of each of the plurality of second entities;
    A group of first feature vectors identified from the first data set, each of the first feature vectors representing features of a corresponding one of the plurality of first entities. A group of first feature vectors and a group of second feature vectors identified from the second data set, each of the second feature vectors being one of the plurality of second entities. a set of first low-dimensional feature vectors corresponding to the set of first feature vectors by performing a dimensionality reduction operation on a set of second feature vectors representing features of a corresponding entity of; generating a group of second low-dimensional feature vectors corresponding to the group of the second feature vectors and having the same number of dimensions as the group of the first low-dimensional feature vectors; a dimensionality reduction unit configured to:
    Each of the plurality of first entities is associated with at least one of the plurality of second entities based on the group of first low-dimensional feature vectors and the group of second low-dimensional feature vectors. a mapping unit configured to:
    An information processing system comprising
  2.  前記対応付け部は、前記第一の低次元特徴ベクトルの一群から特定される前記第一のエンティティ間の類似度、及び、前記第二の低次元特徴ベクトルの一群から特定される前記第二のエンティティ間の類似度に基づき、類似度に関する前記第一のエンティティ間の相互関係が前記第二のエンティティ間の相互関係に適合するように、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの少なくとも一つに対応付ける請求項1記載の情報処理システム。 The associating unit determines the degree of similarity between the first entities identified from the group of the first low-dimensional feature vectors, and the second entity identified from the group of the second low-dimensional feature vectors. each of the plurality of first entities to the plurality of 2. The information processing system according to claim 1, associated with at least one of the second entities.
  3.  前記第一の低次元特徴ベクトルの一群は、第一の特徴空間によって定義され、
     前記第二の低次元特徴ベクトルの一群は、第二の特徴空間によって定義され、
     前記対応付け部は、前記第一の低次元特徴ベクトルの一群から特定される前記第一の特徴空間における前記複数の第一のエンティティの分布が、前記第二の低次元特徴ベクトルの一群から特定される前記第二の特徴空間における前記複数の第二のエンティティの分布に適合するように、前記第一の特徴空間上の前記複数の第一のエンティティを前記第二の特徴空間にマッピングするための写像を探索し、前記写像に基づいて、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの少なくとも一つに対応付ける請求項1又は請求項2記載の情報処理システム。
    The first set of low-dimensional feature vectors is defined by a first feature space,
    The second set of low-dimensional feature vectors is defined by a second feature space,
    The associating unit identifies, from the group of the second low-dimensional feature vectors, the distribution of the plurality of first entities in the first feature space identified from the group of the first low-dimensional feature vectors. for mapping the plurality of first entities on the first feature space to the second feature space to match the distribution of the plurality of second entities in the second feature space where 3. The information processing system according to claim 1 or 2, wherein a mapping of is searched for, and each of said plurality of first entities is associated with at least one of said plurality of second entities based on said mapping.
  4.  前記対応付け部は、行列K、行列L、及び行列Hを含む式
    Figure JPOXMLDOC01-appb-M000001

     に従う値Z(Ω)を最大化する行列Ωを行列Ωとして探索し、前記行列Ωに基づいて、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの少なくとも一つに対応付けるように構成され、
     前記第一のエンティティの数は、Nであり、
     前記第二のエンティティの数は、前記第一のエンティティと同じであり、
     前記行列Kは、第i行第j列の要素の値が、前記複数の第一のエンティティのうちのi番目のエンティティとj番目のエンティティとの間の類似度を表し、前記複数の第一のエンティティのうちの前記i番目のエンティティの第一の低次元特徴ベクトルと、前記複数の第一のエンティティのうちの前記j番目のエンティティの第一の低次元特徴ベクトルと、に基づいて算出されるN行N列の第一の類似度行列であり、
     前記行列Lは、第i行第j列の要素の値が、前記複数の第二のエンティティのうちのi番目のエンティティとj番目のエンティティとの間の類似度を表し、前記複数の第二のエンティティのうちの前記i番目のエンティティの第二の低次元特徴ベクトルと、前記複数の第二のエンティティのうちの前記j番目のエンティティの第二の低次元特徴ベクトルと、に基づいて算出されるN行N列の第二の類似度行列であり、
     前記行列Hは、第i行第j列の要素の値が、i=jであるとき値1-1/Nを示し、i≠jであるとき値0を示すN行N列の行列である
     請求項1又は請求項2記載の情報処理システム。
    The associating unit is a formula comprising a matrix K, a matrix L, and a matrix H
    Figure JPOXMLDOC01-appb-M000001

    A matrix Ω that maximizes the value Z(Ω) according to is searched as a matrix Ω * , and based on said matrix Ω * , each of said plurality of first entities is replaced by at least one of said plurality of second entities configured to map to
    the number of said first entities is N;
    the number of said second entities is the same as said first entity;
    In the matrix K, the value of the i-th row and j-th column element represents the similarity between the i-th entity and the j-th entity among the plurality of first entities, and a first low-dimensional feature vector of the i-th entity among the entities of and a first low-dimensional feature vector of the j-th entity among the plurality of first entities is a first similarity matrix of N rows and N columns,
    In the matrix L, the value of the i-th row and j-th column element represents the similarity between the i-th entity and the j-th entity among the plurality of second entities, and the plurality of second entities and the second low-dimensional feature vector of the i-th entity among the entities of and the second low-dimensional feature vector of the j-th entity among the plurality of second entities, is a second similarity matrix of N rows and N columns,
    The matrix H is a matrix of N rows and N columns in which the value of the element in the i-th row and j-th column indicates a value of 1−1/N when i=j, and indicates a value of 0 when i≠j. The information processing system according to claim 1 or 2.
  5.  前記対応付け部は、前記行列Ωに関する再探索処理を、所定条件が満足されるまで繰返し実行することにより、前記行列Ωを改善し、改善された行列Ωに基づいて、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの少なくとも一つに対応付けるように構成され、
     前記再探索処理は、
     前記行列Ωに基づいて、前記次元削減処理での次元削減方式を変更することと、
     変更後の前記次元削減方式に基づく前記次元削減処理を、前記次元削減部に実行させ、
    それにより新たに得られた前記第一の低次元特徴ベクトルの一群及び前記第二の低次元特徴ベクトルの一群に基づいて、前記行列Ωを再探索することと、
     を含む請求項4記載の情報処理システム。
    The associating unit improves the matrix Ω * by repeatedly performing re-search processing on the matrix Ω * until a predetermined condition is satisfied, and based on the improved matrix Ω * , the plurality of configured to associate each of the first entities with at least one of the plurality of second entities;
    The re-search process is
    changing a dimensionality reduction method in the dimensionality reduction process based on the matrix Ω * ;
    causing the dimensionality reduction unit to execute the dimensionality reduction process based on the changed dimensionality reduction method;
    re-searching the matrix Ω * based on the thereby newly obtained group of first low-dimensional feature vectors and group of second low-dimensional feature vectors;
    5. The information processing system according to claim 4, comprising:
  6.  前記対応付け部は、前記次元削減方式を、前記第一の低次元特徴ベクトルの一群及び前記第二の低次元特徴ベクトルの一群のうち、互いに対応する第一の低次元特徴ベクトルと第二の低次元特徴ベクトルとの間の特徴空間上の距離が短くなるように変更する請求項5記載の情報処理システム。 The associating unit selects the dimensionality reduction method from the group of the first low-dimensional feature vectors and the group of the second low-dimensional feature vectors. 6. The information processing system according to claim 5, wherein the change is made so as to shorten the distance in the feature space to the low-dimensional feature vector.
  7.  前記第一のデータセットは、複数の第一の特徴データを含み、前記複数の第一の特徴データのそれぞれは、前記複数の第一のエンティティのうちの対応する一つのエンティティの特徴を表し、
     前記第二のデータセットは、複数の第二の特徴データを含み、前記複数の第二の特徴データのそれぞれは、前記複数の第二のエンティティのうちの対応する一つのエンティティの特徴を表し、
     前記情報処理システムは、
     前記対応付け部による前記複数の第一のエンティティと前記複数の第二のエンティティとの間の対応付けに基づき、前記複数の第一の特徴データのそれぞれに、前記複数の第二の特徴データのうちの一つを結合することによって、複数の拡張データを含む拡張データセットであって、前記複数の拡張データのそれぞれが、対応する一つの第一の特徴データと第二の特徴データとの結合データである複数の拡張データを含む拡張データセットを生成するデータフュージョン部
     を更に備える請求項1~請求項6のいずれか一項記載の情報処理システム。
    the first data set includes a plurality of first feature data, each of the plurality of first feature data representing a feature of a corresponding one of the plurality of first entities;
    the second data set includes a plurality of second feature data, each of the plurality of second feature data representing a feature of a corresponding one of the plurality of second entities;
    The information processing system is
    Based on the association between the plurality of first entities and the plurality of second entities by the associating unit, the plurality of second feature data are added to each of the plurality of first feature data. an extended data set comprising a plurality of extended data by combining one of them, each of said plurality of extended data is a combination of a corresponding one of the first feature data and the second feature data The information processing system according to any one of claims 1 to 6, further comprising: a data fusion unit that generates an extended data set containing a plurality of extended data that are data.
  8.  前記第一のエンティティ及び前記第二のエンティティは、人であり、
     前記第一のデータセットは、第一の集団に属する複数の人のそれぞれの第一の特徴を記述するデータセットであり、
     前記第二のデータセットは、第二の集団の属する複数の人のそれぞれの第二の特徴を記述するデータセットである
     請求項1~請求項7のいずれか一項記載の情報処理システム。
    the first entity and the second entity are people;
    the first data set is a data set describing a first characteristic of each of a plurality of people belonging to a first group;
    The information processing system according to any one of claims 1 to 7, wherein said second data set is a data set describing second characteristics of each of a plurality of people belonging to a second group.
  9.  前記第一の特徴と前記第二の特徴との組合せは、購買行動に関する特徴と、オンライン空間及びオフライン空間の少なくとも一方の空間における移動に関する特徴、及び/又は、前記空間上の複数の地点への訪問に関する特徴と、の組合せである請求項8記載の情報処理システム。 The combination of the first feature and the second feature includes a feature related to purchasing behavior, a feature related to movement in at least one of an online space and an offline space, and/or a plurality of points on the space. 10. The information processing system according to claim 8, which is a combination of: a feature relating to a visit;
  10.  前記第一のエンティティ及び前記第二のエンティティは、人であり、
     前記第二のデータセットには、前記複数の第二のエンティティのそれぞれに対応する情報端末の識別情報が関連付けられており、
     前記情報処理システムは、
     前記複数の第二のエンティティのうち、前記対応付け部により前記複数の第一のエンティティのいずれかと対応付けられた第二のエンティティの集合の少なくとも一部を、情報コンテンツの配信先に選択する選択部と、
     前記識別情報に基づいて、前記情報コンテンツの配信先に対応する情報端末の集合に、前記情報コンテンツを配信するように構成される配信部と、
     を備える請求項1~請求項9のいずれか一項記載の情報処理システム。
    the first entity and the second entity are people;
    the second data set is associated with identification information of an information terminal corresponding to each of the plurality of second entities;
    The information processing system is
    Selection of selecting at least a part of a set of the plurality of second entities that are associated with any one of the plurality of first entities by the association unit as a delivery destination of the information content Department and
    a distribution unit configured to distribute the information content to a group of information terminals corresponding to distribution destinations of the information content based on the identification information;
    The information processing system according to any one of claims 1 to 9, comprising:
  11.  前記選択部は、前記対応付け部により前記複数の第一のエンティティのいずれかと対応付けられた前記第二のエンティティの集合である第一の集合と、前記複数の第二のエンティティのうち、前記第一の集合と特徴が類似する第二の集合と、を前記情報コンテンツの配信先に選択する請求項10記載の情報処理システム。 The selecting unit selects a first set, which is a set of the second entities associated with any one of the plurality of first entities by the associating unit, and the plurality of second entities, the 11. The information processing system according to claim 10, wherein a second set similar in characteristics to the first set is selected as a distribution destination of the information content.
  12.  前記第一のエンティティ及び前記第二のエンティティは、人であり、
     前記第二のデータセットは、前記複数の第二のエンティティのそれぞれの行動に関する特徴を記述し、
     前記情報処理システムは、更に、
     一以上の注目エンティティに関して、注目エンティティ毎に、対応する注目エンティティの行動に関する推定値を算出する推定部
     を備え、
     前記一以上の注目エンティティは、前記複数の第一のエンティティの少なくとも一部であり、
     前記推定値は、前記対応する注目エンティティに対応付けられた前記複数の第二のエンティティの少なくとも一つの行動に関する特徴に基づき算出される請求項1~請求項11のいずれか一項記載の情報処理システム。
    the first entity and the second entity are people;
    the second data set describes behavioral characteristics of each of the plurality of second entities;
    The information processing system further includes:
    an estimating unit that calculates, for each entity of interest, an estimated value regarding the behavior of the corresponding entity of interest with respect to one or more entities of interest;
    the one or more entities of interest are at least part of the plurality of first entities;
    12. The information processing according to any one of claims 1 to 11, wherein said estimated value is calculated based on a feature relating to behavior of at least one of said plurality of second entities associated with said corresponding entity of interest. system.
  13.  コンピュータにより実行される情報処理方法であって、
     複数の第一のエンティティに関する第一のデータセットであって、前記複数の第一のエンティティのそれぞれの特徴を記述する第一のデータセットを取得することと、
     複数の第二のエンティティに関する第二のデータセットであって、前記複数の第二のエンティティのそれぞれの特徴を記述する第二のデータセットを取得することと、
     前記第一のデータセットから特定される第一の特徴ベクトルの一群であって、前記第一の特徴ベクトルのそれぞれが、前記複数の第一のエンティティのうちの対応する一つのエンティティの特徴を表す第一の特徴ベクトルの一群、及び、前記第二のデータセットから特定される第二の特徴ベクトルの一群であって、前記第二の特徴ベクトルのそれぞれが、前記複数の第二のエンティティのうちの対応する一つのエンティティの特徴を表す第二の特徴ベクトルの一群に対する次元削減処理を実行することによって、前記第一の特徴ベクトルの一群に対応する第一の低次元特徴ベクトルの一群、及び、前記第二の特徴ベクトルの一群に対応する第二の低次元特徴ベクトルの一群であって前記第一の低次元特徴ベクトルの一群と同一次元数の第二の低次元特徴ベクトルの一群を生成することと、
     前記第一の低次元特徴ベクトルの一群、及び、前記第二の低次元特徴ベクトルの一群に基づき、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの少なくとも一つに対応付けることと、
     を含む情報処理方法。
    A computer-implemented information processing method comprising:
    obtaining a first data set for a plurality of first entities, the first data set describing characteristics of each of the plurality of first entities;
    obtaining a second data set for a plurality of second entities, the second data set describing characteristics of each of the plurality of second entities;
    A group of first feature vectors identified from the first data set, each of the first feature vectors representing features of a corresponding one of the plurality of first entities. A group of first feature vectors and a group of second feature vectors identified from the second data set, each of the second feature vectors being one of the plurality of second entities. a set of first low-dimensional feature vectors corresponding to the set of first feature vectors by performing a dimensionality reduction operation on a set of second feature vectors representing features of a corresponding entity of; generating a group of second low-dimensional feature vectors corresponding to the group of the second feature vectors and having the same number of dimensions as the group of the first low-dimensional feature vectors; and
    Each of the plurality of first entities is associated with at least one of the plurality of second entities based on the group of first low-dimensional feature vectors and the group of second low-dimensional feature vectors. and
    Information processing method including.
  14.  前記対応付けることは、
     前記第一の低次元特徴ベクトルの一群から特定される前記第一のエンティティ間の類似度、及び、前記第二の低次元特徴ベクトルの一群から特定される前記第二のエンティティ間の類似度に基づき、類似度に関する前記第一のエンティティ間の相互関係が前記第二のエンティティ間の相互関係に適合するように、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの一つに対応付けること
     を含む請求項13記載の情報処理方法。
    said associating
    the similarity between the first entities identified from the group of the first low-dimensional feature vectors and the similarity between the second entities identified from the group of the second low-dimensional feature vectors each of the plurality of first entities to one of the plurality of second entities such that the correlation between the first entities in terms of similarity matches the correlation between the second entities based on 14. The information processing method according to claim 13, comprising:
  15.  コンピュータに請求項13又は請求項14記載の情報処理方法を実行させるための命令を含むコンピュータプログラムを記憶するコンピュータ読取可能な記録媒体。 A computer-readable recording medium storing a computer program containing instructions for causing a computer to execute the information processing method according to claim 13 or claim 14.
PCT/JP2022/041591 2021-11-09 2022-11-08 Information processing system, and information processing method WO2023085279A1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2021182537 2021-11-09
JP2021-182537 2021-11-09
JP2022-048893 2022-03-24
JP2022048893A JP7227412B1 (en) 2021-11-09 2022-03-24 Information processing system, computer program, and information processing method

Publications (1)

Publication Number Publication Date
WO2023085279A1 true WO2023085279A1 (en) 2023-05-19

Family

ID=85252006

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/041591 WO2023085279A1 (en) 2021-11-09 2022-11-08 Information processing system, and information processing method

Country Status (3)

Country Link
JP (1) JP7227412B1 (en)
TW (1) TW202336607A (en)
WO (1) WO2023085279A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017097717A (en) * 2015-11-26 2017-06-01 株式会社博報堂 Information processing system and program
JP2018156299A (en) * 2017-03-16 2018-10-04 株式会社ビデオリサーチ Apparatus and method of investigation data processing
JP2019092067A (en) * 2017-11-15 2019-06-13 株式会社電通 Information processing apparatus, information processing method, information processing system, and program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8838601B2 (en) * 2011-08-31 2014-09-16 Comscore, Inc. Data fusion using behavioral factors
JP5793794B1 (en) * 2015-01-06 2015-10-14 株式会社博報堂Dyホールディングス Information processing system and program.

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017097717A (en) * 2015-11-26 2017-06-01 株式会社博報堂 Information processing system and program
JP2018156299A (en) * 2017-03-16 2018-10-04 株式会社ビデオリサーチ Apparatus and method of investigation data processing
JP2019092067A (en) * 2017-11-15 2019-06-13 株式会社電通 Information processing apparatus, information processing method, information processing system, and program

Also Published As

Publication number Publication date
JP7227412B1 (en) 2023-02-21
JP2023070618A (en) 2023-05-19
TW202336607A (en) 2023-09-16

Similar Documents

Publication Publication Date Title
Ma et al. Improving recommender systems by incorporating social contextual information
JP5913722B1 (en) Information processing system and program
Kumar et al. Combined artificial bee colony algorithm and machine learning techniques for prediction of online consumer repurchase intention
US20190220902A1 (en) Information analysis apparatus, information analysis method, and information analysis program
JPWO2012118087A1 (en) Recommender system, recommendation method, and program
JP6967462B2 (en) Information processing equipment, information processing methods, and information processing programs
WO2014109388A1 (en) Text mining device, text mining system, text mining method, and recording medium
Dhillon et al. Modeling dynamic user interests: A neural matrix factorization approach
US20150310529A1 (en) Web-behavior-augmented recommendations
Zhou et al. Tagrec: Leveraging tagging wisdom for recommendation
JP2018060469A (en) Extraction device, extraction method, and extraction program
JP6947768B2 (en) Estimator, estimation method and estimation program
CN111967924A (en) Commodity recommendation method, commodity recommendation device, computer device, and medium
JP2018088051A (en) Information processing device, information processing method and program
WO2023085279A1 (en) Information processing system, and information processing method
US20160148271A1 (en) Personalized Marketing Based on Sequence Mining
WO2017095371A1 (en) Product recommendations based on selected user and product attributes
JP6585998B2 (en) Content determination device
JP6258246B2 (en) Analysis device, analysis method, and program
JP5011185B2 (en) Information analysis apparatus, information analysis method, and information analysis program
Chornous et al. A hybrid user-item-based collaborative filtering model for e-commerce recommendations
JP6160018B1 (en) Information analysis apparatus, information analysis method, and information analysis program
Zhao et al. A theoretical analysis of two-stage recommendation for cold-start collaborative filtering
Li et al. Analysis and research of retail customer consumption behavior based on support vector machine
Park et al. Your click knows it: Predicting user purchase through improved user-item pairwise relationship

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22892777

Country of ref document: EP

Kind code of ref document: A1