WO2024048305A1 - Information processing system and information processing method - Google Patents

Information processing system and information processing method Download PDF

Info

Publication number
WO2024048305A1
WO2024048305A1 PCT/JP2023/029732 JP2023029732W WO2024048305A1 WO 2024048305 A1 WO2024048305 A1 WO 2024048305A1 JP 2023029732 W JP2023029732 W JP 2023029732W WO 2024048305 A1 WO2024048305 A1 WO 2024048305A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
elements
similarity
data set
eigenvalues
Prior art date
Application number
PCT/JP2023/029732
Other languages
French (fr)
Japanese (ja)
Inventor
雄介 熊谷
龍 道本
Original Assignee
株式会社博報堂Dyホールディングス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社博報堂Dyホールディングス filed Critical 株式会社博報堂Dyホールディングス
Publication of WO2024048305A1 publication Critical patent/WO2024048305A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Definitions

  • the present disclosure relates to an information processing system and an information processing method.
  • Patent Document 1 discloses that a first data set related to a first consumer group and a second data set related to a second consumer group are shared between the first data set and the second data set. Discloses a technique for combining using variables.
  • multiple types of data sets may be prepared as candidates for the second data set to be combined. For example, when attempting to combine a data set related to consumer purchasing behavior as a second data set with a first data set, multiple data sets related to the purchasing behavior of different sets of consumers may be combined as candidates. It may be available from the data vendor.
  • multiple data sets describing purchasing behavior using different parameters may be prepared by processing sales history such as POS (Point of Sale) data.
  • Examples of parameters include the number of products purchased and the purchase price.
  • the first data set is a data set related to a consumer set in which consumers of all ages and all genders are approximately uniformly present.
  • a data set of a consumer set in which consumers of all ages and all genders are approximately uniformly selected is selected. It is thought that the accuracy of data fusion will improve if this is selected.
  • the accuracy of data fusion between the first data set and the second data set is considered to change depending on the consumer set handled by the second data set.
  • the accuracy of data fusion between the first data set and the second data set is considered to vary depending on the type of purchasing behavior parameter described by the second data set. This is because the distribution of consumers on the feature space changes depending on the type of parameter.
  • the accuracy of data fusion between the first data set and the second data set depends on the similarity of the data structures between the first data set and the second data set. This dependence is not limited to purchasing behavior data sets.
  • an information processing system includes a first acquisition section, a second acquisition section, and an evaluation section.
  • the first acquisition unit is configured to acquire, with respect to the plurality of first elements in the first set, a first data set including data describing characteristics of each of the plurality of first elements.
  • the second acquisition unit is configured to acquire, with respect to the plurality of second elements in the second set, a second data set including data describing characteristics of each of the plurality of second elements.
  • the evaluation unit evaluates the similarity regarding the data structure between the first data set and the second data set based on a comparison between the neighborhood graph of the first set and the neighborhood graph of the second set. configured to do so.
  • the first set neighborhood graph is a first set neighborhood graph based on the similarity between the plurality of first elements determined from the first data set.
  • the second set neighborhood graph is a second set neighborhood graph based on the similarity between the plurality of second elements determined from the second data set.
  • the above neighborhood graph is related to the distribution of multiple elements on the feature space. Therefore, according to the above comparison, it is possible to evaluate the similarity between the data structure of the first data set and the data structure of the second data set.
  • This evaluation is useful, for example, in determining compatibility regarding data fusion between the first data set and the second data set. Evaluation is useful, for example, in selecting datasets to be combined in data fusion. However, the evaluation is not limited to data fusion applications.
  • the evaluation unit compares the neighborhood graph of the first set and the neighborhood graph of the second set, the evaluation unit comprising a graph corresponding to the neighborhood graph of the first set. configured to evaluate similarity in terms of data structure between the first dataset and the second dataset based on comparison using the Laplacian matrix and the graph Laplacian matrix corresponding to the neighborhood graph of the second set; may be done.
  • the second acquisition unit may acquire a plurality of evaluation target datasets as the second dataset.
  • Each of the plurality of evaluation target data sets may be a data set including data describing characteristics of each of the plurality of elements with respect to the plurality of elements in the corresponding set.
  • the plurality of data sets to be evaluated may be data sets relating to different sets, or data sets having different described characteristics.
  • the evaluation unit calculates, for each of the plurality of evaluation target data sets, a neighborhood graph of the corresponding set based on the similarity between the plurality of elements in the corresponding set determined from the corresponding evaluation target data set, and a first
  • the method may be configured to evaluate similarity in data structure between the corresponding dataset to be evaluated and the first dataset based on a comparison between the neighborhood graphs of the set.
  • the information processing system may include a selection unit.
  • the selection unit may be configured to select, as a combination target, a data set with the highest evaluation of similarity regarding data structure from among the plurality of evaluation target data sets. According to such selection, a second data set suitable for combination with the first data set can be selected from a plurality of data sets.
  • the information processing system may further include a coupling unit.
  • the combination unit is configured to combine the first data set and the data set selected to be combined so as to associate data describing characteristics of similar elements between the first set and the corresponding set. can be made into According to such a combination, highly accurate data fusion between the first data set and the second data set can be realized.
  • the evaluation unit may include a first similarity calculation unit, a second similarity calculation unit, a first eigenvalue calculation unit, and a second eigenvalue calculation unit. good.
  • the first similarity calculation unit is configured to calculate the similarity between the plurality of first elements based on the first data set.
  • the second similarity calculation unit is configured to calculate the similarity between the plurality of second elements based on the second data set.
  • the first eigenvalue calculation unit is configured to calculate a group of eigenvalues of the first graph Laplacian matrix as a group of first eigenvalues based on the similarity between the plurality of first elements.
  • the first graph Laplacian matrix corresponds to a neighborhood graph in which each of the plurality of first elements is connected to one or more first elements in the first set whose similarity level satisfies a predetermined condition. is the graph Laplacian matrix.
  • the second eigenvalue calculation unit is configured to calculate a group of eigenvalues of the second graph Laplacian matrix as a group of second eigenvalues based on the degree of similarity between the plurality of second elements.
  • the second graph Laplacian matrix corresponds to a neighborhood graph in which each of the plurality of second elements is connected to one or more second elements in the second set whose degree of similarity satisfies a predetermined condition. is the graph Laplacian matrix.
  • the evaluation unit is configured to evaluate similarity regarding the data structure between the first data set and the second data set based on a comparison between the first set of eigenvalues and the second set of eigenvalues. can be configured.
  • the neighborhood graph is related to the distribution of multiple elements on the feature space.
  • the groups of eigenvalues of the two corresponding graph Laplacian matrices are also similar. According to the above comparison, it is possible to evaluate the similarity between the neighborhood graph regarding the first set and the neighborhood graph regarding the second set.
  • the neighborhood graph corresponds to the data structure of the corresponding dataset. Therefore, according to the above comparison, it is possible to evaluate the similarity between the data structure of the first data set and the data structure of the second data set.
  • the evaluation unit ranks each of the plurality of first eigenvalues included in the group of first eigenvalues in the group of first eigenvalues, and the ranking of each of the plurality of first eigenvalues included in the group of second eigenvalues. Comparing each of the plurality of first eigenvalues with an eigenvalue of the same rank among the plurality of second eigenvalues based on the rank of each of the plurality of second eigenvalues included in the group of second eigenvalues. Similarity regarding data structure may be evaluated by The plurality of first eigenvalues and the plurality of second eigenvalues may be ranked based on the size of the eigenvalue. According to such an evaluation, it is possible to more appropriately evaluate the similarity in data structure between data sets.
  • the evaluation unit assigns each of the eigenvalues from the first to a predetermined rank in descending order of the eigenvalues included in the group of first eigenvalues to the same rank among the plurality of second eigenvalues. Similarity regarding data structures may be evaluated by comparing with the eigenvalues of .
  • the evaluation unit may be configured to calculate the similarity evaluation value regarding the data structure using the sum of squares of errors.
  • Each of the errors may be a difference between a first eigenvalue of a corresponding rank among the plurality of first eigenvalues and a second eigenvalue of a corresponding rank among the plurality of second eigenvalues.
  • the first graph Laplacian matrix is a graph Laplacian matrix of a nearest neighbor graph connecting each of the plurality of first elements to a first element having the highest degree of similarity in the first set. It may be a matrix.
  • the second graph Laplacian matrix may be a graph Laplacian matrix of a nearest neighbor graph in which each of the plurality of second elements is connected to the second element having the highest degree of similarity in the second set.
  • the second similarity calculation unit acquires the plurality of evaluation target data sets as the second data set. For each of these, the degree of similarity between multiple elements in the corresponding set may be calculated.
  • the second eigenvalue calculation unit generates a neighborhood graph for each of the plurality of evaluation target data sets, and converts each of the plurality of elements in the corresponding set into a corresponding set whose high degree of similarity satisfies a predetermined condition.
  • a group of eigenvalues of a graph Laplacian matrix corresponding to a neighborhood graph connected to one or more elements in the graph may be calculated as a group of eigenvalues to be compared.
  • the evaluation unit evaluates the first data based on a comparison between a group of comparison target eigenvalues based on the corresponding evaluation target dataset and a first group of eigenvalues for each of the plurality of evaluation target datasets. Similarity in data structure between the set and the corresponding dataset to be evaluated may be evaluated.
  • the first data set may be a data set that describes characteristics of a plurality of people in the first set as a plurality of first elements.
  • the second data set may be a data set that describes characteristics of a plurality of people in the second set as a plurality of second elements.
  • a computer program for causing a computer to implement at least some of the functions in the information processing system described above may be provided.
  • a computer program for causing a computer to function as at least part of the first acquisition unit, the second acquisition unit, and the evaluation unit may be provided.
  • an information processing method may be provided.
  • the information processing method may be executed by a computer.
  • the information processing method may include, for the plurality of first elements in the first set, obtaining a first data set including data describing characteristics of each of the plurality of first elements.
  • the information processing method may include, regarding the plurality of second elements in the second set, obtaining a second dataset including data describing characteristics of each of the plurality of second elements.
  • the information processing method generates a neighborhood graph of a first set based on the similarity between a plurality of first elements determined from a first data set, and a plurality of second elements determined from a second data set. a neighborhood graph of the second set based on the similarity between the first dataset and the second dataset; good.
  • Another information processing method may be provided. Another information processing method may be performed by a computer. Another information processing method may include, with respect to the plurality of first elements in the first set, obtaining a first data set including data describing characteristics of each of the plurality of first elements. good.
  • Another information processing method may include, with respect to the plurality of second elements in the second set, obtaining a second data set including data describing characteristics of each of the plurality of second elements. good.
  • Another information processing method may include calculating the degree of similarity between the plurality of first elements based on the first data set.
  • Another information processing method may include calculating the similarity between the plurality of second elements based on the second data set.
  • Another information processing method may include calculating a group of eigenvalues of the first graph Laplacian matrix as a group of first eigenvalues based on the similarity between the plurality of first elements.
  • the first graph Laplacian matrix corresponds to a neighborhood graph in which each of the plurality of first elements is connected to one or more first elements in the first set whose degree of similarity satisfies a predetermined condition. It can be a graph Laplacian matrix.
  • Another information processing method may include calculating a group of eigenvalues of the second graph Laplacian matrix as a group of second eigenvalues based on the degree of similarity between the plurality of second elements.
  • the second graph Laplacian matrix corresponds to a neighborhood graph in which each of the plurality of second elements is connected to one or more second elements in the second set whose degree of similarity satisfies a predetermined condition. It can be a graph Laplacian matrix.
  • Another information processing method evaluates the similarity in terms of data structure between a first data set and a second data set based on a comparison between a first set of eigenvalues and a second set of eigenvalues. It may include doing.
  • the information processing system and information processing method described above are not limited to data fusion applications.
  • a computer program including instructions for causing a computer to execute the above-described information processing method may be provided.
  • the computer program may be recorded on a computer-readable recording medium.
  • FIG. 1 is a block diagram showing the configuration of an information processing system.
  • FIG. 3 is a diagram illustrating an example of generation of an extended data set by data fusion.
  • 2 is a flowchart (part 1) representing evaluation processing executed by a processor.
  • 12 is a flowchart (part 2) representing evaluation processing executed by the processor.
  • 2 is a flowchart (Part 1) showing extended processing executed by a processor.
  • 12 is a flowchart (part 2) illustrating extended processing executed by the processor.
  • the information processing system 1 of this embodiment is configured by installing a dedicated computer program Pr into a general-purpose computer. As shown in FIG. 1, the information processing system 1 includes a processor 11, a memory 13, a storage 15, a user interface 17, and a communication interface 19.
  • the processor 11 is configured to execute processing according to a computer program Pr stored in the storage 15.
  • the memory 13 is a primary storage device including a RAM, and is used as a work area when the processor 11 executes processing.
  • the storage 15 is a secondary storage device including, for example, a hard disk drive or a solid state drive.
  • the storage 15 stores, in addition to the computer program Pr, various types of data used when executing processes according to the computer program Pr.
  • the user interface 17 includes an input device for inputting operation signals from a user operating the information processing system 1 to the processor 11.
  • the user interface 17 further includes a display for displaying various information to the user. Examples of input devices include keyboards and pointing devices.
  • the communication interface 19 includes a LAN (Local Area Network) interface and a USB (Universal Serial Serial) interface, and is used for communication with external devices.
  • the information processing system 1 transmits and receives data to and from external devices through the communication interface 19.
  • the processor 11 generates the extended data set 15C by executing processing according to the computer program Pr.
  • the expanded data set 15C is generated by expanding the first data set 15A stored in the storage 15 using the second data set 15B stored in the storage 15.
  • the first data set 15A and the second data set 15B are obtained in advance from an external device through the communication interface 19, for example, and stored in the storage 15.
  • the first data set 15A is a data set that describes the first feature regarding the first set.
  • the first data set 15A includes feature data for each first entity as first feature data.
  • Each of the first entities corresponds to each of the plurality of elements included in the first set.
  • the first set is a first set of entities.
  • the first set may be a first set of consumers. According to one example, the first entity is a consumer, ie a person.
  • the first feature data for each first entity is data that describes the first feature of the corresponding first entity.
  • the first data set 15A may be a data set regarding the purchasing behavior of a first set of consumers, as shown in FIG.
  • the first characteristic data may be data describing characteristics of the corresponding consumer's purchasing behavior.
  • the first characteristic data may be, for example, data describing whether or not each product is purchased with respect to a plurality of products.
  • the second data set 15B is a data set that describes the second feature regarding the second set.
  • the second data set 15B includes feature data for each second entity as second feature data.
  • Each of the second entities corresponds to each of the plurality of elements included in the second set.
  • the second set is a second set of entities.
  • the second set may be a second set of consumers.
  • the second set of consumers can be the same or different set of consumers than the first set of consumers.
  • the second entity is a consumer, ie a person.
  • the second feature data for each second entity is data that describes the second feature of the corresponding second entity.
  • the second feature data may be data describing a feature that is the same as or different from the first feature described by the first feature data. That is, at least one of the second set and the second feature is different from the first set and the first feature.
  • the second data set 15B may be a data set regarding online behavior of a second set of consumers, as shown in FIG.
  • the online behavior may be the behavior of visiting a website.
  • the second characteristic data may be, for example, data describing whether or not each website has been visited, regarding a plurality of websites.
  • the extended data set 15C is a data set in which information included in the second data set 15B is added to the first data set 15A.
  • the expansion increases the amount of information about the first entity. An increase in the amount of information will be useful for analyzing human behavior and distributing advertisements.
  • the processor 11 is configured to execute the evaluation process shown in FIGS. 3 and 4 according to instructions from the user. According to the evaluation process, the similarity of the data structure between the first data set 15A and the second data set 15B that the user wants to combine by data fusion is evaluated, and thereby the accuracy of data fusion is estimated in advance. be evaluated.
  • the accuracy of data fusion corresponds to the accuracy (ie, accuracy) of the information described by the expanded data set 15C generated by data fusion.
  • the data structure of the first data set 15A and the second data set 15B is the structure of a graph when the similarity between entities in the first data set 15A and the second data set 15B is expressed in a graph, respectively. corresponds to As is well known, a graph is composed of a set of nodes (in other words, points) and links (in other words, edges).
  • the nearest neighbor graph of the first set is used as the graph corresponding to the first data set 15A.
  • the nearest neighbor graph of the first set is constructed by connecting each node of the first entity in the first set to the node of the first entity having the highest degree of similarity on the feature space.
  • the nearest neighbor graph of the second set is used as the graph corresponding to the second data set 15B.
  • the nearest neighbor graph of the second set is constructed by connecting each node of the second entity in the second set to the node of the second entity having the highest degree of similarity on the feature space.
  • the processor 11 Upon starting the evaluation process shown in FIG. 3, the processor 11 reads the first data set 15A specified by the user through the user interface 17 from the storage 15. Based on the read first data set 15A, the processor 11 generates a feature vector x for each first entity for the plurality of first entities included in the first set (S110).
  • M1 corresponds to the number of dimensions of the feature vector x.
  • the feature vector x can include vector elements for each product.
  • the vector element of each product represents whether the corresponding consumer has purchased the corresponding product.
  • the processor 11 reads the second data set 15B specified by the user through the user interface 17 from the storage 15. Based on the read second data set 15B, the processor 11 generates a feature vector y for each second entity for the plurality of second entities included in the second set.
  • M2 corresponds to the number of dimensions of the feature vector y.
  • the feature vector y may include vector elements for each website.
  • the vector element for each website represents whether the corresponding consumer has visited the corresponding website.
  • the processor 11 calculates the similarity R1 between the first entities included in the first set. For all possible combinations of two first entities in the first set, the processor 11 calculates, for each combination, the similarity R1 between the two first entities constituting the combination using the feature vector x. calculate.
  • the similarity R1 may be, for example, a cosine similarity calculated by the normalized inner product of the feature vectors x of the two first entities forming the combination.
  • the similarity R1 is not limited to cosine similarity.
  • the processor 11 calculates the first graph Laplacian matrix L1 based on the similarity R1 between the first entities.
  • the first graph Laplacian matrix L1 is a graph Laplacian matrix of the nearest neighbor graph of the first data set 15A.
  • the nearest neighbor graph of the first data set 15A can be defined, for example, by performing the following procedure.
  • Step 1 Select one of the plurality of first entities as the entity to be processed.
  • Step 2 A link (in other words, a directed edge) is created from the node of the entity to be processed to the node of the first entity that has the highest degree of similarity R1 with the entity to be processed.
  • Steps 1 and 2 are repeated until all of the plurality of first entities in the first set are selected as entities to be processed. That is, the nearest neighbor graph of the first data set 15A may be a directed graph defined by performing steps 1 and 2 for all of the plurality of first entities in the first set.
  • the processor 11 calculates the eigenvalues ⁇ 1[1], ⁇ 1[2], ..., ⁇ 1[i], ..., ⁇ 1[N1] of the first graph Laplacian matrix L1.
  • the value N1 is the number of unique values.
  • the processor 11 determines, when adding the eigenvalues ⁇ 1[1], ⁇ 1[2], ..., ⁇ 1[i], ..., ⁇ 1[N1] in descending order, the eigenvalue exceeds a predetermined proportion ⁇ of the total sum.
  • may for example have the value 0.9. That is, the processor 11 determines the minimum value K1 that satisfies the following conditional expression.
  • the processor 11 calculates the similarity R2 between the second entities included in the second set. For every possible combination of two second entities in the second set, the processor 11 calculates, for each combination, the similarity R2 of the two second entities constituting the combination using the feature vector y. do.
  • the similarity R2 may be, for example, a cosine similarity calculated by the normalized inner product of the feature vectors y of the two second entities forming the combination.
  • the similarity R2 is not limited to cosine similarity.
  • the processor 11 calculates a second graph Laplacian matrix L2 based on the similarity R2 between the second entities.
  • the second graph Laplacian matrix L2 is a graph Laplacian matrix of the nearest neighbor graph of the second data set 15B.
  • the nearest neighbor graph of the second data set 15B may be defined, for example, by performing the following procedure. Step 11: Select one of the plurality of second entities as the entity to be processed. Step 12: Create a link (in other words, a directed edge) from the node of the selected entity to be processed to the node of the second entity that has the highest similarity R2 with the entity to be processed. . Steps 11 and 12 are repeated until all of the plurality of second entities in the second set are selected as entities to be processed. That is, the nearest neighbor graph of the second data set 15B may be a directed graph defined by performing steps 11 and 12 for all of the plurality of second entities in the second set.
  • the processor 11 calculates the eigenvalues ⁇ 2[1], ⁇ 2[2], ..., ⁇ 2[i], ..., ⁇ 2[N2] of the second graph Laplacian matrix L2.
  • the value N2 is the number of unique values.
  • the processor 11 determines, when adding the eigenvalues ⁇ 2[1], ⁇ 2[2], ..., ⁇ 2[i], ..., ⁇ 2[N2] in descending order, the eigenvalue exceeds a predetermined percentage ⁇ of the total sum. Determine the rank K2 of ⁇ 2[K2]. That is, the processor 11 determines the minimum value K2 that satisfies the following conditional expression. ⁇ may for example have the value 0.9.
  • the processor 11 sets the smaller value min ⁇ K1, K2 ⁇ of the values K1 and K2 to the value K.
  • the processor 11 calculates the sum of squared errors of the eigenvalues according to the following equation as the evaluation value E regarding the similarity of data structures between the first data set 15A and the second data set 15B.
  • Each error is the eigenvalue ⁇ 1[i] of the corresponding rank among the eigenvalues ⁇ 1[1], ⁇ 1[2], ..., ⁇ 1[i], ..., ⁇ 1[K] of the first graph Laplacian matrix L1. and the eigenvalue ⁇ 2[i] of the corresponding rank among the eigenvalues ⁇ 2[1], ⁇ 2[2], ..., ⁇ 2[i], ..., ⁇ 2[K] of the second graph Laplacian matrix L2 ( ⁇ 1[i] ⁇ 2[i]).
  • Calculating the sum of squares of errors involves calculating the first rank included in a group of eigenvalues ⁇ 1[1], ⁇ 1[2], ..., ⁇ 1[i], ..., ⁇ 1[N1] of the first graph Laplacian matrix L1.
  • the eigenvalues ⁇ 1[1], ⁇ 1[2], ..., ⁇ 1[i], ..., ⁇ 1[K] up to a predetermined rank are respectively converted into the eigenvalues ⁇ 2[1], ⁇ 2[2] of the second graph Laplacian matrix L2. ], ..., ⁇ 2[i], ..., ⁇ 2[K] of the same rank.
  • the processor 11 displays the evaluation value E calculated in S220 to the user through the display of the user interface 17. After that, the evaluation process ends.
  • the user can predict in advance the accuracy of data fusion between the first data set 15A and the second data set 15B based on the displayed evaluation value E.
  • the user can determine that the smaller the displayed evaluation value E, the higher the similarity in data structure between the first data set 15A and the second data set 15B. .
  • the user can determine that the smaller the displayed evaluation value E, the more highly accurate data fusion can be achieved between the first data set 15A and the second data set 15B. Thereby, the user can determine that it is possible to obtain the expanded data set 15C with high information accuracy.
  • the user specifies a plurality of data sets through the user interface 17 as candidates for the second data set 15B to be combined with the first data set 15A.
  • the plurality of data sets may be data sets relating to different sets, or data sets having different described characteristics.
  • the data set with the smallest evaluation value E calculated using the same method as the evaluation process described above is selected as the second data set 15B to be combined.
  • the selected second data set 15B is combined with the first data set 15A by data fusion.
  • the processor 11 reads the first data set 15A designated by the user through the user interface 17 from the storage 15, similar to the process at S110.
  • the processor 11 generates a feature vector x for each first entity based on the read first data set 15A (S310).
  • the processor 11 acquires a plurality of data sets designated as candidates for the second data set 15B to be combined by reading them from the storage 15 (S320).
  • the processor 11 executes the processes of S330 to S360, similar to the processes of S130 to S160. That is, in S330, the processor 11 calculates the similarity R1 between the first entities.
  • the processor 11 calculates the first graph Laplacian matrix L1 based on the similarity R1 between the first entities.
  • the processor 11 calculates the eigenvalues ⁇ 1[1], ⁇ 1[2], ..., ⁇ 1[i], ..., ⁇ 1[N1] of the first graph Laplacian matrix L1.
  • the value N1 is the number of unique values.
  • the eigenvalues ⁇ 1[1], ⁇ 1[2],..., ⁇ 1[i],..., ⁇ 1[N1] satisfy the conditional expression ⁇ 1[1] ⁇ 1[2] ⁇ ... ⁇ 1[N1].
  • the processor 11 determines, when adding the eigenvalues ⁇ 1[1], ⁇ 1[2], ..., ⁇ 1[i], ..., ⁇ 1[N1] in descending order, the eigenvalue exceeds a predetermined proportion ⁇ of the total sum.
  • may for example have the value 0.9.
  • the processor 11 selects one dataset to be evaluated from among the plurality of candidate datasets. In subsequent S380, the processor 11 generates a feature vector y of the corresponding entity for each entity based on the dataset to be evaluated.
  • the entity here is an element in the sample set of information handled by the dataset to be evaluated.
  • a sample set may correspond to a consumer set.
  • An entity may be each of a plurality of consumers included in a consumer set.
  • the dataset to be evaluated includes, for each entity, feature data that describes the characteristics of the corresponding entity.
  • Generation of the feature vector y for each entity in S380 is performed in the same way as the process in S120 regarding the second data set 15B.
  • the processor 11 calculates the similarity R3 between entities included in the sample set handled by the evaluation target dataset based on the feature vector y, similar to the process in S170.
  • Similarity R3 may be a cosine similarity.
  • the processor 11 calculates a graph Laplacian matrix L3 based on the similarity R3 between entities, similar to the process in S180.
  • the graph Laplacian matrix L3 is a graph Laplacian matrix of the nearest neighbor graph of the dataset to be evaluated.
  • the nearest neighbor graph of the dataset to be evaluated may be defined, for example, by performing the following steps.
  • Step 21 Select one of the multiple entities in the sample set as the entity to be processed.
  • Step 22 A link (in other words, a directed edge) is created from the node of the selected entity to be processed to the node of one entity that has the highest similarity R3 with the entity to be processed.
  • Steps 21 and 22 are repeated until all of the multiple entities in the sample set are selected as entities to be processed. That is, the nearest neighbor graph of the dataset to be evaluated may be a directed graph defined by performing steps 21 and 22 for all of the plurality of entities in the sample set.
  • the processor 11 calculates the eigenvalues ⁇ 3[1], ⁇ 3[2], ..., ⁇ 3[i], ..., ⁇ 3[N3] of the graph Laplacian matrix L3, similarly to the process in S190.
  • the value N3 is the number of eigenvalues, and the eigenvalues ⁇ 3[1], ⁇ 3[2], ..., ⁇ 3[i], ..., ⁇ 3[N3] satisfy the conditional expression ⁇ 3[1] ⁇ 3[2] ⁇ ... ⁇ ⁇ 3[N3] is satisfied.
  • the processor 11 determines that when the eigenvalues ⁇ 3[1], ⁇ 3[2], ..., ⁇ 3[i], ..., ⁇ 3[N3] are added in descending order, the total
  • the rank K3 of the eigenvalue ⁇ 3 [K3] exceeding a predetermined percentage ⁇ of the total is determined.
  • may for example have the value 0.9.
  • the processor 11 sets the smaller value min ⁇ K1, K3 ⁇ of the values K1 and K3 to the value K.
  • the processor 11 calculates the sum of squares of the errors of the eigenvalues according to the following equation as the evaluation value E regarding the similarity of the data structure between the first data set 15A and the data set to be evaluated.
  • the processor 11 determines whether the processes of S370 to S440 have been executed for all of the plurality of data sets designated as candidates. If it is determined that it has not been executed (No in S450), the processor 11 selects one new data set that has not been selected as an evaluation target from among the candidates as a data set to be evaluated (S370). The processor 11 executes the processes of S380 to S440 regarding the newly selected data set to be evaluated.
  • the processor 11 makes a negative determination in S450 and repeatedly executes the processes of S370 to S440 until the processes of S370 to S440 are executed for all of the plurality of data sets designated as candidates.
  • an evaluation value E is calculated for each data set with respect to a plurality of data sets designated as candidates.
  • the processor 11 executes the process of S460. That is, the processor 11 determines the data set with the smallest evaluation value E among the plurality of data sets designated as candidates as the data set with the highest similarity in data structure to the first data set 15A ( S460).
  • the processor 11 selects the dataset with the smallest evaluation value E from among the plurality of datasets designated as candidates as the second dataset 15B to be combined with the first dataset 15A (S460). .
  • the processor 11 combines the first data set 15A with the second data set 15B using data fusion technology, thereby converting the first data set 15A into the selected second data set 15B.
  • An expanded data set 15C is generated (S470).
  • the combination between the first data set 15A and the second data set 15B is performed by combining the feature data of the related first entity and the feature data of the second entity. Combining two pieces of feature data corresponds to associating the two pieces of feature data.
  • feature data of a first entity and feature data of a second entity that have similar features are combined.
  • the relative positions are similar based on the relative position of each first entity in the first set and the relative position of each second entity in the second set on the feature space.
  • Feature data of the first entity and feature data of the second entity are combined.
  • the processor 11 outputs the generated extended data set 15C (S480). Specifically, the processor 11 writes the extended data set 15C to the storage 15.
  • the extended data set 15C written to the storage 15 is useful for analyzing consumer behavior, for example.
  • first data set 15A and the second data set 15B include variables that are common between the first entity and the second entity, such as demographic attributes.
  • the processor 11 combines the first data set 15A and the second data set so as to combine the feature data of the first entity and the feature data of the second entity, which have similar features determined by the common variable.
  • data set 15B can be combined.
  • the processor 11 selects a first entity in which the relative position of the first entity in the first set on the feature space is similar to the relative position of the second entity in the second set on the feature space. and the second entity, and combine the feature data of the first entity and the feature data of the second entity having similar relative positions.
  • the two data sets 15B can be combined.
  • the similarity of data structures between datasets is evaluated based on the eigenvalues of the graph Laplacian matrix based on the nearest neighbor graph.
  • the nearest neighbor graph corresponds to the data structure of the corresponding dataset.
  • the nearest neighbor graph relates to the distribution on the feature space of multiple elements that make up the set.
  • the groups of eigenvalues of the two corresponding graph Laplacian matrices are also similar.
  • This evaluation is useful for selecting datasets to be combined in data fusion.
  • the first data set 15A with the second data set 15B, which has a highly similar data structure, by data fusion technology, an expanded data set 15C with high accuracy regarding the expanded information is generated. Can be done.
  • the values K1, K2, and K3 are calculated and the value K is determined based on the following idea.
  • Idea 1 The larger the eigenvalue, the more important it is for evaluating the data structure.
  • Idea 2 The larger the ratio of the sum of eigenvalues to the total eigenvalue, the more each value of the eigenvalues corresponding to the sum represents the entire eigenvalue corresponding to the sum.
  • the evaluation value E is further calculated by the sum of squares of K errors. That is, according to the method for calculating the evaluation value E of this embodiment, even if the number of eigenvalues differs between datasets to be compared, the eigenvalues can be compared and the evaluation value E regarding the similarity of data structures can be appropriately calculated. can do. Therefore, according to this embodiment, it is possible to achieve good evaluation regarding the similarity of data structures and good data fusion based on this evaluation.
  • the graph Laplacian matrix may be a graph Laplacian matrix of a k-nearest neighbor graph.
  • the first graph Laplacian matrix L1 assigns each node of the first entity in the first set to one or more k first entity nodes in the first set in descending order of similarity R1. It may be a graph Laplacian matrix corresponding to a k-nearest neighbor graph connected to .
  • the second graph Laplacian matrix L2 connects each node of the second entity in the second set with one or more nodes of k second entities in the second set in descending order of similarity R2. It may be a graph Laplacian matrix corresponding to the k-nearest neighbor graph.
  • the k-nearest neighbor graph may be a directed graph or an undirected graph.
  • the graph Laplacian matrix L3 may be a k-nearest neighborhood graph.
  • comparison of neighborhood graphs is performed through comparison of eigenvalues of graph Laplacian matrices.
  • comparison of neighborhood graphs is not limited to this example.
  • the structures of the neighborhood graphs may be expressed numerically using any method, and the structures of the neighborhood graphs may be compared by comparing the numerical values corresponding to the two approximate graphs. By comparing the structures of such neighborhood graphs, the similarity of the data structures of two corresponding data sets may be evaluated.
  • the numerical value here may include a vector.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

In the present invention, with regard to a plurality of first elements in a first set, a first data set that includes data describing a feature of each of the plurality of first elements is acquired. With regard to a plurality of second elements in a second set, a second data set that includes data describing a feature of each of the plurality of second elements is acquired. Similarity concerning data structure between the first data set and the second data set is evaluated on the basis of a comparison of a neighborhood graph of the first set based on similarity between the plurality of first elements and a neighborhood graph of the second set based on similarity between the plurality of second elements.

Description

情報処理システム及び情報処理方法Information processing system and information processing method 関連出願の相互参照Cross-reference of related applications
 本国際出願は、2022年8月29日に日本国特許庁に出願された日本国特許出願第2022-136165号に基づく優先権を主張するものであり、日本国特許出願第2022-136165号の全内容を本国際出願に参照により援用する。 This international application claims priority based on Japanese Patent Application No. 2022-136165 filed with the Japan Patent Office on August 29, 2022, and is based on Japanese Patent Application No. 2022-136165. The entire contents are incorporated by reference into this international application.
 本開示は、情報処理システム及び情報処理方法に関する。 The present disclosure relates to an information processing system and an information processing method.
 従来、商品の販売データに基づき消費者の購買行動を分析することが行われている。消費者のマスメディアやネットワークコンテンツへの接触行動を分析することも行われている。 Conventionally, consumer purchasing behavior has been analyzed based on product sales data. Analyzing consumers' exposure behavior to mass media and network content is also being conducted.
 異なる手段で収集した複数のデータを共通変数に基づいて結合するデータフュージョン技術も知られている。特許文献1は、第一の消費者群に関する第一のデータセットと、第二の消費者群に関する第二のデータセットとを、第一のデータセットと第二のデータセットとの間で共通する変数を用いて結合する技術を開示する。 Data fusion technology is also known that combines multiple pieces of data collected by different means based on a common variable. Patent Document 1 discloses that a first data set related to a first consumer group and a second data set related to a second consumer group are shared between the first data set and the second data set. Discloses a technique for combining using variables.
特開2016-126609号公報Japanese Patent Application Publication No. 2016-126609
 第一のデータセットに第二のデータセットを結合しようとするとき、結合対象の第二のデータセットの候補として、複数種類のデータセットを用意できる場合がある。例えば、第一のデータセットに、第二のデータセットとして消費者の購買行動に関するデータセットを結合しようとするとき、上記候補として、異なる消費者集合の購買行動に関する複数のデータセットを、複数のデータベンダから取得できる場合がある。 When attempting to combine a second data set with a first data set, multiple types of data sets may be prepared as candidates for the second data set to be combined. For example, when attempting to combine a data set related to consumer purchasing behavior as a second data set with a first data set, multiple data sets related to the purchasing behavior of different sets of consumers may be combined as candidates. It may be available from the data vendor.
 あるいは、購買行動を異なるパラメータを用いて記述する複数のデータセットを、POS(Point of Sale)データなどの販売履歴の加工により用意できる場合がある。パラメータの例には、商品の購入数及び購入金額などが含まれる。 Alternatively, multiple data sets describing purchasing behavior using different parameters may be prepared by processing sales history such as POS (Point of Sale) data. Examples of parameters include the number of products purchased and the purchase price.
 ここで、第一のデータセットが、全年齢及び全性別の消費者がおよそ一様に存在する消費者集合に関するデータセットである場合を考える。この場合、結合対象の第二のデータセットとして、女性のみの消費者集合のデータセットを選択するよりも、全年齢及び全性別の消費者がおよそ一様に存在する消費者集合のデータセットを選択するほうが、データフュージョンの精度は向上すると考えられる。 Here, consider the case where the first data set is a data set related to a consumer set in which consumers of all ages and all genders are approximately uniformly present. In this case, rather than selecting a data set of only female consumers as the second data set to be combined, a data set of a consumer set in which consumers of all ages and all genders are approximately uniformly selected is selected. It is thought that the accuracy of data fusion will improve if this is selected.
 すなわち、第二のデータセットが取り扱う消費者集合によって、第一のデータセットと第二のデータセットとの間のデータフュージョンの精度は、変化すると考えられる。同様に、第二のデータセットが記述する購買行動のパラメータの種類によっても、第一のデータセットと第二のデータセットとの間のデータフュージョンの精度は、変化すると考えられる。特徴空間上の消費者の分布がパラメータの種類によって変化するためである。 In other words, the accuracy of data fusion between the first data set and the second data set is considered to change depending on the consumer set handled by the second data set. Similarly, the accuracy of data fusion between the first data set and the second data set is considered to vary depending on the type of purchasing behavior parameter described by the second data set. This is because the distribution of consumers on the feature space changes depending on the type of parameter.
 このように、第一のデータセットと第二のデータセットとの間のデータフュージョンの精度は、第一のデータセットと第二のデータセットとの間のデータ構造の類似性に依存する。この依存は、購買行動のデータセットに限定されない。 Thus, the accuracy of data fusion between the first data set and the second data set depends on the similarity of the data structures between the first data set and the second data set. This dependence is not limited to purchasing behavior data sets.
 そこで、本開示の一側面によれば、様々な種類のデータセットに関して、第一のデータセットと第二のデータセットとの間のデータ構造に関する類似性を評価可能なシステム及び方法を提供できることが望ましい。 Therefore, according to one aspect of the present disclosure, it is possible to provide a system and method capable of evaluating the similarity in data structure between a first data set and a second data set with respect to various types of data sets. desirable.
 本開示の一側面によれば、情報処理システムが提供される。情報処理システムは、第一の取得部と、第二の取得部と、評価部とを備える。第一の取得部は、第一の集合における複数の第一の要素に関して、複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得するように構成される。第二の取得部は、第二の集合における複数の第二の要素に関して、複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得するように構成される。 According to one aspect of the present disclosure, an information processing system is provided. The information processing system includes a first acquisition section, a second acquisition section, and an evaluation section. The first acquisition unit is configured to acquire, with respect to the plurality of first elements in the first set, a first data set including data describing characteristics of each of the plurality of first elements. The second acquisition unit is configured to acquire, with respect to the plurality of second elements in the second set, a second data set including data describing characteristics of each of the plurality of second elements.
 評価部は、第一の集合の近傍グラフと、第二の集合の近傍グラフと、の比較に基づいて、第一のデータセットと第二のデータセットとの間のデータ構造に関する類似性を評価するように構成される。第一の集合の近傍グラフは、第一のデータセットから判別される複数の第一の要素間の類似度に基づく第一の集合の近傍グラフである。第二の集合の近傍グラフは、第二のデータセットから判別される複数の第二の要素間の類似度に基づく第二の集合の近傍グラフである。 The evaluation unit evaluates the similarity regarding the data structure between the first data set and the second data set based on a comparison between the neighborhood graph of the first set and the neighborhood graph of the second set. configured to do so. The first set neighborhood graph is a first set neighborhood graph based on the similarity between the plurality of first elements determined from the first data set. The second set neighborhood graph is a second set neighborhood graph based on the similarity between the plurality of second elements determined from the second data set.
 上記近傍グラフは、複数の要素の特徴空間上の分布に関連する。従って、上記比較によれば、第一のデータセットのデータ構造と、第二のデータセットのデータ構造との間の類似性を評価することができる。 The above neighborhood graph is related to the distribution of multiple elements on the feature space. Therefore, according to the above comparison, it is possible to evaluate the similarity between the data structure of the first data set and the data structure of the second data set.
 この評価は、例えば、第一のデータセットと第二のデータセットとの間のデータフュージョンに関する相性の判別に役立つ。評価は、例えばデータフュージョンにおける結合対象のデータセットの選択に役立つ。但し、評価は、データフュージョンの用途に限定されない。 This evaluation is useful, for example, in determining compatibility regarding data fusion between the first data set and the second data set. Evaluation is useful, for example, in selecting datasets to be combined in data fusion. However, the evaluation is not limited to data fusion applications.
 本開示の一側面によれば、評価部は、第一の集合の近傍グラフと、第二の集合の近傍グラフと、の間の比較であって、第一の集合の近傍グラフに対応するグラフラプラシアン行列及び第二の集合の近傍グラフに対応するグラフラプラシアン行列を用いた比較に基づいて、第一のデータセットと第二のデータセットとの間のデータ構造に関する類似性を評価するように構成されてもよい。 According to one aspect of the present disclosure, the evaluation unit compares the neighborhood graph of the first set and the neighborhood graph of the second set, the evaluation unit comprising a graph corresponding to the neighborhood graph of the first set. configured to evaluate similarity in terms of data structure between the first dataset and the second dataset based on comparison using the Laplacian matrix and the graph Laplacian matrix corresponding to the neighborhood graph of the second set; may be done.
 本開示の一側面によれば、第二の取得部は、第二のデータセットとして、複数の評価対象のデータセットを取得してもよい。複数の評価対象のデータセットのそれぞれは、対応する集合における複数の要素に関して、複数の要素のそれぞれの特徴を記述するデータを含むデータセットであり得る。複数の評価対象のデータセットは、互いに異なる集合に関するデータセット、又は、互いに記述される特徴が異なるデータセットであり得る。 According to one aspect of the present disclosure, the second acquisition unit may acquire a plurality of evaluation target datasets as the second dataset. Each of the plurality of evaluation target data sets may be a data set including data describing characteristics of each of the plurality of elements with respect to the plurality of elements in the corresponding set. The plurality of data sets to be evaluated may be data sets relating to different sets, or data sets having different described characteristics.
 評価部は、複数の評価対象のデータセットのそれぞれについて、対応する評価対象のデータセットから判別される対応する集合における複数の要素間の類似度に基づく対応する集合の近傍グラフと、第一の集合の近傍グラフとの間の比較に基づき、対応する評価対象のデータセットと第一のデータセットとの間のデータ構造に関する類似性を評価するように構成されてもよい。 The evaluation unit calculates, for each of the plurality of evaluation target data sets, a neighborhood graph of the corresponding set based on the similarity between the plurality of elements in the corresponding set determined from the corresponding evaluation target data set, and a first The method may be configured to evaluate similarity in data structure between the corresponding dataset to be evaluated and the first dataset based on a comparison between the neighborhood graphs of the set.
 本開示の一側面によれば、情報処理システムは、選択部を備えてもよい。選択部は、複数の評価対象のデータセットのうち、データ構造に関する類似性の評価が最も高いデータセットを、結合対象に選択するように構成され得る。こうした選択によれば、第一のデータセットとの結合に相応しい第二のデータセットを、複数のデータセットの中から選択することができる。 According to one aspect of the present disclosure, the information processing system may include a selection unit. The selection unit may be configured to select, as a combination target, a data set with the highest evaluation of similarity regarding data structure from among the plurality of evaluation target data sets. According to such selection, a second data set suitable for combination with the first data set can be selected from a plurality of data sets.
 本開示の一側面によれば、情報処理システムは更に、結合部を備えてもよい。結合部は、第一のデータセットと、結合対象に選択されたデータセットとを、第一の集合と対応する集合との間において類似する要素の特徴を記述するデータを関連付けるように結合する構成にされ得る。こうした結合によれば、第一のデータセットと第二のデータセットと間の高精度なデータフュージョンを実現可能である。 According to one aspect of the present disclosure, the information processing system may further include a coupling unit. The combination unit is configured to combine the first data set and the data set selected to be combined so as to associate data describing characteristics of similar elements between the first set and the corresponding set. can be made into According to such a combination, highly accurate data fusion between the first data set and the second data set can be realized.
 本開示の一側面によれば、評価部は、第一の類似度算出部と、第二の類似度算出部と、第一の固有値算出部と、第二の固有値算出部とを備えてもよい。 According to one aspect of the present disclosure, the evaluation unit may include a first similarity calculation unit, a second similarity calculation unit, a first eigenvalue calculation unit, and a second eigenvalue calculation unit. good.
 第一の類似度算出部は、第一のデータセットに基づき、複数の第一の要素間の類似度を算出するように構成される。第二の類似度算出部は、第二のデータセットに基づき、複数の第二の要素間の類似度を算出するように構成される。 The first similarity calculation unit is configured to calculate the similarity between the plurality of first elements based on the first data set. The second similarity calculation unit is configured to calculate the similarity between the plurality of second elements based on the second data set.
 第一の固有値算出部は、複数の第一の要素間の類似度に基づき、第一のグラフラプラシアン行列の固有値の一群を、第一の固有値の一群として算出するように構成される。第一のグラフラプラシアン行列は、複数の第一の要素のそれぞれを、類似度の高さが所定条件を満足する第一の集合内の一以上の第一の要素と接続した近傍グラフ、に対応するグラフラプラシアン行列である。 The first eigenvalue calculation unit is configured to calculate a group of eigenvalues of the first graph Laplacian matrix as a group of first eigenvalues based on the similarity between the plurality of first elements. The first graph Laplacian matrix corresponds to a neighborhood graph in which each of the plurality of first elements is connected to one or more first elements in the first set whose similarity level satisfies a predetermined condition. is the graph Laplacian matrix.
 第二の固有値算出部は、複数の第二の要素間の類似度に基づき、第二のグラフラプラシアン行列の固有値の一群を、第二の固有値の一群として算出するように構成される。第二のグラフラプラシアン行列は、複数の第二の要素のそれぞれを、類似度の高さが所定条件を満足する第二の集合内の一以上の第二の要素と接続した近傍グラフ、に対応するグラフラプラシアン行列である。 The second eigenvalue calculation unit is configured to calculate a group of eigenvalues of the second graph Laplacian matrix as a group of second eigenvalues based on the degree of similarity between the plurality of second elements. The second graph Laplacian matrix corresponds to a neighborhood graph in which each of the plurality of second elements is connected to one or more second elements in the second set whose degree of similarity satisfies a predetermined condition. is the graph Laplacian matrix.
 評価部は、第一の固有値の一群と第二の固有値の一群との間の比較に基づき、第一のデータセットと第二のデータセットとの間のデータ構造に関する類似性を評価するように構成され得る。 The evaluation unit is configured to evaluate similarity regarding the data structure between the first data set and the second data set based on a comparison between the first set of eigenvalues and the second set of eigenvalues. can be configured.
 近傍グラフは、複数の要素の特徴空間上の分布に関連する。二つの近傍グラフが類似するとき、対応する二つのグラフラプラシアン行列の固有値の一群も類似する。上記比較によれば、第一の集合に関する近傍グラフと、第二の集合に関する近傍グラフの類似性を評価することができる。 The neighborhood graph is related to the distribution of multiple elements on the feature space. When two neighborhood graphs are similar, the groups of eigenvalues of the two corresponding graph Laplacian matrices are also similar. According to the above comparison, it is possible to evaluate the similarity between the neighborhood graph regarding the first set and the neighborhood graph regarding the second set.
 近傍グラフは、対応するデータセットのデータ構造に対応する。従って、上記比較によれば、第一のデータセットのデータ構造と、第二のデータセットのデータ構造との間の類似性を評価することができる。 The neighborhood graph corresponds to the data structure of the corresponding dataset. Therefore, according to the above comparison, it is possible to evaluate the similarity between the data structure of the first data set and the data structure of the second data set.
 本開示の一側面によれば、評価部は、第一の固有値の一群に含まれる複数の第一の固有値のそれぞれの、第一の固有値の一群における順位、及び、第二の固有値の一群に含まれる複数の第二の固有値のそれぞれの、第二の固有値の一群における順位に基づき、複数の第一の固有値のそれぞれを、複数の第二の固有値のうちの同一順位の固有値と比較することにより、データ構造に関する類似性を評価してもよい。複数の第一の固有値、及び、複数の第二の固有値は、固有値の大きさを基準に順位付けされ得る。こうした評価によれば、データセット間のデータ構造に関する類似性を、一層適切に評価可能である。 According to one aspect of the present disclosure, the evaluation unit ranks each of the plurality of first eigenvalues included in the group of first eigenvalues in the group of first eigenvalues, and the ranking of each of the plurality of first eigenvalues included in the group of second eigenvalues. Comparing each of the plurality of first eigenvalues with an eigenvalue of the same rank among the plurality of second eigenvalues based on the rank of each of the plurality of second eigenvalues included in the group of second eigenvalues. Similarity regarding data structure may be evaluated by The plurality of first eigenvalues and the plurality of second eigenvalues may be ranked based on the size of the eigenvalue. According to such an evaluation, it is possible to more appropriately evaluate the similarity in data structure between data sets.
 本開示の一側面によれば、評価部は、第一の固有値の一群に含まれる固有値の大きい順に第1位から所定順位までの固有値のそれぞれを、複数の第二の固有値のうちの同一順位の固有値と比較することにより、データ構造に関する類似性を評価してもよい。 According to one aspect of the present disclosure, the evaluation unit assigns each of the eigenvalues from the first to a predetermined rank in descending order of the eigenvalues included in the group of first eigenvalues to the same rank among the plurality of second eigenvalues. Similarity regarding data structures may be evaluated by comparing with the eigenvalues of .
 本開示の一側面によれば、評価部は、誤差の二乗和によりデータ構造に関する類似性の評価値を算出するように構成されてもよい。誤差のそれぞれは、複数の第一の固有値のうちの、対応する順位の第一の固有値と、複数の第二の固有値のうちの、対応する順位の第二の固有値との差であり得る。誤差の二乗和を用いることによれば、データセット間のデータ構造に関する類似性を、一層適切に評価可能である。 According to one aspect of the present disclosure, the evaluation unit may be configured to calculate the similarity evaluation value regarding the data structure using the sum of squares of errors. Each of the errors may be a difference between a first eigenvalue of a corresponding rank among the plurality of first eigenvalues and a second eigenvalue of a corresponding rank among the plurality of second eigenvalues. By using the sum of squared errors, it is possible to more appropriately evaluate the similarity in data structure between data sets.
 本開示の一側面によれば、第一のグラフラプラシアン行列は、複数の第一の要素のそれぞれを、第一の集合における類似度が最も高い第一の要素と接続した最近傍グラフのグラフラプラシアン行列であってもよい。第二のグラフラプラシアン行列は、複数の第二の要素のそれぞれを、第二の集合における類似度が最も高い第二の要素と接続した最近傍グラフのグラフラプラシアン行列であってもよい。 According to one aspect of the present disclosure, the first graph Laplacian matrix is a graph Laplacian matrix of a nearest neighbor graph connecting each of the plurality of first elements to a first element having the highest degree of similarity in the first set. It may be a matrix. The second graph Laplacian matrix may be a graph Laplacian matrix of a nearest neighbor graph in which each of the plurality of second elements is connected to the second element having the highest degree of similarity in the second set.
 本開示の一側面によれば、第二の取得部が第二のデータセットとして、複数の評価対象のデータセットを取得するとき、第二の類似度算出部は、複数の評価対象のデータセットのそれぞれについて、対応する集合における複数の要素間の類似度を算出してもよい。第二の固有値算出部は、複数の評価対象のデータセットのそれぞれについて、近傍グラフであって、対応する集合における複数の要素のそれぞれを、類似度の高さが所定条件を満足する対応する集合内の一以上の要素と接続した近傍グラフ、に対応するグラフラプラシアン行列の固有値の一群を、比較対象の固有値の一群として算出してもよい。 According to one aspect of the present disclosure, when the second acquisition unit acquires the plurality of evaluation target data sets as the second data set, the second similarity calculation unit acquires the plurality of evaluation target data sets as the second data set. For each of these, the degree of similarity between multiple elements in the corresponding set may be calculated. The second eigenvalue calculation unit generates a neighborhood graph for each of the plurality of evaluation target data sets, and converts each of the plurality of elements in the corresponding set into a corresponding set whose high degree of similarity satisfies a predetermined condition. A group of eigenvalues of a graph Laplacian matrix corresponding to a neighborhood graph connected to one or more elements in the graph may be calculated as a group of eigenvalues to be compared.
 評価部は、複数の評価対象のデータセットのそれぞれについて、対応する評価対象のデータセットに基づく比較対象の固有値の一群と、第一の固有値の一群との間の比較に基づき、第一のデータセットと、対応する評価対象のデータセットと、の間のデータ構造に関する類似性を評価してもよい。 The evaluation unit evaluates the first data based on a comparison between a group of comparison target eigenvalues based on the corresponding evaluation target dataset and a first group of eigenvalues for each of the plurality of evaluation target datasets. Similarity in data structure between the set and the corresponding dataset to be evaluated may be evaluated.
 本開示の一側面によれば、第一のデータセットは、複数の第一の要素として、第一の集合における複数の人の特徴を記述するデータセットであってもよい。第二のデータセットは、複数の第二の要素として、第二の集合における複数の人の特徴を記述するデータセットであってもよい。 According to one aspect of the present disclosure, the first data set may be a data set that describes characteristics of a plurality of people in the first set as a plurality of first elements. The second data set may be a data set that describes characteristics of a plurality of people in the second set as a plurality of second elements.
 本開示の一側面によれば、上述した情報処理システムにおける少なくとも一部の機能をコンピュータに実現させるためのコンピュータプログラムが提供されてもよい。本開示の一側面によれば、第一の取得部、第二の取得部、及び評価部の少なくとも一部としてコンピュータを機能させるためのコンピュータプログラムが提供されてもよい。 According to one aspect of the present disclosure, a computer program for causing a computer to implement at least some of the functions in the information processing system described above may be provided. According to one aspect of the present disclosure, a computer program for causing a computer to function as at least part of the first acquisition unit, the second acquisition unit, and the evaluation unit may be provided.
 本開示の一側面によれば、情報処理方法が提供されてもよい。情報処理方法は、コンピュータにより実行されてもよい。情報処理方法は、第一の集合における複数の第一の要素に関して、複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得することを含んでいてもよい。 According to one aspect of the present disclosure, an information processing method may be provided. The information processing method may be executed by a computer. The information processing method may include, for the plurality of first elements in the first set, obtaining a first data set including data describing characteristics of each of the plurality of first elements.
 情報処理方法は、第二の集合における複数の第二の要素に関して、複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得することを含んでいてもよい。 The information processing method may include, regarding the plurality of second elements in the second set, obtaining a second dataset including data describing characteristics of each of the plurality of second elements.
 情報処理方法は、第一のデータセットから判別される複数の第一の要素間の類似度に基づく第一の集合の近傍グラフと、第二のデータセットから判別される複数の第二の要素間の類似度に基づく第二の集合の近傍グラフと、の比較に基づいて、第一のデータセットと第二のデータセットとの間のデータ構造に関する類似性を評価することを含んでいてもよい。 The information processing method generates a neighborhood graph of a first set based on the similarity between a plurality of first elements determined from a first data set, and a plurality of second elements determined from a second data set. a neighborhood graph of the second set based on the similarity between the first dataset and the second dataset; good.
 本開示の一側面によれば、別の情報処理方法が提供されてもよい。別の情報処理方法は、コンピュータにより実行されてもよい。別の情報処理方法は、第一の集合における複数の第一の要素に関して、複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得することを含んでいてもよい。 According to one aspect of the present disclosure, another information processing method may be provided. Another information processing method may be performed by a computer. Another information processing method may include, with respect to the plurality of first elements in the first set, obtaining a first data set including data describing characteristics of each of the plurality of first elements. good.
 別の情報処理方法は、第二の集合における複数の第二の要素に関して、複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得することを含んでいてもよい。 Another information processing method may include, with respect to the plurality of second elements in the second set, obtaining a second data set including data describing characteristics of each of the plurality of second elements. good.
 別の情報処理方法は、第一のデータセットに基づき、複数の第一の要素間の類似度を算出することを含んでいてもよい。別の情報処理方法は、第二のデータセットに基づき、複数の第二の要素間の類似度を算出することを含んでいてもよい。 Another information processing method may include calculating the degree of similarity between the plurality of first elements based on the first data set. Another information processing method may include calculating the similarity between the plurality of second elements based on the second data set.
 別の情報処理方法は、複数の第一の要素間の類似度に基づき、第一のグラフラプラシアン行列の固有値の一群を、第一の固有値の一群として算出することを含んでいてもよい。第一のグラフラプラシアン行列は、複数の第一の要素のそれぞれを、類似度の高さが所定条件を満足する第一の集合内の一以上の第一の要素と接続した近傍グラフに対応するグラフラプラシアン行列であり得る。 Another information processing method may include calculating a group of eigenvalues of the first graph Laplacian matrix as a group of first eigenvalues based on the similarity between the plurality of first elements. The first graph Laplacian matrix corresponds to a neighborhood graph in which each of the plurality of first elements is connected to one or more first elements in the first set whose degree of similarity satisfies a predetermined condition. It can be a graph Laplacian matrix.
 別の情報処理方法は、複数の第二の要素間の類似度に基づき、第二のグラフラプラシアン行列の固有値の一群を、第二の固有値の一群として算出することを含んでいてもよい。第二のグラフラプラシアン行列は、複数の第二の要素のそれぞれを、類似度の高さが所定条件を満足する第二の集合内の一以上の第二の要素と接続した近傍グラフに対応するグラフラプラシアン行列であり得る。 Another information processing method may include calculating a group of eigenvalues of the second graph Laplacian matrix as a group of second eigenvalues based on the degree of similarity between the plurality of second elements. The second graph Laplacian matrix corresponds to a neighborhood graph in which each of the plurality of second elements is connected to one or more second elements in the second set whose degree of similarity satisfies a predetermined condition. It can be a graph Laplacian matrix.
 別の情報処理方法は、第一の固有値の一群と第二の固有値の一群との間の比較に基づき、第一のデータセットと第二のデータセットとの間のデータ構造に関する類似性を評価することを含んでいてもよい。 Another information processing method evaluates the similarity in terms of data structure between a first data set and a second data set based on a comparison between a first set of eigenvalues and a second set of eigenvalues. It may include doing.
 上述の情報処理方法によれば、様々な種類のデータセットに関して、第一のデータセットと第二のデータセットとの間のデータ構造に関する類似性を評価可能である。上述の情報処理システム及び情報処理方法は、データフュージョンの用途に限定されない。 According to the above information processing method, it is possible to evaluate the similarity in data structure between the first data set and the second data set with respect to various types of data sets. The information processing system and information processing method described above are not limited to data fusion applications.
 本開示の一側面によれば、上述した情報処理方法を、コンピュータに実行させるための命令を含むコンピュータプログラムが提供されてもよい。コンピュータプログラムは、コンピュータ読取可能な記録媒体に記録されてもよい。 According to one aspect of the present disclosure, a computer program including instructions for causing a computer to execute the above-described information processing method may be provided. The computer program may be recorded on a computer-readable recording medium.
情報処理システムの構成を表すブロック図である。FIG. 1 is a block diagram showing the configuration of an information processing system. データフュージョンによる拡張データセットの生成例を説明する図である。FIG. 3 is a diagram illustrating an example of generation of an extended data set by data fusion. プロセッサが実行する評価処理を表すフローチャート(その1)である。2 is a flowchart (part 1) representing evaluation processing executed by a processor. プロセッサが実行する評価処理を表すフローチャート(その2)である。12 is a flowchart (part 2) representing evaluation processing executed by the processor. プロセッサが実行する拡張処理を表すフローチャート(その1)である。2 is a flowchart (Part 1) showing extended processing executed by a processor. プロセッサが実行する拡張処理を表すフローチャート(その2)である。12 is a flowchart (part 2) illustrating extended processing executed by the processor.
 1…情報処理システム、11…プロセッサ、13…メモリ、15…ストレージ、17…ユーザインタフェース、19…通信インタフェース、Pr…コンピュータプログラム。 1... Information processing system, 11... Processor, 13... Memory, 15... Storage, 17... User interface, 19... Communication interface, Pr... Computer program.
 以下に本開示の例示的実施形態を、図面を参照しながら説明する。 Exemplary embodiments of the present disclosure will be described below with reference to the drawings.
 本実施形態の情報処理システム1は、汎用コンピュータに専用のコンピュータプログラムPrがインストールされることによって構成される。情報処理システム1は、図1に示すように、プロセッサ11と、メモリ13と、ストレージ15と、ユーザインタフェース17と、通信インタフェース19とを備える。 The information processing system 1 of this embodiment is configured by installing a dedicated computer program Pr into a general-purpose computer. As shown in FIG. 1, the information processing system 1 includes a processor 11, a memory 13, a storage 15, a user interface 17, and a communication interface 19.
 プロセッサ11は、ストレージ15に格納されたコンピュータプログラムPrに従う処理を実行するように構成される。メモリ13は、RAMを備える一次記憶装置であり、プロセッサ11による処理の実行時に作業エリアとして使用される。 The processor 11 is configured to execute processing according to a computer program Pr stored in the storage 15. The memory 13 is a primary storage device including a RAM, and is used as a work area when the processor 11 executes processing.
 ストレージ15は、例えばハードディスクドライブ又はソリッドステートドライブを備える二次記憶装置である。ストレージ15は、コンピュータプログラムPrの他、コンピュータプログラムPrに従う処理の実行時に供される各種データを記憶する。 The storage 15 is a secondary storage device including, for example, a hard disk drive or a solid state drive. The storage 15 stores, in addition to the computer program Pr, various types of data used when executing processes according to the computer program Pr.
 ユーザインタフェース17は、情報処理システム1を操作するユーザからの操作信号をプロセッサ11に入力するための入力デバイスを備える。ユーザインタフェース17は更に、ユーザに各種情報を表示するためのディスプレイを備える。入力デバイスの例には、キーボード及びポインティングデバイスが含まれる。 The user interface 17 includes an input device for inputting operation signals from a user operating the information processing system 1 to the processor 11. The user interface 17 further includes a display for displaying various information to the user. Examples of input devices include keyboards and pointing devices.
 通信インタフェース19は、LAN(ローカルエリアネットワーク)インタフェース及びUSB(ユニバーサル・シリアル・シリアル)インタフェースを含み、外部装置との通信に使用される。情報処理システム1は、通信インタフェース19を通じて外部装置との間でデータ送受する。 The communication interface 19 includes a LAN (Local Area Network) interface and a USB (Universal Serial Serial) interface, and is used for communication with external devices. The information processing system 1 transmits and receives data to and from external devices through the communication interface 19.
 プロセッサ11は、コンピュータプログラムPrに従う処理の実行により、拡張データセット15Cを生成する。拡張データセット15Cは、ストレージ15に記憶された第一のデータセット15Aを、ストレージ15に記憶された第二のデータセット15Bを用いて拡張することによって生成される。第一のデータセット15A及び第二のデータセット15Bは、例えば通信インタフェース19を通じて外部装置から予め取得され、ストレージ15に格納される。 The processor 11 generates the extended data set 15C by executing processing according to the computer program Pr. The expanded data set 15C is generated by expanding the first data set 15A stored in the storage 15 using the second data set 15B stored in the storage 15. The first data set 15A and the second data set 15B are obtained in advance from an external device through the communication interface 19, for example, and stored in the storage 15.
 第一のデータセット15Aは、第一の集合に関する第一の特徴を記述するデータセットである。第一のデータセット15Aは、第一のエンティティ毎の特徴データを、第一の特徴データとして備える。第一のエンティティのそれぞれは、第一の集合に含まれる複数の要素のそれぞれに対応する。第一の集合は、第一のエンティティの集合である。第一の集合は、第一の消費者集合であり得る。一例によれば、第一のエンティティは、消費者、すなわち人である。 The first data set 15A is a data set that describes the first feature regarding the first set. The first data set 15A includes feature data for each first entity as first feature data. Each of the first entities corresponds to each of the plurality of elements included in the first set. The first set is a first set of entities. The first set may be a first set of consumers. According to one example, the first entity is a consumer, ie a person.
 第一のエンティティ毎の第一の特徴データは、対応する第一のエンティティの第一の特徴を記述するデータである。例えば、第一のデータセット15Aは、図2に示すように、第一の消費者集合の購買行動に関するデータセットであり得る。この場合、第一の特徴データは、対応する消費者の購買行動の特徴を記述するデータであり得る。第一の特徴データは、例えば、複数の商品に関して、商品毎の購買有無を記述するデータであり得る。 The first feature data for each first entity is data that describes the first feature of the corresponding first entity. For example, the first data set 15A may be a data set regarding the purchasing behavior of a first set of consumers, as shown in FIG. In this case, the first characteristic data may be data describing characteristics of the corresponding consumer's purchasing behavior. The first characteristic data may be, for example, data describing whether or not each product is purchased with respect to a plurality of products.
 第二のデータセット15Bは、第二の集合に関する第二の特徴を記述するデータセットである。第二のデータセット15Bは、第二の特徴データとして、第二のエンティティ毎の特徴データを備える。第二のエンティティのそれぞれは、第二の集合に含まれる複数の要素のそれぞれに対応する。 The second data set 15B is a data set that describes the second feature regarding the second set. The second data set 15B includes feature data for each second entity as second feature data. Each of the second entities corresponds to each of the plurality of elements included in the second set.
 第二の集合は、第二のエンティティの集合である。第二の集合は、第二の消費者集合であり得る。第二の消費者集合は、第一の消費者集合と同じ又は異なる消費者集合であり得る。一例によれば、第二のエンティティは、消費者、すなわち人である。 The second set is a second set of entities. The second set may be a second set of consumers. The second set of consumers can be the same or different set of consumers than the first set of consumers. According to one example, the second entity is a consumer, ie a person.
 第二のエンティティ毎の第二の特徴データは、対応する第二のエンティティの第二の特徴を記述するデータである。第二の特徴データは、第二の特徴として、第一の特徴データが説明する第一の特徴と、同じ又は異なる特徴を記述するデータであり得る。すなわち、第二の集合及び第二の特徴の少なくとも一方は、第一の集合及び第一の特徴とは異なる。 The second feature data for each second entity is data that describes the second feature of the corresponding second entity. The second feature data may be data describing a feature that is the same as or different from the first feature described by the first feature data. That is, at least one of the second set and the second feature is different from the first set and the first feature.
 例えば、第二のデータセット15Bは、図2に示すように、第二の消費者集合のオンライン行動に関するデータセットであり得る。図2に示す例によれば、オンライン行動は、ウェブサイトへの訪問行動であり得る。第二の特徴データは、例えば、複数のウェブサイトに関して、ウェブサイト毎の訪問有無を記述するデータであり得る。 For example, the second data set 15B may be a data set regarding online behavior of a second set of consumers, as shown in FIG. According to the example shown in FIG. 2, the online behavior may be the behavior of visiting a website. The second characteristic data may be, for example, data describing whether or not each website has been visited, regarding a plurality of websites.
 拡張データセット15Cは、第一のデータセット15Aに、第二のデータセット15Bが備える情報を付加したデータセットである。拡張により、第一のエンティティに関する情報量は増大する。情報量の増大は、人の行動分析や広告配信に役立つ。 The extended data set 15C is a data set in which information included in the second data set 15B is added to the first data set 15A. The expansion increases the amount of information about the first entity. An increase in the amount of information will be useful for analyzing human behavior and distributing advertisements.
 本実施形態によれば、プロセッサ11は、ユーザからの指示に従って図3及び図4に示す評価処理を実行するように構成される。評価処理によれば、ユーザが、データフュージョンにより結合しようとする第一のデータセット15Aと第二のデータセット15Bとの間のデータ構造の類似性が評価され、これによりデータフュージョンの精度が事前評価される。データフュージョンの精度は、データフュージョンにより生成される拡張データセット15Cが説明する情報の確度(すなわち正確性)に対応する。 According to this embodiment, the processor 11 is configured to execute the evaluation process shown in FIGS. 3 and 4 according to instructions from the user. According to the evaluation process, the similarity of the data structure between the first data set 15A and the second data set 15B that the user wants to combine by data fusion is evaluated, and thereby the accuracy of data fusion is estimated in advance. be evaluated. The accuracy of data fusion corresponds to the accuracy (ie, accuracy) of the information described by the expanded data set 15C generated by data fusion.
 第一のデータセット15A及び第二のデータセット15Bのデータ構造は、それぞれ、第一のデータセット15A及び第二のデータセット15Bにおけるエンティティ間の類似性をグラフで表現したときの当該グラフの構造に対応する。グラフは、周知のように、ノード(換言すれば点)及びリンク(換言すれば辺)の集合により構成される。 The data structure of the first data set 15A and the second data set 15B is the structure of a graph when the similarity between entities in the first data set 15A and the second data set 15B is expressed in a graph, respectively. corresponds to As is well known, a graph is composed of a set of nodes (in other words, points) and links (in other words, edges).
 評価処理では、第一のデータセット15Aに対応するグラフとして、第一の集合の最近傍グラフが用いられる。第一の集合の最近傍グラフは、特徴空間上において、第一の集合における第一のエンティティのそれぞれのノードを、類似度が最も高い第一のエンティティのノードに接続して構成される。 In the evaluation process, the nearest neighbor graph of the first set is used as the graph corresponding to the first data set 15A. The nearest neighbor graph of the first set is constructed by connecting each node of the first entity in the first set to the node of the first entity having the highest degree of similarity on the feature space.
 同様に、第二のデータセット15Bに対応するグラフとして、第二の集合の最近傍グラフが用いられる。第二の集合の最近傍グラフは、特徴空間上において、第二の集合における第二のエンティティのそれぞれのノードを、類似度が最も高い第二のエンティティのノードに接続して構成される。 Similarly, the nearest neighbor graph of the second set is used as the graph corresponding to the second data set 15B. The nearest neighbor graph of the second set is constructed by connecting each node of the second entity in the second set to the node of the second entity having the highest degree of similarity on the feature space.
 図3に示す評価処理を開始すると、プロセッサ11は、ユーザインタフェース17を通じてユーザから指定された第一のデータセット15Aを、ストレージ15から読み出す。プロセッサ11は、読み出した第一のデータセット15Aに基づき、第一の集合に含まれる複数の第一のエンティティについて、第一のエンティティ毎の特徴ベクトルxを生成する(S110)。 Upon starting the evaluation process shown in FIG. 3, the processor 11 reads the first data set 15A specified by the user through the user interface 17 from the storage 15. Based on the read first data set 15A, the processor 11 generates a feature vector x for each first entity for the plurality of first entities included in the first set (S110).
 具体的には、プロセッサ11は、第一のエンティティ毎に、第一のデータセット15Aが有する対応する第一のエンティティの特徴データに基づいて、対応する第一のエンティティの特徴ベクトルx=(x1,x2,…,xM1)を生成する。M1は、特徴ベクトルxの次元数に対応する。 Specifically, for each first entity, the processor 11 calculates the feature vector x=(x1 , x2, ..., xM1). M1 corresponds to the number of dimensions of the feature vector x.
 第一のデータセット15Aが図2に例示される消費者の購買行動の特徴を表すデータセットである場合、特徴ベクトルxは、商品毎のベクトル要素を備えることができる。各商品のベクトル要素は、対応する消費者の対応する商品の購買有無を表す。 If the first data set 15A is a data set representing the characteristics of the consumer's purchasing behavior as illustrated in FIG. 2, the feature vector x can include vector elements for each product. The vector element of each product represents whether the corresponding consumer has purchased the corresponding product.
 続くS120において、プロセッサ11は、ユーザインタフェース17を通じてユーザから指定された第二のデータセット15Bを、ストレージ15から読み出す。プロセッサ11は、読み出した第二のデータセット15Bに基づき、第二の集合に含まれる複数の第二のエンティティについて、第二のエンティティ毎の特徴ベクトルyを生成する。 In the following S120, the processor 11 reads the second data set 15B specified by the user through the user interface 17 from the storage 15. Based on the read second data set 15B, the processor 11 generates a feature vector y for each second entity for the plurality of second entities included in the second set.
 具体的には、プロセッサ11は、第二のエンティティ毎に、第二のデータセット15Bが有する対応する第二のエンティティの特徴データに基づいて、対応する第二のエンティティの特徴ベクトルy=(y1,y2,…,yM2)を生成する。M2は、特徴ベクトルyの次元数に対応する。 Specifically, for each second entity, the processor 11 calculates the feature vector y=(y1 ,y2,...,yM2). M2 corresponds to the number of dimensions of the feature vector y.
 第二のデータセット15Bが図2に例示される消費者のオンライン行動の特徴を表すデータセットである場合、特徴ベクトルyは、ウェブサイト毎のベクトル要素を備えることができる。各ウェブサイトのベクトル要素は、対応する消費者の対応するウェブサイトへの訪問有無を表す。 If the second data set 15B is a data set representing characteristics of consumers' online behavior as illustrated in FIG. 2, the feature vector y may include vector elements for each website. The vector element for each website represents whether the corresponding consumer has visited the corresponding website.
 続くS130において、プロセッサ11は、第一の集合に含まれる第一のエンティティ間の類似度R1を算出する。プロセッサ11は、第一の集合において採り得る二つの第一のエンティティの組合せの全てに関して、組合せ毎に、組合せを構成する二つの第一のエンティティ間の類似度R1を、特徴ベクトルxを用いて算出する。 In the following S130, the processor 11 calculates the similarity R1 between the first entities included in the first set. For all possible combinations of two first entities in the first set, the processor 11 calculates, for each combination, the similarity R1 between the two first entities constituting the combination using the feature vector x. calculate.
 類似度R1は、例えば、組合せを構成する二つの第一のエンティティの特徴ベクトルxの正規化された内積で算出されるコサイン類似度であり得る。但し、類似度R1は、コサイン類似度に限定されない。 The similarity R1 may be, for example, a cosine similarity calculated by the normalized inner product of the feature vectors x of the two first entities forming the combination. However, the similarity R1 is not limited to cosine similarity.
 続くS140において、プロセッサ11は、第一のエンティティ間の類似度R1に基づき、第一のグラフラプラシアン行列L1を算出する。第一のグラフラプラシアン行列L1は、第一のデータセット15Aの最近傍グラフのグラフラプラシアン行列である。第一のグラフラプラシアン行列L1は、最近傍グラフの次数行列D1及び隣接行列A1を用いて、式L1=D1-A1により算出され得る。 In the following S140, the processor 11 calculates the first graph Laplacian matrix L1 based on the similarity R1 between the first entities. The first graph Laplacian matrix L1 is a graph Laplacian matrix of the nearest neighbor graph of the first data set 15A. The first graph Laplacian matrix L1 can be calculated using the equation L1=D1-A1 using the degree matrix D1 and the adjacency matrix A1 of the nearest neighbor graph.
 第一のデータセット15Aの最近傍グラフは、例えば次の手順を実行して定義され得る。手順1:複数の第一のエンティティのうちの一つを、処理対象のエンティティに選択する。手順2:処理対象のエンティティのノードから、処理対象のエンティティとの間の類似度R1が最も高い一つの第一のエンティティのノードに向けて、リンク(換言すれば有向辺)を張る。第一の集合における複数の第一のエンティティのすべてを、処理対象のエンティティに選択するまで、手順1,2を繰り返す。すなわち、第一のデータセット15Aの最近傍グラフは、手順1,2を、第一の集合における複数の第一のエンティティのすべてについて実行して定義される有向グラフであり得る。 The nearest neighbor graph of the first data set 15A can be defined, for example, by performing the following procedure. Step 1: Select one of the plurality of first entities as the entity to be processed. Step 2: A link (in other words, a directed edge) is created from the node of the entity to be processed to the node of the first entity that has the highest degree of similarity R1 with the entity to be processed. Steps 1 and 2 are repeated until all of the plurality of first entities in the first set are selected as entities to be processed. That is, the nearest neighbor graph of the first data set 15A may be a directed graph defined by performing steps 1 and 2 for all of the plurality of first entities in the first set.
 続くS150において、プロセッサ11は、第一のグラフラプラシアン行列L1の固有値λ1[1],λ1[2],…,λ1[i],…,λ1[N1]を算出する。値N1は、固有値の数である。 In the following S150, the processor 11 calculates the eigenvalues λ1[1], λ1[2], ..., λ1[i], ..., λ1[N1] of the first graph Laplacian matrix L1. The value N1 is the number of unique values.
 固有値λ1[i](i=1,2,…,N1)のインデックスiは、固有値の大きさを基準に順位付けされる、固有値λ1[i]の、固有値λ1[1],λ1[2],…,λ1[i],…,λ1[N1]の一群における順位を表す。すなわち、λ1[1]≧λ1[2]≧…≧λ1[N1]である。 The index i of the eigenvalue λ1[i] (i=1, 2,..., N1) is the eigenvalue λ1[1], λ1[2] of the eigenvalue λ1[i], which is ranked based on the size of the eigenvalue. , ..., λ1[i], ..., λ1[N1] in a group. That is, λ1[1]≧λ1[2]≧…≧λ1[N1].
 続くS160において、プロセッサ11は、固有値λ1[1],λ1[2],…,λ1[i],…,λ1[N1]を、大きい順に加算したときに、全合計の所定割合αを超える固有値λ1[K1]の順位K1を判別する。αは、例えば値0.9であり得る。すなわち、プロセッサ11は、下記条件式を満足する最小の値K1を判別する。 In subsequent S160, the processor 11 determines, when adding the eigenvalues λ1[1], λ1[2], ..., λ1[i], ..., λ1[N1] in descending order, the eigenvalue exceeds a predetermined proportion α of the total sum. Determine the rank K1 of λ1[K1]. α may for example have the value 0.9. That is, the processor 11 determines the minimum value K1 that satisfies the following conditional expression.
 続くS170において、プロセッサ11は、第二の集合に含まれる第二のエンティティ間の類似度R2を算出する。プロセッサ11は、第二の集合において採り得る二つの第二のエンティティの組合せの全てに関して、組合せ毎に、組合せを構成する二つの第二のエンティティの類似度R2を、特徴ベクトルyを用いて算出する。 In the following S170, the processor 11 calculates the similarity R2 between the second entities included in the second set. For every possible combination of two second entities in the second set, the processor 11 calculates, for each combination, the similarity R2 of the two second entities constituting the combination using the feature vector y. do.
 類似度R2は、例えば、組合せを構成する二つの第二のエンティティの特徴ベクトルyの正規化された内積で算出されるコサイン類似度であり得る。但し、類似度R2は、コサイン類似度に限定されない。 The similarity R2 may be, for example, a cosine similarity calculated by the normalized inner product of the feature vectors y of the two second entities forming the combination. However, the similarity R2 is not limited to cosine similarity.
 続くS180において、プロセッサ11は、第二のエンティティ間の類似度R2に基づき、第二のグラフラプラシアン行列L2を算出する。第二のグラフラプラシアン行列L2は、第二のデータセット15Bの最近傍グラフのグラフラプラシアン行列である。 In the following S180, the processor 11 calculates a second graph Laplacian matrix L2 based on the similarity R2 between the second entities. The second graph Laplacian matrix L2 is a graph Laplacian matrix of the nearest neighbor graph of the second data set 15B.
 第二のグラフラプラシアン行列L2は、最近傍グラフの次数行列D2及び隣接行列A2を用いて、式L2=D2-A2により算出され得る。第二のデータセット15Bの最近傍グラフは、例えば次の手順を実行して定義され得る。手順11:複数の第二のエンティティのうちの一つを、処理対象のエンティティに選択する。手順12:選択した処理対象のエンティティのノードから、処理対象のエンティティとの間の類似度R2が最も高い一つの第二のエンティティのノードに向けて、リンク(換言すれば有向辺)を張る。第二の集合における複数の第二のエンティティのすべてを、処理対象のエンティティに選択するまで、手順11,12を繰り返す。すなわち、第二のデータセット15Bの最近傍グラフは、手順11,12を、第二の集合における複数の第二のエンティティのすべてについて実行して定義される有向グラフであり得る。 The second graph Laplacian matrix L2 can be calculated by the formula L2=D2-A2 using the degree matrix D2 of the nearest neighbor graph and the adjacency matrix A2. The nearest neighbor graph of the second data set 15B may be defined, for example, by performing the following procedure. Step 11: Select one of the plurality of second entities as the entity to be processed. Step 12: Create a link (in other words, a directed edge) from the node of the selected entity to be processed to the node of the second entity that has the highest similarity R2 with the entity to be processed. . Steps 11 and 12 are repeated until all of the plurality of second entities in the second set are selected as entities to be processed. That is, the nearest neighbor graph of the second data set 15B may be a directed graph defined by performing steps 11 and 12 for all of the plurality of second entities in the second set.
 続くS190において、プロセッサ11は、第二のグラフラプラシアン行列L2の固有値λ2[1],λ2[2],…,λ2[i],…,λ2[N2]を算出する。値N2は、固有値の数である。 In the following S190, the processor 11 calculates the eigenvalues λ2[1], λ2[2], ..., λ2[i], ..., λ2[N2] of the second graph Laplacian matrix L2. The value N2 is the number of unique values.
 固有値λ2[i](i=1,2,…,N2)のインデックスiは、固有値の大きさを基準に順位付けされる、固有値λ2[i]の、固有値λ2[1],λ2[2],…,λ2[i],…,λ2[N2]の一群における順位を表す。すなわち、λ2[1]≧λ2[2]≧…≧λ2[N2]である。 The index i of the eigenvalue λ2[i] (i=1, 2,..., N2) is the eigenvalue λ2[1], λ2[2] of the eigenvalue λ2[i], which is ranked based on the size of the eigenvalue. , ..., λ2[i], ..., λ2[N2] in a group. That is, λ2[1]≧λ2[2]≧...≧λ2[N2].
 続くS200において、プロセッサ11は、固有値λ2[1],λ2[2],…,λ2[i],…,λ2[N2]を、大きい順に加算したときに、全合計の所定割合αを超える固有値λ2[K2]の順位K2を判別する。すなわち、プロセッサ11は、下記条件式を満足する最小の値K2を判別する。αは、例えば値0.9であり得る。 In subsequent S200, the processor 11 determines, when adding the eigenvalues λ2[1], λ2[2], ..., λ2[i], ..., λ2[N2] in descending order, the eigenvalue exceeds a predetermined percentage α of the total sum. Determine the rank K2 of λ2[K2]. That is, the processor 11 determines the minimum value K2 that satisfies the following conditional expression. α may for example have the value 0.9.
 続くS210において、プロセッサ11は、値K1,K2のうち小さい方の値min{K1,K2}を、値Kに設定する。 In the following S210, the processor 11 sets the smaller value min{K1, K2} of the values K1 and K2 to the value K.
 続くS220において、プロセッサ11は、第一のデータセット15Aと第二のデータセット15Bとの間のデータ構造の類似性に関する評価値Eとして、次式に従い固有値の誤差の二乗和を算出する。 In the following S220, the processor 11 calculates the sum of squared errors of the eigenvalues according to the following equation as the evaluation value E regarding the similarity of data structures between the first data set 15A and the second data set 15B.
 誤差のそれぞれは、第一のグラフラプラシアン行列L1の固有値λ1[1],λ1[2],…,λ1[i],…,λ1[K]のうちの、対応する順位の固有値λ1[i]と、第二のグラフラプラシアン行列L2の固有値λ2[1],λ2[2],…,λ2[i],…,λ2[K]のうちの、対応する順位の固有値λ2[i]との差(λ1[i]-λ2[i])であり得る。 Each error is the eigenvalue λ1[i] of the corresponding rank among the eigenvalues λ1[1], λ1[2], ..., λ1[i], ..., λ1[K] of the first graph Laplacian matrix L1. and the eigenvalue λ2[i] of the corresponding rank among the eigenvalues λ2[1], λ2[2], ..., λ2[i], ..., λ2[K] of the second graph Laplacian matrix L2 (λ1[i]−λ2[i]).
 誤差の二乗和を算出することは、第一のグラフラプラシアン行列L1の固有値の一群λ1[1],λ1[2],…,λ1[i],…,λ1[N1]に含まれる第1位から所定順位までの固有値λ1[1],λ1[2],…,λ1[i],…,λ1[K]のそれぞれを、第二のグラフラプラシアン行列L2の固有値λ2[1],λ2[2],…,λ2[i],…,λ2[K]のうちの同一順位の固有値と比較することを含む。 Calculating the sum of squares of errors involves calculating the first rank included in a group of eigenvalues λ1[1], λ1[2], ..., λ1[i], ..., λ1[N1] of the first graph Laplacian matrix L1. The eigenvalues λ1[1], λ1[2], ..., λ1[i], ..., λ1[K] up to a predetermined rank are respectively converted into the eigenvalues λ2[1], λ2[2] of the second graph Laplacian matrix L2. ], ..., λ2[i], ..., λ2[K] of the same rank.
 続くS230において、プロセッサ11は、S220で算出した評価値Eを、ユーザインタフェース17のディスプレイを通じて、ユーザに表示する。その後、評価処理を終了する。 In the following S230, the processor 11 displays the evaluation value E calculated in S220 to the user through the display of the user interface 17. After that, the evaluation process ends.
 この評価処理によれば、ユーザは、表示された評価値Eに基づき、第一のデータセット15Aと第二のデータセット15Bとの間のデータフュージョンの精度を、事前に予測することができる。 According to this evaluation process, the user can predict in advance the accuracy of data fusion between the first data set 15A and the second data set 15B based on the displayed evaluation value E.
 具体的には、ユーザは、表示される評価値Eの値が小さいほど、第一のデータセット15Aと第二のデータセット15Bとの間のデータ構造の類似性が高いと判別することができる。ユーザは、表示される評価値Eの値が小さいほど、第一のデータセット15Aと第二のデータセット15Bとの間において、高精度なデータフュージョンを実現可能であると判別することができる。それにより、ユーザは、情報確度の高い拡張データセット15Cを得ることができると判別することができる。 Specifically, the user can determine that the smaller the displayed evaluation value E, the higher the similarity in data structure between the first data set 15A and the second data set 15B. . The user can determine that the smaller the displayed evaluation value E, the more highly accurate data fusion can be achieved between the first data set 15A and the second data set 15B. Thereby, the user can determine that it is possible to obtain the expanded data set 15C with high information accuracy.
 続いて、ユーザインタフェース17を通じてユーザから拡張処理の実行指示が入力されると、プロセッサ11が実行する拡張処理の詳細を、図5及び図6を用いて説明する。実行指示と併せて、ユーザからは、第一のデータセット15Aに対する結合対象の第二のデータセット15Bの候補として、複数のデータセットがユーザインタフェース17を通じて指定される。複数のデータセットは、互いに異なる集合に関するデータセット、又は、互いに記述される特徴が異なるデータセットであり得る。 Next, details of the expansion process executed by the processor 11 when the user inputs an instruction to execute the expansion process through the user interface 17 will be explained using FIGS. 5 and 6. Along with the execution instruction, the user specifies a plurality of data sets through the user interface 17 as candidates for the second data set 15B to be combined with the first data set 15A. The plurality of data sets may be data sets relating to different sets, or data sets having different described characteristics.
 拡張処理では、これらの複数のデータセットのうち、上述した評価処理と同様の手法で算出した評価値Eが最小のデータセットが、結合対象の第二のデータセット15Bとして選択される。第一のデータセット15Aには、選択された第二のデータセット15Bが、データフュージョンにより結合される。 In the expansion process, among these multiple data sets, the data set with the smallest evaluation value E calculated using the same method as the evaluation process described above is selected as the second data set 15B to be combined. The selected second data set 15B is combined with the first data set 15A by data fusion.
 拡張処理を開始すると、プロセッサ11は、S110での処理と同様に、ユーザインタフェース17を通じてユーザから指定された第一のデータセット15Aを、ストレージ15から読み出す。プロセッサ11は、読み出した第一のデータセット15Aに基づき、第一のエンティティ毎の特徴ベクトルxを生成する(S310)。更に、プロセッサ11は、結合対象の第二のデータセット15Bの候補として指定された複数のデータセットをストレージ15から読み出すことにより取得する(S320)。 When the expansion process starts, the processor 11 reads the first data set 15A designated by the user through the user interface 17 from the storage 15, similar to the process at S110. The processor 11 generates a feature vector x for each first entity based on the read first data set 15A (S310). Furthermore, the processor 11 acquires a plurality of data sets designated as candidates for the second data set 15B to be combined by reading them from the storage 15 (S320).
 その後、プロセッサ11は、S130~S160での処理と同様に、S330~S360の処理を実行する。すなわち、S330において、プロセッサ11は、第一のエンティティ間の類似度R1を算出する。 After that, the processor 11 executes the processes of S330 to S360, similar to the processes of S130 to S160. That is, in S330, the processor 11 calculates the similarity R1 between the first entities.
 S340において、プロセッサ11は、第一のエンティティ間の類似度R1に基づき、第一のグラフラプラシアン行列L1を算出する。続くS350において、プロセッサ11は、第一のグラフラプラシアン行列L1の固有値λ1[1],λ1[2],…,λ1[i],…,λ1[N1]を算出する。値N1は、固有値の数である。固有値λ1[1],λ1[2],…,λ1[i],…,λ1[N1]は、条件式λ1[1]≧λ1[2]≧…≧λ1[N1]を満足する。 In S340, the processor 11 calculates the first graph Laplacian matrix L1 based on the similarity R1 between the first entities. In subsequent S350, the processor 11 calculates the eigenvalues λ1[1], λ1[2], ..., λ1[i], ..., λ1[N1] of the first graph Laplacian matrix L1. The value N1 is the number of unique values. The eigenvalues λ1[1], λ1[2],..., λ1[i],..., λ1[N1] satisfy the conditional expression λ1[1]≧λ1[2]≧...≧λ1[N1].
 続くS360において、プロセッサ11は、固有値λ1[1],λ1[2],…,λ1[i],…,λ1[N1]を、大きい順に加算したときに、全合計の所定割合αを超える固有値λ1[K1]の順位K1を判別する。αは、例えば値0.9であり得る。 In subsequent S360, the processor 11 determines, when adding the eigenvalues λ1[1], λ1[2], ..., λ1[i], ..., λ1[N1] in descending order, the eigenvalue exceeds a predetermined proportion α of the total sum. Determine the rank K1 of λ1[K1]. α may for example have the value 0.9.
 続くS370において、プロセッサ11は、上記候補の複数のデータセットの中から、評価対象のデータセットを一つ選択する。続くS380において、プロセッサ11は、評価対象のデータセットに基づき、エンティティ毎に、対応するエンティティの特徴ベクトルyを生成する。 In the following S370, the processor 11 selects one dataset to be evaluated from among the plurality of candidate datasets. In subsequent S380, the processor 11 generates a feature vector y of the corresponding entity for each entity based on the dataset to be evaluated.
 ここでいうエンティティは、評価対象のデータセットが取り扱う情報の標本集合における要素である。標本集合は、消費者集合に対応し得る。エンティティは、消費者集合に含まれる複数の消費者のそれぞれであり得る。 The entity here is an element in the sample set of information handled by the dataset to be evaluated. A sample set may correspond to a consumer set. An entity may be each of a plurality of consumers included in a consumer set.
 評価対象のデータセットは、エンティティ毎に、対応するエンティティの特徴を記述する特徴データを備える。S380におけるエンティティ毎の特徴ベクトルyの生成は、第二のデータセット15Bに関するS120での処理と同様に行われる。 The dataset to be evaluated includes, for each entity, feature data that describes the characteristics of the corresponding entity. Generation of the feature vector y for each entity in S380 is performed in the same way as the process in S120 regarding the second data set 15B.
 続くS390において、プロセッサ11は、S170での処理と同様に、評価対象のデータセットが取り扱う標本集合に含まれるエンティティ間の類似度R3を、特徴ベクトルyに基づいて算出する。 In subsequent S390, the processor 11 calculates the similarity R3 between entities included in the sample set handled by the evaluation target dataset based on the feature vector y, similar to the process in S170.
 プロセッサ11は、標本集合において採り得る二つのエンティティの組合せの全てに関して、組合せ毎に、組合せを構成する二つのエンティティの類似度R3を、特徴ベクトルyを用いて算出する。類似度R3は、コサイン類似度であり得る。 For all possible combinations of two entities in the sample set, the processor 11 calculates, for each combination, the similarity R3 between the two entities that make up the combination using the feature vector y. Similarity R3 may be a cosine similarity.
 続く400において、プロセッサ11は、S180での処理と同様に、エンティティ間の類似度R3に基づき、グラフラプラシアン行列L3を算出する。 In the following step 400, the processor 11 calculates a graph Laplacian matrix L3 based on the similarity R3 between entities, similar to the process in S180.
 グラフラプラシアン行列L3は、評価対象のデータセットの最近傍グラフのグラフラプラシアン行列である。評価対象のデータセットの最近傍グラフは、例えば次の手順を実行して定義され得る。手順21:標本集合における複数のエンティティのうちの一つを、処理対象のエンティティに選択する。手順22:選択した処理対象のエンティティのノードから、処理対象のエンティティとの間の類似度R3が最も高い一つのエンティティのノードに向けて、リンク(換言すれば有向辺)を張る。標本集合における複数のエンティティのすべてを、処理対象のエンティティに選択するまで、手順21,22を繰り返す。すなわち、評価対象のデータセットの最近傍グラフは、手順21,22を、標本集合における複数のエンティティのすべてについて実行して定義される有向グラフであり得る。 The graph Laplacian matrix L3 is a graph Laplacian matrix of the nearest neighbor graph of the dataset to be evaluated. The nearest neighbor graph of the dataset to be evaluated may be defined, for example, by performing the following steps. Step 21: Select one of the multiple entities in the sample set as the entity to be processed. Step 22: A link (in other words, a directed edge) is created from the node of the selected entity to be processed to the node of one entity that has the highest similarity R3 with the entity to be processed. Steps 21 and 22 are repeated until all of the multiple entities in the sample set are selected as entities to be processed. That is, the nearest neighbor graph of the dataset to be evaluated may be a directed graph defined by performing steps 21 and 22 for all of the plurality of entities in the sample set.
 続くS410において、プロセッサ11は、S190での処理と同様に、グラフラプラシアン行列L3の固有値λ3[1],λ3[2],…,λ3[i],…,λ3[N3]を算出する。値N3は、固有値の数であり、固有値λ3[1],λ3[2],…,λ3[i],…,λ3[N3]は、条件式λ3[1]≧λ3[2]≧…≧λ3[N3]を満足する。 In the following S410, the processor 11 calculates the eigenvalues λ3[1], λ3[2], ..., λ3[i], ..., λ3[N3] of the graph Laplacian matrix L3, similarly to the process in S190. The value N3 is the number of eigenvalues, and the eigenvalues λ3[1], λ3[2], ..., λ3[i], ..., λ3[N3] satisfy the conditional expression λ3[1]≧λ3[2]≧...≧ λ3[N3] is satisfied.
 続くS420において、プロセッサ11は、S200での処理と同様に、固有値λ3[1],λ3[2],…,λ3[i],…,λ3[N3]を、大きい順に加算したときに、全合計の所定割合αを超える固有値λ3[K3]の順位K3を判別する。αは、例えば値0.9であり得る。 In subsequent S420, similarly to the process in S200, the processor 11 determines that when the eigenvalues λ3[1], λ3[2], ..., λ3[i], ..., λ3[N3] are added in descending order, the total The rank K3 of the eigenvalue λ3 [K3] exceeding a predetermined percentage α of the total is determined. α may for example have the value 0.9.
 続くS430において、プロセッサ11は、プロセッサ11は、値K1,K3のうち小さい方の値min{K1,K3}を、値Kに設定する。 In the following S430, the processor 11 sets the smaller value min{K1, K3} of the values K1 and K3 to the value K.
 続くS440において、プロセッサ11は、第一のデータセット15Aと評価対象のデータセットとの間のデータ構造の類似性に関する評価値Eとして、次式に従い固有値の誤差の二乗和を算出する。 In the following S440, the processor 11 calculates the sum of squares of the errors of the eigenvalues according to the following equation as the evaluation value E regarding the similarity of the data structure between the first data set 15A and the data set to be evaluated.
 続くS450において、プロセッサ11は、候補として指定された複数のデータセットのすべてについて、S370~S440の処理を実行したかを判断する。実行していないと判断すると(S450でNo)、プロセッサ11は、候補の中から、評価対象として未選択のデータセットを、評価対象のデータセットとして新たに一つ選択する(S370)。プロセッサ11は、新たに選択した評価対象のデータセットに関して、S380~S440の処理を実行する。 In the following S450, the processor 11 determines whether the processes of S370 to S440 have been executed for all of the plurality of data sets designated as candidates. If it is determined that it has not been executed (No in S450), the processor 11 selects one new data set that has not been selected as an evaluation target from among the candidates as a data set to be evaluated (S370). The processor 11 executes the processes of S380 to S440 regarding the newly selected data set to be evaluated.
 このようにしてプロセッサ11は、候補として指定された複数のデータセットのすべてについてS370~S440の処理を実行するまで、S450で否定判断して、S370~S440の処理を繰返し実行する。これにより、候補として指定された複数のデータセットに関して、データセット毎に評価値Eを算出する。 In this way, the processor 11 makes a negative determination in S450 and repeatedly executes the processes of S370 to S440 until the processes of S370 to S440 are executed for all of the plurality of data sets designated as candidates. As a result, an evaluation value E is calculated for each data set with respect to a plurality of data sets designated as candidates.
 複数のデータセットのすべてについてS370~S440の処理を実行したと判断すると(S450でYes)、プロセッサ11は、S460の処理を実行する。すなわち、プロセッサ11は、候補として指定された複数のデータセットのうち、評価値Eが最小のデータセットを、第一のデータセット15Aとのデータ構造の類似性が最も高いデータセットとして判別する(S460)。 When determining that the processes of S370 to S440 have been executed for all of the plurality of data sets (Yes in S450), the processor 11 executes the process of S460. That is, the processor 11 determines the data set with the smallest evaluation value E among the plurality of data sets designated as candidates as the data set with the highest similarity in data structure to the first data set 15A ( S460).
 そして、プロセッサ11は、候補として指定された複数のデータセットのうち、評価値Eが最小のデータセットを、第一のデータセット15Aに対する結合対象の第二のデータセット15Bとして選択する(S460)。 Then, the processor 11 selects the dataset with the smallest evaluation value E from among the plurality of datasets designated as candidates as the second dataset 15B to be combined with the first dataset 15A (S460). .
 その後、プロセッサ11は、データフュージョン技術を用いて、第一のデータセット15Aに、第二のデータセット15Bを結合することにより、第一のデータセット15Aを、選択した第二のデータセット15Bを用いて拡張した拡張データセット15Cを生成する(S470)。 Thereafter, the processor 11 combines the first data set 15A with the second data set 15B using data fusion technology, thereby converting the first data set 15A into the selected second data set 15B. An expanded data set 15C is generated (S470).
 第一のデータセット15Aと第二のデータセット15Bとの間の結合は、関係する第一のエンティティの特徴データと第二のエンティティの特徴データとを結合することにより行われる。二つの特徴データの結合は、二つの特徴データを関連付けることに対応する。 The combination between the first data set 15A and the second data set 15B is performed by combining the feature data of the related first entity and the feature data of the second entity. Combining two pieces of feature data corresponds to associating the two pieces of feature data.
 第一例によれば、特徴が類似する第一のエンティティの特徴データと第二のエンティティの特徴データとが結合される。第二例によれば、特徴空間上での第一の集合における各第一のエンティティの相対位置と、第二の集合における各第二のエンティティの相対位置とに基づいて、相対位置が類似する第一のエンティティの特徴データと第二のエンティティの特徴データとが結合される。 According to the first example, feature data of a first entity and feature data of a second entity that have similar features are combined. According to the second example, the relative positions are similar based on the relative position of each first entity in the first set and the relative position of each second entity in the second set on the feature space. Feature data of the first entity and feature data of the second entity are combined.
 その後、プロセッサ11は、生成した拡張データセット15Cを出力する(S480)。具体的には、プロセッサ11は、拡張データセット15Cをストレージ15に書き込む。ストレージ15に書き込まれた拡張データセット15Cは、例えば消費者行動を分析するために役立てられる。 After that, the processor 11 outputs the generated extended data set 15C (S480). Specifically, the processor 11 writes the extended data set 15C to the storage 15. The extended data set 15C written to the storage 15 is useful for analyzing consumer behavior, for example.
 ここでデータフュージョン技術について追加説明する。出願人は、既にいくつかのデータフュージョン技術を、先行する特許出願により開示している。第一のデータセット15A及び第二のデータセット15Bに、デモグラフィック属性等の第一のエンティティと第二のエンティティとの間で共通する変数が含まれる場合を考える。この場合、プロセッサ11は、共通変数により判別される特徴が類似する第一のエンティティの特徴データと、第二のエンティティの特徴データとを、結合するように、第一のデータセット15Aと第二のデータセット15Bとを結合することができる。 Here, we will provide additional explanation about data fusion technology. Applicants have already disclosed several data fusion techniques through prior patent applications. Consider a case where the first data set 15A and the second data set 15B include variables that are common between the first entity and the second entity, such as demographic attributes. In this case, the processor 11 combines the first data set 15A and the second data set so as to combine the feature data of the first entity and the feature data of the second entity, which have similar features determined by the common variable. data set 15B can be combined.
 別例として、第一のデータセット15Aと第二のデータセット15Bとの間に共通変数が含まれない場合を考える。この場合、プロセッサ11は、特徴空間上での第一の集合における第一のエンティティの相対位置と、特徴空間上での第二の集合における第二のエンティティの相対位置と、が類似する第一のエンティティと第二のエンティティとの組合せを判別して、相対位置が類似する第一のエンティティの特徴データと第二のエンティティの特徴データとを結合するように、第一のデータセット15Aに第二のデータセット15Bを結合することができる。 As another example, consider a case where no common variable is included between the first data set 15A and the second data set 15B. In this case, the processor 11 selects a first entity in which the relative position of the first entity in the first set on the feature space is similar to the relative position of the second entity in the second set on the feature space. and the second entity, and combine the feature data of the first entity and the feature data of the second entity having similar relative positions. The two data sets 15B can be combined.
 以上に説明した本実施形態の情報処理システム1によれば、データセット間のデータ構造の類似性を、最近傍グラフに基づくグラフラプラシアン行列の固有値に基づいて評価する。 According to the information processing system 1 of this embodiment described above, the similarity of data structures between datasets is evaluated based on the eigenvalues of the graph Laplacian matrix based on the nearest neighbor graph.
 最近傍グラフは、対応するデータセットのデータ構造に対応する。最近傍グラフは、集合を構成する複数の要素の特徴空間上の分布に関連する。二つの近傍グラフが類似するとき、対応する二つのグラフラプラシアン行列の固有値の一群も類似する。 The nearest neighbor graph corresponds to the data structure of the corresponding dataset. The nearest neighbor graph relates to the distribution on the feature space of multiple elements that make up the set. When two neighborhood graphs are similar, the groups of eigenvalues of the two corresponding graph Laplacian matrices are also similar.
 従って、固有値の比較によれば、第一の集合に関する最近傍グラフと、第二の集合に関する最近傍グラフとの間の類似性を評価することができる。結果として、第一のデータセット15Aのデータ構造と、第二のデータセット15Bのデータ構造との間の類似性を評価することができる。 Therefore, by comparing the eigenvalues, it is possible to evaluate the similarity between the nearest neighbor graph regarding the first set and the nearest neighbor graph regarding the second set. As a result, it is possible to evaluate the similarity between the data structure of the first data set 15A and the data structure of the second data set 15B.
 この評価は、データフュージョンにおける結合対象のデータセットの選択に役立つ。第一のデータセット15Aを、データ構造の類似性が高い第二のデータセット15Bと、データフュージョン技術により結合することによれば、拡張された情報に関する確度の高い拡張データセット15Cを生成することができる。 This evaluation is useful for selecting datasets to be combined in data fusion. By combining the first data set 15A with the second data set 15B, which has a highly similar data structure, by data fusion technology, an expanded data set 15C with high accuracy regarding the expanded information is generated. Can be done.
 すなわち、データ構造が大きく異なる二つのデータセットを結合するよりも、互いのデータ構造が近い二つのデータセットを結合したほうが、データセット全体において、エンティティ間の特徴データの結合を良好に行うことができる。 In other words, it is better to combine two datasets with similar data structures than to combine two datasets with very different data structures to better combine feature data between entities in the entire dataset. can.
 特に本実施形態では、次の考えの下で、値K1,K2,K3が算出され、値Kが判別されている。考え1:大きい固有値ほど、データ構造の評価に重要である。考え2:固有値の和の固有値の総和に占める割合が大きいほど、和に対応する固有値の各値は、総和に対応する固有値の全体を代表している。 In particular, in this embodiment, the values K1, K2, and K3 are calculated and the value K is determined based on the following idea. Idea 1: The larger the eigenvalue, the more important it is for evaluating the data structure. Idea 2: The larger the ratio of the sum of eigenvalues to the total eigenvalue, the more each value of the eigenvalues corresponding to the sum represents the entire eigenvalue corresponding to the sum.
 本実施形態では更に、K個の誤差の二乗和により、評価値Eが算出されている。すなわち、本実施形態の評価値Eの算出方法によれば、比較対象のデータセット間の固有値の数が異なる場合でも、固有値を比較して、データ構造の類似性に関する評価値Eを適切に算出することができる。従って、本実施形態によれば、データ構造の類似性に関する良好な評価、及び、この評価に基づく良好なデータフュージョンを実現可能である。 In this embodiment, the evaluation value E is further calculated by the sum of squares of K errors. That is, according to the method for calculating the evaluation value E of this embodiment, even if the number of eigenvalues differs between datasets to be compared, the eigenvalues can be compared and the evaluation value E regarding the similarity of data structures can be appropriately calculated. can do. Therefore, according to this embodiment, it is possible to achieve good evaluation regarding the similarity of data structures and good data fusion based on this evaluation.
 [その他の実施形態]
 本開示は、上記実施形態に限定されるものではなく、種々の態様を採ることができる。例えば、グラフラプラシアン行列は、k近傍グラフのグラフラプラシアン行列であってもよい。例えば、第一のグラフラプラシアン行列L1は、第一の集合における第一のエンティティのそれぞれのノードを、類似度R1が高い順に第一の集合内の一以上のk個の第一のエンティティのノードと接続したk近傍グラフ、に対応するグラフラプラシアン行列であってもよい。
[Other embodiments]
The present disclosure is not limited to the above embodiments, and can take various forms. For example, the graph Laplacian matrix may be a graph Laplacian matrix of a k-nearest neighbor graph. For example, the first graph Laplacian matrix L1 assigns each node of the first entity in the first set to one or more k first entity nodes in the first set in descending order of similarity R1. It may be a graph Laplacian matrix corresponding to a k-nearest neighbor graph connected to .
 第二のグラフラプラシアン行列L2は、第二の集合における第二のエンティティのそれぞれのノードを、類似度R2が高い順に第二の集合内の一以上のk個の第二のエンティティのノードと接続したk近傍グラフ、に対応するグラフラプラシアン行列であってもよい。k近傍グラフは、有向グラフであってもよいし、無向グラフであってもよい。同様に、グラフラプラシアン行列L3は、k近傍グラフであり得る。 The second graph Laplacian matrix L2 connects each node of the second entity in the second set with one or more nodes of k second entities in the second set in descending order of similarity R2. It may be a graph Laplacian matrix corresponding to the k-nearest neighbor graph. The k-nearest neighbor graph may be a directed graph or an undirected graph. Similarly, the graph Laplacian matrix L3 may be a k-nearest neighborhood graph.
 上記実施形態では、近傍グラフの比較が、グラフラプラシアン行列の固有値の比較を通じて行われた。しかしながら、近傍グラフの比較は、この例に限定されない。近傍グラフの構造を、任意の手法で数値表現し、二つの近似グラフに対応する数値の比較により、近傍グラフの構造が比較されてもよい。そのような近傍グラフの構造の比較により、対応する二つのデータセットのデータ構造の類似性が評価されてもよい。ここでいう数値には、ベクトルが含まれ得る。 In the above embodiment, comparison of neighborhood graphs is performed through comparison of eigenvalues of graph Laplacian matrices. However, comparison of neighborhood graphs is not limited to this example. The structures of the neighborhood graphs may be expressed numerically using any method, and the structures of the neighborhood graphs may be compared by comparing the numerical values corresponding to the two approximate graphs. By comparing the structures of such neighborhood graphs, the similarity of the data structures of two corresponding data sets may be evaluated. The numerical value here may include a vector.
 上記実施形態における1つの構成要素が有する機能は、複数の構成要素に分散して設けられてもよい。複数の構成要素が有する機能は、1つの構成要素に統合されてもよい。上記実施形態の構成の一部は、省略されてもよい。上記実施形態の構成の少なくとも一部は、他の上記実施形態の構成に対して付加又は置換されてもよい。請求の範囲に記載の文言から特定される技術思想に含まれるあらゆる態様が本開示の実施形態である。  The function of one component in the above embodiment may be distributed and provided to multiple components. Functions possessed by multiple components may be integrated into one component. A part of the configuration of the above embodiment may be omitted. At least a part of the configuration of the embodiment described above may be added to or replaced with the configuration of other embodiments described above. All aspects included in the technical idea specified from the words in the claims are embodiments of the present disclosure.​

Claims (18)

  1.  第一の集合における複数の第一の要素に関して、前記複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得するように構成される第一の取得部と、
     第二の集合における複数の第二の要素に関して、前記複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得するように構成される第二の取得部と、
     前記第一のデータセットから判別される前記複数の第一の要素間の類似度に基づく前記第一の集合の近傍グラフと、前記第二のデータセットから判別される前記複数の第二の要素間の類似度に基づく前記第二の集合の近傍グラフと、の比較に基づいて、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価するように構成される評価部と、
     を備える情報処理システム。
    a first acquisition unit configured to acquire, with respect to a plurality of first elements in a first set, a first data set comprising data describing characteristics of each of the plurality of first elements;
    a second acquisition unit configured to acquire, with respect to a plurality of second elements in a second set, a second data set comprising data describing characteristics of each of the plurality of second elements;
    a neighborhood graph of the first set based on the similarity between the plurality of first elements determined from the first data set; and the plurality of second elements determined from the second data set. and a neighborhood graph of the second set based on the similarity between the first dataset and the second dataset. an evaluation department to be
    An information processing system equipped with.
  2.  前記評価部は、前記第一の集合の近傍グラフと、前記第二の集合の近傍グラフと、の間の比較であって、前記第一の集合の近傍グラフに対応するグラフラプラシアン行列及び前記第二の集合の近傍グラフに対応するグラフラプラシアン行列を用いた比較に基づいて、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価するように構成される
     請求項1記載の情報処理システム。
    The evaluation unit compares the neighborhood graph of the first set and the neighborhood graph of the second set, and compares the neighborhood graph of the first set and the graph Laplacian matrix corresponding to the neighborhood graph of the first set. configured to evaluate similarity in terms of data structure between the first data set and the second data set based on a comparison using graph Laplacian matrices corresponding to neighborhood graphs of two sets; The information processing system according to claim 1.
  3.  前記第二の取得部は、前記第二のデータセットとして、複数の評価対象のデータセットを取得し、
     前記複数の評価対象のデータセットのそれぞれは、対応する集合における複数の要素に関して、前記複数の要素のそれぞれの特徴を記述するデータを含むデータセットであり、
     前記複数の評価対象のデータセットは、互いに異なる集合に関するデータセット、又は、互いに記述される特徴が異なるデータセットであり、
     前記評価部は、前記複数の評価対象のデータセットのそれぞれについて、対応する評価対象のデータセットから判別される前記対応する集合における前記複数の要素間の類似度に基づく前記対応する集合の近傍グラフと、前記第一の集合の近傍グラフとの間の比較に基づき、前記対応する評価対象のデータセットと前記第一のデータセットとの間の前記データ構造に関する類似性を評価し、
     前記情報処理システムは、更に、
     前記複数の評価対象のデータセットのうち、前記データ構造に関する類似性の評価が最も高いデータセットを、結合対象に選択するように構成される選択部と、
     前記第一のデータセットと、前記結合対象に選択されたデータセットとを、前記第一の集合と前記対応する集合との間において類似する要素の特徴を記述するデータを関連付けるように結合する構成にされる結合部と、
     を備える請求項1記載の情報処理システム。
    The second acquisition unit acquires a plurality of evaluation target datasets as the second dataset,
    Each of the plurality of evaluation target data sets is a data set including data describing characteristics of each of the plurality of elements with respect to the plurality of elements in the corresponding set,
    The plurality of data sets to be evaluated are data sets related to different sets, or data sets with different described characteristics,
    For each of the plurality of evaluation target data sets, the evaluation unit generates a neighborhood graph of the corresponding set based on the degree of similarity between the plurality of elements in the corresponding set determined from the corresponding evaluation target data set. and a neighborhood graph of the first set, evaluate the similarity regarding the data structure between the corresponding evaluation target dataset and the first dataset,
    The information processing system further includes:
    a selection unit configured to select, as a combination target, a data set with the highest evaluation of similarity regarding the data structure among the plurality of evaluation target data sets;
    A configuration in which the first data set and the data set selected to be combined are combined so as to associate data describing characteristics of similar elements between the first set and the corresponding set. a joint that is made into
    The information processing system according to claim 1, comprising:
  4.  前記評価部は、
     前記第一のデータセットに基づき、前記複数の第一の要素間の類似度を算出するように構成される第一の類似度算出部と、
     前記第二のデータセットに基づき、前記複数の第二の要素間の類似度を算出するように構成される第二の類似度算出部と、
     前記複数の第一の要素間の類似度に基づき、近傍グラフであって、前記複数の第一の要素のそれぞれを、類似度の高さが所定条件を満足する前記第一の集合内の一以上の第一の要素と接続した近傍グラフ、に対応する第一のグラフラプラシアン行列の固有値の一群を、第一の固有値の一群として算出するように構成される第一の固有値算出部と、
     前記複数の第二の要素間の類似度に基づき、近傍グラフであって、前記複数の第二の要素のそれぞれを、類似度の高さが前記所定条件を満足する前記第二の集合内の一以上の第二の要素と接続した近傍グラフ、に対応する第二のグラフラプラシアン行列の固有値の一群を、第二の固有値の一群として算出するように構成される第二の固有値算出部と、
     を備え、前記第一の固有値の一群と前記第二の固有値の一群との間の比較に基づき、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価するように構成される
     請求項1記載の情報処理システム。
    The evaluation department is
    a first similarity calculation unit configured to calculate the similarity between the plurality of first elements based on the first data set;
    a second similarity calculation unit configured to calculate the similarity between the plurality of second elements based on the second data set;
    Based on the degree of similarity between the plurality of first elements, in the neighborhood graph, each of the plurality of first elements is divided into a group in the first set whose high degree of similarity satisfies a predetermined condition. a first eigenvalue calculation unit configured to calculate a group of eigenvalues of a first graph Laplacian matrix corresponding to the neighborhood graph connected to the first element as a group of first eigenvalues;
    Based on the degree of similarity between the plurality of second elements, in the neighborhood graph, each of the plurality of second elements is selected from among the second set whose degree of similarity satisfies the predetermined condition. a second eigenvalue calculation unit configured to calculate a group of eigenvalues of a second graph Laplacian matrix corresponding to a neighborhood graph connected to one or more second elements as a group of second eigenvalues;
    and evaluating the similarity in data structure between the first data set and the second data set based on a comparison between the first set of eigenvalues and the second set of eigenvalues. The information processing system according to claim 1, wherein the information processing system is configured to.
  5.  前記評価部は、固有値の大きさを基準に順位付けされる、前記第一の固有値の一群に含まれる複数の第一の固有値のそれぞれの、前記第一の固有値の一群における順位、及び、前記第二の固有値の一群に含まれる複数の第二の固有値のそれぞれの、前記第二の固有値の一群における順位に基づき、前記複数の第一の固有値のそれぞれを、前記複数の第二の固有値のうちの同一順位の固有値と比較することにより、前記データ構造に関する類似性を評価する請求項4記載の情報処理システム。 The evaluation unit may rank each of the plurality of first eigenvalues included in the first eigenvalue group based on the size of the eigenvalue, and Based on the rank of each of the plurality of second eigenvalues included in the group of second eigenvalues, each of the plurality of first eigenvalues is assigned to the second eigenvalue of the plurality of second eigenvalues. 5. The information processing system according to claim 4, wherein similarity regarding the data structure is evaluated by comparing with eigenvalues of the same rank.
  6.  前記評価部は、前記第一の固有値の一群に含まれる固有値の大きい順に第1位から所定順位までの固有値のそれぞれを、前記複数の第二の固有値のうちの同一順位の固有値と比較することにより、前記データ構造に関する類似性を評価する請求項5記載の情報処理システム。 The evaluation unit may compare each of the eigenvalues from the first to a predetermined rank in descending order of the eigenvalues included in the group of first eigenvalues with an eigenvalue of the same rank among the plurality of second eigenvalues. The information processing system according to claim 5, wherein the similarity regarding the data structure is evaluated by:
  7.  前記評価部は、誤差の二乗和により前記データ構造に関する類似性の評価値を算出するように構成され、前記誤差のそれぞれは、前記複数の第一の固有値のうちの、対応する順位の第一の固有値と、前記複数の第二の固有値のうちの、前記対応する順位の第二の固有値との差である請求項5又は請求項6記載の情報処理システム。 The evaluation unit is configured to calculate an evaluation value of similarity regarding the data structure by a sum of squares of errors, and each of the errors is calculated by calculating the first eigenvalue of the corresponding rank among the plurality of first eigenvalues. The information processing system according to claim 5 or claim 6, wherein the difference is the difference between the eigenvalue of and the second eigenvalue of the corresponding rank among the plurality of second eigenvalues.
  8.  前記第一のグラフラプラシアン行列は、前記複数の第一の要素のそれぞれを、前記第一の集合における類似度が最も高い第一の要素と接続した最近傍グラフのグラフラプラシアン行列であり、
     前記第二のグラフラプラシアン行列は、前記複数の第二の要素のそれぞれを、前記第二の集合における類似度が最も高い第二の要素と接続した最近傍グラフのグラフラプラシアン行列である請求項4~請求項7のいずれか一項記載の情報処理システム。
    The first graph Laplacian matrix is a graph Laplacian matrix of a nearest neighbor graph in which each of the plurality of first elements is connected to the first element having the highest degree of similarity in the first set,
    4. The second graph Laplacian matrix is a graph Laplacian matrix of a nearest neighbor graph in which each of the plurality of second elements is connected to a second element having the highest degree of similarity in the second set. The information processing system according to any one of claims 7 to 9.
  9.  前記第二の取得部は、前記第二のデータセットとして、複数の評価対象のデータセットを取得し、
     前記複数の評価対象のデータセットのそれぞれは、対応する集合における複数の要素に関して、前記複数の要素のそれぞれの特徴を記述するデータを含むデータセットであり、
     前記複数の評価対象のデータセットは、互いに異なる集合に関するデータセット、又は、互いに記述される特徴が異なるデータセットであり、
     前記第二の類似度算出部は、前記複数の評価対象のデータセットのそれぞれについて、前記対応する集合における前記複数の要素間の類似度を算出し、
     前記第二の固有値算出部は、前記複数の評価対象のデータセットのそれぞれについて、近傍グラフであって、前記対応する集合における前記複数の要素のそれぞれを、類似度の高さが前記所定条件を満足する前記対応する集合内の一以上の要素と接続した近傍グラフ、に対応するグラフラプラシアン行列の固有値の一群を、比較対象の固有値の一群として算出し、
     前記評価部は、前記複数の評価対象のデータセットのそれぞれについて、対応する評価対象のデータセットに基づく前記比較対象の固有値の一群と、前記第一の固有値の一群との間の比較に基づき、前記第一のデータセットと前記対応する評価対象のデータセットとの間の前記データ構造に関する類似性を評価する
     請求項4~請求項8のいずれか一項記載の情報処理システム。
    The second acquisition unit acquires a plurality of evaluation target datasets as the second dataset,
    Each of the plurality of evaluation target data sets is a data set including data describing characteristics of each of the plurality of elements with respect to the plurality of elements in the corresponding set,
    The plurality of data sets to be evaluated are data sets related to different sets, or data sets with different described characteristics,
    The second similarity calculation unit calculates the similarity between the plurality of elements in the corresponding set for each of the plurality of evaluation target data sets,
    The second eigenvalue calculation unit calculates, for each of the plurality of evaluation target data sets, a neighborhood graph in which each of the plurality of elements in the corresponding set has a high degree of similarity that satisfies the predetermined condition. calculating a group of eigenvalues of a graph Laplacian matrix corresponding to a neighborhood graph connected to one or more elements in the corresponding corresponding set as a group of eigenvalues to be compared;
    The evaluation unit, for each of the plurality of evaluation target data sets, based on a comparison between the group of comparison target eigenvalues based on the corresponding evaluation target data set and the first group of eigenvalues, The information processing system according to any one of claims 4 to 8, wherein similarity regarding the data structure between the first data set and the corresponding evaluation target data set is evaluated.
  10.  前記複数の評価対象のデータセットのうち、前記データ構造に関する類似性の評価が最も高いデータセットを、結合対象に選択するように構成される選択部と、
     前記第一のデータセットと、前記結合対象に選択されたデータセットとを、前記第一の集合と前記対応する集合との間において類似する要素の特徴を記述するデータを関連付けるように結合する構成にされる結合部と、
     を備える請求項9記載の情報処理システム。
    a selection unit configured to select, as a combination target, a data set with the highest evaluation of similarity regarding the data structure among the plurality of evaluation target data sets;
    A configuration in which the first data set and the data set selected to be combined are combined so as to associate data describing characteristics of similar elements between the first set and the corresponding set. a joint that is made into
    The information processing system according to claim 9, comprising:
  11.  前記第一のデータセットは、前記複数の第一の要素として、前記第一の集合における複数の人の特徴を記述するデータセットであり、前記第二のデータセットは、前記複数の第二の要素として、前記第二の集合における複数の人の特徴を記述するデータセットである請求項1~請求項10のいずれか一項記載の情報処理システム。 The first data set is a data set that describes characteristics of a plurality of people in the first set as a first element of the plurality, and the second data set is a data set that describes the characteristics of a plurality of people in the first set. The information processing system according to any one of claims 1 to 10, wherein the elements are data sets that describe characteristics of a plurality of people in the second set.
  12.  コンピュータにより実行される情報処理方法であって、
     第一の集合における複数の第一の要素に関して、前記複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得することと、
     第二の集合における複数の第二の要素に関して、前記複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得することと、
     前記第一のデータセットから判別される前記複数の第一の要素間の類似度に基づく前記第一の集合の近傍グラフと、前記第二のデータセットから判別される前記複数の第二の要素間の類似度に基づく前記第二の集合の近傍グラフと、の比較に基づいて、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価することと、
     を含む情報処理方法。
    An information processing method performed by a computer, the method comprising:
    obtaining, with respect to a plurality of first elements in a first set, a first data set that includes data describing characteristics of each of the plurality of first elements;
    obtaining, with respect to a plurality of second elements in a second set, a second data set that includes data describing characteristics of each of the plurality of second elements;
    a neighborhood graph of the first set based on the similarity between the plurality of first elements determined from the first data set; and the plurality of second elements determined from the second data set. and a neighborhood graph of the second set based on the similarity between the first data set and the second data set.
    Information processing methods including.
  13.  前記評価することは、前記第一の集合の近傍グラフと、前記第二の集合の近傍グラフと、の間の比較であって、前記第一の集合の近傍グラフに対応するグラフラプラシアン行列及び前記第二の集合の近傍グラフに対応するグラフラプラシアン行列を用いた比較に基づいて、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価することを含む請求項12記載の情報処理方法。 The evaluating is a comparison between the neighborhood graph of the first set and the neighborhood graph of the second set, and the graph Laplacian matrix corresponding to the neighborhood graph of the first set and the neighborhood graph of the second set are compared. A claim comprising evaluating similarity in data structure between the first data set and the second data set based on a comparison using a graph Laplacian matrix corresponding to a neighborhood graph of the second set. Item 12. Information processing method according to item 12.
  14.  前記第二のデータセットを取得することは、前記第二のデータセットとして、複数の評価対象のデータセットを取得することを含み、
     前記複数の評価対象のデータセットのそれぞれは、対応する集合における複数の要素に関して、前記複数の要素のそれぞれの特徴を記述するデータを含むデータセットであり、
     前記複数の評価対象のデータセットは、互いに異なる集合に関するデータセット、又は、互いに記述される特徴が異なるデータセットであり、
     前記評価することは、前記複数の評価対象のデータセットのそれぞれについて、対応する評価対象のデータセットから判別される前記対応する集合における前記複数の要素間の類似度に基づく前記対応する集合の近傍グラフと、前記第一の集合の近傍グラフとの間の比較に基づき、前記対応する評価対象のデータセットと前記第一のデータセットとの間の前記データ構造に関する類似性を評価することを含み、
     前記情報処理方法は、更に、
     前記複数の評価対象のデータセットのうち、前記データ構造に関する類似性の評価が最も高いデータセットを、結合対象に選択することと、
     前記第一のデータセットと、前記結合対象に選択されたデータセットとを、前記第一の集合と前記対応する集合との間において類似する要素の特徴を記述するデータを関連付けるように結合することと、
     を含む請求項12記載の情報処理方法。
    Obtaining the second data set includes obtaining a plurality of evaluation target data sets as the second data set,
    Each of the plurality of evaluation target data sets is a data set including data describing characteristics of each of the plurality of elements with respect to the plurality of elements in the corresponding set,
    The plurality of data sets to be evaluated are data sets related to different sets, or data sets with different described characteristics,
    The evaluating includes, for each of the plurality of evaluation target data sets, the neighborhood of the corresponding set based on the similarity between the plurality of elements in the corresponding set determined from the corresponding evaluation target data set. evaluating the similarity with respect to the data structure between the corresponding dataset to be evaluated and the first dataset based on a comparison between a graph and a neighborhood graph of the first set; ,
    The information processing method further includes:
    Selecting a dataset with the highest evaluation of similarity regarding the data structure from among the plurality of evaluation target datasets as a combination target;
    combining the first data set and the data set selected to be combined so as to associate data describing characteristics of similar elements between the first set and the corresponding set; and,
    The information processing method according to claim 12, comprising:
  15.  コンピュータにより実行される情報処理方法であって、
     第一の集合における複数の第一の要素に関して、前記複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得することと、
     第二の集合における複数の第二の要素に関して、前記複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得することと、
     前記第一のデータセットに基づき、前記複数の第一の要素間の類似度を算出することと、
     前記第二のデータセットに基づき、前記複数の第二の要素間の類似度を算出することと、
     前記複数の第一の要素間の類似度に基づき、近傍グラフであって、前記複数の第一の要素のそれぞれを、類似度の高さが所定条件を満足する前記第一の集合内の一以上の第一の要素と接続した近傍グラフ、に対応する第一のグラフラプラシアン行列の固有値の一群を、第一の固有値の一群として算出することと、
     前記複数の第二の要素間の類似度に基づき、近傍グラフであって、前記複数の第二の要素のそれぞれを、類似度の高さが前記所定条件を満足する前記第二の集合内の一以上の第二の要素と接続した近傍グラフ、に対応する第二のグラフラプラシアン行列の固有値の一群を、第二の固有値の一群として算出することと、
     前記第一の固有値の一群と前記第二の固有値の一群との間の比較に基づき、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価することと、
     を含む情報処理方法。
    An information processing method performed by a computer, the method comprising:
    obtaining, with respect to a plurality of first elements in a first set, a first data set that includes data describing characteristics of each of the plurality of first elements;
    obtaining, with respect to a plurality of second elements in a second set, a second data set that includes data describing characteristics of each of the plurality of second elements;
    Calculating the degree of similarity between the plurality of first elements based on the first data set;
    Calculating the degree of similarity between the plurality of second elements based on the second data set;
    Based on the degree of similarity between the plurality of first elements, in the neighborhood graph, each of the plurality of first elements is divided into a group in the first set whose high degree of similarity satisfies a predetermined condition. Calculating a group of eigenvalues of a first graph Laplacian matrix corresponding to the neighborhood graph connected to the first element as a group of first eigenvalues;
    Based on the degree of similarity between the plurality of second elements, in the neighborhood graph, each of the plurality of second elements is selected from among the second set whose degree of similarity satisfies the predetermined condition. calculating a group of eigenvalues of a second graph Laplacian matrix corresponding to a neighborhood graph connected to one or more second elements as a group of second eigenvalues;
    Evaluating similarity in data structure between the first data set and the second data set based on a comparison between the first set of eigenvalues and the second set of eigenvalues; ,
    Information processing methods including.
  16.  コンピュータにより実行されたときに、前記コンピュータに、請求項12~請求項15のいずれか一項記載の情報処理方法を実行させるための命令を含むコンピュータプログラム。 A computer program comprising instructions for causing the computer to execute the information processing method according to any one of claims 12 to 15 when executed by a computer.
  17.  コンピュータにより実行されたときに、前記コンピュータに、請求項12~請求項15のいずれか一項記載の情報処理方法を実行させるための命令を含むコンピュータプログラムを記憶するコンピュータ読取可能な記録媒体。 A computer-readable recording medium that stores a computer program containing instructions for causing the computer to execute the information processing method according to any one of claims 12 to 15 when executed by a computer.
  18.  第一の集合における複数の第一の要素に関して、前記複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得するように構成される第一の取得部と、
     第二の集合における複数の第二の要素に関して、前記複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得するように構成される第二の取得部と、
     前記第一のデータセットに基づき、前記複数の第一の要素間の類似度を算出するように構成される第一の類似度算出部と、
     前記第二のデータセットに基づき、前記複数の第二の要素間の類似度を算出するように構成される第二の類似度算出部と、
     前記複数の第一の要素間の類似度に基づき、近傍グラフであって、前記複数の第一の要素のそれぞれを、類似度の高さが所定条件を満足する前記第一の集合内の一以上の第一の要素と接続した近傍グラフ、に対応する第一のグラフラプラシアン行列の固有値の一群を、第一の固有値の一群として算出するように構成される第一の固有値算出部と、
     前記複数の第二の要素間の類似度に基づき、近傍グラフであって、前記複数の第二の要素のそれぞれを、類似度の高さが前記所定条件を満足する前記第二の集合内の一以上の第二の要素と接続した近傍グラフ、に対応する第二のグラフラプラシアン行列の固有値の一群を、第二の固有値の一群として算出するように構成される第二の固有値算出部と、
     前記第一の固有値の一群と前記第二の固有値の一群との間の比較に基づき、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価するように構成される評価部と、
     を備える情報処理システム。
     
    a first acquisition unit configured to acquire, with respect to a plurality of first elements in a first set, a first data set comprising data describing characteristics of each of the plurality of first elements;
    a second acquisition unit configured to acquire, with respect to a plurality of second elements in a second set, a second data set comprising data describing characteristics of each of the plurality of second elements;
    a first similarity calculation unit configured to calculate the similarity between the plurality of first elements based on the first data set;
    a second similarity calculation unit configured to calculate the similarity between the plurality of second elements based on the second data set;
    Based on the degree of similarity between the plurality of first elements, in the neighborhood graph, each of the plurality of first elements is divided into a group in the first set whose high degree of similarity satisfies a predetermined condition. a first eigenvalue calculation unit configured to calculate a group of eigenvalues of a first graph Laplacian matrix corresponding to the neighborhood graph connected to the first element as a group of first eigenvalues;
    Based on the degree of similarity between the plurality of second elements, in the neighborhood graph, each of the plurality of second elements is selected from among the second set whose degree of similarity satisfies the predetermined condition. a second eigenvalue calculation unit configured to calculate a group of eigenvalues of a second graph Laplacian matrix corresponding to a neighborhood graph connected to one or more second elements as a group of second eigenvalues;
    evaluating similarity in data structure between the first data set and the second data set based on a comparison between the first set of eigenvalues and the second set of eigenvalues; an evaluation section consisting of;
    An information processing system equipped with.
PCT/JP2023/029732 2022-08-29 2023-08-17 Information processing system and information processing method WO2024048305A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-136165 2022-08-29
JP2022136165A JP7260704B1 (en) 2022-08-29 2022-08-29 Information processing system, computer program, and information processing method

Publications (1)

Publication Number Publication Date
WO2024048305A1 true WO2024048305A1 (en) 2024-03-07

Family

ID=86005192

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/029732 WO2024048305A1 (en) 2022-08-29 2023-08-17 Information processing system and information processing method

Country Status (2)

Country Link
JP (1) JP7260704B1 (en)
WO (1) WO2024048305A1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017199358A (en) * 2016-03-10 2017-11-02 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited System and method for visual bayesian data fusion

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5913722B1 (en) 2015-11-26 2016-04-27 株式会社博報堂 Information processing system and program
EP3441912A1 (en) 2016-04-06 2019-02-13 Sony Corporation Information processing device, information processing method, and information providing method
JP7354014B2 (en) 2020-02-20 2023-10-02 ヤフー株式会社 Information processing device, information processing method, and information processing program

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017199358A (en) * 2016-03-10 2017-11-02 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited System and method for visual bayesian data fusion

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FUTAMURA YASUNORI: "Eigenvalue calculation in data science", THE OPERATIONS RESEARCH SOCIETY OF JAPAN, vol. 65, no. 6, 1 June 2020 (2020-06-01), pages 317 - 322, XP093143883 *
ISHIKAWA, HIROSHI ET AL: "Connection to the future with digital series II, Data mining and collective intelligence from basis to web and social media, 1st ed.", 15 July 2012, KYORITSU SHUPPAN CO., LTD., pages: 58 - 72 *
渡邊睦, 設計技術シリーズ ロボットセンサフュージョンの基礎と分析手法 ~センサ情報の高効率な統合処理~, 初版, 科学情報出版株式会社, 20 April 2021, pages 5-6, (WATANABE, Mutsumi. Robot Sensor Fusion: Foundation and Analytical Methods -Highly Efficient Integration of Sensor Information-. KAGAKUJYOHO SHUPPAN CO., LTD.), non-official translation (Design Technology Series, 1st edition.) page 5 *

Also Published As

Publication number Publication date
JP2024032488A (en) 2024-03-12
JP7260704B1 (en) 2023-04-18

Similar Documents

Publication Publication Date Title
CN109740924B (en) Article scoring prediction method integrating attribute information network and matrix decomposition
US20190266619A1 (en) Behavior pattern search system and behavior pattern search method
US20130138531A1 (en) Social network-based recommendation
JP2013537339A (en) Generating product recommendations
KR102264540B1 (en) System for selling goods using correlation analysis network and method therof
JP2017500663A (en) Discover business relationship networks and evaluate relationship relevance
JP2007304685A (en) Retrieval system and program for software component
US20150213388A1 (en) Consensus building support method, consensus building support apparatus, and consensus building support system
WO2016063502A1 (en) Knowledge management device, knowledge management method, and program recording medium
Pahwa et al. Network-based pricing for 3D printing services in two-sided manufacturing-as-a-service marketplace
Osteras et al. Product performance and specification in new product development
WO2024048305A1 (en) Information processing system and information processing method
US10120929B1 (en) Systems and methods for automatic item classification
CN111815410B (en) Commodity recommendation method based on selective neighborhood information
KR101081947B1 (en) Hybrid recommendation method and system for large scale data
KR101949448B1 (en) Clustering method and apparatus using Gaussian Process Regression
Hannah et al. Semiconvex regression for metamodeling-based optimization
TW202336607A (en) Information processing system and method of processing information
JP6373887B2 (en) Action pattern estimation device, action pattern estimation method, and action pattern estimation program
JP2020030500A (en) Measure search device, method, and program
JP2018195031A (en) Simulation program, simulation method, and simulator
JP5150348B2 (en) Model building apparatus and program
JP7302229B2 (en) Data management system, data management method, and data management program
Joo et al. Assessing comparative production efficiencies for product line management
WO2020196734A1 (en) Estimation system, data combination system, and related method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23860068

Country of ref document: EP

Kind code of ref document: A1