WO2016021726A1 - 情報処理システム - Google Patents

情報処理システム Download PDF

Info

Publication number
WO2016021726A1
WO2016021726A1 PCT/JP2015/072564 JP2015072564W WO2016021726A1 WO 2016021726 A1 WO2016021726 A1 WO 2016021726A1 JP 2015072564 W JP2015072564 W JP 2015072564W WO 2016021726 A1 WO2016021726 A1 WO 2016021726A1
Authority
WO
WIPO (PCT)
Prior art keywords
database
feature data
data
customer
databases
Prior art date
Application number
PCT/JP2015/072564
Other languages
English (en)
French (fr)
Inventor
龍 道本
真也 ▼徳▲久
Original Assignee
株式会社博報堂Dyホールディングス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2014162623A external-priority patent/JP5649756B1/ja
Priority claimed from JP2015000945A external-priority patent/JP5793794B1/ja
Application filed by 株式会社博報堂Dyホールディングス filed Critical 株式会社博報堂Dyホールディングス
Priority to US15/502,643 priority Critical patent/US10657149B2/en
Priority to CN201580051179.6A priority patent/CN106687956B/zh
Priority to EP15830544.1A priority patent/EP3196777A4/en
Priority to CA2957506A priority patent/CA2957506C/en
Priority to SG11201700974WA priority patent/SG11201700974WA/en
Priority to AU2015300012A priority patent/AU2015300012B2/en
Publication of WO2016021726A1 publication Critical patent/WO2016021726A1/ja
Priority to PH12017500234A priority patent/PH12017500234A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Definitions

  • This disclosure relates to an information processing system that handles databases.
  • customer purchasing behavior is analyzed based on product sales data.
  • customer's contact with mass media and network contents is also analyzed.
  • Collecting various information such as customer purchasing behavior, mass media / network content contact behavior, and lifestyles through questionnaires and face-to-face questions.
  • An information processing system is configured to combine a storage unit configured to store a first database and a second database, and the first database and the second database.
  • a coupling unit configured to combine the information processing system.
  • the information processing system may further include a generation unit configured to generate the first database.
  • the first database is a database including feature data for each virtual structure related to the structure of the first group.
  • the feature data for each virtual construct can be generated by integrating the feature data of a plurality of constructs with matching or similar features based on the feature data for each construct of the first group.
  • the feature data of the constituent represents a feature related to the constituent.
  • the generation unit performs statistical processing on the feature data of the plurality of constituents for each of the plurality of constituents having the same or similar features, thereby the plurality of constituents having the same or similar features.
  • the feature data may be integrated to generate feature data for each virtual construct.
  • the second database includes feature data for each structure of the second group.
  • the second group is the same as or different from the first group.
  • Each of the feature data provided in the first and second databases is reference data that is referred to at the time of combination, and includes reference data that represents the types of features that are common between the first database and the second database. Configured as follows.
  • the joining unit joins the first database and the second database so that feature data whose features represented by the reference data match or are similar between the first database and the second database.
  • a plurality of feature data is integrated, and a database including the feature data for each virtual construct is generated.
  • the feature data of the virtual structure is data in which the characteristics of a plurality of structures are mixed. For example, if the first group is a set of customers and the feature data before integration is feature data of a single customer representing the features of one customer, the feature data of the virtual structure is a mix of features of multiple customers Corresponds to the recorded data.
  • the information granularity of the feature data can be increased, thereby protecting information on detailed information. Therefore, according to one aspect of the present disclosure, it is possible to reduce a barrier for data provision by a data holder for the purpose of information protection. Therefore, according to one aspect of the present disclosure, it is possible to provide a system that can effectively use various data existing in society.
  • a plurality of constituents having the same or similar features described above may be a set in which both a constituent having the same features and a constituent having similar features are mixed.
  • the term “similar” in the present specification may be understood as a broad term including “match” as a subordinate concept.
  • a well-known clustering technique can be used when integrating feature data of a plurality of constructs whose features match or are similar.
  • Various clustering techniques are known in fields such as language processing, pattern recognition, and artificial intelligence.
  • Well-known clustering techniques include k-means (k-means) and hard clustering techniques such as BIRCH (hierarchical clustering with balanced trees), LSA (latent semantic analysis), pLSA (probabilistic latent semantic analysis), and Soft clustering techniques such as LDA (Latent Dirichlet Allocation) are known.
  • the generating unit uses these well-known clustering techniques or other clustering techniques to generate a set of feature data related to the first group for each of a plurality of feature data with matching or similar features. It can be configured to be clustered to divide. The generating unit may be configured to integrate, for each cluster, a plurality of feature data corresponding to the cluster.
  • the generation unit may be configured to statistically process a plurality of feature data corresponding to a cluster for each cluster. Specifically, the generation unit may be configured to calculate a statistic for each parameter of a plurality of feature data corresponding to a cluster for each cluster. Examples of statistics include an average value, a maximum value, a minimum value, and a value (ratio, etc.) representing a distribution.
  • the parameter value of the feature data and the statistical amount thereof may be a scalar quantity or a vector quantity.
  • the feature data of the virtual structure can be generated for each cluster. In one aspect of the present disclosure, the feature data of the virtual structure may be generated so as to include the statistic as a parameter value representing a characteristic related to the virtual structure.
  • the first database may be generated by the generation unit, may be generated manually by a person, or may be generated by other methods (for example, a combination of information processing by a computer and manual operation by a person). May be generated.
  • the second database may be generated in the same manner as the first database.
  • the feature data for each constituent included in the second database may be feature data for each virtual constituent.
  • the feature data for each virtual construct is generated by integrating the feature data of a plurality of constructs having the same or similar features based on the feature data for each construct in the same or different group from the first group. obtain.
  • the information processing system may include a generation unit that generates the second database.
  • the second database may be a database including feature data that has not been integrated.
  • the second database may comprise single source data as feature data.
  • Each single source data is data based on information collected from a single information source.
  • Single source data may be feature data of a structure that has not been statistically modeled and modeled and that represents characteristics related to a single structure.
  • Each of the first and second groups described above can be a collection of at least one of people, things, services, and places.
  • the construct may be an element of this set. That is, the structure can be one of a person, a thing, a service, and a place. Things, services, and places can be things, services, and places related to a person.
  • one of the first group and the second group is a collection of people, and the other of the first group and the second group is at least one of a thing, a service, and a place. There may be one set.
  • Each of the first and second groups may be a collection of at least one of things, services, and places.
  • an information processing system combines a plurality of generation units configured to generate databases for the same or different groups, and a plurality of databases generated by the plurality of generation units. And a coupling unit configured as described above.
  • Each of the generation units generates a database including the feature data for each virtual structure based on the feature data for each structure of the corresponding group, by integrating the feature data of a plurality of structures having the same or similar features. Can be configured.
  • Each of the feature data included in the plurality of databases is reference data that is referred to at the time of combining, and may include reference data that represents a type of feature common to the database to be combined.
  • the combining unit may be configured to combine a plurality of databases so as to combine feature data having the same or similar features represented by the reference data between the plurality of databases.
  • a storage unit configured to store a plurality of databases including feature data for each virtual construct and a combination configured to combine a plurality of databases stored in the storage unit
  • An information processing system including a unit may be provided. Even with this information processing system, data existing in society can be used effectively.
  • the combination unit is a database for a group that is the same as or different from the plurality of databases, and includes a specific type including single source data as feature data for each group member. It may be configured to be coupled via the database.
  • the single source data is reference data that is referred to when the databases are joined, and may include reference data that represents a type of feature common to the database to be joined.
  • the combining unit combines the database of the specific type and each of the other databases so as to combine the feature data whose features represented by the reference data match or are similar to each other.
  • a plurality of databases can be connected via a specific type of database.
  • the functions as the generation unit and the coupling unit described above can be realized by hardware. These functions as each unit may be realized by a computer by a program. These functions as each unit may be realized by being distributed by a plurality of computers.
  • the computer can be provided with a program for causing the computer to realize the function as at least one of these units.
  • the program can be recorded on a computer-readable non-transitory recording medium such as a semiconductor memory, a magnetic disk, and an optical disk.
  • a computer-readable non-transitory recording medium that stores a program for causing a computer to realize the function as at least one of the generating unit and the combining unit may be provided.
  • an information processing system including a computer (processor) and a memory, and the memory storing the program may be provided.
  • a database combining method may be provided that includes a procedure for generating or acquiring the first database and a procedure for combining the first database with the second database.
  • a procedure for generating or acquiring the first database, a procedure for generating or acquiring the second database, and a procedure for combining the first database and the second database may be provided.
  • the database described above may be a customer database.
  • the database may be configured with feature data representing at least one feature of a person, thing, service, and location corresponding to the customer.
  • data about a customer can be provided to a combined unit, protecting a customer's personal information.
  • the combining unit can generate a database combining data relating to customers of different data providers.
  • the reference data can be configured as data representing customer demographic attributes. Demographic attributes are included in data about customers held by various companies. If the databases are combined based on the reference data representing the demographic attribute, feature data between different databases can be appropriately combined. Of course, the reference data may be data representing customer characteristics other than the demographic attribute in addition to or instead of the demographic attribute.
  • the customer feature data includes non-reference data other than reference data, and includes at least one of customer consumption behavior, mass media contact behavior, network content contact behavior, lifestyle, values, and brand awareness. May be included. If feature data including various information related to such customers are combined between databases, various meaningful statistical information related to customers (consumers) can be extracted from the combined database by analysis.
  • the non-reference data given here as an example can also be reference data.
  • the reference data may be data that represents a common type of characteristics among the databases directly coupled among the plurality of databases.
  • FIG. 2A is a block diagram illustrating a configuration of the data processing apparatus
  • FIG. 2B is a block diagram illustrating processing executed by a calculation unit of the data processing apparatus
  • 3A to 3D are diagrams showing the structure of the feature data that the customer-related database has. It is a figure explaining the example of the database after a process.
  • FIG. 5A is a block diagram illustrating the configuration of the data combining device
  • FIG. 5B is a block diagram illustrating processing executed by the arithmetic unit of the data combining device. It is a figure explaining the example of a combination of the database after a process.
  • the information processing system 1 includes a plurality of data processing devices 10 and a data combining device 50.
  • the data processing apparatus 10 processes the database 153 related to the customer held by the company, and provides the processed database 155 to the data combining apparatus 50.
  • the data processing apparatus 10 is arranged on the company side that has a database 153 relating to customers.
  • the customer-related database 153 is expressed as a customer-related database 153.
  • a company that processes and provides the customer-related database 153 is expressed as a data provider.
  • the customer related database 153 includes a group of feature data related to customers.
  • Feature data includes at least one of customer consumption behavior, mass media contact behavior, network content contact behavior, lifestyle, values, and brand awareness, along with customer identification ID or demographic attributes.
  • the data to represent can be cited as an example.
  • the customer identification ID may be an identification code that can extract data representing the demographic attribute of the customer from a database storing customer information.
  • Customer consumption behavior includes customer purchase behavior.
  • the feature data can be configured to include customer purchase data along with customer demographic attributes.
  • the purchase data may be data representing the purchased product and / or the purchase price.
  • the customer related database 153 may have characteristic data for each customer and each settlement.
  • the data processing apparatus 10 processes a plurality of feature data with similar features into one feature data based on the group of feature data included in the customer-related database 153.
  • the term “similar” may be understood as a broad term that includes “match” as a subordinate concept.
  • the data processing apparatus 10 generates, as the post-processing database 155, a database that includes the processed characteristic data as the virtual customer characteristic data.
  • the processed customer-related database is also expressed as a processed database 155.
  • the post-processing database 155 includes feature data of the virtual customer for each virtual customer corresponding to a plurality of customers, for example.
  • the post-processing database 155 is provided to the data combining device 50 by communication, for example.
  • an encryption key or a dedicated line can be used for communication.
  • the post-processing database 155 can be stored in a portable and computer-readable recording medium, and can be provided to the data combination device 50 side by transportation of the recording medium.
  • the recording medium include a semiconductor memory, an optical disk such as a CD-ROM and a DVD, and a magnetic disk such as a hard disk.
  • the data combining device 50 combines a plurality of post-processing databases 155 provided from each of the data processing devices 10 to generate a combined database 557.
  • a company including a customer-related database 153 including customer purchase data as characteristic data can be cited as an example.
  • Companies with purchasing data include convenience stores, supermarkets and / or department stores, retail (product sales) vendors, companies operating vending machines, companies providing electronic money payment services, and credit card payments.
  • One example is a company that provides a service.
  • the retailer has a database in which purchase data for each settlement obtained through a POS system or the like is accumulated.
  • a POS system an ID-POS system capable of specifying a customer is known.
  • the retailer receives a point card from the customer at the time of payment and builds a database with purchase data for each payment that can identify the customer by accumulating purchase data in association with the customer ID specified from the point card. It has also been done.
  • the purchase data for each settlement is also accumulated so that the demographic attribute of the customer and the purchase data can be associated with each other by inputting the customer's gender and age determined from the appearance of the salesperson. .
  • the data combining device 50 can construct a huge database that cannot be constructed by one company by combining a plurality of post-processing databases 155 including purchase data, which have different data providers. For example, it is possible to generate a combined database 557 that can analyze the purchase behavior of customers (consumers) for a wide range of products.
  • each of the data processing devices 10 includes a calculation unit 11, a storage unit 15, an input unit 17, and an output unit 19.
  • the calculation unit 11 includes a CPU 13 that executes processing according to various programs 151. Further, the calculation unit 11 includes a RAM 14 that is used as a work memory when the CPU 13 executes a process.
  • the calculation unit 11 functions as a clustering processing unit 110 and a processing processing unit 115 as shown in FIG.
  • the storage unit 15 stores various programs 151 including programs for causing the calculation unit 11 to function as the clustering processing unit 110 and the processing processing unit 115, and a customer-related database 153 before processing. Furthermore, the storage unit 15 is configured to store a post-processing database 155 generated by processing of the customer related database 153.
  • the input unit 17 may be an interface that can take in data constituting the customer-related database 153 from a recording medium, or may be an interface that can take in the data from an in-company system by communication.
  • FIG. 3A to 3D show examples of feature data (records) included in the customer related database 153.
  • the characteristic data has parameters representing the sex and age of the customer as demographic attributes of the customer.
  • the feature data includes parameters representing the purchase place of the product, a JAN (Japan Article Number) code, the number of purchases, and the product unit price as parameters related to the product purchased by the customer.
  • the JAN code is a product code that is widely used in Japan.
  • a customer-related database 153 including detailed information on purchased products as shown in FIG. 3A is provided by retailers such as convenience stores and supermarkets.
  • the feature data has parameters representing the sex and age of the customer as demographic attributes of the customer. Further, the feature data includes parameters representing the purchase place and purchase price of the product as parameters related to the product purchased by the customer.
  • a customer-related database 153 including feature data as shown in FIG. 3B is provided by, for example, a credit card company. This customer-related database 153 is superior to the customer-related database 153 that the retailer has in that it has a huge amount of purchase data compared to the retailer, but it cannot identify even specific purchased products. Therefore, the retailer has a complementary relationship with the customer related database 153.
  • the characteristic data has parameters representing the sex, age and occupation of the customer as demographic attributes of the customer.
  • the characteristic data includes a parameter representing a usage status of a plurality of mass media (newspaper / magazine / radio / TV / movie, etc.) as a parameter related to the contact status of the customer with the mass media.
  • the parameter indicating the usage status indicates a value of 1 when a customer uses (subscribes / views) the corresponding mass media, and indicates a value of 0 when the customer does not use the corresponding mass media.
  • This kind of information is collected, for example, in a questionnaire format or an interactive format, and stored in the customer related database 153 as feature data.
  • This type of customer-related database 153 is a database that a company related to mass communication normally has, but does not have a retailer.
  • the feature data has parameters representing the sex, age and residential area of the customer as demographic attributes of the customer.
  • the feature data includes a parameter representing the usage status of a plurality of Internet sites as a parameter related to the contact status of the customer with the network content.
  • the parameter indicating the usage status indicates a value of 1 when the customer uses (visits) the corresponding site, and indicates a value of 0 when the customer does not use the site.
  • This type of information is stored in a specific server through an access log generation program that is installed in the customer's information terminal with prior consent from the customer, for example.
  • This customer-related database 153 is usually a database owned by an IT company and not owned by a retailer.
  • the output unit 19 is configured such that the post-processing database 155 based on the above-described customer-related database 153 can be taken out from the data processing apparatus 10.
  • the output unit 19 is configured to have a communication interface that can provide the processed database 155 to the data combining device 50 by communication, or an interface that can output the processed database 155 to a recording medium.
  • the clustering processing unit 110 reads a set of feature data from the customer-related database 153 before processing stored in the storage unit 15 and clusters the set of feature data for each of a plurality of feature data having similar features.
  • the clustering method the above-described known method can be employed.
  • An example of a simple clustering method is to place each feature data as a feature vector in the feature space, identify feature data with similar features based on the cosine similarity between feature vectors, and cluster them Can be listed.
  • a technique for probabilistically classifying one feature data into a plurality of clusters such as pLSA (probabilistic latent semantic analysis) is also known. For example, 80% of one feature data is classified as a first cluster, and the remaining 20% is classified as a second cluster.
  • the operator of the data combining device 50 can determine how to determine the similarity of features and cluster a group of feature data in consideration of the purpose of data analysis based on the combined database 557.
  • the operator of the data combination device 50 provides a program for causing the computing unit 11 to function as the clustering processing unit 110 and the processing processing unit 115 to the data provider, and creates a post-processing database 155 that is well suited for data analysis purposes. It can be obtained from the data provider.
  • the information processing system 1 may generate a post-processing database 155 that protects personal information by statistical processing on the customer-related database 153 held by the data provider.
  • the clustering is preferably performed so that each of the clusters includes more than the number of feature data that can protect personal information by statistical processing (integration). If a cluster that does not contain more feature data than can be protected by personal information is generated, the feature data belonging to the cluster may be discarded without being processed by the processing unit 115.
  • the processing unit 115 performs statistical processing for integrating a plurality of feature data belonging to the same cluster for each of the plurality of feature data clustered by the clustering processing unit 110, in other words, for each cluster. Specifically, for each cluster, the processing unit 115 calculates a statistic for each parameter of a plurality of feature data belonging to the same cluster, and corresponds the feature data including these statistics as parameter values to the cluster. To generate the feature data of the virtual customer. The processing unit 115 generates feature data of one virtual customer for each cluster for all clusters, thereby generating a post-processing database 155 including these feature data, and writes this into the storage unit 15.
  • the processing unit 115 calculates a sex ratio represented by the feature data in the cluster as a statistic regarding the sex parameter, and uses this ratio as the feature data of the virtual customer corresponding to the cluster.
  • a sex ratio represented by the feature data in the cluster is a statistic regarding the sex parameter, and uses this ratio as the feature data of the virtual customer corresponding to the cluster.
  • the processing unit 115 calculates an average of the ages represented by the feature data in the cluster as a statistic regarding the age parameter, and describes this average as a parameter value of the age in the feature data of the virtual customer corresponding to the cluster.
  • the characteristic data before processing includes, for each combination of the JAN code and the purchase place, a purchase parameter indicating the total amount of money that the customer has purchased the product of the corresponding JAN code at the corresponding purchase place.
  • the processing unit 115 calculates an average value of the amount represented by the feature data in the cluster for each combination of the JAN code and the purchase location as a statistic regarding the purchase parameter, and calculates this as a virtual value corresponding to the cluster. Can be described in customer feature data.
  • the characteristic data after processing shown in the lower part of FIG. 4 represents the purchase price (average value) of the product by the virtual customer for each combination of the JAN code and the purchase place, together with the demographic attribute (gender and age) of the virtual customer.
  • the processing unit 115 may calculate the maximum value and the minimum value of the amount as values representing the distribution of the purchase amount, instead of the average value of the amount.
  • the processing unit 115 can describe the maximum value and the minimum value of the amount of money for each combination of the JAN code and the purchase place as the statistical amount related to the purchase parameter in the feature data of the virtual customer.
  • the feature data before and after processing is that the feature data after processing represents a statistic, and a parameter indicating the number of feature data before processing (number of samples) is included in the feature data after processing. It is basically the same except for the added points.
  • the processing unit 115 can also generate a post-processing database 155 having feature data for each virtual customer (cluster) as shown in the lower part of FIG. 4 from the customer-related database 153 having the feature data shown in FIG. 3A. It is. That is, the types of parameters included in the feature data need not match before and after processing, and one or more of the parameters before processing may be replaced with other types of parameters that can be calculated from the parameters at the time of processing. .
  • the ratio (ratio), the average, or the combination of the maximum value and the minimum value is calculated as the statistic.
  • the statistic the median may be calculated or the average and the variance may be calculated. May be calculated.
  • the statistics to be calculated can be determined according to the purpose of data analysis so that no significant information is lost in the analysis.
  • a group of feature data belonging to this cluster is processed (integrated) into feature data representing statistics, and a post-processing database 155 including the post-processing feature data. Is output to the data combination device 50.
  • the data combining device 50 includes a calculation unit 51, a storage unit 55, an input unit 57, and an output unit 59.
  • the calculation unit 51 includes a CPU 53 that executes processing according to various programs 551. Further, the calculation unit 51 includes a RAM 54 that is used as a work memory when the CPU 53 executes processing.
  • the calculation unit 51 functions as a data fusion processing unit 510 as shown in FIG.
  • the storage unit 55 stores various programs 551 including a program for causing the calculation unit 51 to function as the data fusion processing unit 510.
  • the storage unit 55 is also configured to store a post-processing database 155 provided from the data processing apparatus 10 and a combined database 557 generated by combining these post-processing databases 155.
  • the post-processing database 155 provided from the data processing device 10 is input into the data combining device 50 through the input unit 57.
  • the input unit 57 may be an interface capable of inputting the post-processing database 155 from the recording medium, or may be an interface capable of inputting the post-processing database 155 transmitted from the data processing apparatus 10 by communication.
  • the output unit 59 is used, for example, to extract the data analysis result based on the combined database 557 and the combined database 557 from the data combining apparatus 50 to the outside.
  • the data fusion processing unit 510 combines a plurality of post-processing databases 155 stored in the storage unit 55 to generate a combined database 557.
  • the data fusion processing unit 510 refers to a parameter in feature data that functions as a margin, and combines feature data having similar features represented by the reference parameter between post-processing databases 155 to be combined.
  • the post-processing databases 155 to be joined are joined.
  • each feature data included in the post-processing database 155 has a common parameter representing the demographic attribute of the customer even between the post-processing databases 155 having different data providers.
  • the feature data has in common a parameter representing sex and a parameter representing age even between feature data from different data providers.
  • the data fusion processing unit 510 refers to the parameters (hereinafter referred to as “common parameters”) that the feature data included in the post-processing database 155 to be combined as described above has in common, and the customer features represented by the common parameters are similar.
  • the post-processing databases 155 are combined so that the feature data to be combined are combined.
  • the first processed database 155 stored in the storage unit 55 is combined with the second processed database 155, and the second processed database 155 is connected to the second processed database 155.
  • the third processed database 155 is combined, and the mth processed database 155 is combined with the (m + 1) th processed database 155 (m is an integer of 3 or more), and the processed databases 155 are sequentially connected. This can be achieved.
  • the data fusion processing unit 510 connects each of the remaining post-processing databases 155 to a specific post-processing database 155, thereby specifying a specific area between the post-processing databases 155 stored in the storage unit 55.
  • the post-processing database 155 can be combined in a star shape (see FIG. 8A).
  • the post-processing database 155 can be coupled using a well-known data fusion technique. According to the simple data fusion method, matching (combination) of similar feature data between the two post-processing databases 155 can be performed as follows.
  • the distance between feature vectors (for example, cosine distance) when feature vectors having these common parameters as elements are arranged in the feature space is processed. Calculations are made for all combinations of feature data between the subsequent databases 155. Then, by matching the feature vectors with the shortest distance, the post-processing databases 155 can be joined so that feature data having similar customer features represented by the common parameters are joined together.
  • the solution of the transportation problem is used, and the feature data in the post-processing database 155 are interlinked so that the transportation cost becomes “minimum overall”. It is also possible to perform matching.
  • the combined database 557 generated by such matching can be configured as data in which the characteristic data in the two post-processing databases 155 are stored.
  • FIG. 6C shows the configuration of the combined database 557 when the post-processing database 155B shown in FIG. 6B including the feature data having parameters of..., Purchase Q1, Q2,.
  • the common parameters are gender, age, purchase Q1, Q2,. .., Purchasing Q1, Q2,..., Purchasing R1, R2,... Are, for example, purchasing parameters for each combination of JAN code and purchasing location.
  • the purchase parameter represents the purchase amount of the customer or the presence / absence of purchase regarding the corresponding combination.
  • purchase Pi (i is an integer equal to or greater than 2) may be a parameter indicating the purchase amount of the customer at the purchase place different from purchase P1 related to the product having the same JAN code as purchase P1 or the presence / absence of purchase.
  • Purchasing Qj, Rj (j is an integer of 1 or more) may be a parameter indicating the purchase amount of the customer at the purchase location corresponding to the parameter j related to the product of the JAN code different from the purchase Pj, or the presence / absence of purchase.
  • the feature data of the processed database 155A and the feature data of the processed database 155B that are combined with each other are expressed by associating their identification numbers. The That is, in the combined database 557, the identification number of the feature data of the post-processing database 155B that is associated with the feature data in the post-processing database 155A is described.
  • a plurality of feature data (B20056, B00234, B01123) in the post-processing database 155B may be associated with one feature data (A00001) in the post-processing database 155A.
  • Each feature data in the post-processing database 155 corresponds to a plurality of feature data before processing, and the number of samples in the cluster corresponding to the pre-processing feature data may be different from each other. In this case, it is assumed that each feature data exists in an amount corresponding to the number of samples, and feature data with the most similar customer features are combined by the same number of samples and feature data for the remaining number of samples. Can then be combined with similar feature data for the same number of samples.
  • the records described as A00001, B20056, and 5.3 indicate that the feature data of the identification number A00001 of the processed database 155A and the feature data of the identification number B20056 of the processed database 155B have a sample number of 5. It shows that only 3 are connected.
  • the next record indicates that the feature data of the identification number A00001 of the post-processing database 155A and the feature data of the identification number B00234 of the post-processing database 155B are combined with each other by the number of samples 8.2.
  • the next record indicates that the feature data of the identification number A00001 in the post-processing database 155A and the feature data of the identification number B01123 in the post-processing database 155B are combined with each other by the number of samples 6.5.
  • the feature data of the identification number A00001 in the post-processing database 155A is generated based on the 20-sample cluster.
  • the feature data of the identification number A00001 in the post-processing database 155A is allocated and combined with the feature data of the identification number B20056, the identification number B00234, and the identification number B01123 in the post-processing database 155B.
  • the combined database 557 configured in this way connects the processed databases 155 to each other, and the combined database 557 and the processed database 155 constitute one huge database.
  • the post-processing database 155A that does not have information about purchases R1, R2,...
  • the post-processing database 155B that has no information about purchases P1, P2, are combined.
  • FIG. 7 is a diagram in which blocks for each combination of JAN code and purchase place are arranged in the horizontal direction, and the arrangement of the blocks is arranged for each virtual customer in the vertical direction.
  • the hatched block indicates that the corresponding virtual customer has purchased the product corresponding to the corresponding JAN code at the corresponding purchase location.
  • the non-hatched block indicates that the corresponding virtual customer has not purchased the product corresponding to the corresponding JAN code at the corresponding purchase location.
  • hatched blocks are concentrated in the area indicated by the broken line. This concentration indicates that there is a purchase layer for the combination of JAN code and purchase location in the region. Therefore, if the corresponding product is advertised to the customer layer corresponding to the non-hatched block in this area, the effect of the advertisement is exhibited significantly. For example, a virtual customer surrounded by a thick line hardly causes purchase behavior corresponding to the area indicated by the broken line, but corresponds to a purchase layer in statistics. Therefore, when advertising the corresponding product to the corresponding customer group, it is expected that the effect of the advertisement will be demonstrated significantly.
  • customer privacy information may be identified in detail during the analysis process.
  • the data in each row shown in FIG. 6B and FIG. since the data analysis is performed based on the statistical data, it is possible to obtain information useful for commercial activities by data analysis while suppressing the occurrence of such problems of the prior art.
  • the information processing system 1 has been described above.
  • the data processing apparatus 10 processes the customer related database 153 and provides the processed database 155 to the data combining apparatus 50. Then, the data combining device 50 combines the plurality of post-processing databases 155 generated by the data processing device 10.
  • the calculation unit 11 of the data processing apparatus 10 clusters a set of feature data for each of a plurality of feature data having similar features based on a group of feature data included in the customer-related database 153 before processing. Further, the calculation unit 11 performs statistical processing on a plurality of feature data corresponding to each cluster and integrates them. Thereby, feature data for each virtual customer corresponding to a plurality of customers having similar features is generated. In particular, the calculation unit 11 (processing unit 115) calculates a statistic for each parameter of a plurality of feature data belonging to a cluster for each cluster. The feature data for each virtual customer is generated so as to include these statistics as parameter values. The calculation unit 11 (the processing unit 115) generates a database including the feature data for each virtual customer in which a plurality of feature data is integrated as a post-processing database 155.
  • Each of the feature data in the post-processing database 155 includes reference data that is referred to when the post-processing database 155 is joined.
  • the reference data represents characteristics of a type common to the post-processing database 155 to be combined.
  • the reference data in the above embodiment represents the sex and age of the customer as demographic attributes of the customer.
  • the calculation unit 51 of the data combining device 50 combines the processed databases 155 so as to combine the feature data having similar features represented by the reference data among the plurality of processed databases 155.
  • the data processing apparatus 10 statistically processes and integrates feature data of a plurality of customers, and generates a post-processing database 155 including feature data for each virtual customer.
  • the feature data before statistical processing is data of a single customer representing the features of one customer
  • the feature data is mixed with features of a plurality of customers from the data of a single customer by the operation of the data processing device 10. Converted into virtual customer data.
  • the data provider can convert the customer-related database 153 into the post-processing database 155 that protects the customer's personal information by using the data processing device 10, and provides data related to the customer to the data combination device 50 while protecting the personal information. can do.
  • the operator of the data combination device 50 can obtain the customer-related database as the post-processing database 155 from a company that was previously reluctant to provide the customer-related database 153 from the viewpoint of information protection.
  • the data combining device 50 can generate a database that combines data related to various customers from different data providers.
  • the information processing system 1 can construct a database in which data relating to various customers distributed in society are integrated as the combined database 557. Based on this database, the information processing system 1 can effectively use data relating to various customers and perform meaningful data analysis.
  • the common parameters (reference data at the time of database connection) between the processed databases 155 are the sex and age of the customer.
  • the common parameter may include other parameters.
  • the common parameters may include at least one of the customer's gender, age, occupation, residential area, income, educational background, and family structure as the demographic attributes of the customer.
  • the information processing system 1 is configured to use a database including single source data as the hub database H (see FIG. 8A) in the data combining device 50.
  • the information processing system 1 connects the plurality of post-processing databases 155 via the hub database H by connecting the post-processing databases 155 provided from the data processing apparatus 10 to the hub database H.
  • the hardware configuration of the information processing system 1 of this embodiment is the same as that of the first embodiment.
  • the information processing system 1 according to the present embodiment is different from the first embodiment in that the storage unit 55 of the data combining device 50 includes a hub database H in addition to the post-processing database 155 provided from the data processing device 10.
  • the information processing system 1 of this embodiment is different from the first embodiment only in the processing operation of the data fusion processing unit 510. Therefore, in the following description, the description of the same configuration as that of the first embodiment is omitted as appropriate.
  • the single source data constituting the hub database H is obtained from, for example, a consumer survey “HABIT (registered trademark)” conducted by Hakuhodo Co., Ltd.
  • HABIT collects various information on lifestyle (life consciousness and attitude), values, and brand consciousness, along with information on demographic attributes of collaborators, from each of the collaborators of the survey through a visit interview and questionnaire format.
  • Single-source data for each customer (cooperator) generated by HABIT represents customer characteristics that do not appear in purchase data or the like.
  • Examples of other single source data that can be provided in the hub database H include single source data including customer purchase data obtained from ID-POS, and single source that represents the contact status of mass media obtained in a questionnaire format. Data can be listed. In other words, the hub database H may be provided with data obtained by combining these multiple types of single source data for each data of the same customer.
  • the single source data included in the hub database H corresponds to feature data representing customer characteristics, and parameters for representing common demographic attributes of the customer are used for combination with the post-processing database 155. 155 as a common parameter.
  • the data fusion processing unit 510 combines the hub database H with each post-processing database 155 provided from the data processing apparatus 10 so that a plurality of post-processing databases 155 can be connected to each other. Bind through H.
  • the coupling method is as described above. That is, the data fusion processing unit 510 combines the hub database H and the post-processing database 155 so as to combine feature data having similar features represented by the common parameters.
  • the combined database 557 expresses, for example, the relationship between the feature data of the hub database H and the feature data of each post-processing database 155 connected thereto by associating their identification numbers as in the above embodiment.
  • the identification number (A12345, B00044) of the feature data of the post-processing databases 155A and 155B associated with the identification number (H00001) of the feature data of the hub database H and combined with this feature data. Is described.
  • the number of samples shown in FIG. 8B is as described in FIG. 6C.
  • Single source data is a good representation of customer characteristics. Accordingly, if the hub database H and the post-processing database 155 are combined on the basis of the hub database H having single source data as characteristic data representing customer characteristics, the characteristic data between the post-processing databases 155 can be more appropriately obtained. Can be tied.
  • Single source data such as HABIT includes a variety of information representing customer characteristics.
  • the reference data used for combining can be changed. That is, the reference data used for combining the hub database H and the post-processing database 155 can be changed in accordance with the type of parameter that represents the customer characteristics of the post-processing database 155.
  • the customer demographic attribute is used as a common parameter between the hub database H and the post-processing database 155.
  • the parameter representing the parameter is included.
  • the hub database H and the post-processing database 155 can be combined by combining feature data having similar contact behavior with the customer network content represented by the common parameter.
  • the information processing system 1 includes a plurality of data processing devices 10 and a data combining device 50.
  • the data processing device 10 and the data combination device 50 have the same hardware configuration as the first embodiment and the second embodiment.
  • the description about the structure and process content similar to the 1st Example and 2nd Example in the information processing system 1 of 3rd Example is abbreviate
  • the information processing system 1 of the present embodiment includes customer related databases 1531L and 1531R shown in FIG. 9A as the customer related database 153.
  • the left area of FIG. 9A shows an example of a customer related database 1531L having customer purchase data obtained from the POS system as feature data related to the customer.
  • the right area of FIG. 9A shows an example of a customer-related database 1531R having feature data representing the usage status of a device used by a customer as feature data related to the customer.
  • An example of a device is a microwave oven.
  • the customer related database 1531L includes feature data for each settlement.
  • This characteristic data has parameters representing the sex, age, and residence of the customer as demographic attributes of the customer.
  • the feature data includes parameters indicating the purchase place, the product code, the number of purchases, and the unit price of the product purchased by the customer.
  • the product code includes, for example, a JAN code.
  • the customer related database 1531R includes feature data for each microwave oven.
  • the feature data includes parameters representing the sex and age of the customer who owns the microwave oven, the location of the microwave oven, and the parameters representing the functions and recipes by time zone utilized in the microwave oven.
  • the data processing apparatus 10 having the customer related database 1531L is configured to cluster, for example, a plurality of feature data having similar gender, age, and purchase history in the customer related database 1531L. Similar to the first embodiment, this data processing apparatus 10 performs, for each cluster, statistical processing on a plurality of feature data belonging to the same cluster, thereby integrating the feature data of the virtual customer by integrating a plurality of feature data belonging to the same cluster. Is generated for each cluster.
  • the data processing apparatus 10 generates a post-processing database 155 including feature data for each virtual customer corresponding to the customer-related database 1531L.
  • the feature data of the post-processing database 155 corresponding to the customer related database 1531L basically has the same parameters as the feature data of the customer related database 1531L.
  • the feature data in the post-processing database 155 indicates the statistic of the corresponding cluster as a parameter value.
  • the customer ID may be deleted at the time of processing.
  • the data processing apparatus 10 may be configured to collect the feature data of the settlement unit included in the customer related database 1531L for each feature data indicating the same customer ID and convert the feature data into individual feature data. Good. Furthermore, the data processing apparatus 10 generates a post-processing database 155 corresponding to the customer-related database 1531L by clustering and statistically processing a plurality of feature data having similar purchase histories based on a set of individual feature data. It may be configured to.
  • Another data processing apparatus 10 having a customer related database 1531R is configured to cluster a plurality of feature data having similar gender, age, function, and usage of recipes in the customer related database 1531R, for example. . Further, the data processing apparatus 10 performs, for each cluster, statistical processing of a plurality of feature data belonging to the same cluster, thereby generating feature data of the virtual device that integrates the plurality of feature data belonging to the same cluster for each cluster. Configured. In this way, the data processing apparatus 10 generates the post-processing database 155 including the feature data for each virtual device corresponding to the customer-related database 1531R.
  • the data combining device 50 is configured to generate a combined database 557 by combining the processed database 155 corresponding to the customer related database 1531L and the processed database 155 corresponding to the customer related database 1531R.
  • the data combination device 50 uses the parameters representing the sex and age of the customer that the post-processing database 155 has in common and the parameters related to the ingredients as reference data, and the reference data represents the post-processing database 155 to be combined.
  • the post-processing databases 155 to be combined can be combined so that feature data having similar features are combined.
  • Food parameter corresponds to a parameter representing the product code and the number of purchases included in the feature data in the post-processing database 155 corresponding to the customer related database 1531L.
  • “parameters relating to ingredients” corresponds to the recipe used.
  • the combined database 557 generated in this way it is possible to analyze the correspondence between sex, age, purchased ingredients, and recipe. Therefore, the recommended recipe corresponding to the ingredients often purchased by the user can be introduced to the user through the microwave oven. Moreover, the coupon of the foodstuff corresponding to a frequently used recipe can be attached to the receipt output from the POS register.
  • the customer-related databases 1531L and 1531R are both clustered for each feature data having similar features and statistically processed.
  • one of the customer related databases 1531L and 1531L may not be statistically processed.
  • the combined database 557 may be generated by combining the processed database 155 of the customer related database 1531L and the customer related database 1531R, or the combined database 155 of the customer related database 1531L and the customer related database 1531R. May be combined.
  • the former combined database 557 can be provided to the data provider of the customer related database 1531R.
  • the latter combined database 557 can be provided to the data provider of the customer related database 1531L, for example.
  • the information processing system 1 of the fourth embodiment is basically a system in which the configuration of the customer related database 153 is different from the first embodiment and the second embodiment.
  • the data processing device 10 and the data combination device 50 included in the information processing system 1 according to the present embodiment have the same hardware configuration as the first embodiment and the second embodiment.
  • the information processing system 1 of the present embodiment has customer related databases 1532L and 1532R shown in FIG. 9B as the customer related database 153.
  • the left area of FIG. 9B shows an example of a customer related database 1532L having customer purchase data obtained from the POS system as feature data related to the customer.
  • the right area of FIG. 9B shows an example of a customer-related database 1532R having feature data representing the usage status of the vending machine as feature data related to the customer.
  • beverage vending machines equipped with a liquid crystal display and a camera are known.
  • This vending machine has a function of discriminating the gender and age of a vending machine user from a photographed image of a camera, and displaying a recommended beverage through a liquid crystal display based on the discrimination result.
  • the combined database 557 helps determine recommended beverages to display on the vending machine.
  • the customer related database 1532L is configured in the same manner as the customer related database 1531L of the third embodiment.
  • This customer-related database 1532L includes feature data representing a purchase history regarding beverages.
  • the customer related database 1532R includes feature data for each beverage sale in each vending machine.
  • the feature data constituting the customer related database 1532R represents the installation location and manufacturer of the vending machine.
  • this feature data represents the weather and time at the time of beverage sales, and the gender and age as demographic attributes of the purchaser.
  • the feature data represents the product code, the number of purchases, and the unit price of the beverage purchased by the purchaser.
  • the feature data represents inventory information at the time of sale.
  • the installation location of the vending machine is represented by, for example, the latitude and longitude of the point where the vending machine is installed.
  • the data processing apparatus 10 having the customer-related database 1532L for example, clusters a plurality of feature data having similar gender, age, and purchase history in the customer-related database 1532L, and stores them in the customer-related database 1532L as in the third embodiment.
  • a corresponding post-processing database 155 is configured to be generated.
  • the data processing apparatus 10 having the customer related database 1532R clusters for example, a plurality of feature data having similar installation locations, manufacturers, inventory information, and the like in the customer related database 1532R. Then, by performing statistical processing on a plurality of feature data belonging to the same cluster for each cluster, feature data of a virtual device (vending machine) that integrates a plurality of feature data belonging to the same cluster is generated for each cluster. Configured.
  • the data processing apparatus 10 is configured to generate the post-processing database 155 including the feature data for each virtual device corresponding to the customer related database 1532R in this way.
  • the data combining device 50 is configured to generate a combined database 557 by combining the processed database 155 corresponding to the customer related database 1532L and the processed database 155 corresponding to the customer related database 1532R.
  • the data combining device 50 uses the parameters representing the sex and age of the customer and the parameters related to the location as reference data, and the feature data represented by the reference data are similar between the processed databases 155 to be combined. Are combined between the post-processing databases 155 to be combined.
  • location-related parameters correspond to parameters representing the purchase location of the feature data in the post-processing database 155 corresponding to the customer related database 1532L.
  • location parameter corresponds to a parameter representing the installation location of the vending machine.
  • the combined database 557 generated in this way for example, it is possible to analyze a correspondence relationship between consumer purchase behavior at a store such as a convenience store or a supermarket and consumer purchase behavior at a vending machine. it can. Therefore, on the basis of this combined database 557, in the vending machine, beverages that the purchase layer corresponding to the age and gender of the user standing in front of the vending machine often purchases at the store in the same area are given to the user. Can be recommended. At the store, a coupon for a hot selling beverage corresponding to the age and sex of the purchaser can be attached to the receipt output from the POS register with the vending machine in the same region.
  • one of the customer related database 1532L and the customer related database 1532R may not be statistically processed. That is, the combined database 557 may be a combination of the processed database 155 of the customer related database 1532L and the customer related database 1532R, or the combined database 155 of the customer related database 1532L and the customer related database 1532R. May be combined. This technical idea can also be applied to fifth to eighth embodiments described later.
  • the information processing system 1 of the present embodiment includes customer related databases 1533L and 1533R shown in FIG. 10A as the customer related database 153.
  • FIG. 10A shows an example of a customer-related database 1533L having feature data representing features of a user who owns a mobile terminal typified by a smartphone as feature data related to the customer.
  • a customer-related database 1533R having feature data representing the usage status of a station as feature data relating to a customer is shown.
  • the customer-related database 1533L has characteristic data for each mobile terminal.
  • This feature data represents sex, age, and residence as demographic attributes of the user who owns the mobile terminal. Furthermore, this feature data represents the user's movement history and the weather at each movement point. Furthermore, this feature data represents the usage status of coupons used by the user through an application program installed in the mobile terminal.
  • the customer related database 1533R has characteristic data for each combination of station, ticket gate, weather, and time zone.
  • the characteristic data composing the customer related database 1533R represents the gender and age of the passerby of the ticket gate, the passage time zone, and the weather at the time of passage as the corresponding station and ticket gate traffic data.
  • the passerby's gender and age can be obtained from information on commuter passes or from images taken by a camera.
  • the data processing apparatus 10 having the customer related database 1533L clusters for example, a plurality of feature data having similar gender, age, movement status, and coupon usage status in the customer related database 1533L. Then, by performing statistical processing on a plurality of feature data belonging to the same cluster for each cluster, feature data of the virtual portable terminal in which the plurality of feature data belonging to the same cluster are integrated is generated for each cluster. In this way, the data processing apparatus 10 generates a post-processing database 155 that includes feature data for each virtual mobile terminal corresponding to the customer-related database 1533L.
  • the data processing apparatus 10 having the customer related database 1533R clusters feature data having similar features in the customer related database 1533R. Then, by performing the statistical processing for each cluster, a post-processing database 155 including feature data for each virtual combination regarding a combination of a station, a ticket gate, weather, and a time pair is generated.
  • the data combining device 50 is configured to generate a combined database 557 by combining the processed database 155 corresponding to the customer related database 1533L and the processed database 155 corresponding to the customer related database 1533R.
  • the data combining device 50 uses, as reference data, parameters representing sex and age that the post-processing database 155 has in common and parameters related to location and weather as reference data, and the reference data between the post-processing databases 155 to be combined.
  • the post-processing databases 155 to be combined are combined so that feature data having similar features represented by can be combined.
  • the combined database 557 generated in this way for example, it is possible to analyze the correspondence relationship between the behavior of the consumer and the coupon usage situation around the station and the tendency of passers-by at the station and the ticket gate. Therefore, based on this combined database 557, coupons for the purpose of promoting the use of stores near the station can be appropriately distributed to the mobile terminal of the user who has passed through the ticket gate.
  • the information processing system 1 includes customer related databases 1534L and 1534R illustrated in FIG. 10B as the customer related database 153.
  • FIG. 10B In the left area of FIG. 10B, an example of a customer related database 1534L having characteristic data of customers who own ETC cards is shown.
  • the ETC card is a credit card for an electronic toll collection (ETC) system in a toll road network that is popular in Japan.
  • the right area of FIG. 10B shows an example of a customer-related database 1534R having feature data for each combination of interchange and passing gate as feature data related to a customer.
  • the customer related database 1534L has characteristic data for each ETC card.
  • This feature data represents the ID of the vehicle-mounted device associated with the ETC card.
  • the feature data represents the gender, age and residence of the customer who owns the ETC card.
  • this characteristic data represents the ID of the traffic gate and the traffic date and time.
  • the characteristic data constituting the customer related database 1534R represents the ETC card number, the vehicle-mounted device ID, and the traffic date and time of the vehicle that has passed through the corresponding traffic gate of the corresponding interchange. Further, the feature data includes the number of vehicles passing and peripheral facility information.
  • the data processing apparatus 10 having the customer related database 1534L clusters for example, a plurality of feature data having similar gender, age, and movement status in the customer related database 1534L. Then, by performing statistical processing on a plurality of feature data belonging to the same cluster for each cluster, feature data for each virtual customer (card) that integrates the plurality of feature data belonging to the same cluster is generated for each cluster. In this manner, the data processing apparatus 10 generates a post-processing database 155 that includes feature data for each virtual customer (card) corresponding to the customer-related database 1534L.
  • the data processing apparatus 10 having the customer related database 1534R clusters feature data having similar features in the customer related database 1534R. Then, by performing the statistical processing for each cluster, a post-processing database 155 including feature data for each virtual transit gate is generated.
  • the data combining device 50 is configured to combine the post-processing database 155 corresponding to the customer-related database 1534L and the post-processing database 155 corresponding to the customer-related database 1534R to generate a combined database 557.
  • coupons for the purpose of promoting the use of facilities around the pass gate can be appropriately distributed to customers through an in-vehicle device such as a car navigation device or a credit card company.
  • the information processing system 1 includes customer related databases 1535L and 1535R illustrated in FIG. 11A as the customer related database 153.
  • FIG. 11A shows an example of a customer-related database 1535L having feature data for each passerby passing in front of digital signage as feature data related to the customer for each digital signage.
  • the right area of FIG. 11A shows an example of a customer-related database 1535R having feature data for each passerby passing through the ticket gate as feature data relating to the customer for each ticket gate at each station.
  • the feature data included in the customer-related database 1535L represents the installation location of the digital signage.
  • the feature data represents the passerby's gender, age, and passage date and time.
  • the sex and age of the passerby can be determined from an image taken by a digital signage or a camera installed in the vicinity thereof.
  • the feature data may be data representing the number of people passing by time zone near the digital signage, the number of viewers of digital signage by time zone, and the placement information by time zone.
  • the feature data for each passer-by included in the customer-related database 1535R represents the passer's gender, age and pass date, and the ID of the pass ticket gate and the ID of the station having the ticket gate.
  • the data processing apparatus 10 having the customer-related database 1535L clusters, for example, feature data having similar characteristics of passers-by in the customer-related database 1535L. Then, by performing statistical processing on a plurality of feature data belonging to the same cluster for each cluster, virtual passerby feature data integrating the plurality of feature data belonging to the same cluster is generated for each cluster. In this way, the data processing apparatus 10 generates a post-processing database 155 including feature data for each virtual passerby corresponding to the customer-related database 1535L.
  • the data processing apparatus 10 having the customer-related database 1535R clusters for example, feature data having similar characteristics of passers-by in the customer-related database 1535R.
  • the post-processing database 155 provided with the characteristic data for every virtual passerby is produced
  • the data combining device 50 is configured to generate a combined database 557 by combining the processed database 155 corresponding to the customer related database 1535L and the processed database 155 corresponding to the customer related database 1535R.
  • the data combining device 50 uses the parameters representing the passersby's sex and age, and the parameters related to the location, which are shared by the post-processing database 155 as reference data, and refers to the post-processing database 155 to be combined.
  • the post-processing databases 155 to be combined are combined so that feature data having similar features represented by the data are combined.
  • “Location parameter” corresponds to a parameter representing the installation location of the digital signage included in the feature data in the post-processing database 155 corresponding to the customer related database 1535L.
  • the “parameter relating to location” corresponds to a parameter representing a station and a ticket gate.
  • the combined database 557 generated in this way for example, it is possible to analyze the correspondence between passers at the ticket gate and passers-by before digital signage. Therefore, the advertisement displayed on the digital signage can be appropriately switched according to the change of the passerby at the ticket gate.
  • the information processing system 1 includes customer-related databases 1536L and 1536R illustrated in FIG. 11B as the customer-related database 153.
  • FIG. 11B left area shows an example of a customer-related database 1536L having feature data for each passerby reflected in a camera monitoring area as feature data relating to a customer.
  • the right area of FIG. 11B shows an example of a customer-related database 1536R having feature data representing the usage status of beverage vending machines as feature data related to customers.
  • the feature data included in the customer-related database 1536L represents a place (monitoring area) and time zone where a passerby is shown.
  • the feature data represents the passerby's gender and age.
  • the characteristic data may represent a staying time or a passing time of a passerby.
  • the customer related database 1536R includes characteristic data for each beverage sale in each vending machine.
  • the feature data constituting the customer related database 1536R is configured in the same manner as the feature data included in the customer related database 1532R in the fourth embodiment.
  • the data processing apparatus 10 having the customer-related database 1536L clusters feature data with similar characteristics of passers-by in the customer-related database 1536L. Then, by performing statistical processing on a plurality of feature data belonging to the same cluster for each cluster, virtual passerby feature data integrating the plurality of feature data belonging to the same cluster is generated for each cluster. In this way, the data processing apparatus 10 generates a post-processing database 155 that includes feature data for each virtual passerby corresponding to the customer-related database 1536L.
  • the data processing apparatus 10 having the customer-related database 1536R generates a post-processing database 155 including feature data for each virtual purchaser by clustering for each feature data having similar purchaser characteristics in the customer-related database 1536R.
  • the data combining device 50 is configured to combine the post-processing database 155 corresponding to the customer-related database 1536L and the post-processing database 155 corresponding to the customer-related database 1536R to generate a combined database 557.
  • the data combining device 50 uses the parameters representing the gender and age that the post-processing database 155 has in common and the parameters related to the location as reference data, and the reference data is transferred between the post-processing databases 155 to be combined.
  • the post-processing databases 155 to be combined are combined so that feature data having similar features to be expressed are combined.
  • the “parameter regarding location” corresponds to a parameter representing a location where a passerby included in the feature data is reflected in the post-processing database 155 corresponding to the customer related database 1536L.
  • the “parameter relating to location” corresponds to a parameter representing the installation location of the vending machine.
  • the combined database 557 generated in this way for example, it is possible to analyze the correspondence between the distribution and staying time of passers-by and the purchasing behavior of the vending machine. This analysis result can be used for vending machine inventory management, assortment, and recommendation display.
  • the present disclosure is not limited to the above-described embodiments, and can take various forms.
  • the example in which the customer groups between the databases to be combined (the processed database 155 or the customer related database 153) do not match has been described.
  • the techniques of this disclosure may be used to join between databases that represent different types of features for the same customer group.
  • the technology of the present disclosure may be used to combine purchase data at a convenience store and purchase data at a supermarket for the same customer group. Any aspect included in the technical idea specified from the wording of the claims is an embodiment of the present disclosure.
  • the calculation unit 11 (particularly the clustering processing unit 110 and the processing processing unit 115) included in the data processing apparatus 10 corresponds to an example of a generation unit.
  • the calculation unit 51 (particularly the data fusion processing unit 510) included in the data combining device 50 corresponds to an example of a combining unit.
  • the storage unit 55 included in the data combination device 50 corresponds to an example of a storage unit.
  • a set of feature data constituting a database (customer-related database 153 / processed database 155), or a person, an item (for example, a portable terminal / a vending machine / a microwave oven / card) corresponding to this set, or a place (for example, A set of ticket gates / passage gates) corresponds to an example of a group.
  • the elements of this set correspond to an example of a construct.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

 情報処理システムは、記憶ユニット(55)と結合ユニット(51)とを備える。結合ユニットは、記憶ユニットが記憶する第一及び第二のデータベース(155)を結合するように構成される。第一のデータベースは、第一のグループの構成体毎の特徴データに基づき、特徴が一致又は類似する複数の構成体の特徴データを統合した仮想構成体毎の特徴データを備える。第二のデータベースは、第二のグループにおける構成体毎の特徴データを備える。第一及び第二のデータベースが備える特徴データの夫々は、共通する種類の特徴を表す参照データを含む。結合ユニットは、第一のデータベースと第二のデータベースとの間で参照データが表す特徴が一致又は類似する特徴データ同士を結合するように、第一のデータベースと第二のデータベースとを結合する。

Description

情報処理システム 関連出願の相互参照
 本国際出願は、2014年8月8日に日本国特許庁に出願された日本国特許出願第2014-162623号及び2015年1月6日に日本国特許庁に出願された日本国特許出願第2015-000945号に基づく優先権を主張するものであり、日本国特許出願第2014-162623号及び日本国特許出願第2015-000945号の全内容を本国際出願に援用する。
 本開示は、データベースを取り扱う情報処理システムに関する。
 従来、商品の販売データに基づき顧客の購買行動を解析することが行われている。商業活動に役立てるために、顧客によるマスメディアやネットワークコンテンツへの接触行動を解析することも行われている。
 アンケート形式や対面での質問形式により、顧客の購買行動、マスメディア/ネットワークコンテンツへの接触行動、及び、ライフスタイル等の多様な情報を収集することも行われている。
 近年では、こうした顧客に関するデータを備える巨大なデータベースを、各企業が有している。しかしながら、各企業は、個人情報保護を主な理由として、これらの顧客に関するデータを外部に提供することに消極的である。これらのデータは、それを保有する企業から外部に提供される場合、暗号化されて提供されたり、顧客の特定に繋がる情報が大幅に削除されて提供されたり、意図的に誤り(ノイズ)を含むように変更された状態で提供されたりする(特許文献1参照)。
特開2014-109647号公報
 上述したように、データ保有企業からの顧客に関するデータの提供は、個人情報保護の観点から限られている。顧客に関するデータに限らず、粒度の細かなデータに関しても、その情報価値の高さや提供に起因する不利益発生への懸念から、データ保有企業がデータ提供に消極的になりがちである。このため、従来技術によれば、社会に存在する各種データを有効に活用することが難しい。
 従って、本開示の一側面では、社会に存在する各種データを有効活用可能な、データベースに関する新規技術を提供できることが望ましい。
 本開示の一側面に係る情報処理システムは、第一のデータベース及び第二のデータベースを記憶するように構成される記憶ユニットと、第一のデータベースと第二のデータベースとを結合するように構成される結合ユニットとを備える。本開示の一側面において、情報処理システムは、第一のデータベースを生成するように構成される生成ユニットを更に備えてもよい。
 第一のデータベースは、第一のグループの構成体に関する仮想構成体毎の特徴データを備えるデータベースである。この仮想構成体毎の特徴データは、第一のグループの構成体毎の特徴データに基づき、特徴が一致又は類似する複数の構成体の特徴データを統合して生成され得る。構成体の特徴データは、その構成体に関する特徴を表す。例えば、生成ユニットは、第一のグループにおいて、特徴が一致又は類似する複数の構成体毎に、当該複数の構成体の特徴データを統計処理することにより、特徴が一致又は類似する複数の構成体の特徴データを統合して、仮想構成体毎の特徴データを生成する構成にされ得る。
 第二のデータベースは、第二のグループの構成体毎の特徴データを備える。第二のグループは、第一のグループとは同一又は別のグループである。第一及び第二のデータベースが備える特徴データの夫々は、結合時に参照される参照データであって、第一のデータベースと第二のデータベースとの間で共通する種類の特徴を表す参照データを含むように構成される。
 結合ユニットは、第一のデータベースと第二のデータベースとの間で参照データが表す特徴が一致又は類似する特徴データ同士を結合するように、第一のデータベースと第二のデータベースとを結合する。
 本開示の一側面に係る情報処理システムによれば、複数の特徴データが統合されて、上記仮想構成体毎の特徴データを備えるデータベースが生成される。仮想構成体の特徴データは、複数の構成体の特徴が混合されたデータである。例えば、第一のグループが顧客の集合であり、統合前の特徴データが一人の顧客の特徴を表す単一顧客の特徴データである場合、仮想構成体の特徴データは、複数顧客の特徴が混合されたデータに対応する。
 構成体毎の特徴データを仮想構成体毎の特徴データに変換すれば、特徴データの情報粒度を大きくすることができ、これにより詳細な情報に対する情報保護を図ることができる。従って、本開示の一側面によれば、情報保護を理由とするデータ保有者によるデータ提供の障壁を小さくすることができる。従って、本開示の一側面によれば、社会に存在する各種データを有効活用可能なシステムを提供し得る。
 上述した特徴が一致又は類似する複数の構成体は、特徴が一致する構成体と特徴が類似する構成体との両方が混在する集合であり得る。本明細書における用語「類似」は、「一致」を下位概念に含む広義の用語として理解されてよい。
 特徴が一致又は類似する複数の構成体の特徴データを統合する際には、周知のクラスタリング技術(分類技術)を用いることが可能である。クラスタリング技術としては、言語処理、パターン認識、及び、人工知能等の分野で様々なものが知られている。良く知られるクラスタリング技術としては、k-means(k平均法)、及び、BIRCH(平衡木による階層クラスタリング)等のハードクラスタリング技術、LSA(潜在意味解析)、pLSA(確率的潜在意味解析)、及び、LDA(潜在的ディリクレ配分法)等のソフトクラスタリング技術が知られている。
 本開示の一側面において、生成ユニットは、これら周知のクラスタリング技術、又は、その他のクラスタリング技術を用いて、第一のグループに関する特徴データの集合を、特徴が一致又は類似する複数の特徴データ毎に分けるようにクラスタ化する構成にされ得る。この生成ユニットは、クラスタ毎に、このクラスタに対応する複数の特徴データを統合するように構成され得る。
 本開示の一側面において、生成ユニットは、クラスタ毎に、クラスタに対応する複数の特徴データを統計処理する構成にされ得る。具体的には、生成ユニットは、クラスタ毎に、クラスタに対応する複数の特徴データが有する各パラメータについての統計量を算出する構成にされ得る。統計量の例には、平均値、最大値、最小値、及び、分布を表す値(割合等)が含まれる。特徴データのパラメータ値、及び、その統計量は、スカラー量であってもよいしベクトル量であってもよい。仮想構成体の特徴データは、クラスタ毎に生成され得る。本開示の一側面において、仮想構成体の特徴データは、上記統計量を、仮想構成体に関する特徴を表すパラメータ値として含むように生成され得る。
 上記第一のデータベースは、上記生成ユニットによって生成されてもよいし、人による手作業によって生成されてもよいし、その他の方法(例えば、コンピュータによる情報処理と人による手作業との組合せ)によって生成されてもよい。
 本開示の一側面においては、上記第二のデータベースも、第一のデータベースと同様に生成され得る。第二のデータベースが備える構成体毎の特徴データは、仮想構成体毎の特徴データであり得る。この仮想構成体毎の特徴データは、第一のグループとは同一又は別のグループの構成体毎の特徴データに基づき、特徴が一致又は類似する複数の構成体の特徴データを統合して生成され得る。本開示の一側面において、情報処理システムは、第二のデータベースを生成する生成ユニットを備えていてもよい。
 本開示の一側面において、第二のデータベースは、上記統合のなされていない特徴データを備えるデータベースであってもよい。第二のデータベースは、特徴データとしてシングルソースデータを備え得る。シングルソースデータの夫々は、単一の情報源から収集された情報に基づくデータである。シングルソースデータは、統計化及びモデル化されていない構成体の特徴データであって、単一の構成体に関する特徴を表す特徴データであり得る。
 上述した第一及び第二のグループの夫々は、人、物、サービス、及び場所の少なくとも一つの集合であり得る。上記構成体は、この集合の要素であり得る。即ち、上記構成体は人、物、サービス、及び場所のいずれかであり得る。物、サービス、及び場所は、人に関連する物、サービス、及び場所であり得る。
 本開示の一側面によれば、第一のグループ及び第二のグループの一方が、人の集合であり、第一のグループ及び第二のグループの他方が、物、サービス、及び場所の少なくとも一つの集合であってもよい。第一及び第二のグループの夫々が、物、サービス、及び場所の少なくとも一つの集合であってもよい。
 本開示の一側面によれば、情報処理システムは、互いに同一又は異なるグループについてのデータベースを生成するように構成される複数の生成ユニットと、複数の生成ユニットにより生成された複数のデータベースを結合するように構成される結合ユニットと、を備えた構成にされてもよい。生成ユニットの夫々は、対応するグループの構成体毎の特徴データに基づき、特徴が一致又は類似する複数の構成体の特徴データを統合した仮想構成体毎の特徴データを備えるデータベースを生成するように構成され得る。
 複数のデータベースが備える特徴データの夫々は、結合時に参照される参照データであって、結合対象のデータベースと共通する種類の特徴を表す参照データを含んでよい。結合ユニットは、複数のデータベース間で、参照データが表す特徴が一致又は類似する特徴データ同士を結合するように、複数のデータベースを結合する構成にされ得る。
 本開示の一側面によれば、仮想構成体毎の特徴データを備える複数のデータベースを記憶するように構成される記憶ユニットと、記憶ユニットが記憶する複数のデータベースを結合するように構成される結合ユニットと、を備えた情報処理システムが提供されてもよい。この情報処理システムによっても、社会に存在するデータを有効活用可能である。
 本開示の一側面において、結合ユニットは、上記複数のデータベース間を、複数のデータベースとは同一又は異なるグループについてのデータベースであって、グループの構成体毎に特徴データとしてシングルソースデータを備える特定種のデータベースを介して結合する構成にされてもよい。シングルソースデータは、データベースの結合時に参照される参照データであって、結合対象のデータベースと共通する種類の特徴を表す参照データを含み得る。
 本開示の一側面において、結合ユニットは、参照データが表す特徴が一致又は類似する特徴データ同士を結合するように、上記特定種のデータベースと、それ以外のデータベースの夫々とを結合することにより、複数のデータベース間を、特定種のデータベースを介して結合する構成にされ得る。
 シングルソースデータは、上記統合がなされていないという点で構成体の特徴を良く表す。従って、シングルソースデータを介して各データベースを結合することにより、データベース間における仮想構成体毎の特徴データを一層適切に結びつけることができる。
 本開示の一側面において、上述した生成ユニット及び結合ユニットとしての機能は、ハードウェアにより実現することができる。これら各ユニットとしての機能は、プログラムにより、コンピュータに実現させてもよい。これら各ユニットとしての機能は、複数のコンピュータにより分散して実現されてもよい。コンピュータには、これらのユニットの少なくとも一つとしての機能をコンピュータに実現させるためのプログラムを提供することができる。プログラムは、半導体製メモリ、磁気ディスク及び光ディスク等のコンピュータ読取可能な一時的でない記録媒体に記録され得る。
 本開示の一側面によれば、生成ユニット及び結合ユニットの少なくとも一方としての機能をコンピュータに実現させるためのプログラムを記憶するコンピュータ読取可能な一時的でない記録媒体が提供されてもよい。本開示の一側面によれば、コンピュータ(プロセッサ)と、メモリとを備え、メモリが上記プログラムを記憶した情報処理システムが提供されてもよい。
 本開示の一側面によれば、上記第一のデータベースを生成又は取得する手順と、第一のデータベースを上記第二のデータベースと結合する手順と、を備えるデータベース結合方法が提供されてもよい。本開示の別側面によれば、第一のデータベースを生成又は取得する手順と、第二のデータベースを生成又は取得する手順と、第一のデータベースと第二のデータベースとを結合する手順と、を備えるデータベース結合方法が提供されてもよい。
 上述したデータベースは、顧客に関するデータベースであってもよい。データベースは、顧客に対応する人、物、サービス、及び場所の少なくとも一つの特徴を表す特徴データを備えた構成にされ得る。本開示の一側面に係る情報処理システムによれば、顧客の個人情報を保護しながら、結合ユニットに顧客に関するデータを提供し得る。結合ユニットは、データ提供元の異なる顧客に関するデータを結合したデータベースを生成することができる。
 データベースの夫々が、顧客の特徴を表す特徴データを備える場合、上記参照データは、顧客のデモグラフィック属性を表すデータとして構成され得る。デモグラフィック属性は、様々な企業な保有する顧客に関するデータに含まれる。このようなデモグラフィック属性を表す参照データに基づき、データベース間を結合すれば、異なるデータベース間の特徴データを適切に結合することができる。勿論、参照データは、デモグラフィック属性以外の顧客の特徴を、デモグラフィック属性に加えて、又は、代えて表すデータであってもよい。
 顧客に関する特徴データには、参照データ以外の非参照データとして、顧客の消費行動、マスメディアへの接触行動、ネットワークコンテンツへの接触行動、ライフスタイル、価値観、及び、ブランド意識の少なくとも一つの特徴を表すデータが含まれてもよい。こうした顧客に関する多様な情報を含む特徴データ同士を、データベース間で結合すれば、結合後のデータベースから、顧客(消費者)に関する多種の有意義な統計情報を解析により抽出することができる。
 ここで例として挙げた非参照データは、参照データにもなり得る。参照データは、複数のデータベースの内、直接的に結合されるデータベース間において、共通する種類の特徴を表すデータであればよい。
第一実施例の情報処理システムの構成を表すブロック図である。 図2Aは、データ加工装置の構成を表すブロック図であり、図2Bは、データ加工装置の演算部で実行される処理を表すブロック図である。 図3A-3Dは、顧客関連データベースが有する特徴データの構成を表す図である。 加工後データベースの例を説明した図である。 図5Aは、データ結合装置の構成を表すブロック図であり、図5Bは、データ結合装置の演算部で実行される処理を表すブロック図である。 加工後データベースの結合例を説明した図である。 結合対象の加工後データベースの構成を例示する図である。 加工後データベースに基づく結合データベースの構成例を表す図である。 結合データベースの解析例を説明した図である。 第二実施例における加工後データベースの結合例を説明した図である。 第二実施例における結合データベースの構成例を表す図である。 第三実施例における顧客関連データベースの構成を説明した図である。 第四実施例における顧客関連データベースの構成を説明した図である。 第五実施例における顧客関連データベースの構成を説明した図である。 第六実施例における顧客関連データベースの構成を説明した図である。 第七実施例における顧客関連データベースの構成を説明した図である。 第八実施例における顧客関連データベースの構成を説明した図である。
 以下に本開示の実施例を図面と共に説明する。
 [第一実施例]
 図1に示す本実施例の情報処理システム1は、複数のデータ加工装置10と、データ結合装置50と、を備える。データ加工装置10は、企業が保有する顧客に関するデータベース153を加工し、加工後データベース155をデータ結合装置50に提供する。データ加工装置10は、顧客に関するデータベース153を保有する企業側に配置される。
 以下では、顧客に関するデータベース153のことを顧客関連データベース153と表現する。顧客関連データベース153を加工して提供する企業のことをデータ提供元と表現する。顧客関連データベース153は、顧客に関する特徴データの一群を備える。
 特徴データとしては、顧客の消費行動、マスメディアへの接触行動、ネットワークコンテンツへの接触行動、ライフスタイル、価値観、及び、ブランド意識の少なくとも一つの特徴を、顧客の識別ID又はデモグラフィック属性と共に表すデータを一例に挙げることができる。
 上記顧客の識別IDは、顧客のデモグラフィック属性を表すデータを、顧客情報を記憶するデータベースから引出可能な識別コードであり得る。顧客の消費行動には、顧客の購買行動が含まれる。
 例えば、上記特徴データは、顧客のデモグラフィック属性と共に、顧客の購買データを有した構成にされ得る。購買データは、購入商品及び/又は購入金額を表すデータであり得る。この場合、顧客関連データベース153は、顧客毎及び決済毎の特徴データを有し得る。
 データ加工装置10は、顧客関連データベース153が有する上記特徴データの一群に基づき、特徴が類似する複数の特徴データを一つの特徴データに統合するように加工する。本明細書で用いる用語「類似」は、「一致」を下位概念に含む広義の用語として理解されてよい。データ加工装置10は、加工後の特徴データを、仮想顧客の特徴データとして備えるデータベースを、上記加工後データベース155として生成する。本明細書では、加工後の顧客関連データベースのことを加工後データベース155とも表現する。加工後データベース155は、例えば、複数の顧客に対応する仮想顧客毎に、この仮想顧客の特徴データを備える。
 加工後データベース155は、例えば通信によりデータ結合装置50に提供される。データベースの漏洩を防ぐために、通信には、暗号鍵や専用回線を用いることができる。別例として、加工後データベース155は、持ち運び可能であってコンピュータ読取可能な記録媒体に保存され、当該記録媒体の運搬によりデータ結合装置50側に提供され得る。記録媒体としては、半導体製メモリ、CD-ROM及びDVD等の光ディスク、並びに、ハードディスク等の磁気ディスクを一例に挙げることができる。
 データ結合装置50は、データ加工装置10の夫々から提供される複数の加工後データベース155を結合して、結合データベース557を生成する。データ提供元としては、上述したように、特徴データとして顧客の購買データを含む顧客関連データベース153を備える企業を一例に挙げることができる。
 購買データを有する企業としては、コンビニエンスストア、スーパーマーケット及び/又は百貨店等を運営する小売(物販)業者、自動販売機を運営する企業、電子マネーによる決済サービスを提供する企業、並びに、クレジットカードによる決済サービスを提供する企業を一例に挙げることができる。
 小売業者によれば、POSシステム等を通じて得られる決済毎の購買データが蓄積されたデータベースを有する。POSシステムとしては、顧客を特定可能なID-POSシステムが知られている。
 小売業者では、決済時にポイントカードの提示を顧客から受けて、ポイントカードから特定される顧客IDと関連付けて購買データを蓄積することにより、顧客を特定可能な決済毎の購買データを備えるデータベースを構築することも行われている。決済時に、販売員が見た目から判別される顧客の性別及び年齢を入力することで、顧客のデモグラフィック属性と購買データとを関連付けるように、決済毎の購買データを蓄積することも行われている。
 データ結合装置50は、このようなデータ提供元の異なる、購買データを含む加工後データベース155の複数を結合することで、一企業では構築することのできない巨大なデータベースを構築することができる。例えば、広範囲の商品についての顧客(消費者)の購買行動を解析可能な結合データベース557を生成することができる。
 図2Aに示すように、データ加工装置10の夫々は、演算部11、記憶部15、入力部17、及び、出力部19を備える。演算部11は、各種プログラム151に従う処理を実行するCPU13を備える。更に演算部11は、CPU13による処理実行時に作業メモリとして使用されるRAM14を備える。演算部11は、CPU13における上記処理の実行により、図2Bに示すように、クラスタリング処理部110及び加工処理部115として機能する。
 記憶部15は、演算部11を、クラスタリング処理部110及び加工処理部115として機能させるためのプログラムを含む各種プログラム151、及び、加工前の顧客関連データベース153を記憶する。更に記憶部15は、この顧客関連データベース153の加工によって生成される加工後データベース155を記憶するように構成される。
 顧客関連データベース153を構成するデータは、入力部17から入力される。入力部17は、顧客関連データベース153を構成するデータを記録媒体から取込可能なインタフェースであってもよいし、当該データを企業内システムから通信により取込可能なインタフェースであってもよい。
 図3A-3Dには、顧客関連データベース153が備える特徴データ(レコード)の例を示す。図3Aに示す例によれば、特徴データは、顧客のデモグラフィック属性として、顧客の性別及び年齢を表すパラメータを有する。更に、この特徴データは、顧客が購入した商品に関するパラメータとして、商品の購入場所、JAN(Japanese Article Number)コード、購入数、及び、商品単価を表すパラメータを有する。JANコードは、日本国において、広く普及している商品コードである。図3Aに示すような購入商品の詳細情報を含む顧客関連データベース153は、例えばコンビニエンスストアやスーパーマーケット等の小売業者が有する。
 図3Bに示す別例によれば、特徴データは、顧客のデモグラフィック属性として、顧客の性別及び年齢を表すパラメータを有する。更に、この特徴データは、顧客が購入した商品に関するパラメータとして、商品の購入場所及び購入金額を表すパラメータを有する。図3Bに示すような特徴データを含む顧客関連データベース153は、例えばクレジットカード会社が有する。この顧客関連データベース153は、小売業者と比較して莫大な購買データを有する点で、小売業者が有する顧客関連データベース153よりも優れているが、具体的な購入商品までを特定することができない点で、小売業者が有する顧客関連データベース153とは相互に補完関係にある。
 図3Cに示す別例によれば、特徴データは、顧客のデモグラフィック属性として、顧客の性別、年齢及び職業を表すパラメータを有する。更に、この特徴データは、顧客のマスメディアとの接触状況に関するパラメータとして、複数のマスメディア(新聞/雑誌/ラジオ/テレビ/映画等)についての利用状況を表すパラメータを有する。例えば、利用状況を表すパラメータは、該当するマスメディアを顧客が利用(購読/視聴等)している場合には値1を示し、利用していない場合には値0を示す。この種の情報は、例えば、アンケート形式又は対話形式により収集されて、特徴データとして顧客関連データベース153に蓄積される。この種の顧客関連データベース153は、通常、マスコミュニケーションに関する企業が有し、小売業者が有さないデータベースである。
 図3Dに示す別例によれば、特徴データは、顧客のデモグラフィック属性として、顧客の性別、年齢及び居住地域を表すパラメータを有する。更に、この特徴データは、顧客によるネットワークコンテンツとの接触状況に関するパラメータとして、複数のインターネットサイトについての利用状況を表すパラメータを有する。例えば、利用状況を表すパラメータは、該当するサイトを顧客が利用(訪問)している場合には値1を示し、利用していない場合には値0を示す。この種の情報は、例えば、予め顧客からの同意を得て顧客の情報端末にインストールされたアクセスログ生成プログラムを通じて特定のサーバに蓄積される。この顧客関連データベース153は、通常、IT企業が有し、小売業者が有さないデータベースである。
 出力部19は、上述した顧客関連データベース153に基づく加工後データベース155をデータ加工装置10から外部に取り出し可能な構成にされる。例えば、出力部19は、加工後データベース155を通信によりデータ結合装置50に提供可能な通信インタフェース、又は、加工後データベース155を記録媒体に出力可能なインタフェースを有した構成にされる。
 クラスタリング処理部110は、記憶部15が記憶する加工前の顧客関連データベース153から、特徴データの集合を読み出し、これら特徴データの集合を、特徴が類似する複数の特徴データ毎にクラスタ化する。クラスタリングの手法としては、上述した周知の手法を採用することができる。
 簡単なクラスタリング手法としては、特徴データの夫々を、特徴ベクトルとして特徴空間上に配置し、特徴ベクトル間のコサイン類似度に基づいて、特徴が類似する特徴データを特定し、クラスタ化する手法を一例に挙げることができる。
 顧客の特徴が類似する特徴ベクトルの一群が、特徴空間上で他の特徴ベクトルと良く分離するように、次元削減行列を特徴ベクトルの夫々に作用させることも可能である。次元削減行列の調整によって、より適切なクラスタリングが可能である。
 クラスタリング技術としては、pLSA(確率的潜在意味解析)のように、一つの特徴データを、確率的に複数のクラスタに分類する技術も知られている。一つの特徴データの80%を第一のクラスタに分類し、残りの20%を第二のクラスタに分類するといった具合である。
 どのように特徴の類似性を判断し、特徴データの一群をクラスタ化するかは、結合データベース557に基づくデータ解析の目的を考慮して、データ結合装置50の運営者が決定することができる。データ結合装置50の運営者は、クラスタリング処理部110及び加工処理部115として演算部11を機能させるためのプログラムを、データ提供元に提供して、データ解析目的に良く適合した加工後データベース155をデータ提供元から取得することができる。
 一側面において、情報処理システム1は、データ提供元が保有する顧客関連データベース153に対する統計処理により、個人情報を保護した加工後データベース155を生成するものであり得る。この場合、クラスタリングは、クラスタの夫々が統計処理(統合)により個人情報保護可能な個数以上の特徴データを含むように、行われるのが好ましい。個人情報保護可能な個数以上の特徴データを含まないクラスタが生じる場合には、そのクラスタに属する特徴データを、加工処理部115における処理対象とせずに破棄することが考えられる。
 加工処理部115は、クラスタリング処理部110によりクラスタ化された複数の特徴データ毎に、換言すればクラスタ毎に、これら同一クラスタに属する複数の特徴データを統合するための統計処理を行う。具体的に、加工処理部115は、クラスタ毎に、同一クラスタに属する複数の特徴データが有する各パラメータについての統計量を算出し、これらの統計量をパラメータ値として含む特徴データを、クラスタに対応する仮想顧客の特徴データとして生成する処理を行う。加工処理部115は、全てのクラスタに関して、クラスタ毎に一つの仮想顧客の特徴データを生成することにより、これらの特徴データを備える加工後データベース155を生成し、これを記憶部15に書き込む。
 図4に示す例によれば、加工処理部115は、性別のパラメータに関する統計量として、クラスタ内の特徴データが表す性別の比を算出し、この比を、クラスタに対応する仮想顧客の特徴データにおいて性別のパラメータ値として記載する。加工処理部115は、年齢のパラメータに関する統計量として、クラスタ内の特徴データが表す年齢の平均を算出し、この平均をクラスタに対応する仮想顧客の特徴データにおいて年齢のパラメータ値として記載する。
 図4上段に示す例によれば、加工前の特徴データは、JANコードと購入場所との組合せ毎に、顧客が該当JANコードの商品を該当購入場所で購入した金額の合計を表す購買パラメータを有する。この場合、加工処理部115は、購買パラメータに関する統計量として、JANコードと購入場所との組合せ毎に、クラスタ内の特徴データが表す金額の平均値を算出して、これをクラスタに対応する仮想顧客の特徴データに記載することができる。
 図4下段に示す加工後の特徴データは、仮想顧客のデモグラフィック属性(性別及び年齢)と共に、JANコードと購入場所との組合せ毎に、仮想顧客による商品の購入金額(平均値)を表す。
 別例として、加工処理部115は、上記金額の平均値に代えて、上記金額の最大値及び最小値を、購入金額の分布を表す値として算出してもよい。即ち、加工処理部115は、JANコードと購入場所との組合せ毎に、上記金額の最大値及び最小値を、購買パラメータに関する統計量として、仮想顧客の特徴データに記載することができる。
 図4によれば、加工前後の特徴データは、加工後の特徴データが統計量を表すものである点、及び、加工前特徴データの個数(標本数)を表すパラメータが加工後の特徴データに追加されている点を除けば、基本的に同じものである。
 但し、加工処理部115は、図3Aに示す特徴データを有する顧客関連データベース153から、図4下段に示すような仮想顧客(クラスタ)毎の特徴データを備える加工後データベース155を生成することも可能である。即ち、特徴データが有するパラメータの種類は、加工前後で一致する必要はなく、加工前のパラメータの一つ又は複数は、加工時に、そこから算出可能な他の種類のパラメータに置き換えられてもよい。
 統計量として、比(割合)、平均、又は、最大値及び最小値の組が算出される例を上述したが、統計量としては、その他に中央値が算出されてもよいし、平均及び分散の組が算出されてもよい。どのような統計量を算出するかは、データ解析目的に応じて、解析に有意な情報が失われないように定めることができる。
 データ加工装置10では、このようにしてクラスタ毎に、このクラスタに属する特徴データの一群が、統計量を表す特徴データに加工(統合)されて、この加工後の特徴データを含む加工後データベース155がデータ結合装置50に向けて出力される。
 続いて、データ結合装置50の構成を図5A及び図5Bを用いて説明する。データ結合装置50は、図5Aに示すように、演算部51、記憶部55、入力部57、及び、出力部59を備える。演算部51は、各種プログラム551に従う処理を実行するCPU53を備える。更に演算部51は、CPU53による処理実行時に作業メモリとして使用されるRAM54を備える。演算部51は、CPU53における上記処理の実行により、図5Bに示すようにデータフュージョン処理部510として機能する。
 記憶部55は、演算部51をデータフュージョン処理部510として機能させるためのプログラムを含む各種プログラム551を記憶する。記憶部55はまた、データ加工装置10から提供される加工後データベース155、及び、これらの加工後データベース155を結合して生成される結合データベース557を記憶するように構成される。データ加工装置10から提供される加工後データベース155は、入力部57を通じてデータ結合装置50内に入力される。入力部57は、記録媒体から加工後データベース155を入力可能なインタフェースであってもよいし、データ加工装置10から通信により送信されてくる加工後データベース155を入力可能なインタフェースであってもよい。出力部59は、例えば結合データベース557や結合データベース557に基づくデータ解析結果をデータ結合装置50から外部に取り出すために用いられる。
 データフュージョン処理部510は、記憶部55が記憶する複数の加工後データベース155を結合して、結合データベース557を生成する。具体的に、データフュージョン処理部510は、糊代として機能する特徴データ内のパラメータを参照し、結合対象の加工後データベース155間で、参照パラメータが表す特徴が類似する特徴データ同士を結合するようにして、結合対象の加工後データベース155間を結合する。
 上述したように、加工後データベース155が備える各特徴データは、データ提供元が異なる加工後データベース155間でも、顧客のデモグラフィック属性を表すパラメータを共通して有する。例えば、特徴データは、データ提供元が異なる特徴データ間でも、性別を表すパラメータと、年齢を表すパラメータとを共通して有する。
 データフュージョン処理部510は、このように結合対象の加工後データベース155が備える特徴データが共通して有するパラメータ(以下、共通パラメータと表現する)を参照して、共通パラメータが表す顧客の特徴が類似する特徴データ同士を結合するように、加工後データベース155間を結合する。
 加工後データベース155間の結合は、図6Aに示すように、記憶部55が記憶する第1の加工後データベース155を第2の加工後データベース155と結合し、第2の加工後データベース155を第3の加工後データベース155と結合し、第mの加工後データベース155を第(m+1)の加工後データベース155と結合(mは3以上の整数)するようにして、順に加工後データベース155間を結合することで実現することができる。別例として、データフュージョン処理部510は、特定の加工後データベース155に対して、残りの加工後データベース155の夫々を結合することにより、記憶部55が記憶する加工後データベース155間を、特定の加工後データベース155を中心にスター状に結合することができる(図8A参照)。
 データフュージョン技術としては種々のものが知られている。本実施例のデータフュージョン処理部510においても、周知のデータフュージョン技術を用いて加工後データベース155間を結合することができる。簡単なデータフュージョン方法によれば、二つの加工後データベース155間における類似する特徴データ同士のマッチング(結合)を次のように行うことができる。
 例えば、類似度を評価するための共通パラメータ(例えば年齢及び性別)について、これらの共通パラメータを要素とする特徴ベクトルを特徴空間に配置したときの特徴ベクトル間の距離(例えばコサイン距離)を、加工後データベース155間における全ての特徴データの組合せについて算出する。そして、距離が最短の特徴ベクトル同士をマッチングすることにより、共通パラメータが表す顧客の特徴が類似する特徴データ同士を結合するように、加工後データベース155間を結合することができる。
 二つの特徴データ間の類似度を特徴空間上において距離で評価するときには、輸送問題の解法を援用し、輸送費が「全体で最小」となるように、加工後データベース155間における特徴データ同士のマッチングを行うことも可能である。
 このようなマッチングにより生成される結合データベース557は、二つの加工後データベース155における特徴データ間を紐付けるデータが格納されたものとして構成され得る。
 標本数、性別、年齢、購買P1,P2,…,購買Q1,Q2,…のパラメータを有する特徴データを備える図6Bに示す加工後データベース155Aと、標本数、性別、年齢、購買R1,R2,…,購買Q1,Q2,…のパラメータを有する特徴データを備える図6Bに示す加工後データベース155Bと、を結合した場合における結合データベース557の構成を、図6Cに示す。
 これらの加工後データベース155A,155Bによれば、共通パラメータは、性別、年齢、購買Q1,Q2,…である。購買P1,P2,…,購買Q1,Q2,…,購買R1,R2,…は、例えばJANコード及び購入場所の組合せ毎の購買パラメータである。例えば、この購買パラメータは、対応する組合せに関する顧客の購入金額又は購入の有無を表す。
 例えば、購買Pi(iは2以上の整数)は、購買P1と同一JANコードの商品に関する購買P1とは異なる購入場所での顧客の購入金額又は購入の有無を表すパラメータであり得る。購買Qj,Rj(jは1以上の整数)は、購買Pjと異なるJANコードの商品に関するパラメータjに対応する購入場所での顧客の購入金額又は購入の有無を表すパラメータであり得る。
 このような構成の加工後データベース155A,155Bを結合した結合データベース557では、互いに結合される加工後データベース155Aの特徴データと加工後データベース155Bの特徴データとが、それらの識別番号の関連付けによって表現される。即ち、結合データベース557では、加工後データベース155Aの特徴データの識別番号に関連付けられて、この特徴データに結合される加工後データベース155Bの特徴データの識別番号が記載される。
 図6Cに示すように、加工後データベース155Aにおける一つの特徴データ(A00001)に対して、加工後データベース155Bにおける複数の特徴データ(B20056,B00234,B01123)が関連付けられる場合もあり得る。
 加工後データベース155における各特徴データは、加工前の複数の特徴データに対応するものであり、加工前特徴データに対応するクラスタ内の標本数が互いに異なるものであり得る。この場合には、各特徴データが標本数に対応する量存在するものとみなして、顧客の特徴が最も類似する特徴データ同士を、同じ標本数分だけ結合し、残りの標本数分の特徴データを、次に類似する特徴データと同一標本数分だけ結合することができる。
 図6Cにおいて、A00001、B20056、5.3と記載されたレコードは、加工後データベース155Aの識別番号A00001の特徴データと、加工後データベース155Bの識別番号B20056の特徴データとが、互いに標本数5.3だけ結合されていることを示す。同様に次のレコードは、加工後データベース155Aの識別番号A00001の特徴データと、加工後データベース155Bの識別番号B00234の特徴データとが、互いに標本数8.2だけ結合されていることを示す。更に次のレコードは、加工後データベース155Aの識別番号A00001の特徴データと、加工後データベース155Bの識別番号B01123の特徴データとが、互いに標本数6.5だけ結合されていることを示す。加工後データベース155Aの識別番号A00001の特徴データは、標本数20のクラスタに基づき生成される。加工後データベース155Aの識別番号A00001の特徴データは、加工後データベース155Bの識別番号B20056、識別番号B00234、及び、識別番号B01123の特徴データに割り振られて結合される。
 このように構成される結合データベース557により、加工後データベース155間は互いに結合され、結合データベース557及び加工後データベース155は、一つの巨大なデータベースを構成する。図6B及び図6Cに示す例によれば、購買R1,R2,…についての情報がない加工後データベース155Aと、購買P1,P2,についての情報がない加工後データベース155Bとが結合されることで、購買P1,P2,…,購買Q1,Q2,…,購買R1,R2,…の情報が連結された巨大なデータベースが構築される。従って、例えば購買P1,P2,…を購入する顧客が、購買R1,R2,…に対してどのような傾向を示すのかを分析することが可能になる。
 図7は、JANコードと購入場所との組合せ毎のブロックが横方向に配列され、そのブロックの配列が、縦方向において、仮想顧客毎に配置された図である。ハッチングされたブロックは、対応する仮想顧客が、該当JANコードに対応する商品を該当する購入場所で購入していることを示す。ハッチングされていないブロックは、対応する仮想顧客が、該当JANコードに対応する商品を該当する購入場所で購入していないことを示す。
 図7によれば、破線に示す領域には、ハッチングされたブロックが集中して存在している。この集中は、領域内においてJANコードと購入場所との組合せに対する購買層が存在することを示している。従って、この領域内において、ハッチングされていないブロックに対応する顧客の層に、対応する商品の広告を行うと、広告の効果が有意義に発揮される。例えば、太線で囲む仮想顧客は、破線に示す領域に対応する購買行動をほとんど起こしていないが、統計上では購買層に該当する。従って、対応する顧客層に、対応する商品の広告を行うと、広告の効果が有意義に発揮されることが期待される。
 このようなデータ解析を、従来の顧客に関するデータに基づき行うと、顧客のプライバシーに関する情報が解析過程で詳細に特定される可能性がある。これに対し、本実施例によれば、図6B及び図7に示す各行のデータは、統計化された仮想的な顧客に関するデータである。本実施例によれば、統計化されたデータに基づき上記データ解析を行うので、このような従来技術が有する問題の発生を抑えつつも、商業活動に役立つ情報をデータ解析によって得ることができる。
 以上、本実施例の情報処理システム1について説明した。本実施例によれば、データ加工装置10が、顧客関連データベース153を加工して、加工後データベース155をデータ結合装置50に提供する。そして、データ結合装置50が、データ加工装置10により生成された複数の加工後データベース155間を結合する。
 データ加工装置10の演算部11は、加工前の顧客関連データベース153が備える特徴データの一群に基づき、これら特徴データの集合を、特徴が類似する複数の特徴データ毎にクラスタ化する。更に演算部11は、各クラスタに対応する複数の特徴データを統計処理して、統合する。これにより、特徴が類似する複数顧客に対応する仮想顧客毎の特徴データを生成する。特に、演算部11(加工処理部115)は、クラスタ毎に、クラスタに属する複数の特徴データが有する各パラメータについての統計量を算出する。仮想顧客毎の特徴データは、これらの統計量をパラメータ値として含むように生成される。演算部11(加工処理部115)は、このように複数の特徴データが統合された仮想顧客毎の特徴データを備えるデータベースを、加工後データベース155として生成する。
 加工後データベース155における特徴データの夫々は、加工後データベース155間の結合時に参照される参照データを含む。参照データは、結合対象の加工後データベース155と共通する種類の特徴を表す。上記実施例における参照データは、顧客のデモグラフィック属性として、顧客の性別及び年齢を表す。
 データ結合装置50の演算部51は、複数の加工後データベース155間で参照データが表す特徴が類似する特徴データ同士を結合するように、加工後データベース155間を結合する。
 即ち、この情報処理システム1によれば、データ加工装置10が、複数顧客の特徴データを統計処理して統合し、仮想顧客毎の特徴データを備える加工後データベース155を生成する。例えば、統計処理前の特徴データが一人の顧客の特徴を表す単一顧客のデータである場合、データ加工装置10の動作により、特徴データは、単一顧客のデータから複数顧客の特徴が混合された仮想顧客のデータに変換される。
 従って、データ提供元では、データ加工装置10を用いて顧客関連データベース153を顧客の個人情報を保護した加工後データベース155に変換でき、個人情報を保護しながらデータ結合装置50に顧客に関するデータを提供することができる。
 これにより、データ結合装置50の運営者は、以前は情報保護の観点から顧客関連データベース153の提供に消極的であった企業から、加工後データベース155として、顧客関連データベースを入手することができる。データ結合装置50は、データ提供元の異なる各種の顧客に関するデータを結合したデータベースを生成することができる。
 結果として、この情報処理システム1は、結合データベース557として、社会に分散する各種の顧客に関するデータを統合したデータベースを構築することができる。情報処理システム1は、このデータベースに基づいて、各種の顧客に関するデータを有効活用し、有意義なデータ解析を行うことができる。
 上記実施例において加工後データベース155間の共通パラメータ(データベース結合時の参照データ)は、顧客の性別及び年齢であった。しかしながら、共通パラメータは、他のパラメータを含んでいてもよい。例えば、共通パラメータは、顧客のデモグラフィック属性として、顧客の性別、年齢、職業、居住地域、所得、学歴、及び、家族構成の少なくとも一つを含むことができる。
 [第二実施例]
 第二実施例の情報処理システム1は、データ結合装置50において、シングルソースデータを備えるデータベースをハブデータベースH(図8A参照)として用いるように構成される。情報処理システム1は、このハブデータベースHに、データ加工装置10から提供された各加工後データベース155を結合することにより、複数の加工後データベース155間を、ハブデータベースHを介して結合する。
 本実施例の情報処理システム1のハードウェア構成は、第一実施例と同様である。本実施例の情報処理システム1は、データ結合装置50の記憶部55が、データ加工装置10から提供される加工後データベース155以外に、ハブデータベースHを有する点で第一実施例と異なる。本実施例の情報処理システム1は、この点に加えて、データフュージョン処理部510の処理動作が第一実施例と異なるだけのものである。従って、以下では、第一実施例と同一構成の説明を適宜省略する。
 ハブデータベースHを構成するシングルソースデータは、例えば、博報堂株式会社が行っている生活者調査「HABIT(登録商標)」から得られる。HABITは、訪問面接やアンケート形式により、当該調査の協力者の夫々から、ライフスタイル(生活意識や態度)、価値観及びブランド意識に関する種々の情報を、協力者のデモグラフィック属性の情報と共に収集するものである。HABITにより生成される顧客(協力者)毎のシングルソースデータは、購買データ等には現れない顧客の特徴を表す。
 ハブデータベースHに設けることのできる他のシングルソースデータの例としては、ID-POSから得られる顧客の購買データを含むシングルソースデータや、アンケート形式で得られるマスメディアへの接触状況を表すシングルソースデータを挙げることができる。付言すれば、ハブデータベースHには、これらの複数種類のシングルソースデータを、同一顧客のデータ毎に結合したデータを設けてもよい。
 ハブデータベースHが備えるシングルソースデータは、顧客の特徴を表す特徴データに該当するものであり、加工後データベース155との結合のために、共通する顧客のデモグラフィック属性を表すパラメータを、加工後データベース155との間の共通パラメータとして有する。
 データフュージョン処理部510は、図8Aに示すように、このハブデータベースHに、データ加工装置10から提供された各加工後データベース155を結合することにより、複数の加工後データベース155間を、ハブデータベースHを介して結合する。結合方法は、上述した通りである。即ち、データフュージョン処理部510は、共通パラメータが表す特徴が類似する特徴データ同士を結合するようにして、ハブデータベースHと、加工後データベース155の夫々とを結合する。
 結合データベース557は、例えば、ハブデータベースHの特徴データと、それに結合される各加工後データベース155の特徴データとの関係を、上記実施例と同様に、それらの識別番号の関連付けによって表現する。図8Bに示す結合データベース557では、ハブデータベースHの特徴データの識別番号(H00001)に関連付けられて、この特徴データに結合される加工後データベース155A,155Bの特徴データの識別番号(A12345,B00044)が記載されている。図8Bに示す標本数は、図6Cで説明した通りである。
 シングルソースデータは、顧客の特徴を良く表す。従って、顧客の特徴を表す特徴データとしてシングルソースデータを備えるハブデータベースHを基準に、ハブデータベースHと加工後データベース155の夫々とを結合すれば、加工後データベース155間の特徴データを一層適切に結びつけることができる。
 HABIT等のシングルソースデータには、顧客の特徴を表す多様な情報が含まれる。このようなシングルソースデータを備えるハブデータベースHに対して、データ加工装置10から提供された各加工後データベース155を結合する場合には、結合に用いる参照データを変更することができる。即ち、加工後データベース155が有する顧客の特徴を表すパラメータの種類に応じて、ハブデータベースHと加工後データベース155との結合に用いる参照データを変更することができる。
 例えば、加工後データベース155が、顧客のネットワークコンテンツとの接触行動を表すパラメータを有する特徴データを備える場合、ハブデータベースHと加工後データベース155との間には、共通パラメータとして、顧客のデモグラフィック属性を表すパラメータに加えて、又は、代えて、顧客のネットワークコンテンツとの接触行動を表すパラメータが含まれる。
 この場合には、共通パラメータが表す顧客のネットワークコンテンツとの接触行動が類似する特徴データ同士を結合するようにして、ハブデータベースHと、加工後データベース155とを結合することができる。
 [第三実施例]
 第三実施例の情報処理システム1は、複数のデータ加工装置10及びデータ結合装置50を備える。データ加工装置10及びデータ結合装置50は、第一実施例及び第二実施例と同様のハードウェア構成にされる。以下では、第三実施例の情報処理システム1における第一実施例及び第二実施例と同様の構成及び処理内容についての説明を省略する。
 本実施例の情報処理システム1は、顧客関連データベース153として、図9Aに示す顧客関連データベース1531L,1531Rを有する。図9A左領域には、POSシステムから得られた顧客の購買データを、顧客に関する特徴データとして有する顧客関連データベース1531Lの例を示す。図9A右領域には、顧客が利用するデバイスの利用状況を表す特徴データを、顧客に関する特徴データとして有する顧客関連データベース1531Rの例を示す。デバイスの例としては、オーブンレンジが挙げられる。
 図9Aによれば、顧客関連データベース1531Lは、決済毎の特徴データを備える。この特徴データは、顧客のデモグラフィック属性として、顧客の性別、年齢、及び居住地を表すパラメータを有する。更に、この特徴データは、顧客が購入した商品の購入場所、商品コード、購入数、及び、単価を表すパラメータを有する。商品コードは、例えば、JANコードを含む。
 図9Aによれば、顧客関連データベース1531Rは、オーブンレンジ毎の特徴データを備える。この特徴データは、オーブンレンジを所有する顧客の性別及び年齢を表すパラメータ、オーブンレンジの設置場所、並びに、オーブンレンジにおいて利用された時間帯別の機能及びレシピを表すパラメータを有する。
 顧客関連データベース1531Lを有するデータ加工装置10は、この顧客関連データベース1531Lにおいて、例えば、性別、年齢及び購買履歴が類似する複数の特徴データをクラスタ化するように構成される。このデータ加工装置10は、第一実施例と同様、クラスタ毎に、同一クラスタに属する複数の特徴データに対する統計処理を行うことにより、同一クラスタに属する複数の特徴データを統合した仮想顧客の特徴データをクラスタ毎に生成するように構成される。
 このようにして、データ加工装置10は、顧客関連データベース1531Lに対応する、仮想顧客毎の特徴データを備える加工後データベース155を生成する。顧客関連データベース1531Lに対応する加工後データベース155が有する特徴データは、基本的に、顧客関連データベース1531Lの特徴データと同様のパラメータを有する。但し、加工後データベース155の特徴データは、パラメータ値として、対応するクラスタの統計量を示す。顧客IDは、加工時に削除されてよい。
 別例として、データ加工装置10は、顧客関連データベース1531Lが有する決済単位の特徴データを、同一の顧客IDを示す特徴データ毎にまとめて、個人単位の特徴データに変換するように構成されてもよい。更に、データ加工装置10は、個人単位の特徴データの集合に基づき、購買履歴が類似する複数の特徴データをクラスタ化及び統計処理することにより、顧客関連データベース1531Lに対応する加工後データベース155を生成するように構成されてもよい。
 顧客関連データベース1531Rを有する別のデータ加工装置10は、顧客関連データベース1531Rにおいて、例えば、性別、年齢、並びに、機能及びレシピの利用状況が類似する複数の特徴データをクラスタ化するように構成される。更に、データ加工装置10は、クラスタ毎に、同一クラスタに属する複数の特徴データを統計処理することにより、同一クラスタに属する複数の特徴データを統合した仮想デバイスの特徴データをクラスタ毎に生成するように構成される。データ加工装置10は、このようにして顧客関連データベース1531Rに対応する、仮想デバイス毎の特徴データを備える加工後データベース155を生成する。
 データ結合装置50は、上記顧客関連データベース1531Lに対応する加工後データベース155、及び、顧客関連データベース1531Rに対応する加工後データベース155を結合して、結合データベース557を生成するように構成される。
 データ結合装置50は、加工後データベース155が共通して有する顧客の性別及び年齢を表すパラメータ、並びに、食材に関するパラメータを参照データとして用いて、結合対象の加工後データベース155間で、参照データが表す特徴が類似する特徴データ同士を結合するように、結合対象の加工後データベース155間を結合し得る。
 「食材に関するパラメータ」は、顧客関連データベース1531Lに対応する加工後データベース155において、特徴データが有する商品コード及び購入数を表すパラメータに対応する。顧客関連データベース1531Rに対応する加工後データベース155において、「食材に関するパラメータ」は、利用レシピに対応する。
 こうして生成される結合データベース557によれば、性別、年齢、購入食材、及び、レシピとの間の対応関係を分析することができる。従って、オーブンレンジを通じて、ユーザが良く購入する食材に対応するお勧めレシピを、ユーザに紹介することができる。また、POSレジスタから出力するレシートに、利用頻度の高いレシピに対応する食材のクーポンを付すことができる。
 以上には、第三実施例として、顧客関連データベース1531L,1531Rの両者を、特徴が類似する特徴データ毎にクラスタ化して統計処理する例を説明した。しかしながら、顧客関連データベース1531L,1531Lの一方は、統計処理されなくてもよい。
 即ち、結合データベース557は、顧客関連データベース1531Lの加工後データベース155と、顧客関連データベース1531Rとを結合して生成されてもよいし、顧客関連データベース1531Lと、顧客関連データベース1531Rの加工後データベース155とを結合して生成されてもよい。前者の結合データベース557は、例えば、顧客関連データベース1531Rのデータ提供元に提供可能である。後者の結合データベース557は、例えば、顧客関連データベース1531Lのデータ提供元に提供可能である。
 [第四実施例]
 第四実施例の情報処理システム1は、第三実施例と同様、基本的には、顧客関連データベース153の構成が第一実施例及び第二実施例と異なるだけのシステムである。本実施例の情報処理システム1が備えるデータ加工装置10及びデータ結合装置50は、第一実施例及び第二実施例と同様のハードウェア構成にされる。
 以下では、第四実施例の情報処理システム1における第一実施例及び第二実施例と同様の構成及び処理内容についての説明を省略する。続いて説明される第五~第八実施例の情報処理システム1のハードウェア構成及び処理内容も、基本的には、第一実施例及び第二実施例と同様である。
 本実施例の情報処理システム1は、顧客関連データベース153として、図9Bに示す顧客関連データベース1532L,1532Rを有する。図9B左領域には、POSシステムから得られた顧客の購買データを、顧客に関する特徴データとして有する顧客関連データベース1532Lの例を示す。図9B右領域には、自動販売機の利用状況を表す特徴データを、顧客に関する特徴データとして有する顧客関連データベース1532Rの例を示す。
 近年では、液晶ディスプレイ及びカメラを備えた飲料用自動販売機が知られている。この自動販売機は、カメラの撮影画像から、自動販売機の利用者の性別及び年齢を判別し、この判別結果に基づき、お勧め飲料を、液晶ディスプレイを通じて表示する機能を備える。以下に説明する結合データベース557は、自動販売機で表示するお勧め飲料の決定に役立つ。
 図9Bによれば、顧客関連データベース1532Lは、第三実施例の顧客関連データベース1531Lと同様に構成される。この顧客関連データベース1532Lは、飲料に関しての購買履歴を表す特徴データを備える。
 図9Bによれば、顧客関連データベース1532Rは、各自動販売機における飲料販売毎の特徴データを備える。この顧客関連データベース1532Rを構成する特徴データは、自動販売機の設置場所及びメーカーを表す。更に、この特徴データは、飲料販売時の気象及び時刻、並びに、購入者のデモグラフィック属性としての性別及び年齢を表す。更に、この特徴データは、購入者が購入した飲料の商品コード、購入数、及び、単価を表す。この他、特徴データは、販売時の在庫情報を表す。自動販売機の設置場所は、例えば、自動販売機が設置された地点の緯度経度で表される。
 顧客関連データベース1532Lを有するデータ加工装置10は、例えば、顧客関連データベース1532Lにおいて、性別、年齢及び購買履歴が類似する複数の特徴データをクラスタ化し、第三実施例と同様に、顧客関連データベース1532Lに対応する加工後データベース155を生成するように構成される。
 顧客関連データベース1532Rを有するデータ加工装置10は、例えば、顧客関連データベース1532Rにおける設置場所、メーカー及び在庫情報等が類似する複数の特徴データをクラスタ化する。そして、クラスタ毎に、同一クラスタに属する複数の特徴データに対する統計処理を行うことにより、同一クラスタに属する複数の特徴データを統合した仮想デバイス(自動販売機)の特徴データをクラスタ毎に生成するように構成される。
 データ加工装置10は、このようにして、顧客関連データベース1532Rに対応する、仮想デバイス毎の特徴データを備える加工後データベース155を生成するように構成される。
 データ結合装置50は、上記顧客関連データベース1532Lに対応する加工後データベース155、及び、顧客関連データベース1532Rに対応する加工後データベース155を結合して、結合データベース557を生成するように構成される。
 例えば、データ結合装置50は、顧客の性別及び年齢を表すパラメータ、並びに、場所に関するパラメータを参照データとして用いて、結合対象の加工後データベース155間で、参照データが表す特徴が類似する特徴データ同士を結合するように、結合対象の加工後データベース155間を結合する。
 ここで言う「場所に関するパラメータ」は、顧客関連データベース1532Lに対応する加工後データベース155において、特徴データが有する購入場所を表すパラメータに対応する。顧客関連データベース1532Rに対応する加工後データベース155において、「場所に関するパラメータ」は、自動販売機の設置場所を表すパラメータに対応する。
 こうして生成される結合データベース557によれば、例えば、コンビニエンスストアやスーパーマーケット等の店舗での消費者の購買行動と、自動販売機での消費者の購買行動との間の対応関係を分析することができる。従って、この結合データベース557に基づいては、自動販売機において、自動販売機の前に立つ利用者の年齢及び性別に対応する購買層が同地域の店舗で良く購入する飲料を、その利用者にお勧めすることができる。店舗では、POSレジスタから出力するレシートに、同地域の自動販売機で、購入者の年齢及び性別に対応する売れ筋の飲料のクーポンを付すことができる。
 第三実施例と同様に、顧客関連データベース1532L及び顧客関連データベース1532Rの一方は、統計処理されなくてもよい。即ち、結合データベース557は、顧客関連データベース1532Lの加工後データベース155と、顧客関連データベース1532Rとを結合したものであってもよいし、顧客関連データベース1532Lと、顧客関連データベース1532Rの加工後データベース155とを結合したものであってもよい。この技術的思想は、後述する第五~第八実施例に対しても適用することができる。
 [第五実施例]
 以下では、第五実施例の情報処理システム1における第一実施例及び第二実施例と同様の構成及び処理内容についての説明を省略する。本実施例の情報処理システム1は、顧客関連データベース153として、図10Aに示す顧客関連データベース1533L,1533Rを有する。
 図10A左領域には、スマートフォンに代表される携帯端末を所有するユーザの特徴を表す特徴データを、顧客に関する特徴データとして有する顧客関連データベース1533Lの例を示す。図10A右領域には、駅の利用状況を表す特徴データを、顧客に関する特徴データとして有する顧客関連データベース1533Rの例を示す。
 図10Aによれば、顧客関連データベース1533Lは、携帯端末毎に特徴データを有する。この特徴データは、携帯端末を所有するユーザのデモグラフィック属性として性別、年齢及び居住地を表す。更に、この特徴データは、ユーザの移動履歴、及び、各移動地点の気象を表す。更に、この特徴データは、携帯端末にインストールされたアプリケーションプログラムを通じて、ユーザにより利用されたクーポンの利用状況を表す。
 顧客関連データベース1533Rは、駅、改札口、気象、及び時間帯の組合せ毎に、特徴データを有する。この顧客関連データベース1533Rを構成する特徴データは、対応する駅及び改札口の通行データとして、この改札口の通行人の性別及び年齢、並びに、通行時間帯及び通行時の気象を表す。通行人の性別及び年齢は、定期券の情報から、又は、カメラによる撮影画像から得ることができる。
 顧客関連データベース1533Lを有するデータ加工装置10は、例えば、顧客関連データベース1533Lにおいて、性別、年齢、移動状況及びクーポン利用状況が類似する複数の特徴データをクラスタ化する。そして、クラスタ毎に、同一クラスタに属する複数の特徴データに対する統計処理を行うことにより、同一クラスタに属する複数の特徴データを統合した仮想携帯端末の特徴データをクラスタ毎に生成する。このようにして、データ加工装置10は、顧客関連データベース1533Lに対応する、仮想携帯端末毎の特徴データを備える加工後データベース155を生成する。
 顧客関連データベース1533Rを有するデータ加工装置10は、顧客関連データベース1533Rにおいて、特徴が類似する特徴データをクラスタ化する。そして、クラスタ毎に上記統計処理を行うことにより、駅、改札口、気象及び時間対の組合せについての仮想組合せ毎の特徴データを備える加工後データベース155を生成する。
 データ結合装置50は、上記顧客関連データベース1533Lに対応する加工後データベース155、及び、顧客関連データベース1533Rに対応する加工後データベース155を結合して、結合データベース557を生成するように構成される。
 例えば、データ結合装置50は、加工後データベース155が共通して有する性別及び年齢を表すパラメータ、並びに、場所及び気象に関するパラメータを参照データとして用いて、結合対象の加工後データベース155間で、参照データが表す特徴が類似する特徴データ同士を結合するように、結合対象の加工後データベース155間を結合する。
 こうして生成される結合データベース557によれば、例えば、駅周辺での消費者の行動及びクーポン利用状況と、駅及び改札口における通行人の傾向との間の対応関係を分析することができる。従って、この結合データベース557に基づいては、改札口を通過したユーザの携帯端末に、駅周辺店舗の利用促進を目的としたクーポンを適切に配信することができる。
 [第六実施例]
 以下では、第六実施例の情報処理システム1における第一実施例及び第二実施例と同様の構成及び処理内容についての説明を省略する。本実施例の情報処理システム1は、顧客関連データベース153として、図10Bに示す顧客関連データベース1534L,1534Rを有する。
 図10B左領域には、ETCカードを所有する顧客の特徴データを有する顧客関連データベース1534Lの例を示す。ETCカードは、日本国において普及している、有料道路網における電子料金収受(ETC)システム用のクレジットカードである。図10B右領域には、インターチェンジ及び通行ゲートの組合せ毎の特徴データを、顧客に関する特徴データとして有する顧客関連データベース1534Rの例を示す。
 顧客関連データベース1534Lは、ETCカード毎に特徴データを有する。この特徴データは、ETCカードに関連付けられた車載器のIDを表す。また、この特徴データは、ETCカードを所有する顧客の性別、年齢及び居住地を表す。更に、この特徴データは、通行ゲートのID及び通行日時を表す。
 顧客関連データベース1534Rを構成する特徴データは、対応するインターチェンジの対応する通行ゲートを通行した車両のETCカード番号、車載器ID、及び通行日時を表す。更に、この特徴データは、通行車両数及び周辺施設情報を有する。
 顧客関連データベース1534Lを有するデータ加工装置10は、例えば、顧客関連データベース1534Lにおいて、性別、年齢及び移動状況が類似する複数の特徴データをクラスタ化する。そして、クラスタ毎に、同一クラスタに属する複数の特徴データに対する統計処理を行うことにより、同一クラスタに属する複数の特徴データを統合した仮想顧客(カード)毎の特徴データをクラスタ毎に生成する。このようにして、データ加工装置10は、顧客関連データベース1534Lに対応する、仮想顧客(カード)毎の特徴データを備える加工後データベース155を生成する。
 顧客関連データベース1534Rを有するデータ加工装置10は、顧客関連データベース1534Rにおいて、特徴が類似する特徴データをクラスタ化する。そして、クラスタ毎に上記統計処理を行うことにより、仮想通行ゲート毎の特徴データを備える加工後データベース155を生成する。
 データ結合装置50は、これらの顧客関連データベース1534Lに対応する加工後データベース155、及び、顧客関連データベース1534Rに対応する加工後データベース155を結合して、結合データベース557を生成するように構成される。
 こうして生成される結合データベース557に基づけば、カーナビゲーション装置等の車載器又はクレジットカード会社を通じて、顧客に対し、通行ゲート周辺の施設の利用促進を目的としたクーポンを適切に配信することができる。
 [第七実施例]
 以下では、第七実施例の情報処理システム1における第一実施例及び第二実施例と同様の構成及び処理内容についての説明を省略する。本実施例の情報処理システム1は、顧客関連データベース153として、図11Aに示す顧客関連データベース1535L,1535Rを有する。
 図11A左領域には、ディジタルサイネージ毎に、ディジタルサイネージの前を通過する通行人毎の特徴データを、顧客に関する特徴データとして有する顧客関連データベース1535Lの例を示す。図11A右領域には、各駅の改札口毎に、改札口を通行する通行人毎の特徴データを、顧客に関する特徴データとして有する顧客関連データベース1535Rの例を示す。
 図11Aによれば、顧客関連データベース1535Lが有する特徴データは、ディジタルサイネージの設置場所を表す。また、この特徴データは、通行人の性別、年齢及び通行日時を表す。通行人の性別及び年齢は、ディジタルサイネージ又はその付近に設置されたカメラによる撮影画像から判別することができる。この特徴データは、更に、ディジタルサイネージ付近の時間帯別通行人数、時間帯別のディジタルサイネージの視聴者数、及び、時間帯別の出稿情報を表すデータであってもよい。
 顧客関連データベース1535Rが有する通行人毎の特徴データは、通行人の性別、年齢及び通行日時、並びに、通行改札口のID及び当該改札口を有する駅のIDを表す。
 顧客関連データベース1535Lを有するデータ加工装置10は、例えば、顧客関連データベース1535Lにおいて、通行人の特徴が類似する特徴データをクラスタ化する。そして、クラスタ毎に、同一クラスタに属する複数の特徴データに対する統計処理を行うことにより、同一クラスタに属する複数の特徴データを統合した仮想通行人の特徴データをクラスタ毎に生成する。このようにして、データ加工装置10は、顧客関連データベース1535Lに対応する仮想通行人毎の特徴データを備える加工後データベース155を生成する。
 顧客関連データベース1535Rを有するデータ加工装置10は、例えば、顧客関連データベース1535Rにおいて、通行人の特徴が類似する特徴データをクラスタ化する。そして、クラスタ毎に上記統計処理を行うことにより、仮想通行人毎の特徴データを備える加工後データベース155を生成する。
 データ結合装置50は、顧客関連データベース1535Lに対応する加工後データベース155、及び、顧客関連データベース1535Rに対応する加工後データベース155を結合して、結合データベース557を生成するように構成される。
 例えば、データ結合装置50は、加工後データベース155が共通して有する通行人の性別及び年齢を表すパラメータ、並びに、場所に関するパラメータを参照データとして用いて、結合対象の加工後データベース155間で、参照データが表す特徴が類似する特徴データ同士を結合するように、結合対象の加工後データベース155間を結合する。
 「場所に関するパラメータ」は、顧客関連データベース1535Lに対応する加工後データベース155において、特徴データが有するディジタルサイネージの設置場所を表すパラメータに対応する。顧客関連データベース1535Rに対応する加工後データベース155において、「場所に関するパラメータ」は、駅及び改札口を表すパラメータに対応する。
 こうして生成される結合データベース557によれば、例えば、改札口の通行人と、ディジタルサイネージ前の通行人との対応関係を分析することができる。従って、改札口の通行人の変化に合わせて、ディジタルサイネージに表示させる広告を適切に切り替えることができる。
 [第八実施例]
 以下では、第八実施例の情報処理システム1における第一実施例及び第二実施例と同様の構成及び処理内容についての説明を省略する。本実施例の情報処理システム1は、顧客関連データベース153として、図11Bに示す顧客関連データベース1536L,1536Rを有する。
 図11B左領域には、カメラによる監視エリアに映った通行人毎の特徴データを、顧客に関する特徴データとして有する顧客関連データベース1536Lの例を示す。図11B右領域には、飲料用自動販売機の利用状況を表す特徴データを、顧客に関する特徴データとして有する顧客関連データベース1536Rの例を示す。
 図11Bによれば、顧客関連データベース1536Lが有する特徴データは、通行人が映った場所(監視エリア)及び時間帯を表す。また、この特徴データは、通行人の性別及び年齢を表す。更に、特徴データは、通行人の滞留時間又は通行時間を表すものであってもよい。
 顧客関連データベース1536Rは、各自動販売機における飲料販売毎の特徴データを備える。この顧客関連データベース1536Rを構成する特徴データは、第四実施例における顧客関連データベース1532Rが有する特徴データと同様に構成される。
 顧客関連データベース1536Lを有するデータ加工装置10は、顧客関連データベース1536Lにおいて、通行人の特徴が類似する特徴データをクラスタ化する。そして、クラスタ毎に、同一クラスタに属する複数の特徴データに対する統計処理を行うことにより、同一クラスタに属する複数の特徴データを統合した仮想通行人の特徴データをクラスタ毎に生成する。このようにして、データ加工装置10は、顧客関連データベース1536Lに対応する、仮想通行人毎の特徴データを備える加工後データベース155を生成する。
 顧客関連データベース1536Rを有するデータ加工装置10は、顧客関連データベース1536Rにおいて、購入者の特徴が類似する特徴データ毎にクラスタ化して、仮想購入者毎の特徴データを備える加工後データベース155を生成する。
 データ結合装置50は、顧客関連データベース1536Lに対応する加工後データベース155、及び、顧客関連データベース1536Rに対応する加工後データベース155を結合して、結合データベース557を生成するように構成される。
 例えば、データ結合装置50は、これら加工後データベース155が共通して有する性別及び年齢を表すパラメータ、並びに、場所に関するパラメータを参照データとして用いて、結合対象の加工後データベース155間で、参照データが表す特徴が類似する特徴データ同士を結合するように、結合対象の加工後データベース155間を結合する。「場所に関するパラメータ」は、顧客関連データベース1536Lに対応する加工後データベース155において、特徴データが有する通行人が映った場所を表すパラメータに対応する。顧客関連データベース1536Rに対応する加工後データベース155において、「場所に関するパラメータ」は、自動販売機の設置場所を表すパラメータに対応する。
 こうして生成される結合データベース557によれば、例えば、通行人の分布及び滞留時間と、自動販売機の購買行動との対応関係を分析することができる。この分析結果は、自動販売機の在庫管理、品揃え、及び、お勧め表示に役立てることができる。
 [その他]
 本開示は、上記実施例に限定されるものではなく、種々の態様を採ることができる。例えば、上記実施例では、結合対象のデータベース(加工後データベース155又は顧客関連データベース153)間の顧客グループが一致しない例について説明した。しかしながら、同一顧客グループについての異なる種類の特徴を表すデータベース間を結合するために、本開示の技術は、用いられてもよい。例えば、同一顧客グループについてのコンビニエンスストアにおける購買データと、スーパーマーケットにおける購買データと、を結合するために、本開示の技術が用いられてもよい。特許請求の範囲に記載の文言から特定される技術思想に含まれるあらゆる態様が本開示の実施形態である。
 最後に用語間の対応関係について説明する。データ加工装置10が備える演算部11(特にクラスタリング処理部110及び加工処理部115)は、生成ユニットの一例に対応する。データ結合装置50が備える演算部51(特にデータフュージョン処理部510)は、結合ユニットの一例に対応する。データ結合装置50が備える記憶部55は、記憶ユニットの一例に対応する。データベース(顧客関連データベース153/加工後データベース155)を構成する特徴データの集合、又は、この集合に対応する人、物(例えば携帯端末/自動販売機/オーブンレンジ/カード)、若しくは、場所(例えば改札口/通行ゲート)の集合は、グループの一例に対応する。この集合の要素は、構成体の一例に対応する。

Claims (17)

  1.  第一のデータベース及び第二のデータベースを記憶するように構成される記憶ユニットと、
     前記記憶ユニットが記憶する前記第一のデータベースと前記第二のデータベースとを結合するように構成される結合ユニットと、
     を備え、
     前記第一のデータベースは、第一のグループの構成体毎の特徴データに基づき、特徴が一致又は類似する複数の構成体の特徴データを統計処理により統合した仮想構成体毎の特徴データを備えるデータベースであり、
     前記第二のデータベースは、前記第一のグループとは同一又は別のグループとしての第二のグループにおける構成体毎の特徴データを備えるデータベースであり、
     前記第一及び前記第二のデータベースが備える前記特徴データの夫々は、前記結合時に参照される参照データであって、前記第一のデータベースと前記第二のデータベースとの間で共通する種類の特徴を表す参照データを含み、
     前記結合ユニットは、前記第一のデータベースと前記第二のデータベースとの間で前記参照データが表す前記特徴が一致又は類似する前記特徴データ同士を結合するように、前記第一のデータベースと前記第二のデータベースとを結合する情報処理システム。
  2.  前記第一のグループの構成体毎の特徴データに基づき、前記第一のデータベースを生成するように構成される生成ユニット
     を更に備える請求項1記載の情報処理システム。
  3.  前記生成ユニットは、前記第一のグループに関する前記特徴データの集合を、前記特徴が一致又は類似する複数の特徴データ毎に分けるようにクラスタ化し、クラスタ毎に、前記クラスタに対応する前記複数の特徴データを統計処理して、前記複数の特徴データが有する各パラメータについての統計量を算出することにより、前記統計量を、前記特徴を表すパラメータ値として含む前記クラスタの夫々に対応する前記仮想構成体毎の特徴データを生成する請求項2記載の情報処理システム。
  4.  前記第二のデータベースが備える前記構成体毎の前記特徴データは、前記第一のグループとは同一又は別のグループの構成体毎の特徴データに基づき、特徴が一致又は類似する複数の構成体の特徴データを統計処理により統合した仮想構成体毎の特徴データである請求項1~請求項3のいずれか一項記載の情報処理システム。
  5.  前記生成ユニットを、第一の生成ユニットとして備え、
     前記第一のグループとは同一又は別のグループの構成体毎の特徴データに基づき、前記第二のデータベースを生成するように構成される第二の生成ユニットを更に備える請求項2又は請求項3記載の情報処理システム。
  6.  前記第二のデータベースは、前記特徴データとしてシングルソースデータを備えるデータベースである請求項1~請求項3のいずれか一項記載の情報処理システム。
  7.  前記第一及び前記第二のグループの夫々は、人、物、サービス、及び場所の少なくとも一つの集合であり、前記構成体は、前記集合の要素である請求項1~請求項5のいずれか一項記載の情報処理システム。
  8.  前記第一のグループ及び前記第二のグループの一方は、人の集合であり、前記第一のグループ及び前記第二のグループの他方は、人に関連する物、サービス、及び場所の少なくとも一つの集合である請求項7記載の情報処理システム。
  9.  前記第一及び前記第二のグループの夫々は、人に関連する物、サービス、及び場所の少なくとも一つの集合である請求項7記載の情報処理システム。
  10.  複数のデータベースを記憶するように構成される記憶ユニットと、
     前記記憶ユニットが記憶する前記複数のデータベースを結合するように構成される結合ユニットと、
     を備え、
     前記データベースの夫々は、互いに同一又は異なるグループについてのデータベースであり、対応する前記グループの構成体毎の特徴データに基づき、特徴が一致又は類似する複数の構成体の特徴データを統計処理により統合した仮想構成体毎の特徴データを備えるデータベースであり、
     前記複数のデータベースが備える前記特徴データの夫々は、前記データベースの結合時に参照される参照データであって、結合対象の前記データベースと共通する種類の特徴を表す参照データを含み、
     前記結合ユニットは、前記複数のデータベース間で、前記参照データが表す前記特徴が一致又は類似する前記特徴データ同士を結合するように、前記複数のデータベースを結合する情報処理システム。
  11.  前記複数のデータベースを生成するように構成されるデータベース毎の生成ユニット
     を備え、
     前記生成ユニットの夫々は、対応する前記グループの構成体毎の特徴データに基づき、前記データベースとして、特徴が一致又は類似する複数の構成体の特徴データを統計処理により統合した仮想構成体毎の特徴データを備えるデータベースを生成する請求項10記載の情報処理システム。
  12.  前記生成ユニットの夫々は、前記グループに関する前記特徴データの集合を、前記特徴が一致又は類似する複数の特徴データ毎に分けるようにクラスタ化し、クラスタ毎に、前記クラスタに対応する前記複数の特徴データを統計処理して、前記複数の特徴データが有する各パラメータについての統計量を算出することにより、前記統計量を、前記特徴を表すパラメータ値として含む前記クラスタの夫々に対応する前記仮想構成体毎の特徴データを生成する請求項11記載の情報処理システム。
  13.  前記結合ユニットは、前記複数のデータベース間を、前記複数のデータベースとは同一又は異なるグループについてのデータベースであって、前記グループの構成体毎に特徴データとしてシングルソースデータを備える特定種のデータベースを介して結合する構成にされ、
     前記シングルソースデータは、前記データベースの結合時に参照される参照データであって、結合対象の前記データベースと共通する種類の特徴を表す参照データを含み、
     前記結合ユニットは、前記参照データが表す前記特徴が一致又は類似する前記特徴データ同士を結合するように、前記特定種のデータベースと、それ以外の前記データベースの夫々とを結合することにより、前記複数のデータベース間を、前記特定種のデータベースを介して結合する請求項10~請求項12のいずれか一項記載の情報処理システム。
  14.  請求項1~請求項13のいずれか一項記載の情報処理システムにおける前記結合ユニットとして、コンピュータを機能させるためのプログラム。
  15.  請求項2、請求項3、請求項11及び請求項12のいずれか一項記載の情報処理システムにおける前記生成ユニットとして、コンピュータを機能させるためのプログラム。
  16.  請求項14又は請求項15記載のプログラムを記録したコンピュータ読取可能な記録媒体。
  17.  第一のグループの構成体毎の特徴データに基づき、特徴が一致又は類似する複数の構成体の特徴データを統計処理により統合した仮想構成体毎の特徴データを備える第一のデータベースを生成又は取得する手順と、
     前記第一のグループとは同一又は別のグループとしての第二のグループにおける構成体毎の特徴データを備える第二のデータベースを生成又は取得する手順と、
     前記第一のデータベースと前記第二のデータベースとを結合する手順と、
     を含み、
     前記第一及び前記第二のデータベースが備える前記特徴データの夫々は、前記結合時に参照される参照データであって、前記第一のデータベースと前記第二のデータベースとの間で共通する種類の特徴を表す参照データを含み、
     前記結合する手順は、前記第一のデータベースと前記第二のデータベースとの間で前記参照データが表す前記特徴が一致又は類似する前記特徴データ同士を結合するように、前記第一のデータベースと前記第二のデータベースとを結合する手順であるデータベース結合方法。
PCT/JP2015/072564 2014-08-08 2015-08-07 情報処理システム WO2016021726A1 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
US15/502,643 US10657149B2 (en) 2014-08-08 2015-08-07 Information-processing system
CN201580051179.6A CN106687956B (zh) 2014-08-08 2015-08-07 信息处理系统
EP15830544.1A EP3196777A4 (en) 2014-08-08 2015-08-07 Information-processing system
CA2957506A CA2957506C (en) 2014-08-08 2015-08-07 Information-processing system
SG11201700974WA SG11201700974WA (en) 2014-08-08 2015-08-07 Information-processing system
AU2015300012A AU2015300012B2 (en) 2014-08-08 2015-08-07 Information-processing system
PH12017500234A PH12017500234A1 (en) 2014-08-08 2017-02-08 Information-processing system

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2014162623A JP5649756B1 (ja) 2014-08-08 2014-08-08 情報処理システム、及び、プログラム。
JP2014-162623 2014-08-08
JP2015-000945 2015-01-06
JP2015000945A JP5793794B1 (ja) 2015-01-06 2015-01-06 情報処理システム、及び、プログラム。

Publications (1)

Publication Number Publication Date
WO2016021726A1 true WO2016021726A1 (ja) 2016-02-11

Family

ID=55263983

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/072564 WO2016021726A1 (ja) 2014-08-08 2015-08-07 情報処理システム

Country Status (9)

Country Link
US (1) US10657149B2 (ja)
EP (1) EP3196777A4 (ja)
CN (1) CN106687956B (ja)
AU (1) AU2015300012B2 (ja)
CA (1) CA2957506C (ja)
MY (1) MY175611A (ja)
PH (1) PH12017500234A1 (ja)
SG (1) SG11201700974WA (ja)
WO (1) WO2016021726A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022551230A (ja) * 2019-10-08 2022-12-08 日本電気株式会社 データ検索システム、装置、方法、および、プログラム

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017206284A (ja) * 2016-05-18 2017-11-24 パナソニックIpマネジメント株式会社 飲料ディスペンサ
JP6499373B1 (ja) * 2017-07-31 2019-04-10 楽天株式会社 処理システム、処理装置、処理方法、プログラム、ならびに、情報記録媒体
WO2019073959A1 (ja) * 2017-10-10 2019-04-18 株式会社博報堂Dyホールディングス 情報処理システム、データ提供システム、及び関連する方法
US10853033B1 (en) 2017-10-11 2020-12-01 Amperity, Inc. Effectively fusing database tables
CN108062683A (zh) * 2017-12-08 2018-05-22 南充职业技术学院 一种企业管理数据分析评估系统
US11030165B2 (en) * 2017-12-11 2021-06-08 Wipro Limited Method and device for database design and creation
CN110415511B (zh) * 2018-04-28 2021-08-13 杭州海康威视数字技术股份有限公司 车辆信息管理方法、装置及存储介质
WO2020184579A1 (ja) * 2019-03-11 2020-09-17 株式会社博報堂Dyホールディングス 仲介装置、システム及びコンピュータプログラム
CN117522419B (zh) * 2024-01-08 2024-03-22 广东深玎科技有限公司 一种应用于客户关系管理系统的资源分配方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006018340A (ja) * 2004-06-30 2006-01-19 Interscope Inc 顧客情報統合システム及び統合顧客情報データベースの作成法
JP2013239160A (ja) * 2012-04-20 2013-11-28 Shiseido Co Ltd 情報提供システム、情報提供方法、及び情報提供プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060036661A1 (en) * 2004-08-13 2006-02-16 Brennan Edward J Jr Database information processing system
CN102419779B (zh) * 2012-01-13 2014-06-11 青岛理工大学 一种基于属性排序的商品个性化搜索方法及装置
US8943079B2 (en) * 2012-02-01 2015-01-27 Telefonaktiebolaget L M Ericsson (Publ) Apparatus and methods for anonymizing a data set
JP6181360B2 (ja) * 2012-08-30 2017-08-16 アクセンチュア グローバル サービシズ リミテッド マーケティング装置、マーケティング方法、プログラム、及び記録媒体
JP2014109647A (ja) 2012-11-30 2014-06-12 Intec Inc サービス提供システム
US10095883B2 (en) * 2016-07-22 2018-10-09 International Business Machines Corporation Method/system for the online identification and blocking of privacy vulnerabilities in data streams

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006018340A (ja) * 2004-06-30 2006-01-19 Interscope Inc 顧客情報統合システム及び統合顧客情報データベースの作成法
JP2013239160A (ja) * 2012-04-20 2013-11-28 Shiseido Co Ltd 情報提供システム、情報提供方法、及び情報提供プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ROLAND SOONG ET AL.: "THE ANATOMY OF DATA FUSION", 2001 WORLDWIDE READERSHIP RESEARCH SYMPOSIUM, 2001, Venice, pages 1 - 23, XP055397957, Retrieved from the Internet <URL:http://www.zonalatina.com/WRRSfusion.pdf> [retrieved on 20150225] *
SHIN'ICHIRO OKAUCHI, KOKYAKU ENO RIKAI O FUKAMERU JISSENTEKI 'DATA FUSION' TOWA?, vol. 146, 25 June 2008 (2008-06-25), pages 48 - 51, XP008185714 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022551230A (ja) * 2019-10-08 2022-12-08 日本電気株式会社 データ検索システム、装置、方法、および、プログラム
JP7444245B2 (ja) 2019-10-08 2024-03-06 日本電気株式会社 データ検索システム、装置、方法、および、プログラム

Also Published As

Publication number Publication date
US10657149B2 (en) 2020-05-19
AU2015300012B2 (en) 2020-10-08
CN106687956A (zh) 2017-05-17
CN106687956B (zh) 2021-02-26
CA2957506A1 (en) 2016-02-11
PH12017500234B1 (en) 2017-07-03
SG11201700974WA (en) 2017-04-27
MY175611A (en) 2020-07-01
AU2015300012A1 (en) 2017-03-23
CA2957506C (en) 2023-08-08
EP3196777A4 (en) 2018-01-24
EP3196777A1 (en) 2017-07-26
PH12017500234A1 (en) 2017-07-03
US20170235803A1 (en) 2017-08-17

Similar Documents

Publication Publication Date Title
WO2016021726A1 (ja) 情報処理システム
Zhen et al. The association between spatial attributes and e-shopping in the shopping process for search goods and experience goods: Evidence from Nanjing
JP5793794B1 (ja) 情報処理システム、及び、プログラム。
US9916594B2 (en) Multidimensional personal behavioral tomography
Cao The relationships between e-shopping and store shopping in the shopping process of search goods
Huseynov et al. Behavioral Issues in B2C E-commerce: The-state-of-the-art
US8918329B2 (en) Method and system for targeted content placement
US8239256B2 (en) Method and system for targeted content placement
JP4360759B2 (ja) 相関分析を用いて広告の販売効果を調査する方法およびシステム
JP5649756B1 (ja) 情報処理システム、及び、プログラム。
US8874465B2 (en) Method and system for targeted content placement
Kiang et al. A service-oriented analysis of online product classification methods
US20090327308A1 (en) Systems and methods for providing a consumption network
Kaur et al. Influence of technological advances and change in marketing strategies using analytics in retail industry
Kudyba et al. Introduction to the big data era
Cheng et al. High speed rail passenger segmentation and ticketing channel preference
Ratchford The impact of digital innovations on marketing and consumers
Pudaruth Exploring the determining factors influencing online purchase behaviour among consumers in emerging economies: A case of Mauritius
Pinto Understanding the barriers to online shopping among Indian consumers
Idris et al. An empirical study of the efficacy of marketing communication mix elements in selected insurance companies in Nigeria
Santos et al. Digital Transformation of the Retail Point of Sale in the Artificial Intelligence Era
Taylor et al. Understanding the value of on-premise signs as marketing devices for legal and public policy purposes
KR20190107835A (ko) 멀티채널 쇼핑몰 시스템
US20160034942A1 (en) One and Only Card
Mogab et al. Manifiesto: The Texas sales tax rebate and cross-border Mexican shoppers

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15830544

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2957506

Country of ref document: CA

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 12017500234

Country of ref document: PH

REEP Request for entry into the european phase

Ref document number: 2015830544

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2015830544

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2015300012

Country of ref document: AU

Date of ref document: 20150807

Kind code of ref document: A