WO2020008848A1 - データ利用支援装置、及びデータ利用支援方法 - Google Patents

データ利用支援装置、及びデータ利用支援方法 Download PDF

Info

Publication number
WO2020008848A1
WO2020008848A1 PCT/JP2019/023861 JP2019023861W WO2020008848A1 WO 2020008848 A1 WO2020008848 A1 WO 2020008848A1 JP 2019023861 W JP2019023861 W JP 2019023861W WO 2020008848 A1 WO2020008848 A1 WO 2020008848A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
usage
combination
plan
usage fee
Prior art date
Application number
PCT/JP2019/023861
Other languages
English (en)
French (fr)
Inventor
敬志 大島
谷崎 正明
みさ 原
哲宏 鳩飼
功 遠藤
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Publication of WO2020008848A1 publication Critical patent/WO2020008848A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management

Definitions

  • the present invention relates to a data use support device and a data use support method.
  • Patent Literature 1 discloses “providing technology for guaranteeing the accuracy and quality of data traded in the data distribution market and improving the safety and reliability of data transactions.”, “Data traded in the data distribution market. Describes a data flow control device that is configured to guarantee the accuracy and quality of data and to provide technology for improving the security and reliability of data transactions. By matching the metadata on the application side and extracting devices that can provide data that satisfies the requirements of the application. "," When matching between the data provider and the data user, the data user's request It is not realistic to extract data that meets the conditions from a large amount of sensing data.
  • sensor-side metadata describing the specifications and provision conditions of the sensing data, and also perform sensing for applications that are data users.
  • application-side metadata describing the required specifications of data, usage conditions, etc., and perform appropriate matching between the data provider (sensor) and the user (application) by comparing the metadata with each other. " ing.
  • the specifications of the data provided by the data provider are determined by the user of the provided data (hereinafter referred to as “user”). It is necessary to efficiently and appropriately determine whether or not the specification of the requested data (hereinafter, referred to as “request data”) is satisfied.
  • the specifications of both the provided data and the requested data are various, and it is not always easy to make the above determination.
  • Patent Literature 1 sensor-side metadata describing specifications and provision conditions of sensing data is prepared, and application-side metadata describing required specifications and usage conditions of sensing data is also described for an application as a data user. Is prepared, and the specification of the metadata management table is added when the data provider registers the data provided by the data provider in the metadata management table. Therefore, when the provided data is various, the user cannot easily determine how to combine the provided data.
  • the present invention has been made in view of such a background, and is capable of supporting determination of whether provided data satisfies a user's request, a data use support transmission device, And a method for supporting data use.
  • One aspect of the present invention is a data use supporting device that supports use of provided data, which is data provided by a data providing device, which is communicably connected to the data providing device, and wherein a user of the provided data
  • a storage unit that stores a request data specification that is a specification of request data that is data to be written, and one or more combinations of provision data for satisfying the request data specification by accessing the data providing device.
  • a data usage plan generating unit that generates a usage plan of the provided data by extracting the data usage plan generation unit.
  • FIG. 2 is a diagram illustrating a schematic configuration of an information processing system. It is an example of an information processing device.
  • FIG. 3 is a diagram illustrating main functions of the data providing device.
  • FIG. 3 is a diagram illustrating main functions of the user device. It is a figure showing the main functions with which a data use supporting device is provided. It is an example of provided data. It is an example of provided data attribute information. It is an example of a request data specification. It is an example of a data use plan. It is a flowchart explaining a data use plan generation process.
  • FIG. 9 is a diagram illustrating a state of evaluation of ease of combination.
  • FIG. 1 shows a schematic configuration of an information processing system 1 described as an embodiment.
  • the information processing system 1 includes a data providing device 2, a user device 3, and a data use support device 10.
  • the data providing device 2, the user device 3, and the data use support device 10 are all information processing devices (computers).
  • the data providing device 2, the user device 3, and the data use support device 10 are communicably connected via a communication network 5.
  • the communication network 5 is, for example, the Internet (Internet), a WAN (Wide Area Network), a LAN (Local Area Network), a dedicated line, or the like.
  • the data providing device 2 manages various data provided to the user device 3 (hereinafter referred to as “provided data”).
  • the data providing device 2 provides the provided data to the user device 3 via the communication network 5.
  • the provided data includes, for example, data provided by organizations such as government offices, companies, and information banks, sensor data obtained from sensors such as IoT sensors, customer data (such as sales promotion data), SNS (Social Network Service) data, and POS ( Point Of Sales) data, log data (access log, error log, etc.), and map data.
  • the provided data may be structured data or unstructured data. It does not matter whether the provided data is paid or free.
  • the provided data may be provided to the user device 3 via, for example, a Web site developed by the data providing device 2 on the Internet.
  • the user device 3 is a device operated by the user of the provided data.
  • the user device 3 obtains the provided data provided by the data providing device 2 via the communication network 5, and uses the obtained provided data for analysis and the like.
  • the user device 3 transmits information (hereinafter, referred to as “request data specification”) in which specifications of data requested by the user (hereinafter, referred to as “request data”) are described to the data use support device 10. I do.
  • the user device 3 presents to the user information indicating the usage plan of the provided data sent from the data usage support device 10 (hereinafter, referred to as “data usage plan”).
  • the user determines whether to use the provided data with reference to the information.
  • the user device 3 acquires provided data from the data providing device 2 via the communication network 5 according to a user's operation input or the like.
  • the data use support device 10 Upon receiving the request data specification from the user device 3, the data use support device 10 generates a data use plan by extracting one or more combinations of provided data to satisfy the received request data specification. The data use plan is transmitted to the user device 3. Details of functions and processes related to generation of a data use plan will be described later.
  • the data use support device 10 accesses the data providing device 2 via the communication network 5 as needed to refer to or acquire the provided data.
  • FIG. 2 is an example of hardware (hereinafter, referred to as an information processing device 100) that realizes the data providing device 2, the user device 3, and the data use supporting device 10.
  • the information processing apparatus 100 includes a processor 11, a main storage device 12, an auxiliary storage device 13, an input device 14, an output device 15, and a communication device 16. These are communicably connected to each other via communication means such as a bus (not shown).
  • Specific examples of the information processing device 100 include a personal computer, a workstation, a smartphone, a tablet, and a mainframe.
  • the information processing apparatus 100 may be realized using virtual resources such as a virtual server or a cloud server in a cloud system.
  • the information processing device 100 may be realized by, for example, a plurality of information processing devices or processors communicably connected.
  • the data providing device 2 and the data use support device 10 may be realized by a common information processing device 100.
  • the processor 11 is configured using, for example, a CPU (Central Processing Unit) or an MPU (Micro Processing Unit).
  • Various functions of the data providing device 2, the user device 3, and the data use support device 10 are realized by the processor 11 reading and executing a program stored in the main storage device 12.
  • the main storage device 12 is a device that stores programs and data, and is, for example, a ROM (Read Only Memory), a RAM (Random Access Memory), a nonvolatile semiconductor memory (NVRAM (Non Volatile RAM)), and the like.
  • the auxiliary storage device 13 is, for example, a hard disk drive, a semiconductor memory (SSD (Solid State Drive), SD memory card, USB memory, etc.), an optical storage device (CD (Compact Disc), DVD (Digital Versatile Disc), etc.), A portable recording medium, a portable recording medium read / write device, a storage area of a cloud server, and the like.
  • the programs and data stored in the auxiliary storage device 13 are loaded into the main storage device 12 as needed.
  • the auxiliary storage device 13 may be communicably connected to the processor 11 via communication means, such as a NAS (Network Attached Storage).
  • the input device 14 is a user interface that receives an external input, and is, for example, a keyboard, a mouse, a touch panel, a portable recording medium reading device, or the like.
  • the output device 15 is a user interface that provides various information such as the progress of processing and processing results to the outside, and includes, for example, an image display device (LCD (Liquid Crystal Display), a graphic card, etc.), a printing device, and a portable recording medium.
  • LCD Liquid Crystal Display
  • a writing device is a user interface that receives an external input, and is, for example, a keyboard, a mouse, a touch panel, a portable recording medium reading device, or the like.
  • the output device 15 is a user interface that provides various information such as the progress of processing and processing results to the outside, and includes, for example, an image display device (LCD (Liquid Crystal Display), a graphic card, etc.), a printing device, and a portable recording medium.
  • LCD Liquid Crystal Display
  • a writing device
  • the communication device 16 is a wired or wireless communication interface that realizes communication with another device via a communication means such as the communication network 5.
  • the communication device 16 is an NIC (Network Interface Card) or wireless.
  • a communication module Note that, for example, a configuration in which information is input or output to or from another device via the communication device 16, that is, a configuration in which the communication device 16 functions as the input device 14 or the output device 15 may be employed.
  • each of the data providing device 2, the user device 3, and the data use supporting device 10 are realized by the processor 11 reading and executing a program stored in the main storage device 12.
  • the above-mentioned program can be recorded on a portable recording medium and distributed.
  • the above-mentioned program can be downloaded from, for example, a distribution device that stores and manages the program to the data providing device 2, the user device 3, and the data use support device 10 via a communication facility.
  • the data providing device 2, the user device 3, and the data use support device 10 further include other functions such as an operating system, a file system, a device driver, and a DBMS (DataBase ⁇ Management ⁇ System) in addition to the above functions. May be.
  • Each of the data providing device 2, the user device 3, and the data use supporting device 10 stores various types of information (data) as, for example, a table or a file of a database.
  • FIG. 3 shows the main functions of the data providing device 2.
  • the data providing device 2 includes functions of a storage unit 210, a provided data management unit 211, a data acquisition request receiving unit 212, and a provided data transmitting unit 213.
  • the storage unit 110 stores the provided data 251 and the provided data attribute information 252. Details of these data will be described later.
  • the provided data management unit 211 manages the provided data 251 and the provided data attribute information 252 (registration, change, deletion, etc. of these information).
  • the data acquisition request receiving unit 212 receives a provision data acquisition request from the user device 3 or the data use support device 10 via the communication network 5.
  • the provided data transmission unit 213 transmits the requested provided data to the user device 3 or the data use support device 10 via the communication network 5 in response to the acquisition request.
  • all or a part of the functions of the data acquisition request receiving unit 212 and the provided data transmitting unit 213 may be realized as functions of a Web page (Web site) opened on the Internet (communication network 5).
  • the data providing device 2 may provide the user device 3 with the provided data via a recording medium.
  • FIG. 4 shows the main functions of the user device 3.
  • the user device 3 includes a storage unit 310, a request data specification reception unit 311, a request data specification transmission unit 312, a data use plan reception unit 313, a data use plan presentation unit 314, and a provision data acquisition unit 315.
  • And provided data use unit 316 Note that all or some of these functions of the user device 3 may be provided in the data use support device 10.
  • the storage unit 310 stores the requested data specification 351, the provided data 352 obtained from the data providing device 2, and the data use plan 353 received from the data use support device 10.
  • the request data specification receiving unit 311 receives a request data specification from a user.
  • the storage unit 310 stores the received request data specification as the request data specification 351.
  • the request data specification transmitting unit 312 transmits the received request data specification to the data use support device 10 via the communication network 5.
  • the data use plan receiving unit 313 receives a data use plan from the data use support device 10 via the communication network 5.
  • the data use plan presentation unit 314 presents the data use plan received from the data use support device 10 to the user via the output device 15.
  • the provided data obtaining unit 315 obtains provided data 352 from the data providing device 2 via the communication network 5 in response to an instruction from the user received via the input device 14 or the like.
  • the provided data using unit 316 performs processing related to analysis and use of the provided data 352 by, for example, interactive processing with the user.
  • FIG. 5 shows the main functions of the data use support device 10.
  • the data use support device 10 includes the functions of a storage unit 110, a required data specification reception unit 111, a data use plan generation unit 112, and a data use plan transmission unit 113.
  • the storage unit 110 stores the required data specification 151 and the data usage plan 152.
  • the request data specification receiving unit 111 receives the request data specification transmitted from the user device 3 via the communication network 5.
  • the storage unit 110 stores the request data specification received by the request data specification reception unit 111 as the request data specification 151.
  • the data use plan generation unit 112 generates a data use plan based on the required data specification 151.
  • the data use plan generated by the data use plan generation unit 112 is stored in the storage unit 110 as the data use plan 152.
  • the data usage plan generation unit 112 includes the functions of a combination extraction unit 1121, a data amount calculation unit 1122, a combination easiness evaluation unit 1123, and a usage fee calculation unit 1124.
  • the combination extraction unit 1121 accesses the data providing device 2 via the communication network 5 and extracts one or more combinations of provided data that satisfy the required data specification 151. Note that the combination extraction unit 1121 may acquire and store the provided data from the data providing device 2 in advance, and extract the combination using the provided data.
  • the data amount calculation unit 1122 calculates the data amount of each of the combinations extracted by the combination extraction unit 1121. Specifically, the data amount calculation unit 1122 accesses the data providing apparatus 2 via the communication network 5 and obtains the data amount by referring to the provided data attribute information 252 stored in the storage unit 210. .
  • the combination ease evaluation unit 1123 evaluates, for each combination extracted by the combination extraction unit 1121, the relevance (hereinafter, referred to as “combinability”) between the provided data used in each combination. Specifically, the ease-of-combination evaluation unit 1123 evaluates ease of combination based on the similarity (similarity) of the contents of items between provided data.
  • the usage fee calculation unit 1124 generates information on the usage fee of each of the combinations extracted by the combination extraction unit 1121.
  • the data use plan transmission unit 113 transmits the data use plan 152 generated by the data use plan generation unit 112 to the user device 3 via the communication network 5.
  • FIG. 6 is an example of the provision data 251 stored in the data provision device 2.
  • FIG. 4 shows four different provided data to which T1 to T4 are assigned as identifiers (hereinafter, referred to as “provided data IDs”). Note that, in the figure, the “record number” is abbreviated as “ ⁇ ”.
  • Provided data T1 shown in FIG. 6A is composed of one or more records having four items of record number t11, prefecture t12, total population t13, and labor population t14.
  • the provided data T2 shown in FIG. 6B is composed of one or more records having three items of a record number t21, a prefecture t22, and a population (total) t23.
  • the provided data T3 shown in FIG. 6C is composed of one or more records having three items of a record number t31, a prefecture t32, and a working population t33.
  • the provided data T4 shown in FIG. 6D is composed of one or more records having three items of a record number t41, a region t42, and the number of workers t43.
  • FIG. 7 shows an example of the provided data attribute information 252 stored in the data providing device 2.
  • the provided data attribute information 252 manages information on each provided data.
  • the content of the provided data attribute information 252 is managed by, for example, a provided data provider.
  • the provided data attribute information 252 is composed of one or more records having respective items of provided data ID 2521, data item 2522, usage fee 2523, and data amount 2524.
  • One record of the provided data attribute information 252 corresponds to one provided data.
  • a provided data ID is set in the provided data ID 2521.
  • data items of the provided data hereinafter, also referred to as “items” are listed in a comma-separated format.
  • a usage fee for the provided data is set.
  • the data amount 2524 the number of data (the number of records) of the provided data is set.
  • FIG. 8 shows an example of the request data specification 151 stored in the data use support device 10.
  • the request data specification 151 includes information for specifying the specification of the request data.
  • the request data specification 151 shown in the figure specifies that the request data is one in which the prefecture 1511, the total population 1512, and the working population 1513 are associated.
  • FIG. 9 shows an example of the data use plan 152 stored in the data use support device 10.
  • the data usage plan 152 includes a usage plan ID 1521, a prefecture 1522, a total population 1523, a labor force population 1524, ease of combination 1525, a data amount 1526, a usage fee (total) 1527, and a usage fee ( It contains one or more records with 1528 items per entry.
  • One record of the data use plan 152 corresponds to one data use plan.
  • use plan ID An identifier assigned to each data use plan is set in the use plan ID 1521.
  • the prefecture 1522, the total population 1523, and the labor force population 1524 are all items specified in the required data specification 151 (each item in the required data specification 151 in FIG. 8 in this example). Note that the number of items in the data usage plan 152 changes according to the contents of the required data specification 151.
  • notation such as “T1: prefecture” indicates a specific item of the provided data 251.
  • T1: prefecture indicates the prefecture t12 of the provided data T1.
  • the data usage plan with the usage plan ID 1521 of “1” indicates a combination of items of the prefecture t12 of the provided data T1, the total population t13 of the provided data T1, and the labor population t14 of the provided data T1.
  • the data usage plan with the usage plan ID 1521 of “2” includes the prefecture t22 of the provided data T2 (or the prefecture t32 of the provided data T3), the population (total) t23 of the provided data T2, and the labor force population of the provided data T3. This shows a combination of items of t33.
  • the data usage plan with the usage plan ID 1521 of “3” includes the prefecture t22 of the provided data T2 (or the area t42 of the provided data T4), the population (total) t23 of the provided data T2, and the number of workers t43 of the provided data T4. Are shown.
  • the number of data (the number of records) of the data use plan is set. If the data usage plan uses a plurality of provided data, the data amount 1526 is set to information indicating a range in which the number of data (the number of records) can be taken based on the respective data amounts of the plurality of provided data. .
  • the usage fee (total) 1527 information indicating the usage fee of the data usage plan is set.
  • the usage fee (per case) 1528 information indicating the usage fee per case (one record) of the data usage plan is set.
  • the usage fee (per case) 1528 includes the usage fee per case based on the value of the usage fee (total) 1527 of each of the plurality of provided data. Information indicating a range of possible values is set.
  • FIG. 10 illustrates a process (hereinafter, referred to as “data usage plan generation process S1000”) performed by the data usage support device 10 when generating a data usage plan based on the requested data specification 151 received from the user device 3. It is a flowchart explaining. Hereinafter, the data use plan generation processing S1000 will be described with reference to FIG.
  • the request data specification receiving unit 111 of the data use support device 10 receives the request data specification from the user device 3 via the communication network 5 (S1011).
  • the combination extraction unit 1121 of the data use supporting device 10 accesses the data providing device 2 via the communication network 5 and provides the provided data (which may or may be satisfied) to satisfy the required data specification 151 ( A combination (of items) is extracted (the provided data to be extracted may be singular), and a data usage plan 152 is generated based on the extracted combination (S1012).
  • the contents of the ease of combination 1525, the data amount 1526, the usage fee (total) 1527, and the usage fee (per case) 1528 of the data usage plan 152 have not been determined yet.
  • the request data specification 151 received from the user device 3 has the content of FIG. 8 and the data providing device 2 stores the four provided data 251 shown in FIG.
  • a search is made for the provided data 251 having items that match or are similar to (for example, prefectures), “total population”, and “working population” (for example, some of the above items match), and the results shown in FIG. 9 are obtained. Get. Note that whether or not the items are similar is determined using, for example, an algorithm used in natural language processing.
  • the data amount calculation unit 1122 accesses the data providing device 2, refers to the provided data attribute information 252, acquires the data amount of each extracted combination, and uses the acquired data amount for data use.
  • the data amount 1526 of the plan 152 is set (S1013).
  • the ease-of-combination evaluation unit 1123 evaluates the ease of combination for each of the extracted combinations, and sets the result of the evaluation in the ease-of-combination 1525 of the data usage plan 152 (S1014).
  • the ease-of-combination evaluation unit 1123 evaluates the ease of combination based on the similarity of the content of each item of the provided data. For example, the ease-of-combination evaluation unit 1123 determines the similarity between the prefecture t32 of the provided data T3 and the area t42 of the provided data T4 shown in FIG. 6 as follows.
  • the ease-of-combination evaluation unit 1123 compares the contents of the prefecture t32 of the provided data T3 with the contents of the area t42 of the provided data T4, and if there is the same one, associates the two.
  • FIG. 11 shows the state of the association.
  • the ease-of-combination evaluation unit 1123 determines whether or not the contents of one item partially include the character string of the other item in the items not determined to be the same in (1). If the content of one item partially includes the character string of the other item, the two items are associated with each other.
  • the combination easiness evaluation unit 1123 sets in advance the ratio (similarity) of the items (records) associated with (1) and (2) to all records in the provided data 251. If the value is equal to or larger than the first threshold, the ease-of-combination evaluation unit 1123 determines that the ease of combination is “ ⁇ unnecessary”. If the ratio (similarity) of the associated data to the entire record of the provided data 251 is less than the first threshold and equal to or more than the second threshold ( ⁇ first threshold) set in advance, the ease-of-combination evaluation unit 1123 Determines that the combination easiness is “ ⁇ possible”.
  • the ease-of-combination evaluation unit 1123 determines that the ease of combination is “possible”.
  • the provided data 251 for which the ratio (similarity) to all the records is to be obtained may be any of the provided data T3 and the provided data T4. Further, as the above ratio (similarity), for example, an average value of the ratio obtained for the provided data T3 and the average obtained for the provided data T4 may be used.
  • the usage fee calculation unit 1124 accesses the data providing apparatus 2 and refers to the provided data attribute information 252, and uses each combination determined as “ ⁇ unnecessary” or “ ⁇ possible” in S1014. Information about the fee is generated, and the above information is set in the usage fee (total) 1527 and the usage fee (per case) 1528 of the data usage plan 152 (S1015).
  • the usage plan ID 1521 in FIG. 9 is a data usage plan with “1”
  • the usage fee 2523 of the provided data T1 is “$ 1000000” from the provided data attribute information 252 in FIG. Is set to “$ 100000”.
  • the use charge of the provided data T2 is free, and the use charge 2523 of the provided data T4 is also free.
  • “$ 0” is set to the usage fee (per case) 1528.
  • the data use plan transmitting unit 113 transmits the generated data use plan 152 to the user device 3 via the communication network 5 (S1016).
  • the user device 3 Upon receiving the data use plan, the user device 3 outputs the contents of the received data use plan (for example, the contents of the data use plan 152 in FIG. 9) to the output device 15.
  • the data use support device 10 of the present embodiment automatically extracts a data use plan by extracting at least one or more combinations of provided data to satisfy the required data that satisfies the required data specification 151. Since the generated data usage plan is generated and provided to the user device 3, the user can efficiently and appropriately determine whether the provided data satisfies his or her own request.
  • the user can easily obtain information necessary for using the provided data. Also, it is not necessary for the provider of the provided data to provide the provided data itself to the user in advance. For example, loss and risk due to passing the provided data to the user before purchasing the provided data are prevented. be able to.
  • the data usage plan 152 includes information indicating the easiness of each combination (combination easiness 1525), it is determined whether or not the user can efficiently use the provided data according to his / her own purpose. Can be easily determined.
  • the data usage plan 152 includes information indicating the data amount of the request data, the user can easily determine whether or not the user can obtain the request data of the data amount necessary to perform his / her purpose. be able to.
  • the data usage plan 152 includes information indicating the usage fee of the requested data and the usage fee per case, the user can know the fee required to obtain the requested data.
  • the components, functional units, processing units, processing means, and the like described above may be partially or entirely realized by hardware, for example, by designing an integrated circuit.
  • Each of the above configurations, functions, and the like may be implemented by software by a processor interpreting and executing a program that implements each function.
  • Information such as a program, a table, and a file for realizing each function can be stored in a recording device such as a memory, a hard disk, and an SSD, or a recording medium such as an IC card, an SD card, and a DVD.
  • the arrangement of the various functional units, various processing units, and various databases of the information processing system 1 described above is merely an example.
  • the arrangement form of the various functional units, various processing units, and various databases can be changed to an optimal arrangement form in view of the performance, processing efficiency, communication efficiency, and the like of the hardware and software included in the information processing system 1.
  • the structure of the above-mentioned database (Schema, etc.) can be flexibly changed from the viewpoint of efficient use of resources, improvement of processing efficiency, improvement of access efficiency, improvement of search efficiency, and the like.
  • Information processing system 2 Data providing device 210 Storage unit 211 Provided data management unit 212 Data acquisition request receiving unit 213 Provided data transmitting unit 251 Provided data 252 Provided data attribute information 3 User device 310 Storage unit 311 Requested data specification receiving unit 312 Request Data specification sending unit 313 Data usage plan receiving unit 314 Data usage plan presentation unit 315 Provided data acquisition unit 316 Provided data usage unit 351 Requested data specification 352 Provided data 5 Communication network 10 Data usage support device 110 Storage unit 111 Requested data specification reception unit 112 Data usage plan generation unit 1121 Combination extraction unit 1122 Data amount calculation unit 1123 Combinability evaluation unit 1124 Usage fee calculation unit 113 Data usage plan transmission unit 151 Requested data specification 152 Data usage plan S1000 Data usage plan generation processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供されるデータが利用者の要求を満たすものであるか否かの判断を効率よく適切に行う。 データ利用支援装置は、データ提供装置と通信可能に接続し、データ提供装置が提供するデータである提供データの利用者が要求するデータである要求データの仕様が記載されたデータである要求データ仕様を記憶し、データ提供装置にアクセスし、要求データ仕様を満たすための提供データの一つ以上の組合せを抽出することにより、提供データの利用案を生成する。データ利用支援装置は、上記組合せを抽出した際、第1の提供データのデータ項目の内容と第2の提供データのデータ項目の内容との類似度に基づき、組合せの容易性を評価し、評価の結果を示す情報を利用案に含める。データ利用支援装置は、利用者装置から上記の要求データ仕様を受信する。

Description

データ利用支援装置、及びデータ利用支援方法
 本発明は、データ利用支援装置、及びデータ利用支援方法に関する。
 本出願は、2018年7月3日に出願された日本特許出願2018-127011号に基づく優先権を主張し、その開示全体を援用して本出願に取り込むものである。
 特許文献1には、「データ流通市場において取引されるデータの精度や品質を保証し、データ取引の安全と信頼を向上するための技術を提供する。」、「データ流通市場において取引されるデータの精度や品質を保証し、データ取引の安全と信頼を向上するための技術を提供することを目的として構成されたデータフロー制御装置について記載されている。データフロー制御装置は、デバイス側メタデータおよびアプリ側メタデータのマッチングを行うことでアプリケーションの要求を満たすデータを提供可能なデバイスを抽出する。」、「データ提供者とデータ利用者のあいだのマッチングを行う際に、データ利用者の希望条件に合致するデータを膨大なセンシングデータのなかから抽出するのは現実的ではない。そこで本システムでは、センサネットワークに登録されているすべてのセンサ(実センサ、仮想センサ含む)について、センシングデータの仕様や提供条件などを記述したセンサ側メタデータを準備するとともに、データ利用者であるアプリケーションについても、センシングデータの要求仕様や利用条件などを記述したアプリ側メタデータを用いる。そして、メタデータ同士の比較により、データ提供者(センサ)と利用者(アプリケーション)の適切なマッチングを行う。」と記載されている。
特開2017-111501号公報
 IoT(Internet of Things)やAI(Artificial Intelligence)等の技術進歩により、ビッグデータ等の大量のデータを効率よく収集して分析や活用を行うための環境が整いつつある。また昨今では、個人からの委託を受けてその個人に関するデータの管理と第三者への提供を行ういわゆる情報銀行について検討や制度設計が進められている。
 ここでこうしたデータの利用に際しては、データの提供者が提供するデータ(以下、「提供データ」と称する。)の仕様が、提供データを利用する者(以下、「利用者」と称する。)が要求するデータ(以下、「要求データ」と称する。)の仕様を満たすか否かを効率よく適切に判断する必要がある。しかし例えば情報銀行で想定されているユースケースでは、提供データ及び要求データのいずれについてもその仕様は多種多様であり、上記の判断を行うことは必ずしも容易ではない。
 特許文献1では、センシングデータの仕様や提供条件などを記述したセンサ側メタデータを準備するとともに、データ利用者であるアプリケーションについても、センシングデータの要求仕様や利用条件等を記述したアプリ側メタデータを準備しており、データ提供者が自身の提供するデータをメタデータ管理テーブルに登録するタイミングで、メタデータ管理テーブルの仕様を追加することになる。そのため、提供データが多種多様な場合、利用者は提供データをどのように組み合わせればよいかを容易に判断することができない。
 本発明は、このような背景に鑑みてなされたものであり、提供されるデータが利用者の要求を満たすものであるか否かの判断を支援することが可能な、データ利用支援送装置、及びデータ利用支援方法を提供することを目的としている。
 本発明の一つは、データ提供装置が提供するデータである提供データの利用を支援するデータ利用支援装置であって、前記データ提供装置と通信可能に接続し、前記提供データの利用者が要求するデータである要求データの仕様が記載されたデータである要求データ仕様を記憶する記憶部と、前記データ提供装置にアクセスし、前記要求データ仕様を満たすための提供データの一つ以上の組合せを抽出することにより、前記提供データの利用案を生成する、データ利用案生成部と、を備える。
 その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。
 本発明によれば、提供されるデータが利用者の要求を満たすものであるか否かの判断を効率よく適切に行うことができる。
情報処理システムの概略的な構成を示す図である。 情報処理装置の一例である。 データ提供装置が備える主な機能を示す図である。 利用者装置が備える主な機能を示す図である。 データ利用支援装置が備える主な機能を示す図である。 提供データの例である。 提供データ属性情報の例である。 要求データ仕様の例である。 データ利用案の例である。 データ利用案生成処理を説明するフローチャートである。 組合せ容易性の評価の様子を説明する図である。
 以下、実施形態につき図面を参照しつつ説明する。尚、以下の説明において、同一又は類似する構成に同一の符号を付して重複した説明を省略することがある。
 図1に実施形態として説明する情報処理システム1の概略的な構成を示している。同図に示すように、情報処理システム1は、データ提供装置2、利用者装置3、及びデータ利用支援装置10を含む。データ提供装置2、利用者装置3、及びデータ利用支援装置10は、いずれも情報処理装置(コンピュータ)である。データ提供装置2、利用者装置3、及びデータ利用支援装置10は、通信ネットワーク5を介して通信可能に接続されている。通信ネットワーク5は、例えば、インターネット(Internet)、WAN(Wide Area Network)、LAN(Local Area Network)、専用線等である。
 データ提供装置2は、利用者装置3に提供する各種のデータ(以下、「提供データ」と称する。)を管理する。データ提供装置2は、通信ネットワーク5を介して利用者装置3に提供データを提供する。提供データは、例えば、官公庁、企業、情報銀行等の組織が提供するデータ、IoTセンサ等のセンサから取得されたセンサデータ、カスタマーデータ(販促データ等)、SNS(Social Network Service)データ、POS(Point Of Sales)データ、ログデータ(アクセスログ、エラーログ等)、地図データである。提供データは、構造化データであってもよいし、非構造化データであってもよい。提供データは有償であると無償であるとを問わない。提供データは、例えば、データ提供装置2がインターネット上に展開するWebサイトを介して利用者装置3に提供してもよい。
 利用者装置3は、提供データの利用者によって操作される装置である。利用者装置3は、通信ネットワーク5を介してデータ提供装置2が提供する提供データを取得し、取得した提供データを分析等に利用する。利用者装置3は、利用者が要求するデータ(以下、「要求データ」と称する。)の仕様が記載された情報(以下、「要求データ仕様」と称する。)をデータ利用支援装置10に送信する。利用者装置3は、データ利用支援装置10から送られてくる提供データの利用案を示す情報(以下、「データ利用案」と称する。)を利用者に提示する。利用者は、上記情報を参照して提供データを利用するか否かを判断する。利用者装置3は、利用者の操作入力等に応じて通信ネットワーク5を介してデータ提供装置2から提供データを取得する。
 データ利用支援装置10は、利用者装置3から要求データ仕様を受信すると、受信した要求データ仕様を満たすための提供データの一つ以上の組合せを抽出することによりデータ利用案を生成し、生成したデータ利用案を利用者装置3に送信する。データ利用案の生成に関する機能や処理の詳細については後述する。データ利用案の生成に際し、データ利用支援装置10は、通信ネットワーク5を介してデータ提供装置2に随時アクセスして提供データを参照もしくは取得する。
 図2は、データ提供装置2、利用者装置3、及びデータ利用支援装置10を実現するハードウェア(以下、情報処理装置100と称する。)の一例である。同図に示すように、情報処理装置100は、プロセッサ11、主記憶装置12、補助記憶装置13、入力装置14、出力装置15、及び通信装置16を備える。これらは図示しないバス等の通信手段を介して互いに通信可能に接続されている。情報処理装置100の具体例として、パーソナルコンピュータ、ワークステーション、スマートフォン、タブレット、メインフレーム等がある。情報処理装置100は、例えば、仮想サーバやクラウドシステム(cloud system)におけるクラウドサーバ(cloud server)のように仮想的なリソースを用いて実現されるものであってもよい。情報処理装置100は、例えば、通信可能に接続された複数の情報処理装置やプロセッサにより実現されるものであってもよい。またデータ提供装置2とデータ利用支援装置10を共通の情報処理装置100により実現してもよい。
 プロセッサ11は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)を用いて構成されている。プロセッサ11が、主記憶装置12に格納されているプログラムを読み出して実行することにより、データ提供装置2、利用者装置3、及びデータ利用支援装置10の様々な機能が実現される。主記憶装置12は、プログラムやデータを記憶する装置であり、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、不揮発性半導体メモリ(NVRAM(Non Volatile RAM))等である。
 補助記憶装置13は、例えば、ハードディスクドライブ、半導体メモリ(SSD(Solid State Drive)、SDメモリカード、USBメモリ等)、光学式記憶装置(CD(Compact Disc)、DVD(Digital Versatile Disc)等)、可搬型記録媒体と可搬型記録媒体の読取/書込装置、クラウドサーバの記憶領域等である。補助記憶装置13に格納されているプログラムやデータは主記憶装置12に随時ロードされる。補助記憶装置13は、例えば、NAS(Network Attached Storage)のように通信手段を介してプロセッサ11と通信可能に接続されるものであってもよい。
 入力装置14は、外部からの入力を受け付けるユーザインタフェースであり、例えば、キーボード、マウス、タッチパネル、可搬型記録媒体の読取装置等である。出力装置15は、処理経過や処理結果等の各種情報を外部に提供するユーザインタフェースであり、例えば、画像表示装置(LCD(Liquid Crystal Display)、グラフィックカード等)、印字装置、可搬型記録媒体の書込装置等である。
 通信装置16は、通信ネットワーク5等の通信手段を介して行われる他の装置との間の通信を実現する、有線方式または無線方式の通信インタフェースであり、例えば、NIC(Network Interface Card)や無線通信モジュール等である。尚、例えば、通信装置16を介して他の装置との間で情報の入力や出力を行う構成、即ち通信装置16が入力装置14や出力装置15として機能する構成としてもよい。
 データ提供装置2、利用者装置3、及びデータ利用支援装置10の夫々が提供する機能は、プロセッサ11が、主記憶装置12に格納されているプログラムを読み出して実行することにより実現される。上記のプログラムは、例えば、可搬型記録媒体に記録して配布することができる。また上記のプログラムは、例えば、上記プログラムを蓄積管理する配信装置から通信設備を介してデータ提供装置2、利用者装置3、及びデータ利用支援装置10にダウンロードすることができる。データ提供装置2、利用者装置3、及びデータ利用支援装置10は、上記の機能に加えて、例えば、オペレーティングシステム、ファイルシステム、デバイスドライバ、DBMS(DataBase Management System)等の他の機能をさらに備えていてもよい。データ提供装置2、利用者装置3、及びデータ利用支援装置10は夫々、各種の情報(データ)を、例えば、データベースのテーブルやファイルとして記憶する。
 図3にデータ提供装置2が備える主な機能を示している。同図に示すように、データ提供装置2は、記憶部210、提供データ管理部211、データ取得要求受信部212、及び提供データ送信部213の各機能を備える。
 上記機能のうち、記憶部110は、提供データ251及び提供データ属性情報252を記憶する。これらのデータの詳細については後述する。
 提供データ管理部211は、提供データ251及び提供データ属性情報252を管理(これらの情報の登録、変更、削除等)する。データ取得要求受信部212は、通信ネットワーク5を介して、利用者装置3やデータ利用支援装置10から、提供データの取得要求を受信する。提供データ送信部213は、上記取得要求に応じて、要求されている提供データを、通信ネットワーク5を介して利用者装置3やデータ利用支援装置10に送信する。尚、データ取得要求受信部212や提供データ送信部213の機能の全部または一部は、インターネット(通信ネットワーク5)上に開設されるWebページ(Webサイト)の機能として実現されていてもよい。またデータ提供装置2から利用者装置3に記録媒体を介して提供データを提供する構成としてもよい。
 図4に利用者装置3が備える主な機能を示している。同図に示すように、利用者装置3は、記憶部310、要求データ仕様受付部311、要求データ仕様送信部312、データ利用案受信部313、データ利用案提示部314、提供データ取得部315、及び提供データ利用部316の各機能を備える。尚、利用者装置3が備えるこれらの機能の全部または一部をデータ利用支援装置10に設けてもよい。
 上記機能のうち、記憶部310は、要求データ仕様351、データ提供装置2から取得した提供データ352、及びデータ利用支援装置10から受信したデータ利用案353を記憶する。
 要求データ仕様受付部311は、利用者から要求データ仕様を受け付ける。受け付けた要求データ仕様は、記憶部310が要求データ仕様351として記憶する。また要求データ仕様送信部312は、受け付けた要求データ仕様を、通信ネットワーク5を介してデータ利用支援装置10に送信する。
 データ利用案受信部313は、通信ネットワーク5を介してデータ利用支援装置10からデータ利用案を受信する。データ利用案提示部314は、データ利用支援装置10から受信したデータ利用案を出力装置15を介して利用者に提示する。
 提供データ取得部315は、入力装置14を介して受け付けた利用者からの指示等に応じて、通信ネットワーク5を介してデータ提供装置2から提供データ352を取得する。提供データ利用部316は、例えば、利用者との間のインタラクティブな処理により提供データ352の分析や利用に関する処理を行う。
 図5にデータ利用支援装置10が備える主な機能を示している。同図に示すように、データ利用支援装置10は、記憶部110、要求データ仕様受信部111、データ利用案生成部112、及びデータ利用案送信部113の各機能を備える。
 上記機能のうち、記憶部110は、要求データ仕様151、及びデータ利用案152を記憶する。
 要求データ仕様受信部111は、通信ネットワーク5を介して利用者装置3から送られてくる要求データ仕様を受信する。要求データ仕様受信部111が受信した要求データ仕様は、記憶部110が要求データ仕様151として記憶する。
 データ利用案生成部112は、要求データ仕様151に基づきデータ利用案を生成する。データ利用案生成部112が生成したデータ利用案は、記憶部110がデータ利用案152として記憶する。
 同図に示すように、データ利用案生成部112は、組合せ抽出部1121、データ量算出部1122、組合せ容易性評価部1123、及び利用料金算出部1124の各機能を含む。
 組合せ抽出部1121は、通信ネットワーク5を介してデータ提供装置2にアクセスし、要求データ仕様151を満たすための提供データの一つ以上の組合せを抽出する。尚、組合せ抽出部1121が、予めデータ提供装置2から提供データを取得して記憶しておき、当該提供データを用いて上記組合せの抽出を行うようにしてもよい。
 データ量算出部1122は、組合せ抽出部1121が抽出した組合せの夫々のデータ量を求める。具体的には、データ量算出部1122は、通信ネットワーク5を介してデータ提供装置2にアクセスし、記憶部210が記憶している提供データ属性情報252を参照することにより上記のデータ量を求める。
 組合せ容易性評価部1123は、組合せ抽出部1121が抽出した組合せの夫々について、夫々で用いる提供データ間の関連性(以下、「組合せ容易性」と称する。)を評価する。具体的には、組合せ容易性評価部1123は、提供データ間の項目の内容の類似度(類似性)に基づき組合せ容易性を評価する。
 利用料金算出部1124は、組合せ抽出部1121が抽出した組合せの夫々の利用料金に関する情報を生成する。
 データ利用案送信部113は、データ利用案生成部112が生成したデータ利用案152を通信ネットワーク5を介して利用者装置3に送信する。
 図6はデータ提供装置2が記憶する提供データ251の例である。同図には識別子(以下、「提供データID」と称する。)としてT1~T4が付与された4つの異なる提供データを示している。尚、同図では「レコード番号」のことを「♯」と簡略表記している。
 図6(a)に示す提供データT1は、レコード番号t11、都道府県t12、総人口t13、及び労働力人口t14の4つの項目を有する一つ以上のレコードで構成されている。
 図6(b)に示す提供データT2は、レコード番号t21、都道府県t22、及び人口(合計)t23の3つの項目を有する一つ以上のレコードで構成されている。
 図6(c)に示す提供データT3は、レコード番号t31、都道府県t32、労働力人口t33の3つの項目を有する一つ以上のレコードで構成されている。
 図6(d)に示す提供データT4は、レコード番号t41、地域t42、労働者数t43の3つの項目を有する一つ以上のレコードで構成されている。
 図7にデータ提供装置2が記憶する提供データ属性情報252の例を示す。提供データ属性情報252には個々の提供データに関する情報が管理される。提供データ属性情報252の内容は、例えば、提供データの提供者によって管理される。
 同図に示すように、提供データ属性情報252は、提供データID2521、データ項目2522、利用料金2523、及びデータ量2524の各項目を有する一つ以上のレコードで構成されている。提供データ属性情報252の一つのレコードは一つの提供データに対応している。
 提供データID2521には提供データIDが設定される。データ項目2522には、当該提供データのデータ項目(以下、「項目」とも称する。)がカンマ区切り形式で列挙される。利用料金2523には、当該提供データの利用料金が設定される。データ量2524には、当該提供データのデータ数(レコード数)が設定される。
 図8に、データ利用支援装置10が記憶する要求データ仕様151の例を示す。要求データ仕様151は要求データの仕様を特定する情報を含む。同図に示す要求データ仕様151は、要求データが、都道府県1511、総人口1512、及び労働力人口1513を対応づけたものであることを特定している。
 図9に、データ利用支援装置10が記憶するデータ利用案152の例を示す。同図に示すように、データ利用案152は、利用案ID1521、都道府県1522、総人口1523、労働力人口1524、組合せ容易性1525、データ量1526、利用料金(合計)1527、及び利用料金(1件当たり)1528の各項目を有する一つ以上のレコードを含む。データ利用案152の一つのレコードは、一つのデータ利用案に対応している。
 利用案ID1521には、データ利用案ごとに付与される識別子(以下、「利用案ID」と称する。)が設定される。
 都道府県1522、総人口1523、及び労働力人口1524は、いずれも要求データ仕様151で指定されている項目(本例では図8の要求データ仕様151における各項目)である。尚、データ利用案152の項目の数は、要求データ仕様151の内容に応じて変化する。同図において「T1:都道府県」等の表記は、提供データ251の特定の項目を示す。例えば、「T1:都道府県」は、提供データT1の都道府県t12を示す。
 同図において、利用案ID1521が「1」のデータ利用案は、提供データT1の都道府県t12、提供データT1の総人口t13、及び提供データT1の労働力人口t14の各項目の組合せを示す。
 また利用案ID1521が「2」のデータ利用案は、提供データT2の都道府県t22(もしくは提供データT3の都道府県t32)、提供データT2の人口(合計)t23、及び提供データT3の労働力人口t33という項目の組合せを示す。
 また利用案ID1521が「3」のデータ利用案は、提供データT2の都道府県t22(もしくは提供データT4の地域t42)、提供データT2の人口(合計)t23、及び提供データT4の労働者数t43という項目の組合せを示す。
 組合せ容易性1525には、当該データ利用案で用いる提供データの前述した組合せ容易性を示す情報が設定される。
 本例では、複数の提供データの組合せが不要な場合(例えば、本例の利用案ID1521が「1」のデータ利用案のように、都道府県1522、総人口1523、及び労働力人口1524の全ての項目が同じ提供データT1に含まれている場合)には「◎不要」が設定される。
 また組合せが可能と判断される場合(例えば、組合せを構成している提供データの項目の内容の一致性が予め設定された水準以上の場合)には「〇可能」が設定される。
 また要求データ仕様を満たせる可能性があると判断される場合(例えば、組合せを構成している提供データの項目の内容の一致性が予め設定された水準未満の場合)には「△可能性有」が設定される。
 データ量1526には、当該データ利用案のデータ数(レコード数)が設定される。尚、データ利用案が用いる提供データが複数である場合、データ量1526には、複数の提供データの夫々のデータ量に基づき、データ数(レコード数)が取り得る範囲を示す情報が設定される。
 利用料金(合計)1527には、当該データ利用案の利用料金を示す情報が設定される。利用料金(1件当たり)1528には、当該データ利用案の1件(1レコード)当たりの利用料金を示す情報が設定される。尚、データ利用案が用いる提供データが複数の場合、利用料金(1件当たり)1528には、複数の提供データの夫々の利用料金(合計)1527の値に基づき、1件あたりの利用料金が取り得る値の範囲を示す情報が設定される。
 図10は、データ利用支援装置10が、利用者装置3から受信した要求データ仕様151に基づきデータ利用案を生成する際に行う処理(以下、「データ利用案生成処理S1000」と称する。)を説明するフローチャートである。以下、同図とともにデータ利用案生成処理S1000について説明する。
 まずデータ利用支援装置10の要求データ仕様受信部111が、通信ネットワーク5を介して利用者装置3から要求データ仕様を受信する(S1011)。
 続いて、データ利用支援装置10の組合せ抽出部1121が、通信ネットワーク5を介してデータ提供装置2にアクセスし、要求データ仕様151を満たすための(満たすもしくは満たす可能性のある)提供データの(項目の)組合せを抽出し(抽出される提供データは単数でもよい)、抽出した組合せに基づきデータ利用案152を生成する(S1012)。尚、この時点ではまだデータ利用案152の組合せ容易性1525、データ量1526、利用料金(合計)1527、及び利用料金(1件当たり)1528の内容は未確定である。
 例えば、利用者装置3から受信した要求データ仕様151が図8の内容であり、データ提供装置2が図6に示す4つの提供データ251を記憶している場合、組合せ抽出部1121は、「都道府県」、「総人口」、「労働力人口」の各項目に一致するもしくは類似する(例えば、上記各項目の一部が一致する)項目を有する提供データ251を探索し、図9に示す結果を得る。尚、項目が類似するか否かの判断は、例えば、自然言語処理で用いられるアルゴリズムを用いて行う。
 図10に戻り、続いて、データ量算出部1122が、データ提供装置2にアクセスして提供データ属性情報252を参照し、抽出した各組合せのデータ量を取得し、取得したデータ量をデータ利用案152のデータ量1526に設定する(S1013)。
 続いて、組合せ容易性評価部1123が、抽出した各組合せについて組合せ容易性を評価し、評価の結果をデータ利用案152の組合せ容易性1525に設定する(S1014)。尚、組合せ容易性評価部1123は、提供データの夫々の項目の内容の類似度に基づき組合せ容易性を評価する。例えば、組合せ容易性評価部1123は、図6に示す提供データT3の都道府県t32と提供データT4の地域t42の類似度を次のように判断する。
(1)まず組合せ容易性評価部1123は、提供データT3の都道府県t32の内容と提供データT4の地域t42の内容とを比較し、同一のものがあれば両者を対応づける。図11に上記対応づけの様子を示す。
(2)続いて、組合せ容易性評価部1123は、(1)で同一とされなかった項目について、一方の項目の内容に他方の項目の文字列が部分的に含まれているか否かを判断し、一方の項目の内容に他方の項目の文字列が部分的に含まれている場合は両者を対応づける。
(3)続いて、組合せ容易性評価部1123は、(1)と(2)とで対応付けされた項目(レコード)の提供データ251の全レコードに対する割合(類似度)が、予め設定された第1閾値以上である場合、組合せ容易性評価部1123は、組合せ容易性を「◎不要」と判定する。また対応付けされたレコードの提供データ251の全レコードに対する割合(類似度)が、第1閾値未満かつ予め設定された第2閾値(<第1閾値)以上である場合、組合せ容易性評価部1123は、組合せ容易性を「〇可能」と判定する。また対応付けされたレコードの提供データ251の全レコードに対する割合(類似度)が第2閾値未満である場合、組合せ容易性評価部1123は、組合せ容易性を「可能性有」と判定する。尚、上記の全レコードに対する割合(類似度)を求める対象となる提供データ251は、提供データT3及び提供データT4のいずれでもよい。また上記割合(類似度)として、例えば、提供データT3について求めた割合と提供データT4について求めた割合の平均値を用いてもよい。
 図10に戻り、続いて、利用料金算出部1124が、データ提供装置2にアクセスして提供データ属性情報252を参照し、S1014で「◎不要」または「〇可能」と判定した各組合せについて利用料金に関する情報を生成し、上記情報をデータ利用案152の利用料金(合計)1527及び利用料金(1件当たり)1528に設定する(S1015)。
 例えば、図9の利用案ID1521が「1」のデータ利用案の場合、図7の提供データ属性情報252から提供データT1の利用料金2523は「¥100000」であるため、利用料金(合計)1527には「¥100000」が設定される。また図9からデータ量1526は「1000件」であるため、「¥100000/1000=¥100」が利用料金(1件当たり)1528に設定される。
 また例えば、図9の利用案ID1521が「2」のデータ利用案の場合、提供データT2の利用料金は無料であり、提供データT3の利用料金2523は「¥50000円」であるため、利用料金(合計)1527には「¥50000」が設定される。またデータ量1526が「1万~5万件」であるため、「¥5000/1万~5万=¥1~5」が利用料金(1件当たり)1528に設定される。
 また例えば、図9の利用案ID1521が「3」のデータ利用案の場合、提供データT2の利用料金は無料であり、提供データT4の利用料金2523も無料であるため、利用料金(合計)1527及び利用料金(1件当たり)1528に「¥0」が設定される。
 図10に戻り、続いて、データ利用案送信部113が、通信ネットワーク5を介して、生成されたデータ利用案152を利用者装置3に送信する(S1016)。尚、利用者装置3は、データ利用案を受信すると、受信したデータ利用案の内容(例えば、図9のデータ利用案152の内容)を出力装置15に出力する。
 以上に説明したように、本実施形態のデータ利用支援装置10は、要求データ仕様151を満たす要求データを満たすための、提供データの少なくとも一つ以上の組合せを抽出することによりデータ利用案を自動的に生成し、生成したデータ利用案を利用者装置3に提供するので、利用者は、提供データが自身の要求を満たすものであるか否かの判断を効率よく適切に行うことができる。
 また以上の仕組みによれば、利用者は提供データを利用する際に必要となる情報を容易に取得することができる。また提供データを提供する側にとっては、事前に提供データそのものを利用者に提供する必要がなく、例えば、提供データを購入する前に利用者に提供データを渡してしまうことによる損失やリスクを防ぐことができる。
 またデータ利用案152は、組合せの夫々の組合せの容易性を示す情報(組合せ容易性1525)を含むので、利用者は自身の目的に沿って提供データを効率よく利用することができるか否かを容易に判断することができる。
 またデータ利用案152は、要求データのデータ量を示す情報を含むので、利用者は自身の目的を遂行するために必要なデータ量の要求データを得ることができるか否かを容易に判断することができる。
 またデータ利用案152は、要求データの利用料金や1件当たりの利用料金を示す情報を含むので、利用者は要求データを得るために必要な料金を知ることができる。
 尚、本発明は以上に説明した実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また上記実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
 また上記の各構成、機能部、処理部、処理手段等は、それらの一部又は全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、SSD等の記録装置、又はICカード、SDカード、DVD等の記録媒体に置くことができる。
 また以上に説明した情報処理システム1の各種機能部、各種処理部、各種データベースの配置形態は一例に過ぎない。各種機能部、各種処理部、各種データベースの配置形態は情報処理システム1が備えるハードウェアやソフトウェアの性能、処理効率、通信効率等の観点から最適な配置形態に変更し得る。
 また前述したデータベースの構成(スキーマ(Schema)等)は、リソースの効率的な利用、処理効率向上、アクセス効率向上、検索効率向上等の観点から柔軟に変更し得る。
1 情報処理システム
2 データ提供装置
210 記憶部
211 提供データ管理部
212 データ取得要求受信部
213 提供データ送信部
251 提供データ
252 提供データ属性情報
3 利用者装置
310 記憶部
311 要求データ仕様受付部
312 要求データ仕様送信部
313 データ利用案受信部
314 データ利用案提示部
315 提供データ取得部
316 提供データ利用部
351 要求データ仕様
352 提供データ
5 通信ネットワーク
10 データ利用支援装置
110 記憶部
111 要求データ仕様受信部
112 データ利用案生成部
1121 組合せ抽出部
1122 データ量算出部
1123 組合せ容易性評価部
1124 利用料金算出部
113 データ利用案送信部
151 要求データ仕様
152 データ利用案
S1000 データ利用案生成処理

Claims (14)

  1.  データ提供装置が提供するデータである提供データの利用を支援するデータ利用支援装置であって、
     前記データ提供装置と通信可能に接続し、
     前記提供データの利用者が要求するデータである要求データの仕様が記載されたデータである要求データ仕様を記憶する記憶部と、
     前記データ提供装置にアクセスし、前記要求データ仕様を満たすための提供データの一つ以上の組合せを抽出することにより、前記提供データの利用案を生成する、データ利用案生成部と、
     を備える、データ利用支援装置。
  2.  請求項1に記載のデータ利用支援装置であって、
     前記データ利用案生成部は、前記組合せを抽出した際、第1の前記提供データのデータ項目の内容と第2の前記提供データのデータ項目の内容との類似度に基づき、前記組合せの容易性を評価し、前記評価の結果を示す情報を前記利用案に含める、
     データ利用支援装置。
  3.  請求項1または2に記載のデータ利用支援装置であって、
     前記データ利用案生成部は、前記データ提供装置にアクセスすることにより、前記組合せを構成する前記提供データの夫々のデータ量を取得し、取得した前記データ量に基づき前記組合せごとのデータ量を求め、求めた前記データ量を示す情報を前記利用案に含める、
     データ利用支援装置。
  4.  請求項1または2に記載のデータ利用支援装置であって、
     前記データ利用案生成部は、前記データ提供装置にアクセスすることにより、前記組合せを構成する前記提供データの夫々の利用料金を取得し、取得した前記利用料金に基づき前記組合せごとの利用料金を求め、求めた前記利用料金を前記利用案に含める、
     データ利用支援装置。
  5.  請求項1または2に記載のデータ利用支援装置であって、
     前記データ利用案生成部は、前記データ提供装置にアクセスすることにより、前記組合せを構成する前記提供データの夫々のデータ量と利用料金とを取得し、取得した前記データ量と前記利用料金とに基づき前記組合せごとの1件当たりの利用料金を求め、求めた前記1件当たりの利用料金を前記利用案に含める、
     データ利用支援装置。
  6.  請求項1または2に記載のデータ利用支援装置であって、
     前記要求データを利用する利用者装置と通信可能に接続し、
     前記利用者装置から前記要求データ仕様を受信する要求データ仕様受信部、
     をさらに備える、データ利用支援装置。
  7.  請求項6に記載のデータ利用支援装置であって、
     前記利用案を前記利用者装置に送信するデータ利用案送信部、
     をさらに備える、データ利用支援装置。
  8.  データ提供装置が提供するデータである提供データの利用を支援する方法であって、
     前記データ提供装置と通信可能に接続する情報処理装置が、
     前記提供データの利用者が要求するデータである要求データの仕様が記載されたデータである要求データ仕様を記憶するステップ、及び、
     前記データ提供装置にアクセスし、前記要求データ仕様を満たすための提供データの一つ以上の組合せを抽出することにより、前記提供データの利用案を生成するステップ、
     を実行する、データ利用支援方法。
  9.  請求項8に記載のデータ利用支援方法であって、
     前記情報処理装置が、複数の前記提供データの前記組合せを抽出した際、第1の前記提供データのデータ項目の内容と第2の前記提供データのデータ項目の内容との類似度に基づき、前記組合せの容易性を評価し、前記評価の結果を示す情報を前記利用案に含めるステップ、
     をさらに実行するデータ利用支援方法。
  10.  請求項8または9に記載のデータ利用支援方法であって、
     前記情報処理装置が、前記データ提供装置にアクセスすることにより、前記組合せを構成する前記提供データの夫々のデータ量を取得し、取得した前記データ量に基づき前記組合せごとのデータ量を求め、求めた前記データ量を示す情報を前記利用案に含めるステップ、
     をさらに実行するデータ利用支援方法。
  11.  請求項8または9に記載のデータ利用支援方法であって、
     前記情報処理装置が、前記データ提供装置にアクセスすることにより、前記組合せを構成する前記提供データの夫々の利用料金を取得し、取得した前記利用料金に基づき前記組合せごとの利用料金を求め、求めた前記利用料金を前記利用案に含めるステップ、
     をさらに実行するデータ利用支援方法。
  12.  請求項8または9に記載のデータ利用支援方法であって、
     前記情報処理装置が、前記データ提供装置にアクセスすることにより、前記組合せを構成する前記提供データの夫々のデータ量と利用料金とを取得し、取得した前記データ量と前記利用料金とに基づき前記組合せごとの1件当たりの利用料金を求め、求めた前記1件当たりの利用料金を前記利用案に含めるステップ、
     をさらに実行するデータ利用支援方法。
  13.  請求項8または9に記載のデータ利用支援方法であって、
     前記情報処理装置は、前記要求データを利用する利用者装置と通信可能に接続し、
     前記情報処理装置が、前記利用者装置から前記要求データ仕様を受信するステップ、
     をさらに実行するデータ利用支援方法。
  14.  請求項13に記載のデータ利用支援方法であって、
     前記情報処理装置が前記利用案を前記利用者装置に送信するステップ、
     をさらに実行するデータ利用支援方法。
PCT/JP2019/023861 2018-07-03 2019-06-17 データ利用支援装置、及びデータ利用支援方法 WO2020008848A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-127011 2018-07-03
JP2018127011A JP7093244B2 (ja) 2018-07-03 2018-07-03 データ利用支援装置、及びデータ利用支援方法

Publications (1)

Publication Number Publication Date
WO2020008848A1 true WO2020008848A1 (ja) 2020-01-09

Family

ID=69060955

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/023861 WO2020008848A1 (ja) 2018-07-03 2019-06-17 データ利用支援装置、及びデータ利用支援方法

Country Status (2)

Country Link
JP (1) JP7093244B2 (ja)
WO (1) WO2020008848A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005050128A (ja) * 2003-07-29 2005-02-24 Nri & Ncc Co Ltd データベース利用システム及びデータベース利用プログラム
JP2005234971A (ja) * 2004-02-20 2005-09-02 Dainippon Printing Co Ltd 楽曲検索再生装置
JP2006018607A (ja) * 2004-07-01 2006-01-19 Fujitsu Ltd メタデータエディタプログラムおよびその記録媒体、メタデータ編集方法ならびにメタデータ編集装置
JP2008310370A (ja) * 2006-04-05 2008-12-25 I Business Center:Kk 検索サーバ、検索方法、及び、コンピュータを検索サーバとして機能させるためのプログラム
JP2016136354A (ja) * 2015-01-23 2016-07-28 三菱電機株式会社 データ連携推定装置、データ連携推定方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005050128A (ja) * 2003-07-29 2005-02-24 Nri & Ncc Co Ltd データベース利用システム及びデータベース利用プログラム
JP2005234971A (ja) * 2004-02-20 2005-09-02 Dainippon Printing Co Ltd 楽曲検索再生装置
JP2006018607A (ja) * 2004-07-01 2006-01-19 Fujitsu Ltd メタデータエディタプログラムおよびその記録媒体、メタデータ編集方法ならびにメタデータ編集装置
JP2008310370A (ja) * 2006-04-05 2008-12-25 I Business Center:Kk 検索サーバ、検索方法、及び、コンピュータを検索サーバとして機能させるためのプログラム
JP2016136354A (ja) * 2015-01-23 2016-07-28 三菱電機株式会社 データ連携推定装置、データ連携推定方法及びプログラム

Also Published As

Publication number Publication date
JP2020008948A (ja) 2020-01-16
JP7093244B2 (ja) 2022-06-29

Similar Documents

Publication Publication Date Title
US11544623B2 (en) Consistent filtering of machine learning data
US9864741B2 (en) Automated collective term and phrase index
CA2953817C (en) Feature processing tradeoff management
US11100420B2 (en) Input processing for machine learning
US10135804B2 (en) Mobile application based account aggregation
US10078843B2 (en) Systems and methods for analyzing consumer sentiment with social perspective insight
US20180232444A1 (en) Web api recommendations
US20200065380A1 (en) Document clearance using blockchain
US20180329948A1 (en) Natural language query resolution for high dimensionality data
JP7062750B2 (ja) 分散ストレージ環境のための認知ファイルおよびオブジェクト管理のための方法、コンピュータ・プログラムおよびシステム
Dasgupta Practical big data analytics: Hands-on techniques to implement enterprise analytics and machine learning using Hadoop, Spark, NoSQL and R
US11782913B2 (en) AI-based data virtualization
US20200387667A1 (en) Information processing device and information processing method
Lee et al. The efficient implementation of distributed indexing with Hadoop for digital investigations on Big Data
US11151308B2 (en) Electronic document processing system
US11487801B2 (en) Dynamic data visualization from factual statements in text
WO2020008848A1 (ja) データ利用支援装置、及びデータ利用支援方法
US20180181771A1 (en) Information processing apparatus, information processing system and information processing method that generate confidentialized personal information
JP7294055B2 (ja) ファイルレコメンドシステム、ファイルレコメンドプログラム、ファイルレコメンド方法、及び、ファイルレコメンド装置
US20210271654A1 (en) Contrasting Document-Embedded Structured Data and Generating Summaries Thereof
Mane et al. Big Data Forensic Analytics
Taori et al. Big Data Management
US10176607B2 (en) Interactive pattern detection in data sets
Revathi et al. Big Data Processing with Hadoop
Borden et al. Accelerating Digital Transformation on Z Using Data Virtualization

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19830738

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19830738

Country of ref document: EP

Kind code of ref document: A1